亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種網(wǎng)頁(yè)信息探測(cè)方法及系統(tǒng)的制作方法

文檔序號(hào):6340985閱讀:160來(lái)源:國(guó)知局
專利名稱:一種網(wǎng)頁(yè)信息探測(cè)方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)監(jiān)控技術(shù)領(lǐng)域,具體涉及一種網(wǎng)頁(yè)信息探測(cè)方法及系統(tǒng)。
背景技術(shù)
隨著國(guó)際互聯(lián)網(wǎng)在全球范圍內(nèi)的迅猛發(fā)展,利用互聯(lián)網(wǎng)傳播和獲取各種信息,特別是新聞信息成為現(xiàn)代人的主要手段。人們通過(guò)國(guó)際互聯(lián)網(wǎng),可以很方便地在計(jì)算機(jī)屏幕上訪問(wèn)他們所需要的任何文字、圖片。同時(shí),網(wǎng)上新聞服務(wù)內(nèi)容與方式也日益增多,電子郵件、網(wǎng)絡(luò)新聞組、萬(wàn)維網(wǎng)瀏覽、網(wǎng)絡(luò)論壇等等,使得互聯(lián)網(wǎng)日漸成為大眾傳媒新興的重要載體之一?;ヂ?lián)網(wǎng)信息內(nèi)容龐雜多樣,既有大量進(jìn)步、健康、有益的信息,也有不少反動(dòng)、迷信、黃色的內(nèi)容?;ヂ?lián)網(wǎng)作為一塊正在加速膨脹的思想陣地,加上其虛擬性、隱蔽性、發(fā)散性、滲透性和隨意性等特點(diǎn),越來(lái)越多的人們?cè)敢馔ㄟ^(guò)這類渠道表達(dá)自己的個(gè)人想法,因此網(wǎng)絡(luò)輿情的爆發(fā)將以“內(nèi)容威脅”的形式逐漸對(duì)社會(huì)公共安全形成威脅。應(yīng)用網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)可以對(duì)繁雜的互聯(lián)網(wǎng)信息進(jìn)行有效的監(jiān)控,但大多數(shù)輿情監(jiān)控系統(tǒng)對(duì)不良信息的URL存在,內(nèi)容不停的刪除恢復(fù)、恢復(fù)刪除的“躲貓貓”式的經(jīng)營(yíng)方式束手無(wú)策。因此網(wǎng)絡(luò)輿情急需一種新的Web信息探測(cè)系統(tǒng),以提高Web信息探測(cè)的準(zhǔn)確率。目前,國(guó)內(nèi)外針對(duì)Web信息探測(cè)的方式主要包括以下幾種1.主要利用了 XMLHTTP的一些方法和屬性來(lái)獲取服務(wù)器的信息,獲取請(qǐng)求返回的狀態(tài)碼來(lái)檢測(cè)所訪問(wèn)URL的網(wǎng)頁(yè)是否被刪除。這種方法只能探測(cè)URL是否被刪除,而不能探測(cè)URL存在,內(nèi)容被刪除或改變這種情況,探測(cè)的準(zhǔn)確率較低。2.從HTTP響應(yīng)消息獲取狀態(tài)碼,通過(guò)判斷狀態(tài)碼是200或401來(lái)檢測(cè)URL是否被刪除,無(wú)法鑒別只是內(nèi)容被刪除的情況,準(zhǔn)確率較低。3.把域名解析成IP地址時(shí),通過(guò)判斷Sockets是否異常來(lái)檢測(cè)URL是否被刪除, 同樣無(wú)法應(yīng)對(duì)內(nèi)容被刪除的情況?,F(xiàn)有的Web信息探測(cè)方式的準(zhǔn)確率普遍較低,基本上都是依靠返回狀態(tài)碼來(lái)檢測(cè) URL是否被刪除,無(wú)法應(yīng)對(duì)URL存在,內(nèi)容被刪除或改變的情況。

發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)中存在的缺陷,本發(fā)明要解決的技術(shù)問(wèn)題是提供一種準(zhǔn)確率高的網(wǎng)頁(yè)信息探測(cè)方法及系統(tǒng)。為解決上述技術(shù)問(wèn)題,本發(fā)明采用的技術(shù)方案如下一種網(wǎng)頁(yè)信息探測(cè)方法,所述方法預(yù)先抽取網(wǎng)頁(yè)正文的關(guān)鍵詞,將從該網(wǎng)頁(yè)正文中抽取的關(guān)鍵詞與該網(wǎng)頁(yè)URL的對(duì)應(yīng)關(guān)系存儲(chǔ)到數(shù)據(jù)庫(kù)中;探測(cè)網(wǎng)頁(yè)信息時(shí),先獲取待探測(cè)網(wǎng)頁(yè)的源文件,然后從數(shù)據(jù)庫(kù)中檢索出與待探測(cè)網(wǎng)頁(yè)相同URL的關(guān)鍵詞,用所述關(guān)鍵詞與待探測(cè)網(wǎng)頁(yè)的源文件內(nèi)容進(jìn)行匹配,根據(jù)匹配程度P確定待探測(cè)網(wǎng)頁(yè)信息是否存在。
一種網(wǎng)頁(yè)信息探測(cè)系統(tǒng),包括用于抽取網(wǎng)頁(yè)正文關(guān)鍵詞的抽取裝置;用于將從網(wǎng)頁(yè)正文中抽取的關(guān)鍵詞與該網(wǎng)頁(yè)URL的對(duì)應(yīng)關(guān)系存儲(chǔ)到數(shù)據(jù)庫(kù)中的存儲(chǔ)裝置;用于獲取待探測(cè)網(wǎng)頁(yè)源文件的獲取裝置;用于從數(shù)據(jù)庫(kù)中檢索出與待探測(cè)網(wǎng)頁(yè)相同URL的關(guān)鍵詞,用所述關(guān)鍵詞與待探測(cè)網(wǎng)頁(yè)的源文件內(nèi)容進(jìn)行匹配,根據(jù)匹配程度P確定待探測(cè)網(wǎng)頁(yè)信息是否存在的探測(cè)裝置。本發(fā)明所述的方法及系統(tǒng),將從網(wǎng)頁(yè)信息中提取的關(guān)鍵詞作為探測(cè)該網(wǎng)頁(yè)信息是否存在的依據(jù),可以有力地探測(cè)到URL存在、信息發(fā)生變化的情況,大大提高了網(wǎng)頁(yè)信息探測(cè)的準(zhǔn)確率,有效地維護(hù)了良好的網(wǎng)絡(luò)環(huán)境,為互聯(lián)網(wǎng)的安全提供了保障。而且,能夠從結(jié)構(gòu)復(fù)雜、形態(tài)各異的HTML信息中提取較為準(zhǔn)確的正文信息,根據(jù)正文及標(biāo)題信息獲取與網(wǎng)頁(yè)內(nèi)容較為相關(guān)的段落摘要、關(guān)鍵詞等信息,供其它網(wǎng)絡(luò)產(chǎn)品顯示正文、摘要及關(guān)鍵詞時(shí)所用。


圖1是具體實(shí)施方式
中網(wǎng)頁(yè)信息探測(cè)系統(tǒng)的結(jié)構(gòu)框圖;圖2是具體實(shí)施方式
中網(wǎng)頁(yè)信息探測(cè)方法的流程圖;圖3是具體實(shí)施方式
中抽取網(wǎng)頁(yè)信息關(guān)鍵詞的方法流程;圖4是具體實(shí)施方式
中采用數(shù)組存儲(chǔ)文字塊的示意圖。
具體實(shí)施例方式下面結(jié)合具體實(shí)施方式
和附圖對(duì)本發(fā)明進(jìn)行詳細(xì)描述。本發(fā)明主要應(yīng)用于網(wǎng)頁(yè)地址存在、網(wǎng)頁(yè)內(nèi)容發(fā)生變化的情況下探測(cè)網(wǎng)頁(yè)信息是否存在,其核心思想是預(yù)先抽取網(wǎng)頁(yè)信息的關(guān)鍵詞,將從該網(wǎng)頁(yè)信息中抽取的關(guān)鍵詞與該網(wǎng)頁(yè)URL的對(duì)應(yīng)關(guān)系存儲(chǔ)到數(shù)據(jù)庫(kù)中,作為探測(cè)該網(wǎng)頁(yè)信息的證據(jù);探測(cè)網(wǎng)頁(yè)信息時(shí),先獲取待探測(cè)網(wǎng)頁(yè)的源文件,然后從數(shù)據(jù)庫(kù)中檢索出與待探測(cè)網(wǎng)頁(yè)相同URL的關(guān)鍵詞,用該關(guān)鍵詞與待探測(cè)網(wǎng)頁(yè)的源文件內(nèi)容進(jìn)行匹配,根據(jù)匹配程度確定待探測(cè)網(wǎng)頁(yè)信息是否存在。圖1示出了本實(shí)施方式中網(wǎng)頁(yè)信息探測(cè)系統(tǒng)的結(jié)構(gòu)。如圖1所示,該系統(tǒng)包括抽取裝置11,與抽取裝置11連接的存儲(chǔ)裝置12 ;獲取裝置13,與獲取裝置13連接的過(guò)濾裝置15,與過(guò)濾裝置15連接的匹配裝置14。抽取裝置11用于抽取網(wǎng)頁(yè)信息的關(guān)鍵詞。存儲(chǔ)裝置12用于將從網(wǎng)頁(yè)信息中抽取的關(guān)鍵詞與該網(wǎng)頁(yè)URL的對(duì)應(yīng)關(guān)系存儲(chǔ)到數(shù)據(jù)庫(kù)中,作為探測(cè)依據(jù)。獲取裝置13用于獲取待探測(cè)網(wǎng)頁(yè)的源文件。過(guò)濾裝置15用于過(guò)濾待探測(cè)網(wǎng)頁(yè)源文件中的無(wú)用信息,包括標(biāo)題。探測(cè)裝置14用于從數(shù)據(jù)庫(kù)中檢索出與待探測(cè)網(wǎng)頁(yè)相同URL的關(guān)鍵詞,用所述關(guān)鍵詞與待探測(cè)網(wǎng)頁(yè)的源文件內(nèi)容進(jìn)行匹配,根據(jù)匹配程度確定待探測(cè)網(wǎng)頁(yè)信息是否存在。圖2示出了采用圖1所示系統(tǒng)探測(cè)網(wǎng)頁(yè)信息的方法流程。如圖2所示,該方法包括以下步驟(1)獲取裝置13獲取待探測(cè)網(wǎng)頁(yè)的HTML源文件。
(2)過(guò)濾裝置15過(guò)濾待探測(cè)網(wǎng)頁(yè)源文件中的無(wú)用信息,包括標(biāo)題,獲取一個(gè)較為干凈的文字信息源文件。先預(yù)定義無(wú)用HTML標(biāo)簽庫(kù),存儲(chǔ)無(wú)用的HTML標(biāo)簽。所述無(wú)用的HTML標(biāo)簽包括頭標(biāo)簽類、程式語(yǔ)句類、多媒體語(yǔ)句類、修飾類、表單輸入類、鏈接類等類型標(biāo)簽。根據(jù)源文件信息并結(jié)合無(wú)用HTML標(biāo)簽庫(kù),通過(guò)組織特定的正則表達(dá)式語(yǔ)句的方式刪除無(wú)用標(biāo)簽及標(biāo)簽所修飾的內(nèi)容,只保留可劃分區(qū)域類的標(biāo)簽及標(biāo)簽中的內(nèi)容。此處過(guò)濾掉標(biāo)題標(biāo)簽內(nèi)的內(nèi)容,是為了防止頁(yè)面信息被刪除、標(biāo)題存在的情況干擾探測(cè)。(3)匹配裝置14從數(shù)據(jù)庫(kù)中讀取與待探測(cè)網(wǎng)頁(yè)相同URL的關(guān)鍵詞,然后匹配讀取的關(guān)鍵詞與過(guò)濾后的待探測(cè)網(wǎng)頁(yè)源文件信息。用數(shù)據(jù)庫(kù)中留存的關(guān)鍵詞證據(jù)與文字信息源文件進(jìn)行匹配,根據(jù)匹配程度P探測(cè)網(wǎng)頁(yè)信息是否存在。匹配程度P可以根據(jù)具體應(yīng)用環(huán)境來(lái)決定是完全匹配還是部分匹配。圖3示出了本實(shí)施方式中抽取網(wǎng)頁(yè)信息關(guān)鍵詞的方法流程。如圖3所示,抽取過(guò)程包括以下步驟(a)讀取網(wǎng)頁(yè)的源文件信息。讀取網(wǎng)頁(yè)源文件時(shí),首先通過(guò)模擬HTTP請(qǐng)求返回信息狀態(tài)碼。如果狀態(tài)碼非200 或有異常出現(xiàn),則可以直接斷定該URL的網(wǎng)頁(yè)信息已被刪除;如果正常返回200,則通過(guò) HttpMethodBase的getResponseBody ()方法獲取網(wǎng)頁(yè)源文件的字節(jié)數(shù)組及其編碼格式,通過(guò)編碼格式將源文件字節(jié)數(shù)組轉(zhuǎn)化為字符形式的源文件信息。(b)從源文件信息中獲取網(wǎng)頁(yè)的標(biāo)題信息。根據(jù)源文件信息,通過(guò)標(biāo)簽匹配或者正則表達(dá)式的方式獲取標(biāo)題標(biāo)簽中的標(biāo)題信息,并用Lucene “庖丁解?!钡姆衷~方法,對(duì)標(biāo)題進(jìn)行分詞。如果無(wú)標(biāo)題,或者標(biāo)題簡(jiǎn)短、無(wú)法分詞,則后續(xù)探測(cè)操作可以不用標(biāo)題作為參照,返回的標(biāo)題可以為空。(c)從源文件信息中提取正文,具體過(guò)程如下(i)過(guò)濾源文件中的無(wú)用信息。根據(jù)源文件信息并結(jié)合無(wú)用HTML標(biāo)簽庫(kù),通過(guò)組織特定的正則表達(dá)式語(yǔ)句的方式刪除無(wú)用標(biāo)簽及標(biāo)簽所修飾的內(nèi)容,依次刪除頭標(biāo)簽類、程式語(yǔ)句類、多媒體語(yǔ)句類、修飾類、表單輸入類、鏈接類等標(biāo)簽及標(biāo)簽中信息內(nèi)容,只保留可劃分區(qū)域類的標(biāo)簽及標(biāo)簽中信息內(nèi)容。(ii)拆分過(guò)濾后的源文件信息。根據(jù)劃分區(qū)域類標(biāo)簽對(duì)過(guò)濾后的源文件信息執(zhí)行現(xiàn)有的字符截取算法,截取過(guò)濾后的源文件信息為各個(gè)文字塊,并可獲取任意兩相鄰文字塊之間各種劃分區(qū)域類標(biāo)簽的數(shù)量。例如假設(shè)過(guò)濾后源文件A僅由A1和A2兩文字塊組成,A1和A2之間僅隨機(jī)排列B1 和化兩種劃分區(qū)域類標(biāo)簽,數(shù)量分別為H1和n2。根據(jù)字符截取算法,可先依據(jù)標(biāo)簽B1截取 A,獲取Abi和Ab2兩塊,以及兩塊之間標(biāo)簽B1數(shù)Ii1,組合Abi和Ab2兩塊,得到無(wú)標(biāo)簽B1的源文件塊A,繼續(xù)依據(jù)標(biāo)簽化截取A,獲取新的Abi和Ab2兩塊,以及兩塊之間標(biāo)簽化數(shù)n2,依此類推。將過(guò)濾后的源文件信息拆分成若干文字塊后,存儲(chǔ)各文字塊中的文字內(nèi)容(不含標(biāo)簽),及其與下一個(gè)文字塊塊之間的距離。具體可采用如下兩種存儲(chǔ)方式之一①通過(guò)鏈表(list)存儲(chǔ),存儲(chǔ)類型可包含兩個(gè)屬性,分別為文字塊中的文字內(nèi)容和與相鄰的下一個(gè)文字塊之間的距離。②通過(guò)字符數(shù)組存儲(chǔ),將文字塊中的文字內(nèi)容(簡(jiǎn)稱文字塊)離散地存放在數(shù)組中,兩相鄰文字塊之間的距離可用兩文字塊存儲(chǔ)位置在數(shù)組中相隔的空值數(shù)標(biāo)識(shí)。如圖4 所示,在文字塊1和文字塊2之間的空值數(shù)為2,即表示文字塊1和文字塊2之間的距離為 2。相鄰文字塊之間的距離可以由劃分區(qū)域類標(biāo)簽在源文件信息中出現(xiàn)的頻率為權(quán)重,結(jié)合其數(shù)量決定。具體的計(jì)算方法為假設(shè)兩相鄰文字塊為A1和A2,劃分區(qū)域類標(biāo)簽有 Β?!ぁうⅵ?,標(biāo)簽權(quán)重為,在A1和A2之間劃分區(qū)域類標(biāo)簽數(shù)量分別為nB1…ηΒη,則A1和A2
之間距離dA1A2的計(jì)算公式為dA1A2 = 父界份+!^父界似+…+^^界如。上述權(quán)重值也可以由用戶結(jié)合具體應(yīng)用環(huán)境配置。兩相鄰文字塊之間的距離也可以采用其他方法計(jì)算,只要能夠表示出文字塊之間的相對(duì)距離大小即可。拆分文字塊的原因在于網(wǎng)頁(yè)信息的繁雜性,正文信息中間往往會(huì)插入一些例如廣告等無(wú)用信息,致使從源文件的角度上看正文并不一定是一個(gè)完整的塊,可能比較分散。(iii)確定正文樣本。選取文字塊中包含文字內(nèi)容最多的一塊(該塊需要滿足設(shè)定的長(zhǎng)度等條件限制, 可由用戶依據(jù)具體應(yīng)用環(huán)境確定,例如不少于20個(gè)文字),以該塊為基準(zhǔn)向上下輻射,根據(jù)上下各塊的文字?jǐn)?shù)與該塊的距離比值(即文字密集度)與設(shè)定閾值之間的關(guān)系(閾值可通過(guò)抽樣實(shí)驗(yàn)獲得)限定正文上極限塊和下極限塊,將上下極限塊及其中間的內(nèi)容作為正文樣本。具體的,假設(shè)包含文字內(nèi)容最多的文字塊為A,包含的文字?jǐn)?shù)為a;與其相鄰的上一個(gè)文字塊為A1,包含的文字?jǐn)?shù)為% ;與其相鄰的下一個(gè)文字塊為A2,包含的文字?jǐn)?shù)為%。 文字塊A1與文字塊A的距離為屯,文字塊A與文字塊A2的距離為d2。閾值為M,閾值M的大小可根據(jù)具體應(yīng)用環(huán)境由用戶設(shè)定。如果 /屯=M1彡M并且a2/d2 = M2彡M,則表明與文字塊A上下相鄰的文字塊A1 和A2都達(dá)到了可以聚合為正文的標(biāo)準(zhǔn)。取M1和M2的均值Mavg作為計(jì)算上下極限塊的衡量標(biāo)準(zhǔn)。這樣,衡量標(biāo)準(zhǔn)實(shí)際是根據(jù)探測(cè)網(wǎng)頁(yè)的具體情況提取的,具體問(wèn)題具體分析,可以提高探測(cè)效率。如果M1和M2中只有一個(gè)不小于閾值M,則可取不小于M的值與M均值Mavg作為計(jì)算上下極限塊的衡量標(biāo)準(zhǔn)。如果都不符合,則表明正文沒(méi)有分塊無(wú)需上下輻射聚合,直接將文字塊A作為正文樣本。計(jì)算出Mavg后,可對(duì)文字塊A進(jìn)行整合。如果Ei1M1 = M1彡M并且£i2/d2 = M2彡M, 則令A(yù)' =~+A+A2,即將文字塊A1和文字塊A2中的文字內(nèi)容整合到文字塊A中。然后以A1 為基準(zhǔn)向上輻射,以其相鄰的上一個(gè)文字塊Asl包含的文字?jǐn)?shù)和A1Asl距離dsl的比值與Mavg 比較。如果比值大于MOTg,則將Asl中的文字內(nèi)容整合到A中,繼續(xù)以Asl為基準(zhǔn)向上輻射, 直至不符合條件的文字塊為止。同樣,再以A2為基準(zhǔn)向下輻射,直到不符合條件的文字塊為止。將最終的文字塊A作為正文樣本。
如果M1和M2中只有一個(gè)不小于閾值M,如M1彡M,則將文字塊A1的內(nèi)容整合到A 中,即令A(yù)' =Ai+A。然后以A1為基準(zhǔn)向上輻射,直至不符合條件的文字塊。由于M2<M, 不符合輻射條件,因此無(wú)需向下輻射。將最終的文字塊A'作為正文樣本。一般情況下,文字?jǐn)?shù)越多,文字塊與文字塊之間宏觀距離越小,為正文的概率越高。這里主要是依據(jù)文字?jǐn)?shù)和距離的比值與是正文的概率成正比。(iv)驗(yàn)證正文樣本。用標(biāo)題分詞與正文樣本進(jìn)行比較,以匹配程度作為依據(jù)來(lái)驗(yàn)證正文樣本是否為正文。所述匹配程度即標(biāo)題分詞在正文樣本中出現(xiàn)的數(shù)量及頻率的綜合值(數(shù)量及頻率的權(quán)重可由用戶確定)。具體的,假設(shè)標(biāo)題可切分出W1-Wn個(gè)分詞,樣本訓(xùn)練后得出權(quán)重為vwn,在正文中的匹配數(shù)量分別為nwl…riwn。樣本訓(xùn)練為現(xiàn)有算法,基本實(shí)現(xiàn)原理是將正文切詞,以各詞在正文中出現(xiàn)的次數(shù)和樣本訓(xùn)練軟件維護(hù)的一個(gè)關(guān)鍵詞庫(kù)及各關(guān)鍵詞權(quán)重(此關(guān)鍵詞庫(kù)主要維護(hù)互聯(lián)網(wǎng)上一些常用關(guān)鍵詞,各關(guān)鍵詞在長(zhǎng)期統(tǒng)計(jì)中會(huì)保存一個(gè)權(quán)重值。另外,“你、 我、他”等常用詞不包含在內(nèi))綜合計(jì)算出若干關(guān)鍵詞及各詞權(quán)重。匹配程度P'的計(jì)算公式如下P' = nwlXWl+nw2XW2+...+nwnXWn。(記為公式 1)如果P'不小于設(shè)定的閾值M',則通過(guò)驗(yàn)證;否則驗(yàn)證失敗。閾值M'可根據(jù)具體應(yīng)用環(huán)境由用戶設(shè)定。如果驗(yàn)證失敗,則返回步驟(iii),忽略包含文字內(nèi)容最多的文字塊A,以文字內(nèi)容次多的文字塊B為基準(zhǔn),按照步驟(iii)中的方法,確定正文樣本。但保留文字塊A與上下塊的距離,防止干擾以文字塊B為基準(zhǔn)的文字密集程度的精確性。例如,文字塊A的上下文字塊分別為B和C,文字塊A為基準(zhǔn)的正文樣本沒(méi)有通過(guò)驗(yàn)證,但A與B、C之間的距離仍然存在,這樣B、C之間的距應(yīng)該是A、B與A、C的距離之和,若忽略這部分距離則造成B、C 之間的距離為0,勢(shì)必會(huì)影響精確性。以此類推,直到正文樣本通過(guò)驗(yàn)證,將該正文樣本作為正文。如果所有正文樣本都沒(méi)有通過(guò)驗(yàn)證,即所有文字塊都無(wú)法結(jié)合成有意義的正文,則表明該URL的網(wǎng)頁(yè)信息無(wú)正文或正文簡(jiǎn)略無(wú)實(shí)際含義,可視為已刪除。如果無(wú)法獲取標(biāo)題,則取消標(biāo)題分詞驗(yàn)證正文樣本這一步驟,直接將正文樣本作為正文。這時(shí)弱化正文的顯示含義,強(qiáng)調(diào)正文提取關(guān)鍵詞探測(cè)網(wǎng)頁(yè)信息是否存在的作用。(d)從正文中提取關(guān)鍵詞。首先截取已確定正文中的各段,統(tǒng)計(jì)每段中包含的文字?jǐn)?shù),以文字?jǐn)?shù)、與標(biāo)題匹配程度為根據(jù)抽取摘要。所述摘要并非正文的概要,而是正文中的一部分內(nèi)容,用于從中抽取關(guān)鍵詞。摘要可作為其它網(wǎng)絡(luò)產(chǎn)品的信息摘要使用。摘要的具體抽取方法如下如果無(wú)標(biāo)題,則直接將正文中包含文字?jǐn)?shù)最多的段落作為摘要。如果有標(biāo)題,則采用下述公式計(jì)算正文中包含文字?jǐn)?shù)最多的段落與標(biāo)題的匹配程度P"尸"= W^1XW1 + “ XW2 +.·. + 二 xw 。其中,W1-Wn分別表示標(biāo)題分詞W1-Wn的權(quán)重,與公式1中該參數(shù)表示的含義及數(shù)值相同;《?!ぁぁ?lt; 分別表示標(biāo)題分詞在包含文字?jǐn)?shù)最多的段落中的匹配數(shù)量。如果匹配程度P"大于0,則通過(guò)驗(yàn)證,將該段作為摘要。否則驗(yàn)證正文中包含文字?jǐn)?shù)次多的文字塊,依此類推。提取出摘要后,對(duì)摘要進(jìn)行分詞,結(jié)合摘要分詞和標(biāo)題分詞抽取出若干關(guān)鍵詞,具體的抽取過(guò)程如下以標(biāo)題分詞為基準(zhǔn),采用下述公式計(jì)算標(biāo)題分詞在摘要中的匹配程度P'“
權(quán)利要求
1.一種網(wǎng)頁(yè)信息探測(cè)方法,其特征在于所述方法預(yù)先抽取網(wǎng)頁(yè)信息的關(guān)鍵詞,將從該網(wǎng)頁(yè)信息中抽取的關(guān)鍵詞與該網(wǎng)頁(yè)URL的對(duì)應(yīng)關(guān)系存儲(chǔ)到數(shù)據(jù)庫(kù)中;探測(cè)網(wǎng)頁(yè)信息時(shí), 先獲取待探測(cè)網(wǎng)頁(yè)的源文件,然后從數(shù)據(jù)庫(kù)中檢索出與待探測(cè)網(wǎng)頁(yè)相同URL的關(guān)鍵詞,用所述關(guān)鍵詞與待探測(cè)網(wǎng)頁(yè)的源文件內(nèi)容進(jìn)行匹配,根據(jù)匹配程度P確定待探測(cè)網(wǎng)頁(yè)信息是否存在。
2.如權(quán)利要求1所述的網(wǎng)頁(yè)信息探測(cè)方法,其特征在于所述抽取網(wǎng)頁(yè)信息的關(guān)鍵詞的方法如下(1)獲取網(wǎng)頁(yè)的源文件信息;(2)從源文件信息中提取正文;(3)從正文中提取關(guān)鍵詞。
3.如權(quán)利要求2所述的網(wǎng)頁(yè)信息探測(cè)方法,其特征在于步驟(1)中獲取網(wǎng)頁(yè)源文件信息的過(guò)程如下首先通過(guò)模擬Http請(qǐng)求返回信息狀態(tài)碼;如果狀態(tài)碼非200或有異常出現(xiàn),則認(rèn)定該網(wǎng)頁(yè)信息已被刪除;否則,獲取網(wǎng)頁(yè)源文件的字節(jié)數(shù)組及其編碼格式,通過(guò)編碼格式將源文件字節(jié)數(shù)組轉(zhuǎn)化為字符形式的源文件信息。
4.如權(quán)利要求3所述的網(wǎng)頁(yè)信息探測(cè)方法,其特征在于步驟(1)中獲取網(wǎng)頁(yè)源文件信息后,提取網(wǎng)頁(yè)源文件信息中的標(biāo)題,并對(duì)標(biāo)題進(jìn)行分詞;如果無(wú)標(biāo)題或者標(biāo)題無(wú)法分詞,則設(shè)定標(biāo)題為空。
5.如權(quán)利要求4所述的網(wǎng)頁(yè)信息探測(cè)方法,其特征在于所述方法在從源文件信息中提取正文之前,先對(duì)源文件信息進(jìn)行過(guò)濾,只保留劃分區(qū)域類標(biāo)簽及標(biāo)簽中的信息。
6.如權(quán)利要求5所述的網(wǎng)頁(yè)信息探測(cè)方法,其特征在于步驟O)中所述提取正文的方法如下(a)根據(jù)劃分區(qū)域類標(biāo)簽將過(guò)濾后的源文件信息拆分成若干文字塊,并存儲(chǔ)每個(gè)文字塊中的文字內(nèi)容及與相鄰的下一個(gè)文字塊之間的距離;(b)選取文字塊中包含文字信息最多的一塊,將該塊作為基準(zhǔn)文字塊;(c)以基準(zhǔn)文字塊為基準(zhǔn),根據(jù)上下各文字塊中的文字?jǐn)?shù)與該基準(zhǔn)文字塊的距離比值與設(shè)定閾值的關(guān)系確定正文上極限塊和下極限塊,將上下極限塊及其之間的內(nèi)容作為正文樣本。
7.如權(quán)利要求6所述的網(wǎng)頁(yè)信息探測(cè)方法,其特征在于步驟(a)中,通過(guò)鏈表存儲(chǔ)每個(gè)文字塊中的文字內(nèi)容及下一個(gè)文字塊之間的距離,存儲(chǔ)類型包含兩個(gè)屬性,分別為文字塊中的文字內(nèi)容和與相鄰的下一個(gè)文字塊之間的距離。
8.如權(quán)利要求6所述的網(wǎng)頁(yè)信息探測(cè)方法,其特征在于步驟(a)中,通過(guò)字符數(shù)組存儲(chǔ)每個(gè)文字塊中的文字內(nèi)容及下一個(gè)文字塊之間的距離,將文字塊中的文字內(nèi)容離散地存放在數(shù)組中,兩相鄰文字塊之間的距離用兩文字塊中的文字內(nèi)容存儲(chǔ)位置在數(shù)組中相隔的空值數(shù)標(biāo)識(shí)。
9.如權(quán)利要求6 8中任一項(xiàng)所述的網(wǎng)頁(yè)信息探測(cè)方法,其特征在于步驟(a)中,文字塊和與其相鄰的下一個(gè)文字塊之間的距離計(jì)算方法如下假設(shè)兩相鄰文字塊為A1和A2,劃分區(qū)域類標(biāo)簽有Bn,標(biāo)簽權(quán)重為wB2,在A1和 A2之間劃分區(qū)域類標(biāo)簽數(shù)量分別為ηΒ1···ηΒη,則A1和A2之間距離dA1A2的計(jì)算公式為dA1A2 =nB1 X wB1+nB2 X wB2+... +nBn X wBno
10.如權(quán)利要求6 8中任一項(xiàng)所述的網(wǎng)頁(yè)信息探測(cè)方法,其特征在于步驟(c)中所述根據(jù)上下各文字塊中的文字?jǐn)?shù)與基準(zhǔn)文字塊的距離比值與設(shè)定閾值的關(guān)系確定正文上極限塊和下極限塊的方法如下設(shè)基準(zhǔn)文字塊為A,包含的文字?jǐn)?shù)為a ;與其相鄰的上一個(gè)文字塊為A1,包含的文字?jǐn)?shù)為^ ;與其相鄰的下一個(gè)文字塊為A2,包含的文字?jǐn)?shù)為% ;文字塊A1與文字塊A之間的距離為屯,文字塊A與文字塊A2之間的距離為d2 ;閾值為M ;如果Vd1 = M1彡M并且a2/d2 = M2彡M,則取M1和M2的均值Mavg作為計(jì)算上下極限塊的衡量標(biāo)準(zhǔn);如果M1和M2中只有一個(gè)不小于M,則取大于M的值與M均值Mavg作為計(jì)算上下極限塊的衡量標(biāo)準(zhǔn);如果都不符合,則直接將文字塊A作為正文樣本;計(jì)算出Mavg后,對(duì)文字塊A進(jìn)行如下整合如果V^d1 =M1 并且a2/d2 = M2 >M,則令A(yù)' = Ai+A+A2 ;然后以A1為基準(zhǔn)向上福射,以其相鄰的上一個(gè)文字塊Asl包含的文字?jǐn)?shù)和A1Asl距離dsl的比值與Mavg比較,如果比值大于Mavg,則將Asl中的文字內(nèi)容整合到A中,繼續(xù)以Asl為基準(zhǔn)向上輻射,直至不符合條件的文字塊為止;同樣,再以A2為基準(zhǔn)向下輻射,直到不符合條件的文字塊為止;將最終的文字塊A作為正文樣本;如果M1和M2中只有一個(gè)不小于M,假設(shè)M1彡M,則令A(yù)' = A^A ;然后以A1為基準(zhǔn)向上輻射,直至不符合條件的文字塊;將最終的文字塊A'作為正文樣本。
11.如權(quán)利要求6 8中任一項(xiàng)所述的網(wǎng)頁(yè)信息探測(cè)方法,其特征在于如果標(biāo)題為空,則直接將步驟(b)中所述正文樣本作為正文;否則,進(jìn)行如下操作(i)根據(jù)標(biāo)題分詞對(duì)正文樣本進(jìn)行驗(yàn)證;( )如果驗(yàn)證失敗,則以文字?jǐn)?shù)次多的文字塊為基準(zhǔn)文字塊,重復(fù)步驟(c)后,轉(zhuǎn)至步驟(i);如果驗(yàn)證成功,則將正文樣本作為正文。
12.如權(quán)利要求11所述的網(wǎng)頁(yè)信息探測(cè)方法,其特征在于步驟(i)所述根據(jù)標(biāo)題分詞對(duì)正文樣本進(jìn)行驗(yàn)證的方法如下將標(biāo)題分詞與正文樣本進(jìn)行匹配,以匹配程度P'為依據(jù)驗(yàn)證正文樣本是否為正文; 如果匹配程度P'不小于設(shè)定閾值M',則通過(guò)驗(yàn)證;否則,驗(yàn)證失敗。
13.如權(quán)利要求12所述的網(wǎng)頁(yè)信息探測(cè)方法,其特征在于所述匹配程度P'的計(jì)算方法如下假設(shè)標(biāo)題分詞分別為,標(biāo)題分詞的權(quán)重分別為W^in,標(biāo)題分詞在正文中的匹配數(shù)量分別為ηψ1···ιν;P' =IIwlXwAnw2XwfHqnwnXw1^
14.如權(quán)利要求4所述的網(wǎng)頁(yè)信息探測(cè)方法,其特征在于步驟(3)中,所述從正文中提取關(guān)鍵詞的方法如下①截取正文中的各段,統(tǒng)計(jì)每段中包含的文字?jǐn)?shù);②從正文中提取出摘要如果標(biāo)題為空,則直接將正文中包含文字?jǐn)?shù)最多的段落作為摘要;如果標(biāo)題非空,則對(duì)標(biāo)題進(jìn)行分詞,采用如下公式計(jì)算正文中包含文字?jǐn)?shù)最多的段落與標(biāo)題的匹配程度P"
15.如權(quán)利要求1所述的網(wǎng)頁(yè)信息探測(cè)方法,其特征在于在用所述關(guān)鍵詞與待探測(cè)網(wǎng)頁(yè)的源文件內(nèi)容進(jìn)行匹配之前,先對(duì)待探測(cè)網(wǎng)頁(yè)的源文件內(nèi)容進(jìn)行過(guò)濾,過(guò)濾掉無(wú)用信息; 所述無(wú)用信息包括標(biāo)題。
16.一種網(wǎng)頁(yè)信息探測(cè)系統(tǒng),包括用于抽取網(wǎng)頁(yè)正文關(guān)鍵詞的抽取裝置(11);用于將從網(wǎng)頁(yè)正文中抽取的關(guān)鍵詞與該網(wǎng)頁(yè)URL的對(duì)應(yīng)關(guān)系存儲(chǔ)到數(shù)據(jù)庫(kù)中的存儲(chǔ)裝置(12);用于獲取待探測(cè)網(wǎng)頁(yè)源文件的獲取裝置(13);用于從數(shù)據(jù)庫(kù)中檢索出與待探測(cè)網(wǎng)頁(yè)相同URL的關(guān)鍵詞,用所述關(guān)鍵詞與待探測(cè)網(wǎng)頁(yè)的源文件內(nèi)容進(jìn)行匹配,根據(jù)匹配程度P確定待探測(cè)網(wǎng)頁(yè)信息是否存在的匹配裝置(14)。
17.如權(quán)利要求16所述的網(wǎng)頁(yè)信息探測(cè)系統(tǒng),其特征在于所述系統(tǒng)還包括用于過(guò)濾網(wǎng)頁(yè)源文件中的無(wú)用信息的過(guò)濾裝置(15)。
全文摘要
本發(fā)明公開(kāi)了一種網(wǎng)頁(yè)信息探測(cè)方法及系統(tǒng)。本發(fā)明預(yù)先抽取網(wǎng)頁(yè)正文的關(guān)鍵詞,將從該網(wǎng)頁(yè)正文中抽取的關(guān)鍵詞與該網(wǎng)頁(yè)URL的對(duì)應(yīng)關(guān)系存儲(chǔ)到數(shù)據(jù)庫(kù)中;探測(cè)網(wǎng)頁(yè)信息時(shí),先獲取待探測(cè)網(wǎng)頁(yè)的源文件,然后從數(shù)據(jù)庫(kù)中檢索出與待探測(cè)網(wǎng)頁(yè)相同URL的關(guān)鍵詞,用所述關(guān)鍵詞與待探測(cè)網(wǎng)頁(yè)的源文件內(nèi)容進(jìn)行匹配,根據(jù)匹配程度確定待探測(cè)網(wǎng)頁(yè)信息是否存在。本發(fā)明能夠提高網(wǎng)頁(yè)信息探測(cè)的準(zhǔn)確率。
文檔編號(hào)G06F21/00GK102541937SQ20101061840
公開(kāi)日2012年7月4日 申請(qǐng)日期2010年12月22日 優(yōu)先權(quán)日2010年12月22日
發(fā)明者吳新麗, 孫紅娥, 張丹, 楊建武, 梁汝峰, 王松 申請(qǐng)人:北京北大方正電子有限公司, 北京大學(xué), 北大方正集團(tuán)有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1