專利名稱:基于句號(hào)特征字串的中文網(wǎng)頁(yè)重復(fù)文檔檢測(cè)和過(guò)濾方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種文檔檢測(cè)方法,特別涉及一種基于句號(hào)特征字串的中文網(wǎng)頁(yè)重復(fù)文檔檢測(cè)和過(guò)濾方法。
背景技術(shù):
互聯(lián)網(wǎng)中存在著大量的近似重復(fù)的網(wǎng)頁(yè)(據(jù)統(tǒng)計(jì),中文網(wǎng)頁(yè)的重復(fù)率達(dá)29%),給搜索引擎帶來(lái)了很多問(wèn)題,大大增加了網(wǎng)頁(yè)爬取、索引建立、空間存儲(chǔ)的開(kāi)銷和負(fù)擔(dān),并大幅影響搜索引擎用戶的使用體驗(yàn)、降低了用戶的滿意度。兩個(gè)完全相同的網(wǎng)頁(yè)的檢測(cè)是比較容易的,然而在實(shí)際的情況中,幾乎很少有完全相同的網(wǎng)頁(yè)。重復(fù)網(wǎng)頁(yè)檢測(cè)的第一個(gè)主要難點(diǎn)是,首先很多網(wǎng)站尤其是新聞網(wǎng)站,會(huì)轉(zhuǎn)載同一篇報(bào)道或文章,因此,這些網(wǎng)頁(yè)內(nèi)的主題內(nèi)容是完全相同的,但各個(gè)網(wǎng)站的網(wǎng)頁(yè)上同時(shí) 會(huì)加入一些其他的不同內(nèi)容,比如廣告、網(wǎng)站聯(lián)系信息等,這些與主題內(nèi)容無(wú)關(guān)的數(shù)據(jù)會(huì)成為文檔檢測(cè)時(shí)的噪音降低文檔的相似性比較的準(zhǔn)確性;此外,也有一些網(wǎng)頁(yè)的主題內(nèi)容的文字描述不完全相同,但在實(shí)際所描述的內(nèi)容上是相同的,對(duì)此就要能提取出適當(dāng)?shù)奈臋n語(yǔ)義特征而不能完全依賴于文檔字符串的直接比較。因此,重復(fù)網(wǎng)頁(yè)檢測(cè)需要能識(shí)別出這些看似不同、但實(shí)際上內(nèi)容是相同的網(wǎng)頁(yè)。重復(fù)網(wǎng)頁(yè)檢測(cè)的第二個(gè)難點(diǎn)是,由于涉及到在數(shù)以百萬(wàn)計(jì)的文檔中進(jìn)行比較,同時(shí)由于每個(gè)文檔都具有較大的長(zhǎng)度,在一定的時(shí)間限度內(nèi)完成海量的文檔間的相互比較是一個(gè)非常耗時(shí)的計(jì)算過(guò)程,計(jì)算時(shí)間太長(zhǎng)則無(wú)法滿足搜索引擎需要定期爬取和盡快更新搜索網(wǎng)頁(yè)的實(shí)際使用需求?,F(xiàn)有的重復(fù)網(wǎng)頁(yè)檢測(cè)方法難以在檢測(cè)精度和計(jì)算性能上同時(shí)達(dá)到理想的處理效果。Shingling檢測(cè)方法,處理速度很快,檢測(cè)精度很差;Random Projection方法在性能上也有很大優(yōu)勢(shì),但在精度上也未能提升太多;Imatch方法通過(guò)強(qiáng)化文檔的語(yǔ)義信息提高檢測(cè)精度,但其計(jì)算量過(guò)大,處理速度難以滿足搜索引擎實(shí)時(shí)文檔檢測(cè)處理需求;SpotSigs使用了英文中的停詞作為區(qū)分網(wǎng)頁(yè)主題內(nèi)容和無(wú)關(guān)內(nèi)容的特征,但中文中缺少類似于英文的停詞特征。此外,雖然上述提出的方法在一定程度上可以借鑒來(lái)解決中文網(wǎng)頁(yè)的重復(fù)檢測(cè)問(wèn)題,但是由于中文與英文之間在語(yǔ)法和語(yǔ)義上存在的顯著差別,使得中文處理方法與英文處理方法有著很大的不同,尤其在新聞網(wǎng)頁(yè)的處理上,因此,這些現(xiàn)有方法都不能適用與對(duì)中文網(wǎng)頁(yè)的重復(fù)文檔檢測(cè)。
發(fā)明內(nèi)容
發(fā)明目的針對(duì)上述現(xiàn)有技術(shù)存在的問(wèn)題和不足,本發(fā)明的目的是提供一種基于句號(hào)特征字串的中文網(wǎng)頁(yè)重復(fù)文檔檢測(cè)和過(guò)濾方法,針對(duì)中文網(wǎng)頁(yè),尤其是中文新聞網(wǎng)頁(yè),首先尋找有效的檢測(cè)特征,能有效檢測(cè)出網(wǎng)頁(yè)上的有效正文部分,過(guò)濾掉網(wǎng)頁(yè)上的廣告等與主題正文內(nèi)容無(wú)關(guān)的噪音部分;在此基礎(chǔ)上,解決兩兩文檔之間的相似性度量問(wèn)題。技術(shù)方案為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明采用的技術(shù)方案為一種基于句號(hào)特征字串的中文網(wǎng)頁(yè)重復(fù)文檔檢測(cè)和過(guò)濾方法,包括如下步驟(I)提取待檢測(cè)網(wǎng)頁(yè)的句號(hào)特征字串;(2)利用所述句號(hào)特征字串對(duì)待檢測(cè)網(wǎng)頁(yè)進(jìn)行模板信息過(guò)濾以便保留和提取網(wǎng)頁(yè)主題文本內(nèi)容;(3)計(jì)算所述網(wǎng)頁(yè)主題文本內(nèi)容的相似度,判定網(wǎng)頁(yè)之間的重復(fù)關(guān)系和包含關(guān)系;(4)將具有重復(fù)關(guān)系和包含關(guān)系的網(wǎng)頁(yè)進(jìn)行聚類。
優(yōu)選地,所述句號(hào)特征字串由如下步驟定義 I)將網(wǎng)頁(yè)中句號(hào)前固定長(zhǎng)度的字符串作為該句號(hào)的特征字串抽取出來(lái);2)如果網(wǎng)頁(yè)中連續(xù)出現(xiàn)的兩個(gè)句號(hào)之間的字符串長(zhǎng)度小于該固定長(zhǎng)度,那么取后一個(gè)句號(hào)到前一個(gè)句號(hào)之間的字符作為后一個(gè)句號(hào)的特征字串;3)如果網(wǎng)頁(yè)中連續(xù)出現(xiàn)的兩個(gè)句號(hào)之間的字符串長(zhǎng)度為0,則忽略后一個(gè)句號(hào)的特征字串。優(yōu)選地,所述步驟(I)中,還包括過(guò)濾噪音句號(hào)特征字串的步驟,計(jì)算每個(gè)句號(hào)特征字串的反文檔詞頻值,并設(shè)定一閾值,將小于該閾值的反文檔詞頻值對(duì)應(yīng)的句號(hào)特征字串視為噪音句號(hào)特征字串,并過(guò)濾掉。優(yōu)選地,所述步驟(3)中,判定多個(gè)網(wǎng)頁(yè)之間的重復(fù)關(guān)系和包含關(guān)系,包括如下步驟①為所有待比較的網(wǎng)頁(yè)主題文本建立句號(hào)特征字串倒排索引,如果某個(gè)句號(hào)特征字串在多個(gè)文本中出現(xiàn),則將這些文本信息鏈接到同一鏈表中,并以該句號(hào)特征字串為鏈表的表頭,同時(shí)文本信息中包含該文本所擁有的句號(hào)特征字串的個(gè)數(shù),以便最后進(jìn)行相似度的計(jì)算;②將同一個(gè)鏈表中的所有文本分別與其它文本配對(duì)并標(biāo)記為第一標(biāo)記,每一對(duì)標(biāo)記為第一標(biāo)記的文本對(duì)表示這兩個(gè)文本擁有一個(gè)相同的句號(hào)特征字串;③合并有相同的句號(hào)特征字串的文本對(duì),并將文本對(duì)的標(biāo)記改為相同的句號(hào)特征字串的個(gè)數(shù)。更優(yōu)選地,所述步驟(3)包括假設(shè)集合a,b分別為網(wǎng)頁(yè)A和網(wǎng)頁(yè)B的句號(hào)特征字串集合,定義網(wǎng)頁(yè)A、B的公共包含相似性CCS(a,b)為
[
權(quán)利要求
1.一種基于句號(hào)特征字串的中文網(wǎng)頁(yè)重復(fù)文檔檢測(cè)和過(guò)濾方法,包括如下步驟 (1)提取待檢測(cè)網(wǎng)頁(yè)的句號(hào)特征字串; (2)利用所述句號(hào)特征字串對(duì)待檢測(cè)網(wǎng)頁(yè)進(jìn)行模板信息過(guò)濾以便保留和提取網(wǎng)頁(yè)主題文本內(nèi)容; (3)計(jì)算所述網(wǎng)頁(yè)主題文本內(nèi)容的相似度,判定網(wǎng)頁(yè)之間的重復(fù)關(guān)系和包含關(guān)系; (4)將具有重復(fù)關(guān)系和包含關(guān)系的網(wǎng)頁(yè)進(jìn)行聚類。
2.根據(jù)權(quán)利要求I所述基于句號(hào)特征字串的中文網(wǎng)頁(yè)重復(fù)文檔檢測(cè)和過(guò)濾方法,其特征在于所述句號(hào)特征字串由如下步驟定義 1)將網(wǎng)頁(yè)中句號(hào)前固定長(zhǎng)度的字符串作為該句號(hào)的特征字串抽取出來(lái); 2)如果網(wǎng)頁(yè)中連續(xù)出現(xiàn)的兩個(gè)句號(hào)之間的字符串長(zhǎng)度小于該固定長(zhǎng)度,那么取后一個(gè)句號(hào)到前一個(gè)句號(hào)之間的字符作為后一個(gè)句號(hào)的特征字串; 3)如果網(wǎng)頁(yè)中連續(xù)出現(xiàn)的兩個(gè)句號(hào)之間的字符串長(zhǎng)度為O,則忽略后一個(gè)句號(hào)的特征字串。
3.根據(jù)權(quán)利要求I所述基于句號(hào)特征字串的中文網(wǎng)頁(yè)重復(fù)文檔檢測(cè)和過(guò)濾方法,其特征在于所述步驟(I)中,還包括過(guò)濾噪音句號(hào)特征字串的步驟,計(jì)算每個(gè)句號(hào)特征字串的反文檔詞頻值,并設(shè)定一閾值,將小于該閾值的反文檔詞頻值對(duì)應(yīng)的句號(hào)特征字串視為噪音句號(hào)特征字串,并過(guò)濾掉。
4.根據(jù)權(quán)利要求I所述基于句號(hào)特征字串的中文網(wǎng)頁(yè)重復(fù)文檔檢測(cè)和過(guò)濾方法,其特征在于所述步驟(3)中,判定多個(gè)網(wǎng)頁(yè)之間的重復(fù)關(guān)系和包含關(guān)系,包括如下步驟 ①為所有待比較的網(wǎng)頁(yè)主題文本建立句號(hào)特征字串倒排索引,如果某個(gè)句號(hào)特征字串在多個(gè)文本中出現(xiàn),則將這些文本信息鏈接到同一鏈表中,并以該句號(hào)特征字串為鏈表的表頭,同時(shí)文本信息中包含該文本所擁有的句號(hào)特征字串的個(gè)數(shù),以便最后進(jìn)行相似度的計(jì)算; ②將同一個(gè)鏈表中的所有文本分別與其它文本配對(duì)并標(biāo)記為第一標(biāo)記,每一對(duì)標(biāo)記為第一標(biāo)記的文本對(duì)表不這兩個(gè)文本擁有一個(gè)相同的句號(hào)特征字串; ③合并有相同的句號(hào)特征字串的文本對(duì),并將文本對(duì)的標(biāo)記改為相同的句號(hào)特征字串的個(gè)數(shù)。
5.根據(jù)權(quán)利要求4所述基于句號(hào)特征字串的中文網(wǎng)頁(yè)重復(fù)文檔檢測(cè)和過(guò)濾方法,其特征在于所述步驟(3)包括 假設(shè)集合a,b分別為網(wǎng)頁(yè)A和網(wǎng)頁(yè)B的句號(hào)特征字串集合,定義網(wǎng)頁(yè)A、B的公共包含相似性CCS(a,b)為
6.根據(jù)權(quán)利要求I所述基于句號(hào)特征字串的中文網(wǎng)頁(yè)重復(fù)文檔檢測(cè)和過(guò)濾方法,其特征在于所述步驟(4)包括如下步驟 (A)為所有的網(wǎng)頁(yè)創(chuàng)建無(wú)向圖結(jié)構(gòu)每個(gè)網(wǎng)頁(yè)視為一個(gè)結(jié)點(diǎn),若網(wǎng)頁(yè)A和網(wǎng)頁(yè)B之間已被步驟(3)判定為具有重復(fù)關(guān)系或包含關(guān)系,則為A,B結(jié)點(diǎn)在無(wú)向圖中創(chuàng)建一條邊,則形成連同一連通分量的網(wǎng)頁(yè)結(jié)點(diǎn)屬于同一重復(fù)類; (B)找出無(wú)向圖中滿足如下關(guān)系的所有連通子圖對(duì)于無(wú)向圖中的某一結(jié)點(diǎn)A,以A為中心點(diǎn),找出與A相連通且連通路徑上的邊數(shù)小于等于2的所有結(jié)點(diǎn),這些結(jié)點(diǎn)與A構(gòu)成一個(gè)連通子圖,則屬于同一連通子圖的網(wǎng)頁(yè)結(jié)點(diǎn)構(gòu)成一個(gè)重復(fù)類; (C)保留其中網(wǎng)頁(yè)數(shù)最多的那個(gè)重復(fù)類作為該網(wǎng)頁(yè)結(jié)點(diǎn)的重復(fù)類。
7.根據(jù)權(quán)利要求I所述基于句號(hào)特征字串的中文網(wǎng)頁(yè)重復(fù)文檔檢測(cè)和過(guò)濾方法,其特征在于所述基于句號(hào)特征字串的中文網(wǎng)頁(yè)重復(fù)文檔檢測(cè)和過(guò)濾方法采用并行化處理實(shí)現(xiàn)。
全文摘要
本發(fā)明公開(kāi)了一種基于句號(hào)特征字串的中文網(wǎng)頁(yè)重復(fù)文檔檢測(cè)和過(guò)濾方法,包括如下步驟提取待檢測(cè)網(wǎng)頁(yè)的句號(hào)特征字串;利用所述句號(hào)特征字串對(duì)待檢測(cè)網(wǎng)頁(yè)進(jìn)行模板信息過(guò)濾以便保留和提取網(wǎng)頁(yè)主題文本內(nèi)容;計(jì)算所述網(wǎng)頁(yè)主題文本內(nèi)容的相似度,判定網(wǎng)頁(yè)之間的重復(fù)關(guān)系和包含關(guān)系;將具有重復(fù)關(guān)系和包含關(guān)系的網(wǎng)頁(yè)進(jìn)行聚類。本發(fā)明針對(duì)中文網(wǎng)頁(yè),尤其是中文新聞網(wǎng)頁(yè),首先尋找有效的檢測(cè)特征,能有效檢測(cè)出網(wǎng)頁(yè)上的有效正文部分,過(guò)濾掉網(wǎng)頁(yè)上的廣告等與主題正文內(nèi)容無(wú)關(guān)的噪音部分;在此基礎(chǔ)上,解決兩兩文檔之間的相似性度量問(wèn)題以及文檔重復(fù)檢測(cè)問(wèn)題;最后解決大規(guī)模重復(fù)文檔檢測(cè)時(shí)的并行化處理問(wèn)題。
文檔編號(hào)G06F17/27GK102945244SQ20121035994
公開(kāi)日2013年2月27日 申請(qǐng)日期2012年9月24日 優(yōu)先權(quán)日2012年9月24日
發(fā)明者黃宜華, 袁春風(fēng), 韋永壯, 劉玉龍, 張建 申請(qǐng)人:南京大學(xué)