專利名稱:一種基于文檔簽名技術(shù)的相似文檔識別裝置及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)挖掘與信息檢索技術(shù),尤其涉及一種基于文檔簽名技術(shù)的相似文檔識別裝置及方法。
背景技術(shù):
本發(fā)明所稱文檔,不僅指傳統(tǒng)的結(jié)構(gòu)化文本文檔,也包括半結(jié)構(gòu)化的超文本標(biāo)記語言(HTML)網(wǎng)頁、圖片、視頻 等多媒體數(shù)據(jù)。鑒于文本類文檔應(yīng)用范圍較廣,本說明書將以文本類文檔為例進(jìn)行說明。相似文檔識別對于許多應(yīng)用領(lǐng)域有著重要意義。以信息檢索領(lǐng)域為例,有相關(guān)統(tǒng)計數(shù)據(jù)指出,互聯(lián)網(wǎng)中存在40%以上的重復(fù)或是相似網(wǎng)頁。在新聞、視頻、圖片等垂直搜索產(chǎn)品中,由于轉(zhuǎn)載、分享等操作也產(chǎn)生了大量相似內(nèi)容。識別出這些相似網(wǎng)頁不僅有利于提高數(shù)據(jù)處理效率,更有助于降低搜索結(jié)果重復(fù)率以改善用戶體驗。此外,相似文檔識別在抄襲檢測、機器翻譯等領(lǐng)域也有著重要應(yīng)用。傳統(tǒng)的重復(fù)文本識別技術(shù)方案采用計算文檔MD5值等加密哈希技術(shù),只能解決內(nèi)容完全相同的重復(fù)文檔識別問題。然而,相似文檔在轉(zhuǎn)載過程中的少許改動可能使得內(nèi)容上存在一些差異,導(dǎo)致加密哈希技術(shù)的失效。目前文本相似性識別主要采用基于向量空間模型(Vector Space Model)的方法,如公開號為CN 102314418,名稱為“一種基于上下文關(guān)聯(lián)的中文相似度比較方法”的發(fā)明申請(以下稱文獻(xiàn)I),其將目標(biāo)文檔抽象成文本向量空間中的一個向量,文檔中出現(xiàn)的關(guān)鍵詞作為該向量的一個維度,通常使用該關(guān)鍵詞在文檔中出現(xiàn)的次數(shù)作為對應(yīng)維度的值??梢杂嬎銉蓚€向量的余弦相似度作為兩個文檔的相似度量?;谙蛄靠臻g模型的方法一定程度上解決了相似內(nèi)容的識別,但是其空間消耗巨大,需要存儲每個文檔的內(nèi)容數(shù)據(jù),或是壓縮后仍然正比于文檔內(nèi)容長度的文本向量信息。公開號為CN101576904,名稱為“一種基于有權(quán)圖來計算文本內(nèi)容相似度的系統(tǒng)與方法“的發(fā)明申請(以下稱文獻(xiàn)2),其采用從文檔集合中構(gòu)造出有權(quán)圖,并基于有權(quán)圖計算圖中任意兩個節(jié)點之間的相似度,進(jìn)而得到文檔的相似度的方法。但該方法只能處理靜態(tài)的文檔集合,不適用于信息檢索等流式處理的應(yīng)用場
旦
-5^ O
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的主要目的在于提供一種基于文檔簽名技術(shù)的相似文檔識別裝置及方法,以解決現(xiàn)有相似文本識別技術(shù)中空間復(fù)雜度高、無法應(yīng)對文本流式處理的應(yīng)用需求,以及空間效率高的重復(fù)文本識別技術(shù)又無法識別相似文本等的問題;還在于為流式的海量文檔提供一種快速的相似性識別方法。為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實現(xiàn)的
一種基于文檔簽名技術(shù)的相似文檔識別裝置,主要包括內(nèi)容提取模塊,特征抽取模塊,文檔簽名計算模塊,文檔簽名索引模塊以及相似文檔查找模塊;其中內(nèi)容提取模塊,用于抽取目標(biāo)文檔的文檔標(biāo)題、正文的文字內(nèi)容,得到正文內(nèi)容;特征抽取模塊,用于將所述正文內(nèi)容轉(zhuǎn)換為對應(yīng)的〈token, weight) 二元組集合的特征表示形式,并傳遞給所述文檔簽名計算模塊;
文檔簽名計算模塊,用于將原始token轉(zhuǎn)化為對應(yīng)的哈希值,并結(jié)合當(dāng)前token對應(yīng)的權(quán)重weight更新文檔簽名值,得到最終的固定長度的文檔簽名值;
文檔簽名索引模塊,用于將上述的文檔簽名將存儲在文檔簽名索引模塊,或直接存儲整個簽名庫集合;以及
相似文檔查找模塊,在已有的文檔簽名索引中查找與其距離小于一定閾值d的文檔簽名,并將返回相似文檔對應(yīng)的文檔簽名作為目標(biāo)文檔的最終ID。其中,所述距離為二進(jìn)制編碼的海明距離,所述閾值d為3。一種基于文檔簽名技術(shù)的相似文檔識別方法,包括
A、抽取目標(biāo)文檔的文檔標(biāo)題、正文的文字內(nèi)容,得到正文內(nèi)容的步驟;
B、將所述正文內(nèi)容轉(zhuǎn)換為對應(yīng)的〈token,weight) 二元組集合的特征表示形式,并傳遞給所述文檔簽名計算模塊的步驟;
C、將原始token轉(zhuǎn)化為對應(yīng)的哈希值,并結(jié)合當(dāng)前token對應(yīng)的權(quán)重weight更新文檔簽名值,得到最終的固定長度的文檔簽名值的步驟;
D、將上述的文檔簽名存儲在文檔簽名索引模塊或直接存儲整個簽名庫集合的步驟;
E、在已有的文檔簽名索引中查找與其距離小于一定閾值d的文檔簽名,并將返回相似文檔對應(yīng)的文檔簽名作為目標(biāo)文檔的最終ID的步驟。其中,所述步驟A具體為
Al、解析網(wǎng)頁超文本標(biāo)記語言HTML源碼,找出包含標(biāo)題、正文內(nèi)容信息的文本塊,在此過程中移除無關(guān)信息;
A2、在經(jīng)步驟Al處理后得到的文本塊中移除無關(guān)信息處理后,在得到的文本段中使用模板匹配法去除噪音信息。 所述步驟B具體為
BI、首先對文檔進(jìn)行分詞處理,得到文本分詞結(jié)果的term序列;
B2、對于term序列中連續(xù)的k個term,組成一個特征token,參數(shù)k為2 ;
B3、對于步驟B2中構(gòu)造出的每一個token,計算對應(yīng)的權(quán)重weight,取token在文檔內(nèi)容中出現(xiàn)的次數(shù)tf作為權(quán)重指標(biāo)。所述步驟C中文檔簽名計算的過程為
對于完成步驟B后得到的〈token, weight)集合,將被作為源文檔的特征表示傳遞給文檔簽名計算模塊,該模塊依次將原始token轉(zhuǎn)化為對應(yīng)的哈希值,并結(jié)合當(dāng)前token對應(yīng)的權(quán)重weight更新文檔簽名值;當(dāng)完成特征表示中所有token的處理之后,得到最終的固定長度的文檔簽名值。其中,采用64bit的位串表示文檔簽名,總計能夠表示264種狀態(tài)。本發(fā)明所提供的基于文檔簽名技術(shù)的相似文檔識別裝置及方法,具有以下優(yōu)點 本發(fā)明采用文檔簽名技術(shù)將文檔表示為固定長度的文檔簽名值,將文檔相似度計算問
題轉(zhuǎn)化為簽名值距離的計算問題,解決了傳統(tǒng)加密哈希技術(shù)無法識別相似文檔的問題。相較于基于向量空間模型的相似文檔識別方法,固定長度的文檔簽名極大地降低了存儲空間,更有助于高效地處理海量數(shù)據(jù)。本發(fā)明還采用增量式索引技術(shù)存儲已有文檔集合的文檔簽名,并基于該索引對目標(biāo)文檔的簽名進(jìn)行比較,從而適用于動態(tài)文本流的流式挖掘的應(yīng)用場景。
圖I為本發(fā)明基于文檔簽名技術(shù)的相似文檔識別裝置示意 圖2為本發(fā)明的步驟3中文檔簽名過程的算法流程圖。
具體實施例方式下面結(jié)合附圖及本發(fā)明的實施例對本發(fā)明的裝置及方法作進(jìn)一步詳細(xì)的說明。本發(fā)明針對現(xiàn)有的重復(fù)文本識別方法空間效率高但無法識別相似文本內(nèi)容,以及基于向量空間模型的相似文本識別方法空間復(fù)雜度高等問題,提出了一種基于文檔簽名技 術(shù)的相似文檔識別方法,目的是為流式的海量文檔提供一種快速的相似識別方法。圖I為本發(fā)明基于文檔簽名技術(shù)的相似文檔識別裝置示意圖,如圖I所示,為該相似文檔識別裝置的一實施例(相似新聞網(wǎng)頁去重服務(wù)系統(tǒng))包括五個主要功能模塊內(nèi)容提取模塊,特征抽取模塊,文檔簽名計算模塊,文檔簽名索引模塊以及相似文檔查找模塊;所述五個功能模塊分別用于執(zhí)行對應(yīng)的五個處理步驟。步驟I :若對于目標(biāo)新聞網(wǎng)頁等文檔,內(nèi)容提取模塊將抽取新聞(文檔)標(biāo)題、正文的文字內(nèi)容。具體說來,又分為兩個子步驟
步驟11、解析網(wǎng)頁HTML源碼,找出包含新聞標(biāo)題、正文內(nèi)容信息的文本塊,在此過程中移除廣告鏈接、導(dǎo)航欄等無關(guān)信息,有助于提高相似識別的準(zhǔn)確率。步驟12、在經(jīng)上述步驟11處理后得到的文本塊中移除HTML標(biāo)簽等無關(guān)信息,并在得到的文本段中使用模板匹配的方法去除各大新聞?wù)军c常見的版權(quán)聲明文本、將其“分享至1J”鏈接內(nèi)容等噪首 目息,進(jìn)一步提聞有意義正文內(nèi)容提取的精度。內(nèi)容提取過程對于目標(biāo)文檔D,首先提取其中有意義的“正文”內(nèi)容部分C,排除源文檔中無意義的噪音信息,從而起到提高相似文檔識別準(zhǔn)確率的目的。步驟2 :對于完成上述步驟I后得到的新聞網(wǎng)頁(文檔)正文內(nèi)容C,通過特征抽取模塊將其轉(zhuǎn)換為對應(yīng)的〈token, weight〉二元組集合的特征表示形式。其通過特征抽取模塊將從中抽取出關(guān)鍵詞token,并給出該關(guān)鍵詞token的權(quán)重weight,對應(yīng)的〈token,weight) 二元組集合將作為源文檔的特征表示。具體說來,又分為三個子步驟
步驟21、首先對于新聞文本(文檔)進(jìn)行分詞處理,得到文本分詞結(jié)果的term序列。步驟22、對于term序列中連續(xù)的k個term,組成一個特征token,該實施實例中,參數(shù)k取值為2,相比于文獻(xiàn)I將參數(shù)k設(shè)置為1,本發(fā)明中加入了對term位置信息的考慮,可以更好地避免term內(nèi)容相同但出現(xiàn)順序不同的誤識別。步驟23、對于步驟22中構(gòu)造出的每一個token,計算對應(yīng)的權(quán)重weight,在本發(fā)明實施實例中采用token在文檔文本內(nèi)容中出現(xiàn)的次數(shù)tf作為權(quán)重指標(biāo),相比于文獻(xiàn)2中直接采用單位權(quán)重的簡單策略,本發(fā)明實施實例有助于避免與詞頻相關(guān)的誤識別。步驟3 :對于完成步驟2后得到的〈token, weight〉集合,將被作為源新聞網(wǎng)頁(文檔)的特征表示傳遞給文檔簽名計算模塊,該模塊會依次將原始token轉(zhuǎn)化為對應(yīng)的哈希值,并結(jié)合當(dāng)前token對應(yīng)的權(quán)重weight更新文檔簽名值。當(dāng)完成特征表示中所有token的處理之后,就可以得到最終的固定長度的文檔簽名值。其算法流程如附圖2所示。在本發(fā)明實施實例中采用64bit (位)的位串表示文檔簽名,總計可以表示264種不同狀態(tài)。如有必要,可以調(diào)整簽名長度以適應(yīng)不同的應(yīng)用場景需求。步驟4 :對于歷史新聞網(wǎng)頁,通過步驟3計算出來的文檔簽名將都被存儲在文檔簽名索引模塊,最簡單的策略就是直接存儲整個簽名庫集合。經(jīng)過上述處理,下一步即步驟5中的相似文檔簽名查找將是線性復(fù)雜度,在本發(fā) 明實施實例中,采用分片索引的方案,將64 bit簽名位串等分為4個16 bit位串,并各自以16 bit位串為key存儲于對應(yīng)的索引結(jié)構(gòu)中,換言之,整體索引由4個結(jié)構(gòu)相似的子索引共同構(gòu)成,每個子索引由相應(yīng)的16 bit作為key,以共享這16 bit子串的所有文檔簽名列表作為value。這種索引方案使用一定的存儲冗余,可以極大地加速步驟5中相似文檔簽名查找過程,因為一次key查找將線性查找的范圍限制為原先范圍的1/216。此外,用文檔簽名索弓I模塊將其處理成一定的內(nèi)部索引格式進(jìn)行存儲,一來可以使用壓縮技術(shù)降低存儲空間開銷,二來有助于加快后續(xù)的相似文檔查找的速度
相較于基于VSM的技術(shù)方案,本發(fā)明實施實例基于固定長度的文檔簽名已經(jīng)極大地壓縮了存儲空間復(fù)雜度。步驟5 :對于經(jīng)過步驟3計算得到的目標(biāo)新聞網(wǎng)頁文檔簽名S,在已有的文檔簽名索引中查找與其距離小于一定閾值d的文檔簽名,如果存在,返回相似文檔對應(yīng)的文檔簽名作為目標(biāo)文檔的最終ID,否則返回步驟3計算得到的文本簽名值作為文檔ID。在本發(fā)明實施實例中,采用二進(jìn)制編碼的海明距離(Hamming Distance)作為距離度量,最小相似距離閾值參數(shù)d選為3,也就是意味著兩個64 bit 二進(jìn)制位串之間存在差異的bit位數(shù)小于或等于3時,對應(yīng)的兩個新聞網(wǎng)頁將被認(rèn)為是相似文檔。在新聞網(wǎng)頁測試數(shù)據(jù)集上,本發(fā)明實施實例取得了 95%的準(zhǔn)確率,遠(yuǎn)高于文獻(xiàn)I、文獻(xiàn)2中給出各自技術(shù)方案的準(zhǔn)確率指標(biāo)。以上所述,僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護范圍。
權(quán)利要求
1.一種基于文檔簽名技術(shù)的相似文檔識別裝置,其特征在于,主要包括內(nèi)容提取模塊,特征抽取模塊,文檔簽名計算模塊,文檔簽名索引模塊以及相似文檔查找模塊;其中 內(nèi)容提取模塊,用于抽取目標(biāo)文檔的文檔標(biāo)題、正文的文字內(nèi)容,得到正文內(nèi)容; 特征抽取模塊,用于將所述正文內(nèi)容轉(zhuǎn)換為對應(yīng)的〈token, weight) 二元組集合的特征表示形式,并傳遞給所述文檔簽名計算模塊; 文檔簽名計算模塊,用于將原始token轉(zhuǎn)化為對應(yīng)的哈希值,并結(jié)合當(dāng)前token對應(yīng)的權(quán)重weight更新文檔簽名值,得到最終的固定長度的文檔簽名值; 文檔簽名索引模塊,用于將上述的文檔簽名將存儲在文檔簽名索引模塊,或直接存儲整個簽名庫集合;以及 相似文檔查找模塊,在已有的文檔簽名索引中查找與其距離小于一定閾值d的文檔簽名,并將返回相似文檔對應(yīng)的文檔簽名作為目標(biāo)文檔的最終ID。
2.根據(jù)權(quán)利要求I所述的基于文檔簽名技術(shù)的相似文檔識別裝置,其特征在于,所述距離為二進(jìn)制編碼的海明距離,所述閾值d為3。
3.一種基于文檔簽名技術(shù)的相似文檔識別方法,其特征在于,包括 A、抽取目標(biāo)文檔的文檔標(biāo)題、正文的文字內(nèi)容,得到正文內(nèi)容的步驟; B、將所述正文內(nèi)容轉(zhuǎn)換為對應(yīng)的〈token,weight) 二元組集合的特征表示形式,并傳遞給所述文檔簽名計算模塊的步驟; C、將原始token轉(zhuǎn)化為對應(yīng)的哈希值,并結(jié)合當(dāng)前token對應(yīng)的權(quán)重weight更新文檔簽名值,得到最終的固定長度的文檔簽名值的步驟; D、將上述的文檔簽名存儲在文檔簽名索引模塊或直接存儲整個簽名庫集合的步驟; E、在已有的文檔簽名索引中查找與其距離小于一定閾值d的文檔簽名,并將返回相似文檔對應(yīng)的文檔簽名作為目標(biāo)文檔的最終ID的步驟。
4.根據(jù)權(quán)利要求3所述的基于文檔簽名技術(shù)的相似文檔識別方法,其特征在于,所述步驟A具體為 Al、解析網(wǎng)頁超文本標(biāo)記語言HTML源碼,找出包含標(biāo)題、正文內(nèi)容信息的文本塊,在此過程中移除無關(guān)信息; A2、在經(jīng)步驟Al處理后得到的文本塊中移除無關(guān)信息處理后,在得到的文本段中使用模板匹配法去除噪音信息。
5.根據(jù)權(quán)利要求3所述的基于文檔簽名技術(shù)的相似文檔識別方法,其特征在于,所述步驟B具體為 BI、首先對文檔進(jìn)行分詞處理,得到文本分詞結(jié)果的term序列; B2、對于term序列中連續(xù)的k個term,組成一個特征token,參數(shù)k為2 ; B3、對于步驟B2中構(gòu)造出的每一個token,計算對應(yīng)的權(quán)重weight,取token在文檔內(nèi)容中出現(xiàn)的次數(shù)tf作為權(quán)重指標(biāo)。
6.根據(jù)權(quán)利要求3所述的基于文檔簽名技術(shù)的相似文檔識別方法,其特征在于,所述步驟C中文檔簽名計算的過程為 對于完成步驟B后得到的〈token, weight)集合,將被作為源文檔的特征表示傳遞給文檔簽名計算模塊,該模塊依次將原始token轉(zhuǎn)化為對應(yīng)的哈希值,并結(jié)合當(dāng)前token對應(yīng)的權(quán)重weight更新文檔簽名值;當(dāng)完成特征表示中所有token的處理之后,得到最終的固定長度的文檔簽名值。
7.根據(jù)權(quán)利要求6所述的基于文檔簽名技術(shù)的相似文檔識別方法,其特征在于,采用64bit的位串表示文檔簽名,總計能夠表示264種狀態(tài)。
全文摘要
本發(fā)明公開了一種基于文檔簽名技術(shù)的相似文檔識別裝置及方法,主要包括內(nèi)容提取模塊,特征抽取模塊,文檔簽名計算模塊,文檔簽名索引模塊以及相似文檔查找模塊。采用本發(fā)明,能夠解決現(xiàn)有相似文本識別技術(shù)中空間復(fù)雜度高、無法應(yīng)對文本流式處理的應(yīng)用需求,以及空間效率高的重復(fù)文本識別技術(shù)又無法識別相似文本等的問題;還為流式的海量文檔提供一種快速的相似性識別方法。
文檔編號G06F17/30GK102831198SQ20121027840
公開日2012年12月19日 申請日期2012年8月7日 優(yōu)先權(quán)日2012年8月7日
發(fā)明者溫赟, 楊青 申請人:人民搜索網(wǎng)絡(luò)股份公司