專利名稱:中文網(wǎng)頁文本除重系統(tǒng)及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種中文網(wǎng)頁文本除重系統(tǒng),本發(fā)明還涉及一種利用上述除重系統(tǒng)去除重復(fù)中文網(wǎng)頁的方法。
背景技術(shù):
目前,互聯(lián)網(wǎng)中的信息數(shù)量正在以爆炸式的速度增長,用戶必須借助搜索引擎才能在互聯(lián)網(wǎng)海量的信息中查找到自己想要的信息。全文搜索引擎,如google、百度等,是真正意義上的搜索引擎,它通常會定期派出“蜘蛛”(spider)程序,按照一定規(guī)則抓取互聯(lián)網(wǎng)上的網(wǎng)頁,保存到本地存儲系統(tǒng)中,當(dāng)用戶在搜索引擎的檢索界面輸入查詢關(guān)鍵詞后,搜索引擎就在本地的網(wǎng)頁數(shù)據(jù)庫中查找與查詢條件匹配的記錄,并按照一定的排序規(guī)則將檢索結(jié)果返回給用戶。但是,由于互聯(lián)網(wǎng)上的信息經(jīng)常被互相轉(zhuǎn)載,導(dǎo)致信息的重復(fù)率很高,這使得搜索引擎檢索出的網(wǎng)頁中往往存在大量內(nèi)容相同的重復(fù)網(wǎng)頁。重復(fù)網(wǎng)頁有多種表現(xiàn)形式,有的是沒有一點改動的拷貝;有的在內(nèi)容上稍作了修改,比如,增加少量點評,刪除少許文字,或改變文字段落順序;有的則進(jìn)行了細(xì)微的格式變化,比如,改變字體,修改標(biāo)點,改變文字大小寫等。據(jù)統(tǒng)計,互聯(lián)網(wǎng)的網(wǎng)頁中,內(nèi)容大部分相同的頁面占四%,而主體內(nèi)容完全相同的頁面占22%,也就是說,互聯(lián)網(wǎng)上的全部網(wǎng)頁中,約有1/4是重復(fù)的網(wǎng)頁。對于搜索引擎來說,這些存在于互聯(lián)網(wǎng)中的數(shù)量龐大的重復(fù)網(wǎng)頁,會帶來很多問題。由于搜索引擎會將spider程序抓取到的網(wǎng)頁下載并保存到本地存儲系統(tǒng)中,而存儲系統(tǒng)的容量是有限制的,大量重復(fù)網(wǎng)頁會浪費搜索引擎的資源,擠占其他有價值網(wǎng)頁的存儲空間,此外,搜索引擎的檢索效率也會因為本地網(wǎng)頁數(shù)據(jù)庫數(shù)據(jù)量的增加而降低,如此不僅浪費了用戶的時間,也影響了用戶的搜索體驗。網(wǎng)頁除重,即去除互聯(lián)網(wǎng)上的重復(fù)網(wǎng)頁,是解決上述問題的有效方法,但是,由于搜索引擎收錄的網(wǎng)頁數(shù)量極其龐大,約在千萬頁以上,像google這種大型搜索引擎收錄的網(wǎng)頁數(shù)量更是多達(dá)幾十億,而且網(wǎng)頁的存在形式也很復(fù)雜多樣,如果直接將spider程序新抓取的一個網(wǎng)頁和搜索引擎系統(tǒng)中已收錄的海量網(wǎng)頁逐一進(jìn)行比對,計算的復(fù)雜度會非常高,例如,假設(shè)搜索引擎收錄的文檔數(shù)為n,文檔平均長度為m,如果相似度計算的復(fù)雜度是 T,T是m的函數(shù),即T = T (m),文檔兩兩比較的復(fù)雜度是0 (n~2),則合起來的復(fù)雜度就是 0 (ιΓ2 X T (m)),這樣的復(fù)雜度,對于搜索引擎這種需要處理海量數(shù)據(jù)的系統(tǒng),顯然是難以接受的。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是提供一種中文網(wǎng)頁文本除重系統(tǒng),它可以快速、準(zhǔn)確地識別并去除互聯(lián)網(wǎng)中大量內(nèi)容重復(fù)的中文網(wǎng)頁。為解決上述技術(shù)問題,本發(fā)明的中文網(wǎng)頁文本除重系統(tǒng),包括索引服務(wù)器,用于計算中文網(wǎng)頁的數(shù)字簽名,該索引服務(wù)器進(jìn)一步包括網(wǎng)頁文本預(yù)處理模塊、組合特征句提取模塊以及數(shù)字簽名計算模塊,該網(wǎng)頁文本預(yù)處理模塊用于對中文網(wǎng)頁文本進(jìn)行歸一化處理;該組合特征句提取模塊用于提取經(jīng)網(wǎng)頁文本預(yù)處理模塊處理后的文本的組合特征句;該數(shù)字簽名計算模塊用于計算組合特征句的數(shù)字簽名,并將計算得到的數(shù)字簽名傳給檢索服務(wù)器;檢索服務(wù)器,用于判斷中文網(wǎng)頁是否重復(fù),該檢索服務(wù)器進(jìn)一步包括網(wǎng)頁文本抓取模塊和哈希查詢模塊,該網(wǎng)頁文本抓取模塊用于抓取互聯(lián)網(wǎng)上的中文網(wǎng)頁文本,并傳給索引服務(wù)器;該哈希查詢模塊中包含有用于存放搜索引擎系統(tǒng)已保存網(wǎng)頁的數(shù)字簽名的哈希表,該哈希查詢模塊用于查詢待判定網(wǎng)頁的數(shù)字簽名是否與哈希表中的值存在重復(fù),如果不存在重復(fù),則將該待判定網(wǎng)頁的數(shù)字簽名加入到哈希表中。本發(fā)明要解決的另一技術(shù)問題是提供一種利用上述除重系統(tǒng)進(jìn)行中文網(wǎng)頁文本除重的方法。為解決上述技術(shù)問題,本發(fā)明的中文網(wǎng)頁文本除重方法,包括如下步驟1)網(wǎng)頁文本歸一化處理,即對文本的編碼,文本中的全角、半角字符以及大、小寫字符進(jìn)行一致性轉(zhuǎn)換;2)提取文本的組合特征句;3)計算組合特征句的數(shù)字簽名;4)查找哈希表,判定數(shù)字簽名是否與哈希表中的值存在重復(fù),若存在重復(fù),則去除該網(wǎng)頁;若不存在重復(fù),則將該網(wǎng)頁保存到搜索引擎系統(tǒng)中,并將其數(shù)字簽名添加到哈希表中;5)重復(fù)步驟1)至4),判定下一個待處理網(wǎng)頁文本;所述步驟2~)進(jìn)一步包括如下步驟21)判定文本的長度,若小于文本長度閾值,則從該文本中提取特征字符,作為組合特征句;若大于或者等于文本長度閾值,則轉(zhuǎn)到步驟22);22)設(shè)置特征句分隔符列表,該特征句分隔符列表中的字符定義為分隔符;23)依次遍歷文本,提取候選組合特征句;24)判斷候選組合特征句的長度,若小于組合特征句長度閾值,則從該文本中提取特征字符,作為組合特征句;若大于或者等于組合特征句長度閾值,則以該候選組合特征句為組合特征句。所述步驟2 進(jìn)一步包括如下步驟231)遍歷文本,提取當(dāng)前特征句;232)提取當(dāng)前特征句中的特征字符,構(gòu)成當(dāng)前組合特征句,計算該當(dāng)前組合特征句的長度;233)判定是否已存在候選組合特征句,若存在,則計算候選組合特征句的長度; 若不存在,則將候選組合特征句的長度設(shè)為0 ;234)比較當(dāng)前組合特征句與候選組合特征句的長度,若當(dāng)前組合特征句的長度小于或者等于候選組合特征句的長度,則丟棄當(dāng)前組合特征句;若當(dāng)前組合特征句的長度大于候選組合特征句的長度,則用當(dāng)前組合特征句替換原候選組合特征句,成為新的候選組合特征句;235)重復(fù)步驟231)至234)直到到達(dá)文本尾部。
5
所述步驟231)進(jìn)一步包括如下步驟2311)按照如下方法設(shè)定指針的起始位置首次設(shè)定時,以文本頭部的首字符為起始位置;再次設(shè)定時,以前次遍歷時指針的結(jié)束位置的下一個字符為起始位置;2312)從起始位置開始依次遍歷后續(xù)字符,判定是否存在分隔符,若存在,則以該分隔符所在位置為指針的結(jié)束位置;若不存在,則以文本尾端的字符為指針的結(jié)束位置;2313)把由指針的起始位置到結(jié)束位置之間的文本段保存為當(dāng)前特征句。所述特征字符,按照如下步驟進(jìn)行提取去除空格;提取文本編碼中的中文字符;提取數(shù)字0 9 ;提取英文字符a ζ。本發(fā)明的中文網(wǎng)頁文本除重系統(tǒng)及方法,提取了網(wǎng)頁文本中最具代表性的內(nèi)容來計算文本的數(shù)字簽名,如此生成的數(shù)字簽名不僅能保證文本特征的唯一性,而且具有一定的魯棒性(robustness),能夠抵抗文本中少量文字的修改、對換等擾動,當(dāng)搜索引擎抓取到一個新網(wǎng)頁時,只要將該網(wǎng)頁文本的數(shù)字簽名和搜索引擎已有網(wǎng)頁的文本的數(shù)字簽名比對,即可快速、有效地判定新網(wǎng)頁是否重復(fù),從而避免了搜索引擎存儲空間的浪費,同時,輔助提高了搜索引擎的檢索精度和檢索效率。
下面結(jié)合附圖與具體實施方式
對本發(fā)明作進(jìn)一步詳細(xì)的說明圖1是本發(fā)明的中文網(wǎng)頁文本除重系統(tǒng)的模塊結(jié)構(gòu)示意圖;圖2是本發(fā)明的中文網(wǎng)頁文本除重方法的流程圖。
具體實施例方式為對本發(fā)明的技術(shù)內(nèi)容、特點與功效有更具體的了解,現(xiàn)結(jié)合圖示的實施方式,詳述如下如圖1所示,本發(fā)明的中文網(wǎng)頁文本除重系統(tǒng),主要包括索引服務(wù)器和檢索服務(wù)器兩大部分,其中索引服務(wù)器,用于計算中文網(wǎng)頁的數(shù)字簽名。該索引服務(wù)器又進(jìn)一步包括網(wǎng)頁文本預(yù)處理模塊、組合特征句提取模塊以及數(shù)字簽名計算模塊。網(wǎng)頁文本預(yù)處理模塊用于對檢索服務(wù)器傳來的待判定網(wǎng)頁文本進(jìn)行歸一化處理;組合特征句提取模塊用于提取經(jīng)網(wǎng)頁文本預(yù)處理模塊處理后的文本的組合特征句;數(shù)字簽名計算模塊用于計算組合特征句的數(shù)字簽名,并將計算得到的數(shù)字簽名傳給檢索服務(wù)器。檢索服務(wù)器,用于判斷中文網(wǎng)頁是否重復(fù)。該檢索服務(wù)器又進(jìn)一步包括網(wǎng)頁文本抓取模塊和哈希查詢模塊。網(wǎng)頁文本抓取模塊用于抓取互聯(lián)網(wǎng)上的中文網(wǎng)頁原始文本,作為待判定網(wǎng)頁文本傳給索引服務(wù)器;哈希查詢模塊包含有哈希表,該哈希表用于存放搜索引擎系統(tǒng)已保存網(wǎng)頁的數(shù)字簽名,該哈希查詢模塊用于查詢待判定網(wǎng)頁的數(shù)字簽名是否與哈希表中的值(即已保存網(wǎng)頁的數(shù)字簽名)存在重復(fù),如果不存在重復(fù),則將此待判定網(wǎng)頁的數(shù)字簽名加入到哈希表中。
利用上述除重系統(tǒng)對互聯(lián)網(wǎng)上的中文網(wǎng)頁進(jìn)行除重時,使用組合特征句簽名法, 即提取網(wǎng)頁文本的組合特征句,計算其數(shù)字簽名,利用數(shù)字簽名建立哈希表,當(dāng)搜索引擎抓取到新網(wǎng)頁時,同樣用前述方法計算數(shù)字簽名,并與哈希表中已存在的數(shù)字簽名比對,如果存在重復(fù),表明該新網(wǎng)頁內(nèi)容重復(fù),不需要保留,如果哈希表中不存在同樣的數(shù)字簽名,就把該新網(wǎng)頁保存到搜索引擎系統(tǒng)中,同時把其數(shù)字簽名加入到哈希表中。下面以本發(fā)明的一個較佳實施例為例,并結(jié)合圖1和圖2,對本發(fā)明的中文網(wǎng)頁文本除重方法做一詳細(xì)說明。(1)首先,網(wǎng)頁文本抓取模塊將新抓取到的中文網(wǎng)頁的原始文本傳給索引服務(wù)器, 由網(wǎng)頁文本預(yù)處理模塊對該原始文本進(jìn)行歸一化處理,將其編碼統(tǒng)一轉(zhuǎn)換為UTF-8編碼 (Universal Character Set Transformation Format, 8 位通用字集轉(zhuǎn)換格式),同時將文本中的全角字符統(tǒng)一轉(zhuǎn)換為半角字符,大寫字符統(tǒng)一轉(zhuǎn)換為小寫字符,以避免因編碼或大小寫不一致帶來的文本重復(fù)誤判。由于網(wǎng)頁文本有多種編碼方式,例如ANSI編碼,Unicode 編碼等等,因此把文本的編碼統(tǒng)一轉(zhuǎn)換為其他編碼形式也是可以的。(2)設(shè)定文本長度閾值,本實施例中,設(shè)定此閾值為80個字符。判定經(jīng)上述歸一化處理后的文本的長度,若其長度小于文本長度閾值,則從該文本中提取特征字符,依次放入字符串中,成為組合特征句,然后轉(zhuǎn)到步驟(7);若其長度大于或者等于文本長度閾值,則轉(zhuǎn)到步驟(3)。前述提取特征字符的方法是去除空格;提取UTF-8編碼中的中文字符;提取數(shù)字0 9;提取英文字符a ζ。(3)設(shè)置特征句分隔符列表,該特征句分隔符列表中的字符定義為分隔符,分隔符使用UTF-8編碼,且為半角字符,以與經(jīng)歸一化處理后的文本一致。為了能根據(jù)文本特點, 更靈活地使用分隔符獲取合適長度的特征句,本實施例將分隔符設(shè)置為A類和B類兩類分隔符,A類分隔符包括以下4類字符!?。;,B類分隔符包括以下20類字符,-+= “‘[]{}()《》<>/\。(4)以文本頭部的首字符作為指針的起始位置,依次遍歷后續(xù)字符,尋找是否存在分隔符,同時記錄已遍歷文本的長度。如果存在分隔符,則以該分隔符作為指針的結(jié)束位置;如果遍歷完該文本的所有字符,仍未發(fā)現(xiàn)分隔符,則以文本尾端的字符作為指針的結(jié)束位置。與步驟C3)相對應(yīng)的,為了得到長度適當(dāng)?shù)奶卣骶?,本實施例預(yù)先設(shè)定一個閾值,在已遍歷文本的長度小于或者等于此閾值時,只尋找是否存在A類分隔符,而一旦已遍歷文本的長度超過此閾值,就將分隔符上升為A類和B類分隔符的總合,即尋找是否存在A類或者B類分隔符,只要出現(xiàn)A類或者B類分隔符,就以該分隔符所在的位置作為指針的結(jié)束位置;經(jīng)測試,上述閾值被設(shè)定為1200個字符時,除重效果較理想。(5)將指針起始位置至結(jié)束位置之間的文本段保存為當(dāng)前特征句,并按照步驟 (2)所述的提取特征字符的方法,提取該當(dāng)前特征句中的特征字符,依次放入字符串中,形成當(dāng)前組合特征句,并計算其長度。系統(tǒng)中預(yù)先設(shè)置有一初值為空的字符串,用于存儲候選組合特征句,該候選組合特征句的長度的初值即為0。
比較當(dāng)前組合特征句和候選組合特征句的長度大小,若當(dāng)前組合特征句的長度小于或者等于候選組合特征句的長度,則丟棄當(dāng)前組合特征句,若當(dāng)前組合特征句的長度大于候選組合特征句的長度,則以當(dāng)前組合特征句替換候選組合特征句,保存為新的候選組合特征句。(6)如果前次遍歷尚未到達(dá)文本尾端,則重復(fù)步驟⑷至(5),以前次遍歷時,指針結(jié)束位置的下一個字符為起始位置,繼續(xù)遍歷后續(xù)文本,提取候選組合特征句,直到遍歷完文本的全部字符。然后,計算最后保留下來的候選組合特征句的長度,并判斷長度是否低于預(yù)先設(shè)定的組合特征句長度閾值,如果低于該閾值,則從歸一化處理后的文本中,按照步驟(2)所述的提取特征字符的方法,提取特征字符,形成組合特征句;如果大于或者等于該閾值,則以最后保留下來的候選組合特征句作為該文本的組合特征句。經(jīng)測試,該組合特征句長度閾值被設(shè)定為100個字符時,除重的效果比較理想。上述步驟( 至(6)由組合特征句提取模塊來完成。 (7)數(shù)字簽名計算模塊計算最后得到的組合特征句的MD5 (message-digest algorithm 5,信息-摘要算法)碼,生成該文本的數(shù)字簽名,即一個1 位散列值。(8)利用上述數(shù)字簽名生成一張哈希表。然后,對所有需要判定的中文網(wǎng)頁,都按照上述步驟(1)至(7)計算出數(shù)字簽名,傳給檢索服務(wù)器,由哈希查詢模塊將待判定網(wǎng)頁的數(shù)字簽名與哈希表中已有的值(即搜索引擎系統(tǒng)已保存網(wǎng)頁的數(shù)字簽名)進(jìn)行比對,判斷數(shù)字簽名是否存在重復(fù),如果存在重復(fù),則表示當(dāng)前網(wǎng)頁是重復(fù)網(wǎng)頁,就不再保留,如果哈希表中不存在同樣的簽名,則表示當(dāng)前網(wǎng)頁非重復(fù)網(wǎng)頁,需要將該網(wǎng)頁保存到本地存儲系統(tǒng)中,同時,將其數(shù)字簽名添加到哈希表中。綜上所述,本發(fā)明的中文網(wǎng)頁文本除重系統(tǒng)及方法,通過計算網(wǎng)頁文本的數(shù)字簽名來判定網(wǎng)頁是否重復(fù),由于用于計算數(shù)字簽名的字符串是網(wǎng)頁文本中最具代表性的內(nèi)容,即組合特征句,因此,計算生成的數(shù)字簽名能保證文本特征的唯一性,并具有一定的魯棒性(robustness),不會因為文本中出現(xiàn)的少量文字的修改、對換等擾動而發(fā)生數(shù)值上的變化,從而能夠幫助搜索引擎識別出重復(fù)的網(wǎng)頁,經(jīng)測試,在上述較佳閾值條件下,使用該除重系統(tǒng)和除重方法對搜索引擎所抓取的20萬網(wǎng)頁進(jìn)行去重操作的準(zhǔn)確率達(dá)95%。
權(quán)利要求
1.一種中文網(wǎng)頁文本除重方法,其特征在于,包括如下步驟1)網(wǎng)頁文本歸一化處理,包括對文本的編碼,文本中的全角、半角字符以及大、小寫字符進(jìn)行一致性轉(zhuǎn)換;2)提取文本的組合特征句;3)計算組合特征句的數(shù)字簽名;4)查找哈希表,判定數(shù)字簽名是否與哈希表中的值存在重復(fù),若存在重復(fù),則去除該網(wǎng)頁;若不存在重復(fù),則將該網(wǎng)頁保存到搜索引擎系統(tǒng)中,并將其數(shù)字簽名添加到哈希表中;5)重復(fù)步驟1)至4),判定下一個待處理網(wǎng)頁文本;所述步驟幻進(jìn)一步包括如下步驟21)判定文本的長度,若小于文本長度閾值,則從該文本中提取特征字符,作為組合特征句;若大于或者等于文本長度閾值,則轉(zhuǎn)到步驟22);22)設(shè)置特征句分隔符列表,該特征句分隔符列表中的字符定義為分隔符;23)依次遍歷文本,提取候選組合特征句;24)判斷候選組合特征句的長度,若小于組合特征句長度閾值,則從該文本中提取特征字符,作為組合特征句;若大于或者等于組合特征句長度閾值,則以該候選組合特征句為組合特征句。
2.如權(quán)利要求1所述的中文網(wǎng)頁文本除重方法,其特征在于,所述步驟1)中的一致性轉(zhuǎn)換包括將文本的編碼轉(zhuǎn)換為UTF-8編碼;將文本中的全角字符轉(zhuǎn)換為半角字符;以及將文本中的大寫字符轉(zhuǎn)換為小寫字符。
3.如權(quán)利要求1所述的中文網(wǎng)頁文本除重方法,其特征在于,所述步驟23)進(jìn)一步包括如下步驟231)遍歷文本,提取當(dāng)前特征句;232)提取當(dāng)前特征句中的特征字符,構(gòu)成當(dāng)前組合特征句,計算該當(dāng)前組合特征句的長度;233)判定是否已存在候選組合特征句,若存在,則計算候選組合特征句的長度;若不存在,則將候選組合特征句的長度設(shè)為0 ;234)比較當(dāng)前組合特征句與候選組合特征句的長度,若當(dāng)前組合特征句的長度小于或者等于候選組合特征句的長度,則丟棄當(dāng)前組合特征句;若當(dāng)前組合特征句的長度大于候選組合特征句的長度,則用當(dāng)前組合特征句替換原候選組合特征句,成為新的候選組合特征句;235)重復(fù)步驟231)至234)直到到達(dá)文本尾部。
4.如權(quán)利要求3所述的中文網(wǎng)頁文本除重方法,其特征在于,所述步驟231)進(jìn)一步包括如下步驟2311)按照如下方法設(shè)定指針的起始位置首次設(shè)定時,以文本頭部的首字符為起始位置;再次設(shè)定時,以前次遍歷時指針的結(jié)束位置的下一個字符為起始位置;2312)從起始位置開始依次遍歷后續(xù)字符,判定是否存在分隔符,若存在,則以該分隔符所在位置為指針的結(jié)束位置;若不存在,則以文本尾端的字符為指針的結(jié)束位置;2313)把由指針的起始位置到結(jié)束位置之間的文本段保存為當(dāng)前特征句。
5.如權(quán)利要求4所述的中文網(wǎng)頁文本除重方法,其特征在于所述步驟2312)中的分隔符,在已遍歷的文本長度小于或者等于閾值時,為A類分隔符;在已遍歷的文本長度大于閾值時,為A類或者B類分隔符的總和;該A類分隔符包括以下4類字符???。;,該B類分隔符包括以下20類字符,-+= ‘“ []{}()《》<>/\。
6.如權(quán)利要求5所述的中文網(wǎng)頁文本除重方法,其特征在于所述閾值為1200個字符。
7.如權(quán)利要求1或3所述的中文網(wǎng)頁文本除重方法,其特征在于,所述特征字符,按照如下步驟進(jìn)行提取去除空格;提取文本編碼中的中文字符;提取數(shù)字0 9 ;提取英文字符a ζ。
8.如權(quán)利要求1所述的中文網(wǎng)頁文本除重方法,其特征在于所述步驟24)中,組合特征句長度閾值為100個字符。
9.如權(quán)利要求1所述的中文網(wǎng)頁文本除重方法,其特征在于所述步驟3)中的數(shù)字簽名采用MD5碼。
10.一種中文網(wǎng)頁文本除重系統(tǒng),其特征在于,包括索引服務(wù)器,用于計算中文網(wǎng)頁的數(shù)字簽名,該索引服務(wù)器進(jìn)一步包括網(wǎng)頁文本預(yù)處理模塊、組合特征句提取模塊以及數(shù)字簽名計算模塊,該網(wǎng)頁文本預(yù)處理模塊用于對中文網(wǎng)頁文本進(jìn)行歸一化處理;該組合特征句提取模塊用于提取經(jīng)網(wǎng)頁文本預(yù)處理模塊處理后的文本的組合特征句;該數(shù)字簽名計算模塊用于計算組合特征句的數(shù)字簽名,并將計算得到的數(shù)字簽名傳給檢索服務(wù)器;檢索服務(wù)器,用于判斷中文網(wǎng)頁是否重復(fù),該檢索服務(wù)器進(jìn)一步包括網(wǎng)頁文本抓取模塊和哈希查詢模塊,該網(wǎng)頁文本抓取模塊用于抓取互聯(lián)網(wǎng)上的中文網(wǎng)頁文本,并傳給索引服務(wù)器;該哈希查詢模塊中包含有用于存放搜索引擎系統(tǒng)已保存網(wǎng)頁的數(shù)字簽名的哈希表,該哈希查詢模塊用于查詢待判定網(wǎng)頁的數(shù)字簽名是否與哈希表中的值存在重復(fù),如果不存在重復(fù),則將該待判定網(wǎng)頁的數(shù)字簽名加入到哈希表中。
全文摘要
本發(fā)明公開了一種中文網(wǎng)頁文本除重系統(tǒng)及方法。該除重系統(tǒng)包括索引服務(wù)器和檢索服務(wù)器,索引服務(wù)器包括網(wǎng)頁文本預(yù)處理模塊、組合特征句提取模塊以及數(shù)字簽名計算模塊,檢索服務(wù)器包括網(wǎng)頁文本抓取模塊和哈希查詢模塊。該除重方法包括網(wǎng)頁文本的歸一化處理;提取文本的組合特征句;計算組合特征句的數(shù)字簽名;與哈希表中已存在的數(shù)字簽名比對,判定是否重復(fù)。該除重系統(tǒng)及方法可以幫助搜索引擎快速、準(zhǔn)確地判定并去除互聯(lián)網(wǎng)中大量內(nèi)容重復(fù)的中文網(wǎng)頁。當(dāng)搜索引擎抓到新網(wǎng)頁后,計算該網(wǎng)頁的數(shù)字簽名,通過與搜索引擎已保存網(wǎng)頁的數(shù)字簽名比對,判定該網(wǎng)頁是否重復(fù),若重復(fù)則放棄保存,從而避免了存儲空間的浪費,同時提高了搜索引擎的檢索精度。
文檔編號G06F17/30GK102402537SQ20101028171
公開日2012年4月4日 申請日期2010年9月15日 優(yōu)先權(quán)日2010年9月15日
發(fā)明者陳運文 申請人:盛樂信息技術(shù)(上海)有限公司