亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種網(wǎng)頁去重的方法及系統(tǒng)的制作方法

文檔序號:6610405閱讀:196來源:國知局
專利名稱:一種網(wǎng)頁去重的方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)頁處理領(lǐng)域,特別是涉及一種網(wǎng)頁去重的方法及系統(tǒng)。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,互聯(lián)網(wǎng)上的網(wǎng)頁越來越多,據(jù)統(tǒng)計,中文網(wǎng)
頁已逾百億,其中大約有70%屬于重復網(wǎng)頁,重復網(wǎng)頁所占的比重非常大。因 此,如何在數(shù)量巨大的網(wǎng)頁中有效去掉重復網(wǎng)頁,是搜索引擎所面臨的一個難 題。目前是通過在網(wǎng)頁中選取特征碼,對比該特征碼的方式來判斷、去除重復 網(wǎng)頁。
參閱圖l,為現(xiàn)有網(wǎng)頁去重的方法流程圖,具體步驟如下所述。 步驟SIOI、在基準網(wǎng)頁中選取某個句號作為定位點。 因在網(wǎng)頁正文中有多個句號出現(xiàn),可通過定位方式在網(wǎng)頁正文中選擇某個
句號作為定位點。
步驟S102、在所述定位點兩邊選取一定數(shù)量的漢字作為特征碼。 如,在定位點兩邊各選取5個漢字組成特征碼。 步驟S103、在備選網(wǎng)頁中采用相同的方式獲取特征碼。 采用相同的方式在備選網(wǎng)頁中進行定位,并在該定位點兩邊各選取5個漢
字組成特征碼。
步驟S104、如備選網(wǎng)頁和基準網(wǎng)頁中的特征碼相同,判定該備選網(wǎng)頁為 重復網(wǎng)頁。
如備選網(wǎng)頁和基準網(wǎng)頁中的特征碼相同,則判斷該備選網(wǎng)頁為重復網(wǎng)頁, 轉(zhuǎn)到步驟S105;如特征碼不相同,則判斷該備選網(wǎng)頁不是重復網(wǎng)頁。 步驟S105、刪除重復的備選網(wǎng)頁。
上述方法在兩個網(wǎng)頁的內(nèi)容完全一致的情況下,可有效去除重復網(wǎng)頁。但 重復網(wǎng)頁不僅僅包括內(nèi)容完全一致的網(wǎng)頁,還包括相對增加無實質(zhì)意義信息的 網(wǎng)頁,相對差別無實質(zhì)意義詞語的網(wǎng)頁。如果備選網(wǎng)頁相對基準網(wǎng)頁恰好在定 位點附件的幾個漢字中增加無實質(zhì)意思的詞語,兩個網(wǎng)頁的特征碼就不同,上
述方法就會將備選網(wǎng)頁作為非重復網(wǎng)頁,導致網(wǎng)頁去重的準確率不高;如果備選網(wǎng)頁相對基準網(wǎng)頁恰好在定位點附件的幾個漢字相同,而其他內(nèi)容具有本質(zhì) 區(qū)別,但兩個網(wǎng)頁的特征碼相同,上述方法就會將該備選網(wǎng)頁作為重復網(wǎng)頁刪 除,導致網(wǎng)頁去重的誤判率過高。 發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問題是提供一種網(wǎng)頁去重方法,該方法可有效提高 網(wǎng)頁去重的準確率,減少網(wǎng)頁去重的誤判率。本發(fā)明的另 一個目的是提供一種網(wǎng)頁去重系統(tǒng),該系統(tǒng)能夠有效提高網(wǎng)頁 去重的準確率,減少網(wǎng)頁去重的誤判率。本發(fā)明一種網(wǎng)頁去重的方法,包括在備選網(wǎng)頁中選取預設(shè)數(shù)量的詞語; 在網(wǎng)頁集合中選耳又含有上述詞語數(shù)量最多的網(wǎng)頁作為基準網(wǎng)頁;如所述基準網(wǎng) 頁中包含上述詞語的數(shù)量大于設(shè)定閾值,則將所述備選網(wǎng)頁作為重復網(wǎng)頁進行 處理。優(yōu)選的,還包括如所述基準網(wǎng)頁中包含上述詞語的數(shù)量小于設(shè)定閾值, 則將所述備選網(wǎng)頁加入所述網(wǎng)頁集合。優(yōu)選的,在備選網(wǎng)頁中選取預設(shè)數(shù)量的詞語之前,還包括對所述備選網(wǎng) 頁中詞語的屬性進行標注,過濾屬性為停用詞和虛詞的詞語。優(yōu)選的,按照權(quán)值從大到小的順序在所述備選網(wǎng)頁中選取預設(shè)數(shù)量的詞語。優(yōu)選的,在所述備選網(wǎng)頁中選取預設(shè)數(shù)量的詞語之前,還包括將各詞語 的訓練文本數(shù)除以總訓練文本數(shù)的商取對數(shù),獲得的數(shù)值再乘以所述備選網(wǎng)頁 文本中出現(xiàn)該詞語的次數(shù),得到所述備選網(wǎng)頁中各詞語的權(quán)值。優(yōu)選的,按下述步驟,在網(wǎng)頁集合中選取含有上述詞語數(shù)量最多的網(wǎng)頁作 為基準網(wǎng)頁;將上述預設(shè)數(shù)量的詞語作為查詢串,在所述網(wǎng)頁集合中檢索;按 照包含上述詞語的數(shù)量從大到小將檢索到的網(wǎng)頁排序;將排序第一的網(wǎng)頁作為 基準網(wǎng)頁。優(yōu)選的,將所述備選網(wǎng)頁作為重復網(wǎng)頁進行處理之前,還包括選取排序 第二的網(wǎng)頁作為基準網(wǎng)頁;將該基準網(wǎng)頁中所包含的上述詞語的數(shù)量與設(shè)定閾 值進行比較;如該基準網(wǎng)頁中所包含的上述詞語的數(shù)量大于設(shè)定閾值,確定所
述備選網(wǎng)頁為重復網(wǎng)頁。
優(yōu)選的,確定所述備選網(wǎng)頁為重復網(wǎng)頁之前,還包括依次選取排序在后 的網(wǎng)頁作為基準網(wǎng)頁;將該基準網(wǎng)頁中所包含的上述詞語的數(shù)量與設(shè)定閾值進 行比較;如該基準網(wǎng)頁中所包含的上述詞語的數(shù)量大于設(shè)定閾值,確定備選網(wǎng) 頁為重復網(wǎng)頁處理。
本發(fā)明一種網(wǎng)頁去重的系統(tǒng),包括詞語選取單元、基準網(wǎng)頁選取單元、比 較單元、及處理單元所述詞語選取單元,用于在備選網(wǎng)頁中選取預設(shè)數(shù)量的 詞語;所述基準網(wǎng)頁選取單元,用于在網(wǎng)頁集合中選取含有上述詞語數(shù)量最多 的網(wǎng)頁作為基準網(wǎng)頁;所述比較單元,用于在所述基準網(wǎng)頁中包含上述詞語的 數(shù)量大于設(shè)定閾值時,啟動所述處理單元;所述處理單元,用于將所述備選網(wǎng) 頁作為重復網(wǎng)頁進行處理。
優(yōu)選的,還包括權(quán)值計算單元,用于計算上述各詞語的權(quán)值,并將計算結(jié) 果傳送到所述詞語選取單元;所述詞語選取單元按照權(quán)值從大到小的順序在備 選網(wǎng)頁中選取預設(shè)數(shù)量的詞語。
與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點
本發(fā)明在備選網(wǎng)頁中選取預設(shè)數(shù)量的詞語,在網(wǎng)頁集合中選取含有上述詞 語數(shù)量最多的網(wǎng)頁作為基準網(wǎng)頁,如基準網(wǎng)頁中包含上述詞語的數(shù)量大于設(shè)定 閾值,則將備選網(wǎng)頁作為重復網(wǎng)頁進行處理。本發(fā)明可通過適當提高設(shè)定數(shù)值, 加大參與對比的詞語量,降低對比的偶然性,在去除內(nèi)容并非完全一致的重復
網(wǎng)頁時,可有效提高網(wǎng)頁去重的準確性,并降低誤判率。同時,本發(fā)明還可通 過提高/降低設(shè)定閾值有效調(diào)節(jié)網(wǎng)頁去重的準確率和誤判率,如,提高設(shè)定閾 值,可提高準確率;降低設(shè)定閾值,可提高誤判率。因此,相對現(xiàn)有技術(shù)通過 簡單對比特征碼進行網(wǎng)頁去重,本發(fā)明可通過適當調(diào)節(jié)設(shè)定閾值和設(shè)定數(shù)值, 來有效提高網(wǎng)頁去重的準確率,降低誤判率。
本發(fā)明按照權(quán)值從大到小的順序在備選網(wǎng)頁中選取預設(shè)數(shù)量的詞語。權(quán)值 大表明該詞語與網(wǎng)頁主題相關(guān)程度高,更具有代表性。在去除內(nèi)容并非完全一 致的重復網(wǎng)頁時,選取權(quán)值高的詞語進行對比、判斷,可進一步提高網(wǎng)頁去重 的準確率,降低誤判率。


圖1為現(xiàn)有網(wǎng)頁去重的方法流程圖; 圖2為本發(fā)明第一實施例提供的網(wǎng)頁去重方法流程圖; 圖3為本發(fā)明第二實施例提供的網(wǎng)頁去重方法流程圖; 圖4為本發(fā)明第三實施例提供的網(wǎng)頁去重方法流程圖; 圖5為本發(fā)明第四實施例提供的網(wǎng)頁去重系統(tǒng)示意圖; 圖6為本發(fā)明第五實施例提供的網(wǎng)頁去重系統(tǒng)示意圖。
具體實施方式
為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖和具體實施方式
對本發(fā)明作進一步詳細的說明。本發(fā)明在備選網(wǎng)頁中選取預設(shè)數(shù)量的詞語,在網(wǎng)頁集合中選取含有上述詞 語數(shù)量最多的網(wǎng)頁作為基準網(wǎng)頁,如基準網(wǎng)頁中包含上述詞語的數(shù)量大于設(shè)定 閾值,則將備選網(wǎng)頁作為重復網(wǎng)頁進行處理。參閱圖2,為本發(fā)明第一實施例提供的網(wǎng)頁去重的方法流程圖,具體步驟 如下所述。步驟S201、在備選網(wǎng)頁中選取預設(shè)數(shù)量的詞語。在網(wǎng)頁去重過程中,先將已有的網(wǎng)頁作為網(wǎng)頁集合,再以該網(wǎng)頁集合為基 礎(chǔ),對后獲取到的網(wǎng)頁進行是否重復的判斷。后獲取的網(wǎng)頁作為備選網(wǎng)頁。依 據(jù)網(wǎng)頁去重所需的準確度,在備選網(wǎng)頁正文中選取預設(shè)數(shù)量的詞語。其中預設(shè)數(shù)量的范圍可為1到100。如,已有的網(wǎng)頁集合為(網(wǎng)頁A、網(wǎng)頁B、網(wǎng)頁C),備選網(wǎng)頁為網(wǎng)頁D。 在網(wǎng)頁D中選取a、 b、 c三個詞語。步驟S202、在網(wǎng)頁集合中選取含有上述詞語數(shù)量最多的網(wǎng)頁作為基準網(wǎng)頁。通過對比、查找等方式在網(wǎng)頁集合中選取含有上述詞語數(shù)量最多的網(wǎng)頁, 作為基準網(wǎng)頁。如,網(wǎng)頁A正文中不包含詞語a、 b、 c中任何一個;網(wǎng)頁B正文中包含a、 b兩個詞語;網(wǎng)頁C正文中包含a、 b、 c三個詞語。因網(wǎng)頁C所包含詞語的數(shù) 量大于網(wǎng)頁B和網(wǎng)頁A,將網(wǎng)頁C作為基準網(wǎng)頁。步驟S 2 0 3 、將基準網(wǎng)頁中所包含的上述詞語的數(shù)量與設(shè)定閾值進行比較。
提取基準網(wǎng)頁所包含上述詞語的數(shù)量,并與設(shè)定閾值相比較。設(shè)定閾值可 根據(jù)網(wǎng)頁去重所需的準確度進行設(shè)置,設(shè)定閾值的范圍可為預設(shè)數(shù)量/2至預 設(shè)數(shù)量。
如,網(wǎng)頁C中包含上述詞語的數(shù)量為3,設(shè)定閾值為2。
當然,步驟S203也可為計算基準網(wǎng)頁中所包含的上述詞語的數(shù)量與預設(shè)
數(shù)量的比例數(shù),將該比例數(shù)與設(shè)定閾值進行比較。此時,設(shè)定閾值的范圍可為
50%至100%。
步驟S204、如基準網(wǎng)頁中所包含的上述詞語的數(shù)量大于設(shè)定閾值,則將 備選網(wǎng)頁作為重復網(wǎng)頁處理。
如基準網(wǎng)頁中所包含的上述詞語的數(shù)量大于設(shè)定閾值,則將備選網(wǎng)頁作為 重復網(wǎng)頁處理;如基準網(wǎng)頁中所包含的上述詞語小于設(shè)定閾值,則將所述備選 網(wǎng)頁加入網(wǎng)頁集合。
如,網(wǎng)頁C中所包含的上述詞語數(shù)量為3,大于設(shè)定閾值2,則將備選網(wǎng) 頁D作為重復網(wǎng)頁,進^f亍刪除。
本發(fā)明可通過適當提高設(shè)定數(shù)值,加大參與對比的詞語量,降低對比的偶 然性,在去除內(nèi)容并非完全一致的重復網(wǎng)頁時,可有效提高網(wǎng)頁去重的準確性, 并降低誤判率。同時,本發(fā)明還可通過提高/降低設(shè)定閾值有效調(diào)節(jié)網(wǎng)頁去重 的準確率和誤判率,如,提高設(shè)定閾值,可提高準確率;降低設(shè)定闊值,可提 高誤判率。因此,本發(fā)明可通過適當調(diào)節(jié)設(shè)定閾值和設(shè)定數(shù)值,來有效提高網(wǎng) 頁去重的準確率,降低誤判率。
為進一步提高網(wǎng)頁去重的準確性,降低網(wǎng)頁去重的誤判率,本發(fā)明可在備 選網(wǎng)頁中選取與網(wǎng)頁主題相關(guān)度較高的詞語。
參閱圖3,為本發(fā)明第二實施例提供的網(wǎng)頁去重方法流程圖,包括以下步驟。
步驟S301、對備選網(wǎng)頁中詞語的屬性進行標注,過濾屬性為停用詞和虛 詞的詞^吾。
對備選網(wǎng)頁中詞語的屬性進行標注。本發(fā)明詞語的屬性可分為關(guān)鍵詞、停 用詞和虛詞。其中,關(guān)鍵詞為具有一定實質(zhì)意義的詞語,如電腦、購買、職務 等詞語;停用詞和虛詞為不具有實時意義的詞語,如了、嗎、的、啊等詞語。 本發(fā)明內(nèi)置存儲停用詞和虛詞的數(shù)據(jù)庫,將備選網(wǎng)頁正文中的詞語與數(shù)據(jù)庫中 存儲的詞語進行對比,如備選網(wǎng)頁正文中的詞語與數(shù)據(jù)庫中存儲的詞語相同, 則過濾掉該詞語。步驟S302、計算備選網(wǎng)頁中各詞語的權(quán)值。詞語的權(quán)值表示該詞語與主題的相關(guān)度,權(quán)值高的詞語可認為與網(wǎng)頁主題相關(guān)度高。本發(fā)明通過權(quán)值-TFx IDF算式計算詞語的權(quán)值,即w(乂,力=7F(y;, * /z)F(/;) = iv(/rf) * iog(iv(y;) / tv)其中,w(乂,c/)表示詞語/;在備選網(wǎng)頁文本d中的權(quán)值;w(y;)表示詞語/;在 備選網(wǎng)頁文本d中出現(xiàn)的次數(shù);7v(,)表示詞語/,的訓練文本數(shù),N表示總訓練 文本數(shù)。/Z)F(,)是詞語/,對應的固定值,是通過在N個訓練文本中,查找計算 含有詞語乂的文本數(shù)w(/),再通過算式iog(w(/,)/AO,計算獲得。7F(y;,力通過 查找詞語乂在備選網(wǎng)頁文本^中出現(xiàn)的次數(shù)獲得。步驟S303、按照權(quán)值從大到小的順序在備選網(wǎng)頁中選取預設(shè)數(shù)量的詞語。 將網(wǎng)頁正文的詞語按權(quán)值大小排序,再按照從大到小的順序在網(wǎng)頁中選取 預設(shè)數(shù)量的詞語。如,預設(shè)數(shù)量為5,則在備選網(wǎng)頁中選取權(quán)值較大的a、 b、 c、 d、 e五個 詞語。步驟S304、在網(wǎng)頁集合中選取含有上述詞語數(shù)量最多的網(wǎng)頁作為基準網(wǎng)頁。如,網(wǎng)頁集合中網(wǎng)頁A正文中不包含詞語a、 b、 c、 d、 e中任何一個;網(wǎng) 頁B正文中包含a、 b、 c三個詞語,網(wǎng)頁C正文中包含a、 b、 c 、 d四個詞語。 因網(wǎng)頁C所包含詞語的數(shù)量大于網(wǎng)頁B和網(wǎng)頁A,將網(wǎng)頁C作為基準網(wǎng)頁。步驟S305、將基準網(wǎng)頁中所包含的上述詞語的數(shù)量與設(shè)定閾值進行比較。步驟S306、如基準網(wǎng)頁中所包含的上述詞語的數(shù)量大于設(shè)定閾值,則將 備選網(wǎng)頁作為重復網(wǎng)頁處理;如基準網(wǎng)頁中所包含的上述詞語小于設(shè)定閾值, 則將所述備選網(wǎng)頁加入網(wǎng)頁集合。本發(fā)明按照權(quán)值從大到小的順序在備選網(wǎng)頁中選取預設(shè)數(shù)量的詞語。權(quán)值 大表明該詞語與網(wǎng)頁主題相關(guān)程度高,更具有代表性。在去除內(nèi)容并非完全一 致的重復網(wǎng)頁時,選取權(quán)值高的詞語進行對比、判斷, 的準確率,降低誤判率。
本發(fā)明在判斷備選網(wǎng)頁為重復網(wǎng)頁之后,還可利用網(wǎng)頁集合中其他網(wǎng)頁進 行進一步確認,以提高網(wǎng)頁去重的準確性,降低網(wǎng)頁去重的誤判率。
參閱圖4,為本發(fā)明第三實施例提供的網(wǎng)頁去重方法流程圖,具體步驟如 下所述。
步驟S401、在備選網(wǎng)頁中選耳又預設(shè)數(shù)量的詞語。 如,在備選網(wǎng)頁中選取a、 b、 c、 d、 e、 f、 g、 h、 i、 j等十個詞語。 步驟S402、將上述預設(shè)數(shù)量的詞語作為查詢串,在網(wǎng)頁集合中進行;險索。 如,將a、 b、 c、 d、 e、 f、 g、 h、 i、 j等十個詞語作為查詢串,在網(wǎng)頁 集合中進行檢索。
步驟S403、按照包含上述詞語的數(shù)量從大到小將檢索到的網(wǎng)頁排序。
如,網(wǎng)頁集合中網(wǎng)頁A正文中不包含上述詞語中任何一個,網(wǎng)頁B正文中 包含a、 b、 c、 d、 e、 f、 g、 h八個詞語,網(wǎng)頁C正文中包含a、 b、 c、 d、 e、 f、 g、 h、 i九個詞語。檢索到的網(wǎng)頁為網(wǎng)頁B和網(wǎng)頁C,因網(wǎng)頁C所包含詞語 的數(shù)量大于網(wǎng)頁B,排序為網(wǎng)頁C、網(wǎng)頁B。
步驟S404、選取排序第一的網(wǎng)頁作為基準網(wǎng)頁。
如,選取網(wǎng)頁C作為基準網(wǎng)頁。
步驟S405、將基準網(wǎng)頁中所包含的上述詞語的數(shù)量與設(shè)定閾值進行比較。
如,設(shè)定闕值為7,基準網(wǎng)頁中的包含上述詞語的數(shù)量為9。
步驟S406、如基準網(wǎng)頁中所包含的上述詞語的數(shù)量大于設(shè)定閾值,則判
斷備選網(wǎng)頁為重復網(wǎng)頁,轉(zhuǎn)到步驟S407;如基準網(wǎng)頁中所包含的上述詞語小
于設(shè)定閾值,則將所述備選網(wǎng)頁加入網(wǎng)頁集合。 如,9〉7,則判斷備選網(wǎng)頁為重復網(wǎng)頁。 步驟S407、再選取排序第二的網(wǎng)頁作為基準網(wǎng)頁。 如,選擇網(wǎng)頁B作為基準網(wǎng)頁。
步驟S408、將基準網(wǎng)頁中所包含的上述詞語的數(shù)量與設(shè)定闞值進行比較。 如,設(shè)定閾值為7,基準網(wǎng)頁中的包含上述詞語的數(shù)量為8。 步驟S409、如基準網(wǎng)頁中所包含的上述詞語的數(shù)量大于設(shè)定閾值,則確 定備選網(wǎng)頁為重復網(wǎng)頁;如基準網(wǎng)頁中所包含的上述詞語小于設(shè)定閾值,將備
選網(wǎng)頁加入網(wǎng)頁集合。如,8>7,則確定備選網(wǎng)頁為重復網(wǎng)頁。在上述步驟中,本發(fā)明通過網(wǎng)頁集合中包含上述詞語最多的網(wǎng)頁來判斷備 選網(wǎng)頁是否為重復網(wǎng)頁,再通過網(wǎng)頁集合中包含上述詞語數(shù)量第二的網(wǎng)頁進一 步確定該備選網(wǎng)頁為重復網(wǎng)頁,確保網(wǎng)頁去重的高準確率和低失誤率。當然,本發(fā)明還可利用網(wǎng)頁集合中包含上述詞語數(shù)量第三、第四、第五、、、 的網(wǎng)頁依次作為基準網(wǎng)頁,來進一步確定該備選網(wǎng)頁為重復網(wǎng)頁,來保i正網(wǎng)頁 去重的高準確率和低失誤率?;谏鲜鼍W(wǎng)頁去重方法,本發(fā)明還提供一種網(wǎng)頁去重系統(tǒng),該系統(tǒng)能夠有 效提高網(wǎng)頁去重的準確率,減少網(wǎng)頁去重的誤判率。參閱圖5,為本發(fā)明第四實施例提供的網(wǎng)頁去重系統(tǒng)示意圖,包括詞語選取單元51、基準網(wǎng)頁選取單元52、比較單元53、及處理單元54。詞語選取單元51在備選網(wǎng)頁中選取預設(shè)數(shù)量的詞語,并將上述詞語傳送 給基準網(wǎng)頁選取單元52。其中預設(shè)數(shù)量的范圍可為1到100。詞語選取單元 51可內(nèi)置存儲停用詞和虛詞的數(shù)據(jù)庫,將備選網(wǎng)頁正文中的詞語與數(shù)據(jù)庫中 存儲的詞語進行對比,如備選網(wǎng)頁正文中的詞語與數(shù)據(jù)庫中存儲的詞語相同, 則過濾掉該詞語?;鶞示W(wǎng)頁選取單元52在網(wǎng)頁集合中選取含有上述詞語數(shù)量最多的網(wǎng)頁作 為基準網(wǎng)頁,并將該基準網(wǎng)頁發(fā)送給比較單元53。比較單元53提取基準網(wǎng)頁所包含上述詞語的數(shù)量,并與設(shè)定閾值相比較, 在基準網(wǎng)頁中所包含的上述詞語的數(shù)量大于設(shè)定閾值時,啟動處理單元54。 設(shè)定閾值的范圍可為預設(shè)數(shù)量/2至預設(shè)數(shù)量。當然,比較單元53也可為計算基準網(wǎng)頁中所包含的上述詞語的數(shù)量與預 設(shè)數(shù)量的比例數(shù),將該比例數(shù)與設(shè)定閾值進行比較,在基準網(wǎng)頁中所包含的上 述詞語的數(shù)量大于設(shè)定閾值時,啟動處理單元54。此時,設(shè)定閾值的范圍可 為50%至100%。處理單元54將所述備選網(wǎng)頁作為重復網(wǎng)頁進行處理。該系統(tǒng)可通過適當提高設(shè)定數(shù)值,加大參與對比的詞語量,降低對比的偶 然性,在去除內(nèi)容并非完全一致的重復網(wǎng)頁時,可有效提高網(wǎng)頁去重的準確性,
并降低誤判率。
參閱圖6,為本發(fā)明第五實施例提供的網(wǎng)頁去重系統(tǒng)示意圖,包括詞語選
取單元51、基準網(wǎng)頁選取單元52、比較單元53、處理單元54、及權(quán)值計算單 元55n
權(quán)值計算單元55計算備選網(wǎng)頁正文中各詞語的權(quán)值,并將計算結(jié)果傳送 到詞語選取單元51。 計算權(quán)值的算式為
, cf) = 7F(乂,力* /DF(/;) = at(乂, ) * iog( at(/' ) / w) 其中,w(y;^)表示詞語y;在備選網(wǎng)頁文本d中的權(quán)值;iv(/;)表示詞語/;在 備選網(wǎng)頁文本^中出現(xiàn)的次數(shù);iv(/)表示詞語/;的訓練文本數(shù),N表示總訓練 文本數(shù)。
詞語選取單元51按照權(quán)值從大到小的順序在備選網(wǎng)頁中選取預設(shè)數(shù)量的 詞語。
基準網(wǎng)頁選取單元52、比較單元53、處理單元54在該實施例中的功能和 作用與圖四所示實施例相同,不再贅述。
以上對本發(fā)明所提供的一種網(wǎng)頁去重方法及系統(tǒng),進行了詳細介紹,本文 中應用了具體個例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的說明 只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù) 人員,依據(jù)本發(fā)明的思想,在具體實施方式
及應用范圍上均會有改變之處,綜 上所述,本說明書內(nèi)容不應理解為對本發(fā)明的限制。
權(quán)利要求
1、一種網(wǎng)頁去重的方法,其特征在于,包括在備選網(wǎng)頁中選取預設(shè)數(shù)量的詞語;在網(wǎng)頁集合中選取含有上述詞語數(shù)量最多的網(wǎng)頁作為基準網(wǎng)頁;如所述基準網(wǎng)頁中包含上述詞語的數(shù)量大于設(shè)定閾值,則將所述備選網(wǎng)頁作為重復網(wǎng)頁進行處理。
2、 如權(quán)利要求l所述的方法,其特征在于,還包括如所述基準網(wǎng)頁中包含上述詞語的數(shù)量小于設(shè)定閾值,則將所述備選網(wǎng)頁 加入所述網(wǎng)頁集合。
3、 如權(quán)利要求1所述的方法,其特征在于,在備選網(wǎng)頁中選取預設(shè)數(shù)量 的詞語之前,還包括對所述備選網(wǎng)頁中詞語的屬性進行標注,過濾屬性為停用詞和虛詞的詞語。
4、 如權(quán)利要求l、 2或3所述的方法,其特征在于,按照權(quán)值從大到小的 順序在所述備選網(wǎng)頁中選取預設(shè)數(shù)量的詞語。
5、 如權(quán)利要求4所述的方法,其特征在于,在所述備選網(wǎng)頁中選取預設(shè) 數(shù)量的詞語之前,還包括將各詞語的訓練文本數(shù)除以總訓練文本數(shù)的商取對數(shù),獲得的數(shù)值再乘以 所述備選網(wǎng)頁文本中出現(xiàn)該詞語的次數(shù),得到所述備選網(wǎng)頁中各詞語的權(quán)值。
6、 如權(quán)利要求l所述的方法,其特征在于,按下述步驟,在網(wǎng)頁集合中 選取含有上述詞語數(shù)量最多的網(wǎng)頁作為基準網(wǎng)頁;將上述預設(shè)數(shù)量的詞語作為查詢串,在所述網(wǎng)頁集合中檢索; 按照包含上述詞語的數(shù)量從大到小將檢索到的網(wǎng)頁排序; 將排序第一的網(wǎng)頁作為基準網(wǎng)頁。
7、 如權(quán)利要求6所述的方法,其特征在于,將所述備選網(wǎng)頁作為重復網(wǎng) 頁進行處理之前,還包括選取排序第二的網(wǎng)頁作為基準網(wǎng)頁;將該基準網(wǎng)頁中所包含的上述詞語的數(shù)量與設(shè)定閾值進行比較; 如該基準網(wǎng)頁中所包含的上述詞語的數(shù)量大于設(shè)定閾值,確定所述備選網(wǎng) 頁為重復網(wǎng)頁。
8、 如權(quán)利要求6或7所述的方法,其特征在于,確定所述備選網(wǎng)頁為重 復網(wǎng)頁之前,還包括依次選取排序在后的網(wǎng)頁作為基準網(wǎng)頁;將該基準網(wǎng)頁中所包含的上述詞語的數(shù)量與設(shè)定閾值進行比較; 如該基準網(wǎng)頁中所包含的上述詞語的數(shù)量大于設(shè)定閾值,確定備選網(wǎng)頁為 重復網(wǎng)頁處理。
9、 一種網(wǎng)頁去重的系統(tǒng),其特征在于,包括詞語選取單元、基準網(wǎng)頁選 取單元、比較單元、及處理單元所述詞語選取單元,用于在備選網(wǎng)頁中選取預設(shè)數(shù)量的詞語;所述基準網(wǎng)頁選取單元,用于在網(wǎng)頁集合中選取含有上述詞語數(shù)量最多的 網(wǎng)頁作為基準網(wǎng)頁;所述比較單元,用于在所述基準網(wǎng)頁中包含上述詞語的數(shù)量大于設(shè)定閾值 時,啟動所述處理單元;所述處理單元,用于將所述備選網(wǎng)頁作為重復網(wǎng)頁進^"處理。
10、 如權(quán)利要去9所述的系統(tǒng),其特征在于,還包括權(quán)值計算單元,用于 計算上述各詞語的權(quán)值,并將計算結(jié)果傳送到所述詞語選取單元;所述詞語選取單元按照權(quán)值從大到小的順序在備選網(wǎng)頁中選取預設(shè)數(shù)量 的詞語。
全文摘要
本發(fā)明涉及一種網(wǎng)頁去重的方法,包括在備選網(wǎng)頁中選取預設(shè)數(shù)量的詞語;在網(wǎng)頁集合中選取含有上述詞語數(shù)量最多的網(wǎng)頁作為基準網(wǎng)頁;如所述基準網(wǎng)頁中包含上述詞語的數(shù)量大于設(shè)定閾值,則將所述備選網(wǎng)頁作為重復網(wǎng)頁進行處理。同時,本發(fā)明還提供一種網(wǎng)頁去重系統(tǒng)。本發(fā)明可有效提高網(wǎng)頁去重的準確率,減少網(wǎng)頁去重的誤判率。
文檔編號G06F17/21GK101102316SQ20071012305
公開日2008年1月9日 申請日期2007年6月22日 優(yōu)先權(quán)日2007年6月22日
發(fā)明者勖 文 申請人:騰訊科技(深圳)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1