亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種網(wǎng)頁錨文本去噪系統(tǒng)及方法

文檔序號:6616185閱讀:154來源:國知局
專利名稱:一種網(wǎng)頁錨文本去噪系統(tǒng)及方法
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)頁錨文本處理技術(shù),特別是涉及一種網(wǎng)頁錨文本去噪系統(tǒng)及方法。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展及廣泛應(yīng)用,從網(wǎng)絡(luò)中獲取各種所需信息已經(jīng) 被大多數(shù)網(wǎng)絡(luò)用戶所接受,而且逐漸成為用戶曰常生活中不可缺少的一部分。 為了給用戶提供更方便、快捷的查詢方式,目前所采用的搜索引擎技術(shù)成為互 聯(lián)網(wǎng)使用最頻繁的查找資料的工具,具體來說,搜索引擎通常會在某一網(wǎng)頁中 給出一些可以鏈接其他相關(guān)網(wǎng)頁的文字,這些文字是能夠描述相關(guān)網(wǎng)頁內(nèi)容的 關(guān)鍵詞,用戶可以根據(jù)所述關(guān)鍵詞的描述進一步點擊進入相關(guān)網(wǎng)頁查找自己所需的資料。例如當(dāng)用戶輸入http:〃news.sinaxom.cn進入新浪網(wǎng)的新聞中心網(wǎng) 頁時,在網(wǎng)頁的不同位置會出現(xiàn)"體育"、"財經(jīng)"、"音樂"、"科技",或是"今 曰天氣"、"視頻新聞"、"軍事論壇"等等關(guān)鍵詞,用戶如果希望了解體育相關(guān) 信息就可以選擇點擊"體育",進入網(wǎng)址為http:〃sports .sina.com.cn的網(wǎng)頁獲取 相關(guān)體育信息。這里,描述相關(guān)網(wǎng)頁內(nèi)容的關(guān)鍵詞稱為中心詞, 一個網(wǎng)頁中指向另一網(wǎng)頁的鏈接文字稱為網(wǎng)頁錨文本,多個網(wǎng)頁錨文本可以指向同一個鏈接 網(wǎng)址。在上面的例子中,體育、財經(jīng)、音樂、科技、今日天氣、視頻新聞、軍 事論壇等等都可稱為中心詞;同時,"體育"、"財經(jīng)"、"音樂"、"科技"、"今曰 天氣"、"視頻新聞"、"軍事論壇"等分別指向不同的網(wǎng)頁,"體育"就是 http:〃sports.sina.com.cn網(wǎng)頁的錨文本,"財經(jīng),,就是http:〃fmance.sina. com.cn 網(wǎng)頁的錨文本,其它以此類推,分別是所指向網(wǎng)頁的錨文本。從搜索引擎的實際應(yīng)用可以看出,目前網(wǎng)頁提供商所提供的鏈接網(wǎng)頁并不區(qū)分年齡、性別,網(wǎng)頁的內(nèi)容更是有好有壞,再加上一些作弊網(wǎng)頁的產(chǎn)生,就 會在用戶進行正常搜索時出現(xiàn)很多無關(guān)網(wǎng)頁或是垃圾網(wǎng)頁,給用戶迅速獲取信 息造成麻煩。例如用戶進入某網(wǎng)頁輸入關(guān)鍵詞后,就可能出現(xiàn)大量網(wǎng)頁錨文 本,分別指向不同的網(wǎng)頁鏈接,其中就包括部分無關(guān)網(wǎng)頁或垃圾網(wǎng)頁,而用戶 并不清楚網(wǎng)頁錨文本是否與指向網(wǎng)頁的實際內(nèi)容相關(guān),只能通過一一打開每個 網(wǎng)頁査看其中的內(nèi)容,進而獲取所需信息,這顯然給用戶造成很多麻煩,且降 低了查詢效率。顯然,通過各種技術(shù)去除與指向網(wǎng)頁內(nèi)容不相關(guān)的錨文本數(shù)據(jù) 是非常有必要的,這種去除不相關(guān)網(wǎng)頁錨文本的技術(shù)稱為網(wǎng)頁錨文本去噪?,F(xiàn)有技術(shù)中,主要是利用預(yù)先設(shè)置的過濾詞表,從眾多網(wǎng)頁錨文本中去除 包含有過濾詞表中出現(xiàn)的過濾詞的網(wǎng)頁錨文本,以減少無用網(wǎng)頁錨文本的出現(xiàn) 量。目前,所述過濾詞表設(shè)置于服務(wù)器端, 一般是由搜索引擎提供商通過人工 方式從大量網(wǎng)頁中找出 一些過濾規(guī)則和過濾詞,進行編輯后分類放入過濾詞表 中,之后利用得到的過濾詞表完成網(wǎng)頁錨文本去噪。但是,現(xiàn)有利用過濾詞表完成網(wǎng)頁錨文本去噪的方法,需要人工分析網(wǎng)頁 錨文本找出與網(wǎng)頁無關(guān)的詞,然后加入過濾詞表中,這種方法不僅效率低,而 且無法智能分析網(wǎng)頁錨文本中的詞是否與網(wǎng)頁實際內(nèi)容相關(guān),-無法自動去掉不 相關(guān)的詞。發(fā)明內(nèi)容有鑒于此,本發(fā)明的主要目的在于提供一種網(wǎng)頁錨文本去噪系統(tǒng)及方法, 能為用戶提供更高質(zhì)量的網(wǎng)頁錨文本數(shù)據(jù),進而提高用戶的網(wǎng)頁搜索效率。為達到上述目的,本發(fā)明的技術(shù)方案是這樣實現(xiàn)的本發(fā)明提供了一種網(wǎng)頁錨文本去噪系統(tǒng),包括語料爬蟲系統(tǒng)、原始網(wǎng)頁數(shù) 據(jù)庫、原始正文數(shù)據(jù)庫,關(guān)鍵在于,該系統(tǒng)還包括語料自動訓(xùn)練單元、錨文本 去噪單元、錨文本數(shù)據(jù)庫以及基本詞表和中心詞表;其中,語料自動訓(xùn)練單元,用于根據(jù)基本詞表對原始網(wǎng)頁進行迭代訓(xùn)練,分析出 網(wǎng)頁包含的中心詞,并利用得到的中心詞更新基本詞表和中心詞表;錨文本去噪單元,根據(jù)更新的中心詞表或基本詞表、以及原始正文數(shù)據(jù), 對原始網(wǎng)頁錨文本進行去噪處理,得到過濾后的網(wǎng)頁錨文本;. 錨文本數(shù)據(jù)庫,用于存儲網(wǎng)頁錨文本。其中,所述語料自動訓(xùn)練單元與語料爬蟲系統(tǒng)相連,由語料爬蟲系統(tǒng)提供 原始網(wǎng)頁數(shù)據(jù)?;蛘?,所述語料自動訓(xùn)練單元與原始網(wǎng)頁數(shù)據(jù)庫相連,由原始 網(wǎng)頁數(shù)據(jù)庫提供原始網(wǎng)頁數(shù)據(jù)。上述方案中,所述錨文本數(shù)據(jù)庫進一步包括原始錨文本數(shù)據(jù)庫和更新錨文 本數(shù)據(jù)庫,分別存儲去噪前和去噪后的網(wǎng)頁錨文本。上述方案中,所述語料自動訓(xùn)練單元進一步包括語料庫、網(wǎng)頁正文提取系 統(tǒng)、分詞系統(tǒng)、相關(guān)性計算模塊以及比較模塊,其中,語料庫,用于存儲下載的網(wǎng)頁作為語料;網(wǎng)頁正文提取系統(tǒng),用于對下載的網(wǎng)頁進行網(wǎng)頁正文提取,并將提取的正 文存入語料庫;分詞系統(tǒng),用于對語料庫中的語料進行分詞;相關(guān)性計算模塊,用于對經(jīng)過正文提取和分詞處理得到的詞信息進行相關(guān) 性計算,得到每個詞的權(quán)值;比較模塊,將得到權(quán)值的詞的權(quán)值與設(shè)置的權(quán)值閥值比較,并比較得到權(quán)值的詞與基本詞表中的詞,得到與基本詞表最相關(guān)的詞更新基本詞表。本發(fā)明還提供了一種網(wǎng)頁錨文本去噪方法,包括設(shè)置初始基本詞表,該方 法還包括A、 下載需要的網(wǎng)頁,利用基本詞表對下載的網(wǎng)頁進行迭代訓(xùn)練,得到下 載網(wǎng)頁的中心詞,更新中心詞表和基本詞表;B、 根據(jù)最新的中心詞表或基本詞表,分析原始網(wǎng)頁正文和原始網(wǎng)頁錨文 本,去除與網(wǎng)頁正文不相關(guān)的網(wǎng)頁錨文本。其中,步驟B之后進一步包括存儲去噪后的網(wǎng)頁錨文本。 上述方案中,步驟A中所述迭代訓(xùn)練具體包括 Al、選擇并下載一定數(shù)量的網(wǎng)頁作為初始語料;A2、對下載的網(wǎng)頁進行正文提取,并將提取的正文存入語料庫;A3、對語料庫中的語料進行分詞;A4、對經(jīng)過正文提取和分詞處理得到的詞信息進行相關(guān)性計算,得到每個 詞的權(quán)值;A5、將得到權(quán)值的詞與基本詞表中的詞進行比較,找出與基本詞表最相關(guān) 的詞,更新基本詞表。該方法進一步包括預(yù)先設(shè)置權(quán)值的閥值,所述權(quán)值的閥值每次迭代時可 變;步驟A5中所述找出與基本詞表最相關(guān)的詞為比較得到權(quán)值的詞的權(quán)值 與所設(shè)置的權(quán)值閥值,所述權(quán)值大于所述權(quán)值閥值的為與基本詞表最相關(guān)的詞。上述方案中還包括重復(fù)執(zhí)行步驟A3至A5—次以上,每次迭代的更新基 本詞表作為下一次的基本詞表,得到迭代訓(xùn)練后最新的基本詞表。本發(fā)明所提供的網(wǎng)頁錨文本去噪系統(tǒng)及方法,利用基本詞表對大量原始網(wǎng) 頁數(shù)據(jù)進行迭代訓(xùn)練得到網(wǎng)頁包含的中心詞,再利用得到的中心詞表或更新的 基本詞表對原始錨文本和原始正文進行分析,去除與網(wǎng)頁正文不相關(guān)的錨文本, 這樣,即可去除網(wǎng)頁錨文本中的垃圾數(shù)據(jù),減少網(wǎng)頁錨文本的索引數(shù)據(jù),從而 減少磁盤和內(nèi)存的使用;并且,為網(wǎng)頁搜索提供更高質(zhì)量的網(wǎng)頁錨文本數(shù)據(jù)。當(dāng)用戶進行網(wǎng)頁搜索時,就從更新網(wǎng)頁錨文本中給出包含用戶輸入關(guān)鍵詞 的網(wǎng)頁錨文本,如此,由于去除了網(wǎng)頁錨文本中的垃圾數(shù)據(jù),保留了更加相關(guān) 的數(shù)據(jù)和網(wǎng)頁,增強了網(wǎng)頁搜索結(jié)果的相關(guān)性,大大提高了網(wǎng)頁搜索結(jié)果的質(zhì) 量和網(wǎng)頁搜索效率,能為用戶提供更好的搜索體驗。


圖1為本發(fā)明網(wǎng)頁錨文本去噪系統(tǒng)及搜索系統(tǒng)的組成結(jié)構(gòu)示意圖; 圖2為本發(fā)明網(wǎng)頁錨文本去噪方法的實現(xiàn)流程示意圖。
具體實施方式
本發(fā)明的基本思想是利用基本詞表對原始網(wǎng)頁數(shù)據(jù)通過迭代訓(xùn)練分析出網(wǎng)頁包含的中心詞,再利用得到的中心詞表或更新的基本詞表對原始錨文本和 原始正文進行分析,去除與網(wǎng)頁正文不相關(guān)的錨文本,得到過濾后的更新網(wǎng)頁 錨文本。進一步的,在用戶進行網(wǎng)頁搜索時,從更新網(wǎng)頁錨文本中提供包含用 戶輸入關(guān)鍵詞的網(wǎng)頁錨文本,供用戶選擇相應(yīng)鏈接。這里,所述基本詞表、中心詞表也可以稱為基本詞庫和中心詞庫,其中, 初始基本詞表可由人工設(shè)置,后續(xù)的基本詞表、中心詞表根據(jù)迭代訓(xùn)練結(jié)果不 斷更新。圖1為本發(fā)明網(wǎng)頁錨文本去噪系統(tǒng)及搜索系統(tǒng)的組成結(jié)構(gòu)示意圖,圖1中 虛線上方是本發(fā)明網(wǎng)頁錨文本去噪系統(tǒng),虛線下方是網(wǎng)頁搜索系統(tǒng)部分。如圖 1所示,本發(fā)明的網(wǎng)頁錨文本去噪系統(tǒng)包括語料爬蟲系統(tǒng)、原始網(wǎng)頁數(shù)據(jù)庫、 原始正文數(shù)據(jù)庫,關(guān)鍵在于,該系統(tǒng)還包括語料自動訓(xùn)練單元、錨文本去噪單 元、錨文本數(shù)據(jù)庫以及基本詞表和中心詞表,錨文本數(shù)據(jù)庫進一步包括原始錨 文本數(shù)據(jù)庫和更新錨文本數(shù)據(jù)庫。其中,語料爬蟲系統(tǒng)通常由爬蟲服務(wù)器實現(xiàn),負(fù)責(zé)從互聯(lián)網(wǎng)上下載需要的網(wǎng)頁,放入原始網(wǎng)頁數(shù)據(jù)庫中存儲;同時,將下載的網(wǎng)頁作為訓(xùn)練語料送入語 料自動訓(xùn)練單元進行后續(xù)的迭代訓(xùn)練,該爬蟲系統(tǒng)屬于錨文本去噪系統(tǒng)的相關(guān) 輔助部分。原始網(wǎng)頁數(shù)據(jù)庫主要用于保存由語料爬蟲系統(tǒng)從互聯(lián)網(wǎng)上下載的網(wǎng) 頁,并在需要時為語料自動訓(xùn)練單元提供原始網(wǎng)頁數(shù)據(jù)進行迭代訓(xùn)練。原始正 文數(shù)據(jù)庫用于存儲網(wǎng)頁正文,并將網(wǎng)頁正文提供給錨文本去噪單元進行分析。所述語料自動訓(xùn)練單元,用于根據(jù)基本詞表對原始網(wǎng)頁進行迭代訓(xùn)練,分 析出網(wǎng)頁包含的中心詞,并利用得到的中心詞更新基本詞表和中心詞表。該語 料自動訓(xùn)練單元進一步包括語料庫、網(wǎng)頁正文提取系統(tǒng)、分詞系統(tǒng)、相關(guān)性計 算模塊以及比較模塊,其中,語料庫,用于存儲下載的網(wǎng)頁作為語料;網(wǎng)頁正 文提取系統(tǒng),用于對下載的網(wǎng)頁進行網(wǎng)頁正文提取,并將提取的正文存入語料 庫;分詞系統(tǒng),用于對語料庫中的語料進行分詞;相關(guān)性計算模塊,用于對經(jīng) 過正文提取和分詞處理得到的詞信息進行相關(guān)性計算,得到每個詞的權(quán)值;比 較模塊,將得到權(quán)值的詞的權(quán)值與設(shè)置的權(quán)值閥值比較,并將得到權(quán)值的詞與基本詞表中的詞進行比較,得到與基本詞表最相關(guān)的詞,更新基本詞表。錨文本去噪單元,利用更新的中心詞表或基本詞表結(jié)合原始正文數(shù)據(jù)庫中 的原始正文數(shù)據(jù),對原始錨文本數(shù)據(jù)庫中的網(wǎng)頁錨文本進行去噪處理,得到過 濾后的網(wǎng)頁錨文本,形成更新錨文本數(shù)據(jù)庫。錨文本數(shù)據(jù)庫用于存儲網(wǎng)頁錨文 本,包括原始錨文本數(shù)據(jù)庫和更新錨文本數(shù)據(jù)庫兩部分,分別存儲去噪前的原 始網(wǎng)頁錨文本和去噪后的更新網(wǎng)頁錨文本。對網(wǎng)頁錨文本去噪后,當(dāng)用戶進行網(wǎng)頁搜索時,網(wǎng)絡(luò)側(cè)服務(wù)器會根據(jù)更新 的網(wǎng)頁錨文本為用戶提供相關(guān)的鏈接。具體的,如圖1所示,由索引服務(wù)器對 網(wǎng)頁正文和更新網(wǎng)頁錨文本進行索引,得到的索引數(shù)據(jù)由索引服務(wù)器保存,根 據(jù)得到的索引數(shù)據(jù),檢索服務(wù)器在用戶進行瀏覽時為用戶提供網(wǎng)頁的檢索?;趫D1給出的網(wǎng)頁錨文本去噪系統(tǒng),本發(fā)明的網(wǎng)頁錨文本去噪方法如圖 2所示,包括以下步驟步驟201:設(shè)置初始基本詞表。對于初始基本詞表一般可釆用與現(xiàn)有過濾詞表同樣的方式預(yù)先設(shè)置。 步驟202:從互聯(lián)網(wǎng)下載需要的網(wǎng)頁,利用基本詞表對下載的網(wǎng)頁進行迭 代訓(xùn)練,分析出下載網(wǎng)頁中包含的中心詞,更新中心詞表和基本詞表;下載的 網(wǎng)頁還可以同時放入原始網(wǎng)頁數(shù)據(jù)庫存儲。這里,所述下載需要的網(wǎng)頁是指下載與訓(xùn)練語素相關(guān)的網(wǎng)頁,網(wǎng)頁鏈接從 原始網(wǎng)頁數(shù)據(jù)庫中提取。具體如何下載屬于現(xiàn)有技術(shù),在此不再贅述。所述利 用基本詞表在第一次訓(xùn)練時是初始基本詞表,之后就是上一次更新的基本詞表; 所述中心詞表在第一次訓(xùn)練后由于之前沒有中心詞表,可創(chuàng)建一個中心詞表, 之后每次就更新已有中心詞表的內(nèi)容。本步驟的關(guān)鍵是迭代訓(xùn)練,所述迭代訓(xùn)練具體包括以下步驟 步驟202a:選擇并下載一定數(shù)量的網(wǎng)頁作為初始語料。 一般,在初始情況下,可下載大約1000萬資訊方面的網(wǎng)頁作為初始語料, 之所以選擇資訊方面的網(wǎng)頁是因為資訊方面的網(wǎng)頁質(zhì)量比其它網(wǎng)頁的質(zhì)量高, 當(dāng)然也可以下載其它網(wǎng)頁作為初始語料。并且,通過人工抽查內(nèi)容比較好的網(wǎng)頁。對于初始語料數(shù)據(jù)庫不宜太大,也不宜太小,因為太大會使迭代訓(xùn)練收斂 比較慢,而太小會使訓(xùn)練出的中心詞分布不均勻。步驟202b:對下載的網(wǎng)頁進行正文提取,并將提取的正文存入語料庫。 具體如何進行網(wǎng)頁正文提取屬于現(xiàn)有技術(shù),在此不再詳細描述。網(wǎng)頁正文 的提取具體由網(wǎng)頁正文提取系統(tǒng)完成,網(wǎng)頁正文提取系統(tǒng)將網(wǎng)頁正文中特殊的 詞信息進行標(biāo)識,如文字粗細、顏色等特殊文字,以便后面進行相關(guān)性計算。 步驟202c:對語料庫中的語料進行分詞。一般,通過分詞系統(tǒng)對語料進行分詞處理,標(biāo)出語料的詞性、長度,統(tǒng)計 相應(yīng)語料在網(wǎng)頁正文中出現(xiàn)的次數(shù)等信息,以便后續(xù)進行相關(guān)性計算。步驟202d:對經(jīng)過正文提取和分詞處理得到的詞信息進行相關(guān)性計算,得 到每個詞的權(quán)值。這里,所述進行相關(guān)性計算是指先根據(jù)預(yù)定的規(guī)則對每個詞的不同特性 參數(shù)賦值,例如根據(jù)文字粗細、顏色、詞性、長度賦值,字體粗特性參數(shù)值 高;字體顏色不同于正文的顏色特性參數(shù)值高;名詞的特性參數(shù)值高于其它詞 性的特性參數(shù)值;長度在4字節(jié)和8字節(jié)之間的特性參數(shù)值高,之后,將每個 詞的各個特性參數(shù)值相加再乘以 一個權(quán)重系數(shù),即可計算得到相應(yīng)詞的權(quán)值。 其中,權(quán)重系數(shù)根據(jù)經(jīng)驗值設(shè)定, 一般取值在0 1之間。.在實際應(yīng)用中,對于不同的詞在不同網(wǎng)頁出現(xiàn)時,可能具有不同的特性, 例如"新聞"這個詞在網(wǎng)頁A中出現(xiàn)時具有文字粗細的特性,但不具有顏色 特性,而在網(wǎng)頁B中出現(xiàn)時可能沒有文字粗細的特性,但具有顏色特性;或者, 在不同網(wǎng)頁顏色不同,都會使權(quán)值不同。步驟202e:將步驟202d中得到權(quán)值的詞與基本詞表中的詞進行比較分析, 找出與基本詞表最相關(guān)的詞,增加到基本詞表中更新基本詞表。這里, 一般會預(yù)先設(shè)置權(quán)值的閥值,所述找出與基本詞表最相關(guān)的詞為 將步驟202d中計算出的每個詞的權(quán)值與權(quán)值的閥值進行比乾,權(quán)值越大的表示 越相關(guān),權(quán)值大于閩值的就是與基本詞表最相關(guān)的詞;之后,將權(quán)值大于閥值 且基本詞表中未包含的詞追加到基本詞表中。所設(shè)定的權(quán)值的閥值不是固定不變的,可根據(jù)當(dāng)時的迭代效果進行修改,如設(shè)定第一次迭代的閥值為8,第 二次迭代的閥值為7,第三次迭代的閩值6等等。舉個例子來說,假設(shè)當(dāng)前基本詞表中只有一個詞"軟件",經(jīng)過網(wǎng)頁正文提 取和分詞處理后得到的詞有"軟件下載"、"辦公軟件"、"游戲軟件",通過相 關(guān)性計算得到"辦公軟件"權(quán)值最高,"游戲軟件"權(quán)值其次,"軟件下載"權(quán) 值第三,但是,"辦公軟件"和"游戲軟件"的權(quán)值都高于設(shè)定的權(quán)值閥值,而"軟件下載"的權(quán)值低于設(shè)定的權(quán)值閥值,則將"辦公軟件"和"游戲軟件" 追加到基本詞表,而"軟件下載"暫時不加到基本詞表。之后,將每次更新后的基本詞表作為下一次迭代的基本詞表,重復(fù)執(zhí)行步 驟202c 202e進行迭代訓(xùn)練一次以上,得到本輪迭代訓(xùn)練最新的基本詞表。這 里, 一般可以進行三至五次迭代訓(xùn)練,具體迭代訓(xùn)練的次數(shù)可通過人工抽查詞 表的質(zhì)量進行控制,如果發(fā)現(xiàn)詞表的相關(guān)性不是很好就可以終止訓(xùn)練。 一輪迭 代訓(xùn)練的時間周期與進行訓(xùn)練的機器配置的高低、需迭代次數(shù)、語料庫的大小 有關(guān),沒有具體時間范圍。首次迭代訓(xùn)練后的訓(xùn)練語料可以根據(jù)基本詞表的擴大而擴大,根據(jù)下載網(wǎng) 頁的速度和網(wǎng)頁的質(zhì)量基本控制在IO億以內(nèi), 一般超過1000萬就需要分機器 進行訓(xùn)練,但處理的基本思路是一樣的。這里,步驟202e每次迭代訓(xùn)練得到的、追加到基本詞表中的詞同時也作為 中心詞,更新中心詞表。步驟203:根據(jù)當(dāng)前得到的、最新的中心詞表或基本詞表,分析原始的網(wǎng) 頁正文和原始的網(wǎng)頁錨文本,去除與網(wǎng)頁正文不相關(guān)的網(wǎng)頁錨文本。這里,最新的中心詞表與基本詞表的內(nèi)容基本一致,用基本詞表或中心詞 表完成網(wǎng)頁錨文本去噪都是可以的。但由于基本詞表和中心詞表的更新周期不 同,基本詞表在不斷更新,而中心詞表一個周期才更新一次,所以基本詞表通 常在迭代訓(xùn)練時使用,而給網(wǎng)頁錨文本去噪一般使用中心詞表。步驟204:將去噪后新的網(wǎng)頁錨文本數(shù)據(jù)存儲為新的網(wǎng)頁錨文本數(shù)據(jù)庫, 在用戶進行網(wǎng)頁搜索時提供相應(yīng)的網(wǎng)頁錨文本。在實際應(yīng)用中,可以根據(jù)需要重復(fù)執(zhí)行步驟202 204,及時更新網(wǎng)頁錨文 本數(shù)據(jù)庫。舉個例子來說,假設(shè)設(shè)置的初始基本詞表包括"即時通訊"、"即時通訊網(wǎng)"、 "IM";當(dāng)前指向鏈接www.qq.com的原始網(wǎng)頁錨文本包括"bt下載一-IM聊天 軟件"、"即時通訊網(wǎng)一不錯的網(wǎng)站"、"天空網(wǎng)下載一IM軟件"。本例中,以更 新后的基本詞表為基準(zhǔn),完成網(wǎng)頁錨文本的去噪處理。那么,網(wǎng)頁錨文本的去 噪方法為步驟a:從互聯(lián)網(wǎng)抓取一批網(wǎng)頁,根據(jù)基本詞表對所抓取的網(wǎng)頁進行迭代 訓(xùn)練,分析出與基本詞表相關(guān)的關(guān)鍵詞,更新基本詞表。這里,第一次訓(xùn)練所采用的基本詞表是初始基本詞表,經(jīng)過迭代分析出"IM 聊天軟件"、"IM軟件"等新詞,用新詞更新基本詞表,基本詞表就更新為"即 時通訊"、"即時通訊網(wǎng)"、"IM"、 "IM聊天軟件"、"IM軟件"。步驟b:根據(jù)更新后的基本詞表,對當(dāng)前的原始網(wǎng)頁錨文本進行去噪,去 除一些不相關(guān)的文本文字。比如去噪后的網(wǎng)頁錨文本為"IM聊天軟件"、"即 時通訊網(wǎng)"、"IM軟件"。這樣,當(dāng)用戶搜索"bt下載"、"天空網(wǎng)"等關(guān)鍵詞時,就不會出現(xiàn)即時通 訊網(wǎng)的頁面,從而提高了網(wǎng)頁搜索結(jié)果的相關(guān)性,提升了用戶體驗度。以上所述,僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護范圍。
權(quán)利要求
1、一種網(wǎng)頁錨文本去噪系統(tǒng),包括語料爬蟲系統(tǒng)、原始網(wǎng)頁數(shù)據(jù)庫、原始正文數(shù)據(jù)庫,其特征在于,該系統(tǒng)還包括語料自動訓(xùn)練單元、錨文本去噪單元、錨文本數(shù)據(jù)庫以及基本詞表和中心詞表;其中,語料自動訓(xùn)練單元,用于根據(jù)基本詞表對原始網(wǎng)頁進行迭代訓(xùn)練,分析出網(wǎng)頁包含的中心詞,并利用得到的中心詞更新基本詞表和中心詞表;錨文本去噪單元,根據(jù)更新的中心詞表或基本詞表、以及原始正文數(shù)據(jù),對原始網(wǎng)頁錨文本進行去噪處理,得到過濾后的網(wǎng)頁錨文本;錨文本數(shù)據(jù)庫,用于存儲網(wǎng)頁錨文本。
2、 根據(jù)權(quán)利要求l所述的去噪系統(tǒng),其特征在于,所述語料自動訓(xùn)練單元 與語料爬蟲系統(tǒng)相連,由語料爬蟲系統(tǒng)提供原始網(wǎng)頁數(shù)據(jù)。
3、 根據(jù)權(quán)利要求l所述的去噪系統(tǒng),其特征在于,所述語料自動訓(xùn)練單元 與原始網(wǎng)頁數(shù)據(jù)庫相連,由原始網(wǎng)頁數(shù)據(jù)庫提供原始網(wǎng)頁數(shù)據(jù)。
4、 根據(jù)權(quán)利要求l、 2或3所述的去噪系統(tǒng),其特征在于,所述錨文本數(shù)據(jù)庫進一步包括原始錨文本數(shù)據(jù)庫和更新錨文本數(shù)據(jù)庫,分別存儲去噪前和去 噪后的網(wǎng)頁錨文本。
5、 根據(jù)權(quán)利要求4所述的去噪系統(tǒng),其特征在于,所述語料自動訓(xùn)練單元 進一步包括語料庫、網(wǎng)頁正文提取系統(tǒng)、分詞系統(tǒng)、相關(guān)性計算模塊以及比較 模塊,其中,語料庫,用于存儲下載的網(wǎng)頁作為語料;網(wǎng)頁正文提取系統(tǒng),用于對下載的網(wǎng)頁進行網(wǎng)頁正文提取,并將提取的正文存入語料庫;分詞系統(tǒng),用于對語料庫中的語料進行分詞;相關(guān)性計算模塊,用于對經(jīng)過正文提取和分詞處理得到的詞信息進行相關(guān) 性計算,得到每個詞的權(quán)值;比較模塊,將得到權(quán)值的詞的權(quán)值與設(shè)置的權(quán)值閩值比較,并比較得到權(quán)值的詞與基本詞表中的詞,得到與基本詞表最相關(guān)的詞更新基本詞表。
6、 一種網(wǎng)頁錨文本去噪方法,其特征在于,設(shè)置初始基本詞表,該方法還 包括A、 下載需要的網(wǎng)頁,利用基本詞表對下載的網(wǎng)頁進行迭代訓(xùn)練,得到下 載網(wǎng)頁的中心詞,更新中心詞表和基本詞表;B、 根據(jù)最新的中心詞表或基本詞表,分析原始網(wǎng)頁正文和原始網(wǎng)頁錨文本,去除與網(wǎng)頁正文不相關(guān)的網(wǎng)頁錨文本。
7、 根據(jù)權(quán)利要求6所述的去噪方法,其特征在于,步驟B之后進一步包 括存儲去噪后的網(wǎng)頁錨文本。
8、 根據(jù)權(quán)利要求6或7所述的去噪方法,其特征在于,步驟A中所述迭 代訓(xùn)練具體包括Al、選擇并下載一定數(shù)量的網(wǎng)頁作為初始語料;A2、對下載的網(wǎng)頁進行正文提取,并將提取的正文存入語料庫;A3、對語料庫中的語料進行分詞;A4、對經(jīng)過正文提取和分詞處理得到的詞信息進行相關(guān)性計算,得到每個 詞的權(quán)值;A5、將得到權(quán)值的詞與基本詞表中的詞進行比較,找出與基本詞表最相關(guān) 的詞,更新基本詞表。
9、 根據(jù)權(quán)利要求8所述的去噪方法,其特征在于,該方法進一步包括預(yù) 先設(shè)置權(quán)值的閥值,所述權(quán)值的閥值每次迭代時可變; .步驟A5中所述找出與基本詞表最相關(guān)的詞為比較得到權(quán)值的詞的權(quán)值 與所設(shè)置的權(quán)值閥值,所述權(quán)值大于所述權(quán)值閥值的為與基本詞表最相關(guān)的詞。
10、 根據(jù)權(quán)利要求9所述的去噪方法,其特征在于,重復(fù)執(zhí)行步驟A3至 A5—次以上,每次迭代的更新基本詞表作為下一次的基本詞表,得到迭代訓(xùn)練 后最新的基本詞表。
全文摘要
本發(fā)明公開了一種網(wǎng)頁錨文本去噪系統(tǒng),包括語料爬蟲系統(tǒng)、原始網(wǎng)頁數(shù)據(jù)庫、原始正文數(shù)據(jù)庫,關(guān)鍵在于,該系統(tǒng)還包括語料自動訓(xùn)練單元、錨文本去噪單元、錨文本數(shù)據(jù)庫以及基本詞表和中心詞表;其中,語料自動訓(xùn)練單元,用于根據(jù)基本詞表對原始網(wǎng)頁進行迭代訓(xùn)練,分析出網(wǎng)頁包含的中心詞,并利用得到的中心詞更新基本詞表和中心詞表;錨文本去噪單元,根據(jù)更新的中心詞表或基本詞表、以及原始正文數(shù)據(jù),對原始網(wǎng)頁錨文本進行去噪處理,得到過濾后的網(wǎng)頁錨文本;錨文本數(shù)據(jù)庫,用于存儲網(wǎng)頁錨文本。本發(fā)明還同時公開了一種網(wǎng)頁錨文本去噪方法,采用本發(fā)明能為用戶提供更高質(zhì)量的網(wǎng)頁錨文本數(shù)據(jù),提高用戶的網(wǎng)頁搜索效率。
文檔編號G06F17/30GK101216836SQ20071030850
公開日2008年7月9日 申請日期2007年12月29日 優(yōu)先權(quán)日2007年12月29日
發(fā)明者徐建軍 申請人:騰訊科技(深圳)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1