專利名稱:檢索結(jié)果重排序系統(tǒng)及其方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種對搜索引擎的檢索結(jié)果進行重新排序的系統(tǒng),同時也涉及該系統(tǒng)對檢索結(jié)果進行重新排序的方法,屬于網(wǎng)絡(luò)搜索技術(shù)領(lǐng)域。
背景技術(shù):
當前,互聯(lián)網(wǎng)中的數(shù)據(jù)總量以幾百兆兆字節(jié)來計算,而且仍然呈指數(shù)增長。為了幫助用戶從這個漫無邊際的數(shù)據(jù)海洋中快速獲取所需的信息,搜索引擎發(fā)揮著不可替代的作用。由于互聯(lián)網(wǎng)信息是極其浩繁的,任何一個關(guān)鍵詞都可能搜索到數(shù)百個甚至數(shù)萬個相關(guān)的網(wǎng)頁或者鏈接,而用戶的時間和精力都是有限的,他往往只會關(guān)注排在前面的搜索結(jié)果,對排在后面的相關(guān)鏈接視而不見。因此,針對人們的這一使用習慣,有必要讓搜索引擎有選擇地安排搜索結(jié)果的排列順序。對檢索結(jié)果進行重新排序是搜索引擎優(yōu)化檢索結(jié)果、提高用戶體驗的有效技術(shù)手段,其利用縮小的檢索結(jié)果集,通過與用戶不同層次的交互,重新確定(估計)用戶檢索的焦點,可以幫助用戶更快找到滿意的檢索結(jié)果。目前,已有很多對檢索結(jié)果重新排序的技術(shù)方案,例如清華大學(xué)在專利號為ZL 200710099594.6的中國發(fā)明專利中,提出了一種基于用戶行為信息的搜索引擎檢索結(jié)果重排序方法,利用用戶歷史查詢點擊的行為信息的統(tǒng)計,通過查詢詞關(guān)聯(lián)其他用戶的查詢網(wǎng)頁對檢索結(jié)果進行優(yōu)化。它根據(jù)單個或多個搜索引擎日志,首先利用查詢對應(yīng)的用戶數(shù)信息,從中篩選出用戶關(guān)注的常用查詢集合;隨后計算常用查詢集中各查詢對應(yīng)的用戶點擊頁面對應(yīng)的用戶點擊率,若利用多搜索引擎日志信息,則對用戶點擊率進行合并;根據(jù)用戶點擊率對用戶點擊頁面進行有效篩選,并把相關(guān)查詢和對應(yīng)的結(jié)果頁面地址保存到相關(guān)數(shù)據(jù)庫;最后,當用戶提交查詢需求時,把從用戶信息得到的結(jié)果和搜索引擎搜索得到的結(jié)果進行有效融合,重新排序后返回給用戶。另外,美國雅虎公司在申請?zhí)枮?01010190475. 3的中國專利申請中,提出了一種用于重排序和提高互聯(lián)網(wǎng)搜索的結(jié)果的相關(guān)性的方法,利用檢索詞概念聚焦搜索與通用搜索結(jié)果融合重排來試圖提高檢索精度。該方法中,首先將搜索查詢分解為多個獨立的單元。每個單元對應(yīng)于一個或多個表示自然概念的詞。對概念網(wǎng)絡(luò)進行分析,以定位與搜索查詢中的單元相關(guān)的概念。從概念網(wǎng)絡(luò)選出特定概念。對每個選出的概念執(zhí)行獨立的互聯(lián)網(wǎng)搜索。將從這些搜索得出的搜索結(jié)果與原始搜索查詢中的單元進行比較,并根據(jù)它們與原始搜索查詢的相關(guān)性對搜索結(jié)果進行分級。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題在于提供一種檢索結(jié)果重排序系統(tǒng)及重排序方法。該技術(shù)方案能夠?qū)⒂脩粽鎸嵠谕玫降男畔⒂涗浥旁跈z索結(jié)果的靠前位置,從而節(jié)省用戶的檢索時間。為實現(xiàn)上述的發(fā)明目的,本發(fā)明采用下述的技術(shù)方案—種檢索結(jié)果重排序系統(tǒng),包括相關(guān)拾取模塊、詞序列提取模塊、顯著詞序列判別模塊、檢索結(jié)果集、詞序列集和重新計算相似度排序模塊;其中,所述相關(guān)拾取模塊與所述檢索結(jié)果集連接,所述詞序列提取模塊分別連接所述檢索結(jié)果集、所述詞序列集、所述相關(guān)拾取模塊和所述顯著詞序列判別模塊,所述顯著詞序列判別模塊分別連接所述詞序列集和所述重新計算相似度排序模塊;所述相關(guān)拾取模塊顯示原始檢索結(jié)果,并由用戶選擇相關(guān)的記錄,所述詞序列提取模塊提取每項記錄的詞序列,所述顯著詞序列判別模塊根據(jù)相關(guān)與不相關(guān)兩類記錄的差別挖掘用于分類的顯著詞序列,所述重新計算相似度排序模塊基于所述顯著詞序列對每項記錄分別計算相似度,并依據(jù)所述相似度的值對檢索結(jié)果的記錄重新排序。其中較優(yōu)地,所述詞序列提取模塊對每項記錄的文本進行分詞處理,得到有確切語義的詞匯,并將停用詞過濾,以句子為單位保存每項記錄的詞序列。一種檢索結(jié)果重排序方法,基于上述的檢索結(jié)果重排序系統(tǒng)實現(xiàn),包括如下步驟顯不原始檢索結(jié)果,并由用戶選擇相關(guān)的記錄;提取每項記錄的詞序列,根據(jù)相關(guān)與不相關(guān)兩類記錄的差別挖掘用于分類的顯著詞序列;基于所述顯著詞序列對每項記錄分別計算相似度,并依據(jù)所述相似度的值對檢索結(jié)果的記錄重新排序。其中較優(yōu)地,在提取所述詞序列的過程中,首先對每項記錄的文本進行分詞處理,得到有確切語義的詞匯,并將停用詞過濾,以句子為單位保存每項記錄的詞序列。其中較優(yōu)地,在挖掘所述顯著詞序列的過程中,計算所述顯著詞序列的顯著性,歸一化處理以確定權(quán)重值。其中較優(yōu)地,所述相似度通過如下步驟計算I)確定一定數(shù)量的顯著詞序列作為中心集,依次計算其他詞序列與中心集的相似度;2)將所述相似度與所述顯著詞序列的權(quán)重值作積,作為最終相似度;3)將每項記錄與中心集的最終相似度作為其得分,依據(jù)該得分對各項記錄進行重新排序。本發(fā)明能夠?qū)⒂脩粽鎸嵠谕玫降臋z索結(jié)果記錄排在靠前的位置,節(jié)省用戶的查詢時間。用戶可以準確快速地得到所期望的信息,從而提高對檢索結(jié)果的滿意程度。
圖1是本發(fā)明所提供的檢索結(jié)果重排序系統(tǒng)的整體結(jié)構(gòu)示意圖;圖2是檢索結(jié)果重排序過程中,詞序列提取模塊的操作流程圖。
具體實施例方式下面結(jié)合附圖和具體實施例,對本發(fā)明所采用的技術(shù)方案做進一步的詳細說明。本發(fā)明提供了一種檢索結(jié)果重排序系統(tǒng),利用關(guān)鍵句子的詞序列特征對檢索結(jié)果進行重新排序。該詞序列能夠準確表達句子的語義,從而精確體現(xiàn)用戶的檢索意圖。圖1顯示了本發(fā)明所提供的檢索結(jié)果重排序系統(tǒng)的整體結(jié)構(gòu)。該檢索結(jié)果重排序系統(tǒng)由相關(guān)拾取模塊、詞序列提取模塊、顯著詞序列判別模塊、檢索結(jié)果集、詞序列集和重新計算相似度排序模塊組成。其中,相關(guān)拾取模塊與檢索結(jié)果集連接,以便提供用戶瀏覽檢索結(jié)果集,并在檢索結(jié)果集中選擇與其期望相關(guān)的記錄的功能。詞序列提取模塊分別連接檢索結(jié)果集、詞序列集、相關(guān)拾取模塊和顯著詞序列判別模塊,用于對檢索結(jié)果集中各項記錄的文字進行處理,提取每項記錄的詞序列,該詞序列用以表征檢索結(jié)果記錄的特征。提取后的詞序列提交詞序列集存儲。顯著詞序列判別模塊分別連接詞序列提取模塊和重新計算相似度排序模塊,用于通過特征集合及每項記錄是否為相關(guān)記錄,挖掘顯著詞序列。重新計算相似度排序模塊基于顯著詞序列判別模塊提取出的顯著詞序列,對詞序列集中的每項記錄分別計算其相似度,并依據(jù)相似度的值重新排序。在本發(fā)明中,相關(guān)拾取模塊為檢索結(jié)果的重排序創(chuàng)建訓(xùn)練集,并以檢索結(jié)果記錄文本的句子為單位,由詞序列提取模塊提取記錄文本中的詞序列。具體地說,該相關(guān)拾取模塊顯示原始檢索結(jié)果,并按檢索結(jié)果的原始順序(原始順序由通用搜索引擎的排序算法確定)排序,同時通過檢索結(jié)果界面向用戶提供點選拾取記錄的功能。用戶將部分記錄標記為滿意結(jié)果,作為檢索結(jié)果訓(xùn)練集。通過這一形式的交互,生成檢索結(jié)果訓(xùn)練集。至此,本檢索結(jié)果重排序系統(tǒng)可以執(zhí)行檢索結(jié)果重排的操作。圖2顯示了詞序列提取模塊的操作流程。在詞序列提取模塊提取詞序列的過程中,首先對檢索結(jié)果記錄文本進行分詞處理,得到有確切語義的詞匯,并將停用詞過濾,以便減少不必要的計算。接下來,以句子為單位保存檢索結(jié)果記錄文本中的詞序列,用以表征檢索結(jié)果記錄的特征。提取后的詞序列提交詞序列集進行存儲。顯著詞序列判別模塊針對詞序列集及檢索結(jié)果集中相關(guān)與不相關(guān)兩類記錄組成的訓(xùn)練集,根據(jù)相關(guān)與不相關(guān)兩類記錄的差別挖掘用于分類的顯著詞序列。計算顯著詞序列的顯著性,歸一化處理用以確定其權(quán)重值。重新計算相似度排序模塊通過顯著詞序列判別模塊提取出的顯著詞序列,對詞序列集中的各項記錄分別計算相似度。相似度的計算分為三個步驟1)確定一定數(shù)量的顯著詞序列作為中心集,依次計算其他詞序列(對應(yīng)各自的檢索結(jié)果記錄)與中心集的相似度;2)將相似度與顯著詞序列的權(quán)重值作積,作為最終相似度;3)將每項檢索結(jié)果記錄與中心集的最終相似度作為其得分,依據(jù)該得分對各項檢索結(jié)果記錄進行重新排序。上述詞序列提取模塊、顯著詞序列判別模塊等可以采用計算機自然語言處理領(lǐng)域的成熟算法,以軟件或者固件方式實現(xiàn)。例如關(guān)于顯著詞序列挖掘的具體算法,可以參考彭時名的碩士論文《中文文本分類中特征提取算法研究》(重慶大學(xué)2006年出版)等相關(guān)文獻。關(guān)于相似度的具體算法,可以參考冉婕、孫瑜的論文《語義檢索中的詞語相似度計算研究》(刊載于《計算機技術(shù)與發(fā)展》2011年04期)等相關(guān)文獻。檢索結(jié)果集和詞序列集等可以以非易失性存儲器方式實現(xiàn)。這些是本領(lǐng)域技術(shù)人員都能掌握的慣用技術(shù)手段,在此就不詳細說明了。下面通過一個實施例對本檢索結(jié)果重排序方法展開具體說明。例如用戶向某個通用搜索引擎輸入三個查詢關(guān)鍵詞XTC、X達、衰退,通用搜索引擎輸出的搜索結(jié)果如下VXTC急速a退2012第季度利潤暴跌70% - XTC -1T之家
2011牢第四爭度,XTC公司(X達ffl k電子股價有限公司)的凈利潤卜降/ 26% 2012年笫一爭度,XTC公司的凈利 潤M比欠跌70%1..… '丨I年如n屮}<的XTC公司到底怎幺T ,11 h... www-1thome.com/html/it/16096.htm 2012-8-14
□XTC百度西科
X達W際電了 股份冇限公_司,簡稱X達電.品髀為kXTC'成、>:于1997年,是…家位于臺灣的手機與平扳電腦制造 商開放手持設(shè)備聯(lián)盟的創(chuàng)紿成員之 公司簡介-發(fā)M歷程-公司年灰-公司產(chǎn)品 baiH3aidu.Gom/view/972605.htm 2012-9-13
□XTC X達電hc360 M聰網(wǎng)通佶Ir業(yè)
倍宥Android系統(tǒng)的東風,XTC迅速增長,從一1、代丄.1 I 成長為個球智BI T-機消量第U的品牌,風光無限!然麗 U K不長,在各地Vf司不斷.機型沒U %破等問題導(dǎo)致m i]i業(yè)績…
權(quán)利要求
1.一種檢索結(jié)果重排序系統(tǒng),其特征在于 所述檢索結(jié)果重排序系統(tǒng)包括相關(guān)拾取模塊、詞序列提取模塊、顯著詞序列判別模塊、檢索結(jié)果集、詞序列集和重新計算相似度排序模塊;其中, 所述相關(guān)拾取模塊與所述檢索結(jié)果集連接,所述詞序列提取模塊分別連接所述檢索結(jié)果集、所述詞序列集、所述相關(guān)拾取模塊和所述顯著詞序列判別模塊,所述顯著詞序列判別模塊分別連接所述詞序列集和所述重新計算相似度排序模塊; 所述相關(guān)拾取模塊顯示原始檢索結(jié)果,并由用戶選擇相關(guān)的記錄,所述詞序列提取模塊提取每項記錄的詞序列,所述顯著詞序列判別模塊根據(jù)相關(guān)與不相關(guān)兩類記錄的差別挖掘用于分類的顯著詞序列,所述重新計算相似度排序模塊基于所述顯著詞序列對每項記錄分別計算相似度,并依據(jù)所述相似度的值對檢索結(jié)果的記錄重新排序。
2.如權(quán)利要求1所述的檢索結(jié)果重排序系統(tǒng),其特征在于 所述詞序列提取模塊對每項記錄的文本進行分詞處理,得到有確切語義的詞匯,并將停用詞過濾,以句子為單位保存每項記錄的詞序列。
3.如權(quán)利要求1或2所述的檢索結(jié)果重排序系統(tǒng),其特征在于 所述詞序列保存在所述詞序列集中。
4.一種檢索結(jié)果重排序方法,基于權(quán)利要求1所述的檢索結(jié)果重排序系統(tǒng)實現(xiàn),其特征在于 顯示原始檢索結(jié)果,并由用戶選擇相關(guān)的記錄; 提取每項記錄的詞序列,根據(jù)相關(guān)與不相關(guān)兩類記錄的差別挖掘用于分類的顯著詞序列; 基于所述顯著詞序列對每項記錄分別計算相似度,并依據(jù)所述相似度的值對檢索結(jié)果的記錄重新排序。
5.如權(quán)利要求4所述的檢索結(jié)果重排序方法,其特征在于 在提取所述詞序列的過程中,首先對每項記錄的文本進行分詞處理,得到有確切語義的詞匯,并將停用詞過濾,以句子為單位保存每項記錄的詞序列。
6.如權(quán)利要求4所述的檢索結(jié)果重排序方法,其特征在于 在挖掘所述顯著詞序列的過程中,計算所述顯著詞序列的顯著性,歸一化處理以確定權(quán)重值。
7.如權(quán)利要求4所述的檢索結(jié)果重排序方法,其特征在于所述相似度通過如下步驟計算 1)確定一定數(shù)量的顯著詞序列作為中心集,依次計算其他詞序列與中心集的相似度; 2)將所述相似度與所述顯著詞序列的權(quán)重值作積,作為最終相似度; 3)將每項記錄與中心集的最終相似度作為其得分,依據(jù)該得分對各項記錄進行重新排序。
全文摘要
本發(fā)明公開了一種檢索結(jié)果重排序系統(tǒng)及重排序方法。該系統(tǒng)包括相關(guān)拾取模塊、詞序列提取模塊、顯著詞序列判別模塊、檢索結(jié)果集、詞序列集和重新計算相似度排序模塊;其中,相關(guān)拾取模塊顯示原始檢索結(jié)果,并由用戶選擇相關(guān)的記錄,詞序列提取模塊提取每項記錄的詞序列,顯著詞序列判別模塊根據(jù)相關(guān)與不相關(guān)兩類記錄的差別挖掘用于分類的顯著詞序列,重新計算相似度排序模塊基于顯著詞序列對每項記錄分別計算相似度,并依據(jù)相似度的值對檢索結(jié)果的記錄重新排序。本發(fā)明能夠?qū)⒂脩粽鎸嵠谕玫降臋z索結(jié)果記錄排在靠前的位置,節(jié)省用戶的查詢時間。用戶可以準確快速地得到所期望的信息,從而提高對檢索結(jié)果的滿意程度。
文檔編號G06F17/30GK103034709SQ20121052636
公開日2013年4月10日 申請日期2012年12月7日 優(yōu)先權(quán)日2012年12月7日
發(fā)明者王東勝, 宋傳寶, 王樹強 申請人:北京海量融通軟件技術(shù)有限公司