專利名稱:信息檢索方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息檢索,更具體地,涉及自適應(yīng)的個(gè)性化信息檢索。
背景技術(shù):
隨著因特網(wǎng)和大容量存儲(chǔ)設(shè)備等的迅速發(fā)展,世界進(jìn)入了信息過剩的時(shí)代。如何從海量的信息中獲取有用的信息,成為人們關(guān)心的問題。
目前,解決這一問題最常見的方法是搜索引擎。通過目前商用的以Google、百度為代表的搜索引擎,可以得到基本上令人滿意的搜索結(jié)果。
然而,與人們對(duì)于有效信息獲取的需求相比,目前的搜索引擎提供的結(jié)果還遠(yuǎn)遠(yuǎn)不能滿足要求。這首先體現(xiàn)在,現(xiàn)有的搜索引擎獲取用戶信息的手段比較單一,主要采用基于關(guān)鍵詞的布爾表達(dá)式作為輸入。因此,搜索引擎很難準(zhǔn)確理解隱含在這些關(guān)鍵詞之后的用戶真實(shí)信息需求。更重要的是,現(xiàn)有的搜索引擎采用與用戶無關(guān)的通用搜索算法,不論用戶是誰,不論用戶來自何方,只要輸入的查詢語句相同,返回的結(jié)果都是相同的。而事實(shí)上,用戶的需求非常個(gè)性化。例如一個(gè)旅游者和一個(gè)程序員在輸入“Java”時(shí),前者想搜索與爪哇島相關(guān)的旅游資訊,而后者想要找與Java編程語言相關(guān)的信息。但目前常見的搜索引擎都對(duì)這種情況不加區(qū)分。因此,對(duì)于那些與用戶的個(gè)性化需求密切相關(guān)的信息需求,目前的搜索引擎就不太適用了。此外,對(duì)于用戶的某個(gè)長期感興趣的話題,如果要用搜索引擎來查找信息,那么就要反復(fù)地到搜索引擎上輸入相同的關(guān)鍵詞,然后每次都從大量的網(wǎng)頁中去查找其中新出現(xiàn)的相關(guān)信息,這顯然大大加重了用戶的使用負(fù)擔(dān)。此外,雖然用戶的個(gè)性化信息需求在一段時(shí)間內(nèi)是穩(wěn)定的,但長期來看,這種信息需求還是會(huì)有所改變的。顯然,采用上述方法無法捕捉這種變化。
自適應(yīng)的個(gè)性化信息檢索研究,目標(biāo)是滿足用戶個(gè)性化和持續(xù)關(guān)注型的信息需求。該項(xiàng)研究根據(jù)用戶的興趣和關(guān)注點(diǎn)的不同,通過對(duì)無關(guān)信息的過濾,向用戶提供最有價(jià)值的信息。它能夠滿足用戶的個(gè)性化信息需求,通過長期觀察用戶的搜索行為,從中識(shí)別用戶的信息需求偏好,并且能夠根據(jù)用戶對(duì)搜索結(jié)果的評(píng)價(jià),自動(dòng)調(diào)整搜索策略,使得對(duì)于同一檢索請(qǐng)求,不同用戶能夠得到最貼近自已需求的信息。
在目前個(gè)性化信息檢索的研究中,比較流行的上下文檢索,相對(duì)于傳統(tǒng)的信息檢索方法,能夠針對(duì)不同的用戶提供更加個(gè)性化的結(jié)果??傮w而言,這些方法的思想大多可以概括如下要求用戶輸入比關(guān)鍵詞更復(fù)雜的查詢語句,把每一個(gè)查詢輸入視為一個(gè)興趣,利用這些輸入構(gòu)造用戶興趣模型,基于查詢語句中的關(guān)鍵詞,使用傳統(tǒng)的信息檢索算法得到初始網(wǎng)頁列表,然后利用用戶興趣模型對(duì)此列表進(jìn)行過濾。如果用戶對(duì)結(jié)果進(jìn)行直接反饋,則根據(jù)這些反饋對(duì)用戶模興趣型進(jìn)行調(diào)整,并基于新的用戶興趣模型對(duì)網(wǎng)頁列表進(jìn)行過濾。
例如,在非專利文獻(xiàn)1中,采用經(jīng)典的向量空間模型來對(duì)上下文進(jìn)行建模,但這種方法基本上借用的都是文本信息,而其他非文本信息基本上無法納入這個(gè)框架。
在非專利文獻(xiàn)2中,將上下文檢索任務(wù)看作一個(gè)決策問題,把用戶查看的文檔、以往的查詢歷史等上下文信息與查詢和文檔綜合在一起來優(yōu)化對(duì)檢索結(jié)果的判定,但這項(xiàng)工作只考慮了幾種易于表示的特征,而且把這些特征在分類算法的框架里固定了下來,難以擴(kuò)展,也沒有提及當(dāng)用戶興趣發(fā)生改變時(shí)如何捕捉這種變化。
在非專利文獻(xiàn)3中,則采用基于Ontology的方法,將用戶上下文表示成Ontology上的一個(gè)向量,并把上下文預(yù)測(cè)的結(jié)果與傳統(tǒng)的信息檢索算法所得的結(jié)果用一個(gè)線性函數(shù)組合起來,從而得到最終的個(gè)性化的結(jié)果,但Ontology的構(gòu)造需要較為專業(yè)的知識(shí),而且還需要大量人力物力,即便如此,所能覆蓋的知識(shí)體系也是很有限的。
在專利文獻(xiàn)1中,提出了一種采用用戶模型根據(jù)與相應(yīng)用戶特征相關(guān)的信息來個(gè)性化一般查詢和/或搜索結(jié)果的系統(tǒng)和方法,該專利同樣列舉了目前可能與個(gè)性化檢索相關(guān)的特征,這些特征是預(yù)先劃定的一個(gè)范圍,而不是一個(gè)可以考慮任何特征的完全泛化的框架。
在專利文獻(xiàn)2中,提出了一種利用用戶概況排序搜索引擎返回的搜索結(jié)果中的放置內(nèi)容的系統(tǒng)和方法,但這種方法同樣設(shè)定了可能有作用的個(gè)性化特征的范圍,而且沒有使用機(jī)器學(xué)習(xí)方法來確定各種特征對(duì)最終結(jié)果的影響,此外,也沒有考慮用戶對(duì)結(jié)果的反饋的處理。
綜上,目前現(xiàn)有的個(gè)性化信息檢索技術(shù)存在以下不足之處 1.所利用的用戶信息本質(zhì)上都是內(nèi)容相關(guān)的,即所有的用戶特征最終都表現(xiàn)為文本特征。在考慮某些非文本特征時(shí),現(xiàn)有方法也往往是按照一定的比例或系數(shù)將其映射為文本特征。這種做法主觀性較強(qiáng),缺少理論基礎(chǔ)。
2.用戶興趣模型基于用戶先后輸入的查詢請(qǐng)求生成,這樣產(chǎn)生的各個(gè)興趣之間相互獨(dú)立,缺少關(guān)聯(lián),很難用一體化的模型來表示,而通常人們認(rèn)為,用戶的興趣是有一定關(guān)聯(lián)性和延續(xù)性的。
3.模型中的關(guān)鍵參數(shù)基本都是設(shè)計(jì)者根據(jù)經(jīng)驗(yàn)設(shè)定,對(duì)于所有用戶都有效,存在很大的局限性,缺少理論基礎(chǔ)。
非專利文獻(xiàn)1Massimo Melucci,2005,Contextmodeling anddiscovery using vector space bases,Proceedings of the 14th Conference onInformation and Knowledge Management(CIKM),pages 808--815,Bremen,Germany,October 31-November 5,2005. 非專利文獻(xiàn)2Xuehua Shen,Bin Tan,Cheng Xiang Zhai,2005,UCAIRCapturing and Exploiting Context for Personalized Search,Proceedings of2005 ACM Conference on Research and Development on InformationRetrieval--Information Retrieval in Context Workshop(IRiX′2005) 非專利文獻(xiàn)3David Vallet,Miriam Fernández,Pablo Castells,PhivosMylonas,and Yannis Avrithis,2006,Personalized Information Retrieval inContext,21st National Conference on Artificial Intelligence-3rdInternational Workshop on Modeling and Retrieval of Context,Boston,USA,16-17 July 2006 專利文獻(xiàn)1中國專利申請(qǐng)公開CN1758248,申請(qǐng)人為微軟公司,名稱為“用于提供個(gè)性化搜索和信息訪問的系統(tǒng)、方法和接口” 專利文獻(xiàn)2中國專利申請(qǐng)公開CN101019118,申請(qǐng)人為谷歌公司,名稱為“搜索結(jié)果中放置內(nèi)容排序的個(gè)性化”
發(fā)明內(nèi)容
本發(fā)明的目的在于,克服現(xiàn)有搜索引擎不能滿足用戶個(gè)性化信息需求的缺陷,以及以往的個(gè)性化信息檢索方法存在的只適合使用文本特征,模型中用戶興趣正交化及參數(shù)的設(shè)置依賴于經(jīng)驗(yàn)值的缺陷,從而為滿足用戶的長期關(guān)注型的個(gè)性化信息需求提供一種自適應(yīng)的一體化個(gè)性化信息檢索方法與框架。
在本發(fā)明中,從所有可能影響到用戶對(duì)檢索結(jié)果做出個(gè)性化決策的用戶上下文中選取多個(gè)因素,每一個(gè)因素視為一個(gè)特征,針對(duì)每個(gè)特征建立檢索模型,通過這多個(gè)檢索模型構(gòu)建用戶興趣模型。每個(gè)檢索模型根據(jù)用戶的檢索請(qǐng)求,從不同的角度進(jìn)行檢索。通過用戶興趣模型計(jì)算各個(gè)檢索模型所檢索到的信息與用戶的檢索請(qǐng)求之間的相關(guān)度,從而輸出最終的個(gè)性化檢索結(jié)果。
在本發(fā)明的一個(gè)方面,提供了一種信息檢索方法,根據(jù)用戶輸入的查詢請(qǐng)求從大量信息構(gòu)成的信息集合中搜索所希望的信息,該方法包括以下步驟確定影響用戶對(duì)信息與查詢請(qǐng)求間的相關(guān)性判斷的多個(gè)因素,作為個(gè)性化特征;對(duì)于各個(gè)個(gè)性化特征設(shè)定相關(guān)的權(quán)重,且分別基于各個(gè)所述個(gè)性化特征建立反映用戶的查詢請(qǐng)求與信息集合中的信息之間的相關(guān)性的檢索模型,通過所述的權(quán)重將所述檢索模型組合成用戶興趣模型;接受用戶的查詢請(qǐng)求,分別通過各個(gè)所述的檢索模型對(duì)所述信息集合進(jìn)行檢索,分別生成一個(gè)有序信息列表;通過所述的用戶興趣模型,計(jì)算每個(gè)所述檢索模型得到的有序信息列表中的每一條信息與所述查詢請(qǐng)求的相關(guān)度;根據(jù)所述用戶興趣模型輸出的相關(guān)度,輸出最終檢索結(jié)果。
根據(jù)本發(fā)明,基于用戶的個(gè)性化特征從不同的角度分別進(jìn)行檢索,并組合基于個(gè)性化特征得到的檢索結(jié)果而輸出最終檢索結(jié)果。由此,能夠得到與用戶相應(yīng)的個(gè)性化檢索結(jié)果。
在本發(fā)明中,所述的信息集合包括,但不限于,互聯(lián)網(wǎng)上的信息的集合、內(nèi)部網(wǎng)上的信息的集合、用戶的本地機(jī)器中存儲(chǔ)的信息的結(jié)合。
本發(fā)明的信息檢索方法可以進(jìn)一步包括以下步驟步驟2.1把所述權(quán)重設(shè)定為預(yù)定的值;步驟2.2對(duì)于用戶提交的多個(gè)查詢請(qǐng)求,得到多個(gè)所述的最終檢索結(jié)果;步驟2.3記錄用戶對(duì)于這多個(gè)最終檢索結(jié)果的反饋,構(gòu)造由正確匹配的信息構(gòu)成的訓(xùn)練集;步驟2.4基于所述訓(xùn)練集,通過機(jī)器學(xué)習(xí)確定所述的權(quán)重。
所述正確匹配的信息可以是通過用戶的顯式或隱式評(píng)價(jià)而確定為與檢索請(qǐng)求匹配的信息。顯式評(píng)價(jià)例如可以是用戶直接給出的“相關(guān)”或“不相關(guān)”的評(píng)價(jià),而隱式評(píng)價(jià)例如可以是通過記錄用戶對(duì)檢索結(jié)果進(jìn)行的操作而得到的評(píng)價(jià)。
由此,無需對(duì)用戶興趣模型進(jìn)行人工調(diào)節(jié),只需通過用戶日常的檢索操作,即可自動(dòng)地對(duì)用戶興趣模型進(jìn)行訓(xùn)練,使得檢索結(jié)果最終貼近用戶的真正需求。
本發(fā)明的信息檢索方法可以進(jìn)一步包括以下步驟根據(jù)預(yù)定的條件,反復(fù)地執(zhí)行所述步驟2.2至步驟2.4,從而更新所述的權(quán)重。
由此,能夠自動(dòng)更新用戶興趣模型,追隨用戶的興趣漂移,使得檢索結(jié)果能夠適應(yīng)用戶的興趣變化。
本發(fā)明的信息檢索方法還可以進(jìn)一步包括以下步驟檢測(cè)用戶的個(gè)性化特征的改變或接受用戶對(duì)個(gè)性化特征的修改;接收用戶對(duì)所述最終檢索結(jié)果的反饋,構(gòu)造由正確匹配的信息構(gòu)成的訓(xùn)練集;計(jì)算所述最終檢索結(jié)果與所述訓(xùn)練集之間的差異,調(diào)整所述權(quán)重,使得所述最終檢索結(jié)果與所述訓(xùn)練集之間的差異最小。
由此,在用戶的個(gè)人特征發(fā)生改變的情況下,能夠適應(yīng)這個(gè)改變,使檢索結(jié)果保持與用戶的預(yù)期一致。
根據(jù)本發(fā)明,可以針對(duì)不同的用戶分別建立用戶興趣模型。
在本發(fā)明的另一個(gè)方面,提供了一種信息檢索系統(tǒng),其根據(jù)用戶輸入的查詢請(qǐng)求從大量信息構(gòu)成的信息集合中搜索所希望的信息,該系統(tǒng)包括輸入單元,其輸入用戶的查詢請(qǐng)求;多個(gè)檢索單元,該多個(gè)檢索單元分別針對(duì)預(yù)先確定的影響用戶對(duì)信息與查詢請(qǐng)求相關(guān)性判斷的多個(gè)個(gè)性化特征,根據(jù)不同的準(zhǔn)則計(jì)算所述查詢請(qǐng)求與信息集合中的信息之間的相關(guān)度,根據(jù)所計(jì)算的相關(guān)度輸出一個(gè)有序信息列表;用戶興趣單元,其通過規(guī)定的權(quán)重組合所述多個(gè)個(gè)性化特征,計(jì)算每個(gè)所述檢索單元得到的有序信息列表中的每一條信息與所述查詢請(qǐng)求的相關(guān)度;輸出單元,其根據(jù)所述用戶興趣單元計(jì)算的相關(guān)度,輸出最終的檢索結(jié)果。
本發(fā)明的信息檢索系統(tǒng)可以進(jìn)一步包括訓(xùn)練集構(gòu)建單元,其對(duì)于用戶提交的多個(gè)查詢請(qǐng)求,得到多個(gè)所述的最終檢索結(jié)果,并記錄用戶對(duì)于這多個(gè)最終檢索結(jié)果的反饋,構(gòu)造由正確匹配的信息構(gòu)成的訓(xùn)練集;訓(xùn)練單元,其基于所述訓(xùn)練集,通過機(jī)器學(xué)習(xí)確定所述的權(quán)重。
本發(fā)明的信息檢索系統(tǒng)可以根據(jù)預(yù)定的條件,反復(fù)地通過所述訓(xùn)練集構(gòu)建單元和所述訓(xùn)練單元更新所述的權(quán)重。
在本發(fā)明的信息檢索系統(tǒng)中,可以在檢測(cè)到用戶個(gè)性化特征的改變或接收到用戶對(duì)于個(gè)性化特征的修改時(shí),所述訓(xùn)練集構(gòu)建單元接收用戶對(duì)所述最終檢索結(jié)果的反饋,構(gòu)造由正確匹配的信息構(gòu)成的訓(xùn)練集;所述訓(xùn)練單元計(jì)算所述最終檢索結(jié)果與所述訓(xùn)練集之間的差異,調(diào)整所述權(quán)重,使得所述最終檢索結(jié)果與所述訓(xùn)練集之間的差異最小。
根據(jù)本發(fā)明的信息檢索系統(tǒng),可以得到與上述本發(fā)明的信息檢索方法同樣的優(yōu)點(diǎn)。
所包含的附圖用于提供對(duì)本發(fā)明的進(jìn)一步理解,其被并入說明書并構(gòu)成其一部分,
了本發(fā)明的實(shí)施例,并與說明書一起用于解釋本發(fā)明的原理。其中 圖1示出了本發(fā)明的實(shí)施例1的信息檢索系統(tǒng)的示意性功能框圖; 圖2示出了實(shí)施例1的信息檢索系統(tǒng)所進(jìn)行的檢索處理的概略流程圖; 圖3示出了本發(fā)明的實(shí)施例2的信息檢索系統(tǒng)的示意性功能框圖; 圖4示出了實(shí)施例2中的訓(xùn)練單元執(zhí)行的訓(xùn)練處理的概略流程圖; 圖5示出了實(shí)施例2的訓(xùn)練單元在用戶的個(gè)性化特征發(fā)生改變時(shí)執(zhí)行的重訓(xùn)練處理的概略流程圖。
具體實(shí)施例方式 下面以互聯(lián)網(wǎng)上的網(wǎng)頁信息檢索為例,對(duì)本發(fā)明的信息檢索系統(tǒng)和信息檢索方法的實(shí)施例進(jìn)行詳細(xì)說明。
實(shí)施例1
圖1示出了本實(shí)施例的信息檢索系統(tǒng)的示意框圖,圖2示出了本實(shí)施例的信息檢索系統(tǒng)所進(jìn)行的檢索處理的概略流程。
如圖1所示,本實(shí)施例的信息檢索系統(tǒng)包括索引建立單元10,輸入單元20,4個(gè)檢索單元30-1~30-4,用戶興趣單元40,以及輸出單元50。
索引建立單元10執(zhí)行網(wǎng)頁采集和數(shù)據(jù)標(biāo)引。具體而言,索引建立單元10通過網(wǎng)頁采集器(例如,可以使用開源的網(wǎng)頁采集器larbin),按順序?qū)ヂ?lián)網(wǎng)上的指定地址或全部地址的網(wǎng)頁進(jìn)行采集,按照網(wǎng)頁結(jié)構(gòu)存儲(chǔ)所采集的頁面,同時(shí)生成日志文件。在日志文件中存儲(chǔ)每個(gè)網(wǎng)頁的采集時(shí)間、URL、文件大小等信息。關(guān)于網(wǎng)頁采集器沒有任何限制,只要能夠?qū)χ付ㄕ军c(diǎn)或整個(gè)互聯(lián)網(wǎng)進(jìn)行網(wǎng)頁采集即可。
在進(jìn)行了網(wǎng)頁采集之后,進(jìn)行數(shù)據(jù)標(biāo)引。在此,可以按照如下步驟進(jìn)行數(shù)據(jù)標(biāo)引(1)網(wǎng)頁預(yù)處理,把網(wǎng)頁轉(zhuǎn)換成統(tǒng)一編碼(例如Unicode)、統(tǒng)一格式(例如XML)的文件,并提取網(wǎng)頁的標(biāo)題和時(shí)間;(2)對(duì)于中文網(wǎng)頁,通過詞法分析工具(例如中國科學(xué)院計(jì)算機(jī)技術(shù)研究所開發(fā)的詞法分析系統(tǒng)ICTCLAS)進(jìn)行分詞,對(duì)于英文網(wǎng)頁,則進(jìn)行詞根還原(例如,可以利用開源工具snowball);(3)將經(jīng)過以上處理的結(jié)果存儲(chǔ)為XML文件;(4)對(duì)所得到的XML文件建立索引(例如,可以利用開源工具Lemur),得到索引庫。另外,索引建立單元10可以定期地、或者根據(jù)預(yù)定的條件重新建立索引庫或者對(duì)索引庫進(jìn)行更新。
用戶通過輸入單元20輸入檢索請(qǐng)求(query),所輸入的檢索請(qǐng)求同時(shí)傳送至檢索單元30-1~30-4。各個(gè)檢索單元的輸出連接至用戶興趣單元40。另外,如本實(shí)施例的情況那樣,若檢索單元30-1~30-4之間存在依賴關(guān)系,即某個(gè)檢索單元除了需要輸入檢索請(qǐng)求之外,還需要以其他檢索單元的輸出結(jié)果作為輸入,則該檢索單元還輸入其他檢索單元的輸出結(jié)果。輸入單元20是用戶與本實(shí)施例的信息檢索系統(tǒng)之間的接口,例如,可以由鼠標(biāo)、鍵盤、觸摸屏等實(shí)現(xiàn)。所述的檢索請(qǐng)求是指用戶通過輸入單元20輸入的對(duì)信息需求的描述,包括但不限于以下方面以關(guān)鍵詞、語句描述和示例文本等方式輸入的對(duì)目標(biāo)網(wǎng)頁的內(nèi)容描述,以時(shí)間區(qū)間方式輸入的對(duì)目標(biāo)網(wǎng)頁的時(shí)間描述。
檢索單元30-1~30-4是分別基于不同的用戶個(gè)性化特征而建立的。在此,個(gè)性化特征是指任何可能影響用戶對(duì)網(wǎng)頁與查詢請(qǐng)求之間相關(guān)性判斷的因素,這種個(gè)性化特征與用戶相關(guān),但是對(duì)用戶而言是透明的。這里,“透明”是指這種個(gè)性化特征只在系統(tǒng)內(nèi)部存在,對(duì)用戶是不可見的,即用戶意識(shí)不到它的存在。例如,如果用戶喜歡看最近的信息,那么他在檢索時(shí)會(huì)傾向于選擇距當(dāng)前時(shí)間較近的文本,但用戶自己可能并未意識(shí)到這一點(diǎn),而在系統(tǒng)中用于表示“新穎性”的個(gè)性化特征就會(huì)把更新的文本排在前面,“新穎性”特征對(duì)用戶而言就是透明的。
具體而言,在檢索單元30-1~30-4中,分別基于不同的個(gè)性化特征建立了檢索模型。檢索模型是指把用戶的查詢請(qǐng)求與網(wǎng)頁集合中的網(wǎng)頁之間的相關(guān)性映射到
區(qū)間一個(gè)實(shí)數(shù)值的函數(shù),如下式所示 Ffi(fi(q),fi(dk))=α α∈
其中,q是用戶的查詢請(qǐng)求,dk是網(wǎng)頁集中的第k個(gè)網(wǎng)頁,F(xiàn)fi是對(duì)應(yīng)于第i個(gè)個(gè)性化特征的檢索函數(shù),fi(q)是對(duì)應(yīng)于第i個(gè)特征的用戶查詢的形式化表示函數(shù),fi(dk)是對(duì)應(yīng)于第i個(gè)特征的文檔dk的形式化表示函數(shù)。例如,如果第i個(gè)特征是基于命名實(shí)體的特征,即該特征特別關(guān)注人名、地名、機(jī)構(gòu)名、品牌、產(chǎn)品型號(hào)等,那么fi(q)與fi(dk)就要分別把用戶查詢q和文檔dk中表示命名實(shí)體的詞抽取出來表示成一個(gè)向量。α是
區(qū)間上的一個(gè)實(shí)數(shù),這個(gè)值用于表示用戶查詢q和文檔dk的相關(guān)性的高低,α越高表示越相關(guān),否則表示越不相關(guān)。
這些檢索模型根據(jù)不同的準(zhǔn)則計(jì)算用戶輸入的查詢請(qǐng)求與索引庫中的網(wǎng)頁之間的相關(guān)度,按照所計(jì)算的相關(guān)度的大小順序輸出一個(gè)有序網(wǎng)頁列表。
在用戶興趣單元40中,通過對(duì)上述的多個(gè)檢索模型進(jìn)行組合而構(gòu)建了用戶興趣模型。用戶興趣單元40遍歷檢索單元30-1~30-4輸出的有序網(wǎng)頁列表中的每一個(gè)網(wǎng)頁,通過用戶興趣模型計(jì)算其與用戶的檢索請(qǐng)求之間的相關(guān)度。按照相關(guān)度的大小順序,輸出最終的檢索結(jié)果(有序網(wǎng)頁列表)。通過輸出單元50,將該作為最終檢索結(jié)果的有序網(wǎng)頁列表呈現(xiàn)給用戶。
下面對(duì)檢索單元30-1~30-4進(jìn)行詳細(xì)的說明。
在進(jìn)行詳細(xì)說明之前,先闡述對(duì)用戶的檢索相關(guān)性判斷產(chǎn)生影響的因素。這些因素包括用戶自身的屬性,以及用戶所處周邊環(huán)境的屬性。這些都可能會(huì)對(duì)用戶對(duì)當(dāng)前檢索結(jié)果正確性的判斷產(chǎn)生直接或間接的影響。其中用戶自身的屬性包括用戶的年齡、性別、所從事的職業(yè)、當(dāng)前的工作任務(wù)、信仰等,用戶周邊環(huán)境的屬性包括用戶所在國家的文化、當(dāng)前的經(jīng)濟(jì)環(huán)境、當(dāng)前的社會(huì)熱點(diǎn)話題等。其中很多因素對(duì)用戶檢索的行為沒有影響,有些則有著直接或間接的影響,我們可以把這些因素看作隱藏在用戶背后以某種方式對(duì)檢索結(jié)果產(chǎn)生影響的隱含變量。
很多影響用戶判斷檢索結(jié)果的因素是難以直接衡量的,但可以通過其他方式間接獲得。例如,很難直接獲得用戶所處的文化環(huán)境,但可以通過跟蹤用戶的查詢歷史來間接猜測(cè)。又例如用戶的職業(yè),由于在真實(shí)使用環(huán)境中,用戶通常不愿提供詳細(xì)個(gè)人信息,而且職業(yè)的種類千差萬別,變化也很頻繁,很難對(duì)職業(yè)建立一個(gè)可計(jì)算的模型,但用戶在進(jìn)行檢索時(shí),職業(yè)因素可能會(huì)作為一種隱含的背景對(duì)用戶最終的判斷產(chǎn)生影響,因此可以尋找一些比較容易實(shí)現(xiàn)的特征,例如很多時(shí)候由于職業(yè)關(guān)系,用戶常常特別關(guān)注文本中的命名實(shí)體信息,例如影評(píng)人特別留意文章中的電影名稱、演員名等,因此可以假定命名實(shí)體與職業(yè)特征有間接的聯(lián)系,由于命名實(shí)體的提取相對(duì)而言較為容易,可以給其賦予一個(gè)權(quán)重來間接表示職業(yè)對(duì)最終結(jié)果的影響。
如上,考慮到可能會(huì)對(duì)用戶的相關(guān)性判斷產(chǎn)生影響的因素,在本實(shí)施例中,設(shè)置了4個(gè)檢索單元30-1~30-4。這4個(gè)檢索單元分別地對(duì)索引庫進(jìn)行檢索。
(1)檢索單元30-1 檢索單元30-1完全基于查詢語句和網(wǎng)頁的純文本特征進(jìn)行檢索。即,在檢索單元30-1中只對(duì)用戶輸入的查詢語句和網(wǎng)頁建模,并計(jì)算兩者的相關(guān)性,不考慮其他因素。
在本實(shí)施例中,檢索單元30-1中的檢索模型是基于KL距離的一元語言模型。這里,KL距離(Kullback-Leibler divergence)是衡量兩個(gè)隨機(jī)分布之間差異程度的一種方法。具體來說,假設(shè)用戶輸入的查詢q的分布函數(shù)為p(q),而文本集合中某個(gè)文本d的分布函數(shù)為p(d),兩者之間的KL距離用D(p(q)‖p(d))來表示,則。KL距離值越大,表明兩者分布越不相似。
在檢索單元30-1的檢索模型中,根據(jù)網(wǎng)頁語言模型與查詢語言模型之間的KL距離對(duì)網(wǎng)頁進(jìn)行排序。
令θQ表示查詢Q的語言模型,θD表示網(wǎng)頁D的語言模型,網(wǎng)頁按照-D(θQ‖θD)從大到小的順序排列,其中 假定p(w|θD)具有如下形式 同時(shí)假定 則由此可以推出網(wǎng)頁按照下面的公式來排序 其中的αD是網(wǎng)頁相關(guān)常數(shù),即對(duì)Q中那些沒有出現(xiàn)在D中的詞分配一個(gè)概率。
具體的做法是 給定一個(gè)查詢Q=(q1,q2...,qN)和一個(gè)網(wǎng)頁D=(d1,d2...,dN),其中q1,……,qN和d1,……,dN都是查詢?cè)~,則相關(guān)度分值score為 score(Q,D)=g(w(q1,d1,Q,D)+...+w(qN,dN,Q,D),Q,D) 即,一個(gè)網(wǎng)頁相對(duì)于一個(gè)查詢的分值,是所有相匹配的查詢?cè)~的權(quán)重的和函數(shù),將這個(gè)函數(shù)表示為g,則最終的分值取決于函數(shù)g與函數(shù)w。其中函數(shù)w給出了匹配的查詢?cè)~相對(duì)于網(wǎng)頁的一個(gè)權(quán)重,函數(shù)g的作用在于,在求得所有匹配查詢?cè)~的權(quán)重的和之后,可以在利用查詢和網(wǎng)頁的某些總體信息,來對(duì)這個(gè)原始分值作某些轉(zhuǎn)換,最終得到更為合理的分值。
之后,依據(jù)negative KL-divergence調(diào)整策略對(duì)這一結(jié)果進(jìn)行調(diào)整,它的計(jì)算過程為 首先計(jì)算該查詢與整個(gè)網(wǎng)頁集合的KL距離。令表示某個(gè)項(xiàng)ti在查詢query中的先驗(yàn)概率,其中N為整個(gè)query中的項(xiàng)數(shù),freqti為query中ti的出現(xiàn)次數(shù);Pr(ti|C)表示ti在整個(gè)集合中的出現(xiàn)的先驗(yàn)概率,則該query與集合的KL距離為 則最終的相關(guān)度分值score1為 其中score1(Q,D)是查詢Q和某個(gè)文檔D在檢索單元30-1中的最終相關(guān)度分值,score(Q,D)是前述的相關(guān)度分值,NQ是查詢Q中的查詢?cè)~的數(shù)目,unseenCoeff(D)是為查詢Q中沒有出現(xiàn)在文檔D中的詞分配的一個(gè)系數(shù)。
由于數(shù)據(jù)稀疏問題,在計(jì)算score1(Q,D)時(shí)采用Dirichlet插值法對(duì)結(jié)果進(jìn)行平滑。
由此,按照相關(guān)度分值score1的從大到小的順序,向用戶興趣單元40輸出一個(gè)有序網(wǎng)頁列表以及與該列表中各個(gè)網(wǎng)頁相關(guān)聯(lián)的相關(guān)度值。此外,還將該有序網(wǎng)頁列表以及與該列表中各個(gè)網(wǎng)頁相關(guān)聯(lián)的相關(guān)度值輸出給檢索單元30-2和30-3。
(2)檢索單元30-2 檢索單元30-2在純文本特征的基礎(chǔ)上考慮時(shí)間因素?;谌藗儾殚喚W(wǎng)頁的一般心理,假定日期越新的網(wǎng)頁,其相關(guān)性越強(qiáng),即在內(nèi)容相似的網(wǎng)頁中,距離用戶查看日期越近就越相關(guān)。顯然,在對(duì)網(wǎng)頁結(jié)果進(jìn)行排序時(shí)只考慮時(shí)間因素是不合理的,應(yīng)該把內(nèi)容和時(shí)間綜合考慮。
檢索單元30-2提取檢索單元30-1輸出的有序網(wǎng)頁列表,對(duì)于其中的每個(gè)網(wǎng)頁設(shè)定一個(gè)時(shí)間戳(網(wǎng)頁自身的時(shí)間或者采集時(shí)間)。時(shí)間戳是一個(gè)很大的整數(shù),為便于計(jì)算,將其進(jìn)行歸一化。然后如下式所示,與檢索單元30-1得到的相關(guān)度分值集成在一起,得到本特征下的查詢Q與網(wǎng)頁D之間的相關(guān)度分值score2 其中,score2(Q,D)是檢索單元30-2輸出的查詢Q與網(wǎng)頁D之間的相關(guān)度分值,timestamp(D)是網(wǎng)頁D的時(shí)間戳,current_time是當(dāng)前時(shí)間,而score1(Q,d)是檢索單元30-1輸出的查詢Q與網(wǎng)頁D之間的相關(guān)度分值。
然后把所得結(jié)果按照score2從大到小排列,按照score2的從大到小的順序,向用戶興趣單元40輸出一個(gè)有序網(wǎng)頁列表以及與該列表中每個(gè)網(wǎng)頁相關(guān)聯(lián)的相關(guān)度值。
(3)檢索單元30-3 檢索單元30-3利用命名實(shí)體識(shí)別獲得的信息,采用基于向量空間模型的方法,結(jié)合查詢,對(duì)原始的網(wǎng)頁序列中每個(gè)網(wǎng)頁的次序進(jìn)行適量調(diào)整。
在本實(shí)施例中,將可能的命名實(shí)體短語分為品牌類(BRA)、型號(hào)類(TYP)、和其他類(OTH)三部分,分別表示為三個(gè)向量VBRA、VTYP和VOTH。具體而言,在檢索單元30-3中,對(duì)于任意一個(gè)文本d,首先通過命名實(shí)體識(shí)別工具識(shí)別出三種類型的命名實(shí)體,包括品牌名稱,如長虹、諾基亞,型號(hào)名稱,如凱越、捷達(dá),以及其他類型的名稱,如人名、地名等。然后把每一類命名實(shí)體都分別表示成一個(gè)向量T={(w1,a1),...(wN,aN)},其中(w1,a1)是向量T中的各維,wi是具體的詞,如果i≠j,則wi≠wj,ai是wi的權(quán)重,可以用TF-IDF公式計(jì)算得到,即ai=tf(wi)/df(wi),其中tf(wi)表示wi在某一個(gè)文本d中出現(xiàn)的次數(shù),而df(wi)表示在整個(gè)文本集合中包含wi的文本的數(shù)量。然后分別計(jì)算三個(gè)向量VBRA、VTYP和VOTH與查詢向量VQ的相似度sim(Q,D) sim(Q,D)=αcos(VQ,VBRA)+βcos(VQ,VTYP)+γcos(VQ,VOTH) 其中α,β,γ是預(yù)設(shè)的常系數(shù),cos是三角余弦函數(shù),用于表示兩個(gè)向量之間的夾角。例如,對(duì)于任意兩個(gè)向量
和
,其中
是矩陣乘法,
表示向量
的長度,如果則
與
必須維數(shù)相同,如果不一樣,則用0把較短的向量補(bǔ)齊。
之后,按照下式通過sim(Q,D)對(duì)檢索單元30-1得到的相關(guān)度分值score1進(jìn)行調(diào)整,得到檢索單元30-3的查詢Q與網(wǎng)頁D間的相關(guān)度分值score3(Q,D) score3(Q,D)=scorel(Q,D)·(1+Δ·sim(Q,D)) 其中,Δ為調(diào)整系數(shù),即允許調(diào)整的最大幅度。
由此,按照score3的從大到小的順序,向用戶興趣單元40輸出一個(gè)有序網(wǎng)頁列表以及與該列表中每個(gè)網(wǎng)頁相關(guān)聯(lián)的相關(guān)度值。
(4)檢索單元30-4 檢索單元30-4考慮局部擴(kuò)展的特征。在此,擴(kuò)展是指基于自然語言理解技術(shù)對(duì)用戶輸入的查詢進(jìn)行替換或擴(kuò)充。例如,當(dāng)用戶輸入的查詢是“電腦”時(shí),系統(tǒng)通過對(duì)語料的預(yù)先處理,把與“電腦”相關(guān)的詞、如“計(jì)算機(jī)”、“PC”、“CPU”等,都添加到查詢中。因?yàn)殡m然有些文本中沒有出現(xiàn)“電腦”,但包含了“計(jì)算機(jī)”、“CPU”、“內(nèi)存”等詞,同樣可以認(rèn)為這個(gè)文本與用戶的查詢相關(guān)度很高。
為了體現(xiàn)用戶的個(gè)性化需求,應(yīng)該針對(duì)每一個(gè)用戶分別進(jìn)行查詢擴(kuò)展。如果某個(gè)用戶定制了若干興趣,這些興趣包含一些網(wǎng)頁集合,那么系統(tǒng)就可以在這些網(wǎng)頁上進(jìn)行查詢?cè)~的擴(kuò)展訓(xùn)練。因?yàn)橛?xùn)練數(shù)據(jù)集是每個(gè)用戶依據(jù)興趣挑選出來的網(wǎng)頁,因此擴(kuò)展是局部的。
在進(jìn)行訓(xùn)練時(shí),統(tǒng)計(jì)兩個(gè)詞wi,wj之間的共現(xiàn)概率 P(wi,wj)=Count(wi,wj)/Count(wi) 其中,P(wi,wj)是詞wi與wj的共現(xiàn)概率,即wi與wj在某一特定范圍內(nèi)(如相鄰位置、句子或篇章)的條件概率。Count(wi,wj)是wi,wj在訓(xùn)練數(shù)據(jù)集的各個(gè)網(wǎng)頁范圍內(nèi)共現(xiàn)的次數(shù),Count(wi)是wi在訓(xùn)練數(shù)據(jù)集上出現(xiàn)的總次數(shù)。由于 P(wj,wi)=Count(wj,wi)/Count(wj), 因此P(wi,wj)≠P(wj,wi)。
對(duì)于某個(gè)詞wi,如果P(wi,wj)≥閾值,則把wj添加到wi的擴(kuò)展詞表中。
在進(jìn)行統(tǒng)計(jì)時(shí),需要按照以下規(guī)則進(jìn)行過濾 a)如果詞w出現(xiàn)在停用詞表中,則濾掉; b)如果P(wi,wj)<閾值,則濾掉。
利用以上所得的局部擴(kuò)展矩陣,對(duì)用戶輸入的查詢語句進(jìn)行擴(kuò)展。把擴(kuò)展結(jié)果和用戶輸入的原始查詢合并組成新的查詢語句,然后用語言模型進(jìn)行檢索,得到檢索單元30-4中查詢Q與網(wǎng)頁D間的相關(guān)度分值score4(Q,D) 其中Q’是通過對(duì)原始的查詢Q進(jìn)行查詢擴(kuò)展之后得到的一個(gè)新的查詢。
最后,按照相關(guān)度score4從大到小的順序,向用戶興趣單元40輸出一個(gè)有序網(wǎng)頁列表以及與該列表中每個(gè)網(wǎng)頁相關(guān)聯(lián)的相關(guān)度值。
下面對(duì)用戶興趣單元40進(jìn)行詳細(xì)說明。
用戶興趣單元40對(duì)檢索單元30-1~30-4的檢索結(jié)果進(jìn)行組合而得到最終的檢索結(jié)果。具體而言,在本實(shí)施例中,對(duì)每個(gè)個(gè)性化特征(也即每個(gè)檢索單元)賦予一個(gè)權(quán)重,通過式1所示的對(duì)數(shù)線性(loglinear)函數(shù)而構(gòu)建用戶興趣模型,通過該用戶興趣模型來計(jì)算檢索單元30-1~4輸出的網(wǎng)頁列表中的每個(gè)網(wǎng)頁與用戶查詢語句之間存在相關(guān)性的概率。
其中hi(R,Q,D)=scorei,其中i=1,2,3,4. 其中,權(quán)重是一組實(shí)數(shù)值,對(duì)應(yīng)于每一個(gè)特征有一個(gè)權(quán)重,該權(quán)重用以表示對(duì)應(yīng)的特征在判斷網(wǎng)頁與查詢相關(guān)性時(shí)所起的作用大小。在本實(shí)施例中,各個(gè)權(quán)重是預(yù)先確定的值。例如,可以由用戶根據(jù)需要設(shè)定,或者可以在系統(tǒng)設(shè)置時(shí)設(shè)定。作為一個(gè)特例,在基于內(nèi)容(即檢索單元30-1)的特征權(quán)重為1,其他特征為0的情況下,本實(shí)施例的信息檢索系統(tǒng)與現(xiàn)有的僅基于文本內(nèi)容進(jìn)行檢索的檢索系統(tǒng)等同。
Q是用戶查詢請(qǐng)求,D是網(wǎng)頁,hi(R,Q,D)是特征值,λi是特征權(quán)重,N是總的特征個(gè)數(shù),在本實(shí)施例中為4,R’是Q與D相關(guān)性的所有可能取值,這里定義R’的值域?yàn)閧‘相關(guān)’,‘不相關(guān)’}。由于大部分檢索函數(shù)均以有序信息列表的形式生成結(jié)果,理論上任何網(wǎng)頁都以一定概率或相關(guān)性與用戶查詢請(qǐng)求相關(guān),因此這里定義在有序信息列表中的位置在第M個(gè)之前的結(jié)果為相關(guān)結(jié)果,M為預(yù)設(shè)值。一般地,搜索引擎的結(jié)果按多頁組織,每頁10個(gè)網(wǎng)頁,用戶通常只查看前2頁結(jié)果,為保證覆蓋面,M一般取50。
用戶興趣單元40遍歷檢索單元30-1~30-4所得到的4個(gè)有序網(wǎng)頁列表中的每一個(gè)網(wǎng)頁,將其代入式(1),計(jì)算P(R|Q,D)的值,按照P(R|Q,D)從大到小的排序,P(R|Q,D)≤0.5則認(rèn)為不相關(guān),從結(jié)果中過濾掉。最后,生成最終的有序結(jié)果列表,通過輸出單元50呈現(xiàn)給用戶。
作為向用戶輸出的檢索結(jié)果,例如,每一項(xiàng)可以包括網(wǎng)頁的標(biāo)題、摘要、URL、P(R|Q,D)值,“相關(guān)”和“不相關(guān)”鏈接。
根據(jù)本發(fā)明的上述實(shí)施例,可以實(shí)現(xiàn)以下優(yōu)點(diǎn) 可以實(shí)現(xiàn)非常靈活的個(gè)性化檢索框架,在這個(gè)框架中,每一個(gè)影響用戶對(duì)結(jié)果進(jìn)行判斷的上下文特征,都可以作為一個(gè)特征添加進(jìn)來。理論上,只要為這個(gè)特征設(shè)計(jì)一個(gè)合理的檢索方法和過程,就可以把這個(gè)特征融入當(dāng)前的用戶興趣模型中,從而為用戶以后定制的興趣提供更加準(zhǔn)確合理的結(jié)果; 突破了原有的圍繞文本特征來判斷用戶查詢請(qǐng)求與網(wǎng)頁之間相關(guān)性的窠臼,其他特征對(duì)結(jié)果的作用可以不借助文本特征直接得以體現(xiàn)。
實(shí)施例2
實(shí)施例2的信息檢索系統(tǒng)的結(jié)構(gòu)與上述的實(shí)施例1大致相同,不同之處在于,在上述實(shí)施例1中,各個(gè)個(gè)性化特征的權(quán)重是固定的,而在實(shí)施例2中,通過機(jī)器學(xué)習(xí)而自動(dòng)地對(duì)用戶興趣模型進(jìn)行訓(xùn)練、確定各個(gè)權(quán)重,并且在使用中可以根據(jù)情況再次對(duì)用戶興趣模型進(jìn)行訓(xùn)練,更改各個(gè)權(quán)重的值。在以下的說明中,重點(diǎn)對(duì)實(shí)施例2與實(shí)施例1間的不同之處進(jìn)行說明,而省略相同之處的重復(fù)說明。并且,對(duì)于與實(shí)施例1中系統(tǒng)或相應(yīng)的要素,在附圖中賦予相同的標(biāo)號(hào)。
圖3示出了本發(fā)明的實(shí)施例2的信息檢索系統(tǒng)的示意框圖。與上述實(shí)施例1一樣,本實(shí)施例的信息檢索系統(tǒng)包括索引建立單元10,輸入單元20,4個(gè)檢索單元30-1~30-4,用戶興趣單元40,以及輸出單元50。此外,本實(shí)施例的信息檢索系統(tǒng)還包括訓(xùn)練集構(gòu)建單元60和訓(xùn)練單元70。下面即主要對(duì)訓(xùn)練集構(gòu)建單元60和訓(xùn)練單元70進(jìn)行說明。
訓(xùn)練集構(gòu)建單元60的作用是通過用戶對(duì)輸出單元50所輸出的檢索結(jié)構(gòu)的反饋而構(gòu)建用于用戶興趣模型的訓(xùn)練的訓(xùn)練集。所述的訓(xùn)練集是一個(gè)數(shù)據(jù)庫表,該表結(jié)構(gòu)描述如下 1.每一個(gè)記錄對(duì)應(yīng)于一個(gè)用戶查詢請(qǐng)求,以該請(qǐng)求的ID作為主鍵; 2.每一個(gè)記錄包含一個(gè)“系統(tǒng)結(jié)果”域,存放基于個(gè)性化檢索模型生成的有序列表; 3.每一個(gè)記錄包含N個(gè)“特征結(jié)果”域,存放特征函數(shù)i(i=1,...,N)生成的有序列表; 4.每一個(gè)記錄包含一個(gè)“用戶反饋”域,存放通過用戶反饋得到的正確答案。
所述的用戶反饋是用戶對(duì)檢索結(jié)果的顯式或隱式評(píng)價(jià)。為了獲得用戶對(duì)結(jié)果的顯式評(píng)價(jià),例如可以在每個(gè)網(wǎng)頁之后都添加一組評(píng)價(jià)鏈接,包括“相關(guān)”、“不相關(guān)”兩項(xiàng),但顯式評(píng)價(jià)增加了用戶使用負(fù)擔(dān)。為了在不增加用戶負(fù)擔(dān)的同時(shí)獲得用戶評(píng)價(jià),這里考慮以下用戶行為為隱式反饋 對(duì)于用戶U的查詢請(qǐng)求Q,按照如下方法構(gòu)造答案集A(Q,U) 1.出現(xiàn)在檢索結(jié)果中的每一個(gè)網(wǎng)頁,都帶有兩個(gè)評(píng)價(jià)鏈接“相關(guān)”、 “不相關(guān)”,如果用戶點(diǎn)擊“相關(guān)”鏈接,則將此網(wǎng)頁放入答案集; 2.用戶直接評(píng)價(jià)的網(wǎng)頁按照評(píng)價(jià)的先后次序放到答案集中最前面的位置; 3.對(duì)于檢索結(jié)果中的每個(gè)網(wǎng)頁,如果用戶點(diǎn)擊查看此網(wǎng)頁,則將其放入答案集; 4.如果用戶先點(diǎn)擊查看了網(wǎng)頁a,后查看了網(wǎng)頁b,則a在答案集中的位置在b之前; 5.如果用戶多次查看了網(wǎng)頁a,則第i次查看,a在答案集中的位置都會(huì)前進(jìn)i位。
通過用戶反饋得到的有序列表即作為正確答案。
在訓(xùn)練集構(gòu)建單元60構(gòu)建了訓(xùn)練集之后,訓(xùn)練單元70即可進(jìn)行用戶興趣模型的訓(xùn)練。
在本實(shí)施例中,采用判別式機(jī)器學(xué)習(xí)算法進(jìn)行用戶興趣模型的訓(xùn)練。以用戶興趣模型的初始訓(xùn)練為例,定義A是一組特征權(quán)重,A=(a1,a2,...aN),ai是特征fi的權(quán)重,i=1,...,N。定義目標(biāo)優(yōu)化函數(shù)M(p(R|Q,D))是基于P@N指標(biāo)的函數(shù),概括地說,就是對(duì)于特征i,計(jì)算特征函數(shù)的有序列表中前N個(gè)網(wǎng)頁與正確答案中這些網(wǎng)頁位置的差值,差值越小表明結(jié)果越接近正確答案?;谧畲箪氐臋C(jī)器學(xué)習(xí)過程采用IIS算法,從特征權(quán)重的預(yù)設(shè)值開始,通過多次迭代找到使M(p(R|Q,D))最小的一組A,并將這組權(quán)重作為用戶興趣模型中各個(gè)特征的權(quán)重。
具體而言,設(shè)定初始條件f1,f2,f3,f4是檢索單元30-1~30-4對(duì)應(yīng)的4個(gè)個(gè)性化特征,a1,a2,a3,a4分別是f1,f2,f3,f4的權(quán)重,初始值均設(shè)為0,目標(biāo)函數(shù)是M(p(R|Q,D)),訓(xùn)練的目標(biāo)是找到這樣一組a1,a2,a3,a4,使得對(duì)于某個(gè)特定的測(cè)試數(shù)據(jù),M(p(R|Q,D))最小。M(p(R|Q,D))的選擇可以根據(jù)實(shí)際應(yīng)用而定,這里將其定義為一個(gè)基于P@N的函數(shù),也就是說,對(duì)于某個(gè)查詢Q,用戶通過直接或間接的方式確定了一組有序網(wǎng)頁列表L=(p1,p2,...,pM)作為用戶認(rèn)可的最終檢索結(jié)果,而系統(tǒng)基于特征fi(1≤i≤4)得到的一組有序網(wǎng)頁列表L’=(p’1,p’2,...,P’M)作為對(duì)應(yīng)于特征fi的檢索結(jié)果,由于L是多個(gè)特征的結(jié)果最后綜合的結(jié)果,與L’可能不同,這就涉及到對(duì)(p1,p2,...,PM)的調(diào)序操作,那么對(duì)于某個(gè)網(wǎng)頁pj∈L(1≤j≤M),表示它在L中是第j個(gè)結(jié)果,它在L’中的位置是k,如果j≠k,則它在特征fi的結(jié)果結(jié)果和最終的檢索結(jié)果之間就存在位置差,這個(gè)位置差用PDi(pk)表示,可定義PDi(pk)=|j-k|,|j-k|表示j-k的絕對(duì)值??紤]到用戶通常只關(guān)心總的結(jié)果中前N個(gè)結(jié)果,如果分頁顯示,通常用戶只關(guān)心前1~2頁結(jié)果,則可只比較各個(gè)結(jié)果列表中的前N個(gè)結(jié)果。如果pk在列表L’中不存在,則取j=N+1??偟哪繕?biāo)函數(shù)就是 基于以上條件,訓(xùn)練處理的具體步驟可描述如下 1.分別用30-1~30-4四個(gè)檢索單元生成四組檢索文檔列表; 2.通過收集用戶的顯式或隱式反饋得到最終檢索結(jié)果列表; 3.對(duì)于最終檢索結(jié)果列表中的前N個(gè)文檔,分別依次計(jì)算每一個(gè)文檔與四組檢索文檔列表的位置差,最后得到一個(gè)4×N的矩陣,每一行代表一個(gè)文檔,第i列代表該文檔在最終檢索結(jié)果與特征i的位置差; 4.利用最大熵的IIS算法計(jì)算得到a1,a2,a3,a4的值。這里,關(guān)于IIS算法,可以參考Della Pietra el a1,1997,Inducing Features of RandomFields,PAMI(19),No.4,April 1997,pp.380-393. 5.通過個(gè)性化特征f1,f2,f3,f4及其權(quán)重a1,a2,a3,a4構(gòu)成用戶興趣模型。
從一個(gè)較長時(shí)期來看,用戶的興趣往往會(huì)發(fā)生變化,即使輸入相同的查詢請(qǐng)求,用戶期望得到的檢索結(jié)果可能也會(huì)不同,這就是“興趣漂移”現(xiàn)象。為了應(yīng)對(duì)這種現(xiàn)象,在本實(shí)施例中,從上一次訓(xùn)練完成之后,當(dāng)前用戶新增提交查詢請(qǐng)求數(shù)>P,而且這些對(duì)應(yīng)查詢請(qǐng)求的用戶反饋網(wǎng)頁數(shù)>Q時(shí),再次進(jìn)行訓(xùn)練。在此,例如可以設(shè)為P=10,Q=100。
在進(jìn)行重訓(xùn)練時(shí),可以采用與前述相同的算法,但當(dāng)特征數(shù)量很大時(shí),運(yùn)算效率不高,為了節(jié)約系統(tǒng)資源,可以基于現(xiàn)有的系統(tǒng)參數(shù),采用不同的機(jī)器學(xué)習(xí)方法,如基于感知機(jī)的機(jī)器學(xué)習(xí)算法。
另外,如果用戶上下文特征發(fā)生了變化,那么就需要調(diào)整以上用戶個(gè)性化模型以反映這種變化,從而使得系統(tǒng)得到的結(jié)果更準(zhǔn)確地反映用戶當(dāng)前的信息需求。例如,如果“職業(yè)”是一個(gè)用戶特征,那么修改職業(yè)就會(huì)對(duì)特征的權(quán)重產(chǎn)生影響。為了降低參數(shù)調(diào)整的復(fù)雜度,可以采用基于感知機(jī)的算法來重新訓(xùn)練用戶興趣模型的參數(shù)。圖5示出了在本實(shí)施例中采用基于感知機(jī)的算法來重新訓(xùn)練用戶興趣模型的示意流程圖。
具體計(jì)算按照如下步驟進(jìn)行 輸入訓(xùn)練樣本,{(di,dj)q;di,dj∈C,q∈Q},當(dāng)前的參數(shù)設(shè)置參數(shù)λi對(duì)應(yīng)于個(gè)性化特征函數(shù)fi,i=1,...,N。
輸出最佳參數(shù)設(shè)置 i預(yù)設(shè)一個(gè)最大的迭代步數(shù)T,并輸入初始的參數(shù)λti(i=1,...,N) ii在每一步的迭代過程中,對(duì)每一個(gè)訓(xùn)練樣本dk,如下調(diào)整參數(shù) iii對(duì)每一個(gè)特征,計(jì)算該訓(xùn)練樣本dk在該特征下的排序和答案中排序的差異。使用該差異以及一個(gè)預(yù)設(shè)的調(diào)整系數(shù)對(duì)該特征的參數(shù)進(jìn)行調(diào)整。
iv如果達(dá)到最大的迭代步數(shù)。則停止。
用機(jī)器語言表示如下 i For t=1 to T iiFor each training sample dk in final result of user’s query q, iii For each λti(i=1,...,N) ivIf fi(dk)=m thenλt+1i=λti+α|m-k| 其中dk表示出現(xiàn)在最終結(jié)果中第k個(gè)位置的文檔,fi(dk)=m表示特征函數(shù)的結(jié)果列表中dk被排在第m位,T代表預(yù)設(shè)的最大迭代步數(shù),N代表個(gè)性化特征數(shù),α是預(yù)設(shè)的系數(shù),表示每次改變的速率。
根據(jù)本發(fā)明的上述實(shí)施例2,除了上述實(shí)施例1的優(yōu)點(diǎn)之外,還可以得到以下優(yōu)點(diǎn) 提供了自學(xué)習(xí)的機(jī)制,系統(tǒng)的開發(fā)者不需要人工去調(diào)節(jié)系統(tǒng)的參數(shù),只需要定義認(rèn)為有用的特征即可,而這些特征是否有用、作用的大小都通過機(jī)器學(xué)習(xí)自動(dòng)得到。
另外,因?yàn)樵跈z索系統(tǒng)的使用過程中不斷地對(duì)用戶興趣模型進(jìn)行重新訓(xùn)練,因此可以跟蹤用戶的興趣漂移,總是得到符合用戶預(yù)期的檢索結(jié)果。
以上通過實(shí)施例對(duì)本發(fā)明進(jìn)行了說明,但可以理解,本發(fā)明不限于以上說明的各種細(xì)節(jié)。
例如,雖然以上是以互聯(lián)網(wǎng)上的網(wǎng)頁信息檢索為例對(duì)本發(fā)明進(jìn)行說明,但本領(lǐng)域的技術(shù)人員可以理解,本發(fā)明可以同樣地應(yīng)用于例如內(nèi)部網(wǎng)上的信息檢索、本地機(jī)器中的文件信息檢索等。
另外,在上述的實(shí)施例中,針對(duì)影響用戶的相關(guān)性判斷的4個(gè)因素建立了4個(gè)檢索單元。但是,本發(fā)明不限于此,可以根據(jù)情況和應(yīng)用場合確定任意的個(gè)性化特征并相應(yīng)地設(shè)置檢索單元。所引入的個(gè)性化特征可以多于或少于4個(gè)。
權(quán)利要求
1、一種信息檢索方法,根據(jù)用戶輸入的查詢請(qǐng)求從大量信息構(gòu)成的信息集合中搜索所希望的信息,該方法包括以下步驟
確定影響用戶對(duì)信息與查詢請(qǐng)求間的相關(guān)性判斷的多個(gè)因素,作為個(gè)性化特征;
對(duì)于各個(gè)個(gè)性化特征設(shè)定相關(guān)的權(quán)重,且分別基于各個(gè)所述個(gè)性化特征建立反映用戶的查詢請(qǐng)求與信息集合中的信息之間的相關(guān)性的檢索模型,通過所述的權(quán)重將所述檢索模型組合成用戶興趣模型;
接受用戶的查詢請(qǐng)求,分別通過各個(gè)所述的檢索模型對(duì)所述信息集合進(jìn)行檢索,分別生成一個(gè)有序信息列表;
通過所述的用戶興趣模型,計(jì)算每個(gè)所述檢索模型得到的有序信息列表中的每一條信息與所述查詢請(qǐng)求的相關(guān)度;
根據(jù)所述用戶興趣模型輸出的相關(guān)度,輸出最終檢索結(jié)果。
2、根據(jù)權(quán)利要求1所述的信息檢索方法,其特征在于,該方法進(jìn)一步包括以下步驟
步驟2.1把所述權(quán)重設(shè)定為預(yù)定的值;
步驟2.2對(duì)于用戶提交的多個(gè)查詢請(qǐng)求,得到多個(gè)所述的最終檢索結(jié)果;
步驟2.3記錄用戶對(duì)于這多個(gè)最終檢索結(jié)果的反饋,構(gòu)造由正確匹配的信息構(gòu)成的訓(xùn)練集;
步驟2.4基于所述訓(xùn)練集,通過機(jī)器學(xué)習(xí)確定所述的權(quán)重。
3、根據(jù)權(quán)利要求2所述的信息檢索方法,其特征在于,該方法進(jìn)一步包括以下步驟
根據(jù)預(yù)定的條件,反復(fù)地執(zhí)行所述步驟2.2至步驟2.4,從而更新所述的權(quán)重。
4、根據(jù)權(quán)利要求1所述的信息檢索方法,其特征在于,該方法進(jìn)一步包括以下步驟
檢測(cè)用戶的個(gè)性化特征的改變或接受用戶對(duì)個(gè)性化特征的修改;
接收用戶對(duì)所述最終檢索結(jié)果的反饋,構(gòu)造由正確匹配的信息構(gòu)成的訓(xùn)練集;
計(jì)算所述最終檢索結(jié)果與所述訓(xùn)練集之間的差異,調(diào)整所述權(quán)重,使得所述最終檢索結(jié)果與所述訓(xùn)練集之間的差異最小。
5、一種信息檢索系統(tǒng),其根據(jù)用戶輸入的查詢請(qǐng)求從大量信息構(gòu)成的信息集合中搜索所希望的信息,該系統(tǒng)包括
輸入單元,其輸入用戶的查詢請(qǐng)求;
多個(gè)檢索單元,該多個(gè)檢索單元分別針對(duì)預(yù)先確定的影響用戶對(duì)信息與查詢請(qǐng)求相關(guān)性判斷的多個(gè)個(gè)性化特征,根據(jù)不同的準(zhǔn)則計(jì)算所述查詢請(qǐng)求與信息集合中的信息之間的相關(guān)度,根據(jù)所計(jì)算的相關(guān)度輸出一個(gè)有序信息列表;
用戶興趣單元,其通過規(guī)定的權(quán)重組合所述多個(gè)個(gè)性化特征,計(jì)算每個(gè)所述檢索單元得到的有序信息列表中的每一條信息與所述查詢請(qǐng)求的相關(guān)度;
輸出單元,其根據(jù)所述用戶興趣單元計(jì)算的相關(guān)度,輸出最終的檢索結(jié)果。
6、根據(jù)權(quán)利要求5所述的信息檢索系統(tǒng),其特征在于,該系統(tǒng)進(jìn)一步包括
訓(xùn)練集構(gòu)建單元,其對(duì)于用戶提交的多個(gè)查詢請(qǐng)求,得到多個(gè)所述的最終檢索結(jié)果,并記錄用戶對(duì)于這多個(gè)最終檢索結(jié)果的反饋,構(gòu)造由正確匹配的信息構(gòu)成的訓(xùn)練集;
訓(xùn)練單元,其基于所述訓(xùn)練集,通過機(jī)器學(xué)習(xí)確定所述的權(quán)重。
7、根據(jù)權(quán)利要求6所述的信息檢索系統(tǒng),其特征在于,
該信息檢索系統(tǒng)根據(jù)預(yù)定的條件,反復(fù)地通過所述訓(xùn)練集構(gòu)建單元和所述訓(xùn)練單元更新所述的權(quán)重。
8、根據(jù)權(quán)利要求6所述的信息檢索系統(tǒng),其特征在于,在該信息檢索系統(tǒng)檢測(cè)到用戶個(gè)性化特征的改變或接收到用戶對(duì)于個(gè)性化特征的修改時(shí),
所述訓(xùn)練集構(gòu)建單元接收用戶對(duì)所述最終檢索結(jié)果的反饋,構(gòu)造由正確匹配的信息構(gòu)成的訓(xùn)練集;
所述訓(xùn)練單元計(jì)算所述最終檢索結(jié)果與所述訓(xùn)練集之間的差異,調(diào)整所述權(quán)重,使得所述最終檢索結(jié)果與所述訓(xùn)練集之間的差異最小。
全文摘要
本發(fā)明提供了信息檢索方法和系統(tǒng),根據(jù)用戶輸入的查詢請(qǐng)求從大量信息構(gòu)成的信息集合中搜索所希望的信息,其中,確定影響用戶對(duì)網(wǎng)頁與查詢請(qǐng)求相關(guān)性判斷的多個(gè)因素,作為個(gè)性化特征;對(duì)于各個(gè)個(gè)性化特征設(shè)定相關(guān)的權(quán)重,且分別基于各個(gè)所述個(gè)性化特征建立反映用戶的查詢請(qǐng)求與信息集合中的信息之間的相關(guān)性的檢索模型,通過所述的權(quán)重將所述檢索模型組合成用戶興趣模型;接受用戶的查詢請(qǐng)求,分別通過各個(gè)所述的檢索模型對(duì)所述信息集合中的信息進(jìn)行檢索,分別生成一個(gè)有序網(wǎng)頁列表;通過所述的用戶興趣模型,計(jì)算每個(gè)所述檢索模型得到的有序信息列表中的每一條信息與所述查詢請(qǐng)求的相關(guān)度;根據(jù)所述用戶興趣模型輸出的相關(guān)度,輸出最終的檢索結(jié)果。
文檔編號(hào)G06F17/30GK101520785SQ20081008155
公開日2009年9月2日 申請(qǐng)日期2008年2月29日 優(yōu)先權(quán)日2008年2月29日
發(fā)明者浩 于, 夏迎炬, 駱衛(wèi)華, 群 劉 申請(qǐng)人:富士通株式會(huì)社