專利名稱:用于機(jī)器學(xué)習(xí)文檔相關(guān)性函數(shù)的方法與裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般地涉及在數(shù)據(jù)庫中定位文檔的搜索引擎領(lǐng)域,例如在被耦合到因特網(wǎng)或在內(nèi)聯(lián)網(wǎng)中的服務(wù)器上存儲的文檔的索引,具體而言,本發(fā)明涉及用于確定文檔相關(guān)性函數(shù)的方法與裝置,所述文檔相關(guān)性函數(shù)用于估計數(shù)據(jù)庫中的文檔關(guān)于查詢的相關(guān)性分?jǐn)?shù)。
背景技術(shù):
對能夠?qū)Υ罅坎煌奈臋n集合作索引而僅響應(yīng)于查詢向用戶返回簡短的相關(guān)結(jié)果文檔列表的搜索引擎的開發(fā),長久以來被認(rèn)為是個難題。目前含有在世界范圍內(nèi)的宿主計算機(jī)上存儲的數(shù)十億文檔的因特網(wǎng),代表了尤為眾多的文檔集合。搜索引擎的用戶一般向搜索引擎提供簡短的查詢,該查詢包含幾個術(shù)語(例如“有毒廢品”或“鄉(xiāng)村音樂”),并且希望搜索引擎返回相關(guān)文檔的列表。實(shí)際上,盡管搜索引擎可以返回上千文檔的列表,但是大多數(shù)用戶可能只瀏覽搜索引擎所返回的列表中的最高三兩個文檔。因此,為了對用戶有幫助,在給定用戶已經(jīng)提交的查詢的情況下,搜索引擎必須能夠從數(shù)十億的文檔中確定人類用戶最感興趣的兩三個文檔。過去,搜索引擎設(shè)計者曾嘗試構(gòu)建相關(guān)性函數(shù),其采用查詢和文檔作為它的輸入,并且返回相關(guān)性值。例如,相關(guān)性值可以用于創(chuàng)建被搜索引擎編入索引的文檔列表,該列表按照與查詢的相關(guān)性的順序來對文檔排序,以滿足上述需要。為了讓該列表中的最高兩個或三個文檔對用戶來說有用,下層的相關(guān)性函數(shù)必須能夠準(zhǔn)確且快速地確定給定文檔對查詢的相關(guān)性。
用戶對真實(shí)相關(guān)性的認(rèn)知受多種因素影響,許多因素是非常主觀性的。這些偏好通常難以在用于定義相關(guān)性函數(shù)的算法規(guī)則集中體現(xiàn)。而且,這些主觀性因素可能隨著時間而改變,例如對于當(dāng)前事件與特定查詢項(xiàng)目相關(guān)聯(lián)的情形。作為另一示例,在因特網(wǎng)上可得到的文檔的總內(nèi)容隨著時間而改變,這也可能改變用戶對給定文檔與特定查詢的相對相關(guān)性的認(rèn)知。如果用戶從搜索引擎接收的返回列表包含他不認(rèn)為是非常相關(guān)的文檔,用戶將很快變得失望,進(jìn)而放棄使用該搜索引擎。
基于上述背景,希望設(shè)計一種確定文檔排名函數(shù)的方法,該文檔排名函數(shù)反映了一個或多個人類用戶對文檔與查詢的相關(guān)性的認(rèn)知,但仍能被方便地實(shí)現(xiàn)為計算機(jī)上的算法。此外,希望設(shè)計一種能夠快速適應(yīng)數(shù)據(jù)庫中的下層文檔的改變以及用戶興趣隨時間的改變兩者的方法。
發(fā)明內(nèi)容
本發(fā)明提供了一種確定文檔相關(guān)性函數(shù)的方法,其中文檔相關(guān)性函數(shù)用于估計數(shù)據(jù)庫中的文檔關(guān)于查詢的相關(guān)性分?jǐn)?shù)。首先,對于多個測試查詢中的每個,從數(shù)據(jù)庫中收集相應(yīng)的結(jié)果文檔集。然后,對于每個測試查詢,選擇所述相應(yīng)結(jié)果集中的文檔子集,并且訓(xùn)練相關(guān)性分?jǐn)?shù)集被分配給該子集中的文檔。最后,基于所述多個測試查詢、所述文檔子集以及所述訓(xùn)練相關(guān)性分?jǐn)?shù)集,確定相關(guān)性函數(shù)。
一些實(shí)施例還提供了一種在每個查詢的相應(yīng)結(jié)果文檔集中選擇文檔子集的方法。首先,從所述相應(yīng)結(jié)果集中選擇文檔,其次,確定將所選文檔與當(dāng)前查詢相關(guān)的代理(surrogate)相關(guān)性分?jǐn)?shù)。再次,基于所確定的代理相關(guān)性分?jǐn)?shù),所選文檔被分配給多個相關(guān)性等級(tier)中的至少一個相關(guān)性等級。隨后重復(fù)所述選擇、確定和分配,直到達(dá)到終止條件。終止條件可以是每個相關(guān)性等級至少包含相應(yīng)預(yù)定義數(shù)量的文檔,或者最高相關(guān)性等級至少包含預(yù)定義數(shù)量的文檔。也可以使用其它終止條件。
這些實(shí)施例中的一些實(shí)施例還提供了一種將訓(xùn)練相關(guān)性分?jǐn)?shù)集分配到從每個查詢的相應(yīng)結(jié)果文檔集選擇的文檔子集中的文檔的方法。首先,來自結(jié)果集的文檔子集的第一多個文檔被提交給相應(yīng)多個人類主觀認(rèn)識(human subject)。第一多個文檔中的文檔具有預(yù)定義范圍內(nèi)的代理相關(guān)性分?jǐn)?shù)。一個或多個人類主觀認(rèn)識確定所提交的文檔關(guān)于查詢的個體相關(guān)性分?jǐn)?shù)。然后,基于人類主觀認(rèn)識所確定的個體相關(guān)性分?jǐn)?shù),訓(xùn)練相關(guān)性分?jǐn)?shù)被分配給關(guān)于所述查詢的每個所提交的文檔。
在一些實(shí)施例中,為了確定相關(guān)性函數(shù),首先構(gòu)建特征集,該特征集在構(gòu)建相關(guān)性函數(shù)的過程中將被用作預(yù)測變量。所述集中的每個特征可以是相應(yīng)文檔、相應(yīng)查詢或兩者的一個或多個屬性的函數(shù)。然后,相關(guān)性函數(shù)根據(jù)有限參數(shù)(例如,系數(shù))集和基礎(chǔ)函數(shù)而被參數(shù)化表示。該相關(guān)性函數(shù)采用特征集作為它的輸入,并且返回相關(guān)性值作為它的輸出。類似地,每個基礎(chǔ)函數(shù)采用特征子集作為它的輸入,并且輸出一個值。然后,在文檔排名函數(shù)被應(yīng)用于關(guān)于特定查詢的給定文檔時,定義部分誤差,以將該給定文檔關(guān)于特定查詢的訓(xùn)練相關(guān)性分?jǐn)?shù)與文檔排名函數(shù)產(chǎn)生的值相關(guān)。然后對于多個給定文檔和多個特定查詢,重復(fù)定義部分誤差,以便產(chǎn)生部分誤差集。然后選擇參數(shù)以便使總誤差最小化,所述總誤差是部分誤差集的函數(shù)。最后,確定相關(guān)性函數(shù),該相關(guān)性函數(shù)對于給定的文檔和查詢,產(chǎn)生相關(guān)性值??蛇x地,基于相關(guān)性函數(shù)來確定文檔排名函數(shù)。對于給定的查詢和多個文檔,文檔排名函數(shù)產(chǎn)生文檔的有序列表,其中列表中的文檔的相關(guān)性值單調(diào)下降。
本發(fā)明的另一方面提供了一種與計算機(jī)系統(tǒng)結(jié)合使用的計算機(jī)程序產(chǎn)品。該計算機(jī)程序產(chǎn)品包括計算機(jī)可讀存儲介質(zhì)和該介質(zhì)上存儲的計算機(jī)程序機(jī)制。該計算機(jī)程序機(jī)制包括(a)收集模塊,用于為多個測試查詢中的每個測試查詢從數(shù)據(jù)庫收集相應(yīng)的結(jié)果文檔集;(b)采樣模塊,用于對于所述多個測試查詢中的每個測試查詢,選擇所述相應(yīng)結(jié)果集中的文檔子集;(c)計分模塊,用于將訓(xùn)練相關(guān)性分?jǐn)?shù)集分配到每個所選子集中的文檔;以及(d)相關(guān)性函數(shù)產(chǎn)生模塊,用于基于所述多個測試查詢、所述文檔子集以及所述訓(xùn)練相關(guān)性分?jǐn)?shù)集來確定相關(guān)性函數(shù)。
當(dāng)結(jié)合附圖對本發(fā)明的優(yōu)選實(shí)施例進(jìn)行詳細(xì)說明時,本發(fā)明的前述特征和優(yōu)點(diǎn)及其附加特征和優(yōu)點(diǎn)將在下文被更清楚地理解。
圖1圖示了向搜索引擎提交查詢的客戶計算機(jī),該搜索引擎使用由相關(guān)性函數(shù)確定系統(tǒng)所確定的文檔相關(guān)性函數(shù)。
圖2A圖示了含有一個或多個項(xiàng)目的示例性查詢。
圖2B圖示了測試查詢集、測試查詢集向搜索引擎的提交,進(jìn)而產(chǎn)生結(jié)果文檔集。
圖3圖示了結(jié)果文檔集以及用于分配給文檔子集的多個相關(guān)性等級。
圖4是相關(guān)性函數(shù)確定方法的流程圖。
圖5是示例性基礎(chǔ)函數(shù)的框圖,在本例中基礎(chǔ)函數(shù)是二叉分類樹。
圖6是相關(guān)性函數(shù)確定系統(tǒng)的框圖。
在附圖的若干示圖中,相似的標(biāo)號指示對應(yīng)的部分。
具體實(shí)施例方式
參考圖1,計算機(jī)網(wǎng)絡(luò)100包括連接到網(wǎng)絡(luò)105的一個或多個客戶計算機(jī)104。網(wǎng)絡(luò)105可以是因特網(wǎng),或者在其它實(shí)施例中可以是內(nèi)聯(lián)網(wǎng)。在網(wǎng)絡(luò)105是因特網(wǎng)的實(shí)施例中,通稱為萬維網(wǎng)102的文檔103的集合可以被客戶計算機(jī)通過網(wǎng)絡(luò)105所獲取。在因特網(wǎng)上,文檔被統(tǒng)一資源定位符(例如,“http://www.av.com”)定位。通過將URL提供給文檔服務(wù)器(未示出),與URL相對應(yīng)的文檔103可以被訪問。
除了文檔和客戶計算機(jī)之外,計算機(jī)網(wǎng)絡(luò)100包括搜索引擎。因特網(wǎng)上可用的搜索引擎示例包括但不限于Alta Vista(URL為http://www.av.com),Google(URL為http://www.google.com)和Yahoo!(URL為http://www.yahoo.com)。搜索引擎一般包括數(shù)據(jù)庫,數(shù)據(jù)庫對萬維網(wǎng)上的文檔作索引。想要獲取與特定主題相關(guān)的文檔但又不確定或不知曉這樣文檔的URL的客戶計算機(jī)104-1的用戶一般通過網(wǎng)絡(luò)105向搜索引擎提交查詢112。搜索引擎106在接收到查詢112之后,檢查文檔數(shù)據(jù)庫以試圖找到用戶將認(rèn)為與所提交的查詢112高度相關(guān)的那些文檔。
一些實(shí)施例提供了一種確定文檔相關(guān)性函數(shù)的方法,該相關(guān)性函數(shù)由搜索引擎106使用并且由相關(guān)性函數(shù)確定系統(tǒng)108所確定。相關(guān)性函數(shù)確定系統(tǒng)108在一些實(shí)施例中可以在與實(shí)現(xiàn)搜索引擎106的計算機(jī)系統(tǒng)不同的計算機(jī)系統(tǒng)上實(shí)現(xiàn)。在其它實(shí)施例中,單個計算機(jī)系統(tǒng)可以用來實(shí)現(xiàn)搜索引擎的功能以及相關(guān)性函數(shù)確定系統(tǒng)108的功能。
相關(guān)性函數(shù)確定系統(tǒng)108的實(shí)施例收集用于多個測試查詢的結(jié)果文檔集。在一些實(shí)施例中,所述多個測試查詢是至少部分基于客戶計算機(jī)104的用戶提交到搜索引擎106的查詢?nèi)罩径_定的。在一些實(shí)施例中,所述結(jié)果文檔集是通過向一個或多個搜索引擎106提交測試查詢并從其接收響應(yīng)(一般是URL的列表)而確定的。相關(guān)性函數(shù)確定系統(tǒng)可選地耦合到網(wǎng)絡(luò)105,并且因而可以獲取結(jié)果集中的一個或多個文檔。相關(guān)性函數(shù)確定系統(tǒng)的一般實(shí)施例包括對一個或多個人類主觀認(rèn)識110的訪問。人類主觀認(rèn)識可以被用來提供結(jié)果集中的文檔相對于所述多個測試查詢中的一個或多個查詢的訓(xùn)練相關(guān)性分?jǐn)?shù)集。
參考圖2A,一般查詢112包括一個或多個項(xiàng)目202。例如,所示出的查詢包括三個項(xiàng)目。這樣的查詢被稱為“三項(xiàng)”查詢。類似地,僅含有一個項(xiàng)目的查詢被稱為“一項(xiàng)”查詢,而含有兩個項(xiàng)目的查詢被稱為“二項(xiàng)”查詢。各個項(xiàng)目在被用戶提交時可以由空格區(qū)劃界,也可以由某些其它手段劃界。
參考圖2B,多個測試查詢204包括一個或多個查詢112。在一些實(shí)施例中,所述多個測試查詢204包括至少一個一項(xiàng)查詢112-1和至少一個二項(xiàng)查詢112-2。在其它實(shí)施例中,所述多個測試查詢204可以只包括一項(xiàng)查詢、只包括二項(xiàng)查詢、只包括三項(xiàng)查詢、或者包括多個查詢類型的任意組合,并且可以包括具有多于三個項(xiàng)目的查詢。
在一個實(shí)施例中,所述多個測試查詢204是通過從搜索引擎106所存儲的用戶提交到該搜索引擎的查詢112的一個或多個日志中對查詢采樣而確定的。首先從日志中采樣初步查詢串集。然后去除與被確定為在用戶的知識范圍之外的主題有關(guān)的查詢。最后,初步集中的剩余查詢被分配給所述多個測試查詢204。
在另一實(shí)施例中,通過從單個詞條目的詞典(lexicon)中采樣詞(word)并將如此采樣得到的每個詞分配給所述多個測試查詢,來選擇所述多個測試查詢??梢詮闹胁蓸釉~的詞典示例包括字典,例如Merriam-Webster公司的第10版(1998)Merriam-Webster’s Collegiate字典。在其它實(shí)施例中,從詞典采樣兩個或更多詞的組合,并且該組合被分配給所述多個測試查詢204。
一旦確定了所述多個測試查詢204,就收集來自數(shù)據(jù)庫的多個208相應(yīng)結(jié)果文檔集304。在一些實(shí)施例中,所述多個測試查詢204中的每個測試查詢112被提交給搜索引擎106。如上所述,在一些實(shí)施例中,數(shù)據(jù)庫是從萬維網(wǎng)獲取的文檔的索引。在這些實(shí)施例中,結(jié)果文檔集有時是通過下述步驟收集的將每個測試查詢提交給搜索引擎,從搜索引擎接收萬維網(wǎng)上的包含測試查詢中的一個或多個項(xiàng)目的文檔的列表,并將文檔列表中的一個或多個文檔添加到相應(yīng)的結(jié)果集。搜索引擎通過返回文檔列表(通常由它們的URL標(biāo)引)來作出響應(yīng),每個文檔包含有測試查詢112中的至少一個項(xiàng)目。這樣,每個相應(yīng)的結(jié)果集304包含一個或多個文檔210,并且每個文檔210與一個或多個測試查詢112相關(guān)聯(lián)。每個相應(yīng)的結(jié)果集304優(yōu)選地僅存儲文檔210的識別信息(例如,每個文檔的URL、文檔的標(biāo)題或部分標(biāo)題、以及一小部分文檔,其可能包含一個或多個查詢項(xiàng)目)而不存儲文檔的完整內(nèi)容。
在其它實(shí)施例中,每個測試查詢112的相應(yīng)結(jié)果集304是通過將來自所述多個測試查詢204的每個查詢112提交到對萬維網(wǎng)上的文檔作索引的兩個或更多搜索引擎而被收集的。例如,在一些實(shí)施例中,測試查詢被提交到AltaVista的搜索引擎(URL為http://www.av.com)和第二搜索引擎。在一些實(shí)施例中,第二搜索引擎是Google的搜索引擎(URL為http://www.google.com)。隨后接收每個搜索引擎所確定的排名最高的200個文檔(排名為1到200)的URL。然后,被AltaVista的搜索引擎排在1-5位置(對應(yīng)于與所提交查詢的最高相關(guān)性)的五個文檔被添加到相應(yīng)的結(jié)果集中。此外,從排名中的6-200位置中選擇具有隨機(jī)選定位置的五個文檔,這些文檔被添加到相應(yīng)的結(jié)果集。然后,由第二搜索引擎排名在1-5位置的五個文檔被添加到相應(yīng)的結(jié)果集208。此外,由第二搜索引擎排名在五個隨機(jī)選定位置的文檔被添加到相應(yīng)的結(jié)果集。對于第二搜索引擎返回的URL列表中的每個文檔,如果在添加來自第二搜索引擎所返回的URL列表的文檔之前,相應(yīng)的結(jié)果集已經(jīng)含有了該文檔,則檢查處于下一個最高位置(位置的排名等于當(dāng)前位置的值加1)的文檔,而如果它還沒有在相應(yīng)的結(jié)果集中,則將它添加到相應(yīng)的結(jié)果集。相反,如果文檔再次已經(jīng)在相應(yīng)結(jié)果集中找到,則檢查處于下一個最高位置處的文檔,直到到達(dá)文檔列表的末端。如果可能的話,這一過程將重復(fù),直到10個來自由第二搜索引擎所返回的URL列表的文檔已經(jīng)被添加到相應(yīng)的結(jié)果集。因此,在一些實(shí)施例中,相應(yīng)的結(jié)果集可能包括20個文檔。
已經(jīng)描述了一種方法,通過該方法可以收集來自數(shù)據(jù)庫的文檔的結(jié)果集,現(xiàn)在描述從結(jié)果集或一個或多個相應(yīng)結(jié)果集選擇文檔子集的方法。在本申請文件中,術(shù)語“子集”被用于表示集合的一部分,可以包括集合中的所有項(xiàng)目。一般而言,多個208相應(yīng)結(jié)果集304中的文檔數(shù)目龐大,這妨礙了將準(zhǔn)確的訓(xùn)練相關(guān)性分?jǐn)?shù)向所有這些文檔的經(jīng)濟(jì)型分配。而且,在一些實(shí)施例中,由于有限的計算資源(例如圖1中的相關(guān)性函數(shù)確定系統(tǒng)108的存儲器容量和處理速度),確定文檔排名函數(shù)僅在相對小量的文檔已分配訓(xùn)練相關(guān)性分?jǐn)?shù)的條件下可行。在上下文中,相對小量指的是總數(shù)的1%或更少。例如,在優(yōu)選實(shí)施例中,多個208相應(yīng)結(jié)果集304包括多于4000個文檔,而所選擇的要分配相關(guān)性訓(xùn)練分?jǐn)?shù)的文檔子集僅包括40個文檔。在另一實(shí)施例中,相關(guān)性訓(xùn)練分?jǐn)?shù)被分配給數(shù)量在40到200之間的文檔。
參考圖3,一個或多個相應(yīng)結(jié)果集304每個包括參考多個測試查詢中的相應(yīng)一個而獲取的文檔。在一些實(shí)施例中,將每個文檔與含有該文檔的相應(yīng)結(jié)果集的查詢相關(guān)的代理相關(guān)性分?jǐn)?shù)被首先確定。代理相關(guān)性分?jǐn)?shù)可以通過下述步驟來確定將相應(yīng)結(jié)果集的查詢提交到搜索引擎,并確定該文檔的代理相關(guān)性分?jǐn)?shù)作為文檔在搜索引擎所返回的列表中的位置的函數(shù)。例如,圖3中的查詢1被提交給搜索引擎,并且代理相關(guān)性分?jǐn)?shù)被分配給文檔306-1,該代理相關(guān)性分?jǐn)?shù)作為文檔306-1在搜索引擎響應(yīng)于查詢1的提交而提供的列表上的位置的函數(shù)。
然后,對于每個相應(yīng)的結(jié)果集304,建立相關(guān)性等級集308。每個相關(guān)性等級集308包括一個或多個相關(guān)性等級310。在一些實(shí)施例中,每個相關(guān)性等級310與最小代理相關(guān)性分?jǐn)?shù)相關(guān)聯(lián),并且可選地與最大代理相關(guān)性分?jǐn)?shù)相關(guān)聯(lián)。在一些實(shí)施例中,相應(yīng)結(jié)果集304中的一個或多個文檔以這樣的方式被分配給每個相關(guān)性等級310,該方式使得該文檔的代理相關(guān)性分?jǐn)?shù)大于或等于與該相關(guān)性等級相關(guān)聯(lián)的最小代理相關(guān)性分?jǐn)?shù)??梢酝ㄟ^多種方式來選擇相應(yīng)結(jié)果集304中的一個或多個文檔,例如通過從相應(yīng)結(jié)果集304的文檔中隨機(jī)采樣。分配文檔的示例由文檔306-1來圖示,其可以具有代理相關(guān)性分?jǐn)?shù)10。與相關(guān)性等級310-11相關(guān)聯(lián)的最小相關(guān)性代理分?jǐn)?shù)可以是8。這樣,文檔306-1被分配給等級310-11。其它用于從相應(yīng)結(jié)果集304選擇文檔并將文檔分配給相關(guān)性等級310的方法也是可行的。相關(guān)性等級一般包括代表具有低代理相關(guān)性分?jǐn)?shù)的結(jié)果的文檔。
在一些實(shí)施例中,每個相關(guān)性等級310還具有關(guān)聯(lián)的最大代理相關(guān)性分?jǐn)?shù)。例如,等級310-N2可以具有關(guān)聯(lián)的最小相關(guān)性分?jǐn)?shù)4和關(guān)聯(lián)的最大相關(guān)性分?jǐn)?shù)8。相關(guān)性等級310-N1可以具有關(guān)聯(lián)的最大相關(guān)性分?jǐn)?shù)100和關(guān)聯(lián)的最小相關(guān)性分?jǐn)?shù)8。在這些實(shí)施例中,如果文檔的代理相關(guān)性分?jǐn)?shù)小于與給定相關(guān)性等級相關(guān)聯(lián)的最大代理相關(guān)性分?jǐn)?shù)而大于或等于與該等級相關(guān)聯(lián)的最小相關(guān)性代理分?jǐn)?shù),則該文檔被分配給該等級。例如,文檔306-2可以具有代理相關(guān)性分?jǐn)?shù)5。因此,文檔306-2被分配給相關(guān)性等級310-N2,而沒有被分配給相關(guān)性等級310-N1。在這些實(shí)施例中的某些實(shí)施例中,與每個等級的最大分?jǐn)?shù)和最小分?jǐn)?shù)相關(guān)聯(lián)的相關(guān)性分?jǐn)?shù)的范圍被選定,使得這些范圍沒有重疊。在另一實(shí)施例中,例如由于每個等級具有分配的最小分?jǐn)?shù)而沒有分配的最大分?jǐn)?shù),而使得這些范圍相互重疊。
在一些實(shí)施例中,將來自相應(yīng)結(jié)果集304的文檔分配給相關(guān)性等級310的過程被重復(fù),直到每個相關(guān)性等級310至少包含相應(yīng)預(yù)定義數(shù)量的文檔。例如,在一些實(shí)施例中,所述分配過程被重復(fù),直到至少10個文檔被分配給每個相關(guān)性等級。在另一實(shí)施例中,每個等級所要求的最小文檔數(shù)可以不同。例如,等級1、2和3所要求的最小文檔數(shù)可以分別是10、40和100。
已經(jīng)描述了選擇文檔子集的方法,現(xiàn)在描述將相關(guān)性訓(xùn)練分?jǐn)?shù)分配給子集中的文檔的方法。在一些實(shí)施例中,來自相關(guān)性等級310的第一多個文檔被提交給一個或多個人類主觀認(rèn)識(圖1中的元件110)。例如,第一多個文檔可以包括只來自與多個測試查詢中的每個查詢相關(guān)聯(lián)的第一(即,最高)相關(guān)性等級310-11,...,310-N1。人類主觀認(rèn)識檢查提交給它們的每個文檔以及關(guān)聯(lián)的查詢,并且確定將該文檔與該查詢相關(guān)的個體相關(guān)性分?jǐn)?shù)。在一些實(shí)施例中,使用了大量(例如,50個)人類主觀認(rèn)識來評價每個文檔,進(jìn)而提供統(tǒng)計上可靠的個體相關(guān)性分?jǐn)?shù)集。
在一些實(shí)施例中,每個人類主觀認(rèn)識具有許多文檔-查詢對以及包括下述語句的陳述·設(shè)想你處于你喜愛的搜索網(wǎng)站。你正在搜索<查詢>,因?yàn)?amp;lt;與該查詢有關(guān)的文章>。例如,你正在搜索“銀河系中的行星”,因?yàn)槟阆胝业姐y河系中的行星的名字。
·在你喜愛的搜索引擎所傳送的許多查詢結(jié)果中,具有下述URL<文檔的URL>。點(diǎn)擊該URL,讀取其中的文檔,并且在你已經(jīng)評價了該文檔之后,通過給該文檔打分來指明該文檔與該查詢的相關(guān)性,其中分?jǐn)?shù)來自下列數(shù)字1、2、3、4、5、6、7、8、9、10。請使用數(shù)字10來指示最高的可能相關(guān)性,并用數(shù)字1來指示最低的可能相關(guān)性。
這樣,在這些實(shí)施例中,人類主觀認(rèn)識分配來自數(shù)字1-10(10指示最高相關(guān)性,1指示最低相關(guān)性)之一的個體相關(guān)性分?jǐn)?shù)。在一些實(shí)施例中,確定個體分?jǐn)?shù)的算術(shù)平均值,并且該平均值被用作文檔的訓(xùn)練相關(guān)性分?jǐn)?shù)。確定文檔的訓(xùn)練相關(guān)性分?jǐn)?shù)的其它方法也是可行的,包括但不限于使用個體相關(guān)性分?jǐn)?shù)的中值,以及使用所選擇的具有低于預(yù)定閾值的方差的個體相關(guān)性分?jǐn)?shù)樣本的算術(shù)平均值。
在一些實(shí)施例中,訓(xùn)練分?jǐn)?shù)被分配給從子集中的文檔選擇的第二多個文檔中的文檔。第二多個文檔可以包括子集中沒有被作為第一多個文檔的一部分提交給人類用戶的所有文檔。在一些實(shí)施例中,第二子集中的文檔被分配預(yù)定的低相關(guān)性訓(xùn)練分?jǐn)?shù)。例如,來自最低相應(yīng)相關(guān)性等級310-M1、310-M2(用于第二查詢,未示出)的文檔可以被分配預(yù)定的相關(guān)性分?jǐn)?shù)0。在一些實(shí)施例中,來自每個查詢的下一個最低相應(yīng)相關(guān)性等級的文檔可以被分配預(yù)定相關(guān)性分?jǐn)?shù)1.5,并且對于具有第二子集中的文檔的其它等級依此類推。這樣,相關(guān)性等級310中的所有文檔可以被分配訓(xùn)練相關(guān)性分?jǐn)?shù),而無需將所有文檔提交給人類主觀認(rèn)識。從人類主觀認(rèn)識獲得用于相關(guān)性等級310中的所有文檔的個體相關(guān)性分?jǐn)?shù)可能代價高昂。而且,一般從被人類主觀認(rèn)識分配給文檔的低個體相關(guān)性分?jǐn)?shù)獲得很少的信息。
已經(jīng)描述了將訓(xùn)練相關(guān)性分?jǐn)?shù)分配給文檔的方法,現(xiàn)在描述基于文檔子集、所分配的訓(xùn)練相關(guān)性分?jǐn)?shù)和多個測試查詢來確定相關(guān)性函數(shù)的方法。在一些實(shí)施例中,機(jī)器學(xué)習(xí)技術(shù)被用于這個目的。機(jī)器學(xué)習(xí)技術(shù),除了最小化與訓(xùn)練相關(guān)性分?jǐn)?shù)和相關(guān)性函數(shù)產(chǎn)生的相關(guān)性分?jǐn)?shù)相關(guān)聯(lián)的誤差之外,還通過這樣的方式來確定相關(guān)性函數(shù),該方式使得如果文檔在相關(guān)性等級中且查詢在測試集中,則為新查詢(沒有包含在查詢測試集中)或新文檔(沒有在相關(guān)性等級中)產(chǎn)生的相關(guān)性分?jǐn)?shù)接近已經(jīng)確定的相對于查詢的文檔的訓(xùn)練相關(guān)性分?jǐn)?shù)。在一些實(shí)施例中,邏輯回歸被用作確定相關(guān)性函數(shù)的機(jī)器學(xué)習(xí)技術(shù)。已經(jīng)利用回溯實(shí)驗(yàn)論證了邏輯回歸能夠改善信息獲取環(huán)境中的相關(guān)性排名。例如參見Gey,F(xiàn).C.“Inferring the Probabilityof Relevance Using the Method of Logistic Regression”,SIGIR 1994222-231,該文章的全部內(nèi)容作為參考在這里被引入。
參考圖4,在用于確定相關(guān)性函數(shù)的方法400中,在步驟402中,首先確定將被用作預(yù)測變量的特征集。特征集將在構(gòu)建相關(guān)性函數(shù)的過程中用作預(yù)測變量。特征,如本申請文件和權(quán)利要求所意味的那樣,是量化查詢與文檔的關(guān)系的一方面或者量化文檔自身的一方面的工具。對于給定的文檔和可能的查詢,特征返回值。僅僅基于文檔自身的內(nèi)容返回值的特征被稱作獨(dú)立于查詢的特征。獨(dú)立于查詢的特征可以取決于文檔自身的屬性。此外,獨(dú)立于查詢的特征可以取決于文檔所處的服務(wù)器的屬性,并且可能取決于該服務(wù)器與萬維網(wǎng)上的其它服務(wù)器之間的關(guān)系屬性。需要文檔和查詢兩者來返回一個或多個值的特征被稱為依賴于查詢的特征。在本申請文件中,被選擇用來相關(guān)文檔與查詢的第i個特征被標(biāo)為zi。為了符號上的方便,所選擇的特征集(包括一個或多個個體特征)被標(biāo)為z,其中z={z1,z2,...,zF},F(xiàn)是如此選擇的特征數(shù)量。
可以包括在特征集中的獨(dú)立于查詢的特征示例包括但不限于·本征排名,(Eigenrank,ER)一個或多個與從萬維網(wǎng)的關(guān)聯(lián)矩陣導(dǎo)出的隨機(jī)矩陣的特征向量元素相關(guān)聯(lián)的值,其中鏈接(link)被當(dāng)作有向圖的邊。見Page L.,Brin S.,Motwani R.,和WinogradT.,“The PageRank citation rankingBringing order to the Web,”http://citeseer.nj.nec.com/page98pagerank.html,網(wǎng)站最后訪問時間是2003年4月10日。這里其全部內(nèi)容作為參考而被引入;·HUB與萬維網(wǎng)的關(guān)聯(lián)矩陣的連通性有關(guān)的值,具體而言,是所謂的對圖的奇異值分解的Kleinberg(克萊能柏格)應(yīng)用,參見Kleinberg L.,“Authoritative sources in a hyperlinked environment,”inproceeding of the Nineth Annual ACM-SIAM Symposium on DiscreteAlgorithms,1998,這里其全部內(nèi)容作為參考而被引入;·URL深度(Depth)代表為獲取信息所需對網(wǎng)站遍歷的深度,其至少部分基于URL中的“/”的數(shù)量來確定;·質(zhì)量分?jǐn)?shù)(Quality Score)代表文檔權(quán)限的值,被確定為文檔其它特征的函數(shù);·垃圾索引(Spam Index)指示文檔是否很可能是“垃圾文檔”的值,例如當(dāng)文檔含有過多重復(fù)的項(xiàng)目時為值“1”,該值指示該文檔已被人為設(shè)計來提高含有該項(xiàng)目的查詢的相關(guān)性。
·家庭友好度(Family Friendliness)用來指示文檔是否含有面向家庭的用戶可能厭惡的內(nèi)容,例如當(dāng)文檔含有一個或多個某些色情項(xiàng)目列表時為值“1”,其它情況下為值“0”;·文檔長度(Document Length)文檔中的個體項(xiàng)目的數(shù)量,以整數(shù)表示。
可以包括在特征集中的依賴于查詢的特征示例包括但不限于·錨定文本分?jǐn)?shù)(Anchor Text Score)代表包含到當(dāng)前文檔的鏈接和當(dāng)前查詢中的一個或多個項(xiàng)目兩者的文檔的數(shù)量的值;·匹配位置(Match Location)位于文檔中,是指示來自查詢的項(xiàng)目是否能夠在文檔的題目或正文中找到的值,如果項(xiàng)目在正文而非題目中找到,則是指示在正文的多深處找到該項(xiàng)目的值;·匹配頻率(Match Frequency)指示在文檔中找到多少次來自查詢的項(xiàng)目的值,例如來自查詢的任何項(xiàng)目在文檔中被找到的次數(shù);·項(xiàng)目權(quán)重(Term Weight)信息獲取(IR)領(lǐng)域中的標(biāo)準(zhǔn)特征,例如來自查詢的項(xiàng)目在文檔的數(shù)據(jù)庫中被發(fā)現(xiàn)的次數(shù)的反對數(shù),表示為總數(shù)據(jù)庫大小的一小部分;以及·鄰近度(Proximity)對于多項(xiàng)目查詢,是指示查詢中的項(xiàng)目是否可以在文檔中彼此鄰近地被發(fā)現(xiàn)的值。
在一些實(shí)施例中,所選擇的特征集包括上面描述的所有特征。因此,在這些實(shí)施例中,z={本征排名(ER),Hub,URL深度,質(zhì)量分?jǐn)?shù),垃圾索引,家庭友好度,文檔長度,錨定文本分?jǐn)?shù),匹配位置,匹配頻率,項(xiàng)目權(quán)重,和鄰近度}。在其它實(shí)施例中,可以選擇這些特征的子集。在其它實(shí)施例中,除上面列出的特征之外,特征集中還可以包括其它特征,例如本身是上面的特征子集的函數(shù)的導(dǎo)出特征。
再次參考圖4,確定文檔相關(guān)性函數(shù)的方法400中的下一步驟是步驟404。在步驟404中,相關(guān)性函數(shù)根據(jù)有限系數(shù)集和基礎(chǔ)函數(shù)而被參數(shù)化表示。在一些實(shí)施例中,排名功能被參數(shù)化表示為特征的線性函數(shù),p(z)=Σr=1Rcrzr]]>其中R是系數(shù)的數(shù)量,R一旦被確定,就根據(jù)R個特征z來定義相關(guān)性函數(shù)p(z)。在其它實(shí)施例中,相關(guān)性函數(shù)的參數(shù)化可以涉及更為復(fù)雜的特征函數(shù),例如p(z)=Σr=1Rcrar(z)]]>其中每個基礎(chǔ)函數(shù)ar(z)采用特征集的子集作為輸入(該子集可能包括特征集中的所有特征),并且輸出值?;A(chǔ)函數(shù)可以包括特征集中一些特征的二次函數(shù),例如,a1(z)=z1z3,a2(z)=z22,或者a3(z)=z2z3?;A(chǔ)函數(shù)還可以包括特征集中的多個特征的更多一般非線性函數(shù),例如a4(z)=z1,]]>a5(z)=|z2|,或者a6(z)=z3/z1。
在一些實(shí)施例中,基礎(chǔ)函數(shù)自身被系數(shù)參數(shù)化表示。例如,基礎(chǔ)函數(shù)可以包括小波函數(shù),其中每個小波函數(shù)例如通過膨脹、平移過程或其它可能的過程與母小波相關(guān),準(zhǔn)確的關(guān)系由其它的系數(shù)來確定。在一些實(shí)施例中,基礎(chǔ)函數(shù)可以包括神經(jīng)網(wǎng)絡(luò)。在基礎(chǔ)函數(shù)自身取決于系數(shù)的實(shí)施例中,相關(guān)性函數(shù)以下述方式參數(shù)化p(z)=Σr=1Rcrar(z;d1,...,dJr)]]>其中與每個基礎(chǔ)函數(shù)ar相關(guān)聯(lián)的系數(shù)數(shù)量Jr對于每個基礎(chǔ)函數(shù)來說可以不同。在一些實(shí)施例中,相關(guān)性函數(shù)是系數(shù)與基礎(chǔ)函數(shù)的一般非線性函數(shù),p(z)=P(Σr=1Rcrar(z;d1,...,dJr)).]]>在一些實(shí)施例中,基礎(chǔ)函數(shù)包括決策樹。例如,基礎(chǔ)學(xué)習(xí)者可以是二叉分類樹500,如圖5所示。參考圖5,框502-1中的二叉分類樹檢查第一“分裂變量(splitting variable)”x1,并且將其值與“分裂地點(diǎn)”b1相比較。例如,分裂變量等于特征之一的值x1=z1。在另一示例中,分裂變量是所選特征集中的一個或多個特征的線性或非線性函數(shù)。取決于框502-1中執(zhí)行的比較的結(jié)果,樹的流程前進(jìn)到框502-2或502-3。每個框502與分裂變量和分裂地點(diǎn)相關(guān)聯(lián)。這樣,分裂變量(例如508-1)和分裂地點(diǎn)(例如508-2)是確定樹400表示的基礎(chǔ)函數(shù)所需要的系數(shù)508。
最后,基于框502中進(jìn)行的比較,樹的流程前進(jìn)到四個終端節(jié)點(diǎn)506之一。在每個終端節(jié)點(diǎn)中,終端值(例如,508-3)被分配為基礎(chǔ)函數(shù)的值。在圖5中,樹400是二叉分類器,終端值僅采取值“-1”或“1”,其對應(yīng)于樹400將文檔分類成的一個或兩個類別。終端值(例如,508-3)也是確定樹400表示的基礎(chǔ)函數(shù)所需要的系數(shù)508。
在其它實(shí)施例中,基礎(chǔ)函數(shù)包括分類與回歸樹(CART)。CART樹可以用來對相關(guān)性函數(shù)自身參數(shù)化,或者在一些實(shí)施例中,對相關(guān)性函數(shù)相對于參數(shù)子集的梯度參數(shù)化。為了完整說明CART樹,包括說明選擇CART樹的參數(shù)來最小化誤差的方法,參見L.Breiman,J.H.Friedman,R.A.Olshen,和C.J.Stone,Classification and Regression Tress,Belmont,CAWadsworth,1984,其全部內(nèi)容在這里作為參考而被引入。
在基礎(chǔ)函數(shù)是二叉分類樹的某些實(shí)施例中,相關(guān)性函數(shù)被確定為從每個基礎(chǔ)函數(shù)的應(yīng)用返回到選定特征集的終端值的線性組合的函數(shù)。為了確定這些實(shí)施例情形中的相關(guān)性函數(shù),首先構(gòu)建主分類器。主分類器可以表示為基礎(chǔ)函數(shù)的線性組合的結(jié)果的“票數(shù)(vote)”,M(z)=sign[Σr=1Rcrar(z;d1,...,dJr)],]]>其中每個基礎(chǔ)函數(shù)(樹)表示為ar,基礎(chǔ)函數(shù)的參數(shù)(分裂變量、分裂地點(diǎn)和終端值)表示為d1,...,dJr,基礎(chǔ)函數(shù)的組合的參數(shù)表示為cr,并且sign()用作“票數(shù)”,這是通過當(dāng)主分類器的自變量是正數(shù)或零時將值“1”分配給主分類器而在其它情況下將值“-1”分配給主分類器而實(shí)現(xiàn)的。在這些實(shí)施例中,相關(guān)性函數(shù)是基礎(chǔ)函數(shù)的加權(quán)和的反對數(shù)變換p(y=1|z)=exp(S(z))1+exp(S(z))]]>其中S(z)=Σr=1Rcrar(z;d1,...,dJr)]]>和exp()表示指數(shù)函數(shù)。y=1指示,對于給定特征,測量該文檔屬于與值“1”相關(guān)聯(lián)的類別的可能性的概率。如下文結(jié)合步驟406所討論的那樣,在這些實(shí)施例中,與值“1”相關(guān)聯(lián)的類別是被認(rèn)為與查詢高度相關(guān)的文檔類別。因此,該概率值本身被用作文檔對查詢的相關(guān)性的估計。
在描述確定相關(guān)性函數(shù)的方法400(圖4)中的下一步驟406的細(xì)節(jié)之前,進(jìn)一步描述所確定的相關(guān)性函數(shù)和訓(xùn)練相關(guān)性分?jǐn)?shù)之間的關(guān)系。參考圖3,相關(guān)性等級310包含一個或多個文檔,每個文檔被分配了訓(xùn)練相關(guān)性分?jǐn)?shù),該訓(xùn)練相關(guān)性分?jǐn)?shù)將文檔與關(guān)聯(lián)于該文檔所源自的相應(yīng)結(jié)果集304的查詢相關(guān)。為了符號上的方便,在與第n個查詢相關(guān)聯(lián)的第m個相關(guān)性等級中的第j個文檔的訓(xùn)練相關(guān)性分?jǐn)?shù)被表示為ynmj。特征的值也可能取決于查詢和文檔,從而與和第n個查詢相關(guān)聯(lián)的第m個相關(guān)性等級中的第j個文檔相關(guān)聯(lián)的特征值類似地被表示為znmj。機(jī)器學(xué)習(xí)技術(shù)(諸如這里所公開的那些機(jī)器學(xué)習(xí)技術(shù))基于與相關(guān)性等級中的特征值和訓(xùn)練相關(guān)性分?jǐn)?shù)相關(guān)聯(lián)的部分誤差來確定文檔相關(guān)性函數(shù)。相關(guān)性等級中的文檔代表在例如使用相關(guān)性函數(shù)來相對于未在查詢測試集中的查詢表征來自萬維網(wǎng)的文檔時將遇到的小部分(通常,小于1%)文檔。因此,機(jī)器學(xué)習(xí)技術(shù)還必須試圖控制“泛化誤差(generalization error)”,即,與相關(guān)性函數(shù)所產(chǎn)生的相關(guān)性分?jǐn)?shù)以及用戶為未在測試查詢集中的查詢或未在相關(guān)性等級中的文檔確定的相關(guān)性分?jǐn)?shù)相關(guān)聯(lián)的誤差。
在一些實(shí)施例中,方法400的步驟406包括將與第n個查詢和第m個相關(guān)性文檔中的第j個文檔相關(guān)聯(lián)的部分誤差enmj定義為用于該文檔與查詢的訓(xùn)練相關(guān)性分?jǐn)?shù)與相關(guān)性函數(shù)所產(chǎn)生的值之間的差的平方的函數(shù),enmj=(ynmj-p(znmj))2在其它實(shí)施例中,誤差被定義為訓(xùn)練相關(guān)性分?jǐn)?shù)和相關(guān)性函數(shù)所產(chǎn)生的值之間的差的絕對值的函數(shù),enmj=|ynmj-p(znmj)|在其它實(shí)施例中,首先定義訓(xùn)練分類函數(shù),分類函數(shù)至少部分基于文檔的訓(xùn)練相關(guān)性分?jǐn)?shù)而將文檔分配到多個類別中的至少一個類別。例如,再次參考圖3,可以定義訓(xùn)練分類函數(shù),使得來自與每個測試查詢相關(guān)聯(lián)的最高相關(guān)性等級310-11、...和310-N1的所有文檔被分配給第一類別。該類別中的成員資格可以與值“1”相關(guān)聯(lián)。未被分類為第一類別成員的相關(guān)性等級310中的文檔可以被分配到第二類別。第二類別的成員資格可以與值“-1”相關(guān)聯(lián)。在一些實(shí)施例中,可以以類似的方式定義多于兩個類別。
在訓(xùn)練分類函數(shù)是二叉分類器的實(shí)施例中,在將文檔分配到兩個類別之一時,定義部分誤差enmj=exp(-ynmjp^(znmj))]]>其中 是相關(guān)性函數(shù)的對數(shù)變換,即,p^(znmj)=12log(p(znmj)1-p(znmj))]]>參考圖4,確定相關(guān)性函數(shù)的方法400重復(fù)定義部分誤差的步驟406一次或多次。步驟408確定是否要確定更多部分誤差。在一些實(shí)施例中,由步驟406重復(fù)定義部分誤差,直到已經(jīng)為每個相應(yīng)查詢的每個相關(guān)性等級(圖3中的310)中的每個文檔定義了部分誤差。方法400的步驟410隨后選擇相關(guān)性函數(shù)的系數(shù)以便最小化總誤差。在一些實(shí)施例中,總誤差只是與多個測試查詢中的每個查詢相關(guān)聯(lián)的每個相關(guān)性等級中的所有文檔的部分誤差的總和etot=ΣnΣiΣjenmj]]>在其它實(shí)施例中,總誤差可以是部分誤差的更復(fù)雜函數(shù),例如是部分誤差的加權(quán)和或部分誤差的平方和。
對于相關(guān)性函數(shù)的任意參數(shù)化,確定相關(guān)性函數(shù)的參數(shù)(例如,系數(shù))以便最小化總誤差。在一些實(shí)施例中,也可以利用推進(jìn)(boost)過程來實(shí)現(xiàn)用于最小化總誤差的參數(shù)選擇。例如,推進(jìn)過程的一個版本,AdaBoost(其偽代碼可從下文得到Schapire,R.E.“The Boosting Approachto Machine LearningAn Overview”,in MSRI Workshop on NonlinearEstimation and Classification,2002,其全部內(nèi)容在這里作為參考而被引入)可以被用來確定權(quán)重集的序列,這些權(quán)重集被用于確定作為部分誤差的加權(quán)和的總誤差。對于每個權(quán)重集,確定相關(guān)性函數(shù)的參數(shù),以便最小化利用該權(quán)重集所確定的總誤差。例如參見上述的Schapire。作為另一示例,可以使用梯度推進(jìn)算法(GradientBoost)的實(shí)現(xiàn)方式來選擇最小化總誤差的相關(guān)性函數(shù)的參數(shù)。例如參見Friedman,J.H.“Greedy FunctionApproximationA Gradient Boosting Machine,”The Annals of Statistics29(5),2001年10月,其全部內(nèi)容在這里作為參考而被引入。當(dāng)基礎(chǔ)函數(shù)是分類與回歸(CART)樹時,梯度推進(jìn)是用于上述目的的特別有吸引力的技術(shù)。為了完整描述CART樹,包括描述選擇CART樹的參數(shù)來最小化誤差的方法,參見L.Breiman,J.H.Friedman,R.A.Olshen,和C.J.Stone,Classification and Regression Tress,Bermont,CA,Wadsworth,1984,其全部內(nèi)容在這里作為參考而被引入。用來確定相關(guān)性函數(shù)的系數(shù)以便最小化總誤差的其它方法也是可行的,包括試圖基于函數(shù)的輸入和輸出的樣本來最小化函數(shù)的泛化誤差的任意算法。
一旦已經(jīng)確定了相關(guān)性函數(shù),則在一些實(shí)施例中進(jìn)一步確定排名函數(shù)。首先,用戶向搜索引擎提交查詢。然后,從數(shù)據(jù)庫獲取文檔的集合,這些文檔將根據(jù)與查詢的相關(guān)性來排名。在一些實(shí)施例中,在該集合中僅包括包含該查詢中的一個或多個項(xiàng)目的文檔。在其它實(shí)施例中,可以使用其它標(biāo)準(zhǔn)來選擇該集合。接下來,對于每個文檔,為與查詢配對的文檔評價所選特征集的值。然后使用相關(guān)性函數(shù)來確定與查詢配對的文檔的相關(guān)性值。一旦為集合中的每個文檔都確定了相關(guān)性值,則產(chǎn)生文檔集合的有序列表。確定該有序列表使得列表中的文檔以相關(guān)性下降的順序被排序。因此,在有序列表中首先出現(xiàn)的文檔將具有該集合中的所有文檔的數(shù)值上最大的相關(guān)性值,而在有序列表中最后出現(xiàn)的文檔將具有集合中的所有文檔的最小相關(guān)性分?jǐn)?shù)。以這種方式對列表排序的方法在數(shù)據(jù)結(jié)構(gòu)領(lǐng)域是公知的。
本發(fā)明可以實(shí)現(xiàn)為計算機(jī)程序產(chǎn)品,該計算機(jī)程序產(chǎn)品包括嵌入到計算機(jī)可讀存儲介質(zhì)中的計算機(jī)程序機(jī)制。參考圖6,在一些實(shí)施例中,相關(guān)性函數(shù)確定系統(tǒng)(圖1中的108)包括·一個或多個中央處理單元604;·網(wǎng)絡(luò)接口606,用于與網(wǎng)絡(luò)上的其它計算機(jī)(例如,圖1所示的搜索引擎106)通信;·主與輔存儲設(shè)備610,包括計算機(jī)可讀介質(zhì),用于存儲(一個或多個)中央處理單元604所執(zhí)行的一個或多個模塊以及一個或多個數(shù)據(jù)結(jié)構(gòu);以及·內(nèi)部總線608,用于在(一個或多個)中央處理單元604、網(wǎng)絡(luò)接口606和主與輔存儲介質(zhì)610之間收發(fā)電子信號。
存儲設(shè)備610中的程序模塊可以被存儲在CD-ROM、磁盤存儲產(chǎn)品或任何其它計算機(jī)可讀數(shù)據(jù)或程序存儲產(chǎn)品上。計算機(jī)程序產(chǎn)品中的軟件模塊還可以經(jīng)由因特網(wǎng)或利用在載波上傳輸計算機(jī)數(shù)據(jù)信號(其中嵌入了軟件模塊)而被以電子形式分發(fā)。存儲設(shè)備610可以至少包括數(shù)據(jù)結(jié)構(gòu)612,用于存儲多個測試查詢;以及數(shù)據(jù)結(jié)構(gòu)614,用于存儲標(biāo)識或以其它方式代表結(jié)果文檔集的數(shù)據(jù),該數(shù)據(jù)結(jié)構(gòu)614中的數(shù)據(jù)一般將包括指向結(jié)果文檔集中的文檔的URL。
存儲設(shè)備610還可以包括·收集模塊616,用于從數(shù)據(jù)庫為多個測試查詢中的每個查詢收集相應(yīng)的結(jié)果文檔集;收集模塊616一般將調(diào)用相同或不同計算機(jī)系統(tǒng)中的搜索引擎模塊來產(chǎn)生結(jié)果文檔集;·采樣模塊618,用于為多個測試查詢中的每個測試查詢選擇相應(yīng)結(jié)果集中的文檔子集;·計分模塊620,用于將訓(xùn)練相關(guān)性分?jǐn)?shù)集分配給每個所選子集中的文檔;以及·相關(guān)性函數(shù)產(chǎn)生模塊622,用于基于所述多個測試程序、文檔子集和訓(xùn)練相關(guān)性分?jǐn)?shù)集來確定相關(guān)性函數(shù)。
這里引用的所有參考文件作為參考而被整體引入于此,并且引用這些參考文件的全部目的與每個個體公開物或?qū)@驅(qū)@暾埍痪唧w且分別指出作為參考而被整體引入的所有目的的范圍相同。
為了說明的目的,前面的說明使用了具體的術(shù)語以提供對本發(fā)明的完整理解。然而,本領(lǐng)域普通技術(shù)人員將很容易認(rèn)識到,這些具體的細(xì)節(jié)不是實(shí)現(xiàn)本發(fā)明所必需的。被選出并描述的實(shí)施例是為了最好地解釋本發(fā)明的原理及其實(shí)際應(yīng)用,進(jìn)而使本領(lǐng)域技術(shù)人員能夠最優(yōu)地使用本發(fā)明以及具有多種修改的多種實(shí)施例,所述多種修改是為適用于具體使用而設(shè)計的。因此,前面公開的內(nèi)容不是窮盡性的,也不是想要將本發(fā)明限制為所公開的具體形式。在前述教導(dǎo)的啟示下,可以作出許多修改和變化形式。
本發(fā)明的范圍由權(quán)利要求及其等同物來定義。
權(quán)利要求
1.一種確定文檔相關(guān)性函數(shù)的方法,所述文檔相關(guān)性函數(shù)用于估計數(shù)據(jù)庫中的文檔關(guān)于查詢的相關(guān)性分?jǐn)?shù),所述方法包括(a)對于多個測試查詢中的每個測試查詢,從所述數(shù)據(jù)庫中收集相應(yīng)的結(jié)果文檔集;(b)對于所述多個測試查詢中的每個測試查詢,選擇所述相應(yīng)結(jié)果集中的文檔子集;并且將訓(xùn)練相關(guān)性分?jǐn)?shù)集分配給所述子集中的文檔;以及(c)基于所述多個測試查詢、所述文檔子集以及所述訓(xùn)練相關(guān)性分?jǐn)?shù)集來確定相關(guān)性函數(shù)。
2.如權(quán)利要求1所述的方法,其中至少部分基于所確定的相關(guān)性函數(shù)來確定文檔排名函數(shù),所述文檔排名函數(shù)從所述數(shù)據(jù)庫接收文檔集;接收查詢;以及輸出所述文檔集的有序列表,所述列表被排序,使得所述文檔集中具有所述相關(guān)性函數(shù)確定的最高相關(guān)性分?jǐn)?shù)的文檔是所述列表中的第一文檔。
3.如權(quán)利要求1所述的方法,其中所述多個測試查詢是通過下述步驟選擇的從用戶提交到搜索引擎的查詢?nèi)罩局胁蓸映醪降牟樵兇粡乃龀醪郊腥コ淮_定為在用戶基礎(chǔ)的知識的范圍之外的查詢;以及將所述初步集中的剩余查詢分配給所述多個測試查詢。
4.如權(quán)利要求1所述的方法,其中所述多個測試查詢是通過下述步驟選擇的從單個詞條目的詞典中采樣詞;以及將如此采樣得到的每個詞分配給所述多個測試查詢。
5.如權(quán)利要求4所述的方法,其中選擇所述多個測試查詢還包括選擇從所述詞典采樣的兩個或更多詞的組合,并且將所述組合分配給所述多個測試查詢。
6.如權(quán)利要求1所述的方法,其中選擇子集包括對于每個測試查詢,從所述相應(yīng)結(jié)果集選擇文檔,確定將所選文檔與當(dāng)前查詢相關(guān)的代理相關(guān)性分?jǐn)?shù),并且基于所確定的代理相關(guān)性分?jǐn)?shù)將所選文檔分配給多個相關(guān)性等級中的至少一個相關(guān)性等級;以及重復(fù)所述文檔選擇步驟,直到每個相關(guān)性等級至少含有相應(yīng)預(yù)定義數(shù)量的文檔。
7.如權(quán)利要求6所述的方法,其中分配所選文檔包括將所選文檔分配給所述多個相關(guān)性等級中的下述每個等級,其中所述代理相關(guān)性分?jǐn)?shù)大于所述等級的相應(yīng)預(yù)定閾值。
8.如權(quán)利要求6所述的方法,其中分配所選文檔包括將所選文檔分配給所述多個相關(guān)性等級中的下述等級,其中所述代理相關(guān)性分?jǐn)?shù)落在與所述等級相關(guān)聯(lián)的相關(guān)性分?jǐn)?shù)的相應(yīng)預(yù)定范圍內(nèi)。
9.如權(quán)利要求8所述的方法,其中與所述多個等級相關(guān)聯(lián)的相關(guān)性分?jǐn)?shù)的相應(yīng)預(yù)定范圍是不重疊的。
10.如權(quán)利要求6所述的方法,其中確定代理相關(guān)性分?jǐn)?shù)包括將所述查詢提交給搜索引擎;以及將所述代理相關(guān)性分?jǐn)?shù)確定為所述文檔在搜索引擎所提供的結(jié)果頁列表中的位置的函數(shù)。
11.如權(quán)利要求6所述的方法,其中分配訓(xùn)練相關(guān)性分?jǐn)?shù)集包括將所述子集中的第一多個文檔中的每個文檔提交到多個人類主觀認(rèn)識,其中所述第一多個文檔具有預(yù)定義范圍內(nèi)的代理相關(guān)性分?jǐn)?shù),一個或多個人類主觀認(rèn)識確定每個所提交的文檔關(guān)于所述查詢的個體相關(guān)性分?jǐn)?shù);以及基于所述人類主觀認(rèn)識所確定的個體相關(guān)性分?jǐn)?shù),將訓(xùn)練相關(guān)性分?jǐn)?shù)分配給關(guān)于所述查詢的每個所提交的文檔。
12.如權(quán)利要求11所述的方法,其中所述個體相關(guān)性分?jǐn)?shù)是從預(yù)定范圍內(nèi)選擇的數(shù)字,并且所述分配包括計算所述個體相關(guān)性分?jǐn)?shù)的算術(shù)平均值。
13.如權(quán)利要求11所述的方法,還包括基于對所述文檔確定的代理相關(guān)性分?jǐn)?shù)而將訓(xùn)練相關(guān)性分?jǐn)?shù)分配給所述子集中的第二多個文檔中的每個文檔。
14.如權(quán)利要求6所述的方法,其中確定所選文檔的代理相關(guān)性分?jǐn)?shù)包括將所述查詢提交到多個搜索引擎,每個搜索引擎返回來自所述數(shù)據(jù)庫的相應(yīng)結(jié)果頁列表,每個相應(yīng)結(jié)果頁列表包括所選文檔;以及根據(jù)所選文檔在結(jié)果頁列表中的平均的數(shù)字表示的位置,確定所述代理相關(guān)性分?jǐn)?shù)。
15.如權(quán)利要求1所述的方法,其中分配訓(xùn)練相關(guān)性分?jǐn)?shù)集包括將所述子集中的第一多個文檔中的每個文檔提交到相應(yīng)多個人類主觀認(rèn)識,所述相應(yīng)多個人類主觀認(rèn)識中的每個人類主觀認(rèn)識確定所提交文檔關(guān)于所述查詢的個體相關(guān)性分?jǐn)?shù);以及基于所述人類主觀認(rèn)識所確定的個體相關(guān)性分?jǐn)?shù)而將訓(xùn)練相關(guān)性分?jǐn)?shù)分配給關(guān)于所述查詢的每個所提交的文檔。
16.如權(quán)利要求15所述的方法,其中所述個體相關(guān)性分?jǐn)?shù)是從預(yù)定范圍內(nèi)選擇的數(shù)字,并且所述分配包括計算所述個體相關(guān)性分?jǐn)?shù)的算術(shù)平均值。
17.如權(quán)利要求15所述的方法,還包括將預(yù)定義的低訓(xùn)練相關(guān)性分?jǐn)?shù)分配給所述子集中的第二多個文檔中的每個文檔。
18.如權(quán)利要求1所述的方法,其中確定相關(guān)性函數(shù)包括確定將在構(gòu)建所述相關(guān)性函數(shù)過程中用作預(yù)測變量的特征集;所述特征集中的每個特征包括相應(yīng)文檔、相應(yīng)查詢或兩者的一個或多個屬性的函數(shù);根據(jù)有限參數(shù)集和基礎(chǔ)函數(shù)對所述相關(guān)性函數(shù)參數(shù)化,其中每個基礎(chǔ)函數(shù)采用所述特征的子集作為它的輸入,并且輸出值;在所述文檔相關(guān)性函數(shù)被應(yīng)用于關(guān)于特定查詢的給定文檔時,定義部分誤差,所述部分誤差將所述給定文檔關(guān)于所述特定查詢的訓(xùn)練相關(guān)性分?jǐn)?shù)與所述文檔相關(guān)性函數(shù)產(chǎn)生的值相關(guān);對于多個給定文檔和多個特定查詢,重復(fù)定義部分誤差,以便產(chǎn)生部分誤差集;以及選擇參數(shù)以便最小化總誤差,其中所述總誤差是所述部分誤差集的函數(shù)。
19.如權(quán)利要求18所述的方法,其中所述特征集包括至少一個依賴于查詢的特征和至少一個獨(dú)立于查詢的特征。
20.如權(quán)利要求18所述的方法,其中所述特征集包括下述特征中的至少一個本征排名(ER),Hub,URL深度,質(zhì)量分?jǐn)?shù),垃圾索引,家庭友好度,文檔長度,錨定文本分?jǐn)?shù),匹配位置,匹配頻率,項(xiàng)目權(quán)重和鄰近度。
21.如權(quán)利要求18所述的方法,其中所述特征集包括下述特征中的至少四個本征排名(ER),Hub,URL深度,質(zhì)量分?jǐn)?shù),垃圾索引,家庭友好度,文檔長度,錨定文本分?jǐn)?shù),匹配位置,匹配頻率,項(xiàng)目權(quán)重和鄰近度。
22.如權(quán)利要求18所述的方法,其中定義部分誤差還包括定義類別集;至少部分基于給定文檔的訓(xùn)練相關(guān)性分?jǐn)?shù)而將給定文檔分配到所述類別中的一個或多個。
23.如權(quán)利要求22所述的方法,其中所述部分誤差是至少部分由一個比率確定的,所述比率是所述相關(guān)性函數(shù)和一個差的比率,所述差是1和所述相關(guān)性函數(shù)之間的差。
24.如權(quán)利要求18所述的方法,其中所述部分誤差被定義成文檔的訓(xùn)練相關(guān)性分?jǐn)?shù)和所述文檔相關(guān)性函數(shù)所產(chǎn)生的值之間的差的平方的函數(shù)。
25.如權(quán)利要求18所述的方法,其中所述部分誤差被定義成文檔的訓(xùn)練相關(guān)性分?jǐn)?shù)和所述文檔相關(guān)性函數(shù)所產(chǎn)生的值之間的差的絕對值的函數(shù)。
26.如權(quán)利要求18所述的方法,其中所述基礎(chǔ)函數(shù)中的至少一個是節(jié)點(diǎn)分類樹,并且所述有限參數(shù)集包括關(guān)聯(lián)的分裂變量、分裂地點(diǎn)和終端節(jié)點(diǎn)值。
27.如權(quán)利要求18所述的方法,其中選擇所述參數(shù)以便最小化總誤差是利用推進(jìn)過程實(shí)現(xiàn)的。
28.如權(quán)利要求18所述的方法,其中選擇所述參數(shù)以便最小化總誤差是利用梯度推進(jìn)過程實(shí)現(xiàn)的,并且其中所述基礎(chǔ)函數(shù)至少包括分類與回歸樹(CART)。
29.一種結(jié)合計算機(jī)系統(tǒng)使用的計算機(jī)程序產(chǎn)品,所述計算機(jī)程序產(chǎn)品包括計算機(jī)可讀存儲介質(zhì)和其中的計算機(jī)程序機(jī)制,所述計算機(jī)程序機(jī)制包括(a)收集模塊,用于為多個測試查詢中的每個從數(shù)據(jù)庫收集相應(yīng)的結(jié)果文檔集;(b)采樣模塊,用于對于所述多個測試查詢中的每個測試查詢,選擇所述相應(yīng)結(jié)果集中的文檔子集;(c)計分模塊,用于將訓(xùn)練相關(guān)性分?jǐn)?shù)集分配到每個所選子集中的文檔;(d)相關(guān)性函數(shù)產(chǎn)生模塊,用于基于所述多個測試查詢、所述文檔子集以及所述訓(xùn)練相關(guān)性分?jǐn)?shù)集來確定相關(guān)性函數(shù)。
30.如權(quán)利要求29所述的計算機(jī)程序產(chǎn)品,其中所述相關(guān)性函數(shù)產(chǎn)生模塊還包括用于至少部分基于所確定的相關(guān)性函數(shù)來確定文檔排名函數(shù)的指令,所述文檔排名函數(shù)從所述數(shù)據(jù)庫接收文檔集;接收查詢;以及輸出所述文檔集的有序列表,所述列表被排序,使得所述文檔集中具有所述相關(guān)性函數(shù)確定的最高相關(guān)性分?jǐn)?shù)的文檔是所述列表中的第一文檔。
31.如權(quán)利要求29所述的計算機(jī)程序產(chǎn)品,其中所述收集模塊包括用于通過下述步驟來產(chǎn)生所述多個測試查詢的指令從用戶提交到搜索引擎的查詢?nèi)罩局胁蓸映醪降牟樵兇粡乃龀醪郊腥コ淮_定為在用戶基礎(chǔ)的知識的范圍之外的查詢;以及將所述初步集中的剩余查詢分配給所述多個測試查詢。
32.如權(quán)利要求29所述的計算機(jī)程序產(chǎn)品,其中所述收集模塊包括用于通過下述步驟來產(chǎn)生所述多個測試查詢的指令從單個詞條目的詞典中采樣詞;以及將如此采樣得到的每個詞分配給所述多個測試查詢。
33.如權(quán)利要求32所述的計算機(jī)程序產(chǎn)品,其中所述收集模塊還包括用于實(shí)現(xiàn)下述操作的指令選擇從所述詞典采樣的兩個或更多詞的組合,并且將所述組合分配給所述多個測試查詢。
34.如權(quán)利要求29所述的計算機(jī)程序產(chǎn)品,其中所述采樣模塊包括用于實(shí)現(xiàn)下述操作的指令對于每個測試查詢,從所述相應(yīng)結(jié)果集選擇文檔,確定將所選文檔與當(dāng)前查詢相關(guān)的代理相關(guān)性分?jǐn)?shù),并且基于所確定的代理相關(guān)性分?jǐn)?shù)將所選文檔分配給多個相關(guān)性等級中的至少一個相關(guān)性等級;以及重復(fù)所述文檔選擇步驟,直到每個相關(guān)性等級至少含有相應(yīng)預(yù)定義數(shù)量的文檔。
35.如權(quán)利要求34所述的計算機(jī)程序產(chǎn)品,其中所述采樣模塊還包括用于實(shí)現(xiàn)下述操作的指令將所選文檔分配給所述多個相關(guān)性等級中的下述每個等級,其中所述代理相關(guān)性分?jǐn)?shù)大于所述等級的相應(yīng)預(yù)定閾值。
36.如權(quán)利要求35所述的計算機(jī)程序產(chǎn)品,其中所述采樣模塊還包括用于實(shí)現(xiàn)下述操作的指令將所選文檔分配給所述多個相關(guān)性等級中的下述等級,其中所述代理相關(guān)性分?jǐn)?shù)落在與所述等級相關(guān)聯(lián)的相關(guān)性分?jǐn)?shù)的相應(yīng)預(yù)定范圍內(nèi)。
37.如權(quán)利要求36所述的計算機(jī)程序產(chǎn)品,其中與所述多個等級相關(guān)聯(lián)的相關(guān)性分?jǐn)?shù)的相應(yīng)預(yù)定范圍是不重疊的。
38.如權(quán)利要求35所述的計算機(jī)程序產(chǎn)品,其中所述采樣模塊還包括用于實(shí)現(xiàn)下述操作的指令對于每個測試查詢,將所述查詢提交給搜索引擎;以及將所述子集中的文檔的代理相關(guān)性分?jǐn)?shù)確定為所述文檔在搜索引擎所提供的結(jié)果頁列表中的位置的函數(shù)。
39.如權(quán)利要求35所述的計算機(jī)程序產(chǎn)品,其中所述計分模塊包括用于實(shí)現(xiàn)下述操作的指令將所述子集中的第一多個文檔中的每個文檔提交到多個人類主觀認(rèn)識,其中所述第一多個文檔具有預(yù)定義范圍內(nèi)的代理相關(guān)性分?jǐn)?shù),每個人類主觀認(rèn)識確定所提交的文檔關(guān)于所述查詢的個體相關(guān)性分?jǐn)?shù);以及基于所述人類主觀認(rèn)識所確定的個體相關(guān)性分?jǐn)?shù),將訓(xùn)練相關(guān)性分?jǐn)?shù)分配給關(guān)于所述查詢的每個所提交的文檔。
40.如權(quán)利要求39所述的計算機(jī)程序產(chǎn)品,其中所述個體相關(guān)性分?jǐn)?shù)是從預(yù)定范圍內(nèi)選擇的數(shù)字,并且所述分配包括計算所述個體相關(guān)性分?jǐn)?shù)的算術(shù)平均值。
41.如權(quán)利要求39所述的計算機(jī)程序產(chǎn)品,其中所述計分模塊還包括用于實(shí)現(xiàn)下述操作的指令基于對所述文檔確定的代理相關(guān)性分?jǐn)?shù)而將訓(xùn)練相關(guān)性分?jǐn)?shù)分配給所述子集中的第二多個文檔中的每個文檔。
42.如權(quán)利要求35所述的計算機(jī)程序產(chǎn)品,其中所述采樣模塊還包括用于通過下述步驟來確定將所選文檔與當(dāng)前查詢相關(guān)的代理相關(guān)性分?jǐn)?shù)的指令將所述查詢提交到多個搜索引擎,每個搜索引擎返回來自所述數(shù)據(jù)庫的相應(yīng)結(jié)果頁列表,每個相應(yīng)結(jié)果頁列表包括所選文檔;以及根據(jù)所選文檔在結(jié)果頁列表中的平均的數(shù)字表示的位置,確定所述代理相關(guān)性分?jǐn)?shù)。
43.如權(quán)利要求29所述的計算機(jī)程序產(chǎn)品,其中所述計分模塊包括實(shí)現(xiàn)下述操作的指令將每個所選子集中的第一多個文檔中的每個文檔提交到多個人類主觀認(rèn)識,每個人類主觀認(rèn)識確定所提交文檔關(guān)于所述查詢的個體相關(guān)性分?jǐn)?shù);以及基于所述人類主觀認(rèn)識所確定的個體相關(guān)性分?jǐn)?shù)而將訓(xùn)練相關(guān)性分?jǐn)?shù)分配給關(guān)于所述查詢的每個所提交的文檔。
44.如權(quán)利要求43所述的計算機(jī)程序產(chǎn)品,其中所述個體相關(guān)性分?jǐn)?shù)是從預(yù)定范圍內(nèi)選擇的數(shù)字,并且所述分配包括計算所述個體相關(guān)性分?jǐn)?shù)的算術(shù)平均值。
45.如權(quán)利要求44所述的計算機(jī)程序產(chǎn)品,其中所述計分模塊還包括用于實(shí)現(xiàn)下述操作的指令將預(yù)定義的低訓(xùn)練相關(guān)性分?jǐn)?shù)分配給每個所選子集中的第二多個文檔中的每個文檔。
46.如權(quán)利要求29所述的計算機(jī)程序產(chǎn)品,其中確定模塊包括用于實(shí)現(xiàn)下述操作的指令根據(jù)有限參數(shù)集和基礎(chǔ)函數(shù)對所述相關(guān)性函數(shù)參數(shù)化,其中每個基礎(chǔ)函數(shù)為相應(yīng)輸入的特征集輸出值,每個特征包括相應(yīng)文檔、相應(yīng)查詢或兩者的一個或多個屬性的函數(shù);在所述文檔相關(guān)性函數(shù)被應(yīng)用于關(guān)于特定查詢的給定文檔時,定義部分誤差,所述部分誤差將所述給定文檔關(guān)于所述特定查詢的訓(xùn)練相關(guān)性分?jǐn)?shù)與所述文檔相關(guān)性函數(shù)產(chǎn)生的值相關(guān);對于多個給定文檔和多個特定查詢,重復(fù)定義部分誤差,以便產(chǎn)生部分誤差集;以及選擇參數(shù)以便最小化總誤差,其中所述總誤差是所述部分誤差集的函數(shù)。
47.如權(quán)利要求46所述的計算機(jī)程序產(chǎn)品,其中所述特征集包括至少一個依賴于查詢的特征和至少一個獨(dú)立于查詢的特征。
48.如權(quán)利要求46所述的計算機(jī)程序產(chǎn)品,其中所述特征集包括下述特征中的至少一個本征排名(ER),Hub,URL深度,質(zhì)量分?jǐn)?shù),垃圾索引,家庭友好度,文檔長度,錨定文本分?jǐn)?shù),匹配位置,匹配頻率,項(xiàng)目權(quán)重和鄰近度。
49.如權(quán)利要求46所述的計算機(jī)程序產(chǎn)品,其中所述特征集包括下述特征中的至少四個本征排名(ER),Hub,URL深度,質(zhì)量分?jǐn)?shù),垃圾索引,家庭友好度,文檔長度,錨定文本分?jǐn)?shù),匹配位置,匹配頻率,項(xiàng)目權(quán)重和鄰近度。
50.如權(quán)利要求46所述的計算機(jī)程序產(chǎn)品,其中確定模塊還包括用于實(shí)現(xiàn)下述操作的指令定義類別集;至少部分基于給定文檔的訓(xùn)練相關(guān)性分?jǐn)?shù)而將給定文檔分配到所述類別中的一個或多個。
51.如權(quán)利要求50所述的計算機(jī)程序產(chǎn)品,其中確定模塊還包括用于實(shí)現(xiàn)下述操作的指令定義所述部分誤差,所述部分誤差是至少部分由一個比率定義的,所述比率是所述相關(guān)性函數(shù)和一個差的比率,所述差是1和所述相關(guān)性函數(shù)之間的差。
52.如權(quán)利要求46所述的計算機(jī)程序產(chǎn)品,其中確定模塊還包括用于實(shí)現(xiàn)下述操作的指令將所述部分誤差定義成文檔的訓(xùn)練相關(guān)性分?jǐn)?shù)和所述文檔相關(guān)性函數(shù)所產(chǎn)生的值之間的差的平方的函數(shù)。
53.如權(quán)利要求46所述的計算機(jī)程序產(chǎn)品,其中確定模塊還包括用于實(shí)現(xiàn)下述操作的指令將所述部分誤差定義成文檔的訓(xùn)練相關(guān)性分?jǐn)?shù)和所述文檔相關(guān)性函數(shù)所產(chǎn)生的值之間的差的絕對值的函數(shù)。
54.如權(quán)利要求46所述的計算機(jī)程序產(chǎn)品,其中所述基礎(chǔ)函數(shù)中的至少一個是節(jié)點(diǎn)分類樹,并且所述有限參數(shù)集包括關(guān)聯(lián)的分裂變量、分裂地點(diǎn)和終端節(jié)點(diǎn)值。
55.如權(quán)利要求46所述的計算機(jī)程序產(chǎn)品,其中確定模塊還包括用于實(shí)現(xiàn)下述操作的指令選擇所述參數(shù)以便最小化總誤差是利用推進(jìn)過程實(shí)現(xiàn)的。
56.如權(quán)利要求46所述的計算機(jī)程序產(chǎn)品,其中確定模塊包括用于實(shí)現(xiàn)下述操作的指令根據(jù)至少一個分類與回歸樹(CART)來對所述相關(guān)性函數(shù)參數(shù)化;以及選擇所述參數(shù)以便最小化總誤差是利用梯度推進(jìn)過程實(shí)現(xiàn)的。
全文摘要
本發(fā)明提供了一種確定文檔相關(guān)性函數(shù)的方法與計算機(jī)程序產(chǎn)品,該文檔相關(guān)性函數(shù)用于估計數(shù)據(jù)庫中的文檔關(guān)于查詢的相關(guān)性分?jǐn)?shù)。對于多個測試查詢中的每個測試查詢,收集相應(yīng)的結(jié)果文檔集。對于每個測試查詢,選擇所述相應(yīng)結(jié)果集中的文檔子集,并且訓(xùn)練相關(guān)性分?jǐn)?shù)集被分配給該子集中的文檔。在一個實(shí)施例中,至少一些訓(xùn)練相關(guān)性分?jǐn)?shù)是由人類主觀認(rèn)識分配的,所述人類主觀認(rèn)識確定所提交的文檔關(guān)于對應(yīng)查詢的個體相關(guān)性分?jǐn)?shù)。最后,基于所述多個測試查詢、所述文檔子集以及所述訓(xùn)練相關(guān)性分?jǐn)?shù)集,確定相關(guān)性函數(shù)。
文檔編號G06F7/00GK1826597SQ200480017468
公開日2006年8月30日 申請日期2004年4月23日 優(yōu)先權(quán)日2003年4月25日
發(fā)明者大衛(wèi)·科索克 申請人:奧弗圖爾服務(wù)公司