亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

將異源的搜索引擎結果混合為一個搜索結果的方法與系統(tǒng)的制作方法

文檔序號:6487281閱讀:113來源:國知局
專利名稱:將異源的搜索引擎結果混合為一個搜索結果的方法與系統(tǒng)的制作方法
技術領域
本發(fā)明涉及在文檔集合中定位文檔的搜索引擎領域,所述文檔例如是在耦合到因特網或內聯(lián)網的服務器上存儲的文檔,具體而言,本發(fā)明涉及用于混合來自多個搜索引擎源的相應多個搜索引擎結果以產生混合搜索引擎結果的方法與系統(tǒng)。
背景技術
因特網是個大的計算機網絡,它包括大量客戶設備和服務器設備。在眾多功能中,服務器設備有時響應于客戶通過網絡發(fā)出的請求而通過網絡向客戶設備提供文檔。請求一般包括文檔的地址。在因特網上,通常使用統(tǒng)一資源定位符(URL)來指定文檔的地址,URL同時標識服務器以及客戶請求的該服務器上的特定文檔。該文檔可以是能夠通過網絡傳輸的任意多類型信息中的一種信息,包括文本文件、文字處理文件、音頻片斷、視頻片斷、以及任何其它類型的電子數據。通過被通稱為萬維網(“Web”)的方式,文檔集合對在因特網上的客戶計算機可用。
連接到因特網的計算機可以是客戶設備、服務器設備或者兼為兩者。因特網上一種特殊類型的服務器設備被稱為搜索引擎系統(tǒng)。搜索引擎系統(tǒng)還存在于因特網之外的網絡上,例如在企業(yè)內聯(lián)網上。想要從萬維網獲取信息的客戶設備的用戶,在不確定任何或所有相關文檔的URL的情況下,一般向搜索引擎提交請求(被稱作查詢)。查詢包括用于描述客戶設備的用戶感興趣的信息的類型的一個或多個項目。搜索引擎一般維護萬維網上的文檔數據庫。每個數據庫可以包括關鍵字項目和包含該關鍵字項目的文檔的對應URL,其中關鍵字項目可以是單詞或任意類型的電子可存儲數據。一般而言,作為關鍵字項目的替代或除了關鍵字項目之外,數據庫可以存儲文檔的特征。一些特征是直接代表文檔屬性的值,特征的一個示例是文檔的長度。其它特征使得能夠在文檔和查詢之間進行某些類型的比較,查詢中的給定項目在文檔中出現的頻率可以作為這種比較的一個示例。
響應于客戶設備的用戶所提交的查詢,搜索引擎一般基于其數據庫來確定索引中與查詢相關的文檔子集。此外,搜索引擎系統(tǒng)一般包括排名函數,該排名函數估計子集中的每個文檔與所述查詢的相關性,為子集中的每個文檔產生相對于所述查詢的“相關性分數”。最后,排名函數創(chuàng)建搜索引擎結果,該搜索引擎結果包括有序的條目列表。每個條目對應于文檔子集中的一個文檔。條目包括對應文檔的URL(從而用戶可以從萬維網請求文檔)以及該條目在列表中的位置。列表被排序,使得位置靠近列表起點的文檔(即,具有數值上較低位置的文檔)具有較高的相關性分數(即,在從列表的起點向其終點移動時,相關性分數單調下降)。
準確代表萬維網上的文檔內容的文檔數據庫的創(chuàng)建是一個困難的問題。首先,在萬維網上有大量的文檔;文檔數量的估計值目前以十億計。這為創(chuàng)建能夠同時存儲與所有文檔有關的信息并在需要時快速獲取信息的單個數據庫制造了困難。其次,萬維網上文檔的內容十分不同。文檔是由具有不同技巧的作者(從專業(yè)記者到兒童)制作的,是以多種語言寫成的(有時采用不同的字母表及其電子編碼方案),并且被用于多種目的(從娛樂用途到電子商務)。這使得確定數據庫中包括文檔的哪些關鍵字項目和特征成為一個困難的問題。最后,萬維網上文檔的內容以及文檔自身的位置頻繁地改變。已經采取了多種“爬行搜索(crawling)”策略來緩解這一困難,每種策略都具有其各自的優(yōu)點和缺點。因此,在搜索引擎系統(tǒng)中使用多于一個數據庫以應對大量的、多種的、以及隨時間變化的文檔的集合(例如萬維網上的文檔的集合)會是有利的。
即使開發(fā)了能夠準確有效表征萬維網上可用的文檔的單個數據庫,確定數據庫中的特定文檔相對于查詢的相關性分數也將是個困難的問題。文檔的相關性分數被用于確定對應條目在搜索引擎結果中的位置。用戶一般僅檢查搜索引擎結果中的最初三個或四個條目,因此在用戶對搜索引擎結果的滿意度方面,(至少對于高度相關文件的)準確的相關性分數確定是一個重要的因素。用戶對特定文檔與查詢的相關性的感知很難利用用于確定相關性分數的單個算法來準確復制。因此,搜索引擎系統(tǒng)中需要不只一種可以用來確定相關性分數的方法。例如,一種方法可能非常適于確定以單種語言(例如,英語)所寫的文檔的相關性分數,而第二種方法最適于確定第二種語言(例如,漢語)的文檔的相關性分數。然而,當數據庫中的文檔含有兩種語言的內容時,將難以決定使用哪種排名函數。作為另一示例,搜索引擎系統(tǒng)可能包括不只一個數據庫,并且具有用于每個數據庫的獨立排名函數。這樣,各個排名函數可以被優(yōu)化用于確定來自它們相應數據庫的文檔的相關性分數。越來越多地使用統(tǒng)計與機器學習技術來執(zhí)行這類優(yōu)化。因此,需要一種方法與系統(tǒng)來混合來自不只一個排名函數的搜索引擎結果。
基于上述背景,希望設計一種用于組合來自一個或多個搜索源的搜索引擎結果的方法與系統(tǒng),每個搜索源可能使用不同的數據庫或排名函數或兼用兩者。具體而言,希望設計一種方法,該方法能夠以下述方式來確定混合搜索引擎結果即,與用戶對來自任何個別搜索源的最高三個文檔的相關性的感知相比,用戶對混合搜索引擎中的最高三個文檔的相關性的感知是較好的,或者至少不差。

發(fā)明內容
一些實施例提供了一種用于將來自多個搜索源的相應多個搜索引擎結果混合成一個搜索引擎結果的方法。首先,從每個搜索源接收相應的條目結果列表。條目結果列表對于列表上的每個條目來說包括條目位置、文檔地址以及文檔的相關性分數。然后,確定的變換被應用于至少一個所接收結果列表中的至少一個文檔子集的相關性分數,進而產生經變換的分數。最后,相應結果列表的多個部分被組合在一起以產生混合搜索引擎結果。該混合搜索引擎結果包括混合的條目列表。作為組合相應結果列表的一部分,混合條目列表中的條目是至少部分基于經變換的分數而排序的。
一些實施例還提供了一種確定用于多個搜索源的第一搜索源的變換的方法。首先,為至少第一搜索源和第二搜索源測量并存儲點擊率統(tǒng)計信息。然后,為第一和第二搜索源中的每個確定品質因數(figure ofmerit)。品質因數是至少部分由所測量并存儲的統(tǒng)計信息確定的。最后,基于第一和第二搜索源的品質因數確定系數集。這些系數定義用于第一搜索源的相關性分數變換。
一些實施例提供了一種搜索引擎系統(tǒng)。該搜索引擎系統(tǒng)包括多個搜索源。此外,該搜索引擎系統(tǒng)具有至少一個用于接收查詢并發(fā)送搜索結果的接口。該搜索引擎系統(tǒng)還包括至少一個耦合到所述多個搜索源的搜索引擎。所述至少一個搜索引擎被配置從每個搜索源接收與所接收的查詢相對應的相應條目結果列表。每個相應的結果列表對于列表中的每個條目來說至少包括條目的位置、文檔的地址、以及該文檔與所接收查詢相關的相關性分數。該搜索引擎系統(tǒng)還包括混合模塊,混合模塊被配置將確定的變換應用于至少一個所接收結果列表中的至少一個條目子集的相關性分數,進而產生經變換的分數。該混合模塊還被配置組合所述相應結果列表的至少多個部分,以產生包括混合條目列表的混合搜索引擎結果,其中包括對混合條目列表排序。對混合條目列表的排序是至少部分由經變換的分數來確定的。
在一些實施例中,該搜索引擎系統(tǒng)還包括變換確定模塊。變換確定模塊被配置確定用于所述多個搜索源的第一搜索源的變換。首先,變換確定模塊為第一搜索源和第二搜索源中的每個測量并存儲點擊率。然后,變換確定模塊為第一和第二搜索源中的每個確定品質因數。對品質因數的確定是至少部分基于所測量并存儲的統(tǒng)計信息的。最后,變換確定模塊基于第一和第二搜索源的品質因數為第一搜索源確定系數集。如此確定的該系數集定義了用于第一搜索源的變換。
在一些實施例中,搜索引擎系統(tǒng)還被配置為第一搜索源和第二搜索源測量并存儲點擊率統(tǒng)計信息。搜索引擎還被配置從用戶接收查詢,將混合結果返回給用戶,所述混合結果包括條目列表。變換確定模塊還被配置記錄條目列表中的哪個項目(如果有的話)被用戶選擇。搜索引擎系統(tǒng)還被配置重復所述接收、返回和記錄,直到達到終止條件。


當結合附圖對本發(fā)明的優(yōu)選實施例進行詳細說明時,本發(fā)明的前述特征和優(yōu)點及其附加特征和優(yōu)點將在下文被更清楚地理解。
圖1A圖示了使用所公開的方法和系統(tǒng)的可能場景,包括網絡、一個或多個客戶計算機、萬維網、以及搜索引擎系統(tǒng)。
圖1B圖示了搜索引擎結果,搜索引擎結果包括條目列表以及與每個條目相關聯(lián)的對應文檔的位置、地址、對應文檔的說明以及相關性分數。
圖2A圖示了來自第一搜索源的第一條目列表、來自第二搜索源的第二條目列表、通過將變換應用于第一條目列表的相關性分數而獲得的經變換的分數、以及混合搜索引擎結果。
圖2B是搜索引擎系統(tǒng)的框圖,包括混合模塊、變換確定模塊、多個搜索源、搜索引擎和接口。
圖3圖示了確定變換的方法。
圖4圖示了對混合搜索引擎結果中的條目列表中的哪個項目已被用戶選擇進行的匿名記錄。
圖5圖示了能夠實現所公開的搜索引擎系統(tǒng)和方法的計算機系統(tǒng)。
在附圖的若干示圖中,相似的標號指示對應的部分。
具體實施例方式
參考圖1A,在連網環(huán)境100中,網絡105連接一個或多個客戶計算機104、搜索引擎系統(tǒng)106以及文檔103的集合(在這種情況下是萬維網102)。客戶計算機104-1通過網絡105提交查詢112,并且查詢112被搜索引擎系統(tǒng)106接收。搜索引擎系統(tǒng)106通過經由網絡105向客戶計算機140-1提供混合搜索引擎結果114來作出響應。
已經描述了使用搜索引擎系統(tǒng)106的可能場景,將進一步描述混合搜索引擎結果114。參考圖1B,混合搜索引擎結果114包括條目130的列表。每個條目130與網絡上的對應文檔相關聯(lián)。一般而言,響應于查詢112(圖1A),搜索引擎系統(tǒng)將提供與和查詢112高度相關的文檔相關聯(lián)的條目130(作為混合結果114的一部分)。為了幫助用戶定位和獲取文檔,每個條目130有時包括文檔的URL 122。由于例如URL作為超文本標記語言(HTML)錨定標簽被提供給用戶,因而URL 122可能對客戶計算機104的用戶不可見。作為URL 122的替代或者除URL 122之外,在其它實施例中條目130可以包括與條目相關聯(lián)的文檔的其它形式的地址信息。為了幫助用戶評價相關聯(lián)文檔的相關性,每個條目130可以包含該文檔的簡要說明128。例如,條目130可以包含在與該條目相關聯(lián)的文檔中找到的最初幾行文檔。
混合搜索引擎結果114中的條目列表中的每個條目130(及其關聯(lián)文檔)具有列表中的位置120和混合相關性分數124兩者。位置120可以明確地包括在搜索引擎結果中,也可以沒有被明確包括在搜索引擎結果中。如果位置沒有被明確包括,則可以基于條目相對于列表上其它條目的位置來確定位置。搜索引擎系統(tǒng)使用混合相關性分數124來確定條目130的位置120。文檔的混合相關性分數124一般采取范圍在0至1之間或等同地范圍在0%至100%之間的數字值。盡管圖1B中僅描述了10個條目,但是在混合搜索引擎結果114中可以顯示更多或更少的條目。
搜索引擎結果114的視覺描述被呈現給客戶計算機104-1(圖1A)的用戶,并且該用戶可以通過將光標126置于條目130上(即,置于客戶計算機顯示器的相關區(qū)域上)并點擊它來點擊與文檔相關聯(lián)的條目130,進而選擇用于瀏覽的文檔。作為混合搜索引擎結果的一部分的條目被呈現給的用戶已經具有對該條目的“印象”。當用戶點擊該條目時,發(fā)生該條目的“點擊進入”。
已經描述了混合搜索引擎結果,現在描述將來自多個搜索源的相應多個搜索引擎結果混合為單個混合搜索引擎結果114的過程。參考圖2A,在優(yōu)選實施例中,接收到兩個搜索引擎結果集260(這里也被稱為結果列表或簡稱為“結果”),它們分別來自兩個搜索源。從第一搜索源接收的搜索引擎結果集260-1包括條目262的列表。每個條目262進一步包括位置264、文檔在第一搜索源的數據庫中的地址266、以及相關性分數268。類似地,來自第二搜索源的搜索引擎結果集260-2也包括條目270的列表。每個條目270包括相關性分數274。
將搜索引擎結果集260混合為單個混合搜索引擎結果114的一個目標是,從結果集260的多個條目中產生包含最高度相關條目(如用戶所判斷的那樣)的結果114中的條目列表。此外,希望結果114中的條目列表被排序,使得隨著列表上的位置增加,用戶感知的與該條目對應的文檔的相關性降低,或者至少不增加(即,當沿著列表向下前進時,相關性單調下降)。原則上,第一結果集260-1的相關性分數268和第二結果集260-2的相關性分數274可以被直接用來對來自兩個結果集260的條目進行排名。例如,可以選擇兩個結果集中具有最高相關性分數的條目,將其加入混合結果,并且將其從其初始結果集中去除。該過程可以一直重復到混合結果包含了預定數量的條目。然而,在產生按照用戶感知的相關性排序的條目列表方面,這可能不是很有效。例如,相關性分數268和相關性分數270可能不具有可比擬的比例,一個可能采取范圍在0至1之間的值,而另一個可能采取范圍在4-100之間的值。而且,分數可能是由在確定相關性過程中采用不同標準的排名函數來確定的,因而不是直接可比的。
為了解決這個問題,搜索引擎系統(tǒng)的實施例將確定的變換280(變換的確定在下文結合圖3進行描述)應用于第一結果集260-1中的條目262的相關性分數268。例如,變換280取得條目262-1的相關性分數(具有值0.85),并且產生經變換的分數272-1,經變換的分數272-1具有值0.99。類似地,變換280被應用于其它相關性分數268,產生經變換的分數272的集合。
接下來,基于第一結果集260-1的經變換分數272和第二結果集260-2的相關性分數274來組合來自結果集260-1和結果集260-2的條目。一些實施例首先從第一結果的經變換分數和第二結果的相關性分數中選擇具有最大分數的條目。例如,在圖2A中,為混合結果114中的第一位置選擇條目262-1,因為條目262-1的對應的經變換分數272-2(值為0.99)高于所有相關性分數274以及所有其它的經變換分數272。條目262-1被置于混合結果114的第一位置處。選擇依次具有較低分數的條目并將這些條目置于結果集114中,直到結果集114包含了預定數量的條目(在本例中是10個)?;蛘撸谝缓偷诙?60中的所有條目被選擇并且根據結果集260-1的經變換分數272和結果集260-2的相關性分數274被置于結果集114中。例如,條目270-1被置于結果114的第二位置處,因為對應的相關性分數274-1(值為0.97)高于所有其它相關性分數274以及除經變換分數272-1之外的所有經變換分數272。類似地,條目262-2被置于結果114的第三位置處。
盡管已經結合圖2B描述了對來自兩個搜索源的搜索引擎結果的混合,但是在其它實施例中可以從相對較大數量的搜索源接收更多搜索引擎結果。例如,在一個實施例,可從五個搜索源接收五個搜索引擎結果。在一些實施例中,變換被應用于所有結果集而非一個結果集的相關性分數,之后結果集根據它們的經變換的相關性分數而被合并。相應地,每個結果260可以包含少于或多于10個條目。類似地,在其它實施例中,混合搜索結果114包含多于或少于10個條目?;旌辖Y果114中的條目數量不需要與任何結果260中的條目數量相同。類似地,結果260可以具有各自不同數量的條目。
已經描述了產生混合搜索引擎結果114的過程,現在描述能夠產生混合搜索引擎結果的搜索引擎系統(tǒng)。參考圖2B,示出了根據一個實施例的搜索引擎系統(tǒng)106。搜索引擎系統(tǒng)106包括兩個或更多搜索源208。每個搜索源208具有關聯(lián)的排名功能塊204和數據庫206。系統(tǒng)106還包括用于接收查詢以及發(fā)送混合搜索引擎結果114的接口214。系統(tǒng)106還包括耦合到所述兩個或更多搜索源208的搜索引擎220。當搜索引擎220經由接口214接收查詢時,搜索引擎220將對應的查詢210發(fā)送到搜索源208中的一個或多個。在一些實施例中,查詢210可以與引擎220接收到的查詢相同。在其它實施例中,引擎220可能僅將接收到的查詢發(fā)送到具有與該查詢相關的合適數據庫206的源208。例如,在一些實施例中,如果搜索引擎系統(tǒng)106接收含有特定語言(例如,漢語)項目的查詢,則引擎220僅將該查詢發(fā)送到具有以該語言對文檔作索引的數據庫(例如,206-2)的源(例如,208-2)。類似地,如果系統(tǒng)106接收到含有第二語言項目的查詢,則引擎220僅將查詢傳送到具有以第二語言對文檔作索引的數據庫206的源208。在其它實施例中,引擎220可以發(fā)送查詢210到源208,查詢210不同于系統(tǒng)106接收到的查詢。例如,原始查詢可以被搜索引擎220重構,以便適當呈現為特定源208的查詢210。
搜索引擎220耦合到搜索源208,從而它可以從每個源208接收相應的結果列表260。結果列表260包括條目列表,每個條目具有列表上的關聯(lián)位置、對應文檔在列表的搜索源208的數據庫中的地址、以及對應文檔與查詢210相關的相關性分數。結合上文圖2A的討論圖示了一般結果列表260。
搜索引擎系統(tǒng)106還包括混合模塊202。混合模塊202被配置將確定的變換應用于至少一個接收到的結果列表260中的至少一個條目子集的相關性分數,從而產生經變換的分數?;旌夏K202還被配置組合相應結果列表260的至少多個部分,以產生包括混合條目列表的混合搜索引擎結果,同時包括至少部分基于經變換的分數來對混合條目列表進行排序。然后,經由接口214提供混合條目列表以作為部分或全部混合搜索引擎結果。上文結合圖2A的討論詳細討論了應用確定的變換、組合結果列表260的多個部分、以及形成混合搜索引擎結果的過程。
搜索引擎系統(tǒng)106可選地包括變換確定模塊216。變換確定模塊216被配置確定用于一個或多個搜索源208的一個或多個變換。下文結合圖3的討論來討論對用于搜索源的變換的確定。變換一旦被確定,就被提供給混合模塊202。在一些實施例中,混合模塊202和變換確定模塊216都被包括在搜索引擎220中。在其它實施例中,混合模塊202和/或可選的變換確定模塊216可以是搜索引擎系統(tǒng)106中包括的其它系統(tǒng)的一部分。在一些實施例中,搜索源208和搜索引擎220在不同的計算機上實現。在這些實施例中,例如通過網絡105(圖1A)來執(zhí)行對查詢210和相應結果列表260的傳送。
已經描述了搜索引擎系統(tǒng),現在描述確定變換的方法(在一些實施例中,該方法由圖2A的變換確定模塊216使用)。參考圖3,在用于確定變換的方法300的優(yōu)選實施例中,在步驟302中,首先測量并存儲第一搜索源和第二搜索源的點擊率統(tǒng)計信息。參考圖4,在一些實施例中,用戶點擊混合搜索引擎結果114(例如,如圖1B所示)中的一個條目的事件被搜索引擎系統(tǒng)106(圖2B)所記錄。當用戶點擊混合搜索引擎結果114的一個條目時,請求401被發(fā)送到搜索引擎系統(tǒng)106(例如,發(fā)送到搜索引擎220的變換確定模塊216)。請求401包含關于所選條目在混合搜索引擎結果114中的位置的信息。為了使用戶點擊導致請求401被發(fā)送到搜索引擎系統(tǒng)106,與結果列表中的每個項目相關聯(lián)的URL被改變,從而對所述項目的選擇引起http消息(即,請求401)被發(fā)送到搜索引擎服務器而沒有發(fā)送到存儲用戶所選擇的文檔的服務器。http消息(請求)401包括與所選文檔相關聯(lián)的URL以及所選項目在結果列表中的位置。
響應于對該請求的接收,搜索引擎220記錄所選條目在混合結果114中的位置。此外,當兩個或更多結果列表(例如,圖2B中的260-1和260-2)被組合來產生混合結果114時,搜索引擎220記錄從其獲得所選條目的搜索源。此外,搜索引擎220記錄搜索源和所有未被選擇的條目在混合結果114中的位置。該存儲行為可以例如由變換確定模塊216(圖2B)來完成。在優(yōu)選實施例中,當被呈現給用戶的結果列表被發(fā)送給用戶時,關于該結果列表的信息被記錄在日志記錄中。關于用戶所選擇的項目的信息被記錄在第二日志記錄中。第二日志記錄可以包括對第一日志記錄的引用或指針。
仍舊參考圖4,需要客戶計算機104-1的用戶接收與從搜索引擎結果114中選擇的條目相對應的文檔。為了實現此目的,搜索引擎系統(tǒng)106發(fā)送“http重定向”響應402到客戶計算機104-1,用于指定所請求文檔的URL。http重定向402使客戶計算機104-1下載并顯示與該URL相對應的文檔。在另一實施例中,搜索引擎系統(tǒng)106可以下載所請求的文檔,然后將該文檔發(fā)送到客戶計算機104-1。
不需要在每次客戶計算機104的用戶從混合結果選擇條目時都記錄關于混合結果114的條目的信息。那么,在一些實施例中,只針對所選的混合結果114記錄用戶從混合結果中的選擇,所選的混合結果114可以是隨機選擇的或者以其它方式選擇的。這樣,系統(tǒng)104不因處理由用戶從混合結果中選擇條目而產生的每個請求導致超負載。例如,系統(tǒng)106可以產生混合結果114,從而當用戶選擇條目時,每110個結果中僅有一個結果產生請求401。
在一些實施例中,響應于用戶從混合搜索引擎結果中選擇條目,記錄了所選條目的位置和搜索源。此外,還記錄了沒有被選擇但是在混合結果中呈現了的條目的位置和源。隨后希望從這些數據確定要被應用于由一個或多個搜索源產生的相關性分數的變換。在一些實施例中,對于混合搜索結果中的每個搜索源h和每個位置i,確定相對點擊率。在一些實施例中,源h和位置i的相對點擊率(RCR)根據下述公式來確定RCR(i,h)=CRS(i,h)CR(i)]]>其中CR(i)是與源無關的位置i處的結果的點擊進入率CR(i)=clickthroughs(i)impressions(i)]]>其中“clickthroughs(i)”是在測量間隔期間(例如,一天或幾天的周期)所記錄的在位置i處用戶點擊進入的總數,“impressions(i)”是在相同測量間隔期間含有位置i處的條目的混合結果被呈現給用戶的總的次數(并且其中結果被配置以便通知服務器哪個項目(如果有的話)被用戶選擇)。在上面的等式中,CRS(i)是當位置i處的結果是來自源h時的位置i處的結果的點擊進入率CRS(i)=clickthroughs(i,h)impressions(i,h)]]>其中“clickthroughs(i,h)”是用戶從混合搜索結果中選擇位置i處的條目的次數,其中位置i處的條目最初是從搜索源h獲得的,“impressions(h)”是含有位置i處的來自源h的條目的混合結果被呈現給用戶的總的次數(并且其中結果被配置以便通知服務器哪個項目(如果有的話)被用戶選擇)。因此,RCR實質是來自特定源的條目被從混合結果中的特定位置選擇的相對頻率的代理(proxy)。
參考圖3,在確定變換的方法300中,為至少第一源和第二源確定品質因數。在一個實施例中,源h的品質因數根據下述公式來確定F(h)=Σi=110P(i,h)RCR(i,h)]]>其中P(i,h)指的是混合結果中的位置i和源h的印象率(impressionrate)。盡管上面表達式的求和是從位置1到10的,但是其它實施例中的求和可以從位置1到低于或高于位置10的最終位置。印象率P(i,h)根據下述公式來確定P(i,h)=Impressions(i,h)ΣiImpressions(i,h)]]>其中Impressions(i,h)是混合結果位置i處含有來自源h的條目的次數。如果源208(圖2B)向混合結果提供條目,但是這些條目很少被用戶選擇(相對于用戶選擇來自其它源的條目的頻率來說),則品質因數F(h)將具有接近零的值。相反,如果源向混合結果提供條目,并且這些條目被用戶頻繁選擇,則品質因數F(h)將具有大于或等于1的值。大于1的值指示用戶選擇的比率大于平均數,小于1的值指示用戶選擇的比率小于平均數。因此,源h的品質因數F(h)用作下述用戶感知的代理,所述用戶感知即為來自所述源的條目已經被正確置于混合結果的位置中。
最后,在確定變換的方法300中,在步驟306中,基于源的品質因數來確定一個或多個系數集。對于特定源,系數集被用來定義要被應用于來自該源的相關性分數的變換。例如,所述變換可以是移位變換,其中根據下述公式來執(zhí)行變換TransformedScore=RelevanceScore+b,其中僅有一個系數b被用于定義該變換。當相關性分數在近似0.0至1.0之間時,該移位系數的典型值在從-0.04至0.04的范圍內。其它可能的變換包括比例(scaling)變換,其中根據下述公式來執(zhí)行該變換TransformedScore=a*RelevanceScore,其中又是僅有一個系數a被用于定義該變換。當相關性分數在近似0.0至1.0之間時,該比例系數的典型值在從0.9至1.1的范圍內。其它可能的變換包括仿射(affine)變換,其中根據下述公式來執(zhí)行該變換TransformedScore=a*RelevanceScore+b,其中兩個系數(比例系數a和移位系數b)被用于定義該變換。當相關性分數在近似0.0至1.0之間時,比例系數a的典型值在從0.9至1.1的范圍內,并且移位系數b的典型值在從-0.04至0.04的范圍內。
確定被應用于一個或多個源的相關性分數的變換的系數的一個目標是均衡所有源的品質因數。在一些實施例中,基于源的品質因數,應用啟發(fā)式規(guī)則集來確定變換的系數。一種類型的啟發(fā)式規(guī)則要求當第一品質因數與第二品質因數的比率在預定義的值范圍內時,要被應用于第一源的相關性分數的變換的系數采用預定義的系數值。例如,規(guī)則可以要求當第一源的品質因數與第二源的品質因數的比率(F(1)/F(2))在0.2和0.4之間時,在第二源的相關性分數的移位變換中的移位系數的值采取值0.04。另一規(guī)則可以要求當F(1)/F(2)在0.4和0.6之間時,在第二源的相關性分數的移位變換中的移位系數的值采取值0.02。這樣,第一源的相關性分數的變換將以如下方式確定第一和第二源的品質因數趨向于均衡而沒有不需要的過調節(jié)。
在其它實施例中,所使用的變換函數可以是上述的移位、比例和仿射函數之外的函數。具體而言,其它實施例可以使用混合變換函數,這些混合變換函數是來自其它源的結果和可用分數(來自相關性分數正被變換的搜索源)兩者的函數。換句話說,應用于來自源A的結果的變換函數可以是復雜的函數,其涉及來自其它源或與其它源相關聯(lián)的參數,而不僅涉及與源A相關聯(lián)的固定系數。
在優(yōu)選實施例中,搜索引擎系統(tǒng)106是使用一個或多個計算機系統(tǒng)實現的,如圖5簡要示出的那樣。如本領域普通技術人員將會理解的那樣,被設計用來處理大量查詢的搜索引擎系統(tǒng)可以使用比圖5所示更復雜的計算機體系結構。例如,前端服務器集可以被用來接收查詢并在后端服務器集中分發(fā)查詢,其中后端服務器集實際處理所述查詢。在這種系統(tǒng)中,圖5所示的系統(tǒng)106將是一個后端服務器。
計算機系統(tǒng)一般將具有一個或多個中央處理單元(CPU)504、網絡或其它通信接口506、主與輔存儲設備510、以及一個或多個用于互連這些組件的通信總線508。主與輔存儲設備510可以包括高速隨機存取存儲器,并且還可以包括非易失性存儲器,例如一個或多個磁盤存儲設備(未示出)。主與輔存儲設備510可以包括距離(一個或多個)中央處理單元504很遠的海量存儲設備。主與輔存儲設備510優(yōu)選地存儲·操作系統(tǒng)512,操作系統(tǒng)512包括用于處理各種基本系統(tǒng)服務并執(zhí)行硬件相關任務的程序;
·網絡通信模塊514,網絡通信模塊514被用于將系統(tǒng)106經由一個或多個通信網絡(例如因特網、其它廣域網、局域網(例如,可以將客戶計算機104連接到系統(tǒng)106的本地無線網絡)、城域網等)連接到多種客戶計算機104(圖1A)并可以連接到其它服務器或計算機;·搜索引擎220,用于接收來自客戶計算機104的查詢112,以及從一個或多個搜索源產生(或接收)一個或多個結果列表;搜索引擎(或者具有搜索源的搜索引擎)搜索搜索源數據庫以找到與查詢112有關的文檔,并且確定與該查詢有關的文檔的相關性分數;·混合模塊202,用于實現本發(fā)明的許多方面;以及·變換確定模塊216,用于實現本發(fā)明的許多方面。
混合模塊202可以包括可執(zhí)行過程、子模塊、表和其它數據結構。在一個實施例中,混合模塊202包括用于組合由一個或多個搜索源所提供的結果列表的混合函數530。
變換確定模塊216可以在與混合模塊不同的服務器上實現,由于它的角色是收集隨著時間而被平均的點擊進入數據。新的變換函數系數被周期性確定,這比處理查詢的頻率要小得多。例如,新的變換函數系數可以被計算并且每天一次被分發(fā)到(一個或多個)混合模塊,或者可能是每幾天一次。變換確定模塊216可以包括可執(zhí)行過程、子模塊、表和其它數據結構。在一個實施例中,變換確定模塊216包括·數據結構532,用于存儲所測量的點擊率統(tǒng)計信息;·確定函數536,用于確定系數集,該確定函數可以包括一個或多個啟發(fā)式規(guī)則;以及·一個或多個數據結構620,用于存儲確定的系數集。
在替代性實施例中,為每個搜索源定義變換函數,并且每個變換函數被初始分配了與一致變換(unity transformation,一種沒有改變源的分數的變換)相關聯(lián)的一個或多個系數值。然后如上所述,基于變換定義模塊收集的信息來分配用于多個變換函數的系數值。在一些實現中,所有的變換函數都可以被分配系數,從而對每個搜索源的分數執(zhí)行非一致變換。然而,如上文所解釋的那樣,當混合來自N個搜索源的結果時,一般至多N-1個搜索源將需要非一致變換。
為了解釋的目的,前面的說明使用了具體的術語以提供對本發(fā)明的完整理解。然而,本領域普通技術人員將很容易認識到,這些具體的細節(jié)不是實現本發(fā)明所要求的。被選出并描述的實施例是為了最好地解釋本發(fā)明的原理及其實際應用,進而使本領域技術人員能夠最優(yōu)地使用本發(fā)明以及具有多種修改的多種實施例,所述多種修改是為適用于具體使用而設計的。因此,前面公開的內容不是窮盡性的,也不是想要將本發(fā)明限制為所公開的具體形式。在前述教導的啟示下,可以作出許多修改和變化形式。
本發(fā)明的范圍由權利要求及其等同物來定義。
權利要求
1.一種用于將來自多個搜索源的相應多個搜索引擎結果混合成一個搜索引擎結果的方法,包括從每個搜索源接收相應的條目結果列表,所述相應結果列表對于列表上的每個條目來說至少包括條目的位置、文檔的地址以及文檔的相關性分數;將確定的變換應用于至少一個接收到的結果列表中的至少一個文檔子集的相關性分數,以便產生經變換的分數;以及組合所述相應結果列表的至少多個部分以產生包括混合條目列表的混合搜索引擎結果,其中包括至少部分基于所述文檔的經變換分數來對所述混合條目列表排序。
2.如權利要求1所述的方法,包括通過下述步驟來確定用于所述多個搜索源的第一搜索源的變換測量并存儲第一搜索源和第二搜索源的點擊率統(tǒng)計信息;確定第一搜索源和第二搜索源中的每個的品質因數,所述品質因數是至少部分由所測量并存儲的統(tǒng)計信息來確定的;以及對于第一搜索源,基于第一搜索源和第二搜索源的品質因數來確定系數集,其中所述系數集定義了用于第一搜索源的變換。
3.如權利要求2所述的方法,包括通過應用啟發(fā)式規(guī)則集來確定所述系數集,所述啟發(fā)式規(guī)則中的一個或多個要求當第一品質因數和第二品質因數的比率在預定義的值范圍之內時,所述變換的系數采用預定義的系數值。
4.如權利要求1所述的方法,其中所述變換是由兩個系數確定的仿射變換。
5.如權利要求1所述的方法,其中所述變換是由一個系數確定的比例變換。
6.如權利要求5所述的方法,其中所述系數采用0.9至1.1范圍內的值。
7.如權利要求1所述的方法,其中所述變換是由一個系數確定的移位變換。
8.如權利要求7所述的方法,其中所述系數采用來自從-0.04至0.04范圍內的值。
9.如權利要求2所述的方法,其中測量并存儲點擊率統(tǒng)計信息包括接收來自用戶的查詢;將混合結果返回給用戶,所述混合結果包括條目列表;記錄所述條目列表中的哪個列表被用戶選擇;以及重復所述接收、返回和記錄,直到達到了終止條件。
10.如權利要求9所述的方法,其中記錄包括記錄用戶是否沒有從所述條目列表中選擇任何項目。
11.如權利要求9所述的方法,其中測量并存儲點擊率統(tǒng)計信息還包括記錄所述混合結果中與所選條目相關聯(lián)的位置以及搜索源,所選條目是由用戶選擇的;以及記錄所述混合結果中與未被用戶選擇的條目相關聯(lián)的位置以及搜索源。
12.如權利要求11所述的方法,其中確定第一搜索源的品質因數包括對于所述多個搜索源中的每個搜索源,確定對所述混合結果中的多個位置的相應多個印象數;對于第一搜索源,確定用戶選擇所述混合結果中的位置中與第一搜索源相關聯(lián)的條目的第一次數;以及至少部分基于所述第一次數和所述多個印象數,確定第一搜索源的品質因數。
13.一種搜索引擎系統(tǒng),包括多個搜索源;至少一個接口,用于接收查詢以及發(fā)送搜索結果;耦合到所述多個搜索源的至少一個搜索引擎,用于從每個搜索源接收與所接收的查詢相對應的相應條目結果列表,所述相應結果列表對于列表上的每個條目來說至少包括條目的位置、文檔的地址、以及文檔與所接收的查詢相關的相關性分數;以及混合模塊,被配置將確定的變換應用于至少一個接收到的結果列表中的至少一個文檔子集的相關性分數,以便產生經變換的分數,并且還被配置組合所述相應結果列表的至少多個部分以產生包括混合條目列表的混合搜索引擎結果,其中包括至少部分基于所述經變換分數來對所述混合條目列表排序。
14.如權利要求13所述的搜索引擎系統(tǒng),其中所述至少一個搜索引擎包括所述混合模塊。
15.如權利要求13所述的搜索引擎系統(tǒng),還包括變換確定模塊,其中所述變換確定模塊還被配置通過下述步驟來確定用于所述多個搜索源的第一搜索源的變換測量并存儲第一搜索源和第二搜索源的點擊率統(tǒng)計信息;確定第一搜索源和第二搜索源中的每個的品質因數,所述品質因數是至少部分由所測量并存儲的統(tǒng)計信息來確定的;以及對于第一搜索源,基于第一搜索源和第二搜索源的品質因數來確定系數集,其中所述系數集定義了用于第一搜索源的變換。
16.如權利要求15所述的搜索引擎系統(tǒng),其中所述至少一個搜索引擎包括所述變換確定模塊。
17.如權利要求15所述的搜索引擎系統(tǒng),其中所述變換確定模塊還被配置通過應用啟發(fā)式規(guī)則集來確定所述系數集,所述啟發(fā)式規(guī)則中的一個或多個要求當第一品質因數和第二品質因數的比率在預定義的值范圍之內時,所述變換的系數采用預定義的系數值。
18.如權利要求15所述的搜索引擎系統(tǒng),其中所述變換是由兩個系數確定的仿射變換。
19.如權利要求15所述的搜索引擎系統(tǒng),其中所述變換是由一個系數確定的比例變換。
20.如權利要求15所述的搜索引擎系統(tǒng),其中所述系數采用0.9至1.1范圍內的值。
21.如權利要求15所述的搜索引擎系統(tǒng),其中所述變換是由一個系數確定的移位變換。
22.如權利要求15所述的搜索引擎系統(tǒng),其中所述系數采用來自從-0.04至0.04范圍內的值。
23.如權利要求15所述的搜索引擎系統(tǒng),其中所述搜索引擎系統(tǒng)還被配置測量并存儲第一搜索源和第二搜索源的點擊率統(tǒng)計信息,所述配置包括所述搜索引擎還被配置接收來自用戶的查詢;所述搜索引擎還被配置將混合結果返回給用戶,所述混合結果包括條目列表;所述變換確定模塊還被配置記錄所述條目列表中的哪個列表被用戶選擇;所述搜索引擎系統(tǒng)還被配置重復所述接收、返回和記錄,直到達到了終止條件。
24.如權利要求23所述的搜索引擎系統(tǒng),其中所述變換模塊還被配置記錄用戶是否沒有從所述條目列表中選擇任何條目。
25.如權利要求23所述的搜索引擎系統(tǒng),其中所述變換模塊還被配置記錄所述混合結果中與所選條目相關聯(lián)的位置以及搜索源,所選條目是由用戶選擇的;以及記錄所述混合結果中與未被用戶選擇的條目相關聯(lián)的位置以及搜索源。
26.如權利要求25所述的搜索引擎系統(tǒng),其中所述變換確定模塊還被配置通過下述步驟來確定第一搜索源的品質因數對于所述多個搜索源中的每個搜索源,確定對所述混合結果中的多個位置的相應多個印象數;對于第一搜索源,確定用戶選擇所述混合結果中的位置中與第一搜索源相關聯(lián)的條目的第一次數;以及至少部分基于所述第一次數和所述多個印象數,確定用于第一搜索源的品質因數。
全文摘要
本發(fā)明提供了一種用于將來自多個搜索源的相應多個搜索引擎結果混合為一個搜索引擎結果的方法與系統(tǒng)。從每個搜索源接收條目結果列表。每個結果列表對于列表上的每個條目來說至少包括條目的位置、文檔的地址、以及文檔的相關性分數。確定的變換被應用于至少一個接收到的結果列表中的至少一個文檔子集的相關性分數,以便產生經變換的分數。最后,相應結果列表的多個部分被組合以產生包括混合條目列表的混合搜索引擎結果。所述混合條目列表的排序至少部分基于文檔的經變換分數。
文檔編號G06F7/00GK1809803SQ200480017467
公開日2006年7月26日 申請日期2004年4月23日 優(yōu)先權日2003年4月25日
發(fā)明者羅伯特·L·小特拉維斯 申請人:奧弗圖爾服務公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1