專利名稱:期望存儲(chǔ)庫的確定的制作方法
技術(shù)領(lǐng)域:
在此描述的實(shí)施方式一般地涉及信息檢索,更具體地,涉及確定 用于進(jìn)行搜索的期望存儲(chǔ)庫。
背景技術(shù):
萬維網(wǎng)("web")包含大量信息。然而,定位期望的信息部分可 能是富有挑戰(zhàn)性的。因?yàn)槿f維網(wǎng)上的信息量和缺乏萬維網(wǎng)搜索經(jīng)驗(yàn)的 新用戶數(shù)量在快速地增加,導(dǎo)致這個(gè)問題更復(fù)雜。
搜索引擎系統(tǒng)試圖返回到用戶感興趣網(wǎng)頁的超鏈接。通常,搜索 引擎系統(tǒng)將它們的用戶興趣確定基于用戶輸入的搜索項(xiàng)目(稱作搜索 查詢)。搜索引擎系統(tǒng)的目的是根據(jù)搜索查詢向用戶提供到高質(zhì)量的 相關(guān)搜索結(jié)果(例如網(wǎng)頁)的鏈接。典型地,搜索引擎系統(tǒng)通過匹配 搜索查詢內(nèi)的項(xiàng)目與預(yù)存儲(chǔ)網(wǎng)頁的語料庫來實(shí)現(xiàn)這一目的。包含用戶 搜索項(xiàng)目的網(wǎng)頁為"命中",其作為鏈接返回給用戶。
一些搜索引擎系統(tǒng)可以提供各種信息作為搜索結(jié)果。例如,搜索 引擎系統(tǒng)可能能夠提供與網(wǎng)頁、新聞文章、圖像、商品、usenet頁面、 黃頁條目、掃描書籍和/或其它類型信息相關(guān)的搜索結(jié)果。典型地,搜 索引擎系統(tǒng)提供到這些不同類型信息的分離界面。
當(dāng)用戶將搜索查詢提供給標(biāo)準(zhǔn)搜索引擎系統(tǒng)時(shí),通常向用戶提供 到網(wǎng)頁的鏈接。如果用戶期望另一類型的信息(例如圖像或新聞文 章),用戶通常需要訪問由搜索引擎系統(tǒng)提供的分離界面。
發(fā)明內(nèi)容
根據(jù)一個(gè)方面, 一種方法可以包括從用戶接收搜索查詢;根據(jù) 搜索查詢搜索多個(gè)存儲(chǔ)庫,以為每個(gè)存儲(chǔ)庫識(shí)別一搜索結(jié)果集合;根據(jù)用戶期望來自所識(shí)別存儲(chǔ)庫的信息的可能性來識(shí)別存儲(chǔ)庫之一;和 呈現(xiàn)與所識(shí)別存儲(chǔ)庫關(guān)聯(lián)的搜索結(jié)果集合從用戶接收搜索查詢。
根據(jù)另一個(gè)方面, 一種系統(tǒng)可以包括搜索引擎系統(tǒng),用于從 用戶接收搜索查詢;為多個(gè)存儲(chǔ)庫中的每個(gè)存儲(chǔ)庫確定分?jǐn)?shù),所述存 儲(chǔ)庫之一的分?jǐn)?shù)基于用戶期望來自所述一個(gè)存儲(chǔ)庫的信息的可能性。 所述搜索引擎系統(tǒng)還根據(jù)搜索查詢對(duì)一個(gè)或多個(gè)存儲(chǔ)庫執(zhí)行搜索,以 為一個(gè)或多個(gè)存儲(chǔ)庫中的每個(gè)存儲(chǔ)庫識(shí)別 一搜索結(jié)果集合;和根據(jù)分 數(shù)提供搜索結(jié)果集合中的一個(gè)或多個(gè)。
根據(jù)又一個(gè)方面,提供一種存儲(chǔ)數(shù)據(jù)和計(jì)算機(jī)可執(zhí)行指令的計(jì)算 機(jī)可讀介質(zhì),包括基于用戶提供的搜索查詢的與多個(gè)存儲(chǔ)庫搜索關(guān) 聯(lián)的日志數(shù)據(jù);用于將日志數(shù)據(jù)表示為三位數(shù)據(jù)(u,q,r)的指令,其 中u是指與提供搜索查詢的用戶相關(guān)的信息,q是指與搜索查詢相關(guān) 的信息,和r是指與響應(yīng)于搜索查詢從中提供搜索結(jié)果的存儲(chǔ)庫相關(guān) 的信息;用于為每個(gè)三位數(shù)據(jù)(u,q,r)確定標(biāo)簽的指令,其中標(biāo)簽包 括與當(dāng)用戶u提供搜索查詢q時(shí)用戶是否期望來自存儲(chǔ)庫r的信息相 關(guān)的信息;和用于根據(jù)三位數(shù)據(jù)(u,q,r )和相關(guān)標(biāo)簽訓(xùn)練模型的指令, 其中所述模型預(yù)測(cè)當(dāng)特定用戶提供特定搜索查詢時(shí)該用戶是否期望 來自存儲(chǔ)庫的信息。
根據(jù)又一個(gè)方面, 一種系統(tǒng)可以包括存儲(chǔ)第一類型數(shù)據(jù)的第一 存儲(chǔ)庫;存儲(chǔ)第二類型數(shù)據(jù)的第二存儲(chǔ)庫;和搜索引擎系統(tǒng)。所述搜 索引擎系統(tǒng)從用戶接收搜索查詢;和根據(jù)關(guān)于用戶、搜索查詢和第一 或第二存儲(chǔ)庫的信息,確定用戶期望來自第一或第二存儲(chǔ)庫的信息的
可能性。
根據(jù)另一個(gè)方面, 一種系統(tǒng)可以包括模型生成系統(tǒng)和搜索引擎 系統(tǒng)。所述模型生成系統(tǒng)用于生成模型,所述模型確定與當(dāng)特定用戶 提供特定搜索查詢時(shí),該用戶期望來自存儲(chǔ)庫的信息的可能性關(guān)聯(lián)的 分?jǐn)?shù)。所述搜索引擎系統(tǒng)從用戶接收搜索查詢;根據(jù)該模型確定多個(gè) 存儲(chǔ)庫中每個(gè)存儲(chǔ)庫的分?jǐn)?shù);和根據(jù)分?jǐn)?shù)呈現(xiàn)來自一個(gè)或多個(gè)存儲(chǔ)庫
的搜索結(jié)果。
10根據(jù)又一個(gè)方面, 一種方法可以包括從用戶接收搜索查詢;確 定多個(gè)存儲(chǔ)庫中每個(gè)存儲(chǔ)庫的分?jǐn)?shù),所述存儲(chǔ)庫之一的分?jǐn)?shù)基于用戶 期望來自所述一個(gè)存儲(chǔ)庫的信息的可能性;根據(jù)搜索查詢和所確定的 分?jǐn)?shù)對(duì)至少一個(gè)存儲(chǔ)庫上執(zhí)行搜索,以為至少一個(gè)存儲(chǔ)庫中的每個(gè)存 儲(chǔ)庫識(shí)別一搜索結(jié)果集合;和提供搜索結(jié)果集合中的一個(gè)或多個(gè)。
根據(jù)另一個(gè)方面, 一種系統(tǒng)可以包括模型生成系統(tǒng),用于生成 第一和第二模型,其中用于生成第二模型的至少一個(gè)因素與在生成第 一模型時(shí)是不同的或者不存在。該系統(tǒng)還包括搜索引擎系統(tǒng),用于 從用戶接收搜索查詢;根據(jù)第 一模型確定多個(gè)存儲(chǔ)庫中每個(gè)存儲(chǔ)庫的 第一分?jǐn)?shù);根據(jù)搜索查詢和第一分?jǐn)?shù)對(duì)一個(gè)或多個(gè)存儲(chǔ)庫執(zhí)行搜索; 根據(jù)第二模型確定一個(gè)或多個(gè)存儲(chǔ)庫中每個(gè)存儲(chǔ)庫的第二分?jǐn)?shù);和根
據(jù)第二分?jǐn)?shù)呈現(xiàn)來自 一個(gè)或多個(gè)存儲(chǔ)庫中至少之一的搜索結(jié)果。
包含并構(gòu)成此說明書一部分的附示本發(fā)明的實(shí)施例,并與說 明書一起解釋本發(fā)明。在附圖中
圖1圖示符合本發(fā)明原理的概念;
圖2圖示根據(jù)符合本發(fā)明原理的實(shí)施方式的示例模型生成系統(tǒng); 圖3是根據(jù)符合本發(fā)明原理的實(shí)施方式的圖2設(shè)備的示例圖; 圖4是根據(jù)符合本發(fā)明原理的實(shí)施方式的用于生成模型的示例 處理流程圖5圖示其中可以實(shí)施符合本發(fā)明原理的系統(tǒng)和方法的示例信 息搜索網(wǎng)絡(luò);
圖6是根據(jù)符合本發(fā)明原理的實(shí)施方式的用于提供搜索結(jié)果的 示例處理流程圖;和
圖7-10圖示符合本發(fā)明原理的示例實(shí)施方式。
具體實(shí)施例方式
下面對(duì)本發(fā)明的詳細(xì)描述參考附圖。在不同附圖中的相同參考標(biāo)記可以標(biāo)識(shí)相同或類似的單元。而且,下文的詳細(xì)描述并不限制本發(fā) 明。概述圖1圖示符合本發(fā)明原理的概念。搜索引擎系統(tǒng)可以維護(hù)用戶可 能期望的不同類型的信息。搜索引擎系統(tǒng)可以維護(hù)與不同類型信息相關(guān)的一組存儲(chǔ)庫(repository)。如圖1所示,搜索引擎系統(tǒng)可以和 與諸如網(wǎng)頁、圖像、產(chǎn)品和新聞相關(guān)的存儲(chǔ)庫關(guān)聯(lián)。網(wǎng)頁存儲(chǔ)庫可以 包括網(wǎng)頁相關(guān)信息。圖像存儲(chǔ)庫可以包括圖像相關(guān)信息。產(chǎn)品存儲(chǔ)庫 可以包括商品相關(guān)信息。新聞存儲(chǔ)庫可以包括新聞文檔相關(guān)信息。搜 索引擎系統(tǒng)可以對(duì)涉及特定存儲(chǔ)庫的搜索提供分離界面。在下文的描述中,將術(shù)語"文檔"廣義解釋為包括任何機(jī)器可讀和 機(jī)器可存儲(chǔ)工程產(chǎn)品。文檔可以包括例如網(wǎng)頁、新聞事件相關(guān)信息、 圖像文件、商品相關(guān)信息、usenet頁面相關(guān)信息、黃頁條目、掃描書 籍、文件、文件組合、內(nèi)嵌有到其它文件的鏈接的一個(gè)或多個(gè)文件、 博客、網(wǎng)頁廣告、電子郵件等。文檔通常包括文本信息,和可以包括 內(nèi)嵌信息(例如元信息、超鏈接等)和/或內(nèi)嵌指令(例如Javascript 等)。如在此使用的術(shù)語,將"鏈接,,廣義地解釋為包括從/到一個(gè)文檔 到/從另 一文檔或同 一文檔的另 一部分的任意引用。如圖l所示,用戶可以將搜索查詢提供給搜索引擎系統(tǒng)。搜索引 擎系統(tǒng)可以確定用戶可能期望哪個(gè)或哪些存儲(chǔ)庫。搜索引擎可以執(zhí)行 搜索,和根據(jù)用戶可能期望哪個(gè)或哪些存儲(chǔ)庫的確定結(jié)果呈現(xiàn)包括來 自 一個(gè)或多個(gè)存儲(chǔ)庫的信息的搜索結(jié)果。例如,如果用戶將項(xiàng)目"日落(sunset)"作為搜索查詢提供給搜 索引擎系統(tǒng),則搜索引擎系統(tǒng)可以確定用戶更關(guān)心日落圖片而不是曰 落相關(guān)的網(wǎng)頁。因此,搜索引擎系統(tǒng)可以向用戶提供來自圖像存儲(chǔ)庫 的搜索結(jié)果而不是來自其它存儲(chǔ)庫的搜索結(jié)果,或者作為其補(bǔ)充。類似地,如果用戶將短語"伊拉克戰(zhàn)爭,,作為搜索查詢提供給搜索 引擎系統(tǒng),則搜索引擎可以確定用戶更關(guān)心涉及伊拉克戰(zhàn)爭相關(guān)的新聞文檔而不是伊拉克戰(zhàn)爭相關(guān)的網(wǎng)頁。因此,搜索引擎系統(tǒng)可以向用 戶提供來自新聞存儲(chǔ)庫的搜索結(jié)果而不是來自其它存儲(chǔ)庫的搜索結(jié) 果,或者作為其補(bǔ)充。符合本發(fā)明原理的實(shí)施方式可以在用戶提供搜索查詢時(shí)生成預(yù) 測(cè)用戶關(guān)注哪個(gè)或哪些存儲(chǔ)庫的模型,并使用此模型將相關(guān)搜索結(jié)果 提供給用戶。示例的模型生成系統(tǒng)圖2是符合本發(fā)明原理的模型生成系統(tǒng)200的示例圖。系統(tǒng)200 可以包括一個(gè)或多個(gè)設(shè)備210和日志數(shù)據(jù)存儲(chǔ)器220。存儲(chǔ)器220可 以包括一個(gè)或多個(gè)邏輯或物理存儲(chǔ)設(shè)備,其可以存儲(chǔ)如下文更詳細(xì)描 述的可能使用的大型數(shù)據(jù)集合(例如成百萬的實(shí)例和數(shù)以萬計(jì)的特 征)以建立和訓(xùn)練模型。該數(shù)據(jù)可以包括涉及在先搜索的日志數(shù)據(jù), 例如用戶信息、查詢信息和存儲(chǔ)庫信息,其可以用于建立可用于識(shí)別 用戶可能期望的一個(gè)或多個(gè)存儲(chǔ)庫的模型。在一種實(shí)施方式中,該模 型可以當(dāng)用戶提供特定查詢時(shí)預(yù)測(cè)用戶是否期望來自特定存儲(chǔ)庫的 信息。用戶信息可以包括與用戶相關(guān)的因特網(wǎng)協(xié)議(IP)地址、cookie 信息、語言和/或地理信息、用戶提供的在前查詢和/或用戶提供當(dāng)前 或在前查詢的當(dāng)天時(shí)間和/或日期。查詢信息可以包括與提供的查詢項(xiàng) 目相關(guān)的信息。存儲(chǔ)庫信息可以包括與用于搜索的存儲(chǔ)庫界面、顯示 的文檔和從中獲取它們的存儲(chǔ)庫和/或選擇的文檔(例如點(diǎn)擊)相關(guān)的 信息。在其它的示例實(shí)施方式中,可以替代的或者附加地由存儲(chǔ)器320 保存其它類型的數(shù)據(jù)。一個(gè)或多個(gè)設(shè)備210可以包括能夠通過任意類型的連接機(jī)制訪 問存儲(chǔ)器220的任意類型的計(jì)算設(shè)備。根據(jù)符合本發(fā)明原理的一種實(shí) 施方式,系統(tǒng)200可以包括多個(gè)i殳備210。才艮據(jù)另一種i殳施方式,系 統(tǒng)200可以包括單個(gè)設(shè)備210。圖3是根據(jù)符合本發(fā)明原理的實(shí)施方式的設(shè)備210的示例圖。設(shè)備210可以包括總線310、處理器320、主存儲(chǔ)器330、只讀存儲(chǔ)器 (ROM ) 340、存儲(chǔ)設(shè)備350、輸入設(shè)備360、輸出設(shè)備370和通信接 口 380??偩€310包括允許在設(shè)備210的單元之間通信的路徑。處理器320可以包括可以解釋和執(zhí)行指令的處理器、微處理器或 者處理邏輯。主處理器330可以包括可存儲(chǔ)信息和用于由處理器320 執(zhí)行的指令的隨機(jī)訪問存儲(chǔ)器(RAM)或另一類型的動(dòng)態(tài)存儲(chǔ)設(shè)備。 ROM 340可以包括可存儲(chǔ)靜態(tài)信息和由處理器320使用的指令的 ROM設(shè)備或另 一類型的靜態(tài)存儲(chǔ)設(shè)備。存儲(chǔ)設(shè)備350可以包括磁和/ 或光記錄介質(zhì)及其相應(yīng)驅(qū)動(dòng)器。輸入設(shè)備360可以包括允許操作者將信息輸入給設(shè)備210的機(jī)械 裝置,例如鍵盤、鼠標(biāo)、筆、語音識(shí)別和/或生物測(cè)定機(jī)械裝置等。輸 出設(shè)備370可以包括將信息輸出給操作者的機(jī)械裝置,包括顯示器、 打印機(jī)、揚(yáng)聲器等。通信接口 380可以包括支持設(shè)備210與其它設(shè)備 和/或系統(tǒng)通信的任意收發(fā)信機(jī)類似的機(jī)械裝置。例如,通信接口 380 可以包括用于與另 一設(shè)備210或存儲(chǔ)器220通信的機(jī)械裝置。如將在下文中詳細(xì)描述的,符合本發(fā)明原理的設(shè)備210可以執(zhí)行 某些模型生成相關(guān)操作。響應(yīng)于處理器320執(zhí)行在諸如存儲(chǔ)器330等 計(jì)算機(jī)可讀介質(zhì)內(nèi)包含的軟件指令,設(shè)備210可以執(zhí)行這些操作??梢詫⒂?jì)算機(jī)可讀介質(zhì)定義為物理或邏輯存儲(chǔ)設(shè)備和/或載波。可以從諸如數(shù)據(jù)存儲(chǔ)設(shè)備350等另一個(gè)計(jì)算機(jī)可讀介質(zhì)或者通 過通信接口 380從另一個(gè)設(shè)備將軟件指令讀入存儲(chǔ)器330。在存儲(chǔ)器 330內(nèi)包含的軟件指令可以致使處理器320執(zhí)行隨后將要描述的處理。 可替代地,可以使用硬連線電路替代軟件指令或者與其組合以實(shí)現(xiàn)符 合本發(fā)明原理的處理。因而,符合本發(fā)明原理的實(shí)施方式并不限制于 硬件電路和軟件的任意特定組合。示例的^=莫型生成處理為了下文討論的目的,在存儲(chǔ)器220內(nèi)的數(shù)據(jù)組(圖2 )可以包 括多個(gè)單元,稱作實(shí)例。存儲(chǔ)器220可以包括以百萬計(jì)的實(shí)例。每個(gè)實(shí)例可以包括三位數(shù)據(jù)(triple of data ) : (u,q,r),其中"u"是指用 戶信息,"q"是指用戶u提供的查詢,和"r"是指響應(yīng)于查詢q從中提 供搜索結(jié)果的存儲(chǔ)庫。存儲(chǔ)器220還可以存儲(chǔ)與當(dāng)用戶u提供查詢q 時(shí)用戶u是否期望來自存儲(chǔ)庫r的信息相關(guān)的信息,其中例如可以通 過確定用戶是否從存儲(chǔ)庫選擇文檔來測(cè)量用戶的期望。此信息將稱作 該實(shí)例的"標(biāo)簽"。可以從任意給定的(u,q,r )提取若干特征。存儲(chǔ)器220可以包括 數(shù)以萬計(jì)的不同特征。在一種實(shí)施方式中,這些特征中的一些特征可 以包括一個(gè)或多個(gè)下述內(nèi)容用戶u位于的國家、用戶u位于的國家 的語言、與用戶u相關(guān)的cookie標(biāo)識(shí)符、查詢q的語言、查詢q中的 每個(gè)項(xiàng)目、用戶u提供查詢q的當(dāng)天時(shí)間、提供給用戶u的存儲(chǔ)庫r 的文檔、提供給用戶u的存儲(chǔ)庫r中文檔內(nèi)的每個(gè)項(xiàng)目和/或提供給用 戶u的存儲(chǔ)庫r中文檔標(biāo)題中的每個(gè)項(xiàng)目。也可以替代地或者附加地 使用其它特征。在另一種實(shí)施方式中,附加地或者替代上面識(shí)別的一些特征,一 些特征可以包括一個(gè)或多個(gè)下述內(nèi)容提供給存儲(chǔ)庫r的界面的查詢 片斷(fraction )、提供給存儲(chǔ)庫r的界面對(duì)其它存儲(chǔ)庫的界面的查詢 片斷、包含提供給存儲(chǔ)庫r的界面對(duì)其它存儲(chǔ)庫的界面的查詢q內(nèi)項(xiàng) 目的查詢片斷、提供給存儲(chǔ)庫r的界面的查詢的整體點(diǎn)擊率、為用戶 u提供給存儲(chǔ)庫r的界面的查詢點(diǎn)擊率、為與用戶u同一國家內(nèi)的用 戶提供給存儲(chǔ)庫r界面的查詢點(diǎn)擊率和/或提供給存儲(chǔ)庫r界面的查詢 q的點(diǎn)擊率。在又一種實(shí)施方式中,還可以包括下述兩個(gè)特征為用戶u提供 給存儲(chǔ)庫r的界面的查詢q的點(diǎn)擊率和為用戶u提供給存儲(chǔ)庫r界面 的查詢q的片斷。不是直接確定這些特征,而是可以生成模型以使用 常規(guī)技術(shù)預(yù)測(cè)這些特征并可以將模型輸出用作特征??梢愿鶕?jù)此數(shù)據(jù)建立模型。在一種實(shí)施方式中,給定新的(u,q,r),可以使用模型預(yù)測(cè)如果用戶u提供了查詢q,用戶u是否期望來自存 儲(chǔ)庫r的信息。如在下文中將更詳細(xì)描述的,可以使用模型輸出確定是否搜索存儲(chǔ)庫,是否在搜索結(jié)果文檔中包含來自存儲(chǔ)庫的搜索結(jié)果 和/或在搜索結(jié)果文檔中呈現(xiàn)搜索結(jié)果的方式。圖4是根據(jù)符合本發(fā)明原理的實(shí)施方式的用于生成模型的示例 處理流程圖。該處理可以由單個(gè)設(shè)備210或多個(gè)設(shè)備210的組合執(zhí)行。為了便于生成模型,可以將存儲(chǔ)器220內(nèi)的日志數(shù)據(jù)表示為實(shí)例 集合(方框410)。例如,可以與用戶的先前搜索相關(guān)地識(shí)別信息, 例如關(guān)于用戶、用戶提供的查詢和從中獲取和/或選擇搜索結(jié)果的存儲(chǔ) 庫的信息。如上文所述,可以將此信息形成為三位數(shù)據(jù)(u,q,r)。隨后,可以確定每個(gè)實(shí)例的標(biāo)簽(方框420)。例如,可以為每 個(gè)三位數(shù)據(jù)(u,q,r)確定當(dāng)用戶u提供了查詢q時(shí)用戶u是否期望存 儲(chǔ)庫r內(nèi)的信息(例如,選擇文檔)。標(biāo)簽可以與存儲(chǔ)器220內(nèi)的它 們的相應(yīng)實(shí)例關(guān)聯(lián)。還可以確定與每個(gè)實(shí)例相關(guān)的特征(方框430)。隨后,可以根據(jù)實(shí)例、標(biāo)簽和特征生成模型(方框440 )。例如, 可以使用標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)或統(tǒng)計(jì)技術(shù)確定當(dāng)用戶u提供查詢q時(shí)用戶u 期望來自存儲(chǔ)庫r的信息的概率P ( desire|u,q,show—r ),其中"showj"表示提供來自存儲(chǔ)庫r的文檔。可以使用若干公知 技術(shù)中的任一種技術(shù)生成模型,例如邏輯回歸、增強(qiáng)判決樹、隨機(jī)樹 林、支持向量機(jī)器、感知器和辨別學(xué)習(xí)器。該模型可以輸出反映當(dāng)用 戶u提供查詢q時(shí)用戶u期望來自存儲(chǔ)庫r的信息的信任的值,而不 是生成概率。在下文中通常將模型輸出稱作"分?jǐn)?shù),,(score),其可以 包括概率輸出和/或輸出值。如下文解釋的,可以使用模型輸出確定是否搜索存儲(chǔ)庫,是否將 來自存儲(chǔ)庫的搜索結(jié)果包括在搜索結(jié)果文檔中和/或用于在搜索結(jié)果文檔中呈現(xiàn)搜索結(jié)果的方式。 示例的信息提取網(wǎng)絡(luò)圖5是其中可以實(shí)施符合本發(fā)明原理的系統(tǒng)和方法的網(wǎng)絡(luò)示例 圖。網(wǎng)絡(luò)500可以包括經(jīng)網(wǎng)絡(luò)550連接到多個(gè)服務(wù)器520-540的多個(gè)客戶機(jī)510。為了筒化,已經(jīng)圖示了兩個(gè)客戶機(jī)510和三個(gè)服務(wù)器 520-540連接到網(wǎng)絡(luò)550。實(shí)際上,可能存在更多或更少的客戶機(jī)和服 務(wù)器。而且,在一些實(shí)例中,客戶機(jī)可以執(zhí)行服務(wù)器功能,服務(wù)器可 以執(zhí)行客戶機(jī)功能。客戶機(jī)510可以包括客戶機(jī)實(shí)體。可以將實(shí)體定義為設(shè)備,例如 個(gè)人計(jì)算機(jī)、無線電話機(jī)、個(gè)人數(shù)字助理(PDA)、便攜式或另一類 型的計(jì)算或通信設(shè)備、在這些設(shè)備之一上運(yùn)行的線程或過程和/或由這 些設(shè)備之一可執(zhí)行的對(duì)象。服務(wù)器520-540可以包括以符合本發(fā)明原 理的方式收集、處理、搜索和/或保存文檔的服務(wù)器實(shí)體。在符合本發(fā)明原理的實(shí)施方式,服務(wù)器520可以包括可由客戶機(jī) 510使用的搜索引擎系統(tǒng)525。搜索引擎系統(tǒng)525可以與多個(gè)文檔存 儲(chǔ)庫(未圖示)關(guān)聯(lián),例如網(wǎng)頁存儲(chǔ)庫、新聞存儲(chǔ)庫、圖像存儲(chǔ)庫、 產(chǎn)品存儲(chǔ)庫、usenet存儲(chǔ)庫、黃頁存儲(chǔ)庫、掃描書籍存儲(chǔ)庫和/或其它 類型的存儲(chǔ)庫。這些存儲(chǔ)庫可以物理駐留于服務(wù)器520內(nèi)的一個(gè)或多 個(gè)存儲(chǔ)設(shè)備內(nèi)或者在服務(wù)器520外部。服務(wù)器530和540可以存儲(chǔ)或 保存可與 一個(gè)或多個(gè)存儲(chǔ)庫關(guān)聯(lián)的文檔。雖然將服務(wù)器520-540圖示為分離實(shí)體,但是也可以由一個(gè)或多 個(gè)服務(wù)器520-540執(zhí)行另外一個(gè)或多個(gè)服務(wù)器520-540的一個(gè)或多個(gè) 功能。例如,可以將兩個(gè)或更多服務(wù)器520-540實(shí)施為單個(gè)服務(wù)器。 也可以將單個(gè)服務(wù)器520-540實(shí)施為兩個(gè)或更多分離(并且可能是分 布式)的i殳備。網(wǎng)絡(luò)550可以包括局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)、諸如公 用交換電話網(wǎng)(PSTN)的電話網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)、互聯(lián)網(wǎng)或者網(wǎng)絡(luò)組合。 客戶機(jī)510和服務(wù)器520-540可以通過有線、無線和/或光連接連到網(wǎng) 絡(luò)550。提供搜索結(jié)果的示例過程圖6是根據(jù)符合本發(fā)明原理的實(shí)施方式的用于提供搜索結(jié)果的 示例處理流程圖。處理可以開始于接收搜索查詢(方框610)。例如,用戶可以使用在諸如客戶機(jī)510 (圖5)等客戶機(jī)上的web瀏覽器軟 件訪問搜索引擎界面。用戶可以將搜索查詢提供給搜索引擎界面??梢垣@取用戶相關(guān)信息(方框620)。例如,可以使用諸如與用 戶相關(guān)的IP地址、cookie信息、語言和/或地理信息識(shí)別用戶??梢?使用常規(guī)技術(shù)收集用戶信息。在一種實(shí)施方式中,可以根據(jù)搜索查詢對(duì)每個(gè)存儲(chǔ)庫執(zhí)行搜索 (方框430)??梢垣@取與每個(gè)存儲(chǔ)庫對(duì)應(yīng)的一個(gè)搜索結(jié)果集合???以使用任意信息檢索技術(shù)識(shí)別將包括在檢索結(jié)果集合內(nèi)的相關(guān)文檔。隨后,可以根據(jù)模型確定如何提供搜索結(jié)果(方框640)。例如,可以使用關(guān)于用戶、用戶提供的搜索查詢和每個(gè)存儲(chǔ)庫的信息作為模型輸入??梢詫⒃撃P蛻?yīng)用于每個(gè)存儲(chǔ)庫并可以使用模型輸出("分?jǐn)?shù),,)以確定是否提供與該存儲(chǔ)庫相關(guān)的搜索結(jié)果。例如,可以確定應(yīng)當(dāng)提供來自具有最高相關(guān)分?jǐn)?shù)的兩個(gè)存儲(chǔ)庫的搜索結(jié)果。可替代地,可以確定應(yīng)當(dāng)始終提供來自一個(gè)特定存儲(chǔ)庫的搜索結(jié)果,并且如 果與其他一個(gè)或多個(gè)存儲(chǔ)庫相關(guān)的分?jǐn)?shù)大于與該特定存儲(chǔ)庫關(guān)聯(lián)的分?jǐn)?shù)、則還應(yīng)當(dāng)提供來自另外一個(gè)或多個(gè)存儲(chǔ)庫的搜索結(jié)果??商娲?地,可以確定應(yīng)當(dāng)提供來自具有高于某個(gè)閾值的相關(guān)分?jǐn)?shù)的存儲(chǔ)庫的 搜索結(jié)果,如果沒有分?jǐn)?shù)高于該閾值,則提供來自具有最高相關(guān)分?jǐn)?shù) 的存儲(chǔ)庫的搜索結(jié)果??梢蕴娲鼗蚋郊拥厥褂糜糜诖_定是否提供與 存儲(chǔ)庫關(guān)聯(lián)的搜索結(jié)果的其它規(guī)則??梢蕴娲鼗蛘吒郊拥厥褂媚P洼敵龃_定提供來自不同存儲(chǔ)庫 的搜索結(jié)果的方式。例如,可以確定如果與存儲(chǔ)庫關(guān)聯(lián)的分?jǐn)?shù)低于某 個(gè)閾值,則可以將與存儲(chǔ)庫相關(guān)的搜索結(jié)果提供在向用戶呈現(xiàn)的搜索 結(jié)果文檔的底部,而不是搜索結(jié)果文檔的頂部。可替代地或者附加地, 可以確定如果與存儲(chǔ)庫關(guān)聯(lián)的分?jǐn)?shù)低于某個(gè)閾值,則呈現(xiàn)到與該存儲(chǔ) 庫相關(guān)的搜索結(jié)果的鏈接,而不是搜索結(jié)果本身??梢蕴娲鼗蛘吒?加地使用用于確定提供與存儲(chǔ)庫相關(guān)的搜索結(jié)果的方式的其它規(guī)則。隨后,可以將搜索結(jié)果設(shè)置在搜索結(jié)果文檔中并提供給用戶。每 個(gè)搜索結(jié)果例如可以包括到來自對(duì)應(yīng)存儲(chǔ)庫的文檔的鏈接和可能的對(duì)該文檔的簡要描述或摘錄。在另一種實(shí)施方式中,可以根據(jù)模型識(shí)別將要搜索的一個(gè)或多個(gè)存儲(chǔ)庫(方框650)。例如,可以使用關(guān)于用戶、用戶提供的搜索查 詢和每個(gè)存儲(chǔ)庫的信息作為模型的輸入??梢詫⒃撃P蛻?yīng)用于每個(gè)存儲(chǔ)庫,和可以使用模型的輸出("分?jǐn)?shù)")確定將要搜索哪個(gè)存儲(chǔ)庫。 例如,可以確定應(yīng)當(dāng)搜索具有最高相關(guān)分?jǐn)?shù)的兩個(gè)存儲(chǔ)庫??商娲兀?可以確定應(yīng)當(dāng)始終搜索存儲(chǔ)庫中的一個(gè)特定存儲(chǔ)庫,并且如果與另外 一個(gè)或多個(gè)存儲(chǔ)庫相關(guān)的分?jǐn)?shù)高于與該特定存儲(chǔ)庫關(guān)聯(lián)的分?jǐn)?shù),則還 應(yīng)當(dāng)搜索另外一個(gè)或多個(gè)存儲(chǔ)庫。可替代地,可以確定應(yīng)當(dāng)搜索具有 高于某個(gè)閾值的相關(guān)分?jǐn)?shù)的存儲(chǔ)庫,如果沒有分?jǐn)?shù)高于該閾值,則搜 索具有最高相關(guān)分?jǐn)?shù)的存儲(chǔ)庫??梢钥商娲鼗蛘吒郊拥厥褂糜糜诖_ 定將要搜索哪個(gè)存儲(chǔ)庫的其它規(guī)則??梢詧?zhí)行搜索以獲得來自每個(gè)所識(shí)別存儲(chǔ)庫的搜索結(jié)果集合(方 框660)??梢允褂萌我獾某R?guī)信息檢索技術(shù)識(shí)別相關(guān)文檔以包括在 搜索結(jié)果集合內(nèi)。隨后,可以根據(jù)模型提供搜索結(jié)果(方框670)。例如,可以使 用模型輸出確定提供來自不同存儲(chǔ)庫的搜索結(jié)果的方式。例如,可以 確定如果與存儲(chǔ)庫關(guān)聯(lián)的分?jǐn)?shù)低于某個(gè)閾值,則可以將與該存儲(chǔ)庫關(guān) 聯(lián)的搜索結(jié)果呈現(xiàn)在呈現(xiàn)給用戶的搜索結(jié)果文檔的底部而不是在搜 索結(jié)果文檔的頂部??商娲?,或者附加地,可以確定如果與存儲(chǔ)庫 關(guān)聯(lián)的分?jǐn)?shù)低于某個(gè)閾值,可以提供到與該存儲(chǔ)庫關(guān)聯(lián)的搜索結(jié)果的 鏈接,而不是搜索結(jié)果本身??梢蕴娲鼗蛘吒郊拥厥褂糜糜诖_定提 供與存儲(chǔ)庫關(guān)聯(lián)的搜索結(jié)果的方式的其它規(guī)則。隨后,可以將搜索結(jié)果設(shè)置在搜索結(jié)果文檔中和提供給用戶。每 個(gè)搜索結(jié)果可以包括例如到來自相應(yīng)存儲(chǔ)庫的文檔的鏈接和可能的 對(duì)該文檔的簡要描述或摘錄。在另一種實(shí)施例中,可以使用兩個(gè)或更多模型。例如,可以使用 第一模型確定是否搜索存儲(chǔ)庫;可以使用第二模型確定是否在搜索結(jié) 果文檔中包括來自搜索存儲(chǔ)庫之一的搜索結(jié)果;以及可以使用第二模型、可能還有第三模型確定用于在搜索結(jié)果文檔中呈現(xiàn)搜索結(jié)果的方 式。可以根據(jù)彼此不同的一個(gè)或多個(gè)因素生成第一、第二和/或第三模 型。例如,在一種實(shí)施方式中,可以使用第一模型的輸出作為第二模 型的輸入和/或可以使用第一和/或第二模型的輸出作為第三模型的輸 入。可以將與此搜索相關(guān)的信息作為日志數(shù)據(jù)提供給存儲(chǔ)器220。例 如,可以使用此信息作為用于訓(xùn)練或優(yōu)化該模型的訓(xùn)練數(shù)據(jù)。例子圖7至圖10圖示符合本發(fā)明原理的示例實(shí)施方式。如圖7所示, 假設(shè)搜索引擎系統(tǒng)710具有三個(gè)相關(guān)存儲(chǔ)庫,包括網(wǎng)頁存儲(chǔ)庫720、 圖像存儲(chǔ)庫730和新聞存儲(chǔ)庫740。網(wǎng)頁存儲(chǔ)庫720可以存儲(chǔ)網(wǎng)頁相 關(guān)信息。圖像存儲(chǔ)庫730可以存儲(chǔ)圖像相關(guān)信息。新聞存儲(chǔ)庫740可 以存儲(chǔ)新聞文檔相關(guān)信息。搜索引擎系統(tǒng)710可以接收來自用戶的搜 索查詢,和提供來自 一個(gè)或多個(gè)存儲(chǔ)庫720-740的相關(guān)搜索結(jié)果。如圖8所示,假設(shè)用戶訪問與搜索引擎系統(tǒng)710關(guān)聯(lián)的界面。該 界面可以與存儲(chǔ)庫之一關(guān)聯(lián)或者不與任何存儲(chǔ)庫關(guān)聯(lián)。如圖8所示, 假設(shè)用戶將搜索查詢"sunset"提供給搜索引擎系統(tǒng)710。除了搜索查 詢之外,搜索引擎系統(tǒng)710可以獲取用戶相關(guān)信息,例如與用戶相關(guān) 的IP地址、cookie信息、語言和/或地理信息。在一種實(shí)施方式,如上文所述,搜索引擎系統(tǒng)710可以對(duì)每個(gè)存 儲(chǔ)庫720-740執(zhí)行搜索以獲取每個(gè)存儲(chǔ)庫720-740的搜索結(jié)果集合。 假設(shè)搜索引擎系統(tǒng)710識(shí)別出來自網(wǎng)頁存儲(chǔ)庫720的IO個(gè)網(wǎng)頁結(jié)果、 來自圖像存儲(chǔ)庫730的IO個(gè)圖像結(jié)果和來自新聞存儲(chǔ)庫740的10個(gè) 新聞文檔結(jié)果作為用于搜索查詢"sunset"的相關(guān)搜索結(jié)果。搜索引擎系統(tǒng)710可以輸入與用戶、用戶提供的搜索查詢和每個(gè) 存儲(chǔ)庫720-740相關(guān)的信息作為模型的輸入??梢允褂迷撃P痛_定當(dāng) 用戶提供搜索查詢"sunset,,時(shí)用戶期望來自每個(gè)存儲(chǔ)庫720-740的信 息的概率。例如,假設(shè)通過模型生成下述輸出P ( desire|u,q,show_web page repository ) =0.45P ( desire|u,q,show_image repository ) =0.91P ( desire|u,q,show_news repository) =0,23其中"u"是指與提供搜索查詢的用戶對(duì)應(yīng)的用戶信息,"q"是指 與用戶提供的搜索查詢對(duì)應(yīng)的信息(即"sunset"),和"show—x repository"(其中x對(duì)應(yīng)于"web page"、 "image,,或"news,,)是指與 所識(shí)別存儲(chǔ)庫對(duì)應(yīng)的信息。在這種情況下,當(dāng)用戶提供搜索查詢 "sunset"時(shí)用戶期望來自網(wǎng)頁存儲(chǔ)庫720的信息的概率是45%;當(dāng)用 戶提供搜索查詢"sunset,,時(shí)用戶期望來自圖像存儲(chǔ)庫730的信息的概 率是91%;和當(dāng)用戶提供搜索查詢"sunset"時(shí)用戶期望來自新聞存儲(chǔ) 庫740的信息的概率是23%。隨后,搜索引擎系統(tǒng)710可以使用與每個(gè)存儲(chǔ)庫720-740相關(guān)的 模型輸出確定是否提供與該存儲(chǔ)庫關(guān)聯(lián)的搜索結(jié)果。例如,假設(shè)規(guī)則 指示搜索引擎系統(tǒng)710將僅提供來自具有最高分?jǐn)?shù)的存儲(chǔ)庫的搜索結(jié) 果。在這種情況下,搜索引擎系統(tǒng)710可以根據(jù)從圖像存儲(chǔ)庫"0(即 具有最高分?jǐn)?shù)0.91的存儲(chǔ)庫)識(shí)別出的10個(gè)圖像結(jié)果形成搜索結(jié)果 文檔,如圖9所示??商娲?,假設(shè)規(guī)則指示搜索引擎系統(tǒng)710始終提供來自網(wǎng)頁存 儲(chǔ)庫720的搜索結(jié)果,并且如果另 一個(gè)存儲(chǔ)庫具有高于與網(wǎng)頁存儲(chǔ)庫 720關(guān)聯(lián)的分?jǐn)?shù)的關(guān)聯(lián)分?jǐn)?shù),則提供來自該存儲(chǔ)庫(或多個(gè)存儲(chǔ)庫) 的搜索結(jié)果。在這種情況下,搜索引擎系統(tǒng)710可以確定它提供來自 網(wǎng)頁存儲(chǔ)庫720和圖像存儲(chǔ)庫730的搜索結(jié)果,因?yàn)榕c圖像存儲(chǔ)庫730 關(guān)聯(lián)的分?jǐn)?shù)(0.91)大于與網(wǎng)頁存儲(chǔ)庫720關(guān)聯(lián)的分?jǐn)?shù)(0.45 )。隨后,搜索引擎系統(tǒng)710可以根據(jù)來自網(wǎng)頁存儲(chǔ)庫720的10個(gè) 網(wǎng)頁結(jié)果和來自圖像存儲(chǔ)庫730的10個(gè)圖像結(jié)果形成搜索結(jié)果文檔, 如圖10所示。因?yàn)榕c圖像存儲(chǔ)庫730關(guān)聯(lián)的分?jǐn)?shù)高于與網(wǎng)頁存儲(chǔ)庫 720關(guān)聯(lián)的分?jǐn)?shù)(或者一定程度高于或大于閾值),可以在搜索結(jié)果 文檔中在與10個(gè)網(wǎng)頁結(jié)果相比更突出的位置上提供與10個(gè)圖像結(jié)果相關(guān)的信息,同樣如圖10所示。類似于圖9所示,用戶可以選擇將 與IO個(gè)圖像結(jié)果關(guān)聯(lián)的鏈接與圖像結(jié)果相關(guān)的附加信息(例如"SEE 10 IMAGE RESULTS FOR SUNSET") —起呈現(xiàn)。結(jié)論符合本發(fā)明原理的實(shí)施方式可以生成可用于預(yù)測(cè)當(dāng)用戶提供搜 索查詢時(shí)用戶可能對(duì)哪個(gè)或哪些存儲(chǔ)庫感興趣的模型,并使用此模型 向用戶提供相關(guān)搜索結(jié)果。本發(fā)明優(yōu)選實(shí)施例的上述描述提供說明和描述,但是將不是窮盡 的或者不將本發(fā)明限制于所公開的具體形式。鑒于上述教導(dǎo)可以進(jìn)行 修改和變化,或者可以通過實(shí)施本發(fā)明獲得。例如,雖然已經(jīng)參考圖4和圖6描述動(dòng)作序列,但是可以在符合 本發(fā)明原理的其它實(shí)施方式中修改動(dòng)作順序。此外,可以并行執(zhí)行非 從屬動(dòng)作。而且,已經(jīng)參考圖8-10描述示例的用戶界面。在符合本發(fā)明原 理的其它實(shí)施方式中,用戶界面可以包括更多、更少或者不同的信息。前面的描述提到用戶。"用戶"將是指客戶機(jī),例如客戶機(jī)510(圖 5)或者客戶機(jī)的操作者。此外,已經(jīng)描述了可以使用模型輸出("分?jǐn)?shù),,)確定是否搜索存 儲(chǔ)庫,是否在搜索結(jié)果文檔中包括來自存儲(chǔ)庫的搜索結(jié)果,和/或用于 在搜索結(jié)果文檔中呈現(xiàn)搜索結(jié)果的方式。在另一種實(shí)施方式中,可以 使用分?jǐn)?shù)作為對(duì)確定是否搜索存儲(chǔ)庫、是否在搜索結(jié)果文檔中包括來 自存儲(chǔ)庫的搜索結(jié)果、和/或用于在搜索結(jié)果文檔中呈現(xiàn)搜索結(jié)果的方 式的函數(shù)的一個(gè)輸入或者多個(gè)輸入。此外,確定上面描述的一些特征比確定其它特征需要更大計(jì)算 量。例如,在存儲(chǔ)庫內(nèi)基于文檔的特征可能需要查詢這些存儲(chǔ)庫和提 取文檔。為了計(jì)算效率,可以根據(jù)較低計(jì)算量(例如更廉價(jià))的特征 建立近似主模型,可以使用該近似主模型確定將要搜索哪些存儲(chǔ)庫。 一旦已經(jīng)提取來自這些存儲(chǔ)庫的文檔,則可以使用完全主模型確定從哪些存儲(chǔ)庫提供搜索結(jié)果。而且,能夠根據(jù)"探測(cè),,(exploration)策略使用該模型以收集關(guān) 于不同存儲(chǔ)庫的信息。例如,可能希望提供與次佳存儲(chǔ)庫相關(guān)的搜索 結(jié)果(例如提供新聞文檔而不是圖像)。 一種探測(cè)策略可以指示將來 自隨機(jī)存儲(chǔ)庫的文檔呈現(xiàn)給一小部分用戶。另一種探測(cè)策略可以指示 與分?jǐn)?shù)成比例地呈現(xiàn)來自存儲(chǔ)庫的文檔(例如如果確定圖像分?jǐn)?shù)兩倍 于新聞文章分?jǐn)?shù),則隨后可以以兩倍于新聞文章的頻度提供圖像)。已經(jīng)描述可以生成模型以根據(jù)用戶期望來自所識(shí)別存儲(chǔ)庫的信 息的可能性來識(shí)別存儲(chǔ)庫(或一組存儲(chǔ)庫)。在一種實(shí)施方式中,可 以將該模型構(gòu)建為查找表,其具有根據(jù)諸如與查詢相關(guān)的一個(gè)或多個(gè) 特征(例如查詢項(xiàng))等一個(gè)或多個(gè)特征確定的關(guān)鍵字(key)。查找 表的輸出可以包括用于每個(gè)存儲(chǔ)庫的點(diǎn)擊率(或者估計(jì)點(diǎn)擊率)。在 這種情況下,用戶期望來自存儲(chǔ)庫之一的信息的可能性可以是該存儲(chǔ) 庫的點(diǎn)擊率的函數(shù)。例如,可以根據(jù)存儲(chǔ)庫的點(diǎn)擊率確定是否搜索存 儲(chǔ)庫、是否在搜索結(jié)果文檔中包括來自存儲(chǔ)庫的搜索結(jié)果、和/或呈現(xiàn) 搜索結(jié)果的方式。對(duì)于本領(lǐng)域的普通技術(shù)人員來說,顯然可以將上面描述的本發(fā)明 的各個(gè)方面實(shí)施為多種不同形式的如圖所示實(shí)施方式中的軟件、固件 和硬件。用于實(shí)施符合本發(fā)明原理各個(gè)方面的實(shí)際軟件編碼或?qū)S每?制硬件并不限制于本發(fā)明。因而,在不參考特定軟件代碼的情況下描 述各個(gè)方面的操作和行為-將理解本領(lǐng)域的普通技術(shù)人員將能夠根 據(jù)在此的描述設(shè)計(jì)軟件和控制硬件以實(shí)現(xiàn)各個(gè)方面。不應(yīng)當(dāng)將本申請(qǐng)中使用的單元、動(dòng)作或指令解釋為本發(fā)明必需 的,除非明確如此描述。而且,如在此使用的,"一,,將包括一個(gè)或多 個(gè)項(xiàng)目。在僅指一個(gè)項(xiàng)目時(shí),使用術(shù)語"一個(gè),,或類似用詞。此外,短 語"基于"將指"至少部分地基于",除非明確陳述。
權(quán)利要求
1.一種方法,包括從用戶接收搜索查詢;根據(jù)搜索查詢搜索多個(gè)存儲(chǔ)庫,以為每個(gè)存儲(chǔ)庫識(shí)別一搜索結(jié)果集合;根據(jù)用戶期望來自所識(shí)別存儲(chǔ)庫的信息的可能性來識(shí)別存儲(chǔ)庫之一;和呈現(xiàn)與所識(shí)別存儲(chǔ)庫關(guān)聯(lián)的搜索結(jié)果集合。
2. 權(quán)利要求l的方法,還包括生成模型,用于確定與當(dāng)特定用戶提供特定搜索查詢時(shí),該用戶 期望來自存儲(chǔ)庫的信息的可能性關(guān)聯(lián)的分?jǐn)?shù)。
3. 權(quán)利要求2的方法,其中識(shí)別存儲(chǔ)庫之一包括 根據(jù)模型確定每個(gè)存儲(chǔ)庫的分?jǐn)?shù);和 根據(jù)分?jǐn)?shù)選擇存儲(chǔ)庫之一。
4. 權(quán)利要求2的方法,其中生成模型包括 存儲(chǔ)與多個(gè)在先搜索關(guān)聯(lián)的日志數(shù)據(jù);和 使用日志數(shù)據(jù)訓(xùn)練模型。
5. 權(quán)利要求4的方法,其中生成模型還包括 將日志數(shù)據(jù)表示為三位數(shù)據(jù)(u,q,r),其中u是指與提供搜索查詢的用戶相關(guān)的信息,q是指與搜索查詢相關(guān)的信息,和r是指與 響應(yīng)于搜索查詢從中提供搜索結(jié)果的存儲(chǔ)庫相關(guān)的信息。
6. 權(quán)利要求5的方法,其中日志數(shù)據(jù)包括以百萬計(jì)的三位數(shù)據(jù) (u,q,r )。
7. 權(quán)利要求5的方法,其中生成模型還包括 確定每個(gè)三位數(shù)據(jù)(u,q,r)的標(biāo)簽,其中標(biāo)簽包括與當(dāng)用戶u提供搜索查詢q時(shí)用戶是否期望來自存儲(chǔ)庫r的信息相關(guān)的信息。
8. 權(quán)利要求7的方法,其中使用日志數(shù)據(jù)訓(xùn)練模型包括 根據(jù)三位數(shù)據(jù)(u,q,r)和相關(guān)標(biāo)簽訓(xùn)練模型。
9. 權(quán)利要求l的方法,還包括確定每個(gè)存儲(chǔ)庫的分?jǐn)?shù),所述存儲(chǔ)庫之一的分?jǐn)?shù)與用戶期望來自 所述一個(gè)存儲(chǔ)庫的信息的可能性關(guān)聯(lián)。
10. 權(quán)利要求9的方法,其中識(shí)別存儲(chǔ)庫之一包括 選擇具有最高分?jǐn)?shù)的存儲(chǔ)庫之一 。
11. 權(quán)利要求9的方法,其中呈現(xiàn)與所識(shí)別存儲(chǔ)庫關(guān)聯(lián)的搜索結(jié) 果集合包括根據(jù)兩個(gè)或更多存儲(chǔ)庫的分?jǐn)?shù)提供與兩個(gè)或更多存儲(chǔ)庫關(guān)聯(lián)的 搜索結(jié)果集合。
12. 權(quán)利要求ll的方法,其中根據(jù)兩個(gè)或更多存儲(chǔ)庫的分?jǐn)?shù)提 供與兩個(gè)或更多存儲(chǔ)庫關(guān)聯(lián)的搜索結(jié)果集合包括根據(jù)與兩個(gè)或更多存儲(chǔ)庫關(guān)聯(lián)的分?jǐn)?shù),將搜索結(jié)果集合設(shè)置在搜 索結(jié)果文檔中;和向用戶提供搜索結(jié)果文檔。
13. 權(quán)利要求12的方法,其中根據(jù)與兩個(gè)或更多存儲(chǔ)庫關(guān)聯(lián)的 分?jǐn)?shù)將搜索結(jié)果集合設(shè)置在搜索結(jié)果文檔中包括當(dāng)與兩個(gè)或更多存儲(chǔ)庫中的第一存儲(chǔ)庫關(guān)聯(lián)的分?jǐn)?shù)高于與兩個(gè) 或更多存儲(chǔ)庫中的第二存儲(chǔ)庫關(guān)聯(lián)的分?jǐn)?shù)時(shí),在搜索結(jié)果文檔中將與 第一存儲(chǔ)庫關(guān)聯(lián)的搜索結(jié)果集合放置在與第二存儲(chǔ)庫關(guān)聯(lián)的搜索結(jié) 果集合相比更突出的位置上。
14. 權(quán)利要求12的方法,其中根據(jù)與兩個(gè)或更多存儲(chǔ)庫關(guān)聯(lián)的 分?jǐn)?shù)在搜索結(jié)果文檔中放置搜索結(jié)果集合包括在搜索結(jié)果文檔中提供到與兩個(gè)或更多存儲(chǔ)庫中的至少之一關(guān) 聯(lián)的搜索結(jié)果集合的鏈接。
15. 權(quán)利要求9的方法,還包括 根據(jù)分?jǐn)?shù)選擇將要搜索的一組存儲(chǔ)庫;和 其中搜索多個(gè)存儲(chǔ)庫包括 對(duì)該組存儲(chǔ)庫執(zhí)行搜索。
16. —種系統(tǒng),包括用于從用戶接收搜索查詢的裝置;用于根據(jù)搜索查詢對(duì)多個(gè)存儲(chǔ)庫執(zhí)行搜索、以為每個(gè)存儲(chǔ)庫識(shí)別 一搜索結(jié)果集合的裝置;用于確定每個(gè)存儲(chǔ)庫的分?jǐn)?shù)的裝置,所述存儲(chǔ)庫之一的分?jǐn)?shù)基于 用戶期望來自所述一個(gè)存儲(chǔ)庫的信息的可能性;和用于根據(jù)分?jǐn)?shù)提供搜索結(jié)果集合中的一個(gè)或多個(gè)的裝置。
17. 權(quán)利要求16的系統(tǒng),還包括用于根據(jù)分?jǐn)?shù)選擇將要搜索的一組存儲(chǔ)庫的裝置。
18. —種系統(tǒng),包括 搜索引擎系統(tǒng),用于 從用戶接收搜索查詢;為多個(gè)存儲(chǔ)庫中的每個(gè)存儲(chǔ)庫確定分?jǐn)?shù),所述存儲(chǔ)庫之一的分?jǐn)?shù)基于用戶期望來自所述一個(gè)存儲(chǔ)庫的信息的可能性;根據(jù)搜索查詢對(duì)一個(gè)或多個(gè)存儲(chǔ)庫執(zhí)行搜索,以為一個(gè)或多個(gè)存 儲(chǔ)庫中的每個(gè)存儲(chǔ)庫識(shí)別一搜索結(jié)果集合;和根據(jù)分?jǐn)?shù)提供搜索結(jié)果集合中的一個(gè)或多個(gè)。
19. 權(quán)利要求18的系統(tǒng),其中當(dāng)對(duì)一個(gè)或多個(gè)存儲(chǔ)庫執(zhí)行搜索 時(shí),搜索引擎系統(tǒng)被配置為根據(jù)分?jǐn)?shù)識(shí)別將要搜索的一組存儲(chǔ)庫;和 搜索該組存儲(chǔ)庫以為該組存儲(chǔ)庫中的每個(gè)存儲(chǔ)庫識(shí)別一搜索結(jié) 果集合。
20. 權(quán)利要求18的系統(tǒng),其中當(dāng)對(duì)一個(gè)或多個(gè)存儲(chǔ)庫執(zhí)行搜索 時(shí),搜索引擎系統(tǒng)被配置為根據(jù)搜索查詢搜索每個(gè)存儲(chǔ)庫。
21. 權(quán)利要求18的系統(tǒng),還包括模型生成系統(tǒng),用于生成模型,所述模型確定與當(dāng)特定用戶提供 特定搜索查詢時(shí),該用戶期望來自存儲(chǔ)庫的信息的可能性關(guān)聯(lián)的分 數(shù)。
22. 權(quán)利要求21的系統(tǒng),其中所述模型是查找表,所述分?jǐn)?shù)對(duì)應(yīng)于當(dāng)用戶提供特定搜索查詢時(shí)與存儲(chǔ)庫關(guān)聯(lián)的點(diǎn)擊率。
23. 權(quán)利要求21的系統(tǒng),其中當(dāng)確定多個(gè)存儲(chǔ)庫中每個(gè)存儲(chǔ)庫 的分?jǐn)?shù)時(shí),搜索引擎系統(tǒng)被配置為根據(jù)模型確定每個(gè)存儲(chǔ)庫的分?jǐn)?shù)。
24. 權(quán)利要求21的系統(tǒng),其中當(dāng)生成模型時(shí),模型生成系統(tǒng)被 配置為存儲(chǔ)與多個(gè)在先搜索關(guān)聯(lián)的日志數(shù)據(jù);和 使用日志數(shù)據(jù)訓(xùn)練模型。
25. 權(quán)利要求24的系統(tǒng),其中當(dāng)生成模型時(shí),模型生成系統(tǒng)還 被配置為將日志數(shù)據(jù)表示為三位數(shù)據(jù)(u,q,r),其中u是指與提供搜索 查詢的用戶相關(guān)的信息,q是指與搜索查詢相關(guān)的信息,和r是指與 響應(yīng)于搜索查詢從中提供搜索結(jié)果的存儲(chǔ)庫相關(guān)的信息。
26. 權(quán)利要求25的系統(tǒng),其中日志數(shù)據(jù)包括以百萬計(jì)的三位數(shù) 據(jù)(u,q,r )。
27. 權(quán)利要求25的系統(tǒng),其中當(dāng)生成模型時(shí),模型生成系統(tǒng)被 酉己i力確定每個(gè)三位數(shù)據(jù)(u,q,r)的標(biāo)簽,其中標(biāo)簽包括與當(dāng)用戶u 提供搜索查詢q時(shí)用戶是否期望來自存儲(chǔ)庫r的信息相關(guān)的信息。
28. 權(quán)利要求27的系統(tǒng),其中當(dāng)生成模型時(shí),模型生成系統(tǒng)被 配置為根據(jù)三位數(shù)據(jù)(u,q,r)和相關(guān)標(biāo)簽訓(xùn)練該模型。
29. 權(quán)利要求18的系統(tǒng),其中當(dāng)提供搜索結(jié)果集合中的一個(gè)或多個(gè)時(shí),搜索引擎系統(tǒng)被配置為選擇具有最高分?jǐn)?shù)的存儲(chǔ)庫之一;呈現(xiàn)與該選定存儲(chǔ)庫關(guān)聯(lián)的搜索結(jié)果集合。
30. 權(quán)利要求18的系統(tǒng),其中當(dāng)提供搜索結(jié)果集合中的一個(gè)或 多個(gè)時(shí),搜索引擎系統(tǒng)被配置為根據(jù)與一個(gè)或多個(gè)存儲(chǔ)庫關(guān)聯(lián)的分?jǐn)?shù),將搜索結(jié)果集合中的一個(gè)或多個(gè)設(shè)置在搜索結(jié)果文檔中;和 向用戶提供搜索結(jié)果文檔。
31. 權(quán)利要求30的系統(tǒng),其中當(dāng)將搜索結(jié)果集合中的一個(gè)或多 個(gè)設(shè)置在搜索結(jié)果文檔中時(shí),搜索引擎系統(tǒng)被配置為當(dāng)與一個(gè)或多個(gè)存儲(chǔ)庫中的第一存儲(chǔ)庫關(guān)聯(lián)的分?jǐn)?shù)高于與一個(gè) 或多個(gè)存儲(chǔ)庫中的第二存儲(chǔ)庫關(guān)聯(lián)的分?jǐn)?shù)時(shí),在搜索結(jié)果文檔中將與 第一存儲(chǔ)庫關(guān)聯(lián)的搜索結(jié)果集合放置在與第二存儲(chǔ)庫關(guān)聯(lián)的搜索結(jié) 果集合相比更突出的位置上。
32. 權(quán)利要求30的系統(tǒng),其中當(dāng)將搜索結(jié)果集合中的一個(gè)或多 個(gè)設(shè)置在搜索結(jié)果文檔中時(shí),搜索引擎系統(tǒng)被配置為在搜索結(jié)果文檔中提供到與一個(gè)或多個(gè)存儲(chǔ)庫中的至少之一關(guān) 聯(lián)的搜索結(jié)果集合的鏈接。
33. —種存儲(chǔ)數(shù)據(jù)和計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀介質(zhì),包括 基于用戶提供的搜索查詢的與多個(gè)存儲(chǔ)庫搜索關(guān)聯(lián)的日志數(shù)據(jù); 用于將日志數(shù)據(jù)表示為三位數(shù)據(jù)(u,q,r)的指令,其中u是指與提供搜索查詢的用戶相關(guān)的信息,q是指與搜索查詢相關(guān)的信息, 和r是指與響應(yīng)于搜索查詢從中提供搜索結(jié)果的存儲(chǔ)庫相關(guān)的信息;用于為每個(gè)三位數(shù)據(jù)(u,q,r )確定標(biāo)簽的指令,其中標(biāo)簽包括與 當(dāng)用戶u提供搜索查詢q時(shí)用戶是否期望來自存儲(chǔ)庫r的信息相關(guān)的 信息;和用于根據(jù)三位數(shù)據(jù)(u,q,r)和相關(guān)標(biāo)簽訓(xùn)練模型的指令,其中所 述模型預(yù)測(cè)當(dāng)特定用戶提供特定搜索查詢時(shí)該用戶是否期望來自存 儲(chǔ)庫的信息。
34. 權(quán)利要求33的計(jì)算機(jī)可讀介質(zhì),其中日志數(shù)據(jù)包括以百萬 計(jì)的三位數(shù)據(jù)(u,q,r)。
35. —種系統(tǒng),包括 存儲(chǔ)第一類型數(shù)據(jù)的第一存儲(chǔ)庫; 存儲(chǔ)第二類型數(shù)據(jù)的第二存儲(chǔ)庫;和 搜索引擎系統(tǒng),用于從用戶接收搜索查詢;和根據(jù)關(guān)于用戶、搜索查詢和第一或第二存儲(chǔ)庫的信息,確定 用戶期望來自第一或第二存儲(chǔ)庫的信息的可能性。
36. —種系統(tǒng),包括模型生成系統(tǒng),用于生成模型,所述模型確定與當(dāng)特定用戶提供 特定搜索查詢時(shí),該用戶期望來自存儲(chǔ)庫的信息的可能性關(guān)聯(lián)的分 數(shù);和搜索引擎系統(tǒng),用于 從用戶接收搜索查詢;根據(jù)該模型確定多個(gè)存儲(chǔ)庫中每個(gè)存儲(chǔ)庫的分?jǐn)?shù);和 根據(jù)分?jǐn)?shù)呈現(xiàn)來自 一個(gè)或多個(gè)存儲(chǔ)庫的搜索結(jié)果。
37. 權(quán)利要求36的系統(tǒng),其中所述模型是查找表,所述分?jǐn)?shù)對(duì) 應(yīng)于當(dāng)用戶提供特定搜索查詢時(shí)與存儲(chǔ)庫關(guān)聯(lián)的點(diǎn)擊率。
38. —種方法,包括從用戶接收搜索查詢;確定多個(gè)存儲(chǔ)庫中每個(gè)存儲(chǔ)庫的分?jǐn)?shù),所述存儲(chǔ)庫之一的分?jǐn)?shù)基于用戶期望來自所述一個(gè)存儲(chǔ)庫的信息的可能性;根據(jù)搜索查詢和所確定的分?jǐn)?shù)對(duì)至少一個(gè)存儲(chǔ)庫執(zhí)行搜索,以為 至少一個(gè)存儲(chǔ)庫中的每個(gè)存儲(chǔ)庫識(shí)別一搜索結(jié)果集合;和提供搜索結(jié)果集合中的一個(gè)或多個(gè)。
39. —種系統(tǒng),包括模型生成系統(tǒng),用于生成第一和第二模型,其中用于生成第二模型的至少一個(gè)因素與在生成第一模型時(shí)是不同的或者不存在;和搜索引擎系統(tǒng),用于從用戶接收搜索查詢;根據(jù)第 一模型確定多個(gè)存儲(chǔ)庫中每個(gè)存儲(chǔ)庫的第 一分?jǐn)?shù); 根據(jù)搜索查詢和第 一分?jǐn)?shù)對(duì)一個(gè)或多個(gè)存儲(chǔ)庫執(zhí)行搜索; 根據(jù)第二模型確定一個(gè)或多個(gè)存儲(chǔ)庫中每個(gè)存儲(chǔ)庫的第二分?jǐn)?shù);和根據(jù)第二分?jǐn)?shù)呈現(xiàn)來自一個(gè)或多個(gè)存儲(chǔ)庫中至少之一的搜索結(jié)果。
40.權(quán)利要求39的系統(tǒng),其中使用第一模型的輸出作為對(duì)第二 模型的輸入。
全文摘要
一種系統(tǒng)從用戶接收搜索查詢,根據(jù)該搜索查詢搜索一組存儲(chǔ)庫以為每個(gè)存儲(chǔ)庫識(shí)別一個(gè)搜索結(jié)果集合。該系統(tǒng)還根據(jù)用戶期望來自所識(shí)別存儲(chǔ)庫的信息的可能性來識(shí)別存儲(chǔ)庫之一,并呈現(xiàn)與所識(shí)別存儲(chǔ)庫關(guān)聯(lián)的搜索結(jié)果集合。
文檔編號(hào)G06F17/30GK101248435SQ200680030148
公開日2008年8月20日 申請(qǐng)日期2006年6月27日 優(yōu)先權(quán)日2005年6月29日
發(fā)明者D·布拉金斯基, J·金斯伯格, M·安格羅, S·童 申請(qǐng)人:谷歌公司