可搜索索引的制作方法
【專利說明】可搜索索引
【背景技術(shù)】
[0001] 推薦系統(tǒng)可以具有分離的信息檢索和機器學(xué)習(xí)的排名階段。信息檢索階段基于各 種信號從語料庫選擇文檔(視頻、廣告、音樂、文本文檔等)并且機器學(xué)習(xí)的系統(tǒng)對信息檢 索系統(tǒng)的輸出進行排名。例如,當(dāng)用戶錄入查詢"貓"時,上下文信息檢索系統(tǒng)可以從所有 可用的廣告中選擇包含詞語"貓"的候選廣告集。此候選廣告集繼而可以基于機器學(xué)習(xí)的 模型被排名,該機器學(xué)習(xí)的模型已經(jīng)被訓(xùn)練以基于各種特征(諸如,用戶的類型、用戶的位 置、一天中進行查詢的時間等)來預(yù)測廣告被用戶點入(Click through)的可能性。信息 檢索工具是計算上高效的,但是僅可以產(chǎn)生向用戶最佳推薦的項目的粗略估計。機器學(xué)習(xí) 的模型能夠產(chǎn)生更精確的推薦,但是與信息檢索工具相比經(jīng)常在計算上更密集。此外,因為 信息檢索工具較不準確,因此其可以使用機器學(xué)習(xí)的模型從考慮中排除可能另外排名高的 某些候選。
【發(fā)明內(nèi)容】
[0002] 根據(jù)本公開主題的實現(xiàn)方式,來自機器學(xué)習(xí)的模型的多個規(guī)則可以由計算機化的 機器學(xué)習(xí)系統(tǒng)生成并接收,每個規(guī)則包含成果、一個或多個特征以及由機器學(xué)習(xí)的模型針 對該一個或多個特征和成果預(yù)測的成果概率。針對基于令牌的索引的條目可以針對多個規(guī) 則中的每個規(guī)則被生成并且可以包含基于規(guī)則的一個或多個特征、規(guī)則的成果和規(guī)則的成 果概率的一個或多個令牌。查詢可以被接收并且對應(yīng)于該查詢的令牌的子集可以被標識。 基于令牌的索引可以被搜索以基于令牌的子集獲得多個成果概率。成果可以基于多個成果 概率被選擇并且可以被提供給用戶。選定成果的子集可以被排名。例如,數(shù)百視頻(成果) 可以通過概率排名并且前二十可以從最高概率到最低概率被顯示給用戶。
[0003] 根據(jù)本公開的系統(tǒng)和技術(shù)可以基于作為機器學(xué)習(xí)系統(tǒng)的產(chǎn)品的模型的規(guī)則和結(jié) 果生成或修改一個或多個索引。生成或修改的索引可以被用于基于搜索技術(shù)來提供結(jié)果。 本公開主題的附加特性、優(yōu)點和實現(xiàn)方式可以通過考慮以下【具體實施方式】、附圖和權(quán)利要 求書進行闡述或者變得容易理解。此外,應(yīng)當(dāng)理解以上
【發(fā)明內(nèi)容】
和以下【具體實施方式】包括 各種示例并且旨在提供進一步的解釋而不是限制權(quán)利要求書的范圍。
【附圖說明】
[0004] 為提供對本公開主題的進一步理解而包括的附圖并入在本說明書中并且構(gòu)成本 說明書的一部分。附圖還圖示了本公開主題的各實現(xiàn)方式,并且與【具體實施方式】一起用于 解釋本公開主題的各實現(xiàn)方式的原理。并未試圖示出比對于本公開主題以及在其中可實踐 本公開主題的各種方法的基本理解所必需的更為詳細的結(jié)構(gòu)細節(jié)。
[0005] 圖1示出了根據(jù)本公開主題的一個實現(xiàn)方式的用于經(jīng)由基于令牌的索引提供成 果/成果概率的示例圖示。
[0006] 圖2a示出了根據(jù)本公開主題的一個實現(xiàn)方式的生成基于令牌的索引的示例過 程。
[0007] 圖2b示出了根據(jù)本公開主題的一個實現(xiàn)方式的基于成果概率針對成果搜索基于 令牌的索引的示例過程。
[0008] 圖3示出了根據(jù)本公開主題的一個實現(xiàn)方式的計算機。
[0009] 圖4示出了根據(jù)本公開主題的一個實現(xiàn)方式的網(wǎng)絡(luò)配置。
【具體實施方式】
[0010] 根據(jù)本公開主題的各實現(xiàn)方式,可搜索索引可以基于從機器學(xué)習(xí)的模型推導(dǎo)的規(guī) 則來生成。通過此方式,機器學(xué)習(xí)的模型的卓越智能和邏輯可以被體現(xiàn)在易于可搜索的索 引中。標準信息檢索工具可以用于使用該索引高效地檢索數(shù)據(jù)。這通過消除在信息檢索階 段另外可能被機器學(xué)習(xí)的模型高評分的候選的損失而比具有分離的信息檢索和機器學(xué)習(xí) 排名階段的系統(tǒng)相比更為有利??傊?,根據(jù)本公開主題的實現(xiàn)方式更多候選可以被更精確 地排名。
[0011] 本公開的技術(shù)可以被應(yīng)用于使用有監(jiān)督的學(xué)習(xí)數(shù)據(jù)(諸如標記的示例)生成的 機器學(xué)習(xí)的模型。該標記的示例可以被輸入機器學(xué)習(xí)系統(tǒng)并且機器學(xué)習(xí)系統(tǒng)的輸出可以 是包含響應(yīng)于標記的數(shù)據(jù)而生成的權(quán)重的機器學(xué)習(xí)的模型。該標記的示例可以包含成果 (outcome)以及與特定實例相關(guān)聯(lián)的屬性兩者。應(yīng)當(dāng)理解,權(quán)重和成果可以是無單位數(shù)值、 百分比、出現(xiàn)計數(shù)或者其他定量。機器學(xué)習(xí)系統(tǒng)可以接收標記的數(shù)據(jù)(例如,標記的示例) 以開發(fā)包含響應(yīng)于有監(jiān)督的標記的數(shù)據(jù)而生成的權(quán)重的機器學(xué)習(xí)的模型。一個或多個規(guī)則 可以由機器學(xué)習(xí)的模型創(chuàng)建。
[0012] 規(guī)則可以包括成果、特征集和概率。例如,規(guī)則:
[0013] (keyword :car, video :carmaker_l)->. 03
[0014] 指示當(dāng)用戶在搜索引擎提交搜索關(guān)鍵字"車(car) "(特征)并且該用戶被呈現(xiàn)以 關(guān)于Carmaker_l的視頻(成果)時,存在3%的概率用戶將選擇該視頻以查看它(概率)。
[0015] 可搜索索引中的條目可以包括文檔和可搜索令牌。機器學(xué)習(xí)的基于令牌的索引中 的令牌可以被稱為索引的令牌。索引的令牌可以包括關(guān)鍵字或者可以不包括關(guān)鍵字。例如, 索引可以包括包含關(guān)鍵字"車"的一個令牌以及不包括關(guān)鍵字但涉及諸如位置、語言和瀏覽 器設(shè)置之類的其他特征的其他令牌。通常,特征可以包括關(guān)于用戶已知的任何信息,諸如由 用戶提交的查詢文本、由用戶設(shè)置的瀏覽器配置等。同樣,特征可以是通用狀態(tài)信息,諸如 一天中的時間、地理位置等。例如,網(wǎng)頁可以被索引以產(chǎn)生如下條目:
[0016] web_page_l:[text:boxcar, 4. 0], [image:train,2. 0]
[0017] 這指示網(wǎng)站的網(wǎng)頁("web_page_l",文檔)包括文本串"boxcar"四次以及兩個火 車(train)的圖像。
[0018] 根據(jù)本公開主題的一個實現(xiàn)方式,標準基于規(guī)則的機器學(xué)習(xí)的模型可以被分解成 具有權(quán)重的文檔和令牌集。例如,以下規(guī)則指示將搜索關(guān)鍵字"車"錄入搜索引擎的用戶將 選擇關(guān)于特定車企(carmaker)的視頻的可能性:
[0019] (keyword :car, video :carmaker_l)->. 03
[0020] (keyword :car, video :carmaker_2)->. 05
[0021] 這些規(guī)則可以被變換成包括對應(yīng)于每個視頻的可搜索令牌的集合的條目,諸如:
[0022] carmaker_l : [keyword :car, . 03]
[0023] carmaker_2 : [keyword :car, . 05]
[0024] 條目可以包括成果(諸如"carmaker_l")、令牌(諸如keyword :car)和權(quán)重(諸 如3%)。令牌可以基于機器學(xué)習(xí)的規(guī)則中的特征的出現(xiàn)。權(quán)重可以對應(yīng)于成果將基于某 些特征(這里表示為令牌)的出現(xiàn)而出現(xiàn)的概率。
[0025] 由于實現(xiàn)方式的數(shù)據(jù)具有與標準web搜索信息檢索問題相同的結(jié)果,因此可以 使用標準web搜索和其他信息檢索技術(shù),諸如反向索引(inverted indices)和倒排列表