(posting lists)。實現(xiàn)方式由此可以消除針對分離的信息檢索步驟的需求并且可以使用 機器學(xué)習(xí)的模型對所有成果進行有效地評分。通過此方式,可以向用戶提供比典型索引的 搜索更適當?shù)乃阉鹘Y(jié)果,該搜索結(jié)果可以基于用戶的性質(zhì)、搜索的上下文等。
[0026] 在一個實現(xiàn)方式中,特征可以與給定用戶相關(guān)聯(lián)。例如,以下表格示出了針對用戶 A-D的特征(查詢,用戶位置(歐洲(Europe),美國(America))以及用戶是否具有高帶寬 連接)的存在⑴或缺少(〇):
[0027]
[0028]
[0029] 機器學(xué)習(xí)的模型可以包括能夠指示各特征對成果的可能性的相關(guān)貢獻的權(quán)重。例 如,下表示出了上表中特征對用戶將選擇用于查看特定視頻A-D的可能性的相對貢獻:
[0030]
[0031] 針對給定用戶的特征的存在或缺少可以與針對成果的特征的權(quán)重一起使用來確 定針對該用戶的成果的可能性。例如,針對用戶B的關(guān)鍵字:車和美國的存在與針對視頻C 的那些特征的權(quán)重(分別是0. 5和0. 2)組合可以用于預(yù)測用戶B將選擇視頻C來查看的 概率。通過相似方式,可以計算每個用戶將選擇查看每個不同視頻的可能性。可以理解,權(quán) 重可以是無單位數(shù)值、百分比、出現(xiàn)計數(shù)或者其他定量。
[0032] 規(guī)則可以基于機器學(xué)習(xí)的模型來生成。規(guī)則可以使至少一個特征與給定成果的出 現(xiàn)的概率相關(guān)。若干規(guī)則可以基于特征的各置換的出現(xiàn)來生成。
[0033] 根據(jù)一個實現(xiàn)方式,令牌集可以基于規(guī)則中的特征來生成。這種令牌的示例 可以包括[keyword:car]、[location:Europe]和[bandwidth:high]。對應(yīng)于規(guī)則中 的特征集的令牌集可以與給定成果的概率相關(guān)并被索引。例如,令牌[keyword:car]、 [location:Europe]和[bandwidth:high]可以與視頻C將被選擇以查看的概率4%相關(guān):
[0034] Video C : [keyword:car, location:Europe, bandwidth:high, . 04]
[0035] 這可以連同從其他規(guī)則推導(dǎo)的其他這種結(jié)果一起存儲為可搜索索引。編譯的索引 可以使用標準信息檢索工具容易地搜索。生成的索引被稱為基于令牌的索引。索引基于不 限于關(guān)鍵字的令牌??蛇x地,一個或多個排名技術(shù)可以此后被用于響應(yīng)于查詢進一步精化 搜索結(jié)果。
[0036] 索引可以用于僅考慮對應(yīng)于針對給定用戶的特征的那些令牌。例如,索引的搜索 可以檢索針對其概率已經(jīng)針對最近查看的視頻是關(guān)于貓并且位置是美國的用戶而被計算 出的所有視頻。在向用戶呈現(xiàn)為后續(xù)查看選項時,結(jié)果視頻可以通過接下來選擇用于查看 的概率從最高可能到最低可能進行排名。列表中排名頂位的視頻的描述(例如,縮略圖) 可以被推薦給用戶。
[0037] 成果可以是機器學(xué)習(xí)模型針對其預(yù)測成果值的成果。該值可以是權(quán)重、可能性或 概率。僅通過示例的方式,本文參考概率。成果可以是任何適用的結(jié)果,諸如基于回歸的預(yù) 測、排名、變換概率、點入概率、持續(xù)時間預(yù)測(例如,用戶可能查看/交互與該成果相關(guān)聯(lián) 的內(nèi)容多久)等。如先前示例中所述,查看視頻Y的用戶和查看視頻Z的用戶是成果的示 例。成果的其他示例可以是選擇鏈接、選擇推廣、打開賬戶、購買產(chǎn)品或服務(wù)、用戶查看內(nèi)容 (例如,視頻、圖像、文本等)的持續(xù)時間、重復(fù)訪問(例如,用戶期望重新訪問內(nèi)容的程度) 等。
[0038] 成果概率可以通過任何有用的形式來表示,包括整數(shù)表示、布爾分類、歸一化(例 如,轉(zhuǎn)換成歸一化概率、轉(zhuǎn)換率、百分比等的概率值)。應(yīng)當理解,成果概率可以是任何適用 的預(yù)測,諸如百分比、比率等以及/或者可以對應(yīng)于花費量(例如,花費的美金)、接觸時間 量(例如,觀看的視頻分鐘)等的預(yù)測。如本文所公開,成果概率可以從機器學(xué)習(xí)模型做出 的預(yù)測來推導(dǎo)。作為成果概率的示例,可搜索索引可以包含多個條目、每個條目與成果相關(guān) 聯(lián)。每個條目可以對應(yīng)于預(yù)測用戶選擇與成果相關(guān)聯(lián)的內(nèi)容的可能性的成果概率。因此, 成果概率可以表示用戶選擇與成果相關(guān)聯(lián)的內(nèi)容的百分比機會。
[0039] 注意,根據(jù)本公開主題的各實現(xiàn)方式,如圖1中所示,機器學(xué)習(xí)的模型110可以基 于訓(xùn)練示例和特征而被訓(xùn)練。可搜索的基于令牌的索引120可以基于由機器學(xué)習(xí)的模型生 成的規(guī)則來生成。可搜索的基于令牌的索引120可以被組織使得與查詢130相關(guān)聯(lián)的令牌 可以與可搜索的基于令牌的索引120中的令牌匹配,并且一個或多個成果140可以使用搜 索算法而基于一個或多個成果概率來被選擇。
[0040] 根據(jù)本公開主題的一個實現(xiàn)方式,機器學(xué)習(xí)系統(tǒng)可以用于生成和/或更新用于做 出預(yù)測和/或提供排名的模型。基于機器學(xué)習(xí)模型的預(yù)測的實例可以包含成果、一個或多 個特征和預(yù)測值。作為經(jīng)由機器學(xué)習(xí)模型做出預(yù)測的示例,針對給定事件的多個特征可以 被提供給機器學(xué)習(xí)模型,并且基于特征的存在機器學(xué)習(xí)模型可以輸出概率或預(yù)測。作為更 具體的示例,預(yù)測用戶是否將查看視頻Y(成果的示例)的機器學(xué)習(xí)模型可以被提供有該用 戶位于美國、過去查看過音樂視頻X并且已經(jīng)將其默認語言設(shè)置為英語(特征的示例)的 特征。機器學(xué)習(xí)模型可以包含針對每個特征的權(quán)重(即,.5作為位于美國,.9作為查看過音 樂視頻X,以及.3作為將默認語言設(shè)置為英語)。應(yīng)當理解,機器學(xué)習(xí)模型可以包含針對其 他特征(例如,用戶位于加拿大)的權(quán)重,然而由于那些特征沒有被呈現(xiàn)在此示例預(yù)測中, 其權(quán)重可能對預(yù)測沒有貢獻。備選地,缺少特定特征的存在可能在對成果進行預(yù)測中是重 要的并且可以被考慮。例如,機器學(xué)習(xí)模型可以基于特征的缺少(例如,用戶沒有正在使用 移動設(shè)備)為用戶是否將查看音樂視頻Y提供權(quán)重。預(yù)測值可以被歸一化以通過任何適用 的方式表示百分比或概率。本文中的實例可以包含成果:"用戶是否將查看視頻Y",特征: "位于美國"、"查看視頻X"和"默認語言英語",以及預(yù)測9"(歸一化)。
[0041] 特征可以是與實例相關(guān)聯(lián)的任何適用的特性并且可以基于用戶(例如,用戶人口 統(tǒng)計、用戶歷史、用戶關(guān)聯(lián)諸如用戶賬戶或偏好)、設(shè)備(例如,用戶設(shè)備類型、設(shè)備特征、設(shè) 備容量、設(shè)備配置等)、當前事件等。特征的示例可以包括用戶位置、用戶語言偏好、查看歷 史、用戶賬戶、用戶訂閱、設(shè)備型號類型、設(shè)備屏幕分辨率、設(shè)備操作系統(tǒng)、節(jié)日指定、體育賽 事舉行等。另外,如本文所述,特征可以是從用戶接收的搜索輸入(諸如,文本關(guān)鍵字、圖 像、音頻文件等)。應(yīng)當理解,成果、特征和/或預(yù)測可以通過任何有用的形式表示,諸如整 數(shù)表示、經(jīng)由布爾分類、歸一化(例如,轉(zhuǎn)換成歸一化概率的概率值、轉(zhuǎn)換率、百分比等)。根 據(jù)本公開主題的一個實現(xiàn)方式,機器學(xué)習(xí)模型可以使用如本文所述的一個或多個用戶的先 前選擇(成果)而被訓(xùn)練。注意,機器學(xué)習(xí)模型做出的預(yù)測可以基于成果的成功選擇或者 缺少選擇,使得預(yù)測的成果概率可以基于選定的候選結(jié)果而增加并且可以基于未選定的成 果而減少。
[0042] 根據(jù)本公開主題的一個實現(xiàn)方式,如圖2a所示,在步驟210,可以接收基于機器學(xué)