本公開總體上涉及數(shù)據(jù)處理領(lǐng)域,并且更加具體地涉及用于向媒體內(nèi)容項(xiàng)的屬性自動分配權(quán)重以生成基于內(nèi)容的推薦的技術(shù)。
背景技術(shù):
對于媒體內(nèi)容的給定主體,諸如在線視頻、數(shù)字音樂、電子書、新聞網(wǎng)站和其他數(shù)字媒體,可以使用推薦系統(tǒng)來提供針對用戶的個人偏好和興趣定制的建議。一種類型的推薦是基于內(nèi)容的推薦,其基于內(nèi)容項(xiàng)的各種屬性之間的相似性。這些屬性可以包括例如“種類”、“流派”、“演員”、“藝術(shù)家”、“描述”等??梢酝ㄟ^使用例如Jaccard索引測量屬性之間的距離來計算內(nèi)容項(xiàng)的相似性。取決于如人對相關(guān)聯(lián)的內(nèi)容的指明的偏好測量的這些屬性對人的重要性,不同的屬性可以被分配相對權(quán)重,這些權(quán)重用于計算兩個或更多個內(nèi)容項(xiàng)之間的相似性。然而,確定屬性權(quán)重的當(dāng)前方法遭受可能不利地影響基于內(nèi)容的推薦的質(zhì)量和準(zhǔn)確性的大量缺陷。
附圖說明
附圖并非意圖按比例繪制。在附圖中,在各種附圖中圖示的每個相同或者幾乎相同的部件用相似的數(shù)字來表示。
圖1示出了根據(jù)本公開的實(shí)施例的示例性基于內(nèi)容的推薦系統(tǒng);
圖2是根據(jù)本公開的實(shí)施例的與若干媒體內(nèi)容項(xiàng)相關(guān)聯(lián)的公共屬性的圖形表示;
圖3是根據(jù)本公開的實(shí)施例的示例內(nèi)容屬性加權(quán)方法的流程圖;以及
圖4是表示可以用于執(zhí)行本公開中不同地描述的技術(shù)中的任何技術(shù)的示例計算設(shè)備的框圖。
具體實(shí)施方式
如先前指出的,現(xiàn)有的內(nèi)容推薦屬性加權(quán)技術(shù)遭受可能不利地影響基于內(nèi)容的推薦的質(zhì)量和準(zhǔn)確性的大量缺陷,特別是在數(shù)字媒體領(lǐng)域。比如,現(xiàn)有的屬性加權(quán)技術(shù)可能遭受所謂的流行偏見,其中被很多人查看或者訪問的內(nèi)容具有被相似地判斷的傾向,而不太流行的內(nèi)容被處罰,即使不太流行的內(nèi)容類似于更加流行的內(nèi)容。這樣的流行偏見可以具有將不太流行的內(nèi)容從推薦中排除的這一影響,而不管不太流行的內(nèi)容與更加流行的內(nèi)容的屬性之間的相似性。因此,基于這樣的現(xiàn)有的屬性加權(quán)技術(shù)的推薦可能將用戶主要指向更加流行的內(nèi)容,這進(jìn)而可能惡化流行偏見問題。
在基于內(nèi)容的推薦領(lǐng)域,屬性加權(quán)是通過向形成預(yù)測模型的至少部分的不同的內(nèi)容屬性分配權(quán)重來訓(xùn)練機(jī)器學(xué)習(xí)預(yù)測模塊的過程。機(jī)器學(xué)習(xí)算法是用于生成通常發(fā)展并且成熟的預(yù)測模型而沒有明確的編程的計算機(jī)化的模式識別技術(shù),并且在基于內(nèi)容的推薦領(lǐng)域有用。每個內(nèi)容項(xiàng)可以用特征化內(nèi)容項(xiàng)的各個方面(諸如標(biāo)題、藝術(shù)家、流派、描述、電視或運(yùn)動圖片評級、發(fā)行年份等)的一個或多個屬性來表示。屬性加權(quán)是用于改善這樣的機(jī)器學(xué)習(xí)算法的性能的技術(shù)。加權(quán)屬性用作確定內(nèi)容項(xiàng)之間的相似性的統(tǒng)計測量的基礎(chǔ),使得某些屬性比其他屬性對預(yù)測模型的結(jié)果具有更大影響。預(yù)測模型中的相似性測量然后可以形成推薦項(xiàng)目的評級列表的基礎(chǔ)。然而,先前提及的與屬性加權(quán)相關(guān)聯(lián)的流行偏見可以在機(jī)器學(xué)習(xí)算法被很差地訓(xùn)練時發(fā)生。被很差地訓(xùn)練的機(jī)器學(xué)習(xí)算法的示例是其中判決做出很大程度上基于包含不充足或令人誤解的信息的輸入樣本的一種機(jī)器學(xué)習(xí)算法。比如,用戶可以通過所謂的“喜歡”或指示對某些內(nèi)容項(xiàng)的偏好經(jīng)由社交網(wǎng)絡(luò)貢獻(xiàn)各種內(nèi)容屬性的加權(quán)。與偏好的內(nèi)容項(xiàng)相關(guān)聯(lián)的屬性然后被分配通常與指示其對對應(yīng)內(nèi)容項(xiàng)的偏好的用戶數(shù)成比例的權(quán)重。例如,電影A和電影B二者高度流行,并且大量用戶偏好這兩個電影。另外,電影C和電影D不是非常流行,并且被少量用戶偏好,但是偏好電影C的多數(shù)用戶也偏好電影D。在本示例中,使用現(xiàn)有的內(nèi)容屬性加權(quán)技術(shù),電影A和電影B接收高的相似性得分,而電影C和電影D接收低的相似性得分。然而,關(guān)于電影A和電影B的較高的相似性得分是由于電影的流行,而不管它們?nèi)绾伪舜讼嗨?實(shí)際上,電影A和電影B彼此可以非常不同,但是因?yàn)槊總€電影被大量用戶喜歡,所以電影具有高的相似性得分,即使相對少部分的用戶喜歡這兩個電影)。另一方面,如果電影C和電影D實(shí)際上共享類似的屬性,則現(xiàn)有的基于內(nèi)容的推薦屬性加權(quán)技術(shù)低估它們之間的相似性,因?yàn)殡娪安涣餍?。換言之,相似性得分遭受流行偏見,因?yàn)橄嚓P(guān)聯(lián)的機(jī)器學(xué)習(xí)算法使用通常僅表示對內(nèi)容的全部數(shù)目的用戶偏好的輸入樣本(歷史流行度)被很差地訓(xùn)練,而沒有關(guān)于這些偏好的更加具體的信息的益處。因此,這些現(xiàn)有的技術(shù)產(chǎn)生被由電影A/B與電影C/D之間的流行度的明顯差異引起的偏見誤導(dǎo)性地歪斜的結(jié)果。
為此,并且根據(jù)本公開的實(shí)施例,公開了用于通過基于兩種類型的相似性得分向預(yù)測模型中的媒體內(nèi)容項(xiàng)的屬性分配權(quán)重來訓(xùn)練基于內(nèi)容的推薦預(yù)測模型的技術(shù),以提供平衡給定媒體內(nèi)容項(xiàng)(例如歌曲、視頻、書籍和其他形式的媒體)的兩個屬性相似性以及歷史流行性的混合方法。這樣的混合方法通過使屬性加權(quán)基于歷史流行度的組合緩解了現(xiàn)有內(nèi)容推薦屬性加權(quán)技術(shù)中的流行偏見的影響,其維持有用的考慮以及內(nèi)容屬性之間的目標(biāo)相似性,諸如“種類”、“流派”、“演員”、“藝術(shù)家”、“描述”等。具體地,包括向各種內(nèi)容屬性分配的權(quán)重的預(yù)測模型可以通過計算至少兩個內(nèi)容項(xiàng)的至少兩個相似性得分來訓(xùn)練,每個內(nèi)容項(xiàng)與一個或多個內(nèi)容屬性相關(guān)聯(lián)。相似性得分基于對于每個內(nèi)容項(xiàng)的用戶偏好之間的相似性的測量(歷史相似性得分)以及與每個內(nèi)容項(xiàng)相關(guān)聯(lián)的內(nèi)容屬性之間的相似性的測量(屬性相似性得分)。在預(yù)測模型中,可以至少部分基于兩個相似性得分來向每個內(nèi)容屬性自動分配權(quán)重。因此,在訓(xùn)練預(yù)測模型時,向內(nèi)容屬性分配的權(quán)重是屬性相似性和歷史流行度二者的函數(shù),而非如在現(xiàn)有技術(shù)中僅是歷史流行度的函數(shù)。預(yù)測模型使用加權(quán)屬性生成具有這些屬性的內(nèi)容項(xiàng)的評級列表,評級列表形成可以向用戶呈現(xiàn)的基于內(nèi)容的推薦。
可以基于對于任何數(shù)目的內(nèi)容項(xiàng)的用戶偏好來計算歷史相似性得分。比如,內(nèi)容項(xiàng)可以是任何類型的音頻或視頻媒體內(nèi)容(諸如歌曲、視頻、或電影)以及可打印內(nèi)容(諸如書籍、文章、日記、雜志、廣告等)。在一些示例情況下,可以從表示指示對每個內(nèi)容項(xiàng)的偏好的大量用戶的歷史評級數(shù)據(jù)來獲得用戶偏好。在這樣的情況下,可以例如通過將指示對所有內(nèi)容項(xiàng)的偏好的用戶數(shù)除以指示對任何而不必所有內(nèi)容項(xiàng)的偏好的用戶數(shù)來獲得歷史相似性得分。
屬性相似性得分基于內(nèi)容項(xiàng)的一個或多個公共屬性之間的相似性來單獨(dú)計算。公共屬性可以包括例如標(biāo)題、流派、演員或執(zhí)行者、或者可以用于以某種方式對內(nèi)容項(xiàng)分類的任何其他信息??梢允褂美缁诰嚯x的相似性度量(諸如余弦相似性或人員相關(guān)性)來比較這些屬性。接著,使用諸如下面進(jìn)一步詳細(xì)描述的例如線性方程回歸技術(shù)基于第一相似性得分和第二相似性得分向每個屬性分配權(quán)重。然后可以使用所得到的加權(quán)屬性生成基于內(nèi)容的推薦。
本公開的各種實(shí)施例不同于現(xiàn)有的內(nèi)容推薦屬性加權(quán)技術(shù)在于計算內(nèi)容的相似性的混合方法,內(nèi)容相似性然后用于確定向每個屬性分配的權(quán)重。加權(quán)屬性然后可以用于通過考慮與內(nèi)容接合的用戶的整個集合(與僅“喜歡”或指示對內(nèi)容的偏好的用戶的集合相對)來生成基于內(nèi)容的推薦。另外,尚未被大量用戶評級或觀看的內(nèi)容沒有被懲罰,這降低了現(xiàn)有技術(shù)中存在的流行偏見。另外,相同的權(quán)重在具有相同屬性的所有內(nèi)容上用于特定屬性,諸如演員屬性。
本公開的實(shí)施例可以提供比遭受流行偏見的現(xiàn)有的內(nèi)容推薦屬性加權(quán)技術(shù)明顯更好的結(jié)果。另外,使用本公開的實(shí)施例獲得的內(nèi)容推薦屬性加權(quán)更加準(zhǔn)確地反映與內(nèi)容接合(例如,查看或傾聽內(nèi)容)的用戶數(shù),這與使用僅指示對內(nèi)容的偏好(例如,“喜歡”內(nèi)容)的用戶數(shù)的現(xiàn)有技術(shù)相反。比如,通過獲得基于用戶接合的內(nèi)容的各個屬性的權(quán)重,并且通過在整個內(nèi)容數(shù)據(jù)集上應(yīng)用這些權(quán)重,可以向用戶提供改進(jìn)的內(nèi)容推薦。鑒于本公開將很清楚大量配置和變化。
示例系統(tǒng)
圖1示出了根據(jù)本公開的實(shí)施例的示例性基于內(nèi)容的推薦系統(tǒng)100。系統(tǒng)100包括被配置成執(zhí)行基于內(nèi)容的推薦應(yīng)用120的計算設(shè)備110?;趦?nèi)容的推薦應(yīng)用120包括歷史評級相似性估計模塊122、內(nèi)容相似性計算模塊124和屬性權(quán)重分配模塊126。在一些實(shí)施例中,基于內(nèi)容的推薦應(yīng)用120還包括內(nèi)容推薦模塊150?;趦?nèi)容的推薦應(yīng)用120被配置成接收用戶偏好數(shù)據(jù)130和內(nèi)容屬性元數(shù)據(jù)132,并且生成屬性權(quán)重數(shù)據(jù)134。用戶偏好數(shù)據(jù)130包括表示指示對媒體內(nèi)容項(xiàng)的偏好或者諸如通過使用多媒體播放器或其他合適的回放設(shè)備查看或傾聽內(nèi)容來與內(nèi)容項(xiàng)接合的用戶數(shù)的歷史評級信息。例如,用戶偏好數(shù)據(jù)130可以包括“喜歡”社交媒體環(huán)境中的視頻的用戶數(shù)或者查看網(wǎng)站上的視頻的用戶數(shù)。內(nèi)容屬性元數(shù)據(jù)132包括關(guān)于媒體內(nèi)容項(xiàng)的信息。例如,給定媒體內(nèi)容項(xiàng)的內(nèi)容屬性元數(shù)據(jù)132可以包括表示與該項(xiàng)相關(guān)聯(lián)的流派、與該項(xiàng)相關(guān)聯(lián)的演員或執(zhí)行者、以及該項(xiàng)的描述的數(shù)據(jù)以及能夠用于標(biāo)識或分類該項(xiàng)的其他信息。
歷史評級相似性估計模塊122被配置成基于“喜歡”或指示對任何媒體內(nèi)容項(xiàng)的偏好的用戶數(shù)基于用戶偏好數(shù)據(jù)130來估計兩個或多個媒體內(nèi)容項(xiàng)之間的相似性。所估計的歷史評級相似性用第一相似性得分140來表示。如下面進(jìn)一步詳細(xì)描述的,所估計的歷史評級相似性是偏好被比較的任何內(nèi)容項(xiàng)的用戶數(shù)以及偏好被比較的所有內(nèi)容項(xiàng)的用戶數(shù)的函數(shù)。內(nèi)容屬性相似性計算模塊124被配置成基于內(nèi)容屬性元數(shù)據(jù)132來計算兩個或多個媒體內(nèi)容項(xiàng)公共的兩個或更多個屬性之間的相似性。所計算的內(nèi)容屬性相似性用第二相似性得分142來表示。如下面進(jìn)一步詳細(xì)描述的,所計算的內(nèi)容屬性相似性是向內(nèi)容屬性應(yīng)用的距離度量的函數(shù)(諸如余弦相似性或皮爾遜相關(guān)),這些內(nèi)容屬性通常但不一定是詞語。
屬性權(quán)重分配模塊126被配置成基于第一相似性得分140和第二相似性得分142在機(jī)器學(xué)習(xí)預(yù)測模型中向每個內(nèi)容屬性分配用屬性權(quán)重數(shù)據(jù)134表示的屬性權(quán)重。如下面進(jìn)一步詳細(xì)描述的,屬性權(quán)重是兩個或更多個媒體內(nèi)容項(xiàng)的所估計的歷史評級相似性以及內(nèi)容項(xiàng)之間的所計算的內(nèi)容屬性相似性的函數(shù)。更加具體地,對于p對內(nèi)容項(xiàng)中的給定樣本,針對所有內(nèi)容項(xiàng)公共的n個屬性的n+1個未知權(quán)重可以獲得p個回歸方程。這些方程然后可以使用多個回歸技術(shù)來求解以確定未知權(quán)重。在一些實(shí)施例中,內(nèi)容推薦模塊150被配置成使用預(yù)測模型基于屬性權(quán)重數(shù)據(jù)134針對內(nèi)容項(xiàng)的給定集合生成基于內(nèi)容的推薦。例如,內(nèi)容推薦模塊150可以基于具體內(nèi)容項(xiàng)與具有相似用戶偏好和屬性的一個或多個其他內(nèi)容項(xiàng)的統(tǒng)計相似性來向用戶建議具體內(nèi)容項(xiàng),該內(nèi)容項(xiàng)根據(jù)預(yù)測模型被加權(quán)。
示例媒體內(nèi)容屬性
圖2是根據(jù)本公開的實(shí)施例的與若干媒體內(nèi)容項(xiàng)相關(guān)聯(lián)的公共屬性的圖形表示。在圖2中,媒體內(nèi)容項(xiàng)被引用作為媒體內(nèi)容項(xiàng)A和媒體內(nèi)容項(xiàng)B,然而應(yīng)當(dāng)理解,可以存在任何數(shù)目的媒體內(nèi)容項(xiàng)。媒體內(nèi)容項(xiàng)可以是任何形式的媒體,諸如音頻、視頻、相片、文本或其他可打印或可讀物質(zhì)(例如,書籍、雜志、日記、手冊等)。每個媒體內(nèi)容項(xiàng)具有一個或多個公共屬性。例如,媒體內(nèi)容項(xiàng)A和媒體內(nèi)容項(xiàng)B可以各自具有屬性1、屬性2、……、屬性n。屬性是能夠用于分類媒體內(nèi)容項(xiàng)的特性。屬性例如可以與內(nèi)容項(xiàng)一起存儲作為元數(shù)據(jù)或者單獨(dú)地存儲在數(shù)據(jù)庫中。這些屬性可以表示各種類型的信息,諸如種類、流派、演員、描述、題目、作者、日期、格式、位置、事件名稱、情節(jié)、作家、導(dǎo)演、語言、國家、評級、投票、或者能夠用于特征化媒體內(nèi)容項(xiàng)的任何其他信息。例如,作為電影(“Star Wars”和“Raiders of the Lost Arc”)的兩個媒體內(nèi)容項(xiàng)可以具有若干公共屬性和屬性值,諸如流派(“動作”)、演員(“Harrison Ford”)、和描述(“史詩冒險”)。應(yīng)當(dāng)理解,公共屬性不一定具有相同的值。例如,作為TV秀(“Star Trek”和“Cosmos”)的兩個媒體內(nèi)容項(xiàng)可以具有若干不同值的內(nèi)容屬性,諸如流派(分別為“冒險”和“記錄”)、演員(分別為“William Shatner”和“Carl Sagan”)和描述(分別為Starship Enterprise的“船長James T.Kirk以及全體船員探險銀河系并且守衛(wèi)星際聯(lián)邦”和“Astronomer Carl Sagan引導(dǎo)我們進(jìn)行宇宙的各種因素和宇宙學(xué)的參與性有導(dǎo)游的游覽”)。每個屬性可以被分配權(quán)重,權(quán)重形成機(jī)器學(xué)習(xí)預(yù)測模型的部分以生成具有相似屬性的內(nèi)容項(xiàng)的基于內(nèi)容的推薦。
示例內(nèi)容屬性加權(quán)方法
圖3是根據(jù)本公開的實(shí)施例的示例內(nèi)容屬性加權(quán)方法300的流程圖。方法300例如可以由圖1的計算設(shè)備110來實(shí)現(xiàn)。根據(jù)實(shí)施例,可以如下來計算兩個或多個內(nèi)容項(xiàng)之間的基于內(nèi)容的相似性的測量:sim(A,B)=w0+w1f1(a1,b1)+w2f2(a2,b2)+...+wnfn(an,bn)+e (1)其中A和B是兩個媒體內(nèi)容項(xiàng),sim(A,B)是相似性得分,wi是屬性權(quán)重,fi(ai,bi)是屬性相似性函數(shù),e是誤差項(xiàng)。
在以上示例中,f1表示A和B的流派之間的相似性的測量,f2表示A和B中的演員之間的相似性的測量,f3測量電影描述之間的相似性。相似性的測量可以包括例如Jaccard索引或者用于比較信息或數(shù)據(jù)的相似性的其他統(tǒng)計數(shù)據(jù)。應(yīng)當(dāng)理解,fi可以表示A和B的任何公共屬性之間的相似性。函數(shù)fi取決于用于測量屬性之間的相似性的所選擇的相似性度量,諸如余弦相似性、皮爾遜相關(guān)等。不同的函數(shù)fi應(yīng)當(dāng)在用于計算sin(A,B)之前被歸一化(例如,所有的函數(shù)fi可以被歸一化為落在0到1的范圍內(nèi))。在一些實(shí)施例中,可以認(rèn)為內(nèi)容項(xiàng)的每個屬性ai和bi是詞語的集合,因此,可以基于詞語的集合來計算TF-IDF(檢索詞頻率-逆向文檔頻率)統(tǒng)計值以生成用于對應(yīng)屬性的向量。TF-IDF是用作信息檢索中的加權(quán)因子的數(shù)學(xué)統(tǒng)計,其表示一個詞語關(guān)于詞語的集合的相對重要性,諸如可以在內(nèi)容屬性中找到。因此,在這些情況下,可以使用TF-IDF向量ai與TF-IDF向量bi之間的余弦相似性來計算給定內(nèi)容項(xiàng)fi的相似性的測量。
在實(shí)施例中,可以如下來計算屬性權(quán)重。首先,使用兩個內(nèi)容項(xiàng)A和B的歷史評級來估計這些項(xiàng)之間的相似性。歷史評級例如可以表示“喜歡”內(nèi)容項(xiàng)(諸如在社交媒體上下文中)或者指示對項(xiàng)的偏好(諸如在電影評論網(wǎng)站上的基于星級的評級)的人數(shù)。在這種情況下,可以如下來計算歷史評級相似性:
sin(A,B)=(喜歡A和B二者的用戶數(shù))/(喜歡A或B的用戶數(shù))
對于p對內(nèi)容項(xiàng),可以根據(jù)等式(2)來得到p個回歸方程??紤]到n個屬性,如等式(1)所示,有n+1個未知變量(例如,n個未知權(quán)重和截距w0)要確定。然后可以使用標(biāo)準(zhǔn)的多個回歸技術(shù)來求解這些回歸方程以確定未知權(quán)重wi。進(jìn)而,可以使用權(quán)重wi根據(jù)等式(1)來獲得基于內(nèi)容的相似性得分。
參考圖3,方法300如下來開始:基于對于第一內(nèi)容項(xiàng)和第二內(nèi)容項(xiàng)中的每個內(nèi)容項(xiàng)的用戶偏好之間的相似性的測量來計算302第一相似性得分。第一內(nèi)容項(xiàng)和第二內(nèi)容項(xiàng)可以包括例如音頻內(nèi)容、視頻內(nèi)容、可打印內(nèi)容、或者任何其他形式的媒體內(nèi)容。在一些實(shí)施例中,用戶偏好之間的相似性的測量基于表示指示對第一內(nèi)容項(xiàng)的偏好的用戶數(shù)以及指示對第二內(nèi)容項(xiàng)的偏好的用戶數(shù)的歷史評級數(shù)據(jù)。比如,可以使用對于第一內(nèi)容項(xiàng)和第二內(nèi)容項(xiàng)的用戶偏好數(shù)據(jù)130根據(jù)以上等式(2)來獲得第一相似性得分。在一些實(shí)施例中,應(yīng)用等式(2)得到:基于歷史評級數(shù)據(jù)來計算指示對第一內(nèi)容項(xiàng)和第二內(nèi)容項(xiàng)二者的偏好的用戶數(shù),并且基于歷史評級數(shù)據(jù)來計算指示對第一內(nèi)容項(xiàng)或第二內(nèi)容項(xiàng)的偏好的用戶數(shù),其中通過將指示對第一內(nèi)容項(xiàng)和第二內(nèi)容項(xiàng)二者的偏好的用戶數(shù)除以指示對第一內(nèi)容項(xiàng)或第二內(nèi)容項(xiàng)的偏好的用戶數(shù)來計算第一相似性得分。在一些實(shí)施例中,計算302可以由圖1的歷史評級相似性估計模塊122來執(zhí)行。應(yīng)當(dāng)理解,可以針對任何數(shù)目的內(nèi)容項(xiàng)來計算第一相似性得分。例如,在一些實(shí)施例中,方法300可以包括除了第一內(nèi)容項(xiàng)和第二內(nèi)容項(xiàng)之間的相似性還基于第一內(nèi)容項(xiàng)與第三內(nèi)容項(xiàng)之間的相似性以及第二內(nèi)容項(xiàng)與第三內(nèi)容項(xiàng)之間的相似性來計算302第一相似性得分。
方法300如下來繼續(xù):基于第一內(nèi)容屬性與第二內(nèi)容屬性之間的相似性的測量來計算304第二相似性得分。例如,可以使用第一和第二內(nèi)容項(xiàng)的內(nèi)容屬性元數(shù)據(jù)132根據(jù)以上描述的函數(shù)fi來獲得第二相似性得分。如同第一相似性得分,應(yīng)當(dāng)理解,可以針對任何數(shù)目的內(nèi)容項(xiàng)計算第二相似性得分。方法300如下來繼續(xù):通過基于第一相似性得分和第二相似性得分向第一內(nèi)容屬性和第二內(nèi)容屬性中的每個內(nèi)容屬性分配306權(quán)重來訓(xùn)練機(jī)器學(xué)習(xí)預(yù)測模型。在一些實(shí)施例中,計算權(quán)重包括:基于第一相似性得分和第二相似性得分生成線性等式的集合,并且向線性等式的集合應(yīng)用回歸函數(shù)以求解權(quán)重,其中權(quán)重是線性等式的集合中的因子,諸如等式(1)中所示。權(quán)重例如可以形成屬性權(quán)重數(shù)據(jù)134。在一些實(shí)施例中,計算304可以由圖1的內(nèi)容屬性相似性計算模塊124來執(zhí)行。
在一些實(shí)施例中,方法300還包括根據(jù)權(quán)重和第二相似性得分來計算308表示第一內(nèi)容項(xiàng)和第二內(nèi)容項(xiàng)之間的相似性的測量的第三相似性得分。例如,可以使用屬性權(quán)重數(shù)據(jù)134根據(jù)以上等式(1)第三相似性得分。然后可以使用第三相似性得分作為用于生成基于內(nèi)容的推薦的基礎(chǔ)。在一些實(shí)施例中,計算308可以由圖1的內(nèi)容推薦模塊150來執(zhí)行。在一些實(shí)施例中,方法300可以包括:基于權(quán)重使用預(yù)測模型生成具有第一內(nèi)容屬性和第二內(nèi)容屬性二者的內(nèi)容項(xiàng)的基于內(nèi)容的推薦。例如,如果電影A、電影C和電影D全部具有相同的屬性(例如流派、演員),其中流派比演員更加重地加權(quán),則基于內(nèi)容的推薦在電影D的流派比電影C的流派更接近電影A的流派的情況下可以建議電影D(而非電影C)作為電影A,假定演員在所有三個電影中相同。其他變化鑒于本公開將很清楚。
方法300比遭受流行偏見的現(xiàn)有的內(nèi)容屬性加權(quán)技術(shù)提供明顯更好的結(jié)果,至少因?yàn)榉椒?00考慮到與媒體內(nèi)容項(xiàng)接合的整個用戶集合,而非僅指示對內(nèi)容項(xiàng)的偏好的用戶集合,并且還因?yàn)樵摲椒ㄓ捎卺槍λ袃?nèi)容項(xiàng)使用具體屬性的相同的權(quán)重而沒有懲罰不太流行的內(nèi)容。例如,“演員”屬性針對給定視頻數(shù)據(jù)集具有固定權(quán)重。結(jié)果可以是例如比現(xiàn)有的內(nèi)容屬性加權(quán)技術(shù)好大約28%。
示例計算設(shè)備
圖4是表示可以用于執(zhí)行本公開中不同地描述的技術(shù)中的任何技術(shù)的示例計算設(shè)備400的框圖。例如,圖1的系統(tǒng)100或者其任何部分以及圖3的方法或者其任何部分可以在計算設(shè)備400中實(shí)現(xiàn)。計算設(shè)備400可以是任何計算機(jī)系統(tǒng),諸如工作站、臺式計算機(jī)、服務(wù)器、筆記本、手持式計算機(jī)、平板計算機(jī)(例如,iPadTM平板計算機(jī))、移動計算或通信設(shè)備(例如,iPhoneTM移動通信設(shè)備、AndroidTM移動通信設(shè)備等)、或者能夠通信并且具有足以執(zhí)行本公開中描述的操作的處理能力和存儲能力的其他形式的計算或電信設(shè)備。可以提供包括多個這樣的計算設(shè)備的分布式計算系統(tǒng)。
計算設(shè)備400包括其上編碼有用于實(shí)現(xiàn)本公開中不同地描述的技術(shù)的一個或多個計算機(jī)可執(zhí)行指令或軟件的一個或多個存儲設(shè)備410和/或非瞬態(tài)計算機(jī)可讀介質(zhì)420。存儲設(shè)備410可以包括用于存儲實(shí)現(xiàn)本公開中教示的各種實(shí)施例的數(shù)據(jù)和計算機(jī)可讀指令和/或軟件的計算機(jī)系統(tǒng)存儲器或隨機(jī)存取存儲器,諸如可持續(xù)磁盤存儲裝置(其可以包括任意合適的光學(xué)或磁性可持續(xù)存儲設(shè)備,諸如RAM、ROM、閃存、USB驅(qū)動、或者其他基于半導(dǎo)體的存儲介質(zhì))、硬盤驅(qū)動、CD-ROM、或者其他計算機(jī)可讀介質(zhì)。存儲設(shè)備410也可以包括其他類型的存儲器或者其組合。存儲設(shè)備410可以設(shè)置在計算設(shè)備400上或者與計算設(shè)備400單獨(dú)地或者遠(yuǎn)離地設(shè)置。非瞬態(tài)計算機(jī)可讀介質(zhì)420可以包括但不限于一個或多個類型的硬件存儲器、非瞬態(tài)有形介質(zhì)(例如,一個或多個磁性存儲盤、一個或多個光盤、一個或多個USB閃存驅(qū)動)等。被包括在計算設(shè)備400中的非瞬態(tài)計算機(jī)可讀介質(zhì)420可以存儲用于實(shí)現(xiàn)各種實(shí)施例的計算機(jī)可讀和計算機(jī)可執(zhí)行指令或軟件。計算機(jī)可讀介質(zhì)420可以設(shè)置在計算設(shè)備400上或者與計算設(shè)備400單獨(dú)地或者遠(yuǎn)離地設(shè)置。
計算設(shè)備400還包括用于執(zhí)行存儲在存儲設(shè)備410和/或非瞬態(tài)計算機(jī)可讀介質(zhì)420中的計算機(jī)可讀和計算機(jī)可執(zhí)行指令或軟件以及用于控制系統(tǒng)硬件的其他程序的至少一個處理器430??梢栽谟嬎阍O(shè)備400中采用虛擬化,使得計算設(shè)備400中的架構(gòu)和資源可以被動態(tài)地共享。例如,可以設(shè)置虛擬機(jī)以處理在多個處理器上運(yùn)行的過程,使得過程呈現(xiàn)為僅使用一個計算資源而非多個計算資源。也可以與一個處理器一起使用多個虛擬機(jī)。
用戶可以通過輸出設(shè)備440、諸如屏幕或顯示器與計算設(shè)備400交互,輸出設(shè)備400可以顯示根據(jù)一些實(shí)施例提供的一個或多個用戶界面。輸出設(shè)備400也可以顯示與一些實(shí)施例相關(guān)聯(lián)的其他方面、元件和/或信息或數(shù)據(jù)。計算設(shè)備400可以包括用于從用戶接收輸入的其他I/O設(shè)備450,例如鍵盤、操縱桿、游戲控制器、指示設(shè)備(例如,鼠標(biāo)、與顯示設(shè)備直接交互的用戶手指等)、或者任何其他用戶界面。計算設(shè)備400可以包括其他合適的傳統(tǒng)的I/O外圍設(shè)備,包括例如數(shù)據(jù)通信網(wǎng)絡(luò)接口460。計算設(shè)備400可以包括和/或在操作上耦合至用于執(zhí)行本公開中不同地描述的方面中的一個或多個方面的各種合適的設(shè)備。
計算設(shè)備400可以運(yùn)行任何操作系統(tǒng),諸如任何版本的操作系統(tǒng)、不同版本的Unix和Linux操作系統(tǒng)、用于Macintosh計算機(jī)的任何版本的以及任何嵌入式操作系統(tǒng)、任何實(shí)時操作系統(tǒng)、任何開放源操作系統(tǒng)、任何專用操作系統(tǒng)、用于移動計算設(shè)備的任何操作系統(tǒng)、或者能夠在計算設(shè)備400上運(yùn)行并且執(zhí)行本公開中描述的操作的任何其他操作系統(tǒng)。在實(shí)施例中,操作系統(tǒng)可以在一個或多個云機(jī)器實(shí)例上運(yùn)行。
在其他實(shí)施例中,功能部件/模塊可以用硬件來實(shí)現(xiàn),諸如門級邏輯(例如,F(xiàn)PGA)或者特制的半導(dǎo)體(例如,ASIC)。其他實(shí)施例可以使用具有用于接收和輸出數(shù)據(jù)的大量輸入/輸出端口、以及用于執(zhí)行本公開中描述的功能的大量嵌入式例程的微控制器來實(shí)現(xiàn)。在更加一般的意義上,可以使用硬件、軟件和固件的任意合適的組合,這將很清楚。
鑒于本公開應(yīng)當(dāng)理解,系統(tǒng)的各種模塊和部件、諸如基于內(nèi)容的推薦應(yīng)用120、歷史評級相似性模塊122、內(nèi)容相似性計算模塊124、屬性權(quán)重分配模塊126、內(nèi)容推薦模塊150、或者這些的任意組合可以用軟件來實(shí)現(xiàn),諸如在任何計算機(jī)可讀介質(zhì)或計算機(jī)程序產(chǎn)品(例如,硬盤驅(qū)動、服務(wù)器、光盤、或者其他合適的非瞬態(tài)存儲器或存儲器集合)上編碼的指令集(例如,HTML、XML、C、C++、面向?qū)ο蟮腃、JavaScript、Java、BASIC等),該指令集在由一個或多個處理器執(zhí)行時引起在本公開中提供的各種方法被執(zhí)行。應(yīng)當(dāng)理解,在一些實(shí)施例中,本公開中描述的由用戶計算系統(tǒng)執(zhí)行的各種功能和數(shù)據(jù)變換在不同的配置和布置中可以由類似的處理器和/或數(shù)據(jù)庫來執(zhí)行,并且所描繪的實(shí)施例并非意圖限制。本示例實(shí)施例的各種部件、包括計算設(shè)備400可以集成到例如一個或多個臺式或筆記本計算機(jī)、工作站、平板、智能電話、游戲操縱臺、機(jī)頂盒、或者其他這樣的計算設(shè)備中。計算系統(tǒng)的其他典型元件部分和模塊、諸如處理器(例如,中央處理單元和協(xié)處理器、圖形處理器等)、輸入設(shè)備(例如,鍵盤、鼠標(biāo)、觸摸板、觸摸屏等)和操作系統(tǒng)沒有示出但是將很容易清楚。
大量實(shí)施例鑒于本公開將很清楚,并且本文中描述的特征可以以任何數(shù)目的配置來組合。一個示例實(shí)施例提供一種用于生成基于內(nèi)容的推薦的計算實(shí)現(xiàn)的方法。方法包括:由計算機(jī)處理器基于第一內(nèi)容項(xiàng)和第二內(nèi)容項(xiàng)中的每個內(nèi)容項(xiàng)的用戶偏好之間的相似性的統(tǒng)計測量來確定第一相似性得分;由計算機(jī)處理器基于第一內(nèi)容屬性與第二內(nèi)容屬性之間的相似性的統(tǒng)計測量來確定第二相似性得分;通過由計算機(jī)處理器基于第一相似性得分和第二相似性得分向第一內(nèi)容屬性分配權(quán)重并且基于第一相似性得分和第二相似性得分向第二內(nèi)容屬性分配權(quán)重來訓(xùn)練預(yù)測模型;以及由計算機(jī)處理器使用預(yù)測模型基于權(quán)重來生成具有第一內(nèi)容屬性和第二內(nèi)容屬性的內(nèi)容項(xiàng)二者的基于內(nèi)容的推薦。用戶偏好之間的相似性的統(tǒng)計測量基于表示指示對所述第一內(nèi)容項(xiàng)的偏好的用戶數(shù)以及指示對所述第二內(nèi)容項(xiàng)的偏好的用戶數(shù)的歷史評級數(shù)據(jù)。在一些這樣的情況下,方法包括:由計算機(jī)處理器基于歷史評級數(shù)據(jù)來計算指示對第一內(nèi)容項(xiàng)和第二內(nèi)容項(xiàng)二者的偏好的用戶數(shù);以及由計算機(jī)處理器基于歷史評級數(shù)據(jù)來計算指示對第一內(nèi)容項(xiàng)或第二內(nèi)容項(xiàng)的偏好的用戶數(shù),其中通過將指示對第一內(nèi)容項(xiàng)和第二內(nèi)容項(xiàng)二者的偏好的用戶數(shù)除以指示對第一內(nèi)容項(xiàng)或第二內(nèi)容項(xiàng)的偏好的用戶數(shù)來確定第一相似性得分。在一些情況下,確定權(quán)重包括:基于第一相似性得分和第二相似性得分來生成線性方程組并且向線性方程組應(yīng)用回歸函數(shù)以求解權(quán)重,其中權(quán)重是線性方程組中的因子。在一些情況下,方法包括:由計算機(jī)處理器根據(jù)權(quán)重和第二相似性得分來確定表示第一內(nèi)容項(xiàng)和第二內(nèi)容項(xiàng)之間的相似性的統(tǒng)計測量的第三相似性得分。在一些情況下,方法包括由計算機(jī)處理器還基于第一內(nèi)容項(xiàng)和第三內(nèi)容項(xiàng)之間的相似性的統(tǒng)計測量以及第二內(nèi)容項(xiàng)和第三媒體內(nèi)容項(xiàng)之間的相似性的統(tǒng)計測量來確定第一相似性得分。在一些情況下,第一內(nèi)容項(xiàng)和第二內(nèi)容項(xiàng)包括數(shù)字音頻內(nèi)容、數(shù)字視頻內(nèi)容、可打印內(nèi)容、或者其任意組合。
另一示例實(shí)施例提供一種具有存儲裝置以及在操作上耦合至存儲裝置的計算機(jī)處理器的系統(tǒng)。計算機(jī)處理器被配置成執(zhí)行存儲在存儲裝置中的指令,這些指令在被執(zhí)行時引起計算機(jī)處理器執(zhí)行處理。處理包括:基于第一內(nèi)容項(xiàng)和第二內(nèi)容項(xiàng)中的每個內(nèi)容項(xiàng)的用戶偏好之間的相似性的統(tǒng)計測量來確定第一相似性得分;基于第一內(nèi)容屬性與第二內(nèi)容屬性之間的相似性的統(tǒng)計測量來確定第二相似性得分;以及通過基于第一相似性得分和第二相似性得分向第一內(nèi)容屬性分配權(quán)重并且基于第一相似性得分和第二相似性得分向第二內(nèi)容屬性分配權(quán)重來訓(xùn)練預(yù)測模型。在一些情況下,用戶偏好之間的相似性的統(tǒng)計測量基于表示指示對第一內(nèi)容項(xiàng)的偏好的用戶數(shù)以及指示對第二內(nèi)容項(xiàng)的偏好的用戶數(shù)的歷史評級數(shù)據(jù)。在一些這樣的情況下,處理包括:基于歷史評級數(shù)據(jù)來計算指示對第一內(nèi)容項(xiàng)和第二內(nèi)容項(xiàng)二者的偏好的用戶數(shù);以及基于歷史評級數(shù)據(jù)來計算指示對第一內(nèi)容項(xiàng)或第二內(nèi)容項(xiàng)的偏好的用戶數(shù),其中通過將指示對第一內(nèi)容項(xiàng)和第二內(nèi)容項(xiàng)二者的偏好的用戶數(shù)除以指示對第一內(nèi)容項(xiàng)或第二內(nèi)容項(xiàng)的偏好的用戶數(shù)來確定第一相似性得分。在一些情況下,分配權(quán)重包括基于第一相似性得分和第二相似性得分來生成線性方程組并且向線性方程組應(yīng)用回歸函數(shù)以求解權(quán)重,其中權(quán)重是線性方程組中的因子。在一些情況下,處理包括:根據(jù)權(quán)重和第二相似性得分來確定表示第一內(nèi)容項(xiàng)和第二內(nèi)容項(xiàng)之間的相似性的統(tǒng)計測量的第三相似性得分。在一些情況下,處理包括:還基于第一內(nèi)容項(xiàng)和第三內(nèi)容項(xiàng)之間的相似性的統(tǒng)計測量以及第二內(nèi)容項(xiàng)和第三媒體內(nèi)容項(xiàng)之間的相似性的統(tǒng)計測量來確定第一相似性得分。在一些情況下,第一內(nèi)容項(xiàng)和第二內(nèi)容項(xiàng)包括數(shù)字音頻內(nèi)容、數(shù)字視頻內(nèi)容、可打印內(nèi)容、或者其任意組合。另一示例實(shí)施例提供一種其上編碼有指令的非瞬態(tài)計算機(jī)程序產(chǎn)品,指令在由一個或多個計算機(jī)處理器執(zhí)行時引起用于執(zhí)行在本段落中不同地描述的各個方面中的一個或多個方面的處理被執(zhí)行。
各種實(shí)施例的以上描述和附圖被呈現(xiàn)僅作為示例。這些示例并非意圖排他或者將本發(fā)明限于所公開的精確形式。替選、修改和變化鑒于本公開將很清楚,并且意圖在權(quán)利要求中給出的本發(fā)明的范圍內(nèi)。