自動生成推薦的方法和裝置制造方法
【專利摘要】一種向用戶推薦內(nèi)容項的推薦引擎(100)包含:個人資料生成單元,其含有預(yù)備個人資料輸入單元(110),其被配置成接收預(yù)備個人資料數(shù)據(jù),其包含適合標識給定用戶感興趣的實體的預(yù)備個人資料文本數(shù)據(jù),以及含有預(yù)備個人資料分析單元(112),其與該預(yù)備個人資料輸入單元(110)連接,并配置成從預(yù)備個人資料數(shù)據(jù)中提取標識感興趣的實體的標識數(shù)據(jù),和從所提取標識數(shù)據(jù)中為給定用戶生成初始用戶個人資料數(shù)據(jù)集;詢問生成單元(120),其與該個人資料生成單元連接,并配置成使用從初始用戶個人資料數(shù)據(jù)集中所提取標識數(shù)據(jù)生成語義上相互不同以便指向至少一個內(nèi)容存儲庫的至少兩個詢問;內(nèi)容檢索單元(128),其與該詢問生成單元(120)連接,并配置成將生成的詢問發(fā)給至少一個內(nèi)容存儲庫(122)和配置成響應(yīng)該詢問,從至少一個內(nèi)容存儲庫接收包含各自目標列表的內(nèi)容相關(guān)響應(yīng)數(shù)據(jù),該目標列表含有指示各自內(nèi)容項的存儲地點的至少一個各自內(nèi)容地點標識符;以及交織單元(132),其與該內(nèi)容檢索單元連接,并配置成通過相互交織包含在不同幾個目標列表中的內(nèi)容地點標識符從不同目標列表中生成單個推薦列表。
【專利說明】自動生成推薦的方法和裝置
[0001]本發(fā)明涉及向用戶推薦內(nèi)容項的推薦引擎、內(nèi)容存儲庫、操作向用戶推薦內(nèi)容項的推薦引擎的方法、和計算機可讀存儲介質(zhì)。
[0002]自動推薦系統(tǒng)常常用于幫助用戶選擇適合他們口味的項目。從個人可以從中選擇的一大組項目中,推薦系統(tǒng)作出適合給定用戶的口味的選擇。
[0003]在推薦系統(tǒng)可以給定真正個性化的推薦之前,首先必須了解用戶的口味。為此,用戶通常必須評價若干項目,例如,指定他喜歡或不喜歡若干項目的程度。
[0004]推薦系統(tǒng)可大致分為兩類,即基于內(nèi)容的推薦系統(tǒng)和基于協(xié)同過濾的推薦器。對于第一種類型,必須通過若干特征來表征項目。例如,可以通過標題、風(fēng)格、導(dǎo)演、演員等表征電影。然后可以將用戶的評價歷史(若干項目的喜歡或不喜歡的指定)用于估計特征值與用戶喜歡具有這些特征值的項目的概率之間的關(guān)聯(lián)。相反,使用協(xié)同過濾的推薦系統(tǒng)使用大型用戶群體的評價,以便從中提取用戶之間的相似性(因為他們喜歡/不喜歡相同項目)或項目之間的相似性(因為相同用戶喜歡/不喜歡它們)。然后將這個信息用于推薦與用戶已經(jīng)指定了喜歡的項目類似的項目,或推薦與給定用戶類似的用戶喜歡(但給定用戶還未看到過或購買過)的項目。協(xié)同過濾做法無需用特征值表征項目。
[0005]過去幾年來,像Facebook和LinkedIn那樣的社交網(wǎng)絡(luò)服務(wù)的普及性大大提高。這些服務(wù)支持用戶容易地與朋友、家人或同事交流思想、興趣等。這些服務(wù)還向用戶提供了通過“喜歡”諸如電影、音樂、名人、機構(gòu)、產(chǎn)品等的實體表達它們的興趣的可能性。這些實體的每一個通過給出特定實體的進一步細節(jié)的網(wǎng)頁來指定。例如,Facebook擁有可以供用戶搜索的這些實體的巨大集合。
[0006]假設(shè)用戶想表達他或她對給定實體的興趣。如果已經(jīng)存在有關(guān)這個實體的網(wǎng)頁,則用戶可以簡單地按相應(yīng)“喜歡”按鈕,將與這個網(wǎng)頁相對應(yīng)的鏈接加入用戶的個人資料中。如果沒有合適的網(wǎng)頁表達他或她感興趣的實體,則用戶可以通過另外添加有關(guān)該實體的文本信息創(chuàng)建這樣的網(wǎng)頁。對于許多實體來說,可以從維基百科或其它資源中提取這個信息,提供詳細的高質(zhì)量信息。
[0007]對于上述的兩類推薦系統(tǒng),對推薦系統(tǒng)來說是新人的用戶首先必須在推薦器可以生成有用個性化推薦之前評價若干項目。這可能妨礙推薦系統(tǒng)的廣泛使用,因為用戶可能并不總是愿意一開始就把時間和精力投入到向系統(tǒng)“說明”他們的口味中。而是,用戶期望馬上推薦。推薦系統(tǒng)能夠隨時間了解用戶的口味,但在那種情況下,不能一開始就最佳地將推薦轉(zhuǎn)給特定用戶。
[0008]解決這個問題的一種方式是讓推薦系統(tǒng)一開始就推薦許多用戶喜歡的項目。但是,關(guān)鍵用戶可能意識不到這些推薦非常寶貴,他或她可能在推薦系統(tǒng)能夠調(diào)整它的推薦之前停止使用推薦系統(tǒng)。
[0009]在如下文獻中找到了另一種做法:Chumki Basu ET AL: "Technical paperrecommendation:A study in combining multiple information sources'Journal ofArtificial Intelligence Researchl, ljanuary2001 (2001-01-01),pages231_252。在這篇文章中,提出了使用WHIRL系統(tǒng)從多個信息源中檢索目標。[0010]按照本發(fā)明的第一方面,一種向用戶推薦內(nèi)容項的推薦引擎包含:
[0011]-個人資料生成單元,其含有預(yù)備個人資料輸入端,其被配置成從該推薦系統(tǒng)外部的數(shù)據(jù)庫接收預(yù)備個人資料數(shù)據(jù),其包含適合標識給定用戶感興趣的實體的預(yù)備個人資料文本數(shù)據(jù),以及含有預(yù)備個人資料分析單元,其與該預(yù)備個人資料輸入端連接,并配置成從預(yù)備個人資料數(shù)據(jù)中提取標識感興趣的實體的標識數(shù)據(jù),和從所提取標識數(shù)據(jù)中為給定用戶生成初始用戶個人資料數(shù)據(jù)集;
[0012]-詢問生成單元,其與該個人資料生成單元連接,并配置成使用所提取標識數(shù)據(jù)從初始用戶個人資料數(shù)據(jù)集中生成語義上相互不同以便指向至少一個內(nèi)容存儲庫的至少兩個詢問;
[0013]-內(nèi)容檢索單元,其與該詢問生成單元連接,并配置成將生成的詢問發(fā)給至少一個內(nèi)容存儲庫和配置成響應(yīng)該詢問,從至少一個內(nèi)容存儲庫接收包含各自目標列表的內(nèi)容相關(guān)響應(yīng)數(shù)據(jù),該目標列表含有指示各自內(nèi)容項的存儲地點的至少一個各自內(nèi)容地點標識符;以及
[0014]-交織單元,其與該內(nèi)容檢索單元連接,并配置成通過相互交織包含在不同幾個目標列表中的內(nèi)容地點標識符從不同目標列表中生成單個推薦列表。
[0015]該交織單元組合源自語義上相互不同的至少兩個顯性詢問的目標列表。換句話說,交織至少兩個目標列表,以生成如與使用單個選言詢問相反的推薦列表。導(dǎo)致不同目標列表的多個語義上不同詢問的顯性創(chuàng)建產(chǎn)生了對單獨列表應(yīng)用高級交織算法,例如,以便在所得列表中達到足夠程度的多樣性的可能性。
[0016]本發(fā)明的第一方面的推薦引擎基于通過根據(jù)從外部數(shù)據(jù)庫接收、本文稱為預(yù)備個人資料數(shù)據(jù)的用戶相關(guān)數(shù)據(jù),自動創(chuàng)建初始用戶個人資料,能夠生成給予新用戶的內(nèi)容項的推薦的構(gòu)思。推薦引擎的新用戶可以,例如,在已知其例子有商標Facebook或LinkedIn的電子社交網(wǎng)絡(luò)的數(shù)據(jù)庫中在他或她的帳戶下訪問數(shù)據(jù)。存在許多其它這樣的電子社交網(wǎng)絡(luò)。
[0017]電子社交網(wǎng)絡(luò)包含有關(guān)像如下那樣的實體的用戶特定數(shù)據(jù):個人、藝術(shù)家、人群、城市、國家、俱樂部、政黨、公司、思想、理論、科學(xué)、包羅萬象的東西、游戲、藝術(shù)作品,例如,音樂作品、電影、戲劇、文章、書籍、照片、版畫、油畫、藝術(shù)的風(fēng)格、事件、活動、體育等。術(shù)語“實體”在本申請中用于指給定用戶的任何這樣可識別興趣。
[0018]于是,本發(fā)明的推薦引擎通過根據(jù)像電子社交網(wǎng)絡(luò)那樣,推薦引擎外部的環(huán)境中用戶的歸檔活動作出推薦,強有力地加速了解用戶口味的過程。同時,本發(fā)明通過交織來自推薦引擎檢索的、本文也稱為目標列表的不同內(nèi)容列表推薦,識別并克服用戶早期使用推薦引擎的另一個主要問題。這種交織提高了如可以通過生成的推薦的總使用頻率來度量,尤其對于推薦列表的頂部區(qū)域來說,是推薦引擎的重要功能要求的推薦的多樣性。因此,本發(fā)明的推薦引擎不僅能夠在單個列表中向用戶展示用戶已經(jīng)知道的推薦,而且通過交織源自兩個語義上不同詢問的推薦,向用戶展示多樣的一組推薦。
[0019]因此,通過為給定用戶組合輸入預(yù)備個人資料數(shù)據(jù)的自動評估和來自不同內(nèi)容目標列表的推薦的交織,本發(fā)明的推薦引擎無需擬訂輸入或與用戶有關(guān)他或她的口味的初始交互地一開始馬上就可以從推薦系統(tǒng)中實現(xiàn)推薦對用戶的實際興趣和期望的密切依從性。因此這兩項措施在第一次與給定用戶交互之后馬上就強有力地協(xié)同加速推薦引擎的用戶特定了解過程。一開始馬上就向其提供與他或她的興趣接近的推薦的感興趣用戶會更頻繁地交互,因此更快地提供細化初始個人資料數(shù)據(jù)集所需的信息。這又提高了對推薦的質(zhì)量和適當(dāng)性的總體認知,并為用戶傳達更好的產(chǎn)品體驗。
[0020]在下文中,將描述本發(fā)明的第一方面的推薦引擎的實施例??梢韵嗷ソY(jié)合不同實施例的另外特征以形成進一步實施例,除非在本說明書中明確加以排除。
[0021 ] 優(yōu)選的是,該推薦引擎按照關(guān)聯(lián)性分類推薦。為此目的,該內(nèi)容檢索單元在一個實施例中被進一步配置成響應(yīng)詢問檢索與各自內(nèi)容地點標識符相聯(lián)系的內(nèi)容文本數(shù)據(jù)。這樣,預(yù)備個人資料數(shù)據(jù)與內(nèi)容文本數(shù)據(jù)之間的文本相關(guān)性可以用于自動評估關(guān)聯(lián)性。為此目的,一個實施例包含與該內(nèi)容檢索單元連接并配置成執(zhí)行如下步驟的排序單元:
[0022]-對響應(yīng)至少兩個詢問的每一個接收的內(nèi)容地點標識符指定基于評估預(yù)備個人資料文本數(shù)據(jù)與內(nèi)容文本數(shù)據(jù)之間的文本相關(guān)性的相似性準則的關(guān)聯(lián)性指示符;
[0023]-按照如該關(guān)聯(lián)性指示符所表達的關(guān)聯(lián)性分類目標列表;以及
[0024]-將所分類目標列表提供給該交織單元。
[0025]因此,該排序單元與其它排序做法的不同之處在于該排序不是基于用戶個人資料(如在現(xiàn)有技術(shù)中那樣)而是基于預(yù)備個人資料數(shù)據(jù),例如,根據(jù)可以從,例如,社交網(wǎng)絡(luò)中檢索的用戶相關(guān)數(shù)據(jù)。
[0026]在另一個實施例中,該個人資料生成單元包含對要包括在詢問中的至少一個關(guān)鍵字的各自集合按照至少一條實體分類準則指定各自一類實體的分類數(shù)據(jù)庫。
[0027]-其中該個人資料生成單元被配置成依照該分類數(shù)據(jù)庫對標識各自感興趣實體的所提取標識數(shù)據(jù)指定至少一個類別;以及
[0028]-其中該詢問生成單元被配置成依照該分類數(shù)據(jù)庫使用各自標識數(shù)據(jù)和指定給各自一類標識數(shù)據(jù)的至少一個關(guān)鍵字生成詢問。
[0029]這個實施例的優(yōu)點通過如下應(yīng)用例子例示出來:知道在預(yù)備個人資料數(shù)據(jù)中識別的實體是個人可以通過本實施例的推薦引擎給出將人名與關(guān)鍵字“采訪”或“傳記”組合的詢問。當(dāng)發(fā)給像YouTube或維基百科那樣的內(nèi)容提供商的內(nèi)部存儲庫時,這些詢問可以導(dǎo)致包含對該人士的采訪的視頻或包含有關(guān)給定人士的傳記材料的網(wǎng)絡(luò)被推薦。
[0030]在進一步的實施例中,該預(yù)備個人資料分析單元被進一步配置成按其語言分類預(yù)備個人資料文本數(shù)據(jù),并在其輸出端上提供指示用在預(yù)備個人資料文本數(shù)據(jù)中的各自語言的至少一個語言標識符。這個實施例的推薦引擎的分類數(shù)據(jù)庫包含不同語言的關(guān)鍵字。該詢問生成單元被配置成使用與語言標識符相對應(yīng)的語言的關(guān)鍵字生成詢問。例如,如果實體涉及法國作家,則在詢問中將作家的姓名與“6crit par”組合而不是與“written by”組合,以找出他或她寫的書。在這個實施例的變體中,該詢問生成單元另外被配置成如果對于各自類別在分類數(shù)據(jù)庫中不存在所指定其它語言的關(guān)鍵字,則使用默認語言的關(guān)鍵字生成詢問。
[0031]為了進一步提高生成的推薦列表的多樣性,該詢問生成單元在一個實施例中被配置成將感興趣的至少兩個實體的所提取標識數(shù)據(jù)包括在詢問中。
[0032]在另一個實施例中,該個人資料生成單元被配置成在個人資料數(shù)據(jù)中檢索與廣域數(shù)據(jù)網(wǎng)絡(luò)的網(wǎng)絡(luò)地點上的內(nèi)容資源的資源鏈接,訪問該內(nèi)容資源,并將可從該內(nèi)容資源中獲得的文本數(shù)據(jù)加入預(yù)備個人資料文本數(shù)據(jù)中。這樣的鏈接通常指語義上與原始“喜歡”實體有關(guān)的實體。例如,如果原始“喜歡”實體是電影導(dǎo)演,則鏈接通常指定他或她執(zhí)導(dǎo)的電影的名稱。對于作家,它們可以指定他或她寫的書。鏈接也可以指相關(guān)藝術(shù)家或通常與“喜歡”實體相聯(lián)系的藝術(shù)運動的類型。因此,通過生成將這些部分與像“written by”、“influenced by”等那樣的可能不同另外定向關(guān)鍵字組合的特定詢問,以及通過將這些詢問發(fā)給特定內(nèi)容存儲庫,使用可以在文本描述中找到的各種潛在鏈接獲取大范圍返回結(jié)果O
[0033]在這個實施例的變體中,該個人資料生成單元可替代地或另外被配置成針對通過像粗體外觀等那樣,標記標簽除了標識鏈接的那些之外的類型強調(diào)的分段掃描預(yù)備個人資料數(shù)據(jù)。
[0034]為了進一步改善推薦生成,該推薦引擎的一個實施例的個人資料生成單元被配置成從預(yù)備個人資料數(shù)據(jù)中提取通過如外部數(shù)據(jù)庫所指定的它們的生成日期相互區(qū)分的預(yù)備個人資料文本數(shù)據(jù)的不同子集,以及從該子集中提取生成該子集的各自日期。這使得可以按照它們的生成日期過濾子集。這個實施例的排序單元優(yōu)選的是又配置成將權(quán)重應(yīng)用于關(guān)聯(lián)性指示符,越多地增加關(guān)聯(lián)性指示符的權(quán)重,生成與屬于給定感興趣實體的給定內(nèi)容地點有關(guān)的各自一個子集的日期就越近。
[0035]在進一步的實施例中,該預(yù)備個人資料分析單元被配置成從預(yù)備個人資料文本數(shù)據(jù)中檢測指示給定用戶或按照外部數(shù)據(jù)庫與給定用戶有關(guān)的某個其它實體(通常是個人)喜歡一個實體/項目的關(guān)鍵字的存在,以及對初始用戶個人資料數(shù)據(jù)集中的各自實體/項目指定“喜歡”指示符。這個實施例的排序單元優(yōu)選的是被配置成將權(quán)重應(yīng)用于關(guān)聯(lián)性指示符,如果給定感興趣實體/項目含有相關(guān)“喜歡”指示符,則增加關(guān)聯(lián)性指示符的權(quán)重。
[0036]在該推薦引擎的進一步實施例中,該排序單元被配置成評估預(yù)備個人資料文本數(shù)據(jù)與內(nèi)容文本數(shù)據(jù)之間的文本相關(guān)性的數(shù)值。優(yōu)選的是,使用詞頻-逆文檔頻率權(quán)重,在下文中,tf-1df權(quán)重評估文本相關(guān)性。這個實施例的實現(xiàn)可以使評估基于包含在預(yù)備個人資料數(shù)據(jù)中和包含在內(nèi)容文本數(shù)據(jù)中的一組詞匯。例如,可以識別以及一方面為預(yù)備個人資料文本數(shù)據(jù)和另一方面在內(nèi)容文本數(shù)據(jù)中準備超過預(yù)定tf-1df權(quán)重的詞匯。另外或可替代地,出現(xiàn)在兩種類型的文本數(shù)據(jù)中的詞匯的tf-1df權(quán)重的數(shù)字上預(yù)定義相似性準則可以用于評估文本相關(guān)性。
[0037]在一個實施例中實現(xiàn)了加權(quán)目標的關(guān)聯(lián)性的另外或可替代做法,其中該排序單元被配置成根據(jù)評估在詢問中檢索到的不同內(nèi)容項的內(nèi)容文本數(shù)據(jù)之間的文本相關(guān)性的相似性準則加權(quán)關(guān)聯(lián)性指示符。在這個實施例中,如果要針對關(guān)聯(lián)性評估的內(nèi)容項與前一次評估的內(nèi)容項存在文本相關(guān)性,該文本相關(guān)性超過預(yù)定數(shù)值,則減小關(guān)聯(lián)性指示符的權(quán)重。這個實施例進一步提高了所生成推薦列表的多樣性,因為按照它們的文本相關(guān)性具有高相互相似性的查詢結(jié)果被評估為不是同等關(guān)聯(lián)的,從而對于要生成的單個推薦列表,只自動偏選相互相似查詢結(jié)果之一。
[0038]在進一步的實施例中,該推薦引擎進一步包含驗證單元,其被配置成經(jīng)由用戶輸入界面接收適合訪問外部數(shù)據(jù)庫的用戶驗證數(shù)據(jù)。該個人資料生成單元被配置成訪問該外部數(shù)據(jù)庫以檢索預(yù)備個人資料數(shù)據(jù)。
[0039]為了使用戶個人資料繼續(xù)適用,除了該個人資料生成單元之外,該推薦引擎的另一個實施例進一步包含個人資料維護單元。該個人資料維護單元被配置成從檢索的內(nèi)容文本數(shù)據(jù)中為另外實體提取另外標識數(shù)據(jù)。該個人資料維護單元優(yōu)選的是進一步配置成一旦檢測到超過預(yù)定閾值的預(yù)備個人資料文本數(shù)據(jù)與內(nèi)容文本數(shù)據(jù)之間的文本相關(guān)性的數(shù)值,就將提取的另外標識數(shù)據(jù)加入用戶個人資料數(shù)據(jù)集中。因此在這個實施例中通過進一步維護初始生成的用戶個人資料,使用戶個人資料進一步適用。
[0040]本發(fā)明的第二方面由內(nèi)容存儲庫形成,其包含:
[0041]-以存儲在內(nèi)容地點上的數(shù)據(jù)文件的形式包含內(nèi)容項的內(nèi)容數(shù)據(jù)庫;以及
[0042]-按照本發(fā)明的第一方面或按照公開在包括權(quán)利要求書的本說明書中的其實施例之一的推薦引擎。
[0043]在本發(fā)明的第二方面的內(nèi)容存儲庫中,該推薦引擎的內(nèi)容檢索單元被配置成將生成的詢問發(fā)給內(nèi)容數(shù)據(jù)庫。基本上不排除將生成的詢問發(fā)給本發(fā)明的當(dāng)前方面的內(nèi)容存儲庫未包含的其它外部內(nèi)容數(shù)據(jù)庫。但是,在一個實施例中,詢問的發(fā)給事實上不局限于內(nèi)容存儲庫本身的內(nèi)容數(shù)據(jù)庫。
[0044]內(nèi)容存儲庫的實施例包含按照本發(fā)明的第一方面的推薦引擎的至少一個實施例。本發(fā)明的第二方面的內(nèi)容存儲庫的優(yōu)點及其實施例因此對應(yīng)于上面在本發(fā)明的第一方面的各自背景下所述的那些,因此在當(dāng)前背景下不再重復(fù)。
[0045]按照本發(fā)明的第三方面,一種操作向用戶推薦內(nèi)容項的推薦引擎的方法包含:
[0046]-從該推薦系統(tǒng)外部的數(shù)據(jù)庫接收預(yù)備個人資料數(shù)據(jù),其包含適合標識給定用戶感興趣的實體的預(yù)備個人資料文本數(shù)據(jù);
[0047]-從預(yù)備個人資料數(shù)據(jù)中提取標識感興趣的實體的標識數(shù)據(jù);
[0048]-從所提取標識數(shù)據(jù)中為給定用戶生成初始用戶個人資料數(shù)據(jù)集;
[0049]-使用所提取標識數(shù)據(jù)從初始用戶個人資料數(shù)據(jù)集中生成語義上相互不同以便指向至少一個內(nèi)容存儲庫的至少兩個詢問;
[0050]-將生成的詢問發(fā)給至少一個內(nèi)容存儲庫;
[0051]-響應(yīng)該詢問,從至少一個內(nèi)容存儲庫接收包含各自目標列表的內(nèi)容相關(guān)響應(yīng)數(shù)據(jù),該目標列表含有指示各自內(nèi)容項的存儲地點的至少一個各自內(nèi)容地點標識符;以及
[0052]-通過相互交織包含在不同幾個目標列表中的內(nèi)容地點標識符從不同檢索目標列表中生成單個推薦列表。
[0053]第三方面的方法密切地對應(yīng)于本發(fā)明的第一方面的推薦引擎的功能。因此,有關(guān)其優(yōu)點和實施例的描述,請參考本說明書和權(quán)利要求書中對本發(fā)明的第一方面的推薦引擎及其各種實施例的描述。
[0054]本發(fā)明的第四方面由存儲可執(zhí)行程序代碼的計算機可讀存儲介質(zhì)形成,該程序代碼實現(xiàn)按照本發(fā)明的第三方面的控制向用戶推薦內(nèi)容項的推薦引擎的操作的方法或其實施例之一。
[0055]本發(fā)明的優(yōu)選實施例還定義在所附權(quán)利要求書中。本發(fā)明的前述和其它方面將從下文所述的實施例中明顯看出以及針對下文所述的實施例得以闡明。在附圖中:
[0056]圖1示出了按照一個實施例的推薦引擎以及內(nèi)容存儲庫的框圖;以及
[0057]圖2示出了按照進一步實施例操作推薦引擎的方法的流程圖。
[0058]圖1示出了按照一個實施例的推薦引擎的框圖。下面還將進一步使用圖1來說明內(nèi)容存儲庫的實施例。[0059]圖1的推薦引擎100 —般用于向用戶推薦內(nèi)容項。用戶操作內(nèi)容顯示設(shè)備102。本實施例的推薦引擎100像在物理上與顯示設(shè)備102分開的設(shè)備那樣操作。換句話說,在本實施例中,顯示設(shè)備在推薦引擎100的外部。在另一個有用實施例中,將推薦引擎與內(nèi)容顯示設(shè)備102集成在一起。在這些實施例的任何一個中,推薦引擎100和內(nèi)容顯示設(shè)備102都可通信地相互連接。
[0060]也可以在推薦引擎100與用戶終端設(shè)備104之間建立通信連接,用戶終端設(shè)備104通常是像臺式計算機、像筆記本電腦那樣的移動計算機、或智能電話那樣某種形式的計算機。終端設(shè)備104和內(nèi)容顯示設(shè)備102在許多應(yīng)用情況中被集成在一個單獨設(shè)備中。但是,為了清楚表示它們與推薦引擎I交互的功能起見,圖1將它們顯示成分開方塊,還指出了它們事實上可以在物理上分開的設(shè)備上實現(xiàn)。
[0061]終端設(shè)備104被配置成與電子社交網(wǎng)絡(luò)的數(shù)據(jù)庫106交換信息。眾所周知,用戶可以應(yīng)用終端設(shè)備104來輸入,因此向社交網(wǎng)絡(luò),即就本描述而言,向數(shù)據(jù)庫106發(fā)送他的個人信息、評論、偏愛項目(“喜歡”)、與網(wǎng)站的鏈接等,以及從社交網(wǎng)絡(luò)的其他用戶(他的“朋友”)接收類似輸入。
[0062]如下面進一步所述,終端設(shè)備104也可以用于與推薦引擎100交互。
[0063]推薦引擎100包含個人資料生成單元108。個人資料生成單元108被劃分成預(yù)備個人資料輸入單元110,其可通信地可與數(shù)據(jù)庫106或(未顯示在圖1中)終端設(shè)備104,或兩者連接。預(yù)備個人資料輸入端被配置成接收預(yù)備個人資料數(shù)據(jù),其包含適合標識給定用戶感興趣的實體的預(yù)備個人資料文本數(shù)據(jù)。例如,預(yù)備個人資料數(shù)據(jù)可以包含通常用像html或xml那樣的標記語言寫成、通過帖子、評論、其它類型的文本或文本片段、鏈接指定用戶感興趣的實體以便使用萬維網(wǎng)瀏覽器軟件顯示、和也使用社交網(wǎng)絡(luò)的提供商向用戶展示的萬維網(wǎng)瀏覽器界面由用戶經(jīng)由他對數(shù)據(jù)庫106的輸入保持的個人“喜歡”頁面,即,代碼。
[0064]個人資料生成單元108進一步包含預(yù)備個人資料分析單元112,其與預(yù)備個人資料輸入單元110的輸入端連接,并配置成從預(yù)備個人資料數(shù)據(jù)中提取標識感興趣的實體的標識數(shù)據(jù),和從所提取標識數(shù)據(jù)中為給定用戶生成初始用戶個人資料數(shù)據(jù)集。例如,指定給定用戶“喜歡”的實體的網(wǎng)頁通常包含像類別、實體的圖像、“喜歡”實體的若干用戶那樣,幾乎總是存在的若干特征。指定類別的文本通常是免費文本,即,它可以是任何文本片段,但可以識別像,例如,“音樂家/樂隊”或“公眾人物”那樣大多數(shù)出現(xiàn)的類別。另外,提取“喜歡”頁面包含大文本份額的部分。這些通常被表示成“描述”、“關(guān)于”等。針對指示鏈接、強調(diào)、粗體等的部分的特定標記標簽掃描這些文本片段,這些部分通常指語義上與原始“喜歡”實體有關(guān)的實體。例如,如果原始“喜歡”實體是電影導(dǎo)演,則這些部分可以指定他或她執(zhí)導(dǎo)的電影的名稱。對于作家,它們可以指定他或她寫的書。但是,這些特定部分也可以指相關(guān)藝術(shù)家或通常與“喜歡”實體相聯(lián)系的藝術(shù)運動的類型。另外,像Facebook、YouTube和Twitter那樣的許多社交媒體使用戶可以在社交媒體上“張貼”也與項目有關(guān)的評論和信息,以便為朋友更新自己的活動或興趣。包含在帖子或評論中的信息以及與這些帖子和評論相聯(lián)系的“喜歡”(未必屬于張貼評論的用戶,而是屬于朋友)也可以作為預(yù)備個人資料數(shù)據(jù)被預(yù)備個人資料分析單元用在生成初始用戶個人資料數(shù)據(jù)集的過程中,以便用于生成給予用戶的第一推薦。
[0065]為了識別朋友對“喜歡”實體的評論應(yīng)該解釋為正面的還是負面的,可以在本實施例的變體中,例如,由預(yù)備個人資料分析單元112尋找通常與正面情感相聯(lián)系的詞匯、和通常與負面情感相聯(lián)系的詞匯的出現(xiàn)分析評論的情感。
[0066]獲取預(yù)備個人資料數(shù)據(jù)的選擇是對推薦引擎裝備驗證單元,其被配置成經(jīng)由用戶輸入界面接收適合訪問數(shù)據(jù)庫106的用戶驗證數(shù)據(jù)。因此,用戶經(jīng)由驗證單元114向推薦引擎100公開他訪問數(shù)據(jù)庫106所需的用戶驗證信息。在這種情況下,個人資料生成單元108被配置成應(yīng)用用戶驗證數(shù)據(jù)來訪問外部數(shù)據(jù)庫106,以便檢索預(yù)備個人資料數(shù)據(jù)。
[0067]但是,配備驗證單元112是推薦引擎100的非必要特征。預(yù)備個人資料數(shù)據(jù)可以由用戶本身經(jīng)由他或她的終端設(shè)備104來提供。例如,用戶可以首先從各自社交網(wǎng)絡(luò)下載個人數(shù)據(jù)的副本,然后經(jīng)由預(yù)備個人資料輸入單元110將該副本作為預(yù)備個人資料數(shù)據(jù)提供給推薦引擎。
[0068]推薦引擎100的個人資料生成單元108的個人資料分析單元112另外被配置成依照分類數(shù)據(jù)庫116對標識感興趣的各自實體的所提取標識數(shù)據(jù)指定至少一個類別。實體的類別可以,例如,通過指定像如下那樣的屬性來區(qū)分實體:個人、藝術(shù)家、人群、城市、州、國家、機構(gòu)、俱樂部、政黨、公司、思想、理論、科學(xué)、(包羅萬象的)東西、游戲、藝術(shù)作品,例如,音樂作品、電影、戲劇、文章、書籍、照片、版畫、油畫、藝術(shù)的風(fēng)格、事件、活動、體育等。分類數(shù)據(jù)庫另外還對要包括在詢問中的至少一個關(guān)鍵字的各自集合指定各自一類實體。
[0069]分類數(shù)據(jù)庫116有利的是包含不同語言的關(guān)鍵字。如下面所進一步說明,這使得可以用他從若干可用語言中選擇的優(yōu)先語言向用戶提供推薦。在個人資料生成單元的一偵牝這個特征通過預(yù)備個人資料分析單元112來支持,其被進一步配置成按其語言分類預(yù)備個人資料文本數(shù)據(jù),并在其輸出端上提供指示用在預(yù)備個人資料文本數(shù)據(jù)中的各自語言的至少一個語言標識符。
[0070]將個人資料生成單元生成的初始用戶個人資料數(shù)據(jù)集存儲在用戶個人資料數(shù)據(jù)庫118中。
[0071]推薦引擎100進一步包含詢問生成單元120。詢問生成單元120與個人資料生成單元108連接,并被配置成使用所提取標識數(shù)據(jù)從初始用戶個人資料數(shù)據(jù)集中生成語義上相互不同以便指向至少一個內(nèi)容存儲庫的至少兩個詢問。兩個不同內(nèi)容存儲庫在圖1中用標號124和126表不,并且為了易于圖形表不起見用標號122概括。為了描述本實施例的目的,假設(shè)內(nèi)容存儲庫可由推薦引擎經(jīng)由像互聯(lián)網(wǎng)那樣的公用通信網(wǎng)絡(luò)訪問。這樣內(nèi)容存儲庫的例子是,例如,像YouTube或維基百科那樣的免費訪問內(nèi)容源,但也可以是像商業(yè)電影數(shù)據(jù)庫那樣的訪問受限內(nèi)容源。
[0072]通過生成將個人資料生成單元108標識成感興趣實體的部分與像“written by”、“influenced by”等那樣的不同另外定向關(guān)鍵字組合的特定詢問,以及通過將這些詢問發(fā)給特定內(nèi)容存儲庫122,使用預(yù)備個人資料分析單元在文本描述中找到的各種潛在線索獲取大范圍返回結(jié)果。另外,由于如前所述,標識了用在文本描述中的語言,所以這有利地用于使用與用在標識感興趣實體的那些部分中相同的關(guān)鍵字的語言生成詢問。例如,如果實體涉及法國作家和相應(yīng)“喜歡”頁面,則有意義的是將作家的姓名與“6crit par”組合而不是與“written by”組合,以試圖找出他或她寫的書。詢問生成單元120為此被配置成使用與語言標識符相對應(yīng)的語言的關(guān)鍵字,或如果對于各自類別在分類數(shù)據(jù)庫中不存在這種語言的關(guān)鍵字,則使用默認語言的關(guān)鍵字生成詢問。[0073]與詢問生成單元120連接的內(nèi)容檢索單元128被配置成將生成的詢問發(fā)給至少一個內(nèi)容存儲庫128以及響應(yīng)該詢問,從至少一個內(nèi)容存儲庫128接收包含各自目標列表的內(nèi)容相關(guān)響應(yīng)數(shù)據(jù),該目標列表含有指示各自內(nèi)容項的存儲地點的至少一個各自內(nèi)容地點標識符。
[0074]注意,如個人資料生成單元108從預(yù)備個人資料文本數(shù)據(jù)中檢索的“喜歡”實體的描述的廣泛性將影響所發(fā)詢問和返回結(jié)果的多樣性。例如,假設(shè)Facebook的用戶指定了他或她“喜歡”作曲家Mozart (莫扎特)。有關(guān)Mozart的Facebook頁面包含,例如,指向像“Salzbrug”和“Vienna”那樣的城市,而且還指向“Requiem”和“Constanze”的許多鏈接??梢栽谠儐栔信c“Mozart”組合的這些術(shù)語的多樣性給出了極其多樣的結(jié)果。尤其,在這種情況下,包含關(guān)鍵字“Vienna”或“Salzbrug”的詢問可能返回與Mozart毫無關(guān)系的結(jié)果。因此,加入過濾掉不應(yīng)該推薦的無關(guān)結(jié)果的另外步驟是有利的。于是,本實施例的推薦引擎包含排序單元130,其與內(nèi)容檢索單元連接并被配置成對響應(yīng)至少兩個詢問的每一個接收的內(nèi)容地點標識符指定基于評估預(yù)備個人資料文本數(shù)據(jù)與內(nèi)容文本數(shù)據(jù)之間的文本相關(guān)性的相似性準則的關(guān)聯(lián)性指示符,按照如該關(guān)聯(lián)性指示符所表達的關(guān)聯(lián)性分類目標列表,以及在其輸出端上提供所分類目標列表。
[0075]根據(jù)在可能針對不同內(nèi)容存儲庫的多個詢問中檢索的結(jié)果,推薦引擎操作排序單元130。排序的目的是推薦的最終列表的頂部應(yīng)該給出一組關(guān)聯(lián)結(jié)構(gòu)。結(jié)果的關(guān)聯(lián)性通過確定結(jié)果與原始“喜歡”實體的文本相關(guān)性來建立。存在在現(xiàn)有技術(shù)中已知的識別內(nèi)容相關(guān)性的若干做法。在本說明書中前面已經(jīng)提及的稱為tf-1df的做法常常用在實際中。使用矢量空間模型也是常見的,其中每個文本(或文檔)用多維矢量表示,其中每維對應(yīng)于出現(xiàn)在文本中的一個詞匯。這樣詞匯矢量的項目通過如下計算:將相關(guān)詞頻(tf),S卩,給定詞匯出現(xiàn)在文本中的次數(shù)除以文本中的詞匯的總數(shù)乘以表達一個詞匯多頻繁地出現(xiàn)在文檔的給定文集的一個文檔中的逆文檔頻率(idf)。注意,一個文集是特定語言的。如前所述,從中生成詢問的文本的語言被標識,并且可以用于選擇適當(dāng)文集來計算逆文檔頻率。這樣,原始“喜歡”實體的文本和與給定結(jié)果相對應(yīng)的文本兩者可以被表示成高維空間中的矢量,這些矢量之間的余弦可以用作它們文本相關(guān)性的度量。
[0076]為了實現(xiàn)排序,我們可以按如下進行。設(shè)ql,...,qn是已經(jīng)發(fā)送給內(nèi)容存儲庫的詢問的列表,對于每個qi,讓R(qi)表示在發(fā)出qi時返回的結(jié)果的列表。現(xiàn)在,對于每個qi,我們可以按與原始“喜歡”實體的文本相關(guān)性減小的次序排序R(qi)中的結(jié)果。
[0077]在一些變體中排序也可能牽涉到將權(quán)重應(yīng)用于評估的關(guān)聯(lián)性指示符。根據(jù)用戶對數(shù)據(jù)庫106所作的不同輸入的所提取生成日期,排序單元130可以按照各自用戶輸入的年齡將權(quán)重應(yīng)用于關(guān)聯(lián)性指示符。換句話說,越多地增加關(guān)聯(lián)性指示符的權(quán)重,生成與屬于給定感興趣實體的給定內(nèi)容地點有關(guān)的各自一個子集的日期就越近。例如,“喜歡”實體可以包含報告相應(yīng)實體的最近新聞的新聞供應(yīng)站。此外,在那里,為了重新排序結(jié)果,或甚至為了預(yù)先更多最近文本竹以便生成詢問,可以通過對“喜歡”實體的最近添加物適當(dāng)加權(quán)給予優(yōu)先考慮。在另一種變體中,將預(yù)備個人資料分析單元配置成從預(yù)備個人資料文本數(shù)據(jù)中檢測指示給定用戶或與給定用戶有關(guān)的某人喜歡實體的關(guān)鍵字的存在。因此可以對初始用戶個人資料數(shù)據(jù)集中的各自實體指定“喜歡”指示符,并且排序單元可以將權(quán)重應(yīng)用于關(guān)聯(lián)性指示符,如果給定感興趣實體含有相關(guān)“喜歡”指示符,則增加關(guān)聯(lián)性指示符的權(quán)重。[0078]配備排序單元不是推薦引擎所強制的。例如,如果內(nèi)容存儲庫已經(jīng)根據(jù)用于詢問的術(shù)語將排序應(yīng)用于它們的目標列表,則在生成單個推薦列表的過程中可以省略推薦引擎的排序。此外,可以將排序?qū)崿F(xiàn)成可以由用戶開關(guān)的選項。
[0079]為了獲得在其項目方面提供多樣性的推薦的單個列表,推薦引擎100包含交織單元132。交織單元132與內(nèi)容檢索單元128連接(在本實施例中,通過排序單元130),并配置成通過相互交織包含在不同幾個目標列表中的內(nèi)容地點標識符從不同目標列表中生成單個推薦列表??梢岳缤ㄟ^使用聯(lián)名聲明(round-robin)方法或通過使用更高級的基于信用的調(diào)度方法來進行不同詢問的結(jié)果的排列列表的交織。
[0080]該交織在一個實施例中基于從不同詢問中獲得的結(jié)果的文本相關(guān)性的評估。該交織單元被配置成根據(jù)評估在詢問中檢索到的不同內(nèi)容項的內(nèi)容文本數(shù)據(jù)之間的文本相關(guān)性的相似性準則加權(quán)關(guān)聯(lián)性指示符。如果要針對關(guān)聯(lián)性評估的內(nèi)容項與前一次評估的內(nèi)容項存在文本相關(guān)性,該文本相關(guān)性超過預(yù)定數(shù)值,則減小關(guān)聯(lián)性指示符的權(quán)重。此外,通過這種實現(xiàn),保證了推薦的最終列表的頂部足夠的多樣性。
[0081]除了有助于渡過推薦引擎10仍然必須了解用戶的口味的初始階段之外,可以按如下實現(xiàn)推薦系統(tǒng)的了解過程的加速。被識別為足夠關(guān)聯(lián)的結(jié)果一例如,因為它們的描述與“喜歡”實體的描述的余弦相似性足夠高一可以被推薦器解釋為喜歡。這可以直接導(dǎo)致相對較大的一組喜歡。對于使用協(xié)同過濾做法的推薦引擎,將這些作為喜歡直接加入用戶項目表中。對于基于內(nèi)容的推薦系統(tǒng),倘若可以從結(jié)果中識別這些特征,可以將這些“喜歡”轉(zhuǎn)換成特征值對的喜歡程度的變化。如果結(jié)果被識別成存儲有關(guān)內(nèi)容項的特征值對信息的數(shù)據(jù)庫中的項目,則可以實現(xiàn)這一點。為了能夠?qū)崿F(xiàn)這樣的改進了解過程,本實施例的推薦引擎100還包含個人資料維護單元134。該個人資料維護單元被配置成使存儲用戶個人資料數(shù)據(jù)庫118中的初始用戶個人資料數(shù)據(jù)集適用于進一步的使用過程。為此,該個人資料維護單元被配置成從檢索的內(nèi)容文本數(shù)據(jù)中為另外實體提取另外標識數(shù)據(jù),并且一旦檢測到超過預(yù)定閾值的預(yù)備個人資料文本數(shù)據(jù)與內(nèi)容文本數(shù)據(jù)之間的文本相關(guān)性的數(shù)值,就將提取的另外標識數(shù)據(jù)加入用戶個人資料數(shù)據(jù)集中。
[0082]進一步的維護可以基于應(yīng)用所檢測用戶交互的已知算法。為了能夠?qū)崿F(xiàn)這樣的用戶交互,提供界面136以便向顯示設(shè)備102輸送交織單元132通常以允許圖形表示推薦列表,以便能夠?qū)崿F(xiàn)用戶選擇,去選或另一種類型評價推薦項目的直觀用戶交互的數(shù)據(jù)形式提供的所生成單個推薦列表。
[0083]推薦系統(tǒng)可以用將專用電路用于推薦引擎的不同功能單元的硬件來實現(xiàn)。在另一個實施例中,推薦引擎用將一個或多個程序控制處理器用于實現(xiàn)該引擎的不同功能單元的計算機硬件來實現(xiàn)。
[0084]圖1還適合例示按照本發(fā)明的內(nèi)容存儲庫200的實施例。在內(nèi)容存儲庫中,推薦引擎和至少一個內(nèi)容數(shù)據(jù)庫122由相同提供商運營。訪問除了依照以前的描述的內(nèi)容存儲庫200的內(nèi)部內(nèi)容數(shù)據(jù)庫122之外的內(nèi)容數(shù)據(jù)庫可以或可以不按照提供商的商業(yè)模式來實現(xiàn)。因此,內(nèi)容存儲庫200可以使推薦限于包含在提供商的內(nèi)容數(shù)據(jù)庫中的內(nèi)容項。通過與內(nèi)容數(shù)據(jù)庫一起應(yīng)用推薦引擎,創(chuàng)建了向內(nèi)容存儲庫的用戶廣告內(nèi)容項的有吸引力方式。
[0085]圖2示出了按照本發(fā)明的實施例操作向用戶推薦內(nèi)容項的推薦引擎的方法的流程圖。該方法包含如下步驟:[0086]步驟S1:從推薦系統(tǒng)外部的數(shù)據(jù)庫接收預(yù)備個人資料數(shù)據(jù),其包含適合標識給定用戶感興趣的實體的預(yù)備個人資料文本數(shù)據(jù);
[0087]步驟S2:從預(yù)備個人資料數(shù)據(jù)中提取標識感興趣的實體的標識數(shù)據(jù);
[0088]步驟S3:從所提取標識數(shù)據(jù)中為給定用戶生成初始用戶個人資料數(shù)據(jù)集;
[0089]步驟S4:使用所提取標識數(shù)據(jù)從初始用戶個人資料數(shù)據(jù)集中生成語義上相互不同以便指向至少一個內(nèi)容存儲庫的至少兩個詢問;
[0090]步驟S5:將生成的詢問發(fā)給至少一個內(nèi)容存儲庫;
[0091]步驟S6:響應(yīng)該詢問,從至少一個內(nèi)容存儲庫接收包含各自目標列表的內(nèi)容相關(guān)響應(yīng)數(shù)據(jù),該目標列表含有指示各自內(nèi)容項的存儲地點的至少一個各自內(nèi)容地點標識符;以及
[0092]S7:通過相互交織包含在不同幾個目標列表中的內(nèi)容地點標識符從不同檢索目標列表中生成單個推薦列表。
[0093]根據(jù)像指定感興趣實體的網(wǎng)頁那樣的給定“喜歡”頁面生成推薦的過程的另一個實施例包含如下步驟。
[0094]1.通過提取實體的類型以及通過從文本中提取特定文本片段分析網(wǎng)頁的文本。
[0095]2.這個步驟通過如下2a或2b或兩者來實現(xiàn):
[0096]2a.使用喜歡實體的類別以及使用所提取的文本片段生成詢問。使用像,例如,YouTube和Amazon那樣的在線內(nèi)容存儲庫為這種類型的使用提供的API將這些詢問發(fā)給這些存儲庫。
[0097]2b.取代將詢問發(fā)給可能外部內(nèi)容存儲庫,可替代地可以將所提取文本片段和喜歡實體的類別與內(nèi)部內(nèi)容存儲庫中的項目匹配,其中完全控制如何實現(xiàn)匹配。
[0098]3.分析在線存儲庫返回的結(jié)果,以便針對這些結(jié)果的每一個確定與原始“喜歡”實體的語義相關(guān)性。另外,作為選項,可以分析每個結(jié)果對之間的相互相似性。兩種分析都可以基于比較它們的文本相似性。
[0099]4.隨后,將結(jié)果組合成推薦的單個列表,目的是在列表的頂部含有語義上與原始“喜歡”實體高度相關(guān)但相互充分不同的結(jié)果。
[0100]5.作為一個選項,使與原始“喜歡”實體具有足夠高文本相似性的結(jié)果可以作為“喜歡”直接包括到推薦系統(tǒng)中,以便加速了解用戶的個人資料的過程。
[0101]總之,本發(fā)明允許尤其為開始使用推薦系統(tǒng)的新用戶生成個人和多種多樣推薦。因此,渡過由于缺乏新用戶的評價,推薦器了解不到用戶的口味的階段。用戶可以使用他或她的社交網(wǎng)絡(luò)服務(wù)帳戶和允許推薦系統(tǒng)使用用戶以前指定的“喜歡”登錄到推薦系統(tǒng)中。這樣,在擴大評價的列表的同時給予推薦器以足夠的時間來了解用戶的口味。
[0102]通過適當(dāng)使用不同內(nèi)容存儲庫的API,可以使用本發(fā)明來推薦多種類型的內(nèi)容,包括電影、電視節(jié)目、書籍、文章、數(shù)字文檔等,因此推薦包括個人和一般興趣的非常不同實體。
[0103]雖然在附圖和前面的描述中詳細例示和描述了本發(fā)明,但這樣的例示和描述應(yīng)當(dāng)被認為是例示性的或示范性的而不是限制性的;本發(fā)明不局限于所公開的實施例。
[0104]通過研究附圖、公開、和所附權(quán)利要求書實踐要求保護的發(fā)明的本領(lǐng)域的普通技術(shù)人員可以明白和實現(xiàn)所公開實施例的各種變體。[0105]在權(quán)利要求書中,詞匯“包含”不排除其它元件或步驟,不定冠詞“一個”或“一種”不排除復(fù)數(shù)。單個單元可以完成在權(quán)利要求書中所述的幾個項目的功能。在相同不同人性權(quán)利要求中闡述某些措施的僅有事實不并指示不能有利地使用這些措施的組合。
[0106]計算機程序可以存儲/分布在像與其它硬件一起或作為其一部分供應(yīng)的光存儲介質(zhì)或固態(tài)介質(zhì)那樣的適當(dāng)介質(zhì)上,但也可以像經(jīng)由互聯(lián)網(wǎng)或其它有線或無線電信系統(tǒng)那樣,以其它形式分配。
[0107]權(quán)利要求書中的任何標號都不應(yīng)該理解為限制范圍。
【權(quán)利要求】
1.一種向用戶推薦內(nèi)容項的推薦引擎(100),包含: -個人資料生成單元,其含有預(yù)備個人資料輸入單元(110),其被配置成接收預(yù)備個人資料數(shù)據(jù),其包含適合標識給定用戶感興趣的實體的預(yù)備個人資料文本數(shù)據(jù),以及含有預(yù)備個人資料分析單元(112),其與該預(yù)備個人資料輸入單元(110)連接,并配置成從預(yù)備個人資料數(shù)據(jù)中提取標識感興趣的實體的標識數(shù)據(jù),和從所提取標識數(shù)據(jù)中為給定用戶生成初始用戶個人資料數(shù)據(jù)集; -詢問生成單元(120),其與該個人資料生成單元連接,并配置成使用從初始用戶個人資料數(shù)據(jù)集中所提取標識數(shù)據(jù)生成語義上相互不同以便指向至少一個內(nèi)容存儲庫的至少兩個詢問; -內(nèi)容檢索單元(128),其與該詢問生成單元(120)連接,并配置成將生成的詢問發(fā)給至少一個內(nèi)容存儲庫(122)和配置成響應(yīng)該詢問,從至少一個內(nèi)容存儲庫接收包含各自目標列表的內(nèi)容相關(guān)響應(yīng)數(shù)據(jù),該目標列表含有指示各自內(nèi)容項的存儲地點的至少一個各自內(nèi)容地點標識符;以及 -交織單元(132),其與該內(nèi)容檢索單元連接,并配置成通過相互交織包含在不同幾個目標列表中的內(nèi)容地點標識符從不同目標列表中生成單個推薦列表。
2.如權(quán)利要求1所述的推薦引擎, -其中該內(nèi)容檢索單元(128)被進一步配置成響應(yīng)詢問檢索與各自內(nèi)容地點標識符相聯(lián)系的內(nèi)容文本數(shù)據(jù);該推薦引擎(100)進一步包含: 排序單元(130),其與該內(nèi)容檢索單元(128)連接并配置成: -對響應(yīng)至少兩個詢問的每一個接收的內(nèi)容地點標識符指定基于評估預(yù)備個人資料文本數(shù)據(jù)與內(nèi)容文本數(shù)據(jù)之間的文本相關(guān)性的相似性準則的關(guān)聯(lián)性指示符; -按照如該關(guān)聯(lián)性指示符所表達的關(guān)聯(lián)性分類目標列表;以及 -將所分類目標列表提供給該交織單元。
3.如權(quán)利要求1或2所述的推薦引擎, -其中該個人資料生成單元(108)包含對要包括在詢問中的至少一個關(guān)鍵字的各自集合按照至少一條實體分類準則指定各自一類實體的分類數(shù)據(jù)庫(116), -其中該個人資料生成單元(108)被配置成依照該分類數(shù)據(jù)庫對標識各自感興趣實體的所提取標識數(shù)據(jù)指定至少一個類別;以及 -其中該詢問生成單元(120)被配置成依照該分類數(shù)據(jù)庫使用各自標識數(shù)據(jù)和指定給各自一類標識數(shù)據(jù)的至少一個關(guān)鍵字生成詢問。
4.如權(quán)利要求3所述的推薦引擎, -其中該預(yù)備個人資料分析單元(112)被進一步配置成按其語言分類預(yù)備個人資料文本數(shù)據(jù),并在其輸出端上提供指示用在預(yù)備個人資料文本數(shù)據(jù)中的各自語言的至少一個語言標識符; -其中該分類數(shù)據(jù)庫(116)包含不同語言的關(guān)鍵字;以及其中該詢問生成單元(120)被配置成使用與語言標識符相對應(yīng)的語言的關(guān)鍵字生成詢問,或如果對于各自類別在分類數(shù)據(jù)庫中不存在這種語言的關(guān)鍵字,則使用默認語言的關(guān)鍵字生成詢問。
5.如前面權(quán)利要求之一所述的推薦引擎,其中該詢問生成單元(120)被配置成將感興趣的至少兩個實體的所提取標識數(shù)據(jù)包括在詢問中。
6.如前面權(quán)利要求之一所述的推薦引擎,其中該個人資料生成單元(108)被配置成在預(yù)備個人資料數(shù)據(jù)中檢測與廣域數(shù)據(jù)網(wǎng)絡(luò)的網(wǎng)絡(luò)地點上的內(nèi)容資源的資源鏈接,訪問該內(nèi)容資源,并將可從該內(nèi)容資源中獲得的文本數(shù)據(jù)加入預(yù)備個人資料文本數(shù)據(jù)中。
7.如前面權(quán)利要求之一所述的推薦引擎, -其中該個人資料生成單元(108)被配置成從預(yù)備個人資料數(shù)據(jù)中提取通過如外部數(shù)據(jù)庫所指定的它們的生成日期相互區(qū)分的預(yù)備個人資料文本數(shù)據(jù)的預(yù)備個人資料數(shù)據(jù)不同子集,以及從該子集中提取生成該子集的各自日期;以及 -其中該排序單元(130)被配置成將權(quán)重應(yīng)用于關(guān)聯(lián)性指示符,越多地增加關(guān)聯(lián)性指示符的權(quán)重,生成與屬于給定感興趣實體的給定內(nèi)容地點有關(guān)的各自一個子集的日期就越近。
8.如前面權(quán)利要求之一所述的推薦引擎,其中該預(yù)備個人資料分析單元(112)被配置成從預(yù)備個人資料文本數(shù)據(jù)中檢測指示給定用戶或與給定用戶有關(guān)的某個人喜歡一個實體的關(guān)鍵字的存在 ,以及對初始用戶個人資料數(shù)據(jù)集中的各自實體指定“喜歡”指示符,以及其中排序單元(130)被配置成將權(quán)重應(yīng)用于關(guān)聯(lián)性指示符,如果給定感興趣實體含有相關(guān)“喜歡”指示符,則增加關(guān)聯(lián)性指示符的權(quán)重。
9.如前面權(quán)利要求之一所述的推薦引擎,其中該排序單元(130)或該交織單元(132)被配置成評估預(yù)備個人資料文本數(shù)據(jù)與內(nèi)容文本數(shù)據(jù)之間的文本相關(guān)性的數(shù)值。
10.如權(quán)利要求2到9之一所述的推薦引擎,其中 -其中該交織單元(132)被配置成根據(jù)評估在詢問中檢索到的不同內(nèi)容項的內(nèi)容文本數(shù)據(jù)之間的文本相關(guān)性的相似性準則加權(quán)關(guān)聯(lián)性指示符,其中如果要針對關(guān)聯(lián)性評估的內(nèi)容項與前一次評估的內(nèi)容項存在文本相關(guān)性,該文本相關(guān)性超過預(yù)定數(shù)值,則減小關(guān)聯(lián)性指示符的權(quán)重。
11.如前面權(quán)利要求之一所述的推薦引擎, -進一步包含驗證單元(114),其被配置成經(jīng)由用戶輸入界面接收適合訪問外部數(shù)據(jù)庫的用戶驗證數(shù)據(jù), -其中該個人資料生成單元(108)被配置成訪問該外部數(shù)據(jù)庫以檢索預(yù)備個人資料數(shù)據(jù)。
12.如權(quán)利要求9所述的推薦引擎,進一步包含個人資料維護單元(134),其被配置成從內(nèi)容文本數(shù)據(jù)中為另外實體提取另外標識數(shù)據(jù),以及被配置成一旦檢測到超過預(yù)定閾值的預(yù)備個人資料文本數(shù)據(jù)與內(nèi)容文本數(shù)據(jù)之間的文本相關(guān)性的數(shù)值,就將提取的另外標識數(shù)據(jù)加入用戶個人資料數(shù)據(jù)集中。
13.一種內(nèi)容存儲庫(200),包含: -以存儲在內(nèi)容地點上的數(shù)據(jù)文件的形式包含內(nèi)容項的內(nèi)容數(shù)據(jù)庫;以及 -按照前面權(quán)利要求之一所述的推薦引擎, -其中該推薦引擎的內(nèi)容檢索單元被配置成將生成的詢問發(fā)給內(nèi)容數(shù)據(jù)庫。
14.一種操作向用戶推薦內(nèi)容項的推薦引擎的方法,包含: -從該推薦系統(tǒng)外部的數(shù)據(jù)庫接收(Si)預(yù)備個人資料數(shù)據(jù),其包含適合標識給定用戶感興趣的實體的預(yù)備個人資料文本數(shù)據(jù); -從預(yù)備個人資料數(shù)據(jù)中提取(S2)標識感興趣的實體的標識數(shù)據(jù);-從所提取標識數(shù)據(jù)中為給定用戶生成(S3)初始用戶個人資料數(shù)據(jù)集; -使用所提取標識數(shù)據(jù)從初始用戶個人資料數(shù)據(jù)集中生成(S4)語義上相互不同以便指向至少一個內(nèi)容存儲庫的至少兩個詢問; -將生成的詢問發(fā)給(S5)至少一個內(nèi)容存儲庫; -響應(yīng)該詢問,從至少一個內(nèi)容存儲庫接收(S6)包含各自目標列表的內(nèi)容相關(guān)響應(yīng)數(shù)據(jù),該目標列表含有指示各自內(nèi)容項的存儲地點的至少一個各自內(nèi)容地點標識符;以及-通過相互交織包含在不同幾個目標列表中的內(nèi)容地點標識符從不同檢索目標列表中生成(S7)單個推薦列表。
15.一種存儲可執(zhí)行程序代碼的計算機可讀存儲介質(zhì),該程序代碼實現(xiàn)按照權(quán)利要求12所述的控制向用戶推薦內(nèi)容項的`推薦引擎的操作的方法。
【文檔編號】G06F17/30GK103890761SQ201280051331
【公開日】2014年6月25日 申請日期:2012年9月4日 優(yōu)先權(quán)日:2011年9月8日
【發(fā)明者】J.科斯特, M.巴比里, R.克勞特, S.P.P.普龍克 申請人:阿克塞爾斯普林格數(shù)字電視指導(dǎo)有限責(zé)任公司