專利名稱:信息推薦裝置和信息推薦方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種配置為從具有作為屬性的日期和時間信息的文檔中有效地檢測并呈現(xiàn) 從過去用戶瀏覽的文檔持續(xù)的文檔的信息推薦裝置和信息推薦方法。
背景技術(shù):
傳統(tǒng)地,己經(jīng)開發(fā)了各種技術(shù)以滿足關(guān)于基于用戶興趣推薦和識別(recognize)話題 的大量需求。例如,在萬維網(wǎng)(WW)中,存在一種推薦與包括在瀏覽歷史中并為每個用戶 做"興趣"記號的網(wǎng)頁有關(guān)的其他網(wǎng)頁的技術(shù),并且存在一種推薦由也購買了該用戶感興 趣的商品的其他用戶購買的商品的技術(shù)。
基于用戶的興趣推薦信息的手段,粗略地劃分,包括通過協(xié)作過濾的推薦形式、以及類 似內(nèi)容項(xiàng)目和相同類別的推薦形式。例如,在JP-A 2003-167901 (特開)中公開了一種試 圖預(yù)測在協(xié)作過濾方法中的評估值的技術(shù)。在JP-A 2006-190128 (特開)中嘗試基于和用 戶的偏好相匹配的特征向量的信息推薦。例如,這種技術(shù)從作為用戶的使用歷史的文檔組 中提取多個特征關(guān)鍵字,存儲這些關(guān)鍵字作為特征向量,根據(jù)新內(nèi)容項(xiàng)目是否類似于該特 征向量,判定新內(nèi)容項(xiàng)目是否是接近用戶的偏好的內(nèi)容項(xiàng)目。
然而,關(guān)于JP-A 2003-167901 (特開)中描述的協(xié)作過濾,為了進(jìn)行匹配,需要使用 其他用戶的使用歷史。例如,在為對某個話題感興趣的用戶A推薦內(nèi)容項(xiàng)目的情況中,該 過濾檢索另一個用戶,同樣對這個話題感興趣的用戶B,并且基于用戶B的內(nèi)容使用歷史 決定要被推薦給用戶A的內(nèi)容項(xiàng)目。這種在JP-A 200 -167901 (特開)中描述的技術(shù)不能在 不引用(或不能引用)其他用戶的使用歷史的操作中使用。
在JP-A 2006-190128(KOKAI)中描述的這種系統(tǒng)中,基于用戶的使用歷史和偏好,在如 同相同話題由不同的關(guān)鍵字表示的情況的,關(guān)鍵字沒有彼此直接地符合的情況中,出現(xiàn)不 能推薦內(nèi)容項(xiàng)目的問題。即使在基于類別的推薦的情況中,在顯示該類別的話題的范圍和 用戶興趣的范圍沒有彼此符合的情況下,也可能出現(xiàn)問題。此外,會出現(xiàn)這樣一個問題,即上述系統(tǒng)不能追蹤在作為通用的話題的類別中的內(nèi)容項(xiàng) 目的過程或轉(zhuǎn)變。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個方面,提供一種信息推薦裝置,包括輸入文檔組的文檔輸入單元, 每個文檔組具有指定期間內(nèi)的日期和時間信息;文檔分析單元,文檔分析單元通過包括瀏 覽過的文檔或由書簽操作標(biāo)記的文檔的文檔組或歷史文檔的關(guān)鍵字分析,獲取多個特征向 量,每個特征向量包括多個向量要素的關(guān)鍵字;獲取多個話題群集和多個副話題群集的群 集單元,多個話題群集和多個副話題群集各自通過群集文檔組,由屬于相同的話題的文檔 組成;生成轉(zhuǎn)變結(jié)構(gòu)的話題轉(zhuǎn)變生成單元,轉(zhuǎn)變結(jié)構(gòu)顯示副話題群集當(dāng)中的話題的轉(zhuǎn)變; 特征屬性提取單元,特征屬性提取單元從各個話題群集和各個副話題群集提取頻繁包含的 關(guān)鍵字的特征屬性;興趣群集提取單元,興趣群集提取單元通過歷史文檔的特征向量和包 含在文檔組中的各個文檔的特征向量當(dāng)中的相似性判定,提取相當(dāng)于多個話題群集或副話 題群集中的任一個的興趣群集;推薦文檔提取單元,推薦文檔提取單元基于興趣群集所擁 有的轉(zhuǎn)變結(jié)構(gòu),獲取具有與興趣群集的轉(zhuǎn)變關(guān)系的副話題群集,并且提取包含在副話題群 集中的文檔作為推薦的文檔;和呈現(xiàn)推薦的文檔和特征屬性的推薦文檔呈現(xiàn)單元。
圖1是描繪包括一種實(shí)施例的信息推薦裝置的系統(tǒng)構(gòu)造的實(shí)例的示意圖2是服務(wù)器的示范性的硬件結(jié)構(gòu)圖3是描繪服務(wù)器的功能構(gòu)造的示范性的方框圖4A是舉例說明在因特網(wǎng)上的網(wǎng)頁上的新聞記事的示范圖,圖4B是舉例說明在電子 節(jié)目指南(EPG)上的信息的示范圖5是描繪話題群集提取的處理步驟的示范性的流程圖; 圖6是描繪關(guān)鍵字提取的處理步驟的示范性的流程圖; 圖7是描繪話題關(guān)鍵字列表的數(shù)據(jù)結(jié)構(gòu)的示意圖; 圖8是描繪話題關(guān)鍵字的結(jié)構(gòu)的處理步驟示范性的流程圖9是描繪群集結(jié)構(gòu)(cluster structure)信息的實(shí)例的示范圖; 圖IO是描繪群集結(jié)果的實(shí)例的示范圖;圖ll是有關(guān)具有副話題群集的用戶的瀏覽和書簽歷史、并且提取顯示它的轉(zhuǎn)變的話題 的示意圖12是描繪用戶的瀏覽和書簽歷史與話題的對應(yīng)關(guān)系(理由)、以及話題的過程的示意 圖;以及
圖13是基于用戶的歷史的分類使用的情況的示范圖。
具體實(shí)施例方式
以下,將參考附圖描述本發(fā)明的實(shí)施例。
如圖l所示,關(guān)于一個實(shí)例,假定一種服務(wù)器客戶系統(tǒng),其包括經(jīng)由諸如局域網(wǎng)(LAN) 的網(wǎng)絡(luò)2連接到服務(wù)器計(jì)算機(jī)(稱為服務(wù)器)1的多個客戶計(jì)算機(jī)(稱為客戶機(jī))3。舉例來說, 服務(wù)器1和客戶機(jī)3是普通的個人計(jì)算機(jī)。
如圖2所示,服務(wù)器1包括中央處理單元(CPU)101;在其內(nèi)存儲基本輸入/輸出系統(tǒng) (BIOS)的只用于讀取的只讀存儲器(ROM) 102;以可重寫方式存儲各種數(shù)據(jù)的隨機(jī)存取存 儲器(RAM) 103;起著各種數(shù)據(jù)庫作用并存儲各種程序的硬盤驅(qū)動器(HDD)104;使用存 儲介質(zhì)110存儲信息、向外分配信息和從外部獲取信息的諸如CD-ROM的介質(zhì)讀取裝置105; 用于通過經(jīng)由網(wǎng)絡(luò)2與外部的其他計(jì)算機(jī)的通信來發(fā)送信息的通信控制裝置106;向操作 者(用戶)顯示處理過程和結(jié)果等等的諸如陰極射線管(CRT)和液晶顯示器(LCD)的顯示單 元107;以及操作者向CPU101輸入命令和信息的諸如鍵盤和鼠標(biāo)的輸入單元108??偩€控 制器109調(diào)整每個單元之間發(fā)送與接收的數(shù)據(jù)以操作CPU 101。
在這種服務(wù)器1和客戶機(jī)3中, 一旦被用戶激活,CPU 101啟動存儲在ROM 102中的稱 為載入程序的程序,并且將稱為操作系統(tǒng)(OS)的管理計(jì)算機(jī)的硬件和軟件的程序從HDD 104讀取到RAM3中以啟動0S。 OS響應(yīng)用戶的操作,啟動程序、讀取信息并存儲信息。關(guān) 于典型的0S, Windows(注冊商標(biāo))為大家所熟知。在OS上操作的程序被稱為"應(yīng)用程序"。 該應(yīng)用程序不局限于在OS上的一個操作,并且應(yīng)用程序可以使OS擔(dān)負(fù)執(zhí)行如下所描述的 各種處理的部分,或可以包括在由指定的應(yīng)用軟件和OS組成的程序文件的群之內(nèi)。
服務(wù)器1在HDD 104中存儲實(shí)施例的信息推薦程序。這意味著HDD 104起著存儲信息 推薦程序的存儲介質(zhì)的作用。通常,要被安裝在HDD 104中的應(yīng)用程序被記錄在存儲介質(zhì) 110上,存儲介質(zhì)110包括諸如CD-ROM和DVD的光盤、諸如磁光盤和軟磁盤的磁盤、以及 半導(dǎo)體存儲器。記錄在存儲介質(zhì)110上的操作程序被安裝在HDD104中。因此,具有便攜性的存儲介質(zhì)110,例如,諸如CD-ROM的光學(xué)信息記錄介質(zhì)以及諸如FD的磁介質(zhì)可以成 為記錄介質(zhì),以便存儲應(yīng)用程序。此外,例如,可以經(jīng)由通信控制裝置106將應(yīng)用程序 從外部安裝到HDD 104中。
在服務(wù)器1中,當(dāng)在OS上操作的信息推薦程序啟動,CPU 101按照推薦程序執(zhí)行各種 計(jì)算處理,并且集中地控制上述的每個單元。以下將描述在服務(wù)器l中由CPU 101執(zhí)行的 各種計(jì)算處理的實(shí)施例的特征處理。
如圖3所示,服務(wù)器l包括文檔輸入單元ll、歷史輸入單元12、群集單元13、文檔分 析單元14、結(jié)構(gòu)判定單元15、特征屬性提取單元16、話題轉(zhuǎn)變生成單元17、群集結(jié)構(gòu) 存儲單元18、興趣群集提取單元19、推薦文檔提取單元20、和推薦文檔呈現(xiàn)單元21。群 集結(jié)構(gòu)存儲單元18可以由諸如HDD 104、存儲介質(zhì)110和RAM 103的普遍采用的各種存儲 手段組成。
以下將描述每個功能塊。隨后將描述與每個功能塊有關(guān)的具體的數(shù)據(jù)結(jié)構(gòu)和處理步驟。 文檔輸入單元11輸入包括日期和時間信息的作為屬性的文檔,并且接收具有在指定天
數(shù)的給定期間之內(nèi)的日期和時間作為屬性的各種文檔(稱為文檔組)的輸入。例如,具有日 期和時間信息作為屬性的文檔包括在因特網(wǎng)的網(wǎng)頁上的新聞記事(參看圖4A)、豐富的網(wǎng) 站摘要(rich site summary, RSS)(在網(wǎng)頁上最新獲得的信息和記事的摘要)、以及在電子 程序指南(EPG)上的信息(參看圖4B)。在所有文檔中,必須包括作為正文文本或更新時 間的屬性的日期和時間信息。關(guān)于這些文檔的分配源,使用指定的網(wǎng)站和數(shù)據(jù)庫。盡管未 顯示,但是文檔ID唯一地識別網(wǎng)頁上的每個記事以及EPG上的信息(參看圖4B)。 S卩,被 輸進(jìn)輸入單元ll中的文檔除了包括顯示新聞記事的網(wǎng)頁、日記、網(wǎng)日志(Weblog) 、 RSS 等等之外,還包括能夠從網(wǎng)上獲取的諸如電子郵件和即時信使的消息、附有諸如EPG信息 和字幕信息的程序的元數(shù)據(jù)文本。換句話說,在將程序視頻數(shù)據(jù)作為文檔處理的情況中, 由于日期和時間信息不能從視頻數(shù)據(jù)本身獲得,所以日期和時間信息從元數(shù)據(jù)文本獲取。
歷史輸入單元12接收由用戶瀏覽的文檔的歷史或標(biāo)簽經(jīng)由書簽操作被附加到其上的文 檔的歷史的輸入。在該實(shí)施例中,每個用戶具有唯一的用戶ID (標(biāo)識符)。由網(wǎng)站瀏覽 器瀏覽或書簽的操作歷史與連續(xù)地或定期用戶ID相關(guān)聯(lián),并被上載到服務(wù)器1上。
群集單元13相對于在指定期間內(nèi)經(jīng)由文檔輸入單元11輸入的文檔組,提取屬于相同的 話題的具有作為要素的一個或多個文檔的主題群集。即, 一旦從輸入單元ll接收文檔組, 群集單元13 —次將文檔組傳輸?shù)轿臋n分析單元14。關(guān)于主題群集的生成方法的實(shí)例,假定每個文檔作為一個單詞向量(word vector),并且假定使得指示各個文檔的單詞向量 的內(nèi)積最大的文檔組作為屬于相同的話題的文檔,能夠使用處理,在該處理中,群集單元 13使用通過文檔分析單元14分析獲得的關(guān)鍵字,并且在判定內(nèi)積的閾值時重復(fù)該處理。這 種群集單元13可以獲得話題群集集。
分析單元14接收來自文檔輸入單元11或群集單元13的文檔,使用現(xiàn)有的自然語言處 理技術(shù)(例如,形態(tài)分析、n-gram提取等等),并且分析包括在網(wǎng)上的文本或EPG的文本 中的典型的關(guān)鍵字。例如,將形態(tài)分析應(yīng)用到字符串"自然語言處理",能夠斷開成諸 如"自然"、"語言"、"處理"的單詞作為關(guān)鍵字。通過使用根據(jù)文檔數(shù)目和關(guān)鍵字 的出現(xiàn)頻率計(jì)算的項(xiàng)頻率(TF)和相反的文檔頻率(IDF),進(jìn)行權(quán)衡(Weighting)每個關(guān) 鍵字計(jì)算的TF和IDF的值被用于上述單詞向量的每個要素。
結(jié)構(gòu)判定單元15判定顯示一個話題群集的話題是否應(yīng)該被分割成為多個話題(副話 題)。關(guān)于話題結(jié)構(gòu)的判定基準(zhǔn),例如,可以使用由話題群集組成的文檔數(shù)目、包括在 文檔中的日期的分布、包括在文檔中的關(guān)鍵字的C-values的值等等。在"K. Frantsi and S. Ananiadou, 'Extracting Nested Collocations (提取嵌套的詞組),,in Proceedings of International Conference on Computational Linguistics Computational Linguistics (COLING- 96) pp. 41-46, 1996"中描述C - value.如果這些值超過閾值, 則判定單元15判定話題群集可以被分割。在這種情況下,判定單元15控制群集單元13 (和 文檔分析單元14)以使用群集生成處理遞歸地(recursively)施加于屬于該話題群集的文 檔組。因此,為了話題群集或副話題群集,話題群集被重復(fù)地提取,直到判定通過閾值 判定不能再構(gòu)造顯示的每個話題。因此,生成具有分級結(jié)構(gòu)的副話題群集。然而,假定已 經(jīng)在最初的群集中使用的話題關(guān)鍵字本身未被用于將話題群集分隔為副話題的處理中的 計(jì)算中。
特征屬性提取單元16相對于由群集單元13提取的每個話題群集,提取頻繁被包含的關(guān) 鍵字作為話題關(guān)鍵字。盡管指示應(yīng)該提取多長的群集作為關(guān)鍵字的基準(zhǔn)是必需的,但是例 如,可以使用利用C-value的方法。
話題轉(zhuǎn)變生成單元17根據(jù)通過群集單元13提取的話題群集和副話題群集之間的關(guān)系生 成話題的轉(zhuǎn)變結(jié)構(gòu)。
特征屬性提取單元18存儲用于由群集單元13提取的每個話題群集的話題、用于由提取 單元16提取的每個話題的特征、和從生成單元17生成的話題轉(zhuǎn)變結(jié)構(gòu)。興趣群集提取單元19使存儲在存儲單元18中的群集結(jié)構(gòu)與由歷史輸入單元12輸入的 歷史相關(guān)聯(lián)。然后,判定哪個話題或副話題對應(yīng)于由用戶瀏覽的或用戶做"有興趣"記號 的文檔的組。
推薦文檔提取單元20響應(yīng)與通過群集提取單元19提取的歷史有關(guān)的話題或副話題,提 取要被推薦的文檔。
推薦文檔呈現(xiàn)單元21由使選擇的文檔和話題以及副話題的結(jié)構(gòu)相關(guān)聯(lián),為用戶呈現(xiàn)由 推薦文檔提取單元20選擇的文檔。例如,使用的呈現(xiàn)方法生成選擇的文檔作為網(wǎng)頁,并 且響應(yīng)經(jīng)由網(wǎng)絡(luò)2來自要被每個用戶使用的客戶機(jī)3的呈現(xiàn)要求顯示的網(wǎng)頁。
將參考圖5的流程圖,描述按照信息推薦程序,通過由服務(wù)器1的CPU101執(zhí)行的群集 單元13和文檔分析單元14進(jìn)行的話題群集提取處理。
如圖5所示,文檔分析單元14首先將形態(tài)分析應(yīng)用到多個文檔中的每個文檔并且將文 檔分割成為詞素(單詞),該多個文檔的輸入經(jīng)由文檔輸入單元11在指定期限內(nèi)被接收(步 驟Sl)。分析單元14通過計(jì)算經(jīng)過分割獲得的詞素的TF和IDE值,生成考慮每個單詞的 權(quán)衡的用于每個文檔的單詞向量(步驟S2)。分析單元14從在步驟S2中生成的關(guān)鍵字的 候補(bǔ)中排除不被用作關(guān)鍵字的無用的表達(dá)作為助詞(postpositional particle)(步驟S3)。
相當(dāng)于從步驟1到步驟3通過文檔分析單元14產(chǎn)生的文檔的分析結(jié)果的單詞列表被返 回到群集單元13。
群集單元13獲得兩個文檔的組合,計(jì)算對于兩個文檔的每個單詞向量的內(nèi)積的最大值 (步驟S4),并且判定最大值是否超過閾值(步驟S5)。
雖然在實(shí)施例中,群集單元13通過使用作為文檔組和關(guān)鍵字本身的屬性的出現(xiàn)頻率, 計(jì)算出分?jǐn)?shù)(score),本發(fā)明不局限于這個實(shí)施例,也可以通過關(guān)鍵字的長度和文檔組 的關(guān)鍵字本身的屬性,諸如詞素信息,來計(jì)算分?jǐn)?shù)。
如果單詞向量的內(nèi)積的最大值比閾值大(是,步驟S5),那么假定給出最大值的兩個文 檔屬于相同的群集(步驟S6)。步驟S4中的處理被重復(fù)地執(zhí)行。
如果單詞向量的內(nèi)積的最大值沒有超過閾值(否,步驟S5),那么終止群集處理,并且 判定群集的數(shù)目是否比閾值大(步驟S7)。如果數(shù)目比閾值大,則以頻率的遞減次序直到閾 值的數(shù)目的群集被留下,其余的被移除(步驟S8)??梢越?jīng)由至此的處理獲得話題群集。
以下將參考圖6的流程圖,描述通過特征屬性提取單元16提取表示每個話題群集的話 題的關(guān)鍵字的處理步驟。如圖6所示,提取單元16首先通過文檔分析單元14連接作為處理結(jié)果獲得的多個詞素, 然后生成由兩個或更多單詞組成的關(guān)鍵字的候補(bǔ)(步驟Sll)。其次,從步驟S11生成的關(guān) 鍵字的候補(bǔ)除去不被用作關(guān)鍵字的諸如助詞和符號的不必要的表達(dá)(步驟S12)。
特征屬性提取單元16計(jì)算每個單詞的出現(xiàn)頻率,并且以出現(xiàn)頻率的遞減順序設(shè)置當(dāng)前 事件關(guān)鍵字作為話題的關(guān)鍵字的候補(bǔ)(步驟S13)。提取單元16通過一同使用以前計(jì)算的 關(guān)鍵字的出現(xiàn)頻率的歷史來計(jì)算關(guān)鍵字的出現(xiàn)頻率。因此,判定作為候補(bǔ)提取的多個關(guān) 鍵字是否具有字符串的包含關(guān)系(步驟S14)。在該實(shí)施例中,雖然特征屬性提取單元16 通過使用文檔組中的關(guān)鍵字本身的屬性的出現(xiàn)頻率來計(jì)算分?jǐn)?shù),本發(fā)明不局限于這個實(shí)施 例,提取單元16也可以通過使用文檔組中的關(guān)鍵字本身的諸如關(guān)鍵字長度和詞素信息的 屬性,來計(jì)算分?jǐn)?shù)。屬性并不總是限于那些關(guān)鍵字,只要任何屬性能夠用特征量來表示。
如果關(guān)鍵字具有字符串的包含關(guān)系(是,步驟S14),則除去要包含的關(guān)鍵字(步驟S15)。 關(guān)于在關(guān)鍵字的字符串中有包含關(guān)系的情況,例如,關(guān)于關(guān)鍵字"問題xx" , "xx"和 "問題",由于"問題xx" , "xx",當(dāng)中有包含關(guān)系,所以在步驟S15除去包含的 關(guān)鍵字"xx"和"問題"。同時,如果在關(guān)鍵字的字符串中沒有包含關(guān)系(否,步驟S14), 則提取單元16按照原樣前進(jìn)到步驟S16。
如上所述,提取單元16通過使用由文檔分析單元14分析的每個關(guān)鍵字的包含關(guān)系提取 關(guān)鍵字。當(dāng)這樣獲得的關(guān)鍵字的列表成為表示話題的一組話題關(guān)鍵字的時候,如果提 取的關(guān)鍵字的數(shù)目比指定的閾值大(是,步驟S16),則提取單元16以頻率遞減順序的采 用與閾值相同數(shù)目的關(guān)鍵字,并且移除其余的(步驟S17)。
圖7顯示提取的話題關(guān)鍵字列表的數(shù)據(jù)結(jié)構(gòu)。如圖7所示,每個話題ID70除了具有 關(guān)鍵字本身的字符串71作為屬性之外,還具有(指定的)期間72、出現(xiàn)頻率73、和出現(xiàn)原 始文檔的ID74作為屬性。
如果判定可以通過結(jié)構(gòu)判定單元15分割話題,則假定由群集單元13進(jìn)一步地分割的 話題(群集)稱為"副話題(群集)",并且表示副話題(群集)的關(guān)鍵字稱為"副話題關(guān)鍵 字"。將參考圖8的流程圖描述經(jīng)由話題轉(zhuǎn)變生成單元17,話題和副話題的轉(zhuǎn)變生成的 處理步驟。
如圖8所示,生成單元17首先根據(jù)構(gòu)成能夠被分割的話題群集的文檔的輸入,通過群 集單元13施行群集。在這時候,在處理期間由話題群集本身組成的話題關(guān)鍵字未被包括在內(nèi)用于計(jì)算。關(guān)于副話題,日期的接近(closeness)用于計(jì)算,以使具有接近日期的 副話題很可能屬于相同的群集。
提取單元16從作為步驟S21的群集結(jié)果獲得的副話題群集提取副話題關(guān)鍵字(步驟 S22)。
生成單元17設(shè)置每個獲得的副話題關(guān)鍵字群作為小標(biāo)題,并且使其與指示分割之前的 話題群集的話題關(guān)鍵字(作為標(biāo)題的組)相關(guān)聯(lián)(步驟S23)。標(biāo)題和小標(biāo)題之間的區(qū)別通過 下面提到的推薦文檔呈現(xiàn)被反映到顯示屏。
如果在副話題群集組中的群集彼此相似,則話題轉(zhuǎn)變生成單元17判定隨后日期與時間 的副話題群集是接著在前的日期和時間的副話題群集的話題(步驟S24)。例如,獲得轉(zhuǎn) 變結(jié)構(gòu)的處理可以計(jì)算平均特征向量為副話題群集的重心,并且如果那些歐幾里德距離 (Euclidean distances)不超過閾值、以及如果平均特征向量的余弦尺度不小于閾值, 則判定副話題彼此相似。群集當(dāng)中相似性的判定方法不局限于以上所述的方法。此外, 作為日期與時間的前后的關(guān)系,可能接近用于選擇具有最早的日期與時間的文檔的方法以 及用于選擇具有平均的日期與時間的文檔的方法。能夠使用除了上述方法之外的方法。
圖9顯示作為以上所述處理的結(jié)果獲取的群集結(jié)構(gòu)信息的實(shí)例。 一旦提取話題群集或 副話題群集就被附加的屬性(關(guān)鍵字91、出現(xiàn)話題和副話題之間的區(qū)別92、出現(xiàn)期間93、 出現(xiàn)頻率94、出現(xiàn)原始文檔的ID95、在先話題的ID (轉(zhuǎn)變結(jié)構(gòu))96)被給予通過話題ID90 識別的每個話題和副話題。如上所述的數(shù)據(jù)被存儲在群集結(jié)構(gòu)存儲單元18中。
圖10示意地顯示對應(yīng)于圖9中所示的結(jié)果的群集結(jié)果。輸入文件組100 (例如新聞記 事列表)被分類為話題群集101和副話題群集102。圖10顯示已經(jīng)形成對應(yīng)于副話題的相 似性的轉(zhuǎn)變結(jié)構(gòu)。
將參考圖11描述興趣群集提取單元19和推薦文檔提取單元20的處理。首先,輸入文 檔組110,該文檔組110是由歷史輸入單元12輸入并且是用戶的瀏覽結(jié)果文檔或具有諸如 書簽的標(biāo)記附加到那里的歷史。為了獲取已經(jīng)在使用信息推薦裝置的用戶感興趣的信息, 歷史被輸入到裝置。在該實(shí)施例中,作為描述歷史的文檔被輸入的文檔包括諸如電子郵件 和即時信使的消息、附有諸如EPG信息和字幕信息的程序視頻數(shù)據(jù)的元數(shù)據(jù)文本,還包括 顯示新聞記事、日記、網(wǎng)日志(Weblog) 、 RSS等等能夠從網(wǎng)頁獲取的數(shù)據(jù)。此外,要被 輸入的文檔包括由一些用戶操作獲得的日期和時間信息,這些用戶操作除了是在原始地帶有日期和時間信息的文本數(shù)據(jù)的這些項(xiàng)目上之外,還在諸如電子文件或呈現(xiàn)材料的瀏覽時 間、和網(wǎng)頁的書簽次數(shù)的文本信息上被施行。
例如,如果用戶的書簽結(jié)果列表110被輸入歷史輸入單元12,文檔分析單元14為對 應(yīng)于每個書簽的每個文檔計(jì)算特征向量。興趣群集提取單元19判定存儲在群集結(jié)構(gòu)存儲 單元18中的每個話題群集和副話題群集的每個特征向量和單詞向量(特征向量)之間的相 似性,然后提取與由用戶保持的書簽有關(guān)的話題群集或副話題群集作為興趣群集。例如, 如圖11所示,包括在話題群集B中的副話題群集"closely-contested constituency" lll和包括在話題群集n中的副話題群集"music player g" 112被各自提取作為興趣群 集。當(dāng)實(shí)施例已經(jīng)描述的情況中,已經(jīng)使用特征向量的相似性以便提取興趣群集時,能 夠使用簡單地檢驗(yàn)相同網(wǎng)頁的URL和觀看的節(jié)目的一致的方法。
推薦文檔提取單元20提取相當(dāng)于話題"continuation"的文檔作為推薦的文檔,該話題 通過由興趣群集提取單元19提取的話題群集被表示。例如,在圖11的實(shí)例中被推薦給 用戶的副話題群集是由陰影線表示的文檔,對應(yīng)于副話題群集連續(xù)的諸如"judgment" 113、 "cellular phone g" 114、 "terminal g" 115和"mini g" 116。 關(guān)于不與文檔組110 中的副話題群集有關(guān)的書簽,推薦文檔提取單元20可能檢驗(yàn)全部話題群集的關(guān)系,并且 如果有任何關(guān)系,則例如屬于相關(guān)話題群集和不比設(shè)置了書簽的文檔的指定期間短的剩下 間隔的新書簽,則可以設(shè)置全部話題群集作為推薦對象。無論如何,當(dāng)簡單地推薦單詞的 出現(xiàn)頻率的文檔類似于過去的歷史時,屬于相同的話題文檔的可以被推薦;然而通過設(shè)置 話題群集和副話題群集作為比較的起點(diǎn),可以認(rèn)可各個話題的轉(zhuǎn)變。
這樣通過文檔提取單元20提取的推薦文檔經(jīng)由推薦文檔呈現(xiàn)單元21呈現(xiàn)給用戶。將參 考圖12描述呈現(xiàn)單元21的推薦的實(shí)例。
由用戶設(shè)置了書簽的文檔有關(guān)的全部話題的轉(zhuǎn)變被顯示。例如,在話題"election of the House of Councilors"的情況中,呈現(xiàn)從"public announcement"開始至il "closely _ contested constituency - > judgment" , "new party- > crushing defeat,,的轉(zhuǎn)變。 然后,諸如"x項(xiàng)目記號"的顯示被給予對應(yīng)于用戶設(shè)置了書簽的文檔的話題群集或副話 題群集。在圖12的實(shí)例中,例如,"1項(xiàng)目記號"121被給予"closely - contested constituency" 120。
推薦的文檔(其圖標(biāo))是突出的顯示(例如推薦文檔"judgment" 122)。未推薦的文 檔也響應(yīng)副話題以未突出顯示的方式顯示。雖然實(shí)施例已經(jīng)顯示所有屬于話題的文檔,也可以只可以顯示推薦的文檔。關(guān)于突出顯示的方法,能夠使用例如按尺寸或彩色區(qū)分、 顯示文檔的摘要或部分的任意的方法。
推薦方法可以與附帶服務(wù)的文檔和操作的設(shè)備合作,例如,與在文檔是電視廣播節(jié)目 的情況中的記錄保留功能一起工作,并且在文檔是貨物的情況中的,除文檔的呈現(xiàn)的執(zhí)行 之外,還顯示購買菜單。
關(guān)于各個文檔的顯示次序,假定顯示次序可以按照包括在各個話題和副話題中的文檔數(shù) 目、用戶制作的書簽數(shù)目、話題的新舊的屬性改變。關(guān)于要被顯示的文檔,不但預(yù)先通過 輸入單元ll輸入的文檔,而且例如,可以顯示作為己經(jīng)成為話題或副話題的標(biāo)題的典型 的關(guān)鍵字引起的結(jié)果的將被顯示的網(wǎng)檢索結(jié)果話題或副話題。在這種情況下,用于顯示通 過選擇哪個話題已經(jīng)被顯示的文檔或副話題的關(guān)鍵字的方法是可能的途徑。
根據(jù)如上所述的實(shí)施例,信息推薦裝置通過分析包括在己經(jīng)在指定期間之內(nèi)接收的輸 入的文檔信息中的關(guān)鍵字、分類各個分析的話題、和再群集文檔獲得副話題生成基于副話 題按級別排列的話題結(jié)構(gòu)。通過使用副話題的相似性和日期與時間的關(guān)系配置話題的轉(zhuǎn) 變結(jié)構(gòu)。對于話題的轉(zhuǎn)變結(jié)構(gòu),判定哪個話題和副話題對應(yīng)于過去由用戶設(shè)置了書簽的 文檔,并且裝置呈現(xiàn)對應(yīng)于話題的連續(xù)和話題的轉(zhuǎn)變結(jié)構(gòu)的文檔。因此,裝置可以有效地 推薦將文檔連同預(yù)先的改變和過去瀏覽或標(biāo)簽的話題的狀態(tài)給用戶,而不管任何對于設(shè)置 了書簽的文檔的直接相似性,
艮P,實(shí)施例記錄諸如每天瀏覽的網(wǎng)頁的文檔、和每天分配的電視廣播節(jié)目的節(jié)目表信息 的文檔,計(jì)算每個關(guān)鍵字怎樣已經(jīng)出現(xiàn)、頻率和新舊,并且生成用于認(rèn)可話題的群集結(jié)構(gòu)。 實(shí)施例的裝置容易地理解什么是當(dāng)前出現(xiàn)的話題和典型的關(guān)鍵字,話題已經(jīng)怎樣經(jīng)歷轉(zhuǎn) 變,并且可以基于諸如由用戶在前瀏覽和書簽操作的標(biāo)簽的歷史,呈現(xiàn)相當(dāng)于 "continuation"這禾中i舌題的文檔-
雖然實(shí)施例已經(jīng)描述在推薦文檔呈現(xiàn)單元21響應(yīng)經(jīng)由網(wǎng)絡(luò)2來自由每個用戶使用的每 個客戶機(jī)3的顯示要求,呈現(xiàn)由推薦文檔提取單元20提取的文檔的情況中,本發(fā)明不局 限于這個實(shí)施例,例如,裝置可以預(yù)先下載網(wǎng)頁到每個用戶使用的每個客戶機(jī)3上,并且 呈現(xiàn)相當(dāng)于下載結(jié)果的本地文件。
雖然實(shí)施例已經(jīng)使用通過首先收集類似文檔生成群集的稱為"分級類型的群集",相反 地,也使用通過劃分所有文檔生成群集的稱為"非分級類型的群集"的系統(tǒng)。關(guān)于群集實(shí) 施的時刻,除了每次使用生成所有群集的系統(tǒng)之外,還可以并用用于只附加最新附加的文檔的方法。如圖13所示,信息推薦裝置可以被配置為對于由歷史輸入單元12輸入的文檔 組進(jìn)行群集處理,需要類似存儲在群集結(jié)構(gòu)存儲單元18中的群集結(jié)構(gòu)的嗜好構(gòu)造
(preference structure),并且在嗜好構(gòu)造存儲單元22中存儲嗜好構(gòu)造。在這種情況 下,興趣群集提取單元19可以通過比較存儲在群集結(jié)構(gòu)存儲單元18中的話題和副話題的 群集結(jié)構(gòu)與存儲在存儲單元中的嗜好構(gòu)造,指定推薦的文檔。例如,推薦裝置能夠推薦對 應(yīng)于對應(yīng)話題的"continuation"的文檔,同時顯示用戶的嗜好和興趣的變化。對文檔分 析單元14來說優(yōu)選的是在存儲在存儲單元22中的嗜好構(gòu)^上進(jìn)行文檔分析。在這種情況 下,分析單元14通過計(jì)算上述TF和IDF,基于用戶的嗜好權(quán)衡推薦的文檔。
雖然實(shí)施例己經(jīng)假定服務(wù)器客戶系統(tǒng),其中多個客戶機(jī)3經(jīng)由網(wǎng)絡(luò)2連接到作為信息推 薦裝置的服務(wù)器l,本發(fā)明不局限于本實(shí)施例,也可以在單機(jī)狀態(tài)中使用全部裝置。雖然 實(shí)施例已經(jīng)個別地管理每個用戶ID的用戶的歷史信息,本發(fā)明可以共用多個用戶的歷史
f曰息。
權(quán)利要求
1. 一種信息推薦裝置,其特征在于,包括輸入文檔組的文檔輸入單元,所述文檔組的每個文檔具有在指定期間內(nèi)的日期和時間信息;文檔分析單元,所述文檔分析單元通過文檔組或包括瀏覽過的文檔或由書簽操作標(biāo)記的文檔的歷史文檔的關(guān)鍵字分析,獲取多個特征向量,每個所述特征向量包括多個向量要素的關(guān)鍵字;獲取多個話題群集和多個副話題群集的群集單元,所述多個話題群集和多個副話題群集中的每一個都是通過群集所述文檔組,由屬于相同話題的文檔組成;生成轉(zhuǎn)變結(jié)構(gòu)的話題轉(zhuǎn)變生成單元,所述轉(zhuǎn)變結(jié)構(gòu)顯示所述副話題群集當(dāng)中的所述話題的轉(zhuǎn)變;特征屬性提取單元,所述特征屬性提取單元從各個話題群集和各個副話題群集中提取頻繁包含的關(guān)鍵字的特征屬性;興趣群集提取單元,所述興趣群集提取單元通過歷史文檔的所述特征向量和包含在所述文檔組中的各個文檔的所述特征向量當(dāng)中的相似性判定,提取相當(dāng)于所述多個話題群集或副話題群集中的任一個的興趣群集;推薦文檔提取單元,所述推薦文檔提取單元基于所述興趣群集擁有的所述轉(zhuǎn)變結(jié)構(gòu),獲取具有與所述興趣群集具有轉(zhuǎn)變關(guān)系的副話題群集,并且提取包含在所述副話題群集中的文檔作為推薦的文檔;和呈現(xiàn)所述推薦的文檔和所述特征屬性的推薦文檔呈現(xiàn)單元。
2. 如權(quán)利要求1所述的裝置,其特征在于,進(jìn)一步地包括 輸入所述歷史文檔的歷史輸入單元。
3. 如權(quán)利要求1所述的裝置,其特征在于,進(jìn)一步地包括結(jié)構(gòu)判定單元,判定所述多個話題群集中的每一個話題群集是否被配置為結(jié)構(gòu)化以進(jìn) 一步地群集每一個所述話題群集成為副話題群集,并且如果被配置為結(jié)構(gòu)化,那么群集所 述話題群集,并且控制所述群集單元以獲取所述多個副話題群集。
4.如權(quán)利要求1所述的 裝置,其特征在于,進(jìn)一步地包括存儲包含所述特征屬性和所述轉(zhuǎn)變結(jié)構(gòu)的群集結(jié)構(gòu)信息的群集結(jié)構(gòu)存儲單元。
5. 如權(quán)利要求1所述的裝置,其特征在于,所述文檔組包含在所述文檔本身具有日期 和時間信息的文檔,以及其中伴隨所述文檔的元數(shù)據(jù)具有日期和時間信息的文檔。
6. 如權(quán)利要求1所述的裝置,其特征在于,所述群集單元獲取用于對應(yīng)于任意文檔組 的特征向量群的內(nèi)積值,并且基于所述內(nèi)積值的閾值判定來進(jìn)行群集。
7. 如權(quán)利要求1所述的裝置,其特征在于,所述話題轉(zhuǎn)變生成單元獲取包含在所述話 題群集中的文檔和包含在所述副話題群集中的文檔之間的相似性,或者獲取包含在所述話 題群集中的文檔的日期和時間信息和包含在所述副話題群集中的文檔的日期和時間信息 之間的關(guān)系,然后生成所述轉(zhuǎn)變結(jié)構(gòu)。
8. 如權(quán)利要求1所述的裝置,進(jìn)一步地包括基于所述多個歷史文檔存儲優(yōu)選構(gòu)造的優(yōu)選構(gòu)造存儲單元,所述群集單元對所述多個歷史文檔進(jìn)行群集;所述優(yōu)選構(gòu)造存儲單元基于所述群集的結(jié)果存儲所述優(yōu)選構(gòu)造;和所述興趣群集提取單元通過所述優(yōu)先構(gòu)造和所述群集結(jié)構(gòu)信息之間的比較來提取興趣 群集。
9. 如權(quán)利要求8所述的裝置,其特征在于,所述文檔分析單元進(jìn)行所述多個歷史文檔中的每一個歷史文檔的文檔分析,并且基于 所述文檔分析的所述結(jié)果權(quán)衡優(yōu)選。
10. —種信息推薦方法,其特征在于,包括輸入文檔組,所述文檔組的每一個文檔具有在指定期間之內(nèi)的日期和時間信息; 通過文檔組或包括瀏覽過的文檔或由書簽操作標(biāo)記的文檔的歷史文檔的關(guān)鍵字分析,獲取多個特征向量,每個特征向量包括多個向量要素的關(guān)鍵字;獲取多個話題群集和多個副話題群集,所述多個話題群集和多個副話題群集的每一個都通過群集所述文檔組,由屬于相同的話題的文檔組成;生成轉(zhuǎn)變結(jié)構(gòu),所述轉(zhuǎn)變結(jié)構(gòu)表示所述副話題群集當(dāng)中的話題的轉(zhuǎn)變; 從每一個話題群集和每一個副話題群集提取頻繁包含的關(guān)鍵字的特征屬性;通過所述歷史文檔的所述特征向量和包含在所述文檔組中的每一個文檔的所述特征向 量當(dāng)中的相似性判定,提取相當(dāng)于所述多個話題群集或副話題群集中的任一個的興趣群 集;基于所述興趣群集擁有的所述轉(zhuǎn)變結(jié)構(gòu),獲取與所述興趣群集具有轉(zhuǎn)變關(guān)系的副話題 群集;提取包含在所述副話題群集中的文檔作為推薦的文檔;和 呈現(xiàn)所述推薦的文檔和所述特征屬性。
11. 如權(quán)利要求10所述的方法,其特征在于,進(jìn)一步地包括-輸入所述歷史文檔。
12. 如權(quán)利要求10所述的方法,其特征在于,進(jìn)一步地包括判定所述多個話題群集中的每一個話題群集是否被配置為結(jié)構(gòu)化以進(jìn)一步地群集每一 個所述話題群集成為副話題群集,如果被配置為結(jié)構(gòu)化,那么群集所述話題群集, 并且控制所述群集單元以獲取所述多個副話題群集。
13. 如權(quán)利要求10所述的方法,其特征在于,進(jìn)一步地包括 存儲包含所述特征屬性和所述轉(zhuǎn)變結(jié)構(gòu)的群集結(jié)構(gòu)信息
14. 如權(quán)利要求10所述的方法,其特征在于,所述文檔組包含在所述文檔內(nèi)具有的日 期和時間信息的文檔以及其中伴隨所述文檔的元數(shù)據(jù)具有日期和時間信息的文檔。
15. 如權(quán)利要求10所述的方法,其特征在于,進(jìn)一步包括 獲取用于對應(yīng)于任意文檔的組的特征向量的群的內(nèi)積值;和 基于所述內(nèi)積值的閾值判定來進(jìn)行群集。
16. 如權(quán)利要求10所述的方法,其特征在于,進(jìn)一步包括獲取包含在所述話題群集中的文檔和包含在所述副話題群集中的文檔之間的相似性, 或者獲取包含在所述話題群集中的文檔的日期和時間信息和包含在所述副話題群集中的 文檔的日期和時間信息之間的關(guān)系;并且生成所述轉(zhuǎn)變結(jié)構(gòu)。
17. 如權(quán)利要求10所述的方法,其特征在于,進(jìn)一步包括 基于所述多個歷史文檔存儲優(yōu)選構(gòu)造; 對于所述多個歷史文檔進(jìn)行群集; 基于所述群集的結(jié)果存儲所述優(yōu)選構(gòu)造;和在所述優(yōu)選構(gòu)造和所述群集結(jié)構(gòu)信息之間的比較中提取興趣群集。
18. 如權(quán)利要求書10所述的方法,其特征在于,進(jìn)一步包括進(jìn)行所述多個歷史文檔中的每一個歷史文檔的文檔分析;和 基于所述文檔分析的所述結(jié)果權(quán)衡優(yōu)選。
全文摘要
本發(fā)明提供一種信息推薦裝置和信息推薦方法。輸入用戶瀏覽的文檔組、以及包含用戶瀏覽過的文檔的歷史文檔等等。該文檔組和歷史文檔被各自分析以便獲取特征向量。通過群集該文檔組獲取多個話題群集和多個副話題群集。表示生成的副話題群集之間的話題的轉(zhuǎn)變的轉(zhuǎn)變結(jié)構(gòu),和特征屬性從每一個話題群集和每一個副話題群集被提取。通過歷史文檔的特征向量和包含在文檔組中的每一個文檔的特征向量之間的比較來提取興趣群集,基于自己的轉(zhuǎn)變結(jié)構(gòu)通過興趣群集獲取與興趣群集關(guān)系的具有轉(zhuǎn)變關(guān)系的副話題群集,并且包含在副話題群集中的文檔被提取作為推薦的文檔,以和特征屬性一起被顯示。
文檔編號G06F17/30GK101546341SQ20091013054
公開日2009年9月30日 申請日期2009年3月27日 優(yōu)先權(quán)日2008年3月28日
發(fā)明者岡本昌之, 菊池匡晃 申請人:株式會社東芝