專利名稱:信息處理裝置、關(guān)連語句提供方法和程序的制作方法
技術(shù)領(lǐng)域:
本公開涉及信息處理裝置、關(guān)連語句提供方法和程序。
背景技術(shù):
使用網(wǎng)絡的商業(yè)活動近年來迅速地擴大。例如,現(xiàn)今廣泛地使用在網(wǎng)絡上的在線商店中購買產(chǎn)品的系統(tǒng)。許多這樣的在線商店并入了用于向用戶推薦產(chǎn)品的機制。例如,當用戶查看特定產(chǎn)品的詳細信息時,與該產(chǎn)品關(guān)連的信息作為關(guān)連產(chǎn)品或推薦產(chǎn)品被呈現(xiàn)給用戶。使用例如在日本未審專利申請公布第2003-167901號中公開的協(xié)調(diào)過濾方法來實現(xiàn)該機制。協(xié)調(diào)過濾方法是使用具有相似的偏好的用戶的購買歷史等來推薦產(chǎn)品的方法。此外,使用向其進行推薦的用戶的購買歷史等推薦產(chǎn)品的、基于內(nèi)容的過濾方法也是已知的。
發(fā)明內(nèi)容
協(xié)調(diào)過濾方法或者基于內(nèi)容的過濾方法的使用實現(xiàn)了對適合用戶偏好的產(chǎn)品的推薦。然而,即使當產(chǎn)品被推薦時,用戶仍不能清楚地了解推薦產(chǎn)品的原因。因此,當在購買產(chǎn)品A時推薦產(chǎn)品B時,用戶難于清楚地了解產(chǎn)品A和產(chǎn)品B之間的關(guān)連性。結(jié)果,不了解產(chǎn)品B的用戶不太可能對在購買產(chǎn)品A時推薦的產(chǎn)品B發(fā)生興趣。注意,如果作為推薦契機的事項和推薦的事項(不限于產(chǎn)品)之間的關(guān)連性是未知的,則用戶不太可能對推薦的事項感興趣。考慮到前文,期望提供新型的和改進的信息處理裝置、關(guān)連語句提供方法和程序, 其能夠自動地生成指示作為推薦契機的事項和推薦的事項之間的關(guān)連性的語句。根據(jù)本公開的一個實施例,提供了一種裝置,其包括信息處理裝置,該信息處理裝置包括信息提供單元,其提供與主要信息關(guān)連的關(guān)連信息;關(guān)連語句生成單元,其生成指示主要信息和關(guān)連信息之間的關(guān)連性的語句;以及關(guān)連語句提供單元,其提供由關(guān)連語句生成單元生成的語句。該信息處理裝置可以進一步包括存儲單元,該存儲單元存儲第一數(shù)據(jù)庫,其使指示第一信息和第二信息之間的關(guān)連性的關(guān)連性信息、第一信息和第二信息相關(guān)聯(lián);以及第二數(shù)據(jù)庫,其使關(guān)連性信息和語句模板相關(guān)聯(lián)。關(guān)連語句生成單元從第一數(shù)據(jù)庫提取第一記錄,其中第一或第二信息與主要信息匹配并且第二或第一信息與關(guān)連信息匹配,從第二數(shù)據(jù)庫提取語句模板,該語句模板對應于第一記錄中包含的關(guān)連性信息,以及通過使用第一記錄中包含的第一和第二信息以及從第二數(shù)據(jù)庫提取的語句模板來生成指示主要信息和關(guān)連信息之間的關(guān)連性的語句。關(guān)連語句生成單元可以從第一數(shù)據(jù)庫提取第二記錄,其中第一或第二信息與主要信息匹配,并且第二記錄不同于第一記錄;以及第三記錄,其中第一或第二信息與關(guān)連信息匹配,并且第三記錄不同于第一記錄,當提取第二和第三記錄時,提取第二和第三記錄的集合,其中第二記錄中包含的第二或第一信息與主要信息不同,并且第三記錄中包含的第二或第一信息與關(guān)連信息不同,從第二數(shù)據(jù)庫提取與形成第二和第三記錄的集合的第二或
4第三記錄中包含的關(guān)連性信息相對應的語句模板,以及通過使用形成第二和第三記錄的集合的第二或第三記錄中包含的第一和第二信息以及從第二數(shù)據(jù)庫中提取的語句模板來生成指示主要信息和關(guān)連信息之間的關(guān)連性的語句。主要信息、關(guān)連信息以及第一和第二信息可以是單詞。關(guān)連性信息可以是指示單詞之間的關(guān)連性的信息,以及關(guān)連語句生成單元通過將主要信息的單詞和關(guān)連信息的單詞應用到對應于關(guān)連性信息的語句模板來生成語句。該信息處理裝置可以進一步包括短語獲取單元,其從包括多個語句的語句集合獲取每個語句中包含的短語;短語特征值確定單元,其確定用于指示由短語獲取單元獲取的每個短語的特征值的短語特征值;聚類單元,其根據(jù)特征值之間的相似度對由短語特征值確定單元確定的短語特征值進行聚類;以及關(guān)連性信息生成單元,其使用聚類單元的聚類結(jié)果來提取語句集合中包含的單詞之間的關(guān)連性,并且生成指示第一信息的單詞和第二信息的單詞之間的關(guān)連性的關(guān)連性信息。關(guān)連性信息生成單元將第一信息的單詞、第二信息的單詞、以及第一信息的單詞和第二信息的單詞之間的關(guān)連性信息存儲到第一數(shù)據(jù)庫中。該信息處理裝置可以進一步包括短語獲取單元,其從包括多個語句的語句集合獲取每個語句中包含的短語;短語特征值確定單元,其確定用于指示由短語獲取單元獲取的每個短語的特征值的短語特征值;集合特征值確定單元,其確定用于指示語句集合的特征的集合特征值;壓縮短語特征值生成單元,其基于短語特征值確定單元確定的短語特征值和由集合特征值確定單元確定的集合特征值,生成具有比短語特征值的維度低的壓縮短語特征值;聚類單元,其根據(jù)特征值之間的相似度對由壓縮短語特征值生成單元生成的壓縮短語特征值進行聚類;以及關(guān)連性信息生成單元,其使用聚類單元的聚類結(jié)果來提取語句集合中包含的單詞之間的關(guān)連性,并且生成指示第一信息的單詞和第二信息的單詞之間的關(guān)連性的關(guān)連性信息。關(guān)連性信息生成單元將第一信息的單詞、第二信息的單詞、以及第一信息的單詞和第二信息的單詞之間的關(guān)連性信息存儲到第一數(shù)據(jù)庫中。根據(jù)本公開的另一實施例,提供了一種關(guān)連語句提供方法,其包括提供與主要信息關(guān)連的關(guān)連信息,生成指示主要信息和關(guān)連信息之間的關(guān)連性的語句,以及提供語句。根據(jù)本公開的另一實施例,提供了一種程序,使計算機實現(xiàn)如下功能,其包括信息提供功能,其提供與主要信息關(guān)連的關(guān)連信息;關(guān)連語句生成功能,其生成指示主要信息和關(guān)連信息之間的關(guān)連性的語句;以及關(guān)連語句提供功能,其提供由關(guān)連語句生成功能生成的語句。根據(jù)本公開的另一實施例,提供了一種計算機可讀記錄介質(zhì),其中記錄該程序。根據(jù)上述的本公開的實施例,可以自動地生成指示作為推薦契機的事項和推薦的事項之間的關(guān)連性的語句。
圖1是圖示能夠?qū)崿F(xiàn)提取單詞之間的關(guān)連性的方法的信息處理裝置的功能配置的說明圖;圖2是圖示由信息處理裝置的數(shù)據(jù)獲取單元獲取短語的方法的說明圖;圖3是圖示由信息處理裝置的數(shù)據(jù)獲取單元獲取短語的方法的說明圖4是圖示數(shù)據(jù)獲取單元的數(shù)據(jù)獲取處理的流程的說明圖;圖5是圖示由信息處理裝置的短語特征值確定單元確定短語特征值的方法的說明圖;圖6是圖示短語特征值確定單元的短語特征值確定處理的流程的說明圖;圖7是圖示由信息處理裝置的集合特征值確定單元確定集合特征值的方法的說明圖;圖8是圖示集合特征值確定單元的集合特征值確定處理的流程的說明圖;圖9是圖示集合特征值確定單元的集合特征值確定處理的流程的說明圖;圖10是圖示由信息處理裝置的壓縮單元壓縮短語特征值的方法說明圖;圖11是圖示由信息處理裝置的壓縮單元壓縮短語特征值的方法說明圖;圖12是示出實現(xiàn)由信息處理裝置的聚類單元對短語進行聚類的方法的結(jié)果的說明圖;圖13是圖示聚類單元的聚類處理的流程的說明圖;圖14是圖示由信息處理裝置的總結(jié)單元創(chuàng)建的總結(jié)信息的說明圖;圖15是圖示總結(jié)單元的總結(jié)信息創(chuàng)建處理的流程的說明圖;圖16是圖示根據(jù)本公開的一個實施例的信息處理裝置的功能配置的說明圖;圖17是圖示根據(jù)實施例的關(guān)連信息DB的結(jié)構(gòu)的說明圖;圖18是圖示根據(jù)實施例的檢索關(guān)連信息的方法的說明圖;圖19是圖示根據(jù)實施例的實體DB的結(jié)構(gòu)的說明圖;圖20是圖示根據(jù)實施例的確定實體標志的方法的說明圖;圖21是圖示根據(jù)實施例的確定實體標志的方法的說明圖;圖22是圖示根據(jù)實施例的語句模板DB的結(jié)構(gòu)的說明圖;圖23是圖示根據(jù)實施例的生成關(guān)連信息語句的方法的說明圖;圖M是圖示根據(jù)實施例的生成關(guān)連信息語句的方法的說明圖;圖25是圖示根據(jù)實施例的信息處理裝置中包括的關(guān)連信息檢索單元的具體操作的說明圖;圖沈是圖示根據(jù)實施例的信息處理裝置中包括的實體檢索單元的具體操作的說明圖;圖27是圖示根據(jù)實施例的信息處理裝置中包括的關(guān)連信息語句生成單元的具體操作的說明圖;圖觀是圖示根據(jù)實施例的信息處理裝置中包括的關(guān)連信息語句生成單元的具體操作的說明圖;圖四是圖示根據(jù)實施例的信息處理裝置的功能生成的關(guān)連信息語句的示例的說明圖;圖30是圖示根據(jù)實施例的信息處理裝置的功能生成的關(guān)連信息語句的示例的說明圖;以及圖31是圖示根據(jù)實施例的能夠?qū)崿F(xiàn)提取單詞之間的關(guān)連性的方法和生成關(guān)連信息語句的方法的信息處理裝置的硬件配置的說明圖。
具體實施例方式在下文中,將參照附圖詳細描述本公開的優(yōu)選實施例。注意,在說明書和附圖中, 具有基本上相同的功能和結(jié)構(gòu)的結(jié)構(gòu)元件標有相同的附圖標記,并且省略了這些結(jié)構(gòu)元件的重復解釋。[描述的流程]簡要地描述下文提供的根據(jù)本公開的實施例的描述的流程。首先,參照圖1至15 描述能夠提取單詞之間的關(guān)連性的信息處理裝置10的功能配置。接著,參照圖16至對描述根據(jù)實施例的信息處理裝置100的功能配置。隨后,參照圖25至30描述根據(jù)實施例的信息處理裝置100的操作。此后,參照圖31描述能夠?qū)崿F(xiàn)信息處理裝置10、100的功能的硬件配置。最后,總結(jié)了實施例的技術(shù)思想,并且簡要地描述了從該技術(shù)思想獲得的優(yōu)點。(描述項目)1 介紹(提取單詞之間的關(guān)連性的方法)1-1 概況1-2 信息處理裝置10的功能配置2 實施例2-1 信息處理裝置100的功能配置2-2 信息處理裝置100的操作3 硬件配置4 總結(jié)<介紹(提取單詞之間的關(guān)連性的方法)>下面描述的實施例涉及一種技術(shù),其在推薦與用作種子的實體(在下文中被稱為種子實體)關(guān)連的實體(在下文中被稱為關(guān)連實體)時,自動地生成描述種子實體和關(guān)連實體之間的關(guān)連性的語句(在下文中被稱為關(guān)連信息語句)。注意,實體是關(guān)于諸如視頻或音樂,或者諸如網(wǎng)頁或書籍的文本的內(nèi)容的信息的一般表述。在下面的描述中,為了簡單提供了關(guān)于單詞(專有名詞)之間的關(guān)連性的討論。當生成關(guān)連信息語句時,使用單詞之間的關(guān)連性。因此,在描述生成關(guān)連信息語句的方法之前,在下文中描述提取單詞之間的關(guān)連性的方法。[1-1 概況]在計算機的信息處理容量近來已增強的背景下,對文本的語義方面進行統(tǒng)計處理的技術(shù)正引起注意。該技術(shù)的一個示例是文檔分類技術(shù),其分析文檔的內(nèi)容并且將每個文檔分類為各種類型。該技術(shù)的另一示例是文本挖掘技術(shù),其從諸如互聯(lián)網(wǎng)的網(wǎng)頁或者來自企業(yè)中的消費者的問題和意見的記錄的積累文本集合中提取有用的信息。注意,常常存在如下情況,其中當表述一個相同的或相似的含意時在文本中使用了不同的單詞或短語。因此,嘗試通過在文本的統(tǒng)計分析中定義表示文本的統(tǒng)計特征的向量空間并且對該向量空間中的每個文本的特征進行聚類,來識別具有相似含意的文本。例如,在 Alexander Yates 禾口 Oren Etzioni 的"Unsupervised Methods for Determining Object and Relation Synonyms on the Web,,,Journal of Artificial Intelligence Research (JAIR) 34,March, 2009, pp. 255-296 (在下文中被稱為文獻 Α)中描述了該嘗試的示例。
常常使用例如如下向量空間作為用于表示文本的統(tǒng)計特征的向量空間其中很可能出現(xiàn)在文本中的詞表中包含的每個單詞被設置為向量的每個分量(向量空間的軸)。然而,盡管對特征值進行聚類的技術(shù)在對包括至少多個語句的文檔分類等時是有效的,但是當辨認短語之間的同義或準同義關(guān)系時,難于產(chǎn)生顯著的效果。其主要原因在于短語僅包含幾個單詞。例如,介紹人物、內(nèi)容或產(chǎn)品的諸如新聞文章或網(wǎng)頁的文檔通常包含幾十個到幾百個單詞。另一方面,作為比一個語句小的單位的短語通常僅包含幾個單詞。即便是文檔, 其特征值也很可能是稀疏向量(其中大多數(shù)分量是零的向量)。因此,短語的特征值變?yōu)楦酉∈璧某∈柘蛄?。超稀疏向量具有如下方面當辨認含意時,僅存在可以用作線索的少量信息。結(jié)果,例如,當基于超稀疏向量之間的相似度(例如余弦距離等)執(zhí)行聚類時,出現(xiàn)如下問題應在語義上屬于一個聚簇的兩個或更多個向量未被聚類到一個聚簇中。有鑒于此,當前正在研究對文檔的特征值的維度進行壓縮的技術(shù)。例如,使用諸如SVD (奇異值分解)、 PLSA(概率潛在語義分析)或LDA(潛在狄利克雷分布)的概率技術(shù)來壓縮向量的維度的技術(shù)是已知的。然而,如果該概率技術(shù)被簡單地應用于作為超稀疏向量的短語的特征值,則在許多情況中喪失了數(shù)據(jù)的有意性,僅產(chǎn)生不再適于在諸如聚類的后繼階段中處理的輸出??紤]到這一點,上述文獻A的技術(shù)提出通過從Web上的文本收集數(shù)百個字符串來獲取大規(guī)模的數(shù)據(jù)集合,用于獲得關(guān)于短的字符串的特征值的有意性(significance)。然而,處置該大規(guī)模數(shù)據(jù)集合引起了對資源的約束的問題。此外,存在相當多的其中基本上不能獲取大規(guī)模數(shù)據(jù)集合的情況,諸如當應對屬于所謂的長尾的目標時??紤]到上文,下文引入了一種技術(shù),其壓縮短語的特征值的維度以及維持或改進特征值的有意性,并且進一步使得更易于在短語層級上辨認同義或準同義關(guān)系。使用該技術(shù)使得可以基于充分大的數(shù)據(jù)集合,提取具有關(guān)連性的單詞并且提取單詞之間的關(guān)連性和表示關(guān)連性的類型的短語。注意,在后面描述的實施例中,提出了一種技術(shù),其通過使用利用該技術(shù)提取的具有關(guān)連性的單詞的組合或者表示單詞之間的關(guān)連性的類型的短語來生成關(guān)連信息語句。[1-2 信息處理裝置10的功能配置]根據(jù)本發(fā)明的一個實施例,提供了一種信息處理裝置,包括信息提供單元,其提供與主要信息關(guān)連的關(guān)連信息;關(guān)連語句生成單元,其生成指示主要信息和關(guān)連信息之間的關(guān)連性的語句;以及關(guān)連語句提供單元,其提供由關(guān)連語句生成單元生成的語句。首先參照圖1至15描述能夠基于大量數(shù)據(jù)集合提取單詞之間的關(guān)連性的信息處理裝置10的功能配置。(整體配置)參照圖1,信息處理裝置10主要包括文檔DB 11、數(shù)據(jù)獲取單元12、短語特征值確定單元13、集合特征值確定單元14、特征值DB 15、壓縮單元16、壓縮特征值DB 17、聚類單元18、總結(jié)單元19和總結(jié)DB 20。注意,DB代表數(shù)據(jù)庫。此外,信息處理裝置10的功能由后面描述的硬件配置實現(xiàn)。此外,在構(gòu)成信息處理裝置10的元件中,文檔DB 11、特征值DB 15、壓縮特征值DB 17和總結(jié)DB 20使用諸如硬盤或半導體存儲器的存儲介質(zhì)構(gòu)建。該存儲介質(zhì)可以位于信息處理裝置10內(nèi)部或者信息處理裝置10外部(文檔 DB 11)文檔DB 11是預先存儲包括多個語句的語句集合的數(shù)據(jù)庫。存儲在文檔DB 11中的語句集合可以是例如介紹人物、內(nèi)容或產(chǎn)品的諸如新聞文章、電子詞典或網(wǎng)頁的文檔集合。此外,存儲在文檔DB 11中的語句集合可以是例如,電子郵件消息、電子公告牌上的布告、輸入Web上的表單的某些文本的歷史等。此外,存儲在文檔DB 11中的語句集合可以是例如文本化的人演講的收集的文集。文檔DB 11響應于來自獲取單元12的請求將所存儲的語句集合輸出到數(shù)據(jù)獲取單元12。(數(shù)據(jù)獲取單元12)數(shù)據(jù)獲取單元12從文檔DB 11獲取包括多個語句的語句集合。此外,數(shù)據(jù)獲取單元12獲取語句集合中包含的多個短語。具體地,數(shù)據(jù)獲取單元12提取均包含在語句集合的一個語句中的單詞對,并且獲取分別表示每個提取的對的單詞之間的關(guān)連性的多個短語。數(shù)據(jù)獲取單元12從語句集合中提取的單詞對可以是任意的單詞對。在下面的描述中, 假設如下場景,其中數(shù)據(jù)獲取單元12特別地提取專有名詞對,并且獲取表示專有名詞之間的關(guān)連性的短語。圖2和3是圖示數(shù)據(jù)獲取單元12從語句集合獲取短語的方法的說明圖。圖2示出了從文檔DB 11獲取的語句集合的示例。語句集合包含例如,第一語句 SOl和第二語句S02。數(shù)據(jù)獲取單元12首先辨認語句集合中的每個語句并且指定其中兩個或更多個專有名詞出現(xiàn)在所辨認的語句中的語句??梢允褂美缫阎拿麑嶓w提取技術(shù)來進行專有名詞的辨別。例如,圖2的第一語句SOl包含兩個專有名詞“Jackson 5”和“CBS Records”。此外,第二語句S02包含兩個專有名詞 “ Jackson ” 和 “ Offthe Wal 1 ”。接著,數(shù)據(jù)獲取單元12執(zhí)行每個指定語句的句法分析并且得到句法樹。隨后,數(shù)據(jù)獲取單元12獲取用于鏈接得到的句法樹中兩個專有名詞的對的短語。在圖2的示例中, 鏈接第一語句 SOl 的"Jackson 5” 和 “CBS Records” 的短語是"signed a new contract with(簽訂新合同)”。另一方面,鏈接第二語句S02的“Jackson”和“Off the Wall”的短語是 “produced (制作),,。在本說明書中,一對單詞和對應于該對的短語的組被稱為關(guān)連性。圖3示出了數(shù)據(jù)獲取單元12得到的句法樹的示例。在圖3的示例中,數(shù)據(jù)獲取單元12通過分析第三語句S03的句法得到句法樹T03。句法樹T03具有兩個專有名詞“Alice Cooper”和“MCR Records”之間的最短路徑“signed to (簽約)”。副詞“subsequently (隨后)”脫離兩個專有名詞之間的最短路徑。數(shù)據(jù)獲取單元12基于該句法分析的結(jié)果提取滿足規(guī)定提取條件的單詞對并且獲取僅關(guān)于所提取的對的短語。作為規(guī)定的提取條件,例如可以應用下面的條件El至E3。(條件El)在專有名詞之間的最短路徑上不存在對應于語句的中斷的節(jié)點。(條件E》專有名詞之間的最短路徑的長度是三個節(jié)點或更少。(條件E3)語句集合中的專有名詞之間的單詞的數(shù)目是十個或更少。條件1中的語句的中斷是例如關(guān)系代詞、逗號等。這些提取條件防止數(shù)據(jù)獲取單元12不適當?shù)孬@取不適于作為表示兩個專有名詞之間的關(guān)連性的短語的字符串。
9
注意,從語句集合中提取短語的操作可以在信息處理裝置10的外部裝置中預先執(zhí)行。在該情況中,數(shù)據(jù)獲取單元12在信息處理裝置10的信息處理開始時從外部裝置獲取預先提取的短語以及從其提取短語的語句集合。此外,專有名詞對與通過以上條件El至 E3提取的短語的組合被稱為關(guān)連性數(shù)據(jù)。數(shù)據(jù)獲取單元12將包含以上述方式獲取的多個短語的關(guān)連性數(shù)據(jù)輸出到短語特征值確定單元13。此外,數(shù)據(jù)獲取單元12將用作獲取短語時的基礎的語句集合輸出到集合特征值確定單元14。下文參照圖4描述數(shù)據(jù)獲取單元12的數(shù)據(jù)獲取處理的流程。圖4是圖示數(shù)據(jù)獲取單元12的數(shù)據(jù)獲取處理的流程的說明圖。參照圖4,數(shù)據(jù)獲取單元12首先從文檔DB 11獲取語句集合(SlOl)。接著,數(shù)據(jù)獲取單元12在所獲取的語句集合中包含的語句中指定其中出現(xiàn)兩個或更多個單詞(例如專有名詞)的語句(S10》。隨后,數(shù)據(jù)獲取單元12分析指定語句的句法并且從而得到每個語句的句法樹(S10;3)。數(shù)據(jù)獲取單元12隨后從步驟S202中指定的語句中提取滿足規(guī)定的提取條件(例如條件El至E3)的單詞對。隨后,數(shù)據(jù)獲取單元12從每個對應的語句中獲取鏈接在步驟S104中提取的單詞對的短語610 。數(shù)據(jù)獲取單元12隨后向短語特征值確定單元13輸出關(guān)連性數(shù)據(jù),其包含分別與單詞對和相應的短語的組相對應的多個關(guān)連性。此外,數(shù)據(jù)獲取單元12將用作獲取短語的基礎的語句集合輸出到集合特征值確定單元14(S106)。(短語特征值確定單元 13)短語特征值確定單元13確定表示由數(shù)據(jù)獲取單元12獲取的每個短語的特征的短語特征值。注意,這里提到的短語特征值是向量空間中的向量,該向量空間具有分別與在多個短語中出現(xiàn)一次或多次的單詞對應的分量。例如,當300個類別的單詞出現(xiàn)在100個短語中時,短語特征值的維度可以是300維。短語特征值確定單元13基于多個短語中出現(xiàn)的單詞的詞表確定短語特征值的向量空間,并且隨后根據(jù)每個短語中的每個單詞的出現(xiàn)與否確定每個短語的短語特征值。例如,短語特征值確定單元13將對應于在每個短語中出現(xiàn)的單詞的分量設定為“1”并且將對應于在每個短語中未出現(xiàn)的單詞的分量設定為“0”,作為每個短語的短語特征值。注意,當確定短語特征值的向量空間時,優(yōu)選的是將在表示短語特征時沒有意義的單詞(例如,冠詞、指示詞、關(guān)系代詞等)視為停止單詞并且從分量中排除等同于停止單詞的單詞。此外,短語特征值確定單元13可以評估例如短語中出現(xiàn)的單詞的TF/IDF(詞頻 /反文檔頻率)分數(shù),并且從向量空間的分量中排除具有低分數(shù)的單詞(具有低重要性)。此外,短語特征值的向量空間可以不僅具有在多個短語中出現(xiàn)的單詞,而且還可以具有對應于在多個短語中出現(xiàn)的單詞雙連、單詞三連等的分量。此外,諸如詞性類型或者單詞屬性的其他參數(shù)可以包含在短語特征值中。圖5是圖示由短語特征值確定單元13確定短語特征值的方法的說明圖。圖5的上部示出了從數(shù)據(jù)獲取單元12輸入的關(guān)連性數(shù)據(jù)的示例。在該示例中,關(guān)連性數(shù)據(jù)包含三個關(guān)連性R01、R02和R03。例如,短語特征值確定單元13從關(guān)連性數(shù)據(jù)中包含的短語中提取六個單詞, “Signed”、“a”、“new”、“c0ntract”、“pr0duc” 和 “signed”。接著,短語特征值確定單元 13對這六個單詞執(zhí)行詞干操作(解釋詞干的處理)并且隨后排除停止單詞等。作為該處理的結(jié)果,指定唯一的四個單詞(詞干),“sign,,、“new,,、“contract,,和“produc,,。隨后,短語特征值確定單元13形成具有“Sign”、“new”、“c0ntract”和“produc”作為分量的短語特征
值的向量空間。另一方面,圖5的下部示出了具有“Sign”、“neW”、“COntraCt”和“produc”作為分
量的向量空間中的短語特征值的示例。短語FOl是對應于關(guān)連性ROl的短語。短語FOl的短語特征值是(〃 sign",丨‘ new“,“ contract“,“ produc“,…)=(1,1,1,0,…)。短語F02是對應于關(guān)連性R02的短語。短語F02的短語特征值是 (〃 sign",“ new “,“ contract",“ produc “,…)=(0,0,0,1,· · ·)。短語F03是對應于關(guān)連性R03的短語。短語F03的短語特征值是(〃 sign",“ new“,“ contract“,“ produc“,…)=(1,0,0,0,…)。在實踐中,短語特征值具有更大量的分量,并且其是超稀疏向量,其中僅少數(shù)分量具有不同于零的值。其中這些短語特征值排列成列(或行)的矩陣形成了短語特征值矩陣。圖6是圖示短語特征值確定單元13的短語特征值確定處理的流程的說明圖。參照圖6,短語特征值確定單元13首先提取從數(shù)據(jù)獲取單元12輸入的關(guān)連性數(shù)據(jù)中的短語中包含的單詞(S111)。接著,短語特征值確定單元13對所提取的單詞執(zhí)行詞干操作并且消除由于詞形變化引起的單詞差異(S112)。隨后,短語特征值確定單元13在詞干操作之后從單詞中排除諸如停止單詞和具有低TF/IDF分數(shù)的單詞的不需要的單詞 (S113)。短語特征值確定單元13隨后根據(jù)包含剩余單詞的詞表形成短語特征值的向量空間(Si14)。隨后,短語特征值確定單元13根據(jù)例如所形成的向量空間中的每個短語中的單詞的出現(xiàn)與否,確定每個短語的短語特征值(SlK)。此后,短語特征值確定單元13將所確定的每個短語的短語特征值存儲到特征值DB 15中(S116)。(集合特征值確定單元14)集合特征值確定單元14確定表示從數(shù)據(jù)獲取單元12輸入的語句集合的特征的集合特征值。這里提到的集合特征值是具有與在語句集合中出現(xiàn)的每種單詞組合對應的分量的矩陣。此外,短語特征值的向量空間的至少一部分與構(gòu)成集合特征值的行向量或列向量的向量空間的一部分重疊。集合特征值確定單元14可以根據(jù)例如關(guān)于每種單詞組合在語句集合中的同現(xiàn) (co-occurrence)次數(shù)確定集合特征值。在該情況中,集合特征值是表示每種單詞組合的同現(xiàn)次數(shù)的同現(xiàn)矩陣。此外,集合特征值確定單元14可以根據(jù)例如單詞之間的準同義詞關(guān)系確定集合特征值。此外,集合特征值確定單元14可以確定反映每種單詞組合的同現(xiàn)次數(shù)以及與準同義關(guān)系對應的數(shù)值兩者的集合特征值。圖7是圖示由集合特征值確定單元14確定集合特征值的方法的說明圖。圖7的上部示出了從數(shù)據(jù)獲取單元12輸入的語句集合的示例。語句集合具有兩個語句SOl和S02以及多個其他語句。集合特征值確定單元14 提取例如語句集合的多個語句中包含的單詞。接著,集合特征值確定單元14對所提取的單詞執(zhí)行詞干操作并且隨后排除停止單詞等,并且確定用于形成集合特征值的特征值空間的詞表。這里確定的詞表包括短語中出現(xiàn)的單詞,諸如作為短語特征值的向量空間的分量的 “Sign”、“neW”、“COntraCt”和“produc”,并且此外,包括不同于短語的部分中出現(xiàn)的單詞, 諸如"album(專集)”和 “together (一起)”。另一方面,圖7的下部將集合特征值示出為同現(xiàn)矩陣,其中語句集合中出現(xiàn)的單詞詞表被分配作為行和列兩者的分量。例如,對應于“sign”和“contract”的組合的集合特征值的分量的值是“30”。該值指示“sign”和“contract”的組合一起出現(xiàn)在語句集合中的一個語句中的次數(shù)(語句的數(shù)目)是30。同樣地,對應于“sign”和“agree”的組合的分量的值是“10”。此外,對應于 “sign”和“born”的組合的分量的值是“0”。這些值分別指示語句集合中的每種單詞組合的同現(xiàn)次數(shù)是10和0。注意,當集合特征值確定單元14根據(jù)單詞之間的準同義關(guān)系確定集合特征值時, 例如,集合特征值確定單元14可以將與具有預先準備的準同義詞詞典中的準同義詞關(guān)系 (包括同義詞關(guān)系)的單詞組合相對應的分量確定為“1”并且將其他分量確定為“0”。此外,集合特征值確定單元14可以使用給定的因子進行每種單詞組合的同現(xiàn)次數(shù)和根據(jù)準同義詞詞典給出的值的加權(quán)加法。圖8是圖示集合特征值確定單元14的集合特征值確定處理的流程(第一示例) 的說明圖。如圖8中所示,集合特征值確定單元14首先提取從數(shù)據(jù)獲取單元12輸入的語句集合中包含的單詞(S121)。接著,集合特征值確定單元14對所提取的單詞執(zhí)行詞干操作并且消除由于詞形變化引起的單詞差異(S122)。隨后,集合特征值確定單元14在詞干操作之后從單詞中排除諸如停止單詞和具有低TF/IDF分數(shù)的單詞的不需要的單詞(S123)。集合特征值確定單元14隨后根據(jù)包含剩余單詞的詞表形成集合特征值的特征值空間(矩陣空間)(S124)。隨后,集合特征值確定單元14針對與所形成的特征值空間的每個分量對應的每種單詞組合來對語句集合中的同現(xiàn)次數(shù)進行計數(shù)(S12Q。此后,集合特征值確定單元14將作為計數(shù)結(jié)果的同現(xiàn)矩陣存儲到特征值DB 15中作為集合特征值(S126)。圖9是圖示集合特征值確定單元14的集合特征值確定處理的流程(第二示例) 的說明圖。如圖9中所示,集合特征值確定單元14首先提取從數(shù)據(jù)獲取單元12輸入的語句集合中包含的單詞(S131)。接著,集合特征值確定單元14對所提取的單詞執(zhí)行詞干操作并且消除由于詞形變化引起的單詞差異(S132)。隨后,集合特征值確定單元14在詞干操作之后從單詞中排除諸如停止單詞和具有低TF/IDF分數(shù)的單詞的不需要的單詞(S133)。集合特征值確定單元14隨后根據(jù)包含剩余單詞的詞表形成集合特征值的特征值空間(矩陣空間)(S134)。此后,集合特征值確定單元14獲取準同義詞詞典(S135)。隨后, 集合特征值確定單元14針對與具有所獲取的準同義詞詞典中的準同義詞關(guān)系的每種單詞組合相對應的矩陣的分量給出數(shù)值(S136)。最后,集合特征值確定單元14將其中針對分量給出數(shù)值的特征值矩陣存儲到特征值DB 15中作為集合特征值(S137)。(特征值DB 15)特征值DB 15通過使用存儲介質(zhì)存儲由短語特征值確定單元13確定的短語特征值和由集合特征值確定單元14確定的集合特征值。隨后,響應于來自壓縮單元16的請求,特征值DB 15將所存儲的短語特征值和集合特征值輸出到壓縮單元16。(壓縮單元16)壓縮單元16通過使用來自特征值DB 15的短語特征值和集合特征值,生成維度比上述短語特征值低并且指示由數(shù)據(jù)獲取單元12獲取的每個短語的特征的壓縮短語特征值。如前面所述,短語特征值確定單元13確定的短語特征值是超稀疏向量值。因此, 在將基于一般概率技術(shù)的向量壓縮技術(shù)應用于該短語特征值時,數(shù)據(jù)的有意性因壓縮而喪失。因此,壓縮單元16除了短語特征值之外將集合特征值視為觀測數(shù)據(jù)以補償特征值的信息的不足,并且使用概率技術(shù)壓縮短語特征值。從而可以不僅基于單個短語的統(tǒng)計特征,還基于短語所屬的語句集合的統(tǒng)計特征,有效地訓練壓縮數(shù)據(jù)。壓縮單元16使用的概率模型是將關(guān)于多個短語的短語特征值和集合特征值用作觀測數(shù)據(jù)而構(gòu)建的概率模型,從而潛在變量對于觀測數(shù)據(jù)的出現(xiàn)有貢獻。此外,在壓縮單元 16使用的概率模型中,對集合特征值的出現(xiàn)有貢獻的潛在變量和對與多個短語關(guān)連的短語特征值的出現(xiàn)有貢獻的潛在變量是至少部分公共的變量。概率模型由例如下式(1)表示。式(1)
N M Γ1 L L Γ
i=\ j=l j=l在上式⑴中,X(Xij)指示短語特征值矩陣。F(fjk)指示集合特征值(矩陣)。Ui 指示對應于第i個短語的潛在向量。Vj(或Vk)指示對應于第j個(或第k個)單詞的潛在向量。α x對應于短語特征值的精度并且給出下式O)中的正態(tài)分布的離散度。aF對應于集合特征值的精度并且給出下式(3)中的正態(tài)分布的離散度。N指示所獲取的短語的總數(shù),M指示短語特征值的向量空間的維度,而L指示集合特征值的階數(shù)。應當注意,上式(1)的左手側(cè)包括的兩個隨機變量由下式( 和C3)定義。然而, G(x μ , α)是具有平均值μ和精度α的正態(tài)分布。式(2)P(Xij)Ui, Vj, αχ) = G (XiJ IUi1 Vj, α χ)式(3)ρ (fJk I Vj, Vk, α F) = G (fJk | Vj1Vk, α F)壓縮單元16基于上述概率模型設定共軛先驗分布并且隨后根據(jù)諸如最大后驗估計或者貝葉斯估計的最大似然估計方法,估計N個潛在向量Ui和L個潛在向量Vj,這些潛在向量是潛在變量。隨后,壓縮單元16將作為估計結(jié)果而獲得的每個短語的潛在向量Ui (i =1至N)輸出到壓縮特征值DB 17作為每個短語的壓縮短語特征值?,F(xiàn)在參照圖10和11。圖10和11是概念性圖示壓縮短語特征值的方法的示圖。在圖10中,在上部中示出了作為潛在變量的數(shù)據(jù)空間的示例的潛在話題空間,并且在下部中示出了觀測數(shù)據(jù)空間。潛在向量Ui屬于潛在話題空間并且對在語句集合中觀測到第i個短語的出現(xiàn)有貢獻。這意味著短語的語義方面引起了對作為語言的短語的出現(xiàn)的概率影響。另一方面, 潛在向量仏和潛在向量Vj(Vk)對第i個短語中包含的第j個單詞的出現(xiàn)有貢獻。這意味著語句集合的上下文的語義方面(或者文檔的語言趨勢等)引起了對例如個別單詞的出現(xiàn)的概率影響。此時,潛在向量Vj(Vk)不僅對第i個短語中包含的第j個單詞的出現(xiàn)有貢獻,而且對不同于關(guān)注的短語的語句集合的另一部分中的單詞的出現(xiàn)也有貢獻。因此,通過除第i 個短語的短語特征值Xij之外觀測集合特征值fjk,可以進行潛在向量Ui和潛在向量Vj (Vk) 的良好估計。應當注意,潛在向量Ui和Vj的維度等于潛在話題空間中的話題數(shù)目。當話題數(shù)目小于短語特征值的維度時,可以獲得維度比短語特征值低的潛在向量Ui作為壓縮短語特征值。潛在話題空間中的話題數(shù)目可以例如根據(jù)后繼階段中的處理要求或者對資源的約束而被設定為適當?shù)臄?shù)目(例如20)。在圖11的上部中示出了具有N行和M列的短語特征值矩陣X。此外,在圖11的下部中示出了具有L行和L列的集合特征值F。應當注意,在圖11中的短語特征值矩陣X和集合特征值F中,行和列分別相對于圖5和7中圖示的短語特征值矩陣和集合特征值的行和列反轉(zhuǎn)。當圖10中示出的潛在話題空間中的話題數(shù)目是T時,例如,圖11中示出的具有N 行和M列的短語特征值矩陣X可以被分解為較低階的具有N行和T列的低階矩陣Mtl與較低階的具有T行和M列的低階矩陣Mt2的積。低階矩陣Mtl是其中按行布置具有維度T的潛在向量Ui的矩陣。同樣地,具有L行和L列的集合特征值F可以被分解為具有L行和T 列的低階矩陣Mt3和具有T行和L列的低階矩陣Mt4的積。低階矩陣Mt3是其中按行布置具有維度T的潛在向量Vj的矩陣?;诘碗A矩陣Mt2的陰影區(qū)域中的潛在變量和低階矩陣Mt4的陰影區(qū)域中的潛在變量具有相同值的假設,壓縮單元16估計近似得到短語特征值矩陣X和集合特征值F的具有最大似然的低階矩陣Mtl、Mt2、Mt3和Mt4。壓縮單元16從而可以獲得比當僅根據(jù)短語特征值矩陣X估計低階矩陣Mtl和Mt2時更有意義的低階矩陣Mtl (即潛在向量Ui)。在圖11的示例中,示出了其中集合特征值的向量空間的維度L大于短語特征值的向量空間的維度M的結(jié)構(gòu)。對于L > M,基于不僅出現(xiàn)在短語中的單詞、而且未出現(xiàn)在短語中但是出現(xiàn)在短語所屬的語句集合中的單詞的趨勢,可以增強短語特征值的壓縮的有意性。然而,維度可以是L = M或者L<M。在該情況中,同樣地,由于具有L行和L列的集合特征值通常比具有N行和M列的短語特征值矩陣更密集(非超稀疏的),因此由集合特征值補償短語特征值的信息的不足,并且可以預期其效果。(壓縮特征值DB17)壓縮特征值DB 17使用存儲介質(zhì)存儲由壓縮單元16生成的壓縮短語特征值。隨后,響應于來自聚類單元18的請求,壓縮特征值DB 17將所存儲的壓縮短語特征值輸出到聚類單元18。此外,壓縮特征值DB 17與壓縮短語特征值關(guān)聯(lián)地存儲聚類單元18的聚類結(jié)^ ο(聚類單元I8)聚類單元18根據(jù)特征值之間的相似度對壓縮單元16生成的多個壓縮短語特征值進行聚類。根據(jù)諸如K-means的聚類算法執(zhí)行聚類單元18的聚類。此外,聚類單元18將對應于代表每個聚簇的短語的標志分配給作為聚類結(jié)果而生成的一個或多個聚簇中的每個。
然而,被分配標志的聚簇并非是根據(jù)聚類算法生成的所有聚簇,而是例如滿足如下選擇條件的一些聚簇。(選擇條件)聚簇中的短語的數(shù)目(分離地對重疊短語計數(shù))在所有聚簇的頂部的Nf以內(nèi),并且聚簇中的所有短語對的壓縮短語特征值的相似度等于或高于規(guī)定閾值。注意,作為上述選擇條件中的相似度,可以使用例如壓縮短語特征值之間的余弦相似度或內(nèi)積。此外,代表所選擇的聚簇的短語可以是例如,聚簇中的唯一短語中的最常包含在聚簇中的短語。聚類單元18可以例如針對具有相同字符串的短語計算壓縮短語特征值的和,并且分配具有最大和的短語的字符串作為聚簇標志。圖12是示出聚類單元18的短語聚類的結(jié)果的說明圖。圖12示出了壓縮短語特征值空間的示例。在壓縮短語特征值空間中,十一個短語 Fll至F21位于對應于它們的壓縮短語特征值的位置。在^^一個短語Fll至F21中,短語F12至F14被分類為聚簇Cl。此外,短語F15至 F17被分類為聚簇C2。此外,短語F18至F20被分類為聚簇C3。此外,字符串“Sign”作為標志被分配給聚簇Cl。字符串“Collaborate”作為標志被分配給聚簇C2。字符串“Born”作為標志被分配給聚簇C3。根據(jù)代表每個聚簇的短語的字符串分配這些聚簇標志。聚類單元18與壓縮短語特征值關(guān)聯(lián)地將該聚類結(jié)果存儲到壓縮特征值DB 17中。注意,不同于根據(jù)代表每個聚簇的短語分配聚簇標志,當預先給定已知將屬于聚簇的短語(在下文中被稱為教師短語)時,可以分配教師短語或者與教師短語關(guān)聯(lián)的字符串作為聚簇標志。圖13是圖示聚類單元18的聚類處理的流程的說明圖。如圖13中所示,聚類單元18首先從壓縮特征值DB 17讀取與語句集合中包含的多個短語關(guān)連的壓縮短語特征值(S141)。接著,聚類單元18根據(jù)規(guī)定的聚類算法對壓縮短語特征值進行聚類(S14》。隨后,聚類單元18確定是否每個聚簇滿足規(guī)定的選擇條件,并且選擇滿足規(guī)定的選擇條件的主要聚簇(S14!3)。此后,聚類單元18將對應于代表每個聚簇的短語的字符串的標志分配給每個所選擇的聚簇(S144)。(總結(jié)單元19)總結(jié)單元19將注意力集中于語句集合中包含的特定單詞,并且通過使用聚類單元18對與關(guān)注單詞關(guān)連的短語進行聚類的結(jié)果來創(chuàng)建關(guān)于關(guān)注單詞的總結(jié)信息。具體地, 總結(jié)單元19從關(guān)連性數(shù)據(jù)提取與關(guān)注單詞關(guān)連的多個關(guān)連性。隨后,如果所提取的第一關(guān)連性的短語和第二關(guān)連性的短語均被分類為一個聚簇,則總結(jié)單元19將具有第一關(guān)連性的其他單詞和具有第二關(guān)連性的其他單詞添加到關(guān)于分配給該一個聚簇的標志的總結(jié)內(nèi)容。圖14示出了總結(jié)單元19創(chuàng)建的作為示例的總結(jié)信息的說明圖??偨Y(jié)信息中的關(guān)注單詞是“Michael Jackson”。此外,總結(jié)信息包含四個標志“Sign(簽訂),,、“Born(出生)”、"Collaborate (合作),,和"Album(專輯)”。在該總結(jié)信息中,與標志“Sign”關(guān)連的內(nèi)容是“CBS Records”和“Motown”。例如,對于作為關(guān)注單詞的“Michael Jackson”與“CBS Records”的單詞對,短語是“signedto”,并且對于 “Michael Jackson” 與“Motown” 的單詞對,短語是 “contracted with”。當這些短語被分類為具有標志“Sign”的聚簇時,可以創(chuàng)建這樣的總結(jié)信息的條目。圖15是圖示總結(jié)單元19的總結(jié)信息創(chuàng)建處理的流程的說明圖。參照圖15,總結(jié)單元19首先指定關(guān)注單詞(S151)。關(guān)注單詞可以是例如用戶指示的單詞??商孢x地,總結(jié)單元19可以例如自動地將諸如關(guān)連性數(shù)據(jù)中包含的一個或多個專有名詞的單詞指定為關(guān)注單詞。接著,總結(jié)單元19從關(guān)連性數(shù)據(jù)中提取與指定的關(guān)注單詞相關(guān)連的關(guān)連性。與關(guān)注單詞相關(guān)連的關(guān)連性是例如其中單詞對中的任一單詞是關(guān)注單詞的關(guān)連性。隨后,總結(jié)單元19從聚類結(jié)果獲取所提取的關(guān)連性中包含的短語所屬的聚簇的標志(S153)??偨Y(jié)單元19隨后對于每個所獲取的標志列出與關(guān)注單詞配對的單詞,從而生成總結(jié)內(nèi)容(S154)。 總結(jié)單元19將以該方式創(chuàng)建的總結(jié)信息輸出到總結(jié)DB 20。(總結(jié)DB 20)總結(jié)DB 20通過使用存儲介質(zhì)存儲總結(jié)單元19創(chuàng)建的總結(jié)信息。例如,對于諸如信息檢索、廣告或推薦的各種目的,存儲在總結(jié)DB 20中的總結(jié)信息可由信息處理裝置10 的內(nèi)部或外部應用使用。前文描述了信息處理裝置10的功能配置。如上文所述,通過使用信息處理裝置 10,自動地提取具有與特定的關(guān)注單詞的某種關(guān)連性的單詞,并且進一步分配指示所提取的單詞和關(guān)注單詞之間的關(guān)連性的標志。因此信息處理裝置10的使用使得可以自動地生成指示兩個單詞之間的關(guān)連性的信息。注意,當在下文描述的實施例中通過語句表示種子實體和關(guān)連實體之間的關(guān)連性時,使用該信息。<2:實施例〉下文描述了本公開的一個實施例。該實施例涉及自動地生成指示種子實體和關(guān)連實體之間的關(guān)連性的語句(其在下文中被稱為關(guān)連信息語句)。[2-1 信息處理裝置100的功能配置]首先參照圖16描述根據(jù)實施例的能夠?qū)崿F(xiàn)自動地生成關(guān)連信息語句的方法的信息處理裝置100的功能配置。圖16是圖示根據(jù)實施例的信息處理裝置100的功能配置的說明圖。參照圖16,信息處理裝置100主要包括輸入單元101、關(guān)連信息檢索單元102、實體檢索單元103、關(guān)連信息語句生成單元104、輸出單元105和存儲單元106。此外,關(guān)連信息 DB 1061、實體DB 1062和語句模板DB 1063存儲在存儲單元106中。首先,種子實體的信息(在下文中被稱為“種子實體信息”)和關(guān)連實體的信息(在下文中被稱為“關(guān)連實體信息”)被輸入到輸入單元101。注意,種子實體是例如用于在內(nèi)容推薦系統(tǒng)中選擇要推薦的內(nèi)容(在下文中被稱為“推薦內(nèi)容”)的內(nèi)容(在下文中被稱為 “種子內(nèi)容”;例如由用戶購買的內(nèi)容)。在該情況中,關(guān)連實體是要推薦給用戶的內(nèi)容。此外,種子實體信息是例如與種子內(nèi)容關(guān)連的元信息(例如藝術(shù)家名稱、專輯名稱等)。關(guān)連實體信息是與推薦內(nèi)容關(guān)連的元信息(例如藝術(shù)家名稱、專輯名稱等)。輸入到輸入單元101的種子實體信息和關(guān)連實體信息隨后被輸入到關(guān)連信息檢索單元102。在輸入種子實體信息和關(guān)連實體信息時,關(guān)連信息檢索單元102參考關(guān)連信息 DB 1061并且檢索與種子實體信息和關(guān)連實體信息相關(guān)連的關(guān)連標志。關(guān)連信息DB 1061是存儲指示兩個實體之間的關(guān)連性的信息的數(shù)據(jù)庫。例如,在關(guān)連信息DB 1061中,如圖17 中所示與實體#1和實體#2相關(guān)聯(lián)地存儲指示實體#1和#2之間的關(guān)連性的關(guān)連標志。注意,前面描述的信息處理裝置10的功能可以自動地從實體#1和#2的元信息等提取實體#1 和#2之間的關(guān)連性。在圖17的示例中,在關(guān)連信息DB 1061中,實體#1的信息“歌手A”、實體#2的信息“位置X”以及關(guān)連標志“出生于(NORN IN)”彼此關(guān)聯(lián)。在該示例中,關(guān)連標志“出生于” 指示關(guān)連性“歌手A出生于位置X”。此外,在圖17中圖示的關(guān)連信息DB 1061中,實體#1 的信息“歌手A”、實體#2的信息“歌手B”以及關(guān)連標志“合作(COLLABORATE WITH)”彼此關(guān)聯(lián)。在該示例中,關(guān)連標志“合作(COLLABORATE WITH) ”指示關(guān)連性“歌手A與歌手B合作”。通過該方式,實體#1和#2的信息以及關(guān)連標志相關(guān)聯(lián)地存儲在關(guān)連信息DB 1061中。關(guān)連信息檢索單元102首先在關(guān)連信息DB 1061中檢索包含種子實體信息和關(guān)連實體信息兩者的記錄(在下文中被稱為“同現(xiàn)記錄”)。在圖17的示例中,考慮其中種子實體信息是“歌手A”并且關(guān)連實體信息是“歌手B”的情況,同現(xiàn)記錄是記錄No. 002。在以該方式從關(guān)連信息DB1061檢測到同現(xiàn)記錄之后,關(guān)連信息檢索單元102將檢測到的同現(xiàn)記錄中包含的種子實體信息、關(guān)連實體信息和關(guān)連標志輸入到實體檢索單元103。接著,關(guān)連信息檢索單元102在關(guān)連信息DB 1061中檢索包含種子實體信息但是不包含關(guān)連實體信息的記錄(在下文中被稱為“種子實體記錄”)。此外,關(guān)連信息檢索單元102在關(guān)連信息DB 1061中檢索不包含種子實體信息但是包含關(guān)連實體信息的記錄(在下文中被稱為“關(guān)連實體記錄”)。此外,關(guān)連信息檢索單元102檢索其中不同于種子實體記錄中包含的種子實體記錄的實體信息和不同于關(guān)連實體記錄中包含的關(guān)連實體信息的實體信息相匹配的記錄(在下文中被稱為“公共記錄”)。在圖17的示例中,考慮其中種子實體信息是“歌手A”并且關(guān)連實體信息是“歌手 B”的情況,公共記錄是記錄No. 001和No. 004。在該示例中,種子實體記錄是記錄No. 001 和No. 003。另一方面,關(guān)連實體記錄是記錄No. 004。比較記錄No. 001、No. 003和No. 004, 記錄No. 001和No. 004均包含實體的信息“位置X”。因此,在該示例中,No. 001和No. 004 被檢測為公共記錄。在以該方式從關(guān)連信息DB 1061檢測到公共記錄之后,關(guān)連信息檢索單元102將檢測到的公共記錄中包含的種子實體信息、關(guān)連實體信息和關(guān)連標志輸入到實體檢索單元103。在未檢測到任何同現(xiàn)記錄和公共記錄時,關(guān)連信息檢索單元102輸出指示未檢測到同現(xiàn)記錄和公共記錄的信息(NULL(空))。當輸出NULL時,信息處理裝置100終止關(guān)連信息語句的生成。圖18提供了上述關(guān)連信息檢索單元102的檢索處理的總結(jié)。此外參照圖18描述關(guān)連信息檢索單元102的檢索處理的流程。注意,在圖18的示例中,示出了當種子實體信息是“歌手A”并且關(guān)連實體信息是“歌手B”時的由關(guān)連信息檢索單元102執(zhí)行的檢索處理的流程。首先,種子實體信息“歌手A”和關(guān)連實體信息“歌手B”從輸入單元101輸入到關(guān)連信息檢索單元102(步驟1)。接著,關(guān)連信息檢索單元102提取包含“歌手A”、“歌手B” 的記錄(步驟幻。在該情況中,提取了記錄No. 001至No. 004。隨后,關(guān)連信息檢索單元 102檢索滿足如下檢索條件#1的記錄(步驟3)。在該情況中,由于包含“歌手A”和“歌手B”兩者的記錄是記錄No. 002,因此提取記錄No. 002作為檢索條件#1的檢索結(jié)果。此后,關(guān)連信息檢索單元102檢索滿足如下檢索條件#2的記錄(步驟4)。在該情況中,包含“歌手A”但是不包含“歌手B”的記錄是記錄No. 001和No. 003。此外,不包含 “歌手A”但是包含“歌手B”的記錄是記錄No. 004。在記錄No. 001、No. 003和No. 004中, 公共實體信息是“位置X”。這樣,包含“位置X”的記錄是記錄No. 001和No. 004。因此,提取記錄No. 001和No. 004作為檢索條件#2的檢索結(jié)果。(檢索條件#1關(guān)于同現(xiàn)記錄的檢索條件)檢索包含種子實體信息和關(guān)連實體信息兩者的記錄(檢索條件#2關(guān)于公共記錄的檢索條件)在包含種子實體信息和關(guān)連實體信息中的任一個的記錄中檢索包含公共實體信息的記錄回來參照圖16,在以上述方式提取同現(xiàn)記錄和公共記錄之后,關(guān)連信息檢索單元 102將同現(xiàn)記錄和公共記錄中的每個中包含的種子實體信息、關(guān)連實體信息和關(guān)連標志輸入到實體檢索單元103。注意,在下面的描述中,在一些情況中,同現(xiàn)記錄和公共記錄中包含的種子實體信息、關(guān)連實體信息和關(guān)連標志被分別簡單地稱為“同現(xiàn)記錄”和“公共記錄”。在輸入同現(xiàn)記錄和公共記錄之后,實體檢索單元103參考實體DB1062并且檢索與同現(xiàn)記錄和公共記錄中包含的實體的信息對應的實體標志。實體標志是指示實體的屬性的信息。實體DB 1062具有例如圖19中示出的結(jié)構(gòu)。參照圖19,實體“歌手A”與實體標志“人物(PERSON)”關(guān)聯(lián),其指示該實體是“人物”。此外,實體“位置X”與實體標志“位置 (LOCATION),,關(guān)聯(lián),其指示該實體是“位置”。首先,實體檢索單元103從實體DB 1062提取與從關(guān)連信息檢索單元102輸入的同現(xiàn)記錄中包含的種子實體信息(例如“歌手A”)對應的實體標志(例如“人物 (PERSON)”)。接著,實體檢索單元103從實體DB 1062提取與從關(guān)連信息檢索單元102 輸入的同現(xiàn)記錄中包含的關(guān)連實體信息(例如“歌手B”)對應的實體標志(例如“人物 (PERSON)”)。隨后,實體檢索單元103從實體DB 1062提取與從關(guān)連信息檢索單元102輸入的公共記錄中包含的種子實體信息和關(guān)連實體信息不同的實體信息(例如“位置X”)所對應的實體標志(例如“位置(LOCATION)”)。此后,實體檢索單元103將實體標志分配給同現(xiàn)記錄和公共記錄中包含的每個實體的信息并且將同現(xiàn)記錄和公共記錄輸入到關(guān)連信息語句生成單元104。圖20和21提供了由上述實體檢索單元103確定實體標志的方法。參照圖20,當檢索條件#1的提取結(jié)果(同現(xiàn)記錄)被輸入到實體檢索單元103時(步驟1),確定與同現(xiàn)記錄中包含的實體信息對應的實體標志(步驟2)。此時,實體檢索單元103參考實體DB 1062并且提取與種子實體信息和關(guān)連實體信息中的每個對應的實體標志。隨后,將實體檢索單元103提取的實體標志分配給同現(xiàn)記錄中包含的種子實體信息和關(guān)連實體信息。進一步參照圖21,當檢索條件#2的提取結(jié)果(公共記錄)被輸入到實體檢索單元 103時(步驟1),從實體DB 1062提取與公共記錄中包含的種子實體信息和關(guān)連實體信息不同的實體信息所對應的實體標志(步驟2)。隨后,將從實體DB 1062提取的實體標志分配給與公共記錄中包含的種子實體信息和關(guān)連實體信息不同的實體信息(步驟3)。通過該
18方式,實體標志被分配給同現(xiàn)記錄和公共記錄中包含的每個實體的信息?;貋韰⒄請D16,在如上文所述由實體檢索單元103將實體標志分配給每個實體的信息之后,將同現(xiàn)記錄和公共記錄中包含的每個實體的信息輸入到關(guān)連信息語句生成單元 104。在輸入同現(xiàn)記錄和公共記錄中包含的每個實體的信息之后,關(guān)連信息語句生成單元 104參考語句模板DB 1063并且基于所輸入的每個實體的信息確定用于生成關(guān)連信息語句的語句模板。隨后,關(guān)連信息語句生成單元104將每個實體的信息分配給所確定的語句模板并且從而生成關(guān)連信息語句。語句模板DB 1063具有例如圖22中所示的結(jié)構(gòu)。參照圖22,語句模板DB 1063是使關(guān)連標志、實體標志和語句模板彼此關(guān)聯(lián)的數(shù)據(jù)庫。例如,語句模板“[實體#1]出生于 [實體 #2] ([entity#l]was born in[entity#2]) ”與關(guān)連標志“出生于(BORN IN)”和實體標志“位置”關(guān)聯(lián)。然而,注意,實體#1和#2的信息被分別分配給語句模板中的[實體#1] 和[實體#2]。下面參照圖23和M更詳細地描述關(guān)連信息語句生成單元104生成關(guān)連信息語句的方法。圖23是示出在輸入同現(xiàn)記錄的情況中關(guān)連信息語句生成單元104生成關(guān)連信息語句的方法的說明圖。另一方面,圖M是示出在輸入公共記錄的情況中關(guān)連信息語句生成單元104生成關(guān)連信息語句的方法的說明圖。參照圖23,同現(xiàn)記錄中包含的關(guān)連標志以及分配給種子實體信息和關(guān)連實體信息的實體標志的信息(在下文中被稱為“標志信息”)被輸入到關(guān)連信息語句生成單元 104(步驟1)。在圖23的示例中,種子實體信息(對應于實體#1)“歌手A”、關(guān)連標志“合作 (COLLABORATE WITH) ”和實體標志“人物(PERSON) ”作為標志信息被輸入到關(guān)連信息語句生成單元104。此外,關(guān)連實體信息(對應于實體#2)“歌手B”、關(guān)連標志“合作(COLLABORATE WITH) ”和實體標志“人物(PERSON) ”作為標志信息被輸入到關(guān)連信息語句生成單元104。關(guān)連信息語句生成單元104參考語句模板DB 1063 (參見圖2 并且提取語句模板“[實體#1]出生于[實體#2]”,其與來自輸入標志信息的關(guān)連標志“合作(COLLABORATE WITH) ”和實體標志“人物(PERSON) ”對應(步驟2)。隨后,關(guān)連信息語句生成單元104將每個實體的信息“歌手A”和“歌手B”分配給所提取的語句模板中包含的變量[實體#1]和 [實體#2]并且從而生成關(guān)連信息語句“歌手A與歌手B合作”(步驟3)。接下來參照圖24,公共記錄中包含的關(guān)連標志以及分配給種子實體信息和關(guān)連實體信息的實體標志的信息(標志信息)被輸入到關(guān)連信息語句生成單元104(步驟1)。在圖M的示例中,種子實體信息(對應于實體#1) “歌手A”、關(guān)連標志“出生于 (BORN IN),,和實體標志“人物(PERSON),,作為標志信息被輸入到關(guān)連信息語句生成單元 104。此外,關(guān)連實體信息(對應于實體#1) “歌手B”、關(guān)連標志“演出(PLAY)”和實體標志“人物(PERSON)”作為標志信息被輸入到關(guān)連信息語句生成單元104。此外,與種子實體信息和關(guān)連實體信息不同的實體信息(對應于實體#2) “位置X”以及實體標志“位置 (LOCATION) ”作為標志信息被輸入到關(guān)連信息語句生成單元104。關(guān)連信息語句生成單元104參考語句模板DB 1063 (參見圖22)并且從實體#1的輸入關(guān)連標志和實體#2的實體標志提取語句模板(步驟2)。例如,當輸入實體#1 “歌手 A”的關(guān)連標志“出生于(BORN IN)”和實體#2的實體標志“位置(LOCATION) ”時,提取語句模板“[實體#1]出生于[實體#2]”。此外,當輸入實體#1 “歌手B”的關(guān)連標志“演出(PLAY) ”和實體#2的實體標志“位置(LOCATION),,時,提取語句模板“[實體#1]在[實體 #2]演出([entity#l]played in [entity #2]),,。在確定種子實體信息的語句模板(在下文中被稱為“種子實體語句模板”)和關(guān)連實體信息的語句模板(在下文中被稱為“關(guān)連實體語句模板”)之后,關(guān)連信息語句生成單元104根據(jù)需要修改語句模板(步驟3)。例如,當如圖M中所示種子實體語句模板和關(guān)連實體語句模板不同時,關(guān)連信息語句生成單元104將“,while(而)”添加到種子實體語句模板并且隨后在其之后添加關(guān)連實體語句模板。另一方面,當種子實體語句模板和關(guān)連實體語句模板相同時,關(guān)連信息語句生成單元104將排除[實體#1]的種子實體語句模板的部分添加到“種子實體信息和關(guān)連實體信息兩者”。此時,關(guān)連信息語句生成單元104適當?shù)貙ⅰ癰e”動詞改變?yōu)閺蛿?shù)形式。隨后,關(guān)連信息語句生成單元104將實體#2的實體信息分配給經(jīng)修改的語句模板中包含的變量[實體#2]并且從而生成關(guān)連信息語句(步驟3)。在圖M的示例中,生成關(guān)連信息語句“歌手A出生于位置X,而歌手B在位置X演出”。通過該方式,由關(guān)連信息語句生成單元104生成關(guān)連信息語句。再次參照圖16,在如上文所述生成關(guān)連信息語句之后,關(guān)連信息語句生成單元 104將所生成的關(guān)連信息語句輸入到輸出單元105。在輸入關(guān)連信息語句之后,輸出單元 105將輸入的關(guān)連信息語句輸出。此時,輸出單元105可以在諸如顯示器的顯示部件(未示出)上顯示關(guān)連信息語句或者通過使用諸如揚聲器的音頻輸出部件(未示出)作為聲音輸出關(guān)連信息語句。例如,如圖四和30中所示,輸出單元105在顯示部件上與種子實體信息“Jack”和關(guān)連實體信息“Rose” 一起顯示關(guān)連信息語句“Rose和Jack兩者都出生于印第安納(Both Rose and Jack were born in Indiana) ”(參見圖 29)/‘Rose 出生于印第安納,而 Jack 在 £口第安納演出(Rose was born in Indiana, while Jack played in Indiana),,(參見圖 30)。上文描述了信息處理裝置100的功能配置。注意,前面描述的信息處理裝置10的功能配置可以并入到信息處理裝置100的功能配置中。在該情況中,根據(jù)由信息處理裝置 10的總結(jié)單元19生成的總結(jié)信息(參見圖14)構(gòu)建關(guān)連信息DB 1061(參見圖17)的內(nèi)容。 如參照圖14和17易于理解的,可以通過改變總結(jié)DB 20的結(jié)構(gòu)來構(gòu)建關(guān)連信息DB 1061。 然而,注意,圖14中示出的“標志”對應于圖17中示出的“關(guān)連標志”。此外,信息處理裝置 100的存儲單元106可以被設置在信息處理裝置100外部。[2-2 信息處理裝置100的操作]根據(jù)本發(fā)明的另一實施例,提供了一種關(guān)連語句提供方法,其包括提供與主要信息關(guān)連的關(guān)連信息,生成指示主要信息和關(guān)連信息之間的關(guān)連性的語句,以及提供語句。下面參照圖25至觀描述信息處理裝置100的操作,作為上述根據(jù)本發(fā)明的實施例的關(guān)連語句提供方法的具體示例。圖25至觀是圖示構(gòu)成信息處理裝置100的元件的操作的說明圖。 注意,在該示例中,輸入種子藝術(shù)家名稱作為種子實體信息,并且輸入關(guān)連藝術(shù)家名稱作為關(guān)連實體信息。(關(guān)連信息檢索單元102的操作)首先參照圖25描述關(guān)連信息檢索單元102的操作。圖25是圖示關(guān)連信息檢索單元102執(zhí)行的處理的流程的說明圖。參照圖25,關(guān)連信息檢索單元102在關(guān)連信息DB 1061中檢索包含從輸入單元 101輸入的種子藝術(shù)家名稱或關(guān)連藝術(shù)家名稱的信息(S201)。接著,關(guān)連信息檢索單元102 將包含種子藝術(shù)家名稱和關(guān)連藝術(shù)家名稱的檢索結(jié)果作為上述(檢索條件#1)的檢索結(jié)果輸出到實體檢索單元103 620 。隨后,關(guān)連信息檢索單元102在包含種子藝術(shù)家名稱的記錄和包含關(guān)連藝術(shù)家名稱的記錄之間提取包含公共實體的記錄,并且將所提取的記錄作為上述(檢索條件#2)的檢索結(jié)果輸出到實體檢索單元103(S203)。(實體檢索單元103的操作)下面參照圖沈描述實體檢索單元103的操作。圖沈是圖示實體檢索單元103執(zhí)行的處理的流程的說明圖。參照圖沈,實體檢索單元103將實體標志“人物”分配給上述(檢索條件#1)的檢索結(jié)果(同現(xiàn)記錄)并且將其輸出到關(guān)連信息語句生成單元104(S211)。接著,實體檢索單元103在實體DB 1062中檢索與上述(檢索條件#2)的檢索結(jié)果(公共記錄)中包含的公共實體相對應的實體標志(S212)。隨后,實體計算單元103將從實體DB 1062中提取的實體標志分配給公共實體并且將其輸出到關(guān)連信息語句生成單元104(S213)。(關(guān)連信息語句生成單元104的操作)下面參照圖27和觀描述關(guān)連信息語句生成單元104的操作。圖27和觀是圖示關(guān)連信息語句生成單元104執(zhí)行的處理的流程的說明圖。特別地,圖27示出了關(guān)于上述 (檢索條件#1)的檢索結(jié)果的關(guān)連信息語句生成單元104的操作。另一方面,圖觀示出了關(guān)于上述(檢索條件#2)的檢索結(jié)果的關(guān)連信息語句生成單元104的操作。首先參照圖27,關(guān)連信息語句生成單元104在語句模板DB 1063中檢索與從實體檢索單元103輸入的關(guān)連標志和實體標志的集合對應的語句模板(S221)。接著,關(guān)連信息語句生成單元104將對應于實體#1的藝術(shù)家名稱代入從語句模板DB 1063中提取的語句模板中包含的變量[實體#1] (S222)。隨后,關(guān)連信息語句生成單元104將對應于實體#2 的藝術(shù)家名稱代入從語句模板DB 1063中提取的語句模板中包含的變量[實體#2] (S223)。 此后,關(guān)連信息語句生成單元104通過輸出單元105輸出關(guān)連信息語句(S224)。接下來參照圖28,關(guān)連信息語句生成單元104針對種子實體信息和關(guān)連實體信息中的每個在語句模板DB 1063中檢索與關(guān)連標志和實體標志的集合對應的語句模板 (S231)。接著,關(guān)連信息語句生成單元104確定對應于種子實體信息的語句模板(種子實體語句模板)和對應于關(guān)連實體信息的語句模板(關(guān)連實體語句模板)是否相同(S232)。 當種子實體語句模板和關(guān)連實體語句模板相同時,關(guān)連信息語句生成單元104前往步驟 S233。另一方面,當種子實體語句模板和關(guān)連實體語句模板不相同時,關(guān)連信息語句生成單元104前往步驟S2;34。當處理前往步驟S233時,關(guān)連信息語句生成單元104將語句模板修改為形式 “...和...兩者”并且使后面的“be”動詞變?yōu)閺蛿?shù)形式(S233)。另一方面,當處理前往步驟S234時,關(guān)連信息語句生成單元104將語句模板修改為形式“...,而...”(S234)。當步驟S233或S234的處理結(jié)束時,關(guān)連信息語句生成單元104前往步驟S235。在步驟S235中,關(guān)連信息語句生成單元104將種子藝術(shù)家名稱和關(guān)連藝術(shù)家名稱代入兩個變量[實體#1] (S235)。隨后,關(guān)連信息語句生成單元104將公共實體信息代入變量[實體#2]并且從而完成關(guān)連信息語句(S236)。隨后,關(guān)連信息語句生成單元104通過輸出單元105輸出完成的關(guān)連信息語句(S224)。上文描述了信息處理裝置100的操作。注意,關(guān)連信息語句以如圖四和30中示出的形式輸出。<3 硬件配置>上文描述的信息處理裝置10和100的每個結(jié)構(gòu)元件的功能可以通過使用例如圖 31中示出的信息處理設備的硬件配置來實現(xiàn)。就是說,每個結(jié)構(gòu)元件的功能可以通過使用計算機程序控制圖31中所示的硬件來實現(xiàn)。此外,該硬件的模式是任意的,并且可以是個人計算機,諸如移動電話、PHS或PDA的移動信息終端,游戲機,或者各種類型的信息工具。 此外,PHS是個人手持電話系統(tǒng)的縮寫。再者,PDA是個人數(shù)字助理的縮寫。如圖31中所示,該硬件主要包括CPU 902、ROM 904、RAM 906、主機總線908、和橋 910。此外,該硬件包括外部總線912、接口 914、輸入單元916、輸出單元918、存儲單元920、 驅(qū)動器922、連接端口擬4和通信單元926。此外,CPU是中央處理單元的縮寫。再者,ROM 是只讀存儲器的縮寫。此外,RAM是隨機存取存儲器的縮寫。CPU 902用作例如算術(shù)處理單元或控制單元,并且基于ROM 904、RAM 906、存儲單元920或可拆卸記錄介質(zhì)擬8上記錄的各種程序控制每個結(jié)構(gòu)元件的整體操作或部分操作。ROM 904是用于存儲例如將加載在CPU 902上的程序或者算術(shù)運算中使用的數(shù)據(jù)等的部件。RAM 906臨時地或永久地存儲例如,將加載在CPU 902上的程序或者在程序的執(zhí)行中任意改變的各種參數(shù)等。這些結(jié)構(gòu)元件通過例如能夠執(zhí)行高速數(shù)據(jù)傳送的主機總線908彼此連接。就其而言,主機總線908通過橋910連接到例如外部總線912,該外部總線912的數(shù)據(jù)傳送速度是相對低的。此外,輸入單元916是例如,鼠標、鍵盤、觸摸面板、按鈕、開關(guān)或操縱桿。再者, 輸入單元916可以是遙控器,其能夠使用紅外線或其他無線電波傳送控制信號。輸出單元918例如是諸如CRT、IXD、PDP或ELD的顯示設備,諸如揚聲器或耳機的音頻輸出設備,打印機、移動電話或傳真機,它們能夠視覺地或聽覺地向用戶通知所獲取的信息。此外,CRT是陰極射線管的縮寫。LCD是液晶顯示器的縮寫。PDP是等離子體顯示面板的縮寫。再者,ELD是電致發(fā)光顯示器的縮寫。存儲單元920是用于存儲各種數(shù)據(jù)的裝置。存儲單元920例如是,諸如硬盤驅(qū)動器(HDD)的磁存儲裝置、半導體存儲裝置、光學存儲裝置或者磁-光存儲裝置。HDD是硬盤驅(qū)動器的縮寫。驅(qū)動器922是讀取記錄在諸如磁盤、光盤、磁-光盤或半導體存儲器的可拆卸記錄介質(zhì)擬8上記錄的信息,或者將信息寫入可拆卸記錄介質(zhì)928中的裝置。可拆卸記錄介質(zhì) 928例如是,DVD介質(zhì)、Blu-ray (藍光)介質(zhì)、HD-DVD介質(zhì)、各種類型的半導體存儲介質(zhì)等。 當然,可拆卸記錄介質(zhì)擬8可以例如是,電子裝置或者搭載非接觸IC芯片的IC卡。IC是集成電路的縮寫。連接端口擬4是諸如USB端口、IEEE 1394端口、SCSI、RS-232端口的端口,或者用于連接諸如光學音頻終端的外部連接裝置930的端口。外部連接裝置930例如是,打印機、移動音樂播放器、數(shù)字相機、數(shù)字視頻相機或者IC記錄器。此外,USB是通用串行總線的縮寫。再者,SCSI是小型計算機系統(tǒng)接口的縮寫。
通信單元擬6是將連接到網(wǎng)絡932的通信裝置,并且例如是,用于有線或無線LAN、 Bluetooth(注冊商標)或WUSB的通信卡,光學通信路由器,ADSL路由器或者用于各種類型的通信的調(diào)制解調(diào)器。連接到通信單元擬6的網(wǎng)絡932由有線連接或無線連接的網(wǎng)絡構(gòu)成, 并且例如是,互聯(lián)網(wǎng)、家用LAN、紅外通信、可見光通信、廣播或者衛(wèi)星通信。此外,LAN是局域網(wǎng)的縮寫。再者,WUSB是無線USB的縮寫。此外,ADSL是非對稱數(shù)字訂戶線路的縮寫。<4:總結(jié)〉最后,下文提供了根據(jù)本公開的實施例的技術(shù)主題的簡要總結(jié)。這里描述的技術(shù)主題可以應用于各種類型的信息處理裝置,諸如PC、移動電話、便攜式游戲機、便攜式信息終端、家庭信息工具和汽車導航系統(tǒng)。上文描述的信息處理裝置的功能配置可以表述如下。該信息處理裝置包括信息提供單元、關(guān)連語句生成單元和關(guān)連語句提供單元。信息提供單元提供與主要信息關(guān)連的關(guān)連信息。關(guān)連語句生成單元生成指示主要信息和關(guān)連信息之間的關(guān)連性的語句。關(guān)連語句提供單元提供由關(guān)連語句生成單元生成的語句。通過該方式,在提供主要信息和關(guān)連信息時,額外提供指示它們之間的關(guān)連性的語句,從而吸引用戶有興趣接收關(guān)連信息中的信息。這對與關(guān)連信息對應的產(chǎn)品促銷以及提高觀看內(nèi)容的頻率有貢獻。(注釋)上文描述的輸出單元105是信息提供單元和關(guān)連語句提供單元的示例。上文描述的種子實體信息是主要信息的示例。上文描述的關(guān)連實體信息是關(guān)連信息的示例。上文描述的關(guān)連信息語句生成單元104是關(guān)連語句生成單元的示例。上文描述的關(guān)連信息DB 1061是第一數(shù)據(jù)庫的示例。上文描述的實體#1的信息是第一信息的示例。上文描述的實體#2的信息是第二信息的示例。此外,上文描述的關(guān)連標志是關(guān)連性信息的示例。上文描述的語句模板DB 1063 是第二數(shù)據(jù)庫的示例。上文描述的同現(xiàn)記錄是第一記錄的示例。上文描述的公共記錄是第二和第三記錄的示例。上文描述的數(shù)據(jù)獲取單元12是短語獲取單元的示例。上文描述的總結(jié)單元19是關(guān)連性信息生成單元的示例。上文描述的壓縮單元16是壓縮短語特征值生成單元的示例。上文參照附圖描述了本公開的優(yōu)選實施例,顯然本公開不限于以上示例。本領(lǐng)域的技術(shù)人員應當理解,在所附權(quán)利要求及其等同物的范圍內(nèi),可以根據(jù)設計要求和其他因素進行各種修改、組合、子組合和變更。本公開包含涉及在2010年7月27日提交日本專利局的日本在先專利申請第JP 2010-168336號的主題內(nèi)容相關(guān)的主題內(nèi)容,其整體內(nèi)容通過引用合并于此。
權(quán)利要求
1.一種信息處理裝置,包括信息提供單元,提供與主要信息關(guān)連的關(guān)連信息;關(guān)連語句生成單元,生成指示所述主要信息和所述關(guān)連信息之間的關(guān)連性的語句;以及關(guān)連語句提供單元,提供由所述關(guān)連語句生成單元生成的語句。
2.根據(jù)權(quán)利要求1所述的信息處理裝置,進一步包括存儲單元,存儲第一數(shù)據(jù)庫,其使指示第一信息和第二信息之間的關(guān)連性的關(guān)連性信息、所述第一信息和所述第二信息相關(guān)聯(lián);以及第二數(shù)據(jù)庫,其使所述關(guān)連性信息和語句模板相關(guān)聯(lián),其中所述關(guān)連語句生成單元從所述第一數(shù)據(jù)庫提取第一記錄,其中所述第一或第二信息與所述主要信息匹配并且所述第二或第一信息與所述關(guān)連信息匹配,從所述第二數(shù)據(jù)庫提取語句模板,所述語句模板對應于所述第一記錄中包含的所述關(guān)連性信息,以及通過使用所述第一記錄中包含的所述第一和第二信息以及從所述第二數(shù)據(jù)庫提取的所述語句模板,生成指示所述主要信息和所述關(guān)連信息之間的關(guān)連性的語句。
3.根據(jù)權(quán)利要求2所述的信息處理裝置,其中所述關(guān)連語句生成單元從所述第一數(shù)據(jù)庫提取第二記錄,其中所述第一或第二信息與所述主要信息匹配,并且所述第二記錄不同于所述第一記錄;以及第三記錄,其中所述第一或第二信息與所述關(guān)連信息匹配,并且所述第三記錄不同于所述第一記錄,當提取所述第二和第三記錄時,提取所述第二和第三記錄的集合,其中所述第二記錄中包含的所述第二或第一信息與所述主要信息不同,并且所述第三記錄中包含的所述第二或第一信息與所述關(guān)連信息不同,從所述第二數(shù)據(jù)庫提取與形成所述第二和第三記錄的集合的所述第二或第三記錄中包含的所述關(guān)連性信息相對應的語句模板,以及通過使用形成所述第二和第三記錄的集合的所述第二或第三記錄中包含的所述第一和第二信息以及從所述第二數(shù)據(jù)庫中提取的所述語句模板來生成指示所述主要信息和所述關(guān)連信息之間的關(guān)連性的語句。
4.根據(jù)權(quán)利要求3所述的信息處理裝置,其中所述主要信息、所述關(guān)連信息以及所述第一和第二信息是單詞, 所述關(guān)連性信息是指示單詞之間的關(guān)連性的信息,以及所述關(guān)連語句生成單元通過將所述主要信息的單詞和所述關(guān)連信息的單詞應用到對應于所述關(guān)連性信息的語句模板來生成語句。
5.根據(jù)權(quán)利要求4所述的信息處理裝置,進一步包括短語獲取單元,從包括多個語句的語句集合獲取每個語句中包含的短語; 短語特征值確定單元,確定用于指示由所述短語獲取單元獲取的每個短語的特征值的短語特征值;聚類單元,根據(jù)特征值之間的相似度對由所述短語特征值確定單元確定的短語特征值進行聚類;以及關(guān)連性信息生成單元,使用所述聚類單元的聚類結(jié)果來提取所述語句集合中包含的單詞之間的關(guān)連性,并且生成指示所述第一信息的單詞和所述第二信息的單詞之間的關(guān)連性的關(guān)連性信息,其中所述關(guān)連性信息生成單元將所述第一信息的單詞、所述第二信息的單詞、以及所述第一信息的單詞和所述第二信息的單詞之間的關(guān)連性信息存儲到所述第一數(shù)據(jù)庫中。
6.根據(jù)權(quán)利要求4所述的信息處理裝置,進一步包括短語獲取單元,從包括多個語句的語句集合獲取每個語句中包含的短語; 短語特征值確定單元,確定用于指示由所述短語獲取單元獲取的每個短語的特征值的短語特征值;集合特征值確定單元,確定用于指示所述語句集合的特征的集合特征值; 壓縮短語特征值生成單元,基于所述短語特征值確定單元確定的短語特征值和由所述集合特征值確定單元確定的集合特征值,生成具有比所述短語特征值的維度低的壓縮短語特征值;聚類單元,根據(jù)特征值之間的相似度對由所述壓縮短語特征值生成單元生成的壓縮短語特征值進行聚類;以及關(guān)連性信息生成單元,使用所述聚類單元的聚類結(jié)果來提取所述語句集合中包含的單詞之間的關(guān)連性,并且生成指示所述第一信息的單詞和所述第二信息的單詞之間的關(guān)連性的關(guān)連性信息,其中所述關(guān)連性信息生成單元將所述第一信息的單詞、所述第二信息的單詞、以及所述第一信息的單詞和所述第二信息的單詞之間的關(guān)連性信息存儲到所述第一數(shù)據(jù)庫中。
7.一種關(guān)連語句提供方法,包括 提供與主要信息關(guān)連的關(guān)連信息;生成指示所述主要信息和所述關(guān)連信息之間的關(guān)連性的語句;以及提供所述語句。
8.一種程序,使計算機實現(xiàn)信息提供功能,提供與主要信息關(guān)連的關(guān)連信息;關(guān)連語句生成功能,生成指示所述主要信息和所述關(guān)連信息之間的關(guān)連性的語句;以及關(guān)連語句提供功能,提供由所述關(guān)連語句生成功能生成的語句。
全文摘要
本發(fā)明涉及信息處理裝置、關(guān)連語句提供方法和程序。該信息處理裝置包括信息提供單元,其提供與主要信息關(guān)連的關(guān)連信息;關(guān)連語句生成單元,其生成指示主要信息和關(guān)連信息之間的關(guān)連性的語句;以及關(guān)連語句提供單元,其提供由關(guān)連語句生成單元生成的語句。
文檔編號G06F17/30GK102346761SQ20111021100
公開日2012年2月8日 申請日期2011年7月20日 優(yōu)先權(quán)日2010年7月27日
發(fā)明者高松慎吾 申請人:索尼公司