專利名稱:信息處理設備、信息處理方法和程序的制作方法
技術領域:
本發(fā)明涉及信息處理設備、信息處理方法和程序。例如,本發(fā)明涉及 能夠提取可以用作內(nèi)容推薦理由的短語的信息處理設備、信息處理方法和 程序。
背景技術:
通常通過自然語言處理實現(xiàn)相關技術的關鍵字/短語提取技術(日本 未經(jīng)審查的專利申請7>開No.2006-209173 )。
迄今為止,市場上可用的相關技術的文本挖掘工具中的、以及Web 應用中的關鍵字/短語提取功能的目的是用于提取文本文件和對于查詢的 問題回答(日本未經(jīng)審查的專利申請公開No,2006-344102)。
近年來,在一些網(wǎng)站或AV (視聽)設備中已經(jīng)實現(xiàn)了內(nèi)容推薦系統(tǒng) (日本未經(jīng)審查的專利申請公開No.2006-309751)。在這些系統(tǒng)中, 一些 設備具有推薦內(nèi)容和呈現(xiàn)從包括內(nèi)容信息描述的文本文件中提取的單詞 級關鍵字或全部句子的功能。
發(fā)明內(nèi)容
如果如日本未經(jīng)審查的專利申請/iHf No.2006-209173中所描述的那 樣通過自然語言處理來實現(xiàn)關鍵字/短語提取技術,則使用語法分析技術 是絕對必要的,如從文本文件中拔JMS:及進行修改等。為了優(yōu)化語法分析 算法,需務使用大,的語料庫數(shù)據(jù)進行學習。這樣,在時間和整個系統(tǒng) 方面成^f艮高。 日本未經(jīng)審查的專利申請公開No.2006-344102中公開的關鍵字/短語 提取功能的目的不同于從描述內(nèi)容的評論或贊譽的文本文件中提取特征
短語o
用戶難以通過^f吏用單詞或全部句子來呈現(xiàn)推薦理由的功能立即掌握
內(nèi)容的特征,如在日本未經(jīng)審查的專利申請公開No.2006-309751中所公 開的那樣。
本發(fā)明是在考慮了這些情況的背景下作出的,例如希望可4^取可以用 作內(nèi)^薦理由的短語。
根據(jù)本發(fā)明的一個實施例,提供了一種信息處理設備,包括形態(tài)分 析裝置,用于對文本文件進行形態(tài)分析;管理裝置,用于管理表示預定詞 類的語素的連接關系的連接模式;以及提取裝置,用于從通過由形態(tài)分析 裝置進行形態(tài)分析而獲得的語素串中提取短語,該短語包括具有與由管理 裝置管理的連接模式所表示的連接關系相同的連接關系的多個語素。
在本發(fā)明的一個實施例中,管理裝置可以管理每個連接模式的權重, 提取裝置可以根據(jù)表示包含在短語中的語素的連接關系的連接模式來給 所提取的短語賦予權重。
本發(fā)明的實施例還可以包括推薦裝置,用于選擇要推薦給用戶的內(nèi) 容;以及顯示控制裝置,用于將由推薦裝置選擇的內(nèi)容的信息顯示給用戶 使用的信息處理終端。在此情況下,形態(tài)分析裝置可以對由推薦裝置選擇 的內(nèi)容的文本文件進行形態(tài)分析,提取裝置可以從通過形態(tài)分析裝置對由 推薦裝置選擇的內(nèi)容的文本文件進行形態(tài)分析所獲得的語素中提取短語, 顯示控制裝置還可以將由提取裝置提取的短語顯示為內(nèi)容的推薦理由。
在本發(fā)明的一個實施例中,顯示控制裝置可基于由提取裝置向各短語 賦予的權重來選擇要顯示為內(nèi)容的推薦理由的短語。
在本發(fā)明的一個實施例中,管理裝置可才艮據(jù)用戶的評價來更新和管理 每個連接模式的權重,其中,該用戶已經(jīng)檢查了由顯示控制裝置顯示為內(nèi) 容的推薦理由的短語。
根據(jù)本發(fā)明的另 一個實施例,提供了 一種使計算機執(zhí)行包括下列步驟 的處理的程序?qū)ξ谋疚募M行形態(tài)分析;管理表示預定詞類的語素的連 接關系的連接模式;以M通過由形態(tài)分析步驟進行形態(tài)分析而獲得的語 素串中提取短語,該短語包括具有與由所管理的連接模式表示的連接關系 相同的連接關系的多個語素。 在本發(fā)明的一個實施例中,對文本文件進行形態(tài)分析,管理表示預定 詞類的語素的連接關系的連接模式,以及從通過執(zhí)行形態(tài)分析而獲得的語 素串中提取短語,該短語包括具有與所管理的連接模式所表示的連接關系 相同的連接關系的多個語素。
通it^發(fā)明的一個實施例,可以例如提取能夠用作內(nèi)容的推薦理由的 短語。
圖1示出了根據(jù)本發(fā)明一個實施例的內(nèi)^#薦系統(tǒng)的配置的實例圖2示出了內(nèi)^^薦服務器的硬件配置的實例框圖3示出了內(nèi)容推薦服務器的功能配置框圖4示出了圖3中的推薦理由生成部分的配置的實例框圖5示出了內(nèi)^薦服務器的內(nèi)M薦處理的流程圖6示出了在圖5的步驟S2中執(zhí)行的文本文件分析處理的流程圖7示出了文本文件的實例圖8示出了形態(tài)分4斤的結果圖9示出了形態(tài)分析的結果圖,是圖8的繼續(xù);
圖10示出了在圖6的步驟S15中執(zhí)行的詞類連接短語分析處理的流 程圖ll示出了詞類連接模式的給定值(indexvalue)的實例圖12示出了各詞類連接模式的權重的實例圖13示出了所確定的短語的實例圖14示出了推薦屏的顯示的實例圖;以及
圖15示出了評價屏的顯示的實例圖。
具體實施例方式
下面,將對本發(fā)明的實施例進行描述。將如下地示范本發(fā)明的構成特 征和說明書或附圖中所描述的實施例之間的關系。此描述用于確i^t說明
書或附圖中包括支持本發(fā)明的實施例。相應地,如果存在包括在i兌明書或 附圖中的實施例,但這里包括的實施例未作為對應于本發(fā)明的構成特征的 實施例,此事實并不意味該實施例不對應于本發(fā)明的構成特征。相反,如 果這里包括作為對應于本發(fā)明的構成特征的實施例,此事實并不意味該實 施例不對應于該構成特征之外的構成特征。
根據(jù)本發(fā)明的一個實施例,提供了一種信息處理設備(例如,圖1
中的內(nèi)容推薦服務器1),包括形態(tài)分析裝置(例如,圖4中的形態(tài)分 析部分42),用于對文本文件進行形態(tài)分析;管理裝置(例如,圖4中的 參數(shù)管理部分43),用于管理表示預定詞類的語素的連接關系的連接模 式;以及提取裝置(例如,圖4中的短語提取部分44 ),用于從通過由形 態(tài)分析裝置進行形態(tài)分析而獲得的語素串中提取短語,該短語包括具有與 由管理裝置管理的連接模式所表示的連接關系相同的連接關系的多個語 素。
信息處理設^^還可以包括推薦裝置(例如,圖3中的內(nèi)容推薦部分 32),用于選擇要推薦給用戶的內(nèi)容;以及顯示控制裝置(例如,圖3中 的顯示數(shù)據(jù)生成部分34 ),用于將由推薦裝置選擇的內(nèi)容的信息顯示給用 戶使用的信息處理終端。
根據(jù)本發(fā)明的另 一個實施例,提供了 一種4吏計算機執(zhí)行包括下列步驟 的處理的程序?qū)ξ谋疚募M行形態(tài)分析;管理表示預定詞類的語素的連 接關系的連接模式;以及從通過由形態(tài)分析步驟進行形態(tài)分析而獲得的語 素串中提取短語(例如,圖6中的步驟S15),該短語包括具有與由所管 理的連接模式表示的連接關系相同的連接關系的多個語素。
下面,將參考附圖對本發(fā)明的實施例進行描述。
圖1示出了根據(jù)本發(fā)明一個實施例的內(nèi)#薦系統(tǒng)的配置的實例圖。
內(nèi)#薦系統(tǒng)包括通過因特網(wǎng)3彼此連接的內(nèi)^ 薦服務器1和用戶 終端2。雖然在圖1中只示出了一個終端作為能夠與內(nèi)^#薦服務器1進 行通信的終端,但是在現(xiàn)實中,多個終端被連接到因特網(wǎng)3,并能夠與內(nèi) 容推薦服務器1進行通信。
內(nèi)M薦服務器1對如電視節(jié)目等的內(nèi)容的信息進行管理,從其信息 作為推薦內(nèi)容而被管理的內(nèi)容中選#^定的內(nèi)容,并通過因特網(wǎng)3將推薦 內(nèi)容的信息提供給用戶終端2。對于推薦內(nèi)容,例如選^^符合用戶終端2 的用戶的喜好的內(nèi)容??梢赃x擇涉及簡單地吸引公眾注意力的主題的內(nèi)
容,或由廣播電臺強烈推薦的內(nèi)容。
基于從內(nèi)^薦服務器1傳送的信息,內(nèi)^ 薦屏被顯示在用戶終端
2上,在內(nèi)^#薦屏上,不KE示推薦內(nèi)容的信息如標題、摘要等,而且 顯示推薦理由。推薦理由是通it^推薦內(nèi)容的文本文件中提取的短語呈現(xiàn) 的。
這里,短語是指包括排列在文本文件中的多個語素的字符串。短語是 比包括從某一位置的標點符號到下一標點符號的字符串的句子更短、比包 括一個語素的詞更長的字符串。
當對用于閱讀所有句子的時間段和用于只閱讀短語的時間段進行比 較時,后一種情況花費的時間較短。這樣,與通過句子呈現(xiàn)推薦理由的情 況相比,通過短語呈現(xiàn)推薦理由使用戶可以快速地檢查推薦理由。
此外,采用短語的情況比只采用詞的情況可能存在更有說服力的表 達。這樣,用戶通過短語來險查推薦理由的含義可以比在只顯示詞來呈現(xiàn) 推薦理由的情況下檢查推薦理由的含義更容易。
稍后,將參考流程圖,描述向用戶呈現(xiàn)上文所描述的推薦理由的內(nèi)容 推薦服務器1的一系列處理。
圖2示出了圖1中的內(nèi)^#薦服務器1的硬件配置的實例框圖。
CPU (中央處理單元)11根據(jù)存儲在ROM (只讀存儲器)12中的 程序或M儲部分18加栽到RAM (隨^取存儲器)13中的程序來執(zhí) 行各種處理。RAM 13還適當M儲用于CPU 11執(zhí)行各種處理所需的數(shù) 據(jù)。
CPU 11、 ROM 12和RAM 13通過總線14相互連接。輸^/輸出接口 15也連接到總線14。
包括鍵盤、鼠標等的輸入部分16,包括LCD (液晶顯示器)等的輸 出部分17,包括硬盤等的存儲部分18,以及通過因特網(wǎng)3與用戶終端2 進行通信的通信部分19被連接到輸V輸出接口 15。
驅(qū)動器20也連接到輸V輸出接口 15。包括光盤、半導體存儲器等的 可移動介質(zhì)21被適當?shù)匮b配于驅(qū)動器20,從可移動^h質(zhì)21中讀取的計 算M序才艮據(jù)需要被安裝在存儲部分18中。
圖3示出了內(nèi)M薦服務器1的功能配置框圖。通過由圖2中的 CPU11執(zhí)行預定的程序來實現(xiàn)圖3所示的功能塊的至少一部分。
如圖3所示,在內(nèi)轉(zhuǎn)薦服務器1中,實現(xiàn)了內(nèi)容信息存儲部分31、 內(nèi)容推薦部分32、推薦理由生成部分33和顯示數(shù)據(jù)生成部分34。
內(nèi)容信息存儲部分31存儲內(nèi)容的信息。內(nèi)^#薦部分32參考存儲在 內(nèi)容信息存儲部分31中的信息,用以選擇要推薦的內(nèi)容。
例如,對于通過電視播送或通過因特網(wǎng)3播送來廣播的每個內(nèi)容,內(nèi) 容標題、內(nèi)容類別、摘要、播送日期和時間、頻道號、顯示內(nèi)容細節(jié)的信 息被存儲在內(nèi)容信息存儲部分31中。
內(nèi)^!^薦部分32參考存儲在內(nèi)容信息存儲部分31中的信息來選擇推 薦內(nèi)容。例如,內(nèi)M薦部分32從用戶終端2獲取用戶的查看歷史和記 錄歷史,并基于用戶終端2的用戶的喜好來選擇推薦內(nèi)容,以便選擇與用
戶經(jīng)常查看和記錄的內(nèi)容的類別相同類別的內(nèi)容,以;sj^擇具有與用戶經(jīng)
常查看和記錄的內(nèi)容的表演者相同的表演者的內(nèi)容。對于用于推薦內(nèi)容的 算法,可以釆用與日本未經(jīng)審查的專利申請公開No.2005-176404中公開 的技術的相同的技術。
內(nèi)^薦部分32將選擇的推薦內(nèi)容的信息輸出給推薦理由生成部分 33和顯示數(shù)據(jù)生成部分34。例如,內(nèi)M薦部分32將所推薦的內(nèi)容的標 題、副標題、表演者的名稱(摘要)、細節(jié)中的每一個項目的信息輸出給 推薦理由生成部分33和顯示數(shù)據(jù)生成部分34。每一個項目的信息均為包 括字符串的信息。
推薦理由生成部分33從包括由內(nèi)M薦部分32提供的字符串的文本 文件中提取預定數(shù)量的短語,并將所提取的短語作為推薦理由輸出給顯示 數(shù)據(jù)生成部分34。
顯示數(shù)據(jù)生成部分34基于從內(nèi)容推薦部分32提供的文本文件和從推 薦理由生成部分33提供的推薦理由,生成用于顯示推薦屏的數(shù)據(jù)。顯示 數(shù)據(jù)生成部分34控制通信部分19將生成的數(shù)據(jù)傳送給用戶終端2,以便 向用戶終端2顯示推薦屏。在顯示于推薦屏上的信息中,基于從內(nèi)容推薦 部分32提供的文本文件,顯示推薦內(nèi)容的信息如標題、摘要等,并基于 從推薦理由生成部分33提供的短語,顯示推薦理由。
圖4示出了推薦理由生成部分33的配置的實例框圖。
如圖4所示,推薦理由生成部分33包括文本文件獲取部分41、形態(tài) 分析部分42、 ^!t管理部分43和短語4I^取部分44。
文本文件獲取部分41獲^內(nèi)^#薦部分32提供的每個項目的字符
串,并將包括所獲得字符串的文本文件設置為作為形態(tài)分析目標的文件。
形態(tài)分析部分42根據(jù)由參數(shù)管理部分43設置的文本成形 (text-shaping)規(guī)則,對由文本文件獲取部分41設置的文本文件進行成 形,并對通過成形所獲得的文本文件進行形態(tài)分析。形態(tài)分析部分42將 通過進行形態(tài)分析所獲得的語素串輸出^語提取部分44。對于形態(tài)分 ;析工具,例如可以寸吏用由Nara Institute of Science and Technology開發(fā)的 免費軟件ChaSen (http:〃chasen.naist.jp/hiki/ChaSen/)。
M管理部分43設置要用于由形態(tài)分析部分42進行的形態(tài)分析和由 短語提取部分44進行的短語提取的參數(shù)。例如,參數(shù)管理部分43設置五 個參數(shù)詞類連接模式(開始、繼續(xù)和結束)、每個詞類連接模式的權重、 段(segment)分隔符詞類、文本成形規(guī)則、以及短語禁止模式。
詞類連接模式表示構成要被提取的短語的各詞類(語素)的連接關系。
例如,詞類連接模式可以^^定為"Start (開始)=noun-general (名 詞-一般),Connect (連接)=*, End (結束)=noun-general",這表 示一個短語的連接從被分類為"noun-general"的語素開始,該一個短語 的連接通過任何詞類的語素繼續(xù),而該一個短語的連接通過被分類為 "noun-general"的語素結束。具體來說,當該詞類連接模式被注意到時, 如果要經(jīng)歷短語提取的文本文件包括字符串"...in front of a global-scale of disaster...",則包^L分類為"noun-general"詞類的"scale"、被分類 為"particle國adnominalization(小品詞-連體化)"詞類(在日語中)的"of*、 以;5L被分類為"noun-general"詞類的"disaster"的短語"scale of disaster" 被提取。
除了模式"Start=noun-general, Connect-*, End=noun-general" 之外,還設置了多個詞類連接模式。例如,模式"Start= noun-general, Connect=nouii-adjective verb stem (名詞-形容詞動詞詞干), End-noun國suffix畫sahen connection (名詞陽后綴國薩變(廿変)連接)"和模 式 "Start= noun-proper noun-general (名詞-專有名詞- 一 般), Connect=particle-adnominalization-general (小品詞-連體化- 一 般), End-noun-sahen connection (名詞誦薩變連接)"。除"*"之外,還可以4吏 用"and"、 "or"和"not"來規(guī)定詞類連接模式。此外,也可以對多個詞 類連接模式本身進行組合。
用于每個詞類連接模式的權重是要為每個詞類連接模式設置的權重。
可以通過內(nèi)^薦服務器1將詞類連接模式設置為固定值,或如下面所描 述的,可以通過已經(jīng)檢查了推薦理由短語的用戶的評價來優(yōu)化預先設置的 值。
對于包括具有與通過某一詞類連接模式表示的連接關系相同的連接 關系的語素的短語,賦予該短語的權重與賦予該詞類連接模式的權重相 同。短語的權重用于選擇要被顯示為推薦理由的短語,以及確定如何顯示 該短語。
段分隔符詞類是指對所有詞類連接模式通用的連接的結束。 一般而 言,句號或逗號(日語)被設置為段分隔符詞類。
文本成形規(guī)則是與形態(tài)分析目的相符的形態(tài)分析規(guī)則。對于文本成形
規(guī)則,設定以下規(guī)則從分析的目標中排除要成為形態(tài)分析目標的文本文 件中的括號內(nèi)的字符串。
短語禁止模式根據(jù)目的而設置,其表示不適于被最終提取的短語的詞 類連接模式。在作為具有與通過詞類連接模式所表示的連接關系相同連接 關系的語素來提取的短語之中,根據(jù)短語禁止模式,包括間隔符、標點等 的短語被排除。
這些參數(shù)由參數(shù)管理部分43來管理。在這些^lt中,文本成形規(guī)則 被設置在形態(tài)分析部分42中,詞類連接模式(開始、繼續(xù)和結束)、每個 詞類連接模式的權重、段分隔符詞類和短語禁止模式被設置在短語提取部 分44中。
短語提取部分44才艮據(jù)參數(shù)管理部分43設置的^lt,從通過由形態(tài)分 析部分42進行形態(tài)分析所獲得的語素串中提取要被用于推薦理由的短 語,并將所提取的短語輸出給顯示數(shù)據(jù)生成部分34。
接下來,將描述具有上述配置的內(nèi)容推薦服務器l的處理。
首先,參見圖5的流程圖,將描述內(nèi)^#薦服務器1進行內(nèi)^^薦的 處理。當用戶終端2請求內(nèi)容推薦時開始處理。
在步驟Sl中,內(nèi)#薦部分32參考存儲在內(nèi)容信息存儲部分31中 的信息來選擇推薦內(nèi)容。內(nèi)^#薦部分32將所選的推薦內(nèi)容的標題、副 標題、摘要、細節(jié)中的每一個項目的信息輸出給推薦理由生成部分33和 顯示數(shù)據(jù)生成部分34。
在步驟S2中,推薦理由生成部分33進行文本文件分析處理,并將通
成部分34。稍后將參考圖6的流程圖詳細描述文本文件分析處理。
在步驟S3中,顯示數(shù)據(jù)生成部分34基于由內(nèi)容推薦部分32提供的 文本文件和由推薦理由生成部分33提供的推薦理由,向用戶終端2顯示 推薦屏,然后結束處理。
接下來,參見圖6的流程圖,描述在圖5的步驟S2中進行的文本文 件分析處理。
在步驟Sll中,文本文件獲取部分41獲取由內(nèi)^#薦部分32提供的 每個項目的字符串,并將包括所獲得的標題、副標題、摘要和細節(jié)中每一 個項目的字符串的文本文件設置為形態(tài)分析的目標文件。
圖7示出了由文本文件獲^^部分41獲取的文本文件的實例圖。
在圖7的實例中,"AMATEUR BASEBALL, NUMBER ONE IN JAPAN CHAMPIONSHIP GAME"是"標題"項目的字符串,"KAMEARI TORTOISE x TODOU RABBITS"是"副標題"的字符串。也就是說, 圖7顯示了其標^! "AMATEUR BASEBALL, NUMBER ONE IN JAPAN CHAMPIONSHIP GAME"的內(nèi)^Mc選為推薦內(nèi)容的情況的實 例。
此外,在圖7的實例中," KAMEARI DOME COMMENTIWAKI MANAMI YAMADA TAROV"KAME WHIRLWINDFINAL STAGE"KAMEARI , ACHIEVE A LONG醒FELT WISH TO BE NUMBER ONE IN JAPSN FASTEST MAN DURUSHIMU VS ASIAN CANNONDAISANGEN, FATED FIGHT!(EXTENSION UNTIL END OF GAME, SUBSEQUENT PROGRAMS MIGHT BE POSTPONED OR CHANGED)"是"摘要"項目的字符串,"TO BE HELD AT KAMEARI DOME , EDO ATTENTION SHOULD ALSO BE FOCUSED ON ..." 是"細節(jié)"項目的字符串。
推薦理由的短語從這種文本文件中被提取出來。在這點上,要作為推 薦理由生成部分33中的分析目標的文本文件是一組句子,其包括內(nèi)容、 評論、說明等的描述,在因特網(wǎng)、出版物上發(fā)布的注釋、評論和一般用戶 的贊譽,其描述可以是任何格式。
返回到圖6的描述,在步驟S12中,參數(shù)管理部分43設置形態(tài)分析 部分42中的文本成形規(guī)則的參數(shù),并設置短語提取部分44中的詞類連接
模式(開始、繼續(xù)和結束)、每個詞類連接模式的權重、段分隔符詞類和 短語禁止模式的參數(shù)。
在步驟S13中,形態(tài)分析部分42根據(jù)由參數(shù)管理部分43設置的文本 成形規(guī)則,對由文本文件獲取部分41設置的文本文件進行成形,并對通 過成形獲得的文本文件進行形態(tài)分析。形態(tài)分析部分42將通過進行形態(tài) 分析獲得的語素串輸出g語提取部分44。
圖8和9示出了對圖7中的文本文件的形態(tài)分析的結果圖。
圖8和9示出了如果標題、副標題、摘要和細節(jié)中的每一個項目中的 字符串沒有通過句號結束,則添加句號,然后進行形態(tài)分析的情況下的結 果。作為形態(tài)分析的結果,文本文件被劃分成語素,諸如假名(日語音節(jié) 字母)、詞類、原始形態(tài)、變形等信息被添加到每個語素中。為了方便起 見,添加了圖8和9中左邊顯示的數(shù)字和":",它們不是作為形態(tài)分析的 結果獲得的。
圖8中的第一行到第五行示出了對圖7中的"標題"項目的字符串 "AMATEUR BASEBALL ,NUMBER ONE IN JAPAN CHAMPIONSHIP GAME"的分析結果。在該實例中,字符串被劃分成 語素"AMATEUR BASEBALL"、 "NUMBER ONE IN JAPAN"、 "CHAMPIONSHIP"和"GAME"。
"AMATEUR BASEBALL"和 "NUMBER ONE IN JAPAN"被分類為其詞類是"noun-general"的語 素,"CHAMPIONSHIP"(在此情況下,最初日語中的"kettei"(建立)) 被分類為其詞類是"noun-sahen connection"的語素,"GAME"被分類 為其詞類是"noun-suffix-general (名詞-后綴-一般)"的語素。
圖8中的第六行到第十二行示出了對圖7中的"副標題"項目的字符 串"KAMEARI TORTOISE x TODOU RABBITS"的分析結果。在該實 例中,字符串被劃分成語素"KAMEARI"、 "TORTOISE"、 "x", "TO"、
"DOU"和"RABBITS"。 "KAMEART,被分類為其詞類是"noun-proper noun-area-general (名詞-專有名詞-區(qū)域-一般)"的語素。"TORTOISE" 被分類為其詞類是"noun-proper noun-organization (名詞-專有名詞-組 織)"的語素。此外,"x"被分類為其詞類是"mark-general (記號-一般)" 的語素,"TO"被分類為其詞類是"noun-general"的語素,"DOU,,被分 類為其詞類是"noun-general"的語素,"RABBITS"被分類為其詞類是"unknown (未知)"的語素,
同樣,圖8中的第十三行到圖9中的第十行示出了對圖7中的"摘要" 項目的字符串" KAMEARI DOME COMMENTIWAKI MANAMI YAMADA TAROV"KAME WHIRLWINDFINAL STAGE',KAMEARI, ACHIEVE A LONG-FELT WISH TO BE NUMBER ONE IN JAPSN FASTEST MAN DURUSHIMU VS ASIAN CANNON.DAISANGEN, FATED FIGHT!"的分析結果。圖9中的第十一行及之后的行示出了對圖 7中的"細節(jié)"項目的字符串"TO BE HELD AT KAMEARI DOME, EDOATTENTION SHOULD ALSO BE FOCUSED ON ..."的分析結果。
通過形態(tài)分析獲得的這種語素串被從形態(tài)分析部分42提供^i語提 取部分44,用于提取短語。
返回到圖6的描述,在步驟S14中,短語提取部分44確定形態(tài)分析 部分42提供的語素中是否存在在確定短語的構成語素時未經(jīng)過分析的語 素。
如果在步驟S14中確定存在未經(jīng)過分析的語素,則在步驟S15中由 短語提取部分44注意一個未經(jīng)過分析的語素,并進行詞類連接短語分析 處理。稍后將參考圖10的流程圖詳細描述詞類連接短語分析處理。當對 所有語素進行了詞類連接短語分析處理時,所確定的預定數(shù)量的要輸出到 顯示數(shù)據(jù)生成部分34的短語被存儲在由短語提取部分44管理的緩沖器 中。
另一方面,如果在步驟S14中確定不存在未經(jīng)過分析的語素,則在步 驟S16中由短語提取部分44將存儲在緩沖器中的所確定的短語輸出給顯 示數(shù)據(jù)生成部分34。之后,處理返回到圖5中的步驟S2,進行隨后的處 理。
接下來,將參考圖10的流程圖來描述在圖6的步驟S15中進行的詞 類連接短語分才斤處理。圖10的處理是通過按出現(xiàn)順序注意各語素來進行 的。
在步驟S31中,短語提取部分44將詞類連接模式的給定值設置為0 以便例如用于初始化。在下面所描述的處理中,由短語提取部分44讀取 對應于當前給定值的詞類連接模式和每個詞類連接模式的權重。
圖11示出了詞類連接模式的給定值的實例圖。
各給定值被設置為用于由參數(shù)管理部分43設置的參數(shù)中包含的詞類 連接模式。在圖11的實例中,詞類連接模式l的給定值是"1",詞類連
接模式2的給定值是"2"。以同樣的方式為另一個詞類連接模式設置給定 值。
在步驟S32中,短語提取部分44將詞類連接模式的給定值增加1。
在步驟S33中,短語提取部分44確定是否存在對應于當前給定值的 詞類連接模式。例如,假i殳存在從圖11中的詞類連接模式1到對應于給 定值100的詞類連接模式100的詞類連接模式。如果當前給定值是100或 小于IOO,則確定存在對應于當前給定值的詞類連接模式;而如果當前給 定值大于100,則確定不存在對應于當前給定值的詞類連接模式。
在步驟S33中,如果確定存在對應于當前給定值的詞類連接模式,則 在步猓S34中,短語^^取部分44讀^f應于當前給定值的詞類連接模式 的M,即,規(guī)定詞類連接模式的語素的連接關系和用于每個詞類連接模 式的權重的信息。短語提取部分44通過按給定值的升序注意每個詞類連 接模式來分析短語。
圖12示出了各詞類連接模式的權重的實例圖。
在圖12中的實例中,為由"Start=noun-general, Connect- *, End=noun-generar規(guī)定的每個詞類連接模式賦予權重"0.332"。為由
"Start=noun-general, Connect= *, End=noun-adjective verb stem" 規(guī)定的每個詞類連接模式賦予權重"0.139 "。并且,為由
"Start=nouii-geiieral Connect=particle-adnominalization ,
End=noun-general"規(guī)定的每個詞類連接模式賦予權重"0.239"。
例如,如果對應于當前給定值的詞類連接模式是顯示在圖12頂部的 詞類連接模式,則讀取表示語素的連接關系"Start-noun-general, Connect- *, End-noun-general"和用于每個詞類連接模式的權重"0.332" 的信息。
在步驟S35中,短語提取部分44確定所注意的語素的詞類連接模式 是否是段分隔符詞類。
在步驟S35中,如果短語提取部分44確定所注意的語素的詞類連接 模式是段分隔符詞類,如句號或逗號,則短語提取部分44清除直到那時 存儲在緩沖器中的語素,并重復步驟S32以及之后的處理。也就是說,給 定值增加l,然后,對目前為止一直被注意的詞類連接模式的下一個詞類 連接模式給予注意,并重復相同的分析。
另一方面,在步驟S35中,如果短語提取部分44確定所注意的語素 的詞類連接模式不是段分隔符詞類,則在步驟S36中,短語4^取部分44 確定所注意的語素的詞類是否與由對應于當前給定值的詞類連接模式規(guī) 定的一個短語的開始語素的詞類相同。
例如,如果對應于當前給定值的詞類連接模式是由 "Start=noun-general , Connect-particle國adnominalization ,
End=noun-general"規(guī)定的,當所注意的語素;4被分類為"noun-general" 的語素時,則確定所注意的語素的詞類與由對應于當前給定值的詞類連接 模式規(guī)定的一個短語的開始語素的詞類相同。
在步驟S36中,如果確定所注意的語素的詞類與由對應于當前給定值 的詞類連接模式規(guī)定的一個短語的開始語素的詞類相同,則在步驟S37 中,短語提取部分44執(zhí)行詞類連接開始處理。在詞類連接開始處理中, 所注意的語素被存儲在緩沖器中,作為構成新的候選短語的開始語素。
在步驟S36中,如果確定所注意的語素的詞類與由對應于當前給定值 的詞類連接模式規(guī)定的一個短語的開始語素的詞類不相同,則跳過步驟 S37中的處理。
在步驟S38中,短語提取部分44確定所注意的語素的詞類是否與由 對應于當前給定值的詞類連接模式規(guī)定的一個短語的繼續(xù)語素的詞類相 同。
例如,如果對應于當前給定值的詞類連接模式是由 "Start=noun-general , Connect=particle-adnominalization ,
End=noun-general "規(guī)定的,當所注意的語素是被分類為 "particle-adnominalization"的語素時,則確定所注意的語素的詞類與由
對應于當前給定值的詞類連接模式規(guī)定的一個短語的繼續(xù)語素的詞類相同。
在步驟S38中,如果確定所注意的語素的詞類與由對應于當前給定值 的詞類連接模式規(guī)定的一個短語的繼續(xù)語素的詞類相同,則在步驟S39 中,短語提取部分44執(zhí)行詞類連接繼續(xù)處理。在詞類連接繼續(xù)處理中, 所注意的語素被存儲為結合到通過詞類連接開始處理而被存儲在緩沖器 中的語素。
在步驟S38中,如果確定所注意的語素的詞類與由對應于當前給定值 的詞類連接模式規(guī)定的一個短語的繼續(xù)語素的詞類不相同,則跳過步驟
S39中的處理。
在步驟S40中,短語提取部分44確定所注意的語素的詞類是否與由 對應于當前給定值的詞類連接模式規(guī)定的一個短語的結束語素的詞類相 同。
例如,如果對應于當前給定值的詞類連接模式是由 "Start=noun-general , Connect=particle-adnominalization ,
End=noun-general"規(guī)定的,當所注意的語素是被分類為"noun-general" 的語素時,則確定所注意的語素的詞類與由對應于當前給定值的詞類連接 模式規(guī)定的一個短語的結束語素的詞類相同。
在步驟S40中,如果確定所注意的語素的詞類與由對應于當前給定值 的詞類連接模式規(guī)定的一個短語的結束語素的詞類相同,則在步驟S41 中,短語提取部分44執(zhí)行詞類連接結束處理。在詞類連接結束處理中, 所注意的語素被存儲為結合到通過詞類連接繼續(xù)處理而被存儲在緩沖器 中的語素,然后被臨時提取,并且只有在所提取的語素的詞類連接模式不 是作為短語禁止模式被排除的模式的情況下,才作為確定的短語被存儲在
緩沖器中。
如果在步驟S41中執(zhí)行詞類連接結束處理,或者如果在步驟S40中 確定所注意的語素的詞類與由對應于當前給定值的詞類連接模式規(guī)定的 一個短語的結束語素的詞類不相同,則重復步驟S32和之后的處理。
當已經(jīng)分析了所有詞類連接模式之后在步驟S33中確定不存在對應 于當前給定值的詞類連接模式時,則處理返回到圖6中的步驟S15,并重 復隨后的處理。也就是說,如果存在未經(jīng)過分析的語素,則按照出現(xiàn)順序 注意下一個語素,并執(zhí)行圖10中的上述處理。
當通過注意所有語素而執(zhí)行了圖10中的處理時,存儲在緩沖器中的 確定的短語被從短語4^取部分44輸出給顯示數(shù)據(jù)生成部分34。
圖13示出了所確定的短語的實例圖。
在圖13的實例中,所確定的短語是"HOME-RUN RECORD IN ASIAN AMATEUR BASEBALL"、 "LEAGUE CHAMPIONSHIP,,、
"HOME-RUN RECORD IN AMATEUR BASEBALL" 、 " TEAM MANAGER" 、 "CONFRONTATION OF SKIIXED MANAGERS",
"AMATEUR BASEBALL WORLD CHAMPIONSHIP",、和"SINCE 1997"。
例如,"AMATEUR BASEBALL WORLD CHAMPIONSHIP"是所 確定的短語,包括被分類為"noun-general"的語素"AMATEUR BASEBALL"、被分類為"noun-suffix-general (名詞-后綴-一般)"的語 素 "WORLD "和被分類為 "noun-sahen connection " 的語素 "CHAMPIONSHIP",該短語^J^予權重"0.375",該權重是與為詞類 連接模式 "Start=noun-general , Connect=noun-suffix-general , End-noun-sahen connection" i殳置的權重相同的用于詞類連接模式的權 重。同樣,根據(jù)構成短語的語素的連接關系,給其他確定的短語賦予權重。
在已經(jīng)獲得了這些具有權重的確定短語的顯示數(shù)據(jù)生成部分34中, 例如只有其權重大于閾值的確定短語才被選為推薦理由,或者,只有預定
數(shù)量的按權重降序的確定短語才被選為推薦理由。所選擇的推薦理由連同 推薦的內(nèi)容的信息被顯示到推薦屏上。
圖14示出了要由執(zhí)行上述處理的內(nèi)M薦服務器1顯示到戶終端2 上的推薦屏的實例圖。
如果用戶終端2是配備有顯示器的設備如PC (個人計算機)、移動電 話等,則推薦屏基于從內(nèi)容推薦服務器1傳送的信息而被顯示在顯示器 上。另一方面,如果用戶終端2^1要被連接到顯示器的i殳備,如硬盤記錄 器,則推薦屏基于從內(nèi)容推薦服務器1傳遞的信息而被顯示在與設備連接 的顯示器上。
如上所述,如果其標J^i"AMATEUR BASEBALL, NUMBER ONE IN JAPAN CHAMPIONSHIP GAME"的內(nèi)^L選為推薦內(nèi)容,如圖14 所示,則推薦內(nèi)容的標題"AMATEUR BASEBALL, NUMBER ONE IN JAPAN CHAMPIONSHIP GAME"被顯示在推薦屏上,副標題 "KAMEARI TORTOISE x TODOU RABBITS"顯示在標題之下.
在副標題的下面,顯示了評論員的姓名等,即"-KAMEARIDOME COMMENTIWAKI MANAMI YAMADA TAROV"KAME WHIRLWINDFINAL STAGE "KAMEARI, ACHIEVE A LONG-FELT WISH TO BE NUMBER ONE IN JAPSN FASTEST MAN DURUSHIMU VS ASIAN CANNON.DAISANGEN , FATED FIGHT!(EXTENSION UNTIL END OF GAME , SUBSEQUENT PROGRAMS MIGHT BE POSTPONED OR CHANGED)"。在其下面, 顯示了作為節(jié)目內(nèi)容的"...TO BE HELD AT KAMEARI DOME, EDO ATTENTION SHOULD ALSO BE FOCUSED ON ..."。
基于從內(nèi)^#薦部分32提供給顯示數(shù)據(jù)生成部分34的"標題"項目 的字符串來顯示"AMATEUR BASEBALL, NUMBER ONE IN JAPAN CHAMPIONSHIP GAME"。基于從內(nèi)^#薦部分32提供給顯示數(shù)據(jù)生 成部分34的"副標題"項目的字符串來顯示"KAMEARI TORTOISE x TODOU RABBITS".
根據(jù)從內(nèi)容推薦部分32提供給顯示數(shù)據(jù)生成部分34的"摘要"項目 的字符串來顯示" KAMEARI DOME COMMENT.IWAKI MANAMI YAMADA TAROV"KAME WHIRLWINDFINAL STAGE "KAMEARI , ACHIEVE A LONG-FELT WISH TO BE NUMBER ONE IN JAPSN FASTEST MAN DURUSHIMU VS ASIAN CANNONDAISANGEN, FATED FIGHT!(EXTENSION UNTIL END OF GAME , SUBSEQUENT PROGRAMS MIGHT BE POSTPONED OR CHANGED)".根據(jù)從內(nèi)容 推薦部分32提供給顯示數(shù)據(jù)生成部分34的"細節(jié)"項目的字符串來顯示 "...TO BE HELD AT KAMEARI DOME, EDO……ATTENTION SHOULD ALSO BE FOCUSED ON"。
在節(jié)目內(nèi)容的下面,在左邊列中顯示了作為"AMATEUR BASEBALL , NUMBER ONE IN JAPAN CHAMPIONSHIP GAME"的 推薦理由的短語"HOME-RUN RECORD IN ASIAN AMATEUR BASEBALL" 、 "LEAGUE CHAMPIONSHIP" 、 "HOME-RUN RECORD IN AMATEUR BASEBALL"、...、以及"FASTEST MAN IN BASEBALL"。 在右邊列中顯示了短語"FINAL STAGE", "FASTEST MAN"、
"KAMEARI TORTOISE"....."LONG-WISHED NUMBER ONE IN
JAPAN"。
基于從推薦理由生成部分33提供給顯示數(shù)據(jù)生成部分34的確定短語 來顯示推薦理由。
如果在考慮用戶喜好的情況下選"^推薦內(nèi)容,則選自關于推薦內(nèi)容的 文本文件的特征表達和措詞的短語可以是涉及用戶喜好的短語。這樣,那 些短語可以用作推薦理由。
關于這一點,在圖14中的實例中,在顯示為推薦理由的短語之中, 存在以大字符顯示的短語和以小字符顯示的短語。這是因為短語的權重存 在差異。短語的權重越重,短語被顯示的尺寸就越大,以〗更作為重JMi語 引起用戶關注。
如上所述,內(nèi)容推薦服務器l可以提取短語。此外,還可以通過將所 提取的短語添加為推薦理由來推薦內(nèi)容。相應地,可以提高用戶對系統(tǒng)的 接受度,并給用戶提供對更多內(nèi)容發(fā)生興趣的機會。
此外,可以根據(jù)詞類連接關系對文本文件進行分析,以提取短語。這 樣,與通過自然語言處理來提取短語的情況相比,可以降低時間成本和系
統(tǒng)成本。相應地,可以在具有較低恥格的PC或CE (消費電子設備)電 器上實現(xiàn)短語提取功能。
這里,將對根據(jù)已經(jīng)檢查了短語的推薦理由的用戶的評價來進行權重 優(yōu)化進行描述。例如,已經(jīng)檢查了短語的推薦理由的用戶可以評價關于各 個短語的語素分隔符的適當性、推薦理由的適當性等。
用戶的評g良映在短語的權重上,即短語的詞類連接模式的權重。 對于每個詞類連接模式,被肯定評價的短語的詞類連接模式被設置為具有 較大的權重。相反,對于每個詞類連接模式,被負面評價的短語的詞類連 接模式被設置為具有較小的權重。在反映了用戶的評價之后,具有較大權 重的詞類連接模式的短語易于被選為推薦理由,具有較小權重的詞類連接 模式的短語變得難以被選為推薦理由。
圖15示出了短語的評價屏的實例圖。
當用戶在推薦屏被顯示的狀態(tài)下執(zhí),定操作時,圖15所示的評價 屏被顯示在用戶終端2上。
在圖15的評價屏中,每一行都具有數(shù)字,每一列都具有字母表的字 母。在具有F列和編號為1886或更大的行的每個域中,顯示了用作推薦 理由的短語。在每個短語的右側(cè),各域被安排為用于輸入對短語的評價。 例如,如果劃分適當,則輸入預定評價值如l,如果推薦理由適當,則輸 入預定評價值如l。
使用圖15所示的評價屏輸入的用戶評價被從用戶終端2傳送到內(nèi)容 推薦服務器l,用于優(yōu)化短語的權重。
內(nèi)容推薦服務器l可以通過收集和增加由大量用戶對從大量文本文 件中提取的短語進行的評價,使用統(tǒng)計度量來計算短語的權重。例如,使 用信息提取域中所使用的精度、檢索(recall)率和F度量來確定權重, 如下所述。
按如下方式獲取某一短語的精度(詞類連接模式的精度)。
某一詞類連接模式的精度=(通過詞類連接模式提取的短語被評價為 適當?shù)拇螖?shù))/ (通過詞類連接模式提取的短語的總數(shù))
按如下方式獲取某一短語的檢索率(詞類連接模式的檢索率R )。
詞類連接模式的檢索率=(通過詞類連接模式提取的短語被評價為適 當?shù)拇螖?shù))/ (整個文本文件中被評價為適當?shù)亩陶Z的總數(shù))
按如下方式獲取某一短語的F度量(詞類連接模式的F度量)。
詞類連接模式的F度量省度和檢索率的調(diào)和平均值
調(diào)和平均值通過2PB/(P+R)獲得,其中,P為精度,R為檢索率。
使用這種度量,可以動態(tài)地更新短語的權重。短語的更新的權重(每 個詞類連接模式的權重)由參數(shù)管理部分43進行管理。
此外,通過使用每個用戶的評價而不是使用大量用戶的評價來更新短 語的權重,可以定制可能被顯示給每個用戶的短語的詞類連接模式。
關于這一點,可以根據(jù)內(nèi)容的類別來改進短語權重的設置。
用戶的評價可以不使用如圖15所示的評價屏來完成。用戶的評價可 以根據(jù)在如圖14所示的推薦屏中對用戶喜歡的短語的點擊而內(nèi)部地實 現(xiàn)。
在上文中,已經(jīng)描述了推薦電視節(jié)目的情況。然而,在推薦其它內(nèi)容 如音樂內(nèi)容、靜止圖像內(nèi)容等的情況下,也可以應用上述處理。
此外,也可以推薦與來自提取的短語的短語相關的完全不同的內(nèi)容。
在上文中,推薦內(nèi)容的選#^推薦理由短語的提取是由內(nèi)^#薦服務 器1來執(zhí)行的。然而,選擇和提取也可以由用戶所使用的終端如用戶終端 2來執(zhí)行。在此情況下,對于已經(jīng)從因特網(wǎng)3上的預定服務器下栽的關于 推薦內(nèi)容的文本文件,提取要作為推薦理由的短語。
上述一系列處理可以通過硬件執(zhí)行,也可以通過軟件執(zhí)行。當通過軟 件執(zhí)行這一系列處理時,構成軟件的程序被內(nèi)置在計算機的專用硬件中。 可替選地,各種程序例如被安裝在通用個人計算機等中,該通用個人計算 機能夠執(zhí)行來自程序記錄介質(zhì)中的各種功能。
要安裝的程序被記錄在圖2所示的可移動介質(zhì)21中,可移動介質(zhì)是 光盤(包括CD-ROM (壓縮光盤-只讀存儲器)、DVD (數(shù)字通用光盤) 等)或半導體存儲器等。可替選地,可以通過有線傳輸或無線傳輸如局域
網(wǎng)、因特網(wǎng)、數(shù)字衛(wèi)星廣播等來提供程序。此外,程序可以被預先安^
ROM 12中或存儲部分18中。
關于這一點,由計算積i執(zhí)行的程序可以是按與本說明書中所描述的順 序一致的時間序列來處理的程序。程序還可以是并行地執(zhí)行或在所需的時 間如在被調(diào)用等時執(zhí)行的程序。
本發(fā)明的實施例不僅限于上述實施例,在不偏離本發(fā)明的精神和范圍 的情況下,可以進行各種修改。
權利要求
1. 一種信息處理設備,包括:形態(tài)分析裝置,用于對文本文件進行形態(tài)分析;管理裝置,用于管理表示預定詞類的語素的連接關系的連接模式;以及提取裝置,用于從通過由形態(tài)分析裝置進行形態(tài)分析而獲得的語素串中提取短語,該短語包括具有與由管理裝置管理的連接模式所表示的連接關系相同的連接關系的多個語素。
2. 根據(jù)權利要求1所述的信息處理設備,其中,管理裝置管理每個連接模式的權重;以及提取裝置根據(jù)表示包含在短語中的語素的連接關系的連接模式來給 所提取的短語賦予權重。
3. 根據(jù)權利要求2所述的信息處理設備,還包括 推薦裝置,用于選擇要推薦給用戶的內(nèi)容;以及顯示控制裝置,用于將由推薦裝置選擇的內(nèi)容的信息顯示給用戶使用 的信息處理終端;其中,形態(tài)分析裝置對與由推薦裝置選擇的內(nèi)容有關的文本文件進行 形態(tài)分析;提取裝置從通過形態(tài)分析裝置對與由推薦裝置選擇的內(nèi)容有關的文 本文件進行形態(tài)分析所獲得的語素串中提取短語;以及顯示控制裝置進一步將由提取裝置提取的短語顯示為內(nèi)容的推薦理由。
4. 根據(jù)權利要求3所述的信息處理設備,其中,顯示控制裝置基于由提取裝置向各短語賦予的權重來選擇要顯 示為內(nèi)容的推薦理由的短語。
5. 根據(jù)權利要求3所述的信息處理設備,其中,管理裝置根據(jù)已經(jīng)檢查了通過顯示控制裝置顯示為內(nèi)容的推薦 理由的短語的用戶的評價來更新和管理每個連接模式的權重。
6. —種處理信息的方法,包括下列步驟 對文本文件進行形態(tài)分析;管理表示預定詞類的語素的連接關系的連接模式;以及從通過由執(zhí)行形態(tài)分析的步驟進行形態(tài)分析所獲得的語素串中提取 短語,該短語包括具有與由所管理的連接模式表示的連接關系相同的連接 關系的多個語素。
7. —種用于使計算機執(zhí)行包括下列步驟的處理的程序?qū)ξ谋疚募M行形態(tài)分析;管理表示預定詞類的語素的連接關系的連接模式;以及短語,該短語包括具有與由所管理的連接模式表示的連接關系相同的連接 關系的多個語素。
全文摘要
一種信息處理設備,包括形態(tài)分析裝置,用于對文本文件進行形態(tài)分析;管理裝置,用于管理表示預定詞類的語素的連接關系的連接模式;以及提取裝置,用于從通過由形態(tài)分析裝置進行形態(tài)分析而獲得的語素串中提取短語,該短語包括具有與由管理裝置管理的連接模式所表示的連接關系相同的連接關系的多個語素。
文檔編號G06F17/27GK101382946SQ20081014758
公開日2009年3月11日 申請日期2008年9月3日 優(yōu)先權日2007年9月5日
發(fā)明者宮嵜充弘 申請人:索尼株式會社