信息處理設(shè)備,信息處理方法和程序的制作方法
【專利摘要】本發(fā)明涉及信息處理設(shè)備,信息處理方法和程序。所述信息處理設(shè)備包括語句提取單元,特征提取單元,聚類單元,關(guān)聯(lián)語句提取單元和輸出單元。語句提取單元從多個(gè)文檔中提取多個(gè)語句。特征提取單元在相互區(qū)分具有相同文字表示的語句的同時(shí),提取所提取的各個(gè)語句的特征量。聚類單元在相互區(qū)分具有相同文字表示的語句的同時(shí),把提取的各個(gè)語句聚類在一起,并計(jì)算把各個(gè)語句相對(duì)于2個(gè)或更多的各個(gè)聚類的歸屬度作為分量的歸屬度向量。關(guān)聯(lián)語句提取單元在相互區(qū)分具有相同文字表示的語句的同時(shí),提取歸屬度向量與提供的輸入語句的歸屬度向量類似的關(guān)聯(lián)語句。輸出單元輸出關(guān)聯(lián)語句和用于識(shí)別關(guān)聯(lián)語句的識(shí)別信息。
【專利說明】信息處理設(shè)備,信息處理方法和程序
[0001]相關(guān)申請(qǐng)的引用
[0002]本申請(qǐng)要求2013年8月13日提交的日本專利申請(qǐng)JP2013-168259的優(yōu)先權(quán),該申請(qǐng)的整個(gè)內(nèi)容在此引為參考。
【技術(shù)領(lǐng)域】
[0003]本技術(shù)涉及信息處理設(shè)備,信息處理方法和程序,尤其涉及搜索關(guān)聯(lián)語句的信息處理設(shè)備,信息處理方法和程序。
【背景技術(shù)】
[0004]在現(xiàn)有技術(shù)中,已知根據(jù)賦予內(nèi)容的元數(shù)據(jù),搜索和推薦適合于用戶的偏好的內(nèi)容的技術(shù)(例如,參見日本專利申請(qǐng)公開N0.2007-026425)。在這種推薦技術(shù)中,根據(jù)表示各個(gè)語句的特征的特征量向量的相似性,搜索與包含在元數(shù)據(jù)中的語句相關(guān)的關(guān)聯(lián)語句(related express1n)。
【發(fā)明內(nèi)容】
[0005]然而,在現(xiàn)有技術(shù)中,文字表示(notat1n)相同的語句被視為一個(gè)語句,即使它們具有多種含義。于是,在作為與元數(shù)據(jù)相關(guān)的語句而搜索的關(guān)聯(lián)語句包括適合于用戶的偏好的含義,和不適合于用戶的偏好的含義的情況下,難以相互區(qū)分地處理關(guān)聯(lián)語句。
[0006]鑒于以上情況,理想的是改善處理關(guān)聯(lián)語句的搜索結(jié)果的便利性。
[0007]按照本技術(shù)的實(shí)施例的信息處理設(shè)備包括語句提取單元,特征提取單元,聚類單元,關(guān)聯(lián)語句提取單元和輸出單元。語句提取單元被配置成從多個(gè)文檔中提取多個(gè)語句。特征提取單元被配置成在相互區(qū)分具有相同文字表示的語句的同時(shí),提取所提取的各個(gè)語句的特征量。聚類單元被配置成在相互區(qū)分具有相同文字表示的語句的同時(shí),把提取的各個(gè)語句聚類在一起,并計(jì)算把各個(gè)語句相對(duì)于2個(gè)或更多的各個(gè)聚類的歸屬度(assignmentdegree)作為分量的歸屬度向量。關(guān)聯(lián)語句提取單元被配置成在相互區(qū)分具有相同文字表示的語句的同時(shí),提取歸屬度向量與提供的輸入語句的歸屬度向量類似的關(guān)聯(lián)語句。輸出單元被配置成輸出關(guān)聯(lián)語句和用于識(shí)別關(guān)聯(lián)語句的識(shí)別信息。
[0008]輸出單元還輸出關(guān)聯(lián)語句的歸屬度向量和/或表示關(guān)聯(lián)語句與輸入語句之間在歸屬度向量方面的相似性的分?jǐn)?shù)。
[0009]信息處理設(shè)備還包括同義詞提取單元,所述同義詞提取單元被配置成把具有相同文字表示的關(guān)聯(lián)語句的分?jǐn)?shù)相加,并提取其分?jǐn)?shù)較高的關(guān)聯(lián)語句,作為輸入語句的同義詞。
[0010]同義詞提取單元可按照分?jǐn)?shù),加權(quán)并相加具有相同文字表示的關(guān)聯(lián)語句的歸屬度向量,當(dāng)提取的同義詞的歸屬度向量具有規(guī)定閾值以上的分量時(shí),對(duì)于對(duì)應(yīng)于規(guī)定閾值以上的分量的每個(gè)聚類,把同義詞分成多個(gè)部分。
[0011]信息處理設(shè)備還包括推薦單元,所述推薦單元被配置成向用戶推薦項(xiàng)目。關(guān)聯(lián)語句提取單元可提取與推薦項(xiàng)目相關(guān)的關(guān)鍵詞的關(guān)聯(lián)語句,推薦單元可把關(guān)鍵詞的關(guān)聯(lián)語句連同推薦項(xiàng)目一起呈現(xiàn)給用戶。
[0012]推薦單元可把關(guān)鍵詞的關(guān)聯(lián)語句的特征量連同推薦項(xiàng)目一起呈現(xiàn)給用戶。
[0013]信息處理設(shè)備還可包括被配置成向用戶推薦項(xiàng)目的推薦單元。關(guān)聯(lián)語句提取單元可提取包含在用戶的特征量或者項(xiàng)目的特征量中的關(guān)鍵詞的關(guān)聯(lián)語句,推薦單元可把關(guān)鍵詞的關(guān)聯(lián)語句追加到用戶的特征量或項(xiàng)目的特征量中。
[0014]推薦單元還把關(guān)鍵詞的關(guān)聯(lián)語句的特征量追加到用戶的特征量或項(xiàng)目的特征量中。
[0015]當(dāng)提供多個(gè)輸入語句時(shí),關(guān)聯(lián)語句提取單元可提取語句作為關(guān)聯(lián)語句,所述語句具有與通過把多個(gè)輸入語句的歸屬度向量加在一起而獲得的向量,或者通過對(duì)于每個(gè)分量把多個(gè)輸入語句的歸屬度向量相乘而獲得的向量類似的歸屬度向量。
[0016]識(shí)別信息可表示從中提取關(guān)聯(lián)語句的文檔以及文檔中的位置。
[0017]語句的特征量可包括從從中提取語句的文檔中的語句的附近提取的語句。
[0018]按照本技術(shù)的另一個(gè)實(shí)施例的信息處理方法包括:從多個(gè)文檔中提取多個(gè)語句;在相互區(qū)分具有相同文字表示的語句的同時(shí),提取所提取的各個(gè)語句的特征量;在相互區(qū)分具有相同文字表示的語句的同時(shí),把提取的各個(gè)語句聚類在一起,并計(jì)算把各個(gè)語句相對(duì)于2個(gè)或更多的各個(gè)聚類的歸屬度作為分量的歸屬度向量;在相互區(qū)分具有相同文字表示的語句的同時(shí),提取歸屬度向量與提供的輸入語句的歸屬度向量類似的關(guān)聯(lián)語句;和輸出關(guān)聯(lián)語句和用于識(shí)別關(guān)聯(lián)語句的識(shí)別信息。
[0019]按照本技術(shù)的另一個(gè)實(shí)施例的程序使計(jì)算機(jī)執(zhí)行處理,所述處理包括:從多個(gè)文檔中提取多個(gè)語句;在相互區(qū)分具有相同文字表示的語句的同時(shí),提取所提取的各個(gè)語句的特征量;在相互區(qū)分具有相同文字表示的語句的同時(shí),把提取的各個(gè)語句聚類在一起,并計(jì)算把各個(gè)語句相對(duì)于2個(gè)或更多的各個(gè)聚類的歸屬度作為分量的歸屬度向量;在相互區(qū)分具有相同文字表示的語句的同時(shí),提取歸屬度向量與提供的輸入語句的歸屬度向量類似的關(guān)聯(lián)語句;和輸出關(guān)聯(lián)語句和用于識(shí)別關(guān)聯(lián)語句的識(shí)別信息。
[0020]在本技術(shù)的實(shí)施例中,從多個(gè)文檔中提取多個(gè)語句,在相互區(qū)分具有相同文字表示的語句的同時(shí),提取所提取的各個(gè)語句的特征量,在相互區(qū)分具有相同文字表示的語句的同時(shí),把提取的各個(gè)語句聚類在一起,并計(jì)算把各個(gè)語句相對(duì)于2個(gè)或更多的各個(gè)聚類的歸屬度作為分量的歸屬度向量,在相互區(qū)分具有相同文字表示的語句的同時(shí),提取歸屬度向量與提供的輸入語句的歸屬度向量類似的關(guān)聯(lián)語句,并輸出關(guān)聯(lián)語句和用于識(shí)別關(guān)聯(lián)語句的識(shí)別信息。
[0021]按照本技術(shù)的實(shí)施例,能夠在相互區(qū)分具有相同文字表示的語句的同時(shí),搜索關(guān)聯(lián)語句。結(jié)果,改善了處理關(guān)聯(lián)語句的搜索結(jié)果的便利性。
[0022]根據(jù)如在附圖中圖解說明的本公開的最佳實(shí)施例的以下詳細(xì)說明,本公開的這些和其它目的、特征和優(yōu)點(diǎn)將變得更明顯。
【專利附圖】
【附圖說明】
[0023]圖1是表示本技術(shù)適用于的信息處理設(shè)備的實(shí)施例的方框圖;
[0024]圖2是說明語句數(shù)據(jù)收集處理的流程圖;
[0025]圖3是表示文檔的例子的示圖;
[0026]圖4是表示語句特征量DB的結(jié)構(gòu)例子的示圖;
[0027]圖5是表示聚類結(jié)果DB的結(jié)構(gòu)例子的示圖;
[0028]圖6是說明關(guān)聯(lián)語句搜索處理的第一實(shí)施例的流程圖;
[0029]圖7是表示關(guān)聯(lián)語句的搜索結(jié)果的例子的示圖;
[0030]圖8是說明關(guān)聯(lián)語句搜索處理的第二實(shí)施例的流程圖;
[0031]圖9是說明關(guān)聯(lián)語句搜索處理的第三實(shí)施例的流程圖;
[0032]圖10是表示合并具有相同文字表示的關(guān)聯(lián)語句的例子的示圖;
[0033]圖11是說明同義詞提取處理的流程圖;
[0034]圖12是說明同義詞提取處理的具體例子的示圖;
[0035]圖13是說明推薦處理的流程圖;
[0036]圖14是說明推薦處理的具體例子的示圖;
[0037]圖15是說明特征量擴(kuò)充處理的流程圖;
[0038]圖16是說明推薦處理的例子的示圖;
[0039]圖17是說明特征量擴(kuò)充處理的具體例子的示圖;
[0040]圖18是表示計(jì)算機(jī)的結(jié)構(gòu)例子的方框圖。
【具體實(shí)施方式】
[0041]下面說明實(shí)現(xiàn)本技術(shù)的實(shí)施例(下面稱為實(shí)施例)。注意,將按照以下順序進(jìn)行說明。
[0042]1.實(shí)施例
[0043]2.變形例
[0044]1.實(shí)施例
[0045](信息處理設(shè)備11的結(jié)構(gòu)例子11)
[0046]圖1是表示本技術(shù)適用于的信息處理設(shè)備11的實(shí)施例的方框圖。
[0047]信息處理設(shè)備11把從包括多個(gè)文檔的文檔組中提取的多個(gè)語句聚類在一起,以便保留。另外,信息處理設(shè)備11從保留的語句中,搜索與給定的輸入語句相關(guān)的關(guān)聯(lián)語句。此外,信息處理設(shè)備11利用關(guān)聯(lián)語句的搜索結(jié)果,進(jìn)行各種處理。
[0048]注意,由信息處理設(shè)備11處理的語句是由字符、符號(hào)等構(gòu)成的語句,每個(gè)語句不僅包括單個(gè)詞,而且包括把多個(gè)詞結(jié)合在一起的短語,等等。
[0049]信息處理設(shè)備11包括搜索處理單元21和應(yīng)用單元22。
[0050]搜索處理單元21把從文檔組中提取的語句聚類在一起,以便保留,從保留的語句中搜索與輸入語句相關(guān)的關(guān)聯(lián)語句,并把搜索結(jié)果輸出給應(yīng)用單元22。
[0051]搜索處理單元21包括語句提取單元31,特征提取單元32,語句特征量數(shù)據(jù)庫(DB) 33,聚類單元34,聚類結(jié)果數(shù)據(jù)庫(DB) 35,關(guān)聯(lián)語句提取單元36和輸出單元37。
[0052]語句提取單元31提取包含在文檔組中的語句,并把語句的提取結(jié)果和作為提取源的文檔組提供給特征提取單元32。注意,盡管語句提取單元31從中提取語句的文檔沒有特別的限制,不過所述文檔可包括例如因特網(wǎng)網(wǎng)站等上的在可訪問狀態(tài)下,向公眾公開的各種文檔。
[0053]特征提取單元32計(jì)算利用語句提取單元31提取的各個(gè)語句的特征量,并把各個(gè)語句和特征量保存在語句特征量DB 33中。
[0054]聚類單元34把保存在語句特征量DB 33中的各個(gè)語句聚類在一起。隨后,聚類單元34計(jì)算由各個(gè)語句相對(duì)于2個(gè)或者更多的指定聚類的歸屬度構(gòu)成的歸屬度向量,并將其保存在聚類結(jié)果DB 35中。
[0055]關(guān)聯(lián)語句提取單元36利用聚類結(jié)果DB 35,提取與輸入語句或包括多個(gè)輸入語句的輸入語句組相關(guān)的關(guān)聯(lián)語句,并將其提供給輸出單元37。
[0056]輸出單元37把提取的包括關(guān)聯(lián)語句組的關(guān)聯(lián)語句的搜索結(jié)果,輸出給應(yīng)用單元22。
[0057]注意如后所述,搜索處理單元21的各個(gè)單元在相互區(qū)分具有相同文字表示的語句的同時(shí),作為不同語句地處理所述具有相同文字表示的語句。
[0058]如后所述,應(yīng)用單元22利用關(guān)聯(lián)語句的搜索結(jié)果和語句特征量DB33,進(jìn)行各種處理。應(yīng)用單元22包括同義詞提取單元41和推薦單元42。
[0059]同義詞提取單元41根據(jù)關(guān)聯(lián)語句的搜索結(jié)果,提取某些語句的同義詞,并將其登記在同義詞詞典中。
[0060]推薦單元42通過諸如因特網(wǎng)(未圖示)之類的網(wǎng)絡(luò),向用戶操作的客戶端推薦項(xiàng)目。另外,通過利用搜索處理單元21搜索的關(guān)聯(lián)語句的結(jié)果,推薦單元42提供關(guān)聯(lián)的關(guān)鍵詞,以及推薦的項(xiàng)目,或者擴(kuò)充項(xiàng)目和用戶的特征量。
[0061]注意,推薦單元42推薦的項(xiàng)目并不局限于特定種類的項(xiàng)目。例如,設(shè)想諸如運(yùn)動(dòng)圖像、靜止圖像、書籍、文檔、歌曲、電視節(jié)目、軟件、新聞消息、博客消息、微博句子和信息之類的各種內(nèi)容和商品,社區(qū)網(wǎng)站中的用戶,和社區(qū)網(wǎng)站中的社區(qū)。
[0062](信息處理設(shè)備11的處理)
[0063]下面,說明信息處理設(shè)備11的處理。注意為了易于理解,將說明其中信息處理設(shè)備11處理的各個(gè)語句基本上由單個(gè)詞構(gòu)成的情況。
[0064](語句數(shù)據(jù)收集處理)
[0065]首先,參考圖2的流程圖,說明信息處理設(shè)備11進(jìn)行的語句數(shù)據(jù)收集處理。注意,所述處理是定期離線進(jìn)行的。
[0066]在步驟SI,語句提取單元31從文檔組中提取語句。具體地,語句提取單元31從各個(gè)地方獲得多個(gè)文檔。圖3表示利用語句提取單元31獲得的文檔的例子。
[0067]語句提取單元31利用指定方法,從獲得的文檔組中提取語句。注意,諸如語素分析之類的任何方法可用于提取語句。
[0068]另外,語句提取單元31按照指定規(guī)則,縮減提取的語句。例如,語句提取單元31從提取的語句中,除去特定語音單元的語句,和從搜索目標(biāo)中排除的諸如停止詞之類的語句。語句提取單元31把語句的提取結(jié)果和文檔組,提供給特征提取單元32。
[0069]在步驟S2,特征提取單元32提取各個(gè)語句的特征量(下面稱為語句特征量)。例如,在從中提取了作為特征量的提取目標(biāo)的語句(下面稱為提取目標(biāo)語句)的文檔中,特征提取單元32提取在提取目標(biāo)語句附近的語句,作為語句特征量。更具體地,例如,在從從中提取了提取目標(biāo)語句的文檔中提取的語句之中,在提取目標(biāo)語句之前和之后為n(例如,η= 10)的范圍中的2η個(gè)語句被提取為提取目標(biāo)語句的語句特征量。另一方面,例如,從和提取目標(biāo)語句相同的文檔中提取的所有語句可作為提取目標(biāo)語句的語句特征量被處理。
[0070]此外,可采用表示各個(gè)語句的特征,作為提取源的文檔的特征,從中提取了各個(gè)語句的單元的上下文的特征等的任何其它特征量,作為語句特征量。例如,可以采用文檔的作者、種類、標(biāo)題,文檔的存在地點(diǎn),閱覽過所述文檔的用戶(的用戶ID)等,作為語句特征量。注意,下面將說明其中在上述各個(gè)語句附近的語句被提取為語句特征量的情況。
[0071]在步驟S3,特征提取單元32把各個(gè)語句和特征量(語句特征量)保存在語句特征量DB 33中。
[0072]圖4表示語句特征量DB 33的結(jié)構(gòu)例子。語句特征量DB 33包括語句出現(xiàn)位置ID,語句和語句特征量等3個(gè)項(xiàng)目(字段)。
[0073]在語句出現(xiàn)位置ID字段中,登記作為根據(jù)語句的出現(xiàn)位置識(shí)別各個(gè)語句的識(shí)別信息項(xiàng)目的語句出現(xiàn)位置ID。即,利用語句出現(xiàn)位置ID,能夠識(shí)別各個(gè)語句出現(xiàn)于其中的文檔以及在文檔中的位置。另外,利用語句出現(xiàn)位置ID,能夠在相互區(qū)分語句的同時(shí),作為不同的語句地處理具有相同文字表示的語句。
[0074]在語句字段中,登記各個(gè)語句的具體內(nèi)容。
[0075]在語句特征量字段中,登記各個(gè)語句的語句特征量的具體內(nèi)容。
[0076]在圖4的例子中,“drama”,“actor”,“TV”等被登記為語句出現(xiàn)位置ID “12454”的語句“Michael”的語句特征量,“star”, “perform”, “character”等被登記為語句出現(xiàn)位置ID “15635”的語句“Mike”的語句特征量。另外,具有相同文字表示的語句(例如,“Michael”和“Mike”)被相互區(qū)分,并被登記為不同的語句。
[0077]在步驟S4,聚類單元34把各個(gè)語句聚類在一起,并計(jì)算各個(gè)語句相對(duì)于各個(gè)聚類的歸屬度。具體地,通過利用軟聚類方法,比如模糊c均值方法和PLSA(概率潛在語義分析)方法,聚類單元34根據(jù)各個(gè)語句的語句特征量,計(jì)算各個(gè)語句相對(duì)于指定的兩個(gè)或更多聚類的歸屬度。注意,聚類的數(shù)目或種類是按照實(shí)驗(yàn)等預(yù)先設(shè)定的。
[0078]隨后,聚類單元34計(jì)算其中各個(gè)語句相對(duì)于各個(gè)聚類的歸屬度被向量化的歸屬度向量。即,歸屬度向量是把各個(gè)語句相對(duì)于各個(gè)聚類的歸屬度作為分量的向量。另外,例如,各個(gè)歸屬度向量被歸一化,以致通過把各個(gè)分量的值加在一起而獲得的值變?yōu)?。
[0079]在步驟S5,聚類單元34把聚類結(jié)果保存在聚類結(jié)果DB 35中。S卩,聚類單元34把各個(gè)語句的歸屬度向量保存在聚類結(jié)果DB 35中。
[0080]圖5表示聚類結(jié)果DB 35的結(jié)構(gòu)例子。聚類結(jié)果DB 35包括語句出現(xiàn)位置ID,語句,和語句特征量等3個(gè)項(xiàng)目(字段)。
[0081]在語句出現(xiàn)位置ID字段中,與圖4的語句特征量DB 33中一樣,登記語句出現(xiàn)位置ID。
[0082]在語句字段中,和圖4的語句特征量DB 33中一樣,登記各個(gè)語句的具體內(nèi)容。
[0083]在語句特征量字段中,登記各個(gè)語句的歸屬度向量。注意在本例中,用粗體指示各個(gè)歸屬度向量的分量之中的值最大的分量。
[0084]在圖5的例子中,(0.62,0.05,0.12,等)被登記為語句出現(xiàn)位置ID “15816”的語句“stadium”的歸屬度向量,(0.74,0.02,0.17,等)被登記為語句出現(xiàn)位置ID “73525”的語句“Michael”的歸屬度向量。另外,具有相同文字表示的語句(例如,“Michael”)被相互區(qū)分,并被登記為不同的語句。
[0085]之后,結(jié)束語句數(shù)據(jù)收集處理。
[0086](關(guān)聯(lián)語句搜索處理的第一實(shí)施例)
[0087]下面參考圖6的流程圖,說明信息處理設(shè)備11執(zhí)行的關(guān)聯(lián)語句搜索處理的第一實(shí)施例。注意,當(dāng)為其搜索關(guān)聯(lián)語句的輸入語句被提供給關(guān)聯(lián)語句提取單元36時(shí),開始該處理。
[0088]在步驟S101,關(guān)聯(lián)語句提取單元36計(jì)算輸入語句的歸屬度向量。具體地,關(guān)聯(lián)語句提取單元36從聚類結(jié)果DB 35中,提取其中登記具有與輸入語句相同的文字表示的語句的記錄。關(guān)聯(lián)語句提取單元36通過把包含在提取的記錄中的歸屬度向量加在一起,并使相加的向量歸一化,以便具有為I的大小,來計(jì)算輸入語句的歸屬度向量。即,計(jì)算的歸屬度向量是通過求具有和輸入語句相同的文字表示的語句的歸屬度向量的平均值而獲得的向量。
[0089]在步驟S102,關(guān)聯(lián)語句提取單元36利用輸入語句進(jìn)行指定的過濾,以提取候選關(guān)聯(lián)語句。具體地,例如,關(guān)聯(lián)語句提取單元36提取從與文字表示和輸入語句相同的語句相同的文檔中提取的語句,作為候選關(guān)聯(lián)語句。另一方面,例如,關(guān)聯(lián)語句提取單元36從語句特征量DB 33中,提取把文字表示和輸入語句相同的語句包含在其語句特征量中的語句,作為候選關(guān)聯(lián)語句。隨后,關(guān)聯(lián)語句提取單元36從聚類結(jié)果DB 35中,提取其中記錄提取的候選關(guān)聯(lián)語句的記錄。
[0090]在步驟S103,關(guān)聯(lián)語句提取單元36根據(jù)與輸入語句的相似性,計(jì)算各個(gè)候選關(guān)聯(lián)語句的分?jǐn)?shù)。例如,關(guān)聯(lián)語句提取單元36計(jì)算各個(gè)候選關(guān)聯(lián)語句的歸屬度向量和輸入語句的歸屬度向量的內(nèi)積,作為各個(gè)候選關(guān)聯(lián)語句和輸入語句之間的相似性,并將其設(shè)定為各個(gè)候選關(guān)聯(lián)語句的分?jǐn)?shù)。
[0091]圖7的上部區(qū)域表示當(dāng)輸入語句為“Michael”時(shí),利用歸屬度向量的內(nèi)積計(jì)算各個(gè)候選關(guān)聯(lián)語句的分?jǐn)?shù)的例子。例如,語句出現(xiàn)位置ID“15816”的候選關(guān)聯(lián)語句“stadium”的分?jǐn)?shù)為0.21,語句出現(xiàn)位置ID “74789”的候選關(guān)聯(lián)語句“Mike”的分?jǐn)?shù)為0.26。
[0092]在步驟S104,關(guān)聯(lián)語句提取單元36根據(jù)計(jì)算的分?jǐn)?shù),提取關(guān)聯(lián)語句。例如,關(guān)聯(lián)語句提取單元36從候選關(guān)聯(lián)語句中,提取分?jǐn)?shù)均等于或大于規(guī)定閾值的語句,作為關(guān)聯(lián)語句。另一方面,例如,關(guān)聯(lián)語句提取單元36從候選關(guān)聯(lián)語句中,提取按分?jǐn)?shù)的降序排列的規(guī)定數(shù)目的語句,作為關(guān)聯(lián)語句。隨后,關(guān)聯(lián)語句提取單元36把關(guān)聯(lián)語句的提取結(jié)果提供給輸出單元37。提取結(jié)果例如包括輸入語句,關(guān)聯(lián)語句,關(guān)聯(lián)語句的語句出現(xiàn)位置ID,歸屬度向量,和分?jǐn)?shù)。
[0093]例如,圖7的下部區(qū)域表示根據(jù)以上分?jǐn)?shù)的計(jì)算結(jié)果提取的關(guān)聯(lián)語句的例子。具體地,語句出現(xiàn)位置ID “92467”的語句“Mike”,語句出現(xiàn)位置ID “ 16357”的語句“drama”,語句出現(xiàn)位置ID “28479”的語句“Mike”,語句出現(xiàn)位置ID “74789”的語句“Mike”,和語句出現(xiàn)位置ID “25736”的語句“actor”被提取為關(guān)聯(lián)語句。另外,各個(gè)關(guān)聯(lián)語句的分?jǐn)?shù)和歸屬度向量被包含在搜索結(jié)果中。
[0094]在步驟S105,輸出單元37輸出關(guān)聯(lián)語句。即,輸出單元37把輸入語句和各個(gè)關(guān)聯(lián)語句的語句出現(xiàn)位置ID、歸屬度向量和分?jǐn)?shù),連同利用關(guān)聯(lián)語句提取單元36提取的關(guān)聯(lián)語句一起輸出給應(yīng)用單元22。
[0095]之后,結(jié)束關(guān)聯(lián)語句搜索處理。
[0096]按照上述方式,可以搜索與輸入語句相關(guān)的關(guān)聯(lián)語句。另外,在被相互區(qū)分時(shí),具有相同文字表示的關(guān)聯(lián)語句可作為不同的語句被搜索。在利用關(guān)聯(lián)語句的搜索結(jié)果的后續(xù)系統(tǒng)(例如,應(yīng)用單元22)中,這導(dǎo)致利用搜索結(jié)果的便利性的改善。例如,能夠作為不同語句或相同語句地處理具有相同文字表示的關(guān)聯(lián)語句。另外,例如,能夠在利用歸屬度向量和語句特征量,區(qū)分使用各個(gè)關(guān)聯(lián)語句的上下文的同時(shí),處理各個(gè)關(guān)聯(lián)語句。結(jié)果,可增大后續(xù)系統(tǒng)的處理的變化,可提高處理的精度。
[0097](關(guān)聯(lián)語句搜索處理的第二實(shí)施例)
[0098]下面參考圖8的流程圖,說明由信息處理設(shè)備11執(zhí)行的關(guān)聯(lián)語句搜索處理的第二實(shí)施例。第二實(shí)施例被配置成能夠提取包括多個(gè)語句的輸入語句組的關(guān)聯(lián)語句。
[0099]注意,當(dāng)輸入的語句組被提供給關(guān)聯(lián)語句提取單元36時(shí),開始該處理。
[0100]在步驟S131,關(guān)聯(lián)語句提取單元36計(jì)算各個(gè)輸入語句的歸屬度向量。即,關(guān)聯(lián)語句提取單元36利用和圖6的步驟S101相同的處理,對(duì)包含在輸入語句組中的各個(gè)輸入語句,計(jì)算歸屬度向量。
[0101]在步驟S132,關(guān)聯(lián)語句提取單元36計(jì)算輸入語句組的歸屬度向量。例如,關(guān)聯(lián)語句提取單元36通過把在步驟S131的處理中計(jì)算的各個(gè)輸入語句的歸屬度向量加在一起,隨后使其歸一化,來計(jì)算輸入語句組(即,所有的輸入語句)的歸屬度向量。歸屬度向量是特別表示輸入語句組的任意語句的特征的向量。
[0102]另一方面,例如,關(guān)聯(lián)語句提取單元36通過把對(duì)于每個(gè)對(duì)應(yīng)分量,在步驟S131的處理中計(jì)算的各個(gè)輸入語句的歸屬度向量一起相乘,隨后使其歸一化,來計(jì)算輸入語句組(即,所有的輸入語句)的歸屬度向量。所述歸屬度向量是特別表示為輸入語句組的所有語句所共有的特征的向量。
[0103]在步驟S133,關(guān)聯(lián)語句提取單元36利用輸入語句組,進(jìn)行指定的過濾,以提取候選關(guān)聯(lián)語句。具體地,例如,關(guān)聯(lián)語句提取單元36提取和與輸入語句組的任意語句具有相同文字表示的語句提取自相同文檔的語句,作為候選關(guān)聯(lián)語句。另一方面,例如,關(guān)聯(lián)語句提取單元36提取把和輸入語句組中的任意語句具有相同文字表示的語句包含在其語句特征量中的語句,作為候選相關(guān)語句。隨后,關(guān)聯(lián)語句提取單元36從聚類結(jié)果DB 35中,提取其中登記提取的候選關(guān)聯(lián)語句的記錄。
[0104]在步驟S134,關(guān)聯(lián)語句提取單元36根據(jù)與輸入語句組的相似性,計(jì)算各個(gè)候選關(guān)聯(lián)語句的分?jǐn)?shù)。例如,關(guān)聯(lián)語句提取單元36計(jì)算各個(gè)候選關(guān)聯(lián)語句的歸屬度向量和輸入語句組的歸屬度向量的內(nèi)積,作為各個(gè)候選關(guān)聯(lián)語句和輸入語句組之間的相似性,并將其設(shè)定為各個(gè)候選關(guān)聯(lián)語句的分?jǐn)?shù)。
[0105]在步驟S135和S136,執(zhí)行和圖6的步驟S104和S105相同的處理。
[0106]之后,結(jié)束關(guān)聯(lián)語句搜索處理。
[0107]按照上述方式,可以搜索與多個(gè)輸入語句相關(guān)的關(guān)聯(lián)語句。另外,在被相互區(qū)分時(shí),具有相同文字表示的關(guān)聯(lián)語句可作為不同的語句被搜索。
[0108](關(guān)聯(lián)語句搜索處理的第三實(shí)施例)
[0109]下面參考圖9的流程圖,說明信息處理設(shè)備11執(zhí)行的關(guān)聯(lián)語句搜索處理的第三實(shí)施例。第三實(shí)施例被配置成能夠以合并的狀態(tài)輸出具有相同文字表示的關(guān)聯(lián)語句。
[0110]注意,當(dāng)輸入語句被提供給關(guān)聯(lián)語句提取單元36時(shí),開始該處理。
[0111]在步驟S161-S164,執(zhí)行和圖6的步驟S101-S104相同的處理。從而,提取輸入語句的關(guān)聯(lián)語句。
[0112]在步驟S165,輸出單元37合并(integrate)具有相同文字表示的關(guān)聯(lián)語句。具體地,通過把提取的關(guān)聯(lián)語句之中的具有相同文字表示的關(guān)聯(lián)語句的分?jǐn)?shù)加在一起,輸出單元37計(jì)算具有該文字表示的所有關(guān)聯(lián)語句的分?jǐn)?shù)(下面稱為組合分?jǐn)?shù))。
[0113]另外,通過加權(quán)并相加提取的關(guān)聯(lián)語句之中的具有相同文字表示的關(guān)聯(lián)語句的歸屬度向量的各個(gè)分量,輸出單元37產(chǎn)生具有該文字表示的所有關(guān)聯(lián)語句的歸屬度向量(下面稱為組合歸屬度向量)。
[0114]圖10表示具有相同文字表示的關(guān)聯(lián)語句的合并結(jié)果的例子。在圖10中,圖10的分?jǐn)?shù)的計(jì)算結(jié)果和關(guān)聯(lián)語句的搜索結(jié)果與圖7的相同,關(guān)聯(lián)語句的搜索結(jié)果包括具有相同文字表示(即,“Mike”)的3個(gè)語句。
[0115]因而,這3個(gè)“Mike”語句被合并成一個(gè)語句。即,通過相加3個(gè)“Mike”語句的分?jǐn)?shù)而獲得的值(0.34+0.29+0.26 = 0.89)被計(jì)算為所有“Mike”語句的組合分?jǐn)?shù)。另外,通過按照分?jǐn)?shù),加權(quán)并相加3個(gè)“Mike”語句的歸屬度向量的各個(gè)分量,產(chǎn)生所有“Mike”語句的組合歸屬度向量。例如,所有“Mike”語句的組合歸屬度向量的第一個(gè)分量的值為0.30(=0.34X0.12+0.29X0.16+0.26X0.82)。從而,如在圖10的右下部區(qū)域中所示,可以獲得其中3個(gè)“Mike”語句被合并成一個(gè)語句的關(guān)聯(lián)語句的搜索結(jié)果。
[0116]在步驟S166,輸出單元37輸出關(guān)聯(lián)語句。即,連同具有相同文字表示的語句被合并成的關(guān)聯(lián)語句一起,輸出單元37把輸入語句,和各個(gè)關(guān)聯(lián)語句的語句出現(xiàn)位置ID、歸屬度向量(或組合歸屬度向量)和分?jǐn)?shù)(或組合分?jǐn)?shù))輸出給應(yīng)用單元22。
[0117]之后,結(jié)束關(guān)聯(lián)語句搜索處理。
[0118]按照上述方式,也能夠以合并的狀態(tài)輸出具有相同文字表示的關(guān)聯(lián)語句,而不相互區(qū)分它們。
[0119]注意,即使在圖8的關(guān)聯(lián)語句搜索處理中,也能夠以合并的狀態(tài)輸出具有相同文字表示的關(guān)聯(lián)語句。
[0120]下面,說明利用關(guān)聯(lián)語句的搜索結(jié)果的處理。
[0121](同義詞提取處理)
[0122]首先參考圖11的流程圖,說明信息處理設(shè)備11執(zhí)行的同義詞提取處理。
[0123]注意,當(dāng)對(duì)其搜索同義詞的輸入語句被提供給關(guān)聯(lián)語句提取單元36時(shí),開始該處理。另外,在該處理中,同義詞是包括相近用語的概念,不僅包括單個(gè)詞,而且包括把多個(gè)詞組合在一起的短語。
[0124]在步驟S201,執(zhí)行上面參考圖6或8說明的關(guān)聯(lián)語句搜索處理,以搜索輸入語句的關(guān)聯(lián)語句。隨后,輸入語句的關(guān)聯(lián)語句的搜索結(jié)果從輸出單元37被提供給應(yīng)用單元22的同義詞提取單元41。
[0125]在步驟S202,利用和圖9的步驟S165相同的處理,同義詞提取單元41合并具有相同文字表示的關(guān)聯(lián)語句。從而,計(jì)算具有相同文字表示的所有關(guān)聯(lián)語句的組合分?jǐn)?shù)和組合歸屬度向量。隨后,在之后的處理中,在具有相同文字表示的關(guān)聯(lián)語句被合并成一個(gè)語句的狀態(tài)下,提取同義詞。
[0126]注意,當(dāng)在步驟S201中,已利用圖9的關(guān)聯(lián)語句搜索處理,合并具有相同文字表示的關(guān)聯(lián)語句時(shí),可以省略步驟S202的處理。
[0127]在步驟S203,同義詞提取單元41根據(jù)分?jǐn)?shù),從關(guān)聯(lián)語句提取同義詞。具體地,例如,同義詞提取單元41提取分?jǐn)?shù)(或者就其中合并具有相同文字表示的關(guān)聯(lián)語句而論的組合分?jǐn)?shù))等于或大于規(guī)定值的關(guān)聯(lián)語句,作為輸入語句的同義詞。
[0128]例如,圖12表示其中提取輸入語句“Michael”的同義詞的情況的例子。注意,在圖12的上部區(qū)域中的關(guān)聯(lián)語句的合并結(jié)果和圖10的例子中的相同。在這個(gè)例子中,分?jǐn)?shù)或組合分?jǐn)?shù)等于或大于規(guī)定值的語句“Mike”被提取為輸入語句“Michael”的同義詞。
[0129]在步驟S204,根據(jù)歸屬度向量的分量值,同義詞提取單元41把提取的同義詞分成多個(gè)部分。具體地,對(duì)提取的同義詞來說,同義詞提取單元41判定對(duì)應(yīng)的歸屬度向量(就其中合并具有相同文字表示的語句的同義詞而論,組合歸屬度向量)是否具有規(guī)定閾值以上的多個(gè)分量。隨后,就歸屬度向量或組合歸屬度向量具有規(guī)定閾值以上的多個(gè)分量的同義詞來說,同義詞提取單元41對(duì)于與閾值以上的各個(gè)分量對(duì)應(yīng)的各個(gè)聚類,把該同義詞分成多個(gè)部分。即,同義詞提取單元41區(qū)分屬于提取的同義詞的多個(gè)聚類的可能性高的同義詞,作為對(duì)每個(gè)聚類來說不同的同義詞。
[0130]例如,在圖12的例子中,兩個(gè)分量顯示作為輸入語句“Michael”的同義詞提取的語句“Mike”的組合歸屬度向量中的較高值(0.30和0.43)。例如,當(dāng)對(duì)應(yīng)于這兩個(gè)分量的聚類指示棒球和電影時(shí),同義詞“Michael”可被分成棒球運(yùn)動(dòng)員“Mike”和演員“Mike”這兩個(gè)同義詞。
[0131]在步驟S205,同義詞提取單元41把提取的同義詞登記在同義詞詞典(未圖示)中。即,同義詞提取單元41把提取的同義詞作為輸入語句的同義詞,登記在同義詞詞典中。在這種時(shí)候,在步驟S204的處理中分割的具有相同文字表示的同義詞被登記為不同的同義詞。
[0132]之后,結(jié)束同義詞提取處理。
[0133]按照上述方式,輸入語句的同義詞被提取,并被登記在同義詞詞典中。另外,具有相同文字表示并且屬于不同類別的同義詞(例如,含意彼此不同的同義詞)被提取為不同的同義詞。
[0134](推薦處理)
[0135]下面參考圖13,說明信息處理設(shè)備11執(zhí)行的推薦處理。
[0136]注意,當(dāng)推薦項(xiàng)目的命令被輸入應(yīng)用單元22的推薦單元42時(shí),開始該處理。
[0137]在步驟S231,推薦單元42提取待推薦給用戶的項(xiàng)目。注意,任何方法可用作提取推薦項(xiàng)目的方法。
[0138]在步驟S32,信息處理設(shè)備11搜索與推薦項(xiàng)目相關(guān)的關(guān)鍵詞的關(guān)聯(lián)語句。具體地,推薦單元42把用于提取推薦項(xiàng)目的關(guān)鍵詞,作為輸入語句提供給關(guān)聯(lián)語句提取單元36。
[0139]關(guān)鍵詞例如是作為提取推薦項(xiàng)目的條件,由用戶明確提供的關(guān)鍵詞。另一方面,關(guān)鍵詞例如是在推薦項(xiàng)目的提取處理中,作為表示用戶的偏好的關(guān)鍵詞而提取的關(guān)鍵詞。注意,關(guān)鍵詞的數(shù)目可以為1個(gè),或者2個(gè)或更多。另外,各個(gè)關(guān)鍵詞可包括單個(gè)詞,或者把多個(gè)詞結(jié)合在一起的短語。
[0140]隨后,當(dāng)提供的關(guān)鍵詞的數(shù)目為1時(shí),執(zhí)行上面參考圖6說明的關(guān)聯(lián)語句搜索處理。另一方面,當(dāng)提供的關(guān)鍵詞的數(shù)目為2個(gè)或者更多時(shí),執(zhí)行上面參考圖8說明的關(guān)聯(lián)語句搜索處理。從而,搜索提供的關(guān)鍵詞的關(guān)聯(lián)語句,搜索結(jié)果從輸出單元37被提供給應(yīng)用單元22的推薦單元42。
[0141]在步驟S233,推薦單元42呈現(xiàn)推薦項(xiàng)目以及關(guān)鍵詞的關(guān)聯(lián)語句。例如,推薦單元42從語句特征量DB 33,讀取搜索的關(guān)鍵詞的關(guān)聯(lián)語句的語句特征量(S卩,作為關(guān)聯(lián)語句的提取源的文檔中的在關(guān)聯(lián)語句附近的語句)。隨后,推薦單元42根據(jù)讀取的語句特征量,從搜索的關(guān)聯(lián)語句中提取接近于用戶的偏好的語句。另外,推薦單元42把包括推薦項(xiàng)目,關(guān)鍵詞,提取的關(guān)聯(lián)語句,和關(guān)聯(lián)語句的語句特征量的信息傳送給例如由用戶操作的客戶端(未圖示)。
[0142]例如,如圖14中所示,提取的關(guān)聯(lián)語句及其語句特征量,連同推薦項(xiàng)目一起被呈現(xiàn)給由用戶操作的客戶端。注意,圖14的左側(cè)區(qū)域表示其中向喜歡演員Michael的用戶A推薦電視節(jié)目的呈現(xiàn)屏幕的例子,圖14的右側(cè)區(qū)域表示其中向喜歡棒球運(yùn)動(dòng)員Michael的用戶B推薦電視節(jié)目的提示屏幕的例子。
[0143]S卩,與演員Michael相關(guān)的電視節(jié)目被推薦給用戶A。另外,作為用戶A可能感興趣的關(guān)鍵詞和作為推薦理由,呈現(xiàn)演員Michael的關(guān)聯(lián)語句“Mike”及其語句特征量。
[0144]另一方面,與棒球運(yùn)動(dòng)員Michael相關(guān)的電視節(jié)目被提供給用戶B。另外,作為用戶B可能感興趣的關(guān)鍵詞和作為推薦理由,呈現(xiàn)棒球運(yùn)動(dòng)員Michael的關(guān)聯(lián)語句“Mike”及其語句特征量。
[0145]如上所述,由于允許信息處理設(shè)備11相互區(qū)分地處理具有相同文字表示的關(guān)聯(lián)語句,因此能夠不僅呈現(xiàn)具有相同文字表示的關(guān)聯(lián)語句“Mike”,而且能夠按照各個(gè)用戶的偏好,呈現(xiàn)表示“Mike”的含意、上下文等的其它關(guān)鍵詞。
[0146]注意,可以只呈現(xiàn)關(guān)鍵詞的多個(gè)關(guān)聯(lián)語句,而不呈現(xiàn)關(guān)鍵詞的關(guān)聯(lián)語句的語句特征量。即,在圖14的例子中,可呈現(xiàn)關(guān)鍵詞“Michael”的多個(gè)關(guān)聯(lián)語句。在這種情況下,由于可以相互區(qū)分地處理具有相同文字表示的關(guān)鍵詞,因此也能夠按照用戶的偏好,呈現(xiàn)具有相同文字表示的關(guān)鍵詞的不同關(guān)聯(lián)語句。
[0147](特征量擴(kuò)充處理)
[0148]下面參考圖15的流程圖,說明信息處理設(shè)備11執(zhí)行的特征量擴(kuò)充處理。
[0149]當(dāng)向用戶推薦項(xiàng)目時(shí),例如,如圖16中所示,計(jì)算表示用戶的偏好的UP(用戶偏好)和表示各個(gè)項(xiàng)目的特征的CP (內(nèi)容簡介)之間的相似性,并推薦相似性較高的項(xiàng)目之一。這里,圖16的UP和CP的各個(gè)方形物指示特征量,各個(gè)特征量由關(guān)鍵詞等構(gòu)成。該處理目的在于利用關(guān)聯(lián)語句,擴(kuò)充構(gòu)成CP或UP的特征量的關(guān)鍵詞。
[0150]在步驟S261,信息處理設(shè)備11搜索關(guān)鍵詞的關(guān)聯(lián)語句。具體地,推薦單元42選擇待擴(kuò)充的UP或CP的特征量之一。另外,推薦單元42選擇包含在UP或CP的所選特征量中的一個(gè)或多個(gè)關(guān)鍵詞,并把選擇的關(guān)鍵詞作為輸入語句,提供給關(guān)聯(lián)語句提取單元36。
[0151]當(dāng)提供的關(guān)鍵詞的數(shù)目為I時(shí),執(zhí)行上面參考圖6說明的關(guān)聯(lián)語句搜索處理。另一方面,當(dāng)提供的關(guān)鍵詞的數(shù)目為2或更大時(shí),執(zhí)行上面參考圖8說明的關(guān)聯(lián)語句搜索處理。從而,搜索提供的關(guān)鍵詞的關(guān)聯(lián)語句,搜索結(jié)果從輸出單元37被提供給應(yīng)用單元22的推薦單元42。
[0152]在步驟S262,推薦單元42擴(kuò)充特征量。例如,推薦單元42從語句特征量DB 33中,讀取搜索的關(guān)鍵詞的關(guān)聯(lián)語句的語句特征量(即,作為關(guān)聯(lián)語句的提取源的文檔中的在關(guān)聯(lián)語句附近的語句)。
[0153]之后,當(dāng)擴(kuò)充UP時(shí),推薦單元42根據(jù)讀取的語句特征量,從搜索的關(guān)聯(lián)語句中,提取與用戶的偏好相近的語句。另一方面,當(dāng)擴(kuò)充CP時(shí),推薦單元42根據(jù)讀取的語句特征量,從搜索的關(guān)聯(lián)語句中,提取與項(xiàng)目的特征相近的語句。
[0154]隨后,推薦單元42把提取的關(guān)聯(lián)語句及其語句特征量追加到UP或CP中。
[0155]在圖17的例子中,首先搜索包含在UP或CP的特征量中的關(guān)鍵詞“Michael”的關(guān)聯(lián)語句。之后,讀取搜索的關(guān)聯(lián)語句的語句特征量。然后,根據(jù)提取特征量,從搜索的關(guān)聯(lián)語句中提取待追加到UP或CP中的關(guān)聯(lián)語句。隨后,提取的關(guān)聯(lián)語句及其語句特征量被追加到UP或CP中,從而擴(kuò)充UP或CP。之后,對(duì)待擴(kuò)充的UP或CP的所有特征量,執(zhí)行該處理,從而擴(kuò)充UP或CP。
[0156]例如,在現(xiàn)有技術(shù)中,對(duì)于相同的關(guān)鍵詞,只把相同的關(guān)聯(lián)語句追加到UP或CP中。另一方面,信息處理設(shè)備11可相互區(qū)分具有相同文字表示的關(guān)聯(lián)語句,從具有相同文字表示的關(guān)聯(lián)語句中選擇適當(dāng)?shù)年P(guān)聯(lián)語句,并把該關(guān)聯(lián)語句及其語句特征量添加到UP或CP中。因而,信息處理設(shè)備11可更有效和廣泛地?cái)U(kuò)充UP或CP。結(jié)果,信息處理設(shè)備11可提高推薦項(xiàng)目的準(zhǔn)確性。
[0157]注意,也可只把多個(gè)關(guān)聯(lián)語句追加到UP或CP中,而不追加關(guān)聯(lián)語句的語句特征量。在這種情況下,由于可相互區(qū)分地處理具有相同文字表示的關(guān)鍵詞,因此也能夠按照UP或CP的特征,對(duì)具有相同文字表示的關(guān)鍵詞,追加不同的關(guān)聯(lián)語句。
[0158]2.變形例
[0159]下面,說明本技術(shù)的以上實(shí)施例的變形例。
[0160]上面的說明表示其中連同關(guān)聯(lián)語句一起,從輸出單元37輸出輸入語句,和各個(gè)關(guān)聯(lián)語句的語句出現(xiàn)位置ID、歸屬度向量和分?jǐn)?shù),作為關(guān)聯(lián)語句的搜索結(jié)果的例子。不過,當(dāng)在后續(xù)處理中不使用輸入語句、歸屬度向量和分?jǐn)?shù)時(shí),也可適當(dāng)?shù)厥÷运鼈儭?br>
[0161]另外,例如,代替歸屬度向量,可以輸出指示與具有等于或大于規(guī)定閾值的分量的歸屬度分量對(duì)應(yīng)的聚類的信息,即,指示關(guān)聯(lián)語句很可能屬于的聚類的信息。
[0162]另外,例如,可從輸出單元37輸出關(guān)聯(lián)語句的語句特征量。
[0163]此外,搜索處理單元21和應(yīng)用單元22不一定需要被設(shè)置在相同設(shè)備中,可被設(shè)置在不同設(shè)備中。
[0164]盡管上面說明了其中處理英語文檔的情況的例子,不過,本技術(shù)也可適用于其中處理任何其它語言,比如日語文檔的情況。
[0165](計(jì)算機(jī)的結(jié)構(gòu)例子)
[0166]上面一系列處理不僅可用硬件執(zhí)行,而且可用軟件執(zhí)行。當(dāng)用軟件執(zhí)行所述一系列處理時(shí),構(gòu)成所述軟件的程序被安裝在計(jì)算機(jī)中。這里,計(jì)算機(jī)的例子包括并入專用硬件中的計(jì)算機(jī),和能夠利用安裝在其中的各種程序,執(zhí)行各種功能的通用個(gè)人計(jì)算機(jī)。
[0167]圖18是表示利用程序,執(zhí)行上述一系列處理的計(jì)算機(jī)的硬件結(jié)構(gòu)例子的方框圖。
[0168]在計(jì)算機(jī)中,CPU (中央處理器)201、ROM (只讀存儲(chǔ)器)202和RAM(隨機(jī)存取存儲(chǔ)器)203通過總線204互連。
[0169]總線204還連接到輸入/輸出接口 205。輸入/輸出接口 205連接到輸入單元206、輸出單元207、存儲(chǔ)單元208、通信單元209和驅(qū)動(dòng)器210。
[0170]輸入單元206包括鍵盤、鼠標(biāo)、麥克風(fēng)等。輸出單元207包括顯示器、揚(yáng)聲器等。存儲(chǔ)單元208包括硬盤驅(qū)動(dòng)器、非易失性存儲(chǔ)器等。通信單元209包括網(wǎng)絡(luò)接口等。驅(qū)動(dòng)器210驅(qū)動(dòng)諸如磁盤、光盤、磁光盤和半導(dǎo)體存儲(chǔ)器之類的可拆卸介質(zhì)211。
[0171]在這樣構(gòu)成的計(jì)算機(jī)中,當(dāng)CPU 201通過輸入/輸出接口 205和總線204,把保存在存儲(chǔ)單元208中的程序載入RAM 203中,并執(zhí)行所述程序時(shí),執(zhí)行上面的一系列處理。
[0172]例如,可記錄在作為套裝介質(zhì)等的可拆卸介質(zhì)211上地提供由計(jì)算機(jī)(CPU 201)執(zhí)行的程序。另外,可通過有線或無線傳輸介質(zhì),比如局域網(wǎng)、因特網(wǎng)和數(shù)字衛(wèi)星廣播,提供程序。
[0173]在計(jì)算機(jī)中,當(dāng)把可拆卸介質(zhì)211裝入驅(qū)動(dòng)器210中時(shí),通過輸入/輸出接口 205,程序可被安裝在存儲(chǔ)單元208中。另外,可通過有線或無線傳輸介質(zhì),利用通信單元209接收程序,并安裝在存儲(chǔ)單元208中。此外,可預(yù)先把程序安裝在ROM 202或存儲(chǔ)單元208中。
[0174]注意,計(jì)算機(jī)執(zhí)行的程序可以是按照說明書中記載的順序,時(shí)序地執(zhí)行的程序,或者可以是并行地或者在適當(dāng)時(shí)(比如當(dāng)程序被調(diào)用時(shí))執(zhí)行的程序。
[0175]另外,在本說明書中,系統(tǒng)表示一組多個(gè)組件(比如設(shè)備或模塊(單元)),所有的組件可不被設(shè)置在相同的機(jī)殼中。因而,分別容納在不同的機(jī)殼中,并通過網(wǎng)絡(luò)互連的多個(gè)設(shè)備,和具有容納在一個(gè)機(jī)殼中的多個(gè)模塊的設(shè)備被定義為系統(tǒng)。
[0176]此外,本技術(shù)的實(shí)施例不限于上述實(shí)施例,可按各種方式修改,而不脫離本技術(shù)的
匕要曰。
[0177]例如,本技術(shù)可以具有其中通過網(wǎng)絡(luò),在多個(gè)設(shè)備之間分擔(dān)并且協(xié)同地處理某種功能的云計(jì)算的結(jié)構(gòu)。
[0178]另外,在上面的流程圖中說明的各個(gè)步驟可由一個(gè)設(shè)備執(zhí)行,或者可由多個(gè)設(shè)備分擔(dān)地執(zhí)行。
[0179]此外,當(dāng)一個(gè)步驟包括多個(gè)處理時(shí),包含在該步驟中的多個(gè)處理可由一個(gè)設(shè)備執(zhí)行,或者可由多個(gè)設(shè)備分擔(dān)地執(zhí)行。
[0180]此外,本技術(shù)可以采取例如以下結(jié)構(gòu)。
[0181](I) 一種信息處理設(shè)備,包括:
[0182]語句提取單元,所述語句提取單元被配置成從多個(gè)文檔中提取多個(gè)語句;
[0183]特征提取單元,所述特征提取單元被配置成在相互區(qū)分具有相同文字表示的語句的同時(shí),提取所提取的各個(gè)語句的特征量;
[0184]聚類單元,所述聚類單元被配置成
[0185]在相互區(qū)分具有相同文字表示的語句的同時(shí),把提取的各個(gè)語句聚類在一起,和
[0186]計(jì)算把各個(gè)語句相對(duì)于2個(gè)或更多的各個(gè)聚類的歸屬度作為分量的歸屬度向量;
[0187]關(guān)聯(lián)語句提取單元,所述關(guān)聯(lián)語句提取單元被配置成在相互區(qū)分具有相同文字表示的語句的同時(shí),提取歸屬度向量與提供的輸入語句的歸屬度向量類似的關(guān)聯(lián)語句;和
[0188]輸出單元,所述輸出單元被配置成輸出關(guān)聯(lián)語句和用于識(shí)別關(guān)聯(lián)語句的識(shí)別信肩、O
[0189](2)按照(I)所述的信息處理設(shè)備,其中
[0190]輸出單元被配置成還輸出關(guān)聯(lián)語句的歸屬度向量和/或表示關(guān)聯(lián)語句與輸入語句之間在歸屬度向量方面的相似性的分?jǐn)?shù)。
[0191](3)按照(2)所述的信息處理設(shè)備,還包括
[0192]同義詞提取單元,所述同義詞提取單元被配置成
[0193]把具有相同文字表示的關(guān)聯(lián)語句的分?jǐn)?shù)相加,和
[0194]提取其分?jǐn)?shù)較高的關(guān)聯(lián)語句,作為輸入語句的同義詞。
[0195](4)按照(3)所述的信息處理設(shè)備,其中
[0196]同義詞提取單元被配置成
[0197]按照分?jǐn)?shù),加權(quán)并相加具有相同文字表示的關(guān)聯(lián)語句的歸屬度向量,和
[0198]當(dāng)提取的同義詞的歸屬度向量具有規(guī)定閾值以上的分量時(shí),對(duì)于對(duì)應(yīng)于規(guī)定閾值以上的分量的每個(gè)聚類,把同義詞分成多個(gè)部分。
[0199](5)按照(1)-(4)任意之一所述的信息處理設(shè)備,還包括
[0200]推薦單元,所述推薦單元被配置成向用戶推薦項(xiàng)目,其中
[0201]關(guān)聯(lián)語句提取單元被配置成提取與推薦項(xiàng)目相關(guān)的關(guān)鍵詞的關(guān)聯(lián)語句,和
[0202]推薦單元被配置成把關(guān)鍵詞的關(guān)聯(lián)語句連同推薦項(xiàng)目一起呈現(xiàn)給用戶。
[0203](6)按照(5)所述的信息處理設(shè)備,其中
[0204]推薦單元被配置成把關(guān)鍵詞的關(guān)聯(lián)語句的特征量,連同推薦項(xiàng)目一起呈現(xiàn)給用戶。
[0205](7)按照(1)-(6)任意之一所述的信息處理設(shè)備,還包括
[0206]被配置成向用戶推薦項(xiàng)目的推薦單元,其中
[0207]關(guān)聯(lián)語句提取單元被配置成提取包含在用戶的特征量或者項(xiàng)目的特征量中的關(guān)鍵詞的關(guān)聯(lián)語句,
[0208]推薦單元被配置成把關(guān)鍵詞的關(guān)聯(lián)語句追加到用戶的特征量或項(xiàng)目的特征量中。
[0209](8)按照(7)所述的信息處理設(shè)備,其中
[0210]推薦單元被配置成還把關(guān)鍵詞的關(guān)聯(lián)語句的特征量追加到用戶的特征量或項(xiàng)目的特征量中。
[0211](9)按照(1)-(8)任意之一所述的信息處理設(shè)備,其中
[0212]當(dāng)提供多個(gè)輸入語句時(shí),關(guān)聯(lián)語句提取單元被配置成提取語句作為關(guān)聯(lián)語句,
[0213]所述語句具有與通過把多個(gè)輸入語句的歸屬度向量加在一起而獲得的向量,或者通過對(duì)于每個(gè)分量,把多個(gè)輸入語句的歸屬度向量相乘而獲得的向量類似的歸屬度向量。
[0214](10)按照(1)-(9)任意之一所述的信息處理設(shè)備,其中
[0215]識(shí)別信息表示從中提取關(guān)聯(lián)語句的文檔,以及文檔中的位置。
[0216](11)按照(1)-(10)任意之一所述的信息處理設(shè)備,其中
[0217]語句的特征量包括從從中提取語句的文檔中的語句的附近提取的語句。
[0218](12) —種信息處理方法,包括:
[0219]從多個(gè)文檔中提取多個(gè)語句;
[0220]在相互區(qū)分具有相同文字表示的語句的同時(shí),提取所提取的各個(gè)語句的特征量;
[0221]在相互區(qū)分具有相同文字表示的語句的同時(shí),把提取的各個(gè)語句聚類在一起,并計(jì)算把各個(gè)語句相對(duì)于2個(gè)或更多的各個(gè)聚類的歸屬度作為分量的歸屬度向量;
[0222]在相互區(qū)分具有相同文字表示的語句的同時(shí),提取歸屬度向量與提供的輸入語句的歸屬度向量類似的關(guān)聯(lián)語句;和
[0223]輸出關(guān)聯(lián)語句和用于識(shí)別關(guān)聯(lián)語句的識(shí)別信息。
[0224](13) 一種使使計(jì)算機(jī)執(zhí)行處理的程序,所述處理包括:
[0225]從多個(gè)文檔中提取多個(gè)語句;
[0226]在相互區(qū)分具有相同文字表示的語句的同時(shí),提取所提取的各個(gè)語句的特征量;
[0227]在相互區(qū)分具有相同文字表示的語句的同時(shí),把提取的各個(gè)語句聚類在一起,并計(jì)算把各個(gè)語句相對(duì)于2個(gè)或更多的各個(gè)聚類的歸屬度作為分量的歸屬度向量;
[0228]在相互區(qū)分具有相同文字表示的語句的同時(shí),提取歸屬度向量與提供的輸入語句的歸屬度向量類似的關(guān)聯(lián)語句;和
[0229]輸出關(guān)聯(lián)語句和用于識(shí)別關(guān)聯(lián)語句的識(shí)別信息。
[0230]本領(lǐng)域的技術(shù)人員應(yīng)明白,根據(jù)設(shè)計(jì)要求和其它因素,可以產(chǎn)生各種修改、組合、子組合和變更,只要它們?cè)谒降臋?quán)利要求或其等同物的范圍之內(nèi)。
【權(quán)利要求】
1.一種信息處理設(shè)備,包括: 語句提取單元,所述語句提取單元被配置成從多個(gè)文檔中提取多個(gè)語句; 特征提取單元,所述特征提取單元被配置成在相互區(qū)分具有相同文字表示的語句的同時(shí),提取所提取的各個(gè)語句的特征量; 聚類單元,所述聚類單元被配置成 在相互區(qū)分具有相同文字表示的語句的同時(shí),把提取的各個(gè)語句聚類在一起,和 計(jì)算把各個(gè)語句相對(duì)于2個(gè)或更多的各個(gè)聚類的歸屬度作為分量的歸屬度向量; 關(guān)聯(lián)語句提取單元,所述關(guān)聯(lián)語句提取單元被配置成在相互區(qū)分具有相同文字表示的語句的同時(shí),提取歸屬度向量與提供的輸入語句的歸屬度向量類似的關(guān)聯(lián)語句;和輸出單元,所述輸出單元被配置成輸出關(guān)聯(lián)語句和用于識(shí)別關(guān)聯(lián)語句的識(shí)別信息。
2.按照權(quán)利要求1所述的信息處理設(shè)備,其中 輸出單元被配置成還輸出關(guān)聯(lián)語句的歸屬度向量和/或表示關(guān)聯(lián)語句與輸入語句之間在歸屬度向量方面的相似性的分?jǐn)?shù)。
3.按照權(quán)利要求2所述的信息處理設(shè)備,還包括 同義詞提取單元,所述同義詞提取單元被配置成 把具有相同文字表示的關(guān)聯(lián)語句的分?jǐn)?shù)相加,和 提取其分?jǐn)?shù)較高的關(guān)聯(lián)語句,作為輸入語句的同義詞。
4.按照權(quán)利要求3所述的信息處理設(shè)備,其中 同義詞提取單元被配置成 按照分?jǐn)?shù),加權(quán)并相加具有相同文字表示的關(guān)聯(lián)語句的歸屬度向量,和當(dāng)提取的同義詞的歸屬度向量具有規(guī)定閾值以上的分量時(shí),對(duì)于對(duì)應(yīng)于規(guī)定閾值以上的分量的每個(gè)聚類,把同義詞分成多個(gè)部分。
5.按照權(quán)利要求1所述的信息處理設(shè)備,還包括 推薦單元,所述推薦單元被配置成向用戶推薦項(xiàng)目,其中 關(guān)聯(lián)語句提取單元被配置成提取與推薦項(xiàng)目相關(guān)的關(guān)鍵詞的關(guān)聯(lián)語句,和 推薦單元被配置成把關(guān)鍵詞的關(guān)聯(lián)語句連同推薦項(xiàng)目一起呈現(xiàn)給用戶。
6.按照權(quán)利要求5所述的信息處理設(shè)備,其中 推薦單元被配置成把關(guān)鍵詞的關(guān)聯(lián)語句的特征量連同推薦項(xiàng)目一起呈現(xiàn)給用戶。
7.按照權(quán)利要求1所述的信息處理設(shè)備,還包括 被配置成向用戶推薦項(xiàng)目的推薦單元,其中 關(guān)聯(lián)語句提取單元被配置成提取包含在用戶的特征量或者項(xiàng)目的特征量中的關(guān)鍵詞的關(guān)聯(lián)語句, 推薦單元被配置成把關(guān)鍵詞的關(guān)聯(lián)語句追加到用戶的特征量或項(xiàng)目的特征量中。
8.按照權(quán)利要求7所述的信息處理設(shè)備,其中 推薦單元被配置成還把關(guān)鍵詞的關(guān)聯(lián)語句的特征量追加到用戶的特征量或項(xiàng)目的特征量中。
9.按照權(quán)利要求1所述的信息處理設(shè)備,其中 當(dāng)提供多個(gè)輸入語句時(shí),關(guān)聯(lián)語句提取單元被配置成提取語句作為關(guān)聯(lián)語句,所述語句具有與通過把多個(gè)輸入語句的歸屬度向量加在一起而獲得的向量,或者通過對(duì)于每個(gè)分量把多個(gè)輸入語句的歸屬度向量相乘而獲得的向量類似的歸屬度向量。
10.按照權(quán)利要求1所述的信息處理設(shè)備,其中 識(shí)別信息表示從中提取關(guān)聯(lián)語句的文檔以及文檔中的位置。
11.按照權(quán)利要求1所述的信息處理設(shè)備,其中 語句的特征量包括從從中提取語句的文檔中的語句的附近提取的語句。
12.—種信息處理方法,包括: 從多個(gè)文檔中提取多個(gè)語句; 在相互區(qū)分具有相同文字表示的語句的同時(shí),提取所提取的各個(gè)語句的特征量; 在相互區(qū)分具有相同文字表示的語句的同時(shí),把提取的各個(gè)語句聚類在一起,并計(jì)算把各個(gè)語句相對(duì)于2個(gè)或更多的各個(gè)聚類的歸屬度作為分量的歸屬度向量; 在相互區(qū)分具有相同文字表示的語句的同時(shí),提取歸屬度向量與提供的輸入語句的歸屬度向量類似的關(guān)聯(lián)語句;和 輸出關(guān)聯(lián)語句和用于識(shí)別關(guān)聯(lián)語句的識(shí)別信息。
13.一種使使計(jì)算機(jī)執(zhí)行處理的程序,所述處理包括: 從多個(gè)文檔中提取多個(gè)語句; 在相互區(qū)分具有相同文字表示的語句的同時(shí),提取所提取的各個(gè)語句的特征量; 在相互區(qū)分具有相同文字表示的語句的同時(shí),把提取的各個(gè)語句聚類在一起,并計(jì)算把各個(gè)語句相對(duì)于2個(gè)或更多的各個(gè)聚類的歸屬度作為分量的歸屬度向量; 在相互區(qū)分具有相同文字表示的語句的同時(shí),提取歸屬度向量與提供的輸入語句的歸屬度向量類似的關(guān)聯(lián)語句;和 輸出關(guān)聯(lián)語句和用于識(shí)別關(guān)聯(lián)語句的識(shí)別信息。
【文檔編號(hào)】G06F17/30GK104376034SQ201410382233
【公開日】2015年2月25日 申請(qǐng)日期:2014年8月6日 優(yōu)先權(quán)日:2013年8月13日
【發(fā)明者】宮原正典, 荒木一憲, 金本勝吉, 中橋亮, 吉山和樹, 高木友博 申請(qǐng)人:索尼公司