專利名稱:自然語言處理裝置、方法、以及程序的制作方法
技術(shù)領(lǐng)域:
本發(fā)明的一個實施方式涉及自然語言處理裝置、自然語言處理方法、自然語言處理程序以及存儲了自然語言處理程序的計算機可讀記錄介質(zhì)。
背景技術(shù):
以往,出于各種目的,對文本數(shù)據(jù)進(jìn)行了自然語言處理(自然語言解析)。例如,有時針對一般用戶所記述的、登記于網(wǎng)絡(luò)服務(wù)中的評論或博客等消息,進(jìn)行自然語言處理。作為自然語言處理的一個方法,有詞素解析。關(guān)于詞素解析,在下述專利文獻(xiàn)I中,記載了用于將與記錄在詞典中的單詞不重復(fù)的詞素作為生詞提取出來的方法。現(xiàn)有技術(shù)文獻(xiàn)專利文獻(xiàn)專利文獻(xiàn)I日本特開2002-297589號公報發(fā)明內(nèi)容發(fā)明要解決的技術(shù)問題然而,如果像上述專利文獻(xiàn)I所記載的方法那樣,單純地把詞典中不存在重復(fù)詞語的單詞全部判斷為生詞,則無法高效地發(fā)現(xiàn)生詞。因此,希望實現(xiàn)能夠高效地發(fā)現(xiàn)生詞的方法。解決問題的手段本發(fā)明的一個實施方式的自然語言處理裝置具有結(jié)果取得單元,其取得通過使多種詞素解析器分別對相同的一個以上句子進(jìn)行解析而獲得的、表示該一個以上句子中包含的各詞素的詞性的解析結(jié)果;模式取得單元,其檢測結(jié)果取得單元所取得的多個解析結(jié)果中的相同劃分位置,從各解析結(jié)果中提取與按照該相同劃分位置劃分的字符串對應(yīng)的一個以上的詞性,取得所提取出的該一個以上的詞性的集合,作為詞性差異模式;存儲單元,其將模式取得單元所取得的詞性差異模式與該詞性差異模式的出現(xiàn)次數(shù)一起進(jìn)行存儲;以及候選確定單元,其從存儲單元中提取出現(xiàn)次數(shù)為規(guī)定閾值以下的詞性差異模式,將與提取出的詞性差異模式對應(yīng)的所述字符串確定為包含生詞候選的字符串。本發(fā)明的一個實施方式的自然語言處理方法是由自然語言處理裝置執(zhí)行的自然語言處理方法,其特征在于,該自然語言處理方法包含以下步驟結(jié)果取得步驟,取得通過使多種詞素解析器分別對相同的一個以上句子進(jìn)行解析而獲得的、表示該一個以上句子中包含的各詞素的詞性的解析結(jié)果;模式取得步驟,檢測在結(jié)果取得步驟中取得的多個解析結(jié)果中的相同劃分位置,從各解析結(jié)果中提取與按照該相同劃分位置劃分的字符串對應(yīng)的一個以上的詞性,取得所提取出的該一個以上的詞性的集合,作為詞性差異模式;存儲步驟,將在模式取得步驟中取得的詞性差異模式與該詞性差異模式的出現(xiàn)次數(shù)一起存儲到存儲單元中;以及候選確定步驟,從存儲單元中提取出現(xiàn)次數(shù)為規(guī)定閾值以下的詞性差異模式,將與提取出的詞性差異模式對應(yīng)的字符串確定為包含生詞候選的字符串。
本發(fā)明的一個實施方式的自然語言處理程序使計算機作為如下單元發(fā)揮功能結(jié)果取得單元,其取得通過使多種詞素解析器分別對相同的一個以上句子進(jìn)行解析而獲得的、表示該一個以上句子中包含的各詞素的詞性的解析結(jié)果;模式取得單元,其檢測所述結(jié)果取得單元所取得的多個解析結(jié)果中的相同劃分位置,從各解析結(jié)果中提取與按照該相同劃分位置劃分的字符串對應(yīng)的一個以上的詞性,取得所提取出的該一個以上的詞性的集合,作為詞性差異模式;存儲單元,其將模式取得單元所取得的詞性差異模式與該詞性差異模式的出現(xiàn)次數(shù)一起進(jìn)行存儲;以及候選確定單元,其從存儲單元中提取出現(xiàn)次數(shù)為規(guī)定閾值以下的詞性差異模式,將與提取出的詞性差異模式對應(yīng)的字符串確定為包含生詞候選的字符串。本發(fā)明的一個實施方式的計算機可讀記錄介質(zhì)存儲有使計算機作為如下單元發(fā)揮功能的自然語言處理程序結(jié)果取得單元,其取得通過使多種詞素解析器分別對相同的一個以上句子進(jìn)行解析而獲得的、表示該一個以上句子中包含的各詞素的詞性的解析結(jié)果;模式取得單元,其檢測結(jié)果取得單元所取得的多個解析結(jié)果中的相同劃分位置,從各解析結(jié)果中提取與按照該相同劃分位置劃分的字符串對應(yīng)的一個以上的詞性,取得所提取出的該一個以上的詞性的集合,作為詞性差異模式;存儲單元,其將模式取得單元所取得的詞性差異模式與該詞性差異模式的出現(xiàn)次數(shù)一起進(jìn)行存儲;以及候選確定單元,其從存儲單元中提取出現(xiàn)次數(shù)為規(guī)定閾值以下的詞性差異模式,將與提取出的詞性差異模式對應(yīng)的字符串確定為包含生詞候選的字符串。發(fā)明人等基于如下假設(shè)進(jìn)行了深刻研究在作為詞素解析對象的句子包含生詞時,多種詞素解析器分別在生詞的周邊展現(xiàn)出不同的解析結(jié)果。根據(jù)該假設(shè),發(fā)明人等將大量的句子施加到多種詞素解析器中,提取了大量的詞性差異模式,根據(jù)所得到的詞性差異模式的頻度對所述詞性差異模式進(jìn)行了分析。并且,發(fā)明人等發(fā)現(xiàn)存在如下趨勢在與頻度低的詞性差異模式對應(yīng)的字符串中含有生詞。根據(jù)上述方式,基于多種詞素解析器對相同的一個以上句子的解析結(jié)果,得到按照相同位置劃分的字符串的詞性差異模式(多個詞素解析器所得到的、與該字符串對應(yīng)的詞性的集合)。該詞性差異模式與其出現(xiàn)次數(shù)一起被存儲起來。并且,與出現(xiàn)次數(shù)為規(guī)定閾值以下的詞性差異模式對應(yīng)的字符串被確定為包含生詞候選的字符串。這樣,通過自動地提取被推定為存在生詞的概率高的字符串,由此限定了生詞的搜索范圍,相應(yīng)地,能夠高效地發(fā)現(xiàn)生詞。在其他方式的自然語言處理裝置中,在多種詞素解析器之間,各詞素解析器中存儲的詞典的內(nèi)容可以不同。這樣,通過使用詞典內(nèi)容互不相同的多個詞素解析器,能夠高效地提取實際包含生詞的字符串,因此相應(yīng)地,能夠高效地發(fā)現(xiàn)生詞。進(jìn)一步地,在其他方式的自然語言處理裝置中,在多種詞素解析器之間,詞典中收錄的單詞的個數(shù)可以不同。進(jìn)一步地,在其他方式的自然語言處理裝置中,在多種詞素解析器之間,詞典中收錄的詞性的體系可以不同。進(jìn)一步地,在其他方式的自然語言處理裝置中,在多種詞素解析器之間,各詞素解析器中存儲的單詞間的連接規(guī)則可以不同。
這樣,通過使用單詞間的連接規(guī)則互不相同的多個詞素解析器,能夠更高效地提取實際包含生詞的字符串,因此相應(yīng)地,能夠高效地發(fā)現(xiàn)生詞。進(jìn)一步地,在其他方式的自然語言處理裝置中,在多種詞素解析器之間,針對單詞間的連接所設(shè)定的分值(score)可以不同。進(jìn)一步地,在其他方式的自然語言處理裝置中,在多種詞素解析器之間,與單詞間的連接相關(guān)的分值應(yīng)用規(guī)則可以不同。發(fā)明效果根據(jù)本發(fā)明的一個側(cè)面,通過自動地提取被推定為存在生詞的概率高的字符串,由此限定了生詞的搜索范圍,因此相應(yīng)地,能夠高效地發(fā)現(xiàn)生詞。
圖1是示出實施方式的自然語言處理裝置的功能結(jié)構(gòu)的框圖。圖2是用于說明取得詞性差異模式的圖。圖3是示出頻度數(shù)據(jù)的合計結(jié)果的示例的圖。圖4是示出基于頻度數(shù)據(jù)的詞性差異模式的分析結(jié)果的示例的圖。圖5是示出圖1所示的自然語言處理裝置的動作的流程圖。具體實施例方式以下,參照附圖對本發(fā)明的實施方式進(jìn)行詳細(xì)說明。另外,在附圖的說明中,對于相同或者同等的要素標(biāo)注相同符號,并省略重復(fù)的說明。首先,使用圖1 4,對實施方式的自然語言處理裝置10的功能以及結(jié)構(gòu)進(jìn)行說明。自然語言處理裝置10是執(zhí)行自然語言處理的計算機,通過有線或無線網(wǎng)絡(luò)與3臺詞素解析器連接。另外,詞素解析器的臺數(shù)只要為多臺即可,臺數(shù)是任意的。首先,對詞素解析器進(jìn)行說明。第I詞素解析器Al、第2詞素解析器A2以及第3詞素解析器A3是對一個以上的句子進(jìn)行詞素解析的計算機。詞素解析對象可以是一個句子,也可以是包含一個以上句子的一篇文章,也可以是多篇文章。詞素是語言中具有含義的最小單位。詞素解析是使用詞典將句子分割成詞素,辨別其語法屬性的處理。在現(xiàn)有的大部分詞素解析器中具有收錄了詞素和詞性信息的詞典。對于沒有包含在該詞典中的詞語,雖然詞素解析器能夠根據(jù)字型(對于日語來說,有漢字、平假名、片假名、數(shù)字、英文等)進(jìn)行估計,但是,在沒有詞典的情況下,很難對所有的詞素進(jìn)行正確的辨別。這樣,在本說明書中,將沒有記載在用于詞素解析的詞典中的詞語稱作生
ο雖然將生詞追加到詞典中來提高詞素解析器的精度十分重要,但是,不能說已經(jīng)充分地開發(fā)出發(fā)現(xiàn)生詞的方法。從根本上講,生詞是層出不窮的,在詞素解析器的生詞處理研究中,發(fā)現(xiàn)生詞的方法是非常重要的。本實施方式的基本思想是基于如下假設(shè)“當(dāng)作為詞素解析對象的句子包含生詞時,多個不同的詞素解析器分別在生詞的周邊表現(xiàn)出不同的解析結(jié)果”。不過,各詞素解析器的輸出不同,也不是必然存在生詞,有時只是各詞素解析器所定義的單詞定義或詞性定義不同而已。 在本實施方式中,關(guān)注詞性差異模式的出現(xiàn)頻度,該出現(xiàn)頻度是通過對利用多個不同的詞素解析器獲得的解析結(jié)果進(jìn)行比較而得到的。這基于以下背景。 直接利用單詞的書寫來觀察差異部分等同于觀察幾乎所有的解析數(shù)據(jù),不高效。·在存在生詞的情況下,認(rèn)為在不同種類的詞素解析器中分別會出現(xiàn)特殊的詞性模式。·眾所周知,在詞素解析器中,出現(xiàn)頻度高的詞語應(yīng)該已經(jīng)登記在詞典中,而生詞大多包含在低頻度的模式中,所以,把頻度當(dāng)作基準(zhǔn)是合理的。這里,多個不同的詞素解析器(多種詞素解析器)是指所保存的詞典的內(nèi)容以及單詞間的連接規(guī)則的雙方或者任意一方互不相同的詞素解析器。作為詞典內(nèi)容不同的示例,可以舉出如下情況每個詞素解析器所收錄的單詞的個數(shù)或者所收錄的詞性的體系不同。作為單詞間的連接規(guī)則不同的示例,可以舉出如下情況在每個詞素解析器中,針對單詞間的連接所設(shè)定的分值(score)或者該分值的應(yīng)用規(guī)則(例如,成本最小法、詞素數(shù)最小法、概率模型等)不同。在本實施方式中,第I 第3詞素解析器A1、A2、A3分別對大量文章進(jìn)行解析。接著,自然語言處理裝置10使用它們的解析結(jié)果提取出大量的詞性差異模式,對各個詞性差異模式的出現(xiàn)次數(shù)(出現(xiàn)頻度)進(jìn)行計數(shù)。然后,自然語言處理裝置10根據(jù)該出現(xiàn)次數(shù),確定包含生詞候選的字符串。為了執(zhí)行該處理,自然語言處理裝置10具有作為功能結(jié)構(gòu)要素的結(jié)果取得部(結(jié)果取得單元)11、模式取得部(模式取得單元)12、存儲部(存儲單元)13、候選確定部(候選確定單兀)14以及結(jié)果輸出部15。
該自然語言處理裝置10由以下部分構(gòu)成執(zhí)行操作系統(tǒng)或應(yīng)用程序等的CPU、由ROM以及RAM構(gòu)成的主存儲部、由硬盤等構(gòu)成的補助存儲部、由網(wǎng)卡等構(gòu)成的通信控制部、鍵盤或鼠標(biāo)等輸入部以及監(jiān)視器等輸出部。自然語言處理裝置10的各個功能是通過在CPU或主存儲部中讀入規(guī)定的軟件,并在CPU的控制下使通信控制部、輸入部、輸出部等工作而執(zhí)行主存儲部或補助存儲部中的數(shù)據(jù)的讀出和寫入來實現(xiàn)的。處理所需要的數(shù)據(jù)或數(shù)據(jù)庫被存儲在主存儲部或補助存儲部內(nèi)。結(jié)果取得部11是取得通過使第I 第3詞素解析器A1、A2、A3分別對相同的一個以上句子(以下也稱為“文本”)進(jìn)行解析而獲得的解析結(jié)果的單元。解析結(jié)果是表示文本中包含的一個以上詞素和各詞素的詞性的數(shù)據(jù)。結(jié)果取得部11既可以從各詞素解析器接收解析結(jié)果,也可以從各詞素解析器讀出解析結(jié)果。結(jié)果取得部11將取得的多個解析結(jié)果(從3臺詞素解析器獲得的結(jié)果)輸出到模式取得部12。模式取得部12是執(zhí)行如下操作的單元檢測多個解析結(jié)果中的相同劃分位置,從各解析結(jié)果中提取出與按照該位置劃分的字符串對應(yīng)的一個以上的詞性,取得所提取出的該一個以上詞性的集合作為詞性差異模式。模式取得部12分別針對所輸入的多個解析結(jié)果,從句子的開頭依次檢測詞素的劃分位置,確定全部解析結(jié)果中相同的劃分位置(相同劃分位置)。接著,模式取得部12從各解析結(jié)果中提取出與按照相同劃分位置劃分后的各字符串對應(yīng)的一個以上的詞性,取得由提取出的全部詞性形成的集合作為詞性差異模式。使用圖2來說明這樣的模式取得部12的處理示例。圖2是第I 第3詞素解析器A1、A2、A3 (圖2中表示為解析器_1、解析器_2、解析器_3)針對“私ii^ L L·亡?!?watash1-ha-uttororin-to-shita)這個日語句子的解析結(jié)果。另外,上述日語可以翻譯為英語的“I was fascinated (我入迷了)”?!?i i 3 ”(uttororin)這個詞語是相當(dāng)于日語的“ )ο H,,(uttori)(英語的“fascinated (入迷)”)的生詞。圖2中,將分解后的各個詞與“名詞_代詞”、“助詞_提示助詞”等詞性關(guān)聯(lián)起來。另外,圖2的示例中,關(guān)于詞性,像“代詞”等那樣以一個層級進(jìn)行定義,或者像“助詞_提示助詞”等那樣以兩個層級進(jìn)行定義,不過,可以在各詞素解析器中任意地定義詞性層級。希望將上述日文解析(分解)為“私/ ii / ) ^ i 3 >9 & / i / L· t ” (watashi/ha/uttororin/to/shita)。然而,由于詞語“)° i ^ tv” (uttororin)在全部的詞素解析器A1、A2、A3中都是生詞,所以如圖2所示,針對詞語“ c 6 A Zv ” (uttororin)及其周邊詞語的解析結(jié)果在各詞素解析器中是不同的。圖2中的“ = = =劃分= = = ”這樣的線是相同劃分位置。因此,這種情況下,模式取得部12取得按照相同劃分位置劃分的“私”(watashi)、“ii^ r) L(hauttororinto)以及“ L· tz ” (shita)這三個字符串。其中,關(guān)于字符串“ ti ) ^ i 3
九 i ”(hauttororinto),第 I 詞素解析器 Al 解析為“(i/t rI h / (ha/ut/
tororin/to),第 2 詞素解析器 A2 解析為“ ti o / ^ t / / rI t ^(hau/tto/ro/rinto),第 3 詞素解析器 A3 解析為“ ti / ο ^ / t 1O / h, / i ”(ha/ut/torori/n/to)。另夕卜,對于字符串“私”(watashi)以及“ L· h” (shita),詞素的劃分方法、詞性的設(shè)定也在詞素解析器間存在區(qū)別。這樣,當(dāng)句子中包含生詞時,容易引起過度分割或者片斷化等解析錯誤。另外,無法正確地進(jìn)行詞性辨別的可能性也很大。接著,模式取得部12取得在多個詞素解析器之間詞性的辨別結(jié)果不同的部分,作為詞性差異模式。具體地講,模式取得部12取得對字符串“私”(watashi)進(jìn)行解析而得到的詞性“名詞_代詞” “ 名詞_普通名詞” “代詞”的集合,作為詞性差異模式“名詞_代詞I名詞_普通名詞I代詞”。同樣,模式取得部12取得與字符串“ii )。i 3 >9 ”(hauttororinto)對應(yīng)的詞性差異模式“助詞_提示助詞、動詞_獨立、名詞_固有名詞、助詞_格助詞I動詞、助詞_格助詞、名詞_普通名詞、形容詞I助詞_提示助詞、感嘆詞_補白、副詞、感嘆詞_補白、助詞_格助詞”。而且,模式取得部12取得與字符串“ L· t”(shita)對應(yīng)的詞性差異模式“動詞_獨立、助動詞I后綴_動詞性后綴I動詞_不能獨立、助動詞”。這里,符號“ I ”表示詞素解析器之間的劃分。當(dāng)這樣地取得了詞性差異模式時,模式取得部12對該模式目前為止的出現(xiàn)次數(shù)進(jìn)行計數(shù),將表示詞性差異模式及其出現(xiàn)次數(shù)的頻度數(shù)據(jù)存儲到存儲部13中?;蛘撸J饺〉貌?2對與取得的詞性差異模式對應(yīng)的出現(xiàn)次數(shù)增加I次,更新存儲部13內(nèi)的頻度數(shù)據(jù)。另外,模式取得部12也將表示詞性差異模式及與該模式對應(yīng)的字符串的字符串?dāng)?shù)據(jù)存儲到存儲部13中。例如,模式取得部12將如下字符串?dāng)?shù)據(jù)存儲到存儲部13中該字符串?dāng)?shù)據(jù)將字符串“ ii ) ^ i 3 >9 ”(hauttororinto)和詞性差異模式“助詞_提示助詞、動詞_獨立、名詞_固有名詞、助詞_格助詞I動詞、助詞_格助詞、名詞_普通名詞、形容詞I助詞_提示助詞、感嘆詞_補白、副詞、感嘆詞_補白、助詞_格助詞”彼此關(guān)聯(lián)起來。存儲部13是存儲上述頻度數(shù)據(jù)以及字符串?dāng)?shù)據(jù)的單元。即,存儲部13將詞性差異模式及其出現(xiàn)次數(shù)一起進(jìn)行存儲,而且還存儲與詞性差異模式對應(yīng)的字符串。候選確定部14是執(zhí)行如下操作的單元從存儲部13中提取出現(xiàn)次數(shù)為規(guī)定閾值以下的詞性差異模式,將與提取出的詞性差異模式對應(yīng)的字符串確定為包含生詞候選的字符串。所使用的閾值可以任意設(shè)定,這里對確定閾值的一個方式進(jìn)行說明。作為一個示例,從某個特定網(wǎng)站取得I萬件消息,使用4臺詞素解析器對構(gòu)成這些消息的約4萬5千個句子(每個句子的平均字?jǐn)?shù)約為30. 9個)進(jìn)行處理,取得頻度數(shù)據(jù)。然后,根據(jù)這些頻度數(shù)據(jù),按照每個出現(xiàn)次數(shù),對詞性差異模式的種類數(shù)量進(jìn)行合計,結(jié)果得到了圖3所示的結(jié)果。在圖3的示例中,詞性差異模式的總數(shù)為5829個。從這些詞性差異模式中,按照每個出現(xiàn)頻度隨機提取20個模式,調(diào)查是否存在生詞,結(jié)果得到了圖4所示的結(jié)果。根據(jù)圖4的結(jié)果可知,在出現(xiàn)次數(shù)低(例如1、2次等)的詞性差異模式中包含較多的生詞,另一方面,在出現(xiàn)次數(shù)高于20次的詞性差異模式中包含生詞的概率非常低。由此認(rèn)為,如果調(diào)查與出現(xiàn)頻度低的詞性差異模式對應(yīng)的字符串,則能夠高效地發(fā)現(xiàn)生詞,因此,考慮將閾值設(shè)定成20。不過,根據(jù)圖4的結(jié)果,也可以設(shè)為其他值(例如2、3、10等)。在按照圖3、4的示例將閾值設(shè)定成20時,候選確定部14參照存儲部13,提取與出現(xiàn)次數(shù)為20以下的5200個詞性差異模式對應(yīng)的字符串。由此,確定包含生詞候選的字符串(可能包含生詞的字符串)。候選確定部14向結(jié)果輸出部15輸出所提取(確定)的字符
串O結(jié)果輸出部15是以規(guī)定的方法輸出包含生詞候選的字符串的單元。例如,結(jié)果輸出部15可以在監(jiān)視器上顯示該字符串,或者將該字符串存儲到數(shù)據(jù)庫等記錄介質(zhì)中。另夕卜,結(jié)果輸出部15可以在打印機中打印該字符串,或者經(jīng)由網(wǎng)絡(luò)發(fā)送給其他裝置。用戶可以分析這樣地縮小范圍后的字符串(調(diào)查對象字符串),從而得到生詞。作為方法之一,用戶不是單純地按照是否包含生詞對調(diào)查對象字符串進(jìn)行分類,而是首先按照以下6種情況進(jìn)行分類。 (基準(zhǔn)I)只是詞性辨別發(fā)生錯誤(基準(zhǔn)2)判斷為詞素過度分割(基準(zhǔn)3)可判斷為包含生詞(基準(zhǔn)4)可判斷為不包含生詞(基準(zhǔn)5)包含所輸出的差異檢測部分的周邊在內(nèi),判斷為生詞(基準(zhǔn)6)是書寫錯誤/句子劃分錯誤等、由輸入決定的結(jié)果基準(zhǔn)I為如下情形雖然單詞分割的方式在各詞素解析器中是相同的,但是在詞性的辨別中確認(rèn)到錯誤。基準(zhǔn)2為如下情形由于將由多個詞構(gòu)成的復(fù)合詞分割為構(gòu)成單位,因此,單詞分割和詞性辨別看上去似乎是正確的,但是可以判斷為喪失了作為復(fù)合詞的含義?;鶞?zhǔn)3為如下情形在基準(zhǔn)1、2以外的情況下,由于采用了詞典中完全不同的項目作為詞素,因此,可以判斷為解析結(jié)果不適合作為語義的最小單位?;鶞?zhǔn)4為如下情形任何單詞分割/詞性辨別都沒有錯誤,可以判斷為解析結(jié)果適合作為語義的最小單位?;鶞?zhǔn)5為如下情形本來應(yīng)當(dāng)作為一個生詞來處理的字符串的僅一部分被當(dāng)作與詞性差異模式對應(yīng)的部分提取出來,但是還需要考慮其周邊的字符串。例如是如下情形在期望的生詞。匕6 M K” (uttororin)中,僅僅與“)^ i ”(utto)對應(yīng)的部分作為與詞性差異模式對應(yīng)的字符串提取出來。基準(zhǔn)6為如下情形作為生詞提取出來的意義不大,不作為分析對象。
用戶可以將符合上述6個基準(zhǔn)中的基準(zhǔn)3、5的字符串評價為包含生詞的字符串。另外,結(jié)果輸出部15輸出的調(diào)查對象字符串可以進(jìn)一步地通過計算機進(jìn)行處理,也可以進(jìn)行人工處理?;谏鲜?個基準(zhǔn)的評價可以利用任意手段來執(zhí)行。接著,使用圖5,說明圖1所示的自然語言處理裝置的動作(自然語言處理方法)。首先,結(jié)果取得部11從各詞素解析器Al、A2、A3取得解析結(jié)果(步驟S11,結(jié)果取得步驟)。接著,模式取得部12根據(jù)這些解析結(jié)果取得詞性差異模式(步驟S12,模式取得步驟),將表示該模式的出現(xiàn)次數(shù)的頻度數(shù)據(jù)和表示與該模式對應(yīng)的字符串的字符串?dāng)?shù)據(jù)存儲到存儲部13中(步驟S13,存儲步驟)。當(dāng)?shù)玫揭欢〝?shù)量以上的頻度數(shù)據(jù)以及字符串?dāng)?shù)據(jù)時,候選確定部14從存儲部13中提取出現(xiàn)次數(shù)為規(guī)定閾值以下的詞性差異模式(步驟S14,候選確定步驟)。然后,候選確定部14提取與提取出的詞性差異模式對應(yīng)的字符串,作為包含生詞候選的字符串(步驟S15,候選確定步驟)。最后,結(jié)果輸出部15輸出所提取的字符串(步驟S16)。用于在計算機中執(zhí)行上述自然語言處理裝置10的一系列處理的程序(自然語言處理程序)可以通過固定地記錄到例如⑶-ROM、DVD、ROM、半導(dǎo)體存儲器等有形記錄介質(zhì)上來提供。另外,該程序也可以作為疊加在載波上的數(shù)據(jù)信號經(jīng)由通信網(wǎng)絡(luò)來提供。自然語言處理程序具有與上述自然語言處理裝置10的功能對應(yīng)的模塊,通過在計算機中讀入并執(zhí)行這些模塊,由此實現(xiàn)上述功能。另外,自然語言處理程序的各模塊不僅可以安裝在一臺計算機中,也可以安裝 在多臺計算機中的任何一臺中。這種情況下,利用由該多個計算機構(gòu)成的計算機系統(tǒng),來執(zhí)行上述一系列處理。如以上說明的那樣,根據(jù)本實施方式,基于多種詞素解析器Al、A2、A3對相同的一個以上句子的解析結(jié)果,得到按照相同位置劃分的字符串的詞性差異模式。該詞性差異模式與其出現(xiàn)次數(shù)一起被存儲起來。然后,與出現(xiàn)次數(shù)為規(guī)定閾值以下的詞性差異模式對應(yīng)的字符串被確定為包含生詞候選的字符串。這樣,通過自動地提取被推定為存在生詞的概率高的字符串,由此限定了生詞的搜索范圍,相應(yīng)地,能夠高效地發(fā)現(xiàn)生詞。本實施方式的詞素解析可以在針對用日語那樣不進(jìn)行詞與詞之間的分割的語言所書寫的句子進(jìn)行解析時,用于在該解析的最初階段識別單詞。因此,本發(fā)明不限于日語,也可以應(yīng)用于不進(jìn)行詞與詞之間分割的其他語言(例如中文和韓文)的處理。在本實施方式中,如果使用了詞典的內(nèi)容互不相同的多個詞素解析器Al、A2、A3,則能夠更高效地提取實際包含生詞的字符串,因此相應(yīng)地,能夠高效地發(fā)現(xiàn)生詞。在使用了單詞間的連接規(guī)則互不相同的多個詞素解析器Al、A2、A3的情況下,也能夠取得同樣的效
果O以上,基于本發(fā)明的實施方式對本發(fā)明進(jìn)行了詳細(xì)說明。不過,本發(fā)明不限于上述實施方式。本發(fā)明可以在不脫離其思想的范圍內(nèi)進(jìn)行各種變形。標(biāo)號說明Al、A2、A3…詞素解析器,10…自然語言處理裝置,11…結(jié)果取得部(結(jié)果取得單元),12…模式取得部(模式取得單元),13…存儲部(存儲單元),14…候選確定部(候選確定單元),15…結(jié)果輸出部。
權(quán)利要求
1.一種自然語言處理裝置,其具有 結(jié)果取得單元,其取得通過使多種詞素解析器分別對相同的一個以上句子進(jìn)行解析而獲得的、表示該一個以上句子中包含的各詞素的詞性的解析結(jié)果; 模式取得單元,其檢測所述結(jié)果取得單元所取得的多個所述解析結(jié)果中的相同劃分位置,從各解析結(jié)果中提取與按照該相同劃分位置劃分的字符串對應(yīng)的一個以上的所述詞性,取得所提取出的該一個以上的詞性的集合,作為詞性差異模式; 存儲單元,其將所述模式取得單元所取得的詞性差異模式與該詞性差異模式的出現(xiàn)次數(shù)一起進(jìn)行存儲;以及 候選確定單元,其從所述存儲單元中提取所述出現(xiàn)次數(shù)為規(guī)定閾值以下的所述詞性差異模式,將與提取出的詞性差異模式對應(yīng)的所述字符串確定為包含生詞候選的字符串。
2.根據(jù)權(quán)利要求1所述的自然語言處理裝置,其中, 在所述多種詞素解析器之間,各詞素解析器中存儲的詞典的內(nèi)容不同。
3.根據(jù)權(quán)利要求2所述的自然語言處理裝置,其中, 在所述多種詞素解析器之間,所述詞典中收錄的單詞的個數(shù)不同。
4.根據(jù)權(quán)利要求2或3所述自然語言處理裝置,其中, 在所述多種詞素解析器之間,所述詞典中收錄的所述詞性的體系不同。
5.根據(jù)權(quán)利要求1 4中任意一項所述的自然語言處理裝置,其中, 在所述多種詞素解析器之間,各詞素解析器中存儲的單詞間的連接規(guī)則不同。
6.根據(jù)權(quán)利要求5所述的自然語言處理裝置,其中, 在所述多種詞素解析器之間,針對所述單詞間的連接設(shè)定的分值不同。
7.根據(jù)權(quán)利要求5或6所述的自然語言處理裝置,其中, 在所述多種詞素解析器之間,與所述單詞間的連接相關(guān)的分值應(yīng)用規(guī)則不同。
8.一種自然語言處理方法,該自然語言處理方法由自然語言處理裝置來執(zhí)行,其特征在于,該自然語言處理方法包含以下步驟 結(jié)果取得步驟,取得通過使多種詞素解析器分別對相同的一個以上句子進(jìn)行解析而獲得的、表示該一個以上句子中包含的各詞素的詞性的解析結(jié)果; 模式取得步驟,檢測在所述結(jié)果取得步驟中取得的多個所述解析結(jié)果中的相同劃分位置,從各解析結(jié)果中提取與按照該相同劃分位置劃分的字符串對應(yīng)的一個以上的所述詞性,取得所提取出的該一個以上的詞性的集合,作為詞性差異模式; 存儲步驟,將在所述模式取得步驟中取得的詞性差異模式與該詞性差異模式的出現(xiàn)次數(shù)一起存儲到存儲單元中;以及 候選確定步驟,從所述存儲單元中提取所述出現(xiàn)次數(shù)為規(guī)定閾值以下的所述詞性差異模式,將與提取出的詞性差異模式對應(yīng)的所述字符串確定為包含生詞候選的字符串。
9.一種自然語言處理程序,其使計算機作為如下單元發(fā)揮功能 結(jié)果取得單元,其取得通過使多種詞素解析器分別對相同的一個以上句子進(jìn)行解析而獲得的、表示該一個以上句子中包含的各詞素的詞性的解析結(jié)果; 模式取得單元,其檢測所述結(jié)果取得單元所取得的多個所述解析結(jié)果中的相同劃分位置,從各解析結(jié)果中提取與按照該相同劃分位置劃分的字符串對應(yīng)的一個以上的所述詞性,取得所提取出的該一個以上的詞性的集合,作為詞性差異模式;存儲單元,其將所述模式取得單元所取得的詞性差異模式與該詞性差異模式的出現(xiàn)次數(shù)一起進(jìn)行存儲;以及 候選確定單元,其從所述存儲單元中提取所述出現(xiàn)次數(shù)為規(guī)定閾值以下的所述詞性差異模式,將與提取出的詞性差異模式對應(yīng)的所述字符串確定為包含生詞候選的字符串。
10.一種計算機可讀記錄介質(zhì),其存儲有使計算機作為如下單元發(fā)揮功能的自然語言處理程序 結(jié)果取得單元,其取得通過使多種詞素解析器分別對相同的一個以上句子進(jìn)行解析而獲得的、表示該一個以上句子中包含的各詞素的詞性的解析結(jié)果; 模式取得單元,其檢測所述結(jié)果取得單元所取得的多個所述解析結(jié)果中的相同劃分位置,從各解析結(jié)果中提取與按照該相同劃分位置劃分的字符串對應(yīng)的一個以上的所述詞性,取得所提取出的該一個以上的詞性的集合,作為詞性差異模式; 存儲單元,其將所述模式取得單元所取得的詞性差異模式與該詞性差異模式的出現(xiàn)次數(shù)一起進(jìn)行存儲;以及 候選確定單元,其從所述存儲單元中提取所述出現(xiàn)次數(shù)為規(guī)定閾值以下的所述詞性差異模式,將與提取出的詞性差異模式對應(yīng)的所述字符串確定為包含生詞候選的字符串。
全文摘要
自然語言處理裝置(10)具有結(jié)果取得部(11),其取得通過使多種詞素解析器(A1、A2,A3)分別對相同的一個以上句子進(jìn)行解析而獲得的、表示該一個以上句子中包含的各詞素的詞性的解析結(jié)果;模式取得部(12),其檢測多個解析結(jié)果中的相同劃分位置,從各解析結(jié)果中提取與按照該相同劃分位置劃分的字符串對應(yīng)的一個以上的詞性,取得所提取出的該一個以上的詞性的集合,作為詞性差異模式;存儲部(13),其將取得的詞性差異模式和該詞性差異模式的出現(xiàn)次數(shù)一起進(jìn)行存儲;以及候選確定部(14),其從存儲部(13)中提取出現(xiàn)次數(shù)為規(guī)定閾值以下的詞性差異模式,將與提取出的詞性差異模式對應(yīng)的字符串確定為包含生詞候選的字符串。
文檔編號G06F17/27GK103038762SQ20118002646
公開日2013年4月10日 申請日期2011年11月28日 優(yōu)先權(quán)日2010年12月17日
發(fā)明者關(guān)根聰, 若原基 申請人:樂天株式會社