本發(fā)明涉及文本分割裝置以及文本分割方法。
背景技術(shù):
近年來,因特網(wǎng)上的信息飛躍性地增大,使用了大數(shù)據(jù)的商務(wù)增加,所以希望高效地處理大數(shù)據(jù)。如日語、漢語或者韓語的文件那樣不利用空白等分隔字符分隔單詞和單詞的表示的文件的情況下,為了計(jì)算單詞的出現(xiàn)頻率而進(jìn)行詞素解析。
詞素解析是將文本分割成詞素,對各詞素賦予詞類信息的處理。通過詞素解析所得的詞素有時也作為單詞來處理。通過進(jìn)行這樣的詞素解析,能夠決定文件中的單詞間的關(guān)系以及單詞的詞類,并將文件中的文本分割為單詞。然而,由于詞素解析的處理負(fù)荷較大,所以處理大量的文本花費(fèi)很長的時間。
也已知一種高速地將句子分割成2個以上的單詞的單詞分割裝置(例如參照專利文獻(xiàn)1)。該單詞分割裝置從能夠儲存1個以上的單詞、以及單詞與作為分割該單詞后的結(jié)果的2個以上的分割單詞的組即1個以上的分割信息的單詞分割用辭典中,從作為接受的句子的前端的句子的指針獲取與最大長度的字符串一致的單詞。而且,在具有與獲取到的單詞對應(yīng)的2個以上的分割單詞的情況下,單詞分割裝置進(jìn)行代替一致的單詞而獲取2個以上的分割單詞的分割單詞獲取處理。單詞分割裝置將句子的指針移動到一致的單詞的下一個字符后,進(jìn)行分割單詞獲取處理直到包括句子的最后的字符的單詞為止,并獲取分割句子所得的2個以上的單詞的集合即第一分割結(jié)果。
也已知能夠正確且迅速地進(jìn)行詞素解析的詞素解析系統(tǒng)(例如參照專利文獻(xiàn)2)。在該詞素解析系統(tǒng)的漢字字符串詞素N字符登記辭典中,詞素如果是若使其它任意字符串后續(xù)并結(jié)合則成為該詞素的字符串中被分隔的2個以上的詞素的情況,則與該詞素建立關(guān)聯(lián)地一并記錄該分 隔位置的信息。漢字字符串詞素解析程序利用最長一致法獲取第一詞素候選,如果其中記錄有分隔位置信息則從該位置再次利用最長一致法嘗試第二詞素候選的獲取。在平假名詞素接合列表辭典中預(yù)先記錄考慮語法上的連接的正確性使多個平假名詞素連接的詞素。平假名字符串詞素解析程序通過平假名詞素連接列表辭典與字符串?dāng)?shù)據(jù)的比較處理來獲取詞素。
專利文獻(xiàn)1:日本特開2014-106707號公報(bào)
專利文獻(xiàn)2:日本特開2002-32366號公報(bào)
在上述的以往的單詞分割裝置或者詞素解析系統(tǒng)中,基于僅文本的一部分的信息來決定分割位置,所以不一定在適當(dāng)?shù)奈恢梅指钗谋尽?/p>
此外,所述的問題并不限于為了計(jì)算單詞的出現(xiàn)頻率而分割文本的情況,為了其它的文本解析而分割文本的情況下也產(chǎn)生。
技術(shù)實(shí)現(xiàn)要素:
在一個方面,本發(fā)明的目的在于在適當(dāng)?shù)奈恢蒙细咝У胤指钗谋尽?/p>
在一個方案中,文本分割程序使計(jì)算機(jī)執(zhí)行以下的處理。
(1)計(jì)算機(jī)從將被分割成多個單詞的登記字符串和區(qū)分單詞數(shù)建立對應(yīng)的字符串分割信息檢索文本所包含的第一字符串。
(2)計(jì)算機(jī)在第一字符串與登記字符串對應(yīng)的情況下,將第一字符串中的、包括與登記字符串建立對應(yīng)的區(qū)分單詞數(shù)的單詞的第二字符串分割為該區(qū)分單詞數(shù)的單詞。
根據(jù)實(shí)施方式,能夠在適當(dāng)?shù)奈恢蒙细咝У胤指钗谋尽?/p>
附圖說明
圖1是文本分割裝置的功能的結(jié)構(gòu)圖。
圖2是文本分割處理的流程圖。
圖3是表示字符串分割信息的圖。
圖4是表示文本分割處理的具體例子的流程圖。
圖5是進(jìn)行區(qū)分單詞數(shù)登記處理的文本分割裝置的功能的結(jié)構(gòu)圖。
圖6是區(qū)分單詞數(shù)登記處理的流程圖。
圖7是信息處理裝置的結(jié)構(gòu)圖。
附圖文字說明
101…文本分割裝置;111…存儲部;112…分割部;121…字符串分割信息;501…區(qū)分單詞數(shù)決定部;701…CPU;702…存儲器;703…輸入裝置;704…輸出裝置;705…輔助存儲裝置;706…介質(zhì)驅(qū)動裝置;707…網(wǎng)絡(luò)連接裝置;708…總線,709…可移動型記錄介質(zhì)。
具體實(shí)施方式
以下,參照附圖,詳細(xì)地對實(shí)施方式進(jìn)行說明。
例如,使用專利文獻(xiàn)1的單詞分割裝置來分割“そうはいってもっと進(jìn)んでください”這個文本的情況下,通過單詞分割用辭典的最長一致檢索來分割文本。因此,正確的分割結(jié)果雖是“そう/はいって/もっと/進(jìn)んで/ください”,但有時獲得“そう/は/いっても/っと進(jìn)んでください”這樣的不希望分割結(jié)果。
可以認(rèn)為其原因在于盡管存在分割位置根據(jù)緊接著某個單詞的后面的單詞而不同的情況,但不檢測比單詞寬的范圍的上下文,而單純利用最長一致檢索來決定分割位置這點(diǎn)。
另外,在使用專利文獻(xiàn)2的詞素解析系統(tǒng)來分割“自然言語処理技術(shù)”這個復(fù)合詞的文本的情況下,從后退N字符位置再次進(jìn)行最長一致檢索,并在存在第二詞素候選的單詞的情況下,采用該分隔位置。
因此,即使在基于第一詞素候選獲得了“自然言語処理/技術(shù)”那樣的正確的分割結(jié)果的情況下,有時也基于第二詞素候選來采用“自然/言語処理技術(shù)”這樣的錯誤的分割結(jié)果。同樣地,“原子力學(xué)會”的正確的分割結(jié)果是“原子力/學(xué)會”,但有時基于第二詞素候選來采用“原子/力學(xué)/會”這樣的錯誤的分割結(jié)果。
可以認(rèn)為其原因在于不檢測復(fù)合詞的上下文,而基于局部的信息來決定分割位置這點(diǎn)。
這樣,即使基于僅文本的一部分的信息來決定分割位置,也由于不檢測文本全體的上下文,所以有時生成錯誤的分割結(jié)果。然而,由于日語等的句子無限地存在,所以并不是在辭典中登記全部的句子的分割結(jié)果。
圖1示出實(shí)施方式的文本分割裝置的功能的構(gòu)成例。圖1的文本分割裝置101包括存儲部111以及分割部112。
存儲部111存儲將分割成多個單詞的登記字符串和區(qū)分單詞數(shù)建立對應(yīng)的字符串分割信息121。分割部112參照存儲部111存儲的字符串分割信息121來進(jìn)行文本分割處理。
圖2是表示圖1的文本分割裝置101進(jìn)行的文本分割處理的例子的流程圖。首先,分割部112從字符串分割信息121中檢索文本所包含的第一字符串(步驟201)。而且,在第一字符串與登記字符串對應(yīng)的情況下,分割部112將第一字符串中的包括與登記字符串建立對應(yīng)的區(qū)分單詞數(shù)的單詞的第二字符串分割成該區(qū)分單詞數(shù)的單詞(步驟202)。
根據(jù)這樣的文本分割裝置101,能夠?qū)⑽谋驹谶m當(dāng)?shù)奈恢蒙细咝У胤指睢?/p>
文本分割裝置101能夠應(yīng)用于解析大量的文本的文本解析。例如也可以對計(jì)算文本內(nèi)的各單詞的出現(xiàn)頻率的統(tǒng)計(jì)處理應(yīng)用文本分割裝置101。
圖3示出針對日語文本的字符串分割信息121的例子。圖3的字符串分割信息121是單詞單位的n-gram(n元語法)被登記成字符串的n-gram表格,與用于文本分割處理的辭典對應(yīng)。該n-gram表格的各項(xiàng)包括項(xiàng)的識別信息(ID)、n-gram、區(qū)分單詞數(shù)、字符串長、字符種類、和助詞以及助動詞的位置。
n-gram表示包括n個單詞的字符串,區(qū)分單詞數(shù)表示n個單詞中作為分割結(jié)果被采用的單詞的個數(shù)。區(qū)分單詞數(shù)是1以上n以下的整數(shù), 但優(yōu)選使用比n小的區(qū)分單詞數(shù)。字符串長表示n-gram所包含的字符的個數(shù),字符種類表示n-gram所包含的各單詞的字符的種類。字符種類“1”表示單詞所包含的字符全部是平假名或者片假名,字符種類“0”表示單詞包括除此以外的字符。助詞以及助動詞的位置表示n-gram所包含的助詞以及助動詞的出現(xiàn)位置。
例如,ID“1”的字符串“そうはいっても”是由“そう”、“は”、“いって”、以及“も”構(gòu)成的4-gram,區(qū)分單詞數(shù)為1,字符串長為7。字符種類“1111”表示四個單詞的各個是平假名或者片假名,助詞以及助動詞的位置“2,4”表示從4-gram的前端起第二個單詞和第四個單詞是助詞或者助動詞。
ID“5”的字符串“そうはいはいと人”是由“そう”、“はいはい”、“と”、以及“人”構(gòu)成的4-gram,區(qū)分單詞數(shù)為3,字符串長為9。字符種類“1110”表示四個單詞中第一個~第三個單詞是平假名或者片假名,第四個單詞包括除此以外的字符,助詞以及助動詞的位置“3”表示第三單詞是助詞或者助動詞。
另外,ID“3”等的項(xiàng)中的助詞以及助動詞的位置“-1”表示n-gram不包括助詞或者助動詞。
圖3中僅示出2-gram~4-gram的特定的字符串的項(xiàng),但該n-gram表格中也包括未圖示的2-gram~4-gram的其它字符串的項(xiàng)和5-gram~10-gram的項(xiàng)。并且,可以登記n為11以上的n-gram。通過增大n將比較長的字符串登記于n-gram表格中,能夠檢測比單詞寬的范圍的上下文。
例如通過利用高精度的詞素解析處理對多個文件的文本進(jìn)行解析,能夠自動地生成n-gram表格。即使是相同的字符串,根據(jù)使用的領(lǐng)域而可以登記為不同的n-gram。例如字符串“原子力學(xué)”能夠登記為“原子力—學(xué)”以及“原子—力學(xué)”這兩個2-gram。決定各項(xiàng)的區(qū)分單詞數(shù)的方法后述。
圖4是表示圖2的文本分割處理的具體例子的流程圖。首先,分割部112將分割對象的文本的前端位置作為開始位置,通過最長一致檢索 從登記在字符串分割信息121的字符串中檢索從文本內(nèi)的開始位置開始的字符串(步驟401)。而且,分割部112檢查從開始位置開始的字符串、和字符串分割信息121的任意一個項(xiàng)的字符串是否一致(步驟402)。
在從開始位置開始的字符串與哪一項(xiàng)的字符串都不一致的情況下(步驟402:否),分割部112使開始位置向后方移位1字符(步驟406),反復(fù)步驟401以后的處理。
在從開始位置開始的字符串與任意一個項(xiàng)的字符串一致的情況下(步驟402:是),分割部112參照一致的字符串中與最長的字符串對應(yīng)的項(xiàng)的區(qū)分單詞數(shù)(步驟403)。而且,分割部112從文本內(nèi)的開始位置起將與該區(qū)分單詞數(shù)對應(yīng)的部分的字符串分割成該項(xiàng)中所登記的單詞。
接下來,分割部112使開始位置向后方移位與區(qū)分單詞數(shù)對應(yīng)的部分的字符串的字符數(shù)(步驟404),檢查一致的最長的字符串的末尾是否是文本的末尾(步驟405)。在最長的字符串的末尾不是文本的末尾的情況下(步驟405:否),分割部112反復(fù)步驟401以后的處理。
在最長的字符串的末尾是文本的末尾的情況下(步驟405:是),分割部112將開始位置以后的字符串分割成與最長的字符串對應(yīng)的項(xiàng)中所登記的單詞,并結(jié)束處理。
例如在分割對象的文本是“そうはいってもっと進(jìn)んでください”的情況下,將前端的2字符“そう”作為檢索對象,若通過前方一致檢索來檢索圖3的n-gram表格,則提取ID“1”~I(xiàn)D“9”這9個項(xiàng)。
這些項(xiàng)中與最長的字符串長“12”對應(yīng)的項(xiàng)是ID“3”以及ID“4”的項(xiàng)。然而,ID“3”的字符串“そうはいってもっとむこう”和ID“4”的字符串“そうはいってずっとむこう”都與分割對象的文本不一致。
與第二長的字符串長“9”對應(yīng)的項(xiàng)是ID“5”、ID“6”、以及ID“8”的項(xiàng)。其中,僅ID“8”的字符串“そうはいってもっと”與分割對象的文本一致,所以基于該項(xiàng)來分割分割對象的文本。該情況下,ID“8”的區(qū)分單詞數(shù)為“1”,在字符串所包含的3個單詞中第一個的“そう”和第二個的“はいって”之間的位置上分割分割對象的文本,開始位置移位至該分割位置。
接下來,將剩余的“はいってもっと進(jìn)んでください”的前端的2字符“はい”作為檢索對象,若通過前方一致檢索來檢索n-gram表格,則提取ID“10”~I(xiàn)D“19”這10個項(xiàng)。
這些項(xiàng)中與最長的字符串長“11”對應(yīng)的項(xiàng)是ID“11”以及ID“12”的項(xiàng)。然而,ID“11”的字符串“はいってもっとむこう”和ID“12”的字符串“はいってずっとむこう”都與剩余的文本不一致。
與第二長的字符串長“10”對應(yīng)的項(xiàng)是ID“16”以及ID“17”的項(xiàng)。然而,ID“16”的字符串“はいってもっとむこう”和ID“17”的字符串“はいってずっとむこう”都與剩余的文本不一致。
與第三長的字符串長“8”對應(yīng)的項(xiàng)是ID“14”以及ID“19”的項(xiàng)。然而,ID“14”的字符串“はいはいと簡単”與ID“19”的字符串“はいってください“都與剩余的文本不一致。
與第四長的字符串長“7”對應(yīng)的項(xiàng)是ID“10”、ID“13”以及ID“18”的項(xiàng)。其中,由于僅ID“18”的字符串“はいってもっと”與剩余的文本一致,所以基于該項(xiàng)來分割剩余的文本。該情況下,由于ID“18”的區(qū)分單詞數(shù)為“1”,所以在字符串所包含的2個單詞中的第一個的“はいって”和第二個的“もっと”之間的位置上分割剩余的文本,開始位置移位至該分割位置。
接下來,若將剩余的“もっと進(jìn)んでください”的前端的2字符“もっ”作為檢索對象,通過前方一致檢索來檢索n-gram表格,則提取ID“20”以及ID“21”這2個項(xiàng)。
這些項(xiàng)的字符串長都為“6”,但由于僅ID“20”的字符串“もっと進(jìn)んで”與剩余的文本一致,所以基于該項(xiàng)來分割剩余的文本。該情況下,由于ID“20”的區(qū)分單詞數(shù)為“1”,所以在字符串所包含的2個單詞中第一個的“もっと”和第二個的“進(jìn)んで”之間的位置上分割剩余的文本,開始位置移位至該分割位置。之后,對剩余的“進(jìn)んでください”重復(fù)同樣的分割處理。
根據(jù)這樣的文本分割處理,并不是通過最長一致檢索而分割一致的字符串的全部而僅分割一部分,能夠在接下來的最長一致檢索的檢索對 象中包括剩余的部分。此時,通過將更長的字符串登記于字符串分割信息121,能夠一邊基于較寬的范圍的上下文來比較多個登記字符串,一邊緩緩地確定分割結(jié)果。
例如也能夠如多個登記字符串間共用的部分那樣,僅對基于上下文判定為可能的部分確定分割結(jié)果,而對除此以外的部分不確定分割結(jié)果?!挨饯Δ悉い盲皮猡盲冗M(jìn)んでください”的例子中,前端的“そう”與判定為可能的部分對應(yīng),“はいって”以后的部分與除此以外的部分對應(yīng)。
根據(jù)圖4的文本分割處理,也能夠?qū)⒆址指钚畔?21內(nèi)包括未作為單詞而存在的未知詞的字符串分割成多個單詞。
例如“XY自動車交通(株)の今期の業(yè)績は…”這個文本是分割對象,在“XY”是未知詞的情況下,首先,前端的“X”被設(shè)定為開始位置。然而,由于從“X”開始的字符串與字符串分割信息121的任意項(xiàng)都不一致,所以接下來,開始位置移位1字符,“Y”被設(shè)定為開始位置。然而,由于從“Y”開始的字符串與字符串分割信息121的任意一個項(xiàng)都不一致,所以接下來,開始位置移位1字符,“自”被設(shè)定為開始位置。
此處,“自動車-交通-(株)-の”這個4-gram被登記在字符串分割信息121中,若其區(qū)分單詞數(shù)為“3”,則字符串“自動車交通(株)”被分割成“自動車”、“交通”、以及“(株)”這三個單詞。并且,“自動車交通(株)”前面的字符串“XY”作為單詞被采用。由此,能夠?qū)ⅰ癤Y自動車交通(株)”如“XY/自動車/交通/(株)”那樣分割為四個單詞。
另外,在字符串分割信息121內(nèi)作為單詞而存在,但即使在未登記包括該單詞的字符串的情況下,也能夠?qū)⑦@樣的未登記字符串分割為多個單詞。
例如“そんなスリッパの…”這個文本是分割對象,在“そんなスリッパ”是未登記字符串的情況下,首先,前端的“そ”被設(shè)定為開始位置。然而由于從“そ”開始的字符串與字符串分割信息121的哪一項(xiàng)都不一致,所以接下來,開始位置移位1字符,“ん”被設(shè)定為開始位 置。
然而,由于從“ん”開始的字符串與字符串分割信息121的哪一項(xiàng)都不一致,所以接下來,開始位置移位1字符,“な”被設(shè)定為開始位置。然而,從“な”開始的字符串與字符串分割信息121的哪一項(xiàng)都不一致,所以接下來,開始位置移位1字符,“ス”被設(shè)定為開始位置。
此處,“スリッパ-の”這個2-gram被登記在字符串分割信息121中,若其區(qū)分單詞數(shù)為“1”,則字符串“スリッパの”被分割為“スリッパ”以及“の”2個單詞。并且,“スリッパの”的前面的字符串“そんな”作為單詞被采用。由此,能夠?qū)ⅰ挨饯螭圣攻辚氓选比纭挨饯螭?スリッパ”那樣分割成2個單詞。
這樣,根據(jù)圖4的文本分割處理,即使是未被登記到字符串分割信息121中的字符串,也能夠適當(dāng)?shù)胤指睢R虼?,無需將包括所有的單詞的多個字符串登記于字符串分割信息121中,只要僅登記統(tǒng)計(jì)上出現(xiàn)頻率較大的字符串就可以。由此,能夠抑制用于存儲字符串分割信息121的存儲區(qū)域的增大。
圖5示出進(jìn)行區(qū)分單詞數(shù)登記處理的文本分割裝置的功能的構(gòu)成例。圖5的文本分割裝置101具有在圖1的文本分割裝置101追加區(qū)分單詞數(shù)決定部501的構(gòu)成。區(qū)分單詞數(shù)決定部501基于字符串分割信息121的各項(xiàng)的字符串的屬性來決定區(qū)分單詞數(shù),并將決定的區(qū)分單詞數(shù)登記于字符串分割信息121。
圖6是表示區(qū)分單詞數(shù)決定部501進(jìn)行的區(qū)分單詞數(shù)登記處理的例子的流程圖。首先,區(qū)分單詞數(shù)決定部501將字符串分割信息121的一個項(xiàng)中所登記的字符串作為處理對象,提取該字符串的屬性(步驟601),并基于提取的屬性來決定與處理對象的字符串對應(yīng)的區(qū)分單詞數(shù)(步驟602)。
接下來,區(qū)分單詞數(shù)決定部501檢查其它項(xiàng)中是否存在與處理對象的字符串相同的字符串(步驟603)。在存在相同的字符串的情況下(步驟603:是),區(qū)分單詞數(shù)決定部501將決定的區(qū)分單詞數(shù)變更為多個相同的字符串共用的單詞的個數(shù)(步驟604)。而且,區(qū)分單詞數(shù)決定部 501將變更后的區(qū)分單詞數(shù)登記于處理對象的字符串的項(xiàng)(步驟605)
另一方面,在不存在相同的字符串的情況下(步驟603:否),區(qū)分單詞數(shù)決定部501將決定的區(qū)分單詞數(shù)登記于處理對象的字符串的項(xiàng)(步驟605)。
接下來,區(qū)分單詞數(shù)決定部501檢查是否處理了字符串分割信息121的全部項(xiàng)(步驟606)。在剩余未處理的項(xiàng)的情況下(步驟606:否),區(qū)分單詞數(shù)決定部501將下一個項(xiàng)中所登記的字符串作為處理對象,反復(fù)步驟601以后的處理。而且,在處理了全部項(xiàng)的情況下(步驟606:是),區(qū)分單詞數(shù)決定部501結(jié)束處理。
區(qū)分單詞數(shù)決定部501可以在圖4的文本分割處理的開始前進(jìn)行圖6的區(qū)分單詞數(shù)登記處理,也可以與文本分割處理并行地進(jìn)行區(qū)分單詞數(shù)登記處理。
在圖6的步驟601中所提取的處理對象的字符串的屬性能夠包括字符串的一部分或者全部所包含的字符的個數(shù)、字符串所包含的單詞的字符種類、或者字符串內(nèi)的規(guī)定的詞類的位置中的至少一個。單詞的字符種類例如表示平假名或者片假名、除此以外的字符等,作為規(guī)定的詞類,例如使用助詞以及助動詞。
由于包括字符種類是平假名或者片假名的單詞的字符串大多不唯一地決定分割位置,所以優(yōu)選比包括平假名以及片假名以外的單詞的字符串的區(qū)分單詞數(shù)小地設(shè)定這樣的字符串的區(qū)分單詞數(shù)。
另外,由于包括助詞或者助動詞的字符串也大多不唯一地決定分割位置,所以優(yōu)選比不包括助詞以及助動詞的字符串的區(qū)分單詞數(shù)小地設(shè)定這樣的字符串的區(qū)分單詞數(shù)。
在步驟602中,區(qū)分單詞數(shù)決定部501能夠例如按照以下的順序決定處理對象的字符串的區(qū)分單詞數(shù)z。
首先,區(qū)分單詞數(shù)決定部501在從字符串的前端起第n個單詞(最后的單詞)為標(biāo)點(diǎn)符號(“?!被蛘摺?,”)的情況下,設(shè)定為z=n,而在第n個單詞不是標(biāo)點(diǎn)符號的情況下,設(shè)定為z=n-1。
接下來,區(qū)分單詞數(shù)決定部501檢查第n個單詞的字符種類、和第(n-1)個單詞的詞類。
在第(n-1)個單詞是助詞或者助動詞的情況下,至該單詞為止的字符串與一個文節(jié)(單詞的連貫)對應(yīng),第(n-1)個單詞和第n個單詞之間有可能存在文節(jié)的邊界。然而,在其下一個的第n個單詞是平假名或者片假名的情況下,第(n-1)個單詞與第n個單詞之間未必存在邊界。反之,在第n個單詞是平假名以及片假名以外的字符的情況下,可以說在第(n-1)個單詞與第n個單詞之間存在邊界的可能性較高。
因此,在第n個單詞的字符種類是“0”,第(n-1)個單詞是助詞或者助動詞的情況下,區(qū)分單詞數(shù)決定部501不變更z。
另一方面,在第n個單詞的字符種類是“1”的情況下,或者第(n-1)個單詞是助詞以及助動詞以外的詞類的情況下,區(qū)分單詞數(shù)決定部501按照以下的順序使z減少。
首先,區(qū)分單詞數(shù)決定部501使用從字符串的前端到第z個單詞為止的范圍的字符的個數(shù)k,檢查是否是k<z*3。在z=n的情況下,k表示處理對象的字符串所包含的字符的總數(shù),在z=n-1的情況下,k表示處理對象的字符串的第一個~第(n-1)個單詞所包含的字符的個數(shù)。
由于在字符串所包含的字符的個數(shù)較少的情況下,大多不唯一地決定分割位置,所以優(yōu)選減小z。因此,在k<z*3的情況下,區(qū)分單詞數(shù)決定部501設(shè)定為z=z-1。
另外,即使在字符串所包含的字符的個數(shù)不少的情況下,在字符種類是平假名或者片假名時,大多不唯一地決定分割位置。因此,在k≥z*3,第一個~第(n-1)個單詞的字符種類全部是“1”的情況下,區(qū)分單詞數(shù)決定部501也設(shè)定為z=z-1。
此外,區(qū)分單詞數(shù)決定部501可以將k與其它閾值相比較,來代替使k與z*3相比較,也可以將z設(shè)定為更小的值,來代替設(shè)定為z=z-1。
這樣,通過基于字符串分割信息121中所登記的字符串的屬性來決定區(qū)分單詞數(shù),從而根據(jù)各字符串的上下文來設(shè)定確定分割結(jié)果的部 分。由此,能夠不使處理速度降低,就以較高的精度分割文本。
另外,在步驟604中,區(qū)分單詞數(shù)決定部501從前端起對是多個項(xiàng)中所登記的相同的字符串、且分割位置不同的字符串彼此進(jìn)行比較,將共用的單詞的個數(shù)設(shè)定為z。但是,在共用的單詞的個數(shù)為步驟602中所決定的區(qū)分單詞數(shù)以上的情況下,區(qū)分單詞數(shù)決定部501可以不變更決定的區(qū)分單詞數(shù)。
在登記分割位置不同的相同的字符串的情況下,通過將這些字符串的分割結(jié)果共用的單詞的個數(shù)設(shè)定為區(qū)分單詞數(shù),能夠降低在錯誤的位置上分割由剩余的單詞構(gòu)成的字符串的風(fēng)險(xiǎn)。
例如圖3的ID“1”的“そうはいっても”是處理對象的字符串的情況下,n=4,第四個單詞“も”不是標(biāo)點(diǎn)符號,所以設(shè)定為z=n-1=3。接下來,由于第四個單詞“も”的字符種類是“1”,所以檢查是否是k<z*3。該情況下,由于k=2+1+3=6,所以k<z*3=9,決定為z=z-1=2(步驟602)。
接下來,ID“9”的“そうはいっても”是相同的字符串,ID“1”的“そう-は-いって-も”與ID“9”的“そうはいっても”共用的單詞僅是“そう”,所以變更為z=1(步驟604)。
在ID“2”的“そうはいってた”是處理對象的字符串的情況下,同樣地決定為z=2(步驟602)。并且,若假定為其它項(xiàng)中登記了“そう-はいって-た”這個3-gram,則變更為z=1(步驟604)。
在ID“3”的“そうはいってもっとむこう”是處理對象的字符串的情況下,由于n=4,第四個單詞“むこう”并不是標(biāo)點(diǎn)符號,所以設(shè)定為z=n-1=3。接下來,由于第四個單詞“むこう”的字符種類是“1”,所以檢查是否是k<z*3。該情況下,由于k=2+4+3=9,所以k=z*3,但第一個單詞“そう”、第二個單詞“はいって”、以及第三個單詞“もっと”的字符種類全部是“1”,所以決定為z=z-1=2(步驟602)。由于其它項(xiàng)中不存在與“そうはいってもっとむこう”相同的字符串,所以確定為z=2。
在ID“5”的“そうはいはいと人”是處理對象的字符串的情況下, n=4,由于第四個單詞“人”并不是標(biāo)點(diǎn)符號,所以設(shè)定為z=n-1=3。接下來,由于第四個單詞“人”的字符種類是“0”,第三單詞“と”是助詞,所以決定為z=3(步驟602)。由于其它項(xiàng)中不存在與“そうはいはいと人”相同的字符串,所以確定為z=3。
圖1以及圖5的文本分割裝置101的構(gòu)成只是一個例子,可以根據(jù)文本分割裝置101的用途、條件來省略或者變更一部分的構(gòu)成部件。例如在圖5的文本分割裝置101中,在文本分割處理由外部的裝置進(jìn)行的情況下,能夠省略分割部112。
圖2、圖4、以及圖6的流程圖只是一個例子,可以根據(jù)文本分割裝置101的構(gòu)成、條件來省略或者變更一部分的處理。例如在圖4的文本分割處理的步驟401中,未必需要進(jìn)行最長一致檢索,可以采用通過前方一致檢索而一致的登記字符串中的任意一個登記字符串。
在圖6的區(qū)分單詞數(shù)登記處理的步驟601以及步驟602中,區(qū)分單詞數(shù)決定部501除了平假名或者片假名以外,還可以使用漢字、英文字母、數(shù)字、符號等種類,作為字符串所包含的單詞的字符種類。另外,區(qū)分單詞數(shù)決定部501除了助詞以及助動詞以外,還可以使用名詞、動詞、形容詞、副詞等詞類,作為字符串內(nèi)的規(guī)定詞類。區(qū)分單詞數(shù)決定部501可以僅基于字符串的一部分或者全部所包含的字符的個數(shù)、字符串所包含的單詞的字符種類、或者字符串內(nèi)的規(guī)定詞類的位置中的一個屬性來決定區(qū)分單詞數(shù)。
在圖6的區(qū)分單詞數(shù)登記處理中,不基于字符串的屬性來決定區(qū)分單詞數(shù)的情況下,能夠省略步驟601以及步驟602的處理。在不將多個相同的字符串共用的單詞的個數(shù)作為區(qū)分單詞數(shù)進(jìn)行登記的情況下,能夠省略步驟603以及步驟604的處理。
區(qū)分單詞數(shù)決定部501可以將用戶或者操作員指示的區(qū)分單詞數(shù)登記于字符串分割信息121,代替進(jìn)行圖6的區(qū)分單詞數(shù)登記處理。
圖3的字符串分割信息121只是一個例子,可以根據(jù)文本分割裝置101的構(gòu)成、條件而使用其它的字符串分割信息121。例如在文本分割裝置101不進(jìn)行區(qū)分單詞數(shù)登記處理的情況下,能夠省略圖3的字符串 長、字符種類、助詞以及助動詞的位置。字符串分割信息121中所登記的字符串可以不必是n-gram的形式,而是表示單詞間的邊界位置的其它形式。在分割日語以外的語言的文本的情況下,該語言的字符串被登記于字符串分割信息121。
圖1以及圖5的文本分割裝置101例如能夠使用圖7所示那樣的信息處理裝置(計(jì)算機(jī))來實(shí)現(xiàn)。
圖7的信息處理裝置包括中央處理單元(CPU)701、存儲器702、輸入裝置703、輸出裝置704、輔助存儲裝置705、介質(zhì)驅(qū)動裝置706、以及網(wǎng)絡(luò)連接裝置707。這些構(gòu)成部件通過總線708相互連接。
存儲器702例如是只讀存儲器(ROM)、隨機(jī)讀取存儲器(RAM)、閃存等半導(dǎo)體存儲器。存儲器702儲存用于文本分割處理或者區(qū)分單詞數(shù)登記處理的程序以及數(shù)據(jù)。存儲器702能夠作為圖1以及圖5的存儲部111使用。
CPU701(處理器)例如通過利用存儲器702執(zhí)行程序,而作為圖1以及圖5的分割部112以及區(qū)分單詞數(shù)決定部501進(jìn)行動作。
輸入裝置703例如是鍵盤、定位設(shè)備等,被用于來自用戶或者操作員的指示、信息的輸入。輸出裝置704例如是顯示裝置、打印機(jī)、揚(yáng)聲器等,被用于向用戶或者操作人員的查詢、處理結(jié)果的輸出。處理結(jié)果可以是文本的分割結(jié)果。
輔助存儲裝置705例如是磁盤裝置、光盤裝置、光磁盤裝置、磁帶裝置等。輔助存儲裝置705可以是硬盤驅(qū)動器或者閃存。信息處理裝置能夠事先在輔助存儲裝置705中儲存程序以及數(shù)據(jù),并將它們加載到存儲器702來使用。輔助存儲裝置705能夠作為圖1以及圖5的存儲部111使用。
介質(zhì)驅(qū)動裝置706驅(qū)動可移動型記錄介質(zhì)709,并訪問其記錄內(nèi)容??梢苿有陀涗浗橘|(zhì)709是存儲器件、軟盤、光盤、光磁盤等??梢苿有陀涗浗橘|(zhì)709也可以是光盤只讀存儲器(CD-ROM)、數(shù)字通用光盤(DVD)、通用串行總線(USB)存儲器等。用戶或者操作員能夠在該可移動型記錄介質(zhì)709中儲存程序以及數(shù)據(jù),并將它們加載到存儲器 702來使用。
這樣儲存程序以及數(shù)據(jù)的計(jì)算機(jī)可讀取的記錄介質(zhì)是存儲器702、輔助存儲裝置705、以及可移動型記錄介質(zhì)709這樣的物理的(非暫時性的)記錄介質(zhì)。
網(wǎng)絡(luò)連接裝置707是與局域網(wǎng)(LAN)、因特網(wǎng)等通信網(wǎng)絡(luò)連接,進(jìn)行伴隨著通信的數(shù)據(jù)轉(zhuǎn)換的通信接口。信息處理裝置能夠經(jīng)由網(wǎng)絡(luò)連接裝置707從外部裝置接收程序以及數(shù)據(jù),并將它們加載到存儲器702來使用。
信息處理裝置也能夠經(jīng)由網(wǎng)絡(luò)連接裝置707從用戶終端接收指示、信息,并進(jìn)行文本分割處理或者區(qū)分單詞數(shù)登記處理,向用戶終端發(fā)送處理結(jié)果。
此外,信息處理裝置無需包括圖7的全部構(gòu)成部件,也能夠根據(jù)用途、條件來省略一部分的構(gòu)成部件。例如在不進(jìn)行來自用戶或者操作人員的指示、信息的輸入的情況下,可以省略輸入裝置703,在不進(jìn)行向用戶或者操作人員的查詢、處理結(jié)果的輸出的情況下,可以省略輸出裝置704。在信息處理裝置不訪問可移動型記錄介質(zhì)709或者通信網(wǎng)絡(luò)的情況下,可以省略介質(zhì)驅(qū)動裝置706或者網(wǎng)絡(luò)連接裝置707。
詳細(xì)地對公開的實(shí)施方式和其優(yōu)點(diǎn)進(jìn)行了說明,但本領(lǐng)域技術(shù)人員能夠不從權(quán)利要求書中明確記載的本發(fā)明的范圍脫離而進(jìn)行各種變更、追加、省略。
對于參照圖1至圖7說明的實(shí)施方式,還公開以下的附記。
(附記1)
一種文本分割程序,使計(jì)算機(jī)執(zhí)行如下的處理:
從將被分割成多個單詞的登記字符串和區(qū)分單詞數(shù)建立對應(yīng)的字符串分割信息中檢索文本所包含的第一字符串;以及
在上述第一字符串與上述登記字符串對應(yīng)的情況下,將上述第一字符串中的、包括與上述登記字符串建立對應(yīng)的上述區(qū)分單詞數(shù)的區(qū)分單 詞的第二字符串分割為上述區(qū)分單詞數(shù)的上述區(qū)分單詞。
(附記2)
附記1所記載的文本分割程序的特征在于,上述區(qū)分單詞數(shù)基于上述登記字符串的屬性來決定。
(附記3)
附記2所記載的文本分割程序的特征在于,上述登記字符串的屬性包括上述登記字符串的一部分或者全部所包含的字符的個數(shù)、上述登記字符串所包含的上述多個單詞的字符種類、或者上述登記字符串內(nèi)的規(guī)定的詞類的位置中的至少一個。
(附記4)
附記1~3中的任意一項(xiàng)所記載的文本分割程序的特征在于,上述字符串分割信息包括是與上述登記字符串相同的字符串且在與上述登記字符串不同的分割位置上分割成多個單詞的字符串,上述區(qū)分單詞數(shù)基于上述登記字符串、和在上述不同的分割位置上被分割成的上述字符串共用的單詞的個數(shù)來決定。
(附記5)
附記1~4中的任意一項(xiàng)所記載的文本分割程序的特征在于,上述計(jì)算機(jī)通過最長一致檢索從上述字符串分割信息中檢索上述第一字符串。
(附記6)
一種文本分割裝置,其特征在于,具備:存儲部,其對將被分割成多個單詞的登記字符串和區(qū)分單詞數(shù)建立對應(yīng)的字符串分割信息進(jìn)行存儲;以及分割部,其從上述字符串分割信息中檢索文本所包含的第一字符串,并在上述第一字符串與上述登記字符串對應(yīng)的情況下,將上述第一字符串中的、包括與上述登記字符串建立對應(yīng)的上述區(qū)分單詞數(shù)的單詞的第二字符串分割成上述區(qū)分單詞數(shù)的上述單詞。
(附記7)
附記6所記載的文本分割裝置的特征在于,上述區(qū)分單詞數(shù)基于上述登記字符串的屬性來決定。
(附記8)
附記7所記載的文本分割裝置的特征在于,上述登記字符串的屬性包括上述登記字符串的一部分或者全部所包含的字符的個數(shù)、上述登記字符串所包含的上述多個單詞的字符種類、或者上述登記字符串內(nèi)的規(guī)定的詞類的位置中的至少一個。
(附記9)
附記6~8中的任意一項(xiàng)所記載的文本分割裝置的特征在于,上述字符串分割信息包括是與上述登記字符串相同的字符串且在與上述登記字符串不同的分割位置上分割成多個單詞的字符串,上述區(qū)分單詞數(shù)基于上述登記字符串、和在上述不同分割位置上所分割成的上述字符串共用的單詞的個數(shù)來決定。
(附記10)
附記6~9中的任意一項(xiàng)所記載的文本分割裝置的特征在于,上述分割部通過最長一致檢索從上述字符串分割信息中檢索上述第一字符串。
(附記11)
一種文本分割方法,其特征在于,
計(jì)算機(jī)從將分割成多個單詞的登記字符串和區(qū)分單詞數(shù)建立對應(yīng)的字符串分割信息中檢索文本所包含的第一字符串,并在上述第一字符串與上述登記字符串對應(yīng)的情況下,將上述第一字符串中的、包括與上述登記字符串建立對應(yīng)的上述區(qū)分單詞數(shù)的單詞的第二字符串分割成上述區(qū)分單詞數(shù)的上述單詞。
(附記12)
附記11所記載的文本分割方法的特征在于,上述區(qū)分單詞數(shù)基于上述登記字符串的屬性來決定。
(附記13)
附記12所記載的文本分割方法的特征在于,上述登記字符串的屬性包括上述登記字符串的一部分或者全部所包含的字符的個數(shù)、上述登記字符串所包含的上述多個單詞的字符種類、或者上述登記字符串內(nèi)的規(guī)定的詞類的位置中的至少一個。
(附記14)
附記11~13中的任意一項(xiàng)所記載的文本分割方法的特征在于,上述字符串分割信息包括是與上述登記字符串相同的字符串且在與上述登記字符串不同的分割位置上被分割成多個單詞的字符串,上述區(qū)分單詞數(shù)基于上述登記字符串、和在上述不同的分割位置上被分割成的上述字符串共用的單詞的個數(shù)來決定。
(附記15)
附記11~14中的任意一項(xiàng)所記載的文本分割方法的特征在于,上述計(jì)算機(jī)通過最長一致檢索從上述字符串分割信息中檢索上述第一字符串。