專利名稱:信息處理裝置以及信息處理方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息處理裝置以及信息處理方法。
背景技術(shù):
已知將包含多個單詞的單詞列按各個含義單位進(jìn)行劃分,針對該劃分后的各個單位執(zhí)行翻譯/含義分析等,然后向用戶提示結(jié)果的顯示裝置。與這種顯示裝置相關(guān)聯(lián),提出了推測成為分析對象的單詞列在哪個單詞和單詞之間(詞間)來劃分的技術(shù)。例如,專利文獻(xiàn)I (日本特開平6-309310號公報)提出了使用預(yù)先對成為分析對象的單詞列屬于的語言的語法規(guī)則進(jìn)行編程而得的語法分析器來推測文檔的劃分方法的技術(shù)。
另外,專利文獻(xiàn)2 (日本特開平10-254874號公報)提出了將未分隔書寫的字符串按每個單詞分割的技術(shù)。在專利文獻(xiàn)I的技術(shù)中,為了推測原文在哪個單詞和單詞之間劃分,使用了對原文所屬的語言的語法規(guī)則進(jìn)行編程的語法分析器。因此,劃分方法的推測精度取決于語法分析器的精度。但是,制作高精度的語法分析器是困難的,另外,存在為了執(zhí)行高精度的語法分析,計算量增大的問題。專利文獻(xiàn)2公開了將未分隔書寫的字符串按每個單詞分割的技術(shù),但是,未公開判別字符串通過哪個單詞和單詞之間劃分的方法。
發(fā)明內(nèi)容
鑒于上述情況而提出本發(fā)明,其目的在于提供一種可以不使用語法分析器地劃分成為分析對象的單詞列的信息處理裝置以及信息處理方法。為了達(dá)成上述目的,本發(fā)明的信息處理裝置,具備:單詞列取得部,用于取得成為分析對象的單詞列;部分列提取部,其使用由所述單詞列取得部取得的單詞列的各詞間鄰接的兩個單詞,從所述取得的單詞列中提取出不包含另一方的單詞而包含一方的單詞的部分列、不包含一方的單詞而包含另一方的單詞的部分列、以及包含雙方的單詞的部分列;劃分系數(shù)取得部,其針對由所述部分列提取部提取出的各個部分列,取得與將所述部分列劃分為單詞的各個劃分模式相關(guān)的表不劃分所述部分列的可靠性的程度的劃分系數(shù);概率系數(shù)獲得部,其基于所述劃分系數(shù)取得部取得的劃分系數(shù),求出表示單詞列在所述詞間劃分的概率的系數(shù);以及輸出部,其基于所述概率系數(shù)獲得部求出的系數(shù),判別所述分析對象的單詞列的劃分,劃分由所述單詞列取得部取得的單詞列來輸出。根據(jù)本發(fā)明,可以提供可以不使用語法分析器地劃分成為分析對象的單詞列的信息處理裝置、信息處理方法。
圖1A是表示本發(fā)明的實施方式I的信息處理裝置的功能結(jié)構(gòu)的框圖。圖1B是表示本發(fā)明的實施方式I的信息處理裝置的物理結(jié)構(gòu)的框圖。圖2A至圖2C是用于說明實施方式I的信息處理裝置執(zhí)行的處理的圖,圖2A表示拍攝的圖像,圖2B表示分割單詞列的結(jié)果,圖2C表示顯示數(shù)據(jù)。圖3A、圖3B是用于說明實施方式I的信息處理裝置執(zhí)行的處理的圖,圖3A表示字符串和帶標(biāo)簽字符串的關(guān)系,圖3B表不單詞列、劃分標(biāo)志、N-gram (三兀文法)和劃分模式的關(guān)系。圖4是表示實施方式I的概率系數(shù)列表(二元文法劃分模式概率系數(shù)列表)的例子的圖。圖5是表示實施方式I的分析部的功能結(jié)構(gòu)的框圖。圖6A、圖6B是用于說明實施方式I的信息處理裝置執(zhí)行的處理例的圖,圖6A表不從單詞列生成劃分模式的處理例,圖6B表示計算詞間概率系數(shù)的處理例。圖7是表示實施方式I的信息處理裝置執(zhí)行的菜單顯示處理的流程圖。圖8是表示實施方式I的信息處理裝置執(zhí)行的菜單分割處理的流程圖。圖9是表示實施方式I的信息處理裝置執(zhí)行的詞間概率系數(shù)計算處理的流程圖。圖10是表示實施方 式I的信息處理裝置執(zhí)行的N-gram概率系數(shù)取得處理的流程圖。圖11是表示本發(fā)明的實施方式2的信息處理裝置的功能結(jié)構(gòu)的框圖。圖12是表示實施方式2的分析部的功能結(jié)構(gòu)的框圖。圖13是用于說明實施方式2的信息處理裝置執(zhí)行的計算詞間概率系數(shù)的處理的例子的圖。圖14是表示實施方式2的信息處理裝置執(zhí)行的菜單分割處理的流程圖。圖15是表示實施方式2的信息處理裝置執(zhí)行的N-gram概率系數(shù)取得處理的流程圖。圖16是表示實施方式2的變形例的二元文法概率系數(shù)列表的例子的圖。圖17是表示本發(fā)明的實施方式3的信息處理裝置的功能結(jié)構(gòu)的框圖。圖18是表示實施方式3的分析部的功能結(jié)構(gòu)的框圖。圖19是用于說明實施方式3的信息處理裝置執(zhí)行的處理的圖。圖20是表示實施方式3的信息處理裝置執(zhí)行的菜單分割處理的流程圖。
具體實施例方式以下,參照
本發(fā)明的實施方式的信息處理裝置。此外,在圖中對相同或相當(dāng)?shù)牟糠仲x予相同符號。(實施方式I)實施方式I的信息處理裝置I具備:i)對記載了成為分析對象的屬于特定的范疇的字符串(例如餐館的菜單、菜譜等)的紙等進(jìn)行拍攝的攝像功能;ii)從拍攝的圖像中識別并提取成為分析對象的字符串的功能;iii)分析所提取的字符串,變換為單詞列的功能;iv)輸出表示在字符串的預(yù)定部分(單詞間)劃分菜單的概率的系數(shù)的功能;v)基于劃分的概率來劃分單詞列的功能;vi)將劃分的單詞列分別變換為顯示數(shù)據(jù)的功能;vii)對顯示數(shù)據(jù)進(jìn)行顯示的功能等。信息處理裝置I如圖1A所示,具備:圖像輸入部10 ;包含0CR(Optical CharacterReader) 20、分析部30、概率系數(shù)輸出部40、變換部50和術(shù)語辭典存儲部60的信息處理部70 ;顯示部80 ;操作輸入部90。圖像輸入部10由攝像機(jī)和圖像處理部構(gòu)成,通過這樣的物理結(jié)構(gòu)取得拍攝菜單所得的圖像。圖像輸入部10將取得的圖像傳遞給0CR20。信息處理部70物理上如圖1B所示,由信息處理部701、數(shù)據(jù)存儲部702、程序存儲部703、輸入輸出部704、通信部705和內(nèi)部總線706構(gòu)成。信息處理部701 由 CPU (Central Processing Unit)、DSP (Digital SignalProcessor)等構(gòu)成,按照在程序存儲部703中存儲的控制程序707執(zhí)行后述的信息處理裝置I的處理。數(shù)據(jù)存儲部702由RAM (Random-Access Memory)等構(gòu)成,作為信息處理部701的工作區(qū)域來使用。程序存儲部703由閃速存儲器、硬盤等非易失性存儲器構(gòu)成,存儲控制信息處理部701的動作的控制程序707和用于執(zhí)行下述所示的處理的數(shù)據(jù)。通信部705由LAN (Local Area Network)設(shè)備、調(diào)制解調(diào)器等構(gòu)成,向經(jīng)由LAN線路或通信線路連接的外部設(shè)備發(fā)送信息處理部701的處理結(jié)果。另外,從外部設(shè)備接收信息,傳遞給信息處理部701。此外,信息處理部701、數(shù)據(jù)存儲部702、程序存儲部703、輸入輸出部704、通信部705通過內(nèi)部總線706分別連接,能夠進(jìn)行信息的發(fā)送。
·
輸入輸出部704是控制與通過USB (Universal Serial Bus)或串行端口與信息處理部70連接的圖像輸入部10、顯示部80、操作輸入部90、外部裝置等的信息的輸入輸出的1/0部。信息處理部70通過上述物理結(jié)構(gòu),作為0CR20、分析部30、概率系數(shù)輸出部40、變換部50和術(shù)語辭典存儲部60來工作。0CR20識別從圖像輸入部10傳遞的圖像的字符,例如取得在餐館的菜單上記載的字符串(食品名等)。0CR20將所取得的字符串傳遞給分析部30。以下,說明分析餐館的菜單的例子。分析部30將從0CR20傳遞的字符串分割為單詞,變換為單詞列W。分析部30對于構(gòu)成單詞列W的單詞和單詞之間、即詞間(關(guān)注詞間),提取出至少包含一個構(gòu)成詞間的單詞的部分單詞列(N-gram)。然后,將該N-gram、和指定與在該N-gram的詞間劃分單詞列W的情況和不劃分單詞列W的情況對應(yīng)的劃分模式的信息傳遞給概率系數(shù)輸出部40。在后面對N-gram、劃分模式和劃分概率系數(shù)進(jìn)行說明。分析部30取得概率系數(shù)輸出部40輸出的、表不N-gram以該劃分模式劃分的可靠性的程度的系數(shù)(劃分概率系數(shù)、劃分模式概率系數(shù))。分析部30使用從概率系數(shù)輸出部40取得的劃分概率系數(shù)分割單詞列W,提取出部分列,將部分列(分割后的單詞列W)輸出到變換部50。在后面說明分析部30執(zhí)行的具體的處理。概率系數(shù)輸出部40從分析部30被傳遞了 η個單詞(N-gram)、表示該N-gram下劃分概率系數(shù)需要的劃分模式的信息。概率系數(shù)輸出部40存儲了概率系數(shù)列表401。概率系數(shù)輸出部40,當(dāng)從分析部30被傳遞N-gram和表不劃分模式的信息時,將劃分模式作為參數(shù)來參照概率系數(shù)列表401,取得劃分概率系數(shù),傳遞到分析部30。在后面說明概率系數(shù)輸出部40執(zhí)行的具體的處理。 變換部50將從分析部30傳遞的分割后的單詞列W,按每個部分列參照術(shù)語辭典存儲部60,變換為顯示用數(shù)據(jù)。變換部50將各個部分列中包含的單詞或單詞列傳遞給術(shù)語辭典存儲部60,從術(shù)語辭典存儲部60取得該單詞的解釋數(shù)據(jù)。變換部50針對每個部分列,排列作為原文的菜單的單詞和該單詞的解釋數(shù)據(jù),生成顯示數(shù)據(jù)。變換部50將生成的顯示數(shù)據(jù)傳遞給顯示部80。術(shù)語辭典存儲部60存儲將作為教師數(shù)據(jù)的菜單中包含的單詞或單詞列、和用于解釋該單詞的數(shù)據(jù)對應(yīng)起來登錄的術(shù)語辭典。術(shù)語辭典存儲部60,當(dāng)從變換部50被發(fā)送單詞或單詞列時,在登錄了該單詞或單詞列的情況下將術(shù)語辭典中與該單詞或單詞列對應(yīng)記錄的解釋數(shù)據(jù)傳遞給變換部50。另夕卜,在未登錄該單詞或單詞列的情況下發(fā)送表示該含義的空數(shù)據(jù)。顯示部80由液晶顯示器等構(gòu)成,顯示從變換部50傳遞的信息。操作輸入部90由觸摸面板、按鈕、指點設(shè)備等接受用戶的操作的操作接受裝置、和將操作接受裝置接受的操作 的信息傳遞給信息處理部70的傳遞部構(gòu)成,通過這樣的物理結(jié)構(gòu)將用戶的操作傳遞給信息處理部70。在此,參照圖2A至圖2C說明信息處理裝置I拍攝菜單所得的圖像、分割后的字符串和顯示用數(shù)據(jù)的關(guān)系。信息處理裝置1,當(dāng)用戶使用圖像輸入部10拍攝餐館的菜單時,取得圖2A所示的圖像。然后,0CR20從該圖像中提取字符串,分析部30以單詞單位進(jìn)行分割,作為如圖2B所示那樣分割后的單詞列(部分列)傳遞到變換部50。然后,變換為圖2C所示那樣的針對每個部分列附加了解釋文的顯示數(shù)據(jù)來顯示。在此,參照圖3A、圖3B和圖4來說明本實施方式中成為分析對象的字符串(菜單)、作為教師數(shù)據(jù)的帶標(biāo)簽字符串、概率系數(shù)列表401、N-gram、劃分標(biāo)志和劃分模式。在本實施方式中,成為分析對象的字符串是如圖3A所示那樣的表示食品的菜單的字符串。對菜單“Smoked trout fillet with wasabi cream”附加標(biāo)簽,以每個單詞/集團(tuán)分割后的數(shù)據(jù)是帶標(biāo)簽字符串、即教師數(shù)據(jù)。在圖3A 的例子中,教師數(shù)據(jù)是 “<m><s><c><w>Smoked</w></c><c><w>trout</w><w>fillet</w></c></s><s><cXw>with</w></c><c><w>wasabi</w><w>cream</w></c></s </m>^教師數(shù)據(jù)是預(yù)先由人工或語法分析器收集屬于特定語言的特定范疇的字符串來附加標(biāo)簽所得的數(shù)據(jù)。語言的種類或范疇不通過本發(fā)明限定,是任意的。在圖3A的教師數(shù)據(jù)中,字符串通過標(biāo)簽〈W〉和</w>被分割為“Smoked” “trout,,“fillet” “with” “wasabi” “cream”這6個單詞。另外,通過標(biāo)簽〈C〉和</c>被分割為“Smoked” “trout fillet” “with” “wasabi cream” 這 4 個片斷。而且,通過標(biāo)簽 <s> 和〈/s> 被分割為“Smoked trout fillet” “with wasabi cream”這 2 個片斷。標(biāo)簽〈m>〈/m>是將識別出的字符串按每種食品劃分的標(biāo)簽。該教師數(shù)據(jù)表示的字符串,通過標(biāo)簽〈w>、〈/w>、〈c>、〈/c>、〈s>、〈/s>、〈m>、〈/m>被劃分,但是標(biāo)簽的定義方式不限于此。例如,字符串可以通過按照每個單詞或多個單詞的每種集合來劃分的獨特的標(biāo)記或空格來劃分。圖3B表不識別出的字符串、教師數(shù)據(jù)、劃分標(biāo)志、N-gram和劃分模式的關(guān)系。教師數(shù)據(jù)中包含的單詞列中、提取出從最初的單詞到第N個單詞、或者從第2個單詞到第N+1個單詞等那樣N個連續(xù)的單詞的N-gram的組合為N-gram列。N-gram在N = 3的情況下被稱為三元文法(注釋:Tr1-gram),在N = 2的情況下被稱為二元文法(注釋:Bi_gram),在N=I的情況下被稱為一元文法(注釋:Mono-gram)。例如,從字符串“Smoked trout fillet with wasabi cream”中得到由4個三兀文法“Smoked trout fillet” “trout fillet with” “fillet with wasabi” “with wasabicream”構(gòu)成的一個三元文法列。字符串如圖3B所示,通過標(biāo)簽結(jié)構(gòu)被樹狀劃分。并且,直到系統(tǒng)的設(shè)計上決定的樹的預(yù)定的高度,從含義的觀點判別在哪個詞間被劃分。圖3B所示的樹構(gòu)造在標(biāo)簽〈S〉以及</s>存在的部位、標(biāo)簽〈C〉以及</c>存在的部位、標(biāo)簽〈W〉和</w>存在的部位分支。在劃分標(biāo)志中,在被劃分的情況下設(shè)置“I”,在未被劃分的情況下設(shè)置“O”。此外,在哪個詞間設(shè)定劃分標(biāo)志是任意的。例如可以僅在〈S〉或</s>標(biāo)簽存在的部分定義劃分標(biāo)志等。劃分模式是與單詞和劃分標(biāo)志并列地定義了單詞列是否在N-gram內(nèi)的各個詞間被劃分的數(shù)據(jù)。例如,在構(gòu)成三元文法的3個單詞(單詞X、單詞Y、單詞Z)中,表示在包含單詞X之前和單詞Z之后的任何詞間都未被劃分的劃分模式為“0Χ0Υ0Ζ0”。表示在全部詞間被劃分的劃分模式為“ 1X1Y1Z1”??梢园迅鶕?jù)包含某個N-gram的全體教師數(shù)據(jù)(例如M個)和以該N-gram的劃分模式劃分的教師數(shù)據(jù)的數(shù)量(例如m個)計算的系數(shù)m/M,定義為表示在教師數(shù)據(jù)中與該N-gram相應(yīng)的部分以該劃分模式劃分的可靠性的程度的系數(shù)(劃分概率系數(shù)、或者劃分模式概率系數(shù))。若以足夠的數(shù)量,均衡地準(zhǔn)備成為教師數(shù)據(jù)的帶標(biāo)簽字符串(若M足夠大),則劃分概率系數(shù)可以視為表示該語言中包含該N-gram的全體菜單中與該N-gram對應(yīng)的部位以與該劃分模式對應(yīng)的劃分方法劃分的可靠性的程度的系數(shù)。將N-gram的劃分模式和劃分概率系數(shù)對應(yīng)存儲的列表是概率系數(shù)列表(劃分模式概率系數(shù)列表)。圖4表示n=2的情況下的概率系數(shù)列表、即二元文法劃分模式概率系數(shù)列表的例子。例如,在模式“010”的列、“smoked-trout”的行中登錄了數(shù)值0.02,表示劃分模式“OsmokedltroutO”的劃分概率系數(shù)為0.02。概率系數(shù)輸出部40記錄了針對一元文法 η元文法(η為設(shè)定上決定的值)分別定義的劃分模式概率系數(shù)列表。概率系數(shù)輸出部40,當(dāng)從分析部30求出在概率系數(shù)列表401中未登錄的N-gram的劃分概率系數(shù)時,將作為該N-gram的部分列的(n_l)元文法 一元文法的對應(yīng)的劃分概率系數(shù)作為該N-gram的概率系數(shù)來輸出。一元文法劃分模式概率系數(shù)列表中未登錄的單詞是未知詞,因此,當(dāng)求出包含未知詞的N-gram的劃分概率系數(shù)時,返回對應(yīng)的缺省值。接著,參照圖5說明分析部30的結(jié)構(gòu)。分析部30如圖5所示,由字符串取得部310、分隔書寫部320、劃分模式生成部330、詞間選擇部340、N-gram提取部350、概率系數(shù)取得部360、詞間概率 系數(shù)計算部370、模式概率系數(shù)計算部380、模式選擇部390、輸出部311構(gòu)成。字符串取得部310取得由0CR20提取出的字符串,并傳遞給分隔書寫部320。分隔書寫部320執(zhí)行將字符串取得部310取得的字符串分割為單詞單位的分隔書寫處理。分隔書寫部320可以使用從字符串中提取單詞的任意已知方法執(zhí)行上述分隔書寫處理,在此假定使用專利文獻(xiàn)2舉例所示的方法。此外,分隔書寫部320,當(dāng)成為分析對象的菜單為英語或法語等針對每個單詞用空格劃分的語言時,識別空格來執(zhí)行上述分隔書寫處理。分隔書寫部320通過分隔書寫處理將菜單的字符串變換為單詞列W,傳遞給劃分模式生成部330。劃分模式生成部330,當(dāng)從分隔書寫部320傳遞菜單的單詞列W時,針對可以定義的各個劃分方法,生成與在單詞列W的各個詞間劃分菜單的情況和不劃分的情況的各種劃分方法對應(yīng)的劃分模式。決定成為分析對象的單詞列W的劃分方法,可以考慮將單詞列W設(shè)為N-gram,選擇一個可以針對作為單詞列W的N-gram定義的劃分模式。因此,本實施方式中定義針對單詞列W可以定義的全部劃分方法(單詞W的劃分模式),計算表示該單詞列以各劃分模式劃分的可靠性的系數(shù),使用該系數(shù)選擇由劃分模式生成部330生成的劃分模式中的一個。劃分模式生成部330將生成的劃分模式傳遞到詞間選擇部340。詞間選擇部340從被傳遞的劃分模式中選擇未處理的一個,作為關(guān)注劃分模式。而且,選擇關(guān)注劃分模式的未處理的詞間中最靠前的詞間作為關(guān)注詞間。然后,將關(guān)注劃分模式、表示所選擇的詞間(關(guān)注詞間)的信息、關(guān)注劃分模式中的該詞間的劃分標(biāo)志傳遞給N-gram 提取部 35 0。N-gram提取部350,當(dāng)從詞間選擇部340傳遞關(guān)注劃分模式、表示所選擇的關(guān)注詞間的信息、關(guān)注劃分模式中的該詞間的劃分標(biāo)志時,提取出包含該詞間的前后的某個單詞的N-gram。然后,針對該N-gram生成與被傳遞了與關(guān)注詞間對應(yīng)的劃分標(biāo)志的關(guān)注劃分模式中的該詞間的劃分標(biāo)志相同的劃分模式(對應(yīng)劃分模式)。然后,將生成的對應(yīng)劃分模式傳遞給概率系數(shù)取得部360。此外,η的值能夠任意設(shè)定,以下設(shè)η=2來說明。概率系數(shù)取得部360,當(dāng)從N-gram提取部350傳遞對應(yīng)劃分模式時,針對各對應(yīng)劃分模式取得劃分概率系數(shù)。具體來說,將對應(yīng)劃分模式傳遞給概率系數(shù)輸出部40,從概率系數(shù)輸出部40取得對應(yīng)劃分模式的劃分概率系數(shù)。概率系數(shù)取得部360將對應(yīng)劃分模式和取得的劃分概率系數(shù)對應(yīng)起來傳遞給詞間概率系數(shù)計算部370。詞間概率系數(shù)計算部370,當(dāng)從概率系數(shù)取得部360傳遞對應(yīng)劃分模式和其劃分概率系數(shù)時,計算該詞間以關(guān)注劃分模式的劃分方法劃分的概率(詞間概率系數(shù)Piw)。在后面說明詞間概率系數(shù)計算部370計算詞間概率系數(shù)Piw的處理的具體內(nèi)容。劃分模式生成部330、詞間選擇部340、N_gram提取部350、概率系數(shù)取得部360以及詞間概率系數(shù)計算部370,針對關(guān)注劃分模式的各個詞間進(jìn)行上述處理,求出詞間概率系數(shù) Piw。詞間概率系數(shù)計算部370,當(dāng)針對關(guān)注劃分模式的全部詞間計算詞間概率系數(shù)Piw時,將計算出的詞間概率系數(shù)Piw傳遞給模式概率系數(shù)計算部380。在此,參照圖6A以及圖6B說明劃分模式生成部330、詞間選擇部340、N-gram提取部350、概率系數(shù)取得部360、詞間概率系數(shù)計算部370執(zhí)行的處理。從分隔書寫部320向劃分模式生成部330傳遞單詞列W(Smoked-trout-fillet_with-wasab1-cream)(圖6A上)。在各單詞和單詞之間可以定義詞間(詞間IWl 詞間IW5)。劃分模式生成部330針對在單詞列的各詞間(詞間IWl 詞間IW5)劃分單詞列的情況(劃分標(biāo)志I)和不劃分的情況(劃分標(biāo)志O)生成劃分模式(圖6A的(I))。在將詞間的數(shù)量設(shè)為Niw時,劃分模式可以定義2的Niw次方個。生成的劃分模式中當(dāng)前的處理所涉及的劃分模式是關(guān)注劃分模式。在圖6A中,關(guān)注劃分模式(SmokedOtroutOfiIIetOwithlwasabiIcream)用記號 * 表不。參照圖6B說明關(guān)于關(guān)注劃分模式的詞間(關(guān)注詞間)計算詞間概率系數(shù)的處理的例子。在圖6B的例子中,與詞間IW2對應(yīng)的詞間是關(guān)注詞間(用記號*表示的詞間)。作為構(gòu)成關(guān)注詞間的單詞,可以提取出“trout”和“fillet”。因此,在單詞列W中,作為包含“trout” 和“fillet” 的 N-gram (二兀文法),提取出 “Smoked_trout”、“trout-fillet”、“fillet-with”(圖 6B 的⑵)。并且,作為提取出的二元文法的對應(yīng)劃分模式,提取出可以對二元文法定義的劃分模式中、關(guān)注詞間的劃分標(biāo)志與關(guān)注劃分模式相同的劃分模式(對應(yīng)劃分模式)(圖6B的(3))。 例如,在二元文法“ Smoked-trout ”中,關(guān)注詞間的劃分標(biāo)志(關(guān)注劃分標(biāo)志)為0,作為對應(yīng)劃分模式,可以提取出“0Smoked0trout0”、“0Smokedltrout0”、“ ISmokedOtroutO,,、“ ISmokedltroutO,,這 4 個。針對對應(yīng)劃分模式,從概率系數(shù)取得部360取得劃分概率系數(shù),根據(jù)取得的劃分概率系數(shù)計算包含N-gram的教師數(shù)據(jù)在與關(guān)注詞間對應(yīng)的詞間,以與關(guān)注劃分標(biāo)志(劃分的、未劃分的)對應(yīng)的 劃分方法劃分的概率、即關(guān)注詞間N-gram概率系數(shù)Pn(圖6B的(4))。關(guān)注詞間N-gram概率系數(shù)Pn可以標(biāo)記為將關(guān)注劃分模式的關(guān)注詞間以外的劃分標(biāo)志設(shè)為表示O和I中的任意一個都可以的?的、以劃分模式作為變量的函數(shù)(在圖6B的例子中為Pn ( Smoked troutO))。關(guān)注詞間N-gram概率系數(shù)Pn,是具有在對應(yīng)劃分模式的劃分概率系數(shù)的至少一個增大、其它劃分概率系數(shù)相同的情況下關(guān)注詞間N-gram概率系數(shù)Pn也增大的性質(zhì)的系數(shù)。在本實施方式中,Pn是對應(yīng)劃分模式的劃分概率系數(shù)的相加平均。計算關(guān)注詞間N-gram概率系數(shù)Pn的方法不限于此,可以是對應(yīng)劃分模式的劃分概率系數(shù)的積,也可以是加權(quán)和。另外,將對應(yīng)劃分模式的劃分概率系數(shù)和關(guān)注詞間N-gram概率系數(shù)Pn對應(yīng)起來登錄的表預(yù)先存儲在數(shù)據(jù)存儲部702中,可以參照該表來求出關(guān)注詞間N-gram概率系數(shù)Pn。然后,當(dāng)針對圖6B的(2)中提取出的各個N-gram計算關(guān)注詞間N-gram概率系數(shù)Pn時,使用計算出的關(guān)注詞間N-gram概率系數(shù)Pn計算詞間概率系數(shù)Piw。詞間概率系數(shù)Piw,作為將第一變量設(shè)為單詞列W、將第二變量設(shè)為表示關(guān)注詞間的符號、將第三變量設(shè)為關(guān)注劃分標(biāo)志的函數(shù)(在圖6B的例子中為Piw (W,IW2,0))來標(biāo)記。詞間概率系數(shù)Piw是在關(guān)注詞間N-gram概率系數(shù)Pn的至少一個增大、其它相同的情況下增大的系數(shù)。在本實施方式中,詞間概率系數(shù)Piw是關(guān)注詞間N-gram概率系數(shù)Pn的相加平均。計算詞間概率系數(shù)Piw的方法不限于此,可以是各關(guān)注詞間N-gram概率系數(shù)Pn的積,也可以是加權(quán)和。另外,可以把將Pn和詞間概率系數(shù)Piw對應(yīng)起來登錄的表存儲在數(shù)據(jù)存儲部702中,參照該表來求出詞間概率系數(shù)Piw。模式概率系數(shù)計算部380,當(dāng)從詞間概率系數(shù)計算部370針對關(guān)注劃分模式的全部詞間傳遞了詞間概率系數(shù)Piw時,根據(jù)傳遞的詞間概率系數(shù)Piw計算關(guān)注劃分模式的概率系數(shù)P。關(guān)注劃分模式的概率系數(shù)P是詞間概率系數(shù)Piw的積。計算關(guān)注劃分模式的概率系數(shù)P的方法不限于此。可以通過針對各個詞間概率系數(shù)Piw,在至少一個詞間概率系數(shù)Piw增大、其他詞間概率系數(shù)Piw相同的情況下概率系數(shù)P也增大的任意的方法來求出。
例如可以通過詞間概率系數(shù)Piw的累乘平均來求出P,也可以預(yù)先在數(shù)據(jù)存儲部702中存儲將詞間概率系數(shù)Piw和概率系數(shù)P對應(yīng)登錄的表,參照該表來求出概率系數(shù)P。詞間選擇部340、N-gram提取部350、概率系數(shù)取得部360、詞間概率系數(shù)計算部370以及模式概率系數(shù)計算部380,針對劃分模式生成部330生成的各劃分模式求出概率系數(shù)P,將各劃分模式和其概率系數(shù)P對應(yīng)起來傳遞給模式選擇部390。當(dāng)被傳遞各劃分模式及其概率系數(shù)P時,模式選擇部390選擇概率系數(shù)P最大的劃分模式。然后,通過所選擇的劃分模式表示的劃分方法分割單詞列W,將分割后的部分列傳遞給輸出部311。輸出部311將被傳遞的部分列傳遞給變換部50。接著,參照流程圖說明信息處理裝置I執(zhí)行的處理。信息處理裝置1,當(dāng)用戶使用圖像輸入部10執(zhí)行取得菜單的圖像的操作時,開始圖7所示的菜單顯示處理。在菜單顯示處理中,首先,使用圖像輸入部10取得打印了菜單的圖像(步驟S101)。然后,由0CR20從所取得的圖像中識別字符來取得字符串(步驟S102)。當(dāng)0CR20取得字符串并傳遞給分析部30時,首先,分析部30的分隔書寫部320執(zhí)行將字符串分割為單詞單位的分隔書寫處理,將字符串變換為單詞列W (步驟S103)。然后,分析部30推測菜單在單詞列的哪個部位劃分,執(zhí)行分割菜單的處理(菜單分割處理I)(步驟S104)。參照圖8說明在步驟S104中執(zhí)行的菜單分割處理I。在菜單分割處理I中,首先,針對單詞列W生成可以定義的劃分模式(步驟S201,圖6A 的(I))。接著,關(guān)于計數(shù)器變量j,選擇所生成的劃分模式的第j個劃分模式作為關(guān)注劃分模式(步驟S202)。然后,關(guān)于計數(shù)器變量k,選擇關(guān)注劃分模式的第k個詞間作為關(guān)注詞間(步驟S203)。在步驟S203中選擇關(guān)注詞間時,關(guān)于關(guān)注詞間執(zhí)行計算詞間概率系數(shù)Piw的處理(詞間概率系數(shù)計算處理,在此為詞間概率系數(shù)計算處理I)(步驟S204)。參照圖9說明在步驟S204中執(zhí)行的詞間概率系數(shù)計算處理I。在詞間概率計算處理I中,首先如圖6B的(2)舉例所示那樣生成包含形成關(guān)注詞間的某個單詞的N-gram (在此為二元文法)(步驟S301)。
接著,將I設(shè)為計數(shù)器變量,將第I個二元文法設(shè)為關(guān)注N-gram (步驟S302)。然后,關(guān)于關(guān)注N-gram執(zhí)行計算關(guān)注詞間N-gram概率系數(shù)Pn的處理(η元文法概率系數(shù)取得處理、在此為N-gram概率系數(shù)取得處理I)(步驟S303)。參照圖10說明在步驟S303中執(zhí)行的N-gram概率系數(shù)取得處理I。在N-gram概率系數(shù)取得處理I中,首先,N-gram提取部350如圖6B的(3)舉例所示那樣生成關(guān)注N-gram的對應(yīng)劃分模式(步驟S401)。然后,概率系數(shù)取得部360從概率系數(shù)輸出部40取得各對應(yīng)劃分模式的劃分概率系數(shù)(步驟S402)。接著,詞間概率系數(shù)計算部370對步驟S402中取得的劃分概率系數(shù)進(jìn)行相加平均,如圖6B的(4)舉例所示那樣計算關(guān)注詞間N-gram概率系數(shù)Pn (步驟S403)。然后,結(jié)束N-gram概率系數(shù)計算處理I。返回圖9,當(dāng)計算關(guān)注詞間N-gram概率系數(shù)Pn時,接著針對S301中生成的全部N-gram判別是否計算出關(guān)注詞間N-gram概率系數(shù)Pn (步驟S304)。在未針對全部N-gram計算出關(guān)注詞間N-gram概率系數(shù)Pn時(步驟S304 ;否),將計數(shù)器變量I增加I (步驟S305),針對下一 η元文法從步驟S302開始重復(fù)處理。另一方面,在針對全部N-gram計算出關(guān)注詞間N-gram概率系數(shù)Pn時(步驟S304:是),如圖6B的(5)舉例所示,對詞間概率系數(shù)計算部370計算出的關(guān)注詞間N-gram概率系數(shù)Pn進(jìn)行相加平均,計算出詞間概率系數(shù)Piw (步驟S306)。然后,詞間概率系數(shù)計算處理I結(jié)束。返回圖8,當(dāng)詞間概率系數(shù)計 算處理(步驟S204)結(jié)束,計算關(guān)注詞間的詞間概率系數(shù)Piw時,接著判別是否針對關(guān)注劃分模式的全部詞間計算出了詞間概率系數(shù)Piw(步驟S205)。在未針對全部詞間計算出詞間概率系數(shù)Piw時(步驟S205:否),將計數(shù)器變量k增加I (步驟S206),針對下一詞間從步驟S203開始重復(fù)處理。另一方面,在針對全部詞間計算出了詞間概率系數(shù)Piw時(步驟S205:是),可以判斷針對當(dāng)前的關(guān)注劃分模式的全部詞間計算出了詞間概率系數(shù)Piw。因此,模式概率系數(shù)計算部380對詞間概率系數(shù)Piw進(jìn)行乘算,計算出關(guān)注劃分模式的概率系數(shù)P (步驟S207)。接著,判別是否計算出步驟S201中生成的全部劃分模式的概率系數(shù)P (步驟S208)。當(dāng)存在未處理的劃分模式時(步驟S208:否),將計數(shù)器變量j增加I (步驟S209),針對下一劃分模式從步驟S202開始重復(fù)處理。另一方面,在計算出全部劃分模式的概率系數(shù)P時(步驟S208:是),模式選擇部390選擇概率系數(shù)P最高的劃分模式(步驟S210)。通過在步驟S210中進(jìn)一步選擇的劃分模式表不的劃分方法劃分成為分析對象的單詞列,將各分割單位分割為部分列。然后,結(jié)束菜單分割處理I。返回圖7,當(dāng)在菜單分割處理(步驟S104)中將步驟S103中取得的單詞列分割為部分列時,將計數(shù)器變量設(shè)為i,由變換部50針對第i個部分列執(zhí)行生成顯示數(shù)據(jù)的處理。S卩,從術(shù)語辭典存儲部60取得在第i個部分列中包含的各單詞的解釋數(shù)據(jù),變換成圖2C所示的顯示數(shù)據(jù)(步驟S105)。然后,針對步驟S104中得到的全部部分列判別變換為顯示數(shù)據(jù)的處理是否結(jié)束(步驟S106),在未結(jié)束的情況下(步驟S106:否),將計數(shù)器變量i增加I (步驟S107),針對下一部分列從步驟S105開始重復(fù)處理。另一方面,在判別針對全部部分列變換為顯示數(shù)據(jù)的情況下(步驟S106:是),顯示部80以部分列單位顯示所得到的顯示數(shù)據(jù)(步驟S108)。然后,菜單顯示處理I結(jié)束。如上所述,根據(jù)本實施方式的信息處理裝置1,可以基于教師數(shù)據(jù)分割表現(xiàn)菜單的單詞列,因此,即使不針對每種語言準(zhǔn)備語法分析程序也能夠劃分單詞列。另外,針對每個詞間,根據(jù)包含構(gòu)成該詞間的某一個單詞的多個N-gram的劃分概率系數(shù),計算與詞間是否劃分相關(guān)的系數(shù),因此,即使η的值小,當(dāng)決定劃分方法時參考的數(shù)據(jù)量也不大幅度減少,劃分方法的推測精度的惡化小。當(dāng)增大η的值時,為了求出可以信賴的概率系數(shù)而需要的教師數(shù)據(jù)量增大,但是在本實施方式中可以減小η的值。因此,可以抑制最低限度所需要的教師數(shù)據(jù)量。在本實施方式中,關(guān)注詞間N-gram概率系數(shù)Pn被定義為針對對應(yīng)劃分模式的各個劃分概率系數(shù),至少在預(yù)定的定義域內(nèi)為增函數(shù)。并且,詞間概率系數(shù)Piw也被定義為針對各個對應(yīng)的關(guān)注詞間N-gram概率系數(shù)Pn,至少在預(yù)定的定義域內(nèi)為增函數(shù)。因此,本實施方式的信息處理裝置I可以將通過包含N-gram的教師數(shù)據(jù)以該劃分方法劃分的可靠性的大小反映在詞間概率系數(shù)中,推測成為分析對象的單詞列的劃分方法。另外,根據(jù)本實施方式的信息處理裝置1,根據(jù)預(yù)定的范疇的字符串(在此為菜單)生成了教師數(shù)據(jù),因此,與使用廣泛的范疇(例如全體日語)的教師數(shù)據(jù)來求出劃分模式的概率系數(shù)的情況相比,可以求出與范疇吻合的概率系數(shù)。因此,當(dāng)使用信息處理裝置I來分割菜單時,分割菜單的精度高。另外,當(dāng)詞間概率系數(shù)Piw的某個增大時,關(guān)注劃分模式的概率系數(shù)P也增大,因此,可以選擇學(xué)習(xí)用數(shù) 據(jù)以劃分模式的每個詞間的劃分方法劃分的可靠性大的劃分模式,用其劃分方法劃分單詞列。因此,可以通過反映了教師數(shù)據(jù)的每個單詞的劃分方法的劃分方法來劃分單詞列。根據(jù)本實施方式的信息處理裝置1,可以使用圖像數(shù)據(jù)部10拍攝菜單,使用0CR20識別字符串,對菜單進(jìn)行分析、顯示。因此,即使用戶不特別用手輸入菜單的字符串也可以取得菜單的字符串,附加解釋數(shù)據(jù)來顯示。因此,在菜單由用戶不知道的語言書寫等難以用手輸入的情況下,也可以顯示解釋數(shù)據(jù)。此外,本實施方式的信息處理裝置I的模式選擇部390選擇一個概率系數(shù)P最大的劃分模式,以其劃分方法分割單詞列W來顯示。作為本實施方式的變形例,還能夠是以劃分模式的概率系數(shù)P滿足預(yù)定條件的多個劃分方法分割單詞列W,將各個分割結(jié)果進(jìn)行變換來顯示的結(jié)構(gòu)。根據(jù)這樣的結(jié)構(gòu),可以通過可能性高的多個劃分方法顯示解釋數(shù)據(jù)并向用戶提示,因此,即使概率系數(shù)P最高的劃分方法是錯誤的劃分方法,可以提示正確的劃分方法的可能性也增加。(實施方式2)接著,說明本發(fā)明的實施方式2的信息處理裝置2。信息處理裝置2的特征在于通過基于詞間概率系數(shù)依次決定各詞間的劃分標(biāo)志的處理來劃分單詞列。信息處理裝置2如圖11所示,具備:圖像輸入部10 ;包含0CR20、分析部31、概率系數(shù)輸出部41、變換部50和術(shù)語辭典存儲部60的信息處理部71 ;顯示部80 ;操作輸入部90。信息處理裝置2的圖像輸入部10、0CR20、變換部50、術(shù)語辭典存儲部60、顯示部80的功能以及物理結(jié)構(gòu)與實施方式I的信息處理裝置I的對應(yīng)結(jié)構(gòu)相同。另外,信息處理部71的物理結(jié)構(gòu)與實施方式I的信息處理裝置I的對應(yīng)結(jié)構(gòu)相同,但是分析部31的功能與實施方式I的分析部30不同。分析部31劃分從0CR20傳遞的單詞列,然后傳遞給變換部50。另外,將N-gram、指定詞間(詞間IWx)的信息、指定該詞間的劃分標(biāo)志(y、y=0或I)的信息傳遞給概率系數(shù)輸出部41,取得關(guān)注詞間N-gram概率系數(shù)Pn (N-gram, Iffx, y)。分析部31的功能結(jié)構(gòu)以及為了劃分單詞列而執(zhí)行的處理的內(nèi)容與實施方式I的分析部30不同。概率系數(shù)輸出部41從分析部31被傳遞N-gram、指定詞間(詞間Iwx)的信息、該詞間的劃分標(biāo)志(y、y=0或I),將關(guān)注詞間η元文法概率系數(shù)Pn (N-gram, Iffx, y)傳遞給分析部31。概率系數(shù)輸出部41存儲教師數(shù)據(jù)402,檢索教師數(shù)據(jù)402來取得關(guān)注詞間N-gram概率系數(shù) Pn (N-gram, Iffx, y)0在后面說明概率系數(shù)輸出部41執(zhí)行的具體的處理。接著,參照圖12說明分析部31的結(jié)構(gòu)。分析部31如圖12所示,由字符串取得部310、分隔書寫部320、詞間選擇部341、N-gram提取部351、N-gram概率系數(shù)取得部361、詞間概率系數(shù)計算部371、劃分標(biāo)志決定部381、輸出部311構(gòu)成。字符串取得部310和分隔書寫部320的功能與實施方式I的分析部30的對應(yīng)結(jié)構(gòu)相同。詞間選擇部341,當(dāng) 從分隔書寫部320被傳遞成為分析對象的單詞列時,依次選擇該單詞列的詞間作為關(guān)注詞間,將表示單詞列和關(guān)注詞間的信息傳遞給N-gram提取部351。N-gram提取部351,當(dāng)從詞間選擇部341取得N-gram和表示關(guān)注詞間的信息時,提取出包含關(guān)注詞間的前后的任意單詞的N-gram。然后,將提取出的N-gram和表示關(guān)注詞間的信息傳遞給N-gram概率系數(shù)取得部361。N-gram概率系數(shù)取得部361從N-gram提取部351取得N-gram和表示關(guān)注詞間的信息。N-gram概率系數(shù)取得部361針對取得的各個N-gram向概率系數(shù)輸出部41傳遞表示N-gram、表示關(guān)注詞間的信息和劃分標(biāo)志I的信息。然后,從概率系數(shù)輸出部41取得關(guān)注詞間 N-gram 概率系數(shù) Pn (N-gram, Iffx, I)。N-gram概率系數(shù)取得部361將所取得的關(guān)注詞間N-gram概率系數(shù)Pn傳遞給詞間概率系數(shù)計算部371。詞間概率系數(shù)計算部371針對由N-gram提取部351提取出的各個N-gram,當(dāng)從N-gram概率系數(shù)取得部361被傳遞關(guān)注詞間N-gram概率系數(shù)Pn (N-gram, Iffx, I)時,對各個關(guān)注詞間N-gram概率系數(shù)Pn (N-gram, Iwx, I)進(jìn)行相加平均來計算詞間概率系數(shù)Piw(W,Iffx, Do詞間概率系數(shù)計算部371將計算出的詞間概率系數(shù)Piw傳遞給劃分標(biāo)志決定部 381。劃分標(biāo)志決定部381,當(dāng)從詞間概率系數(shù)計算部371被傳遞詞間概率系數(shù)Piw時,比較詞間概率系數(shù)Piw和數(shù)據(jù)存儲部702中存儲的閾值的大小。當(dāng)比較的結(jié)果為詞間概率系數(shù)Piw在閾值以上時,將關(guān)注詞間的劃分標(biāo)志設(shè)為I。另一方面,當(dāng)詞間概率系數(shù)Piw比閾值小時,將關(guān)注詞間的劃分標(biāo)志設(shè)為O。詞間選擇部341、N-gram提取部351、N-gram概率系數(shù)取得部361、詞間概率系數(shù)計算部371以及劃分標(biāo)志決定部381協(xié)作來針對單詞列W的各詞間決定劃分標(biāo)志,以所決定的劃分標(biāo)志表不的劃分方法劃分單詞列W,分割為部分列。劃分標(biāo)志決定部381將部分列輸出到輸出部311。接著,參照圖13說明分析部31和概率系數(shù)輸出部41執(zhí)行的處理的概要。針對單詞列W的各詞間(詞間IWl IW5),詞間選擇部341依次選擇關(guān)注詞間。在圖13的例子中用記號*表不關(guān)注詞間IW3。N-gram提取部351提取出作為包含構(gòu)成關(guān)注詞間IW3的單詞“fillet”和“with”的 N-gram (二兀文法)的“trout-fillet”、“fillet-with”、“with-wasabi”(圖 13 的(I))。然后,概率系數(shù)輸出部41提取出教師數(shù)據(jù)402中包含提取出的二元文法的對應(yīng)教師數(shù)據(jù)(圖13的(2)),求出其數(shù)量M。在圖13的例子中,對于“trout-fillet”提取出100個對應(yīng)教師數(shù)據(jù)。求出提取出的對應(yīng)教師數(shù)據(jù)中關(guān)注詞間的劃分標(biāo)志為I的數(shù)量m (圖13的例子中為69個)。然后,將m/M設(shè)為關(guān)注詞間N-gram概率系數(shù)Pn (N-gram、IW3、1)(圖13的
(3))。·然后,針對提取出的各個N-gram同樣地求出關(guān)注詞間N-gram概率系數(shù)Pn,進(jìn)行相加平均來求出詞間概率系數(shù)Piw (圖13的(4))。接著,參照流程圖(圖14、圖15)說明信息處理裝置2執(zhí)行的處理。信息處理裝置2的信息處理部71,當(dāng)用戶使用圖像輸入部10執(zhí)行取得菜單的圖像的操作時,與實施方式I的信息處理裝置I同樣地開始圖7所示的菜單顯示處理。信息處理裝置2的信息處理部71除了步驟S104中執(zhí)行的菜單分割處理是圖14所示的菜單分割處理2以外,與實施方式I的信息處理裝置I的信息處理部70同樣地執(zhí)行菜單顯示處理。信息處理裝置2通過該菜單顯示處理,根據(jù)菜單的圖像生成顯示數(shù)據(jù)來顯
/Jn ο參照圖14說明信息處理裝置2在菜單顯示處理的步驟S104中執(zhí)行的菜單分割處理2。在菜單分割處理2中,首先,針對計數(shù)器變量k選擇單詞列W的第k個詞間作為關(guān)注詞間(步驟S501)。接著,針對關(guān)注詞間執(zhí)行圖9所示的詞間概率系數(shù)計算處理1,計算關(guān)注詞間的詞間概率系數(shù)PiW (W,Iffk,l)(步驟S502)。在步驟S502中執(zhí)行的詞間概率系數(shù)計算處理,除了在該步驟S303中執(zhí)行的N-gram概率系數(shù)計算處理為圖15所示的N-gram概率系數(shù)計算處理2以外,與實施方式I的詞間概率系數(shù)計算處理I同樣地執(zhí)行。參照圖15說明N-gram概率系數(shù)計算處理2。在N-gram概率系數(shù)計算處理2中,首先如圖13的(2)舉例所示,從教師數(shù)據(jù)402中提取包含在詞間概率計算處理I (圖9)的步驟S302中選擇的關(guān)注η元文法的教師數(shù)據(jù)(步驟S601 )。并且,取得此時提取出的數(shù)據(jù)的
數(shù)量Μ。
接著,判別步驟S602中提取出的教師數(shù)據(jù)的數(shù)量M是否在數(shù)據(jù)存儲部702中存儲的表示必要數(shù)據(jù)數(shù)量的閾值以上(步驟S602)。該閾值可以是通過實驗決定的任意的數(shù)值,在此,為了在劃分的概率比未劃分的概率高的情況下判別為劃分而設(shè)為0.5。當(dāng)判別的結(jié)果為判別為閾值以上時(步驟S602:是),針對當(dāng)前的η元文法,可以判斷出收集了用于計算關(guān)注詞間N-gram概率系數(shù)Pn的足夠數(shù)量的教師數(shù)據(jù)。因此,提取出所提取的教師數(shù)據(jù)中在關(guān)注詞間劃分的教師數(shù)據(jù),取得其數(shù)量m (步驟S608)。然后,如圖13的(3)舉例所示,計算m/M作為關(guān)注詞間N-gram概率系數(shù)Pn (步驟S609)。另一方面,當(dāng)判別教師數(shù)據(jù)的數(shù)量M比閾值小時(步驟S602:否),針對當(dāng)前的N-gram,可以判斷出無法收集用于計算關(guān)注詞間N-gram概率系數(shù)Pn的足夠數(shù)量的教師數(shù)據(jù),因此,根據(jù)部分列(n=n-l)的關(guān)注詞間N-gram概率系數(shù)Pn或缺省值計算關(guān)注詞間N-gram概率系數(shù)Pn。具體來說,首先判別當(dāng)前的η是否是I (步驟S603)。然后,在η=1的情況下(步驟S603:是),當(dāng)前的關(guān)注N-gram為一元文法,因此可以判斷出無法進(jìn)一步提取部分列。因此,設(shè)一兀文法為未知詞,將針對未知詞定義的缺省值設(shè)為該關(guān)注N-gram的關(guān)注詞間N-gram概率系數(shù)Pn (步驟S604)。另一方面,在并非n=l的情況下(步驟S603:否),從當(dāng)前的關(guān)注N-gram中提取部分列,針對該部分列取得概率系數(shù)。具體來說,從當(dāng)前的關(guān)注N-gram中提取出2個(n_l)元文法,設(shè)為新的關(guān)注η元文法(η=η-1)(步驟S605)。然后,針對作為部分列的各個新的關(guān)注η元文法循環(huán)地執(zhí)行N-gram概率系數(shù)取得處理2,求出部分列的關(guān)注詞間N-gram概率系數(shù)Pn (步驟S606)。然后,對求出的兩個部分列 的關(guān)注詞間N-gram概率系數(shù)Pn進(jìn)行相加平均,設(shè)為關(guān)注N-gram的關(guān)注詞間N-gram概率系數(shù)Pn (步驟S607)。如上所述,當(dāng)通過步驟S607、步驟S604、步驟S609的某一個決定關(guān)注N-gram的關(guān)注詞間N-gram概率系數(shù)Pn時,N-gram概率系數(shù)取得處理2結(jié)束。返回圖14,在N-gram概率系數(shù)取得處理2中求出關(guān)注詞間N-gram概率系數(shù)Pn,通過使用求出的關(guān)注詞間N-gram概率系數(shù)Pn的詞間概率系數(shù)計算處理計算詞間概率系數(shù)Piw (W,IWk,I)時(步驟S502),接著,劃分標(biāo)志決定部381判別詞間概率系數(shù)Piw (W,Iffk,O是否在預(yù)定的數(shù)據(jù)存儲部702中記錄的閾值以上(步驟S503)。當(dāng)判別出詞間概率系數(shù)Piw (W,IWk,l)在預(yù)定的閾值以上時(步驟S503:是),可以推測該詞間以具有構(gòu)成詞間的N-gram的教師數(shù)據(jù)劃分的概率高,單詞列W也在此劃分,因此,劃分標(biāo)志決定部381將對應(yīng)的劃分標(biāo)志設(shè)為I (步驟S504)。另一方面,當(dāng)判別出比預(yù)定的閾值小時(步驟S503:否),可以推測單詞列W在該詞間未劃分,因此,劃分標(biāo)志決定部381將對應(yīng)的劃分標(biāo)志設(shè)為O (步驟S505)。接著,針對單詞列W的全部詞間判別是否決定了劃分標(biāo)志(步驟S506)。在未針對全部詞間決定劃分標(biāo)志的情況下(步驟S506:否),將計數(shù)器變量k增加1(步驟S507),針對下一詞間從步驟S501開始重復(fù)處理。另一方面,在針對全部詞間完成處理的情況下(步驟S506:是),可以判斷針對全部詞間決定了劃分標(biāo)志,因此結(jié)束菜單分割處理。如上所述,本實施方式的信息處理裝置2針對各詞間依次設(shè)定劃分標(biāo)志。因此,與關(guān)于與針對各詞間劃分的情況和未劃分的情況對應(yīng)的各個劃分模式計算劃分概率的情況相比,可以通過較少的計算量劃分單詞列W。此外,在上述說明中,教師數(shù)據(jù)由概率系數(shù)輸出部41存儲,但是教師數(shù)據(jù)也可以存儲在外部服務(wù)器中,使用通信部705根據(jù)需要來取得。而且,概率系數(shù)輸出部41可以代替教師數(shù)據(jù)而存儲將N-gram和關(guān)注詞間N-gram概率系數(shù)Pn對應(yīng)起來存儲的列表(N-gram概率系數(shù)列表),參照該列表來求出關(guān)注詞間N-gram概率系數(shù)Pn。參照圖16說明這種N-gram概率系數(shù)列表的例子。在圖16的例子中,將二元文法(n=2的N-gram)、與N-gram的各詞間對應(yīng)的關(guān)注詞間N-gram概率系數(shù)Pn、作為計算該概率系數(shù)的根據(jù)的教師數(shù)據(jù)的數(shù)量M對應(yīng)起來存儲。例如,在圖16的二元文法“ Smoked-trout ”的行的“pb ”的列中登錄了數(shù)值
0.12,表示將Smoked-trout設(shè)為關(guān)注N-gram的情況下的關(guān)注詞間N-gram概率系數(shù)Pn( Smokedltrout )為0.12。另外,該行的數(shù)據(jù)數(shù)量為2830表示pb的數(shù)值是從2830個教師數(shù)據(jù)中獲得的數(shù)值。(實施方式3)接著,說明本發(fā)明的實施方式3的信息處理裝置3。本實施方式的信息處理顯示裝置如圖17所示,具備圖像輸入部10 ;包含OCR(Optical Character Reader)20、分析部32、概率系數(shù)輸出部40、變換部50、術(shù)語辭典存儲部60的信息處理部72 ;顯示部80 ;操作輸入部90。本實施方式的信息處理裝置3,由分析部32執(zhí)行的決定各詞間的劃分標(biāo)志的處理與實施方式I以及2的信息處理裝置不同。其他各部與實施方式I的信息處理裝置I的同名的部位相同。
`
本實施方式的分析部32如圖18所示,由字符串取得部310、分隔書寫部320、N-gram列生成部352、劃分模式生成部331、概率系數(shù)取得部361、模式選擇部391、單詞列分割部392、輸出部311構(gòu)成。字符串取得部310、分隔書寫部320與實施方式I的同名的部位相同。N-gram列生成部352從單詞列W中提取N-gram (在此為二元文法)的列(圖19
(I))。此外,從單詞列W中提取出如從最初的單詞起到第η個單詞、從第2個單詞起到第η+1個單詞那樣包含η個單詞的單詞列的集合,得到在此所說的N-gram列。并且,劃分模式生成部331針對由N-gram列生成部352生成的各N_gram(二元文法)生成對應(yīng)劃分模式。首先,生成針對先頭的二元文法可以定義的全部劃分模式,設(shè)為對應(yīng)劃分模式。在此基礎(chǔ)上,概率系數(shù)取得部362從概率系數(shù)輸出部40取得對應(yīng)劃分模式的劃分概率系數(shù)(圖19(2))。進(jìn)而,模式選擇部391選擇劃分概率系數(shù)最高的劃分模式(在此為 “ISmokedOtroutO”)。然后,分析部32關(guān)注鄰接的二元文法,劃分模式生成部331生成針對對應(yīng)的詞間具有相同劃分標(biāo)志的劃分模式(對應(yīng)區(qū)間模式)(圖19(3))。在此,對于“ ISmokedOtroutO”,“OtroutOfilletO”和“OtroutOfilletl”為對應(yīng)區(qū)間模式。并且,模式選擇部391選擇對應(yīng)區(qū)間模式中劃分概率系數(shù)比較大的劃分模式。以下,針對下一二元文法也同樣地選擇(圖19 (4))。這樣,決定各詞間的劃分方法(劃分標(biāo)志)。當(dāng)針對全部N-gram選擇劃分模式時,單詞列分割部392通過所選擇的劃分模式的劃分方法劃分單詞列W。然后,輸出部311輸出作為劃分結(jié)果的部分列。接著,參照流程圖說明本實施方式中執(zhí)行的處理。本實施方式的信息處理裝置3與實施方式I同樣地執(zhí)行圖7所示的菜單顯示處理。但是,在本實施方式中,步驟S104中執(zhí)行的菜單分割處理為圖20所示的菜單分割處理3。參照圖20說明本實施方式的菜單分割處理3。在菜單分割處理3中,N-gram列生成部352根據(jù)單詞列W生成N-gram的列(步驟S701 )。然后,將k2設(shè)為計數(shù)器變量,選擇第k2個N-gram作為關(guān)注N-gram (步驟S702)。此外,關(guān)注N-gram從先頭(或最末尾)的N-gram起依次向鄰接的N-gram轉(zhuǎn)移。然后,劃分模式生成部331生成關(guān)注N-gram的對應(yīng)劃分模式(步驟S703)。在最初的循環(huán)中生成針對關(guān)注N-gram可以定義的全部劃分模式。在第二次以后的循環(huán)中生成兩個針對關(guān)注N-gram可以定義的劃分模式中、與前次的循環(huán)中選擇的劃分模式共同的詞間的劃分標(biāo)志相同的劃分模式。然后,概率系數(shù)取得部362針對生成的對應(yīng)劃分模式與圖10的步驟S402同樣地從概率系數(shù)輸出部40取得劃分概率系數(shù)(步驟S704)。接著,模式選擇部391比較在步驟S704中取得的劃分概率系數(shù),選擇在步驟S703中生成的對應(yīng)劃分模式中劃分概率系數(shù)最高的劃分模式(步驟S705)。當(dāng)模式選擇部391選擇劃分模式時,接著判別是否針對全部N-gram選擇了劃分模式(步驟S706)。在未針對全部N-gram選擇時(步驟S706:否),將計數(shù)器變量k2增加I (步驟S707),針對下一 N-gram (鄰接的N-gram)從步驟S702開始重復(fù)處理。另一方面,在針 對全部N-gram進(jìn)行了選擇時(步驟S706:是),菜單分割處理結(jié)束。此后,單詞列分割部392通過所選擇的劃分方法分割單詞列,輸出部311將分割結(jié)果輸出到變換部50。如上所述,根據(jù)本實施方式的信息處理裝置3,參照此前決定的劃分方法來決定各詞間的劃分方法。因此,可以高精度地推定劃分方法。(變形例)以上,說明了本發(fā)明的實施方式,但本發(fā)明的實施方式不限于此。例如,在上述實施方式I至3中,從圖像輸入部10拍攝的圖像中提取出單詞列W,但是也可以從用戶使用鍵盤輸入的字符串中提取出單詞列W。另外,也可以通過聲音識別從聲音數(shù)據(jù)中取得字符串。另外,在上述實施方式I至3中,變換部針對每個單詞附加在術(shù)語辭典中登錄的解釋文來生成了顯示數(shù)據(jù)。但是,在本發(fā)明中使用分割后的單詞列生成顯示數(shù)據(jù)的方法不限于此。例如可以使用任意的翻譯器按每個部分列來翻譯分割后的單詞列,將翻譯結(jié)果作為顯示數(shù)據(jù)。根據(jù)這種信息處理裝置,當(dāng)輸入的菜單例如是中文的情況下,即使是僅理解日語,無法使用鍵盤輸入中文的字符串的用戶,只要執(zhí)行拍攝菜單的操作,就可以用日語顯示菜單的概要。另外,也可以將部分列作為檢索關(guān)鍵詞來檢索術(shù)語辭典等數(shù)據(jù)庫,將檢索結(jié)果作為顯示數(shù)據(jù)。而且,可以將分割后的部分列作為關(guān)鍵詞來進(jìn)行圖像檢索,將獲得的圖像作為顯示數(shù)據(jù)來顯示。通過這樣的結(jié)構(gòu),例如在部分列具有“莖” “海藻”或“白酒” “蒸”的情況下,可以在將“莖”和“海藻”歸到一起、將“白酒”和“蒸”歸到一起的同時顯示關(guān)于“莖海藻”以及
“白酒蒸”的解釋。另外,在上述實施方式I至3中,成為分析對象的單詞列為菜單,但是本發(fā)明能夠應(yīng)用于菜單以外的任意范疇的單詞列。本發(fā)明的成為分析對象的單詞列優(yōu)選是以表現(xiàn)的單詞有限、限定了單詞和單詞的劃分方法的規(guī)則為特征的范疇的單詞列。作為這種范疇的單詞列的例子,除了菜單以外,列舉出住所、藥品的功能書、說明書等。另外,進(jìn)行用于由信息處理部701、數(shù)據(jù)存儲部792、程序存儲部703等構(gòu)成的信息處理裝置的處理的中心部分與專用的系統(tǒng)無關(guān),能夠使用通常的計算機(jī)系統(tǒng)來實現(xiàn)。例如可以將用于執(zhí)行上述動作的計算機(jī)程序存儲在計算機(jī)可讀取的記錄介質(zhì)(軟盤、CD-ROM、DVD-ROM等)上進(jìn)行分發(fā),將該計算機(jī)程序安裝在計算機(jī)上,由此構(gòu)成執(zhí)行上述處理的信息終端。另外,可以在因特網(wǎng)等通信網(wǎng)絡(luò)上的服務(wù)器裝置具有的存儲裝置中存儲該計算機(jī)程序,由通常的計算機(jī)系統(tǒng)下載等,由此構(gòu)成信息處理裝置。另外,在通過OS (操作系統(tǒng))和應(yīng)用程序的分擔(dān)、或者OS和應(yīng)用程序的協(xié)作來實現(xiàn)信息處理裝置的功能等情況下,可以僅將應(yīng)用程序部分存儲在記錄介質(zhì)或存儲裝置中。另外,也能夠在載波上疊加計算機(jī)程序,經(jīng)由通信網(wǎng)絡(luò)來進(jìn)行分發(fā)。例如可以在通信網(wǎng)絡(luò)上的公告板(BBS:Bulletin Board System)上公開所述計算機(jī)程序,經(jīng)由網(wǎng)絡(luò)分發(fā)給所述計算機(jī)程序。然后,啟動該計算機(jī),在OS的控制下與其他應(yīng)用程序同樣地執(zhí)行,由此可以執(zhí)行所述處理。另外,可以使用與菜單顯示裝置獨立的計算機(jī)來實現(xiàn)上述信息處理裝置執(zhí)行的處理的一部分。
以上說明了本發(fā)明的優(yōu)選實施方式,但是本發(fā)明不限于所述特定的實施方式,在本發(fā)明中包含請求專利保護(hù)的范圍中記載的發(fā)明及其等同的范圍。
權(quán)利要求
1.一種信息處理裝置,其特征在于,具備: 單詞列取得部,用于取得成為分析對象的單詞列; 部分列提取部,其使用由所述單詞列取得部取得的單詞列的各詞間鄰接的兩個單詞,從所述取得的單詞列中提取出不包含另一方的單詞而包含一方的單詞的部分列、不包含一方的單詞而包含另一方的單詞的部分列、以及包含雙方的單詞的部分列; 劃分系數(shù)取得部,其針對由所述部分列提取部提取出的各個部分列,取得與將所述部分列劃分為單詞的各個劃分模式相關(guān)的表不劃分所述部分列的可靠性的程度的劃分系數(shù); 概率系數(shù)獲得部,其基于所述劃分系數(shù)取得部取得的劃分系數(shù),求出表示單詞列在所述詞間被劃分的概率的系數(shù);以及 輸出部,其基于所述概率系數(shù)獲得部求出的系數(shù),判別所述分析對象的單詞列的劃分,劃分由所述單詞列取得部取得的單詞列而輸出。
2.根據(jù)權(quán)利要求1所述的信息處理裝置,其特征在于, 具有:系數(shù)存儲部,其存儲了與劃分由從包含多個例句的教師數(shù)據(jù)中提取出的多個單詞構(gòu)成的部分列的劃分模式對應(yīng)的劃分系數(shù), 所述劃分系數(shù)取得部從所述系數(shù)存儲部取得與所述部分列的劃分模式對應(yīng)的劃分系數(shù)。
3.根據(jù)權(quán)利要求2所述的信息處理裝置,其特征在于, 所述部分列提取部從所述成為分析對象的單詞列的開頭按順序地取得部分列。
4.根據(jù)權(quán)利要求3所述的信息處理裝置,其特征在于, 所述教師數(shù)據(jù)包含由與所述成為分析對象的單詞列屬于同一范疇的單詞列構(gòu)成的例句。
5.根據(jù)權(quán)利要求4所述的信息處理裝置,其特征在于, 所述單詞列取得部具有: 拍攝子符串的圖像的攝像部;以及 從所述攝像部拍攝的圖像中提取出字符串的字符串提取部, 所述輸出部具有: 將被劃分的單詞列變換為表示包含在該被劃分的單詞列中的單詞的含義的顯示數(shù)據(jù)的變換部;以及 顯示由所述變換部變換后的顯示數(shù)據(jù)的顯示部。
6.根據(jù)權(quán)利要求1所述的信息處理裝置,其特征在于, 具有存儲了包含多個例句的教師數(shù)據(jù)的教師數(shù)據(jù)存儲部, 所述劃分系數(shù)取得部從所述教師數(shù)據(jù)存儲部中提取出包含所述部分列的例句,基于所提取出的例句的數(shù)量取得劃分系數(shù)。
7.根據(jù)權(quán)利要求6所述的信息處理裝置,其特征在于, 所述部分列提取部從所述成為分析對象的單詞列的開頭按順序地取得部分列。
8.根據(jù)權(quán)利要求7所述的信息處理裝置,其特征在于, 所述教師數(shù)據(jù)包含由與所述成為分析對象的單詞列屬于同一范疇的單詞列構(gòu)成的例 句。
9.根據(jù)權(quán)利要求8所述的信息處理裝置,其特征在于, 所述單詞列取得部具有: 拍攝子符串的圖像的攝像部;以及 從所述攝像部拍攝的圖像提取出字符串的字符串提取部, 所述輸出部具有: 將被劃分的單詞列變換為表示包含在該被劃分的單詞列中的單詞的含義的顯示數(shù)據(jù)的變換部;以及 顯示所述變換部變換后的顯示數(shù)據(jù)的顯示部。
10.一種使用計算機(jī)的信息處理方法,其特征在于,具有以下步驟: 取得成為分析對象的單詞列; 使用所取得的單詞列的各詞間鄰接的兩個單詞,從所述取得的單詞列中提取出不包含另一方的單詞而包含一方的單詞的部分列、不包含一方的單詞而包含另一方的單詞的部分列、以及包含雙方的單詞的部分列; 針對提取出的各個部分列,取得與將所述部分列劃分為單詞的各個劃分模式相關(guān)的表示劃分所述部分列的可靠性的程度的劃分系數(shù); 基于所述取得的劃分系數(shù),求出表示單詞列在所述詞間被劃分的概率的系數(shù);以及基于求出的所述系數(shù),判別所述分析對象的單詞列的劃分,劃分所述取得的單詞列而輸出。
11.根據(jù)權(quán)利 要求10所述的信息處理方法,其特征在于, 所述計算機(jī)具有:系數(shù)存儲部,其存儲了與劃分由從包含多個例句的教師數(shù)據(jù)中提取出的多個單詞構(gòu)成的部分列的劃分模式對應(yīng)的劃分系數(shù), 所述劃分系數(shù)取得步驟從所述系數(shù)存儲部取得與所述部分列的劃分模式對應(yīng)的劃分系數(shù)。
12.根據(jù)權(quán)利要求11所述的信息處理方法,其特征在于, 所述部分列提取步驟從所述成為分析對象的單詞列的開頭按順序地取得部分列。
13.根據(jù)權(quán)利要求12所述的信息處理方法,其特征在于, 所述教師數(shù)據(jù)包含由與所述成為分析對象的單詞列屬于同一范疇的單詞列構(gòu)成的例句。
14.根據(jù)權(quán)利要求13所述的信息處理方法,其特征在于, 所述單詞列取得步驟具有: 拍攝字符串的圖像的步驟;以及 從拍攝的圖像中提取出字符串的步驟, 所述輸出步驟具有: 將被劃分的單詞列變換為表示包含在該被劃分的單詞列中的單詞的含義的顯示數(shù)據(jù)的步驟;以及 顯示變換后的顯示數(shù)據(jù)的步驟。
15.根據(jù)權(quán)利要求10所述的信息處理方法,其特征在于, 所述計算機(jī)具有存儲了包含多個例句的教師數(shù)據(jù)的教師數(shù)據(jù)存儲部, 所述劃分系數(shù)取得步驟從所述教師數(shù)據(jù)存儲部中提取出包含所述部分列的例句,基于所提取出的例句的數(shù)量取得劃分系數(shù)。
16.根據(jù)權(quán)利要求15所述的信息處理方法,其特征在于, 所述部分列提取步驟從所述成為分析對象的單詞列的開頭按順序地取得部分列。
17.根據(jù)權(quán)利要求16所述的信息處理方法,其特征在于, 所述教師數(shù)據(jù)包含由與所述成為分析對象的單詞列屬于同一范疇的單詞列構(gòu)成的例句。
18.根據(jù)權(quán)利要求17所述的信息處理方法,其特征在于, 所述單詞列取得步驟具有: 拍攝字符串的圖像的步驟;以及 從所述拍攝的圖 像提取出字符串的步驟, 所述輸出步驟具有: 將被劃分的單詞列變換為表示包含在該被劃分的單詞列中的單詞的含義的顯示數(shù)據(jù)的步驟;以及 顯示所述變換后的顯示數(shù)據(jù)的步驟。
全文摘要
本發(fā)明提供一種信息處理裝置以及信息處理方法。信息處理裝置具備單詞列取得部,用于取得成為分析對象的單詞列;部分列提取部,其使用由所述單詞列取得部取得的單詞列的各詞間鄰接的兩個單詞,從所述取得的單詞列中提取出不包含另一方的單詞而包含一方的單詞的部分列、不包含一方的單詞而包含另一方的單詞的部分列、以及包含雙方的單詞的部分列;劃分系數(shù)取得部,其針對由所述部分列提取部提取出的各個部分列,取得與將所述部分列劃分為單詞的各個劃分模式相關(guān)的表示劃分所述部分列的可靠性的程度的劃分系數(shù);概率系數(shù)獲得部,其基于所述劃分系數(shù)取得部取得的劃分系數(shù),求出表示單詞列在所述詞間劃分的概率的系數(shù);以及輸出部,其基于所述概率系數(shù)獲得部求出的系數(shù),判別所述分析對象的單詞列的劃分,劃分由所述單詞列取得部取得的單詞列來輸出。
文檔編號G06F17/28GK103246642SQ20131004844
公開日2013年8月14日 申請日期2013年2月6日 優(yōu)先權(quán)日2012年2月6日
發(fā)明者井手博康 申請人:卡西歐計算機(jī)株式會社