亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

識別詞典制作裝置及聲音識別裝置的制作方法

文檔序號:2824935閱讀:194來源:國知局
專利名稱:識別詞典制作裝置及聲音識別裝置的制作方法
技術領域
本發(fā)明涉及制作作為聲音識別對象的詞匯的詞典的識別詞典制作裝置及利用該識別詞典制作裝置的聲音識別裝置。
背景技術
在專利文獻I中,公開了一種通過同時使用作為聲音識別對象的多種語言的音響模型、能進行與多種語言相對應的聲音識別的聲音識別裝置。然而,在該專利文獻I的發(fā)明中,需要具有與所有作為聲音識別對象的多種語言相對應的多種語言用的音響模型,存在無法適用于一般的僅與一種語言相對應的聲音識別的問題。 此外,專利文獻I的發(fā)明需要預先確定識別詞匯是用哪種語言記載的,并預先賦
予讀音。另一方面,在僅與一種語言相對應的聲音識別中,對于未賦予讀音的登記對象文本,自動生成識別對象語言的讀音以進行識別。此時,對于用與識別對象語言不同的語言來記載的文本,無法賦予讀音。本發(fā)明是為了解決上述問題而完成的,其目的在于獲得一種識別詞典制作裝置利用該識別詞典制作裝置的聲音識別裝置,該識別詞典制作裝置即使在作為登記到識別詞典的對象的詞匯所屬語言不明確的情況下,也能生成將該詞匯的讀音變換至聲音識別的語言的音素體系的識別詞典。現有技術文獻專利文獻專利文獻I :日本專利特許第3776391號公報

發(fā)明內容
本發(fā)明所涉及的識別詞典制作裝置包括語言辨識部,該語言辨識部對所輸入的登記對象文本的讀音的語言進行辨識;讀音賦予部,該讀音賦予部利用由語言辨識部辨識出的語言的音素對登記對象文本賦予讀音;讀音變換部,該讀音變換部將登記對象文本的讀音從由語言辨識部辨識出的語言的音素變換成聲音識別中處理的識別對象語言的音素;及識別詞典生成部,該識別詞典生成部生成登記有由讀音變換部進行變換后的登記對象文本的讀音的識別詞典。根據本發(fā)明,對所輸入的登記對象文本的讀音的語言進行辨識,利用辨識出的語言的音素來對登記對象文本賦予讀音,并且,生成登記有將登記對象文本的讀音從辨識出的語言的讀音變換成聲音識別中處理的識別對象語言后的讀音的識別詞典。這樣,具有如下效果即使在未明確登記到識別詞典的登記對象文本(詞匯)是用哪種語言來記述的情況下,也能獲得與聲音識別的語言的音素體系相符合的識別詞典。


圖I是表示利用本發(fā)明的實施方式I所涉及的識別詞典制作裝置的登記型聲音識別裝置的結構的框圖。圖2是表示實施方式I的識別詞典制作裝置所涉及的識別詞典的制作動作流程的流程圖。圖3是表示在德語和英語中發(fā)音類似的音素的對應表的一個示例的圖。圖4是表示實施方式I的識別詞典制作裝置所涉及的識別詞典的制作動作流程的流程圖。圖5是表示利用本發(fā)明的實施方式2所涉及的識別詞典制作裝置的登記型聲音識
別裝置的結構的框圖。圖6是表示實施方式2的識別詞典制作裝置所涉及的識別詞典的制作動作流程的流程圖。
具體實施例方式下面,為了更詳細地對本發(fā)明進行說明,根據附圖對用于實施本發(fā)明的方式進行說明。實施方式I圖I是表示利用本發(fā)明的實施方式I所涉及的識別詞典制作裝置的登記型聲音識別裝置的結構的框圖。圖I中,實施方式I所涉及的聲音識別裝置100包括語言辨識部101、讀音賦予部102、讀音變換部103、識別詞典生成部104、識別詞典存儲部105、及聲音識別部106。這些結構部中,語言辨識部101、讀音賦予部102、讀音變換部103、識別詞典生成部104、及識別詞典存儲部105是實施方式I所涉及的識別詞典制作裝置的結構。語言辨識部101是對作為登記到識別詞典的登記對象的詞匯的文本字符串(以下稱為登記對象文本)的語言進行辨識的結構部。登記對象文本中還包含有難以確定語言的詞匯的文本字符串,例如,可舉出登記到便攜式音樂播放器的樂曲的標題和藝術家名等目錄數據、登記到移動電話的地名和人名等。讀音賦予部102是利用由語言辨識部101辨識出的語言對登記對象文本用音素賦予讀音的結構部。讀音變換部103是將由讀音賦予部102賦予的讀音變換成在聲音識別部106所進行的聲音識別中使用的語言的音素的結構部。識別詞典生成部104是將由讀音變換部103進行變換后的音素作為成為聲音識別對象的詞匯(以下稱為識別對象詞匯)來生成、并登記到識別詞典存儲部105的識別詞典的結構部。識別詞典存儲部105是能由識別詞典生成部104和聲音識別部106進行讀寫的存儲部,存儲有登記由識別詞典生成部104生成的識別對象詞匯的識別詞典。聲音識別部106是利用識別詞典存儲部105所存儲的識別詞典的識別對象詞匯來執(zhí)行聲音識別、并輸出識別結果的結構部。此外,對于語言辨識部101、讀音賦予部102、讀音變換部103、識別詞典生成部104、識別詞典存儲部105、及聲音識別部106,通過將按照本發(fā)明要點的識別詞典制作程序存儲在計算機中,并使CPU加以執(zhí)行,從而能在該計算機上作為硬件和軟件協(xié)作的具體單元來實現。而且,識別詞典存儲部105及聲音識別部106所使用的存儲區(qū)域由上述計算機所裝載的存儲裝置、例如硬盤裝置、外部存儲介質等來構建。
接下來,對動作進行說明。圖2是表示實施方式I的識別詞典制作裝置所涉及的識別詞典的制作動作流程的流程圖,描述語言辨識部101、讀音賦予部102、讀音變換部103、及識別詞典生成部104對于I個登記對象文本所進行的動作的細節(jié)。首先,語言辨識部101對登記對象文本的字符串開始進行語言辨識處理,判定該字符串是由哪種語言記載的(步驟ST201)。具體而言,判定所輸入的登記對象文本的字符串符合設定于語言辨識部101的多種語言中的哪種語言。例如,在語言辨識部101中,在將英語、德語、法語、意大利語、西班牙語、荷蘭語等6種歐洲語言設定作為語言辨識的對象的情況下,若所輸入的登記對象文本的字符串為"Guten Morgen”,則語言辨識部101輸出該字符串的語言為德語這一語言辨識結果。在語言辨識失敗等無法辨識語言的情況下,語言辨識部101將聲音識別部106能 作為聲音識別對象來受理的語言作為辨識結果進行輸出。此外,在語言辨識部101的語言辨識中,例如使用字符的N-gram。N-gram本身是由克勞德 艾爾伍德 香農(Claude Elwood Shannon)建立的與語言信息相關的分析模型,在聲音識別用的語言模型、全文檢索等中使用。在下述的參考文獻I中記載有這些一般的N-gram的利用方法。(參考文獻I)“通信的數學理論”,克勞德 艾爾伍德 香農,貝爾系統(tǒng)技術雜志,第 27 卷,第 379-423,623-656 頁,七月,十月,1948。(“AMathematical Theory ofCommunication,,,C. E. SHANNON, The Bell SystemTechnical Journal, Vol. 27,pp. 379-423,623-656,July, October, 1948.) 這樣,通過將N-gram的概念弓I入到文本字符串的語言辨識中,能高精度地辨識語言。例如,對設N為3、利用字符的Trigram的語言辨識進行說明。語言辨識部101具有利用作為語言辨識對象的各語言來記載的學習用文本字符串,求出學習用字符串中出現的3個連續(xù)字符的出現概率。例如,對于字符串“MITSUBISHI”的情況,可分解成“$$] ”、“$]\0”、“]\01'”、“幾5”、“丁5^‘5皿”、“服1”、“815”、“15!1”、“5!11”、“HI$”、“I$$”等各序列。另外,“$”意指表示詞頭、詞尾的字符。在求出語言i (i = 1,2,……,N)的所有學習字符串中各序列出現的頻度之后,語言辨識部101對所學習的每一語言采用出現概率較高的前η個序列作為模型,并將字符序列及其出現頻度存儲在各語言的語言辨識模型中。例如,對于語言i的語言辨識模型,存儲字符序列(Trigram) “$$M”及此時的出現概率Pi ($,$,M)等。語言辨識部101對于登記對象文本的字符串,利用各語言的語言辨識模型求出每一語言的字符序列(Trigram)的序列概率,將序列概率值最大的語言采用作為語言辨識結果。例如,對于“Best”的語言i的序列概率Pi通過Pi=Pi ($,$,B) XPi ($,B, E) XPi (B, E, S)XPi (E,S,T) XPi (S, T, $) XPi(T,$,$)來求出。該序列概率Pi最大的語言i成為語言辨識結果。另外,語言辨識部101在N-gram未存儲于語言辨識模型的情況下,提供預定的一定概率作為出現概率以進行計算。在求出N-gram時,對于在作為語言辨識對象的多種語言中共通記述且對語言辨識無幫助的字符(例如,數字、括弧、句號等符號),也可以預先將這些字符置換成表示特殊字符的字符而求出N-gram。例如,使用#、@等特殊字符。此外,在語言辨識中,在使用了限定所使用的語言的字符的情況下,將使用該字符的語言中、似然度(likelihood)最高的語言作為辨識結果來輸出。作為限定所使用的語言的字符,例如可舉出使用了元音變音的字符等。另外,對于用于N-gram學習的文本字符串(用于語言辨識模型的文本字符串),通過利用與識別對象詞匯相同任務(task)的詞匯來進行學習,能提高語言的辨識精度。任務是指使用例如音樂檢索、住所識別等的識別對象詞匯的處理。語言辨識部101包括每一任務的學習用字符串,將與使用登記對象文本的任務相對應的學習用字符串用于語言辨識。接下來,在從語言辨識部101輸入辨識結果時,讀音賦予部102判定該辨識結果是設定于聲音識別裝置100的多種語言中的哪種語言(步驟ST202),對于所輸入的登記對象文本的字符串,利用判定結果的語言的音素來賦予讀音(步驟ST203)。若是由聲音識別部106設為當前聲音識別對象的識別對象語言,則利用該識別對象語言的音素來賦予讀音。同樣地,即使判定結果的語言是識別對象語言以外的語言1、2、……、N中的任一種,也如圖2·所示,利用該語言的音素來賦予讀音。另外,在賦予音素時,例如使用G2P (Grapheme to Phoneme :字形到音素)。此外,在該讀音賦予處理中,也一并進行省略語的判定、符號等的處理之類的依賴于語言的處理。讀音變換部103對于在步驟ST203中、利用識別對象語言以外的語言的音素來賦予讀音的登記對象文本,將各語言的音素的讀音變換成識別對象語言的音素的讀音(步驟ST204)。像這樣變換音素體系的理由在于,能由聲音識別部106受理的音素體系僅為設為聲音識別對象的識別對象語言,語言不同的音素體系中存在無法受理的音素。作為這種音素(讀音)的變換方法,例如,讀音變換部103對于無法由聲音識別部106受理的語言的音素或音素序列,預先準備識別對象語言中最接近的音素或音素序列作為對應表,根據上述對應表對由步驟ST203得到的文本字符串的讀音進行讀音變換(音素映射)。圖3是表示上述那樣的對應表的一個示例的圖,示出德語與英語之間的對應關系。德語中的發(fā)音/a/ (開前不圓唇元音)、/Y/ (次閉次前圓唇元音)等在英語的發(fā)音體系中不存在。因此,聲音識別部106在受理英語的情況下,無法應對該讀音。因而,對于德語的發(fā)音/a/、/Y/,像圖3所示的對應表那樣,使其與由聲音識別部106能受理的英語中存在的音素中、發(fā)音最接近的音素例如/{/ (次開前不圓唇元音)、/I/(半閉前圓唇元音)相對應。另外,此處的發(fā)音表述使用X-SAMPA表述。該對應表可以將語言上相近的音素彼此進行對應,但也可以基于例如各語言的發(fā)首易于由哪種首素表述來識別等,以決定對應關系。識別詞典生成部104輸入在步驟ST203中由讀音賦予部102對登記對象文本的字符串賦予的音素、或在步驟ST204中由讀音變換部103進行變換后的音素,并生成聲音識別部106能參照的格式的識別詞典(步驟ST205)。例如,除將識別詞匯變換成二進制數據之夕卜,還根據需要進行詞素解析、單詞分割以生成語言制約等,從而獲得識別詞典。在作為登記對象文本的詞匯有多個的情況下,對各登記對象文本重復進行上述為止的處理。另外,在生成識別詞典時,也可以在對所有的登記對象文本的詞匯賦予讀音之后集中進行,而不是逐一追加登記詞匯。由識別詞典生成部104生成的識別詞典存儲于識別詞典存儲部105。聲音識別部106參照識別詞典存儲部105所存儲的識別詞典中記載的識別詞匯、文法來進行輸入聲音的聲音識別,并輸出識別結果。例如,聲音識別部106讀入利用特定語言的音素體系的音素來記載的識別詞典,對特定語言的輸入聲音進行聲音識別。作為聲音識別的算法,例如利用HMM (Hidden Markov Model :隱馬爾科夫模型)、DP (DynamicProgramming :動態(tài)規(guī)劃)匹配等。至上述為止,對由語言辨識部101辨識出的語言為I種語言的情況下的動作進行了說明,但接下來,對由語言辨識部101從所輸入的登記對象文本的字符串中辨識出多種語言的情況下的動作進行說明。圖4是表示實施方式I的識別詞典制作裝置所涉及的識別詞典的制作動作流程的流程圖,示出由語言辨識部101辨識出N種語言的情況。 語言辨識部101對登記對象文本的字符串開始進行語言辨識處理,判定該字符串是用哪種語言記載的,將最有可能認為是該字符串的語言的前N種語言設為語言辨識結果(步驟 ST301)。另外,此處,N種可以是固定值,但也可以是利用語言辨識部101輸出表示信賴度的得分而該得分為預定閾值以上的信賴度的候選的數目、相對于第一位的信賴度在一定的信賴度差以內的候選的數目。例如,在輸入“Hamburg”作為登記對象文本的情況下,語言辨識部101輸出從該文本辨識出的語言為德語和英語(N= 2)這一結果。此外,在辨識語言失敗等無法辨識語言的情況、或信賴度的得分小于閾值的情況下,語言辨識部101將能由聲音識別部106受理的語言(識別對象語言)作為語言的辨識結果來輸出。接下來,語言辨識部101將作為辨識結果而得到的語言的數目、即表示對每一語言進行的后述處理的次數的計數器i初始化為i = 0(步驟ST301 - I),并將與第i個辨識結果相對應的語言設定于讀音賦予部102。由此,讀音賦予部102、讀音變換部103、及識別詞典生成部104利用與第i (i = O N)個辨識結果相對應的語言來執(zhí)行從步驟ST302到步驟ST306的處理。另外,步驟ST302是與圖2所示的步驟ST202相同的處理,步驟ST303是與圖2所示的步驟ST203相同的處理,步驟ST304是與圖2所示的步驟ST204相同的處理,步驟ST305是與圖2所示的步驟ST205相同的處理。在步驟ST306中,語言辨識部101將計數器i增加+ 1,利用下一個辨識結果的語言來重復上述一連串處理。在步驟ST307中,若語言辨識部101基于計數器i的計數值,判定為對所有辨識結果的語言完成(i彡N+ I)了上述一連串處理,則結束對所輸入的登記對象文本的登記處理。由此,即使在I個登記對象文本是利用多種語言來記述的情況下,通過辨識這些語言,利用其音素分別賦予讀音,之后分別變換成識別對象語言的音素的讀音,從而也能作為識別詞匯登記于識別詞典。因而,即使用戶利用語言辨識部101辨識出的任一種語言來說出該文本字符串,也能利用登記于識別詞典的對應識別詞匯來進行聲音識別。另外,在登記對象文本有多個的情況下,與得到I種語言作為辨識結果的情況相同,對各登記對象文本重復進行上述處理。在生成識別詞典時,也可以對利用I個登記對象文本的詞匯辨識出的所有語言集中進行追加登記,而不是按照作為對I個登記對象文本的語言辨識結果而得到的每一語言來進行追加登記?;蛘撸部梢栽趯λ械怯泴ο笪谋镜脑~匯賦予讀音之后集中進行。如上所述,根據該實施方式1,對所輸入的登記對象文本的讀音的語言進行辨識,利用辨識出的語言的音素來對登記對象文本賦予讀音,并且,生成登記有將登記對象文本的讀音從辨識出的語言的讀音變換成聲音識別中處理的識別對象語言后的讀音的識別詞典。這樣,即使在未明確登記對象文本是哪種語言的情況下(例如,登記到便攜式音樂播放器的樂曲的標題和藝術家名等目錄數據、登記到移動電話的地名和人名等),通過利用N-gram的語言辨識模型來辨識登記對象文本的語言,賦予辨識出的語言的音素,并變換成聲音識別中能受理的語言的音素,從而也能作為聲音識別中參照的識別詞匯進行登記。此外,根據該實施方式1,語言辨識部101從登記對象文本辨識出多種語言,從而在登記對象文本有可能符合多種語言的情況下,利用各語言賦予讀音,以作為識別詞匯進行登記。這樣,即使用戶利用任一種語言來發(fā)音,也能進行聲音識別。 此外,根據該實施方式1,語言辨識部101對語言的辨識結果設定表示對各語言的信賴度的得分,與有關該得分的規(guī)定閾值進行比較,將信賴度最高的語言作為最終辨識結果來輸出。這樣,能僅采用用戶最有可能發(fā)聲的語言的發(fā)音,從而能提高聲音識別性能。此外,根據該實施方式1,由于利用N-gram進行語言辨識,因此,與按每一語言準備單詞詞典等以進行語言判定的情況相比,能獲得穩(wěn)定的語言辨識性能。此外,同時能減小詞典尺寸,能削減運算量和存儲器消耗量。此外,根據該實施方式1,在利用N-gram的語言辨識中,利用將對辨識語言無幫助的字符(例如,數字、括弧、句號等符號)置換成表示特殊字符的I個字符的N-gram。由此,能減小語言辨識模型的存儲區(qū)域的尺寸,能削減語言辨識模型的檢索時間和存儲器消耗量,因此,容易將本發(fā)明應用于嵌入型裝置等運算速度和存儲器尺寸受限制的裝置。此外,根據該實施方式1,在登記對象文本中存在像元音變音等那樣、限定所使用的語言的字符的情況下,通過從使用該字符的語言中辨識出語言,從而能提高語言辨識的精度。此外,根據該實施方式1,在利用N-gram的語言辨識中,通過利用與識別對象詞匯相同的任務(使用了識別對象詞匯的處理)的詞匯來制作語言辨識模型,從而能提高語言辨識的精度。實施方式2圖5是表示利用本發(fā)明的實施方式2所涉及的識別詞典制作裝置的登記型聲音識別裝置的結構的框圖。在圖5中,實施方式2所涉及的聲音識別裝置100A在上述實施方式I所涉及的聲音識別裝置的結構的基礎上,還包括語言辨識前處理部107、定型字符串存儲部(排除對象存儲部)108、分割字符串存儲部(分割對象存儲部)109、及變換處理存儲部(處理內容存儲部)110。語言辨識前處理部107是配置在語言辨識部101的前級且輸入有登記對象文本的結構部,作為進行語言辨識處理的前處理,將所輸入的登記對象文本的字符串中的、特定的字符或字符串(以下稱為定型字符或定型字符串)從語言辨識對象中排除,或以規(guī)定的字符或字符串(以下稱為分割字符或分割字符串)為基準,對該登記對象文本進行分割。
定型字符串存儲部108是存儲有從語言辨識對象中排除的定型字符或定型字符串及其記述語言和讀音的存儲部。分割字符串存儲部109是存儲有作為分割登記對象文本時的分割位置的分割字符或分割字符串及其記述語言和讀音的存儲部。變換處理存儲部110是存儲由語言辨識前處理部107對登記對象文本實施的前處理的內容(排除或分割字符串)的存儲部。另外,在圖5中,對與圖I相同或同樣地進行動作的結構部標注相同標號,并省略其說明。其中,語言辨識部101對由語言辨識前處理部107實施了前處理后的登記對象文本的字符串進行語言辨識。此外,識別詞典生成部104在生成識別詞典時,利用變換處理存儲部110所存儲的前處理內容、即登記對象文本的分割后的各分割部分之間的連接關系、從登記對象文本中排除的字符串及其讀音,生成與該登記對象文本的字符串相符的識別詞典。此外,對于語言辨識前處理部107、定型字符串存儲部108、分割字符串存儲部 109、及變換處理存儲部110,通過將按照本發(fā)明要點的識別詞典制作程序存儲在計算機中,并使CPU加以執(zhí)行,從而能在該計算機上作為硬件和軟件協(xié)作的具體單元來實現。而且,定型字符串存儲部108、分割字符串存儲部109、及變換處理存儲部110所使用的存儲區(qū)域由上述計算機所裝載的存儲裝置、例如硬盤裝置和外部存儲介質等來構建。接下來,對動作進行說明。圖6是表示實施方式2的識別詞典制作裝置所涉及的識別詞典的制作動作流程的流程圖,對語言辨識前處理部107、語言辨識部101、讀音賦予部102、讀音變換部103、及識別詞典生成部104的動作的細節(jié)進行描述。首先,若輸入登記對象文本,則語言辨識前處理部107參照定型字符串存儲部108的存儲內容,檢測出該登記對象文本的字符串中包含的定型字符或定型字符串,從語言辨識對象中排除(步驟ST501)。作為定型字符或定型字符串,可舉出有在多種語言中共通出現的特定的語言記述。在以樂曲的目錄數據為對象的系統(tǒng)中,“Disc”和“Best of”等共通記載在多種語言中(英語表述),而不依賴于語言。因而,預先將這種字符或字符串及其記述語言(在上述例中為英語)存儲于定型字符串存儲部108。例如,在輸入“Best Of Ce n’ est que moi”這一登記對象文本的情況下,對于“Best Of”,由于可從定型字符串存儲部108的存儲內容獲得英語及其讀音,因此,利用語言辨識前處理部107將其從語言辨識的對象排除,作為語言辨識對象的字符串,剩下“Ce n’ est que moi”。接下來,語言辨識前處理部107參照分割字符串存儲部109的存儲內容,檢測出登記對象文本的字符串中包含的分割字符或分割字符串,以分割字符或分割字符串為基準,對登記對象文本的字符串進行分割(步驟ST502)。作為分割字符或分割字符串,可舉出將登記對象文本的記述分開的字符“(”、“)”、“一 ”等。例如,在輸入“Jevivrai sans toi (I Will Say Goodbye) ”這一登記對象文本的情況下,參照分割字符串存儲部109的存儲內容,語言辨識前處理部107檢測出該登記對象文本的字符串中包含的括弧“(”、“)”,以這些字符為基準,對該登記對象文本的字符串進行分割。由此,分割成“Je vivrai sans toi”和“I Will Say Goodbye”這2個字符串。接下來,語言辨識前處理部107參照分割字符串存儲部109的存儲內容,確定登記對象文本的字符串中包含的、例如像大與字符串(spell :拼與)和數字等那樣的不依賴于表述語言而由識別對象語言來朗讀的字符串,將該字符串從登記對象文本中排除以進行分割(步驟ST503)。在該字符串部分中,未作為語言辨識結果確定出語言,而成為識別對象語言,因此,賦予識別對象語言的讀音。另外,也可以對于該字符串部分(大寫字符(拼寫)和數字等字符串),在分割字符串存儲部109中預先賦予識別對象語言下的讀音并進行存儲,并且,對于登記對象文本中以該字符串部分為分界的前后字符串,使得讀音賦予部102利用由語言辨識部101辨識出的語言來對該字符串部分賦予讀音。這樣,對于大寫字符串(拼寫)和數字等字符串部分,賦予識別對象語言和辨識結果的語言下的2種讀音,從而能不依賴于記述登記對象文本中的該字符串部分以外的部分的語言(辨識結果的語言),對用識別對象語言說出的字符串部分正確地賦予讀音。語言辨識前處理部107將從步驟ST501到步驟ST503的前處理的內容存儲于變換處理存儲部110。作為前處理的內容,在變換處理存儲部110中存儲有從登記對象文本中排除的定型字符或定型字符串、其記述語言及該語言的音素的讀音、作為登記對象文本的分割位置的分割字符或分割字符串、各分割部分之間的連接關系等。之后,語言辨識前處理部107將計數器j進行初始化(j = O)(步驟ST504),該計數器j對分割登記對象文本的分割數K進行計數。接下來,語言辨識前處理部107將第j個分割部分設定為作為語言辨識對象的字符串,并輸出到語言辨識部101 (步驟ST505)。語言辨識部101對于從語言辨識前處理部107輸入的第j個分割部分的字符串,利用與上述實施方式I相同的步驟開始語言辨識處理,判定該字符串是由哪種語言記載的,將最有可能認為是該字符串的語言的前N種語言(似然度最高的前N種語言)設為語言辨識結果(步驟ST506)。接下來,語言辨識部101將作為辨識結果而得到的語言的數目、即表示對每一語言進行的后述處理的次數的計數器i初始化為i = O (步驟ST507),并將與第i個辨識結果相對應的語言設定于讀音賦予部102。這樣,讀音賦予部102和讀音變換部103利用與第i (i = O N)個辨識結果相對應的語言來執(zhí)行從步驟ST508到步驟ST510的處理。另外,步驟ST508是與圖2所示的步驟ST202相同的處理,步驟ST509是與圖2所示的步驟ST203相同的處理,步驟ST510是與圖2所示的步驟ST204相同的處理。在步驟ST511中,語言辨識部101將計數器i增加+ 1,利用下一個辨識結果的語言來重復上述一連串處理,在步驟ST512中,若判定為對所有辨識結果的語言完成(i彡N + I) 了上述一連串處理,則將計數器j增加+ I (步驟ST513)。在步驟ST514中,在語言辨識部101基于計數器j的計數值、判定為對所有分割部分的字符串完成(j ^ K)處理之前,對分割部分的字符串分別重復從步驟ST505到步驟ST514的一連串處理。識別詞典生成部104參照變換處理存儲部110所存儲的前處理內容,確定對從登記對象文本的字符串中排除的字符串的讀音,將從該語言辨識的對象中排除的字符串的讀音、和從讀音變換部103輸入的對各分割部分的字符串賦予的讀音進行合成,生成聲音識別部106能參照的格式的識別詞典(步驟ST515)。例如,除將識別詞匯變換成二進制數據之 夕卜,還根據需要進行詞素解析、單詞分割以生成語言制約等,從而獲得識別詞典。
如上所述,根據該實施方式2,包括定型字符串存儲部108、分割字符串存儲部109、基于這些存儲部108、109所存儲的內容來對登記對象文本進行前處理的語言辨識前處理部107、及存儲語言辨識前處理部107所進行的前處理的內容的變換處理存儲部110,識別詞典生成部104基于變換處理存儲部110的存儲內容,求出表示由語言辨識前處理部107實施了前處理后的登記對象文本的讀音的音素,生成登記有該音素的識別詞典。這樣,通過利用特定字符串對輸入文本進行分割,對分割部分分別進行語言辨識處理、讀音賦予處理,從而即使在登記對象文本中包含有多種語言的情況下,也能正確地對登記對象文本的各分割部分進行語言辨識。此外,將包含在多種語言中使用的特定語言的單詞/慣用語(phrase)預先存儲為特定字符串,從語言辨識對象中排除,因此,即使在包含與語言無關地使用的語言的慣用語(例如,在音樂的唱片集標題中“Disc l”、“BeSt0f”等)的情況下,通過利用該慣用語以外的字符串部分進行語言辨識,從而能正確地對各字符串部分的讀音的語言進行語言辨識。 此外,通過對讀音依賴于識別對象語言的部位進行分割,從而即使對該部位,也能正確地賦予讀音。工業(yè)上的實用性根據本發(fā)明所涉及的識別詞典生成裝置,由于能根據記述語言不明確的詞匯來生成聲音識別的音素體系中的識別詞典,因此,適用于對混合有多種語言的詞匯的數據進行處理的便攜式音樂播放器、移動電話、車載導航系統(tǒng)等聲音識別裝置。
權利要求
1.一種識別詞典制作裝置,其特征在于,包括 語言辨識部,該語言辨識部對所輸入的登記對象文本的讀音的語言進行辨識; 讀音賦予部,該讀音賦予部利用由所述語言辨識部辨識出的語言的音素對所述登記對象文本賦予讀音; 讀音變換部,該讀音變換部將所述登記對象文本的讀音從由所述語言辨識部辨識出的語言的音素變換成聲音識別中處理的識別對象語言的音素;及 識別詞典生成部,該識別詞典生成部生成登記有由所述讀音變換部進行變換后的所述登記對象文本的讀音的識別詞典。
2.如權利要求I所述的識別詞典制作裝置,其特征在于, 所述語言辨識部將作為語言辨識對象的多種語言中、表示作為所述登記對象文本的讀音的語言的可能性的得分排在前位的規(guī)定數目的語言作為辨識結果來輸出, 所述讀音賦予部利用由所述語言辨識部辨識出的所述規(guī)定數目的各語言的音素對所述登記對象文本分別賦予讀音, 所述讀音變換部將所述登記對象文本的讀音從由所述語言辨識部辨識出的所述規(guī)定數目的語言的音素分別變換成所述識別對象語言的音素。
3.如權利要求2所述的識別詞典制作裝置,其特征在于, 所述語言辨識部在所述得分小于規(guī)定閾值的情況下,將所述識別對象語言作為辨識結果來輸出。
4.如權利要求I所述的識別詞典制作裝置,其特征在于,包括 排除對象存儲部,該排除對象存儲部存儲有語言辨識的排除對象的字符或字符串;語言辨識前處理部,該語言辨識前處理部從所述登記對象文本中,將與所述排除對象存儲部所存儲的所述排除對象的字符或字符串相當的部分排除;及 處理內容存儲部,該處理內容存儲部存儲有由所述語言辨識前處理部對所述登記對象文本實施的所述排除對象的字符或字符串的排除處理的內容, 所述語言辨識部對由所述語言辨識前處理部排除了所述排除對象的字符或字符串后的所述登記對象文本的讀音的語言進行辨識, 所述識別詞典生成部參照所述處理內容存儲部所存儲的排除處理的內容,根據所述排除對象的字符或字符串的讀音、及排除了所述排除對象的字符或字符串后的所述登記對象文本的讀音,求出該登記對象文本的讀音,生成登記有該讀音的識別詞典。
5.如權利要求4所述的識別詞典制作裝置,其特征在于, 包括存儲有分割對象的字符或字符串的分割對象存儲部, 所述語言辨識前處理部利用所述分割對象存儲部所存儲的所述分割對象的字符或字符串對所述登記對象文本的字符串進行分割, 在所述處理內容存儲部存儲有由所述語言辨識前處理部對所述登記對象文本實施的分割處理的內容, 所述語言辨識部對由所述語言辨識前處理部分割出的所述登記對象文本的每一分割部分辨識出讀首的語言, 所述識別詞典生成部參照所述處理內容存儲部所存儲的分割處理的內容,根據每一所述分割部分的讀音,求出所述登記對象文本的讀音,生成登記有該讀音的識別詞典。
6.如權利要求5所述的識別詞典制作裝置,其特征在于, 所述分割對象存儲部存儲有包含數字或大寫字符串的分割對象的字符或字符串及其識別對象語言的讀音, 所述語言辨識前處理部從所述登記對象文本中,將所述包含數字或大寫字符串的分割對象的字符或字符串排除,對該登記對象文本的字符串進行分割, 所述語言辨識部對由所述語言辨識前處理部分割出的所述登記對象文本的每一分割部分辨識出讀首的語言, 所述讀音賦予部對于所述包含數字或大寫字符串的分割對象的字符或字符串,賦予由所述語言辨識部辨識出的所述分割部分的語言的讀音, 所述識別詞典生成部參照所述處理內容存儲部所存儲的排除處理的內容,根據每一所述分割部分的讀音、所述分割對象的字符或字符串的識別對象語言的讀音、及從所述分割部分的語言變換成所述識別對象語言后的讀音,求出所述登記對象文本的讀音,生成登記有該讀音的識別詞典。
7.如權利要求I所述的識別詞典制作裝置,其特征在于, 所述語言辨識部利用包含作為語言辨識對象的每一語言的N-gram及其出現概率的語言辨識模型,對每一語言計算出所述登記對象文本的N-gram的序列概率,根據基于所述序列概率值的似然度,辨識出讀音的語言。
8.如權利要求7所述的識別詞典制作裝置,其特征在于, 所述語言辨識部對于所述登記對象文本中、作為語言辨識對象的多種語言中共通記述的、對語言辨識無幫助的字符或字符串,將其置換成特殊字符而生成N-gram。
9.如權利要求7所述的識別詞典制作裝置,其特征在于, 所述語言辨識部在所述登記對象文本中包含有限定使用語言的字符或字符串的情況下,將所述使用語言中、似然度最高的語言作為辨識結果來輸出。
10.如權利要求7所述的識別詞典制作裝置,其特征在于, 所述語言辨識部對每一使用識別對象詞匯的處理包括語言辨識模型,將與使用所述登記對象文本的處理相對應的語言辨識模型用于語言辨識。
11.一種聲音識別裝置,其特征在于,包括 語言辨識部,該語言辨識部對所輸入的登記對象文本的讀音的語言進行辨識; 讀音賦予部,該讀音賦予部利用由所述語言辨識部辨識出的語言的音素對所述登記對象文本賦予讀音; 讀音變換部,該讀音變換部將所述登記對象文本的讀音從由所述語言辨識部辨識出的語言的音素變換成聲音識別中處理的識別對象語言的音素; 識別詞典生成部,該識別詞典生成部生成登記有由所述讀音變換部進行變換后的所述登記對象文本的讀音的識別詞典;及 聲音識別部,該聲音識別部參照由所述識別詞典生成部生成的所述識別詞典,對輸入聲音進行聲音識別。
12.—種聲音識別裝置,其特征在于,包括 排除對象存儲部,該排除對象存儲部存儲有語言辨識的排除對象的字符或字符串; 分割對象存儲部,該分割對象存儲部存儲有分割對象的字符或字符串;語言辨識前處理部,該語言辨識前處理部基于所述排除對象存儲部和所述分割對象存儲部所存儲的內容,從所輸入的登記對象文本中將所述排除對象的字符或字符串排除,并且,利用所述分割對象的字符或字符串進行分割; 處理內容存儲部,該處理內容存儲部存儲有由所述語言辨識前處理部對所述登記對象文本實施的處理的內容; 語言辨識部,該語言辨識部對由所述語言辨識前處理部實施所述處理后的所述登記對象文本的讀音的語言進行辨識; 讀音賦予部,該讀音賦予部利用由所述語言辨識部辨識出的語言的音素對所述登記對象文本賦予讀音; 讀音變換部,該讀音變換部將所述登記對象文本的讀音從由所述語言辨識部辨識出的語言的音素變換成聲音識別中處理的識別對象語言的音素; 識別詞典生成部,該識別詞典生成部參照所述處理內容存儲部所存儲的所述處理的內 容,求出由所述語言辨識前處理部實施所述處理后的所述登記對象文本的讀音,生成登記有該讀音的識別詞典 '及 聲音識別部,該聲音識別部參照由所述識別詞典生成部生成的所述識別詞典,對輸入聲音進行聲音識別。
全文摘要
對所輸入的登記對象文本的讀音的語言進行辨識,利用辨識出的語言的音素來對登記對象文本賦予讀音,并且,生成登記有將登記對象文本的讀音從辨識出的語言的讀音變換成聲音識別中處理的識別對象語言后的讀音的識別詞典。
文檔編號G10L15/06GK102725790SQ20108006259
公開日2012年10月10日 申請日期2010年2月5日 優(yōu)先權日2010年2月5日
發(fā)明者山崎道弘, 石井純, 石川泰 申請人:三菱電機株式會社
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1