專利名稱:識別詞典制作裝置、聲音識別裝置及聲音合成裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及根據(jù)用戶發(fā)出的聲音來對聲音識別用詞典進(jìn)行詞匯登記的識別詞典制作裝置、利用該識別詞典制作裝置的聲音識別裝置及聲音合成裝置。
背景技術(shù):
在采用聲音識別的應(yīng)用中,有時會對用戶發(fā)出的聲音進(jìn)行登記以用作識別對象語。在下文中,將該動作稱作用戶詞典生成。作為利用聲音生成用戶詞典的示例,有以下情形用聲音來登記與廣播的頻率相對應(yīng)的廣播電臺名、或用聲音來登記與電話號碼相對應(yīng)的人名和地名。此外,在車載導(dǎo)航系統(tǒng)、便攜式終端等可跨多國使用的設(shè)備所裝載的聲音識別中,·要求有語言切換功能。作為相關(guān)的現(xiàn)有技術(shù),例如在專利文獻(xiàn)I中公開了ー種使用語言切換方法,該使用語言切換方法在對電子詞典的使用語言進(jìn)行切換時,將對用戶發(fā)出的聲音進(jìn)行聲音識別而獲得的字符數(shù)據(jù)和裝置內(nèi)所存儲的詞匯相對照,從而決定用戶想要使用的語言。一般而言,對每ー語言收集聲音數(shù)據(jù),用所收集的聲音數(shù)據(jù)來構(gòu)建聲音識別算法和聲音標(biāo)準(zhǔn)模型,利用該聲音識別算法和聲音標(biāo)準(zhǔn)模型來識別用戶發(fā)出的聲音。因此,當(dāng)切換了語言的情況下,需要對聲音識別單元本身和聲音標(biāo)準(zhǔn)模型進(jìn)行切換。以往,提出了ー種聲音識別裝置,該聲音識別裝置利用眾所周知的聲音識別技木,對每ー語言生成最佳地呈現(xiàn)用戶發(fā)出的聲音的音素(Phoneme)的標(biāo)簽串,并作為用戶詞典來保存,從而即使對聲音識別所使用的語言進(jìn)行切換,也能對用戶發(fā)出的聲音進(jìn)行聲音識別。但是,在毎次變更語言都制作音素標(biāo)簽串的情況下,存在以下問題S卩,由于將發(fā)出聲音保存到存儲器并進(jìn)行處理,因此,需要能確保發(fā)出聲音的保存區(qū)域的大容量存儲器。此外,在不能將發(fā)出聲音保存到存儲器中的情況下,必須對假設(shè)的所有語言分別制作音素標(biāo)簽串,但即使是制作單ー語言的音素標(biāo)簽串的情況下也要耗費(fèi)較長時間,因此,對假設(shè)的所有語言而言,所需的處理時間較龐大。此外,還需要能保存所有語言的音素標(biāo)簽串的大容量存儲器。本發(fā)明是為了解決上述問題而完成的,其目的在于獲得不需要對發(fā)出聲音進(jìn)行保存的大容量存儲器且不需要對所有語言預(yù)先制作音素標(biāo)簽串,井能縮短對每ー語言制作音素標(biāo)簽串的制作時間的識別詞典制作裝置、利用該識別詞典制作裝置的聲音識別裝置及聲音合成裝置?,F(xiàn)有技術(shù)文獻(xiàn)專利文獻(xiàn)專利文獻(xiàn)I :日本專利特開2001 — 282788號公報(bào)發(fā)明內(nèi)容
本發(fā)明所涉及的識別詞典制作裝置包括音響分析部,該音響分析部對輸入聲音的聲音信號進(jìn)行音響分析以輸出音響特征的時間序列;音響標(biāo)準(zhǔn)模式存儲部,該音響標(biāo)準(zhǔn)模式存儲部對每ー語言存儲有表示標(biāo)準(zhǔn)的音響特征的音響標(biāo)準(zhǔn)模式;音響數(shù)據(jù)匹配部,該音響數(shù)據(jù)匹配部將從音響分析部輸入的輸入聲音的音響特征的時間序列和音響標(biāo)準(zhǔn)模式存儲部中存儲的音響標(biāo)準(zhǔn)模式進(jìn)行對照,以制作輸入聲音的音素標(biāo)簽串;用戶詞典存儲部,該用戶詞典存儲部對登記有音響數(shù)據(jù)匹配部所制作的輸入聲音的音素標(biāo)簽串的用戶詞典進(jìn)行存儲;語言存儲部,該語言存儲部對登記到用戶詞典的音素標(biāo)簽串的語言進(jìn)行存儲;語言切換部,該語言切換部對語言進(jìn)行切換;映射表存儲部,該映射表存儲部對規(guī)定了語言間的首素標(biāo)簽的對應(yīng)關(guān)系的映射表進(jìn)行存儲;以及首素標(biāo)簽串轉(zhuǎn)換部,該首素標(biāo)簽串轉(zhuǎn)換部參照映射表存儲部中存儲的映射表,將登記到用戶詞典的音素標(biāo)簽串從語言存儲部中存儲的語言的音素標(biāo)簽串轉(zhuǎn)換成由語言切換部進(jìn)行切換后的語言的音素標(biāo)簽串。根據(jù)本發(fā)明,包括用戶詞典,該用戶詞典登記有輸入聲音的音素標(biāo)簽串;以及映射表,該映射表對語言之間的音素標(biāo)簽的對應(yīng)關(guān)系進(jìn)行了規(guī)定,參照映射表,將登記到用戶詞典的音素標(biāo)簽串從制作用戶詞典時的語言的音素標(biāo)簽串轉(zhuǎn)換成切換后的語言的音素標(biāo)簽串。由此,即使切換語言,也能參照映射表來快速地將登記詞匯轉(zhuǎn)換成切換后的語言所使用的詞匯,因此帶來以下效果不需要對發(fā)出聲音進(jìn)行保存的大容量存儲器且不需要對所有語言預(yù)先制作音素標(biāo)簽串,能縮短對每ー語言制作音素標(biāo)簽串的制作時間。
圖I是表示根據(jù)本發(fā)明的實(shí)施方式I的識別詞典制作裝置的結(jié)構(gòu)的框圖。圖2是表示根據(jù)實(shí)施方式I的識別詞典制作裝置的用戶詞典登記動作流程的流程圖。 圖3是表示根據(jù)實(shí)施方式I的識別詞典制作裝置的語言切換后的用戶詞典登記動作流程的流程圖。圖4是表示根據(jù)本發(fā)明的實(shí)施方式2的聲音識別裝置的結(jié)構(gòu)的框圖。圖5是表示根據(jù)實(shí)施方式2的聲音識別裝置的動作流程的流程圖。圖6是表示根據(jù)本發(fā)明的實(shí)施方式3的聲音合成裝置的結(jié)構(gòu)的框圖。圖7是表示根據(jù)實(shí)施方式3的聲音合成裝置的動作流程的流程圖。圖8是表示根據(jù)本發(fā)明的實(shí)施方式4的識別詞典制作裝置的結(jié)構(gòu)的框圖。圖9是表示根據(jù)實(shí)施方式4的識別詞典制作裝置的用戶詞典登記動作流程的流程圖。圖10是表示根據(jù)實(shí)施方式4的識別詞典制作裝置的語言切換后的用戶詞典登記動作流程的流程圖。
具體實(shí)施例方式下面,為了更詳細(xì)地說明本發(fā)明,根據(jù)附圖對用于實(shí)施本發(fā)明的方式進(jìn)行說明。實(shí)施方式I圖I是表示根據(jù)本發(fā)明的實(shí)施方式I的識別詞典制作裝置的結(jié)構(gòu)的框圖。圖I中,實(shí)施方式I的識別詞典制作裝置I包括麥克風(fēng)2a、聲音捕獲部2、音響分析部3、姆ー語言的音響標(biāo)準(zhǔn)模式4、音響數(shù)據(jù)匹配部5、用戶詞典登記部(用戶詞典存儲部)6、制作用戶詞典時的語言存儲部(語言存儲部)7、語言切換部8、音素標(biāo)簽串轉(zhuǎn)換部9以及語言間音響數(shù)據(jù)映射表保存部(映射表存儲部)10。聲音捕獲部2是將麥克風(fēng)2a所捕獲的聲音轉(zhuǎn)換成數(shù)字信號的結(jié)構(gòu)部。音響分析部3對由聲音捕獲部2執(zhí)行了數(shù)字信號化的聲音信號進(jìn)行分析以轉(zhuǎn)換成音響特征的時間序列的結(jié)構(gòu)部。例如,以一定時間間隔對聲音信號進(jìn)行分析,并計(jì)算表示聲音的特征的音響特征量(音響特征量矢量)。音響標(biāo)準(zhǔn)模式4是與語言X (X = 1、2、3、……)的 各音素標(biāo)簽串分別對應(yīng)的標(biāo)準(zhǔn)的音響特征(對聲音片斷表示音響特征量的性質(zhì)的標(biāo)準(zhǔn)模型),例如,以音素為單位、利用HMM (隱馬爾科夫模型Hidden Markov Model)等來進(jìn)行模型化。音響數(shù)據(jù)匹配部5是將音響分析部3所獲得的輸入聲音的音響特征的時間序列和語言X的音響標(biāo)準(zhǔn)模式4相對照,根據(jù)與構(gòu)成音響標(biāo)準(zhǔn)模式4的標(biāo)準(zhǔn)音響特征相對應(yīng)的音素標(biāo)簽串來制作與輸入聲音最相似的音素標(biāo)簽串的結(jié)構(gòu)部。用戶詞典登記部6是具有用戶詞典的結(jié)構(gòu)部,將音響數(shù)據(jù)匹配部5所制作的輸入聲音的音素標(biāo)簽串存放到用戶詞典中。制作用戶詞典時的語言存儲部7是將在制作用戶詞典時設(shè)定為聲音識別語言的設(shè)定語言進(jìn)行存儲的存儲部。語言切換部8是對用作聲音識別語言的設(shè)定語言進(jìn)行切換的結(jié)構(gòu)部。音素標(biāo)簽串轉(zhuǎn)換部9是利用語言間音響數(shù)據(jù)映射表、將由登記到用戶詞典時的語言所呈現(xiàn)的音素標(biāo)簽串轉(zhuǎn)換成由語言切換部8進(jìn)行變更后的語言的音素標(biāo)簽串的結(jié)構(gòu)部。語言間音響數(shù)據(jù)映射表保存部10是將表示彼此不同的一對語言和這些語言的各音素標(biāo)簽之間的對應(yīng)關(guān)系的語言間音響數(shù)據(jù)映射表進(jìn)行存儲的存儲部。此外,當(dāng)一種語言無法呈現(xiàn)另ー種語言的音素標(biāo)簽的情況下,與由該另ー種語言所能呈現(xiàn)的音素標(biāo)簽中的相似音素標(biāo)簽進(jìn)行對應(yīng)。例如,日語中無法呈現(xiàn)英語的音素標(biāo)簽/V。因此,在日語和英語的語言間音響數(shù)據(jù)映射表中,將英語的音素標(biāo)簽/I/與發(fā)音相似的日語的音素標(biāo)簽/r/進(jìn)行對應(yīng)。此外,對于聲音捕獲部2、音響分析部3、音響標(biāo)準(zhǔn)模式4、音響數(shù)據(jù)匹配部5、用戶詞典登記部6、制作用戶詞典時的語言存儲部7、語言切換部8、音素標(biāo)簽串轉(zhuǎn)換部9及語言間音響數(shù)據(jù)映射表保存部10,通過將按照本發(fā)明要點(diǎn)的識別詞典制作程序存儲到計(jì)算機(jī)中,并使CPU進(jìn)行執(zhí)行,從而能在該計(jì)算機(jī)上作為硬件和軟件協(xié)作的具體單元來實(shí)現(xiàn)。而且,音響標(biāo)準(zhǔn)模式4、用戶詞典登記部6、制作用戶詞典時的語言存儲部7及語言間音響數(shù)據(jù)映射表保存部10所使用的存儲區(qū)域由上述計(jì)算機(jī)上所裝載的存儲裝置、例如硬盤裝置和外部存儲介質(zhì)等來構(gòu)建。接下來,對動作進(jìn)行說明。圖2是表示根據(jù)實(shí)施方式I的識別詞典制作裝置的用戶詞典登記動作流程的流程圖。用戶指示利用輸入裝置來開始制作用戶詞典(步驟ST1),之后說出要登記的詞匯。例如,假設(shè)說出人名‘Michael’。聲音捕獲部2經(jīng)由麥克風(fēng)2a捕獲從用戶發(fā)出的聲音,將該輸入聲音轉(zhuǎn)換成數(shù)字信號之后,輸出到音響分析部3 (步驟ST2)。
接著,制作用戶詞典時的語言存儲部7對音響數(shù)據(jù)匹配部5中當(dāng)前設(shè)定的、用戶詞典登記時的設(shè)定語言進(jìn)行確認(rèn)(步驟ST3),登記到自身中(步驟ST4)。另外,設(shè)定語言是在利用識別詞典制作裝置I的聲音識別裝置和聲音合成裝置中、預(yù)先作為成為聲音識別和聲音合成對象的語言而設(shè)定的語言。在圖2的示例中,將英語設(shè)為設(shè)定語言。音響分析部3對在步驟ST2中從聲音捕獲部2輸入的聲音信號進(jìn)行音響分析,將該聲音信號轉(zhuǎn)換成音響特征的時間序列(步驟ST5)。音響數(shù)據(jù)匹配部5讀出與自身設(shè)定的語言(設(shè)定語言)相對應(yīng)的音響標(biāo)準(zhǔn)模式4,將該設(shè)定語言的音響標(biāo)準(zhǔn)模式4和由音響分析部3獲得的輸入聲音的音響特征的時間序列進(jìn)行對照,根據(jù)與構(gòu)成音響標(biāo)準(zhǔn)模式4的標(biāo)準(zhǔn)音響特征相對應(yīng)的音素標(biāo)簽串,來制作與輸入聲首的首響特征的時間序列最相似的、表不該輸入聲首的最佳首素標(biāo)簽串(步驟ST6)。例 如,在輸入聲音為‘Michael’且設(shè)定語言為英語的情況下,如圖2所示,獲得音素標(biāo)簽串‘#、/m/、/a/、/i/、/k/、/I/、。用戶詞典登記部6將音響數(shù)據(jù)匹配部5所制作的輸入聲音的音素標(biāo)簽串登記到用戶詞典(步驟ST7)。由此,可制作用戶詞典,該用戶詞典中登記有與設(shè)定語言的登記詞匯文 本相對應(yīng)的首素標(biāo)簽串。接著,對切換了設(shè)定語言的情況下的動作進(jìn)行說明。圖3是表示根據(jù)實(shí)施方式I的識別詞典制作裝置的語言切換后的用戶詞典登記動作流程的流程圖,表示在執(zhí)行圖2所示的用戶詞典登記之后切換了語言的情形。例如,在用戶利用輸入裝置對語言切換部8指定新語言時,語言切換部8將切換后的語言設(shè)定到音素標(biāo)簽串轉(zhuǎn)換部9 (步驟STla)。此處,假設(shè)切換到日語。音素標(biāo)簽串轉(zhuǎn)換部9讀出在制作用戶詞典時的語言存儲部7中存儲的語言,對登記用戶詞典時的設(shè)定語言進(jìn)行確認(rèn)(步驟ST2a)。如上所述,在圖2中,登記用戶詞典時的設(shè)定語H是英語。隨后,音素標(biāo)簽串轉(zhuǎn)換部9利用步驟ST2a中確認(rèn)的登記用戶詞典時的設(shè)定語言和由語言切換部8指定的切換后的語言,對語言間音響數(shù)據(jù)映射表保存部10進(jìn)行檢索,讀取與登記用戶詞典時的設(shè)定語言和切換后的語言相對應(yīng)的語言間音響數(shù)據(jù)映射表。如圖3所示,語言間音響數(shù)據(jù)映射表是表示英語音素標(biāo)簽和日語音素標(biāo)簽之間的對應(yīng)關(guān)系的表數(shù)據(jù)。例如,圖3中,英語音素標(biāo)簽中,標(biāo)號A所示的發(fā)音相似的3個不同的音素標(biāo)簽包含無法由日語呈現(xiàn)的音素標(biāo)簽。在該情況下,用日語音素標(biāo)簽中的與標(biāo)號A所示的音素標(biāo)簽發(fā)音相似的I個音素標(biāo)簽(/a/)進(jìn)行對應(yīng)。此外,由于在日語中無法呈現(xiàn)英語音素標(biāo)簽/1/,因此,將英語音素標(biāo)簽/I/與發(fā)音相似的日語音素標(biāo)簽/r/進(jìn)行對應(yīng)。音素標(biāo)簽串轉(zhuǎn)換部9基于從語言間音響數(shù)據(jù)映射表保存部10讀取的語言間音響數(shù)據(jù)映射表,將用戶詞典中登記的音素標(biāo)簽串轉(zhuǎn)換成切換后的語言的音素標(biāo)簽串(步驟ST3a)。例如,如圖3所示,‘Michael’的英語音素標(biāo)簽串‘#、/m/、/a/、/i/、/k/、/l/、#’基于英語和日語的語言間音響數(shù)據(jù)映射表中的對應(yīng)關(guān)系,被轉(zhuǎn)換成日語音素標(biāo)簽串‘#、/m/、/a/、/i/、/k/、/r/、#,。另外,例如在以下參考文獻(xiàn)I中公開了語言間音響數(shù)據(jù)映射表的制作方法。(參考文獻(xiàn)I):日本專利特開2007— 155833號公報(bào)
用戶詞典登記部6將步驟ST3a中由音素標(biāo)簽串轉(zhuǎn)換部9進(jìn)行了轉(zhuǎn)換后的音素標(biāo)簽串重新存放到用戶詞典中(步驟ST4a)。在圖3中,登記詞匯為‘Michael’且切換后的語言為日語,因此,將日語音素標(biāo)簽串‘#、/m/、/a/、/i/、/k/、/r/、#’作為I個登記詞語進(jìn)行存放。如上所述,根據(jù)本實(shí)施方式1,包括用戶詞典,該用戶詞典登記有輸入聲音的音素標(biāo)簽串;以及語言間音響 數(shù)據(jù)映射表,該語言間音響數(shù)據(jù)映射表對語言之間的音素標(biāo)簽的對應(yīng)關(guān)系進(jìn)行了規(guī)定,參照語言間音響數(shù)據(jù)映射表,將登記到用戶詞典的音素標(biāo)簽串從制作用戶詞典時的語言的音素標(biāo)簽串轉(zhuǎn)換成切換后的語言的音素標(biāo)簽串。通過這種結(jié)構(gòu),即使在設(shè)定語言從登記用戶詞典時起發(fā)生了變更的情況下,也能基于語言間音響數(shù)據(jù)映射表來轉(zhuǎn)換音素標(biāo)簽串,從而能制作變更后的語言的用戶詞典,并能顯著縮短制作對應(yīng)語言的音素標(biāo)簽串的處理時間。此外,即使在毎次變更語言時都制作音素標(biāo)簽串的情況下,也不需要保存發(fā)出的聲音,而僅保存登記用戶詞典時的音素標(biāo)簽串,也不需要預(yù)先對假設(shè)的所有語言制作音素標(biāo)簽。因此,也不需要大容量存儲器。實(shí)施方式2圖4是表示根據(jù)本發(fā)明的實(shí)施方式2的聲音識別裝置的結(jié)構(gòu)的框圖,表示利用了根據(jù)上述實(shí)施方式I的識別詞典制作裝置的聲音識別裝置。在圖4中,實(shí)施方式2的聲音識別裝置IA在上述實(shí)施方式I所示的識別詞典制作裝置I的結(jié)構(gòu)的基礎(chǔ)上,還包括詞典對照部11、利用每ー語言的音響標(biāo)準(zhǔn)模式來呈現(xiàn)的一般詞典12及識別結(jié)果輸出部13。另外,在圖4中,對與圖I相同或同樣地進(jìn)行工作的結(jié)構(gòu)部標(biāo)注相同標(biāo)號,并省略其說明。詞典對照部11是將輸入聲音的音素標(biāo)簽串、利用設(shè)定語言的音響標(biāo)準(zhǔn)模式來呈現(xiàn)的一般詞典12的詞匯、以及用戶詞典登記部6的用戶詞典中所登記的詞匯進(jìn)行對照,從一般詞典12和用戶詞典的詞匯中確定與輸入聲音的音素標(biāo)簽串最相似的詞匯的結(jié)構(gòu)部。一般詞典12是利用語言X (X= 1、2、3、……)的音響標(biāo)準(zhǔn)模式來呈現(xiàn)的詞典,登記有該語言的地名等大詞匯(音素標(biāo)簽串)。識別結(jié)果輸出部13是輸出聲音識別結(jié)果的結(jié)構(gòu)部,輸出作為詞典對照部11所產(chǎn)生的對照結(jié)果而獲得的、與輸入聲音的音素標(biāo)簽串最相似的詞匯。此外,對于詞典對照部11、利用每ー語言的音響標(biāo)準(zhǔn)模式來呈現(xiàn)的一般詞典12及識別結(jié)果輸出部13,通過將按照本發(fā)明要點(diǎn)的聲音識別程序存儲在計(jì)算機(jī)中,并使CPU進(jìn)行執(zhí)行,從而能在該計(jì)算機(jī)上作為硬件和軟件協(xié)作的具體單元來實(shí)現(xiàn)。而且,音響標(biāo)準(zhǔn)模式4和一般詞典12所使用的存儲區(qū)域由上述計(jì)算機(jī)所裝載的存儲裝置、例如硬盤裝置和外部存儲介質(zhì)等來構(gòu)建。接下來,對動作進(jìn)行說明。圖5是表示根據(jù)實(shí)施方式2的聲音識別裝置的動作流程的流程圖。用戶指示利用輸入裝置來開始進(jìn)行聲音識別(步驟STlb),之后發(fā)出作為聲音識別對象的聲音。例如,假設(shè)說出人名‘Michael’。聲音捕獲部2經(jīng)由麥克風(fēng)2a捕獲從用戶發(fā)出的聲音,將該輸入聲音轉(zhuǎn)換成數(shù)字信號之后,輸出到音響分析部3 (步驟ST2b)。音響分析部3對在步驟ST2b中從聲音捕獲部2輸入的聲音信號進(jìn)行音響分析,將該聲音信號轉(zhuǎn)換成音響特征的時間序列。音響數(shù)據(jù)匹配部5讀出在制作用戶詞典時的語言存儲部7中存儲的語言,對登記用戶詞典時的設(shè)定語言進(jìn)行確認(rèn)(步驟ST3b)。在圖5中,假設(shè)登記用戶詞典時的設(shè)定語言
是曰語。隨后,音響數(shù)據(jù)匹配部5根據(jù)從音響分析部3獲取的輸入聲音的音響特征的時間序列、設(shè)定語言的音響標(biāo)準(zhǔn)模式4,來對該輸入聲音制作設(shè)定語言的音素標(biāo)簽串(步驟ST4b)。例如,在輸入聲音為‘Michael’且設(shè)定語言為日語的情況下,作為利用日語的音響標(biāo)準(zhǔn)模式來呈現(xiàn)的音素標(biāo)簽串而獲得‘#、/m/、/a/、/i/、/k/、Μ、#’。 接著,詞典對照部11將音響數(shù)據(jù)匹配部5所制作的輸入聲音的音素標(biāo)簽串、利用設(shè)定語言的音響標(biāo)準(zhǔn)模式4來呈現(xiàn)的一般詞典12的詞匯、以及用戶詞典登記部6的用戶詞典中所登記的詞匯進(jìn)行對照,從一般詞典12和用戶詞典的詞匯中確定與輸入聲音的音素標(biāo)簽串最相似的詞匯(步驟ST5b)。識別結(jié)果輸出部13輸出作為詞典對照部11所產(chǎn)生的對照結(jié)果而獲得的、與輸入聲音的音素標(biāo)簽串最相似的詞匯(步驟ST6b)。如圖5所示,在利用設(shè)定語言(此處為日語)的音響標(biāo)準(zhǔn)模式來呈現(xiàn)的一般詞典12中,登記有地名等大詞匯作為音素標(biāo)簽串。此外,如上述實(shí)施方式I所示,在用戶詞典中通過用戶的話語,將任意詞匯作為音素標(biāo)簽串來登記。此處,在作為用戶詞典的登記詞語I而登記了 ‘#、/m/、/a/、/i/、/k/、/r/、#’的情況下,詞典對照部11確定登記詞語I作為與輸入聲音的音素標(biāo)簽串最相似的詞匯,識別結(jié)果輸出部13輸出登記詞語I作為識別結(jié)果。如上所述,根據(jù)本實(shí)施方式2,在上述實(shí)施方式I的識別詞典制作裝置的結(jié)構(gòu)的基礎(chǔ)上,還包括一般詞典存儲部,該一般詞典存儲部存儲有一般詞典12 ;詞典對照部11,該詞典對照部11將音響數(shù)據(jù)匹配部5所制作的輸入聲音的音素標(biāo)簽串、一般詞典12和用戶詞典進(jìn)行對照,從一般詞典12和用戶詞典中確定與輸入聲音的音素標(biāo)簽串最相似的詞匯;以及識別結(jié)果輸出部13,該識別結(jié)果輸出部13將詞典對照部11所確定的詞匯作為聲音識別結(jié)果來輸出,因此,在上述實(shí)施方式I的效果的基礎(chǔ)上,還能提供利用用戶詞典來進(jìn)行聲音識別的聲音識別裝置1A。實(shí)施方式3圖6是表示根據(jù)本發(fā)明的實(shí)施方式3的聲音合成裝置的結(jié)構(gòu)的框圖,表示利用了根據(jù)上述實(shí)施方式I的識別詞典制作裝置的聲音合成裝置。圖6中,實(shí)施方式3的聲音合成裝置IB在上述實(shí)施方式I所示的識別詞典制作裝置I的結(jié)構(gòu)、上述實(shí)施方式2所示的利用每ー語言的音響標(biāo)準(zhǔn)模式來呈現(xiàn)的一般詞典12的基礎(chǔ)上,還包括文本輸入部14、登記詞語部分檢測部15、登記詞語部分音素標(biāo)簽串置換部(登記詞匯置換部)16、其它部分音素標(biāo)簽串置換部(一般詞典置換部)17以及聲音合成部18。另外,在圖6中,對與圖I和圖4相同或同樣地進(jìn)行工作的結(jié)構(gòu)部標(biāo)注相同標(biāo)號,并省略其說明。文本輸入部14是輸入要轉(zhuǎn)換成聲音的文本的結(jié)構(gòu)部。登記詞語部分檢測部15是在從文本輸入部14獲取的輸入文本中檢測出登記到用戶詞典的登記詞語的結(jié)構(gòu)部。登記詞語部分音素標(biāo)簽串置換部16是將登記詞語部分檢測部15所檢測出的登記詞語置換成從用戶詞典獲取的音素標(biāo)簽串的結(jié)構(gòu)部。其它部分音素標(biāo)簽串置換部17是經(jīng)由登記詞語部分音素標(biāo)簽串置換部16、將除了登記詞語部分檢測部15所檢測出的登記詞語以外的輸入文本部分進(jìn)行輸入的結(jié)構(gòu)部,將登記詞語以外的輸入文本部分的詞語置換成從利用設(shè)定語言的音響標(biāo)準(zhǔn)模式來呈現(xiàn)的一般詞典12獲取的音素標(biāo)簽串。聲音合成部18是根據(jù)與音素標(biāo)簽串置換部16、17所獲得的輸入文本相關(guān)的音素標(biāo)簽串來生成該輸入文本的合成聲音的結(jié)構(gòu)部。另外,對于文本輸入部14、登記詞語部分檢測部15、登記詞語部分音素標(biāo)簽串置換部16、其它部分音素標(biāo)簽串置換部17和聲音合成部18,通過將按照本發(fā)明的要點(diǎn)的聲音合成程序存儲在計(jì)算機(jī)中,并使CPU進(jìn)行執(zhí)行,從而能在該計(jì)算機(jī)上作為硬件和軟件協(xié)作的具體單元來實(shí)現(xiàn)。而且,音響標(biāo)準(zhǔn)模式4和一般詞典12所使用的存儲區(qū)域由上述計(jì)算機(jī)所裝載的存儲裝置、例如硬盤裝置和外部存儲介質(zhì)等來構(gòu)建。接下來,對動作進(jìn)行說明。圖7是表示根據(jù)實(shí)施方式3的聲音合成裝置的動作流程的流程圖。用戶利用文本輸入部14來輸入要轉(zhuǎn)換成聲音的文本(步驟STlc)。此時,設(shè)定對用戶詞典的登記詞語進(jìn)行識別的識別符。例如,如圖7所示,在將用戶詞典的登記詞語I作為文本進(jìn)行輸入的情況下,在登記詞語I的前后設(shè)定登記詞語的識別符即雙引號(日文二重 括弧)。登記詞語部分檢測部15從文本輸入部14獲取輸入文本,利用輸入文本中所設(shè)定的登記詞語的識別符來檢測出登記詞語(步驟ST2c)。在圖7的示例中,檢測出前后設(shè)定有雙引號的登記詞語I。接著,登記詞語部分音素標(biāo)簽串置換部16將登記詞語部分檢測部15所檢測出的登記詞語置換成從用戶詞典獲取的音素標(biāo)簽串(步驟ST3c)。由此,將登記詞語I置換成對應(yīng)的音素標(biāo)簽串即 ‘#、/m/、/a/、/i/、/k/、/r/、#,。其它部分音素標(biāo)簽串置換部17經(jīng)由登記詞語部分音素標(biāo)簽串置換部16,將輸入文本中的除了登記詞語部分檢測部15所檢測出的登記詞語以外的部分進(jìn)行輸入,將登記詞語以外的輸入文本部分的詞語置換成從一般詞典12獲取的音素標(biāo)簽串(步驟ST4c)。此處,將設(shè)定語言設(shè)為日語,如圖7所示,將登記詞語以外的輸入文本部分即助詞‘は’、名詞‘大阪’、助詞‘に’、動詞‘いった’分別置換成登記到日語的一般詞典12中的對應(yīng)音素標(biāo)簽串O聲音合成部18根據(jù)與登記詞語部分音素標(biāo)簽串置換部16和其它部分音素標(biāo)簽串置換部17所獲得的輸入文本相關(guān)的音素標(biāo)簽串,來生成該輸入文本的合成聲音(步驟ST5c)。在圖7的示例中,輸出合成聲音‘マイクルは大阪に行った’。此處,用日語的音素標(biāo)簽來說出登記詞語I以外的部分,但如上述實(shí)施方式I所示,登記詞語I即‘マイクル’在設(shè)定到用戶詞典時的設(shè)定語言為英語,因此以英語來發(fā)音。如上所述,根據(jù)本實(shí)施方式3,在上述實(shí)施方式I的識別詞典制作裝置的結(jié)構(gòu)的基礎(chǔ)上,還包括文本輸入部14,該文本輸入部14輸入文本;登記詞語部分檢測部15,該登記詞語部分檢測部15從由文本輸入部14輸入的文本的字符串中,檢測出與登記到用戶詞典的音素標(biāo)簽串相當(dāng)?shù)脑~匯部分;登記詞語部分音素標(biāo)簽串置換部16,該登記詞語部分音素標(biāo)簽串置換部16將登記詞語部分檢測部15所檢測出的詞匯部分置換成從用戶詞典獲取的對應(yīng)音素標(biāo)簽串;其它部分音素標(biāo)簽串置換部17,該其它部分音素標(biāo)簽串置換部17將文本的字符串中的除了由登記詞語部分檢測部15檢測出的詞匯部分以外的部分置換成一般詞典12的對應(yīng)音素標(biāo)簽串;以及聲音合成部18,該聲音合成部18根據(jù)登記詞語部分音素標(biāo)簽串置換部16和其它部分音素標(biāo)簽串置換部17所獲得的文本的音素標(biāo)簽串來生成該文本的合成聲音。
通過這種結(jié)構(gòu),在上述實(shí)施方式I的效果的基礎(chǔ)上,還能提供利用用戶詞典來進(jìn)行聲音合成的聲音合成裝置IB。實(shí)施方式4圖8是表示根據(jù)本發(fā)明的實(shí)施方式4的識別詞典制作裝置的結(jié)構(gòu)的框圖。在圖8中,實(shí)施方式4的識別詞典制作裝置Ia包括登記時的音響模式設(shè)定部19,來替代上述實(shí)施方式I的結(jié)構(gòu)中的制作用戶詞典時的語言存儲部7。登記時的音響模式設(shè)定部19是無論利用識別詞典制作裝置Ia的聲音識別裝置和聲音合成裝置中所設(shè)定的設(shè)定語言為何種語言、都將預(yù)先登記到自身中的規(guī)定語言設(shè)定為音響數(shù)據(jù)匹配部5的處理中所使用的音響標(biāo)準(zhǔn)模式4的語言的結(jié)構(gòu)部。該規(guī)定語言與設(shè)定語言無關(guān)、預(yù)先登記到登記時的音響模式設(shè)定部19中。另外,在圖8中,對與圖I所示的結(jié)構(gòu)部相同或同樣地進(jìn)行工作的結(jié)構(gòu)部標(biāo)注相同標(biāo)號,并省略其說明。接下來,對動作進(jìn)行說明。 圖9是表示根據(jù)實(shí)施方式4的識別詞典制作裝置的用戶詞典登記動作流程的流程圖。用戶指示利用輸入裝置來開始制作用戶詞典(步驟STld),之后說出要登記的詞匯。例如,假設(shè)說明人名“Michael”。聲音捕獲部2經(jīng)由麥克風(fēng)2a捕獲從用戶發(fā)出的聲音,將該輸入聲音轉(zhuǎn)換成數(shù)字信號之后,輸出到音響分析部3 (步驟ST2d)。隨后,登記時的音響模式設(shè)定部19將預(yù)先登記到自身中的規(guī)定語言替代系統(tǒng)的設(shè)定語言來設(shè)定于音響數(shù)據(jù)匹配部5(步驟ST3d)。在圖9的示例中,將英語設(shè)為規(guī)定語言。音響分析部3對在步驟ST2d中從聲音捕獲部2輸入的聲音信號進(jìn)行音響分析,將該聲音信號轉(zhuǎn)換成音響特征的時間序列(步驟ST4d)。音響數(shù)據(jù)匹配部5從登記時的音響模式設(shè)定部19讀出與所設(shè)定的規(guī)定語言相對應(yīng)的音響標(biāo)準(zhǔn)模式4,根據(jù)該設(shè)定語言的音響標(biāo)準(zhǔn)模式4、音響分析部3所獲得的輸入聲音的音響特征的時間序列,來制作表不輸入聲音的最佳音素標(biāo)簽串(步驟ST5d)。例如,若輸入聲音為‘Michael’且規(guī)定語言為英語,則如圖9所示,獲得音素標(biāo)簽串‘#、/m/、/a/、/i/、/k/、/l/、#’。用戶詞典登記部6將音響數(shù)據(jù)匹配部5所制作的輸入聲音的音素標(biāo)簽串登記到用戶詞典(步驟ST6d)。接著,音素標(biāo)簽串轉(zhuǎn)換部9基于從語言間音響數(shù)據(jù)映射表保存部10讀取的語言間音響數(shù)據(jù)映射表,將如上所述那樣獲得的對應(yīng)于輸入聲音(登記詞匯)的規(guī)定語言的音素標(biāo)簽串和系統(tǒng)中當(dāng)前設(shè)定的設(shè)定語言的音素標(biāo)簽相對應(yīng),將利用登記到用戶詞典中的規(guī)定語言的登記詞匯的音素標(biāo)簽串轉(zhuǎn)換成設(shè)定語言的音素標(biāo)簽串,并作為當(dāng)前的用戶詞典登記到用戶詞典登記部6 (步驟ST7d)。接著,對切換設(shè)定語言的情況下的動作進(jìn)行說明。圖10是表示根據(jù)實(shí)施方式4的識別詞典制作裝置的語言切換后的用戶詞典登記動作流程的流程圖,表示在執(zhí)行圖9所示的用戶詞典登記之后切換了語言的情形。在用戶利用輸入裝置對語言切換部8指定新語言時,語言切換部8將切換后的語言設(shè)定到音素標(biāo)簽串轉(zhuǎn)換部9 (步驟STle)。此處,假設(shè)切換到日語。音素標(biāo)簽串轉(zhuǎn)換部9利用從語言切換部8指定的切換后的語言和規(guī)定語言,對語言間音響數(shù)據(jù)映射表保存部10進(jìn)行檢索,讀取與登記用戶詞典時的規(guī)定語言和切換后的語言相對應(yīng)的語言間音響數(shù)據(jù)映射表,基于該語言間音響數(shù)據(jù)映射表,將登記到用戶詞典的規(guī)定語言的音素標(biāo)簽串轉(zhuǎn)換成切換后的語言的音素標(biāo)簽串(步驟ST2e)。例如,作為規(guī)定語言的英語的‘Michael’的音素標(biāo)簽串‘#、/m/、/a/、/i/、/k/、/I/、#’基干與作為切換后的語言的日語之間的語言間音響數(shù)據(jù)映射表的對應(yīng)關(guān)系,被轉(zhuǎn)換成日語音素標(biāo)簽串‘#、M、/a/、/i/、/k/、/r/、#’。用戶詞典登記部6將步驟ST2e中由音素標(biāo)簽串轉(zhuǎn)換部9進(jìn)行了轉(zhuǎn)換后的音素標(biāo)簽串追加存放到用戶詞典中(步驟ST3e)。在圖10中,登記詞匯文本為‘Michael’且切換后的語言為日語,因此,將日語音素標(biāo)簽串‘#、/m/、/a/、/i/、/k/、/r/、#’作為登記詞語進(jìn)行存放。如上所述,根據(jù)本實(shí)施方式4,包括用戶詞典,該用戶詞典登記有輸入聲音的音 素標(biāo)簽串;語言間音響數(shù)據(jù)映射表,該語言間音響數(shù)據(jù)映射表對語言之間的音素標(biāo)簽的對應(yīng)關(guān)系進(jìn)行規(guī)定;以及登記時的音響模式設(shè)定部19,該登記時的音響模式設(shè)定部19從音響標(biāo)準(zhǔn)模式中選擇預(yù)先設(shè)定的語言的音響標(biāo)準(zhǔn)模式,參照語言間音響數(shù)據(jù)映射表,將登記到用戶詞典的音素標(biāo)簽串從由登記時的音響模式設(shè)定部19所選擇的語言的音素標(biāo)簽串轉(zhuǎn)換成切換后的語言的音素標(biāo)簽串。若在上述實(shí)施方式I中,在可將N種語言設(shè)定為登記到用戶詞典的詞匯的對象語言的情況下,則需要與登記到用戶詞典時的語言和可設(shè)定的語言的(NX (N — I))/2個所有組合相對應(yīng)的語言間音響數(shù)據(jù)映射表,而此時,通過這種結(jié)構(gòu),則只需要與登記時的音響模式設(shè)定部19所設(shè)定的I種規(guī)定語言和上述可設(shè)定的語言的(N — I)個組合相對應(yīng)的語言間音響數(shù)據(jù)映射表,從而能減小語言間音響數(shù)據(jù)映射表的數(shù)據(jù)大小。此外,在上述實(shí)施方式2和上述實(shí)施方式3中,表示了利用上述實(shí)施方式I的識別詞典制作裝置I來構(gòu)成聲音識別裝置及聲音合成裝置的情形,但在圖4和圖6所示的結(jié)構(gòu)中,還可與圖8所示的上述實(shí)施方式4的識別詞典制作裝置Ia進(jìn)行組合來替代上述實(shí)施方式I的識別詞典制作裝置以構(gòu)成聲音識別裝置和聲音合成裝置。由此,能提供還能ー并獲得上述實(shí)施方式4的效果的聲音識別裝置和聲音合成裝置。エ業(yè)上的實(shí)用性本發(fā)明所涉及的識別詞典制作裝置不需要保存發(fā)出聲音的大容量存儲器,不需要對所有語言制作音素標(biāo)簽串,能縮短對每ー語言制作音素標(biāo)簽串的制作時間,從而能適用于車載設(shè)備的聲音識別裝置和聲音合成裝置。
權(quán)利要求
1.一種識別詞典制作裝置,其特征在于,包括 音響分析部,該音響分析部對輸入聲音的聲音信號進(jìn)行音響分析以輸出音響特征的時間序列; 音響標(biāo)準(zhǔn)模式存儲部,該音響標(biāo)準(zhǔn)模式存儲部對每一語言存儲有表示標(biāo)準(zhǔn)的音響特征的音響標(biāo)準(zhǔn)模式; 音響數(shù)據(jù)匹配部,該音響數(shù)據(jù)匹配部將從所述音響分析部輸入的所述輸入聲音的音響特征的時間序列和所述音響標(biāo)準(zhǔn)模式存儲部中存儲的音響標(biāo)準(zhǔn)模式進(jìn)行對照,以制作所述輸入聲音的音素標(biāo)簽串; 用戶詞典存儲部,該用戶詞典存儲部對登記有所述音響數(shù)據(jù)匹配部所制作的所述輸入聲音的音素標(biāo)簽串的用戶詞典進(jìn)行存儲; 語言存儲部,該語言存儲部對登記到所述用戶詞典的音素標(biāo)簽串的語言進(jìn)行存儲; 語言切換部,該語言切換部對語言進(jìn)行切換; 映射表存儲部,該映射表存儲部對規(guī)定了語言間的音素標(biāo)簽的對應(yīng)關(guān)系的映射表進(jìn)行存儲;以及 音素標(biāo)簽串轉(zhuǎn)換部,該音素標(biāo)簽串轉(zhuǎn)換部參照所述映射表存儲部中存儲的映射表,將登記到所述用戶詞典的音素標(biāo)簽串從所述語言存儲部中存儲的語言的音素標(biāo)簽串轉(zhuǎn)換成由所述語言切換部進(jìn)行切換后的語言的音素標(biāo)簽串。
2.一種聲音識別裝置,其特征在于,包括 音響分析部,該音響分析部對輸入聲音的聲音信號進(jìn)行音響分析以輸出音響特征的時間序列; 音響標(biāo)準(zhǔn)模式存儲部,該音響標(biāo)準(zhǔn)模式存儲部對每一語言存儲有表示標(biāo)準(zhǔn)的音響特征的音響標(biāo)準(zhǔn)模式; 音響數(shù)據(jù)匹配部,該音響數(shù)據(jù)匹配部將從所述音響分析部輸入的所述輸入聲音的音響特征的時間序列和所述音響標(biāo)準(zhǔn)模式存儲部中存儲的音響標(biāo)準(zhǔn)模式進(jìn)行對照,以制作所述輸入聲音的音素標(biāo)簽串; 用戶詞典存儲部,該用戶詞典存儲部對登記有所述音響數(shù)據(jù)匹配部所制作的所述輸入聲音的音素標(biāo)簽串的用戶詞典進(jìn)行存儲; 語言存儲部,該語言存儲部對登記到所述用戶詞典的音素標(biāo)簽串的語言進(jìn)行存儲; 語言切換部,該語言切換部對語言進(jìn)行切換; 映射表存儲部,該映射表存儲部對規(guī)定了語言間的音素標(biāo)簽的對應(yīng)關(guān)系的映射表進(jìn)行存儲; 音素標(biāo)簽串轉(zhuǎn)換部,該音素標(biāo)簽串轉(zhuǎn)換部參照所述映射表存儲部中存儲的映射表,將登記到所述用戶詞典的音素標(biāo)簽串從所述語言存儲部中存儲的語言的音素標(biāo)簽串轉(zhuǎn)換成由所述語言切換部進(jìn)行切換后的語言的音素標(biāo)簽串; 一般詞典存儲部,該一般詞典存儲部對利用所述音響標(biāo)準(zhǔn)模式來呈現(xiàn)的詞匯的一般詞典進(jìn)行存儲; 詞典對照部,該詞典對照部將所述音響數(shù)據(jù)匹配部所制作的所述輸入聲音的音素標(biāo)簽串、所述一般詞典、和所述用戶詞典進(jìn)行對照,從所述一般詞典和所述用戶詞典中確定與所述輸入聲音的音素標(biāo)簽串最相似的詞匯;以及識別結(jié)果輸出部,該識別結(jié)果輸出部將由所述詞典對照部所確定的詞匯作為聲音識別結(jié)果來輸出。
3.一種聲音合成裝置,其特征在于,包括 音響分析部,該音響分析部對輸入聲音的聲音信號進(jìn)行音響分析以輸出音響特征的時間序列; 音響標(biāo)準(zhǔn)模式存儲部,該音響標(biāo)準(zhǔn)模式存儲部對每一語言存儲有表示標(biāo)準(zhǔn)的音響特征的音響標(biāo)準(zhǔn)模式; 音響數(shù)據(jù)匹配部,該音響數(shù)據(jù)匹配部將從所述音響分析部輸入的所述輸入聲音的音響特征的時間序列和所述音響標(biāo)準(zhǔn)模式存儲部中存儲的音響標(biāo)準(zhǔn)模式進(jìn)行對照,以制作所述輸入聲音的音素標(biāo)簽串; 用戶詞典存儲部,該用戶詞典存儲部對登記有所述音響數(shù)據(jù)匹配部所制作的所述輸入聲音的音素標(biāo)簽串的用戶詞典進(jìn)行存儲; 語言存儲部,該語言存儲部對登記到所述用戶詞典的音素標(biāo)簽串的語言進(jìn)行存儲; 語言切換部,該語言切換部對語言進(jìn)行切換; 映射表存儲部,該映射表存儲部對規(guī)定了語言間的音素標(biāo)簽的對應(yīng)關(guān)系的映射表進(jìn)行存儲; 音素標(biāo)簽串轉(zhuǎn)換部,該音素標(biāo)簽串轉(zhuǎn)換部參照所述映射表存儲部中存儲的映射表,將登記到所述用戶詞典的音素標(biāo)簽串從所述語言存儲部中存儲的語言的音素標(biāo)簽串轉(zhuǎn)換成由所述語言切換部進(jìn)行切換后的語言的音素標(biāo)簽串; 文本輸入部,該文本輸入部輸入文本; 登記詞語部分檢測部,該登記詞語部分檢測部從由所述文本輸入部輸入的文本的字符串中,檢測出與登記到所述用戶詞典的音素標(biāo)簽串相當(dāng)?shù)脑~匯部分; 登記詞匯置換部,該登記詞匯置換部將所述登記詞語部分檢測部所檢測出的所述詞匯部分置換成從所述用戶詞典獲取的與該詞匯部分相對應(yīng)的音素標(biāo)簽串; 一般詞典置換部,該一般詞典置換部將所述文本的字符串中的、除了所述登記詞語部分檢測部所檢測出的所述詞匯部分以外的部分置換成所述一般詞典的對應(yīng)詞匯的音素標(biāo)簽串;以及 聲音合成部,該聲音合成部根據(jù)所述登記詞匯置換部及所述一般詞典置換部所獲得的所述文本的音素標(biāo)簽串,來生成該文本的合成聲音。
4.一種識別詞典制作裝置,其特征在于,包括 音響分析部,該音響分析部對輸入聲音的聲音信號進(jìn)行音響分析以輸出音響特征的時間序列; 音響標(biāo)準(zhǔn)模式存儲部,該音響標(biāo)準(zhǔn)模式存儲部對每一語言存儲有表示標(biāo)準(zhǔn)的音響特征的音響標(biāo)準(zhǔn)模式; 音響標(biāo)準(zhǔn)模式設(shè)定部,該音響標(biāo)準(zhǔn)模式設(shè)定部從所述音響標(biāo)準(zhǔn)模式存儲部所存儲的音響標(biāo)準(zhǔn)模式中,選擇預(yù)先設(shè)定的語言的音響標(biāo)準(zhǔn)模式; 音響數(shù)據(jù)匹配部,該音響數(shù)據(jù)匹配部將從所述音響分析部輸入的輸入聲音的音響特征的時間序列和所述音響標(biāo)準(zhǔn)模式設(shè)定部所選擇的語言的音響標(biāo)準(zhǔn)模式進(jìn)行對照,以制作所述輸入聲音的音素標(biāo)簽串;用戶詞典存儲部,該用戶詞典存儲部對登記有所述音響數(shù)據(jù)匹配部所制作的所述輸入聲音的音素標(biāo)簽串的用戶詞典進(jìn)行存儲; 語言切換部,該語言切換部對語言進(jìn)行切換; 映射表存儲部,該映射表存儲部對規(guī)定了語言間的音素標(biāo)簽的對應(yīng)關(guān)系的映射表進(jìn)行存儲;以及 音素標(biāo)簽串轉(zhuǎn)換部,該音素標(biāo)簽串轉(zhuǎn)換部參照所述映射表存儲部中存儲的映射表,將登記到所述用戶詞典的音素標(biāo)簽串從所述音響標(biāo)準(zhǔn)模式設(shè)定部所選擇的語言的音素標(biāo)簽串轉(zhuǎn)換成由所述語言切換部進(jìn)行切換后的語言的音素標(biāo)簽串。
5.一種聲音識別裝置,其特征在于,包括 音響分析部,該音響分析部對輸入聲音的聲音信號進(jìn)行音響分析以輸出音響特征的時間序列; 音響標(biāo)準(zhǔn)模式存儲部,該音響標(biāo)準(zhǔn)模式存儲部對每一語言存儲有表示標(biāo)準(zhǔn)的音響特征的音響標(biāo)準(zhǔn)模式; 音響標(biāo)準(zhǔn)模式設(shè)定部,該音響標(biāo)準(zhǔn)模式設(shè)定部從所述音響標(biāo)準(zhǔn)模式存儲部所存儲的音響標(biāo)準(zhǔn)模式中,選擇預(yù)先設(shè)定的語言的音響標(biāo)準(zhǔn)模式; 音響數(shù)據(jù)匹配部,該音響數(shù)據(jù)匹配部將從所述音響分析部輸入的輸入聲音的音響特征的時間序列和所述音響標(biāo)準(zhǔn)模式設(shè)定部所選擇的語言的音響標(biāo)準(zhǔn)模式進(jìn)行對照,以制作所述輸入聲音的音素標(biāo)簽串; 用戶詞典存儲部,該用戶詞典存儲部對登記有所述音響數(shù)據(jù)匹配部所制作的所述輸入聲音的音素標(biāo)簽串的用戶詞典進(jìn)行存儲; 語言切換部,該語言切換部對語言進(jìn)行切換; 映射表存儲部,該映射表存儲部對規(guī)定了語言間的音素標(biāo)簽的對應(yīng)關(guān)系的映射表進(jìn)行存儲; 音素標(biāo)簽串轉(zhuǎn)換部,該音素標(biāo)簽串轉(zhuǎn)換部參照所述映射表存儲部中存儲的映射表,將登記到所述用戶詞典的音素標(biāo)簽串從所述音響標(biāo)準(zhǔn)模式設(shè)定部所選擇的語言的音素標(biāo)簽串轉(zhuǎn)換成由所述語言切換部進(jìn)行切換后的語言的音素標(biāo)簽串; 一般詞典存儲部,該一般詞典存儲部對利用所述音響標(biāo)準(zhǔn)模式來呈現(xiàn)的詞匯的一般詞典進(jìn)行存儲; 詞典對照部,該詞典對照部將所述音響數(shù)據(jù)匹配部所制作的所述輸入聲音的音素標(biāo)簽串、所述一般詞典、和所述用戶詞典進(jìn)行對照,從所述一般詞典和所述用戶詞典中確定與所述輸入聲音的音素標(biāo)簽串最相似的詞匯;以及 識別結(jié)果輸出部,該識別結(jié)果輸出部將由所述詞典對照部所確定的詞匯作為聲音識別結(jié)果來輸出。
6.—種聲音合成裝置,其特征在于,包括 音響分析部,該音響分析部對輸入聲音的聲音信號進(jìn)行音響分析以輸出音響特征的時間序列; 音響標(biāo)準(zhǔn)模式存儲部,該音響標(biāo)準(zhǔn)模式存儲部對每一語言存儲有表示標(biāo)準(zhǔn)的音響特征的音響標(biāo)準(zhǔn)模式; 音響標(biāo)準(zhǔn)模式設(shè)定部,該音響標(biāo)準(zhǔn)模式設(shè)定部從所述音響標(biāo)準(zhǔn)模式存儲部所存儲的音響標(biāo)準(zhǔn)模式中,選擇預(yù)先設(shè)定的語言的音響標(biāo)準(zhǔn)模式; 音響數(shù)據(jù)匹配部,該音響數(shù)據(jù)匹配部將從所述音響分析部輸入的輸入聲音的音響特征的時間序列和所述音響標(biāo)準(zhǔn)模式設(shè)定部所選擇的語言的音響標(biāo)準(zhǔn)模式進(jìn)行對照,以制作所述輸入聲音的音素標(biāo)簽串; 用戶詞典存儲部,該用戶詞典存儲部對登記有所述音響數(shù)據(jù)匹配部所制作的所述輸入聲音的音素標(biāo)簽串的用戶詞典進(jìn)行存儲; 語言切換部,該語言切換部對語言進(jìn)行切換; 映射表存儲部,該映射表存儲部對規(guī)定了語言間的音素標(biāo)簽的對應(yīng)關(guān)系的映射表進(jìn)行存儲; 音素標(biāo)簽串轉(zhuǎn)換部,該音素標(biāo)簽串轉(zhuǎn)換部參照所述映射表存儲部中存儲的映射表,將登記到所述用戶詞典的音素標(biāo)簽串從所述音響標(biāo)準(zhǔn)模式設(shè)定部所選擇的語言的音素標(biāo)簽串轉(zhuǎn)換成由所述語言切換部進(jìn)行切換后的語言的音素標(biāo)簽串; 文本輸入部,該文本輸入部輸入文本; 登記詞語部分檢測部,該登記詞語部分檢測部從由所述文本輸入部輸入的文本的字符串中,檢測出與登記到所述用戶詞典的音素標(biāo)簽串相當(dāng)?shù)脑~匯部分; 登記詞匯置換部,該登記詞匯置換部將所述登記詞語部分檢測部所檢測出的所述詞匯部分置換成從所述用戶詞典獲取的與該詞匯部分相對應(yīng)的音素標(biāo)簽串; 一般詞典置換部,該一般詞典置換部將所述文本的字符串中的、除了所述登記詞語部分檢測部所檢測出的所述詞匯部分以外的部分置換成所述一般詞典的對應(yīng)詞匯的音素標(biāo)簽串;以及 聲音合成部,該聲音合成部根據(jù)所述登記詞匯置換部及所述一般詞典置換部所獲得的所述文本的音素標(biāo)簽串,來生成該文本的合成聲音。
全文摘要
根據(jù)本發(fā)明,包括用戶詞典,該用戶詞典登記有輸入聲音的音素標(biāo)簽串;以及語言間音響數(shù)據(jù)映射表,該語言間音響數(shù)據(jù)映射表對語言之間的音素標(biāo)簽的對應(yīng)關(guān)系進(jìn)行了規(guī)定,參照語言間音響數(shù)據(jù)映射表,將登記到用戶詞典的音素標(biāo)簽串從制作用戶詞典時的語言的音素標(biāo)簽串轉(zhuǎn)換成切換后的語言的音素標(biāo)簽串。
文檔編號G10L13/08GK102687197SQ20108005643
公開日2012年9月19日 申請日期2010年1月22日 優(yōu)先權(quán)日2010年1月22日
發(fā)明者丸田裕三 申請人:三菱電機(jī)株式會社