語音識別詞典制作支持系統(tǒng)、語音識別詞典制作支持方法以及語音識別詞典制作支持用程序的制作方法

文檔序號：2830436閱讀：242來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：語音識別詞典制作支持系統(tǒng)、語音識別詞典制作支持方法以及語音識別詞典制作支持用程序的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語音識別詞典制作支持系統(tǒng)、語音識別詞典制作支持方法及語音識別詞典制作支持用程序，特別地，涉及用于制作存儲語音識別處理的構(gòu)成要素即詞匯的語音識別詞典、和對字詞的排列進(jìn)行規(guī)則化后的語言模型的語音識別詞典制作支持系統(tǒng)、語音識別詞典制作支持方法以及語音識別詞典制作支持用程序。
背景技術(shù)：
下面對現(xiàn)有技術(shù)的語音識別詞典制作支持系統(tǒng)的概要進(jìn)行說明。如圖
6所示，由文本解析機(jī)構(gòu)201、出現(xiàn)頻率計數(shù)機(jī)構(gòu)202、更新機(jī)構(gòu)203、背景詞典存儲機(jī)構(gòu)204、識別詞典存儲機(jī)構(gòu)205、及語言模型存儲機(jī)構(gòu)206 構(gòu)成。
具有這種結(jié)構(gòu)的現(xiàn)有技術(shù)的語音識別詞典制作支持系統(tǒng)按照如下方式工作。
即，文本解析機(jī)構(gòu)201從外部接收包含語音識別對象詞匯的文本數(shù)據(jù)，利用存儲于背景詞典存儲機(jī)構(gòu)204中的單詞詞典進(jìn)行語素(morpheme)解析處理，從而，將文本數(shù)據(jù)分割成一個一個的單詞的系列，賦予其讀音文字列，另外根據(jù)需要而賦予其詞類標(biāo)簽，將其結(jié)果送至出現(xiàn)頻率計數(shù)機(jī)構(gòu) 202中。出現(xiàn)頻率計數(shù)機(jī)構(gòu)202從文本解析機(jī)構(gòu)201接收單詞系列，針對各單詞對出現(xiàn)頻率進(jìn)行計數(shù)，將結(jié)果送至更新機(jī)構(gòu)203。更新機(jī)構(gòu)203根據(jù)由出現(xiàn)頻率計數(shù)機(jī)構(gòu)202接收的單詞出現(xiàn)頻率，計算出各單詞的出現(xiàn)概率，與存儲于該語言模型存儲機(jī)構(gòu)206中的單詞的出現(xiàn)概率進(jìn)行對照，修正存儲于后者即語言模型存儲機(jī)構(gòu)206中的出現(xiàn)概率，以便接近由前者即文本數(shù)據(jù)計算出的出現(xiàn)概率。另外，在出現(xiàn)于文本數(shù)據(jù)中的單詞中，針對具有一定以上的出現(xiàn)概率值的單詞，確認(rèn)其是否被登錄在識別詞典存儲機(jī)構(gòu)205中存儲的識別詞典中，未登錄時認(rèn)定該單詞為未知語，將該單詞和出現(xiàn)概率分別登錄于識別詞典存儲機(jī)構(gòu)205和語言模型存儲機(jī)構(gòu)206中。
另外，在上述出現(xiàn)頻率計數(shù)機(jī)構(gòu)202中，除了單詞的出現(xiàn)頻率之外，通常以連續(xù)的2個單詞或3個單詞的出現(xiàn)次數(shù)為單位進(jìn)行計數(shù)。另外，在文本解析機(jī)構(gòu)201的語素解析處理中，為了與錯誤進(jìn)行單詞的分割和給予錯誤的讀音的情況相對應(yīng)，也在更新機(jī)構(gòu)203等中設(shè)置修正單詞邊界、人工輸入讀音的界面(參照后述專利文獻(xiàn)l等)。
現(xiàn)有技術(shù)語音識別詞典制作支持系統(tǒng)的另外一個例子在專利文獻(xiàn)1中記載。圖7是更新專利文獻(xiàn)1的語音識別詞典制作支持系統(tǒng)后的圖，以便能夠與圖6對比，由文字列比較機(jī)構(gòu)301、未知語提取機(jī)構(gòu)302、更新機(jī) 構(gòu)303、識別詞典存儲機(jī)構(gòu)305、和語言模型存儲機(jī)構(gòu)306構(gòu)成，突出特征在于，不是利用統(tǒng)計手段檢測未知語，而是利用修正誤識別后的結(jié)果。
具有這種結(jié)構(gòu)的現(xiàn)有技術(shù)的語音識別詞典制作支持系統(tǒng)按照如下方式工作。
艮口，文字列比較機(jī)構(gòu)301從外部接收利用未圖示的語音識別機(jī)構(gòu)對識別對象語音進(jìn)行識別后的結(jié)果即識別結(jié)果文本數(shù)據(jù)、和對含于該識別結(jié)果文本數(shù)據(jù)中的識別錯誤以人工進(jìn)行修正后的誤識別修正完畢文本數(shù)據(jù)，按每一個產(chǎn)生差別的地方，即每一個產(chǎn)生識別錯誤的地方，以包含識別錯誤的形式提取單詞或者單詞列，并送至未知語提取機(jī)構(gòu)302，其中，上述語音識別機(jī)構(gòu)包括存儲于識別詞典存儲機(jī)構(gòu)305中的識別詞典、和存儲于語言模型存儲機(jī)構(gòu)306中的語言模型作為構(gòu)成要素。未知語提取機(jī)構(gòu)302按從文字列比較機(jī)構(gòu)301接收到的每一個單詞或單詞列，確認(rèn)該單詞或單詞列是否登錄在存儲于識別詞典存儲機(jī)構(gòu)305中的識別詞典中，未登錄時，將該單詞或單詞列作為新單詞登錄于識別詞典存儲機(jī)構(gòu)305中。進(jìn)一步地，將登錄后的新單詞和規(guī)定的出現(xiàn)概率也登錄于語言模型存儲機(jī)構(gòu)306中。
另外，在專利文獻(xiàn)2 4中，記載了其他的對語音識別詞典的未知語的提取/登錄方法。在專利文獻(xiàn)2中公開了一種未知語登錄裝置，能夠?qū)?未知語的文書文件，進(jìn)行語素解析等來提取單詞，將語音識別詞典中不存在的單詞在參照背景詞典賦予讀音和詞類后進(jìn)行登錄的未知語登錄裝置。另外，在專利文獻(xiàn)3、 4中公開有具有上述未知語的詞類和發(fā)音的推斷功能并自動登錄未知語的未知語登錄裝置。
另外，在專利文獻(xiàn)5中，公開了一種對由互聯(lián)網(wǎng)站點(diǎn)所廣泛收集的網(wǎng) 頁的單詞的出現(xiàn)頻率進(jìn)行計數(shù)，并對單詞語音識別詞典中的同一讀音的單詞中的選擇順序進(jìn)行更新的方法。
另外，在專利文獻(xiàn)6中，公開了一種聲音模型管理服務(wù)器和語言模型管理服務(wù)器，對于語音識別裝置，發(fā)送在與輸入語音進(jìn)行對照中使用的語音的模型(聲音模型和語言模型)，具有定期更新聲音模型和語言模型的功能。
另外，作為本發(fā)明的背景技術(shù)，列舉專利文獻(xiàn)7。專利文獻(xiàn)7雖然涉及語音識別裝置，但是記載有涉及來自未登錄于背景詞典(語素解析詞典) 的未知語的音韻列的產(chǎn)生方法的技術(shù)。
專利文獻(xiàn)1: JP特開2002-229585號公報
專利文獻(xiàn)2: JP特開2003-316376號公報
專利文獻(xiàn)3: JP特開2004-265440號公報
專利文獻(xiàn)4: JP特開2002-014693號公報
專利文獻(xiàn)5: JP特開2005-099741號公報
專利文獻(xiàn)6: JP特開2002-091477號公報
專利文獻(xiàn)7: JP特開2004-294542號公報

發(fā)明內(nèi)容
采用前者統(tǒng)計手段檢測未知語的方式的問題之處在于文本數(shù)據(jù)收集需要成本，并且，要挑選用于得到良好結(jié)果的文本數(shù)據(jù)需要高度的技巧。尤其是，提供類似于識別對象語音的文本數(shù)據(jù)未必容易。
上述"類似于識別對象語音"指的是關(guān)于內(nèi)容和話題的類似性、以及發(fā) 聲風(fēng)格的類似性的兩方面。例如，在采用語音識別給出新聞播放的字幕時，通常準(zhǔn)備最近的報紙報道作為文本數(shù)據(jù)。此時，識別對象語音(新聞報導(dǎo) 員的發(fā)音)和報紙報道其話題盡管一致，但是發(fā)聲風(fēng)格即說話言詞特有的措詞不同。例如，對于新聞報導(dǎo)員的語音為"？卞 t t，，風(fēng)格的句子而言，報紙報道用"t "C A 6"風(fēng)格的句子。另外，語音中諸如"九一"、o—" 這樣的補(bǔ)白詞頻繁出現(xiàn)，這一點(diǎn)也是不同的。所以，如果忽視這樣的發(fā)聲風(fēng)格的差異而制作詞典、語言模型，將會產(chǎn)生對說話言詞特有的發(fā)聲風(fēng)格不能正確進(jìn)行語音識別這樣的弊病。
如上所述，為構(gòu)建能得到正確的語音識別結(jié)果的環(huán)境，需要經(jīng)驗(yàn)豐富的人特別小心地精挑細(xì)選要使用的文本數(shù)據(jù)，而且，需要花費(fèi)人工和時間正確寫入識別對象語音的過去的積累，結(jié)果就不可避免運(yùn)用成本的增加。
同樣，在上述專利文獻(xiàn)3、 5、 6中，提案有從互聯(lián)網(wǎng)及多媒體播放收
集文本的方案，但對這些方案當(dāng)然也能想到，會產(chǎn)生上述與"識別對象語音"之間的偏差，在識別結(jié)果中也自然地顯示出限度。
現(xiàn)有技術(shù)的第2個問題點(diǎn)在于，在存在音韻類似單詞或單詞列的情況下的識別錯誤沒有反映在詞典、語言模型中。例如，參見專利文獻(xiàn)2 5，僅考慮文本數(shù)據(jù)中各個單詞出現(xiàn)與否以及出現(xiàn)次數(shù)，沒有考慮在進(jìn)行涉及音韻信息的實(shí)際的語音識別處理的情況下是怎樣的。某單詞是否包含在詞典中必須考慮與詞典中的其他單詞在音韻上是否不同或不相類似，如果存在類似的單詞，則必須將一方的單詞從詞典中排除或降低在語言模型中的優(yōu)先級(出現(xiàn)概率)，在現(xiàn)有技術(shù)中，被認(rèn)為不能否認(rèn)2重登錄的可能性。
現(xiàn)有技術(shù)的第3個問題在于，要想構(gòu)建詞典、語言模型以便能夠正確地語音識別連接多個單詞的復(fù)合語不一定容易。即使構(gòu)成復(fù)合語的各個單詞為己經(jīng)在詞典中登錄的已知語，如果在用于語音識別的語音模型中的各單詞的連接概率低，則能夠正確識別作為單詞的總體的復(fù)合語的概率也變低。另外，大量含復(fù)合語的文本數(shù)據(jù)收集本身，如前所述是很困難的，存在成本的問題。
現(xiàn)有技術(shù)中的第4個問題在于，作為以上的結(jié)果，難以將識別錯誤正確反饋在詞典、語言模型中，預(yù)先防止識別錯誤。這一點(diǎn)，在上述專利文獻(xiàn)1記載的方式中，由于利用了運(yùn)用的語音識別系統(tǒng)中實(shí)際發(fā)生的識別錯誤，雖然可以準(zhǔn)確地反映識別錯誤，但是，為此會產(chǎn)生下述這樣其他的不便，即，對應(yīng)用中的語音識別系統(tǒng)中產(chǎn)生的識別錯誤必須實(shí)際地進(jìn)行觀測。
另外，在上述專利文獻(xiàn)l記載的方式中，還遺留有不能排除詞典、語言模型原因之外的識別錯誤這樣的其他的問題。語音識別系統(tǒng)中產(chǎn)生的識別錯誤中，除了由于詞典、語言模型導(dǎo)致的識別錯誤之外，存在主要由聲音所導(dǎo)致的識別錯誤。例如，將大音量的背景雜音重疊后的語音作為識別的結(jié)果而導(dǎo)致錯誤的情形、將電話語音這樣一般識別困難的窄頻帶語音作為識別結(jié)果而導(dǎo)致錯誤的情形、以及發(fā)音不清楚而難以辨聽而導(dǎo)致的識別錯誤的情形等等。在這些情形中，能想到即使具有上述專利文獻(xiàn)1記載的方式，也難以進(jìn)行有意義的詞典、語言模型的修正。
鑒于上述的情形，本發(fā)明的目的在于提供一種語音識別詞典制作支持系統(tǒng)、語音識別詞典制作支持方法及語音識別詞典制作支持用程序，其能夠利用低成本的文本數(shù)據(jù)產(chǎn)生最佳化的詞典、語言模型，該詞典、語言模型能夠考慮單詞之間的音韻的類似性，并且能夠有效降低主要由語言的原因所導(dǎo)致的語音識別錯誤。
根據(jù)本發(fā)明的第l觀點(diǎn)，提供一種語音識別詞典制作支持系統(tǒng)、采用該系統(tǒng)進(jìn)行的語音識別詞典制作支持方法及用于實(shí)現(xiàn)該系統(tǒng)的程序，其中，上述語音識別詞典制作支持系統(tǒng)的特征在于，具有存儲部，存儲詞
典、語言模型及聲音模型；文本解析部，針對文本數(shù)據(jù)進(jìn)行語素解析處理；
虛擬語音識別處理部，針對由上述文本解析部所解析的解析完畢文本數(shù) 據(jù)，利用上述詞典、語言模型及聲音模型產(chǎn)生虛擬語音識別結(jié)果文本數(shù)據(jù)，并且提取上述解析完畢文本數(shù)據(jù)和上述虛擬語音識別結(jié)果文本數(shù)據(jù)之間
的不同之處；更新處理部，基于上述不同之處，對上述詞典或者上述語言模型中的至少一方進(jìn)行修正。
由上述構(gòu)成的語音識別詞典制作支持系統(tǒng)，產(chǎn)生所給的文本數(shù)據(jù)的虛擬語音識別結(jié)果文本數(shù)據(jù)，利用該虛擬語音識別結(jié)果文本數(shù)據(jù)和最初的文本數(shù)據(jù)相比較的結(jié)果，對詞典、語言模型進(jìn)行更新處理。
根據(jù)本發(fā)明，利用能夠比較容易得到的文本數(shù)據(jù)，可以預(yù)測運(yùn)用中的語音識別處理中的識別錯誤，并且能夠制作反映該預(yù)測結(jié)果的詞典、語言模型。理由在于，采用上述詞典、語言模型和聲音模型進(jìn)行虛擬語音識別，并且采用該結(jié)果進(jìn)行詞典和語言模型的更新。

圖1為表示本發(fā)明第1實(shí)施方式涉及的語音識別詞典制作支持系統(tǒng)的概略結(jié)構(gòu)的圖。
圖2為以功能塊的形式表示本發(fā)明第1實(shí)施方式涉及的語音識別詞典制作支持系統(tǒng)的框圖。
圖3為表示本發(fā)明第1實(shí)施方式涉及的語音識別詞典制作支持系統(tǒng)的虛擬語音識別處理部的一構(gòu)成例的圖。
圖4為表示本發(fā)明第1實(shí)施方式涉及的語音識別詞典制作支持系統(tǒng)的
運(yùn)行的流程圖。
圖5為用于說明本發(fā)明第1實(shí)施方式涉及的語音識別詞典制作支持系
統(tǒng)的運(yùn)行具體例的圖。
圖6為以功能塊的形式表示現(xiàn)有技術(shù)的語音識別詞典制作支持系統(tǒng)的框圖。
圖7為以功能塊的形式表示現(xiàn)有技術(shù)的語音識別詞典制作支持系統(tǒng)的框圖。
符號說明61讀音/音素列轉(zhuǎn)換部
62音素/狀態(tài)列轉(zhuǎn)換部
63狀態(tài)/特征列轉(zhuǎn)換部
64最佳單詞列搜索部
65文本數(shù)據(jù)比較部
71輸入裝置
72語音識別詞典制作支持程序
73數(shù)據(jù)處理裝置
74存儲裝置
101文本解析部
102虛擬語音識別處理部
103更新處理部
104、741背景詞典存儲部
105、742識別詞典存儲部
106、743語言模型存儲部
107、744聲音模型存儲部
108文本數(shù)據(jù)201文本解析機(jī)構(gòu)
202出現(xiàn)頻率計數(shù)機(jī)構(gòu)
203更新機(jī)構(gòu)
204背景詞典存儲機(jī)構(gòu)
205識別詞典存儲機(jī)構(gòu)
206語言模型存儲機(jī)構(gòu)
301文字列比較機(jī)構(gòu)
302未知語提取機(jī)構(gòu)
303更新機(jī)構(gòu)
305識別詞典存儲機(jī)構(gòu)
306語言模型存儲機(jī)構(gòu)
具體實(shí)施例方式
接下來參照附圖對用于實(shí)施本發(fā)明的最佳方式進(jìn)行詳細(xì)地說明。圖1 表示本發(fā)明第1實(shí)施方式涉及的語音識別詞典制作支持系統(tǒng)的概略結(jié)構(gòu)的
圖。參照圖1，示出由包括輸入裝置71和存儲裝置74的數(shù)據(jù)處理裝置(計算機(jī))73構(gòu)成的語音識別詞典制作支持系統(tǒng)。
存儲裝置74由具有背景詞典存儲部74K識別詞典存儲部742、語言模型存儲部743和聲音模型存儲部744的硬盤等構(gòu)成，可分別保存背景詞典、識別詞典、語言模型及聲音模型。
上述結(jié)構(gòu)的數(shù)據(jù)處理裝置(計算機(jī))73中，通過執(zhí)行語音識別詞典制作支持程序72，從而實(shí)現(xiàn)后述的各種處理機(jī)構(gòu)(圖2的文本解析部101 更新處理部103)。
圖2為以功能塊的形式示出上述語音識別詞典制作支持系統(tǒng)的框圖。參照圖2，本實(shí)施方式涉及的語音識別詞典制作支持系統(tǒng)由文本解析部 101、虛擬語音識別處理部102、更新處理部103、背景詞典存儲部104、識別詞典存儲部105、語言模型存儲部106、和聲音模型存儲部107構(gòu)成。
文本解析部101進(jìn)行下述處理，g卩，將從外部輸入的文本(文字列) 數(shù)據(jù)108分割成單詞并賦予詞類標(biāo)簽和讀音。更具體地，文本解析部101 進(jìn)行下述處理，即，讀入文本數(shù)據(jù)108，讀入存儲于背景詞典存儲部104中的背景詞典，解析文本數(shù)據(jù)108，并輸出解析完畢文本數(shù)據(jù)。
虛擬語音識別處理部102通過不含于識別詞典、給予其在語言模型中較低的優(yōu)先級的方式將發(fā)生語音識別錯誤可能性較高的詞句等提取出來。
更具體地，虛擬語音識別處理部102進(jìn)行如下處理，g卩，讀入分別存儲于識別詞典存儲部105、語言模型存儲部106和聲音模型存儲部107中的識別詞典、語言模型及聲音模型，針對由文本解析部101輸出的解析完畢文本數(shù)據(jù)虛擬地進(jìn)行識別處理，產(chǎn)生對應(yīng)解析完畢文本數(shù)據(jù)的虛擬識別結(jié)果文本數(shù)據(jù)，進(jìn)一步地，在比較最初的解析完畢文本數(shù)據(jù)和虛擬識別結(jié)果文本數(shù)據(jù)的基礎(chǔ)上，提取不同之處并輸出。
更新處理部103進(jìn)行如下處理，即，考慮通過虛擬語音識別處理部102 判定的、發(fā)生識別錯誤的可能性較高的詞句，對識別詞典、語言模型進(jìn)行變更。更具體地，更新處理部103進(jìn)行如下處理，g卩，基于由虛擬語音識別處理部102所輸出的不同之處，對分別存儲于識別詞典存儲部105和語言模型存儲部106中的識別詞典和語言模型進(jìn)行修正。
背景詞典存儲部104和識別詞典存儲部105分別存儲背景詞典和識別詞典。背景詞典也稱為語素解析詞典，保持有與識別詞典相比數(shù)10 數(shù) IOO倍規(guī)模的詞匯。因此，大多數(shù)情況下，基本上對所有提供的文本數(shù)據(jù) 都能夠給予讀音等信息。另外，即使在出現(xiàn)了背景詞典中仍未登錄的未知語的情況下，也可以利用如專利文獻(xiàn)5中記載的技術(shù)等，給予讀音信息。
語言模型存儲部106和聲音模型存儲部107分別存儲語言模型和聲音模型。
另外，上述識別詞典存儲部105和語言模型存儲部106中分別于初期存儲的識別詞典和語言模型，與實(shí)際要應(yīng)用的語音識別系統(tǒng)中使用的一樣，采用相同的內(nèi)容。同樣，存儲于聲音模型存儲部107中的聲音模型也優(yōu)選采用與實(shí)際要應(yīng)用的語音識別系統(tǒng)中使用的聲音模型原則相同的內(nèi) 容。
下面，對利用上述識別詞典、語言模型、以及聲音模型，從解析完畢文本數(shù)據(jù)中制作虛擬識別結(jié)果文本數(shù)據(jù)的虛擬語音識別處理部102的詳細(xì) 結(jié)構(gòu)進(jìn)行更詳細(xì)的說明。
圖3為示出虛擬語音識別處理部102的一結(jié)構(gòu)例的圖。參照圖3，虛擬語音識別處理部102由讀音/音素列轉(zhuǎn)換部61、音素/狀態(tài)列轉(zhuǎn)換部62、狀態(tài)/特征列轉(zhuǎn)換部63、最佳單詞列搜索部64、和文本數(shù)據(jù)比較部65構(gòu)成。讀音/音素列轉(zhuǎn)換部61，以每個適當(dāng)單位、例如一個句子一個句子地讀入按每個單詞分割并賦予讀音的解析完畢文本數(shù)據(jù)，按照預(yù)先存儲的音節(jié)/音素列轉(zhuǎn)換表，將通常以平假名或片假名表示的讀音文字列轉(zhuǎn)換成音素列，并依次輸出。其中，音素指的是語音識別中的識別的最小單位，即識別單位，單獨(dú)的音素用元音a、 i、 u、...，輔音k、 s、 t、...這樣的記號表
例如在給出"^〖i A 5 二" ^ L、法t (ohayoogozaimasu:早上好)，，這樣的讀音文字列的情況下，讀音/音素列轉(zhuǎn)換部61輸出 "/弁/o/h/a/y/o/o/g/o/z/a/i/m/a/s/u/弁/"這樣的音素列(這里"#，，是表示發(fā)音始末端的空音的記號)。
另外，通過更常用的、由前后的音素環(huán)境來劃分音素的3組音素 (triphone)而產(chǎn)生的聲音模型的情況下，讀音/音素列轉(zhuǎn)換部61對于上述 "fc、 " J: 3 : $3、法t (ohayoogozaimasu),，這樣的讀音文字列，輸出 "/#/#—o+h/o- h +a/ h一 a+ y/ a- y+o/ y -o+o / o-o+ g/ o- g+ o/ g- o+z/ o- z+ a/ a +i/ a - i +m/ i — m+ a/ m—a +s/ a-s+u/ s—u +#/#/"這樣的音素列。
另外，由于以前的大部分語音識別系統(tǒng)采用音素作為識別單位，因此本發(fā)明的實(shí)施方式也仿照這樣，然而，盡管采用音素作為識別單位，但也可以采用音素之外的識別單位，例如音節(jié)、半音節(jié)作為識別單位，本發(fā)明原則上只要可實(shí)施即可，作為識別單位則無特別限制。
音素/狀態(tài)列轉(zhuǎn)換部62，針對由讀音/音素列轉(zhuǎn)換部61接收的音素列，參照存儲于聲音模型存儲部107中的聲音模型的構(gòu)成信息，輸出將各音素展開成狀態(tài)的系列的狀態(tài)列。
這里，所謂"狀態(tài)"是語音識別中通常作為聲音模型來使用的隱馬爾科夫模型(Hidden Markov Model,以下記為"HMM")中附隨的概念。在采用HMM將各音素進(jìn)行模型化的情況下，"狀態(tài)"可以為將音素進(jìn)一步細(xì)分化的單位。聲音模型作為每個音素的HMM的集合來構(gòu)成，音素的HMM 分別由多個"狀態(tài)"構(gòu)成?？傊ㄟ^參照聲音模型，能夠很容易將音素轉(zhuǎn) 換成狀態(tài)列。例如，在各音素一律由3個狀態(tài)構(gòu)成的聲音模型的情況下，上述的音素列轉(zhuǎn)換成#[1]， o[l]， o[2]， o[3]， h[l]， h[2]， h[3]， a[l]， a[2]， a[3]， y[l]， y[2]， y[3]， o[l]，…，i[3]， m[l]， m[2]， m[3]， a[l]， a[2]， a[3]， s[l]， s[2]， s[3]， u[l]， u[2]， u[3]， #[1]。其中括弧數(shù)字表示狀態(tài)號碼。聲音模型由上述3組音素(triphone)構(gòu)成的情況也是同樣。另外，空音模型"#"通常作為1個狀態(tài)進(jìn)行模型化。
狀態(tài)/特征列轉(zhuǎn)換部63讀入存儲于聲音模型存儲部107中的聲音模型，順次接收音素/狀態(tài)列轉(zhuǎn)換部62輸出的狀態(tài)列，并輸出含語音識別用聲音特征參數(shù)的特征向量的系列。即，根據(jù)聲音模型中按每個狀態(tài)定義的概率分布，例如混合高斯分布，基于隨機(jī)數(shù)而生成特征向量。另外，按每l狀態(tài)生成的特征向量的個數(shù)同樣基于按每個狀態(tài)定義的狀態(tài)轉(zhuǎn)移概率(state transition probability)由隨機(jī)數(shù)決定。
最佳單詞列搜索部64讀取分別存儲于識別詞典存儲部105、語言模型 '存儲部106及聲音模型存儲部107中的識別詞典、語言模型及聲音模型，依次接收狀態(tài)/特征列轉(zhuǎn)換部63的輸出的特征向量列，采用語音識別系統(tǒng) 中通常采用的幀同步束搜索(beam search)等搜索方法，搜索并輸出特征向量列中最匹配的單詞列，即虛擬的語音識別結(jié)果文本數(shù)據(jù)(通常是漢字假名混雜的句子)。
文本數(shù)據(jù)比較部65將由最佳單詞列搜索部64輸出的虛擬識別結(jié)果文本數(shù)據(jù)與虛擬語音識別處理部102的輸入即解析完畢的文本數(shù)據(jù)的對應(yīng)部分做比較，作為不同之處的文字列的對即虛擬正解文字列和虛擬識別結(jié)果文字列的對來提取，按每同一文字列統(tǒng)計出現(xiàn)頻率之后，作為圖5例示的虛擬識別錯誤實(shí)例數(shù)據(jù)送至更新處理部103。
接下來，參照附圖對本實(shí)施方式的整體工作進(jìn)行詳細(xì)說明。圖4為示出本實(shí)施方式涉及的語音識別詞典制作支持系統(tǒng)的工作的流程圖。
參照圖4，首先，文本解析部101讀入存儲于背景詞典存儲部104中的背景詞典(步驟Al)，對給出的文本數(shù)據(jù)進(jìn)行語素解析處理(步驟A2)。通過該語素解析處理，文本數(shù)據(jù)被分割成單詞，對各單詞根據(jù)需要給予詞類標(biāo)簽和讀音(表現(xiàn)單詞發(fā)音的符號串)。
另外，如上所述，背景詞典由于與識別詞典相比存儲有數(shù)10 數(shù)100 倍規(guī)模的詞匯，因此基本上對于所給出的全部文本數(shù)據(jù)都能夠給予讀音等信息。另外，即使在出現(xiàn)沒有登錄于背景詞典中的未知語的情況下，例如，也可以采用專利文獻(xiàn)5中記載的技術(shù)等來給予讀音信息。
接著，虛擬語音識別處理部102讀入分別存儲于識別詞典存儲部105、語言模型存儲部106和聲音模型存儲部107中的識別詞典、語言模型及聲音模型(步驟A3 A5)，基于文本解析部101輸出的文本來執(zhí)行虛擬的語音識別處理，制作虛擬識別結(jié)果文本數(shù)據(jù)(步驟A6)。
然后，虛擬語音識別處理部102將解析完畢文本數(shù)據(jù)和對應(yīng)的虛擬識別結(jié)果文本數(shù)據(jù)做比較，將產(chǎn)生差別的地方即作為虛擬的識別錯誤實(shí)例的單詞或單詞列從兩文本數(shù)據(jù)中取出，生成虛擬識別錯誤實(shí)例數(shù)據(jù)(參照圖 5)(步驟A7)。
此時，含產(chǎn)生差別的地方的單詞的一系列單詞列在可以判斷為由名詞連續(xù)等形態(tài)構(gòu)成匯總的短語的情況下，也可以按照短語單位進(jìn)行提取。例如，解析完畢文本數(shù)據(jù)中有".../地上波/于"、7'夕^/...，，這樣的單詞列，在虛擬識別結(jié)果文本數(shù)據(jù)中的對應(yīng)處變成".../地上波/于"^卻/足6/..."的情況下，可以提取"于"y'夕^""f'7 W足3"作為單詞級的配對，也可以提取"地上波/于"V夕A，,、"地上波/于''7并/足3/…，，的文字列對作為名詞短語級的配對，或者還可以雙方都提取。
最終，虛擬語音識別處理部102將單詞級和/或短語級的文字列對和其讀音與各自的出現(xiàn)頻率一起送至更新處理部103。圖5示出虛擬語音識別處理部102送至更新處理部103的虛擬識別錯誤實(shí)例數(shù)據(jù)信息的一個例子。
下面，更新處理部103接收由虛擬語音識別處理部102輸出的虛擬識別錯誤實(shí)例數(shù)據(jù)，一個一個地按順序取出，對應(yīng)其內(nèi)容，對識別詞典存儲部105和語言模型存儲部106中分別存儲的識別詞典和語言模型進(jìn)行如下的變更(步驟A8 A10)。
例如，如果按照圖5的例子來說明，取出最初的條目(HTML，栄一/ 低迷)，在與語音識別中的正解文字列相當(dāng)?shù)慕馕鐾戤呂谋镜膯卧~"HTML" 不存在于識別詞典的情況下，更新處理部103在識別詞典中追加"HTML"，并設(shè)置默認(rèn)值(適當(dāng)確定的中級的優(yōu)先級)作為語言模型中的單詞"HTML" 的優(yōu)先級。另外，在"HTML"已經(jīng)存在于識別詞典中的情況下，更新處理部103 不進(jìn)行識別詞典的更新，僅將語言模型中的單詞"HTML"的優(yōu)先級增加預(yù) 定的適當(dāng)?shù)囊?guī)定值。
針對下面的條目(地上波/于'"夕A，地上波/于"*/足3)也同樣，如果識別詞典中沒有"地上波f-夕^"則追加于識別詞典中，語言模型中的優(yōu)先級中設(shè)定適當(dāng)?shù)哪J(rèn)值。另外，"地上波于'-夕^"如果已經(jīng)存在于識別詞典中，則增加語言模型中的優(yōu)先級的值。
下面，針對所有的條目，通過重復(fù)進(jìn)行上述的處理，采用容易獲得的低成本的文本數(shù)據(jù)，也可以得到能夠預(yù)先防止語音識別錯誤的最佳的詞典、語言模型。
另外，在上述實(shí)施方式中，雖然利用虛擬識別錯誤實(shí)例數(shù)據(jù)全部的條目對識別詞典和語言模型進(jìn)行更新，但是，例如，針對出現(xiàn)頻率極端低的條目，不使用于識別詞典、語言模型的變更這樣的設(shè)定也是有效的。另外，也可以是，利用出現(xiàn)頻率信息等對被反映到識別詞典、語言模型中的條目反復(fù)進(jìn)行選擇，直到與虛擬識別結(jié)果文本數(shù)據(jù)中識別錯誤相當(dāng)?shù)牟糠直纫?定的比例更少為止。
另外，在上述實(shí)施方式中，盡管是作為利用了對應(yīng)正解文字列的解析完畢文本"HTML"、"地上波于"7'夕》，，的識別詞典、語言模型的變更的情況進(jìn)行了說明，但是，除此之外，還可以是利用了對應(yīng)識別錯誤的虛擬識別結(jié)果文本的識別詞典、語言模型的變更。
例如，如果采用圖5的例子說明，更新處理部103也可以變更語言模型，以使得針對條目(HTML，栄一/低迷)，在提高單詞"HTML"的語言模型中的優(yōu)先級的同時，降低"栄一"和"低迷"的優(yōu)先級，進(jìn)一步地，降低與"栄一"和"低迷"這2個單詞的并列相關(guān)的優(yōu)先級。
進(jìn)一步地，在上述識別詞典的更新處理中，也可以針對優(yōu)先級比規(guī)定的域值小的單詞，進(jìn)行從識別詞典中刪除的處理。
另外，在這些一系列的優(yōu)先級的值的變更時，還可以根據(jù)出現(xiàn)頻率控制變更量。即，可以進(jìn)行控制，針對出現(xiàn)頻率高的條目使得對應(yīng)單詞或者單詞列的優(yōu)先級升高，反之，針對出現(xiàn)頻率低的條目使得優(yōu)先級只變更一點(diǎn)。進(jìn)一步地，優(yōu)選為，在適當(dāng)設(shè)計向系統(tǒng)操作者預(yù)先提示詞典、語言模型的更新內(nèi)容的界面、以及向系統(tǒng)操作者詢問更新可否的界面，對詞典、語言模型進(jìn)行更新時，構(gòu)成為能夠避免不合適的變更。
另外，在上述虛擬識別錯誤實(shí)例數(shù)據(jù)中，最好包含對應(yīng)各單詞的詞類。通過這種方式，參照該詞類的信息，可以判斷是否需要變更識別詞典、語言模型。例如，在識別詞典、語言模式的變更中僅使用包含名詞或動詞詞干等的實(shí)義詞的條目，其中，通常認(rèn)為上述名詞或動詞詞干等的實(shí)義詞在識別詞典、語言模型的更新時較為重要。
另外，至此在語言模型的變更中，盡管敘述了對與單詞和單詞的并列相關(guān)的"優(yōu)先級"的值進(jìn)行變更，但是，這里的優(yōu)先極可以解釋為例如公知
的N-gram語言模型中的概率值。即，例如unigram (N=l)中的概率值為忽略單詞的并列的情況下的單獨(dú)的單詞的出現(xiàn)概率，形式上為如Pr ("HTML")這樣表現(xiàn)的量。另夕卜，bigram (N=2)中的概率值為將之前的 1個單詞假定作為歷史記錄的情況下的單詞的條件出現(xiàn)概率，表現(xiàn)如 Pr("于'^夕^T地上波")或Pr ("低迷T栄一，，)。同樣，在trigram (N=3) 中的概率值為將之前的2個單詞假定作為歷史記錄的情況下的單詞的條件出現(xiàn)概率。
另外，還可以將圖3例示的虛擬語音識別處理部102構(gòu)成為更簡單的結(jié)構(gòu)。例如，考慮如下構(gòu)成，除去狀態(tài)/特征列轉(zhuǎn)換部63，將音素/狀態(tài)列轉(zhuǎn)換部62直接與最佳單詞列搜索部64連接。
此時，最佳單詞列搜索部64針對由音素/狀態(tài)列轉(zhuǎn)換部62接收的 HMM的狀態(tài)列的各要素，計算與聲音模型內(nèi)的全部狀態(tài)之間的類似度或者距離，根據(jù)由識別詞典和語言模型己確定的語言上的制約，求得最佳的單詞列。狀態(tài)間的距離可以采用附隨狀態(tài)的概率分布間的距離尺度例如相對熵(Kullback-Leibler divergence)等尺度來計算。另外，事先計算聲音模型內(nèi)的全部狀態(tài)之間的距離并以表格形式存儲于聲音模型存儲部107中是很有效的。
另外，為處理的高速化，還可以適當(dāng)進(jìn)行類似于上述幀同步束搜索的搜索范圍的限定(剪枝)。在圖3所例示的虛擬語音識別處理部102的方式中，以特征向量和狀態(tài)之間的距離計算為基礎(chǔ)構(gòu)成幀同步束搜索，與此相對的，在省去狀態(tài)/特征列轉(zhuǎn)換部63的本方式中，是將狀態(tài)間的距離計算作為基礎(chǔ)而構(gòu)成搜索的，雖然這點(diǎn)是不同的，但是原理基本上是相同的。
另外，還可以將圖3所例示的虛擬語音識別處理部102構(gòu)成得更簡單。例如，可以考慮如下構(gòu)成，除去音素/狀態(tài)列轉(zhuǎn)換部62和狀態(tài)/特征列轉(zhuǎn)換部63，將讀音/音素列轉(zhuǎn)換部61直接與最佳單詞列搜索部64連接。
此時，最佳單詞列搜索部64，針對由讀音/音素列轉(zhuǎn)換部61接收的音素列的各要素，計算與聲音模型內(nèi)的全部音素之間的類似度或者距離，根據(jù)由識別詞典和語言模型已確定的語言的制約，求得最佳的單詞列。音素間的距離可以作為彼此對應(yīng)的狀態(tài)間的距離的總和等來計算。
以上盡管針對本發(fā)明各實(shí)施方式進(jìn)行了說明，但本發(fā)明技術(shù)上的范圍不限于上述實(shí)施方式，根據(jù)語音識別對象的語言、或者語音識別系統(tǒng)的各種應(yīng)用場面能夠?qū)ζ溥M(jìn)行各種的變形。
權(quán)利要求
1. 一種語音識別詞典制作支持系統(tǒng)，具有存儲部，存儲詞典、語言模型及聲音模型；文本解析部，針對文本數(shù)據(jù)進(jìn)行語素解析處理；虛擬語音識別處理部，針對由上述文本解析部所解析的解析完畢文本數(shù)據(jù)，利用上述詞典、語言模型及聲音模型生成虛擬語音識別結(jié)果文本數(shù)據(jù)，并且提取上述解析完畢文本數(shù)據(jù)和上述虛擬語音識別結(jié)果文本數(shù)據(jù)之間的不同之處；以及更新處理部，基于上述不同之處，對上述詞典或者上述語言模型的至少其中一方進(jìn)行修正。
2. 根據(jù)權(quán)利要求l所述的語音識別詞典制作支持系統(tǒng)，其特征在于，上述虛擬語音識別處理部從上述解析完畢文本數(shù)據(jù)中生成以聲音參數(shù)為要素的特征向量系列，通過虛擬地執(zhí)行語音識別處理來生成語音識別結(jié)果文本數(shù)據(jù)。
3. 根據(jù)權(quán)利要求1或2所述的語音識別詞典制作支持系統(tǒng)，其特征在于，上述存儲部存儲構(gòu)成識別單位的狀態(tài)等要素間的距離或類似度表，上述虛擬語音識別處理部由上述解析完畢文本數(shù)據(jù)生成上述識別單位的系列，從上述詞典和語言模型中，通過搜索距離總和最小或類似度總和最大的單詞列，生成上述虛擬語音識別結(jié)果文本數(shù)據(jù)。
4. 根據(jù)權(quán)利要求1或2所述的語音識別詞典制作支持系統(tǒng)，其特征在于，上述存儲部存儲構(gòu)成識別單位的狀態(tài)等要素間的距離或類似度表，上述虛擬語音識別處理部由上述解析完畢文本數(shù)據(jù)生成上述要素的系列，從上述詞典和語言模型中，通過搜索距離總和最小或類似度總和最大的單詞列，生成上述虛擬語音識別結(jié)果文本數(shù)據(jù)。
5. 根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的語音識別詞典制作支持系統(tǒng)，其特征在于，上述更新處理部基于上述解析完畢文本數(shù)據(jù)和上述虛擬語音識別結(jié)果文本數(shù)據(jù)之間的不同之處，在上述詞典中追加出現(xiàn)于上述解析完畢文本數(shù)據(jù)側(cè)的詞句。
6. 根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的語音識別詞典制作支持系統(tǒng)，其特征在于，上述更新處理部基于上述解析完畢文本數(shù)據(jù)和上述虛擬語音識別結(jié) 果文本數(shù)據(jù)之間的不同之處，修正上述語言模型，以提高出現(xiàn)于上述解析完畢文本數(shù)據(jù)側(cè)的單詞或單詞列的優(yōu)先級。
7. 根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的語音識別詞典制作支持系統(tǒng)，其特征在于，上述更新處理部基于上述解析完畢文本數(shù)據(jù)和上述虛擬語音識別結(jié) 果文本數(shù)據(jù)之間的不同之處，修正上述語言模型，以降低出現(xiàn)于上述虛擬語音識別結(jié)果文本數(shù)據(jù)側(cè)的單詞或單詞列的優(yōu)先級。
8. 根據(jù)權(quán)利要求6或7所述的語音識別詞典制作支持系統(tǒng)，其特征在于，上述更新處理部按照上述解析完畢文本數(shù)據(jù)和虛擬語音識別結(jié)果文本數(shù)據(jù)中的單詞或單詞列的出現(xiàn)頻率控制上述優(yōu)先級的增減量。
9. 一種釆用計算機(jī)的語音識別詞典制作支持方法，包括上述計算機(jī)針對文本數(shù)據(jù)進(jìn)行語素解析處理的文本解析步驟；上述計算機(jī)基于由上述文本解析步驟輸出的解析完畢文本數(shù)據(jù)，利用存儲于規(guī)定存儲裝置中的詞典、語言模型及聲音模型生成虛擬語音識別結(jié) 果文本數(shù)據(jù)的步驟；上述計算機(jī)對上述解析完畢文本數(shù)據(jù)和上述虛擬語音識別結(jié)果文本數(shù)據(jù)進(jìn)行比較，并提取不同之處的步驟；以及上述計算機(jī)基于上述不同之處修正上述詞典或上述語言模型中的至少一方的更新步驟。
10. —種使得在構(gòu)成語音識別詞典制作支持系統(tǒng)的計算機(jī)中執(zhí)行如下處理的程序針對文本數(shù)據(jù)進(jìn)行語素解析處理的文本解析處理；基于由上述文本解析處理輸出的解析完畢文本數(shù)據(jù)，利用存儲于規(guī)定存儲裝置中的詞典、語言模型及聲音模型生成虛擬語音識別結(jié)果文本數(shù)據(jù)的處理；對上述解析完畢文本數(shù)據(jù)和上述虛擬語音識別結(jié)果文本數(shù)據(jù)進(jìn)行比較，并提取不同之處的虛擬語音識別處理；以及基于上述不同之處修正上述詞典或上述語言模型中的至少一方的更新處理。
全文摘要
提供一種語音識別詞典制作支持系統(tǒng)，其利用可低成本獲得的文本數(shù)據(jù)，能夠有效地制作、更新可降低語音識別錯誤的語音識別用詞典、語言模型。語音識別詞典制作支持系統(tǒng)包括識別詞典存儲部(105)、語言模型存儲部(106)和聲音模型存儲部(107)。虛擬語音識別處理部(102)針對由文本解析部(101)生成的解析完畢文本數(shù)據(jù)，參照識別詞典、語言模型及聲音模型，生成虛擬語音識別結(jié)果文本數(shù)據(jù)，并與最初的解析完畢文本數(shù)據(jù)進(jìn)行比較。更新處理部(103)能夠以降低兩文本數(shù)據(jù)不同之處的方式更新識別詞典、語言模型。
文檔編號G10L15/183GK101432801SQ200780006299
公開日2009年5月13日申請日期2007年2月2日優(yōu)先權(quán)日2006年2月23日
發(fā)明者越仲孝文申請人:日本電氣株式會社

完整全部詳細(xì)技術(shù)資料下載