專利名稱:優(yōu)化隱藏的馬爾科夫模型語(yǔ)音識(shí)別的方法、裝置和無(wú)線電設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語(yǔ)音識(shí)別,特別涉及利用隱藏的馬爾科夫模型的語(yǔ)音識(shí)別。
隱藏的馬爾科夫模型(HMM)語(yǔ)音識(shí)別系統(tǒng)確定哪個(gè)先前被訓(xùn)練的、存儲(chǔ)的模型與一串表征一個(gè)給定輸入語(yǔ)音語(yǔ)調(diào)的輸入特征觀測(cè)值最相匹配。
現(xiàn)有技術(shù)的HMM語(yǔ)音識(shí)別系統(tǒng)在一個(gè)特定時(shí)刻根據(jù)最佳狀態(tài)序列在最大似然意義上選擇一個(gè)模型。噪聲或不適當(dāng)?shù)挠?xùn)練可產(chǎn)生與除所選的正確模型之外的模型相關(guān)的最大似然狀態(tài)序列。
據(jù)此,現(xiàn)在需要一種用于HMM語(yǔ)音識(shí)別的方法、裝置和無(wú)線電設(shè)備,在存在噪聲或不適當(dāng)?shù)挠?xùn)練時(shí),它們尤其可使模型選擇優(yōu)化。
圖1是根據(jù)本發(fā)明用于優(yōu)化HMM語(yǔ)音識(shí)別的方法的一個(gè)實(shí)施例的步驟的流程圖。
圖2是根據(jù)本發(fā)明用于計(jì)算多個(gè)當(dāng)前路徑得分的方法的一個(gè)實(shí)施例的步驟的流程圖。
圖3是根據(jù)本發(fā)明用于計(jì)算多個(gè)當(dāng)前混合得分的方法的一個(gè)實(shí)施例的步驟的流程圖。
圖4是根據(jù)本發(fā)明用于優(yōu)化HMM語(yǔ)音識(shí)別的裝置的一個(gè)實(shí)施例的框圖。
圖5是在根據(jù)本發(fā)明用于優(yōu)化HMM語(yǔ)音識(shí)別的裝置中一個(gè)路徑得分確定器的一個(gè)實(shí)施例的框圖。
圖6是在根據(jù)本發(fā)明用于優(yōu)化HMM語(yǔ)音識(shí)別的裝置中一個(gè)混合得分確定器的一個(gè)實(shí)施例的框圖。
圖7是包括根據(jù)本發(fā)明用于優(yōu)化HMM語(yǔ)音識(shí)別的裝置的無(wú)線電設(shè)備的一個(gè)實(shí)施例的圖示描述。
圖8是一組HMM詞模型的規(guī)一化最大似然得分的幾個(gè)例子相對(duì)于時(shí)間的曲線描述。
圖9是一個(gè)例子的話音信號(hào)的幅度波形相對(duì)于時(shí)間的圖形描述,該圖形描述與圖8的得分曲線相關(guān)。
圖10是與圖8所述的相同的一組HMM模型的路徑得分相對(duì)于時(shí)間的曲線描述。
圖11是與圖8所述的相同的一組HMM模型的最大似然路徑(ML-PATH)得分相對(duì)于時(shí)間的曲線描述。
總的來(lái)說(shuō),本發(fā)明提供一種HMM語(yǔ)音識(shí)別的方法、裝置和無(wú)線電設(shè)備,在存在噪聲或不適當(dāng)?shù)挠?xùn)練時(shí),它們尤其可使模型選擇優(yōu)化。利用ML-PATH量度的優(yōu)點(diǎn)在于語(yǔ)音識(shí)別器的整個(gè)性能改進(jìn)大大超過(guò)利用標(biāo)準(zhǔn)ML量度獲得的性能,特別是在噪聲情況下。在描述本發(fā)明的實(shí)施例之前,將對(duì)本發(fā)明的原理進(jìn)行說(shuō)明。
HMM語(yǔ)音識(shí)別系統(tǒng)的本質(zhì)是確定哪個(gè)事先被訓(xùn)練的、存儲(chǔ)的模型與表征一個(gè)給定輸入語(yǔ)音語(yǔ)調(diào)的該串輸入特征觀測(cè)值最相匹配。在確定給定的特征觀測(cè)值序列的正確HMM模型中使用的最普通方法是選擇具有最大概率似然ML的模型,如式1所示Mbest=MAX{(k∈Kmodel]prob(Mk|Ot)},t=0,1,2,K,Tmax (1)Mk是K個(gè)HMM模型中的第K個(gè),Ot是語(yǔ)音特征觀測(cè)值串。通過(guò)利用Bayes定理,該式可被表示為式2prob(Mk|Ot)=prob(Ot|Mk)prob(Mk)/prob(Ot)(2)式中,prob(Ot|Mk)是發(fā)生在時(shí)間t給定模型Mk的觀測(cè)值Ot的概率,對(duì)于一給定觀測(cè)值序列,Mk可容易地并直接地通過(guò)維特比解碼器,前向搜索算法,或在基于HMM語(yǔ)音識(shí)別裝置中通常使用的其他搜索算法確定。所述基于HMM語(yǔ)音識(shí)別裝置在下列文章中進(jìn)行了描述″A Tutorial on HiddenMarkov Models and Selected Applications in Speech Recognition″,Rabiner,L.R.,IEEE proceedings,Vol.77,No.2,1989年2月,第257-285頁(yè);“The Viterbi Algorithm”,F(xiàn)orney,C.D.,IEEE Proceedings,Vol.61,第268-278頁(yè),1973年3月;和″A one-Pass algorithm for connected wordrecognition″,Bridle,J.S.,Brown,R.M.,和Chamberlain,R.M.,ICASSP‘82,第899-902頁(yè),法國(guó)巴黎,1982年5月。HMM模型Mk是由一組轉(zhuǎn)移概率和觀測(cè)值概率定義的N個(gè)獨(dú)立狀態(tài)構(gòu)成的第一階馬爾科夫鏈。通過(guò)維特比或其他類型的解碼器實(shí)現(xiàn)的MAX{prob(Mk|Ot)}的判決實(shí)際是通過(guò)給定一組輸入觀測(cè)值的每個(gè)HMM模型實(shí)現(xiàn)的最佳ML狀態(tài)序列的判決。在模型訓(xùn)練期間,對(duì)模型參數(shù)進(jìn)行優(yōu)化,以產(chǎn)生給定已知訓(xùn)練數(shù)據(jù)的最佳狀態(tài)序列,而不是產(chǎn)生最佳中間模型(inter-model)鑒別。,該ML″最佳″模型判決總是在觀測(cè)值序列中特定的時(shí)刻執(zhí)行,或當(dāng)該最后模型狀態(tài)已被占據(jù)了一個(gè)預(yù)定時(shí)間量時(shí)執(zhí)行。噪聲或不適當(dāng)?shù)挠?xùn)練可產(chǎn)生與除所選的″正確″模型之外的模型(即與對(duì)話輸入相對(duì)應(yīng)的模型)相關(guān)的最大似然狀態(tài)序列。這正是本發(fā)明所要緩解的問(wèn)題。
這里所描述的本發(fā)明是以計(jì)算機(jī)硬件實(shí)施的一種方法,所述計(jì)算機(jī)硬件提供了為給定語(yǔ)音特征觀測(cè)值序列選擇″正確″HMM模型的優(yōu)化手段。標(biāo)準(zhǔn)的最大似然ML與狀態(tài)序列得分(ML得分)相組合,以及與被稱作路徑得分(PATH score)的一個(gè)附加得分相組合,該所述路徑得分從描述作為時(shí)間函數(shù)的ML得分的動(dòng)態(tài)特性(即它的得分路徑)的信息中導(dǎo)出。該附加路徑得分從HMM解碼算法獲得,并以形成混合量度(這里稱作ML-PATH量度)的全新方式與ML得分信息相結(jié)合,用于選取正確的HMM模型。
使用ML-PATH量度的一個(gè)優(yōu)點(diǎn)是語(yǔ)音識(shí)別器的整個(gè)精度改進(jìn)大大超過(guò)只利用標(biāo)準(zhǔn)ML量度獲得的精度,特別是在噪聲情況下。通過(guò)多次實(shí)驗(yàn)本發(fā)明人已對(duì)此得到了驗(yàn)證。本發(fā)明利用了在通常的識(shí)別器搜索算法的最大似然(ML)計(jì)算中已經(jīng)確定的信息獲取新的信息,即PATH得分,和以全新的方式將兩個(gè)PATH得分組合以獲取新的量度,即ML-PATH量度,它更精確地為給定對(duì)話輸入語(yǔ)調(diào)確定正確的HMM。
圖1以標(biāo)號(hào)100示出根據(jù)本發(fā)明用于優(yōu)化HMM語(yǔ)音識(shí)別的方法的一個(gè)實(shí)施例的步驟的流程圖。第一步(步驟102)是在一個(gè)存儲(chǔ)單元中存儲(chǔ)多個(gè)預(yù)定隱藏馬爾科夫模型。語(yǔ)音音調(diào)被分成與幀特征矢量相對(duì)應(yīng)的多個(gè)幀。第二步(步驟104)是在幀特征矢量的解碼器中確定多個(gè)當(dāng)前最大似然得分,其中每一個(gè)得分與多個(gè)預(yù)定隱藏馬爾科夫模型中一個(gè)不同隱藏馬爾科夫模型相對(duì)應(yīng)。典型地,通過(guò)一個(gè)維特比解碼器計(jì)算最大似然得分。第三步(步驟106)是在幀特征矢量的解碼器中計(jì)算多個(gè)當(dāng)前路徑得分,每個(gè)當(dāng)前路徑得分與多個(gè)預(yù)定隱藏馬爾科夫模型中一個(gè)不同隱藏馬爾科夫模型相對(duì)應(yīng),其中路徑得分確定作為時(shí)間函數(shù)的最大似然得分中的變量的量。第四步(步驟108)是在幀特征矢量的解碼器中計(jì)算多個(gè)當(dāng)前混合得分,每個(gè)當(dāng)前混合得分與多個(gè)預(yù)定隱藏馬爾科夫模型中一個(gè)不同隱藏馬爾科夫模型相對(duì)應(yīng),其中每個(gè)混合得分是最大似然得分與每個(gè)模型的路徑得分的組合。第五步(步驟110)是確定是否所有的幀特征矢量已被處理和重復(fù)第二、第三和第四步。最后的步驟(步驟112)是選擇具有最低或最佳當(dāng)前混合得分的一個(gè)隱藏馬爾科夫模型。
圖2以標(biāo)號(hào)106示出根據(jù)本發(fā)明用于計(jì)算多個(gè)當(dāng)前路徑得分的方法的一個(gè)實(shí)施例的步驟的流程圖。第一,在步驟202計(jì)算當(dāng)前最大似然得分與緊前一個(gè)最大似然得分之間的差。第二,在步驟204將該差的平方加到先前路徑得分中,以提供一個(gè)當(dāng)前路徑得分。在步驟206,對(duì)每個(gè)隱藏馬爾科夫模型重復(fù)第一(步驟202)和第二(步驟204)步驟,以提供多個(gè)當(dāng)前路徑得分。在步驟208,當(dāng)動(dòng)態(tài)范圍被限制時(shí),需要進(jìn)行歸一化。歸一化之后,從多個(gè)當(dāng)前路經(jīng)得分中選擇一個(gè)最小路徑得分,和在步驟210通過(guò)從每個(gè)當(dāng)前路徑得分中減去該最小或最佳路徑得分對(duì)多個(gè)當(dāng)前路徑得分歸一化。
圖3以標(biāo)號(hào)108示出根據(jù)本發(fā)明用于計(jì)算多個(gè)當(dāng)前混合得分的方法的一個(gè)實(shí)施例的步驟的流程圖。首先,在步驟302,用一個(gè)當(dāng)前最大似然得分乘以一當(dāng)前路徑得分,產(chǎn)生一個(gè)積。然后,在步驟304,該積的平方被加到一個(gè)先前混合得分上,以產(chǎn)生一個(gè)當(dāng)前混合得分。在步驟306,對(duì)每個(gè)隱藏馬爾科夫模型重復(fù)步驟302和304,以提供多個(gè)當(dāng)前混合得分。
圖4以標(biāo)號(hào)400示出根據(jù)本發(fā)明用于優(yōu)化HMM語(yǔ)音識(shí)別的裝置的一個(gè)實(shí)施例的框圖。該裝置包括一個(gè)存儲(chǔ)單元402、一個(gè)解碼器404、一個(gè)路徑得分確定器406、一個(gè)混合得分確定器408、和一個(gè)模型選擇器410。
存儲(chǔ)單元402接收和存儲(chǔ)多個(gè)預(yù)定隱藏馬爾科夫模型412。解碼器404接收多個(gè)幀特征矢量414,和為每個(gè)幀特征矢量確定多個(gè)當(dāng)前最大似然得分416,其中每個(gè)得分都與存儲(chǔ)在存儲(chǔ)單元402中的多個(gè)預(yù)定隱藏馬爾科夫模型412中一個(gè)不同隱藏馬爾科夫模型相對(duì)應(yīng)。路徑得分確定器406從解碼器404接收多個(gè)當(dāng)前最大似然得分416,和為每個(gè)幀特征矢量計(jì)算多個(gè)當(dāng)前路徑得分418,每個(gè)當(dāng)前路徑得分與多個(gè)預(yù)定隱藏馬爾科夫模型412中一個(gè)不同隱藏馬爾科夫模型相對(duì)應(yīng)。路徑得分確定作為時(shí)間函數(shù)的最大似然得分中的變量的量?;旌系梅执_定器408從路徑得分確定器406接收該多個(gè)當(dāng)前路徑得分418,和從解碼器404接收多個(gè)當(dāng)前最大似然得分416。然后,混合得分確定器408為每個(gè)幀特征矢量計(jì)算多個(gè)當(dāng)前混合得分420,每個(gè)當(dāng)前混合得分與多個(gè)預(yù)定隱藏馬爾科夫模型412中一個(gè)不同隱藏馬爾科夫模型相對(duì)應(yīng)。每個(gè)混合得分是最大似然得分與每個(gè)模型的路徑得分的組合。模型選擇器410選擇與在多個(gè)當(dāng)前混合得分420中一個(gè)最低(最佳)當(dāng)前混合得分相對(duì)應(yīng)的一個(gè)隱藏馬爾科夫模型。
圖5以標(biāo)號(hào)406示出根據(jù)本發(fā)明用于優(yōu)化HMM語(yǔ)音識(shí)別的裝置中一個(gè)路徑得分確定器的一個(gè)實(shí)施例的框圖。路徑得分確定器406由多個(gè)路徑分支電路構(gòu)成。每個(gè)路徑分支電路包括一個(gè)減法電路504、一個(gè)求平方電路506、一個(gè)求和電路508和一個(gè)規(guī)一化電路528。
減法電路504計(jì)算當(dāng)前最大似然得分416與緊前一個(gè)最大似然得分511之間的差514。減法電路504可以包括用于保持該當(dāng)前最大似然得分416的第一延遲單元510,以將該緊前一個(gè)最大似然得分511提供給用于計(jì)算差514的一個(gè)減法器512。
求平方電路506接收該差514并通過(guò)輸入該差514提供一個(gè)平方差給乘法器518的兩個(gè)輸入端。
求和電路508接收該平方差516和利用一個(gè)加法器520將該平方差516與一個(gè)先前路徑得分相加,以提供一個(gè)當(dāng)前路徑得分522。該求和電路508可以包括用于保持該當(dāng)前路徑得分522的第二延遲單元526,以提供所述先前路徑得分524。
規(guī)一化電路528通過(guò)從每個(gè)當(dāng)前路徑得分522中減去一個(gè)最小路徑得分提供多個(gè)規(guī)一化的路徑得分530。
圖6以標(biāo)號(hào)408示出在根據(jù)本發(fā)明用于優(yōu)化HMM語(yǔ)音識(shí)別的裝置中一個(gè)混合得分確定器的一個(gè)實(shí)施例的框圖?;旌系梅执_定器408包括多個(gè)混合分支電路602,每個(gè)隱藏馬爾科夫模型都有一個(gè)混合分支電路。混合分支電路602)由乘法器604、求平方電路606和求合電路608組成。
乘法器604用當(dāng)前最大似然得分416乘以來(lái)自路徑確定器406的當(dāng)前路徑得分418,以產(chǎn)生一個(gè)積610。
求平方電路606接收該積610并通過(guò)將該積610輸入到乘法器614的兩個(gè)輸入端提供一個(gè)平方積612。
求和電路608接收平方積612并使用一個(gè)加法器616將該平方積612與一個(gè)先前混合得分618相加,產(chǎn)生一個(gè)當(dāng)前混合得分620。求和電路618可以包括用于保持該當(dāng)前混合得分620的一個(gè)延遲單元622,以提供所述先前混合得分618。
圖7以標(biāo)號(hào)700示出根據(jù)本發(fā)明包括用于優(yōu)化隱藏馬爾科夫模型語(yǔ)音識(shí)別的裝置(704)的一個(gè)無(wú)線電設(shè)備(702)的一個(gè)實(shí)施例的圖示描述。所述裝置在圖4中進(jìn)行了描述。
圖8以標(biāo)號(hào)800示出一組HMM詞模型的規(guī)一化最大似然得分ML的幾個(gè)例子相對(duì)于時(shí)間的曲線圖。這些例子是相對(duì)于時(shí)間804直到時(shí)間Tmax806的規(guī)一化最大似然得分(802)的曲線。Tmax(806)是被處理的最后幀的時(shí)間。11個(gè)曲線808、810、814、816、818、820、822、824、826和828代表11個(gè)數(shù)字模型″0″至″9″和″oh″。各曲線說(shuō)明這樣的事實(shí),即選擇具有最佳ML得分的模型導(dǎo)致了輸入詞的誤識(shí)別。
圖9以標(biāo)號(hào)900示出一個(gè)例子的話音信號(hào)的幅度波形相對(duì)于時(shí)間的圖形描述,該圖形描述與圖8的得分曲線相關(guān)。這是詞″零″808的波形。波形908相對(duì)于時(shí)間904直到時(shí)間Tmax906的幅度902繪制。
圖10以標(biāo)號(hào)1000示出涉及圖8中相同的一組HMM模型的路徑得分的曲線描述。用下述設(shè)定的等式3確定各路徑得分。各曲線示出了相對(duì)于時(shí)間1004直到時(shí)間1006的規(guī)一化最大似然得分1002。11個(gè)曲線1008、1010、1012、1014、1016、1018、1020、1022、1024、1026和1028代表數(shù)字模型″0″至″9″和″oh″。
圖11以標(biāo)號(hào)1100示出涉及圖8中相同的一組HMM模型的最大似然路徑(ML-PATH)得分的曲線描述。用下述設(shè)定的等式4確定ML-PATH路徑得分。各曲線示出了相對(duì)于時(shí)間1104直到時(shí)間1106的規(guī)一化最大似然得分1102。11個(gè)曲線(1108、1110、1112、1114、1116、1118、1120、1122、1124、1126和1128代表11個(gè)數(shù)字模型″0″至″9″和″0h″。圖11表明當(dāng)標(biāo)準(zhǔn)ML量度不能識(shí)別正確的HMM模型時(shí),ML-PATH量度能被用來(lái)識(shí)別正確的HMM模型。
HMM模型的ML得分對(duì)于時(shí)間的曲線這里被稱作″得分路徑″或″路徑″,它們的例子在圖8中示出。在一個(gè)特定判決時(shí)間選擇具有最佳ML得分的模型不能保證與談話輸入正確一致。由″正確″的ML得分對(duì)時(shí)間的曲線描述的″得分路徑″函數(shù)即相應(yīng)于談話輸入HMM模型通常表明與″最佳″路徑的總偏差小于″不正確″模型的得分路徑。圖8中,″最佳″路徑是從觀測(cè)時(shí)間0到時(shí)間Tmax(806)的一條直水平線,表示對(duì)于每個(gè)輸入觀測(cè)值,一個(gè)給定模型是最佳ML選擇。所有其他得分路徑必定更長(zhǎng)。因?yàn)榭紤]聲音觀測(cè)值的底層模型處理不能確切地說(shuō)明即是″隱藏的″,所以對(duì)于真實(shí)語(yǔ)音來(lái)說(shuō),″最佳″路徑總能被實(shí)現(xiàn)是絕對(duì)不可能的。然而,與所有其他模型相比,″正確″的HHM模型更接近于″最佳″得分路徑。這樣,對(duì)于大多數(shù)輸入觀測(cè)值來(lái)說(shuō),該″正確″的模型是ML選擇,并且具有從時(shí)間0至?xí)r間Tmax(806)的最短總得分路徑。這里,″最短″是指與該得分路徑的實(shí)際長(zhǎng)度相關(guān)的函數(shù)。在選擇最佳模型中,對(duì)于在短時(shí)期使″正確″的模型不太可能的聲音事件觀測(cè)序列不給予不適當(dāng)?shù)募訖?quán)。ML-PATH量度是在某一觀測(cè)時(shí)刻t以這樣的方式為絕對(duì)HMM ML得分加權(quán)的新穎的探索性方法ML得分過(guò)去所有性能即″最佳平均″在整個(gè)最佳模型選擇期間都有影響。
圖8顯示了作為由一個(gè)典型HMM識(shí)別器確定的11個(gè)HMM數(shù)字模型的每一個(gè)模型的時(shí)間函數(shù)的規(guī)一化的最大似然累加對(duì)數(shù)概率得分。這些數(shù)字模型是詞″0″至″9″和″oh″。通過(guò)一個(gè)HMM基于詞的語(yǔ)音識(shí)別系統(tǒng)產(chǎn)生各ML得分。每個(gè)隱藏馬爾科夫模型由多個(gè)狀態(tài)組成。每個(gè)狀態(tài)可通過(guò)轉(zhuǎn)移概率和多個(gè)語(yǔ)音特征觀測(cè)概率表示。在一個(gè)典型的識(shí)別器中,這些可以是倒頻譜(cepstral)特征、增置倒頻譜(δ-cepstral)特征和基于能量特征。在使用中,本發(fā)明并不受使用它識(shí)別器的各特定特征的限制。各模型概率典型地以對(duì)數(shù)的形式存儲(chǔ)。在一個(gè)典型的維特比型解碼器中,當(dāng)新的語(yǔ)音觀測(cè)特征產(chǎn)生時(shí),以使每個(gè)HMM的總的累加概率最大的方式對(duì)各觀測(cè)和轉(zhuǎn)移的對(duì)數(shù)概率求和。在每個(gè)時(shí)間片刻,典型地為10-20毫秒的間隔,用任何模型的″最佳″即最正得分使累加的對(duì)數(shù)概率規(guī)一化,以便在任何時(shí)刻的規(guī)一化″最佳″ML總體得分為圖8中得分曲線的最大坐標(biāo)值0.0。各模型得分不太可能是負(fù)的。在圖8中所示的示例中,到達(dá)識(shí)別器的輸入詞是″0″,它們的時(shí)間排列波形顯示在圖9中。在該例子中,識(shí)別器選擇詞″9″而不是″0″,因?yàn)椤?″的模型是僅根據(jù)最大似然準(zhǔn)則在最后時(shí)刻(圖上的時(shí)間Tmax)的最佳ML選擇。這是由位于最后時(shí)間片刻Tmax具有對(duì)數(shù)概率值為0.0的模型9(826)的路徑在該得分路徑曲線中指示。然而,正確詞模型的模型0(808)的得分路徑表明,對(duì)于波形持續(xù)期的大部分期間″0″是最大似然選擇,僅在該詞的末尾偏離開(kāi)″最大似然″。如前所述,該問(wèn)題的出現(xiàn)是由于在多數(shù)HMM識(shí)別系統(tǒng)中,對(duì)各模型訓(xùn)練和解碼,以返回到給出一組輸入特征觀測(cè)值的″最佳″狀態(tài)序列,但不是最佳模型。由于噪聲、人為原因、或不適當(dāng)模型參數(shù)訓(xùn)練,最大似然狀態(tài)序列不可能總與″正確″模型相對(duì)應(yīng),尤其是當(dāng)識(shí)別器測(cè)試環(huán)境與訓(xùn)練環(huán)境不同時(shí)。
″最佳平均″ML得分的一種定量表現(xiàn)形式是每個(gè)模型從時(shí)間0到時(shí)間Tmax的ML得分路徑″長(zhǎng)度″。另外,″長(zhǎng)度″涉及該ML得分路徑值的函數(shù)并且不必是一個(gè)幾何距離。在ML的意義上按平均來(lái)說(shuō)不太可能的HMM模型將具有比最有可能的模型″更長(zhǎng)″的路徑。在理想情況下,當(dāng)在每個(gè)時(shí)間片刻該″正確″模型為最大似然選擇時(shí),則實(shí)現(xiàn)最短路徑。通過(guò)對(duì)橫跨每個(gè)時(shí)間周期的各最大似然得分的差求和獲得得分路徑″長(zhǎng)度″(這里被稱作″路徑″得分)的量度,如等式3所描述。ltk=Σt=0Tmax-1(st+1k-stk)n,k=1,2,K,Kmodels----(3)]]>其中 是模型k在時(shí)間t的最佳ML得分路徑長(zhǎng)度的量度,而是模型k在時(shí)間步長(zhǎng)t的最佳規(guī)一化對(duì)數(shù)概率得分。在本優(yōu)選實(shí)施例中,在求和前對(duì)得分差求平方,即n=2。這具有使大的差不利影響超過(guò)小的差,并已在實(shí)驗(yàn)上表明會(huì)產(chǎn)生更好的結(jié)果。然而,其他路徑函數(shù)是可能的,諸如ML得分差的絕對(duì)值。此外,在該優(yōu)選實(shí)施例中,所有模型的路徑得分在每個(gè)瞬間都被該路徑得分的最佳得分規(guī)一化,以便將數(shù)字保持在計(jì)算裝置的數(shù)字區(qū)域內(nèi),因?yàn)閮H有相關(guān)得分是必要的。利用等式3計(jì)算的路徑得分的圖示被顯示在圖10中。在這種情況下,與圖8中的ML得分相反,模型0(1008)在時(shí)間Tmax(1006)具有最低或最佳得分并與談話輸入詞″0″準(zhǔn)確地相對(duì)應(yīng)。
有許多組合PATH和ML得分以構(gòu)成這里所描述的ML-PATH混合量度發(fā)明的方法。在該優(yōu)選實(shí)施例中,通過(guò)等式4以數(shù)學(xué)形式描述了該ML-PATH量度。kbest=MIN{∀(k∈Kmodels)|Σt=0Tmax-1(st+1k·ltk)2}----(4)]]>這里kbest是具有最佳ML-PATH得分的模型的索引,skt+1是模型k在時(shí)間t的最佳ML概率得分,lt是相對(duì)得分路徑″長(zhǎng)度″,即由等式3獲得的模型k在時(shí)間t的路徑得分。于是根據(jù)模型的相對(duì)ML-PATH得分,即最低得分而不是僅根據(jù)ML得分作出識(shí)別判決。應(yīng)該注意,還存在著其他組合PATH和ML得分以構(gòu)成ML-PATH量度的數(shù)學(xué)方法。這些替換方法中的一些可以減輕所涉及的計(jì)算。例如,等式4中的 可用該積的絕對(duì)值 代替,對(duì)該量度的性能影響不大。本例的ML-PATH得分在圖11中示出。此外,模型0(1108)具有最低或最佳得分并被選擇作為能很好表示談話輸入詞的模型。
雖然以上對(duì)典型的實(shí)施例進(jìn)行了描述,但是,對(duì)本領(lǐng)域的技術(shù)人員來(lái)說(shuō),可以做出各種替換和改進(jìn)而不脫離本發(fā)明是顯而易見(jiàn)的。因此,所有這些替換和改進(jìn)都被包括在所附權(quán)利要求限定的本發(fā)明的精神和范圍內(nèi)。
權(quán)利要求
1.一種優(yōu)化輸入語(yǔ)音信號(hào)的隱藏馬爾科夫模型識(shí)別的方法,所述輸入語(yǔ)音信號(hào)與多個(gè)幀特征矢量相對(duì)應(yīng),其特征在于,該方法包括以下步驟1A)在存儲(chǔ)單元中存儲(chǔ)多個(gè)預(yù)定的隱藏馬爾科夫模型;1B)在幀特征矢量的解碼器中確定多個(gè)當(dāng)前最大似然得分,其中每一個(gè)得分都與該多個(gè)預(yù)定的隱藏馬爾科夫模型中的一個(gè)不同隱藏馬爾科夫模型相對(duì)應(yīng);1C)在幀特征矢量的解碼器中計(jì)算多個(gè)當(dāng)前路徑得分,每個(gè)當(dāng)前路徑得分與多個(gè)預(yù)定隱藏馬爾科夫模型中一個(gè)不同隱藏馬爾科夫模型相對(duì)應(yīng),其中路徑得分確定作為時(shí)間函數(shù)的最大似然得分中的變量的量;1D)在幀特征矢量的解碼器中計(jì)算多個(gè)當(dāng)前混合得分,每個(gè)當(dāng)前混合得分與多個(gè)預(yù)定隱藏馬爾科夫模型中一個(gè)不同隱藏馬爾科夫模型相對(duì)應(yīng),其中每個(gè)混合得分是最大似然得分與每個(gè)模型的路徑得分的組合;1E)重復(fù)步驟1B至1D直到所有幀特征矢量已處理為止;和1F)選擇一個(gè)具有最低當(dāng)前混合得分的隱藏馬爾科夫模型。
2.根據(jù)權(quán)利要求1的方法,其特征在于,所述多個(gè)當(dāng)前最大似然得分由一個(gè)維特比解碼器確定。
3.根據(jù)權(quán)利要求1的方法,其特征在于,步驟1C還包括以下步驟對(duì)于一個(gè)隱藏馬爾科夫模型3A)計(jì)算一個(gè)當(dāng)前最大似然得分與緊前一個(gè)最大似然得分之間的差;3B)將該差的平方加到一個(gè)先前路徑得分中,以提供一個(gè)當(dāng)前路徑得分;3C)對(duì)每個(gè)隱藏馬爾科夫模型重復(fù)步驟3A和3B,以提供多個(gè)當(dāng)前路徑得分。
4.根據(jù)權(quán)利要求3的方法,其特征在于,該方法還包括以下步驟4A)從多個(gè)當(dāng)前路經(jīng)得分中選擇一最小路徑得分;和4B)通過(guò)從每個(gè)當(dāng)前路徑得分中減去該最小路徑得分對(duì)該多個(gè)當(dāng)前路徑得分規(guī)一化。
5.根據(jù)權(quán)利要求1的方法,其特征在于, 步驟1D還包括對(duì)于一個(gè)隱藏馬爾科夫模型5A)用一個(gè)當(dāng)前最大似然得分乘以一個(gè)當(dāng)前路徑得分,產(chǎn)生一個(gè)積;5B)將該積的平方加到一個(gè)先前混合得分上,以產(chǎn)生一個(gè)當(dāng)前混合得分;和5C)對(duì)每個(gè)隱藏馬爾科夫模型重復(fù)步驟5A和5B,以提供多個(gè)當(dāng)前混合得分。
6.一種優(yōu)化輸入語(yǔ)音信號(hào)的隱藏馬爾科夫模型識(shí)別的裝置,所述輸入語(yǔ)音信號(hào)與多個(gè)幀特征矢量相對(duì)應(yīng),其特征在于,該裝置包括A)一個(gè)可操作連接,以接收多個(gè)預(yù)定的隱藏馬爾科夫模型的存儲(chǔ)單元;B)可操作連接以接收多個(gè)幀特征矢量和與該存儲(chǔ)單元可操作連接的一個(gè)解碼器,用于為每個(gè)幀特征矢量確定多個(gè)當(dāng)前最大似然得分,其中每一個(gè)得分都與該多個(gè)預(yù)定的隱藏馬爾科夫模型中的一個(gè)不同隱藏馬爾科夫模型相對(duì)應(yīng);C)與該解碼器可操作連接的一個(gè)路徑得分確定器,用于為每個(gè)幀特征矢量計(jì)算多個(gè)當(dāng)前路徑得分,每個(gè)當(dāng)前路徑得分與多個(gè)預(yù)定隱藏馬爾科夫模型中一個(gè)不同隱藏馬爾科夫模型相對(duì)應(yīng),其中路徑得分確定作為時(shí)間函數(shù)的最大似然得分中的變量的量;D)與該路徑得分確定器和解碼器可操作連接的一個(gè)混合得分確定器,用于為每個(gè)幀特征矢量計(jì)算多個(gè)當(dāng)前混合得分,每個(gè)當(dāng)前混合得分與多個(gè)預(yù)定隱藏馬爾科夫模型中一個(gè)不同隱藏馬爾科夫模型相對(duì)應(yīng),其中每個(gè)混合得分是最大似然得分與每個(gè)模型的路徑得分的組合;E)與該混合得分確定器可操作連接的一個(gè)模型選擇器,用于為多個(gè)幀特征矢量選擇一個(gè)具有最低當(dāng)前混合得分的隱藏馬爾科夫模型。
7.根據(jù)權(quán)利要求6的裝置,其特征在于,該解碼器是一個(gè)維特比解碼器。
8.根據(jù)權(quán)利要求6的裝置,其特征在于,該路徑得分確定器包括多個(gè)路徑子電路,每個(gè)隱藏馬爾科夫模型應(yīng)用一個(gè)子電路,其中路徑子電路包含A)一個(gè)減法電路與該解碼器可操作連接,用于計(jì)算當(dāng)前最大似然得分與緊前一個(gè)最大似然得分之間的差;B)一個(gè)求平方電路與該減法電路可操作連接,用于計(jì)算平方差;和C)一個(gè)求和電路與該求平方電路可操作連接,用于將該平方差加到一個(gè)先前路徑得分中,以提供一個(gè)當(dāng)前路徑得分;和當(dāng)被進(jìn)一步選擇時(shí),D)其中所述裝置還包括一個(gè)規(guī)一化電路,與多個(gè)路徑子電路可操作連接,用于通過(guò)從每個(gè)當(dāng)前路徑得分中減去該最小路徑得分對(duì)該多個(gè)當(dāng)前路徑得分規(guī)一化。
9.根據(jù)權(quán)利要求6的裝置,其特征在于,該混合得分確定器包括多個(gè)混合子電路,每個(gè)隱藏馬爾科夫模型一個(gè)子電路,其中一個(gè)混合子電路包括A)與該解碼器和路徑得分確定器可操作連接的一個(gè)乘法器,利用一個(gè)當(dāng)前最大似然得分乘以一個(gè)當(dāng)前路徑得分,產(chǎn)生一個(gè)積;和B)與乘法器可操作連接的一個(gè)求平方電路,用于提供一個(gè)平方積;和C)與該求平方電路可操作連接的一個(gè)求和電路,用于將該平方積加到一個(gè)先前混合得分中,以提供一個(gè)當(dāng)前混合得分。
10.一種包括優(yōu)化輸入語(yǔ)音信號(hào)的隱藏馬爾科夫模型識(shí)別的裝置的無(wú)線電設(shè)備,所述輸入語(yǔ)音信號(hào)與多個(gè)幀特征矢量相對(duì)應(yīng),其特征在于,所述裝置包括A)一個(gè)存儲(chǔ)單元可操作連接,以接收多個(gè)預(yù)定的隱藏馬爾科夫模型;B)一個(gè)解碼器可操作連接以接收多個(gè)幀特征矢量和與該存儲(chǔ)單元可操作連接,用于為每個(gè)幀特征矢量確定多個(gè)當(dāng)前最大似然得分,其中每一個(gè)得分都與該多個(gè)預(yù)定的隱藏馬爾科夫模型中的一個(gè)不同隱藏馬爾科夫模型相對(duì)應(yīng);C)一個(gè)路徑得分確定器,與該解碼器可操作連接,用于為每個(gè)幀特征矢量計(jì)算多個(gè)當(dāng)前路徑得分,每個(gè)當(dāng)前路徑得分與多個(gè)預(yù)定隱藏馬爾科夫模型中一個(gè)不同隱藏馬爾科夫模型相對(duì)應(yīng),其中路徑得分確定作為時(shí)間函數(shù)的最大似然得分中的變量的量;D)一個(gè)混合得分確定器,與該路徑得分確定器可操作連接,用于為每個(gè)幀特征矢量計(jì)算多個(gè)當(dāng)前混合得分,每個(gè)當(dāng)前混合得分與多個(gè)預(yù)定隱藏馬爾科夫模型中一個(gè)不同隱藏馬爾科夫模型相對(duì)應(yīng),其中每個(gè)混合得分是最大似然得分與每個(gè)模型的路徑得分的組合;E)一個(gè)模型選擇器,與該混合得分確定器可操作連接,用于為多個(gè)幀特征矢量選擇一個(gè)具有最低當(dāng)前混合得分的隱藏馬爾科夫模型。
全文摘要
在基于統(tǒng)計(jì)的語(yǔ)音識(shí)別系統(tǒng)中,關(guān)鍵問(wèn)題之一是選擇與一個(gè)給定的特征觀測(cè)值序列最佳匹配的隱藏馬爾科夫模型。該問(wèn)題一般是通過(guò)利用維特比或其他解碼器進(jìn)行最大似然(ML)、狀態(tài)序列的計(jì)算來(lái)尋址的。噪聲或不適當(dāng)?shù)挠?xùn)練可產(chǎn)生與隱藏馬爾科夫模型而不是正確的模型相關(guān)聯(lián)的ML序列。本發(fā)明的方法通過(guò)將標(biāo)準(zhǔn)ML狀態(tài)序列得分(416)與從作為時(shí)間函數(shù)的ML得分的動(dòng)態(tài)特性中獲得的一個(gè)附加路徑得分(418)相組合提供了改進(jìn)的耐久性。當(dāng)組合時(shí),所述的兩個(gè)得分形成了一個(gè)混合量度(420),當(dāng)由該解碼器使用時(shí),該量度優(yōu)化正確隱藏馬爾科夫模型的選擇。
文檔編號(hào)G10L15/00GK1150490SQ96190239
公開(kāi)日1997年5月21日 申請(qǐng)日期1996年1月29日 優(yōu)先權(quán)日1995年3月29日
發(fā)明者威廉姆·M·庫(kù)西諾, 埃德沃德·斯萊格, 馬修·A·哈特曼 申請(qǐng)人:摩托羅拉公司