專利名稱:基于高斯相似度分析的說(shuō)話人自適應(yīng)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種語(yǔ)音識(shí)別技術(shù)領(lǐng)域中的說(shuō)話人自適應(yīng)方法,尤其涉及一種對(duì)協(xié)方差陣的說(shuō)話人自適應(yīng)方法。
背景技術(shù):
我們知道,不同的人不僅發(fā)聲器官本身,如聲帶的形狀、聲道的長(zhǎng)度、鼻腔口腔的大小都存在很大的差異;而且每個(gè)人發(fā)聲的習(xí)慣也不同,如口音、語(yǔ)速、響度都有差別,這些都導(dǎo)致了不同說(shuō)話人的聲音特性差異很大。因此,非特定人語(yǔ)音識(shí)別相對(duì)于特定人的難度要大得多,一般認(rèn)為對(duì)于相同規(guī)模的識(shí)別任務(wù),非特定人系統(tǒng)的誤識(shí)率是特定人系統(tǒng)的3至5倍。但由于非特定人識(shí)別有著更廣闊的應(yīng)用前景,非特定人、大詞匯量、連續(xù)語(yǔ)音識(shí)別技術(shù)自九十年代以來(lái)已經(jīng)成為語(yǔ)音識(shí)別研究的主流。
對(duì)于某一個(gè)特定說(shuō)話人的語(yǔ)音信號(hào)進(jìn)行識(shí)別時(shí),如果使用他的特定人(SDSpeaker Dependent)模型,由于模型參數(shù)完全由他本人的語(yǔ)音數(shù)據(jù)訓(xùn)練得到,能比較精確地描述他的聲音特性,顯然比使用非特定人(SISpeakerIndependent)模型的效果要好得多。在非特定人模型的基礎(chǔ)上,利用說(shuō)話人提供的少量語(yǔ)音數(shù)據(jù)重新估計(jì)一個(gè)新的自適應(yīng)(SASpeaker Adaptation)模型,這一模型重估的過(guò)程就稱為說(shuō)話人自適應(yīng)(如圖1所示),得到SA模型后,系統(tǒng)將通過(guò)它來(lái)識(shí)別該說(shuō)話人的其它語(yǔ)音信號(hào),這樣的系統(tǒng)稱為說(shuō)話人自適應(yīng)系統(tǒng)(圖2所示)。由于加入了當(dāng)前說(shuō)話人的信息,這個(gè)模型對(duì)于此說(shuō)話人的識(shí)別精度會(huì)明顯好于非特定人模型。由于這一方法能夠顯著提高非特定人系統(tǒng)的識(shí)別性能,所以在實(shí)際系統(tǒng)中得到了廣泛的應(yīng)用。
說(shuō)話人自適應(yīng)根據(jù)實(shí)現(xiàn)方式可以分為有監(jiān)督和無(wú)監(jiān)督兩種。有監(jiān)督自適應(yīng),是指使用者提供的自適應(yīng)數(shù)據(jù)的具體內(nèi)容是系統(tǒng)給定的,這種方式可以在使用者只提供很少量數(shù)據(jù)的情況下就使識(shí)別性能得到明顯提升。無(wú)監(jiān)督自適應(yīng),是指系統(tǒng)對(duì)使用者所說(shuō)內(nèi)容并無(wú)先驗(yàn)知識(shí),必須先進(jìn)行識(shí)別再利用識(shí)別結(jié)果進(jìn)行自適應(yīng)。由于識(shí)別結(jié)果中必然會(huì)包含一定數(shù)量的錯(cuò)誤,這使得系統(tǒng)性能的提升需要更多的語(yǔ)音數(shù)據(jù),并且用于自適應(yīng)的識(shí)別結(jié)果必須達(dá)到一定的正確率才能保證系統(tǒng)的識(shí)別性能是不斷提高的,所以往往需要引入置信度對(duì)識(shí)別結(jié)果進(jìn)行有選擇地使用。但這種方式的好處是,自適應(yīng)過(guò)程對(duì)于用戶來(lái)說(shuō)是透明的,用戶在使用中不會(huì)感到有額外的負(fù)擔(dān),并且在不斷使用的過(guò)程中,系統(tǒng)性能就會(huì)得到持續(xù)的提升。
常用的說(shuō)話人自適應(yīng)方法主要有以下幾類最大后驗(yàn)概率算法(MAPMaximum a posterior)。這種算法利用模型參數(shù)的先驗(yàn)概率,根據(jù)最大后驗(yàn)概率準(zhǔn)則重新估計(jì)模型參數(shù)。因?yàn)榇怂惴ㄖ忻恳荒P蛥?shù)都是獨(dú)立重估的,所以需要的自適應(yīng)數(shù)據(jù)量和計(jì)算量都很大。如果自適應(yīng)數(shù)據(jù)足夠,其性能接近于特定人模型的性能。
基于變換的自適應(yīng)算法,如最大似然線性回歸算法(MLLRMaximumLikelihood Linear Regression)。這種方法假設(shè)自適應(yīng)模型可以由非特定人模型通過(guò)一個(gè)或一組線性變換得到。因此在自適應(yīng)過(guò)程中,只需由說(shuō)話人的自適應(yīng)數(shù)據(jù)估計(jì)出這些線性變換,就可以很容易地從非特定人模型得到自適應(yīng)模型。MLLR的方法對(duì)自適應(yīng)數(shù)據(jù)量的要求較少,比較容易實(shí)現(xiàn)快速自適應(yīng),也是目前應(yīng)用最多的自適應(yīng)方法之一。
最大似然模型插值算法(MLMIMaximum Likelihood ModelInterpolation)。這種算法認(rèn)為模型空間中存在線性相關(guān)結(jié)構(gòu)。如果已知一組有代表性的特定人模型,其他人的模型就可以由這一組模型線性表出。這種方法試圖通過(guò)自適應(yīng)數(shù)據(jù)來(lái)估計(jì)一組線性表出系數(shù),從而由這些系數(shù)和特定人模型得到說(shuō)話人的自適應(yīng)模型。MLMI方法提供了一種快速自適應(yīng)的方法。由于對(duì)每個(gè)說(shuō)話人只需估計(jì)出一組線性表出系數(shù),所以對(duì)自適應(yīng)數(shù)據(jù)量的要求非常低,一般有幾句話,甚至一二句話就已經(jīng)足夠。
綜合分析不同的自適應(yīng)方法,我們可以發(fā)現(xiàn)算法的性能、需要的自適應(yīng)數(shù)據(jù)量以及自適應(yīng)速度之間存在著相互制約的關(guān)系。如果一個(gè)算法作出的假設(shè)越少,比如最大后驗(yàn)概率算法(MAP),其做法就越接近于訓(xùn)練時(shí)進(jìn)行的模型參數(shù)估計(jì),那么對(duì)自適應(yīng)數(shù)據(jù)的需求量就會(huì)越大,同時(shí)自適應(yīng)速度也會(huì)比較慢。而MLLR和MLMI的方法就對(duì)語(yǔ)音信號(hào)作出了較多的假設(shè),比如MLLR的假設(shè)是不同的語(yǔ)音單元可以共享一個(gè)或幾個(gè)線性變換,從而使說(shuō)話人自適應(yīng)簡(jiǎn)化成為對(duì)幾個(gè)線性變換的估計(jì)。MLMI假設(shè)某一說(shuō)話人的模型可以由一組具代表性的特定人模型線性表出,自適應(yīng)就更簡(jiǎn)化成為對(duì)一組線性表出系數(shù)的估計(jì)。作出的假設(shè)越強(qiáng),等于利用了更多的先驗(yàn)知識(shí),參數(shù)自由度也隨之減少。因此對(duì)自適應(yīng)數(shù)據(jù)量的要求就越低,自適應(yīng)的速度也就越快。所以,通過(guò)對(duì)語(yǔ)音信號(hào)或其特征空間結(jié)構(gòu)的合理分析可以提高自適應(yīng)算法的效率。比如,有一些結(jié)構(gòu)化的方法被用來(lái)改進(jìn)MAP算法(Structured MAP)。
但是,這種由假設(shè)而得到的先驗(yàn)知識(shí),如果與實(shí)際情況有較大偏差就會(huì)造成自適應(yīng)的效果不佳。同時(shí)由于參數(shù)估計(jì)的自由度變小,精確描述模型的能力有所下降,自適應(yīng)算法的性能也會(huì)很快趨于飽和。這時(shí)即使數(shù)據(jù)量再增加,也無(wú)法使系統(tǒng)的識(shí)別性能得到更多的提高。
現(xiàn)有的自適應(yīng)方法有一個(gè)共同的特點(diǎn),就是它們主要都是針對(duì)狀態(tài)觀測(cè)概率分布的均值進(jìn)行的,而很少考慮到協(xié)方差陣的自適應(yīng),其主要原因是,協(xié)方差陣具有比均值多得多的參數(shù),這就要求大量的自適應(yīng)數(shù)據(jù),然而這對(duì)于說(shuō)話人自適應(yīng)來(lái)說(shuō)是很難得到的。上文我們已經(jīng)提到,如果要在數(shù)據(jù)量較少的情況下實(shí)現(xiàn)自適應(yīng),必須利用更多的先驗(yàn)知識(shí),因此如何描述特征空間中狀態(tài)觀測(cè)概率分布之間的關(guān)系成為我們需要面對(duì)的問(wèn)題。
發(fā)明內(nèi)容
本發(fā)明的目的在于提出了一種快速協(xié)方差陣自適應(yīng)方法,以在數(shù)據(jù)量較少的情況下實(shí)現(xiàn)說(shuō)話人自適應(yīng),并且能夠提高自適應(yīng)效果。
為達(dá)到上述目的,本發(fā)明是這樣實(shí)現(xiàn)的本發(fā)明包括一個(gè)自適應(yīng)前非特定人隱含馬爾可夫模型的訓(xùn)練步驟;一個(gè)自適應(yīng)前由所說(shuō)的非特定人隱含馬爾可夫模型參數(shù),根據(jù)高斯相似測(cè)度建立起了描述隱含馬爾可夫模型狀態(tài)觀測(cè)概率在特征空間分布形狀關(guān)系的二叉決策樹(shù)的步驟;一個(gè)建立二叉決策樹(shù)的同時(shí)計(jì)算二叉決策樹(shù)每個(gè)中間節(jié)點(diǎn)的類中心協(xié)方差矩陣及其與對(duì)應(yīng)的各葉子節(jié)點(diǎn)協(xié)方差矩陣間的變換關(guān)系陣的步驟;一個(gè)自適應(yīng)時(shí)根據(jù)測(cè)試者提供的自適應(yīng)數(shù)據(jù)決定自適應(yīng)狀態(tài)類的步驟;一個(gè)對(duì)每個(gè)自適應(yīng)狀態(tài)類根據(jù)自適應(yīng)數(shù)據(jù)用最大似然方法估計(jì)類中心矩陣的步驟;一個(gè)對(duì)每個(gè)自適應(yīng)狀態(tài)類用上述變換關(guān)系陣和類中心矩陣的最大似然估計(jì),計(jì)算自適應(yīng)后的類中心協(xié)方差矩陣的步驟;一個(gè)更新每個(gè)自適應(yīng)狀態(tài)類的協(xié)方差矩陣,得到說(shuō)話人自適應(yīng)模型的步驟。
所述的自適應(yīng)前建立該非特定人隱含馬爾可夫模型狀態(tài)協(xié)方差矩陣的二叉決策樹(shù)的步驟為先將該非特定人模型的所有狀態(tài)對(duì)應(yīng)的協(xié)方差矩陣放入根節(jié)點(diǎn),計(jì)算根節(jié)點(diǎn)的中心矩陣,接著用K均值算法將根節(jié)點(diǎn)中所包含的狀態(tài)分成兩部分,分別放入兩個(gè)子節(jié)點(diǎn)中,然后對(duì)每個(gè)子節(jié)點(diǎn)重復(fù)分裂過(guò)程,如果當(dāng)前節(jié)點(diǎn)中的狀態(tài)數(shù)已經(jīng)不夠分解或低于預(yù)先設(shè)定的門(mén)限時(shí)就將此節(jié)點(diǎn)作為葉子節(jié)點(diǎn),否則重復(fù)上述分裂過(guò)程直至得到所有的葉子節(jié)點(diǎn),一個(gè)葉子節(jié)點(diǎn)對(duì)應(yīng)一個(gè)協(xié)方差矩陣。
所述的自適應(yīng)時(shí)根據(jù)測(cè)試者提供的自適應(yīng)數(shù)據(jù)決定自適應(yīng)狀態(tài)類的步驟為先根據(jù)自適應(yīng)數(shù)據(jù)統(tǒng)計(jì)每個(gè)葉子節(jié)點(diǎn)的語(yǔ)音樣本數(shù)目,如果數(shù)目少于事先確定的門(mén)限值,則上溯到其父節(jié)點(diǎn),再統(tǒng)計(jì)父節(jié)點(diǎn)所有的語(yǔ)音樣本數(shù),如大于門(mén)限則停止,否則繼續(xù),直至對(duì)所有的葉子節(jié)點(diǎn)回溯停止,此時(shí)我們得到了適用于這批自適應(yīng)數(shù)據(jù)的狀態(tài)類。
本發(fā)明屬于基于變換的自適應(yīng)方法,其基本思想是一組較相似的協(xié)方差矩陣無(wú)論在自適應(yīng)前還是自適應(yīng)后,它們的相似關(guān)系不變,因此它們?cè)谧赃m應(yīng)時(shí)共享相同的變換方程,而這組協(xié)方差矩陣是由二叉決策樹(shù)動(dòng)態(tài)確定的。在本發(fā)明中,提出了度量?jī)蓚€(gè)高斯隨機(jī)矢量相似程度的一種測(cè)度,這種測(cè)度相比于以往僅用均值間的距離來(lái)度量隨機(jī)矢量之間的相似程度的做法有了質(zhì)的提高。首先,本發(fā)明主要針對(duì)協(xié)方差陣進(jìn)行了自適應(yīng),而且還可以同時(shí)利用其它方法如經(jīng)典的MLLR算法進(jìn)行均值自適應(yīng),所以本發(fā)明提供了利用少量數(shù)據(jù)進(jìn)行協(xié)方差陣自適應(yīng)的一種有效方法,使系統(tǒng)在均值自適應(yīng)的基礎(chǔ)上識(shí)別精度大大提高,自適應(yīng)效果比較顯著;其次,本發(fā)明能夠根據(jù)所具備的自適應(yīng)數(shù)據(jù)量,動(dòng)態(tài)地選擇具體的自適應(yīng)方案,從而最大限度地利用自適應(yīng)數(shù)據(jù),達(dá)到較好的自適應(yīng)效果,而且隨著自適應(yīng)數(shù)據(jù)量的不斷增加,自適應(yīng)效果會(huì)不斷提高,自適應(yīng)模型的識(shí)別性能最終可以逼近特定人模型的效果,從而實(shí)現(xiàn)從自適應(yīng)模型到特定人模型的平滑連接;此外,本發(fā)明在有監(jiān)督自適應(yīng)和無(wú)監(jiān)督自適應(yīng)中都能很容易地得到應(yīng)用;最后,本發(fā)明主要的計(jì)算量在于建立二叉決策樹(shù),但可以離線完成,因而在線自適應(yīng)的計(jì)算量不大。
圖1為模型自適應(yīng)方法的流程示意圖;圖2為經(jīng)過(guò)模型自適應(yīng)后的語(yǔ)音識(shí)別系統(tǒng)的工作流程圖;圖3為本發(fā)明實(shí)施例建立二叉決策樹(shù)的工作流程圖;圖4為圖3所示K均值方法分裂節(jié)點(diǎn)的工作流程圖;圖5為本發(fā)明實(shí)施例在協(xié)方差自適應(yīng)時(shí)的工作流程圖。
具體實(shí)施例方式
以下結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明做進(jìn)一步的闡述假設(shè)中間節(jié)點(diǎn)的類中心協(xié)方差矩陣為CΦ,其中Φ表示該中間節(jié)點(diǎn)對(duì)應(yīng)的葉子節(jié)點(diǎn)集合,自適應(yīng)前,訓(xùn)練一個(gè)非特定人隱含馬爾可夫模型(以下簡(jiǎn)稱SI模型),可以先采用最大似然線性回歸算法(MLLR)的方法,對(duì)SI模型進(jìn)行均值自適應(yīng),當(dāng)然,也可以采取其它自適應(yīng)算法來(lái)得到自適應(yīng)均值模型,接著利用該均值模型對(duì)自適應(yīng)數(shù)據(jù)采用Viterbi算法重新進(jìn)行分割,根據(jù)分割結(jié)果得到每一幀語(yǔ)音各自應(yīng)歸屬于哪個(gè)HMM狀態(tài)的信息,然后再對(duì)該均值模型進(jìn)行本發(fā)明的協(xié)方差自適應(yīng)。
開(kāi)始本發(fā)明的自適應(yīng)前,首先以式(3)為協(xié)方差矩陣間的距離測(cè)度(即高斯相似度),采用自頂向下的K均值方法建立一棵HMM狀態(tài)協(xié)方差矩陣的二叉決策樹(shù),并計(jì)算各狀態(tài)與類中心協(xié)方差矩陣間的變換關(guān)系A(chǔ)i,Φ,如圖3所示,先將待適應(yīng)模型的所有狀態(tài)對(duì)應(yīng)的協(xié)方差矩陣放入根節(jié)點(diǎn),依據(jù)公式(1)計(jì)算該節(jié)點(diǎn)的中心矩陣CΦ,接著用K均值算法將根節(jié)點(diǎn)分成兩個(gè)子節(jié)點(diǎn),重復(fù)分裂過(guò)程,如果當(dāng)前節(jié)點(diǎn)中的狀態(tài)數(shù)已經(jīng)不夠分解或低于預(yù)先設(shè)定的門(mén)限時(shí)就將此節(jié)點(diǎn)作為葉子節(jié)點(diǎn),否則重復(fù)上述分裂過(guò)程直至得到所有的葉子節(jié)點(diǎn),一個(gè)葉子節(jié)點(diǎn)對(duì)應(yīng)一個(gè)協(xié)方差矩陣,最后根據(jù)公式(2)計(jì)算類中心矩陣CΦ與對(duì)應(yīng)的各葉子節(jié)點(diǎn)協(xié)方差矩陣間的變換關(guān)系陣Ai,Φ。
CΦ=Σi∈Φ(Σi1/2NΦ),]]>其中NΦ是集合Φ中葉子節(jié)點(diǎn)的個(gè)數(shù)(1)Ai,Φ=Σi1/2[Σi1/2CΦΣI1/2]1/2ΣI-1/2---i∈Φ---(2)]]>d(x,y)=tr(Σx+Σy-2[Σx1/2ΣyΣx1/2]1/2)---(3)]]>K均值方法的描述如下空間中有n個(gè)點(diǎn)X1,X2…Xn,給定類的個(gè)數(shù)K(本發(fā)明中K=2),設(shè)這些類為C1,C2…CK,將n個(gè)點(diǎn)分到K個(gè)類中去,使得類內(nèi)對(duì)象之間的相似性最大,而類之間的相似性最小。如圖4,其步驟是1、先選取K個(gè)初始類中心,記為C1,C2…CK;2、根據(jù)函數(shù)(3)分別計(jì)算每個(gè)點(diǎn)到這些類中心的距離d(Xi,cj),尋找距離最小的類中心cl,即d(Xi,cl)≤d(Xi,cj),j∈1,2,…K,j≠l,1≤l≤K,則認(rèn)為Xi∈Cl,即Xi是屬于l類的點(diǎn),如此,確定所有點(diǎn)的歸屬;
3、計(jì)算總的距離測(cè)度D=Σi,jn,mmin1≤j≤Kd(Xi,cj);]]>4、根據(jù)分類的結(jié)果,利用每類的點(diǎn)重新計(jì)算類中心。
5、利用新的類中心,再計(jì)算空間各點(diǎn)的歸屬,并計(jì)算得到更新的總距離測(cè)度Dnew;6、比較兩次得到的總距離測(cè)度,如果差別足夠小,則停止迭代,得到最后的分類方式和類中心,否則繼續(xù)迭代,重復(fù)2-5步。
這樣,我們就由待自適應(yīng)的HMM模型參數(shù),根據(jù)高斯相似測(cè)度建立起了描述HMM狀態(tài)觀測(cè)概率在特征空間分布形狀關(guān)系的二叉決策樹(shù),該決策樹(shù)上的每個(gè)節(jié)點(diǎn)所包括的狀態(tài)是在高斯相似度意義下觀測(cè)概率分布之間距離較小的狀態(tài),即這些分布在特征空間的分布形狀上比較相似,而類中心的物理意義是,如果對(duì)這一類中的高斯分布進(jìn)行共享,認(rèn)為屬于這些分布的樣本同屬于一個(gè)高斯分布,即簡(jiǎn)化為一個(gè)代表類中心的高斯隨機(jī)矢量。這棵二叉樹(shù)實(shí)際上就是狀態(tài)觀測(cè)概率分布在特征空間的一種結(jié)構(gòu)性描述。
自適應(yīng)時(shí),如圖5所示,首先根據(jù)測(cè)試者提供的自適應(yīng)數(shù)據(jù)決定應(yīng)當(dāng)進(jìn)行自適應(yīng)的狀態(tài)類,方法是先根據(jù)自適應(yīng)數(shù)據(jù)統(tǒng)計(jì)每個(gè)葉子節(jié)點(diǎn)的語(yǔ)音樣本數(shù)目,如果數(shù)目少于事先確定的門(mén)限值,則上溯到其父節(jié)點(diǎn),再統(tǒng)計(jì)父節(jié)點(diǎn)所有的語(yǔ)音樣本數(shù),如大于門(mén)限則停止,否則繼續(xù),直至對(duì)所有的葉子節(jié)點(diǎn)回溯停止,此時(shí)我們得到了適用于這批自適應(yīng)數(shù)據(jù)的狀態(tài)類。這種由自適應(yīng)數(shù)據(jù)來(lái)動(dòng)態(tài)選擇狀態(tài)類的方法,稱之為數(shù)據(jù)驅(qū)動(dòng)。上述門(mén)限的選擇對(duì)于從有限的自適應(yīng)數(shù)據(jù)中得到最好的自適應(yīng)效果是至關(guān)重要的,由于自適應(yīng)數(shù)據(jù)是有限的,所以如果門(mén)限較小,狀態(tài)類中就可能沒(méi)有足夠多的數(shù)據(jù)來(lái)進(jìn)行類中心的估計(jì),使估計(jì)出來(lái)的協(xié)方差陣不穩(wěn)定,從而影響自適應(yīng)的效果。如果門(mén)限太大,確定的狀態(tài)類為數(shù)過(guò)少,會(huì)使對(duì)狀態(tài)觀測(cè)概率分布在特征空間結(jié)構(gòu)關(guān)系的描述太過(guò)于粗糙,也難以收到很好的自適應(yīng)效果。實(shí)驗(yàn)表明,在自適應(yīng)數(shù)據(jù)十分有限的情況下,語(yǔ)音樣本門(mén)限取在350至450之間是比較合適的。當(dāng)然,自適應(yīng)數(shù)據(jù)的增加對(duì)于自適應(yīng)效果是會(huì)有好處的,最極端的情況是狀態(tài)類的數(shù)目等于狀態(tài)數(shù),即每個(gè)狀態(tài)類中只有一個(gè)狀態(tài),同時(shí)每個(gè)狀態(tài)都有足夠的數(shù)據(jù)來(lái)進(jìn)行參數(shù)估計(jì),這種情況就已經(jīng)等同于特定人的協(xié)方差陣模型訓(xùn)練了,當(dāng)然,如此多的語(yǔ)音數(shù)據(jù)只有在無(wú)監(jiān)督的累進(jìn)自適應(yīng)時(shí)才可能出現(xiàn)。這也說(shuō)明,本發(fā)明的極限性能是能夠趨于特定人模型的性能的。
然后對(duì)于每個(gè)自適應(yīng)類根據(jù)自適應(yīng)數(shù)據(jù)和最大似然方法估計(jì)得到類中心矩陣
具體方法描述如下假設(shè)二叉決策樹(shù)中某節(jié)點(diǎn)包含的葉子節(jié)點(diǎn)(即HMM狀態(tài))為s1,s2,...,sn,每個(gè)狀態(tài)根據(jù)相應(yīng)的自適應(yīng)數(shù)據(jù),按式(4)統(tǒng)計(jì)二階統(tǒng)計(jì)量C(si)C(si)=Σt=1T(si)(ot-μsi)(ot-μsi)T---(4)]]>其中T(si)是狀態(tài)si對(duì)應(yīng)的自適應(yīng)總幀數(shù)。
再根據(jù)式(5)將各狀態(tài)的統(tǒng)計(jì)二階統(tǒng)計(jì)量變換到中間節(jié)點(diǎn)對(duì)應(yīng)的空間中,并得到最大似然估計(jì)C~Φ=1Σi∈ΦT(si)Σi∈Φ(Ai,Φ)-1C(si)(Ai,Φ)-1---(5)]]>將
代入公式(6)得到自適應(yīng)的協(xié)方差矩陣,并更新該自適應(yīng)類包含的葉子節(jié)點(diǎn)的協(xié)方差矩陣,得到均值和協(xié)方差都經(jīng)過(guò)自適應(yīng)的說(shuō)話人自適應(yīng)(SA)模型。
Σi(SA)=Ai,ΦC~ΦAi,Φ---i∈Φ---(6)]]>表1同時(shí)給出非特定人模型、采用MLLR方法進(jìn)行均值自適應(yīng)和在此基礎(chǔ)上采用本發(fā)明實(shí)施例進(jìn)行協(xié)方差陣自適應(yīng)的實(shí)驗(yàn)結(jié)果,表中數(shù)據(jù)都是聲學(xué)層識(shí)別結(jié)果的首選誤識(shí)率。其中,訓(xùn)練集為863DB_Batch12_M中的70人,測(cè)試集為863DB_Batch12_M中剩下的12人,測(cè)試文件的前100句用于自適應(yīng),最后約250句用于測(cè)試。
表1 實(shí)驗(yàn)結(jié)果數(shù)據(jù)
從上表中,我們可以看到不同自適應(yīng)方案的效果比較。采用MLLR進(jìn)行均值自適應(yīng)后,平均誤識(shí)率比非特定人模型的結(jié)果相對(duì)下降了23.39%;采用本發(fā)明的實(shí)施例進(jìn)行協(xié)方差陣自適應(yīng)后,平均誤識(shí)率相比均值自適應(yīng)的結(jié)果又下降了12.69%,相比于非特定人模型的情況則下降了33.11%。此方法僅僅使用說(shuō)話人提供的100句,約5分鐘的語(yǔ)音數(shù)據(jù)就實(shí)現(xiàn)了對(duì)協(xié)方差陣的自適應(yīng),并使系統(tǒng)的識(shí)別性能有了顯著提高。
權(quán)利要求
1.一種基于高斯相似度分析的說(shuō)話人自適應(yīng)方法,包括一個(gè)自適應(yīng)前非特定人隱含馬爾可夫模型的訓(xùn)練步驟,其特征在于所述的方法還包括一個(gè)自適應(yīng)前由所說(shuō)的非特定人隱含馬爾可夫模型參數(shù),根據(jù)高斯相似測(cè)度建立起了描述隱含馬爾可夫模型狀態(tài)觀測(cè)概率在特征空間分布形狀關(guān)系的二叉決策樹(shù)的步驟;一個(gè)建立二叉決策樹(shù)的同時(shí)計(jì)算二叉決策樹(shù)每個(gè)中間節(jié)點(diǎn)的類中心協(xié)方差矩陣及其與對(duì)應(yīng)的各葉子節(jié)點(diǎn)協(xié)方差矩陣間的變換關(guān)系陣的步驟;一個(gè)自適應(yīng)時(shí)根據(jù)測(cè)試者提供的自適應(yīng)數(shù)據(jù)決定自適應(yīng)狀態(tài)類的步驟;一個(gè)對(duì)每個(gè)自適應(yīng)狀態(tài)類根據(jù)自適應(yīng)數(shù)據(jù)用最大似然方法估計(jì)類中心矩陣的步驟;一個(gè)對(duì)每個(gè)自適應(yīng)狀態(tài)類用上述變換關(guān)系陣和類中心矩陣的最大似然估計(jì),計(jì)算自適應(yīng)后的類中心協(xié)方差矩陣的步驟;一個(gè)更新每個(gè)自適應(yīng)狀態(tài)類的協(xié)方差矩陣,得到說(shuō)話人自適應(yīng)模型的步驟。
2.如權(quán)利要求1所述的基于高斯相似度分析的說(shuō)話人自適應(yīng)方法,其特征在于所述的建立二叉決策樹(shù)的步驟為先將該非特定人模型的所有狀態(tài)對(duì)應(yīng)的協(xié)方差矩陣放入根節(jié)點(diǎn),計(jì)算根節(jié)點(diǎn)的中心矩陣,接著用K均值算法將根節(jié)點(diǎn)中所包含的狀態(tài)分成兩部分,分別放入兩個(gè)子節(jié)點(diǎn)中,然后對(duì)每個(gè)子節(jié)點(diǎn)重復(fù)分裂過(guò)程,如果當(dāng)前節(jié)點(diǎn)中的狀態(tài)數(shù)已經(jīng)不夠分解或低于預(yù)先設(shè)定的門(mén)限時(shí)就將此節(jié)點(diǎn)作為葉子節(jié)點(diǎn),否則重復(fù)上述分裂過(guò)程直至得到所有的葉子節(jié)點(diǎn),一個(gè)葉子節(jié)點(diǎn)對(duì)應(yīng)一個(gè)協(xié)方差矩陣。
3.如權(quán)利要求1所述的基于高斯相似度分析的說(shuō)話人自適應(yīng)方法,其特征在于所述的自適應(yīng)時(shí)根據(jù)測(cè)試者提供的自適應(yīng)數(shù)據(jù)決定自適應(yīng)狀態(tài)類的步驟為先根據(jù)自適應(yīng)數(shù)據(jù)統(tǒng)計(jì)每個(gè)葉子節(jié)點(diǎn)的語(yǔ)音樣本數(shù)目,如果數(shù)目少于事先確定的門(mén)限值,則上溯到其父節(jié)點(diǎn),再統(tǒng)計(jì)父節(jié)點(diǎn)所有的語(yǔ)音樣本數(shù),如大于門(mén)限則停止,否則繼續(xù),直至對(duì)所有的葉子節(jié)點(diǎn)回溯停止,此時(shí)我們得到了適用于這批自適應(yīng)數(shù)據(jù)的狀態(tài)類。
全文摘要
本發(fā)明提供了一種基于高斯相似度分析的說(shuō)話人自適應(yīng)方法,包括一個(gè)自適應(yīng)前建立非特定人模型狀態(tài)協(xié)方差矩陣的二叉決策樹(shù)的步驟;一個(gè)建立計(jì)算二叉決策樹(shù)每個(gè)中間節(jié)點(diǎn)的類中心協(xié)方差矩陣及其與對(duì)應(yīng)的各葉子節(jié)點(diǎn)協(xié)方差矩陣間的變換關(guān)系陣的步驟;一個(gè)自適應(yīng)時(shí)根據(jù)測(cè)試者提供的自適應(yīng)數(shù)據(jù)決定自適應(yīng)狀態(tài)類的步驟;一個(gè)對(duì)每個(gè)自適應(yīng)狀態(tài)類用最大似然方法估計(jì)類中心矩陣的步驟;一個(gè)對(duì)每個(gè)自適應(yīng)狀態(tài)類計(jì)算自適應(yīng)后的類中心協(xié)方差矩陣的步驟;一個(gè)更新每個(gè)自適應(yīng)狀態(tài)類的協(xié)方差矩陣,得到說(shuō)話人自適應(yīng)模型的步驟。本發(fā)明能夠利用少量數(shù)據(jù)對(duì)協(xié)方差自適應(yīng),而且可以與均值自適應(yīng)方法同時(shí)使用,自適應(yīng)效果顯著。
文檔編號(hào)G10L15/00GK1521727SQ0310220
公開(kāi)日2004年8月18日 申請(qǐng)日期2003年1月27日 優(yōu)先權(quán)日2003年1月27日
發(fā)明者吳及, 王作英, 吳 及 申請(qǐng)人:北京天朗語(yǔ)音科技有限公司, 清華大學(xué)