專利名稱:用于緊湊聲學(xué)建模的泡分裂法的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語(yǔ)音識(shí)別,尤其涉及用于訓(xùn)練語(yǔ)音識(shí)別器中所用緊湊聲學(xué)模型的最優(yōu)化技術(shù)。
背景技術(shù):
越大詞匯表連續(xù)語(yǔ)音識(shí)別系統(tǒng)的應(yīng)用包括多媒體索引和呼叫中心自動(dòng)化。訓(xùn)練這樣的語(yǔ)音識(shí)別系統(tǒng)所采用的單個(gè)聲學(xué)模型需要一個(gè)超大型語(yǔ)音數(shù)據(jù)庫(kù)。該聲學(xué)模型通常是與說(shuō)話人無(wú)關(guān),與性別無(wú)關(guān)的。也就是說(shuō),訓(xùn)練該模型使用的數(shù)據(jù)來(lái)自于大量的不同說(shuō)話人,包含男性和女性。與說(shuō)話人無(wú)關(guān)的連續(xù)語(yǔ)音建模的主要困難在于語(yǔ)音信號(hào)的重要變化是由說(shuō)話人之間的易變性引起的,使得譜分布具有高于相應(yīng)的與說(shuō)話人有關(guān)的譜分布的方差。因此,不同語(yǔ)音單元之間的重疊導(dǎo)致弱的鑒別能力。
說(shuō)話人適應(yīng)訓(xùn)練是一種估計(jì)用于與說(shuō)話人無(wú)關(guān)的連續(xù)語(yǔ)音識(shí)別的連續(xù)密度隱式馬爾可夫模型(HMM)的參數(shù)的方法。其目的是減少說(shuō)話人之間的易變性以獲得增強(qiáng)的與說(shuō)話人無(wú)關(guān)的模型。通過(guò)減少說(shuō)話人之間的易變性,說(shuō)話人適應(yīng)得到的與說(shuō)話人無(wú)關(guān)的聲學(xué)模型可以看作是數(shù)據(jù)庫(kù)中的壓縮中心點(diǎn)。這種模型將是緊湊的,具有減少的方差,并且很適合于適應(yīng)。雖然這種構(gòu)造聲學(xué)模型的方法功能強(qiáng)大,但是通過(guò)極大規(guī)模的數(shù)據(jù)庫(kù)進(jìn)行說(shuō)話人適應(yīng)訓(xùn)練的性能會(huì)很快達(dá)到極限。直觀地說(shuō),要得到準(zhǔn)確地為整個(gè)數(shù)據(jù)庫(kù)建模的一個(gè)獨(dú)特的緊湊聲學(xué)模型是不可能的。
因此,希望提供一種改進(jìn)的技術(shù),構(gòu)建用于超大詞匯表連續(xù)語(yǔ)音識(shí)別系統(tǒng)的緊湊聲學(xué)模型。
發(fā)明內(nèi)容
本發(fā)明提出了一種構(gòu)造用于語(yǔ)音識(shí)別器的緊湊聲學(xué)模型的方法。該方法包括根據(jù)至少一種語(yǔ)音相關(guān)標(biāo)準(zhǔn)劃分來(lái)自多個(gè)說(shuō)話人的語(yǔ)音數(shù)據(jù);將劃分好的來(lái)自于具有相似語(yǔ)音特征的訓(xùn)練說(shuō)話人的語(yǔ)音數(shù)據(jù)組合在一起;使用每個(gè)組合中的語(yǔ)音數(shù)據(jù)為該組合訓(xùn)練一個(gè)聲學(xué)泡模型。每個(gè)聲學(xué)泡模型可以用各種規(guī)格化技術(shù)進(jìn)一步壓縮。
另一方面,本發(fā)明提出了一種定義用于語(yǔ)音處理的聲道長(zhǎng)度規(guī)格化變換的方法。該方法包括從一說(shuō)話人訓(xùn)練語(yǔ)音中提取第一組聲學(xué)矢量,該說(shuō)話人具有已知的聲道長(zhǎng)度;對(duì)語(yǔ)音功率譜的頻率軸進(jìn)行扭曲,從而定義表示不同聲道長(zhǎng)度的扭曲語(yǔ)音;從扭曲語(yǔ)音中提取第二組聲學(xué)矢量;采用最小二乘法估計(jì)第一和第二組聲學(xué)矢量的線性變換矩陣。
本發(fā)明的其它應(yīng)用領(lǐng)域在下面的詳細(xì)描述中將會(huì)變得清楚明白。應(yīng)該理解詳細(xì)描述和特定的實(shí)例指示了本發(fā)明的優(yōu)選實(shí)施例,其目的僅僅是為了說(shuō)明而不是限制本發(fā)明的范疇。
附圖簡(jiǎn)述
圖1示出了根據(jù)本發(fā)明構(gòu)造緊湊聲學(xué)模型的方法;圖2是描述根據(jù)本發(fā)明定義一個(gè)聲道長(zhǎng)度規(guī)格化變換方法的流程圖;圖3是得自無(wú)扭曲語(yǔ)音數(shù)據(jù)的一幀倒譜系數(shù)及其一階和二階導(dǎo)數(shù)的可視化圖形;圖4是示出根據(jù)本發(fā)明的最小二乘估計(jì)技術(shù)得到的一個(gè)示例結(jié)果變換矩陣的圖形;圖5示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的泡分裂過(guò)程;圖6A和6B分別是本發(fā)明的說(shuō)話人規(guī)格化訓(xùn)練技術(shù)的訓(xùn)練循環(huán)和解碼過(guò)程方框圖;圖7是包含本發(fā)明的說(shuō)話人規(guī)格化訓(xùn)練技術(shù)的語(yǔ)音訓(xùn)練過(guò)程的方框圖;
圖8是本發(fā)明的規(guī)格化說(shuō)話人適應(yīng)訓(xùn)練技術(shù)的訓(xùn)練循環(huán)的方框圖;以及圖9A-9C示出根據(jù)本發(fā)明的Q收斂估計(jì)技術(shù)。
具體實(shí)施例方式
圖1示出了根據(jù)本發(fā)明構(gòu)造緊湊聲學(xué)模型的一種方法。該技術(shù)的目的是通過(guò)對(duì)語(yǔ)音數(shù)據(jù)庫(kù)的易變性進(jìn)行更加有效地處理,優(yōu)化聲學(xué)模型的訓(xùn)練。這種處理的基本思想是分裂訓(xùn)練集以形成同類說(shuō)話人組合,然后用每一個(gè)組合中的語(yǔ)音數(shù)據(jù)訓(xùn)練用于該組合的一個(gè)泡聲學(xué)模型,從而獲得加性增益。
將一個(gè)相對(duì)較大的訓(xùn)練數(shù)據(jù)庫(kù)12作為構(gòu)造緊湊聲學(xué)模型的起點(diǎn)。如本領(lǐng)域中眾所周知,訓(xùn)練數(shù)據(jù)庫(kù)12包含的語(yǔ)音數(shù)據(jù)來(lái)自于多個(gè)訓(xùn)練說(shuō)話人。如在16所示,首先按照一維語(yǔ)音參數(shù)對(duì)訓(xùn)練數(shù)據(jù)庫(kù)中的語(yǔ)音數(shù)據(jù)進(jìn)行分裂或劃分。
為了補(bǔ)償說(shuō)話人之間的易變性,聲道長(zhǎng)度規(guī)格化(VTLN)在語(yǔ)音識(shí)別中得到了廣泛應(yīng)用。這里,聲道長(zhǎng)度是用于分裂訓(xùn)練數(shù)據(jù)庫(kù)的優(yōu)選語(yǔ)音標(biāo)準(zhǔn)。但是顯而易見,其它的語(yǔ)音相關(guān)標(biāo)準(zhǔn)也可以用于數(shù)據(jù)庫(kù)分裂。語(yǔ)音相關(guān)標(biāo)準(zhǔn)可以從包含(但不限于)環(huán)境相關(guān)標(biāo)準(zhǔn)(如背景噪聲)、說(shuō)話人相關(guān)標(biāo)準(zhǔn)(如說(shuō)話人的母語(yǔ)、方言、說(shuō)話人的年齡、性別)和語(yǔ)音輸入信道標(biāo)準(zhǔn)(如麥克風(fēng)的類型)的組及其組合中選取。
一般來(lái)說(shuō),聲道長(zhǎng)度規(guī)格化估計(jì)每位說(shuō)話人或說(shuō)話的聲道長(zhǎng)度比例因子(又稱扭曲(warping)因子),然后將語(yǔ)音信號(hào)規(guī)格化至平均聲道長(zhǎng)度,從而使參數(shù)化的語(yǔ)音與這種類型的說(shuō)話人之間的變化無(wú)關(guān)。具體地,聲道長(zhǎng)度規(guī)格化按照一個(gè)扭曲函數(shù)φα
→
, (1)ω→ω~=φα(ω)]]>對(duì)功率譜的頻率軸進(jìn)行扭曲,消除由每個(gè)說(shuō)話人的聲道長(zhǎng)度引起的說(shuō)話人之間的易變性。其中,φ是扭曲函數(shù),α是扭曲因子。
設(shè)定VTLN在倒譜域相當(dāng)于線性變換,為VTLN框架提出一種新方法。實(shí)際上,如果考慮倒譜系數(shù)Ck(k∈
),其中ω僅僅表示真實(shí)物理頻率的標(biāo)度,則與扭曲譜的第n個(gè)倒譜系數(shù) 之間存在線性關(guān)系,可以用下面的公式表示c~n(α)=Σk=0KAnk(α)ck,---(2)]]>和Ank(α)=2π∫0ncos(ω~n)cos(φα(-1)(ω~)k)dω~,---(3)]]>其中ω~=φα(ω)]]>。顯然,線性形式Ank(α)依賴于所選的扭曲函數(shù)和對(duì)于分段和雙線性情況提取封閉解。但是還已知,在頻率域,說(shuō)話人特定的Mel標(biāo)度要好于分段/雙線性扭曲VTLNMα(f)=1127log(1+f700α)---(4)]]>使得倒譜系數(shù)Ck和扭曲譜的倒譜系數(shù)之間存在線性變換,但不幸的是如果考慮Mel標(biāo)度則該等式?jīng)]有封閉解。但是如果將前面的等式作為扭曲函數(shù),可以直接得到下面的等式,該等式僅僅可以得到近似解或數(shù)值解。
Ank(α)=cste∫0Mα(π)cos{Mα(ω)n]cos(ωk)αα0=ωdω.---(5)]]>VTLN在倒譜域相當(dāng)于線性變換意味著整個(gè)框架可以用預(yù)定義數(shù)目的線性變換來(lái)代替。例如,我們采用15個(gè)線性變換對(duì)應(yīng)于按步長(zhǎng)0.02增長(zhǎng)的扭曲因子α∈
。因?yàn)椴捎肕el標(biāo)度沒(méi)有封閉線性解,我們可以估計(jì)解。在一個(gè)實(shí)施例中,特征空間包含39維的觀察矢量(即計(jì)算23個(gè)過(guò)濾器組系數(shù),并通過(guò)離散余弦變換和過(guò)濾導(dǎo)出13個(gè)倒譜系數(shù))。這些倒譜系數(shù)與其一階導(dǎo)數(shù)(x’(t))和二階導(dǎo)數(shù)(x”(t))組合以生成一個(gè)39維的矢量。如果 代表來(lái)自于伸長(zhǎng)或壓縮譜的矢量,o(t)代表當(dāng)α=1時(shí)的同一矢量,則根據(jù)公式(2)線性關(guān)系可以表示為o~(t)=Aαo(t)=Aαx(t)x′(t)x′′(t)---(6)]]>其中Aα是矢量?jī)烧咧g39×39的線性變換。盡管這些描述是針對(duì)觀察矢量的一種特定構(gòu)造所提供的,容易理解其它構(gòu)造也包含在本發(fā)明的范圍內(nèi)。
為了獲得更穩(wěn)健的結(jié)果,考慮整個(gè)參數(shù)文件,而不是一個(gè)簡(jiǎn)單的矢量。每一個(gè)參數(shù)文件都包含超過(guò)一小時(shí)的語(yǔ)音。這里,線性關(guān)系可用下式表達(dá)Yα=AαX (7)其中X代表α=1時(shí)的整個(gè)參數(shù)文件,Y代表α取其它值時(shí)直接修改Mel標(biāo)度而生成的文件。這樣就可以用最小二乘法直接估計(jì)出VTLN矩陣Aα=(XTX)-1XTYα(8)參考圖2,聲道長(zhǎng)度規(guī)格化變換可以直接由實(shí)驗(yàn)數(shù)據(jù)估計(jì)出來(lái)。VTLN扭曲問(wèn)題線性解的存在性是已知的,因此存在的解是唯一的并可以通過(guò)實(shí)驗(yàn)計(jì)算出來(lái)。
首先,從來(lái)自一個(gè)已知聲道長(zhǎng)度的訓(xùn)練說(shuō)話人的語(yǔ)音數(shù)據(jù)中提取一組聲學(xué)矢量。在一個(gè)實(shí)施例中,特征空間包含39維的觀察矢量。特別地,該矢量包含23個(gè)計(jì)算的過(guò)濾器組系數(shù)和通過(guò)離散余弦變換和過(guò)濾導(dǎo)出的12個(gè)倒譜系數(shù),再加上能量系數(shù)構(gòu)成13個(gè)倒譜系數(shù)。這些倒譜系數(shù)與其一階導(dǎo)數(shù)和二階導(dǎo)數(shù)組合而生成一個(gè)39維的矢量。以這種方式,由語(yǔ)音數(shù)據(jù)可以構(gòu)造一幀729個(gè)39維矢量?;谖磁で?即α=1)的語(yǔ)音數(shù)據(jù)的這樣一幀的可視化表示如圖3所示。
下一步,可沿功率譜的頻率軸將語(yǔ)音數(shù)據(jù)進(jìn)行扭曲,從而得到具有不同聲道長(zhǎng)度特性的語(yǔ)音數(shù)據(jù)。但是,應(yīng)該理解采用其它的已知技術(shù)也可以得到扭曲語(yǔ)音。然后從扭曲語(yǔ)音中提取第二組聲學(xué)矢量序列。
由于扭曲的線性解確實(shí)存在,可以用最小二乘法估計(jì)變換矩陣。為此,將從未扭曲語(yǔ)音中提取的系數(shù)置于729×39的矩陣Y中,將其它提取自扭曲語(yǔ)音的系數(shù)置于另一個(gè)的矩陣X中,假設(shè)Y=NX,直接最小二乘公式提供X和Y之間的線性變換N如下N=(XTX)-1XTY或A=(XTWX)-1XTWY但是對(duì)整個(gè)矩陣(考慮一階和二階導(dǎo)數(shù)系數(shù))計(jì)算最小二乘公式會(huì)導(dǎo)致矩陣被不當(dāng)估計(jì)。因此僅僅對(duì)靜態(tài)參數(shù)進(jìn)行最小二乘估計(jì)有時(shí)是比較有利的。這使得矩陣變成塊對(duì)角陣,更接近于單位矩陣。這樣,估計(jì)13×13矩陣,而39×39矩陣被建立,如下面的等式中的矩陣那樣。最后,通過(guò)對(duì)包含導(dǎo)數(shù)項(xiàng)的所有系數(shù)進(jìn)行最小二乘估計(jì)就可以得到最優(yōu)解,但是進(jìn)行估計(jì)的時(shí)間相對(duì)較長(zhǎng)(例如,通常超過(guò)一個(gè)小時(shí))。如圖4所示,結(jié)果矩陣如下χ(t)→χ~(t)=Aχ(t),]]>o(t)→o~(t)=No(t),]]>o~(t)=No(t)A000A000Aχ(t)χ′(t)χ′′(t)]]>在VTLN中,說(shuō)話人規(guī)格化通常是通過(guò)在信號(hào)分析期間對(duì)功率譜進(jìn)行扭曲來(lái)執(zhí)行,而不是對(duì)聲學(xué)矢量的變換。扭曲因子通常用最大似然準(zhǔn)則確定。將VTLN表示為聲學(xué)矢量矩陣變換(x→Ax)使我們可以考慮雅克比N(x|μ,∑)→N(Ax|μ,∑),=N(x|A-1A-T∑A-1),=1det2πA-TΣA-1eχp{...},]]>=|A|det2πΣexp{...},]]>其中exp{...}=exp{-12(x-A-1μ)T(A-TΣA-1)-1(x-A-1μ)}]]>作為比較,在真實(shí)扭曲因子基礎(chǔ)上采用線性假設(shè)和采用來(lái)自常規(guī)VTLN實(shí)現(xiàn)的壓縮功率譜所得到的錯(cuò)誤解碼詞數(shù)是一樣的。而且,當(dāng)用錯(cuò)誤的扭曲因子解碼時(shí)線性方法更穩(wěn)健一些。這樣,線性方法和矩陣組的最小二乘估計(jì)結(jié)合,相當(dāng)于在真實(shí)扭曲因子基礎(chǔ)上的常規(guī)VTLN實(shí)現(xiàn)。此外,容易計(jì)算得到扭曲因子。
一些說(shuō)話人適應(yīng)或環(huán)境適應(yīng)技術(shù)所采用的估計(jì)方法會(huì)導(dǎo)致倒譜參數(shù)的非線性變換。這些技術(shù)包括累積密度函數(shù)(CDF)匹配或直方圖校正和雙線性變換。與VTLN一樣,這些方法可能傾向于不可靠估計(jì)。因此,估計(jì)相應(yīng)線性變換的技術(shù)能獲得穩(wěn)定的結(jié)果。如果變換的特征置于參數(shù)矩陣Y,原始倒譜特征置于矩陣X,則可以采用前面描述的最小二乘方法,用非線性變換代替頻率扭曲。
無(wú)論如何,聲道長(zhǎng)度規(guī)格化不象其可能看起來(lái)那么簡(jiǎn)單。在來(lái)自一個(gè)人的語(yǔ)音中可以觀察到比例因子的變化。不幸的是,解碼每一個(gè)參數(shù)以計(jì)算給定說(shuō)話人的平均扭曲因子,計(jì)算量很大。無(wú)論如何,對(duì)該計(jì)算中嵌入的最小二乘矩陣可能求Q函數(shù)最大值。采用高斯混合的HMM的輔助函數(shù)是Q=-12Σt,mγm(t){log|Rm|+(μm-ot)TRm(μm-ot)}---(9)]]>其中γm是后驗(yàn)狀態(tài),Rm是對(duì)應(yīng)于高斯分量m的精度矩陣,μm是對(duì)應(yīng)于高斯分量m的均值矢量。我們希望針對(duì)A最大化QQ=-12Σt,mγm(t){log|Aα|2+(μm-Aαot)TRm(μm-Aαot)}---(10)]]>為優(yōu)化計(jì)算需求,可以用該問(wèn)題的充分統(tǒng)計(jì)(S)S={Acc0;Acc1;Acc2}分解Q。這樣最大化算法的計(jì)算量就非常小了。對(duì)于訓(xùn)練集的每個(gè)說(shuō)話人,計(jì)算每一個(gè)α∈
的Q(S,a),然后按照最大化的結(jié)果將說(shuō)話人分類。這種方法生成整個(gè)訓(xùn)練集上的α直方圖和α列表。下面的累加器是該問(wèn)題的充分統(tǒng)計(jì)Acc0=Σt,mγm(t),]]>Acc1=Σt,mγm(t)ot,]]>Acc2=Σt,mγm(t)ototT]]>首先,在訓(xùn)練時(shí)用后面的充分統(tǒng)計(jì)S={Acc0;Acc1;Acc2}分解以計(jì)算QQ(S,α)=-12Σt,mAcc0{log|Aϵ|2+(μmTRmμm)}]]>-12Σt,m{tr(Acc1(μmTRmAα))+Acc1T(AαTRmμm)}]]>-12Σt,mtr(Acc2(Aα)TRmAα).]]>這樣,可以用上面描述的最大化算法來(lái)分裂訓(xùn)練數(shù)據(jù)庫(kù)中的語(yǔ)音數(shù)據(jù)。
劃分好來(lái)自于具有相似語(yǔ)音特征的訓(xùn)練說(shuō)話人的語(yǔ)音數(shù)據(jù)然后組合在一起。在該實(shí)施例中,把來(lái)自15個(gè)說(shuō)話人α列表的語(yǔ)音數(shù)據(jù)合并,構(gòu)造可以稱之為“泡”的語(yǔ)音數(shù)據(jù)組合。至此,從經(jīng)驗(yàn)推導(dǎo)出了分組策略。但是,為了保證有足夠的數(shù)據(jù)訓(xùn)練穩(wěn)健的聲學(xué)模型,最好將來(lái)自訓(xùn)練說(shuō)話人的語(yǔ)音數(shù)據(jù)合并以形成若干平衡的泡。這樣,來(lái)自某訓(xùn)練說(shuō)話人的語(yǔ)音數(shù)據(jù)可以不出現(xiàn)在任何一個(gè)泡中,或僅僅出現(xiàn)在一個(gè)泡中,或兩個(gè)或更多的泡中。
此外,可以進(jìn)一步設(shè)想語(yǔ)音數(shù)據(jù)可以分裂兩次或更多次之后再組合到一起。參考圖1,如在14所示,語(yǔ)音數(shù)據(jù)首先按照說(shuō)話人的性別劃分。容易理解語(yǔ)音數(shù)據(jù)可以用一個(gè)說(shuō)話人性別指示符進(jìn)行標(biāo)記。然后在16用前面描述的最大化算法將語(yǔ)音數(shù)據(jù)基于聲道長(zhǎng)度進(jìn)一步劃分。盡管前面的描述是關(guān)于特定的語(yǔ)音相關(guān)標(biāo)準(zhǔn),容易理解可以采用不同的語(yǔ)音相關(guān)標(biāo)準(zhǔn)來(lái)分裂語(yǔ)音數(shù)據(jù)。
最后在18將語(yǔ)音數(shù)據(jù)組合到一起。在本實(shí)施例中,語(yǔ)音數(shù)據(jù)分組為6個(gè)組合3個(gè)男性泡和3個(gè)女性泡。具體地,聲道長(zhǎng)度規(guī)格化因子在1左右的男性語(yǔ)音數(shù)據(jù)組合在一起,聲道長(zhǎng)度規(guī)格化因子小于1的男性語(yǔ)音數(shù)據(jù)組合在一起,聲道長(zhǎng)度規(guī)格化因子大于1的男性語(yǔ)音數(shù)據(jù)組合在一起。女性聲學(xué)模型按照相同的方式組合。這種泡分裂過(guò)程如圖5所示。雖然目前優(yōu)先選擇這種組合方式,但本發(fā)明并不局限于此。正相反,不同的組合方法可能更適合于應(yīng)用,仍然屬于本發(fā)明的范疇。此外,語(yǔ)音數(shù)據(jù)可以用與分裂時(shí)所用,或與其它已知的評(píng)估語(yǔ)音數(shù)據(jù)的相似度量相同的語(yǔ)音相關(guān)標(biāo)準(zhǔn)進(jìn)行組合。
如在20所示,對(duì)于每一個(gè)泡都用其中的語(yǔ)音數(shù)據(jù)訓(xùn)練一個(gè)聲學(xué)泡模型。聲學(xué)泡模型的訓(xùn)練可以采用眾所周知的一些技術(shù)。例如,可以采用最大似然估計(jì)方法訓(xùn)練聲學(xué)泡模型。也可以用各種說(shuō)話人適應(yīng)技術(shù)構(gòu)造聲學(xué)泡模型。例示的說(shuō)話人適應(yīng)技術(shù)包含(但不限于)最大后驗(yàn)(MAP)估計(jì)或者最大似然線性回歸(MLLR)。
雖然在一個(gè)聲學(xué)泡模型中說(shuō)話人之間的變化減少了,但用規(guī)格化技術(shù)可以進(jìn)一步壓縮該模型。對(duì)聲學(xué)泡模型應(yīng)用規(guī)格化技術(shù),如說(shuō)話人適應(yīng)訓(xùn)練(SAT)或逆變換說(shuō)話人適應(yīng)訓(xùn)練(IT-SAT),可生成一個(gè)非常緊湊的聲學(xué)模型集。容易理解其它已知的規(guī)格化技術(shù)仍然屬于本發(fā)明的范疇。接著緊湊聲學(xué)模型可以用于語(yǔ)音識(shí)別,進(jìn)一步的描述如下所述。
下面介紹另外兩個(gè)規(guī)格化技術(shù)。這里,第一個(gè)規(guī)格化技術(shù)是指說(shuō)話人規(guī)格化訓(xùn)練(SNT)。其基本思想是用規(guī)格化框架代替SAT的適應(yīng)框架,尤其是用MLLU特征變換框架代替框架中的ATE階段。
圖6A和6B分別詳細(xì)說(shuō)明了SNT技術(shù)的訓(xùn)練循環(huán)和解碼過(guò)程。訓(xùn)練循環(huán)包含兩個(gè)主要的階段規(guī)格化訓(xùn)練累加(NTA)階段和同步(sync)階段。每個(gè)階段的進(jìn)一步描述如下。
在NTA階段,給定訓(xùn)練集中每個(gè)說(shuō)話人s(s∈[1...S])在前一次迭代λi-1的與說(shuō)話人無(wú)關(guān)模型,首先進(jìn)行MLLU特征變換估計(jì)Ai(s)。接著對(duì)規(guī)格化特征進(jìn)行ML適應(yīng)o~(t)=Ai(s)o(t),---(11)]]>然后對(duì)第s個(gè)SD模型λi(s)進(jìn)行累加,即{μjk(s);∑jk(s);γjk(s)}。更詳細(xì)地,將γjk(s)存儲(chǔ)在第0級(jí)累加器,將μjk(s)存儲(chǔ)在第1級(jí)累加器,如下所示γ^jk=Σsγjk(s),---(12)]]>μ^jk=Σsγjk(s)μjk(s).---(13)]]>最后,將方差存儲(chǔ)在第2級(jí)累加器中,在這之前,必須進(jìn)行一次小的數(shù)學(xué)展開σjk2=E[||μjk-o(t)||2]=E[o(t)2]-μjk2---(14)]]>這里我們處理高斯混合模型,使得E[o(t)2]=ΣNγjkE[o(t)2|μjk]=ΣNγjk[σjk2+μjk2],---(15)]]>因此,在第2級(jí)累加器中,將上面等式的結(jié)果逐步存在Acc2中。
在前面的NTA階段之后,這些累加器的存儲(chǔ)結(jié)果用作實(shí)現(xiàn)同步階段的輸入。
μ~jk=Acc1Acc0=Σsγjksμjk(s)Σsγjk(s),---(16)]]>σ~jk2=E[o(t)2]-μjk2=Acc2-μ~jk2---(17)]]>圖7示出了在訓(xùn)練過(guò)程(例如模型構(gòu)造過(guò)程)中可以更早使用SNT技術(shù)。眾所周知,聚類中使用分層二元分裂是一種非常有效的方法,稱之為分類與回歸樹(CART)。為了使通過(guò)CART得到更加準(zhǔn)確的高斯假設(shè),數(shù)據(jù)規(guī)格化之后,我們希望獲得更可靠的聚類。理論上,我們希望進(jìn)行SNT之后獲得更純粹的聚類結(jié)構(gòu)。這在實(shí)踐中促使我們消除根據(jù)一些錯(cuò)誤參數(shù)所可能聚類的一些寄生環(huán)境的不匹配;而在更好的數(shù)據(jù)(即規(guī)格化數(shù)據(jù))上使用CART方法。
第二個(gè)技術(shù)是指規(guī)格化說(shuō)話人適應(yīng)訓(xùn)練(NSAT)。同樣,NSAT的基本思想是在SAT的訓(xùn)練和解碼過(guò)程中都增加一個(gè)規(guī)格化的步驟。采用NAST技術(shù),可以在規(guī)格化特征上進(jìn)行SAT訓(xùn)練。理論上,我們希望聚類更純粹,且根據(jù)最佳參數(shù)構(gòu)造,形成極少根據(jù)其它任何寄生環(huán)境參數(shù)構(gòu)造的聚類。
考慮到規(guī)格化特征,該過(guò)程通常確實(shí)包含在ITSAT方法的ATE階段進(jìn)行過(guò)程中。根據(jù)等式(12),ITSAT的均值重估計(jì)變?yōu)?amp;mu;jkITSAT={Σs=1Sγjk(s)W(s,g)-1{μjk(s)-β(s,g)}}÷Σs=1Sγjk(s),---(18)]]>其中β是偏置矢量而且μjk(s)=Σtγjk(s)o^t(s)Σtγjk(s);o^(t)=Ai(s)o(t).---(19)]]>NATEA是指規(guī)格化,適應(yīng),訓(xùn)練,估計(jì)和累加。該步驟與SAT中相同,其整個(gè)訓(xùn)練循環(huán)的框圖如圖8所示。再次重申,除了在規(guī)格化特征上進(jìn)行ITSAT,該訓(xùn)練的原則與SAT框架非常相似。執(zhí)行該階段之后就進(jìn)入SAT的SYNC階段。解碼過(guò)程從包含規(guī)格化輸入矢量的規(guī)格化步驟開始,接著進(jìn)行僅包含MLLR適應(yīng)的適應(yīng)步驟。這兩種附加的規(guī)格化技術(shù)都可以應(yīng)用于聲學(xué)泡模型的壓縮。
在進(jìn)行語(yǔ)音識(shí)別時(shí),首先使用與劃分訓(xùn)練數(shù)據(jù)相同的標(biāo)準(zhǔn)選擇一個(gè)緊湊聲學(xué)模型。例如,如果訓(xùn)練數(shù)據(jù)是基于聲道長(zhǎng)度劃分的,適用的緊湊聲學(xué)模型也是根據(jù)與輸入語(yǔ)音相關(guān)的聲道長(zhǎng)度來(lái)選擇。在本實(shí)例中,輸入語(yǔ)音的聲道長(zhǎng)度可以用前面描述的最大化算法來(lái)確定。然后將聲道長(zhǎng)度比例因子與經(jīng)驗(yàn)所得閾值相比較,以選擇適用的緊湊聲學(xué)模型。然后用選擇的緊湊聲學(xué)模型對(duì)輸入語(yǔ)音進(jìn)行解碼。
根據(jù)一實(shí)施例,可以對(duì)每一個(gè)實(shí)體的15個(gè)扭曲因子α值估計(jì)Q值以(參數(shù))列表。也就是說(shuō),對(duì)每一個(gè)矩陣估計(jì)公式(9)中的Q值。該計(jì)算的計(jì)算量非常大,在很多情況下沒(méi)有必要。因此容易理解,可以采用各種已知的技術(shù)優(yōu)化這個(gè)過(guò)程,如Brent搜索。但是基于最大化函數(shù)和訓(xùn)練數(shù)據(jù)庫(kù)的最大值分布(a直方圖)的先驗(yàn)知識(shí),我們提出一種新的收斂的估計(jì)技術(shù)。
參見圖9A-9C,首先對(duì)最可能的α值估計(jì)Q值。特別地,對(duì)α=0.98,1.0,1.02估計(jì)Q值。在大多數(shù)情況下計(jì)算結(jié)果證實(shí)最大值是1.0。在剩余的情況下,計(jì)算結(jié)果首先指示沿曲線的哪側(cè)繼續(xù)估計(jì)。Q值的估計(jì)直到找到最大值才結(jié)束。最壞的情形僅僅執(zhí)行了9次附加估計(jì)。總而言之,如果N(α=i)是對(duì)于α=i達(dá)到最大值時(shí)Q-估計(jì)的次數(shù),P(α=i)是某一參數(shù)分配給該扭曲因子的后驗(yàn)概率,那么估計(jì)某一給定參數(shù)的扭曲因子的Q-估計(jì)的平均次數(shù)為ε(N)ϵ(N)=Σi=0.86i=1.14P(α=i)N(α=i)<5---(20)]]>因此,計(jì)算時(shí)間減少為原來(lái)的三分之一前面的描述實(shí)質(zhì)上僅僅是示例,沒(méi)有背離本發(fā)明宗旨的各種變化都屬于本發(fā)明的范疇。不能把這種變化看作是違反本發(fā)明的本質(zhì)和范疇。
權(quán)利要求
1.一種構(gòu)建用于語(yǔ)音識(shí)別器的緊湊聲學(xué)模型的方法,包括根據(jù)至少一種語(yǔ)音相關(guān)標(biāo)準(zhǔn)劃分來(lái)自多個(gè)訓(xùn)練說(shuō)話人的語(yǔ)音數(shù)據(jù);將劃分好的來(lái)自于具有相似語(yǔ)音特征的訓(xùn)練說(shuō)話人的語(yǔ)音數(shù)據(jù)組合在一起;以及使用每個(gè)組合中的語(yǔ)音數(shù)據(jù)為該組合訓(xùn)練一個(gè)聲學(xué)泡模型。
2.權(quán)利要求1的方法,其中語(yǔ)音相關(guān)標(biāo)準(zhǔn)從包含環(huán)境相關(guān)標(biāo)準(zhǔn),說(shuō)話人相關(guān)標(biāo)準(zhǔn),語(yǔ)音輸入信道標(biāo)準(zhǔn)的組或其組合中選取。
3.權(quán)利要求1的方法,其中劃分語(yǔ)音數(shù)據(jù)的步驟進(jìn)一步包含基于訓(xùn)練說(shuō)話人的聲道長(zhǎng)度劃分語(yǔ)音數(shù)據(jù)。
4.權(quán)利要求1的方法,其中劃分語(yǔ)音數(shù)據(jù)的步驟進(jìn)一步包含根據(jù)第一個(gè)語(yǔ)音標(biāo)準(zhǔn)劃分語(yǔ)音數(shù)據(jù),然后再根據(jù)與第一個(gè)語(yǔ)音標(biāo)準(zhǔn)不同的第二個(gè)語(yǔ)音標(biāo)準(zhǔn)劃分語(yǔ)音數(shù)據(jù)。
5.權(quán)利要求1的方法,其中劃分語(yǔ)音數(shù)據(jù)的步驟進(jìn)一步包含根據(jù)訓(xùn)練說(shuō)話人的性別劃分語(yǔ)音數(shù)據(jù),然后再根據(jù)訓(xùn)練說(shuō)話人的聲道長(zhǎng)度劃分語(yǔ)音數(shù)據(jù)。
6.權(quán)利要求1的方法,其中組合劃分好的語(yǔ)音數(shù)據(jù)的步驟進(jìn)一步包含采用語(yǔ)音相關(guān)標(biāo)準(zhǔn)組合劃分好的數(shù)據(jù)。
7.權(quán)利要求1的方法,其中組合劃分好的語(yǔ)音數(shù)據(jù)的步驟進(jìn)一步包含基于聲道長(zhǎng)度組合劃分好的數(shù)據(jù)。
8.權(quán)利要求7的方法,進(jìn)一步包含將聲道長(zhǎng)度規(guī)格化因子約為1的訓(xùn)練說(shuō)話人的語(yǔ)音數(shù)據(jù)組合在一起,將聲道長(zhǎng)度規(guī)格化因子小于1的訓(xùn)練說(shuō)話人的語(yǔ)音數(shù)據(jù)組合在一起,將聲道長(zhǎng)度規(guī)格化因子大于1的訓(xùn)練說(shuō)話人的語(yǔ)音數(shù)據(jù)組合在一起。
9.權(quán)利要求1的方法,其中組合劃分好的語(yǔ)音數(shù)據(jù)的步驟進(jìn)一步包含組合語(yǔ)音數(shù)據(jù),使得給定說(shuō)話人的語(yǔ)音數(shù)據(jù)位于兩個(gè)或更多個(gè)語(yǔ)音數(shù)據(jù)組合中。
10.權(quán)利要求1的方法,其中訓(xùn)練聲學(xué)泡模型的步驟進(jìn)一步包含對(duì)每一個(gè)語(yǔ)音數(shù)據(jù)組合應(yīng)用最大似然估計(jì)。
11.權(quán)利要求1的方法,其中訓(xùn)練聲學(xué)泡模型的步驟進(jìn)一步包含對(duì)每一個(gè)語(yǔ)音數(shù)據(jù)組合應(yīng)用最大后驗(yàn)MAP估計(jì)。
12.權(quán)利要求1的方法,其中訓(xùn)練聲學(xué)泡模型的步驟進(jìn)一步包含對(duì)每一個(gè)語(yǔ)音數(shù)據(jù)組合應(yīng)用最大似然線性回歸MLLR。
13.權(quán)利要求1的方法,進(jìn)一步包含聲學(xué)泡模型規(guī)格化,從而產(chǎn)生一組緊湊聲學(xué)模型。
14.權(quán)利要求13的方法,其中聲學(xué)泡模型規(guī)格化步驟進(jìn)一步包含對(duì)每個(gè)聲學(xué)泡模型進(jìn)行說(shuō)話人適應(yīng)訓(xùn)練。
15.權(quán)利要求13的方法,其中聲學(xué)泡模型規(guī)格化步驟進(jìn)一步包含對(duì)每個(gè)聲學(xué)泡模型進(jìn)行逆變換說(shuō)話人適應(yīng)訓(xùn)練。
16.權(quán)利要求13的方法,其中聲學(xué)泡模型規(guī)格化步驟進(jìn)一步包含對(duì)每個(gè)聲學(xué)泡模型進(jìn)行說(shuō)話人規(guī)格化訓(xùn)練。
17.權(quán)利要求13的方法,其中聲學(xué)泡模型規(guī)格化步驟進(jìn)一步包含對(duì)每個(gè)聲學(xué)泡模型進(jìn)行規(guī)格化說(shuō)話人適應(yīng)訓(xùn)練。
18.權(quán)利要求1的方法,進(jìn)一步包括接收未知語(yǔ)音說(shuō)話;選擇與未知語(yǔ)音說(shuō)話最緊密相關(guān)的一個(gè)聲學(xué)泡模型;以及用選擇的聲學(xué)泡模型對(duì)未知語(yǔ)音說(shuō)話進(jìn)行解碼。
19.權(quán)利要求18的方法,其中選擇聲學(xué)泡模型的步驟進(jìn)一步包含采用用于劃分語(yǔ)音數(shù)據(jù)的語(yǔ)音相關(guān)標(biāo)準(zhǔn)選擇聲學(xué)泡模型。
20.一種定義用于語(yǔ)音處理的聲道長(zhǎng)度規(guī)格化變換的方法,包括從來(lái)自一說(shuō)話人的訓(xùn)練語(yǔ)音中提取第一組聲學(xué)矢量,該說(shuō)話人具有已知的聲道長(zhǎng)度;對(duì)該語(yǔ)音功率譜的頻率軸進(jìn)行扭曲,從而定義表示不同聲道長(zhǎng)度的扭曲語(yǔ)音;從扭曲語(yǔ)音中提取第二組聲學(xué)矢量;以及采用最小二乘法估計(jì)用于第一和第二組聲學(xué)矢量的線性變換矩陣。
21.權(quán)利要求20的方法,其中提取第一組聲學(xué)矢量的步驟進(jìn)一步包含從語(yǔ)音中提取倒譜系數(shù)以及在倒譜系數(shù)的基礎(chǔ)上構(gòu)造聲學(xué)矢量組。
22.一種確定用于語(yǔ)音處理的線性變換矩陣的方法,包括從來(lái)自一說(shuō)話人的訓(xùn)練語(yǔ)音中提取第一組聲學(xué)矢量,該說(shuō)話人具有已知的語(yǔ)音特征;將訓(xùn)練語(yǔ)音變換為具有與已知語(yǔ)音特征不同的語(yǔ)音特征的變換語(yǔ)音;從變換語(yǔ)音中提取第二組聲學(xué)矢量;采用最小二乘法估計(jì)用于第一和第二組聲學(xué)矢量的線性變換矩陣。
23.一種估計(jì)說(shuō)話人的聲道長(zhǎng)度規(guī)格化因子的方法,包括提供一組線性變換,使得每個(gè)線性變換表示一個(gè)估計(jì)聲道長(zhǎng)度規(guī)格化因子,并且定義扭曲聲學(xué)矢量和表示規(guī)格化聲道長(zhǎng)度的聲學(xué)矢量之間的線性關(guān)系;接收說(shuō)話人的語(yǔ)音說(shuō)話;以及對(duì)該語(yǔ)音說(shuō)話,最大化與該組線性變換相關(guān)的似然函數(shù),從而確定該說(shuō)話人的估計(jì)聲道長(zhǎng)度規(guī)格化因子。
24.權(quán)利要求23的方法,其中最大化似然函數(shù)的步驟進(jìn)一步包含最大化與三個(gè)線性變換相關(guān)的似然函數(shù),所述三個(gè)線性變換最有可能對(duì)應(yīng)于說(shuō)話人的聲道長(zhǎng)度規(guī)格化因子。
25.權(quán)利要求24的方法,進(jìn)一步包含最大化與基于最大值的附加線性變換相關(guān)的似然函數(shù),所述最大值是當(dāng)似然函數(shù)不能被確定一個(gè)最大值時(shí)為所述最有可能的三個(gè)線性變換確定的最大值。
26.權(quán)利要求25的方法,進(jìn)一步包含最大化與附加線性變換相關(guān)的似然函數(shù),直至確定似然函數(shù)的最大值。
全文摘要
本發(fā)明提出一種構(gòu)建用于語(yǔ)音識(shí)別器的緊湊聲學(xué)模型的改進(jìn)方法。該方法包括根據(jù)至少一種語(yǔ)音相關(guān)標(biāo)準(zhǔn)(即聲道長(zhǎng)度)劃分來(lái)自多個(gè)訓(xùn)練說(shuō)話人的語(yǔ)音數(shù)據(jù);將劃分好的來(lái)自于具有相似語(yǔ)音特征的訓(xùn)練說(shuō)話人的語(yǔ)音數(shù)據(jù)組合在一起;使用每個(gè)組合中的語(yǔ)音數(shù)據(jù)為該組合訓(xùn)練一個(gè)聲學(xué)泡模型。
文檔編號(hào)G10L11/00GK1591570SQ200410057420
公開日2005年3月9日 申請(qǐng)日期2004年8月12日 優(yōu)先權(quán)日2003年8月13日
發(fā)明者安布魯瓦茲·米泰爾, 帕特里克·耐格伊恩, 盧卡·里加齊奧 申請(qǐng)人:松下電器產(chǎn)業(yè)株式會(huì)社