專利名稱:一種在訓(xùn)練數(shù)據(jù)量極少條件下的實時語音轉(zhuǎn)換方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音轉(zhuǎn)換技術(shù)(Voice conversion,VC),尤其涉及一種在訓(xùn)練數(shù)據(jù)量極少條件下的實時語音轉(zhuǎn)換方法,是用于文語轉(zhuǎn)換系統(tǒng)和機器人發(fā)聲系統(tǒng)的基于統(tǒng)計分析模型的語音轉(zhuǎn)換方案,屬于信號處理特別是語音信號處理技術(shù)領(lǐng)域。
背景技術(shù):
本專利所涉及的知識領(lǐng)域被稱為語音轉(zhuǎn)換技術(shù),是語音信號處理領(lǐng)域近年來新興的研究分支,涵蓋了說話人識別和語音合成的核心技術(shù),并使之結(jié)合到一起以達到統(tǒng)一的目標,即在保持語義內(nèi)容不變的情況下,通過改變一個特定說話人(被稱為源說話人,Sourcespeaker)的話音個性特征,使他(或她)說的話被聽者認為是另一個特定說話人(被稱為目標說話人,Target speaker)說的話。簡而言之,語音轉(zhuǎn)換的主要任務(wù)包括提取代表說話人個性的特征參數(shù)并進行數(shù)學(xué)變換,然后將變換后的參數(shù)重構(gòu)成語音。在這過程中,既要保持重構(gòu)語音的聽覺質(zhì)量,又要兼顧轉(zhuǎn)換后的個性特征是否準確。
經(jīng)過多年的發(fā)展,語音轉(zhuǎn)換領(lǐng)域雖然已經(jīng)涌現(xiàn)出大量的算法,但是這些算法都只是在實驗室環(huán)境下才能運行的,即需要充足的訓(xùn)練數(shù)據(jù)。但是現(xiàn)實情況往往比較“殘酷”,特別是目標說話人的語音數(shù)據(jù)常常難以收集,或者只能采集到一小部分,例如幾秒鐘。在這種惡劣的環(huán)境下,如果直接套用傳統(tǒng)的語音轉(zhuǎn)換算法,就會導(dǎo)致系統(tǒng)不穩(wěn)定或者崩潰。之所以會產(chǎn)生這樣的問題,原因不外乎以下兩點①在訓(xùn)練數(shù)據(jù)量較少,待估計的模型參數(shù)較多的情況下,系統(tǒng)形成了一種所謂的“欠學(xué)習”的情況,即估計得到的模型對數(shù)據(jù)“擬合”的不理想,或者雖然對這部分數(shù)據(jù)“擬合”的比較理想,但是對其他數(shù)據(jù)的“預(yù)測”性能卻不佳。這種現(xiàn)象也常常被稱為“模型的過擬合”(Over-fitting)問題。②傳統(tǒng)的最常用的估計模型參數(shù)的方法是最大似然估計(Maximum Likelihood,ML)和最大后驗概率估計(Maximum a Posterior,MAP)。但遺憾的是,這兩種方法都是“點估計”方法,即它們選取的最優(yōu)參數(shù)往往是使似然函數(shù)或后驗概率函數(shù)取局部最大值的那個值。如果訓(xùn)練數(shù)據(jù)量較多,尚有一定的普適性,但在數(shù)據(jù)量較少的情況下,以上兩種方法選取的最優(yōu)點常常不具有代表性,即它們只能代表這些已有的一小部分數(shù)據(jù)的最優(yōu),而不能代表其他眾多數(shù)據(jù)的最優(yōu)值。
一般來說,語音轉(zhuǎn)換系統(tǒng)的核心步驟之一是對采集的數(shù)據(jù)進行統(tǒng)計建模,即用統(tǒng)計概率模型(Statistical Model)來擬合數(shù)據(jù)的概率分布,進而得到與之有關(guān)的信息,方便后續(xù)步驟加以利用。在這個過程中,如何利用已有數(shù)據(jù)來“學(xué)習”或“預(yù)測”模型的參數(shù)就成為了最為關(guān)鍵的問題。期望最大化算法(Expectation Maximization,EM)被公認為一種學(xué)習統(tǒng)計模型參數(shù)的優(yōu)秀算法,因此被廣泛采用。但是由于它是一種局部優(yōu)化算法,因此往往會使結(jié)果陷入局部最小值的誤區(qū),特別是在訓(xùn)練數(shù)據(jù)量較少的情況下,這個問題更為明顯,這種現(xiàn)象亦被稱為“模型的過擬合”問題(Over-fitting)??紤]到在現(xiàn)實的環(huán)境下,我們收集到的語音數(shù)據(jù)往往是稀疏的,即數(shù)據(jù)量較少,因此經(jīng)典的EM算法肯定是不適用的。
目前國際、國內(nèi)尚未出現(xiàn)研究如何在訓(xùn)練數(shù)據(jù)稀少情況下進行語音轉(zhuǎn)換的課題,發(fā)明內(nèi)容在該領(lǐng)域尚屬首創(chuàng)。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)之不足,本發(fā)明提出了一種在訓(xùn)練數(shù)據(jù)量極少條件下的實時語音轉(zhuǎn)換方法,該方法在采集到的語音數(shù)據(jù)(訓(xùn)練數(shù)據(jù))數(shù)量特別少的惡劣情況下,能保證語音轉(zhuǎn)換系統(tǒng)的正常運行。
本發(fā)明的技術(shù)方案是一種在訓(xùn)練數(shù)據(jù)量極少條件下的實時語音轉(zhuǎn)換方法,其特征在于利用集成學(xué)習理論對采集到的訓(xùn)練數(shù)據(jù)進行高斯混合模型的建模,并在均方誤差最小的準則下設(shè)計映射函數(shù),用映射函數(shù)對源的語音進行映射,實現(xiàn)實時語音轉(zhuǎn)換;其步驟是第一步,選用諧波加噪聲模型作為語音分析合成模型對源和目標的語音進行分析,得到語音的基頻軌跡和諧波幅度值和相位值,然后進一步提取其中的線性譜頻率作為特征參數(shù);第二步,將源和目標的特征參數(shù)按照所屬音素內(nèi)容的不同進行劃分,并在語音幀的層面進行對齊,即使得源和目標人數(shù)量不一樣的特征參數(shù)集合通過歸一化處理,使其在集合數(shù)據(jù)之間產(chǎn)生一一對應(yīng)的關(guān)系;第三步,利用高斯混合模型針對對齊后的特征參數(shù)進行建模,即利用對齊后的特征參數(shù)來估計該高斯混合模型的參數(shù),這時的高斯混合模型的參數(shù)是在集成學(xué)習理論的框架下估計得到的,接著,根據(jù)高斯混合模型估計得到的參數(shù),在均方誤差最小的準則下估計回歸函數(shù),將其作為最終的映射函數(shù);第四步,當完成了以上所有步驟之后,用上述的映射函數(shù)對任意的源的語音進行映射,得到轉(zhuǎn)換后的目標說話人語音;上述第一步~第三步為訓(xùn)練階段,第四步為轉(zhuǎn)換階段。
所說第二步中將源和目標的特征參數(shù)按照所屬音素內(nèi)容的不同進行劃分,采用人工對語音波形進行標注,將不同的聲母韻母區(qū)分開來的方式。
估計高斯混合模型參數(shù)的步驟如下 首先確定優(yōu)化目標首先確定優(yōu)化目標 這里用到一個技巧(1)式中q(X,θ)不再取使不等號變成等號的那個后驗概率了,而是另取一個任意的概率形式,前提是易于求解。同時為了便于計算,認為它可以因式分解為q(X,θ)=qX(X)qθ(θ),這樣(1)式可以進一步改寫為 于是,優(yōu)化logp(Y)的問題轉(zhuǎn)換為了優(yōu)化它的下限F(q(X),q(θ))的問題。求取分布函數(shù)q(X)和q(θ)的過程,可以用一種迭代的方式來進行,分別被稱為集成學(xué)習期望化(EL-Expectation,ELE)和集成學(xué)習最大化(EL-Maximization,ELM)步驟 ELE ELM 式中的t表示迭代步驟。
上述的集成學(xué)習通用算法可以用來學(xué)習一些模型的參數(shù),在本專利中,將它用來學(xué)習高斯混合模型的參數(shù)。即對于某個觀測變量y,假設(shè)它服從M個混合度的高斯分布,用數(shù)學(xué)式子可表示如下 其中πm為混合系數(shù),μm和∑m分別為第m個混合度的均值和方差。用這樣一個模型可以很方便的描述現(xiàn)實中的一大部分數(shù)據(jù)的概率分布,正是由于這個原因,語音轉(zhuǎn)換中也采用這個模型對數(shù)據(jù)進行建?!,F(xiàn)在假設(shè)獲得了觀測數(shù)據(jù)序列Y={y1,y2,…,yT},再假設(shè)有一個與之相對應(yīng)的隱變量數(shù)據(jù)序列X={x1,x2,…,xT}用來表示在某一時刻t,數(shù)據(jù)yt是從哪個混合度產(chǎn)生出來的,也就是說xt∈{1,2,…,M}。根據(jù)高斯混合模型的特點,待估計的參數(shù)集合θ可定義為θ={πm,μm,∑m,m=1,2,…,M}。
我們知道,在集成學(xué)習理論框架下,所有的參數(shù)和隱變量都有各自的概率分布函數(shù),且根據(jù)上述的公示推導(dǎo),q(X)和q(θ)都是自由分布函數(shù),即它們可以是任何概率形式。為了方便后續(xù)計算,不失一般性,不妨假設(shè)混合系數(shù){πm}服從聯(lián)合Dirichlet分布,即p({πm})=D(λ0);均值服從正態(tài)分布,即協(xié)方差矩陣的逆服從Wishart分布,即同時,假設(shè)于是根據(jù)公式(3)(4)可以計算得到 其中,Tm=Tπm,傳統(tǒng)的估計算法在得到(6)式之后就結(jié)束了,而集成學(xué)習理論不同于傳統(tǒng)算法的地方正是將所有的未知變量看作隨即變量,因此具有一定的分布概率。于是還要用(6)式的結(jié)果繼續(xù)更新模型,即估計未知參數(shù)的概率分布??紤]到之前為高斯混合模型參數(shù)假設(shè)的概率分布函數(shù)屬于共軛先驗函數(shù)集,因此它們的后驗概率分布應(yīng)該和先驗分布屬于同一種類型,不同之處只是在參數(shù)的取值上。也就是說有q({πm})=D(λm),然后應(yīng)用以下規(guī)律更新分布參數(shù) λm=Tm+λ0,ρm=(Tmμm+β0ρ0)/(Tm+β0),βm=Tm+β0 (7) vm=Tm+v0,Φm=Tm∑m+Tmβ0(μm-ρ0)(μm-ρ0)T/(Tm+β0)+Φ0 (8) 式(7)(8)就是集成學(xué)習理論下高斯混合模型參數(shù)的求取公式。
一般來說,語音轉(zhuǎn)換系統(tǒng)可以分為兩個實施階段訓(xùn)練階段和轉(zhuǎn)換階段。
在訓(xùn)練階段 ①源和目標人的語音通過諧波加噪聲模型(Harmonic plus noise model,HNM)進行分解,得到基音頻率軌跡和諧波聲道譜參數(shù)的幅度值和相位值。具體細節(jié)描述如下 a.對語音信號進行分幀,幀長20ms,幀重疊間隔10ms。
b.在每幀中,用自相關(guān)法估計基頻,若該幀為清音幀,則設(shè)置基頻等于零。
c.對于濁音幀(即基頻不為零的幀),假設(shè)語音信號可以由一系列的正弦波疊加而成 式中L為正弦波的個數(shù),{Cl}為正弦波的復(fù)幅度。令sh表示sh(n)在一幀內(nèi)的樣點所組成的矢量,則(9)式可以改寫成 sh=Bx,
通過最小二乘算法可以確定以上的{Cl} 其中s(n)是真實語音信號,w(n)是窗函數(shù),一般取漢明窗。將窗函數(shù)也改寫成矩陣形式 則最優(yōu)的x可以這樣得到 d.得到了{Cl},則諧波幅度和相位值如下 Al=2|Cl|=2|C-l|,
②由于原始諧波加噪聲模型參數(shù)維數(shù)較高,不便于后續(xù)計算,因此必須對其進行降維。由于基頻軌跡是一維參數(shù),因此,降維的主要對象是聲道幅度譜參數(shù)和相位參數(shù)。同時,降維的目標是將聲道參數(shù)轉(zhuǎn)化為經(jīng)典的線性預(yù)測參數(shù)(Linear Prediction Coefficient,LPC),進而產(chǎn)生適用于語音轉(zhuǎn)換系統(tǒng)的線性譜頻率參數(shù)(Linear Spectrum Frequency,LSF)。求解步驟概括如下 a.分別求取離散的L個幅度值A(chǔ)l的平方,并將其認為是離散功率譜的采樣值P(ωl)。
b.根據(jù)帕斯卡定律,功率譜密度函數(shù)和自相關(guān)函數(shù)是一對傅立葉變換對,即因此我們可以通過求解下式得到對線性預(yù)測參數(shù)系數(shù)的初步估值
其中a1,a2,…,ap是p階線性預(yù)測參數(shù)系數(shù)。
c.將p階線性預(yù)測參數(shù)系數(shù)代表的全極點模型轉(zhuǎn)換成時域沖激響應(yīng)函數(shù)h*[n] 其中可以證明,h*和估計得到的自相關(guān)序列R*滿足 在滿足板倉-齋田距離(Itakura-Satio,IS)距離最小化的情況下,有真實的R和估計的R*的關(guān)系如下 d.于是將(17)式代替(18)式,并重估計(15)式,有
e.用IS準則評估誤差,如果誤差大于設(shè)定的閾值,則重復(fù)步驟c~e。反之,則停止迭代。
得到的線性預(yù)測參數(shù)系數(shù)通過聯(lián)立求解下面兩個等式,轉(zhuǎn)化為線性譜頻率參數(shù) P(z)=A(z)+z-(p+1)A(z-1) (20) Q(z)=A(z)-z-(p+1)A(z-1) ③通過②驟得到的源和目標的線性譜頻率參數(shù),用動態(tài)時間規(guī)整算法(Dynamic TimeWarping,DTW)進行對齊。所謂的“對齊”是指使得對應(yīng)的源和目標的線性譜頻率在設(shè)定的失真準則上具有最小的失真距離。這樣做的目的是使得源和目標人的特征序列在參數(shù)的層面上關(guān)聯(lián),便于后續(xù)統(tǒng)計模型學(xué)習其中的映射規(guī)律。動態(tài)時間規(guī)整算法步驟簡要概述如下 對于同一個語句的發(fā)音,假定源說話人的聲學(xué)個性特征參數(shù)序列為x1,x2,…,
,…,
,而目標說話人的特征參數(shù)序列為y1,y2,…,
,…,
,且Nx≠Ny。設(shè)定源說話人的特征參數(shù)序列為參考模板,則動態(tài)時間規(guī)整算法就是要尋找時間規(guī)整函數(shù)
使得目標特征序列的時間軸ny非線性地映射到源特征參數(shù)序列的時間軸nx,從而使得總的累積失真量最小,在數(shù)學(xué)上可以表示為
其中
表示第ny幀的目標說話人特征參數(shù)和第
幀源說話人特征參數(shù)之間的某種測度距離。在動態(tài)時間規(guī)整的規(guī)整過程中,規(guī)整函數(shù)
是要滿足以下的約束條件的,有邊界條件和連續(xù)性條件分別為
動態(tài)時間規(guī)整是一種最優(yōu)化算法,它把一個N階段決策過程化為N個單階段的決策過程,也就是轉(zhuǎn)化為逐一做出決策的N個子問題,以便簡化計算。動態(tài)時間規(guī)整的過程一般是從最后一個階段開始進行,也即它是一個逆序過程,其遞推過程可以表示為 D(ny+1,nx)=d(ny+1,nx)+min[D(ny,nx)g(ny,nx),D(ny,nx-1),D(ny,nx-2)](24) 其中
g(ny,nx)是為了ny,nx的取值滿足時間規(guī)整函數(shù)的約束條件。
④計算平均基頻比認為源和目標的基頻序列服從單高斯分布,然后估計高斯模型的參數(shù),即均值μ和方差σ。
⑤用高斯混合模型對動態(tài)時間規(guī)整對齊后的特征參數(shù)進行建模,集成學(xué)習理論估計模型參數(shù)。即首先將源和目標矢量組合成一個擴展矢量,即然后用(6)-(8)式對zt估計模型參數(shù),得 m=1,2,…,M(25) 在轉(zhuǎn)換階段 ①待轉(zhuǎn)換的語音用諧波加噪聲模型進行分析,得到基音頻率軌跡和諧波聲道譜參數(shù)的幅度值和相位值,該過程和訓(xùn)練階段中的第一步相同。
②和訓(xùn)練階段一樣,將諧波加噪聲模型參數(shù)轉(zhuǎn)換為線性譜頻率參數(shù)。
③利用訓(xùn)練階段得到的有關(guān)基頻的模型參數(shù),設(shè)計基頻轉(zhuǎn)換函數(shù)為 其中f′0是轉(zhuǎn)換后的基頻,μy,μx分別是訓(xùn)練出來的源和目標高斯模型的均值,同樣,σy,σx分別是源和目標高斯模型的方差。
④在均方誤差最小的準則下設(shè)計聲道線性譜頻率參數(shù)的轉(zhuǎn)換函數(shù)如下 其中 ⑤將轉(zhuǎn)換后的線性譜頻率參數(shù)反變換為諧波加噪聲模型系數(shù),然后和修改后的基頻軌跡一起合成轉(zhuǎn)換后的語音,詳細步驟如下 a.將獲得的Al,f0,
用正弦模型的定義合成第k的語音,即
b.為了減少幀間交替時產(chǎn)生的誤差,采用疊接相加法合成整個語音,即對于任意相鄰的兩幀,有 其中N表示一幀語音中包含的樣點數(shù)。
本發(fā)明的優(yōu)點及顯著效果集成學(xué)習理論能在學(xué)習過程中逐步對模型結(jié)構(gòu)進行“自我調(diào)整”,優(yōu)化模型參數(shù)的分布,從而使得參數(shù)的個數(shù)和維度保持在一定的復(fù)雜度之內(nèi)。這個特點對于較少數(shù)據(jù)量的學(xué)習過程非常有效,因為它不會產(chǎn)生少數(shù)據(jù)量對應(yīng)高復(fù)雜度模型的情況,也就是避免了過擬合問題。集成學(xué)習法(Ensemble Learning,EL)來對模型進行學(xué)習認知,其中的統(tǒng)計模型我們選擇高斯混合模型(Gaussian Mixture Model,GMM)。集成學(xué)習算法的特點在于它能在學(xué)習過程中逐步對模型結(jié)構(gòu)進行“自我調(diào)整”,優(yōu)化模型參數(shù)的分布,從而使得參數(shù)的個數(shù)和維度保持在一定的復(fù)雜度之內(nèi)。這個特點對于較少數(shù)據(jù)量的學(xué)習過程非常有效,因為它不會產(chǎn)生少數(shù)據(jù)量對應(yīng)高復(fù)雜度模型的情況,也就是避免了過擬合。
圖1是現(xiàn)有語音轉(zhuǎn)換系統(tǒng)結(jié)構(gòu)圖; 圖2是本發(fā)明提出的語音轉(zhuǎn)換系統(tǒng)詳細框圖。
具體實施例方式 已公開的語音轉(zhuǎn)換系統(tǒng)結(jié)構(gòu)如圖1所示。從橫向來看,該系統(tǒng)可以分為兩大主要部分訓(xùn)練階段和轉(zhuǎn)換階段。在訓(xùn)練階段,源和目標的語音數(shù)據(jù)被采集、分析、提取特征參數(shù)、學(xué)習轉(zhuǎn)換規(guī)則并加以保存;在轉(zhuǎn)換階段,新的待轉(zhuǎn)換的源語音數(shù)據(jù)同樣被采集、分析、提取參數(shù),隨后將訓(xùn)練階段得出的轉(zhuǎn)換規(guī)則用于其上,最后將變換后的所有參數(shù)通過語音合成模塊合成語音。一般來說,訓(xùn)練階段是非實時階段,即是離線模式;而轉(zhuǎn)換階段是實時階段,即在線模式。從縱向來看,該系統(tǒng)又可以被分為信號的分析與合成、參數(shù)選擇和提取、參數(shù)對齊算法、轉(zhuǎn)換函數(shù)設(shè)計四大步驟。每一步驟都在整個語音轉(zhuǎn)換系統(tǒng)中發(fā)揮著獨特的作用,缺一不可。
本專利提出的語音轉(zhuǎn)換系統(tǒng)框圖如圖2所示。
在訓(xùn)練階段 ①源和目標人的語音通過諧波加噪聲模型進行分解,得到基音頻率軌跡和諧波聲道譜參數(shù)的幅度值和相位值。
②由于原始諧波加噪聲模型參數(shù)維數(shù)較高,不便于后續(xù)計算,因此必須對其進行降維。由于基頻軌跡是一維參數(shù),因此,降維的主要對象是聲道幅度譜參數(shù)和相位參數(shù)。同時,降維的目標是將聲道參數(shù)轉(zhuǎn)化為經(jīng)典的線性預(yù)測參數(shù),進而產(chǎn)生適用于語音轉(zhuǎn)換系統(tǒng)的線性譜頻率參數(shù)。
③通過②驟得到的源和目標的線性譜頻率參數(shù),用動態(tài)時間規(guī)整算法進行對齊。這樣做的目的是使得源和目標人的特征序列在參數(shù)的層面上具有一定的聯(lián)系,便于后續(xù)統(tǒng)計模型學(xué)習其中的映射規(guī)律。
④計算平均基頻比認為源和目標的基頻序列服從單高斯分布,然后估計高斯模型的參數(shù),即均值和方差。
⑤用高斯混合模型對動態(tài)時間規(guī)整對齊后的特征參數(shù)進行建模,并用集成學(xué)習理論估計模型參數(shù)。
在轉(zhuǎn)換階段 ①待轉(zhuǎn)換的語音用諧波加噪聲模型進行分析,得到有關(guān)的參數(shù)。
②將諧波加噪聲模型參數(shù)轉(zhuǎn)換為線性譜頻率參數(shù)。
③利用訓(xùn)練階段得到的有關(guān)基頻的模型參數(shù),對源的基頻進行轉(zhuǎn)換。
④在均方誤差最小的準則下轉(zhuǎn)換聲道線性譜頻率參數(shù)。
⑤將轉(zhuǎn)換后的線性譜頻率參數(shù)反變換為諧波加噪聲模型系數(shù),然后和修改后的基頻軌跡一起合成轉(zhuǎn)換后的語音。
權(quán)利要求
1.一種在訓(xùn)練數(shù)據(jù)量極少條件下的實時語音轉(zhuǎn)換方法,其特征在于利用集成學(xué)習理論對采集到的訓(xùn)練數(shù)據(jù)進行高斯混合模型的建模,并在均方誤差最小的準則下設(shè)計映射函數(shù),用映射函數(shù)對源的語音進行映射,實現(xiàn)實時語音轉(zhuǎn)換;其步驟是第一步,選用諧波加噪聲模型作為語音分析合成模型對源和目標的語音進行分析,得到語音的基頻軌跡和諧波幅度值和相位值,然后進一步提取其中的線性譜頻率作為特征參數(shù);第二步,將源和目標的特征參數(shù)按照所屬音素內(nèi)容的不同進行劃分,并在語音幀的層面進行對齊,即使得源和目標人數(shù)量不一樣的特征參數(shù)集合通過歸一化處理,使其在集合數(shù)據(jù)之間產(chǎn)生一一對應(yīng)的關(guān)系;第三步,利用高斯混合模型針對對齊后的特征參數(shù)進行建模,即利用對齊好的特征參數(shù)來估計該高斯混合模型的參數(shù),這時的高斯混合模型的參數(shù)是在集成學(xué)習理論的框架下估計得到的,接著,根據(jù)高斯混合模型估計得到的參數(shù),在均方誤差最小的準則下估計回歸函數(shù),將其作為最終的映射函數(shù);第四步,當完成了以上所有步驟之后,用上述的映射函數(shù)對任意的源的語音進行映射,得到轉(zhuǎn)換后的目標說話人語音;上述第一步~第三步為訓(xùn)練階段,第四步為轉(zhuǎn)換階段。
2.根據(jù)權(quán)利要求1所述的在訓(xùn)練數(shù)據(jù)量極少條件下的實時語音轉(zhuǎn)換方法,其特征在于第二步中將源和目標的特征參數(shù)按照所屬音素內(nèi)容的不同進行劃分,采用人工對語音波形進行標注,將不同的聲母韻母區(qū)分開來的方式。
3.根據(jù)權(quán)利要求1或2所述的在訓(xùn)練數(shù)據(jù)量極少條件下的實時語音轉(zhuǎn)換方法,其特征在于估計高斯混合模型參數(shù)的步驟如下
首先確定優(yōu)化目標
式中q(X,θ)取一個易于求解任意的概率形式,它可以因式分解為q(X,θ)=qX(X)qθ(θ),這樣(1)式可以進一步改寫為
于是,優(yōu)化logp(Y)的問題轉(zhuǎn)換為了優(yōu)化它的下限F(q(X),q(θ))及求取分布函數(shù)q(X)和q(θ)的過程,用一種迭代的方式來進行,分別被稱為集成學(xué)習期望化EL-Expectation,ELE和集成學(xué)習最大化EL-Maximization,ELM步驟
式中的t表示迭代步驟;
將上述集成學(xué)習通用算法用于學(xué)習高斯混合模型的參數(shù),即對于任意一個觀測變量y,假設(shè)它服從M個混合度的高斯分布,用數(shù)學(xué)式子可表示如下
假設(shè)獲得了觀測數(shù)據(jù)序列Y={y1,y2,…,yT},再假設(shè)有一個與之相對應(yīng)的隱變量數(shù)據(jù)序列X={x1,x2,…,xT}用來表示在某一時刻t,數(shù)據(jù)yt是從哪個混合度產(chǎn)生出來的,也就是說xt∈{1,2,…,M},根據(jù)高斯混合模型的特點,待估計的參數(shù)集合θ可定義為
θ={πm,μm,∑m,m=1,2,…,M};
在集成學(xué)習理論框架下,所有的參數(shù)和隱變量都有各自的概率分布函數(shù),且根據(jù)上述的公示推導(dǎo),q(X)和q(θ)都是自由分布函數(shù),即它們可以是任何概率形式,為了方便后續(xù)計算,不失一般性,假設(shè)混合系數(shù){πm}服從聯(lián)合Dirichlet分布,即p({πm})=D(λ0);均值服從正態(tài)分布,即協(xié)方差矩陣的逆服從Wishart分布,即同時,假設(shè)于是根據(jù)公式(3)(4)可以計算得到
其中,Tm=Tπm,
用(6)式的結(jié)果繼續(xù)更新模型,即估計未知參數(shù)的概率分布,考慮到之前為高斯混合模型參數(shù)假設(shè)的概率分布函數(shù)屬于共軛先驗函數(shù)集,因此它們的后驗概率分布應(yīng)該和先驗分布屬于同一種類型,不同之處只是在參數(shù)的取值上,也就是說有q({πm})=D(λm),然后應(yīng)用以下規(guī)律更新分布參數(shù)
λm=Tm+λ0,ρm=(Tmμm+β0ρ0)/(Tm+β0),βm=Tm+β0 (7)
vm=Tm+v0,Φm=Tm∑m+Tmβ0(μm-ρ0)(μm-ρ0)T/(Tm+β0)+Φ0(8)
式(7)(8)就是集成學(xué)習理論下高斯混合模型參數(shù)的求取公式。
3、根據(jù)權(quán)利要求1或2所述的在訓(xùn)練數(shù)據(jù)量極少條件下的實時語音轉(zhuǎn)換方法,其特征在于
在訓(xùn)練階段
①源和目標人的語音通過諧波加噪聲模型進行分解,得到基音頻率軌跡和諧波聲道譜參數(shù)的幅度值和相位值,具體步驟如下
a.對語音信號進行分幀,幀長20ms,幀重疊間隔10ms;
b.在每幀中,用自相關(guān)法估計基頻,若該幀為清音幀,則設(shè)置基頻等于零;
c.對于基頻不為零的濁音幀,假設(shè)語音信號由一系列的正弦波疊加而成
式中L為正弦波的個數(shù),{Cl}為正弦波的復(fù)幅度,令sh表示sh(n)在一幀內(nèi)的樣點所組成的矢量,則(9)式可以改寫成
通過最小二乘算法可以確定以上的{Cl}
其中s(n)是真實語音信號,w(n)是窗函數(shù),取漢明窗,將窗函數(shù)也改寫成矩陣形式
則最優(yōu)的x可以這樣得到
d.得到了{Cl},則諧波幅度和相位值如下
Al=2|Cl|=2|C-l|,
②由于原始諧波加噪聲模型參數(shù)維數(shù)較高,不便于后續(xù)計算,因此必須對其進行降維,由于基頻軌跡是一維參數(shù),因此,降維的主要對象是聲道幅度譜參數(shù)和相位參數(shù),同時,降維的目標是將聲道參數(shù)轉(zhuǎn)化為經(jīng)典的線性預(yù)測參數(shù),進而產(chǎn)生適用于語音轉(zhuǎn)換系統(tǒng)的線性譜頻率參數(shù),求解如下
a.分別求取離散的L個幅度值A(chǔ)l的平方,并將其認為是離散功率譜的采樣值P(ωl);
b.根據(jù)帕斯卡定律,功率譜密度函數(shù)和自相關(guān)函數(shù)是一對傅立葉變換對,即
因此我們可以通過求解下式得到對線性預(yù)測參數(shù)系數(shù)的初步估值
其中a1,a2,…,ap是p階線性預(yù)測參數(shù)系數(shù);
c.將p階線性預(yù)測參數(shù)系數(shù)代表的全極點模型轉(zhuǎn)換成時域沖激響應(yīng)函數(shù)h*[n]
其中可以證明,h*和估計得到的自相關(guān)序列R*滿足
在滿足板倉-齋田距離Itakura-Satio,IS距離最小化的情況下,有真實的R和估計的R*的關(guān)系如下
d.將(17)式代替(18)式,并重估計(15)式,有
e.用IS準則評估誤差,如果誤差大于設(shè)定的閾值,則重復(fù)步驟c~e;反之,則停止迭代;
得到的線性預(yù)測參數(shù)系數(shù)通過聯(lián)立求解下面兩個等式,轉(zhuǎn)化為線性譜頻率參數(shù)
P(z)=A(z)+z-(p+1)A(z-1)
(20)
Q(z)=A(z)-z-(p+1)A(z-1)
③通過②得到的源和目標的線性譜頻率參數(shù),用動態(tài)時間規(guī)整算法進行對齊,使得對應(yīng)的源和目標的線性譜頻率在設(shè)定失真準則上具有最小的失真距離,使得源和目標人的特征序列在參數(shù)的層面上關(guān)聯(lián),便于后續(xù)統(tǒng)計模型學(xué)習其中的映射規(guī)律,動態(tài)時間規(guī)整算法如下
對于同一個語句的發(fā)音,假定源說話人的聲學(xué)個性特征參數(shù)序列為x1,x2,…,
,…,
,而目標說話人的特征參數(shù)序列為y1,y2,…,
,…,
,且Nx≠Ny,設(shè)定源說話人的特征參數(shù)序列為參考模板,則動態(tài)時間規(guī)整算法就是要尋找時間規(guī)整函數(shù)
使得目標特征序列的時間軸ny非線性地映射到源特征參數(shù)序列的時間軸nx,從而使得總的累積失真量最小,在數(shù)學(xué)上可以表示為
其中
表示第ny幀的目標說話人特征參數(shù)和第
幀源說話人特征參數(shù)之間的某種測度距離,在動態(tài)時間規(guī)整的規(guī)整過程中,規(guī)整函數(shù)
是要滿足一定的約束條件的,有邊界條件和連續(xù)性條件分別為
動態(tài)時間規(guī)整是一種最優(yōu)化算法,它把一個N階段決策過程化為N個單階段的決策過程,也就是轉(zhuǎn)化為逐一做出決策的N個子問題,以便簡化計算;動態(tài)時間規(guī)整的過程一般是從最后一個階段開始進行,也即它是一個逆序過程,其遞推過程可以表示為
D(ny+1,nx)=d(ny+1,nx)+min[D(ny,nx)g(ny,nx),D(ny,nx-1),D(ny,nx-2)] (24)
其中
g(ny,nx)是為了ny,nx的取值滿足時間規(guī)整函數(shù)的約束條件;
④計算平均基頻比認為源和目標的基頻序列服從單高斯分布,然后估計高斯模型的參數(shù),即均值μ和方差σ;
⑤用高斯混合模型對動態(tài)時間規(guī)整對齊后的特征參數(shù)進行建模,并用第2點權(quán)利要求中提出的集成學(xué)習理論估計模型參數(shù)。即首先將源和目標矢量組合成一個擴展矢量,即然后用(6)-(8)式對zt估計模型參數(shù),得
在轉(zhuǎn)換階段
①待轉(zhuǎn)換的語音用諧波加噪聲模型進行分析,得到基音頻率軌跡和諧波聲道譜參數(shù)的幅度值和相位值,該過程和訓(xùn)練階段中的①相同;
②和訓(xùn)練階段一樣,將諧波加噪聲模型參數(shù)轉(zhuǎn)換為線性譜頻率參數(shù);
③利用訓(xùn)練階段得到的有關(guān)基頻的模型參數(shù),設(shè)計基頻轉(zhuǎn)換函數(shù)為
其中f′0是轉(zhuǎn)換后的基頻,μy,μx分別是訓(xùn)練出來的源和目標高斯模型的均值,同樣,σy,σx分別是源和目標高斯模型的方差;
④在均方誤差最小的準則下設(shè)計聲道線性譜頻率參數(shù)的轉(zhuǎn)換函數(shù)如下
其中
⑤將轉(zhuǎn)換后的線性譜頻率參數(shù)反變換為諧波加噪聲模型系數(shù),然后和修改后的基頻軌跡一起合成轉(zhuǎn)換后的語音
a.將獲得的Al,f0,
用正弦模型的定義合成第k的語音,即
b.為了減少幀間交替時產(chǎn)生的誤差,采用疊接相加法合成整個語音,即對于任意相鄰的兩幀,有
其中N表示一幀語音中包含的樣點數(shù)。
全文摘要
本發(fā)明提出了一種在訓(xùn)練數(shù)據(jù)量極少條件下的實時語音轉(zhuǎn)換方法,利用集成學(xué)習理論(Ensemble Learning,EL)對采集到的數(shù)據(jù)進行高斯混合模型(Gaussian Mixture Model,GMM)的建模,并在均方誤差最小(Minimum Mean Square Error,MMSE)的準則下設(shè)計映射函數(shù)。避免了標準的GMM模型在數(shù)據(jù)量極少的情況下容易產(chǎn)生過擬合(Over-fitting)的問題,提高了語音轉(zhuǎn)換算法對數(shù)據(jù)量問題的魯棒性。同時本發(fā)明方法在估算GMM參數(shù)的過程中的運算復(fù)雜度較標準的GMM低,因此適用于進行實時的語音轉(zhuǎn)換。
文檔編號G10L15/00GK101751921SQ20091026310
公開日2010年6月23日 申請日期2009年12月16日 優(yōu)先權(quán)日2009年12月16日
發(fā)明者徐寧, 楊震 申請人:南京郵電大學(xué)