亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于生成參數(shù)聽感誤差最小化的聲學(xué)模型訓(xùn)練方法

文檔序號:2829405閱讀:652來源:國知局
專利名稱:基于生成參數(shù)聽感誤差最小化的聲學(xué)模型訓(xùn)練方法
技術(shù)領(lǐng)域
本發(fā)明涉及語音合成方法,具體是在對聲學(xué)參數(shù)利用統(tǒng)計概率模型進(jìn)行建模的訓(xùn)練過程中,將最小化訓(xùn)練數(shù)據(jù)對應(yīng)生成參數(shù)的聽感誤差作為模型參數(shù)估計的準(zhǔn)則,以滿足語音合成對于聲學(xué)模型的實際要求,提高模型的合理性和合成語音的效果。
背景技術(shù)
現(xiàn)有的語音合成技術(shù)主要有基于波形拼接的語音合成方法和基于參數(shù)合成的語音合成方法兩大類。前者通過利用包含自然聲學(xué)樣本的語音音庫和在合成時進(jìn)行單元選擇的方法可以取得較高的合成語音的音質(zhì)與自然度。但是由于語音音庫的使用,往往在存儲量上有比較大的消耗,難以實現(xiàn)在嵌入式平臺等資源受限領(lǐng)域的使用。
另一種基于參數(shù)合成的語音合成方法首先對訓(xùn)練使用的語音數(shù)據(jù)進(jìn)行參數(shù)化分析,然后對分析得到的聲學(xué)參數(shù)利用統(tǒng)計方法進(jìn)行建模,在合成時利用聲學(xué)模型進(jìn)行參數(shù)的生成與預(yù)測,最終通過參數(shù)合成器還原語音信號。這種方法同樣可以實現(xiàn)較為自然流暢的合成語音輸出,并且由于在合成時不需要龐大的語音音庫,因此對于存儲量的需求較小,在資源受限平臺上的使用有明顯優(yōu)勢。
統(tǒng)計模型(如隱馬爾可夫模型等)在語音中的應(yīng)用最早開始于語音識別領(lǐng)域,通常使用最大似然準(zhǔn)測或者最小分類誤差準(zhǔn)則等來實現(xiàn)對于模型參數(shù)的估計,而最初這些準(zhǔn)則的引入往往為了滿足語音識別的目標(biāo),保證模型在似然度或者區(qū)分度上的優(yōu)勢,這和語音合成的要求并不相同。在語音合成中更希望的是,在利用訓(xùn)練得到的模型進(jìn)行合成時,能夠生成和自然語音最為接近的聲學(xué)參數(shù),以保證合成語音的自然度與音質(zhì)。
因此,我們針對語音合成的需求,提出了以最小化訓(xùn)練數(shù)據(jù)對應(yīng)生成參數(shù)的聽感誤差作為準(zhǔn)則的聲學(xué)模型參數(shù)訓(xùn)練方法,以提高語音合成系統(tǒng)的整體效果。

發(fā)明內(nèi)容
本發(fā)明的目的就是為了提供一種用于語音合成的基于生成參數(shù)聽感誤差最小化的聲學(xué)模型訓(xùn)練方法,以達(dá)到提高合成語音效果的目的。
本發(fā)明的技術(shù)方案如下基于生成參數(shù)聽感誤差最小化的聲學(xué)模型訓(xùn)練方法,其特征在于利用聲學(xué)模型由原始訓(xùn)練數(shù)據(jù)的文本信息生成合成語音時使用的聲學(xué)參數(shù);對于不同的語音聲學(xué)參數(shù),通過聽感試驗確定其變化對于人耳聽感影響的強(qiáng)弱,并最終綜合出對于任意兩組語音聲學(xué)參數(shù)之間的聽感誤差計算公式;以聽感誤差計算公式計算生成的合成語音時使用的聲學(xué)參數(shù)與原始訓(xùn)練數(shù)據(jù)的聲學(xué)參數(shù)之間的聽感距離;以最小化聽感距離為目標(biāo),利用梯度下降算法,通過逐次迭代的方法,更新聲學(xué)模型中包含的參數(shù),以保證每次迭代后模型生成參數(shù)聽感距離的逐漸降低,最終實現(xiàn)基于生成參數(shù)聽感誤差最小化的模型訓(xùn)練過程。
本發(fā)明使用隱馬爾可夫模型作為聲學(xué)模型,基于最大似然的參數(shù)生成方法,建模采用的聲學(xué)參數(shù)為線譜頻率參數(shù),聽感誤差計算公式可以是D(C,C%(λ))=]]>Σt=1TΣp=1N(lsft,p-lsft,p%)2/min(lsft,p-lsft,p-1,lsft,p+1-lsft-p)]]>C原始訓(xùn)練數(shù)據(jù)的聲學(xué)參數(shù), 合成語音時使用的聲學(xué)參數(shù),lsf1,p語音數(shù)據(jù)第t幀的第p階線譜頻率參數(shù),(lsF1,p右上角的標(biāo)號含義同上述 右上角標(biāo)號的含義)N線譜頻率參數(shù)的階數(shù),T總幀數(shù)。
從合成語音的效果來看,使用該算法后,合成語音在自然度和音質(zhì)上都有一定程度的提高;在對合成語音的傾向性主觀測聽中,認(rèn)為使用該算法后的合成語音質(zhì)量要高于單純最大似然訓(xùn)練結(jié)果的比例占了80%以上。
術(shù)語解釋語音合成(Text-To-Speech)又稱為文語轉(zhuǎn)化。它涉及聲學(xué)、語言學(xué)、數(shù)字信號處理、多媒體等多種學(xué)科,是中文信息處理領(lǐng)域的一項前沿技術(shù)。語音合成技術(shù)解決的主要問題是如何將電子化文本的文字信息轉(zhuǎn)化為能夠播放的聲音信息。近代語音合成技術(shù)是隨著計算機(jī)技術(shù)和數(shù)字信號處理技術(shù)的發(fā)展而發(fā)展起來的,目的是讓計算機(jī)能夠產(chǎn)生高清晰度、高自然度的連續(xù)語音。
隱馬爾可夫模型(Hidden Markov Model)馬爾可夫模型的概念是一個離散時域有限狀態(tài)自動機(jī),隱馬爾可夫模型是指這一馬爾可夫模型的內(nèi)部狀態(tài)外界不可見,外界只能看到各個時刻的輸出值。用隱馬爾可夫刻畫語音信號需作出兩個假設(shè),一是內(nèi)部狀態(tài)的轉(zhuǎn)移只與上一狀態(tài)有關(guān),另一是輸出值只與當(dāng)前狀態(tài)(或當(dāng)前的狀態(tài)轉(zhuǎn)移)有關(guān),這兩個假設(shè)大大降低了模型的復(fù)雜度。
最大似然估計(Maximum Likelihood Estimation)假設(shè)隨機(jī)變量X的分布函數(shù)為F(X,θ),密度函數(shù)為p(X,θ),θ為參數(shù),θ=(θ1,...θm)∈Θ,X1,...,Xn來源于分布族{F(X,θ)θ∈Θ},定義似然函數(shù)L(θ)=Πi=1np(xi,θ)]]>是θ=(θ1,...θm)的函數(shù),若 是L(θ)的唯一最大值點,則稱 為θ的最大似然估計。
梯度下降算法(Gradient Descent Algorithm)一種用于求解函數(shù)無約束極值問題的基本算法,它選擇函數(shù)的負(fù)梯度方向(最速下降方向)作為迭代時的搜索方向。


圖1訓(xùn)練流程框圖具體實施方式
基于生成參數(shù)聽感誤差最小化的聲學(xué)模型訓(xùn)練方法,其具體算法是(1)、計算訓(xùn)練數(shù)據(jù)的文本信息對應(yīng)的生成參數(shù)聽感誤差a、利用聲學(xué)模型生成訓(xùn)練數(shù)據(jù)對應(yīng)的聲學(xué)參數(shù)將訓(xùn)練數(shù)據(jù)對應(yīng)的文本以及相關(guān)的上下文信息輸入聲學(xué)模型λ中,利用最大似然準(zhǔn)則或其他方法,預(yù)測與訓(xùn)練數(shù)據(jù)的聲學(xué)參數(shù)C各幀相對應(yīng)的用于生成合成語音的聲學(xué)參數(shù) 其中
C=[c1,c2,...,cT]C%(λ)=[c1%,c2%,...,c7%]]>T為總幀數(shù),使用隱馬爾可夫模型作為聲學(xué)模型和基于最大似然的參數(shù)生成方法,建模采用的聲學(xué)參數(shù)為線譜頻率參數(shù),即ct=[lsft,1,...,lsft,N]ct%=[lsft,1%,...,lsft,N%]]]>其中N為線譜頻率參數(shù)的階數(shù),N為24;b、計算聲學(xué)參數(shù)之間的聽感距離依據(jù)使用聲學(xué)參數(shù)的不同,確定能夠較為適當(dāng)?shù)姆从硟山M聲學(xué)參數(shù)之間聽感差異情況的聽感誤差計算公式,為了保證這種聽感差異度量的合理性,可以結(jié)合一定的聽感實驗來進(jìn)行主觀聽感差異與參數(shù)距離之間的相關(guān)性測試;線譜頻率參數(shù)使用以下公式來計算訓(xùn)練數(shù)據(jù)聲學(xué)參數(shù)C與生成參數(shù) 之間的聽感距離D(C,C%(λ))=]]>Σt=1TΣp=1N(lsft,p-lsft,p%)2/min(lsft,p-lsft,p-1,lsft,p+1-lsft,p)]]>(2)、以最小化聽感距離為目標(biāo),調(diào)整聲學(xué)模型參數(shù)為了求解聽感距離最小時的所對應(yīng)的模型參數(shù)λ,通過采用梯度下降的方法來對聲學(xué)模型參數(shù)進(jìn)行逐步的調(diào)整,即λn+1=λn-ϵn∂D(C,C%(λ))∂λ|λ=λn]]>具體的參數(shù)更新方法可以由上式結(jié)合聽感誤差計算公式進(jìn)行推導(dǎo)確定,其中n為迭代次數(shù),εn為每一步的迭代步長,λn表示第n次迭代后的聲學(xué)模型參數(shù)。
(3)、對步驟(1)和(2)進(jìn)行反復(fù)迭代,直至模型參數(shù)收斂,迭代次數(shù)為20次,最終實現(xiàn)完整的基于生成參數(shù)聽感誤差最小化的模型訓(xùn)練過程。
本發(fā)明利用以上算法進(jìn)行了參數(shù)模型訓(xùn)練與語音合成實驗,選擇的頻譜參數(shù)為24階的線譜頻率參數(shù);為了實現(xiàn)對聽感誤差的有效度量,在計算兩組線譜頻率之間的距離時,利用階間差分倒數(shù)對各階線譜頻率的歐氏距離進(jìn)行了加權(quán);使用隱馬爾可夫模型作為聲學(xué)參數(shù)模型;在訓(xùn)練過程中使用最大似然估計的結(jié)果作為模型的初始值,再利用最小化生成參數(shù)聽感誤差方法對模型參數(shù)進(jìn)行迭代調(diào)整。
實驗結(jié)果表明,利用以上算法經(jīng)過10~20次迭代后,模型參數(shù)會得到有效收斂;對于集外數(shù)據(jù)的測試表明,利用最小化生成參數(shù)聽感誤差算法訓(xùn)練后的模型可以取得相對單純的最大似然模型訓(xùn)練10%左右的聽感誤差減小程度。
權(quán)利要求
1.基于生成參數(shù)聽感誤差最小化的聲學(xué)模型訓(xùn)練方法,其特征在于利用聲學(xué)模型由原始訓(xùn)練數(shù)據(jù)的文本信息生成合成語音時使用的聲學(xué)參數(shù);對于不同的語音聲學(xué)參數(shù),通過聽感試驗確定其變化對于人耳聽感影響的強(qiáng)弱,并最終綜合出對于任意兩組語音聲學(xué)參數(shù)之間的聽感誤差計算公式;以聽感誤差計算公式計算生成的合成語音時使用的聲學(xué)參數(shù)與原始訓(xùn)練數(shù)據(jù)的聲學(xué)參數(shù)之間的聽感距離;以最小化聽感距離為目標(biāo),利用梯度下降算法,通過逐次迭代的方法,更新聲學(xué)模型中包含的參數(shù),以保證每次迭代后模型生成參數(shù)聽感距離的逐漸降低,最終實現(xiàn)基于生成參數(shù)聽感誤差最小化的模型訓(xùn)練過程。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于使用隱馬爾可夫模型作為聲學(xué)模型,基于最大似然的參數(shù)生成方法,建模采用的聲學(xué)參數(shù)為線譜頻率參數(shù),聽感誤差計算公式是D(C,C%(λ))=]]>Σt=1TΣp=1N(lsft,p-lsft,p%)2/min(lsft,p-lsft,p-1,lsft,p+1-lsft,p)]]>C原始訓(xùn)練數(shù)據(jù)的聲學(xué)參數(shù), 合成語音時使用的聲學(xué)參數(shù),lsft,p語音數(shù)據(jù)第t幀的第p階線譜頻率參數(shù),N線譜頻率參數(shù)的階數(shù),T總幀數(shù)。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于具體步驟為(1)、計算訓(xùn)練數(shù)據(jù)的文本信息對應(yīng)的生成參數(shù)聽感誤差a、利用聲學(xué)模型生成訓(xùn)練數(shù)據(jù)對應(yīng)的聲學(xué)參數(shù)將訓(xùn)練數(shù)據(jù)對應(yīng)的文本以及相關(guān)的上下文信息輸入聲學(xué)模型λ中,利用最大似然準(zhǔn)則或其他方法,預(yù)測與訓(xùn)練數(shù)據(jù)的聲學(xué)參數(shù)C各幀相對應(yīng)的聲學(xué)參數(shù) 其將用于生成合成語音時使用,其中C=[c1,c2,...,cT]C%(λ)=[c1%,c2%,...,cT%]]]>T為總幀數(shù),使用隱馬爾可夫模型作為聲學(xué)模型和基于最大似然的參數(shù)生成方法,建模采用的聲學(xué)參數(shù)為線譜頻率參數(shù)lsf,即ct=[lsft,1,...,lsft,N]ct%=[lsft,1%,...,lsft,N%]]]>其中N為線譜頻率參數(shù)的階數(shù),N為24;b、計算聲學(xué)參數(shù)之間的聽感距離依據(jù)使用聲學(xué)參數(shù)的不同,確定能夠較為適當(dāng)?shù)姆从硟山M聲學(xué)參數(shù)之間聽感差異情況的聽感誤差計算公式,線譜頻率參數(shù)使用以下公式來計算訓(xùn)練數(shù)據(jù)聲學(xué)參數(shù)C與生成參數(shù) 之間的聽感距離D(C,C%(λ))=]]>Σt=1TΣp=1N(lsft,p-lsft,p%)2/min(lsft,p-lsft,p-1,lsft,p+1-lsft,p)]]>(2)、以最小化聽感距離為目標(biāo),調(diào)整聲學(xué)模型參數(shù)為了求解聽感距離最小時的所對應(yīng)的模型參數(shù)λ,通過采用梯度下降的方法來對聲學(xué)模型參數(shù)進(jìn)行逐步的調(diào)整,即λn+1=λn-ϵn∂D(C,C%(λ))∂λ|λ=λn]]>具體的參數(shù)更新方法可以由上式結(jié)合聽感誤差計算公式進(jìn)行推導(dǎo)確定,其中n為迭代次數(shù),εn為每一步的迭代步長,λn表示第n次迭代后的聲學(xué)模型參數(shù);(3)、對步驟(1)和(2)進(jìn)行反復(fù)迭代,直至模型參數(shù)收斂,最終實現(xiàn)完整的基于生成參數(shù)聽感誤差最小化的模型訓(xùn)練過程。
全文摘要
本發(fā)明公開了一種用于語音合成的基于生成參數(shù)聽感誤差最小化的聲學(xué)模型訓(xùn)練方法,包括結(jié)合聽感實驗確定合理的聲學(xué)參數(shù)聽感距離計算方式;依據(jù)聲學(xué)模型生成訓(xùn)練數(shù)據(jù)文本對應(yīng)的聲學(xué)參數(shù),并計算其相對于訓(xùn)練數(shù)據(jù)聲學(xué)參數(shù)的聽感距離;基于聽感誤差最小化對模型參數(shù)進(jìn)行逐次的迭代調(diào)整;最終達(dá)到提高合成語音音質(zhì)與自然度的目的。
文檔編號G10L13/00GK1815553SQ200610038590
公開日2006年8月9日 申請日期2006年2月28日 優(yōu)先權(quán)日2006年2月28日
發(fā)明者凌震華, 吳義堅, 王仁華 申請人:安徽中科大訊飛信息科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1