基于線譜頻率及其階間差分參數(shù)的頻譜建模與語音增強(qiáng)方法

文檔序號：2829404閱讀：235來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：基于線譜頻率及其階間差分參數(shù)的頻譜建模與語音增強(qiáng)方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語音合成方法，具體是在基于線譜頻率的語音頻譜參數(shù)化與建模過程中加入對其階間差分參數(shù)的考慮，通過對線譜頻率階間差分參數(shù)的合理利用達(dá)到對合成語音共振峰的增強(qiáng)的目的，提高合成語音清晰度。
背景技術(shù)：
現(xiàn)有的語音合成技術(shù)主要有基于波形拼接的語音合成方法和基于參數(shù)合成的語音合成方法兩大類。前者通過利用包含自然聲學(xué)樣本的語音音庫和在合成時(shí)進(jìn)行單元選擇的方法可以取得較高的合成語音的音質(zhì)與自然度。但是由于語音音庫的使用，往往在存儲量上有比較大的消耗，難以實(shí)現(xiàn)在嵌入式平臺等資源受限領(lǐng)域的使用。
另一種基于參數(shù)合成的語音合成方法首先需要對語音信號進(jìn)行參數(shù)化分析，一般包括表征激勵信息的基音頻率參數(shù)和表征聲道濾波器頻譜特征的頻譜參數(shù)，然后對分析得到的參數(shù)進(jìn)行建模，在合成時(shí)利用模型進(jìn)行相關(guān)聲學(xué)參數(shù)的預(yù)測，最終通過參數(shù)合成器還原語音信號。這種方法同樣能夠取得較好的合成語音的流暢度和自然度，并且由于在合成階段脫離的音庫的限制，消耗存儲資源很小。但是由于在對參數(shù)的建模過程中，往往會引入一定的平均化處理，這樣使得模型預(yù)測輸出的頻譜參數(shù)對應(yīng)的頻譜包絡(luò)過于平滑，共振峰被削弱，從而造成合成語音清晰度的下降。

發(fā)明內(nèi)容
本發(fā)明的目的就是為了提供一種語音合成系統(tǒng)中基于線譜頻率及其階間差分參數(shù)的頻譜建模與語音增強(qiáng)方法，以達(dá)到提高合成語音效果的目的。
本發(fā)明的技術(shù)方案如下基于線譜頻率及其階間差分參數(shù)的頻譜建模與語音增強(qiáng)方法，其特征在于包括以下步驟(1)、對語音信號分幀求取線性預(yù)測系數(shù)；(2)、線譜頻率及其階間差分參數(shù)的獲得將線性預(yù)測系數(shù)轉(zhuǎn)換成對應(yīng)階數(shù)的線譜頻率參數(shù)，同時(shí)，對相鄰階的線譜頻率計(jì)算其差分參數(shù)；(3)、對于各階線譜頻率及其階間差分參數(shù)分別獨(dú)立進(jìn)行聲學(xué)模型的訓(xùn)練，采用的模型為隱馬爾可夫模型，在模型訓(xùn)練過程中，通過結(jié)合語音單元的上下文屬性利用決策樹對各參數(shù)對應(yīng)的模型進(jìn)行較為細(xì)致的分類，保證得到的聲學(xué)模型均可以實(shí)現(xiàn)依據(jù)上下文屬性輸入的參數(shù)預(yù)測；(4)、合成階段的語音增強(qiáng)處理d、對用戶輸入的文本進(jìn)行分析，利用分析得到的各語音單元對應(yīng)的上下文屬性輸入訓(xùn)練得到的聲學(xué)模型，預(yù)測合成時(shí)使用的各幀線譜頻率及階間差分參數(shù)，由于線譜頻率和階間差分參數(shù)是分別通過二個(gè)獨(dú)立的聲學(xué)模型預(yù)測的，所以預(yù)測得到的階間差分參數(shù)與預(yù)測得到的線譜頻率的實(shí)際階間差分參數(shù)相比并不一致；e、利用各幀預(yù)測得到的階間差分參數(shù)依據(jù)下式對預(yù)測得到的線譜頻率進(jìn)行調(diào)整li′=li-1+ci-1+ci-12ci-12+ci2[(li+1-li-1)-(ci+ci-1)]]]>其中，l1，i＝1，2，...，N為預(yù)測得到的當(dāng)前幀第i階的線譜頻率，N為線譜頻率參數(shù)的階數(shù)；c1，i＝1，2，...，M為預(yù)測得到的當(dāng)前幀第i+1階和第i階線譜頻率之間的階間差分參數(shù)，M為階間差分參數(shù)的階數(shù)，M＜N；l1，i＝1，2，...，N為調(diào)整后當(dāng)前幀的N階線譜頻率。對于各階線譜頻率，可以選擇從低階(第2階)到高階(第M階)的調(diào)整順序，也可以選擇從高階(第M階)到低階(第2階)的調(diào)整順序，同時(shí)可以通過調(diào)整遍數(shù)來控制這種頻譜峰值增強(qiáng)作用的強(qiáng)弱；f、將調(diào)整后的線譜頻率轉(zhuǎn)換為線性預(yù)測系數(shù)，同時(shí)結(jié)合韻律預(yù)測模塊生成的基音頻率參數(shù)，送入線性預(yù)測濾波器，合成語音并輸出。
對語音信號分幀求取線性預(yù)測系數(shù)是通過固定幀移加窗乘取的方法獲得各幀語音的短時(shí)信號波形，然后求取該幀信號對應(yīng)的各階線性預(yù)測系數(shù)，求取方法為基于時(shí)域波形自相關(guān)系數(shù)的線性預(yù)測系數(shù)求取方法；或者自適應(yīng)加權(quán)譜內(nèi)插的方法，首先計(jì)算該幀語音對應(yīng)的頻譜包絡(luò)，再利用全極點(diǎn)模型擬合求解線性預(yù)測系數(shù)。
線譜頻率及其階間差分參數(shù)的獲得過程中，選擇保留所有的階間差分參數(shù)，或者為了降低參數(shù)維數(shù)選擇僅保留較低階的階間差分參數(shù)。
所述加窗是指高斯窗，窗寬為基音周期長度的兩倍，幀移5毫秒，這里提出的在語音合成系統(tǒng)中基于線譜頻率及其階間差分參數(shù)的頻譜建模與語音增強(qiáng)方法就是為了提高參數(shù)合成方法的語音清晰度，主要基于以下幾點(diǎn)考慮(1)線譜頻率參數(shù)相對于線性預(yù)測系數(shù)更加穩(wěn)定，相對于倒譜系數(shù)更加能夠反映與頻譜峰值相關(guān)的一些頻譜局部特征，相對于共振峰參數(shù)在求解上更加容易與魯棒；(2)線譜頻率對于頻譜局部特征的反映，主要是通過其相鄰階差分表現(xiàn)出來的，線譜頻率具有0～π的順序排列特征，當(dāng)兩個(gè)線譜頻率比較接近，即階間差分較小時(shí)，會在頻譜包絡(luò)對應(yīng)頻率處形成一個(gè)峰，差分越小，峰值越尖銳，反之，頻譜越平坦。
通過觀察合成語音的頻譜可以發(fā)現(xiàn)，在使用基于線譜頻率及其階間差分參數(shù)的頻譜建模與語音增強(qiáng)方法后，對比只使用線譜頻率參數(shù)，頻譜中的共振峰部分得到了有效的銳化和增強(qiáng)。
通過對合成語音的實(shí)際測聽表明，使用該方法后，對比只使用線譜頻率參數(shù)，合成語音的清晰度得到明顯提高，更容易被使用者接受。
同時(shí)，對比其他的語音增強(qiáng)算法，由于該方法只是對各幀的頻譜參數(shù)進(jìn)行了調(diào)整，而沒有引入后濾波等額外處理，所以對與整個(gè)合成系統(tǒng)不會增加運(yùn)算量的消耗。
術(shù)語解釋語音合成(Text-To-Speech)又稱為文語轉(zhuǎn)化。它涉及聲學(xué)、語言學(xué)、數(shù)字信號處理、多媒體等多種學(xué)科，是中文信息處理領(lǐng)域的一項(xiàng)前沿技術(shù)。語音合成技術(shù)解決的主要問題是如何將電子化文本的文字信息轉(zhuǎn)化為能夠播放的聲音信息。近代語音合成技術(shù)是隨著計(jì)算機(jī)技術(shù)和數(shù)字信號處理技術(shù)的發(fā)展而發(fā)展起來的，目的是讓計(jì)算機(jī)能夠產(chǎn)生高清晰度、高自然度的連續(xù)語音。
線性預(yù)測系數(shù)(Linear Prediction Coefficient)線性預(yù)測分析從人的發(fā)聲機(jī)理入手，通過對聲道的短管級聯(lián)模型的研究，認(rèn)為系統(tǒng)的傳遞函數(shù)符合全極點(diǎn)數(shù)字濾波器的形式，從而當(dāng)前時(shí)刻的信號可以用前若干時(shí)刻的信號的線性組合來估計(jì)，通過使實(shí)際語音的采樣值和線性預(yù)測采樣值之間達(dá)到均方差最小，即可得到線性預(yù)測系數(shù)。
線譜頻率(Linear Spectral Frequency)線譜頻率是一種和線性預(yù)測系數(shù)等價(jià)的聲道模型描述參數(shù)，具有0～π的順序分布特征，可以依據(jù)線性預(yù)測系數(shù)求解獲得。
自適應(yīng)加權(quán)譜內(nèi)插(Speech Transformation and Representation usingAdaptive Interpolation of weiGHTed spectrum，STRAIGHT)一種針對語音信號的分析合成算法，它通過對語音短時(shí)譜進(jìn)行時(shí)頻域的自適應(yīng)內(nèi)插平滑來提取精確的譜包絡(luò)。
隱馬爾可夫模型(Hidden Markov Model)馬爾可夫模型的概念是一個(gè)離散時(shí)域有限狀態(tài)自動機(jī)，隱馬爾可夫模型是指這一馬爾可夫模型的內(nèi)部狀態(tài)外界不可見，外界只能看到各個(gè)時(shí)刻的輸出值。用隱馬爾可夫刻畫語音信號需作出兩個(gè)假設(shè)，一是內(nèi)部狀態(tài)的轉(zhuǎn)移只與上一狀態(tài)有關(guān)，另一是輸出值只與當(dāng)前狀態(tài)(或當(dāng)前的狀態(tài)轉(zhuǎn)移)有關(guān)，這兩個(gè)假設(shè)大大降低了模型的復(fù)雜度。

圖1利用預(yù)測得到階間差分參數(shù)對線譜頻率調(diào)整后合成語音頻譜的增強(qiáng)情況示例圖2本發(fā)明模型訓(xùn)練階段流程圖。
圖3本發(fā)明合成階段流程圖。
具體實(shí)施例方式
本發(fā)明具體的實(shí)現(xiàn)方式如下1.訓(xùn)練語音數(shù)據(jù)的頻譜參數(shù)化分析1)對語音信號分幀求取線性預(yù)測系數(shù)通過固定幀移加窗乘取(高斯窗，窗寬為基音周期長度的兩倍，幀移5毫秒)的方法獲得各幀語音的短時(shí)信號波形，然后求取該幀信號對應(yīng)的各階線性預(yù)測系數(shù)。求取方法可以采用基于時(shí)域波形自相關(guān)系數(shù)的線性預(yù)測系數(shù)求取方法；也可以采用自適應(yīng)加權(quán)譜內(nèi)插的方法，首先計(jì)算該幀語音對應(yīng)的頻譜包絡(luò)，再利用全極點(diǎn)模型擬合求解線性預(yù)測系數(shù)。計(jì)算時(shí)，可以根據(jù)語音信號采樣率的不同而對參數(shù)階數(shù)進(jìn)行不同的設(shè)定；2)線譜頻率及其階間差分參數(shù)的獲得將線性預(yù)測系數(shù)轉(zhuǎn)換成對應(yīng)階數(shù)的線譜頻率參數(shù)，同時(shí)，對相鄰階的線譜頻率計(jì)算其差分值(差分參數(shù))，作為頻譜參數(shù)提取結(jié)果的一部分，可以選擇保留所有的階間差分參數(shù)，也可以為了降低參數(shù)維數(shù)選擇只保留較低階的階間差分參數(shù)，因?yàn)槿硕鷮τ谡Z音低頻區(qū)域更加敏感。本2.對于各階線譜頻率及其階間差分參數(shù)分別進(jìn)行聲學(xué)模型的訓(xùn)練，采用的模型為隱馬爾可夫模型(Hidden Markov Model，HMM)，在模型訓(xùn)練過程中，通過結(jié)合語音單元的上下文屬性利用決策樹對各參數(shù)對應(yīng)的模型進(jìn)行較為細(xì)致的分類，保證得到的聲學(xué)模型可以實(shí)現(xiàn)依據(jù)上下文屬性輸入的參數(shù)預(yù)測；3.合成階段的語音增強(qiáng)處理1)對用戶輸入的文本進(jìn)行分析，利用分析得到的各語音單元對應(yīng)的上下文屬性輸入訓(xùn)練得到的參數(shù)模型，預(yù)測合成時(shí)使用的各幀線譜頻率及階間差分參數(shù)，由于線譜頻率和階間差分參數(shù)是分別獨(dú)立建模與預(yù)測的，所以預(yù)測得到的階間差分參數(shù)與預(yù)測得到的線譜頻率的實(shí)際階間差分參數(shù)相比并不一致；2)利用各幀預(yù)測得到的階間差分參數(shù)依據(jù)下式對線譜頻率進(jìn)行調(diào)整li′=li-1+ci-1+ci-12ci-12+ci2[(li+1-li-1)-(ci+ci-1)]]]>其中，l1，i＝1，2，...，N為預(yù)測得到的當(dāng)前幀第i階的線譜頻率，N為線譜頻率參數(shù)的階數(shù)；c1，i＝1，2，...，M為預(yù)測得到的當(dāng)前幀第i+1階和第i階線譜頻率之間的階間差分參數(shù)，M為階間差分參數(shù)的階數(shù)，M＜N；l1′，i＝1，2，...，N為調(diào)整后當(dāng)前幀的N階線譜頻率。對于各階線譜頻率，可以選擇從低階(第2階)到高階(第M階)的調(diào)整順序，也可以選擇從高階(第M階)到低階(第2階)的調(diào)整順序，同時(shí)可以通過調(diào)整遍數(shù)來控制這種頻譜峰值增強(qiáng)作用的強(qiáng)弱。
3)將調(diào)整后的線譜頻率轉(zhuǎn)換為線性預(yù)測系數(shù)，同時(shí)結(jié)合韻律預(yù)測模塊生成的基音頻率參數(shù)，送入線性預(yù)測濾波器，合成語音并輸出。
圖1利用預(yù)測得到階間差分對線譜頻率調(diào)整后對應(yīng)合成語音頻譜的變化情況，以上為一幀合成語音/a/所對應(yīng)的幅度譜，采樣率為16kHz，線譜頻率階數(shù)為24，使用的階間差分參數(shù)階數(shù)為16，調(diào)整方法為由低階向高階調(diào)整一遍。
權(quán)利要求
1.基于線譜頻率及其階間差分參數(shù)的頻譜建模與語音增強(qiáng)方法，包括以下步驟(1)、對語音信號分幀求取線性預(yù)測系數(shù)；(2)、線譜頻率及其階間差分參數(shù)的獲得將線性預(yù)測系數(shù)轉(zhuǎn)換成對應(yīng)階數(shù)的線譜頻率參數(shù)，同時(shí)，對相鄰階的線譜頻率計(jì)算其差分參數(shù)；(3)、對于各階線譜頻率及其階間差分參數(shù)分別獨(dú)立進(jìn)行聲學(xué)模型的訓(xùn)練，采用的模型為隱馬爾可夫模型，在模型訓(xùn)練過程中，通過結(jié)合語音單元的上下文屬性利用決策樹對各參數(shù)對應(yīng)的模型進(jìn)行較為細(xì)致的分類，保證得到的聲學(xué)模型均可以實(shí)現(xiàn)依據(jù)上下文屬性輸入的參數(shù)預(yù)測；(4)、合成階段的語音增強(qiáng)處理a、對用戶輸入的文本進(jìn)行分析，利用分析得到的各語音單元對應(yīng)的上下文屬性輸入訓(xùn)練得到的聲學(xué)模型，預(yù)測合成時(shí)使用的各幀線譜頻率及階間差分參數(shù)，由于線譜頻率和階間差分參數(shù)是分別通過二個(gè)獨(dú)立的聲學(xué)模型預(yù)測的，所以預(yù)測得到的階間差分參數(shù)與預(yù)測得到的線譜頻率的實(shí)際階間差分參數(shù)相比并不一致；b、利用各幀預(yù)測得到的階間差分參數(shù)依據(jù)下式對預(yù)測得到的線譜頻率進(jìn)行調(diào)整li′=li-1+ci-1+ci-12ci-12+ci2[(li+1-li-1)-(ci+ci-1)]]]>其中，li，i＝1，2，...，N為預(yù)測得到的當(dāng)前幀第i階的線譜頻率，N為線譜頻率參數(shù)的階數(shù)；ci，i＝1，2，...，M為預(yù)測得到的當(dāng)前幀第i+1階和第i階線譜頻率之間的階間差分參數(shù)，M為階間差分參數(shù)的階數(shù)，M＜N；li′，i＝1，2，...，N為調(diào)整后當(dāng)前幀的N階線譜頻率。對于各階線譜頻率，可以選擇從低階(第2階)到高階(第M階)的調(diào)整順序，也可以選擇從高階(第M階)到低階(第2階)的調(diào)整順序，同時(shí)可以通過調(diào)整遍數(shù)來控制這種頻譜峰值增強(qiáng)作用的強(qiáng)弱；c、將調(diào)整后的線譜頻率轉(zhuǎn)換為線性預(yù)測系數(shù)，同時(shí)結(jié)合韻律預(yù)測模塊生成的基音頻率參數(shù)，送入線性預(yù)測濾波器，合成語音并輸出。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于對語音信號分幀求取線性預(yù)測系數(shù)是通過固定幀移加窗乘取的方法獲得各幀語音的短時(shí)信號波形，然后求取該幀信號對應(yīng)的各階線性預(yù)測系數(shù)，求取方法為基于時(shí)域波形自相關(guān)系數(shù)的線性預(yù)測系數(shù)求取方法；或者自適應(yīng)加權(quán)譜內(nèi)插的方法，首先計(jì)算該幀語音對應(yīng)的頻譜包絡(luò)，再利用全極點(diǎn)模型擬合求解線性預(yù)測系數(shù)。
3.根據(jù)權(quán)利要求1所述的方法，其特征在于線譜頻率及其階間差分參數(shù)的獲得過程中，選擇保留所有的階間差分參數(shù)，或者為了降低參數(shù)維數(shù)選擇僅保留較低階的階間差分參數(shù)。
4.根據(jù)權(quán)利要求2所述的方法，其特征在于所述加窗是指高斯窗，窗寬為基音周期長度的兩倍，幀移5毫秒。
全文摘要
本發(fā)明公開了基于線譜頻率及其階間差分參數(shù)的頻譜建模與語音增強(qiáng)方法，包括在頻譜參數(shù)提取時(shí)將線譜頻率階間差分作為提取結(jié)果的一部分；在模型建模和訓(xùn)練時(shí)分別對線譜頻率及其階間差分參數(shù)進(jìn)行獨(dú)立建模和訓(xùn)練；在預(yù)測時(shí)分別預(yù)測線譜頻率及其階間差分參數(shù)，并利用階間差分對線譜頻率參數(shù)進(jìn)行調(diào)整；最終利用調(diào)整后的線譜頻率參數(shù)合成輸出語音以達(dá)到通過增強(qiáng)和銳化合成語音的共振峰而提高合成語音音質(zhì)的目的。
文檔編號G10L13/02GK1815552SQ200610038589
公開日2006年8月9日申請日期2006年2月28日優(yōu)先權(quán)日2006年2月28日
發(fā)明者凌震華, 王玉華, 王仁華申請人:安徽中科大訊飛信息科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：凌震華;王玉平;王仁華
技術(shù)所有人：安徽中科大訊飛信息科技有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

一階固有頻率相關(guān)技術(shù)

音階頻率相關(guān)技術(shù)

結(jié)構(gòu)第一階自振頻率相關(guān)技術(shù)

二階系統(tǒng)固有頻率相關(guān)技術(shù)

一階頻率相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于線譜頻率及其階間差分參數(shù)的頻譜建模與語音增強(qiáng)方法