專利名稱:基于線譜頻率及其階間差分參數(shù)的頻譜建模與語音增強(qiáng)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音合成方法,具體是在基于線譜頻率的語音頻譜參數(shù)化與建模過程中加入對其階間差分參數(shù)的考慮,通過對線譜頻率階間差分參數(shù)的合理利用達(dá)到對合成語音共振峰的增強(qiáng)的目的,提高合成語音清晰度。
背景技術(shù):
現(xiàn)有的語音合成技術(shù)主要有基于波形拼接的語音合成方法和基于參數(shù)合成的語音合成方法兩大類。前者通過利用包含自然聲學(xué)樣本的語音音庫和在合成時(shí)進(jìn)行單元選擇的方法可以取得較高的合成語音的音質(zhì)與自然度。但是由于語音音庫的使用,往往在存儲量上有比較大的消耗,難以實(shí)現(xiàn)在嵌入式平臺等資源受限領(lǐng)域的使用。
另一種基于參數(shù)合成的語音合成方法首先需要對語音信號進(jìn)行參數(shù)化分析,一般包括表征激勵信息的基音頻率參數(shù)和表征聲道濾波器頻譜特征的頻譜參數(shù),然后對分析得到的參數(shù)進(jìn)行建模,在合成時(shí)利用模型進(jìn)行相關(guān)聲學(xué)參數(shù)的預(yù)測,最終通過參數(shù)合成器還原語音信號。這種方法同樣能夠取得較好的合成語音的流暢度和自然度,并且由于在合成階段脫離的音庫的限制,消耗存儲資源很小。但是由于在對參數(shù)的建模過程中,往往會引入一定的平均化處理,這樣使得模型預(yù)測輸出的頻譜參數(shù)對應(yīng)的頻譜包絡(luò)過于平滑,共振峰被削弱,從而造成合成語音清晰度的下降。
發(fā)明內(nèi)容
本發(fā)明的目的就是為了提供一種語音合成系統(tǒng)中基于線譜頻率及其階間差分參數(shù)的頻譜建模與語音增強(qiáng)方法,以達(dá)到提高合成語音效果的目的。
本發(fā)明的技術(shù)方案如下基于線譜頻率及其階間差分參數(shù)的頻譜建模與語音增強(qiáng)方法,其特征在于包括以下步驟(1)、對語音信號分幀求取線性預(yù)測系數(shù);(2)、線譜頻率及其階間差分參數(shù)的獲得將線性預(yù)測系數(shù)轉(zhuǎn)換成對應(yīng)階數(shù)的線譜頻率參數(shù),同時(shí),對相鄰階的線譜頻率計(jì)算其差分參數(shù);(3)、對于各階線譜頻率及其階間差分參數(shù)分別獨(dú)立進(jìn)行聲學(xué)模型的訓(xùn)練,采用的模型為隱馬爾可夫模型,在模型訓(xùn)練過程中,通過結(jié)合語音單元的上下文屬性利用決策樹對各參數(shù)對應(yīng)的模型進(jìn)行較為細(xì)致的分類,保證得到的聲學(xué)模型均可以實(shí)現(xiàn)依據(jù)上下文屬性輸入的參數(shù)預(yù)測;(4)、合成階段的語音增強(qiáng)處理d、對用戶輸入的文本進(jìn)行分析,利用分析得到的各語音單元對應(yīng)的上下文屬性輸入訓(xùn)練得到的聲學(xué)模型,預(yù)測合成時(shí)使用的各幀線譜頻率及階間差分參數(shù),由于線譜頻率和階間差分參數(shù)是分別通過二個(gè)獨(dú)立的聲學(xué)模型預(yù)測的,所以預(yù)測得到的階間差分參數(shù)與預(yù)測得到的線譜頻率的實(shí)際階間差分參數(shù)相比并不一致;e、利用各幀預(yù)測得到的階間差分參數(shù)依據(jù)下式對預(yù)測得到的線譜頻率進(jìn)行調(diào)整li′=li-1+ci-1+ci-12ci-12+ci2[(li+1-li-1)-(ci+ci-1)]]]>其中,l1,i=1,2,...,N為預(yù)測得到的當(dāng)前幀第i階的線譜頻率,N為線譜頻率參數(shù)的階數(shù);c1,i=1,2,...,M為預(yù)測得到的當(dāng)前幀第i+1階和第i階線譜頻率之間的階間差分參數(shù),M為階間差分參數(shù)的階數(shù),M<N;l1,i=1,2,...,N為調(diào)整后當(dāng)前幀的N階線譜頻率。對于各階線譜頻率,可以選擇從低階(第2階)到高階(第M階)的調(diào)整順序,也可以選擇從高階(第M階)到低階(第2階)的調(diào)整順序,同時(shí)可以通過調(diào)整遍數(shù)來控制這種頻譜峰值增強(qiáng)作用的強(qiáng)弱;f、將調(diào)整后的線譜頻率轉(zhuǎn)換為線性預(yù)測系數(shù),同時(shí)結(jié)合韻律預(yù)測模塊生成的基音頻率參數(shù),送入線性預(yù)測濾波器,合成語音并輸出。
對語音信號分幀求取線性預(yù)測系數(shù)是通過固定幀移加窗乘取的方法獲得各幀語音的短時(shí)信號波形,然后求取該幀信號對應(yīng)的各階線性預(yù)測系數(shù),求取方法為基于時(shí)域波形自相關(guān)系數(shù)的線性預(yù)測系數(shù)求取方法;或者自適應(yīng)加權(quán)譜內(nèi)插的方法,首先計(jì)算該幀語音對應(yīng)的頻譜包絡(luò),再利用全極點(diǎn)模型擬合求解線性預(yù)測系數(shù)。
線譜頻率及其階間差分參數(shù)的獲得過程中,選擇保留所有的階間差分參數(shù),或者為了降低參數(shù)維數(shù)選擇僅保留較低階的階間差分參數(shù)。
所述加窗是指高斯窗,窗寬為基音周期長度的兩倍,幀移5毫秒,這里提出的在語音合成系統(tǒng)中基于線譜頻率及其階間差分參數(shù)的頻譜建模與語音增強(qiáng)方法就是為了提高參數(shù)合成方法的語音清晰度,主要基于以下幾點(diǎn)考慮(1)線譜頻率參數(shù)相對于線性預(yù)測系數(shù)更加穩(wěn)定,相對于倒譜系數(shù)更加能夠反映與頻譜峰值相關(guān)的一些頻譜局部特征,相對于共振峰參數(shù)在求解上更加容易與魯棒;(2)線譜頻率對于頻譜局部特征的反映,主要是通過其相鄰階差分表現(xiàn)出來的,線譜頻率具有0~π的順序排列特征,當(dāng)兩個(gè)線譜頻率比較接近,即階間差分較小時(shí),會在頻譜包絡(luò)對應(yīng)頻率處形成一個(gè)峰,差分越小,峰值越尖銳,反之,頻譜越平坦。
通過觀察合成語音的頻譜可以發(fā)現(xiàn),在使用基于線譜頻率及其階間差分參數(shù)的頻譜建模與語音增強(qiáng)方法后,對比只使用線譜頻率參數(shù),頻譜中的共振峰部分得到了有效的銳化和增強(qiáng)。
通過對合成語音的實(shí)際測聽表明,使用該方法后,對比只使用線譜頻率參數(shù),合成語音的清晰度得到明顯提高,更容易被使用者接受。
同時(shí),對比其他的語音增強(qiáng)算法,由于該方法只是對各幀的頻譜參數(shù)進(jìn)行了調(diào)整,而沒有引入后濾波等額外處理,所以對與整個(gè)合成系統(tǒng)不會增加運(yùn)算量的消耗。
術(shù)語解釋語音合成(Text-To-Speech)又稱為文語轉(zhuǎn)化。它涉及聲學(xué)、語言學(xué)、數(shù)字信號處理、多媒體等多種學(xué)科,是中文信息處理領(lǐng)域的一項(xiàng)前沿技術(shù)。語音合成技術(shù)解決的主要問題是如何將電子化文本的文字信息轉(zhuǎn)化為能夠播放的聲音信息。近代語音合成技術(shù)是隨著計(jì)算機(jī)技術(shù)和數(shù)字信號處理技術(shù)的發(fā)展而發(fā)展起來的,目的是讓計(jì)算機(jī)能夠產(chǎn)生高清晰度、高自然度的連續(xù)語音。
線性預(yù)測系數(shù)(Linear Prediction Coefficient)線性預(yù)測分析從人的發(fā)聲機(jī)理入手,通過對聲道的短管級聯(lián)模型的研究,認(rèn)為系統(tǒng)的傳遞函數(shù)符合全極點(diǎn)數(shù)字濾波器的形式,從而當(dāng)前時(shí)刻的信號可以用前若干時(shí)刻的信號的線性組合來估計(jì),通過使實(shí)際語音的采樣值和線性預(yù)測采樣值之間達(dá)到均方差最小,即可得到線性預(yù)測系數(shù)。
線譜頻率(Linear Spectral Frequency)線譜頻率是一種和線性預(yù)測系數(shù)等價(jià)的聲道模型描述參數(shù),具有0~π的順序分布特征,可以依據(jù)線性預(yù)測系數(shù)求解獲得。
自適應(yīng)加權(quán)譜內(nèi)插(Speech Transformation and Representation usingAdaptive Interpolation of weiGHTed spectrum,STRAIGHT)一種針對語音信號的分析合成算法,它通過對語音短時(shí)譜進(jìn)行時(shí)頻域的自適應(yīng)內(nèi)插平滑來提取精確的譜包絡(luò)。
隱馬爾可夫模型(Hidden Markov Model)馬爾可夫模型的概念是一個(gè)離散時(shí)域有限狀態(tài)自動機(jī),隱馬爾可夫模型是指這一馬爾可夫模型的內(nèi)部狀態(tài)外界不可見,外界只能看到各個(gè)時(shí)刻的輸出值。用隱馬爾可夫刻畫語音信號需作出兩個(gè)假設(shè),一是內(nèi)部狀態(tài)的轉(zhuǎn)移只與上一狀態(tài)有關(guān),另一是輸出值只與當(dāng)前狀態(tài)(或當(dāng)前的狀態(tài)轉(zhuǎn)移)有關(guān),這兩個(gè)假設(shè)大大降低了模型的復(fù)雜度。
圖1利用預(yù)測得到階間差分參數(shù)對線譜頻率調(diào)整后合成語音頻譜的增強(qiáng)情況示例圖2本發(fā)明模型訓(xùn)練階段流程圖。
圖3本發(fā)明合成階段流程圖。
具體實(shí)施例方式
本發(fā)明具體的實(shí)現(xiàn)方式如下1.訓(xùn)練語音數(shù)據(jù)的頻譜參數(shù)化分析1)對語音信號分幀求取線性預(yù)測系數(shù)通過固定幀移加窗乘取(高斯窗,窗寬為基音周期長度的兩倍,幀移5毫秒)的方法獲得各幀語音的短時(shí)信號波形,然后求取該幀信號對應(yīng)的各階線性預(yù)測系數(shù)。求取方法可以采用基于時(shí)域波形自相關(guān)系數(shù)的線性預(yù)測系數(shù)求取方法;也可以采用自適應(yīng)加權(quán)譜內(nèi)插的方法,首先計(jì)算該幀語音對應(yīng)的頻譜包絡(luò),再利用全極點(diǎn)模型擬合求解線性預(yù)測系數(shù)。計(jì)算時(shí),可以根據(jù)語音信號采樣率的不同而對參數(shù)階數(shù)進(jìn)行不同的設(shè)定;2)線譜頻率及其階間差分參數(shù)的獲得將線性預(yù)測系數(shù)轉(zhuǎn)換成對應(yīng)階數(shù)的線譜頻率參數(shù),同時(shí),對相鄰階的線譜頻率計(jì)算其差分值(差分參數(shù)),作為頻譜參數(shù)提取結(jié)果的一部分,可以選擇保留所有的階間差分參數(shù),也可以為了降低參數(shù)維數(shù)選擇只保留較低階的階間差分參數(shù),因?yàn)槿硕鷮τ谡Z音低頻區(qū)域更加敏感。本2.對于各階線譜頻率及其階間差分參數(shù)分別進(jìn)行聲學(xué)模型的訓(xùn)練,采用的模型為隱馬爾可夫模型(Hidden Markov Model,HMM),在模型訓(xùn)練過程中,通過結(jié)合語音單元的上下文屬性利用決策樹對各參數(shù)對應(yīng)的模型進(jìn)行較為細(xì)致的分類,保證得到的聲學(xué)模型可以實(shí)現(xiàn)依據(jù)上下文屬性輸入的參數(shù)預(yù)測;3.合成階段的語音增強(qiáng)處理1)對用戶輸入的文本進(jìn)行分析,利用分析得到的各語音單元對應(yīng)的上下文屬性輸入訓(xùn)練得到的參數(shù)模型,預(yù)測合成時(shí)使用的各幀線譜頻率及階間差分參數(shù),由于線譜頻率和階間差分參數(shù)是分別獨(dú)立建模與預(yù)測的,所以預(yù)測得到的階間差分參數(shù)與預(yù)測得到的線譜頻率的實(shí)際階間差分參數(shù)相比并不一致;2)利用各幀預(yù)測得到的階間差分參數(shù)依據(jù)下式對線譜頻率進(jìn)行調(diào)整li′=li-1+ci-1+ci-12ci-12+ci2[(li+1-li-1)-(ci+ci-1)]]]>其中,l1,i=1,2,...,N為預(yù)測得到的當(dāng)前幀第i階的線譜頻率,N為線譜頻率參數(shù)的階數(shù);c1,i=1,2,...,M為預(yù)測得到的當(dāng)前幀第i+1階和第i階線譜頻率之間的階間差分參數(shù),M為階間差分參數(shù)的階數(shù),M<N;l1′,i=1,2,...,N為調(diào)整后當(dāng)前幀的N階線譜頻率。對于各階線譜頻率,可以選擇從低階(第2階)到高階(第M階)的調(diào)整順序,也可以選擇從高階(第M階)到低階(第2階)的調(diào)整順序,同時(shí)可以通過調(diào)整遍數(shù)來控制這種頻譜峰值增強(qiáng)作用的強(qiáng)弱。
3)將調(diào)整后的線譜頻率轉(zhuǎn)換為線性預(yù)測系數(shù),同時(shí)結(jié)合韻律預(yù)測模塊生成的基音頻率參數(shù),送入線性預(yù)測濾波器,合成語音并輸出。
圖1利用預(yù)測得到階間差分對線譜頻率調(diào)整后對應(yīng)合成語音頻譜的變化情況,以上為一幀合成語音/a/所對應(yīng)的幅度譜,采樣率為16kHz,線譜頻率階數(shù)為24,使用的階間差分參數(shù)階數(shù)為16,調(diào)整方法為由低階向高階調(diào)整一遍。
權(quán)利要求
1.基于線譜頻率及其階間差分參數(shù)的頻譜建模與語音增強(qiáng)方法,包括以下步驟(1)、對語音信號分幀求取線性預(yù)測系數(shù);(2)、線譜頻率及其階間差分參數(shù)的獲得將線性預(yù)測系數(shù)轉(zhuǎn)換成對應(yīng)階數(shù)的線譜頻率參數(shù),同時(shí),對相鄰階的線譜頻率計(jì)算其差分參數(shù);(3)、對于各階線譜頻率及其階間差分參數(shù)分別獨(dú)立進(jìn)行聲學(xué)模型的訓(xùn)練,采用的模型為隱馬爾可夫模型,在模型訓(xùn)練過程中,通過結(jié)合語音單元的上下文屬性利用決策樹對各參數(shù)對應(yīng)的模型進(jìn)行較為細(xì)致的分類,保證得到的聲學(xué)模型均可以實(shí)現(xiàn)依據(jù)上下文屬性輸入的參數(shù)預(yù)測;(4)、合成階段的語音增強(qiáng)處理a、對用戶輸入的文本進(jìn)行分析,利用分析得到的各語音單元對應(yīng)的上下文屬性輸入訓(xùn)練得到的聲學(xué)模型,預(yù)測合成時(shí)使用的各幀線譜頻率及階間差分參數(shù),由于線譜頻率和階間差分參數(shù)是分別通過二個(gè)獨(dú)立的聲學(xué)模型預(yù)測的,所以預(yù)測得到的階間差分參數(shù)與預(yù)測得到的線譜頻率的實(shí)際階間差分參數(shù)相比并不一致;b、利用各幀預(yù)測得到的階間差分參數(shù)依據(jù)下式對預(yù)測得到的線譜頻率進(jìn)行調(diào)整li′=li-1+ci-1+ci-12ci-12+ci2[(li+1-li-1)-(ci+ci-1)]]]>其中,li,i=1,2,...,N為預(yù)測得到的當(dāng)前幀第i階的線譜頻率,N為線譜頻率參數(shù)的階數(shù);ci,i=1,2,...,M為預(yù)測得到的當(dāng)前幀第i+1階和第i階線譜頻率之間的階間差分參數(shù),M為階間差分參數(shù)的階數(shù),M<N;li′,i=1,2,...,N為調(diào)整后當(dāng)前幀的N階線譜頻率。對于各階線譜頻率,可以選擇從低階(第2階)到高階(第M階)的調(diào)整順序,也可以選擇從高階(第M階)到低階(第2階)的調(diào)整順序,同時(shí)可以通過調(diào)整遍數(shù)來控制這種頻譜峰值增強(qiáng)作用的強(qiáng)弱;c、將調(diào)整后的線譜頻率轉(zhuǎn)換為線性預(yù)測系數(shù),同時(shí)結(jié)合韻律預(yù)測模塊生成的基音頻率參數(shù),送入線性預(yù)測濾波器,合成語音并輸出。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于對語音信號分幀求取線性預(yù)測系數(shù)是通過固定幀移加窗乘取的方法獲得各幀語音的短時(shí)信號波形,然后求取該幀信號對應(yīng)的各階線性預(yù)測系數(shù),求取方法為基于時(shí)域波形自相關(guān)系數(shù)的線性預(yù)測系數(shù)求取方法;或者自適應(yīng)加權(quán)譜內(nèi)插的方法,首先計(jì)算該幀語音對應(yīng)的頻譜包絡(luò),再利用全極點(diǎn)模型擬合求解線性預(yù)測系數(shù)。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于線譜頻率及其階間差分參數(shù)的獲得過程中,選擇保留所有的階間差分參數(shù),或者為了降低參數(shù)維數(shù)選擇僅保留較低階的階間差分參數(shù)。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于所述加窗是指高斯窗,窗寬為基音周期長度的兩倍,幀移5毫秒。
全文摘要
本發(fā)明公開了基于線譜頻率及其階間差分參數(shù)的頻譜建模與語音增強(qiáng)方法,包括在頻譜參數(shù)提取時(shí)將線譜頻率階間差分作為提取結(jié)果的一部分;在模型建模和訓(xùn)練時(shí)分別對線譜頻率及其階間差分參數(shù)進(jìn)行獨(dú)立建模和訓(xùn)練;在預(yù)測時(shí)分別預(yù)測線譜頻率及其階間差分參數(shù),并利用階間差分對線譜頻率參數(shù)進(jìn)行調(diào)整;最終利用調(diào)整后的線譜頻率參數(shù)合成輸出語音以達(dá)到通過增強(qiáng)和銳化合成語音的共振峰而提高合成語音音質(zhì)的目的。
文檔編號G10L13/02GK1815552SQ200610038589
公開日2006年8月9日 申請日期2006年2月28日 優(yōu)先權(quán)日2006年2月28日
發(fā)明者凌震華, 王玉華, 王仁華 申請人:安徽中科大訊飛信息科技有限公司