亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種用于漢語(yǔ)語(yǔ)音合成的音調(diào)修正方法

文檔序號(hào):2835993閱讀:230來(lái)源:國(guó)知局
專利名稱:一種用于漢語(yǔ)語(yǔ)音合成的音調(diào)修正方法
技術(shù)領(lǐng)域
本發(fā)明設(shè)計(jì)一種參數(shù)化語(yǔ)音合成方法,具體地涉及一種用于漢語(yǔ)語(yǔ)音合成的音調(diào)修正方法。
背景技術(shù)
語(yǔ)音合成技術(shù)的目標(biāo)是使電子設(shè)備向人類一樣發(fā)聲。隨著語(yǔ)音合成技術(shù)的發(fā)展, 合成聲音的音質(zhì)、自然度、智能度都有了很大提高,其中發(fā)展最為迅速的是基于參數(shù)化統(tǒng)計(jì)模型的語(yǔ)音合成技術(shù)?;陔[馬爾科夫模型的參數(shù)化統(tǒng)計(jì)語(yǔ)音合成技術(shù)是這一類方法的代表,其合成音質(zhì)具有較高的連貫度和靈活度,所需的資源占用空間較小,具有極大的實(shí)用和研究?jī)r(jià)值。這種方法分為兩個(gè)部分,一是離線的模型訓(xùn)練部分,一是在線的語(yǔ)音合成部分。 在離線訓(xùn)練部分,首先將訓(xùn)練語(yǔ)料進(jìn)行參數(shù)化表示,通常表示為基頻、增益和聲道譜系數(shù)。 為指導(dǎo)隱馬爾科夫模型的訓(xùn)練,要事先對(duì)每條訓(xùn)練語(yǔ)料進(jìn)行標(biāo)注,標(biāo)注內(nèi)容包括音節(jié)、音調(diào)和韻律層級(jí)結(jié)構(gòu)等。在在線合成部分,對(duì)任意合成文本進(jìn)行分析得到合成標(biāo)注,然后使用參數(shù)模型進(jìn)行參數(shù)結(jié)算及合成濾波,最終輸出語(yǔ)音。由于在漢語(yǔ)合成中單個(gè)音節(jié)的音調(diào)準(zhǔn)確率對(duì)于合成語(yǔ)音的可懂度和自然度都有著至關(guān)重要的作用,而隱馬爾科夫模型屬于一種按狀態(tài)分段的分段模型,各個(gè)分段之間相互獨(dú)立,造成在一個(gè)音節(jié)內(nèi)的基頻出現(xiàn)不平滑的現(xiàn)象,導(dǎo)致可懂度和自然度的明顯下降。因此,需要一種新的算法,能夠?qū)σ艄?jié)的整體基頻包絡(luò)進(jìn)行可訓(xùn)練的描述,以捕捉不同說(shuō)話人在發(fā)聲過(guò)程中的不同語(yǔ)境下的不同音調(diào)表現(xiàn),并能夠在合成時(shí)對(duì)狀態(tài)模型生成的基頻包絡(luò)進(jìn)行修正,改善合成語(yǔ)音的音調(diào)準(zhǔn)確率,進(jìn)而提高可懂度和韻律表現(xiàn)力。

發(fā)明內(nèi)容
為了解決現(xiàn)有的技術(shù)缺陷,本發(fā)明的目的是要提出一種算法,能夠?qū)σ艄?jié)的整體基頻包絡(luò)進(jìn)行可訓(xùn)練的描述,以捕捉不同說(shuō)話人在發(fā)聲過(guò)程中的不同語(yǔ)境下的不同音調(diào)表現(xiàn),并能夠在合成時(shí)對(duì)狀態(tài)模型生成的基頻包絡(luò)進(jìn)行修正,改善合成語(yǔ)音的音調(diào)準(zhǔn)確率,進(jìn)而提高可懂度和韻律表現(xiàn)力。為此,本發(fā)明構(gòu)建一種用于漢語(yǔ)語(yǔ)音合成的音調(diào)修正方法。為實(shí)現(xiàn)上述目的,本發(fā)明的一種用于漢語(yǔ)語(yǔ)音合成的音調(diào)修正方法,利用各種計(jì)算機(jī)和數(shù)字設(shè)備的輸入,將所接收到的任意文字串轉(zhuǎn)化為語(yǔ)音輸出,其特征在于由離線訓(xùn)練模塊和參數(shù)語(yǔ)音合成模塊組成,其中具有一離線訓(xùn)練模塊,負(fù)責(zé)參考音調(diào)模型和增益、基頻、聲道譜和時(shí)長(zhǎng)的參數(shù)生成模型的訓(xùn)練;具有一參數(shù)語(yǔ)音合成模塊,輸入端接受文本信息,負(fù)責(zé)進(jìn)行文本分析并根據(jù)文本分析的結(jié)果生成增益、聲道譜系數(shù)序列和音調(diào)修正的基頻序列,并進(jìn)一步合成語(yǔ)音信號(hào);具有一輸出端輸出合成的語(yǔ)音信號(hào);根據(jù)本發(fā)明的實(shí)施例,所述離線訓(xùn)練模塊包括具有一參考音調(diào)模型訓(xùn)練模塊,負(fù)責(zé)提取訓(xùn)練語(yǔ)料的參數(shù)化音調(diào),使用基于上下文的隱馬爾科夫模型進(jìn)行參考音調(diào)模型的訓(xùn)練;具有一連續(xù)隱馬爾科夫訓(xùn)練模塊,使用連續(xù)隱馬爾科夫模型進(jìn)行增益、聲道譜和時(shí)長(zhǎng)生成模型的訓(xùn)練;具有一多空間隱馬爾科夫模型訓(xùn)練模塊,使用多空間概率隱馬爾科夫模型進(jìn)行基頻生成模型的訓(xùn)練。根據(jù)本發(fā)明的實(shí)施例,所述參考音調(diào)模型訓(xùn)練模塊包括具有一基頻提取模塊,負(fù)責(zé)對(duì)全部訓(xùn)練語(yǔ)音進(jìn)行精確的基頻提取得到訓(xùn)練語(yǔ)料平滑的基頻曲線;具有一基頻參數(shù)化模塊,負(fù)責(zé)對(duì)全部訓(xùn)練語(yǔ)料的基頻進(jìn)行以音節(jié)為單位的參數(shù)化表不;具有一基于上下文的參考音調(diào)模型訓(xùn)練模塊,負(fù)責(zé)訓(xùn)練得到基于完整上下文的參考音調(diào)模型;具有一基于上下文的決策樹(shù)聚類模塊,負(fù)責(zé)根據(jù)上下文特征對(duì)參考音調(diào)模型進(jìn)行決策樹(shù)聚類;根據(jù)本發(fā)明的實(shí)施例,所述基頻參數(shù)化模塊包括具有一基頻歸一化模塊,負(fù)責(zé)對(duì)訓(xùn)練語(yǔ)料的基頻進(jìn)行歸一化處理,具有一輸出端負(fù)責(zé)輸出歸一化后的分段基頻包絡(luò);具有一基頻參數(shù)提取模塊,負(fù)責(zé)對(duì)歸一化的基頻包絡(luò)進(jìn)行參數(shù)化表示,具有一輸出端負(fù)責(zé)輸出歸一化分段基頻的包絡(luò)參數(shù);根據(jù)本發(fā)明的實(shí)施例,所述基于上下文的參考音調(diào)模型訓(xùn)練模塊包括具有一上下文信息統(tǒng)計(jì)模塊,負(fù)責(zé)統(tǒng)計(jì)訓(xùn)練語(yǔ)料中不同上下文的數(shù)目;具有一均值累加計(jì)算模塊,負(fù)責(zé)針對(duì)輸入的每條訓(xùn)練語(yǔ)料進(jìn)行相應(yīng)模型均值的累加計(jì)算;具有一方差計(jì)算模塊,負(fù)責(zé)計(jì)算參考音調(diào)模型的全局方差;具有一狀態(tài)累加模塊,負(fù)責(zé)統(tǒng)計(jì)每種上下文模型在訓(xùn)練語(yǔ)料中出現(xiàn)的次數(shù);根據(jù)本發(fā)明的實(shí)施例,所述參數(shù)語(yǔ)音合成模塊包括具有一文本分析模塊,負(fù)責(zé)接收所要合成的任意文字串,進(jìn)行音節(jié)和韻律層級(jí)結(jié)構(gòu)分析,具有一輸出端負(fù)責(zé)輸出完整的合成標(biāo)注信息;具有一時(shí)長(zhǎng)預(yù)測(cè)模塊,負(fù)責(zé)接收文本分析模塊輸出的合成標(biāo)注信息,使用時(shí)長(zhǎng)生成模型進(jìn)行狀態(tài)時(shí)長(zhǎng)預(yù)測(cè),具有一輸出端負(fù)責(zé)輸出狀態(tài)時(shí)長(zhǎng)預(yù)測(cè)結(jié)果;具有一基頻預(yù)測(cè)模塊,負(fù)責(zé)接收文本分析模塊輸出的合成標(biāo)注信息,使用基頻生成模型進(jìn)行清濁音判決、基頻包絡(luò)預(yù)測(cè)和逆歸一化因子的計(jì)算;具有一音調(diào)調(diào)整模塊,負(fù)責(zé)接收基頻預(yù)測(cè)模塊的清濁音判決結(jié)果、基頻包絡(luò)預(yù)測(cè)結(jié)果和逆歸一化因子,使用參考音調(diào)模型計(jì)算參考基頻包絡(luò),并進(jìn)行基頻包絡(luò)修正;具有一聲道參數(shù)生成模塊,負(fù)責(zé)接收文本分析模塊輸出的合成標(biāo)注信息,使用增益和聲道譜參數(shù)生成模型,計(jì)算增益和聲道譜參數(shù)序列;具有一波形生成模塊,負(fù)責(zé)接收音調(diào)調(diào)整模塊輸出的修正基頻包絡(luò)和聲道參數(shù)生成模塊輸出的基頻、增益和聲道譜參數(shù)序列,使用相應(yīng)的濾波器合成語(yǔ)音波形;根據(jù)本發(fā)明的實(shí)施例,所述基頻預(yù)測(cè)模塊包括;
具有一清濁音判決模塊,根據(jù)多空間基頻生成模型中清音空間和濁音空間的權(quán)重比,進(jìn)行狀態(tài)清濁音判決;具有一基頻包絡(luò)預(yù)測(cè)模塊,根據(jù)清濁音判決結(jié)果計(jì)算濁音部分的基頻值;具有一逆歸一化因子計(jì)算模塊,根據(jù)濁音部分的基頻值計(jì)算逆歸一化因子;根據(jù)本發(fā)明的實(shí)施例,所述音調(diào)調(diào)整模塊包括具有一音調(diào)預(yù)測(cè)模塊,負(fù)責(zé)接收文本分析模塊輸出的合成標(biāo)注信息,使用參考音調(diào)模型計(jì)算音節(jié)音調(diào)參數(shù);具有一逆參數(shù)化模塊,負(fù)責(zé)接收音調(diào)預(yù)測(cè)模塊輸出的音節(jié)音調(diào)參數(shù),生成參考基頻包絡(luò);具有一基頻修正模塊,負(fù)責(zé)接收逆參數(shù)化模塊輸出的參考基頻包絡(luò),生成修正的基頻包絡(luò);根據(jù)本發(fā)明的實(shí)施例,所述逆參數(shù)化模塊包括具有一包絡(luò)重構(gòu)模塊,負(fù)責(zé)接收音調(diào)預(yù)測(cè)模塊輸出的音節(jié)音調(diào)參數(shù),進(jìn)行基頻包絡(luò)重構(gòu);具有一逆歸一化模塊,負(fù)責(zé)接收包絡(luò)重構(gòu)模塊輸出的基頻包絡(luò)和逆歸一化因子計(jì)算模塊輸出的逆歸一化因子,進(jìn)行參考基頻包絡(luò)的計(jì)算;本發(fā)明的有益效果本發(fā)明的第一方面,為實(shí)現(xiàn)上述目的,在該方法中,使用音節(jié)基頻包絡(luò)的參數(shù)化表示進(jìn)行統(tǒng)計(jì)建模,解決狀態(tài)模型中各個(gè)狀態(tài)獨(dú)立帶來(lái)的基頻建模不連續(xù)問(wèn)題。通過(guò)在訓(xùn)練過(guò)程中考慮上下文語(yǔ)境,充分的對(duì)不同語(yǔ)境下的音調(diào)基頻變化進(jìn)行了估計(jì)。本發(fā)明的第二方面,為實(shí)現(xiàn)上述目的,本發(fā)明再合成階段,設(shè)計(jì)了一個(gè)音調(diào)基頻修正算法利用參考音調(diào)模型預(yù)測(cè)一個(gè)音調(diào)基頻包絡(luò),并根據(jù)基頻生成模型得到逆歸一化因子,進(jìn)一步得到參考基頻包絡(luò),使用參考基頻包絡(luò)對(duì)生成的基頻值進(jìn)行修正。通過(guò)上述算法,既保留了不同上下文語(yǔ)境中基頻的變化趨勢(shì),又提高了生成語(yǔ)音的音調(diào)準(zhǔn)確率,改善了可懂度和韻律表現(xiàn)力。


通過(guò)以下結(jié)合附圖的詳細(xì)描述,本發(fā)明的上述和其他方面、特征和優(yōu)點(diǎn)將變得更加顯而易見(jiàn)。附圖中附圖1是本發(fā)明所提出的用于漢語(yǔ)語(yǔ)音合成的音調(diào)修正方法的總體框圖附圖2是本發(fā)明離線訓(xùn)練模塊的框圖附圖3是本發(fā)明參考音調(diào)模型訓(xùn)練模塊的框圖附圖4是本發(fā)明基頻參數(shù)化模塊的框圖附圖5是本發(fā)明基于上下文的參考音調(diào)模型訓(xùn)練模塊的框圖附圖6是本發(fā)明參數(shù)語(yǔ)音合成模塊的框圖附圖7是本發(fā)明基頻預(yù)測(cè)和音調(diào)調(diào)整模塊的框中1.訓(xùn)練語(yǔ)音庫(kù),2.離線訓(xùn)練模塊,3.參考音調(diào)模型,4.合成參數(shù)模型,5.文本輸入,6.參數(shù)語(yǔ)音生產(chǎn)模塊,7.合成語(yǔ)音輸出,8.參考音調(diào)模型訓(xùn)練模塊,9.連續(xù)隱馬爾科夫訓(xùn)練模塊,10.多空間隱馬爾科夫模型訓(xùn)練模塊,11.基頻提取模塊,12.基頻參數(shù)化模塊,13.基于上下文的參考音調(diào)模型訓(xùn)練模塊,14.基于上下文的決策樹(shù)聚類模塊,15.訓(xùn)練語(yǔ)音提取的基頻,16.基頻參數(shù)提取模塊,18.是否處理完所有語(yǔ)料?,19.歸一化分段基頻的包絡(luò)參數(shù),20.上下文信息統(tǒng)計(jì)模塊,21.均值累加計(jì)算模塊,22.狀態(tài)累加模塊,23.是否處理完所有模型?,24.方差計(jì)算模塊,25.文本分析模塊,26.時(shí)長(zhǎng)預(yù)測(cè)模塊,27.基頻預(yù)測(cè)模塊,28.音調(diào)調(diào)整模塊,29.聲道參數(shù)生成模塊,30.波形生成模塊,31.合成標(biāo)注信息, 32.清濁音判決模塊,33.基頻包絡(luò)預(yù)測(cè)模塊,34.逆歸一化因子計(jì)算模塊,35.音調(diào)預(yù)測(cè)模塊,36.包絡(luò)重構(gòu)模塊,37.逆歸一化模塊,38.基頻修正模塊,39.修正基頻包絡(luò),40.逆參數(shù)化模塊。
具體實(shí)施例方式下面結(jié)合附圖和實(shí)例對(duì)本發(fā)明進(jìn)一步說(shuō)明,通過(guò)結(jié)合附圖對(duì)方法各關(guān)鍵步驟的詳細(xì)說(shuō)明將會(huì)更好地描述實(shí)現(xiàn)本發(fā)明的步驟和過(guò)程。應(yīng)該指出,所描述的實(shí)例僅僅視為說(shuō)明的目的,不是對(duì)本發(fā)明的限制。附圖1是本發(fā)明所提出的用于漢語(yǔ)語(yǔ)音合成的音調(diào)修正方法示意圖。實(shí)現(xiàn)的方法以標(biāo)準(zhǔn)C語(yǔ)言編寫,在windows平臺(tái)和imix平臺(tái)下均可編譯運(yùn)行。在附圖1本發(fā)明的優(yōu)選實(shí)施方案中,本方法分為兩個(gè)部分離線訓(xùn)練模塊2和參數(shù)語(yǔ)音合成模塊6組成。其中,離線訓(xùn)練模塊2與參數(shù)語(yǔ)音合成模塊6無(wú)連接,僅用于線下生成語(yǔ)音合成系統(tǒng)所使用的參考音調(diào)模型3和合成參數(shù)模型3。具有一離線訓(xùn)練模塊2,負(fù)責(zé)參考音調(diào)模型和增益、基頻、聲道譜和時(shí)長(zhǎng)的參數(shù)生成模型的訓(xùn)練;具有一參數(shù)語(yǔ)音合成模塊6,輸入端接受文本信息,負(fù)責(zé)進(jìn)行文本分析并根據(jù)文本分析的結(jié)果生成增益、聲道譜系數(shù)序列和音調(diào)修正的基頻序列,并進(jìn)一步合成語(yǔ)音信號(hào);具有一輸出端輸出合成的語(yǔ)音信號(hào)。如附圖2離線訓(xùn)練模塊的框圖所示,離線訓(xùn)練模塊2由參考音調(diào)模型訓(xùn)練模塊8、 連續(xù)隱馬爾科夫訓(xùn)練模塊9、多空間隱馬爾科夫模型訓(xùn)練模塊10組成。參考音調(diào)模型訓(xùn)練模塊8 負(fù)責(zé)對(duì)每條訓(xùn)練語(yǔ)料中的每個(gè)音節(jié)提取歸一化基頻包絡(luò)參數(shù),并訓(xùn)練參考音調(diào)模型。連續(xù)隱馬爾科夫訓(xùn)練模塊9 使用連續(xù)隱馬爾科夫模型進(jìn)行增益、聲道譜和時(shí)長(zhǎng)生成模型的訓(xùn)練。本發(fā)明的應(yīng)用于以音節(jié)為建?;暮铣上到y(tǒng)中,因此本實(shí)例采用隱半馬爾科夫模型(HSMM)作為音節(jié)基元參數(shù)模型,模型狀態(tài)數(shù)為12,其中包含1個(gè)入口狀態(tài)和 1個(gè)出口狀態(tài),中間10個(gè)狀態(tài)輸出聲學(xué)參數(shù)。采用基于加權(quán)自適應(yīng)譜插值(STRAIGHT)的 24維美爾廣義倒譜系數(shù)(MGC)。多空間隱馬爾科夫模型訓(xùn)練模塊10 使用多空間概率隱馬爾科夫模型進(jìn)行基頻生成模型的訓(xùn)練。本實(shí)例采用對(duì)數(shù)基頻作為基頻的表示方法,在多空間概率模型中,采用一個(gè)0維的清音空間和一個(gè)1維的濁音空間對(duì)清濁音在統(tǒng)一的框架下進(jìn)行基頻建模。如附圖3參考音調(diào)模型訓(xùn)練模塊的框圖所示,參考音調(diào)模型訓(xùn)練模塊8由基頻提取模塊11,基頻參數(shù)化模塊12,基于上下文的參考音調(diào)模型訓(xùn)練模塊13,基于上下文的決策樹(shù)聚類模塊14組成?;l提取模塊11 負(fù)責(zé)對(duì)全部訓(xùn)練語(yǔ)音進(jìn)行精確的基頻提取得到訓(xùn)練語(yǔ)料平滑的基頻曲線。本實(shí)例采用基于STRAIGHT的基頻提取算法。基頻參數(shù)化模塊12 負(fù)責(zé)對(duì)全部訓(xùn)練語(yǔ)料的基頻進(jìn)行以音節(jié)為單位的參數(shù)化表
7J\ ο基于上下文的參考音調(diào)模型訓(xùn)練模塊13 負(fù)責(zé)訓(xùn)練得到基于完整上下文的參考音調(diào)模型?;谏舷挛牡臎Q策樹(shù)聚類模塊14 負(fù)責(zé)根據(jù)上下文特征對(duì)參考音調(diào)模型進(jìn)行決策樹(shù)聚類。本實(shí)例采用分類回歸樹(shù)(CART)進(jìn)行基于上下文的音調(diào)模型聚類,采用最大似然準(zhǔn)則(ML)作為節(jié)點(diǎn)分裂準(zhǔn)則,采用最小描述長(zhǎng)度準(zhǔn)則(MDL)作為聚類終止準(zhǔn)則。如附圖4基頻參數(shù)化模塊的框圖所示,基頻參數(shù)化模塊12由基頻歸一化模塊16, 基頻參數(shù)提取模塊17組成?;l歸一化模塊16 負(fù)責(zé)對(duì)訓(xùn)練語(yǔ)料的基頻進(jìn)行歸一化處理,具有一輸出端負(fù)責(zé)輸出歸一化后的分段基頻包絡(luò)。歸一化基頻的計(jì)算方法為nF0t = F0t*nf其中,nf為歸一化因子。采用按句子級(jí)別的歸一化方法,其計(jì)算方法為 nf = —— ---Σ FO1
Ievl=I基頻參數(shù)提取模塊17 負(fù)責(zé)對(duì)歸一化的基頻包絡(luò)進(jìn)行參數(shù)化表示,具有一輸出端負(fù)責(zé)輸出歸一化分段基頻的包絡(luò)參數(shù)。本實(shí)例中采用離散余弦變換(DCT)作為歸一化分段基頻的包絡(luò)參數(shù)化表示方法,其計(jì)算方法為
權(quán)利要求
1.一種用于漢語(yǔ)語(yǔ)音合成的音調(diào)修正方法,利用各種計(jì)算機(jī)和數(shù)字設(shè)備的輸入,將所接收到的任意文字串轉(zhuǎn)化為語(yǔ)音輸出,其特征在于由離線訓(xùn)練模塊和參數(shù)語(yǔ)音合成模塊組成,其中具有一離線訓(xùn)練模塊,負(fù)責(zé)參考音調(diào)模型和增益、基頻、聲道譜和時(shí)長(zhǎng)的參數(shù)生成模型的訓(xùn)練;具有一參數(shù)語(yǔ)音合成模塊,輸入端接受文本信息,負(fù)責(zé)進(jìn)行文本分析并根據(jù)文本分析的結(jié)果生成增益、聲道譜系數(shù)序列和音調(diào)修正的基頻序列,并進(jìn)一步合成語(yǔ)音信號(hào);具有一輸出端輸出合成的語(yǔ)音信號(hào)。
2.根據(jù)權(quán)利要求1所述的一種用于漢語(yǔ)語(yǔ)音合成的音調(diào)修正方法,其特征在于所述離線訓(xùn)練模塊包括具有一參考音調(diào)模型訓(xùn)練模塊,負(fù)責(zé)提取訓(xùn)練語(yǔ)料的參數(shù)化音調(diào),使用基于上下文的隱馬爾科夫模型進(jìn)行參考音調(diào)模型的訓(xùn)練;具有一連續(xù)隱馬爾科夫訓(xùn)練模塊,使用連續(xù)隱馬爾科夫模型進(jìn)行增益、聲道譜和時(shí)長(zhǎng)生成模型的訓(xùn)練;具有一多空間隱馬爾科夫模型訓(xùn)練模塊,使用多空間概率隱馬爾科夫模型進(jìn)行基頻生成模型的訓(xùn)練。
3.根據(jù)權(quán)利要求1所述的一種用于漢語(yǔ)語(yǔ)音合成的音調(diào)修正方法,其特征在于所述參考音調(diào)模型訓(xùn)練模塊包括具有一基頻提取模塊,負(fù)責(zé)對(duì)全部訓(xùn)練語(yǔ)音進(jìn)行精確的基頻提取得到訓(xùn)練語(yǔ)料平滑的基頻曲線;具有一基頻參數(shù)化模塊,負(fù)責(zé)對(duì)全部訓(xùn)練語(yǔ)料的基頻進(jìn)行以音節(jié)為單位的參數(shù)化表示;具有一基于上下文的參考音調(diào)模型訓(xùn)練模塊,負(fù)責(zé)訓(xùn)練得到基于完整上下文的參考音調(diào)模型;具有一基于上下文的決策樹(shù)聚類模塊,負(fù)責(zé)根據(jù)上下文特征對(duì)參考音調(diào)模型進(jìn)行決策樹(shù)聚類。
4.根據(jù)權(quán)利要求1所述的一種用于漢語(yǔ)語(yǔ)音合成的音調(diào)修正方法,其特征在于所述基頻參數(shù)化模塊包括具有一基頻歸一化模塊,負(fù)責(zé)對(duì)訓(xùn)練語(yǔ)料的基頻進(jìn)行歸一化處理,具有一輸出端負(fù)責(zé)輸出歸一化后的分段基頻包絡(luò);具有一基頻參數(shù)提取模塊,負(fù)責(zé)對(duì)歸一化的基頻包絡(luò)進(jìn)行參數(shù)化表示,具有一輸出端負(fù)責(zé)輸出歸一化分段基頻的包絡(luò)參數(shù)。
5.根據(jù)權(quán)利要求1所述的一種用于漢語(yǔ)語(yǔ)音合成的音調(diào)修正方法,其特征在于所述基于上下文的參考音調(diào)模型訓(xùn)練模塊包括具有一上下文信息統(tǒng)計(jì)模塊,負(fù)責(zé)統(tǒng)計(jì)訓(xùn)練語(yǔ)料中不同上下文的數(shù)目; 具有一均值累加計(jì)算模塊,負(fù)責(zé)針對(duì)輸入的每條訓(xùn)練語(yǔ)料進(jìn)行相應(yīng)模型均值的累加計(jì)算;具有一方差計(jì)算模塊,負(fù)責(zé)計(jì)算參考音調(diào)模型的全局方差; 具有一狀態(tài)累加模塊,負(fù)責(zé)統(tǒng)計(jì)每種上下文模型在訓(xùn)練語(yǔ)料中出現(xiàn)的次數(shù)。
6.根據(jù)權(quán)利要求1所述的一種用于漢語(yǔ)語(yǔ)音合成的音調(diào)修正方法,其特征在于所述參數(shù)語(yǔ)音合成模塊包括具有一文本分析模塊,負(fù)責(zé)接收所要合成的任意文字串,進(jìn)行音節(jié)和韻律層級(jí)結(jié)構(gòu)分析,具有一輸出端負(fù)責(zé)輸出完整的合成標(biāo)注信息;具有一時(shí)長(zhǎng)預(yù)測(cè)模塊,負(fù)責(zé)接收文本分析模塊輸出的合成標(biāo)注信息,使用時(shí)長(zhǎng)生成模型進(jìn)行狀態(tài)時(shí)長(zhǎng)預(yù)測(cè),具有一輸出端負(fù)責(zé)輸出狀態(tài)時(shí)長(zhǎng)預(yù)測(cè)結(jié)果;具有一基頻預(yù)測(cè)模塊,負(fù)責(zé)接收文本分析模塊輸出的合成標(biāo)注信息,使用基頻生成模型進(jìn)行清濁音判決、基頻包絡(luò)預(yù)測(cè)和逆歸一化因子的計(jì)算;具有一音調(diào)調(diào)整模塊,負(fù)責(zé)接收基頻預(yù)測(cè)模塊的清濁音判決結(jié)果、基頻包絡(luò)預(yù)測(cè)結(jié)果和逆歸一化因子,使用參考音調(diào)模型計(jì)算參考基頻包絡(luò),并進(jìn)行基頻包絡(luò)修正;具有一聲道參數(shù)生成模塊,負(fù)責(zé)接收文本分析模塊輸出的合成標(biāo)注信息,使用增益和聲道譜參數(shù)生成模型,計(jì)算增益和聲道譜參數(shù)序列;具有一波形生成模塊,負(fù)責(zé)接收音調(diào)調(diào)整模塊輸出的修正基頻包絡(luò)和聲道參數(shù)生成模塊輸出的基頻、增益和聲道譜參數(shù)序列,使用相應(yīng)的濾波器合成語(yǔ)音波形。
7.根據(jù)權(quán)利要求1所述的一種用于漢語(yǔ)語(yǔ)音合成的音調(diào)修正方法,其特征在于所述基頻預(yù)測(cè)模塊包括;具有一清濁音判決模塊,根據(jù)多空間基頻生成模型中清音空間和濁音空間的權(quán)重比, 進(jìn)行狀態(tài)清濁音判決;具有一基頻包絡(luò)預(yù)測(cè)模塊,根據(jù)清濁音判決結(jié)果計(jì)算濁音部分的基頻值; 具有一逆歸一化因子計(jì)算模塊,根據(jù)濁音部分的基頻值計(jì)算逆歸一化因子。
8.根據(jù)權(quán)利要求1所述的一種用于漢語(yǔ)語(yǔ)音合成的音調(diào)修正方法,其特征在于所述音調(diào)調(diào)整模塊包括具有一音調(diào)預(yù)測(cè)模塊,負(fù)責(zé)接收文本分析模塊輸出的合成標(biāo)注信息,使用參考音調(diào)模型計(jì)算音節(jié)音調(diào)參數(shù);具有一逆參數(shù)化模塊,負(fù)責(zé)接收音調(diào)預(yù)測(cè)模塊輸出的音節(jié)音調(diào)參數(shù),生成參考基頻包具有一基頻修正模塊,負(fù)責(zé)接收逆參數(shù)化模塊輸出的參考基頻包絡(luò),生成修正的基頻包絡(luò);
9.根據(jù)權(quán)利要求1所述的一種用于漢語(yǔ)語(yǔ)音合成的音調(diào)修正方法,其特征在于所述逆參數(shù)化模塊包括具有一包絡(luò)重構(gòu)模塊,負(fù)責(zé)接收音調(diào)預(yù)測(cè)模塊輸出的音節(jié)音調(diào)參數(shù),進(jìn)行基頻包絡(luò)重構(gòu);具有一逆歸一化模塊,負(fù)責(zé)接收包絡(luò)重構(gòu)模塊輸出的基頻包絡(luò)和逆歸一化因子計(jì)算模塊輸出的逆歸一化因子,進(jìn)行參考基頻包絡(luò)的計(jì)算。
全文摘要
本發(fā)明公開(kāi)了一種用于漢語(yǔ)語(yǔ)音合成的音調(diào)修正方法,由文本分析模塊接收待合成的任意文本信息,根據(jù)音節(jié)和韻律層級(jí)結(jié)構(gòu)輸出完整的合成標(biāo)注信息;參數(shù)語(yǔ)音合成模塊接收文本分析模塊的合成標(biāo)注信息,使用考慮參考音調(diào)的參數(shù)生成的方法輸出合成的語(yǔ)音信號(hào);離線訓(xùn)練模塊負(fù)責(zé)各種隱馬爾科夫模型的訓(xùn)練,參考音調(diào)模型用于生成單個(gè)音節(jié)的參考基頻包絡(luò),合成參數(shù)模型用于得到合成的參數(shù)序列。依據(jù)本發(fā)明可以解決基于隱馬爾科夫模型的漢語(yǔ)語(yǔ)音合成中音調(diào)不穩(wěn)定的問(wèn)題,使合成語(yǔ)音的自然度和韻律感得到極大地改善。
文檔編號(hào)G10L13/02GK102496363SQ201110356259
公開(kāi)日2012年6月13日 申請(qǐng)日期2011年11月11日 優(yōu)先權(quán)日2011年11月11日
發(fā)明者何婭玲, 王朝民, 謝湘, 那興宇 申請(qǐng)人:北京宇音天下科技有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1