亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于音節(jié)韻律約束關(guān)系的漢語語音合成方法及系統(tǒng)的制作方法

文檔序號(hào):2829502閱讀:378來源:國知局
專利名稱:基于音節(jié)韻律約束關(guān)系的漢語語音合成方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明總的來說涉及一種漢語語音合成方法和語音合成系統(tǒng),具體地涉及基于音節(jié)韻律約束關(guān)系的漢語語音合成方法及系統(tǒng)。
背景技術(shù)
語音合成系統(tǒng)又稱文語轉(zhuǎn)換系統(tǒng)(TTS系統(tǒng)),它的主要功能是將計(jì)算機(jī)接收到的或輸入的任意文字串轉(zhuǎn)換成語音輸出。一般認(rèn)為,語音合成系統(tǒng)的功能模塊可細(xì)分為三個(gè)主要的組成部分文本分析模塊、韻律生成模塊和聲學(xué)模塊。其中韻律生成模塊作為承前啟后的一個(gè)模塊,對(duì)最終合成語音的自然度和流暢度起著至關(guān)重要的作用。
近年來基于大規(guī)模語料庫的合成方法,漸漸成為語音合成領(lǐng)域的主流技術(shù)首先分析待合成音節(jié)的上下文環(huán)境,然后遍歷整個(gè)語料庫,從中挑選一個(gè)上下文環(huán)境與待合成音節(jié)上下文環(huán)境最為相似的基元(在漢語合成系統(tǒng)中,一個(gè)基元通常是一種音節(jié))作為最終的輸出。這樣的方法存在著很多的問題,其中,最關(guān)鍵的一個(gè)問題是由語音產(chǎn)生的隨意性和不穩(wěn)定性造成的同一個(gè)人在不同的時(shí)間讀同樣的句子,其說話的語調(diào)由于環(huán)境、心情等其他因素的差異,其韻律表現(xiàn)也不會(huì)完全相同,因此,上下文環(huán)境最切合的基元未必是最合適的選擇。依據(jù)這種方法所合成的句子,在音節(jié)相交之處,往往容易產(chǎn)生韻律的不自然現(xiàn)象。因此,需要一種新的算法,可以模擬相鄰音節(jié)之間基頻曲線形狀的互相影響,這樣,才能夠構(gòu)建自然、流暢的語音合成系統(tǒng)。

發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)問題,本發(fā)明的目的是要提出一種算法,模擬相鄰音節(jié)之間基頻曲線形狀的互相影響,為此,本發(fā)明能夠構(gòu)建自然、流暢的提供一種基于音節(jié)韻律約束關(guān)系的漢語語音合成方法及系統(tǒng)。
本發(fā)明的第一方面,為實(shí)現(xiàn)上述目的,本發(fā)明提供的一種基于音節(jié)韻律約束關(guān)系的漢語語音合成系統(tǒng)包括利用各種電腦終端及數(shù)字移動(dòng)設(shè)備,將系統(tǒng)接收的或輸入的任意文字串轉(zhuǎn)換成語音輸出,還包括文本輸入模塊、韻律處理模塊、語音輸出模塊,文本輸入模塊、韻律處理模塊、語音輸出模塊三者依次連接,文本輸入模塊將接收的或輸入的任意文字串轉(zhuǎn)換成音節(jié)序列串,韻律處理模塊處理當(dāng)前待合成音節(jié)的基頻曲線、處理相鄰音節(jié)的基頻曲線對(duì)當(dāng)前音節(jié)基頻曲線的影響和限制;韻律處理模塊的輸出端與語音輸出模塊電連接,語音輸出模塊用于播放拼接成的數(shù)字語音信號(hào),語音輸出模塊輸出的韻律曲線接近于自然語音。
本發(fā)明的第二方面,為實(shí)現(xiàn)上述目的,本發(fā)明的一種基于音節(jié)韻律約束關(guān)系的漢語語音合成方法,在處理當(dāng)前待合成音節(jié)的基頻曲線時(shí),充分考慮相鄰音節(jié)的基頻曲線對(duì)當(dāng)前音節(jié)基頻曲線的影響和限制,并且利用統(tǒng)計(jì)模型的方法為這種影響和限制進(jìn)行自動(dòng)建模,模擬真實(shí)語音中相鄰音節(jié)之間基頻曲線形狀的互相影響,從而產(chǎn)生非常自然流暢的基頻曲線,其步驟如下文本輸入基于接收或輸入的任意文字串轉(zhuǎn)換成音節(jié)序列串;構(gòu)建文本分析模塊用于對(duì)所述輸入的文本進(jìn)行格式和內(nèi)容上的分析并將其轉(zhuǎn)換為音節(jié)序列串;同時(shí)為每個(gè)音節(jié)附著相關(guān)韻律信息;構(gòu)建韻律預(yù)測(cè)模塊包括離線訓(xùn)練部分和在線合成部分,用于接收所述附著韻律信息的音節(jié)序列串,根據(jù)韻律信息利用統(tǒng)計(jì)模型預(yù)測(cè)出與其對(duì)應(yīng)的目標(biāo)韻律值,包括音長、基頻曲線和平均能量,并將其附著在音節(jié)上;構(gòu)建波形拼接模塊用于接收所述附著目標(biāo)韻律值的音節(jié)序列串,根據(jù)所述音節(jié)序列攜帶的韻律信息從所述壓縮語音庫中選取與目標(biāo)韻律值最為接近的樣本序號(hào),并將其拼接在一起,在拼接處作平滑處理;構(gòu)建語音輸出模塊用于播放拼接成的數(shù)字語音信號(hào),語音輸出模塊輸出的韻律曲線接近于自然的語音。
本發(fā)明的有益效果本發(fā)明提供的系統(tǒng)和方法使用統(tǒng)計(jì)模型自動(dòng)構(gòu)建了相鄰音節(jié)基頻曲線的互相影響作用,并且在系統(tǒng)中充分考慮了這種作用。本發(fā)明將系統(tǒng)接收到的或輸入的任意文字串轉(zhuǎn)換為語音輸出。在此之前的以音節(jié)為單位的漢語語音合成系統(tǒng),多是根據(jù)樣本的上下文環(huán)境進(jìn)行基元的選擇,但是由于語音產(chǎn)生的隨機(jī)性和不穩(wěn)定性,導(dǎo)致其合成語音的韻律表現(xiàn)不是非常自然,尤其是在相鄰音節(jié)的交匯處,更容易出現(xiàn)基頻曲線的跳躍,嚴(yán)重影響了合成語音的自然度。而本算法在處理合成語音的韻律曲線時(shí),充分考慮到相鄰音節(jié)間的互相影響和互相限制,并且利用統(tǒng)計(jì)模型(分類與回歸樹)構(gòu)建了相鄰音節(jié)在韻律上的約束關(guān)系。這樣,在現(xiàn)有技術(shù)的合成系統(tǒng)中,容易出現(xiàn)在音節(jié)邊界處的韻律不連續(xù)現(xiàn)象基本上被清除了,所以,依照本發(fā)明方法合成的語音其韻律表現(xiàn)非常自然流暢,合成語音的韻律表現(xiàn)非常穩(wěn)定。本發(fā)明大大提高語音合成系統(tǒng)的穩(wěn)定性和自然度,使得系統(tǒng)合成的語音幾乎接近于自然語音??蓱?yīng)用于各種電腦終端及手持?jǐn)?shù)字移動(dòng)設(shè)備。


通過以下結(jié)合附圖的詳細(xì)描述,本發(fā)明的上述和其它方面、特征和優(yōu)點(diǎn)將變得更加顯而易見。附圖中圖1是本發(fā)明基于音節(jié)韻律約束關(guān)系的漢語語音合成系統(tǒng)示意圖;圖2是本發(fā)明基于音節(jié)韻律約束關(guān)系的漢語語音合成系統(tǒng)的韻律處理模塊的在線合成部分示意圖;圖3是本發(fā)明基于音節(jié)韻律約束關(guān)系的漢語語音合成方法的的韻律處理模塊的離線訓(xùn)練部分示意圖;圖4是本發(fā)明基于音節(jié)韻律約束關(guān)系的漢語語音合成方法的在線合成部分中回歸樹構(gòu)建示意圖;圖5是本發(fā)明基于音節(jié)韻律約束關(guān)系的漢語語音合成方法的拼接代價(jià)和目標(biāo)代價(jià)定義說明圖;圖6是本發(fā)明基于音節(jié)韻律約束關(guān)系的漢語語音合成方法的搜索最優(yōu)路徑示意圖。
具體實(shí)施例方式
下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明進(jìn)一步說明,通過結(jié)合附圖對(duì)系統(tǒng)各組成部件的詳細(xì)說明將會(huì)更好地描述實(shí)現(xiàn)本發(fā)明的步驟和過程。應(yīng)該指出,所描述的施例僅僅視為說明的目的,而不是對(duì)本發(fā)明的限制。
圖1是本發(fā)明基于音節(jié)韻律約束關(guān)系的漢語語音合成系統(tǒng)示意圖,在附圖1本發(fā)明的優(yōu)選實(shí)施方案中,本發(fā)明的語音合成系統(tǒng)包括依次連接在一起的操作系統(tǒng)文本輸入模塊1、韻律處理模塊2和語音輸出模塊3;其中韻律處理模塊2由文本分析模塊10、韻律預(yù)測(cè)模塊20、波形拼接模塊30三部分組成,并且文本分析模塊10、韻律預(yù)測(cè)模塊20、波形拼接模塊30順序電連接;所述的文本輸入文本輸入模塊接收輸入的文本,在本發(fā)明的實(shí)施例中,系統(tǒng)提供可供手寫輸入的界面,用戶可自行輸入待合成的文本;也可選擇通過打開文本文件的方式來合成整個(gè)文件,用戶還可使用手寫筆挑選文件中的若干行單獨(dú)合成。可以利用各種電腦終端手持?jǐn)?shù)字移動(dòng)設(shè)備,可以設(shè)置在任一種操作系統(tǒng)中,將系統(tǒng)接收或輸入的任意文字串轉(zhuǎn)換成語音輸出的文本;本發(fā)明在掌上電腦上應(yīng)用上,所有語音功能均可以隨時(shí)在手持設(shè)備上啟用或關(guān)閉。在未啟用語音功能時(shí),原手持設(shè)備的各種功能將不受任何影響。
所述構(gòu)建文本分析模塊10接收文本形式的輸入,用于對(duì)所述輸入的文本進(jìn)行格式和內(nèi)容上的分析并將其輸入漢字轉(zhuǎn)換為音節(jié)序列串,同時(shí)為每個(gè)音節(jié)附著一系列相關(guān)韻律信息。
所述相關(guān)韻律信息包括韻律詞、韻律短語的位置信息。
構(gòu)建韻律預(yù)測(cè)模塊20包括離線訓(xùn)練部分和在線合成部分,用于接收所述附著韻律信息的聲韻母音節(jié)序列串,根據(jù)韻律信息利用統(tǒng)計(jì)模型預(yù)測(cè)出與其對(duì)應(yīng)的目標(biāo)韻律值,同時(shí)也計(jì)算音節(jié)的音長、基頻曲線和平均能量,并將其附著在音節(jié)上。
構(gòu)建波形拼接模塊30用于接收所述附著目標(biāo)韻律值的聲韻母音節(jié)序列串,根據(jù)所述音節(jié)序列攜帶的韻律信息從所述壓縮語音庫中選取與目標(biāo)韻律值最為接近的樣本序號(hào),并將其拼接在一起,在拼接處作平滑處理;
構(gòu)建語音輸出模塊3用于播放拼接成的數(shù)字語音信號(hào),語音輸出模塊輸出的韻律曲線接近于自然的語音。
圖2是本發(fā)明基于音節(jié)韻律約束關(guān)系的漢語語音合成系統(tǒng)的韻律處理模塊的在線合成部分示意圖,圖中本發(fā)明韻律曲線產(chǎn)生算法離線訓(xùn)練部分只在該語音合成系統(tǒng)離線工作狀態(tài)時(shí)使用,僅用于生成該合成系統(tǒng)在線合成部分工作時(shí)需要韻律庫和各種回歸樹。
所述韻律預(yù)測(cè)模塊20是本系統(tǒng)中最重要的一個(gè)模塊,由韻律庫40和回歸樹50兩部分組成。
所述構(gòu)建韻律庫40中,首先利用語音識(shí)別工具包HTK對(duì)錄制好的原始語音庫進(jìn)行自動(dòng)切分,以得到每一個(gè)語音片斷在原始語句中的邊界位置信息,同時(shí)采用基頻檢測(cè)工具標(biāo)記出語音波形的峰值點(diǎn)位置信息,并手工對(duì)所述自動(dòng)獲得的邊界位置及峰值點(diǎn)位置進(jìn)行校對(duì);這樣,就得到了準(zhǔn)確的音節(jié)邊界信息和基頻信息。而后,遍歷語音庫中每一個(gè)音節(jié),并將其上下文信息、基頻特征參數(shù)信息、基頻曲線完整形狀信息、索引位置信息存在一個(gè)單獨(dú)的文件中,這個(gè)文件即稱為韻律庫。其中,上下文信息包括當(dāng)前音節(jié)ID,當(dāng)前調(diào)形,前音節(jié)韻母類型及ID,后音節(jié)聲母類型及ID,前音節(jié)調(diào)形,后音節(jié)調(diào)形,低層次韻律層次相對(duì)高層次韻律層次的相對(duì)位置(韻律層次包括韻律詞、韻律短語、語句,相對(duì)位置包括在層次的首、中、尾),所屬音節(jié)的韻律詞、韻律短語長度(以音節(jié)個(gè)數(shù)為單位)?;l特征參數(shù)包括一個(gè)音節(jié)內(nèi)部基頻曲線的均值、最大值、最小值、初值、終值、初始斜率和終止斜率?;l曲線完整形狀信息通過從語料庫中每個(gè)音節(jié)的基頻曲線均勻提取十個(gè)點(diǎn)來描述完整基頻曲線信息。索引位置信息包括當(dāng)前音節(jié)所在句子的序號(hào),當(dāng)前音節(jié)在本句中的位置。
如附圖4所示,本發(fā)明基于音節(jié)韻律約束關(guān)系的漢語語音合成方法的在線合成部分中回歸樹構(gòu)建示意圖;所述構(gòu)建回歸樹50中,回歸樹構(gòu)建共分為以下幾個(gè)步驟
構(gòu)建邊界信息和平均信息100首先將所有基頻特征參數(shù)分為兩類,邊界信息和平均信息100;所述邊界基頻特征參數(shù)構(gòu)建回歸樹110對(duì)所述邊界信息分別構(gòu)建回歸樹,通過這些樹反映在不同上下文環(huán)境下相鄰音節(jié)的韻律特征對(duì)當(dāng)前音節(jié)邊界基頻特征參數(shù)的影響;為邊界基頻特征參數(shù)構(gòu)建回歸樹110邊界基頻特征參數(shù)包括基頻初始值、終止值、初始斜率和終止斜率,這些特征參數(shù)受相鄰音節(jié)基頻曲線形狀的影響較大。
為平均基頻特征參數(shù)構(gòu)建回歸樹120平均基頻特征參數(shù)120包括基頻均值、最大值和最小值,這些特征參數(shù)受相鄰音節(jié)基頻曲線形狀較小,但受上下文環(huán)境影響較大。
對(duì)每一個(gè)平均基頻特征參數(shù)構(gòu)建一棵回歸樹。樹的輸入是上下文信息,輸出是平均基頻特征參數(shù)。對(duì)于每一個(gè)輸出參數(shù),均使用同樣的上下文信息。為了訓(xùn)練取得較高的精度,這里使用的上下文信息同構(gòu)建韻律庫過程中提取的上下文信息略有不同,共包括當(dāng)前音節(jié)聲調(diào)、前音節(jié)聲調(diào)、后音節(jié)聲調(diào)、當(dāng)前聲母ID、當(dāng)前韻母ID、當(dāng)前音節(jié)在詞的位置、在短語中的位置、當(dāng)前音節(jié)之前的停頓類型、之后的停頓類型、當(dāng)前音節(jié)距離短語末尾的距離、當(dāng)前音節(jié)距離句子末尾的距離。建樹過程中,遍歷整個(gè)語料庫,對(duì)每一個(gè)音節(jié)提取這些上下文信息和平均基頻特征參數(shù)信息。每一個(gè)音節(jié)構(gòu)成一個(gè)輸入輸出對(duì),遍歷整個(gè)語料庫后會(huì)得到n個(gè)輸入輸出對(duì),將這n個(gè)輸入輸出對(duì)送入回歸樹訓(xùn)練工具wagon,即可自動(dòng)產(chǎn)生回歸樹。這些回歸樹反映了上下文環(huán)境對(duì)當(dāng)前音節(jié)平均基頻特征參數(shù)的影響。
所述構(gòu)建基頻特征參數(shù)回歸樹為每一個(gè)基頻特征參數(shù)構(gòu)建一個(gè)回歸樹,回歸樹既描述上下文信息對(duì)特征參數(shù)的影響,又描述相鄰音節(jié)各特征參數(shù)之間的相互影響。
所述平均基頻特征參數(shù)構(gòu)建回歸樹120通過這些樹反映上下文環(huán)境對(duì)當(dāng)前音節(jié)平均基頻特征參數(shù)的影響,對(duì)每一個(gè)平均基頻特征參數(shù)構(gòu)建一棵回歸樹。樹的輸入除了上下文信息外,還包括一些相鄰音節(jié)的韻律信息。這些韻律信息正反映了相鄰音節(jié)基頻曲線特征對(duì)當(dāng)前音節(jié)基頻特征參數(shù)的影響。為了提高訓(xùn)練的精度,在對(duì)不同的邊界基頻特征參數(shù)進(jìn)行訓(xùn)練時(shí),使用不同的輔助韻律信息參與訓(xùn)練。當(dāng)訓(xùn)練基頻初始值和初始斜率的回歸樹時(shí),所包含的韻律信息包括前一音節(jié)末尾基頻值、末尾基頻斜率、當(dāng)前音節(jié)前面的靜音段、當(dāng)前音節(jié)聲母的長度,這些信息描述了前一音節(jié)對(duì)當(dāng)前音節(jié)在韻律表現(xiàn)上的影響;當(dāng)訓(xùn)練基頻終止值和終止斜率時(shí),所包含的韻律信息包括后一音節(jié)的初始基頻值、初始基頻斜率、當(dāng)前音節(jié)之后的靜音段、下一音節(jié)聲母的長度,這些信息描述了后一音節(jié)對(duì)當(dāng)前音節(jié)在韻律表現(xiàn)上的影響。類似于步驟110,每一個(gè)音節(jié)構(gòu)成一個(gè)輸入輸出對(duì),遍歷整個(gè)語料庫后會(huì)得到n個(gè)輸入輸出對(duì),將這n個(gè)輸入輸出對(duì)送入回歸樹訓(xùn)練工具wagon,即可自動(dòng)產(chǎn)生回歸樹。這些回歸樹反映了在不同上下文環(huán)境下相鄰音節(jié)的韻律特征對(duì)當(dāng)前音節(jié)邊界基頻特征參數(shù)的影響。
如圖3,本發(fā)明基于音節(jié)韻律約束關(guān)系的漢語語音合成方法的的韻律處理模塊的離線訓(xùn)練部分示意圖;在附圖3中,韻律曲線生成算法的離線訓(xùn)練部分包括初次選擇60、二次選擇70和曲線生成80三部分組成。
所述初次選擇60中,根據(jù)待合成音節(jié)與韻律庫中所有候選音節(jié)在上下文環(huán)境上的差異,并且設(shè)置一個(gè)合適的初選閾值,從韻律庫中選出n個(gè)上下文環(huán)境最相似的基頻模板;初次選擇的依據(jù)是文本信息的相似度。也即是說,搜索在步驟40中建立的韻律庫,比較當(dāng)前待合成音節(jié)的上下文信息與韻律庫中所有候選模板的上下文信息的差異,選出n(一般定義n=10)個(gè)上下文信息最相似的模板作為本步驟的輸出。上下文差異的定義如下CID=Σi=1nWi*Di]]>其中CID表示待合成音節(jié)與候選模板間總的上下文信息之間的差異;Di表示待合成音節(jié)與候選模板間在第i中上下文信息上的差異,而Wi則表示第i中上下文信息差異在總的差異之中占的權(quán)重。
二次選擇70中,首先分別定義拼接代價(jià)和目標(biāo)代價(jià),利用維特比(viterbi)算法在上一步產(chǎn)生的候選模板序列中挑選出代價(jià)加權(quán)和最小的序列,將其音節(jié)序號(hào)作為輸出;二次選擇的目的是找出最優(yōu)的模板序列,在這里拼接代價(jià)和目標(biāo)代價(jià)的定義被提出用來知道最優(yōu)路徑的選擇。拼接代價(jià)的定義是與基頻特征參數(shù)中的邊界信息相關(guān)的,每一種邊界信息對(duì)應(yīng)一種拼接代價(jià)。拼接代價(jià)的具體定義如下首先得到當(dāng)前待合成音節(jié)的上下文信息和其他所需要的韻律信息(包括前一音節(jié)的基頻終值、終止斜率、當(dāng)前音節(jié)之前的靜音長度和當(dāng)前音節(jié)的聲母長度),結(jié)合步驟50中訓(xùn)練產(chǎn)生的回歸樹,可以預(yù)測(cè)出當(dāng)前音節(jié)的基頻初值和基頻初始斜率,而當(dāng)前候選音節(jié)真正的基頻初值和基頻初始斜率與該預(yù)測(cè)值的差即作為一種拼接代價(jià)。同樣,使用當(dāng)前待合成音節(jié)的上下文信息和與下一音節(jié)相關(guān)的韻律信息(包括下一音節(jié)的基頻初值、初始斜率、當(dāng)前音節(jié)之后的靜音長度和下一音節(jié)的聲母長度),再結(jié)合步驟50中訓(xùn)練產(chǎn)生的回歸樹,可以預(yù)測(cè)出當(dāng)前音節(jié)的基頻終值和終止斜率。當(dāng)前音節(jié)真正的基頻終值和基頻終止斜率與該預(yù)測(cè)值的差即作為另一種拼接代價(jià)。拼接代價(jià)總的公式為concatenation_cost=w1*DF0S+w2*DF0E+w3*DF0SD+w4*DF0ED其中,DF0各項(xiàng)表示所預(yù)測(cè)基頻特征值與真實(shí)基頻特征值的差距,DF0S,DF0E,DF0SD和DF0ED分別表示基頻初值、基頻終值、基頻初始斜率以及基頻終止斜率的差距。Wi則表示相應(yīng)基頻特征的權(quán)值。
另一方面,目標(biāo)代價(jià)的定義是與基頻特征參數(shù)中的平均信息相關(guān)的,每一種平均信息對(duì)應(yīng)一種目標(biāo)代價(jià)。目標(biāo)代價(jià)的具體定義如下首先得到當(dāng)前待合成音節(jié)的上下文信息,將其作為輸入,輸入到步驟50中訓(xùn)練產(chǎn)生的回歸樹,則可以預(yù)測(cè)出當(dāng)前音節(jié)的基頻均值、最大值、最小值。而當(dāng)前候選音節(jié)真正的基頻均值、最大值、最小值與這些預(yù)測(cè)值的差即作為目標(biāo)代價(jià)的值。目標(biāo)代價(jià)總的公式為overall_cost=w5*DF0M+w6*DF0B+w7*DF0T其中,DF0各項(xiàng)表示所預(yù)測(cè)基頻特征值與真實(shí)基頻特征值的差距,DF0M,DF0B和DF0T分別表示基頻均值、基頻最小值以及基頻最大值的差距。Wi則表示相應(yīng)基頻特征的權(quán)值。
拼接代價(jià)和目標(biāo)代價(jià)的加權(quán)和即為總的代價(jià)值,其公式為COST=concatenation_cost+overall_cost=w1*DF0S+w2*DF0E+w3*DF0SD+w4*DF0ED+w5*DF0M+w6*DF0T+w7*DF0B圖5是本發(fā)明基于音節(jié)韻律約束關(guān)系的漢語語音合成方法的拼接代價(jià)和目標(biāo)代價(jià)定義說明圖;通過圖5可以直觀的了解計(jì)算代價(jià)的詳細(xì)步驟,根據(jù)分類和回歸樹(CART)模型,由當(dāng)前音節(jié)上下文信息、當(dāng)前音節(jié)聲母長度、當(dāng)前音節(jié)之前的靜音長度以及相鄰前一音節(jié)的基頻曲線預(yù)測(cè)當(dāng)前音節(jié)的基頻初值和基頻初始斜率;由當(dāng)前音節(jié)上下文信息、當(dāng)前音節(jié)之后的靜音長度、后一音節(jié)的聲母長度、相鄰后一音節(jié)基頻曲線預(yù)測(cè)當(dāng)前音節(jié)的基頻終值和基頻終止斜率。這樣,我們就預(yù)測(cè)得到了當(dāng)前音節(jié)的基頻初值、終值、初始斜率和終止斜率,與這些預(yù)測(cè)的值與當(dāng)前音節(jié)的真實(shí)值相比計(jì)算其差距,這即是拼接代價(jià)的值。
所述根據(jù)邊界信息定義拼接代價(jià)以基頻初值為例,拼接代價(jià)的定義方式如下將前一音節(jié)的信息和上下文信息作為回歸樹的輸入預(yù)測(cè)當(dāng)前音節(jié)的基頻初值,而當(dāng)前候選音節(jié)的實(shí)際基頻初值與預(yù)測(cè)出的基頻初值的差異即做為拼接代價(jià)。
所述根據(jù)平均信息定義目標(biāo)代價(jià)以基頻均值為例,將上下文信息作為回歸樹的輸入預(yù)測(cè)當(dāng)前音節(jié)的基頻均值,而實(shí)際候選音節(jié)的基頻均值與該預(yù)測(cè)值的差異即作為目標(biāo)代價(jià)。
有了上述總代價(jià)值的公式之后,在整個(gè)句子上使用維特比(viterbi)算法,可以挑選出令代價(jià)和最小的最優(yōu)的狀態(tài)序列。
圖6是本發(fā)明基于音節(jié)韻律約束關(guān)系的漢語語音合成方法的搜索最優(yōu)路徑示意圖。如圖6,直觀的描述了選取最優(yōu)路徑的過程,在圖中
虛線------表示所有可能路徑;實(shí)線 表示最優(yōu)路徑;每一個(gè)圓圈代表一個(gè)候選模板,每一個(gè)待合成音節(jié)有數(shù)個(gè)候選模板可供選擇。對(duì)于每一個(gè)模板而言,可以計(jì)算其目標(biāo)代價(jià);對(duì)于兩個(gè)相鄰音節(jié)的模板而言,可以計(jì)算其拼接代價(jià)。最終,維特比算法會(huì)搜算一條最優(yōu)路徑,使得該條路徑上計(jì)算的目標(biāo)代價(jià)和拼接代價(jià)和最小。
曲線生成80中,根據(jù)步驟70已得到的最優(yōu)狀態(tài)序列,在韻律庫中搜索得到其對(duì)應(yīng)的基頻曲線完整信息,依照輸出的音節(jié)序號(hào)在韻律庫中搜索,得到每一個(gè)音節(jié)的韻律曲線,并將其按順序拼接起來,為整個(gè)句子產(chǎn)生完整的韻律基頻曲線。至此韻律模塊工作結(jié)束。
上述實(shí)施例為本發(fā)明的較佳實(shí)施例,本發(fā)明的應(yīng)用不僅限于電腦終端,還可應(yīng)用到多種手持式移動(dòng)設(shè)備或其它形式的移動(dòng)設(shè)備。根據(jù)本發(fā)明的主要構(gòu)思,本領(lǐng)域普通技術(shù)人員均可以產(chǎn)生多種相類似的或等價(jià)的應(yīng)用,為此,本發(fā)明的范圍不應(yīng)由該描述來限定。本領(lǐng)域的技術(shù)人員應(yīng)該理解,在不脫離本發(fā)明的范圍的任何修改或局部替換,均屬于本發(fā)明權(quán)利要求來限定的范圍。
權(quán)利要求
1.一種基于音節(jié)韻律約束關(guān)系的漢語語音合成系統(tǒng),利用各種電腦終端及數(shù)字移動(dòng)設(shè)備,將系統(tǒng)接收的或輸入的任意文字串轉(zhuǎn)換成語音輸出,其特征在于包括文本輸入模塊、韻律處理模塊、語音輸出模塊,文本輸入模塊、韻律處理模塊、語音輸出模塊三者依次連接,文本輸入模塊將接收的或輸入的任意文字串轉(zhuǎn)換成音節(jié)序列串,韻律處理模塊處理當(dāng)前待合成音節(jié)的基頻曲線、處理相鄰音節(jié)的基頻曲線對(duì)當(dāng)前音節(jié)基頻曲線的影響和限制;韻律處理模塊的輸出端與語音輸出模塊電連接,語音輸出模塊用于播放拼接成的數(shù)字語音信號(hào),語音輸出模塊輸出的韻律曲線接近于自然語音。
2.根據(jù)權(quán)利要求1所述的基于音節(jié)韻律約束關(guān)系的漢語語音合成系統(tǒng),其特征在于韻律處理模塊包括文本分析模塊、韻律預(yù)測(cè)模塊、波形拼接模塊;文本輸入模塊、文本分析模塊、韻律預(yù)測(cè)模塊與波形拼接模塊順序電連接。
3.一種基于音節(jié)韻律約束關(guān)系的漢語語音合成方法,其特征在于合成方法包括文本輸入基于接收或輸入的任意文字串轉(zhuǎn)換成音節(jié)序列串;構(gòu)建文本分析模塊用于對(duì)所述輸入的文本進(jìn)行格式和內(nèi)容上的分析并將其轉(zhuǎn)換為音節(jié)序列串;同時(shí)為每個(gè)音節(jié)附著相關(guān)韻律信息;構(gòu)建韻律預(yù)測(cè)模塊包括離線訓(xùn)練部分和在線合成部分,用于接收所述附著韻律信息的音節(jié)序列串,根據(jù)韻律信息利用統(tǒng)計(jì)模型預(yù)測(cè)出與其對(duì)應(yīng)的目標(biāo)韻律值,包括音長、基頻曲線和平均能量,并將其附著在音節(jié)上;構(gòu)建波形拼接模塊用于接收所述附著目標(biāo)韻律值的音節(jié)序列串,根據(jù)所述音節(jié)序列攜帶的韻律信息從所述壓縮語音庫中選取與目標(biāo)韻律值最為接近的樣本序號(hào),并將其拼接在一起,在拼接處作平滑處理;構(gòu)建語音輸出模塊用于播放拼接成的數(shù)字語音信號(hào),語音輸出模塊輸出的韻律曲線接近于自然的語音。
4.根據(jù)權(quán)利要求3所述的基于音節(jié)韻律約束關(guān)系的漢語語音合成方法,其特征在于,所述韻律預(yù)測(cè)模塊包括基于韻律曲線產(chǎn)生算法構(gòu)建離線訓(xùn)練部分包括韻律庫構(gòu)建、回歸樹構(gòu)建;基于韻律曲線產(chǎn)生算法構(gòu)建在線合成部分包括韻律初次選擇、韻律二次選擇、韻律曲線生成。
5.根據(jù)權(quán)利要求3所述的基于音節(jié)韻律約束關(guān)系的漢語語音合成方法,其特征在于,所述韻律預(yù)測(cè)模塊的相關(guān)韻律信息主要包括韻律詞、韻律短語的位置信息。
6.根據(jù)權(quán)利要求3或4所述的基于音節(jié)韻律約束關(guān)系的漢語語音合成方法,其特征在于,所述構(gòu)建韻律預(yù)測(cè)模塊的韻律曲線產(chǎn)生算法離線訓(xùn)練部分包括構(gòu)建韻律庫遍歷語料庫中每一個(gè)音節(jié),并將其上下文信息、基頻特征參數(shù)信息、基頻曲線完整形狀信息、索引位置信息存在一個(gè)單獨(dú)的文件中,稱為韻律庫;構(gòu)建基頻特征參數(shù)回歸樹為每一個(gè)基頻特征參數(shù)構(gòu)建一個(gè)回歸樹,回歸樹既描述上下文信息對(duì)特征參數(shù)的影響,又描述相鄰音節(jié)各特征參數(shù)之間的相互影響。
7.根據(jù)權(quán)利要求6所述的基于音節(jié)韻律約束關(guān)系的漢語語音合成方法,其特征在于,所述構(gòu)建韻律庫,其遍歷語料庫時(shí)涉及的特征包括上下文信息包括當(dāng)前音節(jié)ID,當(dāng)前調(diào)形,前音節(jié)韻母類型及前音節(jié)ID,后音節(jié)聲母類型及前音節(jié)ID,前音節(jié)調(diào)形,后音節(jié)調(diào)形,低層次韻律層次相對(duì)高層次韻律層次的相對(duì)位置,所屬音節(jié)的韻律詞、韻律短語長度(以音節(jié)個(gè)數(shù)為單位),所屬音節(jié)的前后靜音段的長度;韻律詞、韻律短語、語句,相對(duì)位置包括在層次的首、中、尾?;l特征參數(shù)包括一個(gè)音節(jié)內(nèi)部基頻曲線的均值、最大值、最小值、初值、終值、初始斜率和終止斜率;基頻曲線完整形狀信息包括從語料庫中基頻曲線均勻提取十個(gè)點(diǎn)來描述完整基頻曲線信息;索引位置信息包括當(dāng)前音節(jié)所在句子的序號(hào),當(dāng)前音節(jié)在本句中的位置。
8.根據(jù)權(quán)利要求7所述的基于音節(jié)韻律約束關(guān)系的漢語語音合成方法,其特征在于,所述韻律層次包括韻律詞、韻律短語、語句,相對(duì)位置包括在層次的首、中、尾。
9.根據(jù)權(quán)利要求6所述的基于音節(jié)韻律約束關(guān)系的漢語語音合成系方法,其特征在于,所述構(gòu)建基頻特征參數(shù)回歸樹,為每一個(gè)基頻特征參數(shù)構(gòu)建回歸樹的具體步驟如下將所提取的特征參數(shù)分為兩類,一類是受相鄰音節(jié)基頻形狀影響較大的邊界信息包括基頻初始值、終止值、初始斜率、終止斜率;另一類是受前后音節(jié)影響較小的平均信息包括基頻均值、最大值、最小值;對(duì)所述邊界信息分別構(gòu)建回歸樹,通過這些樹反映在不同上下文環(huán)境下相鄰音節(jié)的韻律特征對(duì)當(dāng)前音節(jié)邊界基頻特征參數(shù)的影響;對(duì)所述平均信息分別構(gòu)建回歸樹,通過這些樹反映上下文環(huán)境對(duì)當(dāng)前音節(jié)平均基頻特征參數(shù)的影響。
10.根據(jù)權(quán)利要求3所述的基于音節(jié)韻律約束關(guān)系的漢語語音合成系統(tǒng),其特征在于,所述構(gòu)建韻律預(yù)測(cè)模塊的在線合成部分包括初次選擇根據(jù)待合成音節(jié)與韻律庫中所有候選音節(jié)在上下文環(huán)境上的差異,并且設(shè)置一個(gè)合適的初選閾值,從韻律庫中選出n個(gè)上下文環(huán)境最相似的基頻模板;二次選擇首先分別定義拼接代價(jià)和目標(biāo)代價(jià),利用維特比算法在上一步產(chǎn)生的候選模板序列中挑選出代價(jià)加權(quán)和最小的序列,將其音節(jié)序號(hào)作為輸出;生成基頻曲線依照輸出的音節(jié)序號(hào)在韻律庫中搜索,得到每一個(gè)音節(jié)的韻律曲線,并將每一個(gè)音節(jié)的韻律曲線按順序拼接起來,為整個(gè)句子產(chǎn)生完整的基頻曲線。
11.根據(jù)權(quán)利要求10所述的基于音節(jié)韻律約束關(guān)系的漢語語音合成系統(tǒng),其特征在于,所述進(jìn)行第二次選擇包括根據(jù)邊界信息定義拼接代價(jià);根據(jù)平均信息定義目標(biāo)代價(jià)。
全文摘要
本發(fā)明公開了一種基于音節(jié)韻律約束關(guān)系的漢語語音合成方法及系統(tǒng),系統(tǒng)包括文本輸入模塊、韻律處理模塊、語音輸出模塊。方法包括接收或輸入任意文字串轉(zhuǎn)換成語音輸出;文本分析對(duì)輸入文本格式和內(nèi)容分析并轉(zhuǎn)換成音節(jié)序列串;韻律預(yù)測(cè)模塊接收附著韻律信息的音節(jié)序列串,利用統(tǒng)計(jì)模型預(yù)測(cè)出與其對(duì)應(yīng)的目標(biāo)韻律值;波形拼接模塊接收所述附著目標(biāo)韻律值的音節(jié)序列串,根據(jù)所述音節(jié)序列攜帶的韻律信息從所述壓縮語音庫中選取與目標(biāo)韻律值最為接近的樣本并拼接;語音輸出模塊播放韻律表現(xiàn)接近于自然的拼接語音。依據(jù)本發(fā)明將極大提高系統(tǒng)合成語音的自然度和流暢度,從而使得輸出的語音非常自然,幾乎接近真人所發(fā)出的語音。
文檔編號(hào)G10L13/02GK101064103SQ20061007601
公開日2007年10月31日 申請(qǐng)日期2006年4月24日 優(yōu)先權(quán)日2006年4月24日
發(fā)明者陶建華, 于劍 申請(qǐng)人:中國科學(xué)院自動(dòng)化研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1