基于音節(jié)韻律約束關(guān)系的漢語語音合成方法及系統(tǒng)的制作方法

文檔序號(hào)：2829502閱讀：378來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：基于音節(jié)韻律約束關(guān)系的漢語語音合成方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明總的來說涉及一種漢語語音合成方法和語音合成系統(tǒng)，具體地涉及基于音節(jié)韻律約束關(guān)系的漢語語音合成方法及系統(tǒng)。
背景技術(shù)：
語音合成系統(tǒng)又稱文語轉(zhuǎn)換系統(tǒng)(TTS系統(tǒng))，它的主要功能是將計(jì)算機(jī)接收到的或輸入的任意文字串轉(zhuǎn)換成語音輸出。一般認(rèn)為，語音合成系統(tǒng)的功能模塊可細(xì)分為三個(gè)主要的組成部分文本分析模塊、韻律生成模塊和聲學(xué)模塊。其中韻律生成模塊作為承前啟后的一個(gè)模塊，對(duì)最終合成語音的自然度和流暢度起著至關(guān)重要的作用。
近年來基于大規(guī)模語料庫的合成方法，漸漸成為語音合成領(lǐng)域的主流技術(shù)首先分析待合成音節(jié)的上下文環(huán)境，然后遍歷整個(gè)語料庫，從中挑選一個(gè)上下文環(huán)境與待合成音節(jié)上下文環(huán)境最為相似的基元(在漢語合成系統(tǒng)中，一個(gè)基元通常是一種音節(jié))作為最終的輸出。這樣的方法存在著很多的問題，其中，最關(guān)鍵的一個(gè)問題是由語音產(chǎn)生的隨意性和不穩(wěn)定性造成的同一個(gè)人在不同的時(shí)間讀同樣的句子，其說話的語調(diào)由于環(huán)境、心情等其他因素的差異，其韻律表現(xiàn)也不會(huì)完全相同，因此，上下文環(huán)境最切合的基元未必是最合適的選擇。依據(jù)這種方法所合成的句子，在音節(jié)相交之處，往往容易產(chǎn)生韻律的不自然現(xiàn)象。因此，需要一種新的算法，可以模擬相鄰音節(jié)之間基頻曲線形狀的互相影響，這樣，才能夠構(gòu)建自然、流暢的語音合成系統(tǒng)。

發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)問題，本發(fā)明的目的是要提出一種算法，模擬相鄰音節(jié)之間基頻曲線形狀的互相影響，為此，本發(fā)明能夠構(gòu)建自然、流暢的提供一種基于音節(jié)韻律約束關(guān)系的漢語語音合成方法及系統(tǒng)。
本發(fā)明的第一方面，為實(shí)現(xiàn)上述目的，本發(fā)明提供的一種基于音節(jié)韻律約束關(guān)系的漢語語音合成系統(tǒng)包括利用各種電腦終端及數(shù)字移動(dòng)設(shè)備，將系統(tǒng)接收的或輸入的任意文字串轉(zhuǎn)換成語音輸出，還包括文本輸入模塊、韻律處理模塊、語音輸出模塊，文本輸入模塊、韻律處理模塊、語音輸出模塊三者依次連接，文本輸入模塊將接收的或輸入的任意文字串轉(zhuǎn)換成音節(jié)序列串，韻律處理模塊處理當(dāng)前待合成音節(jié)的基頻曲線、處理相鄰音節(jié)的基頻曲線對(duì)當(dāng)前音節(jié)基頻曲線的影響和限制；韻律處理模塊的輸出端與語音輸出模塊電連接，語音輸出模塊用于播放拼接成的數(shù)字語音信號(hào)，語音輸出模塊輸出的韻律曲線接近于自然語音。
本發(fā)明的第二方面，為實(shí)現(xiàn)上述目的，本發(fā)明的一種基于音節(jié)韻律約束關(guān)系的漢語語音合成方法，在處理當(dāng)前待合成音節(jié)的基頻曲線時(shí)，充分考慮相鄰音節(jié)的基頻曲線對(duì)當(dāng)前音節(jié)基頻曲線的影響和限制，并且利用統(tǒng)計(jì)模型的方法為這種影響和限制進(jìn)行自動(dòng)建模，模擬真實(shí)語音中相鄰音節(jié)之間基頻曲線形狀的互相影響，從而產(chǎn)生非常自然流暢的基頻曲線，其步驟如下文本輸入基于接收或輸入的任意文字串轉(zhuǎn)換成音節(jié)序列串；構(gòu)建文本分析模塊用于對(duì)所述輸入的文本進(jìn)行格式和內(nèi)容上的分析并將其轉(zhuǎn)換為音節(jié)序列串；同時(shí)為每個(gè)音節(jié)附著相關(guān)韻律信息；構(gòu)建韻律預(yù)測(cè)模塊包括離線訓(xùn)練部分和在線合成部分，用于接收所述附著韻律信息的音節(jié)序列串，根據(jù)韻律信息利用統(tǒng)計(jì)模型預(yù)測(cè)出與其對(duì)應(yīng)的目標(biāo)韻律值，包括音長、基頻曲線和平均能量，并將其附著在音節(jié)上；構(gòu)建波形拼接模塊用于接收所述附著目標(biāo)韻律值的音節(jié)序列串，根據(jù)所述音節(jié)序列攜帶的韻律信息從所述壓縮語音庫中選取與目標(biāo)韻律值最為接近的樣本序號(hào)，并將其拼接在一起，在拼接處作平滑處理；構(gòu)建語音輸出模塊用于播放拼接成的數(shù)字語音信號(hào)，語音輸出模塊輸出的韻律曲線接近于自然的語音。
本發(fā)明的有益效果本發(fā)明提供的系統(tǒng)和方法使用統(tǒng)計(jì)模型自動(dòng)構(gòu)建了相鄰音節(jié)基頻曲線的互相影響作用，并且在系統(tǒng)中充分考慮了這種作用。本發(fā)明將系統(tǒng)接收到的或輸入的任意文字串轉(zhuǎn)換為語音輸出。在此之前的以音節(jié)為單位的漢語語音合成系統(tǒng)，多是根據(jù)樣本的上下文環(huán)境進(jìn)行基元的選擇，但是由于語音產(chǎn)生的隨機(jī)性和不穩(wěn)定性，導(dǎo)致其合成語音的韻律表現(xiàn)不是非常自然，尤其是在相鄰音節(jié)的交匯處，更容易出現(xiàn)基頻曲線的跳躍，嚴(yán)重影響了合成語音的自然度。而本算法在處理合成語音的韻律曲線時(shí)，充分考慮到相鄰音節(jié)間的互相影響和互相限制，并且利用統(tǒng)計(jì)模型(分類與回歸樹)構(gòu)建了相鄰音節(jié)在韻律上的約束關(guān)系。這樣，在現(xiàn)有技術(shù)的合成系統(tǒng)中，容易出現(xiàn)在音節(jié)邊界處的韻律不連續(xù)現(xiàn)象基本上被清除了，所以，依照本發(fā)明方法合成的語音其韻律表現(xiàn)非常自然流暢，合成語音的韻律表現(xiàn)非常穩(wěn)定。本發(fā)明大大提高語音合成系統(tǒng)的穩(wěn)定性和自然度，使得系統(tǒng)合成的語音幾乎接近于自然語音?？蓱?yīng)用于各種電腦終端及手持?jǐn)?shù)字移動(dòng)設(shè)備。

通過以下結(jié)合附圖的詳細(xì)描述，本發(fā)明的上述和其它方面、特征和優(yōu)點(diǎn)將變得更加顯而易見。附圖中圖1是本發(fā)明基于音節(jié)韻律約束關(guān)系的漢語語音合成系統(tǒng)示意圖；圖2是本發(fā)明基于音節(jié)韻律約束關(guān)系的漢語語音合成系統(tǒng)的韻律處理模塊的在線合成部分示意圖；圖3是本發(fā)明基于音節(jié)韻律約束關(guān)系的漢語語音合成方法的的韻律處理模塊的離線訓(xùn)練部分示意圖；圖4是本發(fā)明基于音節(jié)韻律約束關(guān)系的漢語語音合成方法的在線合成部分中回歸樹構(gòu)建示意圖；圖5是本發(fā)明基于音節(jié)韻律約束關(guān)系的漢語語音合成方法的拼接代價(jià)和目標(biāo)代價(jià)定義說明圖；圖6是本發(fā)明基于音節(jié)韻律約束關(guān)系的漢語語音合成方法的搜索最優(yōu)路徑示意圖。
具體實(shí)施例方式
下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明進(jìn)一步說明，通過結(jié)合附圖對(duì)系統(tǒng)各組成部件的詳細(xì)說明將會(huì)更好地描述實(shí)現(xiàn)本發(fā)明的步驟和過程。應(yīng)該指出，所描述的施例僅僅視為說明的目的，而不是對(duì)本發(fā)明的限制。
圖1是本發(fā)明基于音節(jié)韻律約束關(guān)系的漢語語音合成系統(tǒng)示意圖，在附圖1本發(fā)明的優(yōu)選實(shí)施方案中，本發(fā)明的語音合成系統(tǒng)包括依次連接在一起的操作系統(tǒng)文本輸入模塊1、韻律處理模塊2和語音輸出模塊3；其中韻律處理模塊2由文本分析模塊10、韻律預(yù)測(cè)模塊20、波形拼接模塊30三部分組成，并且文本分析模塊10、韻律預(yù)測(cè)模塊20、波形拼接模塊30順序電連接；所述的文本輸入文本輸入模塊接收輸入的文本，在本發(fā)明的實(shí)施例中，系統(tǒng)提供可供手寫輸入的界面，用戶可自行輸入待合成的文本；也可選擇通過打開文本文件的方式來合成整個(gè)文件，用戶還可使用手寫筆挑選文件中的若干行單獨(dú)合成。可以利用各種電腦終端手持?jǐn)?shù)字移動(dòng)設(shè)備，可以設(shè)置在任一種操作系統(tǒng)中，將系統(tǒng)接收或輸入的任意文字串轉(zhuǎn)換成語音輸出的文本；本發(fā)明在掌上電腦上應(yīng)用上，所有語音功能均可以隨時(shí)在手持設(shè)備上啟用或關(guān)閉。在未啟用語音功能時(shí)，原手持設(shè)備的各種功能將不受任何影響。
所述構(gòu)建文本分析模塊10接收文本形式的輸入，用于對(duì)所述輸入的文本進(jìn)行格式和內(nèi)容上的分析并將其輸入漢字轉(zhuǎn)換為音節(jié)序列串，同時(shí)為每個(gè)音節(jié)附著一系列相關(guān)韻律信息。
所述相關(guān)韻律信息包括韻律詞、韻律短語的位置信息。
構(gòu)建韻律預(yù)測(cè)模塊20包括離線訓(xùn)練部分和在線合成部分，用于接收所述附著韻律信息的聲韻母音節(jié)序列串，根據(jù)韻律信息利用統(tǒng)計(jì)模型預(yù)測(cè)出與其對(duì)應(yīng)的目標(biāo)韻律值，同時(shí)也計(jì)算音節(jié)的音長、基頻曲線和平均能量，并將其附著在音節(jié)上。
構(gòu)建波形拼接模塊30用于接收所述附著目標(biāo)韻律值的聲韻母音節(jié)序列串，根據(jù)所述音節(jié)序列攜帶的韻律信息從所述壓縮語音庫中選取與目標(biāo)韻律值最為接近的樣本序號(hào)，并將其拼接在一起，在拼接處作平滑處理；
構(gòu)建語音輸出模塊3用于播放拼接成的數(shù)字語音信號(hào)，語音輸出模塊輸出的韻律曲線接近于自然的語音。
圖2是本發(fā)明基于音節(jié)韻律約束關(guān)系的漢語語音合成系統(tǒng)的韻律處理模塊的在線合成部分示意圖，圖中本發(fā)明韻律曲線產(chǎn)生算法離線訓(xùn)練部分只在該語音合成系統(tǒng)離線工作狀態(tài)時(shí)使用，僅用于生成該合成系統(tǒng)在線合成部分工作時(shí)需要韻律庫和各種回歸樹。
所述韻律預(yù)測(cè)模塊20是本系統(tǒng)中最重要的一個(gè)模塊，由韻律庫40和回歸樹50兩部分組成。
所述構(gòu)建韻律庫40中，首先利用語音識(shí)別工具包HTK對(duì)錄制好的原始語音庫進(jìn)行自動(dòng)切分，以得到每一個(gè)語音片斷在原始語句中的邊界位置信息，同時(shí)采用基頻檢測(cè)工具標(biāo)記出語音波形的峰值點(diǎn)位置信息，并手工對(duì)所述自動(dòng)獲得的邊界位置及峰值點(diǎn)位置進(jìn)行校對(duì)；這樣，就得到了準(zhǔn)確的音節(jié)邊界信息和基頻信息。而后，遍歷語音庫中每一個(gè)音節(jié)，并將其上下文信息、基頻特征參數(shù)信息、基頻曲線完整形狀信息、索引位置信息存在一個(gè)單獨(dú)的文件中，這個(gè)文件即稱為韻律庫。其中，上下文信息包括當(dāng)前音節(jié)ID，當(dāng)前調(diào)形，前音節(jié)韻母類型及ID，后音節(jié)聲母類型及ID，前音節(jié)調(diào)形，后音節(jié)調(diào)形，低層次韻律層次相對(duì)高層次韻律層次的相對(duì)位置(韻律層次包括韻律詞、韻律短語、語句，相對(duì)位置包括在層次的首、中、尾)，所屬音節(jié)的韻律詞、韻律短語長度(以音節(jié)個(gè)數(shù)為單位)?；l特征參數(shù)包括一個(gè)音節(jié)內(nèi)部基頻曲線的均值、最大值、最小值、初值、終值、初始斜率和終止斜率?；l曲線完整形狀信息通過從語料庫中每個(gè)音節(jié)的基頻曲線均勻提取十個(gè)點(diǎn)來描述完整基頻曲線信息。索引位置信息包括當(dāng)前音節(jié)所在句子的序號(hào)，當(dāng)前音節(jié)在本句中的位置。
如附圖4所示，本發(fā)明基于音節(jié)韻律約束關(guān)系的漢語語音合成方法的在線合成部分中回歸樹構(gòu)建示意圖；所述構(gòu)建回歸樹50中，回歸樹構(gòu)建共分為以下幾個(gè)步驟
構(gòu)建邊界信息和平均信息100首先將所有基頻特征參數(shù)分為兩類，邊界信息和平均信息100；所述邊界基頻特征參數(shù)構(gòu)建回歸樹110對(duì)所述邊界信息分別構(gòu)建回歸樹，通過這些樹反映在不同上下文環(huán)境下相鄰音節(jié)的韻律特征對(duì)當(dāng)前音節(jié)邊界基頻特征參數(shù)的影響；為邊界基頻特征參數(shù)構(gòu)建回歸樹110邊界基頻特征參數(shù)包括基頻初始值、終止值、初始斜率和終止斜率，這些特征參數(shù)受相鄰音節(jié)基頻曲線形狀的影響較大。
為平均基頻特征參數(shù)構(gòu)建回歸樹120平均基頻特征參數(shù)120包括基頻均值、最大值和最小值，這些特征參數(shù)受相鄰音節(jié)基頻曲線形狀較小，但受上下文環(huán)境影響較大。
對(duì)每一個(gè)平均基頻特征參數(shù)構(gòu)建一棵回歸樹。樹的輸入是上下文信息，輸出是平均基頻特征參數(shù)。對(duì)于每一個(gè)輸出參數(shù)，均使用同樣的上下文信息。為了訓(xùn)練取得較高的精度，這里使用的上下文信息同構(gòu)建韻律庫過程中提取的上下文信息略有不同，共包括當(dāng)前音節(jié)聲調(diào)、前音節(jié)聲調(diào)、后音節(jié)聲調(diào)、當(dāng)前聲母ID、當(dāng)前韻母ID、當(dāng)前音節(jié)在詞的位置、在短語中的位置、當(dāng)前音節(jié)之前的停頓類型、之后的停頓類型、當(dāng)前音節(jié)距離短語末尾的距離、當(dāng)前音節(jié)距離句子末尾的距離。建樹過程中，遍歷整個(gè)語料庫，對(duì)每一個(gè)音節(jié)提取這些上下文信息和平均基頻特征參數(shù)信息。每一個(gè)音節(jié)構(gòu)成一個(gè)輸入輸出對(duì)，遍歷整個(gè)語料庫后會(huì)得到n個(gè)輸入輸出對(duì)，將這n個(gè)輸入輸出對(duì)送入回歸樹訓(xùn)練工具wagon，即可自動(dòng)產(chǎn)生回歸樹。這些回歸樹反映了上下文環(huán)境對(duì)當(dāng)前音節(jié)平均基頻特征參數(shù)的影響。
所述構(gòu)建基頻特征參數(shù)回歸樹為每一個(gè)基頻特征參數(shù)構(gòu)建一個(gè)回歸樹，回歸樹既描述上下文信息對(duì)特征參數(shù)的影響，又描述相鄰音節(jié)各特征參數(shù)之間的相互影響。
所述平均基頻特征參數(shù)構(gòu)建回歸樹120通過這些樹反映上下文環(huán)境對(duì)當(dāng)前音節(jié)平均基頻特征參數(shù)的影響，對(duì)每一個(gè)平均基頻特征參數(shù)構(gòu)建一棵回歸樹。樹的輸入除了上下文信息外，還包括一些相鄰音節(jié)的韻律信息。這些韻律信息正反映了相鄰音節(jié)基頻曲線特征對(duì)當(dāng)前音節(jié)基頻特征參數(shù)的影響。為了提高訓(xùn)練的精度，在對(duì)不同的邊界基頻特征參數(shù)進(jìn)行訓(xùn)練時(shí)，使用不同的輔助韻律信息參與訓(xùn)練。當(dāng)訓(xùn)練基頻初始值和初始斜率的回歸樹時(shí)，所包含的韻律信息包括前一音節(jié)末尾基頻值、末尾基頻斜率、當(dāng)前音節(jié)前面的靜音段、當(dāng)前音節(jié)聲母的長度，這些信息描述了前一音節(jié)對(duì)當(dāng)前音節(jié)在韻律表現(xiàn)上的影響；當(dāng)訓(xùn)練基頻終止值和終止斜率時(shí)，所包含的韻律信息包括后一音節(jié)的初始基頻值、初始基頻斜率、當(dāng)前音節(jié)之后的靜音段、下一音節(jié)聲母的長度，這些信息描述了后一音節(jié)對(duì)當(dāng)前音節(jié)在韻律表現(xiàn)上的影響。類似于步驟110，每一個(gè)音節(jié)構(gòu)成一個(gè)輸入輸出對(duì)，遍歷整個(gè)語料庫后會(huì)得到n個(gè)輸入輸出對(duì)，將這n個(gè)輸入輸出對(duì)送入回歸樹訓(xùn)練工具wagon，即可自動(dòng)產(chǎn)生回歸樹。這些回歸樹反映了在不同上下文環(huán)境下相鄰音節(jié)的韻律特征對(duì)當(dāng)前音節(jié)邊界基頻特征參數(shù)的影響。
如圖3，本發(fā)明基于音節(jié)韻律約束關(guān)系的漢語語音合成方法的的韻律處理模塊的離線訓(xùn)練部分示意圖；在附圖3中，韻律曲線生成算法的離線訓(xùn)練部分包括初次選擇60、二次選擇70和曲線生成80三部分組成。
所述初次選擇60中，根據(jù)待合成音節(jié)與韻律庫中所有候選音節(jié)在上下文環(huán)境上的差異，并且設(shè)置一個(gè)合適的初選閾值，從韻律庫中選出n個(gè)上下文環(huán)境最相似的基頻模板；初次選擇的依據(jù)是文本信息的相似度。也即是說，搜索在步驟40中建立的韻律庫，比較當(dāng)前待合成音節(jié)的上下文信息與韻律庫中所有候選模板的上下文信息的差異，選出n(一般定義n＝10)個(gè)上下文信息最相似的模板作為本步驟的輸出。上下文差異的定義如下CID=Σi=1nWi*Di]]>其中CID表示待合成音節(jié)與候選模板間總的上下文信息之間的差異；Di表示待合成音節(jié)與候選模板間在第i中上下文信息上的差異，而Wi則表示第i中上下文信息差異在總的差異之中占的權(quán)重。
二次選擇70中，首先分別定義拼接代價(jià)和目標(biāo)代價(jià)，利用維特比(viterbi)算法在上一步產(chǎn)生的候選模板序列中挑選出代價(jià)加權(quán)和最小的序列，將其音節(jié)序號(hào)作為輸出；二次選擇的目的是找出最優(yōu)的模板序列，在這里拼接代價(jià)和目標(biāo)代價(jià)的定義被提出用來知道最優(yōu)路徑的選擇。拼接代價(jià)的定義是與基頻特征參數(shù)中的邊界信息相關(guān)的，每一種邊界信息對(duì)應(yīng)一種拼接代價(jià)。拼接代價(jià)的具體定義如下首先得到當(dāng)前待合成音節(jié)的上下文信息和其他所需要的韻律信息(包括前一音節(jié)的基頻終值、終止斜率、當(dāng)前音節(jié)之前的靜音長度和當(dāng)前音節(jié)的聲母長度)，結(jié)合步驟50中訓(xùn)練產(chǎn)生的回歸樹，可以預(yù)測(cè)出當(dāng)前音節(jié)的基頻初值和基頻初始斜率，而當(dāng)前候選音節(jié)真正的基頻初值和基頻初始斜率與該預(yù)測(cè)值的差即作為一種拼接代價(jià)。同樣，使用當(dāng)前待合成音節(jié)的上下文信息和與下一音節(jié)相關(guān)的韻律信息(包括下一音節(jié)的基頻初值、初始斜率、當(dāng)前音節(jié)之后的靜音長度和下一音節(jié)的聲母長度)，再結(jié)合步驟50中訓(xùn)練產(chǎn)生的回歸樹，可以預(yù)測(cè)出當(dāng)前音節(jié)的基頻終值和終止斜率。當(dāng)前音節(jié)真正的基頻終值和基頻終止斜率與該預(yù)測(cè)值的差即作為另一種拼接代價(jià)。拼接代價(jià)總的公式為concatenation_cost＝w1*DF0S+w2*DF0E+w3*DF0SD+w4*DF0ED其中，DF0各項(xiàng)表示所預(yù)測(cè)基頻特征值與真實(shí)基頻特征值的差距，DF0S，DF0E，DF0SD和DF0ED分別表示基頻初值、基頻終值、基頻初始斜率以及基頻終止斜率的差距。Wi則表示相應(yīng)基頻特征的權(quán)值。
另一方面，目標(biāo)代價(jià)的定義是與基頻特征參數(shù)中的平均信息相關(guān)的，每一種平均信息對(duì)應(yīng)一種目標(biāo)代價(jià)。目標(biāo)代價(jià)的具體定義如下首先得到當(dāng)前待合成音節(jié)的上下文信息，將其作為輸入，輸入到步驟50中訓(xùn)練產(chǎn)生的回歸樹，則可以預(yù)測(cè)出當(dāng)前音節(jié)的基頻均值、最大值、最小值。而當(dāng)前候選音節(jié)真正的基頻均值、最大值、最小值與這些預(yù)測(cè)值的差即作為目標(biāo)代價(jià)的值。目標(biāo)代價(jià)總的公式為overall_cost＝w5*DF0M+w6*DF0B+w7*DF0T其中，DF0各項(xiàng)表示所預(yù)測(cè)基頻特征值與真實(shí)基頻特征值的差距，DF0M，DF0B和DF0T分別表示基頻均值、基頻最小值以及基頻最大值的差距。Wi則表示相應(yīng)基頻特征的權(quán)值。
拼接代價(jià)和目標(biāo)代價(jià)的加權(quán)和即為總的代價(jià)值，其公式為COST＝concatenation_cost+overall_cost＝w1*DF0S+w2*DF0E+w3*DF0SD+w4*DF0ED+w5*DF0M+w6*DF0T+w7*DF0B圖5是本發(fā)明基于音節(jié)韻律約束關(guān)系的漢語語音合成方法的拼接代價(jià)和目標(biāo)代價(jià)定義說明圖；通過圖5可以直觀的了解計(jì)算代價(jià)的詳細(xì)步驟，根據(jù)分類和回歸樹(CART)模型，由當(dāng)前音節(jié)上下文信息、當(dāng)前音節(jié)聲母長度、當(dāng)前音節(jié)之前的靜音長度以及相鄰前一音節(jié)的基頻曲線預(yù)測(cè)當(dāng)前音節(jié)的基頻初值和基頻初始斜率；由當(dāng)前音節(jié)上下文信息、當(dāng)前音節(jié)之后的靜音長度、后一音節(jié)的聲母長度、相鄰后一音節(jié)基頻曲線預(yù)測(cè)當(dāng)前音節(jié)的基頻終值和基頻終止斜率。這樣，我們就預(yù)測(cè)得到了當(dāng)前音節(jié)的基頻初值、終值、初始斜率和終止斜率，與這些預(yù)測(cè)的值與當(dāng)前音節(jié)的真實(shí)值相比計(jì)算其差距，這即是拼接代價(jià)的值。
所述根據(jù)邊界信息定義拼接代價(jià)以基頻初值為例，拼接代價(jià)的定義方式如下將前一音節(jié)的信息和上下文信息作為回歸樹的輸入預(yù)測(cè)當(dāng)前音節(jié)的基頻初值，而當(dāng)前候選音節(jié)的實(shí)際基頻初值與預(yù)測(cè)出的基頻初值的差異即做為拼接代價(jià)。
所述根據(jù)平均信息定義目標(biāo)代價(jià)以基頻均值為例，將上下文信息作為回歸樹的輸入預(yù)測(cè)當(dāng)前音節(jié)的基頻均值，而實(shí)際候選音節(jié)的基頻均值與該預(yù)測(cè)值的差異即作為目標(biāo)代價(jià)。
有了上述總代價(jià)值的公式之后，在整個(gè)句子上使用維特比(viterbi)算法，可以挑選出令代價(jià)和最小的最優(yōu)的狀態(tài)序列。
圖6是本發(fā)明基于音節(jié)韻律約束關(guān)系的漢語語音合成方法的搜索最優(yōu)路徑示意圖。如圖6，直觀的描述了選取最優(yōu)路徑的過程，在圖中
虛線------表示所有可能路徑；實(shí)線表示最優(yōu)路徑；每一個(gè)圓圈代表一個(gè)候選模板，每一個(gè)待合成音節(jié)有數(shù)個(gè)候選模板可供選擇。對(duì)于每一個(gè)模板而言，可以計(jì)算其目標(biāo)代價(jià)；對(duì)于兩個(gè)相鄰音節(jié)的模板而言，可以計(jì)算其拼接代價(jià)。最終，維特比算法會(huì)搜算一條最優(yōu)路徑，使得該條路徑上計(jì)算的目標(biāo)代價(jià)和拼接代價(jià)和最小。
曲線生成80中，根據(jù)步驟70已得到的最優(yōu)狀態(tài)序列，在韻律庫中搜索得到其對(duì)應(yīng)的基頻曲線完整信息，依照輸出的音節(jié)序號(hào)在韻律庫中搜索，得到每一個(gè)音節(jié)的韻律曲線，并將其按順序拼接起來，為整個(gè)句子產(chǎn)生完整的韻律基頻曲線。至此韻律模塊工作結(jié)束。
上述實(shí)施例為本發(fā)明的較佳實(shí)施例，本發(fā)明的應(yīng)用不僅限于電腦終端，還可應(yīng)用到多種手持式移動(dòng)設(shè)備或其它形式的移動(dòng)設(shè)備。根據(jù)本發(fā)明的主要構(gòu)思，本領(lǐng)域普通技術(shù)人員均可以產(chǎn)生多種相類似的或等價(jià)的應(yīng)用，為此，本發(fā)明的范圍不應(yīng)由該描述來限定。本領(lǐng)域的技術(shù)人員應(yīng)該理解，在不脫離本發(fā)明的范圍的任何修改或局部替換，均屬于本發(fā)明權(quán)利要求來限定的范圍。
權(quán)利要求
1.一種基于音節(jié)韻律約束關(guān)系的漢語語音合成系統(tǒng)，利用各種電腦終端及數(shù)字移動(dòng)設(shè)備，將系統(tǒng)接收的或輸入的任意文字串轉(zhuǎn)換成語音輸出，其特征在于包括文本輸入模塊、韻律處理模塊、語音輸出模塊，文本輸入模塊、韻律處理模塊、語音輸出模塊三者依次連接，文本輸入模塊將接收的或輸入的任意文字串轉(zhuǎn)換成音節(jié)序列串，韻律處理模塊處理當(dāng)前待合成音節(jié)的基頻曲線、處理相鄰音節(jié)的基頻曲線對(duì)當(dāng)前音節(jié)基頻曲線的影響和限制；韻律處理模塊的輸出端與語音輸出模塊電連接，語音輸出模塊用于播放拼接成的數(shù)字語音信號(hào)，語音輸出模塊輸出的韻律曲線接近于自然語音。
2.根據(jù)權(quán)利要求1所述的基于音節(jié)韻律約束關(guān)系的漢語語音合成系統(tǒng)，其特征在于韻律處理模塊包括文本分析模塊、韻律預(yù)測(cè)模塊、波形拼接模塊；文本輸入模塊、文本分析模塊、韻律預(yù)測(cè)模塊與波形拼接模塊順序電連接。
3.一種基于音節(jié)韻律約束關(guān)系的漢語語音合成方法，其特征在于合成方法包括文本輸入基于接收或輸入的任意文字串轉(zhuǎn)換成音節(jié)序列串；構(gòu)建文本分析模塊用于對(duì)所述輸入的文本進(jìn)行格式和內(nèi)容上的分析并將其轉(zhuǎn)換為音節(jié)序列串；同時(shí)為每個(gè)音節(jié)附著相關(guān)韻律信息；構(gòu)建韻律預(yù)測(cè)模塊包括離線訓(xùn)練部分和在線合成部分，用于接收所述附著韻律信息的音節(jié)序列串，根據(jù)韻律信息利用統(tǒng)計(jì)模型預(yù)測(cè)出與其對(duì)應(yīng)的目標(biāo)韻律值，包括音長、基頻曲線和平均能量，并將其附著在音節(jié)上；構(gòu)建波形拼接模塊用于接收所述附著目標(biāo)韻律值的音節(jié)序列串，根據(jù)所述音節(jié)序列攜帶的韻律信息從所述壓縮語音庫中選取與目標(biāo)韻律值最為接近的樣本序號(hào)，并將其拼接在一起，在拼接處作平滑處理；構(gòu)建語音輸出模塊用于播放拼接成的數(shù)字語音信號(hào)，語音輸出模塊輸出的韻律曲線接近于自然的語音。
4.根據(jù)權(quán)利要求3所述的基于音節(jié)韻律約束關(guān)系的漢語語音合成方法，其特征在于，所述韻律預(yù)測(cè)模塊包括基于韻律曲線產(chǎn)生算法構(gòu)建離線訓(xùn)練部分包括韻律庫構(gòu)建、回歸樹構(gòu)建；基于韻律曲線產(chǎn)生算法構(gòu)建在線合成部分包括韻律初次選擇、韻律二次選擇、韻律曲線生成。
5.根據(jù)權(quán)利要求3所述的基于音節(jié)韻律約束關(guān)系的漢語語音合成方法，其特征在于，所述韻律預(yù)測(cè)模塊的相關(guān)韻律信息主要包括韻律詞、韻律短語的位置信息。
6.根據(jù)權(quán)利要求3或4所述的基于音節(jié)韻律約束關(guān)系的漢語語音合成方法，其特征在于，所述構(gòu)建韻律預(yù)測(cè)模塊的韻律曲線產(chǎn)生算法離線訓(xùn)練部分包括構(gòu)建韻律庫遍歷語料庫中每一個(gè)音節(jié)，并將其上下文信息、基頻特征參數(shù)信息、基頻曲線完整形狀信息、索引位置信息存在一個(gè)單獨(dú)的文件中，稱為韻律庫；構(gòu)建基頻特征參數(shù)回歸樹為每一個(gè)基頻特征參數(shù)構(gòu)建一個(gè)回歸樹，回歸樹既描述上下文信息對(duì)特征參數(shù)的影響，又描述相鄰音節(jié)各特征參數(shù)之間的相互影響。
7.根據(jù)權(quán)利要求6所述的基于音節(jié)韻律約束關(guān)系的漢語語音合成方法，其特征在于，所述構(gòu)建韻律庫，其遍歷語料庫時(shí)涉及的特征包括上下文信息包括當(dāng)前音節(jié)ID，當(dāng)前調(diào)形，前音節(jié)韻母類型及前音節(jié)ID，后音節(jié)聲母類型及前音節(jié)ID，前音節(jié)調(diào)形，后音節(jié)調(diào)形，低層次韻律層次相對(duì)高層次韻律層次的相對(duì)位置，所屬音節(jié)的韻律詞、韻律短語長度(以音節(jié)個(gè)數(shù)為單位)，所屬音節(jié)的前后靜音段的長度；韻律詞、韻律短語、語句，相對(duì)位置包括在層次的首、中、尾?；l特征參數(shù)包括一個(gè)音節(jié)內(nèi)部基頻曲線的均值、最大值、最小值、初值、終值、初始斜率和終止斜率；基頻曲線完整形狀信息包括從語料庫中基頻曲線均勻提取十個(gè)點(diǎn)來描述完整基頻曲線信息；索引位置信息包括當(dāng)前音節(jié)所在句子的序號(hào)，當(dāng)前音節(jié)在本句中的位置。
8.根據(jù)權(quán)利要求7所述的基于音節(jié)韻律約束關(guān)系的漢語語音合成方法，其特征在于，所述韻律層次包括韻律詞、韻律短語、語句，相對(duì)位置包括在層次的首、中、尾。
9.根據(jù)權(quán)利要求6所述的基于音節(jié)韻律約束關(guān)系的漢語語音合成系方法，其特征在于，所述構(gòu)建基頻特征參數(shù)回歸樹，為每一個(gè)基頻特征參數(shù)構(gòu)建回歸樹的具體步驟如下將所提取的特征參數(shù)分為兩類，一類是受相鄰音節(jié)基頻形狀影響較大的邊界信息包括基頻初始值、終止值、初始斜率、終止斜率；另一類是受前后音節(jié)影響較小的平均信息包括基頻均值、最大值、最小值；對(duì)所述邊界信息分別構(gòu)建回歸樹，通過這些樹反映在不同上下文環(huán)境下相鄰音節(jié)的韻律特征對(duì)當(dāng)前音節(jié)邊界基頻特征參數(shù)的影響；對(duì)所述平均信息分別構(gòu)建回歸樹，通過這些樹反映上下文環(huán)境對(duì)當(dāng)前音節(jié)平均基頻特征參數(shù)的影響。
10.根據(jù)權(quán)利要求3所述的基于音節(jié)韻律約束關(guān)系的漢語語音合成系統(tǒng)，其特征在于，所述構(gòu)建韻律預(yù)測(cè)模塊的在線合成部分包括初次選擇根據(jù)待合成音節(jié)與韻律庫中所有候選音節(jié)在上下文環(huán)境上的差異，并且設(shè)置一個(gè)合適的初選閾值，從韻律庫中選出n個(gè)上下文環(huán)境最相似的基頻模板；二次選擇首先分別定義拼接代價(jià)和目標(biāo)代價(jià)，利用維特比算法在上一步產(chǎn)生的候選模板序列中挑選出代價(jià)加權(quán)和最小的序列，將其音節(jié)序號(hào)作為輸出；生成基頻曲線依照輸出的音節(jié)序號(hào)在韻律庫中搜索，得到每一個(gè)音節(jié)的韻律曲線，并將每一個(gè)音節(jié)的韻律曲線按順序拼接起來，為整個(gè)句子產(chǎn)生完整的基頻曲線。
11.根據(jù)權(quán)利要求10所述的基于音節(jié)韻律約束關(guān)系的漢語語音合成系統(tǒng)，其特征在于，所述進(jìn)行第二次選擇包括根據(jù)邊界信息定義拼接代價(jià)；根據(jù)平均信息定義目標(biāo)代價(jià)。
全文摘要
本發(fā)明公開了一種基于音節(jié)韻律約束關(guān)系的漢語語音合成方法及系統(tǒng)，系統(tǒng)包括文本輸入模塊、韻律處理模塊、語音輸出模塊。方法包括接收或輸入任意文字串轉(zhuǎn)換成語音輸出；文本分析對(duì)輸入文本格式和內(nèi)容分析并轉(zhuǎn)換成音節(jié)序列串；韻律預(yù)測(cè)模塊接收附著韻律信息的音節(jié)序列串，利用統(tǒng)計(jì)模型預(yù)測(cè)出與其對(duì)應(yīng)的目標(biāo)韻律值；波形拼接模塊接收所述附著目標(biāo)韻律值的音節(jié)序列串，根據(jù)所述音節(jié)序列攜帶的韻律信息從所述壓縮語音庫中選取與目標(biāo)韻律值最為接近的樣本并拼接；語音輸出模塊播放韻律表現(xiàn)接近于自然的拼接語音。依據(jù)本發(fā)明將極大提高系統(tǒng)合成語音的自然度和流暢度，從而使得輸出的語音非常自然，幾乎接近真人所發(fā)出的語音。
文檔編號(hào)G10L13/02GK101064103SQ20061007601
公開日2007年10月31日申請(qǐng)日期2006年4月24日優(yōu)先權(quán)日2006年4月24日
發(fā)明者陶建華, 于劍申請(qǐng)人:中國科學(xué)院自動(dòng)化研究所

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陶建華;于劍
技術(shù)所有人：中國科學(xué)院自動(dòng)化研究所
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

漢語語音合成相關(guān)技術(shù)

漢語拼音音節(jié)相關(guān)技術(shù)

漢語拼音音節(jié)表相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于音節(jié)韻律約束關(guān)系的漢語語音合成方法及系統(tǒng)的制作方法