專利名稱:一種用于嵌入式語音合成系統(tǒng)的音庫壓縮及使用方法
技術(shù)領(lǐng)域:
本發(fā)明總的來說涉及一種面向嵌入式語音合成系統(tǒng)的音庫壓縮和使用方法,尤其 是存儲和運(yùn)算資源有限的終端設(shè)備。
背景技術(shù):
語音合成技術(shù)的目的是讓機(jī)器還原自然的人類語音,嵌入式設(shè)備應(yīng)用廣泛,終端 類嵌入式設(shè)備與用戶交互頻繁,語音是最自然的交互手段。一般的語音合成系統(tǒng)可分為三 個主要的功能模塊文本分析模塊、韻律生成模塊和聲學(xué)合成模塊?;诖笠?guī)模語料庫的 拼接合成方法由于技術(shù)簡單,合成音質(zhì)高被廣泛采用。但是,這種方法的音庫規(guī)模大,雖然 通過聚類、編碼和壓縮等技術(shù)手段處理后,空間可以降低,但音質(zhì)受到損傷,且靈活度下降。 因此,近年來基于大規(guī)模語料庫的統(tǒng)計(jì)建模參數(shù)合成方法被廣泛研究,基本思想是,對大量 的原始語音庫進(jìn)行參數(shù)化表示和統(tǒng)計(jì)建模,合成時依照特定規(guī)則挑選模型構(gòu)成模型序列, 進(jìn)一步計(jì)算得到合成語句的參數(shù)序列,通過參數(shù)化合成的方法合成符合要求的語音。通過 參數(shù)化統(tǒng)計(jì)建模方法合成的語音具有較高的自然度和智能度。在這種方法中,為保證合成 效果,原始語音庫需要盡可能覆蓋韻律特征,得到的模型庫可達(dá)到數(shù)百兆字節(jié)。經(jīng)過模型聚 類,可將模型庫壓縮至十兆左右。這種規(guī)模對一些掌上電腦等中高端設(shè)備的存儲和計(jì)算能 力來說可以滿足,但對于運(yùn)算和存儲資源有限的終端設(shè)備來說仍無法滿足實(shí)用的要求。在參數(shù)化統(tǒng)計(jì)建模語音庫的訓(xùn)練過程中,常采用的語音特征參數(shù)為基音頻率、 頻譜系數(shù)和時長特征,參數(shù)化模型為隱半馬爾科夫模型(HSMM)。根據(jù)隱半馬爾科夫模型 (HSMM)的狀態(tài)跳轉(zhuǎn)特性,每種特征的模型包括各個狀態(tài)的決策樹和表示決策樹葉節(jié)點(diǎn)的概 率分布函數(shù)。目前常采用的概率密度函數(shù)表示方法為單高斯模型。最終得到的模型中,頻 譜系數(shù)的模型占最終模型大小的80% 90%的空間,是最需要壓縮的部分。目前已有的 減小頻譜參數(shù)模型規(guī)模的方法采用降低數(shù)值精度、控制聚類因子和捆綁方差等方式。在采 用音節(jié)作為合成系統(tǒng)基本單元的前提下,控制訓(xùn)練數(shù)據(jù)量至合成語音聽感可接受的最小值 時,基于上述方法得到的模型庫至少也需要1兆字節(jié)的存儲空間。并且,若對聚類進(jìn)行更嚴(yán) 格的控制,則合成語音的自然度和音質(zhì)都會顯著下降。上述系統(tǒng)對資源有限的設(shè)備來說仍 然開銷較大,難以滿足用戶的需求。因此,需要一種改進(jìn)的方法,用于在嵌入式平臺下實(shí)現(xiàn) 占用資源較小的參數(shù)化語音合成系統(tǒng)。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種應(yīng)用于嵌入式中文語音合成系統(tǒng)的音庫 壓縮和使用方法。它使語音模型庫占用極小的空間資源,提高運(yùn)算速度,同時保持了較好的 合成自然度和音質(zhì)。為實(shí)現(xiàn)上述目的,本文提供了一種參數(shù)化統(tǒng)計(jì)模型的壓縮和使用方法,用于減小 模型庫占用的空間并維持合成的音質(zhì)。原始模型庫的訓(xùn)練和合成過程采用漢語中的音節(jié)作 為基本單元;模型庫的壓縮過程分為下述三個步驟
A.創(chuàng)建基于漢語音節(jié)的原始模型庫。B.將表示原始頻譜模型的單高斯分布分解為能量、譜均值和譜方差三部分。利用 矢量量化技術(shù)對譜均值和譜方差分別進(jìn)行壓縮。C.將能量、壓縮得到的譜均值碼本和索引以及全局方差組合,得到最終的壓縮模 型庫。上述的參數(shù)化統(tǒng)計(jì)模型的壓縮和使用方法,其特征是所述基于漢語音節(jié)為單元 的原始模型庫創(chuàng)建過程分為下述五個步驟A.創(chuàng)建基于漢語音節(jié)的原始語音庫。B.提取語音庫中所有音節(jié)的基音頻率、頻譜參數(shù)和時長參數(shù)。訓(xùn)練不考慮上下文 語境的音節(jié)模型。C.根據(jù)所有音節(jié)的語境信息訓(xùn)練考慮上下文語境的音節(jié)模型,并使用基于決策樹 的方法對模型進(jìn)行狀態(tài)聚類。D.將聚類后的模型參數(shù)進(jìn)一步訓(xùn)練。E.返回步驟C重復(fù)步驟C、D,輸出參數(shù)化統(tǒng)計(jì)模型。上述的參數(shù)化統(tǒng)計(jì)模型的壓縮和使用方法,其特征是所述頻譜模型壓縮過程分 為下述六個步驟A.將頻譜模型的狀態(tài)高斯分布分為能量、譜均值和譜方差三部分。本方法考慮了 一階動態(tài)特征和二階動態(tài)特征。B.將所有狀態(tài)分布的均值矢量(包含靜態(tài)特征、一階動態(tài)特征和二階動態(tài)特征) 作為訓(xùn)練樣本,進(jìn)行矢量量化的碼本訓(xùn)練。C.搜索矢量量化分類后每一類中離碼本距離最小的訓(xùn)練樣本,替代該類碼本保存 下來。D.用新的碼本對訓(xùn)練樣本重新分類。E.判斷新的分類結(jié)果與原分類結(jié)果是否相同。如果是,則譜均值矢量量化碼本訓(xùn) 練結(jié)束;如果否,則返回步驟C重復(fù)步驟C、D0F.將所有狀態(tài)分布的方差矢量(包含靜態(tài)特征、一階動態(tài)特征和二階動態(tài)特征) 進(jìn)行平均,得到全局方差矢量。上述的參數(shù)化統(tǒng)計(jì)模型的壓縮和使用方法,其特征是所述模型重新組合過程如 下將原模型中的狀態(tài)分布以能量值和對應(yīng)的均值矢量碼本索引代替,最后存入全局方差值。上述方法可大幅度壓縮采用音節(jié)作為基元的頻譜模型,同時保持了原模型合成的 音質(zhì)和自然度。為更好的滿足嵌入式設(shè)備運(yùn)算速度的要求,本發(fā)明還提供了一種嵌入式語音合成 系統(tǒng)。包括下述四個步驟A.文本分析及韻律生成模塊,用于對合成文本進(jìn)行內(nèi)容分析,得到對應(yīng)的音節(jié)序 列,同時每個音節(jié)附著相關(guān)的以上下文語境標(biāo)識的韻律信息,其格式與模型訓(xùn)練時使用的 標(biāo)識相同;B.模型決策模塊,用于接收上述附著韻律信息的音節(jié)序列,利用訓(xùn)練得到的模型 決策樹生成相應(yīng)的模型狀態(tài)序列,并得到時長決策結(jié)果;
C.參數(shù)序列生成模塊,用于接收上述模型狀態(tài)序列,利用所述的壓縮頻譜模型計(jì) 算全局方差加窗矩陣,最后計(jì)算得到譜參數(shù)序列和基頻參數(shù)序列;D.語音波形合成輸出模塊,用于接收所述的參數(shù)序列,生成所要合成的語音波形 數(shù)據(jù),并輸出播放或存儲。上述的嵌入式語音合成系統(tǒng),其特征是所述參數(shù)序列生成模塊分為以下5個步 驟A.根據(jù)頻譜系數(shù)的狀態(tài)序列計(jì)算得到能量序列和頻譜系數(shù)序列,根據(jù)基音頻率的 狀態(tài)序列計(jì)算得到基音頻率序列;B.根據(jù)全局方差計(jì)算全局方差矩陣。在參數(shù)生成過程中,采用逐維生成的方式計(jì) 算所需要合成的特征參數(shù),每次計(jì)算取一維的均值或全局方差;C.根據(jù)接收的模型狀態(tài)序列對應(yīng)的狀態(tài)譜均值碼本序列,獲取一維譜均值碼本序 列;D.根據(jù)接收的全局方差矩陣和狀態(tài)譜均值碼本序列求解特征參數(shù)序列;E.判斷是否處理完全部頻譜系數(shù)。如果是,則頻譜系數(shù)求解結(jié)束;如果否,則返回 步驟C重復(fù)步驟C、D。依照上述方法建立的嵌入式語音合成系統(tǒng),完全可以在所述嵌入式系統(tǒng)下應(yīng)用, 且其所占用的空間資源和需要的計(jì)算復(fù)雜度均不超過嵌入式設(shè)備所具備的能力。下面結(jié)合附圖和實(shí)施例對本發(fā)明進(jìn)一步說明,通過結(jié)合附圖對系統(tǒng)各組成部件的 詳細(xì)說明將會更好地描述實(shí)現(xiàn)本發(fā)明的步驟和過程。
附圖1基于漢語音節(jié)的嵌入式語音合成系統(tǒng)的結(jié)構(gòu)框圖附圖2頻譜模型壓縮過程示意圖附圖3頻譜參數(shù)生成過程示意中1.文本輸入,2.文本分析及韻律生成,3.模型決策,4.參數(shù)生成,5.波形 合成,6.語音輸出,7.訓(xùn)練語音庫,8.HMM模型訓(xùn)練,9.數(shù)據(jù)分解,10.模型壓縮,11.數(shù)據(jù) 重組,12.壓縮模型庫,13.碼本是否穩(wěn)定,14.數(shù)據(jù)重新分類,15.碼本搜索替代,16.矢量 量化,17.狀態(tài)譜均值,18.狀態(tài)譜方差,19.方差平均,20.結(jié)束,21.是,22.否,23.開始, 24.計(jì)算全局方差矩陣,25.獲取狀態(tài)相應(yīng)維度的碼本序列,26.求解一維頻譜系數(shù)序列, 27.是否處理完18維參數(shù),28.結(jié)束,101.模型訓(xùn)練部分,102.語音合成系統(tǒng)。
具體實(shí)施例方式在附圖1中,在本發(fā)明的實(shí)施方案中,本發(fā)明的語音合成系統(tǒng)部署在一種嵌入式 操作系統(tǒng)中,該嵌入式語音合成系統(tǒng)包括模型訓(xùn)練部分(101),語音合成系統(tǒng)(102)。其中,模型訓(xùn)練部分(101)只在系統(tǒng)線下使用,僅用于生成語音合成系統(tǒng)工作時 所需要的壓縮模型庫(12)。其中訓(xùn)練語音庫(7)包括錄制好的原始語音,由訓(xùn)練語音庫 (7)線下生成壓縮模型庫(12)的過程包括HMM模型訓(xùn)練步驟(8)、數(shù)據(jù)分解(9)、模型壓縮 (10)和模型重組(11)。在HMM模型訓(xùn)練步驟(8)中,首先利用語音識別工具包(HTK)對錄制好的原始訓(xùn)練語音庫以音節(jié)為單位進(jìn)行自動切分,得到粗切邊界信息,并手工進(jìn)行校對。然后根據(jù)音節(jié) 的上下文語境和韻律信息進(jìn)行標(biāo)注,包括當(dāng)前音節(jié)、當(dāng)前音節(jié)音調(diào)、前一音節(jié)、前一音節(jié)音 調(diào)、后一音節(jié)、后一音節(jié)音調(diào)以及對文本進(jìn)行文法分析得到的高層次韻律信息,即低層次韻 律單元在高層次韻律單元中的位置和數(shù)目,本實(shí)例考慮的韻律層次包括韻律詞、韻律短語 和句子。利用語音合成模型訓(xùn)練工具包(HTQ對原始訓(xùn)練語音進(jìn)行HSMM模型訓(xùn)練,模型內(nèi) 容包括基音頻率、頻譜系數(shù)和時長參數(shù)。時長以幀數(shù)表示,幀長5毫秒。模型分為10個狀 態(tài),每個狀態(tài)采用單高斯模型表示狀態(tài)概率分布。訓(xùn)練過程中根據(jù)需要通過適度控制模型 聚類因子控制基音頻率和時長模型的大小,得到原始語音模型庫。在數(shù)據(jù)分解(9)中,將頻譜模型的狀態(tài)高斯分布分為能量、譜均值和譜方差三部 分。本實(shí)例考慮的所有特征均考慮由其靜態(tài)特征、一階動態(tài)特征和二階動態(tài)特征組成的組 合特征。本實(shí)例采用的頻譜系數(shù)為18維線譜對(LSP)系數(shù),HSMM模型的狀態(tài)采用單高斯 分布表示。因此每個原始頻譜模型狀態(tài)包含1個57維均值矢量和57維方差矢量。分解后 的每個原始頻譜模型數(shù)據(jù)表示為1個3維能量矢量,1個M為均值矢量,一個57維方差矢 量。將所有原始狀態(tài)譜均值(17)構(gòu)成均值量化碼本訓(xùn)練數(shù)據(jù),將所有原始狀態(tài)譜方差(18) 構(gòu)成全局方差的訓(xùn)練數(shù)據(jù)。在模型壓縮(10)中,如附圖2所示。模型壓縮過程分為下述五個步驟矢量量化(16),將均值矢量作為矢量量化碼本訓(xùn)練數(shù)據(jù),采用LBG算法訓(xùn)練一個
初始碼本。在訓(xùn)練過程中,根據(jù)選用的18維線譜對(LSP)系數(shù)的特征,對系數(shù)之間的距離
進(jìn)行加權(quán),定義兩個線譜對系數(shù)χ和1之間的加權(quán)線譜對距離為 1 18 18 18^ =-Λ)2+Σ(Δχ -AvJ2+Σ(Δ\-Δ2Λ)2]其中加權(quán)系數(shù)為
1, 1 1 1 1 ,Wtl =-(-+-+-+--)
2 -^ +1 — Χη Χη Χη-\ ^η+1 _ ^n ~~ 少《-1χη、χη+1、χη-1、yn、yn+1、yn_l分別為特征χ和y的第η維,η+1維和η_1維靜態(tài)
系數(shù)。Δ Xn,Ayn,Δ2χη, Δ 相應(yīng)的一階動態(tài)和二階動態(tài)系數(shù)。碼本搜索替代(15),搜索矢量量化分類后每一類中離碼本距離最小的訓(xùn)練樣本, 替代該類碼本保存下來,距離判斷準(zhǔn)則采用所述的加權(quán)線譜對距離。數(shù)據(jù)重新分類(14),用新的碼本對訓(xùn)練樣本重新分類,分類距離判斷準(zhǔn)則采用所 述的加權(quán)線譜對距離。碼本是否穩(wěn)定(13),判斷新的分類結(jié)果與原分類結(jié)果是否相同。如果是,則譜均值 矢量量化碼本訓(xùn)練結(jié)束;如果否,則返回?cái)?shù)據(jù)重新分類(14)重復(fù)數(shù)據(jù)重新分類(14)。方差平均(19),將所有狀態(tài)分布的方差矢量(包含靜態(tài)特征、一階動態(tài)特征和二 階動態(tài)特征)進(jìn)行平均,得到全局方差矢量。在數(shù)據(jù)重組(11)中,將原模型中的狀態(tài)分布以能量值和對應(yīng)的均值矢量碼本索 引代替,最后存入全局方差值。其余模型依次按照需要組合在一起,形成一個壓縮模型 (12)。至此語音合成系統(tǒng)的模型訓(xùn)練部分(101)結(jié)束工作。如附圖1所示,文本文本輸入(1)接收輸入的文本,在本發(fā)明的實(shí)施例中,系統(tǒng)提 供了可供手寫輸入或文本選取粘貼的輸入界面。
語音合成系統(tǒng)(10 又包括文本分析及韻律生成( ,模型決策( ,參數(shù)生成(4) 和波形合成(5)。其中文本分析及韻律生成模塊將接收到的輸入漢字文本串轉(zhuǎn)換為附著相 關(guān)的上下文語境信息的音節(jié)字符串。模型決策模塊根據(jù)訓(xùn)練得到的模型決策樹將接收到的 音節(jié)字符串確定各個狀態(tài)的時長并得到基音頻率和頻譜系數(shù)的模型狀態(tài)序列。參數(shù)生成模 塊根據(jù)頻譜系數(shù)的狀態(tài)序列計(jì)算得到能量序列和頻譜系數(shù)序列,根據(jù)基音頻率的狀態(tài)序列 計(jì)算得到基音頻率序列,如圖3所示,頻譜系數(shù)序列的計(jì)算過程分為下述四個步驟計(jì)算全局方差矩陣(M),根據(jù)全局方差計(jì)算全局方差矩陣。在參數(shù)生成過程中,采 用逐維生成的方式計(jì)算所需要合成的特征參數(shù),每次計(jì)算取一維的均值或全局方差。所用 到的全局方差矩陣共有兩類,分別為WUffn = WXUnXff和WUn = WXUn其中U是第η維全局方差及其一階和二階動態(tài)系數(shù),W是動態(tài)窗系數(shù),乘法為矩陣 乘法;獲取狀態(tài)相應(yīng)維度的碼本序列0 ,根據(jù)接收的模型狀態(tài)序列對應(yīng)的狀態(tài)譜均值 碼本序列,獲取一維譜均值碼本序列;求解一維頻譜系數(shù)序列06),根據(jù)接收的全局方差矩陣和狀態(tài)譜均值碼本序列求 解特征參數(shù)序列,方法為求解下面的矩陣方程WUWnT XL7n= WUrn x Ml其中L為所求的線譜對系數(shù)序列,方程解算方法可以采用任何一種滿足嵌入式系 統(tǒng)計(jì)算需求的線性矩陣方程求解算法。本實(shí)例中采用對系數(shù)矩陣進(jìn)行LU分解和前向后向 高斯消去的求解方法;判斷是否處理完全部18維頻譜系數(shù)(XT)。如果是,則頻譜系數(shù)求解結(jié)束;如果否, 則返回獲取狀態(tài)相應(yīng)維度的碼本序列(25),重復(fù)獲取狀態(tài)相應(yīng)維度的碼本序列(25)、求解 一維頻譜系數(shù)序列06)。至此,參數(shù)生成模塊工作結(jié)束。采用本發(fā)明所提供的全局方差矩陣方案可以提高 運(yùn)算速度,節(jié)省中間步驟的空間消耗。在波形合成步驟中,所采用的可以是任意一種能夠滿足設(shè)備資源需求的算法,例如 G. 723中所采用的合成濾波方法,或其他基于線性預(yù)測的語音解碼算法中的合成濾波方法。語音輸出(6),用于播放或存儲合成的數(shù)字語音信號。本發(fā)明涉及一種應(yīng)用于嵌入式中文語音合成系統(tǒng)的音庫壓縮和使用方法?;谠?方法能夠使語音模型庫占用極小的空間資源,提高運(yùn)算速度,同時保持了較好的合成自然 度和音質(zhì)。本發(fā)明在嵌入式設(shè)備上使用時,所有的音頻輸入輸出均可使用設(shè)備本身提供的輸 入輸出接口。語音功能可以隨時在設(shè)備上開啟或關(guān)閉。在未啟用語音功能時,原設(shè)備的各 種功能不受任何影響。上述實(shí)例為本發(fā)明的較佳實(shí)施例,本發(fā)明的應(yīng)用可用于各種嵌入式終端設(shè)備。根 據(jù)本發(fā)明的主要構(gòu)思,本領(lǐng)域的普通技術(shù)人員均可以產(chǎn)生多種類低的或等價的應(yīng)用。因此, 本發(fā)明的保護(hù)應(yīng)以權(quán)利要求的保護(hù)范圍為準(zhǔn)。
權(quán)利要求
1.一種用于嵌入式語音合成系統(tǒng)的參數(shù)化統(tǒng)計(jì)模型的壓縮和使用方法,用于減小模型 庫占用的空間并維持合成的音質(zhì);原始模型庫的訓(xùn)練和合成過程采用漢語中的音節(jié)作為基 本單元;模型庫的壓縮過程分為下述三個步驟A.創(chuàng)建基于漢語音節(jié)的原始模型庫;B.將原始頻譜模型分解為能量、譜均值和譜方差三部分。利用矢量量化技術(shù)對譜均值 和譜方差分別進(jìn)行壓縮;C.將能量、壓縮得到的譜均值碼本和索引以及全局方差組合得到壓縮頻譜模型,并與 其他模型合并得到最終的壓縮模型庫。
2.根據(jù)權(quán)利要求1所述的參數(shù)化統(tǒng)計(jì)模型的壓縮和使用方法,其特征是所述權(quán)利要 求1中的A步,基于漢語音節(jié)為單元的原始模型庫創(chuàng)建過程分為下述五個步驟A.創(chuàng)建基于漢語音節(jié)的原始語音庫;B.提取語音庫中所有音節(jié)的基音頻率、頻譜參數(shù)和時長參數(shù)。訓(xùn)練不考慮上下文語境 的音節(jié)模型;C.根據(jù)所有音節(jié)的語境信息訓(xùn)練考慮上下文語境的音節(jié)模型,并使用基于決策樹的方 法對模型進(jìn)行狀態(tài)聚類;D.將聚類后的模型參數(shù)進(jìn)一步訓(xùn)練;E.返回步驟C重復(fù)步驟C、D,輸出參數(shù)化統(tǒng)計(jì)模型。
3.根據(jù)權(quán)利要求1所述的參數(shù)化統(tǒng)計(jì)模型的壓縮和使用方法,其特征是所述權(quán)利要 求1中的所述B步,頻譜模型壓縮過程分為下述六個步驟A.將頻譜模型的狀態(tài)高斯分布分為能量、譜均值和譜方差三部分。本方法考慮了一階 動態(tài)特征和二階動態(tài)特征;B.將所有狀態(tài)分布的均值矢量(包含靜態(tài)特征、一階動態(tài)特征和二階動態(tài)特征)作為 訓(xùn)練樣本,進(jìn)行矢量量化的碼本訓(xùn)練;C.搜索矢量量化分類后每一類中離碼本距離最小的訓(xùn)練樣本,替代該類碼本保存下來。D.用新的碼本對訓(xùn)練樣本重新分類;E.判斷新的分類結(jié)果與原分類結(jié)果是否相同。如果是,則譜均值矢量量化碼本訓(xùn)練結(jié) 束;如果否,則返回步驟C重復(fù)步驟C、D ;F.將所有狀態(tài)分布的方差矢量(包含靜態(tài)特征、一階動態(tài)特征和二階動態(tài)特征)進(jìn)行 平均,得到全局方差矢量。
4.根據(jù)權(quán)利要求1所述的參數(shù)化統(tǒng)計(jì)模型的壓縮和使用方法,其特征是所述權(quán)利要 求1中的C步,模型重新組合過程如下將原頻譜模型中的狀態(tài)分布以能量值和對應(yīng)的均值 矢量碼本索引代替,最后存入全局方差值。其他模型按照需要依次存放。
5.一種嵌入式語音合成系統(tǒng),包括以下四個步驟A.文本分析及韻律生成模塊,用于對合成文本進(jìn)行內(nèi)容分析,得到對應(yīng)的音節(jié)序列,同 時每個音節(jié)附著相關(guān)的以上下文語境標(biāo)識的韻律信息,其格式與模型訓(xùn)練時使用的標(biāo)識相 同;B.模型決策模塊,用于接收上述附著韻律信息的音節(jié)序列,利用訓(xùn)練得到的模型決策 樹生成相應(yīng)的模型狀態(tài)序列,并得到時長決策結(jié)果;C.參數(shù)序列生成模塊,用于接收上述模型狀態(tài)序列,利用所述的壓縮頻譜模型計(jì)算全 局方差加窗矩陣,最后計(jì)算得到譜參數(shù)序列和基頻參數(shù)序列;D.語音波形合成輸出模塊,用于接收所述的參數(shù)序列,生成所要合成的語音波形數(shù)據(jù), 并輸出播放或存儲。
6.根據(jù)權(quán)利要求5所述的嵌入式語音合成系統(tǒng),其特征是所述權(quán)利要求1中的C步, 參數(shù)序列生成過程分為以下五個步驟A.根據(jù)頻譜系數(shù)的狀態(tài)序列計(jì)算得到能量序列和頻譜系數(shù)序列,根據(jù)基音頻率的狀態(tài) 序列計(jì)算得到基音頻率序列;B.根據(jù)全局方差計(jì)算全局方差矩陣;在參數(shù)生成過程中,采用逐維生成的方式計(jì)算所 需要合成的特征參數(shù),每次計(jì)算取一維的均值或方差;C.根據(jù)接收的模型狀態(tài)序列對應(yīng)的狀態(tài)譜均值碼本序列,獲取一維譜均值碼本序列;D.根據(jù)接收的全局方差矩陣和狀態(tài)譜均值碼本序列求解特征參數(shù)序列;E.判斷是否處理完全部頻譜系數(shù);如果是,則頻譜系數(shù)求解結(jié)束;如果否,則返回步驟 C重復(fù)步驟C、D。
全文摘要
本發(fā)明公開了一種用于嵌入式語音合成系統(tǒng)的音庫壓縮及使用方法,用于嵌入式操作系統(tǒng),將接收到的任意文字轉(zhuǎn)換成語音輸出。以漢語中的音節(jié)作為合成系統(tǒng)及語音模型庫的基本單元;首先創(chuàng)建基于音節(jié)的原始語音模型庫,然后對所述原始語音模型庫進(jìn)行數(shù)據(jù)分解和壓縮,最后通過數(shù)據(jù)重組得到最終的壓縮模型庫。依據(jù)本發(fā)明提供的方法可以降低合成系統(tǒng)在嵌入式平臺下所占用的空間資源,并提高合成速度,同時使合成語音保持良好的自然度和音質(zhì)。
文檔編號G10L13/08GK102063897SQ201010580790
公開日2011年5月18日 申請日期2010年12月9日 優(yōu)先權(quán)日2010年12月9日
發(fā)明者何婭玲, 何宇新, 謝湘, 那興宇 申請人:北京宇音天下科技有限公司