亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種語音合成單元時長的預(yù)測方法及裝置的制作方法

文檔序號:2818978閱讀:279來源:國知局
專利名稱:一種語音合成單元時長的預(yù)測方法及裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及信息處理技術(shù)領(lǐng)域,特別是涉及一種逐步線性回歸的時長預(yù)測模型的訓(xùn)練方法及裝置、一種語音合成單元時長的預(yù)測方法及裝置。
背景技術(shù)
在語音合成系統(tǒng)(Text-to-Speech,TTS)中,語音合成單元時長的預(yù)測生成是必不可少的步驟,對合成語音的韻律聽感有著至關(guān)重要的作用。根據(jù)語音學(xué)與音系學(xué)理論,語音合成單元的時長等特性決定于其所處的上下文環(huán)境。對語音時長的預(yù)測,本質(zhì)上是從上下文環(huán)境參數(shù)的取值空間到時長取值空間的映射。對此種映射關(guān)系的分析建模方法,現(xiàn)有的時長預(yù)測方法通常采用決策樹-高斯混合模型,確定與之最接近的近似映射。但是,現(xiàn)有的時長預(yù)測方法存在一個顯著的缺點采用決策樹-高斯混合模型來預(yù)測時長,所述預(yù)測首先對上下文環(huán)境參數(shù)的取值空間進(jìn)行粗分類,然后用單一的均值來刻畫各子類空間,在這兩個過程中都存在著過平均化。下面以一個實例做說明比如“們”字,在“我們”中和在“我們的”中兩種情況下,相
應(yīng)的上下文環(huán)境都屬于“詞中”,只是在詞中的位置不同。在基于決策樹建立的決策樹-高斯混合模型中,基于決策樹的聚類因為受到樹節(jié)點數(shù)目的限制,只能選擇最顯著的分類標(biāo)準(zhǔn)進(jìn)行粗分類,有可能將這兩種情況同歸為“詞中”這一類,從而抹煞了二者各自的個性;在此類別內(nèi),使用決策樹-高斯混合模型建模,是用單一的均值來刻畫整個子類,進(jìn)一步抹煞了各樣本具體的個性??傊?,需要本領(lǐng)域技術(shù)人員迫切解決的一個技術(shù)問題就是如何提供一種時長預(yù)測模型的訓(xùn)練方法,以提高時長預(yù)測結(jié)果的準(zhǔn)確性。

發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種逐步線性回歸的時長預(yù)測模型的訓(xùn)練方法及裝置、一種語音合成單元時長的預(yù)測方法及裝置,能夠提高時長預(yù)測結(jié)果的準(zhǔn)確性,使得從語音合成系統(tǒng)中合成出的語音具備真實的韻律感。為了解決上述問題,本發(fā)明公開了一種逐步線性回歸的時長預(yù)測模型的訓(xùn)練方法,包括建立初始的線性回歸的時長預(yù)測模型;在迭代所述線性回歸的時長預(yù)測模型的過程中,通過評價每輪的時長預(yù)測模型選擇上下文環(huán)境參數(shù),最終得到最優(yōu)時長預(yù)測模型。優(yōu)選的,所述在迭代所述線性回歸的時長預(yù)測模型的過程中,通過評價每輪的時長預(yù)測模型選擇上下文環(huán)境參數(shù),最終得到最優(yōu)時長預(yù)測模型的步驟,包括步驟1 選中常參數(shù),并將其加入已選參數(shù)集;步驟2 進(jìn)行迭代,其中,在每輪迭代的過程中,在已選參數(shù)的基礎(chǔ)上選出對進(jìn)一步提升預(yù)測準(zhǔn)確度作用最大的未選參數(shù),并加入已選參數(shù)集;步驟3 利用新的已選參數(shù)集,獲得當(dāng)前輪逐步線性回歸的時長預(yù)測模型;步驟4:判斷當(dāng)前輪逐步線性回歸的時長預(yù)測模型是否最優(yōu),若是,則以當(dāng)前逐步線性回歸的時長預(yù)測模型作為逐步線性回歸的最優(yōu)時長預(yù)測模型,否則,返回執(zhí)行步驟2。優(yōu)選的,所述判斷當(dāng)前輪逐步線性回歸的時長預(yù)測模型是否最優(yōu)的步驟,包括若當(dāng)前輪逐步線性回歸的時長預(yù)測模型相對于上一輪逐步線性回歸的時長預(yù)測模型,二者預(yù)測誤差樣本方差的差小于等于特定閾值,則以當(dāng)前輪逐步線性回歸的時長預(yù)測模型作為逐步線性回歸的最優(yōu)時長預(yù)測模型;若二者預(yù)測誤差樣本方差的差大于特定閾值,則返回執(zhí)行步驟2。優(yōu)選的,所述線性回歸的時長預(yù)測模型的表達(dá)式如下
\ = β + ε [E(S) = O, Var(s) = σ2其中,X為上下文環(huán)境參數(shù)矩陣,X的列數(shù)為上下文環(huán)境參數(shù)的數(shù)目,行數(shù)為語音合成單元的樣本數(shù)目,X具體可以表述為
權(quán)利要求
1.一種逐步線性回歸的時長預(yù)測模型的訓(xùn)練方法,其特征在于,包括建立初始的線性回歸的時長預(yù)測模型;在迭代所述線性回歸的時長預(yù)測模型的過程中,通過評價每輪的時長預(yù)測模型選擇上下文環(huán)境參數(shù),最終得到最優(yōu)時長預(yù)測模型。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述在迭代所述線性回歸的時長預(yù)測模型的過程中,通過評價每輪的時長預(yù)測模型選擇上下文環(huán)境參數(shù),最終得到最優(yōu)時長預(yù)測模型的步驟,包括步驟1 選中常參數(shù),并將其加入已選參數(shù)集;步驟2:進(jìn)行迭代,其中,在每輪迭代的過程中,在已選參數(shù)的基礎(chǔ)上選出對進(jìn)一步提升預(yù)測準(zhǔn)確度作用最大的未選參數(shù),并加入已選參數(shù)集;步驟3 利用新的已選參數(shù)集,獲得當(dāng)前輪逐步線性回歸的時長預(yù)測模型;步驟4:判斷當(dāng)前輪逐步線性回歸的時長預(yù)測模型是否最優(yōu),若是,則以當(dāng)前逐步線性回歸的時長預(yù)測模型作為逐步線性回歸的最優(yōu)時長預(yù)測模型,否則,返回執(zhí)行步驟2。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述判斷當(dāng)前輪逐步線性回歸的時長預(yù)測模型是否最優(yōu)的步驟,包括若當(dāng)前輪逐步線性回歸的時長預(yù)測模型相對于上一輪逐步線性回歸的時長預(yù)測模型, 二者預(yù)測誤差樣本方差的差小于等于特定閾值,則以當(dāng)前輪逐步線性回歸的時長預(yù)測模型作為逐步線性回歸的最優(yōu)時長預(yù)測模型;若二者預(yù)測誤差樣本方差的差大于特定閾值,則返回執(zhí)行步驟2。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述線性回歸的時長預(yù)測模型的表達(dá)式如下
5.根據(jù)權(quán)利要求1至4中任一項所述的方法,其特征在于在迭代所述線性回歸的時長預(yù)測模型的過程中,時長預(yù)測模型的估計和評價采用不同的樣本集。
6.一種語音合成單元時長的預(yù)測方法,其特征在于,包括針對上下文環(huán)境參數(shù),采用逐步線性回歸的時長預(yù)測模型,對語音合成單元的時長進(jìn)行初始預(yù)測,獲得初始時長預(yù)測結(jié)果;采用決策樹-高斯混合模型對所述初始時長預(yù)測結(jié)果進(jìn)行分配,得到分配后的時長預(yù)測結(jié)果。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述采用決策樹-高斯混合模型對所述初始時長預(yù)測結(jié)果進(jìn)行分配的步驟,包括針對上下文環(huán)境參數(shù),采用決策樹-高斯混合模型,對語音合成單元及各語音合成單元子狀態(tài)的時長進(jìn)行預(yù)測,獲得語音合成單元時長和語音合成單元各子狀態(tài)時長的縮放比例;根據(jù)語音合成單元時長和語音合成單元各子狀態(tài)時長的縮放比例,將所述初始時長預(yù)測結(jié)果進(jìn)行等比例縮放,獲得語音合成單元各子狀態(tài)的時長預(yù)測結(jié)果。
8.—種逐步線性回歸的時長預(yù)測模型的訓(xùn)練裝置,其特征在于,包括建立模塊,用于建立初始的線性回歸的時長預(yù)測模型;及優(yōu)化模塊,用于在迭代所述線性回歸的時長預(yù)測模型的過程中,通過評價每輪的時長預(yù)測模型選擇上下文環(huán)境參數(shù),最終得到最優(yōu)時長預(yù)測模型。
9.一種語音合成單元時長的預(yù)測裝置,其特征在于,包括初始時長預(yù)測模塊,用于針對上下文環(huán)境參數(shù),采用逐步線性回歸的時長預(yù)測模型,對語音合成單元的時長進(jìn)行初始預(yù)測,獲得初始時長預(yù)測結(jié)果;分配模塊,用于采用決策樹-高斯混合模型對所述初始時長預(yù)測結(jié)果進(jìn)行分配,得到分配后的時長預(yù)測結(jié)果。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述分配模塊,包括子狀態(tài)預(yù)測單元,用于針對上下文環(huán)境參數(shù),采用決策樹-高斯混合模型,對語音合成單元及各語音合成單元子狀態(tài)的時長進(jìn)行預(yù)測,獲得語音合成單元時長和語音合成單元各子狀態(tài)時長的縮放比例;縮放單元,用于根據(jù)語音合成單元時長和語音合成單元各子狀態(tài)時長的縮放比例,將所述初始時長預(yù)測結(jié)果進(jìn)行等比例縮放,獲得語音合成單元各子狀態(tài)的時長預(yù)測結(jié)果。
全文摘要
本發(fā)明提供了一種語音合成單元時長的預(yù)測方法和裝置,包括針對上下文環(huán)境參數(shù),采用逐步線性回歸的時長預(yù)測模型,對語音合成單元的時長進(jìn)行初始預(yù)測,獲得初始時長預(yù)測結(jié)果;采用決策樹-高斯混合模型對所述初始時長預(yù)測結(jié)果進(jìn)行分配,得到分配后的時長預(yù)測結(jié)果。本發(fā)明能夠提高時長預(yù)測結(jié)果的準(zhǔn)確性,使得從語音合成系統(tǒng)中合成出的語音具備真實的韻律感。
文檔編號G10L13/08GK102231276SQ201110167390
公開日2011年11月2日 申請日期2011年6月21日 優(yōu)先權(quán)日2011年6月21日
發(fā)明者李健, 王愈 申請人:北京捷通華聲語音技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1