亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

自動(dòng)生成重讀音節(jié)語音的方法和系統(tǒng)的制作方法

文檔序號:2819000閱讀:520來源:國知局
專利名稱:自動(dòng)生成重讀音節(jié)語音的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及語音信號領(lǐng)域,具體地說,尤其是涉及一種自動(dòng)生成重讀音節(jié)語音的系統(tǒng)及方法。
背景技術(shù)
在言語交流中,為了表示強(qiáng)調(diào)或者引起關(guān)注,人們通常需要對語音中的某些音節(jié)進(jìn)行重讀。在某些語言中,重讀位置的不同也會(huì)影響詞語所表達(dá)的意思。此外,語言的抑揚(yáng)頓挫主要依賴于重讀位置和強(qiáng)度的控制。當(dāng)前計(jì)算機(jī)已被廣泛應(yīng)用于語音處理領(lǐng)域。計(jì)算機(jī)可以通過語音的聲學(xué)特征來判斷語音中重讀音節(jié)的位置,也可以通過語音合成技術(shù)來生成帶有重讀音節(jié)的語音。語音合成技術(shù)通過預(yù)先訓(xùn)練的模型可以把一段文本轉(zhuǎn)換成對應(yīng)的語音。該合成語音的重音位置和輸入文本內(nèi)容直接相關(guān),是通過文本分析確定的,如專利申請CN101223572A所述的。此外, 合成的語音通常是特定人的,且自然度難以保證。而在一些實(shí)際應(yīng)用場景中,需要計(jì)算機(jī)對一段輸入語音進(jìn)行處理,輸出指定音節(jié)重讀的語音。比如在計(jì)算機(jī)輔助的口語教學(xué)習(xí)系統(tǒng)中,對于用戶發(fā)音錯(cuò)誤的位置,需要系統(tǒng)播放錯(cuò)誤位置重讀的標(biāo)準(zhǔn)音來提示用戶;或者系統(tǒng)自動(dòng)生成重讀位置不同的語音,讓學(xué)習(xí)者來區(qū)分或者聽辨不同的詞。為了控制語音的重音位置,現(xiàn)有方法主要是通過預(yù)先錄制同一單詞不同重音位置的讀法,然后通過簡單重組重音音素來產(chǎn)生音節(jié)重讀的語音,如專利申請CN1474318A所述的。這種方法是非常低效,難以保證生成語音的自然度。

發(fā)明內(nèi)容
為了解決上述問題,本發(fā)明公開一種自動(dòng)生成重讀音節(jié)語音的系統(tǒng)和方法。該系統(tǒng)可以對接收到的語音進(jìn)行處理,使得任意指定音節(jié)的語音變?yōu)橹刈x,而不影響原始語音的可懂度、自然度和音質(zhì)。該系統(tǒng)可用于口語語言教學(xué)任務(wù)中,用來生成反饋指導(dǎo)信息或者重讀聽辨練習(xí)。原理上,本發(fā)明利用預(yù)先學(xué)習(xí)得到的特征變換參數(shù)矩陣,通過對輸入語音指定音節(jié)以及相關(guān)音素聲學(xué)特征進(jìn)行修正,然后重新合成來自動(dòng)生成重讀音節(jié)語音。本發(fā)明采用如下的技術(shù)方案一種自動(dòng)生成重讀音節(jié)語音的系統(tǒng),包括音素定位模塊,用于確定接收到的語音信號中每個(gè)音素的位置,得到每個(gè)詞、音節(jié)和音素的時(shí)間邊界;特征提取模塊,用于從語音信號中提取和音節(jié)重讀相關(guān)的特征以及頻譜特征;特征修正模塊,用于利用預(yù)先估計(jì)出的特征變換參數(shù),把輸入語音特征參數(shù)調(diào)整為對應(yīng)的表示給定音節(jié)重讀的特征參數(shù),并對調(diào)整后的特征參數(shù)進(jìn)行平滑處理;語音重構(gòu)模塊,用于采用修正后的語音聲學(xué)特征參數(shù)通過源-濾波器模型重新合成語音;
特征變換參數(shù)庫,用于存放統(tǒng)計(jì)的每個(gè)音素從非重讀到重讀的聲學(xué)特征的變換矩陣參數(shù)。以及一種自動(dòng)生成重讀音節(jié)語音的方法,包括如下步驟步驟1、通過語音識別技術(shù)獲得輸入語音的詞、音節(jié)以及音素的時(shí)間邊界;步驟2、從輸入語音中提取每個(gè)音素的重音相關(guān)特征和頻譜特征;步驟3、根據(jù)音素類型和相對重讀音節(jié)的位置,從特征變換參數(shù)庫中獲取每個(gè)音素對應(yīng)的特征變換矩陣,通過下式計(jì)算特定音節(jié)重讀之后語音中每個(gè)音素的重音相關(guān)特征向量Vl(Xp) = A(Xp)Vl(Xp)(1)其中Vi(Xp)表示輸入語音中音素\的第i個(gè)特征向量,ρ表示音素χ相對于重讀音節(jié)的位置類型,A(xp)表示位置類型為ρ的音素χ的變換矩陣,R(Xp)表示位置類型為P 的音素χ的第i個(gè)特征向量變換后的特征向量;步驟4、根據(jù)變換后每個(gè)音素片段的時(shí)長,通過下式對每個(gè)音素的基音周期特征、
聲強(qiáng)特征和頻譜特征進(jìn)行線性插值 [。。21] = i=hj(Xp) ⑵
權(quán)利要求
1.一種自動(dòng)生成重讀音節(jié)語音的系統(tǒng),包括音素定位模塊,用于確定接收到的語音信號中每個(gè)音素的位置,得到每個(gè)詞、音節(jié)和音素的時(shí)間邊界;特征提取模塊,用于從語音信號中提取和音節(jié)重讀相關(guān)的特征以及頻譜特征; 特征修正模塊,用于利用預(yù)先估計(jì)出的特征變換參數(shù),把輸入語音特征參數(shù)調(diào)整為對應(yīng)的表示給定音節(jié)重讀的特征參數(shù),并對調(diào)整后的特征參數(shù)進(jìn)行平滑處理;語音重構(gòu)模塊,用于采用修正后的語音聲學(xué)特征參數(shù)通過源-濾波器模型重新合成語曰;特征變換參數(shù)庫,用于存放統(tǒng)計(jì)的每個(gè)音素從非重讀到重讀的聲學(xué)特征的變換矩陣參數(shù)。
2.如權(quán)利要求1所述的自動(dòng)生成重讀音節(jié)語音的系統(tǒng),其中音素定位模塊采用語音識別技術(shù)通過強(qiáng)制對齊或者網(wǎng)絡(luò)解碼來獲得音素邊界。
3.如權(quán)利要求1所述的自動(dòng)生成重讀音節(jié)語音的系統(tǒng),其中所述重讀相關(guān)的特征包括基音周期,聲強(qiáng)和音素時(shí)長;所述頻譜特征采用基頻自適應(yīng)的平滑頻譜;所述重新生成的語音中指定音節(jié)的語音具有重讀特性;所述變換矩陣參數(shù)包括聲強(qiáng)和基音周期特征的變換參數(shù)和音素時(shí)長特征的變換參數(shù)。
4.如權(quán)利要求1所述的自動(dòng)生成重讀音節(jié)語音的系統(tǒng),其中特征修正模塊進(jìn)行參數(shù)調(diào)整是利用預(yù)先計(jì)算的映射變換參數(shù)通過一個(gè)線性映射函數(shù)來完成。
5.一種自動(dòng)生成重讀音節(jié)語音的方法,包括如下步驟步驟1、通過語音識別技術(shù)獲得輸入語音的詞、音節(jié)以及音素的時(shí)間邊界; 步驟2、從輸入語音中提取每個(gè)音素的重音相關(guān)特征和頻譜特征; 步驟3、根據(jù)音素類型和相對重讀音節(jié)的位置,從特征變換參數(shù)庫中獲取每個(gè)音素對應(yīng)的特征變換矩陣,通過下式計(jì)算特定音節(jié)重讀之后語音中每個(gè)音素的重音相關(guān)特征向量 Vl(Xp) = A(Xp)Vl(Xp)⑴其中=Vi(Xp)表示輸入語音中音素\的第i個(gè)特征向量,ρ表示音素χ相對于重讀音節(jié)的位置類型,A(Xp)表示位置類型為ρ的音素χ的變換矩陣,J^(Xp)表示位置類型為ρ的音素 X的第i個(gè)特征向量變換后的特征向量;步驟4、根據(jù)變換后每個(gè)音素片段的時(shí)長,通過下式對每個(gè)音素的基音周期特征、聲強(qiáng)特征和頻譜特征進(jìn)行線性插值其中d(Xp)表示位置類型為P的音素的時(shí)長表示位置類型為P的音素重讀變換后的時(shí)長,R(Xp)表示音素\重讀變換后的基音周期、聲強(qiáng)和頻譜特征組成的第k個(gè)特征向量,P(Xp)表示插值后音素\的基音周期、聲強(qiáng)和頻譜特征組成的第i個(gè)特征向量;步驟5、在變換之后的特征上,對相鄰音素邊界處的頻譜特征逐幀采用長度為9的漢明窗(Hamming Window)進(jìn)行插值平滑處理,對相鄰音素邊界處的基音周期和聲強(qiáng)特征逐幀采用長度為11的矩形窗進(jìn)行均值平滑處理;步驟6、用變換之后的特征,包括基音周期,聲強(qiáng)和頻譜特征,通過源-濾波模型重新合成語音,輸出指定音節(jié)重讀的語音。
6.如權(quán)利要求5所述的自動(dòng)生成重讀音節(jié)語音的方法,其中步驟1具體包括所述語音識別技術(shù)是采用預(yù)先訓(xùn)練的基于隱馬爾科夫模型(HMM)的聲學(xué)模型,該聲學(xué)模型建模了語音中的每個(gè)音素單元;輸入語音的詞、音節(jié)和音素邊界采用通過強(qiáng)制對齊或者識別解碼生成,在最大后驗(yàn)準(zhǔn)則下使得語音中的每幀數(shù)據(jù)都?xì)w屬于某個(gè)HMM模型,歸屬于同一 HMM模型的數(shù)據(jù)即對應(yīng)于該HMM模型所表示的音素。
7.如權(quán)利要求5所述的自動(dòng)生成重讀音節(jié)語音的方法,其中具體包括; 音素重音特征采用基音周期、聲強(qiáng)和音素時(shí)長;根據(jù)相對重讀音節(jié)的位置,句子中的音素歸為6類1)當(dāng)前重讀音節(jié)內(nèi)的音素;2)當(dāng)前詞中位于重讀音節(jié)之前的音素;3)當(dāng)前詞中位于重讀音節(jié)之后的音素;4)當(dāng)前重讀音節(jié)所在詞之前的詞中的音素;5)當(dāng)前重讀音節(jié)所在詞之后的詞中的音素;6)其他詞中的音素;對于輸入語音中的第6類音素,其重音相關(guān)特征和頻譜特征不做修正; 同一個(gè)音素,其相對于重讀音節(jié)的位置不同,所對應(yīng)的特征變換矩陣不同。
8.如權(quán)利要求5所述的自動(dòng)生成重讀音節(jié)語音的方法,其中具體包括所述輸入語音中位置類型為P的音素χ的第i個(gè)特征向量Vi(Xp)分為兩類,一類為基音周期和聲強(qiáng)組成的3維特征向量,即=Vi1Up) = [ppi,ev,l]T;另一類對應(yīng)于音素時(shí)長組成的特征向量,即=Vi2 (xp) = [dp,l]T;每個(gè)音素有一個(gè)時(shí)長特征向量,有N個(gè)基音周期和聲強(qiáng)組成的特征向量,其中N為該音素的時(shí)長,單位為幀;所述特征變換矩陣A(Xp)有兩類,一類為基音周期和聲強(qiáng)組成的特征向量對應(yīng)的變換矩陣,記為A1(Xp),是一個(gè)2X3的矩陣;另一類為音素時(shí)長特征對應(yīng)的變換矩陣,記為 A2(Xp),是一個(gè)1X2的矩陣;在基于源-濾波器模型的重讀音節(jié)語音生成過程中,基音周期特征用來生成激勵(lì)信號,頻譜特征用來構(gòu)造表示聲道響應(yīng)的濾波器,聲強(qiáng)特征用來控制合成信號的幅度增益。
9.一種自動(dòng)估計(jì)重音特征變換矩陣參數(shù)的方法,包括如下步驟步驟1、構(gòu)建兩個(gè)語音數(shù)據(jù)庫,數(shù)據(jù)庫Da存儲(chǔ)中性語音,中性語音是指所有音節(jié)都不重讀的語音;數(shù)據(jù)庫Db存儲(chǔ)和數(shù)據(jù)庫Da語音對應(yīng)的帶有重讀音節(jié)的語音;步驟2、基于數(shù)據(jù)庫Da和數(shù)據(jù)庫Db分別訓(xùn)練一套音素上下文相關(guān)的3數(shù)據(jù)流的隱半馬爾可夫模型(HSMM);步驟3、利用數(shù)據(jù)庫Da上訓(xùn)練的HSMM音素模型通過強(qiáng)制對齊算法獲得數(shù)據(jù)庫Da上所有語音的音素邊界;步驟4、對數(shù)據(jù)庫Db上的每個(gè)音素X,根據(jù)其相對于重讀音節(jié)的位置,通過下式估計(jì)其音素時(shí)長特征的變換矩陣
10.如權(quán)利要求9所述的自動(dòng)估計(jì)重音特征變換矩陣參數(shù)的方法,其中步驟2中所述音素上下文相關(guān)的3數(shù)據(jù)流的隱半馬爾可夫模型的聲學(xué)特征采用基音周期、聲強(qiáng)和頻譜特征,組成3個(gè)獨(dú)立數(shù)據(jù)流。
全文摘要
一種自動(dòng)生成重讀音節(jié)語音的系統(tǒng),包括音素定位模塊,用于確定接收到的語音信號中每個(gè)音素的位置,得到每個(gè)詞、音節(jié)和音素的時(shí)間邊界;聲學(xué)特征提取模塊,用于從語音信號中提取和重讀相關(guān)的特征以及頻譜特征;聲學(xué)特征參數(shù)修正模塊,用于把輸入語音特征參數(shù)調(diào)整為對應(yīng)的表示給定音節(jié)重讀的特征參數(shù),并對調(diào)整后的特征參數(shù)進(jìn)行平滑處理;語音重構(gòu)模塊,用于采用修正后的語音聲學(xué)特征參數(shù)通過源-濾波器模型重新合成語音;特征變換參數(shù)庫,用于存放每個(gè)音素的聲學(xué)特征從非重讀到重讀的統(tǒng)計(jì)的變換矩陣參數(shù)。
文檔編號G10L15/00GK102436807SQ201110270759
公開日2012年5月2日 申請日期2011年9月14日 優(yōu)先權(quán)日2011年9月14日
發(fā)明者王歡良, 鄒平 申請人:蘇州思必馳信息科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1