自動(dòng)生成重讀音節(jié)語音的方法和系統(tǒng)的制作方法

文檔序號：2819000閱讀：520來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：自動(dòng)生成重讀音節(jié)語音的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語音信號領(lǐng)域，具體地說，尤其是涉及一種自動(dòng)生成重讀音節(jié)語音的系統(tǒng)及方法。
背景技術(shù)：
在言語交流中，為了表示強(qiáng)調(diào)或者引起關(guān)注，人們通常需要對語音中的某些音節(jié)進(jìn)行重讀。在某些語言中，重讀位置的不同也會(huì)影響詞語所表達(dá)的意思。此外，語言的抑揚(yáng)頓挫主要依賴于重讀位置和強(qiáng)度的控制。當(dāng)前計(jì)算機(jī)已被廣泛應(yīng)用于語音處理領(lǐng)域。計(jì)算機(jī)可以通過語音的聲學(xué)特征來判斷語音中重讀音節(jié)的位置，也可以通過語音合成技術(shù)來生成帶有重讀音節(jié)的語音。語音合成技術(shù)通過預(yù)先訓(xùn)練的模型可以把一段文本轉(zhuǎn)換成對應(yīng)的語音。該合成語音的重音位置和輸入文本內(nèi)容直接相關(guān)，是通過文本分析確定的，如專利申請CN101223572A所述的。此外，合成的語音通常是特定人的，且自然度難以保證。而在一些實(shí)際應(yīng)用場景中，需要計(jì)算機(jī)對一段輸入語音進(jìn)行處理，輸出指定音節(jié)重讀的語音。比如在計(jì)算機(jī)輔助的口語教學(xué)習(xí)系統(tǒng)中，對于用戶發(fā)音錯(cuò)誤的位置，需要系統(tǒng)播放錯(cuò)誤位置重讀的標(biāo)準(zhǔn)音來提示用戶；或者系統(tǒng)自動(dòng)生成重讀位置不同的語音，讓學(xué)習(xí)者來區(qū)分或者聽辨不同的詞。為了控制語音的重音位置，現(xiàn)有方法主要是通過預(yù)先錄制同一單詞不同重音位置的讀法，然后通過簡單重組重音音素來產(chǎn)生音節(jié)重讀的語音，如專利申請CN1474318A所述的。這種方法是非常低效，難以保證生成語音的自然度。

發(fā)明內(nèi)容
為了解決上述問題，本發(fā)明公開一種自動(dòng)生成重讀音節(jié)語音的系統(tǒng)和方法。該系統(tǒng)可以對接收到的語音進(jìn)行處理，使得任意指定音節(jié)的語音變?yōu)橹刈x，而不影響原始語音的可懂度、自然度和音質(zhì)。該系統(tǒng)可用于口語語言教學(xué)任務(wù)中，用來生成反饋指導(dǎo)信息或者重讀聽辨練習(xí)。原理上，本發(fā)明利用預(yù)先學(xué)習(xí)得到的特征變換參數(shù)矩陣，通過對輸入語音指定音節(jié)以及相關(guān)音素聲學(xué)特征進(jìn)行修正，然后重新合成來自動(dòng)生成重讀音節(jié)語音。本發(fā)明采用如下的技術(shù)方案一種自動(dòng)生成重讀音節(jié)語音的系統(tǒng)，包括音素定位模塊，用于確定接收到的語音信號中每個(gè)音素的位置，得到每個(gè)詞、音節(jié)和音素的時(shí)間邊界；特征提取模塊，用于從語音信號中提取和音節(jié)重讀相關(guān)的特征以及頻譜特征；特征修正模塊，用于利用預(yù)先估計(jì)出的特征變換參數(shù)，把輸入語音特征參數(shù)調(diào)整為對應(yīng)的表示給定音節(jié)重讀的特征參數(shù)，并對調(diào)整后的特征參數(shù)進(jìn)行平滑處理；語音重構(gòu)模塊，用于采用修正后的語音聲學(xué)特征參數(shù)通過源-濾波器模型重新合成語音；
特征變換參數(shù)庫，用于存放統(tǒng)計(jì)的每個(gè)音素從非重讀到重讀的聲學(xué)特征的變換矩陣參數(shù)。以及一種自動(dòng)生成重讀音節(jié)語音的方法，包括如下步驟步驟1、通過語音識別技術(shù)獲得輸入語音的詞、音節(jié)以及音素的時(shí)間邊界；步驟2、從輸入語音中提取每個(gè)音素的重音相關(guān)特征和頻譜特征；步驟3、根據(jù)音素類型和相對重讀音節(jié)的位置，從特征變換參數(shù)庫中獲取每個(gè)音素對應(yīng)的特征變換矩陣，通過下式計(jì)算特定音節(jié)重讀之后語音中每個(gè)音素的重音相關(guān)特征向量Vl(Xp) = A(Xp)Vl(Xp)(1)其中Vi(Xp)表示輸入語音中音素\的第i個(gè)特征向量，ρ表示音素χ相對于重讀音節(jié)的位置類型，A(xp)表示位置類型為ρ的音素χ的變換矩陣，R(Xp)表示位置類型為P 的音素χ的第i個(gè)特征向量變換后的特征向量；步驟4、根據(jù)變換后每個(gè)音素片段的時(shí)長，通過下式對每個(gè)音素的基音周期特征、
聲強(qiáng)特征和頻譜特征進(jìn)行線性插值 [。。21] = i=hj(Xp) ⑵
權(quán)利要求
1.一種自動(dòng)生成重讀音節(jié)語音的系統(tǒng)，包括音素定位模塊，用于確定接收到的語音信號中每個(gè)音素的位置，得到每個(gè)詞、音節(jié)和音素的時(shí)間邊界；特征提取模塊，用于從語音信號中提取和音節(jié)重讀相關(guān)的特征以及頻譜特征；特征修正模塊，用于利用預(yù)先估計(jì)出的特征變換參數(shù)，把輸入語音特征參數(shù)調(diào)整為對應(yīng)的表示給定音節(jié)重讀的特征參數(shù)，并對調(diào)整后的特征參數(shù)進(jìn)行平滑處理；語音重構(gòu)模塊，用于采用修正后的語音聲學(xué)特征參數(shù)通過源-濾波器模型重新合成語曰；特征變換參數(shù)庫，用于存放統(tǒng)計(jì)的每個(gè)音素從非重讀到重讀的聲學(xué)特征的變換矩陣參數(shù)。
2.如權(quán)利要求1所述的自動(dòng)生成重讀音節(jié)語音的系統(tǒng)，其中音素定位模塊采用語音識別技術(shù)通過強(qiáng)制對齊或者網(wǎng)絡(luò)解碼來獲得音素邊界。
3.如權(quán)利要求1所述的自動(dòng)生成重讀音節(jié)語音的系統(tǒng)，其中所述重讀相關(guān)的特征包括基音周期，聲強(qiáng)和音素時(shí)長；所述頻譜特征采用基頻自適應(yīng)的平滑頻譜；所述重新生成的語音中指定音節(jié)的語音具有重讀特性；所述變換矩陣參數(shù)包括聲強(qiáng)和基音周期特征的變換參數(shù)和音素時(shí)長特征的變換參數(shù)。
4.如權(quán)利要求1所述的自動(dòng)生成重讀音節(jié)語音的系統(tǒng)，其中特征修正模塊進(jìn)行參數(shù)調(diào)整是利用預(yù)先計(jì)算的映射變換參數(shù)通過一個(gè)線性映射函數(shù)來完成。
5.一種自動(dòng)生成重讀音節(jié)語音的方法，包括如下步驟步驟1、通過語音識別技術(shù)獲得輸入語音的詞、音節(jié)以及音素的時(shí)間邊界；步驟2、從輸入語音中提取每個(gè)音素的重音相關(guān)特征和頻譜特征；步驟3、根據(jù)音素類型和相對重讀音節(jié)的位置，從特征變換參數(shù)庫中獲取每個(gè)音素對應(yīng)的特征變換矩陣，通過下式計(jì)算特定音節(jié)重讀之后語音中每個(gè)音素的重音相關(guān)特征向量 Vl(Xp) = A(Xp)Vl(Xp)⑴其中=Vi(Xp)表示輸入語音中音素\的第i個(gè)特征向量，ρ表示音素χ相對于重讀音節(jié)的位置類型，A(Xp)表示位置類型為ρ的音素χ的變換矩陣，J^(Xp)表示位置類型為ρ的音素 X的第i個(gè)特征向量變換后的特征向量；步驟4、根據(jù)變換后每個(gè)音素片段的時(shí)長，通過下式對每個(gè)音素的基音周期特征、聲強(qiáng)特征和頻譜特征進(jìn)行線性插值其中d(Xp)表示位置類型為P的音素的時(shí)長表示位置類型為P的音素重讀變換后的時(shí)長，R(Xp)表示音素\重讀變換后的基音周期、聲強(qiáng)和頻譜特征組成的第k個(gè)特征向量，P(Xp)表示插值后音素\的基音周期、聲強(qiáng)和頻譜特征組成的第i個(gè)特征向量；步驟5、在變換之后的特征上，對相鄰音素邊界處的頻譜特征逐幀采用長度為9的漢明窗(Hamming Window)進(jìn)行插值平滑處理，對相鄰音素邊界處的基音周期和聲強(qiáng)特征逐幀采用長度為11的矩形窗進(jìn)行均值平滑處理；步驟6、用變換之后的特征，包括基音周期，聲強(qiáng)和頻譜特征，通過源-濾波模型重新合成語音，輸出指定音節(jié)重讀的語音。
6.如權(quán)利要求5所述的自動(dòng)生成重讀音節(jié)語音的方法，其中步驟1具體包括所述語音識別技術(shù)是采用預(yù)先訓(xùn)練的基于隱馬爾科夫模型(HMM)的聲學(xué)模型，該聲學(xué)模型建模了語音中的每個(gè)音素單元；輸入語音的詞、音節(jié)和音素邊界采用通過強(qiáng)制對齊或者識別解碼生成，在最大后驗(yàn)準(zhǔn)則下使得語音中的每幀數(shù)據(jù)都?xì)w屬于某個(gè)HMM模型，歸屬于同一 HMM模型的數(shù)據(jù)即對應(yīng)于該HMM模型所表示的音素。
7.如權(quán)利要求5所述的自動(dòng)生成重讀音節(jié)語音的方法，其中具體包括；音素重音特征采用基音周期、聲強(qiáng)和音素時(shí)長；根據(jù)相對重讀音節(jié)的位置，句子中的音素歸為6類1)當(dāng)前重讀音節(jié)內(nèi)的音素；2)當(dāng)前詞中位于重讀音節(jié)之前的音素；3)當(dāng)前詞中位于重讀音節(jié)之后的音素；4)當(dāng)前重讀音節(jié)所在詞之前的詞中的音素；5)當(dāng)前重讀音節(jié)所在詞之后的詞中的音素；6)其他詞中的音素；對于輸入語音中的第6類音素，其重音相關(guān)特征和頻譜特征不做修正；同一個(gè)音素，其相對于重讀音節(jié)的位置不同，所對應(yīng)的特征變換矩陣不同。
8.如權(quán)利要求5所述的自動(dòng)生成重讀音節(jié)語音的方法，其中具體包括所述輸入語音中位置類型為P的音素χ的第i個(gè)特征向量Vi(Xp)分為兩類，一類為基音周期和聲強(qiáng)組成的3維特征向量，即=Vi1Up) = [ppi，ev，l]T;另一類對應(yīng)于音素時(shí)長組成的特征向量，即=Vi2 (xp) = [dp,l]T；每個(gè)音素有一個(gè)時(shí)長特征向量，有N個(gè)基音周期和聲強(qiáng)組成的特征向量，其中N為該音素的時(shí)長，單位為幀；所述特征變換矩陣A(Xp)有兩類，一類為基音周期和聲強(qiáng)組成的特征向量對應(yīng)的變換矩陣，記為A1(Xp),是一個(gè)2X3的矩陣；另一類為音素時(shí)長特征對應(yīng)的變換矩陣，記為 A2(Xp),是一個(gè)1X2的矩陣；在基于源-濾波器模型的重讀音節(jié)語音生成過程中，基音周期特征用來生成激勵(lì)信號，頻譜特征用來構(gòu)造表示聲道響應(yīng)的濾波器，聲強(qiáng)特征用來控制合成信號的幅度增益。
9.一種自動(dòng)估計(jì)重音特征變換矩陣參數(shù)的方法，包括如下步驟步驟1、構(gòu)建兩個(gè)語音數(shù)據(jù)庫，數(shù)據(jù)庫Da存儲(chǔ)中性語音，中性語音是指所有音節(jié)都不重讀的語音；數(shù)據(jù)庫Db存儲(chǔ)和數(shù)據(jù)庫Da語音對應(yīng)的帶有重讀音節(jié)的語音；步驟2、基于數(shù)據(jù)庫Da和數(shù)據(jù)庫Db分別訓(xùn)練一套音素上下文相關(guān)的3數(shù)據(jù)流的隱半馬爾可夫模型(HSMM)；步驟3、利用數(shù)據(jù)庫Da上訓(xùn)練的HSMM音素模型通過強(qiáng)制對齊算法獲得數(shù)據(jù)庫Da上所有語音的音素邊界；步驟4、對數(shù)據(jù)庫Db上的每個(gè)音素X，根據(jù)其相對于重讀音節(jié)的位置，通過下式估計(jì)其音素時(shí)長特征的變換矩陣
10.如權(quán)利要求9所述的自動(dòng)估計(jì)重音特征變換矩陣參數(shù)的方法，其中步驟2中所述音素上下文相關(guān)的3數(shù)據(jù)流的隱半馬爾可夫模型的聲學(xué)特征采用基音周期、聲強(qiáng)和頻譜特征，組成3個(gè)獨(dú)立數(shù)據(jù)流。
全文摘要
一種自動(dòng)生成重讀音節(jié)語音的系統(tǒng)，包括音素定位模塊，用于確定接收到的語音信號中每個(gè)音素的位置，得到每個(gè)詞、音節(jié)和音素的時(shí)間邊界；聲學(xué)特征提取模塊，用于從語音信號中提取和重讀相關(guān)的特征以及頻譜特征；聲學(xué)特征參數(shù)修正模塊，用于把輸入語音特征參數(shù)調(diào)整為對應(yīng)的表示給定音節(jié)重讀的特征參數(shù)，并對調(diào)整后的特征參數(shù)進(jìn)行平滑處理；語音重構(gòu)模塊，用于采用修正后的語音聲學(xué)特征參數(shù)通過源-濾波器模型重新合成語音；特征變換參數(shù)庫，用于存放每個(gè)音素的聲學(xué)特征從非重讀到重讀的統(tǒng)計(jì)的變換矩陣參數(shù)。
文檔編號G10L15/00GK102436807SQ201110270759
公開日2012年5月2日申請日期2011年9月14日優(yōu)先權(quán)日2011年9月14日
發(fā)明者王歡良, 鄒平申請人:蘇州思必馳信息科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王歡良;鄒平
技術(shù)所有人：蘇州思必馳信息科技有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語音自動(dòng)生成字幕軟件相關(guān)技術(shù)

語音識別自動(dòng)生成字幕相關(guān)技術(shù)

語音自動(dòng)生成相關(guān)技術(shù)

語音自動(dòng)生成字幕相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

自動(dòng)生成重讀音節(jié)語音的方法和系統(tǒng)的制作方法