訓(xùn)練時長預(yù)測模型、時長預(yù)測和語音合成的方法及裝置的制作方法

文檔序號：2823530閱讀：335來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：訓(xùn)練時長預(yù)測模型、時長預(yù)測和語音合成的方法及裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及信息處理技術(shù)，具體地，涉及利用計算機(jī)進(jìn)行數(shù)據(jù)驅(qū)動的時長預(yù)測模型的訓(xùn)練和時長預(yù)測的技術(shù)，以及語音合成技術(shù)。
背景技術(shù)：
時長預(yù)測是通過句子中詞語對應(yīng)的語言和語音屬性，預(yù)測出相應(yīng)語音單元的合理的時間長度?，F(xiàn)有傳統(tǒng)的方法主要包括積和模型(Sum ofProducts，SOP)，分類與回歸樹(Classify and Regression Tree，CART)和人工神經(jīng)網(wǎng)(Artificial Neural Networks，ANN)。
關(guān)于積和模型(SOP)，例如，在S.H.Chen，S.H.Hwang等人著的文章“An ANN-based prosodic information synthesizer for Mandarintext-to-speech”(發(fā)表于IEEE trans.Speech Audio Processing，Vol.6，No.3，pp226-239，1998)以及Sun Lu，Yu Hu，Reh-Hua Wang著的文章“Polynomial regression model for duration prediction in Mandarin”(發(fā)表于INTERSPEECH-2004，pp769-77)中進(jìn)行了詳細(xì)的描述。
關(guān)于分類與回歸樹(CART)，例如，在Chung，H.and Huckvale，M.A.著的文章“Linguistic factors affecting timing in Korean withapplication to speech synthesis”(發(fā)表于In Proceedings of Eurospeech2001，Aalborg，vol.2，pp.815-819)中進(jìn)行了詳細(xì)的描述。
關(guān)于人工神經(jīng)網(wǎng)(ANN)，例如，在Venditti，Jennifer J.，Santen，JanP.H.van，著的文章“Modeling final duration for Japanese text-to-speechsynthesis”(發(fā)表于ICSLP-1998，pp.786-789)中進(jìn)行了詳細(xì)的描述。以上文獻(xiàn)的全部內(nèi)容以引用方式包含于此，以供參考。
但是，傳統(tǒng)的方法存在以下缺點1)數(shù)據(jù)稀疏和屬性協(xié)同作用這兩個主要問題困擾著傳統(tǒng)的方法。這主要是由于模型復(fù)雜度和訓(xùn)練數(shù)據(jù)樣本之間的不平衡導(dǎo)致的。傳統(tǒng)模型的系數(shù)能通過數(shù)據(jù)驅(qū)動方法計算得到，但是模型的屬性和屬性組合卻是用手工的方法設(shè)置的。那么，這種“部分的”數(shù)據(jù)驅(qū)動的方法一定程度上就依賴于人的經(jīng)驗。
2)語速沒有被當(dāng)作屬性參與時長建模，但是韻律研究表明，時長明顯地受語速的影響。這樣，當(dāng)用戶需要調(diào)節(jié)語速時，只能別無選擇地對整段語音的進(jìn)行線性的縮放。而實際上，語速和其他屬性之間對時長影響的關(guān)系大不相同，線性的縮放的方法并不夠合理。

發(fā)明內(nèi)容
為了解決上述現(xiàn)有技術(shù)中存在的問題，本發(fā)明提供了數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法和裝置、時長預(yù)測方法和裝置以及語音合成方法和裝置。
根據(jù)本發(fā)明的一個方面，提供了一種數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法，包括利用與時長預(yù)測相關(guān)的多個屬性和至少一部分上述屬性的組合生成初始時長預(yù)測模型，其中每個上述屬性或上述屬性的組合被作為一項；計算上述時長預(yù)測模型中每一上述項的重要性；刪除上述計算出的重要性最低的項；利用剩余的項重新生成時長預(yù)測模型；判斷上述重新生成的時長預(yù)測模型是否最優(yōu)；以及如果上述時長預(yù)測模型被判斷為不是最優(yōu)，則重復(fù)上述計算每一項的重要性的步驟及其之后的步驟。
根據(jù)本發(fā)明的另一個方面，提供了一種時長預(yù)測方法，包括利用上述的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法，訓(xùn)練時長預(yù)測模型；獲得相應(yīng)的上述與時長預(yù)測相關(guān)的多個屬性；以及根據(jù)上述訓(xùn)練的時長預(yù)測模型，計算時長。
根據(jù)本發(fā)明的另一個方面，提供了一種語音合成方法，包括利用上述的時長預(yù)測方法，預(yù)測時長；以及根據(jù)上述預(yù)測的時長，進(jìn)行語音合成。
根據(jù)本發(fā)明的另一個方面，提供了一種數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的裝置，包括初始模型生成單元(initial model generator)，其利用與時長預(yù)測相關(guān)的多個屬性和至少一部分上述屬性的組合生成初始時長預(yù)測模型，其中每個上述屬性或上述屬性的組合被作為一項；重要性計算單元(importance calculator)，其計算上述時長預(yù)測模型中每一上述項的重要性；項刪除單元(item deleting unit)，用于刪除上述計算出的重要性最低的項；模型再生成單元(model re-generator)，其利用由上述項刪除單元刪除后剩余的項重新生成時長預(yù)測模型；以及優(yōu)化判斷單元(optimizationdetermining unit)，其判斷由上述模型再生成單元重新生成的時長預(yù)測模型是否最優(yōu)。
根據(jù)本發(fā)明的另一個方面，提供了一種時長預(yù)測裝置，包括利用上述的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法訓(xùn)練得到的時長預(yù)測模型；屬性獲得單元(attribute obtaining unit)，用于獲得相應(yīng)的上述與時長預(yù)測相關(guān)的多個屬性；以及時長計算單元(duration calculator)，其根據(jù)上述時長預(yù)測模型，計算時長。
根據(jù)本發(fā)明的另一個方面，提供了一種語音合成裝置，包括上述的時長預(yù)測裝置；并且根據(jù)由上述時長預(yù)測裝置預(yù)測的時長，進(jìn)行語音合成。

相信通過以下結(jié)合附圖對本發(fā)明具體實施方式
的說明，能夠使人們更好地了解本發(fā)明上述的特點、優(yōu)點和目的。
圖1是根據(jù)本發(fā)明一個實施例的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法的流程圖；圖2是根據(jù)本發(fā)明一個實施例的時長預(yù)測方法的流程圖；圖3是根據(jù)本發(fā)明一個實施例的語音合成方法的流程圖；圖4是根據(jù)本發(fā)明一個實施例的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的裝置的方框圖；圖5是根據(jù)本發(fā)明一個實施例的時長預(yù)測裝置的方框圖；以及圖6是根據(jù)本發(fā)明一個實施例的語音合成裝置的方框圖。
具體實施例方式
為了便于后面實施例的理解，首先簡要介紹一下GLM(GeneralizedLinear Model，廣義線性模型)模型和BIC(Bayes Information Criterion，貝葉斯信息準(zhǔn)則)的原理。GLM是對多元線性回歸模型的一種擴(kuò)展，SOP則是GLM的一個特例。GLM時長模型通過語音單元s的屬性A，預(yù)測出時長，相應(yīng)的定義如公式(1)。
di=di^+ei=h-1(β0+Σj=1pβjfj(A))+ei---(1)]]>其中，h表示鏈接函數(shù)。一般地，可以假定d滿足指數(shù)族分布。為了使d滿足不同的指數(shù)族分布，只需要設(shè)定相應(yīng)的鏈接函數(shù)。本實施例的GLM模型假定時長服從高斯分布。GLM既能作線性建模，也能作非線性建模。
比較模型的性能需要有判別標(biāo)準(zhǔn)。越簡單的模型對集外數(shù)據(jù)預(yù)測的穩(wěn)定性越高，而越復(fù)雜的模型對集內(nèi)數(shù)據(jù)的擬合程度越高。BIC是一種常見的評價標(biāo)準(zhǔn)，它綜合了以上對擬合精度和模型可靠性的度量，定義如式(2)。
BIC＝Nlog(SSE/N)+plogN(2)其中，SSE表示預(yù)測誤差e的平方和。式(2)的第一項表示模型的擬合精度，第二項表示對模型復(fù)雜度的懲罰。當(dāng)訓(xùn)練樣本N一定時，越復(fù)雜的模型的參數(shù)個數(shù)p越大，對訓(xùn)練數(shù)據(jù)就擬合得越好，相應(yīng)的SSE就越小，第一項就越小，而第二項就增大。反之亦然。公式中一項的減小總是導(dǎo)致另一項的增大，當(dāng)兩項和最小時，表示模型“最優(yōu)”。BIC能在模型復(fù)雜度和數(shù)據(jù)規(guī)模之間取得一個不錯的平衡，這有助于解決屬性稀疏和屬性協(xié)同作用的問題。
下面就結(jié)合附圖對本發(fā)明的各個優(yōu)選實施例進(jìn)行詳細(xì)的說明。
圖1是根據(jù)本發(fā)明一個實施例的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法的流程圖。利用本實施例的方法訓(xùn)練的時長預(yù)測模型將被用于后面結(jié)合其它實施例描述的時長預(yù)測方法和語音合成方法及裝置。
如圖1所示，首先在步驟101，生成初始時長預(yù)測模型。具體地，利用與時長預(yù)測相關(guān)的多個屬性和這些屬性的組合生成初始時長預(yù)測模型。如前面所述，與時長預(yù)測相關(guān)的屬性可以包括許多，大致可分為語言類型的屬性和語音類型的屬性，下面的表1示例性地列舉了一些可以作為時長預(yù)測相關(guān)屬性的屬性。
表1與時長預(yù)測相關(guān)的屬性

在本實施例中，采用GLM模型來表示這些屬性和屬性組合。為了便于說明，假定與時長預(yù)測相關(guān)的屬性只有phone(音子)和tone(聲調(diào))。初始時長預(yù)測模型的形式如下duration～phone+tone+tone*phone，其中，tone*phone表示tone和phone的組合，是一個2階項。
可以理解，當(dāng)屬性的數(shù)量增加時，作為屬性組合可以出現(xiàn)多個2階項、3階項等等。
另外，在本實施例中，在生成初始時長預(yù)測模型時，可以只取其中一部分的屬性組合，例如只取到全部的2階項；當(dāng)然，也可以取到3階項或?qū)⑷康膶傩越M合加入到初始時長預(yù)測模型中。
總之，在初始時長預(yù)測模型中包括全部的單獨屬性(1階項)和至少一部分的屬性組合(2階項或多階項)。這樣，初始時長預(yù)測模型可以利用很簡單的規(guī)則來自動生成，而不是如現(xiàn)有技術(shù)那樣，根據(jù)經(jīng)驗手工設(shè)定。
接著，在步驟105，利用F檢驗(F-test)計算每一項的重要性。關(guān)于F檢驗，作為一種已知的標(biāo)準(zhǔn)統(tǒng)計方法，在盛驟，謝式千，潘乘毅編的《概率論與數(shù)理統(tǒng)計》(2000第二版，高等教育出版社)中已經(jīng)有詳細(xì)的說明，在此不再重復(fù)。
應(yīng)當(dāng)指出，雖然在本實施中使用的是F檢驗，但是，其它的統(tǒng)計方法也可以使用，例如，Chisq-test等等。
接著，在步驟110，從初始時長預(yù)測模型中刪除F檢驗得分最低的項。然后，在步驟115，利用剩余的項，重新生成時長預(yù)測模型。
接著，在步驟120，計算重新生成的時長預(yù)測模型的BIC值，利用前面所述的方法判斷該模型是否為最優(yōu)。如果步驟120的判斷為“是”，則將該新生成的時長預(yù)測模型作為最佳模型，并在步驟125結(jié)束。
如果步驟120的判斷為“否”，則返回到步驟105，再次計算該重新生成的模型的每一項的重要性，刪除不重要的項(步驟110)，重新生成模型(步驟115)，直到獲得最佳模型。
通過以上的說明可知，本實施例利用了廣義線性模型(GLM)的時長建模方法和基于F檢驗(F-test)和貝葉斯信息準(zhǔn)則(BIC)的逐步回歸(stepwise regression)的方法進(jìn)行屬性選擇。由于本實施例的GLM模型結(jié)構(gòu)靈活，容易實現(xiàn)對訓(xùn)練數(shù)據(jù)的自適應(yīng)，從而解決了數(shù)據(jù)稀疏問題。進(jìn)而，通過逐步回歸的方法能夠自動地選出重要屬性協(xié)同作用項。
另外，根據(jù)本發(fā)明的一個優(yōu)選實施例訓(xùn)練時長預(yù)測模型的方法，語速(speaking rate)也被作為與時長預(yù)測相關(guān)的多個屬性之一。由于將語速引入到時長預(yù)測的建模中，這給語音合成的語速調(diào)整提供了一種新的途徑。在語音合成系統(tǒng)輸出語音之前，用戶或應(yīng)用可以設(shè)定語速；數(shù)據(jù)庫中的語速也是確定的。因此，對時長預(yù)測模型的訓(xùn)練和測試，語速都是已知的。時長預(yù)測模型的屬性集合不僅可以引入語速本身，還能夠引入與語速相互作用的協(xié)同項，提高時長預(yù)測的精度。在語音合成過程中，基于語速的時長預(yù)測還可以改善簡單的均勻縮放的語速調(diào)整方法。已有研究表明，語速的變化引起的不同音素的時長變化并不均勻，這也說明語速與其他屬性的確存在相對時長的協(xié)同作用引入。
在同一發(fā)明構(gòu)思下，圖2是根據(jù)本發(fā)明一個實施例的時長預(yù)測方法的流程圖。下面就結(jié)合該圖，對本實施例進(jìn)行描述。對于那些與前面實施例相同的部分，適當(dāng)省略其說明。
如圖2所示，首先在步驟201，利用前面實施例描述的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法，訓(xùn)練時長預(yù)測模型。
接著，在步驟205，獲得相應(yīng)的上述與時長預(yù)測相關(guān)的多個屬性。具體地，例如，從輸入的文本中可以直接獲得，或者經(jīng)過語法分析、句法分析等獲得。需要指出，本實施例可以采用任何已知的和未來的方法來獲得這些相應(yīng)的屬性，而并不限于某種特定的方式，并且獲得方式還與屬性的選擇相對應(yīng)。
最后，在步驟210，根據(jù)上述訓(xùn)練的時長預(yù)測模型和獲得的上述屬性，計算時長。
通過以上的說明可知，由于本實施的時長預(yù)測方法采用了前面實施例的訓(xùn)練時長預(yù)測模型的方法訓(xùn)練的模型來進(jìn)行時長預(yù)測，所以，容易實現(xiàn)對訓(xùn)練數(shù)據(jù)的自適應(yīng)，解決了數(shù)據(jù)稀疏問題，并且能夠自動地選出重要屬性協(xié)同作用項。因此，本實施例的時長預(yù)測方法可以更準(zhǔn)確并且自動地預(yù)測時長。
另外，根據(jù)本發(fā)明的一個優(yōu)選實施例的時長預(yù)測方法，語速(speakingrate)也被作為與時長預(yù)測相關(guān)的多個屬性之一。這樣，通過將語速引入到時長預(yù)測的建模中，時長預(yù)測模型的屬性集合不僅可以引入語速本身，還能夠引入與語速相互作用的協(xié)同項，從而進(jìn)一步提高了時長預(yù)測的精度。
在同一發(fā)明構(gòu)思下，圖3是根據(jù)本發(fā)明一個實施例的語音合成方法的流程圖。下面就結(jié)合該圖，對本實施例進(jìn)行描述。對于那些與前面實施例相同的部分，適當(dāng)省略其說明。
如圖2所示，首先在步驟201，利用前面實施例描述的時長預(yù)測方法，預(yù)測時長。
接著，在步驟205，根據(jù)上述預(yù)測的時長，進(jìn)行語音合成。
通過以上的說明可知，由于本實施的語音合成方法采用了前面實施例的時長預(yù)測方法來預(yù)測時長，進(jìn)而根據(jù)預(yù)測的結(jié)構(gòu)進(jìn)行語音合成，所以，容易實現(xiàn)對訓(xùn)練數(shù)據(jù)的自適應(yīng)，解決了數(shù)據(jù)稀疏問題，并且能夠自動地選出重要屬性協(xié)同作用項。因此，本實施例的語音合成方法可以更準(zhǔn)確并且自動地進(jìn)行語音合成，生成的語音更合理、易懂。
另外，根據(jù)本發(fā)明的一個優(yōu)選實施例的語音合成方法，語速(speakingrate)也被作為與時長預(yù)測相關(guān)的多個屬性之一。由于將語速引入到時長預(yù)測的建模中，這給語音合成的語速調(diào)整提供了一種新的途徑。在語音合成系統(tǒng)輸出語音之前，用戶或應(yīng)用可以設(shè)定語速；數(shù)據(jù)庫中的語速也是確定的。因此，對時長預(yù)測模型的訓(xùn)練和測試，語速都是已知的。時長預(yù)測模型的屬性集合不僅可以引入語速本身，還能夠引入與語速相互作用的協(xié)同項，提高時長預(yù)測的精度。在語音合成過程中，基于語速的時長預(yù)測還可以改善簡單的均勻縮放的語速調(diào)整方法。已有研究表明，語速的變化引起的不同音素的時長變化并不均勻，這也說明語速與其他屬性的確存在相對時長的協(xié)同作用引入。
在同一發(fā)明構(gòu)思下，圖4是根據(jù)本發(fā)明一個實施例的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的裝置的方框圖。下面就結(jié)合該圖，對本實施例進(jìn)行描述。對于那些與前面實施例相同的部分，適當(dāng)省略其說明。
如圖4所示，本實施例的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的裝置400包括初始模型生成單元(initial model generator)401，其利用與時長預(yù)測相關(guān)的多個屬性和至少一部分上述屬性的組合生成初始時長預(yù)測模型，其中每個上述屬性或上述屬性的組合被作為一項；重要性計算單元(importancecalculator)402，其計算上述時長預(yù)測模型中每一上述項的重要性；項刪除單元(item deleting unit)403，用于刪除上述計算出的重要性最低的項；模型再生成單元(model re-generator)404，其利用由項刪除單元403刪除后剩余的項重新生成時長預(yù)測模型；以及優(yōu)化判斷單元(optimizationdetermining unit)405，其判斷由模型再生成單元404重新生成的時長預(yù)測模型是否最優(yōu)。
與前面描述的實施例相同，本實施例中與時長預(yù)測相關(guān)多個屬性包括語言類型和語音類型的屬性，例如，包括從前面表1中選擇的任意多個屬性。
其中，重要性計算單元402利用F檢驗(F-test)計算每一項的重要性。優(yōu)化判斷單元405利用貝葉斯信息準(zhǔn)則(BIC)判斷上述重新生成的時長預(yù)測模型是否最優(yōu)。
另外，根據(jù)本發(fā)明的一個優(yōu)選實施例，上述至少一部分上述屬性的組合包括上述多個與時長預(yù)測相關(guān)的屬性的全部2階的屬性組合。
另外，根據(jù)本發(fā)明的另一個優(yōu)選實施例，上述與時長預(yù)測相關(guān)多個屬性包括語速(speaking rate)。
在此，應(yīng)當(dāng)指出，本實施例中的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的裝置400及其各個組成部分，可以用專用的電路或芯片構(gòu)成，也可以通過計算機(jī)(處理器)執(zhí)行相應(yīng)的程序來實現(xiàn)。并且，本實施例的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的裝置400，操作上可以實現(xiàn)前面實施例的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法。
在同一發(fā)明構(gòu)思下，圖5是根據(jù)本發(fā)明一個實施例的時長預(yù)測裝置的方框圖。下面就結(jié)合該圖，對本實施例進(jìn)行描述。對于那些與前面實施例相同的部分，適當(dāng)省略其說明。
如圖5所示，本實施例的時長預(yù)測裝置500包括時長預(yù)測模型(duration predicting model)501，其是利用前面實施例描述的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法訓(xùn)練得到的時長預(yù)測模型；屬性獲得單元(attribute obtaining unit)502，用于獲得相應(yīng)的與時長預(yù)測相關(guān)的多個屬性；以及時長計算單元(duration calculator)503，其根據(jù)上述時長預(yù)測模型501和由屬性獲得單元502獲得的與時長預(yù)測相關(guān)的屬性，計算時長。
在此，關(guān)于獲得屬性的方式，如前面實施例中所述，可以采用任何已知的和未來的方法來獲得這些相應(yīng)的屬性，而并不限于某種特定的方式，并且獲得方式還與屬性的選擇有關(guān)。例如，用于獲得音子(phone)和聲調(diào)(tone)屬性，可以從文本分析(分詞)之后的拼音獲得；用戶獲得語法類型的屬性，可以采用語法分析器或句法分析器等。
在同一發(fā)明構(gòu)思下，圖6是根據(jù)本發(fā)明一個實施例的語音合成裝置的方框圖。下面就結(jié)合該圖，對本實施例進(jìn)行描述。對于那些與前面實施例相同的部分，適當(dāng)省略其說明。
如圖5所示，本實施例的語音合成裝置600包括時長預(yù)測裝置500，其可以使前面實施例中描述的時長預(yù)測裝置；以及語音合成器601，其可以使現(xiàn)有技術(shù)的語音合成器，并根據(jù)由上述時長預(yù)測裝置預(yù)測的時長，進(jìn)行語音合成。
在此，應(yīng)當(dāng)指出，本實施例中的語音合成裝置600及其各個組成部分，可以用專用的電路或芯片構(gòu)成，也可以通過計算機(jī)(處理器)執(zhí)行相應(yīng)的程序來實現(xiàn)。并且，本實施例的語音合成裝置600，操作上可以實現(xiàn)前面實施例的語音合成方法。
以上雖然通過一些示例性的實施例對本發(fā)明的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法和裝置、時長預(yù)測方法和裝置以及語音合成方法和裝置進(jìn)行了詳細(xì)的描述，但是以上這些實施例并不是窮舉的，本領(lǐng)域技術(shù)人員可以在本發(fā)明的精神和范圍內(nèi)實現(xiàn)各種變化和修改。因此，本發(fā)明并不限于這些實施例，本發(fā)明的范圍僅由所附權(quán)利要求為準(zhǔn)。
權(quán)利要求
1.一種數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法，包括利用與時長預(yù)測相關(guān)的多個屬性和至少一部分上述屬性的組合生成初始時長預(yù)測模型，其中每個上述屬性或上述屬性的組合被作為一項；計算上述時長預(yù)測模型中每一上述項的重要性；刪除上述計算出的重要性最低的項；利用剩余的項重新生成時長預(yù)測模型；判斷上述重新生成的時長預(yù)測模型是否最優(yōu)；以及如果上述時長預(yù)測模型被判斷為不是最優(yōu)，則重復(fù)上述計算每一項的重要性的步驟及其之后的步驟。
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法，其中，上述與時長預(yù)測相關(guān)多個屬性包括語言類型和語音類型的屬性。
3.根據(jù)權(quán)利要求1所述的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法，其中，上述與時長預(yù)測相關(guān)多個屬性包括從當(dāng)前音素、音節(jié)中另一個音素、前一個音節(jié)相鄰的音素、后一個音節(jié)相鄰的音素、聲調(diào)、前音節(jié)的聲調(diào)、后音節(jié)的聲調(diào)、詞性、到下一個停頓的距離、到前一個停頓的距離、音節(jié)在語法詞中的位置、前后及當(dāng)前語法詞的長度、語法詞中音節(jié)的個數(shù)、音節(jié)在句子中的位置和句中語法詞的個數(shù)中選擇的任意多個屬性。
4.根據(jù)權(quán)利要求1所述的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法，其中，上述時長預(yù)測模型是廣義線性模型(GLM)。
5.根據(jù)權(quán)利要求1所述的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法，其中，上述至少一部分上述屬性的組合包括上述多個與時長預(yù)測相關(guān)的屬性的全部2階的屬性組合。
6.根據(jù)權(quán)利要求1所述的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法，其中，上述計算上述時長預(yù)測模型中每一上述項的重要性的步驟包括利用F檢驗(F-test)計算每一項的重要性。
7.根據(jù)權(quán)利要求1所述的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法，其中，上述判斷上述重新生成的時長預(yù)測模型是否最優(yōu)的步驟包括利用貝葉斯信息準(zhǔn)則(BIC)判斷上述重新生成的時長預(yù)測模型是否最優(yōu)。
8.根據(jù)權(quán)利要求7所述的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法，其中，上述判斷上述重新生成的時長預(yù)測模型是否最優(yōu)的步驟包括計算下式BIC＝Nlog(SSE/N)+plogN其中，SSE表示預(yù)測誤差e的平方和，N表示訓(xùn)練樣本；當(dāng)上式中的BIC最小時，判斷時長預(yù)測模型為最優(yōu)。
9.根據(jù)前面任意一項權(quán)利要求所述的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法，其中，上述與時長預(yù)測相關(guān)多個屬性還包括語速(speaking rate)。
10.一種時長預(yù)測方法，包括利用上述權(quán)利要求1-9的任意一項所述的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法，訓(xùn)練時長預(yù)測模型；獲得相應(yīng)的上述與時長預(yù)測相關(guān)的多個屬性的值；以及根據(jù)上述訓(xùn)練的時長預(yù)測模型和相應(yīng)的上述與時長預(yù)測相關(guān)的多個屬性的值，計算時長。
11.根據(jù)權(quán)利要求10所述的時長預(yù)測方法，其中，上述與時長預(yù)測相關(guān)的多個屬性包括語速。
12.一種語音合成方法，包括利用上述權(quán)利要求10-11的任意一項所述的時長預(yù)測方法，預(yù)測時長；以及根據(jù)上述預(yù)測的時長，進(jìn)行語音合成。
13.一種數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的裝置，包括初始模型生成單元(initial model generator)，其利用與時長預(yù)測相關(guān)的多個屬性和至少一部分上述屬性的組合生成初始時長預(yù)測模型，其中每個上述屬性或上述屬性的組合被作為一項；重要性計算單元(importance calculator)，其計算上述時長預(yù)測模型中每一上述項的重要性；項刪除單元(item deleting unit)，用于刪除上述計算出的重要性最低的項；模型再生成單元(model re-generator)，其利用由上述項刪除單元刪除后剩余的項重新生成時長預(yù)測模型；以及優(yōu)化判斷單元(optimization determining unit)，其判斷由上述模型再生成單元重新生成的時長預(yù)測模型是否最優(yōu)。
14.根據(jù)權(quán)利要求13所述的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的裝置，其中，上述與時長預(yù)測相關(guān)多個屬性包括語言類型和語音類型的屬性。
15.根據(jù)權(quán)利要求13所述的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的裝置，其中，上述與時長預(yù)測相關(guān)多個屬性包括從當(dāng)前音素、音節(jié)中另一個音素、前一個音節(jié)相鄰的音素、后一個音節(jié)相鄰的音素、聲調(diào)、前音節(jié)的聲調(diào)、后音節(jié)的聲調(diào)、詞性、到下一個停頓的距離、到前一個停頓的距離、音節(jié)在語法詞中的位置、前后及當(dāng)前語法詞的長度、語法詞中音節(jié)的個數(shù)、音節(jié)在句子中的位置和句中語法詞的個數(shù)中選擇的任意多個屬性。
16.根據(jù)權(quán)利要求13所述的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的裝置，其中，上述至少一部分上述屬性的組合包括上述多個與時長預(yù)測相關(guān)的屬性的全部2階的屬性組合。
17.根據(jù)權(quán)利要求13所述的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的裝置，其中，重要性計算單元(importance calculator)利用F檢驗(F-test)計算每一項的重要性。
18.根據(jù)權(quán)利要求13所述的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的裝置，其中，優(yōu)化判斷單元(optimization determining unit)利用貝葉斯信息準(zhǔn)則(BIC)判斷上述重新生成的時長預(yù)測模型是否最優(yōu)。
19.根據(jù)權(quán)利要求13-18的任意一項所述的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的裝置，其中，上述與時長預(yù)測相關(guān)多個屬性包括語速(speakingrate)。
20.一種時長預(yù)測裝置，包括利用上述權(quán)利要求1-9的任意一項所述的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法訓(xùn)練得到的時長預(yù)測模型；屬性獲得單元(attribute obtaining unit)，用于獲得相應(yīng)的上述與時長預(yù)測相關(guān)的多個屬性的值；以及時長計算單元(duration calculator)，其根據(jù)上述時長預(yù)測模型和相應(yīng)的上述與時長預(yù)測相關(guān)的多個屬性的值，計算時長。
21.根據(jù)權(quán)利要求20所述的時長預(yù)測裝置，其中，上述與時長預(yù)測相關(guān)的多個屬性包括語速。
22.一種語音合成裝置，包括上述權(quán)利要求20-21的任意一項所述的時長預(yù)測裝置；并且根據(jù)由上述時長預(yù)測裝置預(yù)測的時長，進(jìn)行語音合成。
全文摘要
本發(fā)明提供了數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法和裝置、時長預(yù)測方法和裝置以及語音合成方法和裝置。本發(fā)明的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法，包括利用與時長預(yù)測相關(guān)的多個屬性和至少一部分上述屬性的組合生成初始時長預(yù)測模型，其中每個上述屬性或上述屬性的組合被作為一項；計算上述時長預(yù)測模型中每一上述項的重要性；刪除上述計算出的重要性最低的項；利用剩余的項重新生成時長預(yù)測模型；判斷上述重新生成的時長預(yù)測模型是否最優(yōu)；以及如果上述時長預(yù)測模型被判斷為不是最優(yōu)，則重復(fù)上述計算每一項的重要性的步驟及其之后的步驟。
文檔編號G10L13/04GK1953052SQ200510114320
公開日2007年4月25日申請日期2005年10月20日優(yōu)先權(quán)日2005年10月20日
發(fā)明者易立夫, 郝杰申請人:株式會社東芝

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：易立夫;郝杰
技術(shù)所有人：株式會社東芝
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

語音合成相關(guān)技術(shù)

語音合成軟件相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

訓(xùn)練時長預(yù)測模型、時長預(yù)測和語音合成的方法及裝置的制作方法