一種哼唱合成方法和系統(tǒng)的制作方法

文檔序號：2823702閱讀：306來源：國知局

專利名稱：一種哼唱合成方法和系統(tǒng)的制作方法
技術領域：
本發(fā)明涉及語音合成技術領域，特別是涉及一種哼唱合成方法和系統(tǒng)。
背景技術：
語音合成技術，又稱文語轉換(TTS，Text to Speech)技術，其能將任意文字信息轉化為標準流暢的語音朗讀出來。目前的語音合成方法是預先錄制一個語音庫，然后在該語音庫基礎上完成一個語音合成系統(tǒng)。此方法合成聲音的語調節(jié)奏取決于語音庫，即合成出的聲音像是錄音人在說話。而在一些娛樂應用中，用戶希望可以調節(jié)合成語音的語調節(jié)奏，比如，將短信以歌曲的語調“唱”出來?？傊枰绢I域技術人員迫切解決的一個技術問題就是如何能夠合成具有歌曲語調節(jié)奏的語音。

發(fā)明內容
本發(fā)明所要解決的技術問題是提供一種哼唱合成方法和系統(tǒng)，用于輸出帶有歌曲節(jié)奏和旋律的語音數(shù)據。為了解決上述問題，本發(fā)明公開了一種哼唱合成方法，包括接收用戶輸入的文本；進行文本分析，獲得與所述文本對應的音節(jié)序列，以及，該音節(jié)序列中每個音節(jié)的音節(jié)名稱；針對所述音節(jié)序列中每個音節(jié)，根據其音節(jié)名稱及上下文環(huán)境，結合統(tǒng)計參數(shù)模型，規(guī)劃得到相應的時長參數(shù)、基頻參數(shù)和譜參數(shù)；依據用戶選擇的歌曲模板和所述音節(jié)序列的音節(jié)個數(shù)，對所述規(guī)劃得到的時長參數(shù)、基頻參數(shù)進行調整，其中，所述歌曲模板中存儲有音節(jié)的時長參數(shù)和基頻參數(shù)；依據調整后的時長參數(shù)，對相應音節(jié)的譜參數(shù)進行插值調整；根據所述音節(jié)序列中每個音節(jié)的時長參數(shù)、基頻參數(shù)和譜參數(shù)，利用合成器得到與所述音節(jié)序列對應的語音數(shù)據。優(yōu)選的，所述對時長參數(shù)、基頻參數(shù)進行調整的步驟，包括獲取所述音節(jié)序列的音節(jié)個數(shù)；從所述歌曲模板中提取與所述音節(jié)個數(shù)相應的時長參數(shù)和基頻參數(shù)，并覆蓋所述規(guī)劃得到的時長參數(shù)、基頻參數(shù)。優(yōu)選的，所述文本分析步驟包括對所述文本進行分詞操作；將所述文本中的數(shù)字符號轉換為文字；依據分詞結果，對數(shù)字符號轉換后的文本進行韻律預測；
根據韻律預測結果，將文本轉換為音節(jié)序列，以及，基于音節(jié)映射表，得到該音節(jié) 序列中每個音節(jié)的音節(jié)名稱。優(yōu)選的，所述歌曲模板為通過如下步驟生成的模板針對歌曲樣本，提取其中每個音節(jié)的時長參數(shù)和基頻參數(shù)；將所述時長參數(shù)和基頻參數(shù)，保存至歌曲模板。優(yōu)選的，所述歌曲樣本包括清唱歌曲樣本。另一方面，本發(fā)明還公開了一種哼唱合成系統(tǒng)，包括接口模塊，用于接收用戶輸入的文本；文本分析模塊，用于進行文本分析，獲得與所述文本對應的音節(jié)序列，以及，該音節(jié)序列中每個音節(jié)的音節(jié)名稱；參數(shù)規(guī)劃模塊，用于針對所述音節(jié)序列中每個音節(jié)，根據其音節(jié)名稱及上下文環(huán) 境，結合統(tǒng)計參數(shù)模型，規(guī)劃得到相應的時長參數(shù)、基頻參數(shù)和譜參數(shù)；第一參數(shù)調整模塊，用于依據用戶選擇的歌曲模板和所述音節(jié)序列的音節(jié)個數(shù)，對所述規(guī)劃得到的時長參數(shù)、基頻參數(shù)進行調整，其中，所述歌曲模板中存儲有音節(jié)的時長參數(shù)和基頻參數(shù)；第二參數(shù)調整模塊，用于依據調整后的時長參數(shù)，對相應音節(jié)的譜參數(shù)進行插值調整；合成模塊，用于根據所述音節(jié)序列中每個音節(jié)的時長參數(shù)、基頻參數(shù)和譜參數(shù)，利用合成器得到與所述音節(jié)序列對應的語音數(shù)據。優(yōu)選的，所述第一參數(shù)調整模塊包括獲取單元，用于獲取所述音節(jié)序列的音節(jié)個數(shù)；調整單元，用于從歌曲模板中提取與所述音節(jié)個數(shù)對應的參數(shù)信息，覆蓋所述規(guī) 劃得到的時長參數(shù)、基頻參數(shù)，并對譜參數(shù)依據規(guī)劃時長進行插值。優(yōu)選的，所述文本分析模塊包括分詞單元，用于對所述文本進行分詞操作；數(shù)字符號轉換單元，用于將所述文本中的數(shù)字符號轉換為文字；韻律預測單元，用于依據分詞結果，對數(shù)字符號轉換后的文本進行韻律預測；音節(jié)轉換單元，用于根據韻律預測結果，將文本轉換為音節(jié)序列，以及，基于音節(jié) 映射表，得到該音節(jié)序列中每個音節(jié)的音節(jié)名稱。優(yōu)選的，所述系統(tǒng)還包括歌曲模板生成模塊，該歌曲模板生成模塊包括提取單元，用于針對歌曲樣本，提取其中每個音節(jié)的時長參數(shù)和基頻參數(shù)；保存單元，用于將所述時長參數(shù)和基頻參數(shù)，保存至歌曲模板。優(yōu)選的，所述歌曲樣本包括清唱歌曲樣本。與現(xiàn)有技術相比，本發(fā)明具有以下優(yōu)點本發(fā)明采用歌曲模板以音節(jié)為單位存儲時長參數(shù)、基頻參數(shù)，且可以依據歌曲名稱等表征節(jié)奏、旋律的規(guī)則命名所述歌曲模板；這樣，用戶可以依據個人習慣、應用場景等實際需求來選擇合適的歌曲模板，以對規(guī)劃得到的時長和基頻參數(shù)進行調整，最后基于參數(shù)合成技術得到用戶輸入文本的語音數(shù)據。由于在語音參數(shù)中，時長和基頻參數(shù)共同決定節(jié)奏、旋律方面的信息，譜參數(shù)決定音色信息，即發(fā)音人的聲音特點信息；因而本發(fā)明能夠
5將歌曲模板的時長、基頻參數(shù)與音庫發(fā)音人的譜參數(shù)結合，能夠得到音色為音庫發(fā)音人、語氣節(jié)奏為歌曲并帶有一定旋律的哼唱語音流。

圖1是本發(fā)明一種哼唱合成方法實施例的流程圖；圖2是本發(fā)明一種哼唱合成系統(tǒng)實施例的結構圖。
具體實施例方式為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂，下面結合附圖和具體實施方式對本發(fā)明作進一步詳細的說明。本發(fā)明實施例的核心構思之一在于，基于時長參數(shù)和基頻參數(shù)生成歌曲模板，并且，在用戶輸入文本時，可以依據所述歌曲模板對規(guī)劃得到的時長和基頻參數(shù)進行調整，然后利用合成器得到所述文本的語音數(shù)據。由于在語音參數(shù)中，時長和基頻參數(shù)共同決定節(jié) 奏、旋律方面的信息，譜參數(shù)決定音色信息，即發(fā)音人的聲音特點信息；因而上述將歌曲模板的時長、基頻參數(shù)與音庫發(fā)音人的譜參數(shù)結合，能夠得到音色為音庫發(fā)音人、語氣節(jié)奏為歌曲并帶有一定旋律的哼唱語音流。參照圖1，示出了本發(fā)明一種哼唱合成方法實施例的流程圖，具體可以包括步驟101、接收用戶輸入的文本；所述用戶輸入的文本可以包括文字和數(shù)字符號，其中，所述文字可以是漢字、日文、韓文、英文等，或者，上述多種文字中的一種或者幾種，如漢英組合等等，本發(fā)明對具體的文本不加以限制，以下主要以漢字為例。步驟102、進行文本分析，獲得與所述文本對應的音節(jié)序列，以及，該音節(jié)序列中每個音節(jié)的音節(jié)名稱；以下具體的文本“北京在2008-8-8舉行了盛大的奧運會開幕式”為例，對所述文本分析步驟進行說明，具體可以包括子步驟Al、對所述文本進行分詞操作；分詞結果北京/在/2008-8-8/舉行/ 了 /盛大/的/奧運會/開幕式子步驟A2、將所述文本中的數(shù)字符號轉換為文字；對應本例，所述數(shù)字符號轉換也即，將“2008-8-8”轉換為“二零零八年八月八日”，數(shù)字符號轉換后的文本為“北京在二零零八年八月八日舉行了盛大的奧運會開幕式”。子步驟A3、依據分詞結果，對數(shù)字符號轉換后的文本進行韻律預測；韻律預測結果北京在二零零八年八月八日/舉行了盛大的奧運會開幕式子步驟A4、根據韻律預測結果，將文本轉換為音節(jié)序列，以及，基于音節(jié)映射表，得到該音節(jié)序列中每個音節(jié)的音節(jié)名稱。音節(jié);！5歹[J :bei3 jingl zai4 er4 ling2 ling2 bal nian2 bal yue4 bal ri4Ju3 xing2 le5 sheng4 da4 de5 ao4 yun4 hui4 kail mu4 shi4其中，數(shù)字12345代表聲調，分別為一聲、二聲、三聲、四聲、輕聲。在實際中，漢字音節(jié)的音節(jié)名稱可通過查詢漢字音節(jié)映射表得到，例如上例中的“bei3”即是音節(jié)名稱。步驟103、針對所述音節(jié)序列中每個音節(jié)，根據其音節(jié)名稱及上下文環(huán)境，結合統(tǒng)計參數(shù)模型，規(guī)劃得到相應的時長參數(shù)、基頻參數(shù)和譜參數(shù)；所述上下文環(huán)境主要是指音節(jié)的位置信息，可以包括句首、句中和句末；對應上例，“shi4”的上下文環(huán)境是句末，而“er4”的上下文環(huán)境則是句中。在實際中，所述統(tǒng)計參數(shù)模型可通過離線訓練得到，其存儲有各音節(jié)在不同上下文環(huán)境下所對應的參數(shù)。例如，離線時，針對時長參數(shù)訓練第一統(tǒng)計模型，針對基頻參數(shù)訓練第二統(tǒng)計模型，以及，針對譜參數(shù)訓練第三統(tǒng)計模型；那么，在線規(guī)劃時，可以直接從所述三個統(tǒng)計模型得到與音節(jié)相應的時長參數(shù)、基頻參數(shù)和譜參數(shù)。步驟104、依據用戶選擇的歌曲模板和所述音節(jié)序列的音節(jié)個數(shù)，對所述規(guī)劃得到的時長參數(shù)、基頻參數(shù)進行調整，其中，所述歌曲模板中存儲有音節(jié)的時長參數(shù)和基頻參數(shù)；在實際中，可通過以下離線步驟建立歌曲模板子步驟Al、針對歌曲樣本，提取其中每個音節(jié)的時長參數(shù)和基頻參數(shù)；子步驟A2、將所述時長參數(shù)和基頻參數(shù)，保存至歌曲模板。由于普通歌曲由人聲和樂聲兩部分組成，而樂器的發(fā)聲特點與人類差異較大，提取時會產生很多偏差，因此，本發(fā)明優(yōu)先選用清唱歌曲樣本。在語音參數(shù)中，時長參數(shù)也即每個音節(jié)的發(fā)音時間長度，可根據波形文件來確定；基頻參數(shù)是聲波的振動頻率，提取時可首先檢測出波形的周期，然后取倒數(shù)即可得到基頻參數(shù)。在具體實現(xiàn)中，可采用成熟的工具，自動從歌曲樣本中提取所述時長參數(shù)和基頻參數(shù)，本發(fā)明對具體的提取方式不加以限制。另外，本發(fā)明一般針對一個歌曲樣本生成一個歌曲模板，其中，所述歌曲樣本可以是完整的歌曲，也可以是歌曲片段；并且，為方便用戶選擇，可為所述歌曲模板命名，例如，所述命名規(guī)則可以是歌曲名稱“大約在冬季”、“月亮代表我的心”、“春天的故事”等。在用戶輸入文本時，本發(fā)明可展現(xiàn)所述離線建立若干個歌曲模板的選項，供用戶選擇，而用戶可根據個人習慣、應用場景等實際需要，來選擇合適的歌曲模板。具體地，所述步驟104可以通過以下子步驟來實現(xiàn)子步驟Bi、獲取所述音節(jié)序列的音節(jié)個數(shù)；子步驟B2、從所述歌曲模板中提取與所述音節(jié)個數(shù)相應的時長參數(shù)和基頻參數(shù)，并覆蓋所述規(guī)劃得到的時長參數(shù)、基頻參數(shù)。假設獲取得到的所述音節(jié)序列的音節(jié)個數(shù)為N，所述歌曲模板中的音節(jié)數(shù)為M，其中，M，N均為自然數(shù)，本發(fā)明的調整步驟主要有兩種情形情形1、M 彡 N;此時，可以直接從歌曲模板中截取前N個音節(jié)的時長參數(shù)和基頻參數(shù)。情形2、M<N;針對本情形，可以循環(huán)利用所述歌曲模板中M個音節(jié)的時長參數(shù)和基頻參數(shù)，假設歌曲模板中音節(jié)序號為1，2，. . .，M，且假設N > 2M，那么，最終獲取的時長參數(shù)和基頻參數(shù)所對應的歌曲模板中的音節(jié)序號可以為1，2，...，M，1，2，...，M，1，2，...N。這里，所述覆蓋規(guī)劃得到的時長參數(shù)、基頻參數(shù)，也即，用歌曲模板中的時長參數(shù)和基頻參數(shù)替換原有的時長參數(shù)和基頻參數(shù)。在實際中，可以在提取一個音節(jié)的時長參數(shù)和基頻參數(shù)后，緊接著執(zhí)行所述覆蓋操作，然后針對其它音節(jié)執(zhí)行提取和覆蓋操作；或者，在提取N個音節(jié)的時長參數(shù)和基頻參數(shù)后，再執(zhí)行覆蓋操作，本發(fā)明對具體的操作順序不加以限制。步驟105、依據調整后的時長參數(shù)，對相應音節(jié)的譜參數(shù)進行插值調整；利用合成器進行語音合成的前提條件是，基頻參數(shù)和譜參數(shù)應該是一一對應的，也即，必須一個基頻參數(shù)對應一個譜參數(shù)；故本步驟通過調整譜參數(shù)，使其與步驟104規(guī)劃得到的基頻參數(shù)對應，以進行下一步的語音合成。以下通過具體的示例說明所述調整過程假設步驟103針對所述音節(jié)序列規(guī)劃得到的時長參數(shù)為400ms，每一秒鐘所采樣的數(shù)目為1000個，也即，采樣頻率為1000HZ (赫茲)，通過計算，可得到基頻參數(shù)和譜參數(shù)的數(shù)目均為400個；假設步驟104依據用戶選擇的歌曲模板和所述音節(jié)序列的音節(jié)個數(shù)，調整得到的時長參數(shù)為500ms，也即基頻參數(shù)的數(shù)目為500 ；那么，本步驟則是針對步驟103中的400個譜參數(shù)，插值得到500個譜參數(shù)。插值方法有很多，例如，線性插值、非線性插值，或者，兩點插值、多點插值等，本領域技術人員可以根據需要采用任一種，本發(fā)明對此不加以限制。例如，在采用兩點線性插值時，插值公式可以為Qs = (aQl+bQ2+ul)/(a+b)，其中，Ql、Q2分別為已知譜參數(shù)點1、2(可為步驟103中原有的譜參數(shù)點，也可為本步驟已獲得的新譜參數(shù)點)的譜參數(shù)，a，b為自然數(shù)，可分別代表已知譜參數(shù)點1、2對待插值點S產生的權重，0 < ul < a+b?？偨Y來說，本步驟即是將M個譜參數(shù)插值為N個，以滿足一個譜對應一個基頻的要求，其中，M值可由步驟103得到，N值可由步驟104獲得，M、N均為自然數(shù)。步驟106、根據所述音節(jié)序列中每個音節(jié)的時長參數(shù)、基頻參數(shù)和譜參數(shù)，利用合成器得到與所述音節(jié)序列對應的語音數(shù)據。由于具有調節(jié)能力大、語音可塑性強等優(yōu)點，參數(shù)合成技術在語音合成中得到了廣泛的應用；在實際中，可以采用LPC(線性預測編碼，linearpredictive coding)濾波器作為合成器，本發(fā)明對具體的合成器不加以限制。由于加入了歌曲模板中的時長參數(shù)和基頻參數(shù)，因而所述合成得到的語音數(shù)據具有與歌曲相同的旋律和節(jié)奏。參照圖2，示出了本發(fā)明一種哼唱合成系統(tǒng)實施例的結構圖，具體可以包括接口模塊201，用于接收用戶輸入的文本；文本分析模塊202，用于進行文本分析，獲得與所述文本對應的音節(jié)序列，以及，該音節(jié)序列中每個音節(jié)的音節(jié)名稱；參數(shù)規(guī)劃模塊203，用于針對所述音節(jié)序列中每個音節(jié)，根據其音節(jié)名稱及上下文環(huán)境，結合統(tǒng)計參數(shù)模型，規(guī)劃得到相應的時長參數(shù)、基頻參數(shù)和譜參數(shù)；第一參數(shù)調整模塊204，用于依據用戶選擇的歌曲模板和所述音節(jié)序列的音節(jié)個數(shù)，對所述規(guī)劃得到的時長參數(shù)、基頻參數(shù)進行調整，其中，所述歌曲模板中存儲有音節(jié)的時長參數(shù)和基頻參數(shù)；
8
第二參數(shù)調整模塊205，用于依據調整后的時長參數(shù)，對相應音節(jié)的譜參數(shù)進行插值調整；合成模塊206，用于根據所述音節(jié)序列中每個音節(jié)的時長參數(shù)、基頻參數(shù)和譜參數(shù)，利用合成器得到與所述音節(jié)序列對應的語音數(shù)據。在實際中，所述文本分析模塊202可以進一步包括分詞單元Cl，用于對所述文本進行分詞操作；數(shù)字符號處理單元C2，用于將所述文本中的數(shù)字符號轉換為文字；韻律預測單元C3，用于依據分詞結果，對數(shù)字符號轉換后的文本進行韻律預測；音節(jié)轉換單元C4，用于根據韻律預測結果，將文本轉換為音節(jié)序列，以及，基于音節(jié)映射表，得到該音節(jié)序列中每個音節(jié)的音節(jié)名稱。本發(fā)明可以采用如下離線的歌曲模板生成模塊建立所述歌曲模板，該歌曲模板生成模塊具體可以包括提取單元D1，用于針對歌曲樣本，提取其中每個音節(jié)的時長參數(shù)和基頻參數(shù)；保存單元D2，用于將所述時長參數(shù)和基頻參數(shù)及相應的采樣頻率，保存至歌曲模板。由于普通歌曲由人聲和樂聲兩部分組成，而樂器的發(fā)聲特點與人類差異較大，提取時會產生很多偏差，因此，本發(fā)明優(yōu)先選用清唱歌曲樣本。在用戶輸入文本時，本發(fā)明可展現(xiàn)所述離線建立若干個歌曲模板的選項，供用戶選擇，而用戶可根據個人習慣、應用場景等實際需要，來選擇合適的歌曲模板。具體地，所述第一參數(shù)調整模塊204可以包括如下單元結構獲取單元E1，用于獲取所述音節(jié)序列的音節(jié)個數(shù)；調整單元E2，用于從歌曲模板中提取與所述音節(jié)個數(shù)對應的參數(shù)信息，并覆蓋所述規(guī)劃得到的時長參數(shù)、基頻參數(shù)。本說明書中的各個實施例均采用遞進的方式描述，每個實施例重點說明的都是與其他實施例的不同之處，各個實施例之間相同相似的部分互相參見即可。對于系統(tǒng)實施例而言，由于其與方法實施例基本相似，所以描述的比較簡單，相關之處參見方法實施例的部分說明即可。本發(fā)明可以應用于各種電腦終端及數(shù)字移動設備，用于將系統(tǒng)接收的或輸入的任意文本轉換成帶有歌曲節(jié)奏和旋律的語音流。以上對本發(fā)明所提供的一種哼唱合成方法和系統(tǒng)，進行了詳細介紹，本文中應用了具體個例對本發(fā)明的原理及實施方式進行了闡述，以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想；同時，對于本領域的一般技術人員，依據本發(fā)明的思想，在具體實施方式及應用范圍上均會有改變之處，綜上所述，本說明書內容不應理解為對本發(fā)明的限制。
權利要求
一種哼唱合成方法，其特征在于，包括接收用戶輸入的文本；進行文本分析，獲得與所述文本對應的音節(jié)序列，以及，該音節(jié)序列中每個音節(jié)的音節(jié)名稱；針對所述音節(jié)序列中每個音節(jié)，根據其音節(jié)名稱及上下文環(huán)境，結合統(tǒng)計參數(shù)模型，規(guī)劃得到相應的時長參數(shù)、基頻參數(shù)和譜參數(shù)；依據用戶選擇的歌曲模板和所述音節(jié)序列的音節(jié)個數(shù)，對所述規(guī)劃得到的時長參數(shù)、基頻參數(shù)進行調整，其中，所述歌曲模板中存儲有音節(jié)的時長參數(shù)和基頻參數(shù)；依據調整后的時長參數(shù)，對相應音節(jié)的譜參數(shù)進行插值調整；根據所述音節(jié)序列中每個音節(jié)的時長參數(shù)、基頻參數(shù)和譜參數(shù)，利用合成器得到與所述音節(jié)序列對應的語音數(shù)據。
2.如權利要求1所述的方法，其特征在于，所述對時長參數(shù)、基頻參數(shù)進行調整的步驟，包括獲取所述音節(jié)序列的音節(jié)個數(shù)；從所述歌曲模板中提取與所述音節(jié)個數(shù)相應的時長參數(shù)和基頻參數(shù)，并覆蓋所述規(guī)劃得到的時長參數(shù)、基頻參數(shù)。
3.如權利要求1所述的方法，其特征在于，所述文本分析步驟包括對所述文本進行分詞操作；將所述文本中的數(shù)字符號轉換為文字；依據分詞結果，對數(shù)字符號轉換后的文本進行韻律預測；根據韻律預測結果，將文本轉換為音節(jié)序列，以及，基于音節(jié)映射表，得到該音節(jié)序列中每個音節(jié)的音節(jié)名稱。
4.如權利要求1所述的方法，其特征在于，所述歌曲模板為通過如下步驟生成的模板針對歌曲樣本，提取其中每個音節(jié)的時長參數(shù)和基頻參數(shù)；將所述時長參數(shù)和基頻參數(shù)，保存至歌曲模板。
5.如權利要求4所述的方法，其特征在于，所述歌曲樣本包括清唱歌曲樣本。
6.一種哼唱合成系統(tǒng)，其特征在于，包括接口模塊，用于接收用戶輸入的文本；文本分析模塊，用于進行文本分析，獲得與所述文本對應的音節(jié)序列，以及，該音節(jié)序列中每個音節(jié)的音節(jié)名稱；參數(shù)規(guī)劃模塊，用于針對所述音節(jié)序列中每個音節(jié)，根據其音節(jié)名稱及上下文環(huán)境，結合統(tǒng)計參數(shù)模型，規(guī)劃得到相應的時長參數(shù)、基頻參數(shù)和譜參數(shù)；第一參數(shù)調整模塊，用于依據用戶選擇的歌曲模板和所述音節(jié)序列的音節(jié)個數(shù)，對所述規(guī)劃得到的時長參數(shù)、基頻參數(shù)進行調整，其中，所述歌曲模板中存儲有音節(jié)的時長參數(shù) 和基頻參數(shù)；第二參數(shù)調整模塊，用于依據調整后的時長參數(shù)，對相應音節(jié)的譜參數(shù)進行插值調整；合成模塊，用于根據所述音節(jié)序列中每個音節(jié)的時長參數(shù)、基頻參數(shù)和譜參數(shù)，利用合成器得到與所述音節(jié)序列對應的語音數(shù)據。
7.如權利要求6所述的系統(tǒng)，其特征在于，所述第一參數(shù)調整模塊包括獲取單元，用于獲取所述音節(jié)序列的音節(jié)個數(shù)；調整單元，用于從歌曲模板中提取與所述音節(jié)個數(shù)對應的參數(shù)信息，覆蓋所述規(guī)劃得到的時長參數(shù)、基頻參數(shù)，并對譜參數(shù)依據規(guī)劃時長進行插值。
8.如權利要求6所述的系統(tǒng)，其特征在于，所述文本分析模塊包括分詞單元，用于對所述文本進行分詞操作；數(shù)字符號轉換單元，用于將所述文本中的數(shù)字符號轉換為文字；韻律預測單元，用于依據分詞結果，對數(shù)字符號轉換后的文本進行韻律預測；音節(jié)轉換單元，用于根據韻律預測結果，將文本轉換為音節(jié)序列，以及，基于音節(jié)映射表，得到該音節(jié)序列中每個音節(jié)的音節(jié)名稱。
9.如權利要求6所述的系統(tǒng)，其特征在于，還包括歌曲模板生成模塊，該歌曲模板生成模塊包括提取單元，用于針對歌曲樣本，提取其中每個音節(jié)的時長參數(shù)和基頻參數(shù)；保存單元，用于將所述時長參數(shù)和基頻參數(shù)，保存至歌曲模板。
10.如權利要求9所述的系統(tǒng)，其特征在于，所述歌曲樣本包括清唱歌曲樣本。
全文摘要
本發(fā)明提供了一種哼唱合成方法和系統(tǒng)，其中的方法具體包括接收用戶輸入的文本；進行文本分析，獲得與所述文本對應的音節(jié)序列，以及，該音節(jié)序列中每個音節(jié)的音節(jié)名稱；針對所述音節(jié)序列中每個音節(jié)，根據其音節(jié)名稱及上下文環(huán)境，結合統(tǒng)計參數(shù)模型，規(guī)劃得到相應的時長參數(shù)、基頻參數(shù)和譜參數(shù)；依據用戶選擇的歌曲模板和所述音節(jié)序列的音節(jié)個數(shù)，對所述規(guī)劃得到的時長參數(shù)、基頻參數(shù)進行調整，其中，所述歌曲模板中存儲有音節(jié)的時長參數(shù)和基頻參數(shù)；依據調整后的時長參數(shù)，對相應音節(jié)的譜參數(shù)進行插值調整；根據所述音節(jié)序列中每個音節(jié)的時長參數(shù)、基頻參數(shù)和譜參數(shù)，利用合成器得到語音數(shù)據。本發(fā)明能夠輸出帶有歌曲節(jié)奏和旋律的語音數(shù)據。
文檔編號G10L13/02GK101901598SQ20101022349
公開日2010年12月1日申請日期2010年6月30日優(yōu)先權日2010年6月30日
發(fā)明者張連毅, 李健, 武衛(wèi)東申請人:北京捷通華聲語音技術有限公司

完整全部詳細技術資料下載