亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種哼唱合成方法和系統(tǒng)的制作方法

文檔序號:2823702閱讀:306來源:國知局
專利名稱:一種哼唱合成方法和系統(tǒng)的制作方法
技術領域
本發(fā)明涉及語音合成技術領域,特別是涉及一種哼唱合成方法和系統(tǒng)。
背景技術
語音合成技術,又稱文語轉換(TTS,Text to Speech)技術,其能將任意文字信息 轉化為標準流暢的語音朗讀出來。目前的語音合成方法是預先錄制一個語音庫,然后在該語音庫基礎上完成一個語 音合成系統(tǒng)。此方法合成聲音的語調節(jié)奏取決于語音庫,即合成出的聲音像是錄音人在說 話。而在一些娛樂應用中,用戶希望可以調節(jié)合成語音的語調節(jié)奏,比如,將短信以歌 曲的語調“唱”出來??傊枰绢I域技術人員迫切解決的一個技術問題就是如何能夠合成具有歌 曲語調節(jié)奏的語音。

發(fā)明內容
本發(fā)明所要解決的技術問題是提供一種哼唱合成方法和系統(tǒng),用于輸出帶有歌曲 節(jié)奏和旋律的語音數(shù)據。為了解決上述問題,本發(fā)明公開了一種哼唱合成方法,包括接收用戶輸入的文本;進行文本分析,獲得與所述文本對應的音節(jié)序列,以及,該音節(jié)序列中每個音節(jié)的 音節(jié)名稱;針對所述音節(jié)序列中每個音節(jié),根據其音節(jié)名稱及上下文環(huán)境,結合統(tǒng)計參數(shù)模 型,規(guī)劃得到相應的時長參數(shù)、基頻參數(shù)和譜參數(shù);依據用戶選擇的歌曲模板和所述音節(jié)序列的音節(jié)個數(shù),對所述規(guī)劃得到的時長參 數(shù)、基頻參數(shù)進行調整,其中,所述歌曲模板中存儲有音節(jié)的時長參數(shù)和基頻參數(shù);依據調整后的時長參數(shù),對相應音節(jié)的譜參數(shù)進行插值調整;根據所述音節(jié)序列中每個音節(jié)的時長參數(shù)、基頻參數(shù)和譜參數(shù),利用合成器得到 與所述音節(jié)序列對應的語音數(shù)據。優(yōu)選的,所述對時長參數(shù)、基頻參數(shù)進行調整的步驟,包括獲取所述音節(jié)序列的音節(jié)個數(shù);從所述歌曲模板中提取與所述音節(jié)個數(shù)相應的時長參數(shù)和基頻參數(shù),并覆蓋所述 規(guī)劃得到的時長參數(shù)、基頻參數(shù)。優(yōu)選的,所述文本分析步驟包括對所述文本進行分詞操作;將所述文本中的數(shù)字符號轉換為文字;依據分詞結果,對數(shù)字符號轉換后的文本進行韻律預測;
根據韻律預測結果,將文本轉換為音節(jié)序列,以及,基于音節(jié)映射表,得到該音節(jié) 序列中每個音節(jié)的音節(jié)名稱。優(yōu)選的,所述歌曲模板為通過如下步驟生成的模板針對歌曲樣本,提取其中每個音節(jié)的時長參數(shù)和基頻參數(shù);將所述時長參數(shù)和基頻參數(shù),保存至歌曲模板。優(yōu)選的,所述歌曲樣本包括清唱歌曲樣本。另一方面,本發(fā)明還公開了一種哼唱合成系統(tǒng),包括接口模塊,用于接收用戶輸入的文本;文本分析模塊,用于進行文本分析,獲得與所述文本對應的音節(jié)序列,以及,該音 節(jié)序列中每個音節(jié)的音節(jié)名稱;參數(shù)規(guī)劃模塊,用于針對所述音節(jié)序列中每個音節(jié),根據其音節(jié)名稱及上下文環(huán) 境,結合統(tǒng)計參數(shù)模型,規(guī)劃得到相應的時長參數(shù)、基頻參數(shù)和譜參數(shù);第一參數(shù)調整模塊,用于依據用戶選擇的歌曲模板和所述音節(jié)序列的音節(jié)個數(shù), 對所述規(guī)劃得到的時長參數(shù)、基頻參數(shù)進行調整,其中,所述歌曲模板中存儲有音節(jié)的時長 參數(shù)和基頻參數(shù);第二參數(shù)調整模塊,用于依據調整后的時長參數(shù),對相應音節(jié)的譜參數(shù)進行插值 調整;合成模塊,用于根據所述音節(jié)序列中每個音節(jié)的時長參數(shù)、基頻參數(shù)和譜參數(shù),利 用合成器得到與所述音節(jié)序列對應的語音數(shù)據。優(yōu)選的,所述第一參數(shù)調整模塊包括獲取單元,用于獲取所述音節(jié)序列的音節(jié)個數(shù);調整單元,用于從歌曲模板中提取與所述音節(jié)個數(shù)對應的參數(shù)信息,覆蓋所述規(guī) 劃得到的時長參數(shù)、基頻參數(shù),并對譜參數(shù)依據規(guī)劃時長進行插值。優(yōu)選的,所述文本分析模塊包括分詞單元,用于對所述文本進行分詞操作;數(shù)字符號轉換單元,用于將所述文本中的數(shù)字符號轉換為文字;韻律預測單元,用于依據分詞結果,對數(shù)字符號轉換后的文本進行韻律預測;音節(jié)轉換單元,用于根據韻律預測結果,將文本轉換為音節(jié)序列,以及,基于音節(jié) 映射表,得到該音節(jié)序列中每個音節(jié)的音節(jié)名稱。優(yōu)選的,所述系統(tǒng)還包括歌曲模板生成模塊,該歌曲模板生成模塊包括提取單元,用于針對歌曲樣本,提取其中每個音節(jié)的時長參數(shù)和基頻參數(shù);保存單元,用于將所述時長參數(shù)和基頻參數(shù),保存至歌曲模板。優(yōu)選的,所述歌曲樣本包括清唱歌曲樣本。與現(xiàn)有技術相比,本發(fā)明具有以下優(yōu)點本發(fā)明采用歌曲模板以音節(jié)為單位存儲時長參數(shù)、基頻參數(shù),且可以依據歌曲名 稱等表征節(jié)奏、旋律的規(guī)則命名所述歌曲模板;這樣,用戶可以依據個人習慣、應用場景等 實際需求來選擇合適的歌曲模板,以對規(guī)劃得到的時長和基頻參數(shù)進行調整,最后基于參 數(shù)合成技術得到用戶輸入文本的語音數(shù)據。由于在語音參數(shù)中,時長和基頻參數(shù)共同決定 節(jié)奏、旋律方面的信息,譜參數(shù)決定音色信息,即發(fā)音人的聲音特點信息;因而本發(fā)明能夠
5將歌曲模板的時長、基頻參數(shù)與音庫發(fā)音人的譜參數(shù)結合,能夠得到音色為音庫發(fā)音人、語 氣節(jié)奏為歌曲并帶有一定旋律的哼唱語音流。


圖1是本發(fā)明一種哼唱合成方法實施例的流程圖;圖2是本發(fā)明一種哼唱合成系統(tǒng)實施例的結構圖。
具體實施例方式為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結合附圖和具體實 施方式對本發(fā)明作進一步詳細的說明。本發(fā)明實施例的核心構思之一在于,基于時長參數(shù)和基頻參數(shù)生成歌曲模板,并 且,在用戶輸入文本時,可以依據所述歌曲模板對規(guī)劃得到的時長和基頻參數(shù)進行調整,然 后利用合成器得到所述文本的語音數(shù)據。由于在語音參數(shù)中,時長和基頻參數(shù)共同決定節(jié) 奏、旋律方面的信息,譜參數(shù)決定音色信息,即發(fā)音人的聲音特點信息;因而上述將歌曲模 板的時長、基頻參數(shù)與音庫發(fā)音人的譜參數(shù)結合,能夠得到音色為音庫發(fā)音人、語氣節(jié)奏為 歌曲并帶有一定旋律的哼唱語音流。參照圖1,示出了本發(fā)明一種哼唱合成方法實施例的流程圖,具體可以包括步驟101、接收用戶輸入的文本;所述用戶輸入的文本可以包括文字和數(shù)字符號,其中,所述文字可以是漢字、日 文、韓文、英文等,或者,上述多種文字中的一種或者幾種,如漢英組合等等,本發(fā)明對具體 的文本不加以限制,以下主要以漢字為例。步驟102、進行文本分析,獲得與所述文本對應的音節(jié)序列,以及,該音節(jié)序列中每 個音節(jié)的音節(jié)名稱;以下具體的文本“北京在2008-8-8舉行了盛大的奧運會開幕式”為例,對所述文 本分析步驟進行說明,具體可以包括子步驟Al、對所述文本進行分詞操作;分詞結果北京/在/2008-8-8/舉行/ 了 /盛大/的/奧運會/開幕式子步驟A2、將所述文本中的數(shù)字符號轉換為文字;對應本例,所述數(shù)字符號轉換也即,將“2008-8-8”轉換為“二零零八年八月八日”, 數(shù)字符號轉換后的文本為“北京在二零零八年八月八日舉行了盛大的奧運會開幕式”。子步驟A3、依據分詞結果,對數(shù)字符號轉換后的文本進行韻律預測;韻律預測結果北京在二零零八年八月八日/舉行了盛大的奧運會開幕式子步驟A4、根據韻律預測結果,將文本轉換為音節(jié)序列,以及,基于音節(jié)映射表,得 到該音節(jié)序列中每個音節(jié)的音節(jié)名稱。音節(jié);!5歹[J :bei3 jingl zai4 er4 ling2 ling2 bal nian2 bal yue4 bal ri4Ju3 xing2 le5 sheng4 da4 de5 ao4 yun4 hui4 kail mu4 shi4其中,數(shù)字12345代表聲調,分別為一聲、二聲、三聲、四聲、輕聲。在實際中,漢字 音節(jié)的音節(jié)名稱可通過查詢漢字音節(jié)映射表得到,例如上例中的“bei3”即是音節(jié)名稱。步驟103、針對所述音節(jié)序列中每個音節(jié),根據其音節(jié)名稱及上下文環(huán)境,結合統(tǒng)計參數(shù)模型,規(guī)劃得到相應的時長參數(shù)、基頻參數(shù)和譜參數(shù);所述上下文環(huán)境主要是指音節(jié)的位置信息,可以包括句首、句中和句末;對應上 例,“shi4”的上下文環(huán)境是句末,而“er4”的上下文環(huán)境則是句中。在實際中,所述統(tǒng)計參數(shù)模型可通過離線訓練得到,其存儲有各音節(jié)在不同上下 文環(huán)境下所對應的參數(shù)。例如,離線時,針對時長參數(shù)訓練第一統(tǒng)計模型,針對基頻參數(shù)訓練第二統(tǒng)計模 型,以及,針對譜參數(shù)訓練第三統(tǒng)計模型;那么,在線規(guī)劃時,可以直接從所述三個統(tǒng)計模型 得到與音節(jié)相應的時長參數(shù)、基頻參數(shù)和譜參數(shù)。步驟104、依據用戶選擇的歌曲模板和所述音節(jié)序列的音節(jié)個數(shù),對所述規(guī)劃得 到的時長參數(shù)、基頻參數(shù)進行調整,其中,所述歌曲模板中存儲有音節(jié)的時長參數(shù)和基頻參 數(shù);在實際中,可通過以下離線步驟建立歌曲模板子步驟Al、針對歌曲樣本,提取其中每個音節(jié)的時長參數(shù)和基頻參數(shù);子步驟A2、將所述時長參數(shù)和基頻參數(shù),保存至歌曲模板。由于普通歌曲由人聲和樂聲兩部分組成,而樂器的發(fā)聲特點與人類差異較大,提 取時會產生很多偏差,因此,本發(fā)明優(yōu)先選用清唱歌曲樣本。在語音參數(shù)中,時長參數(shù)也即每個音節(jié)的發(fā)音時間長度,可根據波形文件來確定; 基頻參數(shù)是聲波的振動頻率,提取時可首先檢測出波形的周期,然后取倒數(shù)即可得到基頻 參數(shù)。在具體實現(xiàn)中,可采用成熟的工具,自動從歌曲樣本中提取所述時長參數(shù)和基頻 參數(shù),本發(fā)明對具體的提取方式不加以限制。另外,本發(fā)明一般針對一個歌曲樣本生成一個歌曲模板,其中,所述歌曲樣本可以 是完整的歌曲,也可以是歌曲片段;并且,為方便用戶選擇,可為所述歌曲模板命名,例如, 所述命名規(guī)則可以是歌曲名稱“大約在冬季”、“月亮代表我的心”、“春天的故事”等。在用戶輸入文本時,本發(fā)明可展現(xiàn)所述離線建立若干個歌曲模板的選項,供用戶 選擇,而用戶可根據個人習慣、應用場景等實際需要,來選擇合適的歌曲模板。具體地,所述步驟104可以通過以下子步驟來實現(xiàn)子步驟Bi、獲取所述音節(jié)序列的音節(jié)個數(shù);子步驟B2、從所述歌曲模板中提取與所述音節(jié)個數(shù)相應的時長參數(shù)和基頻參數(shù), 并覆蓋所述規(guī)劃得到的時長參數(shù)、基頻參數(shù)。假設獲取得到的所述音節(jié)序列的音節(jié)個數(shù)為N,所述歌曲模板中的音節(jié)數(shù)為M,其 中,M,N均為自然數(shù),本發(fā)明的調整步驟主要有兩種情形情形1、M 彡 N;此時,可以直接從歌曲模板中截取前N個音節(jié)的時長參數(shù)和基頻參數(shù)。情形2、M<N;針對本情形,可以循環(huán)利用所述歌曲模板中M個音節(jié)的時長參數(shù)和基頻參數(shù),假 設歌曲模板中音節(jié)序號為1,2,. . .,M,且假設N > 2M,那么,最終獲取的時長參數(shù)和基頻參 數(shù)所對應的歌曲模板中的音節(jié)序號可以為1,2,...,M,1,2,...,M,1,2,...N。這里,所述覆蓋規(guī)劃得到的時長參數(shù)、基頻參數(shù),也即,用歌曲模板中的時長參數(shù)和基頻參數(shù)替換原有的時長參數(shù)和基頻參數(shù)。在實際中,可以在提取一個音節(jié)的時長參數(shù)和基頻參數(shù)后,緊接著執(zhí)行所述覆蓋 操作,然后針對其它音節(jié)執(zhí)行提取和覆蓋操作;或者,在提取N個音節(jié)的時長參數(shù)和基頻參 數(shù)后,再執(zhí)行覆蓋操作,本發(fā)明對具體的操作順序不加以限制。步驟105、依據調整后的時長參數(shù),對相應音節(jié)的譜參數(shù)進行插值調整;利用合成器進行語音合成的前提條件是,基頻參數(shù)和譜參數(shù)應該是一一對應的, 也即,必須一個基頻參數(shù)對應一個譜參數(shù);故本步驟通過調整譜參數(shù),使其與步驟104規(guī)劃 得到的基頻參數(shù)對應,以進行下一步的語音合成。以下通過具體的示例說明所述調整過程假設步驟103針對所述音節(jié)序列規(guī)劃得到的時長參數(shù)為400ms,每一秒鐘所采樣 的數(shù)目為1000個,也即,采樣頻率為1000HZ (赫茲),通過計算,可得到基頻參數(shù)和譜參數(shù)的 數(shù)目均為400個;假設步驟104依據用戶選擇的歌曲模板和所述音節(jié)序列的音節(jié)個數(shù),調整得到的 時長參數(shù)為500ms,也即基頻參數(shù)的數(shù)目為500 ;那么,本步驟則是針對步驟103中的400個譜參數(shù),插值得到500個譜參數(shù)。插值方法有很多,例如,線性插值、非線性插值,或者,兩點插值、多點插值等,本領 域技術人員可以根據需要采用任一種,本發(fā)明對此不加以限制。例如,在采用兩點線性插值時,插值公式可以為Qs = (aQl+bQ2+ul)/(a+b),其 中,Ql、Q2分別為已知譜參數(shù)點1、2(可為步驟103中原有的譜參數(shù)點,也可為本步驟已獲 得的新譜參數(shù)點)的譜參數(shù),a,b為自然數(shù),可分別代表已知譜參數(shù)點1、2對待插值點S產 生的權重,0 < ul < a+b??偨Y來說,本步驟即是將M個譜參數(shù)插值為N個,以滿足一個譜對應一個基頻的要 求,其中,M值可由步驟103得到,N值可由步驟104獲得,M、N均為自然數(shù)。步驟106、根據所述音節(jié)序列中每個音節(jié)的時長參數(shù)、基頻參數(shù)和譜參數(shù),利用合 成器得到與所述音節(jié)序列對應的語音數(shù)據。由于具有調節(jié)能力大、語音可塑性強等優(yōu)點,參數(shù)合成技術在語音合成中得到了 廣泛的應用;在實際中,可以采用LPC(線性預測編碼,linearpredictive coding)濾波器 作為合成器,本發(fā)明對具體的合成器不加以限制。由于加入了歌曲模板中的時長參數(shù)和基頻參數(shù),因而所述合成得到的語音數(shù)據具 有與歌曲相同的旋律和節(jié)奏。參照圖2,示出了本發(fā)明一種哼唱合成系統(tǒng)實施例的結構圖,具體可以包括接口模塊201,用于接收用戶輸入的文本;文本分析模塊202,用于進行文本分析,獲得與所述文本對應的音節(jié)序列,以及,該 音節(jié)序列中每個音節(jié)的音節(jié)名稱;參數(shù)規(guī)劃模塊203,用于針對所述音節(jié)序列中每個音節(jié),根據其音節(jié)名稱及上下文 環(huán)境,結合統(tǒng)計參數(shù)模型,規(guī)劃得到相應的時長參數(shù)、基頻參數(shù)和譜參數(shù);第一參數(shù)調整模塊204,用于依據用戶選擇的歌曲模板和所述音節(jié)序列的音節(jié)個 數(shù),對所述規(guī)劃得到的時長參數(shù)、基頻參數(shù)進行調整,其中,所述歌曲模板中存儲有音節(jié)的 時長參數(shù)和基頻參數(shù);
8
第二參數(shù)調整模塊205,用于依據調整后的時長參數(shù),對相應音節(jié)的譜參數(shù)進行插 值調整;合成模塊206,用于根據所述音節(jié)序列中每個音節(jié)的時長參數(shù)、基頻參數(shù)和譜參 數(shù),利用合成器得到與所述音節(jié)序列對應的語音數(shù)據。在實際中,所述文本分析模塊202可以進一步包括分詞單元Cl,用于對所述文本進行分詞操作;數(shù)字符號處理單元C2,用于將所述文本中的數(shù)字符號轉換為文字;韻律預測單元C3,用于依據分詞結果,對數(shù)字符號轉換后的文本進行韻律預測;音節(jié)轉換單元C4,用于根據韻律預測結果,將文本轉換為音節(jié)序列,以及,基于音 節(jié)映射表,得到該音節(jié)序列中每個音節(jié)的音節(jié)名稱。本發(fā)明可以采用如下離線的歌曲模板生成模塊建立所述歌曲模板,該歌曲模板生 成模塊具體可以包括提取單元D1,用于針對歌曲樣本,提取其中每個音節(jié)的時長參數(shù)和基頻參數(shù);保存單元D2,用于將所述時長參數(shù)和基頻參數(shù)及相應的采樣頻率,保存至歌曲模 板。由于普通歌曲由人聲和樂聲兩部分組成,而樂器的發(fā)聲特點與人類差異較大,提 取時會產生很多偏差,因此,本發(fā)明優(yōu)先選用清唱歌曲樣本。在用戶輸入文本時,本發(fā)明可展現(xiàn)所述離線建立若干個歌曲模板的選項,供用戶 選擇,而用戶可根據個人習慣、應用場景等實際需要,來選擇合適的歌曲模板。具體地,所述第一參數(shù)調整模塊204可以包括如下單元結構獲取單元E1,用于獲取所述音節(jié)序列的音節(jié)個數(shù);調整單元E2,用于從歌曲模板中提取與所述音節(jié)個數(shù)對應的參數(shù)信息,并覆蓋所 述規(guī)劃得到的時長參數(shù)、基頻參數(shù)。本說明書中的各個實施例均采用遞進的方式描述,每個實施例重點說明的都是與 其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。對于系統(tǒng)實施例 而言,由于其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部 分說明即可。本發(fā)明可以應用于各種電腦終端及數(shù)字移動設備,用于將系統(tǒng)接收的或輸入的任 意文本轉換成帶有歌曲節(jié)奏和旋律的語音流。以上對本發(fā)明所提供的一種哼唱合成方法和系統(tǒng),進行了詳細介紹,本文中應用 了具體個例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解 本發(fā)明的方法及其核心思想;同時,對于本領域的一般技術人員,依據本發(fā)明的思想,在具 體實施方式及應用范圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本發(fā)明 的限制。
權利要求
一種哼唱合成方法,其特征在于,包括接收用戶輸入的文本;進行文本分析,獲得與所述文本對應的音節(jié)序列,以及,該音節(jié)序列中每個音節(jié)的音節(jié)名稱;針對所述音節(jié)序列中每個音節(jié),根據其音節(jié)名稱及上下文環(huán)境,結合統(tǒng)計參數(shù)模型,規(guī)劃得到相應的時長參數(shù)、基頻參數(shù)和譜參數(shù);依據用戶選擇的歌曲模板和所述音節(jié)序列的音節(jié)個數(shù),對所述規(guī)劃得到的時長參數(shù)、基頻參數(shù)進行調整,其中,所述歌曲模板中存儲有音節(jié)的時長參數(shù)和基頻參數(shù);依據調整后的時長參數(shù),對相應音節(jié)的譜參數(shù)進行插值調整;根據所述音節(jié)序列中每個音節(jié)的時長參數(shù)、基頻參數(shù)和譜參數(shù),利用合成器得到與所述音節(jié)序列對應的語音數(shù)據。
2.如權利要求1所述的方法,其特征在于,所述對時長參數(shù)、基頻參數(shù)進行調整的步 驟,包括獲取所述音節(jié)序列的音節(jié)個數(shù);從所述歌曲模板中提取與所述音節(jié)個數(shù)相應的時長參數(shù)和基頻參數(shù),并覆蓋所述規(guī)劃 得到的時長參數(shù)、基頻參數(shù)。
3.如權利要求1所述的方法,其特征在于,所述文本分析步驟包括 對所述文本進行分詞操作;將所述文本中的數(shù)字符號轉換為文字;依據分詞結果,對數(shù)字符號轉換后的文本進行韻律預測;根據韻律預測結果,將文本轉換為音節(jié)序列,以及,基于音節(jié)映射表,得到該音節(jié)序列 中每個音節(jié)的音節(jié)名稱。
4.如權利要求1所述的方法,其特征在于,所述歌曲模板為通過如下步驟生成的模板 針對歌曲樣本,提取其中每個音節(jié)的時長參數(shù)和基頻參數(shù);將所述時長參數(shù)和基頻參數(shù),保存至歌曲模板。
5.如權利要求4所述的方法,其特征在于,所述歌曲樣本包括清唱歌曲樣本。
6.一種哼唱合成系統(tǒng),其特征在于,包括 接口模塊,用于接收用戶輸入的文本;文本分析模塊,用于進行文本分析,獲得與所述文本對應的音節(jié)序列,以及,該音節(jié)序 列中每個音節(jié)的音節(jié)名稱;參數(shù)規(guī)劃模塊,用于針對所述音節(jié)序列中每個音節(jié),根據其音節(jié)名稱及上下文環(huán)境,結 合統(tǒng)計參數(shù)模型,規(guī)劃得到相應的時長參數(shù)、基頻參數(shù)和譜參數(shù);第一參數(shù)調整模塊,用于依據用戶選擇的歌曲模板和所述音節(jié)序列的音節(jié)個數(shù),對所 述規(guī)劃得到的時長參數(shù)、基頻參數(shù)進行調整,其中,所述歌曲模板中存儲有音節(jié)的時長參數(shù) 和基頻參數(shù);第二參數(shù)調整模塊,用于依據調整后的時長參數(shù),對相應音節(jié)的譜參數(shù)進行插值調整;合成模塊,用于根據所述音節(jié)序列中每個音節(jié)的時長參數(shù)、基頻參數(shù)和譜參數(shù),利用合 成器得到與所述音節(jié)序列對應的語音數(shù)據。
7.如權利要求6所述的系統(tǒng),其特征在于,所述第一參數(shù)調整模塊包括 獲取單元,用于獲取所述音節(jié)序列的音節(jié)個數(shù);調整單元,用于從歌曲模板中提取與所述音節(jié)個數(shù)對應的參數(shù)信息,覆蓋所述規(guī)劃得 到的時長參數(shù)、基頻參數(shù),并對譜參數(shù)依據規(guī)劃時長進行插值。
8.如權利要求6所述的系統(tǒng),其特征在于,所述文本分析模塊包括 分詞單元,用于對所述文本進行分詞操作;數(shù)字符號轉換單元,用于將所述文本中的數(shù)字符號轉換為文字; 韻律預測單元,用于依據分詞結果,對數(shù)字符號轉換后的文本進行韻律預測; 音節(jié)轉換單元,用于根據韻律預測結果,將文本轉換為音節(jié)序列,以及,基于音節(jié)映射 表,得到該音節(jié)序列中每個音節(jié)的音節(jié)名稱。
9.如權利要求6所述的系統(tǒng),其特征在于,還包括歌曲模板生成模塊,該歌曲模板生成 模塊包括提取單元,用于針對歌曲樣本,提取其中每個音節(jié)的時長參數(shù)和基頻參數(shù); 保存單元,用于將所述時長參數(shù)和基頻參數(shù),保存至歌曲模板。
10.如權利要求9所述的系統(tǒng),其特征在于,所述歌曲樣本包括清唱歌曲樣本。
全文摘要
本發(fā)明提供了一種哼唱合成方法和系統(tǒng),其中的方法具體包括接收用戶輸入的文本;進行文本分析,獲得與所述文本對應的音節(jié)序列,以及,該音節(jié)序列中每個音節(jié)的音節(jié)名稱;針對所述音節(jié)序列中每個音節(jié),根據其音節(jié)名稱及上下文環(huán)境,結合統(tǒng)計參數(shù)模型,規(guī)劃得到相應的時長參數(shù)、基頻參數(shù)和譜參數(shù);依據用戶選擇的歌曲模板和所述音節(jié)序列的音節(jié)個數(shù),對所述規(guī)劃得到的時長參數(shù)、基頻參數(shù)進行調整,其中,所述歌曲模板中存儲有音節(jié)的時長參數(shù)和基頻參數(shù);依據調整后的時長參數(shù),對相應音節(jié)的譜參數(shù)進行插值調整;根據所述音節(jié)序列中每個音節(jié)的時長參數(shù)、基頻參數(shù)和譜參數(shù),利用合成器得到語音數(shù)據。本發(fā)明能夠輸出帶有歌曲節(jié)奏和旋律的語音數(shù)據。
文檔編號G10L13/02GK101901598SQ20101022349
公開日2010年12月1日 申請日期2010年6月30日 優(yōu)先權日2010年6月30日
發(fā)明者張連毅, 李健, 武衛(wèi)東 申請人:北京捷通華聲語音技術有限公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1