構(gòu)建個性化歌唱風格頻譜合成模型的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及語音合成技術(shù)領(lǐng)域,具體涉及一種構(gòu)建個性化歌唱風格頻譜合成模型 的方法及裝置。
【背景技術(shù)】
[0002] 近年來,歌唱合成系統(tǒng)得到了廣泛的研究和應(yīng)用,其中基于隱馬爾可夫模型 (Hidden Markov Model, HMM)的參數(shù)合成系統(tǒng)以及基于波形拼接合成系統(tǒng)達到了實用標 準。相比于基于波形拼接合成系統(tǒng),基于HMM的參數(shù)合成方法對訓練數(shù)據(jù)量要求較少且系 統(tǒng)規(guī)模較小,因而具有較好的實用價值。
[0003] 基于參數(shù)合成的歌唱合成系統(tǒng)首先分別確定各基本合成單元(如音節(jié),音素等)的 時長參數(shù)序列、基頻參數(shù)序列以及頻譜參數(shù)序列,隨后再根據(jù)合成參數(shù)序列利用參數(shù)合成 器得到連續(xù)歌唱信號。
[0004] 傳統(tǒng)歌唱合成系統(tǒng)的構(gòu)建通常是由固定發(fā)音人預先錄制歌曲語音,并據(jù)此訓練得 到時長、基頻及頻譜的合成模型,并通過語音合成器構(gòu)建歌唱合成系統(tǒng)?;诠潭òl(fā)音人數(shù) 據(jù)構(gòu)建的歌唱合成系統(tǒng)合成音色較為單一,而很多情況下用戶則希望用自己的音色或其指 定的音色來合成歌曲,即希望合成歌曲具有個性化的音色特點。在個性化歌唱合成模型構(gòu) 建時,由于普通用戶很難收集到大量的歌唱數(shù)據(jù)且即使獲得了少量的歌曲數(shù)據(jù),由于受演 唱水平的影響、以及演唱者在演唱時或多或少會加入一些演繹成分,也很難獲得準確的標 注信息(如下文所述的音素序列、韻律詞、韻律短語、音高和時值等信息),對此,傳統(tǒng)的基于 語音數(shù)據(jù)訓練得到的合成模型往往不夠正確,直接影響了合成效果。
[0005] 針對個性化歌唱合成的應(yīng)用需求,以及存在的訓練歌唱數(shù)據(jù)不足及標注不夠準確 的問題,有研究人員提出直接采用個性化朗讀風格的頻譜模型作為歌唱頻譜合成模型。由 于語音數(shù)據(jù)最重要的控制參數(shù)基頻和頻譜具有較強的相關(guān)性,如果將一種風格語音的基頻 與另一種風格語音的頻譜共同合成語音,則會由于基頻與頻譜不搭配而導致生成的語音不 自然。顯然,朗讀風格語音與歌唱風格語音存在較大的差別,其中歌唱風格語音基頻范圍跨 度很大,而朗讀風格語音基頻范圍跨度相對較小,如果使用朗讀風格合成模型生成頻譜,而 根據(jù)歌曲簡譜得到基頻,則會引入較明顯的基頻和頻譜搭配性問題,使得合成的語音聽起 來自然度較低。顯然合理解決基頻參數(shù)和頻譜參數(shù)匹配的問題,獲得歌唱風格的個性化頻 譜合成模型是提高歌唱合成效果的關(guān)鍵。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明提供一種構(gòu)建個性化歌唱風格頻譜合成模型的方法及裝置,以解決歌唱風 格的個性化頻譜合成模型構(gòu)建中存在的訓練歌唱數(shù)據(jù)不足及標注不夠準確的問題,滿足個 性化歌唱合成的應(yīng)用需求。
[0007] 為此,本發(fā)明提供如下技術(shù)方案:
[0008] -種構(gòu)建個性化歌唱風格頻譜合成模型的方法,包括:
[0009] 訓練源發(fā)音人朗讀風格頻譜合成模型和歌唱風格頻譜合成模型;
[0010] 獲取目標發(fā)音人朗讀風格數(shù)據(jù);
[0011] 根據(jù)所述源發(fā)音人朗讀風格頻譜合成模型及所述目標發(fā)音人朗讀風格數(shù)據(jù),確定 源發(fā)音人與目標發(fā)明人的音色轉(zhuǎn)換關(guān)系;
[0012] 根據(jù)所述音色轉(zhuǎn)換關(guān)系對所述源發(fā)音人歌唱風格頻譜合成模型進行模型轉(zhuǎn)換,得 到目標發(fā)音人歌唱風格頻譜合成模型。
[0013] 優(yōu)選地,所述訓練源發(fā)音人的朗讀風格頻譜合成模型和歌唱風格頻譜合成模型包 括:
[0014] 獲取源發(fā)音人的朗讀風格語音數(shù)據(jù)和歌唱風格語音數(shù)據(jù),并對所述語音數(shù)據(jù)進行 標注;
[0015] 提取所述語音數(shù)據(jù)對應(yīng)的頻譜參數(shù);
[0016] 利用源發(fā)音人的朗讀風格語音數(shù)據(jù)對應(yīng)的頻譜參數(shù)和標注信息訓練源發(fā)音人的 朗讀風格頻譜合成模型;
[0017] 利用源發(fā)音人的歌唱風格語音數(shù)據(jù)對應(yīng)的聲學參數(shù)和標注信息訓練源發(fā)音人的 歌唱風格頻譜合成模型。
[0018] 優(yōu)選地,所述朗讀風格語音數(shù)據(jù)標注的信息包括音素序列、音段切分、韻律詞和韻 律短語;所述歌唱風格語音數(shù)據(jù)的標注信息包括音素序列、音段切分、韻律詞、韻律短語、以 及與音樂相關(guān)的音高和時值信息。
[0019] 優(yōu)選地,所述確定所述源發(fā)音人的朗讀風格頻譜合成模型與所述目標發(fā)音人的朗 讀風格數(shù)據(jù)的轉(zhuǎn)換關(guān)系包括:
[0020] 從所述源發(fā)音人朗讀風格頻譜合成模型中選擇執(zhí)行自適應(yīng)的模型;
[0021] 從所述目標發(fā)音人的朗讀風格數(shù)據(jù)中選擇所述自適應(yīng)模型所對應(yīng)的訓練數(shù)據(jù);
[0022] 根據(jù)所述訓練數(shù)據(jù)對選擇執(zhí)行自適應(yīng)的模型進行自適應(yīng),得到頻譜轉(zhuǎn)換矩陣。
[0023] 優(yōu)選地,所述根據(jù)所述音色轉(zhuǎn)換關(guān)系對所述源發(fā)音人歌唱風格頻譜合成模型進行 模型轉(zhuǎn)換,得到目標發(fā)音人歌唱風格頻譜合成模型包括:
[0024] 根據(jù)以下公式獲得目標發(fā)音人歌唱風格頻譜合成模型:
【主權(quán)項】
1. 一種構(gòu)建個性化歌唱風格頻譜合成模型的方法,其特征在于,包括: 訓練源發(fā)音人朗讀風格頻譜合成模型和歌唱風格頻譜合成模型; 獲取目標發(fā)音人朗讀風格數(shù)據(jù); 根據(jù)所述源發(fā)音人朗讀風格頻譜合成模型及所述目標發(fā)音人朗讀風格數(shù)據(jù),確定源發(fā) 音人與目標發(fā)明人的音色轉(zhuǎn)換關(guān)系; 根據(jù)所述音色轉(zhuǎn)換關(guān)系對所述源發(fā)音人歌唱風格頻譜合成模型進行模型轉(zhuǎn)換,得到目 標發(fā)音人歌唱風格頻譜合成模型。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述訓練源發(fā)音人的朗讀風格頻譜合成 模型和歌唱風格頻譜合成模型包括: 獲取源發(fā)音人的朗讀風格語音數(shù)據(jù)和歌唱風格語音數(shù)據(jù),并對所述語音數(shù)據(jù)進行標 注; 提取所述語音數(shù)據(jù)對應(yīng)的頻譜參數(shù); 利用源發(fā)音人的朗讀風格語音數(shù)據(jù)對應(yīng)的頻譜參數(shù)和標注信息訓練源發(fā)音人的朗讀 風格頻譜合成模型; 利用源發(fā)音人的歌唱風格語音數(shù)據(jù)對應(yīng)的聲學參數(shù)和標注信息訓練源發(fā)音人的歌唱 風格頻譜合成模型。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述朗讀風格語音數(shù)據(jù)標注的信息包括 音素序列、音段切分、韻律詞和韻律短語;所述歌唱風格語音數(shù)據(jù)的標注信息包括音素序 列、音段切分、韻律詞、韻律短語、以及與音樂相關(guān)的音高和時值信息。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定所述源發(fā)音人的朗讀風格頻譜 合成模型與所述目標發(fā)音人的朗讀風格數(shù)據(jù)的轉(zhuǎn)換關(guān)系包括: 從所述源發(fā)音人朗讀風格頻譜合成模型中選擇執(zhí)行自適應(yīng)的模型; 從所述目標發(fā)音人的朗讀風格數(shù)據(jù)中選擇所述自適應(yīng)模型所對應(yīng)的訓練數(shù)據(jù); 根據(jù)所述訓練數(shù)據(jù)對選擇執(zhí)行自適應(yīng)的模型進行自適應(yīng),得到頻譜轉(zhuǎn)換矩陣。
5. 根據(jù)權(quán)利要求1至4任一項所述的方法,其特征在于,所述根據(jù)所述音色轉(zhuǎn)換關(guān)系對 所述源發(fā)音人歌唱風格頻譜合成模型進行模型轉(zhuǎn)換,得到目標發(fā)音人歌唱風格頻譜合成模 型包括: 根據(jù)以下公式獲得目標發(fā)咅人歌唱風格頻譜合成模型:
Σ ^1=A At 其中,μ和Σ為源發(fā)音人歌唱風格頻譜合成模型的均值和方差,々和t為轉(zhuǎn)換后的頻 譜合成模型的均值和方差,即為目標發(fā)音人歌唱風格頻譜合成模型的均值和方差,[Φ,B] 和H為均值和方差的全局轉(zhuǎn)換矩陣,A表示所述方差的分解矩陣。
6. -種構(gòu)建個性化歌唱風格頻譜合成模型的裝置,其特征在于,包括: 模型訓練模塊,用于訓練源發(fā)音人朗讀風格頻譜合成模型和歌唱風格頻譜合成模型; 數(shù)據(jù)獲取模塊,用于獲取目標發(fā)音人朗讀風格數(shù)據(jù); 轉(zhuǎn)換關(guān)系確定模塊,用于根據(jù)所述源發(fā)音人朗讀風格頻譜合成模型及所述目標發(fā)音人 朗讀風格數(shù)據(jù),確定源發(fā)音人與目標發(fā)明人的音色轉(zhuǎn)換關(guān)系; 轉(zhuǎn)換模塊,用于根據(jù)所述音色轉(zhuǎn)換關(guān)系對所述源發(fā)音人歌唱風格頻譜合成模型進行模 型轉(zhuǎn)換,得到目標發(fā)音人歌唱風格頻譜合成模型。
7. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述模型訓練模塊包括: 數(shù)據(jù)獲取單元,用于獲取源發(fā)音人的朗讀風格語音數(shù)據(jù)和歌唱風格語音數(shù)據(jù),并對所 述語音數(shù)據(jù)進行標注; 參數(shù)提取單元,用于提取所述語音數(shù)據(jù)對應(yīng)的頻譜參數(shù); 第一訓練單元,用于利用源發(fā)音人的朗讀風格語音數(shù)據(jù)對應(yīng)的頻譜參數(shù)和標注信息訓 練源發(fā)音人的朗讀風格頻譜合成模型; 第二訓練單元,用于利用源發(fā)音人的歌唱風格語音數(shù)據(jù)對應(yīng)的聲學參數(shù)和標注信息訓 練源發(fā)音人的歌唱風格頻譜合成模型。
8. 根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述朗讀風格語音數(shù)據(jù)標注的信息包括 音素序列、音段切分、韻律詞和韻律短語;所述歌唱風格語音數(shù)據(jù)的標注信息包括音素序 列、音段切分、韻律詞、韻律短語、以及與音樂相關(guān)的音高和時值信息。
9. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述轉(zhuǎn)換關(guān)系確定模塊包括: 自適應(yīng)模型選擇單元,用于從所述源發(fā)音人朗讀風格頻譜合成模型中選擇執(zhí)行自適應(yīng) 的模型; 訓練數(shù)據(jù)選擇單元,用于從所述目標發(fā)音人的朗讀風格數(shù)據(jù)中選擇所述自適應(yīng)模型所 對應(yīng)的訓練數(shù)據(jù); 自適應(yīng)單元,用于根據(jù)所述訓練數(shù)據(jù)對選擇執(zhí)行自適應(yīng)的模型進行自適應(yīng),得到頻譜 轉(zhuǎn)換矩陣。
10. 根據(jù)權(quán)利要求6至9任一項所述的裝置,其特征在于, 所述轉(zhuǎn)換模塊,具體用于根據(jù)以下公式獲得目標發(fā)音人歌唱風格頻譜合成模型:
Σ ^1=A At 其中,μ和Σ為源發(fā)音人歌唱風格頻譜合成模型的均值和方差,和t為轉(zhuǎn)換后的頻 譜合成模型的均值和方差,即為目標發(fā)音人歌唱風格頻譜合成模型的均值和方差,[Φ,B] 和H為均值和方差的全局轉(zhuǎn)換矩陣,A表示所述方差的分解矩陣。
【專利摘要】本發(fā)明公開了一種構(gòu)建個性化歌唱風格頻譜合成模型的方法及裝置,該方法包括:訓練源發(fā)音人朗讀風格頻譜合成模型和歌唱風格頻譜合成模型;獲取目標發(fā)音人朗讀風格數(shù)據(jù);根據(jù)所述源發(fā)音人朗讀風格頻譜合成模型及所述目標發(fā)音人朗讀風格數(shù)據(jù),確定源發(fā)音人與目標發(fā)明人的音色轉(zhuǎn)換關(guān)系;根據(jù)所述音色轉(zhuǎn)換關(guān)系對所述源發(fā)音人歌唱風格頻譜合成模型進行模型轉(zhuǎn)換,得到目標發(fā)音人歌唱風格頻譜合成模型。本發(fā)明通過目標發(fā)音人少量朗讀風格數(shù)據(jù)即可得到其歌唱風格合成模型,大大降低了一般用戶構(gòu)建歌唱合成模型的難度,進而有效地提高了個性化歌唱合成效果。
【IPC分類】G10L13-02
【公開號】CN104766603
【申請?zhí)枴緾N201410005753
【發(fā)明人】孫見青, 王影, 江源, 凌震華, 胡國平, 胡郁
【申請人】安徽科大訊飛信息科技股份有限公司
【公開日】2015年7月8日
【申請日】2014年1月6日