本申請(qǐng)涉及人工智能,具體涉及一種模型生成方法及相關(guān)設(shè)備。
背景技術(shù):
1、從文本到語(yǔ)音(text?to?speech,tts)技術(shù)可以使機(jī)器說話。非自回歸語(yǔ)音合成tts模型通過學(xué)習(xí)語(yǔ)音特征從而得到合成語(yǔ)音。合成語(yǔ)音的韻律感十分重要,韻律指的是語(yǔ)音中的抑揚(yáng)頓挫、聲音強(qiáng)度、音高等特征,富有韻律感的合成語(yǔ)音擬人程度高,較為自然。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)實(shí)施例提供一種模型生成方法及相關(guān)設(shè)備,用于提高語(yǔ)音合成的準(zhǔn)確性。
2、第一方面,本申請(qǐng)實(shí)施例提供一種模型生成方法,包括:
3、將樣本音素序列中音素的韻律特征輸入至語(yǔ)音合成模型的第一模塊中進(jìn)行第一處理,得到樣本音素序列的第一全局特征;
4、將樣本音素序列對(duì)應(yīng)的樣本文本輸入至語(yǔ)音合成模型的第二模塊中得到樣本音素序列的第二全局特征;
5、基于樣本音素序列的第一全局特征與第二全局特征確定損失值;
6、基于損失值調(diào)整語(yǔ)音合成模型的參數(shù)。
7、第二方面,本申請(qǐng)實(shí)施例提供了一種語(yǔ)音合成方法,包括:
8、將目標(biāo)音素序列中音素的韻律特征輸入至語(yǔ)音合成模型的第一模塊進(jìn)行第一處理,得到目標(biāo)音素序列的第一全局特征;和/或,將目標(biāo)音素序列對(duì)應(yīng)的目標(biāo)文本輸入至語(yǔ)音合成模型的第二模塊進(jìn)行第二處理,得到目標(biāo)音素序列的第二全局特征;
9、基于目標(biāo)音素序列的第一全局特征和/或第二全局特征,確定目標(biāo)音素序列的梅爾頻譜;
10、基于目標(biāo)音素序列的梅爾頻譜進(jìn)行語(yǔ)音合成。
11、第三方面,本申請(qǐng)實(shí)施例提供一種模型生成裝置,包括:
12、獲取單元,用于將樣本音素序列中音素的韻律特征輸入至語(yǔ)音合成模型的第一模塊中進(jìn)行第一處理,得到樣本音素序列的第一全局特征;將樣本音素序列對(duì)應(yīng)的樣本文本輸入至語(yǔ)音合成模型的第二模塊中進(jìn)行第二處理,得到樣本音素序列的第二全局特征;
13、處理單元,用于基于樣本音素序列的第一全局特征與第二全局特征確定損失值;基于損失值調(diào)整語(yǔ)音合成模型的參數(shù)。
14、第四方面,本申請(qǐng)實(shí)施例提供了一種語(yǔ)音合成裝置,包括:
15、獲取單元,用于:將目標(biāo)音素序列中音素的韻律特征輸入至語(yǔ)音合成模型的第一模塊進(jìn)行第一處理,得到目標(biāo)音素序列的第一全局特征;和/或,將目標(biāo)音素序列對(duì)應(yīng)的目標(biāo)文本輸入至語(yǔ)音合成模型的第二模塊進(jìn)行第二處理,得到目標(biāo)音素序列的第二全局特征;
16、處理單元,用于:基于目標(biāo)音素序列的第一全局特征和/或第二全局特征,確定目標(biāo)音素序列的梅爾頻譜;
17、合成單元,用于:基于目標(biāo)音素序列的梅爾頻譜進(jìn)行語(yǔ)音合成。
18、第五方面,本申請(qǐng)實(shí)施例提供一種電子設(shè)備,包括處理器和存儲(chǔ)器,其中,所述存儲(chǔ)器存儲(chǔ)有程序代碼,當(dāng)所述程序代碼被所述處理器執(zhí)行時(shí),使得所述處理器執(zhí)行上述模型生成方法或上述語(yǔ)音合成方法。
19、第六方面,本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其包括程序代碼,當(dāng)所述程序產(chǎn)品在電子設(shè)備上運(yùn)行時(shí),所述程序代碼用于使所述電子設(shè)備執(zhí)行上述模型生成方法或上述語(yǔ)音合成方法。
20、第七方面,本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包括:計(jì)算機(jī)程序代碼,當(dāng)所述計(jì)算機(jī)程序代碼在計(jì)算機(jī)上運(yùn)行時(shí),使得計(jì)算機(jī)執(zhí)行上述模型生成方法或上述語(yǔ)音合成方法。
21、本申請(qǐng)有益效果如下:
22、本申請(qǐng)實(shí)施例中,第一全局特征是基于韻律特征確定的,第二全局特征是基于文本確定的,使得確定的第一全局特征與第二全局特征分別從語(yǔ)音角度與文字角度反映了一個(gè)文本的情感特征,基于第一全局特征和第二全局特征訓(xùn)練語(yǔ)音合成模型,使得訓(xùn)練后的語(yǔ)音合成模型能從語(yǔ)音角度與文字角度關(guān)注情感特征,最終使得基于語(yǔ)音合成模型進(jìn)行語(yǔ)音合成能夠得到較為自然的合成語(yǔ)音,提高了語(yǔ)音合成的準(zhǔn)確性。
23、本申請(qǐng)的其它特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實(shí)施本申請(qǐng)而了解。本申請(qǐng)的目的和其他優(yōu)點(diǎn)可通過在所寫的說明書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來實(shí)現(xiàn)和獲得。
1.一種模型生成方法,其特征在于,所述方法包括:
2.如權(quán)利要求1所述的方法,其特征在于,所述韻律特征包括第一維度的多個(gè)第一子特征;所述第一處理,包括:
3.如權(quán)利要求1所述的方法,其特征在于,所述第二處理,包括:
4.如權(quán)利要求1~3任一項(xiàng)所述的方法,其特征在于,所述樣本音素序列有多個(gè),在多個(gè)所述樣本音素序列中目標(biāo)樣本音素序列的數(shù)量大于或等于預(yù)設(shè)閾值的情況下,參數(shù)調(diào)整得到的語(yǔ)音合成模型不包括所述第二模塊;所述目標(biāo)樣本音素序列中的每個(gè)音素都具備所述韻律特征。
5.一種語(yǔ)音合成方法,其特征在于,包括:
6.一種模型生成裝置,其特征在于,所述裝置包括:
7.一種語(yǔ)音合成裝置,其特征在于,所述裝置包括:
8.一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)權(quán)利要求1~4任一項(xiàng)或權(quán)利要求5所述方法的步驟。
9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,其包括程序代碼,當(dāng)程序產(chǎn)品在電子設(shè)備上運(yùn)行時(shí),所述程序代碼用于使所述電子設(shè)備執(zhí)行權(quán)利要求1~4中任一項(xiàng)或權(quán)利要求5所述方法的步驟。
10.一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,所述計(jì)算機(jī)程序產(chǎn)品包括:計(jì)算機(jī)程序代碼,當(dāng)所述計(jì)算機(jī)程序代碼在計(jì)算機(jī)上運(yùn)行時(shí),使得計(jì)算機(jī)執(zhí)行如權(quán)利要求1~4任一項(xiàng)或權(quán)利要求5所述的方法。