亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種模型生成方法及相關(guān)設(shè)備與流程

文檔序號(hào):40402491發(fā)布日期:2024-12-20 12:26閱讀:16來源:國(guó)知局
一種模型生成方法及相關(guān)設(shè)備與流程

本申請(qǐng)涉及人工智能,具體涉及一種模型生成方法及相關(guān)設(shè)備。


背景技術(shù):

1、從文本到語(yǔ)音(text?to?speech,tts)技術(shù)可以使機(jī)器說話。非自回歸語(yǔ)音合成tts模型通過學(xué)習(xí)語(yǔ)音特征從而得到合成語(yǔ)音。合成語(yǔ)音的韻律感十分重要,韻律指的是語(yǔ)音中的抑揚(yáng)頓挫、聲音強(qiáng)度、音高等特征,富有韻律感的合成語(yǔ)音擬人程度高,較為自然。


技術(shù)實(shí)現(xiàn)思路

1、本申請(qǐng)實(shí)施例提供一種模型生成方法及相關(guān)設(shè)備,用于提高語(yǔ)音合成的準(zhǔn)確性。

2、第一方面,本申請(qǐng)實(shí)施例提供一種模型生成方法,包括:

3、將樣本音素序列中音素的韻律特征輸入至語(yǔ)音合成模型的第一模塊中進(jìn)行第一處理,得到樣本音素序列的第一全局特征;

4、將樣本音素序列對(duì)應(yīng)的樣本文本輸入至語(yǔ)音合成模型的第二模塊中得到樣本音素序列的第二全局特征;

5、基于樣本音素序列的第一全局特征與第二全局特征確定損失值;

6、基于損失值調(diào)整語(yǔ)音合成模型的參數(shù)。

7、第二方面,本申請(qǐng)實(shí)施例提供了一種語(yǔ)音合成方法,包括:

8、將目標(biāo)音素序列中音素的韻律特征輸入至語(yǔ)音合成模型的第一模塊進(jìn)行第一處理,得到目標(biāo)音素序列的第一全局特征;和/或,將目標(biāo)音素序列對(duì)應(yīng)的目標(biāo)文本輸入至語(yǔ)音合成模型的第二模塊進(jìn)行第二處理,得到目標(biāo)音素序列的第二全局特征;

9、基于目標(biāo)音素序列的第一全局特征和/或第二全局特征,確定目標(biāo)音素序列的梅爾頻譜;

10、基于目標(biāo)音素序列的梅爾頻譜進(jìn)行語(yǔ)音合成。

11、第三方面,本申請(qǐng)實(shí)施例提供一種模型生成裝置,包括:

12、獲取單元,用于將樣本音素序列中音素的韻律特征輸入至語(yǔ)音合成模型的第一模塊中進(jìn)行第一處理,得到樣本音素序列的第一全局特征;將樣本音素序列對(duì)應(yīng)的樣本文本輸入至語(yǔ)音合成模型的第二模塊中進(jìn)行第二處理,得到樣本音素序列的第二全局特征;

13、處理單元,用于基于樣本音素序列的第一全局特征與第二全局特征確定損失值;基于損失值調(diào)整語(yǔ)音合成模型的參數(shù)。

14、第四方面,本申請(qǐng)實(shí)施例提供了一種語(yǔ)音合成裝置,包括:

15、獲取單元,用于:將目標(biāo)音素序列中音素的韻律特征輸入至語(yǔ)音合成模型的第一模塊進(jìn)行第一處理,得到目標(biāo)音素序列的第一全局特征;和/或,將目標(biāo)音素序列對(duì)應(yīng)的目標(biāo)文本輸入至語(yǔ)音合成模型的第二模塊進(jìn)行第二處理,得到目標(biāo)音素序列的第二全局特征;

16、處理單元,用于:基于目標(biāo)音素序列的第一全局特征和/或第二全局特征,確定目標(biāo)音素序列的梅爾頻譜;

17、合成單元,用于:基于目標(biāo)音素序列的梅爾頻譜進(jìn)行語(yǔ)音合成。

18、第五方面,本申請(qǐng)實(shí)施例提供一種電子設(shè)備,包括處理器和存儲(chǔ)器,其中,所述存儲(chǔ)器存儲(chǔ)有程序代碼,當(dāng)所述程序代碼被所述處理器執(zhí)行時(shí),使得所述處理器執(zhí)行上述模型生成方法或上述語(yǔ)音合成方法。

19、第六方面,本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其包括程序代碼,當(dāng)所述程序產(chǎn)品在電子設(shè)備上運(yùn)行時(shí),所述程序代碼用于使所述電子設(shè)備執(zhí)行上述模型生成方法或上述語(yǔ)音合成方法。

20、第七方面,本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包括:計(jì)算機(jī)程序代碼,當(dāng)所述計(jì)算機(jī)程序代碼在計(jì)算機(jī)上運(yùn)行時(shí),使得計(jì)算機(jī)執(zhí)行上述模型生成方法或上述語(yǔ)音合成方法。

21、本申請(qǐng)有益效果如下:

22、本申請(qǐng)實(shí)施例中,第一全局特征是基于韻律特征確定的,第二全局特征是基于文本確定的,使得確定的第一全局特征與第二全局特征分別從語(yǔ)音角度與文字角度反映了一個(gè)文本的情感特征,基于第一全局特征和第二全局特征訓(xùn)練語(yǔ)音合成模型,使得訓(xùn)練后的語(yǔ)音合成模型能從語(yǔ)音角度與文字角度關(guān)注情感特征,最終使得基于語(yǔ)音合成模型進(jìn)行語(yǔ)音合成能夠得到較為自然的合成語(yǔ)音,提高了語(yǔ)音合成的準(zhǔn)確性。

23、本申請(qǐng)的其它特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實(shí)施本申請(qǐng)而了解。本申請(qǐng)的目的和其他優(yōu)點(diǎn)可通過在所寫的說明書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來實(shí)現(xiàn)和獲得。



技術(shù)特征:

1.一種模型生成方法,其特征在于,所述方法包括:

2.如權(quán)利要求1所述的方法,其特征在于,所述韻律特征包括第一維度的多個(gè)第一子特征;所述第一處理,包括:

3.如權(quán)利要求1所述的方法,其特征在于,所述第二處理,包括:

4.如權(quán)利要求1~3任一項(xiàng)所述的方法,其特征在于,所述樣本音素序列有多個(gè),在多個(gè)所述樣本音素序列中目標(biāo)樣本音素序列的數(shù)量大于或等于預(yù)設(shè)閾值的情況下,參數(shù)調(diào)整得到的語(yǔ)音合成模型不包括所述第二模塊;所述目標(biāo)樣本音素序列中的每個(gè)音素都具備所述韻律特征。

5.一種語(yǔ)音合成方法,其特征在于,包括:

6.一種模型生成裝置,其特征在于,所述裝置包括:

7.一種語(yǔ)音合成裝置,其特征在于,所述裝置包括:

8.一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)權(quán)利要求1~4任一項(xiàng)或權(quán)利要求5所述方法的步驟。

9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,其包括程序代碼,當(dāng)程序產(chǎn)品在電子設(shè)備上運(yùn)行時(shí),所述程序代碼用于使所述電子設(shè)備執(zhí)行權(quán)利要求1~4中任一項(xiàng)或權(quán)利要求5所述方法的步驟。

10.一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,所述計(jì)算機(jī)程序產(chǎn)品包括:計(jì)算機(jī)程序代碼,當(dāng)所述計(jì)算機(jī)程序代碼在計(jì)算機(jī)上運(yùn)行時(shí),使得計(jì)算機(jī)執(zhí)行如權(quán)利要求1~4任一項(xiàng)或權(quán)利要求5所述的方法。


技術(shù)總結(jié)
本申請(qǐng)公開一種模型生成方法及相關(guān)設(shè)備,用于提高語(yǔ)音合成的準(zhǔn)確性。所述方法包括:將樣本音素序列中音素的韻律特征輸入至語(yǔ)音合成模型的第一模塊中進(jìn)行第一處理,得到所述樣本音素序列的第一全局特征;將所述樣本音素序列對(duì)應(yīng)的樣本文本輸入至所述語(yǔ)音合成模型的第二模塊中進(jìn)行第二處理,得到所述樣本音素序列的第二全局特征;基于所述樣本音素序列的第一全局特征與第二全局特征確定損失值;基于所述損失值調(diào)整所述語(yǔ)音合成模型的參數(shù)。

技術(shù)研發(fā)人員:劉鵬飛
受保護(hù)的技術(shù)使用者:馬上消費(fèi)金融股份有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/19
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1