亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種語(yǔ)音合成方法和裝置

文檔序號(hào):40384758發(fā)布日期:2024-12-20 12:07閱讀:12來(lái)源:國(guó)知局
一種語(yǔ)音合成方法和裝置

本發(fā)明涉及語(yǔ)音處理,尤其涉及一種語(yǔ)音合成方法和裝置。


背景技術(shù):

1、在人工智能生成內(nèi)容(aigc)時(shí)代,人工智能技術(shù)正在生成越來(lái)越多的多媒體內(nèi)容。例如生成視頻內(nèi)容,這一過(guò)程旨在將以人為中心的靜態(tài)圖像轉(zhuǎn)換成動(dòng)態(tài)的會(huì)說(shuō)話的動(dòng)畫。為了增強(qiáng)生成的視頻的生動(dòng)性,確保輸入圖像中的視覺信息與音頻中的語(yǔ)音特征和諧是至關(guān)重要的。

2、現(xiàn)有研究主要集中在利用面部信息來(lái)推斷說(shuō)話者的基本特征,如性別、年齡和情緒,但它們往往忽略了圖像中存在的大量額外線索,無(wú)法生成細(xì)粒度語(yǔ)音風(fēng)格的音頻。

3、如何通過(guò)給定的圖像模擬合成更細(xì)粒度語(yǔ)音風(fēng)格的音頻,是目前需要解決的技術(shù)問(wèn)題。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明提供一種語(yǔ)音合成方法和裝置,用以解決現(xiàn)有技術(shù)中存在的缺陷。

2、本發(fā)明提供一種語(yǔ)音合成方法,包括如下步驟:

3、獲取目標(biāo)圖像和說(shuō)話文稿,并將所述目標(biāo)圖像和所述說(shuō)話文稿輸入至預(yù)訓(xùn)練的語(yǔ)音合成模型,得到目標(biāo)合成語(yǔ)音;

4、其中,所述目標(biāo)圖像包含多個(gè)視覺信息,所述目標(biāo)合成語(yǔ)音包含多個(gè)聲學(xué)特征,一個(gè)視覺信息對(duì)應(yīng)至少一個(gè)聲學(xué)特征;所述語(yǔ)音合成模型為基于多模態(tài)數(shù)據(jù)集進(jìn)行訓(xùn)練得到,所述多模態(tài)數(shù)據(jù)集為對(duì)目標(biāo)數(shù)據(jù)集進(jìn)行模態(tài)增強(qiáng)得到。

5、根據(jù)本發(fā)明提供的一種語(yǔ)音合成方法,所述語(yǔ)音合成模型包括圖像編碼器、語(yǔ)音解碼器和查詢轉(zhuǎn)換器q-former;

6、所述圖像編碼器用于提取所述目標(biāo)圖像中的多個(gè)視覺信息;

7、所述語(yǔ)音解碼器用于生成所述目標(biāo)合成語(yǔ)音中的多個(gè)聲學(xué)特征;

8、所述查詢轉(zhuǎn)換器q-former用于進(jìn)行模態(tài)交互訓(xùn)練。

9、根據(jù)本發(fā)明提供的一種語(yǔ)音合成方法,所述語(yǔ)音合成模型的訓(xùn)練過(guò)程,包括:

10、基于所述多模態(tài)數(shù)據(jù)集對(duì)所述語(yǔ)音解碼器進(jìn)行第一階段訓(xùn)練,并得到所述語(yǔ)音解碼器的訓(xùn)練損失值;其中,所述第一階段訓(xùn)練為無(wú)監(jiān)督語(yǔ)音風(fēng)格學(xué)習(xí)訓(xùn)練;

11、基于所述多模態(tài)數(shù)據(jù)集對(duì)所述查詢轉(zhuǎn)換器q-former進(jìn)行第二階段訓(xùn)練;其中,所述第二階段訓(xùn)練為與語(yǔ)音風(fēng)格相關(guān)的視覺表征學(xué)習(xí)訓(xùn)練;

12、連接進(jìn)行第一階段訓(xùn)練后的語(yǔ)音解碼器和進(jìn)行第二階段訓(xùn)練后的查詢轉(zhuǎn)換器q-former,并基于所述語(yǔ)音解碼器的訓(xùn)練損失值對(duì)連接后的語(yǔ)音解碼器和查詢轉(zhuǎn)換器q-former進(jìn)行第三階段訓(xùn)練;其中,所述第三階段訓(xùn)練為視覺條件下的語(yǔ)音風(fēng)格控制訓(xùn)練。

13、根據(jù)本發(fā)明提供的一種語(yǔ)音合成方法,所述獲取目標(biāo)圖像和說(shuō)話文稿,并將所述目標(biāo)圖像和所述說(shuō)話文稿輸入至預(yù)訓(xùn)練的語(yǔ)音合成模型,得到目標(biāo)合成語(yǔ)音,包括:

14、獲取目標(biāo)圖像和說(shuō)話文稿,并提取所述目標(biāo)圖像的多個(gè)關(guān)鍵幀;其中,所述關(guān)鍵幀表示以所述目標(biāo)圖像中說(shuō)話人為中心的圖像序列;

15、將所述目標(biāo)圖像的多個(gè)關(guān)鍵幀和所述說(shuō)話文稿輸入至預(yù)訓(xùn)練的語(yǔ)音合成模型,得到多個(gè)語(yǔ)音音頻;

16、基于所述多個(gè)語(yǔ)音音頻,合成所述目標(biāo)合成語(yǔ)音。

17、根據(jù)本發(fā)明提供的一種語(yǔ)音合成方法,所述獲取目標(biāo)圖像和說(shuō)話文稿之前,所述方法還包括:

18、獲取目標(biāo)數(shù)據(jù)集,對(duì)所述目標(biāo)數(shù)據(jù)集進(jìn)行模態(tài)增強(qiáng),得到所述多模態(tài)數(shù)據(jù)集;其中,所述目標(biāo)數(shù)據(jù)集為自然語(yǔ)言提示語(yǔ)音數(shù)據(jù)集。

19、根據(jù)本發(fā)明提供的一種語(yǔ)音合成方法,所述目標(biāo)數(shù)據(jù)集包括多個(gè)語(yǔ)音片段以及每個(gè)語(yǔ)音片段對(duì)應(yīng)的語(yǔ)音描述;

20、所述對(duì)所述目標(biāo)數(shù)據(jù)集進(jìn)行模態(tài)增強(qiáng),得到所述多模態(tài)數(shù)據(jù)集,包括:

21、將所述目標(biāo)數(shù)據(jù)集中的語(yǔ)音描述輸入至預(yù)訓(xùn)練的文本模態(tài)轉(zhuǎn)換模型,得到所述語(yǔ)音描述對(duì)應(yīng)的視覺描述;其中,所述語(yǔ)音描述表示所述目標(biāo)數(shù)據(jù)集語(yǔ)音特征對(duì)應(yīng)的文字描述,所述視覺描述表示所述目標(biāo)數(shù)據(jù)集語(yǔ)音場(chǎng)景對(duì)應(yīng)的圖片說(shuō)明;

22、將所述視覺描述輸入至預(yù)訓(xùn)練的圖像生成模型中,得到對(duì)應(yīng)的目標(biāo)圖像。

23、本發(fā)明還提供一種語(yǔ)音合成裝置,包括如下模塊:

24、語(yǔ)音合成模塊,用于獲取目標(biāo)圖像和說(shuō)話文稿,并將所述目標(biāo)圖像和所述說(shuō)話文稿輸入至預(yù)訓(xùn)練的語(yǔ)音合成模型,得到目標(biāo)合成語(yǔ)音;

25、其中,所述目標(biāo)圖像包含多個(gè)視覺信息,所述目標(biāo)合成語(yǔ)音包含多個(gè)聲學(xué)特征,一個(gè)視覺信息對(duì)應(yīng)至少一個(gè)聲學(xué)特征;所述語(yǔ)音合成模型為基于多模態(tài)數(shù)據(jù)集進(jìn)行訓(xùn)練得到,所述多模態(tài)數(shù)據(jù)集為對(duì)目標(biāo)數(shù)據(jù)集進(jìn)行模態(tài)增強(qiáng)得到。

26、本發(fā)明還提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上述任一種所述語(yǔ)音合成方法。

27、本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述語(yǔ)音合成方法。

28、本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述語(yǔ)音合成方法。

29、本發(fā)明提供的一種語(yǔ)音合成方法和裝置,通過(guò)獲取目標(biāo)圖像和說(shuō)話文稿,并將所述目標(biāo)圖像和所述說(shuō)話文稿輸入至預(yù)訓(xùn)練的語(yǔ)音合成模型,得到目標(biāo)合成語(yǔ)音;其中,所述目標(biāo)圖像包含多個(gè)視覺信息,所述目標(biāo)合成語(yǔ)音包含多個(gè)聲學(xué)特征,一個(gè)視覺信息對(duì)應(yīng)至少一個(gè)聲學(xué)特征;所述語(yǔ)音合成模型為基于多模態(tài)數(shù)據(jù)集進(jìn)行訓(xùn)練得到,所述多模態(tài)數(shù)據(jù)集為對(duì)目標(biāo)數(shù)據(jù)集進(jìn)行模態(tài)增強(qiáng)得到。由此可知,本發(fā)明通過(guò)對(duì)現(xiàn)有語(yǔ)音數(shù)據(jù)集進(jìn)行模態(tài)增強(qiáng)構(gòu)建多模態(tài)數(shù)據(jù)集,解決數(shù)據(jù)集稀缺的問(wèn)題;根據(jù)靜態(tài)圖像中的視覺信息與語(yǔ)音音頻中的聲學(xué)特征之間的一一對(duì)應(yīng)關(guān)系,基于通過(guò)多模態(tài)數(shù)據(jù)集訓(xùn)練得到的語(yǔ)音合成模型,使合成的目標(biāo)合成語(yǔ)音具有更細(xì)粒度的語(yǔ)音風(fēng)格。



技術(shù)特征:

1.一種語(yǔ)音合成方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的語(yǔ)音合成方法,其特征在于,所述語(yǔ)音合成模型包括圖像編碼器、語(yǔ)音解碼器和查詢轉(zhuǎn)換器q-former;

3.根據(jù)權(quán)利要求2所述的語(yǔ)音合成方法,其特征在于,所述語(yǔ)音合成模型的訓(xùn)練過(guò)程,包括:

4.根據(jù)權(quán)利要求1所述的語(yǔ)音合成方法,其特征在于,所述獲取目標(biāo)圖像和說(shuō)話文稿,并將所述目標(biāo)圖像和所述說(shuō)話文稿輸入至預(yù)訓(xùn)練的語(yǔ)音合成模型,得到目標(biāo)合成語(yǔ)音,包括:

5.根據(jù)權(quán)利要求1所述的語(yǔ)音合成方法,其特征在于,所述獲取目標(biāo)圖像和說(shuō)話文稿之前,所述方法還包括:

6.根據(jù)權(quán)利要求5所述的語(yǔ)音合成方法,其特征在于,所述目標(biāo)數(shù)據(jù)集包括多個(gè)語(yǔ)音片段以及每個(gè)語(yǔ)音片段對(duì)應(yīng)的語(yǔ)音描述;

7.一種語(yǔ)音合成裝置,其特征在于,包括:

8.一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述語(yǔ)音合成方法。

9.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述語(yǔ)音合成方法。

10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述語(yǔ)音合成方法。


技術(shù)總結(jié)
本發(fā)明提供一種語(yǔ)音合成方法和裝置,涉及語(yǔ)音處理技術(shù)領(lǐng)域,方法包括:獲取目標(biāo)圖像和說(shuō)話文稿,并將目標(biāo)圖像和說(shuō)話文稿輸入至預(yù)訓(xùn)練的語(yǔ)音合成模型,得到目標(biāo)合成語(yǔ)音;其中,目標(biāo)圖像包含多個(gè)視覺信息,目標(biāo)合成語(yǔ)音包含多個(gè)聲學(xué)特征,一個(gè)視覺信息對(duì)應(yīng)至少一個(gè)聲學(xué)特征;語(yǔ)音合成模型為基于多模態(tài)數(shù)據(jù)集進(jìn)行訓(xùn)練得到,多模態(tài)數(shù)據(jù)集為對(duì)目標(biāo)數(shù)據(jù)集進(jìn)行模態(tài)增強(qiáng)得到。通過(guò)本發(fā)明提供的方法,對(duì)現(xiàn)有語(yǔ)音數(shù)據(jù)集進(jìn)行模態(tài)增強(qiáng)構(gòu)建多模態(tài)數(shù)據(jù)集,解決數(shù)據(jù)集稀缺的問(wèn)題;根據(jù)靜態(tài)圖像中的視覺信息與語(yǔ)音音頻中的聲學(xué)特征之間的一一對(duì)應(yīng)關(guān)系,基于通過(guò)多模態(tài)數(shù)據(jù)集訓(xùn)練得到的語(yǔ)音合成模型,使合成的目標(biāo)合成語(yǔ)音具有更細(xì)粒度的語(yǔ)音風(fēng)格。

技術(shù)研發(fā)人員:周松濤,秦霄羽,賈珈,周逸軒,王琦鑫,吳志勇
受保護(hù)的技術(shù)使用者:清華大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/19
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1