數(shù)字人的生成模型訓(xùn)練方法、生成方法及相關(guān)裝置與流程

文檔序號：40384686發(fā)布日期：2024-12-20 12:07閱讀：5來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

數(shù)字人的生成模型訓(xùn)練方法、生成方法及相關(guān)裝置與流程

本申請涉及人工智能中的數(shù)字人生成，尤其涉及一種數(shù)字人的生成模型訓(xùn)練方法、生成方法及相關(guān)裝置。

背景技術(shù)：

1、二維(2-dimention，2d)數(shù)字人生成技術(shù)是指采集一段視頻或者一張照片，通過機(jī)器學(xué)習(xí)的方式快速識別綁定面部表情和肢體動(dòng)作，然后采用語音驅(qū)動(dòng)，生成一段擬人視頻?，F(xiàn)有的2d數(shù)字人生成思路有基于生成對抗網(wǎng)絡(luò)(generative?adversarial?network，gan)的編碼—解碼思路，音頻到唇形同步(wav2lip)、形變修復(fù)網(wǎng)絡(luò)(deformable-iterativenetwork，dinet)是其代表性模型。由于wav2lip和dinet的訓(xùn)練數(shù)據(jù)的限制，它們驅(qū)動(dòng)形象的姿態(tài)是不可控制的，即現(xiàn)有的一些預(yù)訓(xùn)練模型難以實(shí)現(xiàn)姿態(tài)可控的2d數(shù)字人生成。

技術(shù)實(shí)現(xiàn)思路

1、針對上述問題，本申請?zhí)峁┝艘环N數(shù)字人的生成模型訓(xùn)練方法、生成方法及相關(guān)裝置，能夠生成姿態(tài)可控的數(shù)字人視頻。

2、第一方面，本申請實(shí)施例提供了一種數(shù)字人的生成模型訓(xùn)練方法，該方法包括：

3、獲取第一對象的第一視頻段、第二視頻段、第三視頻段和第一音頻數(shù)據(jù)；第一視頻段與第二視頻段和第三視頻段的幀數(shù)相同；

4、對于第一視頻段中的任意一幀第一圖像，從第一圖像中去除第一對象的身份信息，以得到第一對象的姿態(tài)特征；

5、從第一音頻數(shù)據(jù)中提取出第一對象的音頻特征；

6、對于第二視頻段中與第一圖像幀序?qū)?yīng)的第二圖像，從第二圖像中提取出第一對象的第一身份特征；

7、將姿態(tài)特征、音頻特征與第一身份特征進(jìn)行融合，得到第一融合特征；

8、對于第三視頻段中與第二圖像幀序?qū)?yīng)的第三圖像，基于第一融合特征生成第三圖像對應(yīng)的模擬數(shù)字人圖像；

9、將第三視頻段中每幀第三圖像對應(yīng)的模擬數(shù)字人圖像組成第一模擬數(shù)字人視頻；

10、基于所述第一模擬數(shù)字人視頻對神經(jīng)網(wǎng)絡(luò)進(jìn)行迭代訓(xùn)練，得到訓(xùn)練好的數(shù)字人生成模型。

11、第二方面，本申請實(shí)施例提供了一種數(shù)字人的生成方法，該方法包括：

12、獲取第二音頻數(shù)據(jù)、第二對象的第六視頻段、第三對象的第七視頻段和第八視頻段；第六視頻段與第七視頻段和第八視頻段的幀數(shù)相同；

13、將第二音頻數(shù)據(jù)、第六視頻段、第七視頻段和第八視頻段輸入數(shù)字人生成模型，以生成第三模擬數(shù)字人視頻；

14、其中，數(shù)字人生成模型是基于如上述第一方面任意一個(gè)實(shí)施例的訓(xùn)練方法訓(xùn)練得到的。

15、第三方面，本申請實(shí)施例提供了一種數(shù)字人的生成模型訓(xùn)練裝置，該裝置包括第一獲取單元和第一處理單元，其中：

16、第一獲取單元，用于獲取第一對象的第一視頻段、第二視頻段、第三視頻段和第一音頻數(shù)據(jù)；第一視頻段與第二視頻段和第三視頻段的幀數(shù)相同；

17、第一處理單元，用于對于第一視頻段中的任意一幀第一圖像，從第一圖像中去除第一對象的身份信息，以得到第一對象的姿態(tài)特征；從第一音頻數(shù)據(jù)中提取出第一對象的音頻特征；對于第二視頻段中與第一圖像幀序?qū)?yīng)的第二圖像，從第二圖像中提取出第一對象的第一身份特征；將姿態(tài)特征、音頻特征與第一身份特征進(jìn)行融合，得到第一融合特征；對于第三視頻段中與第二圖像幀序?qū)?yīng)的第三圖像，基于第一融合特征生成第三圖像對應(yīng)的模擬數(shù)字人圖像；將第三視頻段中每幀第三圖像對應(yīng)的模擬數(shù)字人圖像組成第一模擬數(shù)字人視頻；基于第一模擬數(shù)字人視頻對神經(jīng)網(wǎng)絡(luò)進(jìn)行迭代訓(xùn)練，得到訓(xùn)練好的數(shù)字人生成模型。

18、應(yīng)理解，由于方法實(shí)施例與裝置實(shí)施例為相同技術(shù)構(gòu)思的不同呈現(xiàn)形式，因此，本申請實(shí)施例第一方面的內(nèi)容應(yīng)同步適配于本申請實(shí)施例第三方面，且能達(dá)到相同或相似的有益效果，此處不再贅述。

19、第四方面，本申請實(shí)施例提供了一種數(shù)字人的生成裝置，該裝置包括第二獲取單元和第二處理單元，其中：

20、第二獲取單元，用于獲取第二音頻數(shù)據(jù)、第二對象的第六視頻段、第三對象的第七視頻段和第八視頻段；第六視頻段與第七視頻段和第八視頻段的幀數(shù)相同；

21、第二處理單元，用于將第二音頻數(shù)據(jù)、第六視頻段、第七視頻段和第八視頻段輸入數(shù)字人生成模型，以生成第三模擬數(shù)字人視頻；

22、其中，數(shù)字人生成模型是基于如上述第一方面任意一個(gè)實(shí)施例的訓(xùn)練方法訓(xùn)練得到的。

23、應(yīng)理解，由于方法實(shí)施例與裝置實(shí)施例為相同技術(shù)構(gòu)思的不同呈現(xiàn)形式，因此，本申請實(shí)施例第二方面的內(nèi)容應(yīng)同步適配于本申請實(shí)施例第四方面，且能達(dá)到相同或相似的有益效果，此處不再贅述。

24、第五方面，本申請實(shí)施例提供了一種計(jì)算機(jī)設(shè)備，該計(jì)算機(jī)設(shè)備包括：

25、處理器；以及

26、存儲有計(jì)算機(jī)可執(zhí)行指令的存儲器，可執(zhí)行指令被配置由處理器執(zhí)行，可執(zhí)行指令包括用于執(zhí)行如上述第一方面或第二方面任意一個(gè)實(shí)施例所述的方法中的步驟。

27、第六方面，本申請實(shí)施例提供了一種計(jì)算機(jī)可讀存儲介質(zhì)，計(jì)算機(jī)可讀存儲介質(zhì)存儲有用于設(shè)備執(zhí)行的計(jì)算機(jī)程序，計(jì)算機(jī)程序被執(zhí)行時(shí)實(shí)現(xiàn)如上述第一方面或第二方面任意一個(gè)實(shí)施例所述的方法中的步驟。

28、第七方面，本申請實(shí)施例提供了一種計(jì)算機(jī)程序產(chǎn)品，當(dāng)計(jì)算機(jī)程序產(chǎn)品被設(shè)備運(yùn)行，使得設(shè)備執(zhí)行上述第一方面或第二方面任意一個(gè)實(shí)施例所述的方法中的步驟。

29、本申請的上述方案至少包括以下有益效果：

30、本申請實(shí)施例中，第一視頻段中的圖像幀為樣本數(shù)據(jù)中第一對象的姿態(tài)幀，第二視頻段中的圖像幀為姿態(tài)幀對應(yīng)的參考幀，在獲取到第一對象的第一視頻段、第二視頻段、第三視頻段和第一音頻數(shù)據(jù)后，計(jì)算機(jī)設(shè)備從姿態(tài)幀(如第一圖像)中去除第一對象的身份信息，以得到姿態(tài)特征，相當(dāng)于對姿態(tài)特征進(jìn)行了增強(qiáng)，即該姿態(tài)特征能夠顯式地表征各姿態(tài)幀之間的姿態(tài)變化；計(jì)算機(jī)設(shè)備將增強(qiáng)后的姿態(tài)特征、第一音頻數(shù)據(jù)中提取出的音頻特征與對應(yīng)的參考幀(如第二圖像)中提取出的身份特征(即第一身份特征)進(jìn)行融合，有利于神經(jīng)網(wǎng)絡(luò)對融合特征(即第一融合特征)中的姿態(tài)特征的細(xì)微變化進(jìn)行感知，從而能夠使基于融合特征生成的輸入圖像(如第三圖像)對應(yīng)的圖像(如模擬數(shù)字人圖像)在人臉姿態(tài)上更具區(qū)分度。這樣以額外的增強(qiáng)姿態(tài)特征對神經(jīng)網(wǎng)絡(luò)進(jìn)行監(jiān)督，有利于降低輸入圖像中的人臉姿態(tài)對神經(jīng)網(wǎng)絡(luò)的影響，從而實(shí)現(xiàn)姿態(tài)可控。基于生成的視頻(如第一模擬數(shù)字人視頻)對神經(jīng)網(wǎng)絡(luò)進(jìn)行迭代訓(xùn)練，能夠訓(xùn)練出人臉姿態(tài)可控的數(shù)字人生成模型，利用該數(shù)字人生成模型能夠生成更形象、更真實(shí)的數(shù)字人視頻。

技術(shù)特征：

1.一種數(shù)字人的生成模型訓(xùn)練方法，其特征在于，所述方法包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述基于所述第一模擬數(shù)字人視頻對神經(jīng)網(wǎng)絡(luò)進(jìn)行迭代訓(xùn)練，得到訓(xùn)練好的數(shù)字人生成模型，包括：

3.根據(jù)權(quán)利要求1或2所述的方法，其特征在于，所述將所述姿態(tài)特征、所述音頻特征與所述第一身份特征進(jìn)行融合，得到第一融合特征，包括：

4.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述第一視頻段和所述第二視頻段為同一批次的樣本數(shù)據(jù)中所述第一對象的樣本對；所述樣本數(shù)據(jù)中包括至少兩個(gè)對象的樣本對，每個(gè)對象存在至少兩個(gè)樣本對。

5.根據(jù)權(quán)利要求4所述的方法，其特征在于，所述第二視頻段為所述第一視頻段的參考視頻段，所述樣本數(shù)據(jù)的每個(gè)樣本對中包括一個(gè)參考視頻段；

6.根據(jù)權(quán)利要求5所述的方法，其特征在于，所述基于所述第一模擬數(shù)字人視頻確定同步性損失、第一l1損失、第一感知損失、第一結(jié)構(gòu)相似性損失和第一紋理損失，包括：

7.根據(jù)權(quán)利要求6所述的方法，其特征在于，所述基于所述第一模擬數(shù)字人視頻中的每一幀模擬數(shù)字人圖像和所述每一幀模擬數(shù)字人圖像對應(yīng)的真值圖像，確定第一l1損失，包括：

8.根據(jù)權(quán)利要求6所述的方法，其特征在于，所述基于所述每一幀模擬數(shù)字人圖像和所述真值圖像，確定第一感知損失，包括：

9.根據(jù)權(quán)利要求6所述的方法，其特征在于，基于所述每一幀模擬數(shù)字人圖像和所述真值圖像，確定第一結(jié)構(gòu)相似性損失，包括：

10.根據(jù)權(quán)利要求6所述的方法，其特征在于，所述基于所述每一幀模擬數(shù)字人圖像和所述真值圖像，確定第一紋理損失，包括：

11.根據(jù)權(quán)利要求5所述的方法，其特征在于，所述基于所述第一身份特征和所述樣本數(shù)據(jù)的每個(gè)樣本對中的參考視頻段，確定身份信息的第一對比學(xué)習(xí)損失，包括：

12.根據(jù)權(quán)利要求1-11任一項(xiàng)所述的方法，其特征在于，所述神經(jīng)網(wǎng)絡(luò)的骨干網(wǎng)絡(luò)為u型網(wǎng)絡(luò)，所述第一模擬數(shù)字人視頻為所述u型網(wǎng)絡(luò)的解碼器的最后一層輸出的視頻段；

13.根據(jù)權(quán)利要求12所述的方法，其特征在于，所述基于至少一個(gè)第二模擬數(shù)字人視頻確定至少一個(gè)第二損失，包括：

14.一種數(shù)字人的生成方法，其特征在于，所述方法包括：

15.一種數(shù)字人的生成模型訓(xùn)練裝置，其特征在于，所述裝置包括第一獲取單元和第一處理單元，其中：

16.一種數(shù)字人的生成裝置，其特征在于，所述裝置包括第二獲取單元和第二處理單元，其中：

17.一種計(jì)算機(jī)設(shè)備，其特征在于，所述計(jì)算機(jī)設(shè)備包括：

18.一種計(jì)算機(jī)可讀存儲介質(zhì)，其特征在于，所述計(jì)算機(jī)可讀存儲介質(zhì)存儲有用于設(shè)備執(zhí)行的計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-13任一項(xiàng)或權(quán)利要求14所述的方法中的步驟。

技術(shù)總結(jié)
本申請?zhí)峁┝艘环N數(shù)字人的生成模型訓(xùn)練方法、生成方法及相關(guān)裝置，該數(shù)字人的生成模型訓(xùn)練方法從第一圖像中去除第一對象的身份信息，以得到姿態(tài)特征；第一圖像為第一視頻段中的任意一幀；從第一音頻數(shù)據(jù)中提取出音頻特征；從第二圖像中提取出第一對象的第一身份特征；第二圖像為第二視頻段中與第一圖像對應(yīng)的一幀；將姿態(tài)特征、音頻特征與第一身份特征進(jìn)行融合，得到第一融合特征，基于第一融合特征訓(xùn)練數(shù)字人生成模型，能夠得到人臉姿態(tài)可控的數(shù)字人生成模型，利用該數(shù)字人生成模型能夠生成更形象、更真實(shí)的數(shù)字人視頻。

技術(shù)研發(fā)人員：周聰,張良國,曾定衡
受保護(hù)的技術(shù)使用者：馬上消費(fèi)金融股份有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/19

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：周聰,張良國,曾定衡
技術(shù)所有人：馬上消費(fèi)金融股份有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

數(shù)字人的生成模型訓(xùn)練方法、生成方法及相關(guān)裝置與流程

數(shù)字人的生成模型訓(xùn)練方法、生成方法及相關(guān)裝置與流程