本技術(shù)涉及深度學(xué)習(xí),尤其涉及一種人臉視頻生成方法和裝置、電子設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、2d數(shù)字人是一種以平面圖形形式呈現(xiàn)的數(shù)字化虛擬人物,2d數(shù)字人能夠?yàn)橛脩舸蛟焯摂M形象,解決真人出鏡的問題,廣泛應(yīng)用于影視制作、網(wǎng)絡(luò)直播等領(lǐng)域。
2、2d數(shù)字人生成模型能夠基于對象提供的單張圖像或一段對象視頻,通過文本或語音進(jìn)行驅(qū)動,生成對象人臉對應(yīng)的口播視頻。相關(guān)技術(shù)在基于音頻驅(qū)動生成人臉視頻時(shí),根據(jù)對象提供的一段視頻數(shù)據(jù),將視頻數(shù)據(jù)輸入2d數(shù)字人生成模型進(jìn)行人臉視頻生成。這種方法需要對象提供較長時(shí)長的視頻數(shù)據(jù),才能保證生成的人臉視頻中嘴型的準(zhǔn)確性,導(dǎo)致生成人臉視頻的效率較低。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例的主要目的在于提出一種人臉視頻生成方法和裝置、電子設(shè)備及存儲介質(zhì),在用戶提供的視頻數(shù)據(jù)時(shí)長較短的情況下,也能夠保證生成的目標(biāo)人臉視頻的準(zhǔn)確性,同時(shí)提高生成目標(biāo)人臉視頻的效率。
2、為實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例的第一方面提出了一種人臉視頻生成方法,所述方法包括:
3、獲取用于驅(qū)動目標(biāo)對象發(fā)出的目標(biāo)語音,所述目標(biāo)語音包括連續(xù)的多個(gè)時(shí)區(qū),每個(gè)所述時(shí)區(qū)對應(yīng)于所述目標(biāo)對象的目標(biāo)人臉視頻中的一幀;
4、對所述目標(biāo)語音進(jìn)行特征提取,得到語音特征;
5、將所述語音特征輸入預(yù)先訓(xùn)練的面部關(guān)鍵點(diǎn)預(yù)測模塊進(jìn)行關(guān)鍵點(diǎn)生成,得到多個(gè)參考關(guān)鍵點(diǎn)數(shù)據(jù),每個(gè)所述參考關(guān)鍵點(diǎn)數(shù)據(jù)對應(yīng)于所述目標(biāo)語音的一個(gè)時(shí)區(qū)的所述語音特征;
6、獲取所述目標(biāo)對象的第一面部關(guān)鍵點(diǎn)數(shù)據(jù)和第二面部關(guān)鍵點(diǎn)數(shù)據(jù),所述第一面部關(guān)鍵點(diǎn)數(shù)據(jù)用于表征與所述參考關(guān)鍵點(diǎn)數(shù)據(jù)在所述目標(biāo)對象的面部區(qū)域相同的關(guān)鍵點(diǎn)數(shù)據(jù),所述第二面部關(guān)鍵點(diǎn)數(shù)據(jù)用于表征與所述參考關(guān)鍵點(diǎn)數(shù)據(jù)在所述目標(biāo)對象的面部區(qū)域不同的關(guān)鍵點(diǎn)數(shù)據(jù);
7、基于所述第一面部關(guān)鍵點(diǎn)數(shù)據(jù)對多個(gè)所述參考關(guān)鍵點(diǎn)數(shù)據(jù)進(jìn)行數(shù)據(jù)調(diào)整,得到目標(biāo)面部關(guān)鍵點(diǎn)數(shù)據(jù);
8、基于所述目標(biāo)面部關(guān)鍵點(diǎn)數(shù)據(jù)和所述第二面部關(guān)鍵點(diǎn)數(shù)據(jù)進(jìn)行人臉視頻生成,得到所述目標(biāo)人臉視頻。
9、在一些實(shí)施例中,所述獲取所述目標(biāo)對象的第一面部關(guān)鍵點(diǎn)數(shù)據(jù)和第二面部關(guān)鍵點(diǎn)數(shù)據(jù),包括:
10、獲取所述目標(biāo)對象的對象視頻;
11、從所述對象視頻中采集參考視頻幀;
12、基于所述參考視頻幀進(jìn)行圖像提取,得到對象面部圖像;
13、將所述對象面部圖像進(jìn)行圖像劃分,得到第一面部圖像和第二面部圖像,所述第一面部圖像表征所述目標(biāo)對象的嘴部區(qū)域?qū)?yīng)的面部圖像,所述第二面部圖像表征所述目標(biāo)對象的嘴部區(qū)域之外的面部圖像;
14、對所述第一面部圖像進(jìn)行關(guān)鍵點(diǎn)提取,得到第一面部關(guān)鍵點(diǎn)數(shù)據(jù);
15、對所述第二面部圖像進(jìn)行關(guān)鍵點(diǎn)提取,得到第二面部關(guān)鍵點(diǎn)數(shù)據(jù)。
16、在一些實(shí)施例中,所述從所述對象視頻中采集參考視頻幀,包括:
17、獲取所述對象視頻中每一視頻幀的拍攝清晰度和拍攝完整度;
18、將每一所述視頻幀中的所述拍攝清晰度進(jìn)行比較,得到拍攝清晰度比較結(jié)果;
19、將每一所述視頻幀中的所述拍攝完整度進(jìn)行比較,得到拍攝完整度比較結(jié)果;
20、基于所述拍攝清晰度比較結(jié)果和所述拍攝完整度比較結(jié)果,在所述對象視頻中確定參考視頻幀。
21、在一些實(shí)施例中,所述面部關(guān)鍵點(diǎn)預(yù)測模塊包括特征融合模塊和解碼模塊,所述將所述語音特征輸入預(yù)先訓(xùn)練的面部關(guān)鍵點(diǎn)預(yù)測模塊進(jìn)行關(guān)鍵點(diǎn)生成,得到多個(gè)參考關(guān)鍵點(diǎn)數(shù)據(jù),包括:
22、從預(yù)設(shè)的標(biāo)準(zhǔn)正態(tài)分布空間中采樣隨機(jī)向量;
23、通過所述特征融合模塊,對所述隨機(jī)向量和所述語音特征進(jìn)行特征融合,得到特征融合向量;
24、將所述特征融合向量輸入至所述解碼模塊進(jìn)行解碼,得到多個(gè)參考關(guān)鍵點(diǎn)數(shù)據(jù)。
25、在一些實(shí)施例中,所述基于所述第一面部關(guān)鍵點(diǎn)數(shù)據(jù)對多個(gè)所述參考關(guān)鍵點(diǎn)數(shù)據(jù)進(jìn)行數(shù)據(jù)調(diào)整,得到目標(biāo)面部關(guān)鍵點(diǎn)數(shù)據(jù),包括:
26、根據(jù)所述第一面部關(guān)鍵點(diǎn)數(shù)據(jù)確定第一面部關(guān)鍵點(diǎn)數(shù)據(jù)均值和第一面部關(guān)鍵點(diǎn)數(shù)據(jù)方差;
27、根據(jù)多個(gè)所述參考關(guān)鍵點(diǎn)數(shù)據(jù)確定參考關(guān)鍵點(diǎn)數(shù)據(jù)均值和參考關(guān)鍵點(diǎn)數(shù)據(jù)方差;
28、基于所述第一面部關(guān)鍵點(diǎn)數(shù)據(jù)均值、所述第一面部關(guān)鍵點(diǎn)數(shù)據(jù)方差、所述參考關(guān)鍵點(diǎn)數(shù)據(jù)均值和所述參考關(guān)鍵點(diǎn)數(shù)據(jù)方差,對每一所述參考關(guān)鍵點(diǎn)數(shù)據(jù)進(jìn)行歸一化,得到目標(biāo)面部關(guān)鍵點(diǎn)數(shù)據(jù)。
29、在一些實(shí)施例中,所述基于所述目標(biāo)面部關(guān)鍵點(diǎn)數(shù)據(jù)和所述第二面部關(guān)鍵點(diǎn)數(shù)據(jù)進(jìn)行人臉視頻生成,得到所述目標(biāo)人臉視頻,包括:
30、通過預(yù)設(shè)的編碼器對所述參考視頻幀和所述目標(biāo)面部關(guān)鍵點(diǎn)數(shù)據(jù)進(jìn)行編碼,得到目標(biāo)特征向量和目標(biāo)偏置向量;
31、通過預(yù)設(shè)的人臉圖像生成器,基于所述目標(biāo)特征向量和所述目標(biāo)偏置向量進(jìn)行圖像生成,得到目標(biāo)嘴型調(diào)整圖像;
32、根據(jù)所述第二面部關(guān)鍵點(diǎn)數(shù)據(jù)生成所述目標(biāo)對象的嘴部區(qū)域以外的目標(biāo)面部圖像;
33、將所述目標(biāo)嘴型調(diào)整圖像、所述目標(biāo)面部圖像進(jìn)行視頻合成,生成所述目標(biāo)人臉視頻。
34、在一些實(shí)施例中,所述根據(jù)所述第二面部關(guān)鍵點(diǎn)數(shù)據(jù)生成所述目標(biāo)對象的嘴部區(qū)域以外的目標(biāo)面部圖像,包括:
35、對所述目標(biāo)語音進(jìn)行情感特征提取,得到情感特征;
36、基于預(yù)設(shè)的情感分類模型對所述情感特征進(jìn)行分類,得到目標(biāo)對象情感狀態(tài);
37、根據(jù)所述目標(biāo)對象情感狀態(tài)對所述第二面部關(guān)鍵點(diǎn)數(shù)據(jù)進(jìn)行關(guān)鍵點(diǎn)位置調(diào)整,生成與所述目標(biāo)對象情感狀態(tài)對應(yīng)的面部關(guān)鍵點(diǎn)數(shù)據(jù);
38、根據(jù)所述目標(biāo)對象情感狀態(tài)對應(yīng)的面部關(guān)鍵點(diǎn)數(shù)據(jù)進(jìn)行圖像生成,得到對象嘴部區(qū)域以外的目標(biāo)面部區(qū)域圖像。
39、為實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例的第二方面提出了一種人臉視頻生成裝置。
40、為實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例的第三方面提出了一種電子設(shè)備,所述電子設(shè)備包括存儲器和處理器,所述存儲器存儲有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述第一方面所述的方法。
41、為實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例的第四方面提出了一種計(jì)算機(jī)可讀存儲介質(zhì),所述計(jì)算機(jī)可讀存儲介質(zhì)存儲有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述第一方面所述的方法。
42、本技術(shù)提出的人臉視頻生成方法和裝置、電子設(shè)備及存儲介質(zhì),其通過獲取用于驅(qū)動目標(biāo)對象發(fā)出的目標(biāo)語音;對目標(biāo)語音進(jìn)行特征提取,得到語音特征;將語音特征輸入面部關(guān)鍵點(diǎn)預(yù)測模塊進(jìn)行關(guān)鍵點(diǎn)生成,得到多個(gè)參考關(guān)鍵點(diǎn)數(shù)據(jù),從而能夠根據(jù)目標(biāo)語音來預(yù)測目標(biāo)對象的面部表征。然后可以基于用戶提供的視頻數(shù)據(jù),分別獲取目標(biāo)對象的第一面部關(guān)鍵點(diǎn)數(shù)據(jù)和第二面部關(guān)鍵點(diǎn)數(shù)據(jù);基于第一面部關(guān)鍵點(diǎn)數(shù)據(jù)對多個(gè)參考關(guān)鍵點(diǎn)數(shù)據(jù)進(jìn)行數(shù)據(jù)調(diào)整,得到目標(biāo)面部關(guān)鍵點(diǎn)數(shù)據(jù)。由于第一面部關(guān)鍵點(diǎn)數(shù)據(jù)表征與多個(gè)參考關(guān)鍵點(diǎn)數(shù)據(jù)在目標(biāo)對象的面部區(qū)域相同的關(guān)鍵點(diǎn)數(shù)據(jù),可以基于目標(biāo)對象的第一面部關(guān)鍵點(diǎn)數(shù)據(jù)對預(yù)測得到的多個(gè)參考數(shù)據(jù)關(guān)鍵點(diǎn)進(jìn)行調(diào)整,從而保證生成的目標(biāo)人臉視頻的準(zhǔn)確性。進(jìn)一步地,可以基于目標(biāo)面部關(guān)鍵點(diǎn)數(shù)據(jù)和第二面部關(guān)鍵點(diǎn)數(shù)據(jù)進(jìn)行人臉視頻生成,得到目標(biāo)人臉視頻,由于只需要根據(jù)第一面部關(guān)鍵點(diǎn)數(shù)據(jù)對參考關(guān)鍵點(diǎn)數(shù)據(jù)進(jìn)行微調(diào),減少了人臉視頻生成的時(shí)間,有效提高生成人臉視頻的效率。