本技術(shù)屬于圖像處理,尤其涉及一種數(shù)字人生成方法和裝置。
背景技術(shù):
1、在新聞播報、影視配音或?qū)υ捇拥葓鼍跋?,需要對?shù)字人形象進行語音和口型的同步。相關(guān)技術(shù)中存在從音頻中提取語音特征結(jié)合原形象特征合成口型的方法,該方法生成的形象與原形象的身份信息差異較大,通常還需要微調(diào)訓(xùn)練提高生成形象與原形象的相似度,泛化能力較差。
技術(shù)實現(xiàn)思路
1、本技術(shù)旨在至少解決相關(guān)技術(shù)中存在的技術(shù)問題之一。為此,本技術(shù)提出一種數(shù)字人生成方法和裝置,減小了生成的形象與原形象的身份信息差異,避免了在新的參考形象上重新微調(diào)訓(xùn)練模型,提高了模型的泛化能力和通用性。
2、第一方面,本技術(shù)提供了一種數(shù)字人生成方法,該方法包括:
3、對采集得到的目標對象對應(yīng)的面部圖像進行處理,得到所述目標對象對應(yīng)的面部特征圖像和至少一張嘴部掩碼圖像;所述面部特征圖像包括所述目標對象的全部身份特征,所述嘴部掩碼圖像包括所述目標對象的部分身份特征;
4、對采集得到的所述目標對象對應(yīng)的音頻數(shù)據(jù)進行處理,得到所述目標對象對應(yīng)的口型信息;
5、對所述面部特征圖像、所述至少一張嘴部掩碼圖像和所述口型信息進行處理,得到所述目標對象對應(yīng)的數(shù)字人像。
6、根據(jù)本技術(shù)實施例提供的數(shù)字人生成方法,通過對面部圖像進行處理,得到面部特征圖像和至少一張嘴部掩碼圖像,并在潛空間內(nèi)對面部特征圖像、至少一張嘴部掩碼圖像和口型信息進行處理,即在潛空間內(nèi)完成特征編輯,使得合成的數(shù)字人像不受訓(xùn)練數(shù)據(jù)分布的影響,從而能夠較好地保留參考形象的身份信息,減小了生成的形象與原形象的身份信息差異,避免了在新的參考形象上重新微調(diào)訓(xùn)練模型,提高了模型的泛化能力和通用性。
7、本技術(shù)一個實施例的數(shù)字人生成方法,所述對所述面部特征圖像、所述至少一張嘴部掩碼圖像和所述口型信息進行處理,得到所述目標對象對應(yīng)的數(shù)字人像,包括:
8、對所述面部特征圖像所包括的所述嘴部特征和所述嘴部掩碼圖像所包括的頭部姿態(tài)特征進行處理,得到所述目標對象對應(yīng)的第一融合特征;
9、基于至少一個線性變換矩陣中目標線性變換矩陣對所述第一融合特征或所述口型信息進行處理,得到所述目標對象對應(yīng)的第二融合特征;
10、基于所述面部特征圖像、所述至少一張嘴部掩碼圖像和至少一個所述第二融合特征,得到所述數(shù)字人像。
11、本技術(shù)一個實施例的數(shù)字人生成方法,所述對所述面部特征圖像所包括的所述嘴部特征和所述嘴部掩碼圖像所包括的頭部姿態(tài)特征進行處理,得到所述目標對象對應(yīng)的第一融合特征,包括:
12、對所述頭部姿態(tài)特征進行線性變換,得到所述頭部姿態(tài)特征對應(yīng)的線性特征;
13、對所述線性特征和所述嘴部特征進行融合處理,得到所述第一融合特征。
14、本技術(shù)一個實施例的數(shù)字人生成方法,所述對所述頭部姿態(tài)特征進行線性變換,得到所述頭部姿態(tài)特征對應(yīng)的線性特征,包括:
15、基于多個正交基和各所述正交基對應(yīng)的幅值,對所述頭部姿態(tài)特征進行線性變換,得到所述線性特征;所述幅值為將所述頭部姿態(tài)特征輸入至感知網(wǎng)絡(luò)得到的。
16、本技術(shù)一個實施例的數(shù)字人生成方法,所述基于至少一個線性變換矩陣中目標線性變換矩陣對所述第一融合特征或所述口型信息進行處理,得到所述目標對象對應(yīng)的第二融合特征,包括:
17、基于所述至少一個線性變換矩陣中第一線性變換矩陣,對所述第一融合特征進行處理,得到所述第一融合特征對應(yīng)的第一特征;
18、基于所述至少一個線性變換矩陣中第二線性變換矩陣,對所述第一融合特征進行處理,得到所述第一融合特征對應(yīng)的第二特征;
19、基于所述至少一個線性變換矩陣中第三線性變換矩陣,對所述口型信息進行處理,得到所述口型信息對應(yīng)的第三特征;
20、對所述第一特征、所述第二特征和所述第三特征進行融合處理,得到所述第二融合特征。
21、本技術(shù)一個實施例的數(shù)字人生成方法,所述基于所述面部特征圖像、所述至少一張嘴部掩碼圖像和至少一個所述第二融合特征,得到所述數(shù)字人像,包括:
22、對所述面部特征圖像進行特征提取,得到所述面部特征圖像對應(yīng)的參考幀特征;對各所述嘴部掩碼圖像進行特征提取,得到各所述嘴部掩碼圖像對應(yīng)的掩碼幀特征;
23、對各所述第二融合特征進行線性變換,得到各所述第二融合特征對應(yīng)的仿射變換矩陣;
24、基于各所述仿射變換矩陣,對所述參考幀特征進行仿射變化,得到所述參考幀特征對應(yīng)的第四特征;
25、對所述第四特征和各所述掩碼幀特征分別進行拼接處理,得到所述數(shù)字人像。
26、本技術(shù)一個實施例的數(shù)字人生成方法,所述對采集得到的目標對象對應(yīng)的面部圖像進行處理,得到所述目標對象對應(yīng)的面部特征圖像和至少一張嘴部掩碼圖像,包括:
27、基于關(guān)鍵點檢測算法對所述面部圖像進行處理,獲取所述目標對象的至少一個面部關(guān)鍵點位置;
28、基于所述至少一個面部關(guān)鍵點位置,得到所述面部特征圖像和所述至少一張嘴部掩碼圖像。
29、第二方面,本技術(shù)提供了一種數(shù)字人生成裝置,該裝置包括:
30、第一處理模塊,用于對采集得到的目標對象對應(yīng)的面部圖像進行處理,得到所述目標對象對應(yīng)的面部特征圖像和至少一張嘴部掩碼圖像;所述面部特征圖像包括所述目標對象的全部身份特征,所述嘴部掩碼圖像包括所述目標對象的部分身份特征;
31、第二處理模塊,用于對采集得到的所述目標對象對應(yīng)的音頻數(shù)據(jù)進行處理,得到所述目標對象對應(yīng)的口型信息;
32、第三處理模塊,用于對所述面部特征圖像、所述嘴部掩碼圖像和所述口型信息進行處理,得到所述目標對象對應(yīng)的數(shù)字人像。
33、根據(jù)本技術(shù)實施例提供的數(shù)字人生成裝置,通過對面部圖像進行處理,得到面部特征圖像和至少一張嘴部掩碼圖像,并在潛空間內(nèi)對面部特征圖像、至少一張嘴部掩碼圖像和口型信息進行處理,即在潛空間內(nèi)完成特征編輯,使得合成的數(shù)字人像不受訓(xùn)練數(shù)據(jù)分布的影響,從而能夠較好地保留參考形象的身份信息,減小了生成的形象與原形象的身份信息差異,避免了在新的參考形象上重新微調(diào)訓(xùn)練模型,提高了模型的泛化能力和通用性。
34、第三方面,本技術(shù)提供了一種電子設(shè)備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如上述第一方面所述的數(shù)字人生成方法。
35、第四方面,本技術(shù)提供了一種非暫態(tài)計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上述第一方面所述的數(shù)字人生成方法。
36、第五方面,本技術(shù)提供了一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上述第一方面所述的數(shù)字人生成方法。
37、本技術(shù)實施例中的上述一個或多個技術(shù)方案,至少具有如下技術(shù)效果之一:
38、通過對面部圖像進行處理,得到面部特征圖像和至少一張嘴部掩碼圖像,并在潛空間內(nèi)對面部特征圖像、至少一張嘴部掩碼圖像和口型信息進行處理,即在潛空間內(nèi)完成特征編輯,使得合成的數(shù)字人像不受訓(xùn)練數(shù)據(jù)分布的影響,從而能夠較好地保留參考形象的身份信息,減小了生成的形象與原形象的身份信息差異,避免了在新的參考形象上重新微調(diào)訓(xùn)練模型,提高了模型的泛化能力和通用性。
39、本技術(shù)的附加方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本技術(shù)的實踐了解到。