本發(fā)明涉及表情編輯,特別是一種基于深度學(xué)習(xí)的表情編輯模型的訓(xùn)練方法。
背景技術(shù):
::1、在當(dāng)今社會,攝影不僅僅是一種藝術(shù)形式,更是一種記錄和分享個人生活瞬間的普遍手段,隨著智能手機和相機技術(shù)的飛速發(fā)展,人們隨時隨地都可以捕捉生活中的美好瞬間,人物的表情尤為關(guān)鍵,因為它能夠傳達(dá)照片背后的情感和故事,但是,由于光線不足、表情僵硬或瞬間的不自然,拍攝出的照片可能并不總能反映出我們想要的情感,這時,表情編輯技術(shù)就顯得尤為重要,傳統(tǒng)的表情編輯依賴于修圖軟件,如adobe?photoshop等,它們允許用戶手動調(diào)整照片中的表情,用戶可以微調(diào)眉毛的彎曲度、嘴唇的弧度,甚至改變眼睛的明亮度,但這種方法存在明顯的局限性:它不僅耗時,而且需要用戶具備一定的圖像編輯技能,對于非專業(yè)人士來說,這可能是一項挑戰(zhàn)。2、隨著人工智能和深度學(xué)習(xí)技術(shù)的興起,表情編輯領(lǐng)域迎來了革命性的變化,基于深度學(xué)習(xí)的方法能夠自動識別人臉特征,并進(jìn)行更為精細(xì)和自動化的表情調(diào)整,現(xiàn)有的大部分方法是采用基于生成對抗網(wǎng)絡(luò)(gan)的兩階段方法進(jìn)行表情編輯,然而由于gan的表達(dá)能力有限,容易造成人臉的部分模糊。技術(shù)實現(xiàn)思路1、鑒于上述現(xiàn)有存在的問題,提出了本發(fā)明。2、因此,本發(fā)明提供了一種基于深度學(xué)習(xí)的表情編輯模型的訓(xùn)練方法解決現(xiàn)有表情編輯模型編輯過程復(fù)雜、表情生成不自然、難以保持身份特征、表情多樣性不足、生成質(zhì)量不穩(wěn)定以及操作效率低的問題。3、為解決上述技術(shù)問題,本發(fā)明提供如下技術(shù)方案:4、第一方面,本發(fā)明提供了一種基于深度學(xué)習(xí)的表情編輯模型,其包括,5、圖像處理模塊,負(fù)責(zé)對人臉視頻進(jìn)行預(yù)處理以及關(guān)鍵點提取,并生成五官二值掩碼;6、表情圖生成模塊,包括外觀參考網(wǎng)絡(luò)、姿態(tài)參考網(wǎng)絡(luò)、表情生成網(wǎng)絡(luò),在訓(xùn)練時,源圖片和目標(biāo)表情圖片為同一人的照片,在推理階段不需要為同一人的照片;7、外觀參考網(wǎng)絡(luò),基于隱空間擴散模型stablediffusion訓(xùn)練得到,用于保持人臉的細(xì)節(jié);stablediffusion是經(jīng)典的隱空間擴散模型(ldm,latentdiffusionmodel),ldm采用變分自編碼器vae,給定輸入圖片,先經(jīng)過編碼器將圖片映射到隱空間,使得擴散在隱空間中進(jìn)行,在擴散的前向過程中,通過t次迭代將高斯噪聲逐步添加到隱變量上,反向擴散過程是前向過程的逆過程,為了從噪聲逐步恢復(fù)到初始的隱變量,最后再經(jīng)過解碼器還原到rgb空間,得到最終圖片;8、姿勢參考網(wǎng)絡(luò),姿勢參考網(wǎng)絡(luò)為卷積網(wǎng)絡(luò),用于提取人臉表情的姿態(tài),參考類似controlnet的設(shè)計,將得到不同尺度的姿勢參考編碼,以對應(yīng)表情圖片生成擴散模型中不同模塊的輸入尺度,同時將源圖片和目標(biāo)表情圖片的姿態(tài)圖片輸入,姿勢參考網(wǎng)絡(luò)促進(jìn)了源圖片和目標(biāo)表情圖片之間的交互,這個過程為網(wǎng)絡(luò)提供了額外的線索來理解面部關(guān)鍵點和外觀之間的相關(guān)性,從而幫助生成具有更精確表情的圖片;9、表情生成網(wǎng)絡(luò),該網(wǎng)絡(luò)采用預(yù)訓(xùn)練的stablediffusion模型訓(xùn)練得到,用于生成對應(yīng)的目標(biāo)表情圖片;10、交叉注意力模塊,采用跨網(wǎng)絡(luò)融合將來自表情生成網(wǎng)絡(luò)和外觀參考網(wǎng)絡(luò)的特征結(jié)合起來;在每一層或塊處理完后,生成的圖像既保留源圖像的全局特征(如色彩、面部結(jié)構(gòu)等),又能實現(xiàn)目標(biāo)表情的變化,模型可以在生成表情的同時不破壞面部細(xì)節(jié);11、自注意力模塊,基于圖像的局部和全局特征,自動調(diào)整關(guān)注重點,模型會自動識別圖像中的關(guān)鍵部分(如眼睛、嘴巴等面部關(guān)鍵區(qū)域),并在表情生成過程中給予這些區(qū)域更多關(guān)注,從而提升表情生成的自然度和細(xì)節(jié)保留度。12、進(jìn)一步的,還包括:表情對齊模塊,在表情編輯過程中,使源圖片和目標(biāo)表情圖片的五官位置和面部姿態(tài)保持一致,使生成的目標(biāo)表情自然且與源圖片高度匹配。13、第二方面,本發(fā)明提供了一種基于深度學(xué)習(xí)的表情編輯模型的訓(xùn)練方法,包括,14、步驟s1,人臉視頻預(yù)處理,以人臉為中心裁剪得到512×512的人臉視頻;15、步驟s2,關(guān)鍵點提取,使用mediapipe對人臉視頻的每一幀的人臉圖片的五官區(qū)域進(jìn)行478維3d人臉關(guān)鍵點提取,繪制包括眉毛、眼睛外輪廓、瞳孔和嘴唇在內(nèi)的人臉五官的內(nèi)外輪廓,指導(dǎo)新表情的生成,提取人臉五官的內(nèi)外輪廓的位置,根據(jù)提取得到的內(nèi)外輪廓位置,生成五官區(qū)域的二值掩碼,對五官區(qū)域進(jìn)行擴張,調(diào)整大小到隱空間所需大小,得到擴張后的五官二值掩碼im,在訓(xùn)練時計算五官損失函數(shù)時用到;16、步驟s3,從同一個人的視頻中隨機選取兩張圖片,一張作為源圖片isource,另一張作為目標(biāo)表情圖片itarge;17、步驟s4,將源圖片isource輸入到外觀參考網(wǎng)絡(luò)和clip圖像編碼器中,clip圖像編碼器保留人物整體的色彩和結(jié)構(gòu),而外觀參考網(wǎng)絡(luò)可以保留人臉的細(xì)節(jié);18、步驟s5,設(shè)源圖片isource和目標(biāo)表情圖片itarge的姿勢圖分別為和將姿勢圖輸入到姿勢參考網(wǎng)絡(luò)中,得到姿態(tài)編碼zp作為表情姿態(tài)控制;19、步驟s6,將姿態(tài)編碼zp加在隨機生成的隱噪聲上,輸入到表情生成網(wǎng)絡(luò);20、步驟s7,外觀參考網(wǎng)絡(luò)和clip圖像編碼器提取到的外觀細(xì)節(jié)通過交叉注意力模塊,輸入到表情生成網(wǎng)絡(luò),經(jīng)循環(huán)去噪得到目標(biāo)表情圖片。21、進(jìn)一步地,在外觀參考網(wǎng)絡(luò)中,訓(xùn)練步驟包括:22、將源圖片isource輸入到預(yù)訓(xùn)練的clip圖像編碼器εc中,表示為:zc=εc(isource),zc表示通過預(yù)訓(xùn)練的clip圖像編碼器εc對源圖片isource進(jìn)行編碼后所得到的編碼向量,將zc通過交叉注意力模塊輸入到表情生成網(wǎng)絡(luò)中;23、將源圖片isource輸入到預(yù)訓(xùn)練的vae編碼器ε中,變成隱空間編碼z=ε(isource),將z輸入到外觀參考網(wǎng)絡(luò)τref中提取人臉細(xì)節(jié)特征,將提取到的人臉細(xì)節(jié)特征通過交叉注意力模塊輸入到表情生成網(wǎng)絡(luò)中。24、進(jìn)一步地,在外觀參考網(wǎng)絡(luò)中,訓(xùn)練步驟還包括:25、進(jìn)行特征融合,將表情生成網(wǎng)絡(luò)∈θ和外觀參考網(wǎng)絡(luò)τref中每個注意力模塊的鍵(key)和值(value)合并起來,角標(biāo)θ,ref分別代表表情生成網(wǎng)絡(luò)和外觀參考網(wǎng)絡(luò),注意力融合形式為:其中,qθ表示表情生成網(wǎng)絡(luò)的查詢向量,kθ表示表情生成網(wǎng)絡(luò)的鍵向量,即輸入特征的編碼,kref表示外觀參考網(wǎng)絡(luò)的鍵向量,對應(yīng)于外觀參考網(wǎng)絡(luò)中的特征,vθ表示表情生成網(wǎng)絡(luò)的值向量,即網(wǎng)絡(luò)中提取到的特征值,vref表示外觀參考網(wǎng)絡(luò)的值向量,即從外觀參考網(wǎng)絡(luò)中提取到的特征值,dk表示鍵向量的維度,用于對點積結(jié)果進(jìn)行歸一化,cat(kθ,kref)和cat(vθ,vref)中,cat表示拼接操作,cat(kθ,kref)將表情生成網(wǎng)絡(luò)和外觀參考網(wǎng)絡(luò)的鍵向量拼接在一起,cat(vθ,vref)是值向量的拼接,t表示轉(zhuǎn)置操作,softmax函數(shù)將點積的結(jié)果轉(zhuǎn)換為概率分布;從而有效地將表情生成網(wǎng)絡(luò)的特征與外觀參考網(wǎng)絡(luò)的特征結(jié)合,使生成圖像既能改變表情,又保持面部的細(xì)節(jié)和一致性。26、進(jìn)一步的,在姿態(tài)參考網(wǎng)絡(luò),訓(xùn)練步驟包括:27、將源圖片的姿態(tài)圖和目標(biāo)表情圖片的姿態(tài)圖輸入到姿勢參考網(wǎng)絡(luò)τp中;28、姿勢參考網(wǎng)絡(luò)τp獲得的姿勢編碼直接加在隨機生成的4通道隱空間高斯噪聲上,一起輸入到表情生成網(wǎng)絡(luò)中。29、進(jìn)一步的,在表情生成網(wǎng)絡(luò),訓(xùn)練步驟包括:30、生成隱空間隨機高斯噪聲加上姿勢參考網(wǎng)絡(luò)提取到的姿勢編碼zp,得到∈p,∈p表示通過隨機生成的高斯噪聲和姿態(tài)參考網(wǎng)絡(luò)生成的姿態(tài)編碼zp組合得到的隱空間輸入;31、將∈p輸入到表情生成網(wǎng)絡(luò)中,先經(jīng)過自注意力模塊,然后經(jīng)過交叉注意力模塊,將clip提取到的人臉外觀特征與表情生成網(wǎng)絡(luò)的特征進(jìn)行特征融合,同時將外觀參考網(wǎng)絡(luò)提取到的特征與表情生成網(wǎng)絡(luò)的特征進(jìn)行融合,將表情生成網(wǎng)絡(luò)∈θ和外觀參考網(wǎng)絡(luò)τref每個注意力模塊的鍵(key)和值(value)合并起來,表情生成網(wǎng)絡(luò)輸出的特征編碼,最后經(jīng)過vae解碼器,得到目標(biāo)表情圖。32、進(jìn)一步的,在表情生成網(wǎng)絡(luò),訓(xùn)練步驟還包括:33、采用最小化損失函數(shù),使用adam優(yōu)化器進(jìn)行優(yōu)化迭代,擴散模型的loss函數(shù)為:34、其中,τp,τref,∈θ分別為姿勢參考網(wǎng)絡(luò)、外觀參考網(wǎng)絡(luò)和表情生成網(wǎng)絡(luò),為模型的可訓(xùn)練部分,εc為預(yù)訓(xùn)練的clip圖像編碼器,不參與訓(xùn)練,表示期望值運算符,為擴散損失函數(shù);35、損失函數(shù)為真實目標(biāo)表情圖片itgt和生成的表情圖片igen之間的感知損失,fvgg為預(yù)訓(xùn)練的vgg19網(wǎng)絡(luò),l為vgg19網(wǎng)絡(luò)的第l層輸出,損失函數(shù)表示為:36、引入五官損失函數(shù),使用圖像處理模塊得到的五官二值掩碼im,五官損失函數(shù)為:37、其中為表情生成網(wǎng)絡(luò)∈θ預(yù)測的隱空間編碼,z為目標(biāo)表情圖片的隱空間編碼;38、總的損失函數(shù)形式為:39、第三方面,本發(fā)明提供了一種基于深度學(xué)習(xí)的表情編輯模型的推理方法,包括,40、表情編輯模型的推理過程模型結(jié)構(gòu)與訓(xùn)練過程的模型結(jié)構(gòu)類似,加入了一個表情對齊模塊;41、對目標(biāo)表情的推理過程為:42、用戶輸入源圖片;43、源圖片、目標(biāo)表情圖片經(jīng)過圖像處理模塊,提取得到源圖片的姿態(tài)圖、目標(biāo)表情圖片的姿態(tài)圖;44、源圖片的姿態(tài)圖、目標(biāo)表情圖片的姿態(tài)圖經(jīng)過表情對齊模塊,得到源圖片的姿態(tài)圖和對齊后的目標(biāo)表情姿態(tài)圖,使用mediapipe提取出源圖片的姿態(tài)圖、目標(biāo)表情圖片的姿態(tài)圖的3d人臉關(guān)鍵點,投影關(guān)鍵點到2維平面,得到對應(yīng)圖片位置的人臉關(guān)鍵點;45、使用投影到2維平面的人臉關(guān)鍵點和3d人臉關(guān)鍵點之間的相對關(guān)系,得到瞳孔的3d關(guān)鍵點;46、計算人臉上五官投影到2維平面的人臉關(guān)鍵點和3d人臉關(guān)鍵點之間的相對關(guān)系,以及應(yīng)用mediapipe中相對規(guī)范空間的轉(zhuǎn)化矩陣和相機矩陣,得到從3維空間將目標(biāo)表情投影到源圖片2維平面后的目標(biāo)表情姿態(tài)圖,即對齊后的目標(biāo)表情姿態(tài)圖。47、進(jìn)一步地,將源圖片輸入到外觀參考網(wǎng)絡(luò)和clip圖像編碼器中;48、將源圖片的姿態(tài)圖和對齊后的目標(biāo)表情姿態(tài)圖,輸入到姿勢參考網(wǎng)絡(luò)中,得到姿態(tài)編碼作為表情姿態(tài)控制;49、將姿態(tài)編碼,加在隨機生成的隱噪聲上輸入到表情生成網(wǎng)絡(luò),外觀參考網(wǎng)絡(luò)和clip圖像編碼器提取到的外觀細(xì)節(jié)通過交叉注意力模塊,輸入到表情生成網(wǎng)絡(luò),經(jīng)過循環(huán)去噪,得到目標(biāo)表情圖片。50、本發(fā)明有益效果為:51、本發(fā)明,使用擴散模型在隱空間中進(jìn)行表情的逐步生成和去噪,使得生成的表情圖像具有更高的細(xì)節(jié)保留能力,結(jié)合外觀參考網(wǎng)絡(luò)和clip圖像編碼器,使模型可以在生成表情變化的同時,保留人物面部細(xì)節(jié)和整體結(jié)構(gòu),與傳統(tǒng)gan相比顯著減少了人臉細(xì)節(jié)模糊和表情變形的現(xiàn)象,生成結(jié)果更為真實自然。52、本發(fā)明,引入姿勢參考網(wǎng)絡(luò),為表情生成提供精確的姿態(tài)控制,使得用戶能夠更加靈活地指定具體的表情目標(biāo)。53、本發(fā)明,引入了外觀參考網(wǎng)絡(luò),該網(wǎng)絡(luò)結(jié)合了stable?diffusion模型的擴散機制,能夠在編輯過程中保持輸入圖片中的身份信息,傳統(tǒng)方法在表情變化過程中,往往會使人臉特征(如臉型、五官比例等)發(fā)生偏移,導(dǎo)致生成的圖像失去原有的身份特征,通過外觀參考網(wǎng)絡(luò)提取的人臉細(xì)節(jié),生成的表情不僅符合預(yù)期表情變化,還保留了原始人物的面部特征。54、本發(fā)明,旨在提供一種方便快速的表情編輯方法,用戶只需上傳源圖片,即包含需要編輯表情的人物照片,同時提供目標(biāo)表情圖片或從預(yù)設(shè)的表情模板中進(jìn)行選擇,本發(fā)明的效率和便捷性顯著提高了編輯速度,減少了人力成本,使得用戶即使沒有專業(yè)圖像編輯技能,也能通過簡單的操作快速得到滿意的編輯結(jié)果,本發(fā)明不僅適用于個人社交媒體的照片編輯,提高分享照片的吸引力,同樣適用于專業(yè)攝影、廣告制作等領(lǐng)域,為專業(yè)用戶提供高質(zhì)量的表情編輯服務(wù)。當(dāng)前第1頁12當(dāng)前第1頁12