本發(fā)明涉及人像視頻生成,具體涉及固定人像和貼合口播場景的優(yōu)質(zhì)人物視頻生成方法、裝置。
背景技術(shù):
1、當(dāng)前市面上常用的大模型生成任務(wù)圖像的方案,不夠真實(shí),并且感與吸引力,不總是能符合使用要求;具體的,其生成的人物形象在細(xì)節(jié)處理上可能不夠精細(xì),難以達(dá)到大眾普遍認(rèn)可的高顏值標(biāo)準(zhǔn),服裝和化妝效果也可能缺乏多樣性和真實(shí)感。同時,視頻/照片拍攝的角度與人物動作單一,大多數(shù)生成的視頻采用固定的拍攝角度,缺乏變化,且難以實(shí)現(xiàn)真實(shí)的鏡頭移動效果,如推拉、搖晃等;并且人物妝容、服飾單一,情感表現(xiàn)、動作、背景、光效單一。生成的背景的真實(shí)感與動態(tài)變化,由于摳圖換背景的方法得到的背景通常比較虛假,融合度不高。還存在版權(quán)與隱私的問題,這是因?yàn)榻?jīng)常使用網(wǎng)上公開視頻的緣故,可能存在肖像權(quán)和隱私權(quán)的風(fēng)險;改變視頻中人物表情、動作等方法生成的作品可能因相似度過高而存在原創(chuàng)性問題。最后,這種方案在實(shí)際使用時,還存在技術(shù)實(shí)現(xiàn)難度大,成本高的問題。
2、具體的,現(xiàn)有的人像視頻生成方案多采用人像+prompt的方法生成口播短視頻素材,存在效果不可靠、細(xì)節(jié)虛假、難度高,失敗率高等問題;同時,該方案對應(yīng)采用的肢體驅(qū)動方案,存在動作固定、妝容固定、服裝固定的問題。
3、有鑒于此,提出本申請。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供了一種固定人像和貼合口播場景的優(yōu)質(zhì)人物視頻生成方法、裝置,能至少部分的改善上述問題。
2、為實(shí)現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案:
3、一種固定人像和貼合口播場景的優(yōu)質(zhì)人物視頻生成方法,其包括:
4、獲取用戶提供的個人照片,調(diào)用預(yù)設(shè)的真人人像生成模型對所述個人照片進(jìn)行預(yù)處理,生成多樣化人像;
5、構(gòu)建prompt模板庫,調(diào)用視頻生成模型根據(jù)所述多樣化人像從所述prompt模板庫中選擇相應(yīng)的prompt模板,生成人像視頻,并對生成的人像視頻進(jìn)行自動化篩選處理,得到素材庫;
6、收集用戶反饋,根據(jù)所述用戶反饋對所述prompt模板庫進(jìn)行優(yōu)化。
7、本發(fā)明還提供了一種固定人像和貼合口播場景的優(yōu)質(zhì)人物視頻生成裝置,其包括:
8、人像素材生成單元,用于獲取用戶提供的個人照片,調(diào)用預(yù)設(shè)的真人人像生成模型對所述個人照片進(jìn)行預(yù)處理,生成多樣化人像;
9、人像視頻生成單元,用于構(gòu)建prompt模板庫,調(diào)用視頻生成模型根據(jù)所述多樣化人像從所述prompt模板庫中選擇相應(yīng)的prompt模板,生成人像視頻,并對生成的人像視頻進(jìn)行自動化篩選處理,得到素材庫;
10、反饋單元,用于收集用戶反饋,根據(jù)所述用戶反饋對所述prompt模板庫進(jìn)行優(yōu)化。
11、綜上,所述固定人像和貼合口播場景的優(yōu)質(zhì)人物視頻生成方法可與業(yè)務(wù)結(jié)合,批量生成符合業(yè)務(wù)要求的視頻;并且該方法結(jié)合大模型的創(chuàng)新能力,提升了人物視頻多樣性,避免了視頻素材重復(fù)使用被一些平臺判斷為高度重復(fù)素材的風(fēng)險;同時,還降低了全流程手動拍攝、制作的時間成本和經(jīng)濟(jì)成本。
1.一種固定人像和貼合口播場景的優(yōu)質(zhì)人物視頻生成方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的固定人像和貼合口播場景的優(yōu)質(zhì)人物視頻生成方法,其特征在于,調(diào)用預(yù)設(shè)的真人人像生成模型對所述個人照片進(jìn)行預(yù)處理,生成多樣化人像,具體為:
3.根據(jù)權(quán)利要求2所述的固定人像和貼合口播場景的優(yōu)質(zhì)人物視頻生成方法,其特征在于,采用多模態(tài)模型對添加變量后的prompt進(jìn)行篩選處理,篩選出成功率最高的prompt,具體為:
4.根據(jù)權(quán)利要求3所述的固定人像和貼合口播場景的優(yōu)質(zhì)人物視頻生成方法,其特征在于,調(diào)用多模態(tài)模型根據(jù)所述高質(zhì)量人像要求進(jìn)行判斷,判斷當(dāng)前的人像圖片是否符合所述高質(zhì)量人像要求,具體為:
5.根據(jù)權(quán)利要求1所述的固定人像和貼合口播場景的優(yōu)質(zhì)人物視頻生成方法,其特征在于,構(gòu)建prompt模板庫,具體為:
6.根據(jù)權(quán)利要求5所述的固定人像和貼合口播場景的優(yōu)質(zhì)人物視頻生成方法,其特征在于,調(diào)用llm模型根據(jù)所述視頻描述總結(jié),批量生成特點(diǎn)差異化的prompt,具體為:
7.根據(jù)權(quán)利要求1所述的固定人像和貼合口播場景的優(yōu)質(zhì)人物視頻生成方法,其特征在于,調(diào)用視頻生成模型根據(jù)所述多樣化人像從所述prompt模板庫中選擇相應(yīng)的prompt模板,生成人像視頻,具體為:
8.根據(jù)權(quán)利要求1所述的固定人像和貼合口播場景的優(yōu)質(zhì)人物視頻生成方法,其特征在于,對生成的人像視頻進(jìn)行自動化篩選處理,得到素材庫,具體為:
9.根據(jù)權(quán)利要求1所述的固定人像和貼合口播場景的優(yōu)質(zhì)人物視頻生成方法,其特征在于,收集用戶反饋,根據(jù)所述用戶反饋對所述prompt模板庫進(jìn)行優(yōu)化,具體為:
10.一種固定人像和貼合口播場景的優(yōu)質(zhì)人物視頻生成裝置,其特征在于,包括: