本發(fā)明屬于機(jī)器學(xué)習(xí)領(lǐng)域,尤其涉及一種基于文字特征提取的戰(zhàn)斗動(dòng)作骨骼動(dòng)畫生成方法及系統(tǒng)。
背景技術(shù):
1、骨骼動(dòng)畫通過將角色的骨骼和皮膚分開處理,使得角色在游戲中能夠流暢地進(jìn)行復(fù)雜的動(dòng)作,極大提升了游戲的視覺效果和互動(dòng)性。近年來,基于生成式模型的骨骼動(dòng)畫生成技術(shù)取得了顯著進(jìn)展。傳統(tǒng)的骨骼動(dòng)畫制作通常依賴于動(dòng)作捕捉或者人工標(biāo)注和動(dòng)畫師手工調(diào)整,但生成式模型通過深度學(xué)習(xí)和數(shù)據(jù)驅(qū)動(dòng)的方法,能夠自動(dòng)生成高質(zhì)量的動(dòng)畫。
2、變分自編碼器(variational?auto-encoder,vae)和擴(kuò)散模型(diffusionmodels)是生成骨骼動(dòng)畫的兩種重要生成式模型,各具特色。vae通過將骨骼動(dòng)畫數(shù)據(jù)映射到一個(gè)低維潛在空間,學(xué)習(xí)到動(dòng)作的主要特征。在生成過程中,vae的編碼器將輸入動(dòng)畫轉(zhuǎn)化為潛在變量的分布,解碼器則從這些潛在變量中重構(gòu)動(dòng)畫序列。訓(xùn)練時(shí),vae最小化重構(gòu)誤差,以優(yōu)化生成效果。這種方法在生成平滑過渡和變化多樣的動(dòng)畫時(shí)表現(xiàn)良好,但在處理復(fù)雜、高頻動(dòng)態(tài)時(shí)可能存在挑戰(zhàn)。相對而言,擴(kuò)散模型則通過逐步添加噪聲到骨骼動(dòng)畫數(shù)據(jù)中,再通過反向去噪過程生成動(dòng)畫序列。在訓(xùn)練過程中,擴(kuò)散模型通過對真實(shí)和加噪聲的動(dòng)畫序列進(jìn)行比較,學(xué)習(xí)如何有效去除噪聲,從而生成高質(zhì)量的骨骼動(dòng)畫。盡管擴(kuò)散模型能夠捕捉到細(xì)致復(fù)雜的動(dòng)態(tài)特征,并生成高度真實(shí)感的動(dòng)畫,其計(jì)算成本較高,生成過程也較為復(fù)雜??偟膩砜?,vae適合于生成平滑的動(dòng)作序列,而擴(kuò)散模型則在高細(xì)節(jié)和復(fù)雜動(dòng)態(tài)生成方面表現(xiàn)突出。
3、基于文字輸入的骨骼動(dòng)畫生成在操作上較為簡便,使用者可以通過自然語言描述自己的需求,生成符合預(yù)期的骨骼動(dòng)畫序列,對于降低游戲行業(yè)影視行業(yè)的動(dòng)畫制作成本,提高工作效率具有重要意義??v觀骨骼動(dòng)畫生成工作的整體水平,還存在幾個(gè)較為突出的問題:如現(xiàn)有的骨骼動(dòng)畫生成模型的效果不及預(yù)期,常常出現(xiàn)生成的動(dòng)畫序列和使用者想法不一致的情況,較難滿足使用者的工作需要;再如,現(xiàn)有的骨骼動(dòng)畫生成模型大多生成人們的日常動(dòng)作,如行走,跑跳等。對于需求骨骼動(dòng)畫多樣性最強(qiáng)的動(dòng)作類游戲,生成的戰(zhàn)斗動(dòng)作的多樣性往往難以滿足使用者的需要。再如,現(xiàn)有的骨骼動(dòng)畫生成模型對骨骼動(dòng)畫種類區(qū)分不夠細(xì)致,對于使用者較為精細(xì)的文字描述往往難以較好地響應(yīng),對于未在數(shù)據(jù)集中出現(xiàn)過的輸入也常常表現(xiàn)不佳。
4、因此,為了應(yīng)對生成式模型的生成結(jié)果與輸入文字匹配程度不足,生成的動(dòng)作更為貼近日常動(dòng)作而非戰(zhàn)斗動(dòng)作等問題,需要一種優(yōu)化文字輸入和優(yōu)化生成式模型輸出結(jié)果的方法,提高生成結(jié)果與輸入文字的匹配度,增強(qiáng)模型應(yīng)對未見過的文字描述的能力。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于針對現(xiàn)有技術(shù)存在的問題和不足,提出了一種基于文字特征提取的戰(zhàn)斗骨骼動(dòng)畫生成方法及系統(tǒng)。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種基于文字特征提取的戰(zhàn)斗動(dòng)作骨骼動(dòng)畫生成方法,該方法包含以下步驟:
3、s1:構(gòu)建多維度精細(xì)描述骨骼動(dòng)畫特征的文字?jǐn)?shù)據(jù)集;
4、s2:接收文字輸入并經(jīng)由模型推理生成戰(zhàn)斗骨骼動(dòng)畫;
5、s3:將生成的骨骼動(dòng)畫與原始的文字描述進(jìn)行對齊,并輸出反饋結(jié)果;
6、s4:根據(jù)反饋結(jié)果迭代優(yōu)化生成結(jié)果;根據(jù)對齊模型的反饋,分析生成動(dòng)畫中的問題和不足;通過比較生成動(dòng)畫與各類別描述的相似性,確定與生成動(dòng)畫最匹配的類別,進(jìn)而優(yōu)化原始的文字輸入,以使其更精確地反映所需的動(dòng)作特征和細(xì)節(jié);
7、s5:對于符合標(biāo)準(zhǔn)的生成結(jié)果,輸出相應(yīng)的戰(zhàn)斗動(dòng)作骨骼動(dòng)畫作為輸出結(jié)果。
8、進(jìn)一步地,所述步驟s2中,根據(jù)文字描述首次生成骨骼動(dòng)畫的公式表示如下:
9、
10、其中表示對于類別y的第k個(gè)描述,表示骨骼動(dòng)畫生成式模型基于描述生成的相應(yīng)骨骼動(dòng)畫,animation-gen表示生成式模型通過處理對應(yīng)的描述生成骨骼動(dòng)畫的推理過程。
11、進(jìn)一步地,所述步驟s3中生成的骨骼動(dòng)畫與文字對齊的公式表示如下:
12、
13、其中,pasess表示生成的骨骼動(dòng)畫與每個(gè)類別的文字描述的對齊程度的概率分布,t表示矩陣運(yùn)算中的轉(zhuǎn)置運(yùn)算符,motionclipanim表示骨骼動(dòng)畫-文本對其模型的骨骼動(dòng)畫編碼器,motioncliptext表示文本編碼器,d表示描述該類別骨骼動(dòng)畫的所有描述文本的集合,表示骨骼動(dòng)畫生成式模型基于描述生成的相應(yīng)骨骼動(dòng)畫,k表示第k個(gè)描述。
14、進(jìn)一步地,所述步驟s4中,比較生成動(dòng)畫與各類別描述的相似性時(shí),使用特征對齊和相似性度量方法來評估生成動(dòng)畫與類別描述的契合度。
15、進(jìn)一步地,所述步驟s4中對于初步生成的骨骼動(dòng)畫,其與相對應(yīng)的文字類別的對齊公式表示如下:
16、
17、其中pmotionclip表示由motionclip模型導(dǎo)出的概率,該公式表示對于輸出的骨骼動(dòng)畫itest,經(jīng)由motionclip模型的動(dòng)畫編碼模塊和所有預(yù)存儲的文字類別特征進(jìn)行匹配對齊,公式表示的是對于其中一條特征的匹配概率計(jì)算過程。
18、進(jìn)一步地,所述步驟s5中,符合標(biāo)準(zhǔn)的生成結(jié)果具體為:生成的動(dòng)畫符合文字描述的要求、滿足動(dòng)畫質(zhì)量標(biāo)準(zhǔn),包括流暢度、真實(shí)感和動(dòng)作的準(zhǔn)確性。
19、為實(shí)現(xiàn)上述目的,本發(fā)明還提供了一種基于文字特征提取的戰(zhàn)斗動(dòng)作骨骼動(dòng)畫生成系統(tǒng),該系統(tǒng)包含以下模塊:
20、文字描述數(shù)據(jù)集構(gòu)建模塊:用于收集和整理包含文本描述及其對應(yīng)骨骼動(dòng)畫的數(shù)據(jù)對,對數(shù)據(jù)進(jìn)行標(biāo)注,確保文本描述與動(dòng)畫之間有準(zhǔn)確的對應(yīng)關(guān)系;
21、文字特征提取模塊:用于從文本描述中提取有用的信息,包括詞嵌入、詞性標(biāo)注、句法結(jié)構(gòu);將提取到的信息轉(zhuǎn)化為模型能夠處理和理解的數(shù)據(jù)信息;
22、骨骼動(dòng)畫特征提取模塊:用于從骨骼動(dòng)畫中提取關(guān)鍵的運(yùn)動(dòng)特征,包括關(guān)鍵幀、關(guān)節(jié)位置、速度和加速度;將提取到的特征轉(zhuǎn)換為模型能夠處理和理解的數(shù)據(jù)信息,以便與文本特征進(jìn)行匹配;
23、骨骼動(dòng)畫-文字特征匹配模塊:用于負(fù)責(zé)將提取的文本特征與骨骼動(dòng)畫特征進(jìn)行對應(yīng)和匹配,學(xué)習(xí)文本描述到骨骼動(dòng)畫的映射關(guān)系;
24、匹配結(jié)果反饋優(yōu)化模塊:用于根據(jù)匹配結(jié)果,評估生成的動(dòng)畫與文本描述的一致性;對于和文本描述偏差過大的生成結(jié)果,判別動(dòng)畫所屬類別,并根據(jù)反饋信息給出優(yōu)化文本描述的相關(guān)信息和方向,繼而傳出優(yōu)化后的文本描述,用于生成結(jié)果的迭代;
25、動(dòng)畫處理及輸出模塊:用于接收生成的骨骼動(dòng)畫數(shù)據(jù),并進(jìn)行后處理,包括平滑運(yùn)動(dòng)、調(diào)整時(shí)間序列;將處理后的動(dòng)畫轉(zhuǎn)換為可使用的格式,包括視頻文件或預(yù)存儲的骨骼運(yùn)動(dòng)數(shù)據(jù)。
26、本發(fā)明的有益效果如下:
27、1、本發(fā)明通過引入基于文字特征提取的戰(zhàn)斗骨骼動(dòng)畫生成方法,提高了生成的骨骼動(dòng)畫與輸入的文字的匹配度,提高了生成的骨骼動(dòng)畫與使用者預(yù)期的符合程度。
28、2、本發(fā)明在通過分析生成動(dòng)畫與骨骼動(dòng)畫類別描述的匹配程度,能夠精確識別生成動(dòng)畫中的不足之處,從而找到與目標(biāo)動(dòng)作最契合的描述。優(yōu)化文字輸入可以提高對生成模型的指導(dǎo)精度,確保生成的動(dòng)畫更貼合預(yù)期動(dòng)作特征。這種方法避免了重新訓(xùn)練模型的高成本和復(fù)雜性,通過調(diào)整輸入文本的方式改進(jìn)結(jié)果,使得生成的動(dòng)畫質(zhì)量和準(zhǔn)確性得到顯著提升。此外,通過反復(fù)優(yōu)化和調(diào)整文字輸入,還可以逐步細(xì)化生成動(dòng)畫的細(xì)節(jié)和表現(xiàn),增強(qiáng)動(dòng)畫的自然性和流暢性,最終實(shí)現(xiàn)更優(yōu)秀的生成效果。