本發(fā)明涉及深度學(xué)習(xí)和運動姿態(tài)生成的,尤其是基于跨模態(tài)語義關(guān)聯(lián)學(xué)習(xí)的運動姿態(tài)生成方法。
背景技術(shù):
1、隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)已經(jīng)在圖像處理、視頻分析等領(lǐng)域顯示出了巨大的潛力。特別是在運動分析、虛擬現(xiàn)實、健康體育等領(lǐng)域,人體姿態(tài)建模技術(shù)在人們生產(chǎn)生活中的應(yīng)用越來越廣泛。因此,運動姿態(tài)生成技術(shù)作為人體姿態(tài)建模一種,正在視覺語言領(lǐng)域嶄露頭角,并成為一項重要而具有挑戰(zhàn)性的任務(wù)。早期的研究采用基于動畫合成技術(shù)的方法和統(tǒng)計機(jī)器翻譯方法,這兩種方法需要在預(yù)先捕捉的動作數(shù)據(jù)庫中進(jìn)行基于規(guī)則的短語查找,姿勢預(yù)獲取成本昂貴。最近,受深度神經(jīng)網(wǎng)絡(luò)在人體運動姿態(tài)視頻生成任務(wù)中的卓越表現(xiàn)的影響,出現(xiàn)了基于rnn的模型、生成對抗網(wǎng)絡(luò)(gan)和變分自動編碼器(vae)方法。如今,一種新的常見方法是采用transformer框架來解碼姿態(tài)序列。
2、然而,現(xiàn)有的方法忽略了運動姿態(tài)生成中缺乏強(qiáng)監(jiān)督的跨模態(tài)對齊標(biāo)簽,多模態(tài)數(shù)據(jù)之間存在巨大的語義鴻溝。此外,運動姿態(tài)生成需要從弱文本語義生成復(fù)雜的視覺語義,保持語言與視覺的單調(diào)一致性尤為重要。如今,在跨模態(tài)檢索、視覺問題解答、多模態(tài)情感分析等許多下游任務(wù)中,研究人員通常會通過跨模態(tài)語義之間的對齊和對比,有效整合來自不同模態(tài)(如文本、圖像、音頻、視頻等)的信息,使系統(tǒng)能夠更全面地理解和處理豐富的多模態(tài)數(shù)據(jù)。因此,在運動姿態(tài)生成中限制語言和視覺線索的一致性是一種有效的做法?;谏鲜隹紤],我們研究了運動姿態(tài)生成中文本序列和運動姿態(tài)序列語義的細(xì)粒度對齊和粗粒度對齊,并探索了運動姿態(tài)生成過程中文本模態(tài)和視覺模態(tài)單調(diào)對齊的作用。
技術(shù)實現(xiàn)思路
1、為了克服上述現(xiàn)有技術(shù)中的缺陷,本發(fā)明提供基于跨模態(tài)語義關(guān)聯(lián)學(xué)習(xí)的運動姿態(tài)生成方法,提高運動姿態(tài)視頻生成的準(zhǔn)確性和連貫性。
2、為實現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案,包括:
3、基于跨模態(tài)語義關(guān)聯(lián)學(xué)習(xí)的運動姿態(tài)生成方法,基于跨模態(tài)語義關(guān)聯(lián)學(xué)習(xí)對運動姿態(tài)生成模型進(jìn)行訓(xùn)練,訓(xùn)練方式具體如下所示:
4、s1,對文本中各個單詞提取詞特征,并整合成文本序列;將文本序列送入文本編碼器中進(jìn)行編碼,得到包含全局語義的文本特征序列;
5、s2,對文本所對應(yīng)的運動姿態(tài)視頻進(jìn)行姿態(tài)劃分,得到各個姿態(tài)坐標(biāo),并提取各個姿態(tài)的姿態(tài)特征,整合成姿態(tài)特征序列;
6、s3,將文本特征序列和姿態(tài)特征序列送入姿態(tài)解碼器中進(jìn)行解碼,得到解碼后的姿態(tài)特征序列;將解碼后的姿態(tài)特征序列映射為解碼后的姿態(tài)坐標(biāo)序列;
7、s4,計算每個文本特征序列與解碼后的姿態(tài)特征序列之間的余弦相似度,得到文本-姿態(tài)相似度和姿態(tài)-文本相似度;
8、s5,對于一個批次的樣本數(shù)據(jù),計算每個樣本的文本特征序列與解碼后的姿態(tài)特征序列之間的距離,從而構(gòu)建距離矩陣;
9、s6,根據(jù)步驟s3得到的解碼后的姿態(tài)坐標(biāo)序列與真實姿態(tài)坐標(biāo)序列,計算姿態(tài)損失;根據(jù)步驟s4得到的文本-姿態(tài)相似度和姿態(tài)-文本相似度,計算跨模態(tài)語義對齊損失;根據(jù)步驟s5得到的距離矩陣,計算多模態(tài)語義對比損失;根據(jù)姿態(tài)損失、跨模態(tài)語義對齊損失和多模態(tài)語義對比損失,得到目標(biāo)優(yōu)化函數(shù);根據(jù)目標(biāo)優(yōu)化函數(shù),進(jìn)行模型訓(xùn)練;
10、跨模態(tài)語義關(guān)聯(lián)學(xué)習(xí)完成后,利用訓(xùn)練后的模型對文本進(jìn)行運動姿態(tài)生成。
11、優(yōu)選的,步驟s1的具體過程如下所示:
12、s11,根據(jù)詞向量庫獲得文本中各個單詞的詞向量xn;
13、s12,使用第一線性嵌入層將各個單詞的詞向量xn映射為詞特征xng:
14、xng=?wg×xn+bg;
15、其中,xn為第n個單詞的詞向量;wg和bg分別為第一線性嵌入層的權(quán)重和偏置;xng為第n個單詞的詞特征;
16、s13,將各個單詞的位置信息添加到詞特征中,得到獲得位置信息的詞特征xn’,并根據(jù)各個單詞的獲得位置信息的詞特征xn’,整合成由xn’構(gòu)成的長度為n的文本序列x1:n’:
17、xn’?=?xng+position(n);
18、x1:n’?=?{x1’,x2’,...,xn’,...,xn’};
19、其中,position(n)表示對第n個單詞的位置信息進(jìn)行編碼;
20、s14,將文本序列x1:n’送入文本編碼器texttransformer中進(jìn)行編碼,以獲取文本的全局語義,得到包含全局語義的文本特征序列?;所述文本編碼器由c個相同的編碼塊block組成,每個編碼塊block均包括一個多頭注意層mha、兩個歸一化層nl和一個前饋層fl;所述文本編碼器的編碼方式為:
21、;
22、其中,gi表示經(jīng)過i個編碼塊學(xué)習(xí)到的特征序列,i=1,2,...,c;為包含全局語義的文本特征序列,,為包含全局語義的文本特征序列中的第n個詞特征。
23、優(yōu)選的,步驟s2的具體過程如下所示:
24、s21,獲取文本所對應(yīng)的運動姿態(tài)視頻,對運動姿態(tài)視頻進(jìn)行姿態(tài)劃分,得到各個時間點下的姿態(tài)坐標(biāo)即各個姿態(tài)坐標(biāo)ym;其中,下標(biāo)m表示第m個時間點下的姿態(tài),即第m個姿態(tài);
25、s22,使用第二線性嵌入層將各個姿態(tài)坐標(biāo)ym映射為姿態(tài)特征ymp:
26、ymp=?wp×ym+bp;
27、其中,ym為第m個姿態(tài)坐標(biāo);wp和bp分別為第二線性嵌入層的權(quán)重和偏差;ymp為第m個姿態(tài)特征;
28、s23,將各個姿態(tài)的時間信息添加到姿態(tài)特征中,得到獲得時間信息的姿態(tài)特征ym’,并根據(jù)各個姿態(tài)的獲得時間信息的姿態(tài)特征ym’,整合成由ym’構(gòu)成的長度為m的姿態(tài)特征序列y1:m’:
29、ym’?=?ymp+position(m);
30、y1:m’?=?{y1’,y2’,...,ym’,...,ym’};
31、其中,position(m)表示對第m個姿態(tài)的時間信息進(jìn)行編碼。
32、優(yōu)選的,步驟s3的具體過程如下所示:
33、s31,將步驟s1得到的文本特征序列和步驟s2得到的姿態(tài)特征序列y1:m’送入姿態(tài)解碼器posedecoder中進(jìn)行解碼,得到各個時間點下解碼生成的姿態(tài)特征,進(jìn)一步得到解碼后的姿態(tài)特征序列;所述姿態(tài)解碼器由兩個不同的多頭注意層mha1和mha2,以及兩個前饋層fl組成,所述姿態(tài)解碼器的解碼方式為:
34、;
35、其中,y1:m’為前m個時間點的姿態(tài)特征構(gòu)成的序列;為第m+1個時間點解碼生成的姿態(tài)特征;ym+1’為第m+1個時間點的姿態(tài)特征;為前m個時間點解碼生成的姿態(tài)特征構(gòu)成的序列,;zm+1是姿態(tài)解碼器中第一個多頭注意層mha1輸出的第m+1個時間點的中間姿態(tài)解碼特征,姿態(tài)解碼器中第一個多頭注意層mha1的輸出構(gòu)成中間解碼姿態(tài)特征序列z1:m={z1,z2,...,zm,...,zm};
36、s32,使用第三線性嵌入層將各個時間點下解碼生成的姿態(tài)特征映射為解碼后的姿態(tài)坐標(biāo),得到解碼后的姿態(tài)坐標(biāo)序列,
37、;
38、;
39、其中,w’p和b’p分別為第三線性嵌入層的權(quán)重和偏置。
40、優(yōu)選的,步驟s4的具體過程如下所示:
41、s41,對步驟s1得到的包含全局語義的文本特征序列和步驟s31得到的中間解碼姿態(tài)特征序列z1:m={z1,z2,...,zm,...,zm}進(jìn)行歸一化處理,得到文本的歸一化特征序列t={t1,t2,...,tn,...,tn}和姿態(tài)的歸一化特征序列v={v1,v2,...,vm,...,vm},其中,
42、;
43、其中,normalize為歸一化處理函數(shù);tn為文本歸一化特征;vm為姿態(tài)歸一化特征;
44、s42,根據(jù)文本歸一化特征序列t和姿態(tài)歸一化特征序列v之間的余弦相似度,計算姿態(tài)-文本相似度(v,t)和文本-姿態(tài)相似度(t,v):
45、構(gòu)造一個姿態(tài)-文本最佳匹配函數(shù)h(v,t),該函數(shù)h(v,t)可以從序列t={t1,t2,...,tn,...,tn}中為序列v={v1,v2,...,vm,...,vm}中的姿態(tài)歸一化特征vm找到最接近的文本歸一化特征,得到姿態(tài)歸一化特征vm的文本最佳匹配結(jié)果;
46、姿態(tài)-文本相似度(v,t)的計算方式如下所示:
47、;
48、其中,h(·,·)表示余弦相似度計算函數(shù);h(v,t)m表示姿態(tài)歸一化特征vm的文本最佳匹配結(jié)果;argmax(·)表示選取使函數(shù)達(dá)到最大值的變量;
49、構(gòu)造一個文本-姿態(tài)最佳匹配函數(shù)h(t,v),該函數(shù)h(t,v)可以從序列v={v1,v2,...,vm,...,vm}中為序列t={t1,t2,...,tn,...,tn}中的文本歸一化特征tn找到最接近的姿態(tài)歸一化特征,得到文本歸一化特征tn的姿態(tài)最佳匹配結(jié)果;
50、文本-姿態(tài)相似度(t,v)的計算方式如下所示:
51、;
52、其中,h(t,v)n表示文本歸一化特征tn的姿態(tài)最佳匹配結(jié)果。
53、優(yōu)選的,步驟s5的具體過程如下所示:
54、對于一個批次的樣本數(shù)據(jù),包括b個文本和與b個文本相對應(yīng)b個的運動姿態(tài)視頻,由一個文本和一個運動姿態(tài)視頻構(gòu)成一個樣本;其中,由文本和對應(yīng)的運動姿態(tài)視頻構(gòu)成的樣本為正樣本,由文本和非對應(yīng)的運動姿態(tài)視頻構(gòu)成的樣本為負(fù)樣本;
55、每個樣本均得到一個文本歸一化特征序列t和一個姿態(tài)歸一化特征序列v,從而構(gòu)成姿態(tài)文本對(v,t),計算每個樣本的文本歸一化特征序列t和姿態(tài)歸一化特征序列v之間的距離,從而構(gòu)建距離矩陣a:
56、;
57、根據(jù)一個批次中的正樣本和負(fù)樣本構(gòu)建多模態(tài)三元組:
58、;
59、其中,上標(biāo)“+”表示正樣本,上標(biāo)“-”表示負(fù)樣本;(vi,ti)為正樣本的姿態(tài)文本對,(vi,tj)和(vj,ti)均為負(fù)樣本的姿態(tài)文本對,vi為第i個運動姿態(tài)視頻的歸一化特征序列,vj為第j個運動姿態(tài)視頻的歸一化特征序列,ti為第i個文本的歸一化特征序列,tj為第j個文本的歸一化特征序列,i≠j,i,j=1,2,...,b;
60、多模態(tài)三元組中正負(fù)樣本的相似度得分滿足以下約束條件:
61、;
62、其中,d(ab)為特征序列a和特征序列b之間的相似度得分,l2(·)為l2范數(shù)歸一化函數(shù),參數(shù)σ用于控制訓(xùn)練過程中的對比強(qiáng)度。
63、優(yōu)選的,步驟s6的具體過程如下所示:
64、s61,用平均絕對誤差計算步驟s3解碼后的姿態(tài)坐標(biāo)序列的姿態(tài)損失lacc:
65、;
66、其中,解碼后的姿態(tài)坐標(biāo)序列為,為解碼后的姿態(tài)坐
67、標(biāo);真實姿態(tài)坐標(biāo)序列為y1:m=?{y1,y2,...,ym,...,ym},ym為真實姿態(tài)坐標(biāo);
68、s62,對于一個批次的樣本數(shù)據(jù),根據(jù)步驟s4得到每個樣本的姿態(tài)-文本相似度(v,t)和文本-姿態(tài)相似度(t,v),分別計算姿態(tài)-文本的對齊損失和文本-姿態(tài)的對齊損失,從而得到多模態(tài)語義對比損失lali,其中:
69、姿態(tài)-文本的對齊損失的計算如下所示:
70、;
71、其中,(vi,ti)表示姿態(tài)文本對(vi,ti)的姿態(tài)-文本相似度;(vi,tj)表示姿態(tài)文本對(vi,tj)的姿態(tài)-文本相似度;為超參數(shù);
72、文本-姿態(tài)的對齊損失的計算如下所示:
73、;
74、其中,(ti,vi)表示姿態(tài)文本對(vi,ti)的文本-姿態(tài)相似度,(ti,vi)表示姿態(tài)文本對(vi,tj)的文本-姿態(tài)相似度;
75、多模態(tài)語義對比損失lali的計算如下所示:
76、;
77、s63,對于一個批次的樣本數(shù)據(jù),根據(jù)步驟s5得到多模態(tài)三元組
78、,并根據(jù)距離矩陣a,分別計算姿態(tài)-文本的對比損失和文本-姿態(tài)的對比損失,從而得到多模態(tài)語義對比損失lcom。
79、將多模態(tài)三元組分成和,其中,f用于姿態(tài)-文本比較,e用于文本-姿態(tài)比較;
80、姿態(tài)-文本的對比損失的計算如下所示:
81、;
82、其中,hf表示三元組f中元素f對應(yīng)的類別標(biāo)簽,pf表示三元組f中元素f對應(yīng)的距離值,元素f為或,類別為正樣本或負(fù)樣本;
83、文本-姿態(tài)的對比損失的計算如下所示:
84、;
85、其中,he表示三元組e中元素e對應(yīng)的類別標(biāo)簽,pe表示三元組e中元素e對應(yīng)的距離值,元素e為或,類別為正樣本或負(fù)樣本;
86、多模態(tài)語義對比損失的計算如下所示:
87、;
88、s64,模型的目標(biāo)優(yōu)化函數(shù)為:
89、l=α×lacc+β×lali+γ×lcom;
90、其中,α、β、γ為平衡損失項的超參數(shù),l為模型訓(xùn)練損失;
91、s65,根據(jù)目標(biāo)優(yōu)化函數(shù),對模型進(jìn)行訓(xùn)練:判斷模型訓(xùn)練損失l<θ,若是,則完成模型訓(xùn)練;若否,則返回步驟s1重新進(jìn)行模型訓(xùn)練,直至l<θ;其中,θ為超參數(shù)。
92、優(yōu)選的,三維運動姿態(tài)包括50個關(guān)節(jié)點,具體為8個身體骨骼點和覆蓋左右手的42個手指骨架點,姿態(tài)坐標(biāo)維度為50×3=150。
93、優(yōu)選的,利用訓(xùn)練后的模型對文本進(jìn)行運動姿態(tài)生成,具體方式為:獲得文本中各個單詞的詞向量,并提取詞特征,整合成文本序列,將文本序列送入文本編碼器中進(jìn)行編碼,得到包含全局語義的文本特征序列;隨后,將文本特征序列送入姿態(tài)解碼器中進(jìn)行解碼,得到解碼后的姿態(tài)特征序列,將解碼后的姿態(tài)特征序列映射為姿態(tài)坐標(biāo)序列,從而生成運動姿態(tài)。
94、一種電子設(shè)備,其包括處理器、存儲器及存儲于所述存儲器上并可在所述處理器上運行的計算機(jī)程序,所述處理器執(zhí)行所述計算機(jī)程序時實現(xiàn)上述的基于跨模態(tài)語義關(guān)聯(lián)學(xué)習(xí)的運動姿態(tài)生成方法。
95、本發(fā)明的優(yōu)點在于:
96、(1)本發(fā)明提出了一種新穎的運動姿態(tài)生成方法,該方法通過約束跨模態(tài)語義對齊和多模態(tài)語義對比的一致性,解決了運動姿態(tài)生成中缺乏強(qiáng)監(jiān)督的跨模態(tài)對齊標(biāo)簽的問題,并將姿態(tài)損失、跨模態(tài)語義對齊損失和多模態(tài)語義對比結(jié)合起來,共同優(yōu)化運動姿態(tài)生成任務(wù)。
97、(2)本發(fā)明提出了一種細(xì)粒度單調(diào)對齊策略來計算文本特征序列與解碼后的姿態(tài)特征序列之間的相似性相關(guān)矩陣,從而促進(jìn)單詞和動作的順序和語義隱式匹配,更準(zhǔn)確地生成與語句文本相對應(yīng)的運動姿態(tài)序列。
98、(3)本發(fā)明基于樣本數(shù)據(jù)的一一對應(yīng)關(guān)系構(gòu)建多模態(tài)三元組,以約束粗粒度文本和運動姿態(tài)視頻的語義一致性,從而增強(qiáng)文本序列和姿態(tài)序列之間的語義共現(xiàn)程度,提高運動姿態(tài)視頻生成的準(zhǔn)確性和連貫性。
99、(4)本發(fā)明提出的運動姿態(tài)生成方法采用了深度神經(jīng)網(wǎng)絡(luò)、對齊和對比學(xué)習(xí)技術(shù),實現(xiàn)了自然語句文本到生成逼真運動姿態(tài)的過程。經(jīng)過實驗,生成的運動姿態(tài)視頻具有較高的流暢度和一致性。