亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于跨模態(tài)語義關(guān)聯(lián)學(xué)習(xí)的運動姿態(tài)生成方法

文檔序號:40383067發(fā)布日期:2024-12-20 12:05閱讀:7來源:國知局
基于跨模態(tài)語義關(guān)聯(lián)學(xué)習(xí)的運動姿態(tài)生成方法

本發(fā)明涉及深度學(xué)習(xí)和運動姿態(tài)生成的,尤其是基于跨模態(tài)語義關(guān)聯(lián)學(xué)習(xí)的運動姿態(tài)生成方法。


背景技術(shù):

1、隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)已經(jīng)在圖像處理、視頻分析等領(lǐng)域顯示出了巨大的潛力。特別是在運動分析、虛擬現(xiàn)實、健康體育等領(lǐng)域,人體姿態(tài)建模技術(shù)在人們生產(chǎn)生活中的應(yīng)用越來越廣泛。因此,運動姿態(tài)生成技術(shù)作為人體姿態(tài)建模一種,正在視覺語言領(lǐng)域嶄露頭角,并成為一項重要而具有挑戰(zhàn)性的任務(wù)。早期的研究采用基于動畫合成技術(shù)的方法和統(tǒng)計機(jī)器翻譯方法,這兩種方法需要在預(yù)先捕捉的動作數(shù)據(jù)庫中進(jìn)行基于規(guī)則的短語查找,姿勢預(yù)獲取成本昂貴。最近,受深度神經(jīng)網(wǎng)絡(luò)在人體運動姿態(tài)視頻生成任務(wù)中的卓越表現(xiàn)的影響,出現(xiàn)了基于rnn的模型、生成對抗網(wǎng)絡(luò)(gan)和變分自動編碼器(vae)方法。如今,一種新的常見方法是采用transformer框架來解碼姿態(tài)序列。

2、然而,現(xiàn)有的方法忽略了運動姿態(tài)生成中缺乏強(qiáng)監(jiān)督的跨模態(tài)對齊標(biāo)簽,多模態(tài)數(shù)據(jù)之間存在巨大的語義鴻溝。此外,運動姿態(tài)生成需要從弱文本語義生成復(fù)雜的視覺語義,保持語言與視覺的單調(diào)一致性尤為重要。如今,在跨模態(tài)檢索、視覺問題解答、多模態(tài)情感分析等許多下游任務(wù)中,研究人員通常會通過跨模態(tài)語義之間的對齊和對比,有效整合來自不同模態(tài)(如文本、圖像、音頻、視頻等)的信息,使系統(tǒng)能夠更全面地理解和處理豐富的多模態(tài)數(shù)據(jù)。因此,在運動姿態(tài)生成中限制語言和視覺線索的一致性是一種有效的做法?;谏鲜隹紤],我們研究了運動姿態(tài)生成中文本序列和運動姿態(tài)序列語義的細(xì)粒度對齊和粗粒度對齊,并探索了運動姿態(tài)生成過程中文本模態(tài)和視覺模態(tài)單調(diào)對齊的作用。


技術(shù)實現(xiàn)思路

1、為了克服上述現(xiàn)有技術(shù)中的缺陷,本發(fā)明提供基于跨模態(tài)語義關(guān)聯(lián)學(xué)習(xí)的運動姿態(tài)生成方法,提高運動姿態(tài)視頻生成的準(zhǔn)確性和連貫性。

2、為實現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案,包括:

3、基于跨模態(tài)語義關(guān)聯(lián)學(xué)習(xí)的運動姿態(tài)生成方法,基于跨模態(tài)語義關(guān)聯(lián)學(xué)習(xí)對運動姿態(tài)生成模型進(jìn)行訓(xùn)練,訓(xùn)練方式具體如下所示:

4、s1,對文本中各個單詞提取詞特征,并整合成文本序列;將文本序列送入文本編碼器中進(jìn)行編碼,得到包含全局語義的文本特征序列;

5、s2,對文本所對應(yīng)的運動姿態(tài)視頻進(jìn)行姿態(tài)劃分,得到各個姿態(tài)坐標(biāo),并提取各個姿態(tài)的姿態(tài)特征,整合成姿態(tài)特征序列;

6、s3,將文本特征序列和姿態(tài)特征序列送入姿態(tài)解碼器中進(jìn)行解碼,得到解碼后的姿態(tài)特征序列;將解碼后的姿態(tài)特征序列映射為解碼后的姿態(tài)坐標(biāo)序列;

7、s4,計算每個文本特征序列與解碼后的姿態(tài)特征序列之間的余弦相似度,得到文本-姿態(tài)相似度和姿態(tài)-文本相似度;

8、s5,對于一個批次的樣本數(shù)據(jù),計算每個樣本的文本特征序列與解碼后的姿態(tài)特征序列之間的距離,從而構(gòu)建距離矩陣;

9、s6,根據(jù)步驟s3得到的解碼后的姿態(tài)坐標(biāo)序列與真實姿態(tài)坐標(biāo)序列,計算姿態(tài)損失;根據(jù)步驟s4得到的文本-姿態(tài)相似度和姿態(tài)-文本相似度,計算跨模態(tài)語義對齊損失;根據(jù)步驟s5得到的距離矩陣,計算多模態(tài)語義對比損失;根據(jù)姿態(tài)損失、跨模態(tài)語義對齊損失和多模態(tài)語義對比損失,得到目標(biāo)優(yōu)化函數(shù);根據(jù)目標(biāo)優(yōu)化函數(shù),進(jìn)行模型訓(xùn)練;

10、跨模態(tài)語義關(guān)聯(lián)學(xué)習(xí)完成后,利用訓(xùn)練后的模型對文本進(jìn)行運動姿態(tài)生成。

11、優(yōu)選的,步驟s1的具體過程如下所示:

12、s11,根據(jù)詞向量庫獲得文本中各個單詞的詞向量xn;

13、s12,使用第一線性嵌入層將各個單詞的詞向量xn映射為詞特征xng:

14、xng=?wg×xn+bg;

15、其中,xn為第n個單詞的詞向量;wg和bg分別為第一線性嵌入層的權(quán)重和偏置;xng為第n個單詞的詞特征;

16、s13,將各個單詞的位置信息添加到詞特征中,得到獲得位置信息的詞特征xn’,并根據(jù)各個單詞的獲得位置信息的詞特征xn’,整合成由xn’構(gòu)成的長度為n的文本序列x1:n’:

17、xn’?=?xng+position(n);

18、x1:n’?=?{x1’,x2’,...,xn’,...,xn’};

19、其中,position(n)表示對第n個單詞的位置信息進(jìn)行編碼;

20、s14,將文本序列x1:n’送入文本編碼器texttransformer中進(jìn)行編碼,以獲取文本的全局語義,得到包含全局語義的文本特征序列?;所述文本編碼器由c個相同的編碼塊block組成,每個編碼塊block均包括一個多頭注意層mha、兩個歸一化層nl和一個前饋層fl;所述文本編碼器的編碼方式為:

21、;

22、其中,gi表示經(jīng)過i個編碼塊學(xué)習(xí)到的特征序列,i=1,2,...,c;為包含全局語義的文本特征序列,,為包含全局語義的文本特征序列中的第n個詞特征。

23、優(yōu)選的,步驟s2的具體過程如下所示:

24、s21,獲取文本所對應(yīng)的運動姿態(tài)視頻,對運動姿態(tài)視頻進(jìn)行姿態(tài)劃分,得到各個時間點下的姿態(tài)坐標(biāo)即各個姿態(tài)坐標(biāo)ym;其中,下標(biāo)m表示第m個時間點下的姿態(tài),即第m個姿態(tài);

25、s22,使用第二線性嵌入層將各個姿態(tài)坐標(biāo)ym映射為姿態(tài)特征ymp:

26、ymp=?wp×ym+bp;

27、其中,ym為第m個姿態(tài)坐標(biāo);wp和bp分別為第二線性嵌入層的權(quán)重和偏差;ymp為第m個姿態(tài)特征;

28、s23,將各個姿態(tài)的時間信息添加到姿態(tài)特征中,得到獲得時間信息的姿態(tài)特征ym’,并根據(jù)各個姿態(tài)的獲得時間信息的姿態(tài)特征ym’,整合成由ym’構(gòu)成的長度為m的姿態(tài)特征序列y1:m’:

29、ym’?=?ymp+position(m);

30、y1:m’?=?{y1’,y2’,...,ym’,...,ym’};

31、其中,position(m)表示對第m個姿態(tài)的時間信息進(jìn)行編碼。

32、優(yōu)選的,步驟s3的具體過程如下所示:

33、s31,將步驟s1得到的文本特征序列和步驟s2得到的姿態(tài)特征序列y1:m’送入姿態(tài)解碼器posedecoder中進(jìn)行解碼,得到各個時間點下解碼生成的姿態(tài)特征,進(jìn)一步得到解碼后的姿態(tài)特征序列;所述姿態(tài)解碼器由兩個不同的多頭注意層mha1和mha2,以及兩個前饋層fl組成,所述姿態(tài)解碼器的解碼方式為:

34、;

35、其中,y1:m’為前m個時間點的姿態(tài)特征構(gòu)成的序列;為第m+1個時間點解碼生成的姿態(tài)特征;ym+1’為第m+1個時間點的姿態(tài)特征;為前m個時間點解碼生成的姿態(tài)特征構(gòu)成的序列,;zm+1是姿態(tài)解碼器中第一個多頭注意層mha1輸出的第m+1個時間點的中間姿態(tài)解碼特征,姿態(tài)解碼器中第一個多頭注意層mha1的輸出構(gòu)成中間解碼姿態(tài)特征序列z1:m={z1,z2,...,zm,...,zm};

36、s32,使用第三線性嵌入層將各個時間點下解碼生成的姿態(tài)特征映射為解碼后的姿態(tài)坐標(biāo),得到解碼后的姿態(tài)坐標(biāo)序列,

37、;

38、;

39、其中,w’p和b’p分別為第三線性嵌入層的權(quán)重和偏置。

40、優(yōu)選的,步驟s4的具體過程如下所示:

41、s41,對步驟s1得到的包含全局語義的文本特征序列和步驟s31得到的中間解碼姿態(tài)特征序列z1:m={z1,z2,...,zm,...,zm}進(jìn)行歸一化處理,得到文本的歸一化特征序列t={t1,t2,...,tn,...,tn}和姿態(tài)的歸一化特征序列v={v1,v2,...,vm,...,vm},其中,

42、;

43、其中,normalize為歸一化處理函數(shù);tn為文本歸一化特征;vm為姿態(tài)歸一化特征;

44、s42,根據(jù)文本歸一化特征序列t和姿態(tài)歸一化特征序列v之間的余弦相似度,計算姿態(tài)-文本相似度(v,t)和文本-姿態(tài)相似度(t,v):

45、構(gòu)造一個姿態(tài)-文本最佳匹配函數(shù)h(v,t),該函數(shù)h(v,t)可以從序列t={t1,t2,...,tn,...,tn}中為序列v={v1,v2,...,vm,...,vm}中的姿態(tài)歸一化特征vm找到最接近的文本歸一化特征,得到姿態(tài)歸一化特征vm的文本最佳匹配結(jié)果;

46、姿態(tài)-文本相似度(v,t)的計算方式如下所示:

47、;

48、其中,h(·,·)表示余弦相似度計算函數(shù);h(v,t)m表示姿態(tài)歸一化特征vm的文本最佳匹配結(jié)果;argmax(·)表示選取使函數(shù)達(dá)到最大值的變量;

49、構(gòu)造一個文本-姿態(tài)最佳匹配函數(shù)h(t,v),該函數(shù)h(t,v)可以從序列v={v1,v2,...,vm,...,vm}中為序列t={t1,t2,...,tn,...,tn}中的文本歸一化特征tn找到最接近的姿態(tài)歸一化特征,得到文本歸一化特征tn的姿態(tài)最佳匹配結(jié)果;

50、文本-姿態(tài)相似度(t,v)的計算方式如下所示:

51、;

52、其中,h(t,v)n表示文本歸一化特征tn的姿態(tài)最佳匹配結(jié)果。

53、優(yōu)選的,步驟s5的具體過程如下所示:

54、對于一個批次的樣本數(shù)據(jù),包括b個文本和與b個文本相對應(yīng)b個的運動姿態(tài)視頻,由一個文本和一個運動姿態(tài)視頻構(gòu)成一個樣本;其中,由文本和對應(yīng)的運動姿態(tài)視頻構(gòu)成的樣本為正樣本,由文本和非對應(yīng)的運動姿態(tài)視頻構(gòu)成的樣本為負(fù)樣本;

55、每個樣本均得到一個文本歸一化特征序列t和一個姿態(tài)歸一化特征序列v,從而構(gòu)成姿態(tài)文本對(v,t),計算每個樣本的文本歸一化特征序列t和姿態(tài)歸一化特征序列v之間的距離,從而構(gòu)建距離矩陣a:

56、;

57、根據(jù)一個批次中的正樣本和負(fù)樣本構(gòu)建多模態(tài)三元組:

58、;

59、其中,上標(biāo)“+”表示正樣本,上標(biāo)“-”表示負(fù)樣本;(vi,ti)為正樣本的姿態(tài)文本對,(vi,tj)和(vj,ti)均為負(fù)樣本的姿態(tài)文本對,vi為第i個運動姿態(tài)視頻的歸一化特征序列,vj為第j個運動姿態(tài)視頻的歸一化特征序列,ti為第i個文本的歸一化特征序列,tj為第j個文本的歸一化特征序列,i≠j,i,j=1,2,...,b;

60、多模態(tài)三元組中正負(fù)樣本的相似度得分滿足以下約束條件:

61、;

62、其中,d(ab)為特征序列a和特征序列b之間的相似度得分,l2(·)為l2范數(shù)歸一化函數(shù),參數(shù)σ用于控制訓(xùn)練過程中的對比強(qiáng)度。

63、優(yōu)選的,步驟s6的具體過程如下所示:

64、s61,用平均絕對誤差計算步驟s3解碼后的姿態(tài)坐標(biāo)序列的姿態(tài)損失lacc:

65、;

66、其中,解碼后的姿態(tài)坐標(biāo)序列為,為解碼后的姿態(tài)坐

67、標(biāo);真實姿態(tài)坐標(biāo)序列為y1:m=?{y1,y2,...,ym,...,ym},ym為真實姿態(tài)坐標(biāo);

68、s62,對于一個批次的樣本數(shù)據(jù),根據(jù)步驟s4得到每個樣本的姿態(tài)-文本相似度(v,t)和文本-姿態(tài)相似度(t,v),分別計算姿態(tài)-文本的對齊損失和文本-姿態(tài)的對齊損失,從而得到多模態(tài)語義對比損失lali,其中:

69、姿態(tài)-文本的對齊損失的計算如下所示:

70、;

71、其中,(vi,ti)表示姿態(tài)文本對(vi,ti)的姿態(tài)-文本相似度;(vi,tj)表示姿態(tài)文本對(vi,tj)的姿態(tài)-文本相似度;為超參數(shù);

72、文本-姿態(tài)的對齊損失的計算如下所示:

73、;

74、其中,(ti,vi)表示姿態(tài)文本對(vi,ti)的文本-姿態(tài)相似度,(ti,vi)表示姿態(tài)文本對(vi,tj)的文本-姿態(tài)相似度;

75、多模態(tài)語義對比損失lali的計算如下所示:

76、;

77、s63,對于一個批次的樣本數(shù)據(jù),根據(jù)步驟s5得到多模態(tài)三元組

78、,并根據(jù)距離矩陣a,分別計算姿態(tài)-文本的對比損失和文本-姿態(tài)的對比損失,從而得到多模態(tài)語義對比損失lcom。

79、將多模態(tài)三元組分成和,其中,f用于姿態(tài)-文本比較,e用于文本-姿態(tài)比較;

80、姿態(tài)-文本的對比損失的計算如下所示:

81、;

82、其中,hf表示三元組f中元素f對應(yīng)的類別標(biāo)簽,pf表示三元組f中元素f對應(yīng)的距離值,元素f為或,類別為正樣本或負(fù)樣本;

83、文本-姿態(tài)的對比損失的計算如下所示:

84、;

85、其中,he表示三元組e中元素e對應(yīng)的類別標(biāo)簽,pe表示三元組e中元素e對應(yīng)的距離值,元素e為或,類別為正樣本或負(fù)樣本;

86、多模態(tài)語義對比損失的計算如下所示:

87、;

88、s64,模型的目標(biāo)優(yōu)化函數(shù)為:

89、l=α×lacc+β×lali+γ×lcom;

90、其中,α、β、γ為平衡損失項的超參數(shù),l為模型訓(xùn)練損失;

91、s65,根據(jù)目標(biāo)優(yōu)化函數(shù),對模型進(jìn)行訓(xùn)練:判斷模型訓(xùn)練損失l<θ,若是,則完成模型訓(xùn)練;若否,則返回步驟s1重新進(jìn)行模型訓(xùn)練,直至l<θ;其中,θ為超參數(shù)。

92、優(yōu)選的,三維運動姿態(tài)包括50個關(guān)節(jié)點,具體為8個身體骨骼點和覆蓋左右手的42個手指骨架點,姿態(tài)坐標(biāo)維度為50×3=150。

93、優(yōu)選的,利用訓(xùn)練后的模型對文本進(jìn)行運動姿態(tài)生成,具體方式為:獲得文本中各個單詞的詞向量,并提取詞特征,整合成文本序列,將文本序列送入文本編碼器中進(jìn)行編碼,得到包含全局語義的文本特征序列;隨后,將文本特征序列送入姿態(tài)解碼器中進(jìn)行解碼,得到解碼后的姿態(tài)特征序列,將解碼后的姿態(tài)特征序列映射為姿態(tài)坐標(biāo)序列,從而生成運動姿態(tài)。

94、一種電子設(shè)備,其包括處理器、存儲器及存儲于所述存儲器上并可在所述處理器上運行的計算機(jī)程序,所述處理器執(zhí)行所述計算機(jī)程序時實現(xiàn)上述的基于跨模態(tài)語義關(guān)聯(lián)學(xué)習(xí)的運動姿態(tài)生成方法。

95、本發(fā)明的優(yōu)點在于:

96、(1)本發(fā)明提出了一種新穎的運動姿態(tài)生成方法,該方法通過約束跨模態(tài)語義對齊和多模態(tài)語義對比的一致性,解決了運動姿態(tài)生成中缺乏強(qiáng)監(jiān)督的跨模態(tài)對齊標(biāo)簽的問題,并將姿態(tài)損失、跨模態(tài)語義對齊損失和多模態(tài)語義對比結(jié)合起來,共同優(yōu)化運動姿態(tài)生成任務(wù)。

97、(2)本發(fā)明提出了一種細(xì)粒度單調(diào)對齊策略來計算文本特征序列與解碼后的姿態(tài)特征序列之間的相似性相關(guān)矩陣,從而促進(jìn)單詞和動作的順序和語義隱式匹配,更準(zhǔn)確地生成與語句文本相對應(yīng)的運動姿態(tài)序列。

98、(3)本發(fā)明基于樣本數(shù)據(jù)的一一對應(yīng)關(guān)系構(gòu)建多模態(tài)三元組,以約束粗粒度文本和運動姿態(tài)視頻的語義一致性,從而增強(qiáng)文本序列和姿態(tài)序列之間的語義共現(xiàn)程度,提高運動姿態(tài)視頻生成的準(zhǔn)確性和連貫性。

99、(4)本發(fā)明提出的運動姿態(tài)生成方法采用了深度神經(jīng)網(wǎng)絡(luò)、對齊和對比學(xué)習(xí)技術(shù),實現(xiàn)了自然語句文本到生成逼真運動姿態(tài)的過程。經(jīng)過實驗,生成的運動姿態(tài)視頻具有較高的流暢度和一致性。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1