基于跨模態(tài)語義關(guān)聯(lián)學(xué)習(xí)的運動姿態(tài)生成方法

文檔序號：40383067發(fā)布日期：2024-12-20 12:05閱讀：7來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及深度學(xué)習(xí)和運動姿態(tài)生成的，尤其是基于跨模態(tài)語義關(guān)聯(lián)學(xué)習(xí)的運動姿態(tài)生成方法。

背景技術(shù)：

1、隨著人工智能技術(shù)的飛速發(fā)展，深度學(xué)習(xí)已經(jīng)在圖像處理、視頻分析等領(lǐng)域顯示出了巨大的潛力。特別是在運動分析、虛擬現(xiàn)實、健康體育等領(lǐng)域，人體姿態(tài)建模技術(shù)在人們生產(chǎn)生活中的應(yīng)用越來越廣泛。因此，運動姿態(tài)生成技術(shù)作為人體姿態(tài)建模一種，正在視覺語言領(lǐng)域嶄露頭角，并成為一項重要而具有挑戰(zhàn)性的任務(wù)。早期的研究采用基于動畫合成技術(shù)的方法和統(tǒng)計機(jī)器翻譯方法，這兩種方法需要在預(yù)先捕捉的動作數(shù)據(jù)庫中進(jìn)行基于規(guī)則的短語查找，姿勢預(yù)獲取成本昂貴。最近，受深度神經(jīng)網(wǎng)絡(luò)在人體運動姿態(tài)視頻生成任務(wù)中的卓越表現(xiàn)的影響，出現(xiàn)了基于rnn的模型、生成對抗網(wǎng)絡(luò)（gan）和變分自動編碼器（vae）方法。如今，一種新的常見方法是采用transformer框架來解碼姿態(tài)序列。

2、然而，現(xiàn)有的方法忽略了運動姿態(tài)生成中缺乏強(qiáng)監(jiān)督的跨模態(tài)對齊標(biāo)簽，多模態(tài)數(shù)據(jù)之間存在巨大的語義鴻溝。此外，運動姿態(tài)生成需要從弱文本語義生成復(fù)雜的視覺語義，保持語言與視覺的單調(diào)一致性尤為重要。如今，在跨模態(tài)檢索、視覺問題解答、多模態(tài)情感分析等許多下游任務(wù)中，研究人員通常會通過跨模態(tài)語義之間的對齊和對比，有效整合來自不同模態(tài)（如文本、圖像、音頻、視頻等）的信息，使系統(tǒng)能夠更全面地理解和處理豐富的多模態(tài)數(shù)據(jù)。因此，在運動姿態(tài)生成中限制語言和視覺線索的一致性是一種有效的做法?；谏鲜隹紤]，我們研究了運動姿態(tài)生成中文本序列和運動姿態(tài)序列語義的細(xì)粒度對齊和粗粒度對齊，并探索了運動姿態(tài)生成過程中文本模態(tài)和視覺模態(tài)單調(diào)對齊的作用。

技術(shù)實現(xiàn)思路

1、為了克服上述現(xiàn)有技術(shù)中的缺陷，本發(fā)明提供基于跨模態(tài)語義關(guān)聯(lián)學(xué)習(xí)的運動姿態(tài)生成方法，提高運動姿態(tài)視頻生成的準(zhǔn)確性和連貫性。

2、為實現(xiàn)上述目的，本發(fā)明采用以下技術(shù)方案，包括：

3、基于跨模態(tài)語義關(guān)聯(lián)學(xué)習(xí)的運動姿態(tài)生成方法，基于跨模態(tài)語義關(guān)聯(lián)學(xué)習(xí)對運動姿態(tài)生成模型進(jìn)行訓(xùn)練，訓(xùn)練方式具體如下所示：

4、s1，對文本中各個單詞提取詞特征，并整合成文本序列；將文本序列送入文本編碼器中進(jìn)行編碼，得到包含全局語義的文本特征序列；

5、s2，對文本所對應(yīng)的運動姿態(tài)視頻進(jìn)行姿態(tài)劃分，得到各個姿態(tài)坐標(biāo)，并提取各個姿態(tài)的姿態(tài)特征，整合成姿態(tài)特征序列；

6、s3，將文本特征序列和姿態(tài)特征序列送入姿態(tài)解碼器中進(jìn)行解碼，得到解碼后的姿態(tài)特征序列；將解碼后的姿態(tài)特征序列映射為解碼后的姿態(tài)坐標(biāo)序列；

7、s4，計算每個文本特征序列與解碼后的姿態(tài)特征序列之間的余弦相似度，得到文本-姿態(tài)相似度和姿態(tài)-文本相似度；

8、s5，對于一個批次的樣本數(shù)據(jù)，計算每個樣本的文本特征序列與解碼后的姿態(tài)特征序列之間的距離，從而構(gòu)建距離矩陣；

9、s6，根據(jù)步驟s3得到的解碼后的姿態(tài)坐標(biāo)序列與真實姿態(tài)坐標(biāo)序列，計算姿態(tài)損失；根據(jù)步驟s4得到的文本-姿態(tài)相似度和姿態(tài)-文本相似度，計算跨模態(tài)語義對齊損失；根據(jù)步驟s5得到的距離矩陣，計算多模態(tài)語義對比損失；根據(jù)姿態(tài)損失、跨模態(tài)語義對齊損失和多模態(tài)語義對比損失，得到目標(biāo)優(yōu)化函數(shù)；根據(jù)目標(biāo)優(yōu)化函數(shù)，進(jìn)行模型訓(xùn)練；

10、跨模態(tài)語義關(guān)聯(lián)學(xué)習(xí)完成后，利用訓(xùn)練后的模型對文本進(jìn)行運動姿態(tài)生成。

11、優(yōu)選的，步驟s1的具體過程如下所示：

12、s11，根據(jù)詞向量庫獲得文本中各個單詞的詞向量xn；

13、s12，使用第一線性嵌入層將各個單詞的詞向量xn映射為詞特征xng：

14、xng=?wg×xn+bg；

15、其中，xn為第n個單詞的詞向量；wg和bg分別為第一線性嵌入層的權(quán)重和偏置；xng為第n個單詞的詞特征；

16、s13，將各個單詞的位置信息添加到詞特征中，得到獲得位置信息的詞特征xn’，并根據(jù)各個單詞的獲得位置信息的詞特征xn’，整合成由xn’構(gòu)成的長度為n的文本序列x1:n’：

17、xn’?=?xng+position(n)；

18、x1:n’?=?{x1’,x2’,...,xn’,...,xn’}；

19、其中，position(n)表示對第n個單詞的位置信息進(jìn)行編碼；

20、s14，將文本序列x1:n’送入文本編碼器texttransformer中進(jìn)行編碼，以獲取文本的全局語義，得到包含全局語義的文本特征序列?；所述文本編碼器由c個相同的編碼塊block組成，每個編碼塊block均包括一個多頭注意層mha、兩個歸一化層nl和一個前饋層fl；所述文本編碼器的編碼方式為：

21、；

22、其中，gi表示經(jīng)過i個編碼塊學(xué)習(xí)到的特征序列，i=1,2,...,c；為包含全局語義的文本特征序列，，為包含全局語義的文本特征序列中的第n個詞特征。

23、優(yōu)選的，步驟s2的具體過程如下所示：

24、s21，獲取文本所對應(yīng)的運動姿態(tài)視頻，對運動姿態(tài)視頻進(jìn)行姿態(tài)劃分，得到各個時間點下的姿態(tài)坐標(biāo)即各個姿態(tài)坐標(biāo)ym；其中，下標(biāo)m表示第m個時間點下的姿態(tài)，即第m個姿態(tài)；

25、s22，使用第二線性嵌入層將各個姿態(tài)坐標(biāo)ym映射為姿態(tài)特征ymp：

26、ymp=?wp×ym+bp；

27、其中，ym為第m個姿態(tài)坐標(biāo)；wp和bp分別為第二線性嵌入層的權(quán)重和偏差；ymp為第m個姿態(tài)特征；

28、s23，將各個姿態(tài)的時間信息添加到姿態(tài)特征中，得到獲得時間信息的姿態(tài)特征ym’，并根據(jù)各個姿態(tài)的獲得時間信息的姿態(tài)特征ym’，整合成由ym’構(gòu)成的長度為m的姿態(tài)特征序列y1:m’：

29、ym’?=?ymp+position(m)；

30、y1:m’?=?{y1’,y2’,...,ym’,...,ym’}；

31、其中，position(m)表示對第m個姿態(tài)的時間信息進(jìn)行編碼。

32、優(yōu)選的，步驟s3的具體過程如下所示：

33、s31，將步驟s1得到的文本特征序列和步驟s2得到的姿態(tài)特征序列y1:m’送入姿態(tài)解碼器posedecoder中進(jìn)行解碼，得到各個時間點下解碼生成的姿態(tài)特征，進(jìn)一步得到解碼后的姿態(tài)特征序列；所述姿態(tài)解碼器由兩個不同的多頭注意層mha1和mha2，以及兩個前饋層fl組成，所述姿態(tài)解碼器的解碼方式為：

34、；

35、其中，y1:m’為前m個時間點的姿態(tài)特征構(gòu)成的序列；為第m+1個時間點解碼生成的姿態(tài)特征；ym+1’為第m+1個時間點的姿態(tài)特征；為前m個時間點解碼生成的姿態(tài)特征構(gòu)成的序列，；zm+1是姿態(tài)解碼器中第一個多頭注意層mha1輸出的第m+1個時間點的中間姿態(tài)解碼特征，姿態(tài)解碼器中第一個多頭注意層mha1的輸出構(gòu)成中間解碼姿態(tài)特征序列z1:m={z1,z2,...,zm,...,zm}；

36、s32，使用第三線性嵌入層將各個時間點下解碼生成的姿態(tài)特征映射為解碼后的姿態(tài)坐標(biāo)，得到解碼后的姿態(tài)坐標(biāo)序列，

37、；

38、；

39、其中，w’p和b’p分別為第三線性嵌入層的權(quán)重和偏置。

40、優(yōu)選的，步驟s4的具體過程如下所示：

41、s41，對步驟s1得到的包含全局語義的文本特征序列和步驟s31得到的中間解碼姿態(tài)特征序列z1:m={z1,z2,...,zm,...,zm}進(jìn)行歸一化處理，得到文本的歸一化特征序列t={t1,t2,...,tn,...,tn}和姿態(tài)的歸一化特征序列v={v1,v2,...,vm,...,vm}，其中，

42、；

43、其中，normalize為歸一化處理函數(shù)；tn為文本歸一化特征；vm為姿態(tài)歸一化特征；

44、s42，根據(jù)文本歸一化特征序列t和姿態(tài)歸一化特征序列v之間的余弦相似度，計算姿態(tài)-文本相似度(v,t)和文本-姿態(tài)相似度(t,v)：

45、構(gòu)造一個姿態(tài)-文本最佳匹配函數(shù)h(v,t)，該函數(shù)h(v,t)可以從序列t={t1,t2,...,tn,...,tn}中為序列v={v1,v2,...,vm,...,vm}中的姿態(tài)歸一化特征vm找到最接近的文本歸一化特征，得到姿態(tài)歸一化特征vm的文本最佳匹配結(jié)果；

46、姿態(tài)-文本相似度(v,t)的計算方式如下所示：

47、；

48、其中，h(·,·)表示余弦相似度計算函數(shù)；h(v,t)m表示姿態(tài)歸一化特征vm的文本最佳匹配結(jié)果；argmax(·)表示選取使函數(shù)達(dá)到最大值的變量；

49、構(gòu)造一個文本-姿態(tài)最佳匹配函數(shù)h(t,v)，該函數(shù)h(t,v)可以從序列v={v1,v2,...,vm,...,vm}中為序列t={t1,t2,...,tn,...,tn}中的文本歸一化特征tn找到最接近的姿態(tài)歸一化特征，得到文本歸一化特征tn的姿態(tài)最佳匹配結(jié)果；

50、文本-姿態(tài)相似度(t,v)的計算方式如下所示：

51、；

52、其中，h(t,v)n表示文本歸一化特征tn的姿態(tài)最佳匹配結(jié)果。

53、優(yōu)選的，步驟s5的具體過程如下所示：

54、對于一個批次的樣本數(shù)據(jù)，包括b個文本和與b個文本相對應(yīng)b個的運動姿態(tài)視頻，由一個文本和一個運動姿態(tài)視頻構(gòu)成一個樣本；其中，由文本和對應(yīng)的運動姿態(tài)視頻構(gòu)成的樣本為正樣本，由文本和非對應(yīng)的運動姿態(tài)視頻構(gòu)成的樣本為負(fù)樣本；

55、每個樣本均得到一個文本歸一化特征序列t和一個姿態(tài)歸一化特征序列v，從而構(gòu)成姿態(tài)文本對(v,t)，計算每個樣本的文本歸一化特征序列t和姿態(tài)歸一化特征序列v之間的距離，從而構(gòu)建距離矩陣a：

56、；

57、根據(jù)一個批次中的正樣本和負(fù)樣本構(gòu)建多模態(tài)三元組：

58、；

59、其中，上標(biāo)“+”表示正樣本，上標(biāo)“-”表示負(fù)樣本；(vi,ti)為正樣本的姿態(tài)文本對，(vi,tj)和(vj,ti)均為負(fù)樣本的姿態(tài)文本對，vi為第i個運動姿態(tài)視頻的歸一化特征序列，vj為第j個運動姿態(tài)視頻的歸一化特征序列，ti為第i個文本的歸一化特征序列，tj為第j個文本的歸一化特征序列，i≠j，i，j=1,2,...,b；

60、多模態(tài)三元組中正負(fù)樣本的相似度得分滿足以下約束條件：

61、；

62、其中，d(ab)為特征序列a和特征序列b之間的相似度得分，l2(·)為l2范數(shù)歸一化函數(shù)，參數(shù)σ用于控制訓(xùn)練過程中的對比強(qiáng)度。

63、優(yōu)選的，步驟s6的具體過程如下所示：

64、s61，用平均絕對誤差計算步驟s3解碼后的姿態(tài)坐標(biāo)序列的姿態(tài)損失lacc：

65、；

66、其中，解碼后的姿態(tài)坐標(biāo)序列為，為解碼后的姿態(tài)坐

67、標(biāo)；真實姿態(tài)坐標(biāo)序列為y1:m=?{y1,y2,...,ym,...,ym}，ym為真實姿態(tài)坐標(biāo)；

68、s62，對于一個批次的樣本數(shù)據(jù)，根據(jù)步驟s4得到每個樣本的姿態(tài)-文本相似度(v,t)和文本-姿態(tài)相似度(t,v)，分別計算姿態(tài)-文本的對齊損失和文本-姿態(tài)的對齊損失，從而得到多模態(tài)語義對比損失lali，其中：

69、姿態(tài)-文本的對齊損失的計算如下所示：

70、；

71、其中，(vi,ti)表示姿態(tài)文本對(vi,ti)的姿態(tài)-文本相似度；(vi,tj)表示姿態(tài)文本對(vi,tj)的姿態(tài)-文本相似度；為超參數(shù)；

72、文本-姿態(tài)的對齊損失的計算如下所示：

73、；

74、其中，(ti,vi)表示姿態(tài)文本對(vi,ti)的文本-姿態(tài)相似度，(ti,vi)表示姿態(tài)文本對(vi,tj)的文本-姿態(tài)相似度；

75、多模態(tài)語義對比損失lali的計算如下所示：

76、；

77、s63，對于一個批次的樣本數(shù)據(jù)，根據(jù)步驟s5得到多模態(tài)三元組

78、，并根據(jù)距離矩陣a，分別計算姿態(tài)-文本的對比損失和文本-姿態(tài)的對比損失，從而得到多模態(tài)語義對比損失lcom。

79、將多模態(tài)三元組分成和，其中，f用于姿態(tài)-文本比較，e用于文本-姿態(tài)比較；

80、姿態(tài)-文本的對比損失的計算如下所示：

81、；

82、其中，hf表示三元組f中元素f對應(yīng)的類別標(biāo)簽，pf表示三元組f中元素f對應(yīng)的距離值，元素f為或，類別為正樣本或負(fù)樣本；

83、文本-姿態(tài)的對比損失的計算如下所示：

84、；

85、其中，he表示三元組e中元素e對應(yīng)的類別標(biāo)簽，pe表示三元組e中元素e對應(yīng)的距離值，元素e為或，類別為正樣本或負(fù)樣本；

86、多模態(tài)語義對比損失的計算如下所示：

87、；

88、s64，模型的目標(biāo)優(yōu)化函數(shù)為：

89、l=α×lacc+β×lali+γ×lcom；

90、其中，α、β、γ為平衡損失項的超參數(shù)，l為模型訓(xùn)練損失；

91、s65，根據(jù)目標(biāo)優(yōu)化函數(shù)，對模型進(jìn)行訓(xùn)練：判斷模型訓(xùn)練損失l<θ，若是，則完成模型訓(xùn)練；若否，則返回步驟s1重新進(jìn)行模型訓(xùn)練，直至l<θ；其中，θ為超參數(shù)。

92、優(yōu)選的，三維運動姿態(tài)包括50個關(guān)節(jié)點，具體為8個身體骨骼點和覆蓋左右手的42個手指骨架點，姿態(tài)坐標(biāo)維度為50×3=150。

93、優(yōu)選的，利用訓(xùn)練后的模型對文本進(jìn)行運動姿態(tài)生成，具體方式為：獲得文本中各個單詞的詞向量，并提取詞特征，整合成文本序列，將文本序列送入文本編碼器中進(jìn)行編碼，得到包含全局語義的文本特征序列；隨后，將文本特征序列送入姿態(tài)解碼器中進(jìn)行解碼，得到解碼后的姿態(tài)特征序列，將解碼后的姿態(tài)特征序列映射為姿態(tài)坐標(biāo)序列，從而生成運動姿態(tài)。

94、一種電子設(shè)備，其包括處理器、存儲器及存儲于所述存儲器上并可在所述處理器上運行的計算機(jī)程序，所述處理器執(zhí)行所述計算機(jī)程序時實現(xiàn)上述的基于跨模態(tài)語義關(guān)聯(lián)學(xué)習(xí)的運動姿態(tài)生成方法。

95、本發(fā)明的優(yōu)點在于：

96、（1）本發(fā)明提出了一種新穎的運動姿態(tài)生成方法，該方法通過約束跨模態(tài)語義對齊和多模態(tài)語義對比的一致性，解決了運動姿態(tài)生成中缺乏強(qiáng)監(jiān)督的跨模態(tài)對齊標(biāo)簽的問題，并將姿態(tài)損失、跨模態(tài)語義對齊損失和多模態(tài)語義對比結(jié)合起來，共同優(yōu)化運動姿態(tài)生成任務(wù)。

97、（2）本發(fā)明提出了一種細(xì)粒度單調(diào)對齊策略來計算文本特征序列與解碼后的姿態(tài)特征序列之間的相似性相關(guān)矩陣，從而促進(jìn)單詞和動作的順序和語義隱式匹配，更準(zhǔn)確地生成與語句文本相對應(yīng)的運動姿態(tài)序列。

98、（3）本發(fā)明基于樣本數(shù)據(jù)的一一對應(yīng)關(guān)系構(gòu)建多模態(tài)三元組，以約束粗粒度文本和運動姿態(tài)視頻的語義一致性，從而增強(qiáng)文本序列和姿態(tài)序列之間的語義共現(xiàn)程度，提高運動姿態(tài)視頻生成的準(zhǔn)確性和連貫性。

99、（4）本發(fā)明提出的運動姿態(tài)生成方法采用了深度神經(jīng)網(wǎng)絡(luò)、對齊和對比學(xué)習(xí)技術(shù)，實現(xiàn)了自然語句文本到生成逼真運動姿態(tài)的過程。經(jīng)過實驗，生成的運動姿態(tài)視頻具有較高的流暢度和一致性。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：唐申庚,王旭,程樂超,郭丹,洪日昌
技術(shù)所有人：合肥工業(yè)大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于跨模態(tài)語義關(guān)聯(lián)學(xué)習(xí)的運動姿態(tài)生成方法