一種基于提示學(xué)習(xí)的多模態(tài)目標(biāo)重識(shí)別方法

文檔序號(hào)：40405283發(fā)布日期：2024-12-20 12:29閱讀：8來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及計(jì)算機(jī)視覺領(lǐng)域，特別是涉及一種基于提示學(xué)習(xí)的多模態(tài)目標(biāo)重識(shí)別方法。

背景技術(shù)：

1、目標(biāo)重識(shí)別（reid）任務(wù)已經(jīng)成為圖像識(shí)別領(lǐng)域的重要研究方向，其主要目標(biāo)是通過分析不同攝像頭拍攝的圖像，識(shí)別并匹配相同目標(biāo)。傳統(tǒng)的reid方法多依賴于單一模態(tài)的圖像，通常為可見光（rgb）圖像，這在光照條件良好的情況下效果較好。然而，在光照不足或變化較大的環(huán)境中，rgb攝像頭的性能會(huì)顯著下降，而近紅外（nir）和熱紅外（tir）攝像頭則能夠提供更穩(wěn)定的圖像信息。

2、多模態(tài)目標(biāo)重識(shí)別通過結(jié)合多種光譜（模態(tài)）信息，能夠更好地應(yīng)對(duì)復(fù)雜的實(shí)際場(chǎng)景。例如，在監(jiān)控?cái)z像頭中，夜間或低光照環(huán)境下紅外攝像頭能捕捉到清晰的圖像，而白天則依賴于rgb攝像頭。因此，多模態(tài)重識(shí)別技術(shù)不僅能提高識(shí)別的準(zhǔn)確性，還能增強(qiáng)系統(tǒng)的魯棒性和實(shí)用性。

3、現(xiàn)有的多模態(tài)重識(shí)別方法通常使用復(fù)雜的、高度耦合的架構(gòu)，這些方法雖然有效但計(jì)算成本較高。此外，不同光譜之間顯著的分布差異也使得多模態(tài)特征的融合變得困難。

技術(shù)實(shí)現(xiàn)思路

1、針對(duì)現(xiàn)有技術(shù)中的上述不足，本發(fā)明提供的一種基于提示學(xué)習(xí)的多模態(tài)目標(biāo)重識(shí)別方法解決了現(xiàn)有多模態(tài)重識(shí)別方法計(jì)算成本高，以及不同光譜之間顯著的分布差異使得多模態(tài)特征融合更加困難的問題。

2、為了達(dá)到上述發(fā)明目的，本發(fā)明采用的技術(shù)方案為：一種基于提示學(xué)習(xí)的多模態(tài)目標(biāo)重識(shí)別方法，包括以下步驟：

3、s1：構(gòu)建基于提示學(xué)習(xí)的多模態(tài)行人重識(shí)別模型；

4、s2：建立損失函數(shù)，對(duì)基于提示學(xué)習(xí)的多模態(tài)行人重識(shí)別模型進(jìn)行模型訓(xùn)練；

5、s3：將訓(xùn)練完成后的基于提示學(xué)習(xí)的多模態(tài)行人重識(shí)別模型應(yīng)用到實(shí)際場(chǎng)景中，完成基于提示學(xué)習(xí)的多模態(tài)目標(biāo)重識(shí)別。

6、進(jìn)一步地，所述s1中基于提示學(xué)習(xí)的多模態(tài)行人重識(shí)別模型包括：

7、模態(tài)特征提取模塊，所述模態(tài)特征提取模塊用于從多模態(tài)圖像中提取全局特征信息；

8、模態(tài)提示向量模塊，所述模態(tài)提示向量模塊用于在不同模態(tài)特征之間建立通信通道，捕捉和轉(zhuǎn)移模態(tài)互補(bǔ)信息；

9、模態(tài)特征融合模塊用于實(shí)現(xiàn)不同模態(tài)特征的交互和融合；

10、模態(tài)缺失場(chǎng)景自適應(yīng)模塊用于動(dòng)態(tài)調(diào)整模型結(jié)構(gòu)。

11、進(jìn)一步地，所述模態(tài)特征提取模塊依次包括塊編碼器和多層串行的自注意力特征提取器；

12、所述塊編碼器表示為：

13、

14、

15、其中，為可見光模態(tài)塊編碼序列，為可見光圖像，為塊編碼器，為可見光模態(tài)特征序列，為類編碼，為向量拼接操作，為位置編碼；

16、

17、

18、其中，為近紅外模態(tài)塊編碼序列，為近紅外圖像，為近紅外模態(tài)特征序列；

19、

20、

21、其中，熱紅外模態(tài)塊編碼序列，為熱紅外圖像，為熱紅外模態(tài)特征序列；

22、所述自注意力特征提取器包括串行的多頭自注意力模塊、前饋神經(jīng)網(wǎng)絡(luò)和層歸一化模塊，表示為：

23、

24、

25、其中，為第層自注意力特征提取器中多頭注意力層輸出的可見光特征序列，為自注意力特征提取器第層的可見光圖像輸入，為多頭自注意力模塊，為前饋神經(jīng)網(wǎng)絡(luò)，為層歸一化模塊；

26、

27、

28、其中，為第層自注意力特征提取器中多頭注意力層輸出的近紅外特征序列，為自注意力特征提取器第層的近紅外圖像輸入；

29、

30、

31、其中，為第層自注意力特征提取器中多頭注意力層輸出的熱紅外特征序列，為自注意力特征提取器第層的熱紅外圖像輸入。

32、進(jìn)一步地，所述模態(tài)提示向量模塊包括模態(tài)提示向量注入模塊和提示交換模塊；

33、所述模態(tài)提示向量注入模塊在所述模態(tài)特征提取模塊的輸入空間中引入模態(tài)提示向量，所述模態(tài)提示向量表示為：

34、

35、其中，為可學(xué)習(xí)向量，為特征向量的維度；

36、將所述模態(tài)提示向量與所述塊編碼器中特征向量堆疊形成的向量立方拼接成，完成模態(tài)提示向量的注入；

37、

38、

39、其中，為向量立方，表示將張量堆疊操作，為實(shí)數(shù)集，為特征向量的長(zhǎng)度；

40、所述提示交換模塊位于所述自注意力特征提取器的輸出層，通過轉(zhuǎn)置操作改變模態(tài)提示向量的位置，表示為：

41、

42、其中，為自注意力特征提取器第層的向量立方，為自注意力特征提取器第層的模態(tài)提示向量，上標(biāo)表示將沿著第一個(gè)和第二個(gè)維度轉(zhuǎn)置。

43、進(jìn)一步地，所述模態(tài)特征融合模塊包括串行連接的模態(tài)特征高響應(yīng)區(qū)域選擇模塊和基于模態(tài)提示向量的多模態(tài)特征融合模塊，所述模態(tài)特征高響應(yīng)區(qū)域選擇模塊與模態(tài)特征提取模塊中的自注意力特征提取器串行連接；

44、所述模態(tài)特征高響應(yīng)區(qū)域選擇模塊通過從模態(tài)間向量選擇和模態(tài)內(nèi)向量選擇兩個(gè)角度篩選高響應(yīng)特征向量，所述模態(tài)間向量選擇表示為：

45、

46、其中，為模態(tài)關(guān)鍵區(qū)域掩碼，為根據(jù)元素索引生成關(guān)鍵區(qū)域掩碼，為從一組元素中找到排名前的元素，和分別為與模態(tài)提示相關(guān)的注意力得分；

47、所述模態(tài)內(nèi)向量選擇表示為：

48、

49、其中，為內(nèi)模態(tài)關(guān)鍵區(qū)域掩碼，為類編碼與圖像特征編碼的注意力得分；

50、所述模態(tài)特征高響應(yīng)區(qū)域選擇模塊選定的聯(lián)合掩碼表示為：

51、

52、其中，表示取并集操作。

53、進(jìn)一步地，所述基于模態(tài)提示向量的多模態(tài)特征融合模塊將模態(tài)提示向量作為查詢向量，通過交叉注意力機(jī)制引導(dǎo)不同模態(tài)的特征進(jìn)行融合，所述交叉注意力機(jī)制的公式為：

54、

55、

56、其中，為交叉注意力層，為第層提示向量，為從、和中，由模態(tài)特征高響應(yīng)區(qū)域選擇模塊篩選的高響應(yīng)局部特征向量序列，為歸一化指數(shù)函數(shù)，、和分別為查詢、關(guān)鍵字和值的映射矩陣，為張量點(diǎn)乘運(yùn)算符。

57、進(jìn)一步地，所述基于模態(tài)提示向量的多模態(tài)特征融合模塊的融合層表示為：

58、

59、

60、

61、其中，為第層特征融合模塊中交叉注意力層輸出特征序列，為多層感知器，為最終的模態(tài)融合特征，為最后層特征融合模塊輸出的特征序列。

62、進(jìn)一步地，所述模態(tài)缺失場(chǎng)景自適應(yīng)模塊包括提示向量屏蔽模塊和特征序列調(diào)整模塊，所述提示向量屏蔽模塊和特征序列調(diào)整模塊位于塊編碼器和第1層自注意力特征提取器之間；

63、所述提示向量屏蔽模塊在檢測(cè)到模態(tài)缺失時(shí)，通過與缺失模態(tài)相關(guān)的提示調(diào)整模型的結(jié)構(gòu)和操作；

64、所述特征序列調(diào)整模塊在模態(tài)缺失的情況下，進(jìn)行多模態(tài)令牌序列的調(diào)整。

65、進(jìn)一步地，所述s2中損失函數(shù)結(jié)合三元組損失和交叉熵?fù)p失，公式為：

66、

67、

68、

69、其中，為錨點(diǎn)樣本與正樣本之間的特征距離，為錨點(diǎn)樣本與負(fù)樣本之間的特征距離，為軟邊界超參數(shù)，為類別的平滑標(biāo)簽，為模型預(yù)測(cè)的類別的概率，為類別數(shù)量。

70、本發(fā)明的有益效果為：

71、（1）本發(fā)明提出的模態(tài)提示向量交換機(jī)制（prompt?transpose?mechanism）和提示模態(tài)融合模塊（pbmf）可以有效地在不同模態(tài)之間進(jìn)行信息交互和融合。通過在visiontransformer（vit）架構(gòu)中引入模態(tài)提示向量，模型能夠捕捉并利用各模態(tài)間的互補(bǔ)特征信息，顯著提升了多模態(tài)特征表示的表達(dá)能力。

72、（2）通過設(shè)計(jì)靈活的提示屏蔽和提示轉(zhuǎn)置機(jī)制，本發(fā)明能夠在某些模態(tài)缺失的情況下仍然保持較高的性能。這種處理模態(tài)缺失的能力使得模型在實(shí)際應(yīng)用場(chǎng)景中更加魯棒，不容易因?yàn)椴糠謧鞲衅魇Щ驍?shù)據(jù)缺失而顯著降低性能。

73、（3）本發(fā)明中采用的共享vit架構(gòu)和基于提示的特征融合策略，使得模型在保持高性能的同時(shí)，顯著減少了模型參數(shù)量和計(jì)算復(fù)雜度。與傳統(tǒng)方法相比，使用模態(tài)共享主干網(wǎng)絡(luò)，降低了硬件需求和能耗。

74、（4）本發(fā)明的多模態(tài)重識(shí)別模型在多個(gè)基準(zhǔn)數(shù)據(jù)集（如msvr310、rgbnt201、rgbnt100、market1501mm等）上的平均精度（map）和rank1準(zhǔn)確率均優(yōu)于當(dāng)前最先進(jìn)的方法。這些實(shí)驗(yàn)驗(yàn)證了本發(fā)明在處理多模態(tài)重識(shí)別任務(wù)中的高效性和優(yōu)越性。

75、（5）由于模型具有處理模態(tài)缺失的能力，并且能夠在不同模態(tài)組合下保持高性能，本發(fā)明可以適應(yīng)多種實(shí)際應(yīng)用場(chǎng)景，如智能監(jiān)控、自動(dòng)駕駛、身份驗(yàn)證等，在這些場(chǎng)景中，傳感器種類和獲取條件可能會(huì)發(fā)生變化。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張艷寧,羅文龍,張世周,王晨旭,王鵬,邢穎慧,梁國(guó)強(qiáng)
技術(shù)所有人：西北工業(yè)大學(xué)
我是此專利的發(fā)明人

上一篇：太陽(yáng)能光伏空調(diào)及其系統(tǒng)的制作方法
上一篇：基于螺桿的調(diào)水平結(jié)構(gòu)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于提示學(xué)習(xí)的多模態(tài)目標(biāo)重識(shí)別方法