本發(fā)明涉及計(jì)算機(jī)視覺領(lǐng)域,特別是涉及一種基于提示學(xué)習(xí)的多模態(tài)目標(biāo)重識(shí)別方法。
背景技術(shù):
1、目標(biāo)重識(shí)別(reid)任務(wù)已經(jīng)成為圖像識(shí)別領(lǐng)域的重要研究方向,其主要目標(biāo)是通過分析不同攝像頭拍攝的圖像,識(shí)別并匹配相同目標(biāo)。傳統(tǒng)的reid方法多依賴于單一模態(tài)的圖像,通常為可見光(rgb)圖像,這在光照條件良好的情況下效果較好。然而,在光照不足或變化較大的環(huán)境中,rgb攝像頭的性能會(huì)顯著下降,而近紅外(nir)和熱紅外(tir)攝像頭則能夠提供更穩(wěn)定的圖像信息。
2、多模態(tài)目標(biāo)重識(shí)別通過結(jié)合多種光譜(模態(tài))信息,能夠更好地應(yīng)對(duì)復(fù)雜的實(shí)際場(chǎng)景。例如,在監(jiān)控?cái)z像頭中,夜間或低光照環(huán)境下紅外攝像頭能捕捉到清晰的圖像,而白天則依賴于rgb攝像頭。因此,多模態(tài)重識(shí)別技術(shù)不僅能提高識(shí)別的準(zhǔn)確性,還能增強(qiáng)系統(tǒng)的魯棒性和實(shí)用性。
3、現(xiàn)有的多模態(tài)重識(shí)別方法通常使用復(fù)雜的、高度耦合的架構(gòu),這些方法雖然有效但計(jì)算成本較高。此外,不同光譜之間顯著的分布差異也使得多模態(tài)特征的融合變得困難。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)中的上述不足,本發(fā)明提供的一種基于提示學(xué)習(xí)的多模態(tài)目標(biāo)重識(shí)別方法解決了現(xiàn)有多模態(tài)重識(shí)別方法計(jì)算成本高,以及不同光譜之間顯著的分布差異使得多模態(tài)特征融合更加困難的問題。
2、為了達(dá)到上述發(fā)明目的,本發(fā)明采用的技術(shù)方案為:一種基于提示學(xué)習(xí)的多模態(tài)目標(biāo)重識(shí)別方法,包括以下步驟:
3、s1:構(gòu)建基于提示學(xué)習(xí)的多模態(tài)行人重識(shí)別模型;
4、s2:建立損失函數(shù),對(duì)基于提示學(xué)習(xí)的多模態(tài)行人重識(shí)別模型進(jìn)行模型訓(xùn)練;
5、s3:將訓(xùn)練完成后的基于提示學(xué)習(xí)的多模態(tài)行人重識(shí)別模型應(yīng)用到實(shí)際場(chǎng)景中,完成基于提示學(xué)習(xí)的多模態(tài)目標(biāo)重識(shí)別。
6、進(jìn)一步地,所述s1中基于提示學(xué)習(xí)的多模態(tài)行人重識(shí)別模型包括:
7、模態(tài)特征提取模塊,所述模態(tài)特征提取模塊用于從多模態(tài)圖像中提取全局特征信息;
8、模態(tài)提示向量模塊,所述模態(tài)提示向量模塊用于在不同模態(tài)特征之間建立通信通道,捕捉和轉(zhuǎn)移模態(tài)互補(bǔ)信息;
9、模態(tài)特征融合模塊用于實(shí)現(xiàn)不同模態(tài)特征的交互和融合;
10、模態(tài)缺失場(chǎng)景自適應(yīng)模塊用于動(dòng)態(tài)調(diào)整模型結(jié)構(gòu)。
11、進(jìn)一步地,所述模態(tài)特征提取模塊依次包括塊編碼器和多層串行的自注意力特征提取器;
12、所述塊編碼器表示為:
13、
14、
15、其中,為可見光模態(tài)塊編碼序列,為可見光圖像,為塊編碼器,為可見光模態(tài)特征序列,為類編碼,為向量拼接操作,為位置編碼;
16、
17、
18、其中,為近紅外模態(tài)塊編碼序列,為近紅外圖像,為近紅外模態(tài)特征序列;
19、
20、
21、其中,熱紅外模態(tài)塊編碼序列,為熱紅外圖像,為熱紅外模態(tài)特征序列;
22、所述自注意力特征提取器包括串行的多頭自注意力模塊、前饋神經(jīng)網(wǎng)絡(luò)和層歸一化模塊,表示為:
23、
24、
25、其中,為第層自注意力特征提取器中多頭注意力層輸出的可見光特征序列,為自注意力特征提取器第層的可見光圖像輸入,為多頭自注意力模塊,為前饋神經(jīng)網(wǎng)絡(luò),為層歸一化模塊;
26、
27、
28、其中,為第層自注意力特征提取器中多頭注意力層輸出的近紅外特征序列,為自注意力特征提取器第層的近紅外圖像輸入;
29、
30、
31、其中,為第層自注意力特征提取器中多頭注意力層輸出的熱紅外特征序列,為自注意力特征提取器第層的熱紅外圖像輸入。
32、進(jìn)一步地,所述模態(tài)提示向量模塊包括模態(tài)提示向量注入模塊和提示交換模塊;
33、所述模態(tài)提示向量注入模塊在所述模態(tài)特征提取模塊的輸入空間中引入模態(tài)提示向量,所述模態(tài)提示向量表示為:
34、
35、其中,為可學(xué)習(xí)向量,為特征向量的維度;
36、將所述模態(tài)提示向量與所述塊編碼器中特征向量堆疊形成的向量立方拼接成,完成模態(tài)提示向量的注入;
37、
38、
39、其中,為向量立方,表示將張量堆疊操作,為實(shí)數(shù)集,為特征向量的長(zhǎng)度;
40、所述提示交換模塊位于所述自注意力特征提取器的輸出層,通過轉(zhuǎn)置操作改變模態(tài)提示向量的位置,表示為:
41、
42、其中,為自注意力特征提取器第層的向量立方,為自注意力特征提取器第層的模態(tài)提示向量,上標(biāo)表示將沿著第一個(gè)和第二個(gè)維度轉(zhuǎn)置。
43、進(jìn)一步地,所述模態(tài)特征融合模塊包括串行連接的模態(tài)特征高響應(yīng)區(qū)域選擇模塊和基于模態(tài)提示向量的多模態(tài)特征融合模塊,所述模態(tài)特征高響應(yīng)區(qū)域選擇模塊與模態(tài)特征提取模塊中的自注意力特征提取器串行連接;
44、所述模態(tài)特征高響應(yīng)區(qū)域選擇模塊通過從模態(tài)間向量選擇和模態(tài)內(nèi)向量選擇兩個(gè)角度篩選高響應(yīng)特征向量,所述模態(tài)間向量選擇表示為:
45、
46、其中,為模態(tài)關(guān)鍵區(qū)域掩碼,為根據(jù)元素索引生成關(guān)鍵區(qū)域掩碼,為從一組元素中找到排名前的元素,和分別為與模態(tài)提示相關(guān)的注意力得分;
47、所述模態(tài)內(nèi)向量選擇表示為:
48、
49、其中,為內(nèi)模態(tài)關(guān)鍵區(qū)域掩碼,為類編碼與圖像特征編碼的注意力得分;
50、所述模態(tài)特征高響應(yīng)區(qū)域選擇模塊選定的聯(lián)合掩碼表示為:
51、
52、其中,表示取并集操作。
53、進(jìn)一步地,所述基于模態(tài)提示向量的多模態(tài)特征融合模塊將模態(tài)提示向量作為查詢向量,通過交叉注意力機(jī)制引導(dǎo)不同模態(tài)的特征進(jìn)行融合,所述交叉注意力機(jī)制的公式為:
54、
55、
56、其中,為交叉注意力層,為第層提示向量,為從、和中,由模態(tài)特征高響應(yīng)區(qū)域選擇模塊篩選的高響應(yīng)局部特征向量序列,為歸一化指數(shù)函數(shù),、和分別為查詢、關(guān)鍵字和值的映射矩陣,為張量點(diǎn)乘運(yùn)算符。
57、進(jìn)一步地,所述基于模態(tài)提示向量的多模態(tài)特征融合模塊的融合層表示為:
58、
59、
60、
61、其中,為第層特征融合模塊中交叉注意力層輸出特征序列,為多層感知器,為最終的模態(tài)融合特征,為最后層特征融合模塊輸出的特征序列。
62、進(jìn)一步地,所述模態(tài)缺失場(chǎng)景自適應(yīng)模塊包括提示向量屏蔽模塊和特征序列調(diào)整模塊,所述提示向量屏蔽模塊和特征序列調(diào)整模塊位于塊編碼器和第1層自注意力特征提取器之間;
63、所述提示向量屏蔽模塊在檢測(cè)到模態(tài)缺失時(shí),通過與缺失模態(tài)相關(guān)的提示調(diào)整模型的結(jié)構(gòu)和操作;
64、所述特征序列調(diào)整模塊在模態(tài)缺失的情況下,進(jìn)行多模態(tài)令牌序列的調(diào)整。
65、進(jìn)一步地,所述s2中損失函數(shù)結(jié)合三元組損失和交叉熵?fù)p失,公式為:
66、
67、
68、
69、其中,為錨點(diǎn)樣本與正樣本之間的特征距離,為錨點(diǎn)樣本與負(fù)樣本之間的特征距離,為軟邊界超參數(shù),為類別的平滑標(biāo)簽,為模型預(yù)測(cè)的類別的概率,為類別數(shù)量。
70、本發(fā)明的有益效果為:
71、(1)本發(fā)明提出的模態(tài)提示向量交換機(jī)制(prompt?transpose?mechanism)和提示模態(tài)融合模塊(pbmf)可以有效地在不同模態(tài)之間進(jìn)行信息交互和融合。通過在visiontransformer(vit)架構(gòu)中引入模態(tài)提示向量,模型能夠捕捉并利用各模態(tài)間的互補(bǔ)特征信息,顯著提升了多模態(tài)特征表示的表達(dá)能力。
72、(2)通過設(shè)計(jì)靈活的提示屏蔽和提示轉(zhuǎn)置機(jī)制,本發(fā)明能夠在某些模態(tài)缺失的情況下仍然保持較高的性能。這種處理模態(tài)缺失的能力使得模型在實(shí)際應(yīng)用場(chǎng)景中更加魯棒,不容易因?yàn)椴糠謧鞲衅魇Щ驍?shù)據(jù)缺失而顯著降低性能。
73、(3)本發(fā)明中采用的共享vit架構(gòu)和基于提示的特征融合策略,使得模型在保持高性能的同時(shí),顯著減少了模型參數(shù)量和計(jì)算復(fù)雜度。與傳統(tǒng)方法相比,使用模態(tài)共享主干網(wǎng)絡(luò),降低了硬件需求和能耗。
74、(4)本發(fā)明的多模態(tài)重識(shí)別模型在多個(gè)基準(zhǔn)數(shù)據(jù)集(如msvr310、rgbnt201、rgbnt100、market1501mm等)上的平均精度(map)和rank1準(zhǔn)確率均優(yōu)于當(dāng)前最先進(jìn)的方法。這些實(shí)驗(yàn)驗(yàn)證了本發(fā)明在處理多模態(tài)重識(shí)別任務(wù)中的高效性和優(yōu)越性。
75、(5)由于模型具有處理模態(tài)缺失的能力,并且能夠在不同模態(tài)組合下保持高性能,本發(fā)明可以適應(yīng)多種實(shí)際應(yīng)用場(chǎng)景,如智能監(jiān)控、自動(dòng)駕駛、身份驗(yàn)證等,在這些場(chǎng)景中,傳感器種類和獲取條件可能會(huì)發(fā)生變化。