亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于稀疏Transformer的視覺目標(biāo)跟蹤方法

文檔序號(hào):40390533發(fā)布日期:2024-12-20 12:13閱讀:5來源:國(guó)知局
一種基于稀疏Transformer的視覺目標(biāo)跟蹤方法

本發(fā)明涉及視覺目標(biāo)跟蹤,尤其涉及一種基于稀疏transformer的視覺目標(biāo)跟蹤方法。


背景技術(shù):

1、視覺目標(biāo)跟蹤是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要研究?jī)?nèi)容,目的是在視頻序列中連續(xù)捕獲目標(biāo)對(duì)象的位置,并在目標(biāo)對(duì)象發(fā)生遮擋、變形等挑戰(zhàn)情況下仍然能夠準(zhǔn)確跟蹤目標(biāo)。隨著科技的發(fā)展,視覺目標(biāo)跟蹤技術(shù)在視頻監(jiān)控、智能交通、軍事制導(dǎo)等領(lǐng)域有著廣泛的應(yīng)用。

2、目前,單目標(biāo)跟蹤領(lǐng)域的主流算法可以分為基于分類和回歸的跟蹤以及基于角點(diǎn)預(yù)測(cè)的跟蹤兩大類。chen等人使用基于分類和回歸的跟蹤算法進(jìn)行目標(biāo)跟蹤,設(shè)計(jì)分類頭來定位目標(biāo),預(yù)測(cè)目標(biāo)的前景和背景,設(shè)計(jì)回歸頭估計(jì)目標(biāo)的尺度,每個(gè)頭部網(wǎng)絡(luò)都需要一個(gè)或多個(gè)損失函數(shù),這增加了跟蹤框架的復(fù)雜性。yan等人使用基于角點(diǎn)預(yù)測(cè)的跟蹤算法進(jìn)行目標(biāo)跟蹤,設(shè)計(jì)頭部網(wǎng)絡(luò),實(shí)現(xiàn)對(duì)目標(biāo)對(duì)象的邊界框角點(diǎn)的預(yù)測(cè),同樣,這些頭部網(wǎng)絡(luò)的設(shè)計(jì)也需要大量的損失函數(shù),使得超參數(shù)的數(shù)量增加,進(jìn)而導(dǎo)致訓(xùn)練的難度增加。

3、transformer模型最初是用于自然語言處理任務(wù),特別是機(jī)器翻譯。通過引入注意力機(jī)制,取代了傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò),提高了處理速度和翻譯質(zhì)量。隨著transformer模型在自然語言處理中的成功,研究人員開始探索其在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用。目前已經(jīng)成功引入到目標(biāo)跟蹤中。transformer中的多頭注意力機(jī)制能夠讓模型更加靈活和高效地處理復(fù)雜的依賴關(guān)系和全局信息,提升生成序列的質(zhì)量。但在處理包含大量背景信息或其他復(fù)雜場(chǎng)景時(shí),其全局關(guān)注能力會(huì)導(dǎo)致重要信息(如搜索區(qū)域內(nèi)的目標(biāo))的權(quán)重被稀釋,分配不必要的注意力給背景信息,從而降低跟蹤性能。

4、現(xiàn)有的單目標(biāo)跟蹤算法通常存在下述三方面問題:

5、1)需要設(shè)計(jì)定制化的頭部網(wǎng)絡(luò),增加框架的復(fù)雜性。

6、2)多個(gè)損失函數(shù)的引入需要調(diào)整更多的超參數(shù),增加模型調(diào)優(yōu)的難度和不確定性。

7、3)多頭注意力機(jī)制在處理復(fù)雜場(chǎng)景時(shí),其全局關(guān)注能力降低模型對(duì)關(guān)鍵信息的關(guān)注。


技術(shù)實(shí)現(xiàn)思路

1、針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提供一種基于稀疏transformer的視覺目標(biāo)跟蹤方法;本方法將目標(biāo)跟蹤問題轉(zhuǎn)化為序列生成問題,首先使用了一種簡(jiǎn)單的基于transformer的編碼器-解碼器架構(gòu),消除了額外的頭網(wǎng)絡(luò),簡(jiǎn)化了跟蹤架構(gòu);其次,將稀疏注意力機(jī)制加入到解碼器中,使模型更多的關(guān)注關(guān)鍵信息,提高前景和背景之間的區(qū)分度;實(shí)驗(yàn)表明,面向具有嚴(yán)重遮擋、光照和尺度變化、目標(biāo)突變運(yùn)動(dòng)等挑戰(zhàn)性的標(biāo)準(zhǔn)跟蹤數(shù)據(jù)集,提出算法能完成復(fù)雜場(chǎng)景下的跟蹤任務(wù);

2、一種基于稀疏transformer的視覺目標(biāo)跟蹤方法,包括以下步驟:

3、步驟1:構(gòu)造網(wǎng)絡(luò)模型;

4、所述網(wǎng)絡(luò)模型包括線性投影層、視覺嵌入層、編碼器、解碼器,所述線性投影層將圖像補(bǔ)丁映射到視覺嵌入層;所述視覺嵌入層將添加位置信息后的視覺嵌入輸入到編碼器;所述編碼器提取視覺特征;所述解碼器生成目標(biāo)的邊界框值;

5、所述編碼器包括多頭自注意層以及word?to?embedding層,所述多頭自注意層用于對(duì)搜索圖像和模板圖像中的視覺特征進(jìn)行聯(lián)合提??;所述word?to?embedding層用于將離散的坐標(biāo)轉(zhuǎn)換為連續(xù)的詞嵌入;

6、所述解碼器包括掩碼多頭注意層、稀疏多頭注意層、前饋神經(jīng)網(wǎng)絡(luò)層以及embedding?to?word層;所述掩碼多頭注意層限制每個(gè)序列元素的輸出只依賴于先前的元素;所述稀疏多頭注意層用于掩碼多頭注意的輸出與編碼器的輸出結(jié)合,使模型更關(guān)注重要信息;所述前饋神經(jīng)網(wǎng)絡(luò)層為下一個(gè)解碼器塊生成嵌入。embedding?to?word層,用于將解碼器的輸出轉(zhuǎn)換回離散的坐標(biāo),以生成最終的預(yù)測(cè)結(jié)果。

7、步驟2:構(gòu)造稀疏注意力機(jī)制,將所述稀疏注意力機(jī)制融入網(wǎng)絡(luò)模型中的解碼器中;

8、步驟2.1:將查詢與鍵進(jìn)行矩陣乘法操作,得到注意力矩陣;

9、步驟2.2:將注意力矩陣除以縮放因子進(jìn)行縮放;所述縮放因子為鍵的維度;

10、步驟2.3:對(duì)縮放后的注意力矩陣每行中前k個(gè)最大的元素進(jìn)行歸一化處理,其它元素全部用0代替;

11、步驟2.4:將歸一化后的矩陣與值矩陣相乘,得到最后的輸出;

12、步驟3:依據(jù)損失函數(shù),使生成的目標(biāo)序列與實(shí)際目標(biāo)序列之間的對(duì)數(shù)似然最大化,對(duì)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練;

13、所述損失函數(shù)如下:

14、

15、其中,p(·)表示softmax的概率,s和t分別表示搜索圖像和模板圖像,j表示當(dāng)前正在生成的令牌在序列中的位置,zj表示當(dāng)前預(yù)測(cè)出的目標(biāo)序列,z<j表示j之前的目標(biāo)序列,l表示目標(biāo)序列的長(zhǎng)度。

16、步驟3.1:將搜索圖像和模板圖像劃分為圖像塊,然后通過線性投影層將圖像塊轉(zhuǎn)換為視覺嵌入;

17、步驟3.2:在視覺嵌入層中增加位置嵌入以保留目標(biāo)的位置信息;

18、步驟3.3:將添加位置信息后的視覺嵌入輸入到編碼器進(jìn)行視覺特征提??;

19、所述步驟3.3具體為:通過編碼器的多頭自注意層對(duì)搜索圖像和模板圖像中的視覺特征進(jìn)行聯(lián)合提取,學(xué)習(xí)它們之間的特征對(duì)應(yīng)關(guān)系,只將搜索圖像的特征輸入到解碼器。

20、所述編碼器在標(biāo)準(zhǔn)的視覺transformer架構(gòu)基礎(chǔ)上,進(jìn)行兩處優(yōu)化:

21、(1)刪除了class令牌;

22、(2)在最后一層增加一個(gè)線性投影,使編碼器和解碼器的特征維度對(duì)齊;

23、步驟3.4:將目標(biāo)邊界框轉(zhuǎn)換為一系列離散的令牌,輸入到word?to?embedding層;

24、步驟3.5:在word?to?embedding層中加入位置嵌入,融合后的嵌入輸入到解碼器的掩碼多頭注意層;

25、步驟3.6:掩碼多頭注意層輸出的詞嵌入與編碼器輸出的視覺特征共同輸入到解碼器的稀疏多頭注意層;

26、步驟3.7:通過embedding?to?word層,將解碼器的輸出轉(zhuǎn)換回離散的坐標(biāo),以生成最終的目標(biāo)邊界坐標(biāo);

27、步驟4:利用訓(xùn)練得到的網(wǎng)絡(luò)模型,對(duì)視頻中的目標(biāo)進(jìn)行跟蹤,獲得跟蹤結(jié)果。

28、采用上述技術(shù)方案所產(chǎn)生的有益效果在于:

29、本發(fā)明提供一種基于稀疏transformer的視覺目標(biāo)跟蹤方法。針對(duì)現(xiàn)有跟蹤框架復(fù)雜度高的問題,使用一種簡(jiǎn)單的基于transformer的編碼器-解碼器架構(gòu),不需要定制化的頭部網(wǎng)絡(luò),簡(jiǎn)化了跟蹤框架。針對(duì)現(xiàn)有跟蹤方法中損失函數(shù)的冗余導(dǎo)致需要調(diào)整更多的超參數(shù),增加模型調(diào)優(yōu)的難度和不確定性的問題,僅使用交叉熵?fù)p失最大化生成的目標(biāo)序列與實(shí)際目標(biāo)序列之間的對(duì)數(shù)似然,而無需其它損失函數(shù)。針對(duì)注意力機(jī)制在處理復(fù)雜場(chǎng)景時(shí),其全局關(guān)注能力降低模型對(duì)關(guān)鍵信息的關(guān)注的問題,引入了稀疏注意力機(jī)制,在處理包含大量背景信息或其他復(fù)雜場(chǎng)景時(shí),使模型更加關(guān)注關(guān)鍵信息,提高前景和背景的區(qū)分度。



技術(shù)特征:

1.一種基于稀疏transformer的視覺目標(biāo)跟蹤方法,其特征在于,包括以下步驟:

2.根據(jù)權(quán)利要求1所述的一種基于稀疏transformer的視覺目標(biāo)跟蹤方法,其特征在于,所述網(wǎng)絡(luò)模型包括線性投影層、視覺嵌入層、編碼器、解碼器,所述線性投影層將圖像補(bǔ)丁映射到視覺嵌入層;所述視覺嵌入層將添加位置信息后的視覺嵌入輸入到編碼器;所述編碼器提取視覺特征;所述解碼器生成目標(biāo)的邊界框值。

3.根據(jù)權(quán)利要求2所述的一種基于稀疏transformer的視覺目標(biāo)跟蹤方法,其特征在于,所述編碼器包括多頭自注意層以及word?to?embedding層,所述多頭自注意層用于對(duì)搜索圖像和模板圖像中的視覺特征進(jìn)行聯(lián)合提取;所述word?to?embedding層用于將離散的坐標(biāo)轉(zhuǎn)換為連續(xù)的詞嵌入;

4.根據(jù)權(quán)利要求1所述的一種基于稀疏transformer的視覺目標(biāo)跟蹤方法,其特征在于,所述步驟2具體包括以下步驟:

5.根據(jù)權(quán)利要求1所述的一種基于稀疏transformer的視覺目標(biāo)跟蹤方法,其特征在于,步驟3中所述損失函數(shù)如下:

6.根據(jù)權(quán)利要求1所述的一種基于稀疏transformer的視覺目標(biāo)跟蹤方法,其特征在于,所述步驟3具體包括以下步驟:

7.根據(jù)權(quán)利要求6所述的一種基于稀疏transformer的視覺目標(biāo)跟蹤方法,其特征在于,所述步驟3.3具體為:通過編碼器的多頭自注意層對(duì)搜索圖像和模板圖像中的視覺特征進(jìn)行聯(lián)合提取,學(xué)習(xí)它們之間的特征對(duì)應(yīng)關(guān)系,只將搜索圖像的特征輸入到解碼器。

8.根據(jù)權(quán)利要求6所述的一種基于稀疏transformer的視覺目標(biāo)跟蹤方法,其特征在于,步驟3.3中對(duì)所述編碼器在標(biāo)準(zhǔn)的視覺transformer架構(gòu)基礎(chǔ)上,進(jìn)行兩處優(yōu)化:


技術(shù)總結(jié)
本發(fā)明提供一種基于稀疏Transformer的視覺目標(biāo)跟蹤方法,涉及視覺目標(biāo)跟蹤技術(shù)領(lǐng)域,本方法將目標(biāo)跟蹤問題轉(zhuǎn)化為序列生成問題,首先使用了一種簡(jiǎn)單的基于Transformer的編碼器?解碼器架構(gòu),消除了額外的頭網(wǎng)絡(luò),簡(jiǎn)化了跟蹤架構(gòu);其次,將稀疏注意力機(jī)制加入到解碼器中,使模型更多的關(guān)注關(guān)鍵信息,提高前景和背景之間的區(qū)分度。所述方法包括:構(gòu)造網(wǎng)絡(luò)模型;構(gòu)造稀疏注意力機(jī)制,在網(wǎng)絡(luò)模型中的解碼器中應(yīng)用所述稀疏注意力機(jī)制;依據(jù)損失函數(shù),對(duì)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練;利用訓(xùn)練得到的網(wǎng)絡(luò)模型,對(duì)視頻中的目標(biāo)進(jìn)行跟蹤。本發(fā)明提出的方法在面向具有嚴(yán)重遮擋、光照和尺度變化等復(fù)雜場(chǎng)景時(shí),具有更高的準(zhǔn)確性和魯棒性。

技術(shù)研發(fā)人員:田丹,劉東鑫,王丹,郝穎,王肖
受保護(hù)的技術(shù)使用者:沈陽(yáng)大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/19
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1