一種基于解耦視覺提示微調(diào)的小樣本分類方法

文檔序號：40466758發(fā)布日期：2024-12-27 09:32閱讀：5來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及計(jì)算機(jī)視覺的小樣本圖像分類，尤其是一種基于解耦視覺提示微調(diào)的小樣本分類方法。

背景技術(shù)：

1、隨著深度學(xué)習(xí)的迅速發(fā)展，模型通過對海量數(shù)據(jù)的學(xué)習(xí)，具有了很強(qiáng)的表征能力。然而，在數(shù)據(jù)領(lǐng)域發(fā)生轉(zhuǎn)變、數(shù)據(jù)量稀缺的小樣本問題場景下仍不可避免地發(fā)生過擬合問題。在真實(shí)應(yīng)用場景，例如醫(yī)療、軍事領(lǐng)域中，由于隱私、安全性或數(shù)據(jù)標(biāo)注成本高昂等因素，無法訪問充足的帶標(biāo)注的訓(xùn)練數(shù)據(jù)。因而，在此類場景下，小樣本學(xué)習(xí)具有重要的研究價(jià)值和應(yīng)用需求。

2、小樣本學(xué)習(xí)，旨在解決數(shù)據(jù)稀缺場景下，讓模型具有快速學(xué)習(xí)能力的問題。目前，一種小樣本學(xué)習(xí)任務(wù)普遍采用的范式是：首先，在較大規(guī)模的數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練，使主干網(wǎng)絡(luò)初步獲得對圖像的表征能力；隨后，遵循元學(xué)習(xí)訓(xùn)練和測試策略，在數(shù)據(jù)集上隨機(jī)采樣并構(gòu)建批量符合小樣本設(shè)定的“n-way?k-shot”元分類任務(wù)：在一個(gè)n分類任務(wù)中，每個(gè)類別中僅提供k個(gè)已知樣本。在每個(gè)任務(wù)中，通過計(jì)算未知樣本和已知類別之間的相似關(guān)系進(jìn)行分類。模型通過在批量元訓(xùn)練任務(wù)上微調(diào)，最終在無重復(fù)類別的元測試任務(wù)上進(jìn)行驗(yàn)證。由于輸入圖像除了包含用于分類的主體，往往還包含諸如背景等干擾因素，對小樣本分類性能存在阻礙作用。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的是為了解決模型在提取圖像特征時(shí)無法聚焦于與分類有關(guān)的關(guān)鍵區(qū)域的問題，提供的一種基于解耦視覺提示微調(diào)的小樣本分類方法。本方法充分利用已知支持樣本的信息，在特征提取階段引入一對可學(xué)習(xí)的解耦視覺提示，一方面學(xué)習(xí)并增強(qiáng)支持樣本中與分類相關(guān)的語義信息，并將該信息作為提示傳遞給未知的查詢樣本；另一方面，抽取并剔除冗余特征的干擾。實(shí)現(xiàn)圖像特征表示的自適應(yīng)動態(tài)調(diào)整，從而提升了分類性能。

2、本發(fā)明的目的是這樣實(shí)現(xiàn)的：

3、一種基于解耦視覺提示微調(diào)的小樣本分類方法，其特征在于，包括以下步驟：

4、步驟1：數(shù)據(jù)集的構(gòu)建

5、收集圖像數(shù)據(jù)，為預(yù)訓(xùn)練階段及小樣本微調(diào)階段構(gòu)建不同的數(shù)據(jù)集；預(yù)訓(xùn)練階段數(shù)據(jù)集由大量無標(biāo)簽的圖像數(shù)據(jù)構(gòu)成；小樣本微調(diào)階段，采用元學(xué)習(xí)的訓(xùn)練策略，以任務(wù)為單位構(gòu)建數(shù)據(jù)集；其中，每個(gè)任務(wù)包含支持集s和查詢集q，支持集s包含n個(gè)類別，每個(gè)類別中有k個(gè)已知類別的樣本，被記作“n-way?k-shot”；查詢集q中是待預(yù)測的未知樣本；

6、步驟2：主干網(wǎng)絡(luò)預(yù)訓(xùn)練

7、主干網(wǎng)絡(luò)采用vision?transformer結(jié)構(gòu)；預(yù)訓(xùn)練數(shù)據(jù)集的圖像首先被分割成圖像塊序列，并通過數(shù)據(jù)增強(qiáng)提高數(shù)據(jù)多樣性；隨機(jī)選擇部分圖像塊進(jìn)行掩碼處理，通過自監(jiān)督學(xué)習(xí)策略，使主干網(wǎng)絡(luò)學(xué)會根據(jù)未被掩碼的區(qū)域預(yù)測出被掩碼的部分；結(jié)合圖像級別和圖像塊級別的自蒸餾損失對主干網(wǎng)絡(luò)的參數(shù)進(jìn)行多輪迭代優(yōu)化，確保主干網(wǎng)絡(luò)學(xué)習(xí)到豐富的視覺語義；

8、步驟3：解耦視覺提示的設(shè)計(jì)與運(yùn)用

9、基于預(yù)訓(xùn)練的主干網(wǎng)絡(luò)，引入一對可學(xué)習(xí)的解耦視覺提示：與分類有關(guān)的視覺提示以及與分類無關(guān)的視覺提示其中n、t和d分別表示支持集類別數(shù)、視覺提示的令牌長度和令牌嵌入表示的維度；p中包含n+1個(gè)分別對應(yīng)n個(gè)已知支持類別和1個(gè)未知查詢類別，用于學(xué)習(xí)并增強(qiáng)與分類對應(yīng)的語義信息，并將語義信息從支持傳遞給查詢；p被共用于所有類別的樣本，用于抽取并剔除冗余特征的干擾；運(yùn)用這對視覺提示實(shí)現(xiàn)圖像特征表示的自適應(yīng)動態(tài)調(diào)整的具體步驟如下：

10、3-1：任務(wù)中的每張圖像劃分并表示為長度為m的圖像塊序列為每個(gè)序列拼接類別令牌c0∈rd的同時(shí)，拼接對應(yīng)與分類有關(guān)的可學(xué)習(xí)的視覺提示公式如下：

11、

12、[·]代表拼接操作；h)代表輸入特征表示，送入主干網(wǎng)絡(luò)，主干網(wǎng)絡(luò)每層注意力機(jī)制的計(jì)算公式如下：

13、

14、其中，上標(biāo)l(0≤l≤11)表示主干網(wǎng)絡(luò)層數(shù)編號，attn表示原始自注意力機(jī)制，過程如下：

15、q＝h1w＝,k＝h1wk,v＝h1wa

16、

17、w＝,wk,wa分別代表不同的可學(xué)習(xí)權(quán)重矩陣，以獲得h1分別在三個(gè)特征空間中的投影q,k,v，dl表示k的特征表示維度，softmax代表激活函數(shù)；

18、3-2：為了削弱冗余特征與鑒別特征之間的關(guān)聯(lián)關(guān)系，在主干網(wǎng)絡(luò)的第六層引入一條由值-值注意力機(jī)制構(gòu)成的新分支，該值-值注意力機(jī)制表示為：

19、v＝h1wa

20、

21、dn表示v的特征表示維度；和原始自注意力機(jī)制相比，僅用投影v替換了q,k；并且由值-值注意力機(jī)制構(gòu)成的新分支的模型參數(shù)與原分支共享；

22、3-3：為了在不干擾原特征提取過程中排除與分類無關(guān)特征的干擾，從主干網(wǎng)絡(luò)的第六層開始，采用冗余特征提取注意力機(jī)制替換原分支中的自注意力機(jī)制；冗余特征提取注意力機(jī)制的關(guān)鍵特征在于只為投影q拼接與分類無關(guān)的可學(xué)習(xí)視覺提示所用公式如下：

23、

24、上式亦可推導(dǎo)為如下形式：

25、

26、其中，后項(xiàng)與原始自注意力輸出相同，可以直接作為下一層注意力機(jī)制的輸入；前項(xiàng)則表示當(dāng)前層從圖像中提取到的冗余特征表示，將冗余特征表示在任務(wù)樣本維度進(jìn)行平均，并在后續(xù)層中逐層累加；t表示矩陣轉(zhuǎn)置操作；

27、步驟4：支持向查詢傳遞機(jī)制的設(shè)計(jì)與構(gòu)建

28、建立一種實(shí)例查詢機(jī)制，實(shí)現(xiàn)在特征提取階段，支持集知識向查詢樣本的傳遞：關(guān)聯(lián)每個(gè)樣本的類別令牌c和對應(yīng)的與分類有關(guān)的視覺提示p，以鍵-值對的形式表示，計(jì)算查詢樣本鍵cw,(＝)與各個(gè)支持樣本鍵c,(x)之間的相似度，選擇最相似的支持樣本，計(jì)算最相似的支持樣本的對應(yīng)值與當(dāng)前查詢樣本對應(yīng)值之間的均值，來更新查詢樣本的與分類有關(guān)的視覺提示，公式表示如下：

29、

30、i,j分別表示支持樣本和查詢樣本的編號，sim(·)表示計(jì)算余弦相似度，i表示和查詢樣本最相關(guān)的支持樣本的編號；

31、步驟5：自適應(yīng)特征表示的計(jì)算

32、利用輸出層的視覺提示表示和類別令牌優(yōu)化圖像的特征表示，公式如下：

33、

34、l表示輸出層編號，λ1和λ2分別表示類別令牌表示和視覺提示表示對圖像自適應(yīng)特征表示的影響權(quán)重，二者均大于0；

35、步驟6：查詢集樣本類別預(yù)測

36、6-1：計(jì)算每個(gè)支持樣本特征表示與查詢樣本特征表示間的相似度矩陣，分別表示支持樣本每個(gè)圖像塊的特征表示和查詢樣本每個(gè)圖像塊的特征表示，對于每個(gè)查詢樣本，有nk個(gè)相似度矩陣，每個(gè)相似度矩陣中每個(gè)元素sij的計(jì)算方式如下：

37、

38、6-2：對相似度矩陣進(jìn)行非線性變換，并按支持樣本類別求和，獲得查詢樣本的類別預(yù)測，公式表示如下：

39、

40、sal,w表示類別中編號為k的支持樣本和查詢樣本之間每個(gè)圖像塊的相似度，表示查詢樣本屬于類別的概率值，選擇概率值最大的類別作為查詢樣本的預(yù)測輸出類別；

41、步驟7：小樣本微調(diào)階段模型訓(xùn)練

42、采用交叉熵?fù)p失作為分類損失函數(shù)，回傳梯度實(shí)現(xiàn)對視覺提示和模型參數(shù)的更新，損失計(jì)算如公式所示：

43、

44、表示查詢樣本預(yù)測為類別的概率值，表示查詢樣本的預(yù)測類別，當(dāng)時(shí)，i(·)＝1，反之i(·)＝0，n～表示查詢樣本的個(gè)數(shù)。

45、本發(fā)明與現(xiàn)有技術(shù)相比具有方法簡便，能夠在不借助額外補(bǔ)充信息的情況下，充分利用小樣本任務(wù)中支持集樣本提供的信息，僅采用一對可學(xué)習(xí)的解耦視覺提示來幫助圖像的特征表示的自適應(yīng)動態(tài)調(diào)整。從而獲得更準(zhǔn)確的預(yù)測效果。方法簡便，使用效果好，具有良好的應(yīng)用前景和商業(yè)價(jià)值。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：鄭婉婷,張志忠,范超杰,譚鑫,謝源,馬利莊
技術(shù)所有人：華東師范大學(xué)
我是此專利的發(fā)明人

上一篇：一種昆蟲嗅覺引誘實(shí)驗(yàn)裝置
上一篇：一種基于齒輪傳動的升降機(jī)構(gòu)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于解耦視覺提示微調(diào)的小樣本分類方法