本發(fā)明涉及計(jì)算機(jī)視覺的小樣本圖像分類,尤其是一種基于解耦視覺提示微調(diào)的小樣本分類方法。
背景技術(shù):
1、隨著深度學(xué)習(xí)的迅速發(fā)展,模型通過對海量數(shù)據(jù)的學(xué)習(xí),具有了很強(qiáng)的表征能力。然而,在數(shù)據(jù)領(lǐng)域發(fā)生轉(zhuǎn)變、數(shù)據(jù)量稀缺的小樣本問題場景下仍不可避免地發(fā)生過擬合問題。在真實(shí)應(yīng)用場景,例如醫(yī)療、軍事領(lǐng)域中,由于隱私、安全性或數(shù)據(jù)標(biāo)注成本高昂等因素,無法訪問充足的帶標(biāo)注的訓(xùn)練數(shù)據(jù)。因而,在此類場景下,小樣本學(xué)習(xí)具有重要的研究價(jià)值和應(yīng)用需求。
2、小樣本學(xué)習(xí),旨在解決數(shù)據(jù)稀缺場景下,讓模型具有快速學(xué)習(xí)能力的問題。目前,一種小樣本學(xué)習(xí)任務(wù)普遍采用的范式是:首先,在較大規(guī)模的數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,使主干網(wǎng)絡(luò)初步獲得對圖像的表征能力;隨后,遵循元學(xué)習(xí)訓(xùn)練和測試策略,在數(shù)據(jù)集上隨機(jī)采樣并構(gòu)建批量符合小樣本設(shè)定的“n-way?k-shot”元分類任務(wù):在一個(gè)n分類任務(wù)中,每個(gè)類別中僅提供k個(gè)已知樣本。在每個(gè)任務(wù)中,通過計(jì)算未知樣本和已知類別之間的相似關(guān)系進(jìn)行分類。模型通過在批量元訓(xùn)練任務(wù)上微調(diào),最終在無重復(fù)類別的元測試任務(wù)上進(jìn)行驗(yàn)證。由于輸入圖像除了包含用于分類的主體,往往還包含諸如背景等干擾因素,對小樣本分類性能存在阻礙作用。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是為了解決模型在提取圖像特征時(shí)無法聚焦于與分類有關(guān)的關(guān)鍵區(qū)域的問題,提供的一種基于解耦視覺提示微調(diào)的小樣本分類方法。本方法充分利用已知支持樣本的信息,在特征提取階段引入一對可學(xué)習(xí)的解耦視覺提示,一方面學(xué)習(xí)并增強(qiáng)支持樣本中與分類相關(guān)的語義信息,并將該信息作為提示傳遞給未知的查詢樣本;另一方面,抽取并剔除冗余特征的干擾。實(shí)現(xiàn)圖像特征表示的自適應(yīng)動態(tài)調(diào)整,從而提升了分類性能。
2、本發(fā)明的目的是這樣實(shí)現(xiàn)的:
3、一種基于解耦視覺提示微調(diào)的小樣本分類方法,其特征在于,包括以下步驟:
4、步驟1:數(shù)據(jù)集的構(gòu)建
5、收集圖像數(shù)據(jù),為預(yù)訓(xùn)練階段及小樣本微調(diào)階段構(gòu)建不同的數(shù)據(jù)集;預(yù)訓(xùn)練階段數(shù)據(jù)集由大量無標(biāo)簽的圖像數(shù)據(jù)構(gòu)成;小樣本微調(diào)階段,采用元學(xué)習(xí)的訓(xùn)練策略,以任務(wù)為單位構(gòu)建數(shù)據(jù)集;其中,每個(gè)任務(wù)包含支持集s和查詢集q,支持集s包含n個(gè)類別,每個(gè)類別中有k個(gè)已知類別的樣本,被記作“n-way?k-shot”;查詢集q中是待預(yù)測的未知樣本;
6、步驟2:主干網(wǎng)絡(luò)預(yù)訓(xùn)練
7、主干網(wǎng)絡(luò)采用vision?transformer結(jié)構(gòu);預(yù)訓(xùn)練數(shù)據(jù)集的圖像首先被分割成圖像塊序列,并通過數(shù)據(jù)增強(qiáng)提高數(shù)據(jù)多樣性;隨機(jī)選擇部分圖像塊進(jìn)行掩碼處理,通過自監(jiān)督學(xué)習(xí)策略,使主干網(wǎng)絡(luò)學(xué)會根據(jù)未被掩碼的區(qū)域預(yù)測出被掩碼的部分;結(jié)合圖像級別和圖像塊級別的自蒸餾損失對主干網(wǎng)絡(luò)的參數(shù)進(jìn)行多輪迭代優(yōu)化,確保主干網(wǎng)絡(luò)學(xué)習(xí)到豐富的視覺語義;
8、步驟3:解耦視覺提示的設(shè)計(jì)與運(yùn)用
9、基于預(yù)訓(xùn)練的主干網(wǎng)絡(luò),引入一對可學(xué)習(xí)的解耦視覺提示:與分類有關(guān)的視覺提示以及與分類無關(guān)的視覺提示其中n、t和d分別表示支持集類別數(shù)、視覺提示的令牌長度和令牌嵌入表示的維度;p中包含n+1個(gè)分別對應(yīng)n個(gè)已知支持類別和1個(gè)未知查詢類別,用于學(xué)習(xí)并增強(qiáng)與分類對應(yīng)的語義信息,并將語義信息從支持傳遞給查詢;p被共用于所有類別的樣本,用于抽取并剔除冗余特征的干擾;運(yùn)用這對視覺提示實(shí)現(xiàn)圖像特征表示的自適應(yīng)動態(tài)調(diào)整的具體步驟如下:
10、3-1:任務(wù)中的每張圖像劃分并表示為長度為m的圖像塊序列為每個(gè)序列拼接類別令牌c0∈rd的同時(shí),拼接對應(yīng)與分類有關(guān)的可學(xué)習(xí)的視覺提示公式如下:
11、
12、[·]代表拼接操作;h)代表輸入特征表示,送入主干網(wǎng)絡(luò),主干網(wǎng)絡(luò)每層注意力機(jī)制的計(jì)算公式如下:
13、
14、其中,上標(biāo)l(0≤l≤11)表示主干網(wǎng)絡(luò)層數(shù)編號,attn表示原始自注意力機(jī)制,過程如下:
15、q=h1w=,k=h1wk,v=h1wa
16、
17、w=,wk,wa分別代表不同的可學(xué)習(xí)權(quán)重矩陣,以獲得h1分別在三個(gè)特征空間中的投影q,k,v,dl表示k的特征表示維度,softmax代表激活函數(shù);
18、3-2:為了削弱冗余特征與鑒別特征之間的關(guān)聯(lián)關(guān)系,在主干網(wǎng)絡(luò)的第六層引入一條由值-值注意力機(jī)制構(gòu)成的新分支,該值-值注意力機(jī)制表示為:
19、v=h1wa
20、
21、dn表示v的特征表示維度;和原始自注意力機(jī)制相比,僅用投影v替換了q,k;并且由值-值注意力機(jī)制構(gòu)成的新分支的模型參數(shù)與原分支共享;
22、3-3:為了在不干擾原特征提取過程中排除與分類無關(guān)特征的干擾,從主干網(wǎng)絡(luò)的第六層開始,采用冗余特征提取注意力機(jī)制替換原分支中的自注意力機(jī)制;冗余特征提取注意力機(jī)制的關(guān)鍵特征在于只為投影q拼接與分類無關(guān)的可學(xué)習(xí)視覺提示所用公式如下:
23、
24、上式亦可推導(dǎo)為如下形式:
25、
26、其中,后項(xiàng)與原始自注意力輸出相同,可以直接作為下一層注意力機(jī)制的輸入;前項(xiàng)則表示當(dāng)前層從圖像中提取到的冗余特征表示,將冗余特征表示在任務(wù)樣本維度進(jìn)行平均,并在后續(xù)層中逐層累加;t表示矩陣轉(zhuǎn)置操作;
27、步驟4:支持向查詢傳遞機(jī)制的設(shè)計(jì)與構(gòu)建
28、建立一種實(shí)例查詢機(jī)制,實(shí)現(xiàn)在特征提取階段,支持集知識向查詢樣本的傳遞:關(guān)聯(lián)每個(gè)樣本的類別令牌c和對應(yīng)的與分類有關(guān)的視覺提示p,以鍵-值對的形式表示,計(jì)算查詢樣本鍵cw,(=)與各個(gè)支持樣本鍵c,(x)之間的相似度,選擇最相似的支持樣本,計(jì)算最相似的支持樣本的對應(yīng)值與當(dāng)前查詢樣本對應(yīng)值之間的均值,來更新查詢樣本的與分類有關(guān)的視覺提示,公式表示如下:
29、
30、i,j分別表示支持樣本和查詢樣本的編號,sim(·)表示計(jì)算余弦相似度,i表示和查詢樣本最相關(guān)的支持樣本的編號;
31、步驟5:自適應(yīng)特征表示的計(jì)算
32、利用輸出層的視覺提示表示和類別令牌優(yōu)化圖像的特征表示,公式如下:
33、
34、l表示輸出層編號,λ1和λ2分別表示類別令牌表示和視覺提示表示對圖像自適應(yīng)特征表示的影響權(quán)重,二者均大于0;
35、步驟6:查詢集樣本類別預(yù)測
36、6-1:計(jì)算每個(gè)支持樣本特征表示與查詢樣本特征表示間的相似度矩陣,分別表示支持樣本每個(gè)圖像塊的特征表示和查詢樣本每個(gè)圖像塊的特征表示,對于每個(gè)查詢樣本,有nk個(gè)相似度矩陣,每個(gè)相似度矩陣中每個(gè)元素sij的計(jì)算方式如下:
37、
38、6-2:對相似度矩陣進(jìn)行非線性變換,并按支持樣本類別求和,獲得查詢樣本的類別預(yù)測,公式表示如下:
39、
40、sal,w表示類別中編號為k的支持樣本和查詢樣本之間每個(gè)圖像塊的相似度,表示查詢樣本屬于類別的概率值,選擇概率值最大的類別作為查詢樣本的預(yù)測輸出類別;
41、步驟7:小樣本微調(diào)階段模型訓(xùn)練
42、采用交叉熵?fù)p失作為分類損失函數(shù),回傳梯度實(shí)現(xiàn)對視覺提示和模型參數(shù)的更新,損失計(jì)算如公式所示:
43、
44、表示查詢樣本預(yù)測為類別的概率值,表示查詢樣本的預(yù)測類別,當(dāng)時(shí),i(·)=1,反之i(·)=0,n~表示查詢樣本的個(gè)數(shù)。
45、本發(fā)明與現(xiàn)有技術(shù)相比具有方法簡便,能夠在不借助額外補(bǔ)充信息的情況下,充分利用小樣本任務(wù)中支持集樣本提供的信息,僅采用一對可學(xué)習(xí)的解耦視覺提示來幫助圖像的特征表示的自適應(yīng)動態(tài)調(diào)整。從而獲得更準(zhǔn)確的預(yù)測效果。方法簡便,使用效果好,具有良好的應(yīng)用前景和商業(yè)價(jià)值。