亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于跨模態(tài)對齊和原型多樣化的連續(xù)小樣本圖片分類方法與流程

文檔序號:40388278發(fā)布日期:2024-12-20 12:11閱讀:6來源:國知局
基于跨模態(tài)對齊和原型多樣化的連續(xù)小樣本圖片分類方法與流程

本發(fā)明涉及計算機視覺,尤其涉及一種基于跨模態(tài)對齊和原型多樣化的連續(xù)小樣本圖片分類方法。


背景技術(shù):

1、近年來,采用精心設(shè)計的架構(gòu)的深度神經(jīng)網(wǎng)絡(luò)在多種視覺識別任務(wù)中取得了顯著進展。其成功的關(guān)鍵因素之一在于采用了預(yù)先收集的、靜態(tài)不變的大規(guī)模有標簽數(shù)據(jù)集進行模型訓(xùn)練。然而,在實際應(yīng)用中,考慮到隱私或者標注成本等因素,新的類別通常會隨著時間不斷出現(xiàn),且訓(xùn)練數(shù)據(jù)相對較少。舉例來說,在人臉識別系統(tǒng)中,系統(tǒng)需要不斷添加新的用戶,同時只允許上傳一張或者幾張圖片來識別新增加的人臉信息。針對上述挑戰(zhàn),研究者們提出了小樣本類增學(xué)習(xí)問題,該問題模仿了人類的學(xué)習(xí)過程,旨在從有限的標注樣本中不斷學(xué)習(xí)新類別,同時不過分遺忘先前學(xué)到的舊類別知識。

2、小樣本類增學(xué)習(xí)通常由一個基礎(chǔ)任務(wù)和多個連續(xù)的增量任務(wù)組成。在基礎(chǔ)任務(wù)中,每個類別具有大量的有標注訓(xùn)練樣本用以構(gòu)建初始模型,而在增量任務(wù)中,每個類只有少量的幾個標注樣本用來持續(xù)的訓(xùn)練模型。在對每個任務(wù)進行學(xué)習(xí)時,模型只能使用當(dāng)前任務(wù)中的訓(xùn)練數(shù)據(jù)進行訓(xùn)練,而在每個任務(wù)學(xué)習(xí)結(jié)束后,模型需要在所有已見過的類別上進行測試。在小樣本類增學(xué)習(xí)過程中,有兩個關(guān)鍵挑戰(zhàn)需要解決:災(zāi)難性遺忘和模型過擬合。其中,災(zāi)難性遺忘用來形容模型在適配后續(xù)增量任務(wù)中的新類別時,往往會丟失已經(jīng)學(xué)習(xí)到的舊知識的現(xiàn)象;而模型過擬合主要由增量任務(wù)中的訓(xùn)練數(shù)據(jù)過少引起,這一現(xiàn)象反過來加劇災(zāi)難性遺忘的產(chǎn)生。

3、針對上述挑戰(zhàn),現(xiàn)有的小樣本類增學(xué)習(xí)方法主要側(cè)重于首先從基礎(chǔ)任務(wù)中學(xué)習(xí)出泛化特征,然后在增量任務(wù)中采用權(quán)重約束、知識蒸餾、特征提前分配等策略優(yōu)化特征空間,從而緩解模型過擬合現(xiàn)象,達到平衡模型穩(wěn)定性-可塑性困境的目的。這種學(xué)習(xí)可遷移特征的思想與對比語言視覺預(yù)訓(xùn)練大模型的思想相似,其主要通過從海量的文本-圖片數(shù)據(jù)對中通過對比學(xué)習(xí)方式構(gòu)造出具有泛化能力的網(wǎng)絡(luò)結(jié)構(gòu)。對比語言視覺預(yù)訓(xùn)練大模型在圖片分類、圖片生成等多種下游視覺問題上取得了顯著進展??紤]到語言視覺預(yù)訓(xùn)練大模型通常具有海量參數(shù),如何以參數(shù)高效的方式,使用語言視覺預(yù)訓(xùn)練大模型求解連續(xù)小樣本學(xué)習(xí)問題是當(dāng)前亟需解決的難題。


技術(shù)實現(xiàn)思路

1、本發(fā)明的目的在于針對現(xiàn)有技術(shù)的不足,提供一種基于跨模態(tài)對齊和原型多樣化的連續(xù)小樣本圖片分類方法。

2、本發(fā)明的目的是通過以下技術(shù)方案來實現(xiàn)的:本發(fā)明實施例第一方面提供了一種基于跨模態(tài)對齊和原型多樣化的連續(xù)小樣本圖片分類方法,包括以下步驟:

3、(1)構(gòu)造多模態(tài)對齊網(wǎng)絡(luò)以提取對齊的圖片特征和類別文本原型;其中,所述多模態(tài)對齊網(wǎng)絡(luò)包括視覺軟提示、圖片編碼器、文本軟提示、文本編碼器和特征適配器;

4、(2)構(gòu)造原型偏置器,將步驟(1)得到的對齊的圖片特征輸入到構(gòu)造的原型偏置器中,得到類別原型的視覺偏置向量,采用類別原型的視覺偏置向量對步驟(1)得到的類別文本原型進行更正,以獲取更正后的類別文本原型;

5、(3)計算步驟(1)得到的對齊的圖片特征與步驟(2)得到的更正后的所有類別文本原型之間的余弦相似度及其概率值;

6、(4)使用當(dāng)前任務(wù)的有標簽訓(xùn)練數(shù)據(jù)進行迭代訓(xùn)練,訓(xùn)練過程中固定圖片編碼器和文本編碼器的參數(shù),基于步驟(3)得到的概率值計算交叉熵損失函數(shù),以最小化交叉熵損失函數(shù)為優(yōu)化目標,調(diào)整視覺軟提示、文本軟提示、特征適配器和原型偏置器中的參數(shù),以獲取訓(xùn)練好的視覺軟提示、文本軟提示、特征適配器和原型偏置器;

7、(5)給定待測試圖片,利用訓(xùn)練好的視覺軟提示、文本軟提示、特征適配器和原型偏置器以及圖片編碼器和文本編碼器,重復(fù)步驟(1)-步驟(3),計算該待測試圖片與所有類別標簽之間的概率值,選取最大概率值對應(yīng)的類別標簽,作為當(dāng)前待測試圖片的最終類別標簽。

8、進一步地,所述步驟(1)包括以下子步驟:

9、(1.1)使用開源的預(yù)訓(xùn)練好的對比語言-圖像預(yù)訓(xùn)練大模型對圖片編碼器和文本編碼器進行初始化;

10、(1.2)構(gòu)造視覺軟提示向量,將視覺軟提示向量與輸入圖片進行拼接,以獲取拼接后的特征向量,將拼接后的特征向量輸入到圖片編碼器中,得到對應(yīng)的圖片特征;

11、(1.3)將步驟(1.2)得到的圖片特征輸入到特征適配器中,得到適配的圖片特征,適配的圖片特征再與步驟(1.2)得到的圖片特征進行線性組合,得到對齊的圖片特征;

12、(1.4)構(gòu)造文本軟提示向量,將文本軟提示向量與類別標簽進行拼接,以獲取拼接后的類別文本向量,將拼接后的類別文本向量輸入到文本編碼器中,得到對應(yīng)的類別標簽特征,也被稱為類別文本原型。

13、進一步地,所述步驟(1.2)具體包括:首先構(gòu)造視覺軟提示向量,其中表示第1個視覺軟提示,表示第2個視覺軟提示,表示第l個視覺軟提示,l表示視覺軟提示的總數(shù);然后將輸入圖片平均分成m個具有固定尺寸大小的圖片塊,圖片塊的特征表示為,其中表示第i個圖片塊的特征嵌入表示;再根據(jù)m個圖片塊的特征嵌入表示獲取輸入圖片的特征向量;其次,將構(gòu)造的視覺軟提示向量與輸入圖片的特征向量進行拼接,得到拼接后的圖片特征向量;最后將拼接后的特征向量輸入到圖片編碼器中,得到對應(yīng)的圖片特征;

14、所述步驟(1.4)具體包括:首先構(gòu)造文本軟提示向量,其中表示第1個文本軟提示,表示第2個文本軟提示,表示第h個文本軟提示,h表示文本軟提示的總數(shù);然后對于每一個類別標簽,將構(gòu)造的文本軟提示向量與其對應(yīng)的類別標簽向量進行拼接,以獲取拼接后的類別文本向量,其中表示第c個類別標簽的類別標簽向量;最后將拼接后的類別文本向量輸入到文本編碼器中,得到對應(yīng)的類別標簽特征,也被稱為類別文本原型。

15、進一步地,所述步驟(1.3)中,所述特征適配器包括兩層全連接層和一層殘差連接層;所述對齊的圖片特征通過如下過程獲?。?/p>

16、

17、

18、其中,為輸入到特征適配器中的圖片特征;為經(jīng)過兩層全連接層后的圖片特征;、、、為特征適配器中兩層全連接層的參數(shù);為激活函數(shù);?為對齊的圖片特征,為殘差連接層的殘差系數(shù)。

19、進一步地,所述步驟(2)包括以下子步驟:

20、(2.1)構(gòu)造原型偏置器,將步驟(1)得到的對齊的圖片特征輸入到構(gòu)造的原型偏置器中,得到類別原型的視覺偏置向量;

21、(2.2)將步驟(2.1)得到的類別原型的視覺偏置向量與步驟(1)得到的類別文本原型按照如下公式進行相加,以獲取更正后的類別文本原型:

22、

23、其中,表示更正后的類別文本原型,表示類別原型的視覺偏置向量,為混合參數(shù)。

24、進一步地,所述步驟(2.1)中,所述原型偏置器包括兩層全連接層;所述類別原型的視覺偏置向量通過如下過程獲?。?/p>

25、

26、其中,、、、是原型偏置器中兩層全連接層的參數(shù)。

27、進一步地,所述步驟(3)中,所述概率值的計算公式為:

28、

29、其中,表示輸入圖片對應(yīng)的預(yù)測類別標簽,表示預(yù)測類別標簽為類別標簽c的概率值,表示余弦相似度,表示指數(shù)函數(shù),k表示一共具有?k個類別標簽,j表示第j個類別標簽,表示溫度系數(shù)。

30、進一步地,所述步驟(4)中,所述交叉熵損失函數(shù)的計算公式為:

31、

32、其中,表示交叉熵損失函數(shù),表示第n個圖片,表示第n個圖片對應(yīng)的預(yù)測類別標簽,表示第n個圖片對應(yīng)的真實類別標簽,表示當(dāng)前任務(wù)t中一共有個標簽訓(xùn)練數(shù)據(jù),表示預(yù)測類別標簽為類別標簽c的概率值,k表示一共具有?k個類別標簽。

33、本發(fā)明實施例第二方面提供了一種基于跨模態(tài)對齊和原型多樣化的連續(xù)小樣本圖片分類裝置,包括一個或多個處理器和存儲器,所述存儲器與所述處理器耦接;其中,所述存儲器用于存儲程序數(shù)據(jù),所述處理器用于執(zhí)行所述程序數(shù)據(jù)以實現(xiàn)上述的基于跨模態(tài)對齊和原型多樣化的連續(xù)小樣本圖片分類方法。

34、本發(fā)明實施例第三方面提供了一種計算機可讀存儲介質(zhì),其上存儲有程序,該程序被處理器執(zhí)行時,用于實現(xiàn)上述的基于跨模態(tài)對齊和原型多樣化的連續(xù)小樣本圖片分類方法。

35、本發(fā)明的有益效果是,本發(fā)明通過采用跨模態(tài)對齊方式,可以將下游任務(wù)的圖片特征與類別文本特征在特征空間進一步對齊,從而改善對比語言-圖像預(yù)訓(xùn)練大模型在下游任務(wù)中的泛化能力,在此基礎(chǔ)上,通過采用原型偏置器,使得類別原型融入輸入特異的信息,從而進一步提升分類能力;本發(fā)明實現(xiàn)方法簡便、靈活,顯著提高了新類別的預(yù)測精度,同時可以有效緩解模型在舊類別的災(zāi)難性遺忘現(xiàn)象。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1