基于跨模態(tài)對齊和原型多樣化的連續(xù)小樣本圖片分類方法與流程

文檔序號：40388278發(fā)布日期：2024-12-20 12:11閱讀：6來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及計算機視覺，尤其涉及一種基于跨模態(tài)對齊和原型多樣化的連續(xù)小樣本圖片分類方法。

背景技術(shù)：

1、近年來，采用精心設(shè)計的架構(gòu)的深度神經(jīng)網(wǎng)絡(luò)在多種視覺識別任務(wù)中取得了顯著進展。其成功的關(guān)鍵因素之一在于采用了預(yù)先收集的、靜態(tài)不變的大規(guī)模有標簽數(shù)據(jù)集進行模型訓(xùn)練。然而，在實際應(yīng)用中，考慮到隱私或者標注成本等因素，新的類別通常會隨著時間不斷出現(xiàn)，且訓(xùn)練數(shù)據(jù)相對較少。舉例來說，在人臉識別系統(tǒng)中，系統(tǒng)需要不斷添加新的用戶，同時只允許上傳一張或者幾張圖片來識別新增加的人臉信息。針對上述挑戰(zhàn)，研究者們提出了小樣本類增學(xué)習(xí)問題，該問題模仿了人類的學(xué)習(xí)過程，旨在從有限的標注樣本中不斷學(xué)習(xí)新類別，同時不過分遺忘先前學(xué)到的舊類別知識。

2、小樣本類增學(xué)習(xí)通常由一個基礎(chǔ)任務(wù)和多個連續(xù)的增量任務(wù)組成。在基礎(chǔ)任務(wù)中，每個類別具有大量的有標注訓(xùn)練樣本用以構(gòu)建初始模型，而在增量任務(wù)中，每個類只有少量的幾個標注樣本用來持續(xù)的訓(xùn)練模型。在對每個任務(wù)進行學(xué)習(xí)時，模型只能使用當(dāng)前任務(wù)中的訓(xùn)練數(shù)據(jù)進行訓(xùn)練，而在每個任務(wù)學(xué)習(xí)結(jié)束后，模型需要在所有已見過的類別上進行測試。在小樣本類增學(xué)習(xí)過程中，有兩個關(guān)鍵挑戰(zhàn)需要解決：災(zāi)難性遺忘和模型過擬合。其中，災(zāi)難性遺忘用來形容模型在適配后續(xù)增量任務(wù)中的新類別時，往往會丟失已經(jīng)學(xué)習(xí)到的舊知識的現(xiàn)象；而模型過擬合主要由增量任務(wù)中的訓(xùn)練數(shù)據(jù)過少引起，這一現(xiàn)象反過來加劇災(zāi)難性遺忘的產(chǎn)生。

3、針對上述挑戰(zhàn)，現(xiàn)有的小樣本類增學(xué)習(xí)方法主要側(cè)重于首先從基礎(chǔ)任務(wù)中學(xué)習(xí)出泛化特征，然后在增量任務(wù)中采用權(quán)重約束、知識蒸餾、特征提前分配等策略優(yōu)化特征空間，從而緩解模型過擬合現(xiàn)象，達到平衡模型穩(wěn)定性-可塑性困境的目的。這種學(xué)習(xí)可遷移特征的思想與對比語言視覺預(yù)訓(xùn)練大模型的思想相似，其主要通過從海量的文本-圖片數(shù)據(jù)對中通過對比學(xué)習(xí)方式構(gòu)造出具有泛化能力的網(wǎng)絡(luò)結(jié)構(gòu)。對比語言視覺預(yù)訓(xùn)練大模型在圖片分類、圖片生成等多種下游視覺問題上取得了顯著進展?？紤]到語言視覺預(yù)訓(xùn)練大模型通常具有海量參數(shù)，如何以參數(shù)高效的方式，使用語言視覺預(yù)訓(xùn)練大模型求解連續(xù)小樣本學(xué)習(xí)問題是當(dāng)前亟需解決的難題。

技術(shù)實現(xiàn)思路

1、本發(fā)明的目的在于針對現(xiàn)有技術(shù)的不足，提供一種基于跨模態(tài)對齊和原型多樣化的連續(xù)小樣本圖片分類方法。

2、本發(fā)明的目的是通過以下技術(shù)方案來實現(xiàn)的：本發(fā)明實施例第一方面提供了一種基于跨模態(tài)對齊和原型多樣化的連續(xù)小樣本圖片分類方法，包括以下步驟：

3、（1）構(gòu)造多模態(tài)對齊網(wǎng)絡(luò)以提取對齊的圖片特征和類別文本原型；其中，所述多模態(tài)對齊網(wǎng)絡(luò)包括視覺軟提示、圖片編碼器、文本軟提示、文本編碼器和特征適配器；

4、（2）構(gòu)造原型偏置器，將步驟（1）得到的對齊的圖片特征輸入到構(gòu)造的原型偏置器中，得到類別原型的視覺偏置向量，采用類別原型的視覺偏置向量對步驟（1）得到的類別文本原型進行更正，以獲取更正后的類別文本原型；

5、（3）計算步驟（1）得到的對齊的圖片特征與步驟（2）得到的更正后的所有類別文本原型之間的余弦相似度及其概率值；

6、（4）使用當(dāng)前任務(wù)的有標簽訓(xùn)練數(shù)據(jù)進行迭代訓(xùn)練，訓(xùn)練過程中固定圖片編碼器和文本編碼器的參數(shù)，基于步驟（3）得到的概率值計算交叉熵損失函數(shù)，以最小化交叉熵損失函數(shù)為優(yōu)化目標，調(diào)整視覺軟提示、文本軟提示、特征適配器和原型偏置器中的參數(shù)，以獲取訓(xùn)練好的視覺軟提示、文本軟提示、特征適配器和原型偏置器；

7、（5）給定待測試圖片，利用訓(xùn)練好的視覺軟提示、文本軟提示、特征適配器和原型偏置器以及圖片編碼器和文本編碼器，重復(fù)步驟（1）-步驟（3），計算該待測試圖片與所有類別標簽之間的概率值，選取最大概率值對應(yīng)的類別標簽，作為當(dāng)前待測試圖片的最終類別標簽。

8、進一步地，所述步驟（1）包括以下子步驟：

9、（1.1）使用開源的預(yù)訓(xùn)練好的對比語言-圖像預(yù)訓(xùn)練大模型對圖片編碼器和文本編碼器進行初始化；

10、（1.2）構(gòu)造視覺軟提示向量，將視覺軟提示向量與輸入圖片進行拼接，以獲取拼接后的特征向量，將拼接后的特征向量輸入到圖片編碼器中，得到對應(yīng)的圖片特征；

11、（1.3）將步驟（1.2）得到的圖片特征輸入到特征適配器中，得到適配的圖片特征，適配的圖片特征再與步驟（1.2）得到的圖片特征進行線性組合，得到對齊的圖片特征；

12、（1.4）構(gòu)造文本軟提示向量，將文本軟提示向量與類別標簽進行拼接，以獲取拼接后的類別文本向量，將拼接后的類別文本向量輸入到文本編碼器中，得到對應(yīng)的類別標簽特征，也被稱為類別文本原型。

13、進一步地，所述步驟（1.2）具體包括：首先構(gòu)造視覺軟提示向量，其中表示第1個視覺軟提示，表示第2個視覺軟提示，表示第l個視覺軟提示，l表示視覺軟提示的總數(shù)；然后將輸入圖片平均分成m個具有固定尺寸大小的圖片塊，圖片塊的特征表示為，其中表示第i個圖片塊的特征嵌入表示；再根據(jù)m個圖片塊的特征嵌入表示獲取輸入圖片的特征向量；其次，將構(gòu)造的視覺軟提示向量與輸入圖片的特征向量進行拼接，得到拼接后的圖片特征向量；最后將拼接后的特征向量輸入到圖片編碼器中，得到對應(yīng)的圖片特征；

14、所述步驟（1.4）具體包括：首先構(gòu)造文本軟提示向量，其中表示第1個文本軟提示，表示第2個文本軟提示，表示第h個文本軟提示，h表示文本軟提示的總數(shù)；然后對于每一個類別標簽，將構(gòu)造的文本軟提示向量與其對應(yīng)的類別標簽向量進行拼接，以獲取拼接后的類別文本向量，其中表示第c個類別標簽的類別標簽向量；最后將拼接后的類別文本向量輸入到文本編碼器中，得到對應(yīng)的類別標簽特征，也被稱為類別文本原型。

15、進一步地，所述步驟（1.3）中，所述特征適配器包括兩層全連接層和一層殘差連接層；所述對齊的圖片特征通過如下過程獲?。?/p>

16、

17、

18、其中，為輸入到特征適配器中的圖片特征；為經(jīng)過兩層全連接層后的圖片特征；、、、為特征適配器中兩層全連接層的參數(shù)；為激活函數(shù)；?為對齊的圖片特征，為殘差連接層的殘差系數(shù)。

19、進一步地，所述步驟（2）包括以下子步驟：

20、（2.1）構(gòu)造原型偏置器，將步驟（1）得到的對齊的圖片特征輸入到構(gòu)造的原型偏置器中，得到類別原型的視覺偏置向量；

21、（2.2）將步驟（2.1）得到的類別原型的視覺偏置向量與步驟（1）得到的類別文本原型按照如下公式進行相加，以獲取更正后的類別文本原型：

22、

23、其中，表示更正后的類別文本原型，表示類別原型的視覺偏置向量，為混合參數(shù)。

24、進一步地，所述步驟（2.1）中，所述原型偏置器包括兩層全連接層；所述類別原型的視覺偏置向量通過如下過程獲?。?/p>

25、

26、其中，、、、是原型偏置器中兩層全連接層的參數(shù)。

27、進一步地，所述步驟（3）中，所述概率值的計算公式為：

28、

29、其中，表示輸入圖片對應(yīng)的預(yù)測類別標簽，表示預(yù)測類別標簽為類別標簽c的概率值，表示余弦相似度，表示指數(shù)函數(shù)，k表示一共具有?k個類別標簽，j表示第j個類別標簽，表示溫度系數(shù)。

30、進一步地，所述步驟（4）中，所述交叉熵損失函數(shù)的計算公式為：

31、

32、其中，表示交叉熵損失函數(shù)，表示第n個圖片，表示第n個圖片對應(yīng)的預(yù)測類別標簽，表示第n個圖片對應(yīng)的真實類別標簽，表示當(dāng)前任務(wù)t中一共有個標簽訓(xùn)練數(shù)據(jù)，表示預(yù)測類別標簽為類別標簽c的概率值，k表示一共具有?k個類別標簽。

33、本發(fā)明實施例第二方面提供了一種基于跨模態(tài)對齊和原型多樣化的連續(xù)小樣本圖片分類裝置，包括一個或多個處理器和存儲器，所述存儲器與所述處理器耦接；其中，所述存儲器用于存儲程序數(shù)據(jù)，所述處理器用于執(zhí)行所述程序數(shù)據(jù)以實現(xiàn)上述的基于跨模態(tài)對齊和原型多樣化的連續(xù)小樣本圖片分類方法。

34、本發(fā)明實施例第三方面提供了一種計算機可讀存儲介質(zhì)，其上存儲有程序，該程序被處理器執(zhí)行時，用于實現(xiàn)上述的基于跨模態(tài)對齊和原型多樣化的連續(xù)小樣本圖片分類方法。

35、本發(fā)明的有益效果是，本發(fā)明通過采用跨模態(tài)對齊方式，可以將下游任務(wù)的圖片特征與類別文本特征在特征空間進一步對齊，從而改善對比語言-圖像預(yù)訓(xùn)練大模型在下游任務(wù)中的泛化能力，在此基礎(chǔ)上，通過采用原型偏置器，使得類別原型融入輸入特異的信息，從而進一步提升分類能力；本發(fā)明實現(xiàn)方法簡便、靈活，顯著提高了新類別的預(yù)測精度，同時可以有效緩解模型在舊類別的災(zāi)難性遺忘現(xiàn)象。

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李亞南,何林圃,林峰,王東輝
技術(shù)所有人：之江實驗室
我是此專利的發(fā)明人

上一篇：一種清潔夾具裝配體以及電極片切割設(shè)備的制作方法
上一篇：一種用于橋梁檢測的防撞球形無人機

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于跨模態(tài)對齊和原型多樣化的連續(xù)小樣本圖片分類方法與流程