本發(fā)明涉及圖像識別,尤其涉及一種基于transformer的細粒度圖像分類方法及系統(tǒng)。
背景技術(shù):
1、細粒度視覺分類(fine-grained?visual?classification,fgvc)是計算機視覺中的一項具有挑戰(zhàn)性的任務(wù),它涉及將圖像分類為非常具體和詳細的類別,例如不同種類的鳥類、狗、車輛模型和醫(yī)學(xué)圖像。如圖1所示,這四種麻雀的外觀幾乎相同,但從不同的角度看,同一種麻雀的外觀也有很大的不同。細粒度圖像分類在現(xiàn)實生活中具有廣泛的應(yīng)用前景。例如,在安全監(jiān)控領(lǐng)域中,細粒度圖像分類可以用于人臉識別、行為分析等任務(wù);在智能交通領(lǐng)域中,細粒度圖像分類可以用于車輛品牌和型號的識別等任務(wù)。因此,開展細粒度圖像分類的研究具有重要的理論和實踐意義。
2、fgvc在計算機視覺中的目標(biāo)是檢索和識別屬于超類別(又名元類別或基本類別)的多個下屬類別的圖像,例如,不同物種的動物/植物,不同型號的汽車,不同種類的零售產(chǎn)品等。因此,關(guān)鍵的挑戰(zhàn)在于理解細粒度的視覺差異,以充分區(qū)分在整體外觀上高度相似但在細粒度特征上不同的對象。自近20年前開始以來,已經(jīng)取得了巨大的進步。鑒于卷積神經(jīng)網(wǎng)絡(luò)(cnn)在圖像識別方面的有效性,已有的圖像分類方法普遍基于卷積神經(jīng)網(wǎng)絡(luò)模型,在圖像采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)集構(gòu)建等方面進行優(yōu)化處理,以提高圖像分類的準(zhǔn)確性。然而,傳統(tǒng)的cnn架構(gòu)在處理大規(guī)模圖像數(shù)據(jù)集時存在局限性,在捕獲長距離依賴關(guān)系方面存在不足,并且在進行不斷的卷積和池化過程中,會丟失很多空間表征,從而無法獲得強判別性的特征。
技術(shù)實現(xiàn)思路
1、為解決現(xiàn)有方法對圖像極細小特征的識別存在識別準(zhǔn)確率低、效率低的技術(shù)問題,本發(fā)明實施例提供一種基于transformer的細粒度圖像分類方法及系統(tǒng)。
2、本發(fā)明實施例的技術(shù)方案是這樣實現(xiàn)的:
3、本發(fā)明實施例提供了一種基于transformer的細粒度圖像分類系統(tǒng),所述系統(tǒng)包括細粒度圖像分類模型和全連接層,所述細粒度圖像分類模型包括骨干網(wǎng)絡(luò)、特征金字塔網(wǎng)絡(luò)和細粒度特征提取模塊;所述細粒度特征提取模塊包括細節(jié)增強子模塊、局部特征細化子模塊和自適應(yīng)特征融合模塊;所述骨干網(wǎng)絡(luò),用于通過內(nèi)置的移動窗口機制,處理輸入圖像中的多尺度信息,輸出所述輸入圖像的多尺度特征圖;所述特征金字塔網(wǎng)絡(luò),為深度學(xué)習(xí)模型,用于通過構(gòu)建特征金字塔對所述骨干網(wǎng)絡(luò)輸出的多尺度特征圖進行多尺度的特征提取和融合,輸出空間域特征圖;所述細節(jié)增強子模塊,用于利用離散余弦變換將所述特征金字塔網(wǎng)絡(luò)輸出的空間域特征圖轉(zhuǎn)換至頻域,獲得頻域特征圖;通過自適應(yīng)閾值從所述頻域特征圖中篩選出用于判別所述輸入圖像細粒度特征的高頻域特征;利用離散余弦變換將所述高頻域特征轉(zhuǎn)換回空間域,并將轉(zhuǎn)換后的空間域特征與所述特征金字塔網(wǎng)絡(luò)輸出的空間域特征圖進行疊加,輸出細節(jié)增強后的特征圖;所述局部特征細化子模塊,用于構(gòu)建通道注意力機制和空間注意力機制,利用所述通道注意力機制為每個通道分配不同的權(quán)重,利用所述空間注意力機制為每個空間位置分配不同的權(quán)重,基于所述通道注意力機制計算獲得的通道級別注意力圖、所述空間注意力機制計算獲得的空間級別注意力圖和所述細節(jié)增強子模塊輸出的細節(jié)增強后的特征圖,輸出局部特征細化后的特征圖;所述自適應(yīng)特征融合模塊,用于從所述骨干網(wǎng)絡(luò)輸出的多尺度特征圖、所述細節(jié)增強子模塊輸出的細節(jié)增強后的特征圖和所述局部特征細化子模塊輸出的局部特征細化后的特征圖中獲取信息,通過自適應(yīng)權(quán)重學(xué)習(xí)機制,動態(tài)調(diào)整每個特征圖的融合權(quán)重,輸出融合特征;所述全連接層,用于根據(jù)所述自適應(yīng)特征融合模塊輸出的融合特征輸出預(yù)測結(jié)果。
4、本發(fā)明實施例還提供了一種基于transformer的細粒度圖像分類方法,應(yīng)用于上述所述的基于transformer的細粒度圖像分類系統(tǒng),所述方法包括:利用所述骨干網(wǎng)絡(luò)通過內(nèi)置的移動窗口機制,處理輸入圖像中的多尺度信息,輸出所述輸入圖像的多尺度特征圖;利用所述特征金字塔網(wǎng)絡(luò)通過構(gòu)建特征金字塔對所述骨干網(wǎng)絡(luò)輸出的多尺度特征圖進行多尺度的特征提取和融合,輸出空間域特征圖;通過所述細節(jié)增強子模塊利用離散余弦變換將所述特征金字塔網(wǎng)絡(luò)輸出的空間域特征圖轉(zhuǎn)換至頻域,獲得頻域特征圖;通過自適應(yīng)閾值從所述頻域特征圖中篩選出用于判別所述輸入圖像細粒度特征的高頻域特征;利用離散余弦變換將所述高頻域特征轉(zhuǎn)換回空間域,并將轉(zhuǎn)換后的空間域特征與所述特征金字塔網(wǎng)絡(luò)輸出的空間域特征圖進行疊加,輸出細節(jié)增強后的特征圖;利用所述局部特征細化子模塊構(gòu)建通道注意力機制和空間注意力機制,利用所述通道注意力機制為每個通道分配不同的權(quán)重,利用所述空間注意力機制為每個空間位置分配不同的權(quán)重,基于所述通道注意力機制計算獲得的通道級別注意力圖、所述空間注意力機制計算獲得的空間級別注意力圖和所述細節(jié)增強子模塊輸出的細節(jié)增強后的特征圖,輸出局部特征細化后的特征圖;利用所述自適應(yīng)特征融合模塊從所述骨干網(wǎng)絡(luò)輸出的多尺度特征圖、所述細節(jié)增強子模塊輸出的細節(jié)增強后的特征圖和所述局部特征細化子模塊輸出的局部特征細化后的特征圖中獲取信息,通過自適應(yīng)權(quán)重學(xué)習(xí)機制,動態(tài)調(diào)整每個特征圖的融合權(quán)重,輸出融合特征;利用所述全連接層根據(jù)所述自適應(yīng)特征融合模塊輸出的融合特征輸出預(yù)測結(jié)果。
5、本發(fā)明實施例還提供了一種存儲介質(zhì),所述存儲介質(zhì)中存儲有計算機程序,所述計算機程序被處理器執(zhí)行時,實現(xiàn)上述所述方法的步驟。
6、本實施例方案具有如下有益效果:
7、本實施例提出的細粒度特征提取模塊通過結(jié)合頻率域分析和多尺度卷積網(wǎng)絡(luò),增強了模型對圖像中關(guān)鍵細節(jié)特征的捕捉能力;自適應(yīng)特征融合模塊通過動態(tài)調(diào)整不同尺度特征圖的融合權(quán)重,實現(xiàn)了特征信息的優(yōu)化整合,提高了特征的表達能力,增強了模型對復(fù)雜圖像的泛化能力。
1.一種基于transformer的細粒度圖像分類系統(tǒng),其特征在于,所述系統(tǒng)包括細粒度圖像分類模型和全連接層,所述細粒度圖像分類模型包括骨干網(wǎng)絡(luò)、特征金字塔網(wǎng)絡(luò)和細粒度特征提取模塊;所述細粒度特征提取模塊包括細節(jié)增強子模塊、局部特征細化子模塊和自適應(yīng)特征融合模塊;
2.根據(jù)權(quán)利要求1所述的基于transformer的細粒度圖像分類系統(tǒng),其特征在于,所述細節(jié)增強子模塊具體利用如下計算式輸出細節(jié)增強后的特征圖:
3.根據(jù)權(quán)利要求1所述的基于transformer的細粒度圖像分類系統(tǒng),其特征在于,所述局部特征細化子模塊具體利用如下計算式輸出局部特征細化后的特征圖:
4.根據(jù)權(quán)利要求1所述的基于transformer的細粒度圖像分類系統(tǒng),其特征在于,所述自適應(yīng)特征融合模塊具體利用如下計算式輸出融合特征:
5.根據(jù)權(quán)利要求1所述的基于transformer的細粒度圖像分類系統(tǒng),其特征在于,所述系統(tǒng)的損失函數(shù)為將加權(quán)交叉熵?fù)p失和區(qū)域敏感損失結(jié)合所形成的混合損失函數(shù);所述加權(quán)交叉熵?fù)p失用于為假樣本類別分配高權(quán)重,為真樣本類別分頻低權(quán)重;所述區(qū)域敏感損失用于為關(guān)鍵區(qū)域分配高權(quán)重,為非關(guān)鍵區(qū)域分配低權(quán)重。
6.根據(jù)權(quán)利要求5所述的基于transformer的細粒度圖像分類系統(tǒng),其特征在于,所述混合損失函數(shù)的計算表達式為:
7.根據(jù)權(quán)利要求6所述的基于transformer的細粒度圖像分類系統(tǒng),其特征在于,所述加權(quán)交叉熵?fù)p失的計算表達式為:
8.根據(jù)權(quán)利要求6所述的基于transformer的細粒度圖像分類系統(tǒng),其特征在于,所述區(qū)域敏感損失的計算表達式為:
9.一種基于transformer的細粒度圖像分類方法,其特征在于,應(yīng)用于如權(quán)利要求1至8任一項所述的基于transformer的細粒度圖像分類系統(tǒng),所述方法包括:
10.一種存儲介質(zhì),所述存儲介質(zhì)中存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時,實現(xiàn)權(quán)利要求9所述方法的步驟。