本發(fā)明屬于圖像識(shí)別,具體涉及一種基于仿生視覺(jué)與波動(dòng)增強(qiáng)的圖像識(shí)別方法。
背景技術(shù):
1、在當(dāng)前的圖像識(shí)別技術(shù)領(lǐng)域,深度學(xué)習(xí)模型尤其是卷積神經(jīng)網(wǎng)絡(luò)(cnn)已成為主流,廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)、醫(yī)療成像、自動(dòng)駕駛等多個(gè)領(lǐng)域。這些模型通過(guò)深度結(jié)構(gòu)有效地提取圖像特征,實(shí)現(xiàn)了在簡(jiǎn)單圖像上的高識(shí)別精度。然而,現(xiàn)有算法在處理具有復(fù)雜紋理和細(xì)節(jié)的圖像時(shí),識(shí)別精度往往受限,尤其是在光照變化、噪聲干擾和復(fù)雜背景條件下,其性能顯著下降。此外,深度學(xué)習(xí)模型通常需要大量的計(jì)算資源,導(dǎo)致在資源受限的環(huán)境中應(yīng)用受限。
2、現(xiàn)有技術(shù)的主要缺點(diǎn)包括:圖像特征提取不充分,對(duì)高頻信息和精細(xì)結(jié)構(gòu)的捕捉能力不足;算法對(duì)圖像邊緣和局部特征的敏感性不足,導(dǎo)致在復(fù)雜環(huán)境下的識(shí)別準(zhǔn)確率下降;深度網(wǎng)絡(luò)結(jié)構(gòu)的高計(jì)算成本限制了其在資源受限環(huán)境中的應(yīng)用;魯棒性不足,容易受到外界干擾影響,導(dǎo)致識(shí)別錯(cuò)誤。這些問(wèn)題表明,盡管現(xiàn)有技術(shù)在圖像識(shí)別領(lǐng)域取得了顯著進(jìn)展,但仍需進(jìn)一步的創(chuàng)新和改進(jìn)以提高識(shí)別的準(zhǔn)確性和魯棒性。
技術(shù)實(shí)現(xiàn)思路
1、根據(jù)以上現(xiàn)有技術(shù)中的不足,本發(fā)明的目的在于提供一種基于仿生視覺(jué)與波動(dòng)增強(qiáng)的圖像識(shí)別方法,顯著提升了圖像識(shí)別的準(zhǔn)確性、魯棒性以及對(duì)復(fù)雜場(chǎng)景的適應(yīng)性。
2、為達(dá)到以上目的,本發(fā)明提供了一種基于仿生視覺(jué)與波動(dòng)增強(qiáng)的圖像識(shí)別方法,包括以下步驟:
3、s1、基于多尺度gabor濾波器組和基于相似性度量的自適應(yīng)增強(qiáng)機(jī)制,建立仿生視覺(jué)網(wǎng)絡(luò)模型;
4、s2、建立基于自監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練模塊,對(duì)仿生視覺(jué)網(wǎng)絡(luò)模型進(jìn)行預(yù)訓(xùn)練;
5、s3、建立視覺(jué)動(dòng)態(tài)注意力模塊,并將其加入仿生視覺(jué)網(wǎng)絡(luò)模型中,對(duì)仿生視覺(jué)網(wǎng)絡(luò)模型的輸出特征分別進(jìn)行波動(dòng)增強(qiáng)和注意力加權(quán),并將波動(dòng)增強(qiáng)和注意力加權(quán)后的特征表示進(jìn)行融合,其中視覺(jué)動(dòng)態(tài)注意力模塊包含波動(dòng)增強(qiáng)視覺(jué)模塊、動(dòng)態(tài)注意力機(jī)制和注意力特征融合模塊;
6、s4、結(jié)合監(jiān)督對(duì)比損失、平衡對(duì)數(shù)損失和焦點(diǎn)損失,組成綜合損失函數(shù),基于綜合損失函數(shù)對(duì)仿生視覺(jué)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練;
7、s5、利用訓(xùn)練好的仿生視覺(jué)網(wǎng)絡(luò)模型,進(jìn)行圖像識(shí)別。
8、作為本發(fā)明的優(yōu)選方案,所述的s1中,多尺度gabor濾波器組表示為:
9、;
10、式中,、為濾波器在x和y方向上的尺度參數(shù);是濾波器的方向;是濾波器的中心頻率;多尺度gabor濾波器組通過(guò)調(diào)整、、和,生成不同尺度和方向的濾波器,用于捕捉圖像中的多種特征;x、y表示輸入的二維坐標(biāo);j是復(fù)數(shù)單位;
11、對(duì)于輸入的圖像,應(yīng)用多尺度gabor濾波器組進(jìn)行特征提取,得到一組多尺度、多方向的特征圖,表示為:
12、;
13、式中,表示gabor濾波器函數(shù),是用于尺度m和方向n下的濾波器。
14、作為本發(fā)明的優(yōu)選方案,所述的s1中,基于相似性度量的自適應(yīng)增強(qiáng)機(jī)制采用結(jié)構(gòu)相似性指數(shù)ssim,表示為:
15、;
16、式中,p、q表示對(duì)比相似性的兩個(gè)圖像塊;、分別為圖像塊p、q的灰度均值;是圖像塊p、q的協(xié)方差,表示灰度的聯(lián)合分布;c1和c2是用于穩(wěn)定計(jì)算的常數(shù);
17、通過(guò)以下步驟實(shí)現(xiàn)基于相似性度量的自適應(yīng)增強(qiáng):
18、對(duì)于,首先在的局部區(qū)域計(jì)算其與的結(jié)構(gòu)相似性指數(shù)ssim,表示為:
19、;
20、式中,是局部區(qū)域的權(quán)重,反映了與對(duì)應(yīng)區(qū)域之間的相似性;
21、在得到多尺度、多方向的特征圖中每個(gè)特征圖的局部權(quán)重后,對(duì)不同尺度和方向的特征圖進(jìn)行加權(quán)融合,以生成自適應(yīng)增強(qiáng)后的特征表示:
22、。
23、作為本發(fā)明的優(yōu)選方案,所述的s2中,建立基于自監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練模塊包括三個(gè)步驟,分別為定義增強(qiáng)策略、編碼和投影和計(jì)算損失和反向傳播,具體為:
24、s11、定義增強(qiáng)策略,包括空間變換策略和時(shí)間變換策略,空間變換策略包括隨機(jī)裁剪、調(diào)整大小、翻轉(zhuǎn)和旋轉(zhuǎn),時(shí)間變換策略為模擬圖像隨時(shí)間變化發(fā)生的退化效果,包括顏色失真、高斯模糊和隨機(jī)噪聲;對(duì)于獲取的無(wú)標(biāo)簽圖像數(shù)據(jù)集,對(duì)數(shù)據(jù)集中的每個(gè)圖像分別執(zhí)行空間變換策略和時(shí)間變換策略,分別得到增強(qiáng)圖像和;
25、s12、編碼和投影,使用仿生視覺(jué)網(wǎng)絡(luò)模型作為編碼器,對(duì)和進(jìn)行特征提取,得到的特征分別表示為和,并使用多層感知機(jī)mlp進(jìn)行特征變換和投影:
26、;
27、;
28、式中,表示mlp變換,、表示變換后的特征;
29、通過(guò)投影頭對(duì)變換后的特征進(jìn)行進(jìn)一步處理,得到投影后的特征和:
30、;
31、;
32、s13、計(jì)算損失和反向傳播,使用對(duì)比學(xué)習(xí)損失函數(shù)lc計(jì)算損失,并通過(guò)反向傳播優(yōu)化仿生視覺(jué)網(wǎng)絡(luò)模型的參數(shù),lc表示為:
33、;
34、式中,nd是用于計(jì)算損失的樣本對(duì)的數(shù)量,k=1,2,……,nd;、表示對(duì)比損失,定義為:
35、;
36、;
37、式中,表示特征之間的相似度;是溫度參數(shù);a表示所有的負(fù)樣本集合。
38、作為本發(fā)明的優(yōu)選方案,所述的s3中,波動(dòng)增強(qiáng)視覺(jué)模塊為:
39、將輸入的圖像通過(guò)仿生視覺(jué)網(wǎng)絡(luò)模型提取初步特征:
40、;
41、式中,表示仿生視覺(jué)網(wǎng)絡(luò)模型;
42、對(duì)于,應(yīng)用波動(dòng)理論對(duì)圖像的特征進(jìn)行增強(qiáng),具體為采用二維helmholtz方程對(duì)圖像中的高頻特征進(jìn)行模擬,使圖像的邊緣和紋理信息得到強(qiáng)化,表示為:
43、;
44、式中,表示波動(dòng)增強(qiáng)后的特征圖;是拉普拉斯算子;t為波數(shù);
45、在波動(dòng)增強(qiáng)之后,通過(guò)周邊視覺(jué)子模塊對(duì)進(jìn)行處理,周邊視覺(jué)子模塊通過(guò)對(duì)周邊區(qū)域進(jìn)行動(dòng)態(tài)調(diào)整,提取與全局特征相關(guān)的局部信息;選擇將查詢(xún)的位置,即局部區(qū)域的中心像素點(diǎn)作為視覺(jué)中心,中心區(qū)域的外圍局部空間被規(guī)劃為中心、準(zhǔn)中心、中外圍、遠(yuǎn)外圍共四個(gè)子區(qū)域,位于中心區(qū)域的查詢(xún)與四個(gè)子區(qū)域的鍵進(jìn)行交互,交互強(qiáng)度根據(jù)距離的變化逐漸降低;在交互過(guò)程中,采用波動(dòng)增強(qiáng)距離匹配交互強(qiáng)度,波動(dòng)增強(qiáng)距離采用波動(dòng)方程來(lái)模擬特征之間的相互影響,表示為:
46、;
47、式中,n為特征點(diǎn)的數(shù)量,e=1,2,……,n;是特征qe的波動(dòng)解;
48、基于波動(dòng)增強(qiáng)距離的注意力機(jī)制的特征輸出表示為:
49、;
50、式中,和為可學(xué)習(xí)的權(quán)重矩陣;為激活函數(shù);為非線性激活函數(shù);表示線性激活操作。
51、作為本發(fā)明的優(yōu)選方案,所述的s3中,動(dòng)態(tài)注意力機(jī)制為:
52、對(duì)于,通過(guò)線性變換將映射到查詢(xún)向量q、鍵向量k和值向量v:
53、;
54、;
55、;
56、式中,wq、wk和wv是可學(xué)習(xí)的權(quán)重矩陣;計(jì)算q和k之間的相似度,并通過(guò)softmax函數(shù)進(jìn)行歸一化,得到注意力權(quán)重;
57、;
58、其中是位置i和j之間的注意力權(quán)重;是鍵向量的維度的平方根;qi是位置i是查詢(xún)向量;kj是位置j的鍵向量;t表示轉(zhuǎn)置;
59、根據(jù)計(jì)算出的,對(duì)v進(jìn)行加權(quán)求和,生成增強(qiáng)后的特征表示:
60、;
61、式中,oi是位置i增強(qiáng)后的輸出特征表示;vj是位置j的值向量;
62、將所有位置i的增強(qiáng)后的輸出特征表示進(jìn)行匯總,獲得注意力加權(quán)后的特征表示o,即為o={o1,o2,……,oi}。
63、作為本發(fā)明的優(yōu)選方案,所述的s3中,注意力特征融合模塊為:
64、將波動(dòng)增強(qiáng)視覺(jué)模塊輸出的和動(dòng)態(tài)注意力機(jī)制增強(qiáng)后的輸出特征表示進(jìn)行融合,以進(jìn)一步優(yōu)化特征表示,融合后的特征表示為:
65、;
66、式中,α和β是可學(xué)習(xí)的權(quán)重參數(shù),用于平衡波動(dòng)增強(qiáng)距離和注意力機(jī)制輸出在最終融合特征中的貢獻(xiàn);o是通過(guò)動(dòng)態(tài)注意力機(jī)制計(jì)算得到的注意力加權(quán)后的特征表示。
67、作為本發(fā)明的優(yōu)選方案,所述的s4中,建立綜合損失函數(shù)的過(guò)程為:
68、監(jiān)督對(duì)比損失表示為:
69、;
70、式中,nd是用于計(jì)算損失的樣本對(duì)的數(shù)量,a=1,2,……,nd;ua、ub、uc分別代表第a個(gè)、第b個(gè)、第c個(gè)樣本經(jīng)過(guò)仿生視覺(jué)網(wǎng)絡(luò)模型提取到的特征;代表第a個(gè)樣本所屬的正樣本集合;代表數(shù)據(jù)集中第a個(gè)正樣本的數(shù)量;是溫度參數(shù);t表示轉(zhuǎn)置;
71、平衡對(duì)數(shù)損失表示為:
72、;
73、式中,ya是第a個(gè)樣本的真實(shí)標(biāo)簽,為0或1;pa是模型預(yù)測(cè)第a個(gè)樣本屬于類(lèi)別1的概率;wa是第a個(gè)樣本的樣本權(quán)重;
74、焦點(diǎn)損失表示為:
75、;
76、式中,表示難度權(quán)重;是聚焦參數(shù);
77、結(jié)合平衡對(duì)數(shù)損失、焦點(diǎn)損失和監(jiān)督對(duì)比損失,組成綜合損失函數(shù),表示為:
78、;
79、式中,表示ua與ub之間的相似度度量。
80、作為本發(fā)明的優(yōu)選方案,所述的s5中,圖像識(shí)別的具體過(guò)程為,輸入的圖像經(jīng)過(guò)多尺度gabor濾波器組和自適應(yīng)增強(qiáng)機(jī)制處理后,獲得自適應(yīng)增強(qiáng)后的特征表示,隨后經(jīng)過(guò)波動(dòng)增強(qiáng)視覺(jué)模塊,獲得特征輸出表示,同時(shí),通過(guò)動(dòng)態(tài)注意力機(jī)制對(duì)計(jì)算得到注意力加權(quán)后的特征表示o,最后經(jīng)注意力特征融合模塊,得到融合后的特征表示,即為最終的優(yōu)化的特征表示,完成對(duì)圖像的識(shí)別。
81、本發(fā)明涉及的模型和算法可以通過(guò)電子設(shè)備執(zhí)行,電子設(shè)備包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,通過(guò)處理器執(zhí)行軟件實(shí)現(xiàn)上述的模型和算法計(jì)算。
82、本發(fā)明所具有的有益效果是:
83、本發(fā)明通過(guò)融合仿生視覺(jué)處理和波動(dòng)理論的圖像識(shí)別算法,具有多項(xiàng)顯著優(yōu)點(diǎn)。首先,通過(guò)模擬人類(lèi)視網(wǎng)膜的初級(jí)視覺(jué)處理,利用gabor濾波器組進(jìn)行多尺度、多方向的濾波操作,有效提取圖像的邊緣和紋理信息;這種仿生視覺(jué)預(yù)處理網(wǎng)絡(luò)結(jié)合自監(jiān)督學(xué)習(xí)進(jìn)行預(yù)訓(xùn)練,增強(qiáng)了模型對(duì)無(wú)標(biāo)簽數(shù)據(jù)的泛化能力,提高了對(duì)復(fù)雜圖像場(chǎng)景中細(xì)節(jié)和紋理信息的敏感性。其次,引入的物理波動(dòng)理論,通過(guò)二維helmholtz方程對(duì)圖像特征進(jìn)行增強(qiáng),捕捉到更為復(fù)雜的邊緣和紋理特征,顯著提升了圖像識(shí)別的精度。
84、本發(fā)明通過(guò)動(dòng)態(tài)視覺(jué)注意力模塊,結(jié)合波動(dòng)增強(qiáng)和注意力機(jī)制,自適應(yīng)地調(diào)整注意力權(quán)重,使得模型能夠更準(zhǔn)確地聚焦于圖像中的關(guān)鍵區(qū)域。這一機(jī)制不僅提高了特征提取的效果,還增強(qiáng)了模型對(duì)復(fù)雜圖像場(chǎng)景的適應(yīng)性和魯棒性。
85、本發(fā)明通過(guò)在設(shè)計(jì)綜合損失函數(shù)時(shí),通過(guò)平衡對(duì)數(shù)損失、焦點(diǎn)損失和監(jiān)督對(duì)比損失的結(jié)合,進(jìn)一步優(yōu)化了模型的訓(xùn)練過(guò)程,特別是在處理不平衡數(shù)據(jù)集和難分類(lèi)樣本時(shí),提升了分類(lèi)的準(zhǔn)確性和模型的魯棒性,在自動(dòng)駕駛、醫(yī)學(xué)圖像分析、遙感圖像處理等高要求應(yīng)用場(chǎng)景中具有廣泛的應(yīng)用潛力。