本發(fā)明屬于深度學(xué)習(xí),具體涉及一種輕量級可變形模塊在卷積神經(jīng)元之間共享偏移的方法。
背景技術(shù):
1、在大規(guī)模數(shù)據(jù)集和計(jì)算資源普及之后,卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,cnn)成為視覺識別的主流。從alexnet[1]開始,先后提出了許多更深層次和更有效的神經(jīng)網(wǎng)絡(luò)架構(gòu),如vgg[2]、googlenet[3]、resnet[4]、resnext[5]、efficientnet[6,7]等。最近的研究成果如internimage[8]和convnext[9]表明,基于卷積網(wǎng)絡(luò)的視覺模型保持了穩(wěn)健的性能、高效性、簡單性,并且具有適宜的歸納偏差[10,11]。尤其是在像圖像生成[12,13]等領(lǐng)域,卷積方法仍然是首選。這凸顯了基于卷積方法的持久價(jià)值。除了架構(gòu)設(shè)計(jì)方面的發(fā)展,還制定了更復(fù)雜的卷積操作,如深度卷積[14]和可變形卷積[15,16]。物體識別和檢測面臨的幾何變化挑戰(zhàn),包括尺度、姿態(tài)、視角和部件變形,推動(dòng)了這些技術(shù)的發(fā)展。當(dāng)前解決這些問題的先進(jìn)方法是可變形卷積網(wǎng)絡(luò)(deformableconvolutionalnetworks,dcn)[16],它引入了兩個(gè)模塊來幫助cnn建模這些變化。第一個(gè)模塊是可變形卷積,該模塊通過對標(biāo)準(zhǔn)卷積的網(wǎng)格采樣位置進(jìn)行偏移來適應(yīng)幾何變化,這些偏移由前一特征圖學(xué)習(xí)的位移決定。第二個(gè)模塊是可變形感興趣區(qū)域池化(regionof?interestpooling,roipooling),其中學(xué)習(xí)了roipooling[17]中小塊(bin)位置的偏移增強(qiáng)特征表示。這些模塊的引入使神經(jīng)網(wǎng)絡(luò)能夠動(dòng)態(tài)調(diào)整其特征表示,以適應(yīng)物體的配置和結(jié)構(gòu),從而顯著提高了物體檢測的準(zhǔn)確率。這種方法通過變形采樣和池化模式,使得網(wǎng)絡(luò)能夠更好地適應(yīng)物體的幾何變化,從而提高了模型在實(shí)際應(yīng)用中的性能和準(zhǔn)確性。
2、在使用可變形卷積時(shí),我們發(fā)現(xiàn)一個(gè)激活單元的采樣傾向于集中在其所在物體的周圍。然而,這種覆蓋并不精確,采樣往往會(huì)擴(kuò)展到興趣區(qū)域之外。為了解決這個(gè)問題,[15]提出了一個(gè)新的可變形卷積網(wǎng)絡(luò)版本,稱為deformableconvnetsv2(dcnv2)。在dcnv1(即dcn)基礎(chǔ)上,dcnv2增加了調(diào)制機(jī)制,使每個(gè)樣本不僅會(huì)經(jīng)歷一個(gè)學(xué)習(xí)得來的偏移,還會(huì)被一個(gè)學(xué)習(xí)得來的特征幅度進(jìn)行調(diào)制。通過這種方式,網(wǎng)絡(luò)模塊能夠同時(shí)調(diào)整其樣本的空間分布和相對影響力。然而,類似于常規(guī)卷積,原始dcnv2中的不同卷積神經(jīng)元具有獨(dú)立的線性投影權(quán)重和偏移,因此其參數(shù)和內(nèi)存復(fù)雜度與采樣點(diǎn)的總數(shù)成正比,這顯著限制了模型的效率,特別是在大規(guī)模模型中。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述存在的問題,本發(fā)明提出:一種輕量級可變形模塊在卷積神經(jīng)元之間共享偏移的方法,包括如下步驟:
2、s1、設(shè)計(jì)輕量級的可變形模塊tdcn:
3、引入偏移域offset?field表示方法,將偏移域通道維度從2n減少到2,其中n為采樣點(diǎn)數(shù),無論選擇多大的卷積核,偏移域的通道數(shù)始終為2;
4、通過相鄰卷積操作共享偏移,使得這些卷積操作的神經(jīng)元學(xué)習(xí)一個(gè)合適的偏移,并在他們之間建立關(guān)聯(lián);
5、s2、將tdcn整合到convnet系統(tǒng)中,并使用各種不同的主干網(wǎng)絡(luò);
6、s3、將tdcn整合到faster?r-cnn系統(tǒng)中,并使用各種不同的主干網(wǎng)絡(luò);
7、s4、將tdcn整合到retinanet系統(tǒng)中,并使用各種不同的主干網(wǎng)絡(luò)。
8、進(jìn)一步地,所述步驟s1中,包括如下步驟:
9、tdcn會(huì)將一個(gè)方向上的偏移量映射到偏移域通道維度的一幀上,卷積核會(huì)生成兩個(gè)方向上的偏移,分別對應(yīng)寬度方向和高度方向,即w-offset?field和h-offset?field;
10、在dcn中,將偏移域上通道維度同一個(gè)位置提取出來,組成以該位置為采樣中心時(shí)卷積核偏移量,在tdcn中,輸入特征圖的尺寸跟偏移域w和h維度相同,偏移域與輸入特征圖上卷積采樣網(wǎng)格相同位置,對應(yīng)此時(shí)卷積核偏移量;相鄰的卷積操作重合的像素點(diǎn)會(huì)共同學(xué)習(xí)到一個(gè)適應(yīng)它們的偏移。
11、進(jìn)一步地,所述步驟s2中,卷積神經(jīng)網(wǎng)絡(luò)cnn作為前饋神經(jīng)網(wǎng)絡(luò),其人工神經(jīng)元響應(yīng)周圍單元,進(jìn)行大型圖像處理;設(shè)計(jì)一個(gè)卷積神經(jīng)網(wǎng)絡(luò)convnet在mnist數(shù)據(jù)集上來處理圖像分類任務(wù),該網(wǎng)絡(luò)結(jié)合了傳統(tǒng)的卷積層和可變形卷積層,以增強(qiáng)其對輸入圖像中空間變換的適應(yīng)能力,conv3和conv4作為可變形卷積替換層。
12、進(jìn)一步地,所述步驟s3中,在特征提取網(wǎng)絡(luò)resnet50的基礎(chǔ)上,融合了fpn網(wǎng)絡(luò)結(jié)構(gòu),將resnet50中高低層的特征圖進(jìn)行疊加融合,得到融合后的p2到p6五個(gè)特征圖;這五個(gè)特征圖在每個(gè)空間位置使用多個(gè)預(yù)定義的錨框,形成一組候選框;對于每個(gè)錨框,回歸層預(yù)測框的坐標(biāo),分類層預(yù)測框中是否包含目標(biāo);這些候選框隨后被送入r-cnn中進(jìn)行目標(biāo)的準(zhǔn)確分類和定位,實(shí)現(xiàn)對圖像中目標(biāo)的檢測與識別。
13、進(jìn)一步地,所述步驟s4中,retinanet網(wǎng)絡(luò)由resnet50、fpn特征金字塔、分類子網(wǎng)絡(luò)和邊框回歸子網(wǎng)絡(luò)依次連接組成,resnet50和fpn共同構(gòu)成主干網(wǎng)絡(luò),實(shí)現(xiàn)對目標(biāo)的特征提取,分類子網(wǎng)絡(luò)與邊框回歸子網(wǎng)絡(luò)分別負(fù)責(zé)對fpn輸出的特征圖進(jìn)行目標(biāo)分類與位置回歸。
14、本發(fā)明的有益效果為:本發(fā)明通過相鄰卷積操作共享偏移,使得這些卷積操作的神經(jīng)元學(xué)習(xí)一個(gè)合適的偏移,并在他們之間建立關(guān)聯(lián)。這種關(guān)聯(lián)在網(wǎng)絡(luò)深度增加時(shí)仍然存在,從而保護(hù)了局部特征。這一創(chuàng)新性的方法不僅解決了傳統(tǒng)可變形卷積存在的問題,還保持了可變形卷積自適應(yīng)地調(diào)整卷積核,以適應(yīng)對象幾何變化的能力,從而獲得更為廣泛適用的特性。
1.一種輕量級可變形模塊在卷積神經(jīng)元之間共享偏移的方法,其特征在于,包括如下步驟:
2.如權(quán)利要求1所述的輕量級可變形模塊在卷積神經(jīng)元之間共享偏移的方法,其特征在于,所述步驟s1中,包括如下步驟:
3.如權(quán)利要求1所述的輕量級可變形模塊在卷積神經(jīng)元之間共享偏移的方法,其特征在于,所述步驟s2中,卷積神經(jīng)網(wǎng)絡(luò)cnn作為前饋神經(jīng)網(wǎng)絡(luò),其人工神經(jīng)元響應(yīng)周圍單元,進(jìn)行大型圖像處理;設(shè)計(jì)一個(gè)卷積神經(jīng)網(wǎng)絡(luò)convnet在mnist數(shù)據(jù)集上來處理圖像分類任務(wù),該網(wǎng)絡(luò)結(jié)合了傳統(tǒng)的卷積層和可變形卷積層,以增強(qiáng)其對輸入圖像中空間變換的適應(yīng)能力,conv3和conv4作為可變形卷積替換層。
4.如權(quán)利要求1所述的輕量級可變形模塊在卷積神經(jīng)元之間共享偏移的方法,其特征在于,所述步驟s3中,在特征提取網(wǎng)絡(luò)resnet50的基礎(chǔ)上,融合了fpn網(wǎng)絡(luò)結(jié)構(gòu),將resnet50中高低層的特征圖進(jìn)行疊加融合,得到融合后的p2到p6五個(gè)特征圖;這五個(gè)特征圖在每個(gè)空間位置使用多個(gè)預(yù)定義的錨框,形成一組候選框;對于每個(gè)錨框,回歸層預(yù)測框的坐標(biāo),分類層預(yù)測框中是否包含目標(biāo);這些候選框隨后被送入r-cnn中進(jìn)行目標(biāo)的準(zhǔn)確分類和定位,實(shí)現(xiàn)對圖像中目標(biāo)的檢測與識別。
5.如權(quán)利要求1所述的輕量級可變形模塊在卷積神經(jīng)元之間共享偏移的方法,其特征在于,所述步驟s4中,retinanet網(wǎng)絡(luò)由resnet50、fpn特征金字塔、分類子網(wǎng)絡(luò)和邊框回歸子網(wǎng)絡(luò)依次連接組成,resnet50和fpn共同構(gòu)成主干網(wǎng)絡(luò),實(shí)現(xiàn)對目標(biāo)的特征提取,分類子網(wǎng)絡(luò)與邊框回歸子網(wǎng)絡(luò)分別負(fù)責(zé)對fpn輸出的特征圖進(jìn)行目標(biāo)分類與位置回歸。