亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種輕量級可變形模塊在卷積神經(jīng)元之間共享偏移的方法

文檔序號:40319886發(fā)布日期:2024-12-18 12:56閱讀:17來源:國知局
一種輕量級可變形模塊在卷積神經(jīng)元之間共享偏移的方法

本發(fā)明屬于深度學(xué)習(xí),具體涉及一種輕量級可變形模塊在卷積神經(jīng)元之間共享偏移的方法。


背景技術(shù):

1、在大規(guī)模數(shù)據(jù)集和計(jì)算資源普及之后,卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,cnn)成為視覺識別的主流。從alexnet[1]開始,先后提出了許多更深層次和更有效的神經(jīng)網(wǎng)絡(luò)架構(gòu),如vgg[2]、googlenet[3]、resnet[4]、resnext[5]、efficientnet[6,7]等。最近的研究成果如internimage[8]和convnext[9]表明,基于卷積網(wǎng)絡(luò)的視覺模型保持了穩(wěn)健的性能、高效性、簡單性,并且具有適宜的歸納偏差[10,11]。尤其是在像圖像生成[12,13]等領(lǐng)域,卷積方法仍然是首選。這凸顯了基于卷積方法的持久價(jià)值。除了架構(gòu)設(shè)計(jì)方面的發(fā)展,還制定了更復(fù)雜的卷積操作,如深度卷積[14]和可變形卷積[15,16]。物體識別和檢測面臨的幾何變化挑戰(zhàn),包括尺度、姿態(tài)、視角和部件變形,推動(dòng)了這些技術(shù)的發(fā)展。當(dāng)前解決這些問題的先進(jìn)方法是可變形卷積網(wǎng)絡(luò)(deformableconvolutionalnetworks,dcn)[16],它引入了兩個(gè)模塊來幫助cnn建模這些變化。第一個(gè)模塊是可變形卷積,該模塊通過對標(biāo)準(zhǔn)卷積的網(wǎng)格采樣位置進(jìn)行偏移來適應(yīng)幾何變化,這些偏移由前一特征圖學(xué)習(xí)的位移決定。第二個(gè)模塊是可變形感興趣區(qū)域池化(regionof?interestpooling,roipooling),其中學(xué)習(xí)了roipooling[17]中小塊(bin)位置的偏移增強(qiáng)特征表示。這些模塊的引入使神經(jīng)網(wǎng)絡(luò)能夠動(dòng)態(tài)調(diào)整其特征表示,以適應(yīng)物體的配置和結(jié)構(gòu),從而顯著提高了物體檢測的準(zhǔn)確率。這種方法通過變形采樣和池化模式,使得網(wǎng)絡(luò)能夠更好地適應(yīng)物體的幾何變化,從而提高了模型在實(shí)際應(yīng)用中的性能和準(zhǔn)確性。

2、在使用可變形卷積時(shí),我們發(fā)現(xiàn)一個(gè)激活單元的采樣傾向于集中在其所在物體的周圍。然而,這種覆蓋并不精確,采樣往往會(huì)擴(kuò)展到興趣區(qū)域之外。為了解決這個(gè)問題,[15]提出了一個(gè)新的可變形卷積網(wǎng)絡(luò)版本,稱為deformableconvnetsv2(dcnv2)。在dcnv1(即dcn)基礎(chǔ)上,dcnv2增加了調(diào)制機(jī)制,使每個(gè)樣本不僅會(huì)經(jīng)歷一個(gè)學(xué)習(xí)得來的偏移,還會(huì)被一個(gè)學(xué)習(xí)得來的特征幅度進(jìn)行調(diào)制。通過這種方式,網(wǎng)絡(luò)模塊能夠同時(shí)調(diào)整其樣本的空間分布和相對影響力。然而,類似于常規(guī)卷積,原始dcnv2中的不同卷積神經(jīng)元具有獨(dú)立的線性投影權(quán)重和偏移,因此其參數(shù)和內(nèi)存復(fù)雜度與采樣點(diǎn)的總數(shù)成正比,這顯著限制了模型的效率,特別是在大規(guī)模模型中。


技術(shù)實(shí)現(xiàn)思路

1、為了解決上述存在的問題,本發(fā)明提出:一種輕量級可變形模塊在卷積神經(jīng)元之間共享偏移的方法,包括如下步驟:

2、s1、設(shè)計(jì)輕量級的可變形模塊tdcn:

3、引入偏移域offset?field表示方法,將偏移域通道維度從2n減少到2,其中n為采樣點(diǎn)數(shù),無論選擇多大的卷積核,偏移域的通道數(shù)始終為2;

4、通過相鄰卷積操作共享偏移,使得這些卷積操作的神經(jīng)元學(xué)習(xí)一個(gè)合適的偏移,并在他們之間建立關(guān)聯(lián);

5、s2、將tdcn整合到convnet系統(tǒng)中,并使用各種不同的主干網(wǎng)絡(luò);

6、s3、將tdcn整合到faster?r-cnn系統(tǒng)中,并使用各種不同的主干網(wǎng)絡(luò);

7、s4、將tdcn整合到retinanet系統(tǒng)中,并使用各種不同的主干網(wǎng)絡(luò)。

8、進(jìn)一步地,所述步驟s1中,包括如下步驟:

9、tdcn會(huì)將一個(gè)方向上的偏移量映射到偏移域通道維度的一幀上,卷積核會(huì)生成兩個(gè)方向上的偏移,分別對應(yīng)寬度方向和高度方向,即w-offset?field和h-offset?field;

10、在dcn中,將偏移域上通道維度同一個(gè)位置提取出來,組成以該位置為采樣中心時(shí)卷積核偏移量,在tdcn中,輸入特征圖的尺寸跟偏移域w和h維度相同,偏移域與輸入特征圖上卷積采樣網(wǎng)格相同位置,對應(yīng)此時(shí)卷積核偏移量;相鄰的卷積操作重合的像素點(diǎn)會(huì)共同學(xué)習(xí)到一個(gè)適應(yīng)它們的偏移。

11、進(jìn)一步地,所述步驟s2中,卷積神經(jīng)網(wǎng)絡(luò)cnn作為前饋神經(jīng)網(wǎng)絡(luò),其人工神經(jīng)元響應(yīng)周圍單元,進(jìn)行大型圖像處理;設(shè)計(jì)一個(gè)卷積神經(jīng)網(wǎng)絡(luò)convnet在mnist數(shù)據(jù)集上來處理圖像分類任務(wù),該網(wǎng)絡(luò)結(jié)合了傳統(tǒng)的卷積層和可變形卷積層,以增強(qiáng)其對輸入圖像中空間變換的適應(yīng)能力,conv3和conv4作為可變形卷積替換層。

12、進(jìn)一步地,所述步驟s3中,在特征提取網(wǎng)絡(luò)resnet50的基礎(chǔ)上,融合了fpn網(wǎng)絡(luò)結(jié)構(gòu),將resnet50中高低層的特征圖進(jìn)行疊加融合,得到融合后的p2到p6五個(gè)特征圖;這五個(gè)特征圖在每個(gè)空間位置使用多個(gè)預(yù)定義的錨框,形成一組候選框;對于每個(gè)錨框,回歸層預(yù)測框的坐標(biāo),分類層預(yù)測框中是否包含目標(biāo);這些候選框隨后被送入r-cnn中進(jìn)行目標(biāo)的準(zhǔn)確分類和定位,實(shí)現(xiàn)對圖像中目標(biāo)的檢測與識別。

13、進(jìn)一步地,所述步驟s4中,retinanet網(wǎng)絡(luò)由resnet50、fpn特征金字塔、分類子網(wǎng)絡(luò)和邊框回歸子網(wǎng)絡(luò)依次連接組成,resnet50和fpn共同構(gòu)成主干網(wǎng)絡(luò),實(shí)現(xiàn)對目標(biāo)的特征提取,分類子網(wǎng)絡(luò)與邊框回歸子網(wǎng)絡(luò)分別負(fù)責(zé)對fpn輸出的特征圖進(jìn)行目標(biāo)分類與位置回歸。

14、本發(fā)明的有益效果為:本發(fā)明通過相鄰卷積操作共享偏移,使得這些卷積操作的神經(jīng)元學(xué)習(xí)一個(gè)合適的偏移,并在他們之間建立關(guān)聯(lián)。這種關(guān)聯(lián)在網(wǎng)絡(luò)深度增加時(shí)仍然存在,從而保護(hù)了局部特征。這一創(chuàng)新性的方法不僅解決了傳統(tǒng)可變形卷積存在的問題,還保持了可變形卷積自適應(yīng)地調(diào)整卷積核,以適應(yīng)對象幾何變化的能力,從而獲得更為廣泛適用的特性。



技術(shù)特征:

1.一種輕量級可變形模塊在卷積神經(jīng)元之間共享偏移的方法,其特征在于,包括如下步驟:

2.如權(quán)利要求1所述的輕量級可變形模塊在卷積神經(jīng)元之間共享偏移的方法,其特征在于,所述步驟s1中,包括如下步驟:

3.如權(quán)利要求1所述的輕量級可變形模塊在卷積神經(jīng)元之間共享偏移的方法,其特征在于,所述步驟s2中,卷積神經(jīng)網(wǎng)絡(luò)cnn作為前饋神經(jīng)網(wǎng)絡(luò),其人工神經(jīng)元響應(yīng)周圍單元,進(jìn)行大型圖像處理;設(shè)計(jì)一個(gè)卷積神經(jīng)網(wǎng)絡(luò)convnet在mnist數(shù)據(jù)集上來處理圖像分類任務(wù),該網(wǎng)絡(luò)結(jié)合了傳統(tǒng)的卷積層和可變形卷積層,以增強(qiáng)其對輸入圖像中空間變換的適應(yīng)能力,conv3和conv4作為可變形卷積替換層。

4.如權(quán)利要求1所述的輕量級可變形模塊在卷積神經(jīng)元之間共享偏移的方法,其特征在于,所述步驟s3中,在特征提取網(wǎng)絡(luò)resnet50的基礎(chǔ)上,融合了fpn網(wǎng)絡(luò)結(jié)構(gòu),將resnet50中高低層的特征圖進(jìn)行疊加融合,得到融合后的p2到p6五個(gè)特征圖;這五個(gè)特征圖在每個(gè)空間位置使用多個(gè)預(yù)定義的錨框,形成一組候選框;對于每個(gè)錨框,回歸層預(yù)測框的坐標(biāo),分類層預(yù)測框中是否包含目標(biāo);這些候選框隨后被送入r-cnn中進(jìn)行目標(biāo)的準(zhǔn)確分類和定位,實(shí)現(xiàn)對圖像中目標(biāo)的檢測與識別。

5.如權(quán)利要求1所述的輕量級可變形模塊在卷積神經(jīng)元之間共享偏移的方法,其特征在于,所述步驟s4中,retinanet網(wǎng)絡(luò)由resnet50、fpn特征金字塔、分類子網(wǎng)絡(luò)和邊框回歸子網(wǎng)絡(luò)依次連接組成,resnet50和fpn共同構(gòu)成主干網(wǎng)絡(luò),實(shí)現(xiàn)對目標(biāo)的特征提取,分類子網(wǎng)絡(luò)與邊框回歸子網(wǎng)絡(luò)分別負(fù)責(zé)對fpn輸出的特征圖進(jìn)行目標(biāo)分類與位置回歸。


技術(shù)總結(jié)
一種輕量級可變形模塊在卷積神經(jīng)元之間共享偏移的方法,屬于深度學(xué)習(xí)技術(shù)領(lǐng)域,包括如下步驟:S1、設(shè)計(jì)輕量級的可變形模塊TDCN:引入偏移域offset?field表示方法,將偏移域通道維度從2N減少到2,其中N為采樣點(diǎn)數(shù),無論選擇多大的卷積核,偏移域的通道數(shù)始終為2;通過相鄰卷積操作共享偏移,使得這些卷積操作的神經(jīng)元學(xué)習(xí)一個(gè)合適的偏移,并在他們之間建立關(guān)聯(lián);S2、將TDCN整合到Convnet系統(tǒng)中,并使用各種不同的主干網(wǎng)絡(luò);S3、將TDCN整合到Faster?R?CNN系統(tǒng)中,并使用各種不同的主干網(wǎng)絡(luò);S4、將TDCN整合到RetinaNet系統(tǒng)中,并使用各種不同的主干網(wǎng)絡(luò)。該方法解決了傳統(tǒng)可變形卷積的問題,同時(shí)保留了其自適應(yīng)調(diào)整卷積核以適應(yīng)對象幾何變化的能力,獲得更廣泛的適用性。

技術(shù)研發(fā)人員:杜秀麗,郗美玲,丁曉輝,呂亞娜,邱少明,劉慶利
受保護(hù)的技術(shù)使用者:大連大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/17
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1