本發(fā)明屬于模式識(shí)別,具體涉及一種端到端弱監(jiān)督實(shí)例分割方法及系統(tǒng)。
背景技術(shù):
1、實(shí)例分割是計(jì)算機(jī)視覺中的一項(xiàng)基礎(chǔ)任務(wù),廣泛應(yīng)用于自動(dòng)駕駛和醫(yī)療保健等領(lǐng)域。精確的掩碼預(yù)測(cè)對(duì)這一任務(wù)提出了重大挑戰(zhàn)。盡管已有諸如 maskformer、 mask2former、 mask?r-cnn等方法表現(xiàn)出競(jìng)爭(zhēng)力,但在每像素掩碼標(biāo)注的高成本方面仍存在諸多難題。因此,弱監(jiān)督實(shí)例分割方法成為應(yīng)對(duì)這些挑戰(zhàn)的探索方向。
2、根據(jù)監(jiān)督級(jí)別,弱監(jiān)督實(shí)例分割可分為三類:類級(jí)、點(diǎn)/涂鴉級(jí)和邊界框級(jí)。類級(jí)監(jiān)督因難以區(qū)分不同實(shí)例,可能導(dǎo)致不準(zhǔn)確的掩碼預(yù)測(cè)。相較之下,點(diǎn)/涂鴉級(jí)標(biāo)簽具備區(qū)分對(duì)象的能力,且在之前的研究中已有應(yīng)用。然而,點(diǎn)級(jí)標(biāo)注可能無(wú)法提供足夠的信息來(lái)精確識(shí)別實(shí)例。邊界框級(jí)監(jiān)督則值得關(guān)注,因?yàn)樗軌蚋_地定位實(shí)例,并已被證明在弱監(jiān)督實(shí)例分割中具有有效性。
3、邊界框級(jí)實(shí)例分割是研究人員重點(diǎn)開發(fā)和嘗試的方向。此前的方法大致分為兩類:一類是生成偽掩碼并利用其訓(xùn)練全監(jiān)督的實(shí)例分割網(wǎng)絡(luò),但這類方法通常需要多階段訓(xùn)練或補(bǔ)充數(shù)據(jù);另一類方法需制定與邊界框標(biāo)注和分割任務(wù)相一致的約束,采用卷積架構(gòu),并需要一對(duì)多標(biāo)簽分配和非最大抑制(nms)技術(shù)。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是為了解決現(xiàn)有邊界框級(jí)實(shí)例分割方法訓(xùn)練復(fù)雜,且需要一對(duì)多標(biāo)簽分配和非最大抑制技術(shù)的問題,提出了一種端到端弱監(jiān)督實(shí)例分割方法及系統(tǒng)。
2、本發(fā)明的技術(shù)方案為:第一方面,一種端到端弱監(jiān)督實(shí)例分割方法,所述方法包括以下步驟:
3、s1.獲取輸入圖像,并對(duì)輸入圖像進(jìn)行特征提取,得到具有相同通道的多級(jí)特征圖;
4、s2.對(duì)具有相同通道的多級(jí)特征圖進(jìn)行特征融合,得到圖像中各實(shí)例的隱藏特征;
5、s3.對(duì)各實(shí)例的隱藏特征通過類別分支、回歸分支和掩碼分支進(jìn)行轉(zhuǎn)化和計(jì)算,得到圖像中各實(shí)例的類別、邊界框和掩碼查詢;
6、s4.根據(jù)圖像中各實(shí)例的類別、邊界框和掩碼查詢,得到圖像中各實(shí)例的分割結(jié)果,實(shí)現(xiàn)端到端弱監(jiān)督實(shí)例的分割。
7、本發(fā)明的有益效果是:
8、1.本發(fā)明提出了一種基于 transformer架構(gòu)的新型端到端弱監(jiān)督實(shí)例分割方法,無(wú)需使用一對(duì)多標(biāo)簽分配和 nms,因此,本發(fā)明的方法更加直接和高效。
9、2.本發(fā)明的提供的方法具有更優(yōu)弱監(jiān)督實(shí)例分割方法的性能,而無(wú)需額外的數(shù)據(jù)或多階段訓(xùn)練過程。
10、作為優(yōu)選,所述步驟s1具體包括以下步驟:
11、s11.獲取輸入圖像,通過主干網(wǎng)絡(luò)對(duì)輸入圖像進(jìn)行特征提取,得到多級(jí)特征圖;
12、s12.通過卷積層對(duì)多級(jí)特征圖進(jìn)行處理,得到具有相同通道的多級(jí)特征圖,其中,。
13、上述優(yōu)選方案的有益效果是:
14、通過上述優(yōu)選方案,對(duì)多維特征圖進(jìn)行處理,所有特征圖共享相同的維度,使得特征圖具有更多信息量,有助于 transformer編碼器處理。
15、作為優(yōu)選,所述步驟s2具體包括以下步驟:
16、s21.利用注意機(jī)制對(duì)具有相同通道的多級(jí)特征圖進(jìn)行展平并連接重建,得到重建的多級(jí)特征圖;
17、s22.基于多尺度可變形注意方法和注意機(jī)制的輸入,利用可學(xué)習(xí)的對(duì)象查詢,通過交叉注意力機(jī)制建立重建的多級(jí)特征圖與對(duì)象查詢之間的相關(guān)性,得到圖像中各實(shí)例的隱藏特征;
18、所述隱藏特征的計(jì)算公式為:
19、
20、其中,表示編碼器的輸出,表示解碼器的輸出。
21、上述優(yōu)選方案的有益效果是:
22、通過上述優(yōu)選方案,將不同級(jí)別的特征圖進(jìn)行融合,增強(qiáng)了特征圖的表示能力。
23、作為優(yōu)選,所述步驟s4具體包括以下步驟:
24、s41.對(duì)多級(jí)特征圖中的進(jìn)行處理,得到特征圖;
25、s42.將掩碼查詢作為查詢輸入,特征圖作為鍵和值輸入,輸出相關(guān)聯(lián)的掩碼查詢和特征圖;
26、s43.對(duì)相關(guān)聯(lián)的掩碼查詢和特征圖進(jìn)行點(diǎn)積運(yùn)算,得到掩碼;
27、s44.根據(jù)圖像中各實(shí)例的類別、邊界框和掩碼,得到圖像中各實(shí)例的分割結(jié)果,實(shí)現(xiàn)端到端弱監(jiān)督實(shí)例的分割。
28、第二方面,一種端到端弱監(jiān)督實(shí)例分割系統(tǒng),所述系統(tǒng)包括:
29、主干網(wǎng)絡(luò)模塊,用于接收所述預(yù)處理的圖像,并對(duì)所述預(yù)處理的圖像進(jìn)行特征提取,輸出具有相同通道的多級(jí)特征圖;
30、 transformer編碼器-解碼器模塊,用于接收所述具有相同通道的多級(jí)特征圖,輸出圖像中各實(shí)例的隱藏特征;
31、預(yù)測(cè)頭模塊,用于接收并轉(zhuǎn)換計(jì)算所述圖像中各實(shí)例的隱藏特征,并輸出圖像中各實(shí)例的類別、邊界框和掩碼查詢;
32、掩碼編碼器-解碼器模塊,用于接收所述圖像中各實(shí)例的類別、邊界框和掩碼查詢,并輸出圖像中各實(shí)例的分割結(jié)果。
33、本發(fā)明的有益效果是:
34、本發(fā)明提出的掩碼解碼器,利用注意力的適應(yīng)性來(lái)建立實(shí)例之間的連接,可以通過高效的矩陣乘法運(yùn)算來(lái)實(shí)現(xiàn),能夠獲得更準(zhǔn)確的掩模預(yù)測(cè)。
35、作為優(yōu)選,所述 transformer編碼器-解碼器模塊包括可變形編碼器和可變形解碼器;
36、所述可變形編碼器包括六層網(wǎng)絡(luò)單元,所述六層網(wǎng)絡(luò)單元均由多尺度可變形注意層和前饋網(wǎng)絡(luò)層堆疊組成;
37、所述可變形解碼器包括六層網(wǎng)絡(luò)單元,所述六層網(wǎng)絡(luò)單元均由自注意力層和交叉注意力層堆疊組成。
38、上述優(yōu)選方案的有益效果是:
39、通過將多尺度可變形注意層和前饋網(wǎng)絡(luò)層堆疊,并引入可變形編碼器,實(shí)現(xiàn)了對(duì)不同級(jí)別的特征圖的融合,增強(qiáng)了特征圖的表示能力;同時(shí),通過將自注意力層和交叉注意力層引入可變形解碼器,提高了 transformer編碼器-解碼器模塊的性能。
40、通過上述優(yōu)選方案,
41、作為優(yōu)選,所述預(yù)測(cè)頭模塊包括并聯(lián)連接的類別分支、回歸分支和掩碼分支;
42、所述類別分支上設(shè)置有線性層,其計(jì)算得到各實(shí)例的類別的公式為:
43、
44、其中,表示各實(shí)例的類別,表示線性層的輸出結(jié)果;
45、所述回歸分支上設(shè)置有多層感知器,其計(jì)算得到邊界框的公式為:
46、
47、其中,表示邊界框,表示回歸分支上多層感知器的輸出結(jié)果;
48、所述掩碼分支上設(shè)置有多層感知器,其計(jì)算得到掩碼查詢的公式為:
49、
50、其中,表示掩碼分支上多層感知器的輸出結(jié)果。
51、上述優(yōu)選方案的有益效果是:
52、通過引入掩碼分支,實(shí)現(xiàn)了對(duì)每個(gè)實(shí)例的掩碼的預(yù)測(cè)。
53、作為優(yōu)選,所述掩碼編碼器-解碼器模塊包括掩碼編碼器和共享掩碼解碼器;
54、所述共享掩碼解碼器由兩層堆疊的交叉注意層和自注意層組成。
55、上述優(yōu)選方案的有益效果是:
56、通過交叉注意單元將掩碼查詢與特征圖相關(guān)聯(lián),從而有助于預(yù)測(cè)最終的掩碼;通過自注意單元將對(duì)象查詢相互連接,使得弱監(jiān)督實(shí)例分割可以實(shí)現(xiàn)更高的性能。
57、作為優(yōu)選,所述系統(tǒng)在訓(xùn)練過程中的損失函數(shù)計(jì)算公式為:
58、
59、其中,表示檢測(cè)損失函數(shù);表示焦點(diǎn)損失函數(shù);表示分割損失函數(shù);表示多級(jí)特征圖;表示預(yù)測(cè)正樣本的分類結(jié)果;表示正樣本;表示回歸損失;表示標(biāo)注框;表示預(yù)測(cè)框;表示映射損失;表示預(yù)測(cè)掩膜;表示成對(duì)損失;表示預(yù)測(cè)顏色相似度;表示邊緣顏色相似度;表示至少有一個(gè)點(diǎn)在真值框內(nèi)的邊緣個(gè)數(shù);表示在y軸方向上的最大值操作;表示在x軸方向上的最大值操作;表示指示函數(shù),當(dāng)滿足時(shí)其值為1,否則為0;表示dice系數(shù)損失函數(shù);表示以自然對(duì)數(shù)e為底的對(duì)數(shù)函數(shù)。
60、上述優(yōu)選方案的有益效果是:
61、通過焦點(diǎn)損失函數(shù),實(shí)現(xiàn)了監(jiān)督分類任務(wù);通過分割損失函數(shù)實(shí)現(xiàn)了通過利用邊界框注釋來(lái)定位對(duì)象,并且能夠獲得更準(zhǔn)確的掩模預(yù)測(cè)。