本發(fā)明公開一種基于大模型輔助監(jiān)督的弱監(jiān)督語義分割方法,屬于計算機(jī)視覺中的圖像分割。
背景技術(shù):
1、語義分割是一項至關(guān)重要的計算機(jī)視覺任務(wù),目前已廣泛應(yīng)用于自動駕駛、醫(yī)學(xué)影像分析、視頻監(jiān)控和機(jī)器人視覺等領(lǐng)域,隨著深度神經(jīng)網(wǎng)絡(luò)和多模態(tài)大模型的高速發(fā)展,語義分割領(lǐng)域已經(jīng)取得了許多重要的突破。傳統(tǒng)的語義分割需要人工進(jìn)行像素級的標(biāo)注來預(yù)測圖像中每個像素的類別,由于像素級標(biāo)注的費時費力,研究者們提出了弱監(jiān)督語義分割方法,通過使用稀疏的標(biāo)注如涂鴉、邊界框、點和圖像級標(biāo)簽來進(jìn)行分割訓(xùn)練,這極大地減輕了像素級標(biāo)注的成本。其中,圖像級標(biāo)簽僅需提供圖像的類別信息,因最容易獲取而受到廣泛的研究,基于圖像級標(biāo)簽的弱監(jiān)督語義分割任務(wù)通常遵循以下三步流程:(1)首先使用圖像級標(biāo)簽訓(xùn)練一個分類網(wǎng)絡(luò),以生成具有位置和類別信息的類激活映射;(2)然后使用條件隨機(jī)場和語義親和力等技術(shù)將類激活映射細(xì)化為像素級的分割偽標(biāo)簽;(3)最后使用生成的分割偽標(biāo)簽作為像素級監(jiān)督訓(xùn)練語義分割網(wǎng)絡(luò)。
2、然而,類激活映射提供的圖像級監(jiān)督信息與分割訓(xùn)練中需要的像素級監(jiān)督信息存在巨大的差距,遵循以上流程的弱監(jiān)督語義分割的主要問題在于類激活映射傾向于關(guān)注最具鑒別性的區(qū)域和錯誤激活目標(biāo)類別區(qū)域,這導(dǎo)致產(chǎn)生的分割偽標(biāo)簽不準(zhǔn)確,進(jìn)而為分割訓(xùn)練提供了不充足的監(jiān)督信息。為了緩解這個問題,一些方法研究像素間的語義關(guān)系,使用相似性矩陣學(xué)習(xí)像素間的語義關(guān)聯(lián)性,并應(yīng)用隨機(jī)游走等方法來擴(kuò)散語義信息;另一些方法探究對語義信息的擦除或挖掘,使用區(qū)域擦除或挖掘技術(shù)去除或挖掘類激活映射最具鑒別性的區(qū)域,促使其他目標(biāo)區(qū)域的激活,這類方法一般存在過度擦除和過度挖掘的問題,這將擾亂分類網(wǎng)絡(luò)對目標(biāo)類別的預(yù)測。其他一些更為直接的方法則是利用額外資源來增強(qiáng)監(jiān)督信息,這類方法集中于有效地利用額外的易獲取資源,如顯著性圖、分布外數(shù)據(jù)、交叉圖像來縮短監(jiān)督差距。近年來,多模態(tài)大模型如clip、sam等發(fā)展迅猛,其強(qiáng)大的零樣本泛化能力能夠很好的適應(yīng)如語義分割這樣的下游任務(wù),提高語義分割的性能,利用大模型進(jìn)行弱監(jiān)督語義分割為此受到大量研究且存在一定的挑戰(zhàn)性。
技術(shù)實現(xiàn)思路
1、針對以上技術(shù)問題,本發(fā)明利用對比圖像文本對預(yù)訓(xùn)練模型(clip)作為額外的監(jiān)督信息,簡單而有效。clip模型包含圖像和文本編碼器,在擁有4億個圖像文本對的大型數(shù)據(jù)集上進(jìn)行訓(xùn)練,使用對比學(xué)習(xí)在特征空間中對齊圖像和文本,能夠應(yīng)用于多種視覺任務(wù),展現(xiàn)出強(qiáng)大的零鏡頭分類能力。通過clip提供更豐富的視覺和文本信息,緩解類激活映射監(jiān)督信息不足的問題,提升生成的偽標(biāo)簽的可靠性。
2、具體而言,本發(fā)明提供一種大模型輔助監(jiān)督的弱監(jiān)督語義分割方法,包括以下步驟:
3、s1、初始化視覺transformer和大模型clip,分別提取視覺特征;
4、s2、基于視覺transformer和clip的特征分別生成類激活映射,并獲取視覺transformer的分類結(jié)果;
5、s3、基于clip的多頭自注意力提取語義親和信息,生成輔助掩碼,從視覺transformer中獲取分割預(yù)測,與掩碼計算輔助損失;
6、s4、使用高斯混合模型對輔助掩碼進(jìn)行噪聲檢測,度量分布差異過濾噪聲像素;
7、s5、融合clip和視覺transformer的類激活映射,利用后處理技術(shù)細(xì)化類激活映射,得到偽標(biāo)簽,使用偽標(biāo)簽訓(xùn)練語義分割模型。
8、進(jìn)一步地,在步驟s1中,對于視覺transformer,使用imagenet預(yù)訓(xùn)練模型初始化網(wǎng)絡(luò)參數(shù);對于clip,使用vit-b預(yù)訓(xùn)練模型。將圖像i∈rh×w×3和圖像級標(biāo)簽y∈r1×c同時輸入視覺transformer編碼器和clip模型中,分別提取類別標(biāo)記tc∈rc×d、補(bǔ)丁標(biāo)記tp∈rn×d和clip視覺特征fc∈rh×w×d,對補(bǔ)丁標(biāo)記tp進(jìn)行重排列和卷積得到特征fv∈r(1+c)×h×w,過程如下:
9、fv=conv(reshape(tp∈rn×d))
10、fv可用作分割預(yù)測,包含前景特征ffg∈rc×h×w和背景特征fbg∈r1×h×w。h和w分別是圖像的高度和寬度,n=h×w,c是類別數(shù)目,d是特征維度。
11、進(jìn)一步地,在步驟s2中,對于視覺transformer,將步驟s1中提取的前景特征ffg經(jīng)過relu函數(shù)后得到初始的激活映射mv:
12、mv=relu(fv[1:,:,:])
13、將clip作為輔助網(wǎng)絡(luò),提取最后一層的特征fc∈rh×w×d,將特征的第k個通道上類別c的權(quán)重與特征相乘求和再經(jīng)過relu函數(shù)得到初始的類激活映射mc:
14、
15、計算視覺transformer中類別標(biāo)記和補(bǔ)丁標(biāo)記的分類結(jié)果,對于類別標(biāo)記tc,進(jìn)行均值處理得到類別c的預(yù)測概率pc;對于補(bǔ)丁標(biāo)記tp,使用全局平均池化得到類別預(yù)測概率pp,然后對pc和pp計算多標(biāo)簽分類損失,分別得到lcls_1和lcls_2,計算公式如下,其中σ(·)為sigmoid函數(shù):
16、
17、
18、進(jìn)一步地,在步驟s3中,基于clip中的多頭注意力機(jī)制得到注意力權(quán)重w∈rn×n,對w進(jìn)行正則化得到矩陣r,表示語義信息的最優(yōu)映射關(guān)系,對矩陣r進(jìn)行線性相加得到對稱的語義親和度矩陣a,t(·)代表轉(zhuǎn)置操作。然后將矩陣a進(jìn)行隨機(jī)游走傳播語義親和信息來改進(jìn)步驟s2中生成的mc得到對中每個像素的最大激活值進(jìn)行取反和計算冪次方,得到背景向量mbg,與拼接再使用argmax操作得到每個像素的類別索引,將索引轉(zhuǎn)換為類別標(biāo)簽得到最終的輔助掩碼yaux,具體過程如下:
19、
20、
21、將包含背景信息的特征fv用作分割預(yù)測,使用交叉熵?fù)p失得到輔助掩碼yaux和分割預(yù)測fv的輔助損失,作為額外的監(jiān)督信息,公式如下:
22、
23、進(jìn)一步地,在步驟s4中,使用高斯混合模型對輔助掩碼進(jìn)行噪聲檢測,度量分布差異過濾噪聲像素。建立包含兩個高斯分布的高斯混合模型擬合輔助損失值過高的像素,使用高斯概率密度函數(shù)實現(xiàn),公式如下:
24、
25、其中σ2為方差,μ為平均值,利用高斯混合分布的權(quán)重系數(shù)αk組合兩個分布,公式如下:
26、
27、對高斯混合模型進(jìn)行參數(shù)初始化,使用期望最大化算法估計分布情況,當(dāng)兩個分布的均值差大于設(shè)定閾值時認(rèn)為該像素存在噪聲,在期望步驟中計算此像素屬于噪聲的概率γk(x),將高噪聲概率的像素記為255,表示忽略此噪聲像素,不參與接下來的訓(xùn)練過程。然后在最大化步驟中使用γk(x)來更新所有高斯分布的參數(shù)μk、和αk,過程如下:
28、
29、
30、通過重復(fù)期望步驟和最大化步驟,當(dāng)兩個分布的參數(shù)變化小于預(yù)設(shè)值或達(dá)到最大迭代次數(shù)時結(jié)束建模。
31、進(jìn)一步地,在步驟s5中,使用clip生成的改進(jìn)類激活映射作為指導(dǎo)信息,與視覺transformer生成的類激活映射mv進(jìn)行權(quán)重相加,β作為權(quán)重系數(shù),得到最終的類激活映射mfinal,過程如下:
32、
33、通過后處理技術(shù)傳播語義信息,得到最終的分割偽標(biāo)簽,使用偽標(biāo)簽訓(xùn)練分割網(wǎng)絡(luò)完成圖像的語義分割。
34、與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:
35、本發(fā)明利用大模型提供輔助監(jiān)督,有效解決了弱監(jiān)督語義分割存在的監(jiān)督差異問題,利用凍結(jié)的clip模型生成的額外信息能夠幫助主干網(wǎng)絡(luò)獲得高質(zhì)量的像素級偽標(biāo)簽,為分割訓(xùn)練提供更精確的監(jiān)督。其次,設(shè)計了類激活映射融合和掩碼降噪,提升了類激活映射質(zhì)量,進(jìn)一步增強(qiáng)了輔助監(jiān)督,在分割性能方面有顯著提高。