一種基于大模型輔助監(jiān)督的弱監(jiān)督語義分割方法

文檔序號：40390026發(fā)布日期：2024-12-20 12:13閱讀：4來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明公開一種基于大模型輔助監(jiān)督的弱監(jiān)督語義分割方法，屬于計算機(jī)視覺中的圖像分割。

背景技術(shù)：

1、語義分割是一項至關(guān)重要的計算機(jī)視覺任務(wù)，目前已廣泛應(yīng)用于自動駕駛、醫(yī)學(xué)影像分析、視頻監(jiān)控和機(jī)器人視覺等領(lǐng)域，隨著深度神經(jīng)網(wǎng)絡(luò)和多模態(tài)大模型的高速發(fā)展，語義分割領(lǐng)域已經(jīng)取得了許多重要的突破。傳統(tǒng)的語義分割需要人工進(jìn)行像素級的標(biāo)注來預(yù)測圖像中每個像素的類別，由于像素級標(biāo)注的費時費力，研究者們提出了弱監(jiān)督語義分割方法，通過使用稀疏的標(biāo)注如涂鴉、邊界框、點和圖像級標(biāo)簽來進(jìn)行分割訓(xùn)練，這極大地減輕了像素級標(biāo)注的成本。其中，圖像級標(biāo)簽僅需提供圖像的類別信息，因最容易獲取而受到廣泛的研究，基于圖像級標(biāo)簽的弱監(jiān)督語義分割任務(wù)通常遵循以下三步流程：(1)首先使用圖像級標(biāo)簽訓(xùn)練一個分類網(wǎng)絡(luò)，以生成具有位置和類別信息的類激活映射；(2)然后使用條件隨機(jī)場和語義親和力等技術(shù)將類激活映射細(xì)化為像素級的分割偽標(biāo)簽；(3)最后使用生成的分割偽標(biāo)簽作為像素級監(jiān)督訓(xùn)練語義分割網(wǎng)絡(luò)。

2、然而，類激活映射提供的圖像級監(jiān)督信息與分割訓(xùn)練中需要的像素級監(jiān)督信息存在巨大的差距，遵循以上流程的弱監(jiān)督語義分割的主要問題在于類激活映射傾向于關(guān)注最具鑒別性的區(qū)域和錯誤激活目標(biāo)類別區(qū)域，這導(dǎo)致產(chǎn)生的分割偽標(biāo)簽不準(zhǔn)確，進(jìn)而為分割訓(xùn)練提供了不充足的監(jiān)督信息。為了緩解這個問題，一些方法研究像素間的語義關(guān)系，使用相似性矩陣學(xué)習(xí)像素間的語義關(guān)聯(lián)性，并應(yīng)用隨機(jī)游走等方法來擴(kuò)散語義信息；另一些方法探究對語義信息的擦除或挖掘，使用區(qū)域擦除或挖掘技術(shù)去除或挖掘類激活映射最具鑒別性的區(qū)域，促使其他目標(biāo)區(qū)域的激活，這類方法一般存在過度擦除和過度挖掘的問題，這將擾亂分類網(wǎng)絡(luò)對目標(biāo)類別的預(yù)測。其他一些更為直接的方法則是利用額外資源來增強(qiáng)監(jiān)督信息，這類方法集中于有效地利用額外的易獲取資源，如顯著性圖、分布外數(shù)據(jù)、交叉圖像來縮短監(jiān)督差距。近年來，多模態(tài)大模型如clip、sam等發(fā)展迅猛，其強(qiáng)大的零樣本泛化能力能夠很好的適應(yīng)如語義分割這樣的下游任務(wù)，提高語義分割的性能，利用大模型進(jìn)行弱監(jiān)督語義分割為此受到大量研究且存在一定的挑戰(zhàn)性。

技術(shù)實現(xiàn)思路

1、針對以上技術(shù)問題，本發(fā)明利用對比圖像文本對預(yù)訓(xùn)練模型(clip)作為額外的監(jiān)督信息，簡單而有效。clip模型包含圖像和文本編碼器，在擁有4億個圖像文本對的大型數(shù)據(jù)集上進(jìn)行訓(xùn)練，使用對比學(xué)習(xí)在特征空間中對齊圖像和文本，能夠應(yīng)用于多種視覺任務(wù)，展現(xiàn)出強(qiáng)大的零鏡頭分類能力。通過clip提供更豐富的視覺和文本信息，緩解類激活映射監(jiān)督信息不足的問題，提升生成的偽標(biāo)簽的可靠性。

2、具體而言，本發(fā)明提供一種大模型輔助監(jiān)督的弱監(jiān)督語義分割方法，包括以下步驟：

3、s1、初始化視覺transformer和大模型clip，分別提取視覺特征；

4、s2、基于視覺transformer和clip的特征分別生成類激活映射，并獲取視覺transformer的分類結(jié)果；

5、s3、基于clip的多頭自注意力提取語義親和信息，生成輔助掩碼，從視覺transformer中獲取分割預(yù)測，與掩碼計算輔助損失；

6、s4、使用高斯混合模型對輔助掩碼進(jìn)行噪聲檢測，度量分布差異過濾噪聲像素；

7、s5、融合clip和視覺transformer的類激活映射，利用后處理技術(shù)細(xì)化類激活映射，得到偽標(biāo)簽，使用偽標(biāo)簽訓(xùn)練語義分割模型。

8、進(jìn)一步地，在步驟s1中，對于視覺transformer，使用imagenet預(yù)訓(xùn)練模型初始化網(wǎng)絡(luò)參數(shù)；對于clip，使用vit-b預(yù)訓(xùn)練模型。將圖像i∈rh×w×3和圖像級標(biāo)簽y∈r1×c同時輸入視覺transformer編碼器和clip模型中，分別提取類別標(biāo)記tc∈rc×d、補(bǔ)丁標(biāo)記tp∈rn×d和clip視覺特征fc∈rh×w×d，對補(bǔ)丁標(biāo)記tp進(jìn)行重排列和卷積得到特征fv∈r(1+c)×h×w，過程如下：

9、fv＝conv(reshape(tp∈rn×d))

10、fv可用作分割預(yù)測，包含前景特征ffg∈rc×h×w和背景特征fbg∈r1×h×w。h和w分別是圖像的高度和寬度，n＝h×w，c是類別數(shù)目，d是特征維度。

11、進(jìn)一步地，在步驟s2中，對于視覺transformer，將步驟s1中提取的前景特征ffg經(jīng)過relu函數(shù)后得到初始的激活映射mv：

12、mv＝relu(fv[1:,:,:])

13、將clip作為輔助網(wǎng)絡(luò)，提取最后一層的特征fc∈rh×w×d，將特征的第k個通道上類別c的權(quán)重與特征相乘求和再經(jīng)過relu函數(shù)得到初始的類激活映射mc：

14、

15、計算視覺transformer中類別標(biāo)記和補(bǔ)丁標(biāo)記的分類結(jié)果，對于類別標(biāo)記tc，進(jìn)行均值處理得到類別c的預(yù)測概率pc；對于補(bǔ)丁標(biāo)記tp，使用全局平均池化得到類別預(yù)測概率pp，然后對pc和pp計算多標(biāo)簽分類損失，分別得到lcls_1和lcls_2，計算公式如下，其中σ(·)為sigmoid函數(shù)：

16、

17、

18、進(jìn)一步地，在步驟s3中，基于clip中的多頭注意力機(jī)制得到注意力權(quán)重w∈rn×n，對w進(jìn)行正則化得到矩陣r，表示語義信息的最優(yōu)映射關(guān)系，對矩陣r進(jìn)行線性相加得到對稱的語義親和度矩陣a，t(·)代表轉(zhuǎn)置操作。然后將矩陣a進(jìn)行隨機(jī)游走傳播語義親和信息來改進(jìn)步驟s2中生成的mc得到對中每個像素的最大激活值進(jìn)行取反和計算冪次方，得到背景向量mbg，與拼接再使用argmax操作得到每個像素的類別索引，將索引轉(zhuǎn)換為類別標(biāo)簽得到最終的輔助掩碼yaux，具體過程如下：

19、

20、

21、將包含背景信息的特征fv用作分割預(yù)測，使用交叉熵?fù)p失得到輔助掩碼yaux和分割預(yù)測fv的輔助損失，作為額外的監(jiān)督信息，公式如下：

22、

23、進(jìn)一步地，在步驟s4中，使用高斯混合模型對輔助掩碼進(jìn)行噪聲檢測，度量分布差異過濾噪聲像素。建立包含兩個高斯分布的高斯混合模型擬合輔助損失值過高的像素，使用高斯概率密度函數(shù)實現(xiàn)，公式如下：

24、

25、其中σ2為方差，μ為平均值，利用高斯混合分布的權(quán)重系數(shù)αk組合兩個分布，公式如下：

26、

27、對高斯混合模型進(jìn)行參數(shù)初始化，使用期望最大化算法估計分布情況，當(dāng)兩個分布的均值差大于設(shè)定閾值時認(rèn)為該像素存在噪聲，在期望步驟中計算此像素屬于噪聲的概率γk(x)，將高噪聲概率的像素記為255，表示忽略此噪聲像素，不參與接下來的訓(xùn)練過程。然后在最大化步驟中使用γk(x)來更新所有高斯分布的參數(shù)μk、和αk，過程如下：

28、

29、

30、通過重復(fù)期望步驟和最大化步驟，當(dāng)兩個分布的參數(shù)變化小于預(yù)設(shè)值或達(dá)到最大迭代次數(shù)時結(jié)束建模。

31、進(jìn)一步地，在步驟s5中，使用clip生成的改進(jìn)類激活映射作為指導(dǎo)信息，與視覺transformer生成的類激活映射mv進(jìn)行權(quán)重相加，β作為權(quán)重系數(shù)，得到最終的類激活映射mfinal，過程如下：

32、

33、通過后處理技術(shù)傳播語義信息，得到最終的分割偽標(biāo)簽，使用偽標(biāo)簽訓(xùn)練分割網(wǎng)絡(luò)完成圖像的語義分割。

34、與現(xiàn)有技術(shù)相比，本發(fā)明具有以下有益效果：

35、本發(fā)明利用大模型提供輔助監(jiān)督，有效解決了弱監(jiān)督語義分割存在的監(jiān)督差異問題，利用凍結(jié)的clip模型生成的額外信息能夠幫助主干網(wǎng)絡(luò)獲得高質(zhì)量的像素級偽標(biāo)簽，為分割訓(xùn)練提供更精確的監(jiān)督。其次，設(shè)計了類激活映射融合和掩碼降噪，提升了類激活映射質(zhì)量，進(jìn)一步增強(qiáng)了輔助監(jiān)督，在分割性能方面有顯著提高。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉偉鋒,高旭茹,張冰峰
技術(shù)所有人：中國石油大學(xué)（華東）
我是此專利的發(fā)明人

上一篇：一種水龍頭出水管的連接結(jié)構(gòu)的制作方法
上一篇：一種鹵制食品用真空包裝機(jī)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于大模型輔助監(jiān)督的弱監(jiān)督語義分割方法