一種基于擴(kuò)散模型的跨域語義分割系統(tǒng)及方法

文檔序號(hào)：40404998發(fā)布日期：2024-12-20 12:28閱讀：8來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及機(jī)器學(xué)習(xí)領(lǐng)域，特別涉及一種基于擴(kuò)散模型的跨域語義分割系統(tǒng)及方法。

背景技術(shù)：

1、目前，語義分割的任務(wù)是對(duì)圖像的每個(gè)像素進(jìn)行分類，以實(shí)現(xiàn)對(duì)不同物體的精確分割。該任務(wù)的精度依賴于模型對(duì)每個(gè)像素進(jìn)行分類，以便為圖像中的每個(gè)部分生成準(zhǔn)確的語義標(biāo)簽。與分類或檢測(cè)任務(wù)相比，語義分割需要更細(xì)粒度的分析，因?yàn)樗粌H要識(shí)別物體，還要確定其精確的邊界。由于現(xiàn)實(shí)場(chǎng)景中圖像的復(fù)雜性，如光照變化、不同的視角、遮擋等因素，語義分割模型的泛化能力面臨更高的要求。模型必須能夠在不同的場(chǎng)景和條件下，準(zhǔn)確地識(shí)別和分割目標(biāo)對(duì)象。這對(duì)模型的訓(xùn)練數(shù)據(jù)、數(shù)據(jù)增強(qiáng)方法以及網(wǎng)絡(luò)架構(gòu)提出了更高的要求。

2、現(xiàn)有的方法通常需要依賴域自適應(yīng)技術(shù)來解決域偏移問題，這種做法雖然在一定程度上能夠緩解源域和目標(biāo)域之間的分布差異，但往往依賴大量標(biāo)注數(shù)據(jù)，且在未標(biāo)注場(chǎng)景下表現(xiàn)受限。通過采用域泛化的策略，可以在無需目標(biāo)域數(shù)據(jù)的情況下提高模型的泛化能力，有效應(yīng)對(duì)不同域之間的分布差異，尤其是在無監(jiān)督或者弱監(jiān)督場(chǎng)景下，這種方法的優(yōu)勢(shì)尤為明顯。然而，現(xiàn)有的方法大多專注于全局特征對(duì)齊或?qū)褂?xùn)練，未能充分考慮在細(xì)粒度特征上的差異，從而在處理復(fù)雜場(chǎng)景或局部結(jié)構(gòu)顯著變化時(shí)表現(xiàn)不足，導(dǎo)致模型在實(shí)際應(yīng)用中對(duì)細(xì)節(jié)的捕捉能力欠佳。大多數(shù)語義分割模型默認(rèn)測(cè)試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)具有相同的分布，但在實(shí)際應(yīng)用中，這種假設(shè)往往不成立。尤其是在開放環(huán)境下，模型經(jīng)常面臨域偏移問題。這種偏移可能是由于語義差異(如未曾見過的類別)或環(huán)境差異(如來自不同場(chǎng)景或風(fēng)格的樣本)導(dǎo)致的。這使得語義分割變得更加復(fù)雜，模型必須具備良好的泛化能力，才能適應(yīng)不斷變化的場(chǎng)景與挑戰(zhàn)。

3、綜上所述，為了實(shí)現(xiàn)更廣泛的應(yīng)用場(chǎng)景，模型必須具備更強(qiáng)的適應(yīng)性。不僅需要在標(biāo)準(zhǔn)分割任務(wù)上表現(xiàn)優(yōu)異，還要能夠在不同的視覺風(fēng)格和環(huán)境條件下靈活應(yīng)對(duì)。因此，對(duì)于跨域語義分割任務(wù)，除了考慮模型在各域間的泛化能力，還需重點(diǎn)關(guān)注域間差異的處理，如視覺風(fēng)格的變化和環(huán)境的多樣性。只有這樣，才能確保模型在實(shí)際應(yīng)用中的穩(wěn)健性和高效性，滿足復(fù)雜、多變場(chǎng)景下的需求。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明為解決公知技術(shù)中存在的技術(shù)問題而提供一種基于擴(kuò)散模型的跨域語義分割系統(tǒng)及方法。

2、本發(fā)明為解決公知技術(shù)中存在的技術(shù)問題所采取的技術(shù)方案是：

3、一種基于擴(kuò)散模型的跨域語義分割系統(tǒng)，包括主干網(wǎng)絡(luò)、fpn網(wǎng)絡(luò)、編碼擾動(dòng)模塊、風(fēng)格投影器、均值調(diào)整模塊、方差調(diào)整模塊、特征融合模塊及掩碼解碼器；

4、主干網(wǎng)絡(luò)用于自下而上提取目標(biāo)圖像的特征圖；

5、fpn網(wǎng)絡(luò)用于融合主干網(wǎng)絡(luò)提取的特征圖中的低層特征圖與高層特征圖，生成多尺度特征圖；

6、編碼擾動(dòng)模塊用于在目標(biāo)圖像中加入高斯噪聲，生成初始噪聲特征圖；

7、風(fēng)格投影器用于從多層圖像特征中提取各層圖像的風(fēng)格特征，得到圖像的多層風(fēng)格特征；

8、均值調(diào)整模塊用于從多層風(fēng)格特征中提取各層各通道的均值信息，并擴(kuò)展尺寸使其尺寸和初始噪聲特征尺寸相對(duì)應(yīng)；

9、方差調(diào)整模塊用于從多層風(fēng)格特征中提取各層各通道的方差信息，并擴(kuò)展尺寸使其尺寸和初始噪聲特征尺寸相對(duì)應(yīng)；

10、特征融合模塊用于將各層圖像的圖像風(fēng)格特征的均值及和方差與圖像的初始噪聲特征圖相結(jié)合；并與fpn網(wǎng)絡(luò)生成的多尺度特征圖相連接，得到混合特征圖；

11、主干網(wǎng)絡(luò)及編碼擾動(dòng)模塊分別輸入目標(biāo)圖像；編碼擾動(dòng)模塊輸出初始噪聲特征圖；主干網(wǎng)絡(luò)輸出n層圖像特征圖至fpn網(wǎng)絡(luò)；fpn網(wǎng)絡(luò)輸出目標(biāo)圖像的多尺度特征；主干網(wǎng)絡(luò)和/或fpn網(wǎng)絡(luò)輸出第l層圖像特征圖至第i個(gè)風(fēng)格投影器，i＝l≤n；第i個(gè)風(fēng)格投影器輸出第l層圖像的風(fēng)格特征圖，分別至均值調(diào)整模塊及方差調(diào)整模塊；均值調(diào)整模塊輸出第一層至第n層圖像的風(fēng)格特征均值；方差調(diào)整模塊輸出第一層至第n層圖像的風(fēng)格特征方差；特征融合模塊分別輸入來自編碼擾動(dòng)模塊、fpn網(wǎng)絡(luò)、均值調(diào)整模塊及方差調(diào)整模塊的輸出信號(hào)，生成混合特征圖；掩碼解碼器輸入特征融合模塊生成的混合特征圖，輸出預(yù)測(cè)掩碼。

12、進(jìn)一步地，fpn網(wǎng)絡(luò)輸出第l層圖像特征圖至第i個(gè)風(fēng)格投影器，第i個(gè)風(fēng)格投影器包括依次連接的均值計(jì)算模塊、第一線性層、第一激活層、第二線性層：均值計(jì)算模塊計(jì)算輸入數(shù)據(jù)的平均值；第一、二線性層用于將輸入數(shù)據(jù)通過線性變換映射到輸出，第一激活層用于對(duì)輸入數(shù)據(jù)通過非線性的激活函數(shù)進(jìn)行處理并輸出；fpn網(wǎng)絡(luò)輸出第l層圖像特征圖至第i個(gè)風(fēng)格投影器的均值計(jì)算模塊，第i個(gè)風(fēng)格投影器第二線性層的輸出第l層圖像的風(fēng)格特征圖。

13、進(jìn)一步地，均值調(diào)整模塊包括依次連接的第二激活層及特征圖均值模塊；第二激活層用于對(duì)輸入數(shù)據(jù)通過非線性的激活函數(shù)進(jìn)行處理并輸出，特征圖均值模塊用于計(jì)算特征圖的均值；方差調(diào)整模塊包括依次連接的第三激活層及特征圖方差模塊；第三激活層用于對(duì)輸入數(shù)據(jù)通過非線性的激活函數(shù)進(jìn)行處理并輸出，特征圖方差模塊用于計(jì)算特征圖的方差；第i個(gè)風(fēng)格投影器輸出第l層圖像的風(fēng)格特征圖，分別至均值調(diào)整模塊的第二激活層及方差調(diào)整模塊的第三激活層；均值調(diào)整模塊的特征圖均值模塊輸出第一層至第n層圖像的風(fēng)格特征均值；方差調(diào)整模塊的特征圖方差模塊輸出第一層至第n層圖像的風(fēng)格特征方差。

14、進(jìn)一步地，特征融合模塊包括依次相連的第一矩陣乘法器和第一矩陣加法器，第一矩陣乘法器用于將兩個(gè)矩陣進(jìn)行相乘；第一矩陣加法器用于將兩個(gè)矩陣相加；第一矩陣乘法器輸入各層圖像的圖像風(fēng)格特征的方差矩陣及初始噪聲特征圖，將兩者相乘后輸出至第一矩陣加法器的第一個(gè)輸入端，第一矩陣加法器的第二個(gè)輸入端輸入各層圖像的圖像風(fēng)格特征的均值矩陣，第一矩陣加法器輸出組合特征圖。

15、本發(fā)明還提供了一種基于擴(kuò)散模型的跨域語義分割方法，該方法構(gòu)建跨域語義分割模型；跨域語義分割模型中設(shè)置主干網(wǎng)絡(luò)、fpn網(wǎng)絡(luò)、編碼擾動(dòng)模塊、風(fēng)格投影器、均值調(diào)整模塊、方差調(diào)整模塊、特征融合模塊及掩碼解碼器；

16、主干網(wǎng)絡(luò)用于自下而上提取目標(biāo)圖像的特征圖；

17、fpn網(wǎng)絡(luò)用于融合主干網(wǎng)絡(luò)提取的特征圖中的低層特征圖與高層特征圖，生成多尺度特征圖；

18、編碼擾動(dòng)模塊用于在目標(biāo)圖像中加入高斯噪聲，生成初始噪聲特征圖；

19、風(fēng)格投影器用于從多層圖像特征中提取各層圖像的風(fēng)格特征，得到圖像的多層風(fēng)格特征；

20、均值調(diào)整模塊用于從多層風(fēng)格特征中提取各層各通道的均值信息，并擴(kuò)展尺寸使其尺寸和初始噪聲特征尺寸相對(duì)應(yīng)；

21、方差調(diào)整模塊用于從多層風(fēng)格特征中提取各層各通道的方差信息，并擴(kuò)展尺寸使其尺寸和初始噪聲特征尺寸相對(duì)應(yīng)；

22、特征融合模塊用于將各層圖像的圖像風(fēng)格特征的均值及和方差與圖像的初始噪聲特征圖相結(jié)合；并與fpn網(wǎng)絡(luò)生成的多尺度特征圖相連接，得到混合特征圖；

23、使主干網(wǎng)絡(luò)及編碼擾動(dòng)模塊分別輸入目標(biāo)圖像；使編碼擾動(dòng)模塊輸出初始噪聲特征圖；使主干網(wǎng)絡(luò)輸出n層圖像特征圖至fpn網(wǎng)絡(luò)；使fpn網(wǎng)絡(luò)輸出目標(biāo)圖像的多尺度特征；使主干網(wǎng)絡(luò)和/或fpn網(wǎng)絡(luò)輸出第l層圖像特征圖至第i個(gè)風(fēng)格投影器,i＝l≤n；使第i個(gè)風(fēng)格投影器輸出第l層圖像的風(fēng)格特征圖，分別至均值調(diào)整模塊及方差調(diào)整模塊；使均值調(diào)整模塊輸出第一層至第n層圖像的風(fēng)格特征均值；使方差調(diào)整模塊輸出第一層至第n層圖像的風(fēng)格特征方差；使特征融合模塊分別輸入來自編碼擾動(dòng)模塊、fpn網(wǎng)絡(luò)、均值調(diào)整模塊及方差調(diào)整模塊的輸出信號(hào)，生成混合特征圖；使掩碼解碼器輸入特征融合模塊生成的混合特征圖，輸出預(yù)測(cè)掩碼。

24、進(jìn)一步地，訓(xùn)練跨域語義分割模型的方法包括如下方法步驟：輸入數(shù)據(jù)需要經(jīng)過適當(dāng)?shù)念A(yù)處理后輸入到網(wǎng)絡(luò)中，預(yù)處理方法包括旋轉(zhuǎn)、裁剪、調(diào)整銳度和亮度、傅里葉變換、動(dòng)態(tài)模糊、灰度調(diào)整等數(shù)據(jù)增強(qiáng)策略；使用adamw優(yōu)化器訓(xùn)練40000輪；初始學(xué)習(xí)率設(shè)置為0.00006，并采用默認(rèn)因子為1.0的poly學(xué)習(xí)率調(diào)度器。

25、進(jìn)一步地，使編碼擾動(dòng)模塊分t步在目標(biāo)圖像中加入高斯噪聲，生成目標(biāo)圖像的初始噪聲特征圖。

26、進(jìn)一步地，使fpn網(wǎng)絡(luò)輸出第l層圖像特征圖至第i個(gè)風(fēng)格投影器，第i個(gè)風(fēng)格投影器的計(jì)算公式如下：

27、fstyle＝linear2(relu(linear1(avg(fl))))；

28、式中：

29、fstyle是第i個(gè)風(fēng)格投影器輸出第l層圖像的風(fēng)格特征圖；

30、fl是fpn網(wǎng)絡(luò)輸出的第l層圖像特征數(shù)據(jù)；

31、avg()表示均值計(jì)算函數(shù)；

32、linear1()表示第一線性變換函數(shù)；

33、relu()表示激活函數(shù)；

34、linear2()表示第二線性變換函數(shù)。

35、進(jìn)一步地，使均值調(diào)整模塊計(jì)算風(fēng)格特征均值的計(jì)算公式如下：

36、μadjustment＝linearμ(relu(fstyle))；

37、使方差調(diào)整模塊計(jì)算風(fēng)格特征方差的計(jì)算公式如下：

38、σadjustment＝linearσ(relu(fstyle))；

39、式中：

40、fstyle是風(fēng)格特征；

41、linearμ()表示特征圖數(shù)據(jù)的均值計(jì)算函數(shù)；

42、linearσ()表示特征圖數(shù)據(jù)的方差計(jì)算函數(shù)；

43、relu()表示激活函數(shù)；

44、μadjustment是圖像風(fēng)格特征的均值；

45、σadjustment是圖像風(fēng)格特征的方差。

46、進(jìn)一步地，特征融合模塊將各層圖像的圖像風(fēng)格特征的均值及和方差與圖像的初始噪聲特征圖相結(jié)合時(shí)，使特征融合模塊的噪聲圖像計(jì)算公式如下：

47、fadjusted＝μadjustment+fnoise×σadjustment；

48、式中：

49、μadjustment是圖像風(fēng)格特征的均值；

50、σadjustment是圖像風(fēng)格特征的方差；

51、fnoise是初始噪聲特征；

52、fadjusted是調(diào)整后的噪聲特征。

53、本發(fā)明具有的優(yōu)點(diǎn)和積極效果是：

54、1、本發(fā)明提出了一種基于擴(kuò)散模型的語義分割方法，充分利用了條件擴(kuò)散模型在可控圖像生成方面的優(yōu)勢(shì)，通過引入其特性，實(shí)現(xiàn)了更為高效的語義分割。經(jīng)過訓(xùn)練的模型在不同域數(shù)據(jù)上有較強(qiáng)的通用性和魯棒性，能夠適應(yīng)多種復(fù)雜場(chǎng)景的需求。

55、2、本發(fā)明提出了一種跨域特征增強(qiáng)方法，有效解決了訓(xùn)練數(shù)據(jù)與目標(biāo)圖像之間的域分布差異問題。在保持圖像內(nèi)部結(jié)構(gòu)不變的前提下，通過擾動(dòng)源域圖像特征的通道統(tǒng)計(jì)量，靈活地捕捉和表達(dá)各種潛在樣式，提高了模型在語義分割任務(wù)中的適應(yīng)性與性能。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：萬亮,張玉鵬,沈志靜,趙俊庭,馮偉,俞天秀,周顏林
技術(shù)所有人：天津大學(xué)
我是此專利的發(fā)明人

上一篇：一種層燃爐SCR脫硝催化裝置的制作方法
上一篇：極片極耳雙面貼膠裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于擴(kuò)散模型的跨域語義分割系統(tǒng)及方法