本發(fā)明涉及機(jī)器學(xué)習(xí)領(lǐng)域,特別涉及一種基于擴(kuò)散模型的跨域語義分割系統(tǒng)及方法。
背景技術(shù):
1、目前,語義分割的任務(wù)是對(duì)圖像的每個(gè)像素進(jìn)行分類,以實(shí)現(xiàn)對(duì)不同物體的精確分割。該任務(wù)的精度依賴于模型對(duì)每個(gè)像素進(jìn)行分類,以便為圖像中的每個(gè)部分生成準(zhǔn)確的語義標(biāo)簽。與分類或檢測(cè)任務(wù)相比,語義分割需要更細(xì)粒度的分析,因?yàn)樗粌H要識(shí)別物體,還要確定其精確的邊界。由于現(xiàn)實(shí)場(chǎng)景中圖像的復(fù)雜性,如光照變化、不同的視角、遮擋等因素,語義分割模型的泛化能力面臨更高的要求。模型必須能夠在不同的場(chǎng)景和條件下,準(zhǔn)確地識(shí)別和分割目標(biāo)對(duì)象。這對(duì)模型的訓(xùn)練數(shù)據(jù)、數(shù)據(jù)增強(qiáng)方法以及網(wǎng)絡(luò)架構(gòu)提出了更高的要求。
2、現(xiàn)有的方法通常需要依賴域自適應(yīng)技術(shù)來解決域偏移問題,這種做法雖然在一定程度上能夠緩解源域和目標(biāo)域之間的分布差異,但往往依賴大量標(biāo)注數(shù)據(jù),且在未標(biāo)注場(chǎng)景下表現(xiàn)受限。通過采用域泛化的策略,可以在無需目標(biāo)域數(shù)據(jù)的情況下提高模型的泛化能力,有效應(yīng)對(duì)不同域之間的分布差異,尤其是在無監(jiān)督或者弱監(jiān)督場(chǎng)景下,這種方法的優(yōu)勢(shì)尤為明顯。然而,現(xiàn)有的方法大多專注于全局特征對(duì)齊或?qū)褂?xùn)練,未能充分考慮在細(xì)粒度特征上的差異,從而在處理復(fù)雜場(chǎng)景或局部結(jié)構(gòu)顯著變化時(shí)表現(xiàn)不足,導(dǎo)致模型在實(shí)際應(yīng)用中對(duì)細(xì)節(jié)的捕捉能力欠佳。大多數(shù)語義分割模型默認(rèn)測(cè)試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)具有相同的分布,但在實(shí)際應(yīng)用中,這種假設(shè)往往不成立。尤其是在開放環(huán)境下,模型經(jīng)常面臨域偏移問題。這種偏移可能是由于語義差異(如未曾見過的類別)或環(huán)境差異(如來自不同場(chǎng)景或風(fēng)格的樣本)導(dǎo)致的。這使得語義分割變得更加復(fù)雜,模型必須具備良好的泛化能力,才能適應(yīng)不斷變化的場(chǎng)景與挑戰(zhàn)。
3、綜上所述,為了實(shí)現(xiàn)更廣泛的應(yīng)用場(chǎng)景,模型必須具備更強(qiáng)的適應(yīng)性。不僅需要在標(biāo)準(zhǔn)分割任務(wù)上表現(xiàn)優(yōu)異,還要能夠在不同的視覺風(fēng)格和環(huán)境條件下靈活應(yīng)對(duì)。因此,對(duì)于跨域語義分割任務(wù),除了考慮模型在各域間的泛化能力,還需重點(diǎn)關(guān)注域間差異的處理,如視覺風(fēng)格的變化和環(huán)境的多樣性。只有這樣,才能確保模型在實(shí)際應(yīng)用中的穩(wěn)健性和高效性,滿足復(fù)雜、多變場(chǎng)景下的需求。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明為解決公知技術(shù)中存在的技術(shù)問題而提供一種基于擴(kuò)散模型的跨域語義分割系統(tǒng)及方法。
2、本發(fā)明為解決公知技術(shù)中存在的技術(shù)問題所采取的技術(shù)方案是:
3、一種基于擴(kuò)散模型的跨域語義分割系統(tǒng),包括主干網(wǎng)絡(luò)、fpn網(wǎng)絡(luò)、編碼擾動(dòng)模塊、風(fēng)格投影器、均值調(diào)整模塊、方差調(diào)整模塊、特征融合模塊及掩碼解碼器;
4、主干網(wǎng)絡(luò)用于自下而上提取目標(biāo)圖像的特征圖;
5、fpn網(wǎng)絡(luò)用于融合主干網(wǎng)絡(luò)提取的特征圖中的低層特征圖與高層特征圖,生成多尺度特征圖;
6、編碼擾動(dòng)模塊用于在目標(biāo)圖像中加入高斯噪聲,生成初始噪聲特征圖;
7、風(fēng)格投影器用于從多層圖像特征中提取各層圖像的風(fēng)格特征,得到圖像的多層風(fēng)格特征;
8、均值調(diào)整模塊用于從多層風(fēng)格特征中提取各層各通道的均值信息,并擴(kuò)展尺寸使其尺寸和初始噪聲特征尺寸相對(duì)應(yīng);
9、方差調(diào)整模塊用于從多層風(fēng)格特征中提取各層各通道的方差信息,并擴(kuò)展尺寸使其尺寸和初始噪聲特征尺寸相對(duì)應(yīng);
10、特征融合模塊用于將各層圖像的圖像風(fēng)格特征的均值及和方差與圖像的初始噪聲特征圖相結(jié)合;并與fpn網(wǎng)絡(luò)生成的多尺度特征圖相連接,得到混合特征圖;
11、主干網(wǎng)絡(luò)及編碼擾動(dòng)模塊分別輸入目標(biāo)圖像;編碼擾動(dòng)模塊輸出初始噪聲特征圖;主干網(wǎng)絡(luò)輸出n層圖像特征圖至fpn網(wǎng)絡(luò);fpn網(wǎng)絡(luò)輸出目標(biāo)圖像的多尺度特征;主干網(wǎng)絡(luò)和/或fpn網(wǎng)絡(luò)輸出第l層圖像特征圖至第i個(gè)風(fēng)格投影器,i=l≤n;第i個(gè)風(fēng)格投影器輸出第l層圖像的風(fēng)格特征圖,分別至均值調(diào)整模塊及方差調(diào)整模塊;均值調(diào)整模塊輸出第一層至第n層圖像的風(fēng)格特征均值;方差調(diào)整模塊輸出第一層至第n層圖像的風(fēng)格特征方差;特征融合模塊分別輸入來自編碼擾動(dòng)模塊、fpn網(wǎng)絡(luò)、均值調(diào)整模塊及方差調(diào)整模塊的輸出信號(hào),生成混合特征圖;掩碼解碼器輸入特征融合模塊生成的混合特征圖,輸出預(yù)測(cè)掩碼。
12、進(jìn)一步地,fpn網(wǎng)絡(luò)輸出第l層圖像特征圖至第i個(gè)風(fēng)格投影器,第i個(gè)風(fēng)格投影器包括依次連接的均值計(jì)算模塊、第一線性層、第一激活層、第二線性層:均值計(jì)算模塊計(jì)算輸入數(shù)據(jù)的平均值;第一、二線性層用于將輸入數(shù)據(jù)通過線性變換映射到輸出,第一激活層用于對(duì)輸入數(shù)據(jù)通過非線性的激活函數(shù)進(jìn)行處理并輸出;fpn網(wǎng)絡(luò)輸出第l層圖像特征圖至第i個(gè)風(fēng)格投影器的均值計(jì)算模塊,第i個(gè)風(fēng)格投影器第二線性層的輸出第l層圖像的風(fēng)格特征圖。
13、進(jìn)一步地,均值調(diào)整模塊包括依次連接的第二激活層及特征圖均值模塊;第二激活層用于對(duì)輸入數(shù)據(jù)通過非線性的激活函數(shù)進(jìn)行處理并輸出,特征圖均值模塊用于計(jì)算特征圖的均值;方差調(diào)整模塊包括依次連接的第三激活層及特征圖方差模塊;第三激活層用于對(duì)輸入數(shù)據(jù)通過非線性的激活函數(shù)進(jìn)行處理并輸出,特征圖方差模塊用于計(jì)算特征圖的方差;第i個(gè)風(fēng)格投影器輸出第l層圖像的風(fēng)格特征圖,分別至均值調(diào)整模塊的第二激活層及方差調(diào)整模塊的第三激活層;均值調(diào)整模塊的特征圖均值模塊輸出第一層至第n層圖像的風(fēng)格特征均值;方差調(diào)整模塊的特征圖方差模塊輸出第一層至第n層圖像的風(fēng)格特征方差。
14、進(jìn)一步地,特征融合模塊包括依次相連的第一矩陣乘法器和第一矩陣加法器,第一矩陣乘法器用于將兩個(gè)矩陣進(jìn)行相乘;第一矩陣加法器用于將兩個(gè)矩陣相加;第一矩陣乘法器輸入各層圖像的圖像風(fēng)格特征的方差矩陣及初始噪聲特征圖,將兩者相乘后輸出至第一矩陣加法器的第一個(gè)輸入端,第一矩陣加法器的第二個(gè)輸入端輸入各層圖像的圖像風(fēng)格特征的均值矩陣,第一矩陣加法器輸出組合特征圖。
15、本發(fā)明還提供了一種基于擴(kuò)散模型的跨域語義分割方法,該方法構(gòu)建跨域語義分割模型;跨域語義分割模型中設(shè)置主干網(wǎng)絡(luò)、fpn網(wǎng)絡(luò)、編碼擾動(dòng)模塊、風(fēng)格投影器、均值調(diào)整模塊、方差調(diào)整模塊、特征融合模塊及掩碼解碼器;
16、主干網(wǎng)絡(luò)用于自下而上提取目標(biāo)圖像的特征圖;
17、fpn網(wǎng)絡(luò)用于融合主干網(wǎng)絡(luò)提取的特征圖中的低層特征圖與高層特征圖,生成多尺度特征圖;
18、編碼擾動(dòng)模塊用于在目標(biāo)圖像中加入高斯噪聲,生成初始噪聲特征圖;
19、風(fēng)格投影器用于從多層圖像特征中提取各層圖像的風(fēng)格特征,得到圖像的多層風(fēng)格特征;
20、均值調(diào)整模塊用于從多層風(fēng)格特征中提取各層各通道的均值信息,并擴(kuò)展尺寸使其尺寸和初始噪聲特征尺寸相對(duì)應(yīng);
21、方差調(diào)整模塊用于從多層風(fēng)格特征中提取各層各通道的方差信息,并擴(kuò)展尺寸使其尺寸和初始噪聲特征尺寸相對(duì)應(yīng);
22、特征融合模塊用于將各層圖像的圖像風(fēng)格特征的均值及和方差與圖像的初始噪聲特征圖相結(jié)合;并與fpn網(wǎng)絡(luò)生成的多尺度特征圖相連接,得到混合特征圖;
23、使主干網(wǎng)絡(luò)及編碼擾動(dòng)模塊分別輸入目標(biāo)圖像;使編碼擾動(dòng)模塊輸出初始噪聲特征圖;使主干網(wǎng)絡(luò)輸出n層圖像特征圖至fpn網(wǎng)絡(luò);使fpn網(wǎng)絡(luò)輸出目標(biāo)圖像的多尺度特征;使主干網(wǎng)絡(luò)和/或fpn網(wǎng)絡(luò)輸出第l層圖像特征圖至第i個(gè)風(fēng)格投影器,i=l≤n;使第i個(gè)風(fēng)格投影器輸出第l層圖像的風(fēng)格特征圖,分別至均值調(diào)整模塊及方差調(diào)整模塊;使均值調(diào)整模塊輸出第一層至第n層圖像的風(fēng)格特征均值;使方差調(diào)整模塊輸出第一層至第n層圖像的風(fēng)格特征方差;使特征融合模塊分別輸入來自編碼擾動(dòng)模塊、fpn網(wǎng)絡(luò)、均值調(diào)整模塊及方差調(diào)整模塊的輸出信號(hào),生成混合特征圖;使掩碼解碼器輸入特征融合模塊生成的混合特征圖,輸出預(yù)測(cè)掩碼。
24、進(jìn)一步地,訓(xùn)練跨域語義分割模型的方法包括如下方法步驟:輸入數(shù)據(jù)需要經(jīng)過適當(dāng)?shù)念A(yù)處理后輸入到網(wǎng)絡(luò)中,預(yù)處理方法包括旋轉(zhuǎn)、裁剪、調(diào)整銳度和亮度、傅里葉變換、動(dòng)態(tài)模糊、灰度調(diào)整等數(shù)據(jù)增強(qiáng)策略;使用adamw優(yōu)化器訓(xùn)練40000輪;初始學(xué)習(xí)率設(shè)置為0.00006,并采用默認(rèn)因子為1.0的poly學(xué)習(xí)率調(diào)度器。
25、進(jìn)一步地,使編碼擾動(dòng)模塊分t步在目標(biāo)圖像中加入高斯噪聲,生成目標(biāo)圖像的初始噪聲特征圖。
26、進(jìn)一步地,使fpn網(wǎng)絡(luò)輸出第l層圖像特征圖至第i個(gè)風(fēng)格投影器,第i個(gè)風(fēng)格投影器的計(jì)算公式如下:
27、fstyle=linear2(relu(linear1(avg(fl))));
28、式中:
29、fstyle是第i個(gè)風(fēng)格投影器輸出第l層圖像的風(fēng)格特征圖;
30、fl是fpn網(wǎng)絡(luò)輸出的第l層圖像特征數(shù)據(jù);
31、avg()表示均值計(jì)算函數(shù);
32、linear1()表示第一線性變換函數(shù);
33、relu()表示激活函數(shù);
34、linear2()表示第二線性變換函數(shù)。
35、進(jìn)一步地,使均值調(diào)整模塊計(jì)算風(fēng)格特征均值的計(jì)算公式如下:
36、μadjustment=linearμ(relu(fstyle));
37、使方差調(diào)整模塊計(jì)算風(fēng)格特征方差的計(jì)算公式如下:
38、σadjustment=linearσ(relu(fstyle));
39、式中:
40、fstyle是風(fēng)格特征;
41、linearμ()表示特征圖數(shù)據(jù)的均值計(jì)算函數(shù);
42、linearσ()表示特征圖數(shù)據(jù)的方差計(jì)算函數(shù);
43、relu()表示激活函數(shù);
44、μadjustment是圖像風(fēng)格特征的均值;
45、σadjustment是圖像風(fēng)格特征的方差。
46、進(jìn)一步地,特征融合模塊將各層圖像的圖像風(fēng)格特征的均值及和方差與圖像的初始噪聲特征圖相結(jié)合時(shí),使特征融合模塊的噪聲圖像計(jì)算公式如下:
47、fadjusted=μadjustment+fnoise×σadjustment;
48、式中:
49、μadjustment是圖像風(fēng)格特征的均值;
50、σadjustment是圖像風(fēng)格特征的方差;
51、fnoise是初始噪聲特征;
52、fadjusted是調(diào)整后的噪聲特征。
53、本發(fā)明具有的優(yōu)點(diǎn)和積極效果是:
54、1、本發(fā)明提出了一種基于擴(kuò)散模型的語義分割方法,充分利用了條件擴(kuò)散模型在可控圖像生成方面的優(yōu)勢(shì),通過引入其特性,實(shí)現(xiàn)了更為高效的語義分割。經(jīng)過訓(xùn)練的模型在不同域數(shù)據(jù)上有較強(qiáng)的通用性和魯棒性,能夠適應(yīng)多種復(fù)雜場(chǎng)景的需求。
55、2、本發(fā)明提出了一種跨域特征增強(qiáng)方法,有效解決了訓(xùn)練數(shù)據(jù)與目標(biāo)圖像之間的域分布差異問題。在保持圖像內(nèi)部結(jié)構(gòu)不變的前提下,通過擾動(dòng)源域圖像特征的通道統(tǒng)計(jì)量,靈活地捕捉和表達(dá)各種潛在樣式,提高了模型在語義分割任務(wù)中的適應(yīng)性與性能。