一種基于Transformer、Mamba和擴散模型的多源遙感圖像語義分割方法

文檔序號：40389472發(fā)布日期：2024-12-20 12:12閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>一種基于Transformer、Mamba和擴散模型的多源遙感圖像語義分割方法

技術(shù)特征：

1.一種基于transformer、mamba和擴散模型的多源遙感圖像語義分割方法，其特征在于，包括準備地震數(shù)據(jù)集，構(gòu)建、訓(xùn)練、驗證地震數(shù)據(jù)重建網(wǎng)絡(luò)模型，進行數(shù)據(jù)重建；構(gòu)建遙感圖像語義分割網(wǎng)絡(luò)模型包括，設(shè)計基于transformer、mamba的編碼器-解碼器混合架構(gòu)，編碼器由rgb信息分支、深度信息分支和含噪聲語義分割信息分支并行組成，將三個分支的特征依次交叉增強和融合之后經(jīng)解碼器得到遙感圖像的語義分割圖；

2.根據(jù)權(quán)利要求1所述的一種基于transformer、mamba和擴散模型的多源遙感圖像語義分割方法，其特征在于，時間步長的嵌入流程包括高斯位置編碼、三角函數(shù)位置編碼、開方swish激活函數(shù)和2個線性層：

3.根據(jù)權(quán)利要求2所述的一種基于transformer、mamba和擴散模型的多源遙感圖像語義分割方法，其特征在于，行列池化transformer模塊包括線性層、均方根層歸一化、行列池化注意力模塊、多層感知機和跳躍連接；

4.根據(jù)權(quán)利要求3所述的一種基于transformer、mamba和擴散模型的多源遙感圖像語義分割方法，其特征在于，行列池化transformer模塊包括線性層、均方根層歸一化、行列池化注意力模塊、多層感知機和跳躍連接；

5.根據(jù)權(quán)利要求4所述的一種基于transformer、mamba和擴散模型的多源遙感圖像語義分割方法，其特征在于，均方根層歸一化(rms?norm)取代傳統(tǒng)transformer模塊的層歸一化層，可學(xué)習(xí)的參數(shù)不僅包括通過輸入特征得到的縮放因子σ和偏移量β，還包括通過時間步長t的嵌入向量來回歸獲得的縮放因子ω和偏移量ξ；這些嵌入向量經(jīng)過非線性激活函數(shù)(swish激活函數(shù))處理，向量通過swish激活函數(shù)對輸入值進行加權(quán)，并輸出加權(quán)后的結(jié)果：

6.根據(jù)權(quán)利要求5所述的一種基于transformer、mamba和擴散模型的多源遙感圖像語義分割方法，其特征在于，行列池化注意力模塊中，將注意力機制分為兩個部分：行池化注意力和列池化注意力，輸入特征分別輸入到行池化注意力模塊和列池化注意力模塊，并嵌入時間步長位置編碼；行池化注意力模塊和列池化注意力模塊分別生成尺度為和的輸出特征矩陣，將兩者進行矩陣乘法，從而融合垂直方向和水平方向的輸出特征，使模型獲得方向信息，生成尺度為的輸出特征，同時實現(xiàn)了下采樣：

7.根據(jù)權(quán)利要求6所述的一種基于transformer、mamba和擴散模型的多源遙感圖像語義分割方法，其特征在于，.行池化注意力模塊將(n，n)的輸入特征進行不同尺度的行池化操作，產(chǎn)生三個不同尺度的輸入x1、x2、x3，它們的尺度大小分別是使用x1、x2、x3和時間步長位置編碼分別生成注意力機制的查詢q、鍵k、和值v，尺度大小分別是然后由輸入x經(jīng)過線性層生成映射矩陣d，d的行數(shù)、列數(shù)均為n，然后將查詢q和映射矩陣d進行矩陣乘法，得到尺度為的結(jié)果，鍵k和映射矩陣d進行矩陣乘法，得到尺度為的結(jié)果，經(jīng)線性插值將其尺度調(diào)整為最后將它們分別和值v的轉(zhuǎn)置相乘并維度相加，生成尺度為的輸出矩陣：

8.根據(jù)權(quán)利要求7所述的一種基于transformer、mamba和擴散模型的多源遙感圖像語義分割方法，其特征在于，交叉mamba注意力特征融合模塊包括均方根層歸一化、深度可分離卷積、拉普拉斯金字塔模塊、多分辨率交叉mamba、特征加權(quán)掩碼注意力融合模塊；輸入特征為rgb特征和深度特征，這一模塊接受兩個特征作為輸入并最終產(chǎn)生一個輸出特征：

9.根據(jù)權(quán)利要求8所述的一種基于transformer、mamba和擴散模型的多源遙感圖像語義分割方法，其特征在于，拉普拉斯金字塔模塊通過高斯模糊和下采樣生成6個不同分辨率的特征圖，再通過雙線性變換和通道拼接處理成高分辨率和低分辨率特征圖：

10.根據(jù)權(quán)利要求9所述的一種基于transformer、mamba和擴散模型的多源遙感圖像語義分割方法，其特征在于，多分辨率交叉mamba模塊包括兩個交叉選擇性掃描mamba模塊，兩個雙線性插值和兩個通道拼接；該模塊通過交叉選擇性掃描mamba模塊對高分辨率的rgb特征和深度特征進行特征交叉增強，同時使用另一個獨立的交叉選擇性掃描mamba模塊對低分辨率的rgb特征和深度特征進行特征交叉增強；隨后，將高分辨率和低分辨率的rgb特征進行雙線性插值和通道拼接，同樣處理深度特征，最終生成rgb特征輸出和深度特征輸出：

11.根據(jù)權(quán)利要求10所述的一種基于transformer、mamba和擴散模型的多源遙感圖像語義分割方法，其特征在于，交叉選擇性掃描mamba模塊不同于經(jīng)典二維選擇性掃描模塊所采用的不連續(xù)的四向掃描方法，本發(fā)明分別以橫向和縱向的方向進行連續(xù)掃描，當(dāng)掃描到每一行(或者列)的末尾時，下一個要掃描的標記是下一行(或者列)與之臨近的標記；rgb特征和深度特征經(jīng)過連續(xù)掃描后得到四個序列，將四個序列中掃描方向相同的兩個序列輸入交叉mamba增強模塊獨立處理，隨后，再將結(jié)果分別反向掃描并合并作為最終輸出特征，將輸入特征x1和x2進行交叉增強；最后，分別將兩個輸入的四個序列反向重建對應(yīng)維度相加：

12.根據(jù)權(quán)利要求11所述的一種基于transformer、mamba和擴散模型的多源遙感圖像語義分割方法，其特征在于，交叉mamba增強模塊能夠?qū)崿F(xiàn)兩個輸入的信息交互和交叉增強；以兩個輸入特征橫向掃描得到的兩個序列ch1、ch2為例，分別記ch1、ch2為x1、x2，b1、c1、d1、δ1都是序列x1的函數(shù)，b2、c2、d2、δ2都是序列x2的函數(shù)，參數(shù)a1和a2是演化參數(shù)，由hippo連續(xù)時間記憶理論構(gòu)建而來它存儲了由系數(shù)矩陣表示的所有先前的歷史信息，參數(shù)δ1、δ2是采樣時間尺度參數(shù)δ1用于將連續(xù)參數(shù)a1、b1轉(zhuǎn)換為離散參數(shù)，δ2用于將連續(xù)參數(shù)a2、b2轉(zhuǎn)換為離散參數(shù)，并確定了先前隱藏狀態(tài)對用于更新下一個時刻隱藏狀態(tài)空間狀態(tài)的隱藏狀態(tài)的影響程度，然后進行狀態(tài)空間方程運算：

13.根據(jù)權(quán)利要求12所述的一種基于transformer、mamba和擴散模型的多源遙感圖像語義分割方法，其特征在于，本發(fā)明中的特征加權(quán)掩碼注意力融合模塊將rgb特征和深度特征分別進行加權(quán)處理以突出重要的特征區(qū)域，然后進行交叉注意力融合特征；特征加權(quán)掩碼注意力融合模塊接受兩個特征作為輸入最終產(chǎn)生一個輸出特征：

14.根據(jù)權(quán)利要求13所述的一種基于transformer、mamba和擴散模型的多源遙感圖像語義分割方法，其特征在于，解碼器模塊由卷積層、線性層、上采樣、非線性激活函數(shù)(sigmoid)組成：

15.根據(jù)權(quán)利要求14所述的一種基于transformer、mamba和擴散模型的多源遙感圖像語義分割方法，其特征在于，完成遙感圖像語義分割網(wǎng)絡(luò)模型的構(gòu)建后進行訓(xùn)練，從訓(xùn)練數(shù)據(jù)中抽樣出一個遙感圖像語義分割的標簽，然后隨機選擇一個時間步長t，從高斯分布中隨機抽取一個噪聲樣本ε，這個噪聲樣本代表在特定時間步下可能出現(xiàn)的噪聲，是模型需要學(xué)習(xí)去除的干擾；將隨機抽取的噪聲加到遙感圖像語義分割的標簽中，得到含噪聲的輸入數(shù)據(jù)，為模型提供更接近真實情況的訓(xùn)練樣本；將噪聲數(shù)據(jù)ε輸入遙感圖像語義分割網(wǎng)絡(luò)模型；模型通過學(xué)習(xí)訓(xùn)練數(shù)據(jù)中的噪聲特征，預(yù)測出噪聲估計∈t，該估計反映模型對于輸入數(shù)據(jù)中噪聲的理解和預(yù)測，擴散模型輸出的分割圖像與實際分割圖像進行對比，同時計算二者的誤差，如果誤差大于設(shè)置的閾值，就反向傳播更新參數(shù)，反復(fù)迭代直至誤差小于設(shè)置的閾值，停止更新參數(shù)并保存網(wǎng)絡(luò)參數(shù)，采用adam算法進行參數(shù)求解，在誤差反向傳播時根據(jù)梯度信息對參數(shù)進行更新；

技術(shù)總結(jié)
本發(fā)明公開一種基于Transformer、Mamba和擴散模型的多源遙感圖像語義分割方法，屬于電數(shù)字數(shù)據(jù)處理、圖形數(shù)據(jù)讀取和圖像數(shù)據(jù)處理技術(shù)領(lǐng)域，用于提取遙感圖像的圖像信息，包括獲得遙感圖像、構(gòu)建基于遙感圖像的圖像信息提取網(wǎng)絡(luò)、將訓(xùn)練集、驗證集、測試集中的遙感圖像分別輸入構(gòu)建好的基于Transformer、Mamba和擴散模型的遙感圖像信息提取網(wǎng)絡(luò)中。本發(fā)明分別通過對RGB特征和深度特征進行Transformer提取特征，并提出了一種交叉Mamba的方法將RGB特征和深度特征進行交叉增強；本發(fā)明使用行列池化Transformer模塊代替?zhèn)鹘y(tǒng)Transformer模塊，同時提取了特征圖垂直方向和水平方向的細節(jié)紋理信息和大尺度結(jié)構(gòu)信息；本發(fā)明使用交叉Mamba注意力特征融合模塊代替?zhèn)鹘y(tǒng)Mamba模塊，增強對復(fù)雜場景和多樣性目標的建模能力。

技術(shù)研發(fā)人員：宋夢辰,王珺
受保護的技術(shù)使用者：中國石油大學(xué)（華東）
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/19

完整全部詳細技術(shù)資料下載

當(dāng)前第2頁1 2

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于Transformer、Mamba和擴散模型的多源遙感圖像語義分割方法