本公開涉及人工智能,尤其涉及深度學(xué)習(xí)和醫(yī)學(xué)圖像處理,具體涉及一種基于嵌套雙u型注意力網(wǎng)絡(luò)的語義分割方法及裝置。
背景技術(shù):
1、隨著人工智能技術(shù)的發(fā)展,人工神經(jīng)網(wǎng)絡(luò)越來越多地應(yīng)用于各類生產(chǎn)生活領(lǐng)域中。例如,在醫(yī)療影像領(lǐng)域,基于人工神經(jīng)網(wǎng)絡(luò)構(gòu)造的模型可以用于輔助醫(yī)護(hù)人員完成醫(yī)學(xué)圖像的分析。
2、醫(yī)學(xué)圖像包括利用內(nèi)鏡拍攝的內(nèi)鏡圖像,內(nèi)鏡圖像一般背景較為復(fù)雜,早期輕微病癥的病灶區(qū)域在內(nèi)鏡圖像中表現(xiàn)并不明顯,相關(guān)技術(shù)的方法無法實(shí)現(xiàn)對內(nèi)鏡圖像中的圖像特征進(jìn)行有效選擇和重用,使得圖像分割的準(zhǔn)確度較低。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本公開提供了一種基于嵌套雙u型注意力網(wǎng)絡(luò)的語義分割方法、裝置、電子設(shè)備、可讀存儲介質(zhì)和計算機(jī)程序產(chǎn)品。
2、本公開的一個方面提供了一種基于嵌套雙u型注意力網(wǎng)絡(luò)的語義分割方法,其中,上述嵌套雙u型注意力網(wǎng)絡(luò)包括第一編碼器、第二編碼器、第一解碼器和第二解碼器,上述方法包括:將內(nèi)鏡圖像的圖像數(shù)據(jù)輸入上述第一編碼器,得到上述第一編碼器包括的m個第一編碼單元各自輸出的第一編碼特征,其中,上述m為正整數(shù);利用第二編碼器包括的n個第二編碼單元對上述m個第一編碼單元各自輸出的第一編碼特征進(jìn)行加權(quán)特征融合,得到上述n個第二編碼單元各自輸出的第二編碼特征,其中,上述n為正整數(shù);利用上述第一解碼器處理上述n個第二編碼單元各自輸出的第二編碼特征,得到第一解碼特征;利用上述第二解碼器處理上述m個第一編碼單元各自輸出的第一編碼特征和上述n個第二編碼單元各自輸出的第二編碼特征,得到第二解碼特征;以及將上述第一解碼特征和上述第二解碼特征在通道維度進(jìn)行拼接,得到上述內(nèi)鏡圖像的語義分割結(jié)果。
3、本公開的另一個方面提供了一種基于嵌套雙u型注意力網(wǎng)絡(luò)的語義分割裝置,其中,上述嵌套雙u型注意力網(wǎng)絡(luò)包括第一編碼器、第二編碼器、第一解碼器和第二解碼器,上述裝置包括:輸入模塊,用于將內(nèi)鏡圖像的圖像數(shù)據(jù)輸入上述第一編碼器,得到上述第一編碼器包括的m個第一編碼單元各自輸出的第一編碼特征,其中,上述m為正整數(shù);特征融合模塊,用于利用第二編碼器包括的n個第二編碼單元對上述m個第一編碼單元各自輸出的第一編碼特征進(jìn)行加權(quán)特征融合,得到上述n個第二編碼單元各自輸出的第二編碼特征,其中,上述n為正整數(shù);第一處理模塊,用于利用上述第一解碼器處理上述n個第二編碼單元各自輸出的第二編碼特征,得到第一解碼特征;第二處理模塊,用于利用上述第二解碼器處理上述m個第一編碼單元各自輸出的第一編碼特征和上述n個第二編碼單元各自輸出的第二編碼特征,得到第二解碼特征;以及拼接模塊,用于將上述第一解碼特征和上述第二解碼特征在通道維度進(jìn)行拼接,得到上述內(nèi)鏡圖像的語義分割結(jié)果。
4、本公開的另一方面提供了一種電子設(shè)備,包括:一個或多個處理器;存儲器,用于存儲一個或多個指令,其中,當(dāng)上述一個或多個指令被上述一個或多個處理器執(zhí)行時,使得上述一個或多個處理器實(shí)現(xiàn)如上所述的方法。
5、本公開的另一方面提供了一種計算機(jī)可讀存儲介質(zhì),存儲有計算機(jī)可執(zhí)行指令,上述指令在被執(zhí)行時用于實(shí)現(xiàn)如上所述的方法。
6、本公開的另一方面提供了一種計算機(jī)程序產(chǎn)品,上述計算機(jī)程序產(chǎn)品包括計算機(jī)可執(zhí)行指令,上述指令在被執(zhí)行時用于實(shí)現(xiàn)如上所述的方法。
7、根據(jù)本公開的實(shí)施例,通過基于unet,使用第一編碼器、第二編碼器、第一解碼器和第二解碼器構(gòu)建嵌套雙u型注意力網(wǎng)絡(luò)。第一編碼器可以從內(nèi)鏡圖像的圖像數(shù)據(jù)中提取不同尺度的第一編碼特征。第二編碼器可以對不同尺度的第一編碼特征進(jìn)行加權(quán)融合,使得第二編碼器輸出的第二編碼特征可以兼顧不同層次信息,強(qiáng)化對與分割目標(biāo)有關(guān)特征信息的識別能力。第一解碼器可以通過跳連接,引入較低級別的高分辨率特征,即第二編碼特征來恢復(fù)分辨率,得到第一解碼特征。第二解碼器可以引入全局信息,得到第二解碼特征,并使用第二解碼特征對第一解碼特征進(jìn)行信息補(bǔ)充和增強(qiáng),以補(bǔ)充插值上采樣過程中損失的信息。通過上述技術(shù)手段,可以有效提升內(nèi)鏡圖像的語義分割的準(zhǔn)確性。
1.一種基于嵌套雙u型注意力網(wǎng)絡(luò)的語義分割方法,其中,所述嵌套雙u型注意力網(wǎng)絡(luò)包括第一編碼器、第二編碼器、第一解碼器和第二解碼器,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其中,所述利用第二編碼器包括的n個第二編碼單元對所述m個第一編碼單元各自輸出的第一編碼特征進(jìn)行加權(quán)特征融合,得到所述n個第二編碼單元各自輸出的第二編碼特征,包括:
3.根據(jù)權(quán)利要求2所述的方法,其中,所述利用注意力門處理第n個第一編碼單元輸出的第一編碼特征和所述第一上采樣特征,得到第一注意力特征,包括:
4.根據(jù)權(quán)利要求1所述的方法,其中,所述第一解碼器包括k個解碼單元,所述k為正整數(shù);
5.根據(jù)權(quán)利要求4所述的方法,其中,所述利用注意力門處理第n-k個第二編碼單元輸出的第二編碼特征和所述第二上采樣特征,得到第二注意力特征,包括:
6.根據(jù)權(quán)利要求1所述的方法,其中,所述第二解碼器包括p個語義引導(dǎo)單元,所述p為正整數(shù);
7.根據(jù)權(quán)利要求6所述的方法,其中,所述利用第p個語義引導(dǎo)單元處理第p-1個語義引導(dǎo)單元輸出的第二輸出特征和第n-p+1個第二編碼單元輸出的第二編碼特征,得到所述第p個語義引導(dǎo)單元輸出的第二輸出特征,包括:
8.根據(jù)權(quán)利要求1所述的方法,其中,所述將內(nèi)鏡圖像的圖像數(shù)據(jù)輸入所述第一編碼器,得到所述第一編碼器包括的m個第一編碼單元各自輸出的第一編碼特征,包括:
9.根據(jù)權(quán)利要求1所述的方法,還包括:
10.一種基于嵌套雙u型注意力網(wǎng)絡(luò)的語義分割裝置,其中,所述嵌套雙u型注意力網(wǎng)絡(luò)包括第一編碼器、第二編碼器、第一解碼器和第二解碼器,所述裝置包括: