本公開(kāi)涉及人工智能領(lǐng)域,尤其涉及圖像處理、計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí),具體涉及一種圖像增強(qiáng)和去噪方法、裝置、電子設(shè)備、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和計(jì)算機(jī)程序產(chǎn)品。
背景技術(shù):
1、人工智能是研究使計(jì)算機(jī)來(lái)模擬人的某些思維過(guò)程和智能行為(如學(xué)習(xí)、推理、思考、規(guī)劃等)的學(xué)科,既有硬件層面的技術(shù)也有軟件層面的技術(shù)。人工智能硬件技術(shù)一般包括如傳感器、專用人工智能芯片、云計(jì)算、分布式存儲(chǔ)、大數(shù)據(jù)處理等技術(shù):人工智能軟件技術(shù)主要包括計(jì)算機(jī)視覺(jué)技術(shù)、語(yǔ)音識(shí)別技術(shù)、自然語(yǔ)言處理技術(shù)以及機(jī)器學(xué)習(xí)/深度學(xué)習(xí)、大數(shù)據(jù)處理技術(shù)、知識(shí)圖譜技術(shù)等幾大方向。
2、對(duì)于紅外等場(chǎng)景的圖像,因其成像技術(shù)的抗干擾性、高穿透性、高靈敏度和高隱蔽性,廣泛應(yīng)用于軍事、醫(yī)學(xué)、安防等領(lǐng)域。但是,由于其成像設(shè)備本身的特性以及環(huán)境噪聲的影響,容易給圖像引入大量噪聲,對(duì)圖像恢復(fù)造成一定困難。
技術(shù)實(shí)現(xiàn)思路
1、本公開(kāi)提供了一種圖像增強(qiáng)和去噪方法、裝置、電子設(shè)備、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和計(jì)算機(jī)程序產(chǎn)品。
2、根據(jù)本公開(kāi)的一方面,提供了一種模型訓(xùn)練方法,包括:獲取待處理的樣本圖像;將所述樣本圖像輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型,以獲得第一圖像特征,其中,所述神經(jīng)網(wǎng)絡(luò)模型包括編碼器和解碼器,所述編碼器和所述解碼器中的相對(duì)應(yīng)的單元之間跳躍連接,并且其中,所述編碼器逐單元減小特征圖尺寸的同時(shí)逐單元增加其通道數(shù),跳躍連接的所述解碼器和所述編碼器的相對(duì)應(yīng)單元之間所處理特征圖的尺寸和通道數(shù)相同;基于所述第一圖像特征和預(yù)設(shè)的標(biāo)簽圖像特征,確定預(yù)設(shè)的損失函數(shù)的值;以及基于所述損失函數(shù)的值,調(diào)節(jié)所述神經(jīng)網(wǎng)絡(luò)模型的參數(shù)值,其中,所述編碼器和解碼器中包括至少一個(gè)特征混合單元,所述特征混合單元用于將基于不同編碼策略提取的圖像特征進(jìn)行混合。
3、根據(jù)本公開(kāi)的另一方面,提供了一種圖像增強(qiáng)和去噪方法,包括:獲取待增強(qiáng)和去噪的圖像;將所述圖像依次輸入編碼器和解碼器,以獲得第一圖像特征,其中,所述編碼器和所述解碼器中的相對(duì)應(yīng)的單元之間跳躍連接,并且其中,所述編碼器逐單元減小特征圖尺寸的同時(shí)逐單元增加其通道數(shù),跳躍連接的所述解碼器和所述編碼器的相對(duì)應(yīng)單元之間所處理的特征圖的尺寸和通道數(shù)相同;以及基于所述第一圖像特征,確定增強(qiáng)和去噪后的圖像,其中,所述編碼器和解碼器中包括至少一個(gè)特征混合單元,所述特征混合單元用于將基于不同編碼策略提取的圖像特征進(jìn)行混合。
4、根據(jù)本公開(kāi)的另一方面,提供了一種模型訓(xùn)練裝置,包括:第一獲取單元,配置為獲取待處理的樣本圖像;第一輸入單元,配置為將所述樣本圖像輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型,以獲得第一圖像特征,其中,所述神經(jīng)網(wǎng)絡(luò)模型包括編碼器和解碼器,所述編碼器和所述解碼器中的相對(duì)應(yīng)的單元之間跳躍連接,并且其中,所述編碼器逐單元減小特征圖尺寸的同時(shí)逐單元增加其通道數(shù),跳躍連接的所述解碼器和所述編碼器的相對(duì)應(yīng)單元之間所處理特征圖的尺寸和通道數(shù)相同;第一確定單元,配置為基于所述第一圖像特征和預(yù)設(shè)的標(biāo)簽圖像特征,確定預(yù)設(shè)的損失函數(shù)的值;以及調(diào)節(jié)單元,配置為基于所述損失函數(shù)的值,調(diào)節(jié)所述神經(jīng)網(wǎng)絡(luò)模型的參數(shù)值,其中,所述編碼器和解碼器中包括至少一個(gè)特征混合單元,所述特征混合單元用于將基于不同編碼策略提取的圖像特征進(jìn)行混合。
5、根據(jù)本公開(kāi)的另一方面,提供了一種圖像增強(qiáng)和去噪裝置,包括:第二獲取單元,配置為獲取待增強(qiáng)和去噪的圖像;第二輸入單元,配置為將所述圖像依次輸入編碼器和解碼器,以獲得第一圖像特征,其中,所述編碼器和所述解碼器中的相對(duì)應(yīng)的單元之間跳躍連接,并且其中,所述編碼器逐單元減小特征圖尺寸的同時(shí)逐單元增加其通道數(shù),跳躍連接的所述解碼器和所述編碼器的相對(duì)應(yīng)單元之間所處理的特征圖的尺寸和通道數(shù)相同;以及第二確定單元,配置為基于所述第一圖像特征,確定增強(qiáng)和去噪后的圖像,其中,所述編碼器和解碼器中包括至少一個(gè)特征混合單元,所述特征混合單元用于將基于不同編碼策略提取的圖像特征進(jìn)行混合。
6、根據(jù)本公開(kāi)的另一方面,提供了一種電子設(shè)備,包括:至少一個(gè)處理器;以及與至少一個(gè)處理器通信連接的存儲(chǔ)器;存儲(chǔ)器存儲(chǔ)有可被至少一個(gè)處理器執(zhí)行的指令,該指令被至少一個(gè)處理器執(zhí)行,以使至少一個(gè)處理器能夠執(zhí)行本公開(kāi)所述的方法。
7、根據(jù)本公開(kāi)的另一方面,提供了一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),該計(jì)算機(jī)指令用于使計(jì)算機(jī)執(zhí)行本公開(kāi)所述的方法。
8、根據(jù)本公開(kāi)的另一方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,該計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)本公開(kāi)所述的方法。
9、根據(jù)本公開(kāi)的一個(gè)或多個(gè)實(shí)施例,遵循了u形編碼器-解碼器結(jié)構(gòu),具有跳躍連接(skip-connections),有助于減少計(jì)算負(fù)擔(dān)并增加感受野;并且,特征混合單元利用了不同編碼策略的優(yōu)勢(shì)來(lái)提取和整合視覺(jué)特征,往往可以在去除圖像噪聲的同時(shí),盡可能地保留圖像的結(jié)構(gòu)特征。
10、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識(shí)本公開(kāi)的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本公開(kāi)的范圍。本公開(kāi)的其它特征將通過(guò)以下的說(shuō)明書(shū)而變得容易理解。
1.一種模型訓(xùn)練方法,包括:
2.如權(quán)利要求1所述的方法,其中,所述編碼器中包括至少一個(gè)transformer單元,所述至少一個(gè)transformer單元中的每個(gè)transformer單元包括一個(gè)或多個(gè)串聯(lián)連接的transformer模塊。
3.如權(quán)利要求1所述的方法,其中,所述神經(jīng)網(wǎng)絡(luò)模型中的所述編碼器和所述解碼器中均包括至少一個(gè)特征混合單元,并且,所述至少一個(gè)特征混合單元中的每個(gè)特征混合單元包括一個(gè)或多個(gè)串聯(lián)連接的特征混合模塊,所述特征混合模塊用于將基于不同編碼策略提取的圖像特征進(jìn)行混合。
4.如權(quán)利要求1所述的方法,其中,所述解碼器中包括卷積單元,所述卷積單元包括一個(gè)或多個(gè)串聯(lián)連接的卷積模塊。
5.如權(quán)利要求1所述的方法,其中,所述解碼器中包括至少一個(gè)transformer單元,所述至少一個(gè)transformer單元中的每個(gè)transformer單元包括一個(gè)或多個(gè)串聯(lián)連接的transformer模塊。
6.如權(quán)利要求3所述的方法,其中,所述特征混合模塊包括:選擇模塊、以及并聯(lián)連接的至少兩個(gè)特征提取模塊,并且其中,將所述樣本圖像輸入神經(jīng)網(wǎng)絡(luò)模型以獲得第一圖像特征包括:
7.如權(quán)利要求6所述的方法,其中,所述至少兩個(gè)特征提取模塊基于以下模塊確定:卷積模塊、多層感知模塊、多頭自注意力模塊、自注意力模塊。
8.如權(quán)利要求6或7所述的方法,其中,所述選擇模塊包括:全局池化層、多層感知層和softmax層,并且其中,將所述至少兩個(gè)特征提取模塊輸出的所述第三圖像特征均輸入所述混合模型包括:
9.如權(quán)利要求1所述的方法,其中,基于所述第二圖像特征和預(yù)設(shè)的標(biāo)簽圖像特征確定預(yù)設(shè)的損失函數(shù)的值包括:
10.如權(quán)利要求1或9所述的方法,其中,所述預(yù)設(shè)的損失函數(shù)基于像素值損失函數(shù)和色彩飽和度損失函數(shù)的加權(quán)和確定。
11.如權(quán)利要求10所述的方法,其中,基于所述損失函數(shù)的值調(diào)節(jié)所述神經(jīng)網(wǎng)絡(luò)模型的參數(shù)值包括:基于所述損失函數(shù)的值調(diào)節(jié)所述神經(jīng)網(wǎng)絡(luò)模型的參數(shù)值、以及所述預(yù)設(shè)的損失函數(shù)中的權(quán)重值。
12.一種圖像增強(qiáng)和去噪方法,包括:
13.如權(quán)利要求12所述的方法,其中,所述編碼器中包括至少一個(gè)transformer單元,所述至少一個(gè)transformer單元中的每個(gè)transformer單元包括一個(gè)或多個(gè)串聯(lián)連接的transformer模塊。
14.如權(quán)利要求12所述的方法,其中,所述神經(jīng)網(wǎng)絡(luò)模型中的所述編碼器和所述解碼器中均包括至少一個(gè)特征混合單元,并且,所述至少一個(gè)特征混合單元中的每個(gè)特征混合單元包括一個(gè)或多個(gè)串聯(lián)連接的特征混合模塊,所述特征混合模塊用于將基于不同編碼策略提取的圖像特征進(jìn)行混合。
15.如權(quán)利要求12所述的方法,其中,所述解碼器的輸出單元包括卷積單元,所述卷積單元包括一個(gè)或多個(gè)串聯(lián)連接的卷積模塊。
16.如權(quán)利要求12所述的方法,其中,所述解碼器中包括至少一個(gè)transformer單元,所述至少一個(gè)transformer單元中的每個(gè)transformer單元包括一個(gè)或多個(gè)串聯(lián)連接的transformer模塊。
17.如權(quán)利要求14所述的方法,其中,所述特征混合模塊包括:選擇模塊、以及并聯(lián)連接的至少兩個(gè)特征提取模塊,并且其中,將所述第一圖像特征輸入預(yù)設(shè)神經(jīng)網(wǎng)絡(luò)以獲得第一圖像特征包括:
18.如權(quán)利要求17所述的方法,其中,所述至少兩個(gè)特征提取模塊基于以下模塊確定:卷積模塊、多層感知模塊、多頭自注意力模塊、自注意力模塊。
19.如權(quán)利要求17或18所述的方法,其中,所述選擇模塊包括:全局池化層、多層感知層和softmax層,并且其中,將所述至少兩個(gè)特征提取模塊輸出的所述第三圖像特征均輸入所述混合模型包括:
20.一種模型訓(xùn)練裝置,包括:
21.一種圖像增強(qiáng)和去噪裝置,包括:
22.一種電子設(shè)備,包括:
23.一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,所述計(jì)算機(jī)指令用于使所述計(jì)算機(jī)執(zhí)行根據(jù)權(quán)利要求1-19中任一項(xiàng)所述的方法。
24.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其中,所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1-19中任一項(xiàng)所述的方法。