本發(fā)明涉及一種散焦去模糊方法,屬于圖像處理。
背景技術(shù):
1、在處理由于場景深度變化導(dǎo)致的空間模糊問題時,散焦去模糊一直是個具有挑戰(zhàn)性的課題,盡管最近的工作在網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)上取得了諸多進(jìn)展,然而這些進(jìn)展主要集中于高頻細(xì)節(jié)的處理,在去模糊過程中,場景理解的重要性仍然沒有得到足夠的重視。場景理解的核心在于上下文信息的利用,上下文信息為捕捉環(huán)境及物體輪廓的高層語義線索提供了關(guān)鍵支持。通過識別并有效地利用這些線索,可以顯著提升圖像恢復(fù)的質(zhì)量?;诖?,我們提出了一種新的方法,該方法融合了空間細(xì)節(jié)與上下文信息,對散焦去模糊問題提供了有效的解決方案。具體而言,我們引入了一個基于視覺變換器(visual?transformer,vit)的新型分層模型,該模型能夠無縫集成空間細(xì)節(jié)與上下文信息。我們的方法將去模糊任務(wù)分解為兩個獨(dú)立的子任務(wù):第一個子任務(wù)由基礎(chǔ)特征編碼器負(fù)責(zé),將模糊圖像轉(zhuǎn)換為具體詳細(xì)的基礎(chǔ)特征表示;第二個子任務(wù)由上下文編碼器處理,它從基礎(chǔ)特征表示中提取抽象而清晰的表示。兩個編碼器的輸出合并后,通過一個解碼器重構(gòu)出清晰的目標(biāo)圖像。
2、當(dāng)場景的深度范圍超出給定相機(jī)的景深(depth?of?field,dof)限制時,散焦模糊現(xiàn)象便會發(fā)生。在此情況下,位于非焦點(diǎn)區(qū)域的物體將呈現(xiàn)模糊,從而導(dǎo)致關(guān)鍵細(xì)節(jié)的丟失。這種圖像退化對于多種計(jì)算機(jī)視覺應(yīng)用產(chǎn)生了顯著的負(fù)面影響,包括物體檢測、圖像超分辨率和文本識別等。因此,恢復(fù)一張全焦點(diǎn)圖像以揭示其高分辨率細(xì)節(jié),在計(jì)算機(jī)視覺領(lǐng)域具有重要的研究意義和實(shí)際應(yīng)用價值。為應(yīng)對散焦模糊問題,研究者們已開發(fā)出多種算法,這些算法能將模糊圖像轉(zhuǎn)化為清晰圖像。這些方法通常包括使用特定的網(wǎng)絡(luò)模塊,如動態(tài)核和多尺度模塊,這些模塊已在標(biāo)準(zhǔn)的散焦去模糊基準(zhǔn)測試中表現(xiàn)出令人期待的性能。目前的主流研究趨勢是將先進(jìn)的網(wǎng)絡(luò)架構(gòu)與精確建模的散焦先驗(yàn)相結(jié)合,以期達(dá)到最佳的去模糊效果。代表性的模型如nrknet和kpac,均體現(xiàn)了這一趨勢的實(shí)際成效。上述的去模糊算法主要集中于重建圖像的高頻細(xì)節(jié)特征,但常常未能充分捕捉到所謂的“上下文信息”即高層語義線索。這類信息與輸入圖像的語義或上下文密切相關(guān),對于散焦去模糊尤其重要,因?yàn)槿ツ:幚硇栳槍D像不同區(qū)域分別進(jìn)行?,F(xiàn)階段,去模糊網(wǎng)絡(luò)嘗試通過運(yùn)用大尺度核與自注意力機(jī)制來獲得廣闊的感受野,然而,這些網(wǎng)絡(luò)往往只是專注于捕捉局部空間相關(guān)信息,而未能深入理解場景的整體語義。在計(jì)算機(jī)視覺領(lǐng)域,對圖像語義上下文信息的深入探索近來取得了顯著的進(jìn)展。這一趨勢與散焦去模糊中對語義信息的需求相吻合,為突破現(xiàn)有方法的局限提供了新的可能性。在這一領(lǐng)域中,vision?transformer(vit)架構(gòu)尤為突出。基于vit構(gòu)建的模型,如mae和clip,即使在處理退化的輸入時,也展示出其卓越的圖像理解能力。這些進(jìn)展強(qiáng)調(diào)了將高層語義上下文信息融入散焦去模糊任務(wù)的巨大潛力。然而,高層視覺需求與圖像恢復(fù)任務(wù)之間的不兼容性仍是一個顯著的挑戰(zhàn)。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明為解決高層視覺需求與圖像恢復(fù)任務(wù)之間不兼容性的問題,進(jìn)而提出一種基于分層模型的散焦去模糊方法。
2、本發(fā)明為解決上述問題采取的技術(shù)方案是:本發(fā)明具體包括:
3、步驟1、利用基礎(chǔ)特征編碼器將模糊圖像x∈rc×h×w分割成h∈rn×d;
4、步驟2、上下文編碼器使用學(xué)習(xí)更清晰且抽象的表征hs;
5、步驟3、解碼器將和hs作為輸入,重構(gòu)除去模糊后的圖像
6、進(jìn)一步的,步驟2中上下文編碼器使用學(xué)習(xí)更清晰且抽象的表征hs具體包括:
7、利用線性層從預(yù)測hs:
8、
9、公式(1)中,w表示線性層的權(quán)重;
10、參考特征通過應(yīng)用相同的編碼器于參考圖像y獲取,參考圖像y的維度為rc×h×w;
11、引入基于二院交叉熵的分類損失函數(shù)促使和學(xué)習(xí)區(qū)分模糊與清晰圖像的特征:
12、
13、
14、公式(2)中,t表示標(biāo)簽,且t∈{0,1},0表示模糊,1表示清晰,n表示張量h*中元素的總數(shù),σ表示sigmoid函數(shù),用于規(guī)范化特征值區(qū)間,特征值區(qū)間為(0,1);
15、模糊-清晰轉(zhuǎn)換器模塊的整體損失定義為:
16、
17、公式(3)中,d(·)用于計(jì)算表征之間的距離,超參數(shù)λ用于平衡分類損失與其它損失成分的重要性;
18、通過使用損失函數(shù)lbst訓(xùn)練上下文編碼器,使其能夠獲取與模糊相關(guān)的表征,并預(yù)測出由hs表示的清晰表征。
19、進(jìn)一步的,在上下文編碼器中引入聯(lián)合嵌入架構(gòu)增強(qiáng)表征hs的信息量,該架構(gòu)包括信息內(nèi)容保留模塊,信息內(nèi)容保留模塊用vicreg定義的正則化標(biāo)準(zhǔn),去除與模糊無關(guān)的細(xì)節(jié),信息內(nèi)容保留模塊通過多層感知器將表征映射到一個嵌入空間,并從中衍生正則化損失;
20、在信息內(nèi)容保留模塊中使用正則化損失,這些損失基于三個原則:方差、不變性和協(xié)方差,在計(jì)算正則化損失時,信息內(nèi)容保留模塊接收兩組輸入:一批參考表征和從模糊-清晰轉(zhuǎn)換器轉(zhuǎn)換來的表征hs,通過mlpfθ(·)將上述表征嵌入到低維空間強(qiáng)化抽象化能力:
21、
22、公式(4)中,e(·)表示特征平均運(yùn)算符,的維度為rd,計(jì)算平均值時,排除用于變換器架構(gòu)中分類的[cls]|標(biāo)記;從映射中派生兩組批嵌入,表示為和其中m是批次的大小;
23、信息內(nèi)容保留模塊的正則化損失函數(shù)定義為:
24、
25、公式(5)中,z表示或γ和ε表示超參數(shù),表示批嵌入的均值,即信息內(nèi)容保留模塊的總損失函數(shù)包含三個正則化項(xiàng),定位為:
26、
27、公式(6)中,μ1和μ2是用于平衡各個損失項(xiàng)影響的超參數(shù)。
28、進(jìn)一步的,解碼器利用基礎(chǔ)特征編碼器和上下文編碼器提取的和hs生成去模糊后的圖像采用傳統(tǒng)的l1損失函數(shù)訓(xùn)練解碼器:
29、
30、對于整個模型,最終損失定義為:
31、
32、公式(8)中,α和β是平衡不同損失項(xiàng)的參數(shù)。
33、進(jìn)一步的,訓(xùn)練解碼器的訓(xùn)練策略為:在訓(xùn)練上下文編碼器期間凍結(jié)了由預(yù)訓(xùn)練mae參數(shù)化的基礎(chǔ)特征編碼器,然后在大規(guī)模的imagenet數(shù)據(jù)集上訓(xùn)練此模型;采用廣泛接受的數(shù)據(jù)增強(qiáng)技術(shù),包括隨機(jī)裁剪到224×224的大小、隨機(jī)縮放從0.2到1.0,以及隨機(jī)水平翻轉(zhuǎn);根據(jù)公式(8)定義的損失函數(shù)最小化整個模型的損失,使用預(yù)訓(xùn)練階段的參數(shù)初始化上下文編碼器。
34、本發(fā)明的有益效果是:在與人類視覺感知直接相關(guān)的度量指標(biāo)上,如musiq,本發(fā)明比現(xiàn)有最先進(jìn)的nrknet提高了1.65分;與那些設(shè)計(jì)有特定輔助輸入結(jié)構(gòu)的方法,如kpac相比,本發(fā)明在fsim上也實(shí)現(xiàn)了0.042的顯著性能提升;本發(fā)明的指標(biāo)更好地反映了人類的視覺感知,本發(fā)明在單圖像散焦去模糊任務(wù)中的顯著潛力;
35、本發(fā)明有效地恢復(fù)了圖像的內(nèi)容結(jié)構(gòu),而其他方法則通常會留下顯著的背景模糊,本發(fā)明成功地重建了圖像結(jié)構(gòu),使邊緣更加銳化,并產(chǎn)生了清晰且視覺上令人愉悅的圖像,本發(fā)明能夠更準(zhǔn)確地恢復(fù)細(xì)節(jié),減少偽影,并精確地處理散焦區(qū)域;
36、本發(fā)明將高級上下文信息整合進(jìn)單圖像散焦去模糊任務(wù)中。充分利用預(yù)訓(xùn)練的vit在提取高級上下文表征方面的能力;本發(fā)明有效地處理了語義理解抽象特征的提取和高頻細(xì)節(jié)的保留問題,本發(fā)明有效地緩解了高層視覺任務(wù)與圖像恢復(fù)任務(wù)之間的潛在沖突;本發(fā)明將去模糊任務(wù)分解為兩個獨(dú)立的子任務(wù),并通過兩個專門的編碼器來處理復(fù)雜的模糊場景,從而有效消除了由空間變化引起的散焦模糊;
37、本發(fā)明將高層語義上下文信息與高頻細(xì)節(jié)融合于散焦去模糊任務(wù)中,實(shí)現(xiàn)了這兩個關(guān)鍵方面的有效平衡;針對圖像去模糊任務(wù)進(jìn)行了創(chuàng)新性的分解,將任務(wù)拆分為抽象上下文特征提取和具體細(xì)節(jié)提取兩個部分;此舉有效地彌補(bǔ)了現(xiàn)有散焦去模糊處理方法在上下文特征提取時的不足。