一種基于分層模型的散焦去模糊方法

文檔序號：40380728發(fā)布日期：2024-12-20 12:03閱讀：4來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及一種散焦去模糊方法，屬于圖像處理。

背景技術(shù)：

1、在處理由于場景深度變化導(dǎo)致的空間模糊問題時，散焦去模糊一直是個具有挑戰(zhàn)性的課題，盡管最近的工作在網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)上取得了諸多進(jìn)展，然而這些進(jìn)展主要集中于高頻細(xì)節(jié)的處理，在去模糊過程中，場景理解的重要性仍然沒有得到足夠的重視。場景理解的核心在于上下文信息的利用，上下文信息為捕捉環(huán)境及物體輪廓的高層語義線索提供了關(guān)鍵支持。通過識別并有效地利用這些線索，可以顯著提升圖像恢復(fù)的質(zhì)量?；诖?，我們提出了一種新的方法，該方法融合了空間細(xì)節(jié)與上下文信息，對散焦去模糊問題提供了有效的解決方案。具體而言，我們引入了一個基于視覺變換器(visual?transformer,vit)的新型分層模型，該模型能夠無縫集成空間細(xì)節(jié)與上下文信息。我們的方法將去模糊任務(wù)分解為兩個獨(dú)立的子任務(wù)：第一個子任務(wù)由基礎(chǔ)特征編碼器負(fù)責(zé)，將模糊圖像轉(zhuǎn)換為具體詳細(xì)的基礎(chǔ)特征表示；第二個子任務(wù)由上下文編碼器處理，它從基礎(chǔ)特征表示中提取抽象而清晰的表示。兩個編碼器的輸出合并后，通過一個解碼器重構(gòu)出清晰的目標(biāo)圖像。

2、當(dāng)場景的深度范圍超出給定相機(jī)的景深(depth?of?field,dof)限制時，散焦模糊現(xiàn)象便會發(fā)生。在此情況下，位于非焦點(diǎn)區(qū)域的物體將呈現(xiàn)模糊，從而導(dǎo)致關(guān)鍵細(xì)節(jié)的丟失。這種圖像退化對于多種計(jì)算機(jī)視覺應(yīng)用產(chǎn)生了顯著的負(fù)面影響，包括物體檢測、圖像超分辨率和文本識別等。因此，恢復(fù)一張全焦點(diǎn)圖像以揭示其高分辨率細(xì)節(jié)，在計(jì)算機(jī)視覺領(lǐng)域具有重要的研究意義和實(shí)際應(yīng)用價值。為應(yīng)對散焦模糊問題，研究者們已開發(fā)出多種算法，這些算法能將模糊圖像轉(zhuǎn)化為清晰圖像。這些方法通常包括使用特定的網(wǎng)絡(luò)模塊，如動態(tài)核和多尺度模塊，這些模塊已在標(biāo)準(zhǔn)的散焦去模糊基準(zhǔn)測試中表現(xiàn)出令人期待的性能。目前的主流研究趨勢是將先進(jìn)的網(wǎng)絡(luò)架構(gòu)與精確建模的散焦先驗(yàn)相結(jié)合，以期達(dá)到最佳的去模糊效果。代表性的模型如nrknet和kpac，均體現(xiàn)了這一趨勢的實(shí)際成效。上述的去模糊算法主要集中于重建圖像的高頻細(xì)節(jié)特征，但常常未能充分捕捉到所謂的“上下文信息”即高層語義線索。這類信息與輸入圖像的語義或上下文密切相關(guān)，對于散焦去模糊尤其重要，因?yàn)槿ツ：幚硇栳槍D像不同區(qū)域分別進(jìn)行?，F(xiàn)階段，去模糊網(wǎng)絡(luò)嘗試通過運(yùn)用大尺度核與自注意力機(jī)制來獲得廣闊的感受野，然而，這些網(wǎng)絡(luò)往往只是專注于捕捉局部空間相關(guān)信息，而未能深入理解場景的整體語義。在計(jì)算機(jī)視覺領(lǐng)域，對圖像語義上下文信息的深入探索近來取得了顯著的進(jìn)展。這一趨勢與散焦去模糊中對語義信息的需求相吻合，為突破現(xiàn)有方法的局限提供了新的可能性。在這一領(lǐng)域中，vision?transformer(vit)架構(gòu)尤為突出。基于vit構(gòu)建的模型，如mae和clip，即使在處理退化的輸入時，也展示出其卓越的圖像理解能力。這些進(jìn)展強(qiáng)調(diào)了將高層語義上下文信息融入散焦去模糊任務(wù)的巨大潛力。然而，高層視覺需求與圖像恢復(fù)任務(wù)之間的不兼容性仍是一個顯著的挑戰(zhàn)。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明為解決高層視覺需求與圖像恢復(fù)任務(wù)之間不兼容性的問題，進(jìn)而提出一種基于分層模型的散焦去模糊方法。

2、本發(fā)明為解決上述問題采取的技術(shù)方案是：本發(fā)明具體包括：

3、步驟1、利用基礎(chǔ)特征編碼器將模糊圖像x∈rc×h×w分割成h∈rn×d；

4、步驟2、上下文編碼器使用學(xué)習(xí)更清晰且抽象的表征hs；

5、步驟3、解碼器將和hs作為輸入，重構(gòu)除去模糊后的圖像

6、進(jìn)一步的，步驟2中上下文編碼器使用學(xué)習(xí)更清晰且抽象的表征hs具體包括：

7、利用線性層從預(yù)測hs：

8、

9、公式(1)中，w表示線性層的權(quán)重；

10、參考特征通過應(yīng)用相同的編碼器于參考圖像y獲取，參考圖像y的維度為rc×h×w；

11、引入基于二院交叉熵的分類損失函數(shù)促使和學(xué)習(xí)區(qū)分模糊與清晰圖像的特征：

12、

13、

14、公式(2)中，t表示標(biāo)簽，且t∈{0,1}，0表示模糊，1表示清晰，n表示張量h*中元素的總數(shù)，σ表示sigmoid函數(shù)，用于規(guī)范化特征值區(qū)間，特征值區(qū)間為(0,1)；

15、模糊-清晰轉(zhuǎn)換器模塊的整體損失定義為：

16、

17、公式(3)中，d(·)用于計(jì)算表征之間的距離，超參數(shù)λ用于平衡分類損失與其它損失成分的重要性；

18、通過使用損失函數(shù)lbst訓(xùn)練上下文編碼器，使其能夠獲取與模糊相關(guān)的表征，并預(yù)測出由hs表示的清晰表征。

19、進(jìn)一步的，在上下文編碼器中引入聯(lián)合嵌入架構(gòu)增強(qiáng)表征hs的信息量，該架構(gòu)包括信息內(nèi)容保留模塊，信息內(nèi)容保留模塊用vicreg定義的正則化標(biāo)準(zhǔn)，去除與模糊無關(guān)的細(xì)節(jié)，信息內(nèi)容保留模塊通過多層感知器將表征映射到一個嵌入空間，并從中衍生正則化損失；

20、在信息內(nèi)容保留模塊中使用正則化損失，這些損失基于三個原則：方差、不變性和協(xié)方差，在計(jì)算正則化損失時，信息內(nèi)容保留模塊接收兩組輸入：一批參考表征和從模糊-清晰轉(zhuǎn)換器轉(zhuǎn)換來的表征hs，通過mlpfθ(·)將上述表征嵌入到低維空間強(qiáng)化抽象化能力：

21、

22、公式(4)中，e(·)表示特征平均運(yùn)算符，的維度為rd，計(jì)算平均值時，排除用于變換器架構(gòu)中分類的[cls]|標(biāo)記；從映射中派生兩組批嵌入，表示為和其中m是批次的大小；

23、信息內(nèi)容保留模塊的正則化損失函數(shù)定義為：

24、

25、公式(5)中，z表示或γ和ε表示超參數(shù)，表示批嵌入的均值，即信息內(nèi)容保留模塊的總損失函數(shù)包含三個正則化項(xiàng)，定位為：

26、

27、公式(6)中，μ1和μ2是用于平衡各個損失項(xiàng)影響的超參數(shù)。

28、進(jìn)一步的，解碼器利用基礎(chǔ)特征編碼器和上下文編碼器提取的和hs生成去模糊后的圖像采用傳統(tǒng)的l1損失函數(shù)訓(xùn)練解碼器：

29、

30、對于整個模型，最終損失定義為：

31、

32、公式(8)中，α和β是平衡不同損失項(xiàng)的參數(shù)。

33、進(jìn)一步的，訓(xùn)練解碼器的訓(xùn)練策略為：在訓(xùn)練上下文編碼器期間凍結(jié)了由預(yù)訓(xùn)練mae參數(shù)化的基礎(chǔ)特征編碼器，然后在大規(guī)模的imagenet數(shù)據(jù)集上訓(xùn)練此模型；采用廣泛接受的數(shù)據(jù)增強(qiáng)技術(shù)，包括隨機(jī)裁剪到224×224的大小、隨機(jī)縮放從0.2到1.0，以及隨機(jī)水平翻轉(zhuǎn)；根據(jù)公式(8)定義的損失函數(shù)最小化整個模型的損失，使用預(yù)訓(xùn)練階段的參數(shù)初始化上下文編碼器。

34、本發(fā)明的有益效果是：在與人類視覺感知直接相關(guān)的度量指標(biāo)上，如musiq，本發(fā)明比現(xiàn)有最先進(jìn)的nrknet提高了1.65分；與那些設(shè)計(jì)有特定輔助輸入結(jié)構(gòu)的方法，如kpac相比，本發(fā)明在fsim上也實(shí)現(xiàn)了0.042的顯著性能提升；本發(fā)明的指標(biāo)更好地反映了人類的視覺感知，本發(fā)明在單圖像散焦去模糊任務(wù)中的顯著潛力；

35、本發(fā)明有效地恢復(fù)了圖像的內(nèi)容結(jié)構(gòu)，而其他方法則通常會留下顯著的背景模糊，本發(fā)明成功地重建了圖像結(jié)構(gòu)，使邊緣更加銳化，并產(chǎn)生了清晰且視覺上令人愉悅的圖像，本發(fā)明能夠更準(zhǔn)確地恢復(fù)細(xì)節(jié)，減少偽影，并精確地處理散焦區(qū)域；

36、本發(fā)明將高級上下文信息整合進(jìn)單圖像散焦去模糊任務(wù)中。充分利用預(yù)訓(xùn)練的vit在提取高級上下文表征方面的能力；本發(fā)明有效地處理了語義理解抽象特征的提取和高頻細(xì)節(jié)的保留問題，本發(fā)明有效地緩解了高層視覺任務(wù)與圖像恢復(fù)任務(wù)之間的潛在沖突；本發(fā)明將去模糊任務(wù)分解為兩個獨(dú)立的子任務(wù)，并通過兩個專門的編碼器來處理復(fù)雜的模糊場景，從而有效消除了由空間變化引起的散焦模糊；

37、本發(fā)明將高層語義上下文信息與高頻細(xì)節(jié)融合于散焦去模糊任務(wù)中，實(shí)現(xiàn)了這兩個關(guān)鍵方面的有效平衡；針對圖像去模糊任務(wù)進(jìn)行了創(chuàng)新性的分解，將任務(wù)拆分為抽象上下文特征提取和具體細(xì)節(jié)提取兩個部分；此舉有效地彌補(bǔ)了現(xiàn)有散焦去模糊處理方法在上下文特征提取時的不足。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：梁鵬偉,江俊君,劉賢明,馬佳義
技術(shù)所有人：哈爾濱工業(yè)大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于分層模型的散焦去模糊方法