一種基于跨尺度令牌交互的Transformer單圖像超分辨率重建方法

文檔序號(hào)：40400933發(fā)布日期：2024-12-20 12:24閱讀：8來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于數(shù)字圖像處理和機(jī)器視覺領(lǐng)域，尤其涉及一種基于跨尺度令牌交互的transformer單圖像超分辨率重建方法。

背景技術(shù)：

1、在數(shù)字圖像處理和計(jì)算機(jī)視覺領(lǐng)域，圖像超分辨率（super-resolution,?sr）技術(shù)致力于從低分辨率（low-resolution,?lr）圖像中恢復(fù)高分辨率（high-resolution,?hr）圖像，從而提升圖像質(zhì)量和細(xì)節(jié)。由于成像設(shè)備限制、存儲(chǔ)和傳輸約束以及外界干擾，獲取高質(zhì)量圖像面臨諸多挑戰(zhàn)，而圖像超分辨率技術(shù)不僅能有效降低成本和縮短時(shí)間，還在醫(yī)學(xué)成像、衛(wèi)星攝影、安防監(jiān)控、工業(yè)檢測(cè)等領(lǐng)域具有廣泛應(yīng)用。

2、圖像超分辨率重建是一個(gè)病態(tài)反問題，存在較大不確定性。主要方法分為傳統(tǒng)方法和基于深度學(xué)習(xí)的方法。傳統(tǒng)方法包括插值、重建和傳統(tǒng)機(jī)器學(xué)習(xí)方法。插值方法通過估算缺失像素值來放大圖像，但常導(dǎo)致模糊結(jié)果；重建方法利用多張低分辨率圖像重建高分辨率圖像，但計(jì)算復(fù)雜度較高；傳統(tǒng)機(jī)器學(xué)習(xí)方法依靠手工設(shè)計(jì)特征，效果受限于特征選擇。盡管這些方法各自有優(yōu)缺點(diǎn)，但在處理高頻細(xì)節(jié)和復(fù)雜圖像結(jié)構(gòu)時(shí)表現(xiàn)有限?；谏疃葘W(xué)習(xí)的方法通過深層神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)lr和hr圖像間的復(fù)雜映射關(guān)系，顯著提升圖像質(zhì)量，在生成清晰細(xì)膩的高分辨率圖像方面效果優(yōu)異。

3、隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域取得了巨大成功，2014年dong[dong?c,?loy?cc,?he?k,?et?al.?image?super-resolution?using?deep?convolutional?networks[j].ieee?transactions?on?pattern?analysis?and?machine?intelligence,?2015,?38(2):295-307.]等人首次將深度學(xué)習(xí)方法引入圖像超分辨率重建任務(wù)，借助神經(jīng)網(wǎng)絡(luò)強(qiáng)大的學(xué)習(xí)能力，取得了優(yōu)于傳統(tǒng)方法的成績(jī)。隨后研究者們提出了一系列不斷優(yōu)化的算法模型，從最早的基于卷積神經(jīng)網(wǎng)絡(luò)的srcnn?(super-resolution?convolutional?neural?network)模型，到基于生成對(duì)抗網(wǎng)絡(luò)的srgan?(super-resolution?generative?adversarialnetwork)?模型，再到基于transformer的ttsr?(texture?transformer?network?for?sr)模型，基于深度學(xué)習(xí)的圖像超分辨率重建技術(shù)不斷取得新的突破。然而，這些方法也存在一些問題和挑戰(zhàn)。srcnn雖然簡(jiǎn)單易用，但難以捕捉高頻細(xì)節(jié)和復(fù)雜紋理。srgan引入了對(duì)抗訓(xùn)練機(jī)制，生成的圖像質(zhì)量更高，但訓(xùn)練過程不穩(wěn)定且容易產(chǎn)生偽影。ttsr通過transformer捕捉長(zhǎng)距離依賴關(guān)系，增強(qiáng)了細(xì)節(jié)和紋理重建，但計(jì)算復(fù)雜度較高，導(dǎo)致訓(xùn)練和推理時(shí)間長(zhǎng)，資源消耗大。

4、由于基于transformer的模型普遍具有較大的內(nèi)存和計(jì)算開銷，因此內(nèi)存和計(jì)算開銷更小的基于swin?transformer的模型成為研究的主流。swin?transformer采用滑動(dòng)窗口機(jī)制，在每個(gè)窗口內(nèi)執(zhí)行自注意力操作，并通過窗口的位移來實(shí)現(xiàn)全局信息的捕捉。這樣的設(shè)計(jì)大大減少了計(jì)算復(fù)雜度和內(nèi)存消耗，使得swin?transformer在保持高性能的同時(shí)更加高效和輕量化。目前的研究大多基于swinir?(image?restoration?using?swintransformer)?基線模型。盡管swin?transformer具有顯著的優(yōu)點(diǎn)，但它也存在一些問題和局限。首先，盡管滑動(dòng)窗口機(jī)制提高了計(jì)算效率，但在跨窗口的信息交互和全局信息交互方面仍然存在不足，導(dǎo)致在處理大尺度圖像時(shí)效果不佳。此外，滑動(dòng)窗口操作可能導(dǎo)致邊界效應(yīng)，影響重建結(jié)果的連續(xù)性和一致性。其次，現(xiàn)有的swinir模型往往無法充分利用圖像中的跨尺度相似信息，這些信息對(duì)于進(jìn)一步提升圖像超分辨率重建效果至關(guān)重要。

技術(shù)實(shí)現(xiàn)思路

1、發(fā)明目的：本發(fā)明的目的在于提供一種基于跨尺度令牌交互的transformer單圖像超分辨率重建方法，實(shí)現(xiàn)不同層級(jí)令牌信息之間的交互，充分挖掘和融合圖像中的跨尺度信息，并加強(qiáng)全局信息的交互。

2、技術(shù)方案：本發(fā)明的一種基于跨尺度令牌交互的transformer單圖像超分辨率重建方法，包括如下步驟：

3、步驟1、獲取低分辨率圖像，使用淺層特征提取模塊sfe從低分辨率圖像中提取初步的淺層特征；

4、步驟2、基于若干深度特征提取塊dfe構(gòu)建主干網(wǎng)絡(luò)，其中，深度特征提取塊dfe包含若干跨尺度令牌交互transformer層cstitl（cross-scale?token?interactiontransformer?layer），將淺層特征輸入主干網(wǎng)絡(luò)中提取深層特征；

5、步驟3、將提取的淺層特征和深層特征融合后重建得到高分辨率圖像。

6、?進(jìn)一步的，步驟1具體為：使用一層?標(biāo)準(zhǔn)卷積將低分辨率圖像映射到高位的特征空間，得到淺層特征，其中c表示通道數(shù)，表示特征圖大小，公式如下：

7、

8、進(jìn)一步的，步驟2具體包括如下步驟：

9、步驟201、每個(gè)深度特征提取塊分別輸出，最后通過一個(gè)卷積層得到深層特征圖，公式如下：

10、

11、

12、步驟202、主干網(wǎng)絡(luò)中的深度特征提取塊包含l個(gè)跨尺度令牌交互transformer層cstitl，用于實(shí)現(xiàn)全局和多層次信息融合，以及一個(gè)3×3卷積層，專注于局部信息的聚合，公式如下：

13、

14、步驟203、考慮到多尺度信息的提取，跨尺度令牌交互transformer層cstitl中的多尺度信息提取模塊msie對(duì)輸入特征圖，先進(jìn)行逐步的池化下采樣得到區(qū)域令牌特征圖和全局令牌特征圖，然后分別進(jìn)行滑動(dòng)窗口自注意力wsa的計(jì)算得到；

15、步驟204、跨尺度令牌交互transformer層cstitl中的跨尺度信息融合模塊csif首先對(duì)像素令牌和區(qū)域令牌的跨尺度信息進(jìn)行融合，首先取出對(duì)應(yīng)于像素特征圖（i,j）位置的像素令牌鄰近的個(gè)區(qū)域令牌，以像素令牌為查詢q，區(qū)域令牌為鍵k和值v，在計(jì)算特征圖前先通過線性層對(duì)q，k的特征維度進(jìn)行壓縮以減少計(jì)算量，然后進(jìn)行注意力的計(jì)算得到融合區(qū)域信息的像素令牌，補(bǔ)充特征圖中的區(qū)域信息；

16、步驟205、接著使用跨尺度信息融合模塊csif對(duì)像素令牌和全局令牌的跨尺度信息進(jìn)行融合，融合過程與像素令牌和區(qū)域令牌的交互同理，唯一的區(qū)別僅在于每個(gè)像素令牌都要和所有的全局令牌進(jìn)行注意力的計(jì)算，由此得到融合全局信息的像素令牌；

17、步驟206、得到后，將它們相加送入深度卷積門控前向傳播層dwconvffl提取深層特征。

18、進(jìn)一步的，步驟203具體為：先進(jìn)行逐步的池化下采樣得到區(qū)域令牌特征圖和全局令牌特征圖，考慮到不增加額外的參數(shù)，其共享線性層的參數(shù)，公式如下：

19、

20、

21、

22、窗口注意力即將給定輸入劃分為的不重疊窗口，然后分別計(jì)算每個(gè)窗口的標(biāo)準(zhǔn)自注意力后還原，輸入窗口特征圖，自注意力的計(jì)算公式如下：

23、

24、其中，r是可學(xué)習(xí)相對(duì)位置編碼，q是查詢，k是鍵，v是值，t表示矩陣轉(zhuǎn)置操作，d表示縮放系數(shù)。

25、進(jìn)一步的，步驟204中，以像素令牌為查詢q，區(qū)域令牌為鍵k和值v，在計(jì)算特征圖前先通過線性層對(duì)q，k的特征維度進(jìn)行壓縮以減少計(jì)算量，然后進(jìn)行注意力的計(jì)算得到融合了區(qū)域信息的像素令牌，具體公式如下：

26、

27、

28、其中，表示從像素令牌中取出第p個(gè)令牌，表示從區(qū)域令牌中取出的與空間上最接近的n2個(gè)區(qū)域令牌，循環(huán)這個(gè)過程直到所有像素令牌都完成計(jì)算。

29、進(jìn)一步的，步驟206中，所述深度卷積門控前向傳播層dwconvffl為線性變換層兩個(gè)平行路徑的逐元素乘積，其中之一通過?gelu?非線性激活，在其中加入深度卷積以對(duì)空間相鄰像素位置的信息進(jìn)行編碼，公式如下：

30、

31、

32、

33、其中，表示逐元素乘積，深度卷積門控前項(xiàng)傳播控制著我們管道中各個(gè)層級(jí)的信息流，從而允許每個(gè)級(jí)別專注于與其他級(jí)別互補(bǔ)的細(xì)節(jié)。

34、進(jìn)一步的，步驟3具體為：將步驟2得到的淺層特征與步驟3得到的深層特征通過跳躍連接進(jìn)行特征融合，然后采用亞像素卷積上采樣，得到重建后高分辨率圖像，公式如下：

35、

36、本發(fā)明還公開一種計(jì)算機(jī)裝置，包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上的計(jì)算機(jī)程序，所述處理器執(zhí)行所述計(jì)算機(jī)程序以實(shí)現(xiàn)本發(fā)明方法的步驟。

37、本發(fā)明還公開一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序/指令，該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)本發(fā)明方法的步驟。

38、本發(fā)明還公開一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序/指令，該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)本發(fā)明方法的步驟。

39、有益效果：與現(xiàn)有技術(shù)相比，本發(fā)明具有如下顯著優(yōu)點(diǎn)：

40、1、在多尺度信息提取方面，設(shè)計(jì)了多尺度信息提取模塊首先對(duì)原始像素令牌進(jìn)行池化，生成區(qū)域令牌和全局令牌，然后分別進(jìn)行（滑動(dòng)）窗口自注意力（wsa）的計(jì)算，從而實(shí)現(xiàn)多尺度信息的有效提取，并加強(qiáng)了全局信息的交互；

41、2、在跨尺度信息融合方面，設(shè)計(jì)了跨尺度信息融合模塊對(duì)跨尺度令牌進(jìn)行注意力計(jì)算，實(shí)現(xiàn)了不同層級(jí)令牌信息之間的交互，充分挖掘和融合了圖像中的跨尺度信息，并加強(qiáng)了全局信息的交互；

42、3、在輕量化的優(yōu)化方面，在多尺度信息提取時(shí)共享線性層參數(shù)以減少參數(shù)量，在計(jì)算跨尺度令牌特征圖前先通過線性層對(duì)查詢（q）和鍵（k）的值進(jìn)行壓縮，從而減少計(jì)算量。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：鄭鈺輝,楊歡,張國(guó)慶
技術(shù)所有人：南京信息工程大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于跨尺度令牌交互的Transformer單圖像超分辨率重建方法