本技術(shù)涉及計(jì)算機(jī)視覺(jué)領(lǐng)域,更具體地說(shuō),它涉及一種人臉超分重建檢測(cè)方法、裝置及設(shè)備。
背景技術(shù):
1、人臉檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)重要分支,是所有人臉圖像處理任務(wù)(如人臉識(shí)別、人臉跟蹤、姿態(tài)估計(jì)等)中的關(guān)鍵第一步。它廣泛應(yīng)用于數(shù)字視頻處理、人機(jī)交互、社交媒體應(yīng)用以及用戶行為分析等多個(gè)領(lǐng)域。隨著技術(shù)的發(fā)展,人臉檢測(cè)的應(yīng)用背景已經(jīng)超出了傳統(tǒng)的人臉識(shí)別系統(tǒng)范疇,成為保障公共安全、提升用戶體驗(yàn)的重要工具。
2、在實(shí)際應(yīng)用中,由于拍攝條件(如拍攝距離、光照條件等)的限制,獲取到的人臉圖像往往質(zhì)量較低,表現(xiàn)為分辨率低、模糊、噪聲多等問(wèn)題。這些低質(zhì)量的人臉圖像給后續(xù)的人臉檢測(cè)與識(shí)別帶來(lái)了巨大挑戰(zhàn),降低了識(shí)別系統(tǒng)的準(zhǔn)確性和可靠性。為了克服低質(zhì)量人臉圖像帶來(lái)的挑戰(zhàn),超分辨率重建技術(shù)被引入到人臉檢測(cè)與識(shí)別領(lǐng)域。超分辨率重建技術(shù)是一種圖像處理技術(shù),它能夠通過(guò)一系列低分辨率的圖像來(lái)生成高分辨率的圖像。這種方法利用了圖像處理中的插值技術(shù)、深度學(xué)習(xí)等技術(shù)手段,通過(guò)對(duì)低分辨率圖像進(jìn)行插值或?qū)W習(xí),得到高分辨率圖像中的像素值,從而使圖像的細(xì)節(jié)更加清晰。傳統(tǒng)的超分辨率重建方法主要依賴于插值算法或重建濾波器,這些方法雖然能夠一定程度上提高圖像的分辨率,但往往無(wú)法有效地恢復(fù)圖像中的高頻細(xì)節(jié)信息,導(dǎo)致重建圖像的質(zhì)量受限。
3、esrgan(enhanced?super-resolution?generative?adversarial?network)是一種基于生成對(duì)抗網(wǎng)絡(luò)(gan)的圖像超分辨率算法,旨在將低分辨率(lr)圖像轉(zhuǎn)化為高分辨率(hr)圖像,同時(shí)保持甚至提升圖像的質(zhì)量。但esrgan對(duì)于包括復(fù)雜紋理、細(xì)節(jié)或動(dòng)態(tài)場(chǎng)景的圖像,可能難以準(zhǔn)確重建所有高頻信息,特別是在邊緣、紋理細(xì)節(jié)等區(qū)域,可能出現(xiàn)偽影或模糊現(xiàn)象,這影響了生成圖像的質(zhì)量(如模糊、鋸齒等)。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)提供了一種人臉超分重建檢測(cè)方法、裝置及設(shè)備,解決了現(xiàn)有技術(shù)提供的esrgan網(wǎng)絡(luò)在重建圖像分辨率的過(guò)程中,仍存在一定的噪聲和偽影,這影響了生成圖像的質(zhì)量的問(wèn)題。
2、本技術(shù)的第一方面,提供了一種人臉超分重建檢測(cè)方法,方法包括:
3、檢測(cè)低分辨率圖像是否存在待確認(rèn)人臉區(qū)域;
4、在檢測(cè)出低分辨率圖像存在待確認(rèn)人臉區(qū)域時(shí),將待確認(rèn)人臉區(qū)域的圖像輸入至人臉超分重建網(wǎng)絡(luò)中進(jìn)行超分辨率重建,以確認(rèn)出圖像中的人臉區(qū)域;其中,由生成器和鑒別器構(gòu)建的增強(qiáng)型生成對(duì)抗網(wǎng)絡(luò)作為所述人臉超分重建網(wǎng)絡(luò),且生成器的db殘差密集塊被替換為多個(gè)堆疊的swin?transformer塊結(jié)構(gòu),鑒別器的重建損失函數(shù)被引入用于判別是否為人臉區(qū)域的交叉熵?fù)p失函數(shù)。
5、在一些實(shí)施例中,通過(guò)以下方式來(lái)檢測(cè)低分辨率圖像是否存在待確認(rèn)人臉區(qū)域:調(diào)用人臉檢測(cè)網(wǎng)絡(luò)對(duì)低分辨率圖像進(jìn)行檢測(cè),獲得人臉檢測(cè)區(qū)域;
6、對(duì)人臉檢測(cè)區(qū)域按照置信度閾值進(jìn)行劃分,若大于第一置信度閾值,則人臉檢測(cè)區(qū)域?yàn)榇_認(rèn)人臉區(qū)域,若小于第一置信度閾值大于第二置信度閾值,則人臉檢測(cè)區(qū)域?yàn)榇_認(rèn)人臉區(qū)域,若小于第二置信度閾值,則人臉檢測(cè)區(qū)域?yàn)榉侨四槄^(qū)域。
7、在一些實(shí)施例中,所述生成器包括淺層特征提取網(wǎng)絡(luò)和深層特征提取網(wǎng)絡(luò);
8、所述淺層特征提取網(wǎng)絡(luò)為一個(gè)3×3大小的卷積層,用于將待確認(rèn)人臉區(qū)域的圖像映射為大小為c×w×h的第一特征圖;其中c為通道數(shù),w和h分別是圖像的寬度和高度
9、所述深層特征提取網(wǎng)絡(luò)包括多個(gè)堆疊的swin?transformer塊結(jié)構(gòu)、多個(gè)3×3大小的卷積層、上采樣層和至少一個(gè)激活函數(shù)層。
10、在一些實(shí)施例中,每個(gè)所述swin?transformer塊結(jié)構(gòu)包括第一swin?transformer子塊結(jié)構(gòu)、第一卷積層、第二swin?transformer子塊結(jié)構(gòu)和第二卷積層;其中,第一swintransformer子塊結(jié)構(gòu)和第二swin?transformer子塊結(jié)構(gòu)均是由三個(gè)swin?transformer塊依次連接構(gòu)成的;
11、第一swin?transformer子塊結(jié)構(gòu)通過(guò)三個(gè)swin?transformer塊的自注意力機(jī)制與相對(duì)位置編碼捕獲所述第一特征圖的局部特征和上下文信息,獲得大小為2c×w×h的第二特征圖;
12、第一卷積層用于將第一特征圖與第二特征圖融合,獲得大小為2c×w×h的第三特征圖;
13、第二swin?transformer子塊結(jié)構(gòu)通過(guò)三個(gè)swin?transformer塊的自注意力機(jī)制與相對(duì)位置編碼捕獲所述第三特征圖的局部特征和上下文信息,獲得大小為3c×w×h的第四特征圖;
14、第二卷積層用于將第一特征圖、第三特征圖和第四特征圖歸一化到大小為c×w×h的第五特征圖。
15、在一些實(shí)施例中,所述swin?transformer塊是由兩個(gè)層歸一化層、多頭自注意力機(jī)制模塊和多層感知機(jī)模塊構(gòu)成的;
16、其中,第一特征圖作為一個(gè)層歸一化層的輸入,一個(gè)層歸一化層的輸出作為多頭自注意力機(jī)制模塊的輸入,多頭自注意力機(jī)制模塊的輸出和第一特征圖融合所得的第一融合結(jié)果作為另一個(gè)層歸一化層的輸入,另一個(gè)層歸一化層的輸出作為多層感知機(jī)模塊的輸入,多層感知機(jī)模塊的輸出和第一融合結(jié)果融合所得的第二融合結(jié)果,作為一個(gè)所述swintransformer塊的輸出。
17、在一些實(shí)施例中,所述重建損失函數(shù)包括像素?fù)p失函數(shù)和對(duì)抗損失函數(shù),其中所述像素?fù)p失函數(shù)采用均方差損失函數(shù)。
18、在一些實(shí)施例中,所述鑒別器的網(wǎng)絡(luò)結(jié)構(gòu)包括八個(gè)3×3大小的卷積層、lrelu激活函數(shù)層和批歸一化層構(gòu)成;其中八個(gè)3×3大小的卷積層的卷積核的數(shù)量依次為64、128、128、128、256、256、512、512;最后一個(gè)卷積核數(shù)量為512的卷積層連接一個(gè)全連接層,全連接層的輸出連接lrelu激活函數(shù)層,在lrelu激活函數(shù)層的輸出再連接兩個(gè)全連接層,以構(gòu)建一個(gè)二分類網(wǎng)絡(luò),所述二分類網(wǎng)絡(luò)分別用于判斷輸入的待確認(rèn)人臉區(qū)域的圖像是否為高分辨率圖像,判斷輸入的待確認(rèn)人臉區(qū)域的圖像是否是人臉區(qū)域。
19、本技術(shù)第二方面,提供了一種人臉超分重建檢測(cè)裝置,裝置包括:
20、人臉區(qū)域檢測(cè)模塊,用于檢測(cè)低分辨率圖像是否存在待確認(rèn)人臉區(qū)域;
21、人臉區(qū)域重建模塊,用于在檢測(cè)出低分辨率圖像存在待確認(rèn)人臉區(qū)域時(shí),將待確認(rèn)人臉區(qū)域的圖像輸入至人臉超分重建網(wǎng)絡(luò)中進(jìn)行超分辨率重建,以確認(rèn)出圖像中的人臉區(qū)域;其中,由生成器和鑒別器構(gòu)建的增強(qiáng)型生成對(duì)抗網(wǎng)絡(luò)作為所述人臉超分重建網(wǎng)絡(luò),且生成器的db殘差密集塊被替換為多個(gè)堆疊的swin?transformer塊結(jié)構(gòu),鑒別器的重建損失函數(shù)被引入用于判別是否為人臉區(qū)域的交叉熵?fù)p失函數(shù)。
22、在一些實(shí)施例中,人臉區(qū)域檢測(cè)模塊,包括:
23、檢測(cè)模塊,用于調(diào)用人臉檢測(cè)網(wǎng)絡(luò)對(duì)低分辨率圖像進(jìn)行檢測(cè),獲得人臉檢測(cè)區(qū)域;
24、區(qū)域確認(rèn)模塊,用于對(duì)人臉檢測(cè)區(qū)域按照置信度閾值進(jìn)行劃分,若大于第一置信度閾值,則人臉檢測(cè)區(qū)域?yàn)榇_認(rèn)人臉區(qū)域,若小于第一置信度閾值大于第二置信度閾值,則人臉檢測(cè)區(qū)域?yàn)榇_認(rèn)人臉區(qū)域,若小于第二置信度閾值,則人臉檢測(cè)區(qū)域?yàn)榉侨四槄^(qū)域。
25、本技術(shù)的第三方面,提供了一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如本技術(shù)的第一方面提供的一種人臉超分重建檢測(cè)方法。
26、與現(xiàn)有技術(shù)相比,本技術(shù)具有以下有益效果:
27、在本技術(shù)提供的一種人臉超分重建檢測(cè)方法中,將esrgan的生成器與swintransformer深度整合,以構(gòu)建出人臉超分重建網(wǎng)絡(luò)。具體的,swin?transformer的分層結(jié)構(gòu)和局部注意力機(jī)制使得模型能夠在不同尺度上提取特征,并通過(guò)跨層連接進(jìn)行多尺度特征融合。有助于減少這些偽影的產(chǎn)生,從而提高圖像質(zhì)量。同時(shí)swin?transformer具有更強(qiáng)的特征提取能力,因此它能夠更好地恢復(fù)人臉圖像中的細(xì)節(jié)信息,如皮膚紋理、發(fā)絲等。這使得超分辨率重建后的人臉圖像更加真實(shí)、自然。swin?transformer通過(guò)自注意力機(jī)制能夠捕獲圖像中的全局上下文信息,如人臉圖像中的細(xì)節(jié)(如眼睛、鼻子、嘴巴等)與整個(gè)人臉面部的結(jié)構(gòu)關(guān)系,全局信息的引入有助于更好地恢復(fù)這些細(xì)節(jié),從而提升了人臉超分重建網(wǎng)絡(luò)的特征提取能力和重建質(zhì)量,保證了生成圖像的圖像質(zhì)量。