本發(fā)明屬于計(jì)算機(jī)視覺中圖像轉(zhuǎn)化和圖像生成,并涉及深度學(xué)習(xí)中的對(duì)比學(xué)習(xí)方向,具體涉及一種基于對(duì)比學(xué)習(xí)分解多視覺任務(wù)的圖像轉(zhuǎn)換方法。
背景技術(shù):
1、隨著深度學(xué)習(xí)的發(fā)展,一些最近的研究引入了感知學(xué)習(xí)來處理圖像轉(zhuǎn)換這個(gè)問題,例如王新濤,余可,吳世祥,顧瑾瑾,劉毅浩,董超,喬宇和雷成昌所著作的刊載于《proceedings?of?the?european?conference?on?computer?vision?(eccv)》(《歐洲計(jì)算機(jī)視覺會(huì)議(eccv)》)(2018年)的“esrgan:?enhanced?super-resolution?generativeadversarial?networks”(“esrgan:增強(qiáng)型超分辨率生成對(duì)抗網(wǎng)絡(luò)”),其主要思想是利用預(yù)訓(xùn)練的分類網(wǎng)絡(luò)提取高維特征作為生成圖像和目標(biāo)圖像的表示,然后測(cè)量這兩個(gè)之間的距離作為損失函數(shù),公式為:
2、???????????????(1)
3、與早期作品中使用的mae或mse等距離度量相比,感知距離是在特征空間而不是像素空間中測(cè)量的,這被認(rèn)為更緊湊,與人類感知更相關(guān)。此外,roey?mechrez(羅伊·梅克雷茲),itamar?talmi(伊塔馬爾·塔爾米)和lihi?zelnik-manor(利?!蔂柲峥?馬諾爾)所著的刊載于《proceedings?of?the?european?conference?on?computer?vision(eccv)》(《歐洲計(jì)算機(jī)視覺會(huì)議(eccv)》)(2018年)的“the?contextual?loss?for?imagetransformation?with?nonaligned?data”(“用于非對(duì)齊數(shù)據(jù)圖像變換的上下文損失”)提出上下文損失:
4、?????????????????(2)
5、其中,是特征和之間的相似度,通常使用歸一化余弦距離來計(jì)算,n代表在對(duì)比學(xué)習(xí)過程中用于正則化的樣本總數(shù),指標(biāo)i表示對(duì)于n個(gè)樣本中的第i個(gè)樣本進(jìn)行操作,而j表示在某一樣本的所有特征維度中的第j個(gè)特征。與相比,是在特征上下文空間中計(jì)算的,當(dāng)訓(xùn)練圖像和未對(duì)齊時(shí),它應(yīng)該更加穩(wěn)健。除了前面提到的文章,楊文銘,張雪晨,田亞鵬,王偉,薛靜浩和廖慶民所著的刊載于《ieeetransactions?on?multimedia》(《ieee多媒體匯刊》)(第21卷,第12期,2019年)的“deeplearning?for?single?image?super-resolution:?a?brief?review”(“深度學(xué)習(xí)用于單圖像超分辨率:簡(jiǎn)要回顧”)更詳細(xì)地分析了這些方法的影響。
6、一般來說,從預(yù)訓(xùn)練網(wǎng)絡(luò)中提取的特征可以看作是輸入圖像和上的概率分布,記為和??梢宰C明使用或最小化和之間的距離類似于最小化兩個(gè)分布之間的kullback-leibler?(kl)散度和,如式(3)所示:
7、???????????????????(3)
8、由于和是從預(yù)訓(xùn)練網(wǎng)絡(luò)(通常是在大規(guī)模分類數(shù)據(jù)集上訓(xùn)練的分類網(wǎng)絡(luò))中提取的特征,可以將和視為從像素空間到語義空間的映射由預(yù)訓(xùn)練網(wǎng)絡(luò)學(xué)習(xí)的自然圖像流形,這里的表示kullback-leibler散度,用于衡量自然圖像流形之間的信息損失,使用這些感知學(xué)習(xí)方法生成的圖像可以更逼真。然而,應(yīng)該注意的是,這兩個(gè)損失函數(shù)通常在整個(gè)網(wǎng)絡(luò)訓(xùn)練的最終損失函數(shù)中占相對(duì)較小的角色,即使它們可能對(duì)人類感知很重要。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的,在于提供一種基于對(duì)比學(xué)習(xí)分解多視覺任務(wù)的圖像轉(zhuǎn)換方法,能夠提高感知質(zhì)量,在圖像轉(zhuǎn)換過程中能夠在保持圖像內(nèi)容的同時(shí)改變其風(fēng)格特征。
2、為了達(dá)成上述目的,本發(fā)明的解決方案是:
3、一種基于對(duì)比學(xué)習(xí)分解多視覺任務(wù)的圖像轉(zhuǎn)換方法,將待處理的圖像輸入圖像轉(zhuǎn)換模型,得到所需的目標(biāo)圖像;
4、其中,所述圖像轉(zhuǎn)換模型采用生成器網(wǎng)絡(luò) f(·),根據(jù)以下步驟確定其網(wǎng)絡(luò)參數(shù):
5、步驟a,構(gòu)建包含源圖像和目標(biāo)圖像的樣本集;其中,所述源圖像和目標(biāo)圖像的內(nèi)容相似但風(fēng)格不同;
6、步驟b,對(duì)生成器網(wǎng)絡(luò) f(·)采用以下方法進(jìn)行訓(xùn)練;
7、步驟b1,隨機(jī)從樣本集中獲取作為訓(xùn)練樣本的源圖像 x和目標(biāo)圖像 y;
8、步驟b2,對(duì)源圖像 x進(jìn)行生成器網(wǎng)絡(luò) f(·)的前向傳播,得到生成圖像;對(duì)源圖像 x進(jìn)行失真處理,得到失真圖像;
9、步驟b3,將所述目標(biāo)圖像、失真圖像和生成圖像分別輸入預(yù)訓(xùn)練網(wǎng)絡(luò) ψ(·),得到感知特征 h n, h p, h a,分別表示負(fù)樣本、正樣本和生成樣本;
10、步驟b4,利用特征選擇層 φ(·)對(duì)所述感知特征 h n, h p, h a進(jìn)一步選擇特定的特征 e n, e p, e a,分別表示負(fù)樣本特征、正樣本特征、生成樣本特征;
11、步驟b5,基于所述特征 e n, e p, e a,分別計(jì)算所述生成樣本與正樣本、負(fù)樣本之間的特征距離;
12、步驟b6,使用adam優(yōu)化器對(duì)生成器網(wǎng)絡(luò) f(·)和特征選擇層 φ(·)進(jìn)行參數(shù)更新,依據(jù)所述特征距離決定參數(shù)的調(diào)整方向,調(diào)整目標(biāo)是使生成樣本與正樣本的距離最小,而與負(fù)樣本的距離最大;
13、步驟b7,重復(fù)步驟b1至步驟b6,直至達(dá)到設(shè)定的終止條件,得到訓(xùn)練好的生成器網(wǎng)絡(luò) f(·);
14、其中,所述步驟b5至步驟b6具體為,使用三元組損失函數(shù)的思想,通過約束正負(fù)樣本與生成樣本之間的距離來優(yōu)化生成器網(wǎng)絡(luò);
15、首先分別計(jì)算生成樣本與正樣本、負(fù)樣本之間的距離,以歐氏距離進(jìn)行度量;
16、根據(jù)下式計(jì)算生成樣本和正樣本之間的距離:
17、
18、根據(jù)下式計(jì)算生成樣本和負(fù)樣本之間的距離:
19、
20、基于所述距離,計(jì)算三元組損失函數(shù):
21、 ltriplet=max(0, d( e a, e p)- d( e a, e n)- α)
22、其中, α為邊界值;
23、在上述公式中, d( e a, e p)表示生成樣本與正樣本之間的距離,優(yōu)化的目標(biāo)是使該距離最小,以便生成樣本的特征更接近正樣本; d( e a, e n)表示生成樣本與負(fù)樣本之間的距離,優(yōu)化的目標(biāo)是使該距離最大,以便生成樣本的特征與負(fù)樣本有明顯區(qū)分;需確保生成樣本與正樣本之間的距離 d( e a, e p)小于生成樣本與負(fù)樣本之間的距離 d( e a, e n)加上邊界值 α,即 d( e a, e p)< d( e a, e n)+ α,如果 d( e a, e p)已經(jīng)比 d( e a, e n)+ α小,那么損失為0,即模型在這對(duì)樣本上已經(jīng)達(dá)到了理想的區(qū)分效果;否則,損失值為二者的差值,即 d( e a, e p)-[ d( e a, e n)+ α],并通過優(yōu)化使模型拉近生成樣本和正樣本的距離,推遠(yuǎn)生成樣本和負(fù)樣本的距離;
24、計(jì)算得到三元組損失函數(shù)后,通過反向傳播將該損失梯度回傳,更新生成器網(wǎng)絡(luò)的參數(shù);梯度會(huì)基于計(jì)算的三元組損失逐步累積,最終通過優(yōu)化算法調(diào)整生成器網(wǎng)絡(luò)的權(quán)重,使得生成樣本的特征更接近正樣本的特征,同時(shí)遠(yuǎn)離負(fù)樣本的特征。
25、上述生成器網(wǎng)絡(luò) f(·)包括由輸入至輸出依次設(shè)置的輸入層、全連接層、4個(gè)反卷積層和輸出層,其中,全連接層將輸入層的特征圖擴(kuò)展為形狀為4×4×1024的張量,經(jīng)第1個(gè)反卷積層后,其輸出大小為8×8×512,第2個(gè)反卷積層將特征圖調(diào)整為16×16×256,然后經(jīng)第3個(gè)反卷積層輸出32×32×128的特征圖,再由第4個(gè)反卷積層輸出64×64×64的特征圖,最終由輸出層輸出128×128×3的特征圖,并由tanh激活函數(shù)將輸出值歸一化到?[-1,1]?區(qū)間。
26、上述步驟a中,自art?by?ai-神經(jīng)風(fēng)格遷移數(shù)據(jù)集獲取原始圖像,對(duì)所述原始圖像進(jìn)行預(yù)處理后,放入樣本集中。
27、上述步驟b中,在每次訓(xùn)練過程中,對(duì)訓(xùn)練樣本進(jìn)行批量處理。
28、上述步驟b2中,對(duì)源圖像 x進(jìn)行失真處理,包括,對(duì)源圖像 x進(jìn)行顏色失真處理和/或模糊失真處理。
29、上述步驟b3之前,還包括,對(duì)所述目標(biāo)圖像、失真圖像和生成圖像進(jìn)行隨機(jī)裁剪,然后輸入預(yù)訓(xùn)練網(wǎng)絡(luò) ψ(·)。
30、上述步驟b3中,預(yù)訓(xùn)練網(wǎng)絡(luò) ψ(·)采用鑒別器,其處理過程是,將輸入圖像設(shè)定為128×128×3,首先由4×4卷積核、步幅為2、填充為1的第一層卷積層將通道數(shù)增至64,輸出特征圖大小為64×64×64;第二層卷積采用4×4卷積核、步幅為2、填充為1,將通道數(shù)增至128,輸出特征圖大小為32×32×128;隨后,第三層卷積層的通道數(shù)增至256,輸出大小為16×16×256;第四層卷積層通道數(shù)增至512,輸出為8×8×512;第五層卷積將通道數(shù)擴(kuò)展至1024,輸出特征圖大小為4×4×1024;同時(shí),在每層卷積層后均附加leaky?relu?激活函數(shù);接著,鑒別器使用全局平均池化層將4×4×1024的特征圖壓縮為1×1×1024向量;最后,該向量輸入到全連接層,輸出一個(gè)標(biāo)量值,并通過?sigmoid?激活函數(shù),將結(jié)果歸一化到[0,1]區(qū)間。
31、圖像變換旨在將圖像從一種情況/場(chǎng)景轉(zhuǎn)換為另一種情況/場(chǎng)景,例如,將低分辨率轉(zhuǎn)換為高分辨率,將低光照轉(zhuǎn)換為正常光照等。近年的一些基于深度學(xué)習(xí)的方法已經(jīng)取得了顯著的成果,例如justin?johnson(賈斯汀·約翰遜),alexandre?alahi(亞歷山大·阿拉希)和li?fei-fei(李飛飛)所著的刊載于《european?conference?on?computervision》(《歐洲計(jì)算機(jī)視覺會(huì)議》)(2016年)的“perceptual?losses?for?real-time?styletransfer?and?superresolution”(“用于實(shí)時(shí)風(fēng)格遷移和超分辨率的感知損失”)、董超,雷成昌,何凱明和唐曉鷗所著的刊載于《tpami》(《ieee模式分析與機(jī)器智能匯刊(tpami)》)(2015年)的“image?super-resolution?using?deep?convolutional?networks”(“使用深度卷積網(wǎng)絡(luò)的圖像超分辨率”)等。這些工作在轉(zhuǎn)換圖像內(nèi)容方面有所改進(jìn),但轉(zhuǎn)換后的圖像的視覺質(zhì)量往往并不完美,尤其是在人類感知方面。通常來說,人類視覺感知追求逼真的結(jié)果是圖像轉(zhuǎn)換任務(wù)的核心關(guān)注點(diǎn)。以往的感知學(xué)習(xí)方法在經(jīng)驗(yàn)上對(duì)此類任務(wù)很有效,但它們通常依賴于預(yù)訓(xùn)練的分類網(wǎng)絡(luò)來提供特征,這些特征在圖像變換的視覺感知方面不一定是最佳的。
32、基于此,本發(fā)明提出的方法能夠從表征中分離出與感知相關(guān)的維度,通過使用三元組損失來激活相關(guān)維度的感知并抑制不相關(guān)維度,進(jìn)一步的可以解開原始的表示特征以獲得更好的感知質(zhì)量。多任務(wù)的圖像轉(zhuǎn)換任務(wù)的實(shí)驗(yàn)證明了本發(fā)明框架在人類視覺感知方面優(yōu)于使用預(yù)訓(xùn)練網(wǎng)絡(luò)和經(jīng)驗(yàn)設(shè)計(jì)損失的現(xiàn)有方法。
33、采用上述方案后,本發(fā)明主要包含以下三大項(xiàng)內(nèi)容:
34、1)在線對(duì)比學(xué)習(xí)模塊,感知學(xué)習(xí)的優(yōu)越性主要來自其應(yīng)用的預(yù)訓(xùn)練分類網(wǎng)絡(luò)。
35、2)經(jīng)過微調(diào)的特征選擇模塊,通過引入特征選擇層,可以組合來自不同通道的特征,并學(xué)習(xí)使用特征選擇層激活每個(gè)通道的特征。
36、3)面向任務(wù)的分離模塊,引入了面向任務(wù)的分離,從而可以隱式地將每個(gè)感知因素與網(wǎng)絡(luò)分離開來。