使用卷積神經網絡的面部超分辨率的制作方法
【專利摘要】使用雙通道深度卷積神經網絡(BCNN)的面部超分辨率,其可以自適應地融合兩個通道的信息。在一個示例中,所述BCNN實現為從輸入圖像提取高等級特征。所提取的高等級特征與輸入圖像中的低等級細節(jié)組合,以產生較高分辨率圖像。優(yōu)選地,獲得合適的系數,以自適應地組合所述高等級特征和所述低等級細節(jié)。
【專利說明】
使用卷積神經網絡的面部超分辨率
技術領域
[0001] 本發(fā)明總體上涉及圖像處理,更具體地說,涉及生成較高分辨率面部圖像。
【背景技術】
[0002] 面部識別系統對數字圖像或視頻幀執(zhí)行圖像處理,以自動地標識人。一些面部識 別方法的性能可能極大地取決于面部圖像的分辨率。例如,在標準清晰度監(jiān)控視頻中所捕 獲的可檢測的面部可能僅為12乘12像素或更低的分辨率。這些低分辨率面部圖像可能使得 面部識別和分析的性能降級。為了改進低分辨率面部圖像上的面部識別和分析的性能,執(zhí) 行面部超分辨率以推斷具有更高分辨率的面部圖像。
[0003] 在一種方法中,獲得低等級特征以執(zhí)行面部超分辨率。例如,全局本征面部或局部 紋理片塊的選取已經視為低等級特征。然而,低等級特征典型地對于外表的變化(例如姿 勢、分辨率程度以及運動模糊的變化情況)并非魯棒的。因此,該方法一般受限于在受約束 的條件下重構前面面部圖像。
[0004] 在另一方法中,具有各種姿勢和表情的大規(guī)模高分辨率訓練面部集合用于執(zhí)行面 部超分辨率。例如,基于各種姿勢和表情而生成低分辨率測試面部。然而,于在訓練集合中 未發(fā)現高度相似的面部的情況下,該方法可能不正確地生成較高分辨率面部圖像。此外,因 為模糊的片塊可能并非描述得足夠,所以如果低分辨率面部圖像是模糊的,則該方法中所 執(zhí)行的面部超分辨率可能不正確地工作。
[0005] 在又一方法中,實現面部分量的結構信息,以執(zhí)行面部超分辨率。例如,代替低等 級特征,對于匹配片塊而實現面部分量的結構信息。該方法極大地取決于精確的面部關鍵 點以捕獲結構信息。然而,從低分辨率面部圖像捕獲結構信息是困難的。此外,如果低分辨 率面部圖像是模糊的,則該方法中所執(zhí)行的面部超分辨率可能不正確地工作。
[0006] 因此,出于面部識別和其它目的,需要更好的方法以執(zhí)行面部超分辨率。
【發(fā)明內容】
[0007] 本發(fā)明通過從較低分辨率面部圖像生成較高分辨率面部圖像來克服現有技術的 限制。為了方便,較高分辨率面部圖像可以有時稱為超分辨率面部圖像。一種方法自適應地 組合低等級信息和高等級信息,以重構較高分辨率下的超分辨率面部圖像。從原始輸入面 部圖像推導低等級信息,并且從中間超分辨率面部圖像獲得高等級信息。合成原始輸入圖 像和中間超分辨率面部圖像在最終超分辨率圖像(即輸出面部圖像或所重構的圖像)上產 生改進的精度。
[0008] -個方面包括一種用于從輸入面部圖像生成較高分辨率輸出面部圖像的系統。在 一種方法中,所述系統包括卷積神經網絡(CNN),其生成輸入面部圖像的面部表示。所述CNN 包括卷積層、非線性化層和下采樣層。所述系統還包括面部超分辨率器,其從所述面部表示 生成超分辨率面部圖像。所述超分辨率面部圖像具有比所述輸入面部圖像更高的分辨率。 此外,所述系統包括面部組合器,其將所述超分辨率面部圖像與所述輸入面部圖像的上采 樣版本組合,以產生輸出面部圖像。
[0009] 在示例實現方式中,所述系統包括系數估計器,其從所述面部表示生成系數。在一 種方法中,所述面部組合器生成所述輸出面部圖像作為所述超分辨率面部圖像和所述輸入 面部圖像的上采樣版本的線性組合,其中,所述系數確定所述線性組合。所述系數估計器可 以是從所述面部表示生成所述系數的神經網絡。優(yōu)選地,所述系數估計器是全連接神經網 絡。
[0010] 其它方面包括與前述方面有關的組件、設備、系統、改進、方法、處理、應用和其它 技術。
【附圖說明】
[0011] 本發(fā)明具有當結合附圖時將從本發(fā)明的【具體實施方式】和所附權利要求更容易理 解的其它優(yōu)點和特征,其中:
[0012] 圖1是面部識別系統的簡化示圖。
[0013] 圖2是示例面部合成器模塊的示圖。
[0014] 圖3是示例雙通道卷積神經網絡的示圖。
[0015] 圖4是執(zhí)行面部識別的方法的流程圖。
[0016] 圖5是執(zhí)行面部超分辨率的方法的流程圖。
[0017] 圖6繪制用于不同的高斯模糊的系數a的概率密度函數。
[0018] 圖7示出具有不同的高斯模糊和運動模糊的輸入面部圖像上的各種面部超分辨率 的定性比較。
[0019] 圖8示出關于對低分辨率輸入面部圖像和高分辨率輸出面部圖像執(zhí)行的關鍵點檢 測的示例。
[0020] 圖9A繪制具有高斯模糊的輸入面部圖像和超分辨率面部圖像上的關鍵點檢測的 誤差。
[0021] 圖9B繪制具有運動模糊的輸入面部圖像和超分辨率面部圖像上的關鍵點檢測的 誤差。
[0022] 圖10A是用于比較具有高斯模糊的輸入圖像和超分辨率面部圖像上的面部識別的 性能的柱狀圖。
[0023] 圖10B是用于比較具有運動模糊的輸入圖像和超分辨率面部圖像上的面部識別的 性能的柱狀圖。
[0024] 附圖僅為了說明的目的而描述本發(fā)明實施例。本領域技術人員從以下討論將容易 理解,在不脫離在此所描述的本發(fā)明的原理的情況下,可以采用在此所示的結構的替選實 施例。
【具體實施方式】
[0025] 附圖和以下描述僅通過說明的方式與優(yōu)選實施例有關。應注意,從以下討論,在此 所公開的結構和方法的替選實施例將容易地理解為在不脫離本發(fā)明的原理的情況下可以 采用的可行替選。
[0026] 所公開的面部識別系統和方法執(zhí)行面部超分辨率。在一種方法中,面部超分辨率 是基于合成輸入面部圖像的低等級信息和高等級信息的。在一個方面中,面部超分辨率實 現深度卷積神經網絡(CNN),以從低分辨率輸入圖像推斷較高分辨率圖像。深度CNN被實現 以從輸入圖像提取高等級特征。所提取的高等級特征與輸入圖像中的低等級細節(jié)組合,以 產生較高分辨率圖像。優(yōu)選地,獲得系數,以自適應地組合高等級特征和低等級細節(jié)。該方 法中所執(zhí)行的面部超分辨率能夠處理具有大的外表變化(例如,姿勢、分辨率程度和運動模 糊的變化條件)的圖像,而不依賴于面部關鍵點。
[0027] 面部識別概述
[0028]圖1是根據一個實施例的面部識別系統100的簡化示圖。面部識別系統100接收低 分辨率(例如15乘15像素)下的目標面部圖像110T,并且嘗試識別面部(即,將面部與特定個 體關聯)。面部識別系統100還接收用于已知個體的基準面部圖像110R?;鶞拭娌繄D像110R 可以具有與目標面部圖像110T相比的相同或不同分辨率。如果目標面部圖像110T為低分辨 率,則一般基準面部圖像110R將具有較高分辨率。面部識別系統100執(zhí)行分析以生成度量 150,以指示目標面部圖像110T中的個體是否與基準面部圖像110R中的個體相同。面部識別 系統100可以具有用于不同個體的基準面部圖像110R的大數據庫,并且可以將目標面部圖 像110T與很多不同的基準面部圖像110R進行比較,以關于目標面部圖像110T標識個體。 [0029] 面部識別系統100包括面部合成器模塊120、分析模塊130和處理器140。面部識別 系統100可以還包括關鍵點檢測模塊(未示出),其從面部合成器模塊120的輸出檢測面部關 鍵點。這些模塊中的每一個可以實施為硬件、軟件、固件或其組合。同時,這些模塊執(zhí)行面部 識別并且確定兩個面部圖像110中的主體相同與否。
[0030] 面部合成器模塊120接收低分辨率的目標面部圖像110T作為輸入,并且生成較高 分辨率圖像(g卩,超分辨率圖像)作為輸出。在一種方法中,面部合成器模塊120被實現為雙 通道卷積神經網絡(BCNN),以推斷較高分辨率圖像。在一個方面中,BCNN的一個通道被訓 練,以獲得目標面部圖像110T的中間超分辨率面部圖像,并且BCNN的另一通道被訓練,以獲 得系數。BCNN基于系數而自適應地組合目標面部圖像110T和中間超分辨率面部圖像,以產 生較高分辨率圖像作為輸出。
[0031] 分析模塊130確定基準面部圖像110R中的主體和目標面部圖像110T中的主體是否 匹配。分析模塊130從面部合成器模塊120獲得較高分辨率面部圖像。對于先前可用的面部 圖像,可以預先執(zhí)行面部超分辨率,在此情況下,分析模塊130可以從數據庫檢索超分辨率 圖像。此外,分析模塊130可以基于面部圖像110或超分辨率圖像的表示而生成關于面部圖 像110是否屬于同一主體(人)的度量150。度量150可以用于執(zhí)行面部識別。
[0032] 處理器140運行指令以在面部識別系統100上執(zhí)行面部識別。處理器140從存儲器 (未示出)或外部電路接收指令。指令也可以完全地或至少部分地駐留在處理器140內(例如 處理器的緩存存儲器內)。根據指令,處理器140變換或選擇面部圖像110的部分,以提供給 面部合成器模塊120。此外,處理器140根據指令來操作面部合成器模塊120和分析模塊130, 以執(zhí)行面部識別的核函數。
[0033] 面部超分辨率
[0034]圖2是示例面部合成器模塊120的示圖。面部合成器模塊120接收低分辨率下的輸 入面部圖像205,并且執(zhí)行面部超分辨率,以生成較高分辨率下的輸出面部圖像245。對于給 定的低分辨率(LR)輸入面部圖像2051,面部合成器模塊120生成高分辨率(HR)輸出面部圖 像245/_'(\W'j,其優(yōu)選地接近基本真實(ground truth)'%。在一種方法中,完成該操作以使得 誤差最小化,
[0035] (1)
[0036]其中,W表示面部合成器模塊120的參數,并且f()表示面部合成器模塊120的函數。 [0037]在該示例中,面部合成器模塊120訓練CNN的多個層,以獲得精確的較高分辨率的 輸出面部圖像245。在一個實現方式中,面部合成器模塊120包括至少兩個通道的CNN。也就 是說,其包括雙通道CNN(BCNN)。組合來自通道中的每一個的信息,以產生較高分辨率的輸 出面部圖像245。
[0038]在示例性實施例中,面部合成器模塊120包括上采樣器模塊210、特征提取器模塊 220、圖像超分辨率器模塊230(在此又稱為面部超分辨率器模塊或面部超分辨率器)、系數 估計器模塊240以及面部組合器模塊250。同時,這些模塊形成至少兩個通道的CNN,以生成 輸出面部圖像245。例如,特征提取器模塊220和圖像超分辨率器模塊230形成一個CNN通道, 以生成中間超分辨率面部圖像235。此外,特征提取器模塊220和系數估計器模塊240形成另 一 CNN通道,以生成系數a。面部組合器模塊250進行中間超分辨率面部圖像235與輸入面部 圖像的上采樣版本215的線性組合,以產生輸出面部圖像245。通過系數a來確定相對加權。 這些組件中的每一個可以實施為硬件、軟件、固件或其組合。
[0039]特征提取器模塊220生成輸入面部圖像205的面部表示225。在一種方法中,特征提 取器模塊220被實現為CNNXNN被訓練以從輸入面部圖像205提取特征。在一種方法中,出于 面部超分辨率的目的,特征提取器模塊220訓練網絡,以標識輸入面部圖像205的魯棒全局 結構。例如,特征提取器模塊220提取特征(例如轉角、邊沿、梯度、眼睛、鼻子和嘴)。所提取 的特征用于生成輸入面部圖像205的表示225。
[0040]圖像超分辨率器模塊230從特征提取器模塊220接收面部表示225,并且生成中間 超分辨率面部圖像235。優(yōu)選地,通過全連接神經網絡來實現圖像超分辨率器模塊230。圖像 超分辨率器模塊230和特征提取器模塊220形成第一 CNN通道。中間超分辨率面部圖像235具 有比輸入面部圖像205更高的分辨率。
[0041]特別是如果輸入面部圖像205是糟糕質量的(例如非常低的分辨率或模糊的),則 中間超分辨率面部圖像235可以包括比輸入面部圖像205更多的低等級細節(jié)(例如圖像中的 高頻率或尖銳過渡)。然而,如果輸入面部圖像205具有良好的質量,則特征提取器模塊220 可以過濾掉低等級細節(jié),以標識輸入面部圖像205的魯棒全局結構。因此,在此情況下,中間 超分辨率面部圖像235可以具有比輸入面部圖像205更少的低等級細節(jié)。
[0042]為了補償中間超分辨率面部圖像235的可能瑕疵,面部合成器模塊120計算系數a, 以根據下式來合成與原始輸入面部圖像205和中間超分辨率面部圖像235都有關的信息,以 產生最終輸出面部圖像245:
[0043] /..(V.f) = ?.仏 H'i ??.?)『知吟 (2)
[0044] 在此,4表示低分辨率輸入面部圖像205,W表示面部合成器模塊120中(例如模塊 220、230和240中)的神經網絡的參數。此外,?'('/,,聲〇表示第一 CNN通道從輸入產生的中間超 分辨率圖像235,丨表示上采樣,從而表示輸入圖像的上采樣版本215。第二CNN通道產生 系數a。
[0045]系數估計器模塊240從特征提取器模塊220接收面部表示225,并且生成系數a,以 補償中間超分辨率面部圖像235的任何瑕疵(或利用初始輸入面部圖像中的附加有用信 息)。優(yōu)選地,系數估計器模塊240被實現為全連接神經網絡。系數估計器模塊240和特征提 取器模塊形成第二CNN通道。系數a用于更智能地組合中間超分辨率面部圖像235中所生成 的高等級特征與可以存在于輸入面部圖像205中的低等級細節(jié)。
[0046]關于輸入面部圖像205和中間超分辨率面部圖像235的正確整合,因為中間超分辨 率面部圖像235具有比輸入面部圖像205更高的分辨率,所以上采樣器模塊210對輸入面部 圖像205進行上采樣。優(yōu)選地,上采樣器模塊210對輸入面部圖像205進行上采樣,從而中間 超分辨率面部圖像235的分辨率匹配上采樣的輸入面部圖像205的分辨率。在一個實現方式 中,雙三次插值用于生成上采樣版本。
[0047]面部組合器模塊250組合中間超分辨率面部圖像235與輸入面部圖像的上采樣版 本215,以產生輸出面部圖像245。在一種方法中,面部組合器模塊250生成輸出面部圖像245 作為中間超分辨率面部圖像235和輸入面部圖像的上采樣版本215的線性組合。優(yōu)選地,系 數a確定線性組合。替代地,面部組合器模塊250可以通過非線性方式組合中間超分辨率面 部圖像235與輸入面部圖像的上采樣版本215。替代地并且附加地,面部組合器模塊250可以 組合通過CNN的多個通道所獲得的圖像或信息。
[0048] 圖3是示出面部合成器模塊120中所實現的BCNN的示圖。如圖3所示,特征提取器模 塊220和圖像超分辨率器模塊230形成BCNN的第一通道,特征提取器模塊220和系數估計器 模塊240形成BCNN的第二通道。同時,這些組件實現神經網絡的多個層,以用于生成系數a和 中間超分辨率面部圖像235。
[0049] 為了精確地生成輸出面部圖像2 4 5,對于給定的訓練集合
[0051 ]通過使得公式3中的誤差函數最小化來確定參數W。
[0052]在一種方法中,特征提取器模塊220包括具有從較低等級特征進展到較高等級特 征的級聯的兩個或更多個CNN層的CNN。優(yōu)選地,CNN包括三個CNN層300 (1 )、300 (2)和300 (3) (通常在此稱為CNN層300)。例如,第一 CNN層300(1)可以檢測低等級特征(例如轉角、邊沿和 梯度)。第二CNN層300(2)可以組合這些低等級特征,以提取較高等級特征(例如形狀)。第三 CNN層300(3)可以提取更復雜的結構(例如眼睛、鼻子和嘴)。
[0053]在一個示例實施例中,每個CNN層300包括卷積濾波器310、非線性激活運算器320 以及下采樣層330(例如最大池)。每個CNN層300根據目標函數而被訓練。在其它實施例中, 每個CNN層300可以包括不同的或附加的元件。此外,功能可以通過與在此所描述的不同的 方式分布在各兀件之間。
[0054]在每個CNN層i中,通過將線性濾波器產與先前特征進行卷積并且在卷積濾 波器310中加入偏置項來獲得特征映射/巧。然后,特征映射在非線性激活運算器320中通 過非線性函數(例如tanh)傳輸,并且通過最大池層330被下采樣。m表示層i中的特征映射 的數量,每個特征映射的大小是s lXSl。濾波器大小是^撕,并且池層在每個2x2非重疊子區(qū) 域上選取最大值。運算通過公式4而得以公式化,其中,M表示最大池算子。
[0055] # = M tanh f? + b!j] ) .(4)
[0056] 圖像超分辨率器模塊230和系數估計器模塊240的每個包括全連接神經網絡。因 此,圖像超分辨率器模塊230中的神經網絡形成一個群組,并且系數估計器模塊240中的神 經網絡形成另一群組。例如,圖像超分辨率器模塊230中的兩個神經網絡層340和350形成第 一群組,系數估計器模塊240中的兩個神經網絡層360和370形成第二群組。第一群組和第二 群組中的神經網絡分別生成超分辨率圖像I hal和系數a。群組j中的層i的大小表示為pf# 式5和公式6示出用于每個群組的輸出,其中,和W'f表示群組i中的加權度量。
[0059] 在一種方法中,BCNN通過公式11中的系數a將上采樣的圖像Hin和超分辨率圖像 Ihai線性地組合,其為系統的輸出。
[0060] I〇ut = atlin+(l-a)Ihai (7)
[0061] 系數a可以自適應地被訓練,以接收具有不同質量的輸入面部圖像205。例如,隨著 a接近1,輸出面部圖像2451_近似為上采樣的面部圖像215(即輸入面部圖像的上采樣版 本),這意味著輸入面部圖像205具有高質量并且可以支持足夠的細節(jié)。與之對比,當a接近0 時,輸出近似為中間超分辨率面部圖像235,這意味著輸入面部圖像205具有低質量并且不 能提供有用的紋理。因此,系數a指示輸入面部圖像205的質量。
[0062] 表1提供示例BCNN中的網絡架構的概要。卷積層i的輸出大小表示為mxsixsi,濾波 器大小為ni-ixruxwixwi。群組j中的完全連接的層i的大小是,》丨 x 1,并且對應加權矩陣是
[0063]表1.網絡中的示例實現方式細節(jié)
[0066]在一個實施例中,輸出面部圖像包含輸入面部圖像中的像素數量的至少四倍(即 每個線性維度中的上采樣的兩倍)。優(yōu)選地,輸入面部圖像小于50x50像素,并且輸出面部圖 像是至少100x100像素。也可以使用更小的輸入面部圖像(例如20x20)。
[0067]通過在面部合成器模塊120中實現BCNN,兩個通道的信息得以結合,以生成精確的 輸出面部圖像。BCNN合并輸入圖像的高等級特征和低等級細節(jié)二者,以實現魯棒性和精度。 利用高等級特征允許面部合成器模塊120對于大的外表變化或模糊是魯棒的。利用低等級 細節(jié)使得面部合成器模塊120能夠整合圖像中的具有高頻率或尖銳過渡的局部細節(jié)。通過 訓練神經網絡,兩個通道的信息得以自適應地融合。
[0068] 面部識別的運算
[0069] 圖4示出根據一個實施例的使用面部識別系統100來執(zhí)行面部識別的方法的流程 圖。對面部識別系統100呈現(410)面部圖像。執(zhí)行(420)面部超分辨率,以從較低分辨率輸 入面部圖像205生成較高分辨率輸出面部圖像245。然后使用較高分辨率輸出面部圖像245 來執(zhí)行(430)面部識別。
[0070] 圖5示出執(zhí)行面部超分辨率420的方法的流程圖。面部合成器模塊120接收(510)輸 入面部圖像205。生成(520)輸入面部圖像205的面部表示225。優(yōu)選地,使用卷積神經網絡 (CNN)來生成(520)輸入面部圖像205的面部表示225。從輸入面部圖像205的面部表示生成 (530)中間超分辨率面部圖像235。此外,從面部表示225生成(535)系數a。此外,輸入面部圖 像被上采樣(540)。優(yōu)選地,輸入面部圖像205被上采樣(540 ),從而上采樣的面部圖像215的 分辨率匹配中間超分辨率面部圖像235的分辨率。此外,中間超分辨率面部圖像235與上采 樣的面部圖像215組合(550),以生成輸出面部圖像245。在一種方法中,生成輸出超分辨率 面部圖像245作為中間超分辨率面部圖像235和上采樣的面部圖像215的線性組合,其中,系 數確定線性組合的加權。
[0071]仿真結果
[0072]進行實驗以驗證使用BCNN的面部超分辨率的性能。關于實驗,大量圖像被模糊,以 獲得低分辨率輸入面部圖像。
[0073]使用以下方法獲得低分辨率輸入面部圖像205。設IL和IH表示低分辨率(LR)輸入圖 像205和高分辨率(HR)輸出面部圖像245。從LR輸入圖像205獲得模糊的圖像可以被建模為:
[0074] = ⑶
[0075] 在此,G是模糊內核,?表示卷積運算,丨表示下采樣。
[0076] 在各種類型的模糊內核當中,高斯模糊和運動模糊是用于對圖像中的模糊進行建 模的兩個有效內核。例如,高斯模糊廣泛地出現在圖像中(例如成像系統中的失焦效果或像 差)。高斯模糊可以定義為:
[0078] 其中,〇x,〇y是水平方向和垂直方向上的方差參數,Sg是歸一化常數。
[0079] 運動模糊是對歸因于對象中的運動產生的模糊進行建模的另一常用內核。模糊在 單個方向上行進,并且內核受控于分別表示模糊方向和移動距離的兩個參數9,1,。以常數 Sm,對模糊的圖像進行歸一化:
[0081] 圖6繪制用于不同的高斯模糊量〇 = 〇x = 〇y的系數a的概率密度函數。30,000個圖像 選自具有不同高斯內核的測試集合。模糊的面部圖像的一些示例示出于條帶610、615和620 中。圖6以灰度級示出概率密度。白色表示高概率,黑色表示低概率。圖6示出系數a與高斯方 差相關。隨著方差增加(例如,〇 = 4),輸入面部圖像610變得更模糊,并且用于系數a的概率 密度函數轉變?yōu)閍的較低值。因此,系數a指示輸入面部圖像610具有低質量并且無法提供有 用的紋理。另一方面,隨著方差減少(例如,〇〈0.5),輸入面部圖像620變得更干凈,并且用于 系數a的概率密度函數朝向更大值轉變。因此,系數a指示輸入面部圖像620具有較高質量并 且可以支持足夠的細節(jié)。在示例BCNN中,當輸入面部圖像620實質上不包含模糊(即高斯方 差實質上等于〇)時,系數a的概率密度函數在0.5而非1左右出現峰值。這是因為,甚至在沒 有高斯模糊的情況下,輸入面部圖像205的大小也限制圖像質量。
[0082] 圖7示出具有不同的高斯模糊和運動模糊的輸入面部圖像上的各種面部超分辨率 的定性比較。為了比較,通過對測試圖像執(zhí)行高斯模糊或運動模糊來獲得低分辨率輸入面 部圖像。頂部兩行示出高斯模糊的面部圖像上的各種類型的面部超分辨率的性能。底部兩 行示出運動模糊的面部圖像上的各種類型的面部超分辨率的性能。此外,低分辨率面部圖 像被下采樣為40乘40像素,以模擬野外捕獲的糟糕質量圖像。通過比較PSNR和結構相似度 (SSHO來分析所重構的輸出面部圖像的質量。
[0083]圖7中的各列如下。最左列"輸入"是下采樣的較低分辨率輸入圖像。最右列"基本 真實"是用于生成模糊的并且下采樣的輸入的高分辨率圖像。中間四列是不同類型的面部 超分辨率。從左到右,"SR"是基于超解的。見Yang, J.,Wright, J.,Huang,T. S.,Ma,Y. : Image super-resolution via sparse representation.Image Processing,IEEE Transactions on 19(11)(2010)2861-2873;and Yang,J.,ffright,J.,Huang,T.,Ma,Y.:Image superresolution as sparse representation of raw image patches.In:Computer Vision and Pattern Recognition,2008.CVPR 2008.IEEE Conference on,IEEE(2008)l_8."SFH" is based on another state of the art face hallucination approach.See Yang, C.Y.,Liu,S.,Yang,M.H.:Structured face hallucination.In:Computer Vision and Pattern Recognition(CVPR),2013 IEEE Conference 〇11,比££(2013)1099-1106。"〇順"是 基于純卷積神經網絡的。"BCNN"是上述雙通道卷積神經網絡方法。
[0084]在圖7中,當輸入面部圖像區(qū)別性地被模糊時,傳統面部超分辨率方法(SR和SFH) 失敗?;谄瑝K的方法SR方法無法重構干凈的圖像,因為圖像中的片塊受污染,并且該方法 并不從輸入學習高等級結構。因為在模糊的圖像上無法獲得精確的關鍵點,所以基于關鍵 點的方法SFH方法也無法重構干凈的圖像。
[0085] 表2包含測試集合上的PSNR和SS頂的平均結果。表2示出使用BCNN所執(zhí)行的面部超 分辨率勝過其它方法。
[0086]表2.使用各種方法的面部超分辨率的定性比較
[0089] 使用BCNN的面部超分辨率可以實現為預處理函數,其顯著地改進以下面部應用的 性能。例如,超分辨率面部圖像可以用在面部關鍵點檢測或面部識別中。
[0090] 圖8示出關于對低分辨率輸入面部圖像和高分辨率輸出面部圖像執(zhí)行的關鍵點檢 測的示例。該圖包含12個不同的面部。行810包含使用高斯模糊所獲得的低分辨率輸入面部 圖像。行810中的標記是基于低分辨率圖像而檢測的關鍵點。每個低分辨率圖像810直接之 下是對應超分辨率圖像820。標記示出對高分辨率輸出面部圖像執(zhí)行的關鍵點檢測。對低分 辨率圖像810執(zhí)行的關鍵點檢測無法定位內部面部分量(例如眉毛、眼睛、鼻子和嘴)的精確 位置。然而,對高分辨率圖像820執(zhí)行的關鍵點檢測精確地定位內部面部分量(例如眉毛、眼 睛、鼻子和嘴)。因此,使用BCNN的面部超分辨率改進面部關鍵點檢測的性能。
[0091] 圖9A和圖9B進一步證實使用BCNN的面部關鍵點檢測的改進的性能。圖9A繪制具有 高斯模糊的原始輸入面部圖像和超分辨率輸出面部圖像上的關鍵點檢測的歸一化誤差。相 似地,圖9B繪制具有運動模糊的原始輸入面部圖像和超分辨率輸出面部圖像上的關鍵點檢 測的歸一化誤差。在圖9A和圖9B中,兩個不同分辨率(15乘15、30乘30)的圖像被測試。當關 鍵點檢測器預測關鍵點位置時,計算根均方誤差(RMSE),然后通過眼角之間的距離對RMSE 進行歸一化。在該示例中,關鍵點檢測器描述于Asthana,A.,Zafeiriou,S.,Cheng,S., Pantic,M.:Robust discriminative response map fitting with constrained local models.In:Computer Vision and Pattern Recognition(CVPR),2013IEEE Conference 〇n,IEEE(2013)3444-3451中,但可以使用很多不同類型的關鍵點檢測器。
[0092]在圖9A中,在每個低分辨率圖像上加入具有不同標準差〇 = 1.0、2.0、……、5.0的 標準高斯濾波器(〇x=〇y = 〇),然后關鍵點檢測器基于使用BCNN的面部超分辨率而直接應用 于低分辨率模糊圖像LR和所重構的圖像HR。尤其當圖像在大模糊效果(〇 = 5.0)下或具有非 常低的分辨率(15乘15像素)時,與低分辨率模糊圖像LR上的關鍵點檢測相比,使用BCNN的 所重構的圖像HR上的關鍵點檢測顯著改進關鍵點檢測器的性能。因此,使用BCNN的面部超 分辨率對于處理大的分辨率和模糊的變化是魯棒的。
[0093]在圖9B中,使用運動模糊而非高斯模糊來執(zhí)行相似的測試。在該測試中,相同的方 向0應用于不同的移動距離1。然后,以兩個不同的分辨率來縮放共享同一內核的每個圖像。 如圖9B所示,通過使用BCNN執(zhí)行面部超分辨率來減少歸一化的RMSE。在高斯內核或運動內 核下的所重構的圖像HR上的RMSE是接近的,這指示使用BCNN的面部超分辨率對抗模糊是魯 棒的。
[0094]圖10A和圖10B示出使用BCNN的面部識別中的改進。圖10A是用于比較具有高斯模 糊的原始輸入圖像和超分辨率面部圖像上的面部識別的性能的柱狀圖。相似地,圖10B是用 于比較具有運動模糊的原始輸入圖像和超分辨率面部圖像上的面部識別的性能的柱狀圖。 在這些不例中,面部識別算法描述于Yi,D.,Lei,Z.,Li,S.Z.:Towards pose robust face recognition.In:Computer Vision and Pattern Recognition(CVPR),2013IEEE Conference on, IEEE(2013)3539-3545中,但可以使用很多不同類型的面部識別。
[0095] 在圖10A中,在每個低分辨率圖像上加入具有不同標準差〇 = 1.0、2.0、……、5.0的 標準高斯濾波器(〇x=〇y = 〇),然后基于使用BCNN的面部超分辨率而對低分辨率模糊圖像和 所重構的圖像執(zhí)行面部識別。對于每個方差,存在兩個條形。左條形1010是用于低分辨率模 糊圖像的精度,右條形1020是超分辨率的較高分辨率圖像的精度。如圖10A所示,所重構的 面部圖像上的面部識別的精度1020比低分辨率模糊圖像上的面部識別的精度1010更高。因 此,使用BCNN的面部超分辨率對于處理大的分辨率和模糊的變化是魯棒的。
[0096]在圖10B中,使用運動模糊而非高斯模糊來執(zhí)行相似的測試。在該測試中,相同的 方向0應用于變化的移動距離1。左條形1030是用于低分辨率模糊圖像的精度,右條形1040 是超分辨率的較高分辨率圖像的精度。如圖10B所示,所重構的面部圖像上的面部識別的精 度1040比低分辨率模糊圖像上的面部識別的精度1030更高。因此,通過使用BCNN執(zhí)行面部 超分辨率改進面部識別的精度。
[0097]使用BCNN的面部超分辨率改進關鍵點檢測和面部識別的性能。因此,使用BCNN的 面部超分辨率可以實現為預處理模塊,其顯著地改進以下面部應用的性能。
[0098]雖然【具體實施方式】包含很多特例,但它們不應理解為限制本發(fā)明的范圍,而僅理 解為示出本發(fā)明的不同示例和方面。應理解,本發(fā)明的范圍包括以上未詳細討論的其它實 施例。例如,應理解,可以使用不同的架構。卷積層的數量、濾波器大小、通道的數量的特定 選取、非線性度的選取、下采樣的選取、關鍵點的表示等將取決于應用而變化。在不脫離所 附權利要求中所限定的本發(fā)明的精神和范圍的情況下,可以在本發(fā)明的方法和裝置的布 置、操作和細節(jié)方面進行將對于本領域技術人員清楚的各種其它修改、改變和變形。因此, 本發(fā)明的范圍應由所附權利要求及其法律等同物確定。
[0099]在替選實施例中,在計算機硬件、固件、軟件和/或其組合中實現本發(fā)明??梢栽跈C 器可讀存儲設備中有形地實施的計算機程序產品中實現本發(fā)明的裝置,以用于由可編程處 理器運行;并且運行指令的程序的可編程處理器可以執(zhí)行本發(fā)明的方法步驟,以通過對輸 入數據進行操作并且生成輸出來執(zhí)行本發(fā)明的功能。本發(fā)明可以有利地實現于可在包括耦 合為從數據存儲系統、至少一個輸入設備以及至少一個輸出設備接收數據和指令并且將數 據和指令發(fā)送至其的至少一個可編程處理器的可編程系統上運行的一個或多個計算機程 序中。可以通過高級過程編程語言或面向對象的編程語言或根據期望通過匯編或機器語言 來實現每個計算機程序;并且在任何情況下,語言可以是編譯語言或解釋語言。通過示例的 方式,合適的處理器包括通用微處理器和專用微處理器。通常,處理器將從只讀存儲器和/ 或隨機存取存儲器接收指令和數據。通常,計算機將還包括用于存儲數據文件的一個或多 個海量存儲設備;這些設備包括磁盤(例如內部硬盤和可拆卸盤)、磁光盤以及光盤。適合于 有形地實施計算機程序指令和數據的存儲設備包括所有形式的非易失性存儲器,通過示例 的方式包括半導體存儲器設備(例如EPROM、EEPROM和閃存設備);磁盤(例如內部硬盤和可 拆卸盤);磁光盤;以及⑶-ROM盤。任何前述方面可以由ASIC(專用集成電路)和其它形式的 硬件補充或合并在其中。
[0100]術語"模塊"并非意圖受限于特定物理形式。取決于具體應用,模塊可以實現為硬 件、固件、軟件和/或其組合。此外,不同的模塊可以共享公共組件或甚至由相同組件實現。 不同模塊之間可以存在或不存在清楚的界限。
【主權項】
1. 一種用于從輸入面部圖像生成較高分辨率輸出面部圖像的系統,所述系統包括: 卷積神經網絡(CNN),其生成輸入面部圖像的面部表示,所述CNN包括卷積層、非線性化 層和下采樣層; 面部超分辨率器,其從所述面部表示生成超分辨率面部圖像,所述超分辨率面部圖像 具有比所述輸入面部圖像更高的分辨率;以及 面部組合器,其將所述超分辨率面部圖像與所述輸入面部圖像的上采樣版本組合,以 產生輸出面部圖像。2. 如權利要求1所述的系統,其中,所述面部表示是所述輸入面部圖像中的特征的表 示,并且所述CNN從所述輸入面部圖像提取所述特征。3. 如權利要求2所述的系統,其中,所述CNN包括從較低等級特征進展到較高等級特征 的級聯的兩個或更多個CNN層。4. 如權利要求1所述的系統,其中,所述面部超分辨率器是從所述面部表示生成所述超 分辨率面部圖像的神經網絡。5. 如權利要求4所述的系統,其中,所述面部超分辨率器是全連接神經網絡。6. 如權利要求1所述的系統,還包括: 系數估計器,其從所述面部表示生成系數,其中,所述面部組合器生成所述輸出面部圖 像作為所述超分辨率面部圖像和所述輸入面部圖像的上采樣版本的線性組合,并且所述系 數確定所述線性組合。7. 如權利要求6所述的系統,其中,所述系數估計器是從所述面部表示生成所述系數的 神經網絡。8. 如權利要求7所述的系統,其中,所述系數估計器是全連接神經網絡。9. 如權利要求1所述的系統,其中,所述上采樣是基于雙三次插值的。10. 如權利要求1所述的系統,其中,所述輸出面部圖像包含所述輸入面部圖像中的像 素數量的至少四倍。11. 如權利要求1所述的系統,其中,所述輸出面部圖像是至少100x100像素。12. 如權利要求1所述的系統,其中,所述輸入面部圖像不多于50x50像素。13. 如權利要求1所述的系統,其中,所述輸出圖像具有比所述超分辨率圖像更多的紋 理。14. 如權利要求1所述的系統,其中,所述輸出圖像補償所述輸入圖像中的高斯模糊。15. 如權利要求1所述的系統,其中,所述輸出圖像補償所述輸入圖像中的運動模糊。16. 如權利要求1所述的系統,還包括: 關鍵點檢測模塊,其從所述輸出圖像檢測面部關鍵點。17. 如權利要求1所述的系統,還包括:系數估計器,其從所述面部表示生成系數,其中: 所述系數估計器是全連接神經網絡; 所述面部組合器生成所述輸出面部圖像作為所述超分辨率面部圖像和所述輸入面部 圖像的上采樣版本的線性組合,并且所述系數確定所述線性組合;以及 所述面部超分辨率器是從所述面部表示生成所述超分辨率面部圖像的全連接神經網 絡。18. 如權利要求17所述的系統,其中,所述輸出面部圖像包含所述輸入面部圖像中的像 素數量的至少四倍。19. 一種用于從輸入面部圖像生成較高分辨率輸出面部圖像的方法,所述方法包括: 生成輸入面部圖像的面部表示; 從所述面部表示生成超分辨率面部圖像,所述超分辨率面部圖像具有比所述輸入面部 圖像更高的分辨率; 對所述輸入面部圖像進行上采樣;以及 將所述超分辨率面部圖像與所述上采樣的輸入面部圖像組合,以產生輸出面部圖像, 其中,所述方法是通過一個或多個處理器執(zhí)行的。20. -種非瞬時計算機可讀介質,被配置為存儲程序代碼,所述程序代碼包括用于從輸 入面部圖像生成較高分辨率輸出面部圖像的指令,所述指令當由處理器運行時使得所述處 理器: 生成輸入面部圖像的面部表示; 從所述面部表示生成超分辨率面部圖像,所述超分辨率面部圖像具有比所述輸入面部 圖像更高的分辨率; 對所述輸入面部圖像進行上采樣;以及 將所述超分辨率面部圖像與所述上采樣的輸入面部圖像組合,以產生輸出面部圖像。
【文檔編號】G06T5/00GK105960657SQ201480074939
【公開日】2016年9月21日
【申請日】2014年6月17日
【發(fā)明人】印奇, 曹志敏, 周而進
【申請人】北京曠視科技有限公司