本申請(qǐng)涉及校驗(yàn)面部圖像的方法和系統(tǒng),具體地,涉及基于規(guī)范化圖像校驗(yàn)面部圖像的方法和系統(tǒng)。
背景技術(shù):
在自然環(huán)境下獲得的面部圖像會(huì)存在很多個(gè)人內(nèi)在(intra-personal)的變化,諸如在姿態(tài)、照明條件、遮擋和分辨率方面。處理面部圖像的變化是許多面部相關(guān)應(yīng)用中的主要挑戰(zhàn)。
為了處理面部變化,具有多種面部標(biāo)準(zhǔn)化的方法,這些方法從處于許多姿態(tài)和不同光照條件下的面部圖像復(fù)原規(guī)范化視圖形式(具有正面姿態(tài)和中性光照條件)的圖像。面部標(biāo)準(zhǔn)化方法可大體分為兩類:基于3D的面部重建方法和基于2D的面部重建方法?;?D的方法旨在通過3D幾何轉(zhuǎn)換復(fù)原正面姿態(tài)?;?D的方法利用圖形模型推導(dǎo)出正面姿態(tài),這些圖形模型諸如MRF(Markov Random Field,馬爾可夫隨機(jī)場),其中,對(duì)應(yīng)物是從處于不同姿態(tài)的圖像學(xué)習(xí)得到的。上述方法具有一定的限制,諸如捕捉3D數(shù)據(jù)增加了額外的成本和資源,而2D面部分析嚴(yán)重依賴于良好的對(duì)準(zhǔn),然而標(biāo)準(zhǔn)化的結(jié)果往往不平滑。此外,這些方法大部分是基于受控條件下采集的面部圖像而評(píng)估的,該受控條件如采用的3D信息或受控的2D環(huán)境。
因此,為了解決上述問題中的至少一個(gè)或多個(gè),期望提供基于規(guī)范化圖像校驗(yàn)面部圖像的系統(tǒng)和方法,其中,每個(gè)身份的規(guī)范化圖像可被自動(dòng)地選擇或分析,從而使得個(gè)人內(nèi)在的變化得以降低而人與人(inter-person)之間的區(qū)分能力得以維持。
技術(shù)實(shí)現(xiàn)要素:
本申請(qǐng)?zhí)岢隽诵碌拿娌恐亟ňW(wǎng)絡(luò),該面部重建網(wǎng)絡(luò)可從處于任意原始條件下的面部圖像重建出規(guī)范化圖像。這些重建的圖像可顯著降低個(gè)人內(nèi)在的變化而保持人與人之間的區(qū)分能力。此外,該面部重建方法可用于面部校驗(yàn)。
本申請(qǐng)的一方面公開了基于規(guī)范化圖像校驗(yàn)面部圖像的方法。該方法可包括以下步驟:
從一個(gè)身份的多個(gè)面部圖像中獲得具有最小正面測量值的面部圖像以作為身份的代表圖像;
基于所獲得的代表圖像與身份的多個(gè)面部圖像之間的映射確定圖像重建網(wǎng)絡(luò)的參數(shù);
通過具有所確定的參數(shù)的圖像重建網(wǎng)絡(luò)將至少兩個(gè)輸入面部圖像分別重建成相應(yīng)的規(guī)范化圖像;以及
比較所重建的規(guī)范化圖像以校驗(yàn)所重建的規(guī)范化圖像是否屬于同一身份,
其中代表圖像是正面圖像以及正面測量值代表每個(gè)面部圖像的對(duì)稱性和銳度。
本申請(qǐng)的另一方面公開了基于規(guī)范化圖像校驗(yàn)面部圖像的系統(tǒng)。該系統(tǒng)可包括:
獲得單元,配置為從一個(gè)身份的多個(gè)面部圖像中獲得具有最小正面測量值的面部圖像以作為身份的代表圖像;
圖像重建單元,配置為將輸入面部圖像分別重建成相應(yīng)的規(guī)范化圖像;
確定單元,配置為確定圖像重建單元的參數(shù),其中該參數(shù)基于由獲得單元獲得的代表圖像與身份的多個(gè)面部圖像之間的映射確定;以及
比較單元,配置為比較由圖像重建網(wǎng)絡(luò)重建的規(guī)范化圖像以校驗(yàn)所重建的規(guī)范化圖像是否屬于同一身份,
其中代表圖像是正面圖像以及正面測量值代表每個(gè)面部圖像的對(duì)稱性和銳度。
附圖說明
圖1是示出了根據(jù)本申請(qǐng)一個(gè)實(shí)施方式的、基于規(guī)范化圖像校驗(yàn)面部圖像的系統(tǒng)的示意圖。
圖2是示出了根據(jù)本申請(qǐng)另一個(gè)實(shí)施方式的、基于規(guī)范化圖像校驗(yàn)面部圖像的系統(tǒng)的示意圖。
圖3是示出了根據(jù)本申請(qǐng)一個(gè)實(shí)施方式的、基于規(guī)范化圖像校驗(yàn)面部圖像的方法的示意圖。
圖4是示出了根據(jù)本申請(qǐng)一個(gè)實(shí)施方式的圖像重建網(wǎng)絡(luò)的流程的示意圖。
圖5是示出了根據(jù)本申請(qǐng)一個(gè)實(shí)施方式的、圖像校驗(yàn)網(wǎng)絡(luò)的架構(gòu)的示意圖。
具體實(shí)施方式
現(xiàn)在將具體參照在附圖中示出的示例性實(shí)施方式。在適當(dāng)?shù)那闆r下,在全文中使用相同的附圖標(biāo)記表示相同或相似的部件。
圖1是示出了根據(jù)本申請(qǐng)一個(gè)實(shí)施方式的、基于規(guī)范化圖像校驗(yàn)面部圖像的系統(tǒng)100的示意圖。應(yīng)理解,系統(tǒng)100可使用特定的硬件、軟件或其組合來實(shí)現(xiàn)。此外,本發(fā)明的實(shí)施方式可適用于以包含有計(jì)算機(jī)程序代碼的一個(gè)或多個(gè)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)的形式實(shí)現(xiàn)的計(jì)算機(jī)程序產(chǎn)品。在系統(tǒng)100通過軟件實(shí)現(xiàn)的情況下,系統(tǒng)100可包括通用計(jì)算機(jī)、計(jì)算機(jī)群組、主流計(jì)算機(jī)、專用于提供在線內(nèi)容的計(jì)算設(shè)備或者包括以集中或分布式的方式運(yùn)行的一組計(jì)算機(jī)的計(jì)算機(jī)網(wǎng)絡(luò)。
如圖1所示,根據(jù)本申請(qǐng)一個(gè)實(shí)施方式的系統(tǒng)100可包括獲得單元101、確定單元103、圖像重建單元105和比較單元107。
獲得單元101可從身份(identity)的多個(gè)面部圖像獲得具有最小正面測量值的面部圖像以作為該身份的代表圖像,其中,代表圖像是正面圖像,以及正面測量值代表每個(gè)面部圖像的對(duì)稱性和每個(gè)面部圖像的銳度。本文中,圖像的銳度指的是圖像矩陣的秩。
在本申請(qǐng)的實(shí)施方式中,獲得單元101可包括計(jì)算單元(未示出)。計(jì)算單元可計(jì)算多個(gè)面部圖像中的每個(gè)的正面測量值,這將在下文中進(jìn)行討論。這些面部圖像可從現(xiàn)有的面部數(shù)據(jù)庫或者網(wǎng)絡(luò)上采集。在本申請(qǐng)的另一實(shí)施方式中,獲得單元101可包括排序單元(未示出),該排序單元可按照升序或者降序的方式對(duì)計(jì)算單元計(jì)算出的正面測量值進(jìn)行排序。相應(yīng)地,獲得單元101可設(shè)定第一個(gè)面部圖像或最后一個(gè)面部圖像作為身份的代表圖像。
確定單元103可確定圖像重建單元105的參數(shù)。圖像重建單元105可將任何輸入面部圖像重建成相應(yīng)的規(guī)范化圖像,其中,規(guī)范化圖像是處于中性(neutral)照明條件下的正面面部圖像。如圖4所示,圖像重建單元105可通過圖像重建網(wǎng)絡(luò)的形式形成,該圖像重建網(wǎng)絡(luò)可以是多層的神經(jīng)網(wǎng)絡(luò)。在本申請(qǐng)的一個(gè)實(shí)施方式中,圖像重建單元105的參數(shù)可基于由獲得單元101獲得的代表圖像與身份的多個(gè)面部圖像之間的映射來確定。隨后,具有所確定的參數(shù)的圖像重建單元105可將任何輸入面部圖像重建成規(guī)范化圖像。在本申請(qǐng)的另一實(shí)施方式中,確定單元103也可基于身份的面部圖像與該同一身份的由圖像重建網(wǎng)絡(luò)105重建的規(guī)范化圖像之間的轉(zhuǎn)換確定圖像重建網(wǎng)絡(luò)105的參數(shù)。即,確定的步驟和重建的步驟可重復(fù)地執(zhí)行以使得單元105的參數(shù)可被持續(xù)地優(yōu)化。
比較單元107可比較由圖像重建網(wǎng)絡(luò)105重建的規(guī)范化圖像以校驗(yàn)其是否屬于同一身份。在本申請(qǐng)的一個(gè)實(shí)施方式中,圖像重建網(wǎng)絡(luò)105可包括具有多個(gè)層的子網(wǎng)絡(luò),以及確定單元103可基于通過輸入圖像訓(xùn)練集的映射確定圖像重建神經(jīng)網(wǎng)絡(luò)的每層的初步參數(shù),其中,在確定圖像重建神經(jīng)網(wǎng)絡(luò)的每層的初步參數(shù)的期間,子網(wǎng)絡(luò)的前一層的輸出被輸入到子網(wǎng)絡(luò)的當(dāng)前層中;將子網(wǎng)絡(luò)的最后一層的輸出與預(yù)期目標(biāo)比較從而獲得它們之間的誤差;以及基于所獲得的誤差微調(diào)初步參數(shù)以使得圖像重建網(wǎng)絡(luò)的全部參數(shù)具體化。例如,如圖4所示,網(wǎng)絡(luò)包括多個(gè)卷積層、子采樣層和全連接層。下文中將詳細(xì)討論確定的步驟。
在本申請(qǐng)的一個(gè)實(shí)施方式中,如圖2所示,系統(tǒng)100還可包括獲取單元106和圖像校驗(yàn)單元108,其中圖像校驗(yàn)單元108可通過如圖5所示的多層圖像校驗(yàn)神經(jīng)網(wǎng)絡(luò)的形式形成。具體地,獲取單元106可獲取任意兩個(gè)重建的規(guī)范化圖像之間的相似度。圖像校驗(yàn)網(wǎng)絡(luò)108可校驗(yàn)一對(duì)面部圖像是否屬于同一身份。根據(jù)本申請(qǐng)的一個(gè)實(shí)施方式,圖像校驗(yàn)網(wǎng)絡(luò)108的參數(shù)可由確定單元103基于由獲取單元106獲取的任意兩個(gè)重建的規(guī)范化圖像之間的相似度而確定。
在本申請(qǐng)的一個(gè)實(shí)施方式中,系統(tǒng)100還可包括選擇單元(未示出),該選擇單元可分別從重建的規(guī)范化圖像中的每個(gè)中選擇一個(gè)或多個(gè)面部成分以形成一個(gè)或多個(gè)面部成分對(duì),每個(gè)面部成分對(duì)分別包括在規(guī)范化圖像中與同一面部區(qū)域?qū)?yīng)的面部成分。獲取單元106可獲取面部成分對(duì)之間的相似度,以及確定單元103可基于由獲取單元106獲取的面部成分對(duì)之間的相似度確定圖像校驗(yàn)網(wǎng)絡(luò)108的參數(shù)。在本申請(qǐng)的實(shí)施方式中,確定單元103可同時(shí)基于重建的面部圖像之間的相似度以及面部成分對(duì)之間的相似度確定網(wǎng)絡(luò)108的參數(shù)。
在本申請(qǐng)的一個(gè)實(shí)施方式中,系統(tǒng)100可包括一個(gè)或多個(gè)處理器(未示出)。處理器可包括中央處理單元(“CPU”)、圖形處理單元(“GPU”)或其它適當(dāng)?shù)男畔⑻幚碓O(shè)備。根據(jù)使用的硬件類型,處理器可包括一個(gè)或多個(gè)印刷電路板和/或一個(gè)或多個(gè)微處理器芯片。此外,處理器可執(zhí)行計(jì)算機(jī)程序指令的序列以執(zhí)行將在下文中更詳細(xì)地說明的過程1000。
總體而言,本系統(tǒng)具有三個(gè)重要貢獻(xiàn)。第一,就目前可知,可通過僅使用來自原始面部圖像的2D信息重建規(guī)范化面部圖像。提出了一種新的深度重建網(wǎng)絡(luò),其將代表性的面部選擇與面部重建相結(jié)合,展現(xiàn)出了達(dá)到原始面部校驗(yàn)領(lǐng)域的當(dāng)前技術(shù)發(fā)展水平的性能。第二,重建的圖像具有高的質(zhì)量。當(dāng)采用本方法作為標(biāo)準(zhǔn)化步驟時(shí)可證實(shí)對(duì)現(xiàn)有方法具有顯著的改善。第三,可貢獻(xiàn)比LFW數(shù)據(jù)集大6倍的面部數(shù)據(jù)集。
圖3示出了根據(jù)本申請(qǐng)一個(gè)實(shí)施方式的、基于規(guī)范化圖像校驗(yàn)面部圖像的過程1000的流程圖,這將在下文中詳細(xì)討論。
在步驟S1001,可從身份的多個(gè)面部圖像獲得具有最小正面測量值的面部圖像作為身份的代表圖像。
在該步驟,可從諸如現(xiàn)有的圖像數(shù)據(jù)庫或者網(wǎng)絡(luò)中采集身份的多個(gè)面部圖像。該多個(gè)面部圖像處于任意的姿態(tài)和照明條件。隨后,計(jì)算多個(gè)面部圖像中的每個(gè)的正面測量值。隨后可將具有最小值的面部圖像設(shè)定為身份的代表圖像。代表圖像是身份的處于中性照明條件下的正面面部圖像。在本申請(qǐng)的實(shí)施方式中,在計(jì)算出正面測量值之后,可按照降序?qū)@些值排序并將最后一個(gè)設(shè)定為身份的代表圖像??商娲?,在計(jì)算出正面測量值之后,可按照升序?qū)@些值排序并將第一個(gè)設(shè)定為身份的代表圖像。
具體地,從圖像集合Di中采集了身份i的多個(gè)面部圖像,其中,矩陣Υi∈Di表示面部圖像集合Di中的面部圖像。上述正面測量值通過如下公式(1)來描述:
其中Υi∈R2a×2a,λ是常系數(shù),||·||F是Frobenius范數(shù),||·||*表示作為矩陣奇值的總和的核范數(shù),Ρ,Q∈R2a×2a是兩個(gè)常矩陣,其中Ρ=diag([1a,0a])且Q=diag([0a,1a]),其中diag(·)表示對(duì)角矩陣。
公式(1)中的M(Yi)表示身份的面部圖像的對(duì)稱性和銳度。公式(1)中的第一項(xiàng)測量面部的對(duì)稱性,即面部的左半側(cè)與右半側(cè)之間的差異。明顯地,第一項(xiàng)的值越小表示面部越對(duì)稱。公式(1)的第二項(xiàng)測量面部圖像的矩陣的秩。秩是指矩陣中線性獨(dú)立列的最大值。例如,如果面部圖像是模糊的或者是側(cè)臉(背景出現(xiàn)在圖像的另一側(cè),通常作為單色的塊,其尺度類似于“特寫鏡頭”),則線性獨(dú)立列的數(shù)目相對(duì)較小,因此第二項(xiàng)的值(具有負(fù)號(hào))相對(duì)較大。因此,公式(1)的值越小則表示面部越可能是正面視圖、更對(duì)稱、更清晰且?guī)缀鯖]有姿態(tài)變化。通過結(jié)合對(duì)稱性和矩陣的秩的這種測量,可高效地自動(dòng)獲得身份處于中性光照條件下身份的正面圖像。
在步驟S1002,可基于在步驟S1001獲得的代表圖像與身份的多個(gè)面部圖像之間的映射來確定圖像重建網(wǎng)絡(luò)105(如圖4所示)的參數(shù)。
需要注意的是,可針對(duì)任何身份重復(fù)執(zhí)行確定的步驟。例如,在本申請(qǐng)的另一實(shí)施方式中,針對(duì)身份i,可通過稀疏線性組合Yi=αi1Di1+αi2Di2+…+αikDik從圖像集合Di中選出代表圖像Yi,其中Dik是集合Di中的第k個(gè)圖像(本文中,也稱作面部選擇,如圖4所示)。設(shè)定Yi=αiDi,其中αi=[αi1,αi2,…,αik,]是系數(shù)矢量并且期望該系數(shù)矢量是稀疏的。此外,需要增強(qiáng)所選擇出的不同身份的面部圖像之間的不相關(guān)性,這是通過添加正則項(xiàng)來實(shí)現(xiàn)的。這是為了維持重建的正面視圖圖像的區(qū)分能力。因此,面部選擇可通過下式描述:
其中M(Yi)由公式(1)限定。公式(2)中就Y和α而言的優(yōu)化問題不是凸象的。然而,如果Y是固定的,則關(guān)于α的問題就成為了凸象的Lasso問題,而如果α是固定的,則Y的函數(shù)分成了凸象項(xiàng)和凹象項(xiàng),這是負(fù)的核范數(shù)。這可通過CCCP(concave-convex procedure,凹凸程序)求解。
在步驟S1003,至少兩個(gè)輸入面部圖像通過圖像重建網(wǎng)絡(luò)重建成它們的相應(yīng)規(guī)范化圖像。即,圖像重建網(wǎng)絡(luò)可將處于任意姿態(tài)下的任何面部圖像重建成相應(yīng)規(guī)范化圖像,該規(guī)范化圖像是正面的且處于中性照明條件下(本文中也稱作面部復(fù)原,如圖4所示)。具體地,可通過最小化如下所示的損失誤差來重建面部圖像:和
其中i是身份的序號(hào),以及k表示身份i的第k個(gè)樣本,X0和Y分別表示訓(xùn)練圖像和目標(biāo)圖像。W是圖像重建網(wǎng)絡(luò)的一組參數(shù)。
在本申請(qǐng)的實(shí)施方式中,也可基于輸入面部圖像與由網(wǎng)絡(luò)105重建的相應(yīng)規(guī)范化圖像之間的轉(zhuǎn)換確定圖像重建網(wǎng)絡(luò)的參數(shù)。隨后,可通過使用參數(shù)已被確定的圖像重建網(wǎng)絡(luò)重建任何面部圖像。映射是指從一個(gè)矢量到另一個(gè)矢量的轉(zhuǎn)換。本文中,映射可指代依次進(jìn)行的非線性映射,從而將身份的多個(gè)面部圖像的輸入圖像轉(zhuǎn)換成同一身份的規(guī)范化視圖圖像。
如圖4所示,圖像重建網(wǎng)絡(luò)包括多個(gè)卷積層。例如,可存在如圖4所示的3個(gè)層,以及前兩個(gè)卷積層之后跟隨最大池化層以及最后一個(gè)層之后跟隨全連接層。與傳統(tǒng)CNN(convolutional neural network,卷積神經(jīng)網(wǎng)絡(luò))不同(傳統(tǒng)CNN的篩選器共享權(quán)重),該網(wǎng)絡(luò)中的篩選器是局域化的且不共享權(quán)重,這是因?yàn)楸疚闹屑僭O(shè)不同的面部區(qū)域應(yīng)當(dāng)采用不同的特征。應(yīng)注意,雖然圖4中僅以64×64的尺寸示出了輸入X0、輸出(預(yù)測的圖像)以及目標(biāo)Y,但是這些矩陣可以是本領(lǐng)域技術(shù)人員所知的任何尺寸。
再次參照?qǐng)D4,首先所有圖像轉(zhuǎn)換成灰階形式以及它們的照明條件通過本領(lǐng)域所公知的方式修正,因此本文中省略了對(duì)該部分內(nèi)容的詳細(xì)描述。在每個(gè)卷積層,通過學(xué)習(xí)非共享的篩選器來獲得多個(gè)(例如,32個(gè))輸出通道,其中每個(gè)非共享的篩選器例如是5×5的尺寸。子采樣層的單元尺寸是2×2。第l個(gè)卷積層可通過下式描述:
其中和分別表示圖像位置(u,v)處的篩選器和圖像包。p和q是輸入通道和輸出通道的序號(hào)。例如,在第一卷積層,p=1,q=1,...,32。因此,表示在位置(u,v)處的第q個(gè)通道輸出;即,向第l+1層的輸入。σ(x)=max(0,x)是修正的線性函數(shù),以及ο表示元素間的乘積。偏置矢量用b表示。在全連接層,面部圖像通過以下公式重建:
在本申請(qǐng)的實(shí)施方式中,面部選擇和面部復(fù)原可通過結(jié)合公式(2)和公式(3)聯(lián)合學(xué)習(xí)以及通過下式來對(duì)每個(gè)身份單獨(dú)優(yōu)化:
其中γ,τ,λ,η'是正則項(xiàng)的平衡參數(shù)。公式(6)表示每個(gè)所選擇的圖像Yi必須具有正面圖像、維持區(qū)分性以及最小化損失誤差。通過以下步驟迭代地搜索Yi,αi,W的值:
1.固定Yi和W來更新αi:關(guān)于αi,公式(6)變成Lasso問題,其可通過FISTA(fast iterative shrinkage-thresholding algorithm,快速迭代收縮閾值算法)有效地求解。
2.固定αi和W來更新Yi:該問題包括三個(gè)凸象項(xiàng)(Frobenius范數(shù))和一個(gè)凹象項(xiàng)(核范數(shù)),這意味著無法保證得到最優(yōu)解。迭代更新規(guī)則是
其中和是U和V對(duì)第一秩(Yit)列的截?cái)?,其中是的SVD。
3.固定αi和Yi來更新W:由于圖像重建網(wǎng)絡(luò)中的激活函數(shù)而導(dǎo)致該問題是非線性的。該問題可利用SGD(stochastic gradient descent,隨機(jī)梯度下降)進(jìn)行反向傳播來求解。
在本申請(qǐng)的實(shí)施方式中,如以下算法所示的簡單實(shí)用的訓(xùn)練過程設(shè)計(jì)成首先通過使用所有訓(xùn)練樣品估計(jì)W然后為每個(gè)身份選擇目標(biāo),從而加速上述三個(gè)步驟的迭代過程。
輸入:全部身份的面部圖像
輸出:目標(biāo){Yi}和網(wǎng)絡(luò)參數(shù)W
初始化:t=0;通過無監(jiān)管的特征學(xué)習(xí)初始化W;針對(duì)每個(gè)身份
i,設(shè)定作為具有公式(1)的最小值的圖像;
隨后,在步驟S1004,比較在步驟S1002重建的規(guī)范化圖像以校驗(yàn)它們是否屬于同一身份,即,校驗(yàn)分別與規(guī)范化圖像對(duì)應(yīng)的面部圖像是否屬于同一身份。
在本申請(qǐng)的實(shí)施方式中,方法1000還可包括獲取任意兩個(gè)重建的規(guī)范化圖像之間的相似度的步驟以確定圖像校驗(yàn)網(wǎng)絡(luò)的參數(shù),以及該網(wǎng)絡(luò)的架構(gòu)如圖5所示。隨后,具有確定的參數(shù)的圖像校驗(yàn)網(wǎng)絡(luò)可校驗(yàn)重建的規(guī)范化圖像是否屬于同一身份。
在本申請(qǐng)的另一實(shí)施方式中,方法1000還可包括以下步驟:分別從重建的規(guī)范化圖像中的每個(gè)中選擇一個(gè)或多個(gè)面部成分以形成一個(gè)或多個(gè)面部成分對(duì),每個(gè)面部成分對(duì)包括分別與規(guī)范化圖像中的同一面部區(qū)域?qū)?yīng)的面部成分。在本申請(qǐng)的另一實(shí)施方式中,方法100還可包括獲取面部成分對(duì)之間的相似度的步驟以訓(xùn)練圖像校驗(yàn)網(wǎng)絡(luò)的參數(shù)。
根據(jù)本申請(qǐng),圖像校驗(yàn)網(wǎng)絡(luò)開發(fā)成從成對(duì)重建的規(guī)范化面部圖像中學(xué)習(xí)分層特征表現(xiàn)。這些特征對(duì)于面部校驗(yàn)來說是具有魯棒性的,因?yàn)橹亟ǖ膱D像已經(jīng)去除了大的面部變化。其也具有應(yīng)用于其它問題的潛力,諸如面部幻覺、面部素描分析和識(shí)別。
如圖5所示,重建的規(guī)范化圖像可用作圖像校驗(yàn)網(wǎng)絡(luò)的輸入,基于面部成分對(duì)之間的相似度以及重建的規(guī)范化圖像之間的相似度訓(xùn)練圖像校驗(yàn)網(wǎng)絡(luò)的參數(shù)。
參照?qǐng)D5,圖像校驗(yàn)網(wǎng)絡(luò)包括五個(gè)CNN,每個(gè)CNN采用成對(duì)的整個(gè)面部圖像或者面部成分作為輸入,面部成分諸如前額、鼻子、眼睛和嘴。圖5中示出的整個(gè)面部、前額、眼睛、鼻子和嘴的尺寸分別是64×64、22×64、24×64、28×30和20×56。應(yīng)注意,雖然在圖5中將前額、眼睛、鼻子和嘴示作為選擇的面部區(qū)域,但是在本申請(qǐng)中可選擇具有不同尺寸的其它面部區(qū)域。在圖5中示出的圖像校驗(yàn)網(wǎng)絡(luò)中,每個(gè)CNN具有以交替形式布置的兩個(gè)卷積層和兩個(gè)子采樣層。每個(gè)CNN還包括全連接層。類似于圖像重建網(wǎng)絡(luò),不共享卷積層的篩選器。
在圖像校驗(yàn)網(wǎng)絡(luò)中,每個(gè)CNN學(xué)習(xí)面部成分對(duì)或者面部圖像的聯(lián)合表示從而訓(xùn)練CNN的每層的初步參數(shù)。在訓(xùn)練期間,前一層的輸出被輸入到當(dāng)前層中。隨后,最后一層的輸出與預(yù)期目標(biāo)作比較從而獲得誤差。隨后,基于所獲得的誤差,邏輯回歸層微調(diào)初步參數(shù)從而將所有聯(lián)合表示具體化為特征,以預(yù)測兩個(gè)面部圖像是否屬于同一身份。
具體地,對(duì)于圖像校驗(yàn)網(wǎng)絡(luò)的訓(xùn)練,首先通過無監(jiān)管的特征學(xué)習(xí)來訓(xùn)練篩選器。隨后,如本領(lǐng)域所公知的,通過利用SGD(stochastic gradient descent,隨機(jī)梯度下降)進(jìn)行反向傳播來微調(diào)圖像校驗(yàn)網(wǎng)絡(luò)。類似于對(duì)圖像重建網(wǎng)絡(luò)的訓(xùn)練,將反向傳播誤差進(jìn)行反向傳遞以及隨后在每層中更新全連接權(quán)重或篩選器。采用熵誤差而非損失誤差,這是因?yàn)樾枰凑障率筋A(yù)測標(biāo)簽y:
其中是預(yù)測的標(biāo)簽,以及等于1表示輸入圖像屬于同一身份,而0則表示輸入圖像不屬于同一身份。
可使用特定的硬件、軟件或其組合來實(shí)施本申請(qǐng)的實(shí)施方式。此外,本發(fā)明的實(shí)施方式可適用于以包含有計(jì)算機(jī)程序代碼的一個(gè)或多個(gè)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)的形式實(shí)現(xiàn)的計(jì)算機(jī)程序產(chǎn)品。
在以上描述中,為了說明的目的,在單個(gè)實(shí)施方式中結(jié)合了各種方面、步驟或部件。本公開不應(yīng)被解釋成為了所要求保護(hù)的主題而需要全部公開的變型。以下權(quán)利要求并入到該示例性實(shí)施方式的說明書中,其中各個(gè)權(quán)利要求以其自身作為本公開的單獨(dú)的實(shí)施方式。
已經(jīng)示出和描述了本申請(qǐng)的實(shí)施方式及實(shí)施例,并且應(yīng)理解在不背離本申請(qǐng)的范圍的前提下可對(duì)其作出各種其它改變。