本申請涉及一種人臉識別方法和系統(tǒng)。
背景技術(shù):
使用深度神經(jīng)網(wǎng)絡學習有效的深度人臉表示來進行人臉識別,已經(jīng)成為很有前途的人臉識別方法。由于使用了較好的深度網(wǎng)絡結(jié)構(gòu)和監(jiān)督方法,近年來人臉識別的準確度得到了快速提升。deepface算法和deepid算法分別被提出,以通過大量的人臉識別任務去學習身份相關(guān)的人臉特征。deepid2算法通過結(jié)合聯(lián)合人臉身份驗證任務學習深度人臉特征,實現(xiàn)了進一步提升。deepid2+通過對之前的特征提取層增加每層的特征維度和增加聯(lián)合身份驗證監(jiān)督信號的方式,進一步改進了deepid2。deepid2+在一些廣泛評估的人臉識別數(shù)據(jù)集中,取得了目前最好的面部識別結(jié)果。然而,deepid2+的網(wǎng)絡結(jié)構(gòu)仍然與具有交錯卷積和池化層的傳統(tǒng)卷積神經(jīng)網(wǎng)絡相似。
在一般的對象識別領域中,已有一些成功的嘗試改進傳統(tǒng)的卷積神經(jīng)網(wǎng)絡。vgg網(wǎng)絡和googlenet是兩個代表。vgg網(wǎng)絡提出使用小卷積核進行連續(xù)卷積。特別地,它在每兩個池化層之間堆疊了兩層或三層3×3卷積。googlenet將多尺度卷積和池化并入初始創(chuàng)建的單個特征提取層中。為了學習有效的特征,復合卷積層(inceptionlayer)引入1×1卷積,以降低更大卷積之前和池化之后的特征圖的數(shù)量。
技術(shù)實現(xiàn)要素:
在本申請的一個方面,公開了一種人臉識別裝置。該裝置可包括提取器和識別器,提取器具有多個深度特征提取層,這些深度特征提取層從一個或多個輸入圖像中提取識別特征;識別器與提取器電子通信,并基于提取的識別特征識別輸入圖像的人臉圖像。
在本申請的一個實施例中,每個深度特征提取層包括n個多卷積模塊和m個池化模塊,每個n和m都是大于1的整數(shù)。首個多卷積模塊從輸入圖像提取局部特征,且后續(xù)的多卷積模塊從在前的池化模塊輸出的提取特征圖中,提取進一步的局部特征,其中,每個池化模塊從各自的多卷積模塊接收局部特征,并且降低接收到的特征的維度。從所有的提取層獲得的特征被連接成作為識別特征的特征向量。
在本申請的一個實施例中,每個池化模塊被設置在相鄰兩個多卷積模塊之間、在一個多卷積模塊和一個相鄰的多路復合卷積模塊(multi-inceptionmodules)之間,或者在相鄰的兩個多路復合卷積模塊之間。
在本申請的一個實施例中,每個深度特征提取層還包含一個或多個的多路復合卷積模塊。每個多路復合卷積模塊對從在前連接的池化模塊接收的特征執(zhí)行多尺度卷積操作,并降低接收的特征的維度。除了每個深度特征提取層的最后的池化模塊、最后的多卷積模塊、或最后的多路復合卷積模塊以外,在該深度特征提取層中的每個多卷積模塊和多路復合卷積模塊后跟隨有一池化模塊,并且每個池化模塊后跟隨有一多卷積模塊或者一多路復合卷積模塊。
作為示例,每個多路復合卷積模塊可包含多個串接的復合卷積層。每個復合卷積層接收從在前的復合卷積層輸出的特征作為其輸入,并且該復合卷積層被配置為對接收到的特征執(zhí)行多尺度卷積操作和池化操作,以獲得多尺度卷積特征圖和局部恒定的特征圖,且在多尺度卷積操作之前和池化操作之后執(zhí)行1×1卷積操作,以在多尺度卷積操作之前和池化操作之后降低特征圖的維度。獲得的多尺度卷積特征圖和獲得的局部恒定特征圖被堆疊在一起,以形成下一層的輸入特征圖。
具體地,每個復合卷積層包括:一個或多個第一1×1卷積操作層,第一1×1卷積操作層被配置為,接收從在前的特征提取層輸入的特征圖并對接收的特征圖執(zhí)行1×1卷積操作,以壓縮特征圖的數(shù)量;一個或多個多尺度卷積操作層,被配置為,對從各自的1×1卷積操作層接收的壓縮后的特征圖,執(zhí)行n×n卷積操作,以形成多個第一輸出特征圖,其中n>1。一個或多個池化操作層,被配置為,對從在前的復合卷積層輸入的特征圖的局部原始區(qū)域進行池化,以形成局部恒定的特征圖;和一個或多個第二1×1卷積操作層,被配置為,對從池化操作層接收的局部恒定特征圖執(zhí)行1×1卷積操作,以壓縮特征圖的數(shù)量從而獲得多個第二輸出特征圖。一個或多個第三卷積操作層被配置為,從在前的復合卷積層接收輸入特征圖,并且對接收的特征圖執(zhí)行1×1卷積操作,以壓縮特征圖的數(shù)量從而獲得多個第三特征圖。第一特征圖、第二特征圖和第三特征圖被堆疊在一起,以形成用于輸入多個復合卷積層中的后續(xù)復合卷積層的特征圖,或者用于輸入下一個特征提取模塊的特征圖。
在本申請的一個實施例中,每個多卷積模塊可以包括一個或多個串接的卷積層,每個卷積層接收在前卷積層輸出的特征作為其輸入,并且每個卷積層被配置為,對輸入的特征執(zhí)行局部卷積操作,其中,卷積層僅在輸入圖像的局部區(qū)域共享用于卷積操作的神經(jīng)權(quán)重。
在一些實施例中,訓練器可以與提取器執(zhí)行電子通信,以在訓練期間對特征提取單元施加監(jiān)督信號,從而通過將監(jiān)督信號反向傳輸?shù)酱拥亩嗑矸e模塊和池化模塊,或者串接的多卷積模塊、池化模塊和多路復合卷積模塊,調(diào)整深度特征提取層中神經(jīng)權(quán)重。該監(jiān)督信號包括一個識別監(jiān)督信號和一個驗證監(jiān)督信號,其中,識別監(jiān)督信號通過以下方式生成:將任意模塊中從輸入的人臉區(qū)域提取的特征分類為訓練數(shù)據(jù)集中的n個身份之一,并且將分類誤差作為監(jiān)督信號;并且其中,驗證監(jiān)督信號通過以下方式生成:對任意模塊中的分別從兩個輸入人臉圖像提取的特征進行比較,以確定他們是否來自同一個人,并且將驗證誤差作為監(jiān)督信號。根據(jù)本申請,多卷積模塊、池化模塊和多路復合卷積模塊中的每個均接收多個被施加到上述模塊的監(jiān)督信號或者多個從后續(xù)特征提取模塊反向傳輸?shù)谋O(jiān)督信號。這些監(jiān)督信號被聚合,以在訓練期間調(diào)整每個多卷積模塊和多路復合卷積模塊的神經(jīng)權(quán)重。
在本申請中,每個深度特征提取層可以包括不同數(shù)量的多卷積模塊、不同數(shù)量的多路復合卷積模塊、不同數(shù)量的池化模塊和不同數(shù)量的全連接模塊,或者獲取不同輸入人臉區(qū)域以提取特征。
本申請的另一方面,公開一種人臉識別方法,包括:通過具有多個深度特征提取層的提取器從一個或多個輸入圖像提取識別特征;和基于提取的識別特征識別輸入圖像的人臉圖像,其中,每個層包括n個多卷積模塊和m個池化模塊,每個n和m是大于1的整數(shù)。首個多卷積模塊從輸入圖像提取局部特征,后續(xù)的多卷積模塊從在前的池化模塊輸出的提取特征提取進一步的局部特征,其中每個池化模塊從各自的多卷積模塊接收局部特征,并且降低接收的特征的維度。從各提取層獲取的特征被連接成為作為識別特征的特征向量。
在本申請的一個實施例中,每個深度特征提取層還包括一個或多個多路復合卷積模塊,每個多路復合卷積模塊包括多個串接的復合卷積層,所述提取還包括,通過每個復合卷積層對接收的特征執(zhí)行卷積操作,以獲得多尺度卷積特征圖,并且通過上述的每個復合卷積層對接收的特征進行池化操作,以獲得池化的特征圖(即從在前層接收的特征圖的局部區(qū)域進行池化以形成局部恒定的特征圖),其中,獲得的多尺度卷積特征圖和池化的特征圖被堆疊到一起,以形成后續(xù)層的輸入特征圖。
本申請的進一步的實施例中,每個深度特征提取層還包括一個或多個多路復合卷積模塊,每個多路復合卷積模塊包括多個串接的復合卷積層,并且其中,在提取中,每個復合卷積層執(zhí)行:從在前的特征提取層接收輸入特征圖并且在接收的特征圖上執(zhí)行1×1卷積操作,以壓縮特征圖的數(shù)量;對從各自的1×1卷積操作層接收的壓縮后的特征圖,執(zhí)行n×n卷積操作,以形成第一輸出特征圖,其中n>1;對從在前的層接收的特征,執(zhí)行池化操作(即池化來自在前層的輸入特征圖的局部區(qū)域以形成局部恒定的特征圖);對接收自池化操作層的池化后的特征圖執(zhí)行1×1卷積操作,以壓縮特征圖的數(shù)量以便獲得第二輸出特征圖,接收來自在前層的輸入特征圖并且對接收的特征圖執(zhí)行1×1卷積操作,以壓縮特征圖的數(shù)量以便獲得第三特征圖;并且連接第一特征圖、第二特征圖和第三特征圖以形成用于輸入多個復合卷積層中的后續(xù)復合卷積層的特征圖或者輸入下一特征提取模塊的特征圖。
本申請的另一方面,提供一種人臉識別裝置,其可以包括:一個或多個存儲可執(zhí)行組件的存儲器;和一個或多個處理器,連接到存儲器,執(zhí)行可執(zhí)行組件以執(zhí)行裝置的操作,該可執(zhí)行組件包括:
提取組件,具有多個深度特征提取層,深度特征提取層被配置為從一個或多個輸入圖像提取識別特征;和
識別組件,基于提取的識別特征識別輸入圖像的人臉圖像,
其中,每個深度特征提取層包括n個多卷積模塊和m個池化模塊,每個n和m是大于1的整數(shù),
首個多卷積模塊從輸入圖像提取局部特征,后續(xù)的多卷積模塊從在前的池化模塊輸出的提取的特征提取進一步局部特征,其中,每個池化模塊從各自的多卷積模塊接收局部特征,并且降低接收的特征的維度,和
其中,將從各提取層獲得的特征連接成作為識別特征的特征向量。
附圖說明
下面參照附圖描述本發(fā)明的示例性非限制性實施例。附圖是說明性的,通常不按照精確的比例繪制。不同圖上的相同或相似的元件用相同的附圖標記表示。
圖1是示出本公開一些實施例的人臉識別裝置的示意圖;
圖2是示出本公開一些實施例的當以軟件實現(xiàn)時的人臉識別裝置的示意圖;
圖3a和3b是示出圖1中的特征提取單元中的深度特征提取層的兩個示例的兩個示意圖;
圖4a是示出本公開一些實施例的多卷積模塊的結(jié)構(gòu)的示意圖;
圖4b是示出本公開一些實施例的深度特征提取層的多路復合卷積(multi-inception)模塊的示意圖;
圖5是示出本公開一些實施例的多路復合卷積模塊的復合卷積層的結(jié)構(gòu)示意圖;
圖6是示出本公開一些實施例的圖1中所示的訓練器的示意流程圖;
圖7是示出本公開一些實施例的圖1中所示的提取器的流程圖;
圖8是示出本公開一些實施例的圖1中所示的識別器的流程圖;
圖9是示出本公開一些實施例的圖5中所示的復合卷積層的處理的示意流程圖。
具體實施方式
現(xiàn)在將詳細介紹本發(fā)明的一些具體實施例,包括發(fā)明人為實施本發(fā)明而設想的最佳模式。結(jié)合附圖說明具體實施例的示例。雖然結(jié)合具體實施方式描述了本發(fā)明,但是應當理解,不旨在是將本發(fā)明限制于所描述的具體實施例。相反,旨在覆蓋包括在被權(quán)利要求限定的本發(fā)明的精神與范圍內(nèi)的替代方式、變型和等同物。在下面的描述中,闡述了許多具體細節(jié),以提供對本發(fā)明的充分理解。可以在沒有一些或全部具體細節(jié)的情況下實施本發(fā)明。在其他情況下,未詳細描述公知的處理操作,從而不會不必要地模糊本發(fā)明。
本文使用的術(shù)語僅用于描述具體實施例的目的,而不在于限制本發(fā)明。如本文所使用的,單數(shù)形式“一”和“該”也旨在包括復數(shù)形式,除非上下文另有明確指示以外。將進一步理解,當在本說明書中使用時,術(shù)語“包括”指定陳述的特征、整體、步驟、操作、元件和/或部件的存在,但不排除存在或添加一個或多個其它特征、整體、步驟、操作、元件、部件和/或其組合。
如本領域技術(shù)人員將理解的,本發(fā)明可以實現(xiàn)為系統(tǒng)、方法或計算機程序產(chǎn)品。因此,本發(fā)明可以采取完全硬件的實施例、完全軟件的實施例(包括固件、駐件、微代碼等)的形式,或組合軟件和硬件方面的實施例,這些方面在本文中可通常被稱為“電路”、“模塊”或“系統(tǒng)”。此外,本發(fā)明可采用計算機程序產(chǎn)品的形式,在任何有形介質(zhì)中實現(xiàn)該計算機程序產(chǎn)品,在該有形介質(zhì)中存有計算機可用程序代碼。
在以軟件實施下述公開的裝置1000的情況下,裝置1000可包括通用計算機、計算機集群、主流計算機、專用于提供在線內(nèi)容的計算機設備,或者可包括以集中或分布方式操作的一組計算機的計算機網(wǎng)絡。如圖2所示,裝置1000可包括一個或多個處理器(處理器102、104、106等)、存儲器112、存儲設備116、通信接口114和促進裝置1000的各部件之間信息交換的總線。處理器102-106可包括中央處理單元(“cpu”),圖形處理單元(“gpu”)或者其他適合的信息處理裝置。根據(jù)使用的硬件的類型,處理器102-106可包括一個或多個印刷電路板、和/或一個或多個微處理芯片。處理器102-106可執(zhí)行計算機程序指令的序列,以執(zhí)行各種方法或運行后續(xù)將會更加詳細介紹細節(jié)的模塊。
存儲器112除包括其他以外,可包括隨機存取存儲器(“ram”)和只讀存儲器(“rom”)。計算機程序指令可被從存儲器112中存儲、訪問和讀取,以供一個或多個處理器102-106執(zhí)行。例如,存儲器112可存儲一個或多個軟件應用程序。進一步地,存儲器112可存儲整個軟件應用程序或者僅存儲可由處理器102-106執(zhí)行的部分軟件應用程序,以完成用于下述公開的裝置1000的功能。需要注意的是,盡管圖1中僅示出了一個塊,但是存儲器112可包括安裝于中央計算設備上或者安裝于不同計算設備上的多個物理設備。
參照圖1,以硬件實施裝置1000,裝置1000可包括提取器10和識別器20。提取器10被配置有多個深度特征提取層,該深度特征提取層可被形成為神經(jīng)網(wǎng)絡,該神經(jīng)網(wǎng)絡被配置或者被訓練為從一個或多個輸入圖像提取識別特征。識別器20與提取器10進行電子通信,并且根據(jù)提取的識別特征識別輸入圖像的人臉圖像。如下文將要詳細說明的,每個深度特征提取層包括n個多卷積模塊和m個池化模塊,n和m均是大于1的整數(shù)。首個多卷積模塊從輸入圖像提取局部特征,并且后續(xù)的多卷積模塊從在前的池化模塊輸出的提取特征提取進一步的局部特征,其中,每個池化模塊從各自的多卷積模塊接收局部特征并且降低接收的特征的維度。從各提取層獲得的特征被連接成特征向量作為識別特征。另外,裝置1000可還包括用于訓練神經(jīng)網(wǎng)絡的訓練器30。
提取器10
特征提取器10包括多個深度特征提取層。每個深度特征提取層是特征提取模塊的串接。圖7是示出提取器10中的特征提取處理的示意流程圖,該處理包含3個步驟。在步驟101,特征提取器10將輸入人臉圖像分別前向傳播通過每個深度特征提取層。然后,在步驟102,提取器10獲取每個深度特征提取層輸出的表示作為特征。最后在步驟103中,提取器10將所有深度特征提取層的特征連接起來。
在本發(fā)明的一個實施例中,每個深度特征提取層可包括多個多卷積模塊、多個多路復合卷積模塊(multi-inceptionmodule)、多個池化模塊和多個全連接模塊。每個深度特征提取層可包括不同數(shù)量的串接的多卷積模塊、不同數(shù)量的多路復合卷積模塊、不同數(shù)量的池化模塊和不同數(shù)量的全連接模塊,或者可獲取不同的輸入人臉區(qū)域以提取特征。
圖3a示出了提取器10中的特征提取層的一個示例。如圖3a所示,每個深度特征提取層包括交替的多卷積模塊21-1、21-2、21-3、…和池化模塊22-1、22-2、22-3….。為了描述的目的,在圖3a中示出四個多卷積模塊21-1、21-2、21-3和21-4和三個池化模塊22-1、22-2和22-3作為示例。
圖4a是示出每個多卷積模塊21-1、21-2、21-3….的結(jié)構(gòu)示意圖。如圖所示,每個多卷積模塊包含多個串接的卷積層。圖4a示出了卷積層1-3的三個串接的卷積層的示例。然而,在本申請中,多卷積模塊可包括任意數(shù)量的卷積層,例如1個、2個、3個,或者更多。在多卷積模塊僅包含一個卷積層的極端情形中,它降級到傳統(tǒng)的卷積模塊。因此,多卷積模塊是傳統(tǒng)卷積模塊的泛化。同樣地,多路復合卷積模塊包括一個或多個串接的復合卷積層。
多卷積模塊的卷積層配置為,從輸入特征圖(即在前層的輸出特征圖)提取局部人臉特征,以形成當前層的輸出特征圖。具體地,每個卷積層對輸入特征圖執(zhí)行卷積操作,以形成當前層的輸出特征圖,并且形成的輸出特征圖將會被輸入到下一卷積層。
每個特征圖是一種2d的特征。在相同輸出特征圖中的特征或者在相同特征圖的局部區(qū)域中的特征以相同的神經(jīng)網(wǎng)絡權(quán)重集被從輸入特征圖提取。每個卷積層中的卷積操作可被表達為:
其中,
xi和yj分別是第i個輸入特征圖和第j個輸出特征圖;
kij是第i個輸入特征圖和第j個輸出特征圖之間的卷積核;
*表示卷積;
bj是第j個輸出特征圖的偏差;
relu非線性的y=max(0,x)用于神經(jīng)元。convnets的高卷積層中的權(quán)重被局部共享。
r表示共享權(quán)重的局部區(qū)域。在局部區(qū)域r的與整個輸入特征圖一致的極端情形中,卷積變?yōu)槿志矸e。在局部區(qū)域r對應于輸入特征圖的單個像素的另一極端情形中,卷積層降級到局部連接層。
在本申請的又一實施例中,可在復合卷積層(如圖4所示)執(zhí)行1×1卷積操作,通過將輸出特征圖的數(shù)量設置為顯著地小于輸入特征圖的數(shù)量來壓縮特征圖的數(shù)量,下面將會給予說明。
返回圖3a,如圖所示,在每兩個多卷積模塊之間一個池化模塊被嵌入。每個池化模塊22-1、22-2…旨在降低特征維度并且形成更多恒定的特征。
串接多個卷積/復合卷積層的目標是,提取分層的局部特征(即,特征被從輸入圖像或輸入特征的局部區(qū)域提取),其中,通過更高的卷積/復合卷積層提取的特征在輸入圖像上具有更大、更有效的感受野和更復雜的非線性。池化模塊22-1、22-2…被設置為對從在前層的輸入特征圖將局部人臉特征進行池化,以形成當前層的輸出特征圖。每個池化模塊22-1、22-2…從各自的連接的多卷積/多路復合卷積模塊接收特征圖,再降低接收的特征圖的特征維度,并且通過池化操作形成更加恒定的特征,可被公式化為:
其中,在第i個輸出特征圖中的每個神經(jīng)元yi針對第i個輸入特征圖xi中的m×n局部區(qū)域進行池化,s作為步長。
維度被降低的特征圖隨后被輸入到下一個串接的卷積模塊。
如圖3a所示,每個池化模塊另外還跟有全連接模塊23(23-1、23-2和23-3)。在三個全連接模塊21-1、21-2和21-3和最后一個多卷積模塊21-4(多卷積模塊4)中提取的特征被監(jiān)督信號監(jiān)督。在最后一個多卷積模塊21-4中的特征用于人臉識別。
在深度特征提取層中的全連接模塊23-1、23-2、和23-3被配置為,從在前的特征提取模塊提取全局特征(從輸入特征圖的全部區(qū)域提取的特征),即池化模塊22-1、22-2和22-3。全連接層還用作在訓練期間接收監(jiān)督信號的接口,這將會在后面討論。全連接模塊23-1、23-2和23-3通過限制在其中的神經(jīng)元的數(shù)量,還具有如池化模塊22-1、22-2和22-3降低特征維度的功能。全連接模塊23-1、23-2和23-3可被公式化為:
其中,
x表示來自串接的池化模塊的神經(jīng)輸出(特征),
y表示在當前全連接中的神經(jīng)輸出(特征),
w表示在當前特征提取模塊(當前全連接)中的神經(jīng)權(quán)重。在全連接模塊中的神經(jīng)元將在在前的特征提取模塊中的特征進行線性結(jié)合,接著進行relu非線性處理。
在深度特征提取層的最高的模塊中的特征用于人臉識別。這些特征是全局的,并且可捕捉從輸入人臉圖像到他們的身份的更高的非線性映射。作為兩個例子,圖3a中的多卷積模塊4中的特征和圖3b中的全連接模塊4中的特征用于人臉識別,分別用于這兩個圖中所示的兩個深度特征提取層。特征提取單元可包括多個深度特征提取層。所有深度特征提取層中的頂部特征提取模塊中的特征被連接為長特征向量,作為用于人臉識別的最終特征表示??纱嬖趶挠糜谔崛√卣鞯哪K串接分支出來的多個特征提取模塊。圖3a和3b中的全連接模塊1-3是這些模塊的示例。這些分支出的模塊,以及頂部特征提取模塊(提取用于人臉識別的特征),用作在訓練期間接收監(jiān)督信號的接口,這將會在下面進行討論。當訓練完成時,所有分支出的模塊將會被丟棄,并且僅用于為人臉識別提取特征的模塊串接在測試中被保留。
在圖3b中的特征提取層20-2的另一個示例中,該深度特征提取層包括兩個多卷積模塊21-1和21-2,每個多卷積模塊后跟隨有池化模塊22(22-1或者22-2)。多卷積模塊21-1被連接到輸入人臉圖像作為輸入層,并且被配置為,根據(jù)公式1)從輸入圖像提取局部人臉特征(即從輸入圖像的局部區(qū)域提取特征)。
池化模塊22-1被配置為對來自在前層(多卷積模塊21-1)的局部人臉特征進行池化,以形成當前層的輸出特征圖。具體地,池化模塊22-1從各自的連接的卷積模塊接收特征圖,然后降低接收的特征圖的維度,并通過池化操作形成更加恒定的特征,該池化操作通過公式2)被公式化。
然后,串接的多卷積模塊21-2和池化模塊22-2從池化模塊22-1接收特征圖,并且對接收的特征圖分別地執(zhí)行與卷積模塊21-1和池化模塊22-1相同的操作。于此,每個特征圖是以2d組織的某種特征。
如圖3b所示,特征提取層還包括兩個多路復合卷積模塊24-1和24-2,每個多路復合卷積模塊后跟隨有池化模塊22(22-3和22-4)。圖4b示出了每個多路復合卷積模塊24-1和24-2中的三個串接的復合卷積層1-3的示例。串接復合卷積層的目標是,通過結(jié)合多種卷積核尺寸的卷積以及在單層中的局部池化操作,提取多尺度局部特征。通過更高的卷積/復合卷積層提取的特征具有針對輸入圖像的更大、更有效的的感受野和更加復雜的非線性。
如圖5所示,每個復合卷積層包括一個或多個第一1×1卷積操作層241;一個或多個第二1×1卷積操作層242,一個或多個多卷積操作層(n×n卷積,n>1)243,一個或多個池化操作層244,以及一個或多個第三1×1卷積操作層245。1×1卷積操作層241的數(shù)量與多尺度卷積操作層243的數(shù)量一致,并且每個層243與相應的層241連接。第三1×1卷積操作層245的數(shù)量與池化層244的數(shù)量一致。第二1×1卷積操作層242與在前的起始層連接。
1×1卷積層241用于在多卷積操作層243的操作之前和池化操作層244之后使計算更有效率,這將會在下面進行討論。
為了清楚的目的,圖5僅示出了兩個第一1×1卷積操作層241、一個第二1×1卷積操作層242、一個第三1×1卷積操作層245和兩個多尺度卷積操作層243,但是本發(fā)明并不限于此。在圖5所示的示例中,復合卷積層配置通過1×1,3×3,和5×5的尺寸的卷積核進行卷積操作,并且通過公式2進行池化操作。第一1×1卷積層241用于在3×3和5×5卷積之前使計算更有效率。1×1卷積層的輸出特征圖的數(shù)量被設置為比它的輸入特征圖更小。因為3×3和5×5卷積獲取1×1卷積的輸出特征圖作為他們的輸入特征圖,因此3×3和5×5卷積的輸入特征圖的數(shù)量變得更小。通過這種方式,在3×3和5×5卷積中的計算量被顯著的降低。同樣地,池化之后的1×1卷積245幫助減少池化的輸出特征圖的數(shù)量。因為1×1、3×3和5×5卷積的輸出特征圖被連接以形成下一層的輸入特征圖,1×1卷積的輸出特征圖的小數(shù)量減少了輸出特征圖的總數(shù)量,并且因此降低了在下一層的計算量。因卷積核尺寸極小,1×1卷積本身不占用太多的計算量。
圖9是示出本公開一些實施例的如圖5所示的復合卷積層的處理的示意流程圖。在步驟901,每個1×1卷積操作層241操作以從在前層接收輸入特征圖,并且對接收的特征圖執(zhí)行1×1卷積操作,以如前所述,通過公式1)壓縮特征圖的數(shù)量。多尺度卷積操作層243對從各個1×1卷積操作層241接收的壓縮特征圖執(zhí)行n×n卷積操作,以形成多個第一輸出特征圖。
在步驟902,池化操作層244操作以接收來自在前層的輸入特征圖,并且根據(jù)公式2)對接收的特征圖執(zhí)行池化操作。復合卷積層中的池化操作旨在針對輸入特征圖的局部區(qū)域進行池化,以形成前述的局部恒定的特征。然而,為了保持層242,243和245中的輸出特征圖尺寸的一致以便后續(xù)將它們堆疊到一起,復合卷積層的池化可能不降低特征維度,這是通過根據(jù)公式2將步長s設置為1來實現(xiàn)的。第三1×1卷積操作層245操作以對從池化操作層244接收到的特征圖執(zhí)行1×1卷積操作,以如前所述根據(jù)公式1)壓縮特征圖的數(shù)量,從而獲得多個第二輸出特征圖。
在步驟903,第二1×1卷積操作層242操作以從在前層接收輸入特征圖,并且對接收的特征圖執(zhí)行1×1卷積操作,從而根據(jù)公式1)壓縮特征圖的數(shù)量以便獲取多個第三特征圖。
在步驟904,第一特征圖、第二特征圖和第三特征圖被連接,形成用于將這些特征圖輸入給后續(xù)的復合卷積層或輸入給后續(xù)的特征提取模塊。
識別器20
識別器20操作以計算由特征提取器10提取的不同人臉圖像的特征之間的距離,從而確定兩個人臉圖像是否是來自用于人臉驗證的同一身份或者確定是否作為探測人臉圖像的輸入圖像之一屬于與訓練人臉圖像之一相同的身份,訓練人臉圖像包括用于人臉驗證的輸入圖像。圖8是示出識別器20中的識別處理的示意流程圖。在步驟201,識別器20計算通過特征提取器10從不同人臉圖像提取的特征之間的距離。然后在步驟202,識別器20確定兩個人臉圖像是否是來自用于人臉驗證的相同身份,或者,替代地,在步驟203,它確定作為探測人臉圖像的輸入圖像中的一個屬于與訓練人臉圖像之一相同的身份,訓練人臉圖像包括用于人臉驗證的輸入圖像。
在識別器20中,如果兩個人臉圖像的特征距離小于閾值,則被確認屬于同一身份,或者如果探測人臉圖像和訓練人臉圖像之一之間的特征距離相較于探測人臉圖像和所有其他訓練人臉圖像之間的特征距離是最小的,則探測人臉圖像被確定為屬于與該訓練人臉圖像之一相同的身份,其中,由識別器20確定的特征距離可以是歐氏距離(euclideandistances)、聯(lián)合貝葉斯距離(jointbayesiandistances)、余弦距離(cosinedistances)、漢明距離(hammingdistances)或任何其他距離。
本發(fā)明的一個實施例中,聯(lián)合貝葉斯距離用作特征距離。聯(lián)合貝葉斯距離已經(jīng)成為流行的人臉相似度量,其通過求取兩個獨立高斯變量的和表示提取的人臉特征x(減均值之后)
x=μ+ò(4)
其中,μ~n(0,sμ)代表人臉身份,并且ò~n(0,sò)代表本人的變化。聯(lián)合貝葉斯模型給出了給定本人的變化或個人之間的變化,兩個人臉的聯(lián)合概率,p(x1,x2∣hi)和p(x1,x2∣he)。從等式(5)可容易地看出這兩個概率也是變形的高斯,分別為:
和
sμ和sò可從em算法的數(shù)據(jù)中學習到。在測試中,它計算可能性比率
其具有封閉的解且是有效的。
訓練器30
訓練器30用于,通過對特征提取器中的特征提取層中的神經(jīng)元之間的連接輸入最初的權(quán)重、多個識別監(jiān)督信號和多個驗證監(jiān)督信號,更新特征提取器10中的特征提取層(即多卷積模塊,多路復合卷積模塊和全連接模塊的層)中的神經(jīng)元之間的連接的權(quán)重w。訓練器30旨在在深度特征提取層中迭代地尋找最優(yōu)的神經(jīng)權(quán)重集,該最優(yōu)的神經(jīng)權(quán)重集用于提取用于人臉識別的身份相關(guān)特征。
如圖3a和3b所示,在訓練器30中的識別和驗證監(jiān)督信號被同時地施加到特征提取器10中的每個特征提取層中的每個被監(jiān)督的層,并且分別地反向傳輸?shù)捷斎雸D像,以便更新所有串接的特征提取模塊中的神經(jīng)元之間的連接的權(quán)重。
通過將所有被監(jiān)督的層(被選擇用于監(jiān)督的層,它們可以是在多卷積模塊、多路復合卷積模塊、池化模塊或者全連接模塊中的層)的表示分類成n個身份中的一個,在訓練器30中生成識別監(jiān)督信號,其中,分類誤差用作識別監(jiān)督信號。
通過分別地對在每個特征提取模塊中,兩個被比對的人臉圖像的監(jiān)督層表示進行驗證,在訓練器30中生成驗證監(jiān)督信號,以確定兩個被比對的人臉圖像是否屬于相同的身份,其中,驗證誤差用作驗證監(jiān)督信號。給定一對訓練人臉圖像,特征提取器10從每個特征提取模塊中的兩個人臉圖像,分別提取兩個特征向量fi和fj。如果fi和fj是相同身份的人臉圖像,則特征驗證誤差是
圖6是示出訓練器30中的訓練處理的示意流程圖。在步驟301,訓練器30采樣得到兩個人臉圖像,并且將它們分別地輸入到特征提取器10,以在特征提取器10的所有特征提取層中獲得兩個人臉圖像的每個的特征表示。然后,在步驟302,訓練器30通過將在每個被監(jiān)督層中的每個人臉圖像的特征表示分類成多個(n)身份中的一個,計算識別誤差。同時,在步驟303,訓練器30通過分別地驗證在每個被監(jiān)督層中的兩個人臉圖像的特征表示是否來自相同的身份,計算驗證誤差。識別誤差和驗證誤差分別用作識別監(jiān)督信號和驗證監(jiān)督信號。在步驟304,訓練器30同時地將所有識別監(jiān)督信號和驗證監(jiān)督信號反向傳輸給特征提取器10,以便更新特征提取器10中的神經(jīng)元之間的連接的權(quán)重。同時地被施加給被監(jiān)督層識別監(jiān)督信號和驗證監(jiān)督信號(或者誤差)被反向傳輸?shù)酱拥奶卣魈崛∧K,一直到被傳輸?shù)玫捷斎雸D像為止。在反向傳輸之后,從串接的特征提取模塊中的每個層獲取的誤差被累積。根據(jù)誤差的大小,特征提取器10中的神經(jīng)元之間的連接的權(quán)重被更新。最后,在步驟305,訓練器30判斷訓練處理是否收斂,并且如果尚未達到收斂點,則重復執(zhí)行步驟301-304。
盡管已經(jīng)對本發(fā)明的較優(yōu)的實施例進行了說明,但是本領域技術(shù)人員可以在了解基本發(fā)明構(gòu)思之后,對這些示例進行變形或修改。所附權(quán)利要求旨在被考慮為包括優(yōu)選示例,并且所有變形或修改均落入本發(fā)明的范圍內(nèi)。
顯然,在不脫離本發(fā)明的精神和范圍的情況下,本領域技術(shù)人員可以對本發(fā)明進行變形或修改。因此,如果這些變形或修改屬于權(quán)利要求以及等同技術(shù)的范圍,則它們也將落入本發(fā)明的范圍內(nèi)。
所附權(quán)利要求中的所有方法或者步驟以及功能元素的相應的結(jié)構(gòu)、材料、動作和以及等同物意圖包括用于執(zhí)行結(jié)合有其他被明確要求保護的元素中的功能的任何結(jié)構(gòu)、材料或動作。為了說明和描述的目的已對本發(fā)明進行了描述,但這些描述并不意圖是窮盡性的,也不受限于本發(fā)明所公開的形式。在不脫離本發(fā)明的范圍和精神的情況下,許多修改和變形對于本領域普通技術(shù)人員是顯而易見的。選擇和描述了實施例,以便最好地解釋本發(fā)明的原理和實際應用,并且使得本領域普通技術(shù)人員能夠通過適合于所預期的特定用途的各種修改來理解本發(fā)明的各種實施例。