本發(fā)明涉及圖像識別和處理領(lǐng)域,特別涉及基于多區(qū)域特征與度量學(xué)習(xí)的人臉特征識別方法及系統(tǒng)。
背景技術(shù):
人臉識別技術(shù),是基于人的臉部特征,對輸入的人臉圖像或者視頻流.首先判斷其是否存在人臉,如果存在人臉,則進(jìn)一步的給出每個臉的位置、大小和各個主要面部器官的位置信息。并依據(jù)這些信息,進(jìn)一步提取每個人臉中所蘊(yùn)涵的身份特征,并將其與已知的人臉進(jìn)行對比,從而識別每個人臉的身份。人臉識別技術(shù)包含三個部分:1)人臉檢測,2)人臉跟蹤,3)人臉比對。
現(xiàn)有的人臉識別技術(shù)中,一種實(shí)現(xiàn)方式是通過人臉區(qū)域單一尺度/區(qū)域訓(xùn)練提取人臉特征+歐氏距離識別,但缺點(diǎn)是提取的特征的表達(dá)能力有限,人臉識別的準(zhǔn)確率低。另外一種方式是通過人臉多區(qū)域訓(xùn)練提取人臉特征+主成分分析(PCA)降維+聯(lián)合貝葉斯(Joint-Bayesian)方法,但其缺點(diǎn)是識別速度慢。還有一種方式是人臉多區(qū)域提取人臉特征+歐氏距離或余弦距離識別,但其缺點(diǎn)是特征維度高,存儲空間大。
可見,現(xiàn)今的人臉識別系統(tǒng)大多通過對單個或多個人臉區(qū)域利用卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到網(wǎng)絡(luò)的權(quán)重;然后再根據(jù)訓(xùn)練所得網(wǎng)絡(luò)的權(quán)重計算得到人臉特征向量,最后通過對特征向量進(jìn)行處理獲得人臉識別的結(jié)果。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明要解決的技術(shù)問題是,提高了特征的表達(dá)能力和效率,提高了人臉識別的準(zhǔn)確率的基于多區(qū)域特征與度量學(xué)習(xí)的人臉特征識別方法。
解決上述技術(shù)問題,本發(fā)明提供了基于多區(qū)域特征與度量學(xué)習(xí)的人臉特征識別方法,包括如下步驟:
通過對多尺度人臉區(qū)域訓(xùn)練得到相應(yīng)位置與尺度的卷積神經(jīng)網(wǎng)絡(luò)參數(shù),并根據(jù)所述卷積神經(jīng)網(wǎng)絡(luò)參數(shù)提取出人臉對應(yīng)區(qū)域的特征;
對上述特征進(jìn)行篩選,得到高維人臉特征;
根據(jù)所述高維人臉特征進(jìn)行度量學(xué)習(xí),將特征進(jìn)行降維處理得到降維后特征表達(dá),并定義損失函數(shù),通過所述損失函數(shù)訓(xùn)練得到度量學(xué)習(xí)的網(wǎng)絡(luò)模型;
將待識別的圖像輸入所述網(wǎng)絡(luò)模型后將得到的降維后的人臉特征利用歐幾里得距離進(jìn)行識別。
更進(jìn)一步,所述多尺度人臉區(qū)域訓(xùn)練進(jìn)一步包括如下步驟:
對于每一張輸入的人臉圖片進(jìn)行人臉檢測與關(guān)鍵點(diǎn)標(biāo)注,得到人臉框R和N個人臉關(guān)鍵點(diǎn)位置{P1,P2,P3,...,PN};
選取不同位置與尺度的人臉區(qū)域進(jìn)行訓(xùn)練,得到人臉框的不同尺度輸入和不同位置輸入,得到多位置、多尺度的人臉區(qū)域。
具體的選擇方式為:比如以人臉框的中心為參考,將人臉框的尺度分別擴(kuò)大1.3倍、擴(kuò)大1.69倍、縮小1.3倍,并加上原人臉框,構(gòu)成人臉框的4種尺度的輸入;
以27個人臉關(guān)鍵點(diǎn)為中心,向上下左右各擴(kuò)展22個像素,即選取45px×45px的區(qū)域作為27種不同位置的輸入。由此得到了31個多位置、多尺度的人臉區(qū)域。分別用這31個不同的區(qū)域去訓(xùn)練31個卷積神經(jīng)網(wǎng)絡(luò),得到相應(yīng)位置與尺度的卷積神經(jīng)網(wǎng)絡(luò)參數(shù),用來提取人臉對應(yīng)區(qū)域的特征。
優(yōu)選地,對于人臉框的4種尺度輸入,可提取的特征維數(shù)為512;對于由27個特征點(diǎn)確定的27個人臉區(qū)域,可提取的維數(shù)為64。
更進(jìn)一步,根據(jù)所述卷積神經(jīng)網(wǎng)絡(luò)參數(shù)提取出人臉對應(yīng)區(qū)域的特征的方法具體為:
設(shè)人臉圖片測試集的大小為Ntest,對其中的任一張圖片IMGi,進(jìn)行人臉檢測和關(guān)鍵點(diǎn)標(biāo)注,根據(jù)訓(xùn)練過程中的多區(qū)域的人臉選擇,截取對應(yīng)的多個區(qū)域,并分別輸入到對應(yīng)的卷積神經(jīng)網(wǎng)絡(luò)里計算,
對于每張人臉圖片得到多個區(qū)域?qū)?yīng)的特征,分別計算多個特征中的每一個特征對于圖片測試集上Ntest張圖片的識別性能繪制出ROC曲線;
根據(jù)ROC曲線選擇出人臉對應(yīng)區(qū)域的特征,作為度量學(xué)習(xí)需要的特征,并保留對應(yīng)特征區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)參數(shù)用作特征提取。
更進(jìn)一步,根據(jù)所述高維人臉特征進(jìn)行度量學(xué)習(xí)具體包括如下步驟:
設(shè)人臉圖片訓(xùn)練集的大小為Ntrain,對于其中的圖片進(jìn)行人臉檢測和關(guān)鍵點(diǎn)標(biāo)注,根據(jù)所述人臉對應(yīng)區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)參數(shù)計算提取人臉特征,得到數(shù)據(jù)量為Ntrain的高維人臉特征訓(xùn)練集。
記上述特征訓(xùn)練集中樣本的所有類別標(biāo)簽數(shù)量為L,則類別標(biāo)簽的集合為T={t1,t2,...,tL},
在訓(xùn)練集中隨機(jī)選取m個樣本X1={x1,1,x1,2…x1,N},X2={x2,1,x2,2...x2,N},…,Xm={xm,1,xm,2…xm,N},
樣本對應(yīng)的類別標(biāo)簽為:Ybatch={y1,y2,...,ym},yi∈T,i=1,2,...,m
將上述數(shù)據(jù)記為一個訓(xùn)練組,對訓(xùn)練組的m個數(shù)據(jù)加入網(wǎng)絡(luò)中訓(xùn)練記為一個訓(xùn)練輪,一個訓(xùn)練組訓(xùn)練完成記為一輪訓(xùn)練完成,且每一輪訓(xùn)練的m個樣本均是獨(dú)立隨機(jī)選取。
在所述的一訓(xùn)練組中定義集合P和N如下:
P={(i,j)|i≠j且yi=y(tǒng)j,i=1,2,...,m}
N={(i,j)|i≠j且yi≠yj,i=1,2,...,m}
其中,P為所有正樣本對的下標(biāo)的集合,N為所有負(fù)樣本對的下標(biāo)集合。
更進(jìn)一步,將人臉特征進(jìn)行降維處理得到特征表達(dá)后,輸入到訓(xùn)練網(wǎng)絡(luò)中,
設(shè)W1,W2分別為訓(xùn)練網(wǎng)絡(luò)第一層和第二層的權(quán)重,b1,b2分別為第一層和第二層的偏置項(xiàng),激活函數(shù)為g(x)=max(0,x),
在訓(xùn)練批次中,所述訓(xùn)練網(wǎng)絡(luò)第一層的網(wǎng)絡(luò)輸出分別為:
所述訓(xùn)練網(wǎng)絡(luò)第二層的網(wǎng)絡(luò)輸出分別為:
更進(jìn)一步,對所述訓(xùn)練網(wǎng)絡(luò)第一層的網(wǎng)絡(luò),將特征進(jìn)行降維處理得到特征表達(dá)后定義損失函數(shù)的方法具體為:
記為所有類別標(biāo)簽對應(yīng)的特征經(jīng)過第一層網(wǎng)絡(luò)后的輸出U的聚類中心,
每一輪訓(xùn)練前,更新
對于一個訓(xùn)練組的m個樣本,定義第一個度量學(xué)習(xí)的損失函數(shù):
優(yōu)選地,這里需注意對于一個訓(xùn)練組的m個樣本,可能不包含T中所有類別標(biāo)簽。規(guī)定:第n輪訓(xùn)練后的類別標(biāo)簽tk,k=1,2,...,L的聚類中心為且按照以下的規(guī)則進(jìn)行更新:
其中,α為常量。式中δ(x)的定義為:
對所述訓(xùn)練網(wǎng)絡(luò)第二層的網(wǎng)絡(luò),
定義
定義第二個度量學(xué)習(xí)的損失函數(shù):
其中:
式中γ為常量。
更進(jìn)一步,所述對于當(dāng)前訓(xùn)練組,得到總的損失函數(shù)為:L=L1+θ·L2,其中θ為兩者的比例參數(shù),利用上述損失函數(shù),訓(xùn)練一設(shè)定輪數(shù)后保存模型中的參數(shù)W1,b1,作為度量學(xué)習(xí)的網(wǎng)絡(luò)模型。
基于上述本發(fā)明還提供了一種基于所述的人臉特征識別方法的識別系統(tǒng),其特征在于,對于輸入的第一測試圖片和第二測試圖片,所述識別系統(tǒng)被配置為:
S1對其進(jìn)行人臉檢測和關(guān)鍵點(diǎn)識別,選出經(jīng)過選擇的人臉區(qū)域,并加入到卷積神經(jīng)網(wǎng)絡(luò)中計算并歸一化,得到第一測試圖片的高維特征X1和第二測試圖片的高維特征X2;
S2將兩個高維特征X1和X2輸入到度量學(xué)習(xí)算法得到的模型中,得到測試第一測試圖片的降維特征U1和第二測試圖片的降維特征U2;
S3計算U1和U2間的歐式距離為D,將D與判別閾值Th進(jìn)行比較,
S4若D≤Th,則判定兩張人臉測試圖片屬于同一個人;
S5否則這兩個人臉測試圖片不屬于同一個人。
本發(fā)明還提供了基于多區(qū)域特征與度量學(xué)習(xí)的人臉特征識別系統(tǒng),包括:神經(jīng)卷積訓(xùn)練單元、度量學(xué)習(xí)模型單元以及判別單元,
所述神經(jīng)卷積訓(xùn)練單元,用以通過多尺度人臉區(qū)域訓(xùn)練得到相應(yīng)位置與尺度的卷積神經(jīng)網(wǎng)絡(luò)參數(shù),并根據(jù)所述卷積神經(jīng)網(wǎng)絡(luò)參數(shù)提取出人臉對應(yīng)區(qū)域的特征;以及對上述特征進(jìn)行篩選,得到高維人臉特征;
所述度量學(xué)習(xí)模型單元,用以根據(jù)所述高維人臉特征進(jìn)行度量學(xué)習(xí),將特征進(jìn)行降維處理得到特征表達(dá)后定義損失函數(shù),通過所述損失函數(shù)訓(xùn)練得到度量學(xué)習(xí)的網(wǎng)絡(luò)模型;
所述判別單元,用以將待識別的圖像輸入所述網(wǎng)絡(luò)模型后,將人臉特征進(jìn)行降維后利用歐幾里得距離進(jìn)行識別。整套人臉識別系統(tǒng)結(jié)合了多區(qū)域特征選擇與度量學(xué)習(xí),在保證了人臉特征較強(qiáng)的表達(dá)能力的前提下,提高了人臉識別的速度和準(zhǔn)確率。
本發(fā)明的有益效果:
在本發(fā)明的方法,通過多尺度選取多區(qū)域,對卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,提高了特征的表達(dá)能力。同時,通過對獲取的多尺度特征進(jìn)行選擇,提高了特征的表達(dá)效率。此外,通過利用度量學(xué)習(xí)定義的損失函數(shù)對提取的特征,降低了特征的維數(shù)的同時,有效地提高了人臉識別的準(zhǔn)確率。
此外,本發(fā)明的人臉系統(tǒng)首先利用卷積神經(jīng)網(wǎng)絡(luò)提取人臉不同尺度和位置的區(qū)域的特征,并對這些多尺度特征進(jìn)行篩選,選出表達(dá)能力最強(qiáng)的一些特征進(jìn)行組合,形成高維的人臉特征。之后,將已獲得的大量人臉特征通過度量學(xué)習(xí)定義的損失函數(shù)進(jìn)行訓(xùn)練,將人臉特征降維后利用歐幾里得距離進(jìn)行識別。本發(fā)明采用以上技術(shù),在保證人臉識別速度的前提下提高人臉識別的準(zhǔn)確率。
本發(fā)明的識別方法,相對于(多區(qū)域訓(xùn)練+PCA+JointBayesian)速度快,特征表達(dá)能力更強(qiáng)(背景技術(shù)中的單模型訓(xùn)練特征表達(dá)能力差),準(zhǔn)確率高(度量學(xué)習(xí)方法比背景技術(shù)中的直接利用歐氏距離/余弦距離快)
附圖說明
圖1是本發(fā)明一實(shí)施例中的方法流程示意圖;
圖2是圖1中的多尺度人臉區(qū)域訓(xùn)練過程的流程示意圖;
圖3是圖1中的特征選擇過程的流程示意圖;
圖4是降維過程示意圖;
圖5是第一層訓(xùn)練過程示意圖;
圖6是第二層訓(xùn)練過程本示意圖;
圖7度量學(xué)習(xí)訓(xùn)練模型的使用流程示意圖;
圖8本發(fā)明一實(shí)施例中識別系統(tǒng)的操作原理示意圖;
圖9是本發(fā)明一識別圖像的流程示意圖;
圖10是本發(fā)明的識別系統(tǒng)結(jié)構(gòu)示意圖。
具體實(shí)施方式
現(xiàn)在將參考一些示例實(shí)施例描述本公開的原理??梢岳斫猓@些實(shí)施例僅出于說明并且?guī)椭绢I(lǐng)域的技術(shù)人員理解和實(shí)施例本公開的目的而描述,而非建議對本公開的范圍的任何限制。在此描述的本公開的內(nèi)容可以以下文描述的方式之外的各種方式實(shí)施。
如本文中所述,術(shù)語“包括”及其各種變體可以被理解為開放式術(shù)語,其意味著“包括但不限于”。術(shù)語“基于”可以被理解為“至少部分地基于”。術(shù)語“一個實(shí)施例”可以被理解為“至少一個實(shí)施例”。術(shù)語“另一實(shí)施例”可以被理解為“至少一個其它實(shí)施例”。
可以理解,在本實(shí)施例中對以下概念進(jìn)行定義:
所述的卷積神經(jīng)網(wǎng)絡(luò),即一種深度學(xué)習(xí)算法。
所述的度量學(xué)習(xí),即一種特征相似度學(xué)習(xí)的算法。
所述的損失函數(shù),即度量學(xué)習(xí)的優(yōu)化過程中的目標(biāo)函數(shù),優(yōu)化目標(biāo)是使損失函數(shù)盡可能小。
所述的降維包括但不限于,把高維度的特征轉(zhuǎn)化為低維度的特征。
所述的多尺度包括但不限于,既指訓(xùn)練樣本的區(qū)域大小,也指不同長度的特征。
所述的訓(xùn)練包括但不限于,通過已知數(shù)據(jù)進(jìn)行學(xué)習(xí)參數(shù)。
所述的ROC曲線包括但不限于,接收者操作特征曲線,橫坐標(biāo)為偽陽性率(FPR),縱坐標(biāo)為真陽性率(TPR),可以用來評估分類器的性能。
所述的正樣本對包括但不限于,一對類別標(biāo)簽相同的訓(xùn)練樣本。
所述的負(fù)樣本對包括但不限于,一對類別標(biāo)簽不相同的訓(xùn)練樣本。
所述的損失函數(shù)包括但不限于,度量學(xué)習(xí)中用來估量模型預(yù)測值與真實(shí)值的偏離程度,度量函數(shù)的優(yōu)化目標(biāo)是最小化損失函數(shù)。
請參考圖1是本發(fā)明一實(shí)施例中的方法流程示意圖,包括如下的步驟:
步驟S100通過多尺度人臉區(qū)域訓(xùn)練得到相應(yīng)位置與尺度的卷積神經(jīng)網(wǎng)絡(luò)參數(shù),并根據(jù)所述卷積神經(jīng)網(wǎng)絡(luò)參數(shù)提取出人臉對應(yīng)區(qū)域的特征;
步驟S101對上述特征進(jìn)行篩選,得到高維人臉特征;
步驟S102根據(jù)所述高維人臉特征進(jìn)行度量學(xué)習(xí),將特征進(jìn)行降維處理得到特征表達(dá)后定義損失函數(shù),通過所述損失函數(shù)訓(xùn)練得到度量學(xué)習(xí)的網(wǎng)絡(luò)模型;
步驟S103將待識別的圖像輸入所述網(wǎng)絡(luò)模型后,將人臉特征進(jìn)行降維后利用歐幾里得距離進(jìn)行識別。
作為本實(shí)施例中的優(yōu)選,在所述步驟S100中所述多尺度人臉區(qū)域訓(xùn)練進(jìn)一步包括如下步驟:
對于每一張輸入的人臉圖片進(jìn)行人臉檢測與關(guān)鍵點(diǎn)標(biāo)注,得到人臉框R和N個人臉關(guān)鍵點(diǎn)位置{P1,P2,P3,...,PN};
選取不同位置與尺度的人臉區(qū)域進(jìn)行訓(xùn)練,得到人臉框的不同尺度輸入和不同位置輸入,得到多位置、多尺度的人臉區(qū)域。
具體的選擇方式為:以人臉框的中心為參考,將人臉框的尺度分別擴(kuò)大1.3倍、擴(kuò)大1.69倍、縮小1.3倍,并加上原人臉框,構(gòu)成人臉框的4種尺度的輸入;
以27個人臉關(guān)鍵點(diǎn)為中心,向上下左右各擴(kuò)展22個像素,即選取45px×45px的區(qū)域作為27種不同位置的輸入。由此得到了31個多位置、多尺度的人臉區(qū)域。分別用這31個不同的區(qū)域去訓(xùn)練31個卷積神經(jīng)網(wǎng)絡(luò),得到相應(yīng)位置與尺度的卷積神經(jīng)網(wǎng)絡(luò)參數(shù),用來提取人臉對應(yīng)區(qū)域的特征。
這里,對于人臉框的4種尺度輸入,提取的特征維數(shù)為512;對于由27個特征點(diǎn)確定的27個人臉區(qū)域,提取的維數(shù)為64。
作為本實(shí)施例中的優(yōu)選,在所述步驟S100中根據(jù)所述卷積神經(jīng)網(wǎng)絡(luò)參數(shù)提取出人臉對應(yīng)區(qū)域的特征的方法具體為:
設(shè)人臉圖片測試集的大小為Ntest,對其中的任一張圖片IMGi,進(jìn)行人臉檢測和關(guān)鍵點(diǎn)標(biāo)注,根據(jù)訓(xùn)練過程中的多區(qū)域的人臉選擇,截取對應(yīng)的多個區(qū)域,并分別輸入到對應(yīng)的卷積神經(jīng)網(wǎng)絡(luò)里計算,
對于每張人臉圖片得到多個區(qū)域?qū)?yīng)的特征,分別計算多個特征中的每一個特征對于圖片測試集上Ntest張圖片的識別性能繪制出ROC曲線;
根據(jù)ROC曲線選擇出人臉對應(yīng)區(qū)域的特征,作為度量學(xué)習(xí)需要的特征,并保留對應(yīng)區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)參數(shù)用作高維人臉特征提取。
作為本實(shí)施例中的優(yōu)選,進(jìn)一步地步驟S101中根據(jù)所述高維人臉特征進(jìn)行度量學(xué)習(xí)具體包括如下步驟:
根據(jù)所述人臉對應(yīng)區(qū)域
根據(jù)上文方法(3+8)個人臉區(qū)域后,下一步是對獲得的人臉特征進(jìn)行度量學(xué)習(xí),將特征進(jìn)行降維處理并得到更高效的特征表達(dá)。
設(shè)人臉圖片訓(xùn)練集的大小為Ntrain,對于其中的圖片進(jìn)行人臉檢測和關(guān)鍵點(diǎn)標(biāo)注,得到數(shù)據(jù)量為Ntrain的高維人臉特征訓(xùn)練集,
記上述特征訓(xùn)練集中樣本的所有類別標(biāo)簽數(shù)量為L,則類別標(biāo)簽的集合為T={t1,t2,…,tL},
在訓(xùn)練集中隨機(jī)選取m個樣本X1={x1,1,x1,2…x1,N},X2={x2,1,x2,2…x2,N},…,Xm={xm,1,xm,2…xm,N},
樣本對應(yīng)的類別標(biāo)簽為:Ybatch={y1,y2,...,ym},yi∈T,i=1,2,...,m
將上述數(shù)據(jù)記為一個訓(xùn)練組,對訓(xùn)練組的m個數(shù)據(jù)加入網(wǎng)絡(luò)中訓(xùn)練記為一個訓(xùn)練輪,一個訓(xùn)練組訓(xùn)練完成記為一輪訓(xùn)練完成,且每一輪訓(xùn)練的m個樣本均是獨(dú)立隨機(jī)選取。
作為本實(shí)施例中的優(yōu)選,所述步驟S102中通過將特征進(jìn)行降維處理得到特征表達(dá)后定義損失函數(shù)的方法具體為:
在所述的一訓(xùn)練組中定義集合P和N如下:
P={(i,j)|i≠j且yi=y(tǒng)j,i=1,2,...,m}
N={(i,j)|i≠j且yi≠yj,i=1,2,...,m}
其中,P為所有正樣本對的下標(biāo)的集合,N為所有負(fù)樣本對的下標(biāo)集合,設(shè)W1,W2分別為訓(xùn)練網(wǎng)絡(luò)第一層和第二層的權(quán)重,b1,b2分別為第一層和第二層的偏置項(xiàng),激活函數(shù)為g(x)=max(0,x),
在訓(xùn)練批次中,所述訓(xùn)練網(wǎng)絡(luò)第一層的網(wǎng)絡(luò)輸出分別為:
所述訓(xùn)練網(wǎng)絡(luò)第二層的網(wǎng)絡(luò)輸出分別為:
作為本實(shí)施例中的優(yōu)選,所述步驟S102中對所述訓(xùn)練網(wǎng)絡(luò)第一層的網(wǎng)絡(luò),
記為所有類別標(biāo)簽對應(yīng)的特征經(jīng)過第一層網(wǎng)絡(luò)后的輸出U的聚類中心,
每一輪訓(xùn)練前,更新
對于一個訓(xùn)練組的m個樣本,定義第一個度量學(xué)習(xí)的損失函數(shù):
這里需注意對于一個訓(xùn)練組的m個樣本,可能不包含T中所有類別標(biāo)簽。規(guī)定:第n輪訓(xùn)練后的類別標(biāo)簽tk,k=1,2,...,L的聚類中心為且按照以下的規(guī)則進(jìn)行更新:
其中,α為常量。式中δ(x)的定義為:
對所述訓(xùn)練網(wǎng)絡(luò)第二層的網(wǎng)絡(luò),
定義
定義第二個度量學(xué)習(xí)的損失函數(shù):
其中:
式中γ為常量。
作為本實(shí)施例中的優(yōu)選,所述步驟S102中所述對于當(dāng)前訓(xùn)練組,得到總的損失函數(shù)為:L=L1+θ·L2,其中θ為兩者的比例參數(shù),利用上述損失函數(shù),訓(xùn)練一設(shè)定輪數(shù)后保存模型中的參數(shù)W1,b1,作為度量學(xué)習(xí)的網(wǎng)絡(luò)模型。
在本實(shí)施例中,多區(qū)域人臉特征選擇是指:選取不同位置、不同大小的人臉區(qū)域加入到卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練,得到長度不同的特征向量;之后對得到的特征向量進(jìn)行選擇,選取包含信息量最多的部分區(qū)域的特征組成最終輸出的人臉特征向量。度量學(xué)習(xí)通過合理設(shè)計損失函數(shù),對人臉特征向量進(jìn)行訓(xùn)練,可以有效地利用人臉的類別信息對人臉特征進(jìn)行更好的表示。兩者的結(jié)合可以獲取人臉特征更高效的表達(dá),從而提高人臉識別的準(zhǔn)確率。
請參考圖2是圖1中的多尺度人臉區(qū)域訓(xùn)練過程的流程示意圖,對于每一張輸入的人臉圖片,首先進(jìn)行人臉檢測與關(guān)鍵點(diǎn)標(biāo)注,得到人臉框R和27個人臉關(guān)鍵點(diǎn)位置{P1,P2,P3,...,P27}。下一步選取不同位置與尺度的人臉區(qū)域進(jìn)行訓(xùn)練,具體的選擇方式為:以人臉框的中心為參考,將人臉框的尺度分別擴(kuò)大1.3倍、擴(kuò)大1.69倍、縮小1.3倍,并加上原人臉框,構(gòu)成人臉框的4種尺度的輸入;以27個人臉關(guān)鍵點(diǎn)為中心,向上下左右各擴(kuò)展22個像素,即選取45px×45px的區(qū)域作為27種不同位置的輸入。由此得到了31個多位置、多尺度的人臉區(qū)域。分別用這31個不同的區(qū)域去訓(xùn)練31個卷積神經(jīng)網(wǎng)絡(luò),得到相應(yīng)位置與尺度的卷積神經(jīng)網(wǎng)絡(luò)參數(shù),用來提取人臉對應(yīng)區(qū)域的特征。這里,對于人臉框的4種尺度輸入,提取的特征維數(shù)為512;對于由27個特征點(diǎn)確定的27個人臉區(qū)域,提取的維數(shù)為64。
圖3是圖1中的特征選擇過程的流程示意圖,在網(wǎng)絡(luò)訓(xùn)練完成后,接下來需要對獲得的特征進(jìn)行選擇。特征選擇的過程圖3所示,設(shè)人臉圖片測試集的大小為Ntest,對與其中的任一張圖片IMGi,進(jìn)行人臉檢測和關(guān)鍵點(diǎn)標(biāo)注。根據(jù)訓(xùn)練過程中的多區(qū)域的人臉選擇方案,截取對應(yīng)的31個區(qū)域,并分別輸入到對應(yīng)的卷積神經(jīng)網(wǎng)絡(luò)里計算。這樣對于每張人臉圖片,都能得到31個區(qū)域?qū)?yīng)的特征。
下一步,分別計算31個特征中的每一個特征對于圖片測試集上Ntest張圖片的識別性能,畫出ROC曲線。接下來,選擇31個特征中在FPR=0.001的條件下TPR最高的一個或幾個,作為表達(dá)能力最好的特征。
在這里,本是實(shí)施例中選取了3個不同尺度的人臉框(原人臉框、擴(kuò)大1.3倍的人臉框、擴(kuò)大1.69倍的人臉框)以及準(zhǔn)確率最高的8個以人臉關(guān)鍵點(diǎn)為中心選取的45px×45px區(qū)域作為最終提取特征的候選區(qū)域,其余的區(qū)域則丟棄。這樣,這些(3+8)個區(qū)域?qū)?yīng)的卷積神經(jīng)網(wǎng)絡(luò)參數(shù)提取的人臉特征就是度量學(xué)習(xí)需要的特征,從而完成了多區(qū)域人臉特征的選擇,保留選擇的區(qū)域?qū)?yīng)的卷積神經(jīng)網(wǎng)絡(luò)參數(shù)用作后續(xù)的高維人臉特征區(qū)域選擇。
根據(jù)上文方法(3+8)個人臉區(qū)域后,下一步是對獲得的人臉特征進(jìn)行度量學(xué)習(xí),將特征進(jìn)行降維處理并得到更高效的特征表達(dá)。具體的步驟如下:設(shè)人臉圖片訓(xùn)練集的大小為Ntrain,對于其中的圖片,進(jìn)行人臉檢測和關(guān)鍵點(diǎn)標(biāo)注,并按照上文的方法對11個人臉區(qū)域提取特征,并將這些特征連接起來得到度量學(xué)習(xí)的輸入特征,特征維數(shù)為:3×512+8×64=2048。之后對得到的2048維數(shù)據(jù)進(jìn)行歸一化處理,最終得到數(shù)據(jù)量為Ntrain的2048維人臉特征訓(xùn)練集。
記特征訓(xùn)練集中樣本的所有類別標(biāo)簽數(shù)量為L,則類別標(biāo)簽的集合為T={t1,t2,...,tL}。在訓(xùn)練集中隨機(jī)選取m個樣本X1={x1,1,x1,2…x1,2048},X2={x2,1,x2,2...x2,2048},…,Xm={xm,1{xm,2,xm,2048},樣本對應(yīng)的類別標(biāo)簽為
Ybatch={y1,y2,…,ym},yi∈T,i=1,2,...,m
以上的數(shù)據(jù)記為一個訓(xùn)練組,對訓(xùn)練組的m個數(shù)據(jù)加入網(wǎng)絡(luò)中訓(xùn)練記為一個訓(xùn)練輪,一個訓(xùn)練組訓(xùn)練完成記為一輪訓(xùn)練完成。每一輪訓(xùn)練的m個樣本均是獨(dú)立隨機(jī)選取。
在上述的一個訓(xùn)練組中,定義集合P和N如下:
P={(i,j)|i≠j且yi=y(tǒng)j,i=1,2,...,m}
N={(i,j)|i≠j且yi≠yj,i=1,2,...,m}
圖4是降維過程示意圖,根據(jù)定義可以看出,P為所有正樣本對的下標(biāo)的集合,N為所有負(fù)樣本對的下標(biāo)集合。設(shè)W1,W2分別為訓(xùn)練網(wǎng)絡(luò)第一層和第二層的權(quán)重,b1,b2分別為第一層和第二層的偏置項(xiàng),激活函數(shù)為g(x)=max(0,x),根據(jù)圖4可以得到:
在訓(xùn)練批次中,第一層的網(wǎng)絡(luò)輸出分別為:
第二層的網(wǎng)絡(luò)輸出分別為:
如圖5所示是第一層訓(xùn)練過程示意圖,在圖5中:記為所有類別標(biāo)簽對應(yīng)的特征經(jīng)過第一層網(wǎng)絡(luò)后的輸出U的聚類中心。每一輪訓(xùn)練前,會更新這里需注意對于一個訓(xùn)練組的m個樣本,可能不包含T中所有類別標(biāo)簽。規(guī)定:第n輪訓(xùn)練后的類別標(biāo)簽tk,k=1,2,...,L的聚類中心為且按照以下的規(guī)則進(jìn)行更新:
其中,
α為常量。式中δ(x)的定義為:
定義第一個度量學(xué)習(xí)的損失函數(shù):
接下來,如圖6所示是第二層訓(xùn)練過程本示意圖,
其中定義
定義第二個度量學(xué)習(xí)的損失函數(shù):
其中:
式中γ為常量。
因此對于當(dāng)前訓(xùn)練組,可以得到總的損失函數(shù)為:
L=L1+θ.L2
其中θ為兩者的比例參數(shù)。利用上述的損失函數(shù),訓(xùn)練一定的輪數(shù)后,保存模型參數(shù)W1,b1,作為度量學(xué)習(xí)的網(wǎng)絡(luò)模型。
使用模型時的流程如圖7所示度量學(xué)習(xí)訓(xùn)練模型的使用流程示意圖。
在圖中對于兩張測試圖片1和2,首先對其進(jìn)行人臉檢測和關(guān)鍵點(diǎn)識別,選出經(jīng)過選擇的人臉區(qū)域,并加入到卷積神經(jīng)網(wǎng)絡(luò)中計算并歸一化,得到測試圖片1的2048維特征X1和測試圖片2的2048維特征X2。之后將兩個特征X1和X2輸入到度量學(xué)習(xí)算法得到的模型中,得到測試圖片1的256維特征U1和測試圖片2的256維特征U2。之后計算U1和U2間的歐式距離為D。將D與判別閾值Th進(jìn)行比較,若D≤Th,則判定兩張人臉測試圖片屬于同一個人;否則這兩個人臉測試圖片不屬于同一個人。其中,判別閾值的確定需要按上述方法,得到大量含有人臉標(biāo)簽信息的人臉圖片中任意兩個256維的特征向量的歐式距離,并根據(jù)計算所有得到的歐式距離,得到最佳的判別閾值Th。
圖8本發(fā)明一實(shí)施例中識別系統(tǒng)的操作原理示意圖;
對于每一張輸入的人臉圖片,首先進(jìn)行人臉檢測與關(guān)鍵點(diǎn)標(biāo)注,得到人臉框R和27個人臉關(guān)鍵點(diǎn)位置{P1,P2,P3,...,P27}。
下一步選取不同位置與尺度的人臉區(qū)域進(jìn)行訓(xùn)練,具體的選擇方式為:以人臉框的中心為參考,將人臉框的尺度分別擴(kuò)大1.3倍、擴(kuò)大1.69倍、縮小1.3倍,并加上原人臉框,構(gòu)成人臉框的4種尺度的輸入;以27個人臉關(guān)鍵點(diǎn)為中心,向上下左右各擴(kuò)展22個像素,即選取45px×45px的區(qū)域作為27種不同位置的輸入。
由此得到了31個多位置、多尺度的人臉區(qū)域。分別用這31個不同的區(qū)域去訓(xùn)練31個卷積神經(jīng)網(wǎng)絡(luò),得到相應(yīng)位置與尺度的卷積神經(jīng)網(wǎng)絡(luò)參數(shù),用來提取人臉對應(yīng)區(qū)域的特征。這里,對于人臉框的4種尺度輸入,提取的特征維數(shù)為512;對于由27個特征點(diǎn)確定的27個人臉區(qū)域,提取的維數(shù)為64。
在網(wǎng)絡(luò)訓(xùn)練完成后,接下來需要對獲得的特征進(jìn)行選擇,設(shè)人臉圖片測試集的大小為Ntest,對與其中的任一張圖片IMGi,進(jìn)行人臉檢測和關(guān)鍵點(diǎn)標(biāo)注。根據(jù)訓(xùn)練過程中的多區(qū)域的人臉選擇方案,截取對應(yīng)的31個區(qū)域,并分別輸入到對應(yīng)的卷積神經(jīng)網(wǎng)絡(luò)里計算。這樣對于每張人臉圖片,都能得到31個區(qū)域?qū)?yīng)的特征。下一步,分別計算31個特征中的每一個特征對于圖片測試集上Ntest張圖片的識別性能,畫出ROC曲線。接下來,選擇31個特征中在FPR=0.001的條件下TPR最高的一個或幾個,作為表達(dá)能力最好的特征。在這里,選取了3個不同尺度的人臉框(原人臉框、擴(kuò)大1.3倍的人臉框、擴(kuò)大1.69倍的人臉框)以及準(zhǔn)確率最高的8個以人臉關(guān)鍵點(diǎn)為中心選取的45px×45px區(qū)域作為最終提取特征的候選區(qū)域,其余的區(qū)域則丟棄。這樣,這些(3+8)個區(qū)域?qū)?yīng)的卷積神經(jīng)網(wǎng)絡(luò)參數(shù)提取的人臉特征就是度量學(xué)習(xí)需要的特征,從而完成了多區(qū)域人臉特征的選擇。
根據(jù)上文方法(3+8)個人臉區(qū)域后,下一步是對獲得的人臉特征進(jìn)行度量學(xué)習(xí),將特征進(jìn)行降維處理并得到更高效的特征表達(dá)。具體的步驟如下:設(shè)人臉圖片訓(xùn)練集的大小為Ntrain,對于其中的圖片,進(jìn)行人臉檢測和關(guān)鍵點(diǎn)標(biāo)注,并按照上文的方法對11個人臉區(qū)域提取特征,并將這些特征連接起來得到度量學(xué)習(xí)的輸入特征,特征維數(shù)為:3×512+8×64×2048。之后對得到的2048維數(shù)據(jù)進(jìn)行歸一化處理,最終得到數(shù)據(jù)量為Ntrain的2048維人臉特征訓(xùn)練集。
記特征訓(xùn)練集中樣本的所有類別標(biāo)簽數(shù)量為L,則類別標(biāo)簽的集合為T={t1,t2,...,tL}。在訓(xùn)練集中隨機(jī)選取m個樣本X1={x1,1,x1,2…x1,2048},X2={x2,1,x2,2…x2,2048},…,Xm={xm,1,xm,2…xm,2048},樣本對應(yīng)的類別標(biāo)簽為
Ybatch={y1,y2,...,ym},yi∈T,i=1,2,...,m
以上的數(shù)據(jù)記為一個訓(xùn)練組,對訓(xùn)練組的m個數(shù)據(jù)加入網(wǎng)絡(luò)中訓(xùn)練記為一個訓(xùn)練輪,一個訓(xùn)練組訓(xùn)練完成記為一輪訓(xùn)練完成。每一輪訓(xùn)練的m個樣本均是獨(dú)立隨機(jī)選取。
在上述的一個訓(xùn)練組中,定義集合P和N如下:
P={(i,j)|i≠j且yi=y(tǒng)j,i=1,2,...,m}
N={(ij)|i≠j且yi≠yj,i=1,2,...,m}
根據(jù)定義可以看出,P為所有正樣本對的下標(biāo)的集合,N為所有負(fù)樣本對的下標(biāo)集合。設(shè)W1,W2分別為訓(xùn)練網(wǎng)絡(luò)第一層和第二層的權(quán)重,b1,b2分別為第一層和第二層的偏置項(xiàng),激活函數(shù)為g(x)=max(0,x),可以得到:
在訓(xùn)練批次中,第一層的網(wǎng)絡(luò)輸出分別為:
第二層的網(wǎng)絡(luò)輸出分別為:
記為所有類別標(biāo)簽對應(yīng)的特征經(jīng)過第一層網(wǎng)絡(luò)后的輸出U的聚類中心。每一輪訓(xùn)練前,會更新這里需注意對于一個訓(xùn)練組的m個樣本,可能不包含T中所有類別標(biāo)簽。規(guī)定:第n輪訓(xùn)練后的類別標(biāo)簽tk,k=1,2,...,L的聚類中心為且按照以下的規(guī)則進(jìn)行更新:
其中,α為常量。式中δ(x)的定義為:
定義第一個度量學(xué)習(xí)的損失函數(shù):
接下來,定義
定義第二個度量學(xué)習(xí)的損失函數(shù):
其中:
式中γ為常量
因此對于當(dāng)前訓(xùn)練組,可以得到總的損失函數(shù)為:
L=L1+θ·L2
其中θ為兩者的比例參數(shù)。
利用上述的損失函數(shù),訓(xùn)練一定的輪數(shù)后,保存模型參數(shù)W1,b1,作為度量學(xué)習(xí)的網(wǎng)絡(luò)模型。
圖9是本發(fā)明一識別圖像的流程示意圖;對于輸入的第一測試圖片和第二測試圖片,所述識別系統(tǒng)被配置為:
步驟S1對其進(jìn)行人臉檢測和關(guān)鍵點(diǎn)識別,選出經(jīng)過選擇的人臉區(qū)域,并加入到卷積神經(jīng)網(wǎng)絡(luò)中計算并歸一化,得到第一測試圖片的高維特征X1和第二測試圖片的高維特征X2;
步驟S2將兩個高維特征X1和X2輸入到度量學(xué)習(xí)算法得到的模型中,得到測試第一測試圖片的降維特征U1和第二測試圖片的降維特征U2;
步驟S3計算U1和U2間的歐式距離為D,將D與判別閾值Th進(jìn)行比較,
步驟S4若D≤Th,則判定兩張人臉測試圖片屬于同一個人;
步驟S5否則這兩個人臉測試圖片不屬于同一個人。
圖10是本發(fā)明的識別系統(tǒng)結(jié)構(gòu)示意圖,基于多區(qū)域特征與度量學(xué)習(xí)的人臉特征識別系統(tǒng),包括:神經(jīng)卷積訓(xùn)練單元1、度量學(xué)習(xí)模型單元2以及判別單元3,所述神經(jīng)卷積訓(xùn)練單元1,用以通過多尺度人臉區(qū)域訓(xùn)練得到相應(yīng)位置與尺度的卷積神經(jīng)網(wǎng)絡(luò)參數(shù),并根據(jù)所述卷積神經(jīng)網(wǎng)絡(luò)參數(shù)提取出人臉對應(yīng)區(qū)域的特征;以及對上述特征進(jìn)行篩選,得到高維人臉特征;所述度量學(xué)習(xí)模型單元2,用以根據(jù)所述高維人臉特征進(jìn)行度量學(xué)習(xí),將特征進(jìn)行降維處理得到特征表達(dá)后定義損失函數(shù),通過所述損失函數(shù)訓(xùn)練得到度量學(xué)習(xí)的網(wǎng)絡(luò)模型;
所述判別單元3,用以將待識別的圖像輸入所述網(wǎng)絡(luò)模型后,將人臉特征進(jìn)行降維后利用歐幾里得距離進(jìn)行識別。本實(shí)施例中的人臉系統(tǒng)首先利用卷積神經(jīng)網(wǎng)絡(luò)提取人臉不同尺度和位置的區(qū)域的特征,并對這些多尺度特征進(jìn)行篩選,選出表達(dá)能力最強(qiáng)的一些特征進(jìn)行組合,形成高維的人臉特征。之后,將已獲得的大量人臉特征通過度量學(xué)習(xí)定義的損失函數(shù)進(jìn)行訓(xùn)練,將人臉特征降維后利用歐幾里得距離進(jìn)行識別。本發(fā)明采用以上技術(shù),在保證人臉識別速度的前提下提高人臉識別的準(zhǔn)確率。在本實(shí)施例中設(shè)計了一種基于多區(qū)域人臉特征選擇與度量學(xué)習(xí)的人臉識別系統(tǒng),在保證識別速度的基礎(chǔ)上,提高了人臉識別的準(zhǔn)確率。
應(yīng)當(dāng)理解,本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來實(shí)現(xiàn)。在上述實(shí)施方式中,多個步驟或方法可以用存儲在存儲器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來實(shí)現(xiàn)。例如,如果用硬件來實(shí)現(xiàn),和在另一實(shí)施方式中一樣,可用本領(lǐng)域公知的下列技術(shù)中的任一項(xiàng)或他們的組合來實(shí)現(xiàn):具有用于對數(shù)據(jù)信號實(shí)現(xiàn)邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(PGA),現(xiàn)場可編程門陣列(FPGA)等。
在本說明書的描述中,參考術(shù)語“一個實(shí)施例”、“一些實(shí)施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本發(fā)明的至少一個實(shí)施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不一定指的是相同的實(shí)施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可以在任何的一個或多個實(shí)施例或示例中以合適的方式結(jié)合。
總體而言,本公開的各種實(shí)施例可以以硬件或?qū)S秒娐?、軟件、邏輯或其任意組合實(shí)施。一些方面可以以硬件實(shí)施,而其它一些方面可以以固件或軟件實(shí)施,該固件或軟件可以由控制器、微處理器或其它計算設(shè)備執(zhí)行。雖然本公開的各種方面被示出和描述為框圖、流程圖或使用其它一些繪圖表示,但是可以理解本文描述的框、設(shè)備、系統(tǒng)、技術(shù)或方法可以以非限制性的方式以硬件、軟件、固件、專用電路或邏輯、通用硬件或控制器或其它計算設(shè)備或其一些組合實(shí)施。
此外,雖然操作以特定順序描述,但是這不應(yīng)被理解為要求這類操作以所示的順序執(zhí)行或是以順序序列執(zhí)行,或是要求所有所示的操作被執(zhí)行以實(shí)現(xiàn)期望結(jié)果。在一些情形下,多任務(wù)或并行處理可以是有利的。類似地,雖然若干具體實(shí)現(xiàn)方式的細(xì)節(jié)在上面的討論中被包含,但是這些不應(yīng)被解釋為對本公開的范圍的任何限制,而是特征的描述僅是針對具體實(shí)施例。在分離的一些實(shí)施例中描述的某些特征也可以在單個實(shí)施例中組合地執(zhí)行。相反對,在單個實(shí)施例中描述的各種特征也可以在多個實(shí)施例中分離地實(shí)施或是以任何合適的子組合的方式實(shí)施。