基于多區(qū)域特征與度量學(xué)習(xí)的人臉特征識別方法及系統(tǒng)與流程

文檔序號：12670815閱讀：399來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于多區(qū)域特征與度量學(xué)習(xí)的人臉特征識別方法及系統(tǒng)與流程

本發(fā)明涉及圖像識別和處理領(lǐng)域，特別涉及基于多區(qū)域特征與度量學(xué)習(xí)的人臉特征識別方法及系統(tǒng)。

背景技術(shù)：

人臉識別技術(shù)，是基于人的臉部特征，對輸入的人臉圖像或者視頻流.首先判斷其是否存在人臉,如果存在人臉，則進(jìn)一步的給出每個臉的位置、大小和各個主要面部器官的位置信息。并依據(jù)這些信息，進(jìn)一步提取每個人臉中所蘊(yùn)涵的身份特征，并將其與已知的人臉進(jìn)行對比，從而識別每個人臉的身份。人臉識別技術(shù)包含三個部分：1)人臉檢測,2)人臉跟蹤,3)人臉比對。

現(xiàn)有的人臉識別技術(shù)中，一種實(shí)現(xiàn)方式是通過人臉區(qū)域單一尺度/區(qū)域訓(xùn)練提取人臉特征+歐氏距離識別，但缺點(diǎn)是提取的特征的表達(dá)能力有限，人臉識別的準(zhǔn)確率低。另外一種方式是通過人臉多區(qū)域訓(xùn)練提取人臉特征+主成分分析(PCA)降維+聯(lián)合貝葉斯(Joint-Bayesian)方法，但其缺點(diǎn)是識別速度慢。還有一種方式是人臉多區(qū)域提取人臉特征+歐氏距離或余弦距離識別，但其缺點(diǎn)是特征維度高，存儲空間大。

可見，現(xiàn)今的人臉識別系統(tǒng)大多通過對單個或多個人臉區(qū)域利用卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到網(wǎng)絡(luò)的權(quán)重；然后再根據(jù)訓(xùn)練所得網(wǎng)絡(luò)的權(quán)重計算得到人臉特征向量，最后通過對特征向量進(jìn)行處理獲得人臉識別的結(jié)果。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明要解決的技術(shù)問題是，提高了特征的表達(dá)能力和效率，提高了人臉識別的準(zhǔn)確率的基于多區(qū)域特征與度量學(xué)習(xí)的人臉特征識別方法。

解決上述技術(shù)問題，本發(fā)明提供了基于多區(qū)域特征與度量學(xué)習(xí)的人臉特征識別方法，包括如下步驟：

通過對多尺度人臉區(qū)域訓(xùn)練得到相應(yīng)位置與尺度的卷積神經(jīng)網(wǎng)絡(luò)參數(shù)，并根據(jù)所述卷積神經(jīng)網(wǎng)絡(luò)參數(shù)提取出人臉對應(yīng)區(qū)域的特征；

對上述特征進(jìn)行篩選，得到高維人臉特征；

根據(jù)所述高維人臉特征進(jìn)行度量學(xué)習(xí)，將特征進(jìn)行降維處理得到降維后特征表達(dá)，并定義損失函數(shù)，通過所述損失函數(shù)訓(xùn)練得到度量學(xué)習(xí)的網(wǎng)絡(luò)模型；

將待識別的圖像輸入所述網(wǎng)絡(luò)模型后將得到的降維后的人臉特征利用歐幾里得距離進(jìn)行識別。

更進(jìn)一步，所述多尺度人臉區(qū)域訓(xùn)練進(jìn)一步包括如下步驟：

對于每一張輸入的人臉圖片進(jìn)行人臉檢測與關(guān)鍵點(diǎn)標(biāo)注，得到人臉框R和N個人臉關(guān)鍵點(diǎn)位置{P₁，P₂，P₃，...，P_N}；

選取不同位置與尺度的人臉區(qū)域進(jìn)行訓(xùn)練，得到人臉框的不同尺度輸入和不同位置輸入，得到多位置、多尺度的人臉區(qū)域。

具體的選擇方式為：比如以人臉框的中心為參考，將人臉框的尺度分別擴(kuò)大1.3倍、擴(kuò)大1.69倍、縮小1.3倍，并加上原人臉框，構(gòu)成人臉框的4種尺度的輸入；

以27個人臉關(guān)鍵點(diǎn)為中心，向上下左右各擴(kuò)展22個像素，即選取45px×45px的區(qū)域作為27種不同位置的輸入。由此得到了31個多位置、多尺度的人臉區(qū)域。分別用這31個不同的區(qū)域去訓(xùn)練31個卷積神經(jīng)網(wǎng)絡(luò)，得到相應(yīng)位置與尺度的卷積神經(jīng)網(wǎng)絡(luò)參數(shù)，用來提取人臉對應(yīng)區(qū)域的特征。

優(yōu)選地，對于人臉框的4種尺度輸入，可提取的特征維數(shù)為512；對于由27個特征點(diǎn)確定的27個人臉區(qū)域，可提取的維數(shù)為64。

更進(jìn)一步，根據(jù)所述卷積神經(jīng)網(wǎng)絡(luò)參數(shù)提取出人臉對應(yīng)區(qū)域的特征的方法具體為：

設(shè)人臉圖片測試集的大小為N_test，對其中的任一張圖片IMG_i，進(jìn)行人臉檢測和關(guān)鍵點(diǎn)標(biāo)注，根據(jù)訓(xùn)練過程中的多區(qū)域的人臉選擇，截取對應(yīng)的多個區(qū)域，并分別輸入到對應(yīng)的卷積神經(jīng)網(wǎng)絡(luò)里計算，

對于每張人臉圖片得到多個區(qū)域?qū)?yīng)的特征，分別計算多個特征中的每一個特征對于圖片測試集上N_test張圖片的識別性能繪制出ROC曲線；

根據(jù)ROC曲線選擇出人臉對應(yīng)區(qū)域的特征，作為度量學(xué)習(xí)需要的特征，并保留對應(yīng)特征區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)參數(shù)用作特征提取。

更進(jìn)一步，根據(jù)所述高維人臉特征進(jìn)行度量學(xué)習(xí)具體包括如下步驟：

設(shè)人臉圖片訓(xùn)練集的大小為N_train，對于其中的圖片進(jìn)行人臉檢測和關(guān)鍵點(diǎn)標(biāo)注，根據(jù)所述人臉對應(yīng)區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)參數(shù)計算提取人臉特征，得到數(shù)據(jù)量為N_train的高維人臉特征訓(xùn)練集。

記上述特征訓(xùn)練集中樣本的所有類別標(biāo)簽數(shù)量為L，則類別標(biāo)簽的集合為T＝{t₁，t₂，...，t_L}，

在訓(xùn)練集中隨機(jī)選取m個樣本X₁＝{x_1，1，x_1，2…x_1，N}，X₂＝{x_2，1，x_2，2...x_2，N}，…,X_m＝{x_m，1，x_m，2…x_m，N}，

樣本對應(yīng)的類別標(biāo)簽為:Y_batch＝{y₁，y₂，...，y_m}，y_i∈T，i＝1，2，...，m

將上述數(shù)據(jù)記為一個訓(xùn)練組，對訓(xùn)練組的m個數(shù)據(jù)加入網(wǎng)絡(luò)中訓(xùn)練記為一個訓(xùn)練輪，一個訓(xùn)練組訓(xùn)練完成記為一輪訓(xùn)練完成，且每一輪訓(xùn)練的m個樣本均是獨(dú)立隨機(jī)選取。

在所述的一訓(xùn)練組中定義集合P和N如下：

P＝{(i，j)|i≠j且y_i＝y(tǒng)_j，i＝1，2，...，m}

N＝{(i，j)|i≠j且y_i≠y_j，i＝1，2，...，m}

其中，P為所有正樣本對的下標(biāo)的集合，N為所有負(fù)樣本對的下標(biāo)集合。

更進(jìn)一步，將人臉特征進(jìn)行降維處理得到特征表達(dá)后，輸入到訓(xùn)練網(wǎng)絡(luò)中，

設(shè)W₁，W₂分別為訓(xùn)練網(wǎng)絡(luò)第一層和第二層的權(quán)重，b₁，b₂分別為第一層和第二層的偏置項(xiàng)，激活函數(shù)為g(x)＝max(0，x)，

在訓(xùn)練批次中，所述訓(xùn)練網(wǎng)絡(luò)第一層的網(wǎng)絡(luò)輸出分別為：

所述訓(xùn)練網(wǎng)絡(luò)第二層的網(wǎng)絡(luò)輸出分別為：

更進(jìn)一步，對所述訓(xùn)練網(wǎng)絡(luò)第一層的網(wǎng)絡(luò)，將特征進(jìn)行降維處理得到特征表達(dá)后定義損失函數(shù)的方法具體為：

記為所有類別標(biāo)簽對應(yīng)的特征經(jīng)過第一層網(wǎng)絡(luò)后的輸出U的聚類中心，

每一輪訓(xùn)練前，更新

對于一個訓(xùn)練組的m個樣本，定義第一個度量學(xué)習(xí)的損失函數(shù)：

優(yōu)選地，這里需注意對于一個訓(xùn)練組的m個樣本，可能不包含T中所有類別標(biāo)簽。規(guī)定：第n輪訓(xùn)練后的類別標(biāo)簽t_k，k＝1，2，...，L的聚類中心為且按照以下的規(guī)則進(jìn)行更新：

其中，α為常量。式中δ(x)的定義為：

對所述訓(xùn)練網(wǎng)絡(luò)第二層的網(wǎng)絡(luò)，

定義

定義第二個度量學(xué)習(xí)的損失函數(shù)：

其中：

式中γ為常量。

更進(jìn)一步，所述對于當(dāng)前訓(xùn)練組，得到總的損失函數(shù)為：L＝L₁+θ·L₂，其中θ為兩者的比例參數(shù)，利用上述損失函數(shù)，訓(xùn)練一設(shè)定輪數(shù)后保存模型中的參數(shù)W₁，b₁，作為度量學(xué)習(xí)的網(wǎng)絡(luò)模型。

基于上述本發(fā)明還提供了一種基于所述的人臉特征識別方法的識別系統(tǒng)，其特征在于，對于輸入的第一測試圖片和第二測試圖片，所述識別系統(tǒng)被配置為：

S1對其進(jìn)行人臉檢測和關(guān)鍵點(diǎn)識別，選出經(jīng)過選擇的人臉區(qū)域，并加入到卷積神經(jīng)網(wǎng)絡(luò)中計算并歸一化，得到第一測試圖片的高維特征X₁和第二測試圖片的高維特征X₂；

S2將兩個高維特征X₁和X₂輸入到度量學(xué)習(xí)算法得到的模型中，得到測試第一測試圖片的降維特征U₁和第二測試圖片的降維特征U₂；

S3計算U₁和U₂間的歐式距離為D，將D與判別閾值Th進(jìn)行比較，

S4若D≤Th,則判定兩張人臉測試圖片屬于同一個人；

S5否則這兩個人臉測試圖片不屬于同一個人。

本發(fā)明還提供了基于多區(qū)域特征與度量學(xué)習(xí)的人臉特征識別系統(tǒng)，包括：神經(jīng)卷積訓(xùn)練單元、度量學(xué)習(xí)模型單元以及判別單元，

所述神經(jīng)卷積訓(xùn)練單元，用以通過多尺度人臉區(qū)域訓(xùn)練得到相應(yīng)位置與尺度的卷積神經(jīng)網(wǎng)絡(luò)參數(shù)，并根據(jù)所述卷積神經(jīng)網(wǎng)絡(luò)參數(shù)提取出人臉對應(yīng)區(qū)域的特征；以及對上述特征進(jìn)行篩選，得到高維人臉特征；

所述度量學(xué)習(xí)模型單元，用以根據(jù)所述高維人臉特征進(jìn)行度量學(xué)習(xí)，將特征進(jìn)行降維處理得到特征表達(dá)后定義損失函數(shù)，通過所述損失函數(shù)訓(xùn)練得到度量學(xué)習(xí)的網(wǎng)絡(luò)模型；

所述判別單元，用以將待識別的圖像輸入所述網(wǎng)絡(luò)模型后，將人臉特征進(jìn)行降維后利用歐幾里得距離進(jìn)行識別。整套人臉識別系統(tǒng)結(jié)合了多區(qū)域特征選擇與度量學(xué)習(xí)，在保證了人臉特征較強(qiáng)的表達(dá)能力的前提下，提高了人臉識別的速度和準(zhǔn)確率。

本發(fā)明的有益效果：

在本發(fā)明的方法，通過多尺度選取多區(qū)域，對卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，提高了特征的表達(dá)能力。同時，通過對獲取的多尺度特征進(jìn)行選擇，提高了特征的表達(dá)效率。此外，通過利用度量學(xué)習(xí)定義的損失函數(shù)對提取的特征，降低了特征的維數(shù)的同時，有效地提高了人臉識別的準(zhǔn)確率。

此外，本發(fā)明的人臉系統(tǒng)首先利用卷積神經(jīng)網(wǎng)絡(luò)提取人臉不同尺度和位置的區(qū)域的特征，并對這些多尺度特征進(jìn)行篩選，選出表達(dá)能力最強(qiáng)的一些特征進(jìn)行組合，形成高維的人臉特征。之后，將已獲得的大量人臉特征通過度量學(xué)習(xí)定義的損失函數(shù)進(jìn)行訓(xùn)練，將人臉特征降維后利用歐幾里得距離進(jìn)行識別。本發(fā)明采用以上技術(shù)，在保證人臉識別速度的前提下提高人臉識別的準(zhǔn)確率。

本發(fā)明的識別方法，相對于(多區(qū)域訓(xùn)練+PCA+JointBayesian)速度快，特征表達(dá)能力更強(qiáng)(背景技術(shù)中的單模型訓(xùn)練特征表達(dá)能力差)，準(zhǔn)確率高(度量學(xué)習(xí)方法比背景技術(shù)中的直接利用歐氏距離/余弦距離快)

附圖說明

圖1是本發(fā)明一實(shí)施例中的方法流程示意圖；

圖2是圖1中的多尺度人臉區(qū)域訓(xùn)練過程的流程示意圖；

圖3是圖1中的特征選擇過程的流程示意圖；

圖4是降維過程示意圖；

圖5是第一層訓(xùn)練過程示意圖；

圖6是第二層訓(xùn)練過程本示意圖；

圖7度量學(xué)習(xí)訓(xùn)練模型的使用流程示意圖；

圖8本發(fā)明一實(shí)施例中識別系統(tǒng)的操作原理示意圖；

圖9是本發(fā)明一識別圖像的流程示意圖；

圖10是本發(fā)明的識別系統(tǒng)結(jié)構(gòu)示意圖。

具體實(shí)施方式

現(xiàn)在將參考一些示例實(shí)施例描述本公開的原理?？梢岳斫猓@些實(shí)施例僅出于說明并且?guī)椭绢I(lǐng)域的技術(shù)人員理解和實(shí)施例本公開的目的而描述，而非建議對本公開的范圍的任何限制。在此描述的本公開的內(nèi)容可以以下文描述的方式之外的各種方式實(shí)施。

如本文中所述，術(shù)語“包括”及其各種變體可以被理解為開放式術(shù)語，其意味著“包括但不限于”。術(shù)語“基于”可以被理解為“至少部分地基于”。術(shù)語“一個實(shí)施例”可以被理解為“至少一個實(shí)施例”。術(shù)語“另一實(shí)施例”可以被理解為“至少一個其它實(shí)施例”。

可以理解，在本實(shí)施例中對以下概念進(jìn)行定義：

所述的卷積神經(jīng)網(wǎng)絡(luò)，即一種深度學(xué)習(xí)算法。

所述的度量學(xué)習(xí)，即一種特征相似度學(xué)習(xí)的算法。

所述的損失函數(shù)，即度量學(xué)習(xí)的優(yōu)化過程中的目標(biāo)函數(shù)，優(yōu)化目標(biāo)是使損失函數(shù)盡可能小。

所述的降維包括但不限于，把高維度的特征轉(zhuǎn)化為低維度的特征。

所述的多尺度包括但不限于，既指訓(xùn)練樣本的區(qū)域大小，也指不同長度的特征。

所述的訓(xùn)練包括但不限于，通過已知數(shù)據(jù)進(jìn)行學(xué)習(xí)參數(shù)。

所述的ROC曲線包括但不限于，接收者操作特征曲線，橫坐標(biāo)為偽陽性率(FPR)，縱坐標(biāo)為真陽性率(TPR)，可以用來評估分類器的性能。

所述的正樣本對包括但不限于，一對類別標(biāo)簽相同的訓(xùn)練樣本。

所述的負(fù)樣本對包括但不限于，一對類別標(biāo)簽不相同的訓(xùn)練樣本。

所述的損失函數(shù)包括但不限于，度量學(xué)習(xí)中用來估量模型預(yù)測值與真實(shí)值的偏離程度，度量函數(shù)的優(yōu)化目標(biāo)是最小化損失函數(shù)。

請參考圖1是本發(fā)明一實(shí)施例中的方法流程示意圖，包括如下的步驟：

步驟S100通過多尺度人臉區(qū)域訓(xùn)練得到相應(yīng)位置與尺度的卷積神經(jīng)網(wǎng)絡(luò)參數(shù)，并根據(jù)所述卷積神經(jīng)網(wǎng)絡(luò)參數(shù)提取出人臉對應(yīng)區(qū)域的特征；

步驟S101對上述特征進(jìn)行篩選，得到高維人臉特征；

步驟S102根據(jù)所述高維人臉特征進(jìn)行度量學(xué)習(xí)，將特征進(jìn)行降維處理得到特征表達(dá)后定義損失函數(shù)，通過所述損失函數(shù)訓(xùn)練得到度量學(xué)習(xí)的網(wǎng)絡(luò)模型；

步驟S103將待識別的圖像輸入所述網(wǎng)絡(luò)模型后，將人臉特征進(jìn)行降維后利用歐幾里得距離進(jìn)行識別。

作為本實(shí)施例中的優(yōu)選，在所述步驟S100中所述多尺度人臉區(qū)域訓(xùn)練進(jìn)一步包括如下步驟：

對于每一張輸入的人臉圖片進(jìn)行人臉檢測與關(guān)鍵點(diǎn)標(biāo)注，得到人臉框R和N個人臉關(guān)鍵點(diǎn)位置{P₁，P₂，P₃，...，P_N}；

選取不同位置與尺度的人臉區(qū)域進(jìn)行訓(xùn)練，得到人臉框的不同尺度輸入和不同位置輸入，得到多位置、多尺度的人臉區(qū)域。

具體的選擇方式為：以人臉框的中心為參考，將人臉框的尺度分別擴(kuò)大1.3倍、擴(kuò)大1.69倍、縮小1.3倍，并加上原人臉框，構(gòu)成人臉框的4種尺度的輸入；

這里，對于人臉框的4種尺度輸入，提取的特征維數(shù)為512；對于由27個特征點(diǎn)確定的27個人臉區(qū)域，提取的維數(shù)為64。

作為本實(shí)施例中的優(yōu)選，在所述步驟S100中根據(jù)所述卷積神經(jīng)網(wǎng)絡(luò)參數(shù)提取出人臉對應(yīng)區(qū)域的特征的方法具體為：

對于每張人臉圖片得到多個區(qū)域?qū)?yīng)的特征，分別計算多個特征中的每一個特征對于圖片測試集上N_test張圖片的識別性能繪制出ROC曲線；

根據(jù)ROC曲線選擇出人臉對應(yīng)區(qū)域的特征，作為度量學(xué)習(xí)需要的特征，并保留對應(yīng)區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)參數(shù)用作高維人臉特征提取。

作為本實(shí)施例中的優(yōu)選，進(jìn)一步地步驟S101中根據(jù)所述高維人臉特征進(jìn)行度量學(xué)習(xí)具體包括如下步驟：

根據(jù)所述人臉對應(yīng)區(qū)域

根據(jù)上文方法(3+8)個人臉區(qū)域后，下一步是對獲得的人臉特征進(jìn)行度量學(xué)習(xí)，將特征進(jìn)行降維處理并得到更高效的特征表達(dá)。

設(shè)人臉圖片訓(xùn)練集的大小為N_train，對于其中的圖片進(jìn)行人臉檢測和關(guān)鍵點(diǎn)標(biāo)注，得到數(shù)據(jù)量為N_train的高維人臉特征訓(xùn)練集，

記上述特征訓(xùn)練集中樣本的所有類別標(biāo)簽數(shù)量為L，則類別標(biāo)簽的集合為T＝{t₁，t₂，…，t_L}，

在訓(xùn)練集中隨機(jī)選取m個樣本X₁＝{x_1，1，x_1，2…x_1，N}，X₂＝{x_2，1，x_2，2…x_2，N}，…,X_m＝{x_m，1，x_m，2…x_m，N}，

樣本對應(yīng)的類別標(biāo)簽為:Y_batch＝{y₁，y₂，...，y_m}，y_i∈T，i＝1，2，...，m

作為本實(shí)施例中的優(yōu)選，所述步驟S102中通過將特征進(jìn)行降維處理得到特征表達(dá)后定義損失函數(shù)的方法具體為：

在所述的一訓(xùn)練組中定義集合P和N如下：

P＝{(i，j)|i≠j且y_i＝y(tǒng)_j，i＝1，2，...，m}

N＝{(i，j)|i≠j且y_i≠y_j，i＝1，2，...，m}

其中，P為所有正樣本對的下標(biāo)的集合，N為所有負(fù)樣本對的下標(biāo)集合，設(shè)W₁，W₂分別為訓(xùn)練網(wǎng)絡(luò)第一層和第二層的權(quán)重，b₁，b₂分別為第一層和第二層的偏置項(xiàng)，激活函數(shù)為g(x)＝max(0，x)，

在訓(xùn)練批次中，所述訓(xùn)練網(wǎng)絡(luò)第一層的網(wǎng)絡(luò)輸出分別為：

所述訓(xùn)練網(wǎng)絡(luò)第二層的網(wǎng)絡(luò)輸出分別為：

作為本實(shí)施例中的優(yōu)選，所述步驟S102中對所述訓(xùn)練網(wǎng)絡(luò)第一層的網(wǎng)絡(luò)，

記為所有類別標(biāo)簽對應(yīng)的特征經(jīng)過第一層網(wǎng)絡(luò)后的輸出U的聚類中心，

每一輪訓(xùn)練前，更新

對于一個訓(xùn)練組的m個樣本，定義第一個度量學(xué)習(xí)的損失函數(shù)：

這里需注意對于一個訓(xùn)練組的m個樣本，可能不包含T中所有類別標(biāo)簽。規(guī)定：第n輪訓(xùn)練后的類別標(biāo)簽t_k，k＝1，2，...，L的聚類中心為且按照以下的規(guī)則進(jìn)行更新：

其中，α為常量。式中δ(x)的定義為：

對所述訓(xùn)練網(wǎng)絡(luò)第二層的網(wǎng)絡(luò)，

定義

定義第二個度量學(xué)習(xí)的損失函數(shù)：

其中：

式中γ為常量。

作為本實(shí)施例中的優(yōu)選，所述步驟S102中所述對于當(dāng)前訓(xùn)練組，得到總的損失函數(shù)為：L＝L₁+θ·L₂，其中θ為兩者的比例參數(shù)，利用上述損失函數(shù)，訓(xùn)練一設(shè)定輪數(shù)后保存模型中的參數(shù)W₁，b₁，作為度量學(xué)習(xí)的網(wǎng)絡(luò)模型。

在本實(shí)施例中，多區(qū)域人臉特征選擇是指：選取不同位置、不同大小的人臉區(qū)域加入到卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練，得到長度不同的特征向量；之后對得到的特征向量進(jìn)行選擇，選取包含信息量最多的部分區(qū)域的特征組成最終輸出的人臉特征向量。度量學(xué)習(xí)通過合理設(shè)計損失函數(shù)，對人臉特征向量進(jìn)行訓(xùn)練，可以有效地利用人臉的類別信息對人臉特征進(jìn)行更好的表示。兩者的結(jié)合可以獲取人臉特征更高效的表達(dá)，從而提高人臉識別的準(zhǔn)確率。

請參考圖2是圖1中的多尺度人臉區(qū)域訓(xùn)練過程的流程示意圖，對于每一張輸入的人臉圖片，首先進(jìn)行人臉檢測與關(guān)鍵點(diǎn)標(biāo)注，得到人臉框R和27個人臉關(guān)鍵點(diǎn)位置{P₁，P₂，P₃，...，P₂₇}。下一步選取不同位置與尺度的人臉區(qū)域進(jìn)行訓(xùn)練，具體的選擇方式為：以人臉框的中心為參考，將人臉框的尺度分別擴(kuò)大1.3倍、擴(kuò)大1.69倍、縮小1.3倍，并加上原人臉框，構(gòu)成人臉框的4種尺度的輸入；以27個人臉關(guān)鍵點(diǎn)為中心，向上下左右各擴(kuò)展22個像素，即選取45px×45px的區(qū)域作為27種不同位置的輸入。由此得到了31個多位置、多尺度的人臉區(qū)域。分別用這31個不同的區(qū)域去訓(xùn)練31個卷積神經(jīng)網(wǎng)絡(luò)，得到相應(yīng)位置與尺度的卷積神經(jīng)網(wǎng)絡(luò)參數(shù)，用來提取人臉對應(yīng)區(qū)域的特征。這里，對于人臉框的4種尺度輸入，提取的特征維數(shù)為512；對于由27個特征點(diǎn)確定的27個人臉區(qū)域，提取的維數(shù)為64。

圖3是圖1中的特征選擇過程的流程示意圖，在網(wǎng)絡(luò)訓(xùn)練完成后，接下來需要對獲得的特征進(jìn)行選擇。特征選擇的過程圖3所示，設(shè)人臉圖片測試集的大小為N_test，對與其中的任一張圖片IMG_i，進(jìn)行人臉檢測和關(guān)鍵點(diǎn)標(biāo)注。根據(jù)訓(xùn)練過程中的多區(qū)域的人臉選擇方案，截取對應(yīng)的31個區(qū)域，并分別輸入到對應(yīng)的卷積神經(jīng)網(wǎng)絡(luò)里計算。這樣對于每張人臉圖片，都能得到31個區(qū)域?qū)?yīng)的特征。

下一步，分別計算31個特征中的每一個特征對于圖片測試集上N_test張圖片的識別性能，畫出ROC曲線。接下來，選擇31個特征中在FPR＝0.001的條件下TPR最高的一個或幾個，作為表達(dá)能力最好的特征。

在這里，本是實(shí)施例中選取了3個不同尺度的人臉框(原人臉框、擴(kuò)大1.3倍的人臉框、擴(kuò)大1.69倍的人臉框)以及準(zhǔn)確率最高的8個以人臉關(guān)鍵點(diǎn)為中心選取的45px×45px區(qū)域作為最終提取特征的候選區(qū)域，其余的區(qū)域則丟棄。這樣，這些(3+8)個區(qū)域?qū)?yīng)的卷積神經(jīng)網(wǎng)絡(luò)參數(shù)提取的人臉特征就是度量學(xué)習(xí)需要的特征，從而完成了多區(qū)域人臉特征的選擇，保留選擇的區(qū)域?qū)?yīng)的卷積神經(jīng)網(wǎng)絡(luò)參數(shù)用作后續(xù)的高維人臉特征區(qū)域選擇。

根據(jù)上文方法(3+8)個人臉區(qū)域后，下一步是對獲得的人臉特征進(jìn)行度量學(xué)習(xí)，將特征進(jìn)行降維處理并得到更高效的特征表達(dá)。具體的步驟如下：設(shè)人臉圖片訓(xùn)練集的大小為N_train，對于其中的圖片，進(jìn)行人臉檢測和關(guān)鍵點(diǎn)標(biāo)注，并按照上文的方法對11個人臉區(qū)域提取特征，并將這些特征連接起來得到度量學(xué)習(xí)的輸入特征，特征維數(shù)為：3×512+8×64＝2048。之后對得到的2048維數(shù)據(jù)進(jìn)行歸一化處理，最終得到數(shù)據(jù)量為N_train的2048維人臉特征訓(xùn)練集。

記特征訓(xùn)練集中樣本的所有類別標(biāo)簽數(shù)量為L，則類別標(biāo)簽的集合為T＝{t₁，t₂，...，t_L}。在訓(xùn)練集中隨機(jī)選取m個樣本X₁＝{x_1，1，x_1，2…x_1，2048}，X₂＝{x_2，1，x_2，₂...x_2，2048}，…,X_m＝{x_m，1{x_m，2，x_m，2048}，樣本對應(yīng)的類別標(biāo)簽為

Y_batch＝{y₁，y₂，…，y_m}，y_i∈T，i＝1，2，...，m

以上的數(shù)據(jù)記為一個訓(xùn)練組，對訓(xùn)練組的m個數(shù)據(jù)加入網(wǎng)絡(luò)中訓(xùn)練記為一個訓(xùn)練輪，一個訓(xùn)練組訓(xùn)練完成記為一輪訓(xùn)練完成。每一輪訓(xùn)練的m個樣本均是獨(dú)立隨機(jī)選取。

在上述的一個訓(xùn)練組中，定義集合P和N如下：

P＝{(i，j)|i≠j且y_i＝y(tǒng)_j，i＝1，2，...，m}

N＝{(i，j)|i≠j且y_i≠y_j，i＝1，2，...，m}

圖4是降維過程示意圖，根據(jù)定義可以看出，P為所有正樣本對的下標(biāo)的集合，N為所有負(fù)樣本對的下標(biāo)集合。設(shè)W₁，W₂分別為訓(xùn)練網(wǎng)絡(luò)第一層和第二層的權(quán)重，b₁，b₂分別為第一層和第二層的偏置項(xiàng)，激活函數(shù)為g(x)＝max(0，x)，根據(jù)圖4可以得到：

在訓(xùn)練批次中，第一層的網(wǎng)絡(luò)輸出分別為：

第二層的網(wǎng)絡(luò)輸出分別為：

如圖5所示是第一層訓(xùn)練過程示意圖，在圖5中：記為所有類別標(biāo)簽對應(yīng)的特征經(jīng)過第一層網(wǎng)絡(luò)后的輸出U的聚類中心。每一輪訓(xùn)練前，會更新這里需注意對于一個訓(xùn)練組的m個樣本，可能不包含T中所有類別標(biāo)簽。規(guī)定：第n輪訓(xùn)練后的類別標(biāo)簽t_k，k＝1，2，...，L的聚類中心為且按照以下的規(guī)則進(jìn)行更新：

其中，

α為常量。式中δ(x)的定義為：

定義第一個度量學(xué)習(xí)的損失函數(shù)：

接下來，如圖6所示是第二層訓(xùn)練過程本示意圖，

其中定義

定義第二個度量學(xué)習(xí)的損失函數(shù)：

其中：

式中γ為常量。

因此對于當(dāng)前訓(xùn)練組，可以得到總的損失函數(shù)為：

L＝L₁+θ.L₂

其中θ為兩者的比例參數(shù)。利用上述的損失函數(shù)，訓(xùn)練一定的輪數(shù)后，保存模型參數(shù)W₁，b₁，作為度量學(xué)習(xí)的網(wǎng)絡(luò)模型。

使用模型時的流程如圖7所示度量學(xué)習(xí)訓(xùn)練模型的使用流程示意圖。

在圖中對于兩張測試圖片1和2，首先對其進(jìn)行人臉檢測和關(guān)鍵點(diǎn)識別，選出經(jīng)過選擇的人臉區(qū)域，并加入到卷積神經(jīng)網(wǎng)絡(luò)中計算并歸一化，得到測試圖片1的2048維特征X₁和測試圖片2的2048維特征X₂。之后將兩個特征X₁和X₂輸入到度量學(xué)習(xí)算法得到的模型中，得到測試圖片1的256維特征U₁和測試圖片2的256維特征U₂。之后計算U₁和U₂間的歐式距離為D。將D與判別閾值Th進(jìn)行比較，若D≤Th,則判定兩張人臉測試圖片屬于同一個人；否則這兩個人臉測試圖片不屬于同一個人。其中，判別閾值的確定需要按上述方法，得到大量含有人臉標(biāo)簽信息的人臉圖片中任意兩個256維的特征向量的歐式距離，并根據(jù)計算所有得到的歐式距離，得到最佳的判別閾值Th。

圖8本發(fā)明一實(shí)施例中識別系統(tǒng)的操作原理示意圖；

對于每一張輸入的人臉圖片，首先進(jìn)行人臉檢測與關(guān)鍵點(diǎn)標(biāo)注，得到人臉框R和27個人臉關(guān)鍵點(diǎn)位置{P₁，P₂，P₃，...，P₂₇}。

下一步選取不同位置與尺度的人臉區(qū)域進(jìn)行訓(xùn)練，具體的選擇方式為：以人臉框的中心為參考，將人臉框的尺度分別擴(kuò)大1.3倍、擴(kuò)大1.69倍、縮小1.3倍，并加上原人臉框，構(gòu)成人臉框的4種尺度的輸入；以27個人臉關(guān)鍵點(diǎn)為中心，向上下左右各擴(kuò)展22個像素，即選取45px×45px的區(qū)域作為27種不同位置的輸入。

由此得到了31個多位置、多尺度的人臉區(qū)域。分別用這31個不同的區(qū)域去訓(xùn)練31個卷積神經(jīng)網(wǎng)絡(luò)，得到相應(yīng)位置與尺度的卷積神經(jīng)網(wǎng)絡(luò)參數(shù)，用來提取人臉對應(yīng)區(qū)域的特征。這里，對于人臉框的4種尺度輸入，提取的特征維數(shù)為512；對于由27個特征點(diǎn)確定的27個人臉區(qū)域，提取的維數(shù)為64。

在網(wǎng)絡(luò)訓(xùn)練完成后，接下來需要對獲得的特征進(jìn)行選擇，設(shè)人臉圖片測試集的大小為N_test，對與其中的任一張圖片IMG_i，進(jìn)行人臉檢測和關(guān)鍵點(diǎn)標(biāo)注。根據(jù)訓(xùn)練過程中的多區(qū)域的人臉選擇方案，截取對應(yīng)的31個區(qū)域，并分別輸入到對應(yīng)的卷積神經(jīng)網(wǎng)絡(luò)里計算。這樣對于每張人臉圖片，都能得到31個區(qū)域?qū)?yīng)的特征。下一步，分別計算31個特征中的每一個特征對于圖片測試集上N_test張圖片的識別性能，畫出ROC曲線。接下來，選擇31個特征中在FPR＝0.001的條件下TPR最高的一個或幾個，作為表達(dá)能力最好的特征。在這里，選取了3個不同尺度的人臉框(原人臉框、擴(kuò)大1.3倍的人臉框、擴(kuò)大1.69倍的人臉框)以及準(zhǔn)確率最高的8個以人臉關(guān)鍵點(diǎn)為中心選取的45px×45px區(qū)域作為最終提取特征的候選區(qū)域，其余的區(qū)域則丟棄。這樣，這些(3+8)個區(qū)域?qū)?yīng)的卷積神經(jīng)網(wǎng)絡(luò)參數(shù)提取的人臉特征就是度量學(xué)習(xí)需要的特征，從而完成了多區(qū)域人臉特征的選擇。

根據(jù)上文方法(3+8)個人臉區(qū)域后，下一步是對獲得的人臉特征進(jìn)行度量學(xué)習(xí)，將特征進(jìn)行降維處理并得到更高效的特征表達(dá)。具體的步驟如下：設(shè)人臉圖片訓(xùn)練集的大小為N_train，對于其中的圖片，進(jìn)行人臉檢測和關(guān)鍵點(diǎn)標(biāo)注，并按照上文的方法對11個人臉區(qū)域提取特征，并將這些特征連接起來得到度量學(xué)習(xí)的輸入特征，特征維數(shù)為：3×512+8×64×2048。之后對得到的2048維數(shù)據(jù)進(jìn)行歸一化處理，最終得到數(shù)據(jù)量為N_train的2048維人臉特征訓(xùn)練集。

記特征訓(xùn)練集中樣本的所有類別標(biāo)簽數(shù)量為L，則類別標(biāo)簽的集合為T＝{t₁，t₂，...，t_L}。在訓(xùn)練集中隨機(jī)選取m個樣本X₁＝{x_1，1，x_1，2…x_1，2048}，X₂＝{x_2，1，x_2，2…x_2，2048}，…,X_m＝{x_m，1，x_m，2…x_m，2048}，樣本對應(yīng)的類別標(biāo)簽為

Y_batch＝{y₁，y₂，...，y_m}，y_i∈T，i＝1，2，...，m

在上述的一個訓(xùn)練組中，定義集合P和N如下：

P＝{(i，j)|i≠j且y_i＝y(tǒng)_j，i＝1，2，...，m}

N＝{(ij)|i≠j且y_i≠y_j，i＝1，2，...，m}

根據(jù)定義可以看出，P為所有正樣本對的下標(biāo)的集合，N為所有負(fù)樣本對的下標(biāo)集合。設(shè)W₁，W₂分別為訓(xùn)練網(wǎng)絡(luò)第一層和第二層的權(quán)重，b₁，b₂分別為第一層和第二層的偏置項(xiàng)，激活函數(shù)為g(x)＝max(0，x)，可以得到：

在訓(xùn)練批次中，第一層的網(wǎng)絡(luò)輸出分別為：

第二層的網(wǎng)絡(luò)輸出分別為：

記為所有類別標(biāo)簽對應(yīng)的特征經(jīng)過第一層網(wǎng)絡(luò)后的輸出U的聚類中心。每一輪訓(xùn)練前，會更新這里需注意對于一個訓(xùn)練組的m個樣本，可能不包含T中所有類別標(biāo)簽。規(guī)定：第n輪訓(xùn)練后的類別標(biāo)簽t_k，k＝1，2，...，L的聚類中心為且按照以下的規(guī)則進(jìn)行更新：

其中，α為常量。式中δ(x)的定義為：

定義第一個度量學(xué)習(xí)的損失函數(shù)：

接下來，定義

定義第二個度量學(xué)習(xí)的損失函數(shù)：

其中：

式中γ為常量

因此對于當(dāng)前訓(xùn)練組，可以得到總的損失函數(shù)為：

L＝L₁+θ·L₂

其中θ為兩者的比例參數(shù)。

利用上述的損失函數(shù)，訓(xùn)練一定的輪數(shù)后，保存模型參數(shù)W₁，b₁，作為度量學(xué)習(xí)的網(wǎng)絡(luò)模型。

圖9是本發(fā)明一識別圖像的流程示意圖；對于輸入的第一測試圖片和第二測試圖片，所述識別系統(tǒng)被配置為：

步驟S1對其進(jìn)行人臉檢測和關(guān)鍵點(diǎn)識別，選出經(jīng)過選擇的人臉區(qū)域，并加入到卷積神經(jīng)網(wǎng)絡(luò)中計算并歸一化，得到第一測試圖片的高維特征X₁和第二測試圖片的高維特征X₂；

步驟S2將兩個高維特征X₁和X₂輸入到度量學(xué)習(xí)算法得到的模型中，得到測試第一測試圖片的降維特征U₁和第二測試圖片的降維特征U₂；

步驟S3計算U₁和U₂間的歐式距離為D，將D與判別閾值Th進(jìn)行比較，

步驟S4若D≤Th,則判定兩張人臉測試圖片屬于同一個人；

步驟S5否則這兩個人臉測試圖片不屬于同一個人。

圖10是本發(fā)明的識別系統(tǒng)結(jié)構(gòu)示意圖，基于多區(qū)域特征與度量學(xué)習(xí)的人臉特征識別系統(tǒng)，包括：神經(jīng)卷積訓(xùn)練單元1、度量學(xué)習(xí)模型單元2以及判別單元3，所述神經(jīng)卷積訓(xùn)練單元1，用以通過多尺度人臉區(qū)域訓(xùn)練得到相應(yīng)位置與尺度的卷積神經(jīng)網(wǎng)絡(luò)參數(shù)，并根據(jù)所述卷積神經(jīng)網(wǎng)絡(luò)參數(shù)提取出人臉對應(yīng)區(qū)域的特征；以及對上述特征進(jìn)行篩選，得到高維人臉特征；所述度量學(xué)習(xí)模型單元2，用以根據(jù)所述高維人臉特征進(jìn)行度量學(xué)習(xí)，將特征進(jìn)行降維處理得到特征表達(dá)后定義損失函數(shù)，通過所述損失函數(shù)訓(xùn)練得到度量學(xué)習(xí)的網(wǎng)絡(luò)模型；

所述判別單元3，用以將待識別的圖像輸入所述網(wǎng)絡(luò)模型后，將人臉特征進(jìn)行降維后利用歐幾里得距離進(jìn)行識別。本實(shí)施例中的人臉系統(tǒng)首先利用卷積神經(jīng)網(wǎng)絡(luò)提取人臉不同尺度和位置的區(qū)域的特征，并對這些多尺度特征進(jìn)行篩選，選出表達(dá)能力最強(qiáng)的一些特征進(jìn)行組合，形成高維的人臉特征。之后，將已獲得的大量人臉特征通過度量學(xué)習(xí)定義的損失函數(shù)進(jìn)行訓(xùn)練，將人臉特征降維后利用歐幾里得距離進(jìn)行識別。本發(fā)明采用以上技術(shù)，在保證人臉識別速度的前提下提高人臉識別的準(zhǔn)確率。在本實(shí)施例中設(shè)計了一種基于多區(qū)域人臉特征選擇與度量學(xué)習(xí)的人臉識別系統(tǒng)，在保證識別速度的基礎(chǔ)上，提高了人臉識別的準(zhǔn)確率。

應(yīng)當(dāng)理解，本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來實(shí)現(xiàn)。在上述實(shí)施方式中，多個步驟或方法可以用存儲在存儲器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來實(shí)現(xiàn)。例如，如果用硬件來實(shí)現(xiàn)，和在另一實(shí)施方式中一樣，可用本領(lǐng)域公知的下列技術(shù)中的任一項(xiàng)或他們的組合來實(shí)現(xiàn)：具有用于對數(shù)據(jù)信號實(shí)現(xiàn)邏輯功能的邏輯門電路的離散邏輯電路，具有合適的組合邏輯門電路的專用集成電路，可編程門陣列(PGA)，現(xiàn)場可編程門陣列(FPGA)等。

在本說明書的描述中，參考術(shù)語“一個實(shí)施例”、“一些實(shí)施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本發(fā)明的至少一個實(shí)施例或示例中。在本說明書中，對上述術(shù)語的示意性表述不一定指的是相同的實(shí)施例或示例。而且，描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可以在任何的一個或多個實(shí)施例或示例中以合適的方式結(jié)合。

總體而言，本公開的各種實(shí)施例可以以硬件或?qū)Ｓ秒娐?、軟件、邏輯或其任意組合實(shí)施。一些方面可以以硬件實(shí)施，而其它一些方面可以以固件或軟件實(shí)施，該固件或軟件可以由控制器、微處理器或其它計算設(shè)備執(zhí)行。雖然本公開的各種方面被示出和描述為框圖、流程圖或使用其它一些繪圖表示，但是可以理解本文描述的框、設(shè)備、系統(tǒng)、技術(shù)或方法可以以非限制性的方式以硬件、軟件、固件、專用電路或邏輯、通用硬件或控制器或其它計算設(shè)備或其一些組合實(shí)施。

此外，雖然操作以特定順序描述，但是這不應(yīng)被理解為要求這類操作以所示的順序執(zhí)行或是以順序序列執(zhí)行，或是要求所有所示的操作被執(zhí)行以實(shí)現(xiàn)期望結(jié)果。在一些情形下，多任務(wù)或并行處理可以是有利的。類似地，雖然若干具體實(shí)現(xiàn)方式的細(xì)節(jié)在上面的討論中被包含，但是這些不應(yīng)被解釋為對本公開的范圍的任何限制，而是特征的描述僅是針對具體實(shí)施例。在分離的一些實(shí)施例中描述的某些特征也可以在單個實(shí)施例中組合地執(zhí)行。相反對，在單個實(shí)施例中描述的各種特征也可以在多個實(shí)施例中分離地實(shí)施或是以任何合適的子組合的方式實(shí)施。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：郭宇;白洪亮;董遠(yuǎn)
技術(shù)所有人：北京飛搜科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于多區(qū)域特征與度量學(xué)習(xí)的人臉特征識別方法及系統(tǒng)與流程