一種基于多通道網(wǎng)絡(luò)的視頻人臉檢測和識別方法與流程

文檔序號：12670547閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>一種基于多通道網(wǎng)絡(luò)的視頻人臉檢測和識別方法與流程

技術(shù)特征：

1.一種基于多通道網(wǎng)絡(luò)的視頻人臉檢測和識別方法，其特征在于：所述的方法包括如下步驟：

S1：視頻預(yù)處理

接收監(jiān)控設(shè)備收集到的視頻數(shù)據(jù)，并將其分解為一幀一幀的圖像，給每一幀圖像加上時間信息；

S2：目標(biāo)人臉檢測和姿態(tài)系數(shù)計算，過程如下：

提取視頻圖像中人臉位置以及對應(yīng)的五官位置，計算視頻圖像中人臉以及標(biāo)準(zhǔn)姿態(tài)人臉五官的距離，計算姿態(tài)系數(shù)，整合姿態(tài)相近圖像，將相鄰幀間位置接近且姿態(tài)系數(shù)相差最小的人臉視為同一人臉族中的人臉；定義閾值φ，對于每一個人臉族，選取m張p＜φ的人臉；如果在該人臉族中p＜φ的人臉圖像數(shù)為m_p＜φ張，則將該人臉族中姿態(tài)系p最小的一張人臉圖像復(fù)制m-m_p＜φ份，與其他圖像一同構(gòu)成m張圖像，輸入到S3中；

S3：人臉姿態(tài)糾正：對于S2中得到的m張人臉，進(jìn)行姿態(tài)調(diào)整；

S4：基于深度神經(jīng)網(wǎng)絡(luò)的人臉特征提取，過程如下：

S4.1人臉特征提取網(wǎng)絡(luò)訓(xùn)練

在進(jìn)行視頻圖像的人臉特征提取時，已預(yù)先利用人臉數(shù)據(jù)庫進(jìn)行特征模型訓(xùn)練，獲取人臉數(shù)據(jù)庫中每個人不同角度、不同光照下的M張圖像，隨機抽取其中m張圖像，對這m張圖像進(jìn)行姿態(tài)矯正后，將其組合成w'×h'×3m的人臉圖像，其中w'為訓(xùn)練圖片的寬，h'為訓(xùn)練圖片的高，3m為RGB3通道乘以圖像數(shù)量m，對人臉數(shù)據(jù)庫中每個人進(jìn)行上述操作，并編上標(biāo)簽，輸入到神經(jīng)網(wǎng)絡(luò)中訓(xùn)練；

S4.2視頻人臉特征提取

通過S3中得到了m張w×h×3矯正后的人臉彩色圖像，每個圖像有3個通道，將不同圖像以不同通道的形式融合在一起，即融合為一張有3×m個通道的人臉圖像w×h×3m；

將得到的這張w×h×3m的人臉圖像輸入S4.1訓(xùn)練得到到人臉特征提取網(wǎng)絡(luò)中，并最終得到一個代表該人臉的特征向量；

S5人臉特征比對

對于輸入的人臉，利用步驟S4得到特征向量后，再利用余弦距離來匹配輸入人臉特征向量與特征庫中向量的匹配度，計算過程如下：

S5.1初步篩選

計算待識別人臉的特征與每個類的中心特征的余弦距離，計算方式如公式(10)所示，操作表示為向量的二范數(shù)，即向量的長度，cosθ即為向量與向量的余弦距離：

$<mrow> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mi>θ</mi> <mo>=</mo> <mfrac> <mrow> <mover> <msub> <mi>X</mi> <mn>1</mn> </msub> <mo>&RightArrow;</mo> </mover> <mo>·</mo> <mover> <msub> <mi>X</mi> <mn>2</mn> </msub> <mo>&RightArrow;</mo> </mover> </mrow> <mrow> <mo>|</mo> <mo>|</mo> <mover> <msub> <mi>X</mi> <mn>1</mn> </msub> <mo>&RightArrow;</mo> </mover> <mo>|</mo> <mo>|</mo> <mo>·</mo> <mo>|</mo> <mo>|</mo> <mover> <msub> <mi>X</mi> <mn>2</mn> </msub> <mo>&RightArrow;</mo> </mover> <mo>|</mo> <mo>|</mo> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>$

與待識別人臉余弦距離大于設(shè)定閾值的類加入備選類中，如果待識別人臉的特征與所有類的中心特征的余弦距離均小于則視為數(shù)據(jù)庫中未存儲該人的信息，結(jié)束識別。

2.如權(quán)利要求1所述的一種基于多通道網(wǎng)絡(luò)的視頻人臉檢測和識別方法，其特征在于：所述步驟S5還包括以下步驟：

S5.2精確篩選

對于每一個備選類中的每一個人臉，計算它們的特征向量與待識別人臉的特征向量的余弦距離，選取其中余弦距離超過設(shè)定閾值ρ的人臉作為識別結(jié)果，并將識別結(jié)果所在的視頻圖像輸出；如果每一個備選類中的每一個人臉與待識別人臉的余弦距離均小于ρ，則視為數(shù)據(jù)庫中未存儲該人的信息。

3.如權(quán)利要求1或2所述的一種基于多通道網(wǎng)絡(luò)的視頻人臉檢測和識別方法，其特征在于：所述步驟S1中，接收到的視頻中的第一幀圖像為圖像1，然后按時間順序設(shè)定視頻中的第t幀圖像為圖像t，以I_t表示第t幀圖像，以I表示同一視頻的幀圖像集合，完成對視頻的預(yù)處理后，按時間從前到后的順序?qū)⒎纸獾膱D像傳到人臉目標(biāo)檢測模塊中。

4.如權(quán)利要求1或2所述的一種基于多通道網(wǎng)絡(luò)的視頻人臉檢測和識別方法，其特征在于：所述步驟S2中，目標(biāo)人臉檢測和姿態(tài)系數(shù)計算的過程如下：

S2.1提取視頻圖像中人臉位置以及對應(yīng)的五官位置

對于每一幀圖像I_t，利用哈爾特征找出該幀圖像中存在的人臉以及對應(yīng)的五官的坐標(biāo)，分別記作F₁(x₁,y₁)，F(xiàn)₂(x₂,y₂)，F(xiàn)₃(x₃,y₃)，F(xiàn)₄(x₄,y₄)，F(xiàn)₅(x₅,y₅)；

S2.2計算視頻圖像中人臉以及標(biāo)準(zhǔn)姿態(tài)人臉五官的距離

令標(biāo)準(zhǔn)姿態(tài)圖像I'中人臉五官的坐標(biāo)為F₁'(x'₁,y'₁)，F(xiàn)₂'(x'₂,y'₂)，F(xiàn)₃'(x'₃,y'₃)，F(xiàn)₄'(x'₄,y'₄)，F(xiàn)₅'(x'₅,y'₅)，利用公式(1)和公式(2)計算視頻圖像I_t和標(biāo)準(zhǔn)姿態(tài)圖像I'中人臉五官間相互距離：

$<mrow> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msqrt> <mrow> <msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <msup> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>y</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>$

$<mrow> <msub> <msup> <mi>d</mi> <mo>′</mo> </msup> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msqrt> <mrow> <msup> <mrow> <mo>(</mo> <msub> <msup> <mi>x</mi> <mo>′</mo> </msup> <mi>i</mi> </msub> <mo>-</mo> <msub> <msup> <mi>x</mi> <mo>′</mo> </msup> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <msup> <mrow> <mo>(</mo> <msub> <msup> <mi>y</mi> <mo>′</mo> </msup> <mi>i</mi> </msub> <mo>-</mo> <msub> <msup> <mi>y</mi> <mo>′</mo> </msup> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>$

其中，(x_i,y_i)、(x_j,y_j)表示待查找人臉中不同五官的坐標(biāo)，(x'_i,y'_i)、(x'_j,y'_j)表示標(biāo)準(zhǔn)姿態(tài)圖像中不同五官的坐標(biāo)，d_ij表示待識別人臉五官間的相互距離，d'_ij表示標(biāo)準(zhǔn)姿態(tài)圖像中人臉五官間的相互距離；

S2.3計算姿態(tài)系數(shù)，整合姿態(tài)相近圖像

定義人臉的姿態(tài)系數(shù)p，利用公式(3)計算姿態(tài)系數(shù)p：

$<mrow> <mi>p</mi> <mo>=</mo> <mfrac> <mrow> <munder> <mo>Σ</mo> <mi>i</mi> </munder> <munder> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>></mo> <mi>i</mi> </mrow> </munder> <msup> <mrow> <mo>(</mo> <msub> <mi>λd</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <msub> <msup> <mi>d</mi> <mo>′</mo> </msup> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> <mrow> <munder> <mo>Σ</mo> <mi>i</mi> </munder> <munder> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>></mo> <mi>i</mi> </mrow> </munder> <msup> <mi>d</mi> <mo>′</mo> </msup> <msup> <msub> <mrow></mrow> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mn>2</mn> </msup> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>$

其中，λ為縮放系數(shù)，用以避免待識別人臉圖像與標(biāo)準(zhǔn)姿態(tài)圖像尺度不一致時造成的誤差，λ的值可由公式(4)計算得出，即λ取使得姿態(tài)系數(shù)最小的值；

$<mrow> <mi>λ</mi> <mo>=</mo> <mfrac> <mrow> <munder> <mo>Σ</mo> <mi>i</mi> </munder> <munder> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>></mo> <mi>i</mi> </mrow> </munder> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <msub> <msup> <mi>d</mi> <mo>′</mo> </msup> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> <mrow> <munder> <mo>Σ</mo> <mi>i</mi> </munder> <munder> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>></mo> <mi>i</mi> </mrow> </munder> <msup> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mn>2</mn> </msup> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> <mo>.</mo> </mrow>$

5.如權(quán)利要求4所述的一種基于多通道網(wǎng)絡(luò)的視頻人臉檢測和識別方法，其特征在于：所述步驟S3中，姿態(tài)調(diào)整的步驟如下：

S3.1計算人臉旋轉(zhuǎn)向量

通過已知的標(biāo)準(zhǔn)人臉模型以及視頻中五官特征點的坐標(biāo)，使用POSIT算法得到圖像中人臉的姿態(tài)信息，即人臉的旋轉(zhuǎn)向量R，即

$<mrow> <mi>R</mi> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <msub> <mi>R</mi> <mn>11</mn> </msub> </mtd> <mtd> <msub> <mi>R</mi> <mn>12</mn> </msub> </mtd> <mtd> <msub> <mi>R</mi> <mn>13</mn> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>R</mi> <mn>21</mn> </msub> </mtd> <mtd> <msub> <mi>R</mi> <mn>22</mn> </msub> </mtd> <mtd> <msub> <mi>R</mi> <mn>23</mn> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>R</mi> <mn>31</mn> </msub> </mtd> <mtd> <msub> <mi>R</mi> <mn>32</mn> </msub> </mtd> <mtd> <msub> <mi>R</mi> <mn>33</mn> </msub> </mtd> </mtr> </mtable> </mfenced> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <msubsup> <mi>R</mi> <mn>1</mn> <mi>T</mi> </msubsup> </mtd> </mtr> <mtr> <mtd> <msubsup> <mi>R</mi> <mn>2</mn> <mi>T</mi> </msubsup> </mtd> </mtr> <mtr> <mtd> <msubsup> <mi>R</mi> <mn>3</mn> <mi>T</mi> </msubsup> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>$

S3.2計算矯正圖像和原圖像的映射關(guān)系

通過人臉的旋轉(zhuǎn)向量，得到矯正后人臉圖像中某一像素點到原人臉圖像中某一像素點的映射關(guān)系，在矯正后圖像中以人臉中軸為y軸，以兩眼的連線為x軸，構(gòu)建坐標(biāo)系，令(x,y)＝f(x',y')為矯正后圖像上一點(x',y')到原圖像上一點(x,y)的映射，具體如下：

$<mrow> <mi>f</mi> <mrow> <mo>(</mo> <msup> <mi>x</mi> <mo>′</mo> </msup> <mo>,</mo> <msup> <mi>y</mi> <mo>′</mo> </msup> <mo>)</mo> </mrow> <mo>=</mo> <mo>[</mo> <msup> <mi>x</mi> <mo>′</mo> </msup> <mo>,</mo> <msup> <mi>y</mi> <mo>′</mo> </msup> <mo>,</mo> <mn>0</mn> <mo>]</mo> <mo>×</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <msub> <mi>R</mi> <mn>11</mn> </msub> </mtd> <mtd> <msub> <mi>R</mi> <mn>12</mn> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>R</mi> <mn>21</mn> </msub> </mtd> <mtd> <msub> <mi>R</mi> <mn>22</mn> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>R</mi> <mn>31</mn> </msub> </mtd> <mtd> <msub> <mi>R</mi> <mn>32</mn> </msub> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>$

S3.3姿態(tài)矯正

rgb'(x,y)為矯正后圖像上(x,y)處的rgb值，rgb(x,y)為原人臉圖像上(x,y)處的rgb值，則利用公式(7)得到矯正后人臉圖像中某一點(x,y)上的rgb值，設(shè)

$<mrow> <mtable> <mtr> <mtd> <mrow> <msup> <mi>rgb</mi> <mo>′</mo> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mo>-</mo> <mn>1</mn> <mo>,</mo> <mn>0</mn> <mo>,</mo> <mn>1</mn> </mrow> </munder> <munder> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>=</mo> <mo>-</mo> <mn>1</mn> <mo>,</mo> <mn>0</mn> <mo>,</mo> <mn>1</mn> </mrow> </munder> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>×</mo> <mi>r</mi> <mi>g</mi> <mi>b</mi> <mrow> <mo>(</mo> <mi>f</mi> <mo>(</mo> <mrow> <mi>x</mi> <mo>,</mo> <mi>y</mi> </mrow> <mo>)</mo> <mo>+</mo> <mo>[</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>]</mo> <mo>)</mo> </mrow> <mo>×</mo> <mi>G</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>+</mo> <munder> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mo>-</mo> <mn>1</mn> <mo>,</mo> <mn>0</mn> <mo>,</mo> <mn>1</mn> </mrow> </munder> <munder> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>=</mo> <mo>-</mo> <mn>1</mn> <mo>,</mo> <mn>0</mn> <mo>,</mo> <mn>1</mn> </mrow> </munder> <mi>k</mi> <mo>×</mo> <mi>r</mi> <mi>g</mi> <mi>b</mi> <mrow> <mo>(</mo> <mi>f</mi> <mo>(</mo> <mrow> <mo>-</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> </mrow> <mo>)</mo> <mo>+</mo> <mo>[</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>]</mo> <mo>)</mo> </mrow> <mo>×</mo> <mi>G</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>$

$<mrow> <mi>G</mi> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mn>0.0947</mn> </mtd> <mtd> <mn>0.1183</mn> </mtd> <mtd> <mn>0.0947</mn> </mtd> </mtr> <mtr> <mtd> <mn>0.1183</mn> </mtd> <mtd> <mn>0.1477</mn> </mtd> <mtd> <mn>0.1183</mn> </mtd> </mtr> <mtr> <mtd> <mn>0.0947</mn> </mtd> <mtd> <mn>0.1183</mn> </mtd> <mtd> <mn>0.0947</mn> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>$

其中，G為高斯概率矩陣，在實際操作過程中，因為不同人臉的實際三維模型和標(biāo)準(zhǔn)三維模型存在一定差別，所以矯正后圖像上的某一點與原圖像對應(yīng)點的映射關(guān)系會存在一定誤差，因而矯正后圖像上某一點的rgb值由原圖像上對應(yīng)位置處附近9個點的rgb共同得出，即通過高斯概率矩陣G求得該點處rgb值的期望值，作為該點的rgb值；公式(7)中k是事先設(shè)定好比例值；

對同一人臉族中的每張人臉進(jìn)行人臉姿態(tài)矯正后，得到m若干張大小為w×h×3的人臉圖像，即一張擁有RGB3個通道的w×h像素的彩色圖像。

6.如權(quán)利要求5所述的一種基于多通道網(wǎng)絡(luò)的視頻人臉檢測和識別方法，其特征在于：所述步驟S4.1中，采用梯度下降算法訓(xùn)練神經(jīng)網(wǎng)絡(luò)，每輸入batch張圖片并計算損失后更新神經(jīng)網(wǎng)絡(luò)的權(quán)重，網(wǎng)絡(luò)中全連接層3輸出的512維向量表示輸入的人臉是哪一人的概率，對其做softmax回歸，得到相應(yīng)的損失函數(shù)，即如公式(9)所示，其中，k表示輸入圖像所屬的類別，z_k表示全連接層3輸出的512維向量中的第k個數(shù)值：

loss＝∑-log f(z_k) (10)

計算了損失函數(shù)后，通過前向推斷計算和反向梯度計算，計算出神經(jīng)網(wǎng)絡(luò)中各層的更新值，對各層的權(quán)值進(jìn)行更新；

預(yù)先對數(shù)據(jù)庫中的人臉特征集進(jìn)行聚類分析以建立空間索引，操作步驟如下：

S4.1.1對于人臉特征庫中的特征使用聚類算法，將這些人臉特征聚為若干類；

S4.1.2對于每一類，計算類中所有人臉的特征向量的均值，記作該類的中心特征。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁1 2 3

相關(guān)技術(shù)