一種基于卷積神經(jīng)網(wǎng)絡(luò)的人手圖像區(qū)域檢測(cè)方法與流程

文檔序號(hào)：11865263閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>一種基于卷積神經(jīng)網(wǎng)絡(luò)的人手圖像區(qū)域檢測(cè)方法與流程

技術(shù)特征：

1.一種基于卷積神經(jīng)網(wǎng)絡(luò)的人手圖像區(qū)域檢測(cè)方法，其特征在于，包括以下步驟：

1)采集多個(gè)訓(xùn)練圖像，對(duì)訓(xùn)練圖像標(biāo)注手腕和手掌中心的位置，并計(jì)算人手角度，然后根據(jù)人手角度把訓(xùn)練集分為多個(gè)角度集合；以各個(gè)角度集合為訓(xùn)練子集，訓(xùn)練一個(gè)多部件的滑動(dòng)窗口型的分類模型M1；

2)基于分類模型M1，對(duì)訓(xùn)練集的每個(gè)圖像提取候選區(qū)域P1，并對(duì)候選區(qū)域標(biāo)注類別與角度信息；

3)將根據(jù)訓(xùn)練集得到的候選區(qū)域P1送入卷積神經(jīng)網(wǎng)絡(luò)，訓(xùn)練得到角度估計(jì)模型M2；

4)將候選區(qū)域P1逐個(gè)送入角度估計(jì)模型M2，得到每個(gè)區(qū)域的角度A1，將其按角度A1旋轉(zhuǎn)至正定姿態(tài)，得到正定姿態(tài)的候選區(qū)域集合P2；

5)將正定姿態(tài)的候選區(qū)域集合P2送入卷積神經(jīng)網(wǎng)絡(luò)，訓(xùn)練得到類別估計(jì)模型M3。

6)對(duì)于測(cè)試集，將集合中圖像送入分類模型M1，得到候選區(qū)域P3。

7)將候選區(qū)域P3逐個(gè)送入角度估計(jì)模型M2，得到每個(gè)區(qū)域的角度A2，將其按角度A2旋轉(zhuǎn)至正定姿態(tài)，得到正定姿態(tài)的候選區(qū)域集合P4。

8)將正定姿態(tài)的候選區(qū)域集合P4送入類別估計(jì)模型M3中，得到候選區(qū)域類別估計(jì)信息，從而確定人手圖像區(qū)域。

2.如權(quán)利要求1所述的方法，其特征在于，步驟1)中訓(xùn)練集的角度劃分包括以下步驟：

1.1)統(tǒng)計(jì)訓(xùn)練集角度分布，根據(jù)分布直方圖將角度等分為N個(gè)區(qū)域；

1.2)基于每個(gè)區(qū)域內(nèi)的訓(xùn)練樣本，訓(xùn)練一個(gè)分類模型部件，將N個(gè)部件整合形成一個(gè)整體分類模型M4；

1.3)對(duì)于每一訓(xùn)練樣本，送入分類模型M4，計(jì)算其在各個(gè)分類模型部件的分?jǐn)?shù)，選取分?jǐn)?shù)最高的部件，并將該樣本劃分給該部件對(duì)應(yīng)的角度區(qū)域；

1.4)重復(fù)步驟1.2)、步驟1.3)直到角度區(qū)域內(nèi)樣本不發(fā)生明顯改變或到達(dá)預(yù)定重復(fù)次數(shù)。

3.如權(quán)利要求2所述的方法，其特征在于，步驟1.2)中分類模型的訓(xùn)練包括以下步驟：

1.2.1)對(duì)于一個(gè)訓(xùn)練樣本，按α倍率分別放大和縮小各K級(jí)，組成2K+1層金字塔，其中α<1；

1.2.2)將2K+1層金字塔送入M層卷積神經(jīng)網(wǎng)，通過(guò)預(yù)訓(xùn)練得到分類特征金字塔；

1.2.3)在分類特征金字塔上，每層都使用滑動(dòng)窗口掃描，計(jì)算其真值的交集面積I與并集面積U，得到I與U的比值IoU；選擇IoU比值大于β的候選區(qū)域作為正樣本，即類別為1，其余樣本為負(fù)樣本，類別為0；其中β<1；

1.2.4)選擇全部正樣本作為正樣本集，隨機(jī)選擇部分負(fù)樣本作為負(fù)樣本集，使用梯度下降法訓(xùn)練一個(gè)模板分類器；

1.2.5)將所有負(fù)樣本送入模板分類器，選取前T個(gè)分?jǐn)?shù)最高且分?jǐn)?shù)大于某一閾值的負(fù)樣本加入負(fù)樣本集，若負(fù)樣本集數(shù)目大于最大值，丟棄若干分?jǐn)?shù)最低的負(fù)樣本，使得負(fù)樣本集數(shù)目等于最大值；

1.2.6)重復(fù)步驟1.2.4)、步驟1.2.5)直到模板分類精度達(dá)到某一閾值或到達(dá)預(yù)定重復(fù)次數(shù)。

4.如權(quán)利要求1所述的方法，其特征在于，步驟2)中候選區(qū)域的類別與角度信息的標(biāo)注包括以下步驟：

2.1)對(duì)于每一個(gè)候選區(qū)域計(jì)算其真值的交集面積I與并集面積U，得到I與U的比值IoU；

2.2)選擇IoU比值大于β的候選區(qū)域作為正樣本，即類別為1，其余樣本為負(fù)樣本，類別為0；其中β<1；

2.3)對(duì)每一個(gè)正樣本，選擇與其IoU比值最大的真值，并該真值的角度作為該樣本的角度信息；

2.4)使用所有正樣本訓(xùn)練角度估計(jì)模型M2，使用訓(xùn)練集所有樣本訓(xùn)練類別估計(jì)模型M3。

5.如權(quán)利要求1所述的方法，其特征在于，步驟3)訓(xùn)練角度估計(jì)模型包括以下步驟：

3.1)將所有訓(xùn)練樣本縮放至固定大小；

3.2)計(jì)算每個(gè)像素點(diǎn)每個(gè)通道平均值，得到一個(gè)平均值圖像，對(duì)每個(gè)訓(xùn)練樣本減去該平均值圖像；

3.3)將訓(xùn)練樣本送入N層網(wǎng)絡(luò)結(jié)構(gòu)，進(jìn)行訓(xùn)練得到角度估計(jì)模型。

6.如權(quán)利要求5所述的方法，其特征在于，所述步驟3.3)進(jìn)一步包括：

3.3.1)根據(jù)標(biāo)注好的角度θ，計(jì)算得到cosθ,sinθ作為角度的真值；

3.3.2)計(jì)算E＝||(x₁,x₂)-(cosθ,sinθ)||₂，其中E表示角度估計(jì)模型的殘差，(x₁,x₂)表示角度估計(jì)模型M2的估計(jì)值；

3.3.3)利用得到的殘差E，使用最優(yōu)化方法更新角度估計(jì)模型M1的各個(gè)權(quán)重達(dá)到訓(xùn)練的目的。

7.如權(quán)利要求6所述的方法，其特征在于，步驟4)所述旋轉(zhuǎn)至正定姿態(tài)的方法是：

4.1)將角度估計(jì)模型得到的(x₁,x₂)，正則化使得||(x₁,x₂)||₂＝1；

4.2)假定非正定的輸入U(xiǎn)，正定的輸出V，

$<mrow> <mfenced open = "(" close = ")"> <mtable> <mtr> <mtd> <msubsup> <mi>x</mi> <mi>i</mi> <mi>s</mi> </msubsup> </mtd> </mtr> <mtr> <mtd> <msubsup> <mi>y</mi> <mi>i</mi> <mi>s</mi> </msubsup> </mtd> </mtr> </mtable> </mfenced> <mo>=</mo> <msub> <mi>A</mi> <mi>θ</mi> </msub> <mfenced open = "(" close = ")"> <mtable> <mtr> <mtd> <msubsup> <mi>x</mi> <mi>i</mi> <mi>t</mi> </msubsup> </mtd> </mtr> <mtr> <mtd> <msubsup> <mi>y</mi> <mi>i</mi> <mi>t</mi> </msubsup> </mtd> </mtr> <mtr> <mtd> <mn>1</mn> </mtd> </mtr> </mtable> </mfenced> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <msub> <mi>x</mi> <mn>2</mn> </msub> </mtd> <mtd> <msub> <mi>x</mi> <mn>1</mn> </msub> </mtd> <mtd> <mn>0</mn> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>-</mo> <msub> <mi>x</mi> <mn>1</mn> </msub> </mrow> </mtd> <mtd> <msub> <mi>x</mi> <mn>2</mn> </msub> </mtd> <mtd> <mn>0</mn> </mtd> </mtr> </mtable> </mfenced> <mfenced open = "(" close = ")"> <mtable> <mtr> <mtd> <msubsup> <mi>x</mi> <mi>i</mi> <mi>t</mi> </msubsup> </mtd> </mtr> <mtr> <mtd> <msubsup> <mi>y</mi> <mi>i</mi> <mi>t</mi> </msubsup> </mtd> </mtr> <mtr> <mtd> <mn>1</mn> </mtd> </mtr> </mtable> </mfenced> <mo>,</mo> </mrow>$

其中為非正定的輸入U(xiǎn)上的坐標(biāo)，為正定的輸出V上對(duì)應(yīng)的坐標(biāo)，A_θ表示非正定輸入到正定輸出的變化矩陣；具體地，

$<mrow> <msubsup> <mi>V</mi> <mi>i</mi> <mi>c</mi> </msubsup> <mo>=</mo> <munderover> <mo>Σ</mo> <mi>n</mi> <mi>H</mi> </munderover> <munderover> <mo>Σ</mo> <mi>m</mi> <mi>W</mi> </munderover> <msubsup> <mi>U</mi> <mrow> <mi>n</mi> <mi>m</mi> </mrow> <mi>c</mi> </msubsup> <mi>k</mi> <mrow> <mo>(</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mi>s</mi> </msubsup> <mo>-</mo> <mi>m</mi> <mo>;</mo> <msub> <mi>Φ</mi> <mi>x</mi> </msub> <mo>)</mo> </mrow> <mi>k</mi> <mrow> <mo>(</mo> <msubsup> <mi>y</mi> <mi>i</mi> <mi>s</mi> </msubsup> <mo>-</mo> <mi>n</mi> <mo>;</mo> <msub> <mi>Φ</mi> <mi>y</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> </mrow>$

$<mrow> <mo>&ForAll;</mo> <mi>i</mi> <mo>&Element;</mo> <mo>[</mo> <mn>1</mn> <mo>...</mo> <msup> <mi>H</mi> <mo>′</mo> </msup> <msup> <mi>W</mi> <mo>′</mo> </msup> <mo>]</mo> <mo>,</mo> <mo>&ForAll;</mo> <mi>c</mi> <mo>&Element;</mo> <mo>[</mo> <mn>1</mn> <mo>...</mo> <mi>C</mi> <mo>]</mo> <mo>,</mo> </mrow>$

其中，H,W表示非正定的輸入U(xiǎn)的長(zhǎng)和寬，H′,W′表示正定的輸入V的長(zhǎng)和寬，C表示輸入輸出的通道數(shù)，k(x)為某一采樣函數(shù)，Φ_x,Φ_y為采樣參數(shù)k(x)的參數(shù)；m,n表示非正定的輸入U(xiǎn)上的坐標(biāo)；當(dāng)k(x)為max(x)時(shí)，

$<mrow> <msubsup> <mi>V</mi> <mi>i</mi> <mi>c</mi> </msubsup> <mo>=</mo> <munderover> <mo>Σ</mo> <mi>n</mi> <mi>H</mi> </munderover> <munderover> <mo>Σ</mo> <mi>m</mi> <mi>W</mi> </munderover> <msubsup> <mi>U</mi> <mrow> <mi>n</mi> <mi>m</mi> </mrow> <mi>c</mi> </msubsup> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <mn>0</mn> <mo>,</mo> <mn>1</mn> <mo>-</mo> <mo>|</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mi>s</mi> </msubsup> <mo>-</mo> <mi>m</mi> <mo>|</mo> <mo>)</mo> </mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <mn>0</mn> <mo>,</mo> <mn>1</mn> <mo>-</mo> <mo>|</mo> <msubsup> <mi>y</mi> <mi>i</mi> <mi>s</mi> </msubsup> <mo>-</mo> <mi>n</mi> <mo>|</mo> <mo>)</mo> </mrow> <mo>,</mo> </mrow>$

進(jìn)而得到正定的輸出V。

8.如權(quán)利要求1所述的方法，其特征在于，步驟5)訓(xùn)練類別估計(jì)模型的步驟包括：

5.1)將所有訓(xùn)練樣本縮放至固定大??；

5.2)計(jì)算每個(gè)像素點(diǎn)每個(gè)通道平均值，得到一個(gè)平均值圖像，對(duì)每個(gè)訓(xùn)練樣本減去該平均值圖像；

5.3)將訓(xùn)練樣本送入G層網(wǎng)絡(luò)結(jié)構(gòu)，進(jìn)行訓(xùn)練得到類別估計(jì)模型。

9.如權(quán)利要求8所述的方法，其特征在于，步驟5.3)包括：

5.3.1)選擇全部正樣本作為正樣本集，隨機(jī)選擇部分負(fù)樣本作為負(fù)樣本集，使用梯度下降法訓(xùn)練一個(gè)模板分類器；

5.3.2)將所有負(fù)樣本送入模板分類器，選取前T個(gè)分?jǐn)?shù)最高且分?jǐn)?shù)大于某一閾值的負(fù)樣本加入負(fù)樣本集，若負(fù)樣本集數(shù)目大于最大值，丟棄若干分?jǐn)?shù)最低的負(fù)樣本，使得負(fù)樣本集數(shù)目等于最大值；

5.3.3)重復(fù)步驟5.3.1)、5.3.2)直到模板分類精度達(dá)到某一閾值或到達(dá)預(yù)定重復(fù)次數(shù)。

10.如權(quán)利要求9所述的方法，其特征在于，步驟5.3)進(jìn)一步包括：

a)計(jì)算其中，E表示類別估計(jì)模型的殘差，p為類別真值，為類別估計(jì)分?jǐn)?shù)；

b)利用得到的殘差E，使用最優(yōu)化方法更新類別估計(jì)模型M3的各個(gè)權(quán)重達(dá)到訓(xùn)練的目的。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁(yè)1 2 3

相關(guān)技術(shù)