1.一種基于卷積神經(jīng)網(wǎng)絡(luò)的人手圖像區(qū)域檢測(cè)方法,其特征在于,包括以下步驟:
1)采集多個(gè)訓(xùn)練圖像,對(duì)訓(xùn)練圖像標(biāo)注手腕和手掌中心的位置,并計(jì)算人手角度,然后根據(jù)人手角度把訓(xùn)練集分為多個(gè)角度集合;以各個(gè)角度集合為訓(xùn)練子集,訓(xùn)練一個(gè)多部件的滑動(dòng)窗口型的分類模型M1;
2)基于分類模型M1,對(duì)訓(xùn)練集的每個(gè)圖像提取候選區(qū)域P1,并對(duì)候選區(qū)域標(biāo)注類別與角度信息;
3)將根據(jù)訓(xùn)練集得到的候選區(qū)域P1送入卷積神經(jīng)網(wǎng)絡(luò),訓(xùn)練得到角度估計(jì)模型M2;
4)將候選區(qū)域P1逐個(gè)送入角度估計(jì)模型M2,得到每個(gè)區(qū)域的角度A1,將其按角度A1旋轉(zhuǎn)至正定姿態(tài),得到正定姿態(tài)的候選區(qū)域集合P2;
5)將正定姿態(tài)的候選區(qū)域集合P2送入卷積神經(jīng)網(wǎng)絡(luò),訓(xùn)練得到類別估計(jì)模型M3。
6)對(duì)于測(cè)試集,將集合中圖像送入分類模型M1,得到候選區(qū)域P3。
7)將候選區(qū)域P3逐個(gè)送入角度估計(jì)模型M2,得到每個(gè)區(qū)域的角度A2,將其按角度A2旋轉(zhuǎn)至正定姿態(tài),得到正定姿態(tài)的候選區(qū)域集合P4。
8)將正定姿態(tài)的候選區(qū)域集合P4送入類別估計(jì)模型M3中,得到候選區(qū)域類別估計(jì)信息,從而確定人手圖像區(qū)域。
2.如權(quán)利要求1所述的方法,其特征在于,步驟1)中訓(xùn)練集的角度劃分包括以下步驟:
1.1)統(tǒng)計(jì)訓(xùn)練集角度分布,根據(jù)分布直方圖將角度等分為N個(gè)區(qū)域;
1.2)基于每個(gè)區(qū)域內(nèi)的訓(xùn)練樣本,訓(xùn)練一個(gè)分類模型部件,將N個(gè)部件整合形成一個(gè)整體分類模型M4;
1.3)對(duì)于每一訓(xùn)練樣本,送入分類模型M4,計(jì)算其在各個(gè)分類模型部件的分?jǐn)?shù),選取分?jǐn)?shù)最高的部件,并將該樣本劃分給該部件對(duì)應(yīng)的角度區(qū)域;
1.4)重復(fù)步驟1.2)、步驟1.3)直到角度區(qū)域內(nèi)樣本不發(fā)生明顯改變或到達(dá)預(yù)定重復(fù)次數(shù)。
3.如權(quán)利要求2所述的方法,其特征在于,步驟1.2)中分類模型的訓(xùn)練包括以下步驟:
1.2.1)對(duì)于一個(gè)訓(xùn)練樣本,按α倍率分別放大和縮小各K級(jí),組成2K+1層金字塔,其中α<1;
1.2.2)將2K+1層金字塔送入M層卷積神經(jīng)網(wǎng),通過(guò)預(yù)訓(xùn)練得到分類特征金字塔;
1.2.3)在分類特征金字塔上,每層都使用滑動(dòng)窗口掃描,計(jì)算其真值的交集面積I與并集面積U,得到I與U的比值IoU;選擇IoU比值大于β的候選區(qū)域作為正樣本,即類別為1,其余樣本為負(fù)樣本,類別為0;其中β<1;
1.2.4)選擇全部正樣本作為正樣本集,隨機(jī)選擇部分負(fù)樣本作為負(fù)樣本集,使用梯度下降法訓(xùn)練一個(gè)模板分類器;
1.2.5)將所有負(fù)樣本送入模板分類器,選取前T個(gè)分?jǐn)?shù)最高且分?jǐn)?shù)大于某一閾值的負(fù)樣本加入負(fù)樣本集,若負(fù)樣本集數(shù)目大于最大值,丟棄若干分?jǐn)?shù)最低的負(fù)樣本,使得負(fù)樣本集數(shù)目等于最大值;
1.2.6)重復(fù)步驟1.2.4)、步驟1.2.5)直到模板分類精度達(dá)到某一閾值或到達(dá)預(yù)定重復(fù)次數(shù)。
4.如權(quán)利要求1所述的方法,其特征在于,步驟2)中候選區(qū)域的類別與角度信息的標(biāo)注包括以下步驟:
2.1)對(duì)于每一個(gè)候選區(qū)域計(jì)算其真值的交集面積I與并集面積U,得到I與U的比值IoU;
2.2)選擇IoU比值大于β的候選區(qū)域作為正樣本,即類別為1,其余樣本為負(fù)樣本,類別為0;其中β<1;
2.3)對(duì)每一個(gè)正樣本,選擇與其IoU比值最大的真值,并該真值的角度作為該樣本的角度信息;
2.4)使用所有正樣本訓(xùn)練角度估計(jì)模型M2,使用訓(xùn)練集所有樣本訓(xùn)練類別估計(jì)模型M3。
5.如權(quán)利要求1所述的方法,其特征在于,步驟3)訓(xùn)練角度估計(jì)模型包括以下步驟:
3.1)將所有訓(xùn)練樣本縮放至固定大小;
3.2)計(jì)算每個(gè)像素點(diǎn)每個(gè)通道平均值,得到一個(gè)平均值圖像,對(duì)每個(gè)訓(xùn)練樣本減去該平均值圖像;
3.3)將訓(xùn)練樣本送入N層網(wǎng)絡(luò)結(jié)構(gòu),進(jìn)行訓(xùn)練得到角度估計(jì)模型。
6.如權(quán)利要求5所述的方法,其特征在于,所述步驟3.3)進(jìn)一步包括:
3.3.1)根據(jù)標(biāo)注好的角度θ,計(jì)算得到cosθ,sinθ作為角度的真值;
3.3.2)計(jì)算E=||(x1,x2)-(cosθ,sinθ)||2,其中E表示角度估計(jì)模型的殘差,(x1,x2)表示角度估計(jì)模型M2的估計(jì)值;
3.3.3)利用得到的殘差E,使用最優(yōu)化方法更新角度估計(jì)模型M1的各個(gè)權(quán)重達(dá)到訓(xùn)練的目的。
7.如權(quán)利要求6所述的方法,其特征在于,步驟4)所述旋轉(zhuǎn)至正定姿態(tài)的方法是:
4.1)將角度估計(jì)模型得到的(x1,x2),正則化使得||(x1,x2)||2=1;
4.2)假定非正定的輸入U(xiǎn),正定的輸出V,
其中為非正定的輸入U(xiǎn)上的坐標(biāo),為正定的輸出V上對(duì)應(yīng)的坐標(biāo),Aθ表示非正定輸入到正定輸出的變化矩陣;具體地,
其中,H,W表示非正定的輸入U(xiǎn)的長(zhǎng)和寬,H′,W′表示正定的輸入V的長(zhǎng)和寬,C表示輸入輸出的通道數(shù),k(x)為某一采樣函數(shù),Φx,Φy為采樣參數(shù)k(x)的參數(shù);m,n表示非正定的輸入U(xiǎn)上的坐標(biāo);當(dāng)k(x)為max(x)時(shí),
進(jìn)而得到正定的輸出V。
8.如權(quán)利要求1所述的方法,其特征在于,步驟5)訓(xùn)練類別估計(jì)模型的步驟包括:
5.1)將所有訓(xùn)練樣本縮放至固定大??;
5.2)計(jì)算每個(gè)像素點(diǎn)每個(gè)通道平均值,得到一個(gè)平均值圖像,對(duì)每個(gè)訓(xùn)練樣本減去該平均值圖像;
5.3)將訓(xùn)練樣本送入G層網(wǎng)絡(luò)結(jié)構(gòu),進(jìn)行訓(xùn)練得到類別估計(jì)模型。
9.如權(quán)利要求8所述的方法,其特征在于,步驟5.3)包括:
5.3.1)選擇全部正樣本作為正樣本集,隨機(jī)選擇部分負(fù)樣本作為負(fù)樣本集,使用梯度下降法訓(xùn)練一個(gè)模板分類器;
5.3.2)將所有負(fù)樣本送入模板分類器,選取前T個(gè)分?jǐn)?shù)最高且分?jǐn)?shù)大于某一閾值的負(fù)樣本加入負(fù)樣本集,若負(fù)樣本集數(shù)目大于最大值,丟棄若干分?jǐn)?shù)最低的負(fù)樣本,使得負(fù)樣本集數(shù)目等于最大值;
5.3.3)重復(fù)步驟5.3.1)、5.3.2)直到模板分類精度達(dá)到某一閾值或到達(dá)預(yù)定重復(fù)次數(shù)。
10.如權(quán)利要求9所述的方法,其特征在于,步驟5.3)進(jìn)一步包括:
a)計(jì)算其中,E表示類別估計(jì)模型的殘差,p為類別真值,為類別估計(jì)分?jǐn)?shù);
b)利用得到的殘差E,使用最優(yōu)化方法更新類別估計(jì)模型M3的各個(gè)權(quán)重達(dá)到訓(xùn)練的目的。