本發(fā)明涉及計算機視覺及機器學習領域,尤其涉及基于深度卷積神經(jīng)網(wǎng)絡的第一視角動態(tài)手勢檢測方法。
背景技術:
經(jīng)過幾次計算機革命之后,如今的生活變得更加智能及簡單,從而人機交互在生活中體現(xiàn)出越來越重要的地位,成為這個正在改變的世界中絕不可缺少的角色。如今可穿戴設備越來越受到人們的廣泛關注,而手勢可作為一個自然的交互連接通道,使得計算機和人的溝通更加容易,所以第一視角下的手勢交互在人機交互中具有重要的意義。手勢交互的技術主要涉及手勢的檢測,在一個自然場景下,檢測出手勢所在的區(qū)域外接矩形。目標物體檢測大致分為傳統(tǒng)算法和機器學習算法。傳統(tǒng)算法檢測復雜場景,不同膚色,不同光線,低像素下的動態(tài)手勢,不能得到滿意的結果。而近十多年機器學習掀起熱潮,在目標檢測方面能夠得到驚人的效果。基于深度卷積神經(jīng)網(wǎng)絡算法能夠在復雜背景,不同膚色,不同光線,模糊圖像,復雜手勢等等無法約束的條件下提取圖片的特征信息。
技術實現(xiàn)要素:
為克服現(xiàn)有技術的不足,通過輸入手勢視頻流,進入深度卷積神經(jīng)框架進行目標手勢檢測,本發(fā)明提出基于深度卷積神經(jīng)網(wǎng)絡的第一視角動態(tài)手勢檢測方法。
本發(fā)明的技術方案是這樣實現(xiàn)的,基于深度卷積神經(jīng)網(wǎng)絡的第一視角動態(tài)手勢檢測方法,包括步驟
s1:采集不同環(huán)境下的具有復雜背景的數(shù)字手勢圖片,利用標記工具,人工標記出手勢在所述數(shù)字手勢圖片中的外接矩形,保存所述外接矩形的左下角和右上角的坐標點;
s2:設計一個深度卷積神經(jīng)網(wǎng)絡,其輸入為三通道的手勢圖片,利用卷積計算提取每張手勢圖片的特征信息,得到多張?zhí)卣鲌D片,在特征圖片上進行滑窗操作,提取多個不同長寬比的候選框,同時在特征圖片上預測手勢外接矩形的坐標,并用特征圖存儲預測的候選框位置信息,將提出的候選框和預測的候選框于真實值進行閾值計算,去除重疊率低的候選框,將剩下的候選框與真實值進行匹配得到匹配到手存在的候選框,然后將匹配到手存在的候選框與真實值進行損失計算,利用隨機梯度下降,得到反向傳播殘差;
s3:利用已標記外接矩形的數(shù)字手勢圖片訓練所述深度卷積神經(jīng)網(wǎng)絡,使得深度卷積神經(jīng)網(wǎng)絡收斂且參數(shù)穩(wěn)定;
s4:在訓練完成的深度卷積神經(jīng)網(wǎng)絡的模型中輸入第一視角的動態(tài)手勢視頻,將視頻拆分成一幀幀圖片,檢測出圖片中手勢外接矩形位置的坐標點。
進一步地,步驟s1包括步驟
s11:將攝像頭置于眼睛附近,采集不同場景、不同光照、不同手勢、不同膚色下的動態(tài)手勢視頻;
s12:將所述動態(tài)手勢視頻拆分為一幀幀的圖片,每十秒采集一幀圖片作為圖片數(shù)據(jù)樣本;
s13:使用標記工具,人工對采集到的圖片進行外接矩形標注,記錄手勢所在外接矩形的左上角和右下角坐標;
s14:對坐標點進行歸一化處理。
進一步地,步驟s2中特征圖片上進行滑窗操作提取的候選框的長寬比包括但不限于1:1、1:2和2:1。
進一步地,步驟s2中所述去除重疊率低的候選框是去除重疊率小于0.3的候選框。
進一步地,步驟s2中將匹配到手存在的候選框與真實值進行損失計算包括步驟:通過歐氏距離公式計算提取到候選框的四維坐標向量與真實值的四維坐標向量的坐標偏移量。
進一步地,步驟s3包括步驟
s31:反向傳播殘差;
s32:利用已標記外接矩形的數(shù)字手勢圖片通過迭代更新深度卷積神經(jīng)網(wǎng)絡的參數(shù),對深度卷積神經(jīng)網(wǎng)絡進行優(yōu)化,使得深度卷積神經(jīng)網(wǎng)絡收斂;
s33:深度卷積神經(jīng)網(wǎng)絡穩(wěn)定后,得到并記錄每一層深度卷積神經(jīng)網(wǎng)絡的權值參數(shù)。
更進一步地,步驟s4包括步驟
s41:將攝像頭放置于眼睛周圍,拍攝不同的手勢視頻;
s42:將手勢視頻拆分成一幀幀圖片,將圖片作為深度卷積神經(jīng)網(wǎng)絡前向操作的輸入,在深度卷積神經(jīng)網(wǎng)絡的輸入層進行可視化處理;
s43:將可視化處理得到的四維坐標向量進行反歸一化處理,得到手勢區(qū)域的外接矩形坐標,并在圖片上描畫出手勢區(qū)域的外接矩形;
s43:將拆分并描畫了外接矩形的圖片合成視頻,檢測出手勢所在位置的外接矩形。
本發(fā)明的有益效果在于,與現(xiàn)有技術相比,本發(fā)明采用人工標注手勢外接矩形左上角,右下角坐標,并且對坐標進行歸一化處理,能夠使后續(xù)的訓練有較為準確的訓練樣本以及任意尺寸的原圖;本發(fā)明采用在特征圖上滑窗的方式,提取不同長寬比的候選框,達到提取特征圖上每個位置的候選框目的;本發(fā)明采用候選框與真實值進行匹配的方法,達到了區(qū)分候選框中是否存在手勢的目的;本發(fā)明采用深度卷積神經(jīng)網(wǎng)絡算法檢測手勢,達到了復雜背景,不同光線下準確檢測視頻中動態(tài)手勢的目的。
附圖說明
圖1是本發(fā)明基于深度卷積神經(jīng)網(wǎng)絡的第一視角動態(tài)手勢檢測方法流程圖;
圖2a是本發(fā)明中人工標注外接矩形的一個實施例示意圖;
圖2b是本發(fā)明中人工標注外接矩形的另一個實施例示意圖。
具體實施方式
下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
本發(fā)明主要用于解決復雜場景下第一視角的動態(tài)手勢實時檢測的問題,利用深度卷積神經(jīng)網(wǎng)絡提取數(shù)據(jù)高維和低維的特征信息,通過在這些特征信息中提取和預測多個候選框,閾值處理后將這些候選框與真實值進行位置損失計算,將計算得到的殘差進行網(wǎng)絡的反向傳播。
請參見圖1,本發(fā)明基于深度卷積神經(jīng)網(wǎng)絡的第一視角動態(tài)手勢檢測方法,包括步驟
s1:采集不同環(huán)境下的具有復雜背景的數(shù)字手勢圖片,利用標記工具,人工標記出手勢在所述數(shù)字手勢圖片中的外接矩形,保存所述外接矩形的左下角和右上角的坐標點;
s2:設計一個深度卷積神經(jīng)網(wǎng)絡,其輸入為三通道的手勢圖片,利用卷積計算提取每張手勢圖片的特征信息,得到多張?zhí)卣鲌D片,在特征圖片上進行滑窗操作,提取多個不同長寬比的候選框,同時在特征圖片上預測手勢外接矩形的坐標,并用特征圖存儲預測的候選框位置信息,將提出的候選框和預測的候選框于真實值進行閾值計算,去除重疊率低的候選框,將剩下的候選框與真實值進行匹配得到匹配到手存在的候選框,然后將匹配到手存在的候選框與真實值進行損失計算,利用隨機梯度下降,得到反向傳播殘差;
s3:利用已標記外接矩形的數(shù)字手勢圖片訓練所述深度卷積神經(jīng)網(wǎng)絡,使得深度卷積神經(jīng)網(wǎng)絡收斂且參數(shù)穩(wěn)定;
s4:在訓練完成的深度卷積神經(jīng)網(wǎng)絡的模型中輸入第一視角的動態(tài)手勢視頻,檢測出圖片中手勢外接矩形位置的坐標點。
其中步驟s1包括步驟
s11:將攝像頭置于眼睛附近采集動態(tài)手勢視頻。在不同場景,不同的光照,不同的手勢,不同的膚色下大量采集;
s12:處理數(shù)據(jù),將所有視頻拆分為一幀幀圖片,十秒間隔采集一幀圖片作為數(shù)據(jù)樣本;
s13:人工對每一幀圖片進行標注,找到手勢所在圖片中的外接矩形并記錄手勢所在區(qū)域的左上角(xmin,ymin)和右下角(xmax,ymax)的坐標,如圖2所示;
s14:坐標點進行歸一化處理后,任意改變原圖的尺寸,手勢外接矩形相對圖片的位置任不會改變。方法為:根據(jù)圖片的尺寸大小(h*w),將兩個坐標點進行歸一化處理,用坐標x除以圖片的長,坐標y除以圖片的寬,歸一化后的坐標為(x/h,y/w),將此歸一化后的坐標作為真實值與圖片名字配對并存儲。
步驟s2包括步驟
s21:設計一個深度卷積神經(jīng)網(wǎng)絡,輸入為三通道(rgb通道)的手勢圖片,利用卷積計算去提取每張圖片的特征信息,得到多張?zhí)卣鲌D片,
卷積計算公式為:
其中xi是神經(jīng)元的輸入,wi是與每個神經(jīng)元相乘的權值,b是偏置,y是下一層神經(jīng)元的輸出;
s22:其一在若干的特征圖上進行滑窗操作,提取多個不同長寬比(1:1,1:2,2:1)的候選框;
s23:其二在若干特征圖上預測手勢外接矩形的坐標,并且用特征圖來存儲預測出的候選框位置信息;
s24:將提取的和預測的候選框與真實值進行閾值計算,去除重疊率小于0.3的候選框:
閾值計算公式:
其中當y=1的時,表示候選框與真實值的重疊率大于0.3,保存此候選框,而y=0時,將此候選框丟棄;
s25:提取和預測的候選框與真實值進行匹配,若候選框匹配到手存在,則將框標為正樣本(表示框中有手存在),其余視為負樣本;
s26:位置的損失計算:通過歐氏距離公式計算提取和預測候選框(輸出的四維坐標向量)與真實值(輸入的四維坐標向量)的坐標偏移量。歐式距離公式:
s27:損失計算后利用隨機梯度下降,得到反向傳播的殘差為:
步驟s3包括步驟
s31:反向傳播每次得到的殘差;
s32:通過大量的數(shù)據(jù)并且多次迭代更新網(wǎng)絡參數(shù),對網(wǎng)絡進行優(yōu)化,網(wǎng)絡收斂;
s33:網(wǎng)絡參數(shù)趨于穩(wěn)定,得到每一層網(wǎng)絡的權值參數(shù)。
步驟s4包括步驟
s41:將攝像頭放置在眼睛周圍,模擬眼睛去拍攝不同的手勢視頻作為測試集樣本。視頻拆分成一幀幀圖片(frame),進入網(wǎng)絡進行前向操作,在網(wǎng)絡的輸出層進行可視化,記為函數(shù)g,
g(frame)=(xmin,ymin,xmax,ymax)
s42:將得到的四維坐標向量進行反歸一化操作后,(xmin,ymin)為外接矩形左上角的坐標,(xmax,ymax)為外接矩形右上角的坐標,描畫到原圖上,能夠得到手勢區(qū)域的外接矩形;
s43:將一幀幀圖像合成視頻,能夠動態(tài)的檢測出手勢所在位置,并且標注出手勢外接矩形(檢測出手勢所在位置)。
以上所述是本發(fā)明的優(yōu)選實施方式,應當指出,對于本技術領域的普通技術人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也視為本發(fā)明的保護范圍。