一種基于FasterR?CNN的手勢檢測和識別方法與流程

文檔序號：11216835閱讀：1200來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及基于計算機模式識別技術(shù)，具體涉及基于卷積神經(jīng)網(wǎng)絡(luò)的手勢檢測和識別技術(shù)，尤其涉及一種基于fasterregion-basedconvolutionalneuralnetworks(簡稱fasterr-cnn)的手勢檢測和識別方法。

背景技術(shù)：

21世紀(jì)以來，學(xué)者們已經(jīng)提出了很多手勢檢測和識別方法，主要是利用圖像分割方法，將手勢圖像從背景中分離出來，然后進行模板匹配識別手勢。早期的研究主要集中于基于數(shù)據(jù)手套的手勢識別，但使用起來不方便，器件成本較高，不利于在實際環(huán)境中的人機交互。另一種是基于計算機視覺的方法，較常用的方法有方向梯度直方圖(histogramoforientedgradient,簡稱hog)特征與支持向量機(supportvectormachine，簡稱svm)，基于kinect深度圖像的手勢檢測和基于膚色檢測技術(shù)的手勢分割。但是這些方法都需要在特定的場合下才能使用，不利于推廣。后來有學(xué)者提出了基于不同顏色空間的手勢檢測算法，這些基于膚色的檢測方法在背景單一的情況下可以取得不錯的效果，但在背景較為復(fù)雜時，效果一般。

卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetworks，簡稱cnn)是一種為了處理二維圖像而設(shè)計的人工神經(jīng)網(wǎng)絡(luò)，對翻轉(zhuǎn)、平移和比例縮放等具有扭曲不變性，因此已經(jīng)有學(xué)者將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在在手勢識別領(lǐng)域。但他們沒有進行手勢檢測，所以只適用于小圖片或簡單背景下的手勢識別。deepcnn成功地提高了目標(biāo)檢測和圖像分類的精度。

技術(shù)實現(xiàn)要素：

為了克服已有手勢識別方式的魯棒性較差、準(zhǔn)確率較低的不足,本發(fā)明提供了一種增強魯棒性、提高準(zhǔn)確率的基于fasterr-cnn的手勢檢測和識別方法。

本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是：

一種基于fasterr-cnn的手勢檢測和識別方法，所述方法包括以下步驟：

s1，采用fasterr-cnn網(wǎng)絡(luò)，面向手勢識別應(yīng)用設(shè)置網(wǎng)絡(luò)中的參數(shù)；

s2，給手勢樣本制作標(biāo)簽，并將標(biāo)簽樣本作為fasterr-cnn網(wǎng)絡(luò)的輸入，從其共享卷積層中輸出有效的非線性特征并輸入到區(qū)域提取網(wǎng)絡(luò)(regionproposalnetwork，簡稱rpn)和fastregion-basedconvolutionalneuralnetworks(簡稱fastr-cnn)；

由具有擾動交疊率算法的rpn網(wǎng)絡(luò)獲得手勢目標(biāo)的區(qū)域建議，并反饋給fastr-cnn網(wǎng)絡(luò)；

s3，由fastr-cnn網(wǎng)絡(luò)通過分類層和邊框回歸層，輸出手勢位置和手勢類別。

進一步，所述步驟s1中，根據(jù)所述采用fasterr-cnn網(wǎng)絡(luò)，面向手勢識別應(yīng)用設(shè)置網(wǎng)絡(luò)中的參數(shù)，包括：

fasterr-cnn網(wǎng)絡(luò)的輸入?yún)?shù)：將圖片輸入大小設(shè)置為640*480；將ntu數(shù)據(jù)集分類的類別數(shù)目設(shè)置為11類(包括背景)；使用vgg_cnn_m_1024網(wǎng)絡(luò)模型。

anchors的參數(shù)：本專利anchors的基準(zhǔn)面積大小設(shè)為8*8，使用三種寬高比2:1，1:1和1:2，采用的尺度為[8,12,16]。

再進一步，所述步驟s2中，根據(jù)所述從使用擾動交疊率算法的rpn中獲得手勢目標(biāo)的區(qū)域建議，包括：

通過擾動交疊率算法產(chǎn)生擾動標(biāo)簽，擾動交疊率算法采用的策略就是在每1000次迭代中按概率10％隨機選取一部分迭代的iou設(shè)為0.5，其余的iou都設(shè)為0.7；

更進一步，所述步驟s3中，由fastr-cnn網(wǎng)絡(luò)通過分類層和邊框回歸層，輸出手勢位置和手勢類別，包括：

通過regionofinterest(簡稱roi)池化層和全連接層得到手勢區(qū)域的1024維特征向量，再將此特征向量輸入到分類層和邊框回歸層；

分類層輸出1×11維手勢類別數(shù)據(jù)；

邊框回歸層輸出1×44維邊框坐標(biāo)數(shù)據(jù)。

本發(fā)明的有益效果主要表現(xiàn)在：增強手勢識別的魯棒性、提高手勢識別的準(zhǔn)確率。

附圖說明

圖1為基于fasterr-cnn的手勢檢測和識別方法的網(wǎng)絡(luò)結(jié)構(gòu)示意圖。

圖2為基于fasterr-cnn的手勢檢測和識別方法的流程示意圖

圖3為給樣本制作標(biāo)簽的流程示意圖。

圖4為anchor框的大小、比例示意圖。

具體實施方式

下面結(jié)合附圖對本發(fā)明作進一步描述。

參照圖1～圖4，一種基于fasterr-cnn的手勢檢測和識別方法，用于手勢的檢測與識別。本申請實施例所述的手勢檢測和識別方法，主要是指使用fasterr-cnn網(wǎng)絡(luò)和擾動交疊率算法。

本申請實施例中使用的網(wǎng)絡(luò)整體結(jié)構(gòu)如附圖1所示。將手勢標(biāo)簽數(shù)據(jù)輸入到fasterr-cnn網(wǎng)絡(luò)中，將共享卷積層中輸出的非線性特征輸入到區(qū)域提取網(wǎng)絡(luò)rpn和fastr-cnn網(wǎng)絡(luò)；然后將rpn網(wǎng)絡(luò)得到的手勢目標(biāo)的區(qū)域建議反饋給fastr-cnn網(wǎng)絡(luò)；最終由fastr-cnn網(wǎng)絡(luò)通過分類層和邊框回歸層，輸出手勢位置和手勢類別。

本申請實施例使用的數(shù)據(jù)為ntu-microsoft-kinect-handposturedataset(簡稱ntu)數(shù)據(jù)集中的手勢圖片。

如附圖2所示，本申請實施例的基于fasterr-cnn的手勢檢測和識別方法，主要包括如下步驟：

步驟s1，采用fasterr-cnn網(wǎng)絡(luò)，面向手勢識別應(yīng)用設(shè)置網(wǎng)絡(luò)中的參數(shù)；

步驟s2，給手勢樣本制作標(biāo)簽，并將標(biāo)簽樣本作為fasterr-cnn網(wǎng)絡(luò)的輸入，從中提取出有效的非線性特征并輸入到rpn網(wǎng)絡(luò)和fastr-cnn網(wǎng)絡(luò)；

步驟s3，由具有擾動交疊率算法的rpn網(wǎng)絡(luò)獲得手勢目標(biāo)的區(qū)域建議，并反饋給fastr-cnn網(wǎng)絡(luò)；

步驟s4，由fastr-cnn網(wǎng)絡(luò)通過分類層和邊框回歸層，輸出手勢位置和手勢類別。

本申請實施例中，根據(jù)所述采用fasterr-cnn網(wǎng)絡(luò)，面向手勢識別應(yīng)用設(shè)置網(wǎng)絡(luò)中的參數(shù)，包括：

fasterr-cnn網(wǎng)絡(luò)的輸入?yún)?shù)：將圖片輸入大小設(shè)置為640*480；將ntu數(shù)據(jù)集分類的類別數(shù)目設(shè)置為11類(包括10種手勢和背景)；使用vgg_cnn_m_1024網(wǎng)絡(luò)模型。

anchors的參數(shù)：anchors的基準(zhǔn)面積大小設(shè)為8*8，使用三種寬高比2:1，1:1和1:2，采用的尺度為[8,12,16]。

本申請實施例中，根據(jù)所述給訓(xùn)練樣本制作標(biāo)簽。圖3給出了主要步驟。

步驟s210，將樣本圖片使用matlab批量重命名為“00001.jpg”的形式。

步驟s220，使用python的畫圖像標(biāo)注工具，將圖片中的手勢部位信息保存到txt文件夾中，如：00001.jpghand_04428132121。前面是圖片名，中間是手勢類別，最后是手勢的包圍框坐標(biāo)。

步驟s230，使用matlab將步驟s220中的每個txt文件批量生成相應(yīng)xml文件，xml文件的名字就是圖片的編號，如“00001.xml”。

步驟s240，新建一個文件夾，名字為annotations，將xml文件全部放到該文件夾里。新建一個文件夾，名字為jpegimages，將所有的訓(xùn)練圖片放到該文件夾里。新建文件夾，命名為imagesets，在imagesets里再新建文件夾，命名為main。通過xml名字(或圖片名)，生成兩個txt文件，即：train.txt，test.txt，文件里面是訓(xùn)練和測試圖片的索引。新建voc2007文件夾，將annotations、imagesets和jpegimages都保存到此文件夾中。

本申請實施例中，由具有擾動交疊率算法的rpn網(wǎng)絡(luò)獲得手勢目標(biāo)的區(qū)域建議，并反饋給fastr-cnn網(wǎng)絡(luò)，包括：

將rpn網(wǎng)絡(luò)的滑動窗口大小設(shè)為3*3。anchor基準(zhǔn)面積大小都設(shè)為8*8，使用三種寬高比2:1，1:1和1:2，采用的尺度為[8,12,16]，這樣在每個滑動窗口位置就產(chǎn)生了9個anchors，如附圖4所示。

借鑒擾動標(biāo)簽算法的思想來加強損失層的正則化，避免訓(xùn)練模型的過擬合問題。擾動標(biāo)簽的算法就是在每次迭代過程中，隨機選擇一些樣本，使用錯誤的標(biāo)記值進行訓(xùn)練，本發(fā)明迭代時每次就取10張圖片，若采用一樣的策略顯然不合適，由于正負(fù)樣本不是在制作數(shù)據(jù)集時規(guī)定的，而是在訓(xùn)練時根據(jù)iou值和目標(biāo)真實框的標(biāo)簽共同確定。所以本發(fā)明采用的策略就是在每1000次迭代中按概率(本專利)隨機選取一部分迭代的iou設(shè)為0.5，其余的iou都設(shè)為0.7。其本質(zhì)是將iou設(shè)低后，原先應(yīng)標(biāo)記為正標(biāo)簽的可能變?yōu)樨?fù)標(biāo)簽，同時負(fù)標(biāo)簽也可能變成正標(biāo)簽，這樣也就產(chǎn)生了擾動標(biāo)簽，通過擾動標(biāo)簽在損失層上添加噪聲，在rpn反向傳播階段會傳播此噪聲梯度。本發(fā)明將此方法命名為disturbiou，其實現(xiàn)的算法如下：

從rpn訓(xùn)練階段開始闡述，送入rpn的標(biāo)簽數(shù)據(jù)為其中c表示類別數(shù)，這里0表示背景，1,2…,c表示需要識別的c個目標(biāo)種類標(biāo)記。數(shù)據(jù)標(biāo)簽是四維向量分別表示目標(biāo)的在原圖上的中心坐標(biāo)和目標(biāo)標(biāo)記邊框的寬、高。這里的l表示rpn網(wǎng)絡(luò)每次訓(xùn)練使用的圖像張數(shù)，本申請l＝10。目的是訓(xùn)練一個rpn模型θ表示模型參數(shù)。θ通常使用白噪聲θ0初始化，然后使用隨機梯度下降(sgd)算法更新。第m次迭代時sgd更新θm的公式如式(1)所示，

l({pi},{ti})表示損失函數(shù)如式(2)，的值用來反向傳播梯度，γm表示學(xué)習(xí)率，dm是從總數(shù)據(jù)集中隨機抽取的圖片(本申請為10張)。在訓(xùn)練(測試)階段，rpn先輸出12k(6k)個區(qū)域建議的類別、位置和概率得分，最終輸出這12k(6k)個區(qū)域建議中選擇概率得分為前2k(300)的區(qū)域建議，然后將信息傳入到fastr-cnn網(wǎng)絡(luò)。

disturbiou算法產(chǎn)生擾動的iou后主要影響的是12k個區(qū)域建議的類別標(biāo)記，對每個區(qū)域建議通過disturbiou后產(chǎn)生的擾動標(biāo)記表示為p＝[p0,p1]。p是由輸入數(shù)據(jù)根據(jù)正負(fù)樣本標(biāo)定規(guī)則生成的(p0表示anchor框為背景的概率，p1表示anchor框為目標(biāo)的概率)，其中iou的大小起決定作用。

iou的計算公式如式(5)所示，

其中n為每次迭代的次數(shù)，本申請n＝1000，服從伯努利分布：

式(6)中α是噪聲率。disturbiou在每1000次迭代中是獨立工作的，即每1000次迭代中被選中iou設(shè)為0.5的次數(shù)索引是不同的。

如附圖1所示，將上述disturbiou算法產(chǎn)生的擾動標(biāo)簽輸入到rpn數(shù)據(jù)層，rpn數(shù)據(jù)層將卷積特征映射到一個低維向量，最后將這個低維向量送入到兩個全連接層，即邊框回歸層和邊框分類層。分類層輸出每個位置上9個anchors屬于前景和背景的概率；邊框回歸層輸出每個位置上9個anchors對應(yīng)的窗口應(yīng)該平移縮放的參數(shù)。對于每個位置來說，分類層從低維特征中輸出屬于前景和背景的概率；回歸層從低維特征中輸出4個平移縮放參數(shù)。

本申請實施例中，根據(jù)所述通過fastr-cnn網(wǎng)絡(luò)的分類層和邊框回歸層，對手勢進行定位和識別，包括：

將共享卷積層輸出的非線性特征和rpn網(wǎng)絡(luò)反饋回來的區(qū)域建議通過roi池化層和全連接層得到手勢區(qū)域的特征向量，再將此特征向量輸入到分類層和邊框回歸層。分類層和邊框回歸層分別輸出手勢的類別和位置。

本發(fā)明提出了一種基于fasterr-cnn的手勢檢測和識別方法，實驗表明本發(fā)明能有效增強手勢識別的魯棒性，提高手勢識別精度。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張江鑫;吳曉鳳;徐欣晨;
技術(shù)所有人：浙江工業(yè)大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

手勢檢測相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于FasterR?CNN的手勢檢測和識別方法與流程