亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于深度卷積神經(jīng)網(wǎng)絡(luò)框架的第一視角動(dòng)態(tài)手勢(shì)識(shí)別方法與流程

文檔序號(hào):11676960閱讀:511來(lái)源:國(guó)知局
基于深度卷積神經(jīng)網(wǎng)絡(luò)框架的第一視角動(dòng)態(tài)手勢(shì)識(shí)別方法與流程

本發(fā)明涉及機(jī)器學(xué)習(xí)及計(jì)算機(jī)視覺領(lǐng)域,尤其涉及基于深度卷積神經(jīng)網(wǎng)絡(luò)框架的第一視角動(dòng)態(tài)手勢(shì)識(shí)別方法。



背景技術(shù):

經(jīng)過近幾十年的計(jì)算機(jī)革命,在alphago打敗李世石以及自動(dòng)駕駛能夠安全行駛之后,我們現(xiàn)在的生活因?yàn)橛?jì)算機(jī)變得更加智能。當(dāng)然人機(jī)交互在生活中體現(xiàn)出越來(lái)越重要的地位,成為這個(gè)正在改變的世界中不可缺少的角色。近些年,可穿戴設(shè)備以及智能的電子設(shè)備越來(lái)越收到人們的喜愛,而手勢(shì)從古自今都是最簡(jiǎn)單直接的交流語(yǔ)言,所以手勢(shì)交互可作為一個(gè)最自然,最簡(jiǎn)單的連接通道,使得人類與計(jì)算機(jī)交互更加簡(jiǎn)便更加直接,從而第一視角下的手勢(shì)交互在人機(jī)交互中具有非常重要的意義。手勢(shì)交互的技術(shù)主要涉及到不同手勢(shì)的識(shí)別,在不同的復(fù)雜自然場(chǎng)景下,識(shí)別出不同的手勢(shì)。目標(biāo)識(shí)別大致可以分為傳統(tǒng)算法和機(jī)器學(xué)習(xí)算法。傳統(tǒng)算法在不同的場(chǎng)景,不同的光線,下的動(dòng)態(tài)手勢(shì),不能夠準(zhǔn)確的識(shí)別。但是機(jī)器學(xué)習(xí),在視頻和圖像識(shí)別方面能夠得到令人滿意的效果。



技術(shù)實(shí)現(xiàn)要素:

為克服傳統(tǒng)算法的不足并提高識(shí)別的精度,通過攝像頭輸入第一視角的手勢(shì)視頻流,進(jìn)入深度卷積神經(jīng)網(wǎng)絡(luò)算法識(shí)別不同的手勢(shì),本發(fā)明提出基于深度卷積神經(jīng)網(wǎng)絡(luò)框架的第一視角動(dòng)態(tài)手勢(shì)識(shí)別方法。

本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的:

基于深度卷積神經(jīng)網(wǎng)絡(luò)框架的第一視角動(dòng)態(tài)手勢(shì)識(shí)別方法,包括步驟

s1:采集不同復(fù)雜背景下的數(shù)字手勢(shì)圖片,使得相同的手勢(shì)具有一個(gè)相同的標(biāo)簽,并且標(biāo)出手勢(shì)在數(shù)字手勢(shì)圖片中的外接矩形;

s2:深度卷積神經(jīng)網(wǎng)絡(luò)首先在數(shù)字手勢(shì)圖片上提取若干候選框,將若干候選框與外接矩形進(jìn)行特征比較并保存手勢(shì)完整存在的若干候選框,然后提取保存的候選框中的特征信息,最后將得到的輸出值和真實(shí)值進(jìn)行損失計(jì)算并將誤差反向傳播;

s3:使用已標(biāo)注標(biāo)簽和候選框的數(shù)字手勢(shì)圖片訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò),使得深度卷積神經(jīng)網(wǎng)絡(luò)收斂且參數(shù)穩(wěn)定;

s4:將拍攝的第一視角的數(shù)字手勢(shì)圖片作為輸入,計(jì)算深度卷積神經(jīng)網(wǎng)絡(luò)的權(quán)重,識(shí)別不同手勢(shì)的類別。

進(jìn)一步地,步驟s1包括步驟

s11:根據(jù)人類使用習(xí)慣定義多種不同手勢(shì);

s12:采集在復(fù)雜的場(chǎng)景下的每種手勢(shì)的多個(gè)視頻,使得每類手勢(shì)擁有一個(gè)相同的標(biāo)簽;

s13:處理視頻數(shù)據(jù),將采集的手勢(shì)視頻拆分成一幀幀的圖片,標(biāo)出圖片中的手勢(shì)位置的外接矩形左上角以及右下角的坐標(biāo);

s14:用xml格式和txt格式保存每幀圖片的圖片路徑、圖片名字、標(biāo)簽以及外接矩形坐標(biāo),方便在后續(xù)的工作中能夠直接的找到圖片,并且知道此圖片屬于哪一類手勢(shì);

s15:將所有的樣本進(jìn)行偽樣本操作,旋轉(zhuǎn)不同角度(如30度、60度)和/或鏡像(反轉(zhuǎn)180°),增大訓(xùn)練樣本數(shù)量。

進(jìn)一步地,步驟s2包括步驟

s21:設(shè)計(jì)一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)框架,提取數(shù)字手勢(shì)圖片上的若干候選框;

s22:若干候選框與標(biāo)注的外接矩形進(jìn)行特征比較,判斷候選框中是否有完整的手勢(shì)存在;

s23:保存完整手勢(shì)存在的若干候選框并將置信度標(biāo)為1;

公式:

其中,若提取的候選框中有完整手勢(shì)存在則保存候選框并將置信度設(shè)為1,反之設(shè)為0即刪除候選框;

s24:深度卷積神經(jīng)網(wǎng)絡(luò)提取保存候選框中手勢(shì)特征信息:

卷積計(jì)算公式:

其中xi是神經(jīng)元的輸入,wi是與每個(gè)神經(jīng)元相乘的權(quán)值,b是偏置,f是下一層神經(jīng)元的輸出;

s25:得到輸出值與真實(shí)值進(jìn)行損失計(jì)算,得到殘差:

其中為輸出值,yi為輸入值。

進(jìn)一步地,步驟s3包括步驟

s31:將深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行反向傳播,不斷地迭代深度卷積神經(jīng)網(wǎng)絡(luò)、更新深度卷積神經(jīng)網(wǎng)絡(luò)參數(shù);

s32:使用訓(xùn)練數(shù)據(jù)對(duì)深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,直至深度卷積神經(jīng)網(wǎng)絡(luò)收斂且參數(shù)穩(wěn)定;

s33:得到一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)模型,保存每一層的權(quán)值參數(shù)。

進(jìn)一步地,步驟s4包括步驟

s41:使用攝像頭實(shí)時(shí)拍攝第一視角的不同的手勢(shì)視頻;

s42:將手勢(shì)視頻拆分成一幀幀的圖片,將圖片進(jìn)入深度卷積神經(jīng)網(wǎng)絡(luò)的前向,將最后一層所得到的輸出結(jié)果(手勢(shì)類別個(gè)數(shù)即輸出結(jié)果個(gè)數(shù))進(jìn)入softmax函數(shù)計(jì)算其概率值:

其中:是所有輸出值以e為底數(shù)求和,f(zj)為j個(gè)輸出值的概率;

s43:將圖片合成視頻,深度卷積神經(jīng)網(wǎng)絡(luò)確識(shí)別出動(dòng)態(tài)的手勢(shì),并且在視頻中顯示識(shí)別的置信度(網(wǎng)絡(luò)識(shí)別出某種手勢(shì)的概率)。

本發(fā)明的有益效果在于,與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:

本發(fā)明采用人工標(biāo)注不同手勢(shì)的標(biāo)簽,能夠得到大規(guī)模的可訓(xùn)練樣本;本發(fā)明標(biāo)注出手勢(shì)的外接矩形,能夠直接提取目標(biāo)區(qū)域特征;提取手勢(shì)圖片中的若干候選框,并給予完整手勢(shì)存在的若干候選框置信度,達(dá)到了增加訓(xùn)練樣本以及明確特征信息區(qū)域,使得結(jié)果更精確;采用深度卷積神經(jīng)網(wǎng)絡(luò)最后層輸出值與真實(shí)值進(jìn)行損失計(jì)算的方法,能讓深度卷積神經(jīng)網(wǎng)絡(luò)識(shí)別更準(zhǔn)確以及魯棒性更強(qiáng);采用深度卷積神經(jīng)網(wǎng)絡(luò)算法識(shí)別不同的手勢(shì),可以準(zhǔn)確地識(shí)別復(fù)雜背景、低像素的視頻中的動(dòng)態(tài)手勢(shì)。

附圖說明

圖1是本發(fā)明基于深度卷積神經(jīng)網(wǎng)絡(luò)框架的第一視角動(dòng)態(tài)手勢(shì)識(shí)別方法流程圖;

圖2a是一個(gè)場(chǎng)景下采集的手勢(shì)圖;

圖2b是另一個(gè)場(chǎng)景下采集的手勢(shì)圖;

圖3a是圖2a采集到的手勢(shì)圖標(biāo)注后的數(shù)據(jù)示意圖;

圖3b是圖2b采集到的手勢(shì)圖標(biāo)注后的數(shù)據(jù)示意圖;

圖4是本發(fā)明深度卷積神經(jīng)網(wǎng)絡(luò)提取到的手勢(shì)的特征信息示意圖;

圖5a是本發(fā)明使用用深度神經(jīng)網(wǎng)絡(luò)框架測(cè)試一個(gè)手勢(shì)得到圖片的示意圖;

圖5b是本發(fā)明使用用深度神經(jīng)網(wǎng)絡(luò)框架測(cè)試另一個(gè)手勢(shì)得到圖片的示意圖。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

本發(fā)明主要用于解決復(fù)雜的自然場(chǎng)景下第一視角的動(dòng)態(tài)手勢(shì)實(shí)時(shí)識(shí)別的問題,利用深度卷積神經(jīng)網(wǎng)絡(luò)提取不同維度的特征信息,首先在數(shù)字手勢(shì)圖片上提取若干候選框,將若干候選框與外接矩形進(jìn)行特征比較并保存手勢(shì)完整存在的若干候選框,然后提取保存候選框中的特征信息,最后將輸出的結(jié)果與真實(shí)值進(jìn)行損失計(jì)算,將損失計(jì)算得到的殘差進(jìn)行深度卷積神經(jīng)網(wǎng)絡(luò)的反向傳播。

請(qǐng)參見圖1,本發(fā)明基于深度卷積神經(jīng)網(wǎng)絡(luò)框架的第一視角動(dòng)態(tài)手勢(shì)識(shí)別方法,包括步驟

s1:采集不同復(fù)雜背景下的數(shù)字手勢(shì)圖片,使得相同的手勢(shì)具有一個(gè)相同的標(biāo)簽,并且標(biāo)出手勢(shì)在數(shù)字手勢(shì)圖片中的外接矩形;

s2:深度卷積神經(jīng)網(wǎng)絡(luò)首先在數(shù)字手勢(shì)圖片上提取若干候選框,將若干候選框與外接矩形進(jìn)行特征比較并保存手勢(shì)完整存在的若干候選框,然后提取保存候選框中的特征信息,最后將得到的輸出值和真實(shí)值進(jìn)行損失計(jì)算并將誤差反向傳播;

s3:使用已標(biāo)注標(biāo)簽和候選框的數(shù)字手勢(shì)圖片訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò),使得深度卷積神經(jīng)網(wǎng)絡(luò)收斂且參數(shù)穩(wěn)定;

s4:將拍攝的第一視角的數(shù)字手勢(shì)圖片作為輸入,計(jì)算深度卷積神經(jīng)網(wǎng)絡(luò)的權(quán)重,識(shí)別不同手勢(shì)的類別。

下面結(jié)合實(shí)例及附圖對(duì)本發(fā)明作進(jìn)一步的描述,但本發(fā)明的具體實(shí)施方式不限于此。

s1:采集不同復(fù)雜背景下的數(shù)字手勢(shì)圖片,使得相同的手勢(shì)具有一個(gè)相同的標(biāo)簽,并且標(biāo)出手勢(shì)在所述數(shù)字手勢(shì)圖片中的外接矩形。

首先定義符合人類使用習(xí)慣的手勢(shì),采集不同復(fù)雜背景下的數(shù)字手勢(shì)圖片,標(biāo)出手勢(shì)在圖片中外接矩形和每類手勢(shì)的名字。包括步驟

s11:根據(jù)人類使用習(xí)慣定義多種不同手勢(shì);

s12:如圖2a和圖2b所示,在復(fù)雜的場(chǎng)景下每種手勢(shì)采集大量的第一視角的手勢(shì)視頻,每類手勢(shì)擁有一個(gè)相同的標(biāo)簽(用手表示數(shù)字五的手勢(shì)圖片標(biāo)簽為5,以下稱為真實(shí)值);

s13:處理數(shù)據(jù),將采集的手勢(shì)視頻拆分成一幀幀的圖片,標(biāo)出圖片中的手勢(shì)位置的外接矩形左上角以及右下角的坐標(biāo),如圖3a和圖3b所示;

s14:用xml格式和txt格式保存每幀圖片的圖片路徑、圖片名稱、標(biāo)簽以及外接矩形坐標(biāo),方便在后續(xù)的工作中能夠直接的找到圖片,并且知道此圖片屬于哪一類手勢(shì)。

s15:將所有的樣本進(jìn)行偽樣本操作,旋轉(zhuǎn)不同角度(如30°、60°),鏡像(反轉(zhuǎn)180°),增大訓(xùn)練樣本數(shù)量。

s2:深度卷積神經(jīng)網(wǎng)絡(luò)首先在數(shù)字手勢(shì)圖片上提取若干候選框,將若干候選框與外接矩形進(jìn)行特征比較并保存手勢(shì)完整存在的若干候選框,然后提取保存候選框中的特征信息,最后將得到的輸出值和真實(shí)值進(jìn)行損失計(jì)算并將誤差反向傳播。包括步驟

s21:設(shè)計(jì)一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)框架,提取數(shù)字手勢(shì)圖片的若干候選框;

s22:若干候選框與標(biāo)注的外接矩形進(jìn)行特征比較,判斷候選框中是否有完整手勢(shì)存在;

s23:保存完整手勢(shì)存在的若干候選框并將置信度設(shè)為1;

公式:

其中,若提取的候選框中有完整手勢(shì)存在則保存候選框并將置信度設(shè)為1,反之設(shè)為0即刪除候選框;

s24:

深度卷積神經(jīng)網(wǎng)絡(luò)提取保存候選框中手勢(shì)特征信息:

卷積計(jì)算公式:

其中xi是神經(jīng)元的輸入,wi是與每個(gè)神經(jīng)元相乘的權(quán)值,b是偏置,f是下一層神經(jīng)元的輸出;

s25:得到輸出值與真實(shí)值進(jìn)行損失計(jì)算,得到殘差:

其中為輸出值,yi為輸入值。

s3:使用已標(biāo)注標(biāo)簽和候選框的數(shù)字手勢(shì)圖片訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò),使得深度卷積神經(jīng)網(wǎng)絡(luò)收斂且參數(shù)穩(wěn)定。包括步驟

s31:將深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行反向傳播,不斷的迭代深度卷積神經(jīng)網(wǎng)絡(luò),更新深度卷積神經(jīng)網(wǎng)絡(luò)參數(shù);

s32:通過大量的訓(xùn)練數(shù)據(jù)對(duì)深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,使得深度卷積神經(jīng)網(wǎng)絡(luò)收斂,參數(shù)穩(wěn)定;

s33:得到一個(gè)較好的深度卷積神經(jīng)網(wǎng)絡(luò)模型,保存每一層的權(quán)值。

s4:將拍攝的第一視角的數(shù)字手勢(shì)圖片作為輸入,計(jì)算深度卷積神經(jīng)網(wǎng)絡(luò)的權(quán)重,識(shí)別不同手勢(shì)的類別,包括步驟:

s41:通過攝像頭(第一視角)實(shí)時(shí)拍攝不同的手勢(shì)視頻;

s42:將視頻拆分成一幀幀的圖片,將圖片進(jìn)入網(wǎng)絡(luò)的前向計(jì)算以及softmax函數(shù):

其中:是所有輸出值以e為底數(shù)求和,f(zj)為j個(gè)輸出值的概率。

h(frame)=(yi,y2,.....,yi)

其中h為網(wǎng)絡(luò)的前向計(jì)算以及最后的概率計(jì)算的整體函數(shù),frame為輸入的一張圖片,(y1,y2,......,yi)表示屬于哪種手勢(shì)的概率,和為1;

s43:將圖片合成視頻,網(wǎng)絡(luò)能夠準(zhǔn)確識(shí)別動(dòng)態(tài)的手勢(shì),并且在視頻中顯示識(shí)別的置信度(網(wǎng)絡(luò)識(shí)別出某種手勢(shì)的概率),如圖5a和圖5b所示。

以上所述是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也視為本發(fā)明的保護(hù)范圍。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1