本申請總體涉及人機交互領域,特別涉及一種手型跟蹤方法、裝置和計算機可讀介質。
背景技術:
隨著虛擬現(xiàn)實和增強現(xiàn)實設備的發(fā)展和普及,相關設備的顯示功能達到了實用的要求,常見的設備有gearvr(虛擬現(xiàn)實)、htcvive、hololens等等。在使用這一類沉浸式設備的時候,手勢輸入是最自然的交互方式,而在這一方面,現(xiàn)有的解決方案還存在很多不足,大部分設備仍然使用傳統(tǒng)的輸入設備,比如鼠標、鍵盤和手柄,少部分設備已經(jīng)應用了手勢輸入的方法,但是都有比較致命的缺點。因此,開發(fā)一款廉價、便攜、精準的手勢輸入設備顯得尤其重要,而手型跟蹤技術則是其中最重要的部分。
技術實現(xiàn)要素:
鑒于上述情況,提出了本申請。本申請旨在提出一種手型跟蹤方法、裝置和計算機可讀介質,以實現(xiàn)便攜、廉價、精準的手型跟蹤。
本申請?zhí)岢鲆环N手型跟蹤方法,包括∶在手臂或者手腕的兩個或者更多位置上固定深度傳感器,用于獲取對應位置的深度圖信息;以及根據(jù)獲取的深度圖信息,實時重建手部的三維空間信息。
本申請還提出一種手型跟蹤裝置,包括∶兩個或者更多深度傳感器,固定在手臂或者手腕的位置上,用于獲取對應位置的深度圖信息;以及計算單元,用于根據(jù)獲取的深度圖信息,實時重建手部的三維空間信息。
本申請還提出一種手型跟蹤裝置,包括處理器和存儲器,所述存儲器中存儲有指令,當所述處理器執(zhí)行所述指令時,執(zhí)行上述手型跟蹤方法。
本申請還提出一種計算機可讀存儲介質,其上存儲有計算機可執(zhí)行指令,當所述指令被計算裝置執(zhí)行時,執(zhí)行上述手型跟蹤方法。
根據(jù)本申請的手型跟蹤方法和裝置,通過在手臂或者手腕上安裝深度傳感器,獲取對應位置的深度圖信息,可以實現(xiàn)便攜、廉價、精準的手型跟蹤,從而識別手勢并且實現(xiàn)手勢輸入。
在一個實施例中,采用卷積神經(jīng)網(wǎng)絡算法,利用深度學習,使得手型跟蹤更加精準和高效。
附圖說明
從下面結合附圖對本發(fā)明實施例的詳細描述中,本發(fā)明的這些和/或其它方面和優(yōu)點將變得更加清楚并更容易理解,其中:
圖1示出了根據(jù)本發(fā)明的一個實施例的手型跟蹤方法的流程圖;
圖2示出了應用本發(fā)明的一種手環(huán)的硬件實現(xiàn);
圖3示出了圖2所示的手環(huán)的工作參數(shù);
圖4示出了根據(jù)本發(fā)明的一個實施例的手型跟蹤方法的卷積神經(jīng)網(wǎng)絡算法的概括流程示意圖;以及
圖5示出了根據(jù)本發(fā)明的一個實施例的手型跟蹤裝置的框圖。
具體實施方式
為了使本領域技術人員更好地理解本發(fā)明,下面結合附圖和具體實施方式對本發(fā)明作進一步詳細說明。
首先,說明一下本文中使用的術語深度圖信息,此為廣泛的概念,指的是從該信息中能夠構建得到深度圖(包含距離信息),例如,借助2d圖像和圖像中含有的結構光的光斑,能從中求得深度圖。
圖1示出了根據(jù)本發(fā)明的一個實施例的手型跟蹤方法的流程圖。
參照圖1,在步驟s110中,在手臂或者手腕的兩個或者更多位置上固定深度傳感器,用于獲取對應位置的深度圖信息。所述深度傳感器包括結構光投射器和圖像捕捉單元,一般可以獲取手心和手背的深度圖信息,包括手部初級圖像及其中的光斑(代表結構光信息),參見圖4(下文詳述)中左邊的手部圖像。在更多位置上固定深度傳感器,可以提高手型跟蹤的精度。例如,除了手腕的上下兩個位置,在手腕的左右兩側也可以布置深度傳感器,將在兩側獲取并產生的兩個深度圖作為額外的數(shù)據(jù)通道,輸入為卷積神經(jīng)網(wǎng)絡的一部分,從而能夠進一步提高確定手型的精度。
優(yōu)選地,所述結構光投射器可選擇紅外激光點陣發(fā)射器,所述圖像捕捉單元可選擇紅外攝像頭。這樣的配置具有如下優(yōu)勢:
(1)由于結構光投射器和圖像捕捉單元都固定在手臂或者手腕上,用戶在使用該設備進行手型跟蹤時,手部動作不會受到約束。
(2)結構光投射器可使用激光燈和doe(衍射光學元件)元件,而紅外攝像頭的精度要求低(480p,即只需要720x480像素的圖像,就能獲取足夠的深度圖信息用于后續(xù)計算處理),能耗低,對電池的要求也較低;整個設備的成本低,量產價格更便宜,容易普及。結構光投射器和圖像捕捉單元也可選擇可見光投射器和攝像頭,但難以獲得上述優(yōu)勢。
圖2示出了應用本發(fā)明的一種手環(huán)的硬件實現(xiàn)。如圖2所示,左圖是手環(huán)的三維設計圖,上下兩端各有一套深度圖信息獲取器件,即深度傳感器,分別用于獲取手心和手背的深度圖信息,每套深度圖信息獲取器件包含紅外激光點陣發(fā)射器210和紅外攝像頭220,使用攝像頭和結構光獲得深度圖信息。右圖展示的是手環(huán)發(fā)出結構光的示意圖。結構光覆蓋的范圍和圖像捕捉單元(攝像頭)獲取的范圍大概覆蓋五只手指,不需要覆蓋手掌;或者根據(jù)跟蹤范圍的需要,僅僅覆蓋部分感興趣范圍。
圖3示出了圖2所示的手環(huán)的工作參數(shù)。其中紅外激光點陣發(fā)射器和紅外攝像頭的覆蓋范圍包括手部五個手指的指根到指尖,即攝像頭的景深s(覆蓋范圍)/激光點陣發(fā)射器的工作距離要在10厘米到30厘米之間(最佳范圍在15厘米到25厘米之間),攝像頭的視角/激光點陣發(fā)射器的發(fā)散角θ要在40度~80度之間(60度最佳)。為了能夠覆蓋五只手指,所述結構光投射器和圖像捕捉單元在手臂或者手腕之上有2到3厘米的高度h。
上述配置具有如下優(yōu)勢:
(1)對于紅外激光點陣發(fā)射器和紅外攝像頭的覆蓋范圍,10厘米以內是手掌,而手掌的深度信息對于重建手部空間位置用處不大。因此,上述景深設置在光圈大小、光照條件和能耗上性價比都很高。
(2)獲取到的深度圖信息中大部分像素是有用的手部信息,背景由于超過了紅外光反射的范圍,在紅外攝像頭拍攝到的圖像中呈現(xiàn)出較暗的顏色,可以通過一個低閾值去除背景部分數(shù)據(jù),不對其進行后續(xù)處理,這有利于提高解碼、手型重建算法的效率。
在步驟s120中,根據(jù)獲取的深度圖信息,實時重建手部的三維空間信息。因為每只手的5個手指各有4個關節(jié),所以每只手共有20個關節(jié);所以,所述手部的三維空間信息包括:針對每只手的20個關節(jié),在圖像捕捉單元坐標系中的三維位置。
實時重建手部的三維空間信息可以采用多種方式,本申請采用了卷積神經(jīng)網(wǎng)絡(cnn)算法。其它方法的例子包括:根據(jù)手型的先驗模型(該模型描述了可能出現(xiàn)的手型的集合),通過計算從中選擇出一個手型,使得該手型所對應的深度圖與實際獲取的深度圖最接近。這是一個帶約束的最優(yōu)化問題,可以使用傳統(tǒng)的數(shù)學方法求解。
圖4示出了根據(jù)本發(fā)明的一個實施例的手型跟蹤方法的卷積神經(jīng)網(wǎng)絡算法的概括流程示意圖。如圖4所示,先利用深度圖信息產生深度圖,然后實施cnn算法,包括:將獲得的深度圖按空間結構排列成矩陣,作為卷積神經(jīng)網(wǎng)絡的輸入;經(jīng)過多個卷積層和池化層,逐步地從中提取其局部特征到提取其全局特征;之后使用兩個全連接層,將之前的特征繼續(xù)回歸為多維向量,重建手部的三維空間位置信息。
具體地,上述cnn算法將對應上下兩個位置的深度傳感器的深度圖數(shù)據(jù)作為輸入,使用事先訓練的神經(jīng)網(wǎng)絡做回歸計算,得到用戶手部各關節(jié)的三維坐標的預測值,進而還原用戶的手部姿勢與動作。
上述cnn算法的模型由訓練學習而成,利用事先采集的使用高精度的設備獲得的大量手型數(shù)據(jù),作為參考標準(groundtruth)訓練神經(jīng)網(wǎng)絡,得到模型。使用該模型即可在線性時間內根據(jù)深度圖數(shù)據(jù)生成手型數(shù)據(jù)。產生深度圖和根據(jù)深度圖生成手型數(shù)據(jù)的算法都能在線性時間內完成,而圖片的讀取操作本身就需要線性的時間,因此,在上述手型跟蹤方法中,主要的耗時在于圖像捕捉單元(攝像頭)的采集頻率和信號傳輸。通過實際測試,使用intel(r)core(tm)i7-3770cpu@3.40ghz3.90ghz處理器進行計算時,實際處理速度可以達到50幀/秒。隨著采集技術和信號傳輸技術的發(fā)展,可預期達到更高的幀率。
上述cnn算法以卷積神經(jīng)網(wǎng)絡為主體框架,對應深度傳感器的兩個深度圖先一同經(jīng)過多個卷積層和池化層,逐步地從中提取其局部特征到提取其全局特征。之后使用兩個全連接層,將之前的特征繼續(xù)回歸為一個60維的向量并作為預測結果輸出,該60維向量即為用戶一只手的5個手指的4個關節(jié)在圖像捕捉單元坐標系中的三維坐標值(5*4*3)。
手型跟蹤方法結合上下兩個深度圖對手型進行跟蹤,保證手部不管如何運動,都會有至少兩個深度傳感器分別獲取深度圖信息。該方法結合多個深度圖進行融合處理,相互彌補缺失的手部信息。該方法還涉及對多個攝像頭的深度圖像的對齊,對齊可以通過事先對多個攝像頭的校準完成,也可以通過實時的對齊算法完成。
手型跟蹤方法還可結合時序信息進行手部跟蹤,通過手部運動的連續(xù)狀態(tài)來輔助手型的跟蹤,以便提高精度,因為相鄰幀之間得到的手型數(shù)據(jù)可以做平滑處理,消除噪聲。
圖5示出了根據(jù)本發(fā)明的一個實施例的手型跟蹤裝置的框圖。
如圖5所示,手型跟蹤裝置包括∶兩個或者更多深度傳感器510,固定在手臂或者手腕的位置上,用于獲取對應位置的深度圖信息;以及計算單元520,用于根據(jù)獲取的深度圖信息,實時重建手部的三維空間信息。對于如圖2所示的應用本發(fā)明的手環(huán),計算單元可以設置在手環(huán)中;對于如vr(虛擬現(xiàn)實)顯示設備這樣的設備,計算單元也可以設置在手環(huán)外的設備中。
如上所述,所述深度傳感器510包括結構光投射器512和圖像捕捉單元514,一般可以獲取手心和手背的深度圖信息。還可以在更多位置上固定深度傳感器。
優(yōu)選地,所述結構光投射器可選擇紅外激光點陣發(fā)射器,所述圖像捕捉單元可選擇紅外攝像頭。結構光覆蓋的范圍和圖像捕捉單元(攝像頭)獲取的范圍大概覆蓋五只手指,不需要覆蓋手掌;或者根據(jù)跟蹤范圍的需要,僅僅覆蓋部分感興趣范圍。其中紅外激光點陣發(fā)射器和紅外攝像頭的覆蓋范圍包括手部五個手指的指根到指尖,即攝像頭的景深s(覆蓋范圍)/激光點陣發(fā)射器的工作距離要在10厘米到30厘米之間(最佳范圍在15厘米到25厘米之間),攝像頭的視角/激光點陣發(fā)射器的發(fā)散角θ要在40度~80度之間(60度最佳)。為了能夠覆蓋五只手指,所述結構光投射器和圖像捕捉單元在手臂或者手腕之上有2到3厘米的高度h。
根據(jù)本發(fā)明的手型跟蹤裝置極具成本優(yōu)勢,有利于迅速普及。紅外攝像頭和紅外激光點陣發(fā)射器的功耗和精度要求極低,成本低廉。如果計算單元直接設置在手環(huán)中成為一體化裝置,電池和芯片占成本的絕大部分,但總成本仍然非常低。如果計算單元設置在外部設備中,則手環(huán)的成本還可以進一步降低。
所述手型跟蹤裝置在實用性方面具有如下優(yōu)勢:
(1)功耗低,續(xù)航能力強,滿足綠色能源的需求。
(2)用戶使用時,手部動作不受約束,用戶體驗比已有設備更佳。
(3)深度圖信息中大部分信息都得到利用,能使用很低的計算資源得到較高精度的手型位置信息,誤差在1毫米以內。
根據(jù)本發(fā)明的一個實施例,還可以提供一種手型跟蹤裝置,包括處理器和存儲器,所述存儲器中存儲有指令,當所述處理器執(zhí)行所述指令時,可以執(zhí)行如圖1所示的方法及其具體步驟。
根據(jù)本發(fā)明的一個實施例,還可以提供一種計算機可讀存儲介質,其上存儲有計算機可執(zhí)行指令,當所述指令被計算裝置執(zhí)行時,可以執(zhí)行如圖1所示的方法及其具體步驟。
概括而言,本申請?zhí)峁┝讼率黾夹g方案:
(1).一種手型跟蹤方法,包括∶
在手臂或者手腕的兩個或者更多位置上固定深度傳感器,用于獲取對應位置的深度圖信息;以及
根據(jù)獲取的深度圖信息,實時重建手部的三維空間信息。
(2).如(1)所述的方法,其中所述深度傳感器包括結構光投射器和圖像捕捉單元。
(3).如(2)所述的方法,其中所述深度傳感器獲取手心和手背的深度圖信息,并且
所述手部的三維空間信息包括:針對每只手的5個手指的各4個關節(jié),共20個關節(jié),在圖像捕捉單元坐標系中的三維位置。
(4).如(2)所述的方法,其中所述結構光投射器包括紅外激光點陣發(fā)射器,所述圖像捕捉單元包括紅外攝像頭。
(5).如(2)所述的方法,其中結構光投射器覆蓋的范圍和圖像捕捉單元獲取的范圍覆蓋五只手指。
(6).如(5)所述的方法,其中結構光投射器和圖像捕捉單元的覆蓋范圍在10厘米到30厘米之間,結構光投射器視角和圖像捕捉單元的發(fā)散角在40到80度之間。
(7).如(5)所述的方法,其中結構光投射器和圖像捕捉單元的覆蓋范圍在15厘米到25厘米之間,結構光投射器視角和圖像捕捉單元的發(fā)散角為60度。
(8).如(1)所述的方法,其中實時重建手部的三維空間信息包括:
利用深度圖信息產生深度圖,將獲得的深度圖按空間結構排列成矩陣,作為卷積神經(jīng)網(wǎng)絡的輸入,經(jīng)過多個卷積層和池化層,逐步地從中提取其局部特征到提取其全局特征,之后使用兩個全連接層,將之前的特征繼續(xù)回歸為多維向量。
(9).如(5)所述的方法,其中所述結構光投射器和圖像捕捉單元在手臂或者手腕之上有2到3厘米的高度。
(10).一種手型跟蹤裝置,包括∶
兩個或者更多深度傳感器,固定在手臂或者手腕的位置上,用于獲取對應位置的深度圖信息;以及
計算單元,用于根據(jù)獲取的深度圖信息,實時重建手部的三維空間信息。
(11).如(10)所述的裝置,其中所述深度傳感器包括結構光投射器和圖像捕捉單元。
(12).如(11)所述的裝置,其中所述深度傳感器獲取手心和手背的深度圖信息,并且
所述手部的三維空間信息包括:針對每只手的5個手指的各4個關節(jié),共20個關節(jié),在圖像捕捉單元坐標系中的三維位置。
(13).如(11)所述的裝置,其中所述結構光投射器包括紅外激光點陣發(fā)射器,所述圖像捕捉單元包括紅外攝像頭。
(14).如(11)所述的裝置,其中結構光投射器覆蓋的范圍和圖像捕捉單元獲取的范圍覆蓋五只手指。
(15).如(14)所述的裝置,其中結構光投射器和圖像捕捉單元的覆蓋范圍在10厘米到30厘米之間,結構光投射器視角和圖像捕捉單元的發(fā)散角在40到80度之間。
(16).如(14)所述的裝置,其中結構光投射器和圖像捕捉單元的覆蓋范圍在15厘米到25厘米之間,結構光投射器視角和圖像捕捉單元的發(fā)散角為60度。
(17).如(10)所述的裝置,其中計算單元利用深度圖信息產生深度圖,將獲得的深度圖按空間結構排列成矩陣,作為卷積神經(jīng)網(wǎng)絡的輸入,經(jīng)過多個卷積層和池化層,逐步地從中提取其局部特征到提取其全局特征,之后使用兩個全連接層,將之前的特征繼續(xù)回歸為多維向量。
(18).如(14)所述的裝置,其中所述結構光投射器和圖像捕捉單元在手臂或者手腕之上有2到3厘米的高度。
(19).一種手型跟蹤裝置,包括處理器和存儲器,所述存儲器中存儲有指令,當所述處理器執(zhí)行所述指令時,執(zhí)行如1-9中任一項所述的方法。
(20).一種計算機可讀存儲介質,其上存儲有計算機可執(zhí)行指令,當所述指令被計算裝置執(zhí)行時,執(zhí)行如1-9中任一項所述的方法。
以上已經(jīng)描述了本發(fā)明的各實施例,上述說明是示例性的,并非窮盡性的,并且也不限于所披露的各實施例。在不偏離所說明的各實施例的范圍和精神的情況下,對于本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。因此,本發(fā)明的保護范圍應該以權利要求的保護范圍為準。