專利名稱:一種頭戴式立體視覺手勢識別裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明為一種頭戴式立體視覺手勢識別裝置,屬于計算機視覺與人機交互技術(shù)領(lǐng)域,用于穿戴計算機的手勢交互。
背景技術(shù):
穿戴計算機的各種輸入裝置,比如鍵盤、鼠標、寫字板等,都穿戴在人身上,比如腰部、胸部、肩部、手臂等部位。這些輸入裝置對于穿戴者來說,比較累贅,因此,人們在大力研發(fā)手勢識別技術(shù),以解決人和計算機之間的自然交互。目前,已有各種不同的裝置和技術(shù)用來解決穿戴條件下的手勢識別問題,主要可以分為二大類。第一類是基于數(shù)據(jù)手套的手勢識別裝置,如,澳大利亞的“Tinmith-Hand”。但該類裝置體積大,需要佩戴數(shù)據(jù)手套,沒有完全把人手解放出來。第二類是基于計算機視覺的手勢識別裝置,該類裝置使用一個普通的CCD或CMOS攝像頭,具有體積小、價格便宜和功耗較低的特點。如,日本國家工業(yè)科學技術(shù)研究院智能系統(tǒng)研究所研發(fā)的單目穿戴視覺系統(tǒng)“Weavy”,美國加州大學HRL實驗室研制的穿戴視覺系統(tǒng)“SNAP&TELL”。已有這類裝置的主要不足是(1)采用單個攝像機,獲取的信息有限,容易受到環(huán)境光線和復雜背景的影響;(2)攝像頭方向固定,只能面向前方,識別手勢時穿戴者必須將手抬起來,容易產(chǎn)生疲勞,缺乏靈活性;(3)主要采用膚色信息進行人手跟蹤與手勢識別,膚色易受光照條件的影響,隨著穿戴者的行走,會引起光照條件的改變,從而導致跟蹤與識別的失??;除此之外,當攝像機視野中出現(xiàn)與膚色相近的物體時,會產(chǎn)生二義性,無法區(qū)分。
針對現(xiàn)有裝置和技術(shù)存在的問題與不足,本發(fā)明提出了一種頭戴式立體視覺手勢識別裝置。該裝置由立體視覺成像頭、立體視覺板、頭戴顯示器和穿戴計算機組成。該裝置可以同步獲取穿戴者手的立體圖像對,能夠?qū)崟r計算視差圖(或深度圖),結(jié)合視差圖和灰度圖,能夠穩(wěn)定和魯棒的進行人手跟蹤和手勢識別,為穿戴計算機提供基于手勢的自然友好的人機接口。
發(fā)明內(nèi)容
本發(fā)明是由立體視覺成像頭[1]、立體視覺板[2]、頭戴顯示器[3]和穿戴計算機[4]組成;立體視覺成像頭[1]由兩個或兩個以上的微型攝像機[8]組成,可以獲取人手的立體圖像對;立體視覺板[2]以視頻速度計算稠密視差圖(深度圖),并將稠密視差圖(深度圖)和灰度圖像(或彩色圖像)以視頻速度傳輸?shù)酱┐饔嬎銠C[4],穿戴計算機[4]完成人手跟蹤和手勢識別,并將識別和控制結(jié)果顯示在頭戴顯示器[3]上;為了方便地恢復近距離的手勢視差圖,微型攝像機[8]采用了廣角攝像頭;微型攝像機[8]之間的基線距離較小,這樣既保證了攝像機視場角公共區(qū)與攝像機的距離較小,也保證了人手具有一定的活動范圍。
立體視覺成像頭[1]固定在頭箍[10]的右(左)邊,便于獲取右手(左手)的圖像;同時配置了旋轉(zhuǎn)軸[9],可以根據(jù)需求任意調(diào)節(jié)立體視覺成像頭[1]的朝向。
立體視覺板[2]以一片F(xiàn)PGA作為處理芯片,實時完成圖像變形修正、外極線校正和稠密視差圖計算。立體視覺板[2]中包含有一個基于IEEE1394通訊芯片設(shè)計的實時圖像傳輸接口,用于實現(xiàn)視差圖、灰度圖像(或彩色圖像)的實時傳輸。立體視覺板的體積小,重量輕,計算速度快。
穿戴計算機[4]實時接收來自立體視覺板[2]的視差圖和灰度圖像(或彩色圖像),穿戴計算機[4]完成人手跟蹤與手勢識別的任務,并將計算結(jié)果顯示在頭戴顯示器[3]上,用于實現(xiàn)手勢鼠標、手語識別和手寫字符輸入等應用。
本發(fā)明的具體特征如下(1)頭戴式立體視覺手勢識別裝置中的立體視覺成像頭[1]由兩個或兩個以上的微型攝像機[8]組成,可以同步獲取人手的圖像,為穿戴計算機[4]提供灰度圖像或彩色圖像的同時,還提供了立體圖像對,可以魯棒地實現(xiàn)人手跟蹤和手勢識別。
(2)立體視覺成像頭[1]固定在頭箍[10]的右(左)邊,便于獲取右(左)手的立體圖像對。同時配置了旋轉(zhuǎn)軸[9],可以根據(jù)需求任意調(diào)節(jié)立體視覺成像頭[1]的朝向,如前方、下方、斜下方等,以方便穿戴者在座姿、站立、行走等不同情況下調(diào)節(jié)最合適的立體視覺成像頭[1]的朝向。
(3)頭戴式立體視覺手勢識別裝置中的立體視覺板[2]以視頻的速度計算稠密視差圖(稠密深度圖),并將灰度圖像(或彩色圖像)和稠密視差圖(或稠密深度圖)以視頻的速度傳輸?shù)酱┐饔嬎銠C[4]中進行手勢識別和跟蹤。
(4)通過廉價的立體視覺技術(shù),獲取穿戴者手的立體圖像對,通過立體圖像對實時計算稠密視差圖,利用人手的視差圖和灰度圖像能夠更穩(wěn)定的實現(xiàn)人手跟蹤和手勢識別,并將計算結(jié)果顯示在頭戴顯示器[3]上,用于實現(xiàn)手勢鼠標、手語識別和手寫字符輸入等應用。
本發(fā)明具有以下優(yōu)點1.本發(fā)明采用了立體視覺信息和灰度(或彩色)信息,實現(xiàn)更加可靠和魯棒的人手定位、跟蹤和識別。
2.本發(fā)明采用廣角鏡頭(60°以上),并使用圖像變形修正算法,有效地提高場景圖像感知效率,可以在穿戴條件下可靠地對近距離人手進行定位、跟蹤和識別。
3.本發(fā)明采用兩個或多個微型攝像機[8],并采用硬件實現(xiàn)圖像的變形修正處理、圖像外極線校正處理和稠密視差圖的視頻速度計算。
4.本發(fā)明采用IEEE1394[16]接口實現(xiàn)與穿戴計算機[4]的實時通訊,降低了延遲,提高了交互的效率。
5.本發(fā)明體積小、重量輕、計算速度快。
圖1是本發(fā)明的組成示意圖。
圖2是本發(fā)明的基本組成框圖。
圖3是本發(fā)明的穿戴示意圖。
圖4是本發(fā)明的兩種立體視覺成像頭外觀圖。
圖5是本發(fā)明的立體視覺成像頭組成框圖。
圖6是本發(fā)明的立體視覺板組成框圖。
圖7是本發(fā)明的手語識別的流程示意圖。
圖8是本發(fā)明的手勢鼠標應用中用到的三種手勢。
圖9是本發(fā)明的手勢鼠標的流程示意圖。
圖10是本發(fā)明的手寫字符輸入應用中用到的三種手勢。
圖11是本發(fā)明的手寫字符輸入的流程示意圖。
圖1-圖11中的1-立體視覺成像頭、2-立體視覺板、3-頭戴顯示器、4-穿戴計算機、5-圖像數(shù)據(jù)線纜、6-IEEE1394連接線、7-VGA連接線、8-CMOS微型攝像機、9-旋轉(zhuǎn)軸、10-頭箍、11-圖像采集控制器、12-圖像傳輸接口、13-立體視覺信息處理器、14-控制器/通訊接口、15-視差圖像高層處理與傳輸控制器、16-IEEE1394接口、17-幀存儲器、18-圖像傳輸接口。
下面結(jié)合附圖對本發(fā)明作進一步說明一種頭戴式立體視覺手勢識別裝置的結(jié)構(gòu)如圖1、2、3所示,該裝置包括立體視覺成像頭[1],立體視覺板[2],頭戴顯示器[3]和穿戴計算機[4]四大部分。立體視覺成像頭[1]固定在頭箍[10]的右側(cè)(左側(cè)),方便于拍攝右手(左手)的圖像;立體視覺成像頭[1]通過圖像數(shù)據(jù)線纜[5]把采集到的立體圖像對傳送到立體視覺板[2]。立體視覺板[2]完成圖像變形修正、立體圖像對的外級線校正和稠密視差圖的實時計算,并將稠密視差圖連同灰度圖像或彩色圖像,通過IEEE1394接口[16]傳送給穿戴計算機[4];穿戴計算機[4]根據(jù)視差圖、灰度圖像或彩色圖像,實現(xiàn)人手的分割、跟蹤和手勢識別,并將手勢控制顯示在頭戴顯示器[3]上,實現(xiàn)文本、圖形、圖像界面的控制。
圖4是兩種立體視覺成像頭[1]的外觀圖,一種是雙目的,另一種是三目的。圖5是立體視覺成像頭組成框圖。立體視覺成像頭[1]由兩個或兩個以上的微型攝像機[8]、圖像采集控制器[11]、圖像傳輸接口[18]、幀存儲器[17]和旋轉(zhuǎn)軸[9]組成。立體視覺成像頭[1]采用三個微型攝像機比采用兩個微型攝像機獲取的視覺信息更豐富,視差圖更稠密、更精確,而采用兩個微型攝像機[8]可以獲得更快的執(zhí)行速度,可根據(jù)需求選取合適的微型攝像機[8]數(shù)目。微型攝像機[8]采用了廣角鏡頭,攝像頭的對角線視場角范圍為60°以上,可以恢復0.3-1.2米深度范圍內(nèi)人手的稠密三維數(shù)據(jù)。圖像采集控制器[11]控制多個微型攝像機同步采集圖像,并將圖像緩存到幀存儲器[17],然后再通過圖像傳輸接口[18]傳送到立體視覺板[2]。立體視覺成像頭[1]通過一個手動旋轉(zhuǎn)軸[9]與立體視覺板相連,并固定在頭箍上[10],人們可以根據(jù)需要,旋轉(zhuǎn)成像頭。這樣,穿戴者可以在坐姿、站姿或行走時選擇最合適的攝像頭朝向。
圖6是立體視覺板[2]的組成框圖。立體視覺板[2]由立體視覺信息處理器[13]和控制器/通訊接口[14]組成。立體視覺信息處理器[13]以一片F(xiàn)PGA作為處理芯片,完成圖像變形修正、LoG濾波、立體圖像對外極線校正、稠密視差圖計算、子象素級視差計算,實現(xiàn)稠密視差圖實時恢復。立體視覺信息處理器[13]的實現(xiàn)方法見我們的發(fā)明專利ZL02100547.8??刂破?通訊接口[14]由視差圖像高層處理與傳輸控制器[15]和1394接口[16]組成。視差圖像高層處理與傳輸控制器[15]由DSP芯片實現(xiàn),不僅可以向立體視覺信息處理器[13]傳送攝像頭的內(nèi)外參數(shù)和進行視差圖像的高層處理,而且還可以通過1394接口[16]將灰度圖像、彩色圖像和視差圖像傳輸給穿戴計算機[4]。
立體視覺成像頭[1]在使用之前,要進行強標定。把標定參數(shù)由穿戴計算機[4]通過1394接口[16]傳輸?shù)搅Ⅲw視覺板[2]。立體視覺成像頭[1]采用固定的鏡頭,并將其與成像芯片固化到一起,已保證在穿戴者使用過程中,系統(tǒng)參數(shù)不會發(fā)生改變。
穿戴計算機[4]是整個裝置的中央控制機構(gòu)和高層處理單元。穿戴計算機[4]對系統(tǒng)的各個部分進行統(tǒng)一管理和協(xié)調(diào)控制,并對立體視覺板[2]輸出的視差圖像、灰度圖像或彩色圖像進行高層處理,完成人手跟蹤與手勢識別的任務,為穿戴計算機提供基于手勢的智能人機接口。
手勢是一種自然而直觀的人際交流模式,基于視覺的手勢交互是實現(xiàn)新一代人機交互的關(guān)鍵技術(shù)。特別是對于穿戴計算機來說,基于視覺的手勢交互是最有希望突破人機交互瓶頸的核心技術(shù)。目前已經(jīng)有許多手勢識別和跟蹤的方法,但在動態(tài)和復雜背景下,比如穿戴計算機視覺系統(tǒng)所處的環(huán)境,由于圖像的抖動、光照的變化、背景的動態(tài)和復雜性,給穿戴計算環(huán)境下的人手跟蹤與手勢識別帶來一定的困難。利用單一的視覺信息很難獲得魯棒的跟蹤與識別結(jié)果,因此,多信息融合是一個行之有效的好方法。該裝置可以實時地獲取灰度、彩色和稠密視差圖像,綜合利用多種視覺信息完成人手跟蹤與手勢識別的任務。
人手跟蹤與手勢識別是手勢交互過程中兩項重要的技術(shù)。在下面的應用實例中,我們采用粒子濾波器(Particle Filter)進行人手的魯棒跟蹤。粒子濾波器是一種非線性/非高斯的貝葉斯濾波器,它利用隨機產(chǎn)生的樣本集合來表示跟蹤目標在圖像中的概率分布,該分布是非高斯的,可以同時維持多個假設(shè),能夠增強復雜背景下的目標跟蹤能力;除此之外,樣本集合中可以同時存在多種類別的粒子,便于融合多種視覺信息進行人手的魯棒跟蹤。我們采用隱馬爾可夫模型(Hidden Markov Models,HMM)進行手勢識別,在基于HMM的識別算法里,每種手勢有一個HMM,可觀察符號對應著模型參數(shù)空間里的向量(點),例如幾何矩向量,Zernike矩,特征圖像系數(shù)向量,或者3D空間的運動速度等等?;贖MM識別技術(shù)不僅具有時間尺度不變性,而且還具備自動分割和分類的能力,可以用于動態(tài)手勢和手語的識別。
實施例應用舉例1一種頭戴式立體視覺手勢識別裝置,如圖1、2、3所示,包括立體視覺成像頭[1],立體視覺板[2],頭戴顯示器[3]與穿戴計算機[4]四大部分。圖7給出了一個手語識別的流程示意圖。立體視覺成像頭[1]把采集到灰度手勢圖像傳送至立體視覺板[2]。立體視覺板[2]對手勢圖像進行變形修正、外極線校正和視差計算,把校正后的灰度圖像和視差圖像通過1394接口[16]傳送至穿戴計算機[4]。從視差圖和灰度圖中提取特征,采用基于HMM的手語識別方法進行手語識別。最后,將識別結(jié)果顯示在頭戴顯示器[3]上。
應用舉例2圖9給出了是一個手勢鼠標的流程示意圖。立體視覺成像頭[1]把采集得到灰度手勢圖像傳送至立體視覺板[2]。立體視覺板[2]對手勢圖像對進行變形修正、外極線校正和視差計算,把校正后的灰度圖像和視差圖像通過1394接口[16]傳送至穿戴計算機[4]。穿戴計算機[4]綜合利用灰度信息和視差信息進行人手的魯棒跟蹤,并在跟蹤過程中進行手勢識別。圖8給出了手勢鼠標中用到的三種手勢,手勢1是右手自然伸展狀態(tài),手背朝向攝象機,對應鼠標移動事件;手勢2是右手握拳狀態(tài),對應單擊鼠標左鍵事件;手勢3是右手自然伸展狀態(tài),手心朝向攝象機,對應單擊鼠標右鍵事件。通過對這三種手勢的跟蹤、識別就可以完成傳統(tǒng)的鼠標操作,我們把這種基于手勢的人機交互方式稱為手勢鼠標。
應用舉例3圖11給出了是一個手寫字符輸入的流程示意圖。立體視覺成像頭[1]把采集得到灰度手勢圖像傳送至立體視覺板[2]。立體視覺板[2]對手勢圖像對進行變形修正、外極線校正和視差計算,把校正后的灰度圖像和視差圖像通過1394接口[16]傳送至穿戴計算機[4]。穿戴計算機[4]綜合利用灰度信息和視差信息進行人手的魯棒跟蹤,并在跟蹤過程中進行手勢識別和食指指尖定位。圖10給出了三種手勢,字符軌跡輸入點由食指指尖確定。由手勢1切換到手勢2表示字符筆畫輸入的開始;由手勢2切換到手勢1表示字符筆畫輸入的結(jié)束;手勢3表示字符軌跡輸入完畢。通過這3種手勢的識別,就可以實現(xiàn)字符軌跡的輸入,可以是單或多筆畫的字符,甚至可以輸入漢字軌跡。之后,進行字符識別。從而實現(xiàn)了基于手勢的手寫體字符的輸入。
權(quán)利要求
1.一種頭戴式立體視覺手勢識別裝置,其特征在于該裝置由立體視覺成像頭[1]、立體視覺板[2]、頭戴顯示器[3]和穿戴計算機[4]組成;立體視覺成像頭[1]由兩個或兩個以上的微型攝像機[8]組成,可以獲取人手的立體圖像對;立體視覺板[2]以視頻速度計算稠密視差圖(深度圖),并將稠密視差圖(深度圖)和灰度圖像(或彩色圖像)以視頻速度傳輸?shù)酱┐饔嬎銠C[4],穿戴計算機[4]完成人手跟蹤和手勢識別,并將識別和控制結(jié)果顯示在頭戴顯示器[3]上。
2.權(quán)利要求1所述的一種頭戴式立體視覺手勢識別裝置,其特征在于為了方便地恢復近距離的手勢視差圖,微型攝像機[8]采用了廣角攝像頭。
3.權(quán)利要求1所述的一種頭戴式立體視覺手勢識別裝置,其特征在于立體視覺成像頭[1]固定在頭箍[10]的右(左)邊,便于獲取右手(左手)的圖像;同時配置了旋轉(zhuǎn)軸[9],可以根據(jù)需求任意調(diào)節(jié)立體視覺成像頭[1]的朝向。
全文摘要
本發(fā)明為頭戴式立體視覺手勢識別裝置,屬于計算機視覺與人機交互技術(shù)領(lǐng)域。該裝置由立體視覺成像頭、立體視覺板、頭戴顯示器和穿戴計算機四個部分組成;立體視覺成像頭獲取穿戴者手的灰度圖像,立體視覺板實時計算稠密視差圖(深度圖),并將視差圖和灰度圖像傳送給穿戴計算機,穿戴計算機完成人手跟蹤與手勢識別的任務,并將計算結(jié)果顯示在頭戴顯示器上。本發(fā)明可以實現(xiàn)在穿戴計算環(huán)境下的人手跟蹤與手勢識別,用于完成手勢鼠標、手語識別和手寫字符輸入等,實現(xiàn)基于手勢的智能人機接口。
文檔編號G06K9/20GK1648840SQ20051000295
公開日2005年8月3日 申請日期2005年1月27日 優(yōu)先權(quán)日2005年1月27日
發(fā)明者賈云得, 柳陽 申請人:北京理工大學