專利名稱:基于視線跟蹤和手勢(shì)識(shí)別的人機(jī)交互方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及虛擬現(xiàn)實(shí)系統(tǒng)中的人機(jī)交互技術(shù),具體是一種基于視線跟蹤和手勢(shì)識(shí)別的 人機(jī)交互方法和裝置。
背景技術(shù):
隨著計(jì)算機(jī)技術(shù)的迅猛發(fā)展,人與計(jì)算機(jī)的交互活動(dòng)逐漸成為人們?nèi)粘I畹囊粋€(gè)重 要組成部分。鼠標(biāo)、鍵盤(pán)等傳統(tǒng)的人機(jī)交互設(shè)備在使用的自然性和友好性等方面都存在一 定的局限性,因此研究符合人際交流習(xí)慣的人機(jī)交互技術(shù)成為了當(dāng)前的發(fā)展趨勢(shì)。
基于視線跟蹤和基于手勢(shì)識(shí)別的人機(jī)交互方式都具有自然性、直接性和簡(jiǎn)潔性。基于 視線跟蹤的人機(jī)交互技術(shù)主要通過(guò)獲取眼球的轉(zhuǎn)動(dòng)信息得到用戶注視的位置,進(jìn)而實(shí)現(xiàn)對(duì) 計(jì)算機(jī)的控制。它主要分為接觸式和非接觸式兩類。接觸式的裝置要求用戶佩戴專門(mén)的設(shè) 備以檢測(cè)眼球信息,這將給用戶帶來(lái)很大的干擾。非接觸式的裝置分辨率精度有限,而且 用戶必須距離攝像頭較近且頭部偏轉(zhuǎn)不能過(guò)大。基于手勢(shì)識(shí)別的人機(jī)交互技術(shù)主要通過(guò)識(shí) 別用戶的手勢(shì)變化,判斷用戶需要進(jìn)行的操作。它分為基于數(shù)據(jù)手套和基于計(jì)算機(jī)視覺(jué)兩 類?;跀?shù)據(jù)手套的方法存在累贅、運(yùn)動(dòng)不靈活等缺點(diǎn)?;谟?jì)算機(jī)視覺(jué)的方法不能通過(guò) 手指的指向來(lái)直接定位,必須通過(guò)特定的手勢(shì)變化來(lái)獲取相對(duì)位置,而且要求用戶必須距 離攝像頭較近。所以,傳統(tǒng)的基于視線跟蹤和基于手勢(shì)識(shí)別的人機(jī)交互技術(shù)都存在一定的 缺陷,不能很好的解決人機(jī)之間的遠(yuǎn)距離交互,例如人們?cè)诶么笃聊谎葜v時(shí),需要遠(yuǎn)距 離操作計(jì)算機(jī)。
發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有技術(shù)存在的上述的缺陷,提供基于視線跟蹤和手勢(shì)識(shí)別的人 機(jī)交互方法及裝置,可實(shí)現(xiàn)遠(yuǎn)距離操作計(jì)算機(jī)。用戶不必?cái)y帶其它任何設(shè)備,只需通過(guò)自 然的手指指向和點(diǎn)擊動(dòng)作即可實(shí)現(xiàn)對(duì)計(jì)算機(jī)的控制。本發(fā)明的通過(guò)如下技術(shù)方案實(shí)現(xiàn)。
基于視線跟蹤和手勢(shì)識(shí)別的人機(jī)交互方法,包括步驟人臉區(qū)域的檢測(cè)、手區(qū)域的檢 測(cè)、人眼的定位、指尖的定位、屏幕定位和手勢(shì)識(shí)別。
所述屏幕定位包括當(dāng)用戶伸出一個(gè)手指指向屏幕時(shí),系統(tǒng)根據(jù)圖像采集裝置采集到 的人臉圖像和手圖像區(qū)域面積大小計(jì)算出人眼和指尖到屏幕的距離;將人眼和指尖在圖像
中的坐標(biāo)轉(zhuǎn)換為人眼和指尖在以圖像采集裝置為原點(diǎn)的三維坐標(biāo)系統(tǒng)中的坐標(biāo);由人眼和
指尖兩點(diǎn)確定一條直線,該直線與屏幕相交的點(diǎn)就是用戶指向屏幕的位置,根據(jù)人眼坐標(biāo)和指尖坐標(biāo)的比例關(guān)系計(jì)算出該位置在所述三維坐標(biāo)系統(tǒng)中的坐標(biāo);根據(jù)屏幕的大小,將 所述位置的坐標(biāo)轉(zhuǎn)化為鼠標(biāo)在屏幕上的邏輯坐標(biāo);
所述手勢(shì)識(shí)別通過(guò)判斷手指點(diǎn)擊動(dòng)作來(lái)模擬鼠標(biāo)的點(diǎn)擊操作,當(dāng)用戶伸出右手一個(gè)手 指指向屏幕并移動(dòng)時(shí),將視為鼠標(biāo)的移動(dòng);當(dāng)該右手手指第一次合起時(shí),將視為按下鼠標(biāo) 左鍵;此時(shí)若將右手手指伸出指向屏幕并移動(dòng),將視為按住左鍵移動(dòng)鼠標(biāo);當(dāng)該右手手指 再次合起時(shí),將視為釋放了左鍵;當(dāng)用戶伸出左手一個(gè)手指指向屏幕,然后將左手手指合 起時(shí),將視為按下鼠標(biāo)右鍵;當(dāng)左手手指伸出后,將視為釋放鼠標(biāo)右鍵。
上述方法中,所述人臉區(qū)域的檢測(cè)步驟包括通過(guò)基于類矩形特征的Adaboost人臉檢 測(cè)算法判斷圖像中是否有人臉存在,首先計(jì)算圖像的積分圖,提取類矩形特征,根據(jù)已訓(xùn) 練好的分類器特征庫(kù),運(yùn)用Cascade級(jí)聯(lián)的方法在圖像中搜索人臉區(qū)域。所述分類器特征 庫(kù)的訓(xùn)練步驟包括計(jì)算樣本圖像的積分圖,提取樣本圖像的類矩形特征;根據(jù)Adaboost 算法篩選有效的特征,構(gòu)成弱分類器;通過(guò)組合多個(gè)弱分類器,構(gòu)成強(qiáng)分類器;級(jí)聯(lián)多個(gè) 強(qiáng)分類器,形成人臉檢測(cè)的分類器特征庫(kù)。
上述方法中,所述手區(qū)域的檢測(cè)步驟包括根據(jù)人臉的膚色特征,通過(guò)膚色匹配方法 搜索圖像中相匹配的區(qū)域;在初步分割出手區(qū)域后,根據(jù)人臉區(qū)域的位置去除人臉和脖子 的干擾區(qū)域,根據(jù)連通域的面積大小去除背景干擾,從而檢測(cè)出手區(qū)域。
上述方法中,所述人眼的定位步驟包括在檢測(cè)到人臉區(qū)域的基礎(chǔ)上,對(duì)人臉圖像做 水平灰度投影,然后根據(jù)人臉的五官特征,在水平灰度投影曲線上搜索各個(gè)局部最小點(diǎn)并 判斷是否為人眼區(qū)域;當(dāng)檢測(cè)到人眼區(qū)域后,以該區(qū)域的中點(diǎn)作為人眼坐標(biāo)。
上述方法中,所述指尖定位步驟包括首先對(duì)手區(qū)域的圖像進(jìn)行邊緣檢測(cè)和網(wǎng)格抽樣 處理;以抽樣后的手輪廓的每個(gè)像素為中心,分別在逆時(shí)針和順時(shí)針?lè)较蜻x取4個(gè)相鄰的 像素構(gòu)成四對(duì)像素對(duì);分別計(jì)算每對(duì)像素間的距離方差,平均距離方差最小且小于閾值的 樣本像素即為指尖區(qū)域;當(dāng)檢測(cè)到指尖區(qū)域后,以該區(qū)域的中點(diǎn)作為指尖坐標(biāo)。
一種實(shí)現(xiàn)上述方法的裝置,其包括圖像采集模塊,圖像處理模塊和無(wú)線傳輸模塊,圖 像采集模塊中的攝像頭放置于屏幕上端中央,負(fù)責(zé)采集用戶的圖像并輸入到圖像處理模塊 中;圖像處理模塊負(fù)責(zé)控制其它兩個(gè)模塊,運(yùn)行各種圖像處理算法對(duì)采集的用戶圖像進(jìn)行 分析處理,將用戶指向屏幕的位置和手勢(shì)的變化轉(zhuǎn)化為計(jì)算機(jī)在屏幕上的邏輯坐標(biāo)和控制 指令;無(wú)線傳輸模塊包括接收模塊和發(fā)送模塊,發(fā)送模塊與圖像處理模塊連接,負(fù)責(zé)將處 理結(jié)果通過(guò)射頻信號(hào)傳輸?shù)浇邮漳K;接收模塊與計(jì)算機(jī)相連,負(fù)責(zé)將處理結(jié)果轉(zhuǎn)化為鼠 標(biāo)控制信號(hào)輸入到計(jì)算機(jī)中。
所述的圖像采集模塊包括一攝像頭,所述圖像處理模塊包括一嵌入式處理器和外圍器 件,所述接收模塊和發(fā)送模塊均包含有射頻芯片和單片機(jī)。
與現(xiàn)有技術(shù)相比,本發(fā)明具有如下優(yōu)點(diǎn)和效果本發(fā)明是一種自然、直觀的人機(jī)交互 方式,用戶不需攜帶其他任何設(shè)備,無(wú)需記憶復(fù)雜的操作,只需通過(guò)自然的手指指向和點(diǎn) 擊動(dòng)作,即可實(shí)現(xiàn)對(duì)計(jì)算機(jī)的控制;本發(fā)明綜合了視線跟蹤和手勢(shì)識(shí)別兩種技術(shù),解決了 傳統(tǒng)的基于視線跟蹤技術(shù)和基于手勢(shì)識(shí)別技術(shù)中需要佩戴專門(mén)的設(shè)備,限制用戶使用自由 的缺陷,提供一種簡(jiǎn)單自由的操作方式,可用于遠(yuǎn)距離控制計(jì)算機(jī);本發(fā)明的裝置體積小 巧、使用方便,只需把攝像頭放置在屏幕上端中央,將無(wú)線通信模塊連接到計(jì)算機(jī),即可 立即使用。
圖1是本發(fā)明具體實(shí)施方式
中的硬件結(jié)構(gòu)示意圖。 圖2是本發(fā)明實(shí)施方式中的使用狀態(tài)示意圖。 圖3是本發(fā)明具體實(shí)施方式
中的工作流程示意圖。
圖4a和圖4b分別是人眼與屏幕在以攝像頭為原點(diǎn)的三維坐標(biāo)系統(tǒng)中的X-Z和Y-Z平 面內(nèi)的位置關(guān)系圖。
圖5是根據(jù)人眼和指尖坐標(biāo)定位屏幕的坐標(biāo)定位模型。
具體實(shí)施例方式
下面結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式
做進(jìn)一步說(shuō)明。
基于視線跟蹤和手勢(shì)識(shí)別的人機(jī)交互系統(tǒng)主要由圖像采集模塊,圖像處理模塊和無(wú)線 通信模塊三部分構(gòu)成,如圖1所示。圖像采集模塊包括一攝像頭,負(fù)責(zé)實(shí)時(shí)采集用戶的圖 像并傳輸?shù)綀D像處理模塊中。圖像處理模塊由高性能的嵌入式處理器及外圍器件組成,負(fù) 責(zé)控制其它兩個(gè)模塊,運(yùn)行各種圖像處理算法對(duì)采集的用戶圖像進(jìn)行分析處理,將用戶指 向屏幕的位置和手勢(shì)的變化轉(zhuǎn)化為計(jì)算機(jī)在屏幕上的邏輯坐標(biāo)和控制命令。無(wú)線通信模塊 分為發(fā)送和接收兩部分,兩部分均由單片機(jī)和射頻芯片構(gòu)成。無(wú)線通信模塊負(fù)責(zé)傳輸圖像 處理模塊中的處理結(jié)果,并將該結(jié)果轉(zhuǎn)化為鼠標(biāo)控制信號(hào)輸入到計(jì)算機(jī)中。
如圖2所示,攝像頭1放置于大屏幕2上端的中間位置實(shí)時(shí)采集用戶的圖像。當(dāng)用戶 需要移動(dòng)鼠標(biāo)到的某個(gè)位置時(shí),只需通過(guò)右手手指3指向屏幕上該位置即可,人眼4和手 指3指尖兩點(diǎn)確定一條直線,該直線與屏幕相交的點(diǎn)就是用戶指向屏幕的位置;當(dāng)用戶需 要鼠標(biāo)左鍵操作時(shí),只需通過(guò)右手手指的點(diǎn)擊動(dòng)作;當(dāng)用戶需要鼠標(biāo)右鍵操作時(shí),只需通 過(guò)左手手指的點(diǎn)擊動(dòng)作。
本發(fā)明的具體實(shí)施方式
流程如圖3所示。首先通過(guò)攝像頭采集用戶圖像,然后根據(jù)人 臉檢測(cè)算法對(duì)該圖像進(jìn)行分析。通過(guò)檢測(cè)圖像中是否存在人臉來(lái)判斷當(dāng)前是否有用戶使用 該系統(tǒng),只有檢測(cè)到人臉后,才進(jìn)行后續(xù)的處理。在檢測(cè)到人臉的基礎(chǔ)上,根據(jù)人眼定位 算法,搜索該人臉圖像中的人眼區(qū)域,獲取人眼坐標(biāo)。通過(guò)手檢測(cè)算法對(duì)圖像進(jìn)行分析, 檢測(cè)手區(qū)域。在得到手區(qū)域的基礎(chǔ)上,利用指尖定位算法分析手區(qū)域的圖像,獲取指尖坐 標(biāo)。若系統(tǒng)檢測(cè)到手區(qū)域和定位到指尖,則認(rèn)為用戶指向了屏幕,系統(tǒng)將根據(jù)坐標(biāo)轉(zhuǎn)換模 型和定位模型計(jì)算出鼠標(biāo)在屏幕上的坐標(biāo)。若系統(tǒng)檢測(cè)到手區(qū)域但并沒(méi)有定位到指尖,則 表示用戶手指已合起,發(fā)生了點(diǎn)擊動(dòng)作,通過(guò)識(shí)別用戶的點(diǎn)擊動(dòng)作可以得到計(jì)算機(jī)的操作 命令。當(dāng)系統(tǒng)處理完該幀圖像后,將處理結(jié)果通過(guò)射頻信號(hào)傳輸?shù)脚c計(jì)算機(jī)的無(wú)線接收模 塊中,該模塊負(fù)責(zé)將處理結(jié)果轉(zhuǎn)化為鼠標(biāo)控制信號(hào)輸入到計(jì)算機(jī)中。
本實(shí)施方式中,人臉檢測(cè)算法采用基于類矩形特征的Adaboost人臉檢測(cè)算法對(duì)圖像進(jìn) 行分析。系統(tǒng)首先計(jì)算圖像的積分圖,提取類矩形特征。然后利用已訓(xùn)練好的分類器特征 庫(kù),運(yùn)用Cascade級(jí)聯(lián)的方法在圖像中搜索人臉區(qū)域。本系統(tǒng)使用的分類器特征庫(kù)由22級(jí) 強(qiáng)分類器構(gòu)成,每個(gè)強(qiáng)分類器又由若干個(gè)弱分類器構(gòu)成。系統(tǒng)首先截取整幅圖像中所有80 X80的子窗口,每個(gè)子窗口依次通過(guò)級(jí)聯(lián)分類器,逐級(jí)淘汰非人臉子窗口。如果只有一個(gè) 通過(guò)全部22級(jí)分類器的子窗口,則確定該窗口為人臉子窗口;如有多個(gè)通過(guò)全部22級(jí)分 類器的子窗口,對(duì)多個(gè)待選人臉子窗口進(jìn)行相鄰子窗口合并,選出最佳人臉子窗口。如果 沒(méi)檢測(cè)到符合的子窗口,則子窗口大小以l.l倍遞增,并重新通過(guò)級(jí)聯(lián)分類器進(jìn)行檢測(cè)。
本實(shí)施方式中,分類器特征庫(kù)的訓(xùn)練是離線訓(xùn)練,需要大量的人臉和非人臉樣本。由 于人臉區(qū)域一般為正方形區(qū)域,所以首先選取樣本圖像的正方形象素區(qū)域,計(jì)算出該區(qū)域 的積分圖和類矩形特征。然后根據(jù)AdaBoost算法進(jìn)行特征的篩選,選擇有效的特征及閾值 組成為弱分類器,通過(guò)組合多個(gè)弱分類器構(gòu)成強(qiáng)分類器。根據(jù)Cascade級(jí)聯(lián)的方法,將人 臉中最明顯的兩個(gè)特征作為第一個(gè)強(qiáng)分類器的特征,然后將更多特征組成的強(qiáng)分類器作為 進(jìn)一步檢測(cè),通過(guò)級(jí)聯(lián)多個(gè)強(qiáng)分類器構(gòu)成一個(gè)人臉檢測(cè)分類器。
本實(shí)施方式中,人眼定位算法采用基于五官特征的方法來(lái)定位人眼。系統(tǒng)在檢測(cè)到人 臉的基礎(chǔ)上,首先對(duì)人臉圖像做平滑處理,然后對(duì)該圖像做水平灰度投影。根據(jù)人臉的五 官特征,可以發(fā)現(xiàn)該灰度曲線存在多個(gè)局部最小點(diǎn),分別為眉毛、眼睛、鼻孔和嘴巴。 所以系統(tǒng)首先將灰度曲線第二個(gè)局部最小點(diǎn)假定為人眼位置后,在該點(diǎn)的上下各取圖像 1/20作為候選眼區(qū)域,并根據(jù)以下特征進(jìn)行確認(rèn)。(1)由人眼的位置可知,該局部最小點(diǎn) 必須位于人臉的上半部分。(2)由于眉毛到眼睛的距離比眼睛到鼻孔的距離要小,因此取得圖像的第二個(gè)局部最小點(diǎn)后,其與前一個(gè)局部最小點(diǎn)的距離將小于其與后一個(gè)局部最小 點(diǎn)的距離。(3)對(duì)取得的候選眼區(qū)域,做水平投影,投影曲線需滿足一個(gè)波峰狀,兩個(gè)波 谷時(shí)。只有滿足以上三個(gè)條件才可確定為人眼區(qū)域,否則調(diào)整候選眼區(qū)域。當(dāng)確認(rèn)為人眼 區(qū)域后,并以該區(qū)域的中點(diǎn)作為人眼坐標(biāo)。
本實(shí)施方式中,手檢測(cè)算法采用膚色匹配的方法初步分割出手區(qū)域。在檢測(cè)出人臉的 基礎(chǔ)上,首先取人眼下方大小為20X20的矩形框作為人臉的樣本膚色區(qū)域,計(jì)算該矩形框 內(nèi)400個(gè)像素的Y、 Cb、 Cr平均值。以樣本膚色區(qū)域內(nèi)的Y、 Cb、 Cr平均值為中心,加 減10分別作為上下閾值,與圖像中的每個(gè)像素進(jìn)行匹配。滿足本幀圖像膚色模型的區(qū)域, 即被判定為皮膚像素,當(dāng)匹配完成后,可以初步分割出手區(qū)域。根據(jù)已檢測(cè)到的人臉區(qū)域, 可以去除人臉的干擾;根據(jù)人臉和脖子的幾何位置關(guān)系,取人臉正下方,寬為人臉兩倍、 高度和人臉相同的矩形為脖子區(qū)域,可在人臉有偏轉(zhuǎn)的情況下去除脖子的干擾。由于手的 面積遠(yuǎn)大于背景干擾區(qū)域的面積,所以根據(jù)連通域面積大小可以判斷是否為背景干擾,面 積小于閾值的連通區(qū)域?qū)⒈灰暈楸尘案蓴_而去除,從而檢測(cè)出手區(qū)域。
本實(shí)施方式中,指尖定位算法是根據(jù)手輪廓的特征定位指尖區(qū)域。系統(tǒng)首先利用梯度 算子對(duì)手區(qū)域圖像進(jìn)行邊緣檢測(cè),得到手的輪廓。然后采用網(wǎng)格抽樣對(duì)手輪廓進(jìn)行處理, 即原圖像中一個(gè)10X10的區(qū)域只用一個(gè)像素點(diǎn)來(lái)表示。以抽樣后的手輪廓的每個(gè)樣本像素 為中心,分別在逆時(shí)針和順時(shí)針?lè)较蜻x取4個(gè)相鄰的像素,構(gòu)成以樣本像素為中心對(duì)稱的 四對(duì)像素對(duì)。分別計(jì)算每對(duì)像素間的距離方差,平均距離方差最小且小于閾值的樣本像素 即為指尖區(qū)域。獲得指尖區(qū)域后,以該區(qū)域的中點(diǎn)作為指尖坐標(biāo)。
本實(shí)施方式中,通過(guò)圖像中人眼和指尖的坐標(biāo)確定用戶指向屏幕上位置的方法如下
(1) 以攝像頭為坐標(biāo)原點(diǎn)建立一個(gè)三維坐標(biāo)系統(tǒng)。
(2) 當(dāng)系統(tǒng)檢測(cè)到圖像中的人臉區(qū)域和手區(qū)域后,根據(jù)人臉區(qū)域和手區(qū)域的面積,計(jì) 算出人眼和指尖到屏幕的距離&和^ 。
(3) 通過(guò)人眼定位和指尖定位,可以得到的人眼和指尖在圖像中的坐標(biāo)分別為
一,&_—)' ,力—一)。為了能ffi過(guò)人眼和指尖的連線確定用戶指向屏幕的位
置,需要將人眼與指尖在圖像中的坐標(biāo)轉(zhuǎn)化為以攝像頭為原點(diǎn)的三維坐標(biāo)系統(tǒng)中的坐標(biāo)。 圖4a和圖4b分別是人眼與屏幕在以攝像頭為原點(diǎn)的三維坐標(biāo)系統(tǒng)中的X-Z和Y-Z平面內(nèi) 的位置關(guān)系圖。由于人眼在圖像中的坐標(biāo)與人眼在該三維坐標(biāo)系統(tǒng)的坐標(biāo)存在比例關(guān)系, 所以人眼在該三維坐標(biāo)系統(tǒng)的坐標(biāo)如下
<formula>complex formula see original document page 9</formula>
其中g(shù)(&)是與距離相關(guān)的系數(shù),L為采集圖像的寬度,P為攝像頭的傾斜角度,W為采集 圖像的高度。同理,通過(guò)上述計(jì)算可以得到指尖的坐標(biāo)Xp, ;v。
(4)當(dāng)系統(tǒng)得到人眼和指尖在該三維坐標(biāo)系統(tǒng)的坐標(biāo)后,將根據(jù)人眼和指尖兩點(diǎn)確定 的直線計(jì)算出用戶指向屏幕位置的位置。圖5是根據(jù)人眼和指尖在該三維坐標(biāo)系統(tǒng)中的坐 標(biāo)確定屏幕位置的坐標(biāo)定位模型,根據(jù)該模型的比例關(guān)系,可得指尖指向屏幕位置的坐標(biāo) 如下
<formula>complex formula see original document page 9</formula>當(dāng)確定了用戶在屏幕上指向的位置后,根據(jù)屏幕的大小,可以計(jì)算出鼠標(biāo)在屏幕上的 邏輯坐標(biāo)。
本實(shí)施方式中,手勢(shì)識(shí)別是通過(guò)檢測(cè)用戶手指的點(diǎn)擊動(dòng)作來(lái)模擬鼠標(biāo)的點(diǎn)擊操作。當(dāng) 用戶伸出右手一個(gè)手指指向屏幕并移動(dòng)時(shí),將視為鼠標(biāo)的移動(dòng)。當(dāng)用戶右手手指第一次合
起時(shí),將視為按下鼠標(biāo)左鍵;此時(shí)若將右手手指伸出移動(dòng),將視為按住左鍵移動(dòng)鼠標(biāo);當(dāng) 右手手指再次合起時(shí),將視為釋放了左鍵。當(dāng)用戶伸出左手一個(gè)手指指向屏幕,然后將左 手手指合起時(shí),將視為按下鼠標(biāo)右鍵;當(dāng)左手手指伸出后,將視為釋放鼠標(biāo)右鍵。
權(quán)利要求
1、基于視線跟蹤和手勢(shì)識(shí)別的人機(jī)交互方法,包括步驟(1)人臉區(qū)域的檢測(cè);(2)手區(qū)域的檢測(cè);(3)人眼的定位和(4)指尖的定位,其特征在于還包括如下步驟(5)屏幕定位當(dāng)用戶伸出一個(gè)手指指向屏幕時(shí),系統(tǒng)根據(jù)圖像采集裝置采集到的人臉圖像和手圖像區(qū)域面積大小計(jì)算出人眼和指尖到屏幕的距離;將人眼和指尖在圖像中的坐標(biāo)轉(zhuǎn)換為人眼和指尖在以圖像采集裝置為原點(diǎn)的三維坐標(biāo)系統(tǒng)中的坐標(biāo);由人眼和指尖兩點(diǎn)確定一條直線,該直線與屏幕相交的點(diǎn)就是用戶指向屏幕的位置,根據(jù)人眼坐標(biāo)和指尖坐標(biāo)的比例關(guān)系計(jì)算出該位置在所述三維坐標(biāo)系統(tǒng)中的坐標(biāo);根據(jù)屏幕的大小,將所述位置的坐標(biāo)轉(zhuǎn)化為鼠標(biāo)在屏幕上的邏輯坐標(biāo);(6)手勢(shì)識(shí)別通過(guò)判斷手指點(diǎn)擊動(dòng)作來(lái)模擬鼠標(biāo)的點(diǎn)擊操作,當(dāng)用戶伸出右手一個(gè)手指指向屏幕并移動(dòng)時(shí),將視為鼠標(biāo)的移動(dòng);當(dāng)該右手手指第一次合起時(shí),將視為按下鼠標(biāo)左鍵;此時(shí)若將右手手指伸出指向屏幕并移動(dòng),將視為按住左鍵移動(dòng)鼠標(biāo);當(dāng)該右手手指再次合起時(shí),將視為釋放了左鍵;當(dāng)用戶伸出左手一個(gè)手指指向屏幕,然后將左手手指合起時(shí),將視為按下鼠標(biāo)右鍵;當(dāng)左手手指伸出后,將視為釋放鼠標(biāo)右鍵。
2、 根據(jù)權(quán)利要求1所述的方法,其特征在于所述步驟(1)包括通過(guò)基于類矩形特 征的Adaboost人臉檢測(cè)算法判斷圖像中是否有人臉存在,首先計(jì)算圖像的積分圖,提取類 矩形特征,根據(jù)已訓(xùn)練好的分類器特征庫(kù),運(yùn)用Cascade級(jí)聯(lián)的方法在圖像中搜索人臉區(qū) 域。
3、 根據(jù)權(quán)利要求2所述的方法,其特征在于所述分類器特征庫(kù)的訓(xùn)練步驟包括計(jì)算樣本圖像的積分圖,提取樣本圖像的類矩形特征;根據(jù)Adaboost算法篩選有效的特征,構(gòu) 成弱分類器;通過(guò)組合多個(gè)弱分類器,構(gòu)成強(qiáng)分類器;級(jí)聯(lián)多個(gè)強(qiáng)分類器,形成人臉檢測(cè) 的分類器特征庫(kù)。
4、 根據(jù)權(quán)利要求1所述的方法,其特征在于所述步驟(2)包括根據(jù)人臉的膚色特 征,通過(guò)膚色匹配方法搜索圖像中相匹配的區(qū)域;在初步分割出手區(qū)域后,根據(jù)人臉區(qū)域 的位置去除人臉和脖子的干擾區(qū)域,根據(jù)連通域的面積大小去除背景干擾,從而檢測(cè)出手 區(qū)域。
5、 根據(jù)權(quán)利要求1所述的方法,其特征在于所述步驟(3)包括在檢測(cè)到人臉區(qū)域 的基礎(chǔ)上,對(duì)人臉圖像做水平灰度投影,然后根據(jù)人臉的五官特征,在水平灰度投影曲線 上搜索各個(gè)局部最小點(diǎn)并判斷是否為人眼區(qū)域;當(dāng)檢測(cè)到人眼區(qū)域后,以該區(qū)域的中點(diǎn)作 為人眼坐標(biāo)。
6、 根據(jù)權(quán)利要求1所述的方法,其特征在于所述步驟(4)包括首先對(duì)手區(qū)域的圖像進(jìn)行邊緣檢測(cè)和網(wǎng)格抽樣處理;以抽樣后的手輪廓的每個(gè)像素為中心,分別在逆時(shí)針 和順時(shí)針?lè)较蜻x取4個(gè)相鄰的像素構(gòu)成四對(duì)像素對(duì);分別計(jì)算每對(duì)像素間的距離方差,平 均距離方差最小且小于閾值的樣本像素即為指尖區(qū)域;當(dāng)檢測(cè)到指尖區(qū)域后,以該區(qū)域的 中點(diǎn)作為指尖坐標(biāo)。
7、 一種實(shí)現(xiàn)權(quán)利要求1 5任一項(xiàng)所述方法的裝置,其特征在于包括圖像采集模塊, 圖像處理模塊和無(wú)線傳輸模塊,圖像采集模塊中的攝像頭放置于屏幕上端中央,負(fù)責(zé)采集 用戶的圖像并輸入到圖像處理模塊中;圖像處理模塊負(fù)責(zé)控制其它兩個(gè)模塊,運(yùn)行各種圖 像處理算法對(duì)采集的用戶圖像進(jìn)行分析處理,將用戶指向屏幕的位置和手勢(shì)的變化轉(zhuǎn)化為 計(jì)算機(jī)在屏幕上的邏輯坐標(biāo)和控制指令;無(wú)線傳輸模塊包括接收模塊和發(fā)送模塊,發(fā)送模 塊與圖像處理模塊連接,負(fù)責(zé)將處理結(jié)果通過(guò)射頻信號(hào)傳輸?shù)浇邮漳K;接收模塊與計(jì)算 機(jī)相連,負(fù)責(zé)將處理結(jié)果轉(zhuǎn)化為鼠標(biāo)控制信號(hào)輸入到計(jì)算機(jī)中。
8、 根據(jù)權(quán)利要求6所述的裝置,其特征在于所述的圖像采集模塊包括一攝像頭,所述 圖像處理模塊包括一嵌入式處理器和外圍器件,所述接收模塊和發(fā)送模塊均包含有射頻芯 片和單片機(jī)。
全文摘要
本發(fā)明公開(kāi)了基于視線跟蹤和手勢(shì)識(shí)別的人機(jī)交互方法及裝置。該方法包括步驟人臉區(qū)域的檢測(cè)、手區(qū)域的檢測(cè)、人眼的定位、指尖的定位、屏幕定位和手勢(shì)識(shí)別,由人眼和指尖兩點(diǎn)確定一條直線,并將該直線與屏幕相交的位置轉(zhuǎn)化為鼠標(biāo)在屏幕上的邏輯坐標(biāo),同時(shí)通過(guò)判斷手指點(diǎn)擊動(dòng)作來(lái)模擬鼠標(biāo)的點(diǎn)擊操作。該裝置包括圖像采集模塊,圖像處理模塊,無(wú)線傳輸模塊,首先通過(guò)攝像頭實(shí)時(shí)采集用戶的圖像,然后利用圖像處理算法對(duì)圖像進(jìn)行分析和處理,將用戶指向屏幕的位置和手勢(shì)的變化轉(zhuǎn)化為計(jì)算機(jī)在屏幕上的邏輯坐標(biāo)和控制指令;再將處理結(jié)果通過(guò)無(wú)線傳輸模塊傳輸給計(jì)算機(jī)。本發(fā)明提供一種自然、直觀、簡(jiǎn)便的人機(jī)交互方式,可實(shí)現(xiàn)遠(yuǎn)距離地操作計(jì)算機(jī)。
文檔編號(hào)G06F3/01GK101344816SQ20081003019
公開(kāi)日2009年1月14日 申請(qǐng)日期2008年8月15日 優(yōu)先權(quán)日2008年8月15日
發(fā)明者秦華標(biāo), 肖志勇 申請(qǐng)人:華南理工大學(xué)