專利名稱:基于視線跟蹤與語音識別的字符輸入裝置和方法
技術(shù)領(lǐng)域:
本發(fā)明屬于圖像處理技術(shù)領(lǐng)域,更進(jìn)一步涉及人機(jī)交互技術(shù)領(lǐng)域中基于視線跟蹤與語音識別的字符輸入裝置和方法。本發(fā)明可用于人機(jī)交互技術(shù)領(lǐng)域中通過視線跟蹤和語音識別,實(shí)現(xiàn)全鍵盤英文字符輸入以及四則運(yùn)算。
背景技術(shù):
人機(jī)交互(Human-Computer Interaction,簡寫HCI)是指人與計算機(jī)之間使用某種對話語言,以一定的交互方式,為完成確定任務(wù)的人與計算機(jī)之間的信息交換過程。基于視線跟蹤技術(shù)的人機(jī)交互方法是一種自然和諧的人機(jī)交互方式。現(xiàn)有的視線跟蹤技術(shù)是在計算機(jī)屏幕上繪制鍵盤,通過視線跟蹤系統(tǒng)分析并反饋用戶注視的字符,由用戶確定是否輸入,從而實(shí)現(xiàn)人機(jī)交互。北京理工大學(xué)擁有的專利技術(shù)“一種基于視線跟蹤和P300腦電電位的字符輸入裝置”(專利申請?zhí)?00910080852. 5,授權(quán)公告號CN 101515199)公開了一種基于視線跟蹤和P300腦電電位的字符輸入裝置。該裝置實(shí)質(zhì)上根據(jù)用戶視線確定候選字符集,控制字符集中所有字符鍵閃爍,激發(fā)P300腦電電位,根據(jù)電位產(chǎn)生時間和視線定位確定用戶期望字符鍵,實(shí)現(xiàn)字符輸入操作。該專利技術(shù)存在的兩點(diǎn)不足一是注視精度有限。該裝置先檢測用戶虹膜,擬合虹膜的橢圓輪廓,再由橢圓參數(shù)計算瞳孔相對于眼角的偏移程度,因此眼圖處理精度有限,導(dǎo)致了注視精度有限,不能一次定位到用戶的期望字符鍵。二是需要計算出候選字符集合中每個可能字符為用戶期望字符的概率,確定用戶的空間域候選集,然后控制空間域候選集中字符隨機(jī)閃爍,激發(fā)用戶的P300腦電電位,采集并分析腦電電位信號來計算各可能字符為靶刺激的概率,確定時間域候選集,最后根據(jù)兩個候選集聯(lián)合計算出可能性最高的字符作為用戶期望字符鍵,這就導(dǎo)致了字符輸入過程、確認(rèn)過程復(fù)雜。上海交通大學(xué)蔣春燕的學(xué)位論文“視線跟蹤技術(shù)研究及其在人機(jī)交互字符輸入中的應(yīng)用”(萬方國內(nèi)學(xué)位論文,2008年02月01日),使用了一種單攝像機(jī)的視線檢測字符輸入方法,通過攝像機(jī)捕捉用戶的虹膜中心,判斷用戶的視線盯視內(nèi)容,再由系統(tǒng)做出相應(yīng)的反饋和運(yùn)行。該方法存在四點(diǎn)不足之處一是先通過Canny邊緣檢測,確定了虹膜的邊緣,再通過Hough變換檢測虹膜并確定虹膜中心,該方法眼圖處理精度不夠,導(dǎo)致了視線注視精度有限;二是攝像機(jī)固定于顯示器上,使用佩戴式標(biāo)定帽上的三點(diǎn)作為參考點(diǎn),通過提取三點(diǎn)的位置信息來規(guī)劃攝像機(jī)的運(yùn)動,用于補(bǔ)償用戶頭部運(yùn)動產(chǎn)生的影響,該方法對用戶頭部運(yùn)動的補(bǔ)償是有限的,這就導(dǎo)致了頭部運(yùn)動對精度的影響大;三是該方法要求用戶盯視期望字符2s來完成字符輸入,這必然會造成操作復(fù)雜,易引起用戶視覺疲勞;四是該方法精度有限,在分辨率為1024*768的顯示器上繪制了 28個字符鍵,界面上每個字符鍵都比較大,只顯示了有限的字符,這導(dǎo)致了人機(jī)交互功能的局限性。華南理工大學(xué)申請的專利“視線跟蹤方法及應(yīng)用該方法的殘疾人輔助系統(tǒng)”(專利申請?zhí)?00810030010. 4,公開號CN 101344919A),公開了一種視線跟蹤方法及應(yīng)用該方法的殘疾人輔助系統(tǒng)。該系統(tǒng)將人眼注視屏幕四個區(qū)域的四種不同方向作為用戶發(fā)出的四種控制信息,模擬鍵盤的四個方向鍵,來完成控制輪椅和控制計算機(jī)的簡單操作。該專利申請存在的不足是,由于視線注視精度低,僅能利用視線輸入四種控制信息,導(dǎo)致了人機(jī)交互功能的局限性。山東大學(xué)申請的專利“一種基于視線跟蹤的密碼輸入控制方法”(專利申請?zhí)?01110067148. 3,公開號CN 102129554A),公開了一種基于視線跟蹤的密碼輸入控制方法。該方法首先處理人臉圖像,提取人眼特征參數(shù),再使用基于相似三角形的雙光源視線跟蹤實(shí)現(xiàn)從人眼特征參數(shù)到當(dāng)前注視點(diǎn)位置的估計,最后根據(jù)注視點(diǎn)位置,利用時間門限及聲音反饋來控制密碼輸入操作。該方法存在兩點(diǎn)不足,一是從人臉圖像中分割出來的瞳孔圖像分辨率低導(dǎo)致瞳孔中心定位精度有限,并采用基于相似三角形的雙光源視線跟蹤標(biāo)定方法,該方法實(shí)現(xiàn)的密碼輸入視線注視精度有限;二是該方法只限于用于密碼輸入,輸入字符有限,這導(dǎo)致了人機(jī)交互功能的局限性。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的不足,提供一種基于視線跟蹤與語音識別的字符輸入裝置和方法,使得用戶通過眼睛的注視和語音的確認(rèn)完成字符的輸入操作以及四則運(yùn)算操作,所獲得的視線跟蹤字符輸入注視精度高,頭部活動范圍較大,操作更加簡捷。本發(fā)明的具體思路是本發(fā)明方法在采集并處理眼圖、場景圖像和用戶語音信號的基礎(chǔ)上,先通過校準(zhǔn)得到標(biāo)定系數(shù),再通過求解二維標(biāo)定方程、坐標(biāo)轉(zhuǎn)換矩陣得到用戶視線注視點(diǎn)在界面坐標(biāo)系中的坐標(biāo)值,并配合用戶的語音信號,完成字符輸入操作以及四則運(yùn)算操作。為了實(shí)現(xiàn)上述目的,本發(fā)明的裝置包括頭盔單元,ARM核單元,圖像采集卡,語音識別模塊,DSP核單元,場景圖像處理模塊,坐標(biāo)轉(zhuǎn)換模塊,界面模塊。其中,頭盔單元分別與ARM核單元、圖像采集卡、語音識別模塊單向連接;所述的ARM核單元與DSP核單元雙向連接;圖像采集卡與場景圖像處理模塊單向連接;場景圖像處理模塊與DSP核單元單向連接;坐標(biāo)轉(zhuǎn)換模塊分別與DSP核單元、場景圖像處理模塊單向連接;語音識別模塊與界面模塊單向連接;界面模塊與坐標(biāo)轉(zhuǎn)換模塊雙向連接;界面模塊放置于用戶正前方。頭盔單元,用于采集眼圖、場景圖像和用戶語音信號。ARM核單元,用于控制眼攝像機(jī)子單元采集眼圖,控制DSP核處理眼圖。圖像采集卡,用于控制場景攝像機(jī)采集場景圖像。語音識別模塊,用于接收并分析用戶語音信號,獲得用戶確認(rèn)信息。DSP核單元,包括眼圖處理模塊和標(biāo)定模塊,眼圖處理模塊用于處理眼圖獲得瞳孔-光斑矢量;標(biāo)定模塊用于獲取二維標(biāo)定方程組的標(biāo)定系數(shù),并利用該標(biāo)定系數(shù)和瞳孔-光斑矢量獲取用戶視線注視點(diǎn)在場景圖像坐標(biāo)系中的坐標(biāo)值。場景圖像處理模塊,用于處理場景圖像獲得校準(zhǔn)標(biāo)志點(diǎn)和轉(zhuǎn)換標(biāo)志點(diǎn)在場景圖像坐標(biāo)系中的坐標(biāo)值。坐標(biāo)轉(zhuǎn)換模塊,利用轉(zhuǎn)換標(biāo)志點(diǎn)在場景圖像坐標(biāo)系中的坐標(biāo)值和轉(zhuǎn)換標(biāo)志點(diǎn)在界面坐標(biāo)系中的坐標(biāo)值,獲取坐標(biāo)轉(zhuǎn)換矩陣,并使用該坐標(biāo)轉(zhuǎn)換矩陣和用戶視線注視點(diǎn)在場景圖像坐標(biāo)系中的坐標(biāo)值獲得用戶視線注視點(diǎn)在界面坐標(biāo)系中的坐標(biāo)值。
界面模塊,用于創(chuàng)建兩個界面視圖,在一個界面視圖中繪制9個校準(zhǔn)標(biāo)志點(diǎn),在另一個界面視圖中繪制由4個轉(zhuǎn)換標(biāo)志點(diǎn)和55個鍵組成的輸入鍵盤,并使用用戶視線注視點(diǎn)在界面坐標(biāo)系中的坐標(biāo)值和用戶確認(rèn)信息完成期望字符輸入。為了實(shí)現(xiàn)上述目的,本發(fā)明方法的具體步驟如下(I)繪制界面Ia)啟動界面t旲塊,創(chuàng)建兩個界面視圖;Ib)在一個界面視圖中繪制9個坐標(biāo)已知的均勻分布點(diǎn),作為界面中的校準(zhǔn)標(biāo)志占.Ic)在另一個界面視圖中繪制輸入鍵盤繪制任意4個坐標(biāo)已知的點(diǎn),作為界面中的轉(zhuǎn)換標(biāo)志點(diǎn),按照電腦常用鍵盤的字符分布,劃分出5行共55個邊界值已知的分塊區(qū)域,依次繪制英文字母鍵、數(shù)字鍵、標(biāo)點(diǎn)符號鍵、運(yùn)算符號鍵和常用功能鍵。(2)采集眼圖、場景圖像2a)頭盔單元中眼攝像機(jī)單元采集紅外LED光源照射下的用戶左眼眼圖;2b)場景攝像機(jī)采集用戶正前方場景圖像。(3)處理眼圖眼圖處理模塊采用閾值自適應(yīng)的二次延展星射線法實(shí)時提取眼圖的瞳孔中心和普爾欽光斑中心的坐標(biāo)值,將瞳孔中心坐標(biāo)值減去普爾欽光斑中心坐標(biāo)值,獲得瞳孔-光
斑矢量值。(4)處理場景圖像4a)構(gòu)建場景圖像坐標(biāo)系以步驟2b)采集的場景圖像左上角的點(diǎn)為原點(diǎn),以像素點(diǎn)在圖像上的列號為X軸坐標(biāo)值,以像素點(diǎn)在圖像上的行號為Y軸坐標(biāo)值,構(gòu)建完成場景圖像坐標(biāo)系;4b)場景圖像處理模塊采用基于Hu矩匹配的輪廓特征識別法,得到步驟Ib)中9個校準(zhǔn)標(biāo)志點(diǎn)在場景圖像坐標(biāo)系中的坐標(biāo)值;4c)場景圖像處理模塊采用基于Hu矩匹配的輪廓特征識別法,得到步驟Ic)中4個轉(zhuǎn)換標(biāo)志點(diǎn)在場景圖像坐標(biāo)系中的坐標(biāo)值。(5)判斷校準(zhǔn)標(biāo)志點(diǎn)的個數(shù)5a)統(tǒng)計當(dāng)前用戶確認(rèn)成功后的校準(zhǔn)標(biāo)志點(diǎn)個數(shù);5b)若已校準(zhǔn)的校準(zhǔn)標(biāo)志點(diǎn)個數(shù)小于9,則執(zhí)行步驟(6);5c)若已校準(zhǔn)的校準(zhǔn)標(biāo)志點(diǎn)個數(shù)等于9且步驟(7)未執(zhí)行,則執(zhí)行步驟(7);5d)若已校準(zhǔn)的校準(zhǔn)標(biāo)志點(diǎn)個數(shù)等于9且步驟(7)已執(zhí)行過,則執(zhí)行步驟(8)。(6)標(biāo)志點(diǎn)校準(zhǔn)6a)語音識別模塊接收到用戶語音信號為“YES”,則表示當(dāng)前標(biāo)志點(diǎn)校準(zhǔn)成功,返回步驟(2),由界面模塊對下一個校準(zhǔn)標(biāo)志點(diǎn)采集眼圖;6b)語音識別模塊接收到用戶語音信號為“NO”,則表示當(dāng)前標(biāo)志點(diǎn)校準(zhǔn)失敗,返回步驟(2),由界面模塊對當(dāng)前校準(zhǔn)標(biāo)志點(diǎn)采集眼圖。(7)求解標(biāo)定系數(shù)標(biāo)定模塊將步驟4b)中9個校準(zhǔn)標(biāo)志點(diǎn)在場景圖像坐標(biāo)系的坐標(biāo)值,以及步驟(3)中與校準(zhǔn)標(biāo)志點(diǎn)對應(yīng)的瞳孔-光斑矢量值分別代入二維標(biāo)定方程組,求解得到二維標(biāo)定方程組的標(biāo)定系數(shù)。(8)獲得用戶視線注視點(diǎn)8a)將步驟(3)中的用戶視線注視點(diǎn)瞳孔-光斑矢量,以及步驟(7)中解得的標(biāo)定系數(shù)分別代入二維標(biāo)定方程組,求解得到用戶視線注視點(diǎn)在場景圖像坐標(biāo)系中的坐標(biāo)值;8b)構(gòu)建界面坐標(biāo)系以界面圖像左上角的點(diǎn)為原點(diǎn),以像素點(diǎn)在圖像上的列號為X軸坐標(biāo)值,以像素點(diǎn)在圖像上的行號為Y軸坐標(biāo)值,構(gòu)建完成界面坐標(biāo)系,獲得4個轉(zhuǎn)換標(biāo)志點(diǎn)在界面坐標(biāo)系的坐標(biāo)值;Sc)將步驟4c)中4個轉(zhuǎn)換標(biāo)志點(diǎn)在場景圖像坐標(biāo)系的坐標(biāo)值,以及在步驟Sb)中界面坐標(biāo)系的坐標(biāo)值,代入跟蹤方程,求解得到坐標(biāo)轉(zhuǎn)換矩陣;8d)將步驟8a)獲得的用戶視線注視點(diǎn)在場景圖像坐標(biāo)系中的坐標(biāo)值,以及步驟Sc)中解得的坐標(biāo)轉(zhuǎn)換矩陣,代入跟蹤方程,求解得到用戶視線注視點(diǎn)在界面坐標(biāo)系中的坐標(biāo)值。(9)完成期望字符輸入9a)界面模塊檢測步驟8d)的用戶視線注視點(diǎn)在界面坐標(biāo)系中的坐標(biāo)值處于步驟Ic)中的哪一個分塊區(qū)域,由所確定的分塊區(qū)域得知界面輸入鍵盤上與之對應(yīng)的鍵;9b)語音識別模塊接收到用戶語音信號為“YES”,且當(dāng)前輸入鍵不為“Esc”時,則認(rèn)為完成了當(dāng)前期望字符的輸入,返回執(zhí)行步驟(2),輸入下一期望字符;9c)語音識別模塊接收到用戶語音信號為“YES”,且當(dāng)前輸入鍵為“Esc”時,則執(zhí)行步驟(10);9d)語音識別模塊接收到用戶語音信號為“NO”時,返回執(zhí)行步驟(2),重新輸入期
望字符。(10)退出字符輸入本發(fā)明與現(xiàn)有技術(shù)相比具有如下優(yōu)點(diǎn)第一,本發(fā)明利用了采用閾值自適應(yīng)的二次延展星射線法處理眼圖,精確定位了瞳孔中心,克服了現(xiàn)有技術(shù)由于眼圖處理精度有限導(dǎo)致的注視精度較低的缺點(diǎn),使得本發(fā)明提聞了注視精度。第二,本發(fā)明采用了場景圖像處理模塊和坐標(biāo)轉(zhuǎn)換模塊,實(shí)現(xiàn)了用戶注視點(diǎn)從場景圖像坐標(biāo)系到界面坐標(biāo)系的轉(zhuǎn)換,從而確定了用戶注視的字符鍵,克服了現(xiàn)有技術(shù)頭部運(yùn)動對注視精度的影響,使得本發(fā)明提聞了注視精度。第三,本發(fā)明利用了語音識別技術(shù),識別出用戶的確認(rèn)信息,克服了現(xiàn)有技術(shù)由于確認(rèn)過程復(fù)雜、確認(rèn)時間長導(dǎo)致用戶易疲勞的缺點(diǎn),使得本發(fā)明具備良好的易操作性,從而提高了字符輸入速率。第四,本發(fā)明在界面視圖上繪制了由55個鍵組成的輸入鍵盤,可以一次定位到用戶期望字符鍵,克服了現(xiàn)有技術(shù)中人機(jī)交互功能局限的缺點(diǎn),使得本發(fā)明能夠?qū)崿F(xiàn)全鍵盤英文字符輸入以及四則運(yùn)算,具有良好的實(shí)用性。
圖1為本發(fā)明裝置的結(jié)構(gòu)示意圖;圖2為本發(fā)明方法的流程圖3為本發(fā)明界面輸入鍵盤的示意圖。
具體實(shí)施例方式下面結(jié)合附圖1,對本發(fā)明的裝置做進(jìn)一步描述。本發(fā)明基于視線跟蹤與語音識別的字符輸入裝置,包括頭盔單元,ARM核單元,圖像采集卡,語音識別模塊,DSP核單元,場景圖像處理模塊,坐標(biāo)轉(zhuǎn)換模塊,界面模塊;其中,頭盔單元分別與ARM核單元、圖像采集卡、語音識別模塊單向連接,將采集到的眼圖、場景圖像、用戶語音信號分別輸出至ARM核單元、圖像采集卡、語音識別模塊;ARM核單元與DSP核單元雙向連接,ARM核單元將未處理的眼圖輸出至DSP核單元,接收DSP核單元輸入的處理過的眼圖;圖像采集卡與場景圖像處理模塊單向連接,圖像采集卡將場景圖像輸出至場景圖像處理模塊;場景圖像處理模塊與DSP核單元單向連接,場景圖像處理模塊將校準(zhǔn)標(biāo)志點(diǎn)在場景圖像坐標(biāo)系中的坐標(biāo)值輸出至DSP核單元;坐標(biāo)轉(zhuǎn)換模塊分別與DSP核單元、場景圖像處理模塊單向連接,分別接收DSP核單元輸入的用戶視線注視點(diǎn)在場景圖像坐標(biāo)系中的坐標(biāo)值和場景圖像處理模塊輸入的轉(zhuǎn)換標(biāo)志點(diǎn)在場景圖像坐標(biāo)系中的坐標(biāo)值;語音識別模塊與界面模塊單向連接,語音識別模塊將用戶確認(rèn)信息輸出至界面模塊;界面模塊與坐標(biāo)轉(zhuǎn)換模塊雙向連接,界面模塊將轉(zhuǎn)換標(biāo)志點(diǎn)在界面坐標(biāo)系中的坐標(biāo)值輸出至坐標(biāo)轉(zhuǎn)換模塊,接收坐標(biāo)轉(zhuǎn)換模塊輸入的用戶視線注視點(diǎn)在界面坐標(biāo)系中的坐標(biāo)值;界面模塊放置于用戶正前方50 70cm處,使用戶能清晰的看到界面模塊。頭盔單元,用于采集眼圖、場景圖像和用戶語音信號,所采集的眼圖為用戶注視界面視圖中校準(zhǔn)標(biāo)志點(diǎn)或字符鍵時的眼睛圖像,所采集的場景圖像為用戶正前方的圖像場景,圖像中要有界面視圖的清晰成像,所采集的用戶語音信號為用戶說的“YES”或“NO”。本發(fā)明裝置中的頭盔單元包括眼鋁制支架、眼攝像機(jī)子單元、場景攝像機(jī)、語音采集麥克風(fēng)。鋁制支架固定于頭盔正前方,眼攝像機(jī)子單元由攝像機(jī)、紅外LED光源、紅外反光板組成,裝于鋁制支架左側(cè),場景攝像機(jī)固定在鋁制支架右側(cè),語音采集麥克風(fēng)固定在頭盔右側(cè)。ARM核單元,用于控制眼攝像機(jī)子單元采集眼圖,控制DSP核處理眼圖。圖像采集卡,用于控制場景攝像機(jī)采集場景圖像。語音識別模塊,基于Microsoft Speech SDK開發(fā),用于接收并分析用戶語音信號,首先創(chuàng)建識別引擎和識別上下文接口,然后設(shè)置識別消息,其中“YES”表示確認(rèn),“NO”表示否認(rèn),再依據(jù)識別消息創(chuàng)建聽說式語法規(guī)則,完成語音識別的初始化,識別引擎?zhèn)陕犛脩粽Z音信號輸入,截獲并識別消息,激活聽說式語法規(guī)則進(jìn)行識別,獲得用戶確認(rèn)信息。DSP核單元,包括眼圖處理模塊和標(biāo)定模塊,眼圖處理模塊用于處理眼圖獲得瞳孔-光斑矢量;標(biāo)定模塊用于獲取二維標(biāo)定方程組的標(biāo)定系數(shù),并利用該標(biāo)定系數(shù)和瞳孔-光斑矢量獲取用戶視線注視點(diǎn)在場景圖像坐標(biāo)系中的坐標(biāo)值。場景圖像處理模塊,用于處理場景圖像獲得校準(zhǔn)標(biāo)志點(diǎn)或轉(zhuǎn)換標(biāo)志點(diǎn)在場景圖像坐標(biāo)系中的坐標(biāo)值。坐標(biāo)轉(zhuǎn)換模塊,利用轉(zhuǎn)換標(biāo)志點(diǎn)在場景圖像坐標(biāo)系中的坐標(biāo)值和轉(zhuǎn)換標(biāo)志點(diǎn)在界面坐標(biāo)系中的坐標(biāo)值,獲取坐標(biāo)轉(zhuǎn)換矩陣,并使用該坐標(biāo)轉(zhuǎn)換矩陣和用戶視線注視點(diǎn)在場景圖像坐標(biāo)系中的坐標(biāo)值獲得用戶視線注視點(diǎn)在界面坐標(biāo)系中的坐標(biāo)值。
界面模塊,用于創(chuàng)建兩個界面視圖,在一個界面視圖中繪制9個校準(zhǔn)標(biāo)志點(diǎn),在另一個界面視圖中繪制由4個轉(zhuǎn)換標(biāo)志點(diǎn)和55個鍵組成的輸入鍵盤,并使用用戶視線注視點(diǎn)在界面坐標(biāo)系中的坐標(biāo)值和用戶確認(rèn)信息完成期望字符輸入。下面結(jié)合附圖2,對本發(fā)明的方法做進(jìn)一步描述,其步驟如下:步驟I,繪制界面啟動界面模塊,創(chuàng)建兩個界面視圖。其中一個視圖中繪制有3行3列排列的9個坐標(biāo)已知的均勻分布點(diǎn),作為校準(zhǔn)標(biāo)志點(diǎn)。參照附圖3,在另一個視圖中繪制輸入鍵盤。首先如附圖3虛線上方所示,繪制任意4個坐標(biāo)已知的點(diǎn),作為轉(zhuǎn)換標(biāo)志點(diǎn);然后如附圖3虛線下方所示,按照電腦常用鍵盤的字符分布,劃分出5行共55個邊界值已知的分塊區(qū)域,在各個分塊區(qū)域上依次繪制英文字母鍵、數(shù)字鍵、標(biāo)點(diǎn)符號鍵、運(yùn)算符號鍵和常用功能鍵。步驟2,采集眼圖、場景圖像頭盔單元中眼攝像機(jī)單元采集紅外LED光源照射下的用戶左眼眼圖,本發(fā)明的實(shí)施例中,眼攝像機(jī)幀率為25幀/s,圖像分別率為640x480。場景攝像機(jī)采集用戶正前方場景圖像,本發(fā)明的實(shí)施例中場景攝像機(jī)巾貞率為25幀/s,圖像分別率為720x576。步驟3,處理眼圖眼圖處理模塊采用閾值自適應(yīng)的二次延展星射線法實(shí)時提取眼圖的瞳孔中心和普爾欽光斑中心的坐標(biāo)值,將瞳孔中心坐標(biāo)值減去普爾欽光斑中心坐標(biāo)值,獲得瞳孔-光斑矢量值,具體步驟如下:第一步,眼圖處理模塊對圖像進(jìn)行高斯濾波預(yù)處理。第二步,眼圖處理模塊使用灰度直方圖求得最佳的灰度閾值對圖像進(jìn)行二值化分害I],獲取分割后的圖像質(zhì)心作為第一次粗定位瞳孔中心。第三步,以第一次粗定位瞳孔中心為初始點(diǎn),對眼圖進(jìn)行二次瞳孔粗定位。第四步,對眼圖進(jìn)行自適應(yīng)閾值二值化分割,求二值化圖像的最大四連通區(qū)域,以該區(qū)域的中心值作為普爾欽斑中心。第五步,使用二次延展星射線法求得瞳孔邊界特征點(diǎn),依據(jù)粗定位瞳孔中心坐標(biāo)值篩選出合格的特征點(diǎn),將特征點(diǎn)劃分在6個不同區(qū)域,在每個區(qū)域隨機(jī)取一特征點(diǎn),若該區(qū)域中不存在特征點(diǎn),則從其他區(qū)域選取,共取6個瞳孔邊界特征點(diǎn)。第六步,使用6個瞳孔邊界特征點(diǎn)擬合橢圓。第七步,計算所有特征點(diǎn)到擬合出來的橢圓的歐式距離,記錄距離小于η個像素的特征點(diǎn)的個數(shù),η表示誤差范圍,取值為I 5之間,當(dāng)匹配點(diǎn)個數(shù)與總特征點(diǎn)個數(shù)的比率大于μ時,μ取值0.5 0.9之間,認(rèn)為橢圓擬合成功,眼圖處理完成,否則更改二次延展星射線法中的梯度閾值,執(zhí)行本步驟的第五步。步驟4,處理場景圖像構(gòu)建場景圖像坐標(biāo)系:以步驟2采集的場景圖像左上角的點(diǎn)為原點(diǎn),以像素點(diǎn)在圖像上的列號為X軸坐標(biāo)值,以像素點(diǎn)在圖像上的行號為Y軸坐標(biāo)值,構(gòu)建完成場景圖像坐標(biāo)系。場景圖像處理模塊采用基于Hu矩匹配的輪廓特征識別法,得到步驟I中9個校準(zhǔn)標(biāo)志點(diǎn)和4個轉(zhuǎn)換標(biāo)志點(diǎn)在場景圖像坐標(biāo)系中的坐標(biāo)值,具體步驟如下:
第一步,場景圖像處理模塊處理頭盔單元采集的包含標(biāo)志點(diǎn)的圖像樣本,確定樣本閾值范圍、特征點(diǎn)所處的矩形區(qū)塊的周長和面積的范圍。第二步,場景圖像處理模塊對當(dāng)前幀場景圖像進(jìn)行高斯濾波和形態(tài)學(xué)開運(yùn)算預(yù)處理。第三步,在樣本閾值范圍內(nèi),場景圖像處理模塊對預(yù)處理過的圖像進(jìn)行二值化,再使用Hu矩匹配法檢測各標(biāo)志點(diǎn)所在的矩形區(qū)塊的輪廓,計算各輪廓的周長和面積,篩選出符合本步驟第一步的周長和面積范圍的輪廓,統(tǒng)計合格的輪廓個數(shù),求各輪廓的最小外界矩形,獲取各輪廓的中心坐標(biāo)。第四步,判斷合格的輪廓個數(shù)是否等于標(biāo)志點(diǎn)個數(shù),如果是,則視為檢測成功,將各輪廓中心坐標(biāo)按照先行后列的順序依次賦值給各標(biāo)志點(diǎn)坐標(biāo),否則在樣本閾值范圍內(nèi)更改閾值,執(zhí)行本步驟的第三步。第五步,若重復(fù)本步驟第三步10次后,仍沒有檢測成功,則選取上一幀場景圖像的各標(biāo)志點(diǎn)坐標(biāo)值作為當(dāng)前幀場景圖像的各標(biāo)志點(diǎn)坐標(biāo)值。步驟5,判斷校準(zhǔn)標(biāo)志點(diǎn)的個數(shù)統(tǒng)計當(dāng)前用戶確認(rèn)成功后的校準(zhǔn)標(biāo)志點(diǎn)個數(shù)。若已校準(zhǔn)的校準(zhǔn)標(biāo)志點(diǎn)個數(shù)小于9,表示9個校準(zhǔn)標(biāo)志點(diǎn)未全部校準(zhǔn),則執(zhí)行步驟6 ;若已校準(zhǔn)的校準(zhǔn)標(biāo)志點(diǎn)個數(shù)等于9且步驟7未執(zhí)行,表示9個校準(zhǔn)標(biāo)志點(diǎn)已全部校準(zhǔn),但未獲得標(biāo)定系數(shù),則執(zhí)行步驟7 ;若已校準(zhǔn)的校準(zhǔn)標(biāo)志點(diǎn)個數(shù)等于9且步驟7已執(zhí)行過,表示9個校準(zhǔn)標(biāo)志點(diǎn)已全部校準(zhǔn),并已獲得標(biāo)定系數(shù),則執(zhí)行步驟8。步驟6,標(biāo)志點(diǎn)校準(zhǔn)
若語音識別模塊接收到用戶語音信號為“YES”,則表示當(dāng)前標(biāo)志點(diǎn)校準(zhǔn)成功,返回步驟2,由界面模塊對下一個校準(zhǔn)標(biāo)志點(diǎn)采集眼圖;若語音識別模塊接收到用戶語音信號為“NO”,則表示當(dāng)前標(biāo)志點(diǎn)校準(zhǔn)失敗,返回步驟2,由界面模塊對當(dāng)前校準(zhǔn)標(biāo)志點(diǎn)采集眼圖。步驟7,求解標(biāo)定系數(shù)標(biāo)定模塊將步驟4中9個校準(zhǔn)標(biāo)志點(diǎn)在場景圖像坐標(biāo)系的坐標(biāo)值,以及步驟3中與校準(zhǔn)標(biāo)志點(diǎn)對應(yīng)的瞳孔-光斑矢量值分別代入二維標(biāo)定方程組,求解得到二維標(biāo)定方程組的標(biāo)定系數(shù):
Xs=aO+ aiXe + a2ye + a3Xeye + a4Xe +.<
ys =bo +bixe +Kye +hxeye +Kxl +^y2e其中,xs和ys分別表示場景圖像坐標(biāo)系中9個校準(zhǔn)標(biāo)志點(diǎn)的X軸和Y軸坐標(biāo)值,表示待求解的標(biāo)定系數(shù),Xe和Ie分別表示與9個校準(zhǔn)標(biāo)志點(diǎn)對應(yīng)的瞳孔-光斑矢量X軸和Y軸坐標(biāo)值。步驟8,獲得用戶視線注視點(diǎn)首先,將步驟3中的用戶視線注視點(diǎn)瞳孔-光斑矢量,以及步驟7中解得的標(biāo)定系數(shù)a。,a1; a2, a3, a4, a5和Idci, b1; b2, b3, b4, b5分別代入二維標(biāo)定方程組,求解得到用戶視線注視點(diǎn)在場景圖像坐標(biāo)系中的坐標(biāo)值:
權(quán)利要求
1.基于視線跟蹤與語音識別的字符輸入裝置,包括頭盔單元,ARM核單元,圖像采集卡,語音識別模塊,DSP核單元,場景圖像處理模塊,坐標(biāo)轉(zhuǎn)換模塊,界面模塊;所述的頭盔單元分別與ARM核單元、圖像采集卡、語音識別模塊單向連接;所述的ARM核單元與DSP核單元雙向連接;所述的圖像采集卡與場景圖像處理模塊單向連接;所述的場景圖像處理模塊與DSP核單元單向連接;所述的坐標(biāo)轉(zhuǎn)換模塊分別與DSP核單元、場景圖像處理模塊單向連接;所述的語音識別模塊與界面模塊單向連接;所述的界面模塊與坐標(biāo)轉(zhuǎn)換模塊雙向連接;所述的界面模塊放置于用戶正前方; 所述頭盔單元,用于采集眼圖、場景圖像和用戶語音信號; 所述ARM核單元,用于控制眼攝像機(jī)子單元采集眼圖,控制DSP核處理眼圖; 所述圖像采集卡,用于控制場景攝像機(jī)采集場景圖像; 所述語音識別模塊,用于接收并分析用戶語音信號,獲得用戶確認(rèn)信息; 所述DSP核單元,包括眼圖處理模塊和標(biāo)定模塊,眼圖處理模塊用于處理眼圖獲得瞳孔-光斑矢量;標(biāo)定模塊用于獲取二維標(biāo)定方程組的標(biāo)定系數(shù),并利用該標(biāo)定系數(shù)和瞳孔-光斑矢量獲取用戶視線注視點(diǎn)在場景圖像坐標(biāo)系中的坐標(biāo)值; 所述場景圖像處理模塊,用于處理場景圖像獲得校準(zhǔn)標(biāo)志點(diǎn)和轉(zhuǎn)換標(biāo)志點(diǎn)在場景圖像坐標(biāo)系中的坐標(biāo)值; 所述坐標(biāo)轉(zhuǎn)換模塊,利用轉(zhuǎn)換標(biāo)志點(diǎn)在場景圖像坐標(biāo)系中的坐標(biāo)值和轉(zhuǎn)換標(biāo)志點(diǎn)在界面坐標(biāo)系中的坐標(biāo)值,獲取坐標(biāo)轉(zhuǎn)換矩陣,并使用該坐標(biāo)轉(zhuǎn)換矩陣和用戶視線注視點(diǎn)在場景圖像坐標(biāo)系中的坐標(biāo)值獲得用戶視線注視點(diǎn)在界面坐標(biāo)系中的坐標(biāo)值; 所述界面模塊,用于創(chuàng)建兩個界面視圖,在一個界面視圖中繪制9個校準(zhǔn)標(biāo)志點(diǎn),在另一個界面視圖中繪制由4個轉(zhuǎn)換標(biāo)志點(diǎn)和55個鍵組成的輸入鍵盤,并使用用戶視線注視點(diǎn)在界面坐標(biāo)系中的坐標(biāo)值和 用戶確認(rèn)信息完成期望字符輸入。
2.根據(jù)權(quán)利要求書I所述的基于視線跟蹤與語音識別的字符輸入裝置,其特征在于,所述的頭盔單元包括眼鋁制支架、眼攝像機(jī)子單元、場景攝像機(jī)、語音采集麥克風(fēng);鋁制支架固定于頭盔正前方;眼攝像機(jī)子單元由攝像機(jī)、紅外LED光源、紅外反光板組成,裝于鋁制支架左側(cè);場景攝像機(jī)固定在鋁制支架右側(cè);語音采集麥克風(fēng)固定在頭盔右側(cè)。
3.基于視線跟蹤與語音識別的字符輸入方法,其具體步驟如下: (1)繪制界面 Ia)啟動界面模塊,創(chuàng)建兩個界面視圖; Ib)在一個界面視圖中繪制9個坐標(biāo)已知的均勻分布點(diǎn),作為界面中的校準(zhǔn)標(biāo)志點(diǎn);Ic)在另一個界面視圖中繪制輸入鍵盤:繪制任意4個坐標(biāo)已知的點(diǎn),作為界面中的轉(zhuǎn)換標(biāo)志點(diǎn),按照電腦常用鍵盤的字符分布,劃分出5行共55個邊界值已知的分塊區(qū)域,依次繪制英文字母鍵、數(shù)字鍵、標(biāo)點(diǎn)符號鍵、運(yùn)算符號鍵和常用功能鍵; (2)采集眼圖、場景圖像 2a)頭盔單元中眼攝像機(jī)單元采集紅外LED光源照射下的用戶左眼眼圖; 2b)場景攝像機(jī)采集用戶正前方場景圖像; (3)處理眼圖 眼圖處理模塊采用閾值自適應(yīng)的二次延展星射線法實(shí)時提取眼圖的瞳孔中心和普爾欽光斑中心的坐標(biāo)值,將瞳孔中心坐標(biāo)值減去普爾欽光斑中心坐標(biāo)值,獲得瞳孔-光斑矢量值; (4)處理場景圖像 4a)構(gòu)建場景圖像坐標(biāo)系:以步驟2b)采集的場景圖像左上角的點(diǎn)為原點(diǎn),以像素點(diǎn)在圖像上的列號為X軸坐標(biāo)值,以像素點(diǎn)在圖像上的行號為Y軸坐標(biāo)值,構(gòu)建完成場景圖像坐標(biāo)系; 4b)場景圖像處理模塊采用基于Hu矩匹配的輪廓特征識別法,得到步驟lb)中9個校準(zhǔn)標(biāo)志點(diǎn)在場景圖像坐標(biāo)系中的坐標(biāo)值; 4c)場景圖像處理模塊采用基于Hu矩匹配的輪廓特征識別法,得到步驟Ic)中4個轉(zhuǎn)換標(biāo)志點(diǎn)在場景圖像坐標(biāo)系中的坐標(biāo)值; (5)判斷校準(zhǔn)標(biāo)志點(diǎn)的個數(shù) 5a)統(tǒng)計當(dāng)前用戶確認(rèn)成功后的校準(zhǔn)標(biāo)志點(diǎn)個數(shù); 5b)若已校準(zhǔn)的校準(zhǔn)標(biāo)志點(diǎn)個數(shù)小于9,則執(zhí)行步驟(6); 5c)若已校準(zhǔn)的校準(zhǔn)標(biāo)志點(diǎn)個數(shù)等于9且步驟(7)未執(zhí)行,則執(zhí)行步驟(7); 5d)若已校準(zhǔn)的校準(zhǔn)標(biāo)志點(diǎn)個數(shù)等于9且步驟(7)已執(zhí)行過,則執(zhí)行步驟(8); (6)標(biāo)志點(diǎn)校準(zhǔn) 6a)語音識別模塊接收到用戶語音信號為“YES”,則表示當(dāng)前標(biāo)志點(diǎn)校準(zhǔn)成功,返回步驟(2),由界面模塊對下一個校準(zhǔn)標(biāo)志點(diǎn)采集眼圖; 6b)語音識別模塊接收到用戶語音信號為“NO”,則表示當(dāng)前標(biāo)志點(diǎn)校準(zhǔn)失敗,返回步驟(2),由界面模塊對當(dāng)前校準(zhǔn)標(biāo)志點(diǎn)采集眼圖; (7)求解標(biāo)定系數(shù) 標(biāo)定模塊將步驟4b)中9個校準(zhǔn)標(biāo)志點(diǎn)在場景圖像坐標(biāo)系的坐標(biāo)值,以及步驟(3)中與校準(zhǔn)標(biāo)志點(diǎn)對應(yīng)的瞳孔-光斑矢量值分別代入二維標(biāo)定方程組,求解得到二維標(biāo)定方程組的標(biāo)定系數(shù); (8)獲得用戶視線注視點(diǎn) 8a)將步驟(3)中的用戶視線注視點(diǎn)瞳孔-光斑矢量,以及步驟(7)中解得的標(biāo)定系數(shù)分別代入二維標(biāo)定方程組,求解得到用戶視線注視點(diǎn)在場景圖像坐標(biāo)系中的坐標(biāo)值; 8b)構(gòu)建界面坐標(biāo)系:以界面圖像左上角的點(diǎn)為原點(diǎn),以像素點(diǎn)在圖像上的列號為X軸坐標(biāo)值,以像素點(diǎn)在圖像上的行號為Y軸坐標(biāo)值,構(gòu)建完成界面坐標(biāo)系,獲得4個轉(zhuǎn)換標(biāo)志點(diǎn)在界面坐標(biāo)系的坐標(biāo)值; Sc)將步驟4c)中4個轉(zhuǎn)換標(biāo)志點(diǎn)在場景圖像坐標(biāo)系的坐標(biāo)值,以及在步驟Sb)中界面坐標(biāo)系的坐標(biāo)值,代入跟蹤方程,求解得到坐標(biāo)轉(zhuǎn)換矩陣; 8d)將步驟8a)獲得的用戶視線注視點(diǎn)在場景圖像坐標(biāo)系中的坐標(biāo)值,以及步驟8c)中解得的坐標(biāo) 轉(zhuǎn)換矩陣,代入跟蹤方程,求解得到用戶視線注視點(diǎn)在界面坐標(biāo)系中的坐標(biāo)值; O)完成期望字符輸入 9a)界面模塊檢測步驟8d)的用戶視線注視點(diǎn)在界面坐標(biāo)系中的坐標(biāo)值處于步驟lc)中的哪一個分塊區(qū)域,由所確定的分塊區(qū)域得知界面輸入鍵盤上與之對應(yīng)的鍵; 9b)語音識別模塊接收到用戶語音信號為“YES”,且當(dāng)前輸入鍵不為“Esc”時,則認(rèn)為完成了當(dāng)前期望字符的輸入,返回執(zhí)行步驟(2),輸入下一期望字符;9c)語音識別模塊接收到用戶語音信號為“YES”,且當(dāng)前輸入鍵為“Esc”時,則執(zhí)行步驟(10); 9d)語音識別模塊接收到用戶語音信號為“NO”時,返回執(zhí)行步驟(2),重新輸入期望字符。
(10)退出字符輸入。
4.根據(jù)權(quán)利要求3所述的基于視線跟蹤與語音識別的字符輸入方法,其特征在于,步驟(3)所述的閾值自適應(yīng)的二次延展星射線法具體步驟如下: 第一步,眼圖處理模塊對圖像進(jìn)行高斯濾波預(yù)處理; 第二步,眼圖處理模塊使用灰度直方圖求得最佳的灰度閾值對圖像進(jìn)行二值化分割,獲取分割后的圖像質(zhì)心作為第一次粗定位瞳孔中心; 第三步,以第一次粗定位瞳孔中心為初始點(diǎn),對眼圖進(jìn)行二次瞳孔粗定位; 第四步,對眼圖進(jìn)行自適應(yīng)閾值二值化分割,求二值化圖像的最大四連通區(qū)域,以該區(qū)域的中心值作為普爾欽斑中心; 第五步,使用二次延展星射線法求得瞳孔邊界特征點(diǎn),依據(jù)粗定位瞳孔中心坐標(biāo)值篩選出合格的特征點(diǎn),將特征點(diǎn)劃分在6個不同區(qū)域,在每個區(qū)域隨機(jī)取一特征點(diǎn),若該區(qū)域中不存在特征點(diǎn),則從其他區(qū)域選取,共取6個瞳孔邊界特征點(diǎn); 第六步,使用6個瞳孔邊界特征點(diǎn)擬合橢圓; 第七步,計算所有特征點(diǎn)到擬合出來的橢圓的歐式距離,記錄距離小于η個像素的特征點(diǎn)的個數(shù),η表示誤差范圍,取值為I 5之間,當(dāng)匹配點(diǎn)個數(shù)與總特征點(diǎn)個數(shù)的比率大于μ時,μ取值0.5 0.9之間,認(rèn)為橢圓擬合成功,眼圖處理完成,否則更改二次延展星射線法中的梯度閾值,執(zhí)行本步驟的第五步。
5.根據(jù)權(quán)利要求3所述的基于視線跟蹤與語音識別的字符輸入方法,其特征在于,步驟4b)和步驟4c)所述的基于Hu矩匹配的輪廓特征識別法的具體步驟如下: 第一步,場景圖像處理模塊處理頭盔單元采集的包含標(biāo)志點(diǎn)的圖像樣本,確定樣本閾值范圍、特征點(diǎn)所處的矩形區(qū)塊的周長和面積的范圍;第二步,場景圖像處理模塊對當(dāng)前幀場景圖像進(jìn)行高斯濾波和形態(tài)學(xué)開運(yùn)算預(yù)處理;第三步,在樣本閾值范圍內(nèi),場景圖像處理模塊對預(yù)處理過的圖像進(jìn)行二值化,再使用Hu矩匹配法檢測各標(biāo)志點(diǎn)所在的矩形區(qū)塊的輪廓,計算各輪廓的周長和面積,篩選出符合本步驟第一步的周長和面積范圍的輪廓,統(tǒng)計合格的輪廓個數(shù),求各輪廓的最小外界矩形,獲取各輪廓的中心坐標(biāo); 第四步,判斷合格的輪廓個數(shù)是否等于標(biāo)志點(diǎn)個數(shù),如果是,則視為檢測成功,將各輪廓中心坐標(biāo)按照先行后列的順序依次賦值給各標(biāo)志點(diǎn)坐標(biāo),否則在樣本閾值范圍內(nèi)更改閾值,執(zhí)行本步驟的第三步; 第五步,若重復(fù)本步驟第三步10次后,仍沒有檢測成功,則選取上一幀場景圖像的各標(biāo)志點(diǎn)坐標(biāo)值作 為當(dāng)前幀場景圖像的各標(biāo)志點(diǎn)坐標(biāo)值。
6.根據(jù)權(quán)利要求3所述的基于視線跟蹤與語音識別的字符輸入方法,其特征在于,步驟(7)、步驟8a)所述的二維標(biāo)定方程組為:
7.根據(jù)權(quán)利要求3所述的基于視線跟蹤與語音識別的字符輸入方法,其特征在于,步驟Sc)、步驟8d)所述的跟蹤方程為矩陣形式,具體表達(dá)式如下:Xc = HXs Xe = (xc, yc, I)Xs = (xs,ys,zs)T 其中,X。與Xs分別表示界面坐標(biāo)系與場景圖像坐標(biāo)系中點(diǎn)坐標(biāo)向量,H為坐標(biāo)轉(zhuǎn)換矩陣,Xc與y。分別表示界面坐標(biāo)系中點(diǎn)的X軸坐標(biāo)值與Y軸坐標(biāo)值,Xs與Is分別表示場景圖像坐標(biāo)系中點(diǎn)的X軸坐標(biāo)值與Y軸坐標(biāo)值,Zs表示場景圖像坐標(biāo)系中點(diǎn)的Z軸坐標(biāo)值,Zs =xs+ys-l, c表示界面坐標(biāo)系,s表示場景圖像坐標(biāo)系,T表示轉(zhuǎn)置。
全文摘要
基于視線跟蹤與語音識別的字符輸入裝置和方法,本發(fā)明的裝置包括頭盔單元,ARM核單元,圖像采集卡,語音識別模塊,DSP核單元,場景圖像處理模塊,坐標(biāo)轉(zhuǎn)換模塊,界面模塊。本發(fā)明的方法在采集并處理眼圖、場景圖像和用戶語音信號的基礎(chǔ)上,先通過校準(zhǔn)得到標(biāo)定系數(shù),再通過求解二維標(biāo)定方程、坐標(biāo)轉(zhuǎn)換矩陣得到用戶視線注視點(diǎn)在界面坐標(biāo)系中的坐標(biāo)值,最終獲得期望輸入的字符,并配合用戶的語音信息,完成字符輸入操作以及四則運(yùn)算操作。本發(fā)明具有字符輸入注視精度高,頭部活動范圍較大,操作簡捷的優(yōu)點(diǎn)。具備良好的實(shí)用性和可操作性。
文檔編號G06F3/01GK103076876SQ20121051773
公開日2013年5月1日 申請日期2012年11月22日 優(yōu)先權(quán)日2012年11月22日
發(fā)明者王軍寧, 崔耀, 于明軒, 何迪, 高靜, 魏雯婷 申請人:西安電子科技大學(xué)