凝視跟蹤的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種凝視跟蹤的方法,易于建立在不同的設(shè)備中,諸如智能手機(jī)、平板 電腦、個(gè)人計(jì)算機(jī)、電視屏幕,或在凝視可以用于控制任何一種諸如車輛等的設(shè)備的操作的 任何環(huán)境中。一般來說,凝視跟蹤的本方法針對應(yīng)用于互動接口和操作系統(tǒng)。
[0002] 此外,本發(fā)明涉及一種操作裝置的方法,該裝置設(shè)有產(chǎn)生視頻流的至少一個(gè)數(shù)字 相機(jī),以獲得當(dāng)面孔通過該裝置的相機(jī)和處理器而被采集到視頻流中時(shí)的凝視跟蹤。
【背景技術(shù)】
[0003]目前使用凝視模式的分析的研究和產(chǎn)品主要在受控的實(shí)驗(yàn)室類型的情況中實(shí)施。
[0004]例如,很多研究被完成,以確定的網(wǎng)站布局的效果:具有受試者及其已知問題的這 種受控的測試致使這些受試者意識到正在進(jìn)行測試,從而改變他們的行為并影響期望來自 實(shí)驗(yàn)的結(jié)果的類型。
[0005]當(dāng)前的凝視跟蹤解決方案主要使用紅外線的投射進(jìn)行操作,其創(chuàng)建眼睛內(nèi)部和上 面的反射,通過諸如二進(jìn)制檢測(blobdetection)之類的算法進(jìn)行檢測。閃爍的數(shù)量可以 隨著紅外線的額外來源來增加,以改善追蹤并允許頭部移動的一些公差。
[0006]使用紅外線的凝視跟蹤通常需要遠(yuǎn)程設(shè)置,其中相機(jī)進(jìn)一步遠(yuǎn)離用戶安裝,通常 在屏幕下方。它要求紅外線照明的光源放在當(dāng)看著屏幕的四個(gè)角時(shí)閃爍都清晰可見的位 置。
[0007]使用凝視跟蹤用紅外線的解決方案需要一些紅外線投射以具有頭部的相對于相 機(jī)的合理移動框盒。即使創(chuàng)建較大的框盒,照明條件的任何改變將意味著需要重新校準(zhǔn)。
[0008]不使用紅外線反射的解決方案主要基于使用面孔的特征的識別和跟隨,通過諸如 所謂的主動外觀(ActiveAppearance)模型之類的方法的頭部追蹤。然而,用于定向輸入 的頭部方位追蹤的使用不是與凝視跟蹤相同的東西,這只是眼睛方向的跟隨,不管頭部的 移動如何。
[0009]另外的已知方法使用眼睛凝視最大位置的分類,識別眼睛在上/下/左/右方位 之間的差異;這種解決方案僅可用來識別上下或左右卷動方向,真正不同于準(zhǔn)確凝視跟蹤 的某種東西。
[0010] 不使用紅外線的方法試圖常常使用立體視覺來提高準(zhǔn)確度,這在任何情況下仍是 有限的,但使硬件更復(fù)雜。
[0011] 用于凝視跟蹤的其它非紅外線方法實(shí)質(zhì)上基于諸如眉毛、下巴、瞳孔、眼睛的角、 等等的面孔特征的識別。它們必然具有較低的準(zhǔn)確度,這源于識別眼睛的角的困難和對光 變化和對不同類型的面孔的較低的健壯性。他們還要求全臉是可見的。而且,這種方法的 上/下移動的準(zhǔn)確度低,因?yàn)橥椎南鄬Υ怪币苿有《鄄€位置也將使其本身適應(yīng)于眼睛 移動。
[0012] 另外,有一些障礙阻止紅外線硬件集成在移動裝置中。集成使用紅外線的凝視跟 蹤意味著較高的成本和額外的電池耗竭。此外,一般需要高研發(fā)成本來創(chuàng)建微型硬件,當(dāng)前 現(xiàn)有技術(shù)的硬件仍是太大以致無法集成到移動裝置中,特別是因?yàn)樾枰粋€(gè)以上的紅外線 來源的合理強(qiáng)大的紅外線。
[0013] 為立體視覺使用額外的視頻攝像機(jī)的情況也是一樣,因?yàn)樗鼘⒃黾佑布杀竞皖~ 外的電池耗竭到移動裝置上,使軟件解決方案更加合意。
[0014] 雖然仍未有決定性研究來斷定在短距離連續(xù)曝光于紅外線是否可導(dǎo)致眼睛受損, 但是考慮到年幼的孩子更快地變成移動裝置用戶的事實(shí),當(dāng)受損通常視為與紅外線的曝光 時(shí)間成比例時(shí),一些使用者每天幾個(gè)小時(shí),客戶可能有擔(dān)憂。
[0015] 諸如立體視覺之類的方法被使用來提高準(zhǔn)確度,但凝視跟蹤的領(lǐng)域的任何專家將 實(shí)現(xiàn)的是,甚至以瞳孔位置和眼角的完美識別,由取決于像素位置的計(jì)算導(dǎo)致的凝視方向 的準(zhǔn)確度和分辨率將一直是太有限的以致無法實(shí)際使用,以及在空間域中,方法將是本來 就慢。因?yàn)槟暦较蜃兓蝾^部的移動,所以這種方法在識別屏幕上的瞳孔移動間的差異 時(shí)將會有麻煩。而且,通過這些方法識別眼睛的上下移動將是麻煩的,因?yàn)檠鄄€比起瞳孔在 眼睛的視覺圖像上具有更大的效應(yīng)。
[0016] 使用紅外線眼睛的投射的技術(shù)的潛在準(zhǔn)確度也受到關(guān)于眼睛的內(nèi)部和眼睛的外 部上的曲度的不確定因素限制。為這理由,使用紅外線投射的方法通常需要若干個(gè)紅外線 投射器和小心的校準(zhǔn)程序。這還需要光條件保持校準(zhǔn)后的穩(wěn)定以及需要使用者在屏幕前面 保持相對小的移動框盒。這致使使用眼睛中紅外線閃爍的識別的、紅外線在凝視跟蹤的移 動裝置中的實(shí)施在移動裝置上的充分移動的現(xiàn)實(shí)世界中不切實(shí)際。
[0017] 凝視跟蹤的唯軟件解決方案也需要考慮到另一顯著缺點(diǎn),其涉及使用凝視跟蹤的 紅外線透射:即,必須從相機(jī)透鏡移除相機(jī)紅外線濾光器以允許采集眼睛上的紅外線反射。 移除紅外線濾光器將使該裝置所取得的照片的質(zhì)量惡化。考慮到放置在移動裝置的用戶所 取得的照片的質(zhì)量上的重要性,這也是用于適應(yīng)凝視跟蹤的紅外線投射的高度限制因素。
[0018] 在任何情況下,熟悉凝視跟蹤的技術(shù)者意識到,對于在距活動屏幕約30厘米的距 離的面孔,瞳孔將僅以移動裝置的小屏幕左右搖擺的凝視跟蹤在屏幕上移動,對應(yīng)于由放 置在屏幕本身旁邊的相機(jī)所采集的圖像的少量像素。另外,嘗試使用基于空間域中的圖像 處理的方法需要不僅識別瞳孔,而且必須清楚地識別眼角。
[0019] 然而,眼角是難以通過諸如Viola-Jones之類的一般識別方法進(jìn)行識別,快速地 導(dǎo)致若干個(gè)錯(cuò)誤的像素。
[0020] 目標(biāo)識別方法大部分使用在空間域中的像素等級信息分析,其大部分轉(zhuǎn)換成 灰度。這種方法,諸如以Viola-Jones算法采集特征,需要使用諸如自適應(yīng)提升算法 (Adaboost)之類的層級式分類器。諸如主動式形狀模型之類的采集幾何特征的其它方法依 靠分類的特征點(diǎn)和3D形狀模型之間的相關(guān)性。這些方法本來就需要相對繁重的計(jì)算和大 量工作以優(yōu)化。
[0021] -般所使用的其它方法是例如隱藏式馬可夫模型(HiddenMarkovModel)或反向 傳遞神經(jīng)網(wǎng)絡(luò)(backpropagationNeuralNetworks),兩者都是復(fù)雜的。
[0022] 所有這樣的方法一般還是難以工程化并優(yōu)化并且相當(dāng)多的工作要適應(yīng)遵循并利 用最新硬件發(fā)展的優(yōu)點(diǎn),諸如GPU技術(shù)中的多核心處理或進(jìn)展。
[0023] 因此,具有少量錯(cuò)誤的像素的空間域中的瞳孔位置識別必須與眼角識別比較,其 將快速具有若干個(gè)錯(cuò)誤的像素,以相對于眼角采集瞳孔移動,這僅是總共若干個(gè)像素。
[0024] 這甚至不考慮頭部方位、頭部移動等對準(zhǔn)確度的效應(yīng)。
[0025] 因此,將清楚的是,空間域中的這些計(jì)算導(dǎo)致實(shí)際上不可能從瞳孔位置和眼角之 間的差異來計(jì)算移動裝置上的凝視方向。
[0026] 所以,唯一現(xiàn)實(shí)選項(xiàng)是在完全軟件解決方案中獲得移動裝置上所需的凝視準(zhǔn)確度 和分辨率,其利用從頻域計(jì)算內(nèi)獲得的信息。
【發(fā)明內(nèi)容】
[0027] 當(dāng)前的接口和操作系統(tǒng)圍繞在鍵盤和觸摸屏的使用而設(shè)計(jì)。然而,使用觸控僅允 許從用戶傳送用戶指令的窄頻帶的信息到裝置。關(guān)于這一點(diǎn),比起觸控,凝視對于使用者將 是更快速且更直覺的互動。
[0028] 舉例來說,凝視控制可允許操作系統(tǒng)適應(yīng)信息對用戶的流動,具體取決于用戶可 怎樣快地跟隨屏幕上信息。操作系統(tǒng)將基于朝向讓信息流動的屏幕的凝視跟蹤調(diào)整關(guān)于用 戶想要看什么的信息流的速度。
[0029] 這種凝視控制可能導(dǎo)致接口和操作系統(tǒng)通過提供給用戶的更快速導(dǎo)航以更清楚 的方式顯示數(shù)據(jù)。
[0030] 使用凝視跟蹤控制,所謂的屏幕技術(shù),其中輸入和輸出兩者都經(jīng)過交互式屏幕,可 例如通過僅在人們注視的時(shí)間和位置具有高分辨率圖像,導(dǎo)致屏幕本身所消耗的能量較少 以及圖像輸出的更有效率控制,從而采取進(jìn)一步的步驟。
[0031] 這特征也可用來增加屏幕現(xiàn)實(shí)性,例如,通過僅在屏幕上觀察者注視的位置具有 3D線索效應(yīng),以此方式產(chǎn)生3D效應(yīng)而無需使用3D效應(yīng)的特殊眼鏡來增加。
[0032] 凝視方向追蹤可用于屏幕圖形,例如,在游戲中,其中,播放電玩游戲的用戶可在 用戶注視的屏幕部分上具有高分辨率圖像,同時(shí)加入速度模糊效應(yīng)用以改善游戲現(xiàn)實(shí)性。
[0033] 將要完成的另一需要通過實(shí)時(shí)知道現(xiàn)實(shí)世界完全活動性使用中的活動廣告的效 果來表現(xiàn)。這種算法也將允許諸如每凝視付費(fèi)的解決方案而不是每點(diǎn)擊付費(fèi)的解決方案。
[0034] 此外,也有給殘障者的新的低廉解決方案的大的需要。
[0035] 對于使用凝視跟蹤的下一代的操作系統(tǒng)和裝置,唯軟件解決方案將是高度優(yōu)選 的,以便避免集成例如紅外線投射器或用于立體視覺的額外相機(jī)的需要,立體視覺使用來 允許較高的準(zhǔn)確度。
[0036] 這種裝置在具有僅示范性目的的清單中可以是智能手機(jī)、平板電腦、諸如交互式 眼鏡之類的可穿戴式硬件,然而還有在未來的居家和辦公室或公共場所中的任何其它交互 式對象。這些裝置可以涉及特殊用途,諸如交互式電視、智能型且交互式居家、汽車安全性 系統(tǒng)等等。
[0037] 應(yīng)了解的是,這種技術(shù)的實(shí)施不限于移動裝置,然而它基本上可延伸到任何裝置 或網(wǎng)絡(luò)連接裝置,其中可再次編程的硬件可通過在上面的算法使用,并且其中可加入視頻 相機(jī)輸入。
[0038] 也對使用盡可能小的處理功率的凝視跟蹤解決方案有需要。這對于節(jié)省電池壽命 以及實(shí)時(shí)使用兩者都是需要的,因?yàn)樗鼘⑿枰诒尘爸羞\(yùn)行且必須不限制在前景運(yùn)行的過 程??紤]到甚至移動手機(jī)中的前置攝像頭現(xiàn)在運(yùn)轉(zhuǎn)在30fps并且相機(jī)分辨率同樣地愈來愈 好,這意味著所需的算法需要比現(xiàn)有技術(shù)的當(dāng)前狀態(tài)較好的若干階。依靠處理能力的繼續(xù) 改善也是不可接受的,因?yàn)樾枰谌魏卫雍退袘?yīng)用中節(jié)省電池電力,例如游戲,使用處 理能力的最大量的比例,因此一直留下用于諸如標(biāo)準(zhǔn)圖像處理之類的算法的最小量以在背 景中運(yùn)行。
[0039] 為了在許多類型的裝置上具有凝視跟蹤解決方案,算法應(yīng)嵌入操作系統(tǒng)中或處理 器本身上。算法需要能夠以平行的處理器利用多線程,并且能夠在部分的計(jì)算上使用GPU。 拋開移動環(huán)境,軟件解決方案必須在編程在FPGA或類似的可再次編程的硬件上的形式中, 上面不必要有最近一代的操作系統(tǒng)。
[0040] 凝視跟蹤算法必須不被視為與其所發(fā)展的硬件和電子器件分開的實(shí)體。相反,設(shè) 計(jì)和代碼應(yīng)經(jīng)過特別地設(shè)計(jì)用于硬件集成。當(dāng)前現(xiàn)有技術(shù)的算法絕不旨在用于具有工作在 具有高幀率的高分辨率相機(jī)的移動裝置上。
[0041] 調(diào)整凝視跟蹤的快速算法的需要的另一理由是,依靠計(jì)算機(jī)視覺的未來發(fā)展競 賽,其將是進(jìn)行具有適應(yīng)、學(xué)習(xí)和記憶的算法的增加層。實(shí)際上,所有當(dāng)前的計(jì)算機(jī)視覺方 法是無理由地被動的。為了具有這種附加層的適應(yīng)性算法,唯一的解決方案是盡可能快地 用于基本算法。
[0042] 因此,明顯地有需要完全移動解決方案,可用于每天情況的凝視跟蹤解決方案。完 全移動解決方案應(yīng)也意味著最小的校準(zhǔn)需要。它意味著允許照明變化、不同類型的面孔、化 妝、胡須、眼鏡、帽子、斜視者,并允許頭部相對于移動屏幕的相對高的移動。這意味著避免