專利名稱:頭部姿勢(shì)估算方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)和軟件,并且更具體地,涉及用于估算用戶頭部的位置并根據(jù)這種估算影響可應(yīng)用的計(jì)算機(jī)操作的方法和系統(tǒng)。
背景技術(shù):
計(jì)算機(jī)和其它類似的設(shè)備幾乎在每個(gè)行業(yè)和環(huán)境中都是無(wú)價(jià)的工具。這些設(shè)備和裝置以各種各樣不同的形式出現(xiàn),并可將它們?cè)O(shè)計(jì)為通用或?qū)S霉ぞ?。大多?shù)這些設(shè)備的共同點(diǎn)是與用戶接口的需求。典型通用計(jì)算機(jī)可包括,例如,顯示裝置和至少一個(gè)輸入裝置。顯示裝置,例如基于CRT的監(jiān)視器、平板顯示器等,用于與用戶可視地交流信息。這種交流常常是,例如,使用圖形用戶界面(GUI)軟件程序等完成的。一般地,用戶通過(guò)向計(jì)算機(jī)提供用戶輸入與一或多個(gè)關(guān)聯(lián)于GUI的計(jì)算機(jī)程序連接,以由程序和/或GUI識(shí)別的某些方式并引起計(jì)算機(jī)操作/數(shù)據(jù)中的某些改變。例如,用戶可以物理方式移動(dòng)定位設(shè)備,諸如鼠標(biāo),它配置成向計(jì)算機(jī)邏輯發(fā)送信號(hào),使得在GUI內(nèi)圖形指針相應(yīng)移動(dòng)。有了這樣的用戶輸入設(shè)備,用戶就可通過(guò)移動(dòng)圖形指針到顯示的GUI內(nèi)的特定區(qū)域并向計(jì)算機(jī)硬件輸入選擇信號(hào),例如,通過(guò)觸發(fā)配備在鼠標(biāo)上的按鈕等等,來(lái)選擇某些程序/GUI特征。這樣的操作是普通的并易于理解。
隨著計(jì)算能力的持續(xù)增長(zhǎng),許多操作系統(tǒng)、程序、GUI等能夠支持/執(zhí)行多個(gè)任務(wù)。這對(duì)具有足夠大的顯示設(shè)備來(lái)呈現(xiàn)多個(gè)不同程序GUI的計(jì)算機(jī)特別有用。例如,用戶可配置計(jì)算機(jī)在一個(gè)或多個(gè)顯示設(shè)備中同時(shí)顯示字處理應(yīng)用和電子表格應(yīng)用。當(dāng)有多個(gè)任務(wù)顯示時(shí),還需要識(shí)別用戶當(dāng)前正在交互的GUI和相應(yīng)程序/應(yīng)用的計(jì)算機(jī)邏輯。這樣,在上述例子中,為切換計(jì)算機(jī)邏輯的焦點(diǎn)到應(yīng)用之一,用戶一般“點(diǎn)擊”或者選擇GUI區(qū)域之一。這將使計(jì)算機(jī)邏輯(例如操作系統(tǒng))認(rèn)出隨后的用戶輸入將關(guān)聯(lián)于所選擇的程序。因此,當(dāng)上例中的用戶要從字處理應(yīng)用切換到電子表格應(yīng)用時(shí),用戶可將圖形指針指向關(guān)聯(lián)于電子表格應(yīng)用的GUI的一部分并點(diǎn)擊鼠標(biāo)按鈕。
在其它示例性裝置中,用戶可通過(guò)輸入一個(gè)或多個(gè)鍵盤敲擊在GUI內(nèi)不同的潛在可選擇區(qū)域之間切換焦點(diǎn)。這種鍵盤技術(shù)可能在GUI內(nèi)有較大量的可選擇區(qū)域時(shí)變得不那么有效,并要求用戶重復(fù)幾次輸入序列直到所期望的可選擇區(qū)域自動(dòng)地在焦點(diǎn)上。
雖然使用鼠標(biāo)或其它類似的用戶定位設(shè)備的技術(shù)可證實(shí)對(duì)用戶在幾個(gè)可選擇區(qū)域間選擇更容易,但當(dāng)顯示設(shè)備呈現(xiàn)大GUI界面時(shí)它們?nèi)詴?huì)變得難以承擔(dān)。在這種裝置中,可能要求用戶移動(dòng)鼠標(biāo)越過(guò)大范圍,并可能要求拿起鼠標(biāo)并再放回到桌面/表面上它已移過(guò)的不同位置,來(lái)完成GUI內(nèi)所期望的圖形指針移動(dòng)。觸摸板定位設(shè)備也要求類似的動(dòng)作。作為進(jìn)一步的例子,可能要求用戶旋轉(zhuǎn)軌跡球等等定位設(shè)備一段延長(zhǎng)的時(shí)間段,來(lái)移動(dòng)屏幕上的光標(biāo)到所期望的可選擇區(qū)域。
因此,這些不同的技術(shù)和其它類似它們的技術(shù),在某種程度上趨向阻礙或者降低多任務(wù)用戶界面環(huán)境的效率。繼而,需要新的和/或改進(jìn)的方法、裝置和系統(tǒng)來(lái)對(duì)計(jì)算機(jī)或其它類似設(shè)備提供用戶輸入。
概述提供了有效估算用戶臉部和頭部姿勢(shì)的方法、裝置和系統(tǒng),使得計(jì)算機(jī)或類似設(shè)備能夠根據(jù)估計(jì)的頭部姿勢(shì)跟蹤用戶的關(guān)注區(qū)域。隨后,用戶正看著的顯示器或圖形用戶界面的區(qū)域可被自動(dòng)選擇,而不需要用戶提供任何更多的輸入。
例如,在某些實(shí)現(xiàn)中,應(yīng)用正面臉部檢測(cè)器來(lái)檢測(cè)用戶的正面臉部,且隨后由部位檢測(cè)器檢測(cè)關(guān)鍵面部點(diǎn),諸如左/右眼中心、左/右嘴角、鼻尖等。隨后系統(tǒng)由估計(jì)器,諸如迭代SSD(差的平方和)跟蹤器,在時(shí)間上接著發(fā)生的幀/圖像中跟蹤用戶的頭部。最后的偏轉(zhuǎn)和傾斜角度結(jié)果,例如,隨后提供用于給選擇適當(dāng)?shù)膽?yīng)用/文檔的鼠標(biāo)接口等。還可建立閾值和可編程的延遲以更好地控制各種打開(kāi)的應(yīng)用/文檔的選擇。
作為進(jìn)一步的例子,由與計(jì)算設(shè)備一起使用的方法滿足上述需求及其它。該方法包括確定計(jì)算設(shè)備的用戶在第一時(shí)間的第一頭部姿勢(shì)和至少在第一時(shí)間之后的第二時(shí)間用戶的第二頭部姿勢(shì)。例如,可使用不同的圖像幀。方法隨后包括自動(dòng)可操作地在計(jì)算設(shè)備的至少一個(gè)顯示設(shè)備上的至少兩個(gè)可選擇區(qū)域之間根據(jù)第一頭部姿勢(shì)與至少第二頭部姿勢(shì)之間的至少一個(gè)差異切換。在這種方式中,例如,當(dāng)用戶把他/她的頭轉(zhuǎn)動(dòng)(旋轉(zhuǎn)和/或傾斜)以觀察計(jì)算機(jī)顯示器的不同可選擇區(qū)域時(shí),計(jì)算設(shè)備將認(rèn)出它并將用戶輸入焦點(diǎn)等切換至所觀察的區(qū)域。
在某些實(shí)現(xiàn)中,確定第一頭部姿勢(shì)還包括,在第一時(shí)間,生成顯示至少用戶臉部第一部分的第一圖像、檢測(cè)第一圖像內(nèi)臉部的至少第一部分、以及檢測(cè)臉部的被檢測(cè)的第一部分內(nèi)的至少兩個(gè)不同點(diǎn)并存儲(chǔ)關(guān)聯(lián)于每個(gè)不同點(diǎn)的跟蹤信息。同樣地,確定第二頭部姿勢(shì)還包括,在第二時(shí)間,生成顯示至少用戶臉部第二部分的第二圖像、檢測(cè)第二圖像內(nèi)臉部的至少第二部分、以及檢測(cè)臉部的被檢測(cè)的第二部分內(nèi)的至少同樣的兩個(gè)不同點(diǎn)并存儲(chǔ)關(guān)聯(lián)于每個(gè)不同點(diǎn)的跟蹤信息。
在某些更多的示例性實(shí)現(xiàn)中,方法還包括至少比較第一跟蹤信息和第二跟蹤信息來(lái)確定關(guān)聯(lián)于用戶的估算的顯示設(shè)備視圖是否在第一時(shí)間到第二時(shí)間之間改變。如果關(guān)聯(lián)于用戶的估算的顯示設(shè)備視圖在第一時(shí)間和第二時(shí)間之間改變,那么方法包括可選擇可操作地將在顯示設(shè)備上呈現(xiàn)的用戶輸入界面焦點(diǎn)切換到關(guān)聯(lián)于估算的顯示設(shè)備視圖的可選擇區(qū)域。
方法還可包括根據(jù)至少一個(gè)分類參數(shù)來(lái)分類關(guān)聯(lián)于第一圖像的圖像數(shù)據(jù)的多個(gè)部分的每一個(gè)部分,以確定至少一個(gè)關(guān)聯(lián)于臉部的第一部分的面部區(qū)域,并且在第二圖像的相應(yīng)部分中,圖像補(bǔ)片跟蹤關(guān)聯(lián)于臉部的第一部分的面部區(qū)域,以識(shí)別至少一個(gè)被檢測(cè)的臉部區(qū)。例如,圖像補(bǔ)片跟蹤可使用差的平方和(sum-of-square difference)(SSD)圖像補(bǔ)片跟蹤器,以識(shí)別被檢測(cè)的臉部區(qū)。圖像補(bǔ)片跟蹤還可將所得到的被檢測(cè)的臉部區(qū)的至少一部分與至少一個(gè)告警閾參數(shù)比較,以確定是否要求相關(guān)聯(lián)的系統(tǒng)初始化過(guò)程。
在某些實(shí)現(xiàn)中,方法還包括在被檢測(cè)的臉部區(qū)內(nèi)檢測(cè)至少一個(gè)關(guān)鍵面部部位,并且根據(jù)被檢測(cè)的關(guān)系面部部位確定精細(xì)的用戶頭部姿勢(shì)。
方法還包括,根據(jù)與在被檢測(cè)的臉部區(qū)內(nèi)檢測(cè)不同的關(guān)鍵面部部位相關(guān)聯(lián)的置信度信息,確定粗略的用戶頭部姿勢(shì),以及根據(jù)被檢測(cè)的關(guān)鍵面部部位和置信度信息確定精細(xì)的用戶頭部姿勢(shì)。
在某些實(shí)現(xiàn)中,確定精細(xì)的用戶頭部姿勢(shì)還包括使用至少一個(gè)估計(jì)器技術(shù),諸如例如,橢圓估計(jì)器技術(shù)和/或迭代估計(jì)器技術(shù)。
可通過(guò)在結(jié)合附圖時(shí)參考下面詳細(xì)的描述,獲得本發(fā)明的各種方法和裝置的更完整的理解,其中圖1是方框圖,示出示例性計(jì)算機(jī)系統(tǒng)。
圖2是方框圖,示出一個(gè)系統(tǒng),用于按照本發(fā)明的某些示例性實(shí)現(xiàn)估算人的頭部姿勢(shì)。
圖3(a-d)是說(shuō)明圖,示出三維用戶頭部的某些示例性面部特征以及按照本發(fā)明的某些方面,在這些面部特征之間的幾何形狀如何對(duì)于觀測(cè)器與在臉部的兩維圖像內(nèi)顯得不同。
圖4是另一個(gè)方框圖,示出具有姿勢(shì)估計(jì)邏輯的系統(tǒng),它配置為按照本發(fā)明的某些示例性實(shí)現(xiàn),估算人的頭部姿勢(shì)。
圖5是方框圖,示出按照本發(fā)明的某些另外的實(shí)現(xiàn)中,在示例性姿勢(shì)估計(jì)邏輯以及也在例如圖4中的某個(gè)用戶界面功能/邏輯內(nèi)的某些功能。
圖6是流程圖,示出按照本發(fā)明的某些示例性實(shí)現(xiàn)的姿勢(shì)估計(jì)過(guò)程。
詳細(xì)說(shuō)明示例性計(jì)算環(huán)境圖1示出了適當(dāng)?shù)挠?jì)算環(huán)境120的例子,在其中后面所描述的方法和安排可以實(shí)現(xiàn)。
示例性計(jì)算環(huán)境120只是適當(dāng)?shù)挠?jì)算環(huán)境的一個(gè)例子,并不意在對(duì)這里所描述的改進(jìn)的方法和安排的使用或功能范圍提示任何限制。計(jì)算環(huán)境120不應(yīng)解釋為具有關(guān)于計(jì)算環(huán)境120中所示的部件的任何一個(gè)或者組合的依賴或需求。
這里改進(jìn)的方法和安排可操作于大量其它通用或?qū)S糜?jì)算系統(tǒng)環(huán)境或配置。
如圖1所示,計(jì)算環(huán)境120包括計(jì)算機(jī)130形式的通用計(jì)算設(shè)備。計(jì)算機(jī)130的部件可包括一個(gè)或多個(gè)處理器或處理單元132、系統(tǒng)存儲(chǔ)器134以及持包括系統(tǒng)存儲(chǔ)器134的各種系統(tǒng)部件連接到處理器132的總線136。
總線136代表任何幾種類型總線結(jié)構(gòu)的一個(gè)或多個(gè),包括存儲(chǔ)器總線或存儲(chǔ)器控制器、外設(shè)總線、加速圖形端口及使用任何各種總線結(jié)構(gòu)的處理器或本地總線。作為例子,而非限制,這樣的結(jié)構(gòu)可包括工業(yè)標(biāo)準(zhǔn)結(jié)構(gòu)(ISA)總線、微通道結(jié)構(gòu)(MCA)總線、擴(kuò)展工業(yè)標(biāo)準(zhǔn)結(jié)構(gòu)(EISA)總線、視頻標(biāo)準(zhǔn)協(xié)會(huì)(VESA)局部總線和,外設(shè)部件互連(PCI)總線,它也被稱為夾層(Mezzanine)總線。
計(jì)算機(jī)130一般包括多種多樣的計(jì)算機(jī)可讀介質(zhì)。這樣的介質(zhì)可以是任何可由計(jì)算機(jī)130存取的可用介質(zhì),并且它包括易失性和非易失性介質(zhì)、可移動(dòng)和不可移動(dòng)介質(zhì)。
在圖1中,系統(tǒng)存儲(chǔ)器134包括易失性存儲(chǔ)器形式的計(jì)算機(jī)可讀介質(zhì),諸如隨機(jī)存取存儲(chǔ)器(RAM)140,和/或非易失性存儲(chǔ)器,諸如只讀存儲(chǔ)器(ROM)138。基本輸入/輸出系統(tǒng)(BIOS)142,包含幫助計(jì)算機(jī)130內(nèi)部件之間諸如在起動(dòng)期間,傳送信息的基本例程,它一般被存儲(chǔ)在ROM138中。RAM140一般包含由處理單元132可直接存取和/或目前操作的數(shù)據(jù)和/或程序模塊。
計(jì)算機(jī)130還可包括其它可移動(dòng)的/不可移動(dòng)的、易失性/非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì)。例如,圖1示出讀寫不可移動(dòng)的、非易失性的磁介質(zhì)(未示出且一般稱為“硬驅(qū)”)的硬盤驅(qū)動(dòng)器144,讀寫可移動(dòng)的、非易失性的磁盤148(例如,“軟盤”)的磁盤驅(qū)動(dòng)器146,和讀寫可移動(dòng)的、非易失性的光盤152諸如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM或其它光介質(zhì)的光盤驅(qū)動(dòng)器150。硬盤驅(qū)動(dòng)器144、磁盤驅(qū)動(dòng)器146和光盤驅(qū)動(dòng)器150都各自通過(guò)一個(gè)或多個(gè)接口154連接至總線136。
驅(qū)動(dòng)器及所關(guān)聯(lián)的計(jì)算機(jī)可讀介質(zhì)提供計(jì)算機(jī)130的計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)和其它數(shù)據(jù)的非易失性存儲(chǔ)。盡管這里所述的示例性環(huán)境使用了硬盤、可移動(dòng)磁盤148和可移動(dòng)光盤152,那些本領(lǐng)域熟練技術(shù)人員應(yīng)該意識(shí)到可存儲(chǔ)由計(jì)算機(jī)存取的數(shù)據(jù)的計(jì)算機(jī)可讀介質(zhì)的其它類型,諸如磁帶盒、閃存卡、數(shù)字視頻盤、隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)等等,也可用于該示例性操作環(huán)境。
許多程序模塊可存儲(chǔ)在硬盤、磁盤148、光盤152、ROM138或RAM140,包括,例如,操作系統(tǒng)158、一或多個(gè)應(yīng)用程序160、其它程序模塊162和程序數(shù)據(jù)164。
這里所述的改進(jìn)方法和安排可實(shí)現(xiàn)于操作系統(tǒng)158、一個(gè)或多個(gè)應(yīng)用程序160、其它程序模塊162和/或程序數(shù)據(jù)164中。
用戶可通過(guò)輸入設(shè)備,諸如鍵盤166和定點(diǎn)設(shè)備168(諸如“鼠標(biāo)”),將命令和信息提供入計(jì)算機(jī)130中。其它輸入設(shè)備(未示出)可包括話筒、操縱桿、游戲墊、衛(wèi)星天線、串口、掃描儀、攝像機(jī)等等。這些和其它輸入設(shè)備通過(guò)連接到總線136的用戶輸入接口170連接至處理單元132,但是也可以通過(guò)其它接口和總線結(jié)構(gòu)連接,諸如并行端口、游戲端口或通用串行總線(USB)。
顯示器172或其它類型的顯示設(shè)備也通過(guò)一個(gè)接口諸如視頻接口174連接至總線136。除顯示器172之外,個(gè)人計(jì)算機(jī)一般包括其它外部輸出設(shè)備(未示出),諸如揚(yáng)聲器和打印機(jī),它們可通過(guò)輸出外部接口175連接。
計(jì)算機(jī)130可在一個(gè)使用邏輯連接至一或多個(gè)遠(yuǎn)程計(jì)算機(jī)諸如遠(yuǎn)程計(jì)算機(jī)182的網(wǎng)絡(luò)化環(huán)境中運(yùn)行。遠(yuǎn)程計(jì)算機(jī)182可以包括這里相對(duì)于計(jì)算機(jī)130所述的元件和部件的許多或全部。
圖1所示的邏輯連接是一局域網(wǎng)(LAN)177和一通用的廣域網(wǎng)(WAN)179。這樣的網(wǎng)絡(luò)環(huán)境是辦公室的公用裝置、企業(yè)內(nèi)部計(jì)算機(jī)網(wǎng)、內(nèi)聯(lián)網(wǎng)和因特網(wǎng)。
當(dāng)在LAN網(wǎng)絡(luò)環(huán)境中使用時(shí),計(jì)算機(jī)130通過(guò)網(wǎng)絡(luò)接口或適配器186連接至LAN177。當(dāng)在WAN網(wǎng)絡(luò)環(huán)境中使用時(shí),計(jì)算機(jī)130一般包括調(diào)制解調(diào)器178或用于建立在WAN179上的通信的其它工具。調(diào)制解調(diào)器178,可以是內(nèi)置的或外置的,可通過(guò)用戶輸入接口170或其它適當(dāng)?shù)臋C(jī)制連接至系統(tǒng)總線136。
示于圖1的,是通過(guò)因特網(wǎng)的WAN的特殊實(shí)現(xiàn)。這里,計(jì)算機(jī)130使用調(diào)制解調(diào)器178來(lái)通過(guò)因特網(wǎng)與至少一臺(tái)遠(yuǎn)程計(jì)算機(jī)182建立通信。
在網(wǎng)絡(luò)化環(huán)境中,相對(duì)計(jì)算機(jī)130或其某些部分所述的程度模塊可存儲(chǔ)在一遠(yuǎn)程存儲(chǔ)裝置中。于是,如圖1所示,遠(yuǎn)程應(yīng)用程序189可駐留在一遠(yuǎn)程計(jì)算機(jī)182的存儲(chǔ)裝置中。應(yīng)理解所示和所述之網(wǎng)絡(luò)連接是示例性的,也可使用在這些計(jì)算機(jī)之間建立通信鏈路的其它裝置。
姿勢(shì)估算邏輯在此使用的術(shù)語(yǔ)“邏輯(logic)”指的是表示一種或多種形式的邏輯和/或其它類型的電路系統(tǒng),它們可配置成執(zhí)行關(guān)聯(lián)于在此所述和/或所示的各種示例性方法、裝置和系統(tǒng)的某些功能。這樣的邏輯可包括硬件、固件、軟件和/或它們的任何組合。邏輯也可采用存儲(chǔ)、傳輸或者通過(guò)至少一種形式的計(jì)算機(jī)可讀介質(zhì)提供的、計(jì)算機(jī)可實(shí)施指令的形式。
記住這個(gè),將注意力轉(zhuǎn)到圖2,這是一個(gè)方框圖,示出按照本發(fā)明的某些示例性實(shí)例的、用于估算人的(例如用戶的)頭部姿勢(shì)的系統(tǒng)200。系統(tǒng)200包括計(jì)算機(jī)130和顯示設(shè)備172。還包括的至少一個(gè)照相機(jī)216和到計(jì)算機(jī)130的可應(yīng)用操作接口,如由線218表示的。照相機(jī)216和接口218配置為提供圖像數(shù)據(jù)至邏輯220,邏輯220至少部分地配置在計(jì)算機(jī)130內(nèi)。照相機(jī)216可以是一個(gè)靜止圖像照相機(jī),配置為在特定的時(shí)間拍攝單獨(dú)的圖像,和/或可以是一個(gè)攝象機(jī),拍攝一連串圖像幀/圖像。照相機(jī)216可以是彩色或單色的。所得到的圖像數(shù)據(jù)或至少其一部分最終以某些數(shù)字格式可用于邏輯220。那些在本領(lǐng)域熟練技術(shù)人員將認(rèn)識(shí)到,在照相機(jī)216、接口218、計(jì)算機(jī)130和/或邏輯220內(nèi),可以提供各種安排,以在需要時(shí)適當(dāng)?shù)貍魉?、處理、轉(zhuǎn)換和存儲(chǔ)圖像數(shù)據(jù)。
在表示一個(gè)或多個(gè)顯示設(shè)備的顯示設(shè)備172內(nèi),有一個(gè)顯示區(qū)202,它具有多個(gè)示例性可選擇區(qū)域204、206和208。這些可選擇區(qū)域表示為不同的應(yīng)用、文檔、圖畫、特征、控制、框等顯示的GUI等等。還在顯示區(qū)202內(nèi)示出用戶輸入控制的光標(biāo)或指針210。這時(shí),例如指針210是在可選擇區(qū)域206內(nèi)。
在系統(tǒng)200中,邏輯220配置為根據(jù)來(lái)自照相機(jī)216的圖像數(shù)據(jù)檢測(cè)用戶的臉部,并且確定用戶的臉部朝著顯示區(qū)202內(nèi)的什么地方以及由此估計(jì)在由照相機(jī)216拍攝圖像時(shí)用戶可能正在看的是哪一個(gè)可選擇區(qū)域。邏輯220在本例中配置成處理圖像數(shù)據(jù)足夠快,因此對(duì)于所有實(shí)際目的,所得到的估計(jì)的頭部姿勢(shì)是接近實(shí)時(shí)的。如此,邏輯220實(shí)際上能夠緊跟住用戶的頭部位置并且確定當(dāng)時(shí)用戶正在查看某特定的可選擇區(qū)域。邏輯220然后可以使計(jì)算機(jī)130內(nèi)的其它邏輯,例如用戶界面邏輯,選擇該特殊的可選擇區(qū)域,使得后面的用戶輸入/命令可操作地與正確的基本程序或應(yīng)用相關(guān)聯(lián)。
因而,例如用基于所估計(jì)的用戶頭部姿勢(shì)的邏輯220,最接近用戶的可能關(guān)注區(qū)的可選擇區(qū)域自動(dòng)地激活,使得指針220和焦點(diǎn)返回在GUI的那個(gè)部分最后失去焦點(diǎn)時(shí)的原來(lái)/先前的位置。也就是說(shuō),當(dāng)用戶轉(zhuǎn)動(dòng)他/她的頭部以查看例如詞處理文檔時(shí),自動(dòng)地選擇/激活詞處理文檔,并且指針/焦點(diǎn)恢復(fù)到最后的編輯點(diǎn)。因?yàn)檫@是自動(dòng)發(fā)生的,所以不要求用戶提供任何其它輸入至計(jì)算機(jī)130以引起這個(gè)切換動(dòng)作。
在某些實(shí)施例中,邏輯220還配置成,在進(jìn)行各種可選擇區(qū)域之間的這種焦點(diǎn)切換之前,等待某個(gè)時(shí)間量。例如,可引入可編程的延遲以幫助考慮用戶快速地或以某些其它方式移動(dòng)他/她的頭部而不批準(zhǔn)切換焦點(diǎn)。
在某些實(shí)施例中,邏輯220還配置為針對(duì)一個(gè)或多個(gè)參數(shù)或閾值/級(jí)別測(cè)試所估計(jì)的頭部運(yùn)動(dòng)或移動(dòng)的數(shù)量,使得最小用戶頭部移動(dòng)和/或處理誤差不引起非有意的/非批準(zhǔn)的焦點(diǎn)切換。
那些本領(lǐng)域熟練技術(shù)人員還將從圖2認(rèn)識(shí)到,系統(tǒng)200可配置為使用來(lái)自多個(gè)鏡頭/照相機(jī)的圖像數(shù)據(jù)以提供改進(jìn)的臉部檢測(cè)和/或跟蹤。
現(xiàn)在將注意力轉(zhuǎn)到圖3(a-d),它們例示性地示出三維用戶的頭部的某些示例性面部特征,以及按照本發(fā)明的某些方面,在這些示例性面部特征之間的幾何形狀如何對(duì)于觀測(cè)器(照相機(jī)視野)以及在來(lái)自那里的臉部的兩維圖像中顯得不同,圖3(a)示出用戶頭部的臉部部分300。臉部部分300包括兩個(gè)眼睛,即左眼302A和右眼302B。這里,例如,右眼302B被例示為具有中心304、左角306和右角308。還有兩條眉毛,即左眉毛310A和右眉毛310B。這里,例如,右眉毛310B被例示為具有左角312和右角314。臉部部分300還包括具有鼻尖318的鼻316,以及具有左角322和右角324的嘴320。
根據(jù)至少這些示例性面部特征和要點(diǎn)的一部分,邏輯220配置為在圖像內(nèi)識(shí)別用戶的臉部并且根據(jù)在兩個(gè)或多個(gè)時(shí)間相關(guān)的圖像中檢測(cè)到的移動(dòng)來(lái)估計(jì)用戶的頭部姿勢(shì)。估計(jì)也可考慮當(dāng)前幀內(nèi)的信息。
圖3(b)示出幾個(gè)不同的可出現(xiàn)在一系列圖像中的頭部姿勢(shì)300A-H和300J。這里假設(shè),在頭部姿勢(shì)300A中用戶基本上直接看著取景器/照相機(jī),以及在本說(shuō)明中作為參考這個(gè)初始位置是在x,y平面的中心。如果用戶將他/她的頭部轉(zhuǎn)向他/她的左邊(例如,正x軸方向),那么所得到的圖像是頭部姿勢(shì)300B。相反地,如果用戶將他/她的頭部轉(zhuǎn)向右邊(例如,負(fù)x軸方向),那么所得到的頭部姿勢(shì)將是300C。注意,在頭部姿勢(shì)300A、B和C中,用戶的頭部運(yùn)動(dòng)還只包括沿y軸的頭部轉(zhuǎn)動(dòng)。
在頭部姿勢(shì)300D、E和F中,用戶的頭部是面向前面(D)和轉(zhuǎn)到左邊和右邊(分別E和F),同時(shí)還向上方傾斜(例如在正y軸方向)。同樣,頭部姿勢(shì)300G、H和J,示出用戶的頭部分別是正面的、轉(zhuǎn)到左邊和轉(zhuǎn)到右邊的,同時(shí)還向下傾斜(例如,在負(fù)y軸方向)。
從這些簡(jiǎn)化的示例性頭部姿勢(shì)300A-H和J,將注意到,在某些可檢測(cè)的面部特征之間的投影幾何形狀取決于用戶的頭部的轉(zhuǎn)動(dòng)和/或傾斜而改變。因而,例如,邏輯220可以配置為識(shí)別兩個(gè)或多個(gè)面部特征以及監(jiān)視這些面部特征在位置上相對(duì)于彼此的改變。
作為例子,在圖3(c)中示出,可以將不同的面部特征或要點(diǎn)結(jié)合起來(lái)建立幾何圖案,它將在用戶的頭部以轉(zhuǎn)動(dòng)和/或傾斜移動(dòng)時(shí)改變,如在圖3(b)中所示。在圖3(c)的第一頭部姿勢(shì)300A中,在用戶的鼻尖和用戶的嘴的左和右角之間形成一個(gè)示例性三角形326。在圖3(c)的第二個(gè)頭部姿勢(shì)300A中,在用戶的鼻尖和用戶的左和右眼的中心之間形成一個(gè)示例性三角形328。在圖3(c)的第三個(gè)頭部姿勢(shì)300A中,在用戶的右眼左角、用戶的左眼的右角和用戶的嘴的左角之間形成一個(gè)示例性三角形330。還有一些例子。
如在圖3(d)所示,頭部姿勢(shì)300K例示可使用單個(gè)點(diǎn),頭部姿勢(shì)300L例示可使用兩個(gè)點(diǎn),頭部姿勢(shì)300M例示可使用三個(gè)點(diǎn),以及頭部姿勢(shì)300N例示可使用四個(gè)點(diǎn)。因而,可使用一個(gè)或多個(gè)點(diǎn)。
接著將注意力轉(zhuǎn)到圖4,它進(jìn)一步例示系統(tǒng)400,其中照相機(jī)216包括通過(guò)幀拍攝功能402可操作地連接到邏輯220的攝象機(jī)。幀拍攝技術(shù)是眾所周知的。在邏輯220內(nèi),有一個(gè)姿勢(shì)估計(jì)邏輯404,它接收或訪問(wèn)由幀拍攝功能402輸出的圖像數(shù)據(jù)。這里,在本例中,姿勢(shì)估計(jì)邏輯404還可操作地連接至用戶界面邏輯406。姿勢(shì)估計(jì)邏輯404配置為估算用戶的頭部姿勢(shì),例如使用如上所述的多個(gè)面部點(diǎn),以及將信息輸出至用戶界面邏輯406,它相應(yīng)于根據(jù)用戶的當(dāng)前頭部姿勢(shì)所估計(jì)的用戶關(guān)注區(qū)。
在圖5的系統(tǒng)500中示出姿勢(shì)估計(jì)邏輯404的更詳細(xì)的示例性實(shí)現(xiàn)。這里,姿勢(shì)估計(jì)邏輯包括臉部檢測(cè)器502,它識(shí)別在所拍攝圖像中的臉部區(qū)域。將來(lái)自臉部檢測(cè)器502的輸出提供給跟蹤器,諸如例如,差的平方和(SSD)跟蹤器504等。SDD跟蹤器504輸出至少一個(gè)被檢測(cè)區(qū),然后將它提供給一個(gè)或多個(gè)部位檢測(cè)器506,它們檢測(cè)和輸出面部點(diǎn),連同置信度(如可適用性)的某種量度。在本例中,將置信度信息提供給至少一個(gè)置信度姿勢(shì)估計(jì)器510,它配置為通過(guò)將置信度輸出映射到相應(yīng)的粗略的信息,例如通過(guò)雙線性提取(bilinear extraction)或某些其它技術(shù),來(lái)產(chǎn)生粗略的姿勢(shì)位置。將粗略的姿勢(shì)信息連同被檢測(cè)的關(guān)鍵面部點(diǎn)提供給綜合的姿勢(shì)估計(jì)器512,它接著將所估計(jì)的頭部姿勢(shì)信息輸出至用戶界面邏輯406。這里,例如,綜合的姿勢(shì)估計(jì)器512包括橢圓估計(jì)器512A和累接的估計(jì)器512B,并且輸出估計(jì)的頭部姿勢(shì)信息,它可由用戶界面邏輯406內(nèi)的定點(diǎn)設(shè)備控制器514使用。
常規(guī)的臉部檢測(cè)技術(shù)可在臉部檢測(cè)器502中實(shí)現(xiàn),以找出在圖像內(nèi)可能是臉部的區(qū)域。在某些示例性實(shí)現(xiàn)中,臉部檢測(cè)器502包括常規(guī)的AdaBoost分類器技術(shù),如在P.Viola和M.Jones的“Robust Real-time Object Detection(強(qiáng)化的實(shí)時(shí)對(duì)象檢測(cè))”(Cambridge Research Laboratory Techinical ReportSeries(劍橋研究實(shí)驗(yàn)室技術(shù)報(bào)告匯編),2001年2月)中所述的,和AdaBoost技術(shù),如例如在2002年8月1日公布的美國(guó)專利申請(qǐng)No.20020102024 A1中所述的。
可以訓(xùn)練這些和其它類型的分類器,例如,使用各種臉部和非臉部取樣的圖像樣本。例如,這可發(fā)生在離線機(jī)器學(xué)習(xí)期間。臉部檢測(cè)器502然后被用于在初始化圖像幀/圖像中定位臉部區(qū)域,通過(guò)掃描所有可能的臉部區(qū)域并且判斷它是否是臉部。除臉部的位置和大小之外,臉部檢測(cè)器502也可輸出用于臉部的粗略姿勢(shì)估計(jì)的信息,例如,有時(shí)稱為臉部信道(face channel)。當(dāng)臉部信道是正面的,可以初始化SSD跟蹤器504,如下所述。
在這些示例性實(shí)現(xiàn)中,SSD跟蹤器504是圖像補(bǔ)片(patch)跟蹤器,它基于最小化所跟蹤的補(bǔ)片(例如臉部區(qū)域)的先前存儲(chǔ)的圖像與其當(dāng)前圖像之間差的平方和。圖像補(bǔ)片(例如模板圖像)被反復(fù)地更新,以克服例如由姿勢(shì)和照明引起的臉部區(qū)域的外觀變化。SSD跟蹤器504可以設(shè)置為,例如,跟蹤用戶臉部上的鼻-嘴區(qū)域,以便提供可定位面部關(guān)鍵點(diǎn)的大致范圍。這里,可以仔細(xì)地選擇所跟蹤的區(qū)域大小以平衡系統(tǒng)500的可靠性、穩(wěn)定性和速度。
SDD跟蹤技術(shù)是眾所周知的。例如,參考在IEEE CVPR Proceedings(會(huì)議錄)403-410頁(yè)發(fā)表的標(biāo)題為“Real-Time Tracking of Image Regions withChanges in Geometry and Illumination(實(shí)時(shí)跟蹤具有幾何形狀和照明變化的圖像區(qū)域)”,作者是G.D.Hager和P.N.Belhumeur。
按照本發(fā)明的某些其它方面,當(dāng)SSD跟蹤器504找到符合或超過(guò)至少一個(gè)可編程的或者規(guī)定的告警閾(alter threshold)(例如,表示可能的跟蹤誤差),然后它通知其它邏輯觸發(fā)新的初始化過(guò)程。
那些在本領(lǐng)域熟練技術(shù)人員將認(rèn)識(shí)到,可以代替或者在示例性SSD跟蹤器504之外使用其它跟蹤器技術(shù)。
部位檢測(cè)器506在本例中是一組檢測(cè)器,配置為在臉部區(qū)域內(nèi)定位所選擇的面部關(guān)鍵點(diǎn),諸如例如,左/右眼中心,鼻尖和左/右嘴角。在某些實(shí)現(xiàn)中,部位檢測(cè)器506與臉部檢測(cè)器502的設(shè)計(jì)相似。不過(guò),可以配置每個(gè)部位檢測(cè)器輸出有關(guān)面部關(guān)鍵點(diǎn)的結(jié)果位置的置信度信息,接著在置信度姿勢(shì)估計(jì)器508中使用這些信息。在圖5中的示例性實(shí)現(xiàn)中,部位檢測(cè)器506包括眼檢測(cè)器506A,配置為檢測(cè)特定的與眼有關(guān)的特征,鼻檢測(cè)器506B,配置為檢測(cè)特定的與鼻有關(guān)的特征,和/或嘴檢測(cè)器506C,配置為檢測(cè)特定的與嘴有關(guān)的特征。可也在部位檢測(cè)器504內(nèi)提供其它特征檢測(cè)器506Z,例如,可提供眉毛檢測(cè)器。
置信度姿勢(shì)估計(jì)器510根據(jù)部位檢測(cè)置信度輸出,關(guān)聯(lián)和確定粗略的姿勢(shì)定位。例如,左/右眼中心、鼻尖和左/右嘴角的置信度輸出關(guān)聯(lián)于如在圖3(a-d)中例示的用戶的頭部姿勢(shì)。每個(gè)置信度輸出遵循特定的函數(shù)。當(dāng)用戶的臉部在正面(例如,300A)時(shí),左和右眼角的置信度基本相等。不過(guò),當(dāng)用戶的頭部轉(zhuǎn)到左邊或右邊時(shí),那么左和右眼角的置信度不同,并且其差異是由偏轉(zhuǎn)角(yawangle)確定的。當(dāng)用戶的頭部向上或向下傾斜時(shí),那么鼻的置信度也不同于其基本值。
因此,根據(jù)關(guān)鍵面部點(diǎn)的置信度輸出序列,置信度姿勢(shì)估計(jì)器可以動(dòng)態(tài)地選擇某些點(diǎn)用于姿勢(shì)估計(jì)。因而,通過(guò)比較在幀中不同關(guān)鍵面部點(diǎn)和在不同幀中相同關(guān)鍵面部點(diǎn)的置信度輸出,置信度姿勢(shì)估計(jì)器510產(chǎn)生頭部姿勢(shì)的粗略的估計(jì)。在某些實(shí)現(xiàn)中,至少有一個(gè)置信度姿勢(shì)估計(jì)器用于偏轉(zhuǎn)角并且至少有一個(gè)置信度姿勢(shì)估計(jì)器用于傾斜角。認(rèn)識(shí)到存在某些系統(tǒng),它們只需要或者考慮偏轉(zhuǎn)角變化,或者考慮傾斜角變化。
在某些實(shí)驗(yàn)性實(shí)施例中,置信度姿勢(shì)估計(jì)器510的準(zhǔn)確性大約是15度。象這樣,在某些系統(tǒng)中,這個(gè)粗略的頭部姿勢(shì)估計(jì)對(duì)直接傳遞給用戶界面邏輯406可能是足夠準(zhǔn)確的。例如,在具有三個(gè)監(jiān)視器的系統(tǒng)中,其中每個(gè)監(jiān)視器具有不同的可選擇區(qū)域,這個(gè)粗略的估計(jì)可能足以允許在它們之間自動(dòng)切換。如果存在所估計(jì)的頭部姿勢(shì)要更精確的需求,那么使用綜合的姿勢(shì)估計(jì)器512。當(dāng)然,綜合的姿勢(shì)估計(jì)器512將有可能要求比置信度姿勢(shì)估計(jì)器510更多的計(jì)算時(shí)間/資源。
在一個(gè)示例性策略中,不使用綜合的姿勢(shì)估計(jì)器512,直到用戶的頭部顯得已經(jīng)停在在一個(gè)位置某個(gè)時(shí)間段(例如n數(shù)量的2幀)。當(dāng)使用時(shí),運(yùn)行綜合的姿勢(shì)估計(jì)器512一段時(shí)間和/或直到所選擇的部位檢測(cè)器506已經(jīng)收斂。
在又一些其它示例性實(shí)施例中,置信度姿勢(shì)估計(jì)器可以與綜合的姿勢(shì)估計(jì)器512結(jié)合。
在示例性綜合的姿勢(shì)估計(jì)器512中,結(jié)合不同方法用于更精確的姿勢(shì)估計(jì)。這里,例如,橢圓姿勢(shì)估計(jì)器512A可以配置為用某個(gè)數(shù)量的關(guān)鍵面部點(diǎn)(例如三個(gè)或多個(gè))進(jìn)行工作并且將它們適配在一個(gè)橢圓中。按照主軸和次軸的長(zhǎng)度比,導(dǎo)出在名義臉部平面與名義照相機(jī)平面之間的二面角。按照次軸的方向,然后可以確定臉部平面的正常方向。
對(duì)于有關(guān)橢圓姿勢(shì)估計(jì)技術(shù)的更多信息,讀者參考T.Huang等人于1995年在IEEE Transactions on Pattern Analysis and Machine Intelligence(關(guān)于圖案分析和機(jī)器智能的IEEE學(xué)報(bào))發(fā)表的標(biāo)題為“Uniqueness of 3D PoseUnder Weak PerspectiveA Geometrical Proof(在弱配置下的3D姿勢(shì)的唯一性幾何證明)”的文章。
迭代的姿勢(shì)估計(jì)器512B在本例中配置為與幾個(gè)關(guān)鍵面部點(diǎn)(例如二個(gè)或多個(gè))一起工作和迭代地優(yōu)化某些姿勢(shì)參數(shù),所述參數(shù)諸如偏轉(zhuǎn)角、傾斜角和/或比例,目標(biāo)是使在相應(yīng)的關(guān)鍵面部點(diǎn)的真實(shí)配置的投影和估計(jì)的配置之間距離最小化。
橢圓估計(jì)器512A和迭代的估計(jì)器512B可以配置為考慮關(guān)鍵面部點(diǎn)檢測(cè)誤差以及嘗試使輸出的頭部姿勢(shì)穩(wěn)定化。因而,例如,綜合的姿勢(shì)估計(jì)器512可能使用濾波和平滑技術(shù)。
定點(diǎn)設(shè)備控制器514實(shí)質(zhì)上是存儲(chǔ)/恢復(fù)在所有關(guān)注區(qū)中的用戶的工作狀態(tài)的接口邏輯,所述關(guān)注區(qū)可稱為視圖。工作狀態(tài)可包括,例如,激活的可選擇區(qū)域,指針位置,插入光標(biāo)等。在使用相當(dāng)大的顯示器的系統(tǒng)中,視圖可在屏幕上呈現(xiàn)某些區(qū),然而在具有多個(gè)監(jiān)視器的系統(tǒng)中,視圖可相應(yīng)于單個(gè)監(jiān)視器。
當(dāng)用戶改變他/她的頭部姿勢(shì)以聚焦在顯示屏幕上的其它區(qū)時(shí),姿勢(shì)估計(jì)邏輯404通知定點(diǎn)設(shè)備控制器514關(guān)于新的姿勢(shì)。然后定點(diǎn)設(shè)備控制器514存儲(chǔ)在當(dāng)前關(guān)注區(qū)中的工作狀態(tài),并且恢復(fù)關(guān)注的關(guān)注區(qū)的工作狀態(tài),例如,激活原來(lái)的文檔,將指針?lè)呕厮郧暗奈恢貌⑶胰绻翱谟胁迦牍鈽?biāo)則顯示它。
示例性姿勢(shì)估計(jì)邏輯404已經(jīng)設(shè)計(jì)成兼容于大顯示器或者多個(gè)監(jiān)視器系統(tǒng)。還使用戶能夠通過(guò)設(shè)置視圖的數(shù)量來(lái)定制多少關(guān)注區(qū)。
現(xiàn)在將注意力轉(zhuǎn)到圖6,這是一個(gè)示出方法600的流程圖,還例示和描述在此提供的改進(jìn)的技術(shù)。
在過(guò)程602,拍攝圖像。這可包括單個(gè)圖像或者多個(gè)圖像(例如,用于立體圖像系統(tǒng)等)。圖像可以是已經(jīng)拍攝的視頻數(shù)據(jù)的幀。接著在過(guò)程604中,分析或處理來(lái)自過(guò)程602的圖像以檢測(cè)在其中的臉部。在過(guò)程606中,確定是否檢測(cè)到至少一個(gè)臉部的正面部分,如果是那么方法繼續(xù)過(guò)程608。如果,經(jīng)過(guò)程606,沒(méi)有檢測(cè)到正面臉部,那么方法返回至過(guò)程602并且拍攝新的圖像。
在過(guò)程608中,實(shí)施初始化過(guò)程,其中,例如,關(guān)鍵面部點(diǎn)諸如左/右眼中心、左/右嘴角和鼻尖是由至少兩個(gè)部位檢測(cè)器檢測(cè)的,以及存儲(chǔ)點(diǎn)位置配置和關(guān)鍵面部點(diǎn)的基本置信度用于將來(lái)的姿勢(shì)估計(jì)。一般地,這樣的部位檢測(cè)器運(yùn)行得足夠快,因此初始化過(guò)程在少于一秒內(nèi)發(fā)生。在過(guò)程610中,如果成功地完成初始化,那么方法繼續(xù)過(guò)程612,如果否,那么方法返回至過(guò)程608并且再次執(zhí)行初始化過(guò)程。盡管在圖6中未示出,但如果初始化在某個(gè)數(shù)量的重復(fù)的/更詳細(xì)的嘗試后不能成功,那么方法可返回過(guò)程602。
在過(guò)程612中,在成功初始化后,跟蹤所選擇的臉部區(qū)域,例如,使用SSD跟蹤器等等。這里,例如,系統(tǒng)可以配置為使用迭代的SSD跟蹤器在每幀中跟蹤用戶的頭部。在某些實(shí)現(xiàn)中,例如,所跟蹤的區(qū)域包括鼻和嘴角。其它關(guān)鍵面部點(diǎn)可以按照所跟蹤的關(guān)鍵面部點(diǎn)確定。所有這些部位檢測(cè)器輸出與用戶的頭部姿勢(shì)有關(guān)的置信度。
在過(guò)程614中,確定所跟蹤的臉部區(qū)域是否符合適用的告警閾),如果是,那么方法繼續(xù)至過(guò)程616并且如果否則方法返回至過(guò)程604。
在過(guò)程616中,檢測(cè)關(guān)鍵面部點(diǎn)。這里,例如在所跟蹤的區(qū)域內(nèi)的某些關(guān)鍵面部點(diǎn)是由相應(yīng)的部位檢測(cè)器例如鼻尖和嘴角來(lái)檢測(cè)和改進(jìn)的。其它關(guān)鍵面部點(diǎn)可以按照所跟蹤的關(guān)鍵面部點(diǎn)和來(lái)自先前幀的姿勢(shì)信息來(lái)確定。所有這些部位檢測(cè)器輸出與用戶的頭部姿勢(shì)有關(guān)的置信度。根據(jù)動(dòng)態(tài)關(guān)鍵面部點(diǎn)選擇策略和置信度輸出組合,置信度姿勢(shì)估計(jì)器將產(chǎn)生用戶的頭部姿勢(shì)的粗略估計(jì)。在過(guò)程618中,確定在過(guò)程616中的檢測(cè)是否成功。如果是,那么方法繼續(xù)至過(guò)程620,否則方法繼續(xù)過(guò)程628。
在過(guò)程620中,為用戶的頭部姿勢(shì)產(chǎn)生更精細(xì)的估計(jì)。因而,例如,當(dāng)用戶的頭部停止移動(dòng),因此他/她能聚焦在顯示屏幕上的某個(gè)位置,并且成功地檢測(cè)關(guān)鍵面部點(diǎn)和優(yōu)化到高置信度級(jí)別的時(shí)候,將關(guān)鍵面部點(diǎn)位置送到綜合的姿勢(shì)估計(jì)器以改進(jìn)姿勢(shì)估計(jì)結(jié)果。例如,最終的偏轉(zhuǎn)和傾斜角結(jié)果是通過(guò)將前述兩個(gè)姿勢(shì)估計(jì)器的輸出結(jié)合起來(lái)提供的。
在過(guò)程622中,確定自從上次確定后是否已經(jīng)改變用戶的關(guān)注/焦點(diǎn)區(qū)域。如果已經(jīng)有改變,那么方法繼續(xù)至過(guò)程624,否則方法繼續(xù)過(guò)程628。
在過(guò)程624中,存儲(chǔ)用于即將離開(kāi)的可選擇區(qū)域的當(dāng)前視圖的運(yùn)行狀態(tài)。在過(guò)程626中,在即將進(jìn)入的可選擇區(qū)域中恢復(fù)先前或原來(lái)的運(yùn)行狀態(tài)。這在估計(jì)用戶的估計(jì)的頭部姿勢(shì)何時(shí)表示他/她正看著不同的可選擇區(qū)域時(shí),完成預(yù)測(cè)的自動(dòng)焦點(diǎn)切換。
過(guò)程622,例如,也可在允許焦點(diǎn)切換發(fā)生之前,引進(jìn)編程的或者規(guī)定的延遲機(jī)制。在用戶的動(dòng)作與界面反應(yīng)之間延遲的一個(gè)理由是,在某些實(shí)施例中,延遲允許邏輯過(guò)濾姿勢(shì)輸出和基本上更好地穩(wěn)定它們。這里,例如,本方法使用在前幀的姿勢(shì)和當(dāng)前幀的姿勢(shì)輸出的線性組合。不過(guò),在時(shí)間上接近的幀將更重要,因此可認(rèn)為它們更重要或者邏輯上不同地對(duì)它們加權(quán)。這傾向于產(chǎn)生更光滑的姿勢(shì)輸出曲線而不管檢測(cè)噪聲如何。另一個(gè)引入延遲的理由是,如較早提到的,在某些環(huán)境中用戶可能只是快速地轉(zhuǎn)動(dòng)他/她的頭部至另一個(gè)視圖并且然后返回到先前的視圖。有時(shí),例如,用戶可能看著另一個(gè)可選擇區(qū)域并且繼續(xù)在當(dāng)前所選擇的區(qū)域中輸入。為幫助作出焦點(diǎn)切換決定,邏輯220也可配置為在當(dāng)前的活動(dòng)區(qū)域中監(jiān)視用戶輸入,并且如果在一段時(shí)間內(nèi)沒(méi)有作出更多的輸入時(shí),決定用戶準(zhǔn)備切換焦點(diǎn)至新的視圖。
認(rèn)識(shí)到在某些實(shí)施例中,臉部檢測(cè)器可檢測(cè)圖像內(nèi)多于一個(gè)臉部。因此,邏輯220也可配置為在所檢測(cè)的臉部之間選擇。例如,在許多情況下,被檢測(cè)的、大小是最大的臉部,將有可能是設(shè)備的用戶,因?yàn)橛脩粢话阕羁拷@示屏幕和可能最靠近照相機(jī)布置。在某些實(shí)現(xiàn)中,可增加面部識(shí)別能力以進(jìn)一步區(qū)別不同的被檢測(cè)的臉部。
那些在本領(lǐng)域熟練技術(shù)人員將認(rèn)識(shí)到,如果照相機(jī)、顯示設(shè)備和用戶各自按照默認(rèn)的系統(tǒng)布局定位,那么系統(tǒng)標(biāo)度過(guò)程可能不需要。如果不是這種情況,那么可能需要在系統(tǒng)初始化期間為布局標(biāo)度。
如在此所述的并在附圖中所示的,按照本發(fā)明的某些示例性的方面,已經(jīng)示出基于臉部/部位檢測(cè)器置信度輸出的示例性姿勢(shì)估計(jì)過(guò)程。示例性疊代的姿勢(shì)估計(jì)器可以基于一個(gè)對(duì)象的關(guān)鍵點(diǎn)。系統(tǒng)可包括粗略至精細(xì)的姿勢(shì)估計(jì),例如,其中為大約每幀估計(jì)粗略的姿勢(shì),并且在被檢測(cè)的用戶的臉部停止移動(dòng)一段足夠長(zhǎng)的時(shí)間后可以改進(jìn)它。示例性用戶場(chǎng)景可包括,例如,其中用戶與大尺寸的顯示器、單個(gè)顯示器、多個(gè)顯示器和/或多個(gè)用戶關(guān)注區(qū)一起工作的系統(tǒng)。在各關(guān)注區(qū)之間的自動(dòng)切換基于用戶的當(dāng)前姿勢(shì)和相應(yīng)的視圖的估計(jì)。
在示例性跟蹤方法中,描述了SSD跟蹤器。不過(guò),存在也可使用的其它常規(guī)的跟蹤方法。用示例性SSD跟蹤器,發(fā)現(xiàn)選擇一個(gè)包括用戶的嘴和鼻尖的區(qū)域可提供合適的結(jié)構(gòu)。無(wú)疑也可以使用其它區(qū)域,只要系統(tǒng)符合適合的準(zhǔn)確性和/或有效性要求。
按照本發(fā)明的某些方面,由姿勢(shì)估計(jì)器使用的關(guān)鍵點(diǎn)的數(shù)量可以變化。例如,某些基于檢測(cè)置信度的粗略姿勢(shì)估計(jì)器能夠根據(jù)單個(gè)關(guān)鍵點(diǎn)確定臉部的粗略姿勢(shì)。所得到的粗略的頭部姿勢(shì)包括至少一個(gè)頭部姿勢(shì)參數(shù),諸如例如,偏轉(zhuǎn)角,傾斜角,滾動(dòng)角,x平移,y平移,比例因數(shù)等等。示例性橢圓姿勢(shì)估計(jì)器和疊代的姿勢(shì)估計(jì)器使用至少三個(gè)關(guān)鍵點(diǎn)來(lái)產(chǎn)生精細(xì)的姿勢(shì)估計(jì)。一般地,可用于這種估計(jì)器的關(guān)鍵點(diǎn)越多,所得到的估計(jì)的精度就越高。
結(jié)論盡管已經(jīng)以專用于結(jié)構(gòu)特征和/或方法過(guò)程的語(yǔ)言描述了本發(fā)明,但要理解,在所附的權(quán)利要求書(shū)中定義的本發(fā)明不必限制于所述的特定特征或步驟。
權(quán)利要求
1.一種與計(jì)算設(shè)備配合使用的方法,包括確定計(jì)算設(shè)備的用戶在第一時(shí)間的第一頭部姿勢(shì);確定所述用戶在所述第一時(shí)間之后的第二時(shí)間的至少一個(gè)第二頭部姿勢(shì);以及根據(jù)所述第一頭部姿勢(shì)與至少所述第二頭部姿勢(shì)之間的至少一個(gè)差異,自動(dòng)地可操作地在計(jì)算設(shè)備的至少一個(gè)顯示設(shè)備的至少兩個(gè)可選擇區(qū)域之間切換。
2.如權(quán)利要求1所述的方法,其特征在于確定所述第一頭部姿勢(shì)還包括在所述第一時(shí)間,產(chǎn)生第一圖像,所述第一圖像示出所述用戶面部的至少第一部分,在所述第一圖像內(nèi)檢測(cè)所述臉部的至少所述第一部分,以及在所述臉部的所述檢測(cè)的第一部分內(nèi)檢測(cè)至少一個(gè)點(diǎn),以及存儲(chǔ)與所述至少一個(gè)點(diǎn)相關(guān)聯(lián)的第一跟蹤信息;以及確定所述第二頭部姿勢(shì)還包括在所述第二時(shí)間,產(chǎn)生第二圖像,所述第二圖像示出所述用戶的所述面部至少第二部分的圖像,在所述第二圖像內(nèi)檢測(cè)所述臉部的至少所述第二部分,以及在所述臉部的所述檢測(cè)的第二部分內(nèi)檢測(cè)所述至少一個(gè)點(diǎn),以及存儲(chǔ)與所述至少一個(gè)點(diǎn)相關(guān)聯(lián)的第二跟蹤信息。
3.如權(quán)利要求2所述的方法,其特征在于,自動(dòng)地可操作地在所述至少兩個(gè)可選擇區(qū)域之間切換還包括比較至少所述第一跟蹤信息與所述第二跟蹤信息,以確定關(guān)聯(lián)于所述用戶的估算的顯示設(shè)備視圖是否在所述第一時(shí)間至所述第二時(shí)間之間已經(jīng)改變;以及如果關(guān)于所述用戶的所述估算的顯示設(shè)備視圖已經(jīng)在所述第一時(shí)間至所述第二時(shí)間之間已經(jīng)改變,那么選擇性地可操作地切換在所述顯示設(shè)備上呈現(xiàn)的用戶輸入接口焦點(diǎn)到關(guān)聯(lián)于所述估算的顯示設(shè)備視圖的可選擇區(qū)域。
4.如權(quán)利要求2所述的方法,其特征在于,產(chǎn)生所述第一圖像還包括,使至少一個(gè)照相機(jī)設(shè)備輸出所述第一圖像。
5.如權(quán)利要求4所述的方法,其特征在于,所述至少一個(gè)照相機(jī)設(shè)備包括至少一個(gè)攝象機(jī)設(shè)備,以及所述第一圖像包括由所述攝象機(jī)設(shè)備拍攝的圖像幀。
6.如權(quán)利要求4所述的方法,其特征在于,所述至少一個(gè)照相機(jī)設(shè)備包括至少一個(gè)數(shù)字靜止照相機(jī)設(shè)備,以及所述第一圖像包括由所述數(shù)字靜止照相機(jī)設(shè)備拍攝的數(shù)字靜止圖像。
7.如權(quán)利要求2所述的方法,其特征在于,在所述第一圖像內(nèi)檢測(cè)所述臉部的所述第一部分還包括根據(jù)至少一個(gè)分類參數(shù),分類與所述第一圖像相關(guān)連的圖像數(shù)據(jù)的多個(gè)部分的每一個(gè)部分,以確定至少一個(gè)關(guān)聯(lián)于所述臉部的所述第一部分的面部區(qū)域。
8.如權(quán)利要求7所述的方法,還包括圖像補(bǔ)片在所述第二圖像的相應(yīng)的部分中跟蹤關(guān)聯(lián)于所述臉部的所述第一部分的所述面部區(qū)域,以識(shí)別至少一個(gè)被檢測(cè)的臉部區(qū)。
9.如權(quán)利要求8所述的方法,其特征在于,圖像補(bǔ)片跟蹤還包括使用差的平方和(SSD)圖像補(bǔ)片跟蹤器識(shí)別所述至少一個(gè)被檢測(cè)的臉部區(qū)。
10.如權(quán)利要求8所述的方法,其特征在于,圖像補(bǔ)片跟蹤還包括將所述所得到的被檢測(cè)的臉部區(qū)的至少一部分與至少一個(gè)告警閾參數(shù)相比較,以確定是否要求關(guān)聯(lián)的系統(tǒng)初始化過(guò)程。
11.如權(quán)利要求8所述的方法,其特征在于,在所述臉部的所述被檢測(cè)的第二部分內(nèi)檢測(cè)所述至少一個(gè)點(diǎn)還包括在所述至少一個(gè)被檢測(cè)的臉部區(qū)內(nèi)檢測(cè)至少一個(gè)關(guān)鍵面部部位。
12.如權(quán)利要求11所述的方法,還包括根據(jù)所述至少三個(gè)被檢測(cè)的關(guān)鍵面部部位確定所述用戶的精細(xì)頭部姿勢(shì)。
13.如權(quán)利要求11所述的方法,還包括根據(jù)與在所述至少一個(gè)被檢測(cè)的臉部區(qū)內(nèi)檢測(cè)所述至少一個(gè)關(guān)鍵面部部位相關(guān)聯(lián)的置信度(confidence)信息,確定所述用戶的粗略頭部姿勢(shì)。
14.如權(quán)利要求13所述的方法,還包括根據(jù)所述被檢測(cè)的關(guān)鍵面部部位和所述置信度信息,確定所述用戶的精細(xì)的頭部姿勢(shì)。
15.如權(quán)利要求13所述的方法,其特征在于,所述粗略的頭部姿勢(shì)與至少一個(gè)頭部姿勢(shì)參數(shù)相關(guān)聯(lián),所述頭部姿勢(shì)參數(shù)是從一組由偏轉(zhuǎn)角、傾斜角、滾動(dòng)角、x平移、y平移和比例因數(shù)組成的頭部姿勢(shì)參數(shù)中選擇的。
16.如權(quán)利要求12所述的方法,其特征在于,確定所述精細(xì)的頭部姿勢(shì)還包括使用至少一個(gè)估計(jì)器技術(shù)確定所述精細(xì)的頭部姿勢(shì),所述估計(jì)器技術(shù)是從一組由橢圓估計(jì)器技術(shù)和迭代的估計(jì)器技術(shù)組成的估計(jì)技術(shù)中選擇的。
17.如權(quán)利要求12所述的方法,其特征在于,確定所述精細(xì)的頭部姿勢(shì)還包括使用至少一個(gè)基于視圖的姿勢(shì)估計(jì)技術(shù)確定所述精細(xì)的頭部姿勢(shì)。
18.如權(quán)利要求1所述的方法,其特征在于,所述至少一個(gè)顯示器的所述至少兩個(gè)可選擇區(qū)域的至少一個(gè)包括,在圖形用戶界面(GUI)中的至少一個(gè)可操作地可選擇區(qū)域。
19.如權(quán)利要求1所述的方法,其特征在于,所述至少兩個(gè)可選擇區(qū)域的每一個(gè)與不同計(jì)算機(jī)邏輯或不同計(jì)算機(jī)數(shù)據(jù)相關(guān)聯(lián)。
20.如權(quán)利要求1所述的方法,其特征在于,自動(dòng)地可操作地在所述至少一個(gè)顯示設(shè)備的至少兩個(gè)可選擇區(qū)域之間切換還包括選擇性地使圖形定位設(shè)備在所述顯示設(shè)備上移動(dòng)。
21.如權(quán)利要求1所述的方法,其特征在于,自動(dòng)地可操作地在所述至少一個(gè)顯示設(shè)備的所述至少兩個(gè)可選擇區(qū)域之間切換還包括選擇性地延遲自動(dòng)地可操作地在所述至少一個(gè)顯示設(shè)備的所述至少兩個(gè)可選擇區(qū)域之間切換。
22.一種具有計(jì)算機(jī)可實(shí)現(xiàn)的指令的計(jì)算機(jī)可讀介質(zhì),所述指令使至少一個(gè)處理器執(zhí)行下列過(guò)程估算計(jì)算設(shè)備的用戶在第一時(shí)間的第一頭部姿勢(shì)和所述用戶在所述第一時(shí)間之后的第二時(shí)間的至少一個(gè)第二頭部姿勢(shì);以及根據(jù)所述第一頭部姿勢(shì)與至少所述第二頭部姿勢(shì)之間的至少一個(gè)差異,自動(dòng)地可操作地在計(jì)算設(shè)備的至少一個(gè)顯示設(shè)備的至少兩個(gè)可選擇區(qū)域之間切換。
23.如權(quán)利要求22所述的計(jì)算機(jī)可讀介質(zhì),其特征在于估算所述第一頭部姿勢(shì)還包括,產(chǎn)生第一圖像,所述第一圖像示出至少所述用戶臉部的至少第一部分,在所述第一圖像內(nèi)檢測(cè)所述臉部的至少所述第一部分,以及在所述臉部的所述被檢測(cè)的第一部分內(nèi)檢測(cè)至少一個(gè)點(diǎn),以及存儲(chǔ)與所述至少一個(gè)點(diǎn)相關(guān)聯(lián)的第一跟蹤信息;以及估算所述第二頭部姿勢(shì)還包括,產(chǎn)生第二圖像,所述第二圖像示出至少所述用戶臉部的至少第二部分,在所述第二圖像內(nèi)跟蹤/檢測(cè)所述臉部的至少所述第二部分,以及在所述臉部的所述被檢測(cè)的第二部分內(nèi)檢測(cè)所述至少一個(gè)點(diǎn),以及存儲(chǔ)與所述至少一個(gè)點(diǎn)相關(guān)聯(lián)的第二跟蹤信息。
24.如權(quán)利要求23所述的計(jì)算機(jī)可讀的介質(zhì),其特征在于,自動(dòng)地可操作地在所述至少兩個(gè)可選擇區(qū)域之間切換還包括比較至少所述第一跟蹤信息與所述第二跟蹤信息,以確定關(guān)聯(lián)于所述用戶的估算的顯示設(shè)備視圖是否在所述第一時(shí)間至所述第二時(shí)間之間已經(jīng)改變,以及如果關(guān)于所述用戶的所述估算的顯示設(shè)備視圖在所述第一時(shí)間至所述第二時(shí)間之間已經(jīng)改變,那么選擇性地可操作地切換在所述顯示設(shè)備上呈現(xiàn)的用戶輸入接口到關(guān)聯(lián)于所述估算的顯示設(shè)備視圖的可選擇區(qū)域。
25.如權(quán)利要求23所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,產(chǎn)生所述第一圖像還包括,使至少一個(gè)照相機(jī)設(shè)備輸出所述第一圖像。
26.如權(quán)利要求25所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述至少一個(gè)照相機(jī)設(shè)備包括至少一個(gè)攝象機(jī)設(shè)備,以及所述第一圖像包括由所述攝象機(jī)設(shè)備拍攝的圖像幀。
27.如權(quán)利要求23所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,在所述第一圖像內(nèi)檢測(cè)所述臉部的所述第一部分還包括根據(jù)至少一個(gè)分類參數(shù),分類與所述第一圖像相關(guān)的圖像數(shù)據(jù)的多個(gè)部分的每一個(gè)部分,以確定關(guān)聯(lián)于所述臉部的所述第一部分的至少一個(gè)面部區(qū)域。
28.如權(quán)利要求27所述的計(jì)算機(jī)可讀介質(zhì),還包括圖像補(bǔ)片在所述第二圖像的相應(yīng)的部分中跟蹤關(guān)聯(lián)于所述臉部的所述第一部分的所述面部區(qū)域,以識(shí)別至少一個(gè)被檢測(cè)的臉部區(qū)。
29.如權(quán)利要求28所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,圖像補(bǔ)片跟蹤還包括使用差的平方和(SSD)圖像補(bǔ)片跟蹤器識(shí)別所述至少一個(gè)被檢測(cè)的臉部區(qū)。
30.如權(quán)利要求28所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,圖像補(bǔ)片跟蹤還包括比較所述所得到的被檢測(cè)的臉部區(qū)的至少一部分與至少一個(gè)告警閾參數(shù),以確定是否要求關(guān)聯(lián)的系統(tǒng)初始化過(guò)程。
31.如權(quán)利要求28所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,在所述臉部的所述被檢測(cè)的第二部分內(nèi)檢測(cè)所述至少一個(gè)點(diǎn)還包括在所述至少一個(gè)被檢測(cè)的臉部區(qū)內(nèi)檢測(cè)至少一個(gè)關(guān)鍵面部部位。
32.如權(quán)利要求31所述的計(jì)算機(jī)可讀介質(zhì),還包括根據(jù)所述至少被檢測(cè)的關(guān)鍵面部部位確定所述用戶的精細(xì)頭部姿勢(shì)。
33.如權(quán)利要求31所述的計(jì)算機(jī)可讀介質(zhì),還包括根據(jù)與在所述至少一個(gè)被檢測(cè)的臉部區(qū)內(nèi)檢測(cè)所述至少一個(gè)關(guān)鍵面部部位相關(guān)聯(lián)的置信度信息,確定所述用戶的粗略頭部姿勢(shì)。
34.如權(quán)利要求33所述的計(jì)算機(jī)可讀的介質(zhì),還包括根據(jù)所述被檢測(cè)的關(guān)鍵面部部位和所述置信度信息,確定所述用戶的精細(xì)的頭部姿勢(shì)。
35.如權(quán)利要求33所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述粗略的頭部姿勢(shì)與至少一個(gè)頭部姿勢(shì)參數(shù)相關(guān)聯(lián),所述頭部姿勢(shì)參數(shù)是從一組由偏轉(zhuǎn)角、傾斜角、滾動(dòng)角、x平移、y平移和比例因數(shù)組成的頭部姿勢(shì)參數(shù)中選擇的。
36.如權(quán)利要求32所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,確定所述精細(xì)的頭部姿勢(shì)還包括使用至少一個(gè)估計(jì)器技術(shù)確定所述精細(xì)的頭部姿勢(shì),所述估計(jì)器技術(shù)是從一組由橢圓估計(jì)器技術(shù)和迭代的估計(jì)器技術(shù)組成的估計(jì)技術(shù)中選擇的。
37.如權(quán)利要求32所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,確定所述精細(xì)的頭部姿勢(shì)還包括使用至少一個(gè)基于視圖的姿勢(shì)估計(jì)技術(shù)確定所述精細(xì)的頭部姿勢(shì)。
38.如權(quán)利要求22所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述至少一個(gè)顯示器的所述至少兩個(gè)可選擇區(qū)域的至少一個(gè)包括,在圖形用戶界面(GUI)中的至少一個(gè)可操作地可選擇區(qū)域。
39.如權(quán)利要求22所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述至少兩個(gè)可選擇區(qū)域的每一個(gè)與不同計(jì)算機(jī)邏輯或不同計(jì)算機(jī)數(shù)據(jù)相關(guān)聯(lián)。
40.如權(quán)利要求22所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,自動(dòng)地可操作地在所述至少一個(gè)顯示設(shè)備的至少兩個(gè)可選擇區(qū)域之間切換還包括選擇性地使圖形定位設(shè)備在所述顯示設(shè)備上移動(dòng)。
41.如權(quán)利要求22所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,自動(dòng)地可操作地在所述至少一個(gè)顯示設(shè)備的所述至少兩個(gè)可選擇區(qū)域之間切換還包括選擇性地延遲自動(dòng)地可操作地在所述至少一個(gè)顯示設(shè)備的所述至少兩個(gè)可選擇區(qū)域之間切換。
42.一種與至少一個(gè)顯示設(shè)備和至少一個(gè)圖像拍攝設(shè)備配合使用的裝置,所述裝置包括顯示邏輯,可配置成輸出至少一個(gè)信號(hào),所述信號(hào)適合用于使顯示設(shè)備顯示至少兩個(gè)不同的可選擇區(qū)域;接口邏輯,可配置成從圖像拍攝設(shè)備接收?qǐng)D像數(shù)據(jù);以及姿勢(shì)估計(jì)邏輯,可操作地連接至所述顯示邏輯和所述接口邏輯,以及配置為根據(jù)第一圖像和根據(jù)在時(shí)間上在所述第一圖像之后的第二圖像確定第一頭部姿勢(shì)和至少一個(gè)第二頭部姿勢(shì),以及根據(jù)所述第一頭部姿勢(shì)與至少所述第二頭部姿勢(shì)之間的至少一個(gè)差異,自動(dòng)地可操作地在所述至少兩個(gè)可選擇區(qū)域之間切換操作的用戶輸入焦點(diǎn)。
43.如權(quán)利要求42所述的裝置,還包括可操作地連接至至少所述姿勢(shì)估計(jì)邏輯的存儲(chǔ)器,所述存儲(chǔ)器可配置成存儲(chǔ)所述第一圖像和所述第二圖像,其特征在于,所述第一圖像在第一時(shí)間拍攝用戶的臉部的至少第一部分,以及在第二接著發(fā)生的時(shí)間拍攝所述用戶的所述臉部的至少第二部分;以及其特征在于,所述姿勢(shì)估計(jì)邏輯還配置為訪問(wèn)所述第一圖像,在所述第一圖像內(nèi)檢測(cè)所述臉部的至少所述第一部分,在所述臉部的所述被檢測(cè)的第一部分內(nèi)檢測(cè)至少一個(gè)點(diǎn),以及將與在所述被檢測(cè)的第一部分內(nèi)所述至少一個(gè)點(diǎn)的每一個(gè)相關(guān)聯(lián)的第一跟蹤信息存儲(chǔ)到所述存儲(chǔ)器,以及訪問(wèn)所述第二圖像,在所述第二圖像內(nèi)跟蹤所述臉部的至少所述第二部分,在所述臉部的所述被檢測(cè)的第二部分內(nèi)檢測(cè)所述至少一個(gè)點(diǎn),以及將與所述被檢測(cè)的第二部分內(nèi)的所述至少一個(gè)點(diǎn)的每一個(gè)相關(guān)聯(lián)的第二跟蹤信息存儲(chǔ)到所述存儲(chǔ)器。
44.如權(quán)利要求43所述的裝置,其特征在于,所述姿勢(shì)估計(jì)邏輯還配置為,比較至少所述第一跟蹤信息與所述第二跟蹤信息,以確定關(guān)聯(lián)于所述用戶的估算的顯示設(shè)備視圖是否在所述第一時(shí)間至所述第二時(shí)間之間已經(jīng)改變,以及如果關(guān)聯(lián)于所述用戶所述估算的顯示設(shè)備視圖在所述第一時(shí)間至第二時(shí)間之間已經(jīng)改變,那么切換所述操作的用戶輸入焦點(diǎn)。
45.如權(quán)利要求43所述的裝置,其特征在于,所述姿勢(shì)估計(jì)邏輯還配置為,根據(jù)至少一個(gè)分類參數(shù),分類與所述第一圖像的圖像數(shù)據(jù)的多個(gè)部分的每一個(gè)部分,以確定至少一個(gè)關(guān)聯(lián)于所述臉部的所述第一部分的面部區(qū)域。
46.如權(quán)利要求45所述的裝置,所述姿勢(shì)估計(jì)邏輯還配置為,圖像補(bǔ)片在所述第二圖像的相應(yīng)的部分中跟蹤關(guān)聯(lián)于所述臉部的所述第一部分的所述面部區(qū)域,以識(shí)別至少一個(gè)被檢測(cè)的臉部區(qū)。
47.如權(quán)利要求46所述的裝置,其特征在于,所述姿勢(shì)估計(jì)邏輯包括差的平方和(SSD)圖像補(bǔ)片跟蹤器,以識(shí)別所述至少一個(gè)被檢測(cè)的臉部區(qū)。
48.如權(quán)利要求46所述的裝置,其特征在于,所述圖像補(bǔ)片跟蹤器比較至少所述所得到的被檢測(cè)的臉部區(qū)的一部分與至少一個(gè)告警閾參數(shù),以確定是否要求關(guān)聯(lián)的系統(tǒng)初始化過(guò)程。
49.如權(quán)利要求45所述的裝置,其特征在于,所述姿勢(shì)估計(jì)邏輯配置為,在所述至少一個(gè)被檢測(cè)的臉部區(qū)內(nèi)檢測(cè)至少一個(gè)關(guān)鍵面部部位以實(shí)施粗略的姿勢(shì)估計(jì)。
50.如權(quán)利要求49所述的裝置,其特征在于,所述姿勢(shì)估計(jì)邏輯配置為,根據(jù)所述被檢測(cè)的關(guān)鍵面部部位確定所述用戶的精細(xì)頭部姿勢(shì)。
51.如權(quán)利要求49所述的裝置,其特征在于,所述姿勢(shì)估計(jì)邏輯配置為,根據(jù)與在所述至少一個(gè)被檢測(cè)的臉部區(qū)內(nèi)檢測(cè)所述至少一個(gè)關(guān)鍵面部部位相關(guān)聯(lián)的置信度信息,確定所述用戶的粗略頭部姿勢(shì)。
52.如權(quán)利要求51所述的裝置,其特征在于,所述姿勢(shì)估計(jì)邏輯配置為,根據(jù)所述被檢測(cè)的關(guān)鍵面部部位和所述置信度信息,確定所述用戶的精細(xì)的頭部姿勢(shì)。
53.如權(quán)利要求51所述的裝置,其特征在于,所述粗略的頭部姿勢(shì)與至少一個(gè)頭部姿勢(shì)參數(shù)相關(guān)聯(lián),所述頭部姿勢(shì)參數(shù)是從一組由偏轉(zhuǎn)角、傾斜角、滾動(dòng)角、x平移、y平移和比例因數(shù)組成的頭部姿勢(shì)參數(shù)中選擇的。
54.如權(quán)利要求50所述的裝置,其特征在于,所述姿勢(shì)估計(jì)邏輯配置為,使用通過(guò)組合至少一個(gè)估計(jì)器技術(shù)的結(jié)果確定所述精細(xì)的頭部姿勢(shì),所述估計(jì)器技術(shù)是從一組由橢圓估計(jì)器技術(shù)和迭代的估計(jì)器技術(shù)組成的估計(jì)技術(shù)中選擇的。
55.如權(quán)利要求50所述的裝置,其特征在于,所述姿勢(shì)估計(jì)邏輯配置為,使用通過(guò)組合至少一個(gè)基于視圖的姿勢(shì)估計(jì)技術(shù)的結(jié)果確定所述精細(xì)的頭部姿勢(shì)。
56.一系統(tǒng)包括至少一個(gè)顯示設(shè)備;至少一個(gè)圖像拍攝設(shè)備;以及可操作地連接到所述顯示設(shè)備和所述圖像拍攝設(shè)備的計(jì)算設(shè)備,以及具有顯示邏輯,配置為輸出至少一個(gè)信號(hào),所述信號(hào)適合用于使顯示設(shè)備顯示至少兩個(gè)不同的可選擇區(qū)域,接口邏輯,配置為從圖像拍攝設(shè)備接收?qǐng)D像數(shù)據(jù),以及姿勢(shì)估計(jì)邏輯,配置為根據(jù)第一圖像和根據(jù)在時(shí)間上在所述第一圖像之后的第二圖像確定第一頭部姿勢(shì)和至少一個(gè)第二頭部姿勢(shì),以及根據(jù)所述第一頭部姿勢(shì)與至少所述第二頭部姿勢(shì)之間的一個(gè)差異,自動(dòng)地可操作地在所述至少兩個(gè)可選擇區(qū)域之間切換操作的用戶輸入焦點(diǎn)。
全文摘要
提供有效估算用戶臉部和頭部姿勢(shì)的改進(jìn),使得計(jì)算機(jī)或類似的設(shè)備可跟蹤用戶對(duì)顯示設(shè)備的關(guān)注。隨后用戶所轉(zhuǎn)向的顯示器或圖形用戶界面的區(qū)域會(huì)被自動(dòng)選擇,而不需要用戶提供更多的輸入。應(yīng)用正面臉部檢測(cè)器來(lái)檢測(cè)用戶的正面臉部,且隨后由部位檢測(cè)器檢測(cè)關(guān)鍵面部點(diǎn),諸如左/右眼中心、左/右嘴角、鼻尖等。系統(tǒng)然后由圖像跟蹤器跟蹤用戶的頭部,并按照關(guān)鍵面部點(diǎn)和/或姿勢(shì)估計(jì)器的置信度輸出,通過(guò)粗略到精細(xì)的過(guò)程來(lái)確定用戶頭部姿勢(shì)的偏轉(zhuǎn)、傾斜和滾動(dòng)的角度和其它姿勢(shì)信息。
文檔編號(hào)G06F3/033GK1573660SQ20041004746
公開(kāi)日2005年2月2日 申請(qǐng)日期2004年5月31日 優(yōu)先權(quán)日2003年5月30日
發(fā)明者Y·胡, L·張, M·李, H·-J·張 申請(qǐng)人:微軟公司