用于姿勢識(shí)別的部位和狀態(tài)檢測的制作方法
【專利說明】用于姿勢識(shí)別的部位和狀態(tài)檢測
[0001] Μ?
[0002] 用于人機(jī)交互、計(jì)算機(jī)游戲和其它應(yīng)用的姿勢識(shí)別難以達(dá)到準(zhǔn)確和實(shí)時(shí)。許多姿 勢,諸如那些用人手作出的,是細(xì)節(jié)的并且難以互相區(qū)分。同樣,用于捕捉姿勢的圖像的設(shè) 備可能是嘈雜和易于出錯(cuò)的。
[0003] -些先前的方法已經(jīng)在游戲玩家的圖像中標(biāo)識(shí)了身體各部位并隨后,在分開的階 段,使用身體各部位計(jì)算身體各部位的3D空間坐標(biāo)以形成玩家的骨架模型。該方法可能是 計(jì)算密集的并且可能易于出錯(cuò),其中身體部位標(biāo)識(shí)不穩(wěn)健。例如,當(dāng)發(fā)生身體部位遮擋時(shí), 其中非尋常的關(guān)節(jié)角發(fā)生或歸因于身體大小和形狀改變。
[0004] 其它先前的方法通過縮放和旋轉(zhuǎn)圖像來匹配所存儲(chǔ)的對(duì)象模板來使用模板匹配。 這些類型的方法涉及大的計(jì)算能力和存儲(chǔ)容量。
[0005] 以下描述的各實(shí)施例不限于解決已知姿勢識(shí)別系統(tǒng)的缺點(diǎn)中的任一個(gè)或全部的 實(shí)現(xiàn)。
【發(fā)明內(nèi)容】
[0006] 下面呈現(xiàn)了本發(fā)明的簡要概述,以便向讀者提供基本理解。本概述不是本公開的 窮盡概覽,并且不標(biāo)識(shí)本發(fā)明的關(guān)鍵/重要元素或描述本說明書的范圍。其唯一的目的是 以簡化形式呈現(xiàn)此處所公開的精選概念,作為稍后呈現(xiàn)的更詳細(xì)的描述的序言。
[0007] 用于姿勢識(shí)別的部位和狀態(tài)檢測對(duì)人機(jī)交互、計(jì)算機(jī)游戲,和實(shí)時(shí)識(shí)別姿勢的其 它應(yīng)用是有用的。在各種實(shí)施例中,使用決策森林分類器以部位和狀態(tài)標(biāo)記兩者來給輸入 圖像的圖像元素加標(biāo)記,其中部位標(biāo)記標(biāo)識(shí)可變形對(duì)象的組件(諸如指尖、手掌、手腕、唇、 筆記本電腦蓋),并且其中狀態(tài)標(biāo)記標(biāo)識(shí)可變形對(duì)象的配置(諸如打開、關(guān)閉、上、下、張開、 握緊)。在各實(shí)施例中,部位標(biāo)記被用于計(jì)算身體各部位的重心,且部位標(biāo)記、重心和狀態(tài)標(biāo) 記被用于實(shí)時(shí)或接近實(shí)時(shí)地識(shí)別姿勢。
[0008] 通過結(jié)合附圖參考以下詳細(xì)描述,可易于領(lǐng)會(huì)并更好地理解許多附帶特征。
[0009] 附圖簡沐
[0010] 根據(jù)附圖閱讀以下【具體實(shí)施方式】,將更好地理解本發(fā)明,在附圖中:
[0011] 圖1是使用傳統(tǒng)鍵盤輸入、空中姿勢和鍵盤上姿勢來操作桌面計(jì)算系統(tǒng)的用戶的 示意圖;
[0012] 圖2是圖1的捕捉系統(tǒng)和計(jì)算設(shè)備的示意圖;
[0013] 圖3是姿勢識(shí)別的方法的流程圖;
[0014] 圖4是生成訓(xùn)練數(shù)據(jù)的裝置的示意圖;
[0015] 圖5是隨機(jī)決策森林的示意圖;
[0016] 圖6是存儲(chǔ)在隨機(jī)決策樹的葉節(jié)點(diǎn)處的概率分布的示意圖;
[0017] 圖7是存儲(chǔ)在隨機(jī)決策樹的葉節(jié)點(diǎn)處的兩個(gè)概率分布的示意圖;
[0018] 圖8是用于分類部位和狀態(tài)的第一第二階段隨機(jī)決策森林的示意圖;
[0019] 圖9是在測試時(shí)使用經(jīng)訓(xùn)練的隨機(jī)決策森林的方法的流程圖;
[0020] 圖10是訓(xùn)練隨機(jī)決策森林的方法的流程圖;
[0021] 圖11示出可在其中實(shí)現(xiàn)姿勢識(shí)別系統(tǒng)的實(shí)施例的示例性的基于計(jì)算的設(shè)備。
[0022] 在各個(gè)附圖中使用相同的附圖標(biāo)記來指代相同的部件。
【具體實(shí)施方式】
[0023] 下面結(jié)合附圖提供的詳細(xì)描述旨在作為本發(fā)明示例的描述,并不旨在表示可以構(gòu) 建或使用本發(fā)明示例的唯一形式。本描述闡述了本發(fā)明示例的功能,以及用于構(gòu)建和操作 本發(fā)明示例的步驟的序列。然而,可以通過不同的示例來實(shí)現(xiàn)相同或等效功能和序列。
[0024] 雖然在本文中將本發(fā)明的示例描述并示出為用于人手的部位和狀態(tài)識(shí)別系統(tǒng)中 實(shí)現(xiàn),但所描述的系統(tǒng)只是作為示例而非限制來提供的。本領(lǐng)域的技術(shù)人員將會(huì)理解,本 示例適于應(yīng)用于各種不同類型的部位和狀態(tài)識(shí)別系統(tǒng),包括但不限于完全身體姿勢識(shí)別系 統(tǒng)、手和臂姿勢識(shí)別系統(tǒng)、面部姿勢識(shí)別系統(tǒng)和用于識(shí)別關(guān)節(jié)連接的對(duì)象、可變形對(duì)象或靜 態(tài)對(duì)象的部位和狀態(tài)的系統(tǒng)。做出要被識(shí)別的姿勢的實(shí)體可以是人、動(dòng)物、植物或其它對(duì)象 (可以是或者不是活的),諸如膝上計(jì)算機(jī)。
[0025] 描述了部位和狀態(tài)識(shí)別系統(tǒng),其包括被訓(xùn)練來針對(duì)部位和狀態(tài)兩者分類圖像的圖 像元素的隨機(jī)決策森林。例如,人手和前臂的深度圖像的實(shí)況視頻饋送被實(shí)時(shí)處理,以檢測 諸如指尖、手掌、手腕、前臂的各部位,并且還檢測諸如握緊、張開、上、下的狀態(tài)。在一些示 例中,部位和狀態(tài)標(biāo)記被經(jīng)訓(xùn)練的森林同時(shí)分派。這可被用作姿勢識(shí)別系統(tǒng)的一部分,用于 控制基于計(jì)算的設(shè)備,如現(xiàn)在參照?qǐng)D1描述的。然而,這是一個(gè)示例;部位和狀態(tài)識(shí)別功能 可被用于其它類型的姿勢識(shí)別或者用于識(shí)別可改變配置的對(duì)象(諸如膝上計(jì)算機(jī))或靜態(tài) 對(duì)象(可改變它們相對(duì)于視點(diǎn)的朝向)的部位和狀態(tài)。
[0026] 首先參考圖1,圖1示出了用于控制基于計(jì)算的設(shè)備102的示例控制系統(tǒng)100。在 此示例中,控制系統(tǒng)100允許基于計(jì)算的設(shè)備102由傳統(tǒng)輸入設(shè)備(例如鼠標(biāo)和鍵盤)和 手部姿勢控制。所支持的手部姿勢可以是觸摸手部姿勢、空中姿勢或其組合。"觸摸手部姿 勢"可以是一只或多只手在與表面接觸時(shí)的任何預(yù)定義的移動(dòng)。表面可以包括或不包括觸 摸傳感器。"空中姿勢"可以是一只或多只手在空中時(shí)(一只或多只手沒有接觸表面)的任 何預(yù)定義的移動(dòng)。
[0027] 通過整合控制的兩個(gè)模式,用戶以便于使用的方式體驗(yàn)了每種控制模式的益處。 具體而言,許多基于計(jì)算的設(shè)備102的行為被調(diào)整到傳統(tǒng)輸入(例如,鼠標(biāo)和鍵盤),特別是 那些需要廣泛的創(chuàng)作、編輯或細(xì)化的操縱,諸如文檔撰寫、編碼、創(chuàng)建演示或圖形設(shè)計(jì)任務(wù)。 然而,存在這些任務(wù)的各元素,諸如模式轉(zhuǎn)換、窗口和任務(wù)管理、菜單選擇和特定類型的導(dǎo) 航,它們被卸載到快捷方式和輔助按鍵或上下文菜單(可使用諸如觸摸手部姿勢和/或空 中手部姿勢的其它控制方式更容易地實(shí)現(xiàn))。
[0028] 圖1所示的基于計(jì)算的設(shè)備102是傳統(tǒng)的桌面計(jì)算機(jī),具有分開的處理器組件104 和顯示屏106 ;然而,在此描述的方法和系統(tǒng)同樣可以應(yīng)用到處理器組件104和顯示屏106 為集成的(諸如膝上計(jì)算機(jī)或平板計(jì)算機(jī))基于計(jì)算的設(shè)備102。
[0029] 控制系統(tǒng)100還包括諸如鍵盤的輸入設(shè)備108,其與基于計(jì)算的設(shè)備通信以允許 用戶通過傳統(tǒng)方式控制基于計(jì)算的設(shè)備102 ;捕捉設(shè)備110 (例如,輸入設(shè)備108),用于檢測 用戶手部相對(duì)于環(huán)境中的參照物的位置和移動(dòng);以及用于解釋從捕捉設(shè)備110獲得的信息 以控制基于計(jì)算的設(shè)備102的軟件(未示出)。在一些示例中,用于解釋來自捕捉設(shè)備110 的信息的軟件的至少一部分被集成到捕捉設(shè)備110。在其它示例中,軟件被集成或加載到基 于計(jì)算的設(shè)備102。在其它示例中,軟件位于與基于計(jì)算的設(shè)備102諸如通過因特網(wǎng)進(jìn)行通 信的另一個(gè)實(shí)體處。
[0030] 在圖1中,捕捉設(shè)備110安裝在上方并向下指著用戶的工作表面112。然而,在其 它示例中,捕捉設(shè)備110可被安裝在參照物(例如,鍵盤)或環(huán)境中的另一個(gè)合適的對(duì)象之 中或之上。
[0031] 在操作中,可以使用捕捉設(shè)備110相對(duì)于參照物(例如,鍵盤)跟蹤用戶的手,以 使得用戶手的位置和移動(dòng)可以被基于計(jì)算的設(shè)備1〇2(和/或捕捉設(shè)備110)解釋為可用于 控制由基于計(jì)算的設(shè)備102執(zhí)行的應(yīng)用的觸摸手部姿勢和/或空中手部姿勢。結(jié)果,除了 能夠通過傳統(tǒng)的輸入(例如,鍵盤和鼠標(biāo))來控制基于計(jì)算的設(shè)備102之外,用戶可通過以 預(yù)定義的方式或模式在參照物(例如,鍵盤)上或上方移動(dòng)他或她的手來控制基于計(jì)算的 設(shè)備102。
[0032] 因此,圖1的控制系統(tǒng)100能夠識(shí)別在參照物(例如,鍵盤)上和圍繞參照物的觸 摸以及在參照物上方的空中姿勢。
[0033] 現(xiàn)在參考圖2,示出了可在圖1的控制系統(tǒng)100中使用的捕捉設(shè)備110的示意圖。 圖2中的捕捉設(shè)備110的位置只是一個(gè)示例。可使用捕捉設(shè)備的其它位置,諸如在桌面上 向上看或其它位置。捕捉設(shè)備110包括至少一個(gè)用于捕捉用戶的手的圖像流的成像傳感器 202。成像傳感器202可以是任何深度相機(jī)、RGB相機(jī)、捕捉或產(chǎn)生輪廓圖像的成像傳感器 中的一個(gè)或多個(gè),其中輪廓圖像描繪對(duì)象的外形。成像傳感器202可以是被安排成捕捉場 景的深度信息的深度相機(jī)。深度信息可以是包括深度值的深度圖像的形式,即深度值是與 深度圖像的每個(gè)圖像元素相關(guān)聯(lián)的值,該值和該深度相機(jī)和由該圖像元素描繪的項(xiàng)目或物 體之間的距離有關(guān)。
[0034] 深度信息可以使用任何合適的技術(shù)獲得,包括例如飛行時(shí)間、結(jié)構(gòu)化光、立體圖像 等。
[0035]