式,包括一個(gè)或多個(gè)矩陣,其中所述矩陣除了時(shí)間解析的數(shù)字音頻數(shù)據(jù)之外還包括由深度攝像機(jī)所成像的每個(gè)像素的X ,,Z坐標(biāo),彩色攝像機(jī)所成像的每個(gè)像素的藍(lán)色、紅色、綠色通道值。
[0023]如上文所描述的,深度攝像機(jī)12可自然地應(yīng)用于觀察人。這部分是由于它們甚至在主體移動(dòng)的情況下和甚至在主體(或者主體的任何部分)的運(yùn)動(dòng)是平行于攝像機(jī)的光學(xué)軸的情況下解析人類(lèi)主體輪廓的能力。通過(guò)在計(jì)算機(jī)14或者在深度攝像機(jī)本身中的專用的邏輯架構(gòu),該能力被支持、加強(qiáng)和擴(kuò)展??傊?,計(jì)算機(jī)被配置來(lái)處理從深度攝像機(jī)所接收的深度數(shù)據(jù),以及被配置來(lái)計(jì)算在深度數(shù)據(jù)中所發(fā)現(xiàn)的任何人類(lèi)主體的某些方面。在一個(gè)實(shí)施例中,深度數(shù)據(jù)可以從多個(gè)深度攝像機(jī)接收,所述多個(gè)深度攝像機(jī)提供環(huán)境的對(duì)應(yīng)的多個(gè)視場(chǎng)(field of view)。在這樣的實(shí)施例中,計(jì)算機(jī)可以被配置用于深度視頻的復(fù)雜處理,比如從一個(gè)視場(chǎng)到另一個(gè)視場(chǎng)來(lái)跟蹤人類(lèi)主體。
[0024]圖4中的圖表總結(jié)了人類(lèi)主體的特定的方面,其可以通過(guò)對(duì)深度數(shù)據(jù)的適當(dāng)處理而被揭示。圖表具有三列,其中增加復(fù)雜度的方面出現(xiàn)在每一列的更下面的位置。相應(yīng)地,給定方面的確定可以要求在其直接上方的方面的在前確定。
[0025]可以從深度數(shù)據(jù)中揭示的人類(lèi)主體的最基本的方面是在由深度數(shù)據(jù)所成像的環(huán)境中主體的僅僅的存在48。通過(guò)適當(dāng)?shù)纳疃葓D像處理,深度圖的給定的地點(diǎn)(locus)可以被識(shí)別為屬于人類(lèi)主體(與某個(gè)其他物體相反,例如,家具、墻套、貓)。在一個(gè)實(shí)施例中,屬于人類(lèi)主體的像素通過(guò)切離(sect1n off)展示門(mén)限以上運(yùn)動(dòng)的深度數(shù)據(jù)的部分以及通過(guò)嘗試將該部分與一個(gè)人的一般化的幾何模型相適配(fit)來(lái)識(shí)別。如果合適的適配可以被達(dá)成,然后像素被識(shí)別為人類(lèi)主體的那些像素。在其他實(shí)施例中,人類(lèi)主體可以單獨(dú)通過(guò)輪廓來(lái)被查找,而不管運(yùn)動(dòng)。
[0026]人類(lèi)主體的另一個(gè)方面是他的或她的位置50。在深度攝像機(jī)被放置在已知的坐標(biāo)并且以已知的方向來(lái)對(duì)準(zhǔn)的情況下,人類(lèi)主體的位置可以被表示在合適的坐標(biāo)系統(tǒng)中,例如,3D坐標(biāo)系統(tǒng)。即使深度攝像機(jī)的坐標(biāo)和/或?qū)?zhǔn)是可變化的,邏輯系統(tǒng)38也可以被配置來(lái)基于由深度攝像機(jī)所觀測(cè)的一個(gè)或多個(gè)固定的對(duì)象的圖像來(lái)計(jì)算它們。如上文中所指出的,智能系統(tǒng)24可以包括在環(huán)境中的相同房間或者不同的房間中的多個(gè)深度攝像機(jī)。相應(yīng)地,人類(lèi)主體被表示在其上的坐標(biāo)系統(tǒng)可以由深度攝像機(jī)中的兩個(gè)或多個(gè)來(lái)共同地共享。在一個(gè)實(shí)施例中,坐標(biāo)系統(tǒng)可以由在環(huán)境中的全部深度攝像機(jī)來(lái)全局地共享。
[0027]人類(lèi)主體的另一個(gè)方面是相對(duì)于在環(huán)境中的另一個(gè)人類(lèi)主體的位置的他的或她的位置52。例如,一個(gè)人A可以在一個(gè)人B之上,在一個(gè)人B之下,在離一個(gè)人B五英尺遠(yuǎn),在相同的房間,在不同的房間等。在多個(gè)人類(lèi)主體在其中被同時(shí)發(fā)現(xiàn)的場(chǎng)景中,邏輯系統(tǒng)38可以被配置來(lái)揭示在主體中的詳細(xì)的布置一例如,三個(gè)人在房間的一側(cè),兩個(gè)人在房間的其他側(cè),一個(gè)人在不同的房間。
[0028]人類(lèi)主體的另一個(gè)方面是其尺寸和形狀方面的表征54。在一些實(shí)施例中,被用來(lái)發(fā)現(xiàn)人類(lèi)主體的適配過(guò)程可以是基于骨架的,如下文中所描述的。相應(yīng)地,適配可以產(chǎn)生用于人類(lèi)主體的估計(jì)的骨架度量,諸如腿部、手臂或者軀干長(zhǎng)度、整體的身體高度和/或跨臀部的寬度。在一些實(shí)施例中,智能系統(tǒng)24可以獲取在發(fā)現(xiàn)的人類(lèi)主體的地點(diǎn)的亮度或彩色圖像數(shù)據(jù)。通過(guò)連同深度數(shù)據(jù)一起處理這樣的數(shù)據(jù),邏輯系統(tǒng)38可以提供在頭發(fā)色彩和/或面部特征方面的人類(lèi)主體的進(jìn)一步的表征。如果來(lái)自麥克風(fēng)28的話音數(shù)據(jù)也是可用的,則表征54可以進(jìn)一步包括人類(lèi)主體的話音識(shí)別。
[0029]人類(lèi)主體的另一個(gè)方面是他的或她的作為特定個(gè)人的身份56—例如,已知或者預(yù)期在環(huán)境10中存在的一個(gè)人。已知的人類(lèi)主體可以包括環(huán)境的居民一諸如母親、父親、晚輩以及祖父等之類(lèi)的家庭成員。已知的人類(lèi)主體的身體度量或者其他特征(例如,口語(yǔ)、話音音調(diào)、頭發(fā)色彩和/或面部特征)可以被存儲(chǔ)在計(jì)算機(jī)14中的或者網(wǎng)絡(luò)16上的數(shù)據(jù)庫(kù)中。在新的人類(lèi)主體被表征之后,在邏輯系統(tǒng)38中所包括的匹配過(guò)程可以在所存儲(chǔ)的數(shù)據(jù)中搜索與新近表征的人類(lèi)主體的匹配,并且因此嘗試去識(shí)別人類(lèi)主體。在一些實(shí)施例中,更一般的身份可以被應(yīng)用于不能在數(shù)據(jù)庫(kù)中為之查找到匹配的任何人類(lèi)主體一例如,訪客或者入侵者??商鎿Q地或者附加地,人類(lèi)主體可以經(jīng)由諸如移動(dòng)電話、射頻標(biāo)識(shí)(RFID)標(biāo)簽或者視覺(jué)可讀標(biāo)簽之類(lèi)的可穿戴標(biāo)記(marker)來(lái)被識(shí)別。在又其他的實(shí)施例中,人類(lèi)主體可以自我識(shí)別一例如通過(guò)宣布他的或她的名字。
[0030]人類(lèi)主體的另一個(gè)方面是他的或她的姿勢(shì)58。在骨架適配方法在其中被用來(lái)查找人類(lèi)主體和/或在尺寸和形狀方面表征人類(lèi)主體的實(shí)施例中,在骨架的各種不同的關(guān)節(jié)處所形成的角度可以定義人類(lèi)主體的整體姿勢(shì)一例如,站立或者躺下、雙腿交叉地坐下、折起的手臂等。
[0031]在上文中所總結(jié)的方面是靜態(tài)的方面,其原則上可以在靜止深度數(shù)據(jù)中被獲取。人類(lèi)主體的其他方面可以在深度圖像的時(shí)間解析序列(即,深度視頻)中被揭示。這對(duì)于手勢(shì)60而言是真是的,其可以被定義為姿勢(shì)的變化或者被定義為由人類(lèi)主體所做出的不同姿勢(shì)的序列。手勢(shì)的一個(gè)示例是將手部抬起超過(guò)一個(gè)人的頭部,其包括手部放下的初始姿勢(shì)、將手臂抬起的最終姿勢(shì)并且其可以包括手部?jī)H僅是部分抬起的一個(gè)或多個(gè)介入姿勢(shì)。使用深度視頻作為手勢(shì)識(shí)別基礎(chǔ)的一個(gè)優(yōu)勢(shì)在于,即使當(dāng)定義手勢(shì)的運(yùn)動(dòng)是與攝像機(jī)的光學(xué)軸平行時(shí),手勢(shì)也可以被識(shí)別。
[0032]在非常精確的深度數(shù)據(jù)是可用的場(chǎng)合,甚至姿勢(shì)中相當(dāng)微妙的改變可以被解析,比如當(dāng)人吸氣并且然后呼氣時(shí)發(fā)生的骨架的變化。因此,在當(dāng)前上下文中,呼吸是可檢測(cè)的手勢(shì)。類(lèi)似地,非常精確的麥克風(fēng)的輸入可以使得能夠檢測(cè)人的心跳。相應(yīng)地,心臟速率和呼吸速率兩者都是人類(lèi)主體的方面,它們可以經(jīng)由合適裝備的智能系統(tǒng)24而被詢問(wèn)。
[0033]人類(lèi)主體的另一個(gè)方面是動(dòng)作62,其可以被定義為由主體所做出的一系列的可識(shí)別的手勢(shì)。一個(gè)示例動(dòng)作是洗一個(gè)人的手。這個(gè)動(dòng)作可以根據(jù)其組成手勢(shì)來(lái)被定義,其最小地可以包括到達(dá)水龍頭方向、在一起摩擦一個(gè)人的雙手,以及再次到達(dá)龍頭的方向。
[0034]人類(lèi)主體的又另一個(gè)方面是行為模式64。行為模式可以被定義為由人類(lèi)主體以某個(gè)順序所施行和/或以某個(gè)頻率所重復(fù)的一個(gè)動(dòng)作或者動(dòng)作的序列。與上文描述相一致,洗一個(gè)人的手以及喂小孩兩者都是動(dòng)作。在喂小孩之前洗一個(gè)人的手是可識(shí)別的行為模式;一天五次洗一個(gè)人的手也是可識(shí)別的行為模式。
[0035]上文所描述的非限制的示例配置使得能夠?qū)崿F(xiàn)用于環(huán)境中的趨勢(shì)評(píng)估、規(guī)則一致性以及可自主啟動(dòng)的硬件的控制的各種不同的方法。作為示例,繼續(xù)參考上文的配置,現(xiàn)在描述一些這樣的方法。但是,將被理解的是,本文所描述的方法和在本公開(kāi)的范圍內(nèi)的其他方法也可以由不同的配置實(shí)現(xiàn)。涉及在人們的日常生活中對(duì)其觀察的本文的方法可以以及應(yīng)該以對(duì)個(gè)人隱私的最大的尊重來(lái)使用。相應(yīng)地,本文所提出的方法可以完全與正在被觀察的人們的選擇參與相兼容。在個(gè)人數(shù)據(jù)在本地計(jì)算機(jī)上收集并被傳送到遠(yuǎn)程計(jì)算機(jī)以供處理的實(shí)施例中,該數(shù)據(jù)可以以已知的方式來(lái)匿名化。在其他實(shí)施例中,個(gè)人數(shù)據(jù)可以被限制在本地計(jì)算機(jī)中,僅僅非個(gè)人的摘要數(shù)據(jù)被發(fā)送到遠(yuǎn)程計(jì)算機(jī)。
[0036]圖5圖示了用于在環(huán)境中評(píng)估規(guī)則一致性的示例方法66。該方法可以經(jīng)由智能系統(tǒng)來(lái)被做出,所述智能系統(tǒng)包括如上文所描述的計(jì)算機(jī)。在方法66的68處,在計(jì)算機(jī)14的邏輯系統(tǒng)中定義規(guī)則。本文所使用的“規(guī)則”是來(lái)自圖4的任何方面的任何預(yù)期的規(guī)范(norm)。對(duì)于相同環(huán)境中的不同的個(gè)人,規(guī)則可以是不同的。與規(guī)則“偏離”是離開(kāi)預(yù)期的規(guī)范。在一個(gè)實(shí)施例中,規(guī)則可以由環(huán)境的管理員定義。管理員可以經(jīng)由計(jì)算機(jī)的任何可用的輸入機(jī)制(例如,如本文所描述的鍵盤(pán)、鼠標(biāo)或者自然輸入組件(NIC))來(lái)輸入規(guī)則。在一個(gè)實(shí)施例中,規(guī)則可以與環(huán)境中的一個(gè)或多個(gè)人的健康相關(guān)。在另一個(gè)實(shí)施例中,規(guī)則可以與環(huán)境中的安全性和/或個(gè)人安全相關(guān)。例如,規(guī)則可以指示未識(shí)別的人不允許在環(huán)境中。同樣地,給定的規(guī)則可以應(yīng)用于環(huán)境中的一個(gè)人類(lèi)主體(例如,訪客或者識(shí)別的人),但是不應(yīng)用于另一個(gè)人類(lèi)主體(例如,識(shí)別的家庭成員)。
[0037]在70處,深度數(shù)據(jù)從智能系統(tǒng)的一個(gè)或多個(gè)深度攝像機(jī)獲取,其可操作地被耦合到計(jì)算機(jī)。在72處,其他傳感數(shù)據(jù)可選地被獲取,例如,來(lái)自彩色攝像機(jī)、麥克風(fēng)或者運(yùn)動(dòng)傳感器的數(shù)據(jù)。在74處,一個(gè)或多個(gè)人類(lèi)主體在深度數(shù)據(jù)中被發(fā)現(xiàn)。
[0038]在一個(gè)特定的實(shí)施例中,計(jì)算機(jī)14可以分析深度數(shù)據(jù)以便將人類(lèi)主體從非人類(lèi)主體和背景中區(qū)分開(kāi)。為此,可以將個(gè)人索引指派給深度圖的每個(gè)像素,所述個(gè)人索引將像素識(shí)別為對(duì)特定人類(lèi)主體或者非人類(lèi)元素的成像。作為示例,可以將等于I的個(gè)人索引指派給對(duì)應(yīng)于第一個(gè)人的像素,可以將等于2的個(gè)人索引指派給對(duì)應(yīng)于第二個(gè)人的像素,可以將等于O的個(gè)人索引指派給不與人類(lèi)主體相對(duì)應(yīng)的像素。個(gè)人索引可以被以任何合適的方式確定、指派以及保存。
[0039]計(jì)算機(jī)14可以進(jìn)一步分析被認(rèn)為揭示人類(lèi)主體的深度圖的像素,以便確定每個(gè)像素對(duì)應(yīng)于主體的身體的什么部分。多種不同的身體部分指派技術(shù)可以被用于這一點(diǎn)。例如,可以將身體部分索引指派給具有適當(dāng)?shù)膫€(gè)人索引的深度圖的每個(gè)像素。身體部分索引可以包括離散的標(biāo)識(shí)符、置信度值和/或指示像素可能對(duì)其進(jìn)行成像的一個(gè)或多個(gè)身體部分的身體部分概率分布。身體部分索引可以被以任何合適的方式確定、指派以及保存。
[0040]在非限制的示例中,機(jī)器學(xué)習(xí)可以被用來(lái)為每個(gè)像素指派身體部分索引和/或身體部分概率分布。機(jī)器學(xué)習(xí)方法使用從之前訓(xùn)練的已知姿態(tài)集合所學(xué)習(xí)的信息來(lái)分析人類(lèi)主體。在監(jiān)督訓(xùn)練階段,例如,多種不同的人們以各種各樣的不同姿態(tài)而被觀察,訓(xùn)練者提供地面實(shí)況(ground truth)注釋(annotat1n),其在觀察的數(shù)據(jù)中標(biāo)注不同的機(jī)器學(xué)習(xí)分類(lèi)器。觀察的數(shù)據(jù)和注釋被用來(lái)生成將輸入(例如,來(lái)自深度攝像機(jī)的觀察數(shù)據(jù))映射到期望的輸出(例如,用于相關(guān)像素的身體部分索引)的一個(gè)或多個(gè)機(jī)器學(xué)習(xí)算法。[0041 ] 在一些實(shí)施例中,虛擬骨架適配于被認(rèn)為對(duì)應(yīng)于人類(lèi)主體的深度數(shù)據(jù)的像素。圖6示出了在一個(gè)實(shí)施例中的示例虛擬骨架76。虛擬骨架包括在多個(gè)關(guān)節(jié)80處被可樞軸轉(zhuǎn)動(dòng)地(pivotally)親合的多個(gè)骨架段78。在一些實(shí)施例中,身體部分標(biāo)號(hào)(designat1n)可以被指派給任何骨架段和/或每個(gè)關(guān)節(jié)。在圖6中,每個(gè)骨架段78的身體部分標(biāo)號(hào)由所附的字母來(lái)表示:A用于頭部、B用于鎖骨、C用于上臂、D用于前臂、E用于手部、F用于軀干、G用于骨盆、H