專利名稱:基于機(jī)器的手語翻譯器的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)系統(tǒng),尤其涉及計(jì)算機(jī)實(shí)現(xiàn)的語言翻譯系統(tǒng)。
背景技術(shù):
已經(jīng)在眾多不同的上下文中開發(fā)了語言翻譯系統(tǒng)。存在這樣的技術(shù),其基于選擇被顯示的特定意思或單詞,用于將書面語言從一種語言翻譯到另一種,以及向用戶顯示手語動(dòng)作。公開了為了控制例如游戲的計(jì)算機(jī)界面,使用例如照相機(jī)的多個(gè)傳感器以檢測(cè)動(dòng)作和姿勢(shì)的系統(tǒng)。
發(fā)明內(nèi)容
提供了將手語(姿勢(shì)的通信)譯成書面或聽覺形式的通信的技術(shù)。檢測(cè)用戶的姿勢(shì)(通常使用手),并且檢測(cè)到的姿勢(shì)被與手勢(shì)匹配。連續(xù)的手勢(shì)被檢測(cè)并且與語法庫(kù)比較以確定分配給姿勢(shì)的手勢(shì)相對(duì)于彼此以及語法上下文是否是有意義的。在一個(gè)實(shí)施例中, 提供了用于翻譯手語的計(jì)算機(jī)實(shí)現(xiàn)的方法。拍攝設(shè)備拍攝包括人物目標(biāo)的場(chǎng)景,并且跟蹤了在場(chǎng)景內(nèi)用戶身體部分的動(dòng)作(尤其是手)。姿勢(shì)被檢測(cè)并且與和詞匯庫(kù)中手語手勢(shì)相匹配的姿勢(shì)比較。可以將每個(gè)手勢(shì)與以前的和連續(xù)的手勢(shì)比較以確定手勢(shì)相對(duì)于彼此是否是有意義的。還可以進(jìn)一步將手勢(shì)與用戶人口統(tǒng)計(jì)信息和上下文數(shù)據(jù)庫(kù)比較以驗(yàn)證翻譯的準(zhǔn)確性。提供了動(dòng)作和手勢(shì)之間的匹配的輸出。提供本發(fā)明內(nèi)容以便用一種簡(jiǎn)單的形式介紹將在以下詳細(xì)描述中進(jìn)一步描述的一些概念。本發(fā)明內(nèi)容不旨在確定所要求保護(hù)的主題的關(guān)鍵或必要特征,也不旨在用于幫助確定所要求保護(hù)的主題的范圍。
圖IA和IB示出用戶玩游戲的跟蹤系統(tǒng)的示例實(shí)施例。圖2示出可以用作跟蹤系統(tǒng)的部分的拍攝設(shè)備的示例實(shí)施例。圖3描述可以用于跟蹤姿勢(shì)以及基于跟蹤到的姿勢(shì)執(zhí)行應(yīng)用程序的處理設(shè)備的示例。圖4示出可以用于跟蹤動(dòng)作以及基于跟蹤到的動(dòng)作更新應(yīng)用程序的計(jì)算系統(tǒng)的第二個(gè)示例實(shí)施例。圖5A-5D是美國(guó)手語(ASL)的各種視覺手勢(shì)的表示。圖6A和6B是在不同上下文中采用的美國(guó)手勢(shì)的各種視覺手勢(shì)的表示。圖7是示出依照本技術(shù)的方法的流程圖。圖8是示出將姿勢(shì)與已知手勢(shì)庫(kù)比較的方法的流程圖。圖9是示出將手勢(shì)與相鄰手勢(shì)比較的方法的流程圖。圖10A-10E是用于用戶的姿勢(shì)識(shí)別器和骨骼跟蹤模型的表示。
圖11-12示出在本技 術(shù)的系統(tǒng)中使用的示例性顯示輸出和用戶界面。
具體實(shí)施例方式提供了用于基于用戶的姿勢(shì)以執(zhí)行手語翻譯的技術(shù)。拍攝設(shè)備用于檢測(cè)用戶的動(dòng)作,并且檢測(cè)到的姿勢(shì)被與手勢(shì)匹配。連續(xù)的手勢(shì)被檢測(cè)并且與語法庫(kù)比較以確定分配給姿勢(shì)的手勢(shì)相對(duì)于彼此以及詞匯上下文是否是有意義的??梢詫⒚總€(gè)手勢(shì)與以前的和連續(xù)的手勢(shì)比較以確定手勢(shì)相對(duì)于彼此是否是有意義的。還可以進(jìn)一步將手勢(shì)與用戶人口統(tǒng)計(jì)信息和上下文數(shù)據(jù)庫(kù)比較以驗(yàn)證翻譯的準(zhǔn)確性。提供了動(dòng)作和手勢(shì)之間的匹配的輸出。圖IA示出可以與本技術(shù)一起使用的系統(tǒng)10的示例實(shí)施例。示例性跟蹤和翻譯系統(tǒng)10的一個(gè)用途是用戶18在玩游戲。替代地,如此處所述,系統(tǒng)可以用于在用戶姿勢(shì)被識(shí)別為一個(gè)或更多手語的手勢(shì)時(shí)來翻譯和解釋手語。圖IA中的示例是用戶玩拳擊游戲。在示例實(shí)施例中,系統(tǒng)10可以用于識(shí)別、分析和/或跟蹤諸如用戶18的人物目標(biāo)或在跟蹤系統(tǒng)10范圍內(nèi)的其它對(duì)象。跟蹤系統(tǒng)10可以包括計(jì)算系統(tǒng)12。計(jì)算系統(tǒng)12可以是計(jì)算機(jī)、游戲系統(tǒng)、或游戲控制臺(tái)、等等。根據(jù)示例實(shí)施例,計(jì)算系統(tǒng)12可以包括硬件組件和/或軟件組件,以使得計(jì)算系統(tǒng)12可以用于執(zhí)行諸如游戲應(yīng)用程序、非游戲應(yīng)用程序等的應(yīng)用程序。在一個(gè)實(shí)施例中,計(jì)算系統(tǒng)12可以包括諸如標(biāo)準(zhǔn)處理器、專用處理器、微處理器等的處理器,該處理器可以執(zhí)行存儲(chǔ)在處理器可讀存儲(chǔ)設(shè)備上用于執(zhí)行此處所述過程的指令。如圖IA所示,跟蹤和翻譯系統(tǒng)10可以進(jìn)一步包括拍攝設(shè)備20。例如,如以下將更詳細(xì)描述的,拍攝設(shè)備20可以是能夠用于視覺地監(jiān)控例如用戶18的一個(gè)或更多用戶的照相機(jī),以使得可以拍攝、分析和跟蹤由一個(gè)或更多用戶執(zhí)行的姿勢(shì)和/或動(dòng)作,以執(zhí)行應(yīng)用程序中的一個(gè)或更多控制或動(dòng)作和/或動(dòng)畫化化身或屏幕上的角色。根據(jù)一個(gè)實(shí)施例,跟蹤和翻譯系統(tǒng)10可以被連接至諸如電視、監(jiān)視器、高清晰度電視(HDTV)等的音頻/視覺設(shè)備16,該設(shè)備可以向例如用戶18的用戶提供游戲或應(yīng)用程序視覺和/或音頻。例如,計(jì)算設(shè)備12可以包括提供與游戲應(yīng)用程序、非游戲應(yīng)用程序等相關(guān)的音頻/視覺信號(hào)的例如顯卡的視頻適配器和/或例如聲卡的音頻適配器。音頻/視覺設(shè)備16可以接收來自計(jì)算設(shè)備12的音頻/視覺信號(hào),并且然后可以將與音頻/視覺信號(hào)相關(guān)的游戲或應(yīng)用程序視覺和/或音頻輸出給用戶18。根據(jù)一個(gè)實(shí)施例,音頻/視頻設(shè)備16可以通過例如S-視頻電纜、同軸電纜、HDMI電纜、DVI電纜、VGA電纜、組件視頻電纜等連接至計(jì)算系統(tǒng)12。如圖IA所示,系統(tǒng)10可以用于識(shí)別、分析和/或跟蹤例如用戶18的人物目標(biāo)。例如,可以使用拍攝設(shè)備20跟蹤用戶18,以使得用戶18的姿勢(shì)和/或動(dòng)作可以被拍攝以動(dòng)畫化化身或屏幕上的角色和/或可以被翻譯為用于影響由計(jì)算環(huán)境12正在執(zhí)行的應(yīng)用程序的控制。因此,根據(jù)一個(gè)實(shí)施例,用戶18可以移動(dòng)其身體以控制應(yīng)用程序和/或動(dòng)畫化化身或屏幕上的角色。類似地,跟蹤系統(tǒng)10可以用于識(shí)別、分析、和/或跟蹤觀看用戶18玩游戲的人,以使得觀看用戶18玩游戲的那些人的動(dòng)作會(huì)控制在音頻/視覺設(shè)備16上顯示的拳擊游戲里觀眾中的化身動(dòng)作。在圖IA所描述的示例中,在系統(tǒng)10上執(zhí)行的應(yīng)用程序可以是用戶18正在玩的拳擊游戲。例如,計(jì)算系統(tǒng)12可以使用音頻/視覺設(shè)備16以向用18戶提供拳擊對(duì)手22的視覺表示。計(jì)算系統(tǒng)12還可以使用音頻/視 覺設(shè)備16以提供由用戶18用其動(dòng)作控制的用戶化身24的視覺表示。例如,如圖IB所示,用戶18可以在物理空間出拳以使用戶化身 24在游戲空間中出拳。因此,根據(jù)示例實(shí)施例,計(jì)算系統(tǒng)12和拍攝設(shè)備20識(shí)別和分析用戶18在物理空間的出拳,以使得該出拳被翻譯為用戶化身24在游戲空間中的游戲控制和 /或該出拳的動(dòng)作用于動(dòng)畫化游戲空間中的游戲化身24。根據(jù)其它示例實(shí)施例,系統(tǒng)10可以進(jìn)一步用于將目標(biāo)動(dòng)作翻譯為在游戲范圍外的操作系統(tǒng)和/或應(yīng)用程序控制。例如,可以由例如用戶18的目標(biāo)的動(dòng)作來虛擬地控制操作系統(tǒng)和/或應(yīng)用程序的任何可控制方面。在其它實(shí)施例中,如圖IB所示,用戶18可以在處理設(shè)備12A和拍攝設(shè)備20A前比圖IA所示更小的視野里以及更接近拍攝設(shè)備的距離處執(zhí)行動(dòng)作。在圖IB的圖示中,處理設(shè)備12A是筆記本計(jì)算機(jī),并且用戶18和拍攝設(shè)備20A之間的距離比圖IA中所描述的實(shí)施例要小得多。此外,由于用戶更接近拍攝設(shè)備,因此拍攝設(shè)備的視野也更小。當(dāng)所有其它元素相等時(shí),具有與圖IA中拍攝設(shè)備20相等分辨率的如圖IB所示位于離用戶18更近的拍攝設(shè)備,將具有更高的拍攝用戶手指和臉部動(dòng)作的能力。系統(tǒng)10及其組件的合適示例可以在下列同時(shí)待批的專利申請(qǐng)中找到,特此專門并入其全部以作為參考名為“Environment And/Or Target Segmentation (環(huán)境和/或目標(biāo)分割)”的第12/475094號(hào)美國(guó)專利申請(qǐng),2009年5月29日提出申請(qǐng),并且此處特此完全并入以供參考;名為“Auto Generating a Visual Representation(自動(dòng)生成視覺表示)”的第12/511850號(hào)美國(guó)專利申請(qǐng),2009年7月29日提出申請(qǐng),此處完全并入以供參考;第12/474655號(hào)美國(guó)專利申請(qǐng),“Gesture Tool (姿勢(shì)工具)”,2009年5月29日提出申請(qǐng),并且此處特此完全并入以供參考;第12/603427號(hào)美國(guó)專利申請(qǐng),“Pose Tracking Pipeline(姿勢(shì)跟蹤流水線)”,2009年10月21日提出申請(qǐng),(在下文中用‘437申請(qǐng)指代),并且此處特此完全并入以供參考 ’第12/475308號(hào)美國(guó)專利申請(qǐng),"Device for Identifying and Tracking Multiple Humans Over Time (用于跨時(shí)間標(biāo)識(shí)和跟蹤多個(gè)人的設(shè)備)”,2009年5月29日提出申請(qǐng),并且此處特此完全并入以供參考;“Motion Detection Using Depth Images (使用深度圖像的動(dòng)作檢測(cè))”,2009年12月18日提出申請(qǐng),并且此處特此完全并入以供參考;以及第12/575388號(hào)美國(guó)專利申請(qǐng),“Human Tracking SyStem(人體跟蹤系統(tǒng))”,2009年10月7日提出申請(qǐng),并且此處特此完全并入以供參考;第 12/422661 號(hào)美國(guó)專利申請(qǐng),“Gesture Recognizer System Architecture (姿勢(shì)識(shí)別器系統(tǒng)體系結(jié)構(gòu))”,2009年4月13日提出申請(qǐng),并且此處特此完全并入以供參考;第12/391150 號(hào)美國(guó)專利申請(qǐng),“Standarad Gestures (標(biāo)準(zhǔn)姿勢(shì))”,2009年2月23日提出申請(qǐng),并且此處特此完全并入以供參考;以及第12/474655號(hào)美國(guó)專利申請(qǐng),“Gesture Tool (姿勢(shì)工具)”,2009年5月29日提出申請(qǐng),并且此處特此完全并入以供參考。圖2示出可以用于場(chǎng)景中目標(biāo)識(shí)別、分析和跟蹤的拍攝設(shè)備20的示例實(shí)施例,其中目標(biāo)可以是用戶或?qū)ο蟆8鶕?jù)示例實(shí)施例,拍攝設(shè)備20可以被配置為拍攝具有包含深度圖像的深度信息的視頻,該深度圖像可以包含通過包括例如飛行時(shí)間、結(jié)構(gòu)化光、立體圖像等的任何合適技術(shù)的深度值。根據(jù)一個(gè)實(shí)施例,拍攝設(shè)備20可以將所計(jì)算的深度信息組織到“Z個(gè)層”,或者與從深度照相機(jī)沿著其視線延伸的Z軸垂直的層。如圖2所示,拍攝設(shè)備20可以包括圖像照相機(jī)組件32。根據(jù)示例實(shí)施例,圖像照相機(jī)組件32可以是能夠拍攝場(chǎng)景的深度圖像的深度照相機(jī)。深度圖像可以包括所拍攝場(chǎng)景的二維(2-D)像素區(qū)域,其中2-D像素區(qū)域中的每個(gè)像素可以表示深度值,該深度值諸如來自照相機(jī)所拍攝場(chǎng)景中的對(duì)象的以例如厘米、毫米等為單位的長(zhǎng)度或距離。如圖2所示,根據(jù)示例實(shí)施例,圖像照相機(jī)組件32可以包括可用于拍攝場(chǎng)景的深度圖像的紅外光組件34、例如三維(3-D)照相機(jī)36的第一傳感器、以及例如RGB照相機(jī)38 的第二傳感器。這些組件中的每一個(gè)都集中在場(chǎng)景。例如,使用飛行時(shí)間分析,拍攝設(shè)備20 的紅外光組件34可以發(fā)射紅外光到場(chǎng)景上,并且然后使用例如3-D照相機(jī)26和/或RGB 照相機(jī)38的傳感器(沒有示出)以檢測(cè)來自場(chǎng)景中一個(gè)或更多目標(biāo)和對(duì)象表面的反向散射光。在一些實(shí)施例中,可以使用脈沖紅外光從而使得傳出的光脈沖和對(duì)應(yīng)的傳入光脈沖之間的時(shí)間可以被測(cè)量并且用于確定從拍攝設(shè)備20到場(chǎng)景中目標(biāo)或?qū)ο笊咸囟ㄎ恢玫奈锢砭嚯x。此外,在其它示例實(shí)施例中,可以將傳出光波的相位和傳入光波的相位相比較以確定相位偏移。相位偏移然后可用于確定從拍攝設(shè)備20到目標(biāo)或?qū)ο笊咸囟ㄎ恢玫奈锢砭嘭?。根?jù)另一個(gè)示例實(shí)施例,通過包括例如快門光脈沖成像的各種技術(shù)跨時(shí)間分析反射光束的強(qiáng)度,飛行時(shí)間分析可以用于間接地確定從拍攝設(shè)備20到目標(biāo)或?qū)ο笊咸囟ㄎ恢玫奈锢砭嚯x。在另一個(gè)示例實(shí)施例中,拍攝設(shè)備20可以使用結(jié)構(gòu)化光以拍攝深度信息。使用這一分析,帶圖案的光(即顯示為諸如網(wǎng)格圖案或條紋圖案等的已知圖案的光)可以通過例如紅外光組件34投影到場(chǎng)景上。在擊中場(chǎng)景中一個(gè)或更多目標(biāo)或?qū)ο蟮谋砻婧?,作為響?yīng)圖案會(huì)發(fā)生變形。這一圖案的變形可以由例如3-D照相機(jī)36和/或RGB照相機(jī)38拍攝, 并且然后被分析以確定從拍攝設(shè)備20到目標(biāo)或?qū)ο笊咸囟ㄎ恢玫奈锢砭嚯x。根據(jù)另一個(gè)實(shí)施例,拍攝設(shè)備20可以包括兩個(gè)或更多物理上分開的照相機(jī)或傳感器,所述照相機(jī)或傳感器可以從不同角度觀察場(chǎng)景以獲取可被解析以生成深度信息的視覺立體數(shù)據(jù)。在另一個(gè)示例實(shí)施例中,拍攝設(shè)備20可以使用點(diǎn)云數(shù)據(jù)和目標(biāo)數(shù)字化技術(shù)以檢測(cè)用戶的特征。拍攝設(shè)備20可以進(jìn)一步包括話筒40、或一系列話筒。話筒30可以包括接收聲音并將其轉(zhuǎn)換為電信號(hào)的轉(zhuǎn)換器或傳感器。根據(jù)一個(gè)實(shí)施例,話筒30可以用于減少目標(biāo)識(shí)另O、分析和跟蹤系統(tǒng)10中拍攝設(shè)備20和計(jì)算環(huán)境12之間的反饋。此外,話筒30可以用于接收音頻信號(hào),該音頻信號(hào)同樣由用戶提供以控制諸如游戲應(yīng)用程序、非游戲應(yīng)用程序等的可以由計(jì)算環(huán)境12執(zhí)行的應(yīng)用程序。在示例實(shí)施例中,拍攝設(shè)備20可以進(jìn)一步包括與圖像照相機(jī)組件32可操作的通信的處理器或微控制器42。處理器42可以包括可執(zhí)行指令的標(biāo)準(zhǔn)處理器、專用處理器、或微處理器等,該指令可以包括用于接收深度圖像、確定合適目標(biāo)是否包含在深度圖像中、將合適目標(biāo)轉(zhuǎn)換為目標(biāo)的骨骼表示或模型的指令,或者其它任何合適指令。 拍攝設(shè)備20可以進(jìn)一步包括存儲(chǔ)器組件44,其可以存儲(chǔ)由微控制器42執(zhí)行的指令、由3-D照相機(jī)36或RGB照相機(jī)38拍攝的圖像或圖像幀、或任何其它合適信息、圖像等。 根據(jù)示例實(shí)施例,存儲(chǔ)器組件44可以包括隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、高速緩存、快閃式存儲(chǔ)器、硬盤、或其它合適存儲(chǔ)組件。微控制器42和存儲(chǔ)器一起可以被共同地稱為微控制器。如圖2所示,在一個(gè)實(shí) 施例中,存儲(chǔ)器組件44可以是與圖像拍攝組件32和處理器 42通信的單獨(dú)的組件。根據(jù)另一個(gè)實(shí)施例,存儲(chǔ)器組件44可以被集成到處理器42和/或圖像拍攝組件32中。如圖2所示,拍攝設(shè)備20可以通過通信鏈路40與計(jì)算環(huán)境12通信。通信鏈路46 可以是包括例如USB連接、Firewire連接、以太網(wǎng)電纜連接等的有線連接,和/或諸如無線 802. lib、g、3或11連接等的無線連接。根據(jù)一個(gè)實(shí)施例,計(jì)算環(huán)境12可以向拍攝設(shè)備20 提供時(shí)鐘,時(shí)鐘可以用于確定例如何時(shí)通過通信鏈路46拍攝場(chǎng)景。此外,拍攝設(shè)備20可以通過通信鏈路46向計(jì)算環(huán)境12提供由例如3-D照相機(jī) 36和/或RGB照相機(jī)38拍攝的深度信息和圖像,以及由拍攝設(shè)備20生成的骨骼模型。例如,計(jì)算環(huán)境12然后可以使用骨骼模型、深度信息和拍攝到的圖像以控制諸如游戲或文字處理器等的應(yīng)用程序。計(jì)算環(huán)境12可以包括例如圖3和4中所示的那些使得諸如拳擊應(yīng)用程序或手語翻譯器180等的應(yīng)用程序操作在其上執(zhí)行的組件。在圖2中,計(jì)算系統(tǒng)12中示出姿勢(shì)識(shí)別器190和手語翻譯器180。在一個(gè)實(shí)施例中,姿勢(shì)識(shí)別器190可以包括例如骨骼提取組件192、動(dòng)作跟蹤器196、注冊(cè)組件194、臉部分類器198、以及手部分類器199。骨骼提取組件192依照第12/475094號(hào)美國(guó)專利申請(qǐng)運(yùn)行以提取和定義跟蹤用戶動(dòng)作的骨骼系統(tǒng)。骨骼系統(tǒng)的示例在圖IOA和IOC中示出。動(dòng)作跟蹤組件186與‘437申請(qǐng)的公開共同運(yùn)行以跟蹤場(chǎng)景中檢測(cè)到的骨骼的動(dòng)作。動(dòng)作和姿勢(shì)組件被翻譯成與等同于姿勢(shì)的已知手勢(shì)的庫(kù)193相匹配的姿勢(shì)。姿勢(shì)組件包括但不限于相對(duì)于用戶身體和其它手的手掌形狀和配置,相對(duì)于用戶手、其它手指和身體的手指形狀和配置、手和手指的方向(例如上、下、橫向),相對(duì)于其它手、手指、手臂和身體位置(例如跨胸、向一側(cè)偏移等)包含了動(dòng)作開始和結(jié)束位置的手、手指、手臂和頭的動(dòng)作。這在以下圖IOA中示出。注冊(cè)組件194對(duì)拍攝設(shè)備20的組件34、36、38、40提供的信息進(jìn)行同步。 如上所述,來自拍攝設(shè)備的信息可以包括深度和圖像信息。注冊(cè)組件194同步這一信息以跟蹤姿勢(shì)動(dòng)作。臉部分類器198和手部分類器199檢測(cè)用戶手和臉、手和手指形狀以及配置、方向、位置和動(dòng)作的精細(xì)粒度的變化,如以下所述所有變化可以影響對(duì)姿勢(shì)的翻譯。對(duì)臉部表情的檢測(cè)以及手的個(gè)別數(shù)字動(dòng)作可以與將姿勢(shì)翻譯為如圖5和6所示的手勢(shì)有關(guān)。臉部分類器198和手部分類器199與骨骼提取組件192、動(dòng)作跟蹤器196共同工作。骨骼提取組件
192、動(dòng)作跟蹤器196通知臉部分類器198和手部分類器199手和臉位于場(chǎng)景中的何處從而使得為其確定這些信息不成為手部和臉部分類器的負(fù)擔(dān)。骨骼提取組件192還唯一地標(biāo)識(shí)每個(gè)用戶從而使得可以獨(dú)立地跟蹤每個(gè)用戶的手語會(huì)話。當(dāng)拍攝設(shè)備20的分辨率足夠提供對(duì)手或臉的模型的跟蹤時(shí),臉部分類器198和手部分類器199基于臉和手的動(dòng)作確定用戶臉和手的位置,這些位置添加信息到詞匯/語法匹配器195的匹配算法,臉部分類器198和手部分類器199都基于由拍攝設(shè)備20提供的信息檢測(cè)場(chǎng)景中的用戶18以提供手語輸出188。詞匯/語法匹配器195可以包括詞匯字典
193、用戶數(shù)據(jù)186和語法庫(kù)185。當(dāng)檢測(cè)到姿勢(shì)時(shí),信息被放入查詢字典193并且將檢測(cè)到的動(dòng)作與存儲(chǔ)在字典中的動(dòng)作比較的詞匯/語法匹配器195,以確定由用戶提供的特定手勢(shì)的意思。這在以下參考圖 7描述,并且可以由一個(gè)或更多硬件組件和被專門編程以執(zhí)行實(shí)現(xiàn)此處所述技術(shù)的指令的處理器所啟用。此外,將分配給姿勢(shì)的手勢(shì)與語法庫(kù)185和用戶數(shù)據(jù)186比較,以驗(yàn)證對(duì)姿勢(shì)的手勢(shì)分配的準(zhǔn)確性。語法庫(kù)185包含關(guān)于任何手勢(shì)根據(jù)先前和隨后的手勢(shì)是否有意義的信息。用戶數(shù)據(jù)186包含用于確定手勢(shì)根據(jù)特定的已知用戶信息是否有意義的用戶特定人口統(tǒng)計(jì)和其它用戶特定的信息。目標(biāo)識(shí)別、分析和跟蹤系統(tǒng)10可以確定深度圖像是否包括人物目標(biāo)。在一個(gè)實(shí)施例中,可以確定深度圖像的拍攝到的場(chǎng)景中諸如人物目標(biāo)和非人物目標(biāo)等的每個(gè)目標(biāo)的邊緣。如上所述,每個(gè)深度值可以表示諸如來自拍攝設(shè)備20所拍攝場(chǎng)景中對(duì)象的以例如厘米、毫米等為單位的長(zhǎng)度或距離等的深度值。根據(jù)示例實(shí)施例,可以通過比較與例如深度圖像相鄰或附近的像素相關(guān)的各深度值來確定邊緣。如果經(jīng)比較的各深度值比預(yù)定的邊緣容限大,則該像素定義了邊緣。根據(jù)另一個(gè)實(shí)施例,可以填充深度圖像上預(yù)定的點(diǎn)或區(qū)域以確定深度圖像是否包括人物目標(biāo)。例如,可以比較深度圖像的選定區(qū)域或點(diǎn)中像素的各深度值以確定如上所述定義目標(biāo)或?qū)ο蟮倪吘墶T谑纠龑?shí)施例中,可以跨深度圖像均勻地分布預(yù)定的點(diǎn)或區(qū)域。例如,預(yù)定的點(diǎn)或區(qū)域可以包括在深度圖像中心的點(diǎn)或區(qū)域,在深度圖像的左邊緣和中心之間的兩個(gè)點(diǎn)或區(qū)域,在深度圖像的右邊緣和中心之間的兩個(gè)點(diǎn)或區(qū)域,等等??梢曰谒_定的邊緣填充Z個(gè)層的Z個(gè)值。例如,與所確定邊緣相關(guān)的像素和在所確定邊緣中的區(qū)域的像素可以彼此相關(guān)以定義所拍攝區(qū)域中的可以與圖案比較的目標(biāo)或?qū)ο?。根?jù)示例實(shí)施例,每個(gè)填充的人物和非人物目標(biāo)可以與圖案匹配以確定所拍攝區(qū)域中的目標(biāo)是否包括人和/或所拍攝區(qū)域中的哪些目標(biāo)包括人。圖案可以包括,例如與人的各種位置或姿勢(shì)相關(guān)的預(yù)定身體模型的機(jī)器表示,該位置或姿勢(shì)諸如手臂放在兩側(cè)的典型站立姿勢(shì)。在一個(gè)示例實(shí)施例中,可以隔離人物目標(biāo),并且建立人物目標(biāo)的位掩碼以掃描一個(gè)或更多身體部分。例如,在深度圖像中發(fā)現(xiàn)有效的人物目標(biāo)之后,可以刪除背景或與人物目標(biāo)不匹配的深度圖像的區(qū)域。然后可以為人物目標(biāo)生成包括例如沿著x、Y和Z軸的人物目標(biāo)值的位掩碼。根據(jù)示例實(shí)施例,可以從例如頭部開始,為各身體部分掃描人物目標(biāo)的位掩碼,以生成人物目標(biāo)的模型。位掩碼的頂部可以與頭頂?shù)奈恢孟嚓P(guān)。在確定頭頂之后,可以向下掃描位掩碼以接著確定頸部的位置、肩膀的位置等??梢愿律疃葓D或深度圖像數(shù)據(jù)以包含像素與模型中特定虛擬身體部分相關(guān)的概率。根據(jù)示例實(shí)施例,在確定身體部分的值后,可以建立包含諸如與人物目標(biāo)的位掩碼相關(guān)的身體部分的長(zhǎng)度、寬度等的測(cè)量值的數(shù)據(jù)結(jié)構(gòu)。在一個(gè)實(shí)施例中,身體部分的數(shù)據(jù)結(jié)構(gòu)可以包括由拍攝系統(tǒng)60以一定幀率拍攝的幀中多個(gè)深度圖像的平均結(jié)果??梢砸蕴囟〝?shù)目的幀迭代地調(diào)整模型。根據(jù)另一個(gè)實(shí)施例,可以諸如按比例放大、按比例縮小等來調(diào)整所確定身體部分的測(cè)量值,從而使得數(shù)據(jù)結(jié)構(gòu)中的測(cè)量值更緊密地與典型的人的身體模型對(duì)應(yīng)。身體模型可以包含任何數(shù)目的身體部分,其中每一部分可以是模型化目標(biāo)的對(duì)應(yīng)部分的任何機(jī)器可理解表示。在包括兩個(gè)或更多身體部分的模型示例中,模型的每個(gè)身體部分可以包括關(guān)節(jié)位于相鄰骨頭的相交處的一個(gè)或更多結(jié)構(gòu)成員(即“骨頭”)。例如,由位掩碼確定的測(cè)量值可以用于定義骨骼模型中一個(gè)或更多關(guān)節(jié)(例如以下參考圖IOA所示)。該一個(gè)或更多關(guān)節(jié)可以用于定義與人的身體部分對(duì)應(yīng)的一個(gè)或更多骨頭。每個(gè)關(guān)節(jié)可以允許一個(gè)或更多身體部分相對(duì)于一個(gè)或更多其它身體部分而移動(dòng)。例如,表示人物目標(biāo)的模型可以包括多個(gè)嚴(yán)格的和/或可變形的身體部分,其中若干身體部分可以表示人物目標(biāo)對(duì)應(yīng)的解剖學(xué)的身體部分??梢詫⒚總€(gè)身體部分特征化為定義骨骼模型的關(guān)節(jié)和骨頭的數(shù)學(xué)矢量。應(yīng)當(dāng)理解一些骨頭可以對(duì)應(yīng)于人物目標(biāo)中的解剖學(xué)骨頭和/或一些骨頭沒有人物目標(biāo)中對(duì)應(yīng)的解剖學(xué)骨頭。骨頭和關(guān)節(jié)可以共同組成骨骼模型(圖10A、10D、10E),該骨骼模型可以是另一個(gè)模型的組成元素。骨骼模型可以包括每個(gè)身體部分的一個(gè)或更多骨骼成員以及相鄰骨骼成員之間的關(guān)節(jié)。當(dāng)用戶在物理空間移動(dòng)時(shí),由拍攝設(shè)備20所拍攝到的結(jié)果圖像數(shù)據(jù)可以用于調(diào)節(jié)骨骼模型,從而使得骨骼模型可以準(zhǔn)確表示用戶。根據(jù)示例實(shí)施例,模型可以被柵格化為合成的深度圖像。柵格化允許由數(shù)學(xué)矢量、多邊形網(wǎng)格、或其它對(duì)象描述的模型被轉(zhuǎn)換成以像素形式描述的合成的深度圖像。由拍攝系統(tǒng)檢索的目標(biāo)的觀測(cè)到圖像和模型柵格化的(即合成的)圖像之間的差別可以用于確定應(yīng)用于模型以將身體調(diào)節(jié)為不同姿勢(shì)的力矢量。在一個(gè)實(shí)施例中,一個(gè)或更多力矢量可以應(yīng)用于模型的一個(gè)或更多力接收方面以調(diào)節(jié)模型為更緊密地與拍攝區(qū)域的物理空間中目標(biāo)的姿勢(shì)對(duì)應(yīng)的姿勢(shì)。模型可以被迭代地調(diào)節(jié)為拍攝的幀。取決于正在使用的模型的類型,力矢量可以應(yīng)用于關(guān)節(jié)、身體部分的重心、三角形的頂點(diǎn)、或者模型的任何其它合適的力接收方面。此外,在一些實(shí)施例中,當(dāng)確定力的方向和/或大小時(shí),可以使用兩個(gè)或更多不同的計(jì)算。在用于拍攝用戶自然動(dòng)作的一個(gè)或更多實(shí)施例中,拍攝設(shè)備20重復(fù)地將用于動(dòng)作跟蹤的數(shù)據(jù)發(fā)送給計(jì)算系統(tǒng)12。動(dòng)作跟蹤數(shù)據(jù)可以包括關(guān)于例如與不同關(guān)節(jié)、重心或節(jié)點(diǎn)有關(guān)的矢量的某些形式的骨骼模型的參考數(shù)據(jù),以示出動(dòng)作變化。數(shù)據(jù)可以參考由柵格化矢量數(shù)據(jù)創(chuàng)建的合成的像素?cái)?shù)據(jù)表示。數(shù)據(jù)還可以包括用戶的位掩碼,用于在每次更新時(shí)比較以檢測(cè)哪個(gè)身體部分正在移動(dòng)。索引每個(gè)身體部分,從而可以標(biāo)識(shí)每個(gè)身體部分,例如起居室的家具的拍攝區(qū)域的其它部分被標(biāo)識(shí)為背景,并且索引用戶,從而可以將其相應(yīng)身體部分的機(jī)器可表示的數(shù)據(jù)鏈接到用戶。動(dòng)作跟蹤器195可以使用索引以標(biāo)識(shí)哪些身體部分在更新之間改變了位置。對(duì)于不同的身體部分,在姿勢(shì)庫(kù)455中有相關(guān)的姿勢(shì)過濾器。姿勢(shì)過濾器包括用于確定在更新或一系列更新中所指示的動(dòng)作是否表示姿勢(shì)的指令,該姿勢(shì)可以是動(dòng)作本身或造成的姿勢(shì)。如以下所述,姿勢(shì)可以具有與基于姿勢(shì)的手語有關(guān)的意思。在一個(gè)實(shí)施例中,姿勢(shì)過濾器450 (圖10B)執(zhí)行用于比較涉及帶參數(shù)的姿勢(shì)的一個(gè)或更多身體部分的動(dòng)作跟蹤數(shù)據(jù)的指令,該參數(shù)包括與定義姿勢(shì)的動(dòng)作特征有關(guān)的準(zhǔn)則。動(dòng)作特征的一些示例包括用戶手和臉、臉和手指形狀以及配置、方向、位置和動(dòng)作中的位置、角度、速度和加速度變化。例如,投擲可以實(shí)現(xiàn)為包括表示用戶的一只手從身體后方越過身體前方的動(dòng)作的信息的姿勢(shì),如同該動(dòng)作由深度照相機(jī)所拍攝的一樣?!巴稊S”的參數(shù)的一些示例可以是手必須達(dá)到的閾值速度,手必須移動(dòng)的距離(既可以是絕對(duì)的,也可以是整體上相對(duì)于用戶的大小),以及手從身體后越過身體前的動(dòng)作的方向。參數(shù)可以被存儲(chǔ)為其對(duì)應(yīng)姿勢(shì)的元數(shù)據(jù)。參數(shù)可以包括姿勢(shì)的各種動(dòng)作特征中的任何一種。在包含參數(shù)的過濾器中,參數(shù)值可以采用不同形式,例如,它可以是閾值、絕對(duì)值、容錯(cuò)或范圍??梢杂蓞?shù)表示的動(dòng)作特征的若干更多示例如下包含在姿勢(shì)中的身體部分,相對(duì)于由用戶骨骼模型表示的身體部分、關(guān)節(jié)、其它身體部分或用戶身體重心的動(dòng)作角度,身體部分或整個(gè)身體位置的改變,以及由身體部分或整個(gè)身體移動(dòng)的距離。此外,特征的其它示例是在用戶身體周圍的空間體(身體部分在其中移動(dòng)的)的位置,移動(dòng)的方向,身體部分移動(dòng)的速度,移動(dòng)發(fā)生的地點(diǎn),身體部分和場(chǎng)景中另一對(duì)象之間的角度,加速度閾值,姿勢(shì)的時(shí)間段,姿勢(shì)的特定時(shí)間,以及釋放點(diǎn)。在實(shí)施例中,用戶還使用其聲音以產(chǎn)生、增強(qiáng)、區(qū)分或闡明姿勢(shì)。在一個(gè)實(shí)施例中,姿勢(shì)過濾器的準(zhǔn)則參考了如同圖10A、10DU0E所示那些的一個(gè)或更多的骨骼模型。過濾器可以包括在確定參數(shù)準(zhǔn)則是否滿足時(shí)可以處理深度值的代碼和相關(guān)數(shù)據(jù),或關(guān)于骨骼數(shù)據(jù)的矢量,或顏色圖像數(shù)據(jù),或者兩個(gè)或更多這些的組合。例如,過濾器的輸入可以包括諸如與用戶關(guān)節(jié)位置有關(guān)的關(guān)節(jié)數(shù)據(jù),由在關(guān)節(jié)處相交的骨頭形成的角度,對(duì)碰撞測(cè)試有幫助的用戶的RGB顏色數(shù)據(jù),以及用戶面的變化速率等的事物。使用用于包含在姿勢(shì)內(nèi)的一個(gè)或更多身體部分的先前位置數(shù)據(jù)集,輸入數(shù)據(jù)可以被呈現(xiàn)為位置、 速度、移動(dòng)方向、關(guān)節(jié)角度等發(fā)生的變化。可以由一個(gè)或更多輸出的置信度表示是否有匹配。在一個(gè)實(shí)施例中,置信度可以被實(shí)現(xiàn)在范圍為包括在0和1之間的浮點(diǎn)數(shù)的線性標(biāo)度上。在實(shí)施例中,確定置信度可以包括基于與過濾器相關(guān)的參數(shù)的布爾邏輯確定。例如,每個(gè)參數(shù)可以具有自己的相關(guān)置信度, 確定與該置信度相關(guān)的動(dòng)作特征,并且動(dòng)作跟蹤器196檢索該置信度以用于其姿勢(shì)確定。 可以給每個(gè)參數(shù)和其置信度加權(quán),該加權(quán)可以被加權(quán)技術(shù)使用以確定姿勢(shì)作為整體時(shí)做出的置信度。此外,對(duì)給定姿勢(shì)可以有動(dòng)作特征的輸出。動(dòng)作特征的示例包括時(shí)間、速度、加速度速率或做出姿勢(shì)的角度。有關(guān)識(shí)別器引擎190的更多信息可以從第12/422661號(hào),“Gesture Recognizer System Arthitecture姿勢(shì)識(shí)別器體系結(jié)構(gòu)”,2009年4月13日提出申請(qǐng),中找到,此處參考其全部以并入。有關(guān)識(shí)別姿勢(shì)的更多信息可以在第12/391150號(hào)美國(guó)專利申請(qǐng),“Standard Gestures (標(biāo)準(zhǔn)姿勢(shì))” 2009年2月23日提出申請(qǐng),和第12/474655號(hào)美國(guó)專利申請(qǐng) "Gesture Tool (姿勢(shì)工具)”,2009年5月29日提出申請(qǐng),中找到。此處參考其全部并入這兩個(gè)專利申請(qǐng)。如此處所使用的,計(jì)算環(huán)境12可以指單個(gè)計(jì)算設(shè)備或計(jì)算系統(tǒng)。計(jì)算環(huán)境可以包括非計(jì)算組件。計(jì)算環(huán)境可以包括或被連接至顯示輸出的顯示設(shè)備。顯示設(shè)備可以是單獨(dú)的但是與計(jì)算環(huán)境耦合的實(shí)體,或者顯示設(shè)備可以是例如筆記本電腦的處理和顯示的計(jì)算設(shè)備。因此,計(jì)算系統(tǒng)、計(jì)算設(shè)備、計(jì)算環(huán)境、計(jì)算機(jī)、處理器、或其它計(jì)算組件可以交換著使用。圖3示出可以是用于跟蹤動(dòng)作和/或動(dòng)畫化(或以其他方式更新)由應(yīng)用程序顯示的化身或其它屏幕上對(duì)象的如圖1A-2所示的計(jì)算系統(tǒng)12的計(jì)算系統(tǒng)的示例實(shí)施例。例如與圖1A-2有關(guān)的上述計(jì)算系統(tǒng)12的計(jì)算系統(tǒng)可以是例如游戲控制臺(tái)的多媒體控制臺(tái) 100。如圖3所示,多媒體控制臺(tái)100有具有1級(jí)高速緩存102、2級(jí)高速緩存104和快閃 R0M(只讀存儲(chǔ)器)106的中央處理單元(CPU) 101。1級(jí)高速緩存102和2級(jí)高速緩存104暫時(shí)地存儲(chǔ)數(shù)據(jù)并且因此減少存儲(chǔ)器訪問周期的數(shù)目,從而提高處理速度和吞吐量??梢蕴峁┚哂卸鄠€(gè)核以及相應(yīng)的額外的1級(jí)和2級(jí)高速緩存102和104的CPU 101??扉WROM 106可以存儲(chǔ)當(dāng)多媒體控制臺(tái)100開機(jī)時(shí)在引導(dǎo)過程的初始階段中加載的可執(zhí)行代碼。圖形處理單元(GPU) 108和視頻編碼器/視頻編譯碼器(編碼器/譯碼器)114形成用于高速和高分辨率圖形處理的視頻處理流水線。數(shù)據(jù)通過總線被從圖形處理單元108運(yùn)送到視頻編碼器/視頻編譯碼器114。視頻處理流水線輸出數(shù)據(jù)到A/V(音頻/視頻)端口 140以傳輸給電視或其它顯示器。存儲(chǔ)器控制器110被連接至GPU 108以使處理器訪問各種類型的存儲(chǔ)器112,例如但不限于RAM(隨機(jī)存取存儲(chǔ)器)。多媒體控制臺(tái)100包括在模塊118上實(shí)現(xiàn)的I/O控制器120、系統(tǒng)管理控制器122、 音頻處理單元123、網(wǎng)絡(luò)接口控制器124、第一 USB主控制器126、第二 USB控制器128和前面板I/O子部件130。USB控制器126和128充當(dāng)外圍設(shè)備控制器142(1)-142 (2)、無線適配器148和外部存儲(chǔ)器設(shè)備146 (例如快閃式存儲(chǔ)器、外部CD/DVD ROM驅(qū)動(dòng)器、可移動(dòng)介質(zhì)等)的主機(jī)。網(wǎng)絡(luò)接口 124和/或無線適配器148提供對(duì)網(wǎng)絡(luò)(例如因特網(wǎng)、家庭網(wǎng)等) 的訪問,并且可以是包括以太網(wǎng)卡、調(diào)制解調(diào)器、藍(lán)牙模塊、電纜調(diào)制解調(diào)器等的各種有線或無線適配器組件中的任何一種。提供系統(tǒng)存儲(chǔ)器143以存儲(chǔ)在引導(dǎo)過程中加載的應(yīng)用程序數(shù)據(jù)。提供介質(zhì)驅(qū)動(dòng)器 144,并且介質(zhì)驅(qū)動(dòng)器144可以包括DVD/⑶驅(qū)動(dòng)器、藍(lán)光驅(qū)動(dòng)器、硬盤驅(qū)動(dòng)器、或其它可移動(dòng)介質(zhì)驅(qū)動(dòng)器等。介質(zhì)驅(qū)動(dòng)器144可以是多媒體控制臺(tái)100內(nèi)部或外部的??梢酝ㄟ^介質(zhì)驅(qū)動(dòng)器144訪問用于由多媒體控制臺(tái)100執(zhí)行、回放等的應(yīng)用程序數(shù)據(jù)。介質(zhì)驅(qū)動(dòng)器144通過諸如串行ATA總線或其它高速連接(例如IEEE 1394)等的總線被連接至I/O控制器120。系統(tǒng)管理控制器122提供與確保多媒體控制臺(tái)100的可用性有關(guān)的各種服務(wù)功能。音頻處理單元123和音頻編譯碼器132形成具有高保真度和立體處理的對(duì)應(yīng)的音頻處理流水線。音頻數(shù)據(jù)通過通信鏈路被在音頻處理單元123和音頻編譯碼器132之間傳送。 音頻處理流水線輸出數(shù)據(jù)至A/V端口 140以用于由外部音頻用戶或具有音頻能力的設(shè)備進(jìn)行復(fù)制。前面板I/O子部件130支持電源按鈕150和彈出按鈕153、以及在多媒體控制臺(tái) 100的外表面上暴露的任何LEDs (發(fā)光二極管)或其它指示器的功能。系統(tǒng)電源模塊136 向多媒體控制臺(tái)100的組件供電。風(fēng)扇138冷卻多媒體控制臺(tái)100中的電路。CPU 10UGPU 108和多媒體控制臺(tái)100中的各種其它組件通過一個(gè)或更多總線被互相連接,總線包括使用各種總線體系結(jié)構(gòu)中的任何一種的串行和并行總線、存儲(chǔ)器總線、 外圍設(shè)備總線、以及處理器或本地總線。作為示例,這些體系結(jié)構(gòu)可以包括外圍組件互聯(lián) (PCI)總線、PCI-Express 總線等。當(dāng)多媒體控制臺(tái)100開機(jī)時(shí),應(yīng)用程序數(shù)據(jù)可以從系統(tǒng)存儲(chǔ)器143加載到存儲(chǔ)器 112和/或高速緩存102、104中,并且在CPU 101上執(zhí)行。應(yīng)用程序可以呈現(xiàn)圖形用戶界面,該圖形用戶界面在導(dǎo)航到多媒體控制臺(tái)100上可用的不同媒體類型時(shí)提供一致的用戶體驗(yàn)。在操作中,介質(zhì)驅(qū)動(dòng)器144中所包含的應(yīng)用程序和/或其它介質(zhì)可以由介質(zhì)驅(qū)動(dòng)器 144啟動(dòng)或播放以向多媒體控制臺(tái)100提供額外的功能。通過簡(jiǎn)單地將系統(tǒng)連接至電視或其它顯示器,可以將多媒體控制臺(tái)100當(dāng)作獨(dú)立的系統(tǒng)來操作。在這一獨(dú)立模式中,多媒體控制臺(tái)100允許一個(gè)或更多用戶與系統(tǒng)交互,看電影,或聽音樂。然而,隨著通過網(wǎng)絡(luò)接口 124或無線適配器148成為可用的對(duì)寬帶連接性的集成,可以進(jìn)一步將多媒體控制臺(tái)100當(dāng)作更大的網(wǎng)絡(luò)社區(qū)內(nèi)的參與者來操作。當(dāng)多媒體控制臺(tái)100開機(jī)時(shí),預(yù)留了一組硬件資源以用于多媒體操作臺(tái)操作系統(tǒng)的系統(tǒng)使用。這些資源可以包括對(duì)存儲(chǔ)器(例如16MB)、CPU和GPU周期(例如5%)、聯(lián)網(wǎng)帶寬(例如8kbs)等的預(yù)留。由于在系統(tǒng)引導(dǎo)時(shí)間預(yù)留了這些資源,從應(yīng)用程序的角度看預(yù)留的資源并不存在。特別地,存儲(chǔ)器預(yù)留要足夠大以包含啟動(dòng)內(nèi)核、并發(fā)系統(tǒng)應(yīng)用程序和驅(qū)動(dòng)器。CPU 預(yù)留是恒定的,從而使得如果系統(tǒng)應(yīng)用程序沒有使用預(yù)留的CPU使用,則空閑線程將消耗任何未使用的周期。至于GPU預(yù)留,通過使用GPU中斷來顯示由系統(tǒng)應(yīng)用程序生成的輕量消息(例如彈出式窗口)以調(diào)度代碼將彈出式窗口呈現(xiàn)為覆蓋圖。覆蓋圖所需要的存儲(chǔ)器數(shù)量取決于覆蓋區(qū)域大小,覆蓋圖隨著屏幕分辨率而改變大小。在由并發(fā)系統(tǒng)應(yīng)用程序使用完全用戶界面時(shí),傾向于使用與應(yīng)用程序分辨率獨(dú)立的分辨率。在引導(dǎo)多媒體控制臺(tái)100以及預(yù)留系統(tǒng)資源之后,并發(fā)系統(tǒng)應(yīng)用程序執(zhí)行以提供系統(tǒng)功能。系統(tǒng)功能被封裝到在上述的預(yù)留系統(tǒng)資源中執(zhí)行的一組系統(tǒng)應(yīng)用程序中。操作系統(tǒng)內(nèi)核標(biāo)識(shí)系統(tǒng)應(yīng)用程序線程對(duì)游戲應(yīng)用程序線程的線程。調(diào)度系統(tǒng)應(yīng)用程序在預(yù)定的時(shí)間和間隔在CPU 101上運(yùn)行,以向應(yīng)用程序提供一致的系統(tǒng)資源視圖。調(diào)度是為了最小化用于在控制臺(tái)上運(yùn)行的游戲應(yīng)用程序的高速緩存中斷。當(dāng)并發(fā)系統(tǒng)應(yīng)用程序需要音頻時(shí),由于時(shí)間敏感性而將音頻處理異步地調(diào)度給游戲應(yīng)用程序。當(dāng)系統(tǒng)應(yīng)用程序活躍時(shí),多媒體控制臺(tái)應(yīng)用程序管理器(以下描述)控制游戲應(yīng)用程序的音頻等級(jí)(例如靜音、減弱)。輸入設(shè)備(例如控制器142(1)和142(2))由游戲應(yīng)用程序和系統(tǒng)應(yīng)用程序共享。 輸入設(shè)備不是預(yù)留的資源,但是將在系統(tǒng)應(yīng)用程序和游戲應(yīng)用程序之間切換以使得兩者中每個(gè)都將具有設(shè)備的焦點(diǎn)。應(yīng)用程序管理器控制輸入流的切換,而不需要游戲應(yīng)用程序的知識(shí)以及驅(qū)動(dòng)器維護(hù)有關(guān)焦點(diǎn)切換的狀態(tài)信息。照相機(jī)36、38和拍攝設(shè)備20可以通過USP 控制器126或其它接口為控制臺(tái)100定義額外的輸入設(shè)備。圖4示出可以用于實(shí)現(xiàn)跟蹤動(dòng)作和/或動(dòng)畫化(或以其他方式更新)由應(yīng)用程序顯示的化身或其它屏幕上對(duì)象的如圖1-2所示的計(jì)算系統(tǒng)12的計(jì)算系統(tǒng)220的另一個(gè)示例實(shí)施例。計(jì)算系統(tǒng)環(huán)境220僅是合適計(jì)算系統(tǒng)的一個(gè)示例,并且不旨在暗示對(duì)本公開主題的使用或功能的范圍的任何限制。計(jì)算系統(tǒng)220也不應(yīng)該被翻譯為具有與示例性操作系統(tǒng)220中所示的組件的任何一個(gè)或組合有關(guān)的任何依賴或要求。在一些實(shí)施例中,各種所述計(jì)算元素可以包括被配置為實(shí)例化本公開的特定方面的電路。例如,在本公開中所使用的術(shù)語電路可以包括由固件或開關(guān)配置以執(zhí)行功能的專用硬件組件。在其它示例中,術(shù)語電路可以包括由包含可操作以執(zhí)行功能的邏輯的軟件指令配置的通用處理單元、存儲(chǔ)器等。在其中的電路包括硬件和軟件的組合的示例實(shí)施例中,實(shí)施者可以編寫包含邏輯的源代碼,并且源代碼可以被編譯成由通用處理單元處理的機(jī)器可讀代碼。由于本領(lǐng)域的技術(shù)人員可以理解目前的技術(shù)已經(jīng)發(fā)展到硬件、軟件、或硬件/軟件的組合之間的差異很小的地步,因此選擇硬件還是軟件來實(shí)現(xiàn)特定同能是留給實(shí)施者的設(shè)計(jì)選擇。更特別地,本領(lǐng)域的技術(shù)人員可以理解軟件過程可以被轉(zhuǎn)換為等同的硬件結(jié)構(gòu),并且硬件結(jié)構(gòu)其自身可以被轉(zhuǎn)換為等同的軟件過程。因此,選擇硬件實(shí)現(xiàn)還是軟件實(shí)現(xiàn)是留給實(shí)施者的一個(gè)設(shè)計(jì)選擇。計(jì)算系統(tǒng)220包括典型地包含各種計(jì)算機(jī)可讀介質(zhì)的計(jì)算機(jī)241。計(jì)算機(jī)可讀介質(zhì)可以是能夠由計(jì)算機(jī)241訪問的任何可用介質(zhì),并且包括易失性和非易失性的介質(zhì)、可移動(dòng)和不可移動(dòng)的介質(zhì)。系統(tǒng)存儲(chǔ)器222包括諸如只讀存儲(chǔ)器(ROM) 223和隨機(jī)存取存儲(chǔ)器(RAM) 260等的易失性和/或非易失性存儲(chǔ)器形式的計(jì)算機(jī)存儲(chǔ)介質(zhì)。包含例如在啟動(dòng)期間幫助在計(jì)算機(jī)241的元素之間傳遞信息的基本例程的基本輸入/輸出系統(tǒng)224 (BIOS) 一般被存儲(chǔ)在ROM 223。RAM 260—般包含可以立即訪問的和/或現(xiàn)在可以由處理單元259 在其上操作的數(shù)據(jù)和/或程序模塊。為了示例而不是限制,圖4示出操作系統(tǒng)225、應(yīng)用程序226、其它程序模塊227、以及程序數(shù)據(jù)228。計(jì)算機(jī)241還可以包括其它可移動(dòng)/不可移動(dòng)、易失性/非易失性的計(jì)算機(jī)存儲(chǔ)介質(zhì)。僅為了示例,圖4示出向不可移動(dòng)、非易失性磁性介質(zhì)讀或?qū)懙挠脖P驅(qū)動(dòng)器238,向可移動(dòng)、非易失性磁盤254讀或?qū)懙拇疟P驅(qū)動(dòng)器239,以及向例如CD ROM或其它光學(xué)介質(zhì)的可移動(dòng)、非易失性光盤253讀或?qū)懙墓獗P驅(qū)動(dòng)器240。可用于示例性操作環(huán)境的其它可移動(dòng) /不可移動(dòng)、易失性/非易失性的計(jì)算機(jī)存儲(chǔ)介質(zhì)包括但不限于,盒式磁帶、閃存卡、數(shù)字通用光盤、數(shù)字視頻帶、固態(tài)RAM、固態(tài)ROM等。硬盤驅(qū)動(dòng)器238 —般通過例如接口 234的不可移動(dòng)存儲(chǔ)器接口連接至系統(tǒng)總線221,并且磁盤驅(qū)動(dòng)器239和光盤驅(qū)動(dòng)器240 —般由例如接口 235的可移動(dòng)存儲(chǔ)器接口連接至系統(tǒng)總線221。上述和圖4所示的驅(qū)動(dòng)器以及其相關(guān)的計(jì)算機(jī)存儲(chǔ)介質(zhì),為計(jì)算機(jī)241提供計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其它數(shù)據(jù)的存儲(chǔ)。例如,在圖4中,示出存儲(chǔ)操作系統(tǒng) 258、應(yīng)用程序257、其它程序模塊256和程序數(shù)據(jù)255的硬盤驅(qū)動(dòng)器238。注意到這些組件既可以和操作系統(tǒng)225、應(yīng)用程序226、其它程序模塊227以及程序數(shù)據(jù)228相同也可以不同。此處給定操作系統(tǒng)258、應(yīng)用程序257、其它程序模塊256和程序數(shù)據(jù)255不同的標(biāo)號(hào)以示出它們至少是不同的副本。用戶可以通過例如鍵盤251以及通常為鼠標(biāo)、跟蹤球或觸摸板的定點(diǎn)設(shè)備252的輸入設(shè)備將命令和信息輸入到計(jì)算機(jī)241。其它輸入設(shè)備(沒有示出)可以包括話筒、游戲操縱桿、游戲控制器、碟形衛(wèi)星天線、掃描儀等。這些和其它輸入設(shè)備通常通過被耦合至系統(tǒng)總線的用戶輸入接口 236連接至處理單元259,但是也可以由諸如并行端口、游戲端口或通用串行總線(USB)等的其它接口和總線結(jié)構(gòu)連接。照相機(jī)36、38 和拍攝設(shè)備20可以為通過用戶輸入接口 236連接的控制臺(tái)100定義額外的輸入設(shè)備。監(jiān)視器242或其它類型的顯示設(shè)備也通過諸如視頻接口 232的接口連接至系統(tǒng)總線221。除了監(jiān)視器以外,計(jì)算機(jī)還可以包括諸如揚(yáng)聲器244和打印機(jī)243等的其它外圍輸出設(shè)備,該外圍輸出設(shè)備可以通過輸出外圍設(shè)備接口 233連接。拍攝設(shè)備20可以通過輸出外圍設(shè)備接口 233、網(wǎng)絡(luò)接口 237或其它接口連接至計(jì)算系統(tǒng)220。計(jì)算機(jī)241可以在使用到例如遠(yuǎn)程計(jì)算機(jī)246的一個(gè)或更多遠(yuǎn)程計(jì)算機(jī)的邏輯連接的網(wǎng)絡(luò)化環(huán)境中操作。遠(yuǎn)程計(jì)算機(jī)246可以是個(gè)人計(jì)算機(jī)、服務(wù)器、路由器、網(wǎng)絡(luò)PC、 對(duì)等設(shè)備或其它常用網(wǎng)絡(luò)節(jié)點(diǎn),并且一般包括許多或全部以上相對(duì)于計(jì)算機(jī)241描述的元素,盡管在圖4中僅示出了存儲(chǔ)器存儲(chǔ)設(shè)備247。所述邏輯連接包括局域網(wǎng)(LAN) 245和廣域網(wǎng)(WAN)249,但是也包括其它網(wǎng)絡(luò)。這些聯(lián)網(wǎng)環(huán)境常見于辦公室、企業(yè)范圍計(jì)算機(jī)網(wǎng)絡(luò)、 內(nèi)部網(wǎng)和英特網(wǎng)。當(dāng)使用在LAN聯(lián)網(wǎng)環(huán)境中時(shí),計(jì)算機(jī)241通過網(wǎng)絡(luò)接口或適配器237連接至LAN245。當(dāng)使用在WAN聯(lián)網(wǎng)環(huán)境中時(shí),計(jì)算機(jī)241 —般包括調(diào)制解調(diào)器250或用于通過例如英特網(wǎng)的WAN 249建立通信的其它手段。內(nèi)部或外部的調(diào)制解調(diào)器250可以通過用戶輸入接口 236或其它適當(dāng)?shù)臋C(jī)制連接至系統(tǒng)總線221。在網(wǎng)絡(luò)化環(huán)境中,相對(duì)于計(jì)算機(jī)241所描述的程序模塊或其部分可以被存儲(chǔ)在遠(yuǎn)程存儲(chǔ)器存儲(chǔ)設(shè)備中。為了示例而不是限制,圖5示出駐在存儲(chǔ)器設(shè)備247上的應(yīng)用程序248。應(yīng)當(dāng)理解所示網(wǎng)絡(luò)連接是示例性的,并且可以使用在計(jì)算機(jī)之間建立通信鏈路的其它手段。圖3或4中的任何一個(gè)系統(tǒng)、或不同的計(jì)算設(shè)備,可以用于實(shí)現(xiàn)圖2的計(jì)算系統(tǒng) 12。如上所述,計(jì)算系統(tǒng)12確定用戶的動(dòng)作,并且使用那些檢測(cè)到的動(dòng)作以控制視頻游戲或其它應(yīng)用程序。例如,用戶的動(dòng)作可以用于控制視頻游戲中的化身和/或?qū)ο?。在一些?shí)施例中,系統(tǒng)可以同時(shí)跟蹤多個(gè)用戶,并且允許多個(gè)用戶的動(dòng)作以控制或影響應(yīng)用程序。系統(tǒng)將使用RGB圖像和深度圖像以跟蹤用戶的動(dòng)作。例如,系統(tǒng)將使用深度圖像跟蹤人的骨骼。有很多可以用于使用深度圖像跟蹤人的骨骼的方法。使用深度圖像跟蹤人的骨骼的一個(gè)合適示例被提供在第12/603437號(hào)美國(guó)專利申請(qǐng),“Pose Tracking Pipeline (姿勢(shì)跟蹤流水線)”,2009年10月21日提出申請(qǐng),(在下文中用‘437申請(qǐng)指代), 此處參考其全部以并入?!?37申請(qǐng)的過程包括獲取深度圖像,下采樣數(shù)據(jù),刪除和/或平滑高方差噪聲數(shù)據(jù),標(biāo)識(shí)和刪除背景,以及將每個(gè)前景像素分配給身體的不同部分?;谀切┎襟E,系統(tǒng)將用數(shù)據(jù)擬合模型并且創(chuàng)建骨骼。骨骼將包括一組關(guān)節(jié)以及關(guān)節(jié)之間的連接。在一個(gè)實(shí)施例中,為了使用戶的動(dòng)作用于控制應(yīng)用程序,用戶必須首先向應(yīng)用程序登記或和應(yīng)用程序綁定。在一個(gè)實(shí)施例中,將要求每個(gè)用戶通過站立在系統(tǒng)前來標(biāo)識(shí)自己,從而使得能夠通過多個(gè)角度獲得該用戶的深度圖像和/或視覺圖像。例如,在獲取深度圖像和視覺圖像時(shí),可以要求用戶站立在照相機(jī)前,轉(zhuǎn)身,以及做各種姿勢(shì)。在系統(tǒng)獲得足夠多的深度和/或視覺圖像之后,系統(tǒng)將創(chuàng)建來自唯一標(biāo)識(shí)用戶的圖像的一組標(biāo)識(shí)數(shù)據(jù)。 系統(tǒng)將創(chuàng)建唯一標(biāo)識(shí),并且將該唯一標(biāo)識(shí)與游戲/應(yīng)用程序中屏幕上的表示(例如化身) 或其它對(duì)象相關(guān)。在用戶登記到(或綁定到)應(yīng)用程序之后,系統(tǒng)將在用戶主動(dòng)地使用應(yīng)用程序(例如玩游戲或使用應(yīng)用程序)時(shí)跟蹤該用戶的動(dòng)作。但是,在過去,房間中沒有主動(dòng)使用應(yīng)用程序的其它人(例如沒有綁定到應(yīng)用程序,綁定到應(yīng)用程序但是現(xiàn)在沒有玩游戲,或綁定到應(yīng)用程序但是現(xiàn)在沒有輪到玩)沒有與應(yīng)用程序交互的方法。圖5A到5D描繪需要由系統(tǒng)檢測(cè)的使用美國(guó)手語的不同類型的手語。如此處所述, 手語可以包括靜態(tài)手勢(shì)或包含動(dòng)作的手勢(shì)。手語是使用視覺傳遞的姿勢(shì)或手勢(shì)以表達(dá)意思的語言。這可以包括,用于表達(dá)說話者思想的手型的同時(shí)組合,手、手臂或身體的方向和動(dòng)作,以及臉部表情中的一個(gè)或更多。手語可以包括與口語語法不同的空間語法。上百種手語在全世界使用。美國(guó)手語(即ASL)是美國(guó)的主要手語。在ASL中,手指拼寫主要用于專有名詞,用于強(qiáng)調(diào)(例如手指拼寫STOP比手勢(shì)‘stop’更加強(qiáng)調(diào)),用于闡明,用于說明。ASL既包括借鑒于英語的手指拼寫,也包括將英語單詞中的字母結(jié)合到ASL手語中,以區(qū)分否則將由ASL中的單個(gè)手勢(shì)涵蓋的相關(guān)的意思。例如,兩手畫一個(gè)圓表示‘一群人’。可以通過手型來指定若干種類的人群當(dāng)用C手型完成時(shí),手勢(shì)表示‘班級(jí)(class)’, 當(dāng)用F手型完成時(shí),手勢(shì)表示‘家庭(family)’。這些手勢(shì)通常被稱為“初始化”手勢(shì),因?yàn)樗鼈儗?duì)應(yīng)英語單詞的第一個(gè)字母(首字母)替換為手型以便提供更具體的意思。當(dāng)采用這些方式使用字母時(shí),若干非音位的手型變成獨(dú)特的。例如,在手指拼寫之外還有單手的手型-大拇指的位置是無關(guān)的。但是,在手指拼寫中,大拇指在手上的位置區(qū)分了字母A、S和T。依靠例如大拇指位置的細(xì)微區(qū)別的結(jié)合字母的手勢(shì)從長(zhǎng)遠(yuǎn)來看是不趨于穩(wěn)定的,但是它們可以最終創(chuàng)建語言中新的區(qū)別。對(duì)人的相對(duì)手指大小和靈活性太過依賴的手勢(shì)是不理想的。這可以與使用由大多數(shù)說話者輕易復(fù)制的聲音的口語類比。在圖5A中,示出依照美國(guó)手語的手勢(shì)字母表的示例。字母“A”502、“B”504和 “C” 506均由靜態(tài)手勢(shì)完成,術(shù)語靜態(tài)用在這里以表明在實(shí)際表示手勢(shì)意思時(shí)不包含動(dòng)作。 對(duì)比于圖5B中508處示出的字母“J”。為了完成字母“J”,手采取508處所示的形式,并且還采用沿著線509的動(dòng)作以表明該字母。其它手勢(shì)更復(fù)雜,包含手和手指兩者的動(dòng)作。圖 5C示出“付款”的手勢(shì),其中用戶的右手沿著箭頭519從位置516移動(dòng)到位置518。右手相對(duì)于圖5C中所示的靜止的左手520移動(dòng)。圖5D示出還要更復(fù)雜的手勢(shì)意思“卡片”。如圖 5D所示,用戶的右手和左手511、513以遠(yuǎn)離彼此的動(dòng)作沿著相反的方向510和512移動(dòng),在此之后用戶的手指如514處所示捏緊。為了提供依照本技術(shù)的手語翻譯系統(tǒng),所有這些類型的動(dòng)作被定義為姿勢(shì)。姿勢(shì)識(shí)別器190翻譯這些姿勢(shì)、以及臉部和手指動(dòng)作和位置,并且將檢測(cè)到的姿勢(shì)與庫(kù)193中的姿勢(shì)比較以提供每個(gè)姿勢(shì)的意思。類似的手勢(shì)可以以相對(duì)于用戶表情或頭部?jī)A斜的不同意思出現(xiàn)。例如,圖6A示出一個(gè)人在做短語“爸爸在家”的手勢(shì)。圖6A和6B的每一幅都示出兩個(gè)手勢(shì)“爸爸”和“家”。 圖6A的左邊表明用靠在用戶前額610上的右手602做出術(shù)語“爸爸”。用戶將其右手從位置604跨過其臉頰移動(dòng)到606以表明“家”的動(dòng)作。在圖6A的左邊和右邊,用戶的臉都是一般無表情的并且面朝觀看者。圖6B示出相同的手勢(shì),但是以疑問的方式擺姿勢(shì)。圖6B 的短語不是陳述句“爸爸在家”,而是疑問句“爸爸在家否”或更字面地“爸爸在家嗎? ”以疑問做出的短語表示來自于用戶的表情和用戶的頭部?jī)A斜。如圖6B所示,手勢(shì)602、604、606 是相同的,但是用戶在614和616處頭略微向左傾斜和揚(yáng)起眉毛的表情表明表達(dá)的是疑問句,而不是陳述句。圖7示出依照本技術(shù)用于基于動(dòng)作跟蹤和姿勢(shì)翻譯以提供手語翻譯系統(tǒng)的方法。 在一個(gè)實(shí)施例中,在700處標(biāo)識(shí)用戶。盡管不是必須的,但是系統(tǒng)10可以為特定用戶存儲(chǔ)用戶動(dòng)作的單獨(dú)簡(jiǎn)檔。如以下所述,系統(tǒng)為用戶生成特定的骨骼跟蹤模型,并且可以用用戶簡(jiǎn)檔存儲(chǔ)與用戶的特定傾向和動(dòng)作方式有關(guān)的模型和簡(jiǎn)檔信息。將已知傾向應(yīng)用于用戶的動(dòng)作和姿勢(shì)檢測(cè)可以增加姿勢(shì)檢測(cè)和手語翻譯的準(zhǔn)確性。在一個(gè)實(shí)施例中,執(zhí)行一系列校準(zhǔn)步驟701。在替代的實(shí)施例中,701處的校準(zhǔn)不是必須的。在步驟702處,姿勢(shì)校準(zhǔn)動(dòng)作被顯示給用戶。姿勢(shì)校準(zhǔn)動(dòng)作可以要求用戶執(zhí)行特定姿勢(shì),以便系統(tǒng)理解由給定用戶以特定方式用于執(zhí)行姿勢(shì)的特定動(dòng)作。應(yīng)當(dāng)意識(shí)到可以由系統(tǒng)存儲(chǔ)每個(gè)單獨(dú)用戶的校準(zhǔn),并且依照由處理設(shè)備12檢測(cè)到的骨骼匹配圖案識(shí)別不同的用戶。一旦校準(zhǔn)動(dòng)作被顯示,用戶執(zhí)行校準(zhǔn)動(dòng)作,并且在步驟704處,拍攝用戶的動(dòng)作以用于校準(zhǔn)事件??梢灾貜?fù)步驟702和704任意次數(shù)以為系統(tǒng)提供所需的準(zhǔn)確度。在步驟706處,可以獲取用戶特征信息。用戶特征信息可以包括諸如用戶的年齡、性別、興趣、愛好、收藏或其它信息等的用戶人口統(tǒng)計(jì),這些信息可以幫助系統(tǒng)確定用戶做出特定手勢(shì)的概率。在一個(gè)實(shí)施例中,可以在校準(zhǔn)步驟期間通過例如允許用戶完成顯示器上的調(diào)查表來收集特征信息??梢栽诓襟E702、704和706的每一個(gè)步驟將校準(zhǔn)信息存儲(chǔ)到用戶簡(jiǎn)檔中??梢詾槿魏螖?shù)量的姿勢(shì)和手勢(shì)重復(fù)校準(zhǔn)步驟702和704。一旦為給定用戶執(zhí)行校準(zhǔn)步驟 701,則其不需要被重復(fù)。在708處,監(jiān)視拍攝設(shè)備20視野中的場(chǎng)景是否有用戶動(dòng)作。當(dāng)用戶在場(chǎng)景中做出姿勢(shì),跟蹤用戶的骨骼模型,檢測(cè)手和臉的動(dòng)作,以在710處確定姿勢(shì)是否已經(jīng)發(fā)生。依照以下圖10和11中的描述以跟蹤用戶動(dòng)作和確定姿勢(shì)。在712處,將所識(shí)別的姿勢(shì)與已知手勢(shì)數(shù)據(jù)比較,并且如果在714處發(fā)現(xiàn)可能的匹配,則在716處將初始手勢(shì)以及姿勢(shì)是特定手勢(shì)的初始概率權(quán)重分配給該姿勢(shì)。姿勢(shì)動(dòng)作可以具有用戶旨作為給定手勢(shì)以及姿勢(shì)旨在做出的大量替代的可能手勢(shì)的概率。當(dāng)初始手勢(shì)被分配給檢測(cè)到的姿勢(shì)(N)時(shí),也具有姿勢(shì)的可能意思的任何數(shù)量的可能的替代手勢(shì)可以被存儲(chǔ)在庫(kù)中。每個(gè)手勢(shì)可以有相對(duì)于檢測(cè)到的姿勢(shì)的概率權(quán)重或分?jǐn)?shù)。例如,姿勢(shì)的第一替代可以是字母“A”,而第二替代姿勢(shì)為字母“B”。在用戶正確拼寫名字并且用戶名字已知時(shí),給定的由用戶使用的其它手勢(shì)和/或關(guān)于用戶的已知數(shù)據(jù),通過檢測(cè)“A”相比于“B” 有更多還是更少可能使用來對(duì)初始翻譯中的錯(cuò)誤進(jìn)行調(diào)節(jié)。由于手語翻譯取決于上下文, 即在特定手勢(shì)之前和之后做出的用戶動(dòng)作和手勢(shì),因此在714處方法進(jìn)一步評(píng)價(jià)初始確定以基于用戶簡(jiǎn)檔信息和相對(duì)于動(dòng)作流中其它手勢(shì)的手勢(shì)上下文來確認(rèn)或修改初始確定。在步驟718處,如果上下文信息可用于特定用戶,則在720處接收上下文信息。如果特征信息是可用的,則在722處,在用戶個(gè)人特征和被分配給所識(shí)別的姿勢(shì)的初始手勢(shì)之間進(jìn)行比較。如果特征信息表明手勢(shì)不正確,則在724處可以更正手勢(shì)。以下在圖8描述了特征信息和初始手勢(shì)的比較。附加地和可任選地,在722處如果特征信息確認(rèn)手勢(shì)評(píng)價(jià)的初始分配,則在728處將手勢(shì)和其它姿勢(shì)比較。在726處接收前一姿勢(shì),并且在728處進(jìn)行比較,以確定前一姿勢(shì)(N_l)是否確認(rèn)姿勢(shì)是由系統(tǒng)在716處識(shí)別的初始手勢(shì)的概率。如果是,則在736處將增加分配給初始手勢(shì)的概率權(quán)重,并且在734處使用初始手勢(shì)生成輸出。包括以下關(guān)于圖12和13所示的輸出的任何數(shù)量不同類型的輸出可以由系統(tǒng)生成。應(yīng)當(dāng)進(jìn)一步意識(shí)到盡管在所示方法中輸出在734處生成并且存儲(chǔ)手勢(shì)(N),但是可以在手勢(shì)被識(shí)別并且被分配給檢測(cè)到的姿勢(shì)之后的任意點(diǎn)處生成輸出。應(yīng)當(dāng)意識(shí)到用戶可以以動(dòng)作流連續(xù)地提供場(chǎng)景中的手勢(shì)。基于分配給姿勢(shì)的姿勢(shì)過濾器和在動(dòng)作流中做出的手勢(shì)的上下文,可以通過識(shí)別手勢(shì)之間的轉(zhuǎn)變將動(dòng)作和姿勢(shì)與流中的其它動(dòng)作分開。在728處,如果由系統(tǒng)識(shí)別的前一姿勢(shì)和手勢(shì)不確認(rèn)分配給姿勢(shì)的初始手勢(shì),則在730處確定前一手勢(shì)結(jié)合可歸因于姿勢(shì)的若干替代可能手勢(shì)中的一個(gè)是否證明向姿勢(shì) (N)分配新的、修改的手勢(shì)。如果分配新的手勢(shì),則方法返回至716,并且基于來自前一姿勢(shì)的修改的信息向新手勢(shì)(N)分配新的概率。如果不是,則在732處降低分配給新手勢(shì)的概率權(quán)重,并且在724處生成輸出。由于系統(tǒng)連續(xù)地接收姿勢(shì)和手勢(shì),在738處將翻譯基于由用戶緊接著初始姿勢(shì)所做出的另一個(gè)姿勢(shì)的下一個(gè)手勢(shì)(N+1),并且檢索下一個(gè)姿勢(shì)。下一個(gè)姿勢(shì)將具有分配給其的概率,并且可以用于確定先前分配的姿勢(shì)(在這一情況下為手勢(shì)(N))是否可能是已經(jīng)在716處被分配到姿勢(shì)的手勢(shì)。在740處,將關(guān)于手勢(shì)N的初始分配手勢(shì)的比較與下一個(gè)手勢(shì)(N = !)比較以確定下一個(gè)手勢(shì)的上下文是否確認(rèn)初始手勢(shì)。在742處可以確定初始手勢(shì)的新手勢(shì),并且如果為初始手勢(shì)確定了新手勢(shì),則在步驟742處可以改變輸出。圖8示出可以在726處執(zhí)行以評(píng)價(jià)上下文信息是否確認(rèn)分配給姿勢(shì)的手勢(shì)的過程。在802處,對(duì)用戶個(gè)人人口統(tǒng)計(jì)信息中的每個(gè)特征,在步驟804處確定人口統(tǒng)計(jì)是增加還是降低分配給姿勢(shì)的手勢(shì)正確的概率。如果考慮到人口統(tǒng)計(jì)手勢(shì)是可能的,則在806處增加分配給手勢(shì)的權(quán)重。如果不是,則在808處減少該權(quán)重。這一確定為每個(gè)人的每個(gè)人口統(tǒng)計(jì)信息而持續(xù)進(jìn)行。應(yīng)當(dāng)注意并不是所有人口統(tǒng)計(jì)信息與所有手勢(shì)相關(guān)。人口統(tǒng)計(jì)信息可以包括用戶的性別、母語、位置、歷史、收藏等。在812處,一旦相對(duì)分配的手勢(shì)檢查了所有相關(guān)的人口統(tǒng)計(jì)信息,就基于庫(kù)中替代的手勢(shì)相對(duì)于所分配手勢(shì)(N)的修改分?jǐn)?shù)的已調(diào)節(jié)權(quán)重具有較高概率權(quán)重的概率,確定這些替代的手勢(shì)是否是較佳匹配。圖9示出在步驟728或740處發(fā)生以確定分配給前一 /下一個(gè)姿勢(shì)的前一手勢(shì)或下一個(gè)手勢(shì)是否確認(rèn)所分配的手勢(shì)的過程。在902處,檢索前一 /下一個(gè)姿勢(shì)以及分配給前一或下一個(gè)姿勢(shì)的手勢(shì)。在步驟904處,系統(tǒng)查詢字典以確定額外的手勢(shì)是否可能與前一姿勢(shì)相鄰。庫(kù)可以包含上下文數(shù)據(jù)庫(kù),該上下文數(shù)據(jù)庫(kù)包括標(biāo)識(shí)特定單詞(在這一情況下的手勢(shì))鄰近其它單詞或手勢(shì)出現(xiàn)的可能性的手勢(shì)交際信息??梢韵鄬?duì)于彼此比較手勢(shì)部分以確定分配給每個(gè)鄰近姿勢(shì)的手勢(shì)在語言學(xué)上下文中有意義。這可以用于用高概率的準(zhǔn)確性定義語句結(jié)構(gòu)。在906處,確定匹配的手勢(shì)是否可能被放置為鄰近前一或下一個(gè)手勢(shì)。如果是,則在908處可以確認(rèn)分配的手勢(shì)。如果不是,則在910處確定分配給姿勢(shì)的手勢(shì)是否將永遠(yuǎn)不鄰近前一手勢(shì)。如果是,則在912處丟棄手勢(shì)。如果在910處分配的手勢(shì)可以鄰近前一或下一個(gè)手勢(shì),則在912處確定另一個(gè)手勢(shì)是否比分配的手勢(shì)更可能鄰近前一或下一個(gè)手勢(shì)。如果是,則在914處做出指示以改變手勢(shì)(圖7中可以在730或742處發(fā)生)。如果不是,在916處確認(rèn)手勢(shì)。圖IOA描繪可以采用上述方式由拍攝設(shè)備20生成的用戶的示例骨骼映射。在這一示例中,標(biāo)識(shí)了各種關(guān)節(jié)和骨頭每只手402、每只前臂404、每個(gè)手肘406、每個(gè)二頭肌408、 每個(gè)肩膀410、每個(gè)臀部412、每條大腿414、每個(gè)膝關(guān)節(jié)416、每條小腿418、每只腳420、頭 422、軀干424、脊椎的頂部426和底部428、腰部430。如果跟蹤了更多的點(diǎn),則可以標(biāo)識(shí)額外的特征,例如手指或腳趾的骨頭和關(guān)節(jié)、或者諸如鼻子和眼睛等的臉的單獨(dú)特征。通過移動(dòng)身體,用戶可以創(chuàng)建姿勢(shì)。姿勢(shì)包括可以被拍攝為圖像數(shù)據(jù)并且解析為意思的用戶的動(dòng)作或姿勢(shì)。姿勢(shì)可以是動(dòng)態(tài)的,包括例如模仿拋球的動(dòng)作。姿勢(shì)可以是靜態(tài)的姿勢(shì),例如在軀干424前保持交叉的前臂404。姿勢(shì)還可以結(jié)合道具,例如通過揮舞假的劍。姿勢(shì)可以包括多于一個(gè)的身體部分,例如一起拍手402,或者包含細(xì)微的動(dòng)作,例如撅嘴。姿勢(shì)可以用于在一般計(jì)算上下文中輸入。例如,手402或其它身體部分的各種動(dòng)作可以對(duì)應(yīng)于諸如在層次菜單結(jié)構(gòu)中向上級(jí)或向下級(jí)導(dǎo)航、在菜單列表中滾動(dòng)項(xiàng)目、打開文件、關(guān)閉文件和保存文件等的通常的系統(tǒng)范圍任務(wù)。取決于游戲,姿勢(shì)還可以用在視頻游戲特定的上下文中。例如,對(duì)于駕駛游戲,手402和腳420的各種動(dòng)作可以對(duì)應(yīng)于向一個(gè)方向駕駛車輛、換擋、加速和剎車。姿勢(shì)參數(shù)可以包括閾值角度(例如臀部_大腿角度、前臂_ 二頭肌角度等)、動(dòng)作發(fā)生或不發(fā)生的時(shí)間段的次數(shù),閾值時(shí)間段、閾值位置(例如起點(diǎn)、終點(diǎn))、方向動(dòng)作、速度、 加速度、動(dòng)作的協(xié)調(diào)等。
姿勢(shì)可以與一組默認(rèn)參數(shù)相關(guān),該默認(rèn)參數(shù)可以由應(yīng)用程序或操作系統(tǒng)用自己的參數(shù)取代。在這一場(chǎng)景中,不強(qiáng)迫應(yīng)用程序提供參數(shù),但是可以替代地使用使得能夠在沒有應(yīng)用程序定義的參數(shù)的情況下識(shí)別姿勢(shì)的一組默認(rèn)參數(shù)。有各種與姿勢(shì)相關(guān)的輸出??梢允顷P(guān)于姿勢(shì)是否發(fā)生的底線“是或否”。還可以是對(duì)應(yīng)于用戶跟蹤到的動(dòng)作與姿勢(shì)對(duì)應(yīng)的可能性的置信度。這可以是范圍跨包括在0和1 之間的浮點(diǎn)數(shù)的線性標(biāo)度。在接收這一姿勢(shì)信息的應(yīng)用程序不能夠接受誤報(bào)作為輸入的地方,它將僅使用具有例如至少0. 95的高置信度的那些識(shí)別的姿勢(shì)。在應(yīng)用程序必須識(shí)別姿勢(shì)的每個(gè)實(shí)例時(shí),即便以誤報(bào)為代價(jià),它也要使用至少具有低得多的置信度的姿勢(shì),例如那些僅大于0.2的置信度。姿勢(shì)可以具有兩個(gè)最近步驟之間時(shí)間的輸出,并且在僅注冊(cè)了第一步驟的地方,這一輸出被設(shè)為例如-1的預(yù)留值(因?yàn)槿魏蝺蓚€(gè)步驟之間的時(shí)間必須是正的)。姿勢(shì)還可以具有在最近步驟中達(dá)到的最高大腿角度的輸出。姿勢(shì)的另一個(gè)參數(shù)可以是移動(dòng)的距離。在用戶的姿勢(shì)控制虛擬環(huán)境中化身動(dòng)作的地方,該化身可以距球一個(gè)手臂的長(zhǎng)度。如果用戶想要與球交互并且抓住它,這則要求用戶在做抓球的姿勢(shì)時(shí)伸展其手臂402-410至全長(zhǎng)。在這一情況下,用戶僅部分伸展其手臂 402-410的類似的抓的姿勢(shì)不會(huì)達(dá)到與球交互的結(jié)果。姿勢(shì)或其部分可以有它在其中一定發(fā)生的空間體積作為參數(shù)。可以一般地關(guān)于身體以表達(dá)這一空間體積,其中姿勢(shì)包括身體動(dòng)作。例如,可以僅在不低于右肩410a 的空間體積中識(shí)別右手用戶投擲橄欖球的姿勢(shì),并且在頭422同側(cè)上被識(shí)別為投擲手臂 402a-410ao定義體積的邊界并不一定是必要的,例如使用這一投擲姿勢(shì),遠(yuǎn)離身體的外部邊界被留下而沒有定義,并且體積無限地伸出,或者到達(dá)被監(jiān)控的拍攝區(qū)域的邊緣。圖IOB提供圖2中姿勢(shì)識(shí)別器引擎190的一個(gè)示例性實(shí)施例的進(jìn)一步的細(xì)節(jié)。如圖所示,姿勢(shì)識(shí)別器引擎190可以包括庫(kù)450a中的至少一個(gè)過濾器450以確定一個(gè)或多個(gè)姿勢(shì)。過濾器450包括定義姿勢(shì)452 (在下文中指代為“姿勢(shì)”)以及該姿勢(shì)的元數(shù)據(jù)454 的參數(shù)。過濾器可以包括可識(shí)別姿勢(shì)或者以其他方式處理深度、RGB或骨骼數(shù)據(jù)的代碼和相關(guān)數(shù)據(jù)。例如,包括用戶的一只手從身體后部穿過身體前部的動(dòng)作的投擲,可以實(shí)現(xiàn)為包括表示用戶的一只手從身體后部穿過身體前部的動(dòng)作的信息的姿勢(shì)452,而該動(dòng)作可以由深度照相機(jī)拍攝。然后可以為該姿勢(shì)452設(shè)置參數(shù)454。在姿勢(shì)452為投擲的地方,參數(shù) 454可以是手必須達(dá)到的閾值速度,手必須移動(dòng)的距離(既可以是絕對(duì)的,也可以是整體上相對(duì)于用戶的大小),以及由識(shí)別器引擎評(píng)價(jià)的姿勢(shì)發(fā)生的置信度。姿勢(shì)452的這些參數(shù) 454可以在應(yīng)用程序之間,在單個(gè)應(yīng)用程序的上下文之間,或在一個(gè)應(yīng)用程序的一個(gè)上下文中跨時(shí)間改變。過濾器可以包括可識(shí)別姿勢(shì)或者以其他方式處理深度、RGB或骨骼數(shù)據(jù)的代碼和相關(guān)數(shù)據(jù)。過濾器可以是模塊化的或可交換的。在實(shí)施例中,過濾器有每個(gè)輸入都具有類型的大量輸入,以及每個(gè)輸出都具有類型的大量輸出。在這種情況下,可以用具有和第一過濾器相同數(shù)量和類型的輸入和輸出的第二過濾器來替換第一過濾器,而不改變識(shí)別器引擎體系結(jié)構(gòu)的任何其它方面。例如,有用于駕駛的第一過濾器,該第一過濾器將骨骼數(shù)據(jù)作為輸入,并且輸出與過濾器相關(guān)的姿勢(shì)正在發(fā)生的置信度和轉(zhuǎn)向的角度。當(dāng)想要用第二駕駛過濾器替換這個(gè)第一駕駛過濾器時(shí),也許是因?yàn)榈诙{駛過濾器更有效并且需要較少的處理資源,只要第二過濾器具有相同的輸入和輸出,即骨骼數(shù)據(jù)類型的一個(gè)輸入以及置信度類型和角度類型的兩個(gè)輸出,則可以通過簡(jiǎn)單地用第二過濾器替換第一過濾器來實(shí)現(xiàn)。過濾器不需要有參數(shù)。例如,返回用戶身高的“用戶身高”過濾器不考慮可以被調(diào)整的參數(shù)。替代的“用戶身高”過濾器可以有可調(diào)參數(shù),例如用于在確定用戶身高時(shí)是否說明用戶的鞋子、發(fā)型、頭飾和姿勢(shì)。過濾器的輸入可以包括諸如與用戶的關(guān)節(jié)位置有關(guān)的關(guān)節(jié)數(shù)據(jù),在關(guān)節(jié)處相交的骨頭形成的可能角度,來自拍攝區(qū)域的RGB顏色數(shù)據(jù),以及用戶方面的變化速率等。過濾器的輸出可以包括諸如做出給定姿勢(shì)的置信度,做出姿勢(shì)動(dòng)作的速度,以及做出姿勢(shì)動(dòng)作的時(shí)間等。姿勢(shì)識(shí)別器引擎190可以具有向姿勢(shì)過濾器450提供功能的基識(shí)別器引擎。在實(shí)施例中,基識(shí)別器引擎456實(shí)現(xiàn)的功能包括跟蹤所識(shí)別的姿勢(shì)和其它輸入的跨時(shí)間輸入存檔,隱馬爾可夫模型實(shí)現(xiàn)過程(其中模型系統(tǒng)被假設(shè)為具有未知參數(shù)的馬爾可夫過程,在馬爾可夫過程中當(dāng)前狀態(tài)封裝確定未來狀態(tài)所需的任何過去狀態(tài)信息,從而為了這一目的不需要維護(hù)其它過去狀態(tài)信息,并且隱藏的參數(shù)由可觀測(cè)的數(shù)據(jù)確定),以及解決姿勢(shì)識(shí)別的特定實(shí)例所需的其它功能。過濾器450在基識(shí)別器引擎456的頂部被加載和實(shí)現(xiàn),并且可以使用由引擎456 向所有過濾器450提供的服務(wù)。在實(shí)施例中,基識(shí)別器引擎456處理接收到的數(shù)據(jù)以確定其是否滿足任何過濾器450的要求。由于例如解析輸出的這些提供的服務(wù)由基識(shí)別器引擎 456提供一次,而不是由每個(gè)過濾器450提供,因此這一服務(wù)在一時(shí)間段中僅需處理一次, 而不是在該時(shí)間段為每個(gè)過濾器450處理一次,從而減少了確定姿勢(shì)所需的處理。應(yīng)用程序可以使用由識(shí)別器引擎190提供的過濾器450,或者它可以提供插入基識(shí)別器引擎456的自己的過濾器450。在實(shí)施例中,所有過濾器450有共同的接口以啟用這一插件特征。此外,所有過濾器450可以使用參數(shù)454,從而以下所述的單個(gè)姿勢(shì)工具可以用于調(diào)試和調(diào)整整個(gè)過濾器系統(tǒng)??梢杂勺藙?shì)工具為應(yīng)用程序或應(yīng)用程序的上下文調(diào)整這些參數(shù)454。圖IOC示出連同手和手臂所做出的手勢(shì)分類使用的更精細(xì)的跟蹤模型。在該圖的左手邊示出做出“PAY (付款),,的姿勢(shì)的用戶。鄰近所示用戶示出對(duì)應(yīng)的跟蹤模型470。 圖IOC中的模型具有比圖IOA所示的模型更高的分辨率模型。圖IOC中的模型包括用戶的手480、手腕481、和用戶右臂的手肘483的元素,以及左臂的對(duì)應(yīng)元素484-486。如此處所示,當(dāng)用戶沿著動(dòng)作線519移動(dòng)手518時(shí),至少為點(diǎn)481 (從481a到481b)、482 (從482a到 482b)和483 (從483a到483b)跟蹤對(duì)應(yīng)的動(dòng)作。圖IOD和IOE示出和手勢(shì)一起使用的跟蹤模型。在圖IOD中,模型可以至少包括用于用戶的手的點(diǎn)804a-804m,以及手腕點(diǎn)808、手肘806、前臂802、上臂809和肩膀810。 圖IOE示出圖IOD的手模型800,該手模型示出使用ASL慣例的字母“a”、“b”和“C”的姿勢(shì)(為了清晰在圖IOE省略標(biāo)號(hào))。圖11和12示出由輸出生成器188在顯示器16上生成的輸出的兩個(gè)示例。在圖14 中,用戶在做付款的姿勢(shì),并且單詞“PAY(付款)”將出現(xiàn)在顯示器16上的19處。在這一情況下,緊靠著在窗口 27中提供的在21處用戶的表示定位了單詞“PAY (付款)”。表示21 可以是用戶的真實(shí)表示,或者依照名為“Auto Generating a Visual Representation (自動(dòng)生成視覺表示)”的第12/511850號(hào)美國(guó)專利申請(qǐng)的教導(dǎo)所生成的化身。如圖12所示,在19處可以示出一系列姿勢(shì)的完整上下文。在圖12中,用戶正在完成晚(late)的手勢(shì), 并且已經(jīng)在先前完成了定義多個(gè)單詞“我們到達(dá)”的一組手勢(shì)??梢砸勒毡炯夹g(shù)提供任何數(shù)量的不同類型的用戶接口。 雖然用結(jié)構(gòu)特征和/或方法動(dòng)作專用的語言描述了本主題,但應(yīng)當(dāng)理解,所附權(quán)利要求書中定義的主題不必限于上述的具體特征或動(dòng)作。相反,上述具體特征與動(dòng)作是作為實(shí)現(xiàn)所述權(quán)利要求書的示例性形式公開的。旨在由所附權(quán)利要求書定義本技術(shù)的范圍。
權(quán)利要求
1.一種用于翻譯手語的計(jì)算機(jī)實(shí)現(xiàn)的方法,包括 使用拍攝設(shè)備拍攝場(chǎng)景,所述場(chǎng)景包括人物目標(biāo); 跟蹤場(chǎng)景中人物目標(biāo)的動(dòng)作;檢測(cè)場(chǎng)景中人物目標(biāo)的一個(gè)或更多姿勢(shì); 將一個(gè)或更多姿勢(shì)與手語手勢(shì)庫(kù)比較; 確定一個(gè)或更多姿勢(shì)與一個(gè)或更多手勢(shì)之間的匹配;以及生成指示一個(gè)或更多手勢(shì)的視覺翻譯的輸出。
2.如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)方法,其特征在于,所述檢測(cè)步驟包括使用RGB照相機(jī)和深度照相機(jī)以檢測(cè)姿勢(shì)。
3.如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)方法,其特征在于,所述檢測(cè)步驟至少包括檢測(cè)第一和第二鄰近的姿勢(shì),并且所述確定包括確定第一和第二鄰近的姿勢(shì)分別與第一手勢(shì)和第二手勢(shì)的匹配。
4.如權(quán)利要求3所述的計(jì)算機(jī)實(shí)現(xiàn)方法,其特征在于,還包括相對(duì)于彼此比較第一和第二手勢(shì)以確定在第一手勢(shì)與第一姿勢(shì)之間匹配的準(zhǔn)確性。
5.如權(quán)利要求4所述的計(jì)算機(jī)實(shí)現(xiàn)方法,其特征在于,所述檢測(cè)步驟進(jìn)一步包括檢測(cè)第二手勢(shì)之后的第三手勢(shì),并且還包括將第一手勢(shì)和第三手勢(shì)與第二手勢(shì)比較以確定第二姿勢(shì)的第二手勢(shì)的準(zhǔn)確性。
6.如權(quán)利要求5所述的計(jì)算機(jī)實(shí)現(xiàn)方法,其特征在于,每個(gè)比較步驟包括確定每個(gè)手勢(shì)是否在語義學(xué)上下文中有意義。
7.如權(quán)利要求5所述的計(jì)算機(jī)實(shí)現(xiàn)方法,其特征在于,還包括獲取用戶人口統(tǒng)計(jì)信息的步驟,并且還包括將每個(gè)匹配與用戶人口統(tǒng)計(jì)信息比較以驗(yàn)證該匹配的準(zhǔn)確性。
8.如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)方法,其特征在于,所述確定匹配的步驟包括分配指示姿勢(shì)和手勢(shì)之間匹配的強(qiáng)度的概率權(quán)重。
9.如權(quán)利要求8所述的計(jì)算機(jī)實(shí)現(xiàn)方法,其特征在于,所述比較步驟包括基于獲取的用戶信息和語法信息以調(diào)節(jié)每個(gè)檢測(cè)到的手勢(shì)的概率權(quán)重,并且將每個(gè)概率權(quán)重與可能被分配給所檢測(cè)的姿勢(shì)的其它手勢(shì)比較。
10.如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)方法,其特征在于,所述確定匹配的步驟包括 分配第一手勢(shì)給所檢測(cè)的姿勢(shì);分配第二手勢(shì)給鄰近的所檢測(cè)的姿勢(shì);以及比較第一和第二手勢(shì)以驗(yàn)證第二手勢(shì)的準(zhǔn)確性。
全文摘要
本發(fā)明涉及基于機(jī)器的手語翻譯器。提供了用于基于用戶的動(dòng)作以執(zhí)行手語翻譯的計(jì)算機(jī)實(shí)現(xiàn)的方法。拍攝設(shè)備檢測(cè)定義姿勢(shì)的動(dòng)作,并且所檢測(cè)的姿勢(shì)被與手勢(shì)匹配。連續(xù)的手勢(shì)被檢測(cè)并且與語法庫(kù)比較以確定分配給姿勢(shì)的手勢(shì)相對(duì)于彼此以及語法上下文是否是有意義的??梢詫⒚總€(gè)手勢(shì)與前一和連續(xù)的手勢(shì)比較以確定手勢(shì)相對(duì)于彼此是否是有意義的。還可以進(jìn)一步將手勢(shì)與用戶人口統(tǒng)計(jì)信息和上下文數(shù)據(jù)庫(kù)比較以驗(yàn)證翻譯的準(zhǔn)確性。提供了動(dòng)作和手勢(shì)之間的匹配的輸出。
文檔編號(hào)G09B21/00GK102222431SQ20111015992
公開日2011年10月19日 申請(qǐng)日期2011年6月3日 優(yōu)先權(quán)日2010年6月4日
發(fā)明者J·塔迪夫 申請(qǐng)人:微軟公司