[0054]另外,計算系統(tǒng)500可以包括骨架建模模塊512,其被配置成從深度相機520(以下描述)接收成像信息并且辨識和/或解釋由用戶執(zhí)行的一個或多個姿勢和手勢。計算系統(tǒng)500還可以包括辨識和/或解釋經由一個或多個麥克風(耦合到計算系統(tǒng)500或深度相機)檢測到的由用戶發(fā)布的一個或多個話音命令或口語詞語的話音識別模塊514。雖然將骨架建模模塊512和話音識別模塊514描繪為集成在計算系統(tǒng)500內,但是在一些實施例中,模塊中的一個或二者可以替代性地包括在深度相機520中。
[0055]計算系統(tǒng)500可以在操作上耦合到深度相機520。深度相機520可以包括紅外光522和深度相機524(還稱為紅外光相機),其被配置成獲取包括一個或多個人類主體的場景的視頻。該視頻可以包括適合用于本文所闡述的目的的空間分辨率和幀率的圖像的時間分辨序列。如以上參考圖1描述的,深度相機和/或協(xié)作計算系統(tǒng)(例如計算系統(tǒng)500)可以被配置成處理所獲取的視頻以辨識用戶的一個或多個姿勢和/或手勢,確定用戶的嘴部、舌頭和/或喉嚨的位置和追蹤其移動,并且將這樣的姿勢和/或手勢解釋為配置成控制計算系統(tǒng)500的各種方面的設備命令。
[0056]深度相機520可以包括配置成將深度相機520與一個或多個其它計算設備通信耦合的通信模塊526。通信模塊526可以包括與一個或多個不同通信協(xié)議兼容的有線和/或無線通信設備。在一個實施例中,通信模塊526可以包括向計算系統(tǒng)500發(fā)送成像信息(諸如所獲取的視頻)的成像接口 528。此外或可替換地,通信模塊526可以包括從計算系統(tǒng)500接收指令的控制接口 530??刂坪统上窠涌诳梢宰鳛榉蛛x接口提供,或者它們可以是相同接口。在一個示例中,控制接口 530和成像接口 528可以包括通用串行總線。
[0057]相機的性質和數(shù)目可以在與本公開的范圍一致的各種深度相機中不同。一般而言,一個或多個相機可以被配置成提供經由下游處理從其獲得三維深度圖的時間分辨序列的視頻。如本文所使用的,術語“深度圖”是指對準所成像的場景的對應區(qū)的像素陣列,其中每一個像素的深度值指示由該像素成像的表面的深度?!吧疃取倍x為平行于深度相機的光軸的坐標,其隨距深度相機的距離的增加而增加。
[0058]在一些實施例中,深度相機520可以包括右和左立體相機。來自兩個相機的時間分辨圖像可以對準彼此并且組合以產生深度分辨視頻。
[0059]在一些實施例中,“結構化光”深度相機可以被配置成投射包括許多離散特征(例如線或點)的結構化紅外光照。相機可以被配置成對從場景反射的結構化光照成像?;谒上竦膱鼍暗母鞣N區(qū)中的相鄰特征之間的間隔,可以構造場景的深度圖。
[0060]在一些實施例中,“飛行時間”深度相機可以包括被配置成將脈沖紅外光照投射到場景上的光源。兩個相機可以被配置成檢測從場景反射的脈沖光照。相機可以包括與脈沖光照同步的電子快門,但是針對相機的積分時間可以不同,使得從光源到場景并且然后到相機的脈沖光照的像素分辨的飛行時間從兩個相機的對應像素中接收的光的相對量可辨別。
[0061]深度相機520可以包括可見光相機532 (例如RGB相機)。來自顏色和深度相機的時間分辨圖像可以對準彼此并且組合以產生深度分辨顏色視頻。深度相機520和/或計算系統(tǒng)500還可以包括一個或多個麥克風534。一個或多個麥克風可以確定來自物理空間中的用戶和/或其它源的定向和/或非定向聲音。音頻數(shù)據(jù)可以通過一個或多個麥克風534記錄。這樣的音頻數(shù)據(jù)可以以任何適合的方式確定而不脫離于本公開的范圍。
[0062]雖然在圖5中將深度相機520和計算系統(tǒng)500描繪為分離設備,但是在一些實施例中深度相機520和計算系統(tǒng)500可以包括在單個設備中。因此,深度相機520可以可選地包括計算系統(tǒng)500。
[0063]將理解的是,本文所描述的配置和/或方案在性質上是示例性的,并且不以限制性含義來考慮這些具體實施例或示例,因為許多變型是可能的。本文所描述的具體例程或方法可以表示任何數(shù)目的處理策略中的一個或多個。這樣,所圖示和/或描述的各種動作可以在所圖示和/或描述的序列中、在其它序列中、并行地執(zhí)行,或者省略。同樣地,以上描述的過程的順序可以改變。
[0064]本公開的主題包括本文所公開的各種過程、系統(tǒng)和配置以及其它特征、功能、動作和/或屬性及其任何和全部等同物的所有新穎和非顯而易見的組合和子組合。
【主權項】
1.在計算設備上,一種用于識別用戶的語音的方法,包括: 從深度相機接收物理空間的深度信息; 從一個或多個麥克風接收音頻信息; 從音頻信息辨識一個或多個可能的口語詞語的集合; 基于將來自音頻信息的所述一個或多個可能的口語詞語的集合與深度信息比較,確定用于計算設備的語音輸入;以及 基于所確定的語音輸入在計算設備上采取行動。
2.權利要求1的方法,還包括在來自深度相機的深度信息、來自定向麥克風的音頻信息和來自可見光相機的圖像信息中的一個或多個中辨識上下文元素,以及將來自音頻信息的一個或多個可能的口語詞語的集合與所述上下文元素比較以確定語音輸入。
3.權利要求2的方法,其中辨識上下文元素包括以下中的一個或多個:基于深度信息和來自可見光相機的信息中的一個或多個來確定用戶的身份,確定用戶的情緒狀態(tài),確定用戶的物理狀態(tài),確定用戶執(zhí)行的手勢,和辨識用戶的物理空間中的一個或多個物體。
4.權利要求1的方法,還包括從深度信息辨識一個或多個可能的口語聲音和/或詞語的集合以及將經由音頻信息辨識的所述一個或多個可能的口語詞語的集合與經由深度信息辨識的所述一個或多個可能的口語聲音和/或詞語的集合比較以確定語音輸入。
5.權利要求4的方法,其中從深度信息辨識一個或多個可能的口語聲音和/或詞語的集合還包括:辨識用戶的一個或多個嘴部、舌頭和/或喉嚨移動,以及基于移動辨識一個或多個可能的口語聲音和/或詞語的集合。
6.權利要求1的方法,其中語音輸入包括命令,并且其中采取行動包括執(zhí)行命令。
7.權利要求1的方法,還包括基于嘴部移動和注視方向中的一個或多個來辨識多個用戶中的哪個用戶在說話。
8.權利要求1的方法,其中語音輸入是要存儲的內容,并且其中采取行動包括存儲內容。
9.權利要求1的方法,其中語音輸入包括要在顯示器上顯示的內容,并且其中采取行動包括向顯示設備發(fā)送內容。
10.權利要求1的方法,其中基于所辨識的用戶的手部移動確定可能的口語聲音和/或詞語之間的邊界。
【專利摘要】公開了涉及使用深度成像來擴充語音識別的實施例。例如,一個所公開的實施例在計算設備上提供了一種方法,其包括從深度相機接收物理空間的深度信息,從一個或多個麥克風接收音頻信息,從音頻信息辨識一個或多個可能的口語詞語的集合,基于將來自音頻信息的一個或多個可能的口語詞語的集合與深度信息比較,確定用于計算設備的語音輸入,以及基于所確定的語音輸入在計算設備上采取行動。
【IPC分類】G06F3-01, G10L15-24
【公開號】CN104823234
【申請?zhí)枴緾N201380055810
【發(fā)明人】J.卡普爾, I.塔舍夫, M.塞爾策爾, S.E.霍奇斯
【申請人】微軟技術許可有限責任公司
【公開日】2015年8月5日
【申請日】2013年10月18日
【公告號】EP2912659A1, US20140122086, WO2014066192A1