)”和“返回(back)”)區(qū)分開。因此,在這樣的歧義的情況中,物理空間的深度圖像數(shù)據(jù)可以用于檢測(cè)可以提供上下文以幫助確定所說(shuō)的一個(gè)或多個(gè)實(shí)際詞語(yǔ)的物體、行動(dòng)等。在“四分衛(wèi)(quarterback)”的具體示例中,可以分析深度圖像數(shù)據(jù)以確定幫助消除這些術(shù)語(yǔ)的歧義的物體和/或其它上下文線索的存在,諸如用戶手上的錢、足球有關(guān)物體(例如用戶坐在電視前觀看足球比賽)等。這樣的信息還可以使用在一些實(shí)例中以幫助消除同形同音異義詞的歧義,諸如“吃掉(ate)”和“八(eight),,。
[0019]計(jì)算系統(tǒng)102還可以被配置成與未在圖1中示出的一個(gè)或多個(gè)遠(yuǎn)程計(jì)算設(shè)備通信。例如,計(jì)算系統(tǒng)102可以直接從廣播器、第三方媒體遞送服務(wù)或其它內(nèi)容提供者接收視頻內(nèi)容。計(jì)算系統(tǒng)102還可以經(jīng)由因特網(wǎng)或另一網(wǎng)絡(luò)與一個(gè)或多個(gè)遠(yuǎn)程服務(wù)通信,例如以便分析所接收的音頻和/或圖像數(shù)據(jù)、執(zhí)行語(yǔ)音識(shí)別等。雖然圖1中描繪的實(shí)施例將計(jì)算系統(tǒng)102、顯示設(shè)備104和捕獲設(shè)備106示出為分離元件,但是在一些實(shí)施例中,一個(gè)或多個(gè)元件可以集成到公共設(shè)備中。
[0020]圖2示出描繪了用于識(shí)別用戶語(yǔ)音的方法200的實(shí)施例的流程圖。方法200可以由被配置成接收和處理諸如從捕獲設(shè)備106接收的信息之類的音頻和深度信息的計(jì)算設(shè)備執(zhí)行。
[0021]在202處,方法200包括從深度相機(jī)接收深度信息。如以上所解釋的,深度信息可以用于構(gòu)造包括一個(gè)或多個(gè)用戶的所成像的物理空間的深度圖。此外,還可以接收來(lái)自可見(jiàn)光相機(jī)的圖像信息。在204處,方法200包括接收經(jīng)由一個(gè)或多個(gè)麥克風(fēng)獲取的音頻信息,在一些實(shí)施例中所述麥克風(fēng)可以包括定向麥克風(fēng)。在206處,從音頻信息辨識(shí)一個(gè)或多個(gè)可能的口語(yǔ)詞語(yǔ)。一個(gè)或多個(gè)可能的口語(yǔ)詞語(yǔ)可以由計(jì)算設(shè)備通過(guò)使用任何合適的語(yǔ)音識(shí)別過(guò)程來(lái)辨識(shí)。
[0022]在208處,方法200包括基于一個(gè)或多個(gè)可能的口語(yǔ)詞語(yǔ)和深度信息來(lái)確定用于計(jì)算設(shè)備的語(yǔ)音輸入。語(yǔ)音輸入可以包括指示由計(jì)算設(shè)備執(zhí)行的行動(dòng)的命令、意圖在顯示設(shè)備上顯示和/或由計(jì)算設(shè)備記錄的內(nèi)容,和/或任何其它合適的語(yǔ)音輸入。
[0023]所辨識(shí)的可能的口語(yǔ)詞語(yǔ)和深度信息可以以任何合適的方式用于確定語(yǔ)音輸入。例如,如在210處指示的,用戶的嘴部、舌頭和/或喉嚨的移動(dòng)可以用于確定用戶說(shuō)出的可能的聲音和/或詞語(yǔ)。這些所辨識(shí)的可能聲音/詞語(yǔ)然后可以用于消除來(lái)自音頻信息的任何潛在歧義的可能口語(yǔ)詞語(yǔ)的歧義,和/或增加詞語(yǔ)辨識(shí)的確定性,如以下更詳細(xì)地描述的那樣。
[0024]類似地,在一些實(shí)施例中,嘴部、舌頭和/或喉嚨移動(dòng)可以用于獨(dú)立地確定可能的口語(yǔ)詞語(yǔ)的集合??赡艿目谡Z(yǔ)詞語(yǔ)的該集合可以類似地與從音頻信息確定的可能的口語(yǔ)詞語(yǔ)的集合比較以幫助消除來(lái)自音頻信息的詞語(yǔ)的正確辨識(shí)中的任何不確定性的歧義,向音頻數(shù)據(jù)添加任何潛在錯(cuò)過(guò)的詞語(yǔ)等。
[0025]如以上提到的,深度信息還可以用于辨識(shí)涉及可能的語(yǔ)音段的上下文元素,如在212處所指示的那樣。可以辨識(shí)任何合適的上下文元素。這樣的上下文元素的示例可以包括但不限于用戶的身份、用戶的情緒、用戶執(zhí)行的手勢(shì)、用戶的物理空間中的一個(gè)或多個(gè)物理物體等。從深度信息辨識(shí)的上下文元素可以用于確認(rèn)從音頻信息辨識(shí)的語(yǔ)音輸入、消除任何歧義的可能口語(yǔ)詞語(yǔ)的歧義(例如合成詞語(yǔ)、同形同音異義詞等)、將語(yǔ)音輸入置于期望的上下文中、利用定向麥克風(fēng)系統(tǒng)將說(shuō)話者從環(huán)境中的其他人隔離開、基于所辨識(shí)的用戶的已知語(yǔ)音屬性來(lái)調(diào)諧語(yǔ)音識(shí)別和/或用于任何其它合適的目的。
[0026]繼續(xù)圖2,方法200包括,在214處,基于語(yǔ)音輸入在計(jì)算設(shè)備上采取行動(dòng)。例如,可以執(zhí)行由命令語(yǔ)音輸入指示的行動(dòng),可以在顯示設(shè)備上顯示對(duì)應(yīng)于口語(yǔ)詞語(yǔ)的文本內(nèi)容等。另外,在一些實(shí)施例中,可以利用情緒狀態(tài)為文本內(nèi)容加標(biāo)簽,使得詞語(yǔ)可以具有取決于當(dāng)說(shuō)出詞語(yǔ)時(shí)檢測(cè)到的用戶情緒狀態(tài)的不同外觀。
[0027]圖3示出描繪了用于識(shí)別被配置成使計(jì)算設(shè)備執(zhí)行指定行動(dòng)的命令語(yǔ)音輸入的方法300的實(shí)施例的流程圖。方法300可以由被配置成接收和處理音頻和深度輸入的計(jì)算設(shè)備執(zhí)行。在302處,方法300包括從深度相機(jī)接收深度信息,并且在304處,從一個(gè)或多個(gè)麥克風(fēng)接收音頻信息。在306處,方法300包括從音頻信息辨識(shí)一個(gè)或多個(gè)可能的口語(yǔ),并且在308處,從深度信息辨識(shí)上下文元素。上下文元素可以包括但不限于如310處指示的用戶執(zhí)行的手勢(shì)(例如嘴部、喉嚨、舌頭、身體的移動(dòng)等)、如312處指示的用戶的物理狀態(tài)(例如用戶是否在坐著、蹲著或站著,用戶的嘴部張開還是閉著、用戶離顯示器多遠(yuǎn)、用戶的頭部的取向等)和/或如314處指示的用戶的情緒狀態(tài)。將理解的是,出于示例的目的而描述這些上下文元素,并且其不意圖以任何方式加以限制。
[0028]在316處,方法300包括比較口語(yǔ)詞語(yǔ)和所辨識(shí)的上下文元素??梢员容^口語(yǔ)詞語(yǔ)和上下文元素以基于從深度信息辨識(shí)的一個(gè)或多個(gè)上下文元素來(lái)確定例如口語(yǔ)詞語(yǔ)是否意圖作為引導(dǎo)計(jì)算設(shè)備執(zhí)行指定行動(dòng)的語(yǔ)音輸入。例如,由用戶執(zhí)行并且從深度信息辨識(shí)的特定手勢(shì)可以指示口語(yǔ)詞語(yǔ)意圖作為用戶輸入。作為更加具體的示例,用戶可以在說(shuō)話時(shí)在語(yǔ)音識(shí)別系統(tǒng)設(shè)備處引導(dǎo)手勢(shì)、諸如指向計(jì)算設(shè)備/顯示器/捕獲設(shè)備/等,和/或用戶可以執(zhí)行匹配與用戶輸入相關(guān)聯(lián)的已知手勢(shì)的手勢(shì)。
[0029]另外,用戶的頭部的取向可以用于確定口語(yǔ)詞語(yǔ)是否意圖作為用戶輸入。例如,如果用戶在說(shuō)話時(shí)看向特定方向,諸如朝向語(yǔ)音識(shí)別系統(tǒng)設(shè)備(例如顯示器、計(jì)算設(shè)備、捕獲設(shè)備等),可以確定所述詞語(yǔ)意圖作為對(duì)計(jì)算設(shè)備的用戶輸入。同樣地,如果用戶在說(shuō)話時(shí)看著物理空間中的另一用戶,可以指示詞語(yǔ)不意圖作為用戶輸入。
[0030]在另外的示例中,用戶的一個(gè)或多個(gè)情緒可以從深度數(shù)據(jù)確定并且用于確定口語(yǔ)詞語(yǔ)是否意圖作為用戶輸入。例如,如果用戶以命令和/或引導(dǎo)性方式行動(dòng)(例如從容、嚴(yán)肅、面無(wú)表情),可以指示詞語(yǔ)意圖作為用戶輸入。
[0031]在318處,方法300包括基于上下文信息從316處的比較確定口語(yǔ)詞語(yǔ)是否意圖作為用戶輸入。如果確定詞語(yǔ)意圖作為語(yǔ)音輸入,則方法300包括,在320處,經(jīng)由計(jì)算設(shè)備執(zhí)行與語(yǔ)音輸入相關(guān)聯(lián)的行動(dòng)。同樣地,如果確定詞語(yǔ)不意圖作為語(yǔ)音輸入,則方法300包括,在322處,不響應(yīng)于詞語(yǔ)經(jīng)由計(jì)算設(shè)備執(zhí)行行動(dòng)。
[0032]圖4示出描繪了用于從音頻和深度信息的組合來(lái)辨識(shí)口語(yǔ)詞語(yǔ)的方法400的實(shí)施例的流程圖。方法400可以由被配置成接收音頻和深度輸入的計(jì)算設(shè)備執(zhí)行,諸如計(jì)算設(shè)備 102。
[0033]在402處,方法400包括從深度相機(jī)接收深度信息,以及在404處,從一個(gè)或多個(gè)麥克風(fēng)接收音頻信息。在406處,從深度信息定位用戶嘴部、舌頭和喉嚨中的一個(gè)或多個(gè)。例如,可以在深度信息上執(zhí)行特征提取以確定每一個(gè)以上列舉的面部特征位于哪里。
[0034]在408處,可以辨識(shí)嘴部、舌頭和/或喉嚨的移動(dòng)。例如,可以追蹤用戶說(shuō)話時(shí)用戶嘴部的張開程度、舌頭的定位/形狀、用戶嘴唇的形狀/位置等以辨識(shí)移動(dòng)。
[0035]在410處,方法400可選地包括觸發(fā)語(yǔ)音識(shí)別以開始響應(yīng)于檢測(cè)到指示用戶在說(shuō)話的嘴部、舌頭和/或喉嚨的所辨識(shí)的移動(dòng)。以此方式,可以避免資源密集語(yǔ)音識(shí)別過(guò)程的操作,直至所辨識(shí)的移動(dòng)指示用戶實(shí)際在說(shuō)話。
[0036]在412處,方法400包括辨識(shí)用戶的語(yǔ)音輸入。如之前解釋的,語(yǔ)音輸入可以包括用于計(jì)算設(shè)備執(zhí)行行動(dòng)的命令,或者可以包括在顯示設(shè)備上顯示和/或保存的輸入(例如作為文本)。辨識(shí)語(yǔ)音輸入可以包括例如在414處從音頻信息辨識(shí)一個(gè)或多個(gè)可能的口語(yǔ)詞語(yǔ)。語(yǔ)音輸入可