利用深度成像擴充語音識別的制作方法
【專利說明】
【背景技術(shù)】
[0001]計算機化語音識別設(shè)法辨識來自音頻信息、諸如來自經(jīng)由一個或多個麥克風(fēng)接收的音頻信號的口語詞語。然而,在辨識音頻信息中的口語詞語中可能出現(xiàn)歧義。另外,口語詞語的上下文(例如口語詞語是否意圖作為對計算設(shè)備的語音輸入)可能無法從這樣的音頻信息容易地確定。
【發(fā)明內(nèi)容】
[0002]公開了涉及擴充語音識別的深度成像的使用的實施例。例如,一個公開的實施例在計算設(shè)備上提供了一種方法,其包括從深度相機接收物理空間的深度信息,從一個或多個麥克風(fēng)接收音頻信息,從音頻信息辨識一個或多個可能的口語詞語的集合,基于將來自音頻信息的一個或多個可能的口語詞語的集合與深度信息比較,確定用于計算設(shè)備的語音輸入,以及基于所確定的語音輸入在計算設(shè)備上采取行動。
[0003]提供本
【發(fā)明內(nèi)容】
來以簡化的形式引入在以下【具體實施方式】中進一步描述的概念的選擇。本
【發(fā)明內(nèi)容】
不意圖辨識所要求保護的主題的關(guān)鍵特征或本質(zhì)特征,也不意圖用于限制所要求保護的主題的范圍。另外,所要求保護的主題不限于解決在本公開的任何部分中指出的任何或全部缺點的實現(xiàn)方式。
【附圖說明】
[0004]圖1示出根據(jù)本公開的實施例的語音識別環(huán)境的示意性示例。
[0005]圖2是圖示了根據(jù)本公開的實施例的用于識別語音的方法的流程圖。
[0006]圖3是圖示了根據(jù)本公開的另一實施例的用于識別語音的方法的流程圖。
[0007]圖4是圖示了根據(jù)本公開另外的實施例的用于識別語音的方法的流程圖。
[0008]圖5示意性地示出非限制性計算系統(tǒng)。
【具體實施方式】
[0009]計算機化語音識別可能構(gòu)成各種挑戰(zhàn)。例如,各個詞語的發(fā)音、口音、尖利性、語氣、瑕疵/語言障礙和人類語音的其它變量可能廣泛地在用戶之間不同。此外,回聲和/或噪音和在其中說出詞語的房間中的其它不想要的聲音(例如擴音器、真空清潔器等)可能妨礙語音識別。另外,在其中說出所識別的詞語的上下文可能影響如所識別的語音段是否意圖作為語音輸入的這樣的因素。
[0010]因此,公開了涉及利用在從深度相機接收的深度信息中辨識的字面和/或上下文信息來擴充語音識別過程的實施例。例如,在一些實施例中,說話者的嘴部、舌頭和/或喉嚨的移動可以從深度信息辨識并且用于確認經(jīng)由音頻數(shù)據(jù)辨識的可能口語詞語的身份,辨識在音頻數(shù)據(jù)中未檢測到的詞語等。此外,在一些實施例中,由說話者執(zhí)行的手勢、姿勢可以從深度信息辨識并且用于將所辨識的詞語置于所期望的上下文中,諸如確認所辨識的口語詞語意圖作為對計算設(shè)備的輸入。如本文所使用的術(shù)語“語音識別”可以包括詞語識別、說話者識別(例如環(huán)境中的兩個或更多用戶中的哪個正在說話)、語義識別、情緒識別和/或使用環(huán)境中的語音的任何其它合適方面的識別。
[0011]圖1示出語音識別環(huán)境100的非限制性示例。具體地,圖1示出以可以用于玩各種各樣不同的游戲、播放一個或多個不同媒體類型和/或控制或操縱非游戲應(yīng)用和/或操作系統(tǒng)的娛樂控制臺形式的計算系統(tǒng)102。圖1還示出諸如電視或計算機監(jiān)視器之類的顯示設(shè)備104,其可以用于向用戶呈現(xiàn)媒體內(nèi)容、游戲視覺、非游戲計算內(nèi)容等。
[0012]語音識別環(huán)境100還包括以在視覺上監(jiān)視或追蹤所觀察的場景內(nèi)的物體和用戶的深度相機形式的捕獲設(shè)備106。捕獲設(shè)備106可以在經(jīng)由一個或多個接口在操作上連接到計算系統(tǒng)102。作為非限制性示例,計算系統(tǒng)102可以包括捕獲設(shè)備106可以連接到的通用串行總線。捕獲設(shè)備106可以用于識別、分析和/或追蹤物理空間內(nèi)的一個或多個人類主體和/或物體,諸如用戶108。在一個非限制性示例中,捕獲設(shè)備106可以包括將紅外光投射到物理空間上的紅外光源和被配置成接收紅外光的深度相機。捕獲設(shè)備還可以包括其它傳感器,包括但不限于(多個)二維圖像傳感器(例如諸如RGB圖像傳感器之類的可見光相機和/或灰度級傳感器)和一個或多個麥克風(fēng)(例如定向麥克風(fēng)陣列)。雖然描繪為向娛樂控制臺提供輸入,但是將理解的是,深度相機可以用于提供與用于任何合適的計算系統(tǒng)的語音識別相關(guān)的輸入,并且可以使用在非游戲環(huán)境中。
[0013]為了對物理空間內(nèi)的物體成像,紅外光源可以發(fā)射被物理空間中的物體反射開并且被深度相機接收的紅外光?;谒邮盏募t外光,可以構(gòu)造物理空間的深度圖。捕獲設(shè)備106可以向計算系統(tǒng)102輸出從紅外光得到的深度圖,其中其可以用于創(chuàng)建由深度相機成像的物理空間的表示。捕獲設(shè)備還可以用于識別物理空間中的物體、監(jiān)視一個或多個用戶的移動、執(zhí)行手勢識別等??梢蕴摂M地使用任何深度發(fā)現(xiàn)技術(shù)而不脫離于本公開的范圍。參考圖5更詳細地討論示例深度發(fā)現(xiàn)技術(shù)。
[0014]圖1還示出其中捕獲設(shè)備106追蹤用戶108使得用戶的移動可以由計算系統(tǒng)102解釋的場景。具體地,可以監(jiān)視用戶108的嘴部、舌頭和/或喉嚨的移動以確定用戶108是否在說話。如果用戶108在說話,可以分析由計算系統(tǒng)102 (例如經(jīng)由合并到捕獲設(shè)備106中和/或位于捕獲設(shè)備106外部的一個或多個麥克風(fēng))接收的音頻信息以識別由用戶所說的一個或多個詞語。嘴部、舌頭和/或喉嚨移動還可以用于擴充辨識口語詞語的過程,例如通過確認說出所辨識的詞語,添加附加所辨識的詞語等。
[0015]來自捕獲設(shè)備的信息還可以用于確定所辨識的口語詞語的各種上下文元素。例如,如果附加用戶(諸如用戶110)存在于物理空間中,可以通過將口語詞語與物理空間中的一個或多個用戶的嘴部/喉嚨/舌頭移動進行比較來將從其接收到口語詞語的用戶與其它用戶區(qū)分開。另外,面部識別、說話者辨識(例如基于用戶的高度、體型、步態(tài)等)和/或其它合適的技術(shù)還可以被用于確定說話人員的身份。還可以追蹤房間中的一個或多個用戶的相對位置和/或取向以幫助確定說話者是否在做出語音輸入。例如,如果用戶在說話時未面向捕獲設(shè)備,可以確定用戶并未向系統(tǒng)說話。同樣,在多個用戶對捕獲設(shè)備可見時,用戶是否面向捕獲設(shè)備可以用作辨識哪個人員做出語音輸入的信息。
[0016]另外,一旦已經(jīng)辨識到一個或多個用戶,可以追蹤一個或多個用戶(例如經(jīng)由捕獲設(shè)備)。這可以幫助促進將來所識別的語音與所辨識的說話者的高效匹配,并且因而幫助快速辨識要針對特定用戶使用哪個語音識別模型/參數(shù)(例如針對該用戶調(diào)諧語音識別)。
[0017]另外,經(jīng)由來自捕獲設(shè)備106的信息辨識的用戶108執(zhí)行的手勢可以用于辨識涉及所辨識的口語詞語的上下文信息。例如,如果用戶108說話時意圖經(jīng)由話音命令控制計算系統(tǒng)102,用戶108可以執(zhí)行可以指示該意圖的一個或多個手勢和/或姿勢,從容地或以其它方式。示例包括但不限于指向顯示設(shè)備104、在說話時看向計算系統(tǒng)102或顯示設(shè)備104,或者執(zhí)行與所識別的用戶輸入相關(guān)聯(lián)的特定手勢。因此,通過辨識由用戶108執(zhí)行的手勢以及辨識口語詞語,可以做出用戶控制計算設(shè)備的意圖的確定。同樣地,在一些實施例中,如果在說話時用戶108看著另一用戶,手勢朝向另一用戶等,可能不意味著控制計算設(shè)備的意圖。
[0018]可以從接收自捕獲設(shè)備106的信息同樣地確定其它類型的上下文信息。例如,在一些實施例中,用戶108在說話時的情緒狀態(tài)可以通過來自深度信息的用戶108的面部和/或身體特征、姿勢、手勢等來確定。作為又一示例,所成像的物理空間中的物體可以被辨識并且用于區(qū)分有歧義的詞語。例如,諸如“四分衛(wèi)(quarterback)”之類的合成詞語可能難以從構(gòu)成合成詞語的各個詞語(“四分之一(quarter