以以任何合適的方式從音頻數(shù)據(jù)辨識。另外,如416處指示的,辨識語音輸入可以包括從深度信息辨識一個或多個可能的聲音、詞語和/或詞語片段。例如,用戶的嘴部、舌頭和/或喉嚨移動可以用于辨識聲音、詞語等。
[0037]辨識語音輸入還可以包括,在418處,比較從音頻信息辨識的一個或多個可能的口語詞語與從深度信息辨識的一個或多個可能的口語詞語或聲音。這可以幫助增加經(jīng)由音頻信息辨識的可能口語詞語的置信度,以幫助消除可能歧義語音的歧義(例如,經(jīng)由手部運動分析來辨識詞語之間的邊界),辨識在音頻數(shù)據(jù)中錯過的附加詞語,和/或可以以任何其它合適的方式使用。
[0038]作為更加具體的示例,可以分析用戶嘴部、舌頭和/或喉嚨的移動(例如通過從深度圖像提取移動數(shù)據(jù)并且將一個或多個分類功能應(yīng)用于移動數(shù)據(jù))以辨識說出的可能詞語/聲音。另外,在一些實施例中,可以將置信度得分應(yīng)用于說出的可能詞語/聲音。然后,可以將從深度信息確定的所確定的可能的口語詞語/聲音與從音頻信息確定的可能口語詞語比較,在一些實施例中,后者同樣可以包括置信度得分數(shù)據(jù)。從該比較,可以例如從最高組合置信度得分或其它合適的度量來辨識一個或多個最可能的口語詞語。將理解的是,任何合適的機制可以用于比較經(jīng)由深度信息辨識的可能的口語聲音/詞語和經(jīng)由音頻信息辨識的可能的口語詞語。
[0039]在420處,方法400包括基于語音輸入采取行動。如以上所描述的,可以采取任何合適的行動。例如,所辨識的語音可以用作使計算設(shè)備采取行動的命令輸入,可以作為內(nèi)容顯示和/或保存,可以用于基于說話時所確定的用戶的情緒狀態(tài)來標記內(nèi)容,和/或任何其它合適的行動。
[0040]在一些實施例中,以上描述的方法和過程可以關(guān)系到包括一個或多個計算機的計算系統(tǒng)。特別地,本文所描述的方法和過程可以實現(xiàn)為計算機應(yīng)用、計算機服務(wù)、計算機AP1、計算機庫和/或其它計算機程序廣品。
[0041]圖5示意性地示出可以實施以上描述的方法和過程中的一個或多個的計算系統(tǒng)500的非限制性實施例。計算系統(tǒng)500是計算系統(tǒng)102的一個非限制性示例。以簡化形式示出計算系統(tǒng)500。將理解的是,實際上可以使用任何計算機架構(gòu)而不脫離于本公開的范圍。在不同實施例中,計算系統(tǒng)500可以采取主機計算機、服務(wù)器計算機、臺式計算機、膝上型計算機、平板計算機、家庭娛樂計算機、網(wǎng)絡(luò)計算設(shè)備、游戲設(shè)備、移動計算設(shè)備、移動通信設(shè)備(例如智能電話)等的形式。
[0042]計算系統(tǒng)500包括邏輯子系統(tǒng)502和存儲子系統(tǒng)504。計算系統(tǒng)500可以可選地包括顯示子系統(tǒng)506、輸入子系統(tǒng)508、通信子系統(tǒng)510和/或圖5中未示出的其它組件。
[0043]邏輯子系統(tǒng)502包括被配置成施行指令的一個或多個物理設(shè)備。例如,邏輯子系統(tǒng)可以被配置成施行作為一個或多個應(yīng)用、服務(wù)、程序、例程、庫、對象、組件、數(shù)據(jù)結(jié)構(gòu)或其它邏輯構(gòu)造的部分的指令。這樣的指令可以實現(xiàn)成執(zhí)行任務(wù)、實現(xiàn)數(shù)據(jù)類型、變換一個或多個組件的狀態(tài)或以其它方式達到期望的結(jié)果。
[0044]邏輯子系統(tǒng)可以包括被配置成施行軟件指令的一個或多個處理器。此外或可替換地,邏輯子系統(tǒng)可以包括配置成施行硬件或固件指令的一個或多個硬件或固件邏輯機器。邏輯子系統(tǒng)的處理器可以是單核或多核的,并且在其上施行的程序可以被配置用于串行、并行或分布式處理。邏輯子系統(tǒng)可以可選地包括分布在兩個或多個設(shè)備之中的各個組件,其可以遠程定位和/或配置用于協(xié)同處理。邏輯子系統(tǒng)的各方面可以虛擬化并且由以云計算配置進行配置的遠程可訪問、聯(lián)網(wǎng)的計算設(shè)備施行。
[0045]存儲子系統(tǒng)504包括一個或多個物理、非暫時性設(shè)備,其被配置成持有數(shù)據(jù)和/或由邏輯子系統(tǒng)可執(zhí)行以實現(xiàn)本文所描述的方法和過程的指令。當(dāng)這樣的方法和過程被實現(xiàn)時,存儲子系統(tǒng)504的狀態(tài)可以變換一一例如以持有不同數(shù)據(jù)。
[0046]存儲子系統(tǒng)504可以包括可移除媒體和/或內(nèi)置設(shè)備。存儲子系統(tǒng)504可以尤其包括光學(xué)存儲器設(shè)備(例如⑶、DVD, HD-DVD、藍光盤等)、半導(dǎo)體存儲器設(shè)備(例如RAM、EPROM, EEPROM等)和/或磁性存儲器設(shè)備(例如硬盤驅(qū)動、軟盤驅(qū)動、磁帶驅(qū)動、MRAM等)。存儲子系統(tǒng)504可以包括易失性、非易失性、動態(tài)、靜態(tài)、讀取/寫入、只讀、隨機存取、串行存取、位置可尋址、文件可尋址和/或內(nèi)容可尋址設(shè)備。
[0047]將領(lǐng)會的是,存儲子系統(tǒng)504包括一個或多個物理、非暫時性設(shè)備。然而,在一些實施例中,本文所描述的指令的各方面可以以暫時性方式通過未在有限持續(xù)時間內(nèi)被物理設(shè)備持有的純信號(例如電磁信號、光學(xué)信號等)傳播。另外,關(guān)于本公開的數(shù)據(jù)和/或其它形式的信息可以通過純信號傳播。
[0048]在一些實施例中,邏輯子系統(tǒng)502和存儲子系統(tǒng)504的各方面可以一起集成到本文所描述的功能性可以通過其實施的一個或多個硬件邏輯組件中。這樣的硬件邏輯組件可以例如包括現(xiàn)場可編程門陣列(FPGA)、程序和應(yīng)用特定集成電路(PASIC/ASIC)、程序和應(yīng)用特定標準產(chǎn)品(PSSP/ASSP)、片上系統(tǒng)(SOC)系統(tǒng)和復(fù)雜可編程邏輯器件(CPLD)。
[0049]術(shù)語“模塊”可以用于描述實現(xiàn)成執(zhí)行特定功能的計算系統(tǒng)500的一方面。在一些情況中,模塊可以經(jīng)由施行由存儲子系統(tǒng)504持有的指令的邏輯子系統(tǒng)502實例化。將理解的是,不同模塊可以從相同應(yīng)用、服務(wù)、代碼塊、對象、庫、例程、AP1、功能等實例化。同樣地,相同模塊可以通過不同應(yīng)用、服務(wù)、代碼塊、對象、例程、AP1、功能等實例化。術(shù)語“模塊”可以涵蓋可執(zhí)行文件、數(shù)據(jù)文件、庫、驅(qū)動器、腳本、數(shù)據(jù)庫記錄等中的單個或群組。
[0050]將領(lǐng)會的是,如本文所使用的“服務(wù)”是跨多個用戶會話可執(zhí)行的應(yīng)用程序。服務(wù)可以對一個或多個系統(tǒng)組件、程序和/或其它服務(wù)可用。在一些實現(xiàn)方式中,服務(wù)可以運行在一個或多個服務(wù)器計算設(shè)備上。
[0051]當(dāng)包括時,顯示子系統(tǒng)506可以用于呈現(xiàn)由存儲子系統(tǒng)504持有的數(shù)據(jù)的視覺表示。該視覺表示可以采取圖形用戶接口(GUI)的形式。由于本文所描述的方法和過程改變存儲子系統(tǒng)持有的數(shù)據(jù),并且因而變換存儲子系統(tǒng)的狀態(tài),因此顯示子系統(tǒng)506的狀態(tài)可以同樣地變換成在視覺上表示底層數(shù)據(jù)中的改變。顯示子系統(tǒng)506可以包括實際上利用任何類型的技術(shù)的一個或多個顯示設(shè)備。這樣的顯示設(shè)備可以與邏輯子系統(tǒng)502和/或存儲子系統(tǒng)504組合在共享外殼中,或者這樣的顯示設(shè)備可以是外圍顯示設(shè)備。
[0052]當(dāng)被包括時,輸入子系統(tǒng)508可以包括諸如鍵盤、鼠標、觸摸屏或游戲控制器之類的一個或多個用戶輸入設(shè)備或與其對接。在一些實施例中,輸入子系統(tǒng)可以包括所選自然用戶輸入(NUI)組件部分或者與其對接。這樣的組件部分可以是集成的或外圍的,并且輸入行動的換能和/或處理可以在板上或者板外處置。示例NUI組件部分可以包括用于語音和/或話音識別的一個或多個麥克風(fēng);用于機器視覺和/或手勢識別的紅外、顏色、立體和/或深度相機;用于運動檢測和/或意圖識別的頭部追蹤器、眼睛追蹤器、加速度計和/或陀螺儀;以及用于評估腦部活動的電場感測組件部分。
[0053]當(dāng)被包括時,通信子系統(tǒng)510可以被配置成將計算系統(tǒng)500與一個或多個其它計算設(shè)備通信耦合。通信子系統(tǒng)510可以包括與一個或多個不同通信協(xié)議兼容的有線和/或無線通信設(shè)備。作為非限制性示例,通信子系統(tǒng)可以被配置用于經(jīng)由無線電話網(wǎng)絡(luò)或者有線或無線局域或廣域網(wǎng)的通信。在一些實施例中,通信子系統(tǒng)可以允許計算系統(tǒng)500經(jīng)由諸如因特網(wǎng)之類的網(wǎng)絡(luò)向其它設(shè)備發(fā)送和/或從其它設(shè)備接收消息。