專利名稱:用于移動設(shè)備的語音識別系統(tǒng)和方法
用于移動設(shè)備的語音識別系統(tǒng)和方法技術(shù)領(lǐng)域
本發(fā)明一般地涉及語音信號處理領(lǐng)域,特別地涉及一種用于移動設(shè)備的對用戶語音輸入執(zhí)行識別的方法和裝置。
背景技術(shù):
實(shí)現(xiàn)人機(jī)之間人性化、智能化的有效交互,構(gòu)建高效自然的人機(jī)交流環(huán)境,已經(jīng)成為當(dāng)前信息技術(shù)應(yīng)用和發(fā)展的迫切需求。特別是近年來隨著無線通訊網(wǎng)絡(luò)的普及,各種智能化的便攜式移動設(shè)備在人們生活中發(fā)揮了越來越重要的作用,日益增多的人機(jī)交互要求一種新的針對小屏幕設(shè)備的更為高效自然的交互手段。語音作為最自然人性的交互手段正發(fā)揮了越來越重要的作用。例如用戶在開車等不方便撥打電話時希望可以通過語音輸入如 “打電話給王治國”來操控移動設(shè)備,又或者在短消息編輯等需要文字輸入時希望直接通過語音輸入和語音識別來實(shí)現(xiàn)。
目前已經(jīng)提出了多種語音識別技術(shù)。例如,在S.J. Young等人的“Token Passing A Simple Conceptual Model for Connected Speech Recognition Systems”, Technical Report CUED/F-INFENG/TR38, Cambridge University Engineering Dept, 1989,中公開了一種基于受限語法網(wǎng)絡(luò)的語言識別系統(tǒng)。該系統(tǒng)對于簡短的語音命令能夠?qū)崿F(xiàn)準(zhǔn)確高效的識別,然而在隨意說的普遍情況下,往往不能工作。
例如,在AubertX.等人的“Large Vocabulary Continuous Speech Recognition of Wall Street Journal Corpus. " , Proc. ICASSP; 94, Adelaide, Australia, Vol. II, PP. 129-132,1994,中公開了基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)的語言識別系統(tǒng)。然而,這種語音識別系統(tǒng)的一個缺點(diǎn)在于需要在由大規(guī)模聲學(xué)模型和通用語言模型構(gòu)成的巨大的搜索空間中搜索最優(yōu)路徑,簡短語音命令需要的快速準(zhǔn)確響應(yīng)往往得不到保障。
因此,需要一種新的用于移動設(shè)備的語音識別方法和系統(tǒng),其能夠?qū)崿F(xiàn)在語音識別的準(zhǔn)確度和效率之間平衡,提供對簡短語音命令的快速準(zhǔn)確響應(yīng),以及提供隨意說的語首識別支持。發(fā)明內(nèi)容
為了實(shí)現(xiàn)上述目的,本發(fā)明的實(shí)施例提出了一種新的語音識別方法和裝置,其支持對連續(xù)語音輸入的智能響應(yīng)及對簡短語音命令的快速響應(yīng)。
根據(jù)本發(fā)明的一個方面,提供了一種用于移動設(shè)備的語音識別方法,包括獲取用戶語音輸入;基于受限語法識別網(wǎng)絡(luò)識別所述語音輸入以獲得第一識別結(jié)果;響應(yīng)于第一識別結(jié)果不滿足識別可接受條件,在本地端或通過向服務(wù)器端傳輸語音信號執(zhí)行基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)識別所述語音輸入以獲得第二識別結(jié)果;以及選擇所述第一和第二識別結(jié)果中的優(yōu)選者作為所述語音輸入的最終解碼結(jié)果。
根據(jù)本發(fā)明的另一個方面,提供了一種用于移動設(shè)備的語音識別系統(tǒng),包括獲取裝置,用于獲取用戶語音輸入;第一識別裝置,用于基于受限語法識別網(wǎng)絡(luò)識別所述語音輸入以獲得第一識別結(jié)果;第二識別裝置,用于響應(yīng)于第一識別結(jié)果不滿足識別可接受條件, 基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)識別所述語音輸入以獲得第二識別結(jié)果;以及解碼確定裝置,用于選擇所述第一和第二識別結(jié)果中的優(yōu)選者作為所述語音輸入的最終解碼結(jié)果。
根據(jù)本發(fā)明的方案具有如下特點(diǎn)
用戶可以在統(tǒng)一系統(tǒng)界面下實(shí)現(xiàn)對各類語音輸入命令的識別,
可以響應(yīng)用戶自由隨意說的語音識別,
可以快速準(zhǔn)確響應(yīng)簡短語音命令識別,
對本地移動設(shè)備關(guān)聯(lián)的特定信息能實(shí)現(xiàn)準(zhǔn)確識別。
通過結(jié)合附圖參考下面對本發(fā)明的實(shí)施方式的詳細(xì)描述,本發(fā)明的上述以及其他特征將更加明顯。在附圖中,
圖1示意性地示出了根據(jù)本發(fā)明一個實(shí)施例的用于移動設(shè)備的語音識別的方法的流程圖2示出了根據(jù)本發(fā)明的一個實(shí)施例的示例受限語法識別網(wǎng)絡(luò);
圖3示出了根據(jù)本發(fā)明的一個實(shí)施例的判斷語音輸入的識別結(jié)果是否滿足識別可接受條件的判斷流程圖4示出了根據(jù)本發(fā)明的一個優(yōu)選實(shí)施例的用于基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)的連續(xù)語音識別的改進(jìn)的Viterbi搜索方法的流程圖5示意性地示出了根據(jù)本發(fā)明的一個實(shí)施例的綜合評判識別結(jié)果確定語音輸入的最終解碼結(jié)果的流程圖6示出了根據(jù)本發(fā)明一個實(shí)施例的用于移動設(shè)備的語音識別系統(tǒng)的框圖7示出了在其中可以實(shí)現(xiàn)本發(fā)明的實(shí)施例的移動設(shè)備的示意框圖。
在附圖中,相同或?qū)?yīng)的標(biāo)號表示相同或?qū)?yīng)的部分。
具體實(shí)施方式
在下文中,將參考附圖通過實(shí)施方式對本發(fā)明的用于移動設(shè)備的語音識別方法和裝置進(jìn)行詳細(xì)的描述。應(yīng)當(dāng)理解,給出這些實(shí)施例僅僅是為了使本領(lǐng)域技術(shù)人員能夠更好地理解進(jìn)而實(shí)現(xiàn)本發(fā)明,而并非以任何方式限制本發(fā)明的范圍。
下文中將主要以個人移動電話為例說明本發(fā)明,但是本發(fā)明可以用于各種可支持語音輸入功能的設(shè)備,而不局限于移動電話。例如,本發(fā)明還可以用于個人數(shù)字助理(PDA)、 多媒體音樂播放器、平板計(jì)算機(jī)等等。
在移動設(shè)備中,隨著移動設(shè)備越來越多的承擔(dān)起個人助理的職責(zé),通常存在各種需要通過語音與設(shè)備交互的情形。在一些情況下,用戶可能期望通過簡短的語音命令來控制移動設(shè)備的操作。例如,可以通過語音命令來控制移動設(shè)備上的各種應(yīng)用的啟用或者結(jié)束。諸如,用戶可能希望通過語音命令“打電話給張三”來啟用對張三的電話呼叫,其中張三可以是該移動設(shè)備上的通訊錄中的聯(lián)系人之一。在另一些情況下,用戶可能希望更自然地使用隨意說的方式來與設(shè)備進(jìn)行交互。例如希望通過語音輸入“告訴張三今晚公司7點(diǎn)到3樓會議室開會”來讓設(shè)備給通信錄中的聯(lián)系人張三發(fā)送具有相應(yīng)內(nèi)容“今晚公司7點(diǎn)到3樓會議室開會”的短消息。顯然為了實(shí)現(xiàn)對用戶的各類語音輸入命令的正確執(zhí)行,其首要條件就是要正確的識別其語音內(nèi)容。
通?;谑芟拚Z法識別網(wǎng)絡(luò)的語音識別系統(tǒng)往往僅能夠處理簡短語音命令,而對隨意說的情況則不能很好處理。相反基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)的語音識別系統(tǒng)則又不適合于對簡短語音命令的快速響應(yīng)。目前的語音應(yīng)用通常是針對具體應(yīng)用程序的,用戶首先選擇進(jìn)入指定的程序后系統(tǒng)再根據(jù)應(yīng)用環(huán)境選擇相應(yīng)的識別系統(tǒng)。例如,用戶在實(shí)施語音撥打電話的功能時,往往首先進(jìn)入命令控制程序,然后系統(tǒng)利用基于受限語法識別網(wǎng)絡(luò)的語音識別系統(tǒng)響應(yīng)用戶的簡短撥號命令,如“打電話給張三”,“給張三打電話”等。再如在短消息編輯輸入等需要實(shí)現(xiàn)隨意語音轉(zhuǎn)寫應(yīng)用時,用戶在選擇進(jìn)入短消息應(yīng)用程序后由系統(tǒng)根據(jù)應(yīng)用環(huán)境相應(yīng)地選擇基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)的語音識別系統(tǒng),響應(yīng)用戶的連續(xù)自由輸入。這種通過預(yù)先選定具體應(yīng)用程序,再啟用語音功能的人機(jī)交互方式顯得并不是很自然人性。
針對上述情況,本發(fā)明的實(shí)施例提出了一種新的語音識別方法和裝置,其采用混合識別網(wǎng)絡(luò),即基于受限語法的識別網(wǎng)絡(luò)以及可支持隨意說的大詞匯量連續(xù)語音識別網(wǎng)絡(luò),實(shí)現(xiàn)了在統(tǒng)一系統(tǒng)界面下對簡短語音命令的準(zhǔn)確高效的識別以及對連續(xù)語音輸入的轉(zhuǎn)寫。從而,本發(fā)明的實(shí)施例提高了用戶使用基于移動設(shè)備的個人助理工具的語音識別的便利性。
圖I示意性地示出了根據(jù)本發(fā)明一個實(shí)施例的用于移動設(shè)備的語音識別的方法 100的流程圖。
在步驟SllO中,獲取用戶語音輸入。用戶可以在統(tǒng)一的系統(tǒng)界面下獲取各種形式的用戶語音輸入,包括簡短的語音命令或者隨意說的任何語句。可以采用任何已知的或未來開發(fā)的語音信號跟蹤技術(shù)來獲取用戶語音輸入??梢詫B續(xù)的語音信號進(jìn)行數(shù)字采樣, 獲得語音輸入的數(shù)字化形式。
可選地,可以對語音輸入進(jìn)行預(yù)處理。在優(yōu)選的實(shí)施例中,為了提高系統(tǒng)的魯棒性,可以對采集到的原始語音信號做前端降噪預(yù)處理。例如,首先通過對語音信號執(zhí)行短時能量和短時過零率分析,將連續(xù)的語音信號分割成獨(dú)立的語音片斷和非語音片斷。隨后通過維納濾波等技術(shù)對語音片斷進(jìn)行語音增強(qiáng),進(jìn)一步消除語音信號中的噪音,提高后續(xù)系統(tǒng)對該信號的處理能力。
可選地,還可以對語音輸入進(jìn)行聲學(xué)特征提取。考慮到降噪處理后的語音信號中依然存在大量語音識別無關(guān)的冗余信息,直接對其識別將導(dǎo)致運(yùn)算量增加和識別準(zhǔn)確率的下降,為此可以從語音能量信號中提取識別有效的語音特征,并存入特征緩存區(qū)內(nèi),以表征用戶語音輸入。在一個優(yōu)選實(shí)施例中,提取語音的MFCC特征。例如,對窗長25ms幀移IOms 的每幀語音數(shù)據(jù)做短時分析,得到MFCC參數(shù)及其一階二階差分,共計(jì)39維。一段語音輸入可以量化為一 39維的特征序列O。在其他實(shí)施例中,還可以采用PLP特征(Perceptual linear predictive)或者TANDEM特征等,來提取語音輸入的特征以表征語音輸入。為了避免模糊本發(fā)明的要點(diǎn),在此對已知的語音信號跟蹤技術(shù)、預(yù)處理技術(shù)和特征提取技術(shù)不再詳述。
此外,應(yīng)該理解,本發(fā)明的原始的或經(jīng)預(yù)處理的用戶語音輸入或其特征標(biāo)識可以存儲在存儲器中,并且不限于任何特定的存儲格式。CN 102543071 A
在步驟S120中,基于受限語法識別網(wǎng)絡(luò)識別語音輸入,以獲得針對所述語音輸入的第一識別結(jié)果。
受限語法識別網(wǎng)絡(luò)可以預(yù)先定義并且存儲在設(shè)備中。受限語法識別網(wǎng)絡(luò)主要用于實(shí)現(xiàn)對簡短語音命令的支持,其支持的語法相對簡單,包括諸如“發(fā)短信給XXX”、“打電話給XXX”等與有限的命令詞相關(guān)的說辭。優(yōu)選地,受限語法識別網(wǎng)絡(luò)限定了與移動設(shè)備相關(guān)的個性化信息,例如與設(shè)備上支持的應(yīng)用、通訊錄中的信息等等相關(guān)。圖2示出了根據(jù)本發(fā)明的一個實(shí)施例的示例受限語法識別網(wǎng)絡(luò)。基于該受限語法識別網(wǎng)絡(luò),可以快速準(zhǔn)確地識別類似“發(fā)短信給張菲”、“打電話給王智國,,等簡短的語音命令。
可以通過下述步驟來實(shí)現(xiàn)基于受限語法識別網(wǎng)絡(luò)搜索語音輸入的識別結(jié)果。步一載入聲學(xué)模型及受限語法網(wǎng)絡(luò)等系統(tǒng)參數(shù)??蛇x地,可以在方法100開始(例如初始化)時或者在執(zhí)行步驟120中的實(shí)際識別之前的任何時間,載入聲學(xué)模型及受限語法識別網(wǎng)絡(luò)等系統(tǒng)參數(shù)。其中語法受限識別網(wǎng)絡(luò)反映了本發(fā)明的語音識別系統(tǒng)支持的各類簡單的語音命令,例如如圖2所示。聲學(xué)模型用于模擬字符的標(biāo)準(zhǔn)發(fā)音特征,在本實(shí)施例中采用語音識別領(lǐng)域常用的基于轉(zhuǎn)移概率和傳輸概率的HMM(隱馬爾可夫)模型。應(yīng)該理解,本發(fā)明還可以使用諸如神經(jīng)網(wǎng)絡(luò)(Neural Network mode)等其他聲學(xué)模型。步二根據(jù)受限語法識別網(wǎng)絡(luò)生成基于聲學(xué)模型的搜索網(wǎng)絡(luò)。步三在所述搜索網(wǎng)絡(luò)定義的搜索空間中,搜索相應(yīng)于步驟SllO中獲取的語音輸入的最優(yōu)路徑。例如,可以根據(jù)語音輸入提取各個語音幀。使用Viterbi搜索,對提取的每一語音幀,計(jì)算其相應(yīng)于當(dāng)前所有活躍節(jié)點(diǎn)的最優(yōu)歷史路徑概率。利用動態(tài)規(guī)劃思想依時間順序搜索,在搜索到最后一幀語音矢量時,從終止?fàn)顟B(tài)回溯就得到最優(yōu)解碼狀態(tài)序列及對應(yīng)的歷史路徑概率。關(guān)于Viterbi算法例如可以詳細(xì)參見· J. Viterbi 的論文"Error Bounds for Convolutional Codes and an Asymptotically Optimum Decoding Algorithm,,,IEEE Transactions on Information Theory, Vol. IT-13, pp. 260-269,April 1967,在此不再贅述。現(xiàn)在已知或者將來開發(fā)的其他搜索方法也是可行的,本發(fā)明的范圍不局限于使用Viterbi算法的搜索方法。
應(yīng)該理解,在受限語法識別網(wǎng)絡(luò)定義的搜索空間中,有可能搜索到用戶語音輸入的優(yōu)選匹配路徑(例如,用戶語音輸入是符合受限語法的簡短語音命令),獲得所述語音輸入的第一識別結(jié)果,或者也可能其搜索到的優(yōu)選匹配路徑不合理(例如在用戶隨意說的情況下利用受限語法識別的解碼結(jié)果路徑得分往往很低),因此得不到所述語音輸入的有效識別結(jié)果。
在一個簡化實(shí)施例中,如果當(dāng)前的用戶語音輸入在語法受限網(wǎng)絡(luò)中找到的匹配路徑合理,也即獲得了第一識別結(jié)果,則以所述識別結(jié)果作為用戶語音輸入的解碼結(jié)果,方法 100結(jié)束。否則,即沒有找到合理的匹配路徑,則方法100前進(jìn)到步驟S140,轉(zhuǎn)入基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)的重新識別,以獲得針對用戶語音輸入的第二識別結(jié)果。
在優(yōu)選的實(shí)施例中,方法100還包括步驟S130,判斷在步驟S120中基于受限語法識別網(wǎng)絡(luò)搜索得到的第一識別結(jié)果是否滿足識別可接受條件。如果第一識別結(jié)果滿足可接受條件,則直接接受該第一識別結(jié)果作為用戶語音輸入的解碼結(jié)果,從而方法100結(jié)束。這樣可以節(jié)省識別時間,提高整體識別效率。如果第一識別結(jié)果不滿足可接受條件,則方法 100前進(jìn)到步驟S140,轉(zhuǎn)入基于大詞匯量語音識別網(wǎng)絡(luò)的重新識別。
圖3示出了根據(jù)本發(fā)明的一個實(shí)施例的基于受限語法識別網(wǎng)絡(luò)搜索得到的第一識別結(jié)果是否滿足識別可接受條件的判斷流程。
在步驟S310中計(jì)算針對用戶語音輸入的識別結(jié)果中平均每幀語音的似然概率平均值。
在步驟S320中判斷該幀平均值是否大于系統(tǒng)預(yù)先設(shè)置的域值,若不是則說明當(dāng)前識別結(jié)果不可信,轉(zhuǎn)入步驟S360,否則轉(zhuǎn)入步驟S330。
在步驟S330中計(jì)算針對用戶語音輸入的各識別字符對應(yīng)的概率得分。
在步驟S340中判斷每個字符的概率得分是否大于其對應(yīng)的域值。若是則說明當(dāng)前識別結(jié)果可信,轉(zhuǎn)入步驟S350,否則轉(zhuǎn)入步驟S360。
在步驟S350中判定當(dāng)前的識別結(jié)果滿足可接受條件。
在步驟S360中判定當(dāng)前的識別結(jié)果不滿足可接受條件。
即要求在兩項(xiàng)概率得分均大于閾值時才可判斷當(dāng)前解碼符合要求
其中幀平均值對應(yīng)的閾值和/或字符對應(yīng)的域值可以由識別系統(tǒng)預(yù)先在海量訓(xùn)練數(shù)據(jù)上調(diào)試得到。
應(yīng)該理解,在圖3示出的實(shí)施例中使用似然概率作為判斷識別結(jié)果是否滿足識別可接受條件僅是出于示例說明的目的,而非作為任何限制。本發(fā)明還可以使用置信度等其它參數(shù)來作為判斷條件,參見L. E. Baum, T. Petrie, G. Soules,和N. Weiss等人的論文 “A maximization technique occurring the statistical analysis of probabilistic functions of Markov chains,,’Ann. Math. Stat. , vol. 41, no. I, pp. 164-171,1970。
回到圖1,在步驟S140中,基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)重新識別語音輸入,以獲得針對所述語音輸入的第二識別結(jié)果。
基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)的語音識別采用大規(guī)模的聲學(xué)模型和語言模型, 不受語法限制可用于模擬任意自由語音輸入。其解碼流程具體如下所示。步一載入預(yù)定的大規(guī)模聲學(xué)模型及語言模型等系統(tǒng)參數(shù)??蛇x地,可以在方法100開始(例如初始化)時或者在執(zhí)行步驟140中的實(shí)際識別語音之前的任何時間,執(zhí)行所述載入。類似的,在本實(shí)施例中,聲學(xué)模型采用了語音識別領(lǐng)域常用的基于轉(zhuǎn)移概率和傳輸概率的HMM(隱馬爾可夫) 模型,用于模擬字符標(biāo)準(zhǔn)發(fā)音特征。應(yīng)該理解,本發(fā)明還可以使用諸如神經(jīng)網(wǎng)絡(luò)(Neural Network mode)等其他聲學(xué)模型。步二將帶有詞頻概率的語言模型網(wǎng)絡(luò)擴(kuò)展成基于聲學(xué)模型的搜索網(wǎng)絡(luò),以供后續(xù)路徑搜索。步三在所述搜索網(wǎng)絡(luò)定義的搜索空間中,搜索相應(yīng)于語音輸入的最優(yōu)路徑。例如,可以使用Viterbi搜索,針對提取的語音幀序列,從搜索網(wǎng)絡(luò)中找到其對應(yīng)的最優(yōu)單詞序列,從而獲得識別結(jié)果。
優(yōu)選地,在基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)的語音識別中,利用了在步驟S120中的基于受限語法網(wǎng)絡(luò)的搜索中的最優(yōu)解碼路徑的路徑值,從而可以盡早地反饋?zhàn)R別結(jié)果。 下面參考附圖4進(jìn)行詳細(xì)說明實(shí)現(xiàn)步驟S140的一個優(yōu)選實(shí)現(xiàn)。
圖4示出了根據(jù)本發(fā)明的一個優(yōu)選實(shí)施例的用于基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)的連續(xù)語音識別的改進(jìn)的Viterbi搜索方法400的流程圖。
在步驟S410中,初始化并設(shè)置當(dāng)前語音幀i = I。
在步驟S420中,計(jì)算當(dāng)前語音幀相應(yīng)于所有活躍節(jié)點(diǎn)的最優(yōu)歷史路徑并統(tǒng)計(jì)當(dāng)前歷史路徑最大值Si。
在步驟S430中,計(jì)算Si和當(dāng)前語音幀在受限語法網(wǎng)絡(luò)最優(yōu)解碼路徑中的歷史路徑值Si,的差值。
在步驟S440中判斷上述差值是否大于系統(tǒng)預(yù)先設(shè)定的域值S。若是則轉(zhuǎn)入步驟 S450,否則轉(zhuǎn)入步驟S470。
在步驟S450中,設(shè)置當(dāng)前考察語音幀為下一語音幀i++。
在步驟S460中,判斷當(dāng)前考察語音幀是否大于語音幀總數(shù)T,若是,則轉(zhuǎn)入步驟 S470,否則轉(zhuǎn)入步驟S420,繼續(xù)針對當(dāng)前考察語音幀計(jì)算當(dāng)前歷史路徑最大值Si。其中,語音幀總數(shù)T是在受限語法網(wǎng)絡(luò)解碼時確定的當(dāng)前語音輸入總幀數(shù)。
在步驟S470中,返回當(dāng)前識別結(jié)果。優(yōu)選地,可以返回歷史路徑得分,歷史路徑及已解碼的總幀數(shù)等。
在方法400中,利用了已經(jīng)執(zhí)行的基于受限語法識別網(wǎng)絡(luò)的搜索結(jié)果,可以在不解碼所有語音幀的情況下,提前結(jié)束基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)的識別過程。在該優(yōu)選實(shí)施例中,對于當(dāng)前語音幀,當(dāng)其在基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)的搜索中的最優(yōu)歷史路徑得分與其在基于受限語法網(wǎng)絡(luò)搜索中的最優(yōu)解碼路徑中的路徑值之差小于預(yù)定的閾值時,可以提前結(jié)束基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)的搜索,直接返回基于受限語法識別網(wǎng)絡(luò)的識別結(jié)果作為語音輸入的識別結(jié)果。如果完成所有幀的基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)的識別,則在步驟S470中將返回基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)的第二識別結(jié)果。 在方法400中,基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)的解碼過程是否提前結(jié)束(即,沒有完成), 例如可以通過返回解碼總幀數(shù)來指示。如果解碼總幀數(shù)等于預(yù)定的語音幀總數(shù)T,則說明基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)的解碼已經(jīng)完成,否則則是提前結(jié)束。備選地,也可以通過設(shè)置其他標(biāo)志(如具有“真/假”值的二元比特)來指示是否識別過程是否提前結(jié)束。
返回圖1,當(dāng)步驟S140中結(jié)束基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)的識別時,方法100 前進(jìn)到步驟S150。在步驟S150中,綜合基于受限語法識別網(wǎng)絡(luò)的識別結(jié)果和基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)的識別結(jié)果,確定所述語音輸入的最終解碼結(jié)果。如果基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)的識別沒有完成(即提前結(jié)束),則確定基于受限語法識別網(wǎng)絡(luò)的識別結(jié)果為用戶語音輸入的最終解碼結(jié)果。如果基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)的識別已經(jīng)完成,但是其識別結(jié)果的得分小于基于受限語法識別網(wǎng)絡(luò)的識別結(jié)果的得分,則仍確定基于受限語法識別網(wǎng)絡(luò)的識別結(jié)果為用戶語音輸入的最終解碼結(jié)果,否則確定基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)的識別結(jié)果為用戶語音輸入的最終解碼結(jié)果。
在圖5中示出了步驟S140的一個具體實(shí)現(xiàn)。
在步驟S510中,判斷基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)的解碼過程是否完成,即解碼到最后一幀。若是,則轉(zhuǎn)入步驟S520,否則轉(zhuǎn)入步驟S540。
在步驟S520中,判斷基于受限語法識別網(wǎng)絡(luò)的識別中的系統(tǒng)最優(yōu)路徑得分是否小于基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)的識別中的系統(tǒng)最優(yōu)路徑得分。若是,則轉(zhuǎn)入步驟 S530,否則轉(zhuǎn)入步驟S540。備選地,作為系統(tǒng)最優(yōu)路徑得分的替代或補(bǔ)充,也可以使用幀平均得分作為判斷標(biāo)準(zhǔn)。
在步驟S530中,輸出基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)的連續(xù)語音識別結(jié)果作為最終的解碼結(jié)果。
在步驟S540中,輸出基于語法受限識別網(wǎng)絡(luò)的識別結(jié)果作為最終的解碼結(jié)果。
通常,在步驟S150中確定所述語音輸入的最終解碼結(jié)果之后,方法100結(jié)束。
優(yōu)選地,方法100獲得語音輸入的最終解碼結(jié)果將用來觸發(fā)移動設(shè)備中的相應(yīng)應(yīng)用,例如電話呼叫應(yīng)用、短消息應(yīng)用等。
上面已經(jīng)參考附圖詳細(xì)說明了在統(tǒng)一界面下對用戶任意形式輸入的語音識別的方法。應(yīng)該注意,盡管在附圖中以特定順序描述了本發(fā)明方法的操作,但是,這并非要求或者暗示必須按照該特定順序來執(zhí)行這些操作,或是必須執(zhí)行全部所示的操作才能實(shí)現(xiàn)期望的結(jié)果。相反,流程圖中描繪的步驟可以改變執(zhí)行順序。附加地或備選地,可以省略某些步驟,將多個步驟合并為一個步驟執(zhí)行,和/或?qū)⒁粋€步驟分解為多個步驟執(zhí)行,也可以增加其他步驟。
此外,該方法可以基于各種具體實(shí)現(xiàn),包括在移動設(shè)備本地端單獨(dú)實(shí)現(xiàn),以及移動設(shè)備本地端結(jié)合服務(wù)器端實(shí)現(xiàn)等。
在一個實(shí)施例中,上述方法100可以完全在移動設(shè)備本地端實(shí)現(xiàn)。在該方案下,在移動設(shè)備處理的存儲器中存儲受限語法識別網(wǎng)絡(luò)和基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)。
備選地,在另一個實(shí)施例中,在移動設(shè)備的本地端獲取用戶語音輸入(步驟 S110)。然后,移動設(shè)備向服務(wù)器發(fā)送獲取的原始的或者經(jīng)處理的用戶語音輸入。所述經(jīng)處理的用戶語音輸入可以語音輸入的數(shù)字形式,或者提取的特征序列。服務(wù)器接收該用戶語音輸入。然后服務(wù)器執(zhí)行對語音輸入的識別,包括基于受限語法識別網(wǎng)絡(luò)的第一識別 (S120);判斷第一識別結(jié)果的解碼有效性(S130);在第一識別結(jié)果無效時,執(zhí)行基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)的第二識別(S140);以及綜合第一識別結(jié)果和第二識別結(jié)果,確定所述語音輸入的最終解碼結(jié)果(S150)。然后,服務(wù)器向移動設(shè)備發(fā)送最終解碼結(jié)果。
在該實(shí)施例中,服務(wù)器端維護(hù)大詞匯量連續(xù)語音識別網(wǎng)絡(luò)。此外,服務(wù)器端還對每個移動設(shè)備或用戶都維護(hù)一個個性化的信息庫,例如受限語法識別網(wǎng)絡(luò),用于提高帶有個性化信息的語音命令,如識別出“打電話給王智國”,而非大規(guī)模語言模型中的“王治國”。
在又一個實(shí)施例中,在移動設(shè)備的本地端獲取用戶語音輸入(SllO),執(zhí)行基于受限語法的第一識別(S120),以及判斷第一識別結(jié)果的解碼有效性(S130)。在第一解碼無效時,移動設(shè)備向服務(wù)器端發(fā)送獲取的用戶語音輸入,其可以是語音信號或提取的特征序列。
在服務(wù)器端利用其強(qiáng)大的解碼運(yùn)算能力和超大規(guī)模的模型庫(例如,大詞匯量連續(xù)語音識別網(wǎng)絡(luò))對用戶語音輸入進(jìn)行連續(xù)語音解碼,以獲得第二識別結(jié)果(S140)。優(yōu)選地,為了提高服務(wù)器的解碼效率,移動設(shè)備在向服務(wù)器傳輸語音特征序列時,可以同時傳輸本地端的解碼結(jié)果(即第一識別結(jié)果),包括每幀的解碼路徑值。
接著,移動設(shè)備可以從服務(wù)器接收第二識別結(jié)果。
然后,移動設(shè)備可以綜合基于受限語法識別網(wǎng)絡(luò)的識別結(jié)果和基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)的識別結(jié)果,確定所述語音輸入的最終解碼結(jié)果(S150)。
在該實(shí)施例中,移動設(shè)備存儲各自的受限語法識別網(wǎng)絡(luò)。在服務(wù)器端存儲超大規(guī)模的大詞匯量連續(xù)語音識別網(wǎng)絡(luò)。
應(yīng)該理解,本發(fā)明的方法不局限于所示出的具體示例和變形。在不脫離本發(fā)明的精神和范圍的情況下,本領(lǐng)域技術(shù)人員可以想到其他修改、替代和變形。
圖6示出了根據(jù)本發(fā)明的一個優(yōu)選實(shí)施例的用于移動設(shè)備的語音識別系統(tǒng)600。 系統(tǒng)600可以用于執(zhí)行上述方法100。例如,系統(tǒng)600可以是安裝在移動設(shè)備上,或者分布在移動設(shè)備本地端和服務(wù)器上。
系統(tǒng)600包括獲取裝置610、第一識別裝置620、第二識別裝置S640和解碼確定裝置 650。
根據(jù)本發(fā)明的一個實(shí)施例,獲取裝置610用于獲取用戶語音輸入。優(yōu)選地,獲取裝置610從用戶語音輸入中提取語音幀,將語音輸入表示為一系列語音幀。獲取裝置610可以采用任何已知的或未來開發(fā)的語音信號跟蹤技術(shù)來獲取用戶語音輸入,可以對連續(xù)的語音信號進(jìn)行數(shù)字采樣,獲得語音輸入的數(shù)字化形式。優(yōu)選地,獲取裝置610可以包括預(yù)處理裝置,用于對語音輸入進(jìn)行預(yù)處理,以增強(qiáng)語音并且消除語音中的噪聲。優(yōu)選地,獲取裝置 610還可以包括聲學(xué)特征提取裝置,用于從語音信號(特別是經(jīng)預(yù)處理的語音信號)中提取聲學(xué)特征以表征語音輸入。
第一識別裝置620用于基于受限語法識別網(wǎng)絡(luò)識別所述語音輸入。第一識別裝置 620使用預(yù)先載入的聲學(xué)模型及受限語法網(wǎng)絡(luò)對語音輸入進(jìn)行識別,以獲得第一識別結(jié)果。
第二識別裝置640用于響應(yīng)于第一識別結(jié)果不滿足識別可接受條件,基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)識別所述語音輸入以獲得第二識別結(jié)果。第二識別裝置640使用預(yù)先載入的聲學(xué)模型以及大詞匯量連續(xù)語音識別網(wǎng)絡(luò)對語音輸入進(jìn)行識別,以獲得第二識別結(jié)果。
解碼確定裝置650用于結(jié)合基于受限語法識別網(wǎng)絡(luò)的識別結(jié)果和基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)的識別結(jié)果,確定所述語音輸入的最終解碼結(jié)果。如果第二識別裝置640 獲得的基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)的識別結(jié)果的得分大于第一識別裝置620獲得的基于受限語法識別網(wǎng)絡(luò)的識別結(jié)果的得分,則解碼確定裝置650確定第二識別裝置640獲得的識別結(jié)果為用戶語音輸入的最終解碼結(jié)果,否則確定第一識別裝置620獲得的識別結(jié)果為用戶語音輸入的最終解碼結(jié)果。
根據(jù)本發(fā)明的一個優(yōu)選實(shí)施例,系統(tǒng)600還包括解碼有效性判定裝置630,用于判斷基于受限語法識別網(wǎng)絡(luò)識別的識別結(jié)果的解碼有效性。在第一識別裝置620獲得第一識別結(jié)果后,如果解碼有效性判定裝置630判斷該第一識別結(jié)果滿足可接受條件,則其促使解碼確定裝置650確定該第一識別結(jié)果為用戶語音輸入的最終解碼結(jié)果。
根據(jù)本發(fā)明的一個優(yōu)選實(shí)施例,第二識別裝置640利用第一識別裝置620已執(zhí)行的基于受限語法網(wǎng)絡(luò)的搜索中的最優(yōu)解碼路徑的路徑值判斷是否提前結(jié)束其識別過程。當(dāng)判斷當(dāng)前語音幀的基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)的搜索中的最優(yōu)歷史路徑得分不大于其在基于受限語法網(wǎng)絡(luò)搜索中的最優(yōu)解碼路徑中的路徑值,或者兩者之差小于預(yù)定閾值時,可以提前結(jié)束基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)的識別。在提前結(jié)束基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)的識別時,第二識別裝置640可以輸出信號促使解碼確定裝置650確定第一識別裝置620獲得的第一識別結(jié)果為用戶語音輸入的最終解碼結(jié)果。
為清晰起見,在圖6中并未示出各個裝置所包含的子裝置。然而,應(yīng)當(dāng)理解,系統(tǒng) 600中記載的每個裝置與參考圖I描述的方法100中的各個步驟相對應(yīng)。由此,上文針對圖 I描述的操作和特征同樣適用于系統(tǒng)600及其中包含的裝置和子裝置,在此不再贅述。
應(yīng)該理解,盡管在上文詳細(xì)描述中提及了系統(tǒng)的若干裝置或子裝置,但是這種劃分僅僅并非強(qiáng)制性的。實(shí)際上,根據(jù)本發(fā)明的實(shí)施方式,上文描述的兩個或更多裝置的特征和功能可以在一個裝置中具體化。反之,上文描述的一個裝置的特征和功能可以進(jìn)一步劃分為由多個裝置來具體化。
此外,圖6所示的系統(tǒng)僅是示例性的,而不是限制性的。系統(tǒng)600可以存在各種各樣的變形。
在一個實(shí)施例中,系統(tǒng)600安裝在移動設(shè)備上。
在另一個實(shí)施例中,系統(tǒng)600安裝在服務(wù)器上。在該情況下,服務(wù)器還包括與移動設(shè)備的通信裝置(未示出),用于在移動設(shè)備之間傳輸用戶語音輸入以及識別結(jié)果。
在又一個實(shí)施例中,系統(tǒng)600分布在移動設(shè)備本地端和服務(wù)器二者上。在該實(shí)施例中,移動設(shè)備包括獲取裝置,用于獲取用戶語音輸入;第一識別裝置,用于基于受限語法識別網(wǎng)絡(luò)識別所述語音輸入以獲得第一識別結(jié)果;收發(fā)裝置,用于響應(yīng)于第一識別結(jié)果不滿足識別可接受條件,向服務(wù)器發(fā)送用戶語音輸入,以及從服務(wù)器接收基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)識別所述語音輸入獲得的第二識別結(jié)果;以及解碼確定裝置,用于選擇所述第一和第二識別結(jié)果中的優(yōu)選者作為所述語音輸入的最終解碼結(jié)果。服務(wù)器包括接收裝置,用于從移動設(shè)備接收用戶語音輸入;第二識別裝置,用于基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)識別所述語音輸入以獲得第二識別結(jié)果;發(fā)送裝置,用于向移動設(shè)備發(fā)送第二識別結(jié)^ ο
此外,系統(tǒng)600還可以包括其他裝置,例如易失性或者非易失性存儲裝置,用于存儲獲取的語音輸入和/或其識別結(jié)果。系統(tǒng)600還可以包括觸發(fā)裝置,用于根據(jù)語音輸入的最終解碼結(jié)果來觸發(fā)設(shè)備中的相應(yīng)應(yīng)用,例如電話呼叫應(yīng)用、短消息應(yīng)用等。
而且,系統(tǒng)600及其各個組成部分可以利用各種方式來實(shí)現(xiàn)。例如,在某些實(shí)施方式中,系統(tǒng)600可以利用軟件和/或固件模塊來實(shí)現(xiàn)。此外,系統(tǒng)600也可以利用硬件模塊來實(shí)現(xiàn)。例如,系統(tǒng)600可以實(shí)現(xiàn)為集成電路(IC)芯片或?qū)S眉呻娐?ASIC)。系統(tǒng)600 也可以實(shí)現(xiàn)為片上系統(tǒng)(SOC)?,F(xiàn)在已知或者將來開發(fā)的其他方式也是可行的,本發(fā)明的范圍在此方面不受限制。
圖7示出了適于用來實(shí)現(xiàn)本發(fā)明實(shí)施方式的移動電話700的一個示例。然而應(yīng)該理解,本發(fā)明的范圍不限于所述的移動電話的具體類型。
移動電話700可以是任何需要語音交互的移動終端。移動電話700可以包括用于容納和保護(hù)其的外殼30。移動電話700可以進(jìn)一步包括液晶顯示器形式的顯示器32。在本發(fā)明的其他實(shí)施方式中,顯示器可以是適合于顯示圖像或文字的任何適當(dāng)顯示技術(shù)。移動電話700可以進(jìn)一步包括小鍵盤34。在本發(fā)明的其他實(shí)施方式中,可以采用任何適當(dāng)?shù)臄?shù)據(jù)或用戶接口機(jī)制。例如,可以將用戶接口實(shí)現(xiàn)為虛擬鍵盤或數(shù)據(jù)錄入系統(tǒng)以作為觸敏顯示器的一部分。該移動電話可以包括麥克風(fēng)36或者可以是數(shù)字信號輸入或模擬信號輸入的任何適當(dāng)音頻輸入。移動電話700可以進(jìn)一步包括音頻輸出設(shè)備,其在本發(fā)明的實(shí)施方式中可以是以下任意一種耳機(jī)38、揚(yáng)聲器或者模擬音頻或數(shù)字音頻輸出連接。移動電話700還可以包括電池40(或者在本發(fā)明的其他實(shí)施方式中,該設(shè)備可以由任何適當(dāng)?shù)囊苿幽芰吭O(shè)備供電,諸如太陽能電池、燃料電池或發(fā)條發(fā)電機(jī))。該移動電話可以進(jìn)一步包括用于與其他設(shè)備進(jìn)行短距離視線通信的紅外端口 42。在其他實(shí)施方式中,移動電話700可以進(jìn)一步包括任何適當(dāng)?shù)亩叹嚯x通信方案,諸如藍(lán)牙無線連接或USB/火線有線連接。
移動電話700可以包括用于對該移動電話700進(jìn)行控制的控制器56或處理器??刂破?6可以連接至存儲器58,該存儲器58在本發(fā)明的實(shí)施方式中可以存儲預(yù)設(shè)的聲學(xué)模型、受限語法識別網(wǎng)絡(luò)、大規(guī)模詞匯量識別網(wǎng)絡(luò)等,和/或還可以存儲用于在控制器56上實(shí)現(xiàn)的指令??刂破?6可以進(jìn)一步連接至編解碼器電路54,其適用于實(shí)施或輔助控制器56 實(shí)施對音頻和/或視頻數(shù)據(jù)的編碼和解碼,包括根據(jù)本發(fā)明的實(shí)施例的語音識別。
移動電話700可以進(jìn)一步包括讀卡器48和智能卡46,例如MCC和MCC讀卡器, 其用于提供用戶信息并且適合于提供認(rèn)證信息以供在網(wǎng)絡(luò)處對用戶進(jìn)行認(rèn)證和授權(quán)。
移動電話700可以包括無線電接口電路52,其連接至控制器并且適合于生成無線通信信號,例如用于與蜂窩通信網(wǎng)絡(luò)、無線通信系統(tǒng)或無線局域網(wǎng)通信。移動電話700可以進(jìn)一步包括連接至無線電接口電路52的天線44,用于傳輸和接收在無線電接口電路52處生成的射頻信號。
根據(jù)本發(fā)明的語音識別系統(tǒng)600可以作為硬件實(shí)現(xiàn)包括在移動電話700中。特別地,除硬件實(shí)施方式之外,根據(jù)本發(fā)明的設(shè)備600可以通過計(jì)算機(jī)程序產(chǎn)品的形式實(shí)現(xiàn)。例如,參考圖I描述的方法100可以通過計(jì)算機(jī)程序產(chǎn)品來實(shí)現(xiàn)。該計(jì)算機(jī)程序產(chǎn)品可以存儲在例如圖7所示的存儲器58中,或者通過網(wǎng)絡(luò)從適當(dāng)?shù)奈恢孟螺d到移動電話700上。計(jì)算機(jī)程序產(chǎn)品可以包括計(jì)算機(jī)代碼部分,其包括可由適當(dāng)?shù)奶幚碓O(shè)備(例如,圖7中示出的控制器56和/或編解碼電路54)執(zhí)行的程序指令。所述程序指令至少可以包括用于獲取用戶語音輸入的指令;用于基于受限語法識別網(wǎng)絡(luò)識別所述語音輸入的指令;用于基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)識別所述語音輸入的指令;以及用于結(jié)合基于受限語法識別網(wǎng)絡(luò)的識別結(jié)果和基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)的識別結(jié)果,確定所述語音輸入的最終解碼結(jié)果的指令。優(yōu)選地,所述程序指令還包括用于判斷基于受限語法識別網(wǎng)絡(luò)識別的識別結(jié)果的解碼有效性的指令。優(yōu)先地,所述程序指令還包括利用所述基于受限語法網(wǎng)絡(luò)的識別中的最優(yōu)解碼路徑的路徑值提前結(jié)束基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)的識別過程的指令。
上文已經(jīng)結(jié)合具體實(shí)施方式
闡釋了本發(fā)明的精神和原理。本發(fā)明的實(shí)施方式提供了一種新的語音識別系統(tǒng)和方法,可以向用戶提供統(tǒng)一的系統(tǒng)界面簡單高效完成與系統(tǒng)的交互,實(shí)現(xiàn)對移動設(shè)備的各類語音命令控制。通過采用結(jié)合基于受限語法識別網(wǎng)絡(luò)以及可支持隨意說的大詞匯量連續(xù)語音識別網(wǎng)絡(luò)的混合網(wǎng)絡(luò),實(shí)現(xiàn)了對簡短語音命令的準(zhǔn)確高效的識別以及對連續(xù)語音輸入的轉(zhuǎn)寫。根據(jù)本發(fā)明的實(shí)施例不需要用戶首先選擇進(jìn)入指定的程序,隨后再根據(jù)當(dāng)前應(yīng)用環(huán)境選擇對應(yīng)的識別系統(tǒng)操作。例如,假設(shè)“王智國”是設(shè)備的通信錄中的一個聯(lián)系人。當(dāng)用戶輸入語音輸入“打電話給王智國”時,根據(jù)本發(fā)明的實(shí)施例將快速地輸出基于受限語法識別網(wǎng)絡(luò)的識別結(jié)果,并基于該識別結(jié)果可以調(diào)用通信錄中王智國的信息給其打電話。當(dāng)用戶以隨意說的方式提供語音輸入“今晚公司7點(diǎn)到3樓會議室開會”時,根據(jù)本發(fā)明的實(shí)施例將快速輸出基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)的識別結(jié)果“今晚公司7點(diǎn)到3樓會議室開會”以實(shí)現(xiàn)快速的語音文本轉(zhuǎn)換。本發(fā)明的語音識別方法和系統(tǒng)更加準(zhǔn)確高效,提供了更加智能便捷的人機(jī)交互方式。
說明書中提及的術(shù)語“識別”、“解碼”對于語音識別領(lǐng)域而言具有類似的含義,僅是出于不同語境下的選擇,其均表示將音頻的語音信號轉(zhuǎn)換為對應(yīng)的文字字符。
雖然已經(jīng)參考若干具體實(shí)施方式
描述了本發(fā)明,但是應(yīng)該理解,本發(fā)明并不限于所公開的具體實(shí)施方式
。本發(fā)明旨在涵蓋所附權(quán)利要求的精神和范圍內(nèi)所包括的各種修改和等同布置。所附權(quán)利要求的范圍符合最寬泛的解釋,從而包含所有這樣的修改及等同結(jié)構(gòu)和功能。
權(quán)利要求
1.一種在移動設(shè)備或服務(wù)器上執(zhí)行的語音識別方法,包括獲取用戶語音輸入;基于受限語法識別網(wǎng)絡(luò)識別所述語音輸入以獲得第一識別結(jié)果;響應(yīng)于第一識別結(jié)果不滿足識別可接受條件,基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)識別所述語音輸入以獲得第二識別結(jié)果;以及選擇所述第一和第二識別結(jié)果中的優(yōu)選者作為所述語音輸入的最終解碼結(jié)果。
2.根據(jù)權(quán)利要求I所述的語音識別方法,其中響應(yīng)于第一識別結(jié)果滿足識別可接受條件,直接以第一識別結(jié)果作為所述語音輸入的最終解碼結(jié)果。
3.根據(jù)權(quán)利要求2所述的語音識別方法,其中所述識別可接受條件基于下述中的至少一種所述語音輸入的每幀語音的似然概率平均值、所述語音輸入的各識別字符對應(yīng)的概率得分、或置信度。
4.根據(jù)權(quán)利要求I所述的語音識別方法,其中所述基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)識別所述語音輸入以獲得第二識別結(jié)果包括語音輸入被提取為各個語音幀,以及通過在基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)定義的搜索空間中逐語音幀搜索最優(yōu)路徑來實(shí)現(xiàn)所述基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)的識別。
5.根據(jù)權(quán)利要求4所述的語音識別方法,所述基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)的識別還根據(jù)實(shí)時解碼狀態(tài)提前終止搜索過程以提高解碼效率,包括計(jì)算當(dāng)前語音幀相應(yīng)于所有活躍節(jié)點(diǎn)的最優(yōu)歷史路徑并統(tǒng)計(jì)當(dāng)前歷史路徑最大值Si, 計(jì)算Si和當(dāng)前語音幀在受限語法網(wǎng)絡(luò)最優(yōu)解碼路徑中的歷史路徑值Si’的差值,以及響應(yīng)于上述差值小于預(yù)設(shè)的域值,終止所述搜索過程。
6.一種用于移動設(shè)備的語音識別方法,包括獲取用戶語音輸入;基于受限語法識別網(wǎng)絡(luò)識別所述語音輸入以獲得第一識別結(jié)果;響應(yīng)于第一識別結(jié)果不滿足識別可接受條件,向服務(wù)器發(fā)送用戶語音輸入,以及從服務(wù)器接收基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)識別所述語音輸入獲得的第二識別結(jié)果;以及選擇所述第一和第二識別結(jié)果中的優(yōu)選者作為所述語音輸入的最終解碼結(jié)果。
7.一種語音識別系統(tǒng),包括獲取裝置,用于獲取用戶語音輸入,第一識別裝置,用于基于受限語法識別網(wǎng)絡(luò)識別所述語音輸入以獲得第一識別結(jié)果, 第二識別裝置,用于響應(yīng)于第一識別結(jié)果不滿足識別可接受條件,基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)識別所述語音輸入以獲得第二識別結(jié)果,以及解碼確定裝置,用于選擇所述第一和第二識別結(jié)果中的優(yōu)選者作為所述語音輸入的最終解碼結(jié)果。
8.根據(jù)權(quán)利要求7所述的語音識別系統(tǒng),其中所述解碼確定裝置還響應(yīng)于第一識別結(jié)果滿足識別可接受條件,直接以第一識別結(jié)果作為所述語音輸入的最終解碼結(jié)果。
9.根據(jù)權(quán)利要求8所述的語音識別系統(tǒng),其中所述識別可接受條件基于下述中的至少一種所述語音輸入的每幀語音的似然概率平均值、所述語音輸入的各識別字符對應(yīng)的概率得分、或置信度。
10.根據(jù)權(quán)利要求7所述的語音識別系統(tǒng),其中所述獲取裝置還從將所述語音輸入提取為各個語音幀,以及所述第二識別裝置通過在基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)定義的搜索空間中逐語音幀搜索最優(yōu)路徑來實(shí)現(xiàn)所述基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)的識別。
11.根據(jù)權(quán)利要求10所述的語音識別系統(tǒng),其中,所述第二識別裝置進(jìn)一步包括第一計(jì)算裝置,用于計(jì)算當(dāng)前語音幀相應(yīng)于所有活躍節(jié)點(diǎn)的最優(yōu)歷史路徑并統(tǒng)計(jì)當(dāng)前歷史路徑最大值Si,第二計(jì)算裝置,用于計(jì)算Si和當(dāng)前語音幀在受限語法網(wǎng)絡(luò)最優(yōu)解碼路徑中的歷史路徑值Si’的差值,以及判斷裝置,用于響應(yīng)于上述差值小于預(yù)設(shè)的域值,終止所述搜索過程。
12.—種移動設(shè)備或服務(wù)器,包括權(quán)利要求6-9中任意一項(xiàng)所述的語音識別系統(tǒng)。
13.—種移動設(shè)備,包括獲取裝置,用于獲取用戶語音輸入,第一識別裝置,用于基于受限語法識別網(wǎng)絡(luò)識別所述語音輸入以獲得第一識別結(jié)果,收發(fā)裝置,用于響應(yīng)于第一識別結(jié)果不滿足識別可接受條件,向服務(wù)器發(fā)送用戶語音輸入,以及從服務(wù)器接收基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)識別所述語音輸入獲得的第二識別結(jié)果,以及解碼確定裝置,用于選擇所述第一和第二識別結(jié)果中的優(yōu)選者作為所述語音輸入的最終解碼結(jié)果。
全文摘要
本發(fā)明提供了一種應(yīng)用于個人設(shè)備的語音識別系統(tǒng)和方法。該語音識別方法包括獲取用戶語音輸入,基于受限語法識別網(wǎng)絡(luò)識別所述語音輸入以獲得第一識別結(jié)果;響應(yīng)于第一識別結(jié)果不滿足識別可接受條件,基于大詞匯量連續(xù)語音識別網(wǎng)絡(luò)識別所述語音輸入以獲得第二識別結(jié)果;以及選擇所述第一和第二識別結(jié)果中的優(yōu)選者作為所述語音輸入的最終解碼結(jié)果。本發(fā)明的實(shí)施例提供了一種新的語音識別方法和裝置,其能夠在統(tǒng)一的系統(tǒng)界面下支持對連續(xù)語音輸入的智能響應(yīng)及對簡短語音命令的快速響應(yīng)。
文檔編號G10L15/28GK102543071SQ20111042418
公開日2012年7月4日 申請日期2011年12月16日 優(yōu)先權(quán)日2011年12月16日
發(fā)明者何婷婷, 劉慶峰, 王智國, 王海坤, 胡國平, 胡郁 申請人:安徽科大訊飛信息科技股份有限公司