本發(fā)明涉及一種語(yǔ)音識(shí)別方法及裝置,特別地,涉及一種基于云端語(yǔ)音識(shí)別的低時(shí)延語(yǔ)音識(shí)別方法與相應(yīng)的裝置。
背景技術(shù):
移動(dòng)設(shè)備尤其是智能手機(jī)等一般采用多種交互方式,而其中以語(yǔ)音識(shí)別為主要技術(shù)的語(yǔ)音交互是移動(dòng)設(shè)備上重要的交互方式。
語(yǔ)音識(shí)別(Speech Recognition)技術(shù),也被稱為自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition,ASR),其目標(biāo)是語(yǔ)音中的內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列并進(jìn)行相應(yīng)的操作。
語(yǔ)音識(shí)別的主流技術(shù)是基于因馬爾科夫模型(Hidden Markov Model,HMM),常用的是連續(xù)分布的HMM模型,稱為CDHMM。在語(yǔ)音識(shí)別任務(wù)中,一般需要聲學(xué)模型(Acoustic Model)和語(yǔ)言模型(Language Model)。
對(duì)于移動(dòng)設(shè)備來(lái)說(shuō),語(yǔ)音識(shí)別任務(wù)的運(yùn)算量很大,特別是一些信息查詢?nèi)蝿?wù)是大詞表連續(xù)語(yǔ)音識(shí)別(Large Vocabulary Continuous Speech Recognition,LVCSR),需要較大的運(yùn)算量。
一種解決方案是采用基于云端的語(yǔ)音識(shí)別。通過(guò)在移動(dòng)客戶端把語(yǔ)音或者語(yǔ)音特征上傳到云端(亦即,服務(wù)器端),在服務(wù)器端進(jìn)行語(yǔ)音識(shí)別,然后把語(yǔ)音識(shí)別的結(jié)果傳到移動(dòng)客戶端。通過(guò)云端的配合,使得移動(dòng)客戶端的運(yùn)算量比較小,并將主要的運(yùn)算量集中在云端服務(wù)器,這樣有利于采用更為復(fù)雜的、準(zhǔn)確率更好的語(yǔ)音識(shí)別算法,同時(shí)可以方便地和其他的應(yīng)用服務(wù)結(jié)合起來(lái)。然而,這種全然由云端進(jìn)行語(yǔ)音識(shí)別計(jì)算的缺點(diǎn)是傳輸?shù)难訒r(shí)較大,從客戶端語(yǔ)音錄制完畢,到云端服務(wù)器處理完畢,再到客戶端獲得云端服務(wù)器進(jìn)行語(yǔ)音識(shí)別處理所得到的相關(guān)信息、并作出正確的動(dòng)作,其間發(fā)生的延時(shí)一般都在幾百毫秒到秒級(jí)別,用戶的體驗(yàn)較差。
技術(shù)實(shí)現(xiàn)要素:
基于此,有必要提供一種降低延遲的語(yǔ)音識(shí)別方法,以及相應(yīng)的語(yǔ)音識(shí)別裝置。
一種語(yǔ)音識(shí)別方法,包括:
接收第一語(yǔ)音輸入,并將所接收的第一語(yǔ)音輸入轉(zhuǎn)換為第一數(shù)字信號(hào);
將所述第一數(shù)字信號(hào)傳送至云端;
接收根據(jù)所述第一數(shù)字信號(hào)生成的第一后處理結(jié)果;
接收第二語(yǔ)音輸入,并將所接收的第二語(yǔ)音輸入轉(zhuǎn)換為第二數(shù)字信號(hào);
利用第一語(yǔ)音識(shí)別模型對(duì)所述第二數(shù)字信號(hào)進(jìn)行第一語(yǔ)音識(shí)別;
將所述第一后處理結(jié)果與對(duì)所述第二數(shù)字信號(hào)進(jìn)行的第一語(yǔ)音識(shí)別的識(shí)別結(jié)果進(jìn)行比較,以確定所述語(yǔ)音識(shí)別的結(jié)果。
優(yōu)選地,所述第一后處理結(jié)果包括多個(gè)可能的后處理結(jié)果,其中所述將第一后處理結(jié)果與對(duì)第二數(shù)字信號(hào)進(jìn)行的第一語(yǔ)音識(shí)別的識(shí)別結(jié)果進(jìn)行比較包括:
將所述對(duì)第二數(shù)字信號(hào)進(jìn)行的第一語(yǔ)音識(shí)別的識(shí)別結(jié)果與所述多個(gè)可能的后處理結(jié)果進(jìn)行比較;
確定所述多個(gè)可能的后處理結(jié)果中與所述對(duì)第二數(shù)字信號(hào)進(jìn)行的第一語(yǔ)音識(shí)別的識(shí)別結(jié)果最相似的后處理結(jié)果為所述比較的結(jié)果。
優(yōu)選地,所述第一語(yǔ)音識(shí)別模型為基于聲韻母的聲學(xué)模型和語(yǔ)言模型。
優(yōu)選地,所述方法進(jìn)一步包括:
利用第一語(yǔ)音識(shí)別模型對(duì)所述第一數(shù)字信號(hào)進(jìn)行第一語(yǔ)音識(shí)別;
將所述第一后處理結(jié)果與對(duì)所述第一數(shù)字信號(hào)、第二數(shù)字信號(hào)進(jìn)行所述第一語(yǔ)音識(shí)別的識(shí)別結(jié)果進(jìn)行比較。
優(yōu)選地,所述方法進(jìn)一步包括:
將所述第二數(shù)字信號(hào)傳送至云端;
接收根據(jù)所述第一數(shù)字信號(hào)、第二數(shù)字信號(hào)生成的第二后處理結(jié)果;
接收第三語(yǔ)音輸入,并所接收的第三語(yǔ)音輸入轉(zhuǎn)換為第三數(shù)字信號(hào);
利用第一語(yǔ)音識(shí)別模型對(duì)所述第三數(shù)字信號(hào)進(jìn)行第一語(yǔ)音識(shí)別;
將所述第二后處理結(jié)果與對(duì)所述第一數(shù)字信號(hào)、第二數(shù)字信號(hào)、第三數(shù)字信號(hào)進(jìn)行的第一語(yǔ)音識(shí)別的識(shí)別結(jié)果進(jìn)行比較,以確定所述語(yǔ)音識(shí)別的結(jié)果。
優(yōu)選地,所述方法進(jìn)一步包括:根據(jù)所述比較的結(jié)果執(zhí)行相應(yīng)動(dòng)作。
一種語(yǔ)音識(shí)別方法,包括:
接收第一數(shù)字信號(hào),所述第一數(shù)字信號(hào)是根據(jù)第一語(yǔ)音輸入而生成的;
利用第二語(yǔ)音識(shí)別模型對(duì)所述第一數(shù)字信號(hào)進(jìn)行第二語(yǔ)音識(shí)別;
根據(jù)對(duì)所述第一數(shù)字信號(hào)進(jìn)行第二語(yǔ)音識(shí)別的識(shí)別結(jié)果,利用后處理模型進(jìn)行后處理,得到第一后處理結(jié)果;
輸出所述第一后處理結(jié)果。
優(yōu)選地,所述第二語(yǔ)音識(shí)別模型為基于音素三音子的聲學(xué)模型和統(tǒng)計(jì)語(yǔ)言模型。
優(yōu)選地,所述統(tǒng)計(jì)語(yǔ)言模型為基于詞的三元統(tǒng)計(jì)語(yǔ)言模型(3-Gram)模型。
優(yōu)選地,所述后處理模型為階數(shù)高于第二語(yǔ)音識(shí)別模型的語(yǔ)言模型。
優(yōu)選地,第二語(yǔ)音識(shí)別的聲學(xué)模型為階數(shù)高于所述第一語(yǔ)音識(shí)別模型的聲學(xué)模型。
優(yōu)選地,所述后處理模型為基于詞的六元統(tǒng)計(jì)語(yǔ)言模型(6-Gram)模型。
優(yōu)選地,所述后處理模型采用預(yù)設(shè)地域的興趣點(diǎn)列表進(jìn)行。
優(yōu)選地,所述方法進(jìn)一步包括:
接收第二數(shù)字信號(hào),所述第二數(shù)字信號(hào)是根據(jù)第二語(yǔ)音輸入而生成的;
利用第二語(yǔ)音識(shí)別模型對(duì)所述第二數(shù)字信號(hào)進(jìn)行第二語(yǔ)音識(shí)別;
根據(jù)對(duì)所述第一數(shù)字信號(hào)以及所述第二數(shù)字信號(hào)進(jìn)行第二語(yǔ)音識(shí)別的識(shí)別結(jié)果,利用后處理模型進(jìn)行后處理,得到第二后處理結(jié)果;
輸出所述第二后處理結(jié)果。
一種語(yǔ)音識(shí)別裝置,包括:
語(yǔ)音采集模塊,用于接收語(yǔ)音輸入,并將所接收的語(yǔ)音轉(zhuǎn)換為相對(duì)應(yīng)的數(shù)字信號(hào);
第一通信模塊,與所述語(yǔ)音采集模塊相連,用于將所述數(shù)字信號(hào)傳送至云 端,并用于接收根據(jù)所述數(shù)字信號(hào)而生成的后處理結(jié)果;
第一語(yǔ)音識(shí)別模塊,與所述語(yǔ)音采集模塊相連,用于根據(jù)所述數(shù)字信號(hào)進(jìn)行第一語(yǔ)音識(shí)別;
判斷模塊,與所述語(yǔ)音識(shí)別模塊及所述通信模塊相連,用于將所述后處理結(jié)果與所述語(yǔ)音識(shí)別模塊進(jìn)行第一語(yǔ)音識(shí)別的識(shí)別結(jié)果進(jìn)行比較;以生成比較結(jié)果。
優(yōu)選地,所述語(yǔ)音識(shí)別裝置進(jìn)一步包括動(dòng)作模塊,與所述判斷模塊相連,用于根據(jù)所述判斷模塊的比較結(jié)果而執(zhí)行相對(duì)應(yīng)的動(dòng)作。
優(yōu)選地,所述后處理結(jié)果包括多個(gè)可能的后處理結(jié)果,所述判斷模塊用于將所述多個(gè)可能的后處理結(jié)果與所述語(yǔ)音識(shí)別模塊進(jìn)行第一語(yǔ)音識(shí)別的識(shí)別結(jié)果進(jìn)行比較,并將與所述語(yǔ)音識(shí)別模塊進(jìn)行第一語(yǔ)音識(shí)別的識(shí)別結(jié)果最相似的后處理結(jié)果作為所述比較結(jié)果。
優(yōu)選地,所述第一語(yǔ)音識(shí)別模塊利用基于聲韻母的聲學(xué)模型和語(yǔ)言模型進(jìn)行所述第一語(yǔ)音識(shí)別。
優(yōu)選地,所述第一語(yǔ)音識(shí)別模塊用于將間隔預(yù)設(shè)時(shí)間的第一數(shù)字信號(hào)、第二數(shù)字信號(hào)進(jìn)行所述第一語(yǔ)音識(shí)別;所述判斷模塊用于將根據(jù)所述第一數(shù)字信號(hào)而生成的后處理結(jié)果與所述第一語(yǔ)音識(shí)別模塊將第一數(shù)字信號(hào)、第二數(shù)字信號(hào)進(jìn)行第一語(yǔ)音識(shí)別的識(shí)別結(jié)果進(jìn)行比較;以生成比較結(jié)果。
一種語(yǔ)音識(shí)別裝置,包括:
第二通信模塊,用于接收根據(jù)所采集的語(yǔ)音輸入轉(zhuǎn)換而成的相對(duì)應(yīng)的數(shù)字信號(hào);
第二語(yǔ)音識(shí)別模塊,與所述第二通信模塊相連,用于利用第二語(yǔ)音識(shí)別模型對(duì)所述數(shù)字信號(hào)進(jìn)行第二語(yǔ)音識(shí)別;
后處理模塊,與所述第二語(yǔ)音識(shí)別模塊相連,用于利用后處理模型根據(jù)所述語(yǔ)音識(shí)別模塊對(duì)所述數(shù)字信號(hào)進(jìn)行第二語(yǔ)音識(shí)別的識(shí)別結(jié)果進(jìn)行后處理,并得到后處理結(jié)果;
其中所述第二通信模塊還用于將所述后處理結(jié)果輸出。
優(yōu)選地,所述第二語(yǔ)音識(shí)別模型為基于音素三音子的聲學(xué)模型和統(tǒng)計(jì)語(yǔ)言 模型。
優(yōu)選地,所述統(tǒng)計(jì)語(yǔ)言模型為基于詞的三元統(tǒng)計(jì)語(yǔ)言模型(3-Gram)模型。
優(yōu)選地,所述后處理模型為階數(shù)高于第二語(yǔ)音識(shí)別模型的語(yǔ)言模型。
優(yōu)選地,所述后處理模型為基于詞的六元統(tǒng)計(jì)語(yǔ)言模型(6-Gram)模型。
優(yōu)選地,所述后處理模型采用預(yù)設(shè)地域的興趣點(diǎn)列表進(jìn)行。
優(yōu)選地,所述語(yǔ)音識(shí)別模塊用于將間隔預(yù)設(shè)時(shí)間的第一數(shù)字信號(hào)、第二數(shù)字信號(hào)進(jìn)行所述第二語(yǔ)音識(shí)別;所述后處理模塊用于根據(jù)所述語(yǔ)音識(shí)別模塊對(duì)所述第一數(shù)字信號(hào)以及所述第二數(shù)字信號(hào)進(jìn)行第二語(yǔ)音識(shí)別的識(shí)別結(jié)果,利用后處理模型進(jìn)行后處理,得到第二后處理結(jié)果。
根據(jù)本發(fā)明各實(shí)施方式的語(yǔ)音識(shí)別裝置與語(yǔ)音識(shí)別方法,利用遠(yuǎn)端精確識(shí)別的結(jié)果進(jìn)行后處理,并與移動(dòng)端具有較小延遲的識(shí)別結(jié)果進(jìn)行比較,以指示將要進(jìn)行的動(dòng)作,避免了動(dòng)作指示基于遠(yuǎn)端識(shí)別而帶來(lái)的延遲,在降低延遲的同時(shí)不失去對(duì)精度的控制,提升了用戶體驗(yàn)。
附圖說(shuō)明
圖1為本發(fā)明一種實(shí)施方式的語(yǔ)音識(shí)別裝置的結(jié)構(gòu)圖;
圖2為本發(fā)明一種實(shí)施方式的語(yǔ)音識(shí)別方法的流程圖;
圖3為本發(fā)明一種實(shí)施方式的語(yǔ)音識(shí)別裝置及方法的時(shí)間序列。
具體實(shí)施方式
如圖1所示,其為本發(fā)明一種實(shí)施方式的語(yǔ)音識(shí)別系統(tǒng)的框圖。在該實(shí)施方式中,語(yǔ)音識(shí)別系統(tǒng)通過(guò)移動(dòng)端(用戶端)100來(lái)接收語(yǔ)音輸入,經(jīng)過(guò)移動(dòng)端100自身及遠(yuǎn)端(服務(wù)器端、云端)200的處理之后,在移動(dòng)端100上執(zhí)行與該語(yǔ)音輸入相對(duì)應(yīng)的動(dòng)作。
移動(dòng)端100包括用戶界面102、語(yǔ)音采集模塊104、第一語(yǔ)音識(shí)別模塊106、第一通信模塊108、判斷模塊110、動(dòng)作模塊112等。
用戶界面102用于提供移動(dòng)端100與用戶交互的接口,包括向用戶顯示移動(dòng)端100欲展示的信息、操作提示、輸入接口等,以及用于接收用戶基于輸出 界面而進(jìn)行的有關(guān)操作。作為一種可選的實(shí)施方式,用戶界面102是一種人機(jī)交互界面,其可以通過(guò)顯示屏幕、喇叭向用戶顯示或播放操作界面以及內(nèi)容等信息,并通過(guò)鍵盤(pán)、觸摸屏、網(wǎng)絡(luò)、麥克風(fēng)等方式接收用戶的輸入。
語(yǔ)音采集模塊(Speech recorder)104用于采集語(yǔ)音,并將所接收的語(yǔ)音轉(zhuǎn)換為相對(duì)應(yīng)的數(shù)字信號(hào)。在某些實(shí)施方式中,語(yǔ)音采集模塊104還可以提取用于語(yǔ)音識(shí)別的特征??蛇x地,語(yǔ)音采集模塊104可以采用PCM編碼的波形(waveform)信號(hào)。
進(jìn)一步地,在某些可選的實(shí)施方式中,語(yǔ)音采集模塊104還可以將PCM編碼的信號(hào)轉(zhuǎn)化為語(yǔ)音識(shí)別可以直接使用的特征矢量(feature vector)。這種特征矢量的一種示例包括語(yǔ)音識(shí)別中常用的MFCC(Mel-Frequency Cepstrum Coefficients)特征。語(yǔ)音采集模塊104轉(zhuǎn)換特征矢量,可以在后續(xù)的數(shù)據(jù)傳輸中將所轉(zhuǎn)換得到的特征矢量輸出,而采用傳輸特征矢量的好處之一是:可以減少傳輸?shù)臄?shù)據(jù)量。
第一語(yǔ)音識(shí)別模塊106與語(yǔ)音采集模塊104相連,用于根據(jù)語(yǔ)音采集模塊104所轉(zhuǎn)換而得的數(shù)字信號(hào)進(jìn)行第一語(yǔ)音識(shí)別。根據(jù)本發(fā)明的一種實(shí)施方式,為了減少在移動(dòng)端100處所進(jìn)行語(yǔ)音識(shí)別的數(shù)據(jù)處理量及處理負(fù)擔(dān),語(yǔ)音識(shí)別模塊106是一個(gè)相對(duì)簡(jiǎn)單的語(yǔ)音識(shí)別器。語(yǔ)音識(shí)別模塊106和云端/服務(wù)器端200的語(yǔ)音識(shí)別相比,采用了比較簡(jiǎn)單的模型和算法,這樣的好處是可以消耗極少的系統(tǒng)資源,獲得足夠的信息。根據(jù)一種可選的實(shí)施方式,語(yǔ)音識(shí)別模塊106基于聲韻母的聲學(xué)模型和聲韻母的語(yǔ)言模型(initial/final based acoustic model and initial/final based language model)來(lái)進(jìn)行第一語(yǔ)音識(shí)別。
第一通信模塊108與語(yǔ)音采集模塊104相連,用于將語(yǔ)音采集模塊104所轉(zhuǎn)換而得的數(shù)字信號(hào)傳送到遠(yuǎn)端200。在可選的實(shí)施方式中,第一通信模塊108還用于移動(dòng)端100與遠(yuǎn)端200之間其他一些信息的交換,包括將語(yǔ)音或者語(yǔ)音特征,時(shí)間戳標(biāo)記等信息傳送到遠(yuǎn)端;以及從云端200接收傳遞給移動(dòng)端100的信息,包括:語(yǔ)音識(shí)別結(jié)果,時(shí)間信息,識(shí)別結(jié)果的分?jǐn)?shù)等。在本發(fā)明的一種實(shí)施方式中,第一通信模塊108還用于接收遠(yuǎn)端200根據(jù)所述數(shù)字信號(hào)而生成的后處理結(jié)果。
判斷模塊110與第一語(yǔ)音識(shí)別模塊106及第一通信模塊108相連,用于將所述后處理結(jié)果與所述第一語(yǔ)音識(shí)別模塊106進(jìn)行第一語(yǔ)音識(shí)別的識(shí)別結(jié)果進(jìn)行比較;以生成比較結(jié)果。
在可選的實(shí)施方式中下,遠(yuǎn)端200可以根據(jù)所述數(shù)字信號(hào)而提供出一個(gè)或者多個(gè)后處理結(jié)果。在接收用戶語(yǔ)音指令并通過(guò)動(dòng)作模塊112來(lái)實(shí)現(xiàn)與用戶語(yǔ)音指令相對(duì)應(yīng)的動(dòng)作的時(shí)候,如果根據(jù)用戶語(yǔ)音得到的后處理結(jié)果只有一個(gè)可能的結(jié)果,則可以直接將結(jié)果傳遞到動(dòng)作模塊112。而在遠(yuǎn)端200后處理得到多個(gè)可能的后處理結(jié)果時(shí),則需要根據(jù)第一語(yǔ)音識(shí)別模塊106進(jìn)行第一語(yǔ)音識(shí)別的識(shí)別結(jié)果來(lái)選取最可能的若干個(gè)結(jié)果送到動(dòng)作模塊112。
以下是一種示例,遠(yuǎn)端200根據(jù)所傳輸接收到的數(shù)字信號(hào),給出兩個(gè)可能的后處理結(jié)果:“今天天氣很好”和“今天天氣怎么樣”。當(dāng)?shù)谝徽Z(yǔ)音識(shí)別模塊106為聲韻母識(shí)別器,識(shí)別結(jié)果是“j in t ian t ian q i z en m e”,則判斷模塊110可以將與第一語(yǔ)音識(shí)別模塊106所進(jìn)行的第一語(yǔ)音識(shí)別結(jié)果最為相似的“今天天氣怎么樣”確定為比較結(jié)果。
動(dòng)作模塊112與判斷模塊110相連,用于根據(jù)判斷模塊110的比較結(jié)果而執(zhí)行相對(duì)應(yīng)的動(dòng)作。在一種示例的實(shí)施方式中,動(dòng)作模塊112對(duì)語(yǔ)音識(shí)別的結(jié)果進(jìn)行相應(yīng)的操作,它具有的特征是可以處理若干個(gè)連續(xù)的識(shí)別結(jié)果。亦即,遠(yuǎn)端200針對(duì)某次語(yǔ)音交互過(guò)程給出一個(gè)后處理結(jié)果ASRO_X1并通過(guò)判斷模塊110的比較而作為比較結(jié)果時(shí),動(dòng)作模塊112相應(yīng)地做出響應(yīng)ACT_X1。在此過(guò)程中,如果遠(yuǎn)端200接著給出此次語(yǔ)音交互過(guò)程的另一個(gè)后處理結(jié)果ASRO_X2并通過(guò)判斷模塊110的比較而作為比較結(jié)果,則動(dòng)作模塊需要從響應(yīng)ACT_X1平滑過(guò)渡到這個(gè)識(shí)別結(jié)果ASRO_X2應(yīng)當(dāng)對(duì)應(yīng)的動(dòng)作ACT_X2。
這里給出動(dòng)作模塊112的一種示例。在一種可選的地圖應(yīng)用中,當(dāng)用戶輸入某興趣點(diǎn),通過(guò)遠(yuǎn)端200后處理、判斷模塊110比較,首先給出的識(shí)別結(jié)果為“南方科技大廈”,這時(shí)通過(guò)動(dòng)作模塊112提示“南方科技大廈”,并且在用戶界面102上所展示的焦點(diǎn)(視圖的中心點(diǎn))從當(dāng)前位置(L0)移動(dòng)到“南方科技大廈”(L1)。若在移動(dòng)過(guò)程中,進(jìn)一步地通過(guò)遠(yuǎn)端200后處理、判斷模塊110的比較而給出的識(shí)別結(jié)果變?yōu)椤澳戏娇萍即髮W(xué)”,則動(dòng)作模塊112及用戶界 面102將更改為提示“南方科技大學(xué)”(L2),并且在用戶界面102上所展示的焦點(diǎn)(視圖的中心點(diǎn))將從當(dāng)前位置(可能在前一次移動(dòng)過(guò)程中,位于L0到L1中間的某點(diǎn)L3)移動(dòng)到“南方科技大學(xué)”(L2)。進(jìn)一步地,如果識(shí)別結(jié)果還更新為新的地點(diǎn),則還需要移動(dòng),除非用戶進(jìn)行了下一步的操作。
遠(yuǎn)端200包括第二通信模塊202、第二語(yǔ)音識(shí)別模塊204、后處理模塊206等。
第二通信模塊202用于接收移動(dòng)端100的第一通信模塊108所傳送的根據(jù)所采集的語(yǔ)音輸入轉(zhuǎn)換而成的相對(duì)應(yīng)的數(shù)字信號(hào)。
可選地,第一通信模塊108、第二通信模塊202之間可以通過(guò)可行的數(shù)據(jù)通信協(xié)議進(jìn)行通信。
第二語(yǔ)音識(shí)別模塊204與第二通信模塊202相連,用于利用第二語(yǔ)音識(shí)別模型對(duì)第二通信模塊202所接收的數(shù)字信號(hào)進(jìn)行第二語(yǔ)音識(shí)別。
根據(jù)本發(fā)明的一種可選的實(shí)施方式,第二語(yǔ)音識(shí)別模塊204可以是具有復(fù)雜的聲學(xué)模型和語(yǔ)言模型、復(fù)雜算法的識(shí)別器,其進(jìn)行語(yǔ)音識(shí)別所采用的第二語(yǔ)音識(shí)別模型比移動(dòng)端100的第一語(yǔ)音識(shí)別模塊106所采用的語(yǔ)音識(shí)別模型更高級(jí),需要更大的數(shù)據(jù)運(yùn)算量。例如,第二語(yǔ)音識(shí)別模型可以是基于音素三音子(Phoneme based triphone)的聲學(xué)模型,基于詞的N元統(tǒng)計(jì)語(yǔ)言模型(Word based N-gram)(典型的例子為3-Gram),從而使得第二語(yǔ)音識(shí)別模塊204實(shí)現(xiàn)為一個(gè)LVCSR識(shí)別器。
第二語(yǔ)音識(shí)別模塊204可以連續(xù)地進(jìn)行第二語(yǔ)音識(shí)別。自第一、第二通信模塊開(kāi)始進(jìn)行語(yǔ)音或者語(yǔ)音特征的通信開(kāi)始,第二語(yǔ)音識(shí)別模塊204可以持續(xù)地對(duì)以固定的間隔輸入的每次一小段語(yǔ)音或者對(duì)應(yīng)的特征矢量(一幀語(yǔ)音或者若干個(gè)語(yǔ)音特征矢量)進(jìn)行第二語(yǔ)音識(shí)別,固定的間隔一般等于該一小段語(yǔ)音的時(shí)長(zhǎng)。例如,如果記第一幀語(yǔ)音到達(dá)第二語(yǔ)音識(shí)別模塊204的時(shí)間為t1,并且經(jīng)過(guò)一個(gè)預(yù)設(shè)的時(shí)延dt1(例如0.3秒),第二語(yǔ)音識(shí)別模塊204輸出其進(jìn)行第二語(yǔ)音識(shí)別的結(jié)果。該輸出的結(jié)果是從t1到輸出結(jié)果的時(shí)間段內(nèi)(或者更小一段時(shí)間)所接收到的語(yǔ)音的第二語(yǔ)音識(shí)別的識(shí)別結(jié)果(因?yàn)榇嬖谔幚硌舆t)。通常認(rèn)為,該輸出的結(jié)果是“部分識(shí)別結(jié)果”(partial result)。后續(xù),由于通過(guò)第 一、第二通信模塊不斷地輸入語(yǔ)音,因此該第二語(yǔ)音識(shí)別所得的部分識(shí)別結(jié)果可以被不斷地更新。第二語(yǔ)音識(shí)別模塊204的一種示例的輸入輸出過(guò)程如下所示:
如前所述,語(yǔ)音采集模塊104可以配置為連續(xù)地采集語(yǔ)音并轉(zhuǎn)換為相對(duì)應(yīng)的數(shù)字信號(hào),其中,第二語(yǔ)音輸入轉(zhuǎn)換為第二數(shù)字信號(hào)的過(guò)程可以與遠(yuǎn)端200所進(jìn)行的對(duì)第一數(shù)字信號(hào)的第二語(yǔ)音識(shí)別、后處理以生成第一后處理結(jié)果的過(guò)程同時(shí)進(jìn)行。
后處理模塊206與第二語(yǔ)音識(shí)別模塊204相連,用于利用后處理模型根據(jù)所述第二語(yǔ)音識(shí)別模塊204對(duì)所述數(shù)字信號(hào)進(jìn)行第二語(yǔ)音識(shí)別的識(shí)別結(jié)果進(jìn)行后處理,并得到后處理結(jié)果。后處理模塊206基于后處理模型進(jìn)行后處理,其一個(gè)例子是采用比第二語(yǔ)音識(shí)別模型中的語(yǔ)言模型更為復(fù)雜的語(yǔ)言模型作為后處理模型,例如word based 6-Gram;另一個(gè)例子是在興趣點(diǎn)識(shí)別中,后處理模型包括某個(gè)地域的興趣點(diǎn)列表,例如某市某區(qū)的1萬(wàn)個(gè)興趣列表(Point of interest,POI)。作為一種示例,在輸入的第二語(yǔ)音識(shí)別模塊204的識(shí)別結(jié)果為“今天天氣”時(shí),后處理模塊206輸出的后處理結(jié)果為“今天天氣怎么樣”。
第二語(yǔ)音識(shí)別模塊204的輸出為多個(gè)候選,各個(gè)候選具有相應(yīng)的得分。從而,第二語(yǔ)音識(shí)別模塊204的輸出為一個(gè)序列(sequence)。在該序列中,各個(gè)項(xiàng)對(duì)應(yīng)在相應(yīng)時(shí)刻的識(shí)別結(jié)果符號(hào)(在此處實(shí)施方式中是聲韻母)。每個(gè)項(xiàng)(Item)可能包含多個(gè)候選(hypothesis);每個(gè)候選至少包括(時(shí)間、符號(hào)(聲韻母)、得分),其中得分越大表示可能性越高。例如,對(duì)于最佳候選的第一個(gè)符號(hào),總共三個(gè)(0,’ n’,0.9)(0,’m’,0.8)(0,’l’,0.5)。注意到這里每個(gè)符號(hào)可能候選個(gè)數(shù)可能有差別。為簡(jiǎn)化起見(jiàn),有時(shí)候可以只考慮最佳候選序列,例如第一個(gè)符號(hào)只考慮“n”。
圖2所示為本發(fā)明一種實(shí)施方式的語(yǔ)音識(shí)別方法的流程圖,以下結(jié)合圖1中所示的語(yǔ)音識(shí)別裝置對(duì)該語(yǔ)音識(shí)別方法進(jìn)行說(shuō)明。
步驟302,接收第一語(yǔ)音輸入,并將所接收的第一語(yǔ)音輸入轉(zhuǎn)換為第一數(shù)字信號(hào)。
具體地,用戶通過(guò)移動(dòng)端100的用戶界面102啟動(dòng)語(yǔ)音采集模塊104,以使語(yǔ)音采集模塊104開(kāi)始接收用戶的語(yǔ)音輸入。語(yǔ)音采集模塊104從而將所接收到的用戶第一語(yǔ)音輸入轉(zhuǎn)換為第一數(shù)字信號(hào)。
步驟304,將第一數(shù)字信號(hào)傳送至云端。
具體地,語(yǔ)音采集模塊104所生成的第一數(shù)字信號(hào)通過(guò)第一通信模塊108被輸出,并在遠(yuǎn)端200處被第二通信模塊202所接收。
步驟306,接收第一數(shù)字信號(hào)。
具體地,在遠(yuǎn)端200處,第二通信模塊202接收由移動(dòng)端100的第一通信模塊108所傳送的根據(jù)所接收的第一語(yǔ)音輸入而生成的第一數(shù)字信號(hào)。
步驟308,利用第二語(yǔ)音識(shí)別模型對(duì)第一數(shù)字信號(hào)進(jìn)行第二語(yǔ)音識(shí)別。
具體地,遠(yuǎn)端200的第二語(yǔ)音識(shí)別模塊204利用第二語(yǔ)音識(shí)別模型對(duì)第一數(shù)字信號(hào)進(jìn)行第二語(yǔ)音識(shí)別。如前所述地,第二語(yǔ)音識(shí)別模塊204進(jìn)行第二語(yǔ)音識(shí)別所用的第二語(yǔ)音識(shí)別模型比移動(dòng)端100的第一語(yǔ)音識(shí)別模塊106進(jìn)行第一語(yǔ)音識(shí)別所用的第一語(yǔ)音識(shí)別模型更復(fù)雜、更高級(jí),需要更多的數(shù)據(jù)運(yùn)算量。
步驟310,根據(jù)對(duì)第一數(shù)字信號(hào)進(jìn)行第二語(yǔ)音識(shí)別的識(shí)別結(jié)果,利用后處理模型進(jìn)行后處理,得到第一后處理結(jié)果。
具體地,第二語(yǔ)音識(shí)別模塊204對(duì)第一數(shù)字信號(hào)進(jìn)行第二語(yǔ)音識(shí)別的結(jié)果被后處理模塊206利用后處理模型進(jìn)行后處理,并得到第一后處理結(jié)果。如前所述地,后處理模型中的語(yǔ)言模型比第二語(yǔ)音識(shí)別的語(yǔ)言模型更為復(fù)雜。
步驟312,輸出第一后處理結(jié)果。
具體地,后處理模塊206進(jìn)行后處理所得到的第一后處理結(jié)果被送到第二 通信模塊202,并由第二通信模塊202傳送給移動(dòng)端的第一通信模塊108。
步驟314,接收根據(jù)第一數(shù)字信號(hào)而生成的第一后處理結(jié)果。
具體地,在移動(dòng)端100處,第一通信模塊108從遠(yuǎn)端200的第二通信模塊202處接收后處理模塊206所生成的第一后處理結(jié)果。
步驟316,接收第二語(yǔ)音輸入,并將所接收的第二語(yǔ)音輸入轉(zhuǎn)換為第二數(shù)字信號(hào)。
具體地,與前述接收第一語(yǔ)音輸入并轉(zhuǎn)換為第一數(shù)字信號(hào)相似地,語(yǔ)音采集模塊104接收用戶進(jìn)一步的第二語(yǔ)音輸入,并將其轉(zhuǎn)換為相應(yīng)的第二數(shù)字信號(hào)??梢岳斫獾氖牵摬襟E316所進(jìn)行的第二語(yǔ)音輸入轉(zhuǎn)換為第二數(shù)字信號(hào)的過(guò)程,可以在前述將第一語(yǔ)音輸入轉(zhuǎn)換為第一數(shù)字信號(hào)之后即開(kāi)始進(jìn)行。從而,第二語(yǔ)音輸入轉(zhuǎn)換為第二數(shù)字信號(hào)的過(guò)程可以與遠(yuǎn)端所進(jìn)行的對(duì)第一數(shù)字信號(hào)的第二語(yǔ)音識(shí)別、后處理以生成第一后處理結(jié)果的過(guò)程同時(shí)進(jìn)行。
步驟318,利用第一語(yǔ)音識(shí)別模型對(duì)第二數(shù)字信號(hào)進(jìn)行第一語(yǔ)音識(shí)別。
具體地,移動(dòng)端100的第一語(yǔ)音識(shí)別模塊106對(duì)第二數(shù)字信號(hào)利用第一語(yǔ)音識(shí)別模型進(jìn)行第一語(yǔ)音識(shí)別。該第一語(yǔ)音識(shí)別模型為相對(duì)簡(jiǎn)單的語(yǔ)音識(shí)別模型,為減少在移動(dòng)端的數(shù)據(jù)處理量,第一語(yǔ)音識(shí)別模型并不復(fù)雜。
與前述類似地,由于語(yǔ)音輸入的連續(xù)性,該步驟318所進(jìn)行的第二數(shù)字信號(hào)的第一語(yǔ)音識(shí)別過(guò)程,可以在前述將第二語(yǔ)音輸入轉(zhuǎn)換為第二數(shù)字信號(hào)之后即開(kāi)始進(jìn)行。從而,對(duì)第二數(shù)字信號(hào)進(jìn)行第一語(yǔ)音識(shí)別的過(guò)程可以與遠(yuǎn)端所進(jìn)行的對(duì)第一數(shù)字信號(hào)的第二語(yǔ)音識(shí)別、后處理以生成第一后處理結(jié)果的過(guò)程同時(shí)進(jìn)行。
步驟320,將第一后處理結(jié)果與對(duì)第二數(shù)字信號(hào)進(jìn)行第一語(yǔ)音識(shí)別的識(shí)別結(jié)果進(jìn)行比較。
具體地,移動(dòng)端100的判斷模塊110對(duì)所接收到的可能的多個(gè)第一后處理結(jié)果與第二數(shù)字信號(hào)的第一語(yǔ)音識(shí)別的識(shí)別結(jié)果進(jìn)行比較,并將多個(gè)可能的后處理結(jié)果中最相似第二數(shù)字信號(hào)的第一語(yǔ)音識(shí)別的識(shí)別結(jié)果的后處理結(jié)果作為比較結(jié)果。
步驟322,根據(jù)比較的結(jié)果執(zhí)行相應(yīng)的動(dòng)作。
具體地,動(dòng)作模塊112根據(jù)判斷模塊110所進(jìn)行比較得到的比較結(jié)果而執(zhí)行相對(duì)應(yīng)的動(dòng)作,例如輸入、計(jì)算、搜索、定位、導(dǎo)航等。
應(yīng)當(dāng)理解的是,圖2所示的步驟302至步驟322,其各步驟可能在移動(dòng)端100與遠(yuǎn)端200處進(jìn)行,然而,為方便說(shuō)明而在一個(gè)實(shí)施方式中所進(jìn)行的說(shuō)明,并不意味著本發(fā)明其他的實(shí)施方式必然需要移動(dòng)端100與遠(yuǎn)端200同時(shí)具備并進(jìn)行各步驟。以上所述各個(gè)步驟的任意拆分、組合,只要能實(shí)現(xiàn)本發(fā)明的目的,都應(yīng)當(dāng)認(rèn)為構(gòu)成本發(fā)明的實(shí)施方式。
本發(fā)明實(shí)施方式中的語(yǔ)音識(shí)別裝置與語(yǔ)音識(shí)別方法,相比于通過(guò)云端進(jìn)行識(shí)別并指示移動(dòng)端進(jìn)行操作,可以極大地減小延遲,提升用戶的體驗(yàn)。通常地,在云端設(shè)置具有復(fù)雜語(yǔ)音識(shí)別模型的語(yǔ)音識(shí)別模塊,其進(jìn)行語(yǔ)音識(shí)別的識(shí)別結(jié)果通過(guò)通信模塊傳遞給移動(dòng)應(yīng)用,做出相應(yīng)動(dòng)作。從用戶語(yǔ)音輸入完成,到系統(tǒng)做出相應(yīng)動(dòng)作,可能包括的延遲有:語(yǔ)音檢測(cè)VAD延遲(例如200ms),語(yǔ)音特征提取延遲(例如25ms),從移動(dòng)端到云端的通信延遲(例如500ms),云端語(yǔ)音識(shí)別的處理延遲(例如200ms),返回識(shí)別結(jié)果從云端到移動(dòng)端的通信延遲(例如500ms),移動(dòng)端動(dòng)作響應(yīng)的延遲(例如50ms),所以,盡管在云端可以獲得較為準(zhǔn)確的識(shí)別結(jié)果,并且在移動(dòng)端不需要大量數(shù)據(jù)運(yùn)算,但整體延遲會(huì)在1.5秒以上,極大地影響了用戶體驗(yàn)。
通過(guò)本發(fā)明上述實(shí)施方式中所包括的后處理模塊與其后處理步驟,可以將識(shí)別結(jié)果附加上一個(gè)具有一定準(zhǔn)確度的可能結(jié)果,例如比原有識(shí)別結(jié)果多4個(gè)音節(jié)(大約相當(dāng)于1秒到1.5秒)。體現(xiàn)在語(yǔ)音輸入的響應(yīng)形式上,會(huì)表現(xiàn)為延遲很短。當(dāng)用戶已經(jīng)完成語(yǔ)音輸入時(shí)(例如3秒鐘有效的語(yǔ)音),由于固有延遲的存在,云端的第二語(yǔ)音識(shí)別模塊(從判斷模塊所接收到的后處理結(jié)果看)大約處理了例如1.5秒的語(yǔ)音(對(duì)應(yīng)1.5秒的延遲)。然而,由于第一語(yǔ)音識(shí)別模塊對(duì)于后續(xù)語(yǔ)音輸入的第一語(yǔ)音識(shí)別已經(jīng)完成,動(dòng)作模塊據(jù)以進(jìn)行動(dòng)作的識(shí)別結(jié)果對(duì)應(yīng)的時(shí)間長(zhǎng)度則是3秒鐘(對(duì)應(yīng)后處理了4個(gè)音節(jié),1.5秒),表現(xiàn)在用戶體驗(yàn)上,未發(fā)生延遲。
圖3所示的是根據(jù)本發(fā)明實(shí)施方式的語(yǔ)音識(shí)別裝置與語(yǔ)音識(shí)別方法的時(shí)間序列。以下將結(jié)合一個(gè)示例的應(yīng)用場(chǎng)景來(lái)說(shuō)明本發(fā)明實(shí)施方式的時(shí)間序列。
在該示例中,移動(dòng)端100運(yùn)行一種地圖應(yīng)用,并在用戶界面102上展示相應(yīng)的應(yīng)用信息。在該應(yīng)用中,用戶輸入語(yǔ)音后,移動(dòng)端應(yīng)將焦點(diǎn)移動(dòng)到用戶所輸入的地點(diǎn),用戶確認(rèn)地點(diǎn)后再給出相應(yīng)的信息。針對(duì)中文語(yǔ)音輸入,用戶實(shí)際輸入“南方科技大學(xué)”六個(gè)音節(jié)(對(duì)應(yīng)漢語(yǔ)音節(jié)為:nan fang ke ji da xue),有效的語(yǔ)音約為1.9秒。
用戶的有效語(yǔ)音輸入記為由t0時(shí)刻開(kāi)始,語(yǔ)音采集模塊104開(kāi)始接收語(yǔ)音。在一種實(shí)施方式中,語(yǔ)音的每幀時(shí)長(zhǎng)為25ms,幀移為10ms,這樣從t0+25ms開(kāi)始,每隔10ms就有一幀語(yǔ)音錄制完成。設(shè)語(yǔ)音采集模塊104提取語(yǔ)音特征耗時(shí)5ms,則從t0+30ms開(kāi)始,每隔10ms就有一幀語(yǔ)音被同時(shí)送到第一語(yǔ)音識(shí)別模塊106和第一通信模塊108。
在第一語(yǔ)音識(shí)別模塊106處,如前所述地,可以采用例如基于聲韻母的bi-phone聲學(xué)模型和基于聲韻母的3階統(tǒng)計(jì)語(yǔ)言模型。在有效語(yǔ)音輸入開(kāi)始的t0時(shí)刻之后30ms,第一語(yǔ)音識(shí)別模塊106開(kāi)始被輸入特征矢量。由于第一語(yǔ)音識(shí)別模塊106本身的處理延遲,雖然其自t0+30ms開(kāi)始處理語(yǔ)音特征矢量,但經(jīng)過(guò)一個(gè)短的延時(shí),例如10ms,第一語(yǔ)音識(shí)別模塊106可以輸出其對(duì)第一數(shù)字信號(hào)進(jìn)行第一語(yǔ)音識(shí)別的識(shí)別結(jié)果(t0+40ms)。
然而,考慮到語(yǔ)音識(shí)別的完整性,亦即,輸出應(yīng)該具有完整的語(yǔ)音識(shí)別聲學(xué)單元(在本示例中為聲韻母,第一個(gè)應(yīng)該是n(對(duì)應(yīng)“南方科技大學(xué)”))。因此,第一語(yǔ)音識(shí)別模塊106只在已經(jīng)接收了足夠有可能輸出一個(gè)語(yǔ)音識(shí)別單元的特征矢量之后,才開(kāi)始提供第一語(yǔ)音識(shí)別的輸出。在本示例中,例如需要至少4幀語(yǔ)音才足夠輸出一個(gè)語(yǔ)音識(shí)別單元,因此,第一語(yǔ)音識(shí)別模塊106在t0+40ms+(4-1)*10ms=t0+70ms時(shí)開(kāi)始輸出第一語(yǔ)音識(shí)別的結(jié)果。
應(yīng)當(dāng)注意到,第一語(yǔ)音識(shí)別模塊106所處理的4幀語(yǔ)音所對(duì)應(yīng)的波形在t0+25ms+(4-1)*10ms=t0+55ms時(shí)結(jié)束;其后距離第一語(yǔ)音識(shí)別模塊106輸出第一語(yǔ)音識(shí)別的結(jié)果的t0+70ms時(shí)刻,其間出現(xiàn)15ms左右的實(shí)際延遲(例如考慮到系統(tǒng)有可能繁忙,第一語(yǔ)音識(shí)別模塊106所能消耗的CPU不能及時(shí)處理的情況)。
根據(jù)本發(fā)明的一種實(shí)施方式,第二語(yǔ)音識(shí)別模塊204的輸出為多個(gè)候選, 各個(gè)候選具有相應(yīng)的得分。從而,第二語(yǔ)音識(shí)別模塊204的輸出為一個(gè)序列(sequence)。在該序列中,各個(gè)項(xiàng)對(duì)應(yīng)在相應(yīng)時(shí)刻的識(shí)別結(jié)果符號(hào)(在此處實(shí)施方式中是聲韻母)。每個(gè)項(xiàng)(Item)可能包含多個(gè)候選(hypothesis);每個(gè)候選至少包括(時(shí)間、符號(hào)(聲韻母)、得分),其中得分越大表示可能性越高。例如,對(duì)于最佳候選的第一個(gè)符號(hào),總共三個(gè)(0,’n’,0.9)(0,’m’,0.8)(0,’l’,0.5)。注意到這里每個(gè)符號(hào)可能候選個(gè)數(shù)可能有差別。為簡(jiǎn)化起見(jiàn),有時(shí)候可以只考慮最佳候選序列,例如第一個(gè)符號(hào)只考慮“n”。
例如,在t0+2000ms的時(shí)候,第二語(yǔ)音識(shí)別模塊204輸出最佳候選序列“nan fang ge ji dai xue),而實(shí)際的語(yǔ)音輸入對(duì)應(yīng)的聲韻母為(n an f ang k e j i d a x ue),因此最佳候選中存在錯(cuò)誤的情況。
如前所述的,第二語(yǔ)音識(shí)別模塊204可以采用例如基于聲韻母的tri-phone聲學(xué)模型和基于詞的5階統(tǒng)計(jì)語(yǔ)言模型來(lái)進(jìn)行第二語(yǔ)音識(shí)別。
第二語(yǔ)音識(shí)別模塊204接受語(yǔ)音特征矢量時(shí),延遲較大,因此,在典型的情況下,第二語(yǔ)音識(shí)別模塊204從t0+530ms開(kāi)始處理語(yǔ)音。經(jīng)過(guò)一個(gè)短延時(shí),例如10ms,第二語(yǔ)音識(shí)別模塊204開(kāi)始輸出第二語(yǔ)音識(shí)別的結(jié)果(t0+540ms)。
盡管第二語(yǔ)音識(shí)別模塊204的處理延遲與第一語(yǔ)音識(shí)別模塊106一樣,都是10ms。然而,由于第二語(yǔ)音識(shí)別模塊204所處的遠(yuǎn)端200的運(yùn)算能力比移動(dòng)端100的運(yùn)算能力強(qiáng),例如有1到2個(gè)數(shù)量級(jí)的差異,因此在實(shí)際的運(yùn)算任務(wù)中,第二語(yǔ)音識(shí)別模塊204可以實(shí)現(xiàn)比移動(dòng)端100復(fù)雜得多的語(yǔ)音識(shí)別任務(wù)。
類似地,考慮到語(yǔ)音識(shí)別的完整性,也就是輸出應(yīng)該具有完整的語(yǔ)音識(shí)別聲學(xué)單元(此處是聲韻母),因此第二語(yǔ)音識(shí)別模塊204只在接收到足夠有可能輸出一個(gè)語(yǔ)音識(shí)別單元的特征矢量之后,才可能產(chǎn)生第二語(yǔ)音識(shí)別的輸出,例如至少4幀語(yǔ)音,也就是t0+540ms+(4-1)*10ms=t0+570ms。第二語(yǔ)音識(shí)別模塊204此處處理的4幀語(yǔ)音,對(duì)應(yīng)的波形在t0+25ms+(4-1)*10ms=t0+55ms時(shí)即已結(jié)束。對(duì)應(yīng)地,第二語(yǔ)音識(shí)別模塊204的實(shí)際延遲在515ms左右。進(jìn)一步地,如果考慮第二語(yǔ)音識(shí)別模塊204需要輸出完整的詞,則需要等待的幀數(shù)可能更多,可能引入新的延遲。
因此,可以假設(shè):t0+1100ms時(shí)第二語(yǔ)音識(shí)別模塊204輸出“南方”;t0+1800ms 時(shí)第二語(yǔ)音識(shí)別模塊204輸出“南方科技”;t0+2600ms時(shí)第二語(yǔ)音識(shí)別模塊204輸出“南方科技大學(xué)”。對(duì)應(yīng)的實(shí)際語(yǔ)音輸入為:t0+700ms時(shí)“南方”;t0+1400ms時(shí)“南方科技”;t0+2000ms時(shí)“南方科技大學(xué)”。
如前所述地,第二語(yǔ)音識(shí)別模塊204的輸出可以是三元組(時(shí)間,符號(hào)(在本示例中為詞或者詞組),得分);時(shí)間是表明符號(hào)對(duì)應(yīng)的時(shí)間結(jié)束,得分越大表明可能性越大;例如(700ms,南方,0.9),這里表示在從語(yǔ)音起始時(shí)刻到700ms,語(yǔ)音內(nèi)容可能為“南方”,得分為0.9。
作為一種示例,假設(shè)后處理模塊206的后處理模型采用該區(qū)域內(nèi)所有POI的列表,并根據(jù)熱度(popularity)進(jìn)行排序(即,被查詢次序較多的排序靠前)。
后處理模塊206的輸出也可以為前述的三元組(時(shí)間,符號(hào)(在本示例中為詞或者詞組),得分);其含義和前述第二語(yǔ)音識(shí)別模塊204的輸出結(jié)果類似,只是內(nèi)容不同。例如對(duì)應(yīng)第二語(yǔ)音識(shí)別模塊204的輸出為(700ms,南方,0.9),后處理模塊206的輸出為(700ms,南方航空大廈,0.5)。
在t0+1100ms時(shí),后處理模塊206接收到第二語(yǔ)音識(shí)別模塊204輸出的“南方”;后處理模塊206根據(jù)后處理模型查找到“南方”開(kāi)頭的POI包括“南方航空大廈”“南方科技大學(xué)”“南方科技大廈”“南方文化培訓(xùn)中心”等100個(gè)POI,根據(jù)得分從高到低的順序?qū)⑶叭齻€(gè):
(700ms,南方航空大廈,0.5)
(700ms,南方科技大學(xué),0.45)
(700ms,南方科技大廈,0.4)
輸出給第二通信模塊202。應(yīng)當(dāng)理解的是,在此,輸出的數(shù)量可以不是3個(gè),其數(shù)量是可以設(shè)定的。
在t+1800ms時(shí),后處理模塊206接收到第二語(yǔ)音識(shí)別模塊204的輸出“南方科技”;后處理模塊206根據(jù)后處理模型查找到“南方科技”開(kāi)頭的POI包括“南方科技大學(xué)”“南方科技大廈”“南方科技大學(xué)南門”等10個(gè)POI,根據(jù)得分從高到低的順序把前三個(gè):
(1400ms,南方科技大學(xué),0.7)
(1400ms,南方科技大廈,0.6)
(1400ms,南方科技大學(xué)南門,0.5)
輸出給第二通信模塊202。類似地,在此,輸出的數(shù)量可以不是3個(gè),其數(shù)量是可以設(shè)定的。
在t0+2600ms時(shí),后處理模塊206接收到第二語(yǔ)音識(shí)別模塊204的輸出“南方科技大學(xué)”;后處理模塊206根據(jù)后處理模型查找到“南方科技大學(xué)”開(kāi)頭的POI包括“南方科技大學(xué)”“南方科技大學(xué)南門”等3個(gè)POI,根據(jù)得分把兩個(gè)結(jié)果:
(2000ms,南方科技大學(xué),0.9)
(2000ms,南方科技大學(xué)南門,0.7)
輸出給第二通信模塊202。類似地,在此,輸出的數(shù)量可以不是2個(gè),其數(shù)量是可以設(shè)定的。
由于第二通信模塊202和第一通信模塊108之間存在延遲,根據(jù)前述的后處理模塊206的輸出,考慮到延遲(此處假設(shè)為200ms,對(duì)應(yīng)的第一通信模塊108到第二通信模塊202的延遲考慮為500ms,這是因?yàn)樯蟼骱拖螺d線路不對(duì)稱,上傳數(shù)據(jù)語(yǔ)音特征較多,下載識(shí)別結(jié)果/后處理結(jié)果數(shù)據(jù)較少),則獲得如下的工作過(guò)程:
在t0+1300ms時(shí),判斷模塊110接收到后處理模塊206的輸出:
(700ms,南方航空大廈,0.5)
(700ms,南方科技大學(xué),0.45)
(700ms,南方科技大廈,0.4)
后處理模塊206的輸出轉(zhuǎn)化為聲韻母序列之后為:
(700ms,n an f ang h ang k ong d a sh a,0.5)
(700ms,n an f ang k e j i d a x ue,0.45)
(700ms,n an f ang k e j i d a sh a,0.4)
此時(shí),第一語(yǔ)音識(shí)別模塊106的最佳候選為(n an f ang g e j i),(注意此處不是完全正確的結(jié)果n an f ang k e j i,亦即,存在錯(cuò)誤的可能k被識(shí)別為g),判斷模塊110將其和后處理模塊206的輸出進(jìn)行比較,發(fā)現(xiàn)其與后兩個(gè)輸出較為相似(此處判斷準(zhǔn)則為最佳候選符號(hào)序列和后處理模塊206的輸出符號(hào)序列, 相同記為1,不同記為0),分別是(700ms,南方航空大廈,0.5)8個(gè)符號(hào)中4個(gè)相同,(700ms,南方科技大學(xué),0.45)8個(gè)符號(hào)中7個(gè)相同,(700ms,南方科技大廈,0.4)8個(gè)符號(hào)中7個(gè)相同。在其他實(shí)施方式中,還可以加入第一語(yǔ)音識(shí)別模塊106的多個(gè)候選并乘以得分。判斷模塊110從而將后面兩個(gè)備選送給動(dòng)作模塊112??蛇x地,由于用戶實(shí)際上并沒(méi)有完成語(yǔ)音輸入,因此動(dòng)作模塊112可以不據(jù)以開(kāi)始動(dòng)作。
在t+2000ms時(shí),判斷模塊110接收到后處理模塊206的輸出:
(1400ms,南方科技大學(xué),0.7)
(1400ms,南方科技大廈,0.6)
(1400ms,南方科技大學(xué)南門,0.5)
后處理模塊206的輸出轉(zhuǎn)化為聲韻母序列之后為L(zhǎng)
(1400ms,n an f ang k e j i d a x ue,0.7)
(1400ms,n an f ang k e j i d a sh a,0.6)
(1400ms,n an f ang k e j i d a x ue n an m en,0.5)
此時(shí),第一語(yǔ)音識(shí)別模塊106的最佳候選為(nan fang ge ji dai xue),判斷模塊110將其和后處理模塊206的輸出進(jìn)行比較,發(fā)現(xiàn)其與第一個(gè)和第三個(gè)輸出較為相似,分別是(1400ms,南方科技大學(xué),0.7)12個(gè)符號(hào)中10個(gè)相同,(1400ms,南方科技大學(xué)南門,0.5)12個(gè)符號(hào)中10個(gè)相同。在其他實(shí)施方式中,還可以加入第一語(yǔ)音識(shí)別模塊106的多個(gè)候選并乘以得分。判斷模塊110將這兩個(gè)備選送給動(dòng)作模塊112,此時(shí)用戶已經(jīng)完成語(yǔ)音輸入,動(dòng)作模塊112開(kāi)始動(dòng)作,將地圖的焦點(diǎn)移動(dòng)到“南方科技大學(xué)”,同時(shí)也標(biāo)記可能候選“南方科技大學(xué)南門”。
在t0+2800ms時(shí),判斷模塊110接收到后處理模塊206的輸出:
(2000ms,南方科技大學(xué),0.9)
(2000ms,南方科技大學(xué)南門,0.7)
由于內(nèi)容和前述t+2000ms時(shí)沒(méi)有變化,因此動(dòng)作模塊112沒(méi)有進(jìn)行其他的動(dòng)作。
可以看出,在t0+2000ms的時(shí)候,用戶的語(yǔ)音輸入大約剛剛結(jié)束了100ms, 實(shí)際云端200的第二語(yǔ)音識(shí)別模塊204還只收到大約1.5秒的語(yǔ)音,但是本發(fā)明實(shí)施方式的語(yǔ)音識(shí)別裝置與語(yǔ)音識(shí)別方法已經(jīng)做出了相應(yīng)正確的反應(yīng),用戶可以體驗(yàn)到系統(tǒng)響應(yīng)極快。
存在某些可能性,例如t0+2000ms的時(shí)候,后處理結(jié)果出現(xiàn)錯(cuò)誤,例如在此例中,判斷模塊110給出最佳的結(jié)果是“南方科技大廈”,則動(dòng)作模塊112做出相應(yīng)動(dòng)作,將地圖的焦點(diǎn)移動(dòng)到“南方科技大廈”。此時(shí),用戶感覺(jué)識(shí)別有誤。但是在移動(dòng)過(guò)程中,例如到了t0+2800ms,判斷模塊110給出最佳的結(jié)果是“南方科技大學(xué)”,地圖的焦點(diǎn)自動(dòng)移動(dòng)到“南方科技大學(xué)”,用戶體驗(yàn)為:系統(tǒng)自動(dòng)修正了錯(cuò)誤。
根據(jù)本發(fā)明各實(shí)施方式的語(yǔ)音識(shí)別裝置與語(yǔ)音識(shí)別方法,利用遠(yuǎn)端精確識(shí)別的結(jié)果進(jìn)行后處理,并與移動(dòng)端具有較小延遲的識(shí)別結(jié)果進(jìn)行比較,以指示將要進(jìn)行的動(dòng)作,避免了動(dòng)作指示基于遠(yuǎn)端識(shí)別而帶來(lái)的延遲,在降低延遲的同時(shí)不失去對(duì)精度的控制,提升了用戶體驗(yàn)。
以上所述實(shí)施例的各技術(shù)特征可以進(jìn)行任意的組合,為使描述簡(jiǎn)潔,未對(duì)上述實(shí)施例中的各個(gè)技術(shù)特征所有可能的組合都進(jìn)行描述,然而,只要這些技術(shù)特征的組合不存在矛盾,都應(yīng)當(dāng)認(rèn)為是本說(shuō)明書(shū)記載的范圍。
以上所述實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對(duì)發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對(duì)于本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。