語(yǔ)音識(shí)別方法與裝置與流程

文檔序號(hào)：12475928閱讀：274來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及一種語(yǔ)音識(shí)別方法及裝置，特別地，涉及一種基于云端語(yǔ)音識(shí)別的低時(shí)延語(yǔ)音識(shí)別方法與相應(yīng)的裝置。

背景技術(shù)：

移動(dòng)設(shè)備尤其是智能手機(jī)等一般采用多種交互方式，而其中以語(yǔ)音識(shí)別為主要技術(shù)的語(yǔ)音交互是移動(dòng)設(shè)備上重要的交互方式。

語(yǔ)音識(shí)別(Speech Recognition)技術(shù)，也被稱為自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition，ASR)，其目標(biāo)是語(yǔ)音中的內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入，例如按鍵、二進(jìn)制編碼或者字符序列并進(jìn)行相應(yīng)的操作。

語(yǔ)音識(shí)別的主流技術(shù)是基于因馬爾科夫模型(Hidden Markov Model,HMM)，常用的是連續(xù)分布的HMM模型，稱為CDHMM。在語(yǔ)音識(shí)別任務(wù)中，一般需要聲學(xué)模型(Acoustic Model)和語(yǔ)言模型(Language Model)。

對(duì)于移動(dòng)設(shè)備來(lái)說(shuō)，語(yǔ)音識(shí)別任務(wù)的運(yùn)算量很大，特別是一些信息查詢?nèi)蝿?wù)是大詞表連續(xù)語(yǔ)音識(shí)別(Large Vocabulary Continuous Speech Recognition,LVCSR)，需要較大的運(yùn)算量。

一種解決方案是采用基于云端的語(yǔ)音識(shí)別。通過(guò)在移動(dòng)客戶端把語(yǔ)音或者語(yǔ)音特征上傳到云端(亦即，服務(wù)器端)，在服務(wù)器端進(jìn)行語(yǔ)音識(shí)別，然后把語(yǔ)音識(shí)別的結(jié)果傳到移動(dòng)客戶端。通過(guò)云端的配合，使得移動(dòng)客戶端的運(yùn)算量比較小，并將主要的運(yùn)算量集中在云端服務(wù)器，這樣有利于采用更為復(fù)雜的、準(zhǔn)確率更好的語(yǔ)音識(shí)別算法，同時(shí)可以方便地和其他的應(yīng)用服務(wù)結(jié)合起來(lái)。然而，這種全然由云端進(jìn)行語(yǔ)音識(shí)別計(jì)算的缺點(diǎn)是傳輸?shù)难訒r(shí)較大，從客戶端語(yǔ)音錄制完畢，到云端服務(wù)器處理完畢，再到客戶端獲得云端服務(wù)器進(jìn)行語(yǔ)音識(shí)別處理所得到的相關(guān)信息、并作出正確的動(dòng)作，其間發(fā)生的延時(shí)一般都在幾百毫秒到秒級(jí)別，用戶的體驗(yàn)較差。

技術(shù)實(shí)現(xiàn)要素：

基于此，有必要提供一種降低延遲的語(yǔ)音識(shí)別方法，以及相應(yīng)的語(yǔ)音識(shí)別裝置。

一種語(yǔ)音識(shí)別方法，包括：

接收第一語(yǔ)音輸入，并將所接收的第一語(yǔ)音輸入轉(zhuǎn)換為第一數(shù)字信號(hào)；

將所述第一數(shù)字信號(hào)傳送至云端；

接收根據(jù)所述第一數(shù)字信號(hào)生成的第一后處理結(jié)果；

接收第二語(yǔ)音輸入，并將所接收的第二語(yǔ)音輸入轉(zhuǎn)換為第二數(shù)字信號(hào)；

利用第一語(yǔ)音識(shí)別模型對(duì)所述第二數(shù)字信號(hào)進(jìn)行第一語(yǔ)音識(shí)別；

將所述第一后處理結(jié)果與對(duì)所述第二數(shù)字信號(hào)進(jìn)行的第一語(yǔ)音識(shí)別的識(shí)別結(jié)果進(jìn)行比較，以確定所述語(yǔ)音識(shí)別的結(jié)果。

優(yōu)選地，所述第一后處理結(jié)果包括多個(gè)可能的后處理結(jié)果，其中所述將第一后處理結(jié)果與對(duì)第二數(shù)字信號(hào)進(jìn)行的第一語(yǔ)音識(shí)別的識(shí)別結(jié)果進(jìn)行比較包括：

將所述對(duì)第二數(shù)字信號(hào)進(jìn)行的第一語(yǔ)音識(shí)別的識(shí)別結(jié)果與所述多個(gè)可能的后處理結(jié)果進(jìn)行比較；

確定所述多個(gè)可能的后處理結(jié)果中與所述對(duì)第二數(shù)字信號(hào)進(jìn)行的第一語(yǔ)音識(shí)別的識(shí)別結(jié)果最相似的后處理結(jié)果為所述比較的結(jié)果。

優(yōu)選地，所述第一語(yǔ)音識(shí)別模型為基于聲韻母的聲學(xué)模型和語(yǔ)言模型。

優(yōu)選地，所述方法進(jìn)一步包括：

利用第一語(yǔ)音識(shí)別模型對(duì)所述第一數(shù)字信號(hào)進(jìn)行第一語(yǔ)音識(shí)別；

將所述第一后處理結(jié)果與對(duì)所述第一數(shù)字信號(hào)、第二數(shù)字信號(hào)進(jìn)行所述第一語(yǔ)音識(shí)別的識(shí)別結(jié)果進(jìn)行比較。

優(yōu)選地，所述方法進(jìn)一步包括：

將所述第二數(shù)字信號(hào)傳送至云端；

接收根據(jù)所述第一數(shù)字信號(hào)、第二數(shù)字信號(hào)生成的第二后處理結(jié)果；

接收第三語(yǔ)音輸入，并所接收的第三語(yǔ)音輸入轉(zhuǎn)換為第三數(shù)字信號(hào)；

利用第一語(yǔ)音識(shí)別模型對(duì)所述第三數(shù)字信號(hào)進(jìn)行第一語(yǔ)音識(shí)別；

將所述第二后處理結(jié)果與對(duì)所述第一數(shù)字信號(hào)、第二數(shù)字信號(hào)、第三數(shù)字信號(hào)進(jìn)行的第一語(yǔ)音識(shí)別的識(shí)別結(jié)果進(jìn)行比較，以確定所述語(yǔ)音識(shí)別的結(jié)果。

優(yōu)選地，所述方法進(jìn)一步包括：根據(jù)所述比較的結(jié)果執(zhí)行相應(yīng)動(dòng)作。

一種語(yǔ)音識(shí)別方法，包括：

接收第一數(shù)字信號(hào)，所述第一數(shù)字信號(hào)是根據(jù)第一語(yǔ)音輸入而生成的；

利用第二語(yǔ)音識(shí)別模型對(duì)所述第一數(shù)字信號(hào)進(jìn)行第二語(yǔ)音識(shí)別；

根據(jù)對(duì)所述第一數(shù)字信號(hào)進(jìn)行第二語(yǔ)音識(shí)別的識(shí)別結(jié)果，利用后處理模型進(jìn)行后處理，得到第一后處理結(jié)果；

輸出所述第一后處理結(jié)果。

優(yōu)選地，所述第二語(yǔ)音識(shí)別模型為基于音素三音子的聲學(xué)模型和統(tǒng)計(jì)語(yǔ)言模型。

優(yōu)選地，所述統(tǒng)計(jì)語(yǔ)言模型為基于詞的三元統(tǒng)計(jì)語(yǔ)言模型(3-Gram)模型。

優(yōu)選地，所述后處理模型為階數(shù)高于第二語(yǔ)音識(shí)別模型的語(yǔ)言模型。

優(yōu)選地，第二語(yǔ)音識(shí)別的聲學(xué)模型為階數(shù)高于所述第一語(yǔ)音識(shí)別模型的聲學(xué)模型。

優(yōu)選地，所述后處理模型為基于詞的六元統(tǒng)計(jì)語(yǔ)言模型(6-Gram)模型。

優(yōu)選地，所述后處理模型采用預(yù)設(shè)地域的興趣點(diǎn)列表進(jìn)行。

優(yōu)選地，所述方法進(jìn)一步包括：

接收第二數(shù)字信號(hào)，所述第二數(shù)字信號(hào)是根據(jù)第二語(yǔ)音輸入而生成的；

利用第二語(yǔ)音識(shí)別模型對(duì)所述第二數(shù)字信號(hào)進(jìn)行第二語(yǔ)音識(shí)別；

根據(jù)對(duì)所述第一數(shù)字信號(hào)以及所述第二數(shù)字信號(hào)進(jìn)行第二語(yǔ)音識(shí)別的識(shí)別結(jié)果，利用后處理模型進(jìn)行后處理，得到第二后處理結(jié)果；

輸出所述第二后處理結(jié)果。

一種語(yǔ)音識(shí)別裝置，包括：

語(yǔ)音采集模塊，用于接收語(yǔ)音輸入，并將所接收的語(yǔ)音轉(zhuǎn)換為相對(duì)應(yīng)的數(shù)字信號(hào)；

第一通信模塊，與所述語(yǔ)音采集模塊相連，用于將所述數(shù)字信號(hào)傳送至云端，并用于接收根據(jù)所述數(shù)字信號(hào)而生成的后處理結(jié)果；

第一語(yǔ)音識(shí)別模塊，與所述語(yǔ)音采集模塊相連，用于根據(jù)所述數(shù)字信號(hào)進(jìn)行第一語(yǔ)音識(shí)別；

判斷模塊，與所述語(yǔ)音識(shí)別模塊及所述通信模塊相連，用于將所述后處理結(jié)果與所述語(yǔ)音識(shí)別模塊進(jìn)行第一語(yǔ)音識(shí)別的識(shí)別結(jié)果進(jìn)行比較；以生成比較結(jié)果。

優(yōu)選地，所述語(yǔ)音識(shí)別裝置進(jìn)一步包括動(dòng)作模塊，與所述判斷模塊相連，用于根據(jù)所述判斷模塊的比較結(jié)果而執(zhí)行相對(duì)應(yīng)的動(dòng)作。

優(yōu)選地，所述后處理結(jié)果包括多個(gè)可能的后處理結(jié)果，所述判斷模塊用于將所述多個(gè)可能的后處理結(jié)果與所述語(yǔ)音識(shí)別模塊進(jìn)行第一語(yǔ)音識(shí)別的識(shí)別結(jié)果進(jìn)行比較，并將與所述語(yǔ)音識(shí)別模塊進(jìn)行第一語(yǔ)音識(shí)別的識(shí)別結(jié)果最相似的后處理結(jié)果作為所述比較結(jié)果。

優(yōu)選地，所述第一語(yǔ)音識(shí)別模塊利用基于聲韻母的聲學(xué)模型和語(yǔ)言模型進(jìn)行所述第一語(yǔ)音識(shí)別。

優(yōu)選地，所述第一語(yǔ)音識(shí)別模塊用于將間隔預(yù)設(shè)時(shí)間的第一數(shù)字信號(hào)、第二數(shù)字信號(hào)進(jìn)行所述第一語(yǔ)音識(shí)別；所述判斷模塊用于將根據(jù)所述第一數(shù)字信號(hào)而生成的后處理結(jié)果與所述第一語(yǔ)音識(shí)別模塊將第一數(shù)字信號(hào)、第二數(shù)字信號(hào)進(jìn)行第一語(yǔ)音識(shí)別的識(shí)別結(jié)果進(jìn)行比較；以生成比較結(jié)果。

一種語(yǔ)音識(shí)別裝置，包括：

第二通信模塊，用于接收根據(jù)所采集的語(yǔ)音輸入轉(zhuǎn)換而成的相對(duì)應(yīng)的數(shù)字信號(hào)；

第二語(yǔ)音識(shí)別模塊，與所述第二通信模塊相連，用于利用第二語(yǔ)音識(shí)別模型對(duì)所述數(shù)字信號(hào)進(jìn)行第二語(yǔ)音識(shí)別；

后處理模塊，與所述第二語(yǔ)音識(shí)別模塊相連，用于利用后處理模型根據(jù)所述語(yǔ)音識(shí)別模塊對(duì)所述數(shù)字信號(hào)進(jìn)行第二語(yǔ)音識(shí)別的識(shí)別結(jié)果進(jìn)行后處理，并得到后處理結(jié)果；

其中所述第二通信模塊還用于將所述后處理結(jié)果輸出。

優(yōu)選地，所述第二語(yǔ)音識(shí)別模型為基于音素三音子的聲學(xué)模型和統(tǒng)計(jì)語(yǔ)言模型。

優(yōu)選地，所述統(tǒng)計(jì)語(yǔ)言模型為基于詞的三元統(tǒng)計(jì)語(yǔ)言模型(3-Gram)模型。

優(yōu)選地，所述后處理模型為階數(shù)高于第二語(yǔ)音識(shí)別模型的語(yǔ)言模型。

優(yōu)選地，所述后處理模型為基于詞的六元統(tǒng)計(jì)語(yǔ)言模型(6-Gram)模型。

優(yōu)選地，所述后處理模型采用預(yù)設(shè)地域的興趣點(diǎn)列表進(jìn)行。

優(yōu)選地，所述語(yǔ)音識(shí)別模塊用于將間隔預(yù)設(shè)時(shí)間的第一數(shù)字信號(hào)、第二數(shù)字信號(hào)進(jìn)行所述第二語(yǔ)音識(shí)別；所述后處理模塊用于根據(jù)所述語(yǔ)音識(shí)別模塊對(duì)所述第一數(shù)字信號(hào)以及所述第二數(shù)字信號(hào)進(jìn)行第二語(yǔ)音識(shí)別的識(shí)別結(jié)果，利用后處理模型進(jìn)行后處理，得到第二后處理結(jié)果。

根據(jù)本發(fā)明各實(shí)施方式的語(yǔ)音識(shí)別裝置與語(yǔ)音識(shí)別方法，利用遠(yuǎn)端精確識(shí)別的結(jié)果進(jìn)行后處理，并與移動(dòng)端具有較小延遲的識(shí)別結(jié)果進(jìn)行比較，以指示將要進(jìn)行的動(dòng)作，避免了動(dòng)作指示基于遠(yuǎn)端識(shí)別而帶來(lái)的延遲，在降低延遲的同時(shí)不失去對(duì)精度的控制，提升了用戶體驗(yàn)。

附圖說(shuō)明

圖1為本發(fā)明一種實(shí)施方式的語(yǔ)音識(shí)別裝置的結(jié)構(gòu)圖；

圖2為本發(fā)明一種實(shí)施方式的語(yǔ)音識(shí)別方法的流程圖；

圖3為本發(fā)明一種實(shí)施方式的語(yǔ)音識(shí)別裝置及方法的時(shí)間序列。

具體實(shí)施方式

如圖1所示，其為本發(fā)明一種實(shí)施方式的語(yǔ)音識(shí)別系統(tǒng)的框圖。在該實(shí)施方式中，語(yǔ)音識(shí)別系統(tǒng)通過(guò)移動(dòng)端(用戶端)100來(lái)接收語(yǔ)音輸入，經(jīng)過(guò)移動(dòng)端100自身及遠(yuǎn)端(服務(wù)器端、云端)200的處理之后，在移動(dòng)端100上執(zhí)行與該語(yǔ)音輸入相對(duì)應(yīng)的動(dòng)作。

移動(dòng)端100包括用戶界面102、語(yǔ)音采集模塊104、第一語(yǔ)音識(shí)別模塊106、第一通信模塊108、判斷模塊110、動(dòng)作模塊112等。

用戶界面102用于提供移動(dòng)端100與用戶交互的接口，包括向用戶顯示移動(dòng)端100欲展示的信息、操作提示、輸入接口等，以及用于接收用戶基于輸出界面而進(jìn)行的有關(guān)操作。作為一種可選的實(shí)施方式，用戶界面102是一種人機(jī)交互界面，其可以通過(guò)顯示屏幕、喇叭向用戶顯示或播放操作界面以及內(nèi)容等信息，并通過(guò)鍵盤(pán)、觸摸屏、網(wǎng)絡(luò)、麥克風(fēng)等方式接收用戶的輸入。

語(yǔ)音采集模塊(Speech recorder)104用于采集語(yǔ)音，并將所接收的語(yǔ)音轉(zhuǎn)換為相對(duì)應(yīng)的數(shù)字信號(hào)。在某些實(shí)施方式中，語(yǔ)音采集模塊104還可以提取用于語(yǔ)音識(shí)別的特征?？蛇x地，語(yǔ)音采集模塊104可以采用PCM編碼的波形(waveform)信號(hào)。

進(jìn)一步地，在某些可選的實(shí)施方式中，語(yǔ)音采集模塊104還可以將PCM編碼的信號(hào)轉(zhuǎn)化為語(yǔ)音識(shí)別可以直接使用的特征矢量(feature vector)。這種特征矢量的一種示例包括語(yǔ)音識(shí)別中常用的MFCC(Mel-Frequency Cepstrum Coefficients)特征。語(yǔ)音采集模塊104轉(zhuǎn)換特征矢量，可以在后續(xù)的數(shù)據(jù)傳輸中將所轉(zhuǎn)換得到的特征矢量輸出，而采用傳輸特征矢量的好處之一是：可以減少傳輸?shù)臄?shù)據(jù)量。

第一語(yǔ)音識(shí)別模塊106與語(yǔ)音采集模塊104相連，用于根據(jù)語(yǔ)音采集模塊104所轉(zhuǎn)換而得的數(shù)字信號(hào)進(jìn)行第一語(yǔ)音識(shí)別。根據(jù)本發(fā)明的一種實(shí)施方式，為了減少在移動(dòng)端100處所進(jìn)行語(yǔ)音識(shí)別的數(shù)據(jù)處理量及處理負(fù)擔(dān)，語(yǔ)音識(shí)別模塊106是一個(gè)相對(duì)簡(jiǎn)單的語(yǔ)音識(shí)別器。語(yǔ)音識(shí)別模塊106和云端/服務(wù)器端200的語(yǔ)音識(shí)別相比，采用了比較簡(jiǎn)單的模型和算法，這樣的好處是可以消耗極少的系統(tǒng)資源，獲得足夠的信息。根據(jù)一種可選的實(shí)施方式，語(yǔ)音識(shí)別模塊106基于聲韻母的聲學(xué)模型和聲韻母的語(yǔ)言模型(initial/final based acoustic model and initial/final based language model)來(lái)進(jìn)行第一語(yǔ)音識(shí)別。

第一通信模塊108與語(yǔ)音采集模塊104相連，用于將語(yǔ)音采集模塊104所轉(zhuǎn)換而得的數(shù)字信號(hào)傳送到遠(yuǎn)端200。在可選的實(shí)施方式中，第一通信模塊108還用于移動(dòng)端100與遠(yuǎn)端200之間其他一些信息的交換，包括將語(yǔ)音或者語(yǔ)音特征，時(shí)間戳標(biāo)記等信息傳送到遠(yuǎn)端；以及從云端200接收傳遞給移動(dòng)端100的信息，包括：語(yǔ)音識(shí)別結(jié)果，時(shí)間信息，識(shí)別結(jié)果的分?jǐn)?shù)等。在本發(fā)明的一種實(shí)施方式中，第一通信模塊108還用于接收遠(yuǎn)端200根據(jù)所述數(shù)字信號(hào)而生成的后處理結(jié)果。

判斷模塊110與第一語(yǔ)音識(shí)別模塊106及第一通信模塊108相連，用于將所述后處理結(jié)果與所述第一語(yǔ)音識(shí)別模塊106進(jìn)行第一語(yǔ)音識(shí)別的識(shí)別結(jié)果進(jìn)行比較；以生成比較結(jié)果。

在可選的實(shí)施方式中下，遠(yuǎn)端200可以根據(jù)所述數(shù)字信號(hào)而提供出一個(gè)或者多個(gè)后處理結(jié)果。在接收用戶語(yǔ)音指令并通過(guò)動(dòng)作模塊112來(lái)實(shí)現(xiàn)與用戶語(yǔ)音指令相對(duì)應(yīng)的動(dòng)作的時(shí)候，如果根據(jù)用戶語(yǔ)音得到的后處理結(jié)果只有一個(gè)可能的結(jié)果，則可以直接將結(jié)果傳遞到動(dòng)作模塊112。而在遠(yuǎn)端200后處理得到多個(gè)可能的后處理結(jié)果時(shí)，則需要根據(jù)第一語(yǔ)音識(shí)別模塊106進(jìn)行第一語(yǔ)音識(shí)別的識(shí)別結(jié)果來(lái)選取最可能的若干個(gè)結(jié)果送到動(dòng)作模塊112。

以下是一種示例，遠(yuǎn)端200根據(jù)所傳輸接收到的數(shù)字信號(hào)，給出兩個(gè)可能的后處理結(jié)果：“今天天氣很好”和“今天天氣怎么樣”。當(dāng)?shù)谝徽Z(yǔ)音識(shí)別模塊106為聲韻母識(shí)別器，識(shí)別結(jié)果是“j in t ian t ian q i z en m e”，則判斷模塊110可以將與第一語(yǔ)音識(shí)別模塊106所進(jìn)行的第一語(yǔ)音識(shí)別結(jié)果最為相似的“今天天氣怎么樣”確定為比較結(jié)果。

動(dòng)作模塊112與判斷模塊110相連，用于根據(jù)判斷模塊110的比較結(jié)果而執(zhí)行相對(duì)應(yīng)的動(dòng)作。在一種示例的實(shí)施方式中，動(dòng)作模塊112對(duì)語(yǔ)音識(shí)別的結(jié)果進(jìn)行相應(yīng)的操作，它具有的特征是可以處理若干個(gè)連續(xù)的識(shí)別結(jié)果。亦即，遠(yuǎn)端200針對(duì)某次語(yǔ)音交互過(guò)程給出一個(gè)后處理結(jié)果ASRO_X1并通過(guò)判斷模塊110的比較而作為比較結(jié)果時(shí)，動(dòng)作模塊112相應(yīng)地做出響應(yīng)ACT_X1。在此過(guò)程中，如果遠(yuǎn)端200接著給出此次語(yǔ)音交互過(guò)程的另一個(gè)后處理結(jié)果ASRO_X2并通過(guò)判斷模塊110的比較而作為比較結(jié)果，則動(dòng)作模塊需要從響應(yīng)ACT_X1平滑過(guò)渡到這個(gè)識(shí)別結(jié)果ASRO_X2應(yīng)當(dāng)對(duì)應(yīng)的動(dòng)作ACT_X2。

這里給出動(dòng)作模塊112的一種示例。在一種可選的地圖應(yīng)用中，當(dāng)用戶輸入某興趣點(diǎn)，通過(guò)遠(yuǎn)端200后處理、判斷模塊110比較，首先給出的識(shí)別結(jié)果為“南方科技大廈”，這時(shí)通過(guò)動(dòng)作模塊112提示“南方科技大廈”，并且在用戶界面102上所展示的焦點(diǎn)(視圖的中心點(diǎn))從當(dāng)前位置(L0)移動(dòng)到“南方科技大廈”(L1)。若在移動(dòng)過(guò)程中，進(jìn)一步地通過(guò)遠(yuǎn)端200后處理、判斷模塊110的比較而給出的識(shí)別結(jié)果變?yōu)椤澳戏娇萍即髮W(xué)”，則動(dòng)作模塊112及用戶界面102將更改為提示“南方科技大學(xué)”(L2)，并且在用戶界面102上所展示的焦點(diǎn)(視圖的中心點(diǎn))將從當(dāng)前位置(可能在前一次移動(dòng)過(guò)程中，位于L0到L1中間的某點(diǎn)L3)移動(dòng)到“南方科技大學(xué)”(L2)。進(jìn)一步地，如果識(shí)別結(jié)果還更新為新的地點(diǎn)，則還需要移動(dòng)，除非用戶進(jìn)行了下一步的操作。

遠(yuǎn)端200包括第二通信模塊202、第二語(yǔ)音識(shí)別模塊204、后處理模塊206等。

第二通信模塊202用于接收移動(dòng)端100的第一通信模塊108所傳送的根據(jù)所采集的語(yǔ)音輸入轉(zhuǎn)換而成的相對(duì)應(yīng)的數(shù)字信號(hào)。

可選地，第一通信模塊108、第二通信模塊202之間可以通過(guò)可行的數(shù)據(jù)通信協(xié)議進(jìn)行通信。

第二語(yǔ)音識(shí)別模塊204與第二通信模塊202相連，用于利用第二語(yǔ)音識(shí)別模型對(duì)第二通信模塊202所接收的數(shù)字信號(hào)進(jìn)行第二語(yǔ)音識(shí)別。

根據(jù)本發(fā)明的一種可選的實(shí)施方式，第二語(yǔ)音識(shí)別模塊204可以是具有復(fù)雜的聲學(xué)模型和語(yǔ)言模型、復(fù)雜算法的識(shí)別器，其進(jìn)行語(yǔ)音識(shí)別所采用的第二語(yǔ)音識(shí)別模型比移動(dòng)端100的第一語(yǔ)音識(shí)別模塊106所采用的語(yǔ)音識(shí)別模型更高級(jí)，需要更大的數(shù)據(jù)運(yùn)算量。例如，第二語(yǔ)音識(shí)別模型可以是基于音素三音子(Phoneme based triphone)的聲學(xué)模型，基于詞的N元統(tǒng)計(jì)語(yǔ)言模型(Word based N-gram)(典型的例子為3-Gram)，從而使得第二語(yǔ)音識(shí)別模塊204實(shí)現(xiàn)為一個(gè)LVCSR識(shí)別器。

第二語(yǔ)音識(shí)別模塊204可以連續(xù)地進(jìn)行第二語(yǔ)音識(shí)別。自第一、第二通信模塊開(kāi)始進(jìn)行語(yǔ)音或者語(yǔ)音特征的通信開(kāi)始，第二語(yǔ)音識(shí)別模塊204可以持續(xù)地對(duì)以固定的間隔輸入的每次一小段語(yǔ)音或者對(duì)應(yīng)的特征矢量(一幀語(yǔ)音或者若干個(gè)語(yǔ)音特征矢量)進(jìn)行第二語(yǔ)音識(shí)別，固定的間隔一般等于該一小段語(yǔ)音的時(shí)長(zhǎng)。例如，如果記第一幀語(yǔ)音到達(dá)第二語(yǔ)音識(shí)別模塊204的時(shí)間為t1，并且經(jīng)過(guò)一個(gè)預(yù)設(shè)的時(shí)延dt1(例如0.3秒)，第二語(yǔ)音識(shí)別模塊204輸出其進(jìn)行第二語(yǔ)音識(shí)別的結(jié)果。該輸出的結(jié)果是從t1到輸出結(jié)果的時(shí)間段內(nèi)(或者更小一段時(shí)間)所接收到的語(yǔ)音的第二語(yǔ)音識(shí)別的識(shí)別結(jié)果(因?yàn)榇嬖谔幚硌舆t)。通常認(rèn)為，該輸出的結(jié)果是“部分識(shí)別結(jié)果”(partial result)。后續(xù)，由于通過(guò)第一、第二通信模塊不斷地輸入語(yǔ)音，因此該第二語(yǔ)音識(shí)別所得的部分識(shí)別結(jié)果可以被不斷地更新。第二語(yǔ)音識(shí)別模塊204的一種示例的輸入輸出過(guò)程如下所示：

如前所述，語(yǔ)音采集模塊104可以配置為連續(xù)地采集語(yǔ)音并轉(zhuǎn)換為相對(duì)應(yīng)的數(shù)字信號(hào)，其中，第二語(yǔ)音輸入轉(zhuǎn)換為第二數(shù)字信號(hào)的過(guò)程可以與遠(yuǎn)端200所進(jìn)行的對(duì)第一數(shù)字信號(hào)的第二語(yǔ)音識(shí)別、后處理以生成第一后處理結(jié)果的過(guò)程同時(shí)進(jìn)行。

后處理模塊206與第二語(yǔ)音識(shí)別模塊204相連，用于利用后處理模型根據(jù)所述第二語(yǔ)音識(shí)別模塊204對(duì)所述數(shù)字信號(hào)進(jìn)行第二語(yǔ)音識(shí)別的識(shí)別結(jié)果進(jìn)行后處理，并得到后處理結(jié)果。后處理模塊206基于后處理模型進(jìn)行后處理，其一個(gè)例子是采用比第二語(yǔ)音識(shí)別模型中的語(yǔ)言模型更為復(fù)雜的語(yǔ)言模型作為后處理模型，例如word based 6-Gram；另一個(gè)例子是在興趣點(diǎn)識(shí)別中，后處理模型包括某個(gè)地域的興趣點(diǎn)列表，例如某市某區(qū)的1萬(wàn)個(gè)興趣列表(Point of interest，POI)。作為一種示例，在輸入的第二語(yǔ)音識(shí)別模塊204的識(shí)別結(jié)果為“今天天氣”時(shí)，后處理模塊206輸出的后處理結(jié)果為“今天天氣怎么樣”。

第二語(yǔ)音識(shí)別模塊204的輸出為多個(gè)候選，各個(gè)候選具有相應(yīng)的得分。從而，第二語(yǔ)音識(shí)別模塊204的輸出為一個(gè)序列(sequence)。在該序列中，各個(gè)項(xiàng)對(duì)應(yīng)在相應(yīng)時(shí)刻的識(shí)別結(jié)果符號(hào)(在此處實(shí)施方式中是聲韻母)。每個(gè)項(xiàng)(Item)可能包含多個(gè)候選(hypothesis)；每個(gè)候選至少包括(時(shí)間、符號(hào)(聲韻母)、得分)，其中得分越大表示可能性越高。例如，對(duì)于最佳候選的第一個(gè)符號(hào)，總共三個(gè)(0，’ n’,0.9)(0，’m’,0.8)(0，’l’,0.5)。注意到這里每個(gè)符號(hào)可能候選個(gè)數(shù)可能有差別。為簡(jiǎn)化起見(jiàn)，有時(shí)候可以只考慮最佳候選序列，例如第一個(gè)符號(hào)只考慮“n”。

圖2所示為本發(fā)明一種實(shí)施方式的語(yǔ)音識(shí)別方法的流程圖，以下結(jié)合圖1中所示的語(yǔ)音識(shí)別裝置對(duì)該語(yǔ)音識(shí)別方法進(jìn)行說(shuō)明。

步驟302，接收第一語(yǔ)音輸入，并將所接收的第一語(yǔ)音輸入轉(zhuǎn)換為第一數(shù)字信號(hào)。

具體地，用戶通過(guò)移動(dòng)端100的用戶界面102啟動(dòng)語(yǔ)音采集模塊104，以使語(yǔ)音采集模塊104開(kāi)始接收用戶的語(yǔ)音輸入。語(yǔ)音采集模塊104從而將所接收到的用戶第一語(yǔ)音輸入轉(zhuǎn)換為第一數(shù)字信號(hào)。

步驟304，將第一數(shù)字信號(hào)傳送至云端。

具體地，語(yǔ)音采集模塊104所生成的第一數(shù)字信號(hào)通過(guò)第一通信模塊108被輸出，并在遠(yuǎn)端200處被第二通信模塊202所接收。

步驟306，接收第一數(shù)字信號(hào)。

具體地，在遠(yuǎn)端200處，第二通信模塊202接收由移動(dòng)端100的第一通信模塊108所傳送的根據(jù)所接收的第一語(yǔ)音輸入而生成的第一數(shù)字信號(hào)。

步驟308，利用第二語(yǔ)音識(shí)別模型對(duì)第一數(shù)字信號(hào)進(jìn)行第二語(yǔ)音識(shí)別。

具體地，遠(yuǎn)端200的第二語(yǔ)音識(shí)別模塊204利用第二語(yǔ)音識(shí)別模型對(duì)第一數(shù)字信號(hào)進(jìn)行第二語(yǔ)音識(shí)別。如前所述地，第二語(yǔ)音識(shí)別模塊204進(jìn)行第二語(yǔ)音識(shí)別所用的第二語(yǔ)音識(shí)別模型比移動(dòng)端100的第一語(yǔ)音識(shí)別模塊106進(jìn)行第一語(yǔ)音識(shí)別所用的第一語(yǔ)音識(shí)別模型更復(fù)雜、更高級(jí)，需要更多的數(shù)據(jù)運(yùn)算量。

步驟310，根據(jù)對(duì)第一數(shù)字信號(hào)進(jìn)行第二語(yǔ)音識(shí)別的識(shí)別結(jié)果，利用后處理模型進(jìn)行后處理，得到第一后處理結(jié)果。

具體地，第二語(yǔ)音識(shí)別模塊204對(duì)第一數(shù)字信號(hào)進(jìn)行第二語(yǔ)音識(shí)別的結(jié)果被后處理模塊206利用后處理模型進(jìn)行后處理，并得到第一后處理結(jié)果。如前所述地，后處理模型中的語(yǔ)言模型比第二語(yǔ)音識(shí)別的語(yǔ)言模型更為復(fù)雜。

步驟312，輸出第一后處理結(jié)果。

具體地，后處理模塊206進(jìn)行后處理所得到的第一后處理結(jié)果被送到第二通信模塊202，并由第二通信模塊202傳送給移動(dòng)端的第一通信模塊108。

步驟314，接收根據(jù)第一數(shù)字信號(hào)而生成的第一后處理結(jié)果。

具體地，在移動(dòng)端100處，第一通信模塊108從遠(yuǎn)端200的第二通信模塊202處接收后處理模塊206所生成的第一后處理結(jié)果。

步驟316，接收第二語(yǔ)音輸入，并將所接收的第二語(yǔ)音輸入轉(zhuǎn)換為第二數(shù)字信號(hào)。

具體地，與前述接收第一語(yǔ)音輸入并轉(zhuǎn)換為第一數(shù)字信號(hào)相似地，語(yǔ)音采集模塊104接收用戶進(jìn)一步的第二語(yǔ)音輸入，并將其轉(zhuǎn)換為相應(yīng)的第二數(shù)字信號(hào)?？梢岳斫獾氖牵摬襟E316所進(jìn)行的第二語(yǔ)音輸入轉(zhuǎn)換為第二數(shù)字信號(hào)的過(guò)程，可以在前述將第一語(yǔ)音輸入轉(zhuǎn)換為第一數(shù)字信號(hào)之后即開(kāi)始進(jìn)行。從而，第二語(yǔ)音輸入轉(zhuǎn)換為第二數(shù)字信號(hào)的過(guò)程可以與遠(yuǎn)端所進(jìn)行的對(duì)第一數(shù)字信號(hào)的第二語(yǔ)音識(shí)別、后處理以生成第一后處理結(jié)果的過(guò)程同時(shí)進(jìn)行。

步驟318，利用第一語(yǔ)音識(shí)別模型對(duì)第二數(shù)字信號(hào)進(jìn)行第一語(yǔ)音識(shí)別。

具體地，移動(dòng)端100的第一語(yǔ)音識(shí)別模塊106對(duì)第二數(shù)字信號(hào)利用第一語(yǔ)音識(shí)別模型進(jìn)行第一語(yǔ)音識(shí)別。該第一語(yǔ)音識(shí)別模型為相對(duì)簡(jiǎn)單的語(yǔ)音識(shí)別模型，為減少在移動(dòng)端的數(shù)據(jù)處理量，第一語(yǔ)音識(shí)別模型并不復(fù)雜。

與前述類似地，由于語(yǔ)音輸入的連續(xù)性，該步驟318所進(jìn)行的第二數(shù)字信號(hào)的第一語(yǔ)音識(shí)別過(guò)程，可以在前述將第二語(yǔ)音輸入轉(zhuǎn)換為第二數(shù)字信號(hào)之后即開(kāi)始進(jìn)行。從而，對(duì)第二數(shù)字信號(hào)進(jìn)行第一語(yǔ)音識(shí)別的過(guò)程可以與遠(yuǎn)端所進(jìn)行的對(duì)第一數(shù)字信號(hào)的第二語(yǔ)音識(shí)別、后處理以生成第一后處理結(jié)果的過(guò)程同時(shí)進(jìn)行。

步驟320，將第一后處理結(jié)果與對(duì)第二數(shù)字信號(hào)進(jìn)行第一語(yǔ)音識(shí)別的識(shí)別結(jié)果進(jìn)行比較。

具體地，移動(dòng)端100的判斷模塊110對(duì)所接收到的可能的多個(gè)第一后處理結(jié)果與第二數(shù)字信號(hào)的第一語(yǔ)音識(shí)別的識(shí)別結(jié)果進(jìn)行比較，并將多個(gè)可能的后處理結(jié)果中最相似第二數(shù)字信號(hào)的第一語(yǔ)音識(shí)別的識(shí)別結(jié)果的后處理結(jié)果作為比較結(jié)果。

步驟322，根據(jù)比較的結(jié)果執(zhí)行相應(yīng)的動(dòng)作。

具體地，動(dòng)作模塊112根據(jù)判斷模塊110所進(jìn)行比較得到的比較結(jié)果而執(zhí)行相對(duì)應(yīng)的動(dòng)作，例如輸入、計(jì)算、搜索、定位、導(dǎo)航等。

應(yīng)當(dāng)理解的是，圖2所示的步驟302至步驟322，其各步驟可能在移動(dòng)端100與遠(yuǎn)端200處進(jìn)行，然而，為方便說(shuō)明而在一個(gè)實(shí)施方式中所進(jìn)行的說(shuō)明，并不意味著本發(fā)明其他的實(shí)施方式必然需要移動(dòng)端100與遠(yuǎn)端200同時(shí)具備并進(jìn)行各步驟。以上所述各個(gè)步驟的任意拆分、組合，只要能實(shí)現(xiàn)本發(fā)明的目的，都應(yīng)當(dāng)認(rèn)為構(gòu)成本發(fā)明的實(shí)施方式。

本發(fā)明實(shí)施方式中的語(yǔ)音識(shí)別裝置與語(yǔ)音識(shí)別方法，相比于通過(guò)云端進(jìn)行識(shí)別并指示移動(dòng)端進(jìn)行操作，可以極大地減小延遲，提升用戶的體驗(yàn)。通常地，在云端設(shè)置具有復(fù)雜語(yǔ)音識(shí)別模型的語(yǔ)音識(shí)別模塊，其進(jìn)行語(yǔ)音識(shí)別的識(shí)別結(jié)果通過(guò)通信模塊傳遞給移動(dòng)應(yīng)用，做出相應(yīng)動(dòng)作。從用戶語(yǔ)音輸入完成，到系統(tǒng)做出相應(yīng)動(dòng)作，可能包括的延遲有：語(yǔ)音檢測(cè)VAD延遲(例如200ms)，語(yǔ)音特征提取延遲(例如25ms)，從移動(dòng)端到云端的通信延遲(例如500ms)，云端語(yǔ)音識(shí)別的處理延遲(例如200ms)，返回識(shí)別結(jié)果從云端到移動(dòng)端的通信延遲(例如500ms)，移動(dòng)端動(dòng)作響應(yīng)的延遲(例如50ms)，所以，盡管在云端可以獲得較為準(zhǔn)確的識(shí)別結(jié)果，并且在移動(dòng)端不需要大量數(shù)據(jù)運(yùn)算，但整體延遲會(huì)在1.5秒以上，極大地影響了用戶體驗(yàn)。

通過(guò)本發(fā)明上述實(shí)施方式中所包括的后處理模塊與其后處理步驟，可以將識(shí)別結(jié)果附加上一個(gè)具有一定準(zhǔn)確度的可能結(jié)果，例如比原有識(shí)別結(jié)果多4個(gè)音節(jié)(大約相當(dāng)于1秒到1.5秒)。體現(xiàn)在語(yǔ)音輸入的響應(yīng)形式上，會(huì)表現(xiàn)為延遲很短。當(dāng)用戶已經(jīng)完成語(yǔ)音輸入時(shí)(例如3秒鐘有效的語(yǔ)音)，由于固有延遲的存在，云端的第二語(yǔ)音識(shí)別模塊(從判斷模塊所接收到的后處理結(jié)果看)大約處理了例如1.5秒的語(yǔ)音(對(duì)應(yīng)1.5秒的延遲)。然而，由于第一語(yǔ)音識(shí)別模塊對(duì)于后續(xù)語(yǔ)音輸入的第一語(yǔ)音識(shí)別已經(jīng)完成，動(dòng)作模塊據(jù)以進(jìn)行動(dòng)作的識(shí)別結(jié)果對(duì)應(yīng)的時(shí)間長(zhǎng)度則是3秒鐘(對(duì)應(yīng)后處理了4個(gè)音節(jié)，1.5秒)，表現(xiàn)在用戶體驗(yàn)上，未發(fā)生延遲。

圖3所示的是根據(jù)本發(fā)明實(shí)施方式的語(yǔ)音識(shí)別裝置與語(yǔ)音識(shí)別方法的時(shí)間序列。以下將結(jié)合一個(gè)示例的應(yīng)用場(chǎng)景來(lái)說(shuō)明本發(fā)明實(shí)施方式的時(shí)間序列。

在該示例中，移動(dòng)端100運(yùn)行一種地圖應(yīng)用，并在用戶界面102上展示相應(yīng)的應(yīng)用信息。在該應(yīng)用中，用戶輸入語(yǔ)音后，移動(dòng)端應(yīng)將焦點(diǎn)移動(dòng)到用戶所輸入的地點(diǎn)，用戶確認(rèn)地點(diǎn)后再給出相應(yīng)的信息。針對(duì)中文語(yǔ)音輸入，用戶實(shí)際輸入“南方科技大學(xué)”六個(gè)音節(jié)(對(duì)應(yīng)漢語(yǔ)音節(jié)為：nan fang ke ji da xue)，有效的語(yǔ)音約為1.9秒。

用戶的有效語(yǔ)音輸入記為由t0時(shí)刻開(kāi)始，語(yǔ)音采集模塊104開(kāi)始接收語(yǔ)音。在一種實(shí)施方式中，語(yǔ)音的每幀時(shí)長(zhǎng)為25ms，幀移為10ms，這樣從t0+25ms開(kāi)始，每隔10ms就有一幀語(yǔ)音錄制完成。設(shè)語(yǔ)音采集模塊104提取語(yǔ)音特征耗時(shí)5ms，則從t0+30ms開(kāi)始，每隔10ms就有一幀語(yǔ)音被同時(shí)送到第一語(yǔ)音識(shí)別模塊106和第一通信模塊108。

在第一語(yǔ)音識(shí)別模塊106處，如前所述地，可以采用例如基于聲韻母的bi-phone聲學(xué)模型和基于聲韻母的3階統(tǒng)計(jì)語(yǔ)言模型。在有效語(yǔ)音輸入開(kāi)始的t0時(shí)刻之后30ms，第一語(yǔ)音識(shí)別模塊106開(kāi)始被輸入特征矢量。由于第一語(yǔ)音識(shí)別模塊106本身的處理延遲，雖然其自t0+30ms開(kāi)始處理語(yǔ)音特征矢量，但經(jīng)過(guò)一個(gè)短的延時(shí)，例如10ms，第一語(yǔ)音識(shí)別模塊106可以輸出其對(duì)第一數(shù)字信號(hào)進(jìn)行第一語(yǔ)音識(shí)別的識(shí)別結(jié)果(t0+40ms)。

然而，考慮到語(yǔ)音識(shí)別的完整性，亦即，輸出應(yīng)該具有完整的語(yǔ)音識(shí)別聲學(xué)單元(在本示例中為聲韻母，第一個(gè)應(yīng)該是n(對(duì)應(yīng)“南方科技大學(xué)”))。因此，第一語(yǔ)音識(shí)別模塊106只在已經(jīng)接收了足夠有可能輸出一個(gè)語(yǔ)音識(shí)別單元的特征矢量之后，才開(kāi)始提供第一語(yǔ)音識(shí)別的輸出。在本示例中，例如需要至少4幀語(yǔ)音才足夠輸出一個(gè)語(yǔ)音識(shí)別單元，因此，第一語(yǔ)音識(shí)別模塊106在t0+40ms+(4-1)*10ms＝t0+70ms時(shí)開(kāi)始輸出第一語(yǔ)音識(shí)別的結(jié)果。

應(yīng)當(dāng)注意到，第一語(yǔ)音識(shí)別模塊106所處理的4幀語(yǔ)音所對(duì)應(yīng)的波形在t0+25ms+(4-1)*10ms＝t0+55ms時(shí)結(jié)束；其后距離第一語(yǔ)音識(shí)別模塊106輸出第一語(yǔ)音識(shí)別的結(jié)果的t0+70ms時(shí)刻，其間出現(xiàn)15ms左右的實(shí)際延遲(例如考慮到系統(tǒng)有可能繁忙，第一語(yǔ)音識(shí)別模塊106所能消耗的CPU不能及時(shí)處理的情況)。

根據(jù)本發(fā)明的一種實(shí)施方式，第二語(yǔ)音識(shí)別模塊204的輸出為多個(gè)候選，各個(gè)候選具有相應(yīng)的得分。從而，第二語(yǔ)音識(shí)別模塊204的輸出為一個(gè)序列(sequence)。在該序列中，各個(gè)項(xiàng)對(duì)應(yīng)在相應(yīng)時(shí)刻的識(shí)別結(jié)果符號(hào)(在此處實(shí)施方式中是聲韻母)。每個(gè)項(xiàng)(Item)可能包含多個(gè)候選(hypothesis)；每個(gè)候選至少包括(時(shí)間、符號(hào)(聲韻母)、得分)，其中得分越大表示可能性越高。例如，對(duì)于最佳候選的第一個(gè)符號(hào)，總共三個(gè)(0，’n’,0.9)(0，’m’,0.8)(0，’l’,0.5)。注意到這里每個(gè)符號(hào)可能候選個(gè)數(shù)可能有差別。為簡(jiǎn)化起見(jiàn)，有時(shí)候可以只考慮最佳候選序列，例如第一個(gè)符號(hào)只考慮“n”。

例如，在t0+2000ms的時(shí)候，第二語(yǔ)音識(shí)別模塊204輸出最佳候選序列“nan fang ge ji dai xue)，而實(shí)際的語(yǔ)音輸入對(duì)應(yīng)的聲韻母為(n an f ang k e j i d a x ue)，因此最佳候選中存在錯(cuò)誤的情況。

如前所述的，第二語(yǔ)音識(shí)別模塊204可以采用例如基于聲韻母的tri-phone聲學(xué)模型和基于詞的5階統(tǒng)計(jì)語(yǔ)言模型來(lái)進(jìn)行第二語(yǔ)音識(shí)別。

第二語(yǔ)音識(shí)別模塊204接受語(yǔ)音特征矢量時(shí)，延遲較大，因此，在典型的情況下，第二語(yǔ)音識(shí)別模塊204從t0+530ms開(kāi)始處理語(yǔ)音。經(jīng)過(guò)一個(gè)短延時(shí)，例如10ms，第二語(yǔ)音識(shí)別模塊204開(kāi)始輸出第二語(yǔ)音識(shí)別的結(jié)果(t0+540ms)。

盡管第二語(yǔ)音識(shí)別模塊204的處理延遲與第一語(yǔ)音識(shí)別模塊106一樣，都是10ms。然而，由于第二語(yǔ)音識(shí)別模塊204所處的遠(yuǎn)端200的運(yùn)算能力比移動(dòng)端100的運(yùn)算能力強(qiáng)，例如有1到2個(gè)數(shù)量級(jí)的差異，因此在實(shí)際的運(yùn)算任務(wù)中，第二語(yǔ)音識(shí)別模塊204可以實(shí)現(xiàn)比移動(dòng)端100復(fù)雜得多的語(yǔ)音識(shí)別任務(wù)。

類似地，考慮到語(yǔ)音識(shí)別的完整性，也就是輸出應(yīng)該具有完整的語(yǔ)音識(shí)別聲學(xué)單元(此處是聲韻母)，因此第二語(yǔ)音識(shí)別模塊204只在接收到足夠有可能輸出一個(gè)語(yǔ)音識(shí)別單元的特征矢量之后，才可能產(chǎn)生第二語(yǔ)音識(shí)別的輸出，例如至少4幀語(yǔ)音，也就是t0+540ms+(4-1)*10ms＝t0+570ms。第二語(yǔ)音識(shí)別模塊204此處處理的4幀語(yǔ)音，對(duì)應(yīng)的波形在t0+25ms+(4-1)*10ms＝t0+55ms時(shí)即已結(jié)束。對(duì)應(yīng)地，第二語(yǔ)音識(shí)別模塊204的實(shí)際延遲在515ms左右。進(jìn)一步地，如果考慮第二語(yǔ)音識(shí)別模塊204需要輸出完整的詞，則需要等待的幀數(shù)可能更多，可能引入新的延遲。

因此，可以假設(shè)：t0+1100ms時(shí)第二語(yǔ)音識(shí)別模塊204輸出“南方”；t0+1800ms 時(shí)第二語(yǔ)音識(shí)別模塊204輸出“南方科技”；t0+2600ms時(shí)第二語(yǔ)音識(shí)別模塊204輸出“南方科技大學(xué)”。對(duì)應(yīng)的實(shí)際語(yǔ)音輸入為：t0+700ms時(shí)“南方”；t0+1400ms時(shí)“南方科技”；t0+2000ms時(shí)“南方科技大學(xué)”。

如前所述地，第二語(yǔ)音識(shí)別模塊204的輸出可以是三元組(時(shí)間，符號(hào)(在本示例中為詞或者詞組)，得分)；時(shí)間是表明符號(hào)對(duì)應(yīng)的時(shí)間結(jié)束，得分越大表明可能性越大；例如(700ms,南方，0.9)，這里表示在從語(yǔ)音起始時(shí)刻到700ms，語(yǔ)音內(nèi)容可能為“南方”，得分為0.9。

作為一種示例，假設(shè)后處理模塊206的后處理模型采用該區(qū)域內(nèi)所有POI的列表，并根據(jù)熱度(popularity)進(jìn)行排序(即，被查詢次序較多的排序靠前)。

后處理模塊206的輸出也可以為前述的三元組(時(shí)間，符號(hào)(在本示例中為詞或者詞組)，得分)；其含義和前述第二語(yǔ)音識(shí)別模塊204的輸出結(jié)果類似，只是內(nèi)容不同。例如對(duì)應(yīng)第二語(yǔ)音識(shí)別模塊204的輸出為(700ms,南方，0.9),后處理模塊206的輸出為(700ms,南方航空大廈，0.5)。

在t0+1100ms時(shí)，后處理模塊206接收到第二語(yǔ)音識(shí)別模塊204輸出的“南方”；后處理模塊206根據(jù)后處理模型查找到“南方”開(kāi)頭的POI包括“南方航空大廈”“南方科技大學(xué)”“南方科技大廈”“南方文化培訓(xùn)中心”等100個(gè)POI，根據(jù)得分從高到低的順序?qū)⑶叭齻€(gè)：

(700ms,南方航空大廈，0.5)

(700ms,南方科技大學(xué)，0.45)

(700ms,南方科技大廈，0.4)

輸出給第二通信模塊202。應(yīng)當(dāng)理解的是，在此，輸出的數(shù)量可以不是3個(gè)，其數(shù)量是可以設(shè)定的。

在t+1800ms時(shí)，后處理模塊206接收到第二語(yǔ)音識(shí)別模塊204的輸出“南方科技”；后處理模塊206根據(jù)后處理模型查找到“南方科技”開(kāi)頭的POI包括“南方科技大學(xué)”“南方科技大廈”“南方科技大學(xué)南門”等10個(gè)POI，根據(jù)得分從高到低的順序把前三個(gè)：

(1400ms,南方科技大學(xué)，0.7)

(1400ms,南方科技大廈，0.6)

(1400ms,南方科技大學(xué)南門，0.5)

輸出給第二通信模塊202。類似地，在此，輸出的數(shù)量可以不是3個(gè)，其數(shù)量是可以設(shè)定的。

在t0+2600ms時(shí)，后處理模塊206接收到第二語(yǔ)音識(shí)別模塊204的輸出“南方科技大學(xué)”；后處理模塊206根據(jù)后處理模型查找到“南方科技大學(xué)”開(kāi)頭的POI包括“南方科技大學(xué)”“南方科技大學(xué)南門”等3個(gè)POI，根據(jù)得分把兩個(gè)結(jié)果：

(2000ms,南方科技大學(xué)，0.9)

(2000ms,南方科技大學(xué)南門，0.7)

輸出給第二通信模塊202。類似地，在此，輸出的數(shù)量可以不是2個(gè)，其數(shù)量是可以設(shè)定的。

由于第二通信模塊202和第一通信模塊108之間存在延遲，根據(jù)前述的后處理模塊206的輸出，考慮到延遲(此處假設(shè)為200ms，對(duì)應(yīng)的第一通信模塊108到第二通信模塊202的延遲考慮為500ms，這是因?yàn)樯蟼骱拖螺d線路不對(duì)稱，上傳數(shù)據(jù)語(yǔ)音特征較多，下載識(shí)別結(jié)果/后處理結(jié)果數(shù)據(jù)較少)，則獲得如下的工作過(guò)程：

在t0+1300ms時(shí)，判斷模塊110接收到后處理模塊206的輸出：

(700ms,南方航空大廈，0.5)

(700ms,南方科技大學(xué)，0.45)

(700ms,南方科技大廈，0.4)

后處理模塊206的輸出轉(zhuǎn)化為聲韻母序列之后為：

(700ms,n an f ang h ang k ong d a sh a，0.5)

(700ms,n an f ang k e j i d a x ue，0.45)

(700ms,n an f ang k e j i d a sh a，0.4)

此時(shí)，第一語(yǔ)音識(shí)別模塊106的最佳候選為(n an f ang g e j i)，(注意此處不是完全正確的結(jié)果n an f ang k e j i，亦即，存在錯(cuò)誤的可能k被識(shí)別為g)，判斷模塊110將其和后處理模塊206的輸出進(jìn)行比較，發(fā)現(xiàn)其與后兩個(gè)輸出較為相似(此處判斷準(zhǔn)則為最佳候選符號(hào)序列和后處理模塊206的輸出符號(hào)序列，相同記為1，不同記為0)，分別是(700ms,南方航空大廈，0.5)8個(gè)符號(hào)中4個(gè)相同，(700ms,南方科技大學(xué)，0.45)8個(gè)符號(hào)中7個(gè)相同，(700ms,南方科技大廈，0.4)8個(gè)符號(hào)中7個(gè)相同。在其他實(shí)施方式中，還可以加入第一語(yǔ)音識(shí)別模塊106的多個(gè)候選并乘以得分。判斷模塊110從而將后面兩個(gè)備選送給動(dòng)作模塊112?？蛇x地，由于用戶實(shí)際上并沒(méi)有完成語(yǔ)音輸入，因此動(dòng)作模塊112可以不據(jù)以開(kāi)始動(dòng)作。

在t+2000ms時(shí)，判斷模塊110接收到后處理模塊206的輸出：

(1400ms,南方科技大學(xué)，0.7)

(1400ms,南方科技大廈，0.6)

(1400ms,南方科技大學(xué)南門，0.5)

后處理模塊206的輸出轉(zhuǎn)化為聲韻母序列之后為L(zhǎng)

(1400ms,n an f ang k e j i d a x ue，0.7)

(1400ms,n an f ang k e j i d a sh a，0.6)

(1400ms,n an f ang k e j i d a x ue n an m en，0.5)

此時(shí)，第一語(yǔ)音識(shí)別模塊106的最佳候選為(nan fang ge ji dai xue)，判斷模塊110將其和后處理模塊206的輸出進(jìn)行比較，發(fā)現(xiàn)其與第一個(gè)和第三個(gè)輸出較為相似，分別是(1400ms,南方科技大學(xué)，0.7)12個(gè)符號(hào)中10個(gè)相同，(1400ms,南方科技大學(xué)南門，0.5)12個(gè)符號(hào)中10個(gè)相同。在其他實(shí)施方式中，還可以加入第一語(yǔ)音識(shí)別模塊106的多個(gè)候選并乘以得分。判斷模塊110將這兩個(gè)備選送給動(dòng)作模塊112，此時(shí)用戶已經(jīng)完成語(yǔ)音輸入，動(dòng)作模塊112開(kāi)始動(dòng)作，將地圖的焦點(diǎn)移動(dòng)到“南方科技大學(xué)”，同時(shí)也標(biāo)記可能候選“南方科技大學(xué)南門”。

在t0+2800ms時(shí)，判斷模塊110接收到后處理模塊206的輸出：

(2000ms,南方科技大學(xué)，0.9)

(2000ms,南方科技大學(xué)南門，0.7)

由于內(nèi)容和前述t+2000ms時(shí)沒(méi)有變化，因此動(dòng)作模塊112沒(méi)有進(jìn)行其他的動(dòng)作。

可以看出，在t0+2000ms的時(shí)候，用戶的語(yǔ)音輸入大約剛剛結(jié)束了100ms，實(shí)際云端200的第二語(yǔ)音識(shí)別模塊204還只收到大約1.5秒的語(yǔ)音，但是本發(fā)明實(shí)施方式的語(yǔ)音識(shí)別裝置與語(yǔ)音識(shí)別方法已經(jīng)做出了相應(yīng)正確的反應(yīng)，用戶可以體驗(yàn)到系統(tǒng)響應(yīng)極快。

存在某些可能性，例如t0+2000ms的時(shí)候，后處理結(jié)果出現(xiàn)錯(cuò)誤，例如在此例中，判斷模塊110給出最佳的結(jié)果是“南方科技大廈”，則動(dòng)作模塊112做出相應(yīng)動(dòng)作，將地圖的焦點(diǎn)移動(dòng)到“南方科技大廈”。此時(shí)，用戶感覺(jué)識(shí)別有誤。但是在移動(dòng)過(guò)程中，例如到了t0+2800ms，判斷模塊110給出最佳的結(jié)果是“南方科技大學(xué)”，地圖的焦點(diǎn)自動(dòng)移動(dòng)到“南方科技大學(xué)”，用戶體驗(yàn)為：系統(tǒng)自動(dòng)修正了錯(cuò)誤。

以上所述實(shí)施例的各技術(shù)特征可以進(jìn)行任意的組合，為使描述簡(jiǎn)潔，未對(duì)上述實(shí)施例中的各個(gè)技術(shù)特征所有可能的組合都進(jìn)行描述，然而，只要這些技術(shù)特征的組合不存在矛盾，都應(yīng)當(dāng)認(rèn)為是本說(shuō)明書(shū)記載的范圍。

以上所述實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式，其描述較為具體和詳細(xì)，但并不能因此而理解為對(duì)發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是，對(duì)于本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō)，在不脫離本發(fā)明構(gòu)思的前提下，還可以做出若干變形和改進(jìn)，這些都屬于本發(fā)明的保護(hù)范圍。因此，本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃石磊;王昕;劉軼;程剛
技術(shù)所有人：深圳市北科瑞聲科技有限公司
我是此專利的發(fā)明人

上一篇：一種電源的制作方法與工藝
上一篇：智能電網(wǎng)的儲(chǔ)能調(diào)度方法和裝置與流程

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語(yǔ)音識(shí)別測(cè)試方法相關(guān)技術(shù)

語(yǔ)音識(shí)別方法相關(guān)技術(shù)

語(yǔ)音識(shí)別的方法相關(guān)技術(shù)

訊飛語(yǔ)音識(shí)別使用方法相關(guān)技術(shù)

語(yǔ)音識(shí)別與人工智能相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

語(yǔ)音識(shí)別方法與裝置與流程