減少語音辨識系統(tǒng)中的漏報的制作方法

文檔序號：2825797閱讀：167來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

減少語音辨識系統(tǒng)中的漏報的制作方法
【專利摘要】本發(fā)明的實施例改進執(zhí)行語音辨識的方法。在一個實施例中，本發(fā)明包括一種方法，其包含：接收所說話語；在語音辨識器中處理所述所說話語以產(chǎn)生辨識結(jié)果；確定所述所說話語的分量聲音的一個或一個以上參數(shù)的一致性，其中從由持續(xù)時間、能量及音調(diào)組成的群組選擇所述參數(shù)，且其中所述所說話語的每一分量聲音具有所述參數(shù)的對應(yīng)值；及基于所述參數(shù)中的至少一者的所述一致性確認所述辨識結(jié)果。
【專利說明】減少語音辨識系統(tǒng)中的漏報
[0001]相關(guān)申請案交叉參考
[0002]本申請案請求在2011年8月24日的標題為“減少語音辨識系統(tǒng)中的漏報(Reducing False Positives in Speech Recognition Systems)，，的第 13/217,134號美國專利申請案的優(yōu)先權(quán)權(quán)益，所述申請案的揭示內(nèi)容據(jù)此以引用方式并入本文中。
【背景技術(shù)】
[0003]本發(fā)明涉及語音辨識，且更特定來說涉及使用持續(xù)時間及能量改進語音辨識的系統(tǒng)及方法。
[0004]隨著手持式裝置的爆炸式可用性及裝置大小的縮小，語音辨識正成為用以支持與電子系統(tǒng)的無縫用戶交互作用的愈來愈有價值的技術(shù)。然而，構(gòu)建準確的辨識系統(tǒng)具有極端挑戰(zhàn)性。高度準確的辨識系統(tǒng)可為計算密集的且不適合于小型手持式電子裝置。
[0005]一些語音辨識器的一個問題在辨識器產(chǎn)生錯誤接受時發(fā)生。在此情形中，辨識器可產(chǎn)生指示已辨識特定單詞或片語的輸出，然而事實上實際未說所述單詞或片語。此現(xiàn)象有時在經(jīng)配置以接收聲音串流且揀出(“辨認”)所述串流中的特定聲音的單詞辨認辨識器中存在。
[0006]本發(fā)明通過使用持續(xù)時間及能量執(zhí)行語音辨識的系統(tǒng)及方法來解決這些及其它問題。

【發(fā)明內(nèi)容】

[0007]本發(fā)明的實施例改進執(zhí)行語音辨識的方法。在一個實施例中，本發(fā)明包括一種方法，其包含:接收所說話語；在語音辨識器中處理所述所說話語以產(chǎn)生辨識結(jié)果；確定所述所說話語的分量聲音的一個或一個以上參數(shù)的一致性，其中從由持續(xù)時間、能量及音調(diào)組成的群組選擇所述參數(shù)，且其中所述所說話語的每一分量聲音具有所述參數(shù)的對應(yīng)值；及基于所述參數(shù)中的至少一者的所述一致性確認所述辨識結(jié)果。
【專利附圖】

【附圖說明】
[0008]圖1圖解說明根據(jù)本發(fā)明的一個實施例用于執(zhí)行語音辨識的方法。
[0009]圖2圖解說明根據(jù)本發(fā)明的一個實施例用于實施語音辨識的系統(tǒng)。
【具體實施方式】
[0010]本文中描述用于使用持續(xù)時間及能量來執(zhí)行語音辨識的技術(shù)。出于解釋的目的，在以下說明中，列舉了大量實例及具體細節(jié)以便提供對本發(fā)明的透徹理解。然而，所屬領(lǐng)域的技術(shù)人員將顯而易見，由權(quán)利要求書所界定的本發(fā)明可單獨或結(jié)合下文所描述的其它特征包括這些實例中的一些或全部特征，且可進一步包括本文中所描述的特征及概念的明顯修改及等效形式。
[0011]圖1圖解說明根據(jù)本發(fā)明的一個實施例用于執(zhí)行語音辨識的方法。本發(fā)明的實施例監(jiān)視接收于辨識器中的用戶話語的特定參數(shù)以改善語音辨識結(jié)果。特定來說，本發(fā)明的實施例通過識別辨識結(jié)果中的不一致性(其為真實語音的不現(xiàn)實結(jié)果)來減少錯誤接受。舉例來說，辨識器可正在聽單詞“hot (熱)”，且“h”可用10ms，“ο”的左邊部分可用10ms，“ο”的右邊部分可用400ms，且“t”可用100ms。真實語音以比此更一致的速率發(fā)生。類似地，“h”及“O”的左側(cè)可非常大聲，而話語的剩余部分非常小聲。此不一致性也是真實語音的非常不現(xiàn)實的形式。最后，所辨識語音可以高音調(diào)(通常與女人相關(guān))開始，且下降到低音調(diào)(通常與男人相關(guān))。類似地，此不一致性是不現(xiàn)實的?，F(xiàn)有辨識器將不識別此些不現(xiàn)實的結(jié)果，因為先前辨識器單獨地針對每一分段應(yīng)用持續(xù)時間建模且不強制跨越較寬廣文本的一致性。舉例來說，用于持續(xù)時間模型的統(tǒng)計數(shù)據(jù)通常與說話者無關(guān)且對于特定說話者不是非常精確。如果系統(tǒng)可將關(guān)于持續(xù)時間、能量或音調(diào)的一致性的額外信息包括到辨識器，那么辨識器錯誤接受的頻率將低得多。
[0012]圖1圖解說明根據(jù)一個實施例的過程。在101處，接收所說話語。在102處，在辨識器中處理所說話語以執(zhí)行語音辨識。在一些實施例中，舉例來說，辨識器可為硬件的用于執(zhí)行語音辨識的專用單元，例如經(jīng)優(yōu)化用于語音辨識的微處理器、微控制器或?qū)Ｓ眉呻娐?ASIC)。在其它實施例中，辨識器可以包括可在處理器上執(zhí)行的指令的軟件實施。舉例來說，辨識器可實施為軟件且在(舉例來說)通用微處理器或微控制器上執(zhí)行。在103處，確定持續(xù)時間、能量或音調(diào)的一致性。舉例來說，可在分量基礎(chǔ)上分析所說話語。舉例來說，可基于子語素、音素、音節(jié)或甚至單詞來分析所說話語。如果使用子語素，那么可分析所說話語的分段以確定每一分段對應(yīng)哪個子語素。作為另一實例，如果說話者說單詞“hot”，那么系統(tǒng)可確定“hot”的聲音分段為“h”_ “ο”- “t”的音素。系統(tǒng)可確定跨越聲音分量的持續(xù)時間、能量或音調(diào)的一致性。在104處，基于一致性確認辨識結(jié)果。舉例來說，如果辨識器產(chǎn)生指示經(jīng)辨識的特定單詞或片語的辨識結(jié)果，那么可基于所說話語的持續(xù)時間、能量或音調(diào)參數(shù)中的一者或一者以上的一致性來確認辨識結(jié)果。特定來說，如果確定(舉例來說)持續(xù)時間不一致，那么辨識結(jié)果無效且可被拒絕。
[0013]圖2圖解說明根據(jù)一個實施例的系統(tǒng)。系統(tǒng)200包括包括內(nèi)部存儲器203的處理器201。內(nèi)部存儲器203可包括(舉例來說)用于局部數(shù)據(jù)存儲及檢索的寄存器、高速緩存器或靜態(tài)隨機存取存儲器(SRAM)。舉例來說，處理器201可經(jīng)由總線205進一步存儲及檢索來自外部存儲器204的數(shù)據(jù)。舉例來說，外部存儲器204可為動態(tài)隨機存取存儲器。處理器可進一步存儲及檢索來自外圍存儲器209的數(shù)據(jù)，舉例來說，所述外圍存儲器可為硬盤驅(qū)動器或固態(tài)存儲器。舉例來說，系統(tǒng)200可包括用于與其它資源通信的網(wǎng)絡(luò)接口 210。接口 210可為(舉例來說)無線接口，例如藍牙接口、蜂窩式接口、基于IEEE802的接口，或(舉例來說)有線接口，例如以太網(wǎng)、USB或光學(xué)接口。在一些實施例中，在辨識過程中使用的數(shù)據(jù)可存儲于外部且經(jīng)由接口 210存取。
[0014]在此實例中，處理器201包括辨識器202，所述辨識器實施為用于編程處理器以執(zhí)行本文中所描述的確定一致性及確認辨識結(jié)果的處理技術(shù)的軟件。辨識器202可包括可執(zhí)行指令，所述可執(zhí)行指令致使處理器對輸入語音執(zhí)行辨識操作、確定持續(xù)時間、能量及音調(diào)的一致性及確認辨識結(jié)果。在此實例中，一致性分析220可由辨識器202的一個或一個以上組件執(zhí)行。在其它實施例中，舉例來說，一致性分析220可為來自辨識器202的單獨軟件。
[0015]所說話語經(jīng)由音頻接口 206接收于系統(tǒng)中。音頻接口 206可包括麥克風(fēng)或其它形式的音頻/電子轉(zhuǎn)換器以將聲音信號轉(zhuǎn)換成電子信號。音頻接口 206可包括用于將模擬音頻信號轉(zhuǎn)換成數(shù)字信號的模/數(shù)轉(zhuǎn)換器。舉例來說，所說話語的數(shù)字表示可耦合到處理器201或跨越總線207存儲于存儲器209中且由處理器201存取。辨識器202處理所說話語的數(shù)字表示以產(chǎn)生辨識結(jié)果。辨識結(jié)果可包括中間辨識結(jié)果或最終辨識結(jié)果。最終辨識結(jié)果表示辨識器所斷定的單詞或片語由所說話語體現(xiàn)。最終及中間結(jié)果的類型可基于所使用的辨識算法而變化。中間結(jié)果可為在辨識過程期間產(chǎn)生的聲音分量(例如，音素)的概率且可存儲于內(nèi)部存儲器203或DRAM204中(舉例來說)。如下文更詳細地描述，舉例來說，確定一致性及確認辨識結(jié)果可在中間辨識結(jié)果或最終辨識結(jié)果或兩者上發(fā)生。
[0016]在一些實施例中，可確定一個參數(shù)的一致性。在其它實施例中，可確定多個參數(shù)的一致性。舉例來說，在一個實施例中，可確定所說話語的分量聲音的持續(xù)時間的一致性。在此情形中，可相對于在所說話語中辨識的子語素的預(yù)期值確定(舉例來說)跨越所說話語的子語素的持續(xù)時間的一致性。在另一實施例中，可確定所說話語的分量聲音的能量(或替代地，音調(diào))的一致性。在能量的情形中，可確定(舉例來說)跨越所說話語的子語素的能量的一致性。
[0017]在另一實施例中，確定多個參數(shù)的一致性，且確認辨識結(jié)果是基于每一所確定參數(shù)的單獨一致性。舉例來說，可確定持續(xù)時間及能量的一致性，且確認可基于兩個一致性。
[0018]在一個實施例中，辨識結(jié)果為得分且一致性各自具有得分。在此情形中，舉例來說，確認辨識結(jié)果可包括將辨識結(jié)果得分與一致性得分組合以產(chǎn)生組合得分且將組合得分與閾值進行比較。
[0019]在另一實施例中，可如下確認一致性。將特定參數(shù)(即，持續(xù)時間、能量、音調(diào))的特定一致性與閾值進行比較。如果參數(shù)的一致性與閾值交叉，那么拒絕辨識結(jié)果，且如果參數(shù)的一致性不與閾值交叉，那么接受辨識結(jié)果。舉例來說，如果參數(shù)的一致性與閾值交叉，那么參數(shù)是不充分一致的，且如果參數(shù)的一致性不與閾值交叉，那么參數(shù)是充分一致的。在一些實施例中，一致性可計算為數(shù)值且與另一數(shù)值進行比較?？墒褂酶鞣N技術(shù)來確定一致性。使用一些技術(shù)，高得分可對應(yīng)于不一致的參數(shù)。因此，如果得分高于閾值，那么拒絕辨識結(jié)果。舉例來說，其它技術(shù)可具有對應(yīng)于一致的參數(shù)的高得分，且因此如果得分低于閾值，那么拒絕辨識結(jié)果。
[0020]確定一致性的實例性實施方案
[0021]在一個實例性實施方案中,確定持續(xù)時間的一致性包括確定說話者速率。一致性得分可基于說話者速率、所說話語的分量聲音的實際持續(xù)時間以及話語中的每一分量聲音的一個或一個以上統(tǒng)計參數(shù)。作為特定實例，說話者速率可基于所說話語的總持續(xù)時間除以話語中的每一不同聲音分量的持續(xù)時間的預(yù)期值的總和。舉例來說，如果用戶說單詞“T0”，那么分量聲音(在此其為音素)可為“T”及“O”的音素聲音。話語的對應(yīng)于“T”聲音的部分的持續(xù)時間可為IOOms且話語的對應(yīng)于“O”聲音的部分的持續(xù)時間可為200ms。因此，所說話語的總持續(xù)時間為300ms。在一個實施例中，預(yù)期值可為平均數(shù)。在訓(xùn)練期間，可確定“T”聲音的持續(xù)時間范圍是從100到200ms，具有150ms的平均持續(xù)時間Tave。類似地，可確定“O”聲音的持續(xù)時間范圍是從200到300ms，具有250ms的平均持續(xù)時間Oave。因此，在此實例中，說話者速率SR可計算如下:
[0022]SR =總持續(xù)時間/總和(預(yù)期持續(xù)時間)[0023]SR = (100ms+200ms) / (150ms+250ms) =3/4
[0024]在當(dāng)前實例中，可使用說話者速率來確定一致性得分。舉例來說，可通過將說話者速率乘以話語的每一不同聲音分量的持續(xù)時間的預(yù)期值來確定經(jīng)修改預(yù)期值。在此實例中，可如下基于說話者速率來確定經(jīng)修改預(yù)期值:
[0025]T，ave = Tave*SR 且 O，ave = 0ave*SR,
[0026]T，ave = (150ms) (3/4) = 112.5,
[0027]0，ave = (250ms) (3/4) = 187.5,
[0028]其中T’ ave是Tave的經(jīng)修改預(yù)期值且O’ ave是Oave的經(jīng)修改預(yù)期值。
[0029]確定一致性(例如，一致性得分)可包括確定增量值。在一個實施例中，增量值是每一經(jīng)修改預(yù)期值與對應(yīng)于每一特定經(jīng)修改預(yù)期值的聲音分量的持續(xù)時間之間的差。舉例來說，可如下針對每一分量計算增量值:
[0030](I)T_delta = T， ave-Ta,
[0031](2) 0_delta = O，ave-Oa,
[0032]其中Ta是話語的“T”分量的實際持續(xù)時間且Oa是話語的“0”分量的實際持續(xù)時間。在一些實施例中，增量值可為可在每一經(jīng)修改預(yù)期值上操作的第一函數(shù)與可在對應(yīng)于每一特定經(jīng)修改預(yù)期值的聲音分量的持續(xù)時間上操作的第二函數(shù)之間的差。舉例來說，可使用的另一增量值如下:
[0033](3) T_delta = ln(T，ave) -1n (Ta),
[0034](4) 0_delta = ln(0，ave) -1n (Oa),
[0035]其中第一及第二函數(shù)兩者均為自然對數(shù)。
[0036]作為又一實例，可使用的另一增量值如下:
[0037](5)T_delta = In(T，ave*exp(1/2(std_dev~2)))-1n(Ta),
[0038](6)0_delta = In(0，ave*exp(1/2(std_dev~2)))-1n(Oa),
[0039]其中Std_dev~2是分量聲音的持續(xù)時間的對數(shù)的標準偏差，分量聲音在此實例中為音素“T”及“0”，且“exp”是指數(shù)函數(shù)ex。因此，在此實例中，第二函數(shù)包括對應(yīng)于每一特定經(jīng)修改預(yù)期值的聲音分量的持續(xù)時間的標準偏差的指數(shù)。
[0040]在一些實例性實施方案中，一致性可表示為得分，且其中確定一致性進一步包含將話語中的N個聲音分量的增量值的平方相加且除以N，其中N為整數(shù)。使用以上(I)及
(2)的一個實例如下:
[0041](7) S = (l/N)*[T_delta]2+(l/N)*[0_delta]2，其中 N = 2。
[0042]應(yīng)用方程式⑴、⑵及(7)，獲得S = 156.25的一致性得分。在一個實施例中，可將所述一致性得分與閾值進行比較，且如果所述得分與所述閾值交叉，那么拒絕辨識結(jié)果。在此情形中，“T”及“O”的實際值兩者均為快的(例如，Ta = 100ms，其中Tave = 150ms為快速說的“T”聲音，且Oa = 200ms，其中Oave = 250ms是快速說的“O”聲音)。在此情形中，“T”及“O”兩者均為快的，其為一致的。因此，一致性得分低于某一預(yù)設(shè)閾值且確認辨識結(jié)果。
[0043]現(xiàn)在呈現(xiàn)關(guān)于快“T”及慢“O”的另一實例以展示一致性得分如何改變。在此實例中，將以下值用于所說話語的實際持續(xù)時間:Ta = IOOms且Oa = 300ms。在此情形中，說話者速率為:[0044]SR = (100ms+300ms) / (150ms+250ms) = 4/4 = I。
[0045]經(jīng)修改預(yù)期值為:
[0046]T，ave = (150ms) (I) = 150，且
[0047]0，ave = (250ms) (I) = 250。
[0048]增量值為:
[0049]T_delta = T，ave-Ta = 150-100 = 50,且
[0050]0_delta = 0’ ave-Oa = 250-300 = 50。
[0051]一致性得分為:
[0052]S = (l/N)*[T_delta]2+(l/N)*[0_delta]2 = (502+502)/2 = 2500。
[0053]如果閾值設(shè)定于156.25 < Th < 2500之間，其中Th為閾值，那么系統(tǒng)將拒絕所說話語Ta = IOOms及Oa = 300ms的辨識結(jié)果。
[0054]現(xiàn)在呈現(xiàn)關(guān)于慢“T”及慢“O”的另一實例以說明另一情形。在此實例中，將以下值用于所說話語的實際持續(xù)時間:Ta = 200ms且Oa = 300ms，其中Ta及Oa兩者在持續(xù)時間上均比來自訓(xùn)練語料的統(tǒng)計平均數(shù)長(舉例來說)。在此情形中，說話者速率為:
[0055]SR = (200ms+300ms) / (150ms+250ms) =5/4。
[0056]經(jīng)修改預(yù)期值為:
[0057]T，ave = (150ms) (5/4) = 187.5,且
[0058]O，ave = (250ms) (5/4) = 312.5。
[0059]增量值為:
[0060]T_delta = T，ave-Ta = 187.5-200 = 12.5,且
[0061]0_delta = 0，ave-Oa = 312.5-300 = 12.5。
[0062]一致性得分為:
[0063]S = (l/N)*[T_delta]2+(l/N)*[0_delta]2 = (12.52+12.52)/2 = 156.25，
[0064]其為快-快情形的相同結(jié)果。因此，一致慢的說話者的辨識結(jié)果將產(chǎn)生低于閾值Th的一致性得分，且將確認結(jié)果。
[0065]現(xiàn)在呈現(xiàn)關(guān)于慢“T”及快“O”的另一實例以說明另一情形。在此實例中，將以下值用于所說話語的實際持續(xù)時間:Ta = 200ms且Oa = 200ms，其中Ta在持續(xù)時間上比統(tǒng)計平均數(shù)長且Oa在持續(xù)時間上比統(tǒng)計平均數(shù)短。在此情形中，說話者速率為:
[0066]SR = (200ms+200ms) / (150ms+250ms) = 4/4 = I。
[0067]經(jīng)修改預(yù)期值為:
[0068]T，ave = (150ms) (I) = 150,且
[0069]O，ave = (250ms) (I) = 250。
[0070]增量值為:
[0071]T_delta = T，ave-Ta = 150-200 = 50,且
[0072]0_delta = 0’ ave-Oa = 250-200 = 50。
[0073]一致性得分為:
[0074]S = (l/N)*[T_delta]2+(l/N)*[0_delta]2 = (502+502)/2 = 2500。
[0075]其為快-慢情形的相同結(jié)果。因此，辨識結(jié)果不一致輸入將產(chǎn)生高于閾值Th的一致性得分，且將拒絕結(jié)果。[0076]更一股來說，可使用N個聲音分量的持續(xù)時間通過除以N來產(chǎn)生一致性得分S，如以上(7)中所展示。以下公式展示遵循上文所呈現(xiàn)的實例性實施方案的根據(jù)各種實施例的用于確定一致性得分的一股技術(shù)。第一公式為(7)的一股情形:
【權(quán)利要求】
1.一種方法，其包含: 接收所說話語；在語音辨識器中處理所述所說話語以產(chǎn)生辨識結(jié)果；確定所述所說話語的分量聲音的一個或一個以上參數(shù)的一致性，其中從由持續(xù)時間、能量及音調(diào)組成的群組選擇所述參數(shù)，且其中所述所說話語的每一分量聲音具有所述參數(shù)的對應(yīng)值；及基于所述參數(shù)中的至少一者的所述一致性確認所述辨識結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法，其中確定一個或一個以上參數(shù)的一致性包含確定所述所說話語的分量聲音的持續(xù)時間的所述一致性。
3.根據(jù)權(quán)利要求1所述的方法，其中確定一個或一個以上參數(shù)的一致性包含確定所述所說話語的分量聲音的能量的所述一致性。
4.根據(jù)權(quán)利要求1所述的方法，其中確定一個或一個以上參數(shù)的一致性包含確定所述所說話語的分量聲音的音調(diào)的所述一致性。
5.根據(jù)權(quán)利要求1所述的方法，其中確定多個參數(shù)的一致性，且其中確認所述辨識結(jié)果是基于每一所確定參數(shù)的所述單獨一致性。
6.根據(jù)權(quán)利要求1所述的方法，其中所述辨識結(jié)果為第一得分且一個或一個以上一致性各自具有一得分，且其中確認所述辨識結(jié)果包含將所述第一得分與一個或一個以上一致性的得分組合以產(chǎn)生第二得分且將所述第二得分與閾值進行比較。
7.根據(jù)權(quán)利要求1所述的方法，其中確定一致性包含基于所述所說話語中的所述參數(shù)的預(yù)定一致性特性及所述參數(shù)的實際特性來計算一致性度量。
8.根據(jù)權(quán)利要求7所述的方法，其中所述預(yù)定一致性特性為所述所說話語的分量聲音的所述一個或一個以上參數(shù)中的每一者的一個或一個以上預(yù)定統(tǒng)計參數(shù)。
9.根據(jù)權(quán)利要求8所述的方法，其中所述一個或一個以上預(yù)定統(tǒng)計參數(shù)包含所述所說話語的每一分量聲音的所述參數(shù)的平均值，且其中從一組訓(xùn)練話語產(chǎn)生所述平均值。
10.根據(jù)權(quán)利要求1所述的方法，其中確認所述辨識結(jié)果包含: 將特定參數(shù)的特定一致性與閾值進行比較；如果所述參數(shù)的所述一致性與所述閾值交叉，那么拒絕所述辨識結(jié)果，且如果所述參數(shù)的所述一致性不與所述閾值交叉，那么接受所述辨識結(jié)果。
11.根據(jù)權(quán)利要求10所述的方法，其中如果所述參數(shù)的所述一致性與所述閾值交叉，那么所述參數(shù)是不充分一致的，且其中如果所述參數(shù)的所述一致性不與所述閾值交叉，那么所述參數(shù)是充分一致的。
12.根據(jù)權(quán)利要求1所述的方法，其中所述參數(shù)為持續(xù)時間，且其中確定持續(xù)時間的一致性包含確定說話者速率，其中所述說話者速率是基于所述所說話語的總持續(xù)時間除以所述話語中的每一不同聲音分量的持續(xù)時間的預(yù)期值的總和。
13.根據(jù)權(quán)利要求12所述的方法，其中持續(xù)時間的所述預(yù)期值是所述話語中的每一不同聲音分量的平均持續(xù)時間。
14.根據(jù)權(quán)利要求12所述的方法，其中所述所說話語的分量聲音的所述一個或一個以上參數(shù)的所述一致性中的至少一者包含一致性得分，且其中所述一致性得分是基于所述說話者速率、所述所說話語的分量聲音的實際持續(xù)時間及所述話語中的每一分量聲音的一個或一個以上統(tǒng)計參數(shù)。
15.根據(jù)權(quán)利要求12所述的方法，其進一步包含基于所述說話者速率來確定經(jīng)修改預(yù)期值。
16.根據(jù)權(quán)利要求15所述的方法，其中通過將所述說話者速率乘以所述話語的每一不同聲音分量的持續(xù)時間的所述預(yù)期值來確定所述經(jīng)修改預(yù)期值。
17.根據(jù)權(quán)利要求15所述的方法，其進一步包含確定多個增量值，且其中所述多個增量值為每一經(jīng)修改預(yù)期值與對應(yīng)于每一特定經(jīng)修改預(yù)期值的聲音分量的持續(xù)時間之間的差。
18.根據(jù)權(quán)利要求15所述的方法，其進一步包含確定多個增量值，且其中所述多個增量值為可在每一經(jīng)修改預(yù)期值上操作的第一函數(shù)與可在對應(yīng)于每一特定經(jīng)修改預(yù)期值的聲音分量的持續(xù)時間上操作的第二函數(shù)之間的差。
19.根據(jù)權(quán)利要求18所述的方法，其中將一致性表示為得分，且其中確定所述一致性進一步包含將所述話語中的N個聲音分量的所述增量值的平方相加且除以N。
20.根據(jù)權(quán)利要求18所述的方法，其中第一函數(shù)及第二函數(shù)為自然對數(shù)。
21.根據(jù)權(quán)利要求18所述的方法，其中第二函數(shù)包含對應(yīng)于每一特定經(jīng)修改預(yù)期值的所述聲音分量的所述持續(xù)時間的標準偏差的指數(shù)。
22.根據(jù)權(quán)利要求1所述的方法，其中所述分量聲音為音素、子語素、音節(jié)及字中的一者。
23.—種系統(tǒng),其包含:` 處理器 '及存儲器，其中所述處理器經(jīng)配置以: 接收所說話語；在語音辨識器中處理所述所說話語以產(chǎn)生辨識結(jié)果；確定所述所說話語的分量聲音的一個或一個以上參數(shù)的一致性，其中從由持續(xù)時間、能量及音調(diào)組成的群組選擇所述參數(shù)，且其中所述所說話語的每一分量聲音具有所述參數(shù)的對應(yīng)值；及基于所述參數(shù)中的至少一者的所述一致性確認所述辨識結(jié)果。
【文檔編號】G10L15/20GK103797535SQ201280040735
【公開日】2014年5月14日申請日期:2012年8月17日優(yōu)先權(quán)日:2011年8月24日
【發(fā)明者】喬納森·肖, 彼得·韋爾默郎, 斯蒂芬·薩頓, 羅伯特·薩瓦申請人:感官公司

完整全部詳細技術(shù)資料下載