專利名稱:一種應(yīng)用于語音識別系統(tǒng)的高性能置信度處理方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種置信度處理方法。更具體地說,本發(fā)明涉及一種應(yīng)用于語音識 別系統(tǒng)的高性能置信度處理方法。
背景技術(shù):
隨著語音識別技術(shù)在不同領(lǐng)域被越來越多地應(yīng)用,語音識別系統(tǒng)的識別率和穩(wěn)健 性變得越來越重要,用戶對于所使用的語音識別系統(tǒng)識別結(jié)果的可靠程度越來越關(guān) 心。在自然條件下使用語音識別系統(tǒng),不同于理想環(huán)境下的使用,這時語音識別系 統(tǒng)的性能會有很大的降低。而且對于真實(shí)的口語,在語音中會摻雜很多非語音,譬 如非正常停頓、咳嗽聲以及其他的環(huán)境噪聲,這都給傳統(tǒng)的語音識別系統(tǒng)達(dá)到原有 的識別性能造成了困難。特別對于電話語音識別系統(tǒng),用戶的期望是盡可能地拒絕 錯誤的語音同時對于集外詞表能夠準(zhǔn)確拒識,置信度的計算是解決這些困難的一種 很好的途徑。
置信度評價方法可以對語音識別系統(tǒng)的識別結(jié)果進(jìn)行假設(shè)檢驗,通過試驗設(shè)定 的閾值對識別結(jié)果的可靠性進(jìn)行評價,定位結(jié)果中的錯誤,從而提高識別系統(tǒng)的識別 率和穩(wěn)健性。目前已經(jīng)有許多處理置信度的方法,但由于實(shí)際應(yīng)用的語音識別系統(tǒng) 一方面要求實(shí)時性比較高,另一方面也希望置信度的分?jǐn)?shù)比較可靠,目前的置信度 處理方法很難同時滿足這兩個要求。在已有專利CN02148686.7中提出的置信度處理 方法,它們雖然比以前的方法在速度和精度上都有提高,但是它的主要缺陷有其一 是兩次利用聲學(xué)模型對輸入語音進(jìn)行解碼,第一次利用聲學(xué)模型目的是對原始語音 進(jìn)行單遍解碼得到目標(biāo)結(jié)果,第二次利用聲學(xué)模型目的是對識別的目標(biāo)結(jié)果再次在 原始語音上進(jìn)行強(qiáng)制對齊,最后得到相應(yīng)的置信度分?jǐn)?shù),雖然其在處理方法,存儲 結(jié)構(gòu)上有很大的優(yōu)化提高速度,但其兩遍解碼的框架限制了它進(jìn)一步提高其系統(tǒng)的 速度;其二,只考慮了聲學(xué)模型的知識源計算置信度,單一的知識源計算出置信度 結(jié)果的可靠性有限。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是提供一種應(yīng)用于語音識別系統(tǒng)的高性能置信度處理
5方法,本發(fā)明的目的在于通過新的置信度處理方法, 一方面提高置信度處理的速度, 降低置信度的計算在整個語音識別系統(tǒng)中所占的時間,另一方面提高置信度結(jié)果的 可靠性,從而進(jìn)一步提高語音識別系統(tǒng)的實(shí)時性(即速度)和穩(wěn)健性。
為了達(dá)到上述目的,本發(fā)明提供了一種應(yīng)用于語音識別系統(tǒng)的高性能置信度處 理方法,其框架是基于一遍語音識別解碼完成,在一遍語音識別過程中得到的多個 知識源,通過多個知識源融合計算置信度,具體包括以下步驟
1 )使用電話語音識別弓i擎對輸入語音逐幀進(jìn)行解碼識別;
2) 在步驟1)還沒有解碼完最后一幀語音前,在每一幀語音數(shù)據(jù)解碼中,首先 得到當(dāng)前幀活躍狀態(tài)的觀察概率P(xJ、),其中《是當(dāng)前幀語音信號的特征,^是當(dāng)
前活躍狀態(tài)集合D中的一個;同時將所有活躍狀態(tài)的觀察概率相加并保存到內(nèi)存中;
3) 解碼完最后一幀數(shù)據(jù),在得到識別結(jié)果前,獲取輸入語音的詞圖(lattice);
4) 在步驟3)中得到詞圖后,隨即可以得到識別結(jié)果,也即完成了語音數(shù)據(jù)的 解碼識別過程,得到識別結(jié)果同時還可以得到其相對應(yīng)的音素(phone)序列,以及 每個音素(phone)所對應(yīng)的起止時間點(diǎn)和每個音素(phone)的識別似然概率;
5) 完成步驟4)后,進(jìn)行同步聲學(xué)后驗概率計算,即,通過前面保存的每一幀 的活躍狀態(tài)的觀察概率之和,和每個音素(phone)的起止時間及其似然概率,求出 相應(yīng)的每個音素(phone)的后驗概率;
6) 完成步驟4)后,進(jìn)行詞圖(lattice)后驗概率計算,gp,通過前面得到的輸 入語音詞圖(lattice),根據(jù)詞圖(lattice)上的信息相應(yīng)也可以計算出每個音素(phone) 的后驗概率,通過算術(shù)平均得到對數(shù)域的詞圖(lattice)后驗概率;
7) 將在步驟5)得到的同步聲學(xué)后驗概率和步驟6)得到的詞圖(lattice)后驗 概率兩個來自不同知識源的后驗概率融合即求出最后的識別結(jié)果的融合后驗概率;
8) 將在步驟7)得到的融合后驗概率通過定制的映射函數(shù)將后驗概率映射為置 信度分?jǐn)?shù),即為最后得到的識別結(jié)果的置信度。
另外,本發(fā)明的應(yīng)用于語音識別系統(tǒng)的高性能置信度處理方法中的所述步驟5) 和步驟6)是相互獨(dú)立的,兩者沒有先后次序。
本發(fā)明的優(yōu)點(diǎn)在于
本發(fā)明的應(yīng)用于語音識別系統(tǒng)的高性能置信度處理方法,只使用了一遍語音識 別解碼,同時利用了多個知識源,與以往的方法相比,該方法在大幅提高計算速度的同時,也使置信度計算的結(jié)果更為準(zhǔn)確有效。在所作的統(tǒng)計實(shí)驗中,使用本發(fā)明 計算方法的語音識別系統(tǒng)置信度結(jié)果的計算速度及有效性均高于專利CN02148686.7 中提出的處理方法。
圖1是語音識別結(jié)果置信度計算的框圖2是在得到識別結(jié)果的同時生成的詞圖結(jié)構(gòu)。
具體實(shí)施例方式
下面結(jié)合具體實(shí)施例和附圖對本發(fā)明進(jìn)行詳細(xì)描述。 實(shí)施例1
本發(fā)明提供的應(yīng)用于語音識別系統(tǒng)的高性能置信度處理方法,包括以下步驟
1) 使用中科信利電話語音識別引擎對輸入語音逐幀進(jìn)行解碼識別,該識別引擎 的解碼過程是基于TIME-SYNCHRONOUS VITERBI BEAM SEARCH算法(在文獻(xiàn) Xuedong Huang, Alex Acero, Hsiao—Wuen Hon. Spoken Language Processing[M]. New Jersey: Prentice Hall PTR,2001.中有介紹);
2) 在步驟1)還沒有解碼完最后一幀語音前,在每一幀語音數(shù)據(jù)解碼中,首先 得到當(dāng)前幀活躍狀態(tài)的觀察概率尸"l^),其中《是當(dāng)前幀語音信號的特征,^是當(dāng)
前活躍狀態(tài)集合D中的一個;同時將所有活躍狀態(tài)的觀察概率相加并保存到內(nèi)存中;
3) 解碼完最后一幀數(shù)據(jù),在得到識別結(jié)果(識別結(jié)果為輸入語音對應(yīng)的文本)
前,可以得到輸入語音的詞圖(lattice), lattice的具體結(jié)構(gòu)(可以參見圖2);
4) 在步驟3)得到詞圖后,隨即可以得到識別結(jié)果,也即完成了語音數(shù)據(jù)的解 碼識別過程。得到識別結(jié)果同時還可以得到其相對應(yīng)的音素(phone)序列,以及每 個音素(phone)所對應(yīng)的起止時間點(diǎn)和每個音素(phone)的識別似然概率;
5) 完成步驟4)后,進(jìn)行聲學(xué)后驗概率計算,即,通過前面保存的每一幀的活 躍狀態(tài)的觀察概率之和,和每個音素(phone)的起止時間及其似然概率,求出相應(yīng) 的每個音素(phone)的后驗概率,這里計算每個音素(phone)的后驗概率對數(shù)值 是每一幀語音的后驗概率對數(shù)值的算術(shù)平均,在計算每一幀語音的后驗概率上,以 往的方法是在后驗概率公式的分母中求的是聲學(xué)模型中所有狀態(tài)的觀察概率和,而 該方法中計算則是考慮前活躍狀態(tài)集合中含有的狀態(tài)的觀察概率和為分母,這樣一是可以提高計算的速度,二是讓后驗概率更加準(zhǔn)確。最后將識別結(jié)果中所有音素 (phone)的后驗概率對數(shù)值求算術(shù)平均得到該識別結(jié)果的對數(shù)域聲學(xué)后驗概率;
同步聲學(xué)后驗概率計算具體如下
參考圖1,根據(jù)圖1語音識別結(jié)果置信度計算的框圖,首先考慮每一幀的后驗概
率計算,對于每一幀語音輸入信號;c,, t=l,2....T,其對于每一幀語音信號的后驗概
率為尸0 ,lx,),定義為
<formula>formula see original document page 8</formula> (i)
其中&是指識別結(jié)果中X'所屬的狀態(tài),D為識別過程中當(dāng)前時刻t活躍狀態(tài)的集
合,^是活躍狀態(tài)集合中的狀態(tài)。
在解碼識別過程中,同時保存了每一幀語音信號的后驗概率p(Aix,)的分母部分
<formula>formula see original document page 8</formula> (2) 當(dāng)識別過程結(jié)束,得到識別結(jié)果為R,其中包含N個音素(phone),其音素(phone)
序列為尸/ 。/^....尸~—,,而每個音素(phone)對應(yīng)的語音幀序列AA......&。
那么每個音素(phone)的對數(shù)域后驗概率計算如下
<formula>formula see original document page 8</formula>
由于計算每個音素(phone)的后驗概率的分母部分fp^O是預(yù)先保存好的,而
分子部分fjp(x,k);7CO是識別結(jié)果中該個音素(phone)的似然概率也是已知的。
所以計算每個音素(phone)的后驗概率基本不需要額外的時間。
有了每個音素(phone)的后驗概率,下面給出整個識別結(jié)果R的基于聲學(xué)模型 的后驗概率i^。一/R)的計算公式 <formula>formula see original document page 8</formula>
6)完成步驟4)后,進(jìn)行詞圖(lattice)后驗概率計算,g卩,通過前面得到的輸 入語音詞圖(lattice),根據(jù)詞圖(lattice)上的信息相應(yīng)也可以計算出每個音素(phone) 的后驗概率,通過算術(shù)平均得到對數(shù)域的詞圖(lattice)后驗概率;
詞圖(lattice)后驗概率計算如下圖2中是在得到識別結(jié)果的同時生成的詞圖(lattice)結(jié)構(gòu)。其中圖中的每一條 邊(edge)代表的是一個音素(phone),每一條邊(edge)的起始點(diǎn),表示這個音素
的起始時間^和。每一條邊上的值表示它的后驗概率Edge(i)(其主要計算公式-
Edge (i)=詞圖(lattice)中通過該邊的所有路徑概率之和,具體步驟可以通過前向 后向算法由詞圖(lattice)的信息計算得到。文獻(xiàn)F.Wessel. Word Posterior Probabilities for Large Vocabulary Continuous Speech
Recognition[D].Dissertation,Aachen,Germany,2002-07中有具體介紹),圖2中給出計 算好的每條邊的后驗概率Edge(i)以及它們代表的相應(yīng)因素(phone)。
假設(shè)得到的識別結(jié)果為R,其中包含N個音素(phone),其音素(phone)序列
為7^/^....尸~—1,對應(yīng)的每個音素(phone)的起始時間為Z,和^ (具體可以見圖2中
底部給出的識別序列R的時間信息可以得到相應(yīng)的^和/。),對于^和^間的任一時
刻t,設(shè)其包含的和當(dāng)前音素相同的邊(edge)的集合為《(可以見圖2中Phone-J
的虛線中對應(yīng)的詞圖中的兩條Phone=J的邊),則對于音素/^,時刻t對應(yīng)的后驗概率 計算如下
,10g[J^輛)] (5)
那么當(dāng)前音素的后驗概率計算公式如下
,,)=7^~t, (6)
、—、'=,s
從而整個識別結(jié)果的基于詞圖(lattice)的后驗概率iL,JR)計算如下
其中,上述步驟5)和步驟6)是相互獨(dú)立的,兩者沒有先后次序。
7) 將在步驟5)得到的同步聲學(xué)后驗概率和步驟6)得到的詞圖(lattice)后驗 概率兩個來自不同知識源的后驗概率融合即求出最后的識別結(jié)果的融合后驗概率;
8) 將在步驟7)得到的融合后驗概率通過定制的映射函數(shù)將后驗概率映射為置 信度分?jǐn)?shù),即為最后得到的識別結(jié)果的置信度。 線性融合置信度計算如下
通過上面步驟l,步驟2分別計算了聲學(xué)后驗概率和詞圖(lattice)后驗概率。通過實(shí)驗數(shù)據(jù)可以估計出線性融合系數(shù)A以及后驗概率和置信度分?jǐn)?shù)的映射函數(shù) CM職w/gmod(p) (8)
其中CM^^為最后置信度分?jǐn)?shù),p為線性融合后的后驗概率;
所以由步驟l,步驟2,步驟3可以通過該方法計算出最后置信度分?jǐn)?shù)CMw^如
下
CUgmod(U) + AU) (9)。
權(quán)利要求
1、一種應(yīng)用于語音識別系統(tǒng)的高性能置信度處理方法,其框架是基于一遍語音識別解碼完成,在一遍語音識別過程中得到多個知識源,通過多個知識源融合計算置信度,具體包括以下步驟1)使用電話語音識別引擎對輸入語音逐幀進(jìn)行解碼識別;2)在步驟1)還沒有解碼完最后一幀語音前,在每一幀語音數(shù)據(jù)解碼中,首先得到當(dāng)前幀活躍狀態(tài)的觀察概率P(xt|sj),其中xt是當(dāng)前幀語音信號的特征,sj是當(dāng)前活躍狀態(tài)集合D中的一個;同時將所有活躍狀態(tài)的觀察概率相加并保存到內(nèi)存中;3)解碼完最后一幀數(shù)據(jù),在得到識別結(jié)果前,獲取輸入語音的詞圖;4)在步驟3)中得到詞圖后,隨即得到識別結(jié)果,也即完成了語音數(shù)據(jù)的解碼識別過程,得到識別結(jié)果同時還得到其相對應(yīng)的音素序列,以及每個音素所對應(yīng)的起止時間點(diǎn)和每個音素的識別似然概率;5)完成步驟4)后,進(jìn)行同步聲學(xué)后驗概率計算,即,通過前面保存的每一幀的活躍狀態(tài)的觀察概率之和,和每個音素的起止時間及其似然概率,求出相應(yīng)的每個音素的后驗概率;6)完成步驟4)后,進(jìn)行詞圖后驗概率計算,即,通過前面得到的輸入語音詞圖,根據(jù)詞圖上的信息相應(yīng)也計算出每個音素的后驗概率,通過算術(shù)平均得到對數(shù)域的詞圖后驗概率;7)將在步驟5)得到的同步聲學(xué)后驗概率和步驟6)得到的詞圖后驗概率兩個來自不同知識源的后驗概率融合即求出最后的識別結(jié)果的融合后驗概率;8)將在步驟7)得到的融合后驗概率通過定制的映射函數(shù)將后驗概率映射為置信度分?jǐn)?shù),即為最后得到的識別結(jié)果的置信度。
2、 如權(quán)利要求l所述的應(yīng)用于語音識別系統(tǒng)的高性能置信度處理方法,其特征 在于,所述步驟5)和步驟6)是相互獨(dú)立的,兩者沒有先后次序。
3、 如權(quán)利要求1所述的應(yīng)用于語音識別系統(tǒng)的高性能置信度處理方法,其特征 在于,所述步驟5)中的所述同步聲學(xué)后驗概率計算具體如下根據(jù)聲學(xué)后驗概率計算的框圖,首先考慮每一幀的后驗概率計算,對于每一幀 語音輸入信號;c,, t=l,2....T,其對于每一幀語音信號的后驗概率為尸(s,lx,),定義為三Z)其中是指識別結(jié)果中所屬的狀態(tài),D為識別過程中當(dāng)前時刻t活躍狀態(tài)的集合,^是活躍狀態(tài)集合中的狀態(tài);在解碼識別過程中,同時保存了每一幀語音信號的后驗概率尸(A k)的分母部分 尸")=2>"4萬) (2)當(dāng)識別過程結(jié)束,得到識別結(jié)果為R,其中包含N個音素,其音素序列為PZ/。i^.…戶^M ,而每個音素對應(yīng)的語音幀序列......& ;每個音素的對數(shù)域后驗概率計算如下<formula>formula see original document page 3</formula> (3) 其中,計算每個音素的后驗概率的分母部分]^p^)是預(yù)先保存好的,而分子部分j^p^》,)p(W是識別結(jié)果中該個音素的似然概率;1=1得到上述每個音素的后驗概率后,整個識別結(jié)果R的基于聲學(xué)模型的后驗概率 尸。,*(尺)的計算公式為-尸一恥=》巧) (化W '-=0
4、如權(quán)利要求1所述的應(yīng)用于語音識別系統(tǒng)的高性能置信度處理方法,其特征 在于,所述步驟6)中的所述詞圖后驗概率計算如下假設(shè)得到的識別結(jié)果為R,其中包含N個音素,其音素序列為7^。戶//1....尸~_1, 對應(yīng)的每個音素的起始時間為^和^,對于t和^間的任一時刻t,設(shè)其包含的和當(dāng)前音素相同的邊的集合為g ,則對于音素i^,時刻t對應(yīng)的后驗概率計算如下 尸柳"og[Z蹄柳 (5)當(dāng)前音素的后驗概率計算公式如下<formula>formula see original document page 4</formula><formula>formula see original document page 4</formula><formula>formula see original document page 4</formula>整個識別結(jié)果的基于詞圖的后驗概率iL,JR)計算如下-
5、如權(quán)利要求1所述的應(yīng)用于語音識別系統(tǒng)的高性能置信度處理方法,其特征在于,所述步驟8)中的置信度分?jǐn)?shù)計算如下通過實(shí)驗數(shù)據(jù)可以估計出線性融合系數(shù);i以及后驗概率和置信度分?jǐn)?shù)的映射函<formula>formula see original document page 4</formula> (8) 其中C^^。w為最后置信度分?jǐn)?shù),p為線性融合后的后驗概率; 最后置信度分?jǐn)?shù)CM,^^如下<formula>formula see original document page 4</formula> (9)。
全文摘要
本發(fā)明涉及一種應(yīng)用于語音識別系統(tǒng)的高性能置信度處理方法,其框架是基于一遍語音識別解碼完成,在一遍語音識別過程中得到多個知識源,通過多個知識源融合處理得到置信度。本發(fā)明的語音識別置信度評價方法,只使用了一遍語音識別解碼,同時利用了多個知識源,與以往的方法相比,該方法在大幅提高計算速度的同時,也使置信度計算的結(jié)果更為準(zhǔn)確有效。
文檔編號G10L15/00GK101447183SQ200810110479
公開日2009年6月3日 申請日期2008年6月5日 優(yōu)先權(quán)日2007年11月28日
發(fā)明者潘接林, 趙慶衛(wèi), 顏永紅, 塔 黎 申請人:中國科學(xué)院聲學(xué)研究所;北京中科信利技術(shù)有限公司