亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種快速可在線應(yīng)用的聲道長度歸整方法

文檔序號:2830858閱讀:371來源:國知局
專利名稱:一種快速可在線應(yīng)用的聲道長度歸整方法
技術(shù)領(lǐng)域
本發(fā)明涉及語音識別技術(shù)中一種說話人聲學(xué)特征歸整方法,更具體地說,本發(fā) 明涉及一種快速可在線應(yīng)用的說話人聲道長度歸整方法。
背景技術(shù)
語音是人的自然屬性之一。由于說話人發(fā)音器官的生理差異以及后天形成的行 為差異,在語音識別中說話人相關(guān)系統(tǒng)的性能要好于說話人無關(guān)系統(tǒng)。為了減小由 于說話人差異而引起的說話人無關(guān)系統(tǒng)性能的下降,聲道長度歸整是一種常用的有 效方法。聲道長度歸整是一種基于模型的特征歸整技術(shù),依賴于說話人聲道長度歸 整模型。文獻(xiàn),H. Wakita "Normalization of Vowels by Vocal-Tract Length and its Application to Vowel Identification, " ICASSP77 (1977),首次提出應(yīng)用去除說話人聲 道長度引起共振峰頻率漂移的思想來提高孤立元音的識別率。聲道不同的位置和形 狀決定了語音的產(chǎn)生,文獻(xiàn),E. Eide et al. "A Parametric Approach to Vocal Tract Length Normalization," ICASSP96 (1996),認(rèn)為說話人聲道最簡單的模型是一個(gè)長度從聲門 到唇的均勻管子,而且是一端開口一端封閉。他們還給出了不同歸整函數(shù)對最后識 別性能的影響?;谶@種均勻管道的模型,說話人聲道長度的影響等于語音信號共 振峰的中心頻率乘以聲道長度的倒數(shù)。通常說話人聲道長度從女生的13cm左右到男 生的18cm以上,這些變化對語音識別都是不利的。聲道長度歸整技術(shù)的思想就是找 到某個(gè)歸整函數(shù)把訓(xùn)練和測試的數(shù)據(jù)都變換到一個(gè)與說話人聲道長度無關(guān)的數(shù)據(jù) 域?;诠艿滥P偷睦碚?,共振峰隨聲道長度線性變化。大多數(shù)情況下歸整函數(shù)只 依賴于一個(gè)簡單的特征歸整因子。具體實(shí)施就是尋找每個(gè)說話人最佳歸整因子,然 后通過該歸整因子對頻率軸拉伸或壓縮來消除說話人聲道長度不同而帶來的影響。 聲道長度歸整技術(shù)的原理很簡單,但是有效的具體實(shí)施是相當(dāng)困難的。最大的挑戰(zhàn) 是如何從有限的數(shù)據(jù)中有效的估算出最佳的歸整因子。傳統(tǒng)相當(dāng)多的方法是基于最 大似然估計(jì)的兩遍解碼的方法,通過對歸整前聲學(xué)特征進(jìn)行一遍解碼得到說話人說 話內(nèi)容,用說話內(nèi)容的文本信息和不同歸整因子(通常是以一定歩長遍歷)歸整后 的特征在聲學(xué)模型上做強(qiáng)制性對齊,用似然值最大的歸整因子作為該人的最佳歸整 因子。這種方法能取得很不錯(cuò)的效果,但是需要兩遍解碼時(shí)間。文獻(xiàn),L. Lee et al."Speaker Normalization using Efficient Frequency Warping Procedures," ICASSP96 (1996),提出了一些較為成功的方法。對于訓(xùn)練數(shù)據(jù),他們提出了一種跌代的方法,用一半訓(xùn)練數(shù)據(jù)訓(xùn)練一個(gè)聲學(xué)模型,拿這個(gè)聲學(xué)模型估算另外一半數(shù)據(jù)的歸整因子, 然后用歸整后的數(shù)據(jù)在原來的聲學(xué)模型上重新估算新的聲學(xué)模型。測試的時(shí)提出了 一種文本無關(guān)的方法,選用了歸整因子相關(guān)的GMM (Gaussian Mixture Model)模型, 省掉了第一遍解碼時(shí)間。上述求歸整因子方法都是說話人相關(guān),文獻(xiàn),S.Wegmannet al. "Speaker Normalization on Conversational Telephone Speech" ICASSP96 (1996),提 出了一種快速的句子相關(guān)的聲道長度歸整方法,讓聲道長度歸整方法可以在半離線 下工作提供了可能?,F(xiàn)在報(bào)道的方法都取得了很不錯(cuò)的識別效果,但是這些方法多 少有一定的局限性,都需要一定量先驗(yàn)數(shù)據(jù),所以只能工作在離線或者半離線的方 式下,難以應(yīng)用于實(shí)際的系統(tǒng)中。在實(shí)際的系統(tǒng)中,特別是在線的系統(tǒng),說話人信 息和說話的內(nèi)容是未知的,而且系統(tǒng)不能容許比較長的延時(shí),現(xiàn)有的方法中難以找 到一個(gè)合適的解決方案,所以很難用上聲道長度歸整技術(shù)。

發(fā)明內(nèi)容
本發(fā)明的目的在于克服已有技術(shù)的缺陷,提供一種讓聲道長度歸整技術(shù)能應(yīng) 用在在線的語音識別系統(tǒng)中的快速可在線應(yīng)用的聲道長度歸整方法。
本發(fā)明的目的是這樣實(shí)現(xiàn)的-
本發(fā)明的快速可在線應(yīng)用的聲道長度歸整方法,包括訓(xùn)練階段和測試階段,具 體步驟如下
1) 在訓(xùn)練階段訓(xùn)練一個(gè)與聲道長度無關(guān)的歸整后的聲學(xué)模型;
2) 根據(jù)不同的歸整因子對訓(xùn)練數(shù)據(jù)分類,訓(xùn)練多類GMM;
3) 測試時(shí)分段在多類GMM打分,快速計(jì)算聲道長度歸整因子;
4) 根據(jù)識別系統(tǒng)的實(shí)時(shí)性需求選擇不同的段數(shù),更新聲道長度歸整因子;
5) 用聲道長度歸整后的聲學(xué)模型對歸整后的聲學(xué)特征解碼。 本發(fā)明的快速可在線應(yīng)用的聲道長度歸整方法流程如圖1所示。
在圖1中,左邊是聲道長度歸整聲學(xué)模型訓(xùn)練部分流程,右邊是測試部分流程。
其中聲學(xué)模型訓(xùn)練部分訓(xùn)練中應(yīng)用聲道長度歸整技術(shù)的目的是訓(xùn)練一個(gè)與說話 人聲道長度無關(guān)的聲學(xué)模型,從而消除說話人聲道長度的影響。訓(xùn)練聲學(xué)模型時(shí), 由于訓(xùn)練的文本是已知的,主要面臨的問題是未知的最佳歸整因子和未知的模型參 數(shù)。基于最大似然估計(jì)的方法求最佳歸整因子時(shí),需要用到歸整后的聲學(xué)模型,而 現(xiàn)在沒有歸整后的模型。 一般的做法就是認(rèn)為最佳歸整因子能通過某種函數(shù)事先算 出,然后用最佳歸整因子計(jì)算歸整特征,然后訓(xùn)練聲學(xué)模型。在實(shí)際應(yīng)用中,本發(fā) 明選用了單高斯聲學(xué)模型來代替歸整后的聲學(xué)模型來算最佳歸整因子,主要是認(rèn)為單高斯聲學(xué)模型描述的性能較混合高斯模型差一點(diǎn),而更能描述語音信號的本來屬 性。用未歸整的訓(xùn)練數(shù)據(jù)訓(xùn)練一個(gè)單高斯的聲學(xué)模型,用該模型對不同的歸整因子 和標(biāo)注文本做強(qiáng)制性對齊。歸整因子通常在一定的范圍(0.8 1.20)中以某種步長 (0.02)進(jìn)行遍歷。
本發(fā)明的方法中訓(xùn)練主要分為三步,具體如下
1) 用歸整前的聲學(xué)特征訓(xùn)練一個(gè)單高斯聲學(xué)模型。
6。 ^ argmax(max尸(X |『;0)} ""
e" 、"j
其中《單高斯聲學(xué)模型;r=l, ..., R說話人數(shù)目,X歸整前的聲學(xué)特征, 『對應(yīng)說話內(nèi)容的標(biāo)注文本。
2) 對于每個(gè)說話人選一個(gè)最佳歸整因子。
ar = argmaxI J^;e。) (丄2)
a 、 ■ 乂
其中r^1, ..., R說話人數(shù)目,"/說話人r對應(yīng)的最佳歸整因子;Jf,"說 話人r對應(yīng)的用歸整因子《歸整后的聲學(xué)特征;『,說話人r對應(yīng)說話內(nèi)容的標(biāo)注 文本。
3) 用歸整后的聲學(xué)特征訓(xùn)練聲學(xué)模型W。
0'=argmaxJJmaxP(I, |^;<9) (1 3)
其中W歸整后聲學(xué)模型; 本發(fā)明的方法中測試過程流程
與訓(xùn)練部分相比,測試時(shí)已經(jīng)有歸整后的聲學(xué)模型,但是其中說話人的信息和 說話內(nèi)容及其最佳歸整因子是未知的。原來一般的做法是說話人的信息可以通過聚
類得到,具體的說話內(nèi)容可以先通過一遍解碼,然后通過公式1.2計(jì)算出每個(gè)人最佳 歸整因子。但是在實(shí)際的在線系統(tǒng)中,這種處理方法計(jì)算量大且有延時(shí),基本上是 不可接受的。通常說話人的信息是不知道的而且是難以獲得的,所以測試時(shí)算歸整 因子時(shí)一般以句子為單位。由于說話人的聲道長度跟說話的具體內(nèi)容沒有關(guān)系,能 通過說話人的語音直接得到說話人的聲道長度歸整因子。測試中,我們選用了文本 無關(guān)的方法求最佳歸整因子,就是不依賴說話人說話的內(nèi)容而只根據(jù)相應(yīng)的聲學(xué)特 征直接估算出最佳歸整因子。首先,在訓(xùn)練中把歸整前的特征根據(jù)它所對應(yīng)的最佳歸整因子分類,然后訓(xùn)練 混合高斯模型(GMM) "a ,具體流程如圖2所示
<formula>formula see original document page 8</formula> (1 4)
其中義a是歸整前對應(yīng)歸整因子為"的聲學(xué)特征。
其次,在識別過程中,用歸整前聲學(xué)特征在混合高斯模型上的最大似然值對應(yīng)
的歸整因子作為它的最佳歸整因子a':
<formula>formula see original document page 8</formula>
其中。,《, A,《, a^分別為模型A的權(quán)重,均值,方差。 然后,對歸整后的特征解碼
『 a 其中『是識別結(jié)果,X"為用歸整因子a歸整后的特征。
由于語音中的靜音段不含有任何說話人聲道長度的信息,它們甚至可能影響最
佳歸整因子的計(jì)算。所以在訓(xùn)練GMM模型時(shí)根據(jù)語音能量的大小去除了訓(xùn)練數(shù)據(jù)
中的靜音段。測試中計(jì)算歸整因子如圖3所示,初試化"=1,每隔11 = 5幀判斷
是否是靜音段,如果不是靜音,在GMM模型上算累積概率,累積概率最大值作為 此時(shí)的歸整因子。通過對所隔幀數(shù)n的選擇,可以控制系統(tǒng)的延時(shí)和實(shí)時(shí)性。
本發(fā)明的優(yōu)點(diǎn)在于
本發(fā)明的方法可以根據(jù)識別系統(tǒng)對實(shí)時(shí)性的要求,對測試語音可以選擇分段的 長度,從而讓聲道長度歸整技術(shù)應(yīng)用于在線的系統(tǒng)中。分段的目的就是消除判斷不 準(zhǔn)確的靜音的影響,又不至于把連續(xù)語音按幀拆的太分散而影響聲學(xué)動(dòng)態(tài)特征差分 的值,同時(shí)還可以根據(jù)段的情況加不同的權(quán)重。


圖1是聲道長度歸整系統(tǒng);
圖2是GMM訓(xùn)練流程;
圖3是測試時(shí)的歸整因子計(jì)算流程。
具體實(shí)施例方式
下面結(jié)合附圖和實(shí)施例對本發(fā)明進(jìn)行詳細(xì)地說明。
參考圖l,訓(xùn)練階段,得到一個(gè)聲道長度無關(guān)的聲學(xué)模型和測試時(shí)用于快速算歸 整因子的GMM模型。
1. 用歸整前的聲學(xué)特征一個(gè)單高斯的聲學(xué)模型;
^三ai"gmax(maxP(II『;。〉,訓(xùn)練的具體流程同原來聲學(xué)模型的過程,區(qū)
別是在EM跌代的過程中沒有進(jìn)行高斯分裂,最后的模型是和原來的同狀態(tài)單高斯 模型。單高斯聲學(xué)模型描述的性能較混合高斯模型差一點(diǎn),而更能描述語音信號的 本來屬性。用這個(gè)單高斯模型計(jì)算訓(xùn)練數(shù)據(jù)每個(gè)人所對應(yīng)的最佳歸整因子。
2. 在單高斯聲學(xué)模型上計(jì)算每個(gè)人的歸整因子,用最佳歸整因子提取聲學(xué)特征; 根據(jù)訓(xùn)練數(shù)據(jù)標(biāo)注文本,整理出說話人相關(guān)的列表。用單高斯聲學(xué)模型對每個(gè)人
的不同歸整因子數(shù)據(jù)做強(qiáng)制性對齊,選取似然概率最大的作為該人的最佳歸整因子。 "r-argmax; (v^"lf^;A),"范圍是從0.80到L20,步長是o.02。
3. 用歸整后聲學(xué)特征訓(xùn)練聲學(xué)模型。
^-arg「axnm嚴(yán)^"' ,訓(xùn)練具體流程同原來聲學(xué)模型的訓(xùn)練過程。
4. 根據(jù)不同的歸整因子訓(xùn)練多類GMM,如l-2所示。 在訓(xùn)練GMM前根據(jù)語音中能量的大小去掉了語音中的可能是靜音部分。由于歸
整因子在0.88以下和1.12以上數(shù)據(jù)非常少,在訓(xùn)練GMM時(shí)僅選取了 0.88-1.12段作
為不同的類。
測試階段
1)語音信號端點(diǎn)檢測,分句;
根據(jù)聲學(xué)環(huán)境的變化點(diǎn)將音頻流切分成聲學(xué)特征單一的片段并使用靜音跟蹤算法將較長的片段切分為適合識別的句子。
2) 初始化歸整因子為1;
由于開始沒有任何先驗(yàn)知識,我們選用了歸整因子為1,就是不做聲道長度歸整。
3) 每5幀,判斷靜音或語音,如果是語音則在GMM上算累積似然值,更新現(xiàn) 在最佳歸整因子;
語音中的靜音段不含有任何說話人聲道長度的信息,它們甚至可能影響最佳歸整 因子的計(jì)算。每隔n-5幀判斷是否是靜音段,如果不是靜音,在GMM模型上算累 積概率,累積概率最大值作為此時(shí)的歸整因子。分段的目的就是消除判斷不準(zhǔn)確的 靜音的影響,又不至于把連續(xù)語音按幀拆的太分散,同時(shí)還可以根據(jù)段的情況加不 同的權(quán)重。
另外,通過對所隔幀數(shù)n (3<n<15)的選擇,可以控制系統(tǒng)的實(shí)時(shí)性。
4) 如果離線系統(tǒng),最后累積概率最大的歸整因子作為該句歸整因子;如果在線 系統(tǒng),大于設(shè)定的長度,用此時(shí)累積概率最大的歸整因子歸整;
5) 用歸整后的聲學(xué)特征解碼。
權(quán)利要求
1、一種快速可在線應(yīng)用的聲道長度歸整方法,包括訓(xùn)練階段和測試階段,具體步驟如下1)在訓(xùn)練階段訓(xùn)練一個(gè)與聲道長度無關(guān)的歸整后的聲學(xué)模型;2)根據(jù)不同的歸整因子對訓(xùn)練數(shù)據(jù)分類,訓(xùn)練多類混合高斯模型;3)測試時(shí)分段在多類混合高斯模型打分,快速計(jì)算聲道長度歸整因子;4)根據(jù)識別系統(tǒng)的實(shí)時(shí)性需求選擇不同的段數(shù),更新聲道長度歸整因子;5)用聲道長度歸整后的聲學(xué)模型對歸整后的聲學(xué)特征解碼。
2、 按權(quán)利要求l所述的快速可在線應(yīng)用的聲道長度歸整方法,其特征在于,所 述訓(xùn)練階段的流程如下1) 用歸整前的聲學(xué)特征訓(xùn)練一個(gè)單高斯聲學(xué)模型eo ^ argmax(max尸(義|『;<9)} nn其中《為單高斯聲學(xué)模型;r=l,..., R為說話人數(shù)目,義為歸整前的聲學(xué)特征,『為對應(yīng)說話內(nèi)容的標(biāo)注文本;2) 在單高斯聲學(xué)模型上計(jì)算每個(gè)人的歸整因子,用最佳歸整因子提取聲學(xué)特征,對于每個(gè)說話人選一個(gè)最佳歸整因子-<formula>formula see original document page 2</formula>|(1 2) 其中r-l, ..., R為說話人數(shù)目,a,為說話人r對應(yīng)的最佳歸整因子;為說話人r對應(yīng)的用歸整因子a歸整后的聲學(xué)特征;『,為說話人r對應(yīng)說話內(nèi)容 的標(biāo)注文本;3) 用歸整后的聲學(xué)特征訓(xùn)練聲學(xué)模型6>':<9'=argmax]"f max尸(義,"3、其中w為歸整后聲學(xué)模型。
3、 按權(quán)利要求2所述的快速可在線應(yīng)用的聲道長度歸整方法,其特征在于,所 述歸整因子a的范圍是0.80 1.20,步長是0.02。
4、 按權(quán)利要求2所述的快速可在線應(yīng)用的聲道長度歸整方法,其特征在于,所 述歸整因子a的范圍是0.88 U2。
5、 按權(quán)利要求l所述的快速可在線應(yīng)用的聲道長度歸整方法,其特征在于,所 述測試階段的流程如下首先,在訓(xùn)練中把歸整前的特征根據(jù)它所對應(yīng)的最佳歸整因子分類,然后訓(xùn)練混合高斯模型汐a:<formula>formula see original document page 3</formula>其中Xa是歸整前對應(yīng)歸整因子為a的聲學(xué)特征;其次,在識別過程中,用歸整前聲學(xué)特征在混合高斯模型上的最大似然值對應(yīng)的歸整因子作為它的最佳歸整因子a':<formula>formula see original document page 3</formula>其中。,《,八,《, t^"分別為模型&的權(quán)重,均值,方差; 然后,對歸整后的特征解碼-<formula>formula see original document page 3</formula>其中『是識別結(jié)果,X"為用歸整因子a歸整后的特征。
6、按權(quán)利要求5所述的快速可在線應(yīng)用的聲道長度歸整方法,其特征在于,所 述測試階段的具體步驟如下1)語音信號端點(diǎn)檢測,分句根據(jù)聲學(xué)環(huán)境的變化點(diǎn)將音頻流切分成聲學(xué)特征單一的片段并使用靜音跟蹤算法將較長的片段切分為適合識別的句子;2) 初始化歸整因子為1;3) 每n幀,判斷靜音或語音,如果是語音則在混合高斯模型上算累積似然值, 更新現(xiàn)在最佳歸整因子;4) 如果離線系統(tǒng),最后累積概率最大的歸整因子作為該句歸整因子;如果在線 系統(tǒng),大于設(shè)定的長度,用此時(shí)累積概率最大的歸整因子歸整;5) 用歸整后的聲學(xué)特征解碼。
7、按權(quán)利要求6所述的快速可在線應(yīng)用的聲道長度歸整方法,其特征在于,所 述幀數(shù)11的范圍是3<11<15。
全文摘要
本發(fā)明涉及一種快速可在線應(yīng)用的聲道長度歸整方法,包括如下步驟1)在訓(xùn)練階段訓(xùn)練一個(gè)與聲道長度無關(guān)的歸整后的聲學(xué)模型;2)根據(jù)不同的歸整因子對訓(xùn)練數(shù)據(jù)分類,訓(xùn)練多類GMM;3)測試時(shí)分段在多類GMM打分,快速計(jì)算聲道長度歸整因子;4)根據(jù)識別系統(tǒng)的實(shí)時(shí)性需求選擇不同的段數(shù),更新聲道長度歸整因子;5)用聲道長度歸整后的聲學(xué)模型對歸整后的聲學(xué)特征解碼。本發(fā)明的方法可以根據(jù)識別系統(tǒng)對實(shí)時(shí)性的要求,對測試語音可以選擇分段的長度,從而讓聲道長度歸整技術(shù)應(yīng)用于在線的系統(tǒng)中。分段是為了消除判斷不準(zhǔn)確的靜音的影響,又不至于把連續(xù)語音按幀拆的太分散而影響聲學(xué)動(dòng)態(tài)特征差分的值,同時(shí)還可以根據(jù)段的情況加不同的權(quán)重。
文檔編號G10L15/00GK101447182SQ20081009798
公開日2009年6月3日 申請日期2008年5月21日 優(yōu)先權(quán)日2007年11月28日
發(fā)明者劉趙杰, 潘接林, 趙慶衛(wèi), 顏永紅 申請人:中國科學(xué)院聲學(xué)研究所;北京中科信利技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1