專利名稱:用于語言學(xué)習(xí)機(jī)的發(fā)音質(zhì)量評價方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計(jì)算機(jī)輔助語言學(xué)習(xí)和語音技術(shù)領(lǐng)域,尤其涉及采用16位及以上的數(shù)字信號處理芯片實(shí)現(xiàn)的發(fā)音質(zhì)量評價方法。
背景技術(shù):
近年來,嵌入式語言學(xué)習(xí)產(chǎn)品在國內(nèi)外發(fā)展迅速。早期主要是復(fù)讀機(jī),它是在一臺模擬磁帶錄音機(jī)上附加一個可將一小段語音數(shù)字化存儲的裝置,這一小段語音可以多次重復(fù)放音,利于學(xué)習(xí)者反復(fù)聽音,跟讀記憶。目前市場上主流的語言學(xué)習(xí)機(jī)是采用數(shù)字信號處理芯片(DSP,Digital Signal Processing)技術(shù)的第二代產(chǎn)品。硬件系統(tǒng)一般包括微控制器(Micro Control Unit,MCU)、數(shù)字信號處理芯片(DSP)、多媒體數(shù)字信號編解碼器(CODEC)、ROM、SRAM、快閃存儲器(Flash Memory)、通用串行總線(USB)、鍵盤和液晶顯示器(Liquid Crystal Display,LCD)等;其中MCU作為主控芯片,執(zhí)行設(shè)備驅(qū)動和程序調(diào)度等系統(tǒng)控制程序,DSP執(zhí)行應(yīng)用算法程序。應(yīng)用程序包括錄音、放音、語速調(diào)節(jié)等基本模塊,有些產(chǎn)品還帶有mp3模塊。功能上具有復(fù)讀,跟讀,跟讀對比,文字同步顯示,內(nèi)容檢索查詢和語速可調(diào)節(jié)的放音等。這類學(xué)習(xí)機(jī)大多可以通過互聯(lián)網(wǎng)下載和更新學(xué)習(xí)材料。深圳好記星公司的好記星英語學(xué)習(xí)機(jī)是第二代數(shù)字式英語學(xué)習(xí)機(jī)的典型代表。
學(xué)習(xí)語言尤其是學(xué)習(xí)口語關(guān)鍵在于互動的學(xué)習(xí)過程,即在學(xué)習(xí)過程中教師及時地有針對性地評判和指導(dǎo)。然而在傳統(tǒng)的以教師為中心的語言學(xué)習(xí)中,由于師資力量的缺乏,這一任務(wù)無法完成。而現(xiàn)有的語言學(xué)習(xí)機(jī)又都不具備這種評價學(xué)習(xí)者發(fā)音的能力。
發(fā)明內(nèi)容
本發(fā)明的目的是為克服已有技術(shù)的不足之處,提出一種用于語言學(xué)習(xí)機(jī)的發(fā)音質(zhì)量評價方法,可在嵌入式語言學(xué)習(xí)機(jī)上的實(shí)現(xiàn)高性能的文本和說話人無關(guān)的發(fā)音質(zhì)量評價,具有方法復(fù)雜度適中、評價準(zhǔn)確度高和穩(wěn)健性好的特點(diǎn)。特別是對漢語口音的人群的評價準(zhǔn)確性達(dá)到、甚至超過了當(dāng)前的國際先進(jìn)水平。
本發(fā)明提出的用于語言學(xué)習(xí)機(jī)的發(fā)音質(zhì)量評價方法,包括用于訓(xùn)練的語音特征提取,標(biāo)準(zhǔn)發(fā)音模型訓(xùn)練,標(biāo)準(zhǔn)發(fā)音網(wǎng)絡(luò)的生成,語音端點(diǎn)檢測,用于評價的語音特征提取,最優(yōu)路徑搜索,以及發(fā)音質(zhì)量分?jǐn)?shù)的計(jì)算各部分;其特征在于,各部分的實(shí)現(xiàn)方法具體包括以下步驟A、用于訓(xùn)練的語音特征提取(1)預(yù)先建立包含大量朗讀語音的訓(xùn)練數(shù)據(jù)庫;(2)對所說的訓(xùn)練數(shù)據(jù)庫中的每個語音文件中的數(shù)字語音進(jìn)行預(yù)加重和分幀加窗處理,得到具有準(zhǔn)平穩(wěn)性的分幀語音;(3)對所說的分幀語音提取語音特征,該語音特征為倒譜系數(shù);B、標(biāo)準(zhǔn)發(fā)音模型訓(xùn)練(1)利用步驟A所說的語音特征訓(xùn)練得到基于音素的標(biāo)準(zhǔn)發(fā)音模型;(2)對所說的標(biāo)準(zhǔn)發(fā)音模型進(jìn)行漢語人群口音的自適應(yīng)作為最終的標(biāo)準(zhǔn)發(fā)音模型,優(yōu)化模型對漢語人群的評價性能;C、標(biāo)準(zhǔn)發(fā)音網(wǎng)絡(luò)的生成對給定的文本進(jìn)行單詞切分,查找發(fā)音字典得到音素標(biāo)注,最后利用所說的基于音素的標(biāo)準(zhǔn)發(fā)音模型得到以狀態(tài)為節(jié)點(diǎn)的線性標(biāo)準(zhǔn)發(fā)音網(wǎng)絡(luò);D、語音端點(diǎn)檢測(1)模擬語音信號經(jīng)過A/D變換,得到數(shù)字語音;(2)對所說的數(shù)字語音進(jìn)行預(yù)加重和分幀加窗處理,得到具有準(zhǔn)平穩(wěn)性的分幀語音;(3)對所說的分幀語音計(jì)算得到時域?qū)?shù)能量;(4)采用滑動平均濾波(moving-average filter)的方法由所說的時域?qū)?shù)能量得到用于端點(diǎn)檢測的特征(以下簡稱為端檢特征);(5)采用上限和下限雙閾值和有限狀態(tài)機(jī)結(jié)合的方法,對所說的端檢特征進(jìn)行端點(diǎn)檢測,得到語音的起始和結(jié)束端點(diǎn);E、用于評價的語音特征提取對步驟D所說的分幀語音提取語音特征,過程與步驟A的第(3)步相同。
F、最優(yōu)路徑搜索(1)將步驟E所說的語音特征與步驟C所說的標(biāo)準(zhǔn)發(fā)音網(wǎng)絡(luò)進(jìn)行強(qiáng)制匹配,得到網(wǎng)絡(luò)中所有可能的路徑信息;(2)利用所說的路徑信息,從網(wǎng)絡(luò)允許的終止節(jié)點(diǎn)回溯出最優(yōu)路徑;G、發(fā)音質(zhì)量分?jǐn)?shù)的計(jì)算(1)利用步驟F中所說的最優(yōu)路徑信息計(jì)算得到每幀語音特征的置信分?jǐn)?shù);(2)利用步驟F中所說的最優(yōu)路徑信息計(jì)算路徑上每個狀態(tài)的置信分?jǐn)?shù);對最優(yōu)路徑上所有狀態(tài)的置信分?jǐn)?shù)取平均得到整句的置信分?jǐn)?shù);(3)利用映射函數(shù)將所說的整句置信分?jǐn)?shù)映射到主觀評價分?jǐn)?shù)區(qū)間,得到最終的發(fā)音質(zhì)量分?jǐn)?shù)。
所說的步驟A中的倒譜系數(shù)可以為美爾頻標(biāo)倒譜系數(shù)(MFCC,Mel-FrequencyCepstrum Coefficients),它利用了人耳的頻率分辨特性。
所說的步驟B(1)中的標(biāo)準(zhǔn)發(fā)音模型為基于音素的隱含馬爾可夫模型(HMM,HiddenMarkov Model),該模型的具體訓(xùn)練過程為采用所有語音特征初始化一個高斯模型,利用這個模型復(fù)制出所有的音素模型,采用Baum-Welth的方法對模型進(jìn)行多次訓(xùn)練。不斷增加每個音素模型的高斯成分的數(shù)量,重新進(jìn)行Baum-Welth訓(xùn)練。
所說的步驟B(2)中的對標(biāo)準(zhǔn)發(fā)音模型進(jìn)行漢語人群口音的自適應(yīng)的實(shí)現(xiàn)方法為對得到的標(biāo)準(zhǔn)發(fā)音模型進(jìn)行基于最大似然線性回歸(Maximum Likelihood LinearRegression,MLLR)和最大后驗(yàn)概率(Maximum A Posteriori,MAP)方法的口音自適應(yīng),得到最終的標(biāo)準(zhǔn)發(fā)音模型。
所說的步驟C的標(biāo)準(zhǔn)發(fā)音網(wǎng)絡(luò)可為一個具有確定的起始節(jié)點(diǎn)和終止節(jié)點(diǎn),當(dāng)前節(jié)點(diǎn)只與其前序節(jié)點(diǎn)相關(guān)的不考慮文法的以HMM的狀態(tài)為節(jié)點(diǎn)的線性網(wǎng)絡(luò)。
所說的步驟F的最優(yōu)路徑搜索的方法采用了幀同步維特比(Viterbi)束搜索的方法。
為能夠在嵌入式系統(tǒng)的有限內(nèi)存資源上實(shí)現(xiàn)本發(fā)明的發(fā)音質(zhì)量評價方法,步驟D、E、F和G都是以預(yù)先設(shè)定的固定幀數(shù)步長在時間上分段進(jìn)行的,這樣可大大降低對系統(tǒng)資源的要求,使得嵌入式學(xué)習(xí)系統(tǒng)能夠處理比較長的語音;本發(fā)明的發(fā)音質(zhì)量評價方法使得語言學(xué)習(xí)機(jī)具有了交互功能。利用該方法實(shí)現(xiàn)的嵌入式英語學(xué)習(xí)系統(tǒng)在實(shí)際應(yīng)用中取得了較好的性能。
本發(fā)明具有如下特點(diǎn)(1)本發(fā)明具有評價準(zhǔn)確性高、穩(wěn)健性好、系統(tǒng)資源開銷小等特點(diǎn);(2)采用基于音素的標(biāo)準(zhǔn)發(fā)音模型,使得嵌入式學(xué)習(xí)系統(tǒng)可以方便的更改課件內(nèi)容,無需重新訓(xùn)練;(3)考慮到母語口音對英語發(fā)音的影響,對音素模型進(jìn)行了口音自適應(yīng);(4)采用滑動平均濾波和有限狀態(tài)機(jī)等技術(shù)進(jìn)行實(shí)時的端點(diǎn)檢測,提高了端點(diǎn)檢測對英語語音的準(zhǔn)確性和穩(wěn)健性;(5)可用于基于以DSP為核心的嵌入式語言學(xué)習(xí)系統(tǒng),具有體積小、重量輕、耗電省、成本低的突出特點(diǎn);(6)本發(fā)明的發(fā)音質(zhì)量評價方法,結(jié)合豐富的課件形式,可以改變傳統(tǒng)的學(xué)習(xí)機(jī)工作模式以及課堂教學(xué)模式。
圖1為本發(fā)明實(shí)施例的方法總體流程示意圖。
圖2為本發(fā)明實(shí)施例的標(biāo)準(zhǔn)發(fā)音模型訓(xùn)練流程圖;圖2(a)表示標(biāo)準(zhǔn)發(fā)音模型訓(xùn)練的全過程,圖2(b)表示一個特定隱含馬爾可夫模型的訓(xùn)練過程。
圖3為本發(fā)明實(shí)施例的標(biāo)準(zhǔn)發(fā)音模型的拓?fù)浣Y(jié)構(gòu)圖;圖3(a)表示停頓模型,圖3(b)表示音素和靜音模型。
圖4為本發(fā)明實(shí)施例的隱含馬爾可夫模型口音自適應(yīng)流程圖。
圖5為本發(fā)明實(shí)施例的標(biāo)準(zhǔn)發(fā)音網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)示意圖;圖5(a)表示整句以單詞為節(jié)點(diǎn)的線性網(wǎng)絡(luò)結(jié)構(gòu),圖5(b)表示每一個單詞以音素為節(jié)點(diǎn)的線性網(wǎng)絡(luò)結(jié)構(gòu)。
圖6為本發(fā)明實(shí)施例的標(biāo)準(zhǔn)發(fā)音網(wǎng)絡(luò)的生成過程示意圖。
圖7為本發(fā)明實(shí)施例的在嵌入式平臺上實(shí)現(xiàn)的發(fā)音質(zhì)量評價方法的詳細(xì)流程圖。
具體實(shí)施例方式
本發(fā)明提出的一種用于語言學(xué)習(xí)機(jī)的發(fā)音質(zhì)量評價方法實(shí)施例結(jié)合各圖詳細(xì)說明如下
本發(fā)明方法的實(shí)施例總體流程如圖1所示,分為A、用于訓(xùn)練的語音特征提??;B、標(biāo)準(zhǔn)發(fā)音模型的訓(xùn)練;C、標(biāo)準(zhǔn)發(fā)音網(wǎng)絡(luò)的生成(以上各步驟可事先利用計(jì)算機(jī)完成);D、語音端點(diǎn)檢測;E、用于評價的語音特征提??;F、最優(yōu)路徑搜索;G、發(fā)音質(zhì)量分?jǐn)?shù)的計(jì)算和輸出(以上各步驟利用嵌入式平臺完成)。每個步驟的實(shí)施例詳細(xì)說明如下。
A、用于訓(xùn)練的語音特征提取(1)預(yù)先建立包含大量英語朗讀語音的訓(xùn)練數(shù)據(jù)庫(要求包含的內(nèi)容對每一個音素都有一定數(shù)量的覆蓋);(2)對所說的訓(xùn)練數(shù)據(jù)庫中的每個語音文件中的數(shù)字語音進(jìn)行預(yù)加重處理,預(yù)加重濾波器取為H(z)=1-0.9375z-1;對預(yù)加重后的語音進(jìn)行分幀加窗(采用哈明窗)處理,幀長可為32ms,幀移可為16ms,得到具有準(zhǔn)平穩(wěn)性的分幀語音;(3)對所說的分幀語音提取美爾頻標(biāo)倒譜系數(shù)(MFCC)作為語音特征;語音的短時頻域特征能精確描述語音的變化,MFCC是根據(jù)人耳聽覺的頻率分辨特性計(jì)算出來的一種特征矢量,建立在傅立葉頻譜分析的基礎(chǔ)上,MFCC的計(jì)算方法為首先對分幀語音進(jìn)行快速傅立葉變換(Fast Fourier Transformation,F(xiàn)FT)得到信號的短時頻譜,其次根據(jù)MEL頻標(biāo)把短時頻譜等分成若干個帶通組,其帶通的頻率響應(yīng)為三角形,再次計(jì)算相應(yīng)濾波器組的信號能量,最后通過離散余弦變換計(jì)算對應(yīng)的倒譜系數(shù);MFCC特征主要反映語音的靜態(tài)特征,語音信號的動態(tài)特征可以用靜態(tài)特征的一階差分譜和二階差分譜來描述。整個語音特征由MFCC參數(shù)、MFCC一階、二階差分系數(shù)、歸一化能量系數(shù)及其一階、二階差分系數(shù)構(gòu)成。每幀共包含39維特征;B、標(biāo)準(zhǔn)發(fā)音模型的訓(xùn)練(1)利用步驟A所說的語音特征訓(xùn)練基于音素的標(biāo)準(zhǔn)發(fā)音模型的過程,如圖2所示a、根據(jù)語音特征的維數(shù)建立一個協(xié)方差矩陣為對角形式的單數(shù)據(jù)流的多維高斯分布的原型,使用全部的語音數(shù)據(jù)估計(jì)該高斯分布的均值矢量和協(xié)方差矩陣。
b、確定發(fā)音字典和音標(biāo)體系,完成對所有語音的音素級標(biāo)注,本實(shí)施例的音標(biāo)體系包括40個音素以及1個靜音標(biāo)識、1個停頓標(biāo)識。
c、本實(shí)施例采用基于音素的隱含馬爾可夫模型(HMM)作為標(biāo)準(zhǔn)發(fā)音模型,HMM是目前被廣泛采用的統(tǒng)計(jì)語音識別模型。HMM從左向右的狀態(tài)轉(zhuǎn)移模型,能夠很好地描敘語音的發(fā)音特點(diǎn)。本發(fā)明采用的音素和靜音模型為3狀態(tài)的HMM,停頓模型為單狀態(tài)可跨越的HMM,其拓?fù)浣Y(jié)構(gòu)如圖3所示。其中qi表示HMM的狀態(tài)。aij表示HMM的跳轉(zhuǎn)概率。bj(Ot)為HMM模型的狀態(tài)輸出的多流混合高斯密度概率分布函數(shù)。如式(1)所示。
bj(Ot)=Πs=1s[Σm=1MsCjsmN(Ost;μjsm;φjsm)]γs---(1)]]>
其中S是數(shù)據(jù)的流數(shù),Ms是每一數(shù)據(jù)流中的混合高斯密度分布的個數(shù);N為多維高斯分布,如式(2)所示N(o;μ;φ)=1(2π)n|φ|e-12(o-μ)φ-1(o-μ)---(2)]]>本實(shí)施例的標(biāo)準(zhǔn)發(fā)音模型包括40個音素HMM模型以及一個靜音HMM模型、一個停頓HMM模型;將所說的高斯分布原型復(fù)制成各個HMM模型;然后利用Baum-Welch算法對每個HMM模型進(jìn)行多次估值,估值次數(shù)可為5;d、逐步增加HMM模型中高斯成分的數(shù)量,對得到的模型再次進(jìn)行Baum-Welch訓(xùn)練;高斯成分的數(shù)量增加依次為2、4、6、8;當(dāng)高斯數(shù)量增長到8時,重復(fù)訓(xùn)練10次,訓(xùn)練過程結(jié)束。
(2)對所說的標(biāo)準(zhǔn)發(fā)音模型進(jìn)行漢語人群口音的自適應(yīng),本發(fā)明實(shí)施例采用了基于全局MLLR和MAP串行的口音自適應(yīng)方法,自適應(yīng)次數(shù)設(shè)定為4,具體流程如圖4所示。
a、MLLR是一種基于模型變換的自適應(yīng)算法。這一類算法的基本假設(shè)是相近語音在說話人無關(guān)語音模型空間與被適應(yīng)人語音空間之間的變換關(guān)系也是相近的,因此可以利用訓(xùn)練語音中出現(xiàn)過的語音統(tǒng)計(jì)出這一變換關(guān)系,對未出現(xiàn)的語音的模型用該變換實(shí)現(xiàn)從說話人無關(guān)模型到被適應(yīng)人語音空間的映射,從而實(shí)現(xiàn)自適應(yīng)。語音模型空間根據(jù)一定測度(如歐氏距離,似然度等)被劃分為R類,各類的變換為Tr(*),各類對應(yīng)的訓(xùn)練語音集為Xr,r=1,2,...,R,模型參數(shù)為λr,r=1,2,...,R,則自適應(yīng)訓(xùn)練滿足Tr=argmaxT(P(Xr|Tr)),r=1,2...,R---(3)]]>自適應(yīng)后的參數(shù)λ^rr=1,2,...R]]>滿足λ^r=Tr(λr),r=1,2...,R---(4)]]>由于這一類算法充分利用了語音間的相互關(guān)系,多個模型共享一個變換,需要估計(jì)的參數(shù)是各個變換的系數(shù),較容易積累數(shù)據(jù)估計(jì)參數(shù)可以在較少自適應(yīng)數(shù)據(jù)情況下生效,因此具有較快的自適應(yīng)速度。本發(fā)明實(shí)施例采用的是未分類的全局MLLR自適應(yīng)。
b、MAP算法的基本準(zhǔn)則是后驗(yàn)概率最大化,因此具有理論上的最優(yōu)性θ^i=argmaxθiP(θi|x)---(5)]]>標(biāo)準(zhǔn)MAP算法的均值矢量估值公式為μ^=Σt=1TLtΣt=1TLt+τμ_+τΣt=1TLt+τμ---(6)]]>其中Lt是t時刻觀測矢量對該高斯混合分量的概率,τ是自適應(yīng)語音數(shù)據(jù)基于先驗(yàn)知識的權(quán)重,μ是自適應(yīng)語音的均值矢量,μ是說話人無關(guān)模型的均值矢量。由此也可看出,當(dāng)自適應(yīng)數(shù)據(jù)足夠多時,自適應(yīng)后的均值矢量 將趨向于說話人相關(guān)的均值矢量μ。本發(fā)明實(shí)施例在MLLR自適應(yīng)之后又采用MAP自適應(yīng)的目的是充分利用自適應(yīng)的語音數(shù)據(jù),進(jìn)一步提供口音自適應(yīng)的效果。
將最終得到的標(biāo)準(zhǔn)發(fā)音模型存入嵌入式系統(tǒng)的外部存儲器。
C、標(biāo)準(zhǔn)發(fā)音網(wǎng)絡(luò)的生成本發(fā)明實(shí)施例的標(biāo)準(zhǔn)發(fā)音網(wǎng)絡(luò)如圖5所示,其中(a)為以單詞為節(jié)點(diǎn)的線性網(wǎng)絡(luò)示例,起始節(jié)點(diǎn)為開始的“sil”,終止節(jié)點(diǎn)為最后的“sil”,(b)為每個單詞內(nèi)部的以音素為節(jié)點(diǎn)的線性網(wǎng)絡(luò),每個音素內(nèi)部為如圖3所示的以狀態(tài)為節(jié)點(diǎn)的網(wǎng)絡(luò)。網(wǎng)絡(luò)生成過程如圖6所示首先對原始文本進(jìn)行單詞切分得到如圖5(a)所示,其次對每一個單詞查找發(fā)音字典得到如圖5(b)所示。考慮到單詞的多發(fā)音情況,為節(jié)省存儲空間和提高搜索效率,本實(shí)施例在單詞的多種發(fā)音之間進(jìn)行了基于動態(tài)規(guī)劃的音素字符串比對,將多個音素序列融合成一個以音素為節(jié)點(diǎn)的網(wǎng)絡(luò),使得各個發(fā)音之間的相同音素得到共享。最后利用音素HMM模型將網(wǎng)絡(luò)最終展開成以狀態(tài)為節(jié)點(diǎn)的網(wǎng)絡(luò),每個狀態(tài)節(jié)點(diǎn)上記錄了當(dāng)前節(jié)點(diǎn)的狀態(tài)標(biāo)識、音素標(biāo)識、單詞標(biāo)識以及前序節(jié)點(diǎn)數(shù)目和前序節(jié)點(diǎn)標(biāo)識信息。至此,得到本實(shí)施例的具有確定的起始節(jié)點(diǎn)P和終止節(jié)點(diǎn)T,當(dāng)前節(jié)點(diǎn)只與其前序節(jié)點(diǎn)相關(guān)的不考慮文法的以HMM的狀態(tài)為節(jié)點(diǎn)的標(biāo)準(zhǔn)發(fā)音網(wǎng)絡(luò)。
將所說的標(biāo)準(zhǔn)發(fā)音網(wǎng)絡(luò)存入嵌入式系統(tǒng)的外部存儲器。
D、語音端點(diǎn)檢測(1)語音信號首先進(jìn)行低通濾波,然后通過16bit線性A/D進(jìn)行采樣和量化,成為數(shù)字語音。采樣頻率為8kHz;(2)對所說的數(shù)字語音進(jìn)行預(yù)加重和分幀加窗處理,得到具有準(zhǔn)平穩(wěn)性的分幀語音;方法與步驟A的第(2)步相同;(3)再對所說的分幀語音計(jì)算短時對數(shù)能量。
(4)采用滑動平均濾波的方法由所說的時域?qū)?shù)能量得到端檢特征端點(diǎn)檢測是實(shí)時進(jìn)行的,實(shí)時端點(diǎn)檢測方法需滿足以下要求a、對不同的背景噪聲電平有一致的輸出;b、能夠檢測到起始點(diǎn)和終止點(diǎn);c、較短的延時;d、有限的響應(yīng)區(qū)間;e、在端點(diǎn)處最大化信噪比;f、準(zhǔn)確定位檢測的端點(diǎn);g、最大限度地抑制檢測錯誤;綜合考慮以上要求定義的目標(biāo)函數(shù),和圖像處理中通常采用的圖形邊界檢測函數(shù)(滑動平均濾波)非常相似。所說的滑動平均濾波器如式(7)所示,其中g(shù)(·)是時域?qū)?shù)能量,t為當(dāng)前幀數(shù),h(·)為滑動平均濾波器,如式(8)所示,可見h(·)是一個奇對稱函數(shù),W可取13,f(·)如式(9)所示,其參數(shù)可為A=0.2208,s=0.5383,[K1...K6]=[1.583,1.468,-0.078,-0.036,-0.872,-0.56]。
F(t)=Σi=-WWh(i)g(t+i)---(7)]]>h(i)=-f(-i)-W≤i<0f(i)0≤i≤W---(8)]]>
f(x)=eAx[K1sin(Ax)+K2cos(Ax)]+e-Ax[K3sin(Ax)+K4cos(Ax)]+K5+K6esx(9)(5)采用上限和下限雙閾值和有限狀態(tài)機(jī)結(jié)合的方法,對所說的端檢特征進(jìn)行端點(diǎn)檢測,得到語音的起始和結(jié)束端點(diǎn)所說的端檢特征F(t)在語音的起始端為正值,在結(jié)束端為負(fù)值,在靜音段則接近為零。根據(jù)預(yù)先設(shè)定的上限、下限閾值和語音最短持續(xù)時間,控制每一幀語音在語音、靜音和離開語音狀態(tài)之間進(jìn)行跳轉(zhuǎn)。初始設(shè)定為靜音狀態(tài),當(dāng)F(t)達(dá)到上限閾值時輸出語音的起始端點(diǎn),進(jìn)入語音狀態(tài)。處于語音狀態(tài),當(dāng)F(t)達(dá)到下限閾值時就進(jìn)入了離開語音狀態(tài)。處于離開語音狀態(tài)的時間達(dá)到一個設(shè)定的閾值時輸出語音的結(jié)束端點(diǎn),關(guān)閉錄音通道,端點(diǎn)檢測結(jié)束。
E、用于評價的語音特征提取對步驟D所說的分幀語音提取語音特征,過程與步驟A的第(3)步相同。
F、最優(yōu)路徑搜索(1)將步驟E所說的語音特征與步驟C所說的標(biāo)準(zhǔn)發(fā)音網(wǎng)絡(luò)進(jìn)行強(qiáng)制匹配,得到網(wǎng)絡(luò)中所有可能的路徑信息本發(fā)明實(shí)施例的標(biāo)準(zhǔn)發(fā)音網(wǎng)絡(luò)是自左向后的線性網(wǎng)絡(luò)(如圖5所示),可采用幀同步的維特比束搜索算法得到最優(yōu)路徑。給定HMM模型Φ和觀察矢量序列O={o1,…,oT}后,需要求取產(chǎn)生此觀察矢量序列的最佳狀態(tài)序列S={s1,…sT},即S^=argmaxs{P(S,O|Φ)}---(10)]]>在維特比算法中,定義t時刻的最佳路徑似然度為Vi(t)=P(o1,…,ot,s1,…,st-1,st=i |Φ) (11)在線性網(wǎng)絡(luò)中,任意時刻的最優(yōu)路徑僅和當(dāng)前幀與上一幀的信息相關(guān),即滿足無后效性的原則。因此,如果全局最優(yōu)路徑在t時刻通過節(jié)點(diǎn)i,那么,路徑在0~t時刻之間的部分,一定是在t時刻以節(jié)點(diǎn)i為最終節(jié)點(diǎn)的各條路徑中是最優(yōu)的。如果我們只想獲得最優(yōu)路徑,那么在t時刻,以節(jié)點(diǎn)i為最終節(jié)點(diǎn)的路徑只需要保留一條就足夠了。
根據(jù)上述原則,本實(shí)施例的搜索算法為定義PreNode(i)為節(jié)點(diǎn)i的前序節(jié)點(diǎn)集合。BestPre(t,i)為t時刻節(jié)點(diǎn)i的最優(yōu)前序節(jié)點(diǎn)。L(t,i)為t時刻的語音幀對應(yīng)節(jié)點(diǎn)i的似然分?jǐn)?shù)。L_Path(-1,i)和L_Path(0,i)分別為前一幀和當(dāng)前幀以節(jié)點(diǎn)i為最終節(jié)點(diǎn)的最優(yōu)路徑似然分?jǐn)?shù)。
步驟1在t=0時刻L_Path(-1,i)=L(0,i)i∈Entry0i∉Entry---(12)]]>其中i∈Entry表示i為起始節(jié)點(diǎn)。
步驟2在t時刻,對于任意的節(jié)點(diǎn)i已經(jīng)得到當(dāng)前幀的似然分?jǐn)?shù)L(t,i),則當(dāng)前幀的最優(yōu)路徑分?jǐn)?shù)為L_Path(0,i)=maxj(L_Path(-1,j))+L(t,i),∀j∈PreNode(i)---(13)]]>將最優(yōu)前序節(jié)點(diǎn)記入BestPre(t,i),將L_Path(-1,i)和L_Path(0,i)的數(shù)據(jù)進(jìn)行交換為下一幀的計(jì)算做準(zhǔn)備。
步驟3如果t<T,轉(zhuǎn)到步驟2;否則,結(jié)束。
(2)當(dāng)語音結(jié)束時,可以從網(wǎng)絡(luò)允許得終止節(jié)點(diǎn)回溯BestPre(t,i)獲取到強(qiáng)制匹配的最優(yōu)狀態(tài)路徑;G、發(fā)音質(zhì)量分?jǐn)?shù)的計(jì)算(1)利用步驟F中所說的最優(yōu)路徑信息計(jì)算每幀語音特征的置信分?jǐn)?shù),如式(14)所示Cj=log(p(Oj|si))-log(Σip(Oj|si))---(14)]]>(2)利用步驟F中所說的最優(yōu)路徑信息計(jì)算路徑上每個狀態(tài)的置信分?jǐn)?shù);對最優(yōu)路徑上所有狀態(tài)的置信分?jǐn)?shù)取平均得到整句的置信分?jǐn)?shù),如式(15)所示,其中N為最優(yōu)路徑包含的狀態(tài)數(shù)。
C=Σi=1N(Σj=jsjeCjje-js)N---(15)]]>(3)利用映射函數(shù)將所說的整句置信分?jǐn)?shù)映射到主觀評價分?jǐn)?shù)區(qū)間直接計(jì)算得到的置信分?jǐn)?shù)的取值區(qū)間通常在(-∞,a]之間,其中a為一常數(shù),與主觀評價分?jǐn)?shù)區(qū)間不一致,本發(fā)明實(shí)施例利用分段線性函數(shù)將其映射到主觀分?jǐn)?shù)區(qū)間,如式(16)所示,其中a和b由實(shí)驗(yàn)確定,a為一個調(diào)節(jié)因子S=αCifa≤C≤b100ifC>b0ifC<a---(16)]]>也可以將得到的S進(jìn)一步量化為優(yōu)、良、中、差的發(fā)音質(zhì)量等級。
考慮到內(nèi)存資源的限制,本發(fā)明實(shí)施例的步驟D、E、F和G都是以預(yù)先設(shè)定的固定幀數(shù)步長在時間上分段進(jìn)行的,每段大小可為40幀。
本實(shí)施例基于上述方法開發(fā)了基于發(fā)音質(zhì)量評價的嵌入式英語學(xué)習(xí)系統(tǒng)。學(xué)習(xí)內(nèi)容可以根據(jù)教學(xué)要求隨時自動地更新。采用發(fā)音質(zhì)量評價技術(shù)可以使人機(jī)之間互動學(xué)習(xí),大大減輕了課堂口語教學(xué)的工作量,緩解了教師供需緊張的問題,實(shí)現(xiàn)了英語口語的自主學(xué)習(xí)和自動測試。本發(fā)明可以評價漢語普通話人群的英語發(fā)音質(zhì)量。該方法對漢語人群的英語發(fā)音質(zhì)量評價在評分等級為4級(優(yōu)、良、中、差)時,與主觀評價的相關(guān)性達(dá)到了0.74。
權(quán)利要求
1.一種用于語言學(xué)習(xí)機(jī)的發(fā)音質(zhì)量評價方法,包括用于訓(xùn)練的語音特征提取,標(biāo)準(zhǔn)發(fā)音模型訓(xùn)練,標(biāo)準(zhǔn)發(fā)音網(wǎng)絡(luò)的生成,語音端點(diǎn)檢測,用于評價的語音特征提取,最優(yōu)路徑搜索,以及發(fā)音質(zhì)量分?jǐn)?shù)的計(jì)算各部分;其特征在于,各部分的實(shí)現(xiàn)方法具體包括以下步驟A、用于訓(xùn)練的語音特征提取(1)預(yù)先建立包含大量朗讀語音的訓(xùn)練數(shù)據(jù)庫;(2)對所說的訓(xùn)練數(shù)據(jù)庫中的每個語音文件中的數(shù)字語音進(jìn)行預(yù)加重和分幀加窗處理,得到具有準(zhǔn)平穩(wěn)性的分幀語音;(3)對所說的分幀語音提取語音特征,該語音特征為倒譜系數(shù);B、標(biāo)準(zhǔn)發(fā)音模型訓(xùn)練(1)利用步驟A所說的語音特征訓(xùn)練得到基于音素的標(biāo)準(zhǔn)發(fā)音模型;(2)對所說的標(biāo)準(zhǔn)發(fā)音模型進(jìn)行漢語人群口音的自適應(yīng)作為最終的標(biāo)準(zhǔn)發(fā)音模型,優(yōu)化模型對漢語人群的評價性能;C、標(biāo)準(zhǔn)發(fā)音網(wǎng)絡(luò)的生成對給定的文本進(jìn)行單詞切分,查找發(fā)音字典得到音素標(biāo)注,最后利用所說的基于音素的標(biāo)準(zhǔn)發(fā)音模型得到以狀態(tài)為節(jié)點(diǎn)的線性標(biāo)準(zhǔn)發(fā)音網(wǎng)絡(luò);D、語音端點(diǎn)檢測(1)模擬語音信號經(jīng)過A/D變換,得到數(shù)字語音;(2)對所說的數(shù)字語音進(jìn)行預(yù)加重和分幀加窗處理,得到具有準(zhǔn)平穩(wěn)性的分幀語音;(3)對所說的分幀語音計(jì)算得到時域?qū)?shù)能量;(4)采用滑動平均濾波的方法由所說的時域?qū)?shù)能量得到用于端點(diǎn)檢測的端檢特征;(5)采用上限和下限雙閾值和有限狀態(tài)機(jī)結(jié)合的方法,對所說的端檢特征進(jìn)行端點(diǎn)檢測,得到語音的起始和結(jié)束端點(diǎn);E、用于評價的語音特征提取對步驟D所說的分幀語音提取語音特征,過程與步驟A的第(3)步相同。F、最優(yōu)路徑搜索(1)將步驟E所說的語音特征與步驟C所說的標(biāo)準(zhǔn)發(fā)音網(wǎng)絡(luò)進(jìn)行強(qiáng)制匹配,得到網(wǎng)絡(luò)中所有可能的路徑信息;(2)利用所說的路徑信息,從網(wǎng)絡(luò)允許的終止節(jié)點(diǎn)回溯出最優(yōu)路徑;G、發(fā)音質(zhì)量分?jǐn)?shù)的計(jì)算(1)利用步驟F中所說的最優(yōu)路徑信息計(jì)算得到每幀語音特征的置信分?jǐn)?shù);(2)利用步驟F中所說的最優(yōu)路徑信息計(jì)算路徑上每個狀態(tài)的置信分?jǐn)?shù);對最優(yōu)路徑上所有狀態(tài)的置信分?jǐn)?shù)取平均得到整句的置信分?jǐn)?shù);(3)利用映射函數(shù)將所說的整句置信分?jǐn)?shù)映射到主觀評價分?jǐn)?shù)區(qū)間,得到最終的發(fā)音質(zhì)量分?jǐn)?shù)。
2.如權(quán)利要求1所述的用于語言學(xué)習(xí)機(jī)的發(fā)音質(zhì)量評價方法,其特征在于,所說的步驟A中的倒譜系數(shù)為利用人耳的頻率分辨特性的美爾頻標(biāo)倒譜系數(shù)。
3.如權(quán)利要求1所述的用于語言學(xué)習(xí)機(jī)的發(fā)音質(zhì)量評價方法,其特征在于,所說的步驟B(1)中的標(biāo)準(zhǔn)發(fā)音模型為基于音素的隱含馬爾可夫模型,該模型的具體訓(xùn)練過程為采用所有語音特征初始化一個高斯模型,利用該模型復(fù)制出所有的音素模型,采用Baum-Welth的方法對模型進(jìn)行多次訓(xùn)練;不斷增加每個音素模型的高斯成分的數(shù)量,重新進(jìn)行Baum-Welth訓(xùn)練。
4.如權(quán)利要求1所述的用于語言學(xué)習(xí)機(jī)的發(fā)音質(zhì)量評價方法,其特征在于,所說的步驟B(2)中的對標(biāo)準(zhǔn)發(fā)音模型進(jìn)行漢語人群口音的自適應(yīng)的實(shí)現(xiàn)方法為對得到的標(biāo)準(zhǔn)發(fā)音模型進(jìn)行基于最大似然線性回歸和最大后驗(yàn)概率方法的口音自適應(yīng),得到最終的標(biāo)準(zhǔn)發(fā)音模型。
5.如權(quán)利要求1所述的用于語言學(xué)習(xí)機(jī)的發(fā)音質(zhì)量評價方法,其特征在于,所說的步驟C的標(biāo)準(zhǔn)發(fā)音網(wǎng)絡(luò)為一個具有確定的起始節(jié)點(diǎn)和終止節(jié)點(diǎn),當(dāng)前節(jié)點(diǎn)只與其前序節(jié)點(diǎn)相關(guān)的不考慮文法的以HMM的狀態(tài)為節(jié)點(diǎn)的線性網(wǎng)絡(luò)。
全文摘要
本發(fā)明涉及用于語言學(xué)習(xí)機(jī)的發(fā)音質(zhì)量評價方法,屬于計(jì)算機(jī)輔助語言學(xué)習(xí)和語音技術(shù)領(lǐng)域,包括用于訓(xùn)練的語音特征提取,標(biāo)準(zhǔn)發(fā)音模型訓(xùn)練,標(biāo)準(zhǔn)發(fā)音網(wǎng)絡(luò)的生成,語音端點(diǎn)檢測,用于評價的語音特征提取,最優(yōu)路徑搜索,以及發(fā)音質(zhì)量分?jǐn)?shù)的計(jì)算各部分;本發(fā)明的發(fā)音質(zhì)量評價方法具有與主觀評價相關(guān)性較高、穩(wěn)健性好等特點(diǎn)。構(gòu)成的嵌入式英語學(xué)習(xí)系統(tǒng)可以用于人機(jī)交互教學(xué)和自動口語測試。
文檔編號G10L15/02GK1763843SQ200510114848
公開日2006年4月26日 申請日期2005年11月18日 優(yōu)先權(quán)日2005年11月18日
發(fā)明者梁維謙, 董明, 丁玉國, 劉潤生 申請人:清華大學(xué)