專利名稱:一種利用切割—分層構(gòu)筑法的語(yǔ)音識(shí)別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語(yǔ)音識(shí)別領(lǐng)域,尤其是連續(xù)語(yǔ)音識(shí)別技術(shù)。
背景技術(shù):
在連續(xù)語(yǔ)音識(shí)別技術(shù)中,通常采用兩種方法,即通盤(pán)采用分層構(gòu)筑法,或是先將語(yǔ)音信號(hào)進(jìn)行切割成孤立字,再進(jìn)行匹配得到結(jié)果。但是這兩種方法各有利弊,若通盤(pán)采用分層構(gòu)筑法,雖然識(shí)別率較高,但是計(jì)算量過(guò)大,難以實(shí)時(shí)完成,若采用切割方法,雖然計(jì)算量較小,但是識(shí)別效果嚴(yán)重依賴于切割精度,而在連續(xù)漢語(yǔ)語(yǔ)音中,有時(shí)難以準(zhǔn)確地判斷出字與字之間的界限,這樣就會(huì)對(duì)識(shí)別效果造成影響
發(fā)明內(nèi)容
為了克服現(xiàn)有技術(shù)的不足,本發(fā)明提供一種利用切割一分層構(gòu)筑法的語(yǔ)音識(shí)別方法,將分層構(gòu)筑法和切割法結(jié)合,降低識(shí)別效果對(duì)切割精度的依賴程度,同時(shí)保證識(shí)別能夠?qū)崟r(shí)完成。本發(fā)明解決其技術(shù)問(wèn)題所采用的技術(shù)方案包括以下步驟步驟一采集語(yǔ)音信號(hào),采樣頻率f為8000Hz到12000Hz ;步驟二 依據(jù)采樣頻率f確定幀長(zhǎng)Ien和幀移inc,對(duì)語(yǔ)音信號(hào)進(jìn)行分幀,將語(yǔ)音信號(hào)分成每20 30毫秒一段,相鄰兩幀起始點(diǎn)之間的間隔為10毫秒,即兩幀之間有10 20毫秒的交疊;步驟三提取語(yǔ)音特征參數(shù),以MFCC參數(shù)為基礎(chǔ)構(gòu)建特征參數(shù);步驟四計(jì)算每幀語(yǔ)音的歸一化Ctl復(fù)雜度能量CtlEtl和歸一化過(guò)零率ZCRtl,計(jì)算方法如下I)歸一化C。復(fù)雜度能量CciEq :(I)計(jì)算每巾貞語(yǔ)音的歸一化短時(shí)能量eQ(i) = e(i)/max(e),其中,e(/) = YjI X1 (η) I, Xi (η)表示第i幀第η個(gè)語(yǔ)音數(shù)據(jù);(2)對(duì)每幀序列s(n)進(jìn)行離散FFT變化轉(zhuǎn)換到頻域,得到幅度譜S(η);(3)計(jì)算該幀幅度譜的平均值·S0< A· ,其中N為幀長(zhǎng);
k-i(4)大于Stl的頻率部分屬于規(guī)則部分,小于或等于Stl的部分屬于隨機(jī)部分,在此只取規(guī)則部分成分,公式如下
\S(k\S(k)>SaS%k) = I 1 二
[O ,S(k) <S0(5)對(duì)規(guī)則部分成分的幅度譜S' (k)轉(zhuǎn)化到頻域并作IFFT變換,所得的S1 (η)即為規(guī)則部分時(shí)間序列;
(6)求出總運(yùn)動(dòng)測(cè)度
權(quán)利要求
1.一種利用切割一分層構(gòu)筑法的語(yǔ)音識(shí)別方法,其特征在于包括下述步驟 步驟一采集語(yǔ)音信號(hào),采樣頻率f為8000Hz到12000Hz ; 步驟二 依據(jù)采樣頻率f確定幀長(zhǎng)Ien和幀移inc,對(duì)語(yǔ)音信號(hào)進(jìn)行分幀,將語(yǔ)音信號(hào)分成每20 30毫秒一段,相鄰兩幀起始點(diǎn)之間的間隔為10毫秒,即兩幀之間有10 20毫秒的交疊; 步驟三提取語(yǔ)音特征參數(shù),以MFCC參數(shù)為基礎(chǔ)構(gòu)建特征參數(shù); 步驟四計(jì)算每幀語(yǔ)音的歸一化Ctl復(fù)雜度能量CtlEtl和歸一化過(guò)零率ZCRtl,計(jì)算方法如下 O歸一化Ctl復(fù)雜度能量CtlEtl H1J (O計(jì)算每巾貞語(yǔ)音的歸一化短時(shí)能量e0(i) = e⑴/max(e),其中,e(/) =藝丨JCi(W)I, η I Xi (η)表示第i巾貞第η個(gè)語(yǔ)音數(shù)據(jù); (2)對(duì)每幀序列s(η)進(jìn)行離散FFT變化轉(zhuǎn)換到頻域,得到幅度譜S (η); (3)計(jì)算該幀幅度譜的平均值t< /V,其中N為幀長(zhǎng); (4)大于Stl的頻率部分屬于規(guī)則部分,小于或等于Stl的部分屬于隨機(jī)部分,在此只取規(guī)則部分成分,公式如下I O ,S(k)<Stj (5)對(duì)規(guī)則部分成分的幅度譜S'(k)轉(zhuǎn)化到頻域并作IFFT變換,所得的S1 (η)即為規(guī)則部分時(shí)間序列; Λ:Λ: (6)求出總運(yùn)動(dòng)測(cè)度鴻5=X|s(/)|和隨機(jī)運(yùn)動(dòng)測(cè)度4 =XkO1)-內(nèi)(Ol·即可求得每幀 IJ的Q1復(fù)雜度(Xw) 二 ;(7)令C*(n) = I-C(n), C0 (η) = C*(η)/max (C*); (8)令C0E (η) = C0 (η) *e0 (η),即可得到歸一化的 C。復(fù)雜度能量 C0E0 (n) = C0E (η) /max (C0E); 2)歸一化過(guò)零率ZCRtl 設(shè)定一個(gè)門限,當(dāng)前后兩個(gè)采樣的符號(hào)不同,而且差值大于的時(shí)候,就將過(guò)零率的數(shù)值加1,這樣即可得到過(guò)零率ZCR,再得到歸一化過(guò)零率ZCRtl(n) = ZCR(n) /max (ZCR); 步驟五用下述方法對(duì)語(yǔ)音進(jìn)行切割,切割后每段語(yǔ)音只有單字或雙字; (O定義語(yǔ)音信號(hào)的四個(gè)狀態(tài),每幀語(yǔ)音只能處于其中之一,如表I說(shuō)明;表I語(yǔ)音信號(hào)狀態(tài)說(shuō)明__ 狀態(tài)號(hào)(Status)狀態(tài)說(shuō)明 O語(yǔ)音前靜音I1W
全文摘要
本發(fā)明提供了一種利用切割—分層構(gòu)筑法的語(yǔ)音識(shí)別方法,采集語(yǔ)音信號(hào)后對(duì)語(yǔ)音信號(hào)進(jìn)行分幀,然后提取語(yǔ)音特征參數(shù),計(jì)算每幀語(yǔ)音的歸一化復(fù)雜度能量和歸一化過(guò)零率,然后對(duì)語(yǔ)音進(jìn)行切割,切割后每段語(yǔ)音只有單字或雙字,最后對(duì)切割好的各段語(yǔ)音分別進(jìn)行識(shí)別。本發(fā)明降低了識(shí)別效果對(duì)切割精度的依賴性,當(dāng)兩個(gè)字的發(fā)音連續(xù)難以切割時(shí)就采用兩層分層構(gòu)筑法對(duì)其進(jìn)行識(shí)別,而兩層分層構(gòu)筑法的計(jì)算量可以接受,能夠?qū)崟r(shí)完成,這樣就同時(shí)保證了識(shí)別效果和識(shí)別耗時(shí)。
文檔編號(hào)G10L15/00GK102820031SQ201210284560
公開(kāi)日2012年12月12日 申請(qǐng)日期2012年8月6日 優(yōu)先權(quán)日2012年8月6日
發(fā)明者董月漢 申請(qǐng)人:西北工業(yè)大學(xué)