一種構(gòu)音識(shí)別方法及其系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種構(gòu)音識(shí)別方法,包括:獲取樣本信號(hào),對(duì)樣本信號(hào)進(jìn)行濾波去噪后,將樣本信號(hào)通過A/D轉(zhuǎn)換量化為二進(jìn)制的樣本信號(hào),從二進(jìn)制的樣本信號(hào)中提取包含語音的語音信號(hào);提取語音信號(hào)中的聲學(xué)特征參數(shù);選定與訓(xùn)練聲學(xué)模型,根據(jù)各個(gè)聲學(xué)特征參數(shù)分別估算聲學(xué)模型的參數(shù)估計(jì)值,得到對(duì)應(yīng)于最大似然值的最優(yōu)模型參數(shù);構(gòu)音識(shí)別,采集待識(shí)別信號(hào),根據(jù)最優(yōu)模型參數(shù)計(jì)算待識(shí)別信號(hào)的各個(gè)聲學(xué)特征參數(shù)的概率值,得到識(shí)別結(jié)果。本發(fā)明構(gòu)音識(shí)別方法不僅能夠準(zhǔn)確識(shí)別語音中的內(nèi)容,還能夠識(shí)別出單音節(jié)詞的具體音節(jié)組合及其聲調(diào)。本發(fā)明還公開了一種構(gòu)音識(shí)別系統(tǒng)。
【專利說明】一種構(gòu)音識(shí)別方法及其系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及言語識(shí)別,尤其設(shè)計(jì)一種構(gòu)音識(shí)別方法及其系統(tǒng)。
【背景技術(shù)】
[0002] 構(gòu)音是言語產(chǎn)生的基礎(chǔ),通過構(gòu)音器官(如,下頜、唇、舌、軟腭等)的協(xié)調(diào)運(yùn)動(dòng)產(chǎn) 生。構(gòu)音運(yùn)動(dòng)產(chǎn)生的最小語音單位是音素,語音學(xué)定義了音素包括元音和輔音兩類。漢語 普通話的構(gòu)音識(shí)別結(jié)果包括兩部分:音素組合成的音節(jié)和聲調(diào)。但是目前構(gòu)音識(shí)別技術(shù)無 法準(zhǔn)確識(shí)別由相同音節(jié)不同聲調(diào)組成的字音,而且并非以音素為單位進(jìn)行識(shí)別,導(dǎo)致識(shí)別 結(jié)果并不適用于言語語言教育。
[0003] 為了克服現(xiàn)有技術(shù)中的無法準(zhǔn)確識(shí)別語音中的內(nèi)容無法準(zhǔn)確識(shí)別由相同音節(jié)不 同聲調(diào)組成的字音,而且并非以音素為單位進(jìn)行識(shí)別,導(dǎo)致識(shí)別結(jié)果并不適用于言語語言 教育的缺陷,提出了一種構(gòu)音識(shí)別方法及其系統(tǒng)。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明提出了一種構(gòu)音識(shí)別方法,包括如下步驟:獲取樣本信號(hào),對(duì)所述樣本信號(hào) 進(jìn)行濾波去噪后,將所述樣本信號(hào)通過A/D轉(zhuǎn)換量化為二進(jìn)制的樣本信號(hào),從所述二進(jìn)制 的樣本信號(hào)中提取包含語音的語音信號(hào);提取所述語音信號(hào)中的聲學(xué)特征參數(shù),所述聲學(xué) 特征參數(shù)用于識(shí)別音節(jié)和音調(diào);選定與訓(xùn)練聲學(xué)模型,分別計(jì)算各個(gè)所述聲學(xué)特征參數(shù)在 隱馬爾可夫模型下的最大似然概率值,得到對(duì)應(yīng)于所述最大似然值的最優(yōu)模型參數(shù);構(gòu)音 識(shí)別,采集待識(shí)別信號(hào),根據(jù)所述最優(yōu)模型參數(shù)計(jì)算所述待識(shí)別信號(hào)的各個(gè)聲學(xué)特征參數(shù) 的概率值,得到識(shí)別結(jié)果。
[0005] 本發(fā)明提出的所述構(gòu)音識(shí)別方法中,提取包含語音的語音信號(hào)的步驟包括:將所 述二進(jìn)制的樣本信號(hào)截取為多個(gè)幀;計(jì)算至少一幀的短時(shí)自相關(guān)函數(shù)的平均值;根據(jù)所述 平均值計(jì)算用于判斷當(dāng)前幀的短時(shí)過門限率;根據(jù)所述短時(shí)過門限率判斷所述當(dāng)前幀是清 音或濁音;逐個(gè)判斷所有幀,直至獲得起始幀與終止幀時(shí)得到語音信號(hào)。
[0006] 本發(fā)明提出的所述構(gòu)音識(shí)別方法中,所述短時(shí)自相關(guān)函數(shù)為:
[0007]
【權(quán)利要求】
1. 一種構(gòu)音識(shí)別方法,其特征在于,包括如下步驟: 獲取樣本信號(hào),對(duì)所述樣本信號(hào)進(jìn)行濾波去噪后,將所述樣本信號(hào)通過A/D轉(zhuǎn)換量化 為二進(jìn)制的樣本信號(hào),從所述二進(jìn)制的樣本信號(hào)中提取包含語音的語音信號(hào); 提取所述語音信號(hào)中的聲學(xué)特征參數(shù),所述聲學(xué)特征參數(shù)用于識(shí)別音節(jié)和音調(diào); 選定與訓(xùn)練聲學(xué)模型,分別計(jì)算各個(gè)所述聲學(xué)特征參數(shù)在隱馬爾可夫模型下的最大似 然概率值,得到對(duì)應(yīng)于所述最大似然值的最優(yōu)模型參數(shù); 構(gòu)音識(shí)別,采集待識(shí)別信號(hào),根據(jù)所述最優(yōu)模型參數(shù)計(jì)算所述待識(shí)別信號(hào)的各個(gè)聲學(xué) 特征參數(shù)的概率值,得到識(shí)別結(jié)果。
2. 如權(quán)利要求1所述的構(gòu)音識(shí)別方法,其特征在于,提取包含語音的語音信號(hào)的步驟 包括: 將所述二進(jìn)制的樣本信號(hào)截取為多個(gè)幀; 計(jì)算至少一幀的短時(shí)自相關(guān)函數(shù)的平均值; 根據(jù)所述平均值計(jì)算用于判斷當(dāng)前幀的短時(shí)過門限率; 根據(jù)所述短時(shí)過門限率判斷所述當(dāng)前幀是清音或濁音; 逐個(gè)判斷所有幀,直至獲得起始幀與終止幀時(shí)得到語音信號(hào)。
3. 如權(quán)利要求2所述的構(gòu)音識(shí)別方法,其特征在于,所述短時(shí)自相關(guān)函數(shù)為:
式中,k表示最大延遲點(diǎn)數(shù),Rn(k)表示短時(shí)自相關(guān)函數(shù),xn表示語音信號(hào)的采樣點(diǎn),m 表示采樣點(diǎn)的序號(hào),X' n表示語音信號(hào)的三電平量化信號(hào),N表示語音信號(hào)采樣點(diǎn)的個(gè)數(shù)。
4. 如權(quán)利要求2所述的構(gòu)音識(shí)別方法,其特征在于,所述短時(shí)過門限率為:
1, x>0 其中,sgn⑴={ 式中,zn表示短時(shí)過門限率,T表示設(shè)定的門限值,為正數(shù),xn表示語音信號(hào)的采樣點(diǎn), m表示采樣點(diǎn)的序號(hào),N表示語音信號(hào)采樣點(diǎn)的個(gè)數(shù),η表示語音幀的序號(hào)。
5. 如權(quán)利要求1所述的構(gòu)音識(shí)別方法,其特征在于,提取所述語音信號(hào)后進(jìn)一步包括: 加重所述語音信號(hào)中的高頻分量; 利用窗函數(shù)對(duì)所述語音信號(hào)進(jìn)行加窗操作。
6. 如權(quán)利要求1所述的構(gòu)音識(shí)別方法,其特征在于,所述聲學(xué)特征參數(shù)包括Mel倒譜系 數(shù)及其一階差分結(jié)果和二階差分結(jié)果,所述Mel倒譜系數(shù)及其一階差分結(jié)果和二階差分結(jié) 果的計(jì)算步驟包括: 通過快速傅立葉變換計(jì)算所述語音信號(hào)的功率譜; 利用Mel濾波器計(jì)算所述功率譜得到Mel頻譜; 通過離散余弦變換計(jì)算所述Mel頻譜得到Mel倒頻譜系數(shù); 逐次對(duì)所述Mel倒頻譜系數(shù)進(jìn)行以時(shí)間的差分運(yùn)算,得到一階差分結(jié)果與二階差分結(jié) 果。
7. 如權(quán)利要求1所述的構(gòu)音識(shí)別方法,其特征在于,所述聲學(xué)特征參數(shù)包括短時(shí)對(duì)數(shù) 能量,所述短時(shí)對(duì)數(shù)能量如以下公式表示:
式中,sn表不語音信號(hào)離散序列,N表不米樣點(diǎn)的總個(gè)數(shù),η表不米樣點(diǎn)序號(hào)。
8. 如權(quán)利要求1所述的構(gòu)音識(shí)別方法,其特征在于,得到所述最優(yōu)模型參數(shù)的步驟包 括: 計(jì)算所述聲學(xué)特征參數(shù)的均值與協(xié)方差; 將聲學(xué)模型的初始均值與協(xié)方差替換為所述聲學(xué)特征參數(shù)的均值與協(xié)方差; 估算所述聲學(xué)模型的模型參數(shù),得到參數(shù)估計(jì)值; 將所述參數(shù)估計(jì)值替換所述聲學(xué)模型中的參數(shù),分別計(jì)算各個(gè)所述聲學(xué)特征參數(shù)在隱 馬爾可夫模型下的最大似然概率值,得到對(duì)應(yīng)于所述最大似然值的最優(yōu)模型參數(shù)。
9. 如權(quán)利要求1所述的構(gòu)音識(shí)別方法,其特征在于,所述參數(shù)估計(jì)值是根據(jù) Baum-Welch算法估算得到的。
10. 如權(quán)利要求1所述的構(gòu)音識(shí)別方法,其特征在于,所述識(shí)別結(jié)果的計(jì)算步驟包括: 將所述待識(shí)別信號(hào)進(jìn)行劃分,得到多個(gè)詞語組成的詞序列; 提取當(dāng)前詞語的多個(gè)聲學(xué)特征參數(shù); 根據(jù)所述最優(yōu)模型參數(shù)以隱馬爾可夫模型分別計(jì)算每個(gè)所述聲學(xué)特征參數(shù)的概率值, 以所述概率值最大的聲學(xué)特征參數(shù)作為所述詞語的識(shí)別結(jié)果; 依次計(jì)算對(duì)所述待識(shí)別信號(hào)中每個(gè)詞語的識(shí)別結(jié)果,得到所待述識(shí)別信號(hào)的識(shí)別結(jié) 果。
11. 如權(quán)利要求1所述的構(gòu)音識(shí)別方法,其特征在于,得到所述識(shí)別結(jié)果之后進(jìn)一步包 括: 將所述識(shí)別結(jié)果與事先設(shè)定的目標(biāo)音對(duì)比,得到所述待識(shí)別信號(hào)中存在構(gòu)音障礙的聲 母、韻母和聲調(diào)。
12. -種構(gòu)音識(shí)別系統(tǒng),其特征在于,包括 語音采集裝置,其用于采集樣本信號(hào)與待識(shí)別信號(hào); 語音處理裝置,其用于對(duì)所述樣本信號(hào)與待識(shí)別信號(hào)進(jìn)行數(shù)據(jù)轉(zhuǎn)換與預(yù)處理,并分別 提取所述樣本信號(hào)與所述待識(shí)別信號(hào)的聲學(xué)特征參數(shù); 構(gòu)音識(shí)別裝置,其用于根據(jù)所述樣本信號(hào)的聲學(xué)特征參數(shù)訓(xùn)練聲學(xué)模型得到最優(yōu)模型 參數(shù),根據(jù)所述最優(yōu)模型參數(shù)計(jì)算所述待識(shí)別信號(hào)的聲學(xué)特征參數(shù),得到識(shí)別結(jié)果。
13. 如權(quán)利要求12所述的構(gòu)音識(shí)別系統(tǒng),其特征在于,所述構(gòu)音識(shí)別裝置進(jìn)一步用于 對(duì)所述識(shí)別結(jié)果進(jìn)行判斷,判斷所述待識(shí)別信號(hào)中存在構(gòu)音障礙的聲母、韻母和聲調(diào)。
【文檔編號(hào)】G10L15/08GK104123934SQ201410353819
【公開日】2014年10月29日 申請(qǐng)日期:2014年7月23日 優(yōu)先權(quán)日:2014年7月23日
【發(fā)明者】黃昭鳴, 周林燦, 李寧 申請(qǐng)人:泰億格電子(上海)有限公司