語音識別方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及機(jī)器學(xué)習(xí)和語音識別領(lǐng)域,特別是指一種語音識別方法和裝置。
【背景技術(shù)】
[0002] 人類最重要的交流方式就是通過語音互相傳遞信息。如果人與計算機(jī)之間也能夠 通過語音進(jìn)行交流,無疑會極大的提高人機(jī)界面的易用性。隨著計算機(jī)技術(shù)及機(jī)器學(xué)習(xí)的 不斷發(fā)展,人與機(jī)器之間的交流也越來越廣泛。語音識別把語音轉(zhuǎn)換為相應(yīng)的文本,以便機(jī) 器理解和產(chǎn)生相應(yīng)的操作,對實(shí)現(xiàn)機(jī)器智能具有重要的意義。
[0003] 近年來,涌現(xiàn)了一些的語音識別方法,比較常用的語音識別方法有:模板匹配的方 法和利用人工神經(jīng)網(wǎng)絡(luò)的方法。其中,隱馬爾科夫模型(HMM,Hidden Markov Model)是最 常用的模板匹配方法,該方法能夠合理地模仿人的言語過程,較好地描述語音信號的整體 非平穩(wěn)性和局部平穩(wěn)性;人工神經(jīng)網(wǎng)絡(luò)(ANN,Artificial Neural Network)能夠模擬人類 神經(jīng)元的活動,具有自適應(yīng)性、容錯性、魯棒性和學(xué)習(xí)性。但是,隱馬爾科夫模型沒有考慮幀 與幀之間的相關(guān)性,其對概率密度的先驗分布的假設(shè)缺乏非線性的判別能力,會導(dǎo)致系統(tǒng) 精確度差,而且對操作環(huán)境的變化十分敏感;而人工神經(jīng)網(wǎng)絡(luò)增加了訓(xùn)練的計算要求,由于 神經(jīng)網(wǎng)絡(luò)缺少對時間依賴問題的建模能力,不能適應(yīng)語音時間序列,在連續(xù)識別任務(wù)方面 表現(xiàn)很差。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明要解決的技術(shù)問題是提供一種速度快、精度高的語音識別方法和裝置。
[0005] 為解決上述技術(shù)問題,本發(fā)明提供技術(shù)方案如下:
[0006] 一種語音識別方法,包括:
[0007] 獲取待識別的語音信號;
[0008] 采用MFCC算法對所述語音信號進(jìn)行特征提取,得到MFCC特征;
[0009] 將所述MFCC特征輸入預(yù)先訓(xùn)練好的RNN,得到識別出的文本信息;
[0010] 其中,所述RNN通過逐層訓(xùn)練得到,所述RNN包含若干隱含層,當(dāng)隱含層為非遞歸 層時,只訓(xùn)練該層與前一層連接的權(quán)重矩陣和偏差向量參數(shù),當(dāng)隱含層為遞歸層時,只訓(xùn)練 該層與前一層連接的權(quán)重矩陣、偏差向量、該層的層內(nèi)連接的權(quán)重矩陣和初始狀態(tài)激活值 參數(shù)。
[0011] 一種語音識別裝置,包括:
[0012] 獲取模塊:用于獲取待識別的語音信號;
[0013] 提取模塊:用于采用MFCC算法對所述語音信號進(jìn)行特征提取,得到MFCC特征;
[0014] 識別模塊:用于將所述MFCC特征輸入預(yù)先訓(xùn)練好的RNN,得到識別出的文本信 息;
[0015] 其中,所述RNN通過逐層訓(xùn)練得到,所述RNN包含若干隱含層,當(dāng)隱含層為非遞歸 層時,只訓(xùn)練該層與前一層連接的權(quán)重矩陣和偏差向量參數(shù),當(dāng)隱含層為遞歸層時,只訓(xùn)練 該層與前一層連接的權(quán)重矩陣、偏差向量、該層的層內(nèi)連接的權(quán)重矩陣和初始狀態(tài)激活值 參數(shù)。
[0016] 本發(fā)明的實(shí)施例具有以下有益效果:
[0017] 本發(fā)明的語音識別方法和裝置,首先采用MFCC算法對所述語音信號進(jìn)行特征提 取,得到MFCC特征,MFCC特征是將人耳聽覺感知特性與語音的產(chǎn)生相結(jié)合的一種特征參 數(shù),能很好的反應(yīng)出人耳的感知特性,同時,MFCC特征模擬了人的聽覺特性,符合人聽覺特 性的語音特征參量,在實(shí)際應(yīng)用中能夠取得較高的識別率。然后,本發(fā)明利用逐層訓(xùn)練的方 法訓(xùn)練RNN,所述RNN包含若干隱含層:當(dāng)隱含層為非遞歸層時,只訓(xùn)練該層與前一層連接 的權(quán)重矩陣和偏差向量參數(shù);當(dāng)隱含層為遞歸層時,只訓(xùn)練該層與前一層連接的權(quán)重矩陣、 偏差向量、該層的層內(nèi)連接的權(quán)重矩陣和初始狀態(tài)激活值參數(shù)。本發(fā)明中,采用的逐層訓(xùn)練 RNN參數(shù)對非線性時間序列信號中的有效信息具有突出的表征能力,使得每層RNN提取的 特征既可以很好的表征原始信號,又具有良好的分類能力,此外,RNN還具有收斂速度快的 特點(diǎn)。與現(xiàn)有技術(shù)相比,本發(fā)明的具有速度快、精度高的優(yōu)點(diǎn)。
【附圖說明】
[0018] 圖1為本發(fā)明的語音識別方法的流程示意圖;
[0019] 圖2為本發(fā)明的語音識別方法的MFCC特征提取的流程示意圖;
[0020] 圖3為本發(fā)明的語音識別方法的非遞歸層的RNN逐層訓(xùn)練方法的流程示意圖;
[0021] 圖4為本發(fā)明的語音識別方法的遞歸層的RNN逐層訓(xùn)練方法的流程示意圖;
[0022] 圖5為本發(fā)明的語音識別方法的end-to-end訓(xùn)練方法的流程示意圖;
[0023] 圖6為本發(fā)明的語音識別方法的語音識別的整體流程示意圖;
[0024] 圖7為本發(fā)明的語音識別方法的RNN的連接方式示意圖;
[0025] 圖8為本發(fā)明的語音識別方法的自動編碼器的原理示意圖;
[0026] 圖9為本發(fā)明的語音識別裝置的結(jié)構(gòu)示意圖;
[0027] 圖10為本發(fā)明的語音識別裝置的結(jié)構(gòu)示意圖一;
[0028] 圖11為本發(fā)明的語音識別裝置的結(jié)構(gòu)示意圖二;
[0029] 圖12為本發(fā)明的語音識別裝置的結(jié)構(gòu)示意圖三。
【具體實(shí)施方式】
[0030] 為使本發(fā)明要解決的技術(shù)問題、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖及具 體實(shí)施例進(jìn)行詳細(xì)描述。
[0031] 名詞解釋:
[0032] RNN(Recurrent Neural Network):遞歸神經(jīng)網(wǎng)絡(luò),是一種序列模型,在神經(jīng)網(wǎng)絡(luò) 的基礎(chǔ)上,考慮相鄰時間t和t-Ι的隱含層神經(jīng)元之間的連接關(guān)系。
[0033] CTC(Connectionist Temporal Classification):聯(lián)結(jié)時間分類,通過對齊RNN的 輸出和語音序列標(biāo)簽最小化目標(biāo)函數(shù)。
[0034] -方面,本發(fā)明提供一種語音識別方法,如圖1所示,包括:
[0035] 步驟SlOl :獲取待識別的語音信號;
[0036] 本步驟中的語音信號可以在本發(fā)明的不同應(yīng)用場景中獲取,其中,本發(fā)明可以應(yīng) 用在多種不同的應(yīng)用場景中,如手機(jī)聊天工具中、手機(jī)語音搜索功能中、學(xué)習(xí)外語的校正系 統(tǒng)中,以及人與電腦進(jìn)行語音交互的系統(tǒng)中等。
[0037] 步驟S102 :采用MFCC算法對語音信號進(jìn)行特征提取,得到MFCC特征;
[0038] 本步驟中,MFCC特征的提取過程,如圖2所示,MFCC特征是基于人耳聽覺特性的 Mel頻率倒譜系數(shù),該特性充分考慮了人耳的聽覺系統(tǒng)的非線性特性,將語音信號的頻譜轉(zhuǎn) 化為基于Mel頻率的非線性頻譜,再轉(zhuǎn)換到倒譜域上,因此MFCC具有良好識別性能和抗噪 能力。
[0039] 步驟S103 :將MFCC特征輸入預(yù)先訓(xùn)練好的RNN,得到識別出的文本信息;
[0040] 本步驟中,采用的RNN是一種序列模型,在神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,考慮相鄰時間的隱 含層單元之間的連接關(guān)系,對非線性時間序列信號中的有效信息有突出的表征能力。
[0041] 其中,RNN通過逐層訓(xùn)練得到,RNN包含若干隱含層,當(dāng)隱含層為非遞歸層時,只訓(xùn) 練該層與前一層連接的權(quán)重矩陣和偏差向量參數(shù),當(dāng)隱含層為遞歸層時,只訓(xùn)練該層與前 一層連接的權(quán)重矩陣、偏差向量、該層的層內(nèi)連接的權(quán)重矩陣和初始狀態(tài)激活值參數(shù)。
[0042] 本發(fā)明的語音識別方法,首先采用MFCC算法對語音信號進(jìn)行特征提取,得到MFCC 特征,MFCC特征是將人耳聽覺感知特性與語音的產(chǎn)生相結(jié)合的一種特征參數(shù),能很好的反 應(yīng)出人耳的感知特性,同時,MFCC特征模擬了人的聽覺特性,符合人聽覺特性的語音特征參 量,在實(shí)際應(yīng)用中能夠取得較高的識別率。然后,本發(fā)明利用逐層訓(xùn)練的方法訓(xùn)練RNN,RNN 包含若干隱含層:當(dāng)隱含層為非遞歸層時,只訓(xùn)練該層與前一層連接的權(quán)重矩陣和偏差向 量參數(shù);當(dāng)隱含層為遞歸層時,只訓(xùn)練該層與前一層連接的權(quán)重矩陣、偏差向量、該層的層 內(nèi)連接的權(quán)重矩陣和初始狀態(tài)激活值參數(shù)。本發(fā)明中,采用的逐層訓(xùn)練RNN參數(shù)對非線性 時間序列信號中的有效信息具有突出的表征能力,使得每層RNN提取的特征既可以很好的 表征原始信號,又具有良好的分類能力,此外,RNN還具有收斂速度快的特點(diǎn)。與現(xiàn)有技術(shù) 相比,本發(fā)明的具有速度快、精度高的優(yōu)點(diǎn)。
[0043] 作為本發(fā)明的一種改進(jìn),如圖3所示,RNN的逐層訓(xùn)練方法包括:
[0044] 步驟S201 :當(dāng)隱含層為非遞歸層時,采用自動編碼器對訓(xùn)練樣本依次進(jìn)行編碼和 解碼操作,計算得到訓(xùn)練樣本的每個時間步的重構(gòu)誤差;
[0045] 步驟S202 :采用誤差反向傳播算法使得重構(gòu)誤差最小,更新參數(shù)值,采用更新后 的參數(shù)計算使重構(gòu)誤差最小時訓(xùn)練樣本的每個時間步的激活值,作為原始輸入的抽象表 示;
[0046] 上述步驟S201和S202中,采用的自動編碼器,具有良好的學(xué)習(xí)數(shù)據(jù)特征的能力, 自動編碼器能夠?qū)W習(xí)數(shù)據(jù)中的特征,同時降低特征維數(shù)。本發(fā)明的實(shí)施過程為:
[0047] 時間步t從1遞增到T,編碼過程為:
[0048]
{ 1 )
[0049] 其中W(1),b(1)為網(wǎng)絡(luò)參數(shù),解碼過程為:
[0050]
( 2 )
[0051] 其中