語音識別方法和裝置的制造方法

文檔序號：9418692閱讀：618來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

語音識別方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及機(jī)器學(xué)習(xí)和語音識別領(lǐng)域，特別是指一種語音識別方法和裝置。
【背景技術(shù)】
[0002] 人類最重要的交流方式就是通過語音互相傳遞信息。如果人與計算機(jī)之間也能夠通過語音進(jìn)行交流，無疑會極大的提高人機(jī)界面的易用性。隨著計算機(jī)技術(shù)及機(jī)器學(xué)習(xí)的不斷發(fā)展，人與機(jī)器之間的交流也越來越廣泛。語音識別把語音轉(zhuǎn)換為相應(yīng)的文本，以便機(jī) 器理解和產(chǎn)生相應(yīng)的操作，對實(shí)現(xiàn)機(jī)器智能具有重要的意義。
[0003] 近年來，涌現(xiàn)了一些的語音識別方法，比較常用的語音識別方法有：模板匹配的方法和利用人工神經(jīng)網(wǎng)絡(luò)的方法。其中，隱馬爾科夫模型（HMM，Hidden Markov Model)是最常用的模板匹配方法，該方法能夠合理地模仿人的言語過程，較好地描述語音信號的整體非平穩(wěn)性和局部平穩(wěn)性；人工神經(jīng)網(wǎng)絡(luò)（ANN，Artificial Neural Network)能夠模擬人類神經(jīng)元的活動，具有自適應(yīng)性、容錯性、魯棒性和學(xué)習(xí)性。但是，隱馬爾科夫模型沒有考慮幀與幀之間的相關(guān)性，其對概率密度的先驗分布的假設(shè)缺乏非線性的判別能力，會導(dǎo)致系統(tǒng) 精確度差，而且對操作環(huán)境的變化十分敏感；而人工神經(jīng)網(wǎng)絡(luò)增加了訓(xùn)練的計算要求，由于神經(jīng)網(wǎng)絡(luò)缺少對時間依賴問題的建模能力，不能適應(yīng)語音時間序列，在連續(xù)識別任務(wù)方面表現(xiàn)很差。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明要解決的技術(shù)問題是提供一種速度快、精度高的語音識別方法和裝置。
[0005] 為解決上述技術(shù)問題，本發(fā)明提供技術(shù)方案如下：
[0006] 一種語音識別方法，包括：
[0007] 獲取待識別的語音信號；
[0008] 采用MFCC算法對所述語音信號進(jìn)行特征提取，得到MFCC特征；
[0009] 將所述MFCC特征輸入預(yù)先訓(xùn)練好的RNN，得到識別出的文本信息；
[0010] 其中，所述RNN通過逐層訓(xùn)練得到，所述RNN包含若干隱含層，當(dāng)隱含層為非遞歸層時，只訓(xùn)練該層與前一層連接的權(quán)重矩陣和偏差向量參數(shù)，當(dāng)隱含層為遞歸層時，只訓(xùn)練該層與前一層連接的權(quán)重矩陣、偏差向量、該層的層內(nèi)連接的權(quán)重矩陣和初始狀態(tài)激活值參數(shù)。
[0011] 一種語音識別裝置，包括：
[0012] 獲取模塊：用于獲取待識別的語音信號；
[0013] 提取模塊：用于采用MFCC算法對所述語音信號進(jìn)行特征提取，得到MFCC特征；
[0014] 識別模塊：用于將所述MFCC特征輸入預(yù)先訓(xùn)練好的RNN，得到識別出的文本信息；
[0015] 其中，所述RNN通過逐層訓(xùn)練得到，所述RNN包含若干隱含層，當(dāng)隱含層為非遞歸層時，只訓(xùn)練該層與前一層連接的權(quán)重矩陣和偏差向量參數(shù)，當(dāng)隱含層為遞歸層時，只訓(xùn)練該層與前一層連接的權(quán)重矩陣、偏差向量、該層的層內(nèi)連接的權(quán)重矩陣和初始狀態(tài)激活值參數(shù)。
[0016] 本發(fā)明的實(shí)施例具有以下有益效果：
[0017] 本發(fā)明的語音識別方法和裝置，首先采用MFCC算法對所述語音信號進(jìn)行特征提取，得到MFCC特征，MFCC特征是將人耳聽覺感知特性與語音的產(chǎn)生相結(jié)合的一種特征參數(shù)，能很好的反應(yīng)出人耳的感知特性，同時，MFCC特征模擬了人的聽覺特性，符合人聽覺特性的語音特征參量，在實(shí)際應(yīng)用中能夠取得較高的識別率。然后，本發(fā)明利用逐層訓(xùn)練的方法訓(xùn)練RNN，所述RNN包含若干隱含層：當(dāng)隱含層為非遞歸層時，只訓(xùn)練該層與前一層連接的權(quán)重矩陣和偏差向量參數(shù)；當(dāng)隱含層為遞歸層時，只訓(xùn)練該層與前一層連接的權(quán)重矩陣、偏差向量、該層的層內(nèi)連接的權(quán)重矩陣和初始狀態(tài)激活值參數(shù)。本發(fā)明中，采用的逐層訓(xùn)練 RNN參數(shù)對非線性時間序列信號中的有效信息具有突出的表征能力，使得每層RNN提取的特征既可以很好的表征原始信號，又具有良好的分類能力，此外，RNN還具有收斂速度快的特點(diǎn)。與現(xiàn)有技術(shù)相比，本發(fā)明的具有速度快、精度高的優(yōu)點(diǎn)。
【附圖說明】
[0018] 圖1為本發(fā)明的語音識別方法的流程示意圖；
[0019] 圖2為本發(fā)明的語音識別方法的MFCC特征提取的流程示意圖；
[0020] 圖3為本發(fā)明的語音識別方法的非遞歸層的RNN逐層訓(xùn)練方法的流程示意圖；
[0021] 圖4為本發(fā)明的語音識別方法的遞歸層的RNN逐層訓(xùn)練方法的流程示意圖；
[0022] 圖5為本發(fā)明的語音識別方法的end-to-end訓(xùn)練方法的流程示意圖；
[0023] 圖6為本發(fā)明的語音識別方法的語音識別的整體流程示意圖；
[0024] 圖7為本發(fā)明的語音識別方法的RNN的連接方式示意圖；
[0025] 圖8為本發(fā)明的語音識別方法的自動編碼器的原理示意圖；
[0026] 圖9為本發(fā)明的語音識別裝置的結(jié)構(gòu)示意圖；
[0027] 圖10為本發(fā)明的語音識別裝置的結(jié)構(gòu)示意圖一；
[0028] 圖11為本發(fā)明的語音識別裝置的結(jié)構(gòu)示意圖二；
[0029] 圖12為本發(fā)明的語音識別裝置的結(jié)構(gòu)示意圖三。
【具體實(shí)施方式】
[0030] 為使本發(fā)明要解決的技術(shù)問題、技術(shù)方案和優(yōu)點(diǎn)更加清楚，下面將結(jié)合附圖及具體實(shí)施例進(jìn)行詳細(xì)描述。
[0031] 名詞解釋：
[0032] RNN(Recurrent Neural Network):遞歸神經(jīng)網(wǎng)絡(luò)，是一種序列模型，在神經(jīng)網(wǎng)絡(luò) 的基礎(chǔ)上，考慮相鄰時間t和t-Ι的隱含層神經(jīng)元之間的連接關(guān)系。
[0033] CTC(Connectionist Temporal Classification):聯(lián)結(jié)時間分類，通過對齊RNN的輸出和語音序列標(biāo)簽最小化目標(biāo)函數(shù)。
[0034] -方面，本發(fā)明提供一種語音識別方法，如圖1所示，包括：
[0035] 步驟SlOl :獲取待識別的語音信號；
[0036] 本步驟中的語音信號可以在本發(fā)明的不同應(yīng)用場景中獲取，其中，本發(fā)明可以應(yīng) 用在多種不同的應(yīng)用場景中，如手機(jī)聊天工具中、手機(jī)語音搜索功能中、學(xué)習(xí)外語的校正系統(tǒng)中，以及人與電腦進(jìn)行語音交互的系統(tǒng)中等。
[0037] 步驟S102 :采用MFCC算法對語音信號進(jìn)行特征提取，得到MFCC特征；
[0038] 本步驟中，MFCC特征的提取過程，如圖2所示，MFCC特征是基于人耳聽覺特性的 Mel頻率倒譜系數(shù)，該特性充分考慮了人耳的聽覺系統(tǒng)的非線性特性，將語音信號的頻譜轉(zhuǎn) 化為基于Mel頻率的非線性頻譜，再轉(zhuǎn)換到倒譜域上，因此MFCC具有良好識別性能和抗噪能力。
[0039] 步驟S103 :將MFCC特征輸入預(yù)先訓(xùn)練好的RNN，得到識別出的文本信息；
[0040] 本步驟中，采用的RNN是一種序列模型，在神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上，考慮相鄰時間的隱含層單元之間的連接關(guān)系，對非線性時間序列信號中的有效信息有突出的表征能力。
[0041] 其中，RNN通過逐層訓(xùn)練得到，RNN包含若干隱含層，當(dāng)隱含層為非遞歸層時，只訓(xùn) 練該層與前一層連接的權(quán)重矩陣和偏差向量參數(shù)，當(dāng)隱含層為遞歸層時，只訓(xùn)練該層與前一層連接的權(quán)重矩陣、偏差向量、該層的層內(nèi)連接的權(quán)重矩陣和初始狀態(tài)激活值參數(shù)。
[0042] 本發(fā)明的語音識別方法，首先采用MFCC算法對語音信號進(jìn)行特征提取，得到MFCC 特征，MFCC特征是將人耳聽覺感知特性與語音的產(chǎn)生相結(jié)合的一種特征參數(shù)，能很好的反應(yīng)出人耳的感知特性，同時，MFCC特征模擬了人的聽覺特性，符合人聽覺特性的語音特征參量，在實(shí)際應(yīng)用中能夠取得較高的識別率。然后，本發(fā)明利用逐層訓(xùn)練的方法訓(xùn)練RNN，RNN 包含若干隱含層：當(dāng)隱含層為非遞歸層時，只訓(xùn)練該層與前一層連接的權(quán)重矩陣和偏差向量參數(shù)；當(dāng)隱含層為遞歸層時，只訓(xùn)練該層與前一層連接的權(quán)重矩陣、偏差向量、該層的層內(nèi)連接的權(quán)重矩陣和初始狀態(tài)激活值參數(shù)。本發(fā)明中，采用的逐層訓(xùn)練RNN參數(shù)對非線性時間序列信號中的有效信息具有突出的表征能力，使得每層RNN提取的特征既可以很好的表征原始信號，又具有良好的分類能力，此外，RNN還具有收斂速度快的特點(diǎn)。與現(xiàn)有技術(shù) 相比，本發(fā)明的具有速度快、精度高的優(yōu)點(diǎn)。
[0043] 作為本發(fā)明的一種改進(jìn)，如圖3所示，RNN的逐層訓(xùn)練方法包括：
[0044] 步驟S201 :當(dāng)隱含層為非遞歸層時，采用自動編碼器對訓(xùn)練樣本依次進(jìn)行編碼和解碼操作，計算得到訓(xùn)練樣本的每個時間步的重構(gòu)誤差；
[0045] 步驟S202 :采用誤差反向傳播算法使得重構(gòu)誤差最小，更新參數(shù)值，采用更新后的參數(shù)計算使重構(gòu)誤差最小時訓(xùn)練樣本的每個時間步的激活值，作為原始輸入的抽象表示；
[0046] 上述步驟S201和S202中，采用的自動編碼器，具有良好的學(xué)習(xí)數(shù)據(jù)特征的能力，自動編碼器能夠?qū)W習(xí)數(shù)據(jù)中的特征，同時降低特征維數(shù)。本發(fā)明的實(shí)施過程為：
[0047] 時間步t從1遞增到T，編碼過程為：
[0048]
{ 1 )
[0049] 其中W(1)，b(1)為網(wǎng)絡(luò)參數(shù)，解碼過程為：
[0050]
( 2 )
[0051] 其中

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3 4