專利名稱:語音識別系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及語音檢測技術領域,尤其是指一種語音識別系統(tǒng)。
背景技術:
目前,在電信、服務業(yè)和工業(yè)生產(chǎn)線的電子產(chǎn)品開發(fā)中,許多產(chǎn)品上使用了語音識別技術,并創(chuàng)造出一批新穎的語音產(chǎn)品,如語音記事本、聲控玩具、語音搖控器及家用服務器等,從而極大地減輕了勞動強度、提高了工作效率,并日益改變著人們的日常生活。因此,目前語音識別技術被視為本世紀最有挑戰(zhàn)性、最具市場前景的應用技術之一。語音識別包含說話人識別和說話人語義識別兩種,前者利用的是語音信號中說話人的個性特征,不考慮包含在語音中的字詞的含義,強調(diào)的是說話人的個性;而后者的目的是識別出語音信號中的語義內(nèi)容,并不考慮說話人的個性,強調(diào)的是語音的共性。然而現(xiàn)有技術識別說話人的技術可靠性不高,因此使得采用說話人檢測的語音產(chǎn)品不能被廣泛應用。
發(fā)明內(nèi)容
根據(jù)以上,本發(fā)明技術方案的目的是提供一種語音識別系統(tǒng),以提高說話人檢測的可靠性,使語音產(chǎn)品能夠被廣泛應用。本發(fā)明提供一種語音識別系統(tǒng),包括:存儲單元,用于存儲至少一個用戶的語音模型;語音采集及預處理單元,用于采集待識別語音信號,對所述待識別語音信號進行格式轉換及編碼;特征提取單元,用于從編碼后的所述待識別語音信號中提取語音特征參數(shù);模式匹配單元,用于將所提取的所述語音特征參數(shù)與至少一個所述語音模型進行匹配,確定所述待識別語音信號所屬的用戶。優(yōu)選地,上述所述的語音識別系統(tǒng),在采集所述待識別語音信號后,所述語音采集及預處理單元還用于依次對所述待識別語音信號進行放大、增益控制、濾波及采樣,之后對所述待識別語音信號進行格式轉換及編碼,使所述待識別語音信號被分割為由多幀組合而成的短時信號。優(yōu)選地,上述所述的語音識別系統(tǒng),所述語音采集及預處理單元還用于對進行格式轉換及編碼后的所述待識別語音信號采用窗函數(shù)進行預加重處理。優(yōu)選地,上述所述的語音識別系統(tǒng),還包括:端點檢測單元,用于計算進行格式轉換及編碼后的所述待識別語音信號的語音起點及語音終點,去除所述待識別語音信號中的靜音信號,獲得所述待識別語音信號中語音的時域范圍;以及用于對所述待識別語音信號中的語音頻譜進行傅里葉變換FFT分析,根據(jù)分析結果計算所述待識別語音信號中的元音信號、濁音信號及輕輔音信號。
優(yōu)選地,上述所述的語音識別系統(tǒng),所述特征提取單元通過從編碼后的所述待識別語音信號中提取頻率倒譜系數(shù)MFCC特征,獲得所述語音特征參數(shù)。優(yōu)選地,上述所述的語音識別系統(tǒng),所述語音識別系統(tǒng)還包括:語音建模單元,用于利用所述語音特征參數(shù),采用頻率倒譜系數(shù)MFCC建立與文本無關的高斯混合模型為語音的聲學模型。優(yōu)選地,上述所述的語音識別系統(tǒng),所述模式匹配單元利用高斯混合模型,使用最大后驗概率算法MAP將所提取的所述語音特征參數(shù)與至少一個所述語音模型進行匹配,計算所述待識別語音信號與每一個所述語音模型的似然度。優(yōu)選地,上述所述的語音識別系統(tǒng),采用最大后驗概率算法MAP將所提取的所述語音特征參數(shù)與至少一個所述語音模型進行匹配,確定所述待識別語音信號所屬的用戶的方式具體采用以下公式:
權利要求
1.一種語音識別系統(tǒng),其特征在于,包括: 存儲單元,用于存儲至少一個用戶的語音模型; 語音采集及預處理單元,用于采集待識別語音信號,對所述待識別語音信號進行格式轉換及編碼; 特征提取單元,用于從編碼后的所述待識別語音信號中提取語音特征參數(shù); 模式匹配單元,用于將所提取的所述語音特征參數(shù)與至少一個所述語音模型進行匹配,確定所述待識別語音信號所屬的用戶。
2.如權利要求1所述的語音識別系統(tǒng),其特征在于,在采集所述待識別語音信號后,所述語音采集及預處理單元還用于依次對所述待識別語音信號進行放大、增益控制、濾波及采樣,之后對所述待識別語音信號進行格式轉換及編碼,使所述待識別語音信號被分割為由多幀組合而成的短時信號。
3.如權利要求2所述的語音識別系統(tǒng),其特征在于,所述語音采集及預處理單元還用于對進行格式轉換及編碼后的所述待識別語音信號采用窗函數(shù)進行預加重處理。
4.如權利要求1所述的語音識別系統(tǒng),其特征在于,所述語音識別系統(tǒng)還包括: 端點檢測單元,用于計算進行格式轉換及編碼后的所述待識別語音信號的語音起點及語音終點,去除所述 待識別語音信號中的靜音信號,獲得所述待識別語音信號中語音的時域范圍;以及用于對所述待識別語音信號中的語音頻譜進行傅里葉變換FFT分析,根據(jù)分析結果計算所述待識別語音信號中的元音信號、濁音信號及輕輔音信號。
5.如權利要求1所述的語音識別系統(tǒng),其特征在于,所述特征提取單元通過從編碼后的所述待識別語音信號中提取頻率倒譜系數(shù)MFCC特征,獲得所述語音特征參數(shù)。
6.如權利要求5所述的語音識別系統(tǒng),其特征在于,所述語音識別系統(tǒng)還包括:語音建模單元,用于利用所述語音特征參數(shù),采用頻率倒譜系數(shù)MFCC建立與文本無關的高斯混合模型為語音的聲學模型。
7.如權利要求1所述的語音識別系統(tǒng),其特征在于,所述模式匹配單元利用高斯混合模型,使用最大后驗概率算法MAP將所提取的所述語音特征參數(shù)與至少一個所述語音模型進行匹配,計算所述待識別語音信號與每一個所述語音模型的似然度。
8.如權利要求7所述的語音識別系統(tǒng),其特征在于,采用最大后驗概率算法MAP將所提取的所述語音特征參數(shù)與至少一個所述語音模型進行匹配,確定所述待識別語音信號所屬的用戶的方式具體采用以下公式:
9.如權利要求8所述的語音識別系統(tǒng),其特征在于,利用高斯混合模型,所述待識別語音信號的特征參數(shù)由一組參數(shù)丨w,、總、 丨唯一確定,其中K、兵、Ci分別為說話人語音特征參數(shù)的混合加權值、平均值向量及協(xié)方差矩陣。
10.如權利要求7所述的語音識別系統(tǒng),其特征在于,所述語音識別系統(tǒng)還包括判決單元,用于將與所述待識別語音信號具有最高似然度的所述語音模型與預設識別門限進行比對,確定所述待識別語音信號所屬的用戶`。
全文摘要
本發(fā)明提供一種語音識別系統(tǒng),包括存儲單元,用于存儲至少一個用戶的語音模型;語音采集及預處理單元,用于采集待識別語音信號,對所述待識別語音信號進行格式轉換及編碼;特征提取單元,用于從編碼后的所述待識別語音信號中提取語音特征參數(shù);模式匹配單元,用于將所提取的所述語音特征參數(shù)與至少一個所述語音模型進行匹配,確定所述待識別語音信號所屬的用戶。該系統(tǒng)從語音的產(chǎn)生原理開始分析語音的特性,并使用MFCC參數(shù),建立說話人的語音特征模型,實現(xiàn)說話人的特征識別算法,能夠達到提高說話人檢測可靠性的目的,使得最終能夠在電子產(chǎn)品上實現(xiàn)說話人識別的功能。
文檔編號G10L25/93GK103236260SQ20131010904
公開日2013年8月7日 申請日期2013年3月29日 優(yōu)先權日2013年3月29日
發(fā)明者王健銘 申請人:京東方科技集團股份有限公司, 北京京東方顯示技術有限公司