一種快速語音孤立詞識別算法及其用途、語音識別系統(tǒng)的制作方法
【專利摘要】本發(fā)明的快速語音孤立詞識別算法主要包括步驟:S1、對語音信號x(n)進行連續(xù)頻譜分析以獲得二維圖像語譜圖,其中縱坐標為頻率,橫坐標為時間,像素灰度值大小反應(yīng)相應(yīng)時刻和相應(yīng)頻率的信號能量密度;S2、將語譜圖等效為時頻函數(shù);S3、將時頻函數(shù)與語譜圖相結(jié)合為特征參數(shù)并提取。上述算法應(yīng)用于STM32低速嵌入式處理器實現(xiàn)語音開關(guān)功能。有益效果:本發(fā)明的快速語音孤立詞識別算法、用途及語音識別系統(tǒng)可以實現(xiàn)在低速嵌入式系統(tǒng)上的語音開關(guān)識別系統(tǒng),從而降低語音開關(guān)芯片的價格,且方便攜帶,因此可以應(yīng)用到不同的場合。
【專利說明】一種快速語音孤立詞識別算法及其用途、語音識別系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于語音識別【技術(shù)領(lǐng)域】,涉及用于例如STM32等低速嵌入式系統(tǒng)的快速語音識別算法以及應(yīng)用這種算法的采用低速嵌入式系統(tǒng)芯片的語音識別系統(tǒng),特別涉及一種適用于上述系統(tǒng)的快速語音孤立詞識別算法及其語音識別系統(tǒng)。
【背景技術(shù)】
[0002]經(jīng)過近五十年的發(fā)展,語音識別技術(shù)在許多應(yīng)用領(lǐng)域顯示出巨大的應(yīng)用前景。在手機、呼叫中心、車載、互聯(lián)網(wǎng)電視、智能家電、語言翻譯等各領(lǐng)域得到創(chuàng)新應(yīng)用。語音可以幫助客戶做本地化的應(yīng)用,包括打電話、發(fā)短信、查詢目的歌曲,也可以聊天。短短兩年時間內(nèi),科大訊飛、Apple、百度、盛大、云之聲、騰訊、中科院自動化所等公司或單位相繼推出了在線語音識別引擎和應(yīng)用軟件。近年來,科大訊飛、云之聲、中科院自動化所又相繼推出了適合手機平臺使用的離線語音識別引擎。短短數(shù)年,互聯(lián)網(wǎng)搜索巨頭、網(wǎng)游巨頭、通訊巨頭和學術(shù)帶頭單位紛紛進軍語音識別的產(chǎn)業(yè)化應(yīng)用,掀起語音識別的應(yīng)用熱潮。但是,目前大多數(shù)語音識別系統(tǒng)的 關(guān)鍵技術(shù)都是基于HMM模型而開發(fā)的,HMM是一種統(tǒng)計模型,模型參數(shù)的估計需要大量的訓練數(shù)據(jù),而且訓練過程計算量大,耗時長,運算起來極為復雜,在一般的硬件下根本不可能運行。上述HMM模型除了 PC機、DSP和FPGA等一些專門用于處理數(shù)字信號的芯片及各種語音芯片外幾乎不能在一般的硬件上實現(xiàn),導致基于上述模型開發(fā)的語音系統(tǒng)昂貴。目前也有部分語音系統(tǒng)使用非數(shù)字信號芯片作為語音識別芯片,雖在成本上比起語音專用芯片便宜很多,但在硬件上大部分是在PC系統(tǒng)完成碼本訓練和語音模板的訓練,嵌入式系統(tǒng)只完成語音識別部分;或者直接使用語音芯片,嵌入式系統(tǒng)僅僅做控制使用。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的目的是為了解決現(xiàn)有的語音識別系統(tǒng)或者采用的專用語音芯片價格昂貴或者需要在PC系統(tǒng)中完成碼本訓練集語音模板訓練等不足,提出了一種快速語音孤立詞識別算法及語音識別系統(tǒng)。
[0004]本發(fā)明的技術(shù)方案為:一種快速語音孤立詞識別算法,其特征在于,包括以下步驟:
[0005]S1、對語音信號x(n)進行連續(xù)頻譜分析以獲得二維圖像語譜圖,其中縱坐標為頻率,橫坐標為時間,像素灰度值大小反應(yīng)相應(yīng)時刻和相應(yīng)頻率的信號能量密度;
[0006]S2、將語譜圖等效為時頻函數(shù);
[0007]S3、將時頻函數(shù)與語譜圖相結(jié)合為特征參數(shù)并提取。
[0008]進一步的,上述步驟SI包括步驟:
[0009]SlU STFT:
eo
[0010]x?(u*) = ^![0011]S12、X (η)做 DTFT 變換:
【權(quán)利要求】
1.一種快速語音孤立詞識別算法,其特征在于,包括以下步驟: 51、對語音信號X(n)進行連續(xù)頻譜分析以獲得二維圖像語譜圖,其中縱坐標為頻率,橫坐標為時間,像素灰度值大小反應(yīng)相應(yīng)時刻和相應(yīng)頻率的信號能量密度; 52、將語譜圖等效為時頻函數(shù); 53、將時頻函數(shù)與語譜圖相結(jié)合為特征參數(shù)并提取。
2.根據(jù)權(quán)利要求1所述的快速語音孤立詞識別算法,其特征在于,步驟SI包括步驟:
511、STFT:
3.根據(jù)權(quán)利要求1或2所述的快速語音孤立詞識別算法,其特征在于,步驟S2包括步驟: 521、通過過零率尋找過零點的位置,并記錄: 定義信號Ix (η)}的短時平均過零率Zn:1 4mZn = ; Σ I sgn[-v(?0]-sgn[.r(w — I)] | w(n-m) 式中,sgn為符號函數(shù):
4.快速語音孤立詞識別算法應(yīng)用于STM32低速嵌入式處理器實現(xiàn)語音開關(guān)功能。
5.一種語音識別系統(tǒng),其特征在于,包括低速嵌入式處理單元,與處理單元連接的語音輸入單元和信號輸出單元,所述低速嵌入式處理單元內(nèi)包含實現(xiàn)快速語音孤立詞識別算法的軟件程序。
6.根據(jù)權(quán)利要求5所述的語音識別系統(tǒng),其特征在于,低速嵌入式處理單元芯片型號為 STM32F103ZET6。
7.根據(jù)權(quán)利要求5或6所述的語音識別系統(tǒng),其特征在于,語音識別系統(tǒng)還包括SD卡槽,用于連接外部SD卡用于存儲數(shù)據(jù)。
8.根據(jù)權(quán)利要求7所述的語音識別系統(tǒng),其特征在于,語音識別系統(tǒng)還包括設(shè)置用得功能按鍵,用于更改軟件系統(tǒng)設(shè)置。
9.根據(jù)權(quán)利要求8所 述的語音識別系統(tǒng),其特征在于,語音識別系統(tǒng)還包括顯示單元,用于顯示設(shè)置結(jié)果。
10.根據(jù)權(quán)利要求5至9之任一項權(quán)利要求所述的語音識別系統(tǒng),其特征在于,語音識別系統(tǒng)的軟件程序包含“開”和“關(guān)”讀音的模型,并存儲于軟件模型庫,用于制作語音開關(guān)。
【文檔編號】G10L15/02GK103971676SQ201410164154
【公開日】2014年8月6日 申請日期:2014年4月23日 優(yōu)先權(quán)日:2014年4月23日
【發(fā)明者】殷業(yè), 李麗, 劉傳勇, 劉芳萍 申請人:上海師范大學