基于嵌入式gpu系統(tǒng)的并行化語(yǔ)音識(shí)別系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及一種語(yǔ)音識(shí)別系統(tǒng)及方法,尤其設(shè)及一種基于嵌入式GPU系統(tǒng)的并行 化語(yǔ)音識(shí)別系統(tǒng)及方法,屬于語(yǔ)音識(shí)別領(lǐng)域。
【背景技術(shù)】
[0002] 隨著人工智能,智能終端等技術(shù)與設(shè)備的發(fā)展,語(yǔ)音識(shí)別被越來(lái)越廣泛地應(yīng)用,傳 統(tǒng)的語(yǔ)音識(shí)別方法通常是利用DSP等硬件裝置或者結(jié)合人工神經(jīng)網(wǎng)絡(luò)算法等方式,將音頻 整個(gè)送入識(shí)別引擎作處理,該樣做的好處是保留了語(yǔ)義的連貫性,可W最大限度地確保識(shí) 別結(jié)果的準(zhǔn)確率,但該種語(yǔ)音識(shí)別方法的缺點(diǎn)也顯而易見(jiàn);一方面是硬件成本高,系統(tǒng)結(jié)構(gòu) 復(fù)雜;另一方面是識(shí)別時(shí)間過(guò)長(zhǎng),難W處理大數(shù)據(jù)量的音頻文件,所W需要做并行化處理W 縮短其識(shí)別時(shí)間。
[0003] 而現(xiàn)有的并行化技術(shù)目前還只停留在W數(shù)據(jù)為驅(qū)動(dòng)的宏觀層面上,即由多路引擎 組成集群,在同一個(gè)時(shí)間段可W在不同的機(jī)器上處理多個(gè)文件,一定程度上減小了處理器 的壓力。但隨之而來(lái)的問(wèn)題是;切分后的音頻數(shù)據(jù)在網(wǎng)絡(luò)中傳輸所帶來(lái)的時(shí)間開(kāi)銷(xiāo)大,不能 達(dá)到實(shí)時(shí)性要求、算法復(fù)雜,缺乏合理有效地并行調(diào)度控制W及部署集群來(lái)做語(yǔ)音識(shí)別成 本過(guò)大,難W民用化。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明在于提供一種基于嵌入式GPU系統(tǒng)的并行化語(yǔ)音識(shí)別系統(tǒng)及方法,W解決 現(xiàn)有語(yǔ)音識(shí)別方法并行化程度低、時(shí)間開(kāi)銷(xiāo)大W及成本高的技術(shù)問(wèn)題。
[0005] 本發(fā)明的目的通過(guò)W下技術(shù)方案予W實(shí)現(xiàn);基于嵌入式GPU系統(tǒng)的并行化語(yǔ)音識(shí) 別系統(tǒng),包括嵌入式GPU系統(tǒng)1、語(yǔ)音輸入模塊2和顯示輸出模塊3 ;其中嵌入式GPU系統(tǒng)1 由預(yù)處理模塊1-1、并行化特征提取模塊1-2、并行化特征匹配模塊1-3和語(yǔ)音庫(kù)1-4組成; 語(yǔ)音輸入模塊2的輸出信號(hào)進(jìn)入嵌入式GPU系統(tǒng)1,在嵌入式GPU系統(tǒng)1內(nèi)順序通過(guò)預(yù)處 理模塊1-1、并行化特征提取模塊1-2和并行化特征匹配模塊1-3,信號(hào)在嵌入式GPU系統(tǒng) 1內(nèi)處理后輸出進(jìn)入顯示輸出模塊3進(jìn)行輸出顯示;語(yǔ)音庫(kù)1-4的輸入信號(hào)進(jìn)入并行化特 征匹配模塊1-3。
[0006] 基于嵌入式GPU系統(tǒng)的并行化語(yǔ)音識(shí)別系統(tǒng)的方法,包括下列步驟:
[0007] 1、語(yǔ)音輸入模塊2采集語(yǔ)音信號(hào),并將數(shù)字化的信號(hào)送入基于CUDA平臺(tái)架構(gòu)的嵌 入式GPU系統(tǒng)1 ;
[000引 2、信號(hào)進(jìn)入嵌入式GPU系統(tǒng)1的預(yù)處理模塊1-1,利用CUDA架構(gòu)在預(yù)處理模塊1-1 中進(jìn)行W下預(yù)處理步驟:
[0009] (a)通過(guò)并行化的一階數(shù)字預(yù)加重濾波程序?yàn)V除輸入語(yǔ)音信號(hào)的低頻干擾,提升 對(duì)語(yǔ)音識(shí)別有用的高頻部分;
[0010] 化)利用并行化的方法給輸入語(yǔ)音信號(hào)加窗分帖,使得語(yǔ)音信號(hào)更易于處理;
[0011] (C)采用雙口限比較法進(jìn)行端點(diǎn)檢測(cè),將輸入語(yǔ)音信號(hào)切分為若干片段,減少計(jì)算 量,提高系統(tǒng)的識(shí)別率;
[0012] 3、利用CUDA架構(gòu),在并行化特征提取模塊1-2中對(duì)切分后的每個(gè)語(yǔ)音片段并行化 地進(jìn)行特征提?。?br>[0013] 4、利用CUDA架構(gòu),在并行化特征匹配模塊1-3中將分段特征提取后的信號(hào)特征值 與語(yǔ)音庫(kù)1-4中的語(yǔ)音模板進(jìn)行并行化的特征匹配;
[0014] 5、整合各片段的匹配識(shí)別結(jié)果,得出完整的語(yǔ)音識(shí)別信息,送入顯示輸出模塊3 顯不結(jié)果。
[0015] 其中,所述步驟2(a)中一階數(shù)字預(yù)加重濾波程序由一階高通濾波器實(shí)現(xiàn),其傳遞 函數(shù)為;H(z) = 1-az-i。
[0016] 其中,所述步驟2(b)中對(duì)語(yǔ)音信號(hào)的分帖加窗是由可移動(dòng)的有限長(zhǎng)度窗口進(jìn)行 加權(quán)的方法來(lái)實(shí)現(xiàn)的,即5,〇1)=5〇1)*巧〇1),其中5〇1)為加窗前的函數(shù),5,〇1)為加窗后的 函數(shù),w(n)即為所加的窗函數(shù)。
[0017] 其中,所述步驟2(c)中端點(diǎn)檢測(cè)是通過(guò)將語(yǔ)音信號(hào)的短時(shí)能量和短時(shí)過(guò)零率作 為特征參數(shù),同時(shí)采用雙口限判定法來(lái)檢測(cè)語(yǔ)音,根據(jù)語(yǔ)音間短暫停頓切分語(yǔ)音信號(hào)實(shí)現(xiàn)。
[0018] 其中,所述步驟3中提取各段語(yǔ)音信號(hào)的特征值,是通過(guò)對(duì)切分后的每個(gè)語(yǔ)音片 段并行化進(jìn)行特征提取來(lái)實(shí)現(xiàn),提取的特征值參數(shù)為該片段的Mel頻率倒譜系數(shù)MFCC和片 段索引數(shù)組。特征值參數(shù)中的索引數(shù)組是指本語(yǔ)音片段中每帖的特征向量的一維量化值組 成的一維數(shù)組;該一維量化值是采用自相似加權(quán)距離法對(duì)音頻特征數(shù)據(jù)進(jìn)行降維處理產(chǎn)生 的對(duì)于第i帖n維特征向量Xi,對(duì)應(yīng)的一維量化值Pi:
[0019]
【主權(quán)項(xiàng)】
1. 基于嵌入式GPU系統(tǒng)的并行化語(yǔ)音識(shí)別系統(tǒng),其特征在于,包括嵌入式GPU系統(tǒng) (1)、語(yǔ)音輸入模塊(2)和顯示輸出模塊(3);其中嵌入式GPU系統(tǒng)(1)由預(yù)處理模塊(1-1)、 并行化特征提取模塊(1-2)、并行化特征匹配模塊(1-3)和語(yǔ)音庫(kù)(1-4)組成;語(yǔ)音輸入模 塊(2)的輸出信號(hào)進(jìn)入嵌入式GPU系統(tǒng)(1),在嵌入式GPU系統(tǒng)(1)內(nèi)順序通過(guò)預(yù)處理模 塊(1-1)、并行化特征提取模塊(1-2)和并行化特征匹配模塊(1-3),信號(hào)在嵌入式GPU系 統(tǒng)(1)內(nèi)處理后輸出進(jìn)入顯示輸出模塊(3)進(jìn)行輸出顯示;語(yǔ)音庫(kù)(1-4)的參考信號(hào)進(jìn)入 并行化特征匹配模塊(1-3)。
2. 基于嵌入式GPU系統(tǒng)的并行化語(yǔ)音識(shí)別系統(tǒng)的方法,其特征在于,包括下列步驟: (1) 語(yǔ)音輸入模塊(2)采集語(yǔ)音信號(hào),并將數(shù)字化的信號(hào)送入基于CUDA平臺(tái)架構(gòu)的嵌 入式GPU系統(tǒng)(1); (2) 信號(hào)進(jìn)入嵌入式GPU系統(tǒng)(1)的預(yù)處理模塊(1-1),利用CUDA架構(gòu)在預(yù)處理模塊 (1-1)中進(jìn)行以下預(yù)處理步驟: (a) 通過(guò)并行化的一階數(shù)字預(yù)加重濾波程序?yàn)V除輸入語(yǔ)音信號(hào)的低頻干擾,提升對(duì)語(yǔ) 音識(shí)別有用的高頻部分; (b) 利用并行化的方法給輸入語(yǔ)音信號(hào)加窗分幀,使得語(yǔ)音信號(hào)更易于處理; (c) 采用雙門(mén)限比較法進(jìn)行端點(diǎn)檢測(cè),將輸入語(yǔ)音信號(hào)切分為若干片段,減少計(jì)算量, 提尚系統(tǒng)的識(shí)別率; (3) 利用CUDA架構(gòu),在并行化特征提取模塊(1-2)中對(duì)切分后的每個(gè)語(yǔ)音片段并行化 地進(jìn)行特征提取; (4) 利用CUDA架構(gòu),在并行化特征匹配模塊(1-3)中將分段特征提取后的信號(hào)特征值 與語(yǔ)音庫(kù)(1-4)中的語(yǔ)音模板進(jìn)行并行化的特征匹配; (5) 整合各片段的匹配識(shí)別結(jié)果,得出完整的語(yǔ)音識(shí)別信息,送入顯示輸出模塊(3)顯 不結(jié)果。
3. 根據(jù)權(quán)利要求2所述的基于嵌入式GPU系統(tǒng)的并行化語(yǔ)音識(shí)別系統(tǒng)及方法,其特 征在于,所述步驟(a)中一階數(shù)字預(yù)加重濾波程序由一階高通濾波器實(shí)現(xiàn),其傳遞函數(shù)為: H(z) = l_az-1〇
4. 根據(jù)權(quán)利要求2所述的基于嵌入式GPU系統(tǒng)的并行化語(yǔ)音識(shí)別系統(tǒng)及方法,其特征 在于,所述步驟(b)中對(duì)語(yǔ)音信號(hào)的加窗分幀是由可移動(dòng)的有限長(zhǎng)度窗口進(jìn)行加權(quán)的方法 來(lái)實(shí)現(xiàn)的,即3?=3〇1)*¥(11),其中5(11)為加窗前的函數(shù),5?為加窗后的函數(shù),¥(11) 即為所加的窗函數(shù)。
5. 根據(jù)權(quán)利要求2所述的基于嵌入式GPU系統(tǒng)的并行化語(yǔ)音識(shí)別系統(tǒng)及方法,其特 征在于,所述步驟(c)中端點(diǎn)檢測(cè)是通過(guò)將語(yǔ)音信號(hào)的短時(shí)能量和短時(shí)過(guò)零率作為特征參 數(shù),同時(shí)采用雙門(mén)限判定法來(lái)檢測(cè)語(yǔ)音,根據(jù)語(yǔ)音間短暫停頓切分語(yǔ)音信號(hào)實(shí)現(xiàn)。
6. 根據(jù)權(quán)利要求2所述的一種基于嵌入式GPU系統(tǒng)的并行化語(yǔ)音識(shí)別系統(tǒng)及方法,其 特征在于,所述步驟(3)對(duì)切分后的每個(gè)語(yǔ)音片段并行化進(jìn)行特征提取,提取的特征值參 數(shù)為該片段的Mel頻率倒譜系數(shù)MFCC和片段索引數(shù)組。
7. 根據(jù)權(quán)利要求2或6所述的基于嵌入式GPU系統(tǒng)的并行化語(yǔ)音識(shí)別系統(tǒng)及方法,其 特征在于,所述步驟(3)中,特征值參數(shù)中的索引數(shù)組是指本語(yǔ)音片段中每幀的特征向量 的一維量化值組成的一維數(shù)組;該一維量化值是采用自相似加權(quán)距離法對(duì)音頻特征數(shù)據(jù)進(jìn) 行降維處理產(chǎn)生的;對(duì)于第i幀η維特征向量Xi,對(duì)應(yīng)的一維量化值pi:
其中,d^Xy)表示兩個(gè)特征向量間的距離,R為計(jì)算范圍,Cj為加權(quán)系數(shù),其值可采 用下列公式確定:
8. 根據(jù)權(quán)利要求2或7所述的基于嵌入式GPU系統(tǒng)的并行化語(yǔ)音識(shí)別系統(tǒng)及方法,其 特征在于,所述并行化特征提取模塊(1-2)對(duì)每一語(yǔ)音片段進(jìn)行特征值提取計(jì)算的過(guò)程是 并行化的;在CUDA平臺(tái)架構(gòu)下,為每個(gè)語(yǔ)音片段分配一個(gè)線程,并行執(zhí)行特征值計(jì)算,以加 快處理速度,提高系統(tǒng)效率。
9. 根據(jù)權(quán)利要求2所述的基于嵌入式GPU系統(tǒng)的并行化語(yǔ)音識(shí)別系統(tǒng)及方法,其特征 在于,所述步驟(4)中,分段特征提取后的信號(hào)特征值與已有語(yǔ)音庫(kù)(1-4)中的模板進(jìn)行并 行化特征匹配過(guò)程:首先利用各片段的索引數(shù)組來(lái)計(jì)算該音頻片段與各模板的相似度,如 果相似度小于所設(shè)定的閾值,則本次匹配失敗,接著進(jìn)行下一個(gè)索引數(shù)組與模板的相似度 計(jì)算;否則,繼續(xù)利用該語(yǔ)音片段的MFCC特征值來(lái)計(jì)算與當(dāng)前模板的相似度,如果MFCC特 征值相似度大于設(shè)定閾值,則該片段與模板匹配成功;按此方法通過(guò)并行化的片段匹配,最 終識(shí)別完整的語(yǔ)音內(nèi)容。
10. 根據(jù)權(quán)利要求2或9所述的基于嵌入式GPU系統(tǒng)的并行化語(yǔ)音識(shí)別系統(tǒng)及方法,其 特征在于,所述并行化特征匹配模塊(1-3)語(yǔ)音片段的特征值匹配是通過(guò)基于CUDA平臺(tái)的 并行化音頻檢索方法實(shí)現(xiàn)的;根據(jù)每次輸入GPU的語(yǔ)音片段數(shù)自適應(yīng)的設(shè)置相應(yīng)GPU執(zhí)行 配置,多個(gè)線程組成一個(gè)線程塊,若干個(gè)線程塊組成一個(gè)線程格;將語(yǔ)音庫(kù)中的眾多模板分 給各線程塊去處理,即:線程格內(nèi)的每個(gè)線程塊處理不同的模板,而每個(gè)線程塊內(nèi)的所有線 程處理同一個(gè)模板;每個(gè)語(yǔ)音片段分別與一個(gè)線程塊中同一模板的每個(gè)線程進(jìn)行并行匹配 計(jì)算;這樣每個(gè)CUDA線程都相互獨(dú)立地執(zhí)行各自的匹配運(yùn)算。
【專利摘要】本發(fā)明公布了一種基于GPU系統(tǒng)的并行化語(yǔ)音識(shí)別系統(tǒng)及方法,該系統(tǒng)包括嵌入式GPU系統(tǒng)、語(yǔ)音輸入模塊和顯示輸出模塊;其中,嵌入式GPU系統(tǒng)由預(yù)處理模塊、并行化特征提取模塊和并行化特征匹配模塊組成。語(yǔ)音輸入模塊輸出信號(hào)進(jìn)入嵌入式GPU系統(tǒng),在嵌入式GPU系統(tǒng)內(nèi)順序通過(guò)預(yù)處理模塊、并行化特征提取模塊和并行化特征匹配模塊,輸入至顯示輸出模塊顯示;語(yǔ)音庫(kù)的信號(hào)模板進(jìn)入并行化特征匹配模塊。本發(fā)明對(duì)部分模塊進(jìn)行了并行化改進(jìn),能夠處理大數(shù)據(jù)量的音頻識(shí)別。同時(shí)利用并行化方法優(yōu)化語(yǔ)音信號(hào)處理等過(guò)程,提高語(yǔ)音識(shí)別系統(tǒng)效率,保證語(yǔ)音識(shí)別功能實(shí)時(shí)性,增強(qiáng)語(yǔ)音識(shí)別系統(tǒng)的健壯性和穩(wěn)定性。本發(fā)明還公布了一種基于GPU系統(tǒng)的并行化語(yǔ)音識(shí)別系統(tǒng)的方法。
【IPC分類(lèi)】G10L15-26
【公開(kāi)號(hào)】CN104538033
【申請(qǐng)?zhí)枴緾N201410837018
【發(fā)明人】劉鎮(zhèn), 呂超, 孟騰騰, 范遠(yuǎn)超
【申請(qǐng)人】江蘇科技大學(xué)
【公開(kāi)日】2015年4月22日
【申請(qǐng)日】2014年12月29日