基于嵌入式gpu系統(tǒng)的并行化語(yǔ)音識(shí)別系統(tǒng)及方法

文檔序號(hào)：8224540閱讀：466來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

基于嵌入式gpu系統(tǒng)的并行化語(yǔ)音識(shí)別系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及一種語(yǔ)音識(shí)別系統(tǒng)及方法，尤其設(shè)及一種基于嵌入式GPU系統(tǒng)的并行化語(yǔ)音識(shí)別系統(tǒng)及方法，屬于語(yǔ)音識(shí)別領(lǐng)域。
【背景技術(shù)】
[0002] 隨著人工智能，智能終端等技術(shù)與設(shè)備的發(fā)展，語(yǔ)音識(shí)別被越來(lái)越廣泛地應(yīng)用，傳統(tǒng)的語(yǔ)音識(shí)別方法通常是利用DSP等硬件裝置或者結(jié)合人工神經(jīng)網(wǎng)絡(luò)算法等方式，將音頻整個(gè)送入識(shí)別引擎作處理，該樣做的好處是保留了語(yǔ)義的連貫性，可W最大限度地確保識(shí) 別結(jié)果的準(zhǔn)確率，但該種語(yǔ)音識(shí)別方法的缺點(diǎn)也顯而易見(jiàn)；一方面是硬件成本高，系統(tǒng)結(jié)構(gòu) 復(fù)雜；另一方面是識(shí)別時(shí)間過(guò)長(zhǎng)，難W處理大數(shù)據(jù)量的音頻文件，所W需要做并行化處理W 縮短其識(shí)別時(shí)間。
[0003] 而現(xiàn)有的并行化技術(shù)目前還只停留在W數(shù)據(jù)為驅(qū)動(dòng)的宏觀層面上，即由多路引擎組成集群，在同一個(gè)時(shí)間段可W在不同的機(jī)器上處理多個(gè)文件，一定程度上減小了處理器的壓力。但隨之而來(lái)的問(wèn)題是；切分后的音頻數(shù)據(jù)在網(wǎng)絡(luò)中傳輸所帶來(lái)的時(shí)間開(kāi)銷(xiāo)大，不能達(dá)到實(shí)時(shí)性要求、算法復(fù)雜，缺乏合理有效地并行調(diào)度控制W及部署集群來(lái)做語(yǔ)音識(shí)別成本過(guò)大，難W民用化。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明在于提供一種基于嵌入式GPU系統(tǒng)的并行化語(yǔ)音識(shí)別系統(tǒng)及方法，W解決現(xiàn)有語(yǔ)音識(shí)別方法并行化程度低、時(shí)間開(kāi)銷(xiāo)大W及成本高的技術(shù)問(wèn)題。
[0005] 本發(fā)明的目的通過(guò)W下技術(shù)方案予W實(shí)現(xiàn)；基于嵌入式GPU系統(tǒng)的并行化語(yǔ)音識(shí) 別系統(tǒng)，包括嵌入式GPU系統(tǒng)1、語(yǔ)音輸入模塊2和顯示輸出模塊3 ;其中嵌入式GPU系統(tǒng)1 由預(yù)處理模塊1-1、并行化特征提取模塊1-2、并行化特征匹配模塊1-3和語(yǔ)音庫(kù)1-4組成；語(yǔ)音輸入模塊2的輸出信號(hào)進(jìn)入嵌入式GPU系統(tǒng)1，在嵌入式GPU系統(tǒng)1內(nèi)順序通過(guò)預(yù)處理模塊1-1、并行化特征提取模塊1-2和并行化特征匹配模塊1-3,信號(hào)在嵌入式GPU系統(tǒng) 1內(nèi)處理后輸出進(jìn)入顯示輸出模塊3進(jìn)行輸出顯示；語(yǔ)音庫(kù)1-4的輸入信號(hào)進(jìn)入并行化特征匹配模塊1-3。
[0006] 基于嵌入式GPU系統(tǒng)的并行化語(yǔ)音識(shí)別系統(tǒng)的方法，包括下列步驟：
[0007] 1、語(yǔ)音輸入模塊2采集語(yǔ)音信號(hào)，并將數(shù)字化的信號(hào)送入基于CUDA平臺(tái)架構(gòu)的嵌入式GPU系統(tǒng)1 ;
[000引 2、信號(hào)進(jìn)入嵌入式GPU系統(tǒng)1的預(yù)處理模塊1-1，利用CUDA架構(gòu)在預(yù)處理模塊1-1 中進(jìn)行W下預(yù)處理步驟：
[0009] (a)通過(guò)并行化的一階數(shù)字預(yù)加重濾波程序?yàn)V除輸入語(yǔ)音信號(hào)的低頻干擾，提升對(duì)語(yǔ)音識(shí)別有用的高頻部分；
[0010] 化）利用并行化的方法給輸入語(yǔ)音信號(hào)加窗分帖，使得語(yǔ)音信號(hào)更易于處理；
[0011] (C)采用雙口限比較法進(jìn)行端點(diǎn)檢測(cè)，將輸入語(yǔ)音信號(hào)切分為若干片段，減少計(jì)算量，提高系統(tǒng)的識(shí)別率；
[0012] 3、利用CUDA架構(gòu)，在并行化特征提取模塊1-2中對(duì)切分后的每個(gè)語(yǔ)音片段并行化地進(jìn)行特征提?。?br>[0013] 4、利用CUDA架構(gòu)，在并行化特征匹配模塊1-3中將分段特征提取后的信號(hào)特征值與語(yǔ)音庫(kù)1-4中的語(yǔ)音模板進(jìn)行并行化的特征匹配；
[0014] 5、整合各片段的匹配識(shí)別結(jié)果，得出完整的語(yǔ)音識(shí)別信息，送入顯示輸出模塊3 顯不結(jié)果。
[0015] 其中，所述步驟2(a)中一階數(shù)字預(yù)加重濾波程序由一階高通濾波器實(shí)現(xiàn)，其傳遞函數(shù)為；H(z) = 1-az-i。
[0016] 其中，所述步驟2(b)中對(duì)語(yǔ)音信號(hào)的分帖加窗是由可移動(dòng)的有限長(zhǎng)度窗口進(jìn)行加權(quán)的方法來(lái)實(shí)現(xiàn)的，即5,〇1)=5〇1)*巧〇1)，其中5〇1)為加窗前的函數(shù)，5,〇1)為加窗后的函數(shù)，w(n)即為所加的窗函數(shù)。
[0017] 其中，所述步驟2(c)中端點(diǎn)檢測(cè)是通過(guò)將語(yǔ)音信號(hào)的短時(shí)能量和短時(shí)過(guò)零率作為特征參數(shù)，同時(shí)采用雙口限判定法來(lái)檢測(cè)語(yǔ)音，根據(jù)語(yǔ)音間短暫停頓切分語(yǔ)音信號(hào)實(shí)現(xiàn)。
[0018] 其中，所述步驟3中提取各段語(yǔ)音信號(hào)的特征值，是通過(guò)對(duì)切分后的每個(gè)語(yǔ)音片段并行化進(jìn)行特征提取來(lái)實(shí)現(xiàn)，提取的特征值參數(shù)為該片段的Mel頻率倒譜系數(shù)MFCC和片段索引數(shù)組。特征值參數(shù)中的索引數(shù)組是指本語(yǔ)音片段中每帖的特征向量的一維量化值組成的一維數(shù)組；該一維量化值是采用自相似加權(quán)距離法對(duì)音頻特征數(shù)據(jù)進(jìn)行降維處理產(chǎn)生的對(duì)于第i帖n維特征向量Xi，對(duì)應(yīng)的一維量化值Pi:
[0019]
【主權(quán)項(xiàng)】
1. 基于嵌入式GPU系統(tǒng)的并行化語(yǔ)音識(shí)別系統(tǒng)，其特征在于，包括嵌入式GPU系統(tǒng) (1)、語(yǔ)音輸入模塊（2)和顯示輸出模塊（3);其中嵌入式GPU系統(tǒng)（1)由預(yù)處理模塊（1-1)、并行化特征提取模塊（1-2)、并行化特征匹配模塊（1-3)和語(yǔ)音庫(kù)（1-4)組成；語(yǔ)音輸入模塊（2)的輸出信號(hào)進(jìn)入嵌入式GPU系統(tǒng)（1)，在嵌入式GPU系統(tǒng)（1)內(nèi)順序通過(guò)預(yù)處理模塊（1-1)、并行化特征提取模塊（1-2)和并行化特征匹配模塊（1-3)，信號(hào)在嵌入式GPU系統(tǒng)（1)內(nèi)處理后輸出進(jìn)入顯示輸出模塊（3)進(jìn)行輸出顯示；語(yǔ)音庫(kù)（1-4)的參考信號(hào)進(jìn)入并行化特征匹配模塊（1-3)。
2. 基于嵌入式GPU系統(tǒng)的并行化語(yǔ)音識(shí)別系統(tǒng)的方法，其特征在于，包括下列步驟： (1) 語(yǔ)音輸入模塊（2)采集語(yǔ)音信號(hào)，并將數(shù)字化的信號(hào)送入基于CUDA平臺(tái)架構(gòu)的嵌入式GPU系統(tǒng)（1); (2) 信號(hào)進(jìn)入嵌入式GPU系統(tǒng)（1)的預(yù)處理模塊（1-1)，利用CUDA架構(gòu)在預(yù)處理模塊 (1-1)中進(jìn)行以下預(yù)處理步驟： (a) 通過(guò)并行化的一階數(shù)字預(yù)加重濾波程序?yàn)V除輸入語(yǔ)音信號(hào)的低頻干擾，提升對(duì)語(yǔ) 音識(shí)別有用的高頻部分； (b) 利用并行化的方法給輸入語(yǔ)音信號(hào)加窗分幀，使得語(yǔ)音信號(hào)更易于處理； (c) 采用雙門(mén)限比較法進(jìn)行端點(diǎn)檢測(cè)，將輸入語(yǔ)音信號(hào)切分為若干片段，減少計(jì)算量，提尚系統(tǒng)的識(shí)別率； (3) 利用CUDA架構(gòu)，在并行化特征提取模塊（1-2)中對(duì)切分后的每個(gè)語(yǔ)音片段并行化地進(jìn)行特征提取； (4) 利用CUDA架構(gòu)，在并行化特征匹配模塊（1-3)中將分段特征提取后的信號(hào)特征值與語(yǔ)音庫(kù)（1-4)中的語(yǔ)音模板進(jìn)行并行化的特征匹配； (5) 整合各片段的匹配識(shí)別結(jié)果，得出完整的語(yǔ)音識(shí)別信息，送入顯示輸出模塊（3)顯不結(jié)果。
3. 根據(jù)權(quán)利要求2所述的基于嵌入式GPU系統(tǒng)的并行化語(yǔ)音識(shí)別系統(tǒng)及方法，其特征在于，所述步驟（a)中一階數(shù)字預(yù)加重濾波程序由一階高通濾波器實(shí)現(xiàn)，其傳遞函數(shù)為： H(z) = l_az-1〇
4. 根據(jù)權(quán)利要求2所述的基于嵌入式GPU系統(tǒng)的并行化語(yǔ)音識(shí)別系統(tǒng)及方法，其特征在于，所述步驟（b)中對(duì)語(yǔ)音信號(hào)的加窗分幀是由可移動(dòng)的有限長(zhǎng)度窗口進(jìn)行加權(quán)的方法來(lái)實(shí)現(xiàn)的，即3?=3〇1)*￥(11)，其中5(11)為加窗前的函數(shù)，5?為加窗后的函數(shù)，￥(11) 即為所加的窗函數(shù)。
5. 根據(jù)權(quán)利要求2所述的基于嵌入式GPU系統(tǒng)的并行化語(yǔ)音識(shí)別系統(tǒng)及方法，其特征在于，所述步驟（c)中端點(diǎn)檢測(cè)是通過(guò)將語(yǔ)音信號(hào)的短時(shí)能量和短時(shí)過(guò)零率作為特征參數(shù)，同時(shí)采用雙門(mén)限判定法來(lái)檢測(cè)語(yǔ)音，根據(jù)語(yǔ)音間短暫停頓切分語(yǔ)音信號(hào)實(shí)現(xiàn)。
6. 根據(jù)權(quán)利要求2所述的一種基于嵌入式GPU系統(tǒng)的并行化語(yǔ)音識(shí)別系統(tǒng)及方法，其特征在于，所述步驟（3)對(duì)切分后的每個(gè)語(yǔ)音片段并行化進(jìn)行特征提取，提取的特征值參數(shù)為該片段的Mel頻率倒譜系數(shù)MFCC和片段索引數(shù)組。
7. 根據(jù)權(quán)利要求2或6所述的基于嵌入式GPU系統(tǒng)的并行化語(yǔ)音識(shí)別系統(tǒng)及方法，其特征在于，所述步驟（3)中，特征值參數(shù)中的索引數(shù)組是指本語(yǔ)音片段中每幀的特征向量的一維量化值組成的一維數(shù)組；該一維量化值是采用自相似加權(quán)距離法對(duì)音頻特征數(shù)據(jù)進(jìn) 行降維處理產(chǎn)生的；對(duì)于第i幀η維特征向量Xi，對(duì)應(yīng)的一維量化值pi:
其中，d^Xy)表示兩個(gè)特征向量間的距離，R為計(jì)算范圍，Cj為加權(quán)系數(shù)，其值可采用下列公式確定：
8. 根據(jù)權(quán)利要求2或7所述的基于嵌入式GPU系統(tǒng)的并行化語(yǔ)音識(shí)別系統(tǒng)及方法，其特征在于，所述并行化特征提取模塊（1-2)對(duì)每一語(yǔ)音片段進(jìn)行特征值提取計(jì)算的過(guò)程是并行化的；在CUDA平臺(tái)架構(gòu)下，為每個(gè)語(yǔ)音片段分配一個(gè)線程，并行執(zhí)行特征值計(jì)算，以加快處理速度，提高系統(tǒng)效率。
9. 根據(jù)權(quán)利要求2所述的基于嵌入式GPU系統(tǒng)的并行化語(yǔ)音識(shí)別系統(tǒng)及方法，其特征在于，所述步驟（4)中，分段特征提取后的信號(hào)特征值與已有語(yǔ)音庫(kù)（1-4)中的模板進(jìn)行并行化特征匹配過(guò)程：首先利用各片段的索引數(shù)組來(lái)計(jì)算該音頻片段與各模板的相似度，如果相似度小于所設(shè)定的閾值，則本次匹配失敗，接著進(jìn)行下一個(gè)索引數(shù)組與模板的相似度計(jì)算；否則，繼續(xù)利用該語(yǔ)音片段的MFCC特征值來(lái)計(jì)算與當(dāng)前模板的相似度，如果MFCC特征值相似度大于設(shè)定閾值，則該片段與模板匹配成功；按此方法通過(guò)并行化的片段匹配，最終識(shí)別完整的語(yǔ)音內(nèi)容。
10. 根據(jù)權(quán)利要求2或9所述的基于嵌入式GPU系統(tǒng)的并行化語(yǔ)音識(shí)別系統(tǒng)及方法，其特征在于，所述并行化特征匹配模塊（1-3)語(yǔ)音片段的特征值匹配是通過(guò)基于CUDA平臺(tái)的并行化音頻檢索方法實(shí)現(xiàn)的；根據(jù)每次輸入GPU的語(yǔ)音片段數(shù)自適應(yīng)的設(shè)置相應(yīng)GPU執(zhí)行配置，多個(gè)線程組成一個(gè)線程塊，若干個(gè)線程塊組成一個(gè)線程格；將語(yǔ)音庫(kù)中的眾多模板分給各線程塊去處理，即：線程格內(nèi)的每個(gè)線程塊處理不同的模板，而每個(gè)線程塊內(nèi)的所有線程處理同一個(gè)模板；每個(gè)語(yǔ)音片段分別與一個(gè)線程塊中同一模板的每個(gè)線程進(jìn)行并行匹配計(jì)算；這樣每個(gè)CUDA線程都相互獨(dú)立地執(zhí)行各自的匹配運(yùn)算。
【專利摘要】本發(fā)明公布了一種基于GPU系統(tǒng)的并行化語(yǔ)音識(shí)別系統(tǒng)及方法，該系統(tǒng)包括嵌入式GPU系統(tǒng)、語(yǔ)音輸入模塊和顯示輸出模塊；其中，嵌入式GPU系統(tǒng)由預(yù)處理模塊、并行化特征提取模塊和并行化特征匹配模塊組成。語(yǔ)音輸入模塊輸出信號(hào)進(jìn)入嵌入式GPU系統(tǒng)，在嵌入式GPU系統(tǒng)內(nèi)順序通過(guò)預(yù)處理模塊、并行化特征提取模塊和并行化特征匹配模塊，輸入至顯示輸出模塊顯示；語(yǔ)音庫(kù)的信號(hào)模板進(jìn)入并行化特征匹配模塊。本發(fā)明對(duì)部分模塊進(jìn)行了并行化改進(jìn)，能夠處理大數(shù)據(jù)量的音頻識(shí)別。同時(shí)利用并行化方法優(yōu)化語(yǔ)音信號(hào)處理等過(guò)程，提高語(yǔ)音識(shí)別系統(tǒng)效率，保證語(yǔ)音識(shí)別功能實(shí)時(shí)性，增強(qiáng)語(yǔ)音識(shí)別系統(tǒng)的健壯性和穩(wěn)定性。本發(fā)明還公布了一種基于GPU系統(tǒng)的并行化語(yǔ)音識(shí)別系統(tǒng)的方法。
【IPC分類(lèi)】G10L15-26
【公開(kāi)號(hào)】CN104538033
【申請(qǐng)?zhí)枴緾N201410837018
【發(fā)明人】劉鎮(zhèn), 呂超, 孟騰騰, 范遠(yuǎn)超
【申請(qǐng)人】江蘇科技大學(xué)
【公開(kāi)日】2015年4月22日
【申請(qǐng)日】2014年12月29日

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉鎮(zhèn);呂超;孟騰騰;范遠(yuǎn)超;
技術(shù)所有人：江蘇科技大學(xué);
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

嵌入式語(yǔ)音識(shí)別系統(tǒng)相關(guān)技術(shù)

gpu并行計(jì)算相關(guān)技術(shù)

gpu并行相關(guān)技術(shù)

gpu并行運(yùn)算服務(wù)器相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于嵌入式gpu系統(tǒng)的并行化語(yǔ)音識(shí)別系統(tǒng)及方法