基于動(dòng)態(tài)剪枝束寬預(yù)測(cè)的語(yǔ)音識(shí)別效率優(yōu)化方法
【專利摘要】本發(fā)明公開(kāi)了一種基于動(dòng)態(tài)剪枝束寬預(yù)測(cè)的語(yǔ)音識(shí)別效率優(yōu)化方法,該方法針對(duì)傳統(tǒng)語(yǔ)音解碼剪枝算法中存在較多冗余路徑,以及已有改進(jìn)算法中剪枝有效性不足問(wèn)題,提出基于聲學(xué)特征進(jìn)行動(dòng)態(tài)剪枝束寬的預(yù)測(cè)思路,并根據(jù)實(shí)現(xiàn)復(fù)雜度的不同,提出兩種具體的建模方式和相應(yīng)的參數(shù)估計(jì)訓(xùn)練方法,從而提高了語(yǔ)音識(shí)別解碼效率。
【專利說(shuō)明】
基于動(dòng)態(tài)剪枝束寬預(yù)測(cè)的語(yǔ)音識(shí)別效率優(yōu)化方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及語(yǔ)音識(shí)別技術(shù)領(lǐng)域,尤其涉及一種基于動(dòng)態(tài)剪枝束寬預(yù)測(cè)的語(yǔ)音識(shí)別 效率優(yōu)化方法。
【背景技術(shù)】
[0002] 大規(guī)模語(yǔ)音標(biāo)注數(shù)據(jù)的積累,圖形處理器(Graphic Processing Unit ,GPU)運(yùn)算 速度的提升,以及深度神經(jīng)網(wǎng)絡(luò)技術(shù)的成熟,大詞匯量連續(xù)語(yǔ)音識(shí)別效果近年來(lái)取得了顯 著的提升,成為人機(jī)交互的重要方式。目前語(yǔ)音交互雖然主要還是基于云端服務(wù),但移動(dòng)終 端(如智能手機(jī))的興起和無(wú)互聯(lián)網(wǎng)情況下的語(yǔ)音交互,也要求語(yǔ)音識(shí)別器能夠適應(yīng)硬件計(jì) 算資源比較有限的移動(dòng)終端。提高語(yǔ)音識(shí)別器的運(yùn)行效率無(wú)論是對(duì)節(jié)省云端服務(wù)硬件資源 提供更多服務(wù),還是對(duì)移動(dòng)終端用戶離線識(shí)別版本的訴求都具有明確的意義。
[0003] 大詞匯量連續(xù)語(yǔ)音識(shí)別計(jì)算耗時(shí)主要分為兩個(gè)部分,一是輸入語(yǔ)音聲學(xué)得分的計(jì) 算,二是從非常龐大的解碼網(wǎng)絡(luò)中搜索最優(yōu)路徑(稱之為解碼)。當(dāng)前主流的語(yǔ)音識(shí)別一般 米用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network ,CNN)或者循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)建立語(yǔ)音信號(hào)的聲學(xué) 模型,采用加權(quán)有限狀態(tài)機(jī)(Weighted Finite State Transducer,WFST)表征解碼空間,通 過(guò)廣度優(yōu)先維特比解碼獲得最優(yōu)解碼路徑和識(shí)別結(jié)果。對(duì)于聲學(xué)部分目前主要通過(guò)縮減模 型結(jié)構(gòu)、奇異值分解等方法減少運(yùn)算量。而在解碼部分則主要通過(guò)束寬剪枝(Beam Pruning)和直方圖剪枝(Histogram Pruning/Rank Pruning)來(lái)提升解碼效率。根據(jù)聲學(xué)模 型結(jié)構(gòu)和復(fù)雜度,以及解碼剪枝參數(shù)的不同,解碼部分耗時(shí)比例一般在30%_70%左右。
[0004] 傳統(tǒng)的束寬剪枝和直方圖剪枝雖然能夠在一定程度上提高解碼效率,但是解碼耗 時(shí)仍舊很多,繼續(xù)減小解碼束寬參數(shù)雖然能夠進(jìn)一步提升效率但往往會(huì)導(dǎo)致語(yǔ)音識(shí)別性能 的急劇下降。針對(duì)該問(wèn)題,目前有幾類解決思路:
[0005] 1)引入更多的信息量增加剪枝有效性,在解碼過(guò)程中提前利用解碼路徑上的聲學(xué) 得分或者語(yǔ)言模型得分提前進(jìn)行剪枝。但是該方法聲學(xué)信息的利用還比較有限;
[0006] 2)細(xì)化剪枝顆粒度多個(gè)維度進(jìn)行剪枝,在束寬剪枝和直方圖剪枝的基礎(chǔ)之上引入 更細(xì)致的剪枝單元,包括詞尾處剪枝、狀態(tài)等長(zhǎng)剪枝、詞等長(zhǎng)剪枝以及詞頭擴(kuò)展處剪枝等。 由于每個(gè)維度的剪枝束寬是通過(guò)開(kāi)發(fā)集合人工調(diào)整,導(dǎo)致最優(yōu)參數(shù)確定非常困難。同時(shí)詞 的頭尾邊界信息在WFST生成過(guò)程中被合成、確定化、最小化等操作更改掉,使得在基于WFST 解碼框架下使用比較困難。
[0007] 3)基于動(dòng)態(tài)剪枝參數(shù)估計(jì)的思路,例如,通過(guò)反饋機(jī)制避免直方圖剪枝中二遍遍 歷問(wèn)題,通過(guò)分析解碼過(guò)程中全局最優(yōu)解碼路徑在每一時(shí)刻的排名順序,建立數(shù)學(xué)模型動(dòng) 態(tài)估計(jì)直方圖剪枝參數(shù)。他們是對(duì)直方圖剪枝束寬進(jìn)行估計(jì),而直方圖剪枝有效性本身低 于束寬剪枝,很少單獨(dú)使用。此外,基于聲學(xué)置信度動(dòng)態(tài)預(yù)測(cè)剪枝束寬的思路,其置信度基 于傳統(tǒng)GMM(Gaussian Mixture Model)建模方式,置信度估計(jì)難以做到很準(zhǔn)確,另外其剪枝 束寬估計(jì)建模比較直觀簡(jiǎn)單,參數(shù)調(diào)整根據(jù)經(jīng)驗(yàn),剪枝有效性挖掘不夠充分。
【發(fā)明內(nèi)容】
[0008] 本發(fā)明的目的是提供一種基于動(dòng)態(tài)剪枝束寬預(yù)測(cè)的語(yǔ)音識(shí)別效率優(yōu)化方法,極大 的提高了語(yǔ)音識(shí)別解碼效率。
[0009] 本發(fā)明的目的是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的:
[0010] -種基于動(dòng)態(tài)剪枝束寬預(yù)測(cè)的語(yǔ)音識(shí)別效率優(yōu)化方法,包括:
[0011] 基于訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型從輸入的訓(xùn)練語(yǔ)音數(shù)據(jù)中提取出相應(yīng)的神經(jīng)網(wǎng)絡(luò)聲 學(xué)特征;
[0012] 根據(jù)提取出的神經(jīng)網(wǎng)絡(luò)聲學(xué)特征采用維特比解碼的方式,計(jì)算輸入的訓(xùn)練語(yǔ)音數(shù) 據(jù)對(duì)應(yīng)的全局最優(yōu)路徑及每幀對(duì)應(yīng)的得分,以及每幀數(shù)據(jù)局部最優(yōu)路徑的得分,從而獲得 每幀數(shù)據(jù)的臨界剪枝束寬;
[0013 ]利用每幀數(shù)據(jù)的臨界剪枝束寬與對(duì)應(yīng)的神經(jīng)網(wǎng)絡(luò)聲學(xué)特征,來(lái)確定動(dòng)態(tài)剪枝束寬 預(yù)測(cè)模型并估計(jì)相應(yīng)的模型參數(shù);
[0014] 根據(jù)所述動(dòng)態(tài)剪枝束寬預(yù)測(cè)模型以及相應(yīng)的模型參數(shù),估計(jì)待識(shí)別語(yǔ)音數(shù)據(jù)中每 一幀數(shù)據(jù)對(duì)應(yīng)的剪枝束寬,并利用估計(jì)出的剪枝束寬替代原始的固定剪枝束寬,從而提高 待識(shí)別語(yǔ)音數(shù)據(jù)的語(yǔ)音識(shí)別效率。
[0015] 進(jìn)一步的,所述基于訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型從輸入的訓(xùn)練語(yǔ)音數(shù)據(jù)中提取出相應(yīng) 的神經(jīng)網(wǎng)絡(luò)聲學(xué)特征包括:
[0016] 接收輸入的訓(xùn)練語(yǔ)音數(shù)據(jù);
[0017] 對(duì)所述訓(xùn)練語(yǔ)音數(shù)據(jù)進(jìn)行分幀處理,獲取語(yǔ)音幀序列并提取各語(yǔ)音幀的底層聲學(xué) 特征;其中,所述底層聲學(xué)特征為以下任意一種:LPCC特征、濾波器FiIterBank特征、MFCC特 征、PLP特征;
[0018] 對(duì)所述底層聲學(xué)特征提取一階差分和二階差分,將所述一階差分和二階差分與所 述底層聲學(xué)特征組成多維聲學(xué)特征,并將所述多為聲學(xué)特征通過(guò)前后擴(kuò)幀拼接成更高維的 特征;
[0019] 基于訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型與拼接后的特征提取出神經(jīng)網(wǎng)絡(luò)的隱層作為神經(jīng)網(wǎng) 絡(luò)聲學(xué)特征。
[0020] 進(jìn)一步的,所述神經(jīng)網(wǎng)絡(luò)模型為:DNN聲學(xué)模型、CNN聲學(xué)模型、RNN聲學(xué)模型或者 LSTM聲學(xué)模型;則提取出的神經(jīng)網(wǎng)絡(luò)聲學(xué)特征為相應(yīng)的DNN聲學(xué)特征、CNN聲學(xué)特征、RNN聲 學(xué)特征或者LSTM聲學(xué)特征。
[0021] 進(jìn)一步的,所述根據(jù)提取出的神經(jīng)網(wǎng)絡(luò)聲學(xué)特征采用維特比解碼的方式,計(jì)算輸 入的訓(xùn)練語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的全局最優(yōu)路徑及每幀對(duì)應(yīng)的得分,以及每幀數(shù)據(jù)局部最優(yōu)路徑的 得分包括:
[0022] a、基于所述神經(jīng)網(wǎng)絡(luò)聲學(xué)特征計(jì)算每一幀數(shù)據(jù)的建模單元的后驗(yàn)概率;對(duì)于每幀 數(shù)據(jù),每一節(jié)點(diǎn)即為一個(gè)建模單元,則第i個(gè)節(jié)點(diǎn)后驗(yàn)概率計(jì)算公式為:
'其 中,γ為可調(diào)參數(shù)控制輸出后驗(yàn)概率尖銳程度,M為建模單元的個(gè)數(shù),yi為輸出層第i個(gè)節(jié)點(diǎn) 的線性輸出,定義為
j為最后一個(gè)隱層第j個(gè)節(jié)點(diǎn)的輸出,N為節(jié)點(diǎn)數(shù), Wji和bi為DNN網(wǎng)絡(luò)中相應(yīng)的權(quán)重和偏置參數(shù),f( ·)為神經(jīng)元的非線性作用函數(shù);
[0023] b、對(duì)于當(dāng)前幀,將其每個(gè)建模單元的后驗(yàn)概率的得分轉(zhuǎn)換為相應(yīng)的似然概率得 分;
[0024] c、根據(jù)上一時(shí)刻局部最優(yōu)路徑與當(dāng)前時(shí)刻相應(yīng)建模單元的似然概率得分來(lái)估計(jì) 當(dāng)前時(shí)刻局部最優(yōu)路徑的得分;
[0025] d、根據(jù)解碼網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和當(dāng)前的活動(dòng)令牌,以及相應(yīng)的似然概率得分,更新每 個(gè)活動(dòng)令牌得分;
[0026] e、比較每個(gè)活動(dòng)令牌得分與當(dāng)前時(shí)刻局部最優(yōu)路徑的得分之間的差距,將差距在 設(shè)定束寬之外的活動(dòng)令牌丟棄;
[0027] f、對(duì)保留下來(lái)的活動(dòng)令牌按照得分統(tǒng)計(jì)起直方圖分布,丟棄在直方圖束寬之外的 活動(dòng)令牌,并記錄當(dāng)前的局部最優(yōu)路徑的得分;
[0028] g、對(duì)直方圖束寬剪枝保留下來(lái)的活動(dòng)令牌路徑沿著解碼網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進(jìn)行向后 擴(kuò)展;并判斷當(dāng)前幀是否是最后一幀,如果不是,則繼續(xù)取下一幀并重復(fù)上述步驟b~f;
[0029] h、當(dāng)所有輸入幀解碼完畢之后獲取全局最優(yōu)路徑,以及每幀的得分。
[0030] 進(jìn)一步的,獲得每幀數(shù)據(jù)的臨界剪枝束寬包括:
[0031] 假設(shè)第t幀,局部最優(yōu)路徑得分為Qlcical-max(t),全局最優(yōu)路徑得分為Qglcibal- max(t), 則臨界剪枝束寬B(t)計(jì)算如下:
[0032]
[0033] 進(jìn)一步的,所述利用每幀數(shù)據(jù)的臨界剪枝束寬與對(duì)應(yīng)的神經(jīng)網(wǎng)絡(luò)聲學(xué)特征,來(lái)確 定動(dòng)態(tài)剪枝束寬預(yù)測(cè)模型并估計(jì)相應(yīng)的模型參數(shù)包括:
[0034] 所述動(dòng)態(tài)剪枝束寬預(yù)測(cè)模型包括:線性回歸模型與多層感知器MLP模型;
[0035] 其中,采用線性回歸模型時(shí),每幀數(shù)據(jù)的臨界剪枝束寬B(t)與對(duì)應(yīng)的神經(jīng)網(wǎng)絡(luò)聲 學(xué)特征X(t)服從線性關(guān)系,即以1:)='\¥^(1:)+13 ;其中¥,13為待估計(jì)參數(shù);
[0036] 首生田晶/l、i^r片彳呈荖估彳+w和h的初始值,即最小化如下目標(biāo)函數(shù):
[0037]
[0038]其中,T為訓(xùn)練語(yǔ)音數(shù)據(jù)總的幀數(shù);
[0039]再利用Boost-MSE算法對(duì)參數(shù)進(jìn)行調(diào)整,調(diào)整后的目標(biāo)函數(shù)為:
[0040]
[0041] 采用梯度下降算法對(duì)調(diào)整后的目標(biāo)函數(shù)進(jìn)行計(jì)算,估計(jì)出參數(shù)w與b;
[0042]采用MLP模型時(shí),假設(shè)每幀數(shù)據(jù)的臨界剪枝束寬波動(dòng)范圍在[0,P]之間,按照非等 間隔將該波動(dòng)范圍劃分為L(zhǎng)類,每類的臨界束寬為其上限;訓(xùn)練過(guò)程中若輸入的神經(jīng)網(wǎng)絡(luò)聲 學(xué)特征對(duì)應(yīng)臨界束寬輸入第i類,則將第i類標(biāo)記為1,其他類標(biāo)記為0,再采用向后擴(kuò)展算法 訓(xùn)練;所述MLP模型為前向神經(jīng)網(wǎng)絡(luò),每層的節(jié)點(diǎn)會(huì)和下一層節(jié)點(diǎn)進(jìn)行全連接,每個(gè)連接對(duì) 應(yīng)一個(gè)加權(quán)系數(shù),通過(guò)該加權(quán)系數(shù),當(dāng)前層的信息就可以傳遞給下一層,另輸入層和每個(gè)隱 層均包含一個(gè)輸出為1的節(jié)點(diǎn),用以表征偏置項(xiàng);所述加權(quán)系數(shù)即為MLP模型需要估計(jì)的參 數(shù)。
[0043] 進(jìn)一步的,根據(jù)所述動(dòng)態(tài)剪枝束寬預(yù)測(cè)模型以及相應(yīng)的模型參數(shù),估計(jì)待識(shí)別語(yǔ) 音數(shù)據(jù)中每一幀數(shù)據(jù)對(duì)應(yīng)的剪枝束寬,并利用估計(jì)出的剪枝束寬替代原始的固定剪枝束 寬,從而提高待識(shí)別語(yǔ)音數(shù)據(jù)的語(yǔ)音識(shí)別效率包括:
[0044] 采用與提取訓(xùn)練語(yǔ)音數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)聲學(xué)特征相同的方式提取待識(shí)別語(yǔ)音數(shù)據(jù) 的神經(jīng)網(wǎng)絡(luò)聲學(xué)特征;
[0045] 將待識(shí)別語(yǔ)音數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)聲學(xué)特征與所述動(dòng)態(tài)剪枝束寬預(yù)測(cè)模型以及相應(yīng) 的模型參數(shù)相結(jié)合,進(jìn)行每一幀數(shù)據(jù)動(dòng)態(tài)剪枝束寬的估計(jì);
[0046] 基于待識(shí)別語(yǔ)音數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)聲學(xué)特征計(jì)算每一幀數(shù)據(jù)的建模單元的后驗(yàn)概 率,并結(jié)合估計(jì)出的相應(yīng)幀的動(dòng)態(tài)剪枝束寬,采用維特比解碼的方式進(jìn)行語(yǔ)音解碼,獲得語(yǔ) 音識(shí)別結(jié)果。
[0047] 由上述本發(fā)明提供的技術(shù)方案可以看出,針對(duì)傳統(tǒng)語(yǔ)音解碼剪枝算法中存在較多 冗余路徑,以及已有改進(jìn)算法中剪枝有效性不足問(wèn)題,提出基于聲學(xué)特征進(jìn)行動(dòng)態(tài)剪枝束 寬的預(yù)測(cè)思路,并根據(jù)實(shí)現(xiàn)復(fù)雜度的不同,提出兩種具體的建模方式和相應(yīng)的參數(shù)估計(jì)訓(xùn) 練方法,提高了語(yǔ)音識(shí)別解碼效率。
【附圖說(shuō)明】
[0048] 為了更清楚地說(shuō)明本發(fā)明實(shí)施例的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用 的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本 領(lǐng)域的普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他 附圖。
[0049] 圖1為本發(fā)明實(shí)施例提供的臨界剪枝束寬隨時(shí)間的變化情況的示意圖;
[0050] 圖2為本發(fā)明實(shí)施例提供的本發(fā)明中線性回歸和分段MLP (Mu 11 i -Lay er Perceptron)動(dòng)態(tài)剪枝束寬預(yù)測(cè)方法下,相比傳統(tǒng)基線剪枝方法的效率提升情況的示意圖; [0051 ]圖3為本發(fā)明實(shí)施例提供的一種基于動(dòng)態(tài)剪枝束寬預(yù)測(cè)的語(yǔ)音識(shí)別效率優(yōu)化方法 的流程圖;
[0052]圖4為本發(fā)明實(shí)施例提供的提取神經(jīng)網(wǎng)絡(luò)聲學(xué)特征的流程圖
[0053]圖5為本發(fā)明實(shí)施例提供的用于預(yù)測(cè)動(dòng)態(tài)剪枝束寬所采用的DNN模型結(jié)構(gòu)的示意 圖;
[0054]圖6為本發(fā)明實(shí)施例提供的獲得全局最優(yōu)路徑及每幀對(duì)應(yīng)的得分,以及每幀數(shù)據(jù) 局部最優(yōu)路徑的得分的流程圖;
[0055] 圖7為本發(fā)明實(shí)施例提供的為采用分段MLP建模方案的MLP模型結(jié)構(gòu)示意圖
[0056] 圖8為本發(fā)明實(shí)施例提供的基于動(dòng)態(tài)剪枝束寬預(yù)測(cè)模型以及相應(yīng)的模型參數(shù)實(shí)現(xiàn) 語(yǔ)音識(shí)別的流程圖。
【具體實(shí)施方式】
[0057] 下面結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整 地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本 發(fā)明的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施 例,都屬于本發(fā)明的保護(hù)范圍。
[0058] 大詞匯量連續(xù)語(yǔ)音識(shí)別中由于詞典規(guī)模的增加搜索空間非常龐大,導(dǎo)致解碼過(guò)程 是語(yǔ)音識(shí)別器非常耗時(shí)的部分。傳統(tǒng)剪枝算法通過(guò)減少剪枝束寬雖然可以提高解碼效率, 但往往帶來(lái)識(shí)別性能的急劇下降。已有的改進(jìn)剪枝算法一定程度上提高了剪枝的有效性, 但提升幅度和預(yù)期還是有一定距離。
[0059] 語(yǔ)音解碼中剪枝的目的一方面盡可能地提前去除冗余路徑提高解碼搜索效率,另 一方面則要求全局最優(yōu)路徑在每個(gè)時(shí)刻不會(huì)被錯(cuò)誤剪枝掉。由于傳統(tǒng)基于固定剪枝束寬的 方法需要考慮每個(gè)時(shí)刻上最壞情況,一般剪枝束寬設(shè)置較大,其它時(shí)刻上存在較大的冗余。 圖1所示是臨界剪枝束寬隨時(shí)間的變化情況,圖Ia為語(yǔ)音波形,圖Ib為剪枝束寬,可以看出 每個(gè)時(shí)刻上臨界束寬波動(dòng)范圍很大,為了兼顧最壞的情況,在其它時(shí)刻的冗余比較明顯。
[0060] 考慮這種特性,每個(gè)時(shí)刻單獨(dú)估計(jì)一個(gè)動(dòng)態(tài)剪枝束寬來(lái)減少冗余度。由于臨界剪 枝束寬受語(yǔ)音包含內(nèi)容、信道、噪聲,以及聲學(xué)模型和語(yǔ)言模型等多種因素的影響,直接估 計(jì)非常困難。本發(fā)明充分利用深度神經(jīng)網(wǎng)絡(luò)的建模能力,將神經(jīng)網(wǎng)絡(luò)的隱層輸出作為聲學(xué) 特征對(duì)臨界束寬進(jìn)行預(yù)測(cè),取得了較好的效果。圖2所示,是本發(fā)明中線性回歸和分段MLP動(dòng) 態(tài)剪枝束寬預(yù)測(cè)方法下,相比傳統(tǒng)基線剪枝方法的效率提升情況??梢钥闯鱿嗤淖R(shí)別正 確率下,兩種方法的平均剪枝束寬能夠取得明顯的下降。而平均剪枝束寬的下降會(huì)帶來(lái)解 碼過(guò)程中冗余度的下降,從而提升解碼效率。
[0061] 下面結(jié)合具體實(shí)施例對(duì)本發(fā)明的方案做詳細(xì)的說(shuō)明。
[0062] 如圖3所示,為本發(fā)明實(shí)施例提供的一種基于動(dòng)態(tài)剪枝束寬預(yù)測(cè)的語(yǔ)音識(shí)別效率 優(yōu)化方法的流程圖,其主要包括如下步驟:
[0063] 步驟11、基于訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型從輸入的訓(xùn)練語(yǔ)音數(shù)據(jù)中提取出相應(yīng)的神經(jīng) 網(wǎng)絡(luò)聲學(xué)特征。
[0064] 本步驟的具體過(guò)程如圖4所示,包括:
[0065] 1)接收輸入的訓(xùn)練語(yǔ)音數(shù)據(jù);
[0066] 2)對(duì)所述訓(xùn)練語(yǔ)音數(shù)據(jù)進(jìn)行分幀處理,獲取語(yǔ)音幀序列。
[0067] 示例性的,可以通過(guò)加漢明窗的方式對(duì)所述訓(xùn)練語(yǔ)音數(shù)據(jù)進(jìn)行分幀處理,得到語(yǔ) 音幀序列。
[0068] 3)提取各語(yǔ)音幀的底層聲學(xué)特征。
[0069] 其中,所述底層聲學(xué)特征為以下任意一種:LPCC特征、濾波器FilterBank特征、 MFCC特征、PLP特征。
[0070] 4)對(duì)所述底層聲學(xué)特征提取一階差分和二階差分,將所述一階差分和二階差分與 所述底層聲學(xué)特征組成多維聲學(xué)特征,并將所述多為聲學(xué)特征通過(guò)前后擴(kuò)幀拼接成更高維 的特征。
[0071] 5)基于訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型與拼接后的特征提取出神經(jīng)網(wǎng)絡(luò)的隱層作為神經(jīng) 網(wǎng)絡(luò)聲學(xué)特征。
[0072] 本發(fā)明實(shí)施例中,所述神經(jīng)網(wǎng)絡(luò)模型為:DNN聲學(xué)模型、CNN聲學(xué)模型、RNN聲學(xué)模型 或者LSTM聲學(xué)模型;則提取出的神經(jīng)網(wǎng)絡(luò)聲學(xué)特征為相應(yīng)的DNN聲學(xué)特征、CNN聲學(xué)特征、 RNN聲學(xué)特征或者LSTM聲學(xué)特征。
[0073]示例性的,如果神經(jīng)網(wǎng)絡(luò)模型為DNN聲學(xué)模型,則可以采用語(yǔ)音識(shí)別資源中的DNN 聲學(xué)模型,也可以獨(dú)立單獨(dú)訓(xùn)練一個(gè)模型。如圖5所示為本發(fā)明實(shí)施例中的DNN模型結(jié)構(gòu)示 意圖,具體為金子塔DNN模型結(jié)構(gòu),當(dāng)然還可以包含其它結(jié)構(gòu),如層數(shù)的不同,每層節(jié)點(diǎn)數(shù)量 變化等。當(dāng)將所述訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型與語(yǔ)音識(shí)別資源中的模型共享時(shí),可以減少訓(xùn)練流程, 同時(shí)在語(yǔ)音識(shí)別器減少資源所占內(nèi)存空間,以及用于估計(jì)動(dòng)態(tài)剪枝束寬的DNN聲學(xué)特征在 解碼過(guò)程聲學(xué)得分計(jì)算過(guò)程中同步生成,不會(huì)增加額外的計(jì)算量。
[0074] 本發(fā)明實(shí)施例中,將提取出來(lái)的隱層輸出作為神經(jīng)網(wǎng)絡(luò)聲學(xué)特征,通常情況下,神 經(jīng)網(wǎng)絡(luò)結(jié)果一旦確定,每個(gè)隱層的輸出都可以用來(lái)估計(jì)動(dòng)態(tài)剪枝束寬,為了獲得更加穩(wěn)定 的表征特征,本發(fā)明可以采用最后一個(gè)隱層的輸出。
[0075] 步驟12、根據(jù)提取出的神經(jīng)網(wǎng)絡(luò)聲學(xué)特征采用維特比解碼的方式,計(jì)算輸入的訓(xùn) 練語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的全局最優(yōu)路徑及每幀對(duì)應(yīng)的得分,以及每幀數(shù)據(jù)局部最優(yōu)路徑的得分, 從而獲得每幀數(shù)據(jù)的臨界剪枝束寬。
[0076] 獲得全局最優(yōu)路徑及每幀對(duì)應(yīng)的得分,以及每幀數(shù)據(jù)局部最優(yōu)路徑的得分的具體 過(guò)程如圖6所示,包括:
[0077] a、基于所述神經(jīng)網(wǎng)絡(luò)聲學(xué)特征計(jì)算每一幀數(shù)據(jù)的建模單元的后驗(yàn)概率;對(duì)于每幀 數(shù)據(jù),每一節(jié)點(diǎn)即為一個(gè)建模單元,則第i個(gè)節(jié)點(diǎn)后驗(yàn)概率計(jì)算公式戈
'其 中,γ為可調(diào)參數(shù)控制輸出后驗(yàn)概率尖銳程度,M為建模單元的個(gè)數(shù);yi是指輸出層第i個(gè)節(jié) 點(diǎn)的線性輸出,定義)
這里^為最后一個(gè)隱層第j個(gè)節(jié)點(diǎn)的輸出,N為最 后一個(gè)隱層的節(jié)點(diǎn)數(shù),Wjl和Id1SDNN網(wǎng)絡(luò)中相應(yīng)的權(quán)重和偏置參數(shù);f( ·)為神經(jīng)元的非線 性作用函數(shù),可以是sigmoid函數(shù),也可以說(shuō)tanh函數(shù)或者RELU函數(shù),不做限制。
[0078] b、對(duì)于當(dāng)前幀,將其每個(gè)建模單元的后驗(yàn)概率的得分轉(zhuǎn)換為相應(yīng)的似然概率得 分。
[0079] 示例性的,可以根據(jù)貝葉斯公式,除以該建模單元的先驗(yàn)概率,獲得相應(yīng)的似然概 率得分。
[0080] c、根據(jù)上一時(shí)刻局部最優(yōu)路徑與當(dāng)前時(shí)刻相應(yīng)建模單元的似然概率得分來(lái)估計(jì) 當(dāng)前時(shí)刻局部最優(yōu)路徑的得分。
[0081] 示例性的,可以將上一時(shí)刻局部最優(yōu)路徑加上當(dāng)前時(shí)刻相應(yīng)建模單元的似然概率 得分,向后擴(kuò)展并加上擴(kuò)展路徑上相應(yīng)的語(yǔ)言模型得分即可。
[0082]本領(lǐng)域技術(shù)人員可以理解,所述語(yǔ)言模型得分是指已獲知解碼路徑上歷史詞序列 時(shí),當(dāng)前擴(kuò)展路徑上詞出現(xiàn)的概率得分。
[0083] d、根據(jù)解碼網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和當(dāng)前的活動(dòng)令牌(Active Token),以及相應(yīng)的似然概 率得分,更新每個(gè)活動(dòng)令牌得分。
[0084] 本領(lǐng)域技術(shù)人員可以理解,令牌是解碼引擎實(shí)現(xiàn)過(guò)程中,用于記錄解碼路徑信息 的數(shù)據(jù)結(jié)構(gòu),包括當(dāng)前時(shí)刻局部路徑得分信息、歷史詞序列信息等。每條路徑都對(duì)應(yīng)一個(gè)令 牌,有些路徑得分較小會(huì)被剪枝,不再向后傳播,而另外一部分路徑得分較大,會(huì)繼續(xù)向后 擴(kuò)展,稱之為活動(dòng)令牌。此處的活動(dòng)令牌得分表示局部路徑得分。
[0085] e、比較每個(gè)活動(dòng)令牌得分與當(dāng)前時(shí)刻局部最優(yōu)路徑的得分之間的差距,將差距在 設(shè)定束寬之外的活動(dòng)令牌丟棄。
[0086] f、對(duì)保留下來(lái)的活動(dòng)令牌按照得分統(tǒng)計(jì)起直方圖分布,丟棄在直方圖束寬之外的 活動(dòng)令牌,并記錄當(dāng)前的局部最優(yōu)路徑的得分。
[0087] 示例性的,如果當(dāng)前直方圖束寬為H,在直方圖排名中只保留前H個(gè)活動(dòng)令牌。同時(shí) 記錄當(dāng)前局部最優(yōu)路徑的得分,以便估計(jì)臨界剪枝束寬。
[0088] g、對(duì)直方圖束寬剪枝保留下來(lái)的活動(dòng)令牌路徑沿著解碼網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進(jìn)行向后 擴(kuò)展;并判斷當(dāng)前幀是否是最后一幀,如果不是,則繼續(xù)取下一幀并重復(fù)上述步驟b~f。
[0089] h、當(dāng)所有輸入幀解碼完畢之后獲取全局最優(yōu)路徑,以及每幀的得分。
[0090] 此后,根據(jù)每幀局部最優(yōu)路徑得分和全局最優(yōu)路徑得分計(jì)算臨界剪枝束寬,只要 每幀上的剪枝束寬大于該剪枝束寬就不會(huì)出現(xiàn)全局最優(yōu)路徑被錯(cuò)誤裁掉的風(fēng)險(xiǎn):
[0091 ] 假設(shè)第t幀,局部最優(yōu)路徑得分為Qlcic;al-max(t),全局最優(yōu)路徑得分為Q glcibal-max(t), 則臨界剪枝束寬B(t)計(jì)算如下:
[0092]
[0093] 步驟13、利用每幀數(shù)據(jù)的臨界剪枝束寬與對(duì)應(yīng)的神經(jīng)網(wǎng)絡(luò)聲學(xué)特征,來(lái)確定動(dòng)態(tài) 剪枝束寬預(yù)測(cè)模型并估計(jì)相應(yīng)的模型參數(shù)。
[0094] 本發(fā)明實(shí)例根據(jù)實(shí)現(xiàn)的復(fù)雜程度,提出兩種不同的模型結(jié)構(gòu),和相應(yīng)的參數(shù)估計(jì) 方法:線性回歸模型與多層感知器MLP模型;
[0095] 1)采用線性回歸模型時(shí),每幀數(shù)據(jù)的臨界剪枝束寬B (t)與對(duì)應(yīng)幀的神經(jīng)網(wǎng)絡(luò)聲學(xué) 特征X(t)服從線性關(guān)系,即以1:)=?^(1:)+13;其中113為待估計(jì)參數(shù) ;
[0096] 首生晶/1、詢方誤差(MSR)估計(jì)w和b的初始值,即最小化如下目標(biāo)函數(shù):
[0097]
[0098]其中,T是指訓(xùn)練語(yǔ)音數(shù)據(jù)總的幀數(shù)。
[0099] 當(dāng)預(yù)測(cè)值大于臨界束寬時(shí)不會(huì)導(dǎo)致剪枝錯(cuò)誤但會(huì)影響剪枝效率,預(yù)測(cè)值小于臨界 束寬時(shí)則會(huì)導(dǎo)致剪枝錯(cuò)誤。而動(dòng)態(tài)剪枝的最終目的是在保留最優(yōu)路徑的條件下提高剪枝效 率,所以在MSE估計(jì)的基礎(chǔ)之上,再利用Boost-MSE算法對(duì)參數(shù)進(jìn)行調(diào)整,調(diào)整后的目標(biāo)函數(shù) 為:
[0100]
[0101] 采用梯度下降算法對(duì)調(diào)整后的目標(biāo)函數(shù)進(jìn)行計(jì)算,估計(jì)出參數(shù)W與b。具體的求導(dǎo) 過(guò)程可參見(jiàn)現(xiàn)有技術(shù),此處不再贅述。
[0102] 2)B〇〇st-MSE算法相比MSE準(zhǔn)則雖然能夠取得更好的預(yù)測(cè)效果,但由于臨界剪枝束 寬波動(dòng)范圍較大,受到的影響因素較多,和神經(jīng)網(wǎng)絡(luò)聲學(xué)特征之間并不一定呈現(xiàn)出簡(jiǎn)單的 線性關(guān)系,因此這里考慮基于MLP模型進(jìn)行擬合。
[0103] 采用常見(jiàn)的MLP回歸的思路,同樣需要對(duì)波動(dòng)范圍很大的DNN聲學(xué)特征和臨界剪枝 束寬進(jìn)行預(yù)測(cè),此時(shí)MLP網(wǎng)絡(luò)結(jié)構(gòu)將會(huì)很復(fù)雜。本發(fā)明實(shí)施例中,將MLP分類和回歸的思路結(jié) 合起來(lái),提出一種分段MLP預(yù)測(cè)算法,只需一個(gè)隱層即能較好地完成預(yù)測(cè)功能。
[0104] 假設(shè)每幀數(shù)據(jù)的臨界剪枝束寬波動(dòng)范圍在[0,P]之間,按照非等間隔將該波動(dòng)范 圍劃分為L(zhǎng)類,每類的臨界束寬為其上限;訓(xùn)練過(guò)程中若輸入的神經(jīng)網(wǎng)絡(luò)聲學(xué)特征對(duì)應(yīng)臨界 束寬輸入第i類,則將第i類標(biāo)記為I,其他類標(biāo)記為O。
[0105] 所述MLP模型為前向神經(jīng)網(wǎng)絡(luò),即每層的節(jié)點(diǎn)會(huì)和下一層節(jié)點(diǎn)進(jìn)行全連接,每個(gè)連 接對(duì)應(yīng)一個(gè)加權(quán)系數(shù),通過(guò)該加權(quán)系數(shù),當(dāng)前層的信息就可以傳遞給下一層。另輸入層和每 個(gè)隱層均包含一個(gè)輸出為1的節(jié)點(diǎn),用以表征偏置項(xiàng)。所述加權(quán)系數(shù)即為MLP模型需要估計(jì) 的參數(shù),可以采用經(jīng)典的后向擴(kuò)展算法進(jìn)行估計(jì)。
[0106] 示例性的,如圖7所示,為采用分段MLP建模方案的MLP模型結(jié)構(gòu)示意圖。假設(shè)臨界 束寬波動(dòng)范圍在[0, 175]之間,首先按照非等間隔將其劃分為L(zhǎng)類(L= 16),每類的臨界束寬 設(shè)置為其上限。即在圖7中若臨界束寬在(0,5]之間則它們屬于同一個(gè)類,對(duì)應(yīng)同一個(gè)MLP輸 出節(jié)點(diǎn),該節(jié)點(diǎn)輸出的臨界束寬為5。圖7所示是分段MLP算法中采用的網(wǎng)絡(luò)結(jié)果拓?fù)鋱D,其 輸出特征為X(t),中間加一個(gè)隱層,輸出節(jié)點(diǎn)個(gè)數(shù)為L(zhǎng),分別對(duì)應(yīng)每個(gè)劃分段。
[0107] 步驟14、根據(jù)所述動(dòng)態(tài)剪枝束寬預(yù)測(cè)模型以及相應(yīng)的模型參數(shù),估計(jì)待識(shí)別語(yǔ)音 數(shù)據(jù)中每一幀數(shù)據(jù)對(duì)應(yīng)的剪枝束寬,并利用估計(jì)出的剪枝束寬替代原始的固定剪枝束寬, 從而提高待識(shí)別語(yǔ)音數(shù)據(jù)的語(yǔ)音識(shí)別效率。
[0108] 本步驟的具體過(guò)程如圖8所示,包括:
[0109] 1)采用與提取訓(xùn)練語(yǔ)音數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)聲學(xué)特征相同的方式提取待識(shí)別語(yǔ)音數(shù) 據(jù)的神經(jīng)網(wǎng)絡(luò)聲學(xué)特征。具體過(guò)程已經(jīng)在前文進(jìn)行了詳細(xì)介紹,故不再贅述。
[0110] 2)將待識(shí)別語(yǔ)音數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)聲學(xué)特征與所述動(dòng)態(tài)剪枝束寬預(yù)測(cè)模型以及相 應(yīng)的模型參數(shù)相結(jié)合,進(jìn)行每一幀數(shù)據(jù)動(dòng)態(tài)剪枝束寬的估計(jì)。
[0111] 如果所述動(dòng)態(tài)剪枝束寬預(yù)測(cè)模型為線性回歸模型,則每一幀數(shù)據(jù)的動(dòng)態(tài)剪枝束寬 5(0估計(jì)為:
[0112]
[0113] 其中,x(t)'為待識(shí)別語(yǔ)音數(shù)據(jù)中某一幀數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)聲學(xué)特征;w和b分別為訓(xùn) 練出的模型參數(shù),在具體的實(shí)現(xiàn)中,為了更好地平衡剪枝錯(cuò)誤和解碼效率,b可以進(jìn)行上下 手動(dòng)調(diào)整。
[0114] 如果所述動(dòng)態(tài)剪枝束寬預(yù)測(cè)模型為MLP模型結(jié)構(gòu),對(duì)于輸入的每一神經(jīng)網(wǎng)絡(luò)聲學(xué) 特征x(t)'會(huì)得到一個(gè)L維的輸出向量,每個(gè)元素表示相應(yīng)節(jié)點(diǎn)上的后驗(yàn)概率??梢赃x擇后 驗(yàn)概率最大的節(jié)點(diǎn)對(duì)應(yīng)的臨界束寬輸出,作為預(yù)測(cè)值。但在實(shí)際應(yīng)用中發(fā)現(xiàn)部分特征輸出 的最大后驗(yàn)概率置信度并不是很高,為了增加魯棒性,這里采用累計(jì)后驗(yàn)概率分布的方法 確定預(yù)測(cè)值。令
[0115]
[0116] 其中,0<n<L,〇1(t)是指第t幀數(shù)據(jù)屬于第i類的后驗(yàn)概率,計(jì)算方式如下:
[0117]
[0118] 其中,γ控制后驗(yàn)分布尖銳程?
%最后一個(gè)隱層的線性輸出, N為節(jié)點(diǎn)數(shù),Wji和bi為MLP網(wǎng)絡(luò)中相應(yīng)的權(quán)重和偏置參數(shù);f( ·)為神經(jīng)元的非線性作用函 數(shù),可以是sigmoid函數(shù),也可以說(shuō)tanh函數(shù)或者RELU函數(shù),不做限制。
[0119] 如果第η個(gè)節(jié)點(diǎn)的累計(jì)后驗(yàn)概率超過(guò)某個(gè)閾值,則該節(jié)點(diǎn)對(duì)應(yīng)的輸出束寬即為預(yù) 測(cè)臨界束寬。
[0120] 3)基于待識(shí)別語(yǔ)音數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)聲學(xué)特征計(jì)算每一幀數(shù)據(jù)的建模單元的后驗(yàn) 概率,并結(jié)合估計(jì)出的相應(yīng)幀的動(dòng)態(tài)剪枝束寬,采用維特比解碼的方式進(jìn)行語(yǔ)音解碼,獲得 語(yǔ)音識(shí)別結(jié)果。
[0121] 通過(guò)以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到上述實(shí)施例可 以通過(guò)軟件實(shí)現(xiàn),也可以借助軟件加必要的通用硬件平臺(tái)的方式來(lái)實(shí)現(xiàn)?;谶@樣的理解, 上述實(shí)施例的技術(shù)方案可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該軟件產(chǎn)品可以存儲(chǔ)在一個(gè)非易 失性存儲(chǔ)介質(zhì)(可以是CD-R0M,U盤,移動(dòng)硬盤等)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè) 備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述的方法。
[0122] 以上所述,僅為本發(fā)明較佳的【具體實(shí)施方式】,但本發(fā)明的保護(hù)范圍并不局限于此, 任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明披露的技術(shù)范圍內(nèi),可輕易想到的變化或替換, 都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求書(shū)的保護(hù)范 圍為準(zhǔn)。
【主權(quán)項(xiàng)】
1. 一種基于動(dòng)態(tài)剪枝束寬預(yù)測(cè)的語(yǔ)音識(shí)別效率優(yōu)化方法,其特征在于,包括: 基于訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型從輸入的訓(xùn)練語(yǔ)音數(shù)據(jù)中提取出相應(yīng)的神經(jīng)網(wǎng)絡(luò)聲學(xué)特 征; 根據(jù)提取出的神經(jīng)網(wǎng)絡(luò)聲學(xué)特征采用維特比解碼的方式,計(jì)算輸入的訓(xùn)練語(yǔ)音數(shù)據(jù)對(duì) 應(yīng)的全局最優(yōu)路徑及每帖對(duì)應(yīng)的得分,W及每帖數(shù)據(jù)局部最優(yōu)路徑的得分,從而獲得每帖 數(shù)據(jù)的臨界剪枝束寬; 利用每帖數(shù)據(jù)的臨界剪枝束寬與對(duì)應(yīng)的神經(jīng)網(wǎng)絡(luò)聲學(xué)特征,來(lái)確定動(dòng)態(tài)剪枝束寬預(yù)測(cè) 模型并估計(jì)相應(yīng)的模型參數(shù); 根據(jù)所述動(dòng)態(tài)剪枝束寬預(yù)測(cè)模型W及相應(yīng)的模型參數(shù),估計(jì)待識(shí)別語(yǔ)音數(shù)據(jù)中每一帖 數(shù)據(jù)對(duì)應(yīng)的剪枝束寬,并利用估計(jì)出的剪枝束寬替代原始的固定剪枝束寬,從而提高待識(shí) 別語(yǔ)音數(shù)據(jù)的語(yǔ)音識(shí)別效率。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型從輸入的 訓(xùn)練語(yǔ)音數(shù)據(jù)中提取出相應(yīng)的神經(jīng)網(wǎng)絡(luò)聲學(xué)特征包括: 接收輸入的訓(xùn)練語(yǔ)音數(shù)據(jù); 對(duì)所述訓(xùn)練語(yǔ)音數(shù)據(jù)進(jìn)行分帖處理,獲取語(yǔ)音帖序列并提取各語(yǔ)音帖的底層聲學(xué)特 征;其中,所述底層聲學(xué)特征為W下任意一種:LPCC特征、濾波器Fi 1 terBank特征、MFCC特 征、PLP特征; 對(duì)所述底層聲學(xué)特征提取一階差分和二階差分,將所述一階差分和二階差分與所述底 層聲學(xué)特征組成多維聲學(xué)特征,并將所述多為聲學(xué)特征通過(guò)前后擴(kuò)帖拼接成更高維的特 征; 基于訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型與拼接后的特征提取出神經(jīng)網(wǎng)絡(luò)的隱層作為神經(jīng)網(wǎng)絡(luò)聲 學(xué)特征。3. 根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述神經(jīng)網(wǎng)絡(luò)模型為:D順聲學(xué)模型、 C順聲學(xué)模型、R順聲學(xué)模型或者LSTM聲學(xué)模型;則提取出的神經(jīng)網(wǎng)絡(luò)聲學(xué)特征為相應(yīng)的DNN 聲學(xué)特征、CNN聲學(xué)特征、RNN聲學(xué)特征或者LSTM聲學(xué)特征。4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)提取出的神經(jīng)網(wǎng)絡(luò)聲學(xué)特征采用 維特比解碼的方式,計(jì)算輸入的訓(xùn)練語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的全局最優(yōu)路徑及每帖對(duì)應(yīng)的得分,W 及每帖數(shù)據(jù)局部最優(yōu)路徑的得分包括: a、 基于所述神經(jīng)網(wǎng)絡(luò)聲學(xué)特征計(jì)算每一帖數(shù)據(jù)的建模單元的后驗(yàn)概率;對(duì)于每帖數(shù) 據(jù),每一節(jié)點(diǎn)即為一個(gè)建模單元,則第i個(gè)節(jié)點(diǎn)后驗(yàn)概率計(jì)算公式為;庚 中,丫為可調(diào)參數(shù)控制輸出后驗(yàn)概率尖銳程度,Μ為建模單元的個(gè)數(shù),yi為輸出層第i個(gè)節(jié)點(diǎn) 的線性輸出,定義;為最后一個(gè)隱層第j個(gè)節(jié)點(diǎn)的輸出,N為節(jié)點(diǎn)數(shù), wji和bi為網(wǎng)絡(luò)中相應(yīng)的權(quán)重和偏置參數(shù),f( ·)為神經(jīng)元的非線性作用函數(shù); b、 對(duì)于當(dāng)前帖,將其每個(gè)建模單元的后驗(yàn)概率的得分轉(zhuǎn)換為相應(yīng)的似然概率得分; C、根據(jù)上一時(shí)刻局部最優(yōu)路徑與當(dāng)前時(shí)刻相應(yīng)建模單元的似然概率得分來(lái)估計(jì)當(dāng)前 時(shí)刻局部最優(yōu)路徑的得分; d、 根據(jù)解碼網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和當(dāng)前的活動(dòng)令牌,w及相應(yīng)的似然概率得分,更新每個(gè)活 動(dòng)令牌得分; e、 比較每個(gè)活動(dòng)令牌得分與當(dāng)前時(shí)刻局部最優(yōu)路徑的得分之間的差距,將差距在設(shè)定 束寬之外的活動(dòng)令牌丟棄; f、 對(duì)保留下來(lái)的活動(dòng)令牌按照得分統(tǒng)計(jì)起直方圖分布,丟棄在直方圖束寬之外的活動(dòng) 令牌,并記錄當(dāng)前的局部最優(yōu)路徑的得分; g、 對(duì)直方圖束寬剪枝保留下來(lái)的活動(dòng)令牌路徑沿著解碼網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進(jìn)行向后擴(kuò)展; 并判斷當(dāng)前帖是否是最后一帖,如果不是,則繼續(xù)取下一帖并重復(fù)上述步驟b~f; h、 當(dāng)所有輸入帖解碼完畢之后獲取全局最優(yōu)路徑,W及每帖的得分。5. 根據(jù)權(quán)利要求1或4所述的方法,其特征在于,獲得每帖數(shù)據(jù)的臨界剪枝束寬包括: 假設(shè)第t帖,局部最優(yōu)路徑得分為化。。al-max(t),全局最優(yōu)路徑得分為QglDbal-max(t),則臨 界剪枝束寬B(t)計(jì)算如下: B( t )二 Qlocal-max( t )-Qglobal-max( t )。6. 根據(jù)權(quán)利要求1或2或4所述的方法,其特征在于,所述利用每帖數(shù)據(jù)的臨界剪枝束寬 與對(duì)應(yīng)的神經(jīng)網(wǎng)絡(luò)聲學(xué)特征,來(lái)確定動(dòng)態(tài)剪枝束寬預(yù)測(cè)模型并估計(jì)相應(yīng)的模型參數(shù)包括: 所述動(dòng)態(tài)剪枝束寬預(yù)測(cè)模型包括:線性回歸模型與多層感知器MLP模型; 其中,采用線性回歸模型時(shí),每帖數(shù)據(jù)的臨界剪枝束寬B(t)與對(duì)應(yīng)的神經(jīng)網(wǎng)絡(luò)聲學(xué)特 征X(t)服從線性關(guān)系,即B(t)=wTx(t)+b;其中w,b為待估計(jì)參數(shù); 首先,采用最小均方誤差估計(jì)W和b的初始值,即最小化如下目標(biāo)函數(shù):其中,T為訓(xùn)練語(yǔ)音數(shù)據(jù)總的帖數(shù); 再利用Boost-MSE算法對(duì)參數(shù)進(jìn)行調(diào)整,調(diào)整后的目標(biāo)函數(shù)為:采用梯度下降算法對(duì)調(diào)整后的目標(biāo)函數(shù)進(jìn)行計(jì)算,估計(jì)出參數(shù)W與b; 采用MLP模型時(shí),假設(shè)每帖數(shù)據(jù)的臨界剪枝束寬波動(dòng)范圍在[0,門之間,按照非等間隔 將該波動(dòng)范圍劃分為L(zhǎng)類,每類的臨界束寬為其上限;訓(xùn)練過(guò)程中若輸入的神經(jīng)網(wǎng)絡(luò)聲學(xué)特 征對(duì)應(yīng)臨界束寬輸入第i類,則將第i類標(biāo)記為1,其他類標(biāo)記為0,再采用向后擴(kuò)展算法訓(xùn) 練;所述MLP模型為前向神經(jīng)網(wǎng)絡(luò),每層的節(jié)點(diǎn)會(huì)和下一層節(jié)點(diǎn)進(jìn)行全連接,每個(gè)連接對(duì)應(yīng) 一個(gè)加權(quán)系數(shù),通過(guò)該加權(quán)系數(shù),當(dāng)前層的信息就可W傳遞給下一層,另輸入層和每個(gè)隱層 均包含一個(gè)輸出為1的節(jié)點(diǎn),用W表征偏置項(xiàng);所述加權(quán)系數(shù)即為MLP模型需要估計(jì)的參數(shù)。7. 根據(jù)權(quán)利要求6所述的方法,其特征在于,根據(jù)所述動(dòng)態(tài)剪枝束寬預(yù)測(cè)模型W及相應(yīng) 的模型參數(shù),估計(jì)待識(shí)別語(yǔ)音數(shù)據(jù)中每一帖數(shù)據(jù)對(duì)應(yīng)的剪枝束寬,并利用估計(jì)出的剪枝束 寬替代原始的固定剪枝束寬,從而提高待識(shí)別語(yǔ)音數(shù)據(jù)的語(yǔ)音識(shí)別效率包括: 采用與提取訓(xùn)練語(yǔ)音數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)聲學(xué)特征相同的方式提取待識(shí)別語(yǔ)音數(shù)據(jù)的神 經(jīng)網(wǎng)絡(luò)聲學(xué)特征; 將待識(shí)別語(yǔ)音數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)聲學(xué)特征與所述動(dòng)態(tài)剪枝束寬預(yù)測(cè)模型W及相應(yīng)的模 型參數(shù)相結(jié)合,進(jìn)行每一帖數(shù)據(jù)動(dòng)態(tài)剪枝束寬的估計(jì); 基于待識(shí)別語(yǔ)音數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)聲學(xué)特征計(jì)算每一帖數(shù)據(jù)的建模單元的后驗(yàn)概率,并 結(jié)合估計(jì)出的相應(yīng)帖的動(dòng)態(tài)剪枝束寬,采用維特比解碼的方式進(jìn)行語(yǔ)音解碼,獲得語(yǔ)音識(shí) 別結(jié)果。
【文檔編號(hào)】G10L15/02GK105845128SQ201610214520
【公開(kāi)日】2016年8月10日
【申請(qǐng)日】2016年4月6日
【發(fā)明人】劉俊華, 凌震華, 戴禮榮
【申請(qǐng)人】中國(guó)科學(xué)技術(shù)大學(xué)