亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種聲學(xué)模型訓(xùn)練方法和裝置制造方法

文檔序號(hào):2826077閱讀:566來(lái)源:國(guó)知局
一種聲學(xué)模型訓(xùn)練方法和裝置制造方法
【專(zhuān)利摘要】本發(fā)明實(shí)施方式提出一種聲學(xué)模型訓(xùn)練方法和裝置。方法包括:建立深層神經(jīng)網(wǎng)絡(luò)模型初始模型;將語(yǔ)音訓(xùn)練數(shù)據(jù)劃分為N個(gè)不相交的數(shù)據(jù)子集合,針對(duì)每個(gè)數(shù)據(jù)子集合利用隨機(jī)梯度下降算法更新深層神經(jīng)網(wǎng)絡(luò)模型初始模型,得到N個(gè)深層神經(jīng)網(wǎng)絡(luò)模型子模型,其中N為至少為2的自然數(shù);融合N個(gè)深層神經(jīng)網(wǎng)絡(luò)模型子模型以得到深層神經(jīng)網(wǎng)絡(luò)模型中間模型,并當(dāng)該深層神經(jīng)網(wǎng)絡(luò)模型中間模型符合預(yù)先設(shè)定的收斂條件時(shí),判定該深層神經(jīng)網(wǎng)絡(luò)模型中間模型為訓(xùn)練后聲學(xué)模型。本發(fā)明實(shí)施方式提高了聲學(xué)模型的訓(xùn)練效率,并且不降低語(yǔ)音識(shí)別的性能。
【專(zhuān)利說(shuō)明】一種聲學(xué)模型訓(xùn)練方法和裝置

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明實(shí)施方式涉及語(yǔ)音識(shí)別【技術(shù)領(lǐng)域】,更具體地,涉及一種聲學(xué)模型訓(xùn)練方法 和裝置。

【背景技術(shù)】
[0002] 語(yǔ)音識(shí)別是將語(yǔ)音信號(hào)轉(zhuǎn)為文本的一種技術(shù),是一種方便的人機(jī)交互方式,現(xiàn)廣 泛的應(yīng)用于移動(dòng)互聯(lián)網(wǎng)等領(lǐng)域中。語(yǔ)音識(shí)別是一個(gè)序列化的分類(lèi)問(wèn)題,目的是將收集到的 一連串語(yǔ)音信號(hào)轉(zhuǎn)化為一串文本輸出。語(yǔ)音識(shí)別技術(shù)所涉及的領(lǐng)域包括:信號(hào)處理、模式識(shí) 另IJ、概率論和信息論、發(fā)聲機(jī)理和聽(tīng)覺(jué)機(jī)理、人工智能等等。
[0003] 傳統(tǒng)的語(yǔ)音識(shí)別系統(tǒng)一般分為三個(gè)模塊,分別為:聲學(xué)模型,比如HMM-GMM系統(tǒng)框 架描述的模型;語(yǔ)言模型,比如N-Grams描述的模型;解碼器,用于結(jié)合聲學(xué)模型、語(yǔ)言模 型、發(fā)音字典等資源,將聲音信號(hào)轉(zhuǎn)換為文本信息。隨著近年來(lái)深層神經(jīng)網(wǎng)絡(luò)(DNN)理論的 成熟,解決了多層網(wǎng)絡(luò)訓(xùn)練的問(wèn)題,同時(shí)也可以應(yīng)用大量的非標(biāo)注數(shù)據(jù)。在語(yǔ)音識(shí)別領(lǐng)域, DNN也顯示出強(qiáng)大的建模能力。無(wú)論是聲學(xué)模型訓(xùn)練還是語(yǔ)言模型訓(xùn)練,深層神經(jīng)網(wǎng)絡(luò)都體 現(xiàn)出很好的實(shí)用效果。
[0004] 在傳統(tǒng)DNN模型訓(xùn)練中,隨機(jī)梯度下降算法(Stochastic Gradient Descent, SGD)僅能夠順序地估計(jì)模型參數(shù),不同語(yǔ)音數(shù)據(jù)之間存在時(shí)間上的依存關(guān)系,難以實(shí)現(xiàn)類(lèi) 似Map-Reduce -樣的多機(jī)并行化算法,不容易做到加速DNN模型訓(xùn)練的速度。為了達(dá)到更 好的語(yǔ)音識(shí)別準(zhǔn)確率,在實(shí)際應(yīng)用中傾向于使用海量數(shù)據(jù)來(lái)訓(xùn)練DNN模型,但是如果使用 傳統(tǒng)的SGD方法,針對(duì)上千小時(shí)的數(shù)據(jù)訓(xùn)練模型,往往需要幾個(gè)月的時(shí)間,難以滿(mǎn)足應(yīng)用中 實(shí)時(shí)性的要求。因此實(shí)現(xiàn)DNN模型的并行化估計(jì),越來(lái)越有價(jià)值。
[0005] 在研究領(lǐng)域中,人們首先引進(jìn)類(lèi)牛頓方法來(lái)估計(jì)DNN模型,這是一種二階的優(yōu)化 方式。類(lèi)牛頓算法首先近似估計(jì)一個(gè)二階的Hessian矩陣的逆矩陣,然后利用這個(gè)矩陣來(lái) 更新模型參數(shù),這是一種訓(xùn)練單元(batch)的訓(xùn)練方式,不是在線(xiàn)(online)的訓(xùn)練方式,即 所有數(shù)據(jù)僅更新一次模型,數(shù)據(jù)之間不存在時(shí)間上的依存關(guān)系,這樣就可以將數(shù)據(jù)拆分成 多塊,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)的并行化策略,以加速DNN模型參數(shù)估計(jì)。
[0006] 雖然二階優(yōu)化在理論上等同于一階參數(shù)優(yōu)化,并且在迭代收斂速度上快于傳統(tǒng)的 SGD方法。但是在大數(shù)據(jù)中,二階參數(shù)優(yōu)化方式往往需要很多細(xì)節(jié)部分的調(diào)節(jié),在缺少先驗(yàn) 的知識(shí)下,二階優(yōu)化往往沒(méi)有一階優(yōu)化更健壯。具體的,對(duì)于語(yǔ)音識(shí)別中的DNN建模而言, 這種算法并不能達(dá)到SGD算法的良好性能。


【發(fā)明內(nèi)容】

[0007] 本發(fā)明實(shí)施方式提出一種聲學(xué)模型訓(xùn)練方法,以提高聲學(xué)模型的性能。
[0008] 本發(fā)明實(shí)施方式提出一種聲學(xué)模型訓(xùn)練裝置,以提高聲學(xué)模型的性能。
[0009] 本發(fā)明實(shí)施方式的技術(shù)方案如下:
[0010] -種聲學(xué)模型訓(xùn)練方法,該方法包括: toon] 建立深層神經(jīng)網(wǎng)絡(luò)模型初始模型;
[0012] 將語(yǔ)音訓(xùn)練數(shù)據(jù)劃分為N個(gè)不相交的數(shù)據(jù)子集合,針對(duì)每個(gè)數(shù)據(jù)子集合利用隨機(jī) 梯度下降算法更新所述深層神經(jīng)網(wǎng)絡(luò)模型初始模型,得到N個(gè)深層神經(jīng)網(wǎng)絡(luò)模型子模型, 其中N為至少為2的自然數(shù);
[0013] 融合所述N個(gè)深層神經(jīng)網(wǎng)絡(luò)模型子模型以得到深層神經(jīng)網(wǎng)絡(luò)模型中間模型,并當(dāng) 該深層神經(jīng)網(wǎng)絡(luò)模型中間模型符合預(yù)先設(shè)定的收斂條件時(shí),判定該深層神經(jīng)網(wǎng)絡(luò)模型中間 模型為訓(xùn)練后聲學(xué)模型。
[0014] 一種聲學(xué)模型訓(xùn)練裝置,包括初始模型建立單元、子模型獲取單元和融合單元,其 中:
[0015] 初始模型建立單元,用于建立深層神經(jīng)網(wǎng)絡(luò)模型初始模型;
[0016] 子模型獲取單元,用于將語(yǔ)音訓(xùn)練數(shù)據(jù)劃分為N個(gè)不相交的數(shù)據(jù)子集合,針對(duì)每 個(gè)數(shù)據(jù)子集合利用隨機(jī)梯度下降算法更新所述深層神經(jīng)網(wǎng)絡(luò)模型初始模型,得到N個(gè)深層 神經(jīng)網(wǎng)絡(luò)模型子模型,其中N為至少為2的自然數(shù);
[0017] 融合單元,用于融合所述N個(gè)深層神經(jīng)網(wǎng)絡(luò)模型子模型以得到深層神經(jīng)網(wǎng)絡(luò)模型 中間模型,并當(dāng)該深層神經(jīng)網(wǎng)絡(luò)模型中間模型符合預(yù)先設(shè)定的收斂條件時(shí),判定該深層神 經(jīng)網(wǎng)絡(luò)模型中間模型為訓(xùn)練后聲學(xué)模型。
[0018] 從上述技術(shù)方案可以看出,在本發(fā)明實(shí)施方式中,建立深層神經(jīng)網(wǎng)絡(luò)模型初始模 型;將語(yǔ)音訓(xùn)練數(shù)據(jù)劃分為N個(gè)不相交的數(shù)據(jù)子集合,針對(duì)每個(gè)數(shù)據(jù)子集合利用隨機(jī)梯度 下降算法更新所述深層神經(jīng)網(wǎng)絡(luò)模型初始模型,得到N個(gè)深層神經(jīng)網(wǎng)絡(luò)模型子模型,其中N 為至少為2的自然數(shù);融合所述N個(gè)深層神經(jīng)網(wǎng)絡(luò)模型子模型以得到深層神經(jīng)網(wǎng)絡(luò)模型中 間模型,并當(dāng)該深層神經(jīng)網(wǎng)絡(luò)模型中間模型符合預(yù)先設(shè)定的收斂條件時(shí),判定該深層神經(jīng) 網(wǎng)絡(luò)模型中間模型為訓(xùn)練后聲學(xué)模型。由此可見(jiàn),應(yīng)用本發(fā)明實(shí)施方式之后,提出了深層神 經(jīng)網(wǎng)絡(luò)并行訓(xùn)練方法,可以使用不同語(yǔ)音數(shù)據(jù)同時(shí)訓(xùn)練多個(gè)深層神經(jīng)網(wǎng)絡(luò)子模型,然后將 這些子模型融合起來(lái),得到一個(gè)性能更好的訓(xùn)練后聲學(xué)模型,同時(shí)可以大大縮小模型訓(xùn)練 所需的時(shí)間。
[0019] 而且,本發(fā)明實(shí)施方式可以使用多個(gè)深層神經(jīng)網(wǎng)絡(luò)模型,解碼得到每個(gè)深層神經(jīng) 網(wǎng)絡(luò)模型輸出的后驗(yàn)概率,再將若干個(gè)后驗(yàn)概率通過(guò)最優(yōu)化的方式融合,得到最終的語(yǔ)音 識(shí)別輸出結(jié)果,這樣可以降低每個(gè)深層神經(jīng)網(wǎng)絡(luò)模型輸出的后驗(yàn)概率的偏差,并提高語(yǔ)音 識(shí)別的性能。

【專(zhuān)利附圖】

【附圖說(shuō)明】
[0020] 圖1為現(xiàn)有技術(shù)HMM-DNN系統(tǒng)的處理流程圖;
[0021] 圖2為根據(jù)本發(fā)明實(shí)施方式的聲學(xué)模型訓(xùn)練方法流程圖;
[0022] 圖3為根據(jù)本發(fā)明實(shí)施方式的DNN聲學(xué)模型訓(xùn)練流程圖;
[0023] 圖4為根據(jù)本發(fā)明實(shí)施方式的DNN聲學(xué)模型測(cè)試流程圖;
[0024] 圖5為根據(jù)本發(fā)明實(shí)施方式的聲學(xué)模型訓(xùn)練裝置結(jié)構(gòu)圖。

【具體實(shí)施方式】
[0025] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步 的詳細(xì)描述。
[0026] 本發(fā)明實(shí)施方式關(guān)注聲學(xué)模型的訓(xùn)練,聲學(xué)模型的訓(xùn)練是語(yǔ)音識(shí)別技術(shù)的核心步 驟。
[0027] 語(yǔ)音識(shí)別是一個(gè)序列化的分類(lèi)問(wèn)題,目的是將收集到的一連串語(yǔ)音信號(hào)轉(zhuǎn)化為一 串文本輸出。由于語(yǔ)音信號(hào)存在時(shí)間上的關(guān)聯(lián),即某一個(gè)時(shí)刻的語(yǔ)音數(shù)據(jù)與前面若干時(shí)刻 的語(yǔ)音數(shù)據(jù)相關(guān)。為了模擬語(yǔ)音數(shù)據(jù)產(chǎn)生的機(jī)制,馬爾科夫模型被引進(jìn)語(yǔ)音識(shí)別領(lǐng)域當(dāng)中。 為了進(jìn)一步簡(jiǎn)化模型的復(fù)雜度,馬爾科夫模型的每一個(gè)當(dāng)前狀態(tài)僅和前一個(gè)時(shí)刻的狀態(tài)有 關(guān)。
[0028] 對(duì)于每個(gè)特定的語(yǔ)言來(lái)說(shuō),由于語(yǔ)音信號(hào)其最基本的發(fā)音單元均是有限數(shù)目, 觀(guān)測(cè)到一個(gè)特定發(fā)音的時(shí)候,其對(duì)應(yīng)的文本并不一定相同,隱藏馬爾科夫模型(Hidden Markov Model,HMM)正好可以表達(dá)這一問(wèn)題。在語(yǔ)音識(shí)別中,隱藏馬爾科夫模型作為最基本 的描述語(yǔ)音數(shù)據(jù)產(chǎn)生機(jī)制的模型一直沿用至今。同時(shí),由于語(yǔ)音信號(hào)存在著豐富的變化可 能,同樣文本的語(yǔ)音,不同性別,不同地域,不同情緒,不同風(fēng)格的人說(shuō)出來(lái),均存在著差異, 為了描述這一差異,高斯混合模型(Gaussian Mixture Model, GMM)被引入語(yǔ)音識(shí)別領(lǐng)域。 HMM-GMM的系統(tǒng)框架,主導(dǎo)語(yǔ)音識(shí)別領(lǐng)域多年,并在近年由于海量數(shù)據(jù)的引入,和互聯(lián)網(wǎng)技 術(shù)的發(fā)展,逐步可以滿(mǎn)足大量的現(xiàn)實(shí)需求。
[0029] 對(duì)于HMM-GMM系統(tǒng)而言,訓(xùn)練一個(gè)具有較高識(shí)別率的聲學(xué)模型,需要大量有標(biāo)注 的語(yǔ)音數(shù)據(jù),利用EM算法估計(jì)HMM-GMM模型的各種參數(shù)。比如:對(duì)于中文而言,語(yǔ)音的發(fā)音 字典包含了 100多個(gè)不同的音素,而HMM-GMM模型通常使用的三因子(Triphone Model)模 型,則根據(jù)前后文的音素,擴(kuò)展出來(lái)1〇〇萬(wàn)左右各不同的音素模型,這就需要大量的有標(biāo)注 的語(yǔ)音數(shù)據(jù)來(lái)對(duì)這些不同的音素模型進(jìn)行建模。
[0030] 由于可用的有標(biāo)注的語(yǔ)音數(shù)據(jù)往往都是較少的,不可能涵蓋所有的音素模型,對(duì) 于某些音素而言,對(duì)應(yīng)的數(shù)據(jù)往往是稀疏的。這種情況下,待估計(jì)的參數(shù)數(shù)目,要比估計(jì)數(shù) 據(jù)多,就容易造成參數(shù)估計(jì)的不穩(wěn)定,不能很好的模擬語(yǔ)音數(shù)據(jù)的真實(shí)情況。
[0031] 為了解決這一問(wèn)題,提出決策樹(shù)方法。即根據(jù)不同音素的產(chǎn)生機(jī)制以及可用的估 計(jì)數(shù)據(jù)的多少,通過(guò)聚類(lèi)的方式,將1〇〇萬(wàn)個(gè)模型,聚類(lèi)成為幾萬(wàn)個(gè)模型,這樣就可以使得 每一個(gè)模型類(lèi)包含較多的數(shù)據(jù),可以較為準(zhǔn)確地估計(jì)模型類(lèi)。這種聚類(lèi)方法,是根據(jù)可用的 語(yǔ)音數(shù)據(jù),近似地對(duì)模型進(jìn)行估計(jì)的一種方案。由于模型數(shù)目大大減少,每個(gè)模型類(lèi)中,原 有的模型特性會(huì)被同一類(lèi)中其他模型的特性掩蓋掉,最終導(dǎo)致模型類(lèi)只是一個(gè)均值模型, 其模擬參數(shù)的能力并不強(qiáng)大。
[0032] 同時(shí),HMM模型中包含有一個(gè)強(qiáng)假設(shè):每個(gè)狀態(tài)至于前一狀態(tài)有關(guān)。這一假設(shè)破壞 了時(shí)間序列信號(hào)前后相關(guān)的特性。近年來(lái),為了彌補(bǔ)這一假設(shè),人們引進(jìn)splice的補(bǔ)償方 式,就是把當(dāng)前的語(yǔ)音信號(hào)前后擴(kuò)展幾幀,拼成一個(gè)大的向量信號(hào),然后進(jìn)行HMM-GMM模型 的訓(xùn)練,由于拼接信號(hào)帶來(lái)了高維度的問(wèn)題,這一問(wèn)題更加加大了數(shù)據(jù)量不充足的問(wèn)題,因 此只能將這一高維信號(hào)進(jìn)行降維操作,以達(dá)到數(shù)據(jù)和維度的平衡。這一操作難免引入信息 損耗,并不是一個(gè)合理的方案。
[0033] 隨著近年來(lái)深層神經(jīng)網(wǎng)絡(luò)理論的成熟,解決了多層網(wǎng)絡(luò)訓(xùn)練的問(wèn)題,同時(shí)也可以 應(yīng)用大量的非標(biāo)注數(shù)據(jù)。在語(yǔ)音識(shí)別領(lǐng)域,DNN也顯示出強(qiáng)大的建模能力。無(wú)論是聲學(xué)模 型訓(xùn)練還是語(yǔ)言模型訓(xùn)練,深層神經(jīng)網(wǎng)絡(luò)都體現(xiàn)出很好的實(shí)用效果。HMM-DNN識(shí)別框架逐漸 成為現(xiàn)在語(yǔ)音識(shí)別技術(shù)的主流。
[0034] 在傳統(tǒng)HMM-DNN模型訓(xùn)練中,SGD算法僅能夠順序估計(jì)模型參數(shù)(即假如可供訓(xùn)練 的語(yǔ)音數(shù)據(jù)一共有1〇〇萬(wàn)條,SGD方法必須逐條使用,讀入第N條語(yǔ)音數(shù)據(jù)計(jì)算梯度;更新 DNN模型;然后讀入第N+1條語(yǔ)音數(shù)據(jù),利用上次得到的DNN模型基礎(chǔ)進(jìn)行計(jì)算梯度,再一 次更新DNN模型),不同語(yǔ)音數(shù)據(jù)之間存在時(shí)間上的依存關(guān)系,難以實(shí)現(xiàn)類(lèi)似Map-Reduce - 樣的多機(jī)并行化算法,不容易做到加速DNN模型訓(xùn)練的速度。
[0035] 為了達(dá)到更好的語(yǔ)音識(shí)別準(zhǔn)確率,在實(shí)際應(yīng)用中傾向于使用海量數(shù)據(jù)來(lái)訓(xùn)練DNN 模型,但是如果使用傳統(tǒng)的SGD方法,上千小時(shí)的數(shù)據(jù)訓(xùn)練模型,往往需要幾個(gè)月的時(shí)間, 難以滿(mǎn)足應(yīng)用中實(shí)時(shí)性的要求。因此實(shí)現(xiàn)DNN模型的并行化估計(jì),越來(lái)越有價(jià)值。
[0036] 同時(shí)由于神經(jīng)網(wǎng)絡(luò)仍然是一種基于數(shù)據(jù)驅(qū)動(dòng)得到的統(tǒng)計(jì)模型,如果訓(xùn)練數(shù)據(jù)中包 含一定的傾向性,比如都是來(lái)自電話(huà)的語(yǔ)音數(shù)據(jù),通過(guò)SGD算法得到的最終DNN模型,還是 會(huì)存在一定的偏差,它會(huì)更好的識(shí)別來(lái)自于電話(huà)信道的語(yǔ)音數(shù)據(jù),而對(duì)其他來(lái)源的語(yǔ)音數(shù) 據(jù),識(shí)別率會(huì)偏低。從原理上看,DNN網(wǎng)絡(luò)輸出的是有關(guān)某個(gè)綁定音素狀態(tài)的后驗(yàn)概率,這 個(gè)后驗(yàn)概率具有一定的概率分布。它具有一個(gè)變化范圍,稱(chēng)之為誤差。這個(gè)誤差造成語(yǔ)音 識(shí)別中由電話(huà)風(fēng)格語(yǔ)音數(shù)據(jù)訓(xùn)練的DNN模型對(duì)來(lái)自其他風(fēng)格的語(yǔ)音數(shù)據(jù)的識(shí)別結(jié)果較差。
[0037] 本發(fā)明實(shí)施方式針對(duì)這個(gè)問(wèn)題,同時(shí)還可以在解碼器端提出了一種降低該誤差的 方法。即使用多個(gè)DNN模型解碼,得到每個(gè)DNN模型輸出的后驗(yàn)概率,將若干個(gè)后驗(yàn)概率通 過(guò)最優(yōu)化的方式融合,得到最終的語(yǔ)音識(shí)別輸出結(jié)果。這樣可以降低每個(gè)DNN模型輸出的 后驗(yàn)概率的偏差,提高語(yǔ)音識(shí)別的性能。
[0038] 圖1為現(xiàn)有技術(shù)的HMM-DNN系統(tǒng)執(zhí)行流程圖。
[0039] 如圖1所示,傳統(tǒng)的HMM-DNN系統(tǒng)框架下,首先要訓(xùn)練DNN聲學(xué)模型,然后利用DNN 模型和HMM模型的拓?fù)浣Y(jié)構(gòu),完成解碼操作。
[0040] 要訓(xùn)練DNN聲學(xué)模型,首先要獲取一定的資源文件,資源文件包括:
[0041] (1)、訓(xùn)練數(shù)據(jù)的聲學(xué)特征:把參與DNN模型訓(xùn)練的數(shù)據(jù)(大約幾千小時(shí))收集起 來(lái),通過(guò)聲學(xué)參數(shù)提取模塊,獲得語(yǔ)音數(shù)據(jù)的聲學(xué)特征,比如PLP,MFCC,F(xiàn)Bank等。這些特征 可以較好的反應(yīng)語(yǔ)音數(shù)據(jù)中包含的文本信息(即語(yǔ)音識(shí)別的目的,將聲音轉(zhuǎn)換為文本)。
[0042] (2)、狀態(tài)級(jí)標(biāo)注:使用HMM-GMM模型,對(duì)于全部訓(xùn)練數(shù)據(jù)做強(qiáng)制性對(duì)齊 (A1 i gnment),得到某個(gè)語(yǔ)音特征文件,不同時(shí)間節(jié)點(diǎn)的特征對(duì)應(yīng)的音素狀態(tài)。
[0043] (3)、HMM模型拓?fù)浣Y(jié)構(gòu):即使用傳統(tǒng)HMM-GMM框架訓(xùn)練好的HMM模型,包含最終 聚類(lèi)的狀態(tài)數(shù)目,狀態(tài)綁定列表,音素綁定列表,以及狀態(tài)之間的轉(zhuǎn)移概率,這些都是在DNN 模型訓(xùn)練和測(cè)試中需要的資源。
[0044] (4)、DNN模型拓?fù)浣Y(jié)構(gòu):輸入特征前后擴(kuò)展的幀數(shù),DNN網(wǎng)絡(luò)層次,DNN網(wǎng)絡(luò)節(jié)點(diǎn)數(shù) 目,激活函數(shù)形式等資源。
[0045] 要測(cè)試HMM-DNN模型的性能,需要獲取另外一批資源,這包括:
[0046] (5)、語(yǔ)言模型:即表征各個(gè)詞之間的相互關(guān)系的文件。常用的語(yǔ)言模型為 N-gram,即當(dāng)前詞給定N-1個(gè)詞歷史的情況下的出現(xiàn)概率。
[0047] (6)、發(fā)音字典:每個(gè)詞如何發(fā)音,具體的是指每個(gè)詞對(duì)應(yīng)的音素基本單元序列。
[0048] 傳統(tǒng)的DNN模型的訓(xùn)練流程如下:
[0049] 步驟1,根據(jù)準(zhǔn)備好的DNN模型拓?fù)浣Y(jié)構(gòu),建立DNN模型的初始模型,并且設(shè)定SOT 所需的參數(shù),如學(xué)習(xí)率(learning rate),動(dòng)量項(xiàng)(Momentum),最小訓(xùn)練單元(mini-batch size)等。
[0050] 步驟2,把所有的語(yǔ)音訓(xùn)練數(shù)據(jù)隨機(jī)排列成一個(gè)語(yǔ)音文件序列,SGD算法按照排列 好的順序,按照最小訓(xùn)練單元(mini-batch)的大小,逐次讀入特征文件以及對(duì)應(yīng)的狀態(tài)級(jí) 標(biāo)注文件,更新DNN模型。
[0051] 步驟3,在全部語(yǔ)音訓(xùn)練數(shù)據(jù)都參與DNN模型的更新之后,就完成了一次迭代訓(xùn) 練,這時(shí)候得到一個(gè)DNN的中間模型。需要使用開(kāi)發(fā)集合來(lái)交叉驗(yàn)證(Cross Validation) 該中間模型是否最優(yōu)。具體包括:使用開(kāi)發(fā)集合的語(yǔ)音數(shù)據(jù),在DNN中間模型上計(jì)算幀級(jí)的 準(zhǔn)確率;如果開(kāi)發(fā)集合上的準(zhǔn)確率大于預(yù)先設(shè)置好的門(mén)限,就可以結(jié)束訓(xùn)練,將DNN中間模 型作為DNN最終模型;如果小于預(yù)先設(shè)置好的門(mén)限,則說(shuō)明這個(gè)中間模型還不是最優(yōu)模型, 這時(shí)候就跳到步驟2,繼續(xù)訓(xùn)練。
[0052] 在得到了 DNN模型之后,傳統(tǒng)方式需要同時(shí)獲得語(yǔ)言模型(Language Model),發(fā) 音字典(Lexicon),音素集合(Phoneset)等資源。通過(guò)動(dòng)態(tài)或者靜態(tài)擴(kuò)展解碼空間,使用維 特比解碼(Viterbi Algorithm)方法,將語(yǔ)音文件轉(zhuǎn)換為文本文件。
[0053] 本發(fā)明實(shí)施方式提出一種聲學(xué)模型訓(xùn)練方法,是一種并行的DNN聲學(xué)模型訓(xùn)練框 架,可以替代傳統(tǒng)DNN模型的訓(xùn)練部分。
[0054] 本發(fā)明實(shí)施方式針對(duì)一階優(yōu)化SGD方法,在DNN的聲學(xué)模型訓(xùn)練當(dāng)中,提出了一種 近似的并行化估計(jì)策略。即使用不同語(yǔ)音數(shù)據(jù),同時(shí)訓(xùn)練多個(gè)DNN模型,然后采用最優(yōu)化策 略,將這些模型融合起來(lái),得到一個(gè)比得到的多個(gè)DNN模型性能更好的一個(gè)DNN模型。
[0055] 圖2為根據(jù)本發(fā)明實(shí)施方式的聲學(xué)模型訓(xùn)練方法流程圖。
[0056] 如圖2所示,該方法包括:
[0057] 步驟201 :建立深層神經(jīng)網(wǎng)絡(luò)模型初始模型;
[0058] 步驟202 :將語(yǔ)音訓(xùn)練數(shù)據(jù)劃分為N個(gè)不相交的數(shù)據(jù)子集合,針對(duì)每個(gè)數(shù)據(jù)子集合 利用隨機(jī)梯度下降算法更新所述深層神經(jīng)網(wǎng)絡(luò)模型初始模型,得到N個(gè)深層神經(jīng)網(wǎng)絡(luò)模型 子模型,其中N為至少為2的自然數(shù);
[0059] 在這里,可以將語(yǔ)音訓(xùn)練數(shù)據(jù)隨機(jī)排列成語(yǔ)音文件序列;然后再將該語(yǔ)音文件序 列劃分為N個(gè)不相交的數(shù)據(jù)子集合。
[0060] 步驟203 :融合所述N個(gè)深層神經(jīng)網(wǎng)絡(luò)模型子模型以得到深層神經(jīng)網(wǎng)絡(luò)模型中間 模型,并當(dāng)該深層神經(jīng)網(wǎng)絡(luò)模型中間模型符合預(yù)先設(shè)定的收斂條件時(shí),判定該深層神經(jīng)網(wǎng) 絡(luò)模型中間模型為訓(xùn)練后聲學(xué)模型
[0061] 在一個(gè)實(shí)施方式中,在融合所述N個(gè)深層神經(jīng)網(wǎng)絡(luò)模型子模型的過(guò)程中,每個(gè)深 層神經(jīng)網(wǎng)絡(luò)模型子模型的所有層次共享融合權(quán)重。
[0062] 在一個(gè)實(shí)施方式中,在融合所述N個(gè)深層神經(jīng)網(wǎng)絡(luò)模型子模型的過(guò)程中,每個(gè)深 層神經(jīng)網(wǎng)絡(luò)模型子模型的各個(gè)層次的融合權(quán)重并不相同。
[0063] 該方法進(jìn)一步包括:
[0064] 收集Μ個(gè)訓(xùn)練后聲學(xué)模型,其中Μ為至少為2的自然數(shù);
[0065] 對(duì)于同一個(gè)測(cè)試語(yǔ)音數(shù)據(jù),分別使用所述Μ個(gè)訓(xùn)練后聲學(xué)模型解碼出Μ個(gè)后驗(yàn)概 率序列;
[0066] 融合所述Μ個(gè)后驗(yàn)概率序列,以得到語(yǔ)音識(shí)別結(jié)果。
[0067] 在一個(gè)實(shí)施方式中,所述融合所述Μ個(gè)后驗(yàn)概率序列包括:在融合所述Μ個(gè)后驗(yàn)概 率序列的過(guò)程中,每個(gè)后驗(yàn)概率序列的所有綁定音素狀態(tài)共享融合權(quán)重。
[0068] 在一個(gè)實(shí)施方式中,所述融合所述Μ個(gè)后驗(yàn)概率序列包括:在融合所述Μ個(gè)后驗(yàn)概 率序列的過(guò)程中,每個(gè)后驗(yàn)概率序列的各個(gè)綁定音素狀態(tài)的融合權(quán)重并不相同。
[0069] 基于上述分析,下面描述根據(jù)本發(fā)明實(shí)施方式訓(xùn)練DNN聲學(xué)模型的示范性實(shí)例。
[0070] 圖3為根據(jù)本發(fā)明實(shí)施方式的DNN聲學(xué)模型訓(xùn)練流程圖。
[0071] 首先要獲取一定的資源文件,資源文件包括:
[0072] (1)、訓(xùn)練數(shù)據(jù)的聲學(xué)特征:把參與DNN模型訓(xùn)練的數(shù)據(jù)(大約幾千小時(shí))收集起 來(lái),通過(guò)聲學(xué)參數(shù)提取模塊,獲得語(yǔ)音數(shù)據(jù)的聲學(xué)特征,比如PLP,MFCC,F(xiàn)Bank等。這些特征 可以較好的反應(yīng)語(yǔ)音數(shù)據(jù)中包含的文本信息(即語(yǔ)音識(shí)別的目的,將聲音轉(zhuǎn)換為文本)。
[0073] (2)、狀態(tài)級(jí)標(biāo)注:使用HMM-GMM模型,對(duì)于全部訓(xùn)練數(shù)據(jù)做強(qiáng)制性對(duì)齊 (A1 i gnment),得到某個(gè)語(yǔ)音特征文件,不同時(shí)間節(jié)點(diǎn)的特征對(duì)應(yīng)的音素狀態(tài)。
[0074] (3)、HMM模型拓?fù)浣Y(jié)構(gòu):即使用傳統(tǒng)HMM-GMM框架訓(xùn)練好的HMM模型,包含最終 聚類(lèi)的狀態(tài)數(shù)目,狀態(tài)綁定列表,音素綁定列表,以及狀態(tài)之間的轉(zhuǎn)移概率,這些都是在DNN 模型訓(xùn)練和測(cè)試中需要的資源。
[0075] (4)、DNN模型拓?fù)浣Y(jié)構(gòu):輸入特征前后擴(kuò)展的幀數(shù),DNN網(wǎng)絡(luò)層次,DNN網(wǎng)絡(luò)節(jié)點(diǎn)數(shù) 目,激活函數(shù)形式等資源。
[0076] 要測(cè)試HMM-DNN模型的性能,需要獲取另外一批資源,這包括:
[0077] (5)、語(yǔ)言模型:即表征各個(gè)詞之間的相互關(guān)系的文件。常用的語(yǔ)言模型為 N-gram,即當(dāng)前詞給定N-1個(gè)詞歷史的情況下的出現(xiàn)概率。
[0078] (6)、發(fā)音字典:每個(gè)詞如何發(fā)音,具體的是指每個(gè)詞對(duì)應(yīng)的音素基本單元序列。
[0079] 而且,可以需要根據(jù)CPU集群的數(shù)目等方式,確定N值。
[0080] 如圖3所示,該流程包括:
[0081] 步驟1 :根據(jù)準(zhǔn)備好的DNN模型拓?fù)浣Y(jié)構(gòu),建立一個(gè)DNN模型的初始模型,并設(shè)定 好SGD之中所需的參數(shù),如學(xué)習(xí)率(learning rate),動(dòng)量項(xiàng)(Momentum),mini_batch size 以及待劃分子模型數(shù)目等。
[0082] 步驟2 :把所有的語(yǔ)音訓(xùn)練數(shù)據(jù)隨機(jī)的排列成一個(gè)語(yǔ)音文件序列,再按照設(shè)定的 子模型數(shù)目N,將語(yǔ)音文件劃分為N個(gè)不相交的子集合。對(duì)于每個(gè)數(shù)據(jù)子集,均調(diào)用SGD算 法從其分配的數(shù)據(jù)子集中,按照排列好的順序,按照最小訓(xùn)練單元(mini-batch)的大小,逐 次讀入特征文件以及對(duì)應(yīng)的狀態(tài)級(jí)標(biāo)注文件,更新DNN模型的初始模型,得到N個(gè)DNN子模 型。
[0083] 步驟3 :使用DNN模型融合的開(kāi)發(fā)集合,調(diào)用模型融合模塊通過(guò)最優(yōu)化的方式將N 個(gè)DNN子模型融合起來(lái),得到DNN中間模型。
[0084] 假定每個(gè)DNN子模型包含Η個(gè)層次,每層包含的參數(shù)寫(xiě)為Wnh,其中η表示第η個(gè) 子模型,h表示第h個(gè)層次;η取[1,Ν]區(qū)間的整數(shù),h取[1,Η]區(qū)間的整數(shù)。
[0085] 具體可以實(shí)時(shí)2個(gè)融合策略。
[0086] -個(gè)是模型級(jí)的融合,即每個(gè)子模型的所有層次共享一個(gè)融合權(quán)重。ΙΗη3?, χ=&1Ι1χ+ a2*W2x+. · · +aN*WNx ;Wfinal,x表示最終融合之后權(quán)重的第X層,X取[1,Η]之間的整數(shù),另夕卜權(quán) 重滿(mǎn)足al+a2+. · · +aN=l這個(gè)條件。
[0087] 另一個(gè)策略是層次級(jí)融合,即每個(gè)子模型的各個(gè)層次參數(shù)的權(quán)重不相同。W finai, x=alx*Wlx+a2x*W2x+. . . +aNx*WNx,X表示第X層,取[1,Η]之間的整數(shù),權(quán)重滿(mǎn)足條件 aix+a2x+· · · +aNx_l°
[0088] 可以使用各種優(yōu)化手段來(lái)實(shí)現(xiàn)融合權(quán)重的估計(jì),比如一階的梯度下降算法,二階 的LBFGS算法。
[0089] 步驟4,上述融合之后的DNN模型是一個(gè)DNN的中間模型,可以使用開(kāi)發(fā)集合來(lái)交 叉驗(yàn)證(Cross Validation)這個(gè)中間模型是否最優(yōu)。具體包括:使用開(kāi)發(fā)集合的語(yǔ)音數(shù)據(jù), 在DNN中間模型上計(jì)算幀級(jí)的準(zhǔn)確率。如果開(kāi)發(fā)集合上的幀級(jí)準(zhǔn)確率大于預(yù)先設(shè)置好的門(mén) 限,就可以結(jié)束訓(xùn)練,將DNN中間模型作為DNN最終模型;如果小于預(yù)先設(shè)置好的門(mén)限,則說(shuō) 明這個(gè)中間模型還不是最優(yōu)模型,這時(shí)候就跳到步驟2,繼續(xù)訓(xùn)練。
[0090] 在根據(jù)上述流程得到DNN模型之后,可以利用傳統(tǒng)的HMM-DNN模型框架中的測(cè)試 方法來(lái)進(jìn)行。
[0091] 優(yōu)選地,本發(fā)明實(shí)施方式還提出訓(xùn)練多個(gè)DNN聲學(xué)模型的算法,其中各個(gè)DNN模型 必須保證輸出的狀態(tài)數(shù)目是一致的,并且這些狀態(tài)的均來(lái)自同一個(gè)HMM-GMM模型。除了這 個(gè)要求之外,各個(gè)DNN模型的拓?fù)浣Y(jié)構(gòu)(深層神經(jīng)網(wǎng)絡(luò)的層數(shù),隱藏層節(jié)點(diǎn)數(shù)目)可以不同; 訓(xùn)練方式(比如采用傳統(tǒng)的DNN訓(xùn)練方法或采用本發(fā)明實(shí)施方式提出的并行訓(xùn)練方法)可以 不同;訓(xùn)練參數(shù)(學(xué)習(xí)率,動(dòng)量項(xiàng),mini-batch size等)設(shè)置可以不同;以及所采用的語(yǔ)音 訓(xùn)練數(shù)據(jù)可以不同。
[0092] 圖4為根據(jù)本發(fā)明實(shí)施方式的DNN聲學(xué)模型測(cè)試流程圖。
[0093] 如圖4所示,該方法包括:
[0094] 步驟1 :收集Μ個(gè)不同的DNN聲學(xué)模型,以及類(lèi)似傳統(tǒng)HMM-DNN解碼過(guò)程中的所有 資源文件。
[0095] 步驟2 :對(duì)于同一個(gè)測(cè)試語(yǔ)音,分別使用Μ個(gè)DNN模型解碼出Μ個(gè)后驗(yàn)概率的序列。 [0096] 步驟3 :利用開(kāi)發(fā)集合,使將步驟2中得到的Μ個(gè)概率序列融合起來(lái),得到最終的 語(yǔ)音識(shí)別結(jié)果。
[0097] 基于上述詳細(xì)分析,本發(fā)明實(shí)施方式還提出了一種聲學(xué)模型訓(xùn)練裝置。
[0098] 圖5為根據(jù)本發(fā)明實(shí)施方式的聲學(xué)模型訓(xùn)練裝置結(jié)構(gòu)圖。
[0099] 如圖5所示,聲學(xué)模型訓(xùn)練裝置包括初始模型建立單元501、子模型獲取單元502 和融合單元503,其中:
[0100] 初始模型建立單元501,用于建立深層神經(jīng)網(wǎng)絡(luò)模型初始模型;
[0101] 子模型獲取單元502,用于將語(yǔ)音訓(xùn)練數(shù)據(jù)劃分為Ν個(gè)不相交的數(shù)據(jù)子集合,針對(duì) 每個(gè)數(shù)據(jù)子集合利用隨機(jī)梯度下降算法更新所述深層神經(jīng)網(wǎng)絡(luò)模型初始模型,得到Ν個(gè)深 層神經(jīng)網(wǎng)絡(luò)模型子模型,其中Ν為至少為2的自然數(shù);
[0102] 融合單元503,用于融合所述Ν個(gè)深層神經(jīng)網(wǎng)絡(luò)模型子模型以得到深層神經(jīng)網(wǎng)絡(luò) 模型中間模型,并當(dāng)該深層神經(jīng)網(wǎng)絡(luò)模型中間模型符合預(yù)先設(shè)定的收斂條件時(shí),判定該深 層神經(jīng)網(wǎng)絡(luò)模型中間模型為訓(xùn)練后聲學(xué)模型。
[0103] 在一個(gè)實(shí)施方式中:
[0104] 子模型獲取單元502,用于將語(yǔ)音訓(xùn)練數(shù)據(jù)隨機(jī)排列成語(yǔ)音文件序列;將該語(yǔ)音 文件序列劃分為Ν個(gè)不相交的數(shù)據(jù)子集合。
[0105] 在一個(gè)實(shí)施方式中:
[0106] 融合單元503,用于在融合所述N個(gè)深層神經(jīng)網(wǎng)絡(luò)模型子模型的過(guò)程中,每個(gè)深層 神經(jīng)網(wǎng)絡(luò)模型子模型的所有層次共享融合權(quán)重。
[0107] 在一個(gè)實(shí)施方式中:
[0108] 融合單元503,用于在融合所述N個(gè)深層神經(jīng)網(wǎng)絡(luò)模型子模型的過(guò)程中,每個(gè)深層 神經(jīng)網(wǎng)絡(luò)模型子模型的各個(gè)層次的融合權(quán)重并不相同。
[0109] 在一個(gè)實(shí)施方式中,進(jìn)一步包括測(cè)試單元504,其中:
[0110] 測(cè)試單元504,用于收集Μ個(gè)訓(xùn)練后聲學(xué)模型,其中Μ為至少為2的自然數(shù);對(duì)于 同一個(gè)測(cè)試語(yǔ)音數(shù)據(jù),分別使用所述Μ個(gè)訓(xùn)練后聲學(xué)模型解碼出Μ個(gè)后驗(yàn)概率序列;融合所 述Μ個(gè)后驗(yàn)概率序列,以得到語(yǔ)音識(shí)別結(jié)果。
[0111] 在一個(gè)實(shí)施方式中:
[0112] 測(cè)試單元504,用于在融合所述Μ個(gè)后驗(yàn)概率序列的過(guò)程中,每個(gè)后驗(yàn)概率序列的 所有綁定音素狀態(tài)共享融合權(quán)重。
[0113] 在一個(gè)實(shí)施方式中:
[0114] 測(cè)試單元504,用于在融合所述Μ個(gè)后驗(yàn)概率序列的過(guò)程中,每個(gè)后驗(yàn)概率序列的 各個(gè)綁定音素狀態(tài)的融合權(quán)重并不相同。
[0115] 可以將圖2所示方法集成到各種語(yǔ)音識(shí)別的硬件實(shí)體當(dāng)中。比如,可以集成到:功 能手機(jī)、智能手機(jī)、掌上電腦、個(gè)人電腦(PC)、平板電腦或個(gè)人數(shù)字助理(PDA),等等設(shè)備之 中。
[0116] 實(shí)際上,可以通過(guò)多種形式來(lái)具體實(shí)施本發(fā)明實(shí)施方式所提出的聲學(xué)模型訓(xùn)練方 法。比如,可以遵循一定規(guī)范的應(yīng)用程序接口,將聲學(xué)模型訓(xùn)練方法編寫(xiě)為安裝到自然語(yǔ) 言處理服務(wù)器中的插件程序,也可以將其封裝為應(yīng)用程序以供用戶(hù)自行下載使用。當(dāng)編寫(xiě) 為插件程序時(shí),可以將其實(shí)施為ocx、dll、cab等多種插件形式。也可以通過(guò)Flash插件、 RealPlayer插件、MMS插件、MI五線(xiàn)譜插件、ActiveX插件等具體技術(shù)來(lái)實(shí)施本發(fā)明實(shí)施方 式所提出的聲學(xué)模型訓(xùn)練方法。
[0117] 可以通過(guò)指令或指令集存儲(chǔ)的儲(chǔ)存方式將本發(fā)明實(shí)施方式所提出的聲學(xué)模型訓(xùn) 練方法存儲(chǔ)在各種存儲(chǔ)介質(zhì)上。這些存儲(chǔ)介質(zhì)包括但是不局限于:軟盤(pán)、光盤(pán)、DVD、硬盤(pán)、閃 存、U盤(pán)、CF卡、SD卡、MMC卡、SM卡、記憶棒(Memory Stick)、xD卡等。
[0118] 另外,還可以將本發(fā)明實(shí)施方式所提出的聲學(xué)模型訓(xùn)練方法應(yīng)用到基于閃存 (Nand flash)的存儲(chǔ)介質(zhì)中,比如U盤(pán)、CF卡、SD卡、SDHC卡、MMC卡、SM卡、記憶棒、xD卡 等。
[0119] 綜上所述,在本發(fā)明實(shí)施方式中,建立深層神經(jīng)網(wǎng)絡(luò)模型初始模型;將語(yǔ)音訓(xùn)練數(shù) 據(jù)劃分為N個(gè)不相交的數(shù)據(jù)子集合,針對(duì)每個(gè)數(shù)據(jù)子集合利用隨機(jī)梯度下降算法更新所述 深層神經(jīng)網(wǎng)絡(luò)模型初始模型,得到N個(gè)深層神經(jīng)網(wǎng)絡(luò)模型子模型,其中N為至少為2的自然 數(shù);融合所述N個(gè)深層神經(jīng)網(wǎng)絡(luò)模型子模型以得到深層神經(jīng)網(wǎng)絡(luò)模型中間模型,并當(dāng)該深 層神經(jīng)網(wǎng)絡(luò)模型中間模型符合預(yù)先設(shè)定的收斂條件時(shí),判定該深層神經(jīng)網(wǎng)絡(luò)模型中間模型 為訓(xùn)練后聲學(xué)模型。由此可見(jiàn),應(yīng)用本發(fā)明實(shí)施方式之后,提出了深層神經(jīng)網(wǎng)絡(luò)并行訓(xùn)練方 法,可以使用不同語(yǔ)音數(shù)據(jù)同時(shí)訓(xùn)練多個(gè)深層神經(jīng)網(wǎng)絡(luò)子模型,然后將這些子模型融合起 來(lái),得到一個(gè)性能更好的訓(xùn)練后聲學(xué)模型,同時(shí)極大的減少了 DNN聲學(xué)模型的訓(xùn)練時(shí)間。
[0120] 而且,本發(fā)明實(shí)施方式可以使用多個(gè)深層神經(jīng)網(wǎng)絡(luò)模型解碼,得到每個(gè)深層神經(jīng) 網(wǎng)絡(luò)模型輸出的后驗(yàn)概率,再將若干個(gè)后驗(yàn)概率通過(guò)最優(yōu)化的方式融合,得到最終的語(yǔ)音 識(shí)別輸出結(jié)果,這樣可以降低每個(gè)深層神經(jīng)網(wǎng)絡(luò)模型輸出的后驗(yàn)概率的偏差,并提高語(yǔ)音 識(shí)別的性能。
[0121] 以上所述,僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。凡在 本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù) 范圍之內(nèi)。
【權(quán)利要求】
1. 一種聲學(xué)模型訓(xùn)練方法,其特征在于,該方法包括: 建立深層神經(jīng)網(wǎng)絡(luò)模型初始模型; 將語(yǔ)音訓(xùn)練數(shù)據(jù)劃分為N個(gè)不相交的數(shù)據(jù)子集合,針對(duì)每個(gè)數(shù)據(jù)子集合利用隨機(jī)梯度 下降算法更新所述深層神經(jīng)網(wǎng)絡(luò)模型初始模型,得到N個(gè)深層神經(jīng)網(wǎng)絡(luò)模型子模型,其中N 為至少為2的自然數(shù); 融合所述N個(gè)深層神經(jīng)網(wǎng)絡(luò)模型子模型以得到深層神經(jīng)網(wǎng)絡(luò)模型中間模型,并當(dāng)該深 層神經(jīng)網(wǎng)絡(luò)模型中間模型符合預(yù)先設(shè)定的收斂條件時(shí),判定該深層神經(jīng)網(wǎng)絡(luò)模型中間模型 為訓(xùn)練后聲學(xué)模型。
2. 根據(jù)權(quán)利要求1所述的聲學(xué)模型訓(xùn)練方法,其特征在于,所述將語(yǔ)音訓(xùn)練數(shù)據(jù)劃分 為N個(gè)不相交的數(shù)據(jù)子集合包括: 將語(yǔ)音訓(xùn)練數(shù)據(jù)隨機(jī)排列成語(yǔ)音文件序列; 將該語(yǔ)音文件序列劃分為N個(gè)不相交的數(shù)據(jù)子集合。
3. 根據(jù)權(quán)利要求1所述的聲學(xué)模型訓(xùn)練方法,其特征在于,所述融合所述N個(gè)深層神經(jīng) 網(wǎng)絡(luò)模型子模型以得到深層神經(jīng)網(wǎng)絡(luò)模型中間模型包括: 在融合所述N個(gè)深層神經(jīng)網(wǎng)絡(luò)模型子模型的過(guò)程中,每個(gè)深層神經(jīng)網(wǎng)絡(luò)模型子模型的 所有層次共享融合權(quán)重。
4. 根據(jù)權(quán)利要求1所述的聲學(xué)模型訓(xùn)練方法,其特征在于,所述融合所述N個(gè)深層神經(jīng) 網(wǎng)絡(luò)模型子模型以得到深層神經(jīng)網(wǎng)絡(luò)模型中間模型包括: 在融合所述N個(gè)深層神經(jīng)網(wǎng)絡(luò)模型子模型的過(guò)程中,每個(gè)深層神經(jīng)網(wǎng)絡(luò)模型子模型的 各個(gè)層次的融合權(quán)重并不相同。
5. 根據(jù)權(quán)利要求1所述的聲學(xué)模型訓(xùn)練方法,其特征在于,該方法進(jìn)一步包括: 收集Μ個(gè)訓(xùn)練后聲學(xué)模型,其中Μ為至少為2的自然數(shù); 對(duì)于同一個(gè)測(cè)試語(yǔ)音數(shù)據(jù),分別使用所述Μ個(gè)訓(xùn)練后聲學(xué)模型解碼出Μ個(gè)后驗(yàn)概率序 列; 融合所述Μ個(gè)后驗(yàn)概率序列,以得到語(yǔ)音識(shí)別結(jié)果。
6. 根據(jù)權(quán)利要求5所述的聲學(xué)模型訓(xùn)練方法,其特征在于,所述融合所述Μ個(gè)后驗(yàn)概率 序列包括: 在融合所述Μ個(gè)后驗(yàn)概率序列的過(guò)程中,每個(gè)后驗(yàn)概率序列的所有綁定音素狀態(tài)共享 融合權(quán)重。
7. 根據(jù)權(quán)利要求5所述的聲學(xué)模型訓(xùn)練方法,其特征在于,所述融合所述Μ個(gè)后驗(yàn)概率 序列包括: 在融合所述Μ個(gè)后驗(yàn)概率序列的過(guò)程中,每個(gè)后驗(yàn)概率序列的各個(gè)綁定音素狀態(tài)的融 合權(quán)重并不相同。
8. -種聲學(xué)模型訓(xùn)練裝置,其特征在于,包括初始模型建立單元、子模型獲取單元和融 合單元,其中: 初始模型建立單元,用于建立深層神經(jīng)網(wǎng)絡(luò)模型初始模型; 子模型獲取單元,用于將語(yǔ)音訓(xùn)練數(shù)據(jù)劃分為Ν個(gè)不相交的數(shù)據(jù)子集合,針對(duì)每個(gè)數(shù) 據(jù)子集合利用隨機(jī)梯度下降算法更新所述深層神經(jīng)網(wǎng)絡(luò)模型初始模型,得到Ν個(gè)深層神經(jīng) 網(wǎng)絡(luò)模型子模型,其中Ν為至少為2的自然數(shù); 融合單元,用于融合所述N個(gè)深層神經(jīng)網(wǎng)絡(luò)模型子模型以得到深層神經(jīng)網(wǎng)絡(luò)模型中間 模型,并當(dāng)該深層神經(jīng)網(wǎng)絡(luò)模型中間模型符合預(yù)先設(shè)定的收斂條件時(shí),判定該深層神經(jīng)網(wǎng) 絡(luò)模型中間模型為訓(xùn)練后聲學(xué)模型。
9. 根據(jù)權(quán)利要求8所述的聲學(xué)模型訓(xùn)練裝置,其特征在于, 子模型獲取單元,用于將語(yǔ)音訓(xùn)練數(shù)據(jù)隨機(jī)排列成語(yǔ)音文件序列;將該語(yǔ)音文件序列 劃分為N個(gè)不相交的數(shù)據(jù)子集合。
10. 根據(jù)權(quán)利要求8所述的聲學(xué)模型訓(xùn)練裝置,其特征在于, 融合單元,用于在融合所述N個(gè)深層神經(jīng)網(wǎng)絡(luò)模型子模型的過(guò)程中,每個(gè)深層神經(jīng)網(wǎng) 絡(luò)模型子模型的所有層次共享融合權(quán)重。
11. 根據(jù)權(quán)利要求8所述的聲學(xué)模型訓(xùn)練裝置,其特征在于, 融合單元,用于在融合所述N個(gè)深層神經(jīng)網(wǎng)絡(luò)模型子模型的過(guò)程中,每個(gè)深層神經(jīng)網(wǎng) 絡(luò)模型子模型的各個(gè)層次的融合權(quán)重并不相同。
12. 根據(jù)權(quán)利要求8所述的聲學(xué)模型訓(xùn)練裝置,其特征在于,進(jìn)一步包括測(cè)試單元,其 中: 測(cè)試單元,用于收集Μ個(gè)訓(xùn)練后聲學(xué)模型,其中Μ為至少為2的自然數(shù);對(duì)于同一個(gè)測(cè) 試語(yǔ)音數(shù)據(jù),分別使用所述Μ個(gè)訓(xùn)練后聲學(xué)模型解碼出Μ個(gè)后驗(yàn)概率序列;融合所述Μ個(gè)后 驗(yàn)概率序列,以得到語(yǔ)音識(shí)別結(jié)果。
13. 根據(jù)權(quán)利要求12所述的聲學(xué)模型訓(xùn)練裝置,其特征在于, 測(cè)試單元,用于在融合所述Μ個(gè)后驗(yàn)概率序列的過(guò)程中,每個(gè)后驗(yàn)概率序列的所有綁 定音素狀態(tài)共享融合權(quán)重。
14. 根據(jù)權(quán)利要求12所述的聲學(xué)模型訓(xùn)練裝置,其特征在于, 測(cè)試單元,用于在融合所述Μ個(gè)后驗(yàn)概率序列的過(guò)程中,每個(gè)后驗(yàn)概率序列的各個(gè)綁 定音素狀態(tài)的融合權(quán)重并不相同。
【文檔編號(hào)】G10L15/06GK104143327SQ201310288097
【公開(kāi)日】2014年11月12日 申請(qǐng)日期:2013年7月10日 優(yōu)先權(quán)日:2013年7月10日
【發(fā)明者】王爾玉, 盧鯉, 張翔, 劉海波, 饒豐, 李露, 岳帥, 陳波 申請(qǐng)人:騰訊科技(深圳)有限公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1