本發(fā)明涉及語音識別系統(tǒng),具體涉及訓練神經(jīng)網(wǎng)絡(luò)聲學模型的方法、訓練神經(jīng)網(wǎng)絡(luò)聲學模型的裝置、語言識別方法以及語音識別裝置。
背景技術(shù):
語音識別系統(tǒng)一般包含聲學模型(am)和語言模型(lm)兩個部分。聲學模型是統(tǒng)計語音特征對音素單元概率分布的模型,語言模型是統(tǒng)計詞序列(詞匯上下文)出現(xiàn)概率的模型,語音識別過程是根據(jù)兩個模型的概率得分的加權(quán)和得到得分最高的結(jié)果。
近幾年,神經(jīng)網(wǎng)絡(luò)聲學模型(nnam)作為一種新方法被引入語音識別系統(tǒng),極大地提高了識別性能。
在神經(jīng)網(wǎng)絡(luò)聲學模型的訓練中,傳統(tǒng)的技術(shù)是使用強制對齊的方法得到每個語音特征樣本的輸出目標并將其概率設(shè)置為1,然后基于交叉熵訓練聲學模型。
后來也有通過使用所有輸出目標的概率分布作為目標輸出,基于kl距離(kullback-leiblerdivergence,又稱為kl散度)訓練聲學模型,kl距離是和交叉熵等價的。
技術(shù)實現(xiàn)要素:
本發(fā)明者們發(fā)現(xiàn),在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)聲學模型的訓練中,單一目標的訓練和所有輸出目標的訓練都沒有合理的使用訓練目標之間的相似性,缺乏對訓練目標的選擇和篩選。
對于單一目標的訓練,在給定訓練樣本的情況下,輸出狀態(tài)目標的概率為1,其他輸出狀態(tài)目標為0,而這樣的訓練忽略了輸出狀態(tài)目標和其他狀態(tài)目標的之間的相似性,破壞了輸出狀態(tài)目標的真實的概率分布。例如一些和輸出狀態(tài)目標非常相似的其他狀態(tài)也應(yīng)該有一個合理的概率分布值。
對于所有輸出目標的訓練,也沒有合理的使用訓練目標之間的相似性,缺乏對訓練目標的選擇和篩選。
另外,在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)聲學模型訓練中,對于具有多個輸出狀態(tài)目標的神經(jīng)網(wǎng)絡(luò)聲學模型訓練來說,使用交叉熵作為訓練準則進行訓練不夠靈活,不能夠從多角度學習輸出目標的真實的概率分布。
為了進一步改進神經(jīng)網(wǎng)絡(luò)聲學模型的訓練方法,提高語音識別的精度,本發(fā)明提出了使用聚集的音素狀態(tài)來訓練神經(jīng)網(wǎng)絡(luò)聲學模型的方法和裝置,并進一步提供了語音識別方法和語音識別裝置。在本發(fā)明的一個實施方式中,將與標注的音素狀態(tài)相似度高或距離近的音素狀態(tài)聚集,聚集的音素狀態(tài)和標注的音素狀態(tài)一起分享輸出概率。具體地,提供了以下技術(shù)方案。
[1]一種訓練神經(jīng)網(wǎng)絡(luò)聲學模型的方法,包括:
基于包括訓練語音和標注的音素狀態(tài)的訓練數(shù)據(jù),計算與上述標注的音素狀態(tài)不同的音素狀態(tài)的得分;
將得分大于預(yù)定閾值的音素狀態(tài)和上述標注的音素狀態(tài)聚集;
使上述聚集的音素狀態(tài)分享上述標注的音素狀態(tài)的概率;和
基于上述訓練語音和上述聚集的音素狀態(tài),訓練神經(jīng)網(wǎng)絡(luò)聲學模型。
通過上述方案[1]的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的方法,將得分高的音素狀態(tài)與標注的音素狀態(tài)聚集,聚集的音素狀態(tài)分享標注的音素狀態(tài)的概率,能夠真實平滑地訓練神經(jīng)網(wǎng)絡(luò)聲學模型。
[2]根據(jù)上述方案[1]所述的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的方法,其中,
計算上述音素狀態(tài)的得分的步驟包括:
基于上述音素狀態(tài)與上述標注的音素狀態(tài)之間的相似度和上述音素狀態(tài)和上述標注的音素狀態(tài)之間的距離中的至少一個,計算上述音素狀態(tài)的得分。
通過上述方案[2]的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的方法,基于音素狀態(tài)與標注的音素狀態(tài)之間的相似度和音素狀態(tài)和標注的音素狀態(tài)之間的距離中的至少一個,計算音素狀態(tài)的得分,能夠?qū)⑴c標注的音素狀態(tài)相似度高或距離近的音素狀態(tài)聚集,進而分享標注的音素狀態(tài)的概率,能夠更加真實平滑地訓練神經(jīng)網(wǎng)絡(luò)聲學模型。
[3]根據(jù)上述方案[1]所述的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的方法,其中,
計算上述音素狀態(tài)的得分的步驟包括:
基于上述訓練數(shù)據(jù)和訓練好的神經(jīng)網(wǎng)絡(luò)聲學模型,計算上述音素狀態(tài)的得分。
[4]根據(jù)上述方案[3]所述的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的方法,其中,
計算上述音素狀態(tài)的得分的步驟包括:
通過向前傳播,得到上述音素狀態(tài)的得分。
通過上述方案[3]或[4]的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的方法,基于訓練數(shù)據(jù)和訓練好的神經(jīng)網(wǎng)絡(luò)聲學模型,計算音素狀態(tài)的得分,能夠基于訓練好的的神經(jīng)網(wǎng)絡(luò)聲學模型選擇音素狀態(tài)進行聚集,進而分享標注的音素狀態(tài)的概率,能夠更加真實平滑地訓練神經(jīng)網(wǎng)絡(luò)聲學模型。
[5]根據(jù)上述方案[1]至[4]的任一方案所述的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的方法,其中,
將得分大于預(yù)定閾值的音素狀態(tài)和上述標注的音素狀態(tài)聚集的步驟包括:
利用上述音素狀態(tài)的決策樹,對上述音素狀態(tài)進行過濾。
[6]根據(jù)上述方案[5]所述的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的方法,其中,
將與上述標注的音素狀態(tài)不在同一決策樹上的音素狀態(tài)過濾。
通過上述方案[5]或[6]的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的方法,將與標注的音素狀態(tài)不在同一決策樹上的音素狀態(tài)過濾,能夠更加真實平滑地訓練神經(jīng)網(wǎng)絡(luò)聲學模型。
[7]根據(jù)上述方案[1]至[6]的任一方案所述的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的方法,其中,
使上述聚集的音素狀態(tài)分享上述標注的音素狀態(tài)的概率的步驟包括:
基于預(yù)定的分享比例和上述聚集的音素狀態(tài)的得分,分享上述標注的音素狀態(tài)的概率。
[8]根據(jù)上述方案[1]至[7]的任一方案所述的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的方法,其中,
訓練神經(jīng)網(wǎng)絡(luò)聲學模型的步驟包括:
使用交叉熵訓練準則,訓練神經(jīng)網(wǎng)絡(luò)聲學模型。
[9]根據(jù)上述方案[8]所述的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的方法,其中,
上述交叉熵訓練準則包括帶權(quán)重的交叉熵訓練準則。
[10]根據(jù)上述方案[9]所述的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的方法,其中,
上述帶權(quán)重的交叉熵訓練準則為:
上述帶權(quán)重的交叉熵訓練準則為:
通過上述方案[10]的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的方法,通過調(diào)節(jié)帶權(quán)重的交叉熵訓練準則的權(quán)重因子和距離因子,能夠提高訓練的靈活度,能夠從多角度學習輸出目標的真實的概率分布。
[11]一種語音識別方法,包括:
輸入待識別的語音;
利用由上述方案[1]至[10]的任一方案所述的方法訓練得到的神經(jīng)網(wǎng)絡(luò)聲學模型和語言模型將上述語音識別為文本句。
通過上述方案[11]的語音識別方法,能夠提高語音識別的精度。
[12]一種訓練神經(jīng)網(wǎng)絡(luò)聲學模型的裝置,包括:
計算單元,其基于包括訓練語音和標注的音素狀態(tài)的訓練數(shù)據(jù),計算與上述標注的音素狀態(tài)不同的音素狀態(tài)的得分;
聚集單元,其將得分大于預(yù)定閾值的音素狀態(tài)和上述標注的音素狀態(tài)聚集;
分享單元,其使上述聚集的音素狀態(tài)分享上述標注的音素狀態(tài)的概率;和
訓練單元,其基于上述訓練語音和上述聚集的音素狀態(tài),訓練神經(jīng)網(wǎng)絡(luò)聲學模型。
通過上述方案[12]的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的裝置,將得分高的音素狀態(tài)與標注的音素狀態(tài)聚集,聚集的音素狀態(tài)分享標注的音素狀態(tài)的概率,能夠真實平滑地訓練神經(jīng)網(wǎng)絡(luò)聲學模型。
[13]根據(jù)上述方案[12]所述的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的裝置,其中,
上述計算單元,基于上述音素狀態(tài)與上述標注的音素狀態(tài)之間的相似度和上述音素狀態(tài)和上述標注的音素狀態(tài)之間的距離中的至少一個,計算上述音素狀態(tài)的得分。
通過上述方案[13]的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的裝置,基于音素狀態(tài)與標注的音素狀態(tài)之間的相似度和音素狀態(tài)和標注的音素狀態(tài)之間的距離中的至少一個,計算音素狀態(tài)的得分,能夠?qū)⑴c標注的音素狀態(tài)相似度高或距離近的音素狀態(tài)聚集,進而分享標注的音素狀態(tài)的概率,能夠更加真實平滑地訓練神經(jīng)網(wǎng)絡(luò)聲學模型。
[14]根據(jù)上述方案[12]所述的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的裝置,其中,
上述計算單元,基于上述訓練數(shù)據(jù)和訓練好的神經(jīng)網(wǎng)絡(luò)聲學模型,計算上述音素狀態(tài)的得分。
[15]根據(jù)上述方案[14]所述的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的裝置,其中,
上述計算單元,通過向前傳播,得到上述音素狀態(tài)的得分。
通過上述方案[14]或[15]的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的裝置,基于訓練數(shù)據(jù)和訓練好的神經(jīng)網(wǎng)絡(luò)聲學模型,計算音素狀態(tài)的得分,能夠基于訓練好的的神經(jīng)網(wǎng)絡(luò)聲學模型選擇音素狀態(tài)進行聚集,進而分享標注的音素狀態(tài)的概率,能夠更加真實平滑地訓練神經(jīng)網(wǎng)絡(luò)聲學模型。
[16]根據(jù)上述方案[12]至[15]的任一方案所述的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的裝置,其中,
上述聚集單元,利用上述音素狀態(tài)的決策樹,對上述音素狀態(tài)進行過濾。
[17]根據(jù)上述方案[16]所述的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的裝置,其中,
上述聚集單元,將與上述標注的音素狀態(tài)不在同一決策樹上的音素狀態(tài)過濾。
通過上述方案[16]或[17]的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的裝置,將與標注的音素狀態(tài)不在同一決策樹上的音素狀態(tài)過濾,能夠更加真實平滑地訓練神經(jīng)網(wǎng)絡(luò)聲學模型。
[18]根據(jù)上述方案[12]至[17]的任一方案所述的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的裝置,其中,
上述分享單元,基于預(yù)定的分享比例和上述聚集的音素狀態(tài)的得分,分享上述標注的音素狀態(tài)的概率。
[19]根據(jù)上述方案[12]至[18]的任一方案所述的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的裝置,其中,
上述訓練單元,使用交叉熵訓練準則,訓練神經(jīng)網(wǎng)絡(luò)聲學模型。
[20]根據(jù)上述方案[19]所述的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的裝置,其中,
上述交叉熵訓練準則包括帶權(quán)重的交叉熵訓練準則。
[21]根據(jù)上述方案[20]所述的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的裝置,其中,
上述帶權(quán)重的交叉熵訓練準則為:
其中
通過上述方案[21]的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的裝置,通過調(diào)節(jié)帶權(quán)重的交叉熵訓練準則的權(quán)重因子和距離因子,能夠提高訓練的靈活度,能夠從多角度學習輸出目標的真實的概率分布。
[22]一種語音識別裝置,包括:
輸入單元,其輸入待識別的語音;
語音識別單元,其利用由上述方案[12]至[21]的任一方案所述的裝置訓練得到的神經(jīng)網(wǎng)絡(luò)聲學模型和語言模型將上述語音識別為文本句。
通過上述方案[22]的語音識別裝置,能夠提高語音識別的精度。
[23]根據(jù)上述方案[1]所述的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的方法,其中,
在計算上述音素狀態(tài)的得分的步驟之前還包括:
將與上述標注的音素狀態(tài)不在同一決策樹上的音素狀態(tài)過濾。
通過上述方案[23]的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的方法,在計算得分之前,將與標注的音素狀態(tài)不在同一個決策樹上的音素狀態(tài)過濾,可以降低計算量,提高計算效率。
[24]根據(jù)上述方案[12]所述的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的裝置,還包括:
過濾單元,其在上述計算單元計算上述音素狀態(tài)的得分之前,將與上述標注的音素狀態(tài)不在同一決策樹上的音素狀態(tài)過濾。
通過上述方案[23]的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的裝置,在計算單元計算得分之前,將與標注的音素狀態(tài)不在同一個決策樹上的音素狀態(tài)過濾,可以降低計算量,提高計算效率。
附圖說明
通過以下結(jié)合附圖對本發(fā)明具體實施方式的說明,能夠更好地了解本發(fā)明上述的特點、優(yōu)點和目的。
圖1是根據(jù)本發(fā)明的一個實施方式的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的方法的流程圖。
圖2是根據(jù)本發(fā)明的一個實施方式的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的方法的一個實例的流程圖。
圖3是根據(jù)本發(fā)明的另一個實施方式的語音識別方法的流程圖。
圖4是根據(jù)本發(fā)明的另一實施方式的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的裝置的框圖。
圖5是根據(jù)本發(fā)明的另一實施方式的語音識別裝置的框圖。
具體實施方式
下面就結(jié)合附圖對本發(fā)明的各個優(yōu)選實施例進行詳細的說明。
<訓練神經(jīng)網(wǎng)絡(luò)聲學模型的方法>
圖1是根據(jù)本發(fā)明的一個實施方式的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的方法的流程圖。
如圖1所示,首先,在步驟s101中,基于訓練數(shù)據(jù)10,計算與標注的音素狀態(tài)不同的音素狀態(tài)的得分。訓練數(shù)據(jù)10包括訓練語音和標注的音素狀態(tài)。
在本實施方式中,可以利用本領(lǐng)域知曉的或未來開發(fā)的任何給音素狀態(tài)打分的模型或方法獲得音素狀態(tài)的得分,本發(fā)明對此沒有任何限制。
在本實施方式中,優(yōu)選,基于音素狀態(tài)與標注的音素狀態(tài)之間的相似度和音素狀態(tài)和標注的音素狀態(tài)之間的距離中的至少一個,計算音素狀態(tài)的得分。相似度是表示音素狀態(tài)和標注的音素狀態(tài)之間的相似程度,可以利用本領(lǐng)域知曉的任何方法計算相似度,相似度越高,得分越高。距離是表示音素狀態(tài)和標注的音素狀態(tài)之間的相近程度,可以利用本領(lǐng)域知曉的任何方法計算距離,距離越近,得分越高。
另外,也可以基于訓練數(shù)據(jù)10和訓練好的神經(jīng)網(wǎng)絡(luò)聲學模型,計算音素狀態(tài)的得分。訓練好的神經(jīng)網(wǎng)絡(luò)聲學模型可以是利用本領(lǐng)域知曉的任何訓練方法進行訓練得到的神經(jīng)網(wǎng)絡(luò)聲學模型。
對于給定的訓練數(shù)據(jù)10,優(yōu)選通過向前傳播,可以得到各個音素狀態(tài)的得分。
接著,在步驟105,將得分大于預(yù)定閾值的音素狀態(tài)和上述標注的音素狀態(tài)聚集。在本實施方式中,閾值可以基于實際需要進行設(shè)定,通過設(shè)定閾值來控制聚集的音素狀態(tài)的數(shù)量。
另外,在本實施方式中,優(yōu)選利用音素狀態(tài)的決策樹,對得分大于預(yù)定閾值的音素狀態(tài)進行過濾。具體地,如果一些音素狀態(tài)與標注的音素狀態(tài)不在同一個決策樹上,則將其過濾掉。
另外,也可以在計算得分之前,將與標注的音素狀態(tài)不在同一個決策樹上的音素狀態(tài)過濾掉,而只計算與標注的音素狀態(tài)在同一個決策樹上的音素狀態(tài)的得分,這樣可以降低計算得分的計算量,提高計算效率。
接著,在步驟s110,使上述聚集的音素狀態(tài)分享上述標注的音素狀態(tài)的概率。優(yōu)選,基于預(yù)定的分享比例和上述聚集的音素狀態(tài)的得分,分享上述標注的音素狀態(tài)的概率。
最后,在步驟s115,基于上述訓練語音和上述聚集的音素狀態(tài),訓練神經(jīng)網(wǎng)絡(luò)聲學模型。
在本實施方式中,優(yōu)選使用交叉熵訓練準則,訓練神經(jīng)網(wǎng)絡(luò)聲學模型。通用的訓練函數(shù)準則由以下的公式(1)表示:
其中i是聚集狀態(tài)的索引,w(ti)是聚集狀態(tài)的權(quán)重函數(shù),d(ti,yi)是距離函數(shù),用來度量聚集狀態(tài)的輸出和神經(jīng)網(wǎng)絡(luò)輸出的距離。
在本實施方式中,優(yōu)選上述交叉熵訓練準則包括帶權(quán)重的交叉熵訓練準則。上述帶權(quán)重的交叉熵訓練準則由以下的公式(2)表示:
其中
下面,參考圖2詳細說明本實施方式的一個實例。圖2是根據(jù)本發(fā)明的一個實施方式的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的方法的一個實例的流程圖。
如圖2所示,首先,在步驟s201,基于訓練數(shù)據(jù)10和訓練好的神經(jīng)網(wǎng)絡(luò)聲學模型20,例如通過向前傳播,計算音素狀態(tài)的得分,從而得到各音素狀態(tài)的得分30,例如ing0和in1的得分分別為0.04和0.02。
接著,在步驟s205中,將得分大于預(yù)定閾值的音素狀態(tài)與標注的音素狀態(tài)10b聚集。例如通過設(shè)定閾值將設(shè)為ing0和in1這兩個音素狀態(tài)選出,與標注的音素狀態(tài)ing1聚類,得到聚類的音素狀態(tài)40。
接著,在步驟s210,基于分享比例和聚集的音素狀態(tài)的得分,分享標注的音素狀態(tài)ing1的概率。例如,將分享比例設(shè)為0.3,即將標注的音素狀態(tài)ing1的概率的30%分享給聚類的音素狀態(tài)中除了標注的音素狀態(tài)的其他音素狀態(tài)。對于其他音素狀態(tài)的概率,可以根據(jù)得分比例0.04/0.02計算,得到音素狀態(tài)ing0和in1的概率分別為0.2和0.1,而標注的音素狀態(tài)的概率為0.7,最終得到聚類的音素狀態(tài)ing0、in1和ing1的概率分別為0.2、0.1和0.7。
最后,基于訓練數(shù)據(jù)10中的訓練語音10a和聚類的音素狀態(tài)40及其概率,訓練神經(jīng)網(wǎng)絡(luò)聲學模型50。具體的訓練方法如上所述,例如可以利用由上述公式(2)表示的帶權(quán)重的交叉熵訓練準則進行訓練。
本實施方式的上述訓練神經(jīng)網(wǎng)絡(luò)聲學模型的方法,將得分高的音素狀態(tài)與標注的音素狀態(tài)聚集,聚集的音素狀態(tài)分享標注的音素狀態(tài)的概率,能夠真實平滑地訓練神經(jīng)網(wǎng)絡(luò)聲學模型。
進而,本實施方式的上述訓練神經(jīng)網(wǎng)絡(luò)聲學模型的方法,基于音素狀態(tài)與標注的音素狀態(tài)之間的相似度和音素狀態(tài)和標注的音素狀態(tài)之間的距離中的至少一個,計算音素狀態(tài)的得分,能夠?qū)⑴c標注的音素狀態(tài)相似度高或距離近的音素狀態(tài)聚集,進而分享標注的音素狀態(tài)的概率,能夠更加真實平滑地訓練神經(jīng)網(wǎng)絡(luò)聲學模型。
另外,本實施方式的上述訓練神經(jīng)網(wǎng)絡(luò)聲學模型的方法,基于訓練數(shù)據(jù)和訓練好的神經(jīng)網(wǎng)絡(luò)聲學模型,計算音素狀態(tài)的得分,能夠基于訓練好的的神經(jīng)網(wǎng)絡(luò)聲學模型選擇音素狀態(tài)進行聚集,進而分享標注的音素狀態(tài)的概率,能夠更加真實平滑地訓練神經(jīng)網(wǎng)絡(luò)聲學模型。
進而,本實施方式的上述訓練神經(jīng)網(wǎng)絡(luò)聲學模型的方法,通過將與標注的音素狀態(tài)不在同一決策樹上的音素狀態(tài)過濾,能夠更加真實平滑地訓練神經(jīng)網(wǎng)絡(luò)聲學模型。
進而,本實施方式的上述訓練神經(jīng)網(wǎng)絡(luò)聲學模型的方法,通過調(diào)節(jié)帶權(quán)重的交叉熵訓練準則的權(quán)重因子和距離因子,能夠提高訓練的靈活度,能夠從多角度學習輸出目標的真實的概率分布。
<語音識別方法>
圖3是在同一發(fā)明構(gòu)思下的本發(fā)明的另一個實施方式的語音識別方法的流程圖。下面就結(jié)合該圖,對本實施方式進行描述。對于那些與前面實施例相同的部分,適當省略其說明。
如圖3所示,在步驟s301,輸入待識別的語音。待識別的語音可以使任何語音,本發(fā)明對此沒有任何限制。
接著,在步驟s305,利用由上述訓練神經(jīng)網(wǎng)絡(luò)聲學模型的方法訓練得到的神經(jīng)網(wǎng)絡(luò)聲學模型和語言模型將上述語音識別為文本句。
對語音進行識別的過程中,需要使用聲學模型和語言模型。在本實施方式中,聲學模型是使用上述訓練神經(jīng)網(wǎng)絡(luò)聲學模型的方法訓練得到的神經(jīng)網(wǎng)絡(luò)聲學模型,語言模型可以本領(lǐng)域知曉的任何語言模型,可以是神經(jīng)網(wǎng)絡(luò)語言模型,也可以是其他類型的語言模型。
在本實施方式中,利用神經(jīng)網(wǎng)絡(luò)聲學模型和語言模型對待識別的語音進行識別的方法,是本領(lǐng)域知曉的任何方法,在此不再贅述。
通過上述語音識別方法,由于利用了使用聚集的音素狀態(tài)來訓練神經(jīng)網(wǎng)絡(luò)聲學模型的方法得到的神經(jīng)網(wǎng)絡(luò)聲學模型,由此能夠提高語音識別的精度。
<訓練神經(jīng)網(wǎng)絡(luò)聲學模型的裝置>
圖4是在同一發(fā)明構(gòu)思下的根據(jù)本發(fā)明的另一個實施方式的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的裝置的框圖。下面就結(jié)合該圖,對本實施方式進行描述。對于那些與前面實施方式相同的部分,適當省略其說明。
如圖4所示,本實施方式的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的裝置400,包括:計算單元401,其基于包括訓練語音和標注的音素狀態(tài)的訓練數(shù)據(jù)10,計算與上述標注的音素狀態(tài)不同的音素狀態(tài)的得分;聚集單元405,其將得分大于預(yù)定閾值的音素狀態(tài)和上述標注的音素狀態(tài)聚集;分享單元410,其使上述聚集的音素狀態(tài)分享上述標注的音素狀態(tài)的概率;和訓練單元415,其基于上述訓練語音和上述聚集的音素狀態(tài),訓練神經(jīng)網(wǎng)絡(luò)聲學模型
在本實施方式中,計算單元401,基于訓練數(shù)據(jù)10,計算與標注的音素狀態(tài)不同的音素狀態(tài)的得分。訓練數(shù)據(jù)10包括訓練語音和標注的音素狀態(tài)。
在本實施方式中,可以利用本領(lǐng)域知曉的或未來開發(fā)的任何給音素狀態(tài)打分的模型或方法獲得音素狀態(tài)的得分,本發(fā)明對此沒有任何限制。
在本實施方式中,優(yōu)選,基于音素狀態(tài)與標注的音素狀態(tài)之間的相似度和音素狀態(tài)和標注的音素狀態(tài)之間的距離中的至少一個,計算音素狀態(tài)的得分。相似度是表示音素狀態(tài)和標注的音素狀態(tài)之間的相似程度,可以利用本領(lǐng)域知曉的任何方法計算相似度,相似度越高,得分越高。距離是表示音素狀態(tài)和標注的音素狀態(tài)之間的相近程度,可以利用本領(lǐng)域知曉的任何方法計算距離,距離越近,得分越高。
另外,也可以基于訓練數(shù)據(jù)10和訓練好的神經(jīng)網(wǎng)絡(luò)聲學模型,計算音素狀態(tài)的得分。訓練好的神經(jīng)網(wǎng)絡(luò)聲學模型可以是利用本領(lǐng)域知曉的任何訓練方法進行訓練得到的神經(jīng)網(wǎng)絡(luò)聲學模型。
對于給定的訓練數(shù)據(jù)10,優(yōu)選通過向前傳播,可以得到各個音素狀態(tài)的得分。
在本實施方式中,聚集單元405,將得分大于預(yù)定閾值的音素狀態(tài)和上述標注的音素狀態(tài)聚集。在本實施方式中,閾值可以基于實際需要進行設(shè)定,通過設(shè)定閾值來控制聚集的音素狀態(tài)的數(shù)量。
另外,在本實施方式中,優(yōu)選利用音素狀態(tài)的決策樹,對得分大于預(yù)定閾值的音素狀態(tài)進行過濾。具體地,如果一些音素狀態(tài)與標注的音素狀態(tài)不在同一個決策樹上,則將其過濾掉。
另外,也可以在計算得分之前,將與標注的音素狀態(tài)不在同一個決策樹上的音素狀態(tài)過濾掉,而只計算與標注的音素狀態(tài)在同一個決策樹上的音素狀態(tài)的得分,這樣可以降低計算得分的計算量,提高計算效率。
在本實施方式中,分享單元410,使上述聚集的音素狀態(tài)分享上述標注的音素狀態(tài)的概率。優(yōu)選,基于預(yù)定的分享比例和上述聚集的音素狀態(tài)的得分,分享上述標注的音素狀態(tài)的概率。
在本實施方式中,訓練單元415,基于上述訓練語音和上述聚集的音素狀態(tài),訓練神經(jīng)網(wǎng)絡(luò)聲學模型。
在本實施方式中,優(yōu)選使用交叉熵訓練準則,訓練神經(jīng)網(wǎng)絡(luò)聲學模型。通用的訓練函數(shù)準則由以下的公式(1)表示:
其中i是聚集狀態(tài)的索引,w(ti)是聚集狀態(tài)的權(quán)重函數(shù),d(ti,yi)是距離函數(shù),用來度量聚集狀態(tài)的輸出和神經(jīng)網(wǎng)絡(luò)輸出的距離。
在本實施方式中,優(yōu)選上述交叉熵訓練準則包括帶權(quán)重的交叉熵訓練準則。上述帶權(quán)重的交叉熵訓練準則由以下的公式(2)表示:
其中
下面,參考圖2詳細說明本實施方式的一個實例。圖2是根據(jù)本發(fā)明的一個實施方式的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的裝置進行訓練的一個實例。
如圖2所示,計算單元401基于訓練數(shù)據(jù)10和訓練好的神經(jīng)網(wǎng)絡(luò)聲學模型20,例如通過向前傳播,計算音素狀態(tài)的得分,從而得到各音素狀態(tài)的得分30,例如ing0和in1的得分分別為0.04和0.02。
聚類單元405將得分大于預(yù)定閾值的音素狀態(tài)與標注的音素狀態(tài)10b聚集。例如通過設(shè)定閾值將設(shè)為ing0和in1這兩個音素狀態(tài)選出,與標注的音素狀態(tài)ing1聚類,得到聚類的音素狀態(tài)40。
分享單元410基于分享比例和聚集的音素狀態(tài)的得分,分享標注的音素狀態(tài)ing1的概率。例如,將分享比例設(shè)為0.3,即將標注的音素狀態(tài)ing1的概率的30%分享給聚類的音素狀態(tài)中除了標注的音素狀態(tài)的其他音素狀態(tài)。對于其他音素狀態(tài)的概率,可以根據(jù)得分比例0.04/0.02計算,得到音素狀態(tài)ing0和in1的概率分別為0.2和0.1,而標注的音素狀態(tài)的概率為0.7,最終得到聚類的音素狀態(tài)ing0、in1和ing1的概率分別為0.2、0.1和0.7。
訓練單元415基于訓練數(shù)據(jù)10中的訓練語音10a和聚類的音素狀態(tài)40及其概率,訓練神經(jīng)網(wǎng)絡(luò)聲學模型50。具體的訓練方法如上所述,例如可以利用由上述公式(2)表示的帶權(quán)重的交叉熵訓練準則進行訓練。
本實施方式的上述訓練神經(jīng)網(wǎng)絡(luò)聲學模型的裝置,將得分高的音素狀態(tài)與標注的音素狀態(tài)聚集,聚集的音素狀態(tài)分享標注的音素狀態(tài)的概率,能夠真實平滑地訓練神經(jīng)網(wǎng)絡(luò)聲學模型。
進而,本實施方式的上述訓練神經(jīng)網(wǎng)絡(luò)聲學模型的裝置,基于音素狀態(tài)與標注的音素狀態(tài)之間的相似度和音素狀態(tài)和標注的音素狀態(tài)之間的距離中的至少一個,計算音素狀態(tài)的得分,能夠?qū)⑴c標注的音素狀態(tài)相似度高或距離近的音素狀態(tài)聚集,進而分享標注的音素狀態(tài)的概率,能夠更加真實平滑地訓練神經(jīng)網(wǎng)絡(luò)聲學模型。
另外,本實施方式的上述訓練神經(jīng)網(wǎng)絡(luò)聲學模型的裝置,基于訓練數(shù)據(jù)和訓練好的神經(jīng)網(wǎng)絡(luò)聲學模型,計算音素狀態(tài)的得分,能夠基于訓練好的的神經(jīng)網(wǎng)絡(luò)聲學模型選擇音素狀態(tài)進行聚集,進而分享標注的音素狀態(tài)的概率,能夠更加真實平滑地訓練神經(jīng)網(wǎng)絡(luò)聲學模型。
進而,本實施方式的上述訓練神經(jīng)網(wǎng)絡(luò)聲學模型的裝置,通過將與標注的音素狀態(tài)不在同一決策樹上的音素狀態(tài)過濾,能夠更加真實平滑地訓練神經(jīng)網(wǎng)絡(luò)聲學模型。
進而,本實施方式的上述訓練神經(jīng)網(wǎng)絡(luò)聲學模型的裝置,通過調(diào)節(jié)帶權(quán)重的交叉熵訓練準則的權(quán)重因子和距離因子,能夠提高訓練的靈活度,能夠從多角度學習輸出目標的真實的概率分布。
<語音識別裝置>
圖5是在同一發(fā)明構(gòu)思下的根據(jù)本發(fā)明的另一個實施方式的語音識別裝置的框圖。下面就結(jié)合該圖,對本實施方式進行描述。對于那些與前面實施方式相同的部分,適當省略其說明。
如圖5所示,本實施方式的語音識別裝置500包括:輸入單元501,其輸入待識別的語音60;語音識別單元505,其利用由上述訓練神經(jīng)網(wǎng)絡(luò)聲學模型的裝置400訓練得到的神經(jīng)網(wǎng)絡(luò)聲學模型和語言模型將上述語音識別為文本句
在本實施方式中,輸入單元501,輸入待識別的語音。待識別的語音可以使任何語音,本發(fā)明對此沒有任何限制。
語音識別單元505,利用由上述訓練神經(jīng)網(wǎng)絡(luò)聲學模型的裝置400訓練得到的神經(jīng)網(wǎng)絡(luò)聲學模型和語言模型將上述語音識別為文本句。
對語音進行識別的過程中,需要使用聲學模型和語言模型。在本實施方式中,聲學模型是使用上述訓練神經(jīng)網(wǎng)絡(luò)聲學模型的裝置400訓練得到的神經(jīng)網(wǎng)絡(luò)聲學模型,語言模型可以本領(lǐng)域知曉的任何語言模型,可以是神經(jīng)網(wǎng)絡(luò)語言模型,也可以是其他類型的語言模型。
在本實施方式中,利用神經(jīng)網(wǎng)絡(luò)聲學模型和語言模型對待識別的語音進行識別的方法,是本領(lǐng)域知曉的任何方法,在此不再贅述。
通過上述語音識別裝置500,由于利用了使用聚集的音素狀態(tài)來訓練神經(jīng)網(wǎng)絡(luò)聲學模型的裝置400得到的神經(jīng)網(wǎng)絡(luò)聲學模型,由此能夠提高語音識別的精度。
以上雖然通過一些示例性的實施方式詳細地描述了本發(fā)明的訓練神經(jīng)網(wǎng)絡(luò)聲學模型的方法、訓練神經(jīng)網(wǎng)絡(luò)聲學模型的裝置、語言識別方法以及語音識別裝置,但是以上這些實施方式并不是窮舉的,本領(lǐng)域技術(shù)人員可以在本發(fā)明的精神和范圍內(nèi)實現(xiàn)各種變化和修改。因此,本發(fā)明并不限于這些實施方式,本發(fā)明的范圍僅由所附權(quán)利要求為準。