用于語音識別的聲學模型訓練方法及裝置的制造方法
【專利摘要】本發(fā)明實施例提供一種用于語音識別的聲學模型訓練方法及裝置,所述方法包括:獲取訓練樣本;所述訓練樣本包括聲學特征以及所述聲學特征對應的訓練文本;獲取原始聲學模型,并利用所述原始聲學模型,確定每一訓練文本對應的所述原始聲學模型中的聲學狀態(tài);根據(jù)每一訓練文本對應的聲學狀態(tài)以及聲學特征,確定每一聲學狀態(tài)對應的聲學特征;利用每一聲學狀態(tài)對應的聲學特征,重新訓練獲得所述聲學狀態(tài)的狀態(tài)描述模型;利用重新訓練獲得的狀態(tài)描述模型,更新所述原始聲學模型中的原始狀態(tài)描述模型,獲得更新之后的聲學模型,本發(fā)明實施例降低了模型訓練復雜度,且通過對原始聲學模型進行更新,未破壞原始聲學模型的結構,也保證了語音識別的準確度。
【專利說明】
用于語音識別的聲學模型訓練方法及裝置
技術領域
[0001]本發(fā)明實施例語音識別技術領域,尤其涉及一種用于語音識別的聲學模型訓練方法及裝置。
【背景技術】
[0002]語音識別系統(tǒng)的一個目的,是把語音轉(zhuǎn)換成文字,具體來說,是將一段語音信號,找一個文字序列(由詞或字組成),使得它與語音信號的匹配程度最高。
[0003]語音識別系統(tǒng)中最重要的部分之一即是聲學模型(AcousticModeling),在進行語音識別時,將語音信號轉(zhuǎn)換為聲學特征,再利用聲學模型確定出聲學特征對應的各個聲學狀態(tài),由各個聲學狀態(tài)組合即獲得文字。
[0004]其中,聲學狀態(tài)是構成文字發(fā)音的基本單位,通常是指將音素進一步劃分獲得的更小單位。
[0005]聲學特征對應的聲學狀態(tài),是利用聲學模型中的狀態(tài)描述模型計算獲得,在聲學模型中,每一個聲學狀態(tài)對應一個狀態(tài)描述模型,利用狀態(tài)描述模型即可以識別與聲學特征最匹配的聲學狀態(tài)。
[0006]現(xiàn)有技術中,聲學模型的訓練過程非常復雜,不僅包括狀態(tài)描述模型的訓練,還包括聲學特征的提取、聲學特征變換、決策樹生成、狀態(tài)定義模型的訓練等。而在實際應用中,隨著應用場景的變化或者生命周期的演進,原始的聲學模型可能不在適用當前的應用場景,這就需要重新訓練一個新的聲學模型,但是重新訓練一個新的聲學模型不僅復雜度高,且發(fā)明人在研究中發(fā)現(xiàn),原始的聲學模型中某些結構可能并不需要進行改變,比如狀態(tài)定義模型,如果重新訓練,就會破壞狀態(tài)定義模型定義的聲學狀態(tài),反而會影響語音識別的準確度。
【發(fā)明內(nèi)容】
[0007]本發(fā)明實施例提供一種用于語音識別的聲學模型訓練方法及裝置,用以解決現(xiàn)有技術中如何在保證語音識別準確度的前提下,降低聲學模型訓練復雜度的技術問題。
[0008]本發(fā)明實施例提供一種用于語音識別的聲學模型訓練方法,包括:
[0009]獲取訓練樣本;所述訓練樣本包括聲學特征以及所述聲學特征對應的訓練文本;
[0010]獲取原始聲學模型,并利用所述原始聲學模型,確定每一訓練文本對應的所述原始聲學模型中的聲學狀態(tài);
[0011 ]根據(jù)每一訓練文本對應的聲學狀態(tài)以及聲學特征,確定每一聲學狀態(tài)對應的聲學特征;
[0012]利用每一聲學狀態(tài)對應的聲學特征,重新訓練獲得所述聲學狀態(tài)的狀態(tài)描述模型;
[0013]利用重新訓練獲得的狀態(tài)描述模型,更新所述原始聲學模型中的原始狀態(tài)描述模型,獲得更新之后的聲學模型。
[0014]本發(fā)明實施例提供一種用于語音識別的聲學模型訓練裝置,包括:
[0015]樣本獲取模塊,用于獲取訓練樣本;所述訓練樣本包括聲學特征以及所述聲學特征對應的訓練文本;
[0016]第一確定模塊,用于獲取原始聲學模型,并利用所述原始聲學模型,確定每一訓練文本對應的所述原始聲學模型中的聲學狀態(tài);
[0017]第二確定模塊,用于根據(jù)每一訓練文本對應的聲學狀態(tài)以及聲學特征,確定每一聲學狀態(tài)對應的聲學特征;
[0018]訓練模塊,用于利用每一聲學狀態(tài)對應的聲學特征,重新訓練獲得所述聲學狀態(tài)的狀態(tài)描述模型;
[0019]更新模塊,用于利用重新訓練獲得的狀態(tài)描述模型,更新所述原始聲學模型中的原始狀態(tài)描述模型,獲得更新之后的聲學模型。
[0020]本發(fā)明實施例提供的用于語音識別的聲學模型訓練方法及裝置,利用原始聲學模型,確定訓練樣本中訓練文本對應的聲學狀態(tài),并根據(jù)每一訓練文本對應的聲學狀態(tài)以及聲學特征,可以確定每一聲學狀態(tài)對應的聲學特征。從而直接利用聲學狀態(tài)對應的聲學特征對聲學狀態(tài)的狀態(tài)描述模型進行重新訓練即可,重新訓練獲得的狀態(tài)描述模型用于更新所述原始聲學模型中的原始狀態(tài)描述模型,從而即可以獲得更新之后的聲學模型。通過本發(fā)明實施例,僅對原始聲學模型中的狀態(tài)描述模型進行再訓練即可,而無需訓練一個全新的聲學模型,既降低了訓練復雜度,且通過對原始聲學模型進行更新,未破壞原始聲學模型的結構,同時保證了語音識別準確度。
【附圖說明】
[0021]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0022]圖1為本發(fā)明用于語音識別的聲學模型訓練方法一個實施例流程圖。
[0023]圖2為本發(fā)明用于語音識別的聲學模型訓練裝置一個實施例的結構示意圖。
【具體實施方式】
[0024]為使本發(fā)明實施例的目的、技術方案和優(yōu)點更加清楚,下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0025]本發(fā)明技術方案主要應用于語音識別領域中聲學模型的訓練。聲學模型是語音識別系統(tǒng)中最重要的部分之一,用于在語音識別,利用聲學模型確定出聲學特征對應的各個聲學狀態(tài),由各個聲學狀態(tài)組合即獲得文字。其中,聲學特征是通過對語音信號提取獲得,聲學特征例如可以是MFCC(Mel Frequency Cepstrum Coefficient,梅爾頻率倒譜系數(shù))特征。
[0026]聲學模型是利用諸如隱馬爾科夫模型等模型建模獲得,需要使用大量的訓練樣本對建模模型進行訓練,從而獲得聲學模型。
[0027]聲學模型中包括多個聲學狀態(tài)對應的狀態(tài)描述模型,這些狀態(tài)描述模型用于計算聲學特征在該聲學狀態(tài)上的概率,而從確定與聲學特征最匹配的聲學狀態(tài),從而將聲學狀態(tài)進行組合即可以獲得文字。
[0028]由于聲學模型訓練,不僅包括狀態(tài)描述模型的訓練,還包括狀態(tài)定義模型的訓練,通過狀態(tài)定義模型,可以得到在特定上下文環(huán)境下的一個文字或一個音素,其應該對應怎樣的狀態(tài)序列;通過狀態(tài)描述模型,可以得到聲學特征在某一聲學狀態(tài)上的概率,從而可以確定與聲學特征最匹配的聲學狀態(tài)。
[0029]如果原始的聲學模型不在適用當前的應用場景,這就需要重新訓練一個新的聲學模型,但是重新訓練一個新的聲學模型不僅復雜度高,且發(fā)明人在研究中發(fā)現(xiàn)。在一些應用場景中并不希望改變狀態(tài)定義模型,僅希望改變狀態(tài)描述模型,比如,如果改變狀態(tài)定義模型,識別時使用的解碼圖就需要重新構建,但是并不希望重新構建這個解碼圖,并用于訓練原始模型的原始訓練數(shù)據(jù)由于種種原因無法獲得(比如原始訓練數(shù)據(jù)是保密的)。如果重新訓練一個新的聲學模型,重新訓練獲得的新的聲學模型的識別準確度可能還要低于原始聲學模型的識別準確度。
[0030]因此,本發(fā)明提出了一種通過對原始聲學模型進行更新,在保證語音識別準確度的前提下,不破壞原始聲學模型的結構的技術方案。
[0031]在本發(fā)明實施例中,獲取訓練樣本以及原始聲學模型,利用原始聲學模型,確定訓練樣本中訓練文本對應的聲學狀態(tài),并根據(jù)每一訓練文本對應的聲學狀態(tài)以及聲學特征,可以確定每一聲學狀態(tài)對應的聲學特征。從而直接利用聲學狀態(tài)對應的聲學特征對聲學狀態(tài)的狀態(tài)描述模型進行重新訓練即可,重新訓練獲得的狀態(tài)描述模型用于更新所述原始聲學模型中的原始狀態(tài)描述模型,從而即可以獲得更新之后的聲學模型。更新之后的聲學模型即可以繼續(xù)用于語音識別,通過本發(fā)明實施例,僅對原始聲學模型中的狀態(tài)描述模型進行再訓練即可,而無需訓練一個全新的聲學模型,既降低了訓練復雜度,且通過對原始聲學模型進行更新,未破壞原始聲學模型的結構,同時保證了語音識別準確度。
[0032]下面將結合附圖對本發(fā)明技術方案進行詳細描述。
[0033]圖1是本發(fā)明實施例提供的一種用于語音識別的聲學模型訓練方法一個實施例的流程圖,該方法可以包括以下幾個步驟:
[0034]101:獲取訓練樣本。
[0035]其中,所述訓練樣本包括聲學特征以及所述聲學特征對應的訓練文本。
[0036]其中,所述訓練樣本中的聲學特征可以是從訓練語音中提取獲得的。
[0037]也即具體是通過獲取訓練語音以及所述訓練語音對應的訓練文本,并提取所述訓練語音的聲學特征,將所述聲學特征以及其對應的訓練文本作為訓練樣本。
[0038]本發(fā)明實施例中,由于無需重新訓練新的聲學模型,因此訓練樣本的數(shù)量可以大大減少。
[0039]該訓練樣本可以根據(jù)原始聲學模型不再適用的應用場景確定,由于應用場景不再適用,導致聲學模型識別不出對應應用場景的準確文字,因此需要再訓練。
[0040]102:獲取原始聲學模型,并利用所述原始聲學模型,確定每一訓練文本對應的所述原始聲學模型中的聲學狀態(tài)。
[0041]具體的,可以是利用原始聲學模型的狀態(tài)定義模型,確定每一訓練文本對應的聲學狀態(tài)。每一個訓練文本對應的聲學狀態(tài)包括多個,也即其對應的為聲學狀態(tài)序列。
[0042]其中,狀態(tài)定義模型用于確定特定上下文環(huán)境下的一個單詞或一個音素,其對應的聲學狀態(tài)訓練。
[0043]而狀態(tài)描述模型即是用于在給出聲學特征時,確定該聲學特征在某聲學狀態(tài)上的概率,從而確定與聲學特征最匹配的聲學狀態(tài)序列。
[0044]其中,所述聲學狀態(tài)是構成文字發(fā)音的基本單位,可以是指將音素進一步劃分獲得的比音素更小的單元。將聲學狀態(tài)組合可以獲得音素,將音素組合即可以獲得文字。
[0045]訓練文本由文字構成,因此可以獲得每一個訓練文本對應的原始聲學模型中的聲學狀態(tài)序列。
[0046]103:根據(jù)每一訓練文本對應的聲學狀態(tài)以及聲學特征,確定每一聲學狀態(tài)對應的聲學特征。
[0047]根據(jù)訓練文本與聲學特征的對應關系,可以獲取訓練文本對應的聲學狀態(tài),即可以獲得聲學特征對應的聲學狀態(tài)。
[0048]作為又一個實施例,具體可以是根據(jù)每一訓練文本對應的聲學狀態(tài)以及聲學特征,將所述聲學特征進行切分,獲得分段數(shù)據(jù);
[0049]確定每一聲學狀態(tài)對應的分段數(shù)據(jù)。
[0050]也即每一聲學狀態(tài)具體對應聲學特征中的分段數(shù)據(jù)。
[0051]具體的,可以是通過原始聲學模型對聲學特征進行強制對齊(ForcedAlignment),具體的是利用訓練文本構建線性解碼網(wǎng)絡,并利用維特比(Viterbi)算法,將所述訓練文件對應的聲學特征進行切分,獲得分段數(shù)據(jù),從而即可以確定每一個聲學狀態(tài)對應的分段數(shù)據(jù)。
[0052]104:利用每一聲學狀態(tài)對應的聲學特征,重新訓練獲得所述聲學狀態(tài)的狀態(tài)描述模型。
[0053]具體的,即是利用每一聲學狀態(tài)對應的分段數(shù)據(jù),重新訓練獲得所述聲學狀態(tài)的狀態(tài)描述模型。
[0054]105:利用重新訓練獲得的狀態(tài)描述模型,更新所述原始聲學模型中的原始狀態(tài)描述模型,獲得更新之后的聲學模型。
[0055]重新訓練獲得的狀態(tài)描述模型,即可以替換原始聲學模型中的原始狀態(tài)描述模型,原始聲學模型的其他結構不變,從而獲得更新之后的聲學模型。更新之后的聲學模型即是根據(jù)訓練樣本再訓練獲得聲學模型,訓練樣本為適用應用場景的樣本,從而使得再訓練獲得的聲學模型即適用于該應用場景的語音識別。
[0056]本實施例中,僅對原始聲學模型中的狀態(tài)描述模型進行再訓練即可,而無需訓練一個全新的聲學模型,既降低了訓練復雜度,且通過對原始聲學模型進行更新,未破壞原始聲學模型的結構,可以繼續(xù)使用原始聲學模型的狀態(tài)定義模型等結構,保證了語音識別準確度。
[0057]本發(fā)明實施例,在原始訓練數(shù)據(jù)丟失以及不希望改變原始聲學模型中的狀態(tài)定義模型等結構的情況下,可以通過對原始聲學模型中的狀態(tài)描述模型進行再訓練,重新訓練獲得聲學模型,即可以降低訓練復雜度,同時使得聲學模型能夠適用當前應用場景。
[0058]其中,狀態(tài)描述模型可以通過對深度神經(jīng)網(wǎng)絡(DNN,Deep Neural Networks)訓練獲得,具體的可以采用反向傳播(Back Propgat1n)算法實現(xiàn),當然還可以采用其他的數(shù)學模型、比如混合高斯模型(GMM ,Gaussian Mixture Mode I),則使用最大期望(EM,Expectat1n Maximizat1n Algorithm)算法實現(xiàn)等,可以根據(jù)實際情況進行選擇,本發(fā)明并不對此進行限定。
[0059]圖2為本發(fā)明實施例提供的一種用于語音識別的聲學模型訓練裝置一個實施例的結構示意圖,該裝置可以包括:
[0060]樣本獲取模塊201,用于獲取訓練樣本。
[0061 ]其中,所述訓練樣本包括聲學特征以及所述聲學特征對應的訓練文本。
[0062]所述樣本獲取模塊可以具體是獲取訓練語音以及訓練文本,并提取所述訓練語音的聲學特征。
[0063]也即具體是通過獲取訓練語音以及所述訓練語音對應的訓練文本,并提取所述訓練語音的聲學特征,將所述聲學特征以及其對應的訓練文本作為訓練樣本。
[0064]本發(fā)明實施例中,由于無需重新訓練新的聲學模型,因此訓練樣本的數(shù)量可以大大減少。
[0065]該訓練樣本可以根據(jù)原始聲學模型不再適用的應用場景確定,由于應用場景不再適用,導致聲學模型識別不出對應應用場景的準確文字,因此需要再訓練。
[0066]第一確定模塊202,用于獲取原始聲學模型,并利用所述原始聲學模型,確定每一訓練文本對應的所述原始聲學模型中的聲學狀態(tài)。
[0067]具體的,所述第一確定模塊可以是利用原始聲學模型的狀態(tài)定義模型,確定每一訓練文本對應的聲學狀態(tài)。每一個訓練文本對應的聲學狀態(tài)包括多個,也即其對應的為聲學狀態(tài)序列。
[0068]其中,狀態(tài)定義模型用于確定特定上下文環(huán)境下的一個單詞或一個音素,其對應的聲學狀態(tài)訓練。
[0069]而狀態(tài)描述模型即是用于在給出聲學特征時,確定該聲學特征在某聲學狀態(tài)上的概率,從而確定與聲學特征最匹配的聲學狀態(tài)序列。
[0070]其中,所述聲學狀態(tài)是構成文字發(fā)音的基本單位,可以是指將音素進一步劃分獲得的比音素更小的單元。將聲學狀態(tài)組合可以獲得音素,將音素組合即可以獲得文字。
[0071]訓練文本由文字構成,因此可以獲得每一個訓練文本對應的原始聲學模型中的聲學狀態(tài)序列。
[0072]第二確定模塊203,用于根據(jù)每一訓練文本對應的聲學狀態(tài)以及聲學特征,確定每一聲學狀態(tài)對應的聲學特征。
[0073]根據(jù)訓練文本與聲學特征的對應關系,可以獲取訓練文本對應的聲學狀態(tài),即可以獲得聲學特征對應的聲學狀態(tài)。
[0074]作為又一個實施例,所述第二確定模塊可以具體用于根據(jù)每一訓練文本對應的聲學狀態(tài)以及聲學特征,將所述聲學特征進行切分,獲得分段數(shù)據(jù),并確定每一聲學狀態(tài)對應的分段數(shù)據(jù)。
[0075]也即每一聲學狀態(tài)具體對應聲學特征中的分段數(shù)據(jù)。
[0076]具體的,可以是通過原始聲學模型對聲學特征進行強制對齊(ForcedAlignment),利用訓練文本構建線性解碼網(wǎng)絡,并利用維特比(Viterbi)算法,,將所述訓練文件對應的聲學特征進行切分,獲得分段數(shù)據(jù),從而即可以確定每一個聲學狀態(tài)對應的分段數(shù)據(jù)。
[0077]因此,作為又一個實施例,所述第二確定模塊是利用每一訓練文本建立線性解碼網(wǎng)絡,利用維特比算法,將所述訓練文件對應的聲學特征進行切分,獲得分段數(shù)據(jù),并確定每一個聲學狀態(tài)對應的分段數(shù)據(jù)。
[0078]訓練模塊204,用于利用每一聲學狀態(tài)對應的聲學特征,重新訓練獲得所述聲學狀態(tài)的狀態(tài)描述模型。
[0079]具體是,即是利用每一聲學狀態(tài)對應的分段數(shù)據(jù),重新訓練獲得所述聲學狀態(tài)的狀態(tài)描述模型。
[0080]更新模塊205,用于利用重新訓練獲得的狀態(tài)描述模型,更新所述原始聲學模型中的原始狀態(tài)描述模型,獲得更新之后的聲學模型。
[0081]重新訓練獲得的狀態(tài)描述模型,即可以替換原始聲學模型中的原始狀態(tài)描述模型,原始聲學模型的其他結構不變,從而獲得更新之后的聲學模型。更新之后的聲學模型即是根據(jù)訓練樣本再訓練獲得聲學模型,訓練樣本為適用應用場景的樣本,從而使得再訓練獲得的聲學模型即適用于該應用場景的語音識別。
[0082]本實施例中,僅對原始聲學模型中的狀態(tài)描述模型進行再訓練即可,而無需訓練一個全新的聲學模型,既降低了訓練復雜度,且通過對原始聲學模型進行更新,未破壞原始聲學模型的結構,可以繼續(xù)使用原始聲學模型的狀態(tài)定義模型等結構,保證了語音識別準確度。
[0083]本發(fā)明實施例,在原始訓練數(shù)據(jù)丟失以及不希望改變原始聲學模型中的狀態(tài)定義模型等結構的情況下,可以通過對原始聲學模型中的狀態(tài)描述模型進行再訓練,重新訓練獲得聲學模型,即可以降低訓練復雜度,同時使得聲學模型能夠適用當前應用場景。
[0084]其中,狀態(tài)描述模型可以通過對深度神經(jīng)網(wǎng)絡(DNN,Deep Neural Networks)訓練獲得,具體的可以采用反向傳播(Back Propgat1n)算法實現(xiàn),當然還可以采用其他的數(shù)學模型、比如混合高斯模型(GMM ,Gaussian Mixture Mode I),則使用最大期望(EM,Expectat1n Maximizat1n Algorithm)算法實現(xiàn)等,可以根據(jù)實際情況進行選擇。
[0085]以上所描述的裝置實施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部模塊來實現(xiàn)本實施例方案的目的。本領域普通技術人員在不付出創(chuàng)造性的勞動的情況下,即可以理解并實施。
[0086]通過以上的實施方式的描述,本領域的技術人員可以清楚地了解到各實施方式可借助軟件加必需的通用硬件平臺的方式來實現(xiàn),當然也可以通過硬件?;谶@樣的理解,上述技術方案本質(zhì)上或者說對現(xiàn)有技術做出貢獻的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品可以存儲在計算機可讀存儲介質(zhì)中,如R0M/RAM、磁碟、光盤等,包括若干指令用以使得一臺計算機設備(可以是個人計算機,服務器,或者網(wǎng)絡設備等)執(zhí)行各個實施例或者實施例的某些部分所述的方法。
[0087]最后應說明的是:以上實施例僅用以說明本發(fā)明的技術方案,而非對其限制;盡管參照前述實施例對本發(fā)明進行了詳細的說明,本領域的普通技術人員應當理解:其依然可以對前述各實施例所記載的技術方案進行修改,或者對其中部分技術特征進行等同替換;而這些修改或者替換,并不使相應技術方案的本質(zhì)脫離本發(fā)明各實施例技術方案的精神和范圍。
【主權項】
1.一種用于語音識別的聲學模型訓練方法,其特征在于,包括: 獲取訓練樣本;所述訓練樣本包括聲學特征以及所述聲學特征對應的訓練文本; 獲取原始聲學模型,并利用所述原始聲學模型,確定每一訓練文本對應的所述原始聲學模型中的聲學狀態(tài); 根據(jù)每一訓練文本對應的聲學狀態(tài)以及聲學特征,確定每一聲學狀態(tài)對應的聲學特征; 利用每一聲學狀態(tài)對應的聲學特征,重新訓練獲得所述聲學狀態(tài)的狀態(tài)描述模型; 利用重新訓練獲得的狀態(tài)描述模型,更新所述原始聲學模型中的原始狀態(tài)描述模型,獲得更新之后的聲學模型。2.根據(jù)權利要求1所述的方法,其特征在于,所述根據(jù)每一訓練文本對應的聲學狀態(tài)以及聲學特征,確定每一聲學狀態(tài)對應的聲學特征包括: 根據(jù)每一訓練文本對應的聲學狀態(tài)以及聲學特征,將所述聲學特征進行切分,獲得分段數(shù)據(jù); 確定每一聲學狀態(tài)對應的分段數(shù)據(jù); 所述利用每一聲學狀態(tài)對應的聲學特征,重新訓練獲得每一聲學狀態(tài)的狀態(tài)描述模型包括: 利用每一聲學狀態(tài)對應的分段數(shù)據(jù),重新訓練獲得所述聲學狀態(tài)的狀態(tài)描述模型。3.根據(jù)權利要求1所述的方法,其特征在于,所述獲取訓練樣本包括: 獲取訓練語音以及訓練文本,并提取所述訓練語音的聲學特征。4.根據(jù)權利要求1所述的方法,其特征在于,所述利用所述原始聲學模型,確定每一訓練文本對應的所述原始聲學模型中的聲學狀態(tài)包括: 利用所述原始聲學模型中的狀態(tài)定義模型,確定每一訓練文本對應的聲學狀態(tài)。5.根據(jù)權利要求2所述的方法,其特征在于,所述根據(jù)每一訓練文本對應的聲學狀態(tài)以及聲學特征,將所述聲學特征進行切分,獲得分段數(shù)據(jù);確定每一聲學狀態(tài)對應的分段數(shù)據(jù)包括: 利用每一訓練文本建立線性解碼網(wǎng)絡,利用維特比算法,將所述訓練文件對應的聲學特征進行切分,獲得分段數(shù)據(jù),并確定每一個聲學狀態(tài)對應的分段數(shù)據(jù)。6.—種用于語音識別的聲學模型訓練裝置,其特征在于,包括: 樣本獲取模塊,用于獲取訓練樣本;所述訓練樣本包括聲學特征以及所述聲學特征對應的訓練文本; 第一確定模塊,用于獲取原始聲學模型,并利用所述原始聲學模型,確定每一訓練文本對應的所述原始聲學模型中的聲學狀態(tài); 第二確定模塊,用于根據(jù)每一訓練文本對應的聲學狀態(tài)以及聲學特征,確定每一聲學狀態(tài)對應的聲學特征; 訓練模塊,用于利用每一聲學狀態(tài)對應的聲學特征,重新訓練獲得所述聲學狀態(tài)的狀態(tài)描述模型; 更新模塊,用于利用重新訓練獲得的狀態(tài)描述模型,更新所述原始聲學模型中的原始狀態(tài)描述模型,獲得更新之后的聲學模型。7.根據(jù)權利要求6所述的裝置,其特征在于,所述第二確定模塊具體用于: 根據(jù)每一訓練文本對應的聲學狀態(tài)以及聲學特征,將所述聲學特征進行切分,獲得分段數(shù)據(jù),并確定每一聲學狀態(tài)對應的分段數(shù)據(jù); 所述訓練模塊具體用于: 利用每一聲學狀態(tài)對應的分段數(shù)據(jù),重新訓練獲得所述聲學狀態(tài)的狀態(tài)描述模型。8.根據(jù)權利要求6所述的裝置,其特征在于,所述樣本獲取模塊具體用于: 獲取訓練語音以及訓練文本,并提取所述訓練語音的聲學特征。9.根據(jù)權利要求6所述的裝置,其特征在于,所述第一確定模塊具體用于: 利用所述原始聲學模型中的狀態(tài)定義模型,確定每一訓練文本對應的聲學狀態(tài)。10.根據(jù)權利要求7所述的裝置,其特征在于,所述第二確定模塊具體用于: 利用每一訓練文本建立線性解碼網(wǎng)絡,利用維特比算法,將所述訓練文件對應的聲學特征進行切分,獲得分段數(shù)據(jù),并確定每一個聲學狀態(tài)對應的分段數(shù)據(jù)。
【文檔編號】G10L15/06GK105845130SQ201610195612
【公開日】2016年8月10日
【申請日】2016年3月30日
【發(fā)明人】張俊博
【申請人】樂視控股(北京)有限公司, 樂視致新電子科技(天津)有限公司