語音識別模型訓練方法和裝置及終端的制作方法
【專利摘要】本申請公開了一種語音識別模型訓練方法和裝置及終端。根據本申請,語音識別模型訓練方法可包括:通過采集用戶朗讀樣本的語音而獲取用戶語音樣本;對采集的用戶語音樣本進行特征提??;以及根據提取的特征,創(chuàng)建語音識別模型。通過本申請的方法和裝置,能夠根據用戶特點更新語音識別模型庫,從而提高語音識別成功率,改善用戶體驗。
【專利說明】語音識別模型訓練方法和裝置及終端
【技術領域】
[0001]本申請涉及語音識別模型訓練方法和裝置及終端。
【背景技術】
[0002]在現有語音識別方法中,可根據已有的聲學模型進行語音識別,例如,一種方法是利用語音字典來進行語音識別的方法。該方案提供了一種語音字典形成方法,包括整理日常生活中常會組合在一起使用的文字,將所述文字的標準讀音通過音節(jié)代碼存儲。該方案同時公開了將語音字典里的語音代碼和輸入語音形成的代碼進行比較,實現語音識別。
[0003]由于上述方法不能針對特定用戶使用習慣來進行語音識別,因此特別是當用戶有自己的發(fā)音特點時候,識別率可能會顯著下降。
【發(fā)明內容】
[0004]為了解決上述現有語音識別方法中識別率不高的問題,本申請?zhí)岢隽艘环N語音識別模型訓練方法和裝置及終端。
[0005]根據本申請的一個方面,提出了一種語音識別模型訓練方法,包括:通過采集用戶朗讀樣本的語音而獲取用戶語音樣本;對采集的用戶語音樣本進行特征提??;以及根據提取的特征,創(chuàng)建語音識別模型。
[0006]根據本申請的另一個方面,提出了一種語音識別模型訓練裝置,包括:樣本接收模塊,接收終端上傳的用戶語音樣本;特征提取模塊,對用戶語音樣本進行特征提取;以及模型訓練模塊,根據提取的特征對語音識別模型進行訓練更新。
[0007]根據本申請的又一個方面,提出了一種終端,包括:樣本存儲模塊,存儲供用戶朗讀的樣本;樣本采集模塊,通過采集用戶朗讀樣本的語音而獲取用戶語音樣本;以及記錄模塊,記錄用戶語音識別的成功率。
[0008]通過本申請的方法和裝置,能夠根據用戶特點更新語音識別模型庫,從而提高語音識別成功率,改善用戶體驗。
【專利附圖】
【附圖說明】
[0009]圖1是根據本申請一個實施方案的語音識別模型訓練方法的流程圖;以及
[0010]圖2是根據本申請一個實施方案的語音識別模型訓練裝置的框圖;以及
[0011]圖3是根據本申請一個實施方案的終端的框圖。
【具體實施方式】
[0012]下面參照附圖,對本申請的實施方案進行詳細說明。
[0013]如圖1所示,根據一個實施方案的語音識別模型訓練方法可如下執(zhí)行。首先在步驟S1002,終端可通過采集用戶朗讀樣本的語音而獲取用戶語音樣本。根據一個實施例,供用戶朗讀的樣本可以是靜態(tài)樣本,例如漢語拼音表、英語字母表、數字表、易混淆詞表等。根據另一個實施例,供用戶朗讀的樣本還可以是動態(tài)樣本,例如包含用戶被錯誤識別的語音內容,如易混淆發(fā)音的音節(jié)、出錯發(fā)音等。然后在步驟S1004,由服務器對采集的用戶語音樣本進行特征提取,之后在步驟S1006,根據提取的特征,創(chuàng)建語音識別模型??梢岳斫猓稍诶缬脩糇詷I(yè)務首次打開終端客戶端時進行上述創(chuàng)建模型的過程。
[0014]根據一個實施方案,在進行語音識別過程中,當用戶語音識別率低于預定閾值時,可對語音識別模型進行更新操作。作為一個具體實施例,可將預定閾值設定為0.75。
[0015]具體地,在進行更新操作時,可通過采集用戶朗讀動態(tài)樣本的語音而獲取用戶語音樣本,然后,可對采集的用戶語音樣本進行特征提取,并根據提取的特征,對語音識別模型進行更新。
[0016]根據一個實施例,對采集的用戶語音樣本提取的特征可包括特定音節(jié)的發(fā)音、用戶連讀習慣或者語音頻譜等。
[0017]根據一個實施例,對采集的用戶語音樣本進行特征提取的步驟可包括:對用戶語音樣本進行FFT變換,對變換的結果進行帶通濾波,之后進行DCT變換,計算結果進行差分,并對差分計算用戶語音特征;以及為每個用戶語音特征分配ID。
[0018]根據一個實施例,用戶語音特征可包括過零率、基音周期和/或線性預測倒譜系數等。
[0019]根據一個具體實施例,對采集的用戶語音樣本進行特征提取的步驟可如下執(zhí)行:
[0020]對用戶語音樣本分幀。幀與幀一般可部分重替,比如對采樣率為16kHz的語音信號,幀陸可取25msec,幀移可取IOmsec ;
[0021]對用戶語音樣本進行濾波,其中濾波器為H(Z)=1-KZ' K為O到I之間;
[0022]對每幀信號進行濾波,其中濾波器為W(n)=0.54+0.46cos[2 η / (N一I)],N為每幀信號的長度,O≤η≤N-1 ;
[0023]對經濾波的每幀信號進行快速傅里葉變換;
[0024]對經快速傅里葉變換后的信號進行不同頻率段的濾波,其中濾波器為G(f)=a*loglO(l+f / b),其中f為頻率,a和b為預先確定的參數,例如,a可取值2560,b可取值700 ;
[0025]對經不同頻率段的濾波的信號進行離線余弦變換;
[0026]對離線余弦變換的結果進行差分計算。
[0027]根據一個具體實施方案,對語音識別模型進行更新的步驟可以是對語音識別模型庫進行聚類操作。
[0028]根據一個實施例,語音識別模型庫可包括多個模型,每個模型可包括參數集合和特征集合等,還可包括ID。對語音識別模型庫進行聚類操作可如下執(zhí)行:
[0029]當新產生一個模型時,依次選擇模型庫中的所有模型,執(zhí)行以下步驟:
[0030]( 1)模型庫中現有模型的參數集合與新產生模型的參數集合相減并取平方值,并對參數集合中的各個元素進行累加,得到2個模型的參數的平方差值,以及
[0031](2)將2個模型的參數的平方差值進行開方,并除以參數集合的元素數目,得到2個模型的參數的差值;
[0032]比較模型的差值,如果小于預定參數Thmm,則將新模型的參數集合乘以Thmm之后,除以(1+Thmm),再與模型庫中的模型的參數集合累加,否則,將新模型寫入模型庫。[0033]接下來參照圖2,描述根據本申請一個實施方案的語音識別模型訓練裝置。
[0034]如圖2所示,語音識別模型訓練裝置可包括樣本接收模塊202、特征提取模塊204和模型訓練模塊206。樣本接收模塊202可接收終端上傳的用戶語音樣本。特征提取模塊204可對接收的用戶語音樣本進行特征提取。模型訓練模塊206可根據提取的特征對語音識別模型進行訓練更新。
[0035]具體地,特征提取模塊206可進一步包括計算模塊和分配模塊。計算模塊可對用戶語音樣本進行FFT變換,對變換的結果進行帶通濾波,之后進行DCT變換,計算結果進行差分,并對差分計算用戶語音特征。分配模塊可為每個用戶語音特征分配ID。
[0036]根據一個具體實施例,計算模塊可包括:對用戶語音樣本分幀的單元;對用戶語音樣本進行濾波的單元,其中濾波器為H(Z)=1-KZ-1 ;對每幀信號進行濾波的單元,其中濾波器為W(n) =0.54+0.46cos [2 n / (N — I) ],N為每幀信號的長度,O≤η≤N_1 ;對經濾波的每幀信號進行快速傅里葉變換的單元;對經快速傅里葉變換后的信號進行不同頻率段的濾波的單元,其中濾波器為G(f)=a*loglO(l+f / b),其中f為頻率,a和b為預先確定的參數;對經不同頻率段的濾波的信號進行離線余弦變換的單元;以及對離線余弦變換的結果進行差分計算的單元。
[0037]根據一個實施例,模型訓練模塊通過對語音識別模型庫進行聚類操作來進行訓練更新。
[0038]根據一個實施例,語音識別模型庫包括多個模型,每個模型包括參數集合和特征集合,聚類操作可如下執(zhí)行:
[0039]當新產生一個模型時,依次選擇模型庫中的所有模型,執(zhí)行以下步驟:
[0040]( I)模型庫中現 有模型的參數集合與新產生模型的參數集合相減并取平方值,并對參數集合中的各個元素進行累加,得到2個模型的參數的平方差值,以及
[0041](2)將2個模型的參數的平方差值進行開方,并除以參數集合的元素數目,得到2個模型的參數的差值;
[0042]比較模型的差值,如果小于預定參數Thmm,則將新模型的參數集合乘以Thmm之后,除以(1+Thmm),再與模型庫中的模型的參數集合累加,否則,將新模型寫入模型庫。
[0043]接下來參照圖3,描述根據本申請一個實施方案的終端。如圖3所示,終端可包括:樣本存儲模塊302、樣本采集模塊304和記錄模塊306。樣本存儲模塊302可存儲供用戶朗讀的樣本,樣本采集模塊304可通過采集用戶朗讀樣本的語音而獲取用戶語音樣本,記錄模塊306可記錄用戶語音識別的成功率。
[0044]根據一個實施例,樣本存儲模塊存儲的樣本可包括靜態(tài)樣本和動態(tài)樣本。
[0045]根據一個實施例,終端可包括更新啟動模塊,當記錄模塊記錄的成功率低于預定閾值時,將樣本采集模塊采集的用戶朗讀動態(tài)樣本的語音而獲取用戶語音樣本發(fā)送給服務器,進行語音識別模型庫更新。
[0046]以上參照附圖對本申請的示例性的實施方案進行了描述。本領域技術人員應該理解,上述實施方案僅僅是為了說明的目的而所舉的示例,而不是用來進行限制。凡在本申請的教導和權利要求保護范圍下所作的任何修改、等同替換等,均應包含在本申請要求保護的范圍內。
【權利要求】
1.語音識別模型訓練方法,包括: 通過采集用戶朗讀樣本的語音而獲取用戶語音樣本; 對采集的用戶語音樣本進行特征提??;以及 根據提取的特征,創(chuàng)建語音識別模型。
2.如權利要求1所述的方法,其中,在進行語音識別過程中,當用戶語音識別率低于預定閾值時,通過以下步驟進行語音識別模型更新: 通過采集所述用戶朗讀動態(tài)樣本的語音而獲取用戶語音樣本,其中,所述動態(tài)樣本包含所述用戶被錯誤識別的語音內容; 對采集的用戶語音樣本進行特征提?。灰约? 根據提取的特征,對語音識別模型進行更新。
3.如權利要求1或2所述的方法,其中,對采集的用戶語音樣本提取的特征包括:特定音節(jié)的發(fā)音、用戶連讀習慣或者語音頻譜。
4.如權利要求1或2所述的方法,其中,對采集的用戶語音樣本進行特征提取的步驟包括: 對用戶語音樣本進行FFT變換,對變換的結果進行帶通濾波,之后進行DCT變換,計算結果進行差分,并對差分計算用戶語音特征; 為每個用戶語音特征分配ID。
5.如權利要求4所述的方法,其中,所述用戶語音特征包括過零率、基音周期和/或線性預測倒譜系數。
6.如權利要求4所述的方法,其中,對采集的用戶語音樣本進行特征提取的步驟包括: 對用戶語音樣本分幀; 對用戶語音樣本進行濾波,其中濾波器為H(Z)=1-KZ-1 ; 對每幀信號進行濾波,其中濾波器為W (n) =0.54+0.46cos [2 π n / (N — I)],N為每幀信號的長度,O≤η≤N-1 ; 對經濾波的每幀信號進行快速傅里葉變換; 對經快速傅里葉變換后的信號進行不同頻率段的濾波,其中濾波器為G(f)=a*loglO(l+f / b),其中f為頻率,a和b為預先確定的參數; 對經不同頻率段的濾波的信號進行離線余弦變換;以及 對離線余弦變換的結果進行差分計算。
7.如權利要求2所述的方法,其中,對語音識別模型進行更新的步驟包括對語音識別模型庫進行聚類操作。
8.如權利要求7所述的方法,其中,語音識別模型庫包括多個模型,每個模型包括參數集合和特征集合, 所述聚類操作包括: 當新產生一個模型時,依次選擇模型庫中的所有模型,執(zhí)行以下步驟: (1)模型庫中現有模型的參數集合與新產生模型的參數集合相減并取平方值,并對參數集合中的各個元素進行累加,得到2個模型的參數的平方差值,以及 (2)將2個模型的參數的平方差值進行開方,并除以參數集合的元素數目,得到2個模型的參數的差值;比較模型的差值,如果小于預定參數Thmm,則將新模型的參數集合乘以Thmm之后,除以(1+Thmm),再與模型庫中的模型的參數集合累加,否則,將新模型寫入模型庫。
9.語音識別模型訓練裝置,包括: 樣本接收模塊,接收終端上傳的用戶語音樣本; 特征提取模塊,對用戶語音樣本進行特征提取;以及 模型訓練模塊,根據提取的特征對語音識別模型進行訓練更新。
10.如權利要求9所述的裝置,其中,所述特征提取模塊進一步包括: 計算模塊,對用戶語音樣本進行FFT變換,對變換的結果進行帶通濾波,之后進行DCT變換,計算結果進行差分,并對差分計算用戶語音特征;以及分配模塊,為每個用戶語音特征分配ID。
11.如權利要求10所述的裝置,其中,所述計算模塊包括: 對用戶語音樣本分幀的單元; 對用戶語音樣本進行濾波的單元,其中濾波器為H(Z)=1-KZ-1 ; 對每幀信號進行濾波的單元,其中濾波器為W(n) =0.54+0.46cos [2 n / (N — 1)],N為每幀信號的長度,O ≤n ≤ N-1 ; 對經濾波的每幀信號進行快速傅里葉變換的單元; 對經快速傅里葉變換后的信號進行不同頻率段的濾波的單元,其中濾波器為G(f)=a*loglO(l+f / b),其中f為頻率,a和b為預先確定的參數; 對經不同頻率段的濾波的信號進行離線余弦變換的單元;以及 對離線余弦變換的結果進行差分計算的單元。
12.如權利要求10或11所述的方法,其中,模型訓練模塊通過對語音識別模型庫進行聚類操作來進行訓練更新。
13.如權利要求12所述的方法,其中,語音識別模型庫包括多個模型,每個模型包括參數集合和特征集合, 所述聚類操作包括: 當新產生一個模型時,依次選擇模型庫中的所有模型,執(zhí)行以下步驟: (1)模型庫中現有模型的參數集合與新產生模型的參數集合相減并取平方值,并對參數集合中的各個元素進行累加,得到2個模型的參數的平方差值,以及 (2)將2個模型的參數的平方差值進行開方,并除以參數集合的元素數目,得到2個模型的參數的差值; 比較模型的差值,如果小于預定參數Thmm,則將新模型的參數集合乘以Thmm之后,除以(1+Thmm),再與模型庫中的模型的參數集合累加,否則,將新模型寫入模型庫。
14.終端,包括: 樣本存儲模塊,存儲供用戶朗讀的樣本; 樣本采集模塊,通過采集用戶朗讀樣本的語音而獲取用戶語音樣本;以及 記錄模塊,記錄用戶語音識別的成功率。
15.如權利要求14所述的終端,其中,樣本存儲模塊存儲的樣本包括靜態(tài)樣本和動態(tài)樣本,其中,動態(tài)樣本包含用戶被錯誤識別的語音內容。
16.如權利要求15所述的終端,進一步包括更新啟動模塊,當記錄模塊記錄的成功率低于預定閾值時,將樣本采集模塊采集的用戶朗讀動態(tài)樣本的語音而獲取用戶語音樣本發(fā)送給服務器,進行語音識別模 型庫更新。
【文檔編號】G10L15/02GK103680495SQ201210364061
【公開日】2014年3月26日 申請日期:2012年9月26日 優(yōu)先權日:2012年9月26日
【發(fā)明者】郭勐, 楊蕾, 張儉, 于蓉蓉 申請人:中國移動通信集團公司