專利名稱:一種用于語種識別的語種模型的訓(xùn)練方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于語音識別技術(shù)領(lǐng)域,具體地說,本發(fā)明涉及一種用于語種識別的語種模型的訓(xùn)練方法及系統(tǒng)。
背景技術(shù):
語種識別是語音識別技術(shù)的重點難點之一。對于跨語言的語音識別系統(tǒng),相對于確定語言的語音識別系統(tǒng)語音識別性能會有大幅度的下降,準確識別出語音的語種信息的語種識別技術(shù),使跨語言的語音識別轉(zhuǎn)換為確定語言的語音識別,成為語音識別系統(tǒng)滿足實際應(yīng)用需求的必要手段。對于如何利用有限的語種訓(xùn)練數(shù)據(jù),訓(xùn)練具有語種鑒別性的模型,從而快速準確的識別出語音的語種信息,目前尚未出現(xiàn)有效的方案,這對于語種識別技術(shù)進一步研究及應(yīng)用造成困難。
發(fā)明內(nèi)容
針對上述問題,本發(fā)明實施例提出一種用于語種識別的語種模型的訓(xùn)練方法及系統(tǒng)。在第一方面,本發(fā)明實施例提出一種用于語種識別的語種模型的訓(xùn)練方法,所述方法包括采集多個目標語種語音數(shù)據(jù),提取各語種的語音聲學(xué)譜特征;利用所述聲學(xué)譜特征訓(xùn)練每個目標語種的高斯混合模型,作為其初始模型;利用每個目標語種的初始模型量化對應(yīng)語種訓(xùn)練數(shù)據(jù)的混淆度;利用最大后驗估計將各語種訓(xùn)練數(shù)據(jù)從聲學(xué)譜特征轉(zhuǎn)換到高斯超向量空間;對所述各語種訓(xùn)練數(shù)據(jù)的高斯超向量空間,根據(jù)所述混淆度賦予各語種訓(xùn)練數(shù)據(jù)的高斯超向量不同的權(quán)重,并利用權(quán)重較高的幾個語種的訓(xùn)練數(shù)據(jù)來訓(xùn)練語種模型。在第二方面,本發(fā)明實施例提出一種用于語種識別的語種模型的訓(xùn)練系統(tǒng),所述系統(tǒng)包括聲學(xué)譜特征提取模塊,用于采集多個目標語種語音數(shù)據(jù),提取各語種的語音聲學(xué)譜特征;初始模型生成模塊,用于利用所述聲學(xué)譜特征訓(xùn)練每個目標語種的高斯混合模型,作為其初始模型;混淆度量化模塊,用于利用每個目標語種的初始模型量化對應(yīng)語種訓(xùn)練數(shù)據(jù)的混淆度;高斯超向量轉(zhuǎn)換模塊,用于利用最大后驗估計將各語種訓(xùn)練數(shù)據(jù)從聲學(xué)譜特征轉(zhuǎn)換到高斯超向量空間;語種模型訓(xùn)練模塊,用于對所述各語種訓(xùn)練數(shù)據(jù)的高斯超向量空間,根據(jù)所述混淆度賦予各語種訓(xùn)練數(shù)據(jù)的高斯超向量不同的權(quán)重,并利用權(quán)重較高的幾個語種的訓(xùn)練數(shù)據(jù)來訓(xùn)練語種模型。本發(fā)明實施例提取各語種的語音聲學(xué)譜特征生成每個目標語種的初始高斯混合模型,量化對應(yīng)語種訓(xùn)練數(shù)據(jù)的混淆度,利用最大后驗估計將各語種訓(xùn)練數(shù)據(jù)從聲學(xué)譜特征轉(zhuǎn)換到高斯超向量空間,對所述各語種訓(xùn)練數(shù)據(jù)的高斯超向量空間,根據(jù)所述混淆度賦予不同的權(quán)重,并利用權(quán)重較高的幾個語種的訓(xùn)練數(shù)據(jù)來訓(xùn)練語種模型,能夠有效地提高語種鑒別性,改善語種識別性能。
以下,結(jié)合附圖來詳細說明本發(fā)明實施例,其中圖1是本發(fā)明實施例的基于最大混淆度鑒別性訓(xùn)練的語種識別系統(tǒng)的具體實施流程框圖;圖2是本發(fā)明實施例的用于語種識別的語種模型的訓(xùn)練方法流程圖;圖3是本發(fā)明實施例的用于語種識別的語種模型的訓(xùn)練系統(tǒng)示意圖。
具體實施例方式圖1是基于最大混淆度鑒別性訓(xùn)練的語種識別系統(tǒng)的具體實施流程框圖。下面結(jié)合圖1對本發(fā)明實施例的具體實施方式
做進一步詳細描述本發(fā)明實施例旨在提供基于最大混淆度鑒別性訓(xùn)練的語種識別方案,該方案利用混淆度大的、語種鑒別性高的語種訓(xùn)練數(shù)據(jù)訓(xùn)練語種模型,以提高語種識別性能。具體地,本發(fā)明實施例涉及的基于最大混淆度鑒別性訓(xùn)練的語種識別方法的核心技術(shù)在于語種訓(xùn)練數(shù)據(jù)混淆度的獲取以及利用好語種訓(xùn)練數(shù)據(jù)的混淆度進行鑒別性訓(xùn)練。最大混淆度鑒別性訓(xùn)練通過利用更具語種鑒別性的數(shù)據(jù)訓(xùn)練得到更具鑒別性的語種高斯混合模型。本發(fā)明利用語種初始模型定義語種訓(xùn)練數(shù)據(jù)混淆度并在高斯超向量空間利用該混淆度進行語種鑒別性訓(xùn)練。本發(fā)明實施例的具體計算流程如下第一步,采集一定數(shù)量的目標語種語音數(shù)據(jù),提取語音聲學(xué)譜特征;所采集的目標語種語音數(shù)據(jù),通過傳統(tǒng)的語音數(shù)據(jù)前端處理,對語種訓(xùn)練數(shù)據(jù)切除靜音,音樂等無效語音,保留有效語音,然后提取通用的美爾倒譜特征(MFCC),并對該特征進行動態(tài)擴展得到移動差分倒譜特征(MFCC-SDC),對于語種訓(xùn)練數(shù)據(jù)的每一幀得到56維特征向量,作為該語音數(shù)據(jù)的聲學(xué)譜特征。第二步,利用每個目標語種訓(xùn)練數(shù)據(jù)的聲學(xué)譜特征訓(xùn)練該目標語種的高斯混合模型,作為每個目標語種各自的初始模型。這里利用了語音數(shù)據(jù)聲學(xué)譜特征服從高斯混合分布,訓(xùn)練每個目標語種各自的初始高斯混合模型采用了最大似然估計,目標函數(shù)為每個語種訓(xùn)練數(shù)據(jù)對數(shù)似然之和,公式(6)為英語高斯混合模型估計的目標函數(shù)
權(quán)利要求
1.一種用于語種識別的語種模型的訓(xùn)練方法,其特征在于,所述方法包括 采集多個目標語種語音數(shù)據(jù),提取各語種的語音聲學(xué)譜特征; 利用所述聲學(xué)譜特征訓(xùn)練每個目標語種的高斯混合模型,作為其初始模型; 利用每個目標語種的初始模型量化對應(yīng)語種訓(xùn)練數(shù)據(jù)的混淆度; 利用最大后驗估計將各語種訓(xùn)練數(shù)據(jù)從聲學(xué)譜特征轉(zhuǎn)換到高斯超向量空間; 對所述各語種訓(xùn)練數(shù)據(jù)的高斯超向量空間,根據(jù)所述混淆度賦予各語種訓(xùn)練數(shù)據(jù)的高斯超向量不同的權(quán)重,并利用權(quán)重較高的幾個語種的訓(xùn)練數(shù)據(jù)來訓(xùn)練語種模型。
2.如權(quán)利要求1所述的用于語種識別的語種模型的訓(xùn)練方法,其特征在于,所述利用權(quán)重較高的幾個語種的訓(xùn)練數(shù)據(jù)來訓(xùn)練語種模型,具體為利用權(quán)重較高的幾個語種的訓(xùn)練數(shù)據(jù)的高斯超向量進行最大似然估計得到代表每個語種高斯超向量空間分布的中心點,根據(jù)每個語種高斯超向量空間分布的中心點,更新每個語種的高斯混合模型的均值,得到每個語種的新的高斯混合模型。
3.如權(quán)利要求1或2所述的用于語種識別的語種模型的訓(xùn)練方法,其特征在于,所述利用每個目標語種的初始模型量化對應(yīng)語種訓(xùn)練數(shù)據(jù)的混淆度,具體為若語種Ii的某條語音數(shù)據(jù)的聲學(xué)譜特征為X,該條語音數(shù)據(jù)混淆度
4.按權(quán)利要求3所述的用于語種識別的語種模型的訓(xùn)練方法,其特征在于,所述根據(jù)所述混淆度賦予的語種Ii的訓(xùn)練數(shù)據(jù)的高斯超向量的權(quán)重
5.按權(quán)利要求4所述的用于語種識別的語種模型的訓(xùn)練方法,其特征在于,所述通過最大似然計算每個目標語種高斯超向量的中心點依據(jù)公式
6.一種用于語種識別的語種模型的訓(xùn)練系統(tǒng),其特征在于,所述系統(tǒng)包括 聲學(xué)譜特征提取模塊,用于采集多個目標語種語音數(shù)據(jù),提取各語種的語音聲學(xué)譜特征; 初始模型生成模塊,用于利用所述聲學(xué)譜特征訓(xùn)練每個目標語種的高斯混合模型,作為其初始模型; 混淆度量化模塊,用于利用每個目標語種的初始模型量化對應(yīng)語種訓(xùn)練數(shù)據(jù)的混淆度; 高斯超向量轉(zhuǎn)換模塊,用于利用最大后驗估計將各語種訓(xùn)練數(shù)據(jù)從聲學(xué)譜特征轉(zhuǎn)換到聞斯超向量空間; 語種模型訓(xùn)練模塊,用于對所述各語種訓(xùn)練數(shù)據(jù)的高斯超向量空間,根據(jù)所述混淆度賦予各語種訓(xùn)練數(shù)據(jù)的高斯超向量不同的權(quán)重,并利用權(quán)重較高的幾個語種的訓(xùn)練數(shù)據(jù)來訓(xùn)練語種模型。
7.如權(quán)利要求6所述的用于語種識別的語種模型的訓(xùn)練系統(tǒng),其特征在于,所述利用權(quán)重較高的幾個語種的訓(xùn)練數(shù)據(jù)來訓(xùn)練語種模型,具體為利用權(quán)重較高的幾個語種的訓(xùn)練數(shù)據(jù)的高斯超向量進行最大似然估計得到代表每個語種高斯超向量空間分布的中心點,根據(jù)每個語種高斯超向量空間分布的中心點,更新每個語種的高斯混合模型的均值,得到每個語種的新的高斯混合模型。
8.如權(quán)利要求6或7所述的用于語種識別的語種模型的訓(xùn)練系統(tǒng),其特征在于,所述利用每個目標語種的初始模型量化對應(yīng)語種訓(xùn)練數(shù)據(jù)的混淆度,具體為若語種Ii的某條語音數(shù)據(jù)的聲學(xué)譜特征為X,該條語音數(shù)據(jù)混淆度
9.按權(quán)利要求8所述的用于語種識別的語種模型的訓(xùn)練系統(tǒng),其特征在于,所述根據(jù)所述混淆度賦予的語種Ii的訓(xùn)練數(shù)據(jù)的高斯超向量的權(quán)重)
10.按權(quán)利要求9所述的用于語種識別的語種模型的訓(xùn)練系統(tǒng),其特征在于,所述通過最大似然計算每個目標語種高斯超向量的中心點依據(jù)公式
全文摘要
本發(fā)明涉及一種用于語種識別的語種模型的訓(xùn)練方法及系統(tǒng),所述方法包括采集多個目標語種語音數(shù)據(jù),提取各語種的語音聲學(xué)譜特征;利用所述聲學(xué)譜特征訓(xùn)練每個目標語種的高斯混合模型,作為其初始模型;利用每個目標語種的初始模型量化對應(yīng)語種訓(xùn)練數(shù)據(jù)的混淆度;利用最大后驗估計將各語種訓(xùn)練數(shù)據(jù)從聲學(xué)譜特征轉(zhuǎn)換到高斯超向量空間;對所述各語種訓(xùn)練數(shù)據(jù)的高斯超向量空間,根據(jù)所述混淆度賦予各語種訓(xùn)練數(shù)據(jù)的高斯超向量不同的權(quán)重,并利用權(quán)重較高的幾個語種的訓(xùn)練數(shù)據(jù)來訓(xùn)練語種模型。本發(fā)明實施例量化對應(yīng)語種訓(xùn)練數(shù)據(jù)的混淆度,利用權(quán)重較高的訓(xùn)練數(shù)據(jù)來訓(xùn)練語種模型,能夠有效地提高語種鑒別性,改善語種識別性能。
文檔編號G10L15/06GK103065622SQ20121056071
公開日2013年4月24日 申請日期2012年12月20日 優(yōu)先權(quán)日2012年12月20日
發(fā)明者周若華, 顏永紅, 楊金超, 索宏彬 申請人:中國科學(xué)院聲學(xué)研究所, 北京中科信利技術(shù)有限公司