專利名稱:基于基狀態(tài)矢量加權(quán)的短語音說話人識別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音識別技術(shù)領(lǐng)域,特別涉及一種基于基狀態(tài)矢量加權(quán)的短語音說話人識別方法。
背景技術(shù):
說話人識別技術(shù)是指利用機器自動地從待測語音信號中識別出其所屬說話人身份信息的一項生物特征識別技術(shù)。該技術(shù)廣泛應(yīng)用于基于語音的說話人身份確認、公安刑偵、法庭物證鑒定、國家安全等領(lǐng)域。
常見的說話人識別系統(tǒng)主要包括VQ (矢量量化)、GMM-UBM (高斯混合模型-通用背景模型)、GSV-SVM (高斯均值超矢量-支持矢量機)、JFA (聯(lián)合因子分析)、IVEC (身份認證矢量)等等。其中GSV-SVM系統(tǒng)由于其靈活性,穩(wěn)健性好等方面優(yōu)于其他系統(tǒng),目前廣泛應(yīng)用于實際項目中。
目前的GSV-SVM系統(tǒng)建模過程中,在提取超矢量階段,將目標說話人的語音數(shù)據(jù)和反模型數(shù)據(jù)進行特征提取,通過在通用背景模型上進行MAP自適應(yīng),分別得到說話人GMM均值超矢量和反模型的GMM均值超矢量;在建模階段,利用SVM分類器對上述均值超矢量進行監(jiān)督性訓(xùn)練,得到相應(yīng)的說話人模型。在測試階段,同樣對測試語音進行特征提取并在通用背景模型上進行MAP自適應(yīng),得到測試語音段的GMM均值超矢量,與訓(xùn)練好的模型進行測試打分,從而通過分數(shù)與判決門限比較給出識別結(jié)果。
在目前的GSV-SVM說話人識別系統(tǒng)中,往往由于訓(xùn)練說話人的語音段時長較短或者測試語音段時長較短,導(dǎo)致自適應(yīng)GMM均值超矢量的過程中,一些GMM混合度上得不到充分自適應(yīng),容易導(dǎo)致發(fā)生“模型空洞”的問題,從而限制了短語音下說話人識別的性能。發(fā)明內(nèi)容
本發(fā)明的目的旨 在至少解決上述的技術(shù)缺陷之一。
為此,本發(fā)明的目的在于提出一種基于基狀態(tài)矢量加權(quán)的短語音說話人識別方法。
為達到上述目的,本發(fā)明的實施例提出一種基于基狀態(tài)矢量加權(quán)的短語音說話人識別方法,包括以下步驟:S1:采集多個帶文本標注的語音數(shù)據(jù),并對所述多個語音數(shù)據(jù)進行訓(xùn)練,以得到狀態(tài)層聚類的隱馬爾可夫模型,其中,聚類后的狀態(tài)為基狀態(tài);S2:根據(jù)所述狀態(tài)層聚類的隱馬爾可夫模型對說話人識別中的數(shù)據(jù)進行解碼,以得到數(shù)據(jù)的基狀態(tài)標注;S3:根據(jù)所述數(shù)據(jù)的基狀態(tài)的標注訓(xùn)練基狀態(tài)的通用背景模型,并從MAP自適應(yīng)后的模型生成基狀態(tài)均值超矢量和基狀態(tài)權(quán)值超矢量;S4:根據(jù)所述基狀態(tài)均值超矢量和基狀態(tài)權(quán)值超矢量進行說話人模型訓(xùn)練和測試,從而估計所述短語音說話人的身份。
本發(fā)明的一個實施例中,所述步驟SI具體包括:所述步驟SI具體包括:采集多個帶文本標注的語音數(shù)據(jù);對所述多個語音數(shù)據(jù)進行訓(xùn)練得到音素隱馬爾科夫模型;以及根據(jù)所述音素隱馬爾科夫模型進行狀態(tài)層聚類,以得到所述狀態(tài)層聚類的隱馬爾可夫模型,其中,聚類后的狀態(tài)為基狀態(tài)。
本發(fā)明的一個實施例中,所述步驟S2進一步包括:通過解碼算法和所述基狀態(tài)層聚類的隱馬爾科夫模型對所有說話人識別中的數(shù)據(jù)進行解碼,以得到所述數(shù)據(jù)的基狀態(tài)標注。
本發(fā)明的一個實施例中,所述步驟S4進一步包括:根據(jù)所述基狀態(tài)均值超矢量和基狀態(tài)權(quán)值超矢量訓(xùn)練說話人模型和測試,得到說話人識別的分數(shù);以及根據(jù)所述說話人識別的分數(shù)估計說話人的身份。
本發(fā)明的一個實施例中,所述基狀態(tài)模型包括13個基狀態(tài)模型。
本發(fā)明的一個實施例中,所述基狀態(tài)均值超矢量通過如下公式得到,所述公式為,K,μ-Ιμ'Ι μΖ...< f,其中,μ 為第S1個基狀態(tài)高斯混合模型中的混合分量和方差加權(quán)后的均值矢量,Wi為第Si個基狀態(tài)高斯混合模型中的混合分量權(quán)重矢量,Σ i為第Si個基狀態(tài)高斯混合模型中的混合分量的方差矩陣,為第Si個基狀態(tài)高斯混合模型均值矢量,μ為所有基狀態(tài)矢量拼接后生成的最終的基狀態(tài)矢量,T是對矢量進行轉(zhuǎn)置運算。本發(fā)明的一個實施例中,所述基狀態(tài)權(quán)值超矢量通過如下公式得到,所述公式為,Α = …其中,Λ/為第Si個基狀態(tài)生成的權(quán)值矢量,λ為所有基狀態(tài)權(quán)值順序拼接后生成的最終的權(quán)值矢量。
根據(jù)本發(fā)明實施例的方法,可以實現(xiàn)基狀態(tài)層相關(guān)的精細建模,并通過有效的加權(quán),克服傳統(tǒng)方法會容易導(dǎo)致的“模型空洞”的問題,從而有效降低了建模的自由度,同時可以提高了說話人識別的性能。
本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。
本發(fā)明上述的和/或附加的方面和優(yōu)點從下面結(jié)合附圖對實施例的描述中將變得明顯和容易理解,其中:
圖1為根據(jù)本發(fā)明一個實施例的基于基狀態(tài)矢量加權(quán)的短語音說話人識別方法的流程圖2為根據(jù)本發(fā)明一個實施例的基狀態(tài)模型訓(xùn)練和對說話人數(shù)據(jù)解碼的示意圖3為根據(jù)本發(fā)明一個實施例的基狀態(tài)的超矢量提取和加權(quán)矢量計算的示意圖;以及
圖4為根據(jù)本發(fā)明一個實施例的基于基狀態(tài)矢量加權(quán)的短語音說話人識別方法的示意圖。
具體實施方式
下面詳細描述本發(fā)明的實施例,實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能解釋為對本發(fā)明的限制。
圖1為根據(jù)本發(fā)明一個實施例的基于基狀態(tài)矢量加權(quán)的短語音說話人識別方法的流程圖。圖4為根據(jù)本發(fā)明一個實施例的基于基狀態(tài)矢量加權(quán)的短語音說話人識別方法的示意圖。如圖1所示,根據(jù)本發(fā)明實施例的基于基狀態(tài)矢量加權(quán)的短語音說話人識別方法,包括以下步驟:
步驟101,采集多個帶文本標注的語音數(shù)據(jù),并對多個語音數(shù)據(jù)進行訓(xùn)練,以得到狀態(tài)層聚類的隱馬爾可夫模型,聚類后的狀態(tài)稱之為基狀態(tài)。
具體地,采集多個帶文本標注的語音數(shù)據(jù)。然后,對多個語音數(shù)據(jù)進行訓(xùn)練得到音素隱馬爾科夫模型。之后,根據(jù)音素隱馬爾科夫模型進行狀態(tài)層聚類,以得到狀態(tài)層聚類的隱馬爾可夫模型,聚類后的狀態(tài)稱之為基狀態(tài)。在本發(fā)明的一個實施例中,采集用于訓(xùn)練基狀態(tài)模型的語音數(shù)據(jù)集,并對所有數(shù)據(jù)進行語音識別,得到對應(yīng)的音素串,并采用Baum-Welch算法,對音素串中的每一個音素分別進行迭代訓(xùn)練以得到三狀態(tài)的隱馬爾科夫模型。對隱馬爾可夫模型進行狀態(tài)層聚類和迭代重估,以得到基狀態(tài)模型。
步驟102,根據(jù)基狀態(tài)聚類的隱馬爾可夫模型對說話人識別中的數(shù)據(jù)進行解碼,以得到數(shù)據(jù)的基狀態(tài)標注。具體地,通過解碼算法和狀態(tài)層聚類的隱馬爾科夫模型對所有說話人識別中的數(shù)據(jù)進行解碼,以得到數(shù)據(jù)的基狀態(tài)標注。
圖2為根據(jù)本發(fā)明一個實施例的基狀態(tài)模型訓(xùn)練和對說話人數(shù)據(jù)解碼的示意圖。如圖2所示,根據(jù)訓(xùn)練得到的隱馬爾科夫模型進行狀態(tài)層聚類,并進行迭代重估訓(xùn)練基狀態(tài)模型,該基狀態(tài)模型包括13個基狀態(tài)模型。采用Viterbi解碼算法,對通用背景模型、反模型、說話人模型等訓(xùn)練和測試中所涉及到的所有數(shù)據(jù)進行解碼,以得到每一條數(shù)據(jù)解碼后的基狀態(tài)標注。
步驟103,根據(jù)數(shù)據(jù)的基狀態(tài)的標注訓(xùn)練基狀態(tài)的通用背景模型,并從MAP自適應(yīng)后的模型生成基狀態(tài)均值超矢量和基狀態(tài)權(quán)值超矢量。
具體地,根據(jù)基狀態(tài)的標注和EM算法,用訓(xùn)練背景模型的數(shù)據(jù)訓(xùn)練每一個基狀態(tài)的通用背景模型。根據(jù)基狀態(tài)的標注對用于說話人系統(tǒng)訓(xùn)練說話人模型和測試中涉及到的每一條數(shù)據(jù)進行處理,包括用于訓(xùn)練說話人模型的正樣本和負樣本數(shù)據(jù),以及所有測試數(shù)據(jù)。然后對基狀態(tài)通用背景模型進行最大后驗概率MAP自適應(yīng),以得到各基狀態(tài)下的GMM模型。
圖3為根據(jù)本發(fā)明一個實施例的基狀態(tài)的超矢量提取和加權(quán)矢量計算的示意圖。如圖3所示,自適應(yīng)方法具體如下:
假設(shè)其中一個基狀態(tài) 通用背景模型的參數(shù)為A = {wm,μω, Σπ,πι=1,...,Μ},其中,%、μ-和 π*別表示通用背景模型中各高斯分量的權(quán)重、均值和方差,權(quán)重滿足Σ^Ι=1,下標m表示高斯分量標號,共含M個高斯分量。以訓(xùn)練語音為例,假設(shè)語音共含T幀特征,其中,第t幀的聲學(xué)層MFCC特征為ot,則Ot屬于第m個高斯分量的后驗概率為:m —其中,N(.)表示高斯分布的概率密度,對t=l,...,T, m'=im=l,...,M進行循環(huán)計算,可得到每幀特征屬于每個高斯分量的后驗概率。
然后,計算得到第m個高斯分量的后驗概率對所有幀進行累加,得到該特征的第m個高斯分量的零階統(tǒng)計量
權(quán)利要求
1.一種基于基狀態(tài)矢量加權(quán)的短語音說話人識別方法,其特征在于,包括以下步驟: S1:采集多個帶文本標注的語音數(shù)據(jù),并對所述多個語音數(shù)據(jù)進行訓(xùn)練,以得到狀態(tài)層聚類的隱馬爾可夫模型,其中,聚類后的狀態(tài)為基狀態(tài); 52:根據(jù)所述狀態(tài)層聚類的隱馬爾可夫模型對說話人識別中的數(shù)據(jù)進行解碼,以得到數(shù)據(jù)的基狀態(tài)標注; 53:根據(jù)所述數(shù)據(jù)的基狀態(tài)的標注訓(xùn)練基狀態(tài)的通用背景模型,并從MAP自適應(yīng)后的模型生成基狀態(tài)均值超矢量和基狀態(tài)權(quán)值超矢量; 54:根據(jù)所述基狀態(tài)均值超矢量和基狀態(tài)權(quán)值超矢量進行說話人模型訓(xùn)練和測試,從而估計所述短語音說話人的身份。
2.如權(quán)利要求1所述的基于基狀態(tài)矢量加權(quán)的短語音說話人識別方法,其特征在于,所述步驟SI具體包括: 采集多個帶文本標注的語音數(shù)據(jù); 對所述多個語音數(shù)據(jù)進 行訓(xùn)練得到音素隱馬爾科夫模型;以及 根據(jù)所述音素隱馬爾科夫模型進行狀態(tài)層聚類,以得到所述狀態(tài)層聚類的隱馬爾可夫模型,其中,聚類后的狀態(tài)為基狀態(tài)。
3.如權(quán)利要求1所述的基于基狀態(tài)矢量加權(quán)的短語音說話人識別方法,其特征在于,所述步驟S2進一步包括: 通過解碼算法和所述狀態(tài)層聚類的隱馬爾科夫模型對所有說話人識別中的數(shù)據(jù)進行解碼,以得到所述數(shù)據(jù)的基狀態(tài)標注。
4.如權(quán)利要求1所述的基于基狀態(tài)矢量加權(quán)的短語音說話人識別方法,其特征在于,所述步驟S4進一步包括: 根據(jù)所述基狀態(tài)均值超矢量和基狀態(tài)權(quán)值超矢量訓(xùn)練說話人模型和測試,得到說話人識別的分數(shù);以及 根據(jù)所述說話人識別的分數(shù)估計說話人的身份。
5.如權(quán)利要求3所述的基于基狀態(tài)矢量加權(quán)的短語音說話人識別方法,其特征在于,所述基狀態(tài)模型包括13個基狀態(tài)模型。
6.如權(quán)利要求1所述的基于基狀態(tài)矢量加權(quán)的短語音說話人識別方法,其特征在于,所述基狀態(tài)均值超矢量通過如下公式得到,所述公式為, Msi = V , //= [/./::' ];, 其中,//'S,為第Si個基狀態(tài)高斯混合模型中的混合分量和方差加權(quán)后的均值矢量,Wi為第Si個基狀態(tài)高斯混合模型中的混合分量權(quán)重矢量,Σ i為第Si個基狀態(tài)高斯混合模型中的混合分量的方差矩陣P力第Si個基狀態(tài)高斯混合模型均值矢量,μ為所有基狀態(tài)矢量拼接后生成的最終的基狀態(tài)矢量,T是對矢量進行轉(zhuǎn)置運算。
7.如權(quán)利要求1所述的基于基狀態(tài)矢量加權(quán)的短語音說話人識別方法,其特征在于,所述基狀態(tài)權(quán)值超矢量通過如下公式得到,所述公式為, 義=[< Γ,其中,2為第Si個基狀態(tài)生成的權(quán)值矢量,λ為所有基狀態(tài)權(quán)值順序拼接后生成的最終的權(quán)值矢量 。
全文摘要
本發(fā)明提出一種基于基狀態(tài)矢量加權(quán)的短語音說話人識別方法,包括以下步驟采集多個帶文本標注的語音數(shù)據(jù),并對多個語音數(shù)據(jù)進行訓(xùn)練得到狀態(tài)層聚類的隱馬爾可夫模型;根據(jù)狀態(tài)層聚類的隱馬爾可夫模型對說話人識別中的數(shù)據(jù)進行解碼得到數(shù)據(jù)的基狀態(tài)標注;根據(jù)數(shù)據(jù)的基狀態(tài)的標注訓(xùn)練基狀態(tài)的通用背景模型,并從MAP自適應(yīng)后的模型生成基狀態(tài)均值超矢量和基狀態(tài)權(quán)值超矢量;根據(jù)基狀態(tài)均值超矢量和基狀態(tài)權(quán)值超矢量進行說話人模型訓(xùn)練和測試估計短語音說話人的身份。根據(jù)本發(fā)明實施例的方法,可以實現(xiàn)基狀態(tài)層的精細建模,并通過有效的加權(quán),克服傳統(tǒng)方法易導(dǎo)致的“模型空洞”的問題,從而有效降低了建模的自由度,同時可以提高了說話人識別的性能。
文檔編號G10L17/16GK103219008SQ201310182450
公開日2013年7月24日 申請日期2013年5月16日 優(yōu)先權(quán)日2013年5月16日
發(fā)明者栗志意, 張衛(wèi)強, 劉巍巍, 劉加 申請人:清華大學(xué)