本發(fā)明涉及聲紋識別技術(shù)領(lǐng)域,尤其涉及一種通用背景模型UBM分字模型的建立方法、基于該UBM分字模型的聲紋特征生成方法以及裝置。
背景技術(shù):
隨著聲紋識別技術(shù)的快速發(fā)展,聲紋識別已經(jīng)逐漸被應(yīng)用到各種各樣的應(yīng)用場景中。例如,通過聲紋識別來進行登錄認證,具體地,注冊時認證系統(tǒng)會給用戶提供一定長度的字符串,通過獲取用戶朗誦該字符串以提取該用戶的注冊聲紋特征并完成注冊;在用戶進行登錄時,認證系統(tǒng)會再次給用戶提供該字符串,用戶通過朗誦該字符串以完成登錄,在登錄的過程中,通過獲取用戶朗誦該字符串以提取該用戶的登錄聲紋特征,并對該登錄聲紋特征與注冊聲紋特征進行匹配以判斷對該用戶進行身份驗證,若登錄聲紋特征與注冊聲紋特征匹配,則可確定該用戶身份驗證通過,以完成用戶的登錄認證。
但是,目前存在的問題是,在用戶進行語音注冊時,該用戶的通用背景模型UBM主要是通過該用戶朗誦的整段語音而建立的,使得在聲紋特征提取階段,通過通用背景模型UBM所提取到的聲紋特征是該整段語音所對應(yīng)的聲紋,而在UBM模型建立的過程中,如果用戶使用過程中有大量的噪聲或者停頓,則通過上述聲紋特征提取方式所提取到的聲紋會大大影響準確性,明顯降低聲紋系統(tǒng)的性能,而在聲紋認證場景下,也會大大降低認證的精確度。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的旨在至少在一定程度上解決上述的技術(shù)問題之一。
為此,本發(fā)明的第一個目的在于提出一種通用背景模型UBM分字模型的建立方法。該方法分別為每個字符單獨建立一個對應(yīng)的UBM分字模型以及聲紋特征提取器,可以獲得更加精確的Baum-Welch統(tǒng)計量,進而可以得到精確的聲紋模型,使得在聲紋提取階段,通過該UBM分字模型以及聲紋特征提取器可以大大提高聲紋特征的提取準確性,提高了聲紋系統(tǒng)的性能。
本發(fā)明的第二個目的在于提出一種基于UBM分字模型的聲紋特征生成方法。
本發(fā)明的第三個目的在于提出一種通用背景模型UBM分字模型的建立裝置。
本發(fā)明的第四個目的在于提出一種基于UBM分字模型的聲紋特征生成裝置。
為達上述目的,本發(fā)明第一方面實施例的通用背景模型UBM分字模型的建立方法,包括:提取訓(xùn)練語音的聲學(xué)特征,并對所述訓(xùn)練語音進行語音識別以獲取所述訓(xùn)練語音中的各個字符;從所述訓(xùn)練語音的聲學(xué)特征中確定所述各個字符的聲學(xué)特征;針對每個字符,分別對所述每個字符的聲學(xué)特征進行訓(xùn)練以建立對應(yīng)的UBM分字模型;針對所述每個字符,分別根據(jù)所述每個字符的聲學(xué)特征以及對應(yīng)的UBM分字模型生成對應(yīng)的聲紋特征提取器。
本發(fā)明實施例的通用背景模型UBM分字模型的建立方法,可先提取訓(xùn)練語音的聲學(xué)特征,并對訓(xùn)練語音進行語音識別以獲取訓(xùn)練語音中的各個字符,之后,可從訓(xùn)練語音的聲學(xué)特征中確定各個字符的聲學(xué)特征,并針對每個字符,分別對每個字符的聲學(xué)特征進行訓(xùn)練以建立對應(yīng)的UBM分字模型,最后,針對每個字符,分別根據(jù)每個字符的聲學(xué)特征以及對應(yīng)的UBM分字模型生成對應(yīng)的聲紋特征提取器。即針對訓(xùn)練語音,分別為每個字符單獨建立一個對應(yīng)的UBM分字模型以及聲紋特征提取器,可以獲得更加精確的Baum-Welch統(tǒng)計量,進而可以得到精確的聲紋模型,使得在聲紋提取階段,通過該UBM分字模型以及聲紋特征提取器可以大大提高聲紋特征的提取準確性,提高了聲紋系統(tǒng)的性能,并且在聲紋登錄認證時,通過對應(yīng)的UBM模型以及聲紋特征提取器同時對每個字符進行聲紋特征提取,減少了時間消耗,從而改善了用戶使用聲紋登錄服務(wù)的體驗。
為達上述目的,本發(fā)明第二方面實施例的基于本發(fā)明第一方面實施例所述的UBM分字模型的聲紋特征生成方法,包括:提取測試語音的聲學(xué)特征,并對所述測試語音進行語音識別以獲取所述測試語音中的各個字符;從所述測試語音的聲學(xué)特征中確定所述各個字符的聲學(xué)特征;針對每個字符,分別將所述每個字符的聲學(xué)特征在所述對應(yīng)的UBM分字模型中計算后驗概率,以得到所述每個字符的Baum-Welch統(tǒng)計量;根據(jù)所述每個字符的Baum-Welch統(tǒng)計量以及所述對應(yīng)的聲紋特征提取器生成所述每個字符的聲紋特征。
本發(fā)明實施例的基于UBM分字模型的聲紋特征生成方法,可先提取測試語音的聲學(xué)特征,并對測試語音進行語音識別以獲取測試語音中的各個字符,之后可從測試語音的聲學(xué)特征中確定各個字符的聲學(xué)特征,然后,針對每個字符,分別將每個字符的聲學(xué)特征在對應(yīng)的UBM分字模型中計算后驗概率,以得到每個字符的Baum-Welch統(tǒng)計量,并根據(jù)每個字符的Baum-Welch統(tǒng)計量以及對應(yīng)的聲紋特征提取器生成每個字符的聲紋特征。即通過每個字符的UBM分字模型以及聲紋特征提取器來對測試語音進行聲紋特征的提取,大大提高了聲紋特征的提取準確性,提高了聲紋系統(tǒng)的性能,并提高了聲紋密碼作為認證手段的可用性,并且在聲紋登錄認證時,通過對應(yīng)的UBM模型以及聲紋特征提取器同時對每個字符進行聲紋特征提取,減少了時間消耗,從而改善了用戶使用聲紋登錄服務(wù)的體驗。
為達上述目的,本發(fā)明第三方面實施例的通用背景模型UBM分字模型的建立裝置,包括:提取模塊,用于提取訓(xùn)練語音的聲學(xué)特征;語音識別模塊,用于對所述訓(xùn)練語音進行語音識別以獲取所述訓(xùn)練語音中的各個字符;確定模塊,用于從所述訓(xùn)練語音的聲學(xué)特征中確定所述各個字符的聲學(xué)特征;建立模塊,用于針對每個字符,分別對所述每個字符的聲學(xué)特征進行訓(xùn)練以建立對應(yīng)的UBM分字模型;生成模塊,用于針對所述每個字符,分別根據(jù)所述每個字符的聲學(xué)特征以及對應(yīng)的UBM分字模型生成對應(yīng)的聲紋特征提取器。
本發(fā)明實施例的通用背景模型UBM分字模型的建立裝置,可通過提取模塊提取訓(xùn)練語音的聲學(xué)特征,語音識別模塊對訓(xùn)練語音進行語音識別以獲取訓(xùn)練語音中的各個字符,確定模塊可從訓(xùn)練語音的聲學(xué)特征中確定各個字符的聲學(xué)特征,建立模塊針對每個字符,分別對每個字符的聲學(xué)特征進行訓(xùn)練以建立對應(yīng)的UBM分字模型,生成模塊針對每個字符,分別根據(jù)每個字符的聲學(xué)特征以及對應(yīng)的UBM分字模型生成對應(yīng)的聲紋特征提取器。即針對訓(xùn)練語音,分別為每個字符單獨建立一個對應(yīng)的UBM分字模型以及聲紋特征提取器,可以獲得更加精確的Baum-Welch統(tǒng)計量,進而可以得到精確的聲紋模型,使得在聲紋提取階段,通過該UBM分字模型以及聲紋特征提取器可以大大提高聲紋特征的提取準確性,提高了聲紋系統(tǒng)的性能,并且在聲紋登錄認證時,通過對應(yīng)的UBM模型以及聲紋特征提取器同時對每個字符進行聲紋特征提取,減少了時間消耗,從而改善了用戶使用聲紋登錄服務(wù)的體驗。
為達上述目的,本發(fā)明第四方面實施例的基于本發(fā)明第三方面實施例所述的UBM分字模型的聲紋特征生成裝置,包括:提取模塊,用于提取測試語音的聲學(xué)特征;語音識別模塊,用于對所述測試語音進行語音識別以獲取所述測試語音中的各個字符;確定模塊,用于從所述測試語音的聲學(xué)特征中確定所述各個字符的聲學(xué)特征;獲取模塊,用于針對每個字符,分別將所述每個字符的聲學(xué)特征在所述對應(yīng)的UBM分字模型中計算后驗概率,以得到所述每個字符的Baum-Welch統(tǒng)計量;第一生成模塊,用于根據(jù)所述每個字符的Baum-Welch統(tǒng)計量以及所述對應(yīng)的聲紋特征提取器生成所述每個字符的聲紋特征。
本發(fā)明實施例的基于UBM分字模型的聲紋特征生成裝置,可通過提取模塊提取測試語音的聲學(xué)特征,語音識別模塊對測試語音進行語音識別以獲取測試語音中的各個字符,確定模塊從測試語音的聲學(xué)特征中確定各個字符的聲學(xué)特征,獲取模塊針對每個字符,分別將每個字符的聲學(xué)特征在對應(yīng)的UBM分字模型中計算后驗概率,以得到每個字符的Baum-Welch統(tǒng)計量,第一生成模塊根據(jù)每個字符的Baum-Welch統(tǒng)計量以及對應(yīng)的聲紋特征提取器生成每個字符的聲紋特征。即通過每個字符的UBM分字模型以及聲紋特征提取器來對測試語音進行聲紋特征的提取,大大提高了聲紋特征的提取準確性,提高了聲紋系統(tǒng)的性能,并提高了聲紋密碼作為認證手段的可用性,并且在聲紋登錄認證時,通過對應(yīng)的UBM模型以及聲紋特征提取器同時對每個字符進行聲紋特征提取,減少了時間消耗,從而改善了用戶使用聲紋登錄服務(wù)的體驗。
本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。
附圖說明
本發(fā)明上述的和/或附加的方面和優(yōu)點從下面結(jié)合附圖對實施例的描述中將變得明顯和容易理解,其中,
圖1是根據(jù)本發(fā)明一個實施例的UBM分字模型的建立方法的流程圖;
圖2是根據(jù)本發(fā)明一個實施例的UBM分字模型的建立裝置的結(jié)構(gòu)框圖;
圖3是根據(jù)本發(fā)明一個具體實施例的UBM分字模型的建立裝置的結(jié)構(gòu)框圖;
圖4是根據(jù)本發(fā)明一個實施例的基于UBM分字模型的聲紋特征生成方法的流程圖;
圖5是根據(jù)本發(fā)明一個實施例的基于UBM分字模型的聲紋特征生成方法的示例圖;
圖6是根據(jù)本發(fā)明一個實施例的基于UBM分字模型的聲學(xué)特征生成裝置的結(jié)構(gòu)框圖;
圖7是根據(jù)本發(fā)明一個具體實施例的基于UBM分字模型的聲學(xué)特征生成裝置的結(jié)構(gòu)框圖。
具體實施方式
下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
可以理解,在聲紋認證方法中,由于用戶在注冊和登錄過程中所處的環(huán)境、場景和習(xí)慣等不同,所以導(dǎo)致注冊和登錄時字符串(如數(shù)字串)的長短的不同。但是發(fā)明人通過研究而發(fā)現(xiàn):如果使用分字模型來對用戶使用過程中每個字符串單獨建模,可以使得聲紋匹配的性能有明顯的提升。為此,本發(fā)明提供了一種UBM(Universal Background Model)分字模型的建立方法、以及基于該BM分字模型的聲紋特征生成方法以及裝置。具體地,下面參考附圖描述根據(jù)本發(fā)明實施例的通用背景模型UBM分字模型的建立方法、基于UBM分字模型的聲紋特征生成方法以及裝置。
圖1是根據(jù)本發(fā)明一個實施例的UBM分字模型的建立方法的流程圖。如圖1所示,該UBM分字模型的建立方法可以包括:
S110,提取訓(xùn)練語音的聲學(xué)特征,并對訓(xùn)練語音進行語音識別以獲取訓(xùn)練語音中的各個字符。其中,在本發(fā)明的實施例中,該聲學(xué)特征可為但不限于MFCC(Mel Frequency Cepstrum Coefficient,梅爾頻率倒譜系數(shù))特征。
具體而言,在本發(fā)明的實施例中,可先獲取訓(xùn)練語音,并對該訓(xùn)練語音進行聲學(xué)特征的提取,之后,可通過語音識別技術(shù)對訓(xùn)練語音進行分幀處理以獲取多個語音幀,并對這些多個語音幀進行幀對齊以獲取每個語音幀對應(yīng)的字符。其中,在本發(fā)明的實施例中,該訓(xùn)練語音可以是一個或多個語句所對應(yīng)的語音。
更具體地,在提取出訓(xùn)練語音中每句話的聲學(xué)特征(例如MFCC特征)之后,可通過語音識別技術(shù)對該訓(xùn)練語音進行分幀處理以得到多個語音幀,并對這些語音幀進行幀對齊,得到每一個語音幀對應(yīng)的具體字符,以完成每個幀的語音識別。其中,在本發(fā)明的實施例中,該字符可包括但不限于數(shù)字、字母、漢字、特殊字符(如!@#$%^&*()等)、圖片等。
S120,從訓(xùn)練語音的聲學(xué)特征中確定各個字符的聲學(xué)特征。
具體地,從上述得到的訓(xùn)練語音的聲學(xué)特征中確定每個字符的聲學(xué)特征。作為一種示例,可通過字符標簽從該訓(xùn)練語音的聲學(xué)特征中確定每個語音幀所對應(yīng)的聲學(xué)特征。
S130,針對每個字符,分別對每個字符的聲學(xué)特征進行訓(xùn)練以建立對應(yīng)的UBM分字模型。
具體而言,在本發(fā)明的實施例中,對屬于同一個字符標簽的所有語音幀的聲學(xué)特征進行訓(xùn)練以建立對應(yīng)的GMM模型(Gaussian Mixture Model,高斯混合模型),并將對應(yīng)的GMM模型作為屬于同一個字符標簽所對應(yīng)的字符的UBM分字模型。
更具體地,可先確定屬于同一個字符標簽的語音幀,之后,可對屬于同一個字符標簽的所有語音幀的聲學(xué)特征進行訓(xùn)練以得到對應(yīng)的GMM模型,并將該對應(yīng)的GMM模型作為該屬于同一個字符標簽的所有語音幀所對應(yīng)的字符的UBM分字模型,以實現(xiàn)針對每一個字符建立一個對應(yīng)的UBM模型。
S140,針對每個字符,分別根據(jù)每個字符的聲學(xué)特征以及對應(yīng)的UBM分字模型生成對應(yīng)的聲紋特征提取器。其中,在本發(fā)明的實施例中,該聲紋特征提取器可為ivector提取器。
具體而言,在本發(fā)明的實施例中,可先將屬于同一個字符標簽的每個語音幀的聲學(xué)特征在對應(yīng)的UBM分字模型中計算后驗概率,以得到屬于同一個字符標簽所對應(yīng)的字符的Baum-Welch統(tǒng)計量,之后,可根據(jù)Baum-Welch統(tǒng)計量通過聯(lián)合因子分析方法生成同一個字符標簽所對應(yīng)的字符的聲紋特征提取器。其中,該對應(yīng)的UBM分字模型應(yīng)理解為該屬于同一個字符標簽的語音幀所對應(yīng)的字符的UBM模型。
更具體地,可先確定屬于同一個字符標簽的語音幀,之后,可將屬于同一個字符標簽的每一個語音幀的聲學(xué)特征在對應(yīng)的UBM分字模型中計算后驗概率,得到訓(xùn)練語音中每個字符的發(fā)聲的Baum-Welch統(tǒng)計量,然后,根據(jù)該Baum-Welch統(tǒng)計量利用聯(lián)合因子分析的方法以得到該同一個字符標簽所對應(yīng)的字符的聲紋特征提取器,以實現(xiàn)針對每一個字符生成一個對應(yīng)的聲紋特征提取器。
本發(fā)明實施例的UBM分字模型的建立方法,可先提取訓(xùn)練語音的聲學(xué)特征,并對訓(xùn)練語音進行語音識別以獲取訓(xùn)練語音中的各個字符,之后,可從訓(xùn)練語音的聲學(xué)特征中確定各個字符的聲學(xué)特征,并針對每個字符,分別對每個字符的聲學(xué)特征進行訓(xùn)練以建立對應(yīng)的UBM分字模型,最后,針對每個字符,分別根據(jù)每個字符的聲學(xué)特征以及對應(yīng)的UBM分字模型生成對應(yīng)的聲紋特征提取器。即針對訓(xùn)練語音,分別為每個字符單獨建立一個對應(yīng)的UBM分字模型以及聲紋特征提取器,可以獲得更加精確的Baum-Welch統(tǒng)計量,進而可以得到精確的聲紋模型,使得在聲紋提取階段,通過該UBM分字模型以及聲紋特征提取器可以大大提高聲紋特征的提取準確性,提高了聲紋系統(tǒng)的性能,并且在聲紋登錄認證時,通過對應(yīng)的UBM模型以及聲紋特征提取器同時對每個字符進行聲紋特征提取,減少了時間消耗,從而改善了用戶使用聲紋登錄服務(wù)的體驗。
與上述幾種實施例提供的UBM分字模型的建立方法相對應(yīng),本發(fā)明的一種實施例還提供一種UBM分字模型的建立裝置,由于本發(fā)明實施例提供的UBM分字模型的建立裝置與上述幾種實施例提供的UBM分字模型的建立方法相對應(yīng),因此在前述UBM分字模型的建立方法的實施方式也適用于本實施例提供的UBM分字模型的建立裝置,在本實施例中不再詳細描述。圖2是根據(jù)本發(fā)明一個實施例的UBM分字模型的建立裝置的結(jié)構(gòu)框圖。如圖2所示,該UBM分字模型的建立裝置可以包括:提取模塊110、語音識別模塊120、確定模塊130、建立模塊140和生成模塊150。
具體地,提取模塊110可用于提取訓(xùn)練語音的聲學(xué)特征。其中,在本發(fā)明的實施例中,該聲學(xué)特征可為MFCC特征。
語音識別模塊120可用于對訓(xùn)練語音進行語音識別以獲取訓(xùn)練語音中的各個字符。具體而言,在本發(fā)明的實施例中,語音識別模塊120可通過語音識別技術(shù)對訓(xùn)練語音進行分幀處理以獲取多個語音幀,并對多個語音幀進行幀對齊以獲取每個語音幀對應(yīng)的字符。
確定模塊130可用于從訓(xùn)練語音的聲學(xué)特征中確定各個字符的聲學(xué)特征。
建立模塊140可用于針對每個字符,分別對每個字符的聲學(xué)特征進行訓(xùn)練以建立對應(yīng)的UBM分字模型。具體而言,在本發(fā)明的實施例中,建立模塊140可對屬于同一個字符標簽的所有語音幀的聲學(xué)特征進行訓(xùn)練以建立對應(yīng)的GMM模型,并將對應(yīng)的GMM模型作為屬于同一個字符標簽所對應(yīng)的字符的UBM分字模型。
生成模塊150可用于針對每個字符,分別根據(jù)每個字符的聲學(xué)特征以及對應(yīng)的UBM分字模型生成對應(yīng)的聲紋特征提取器。其中,在本發(fā)明的實施例中,該聲紋特征提取器可為ivector提取器。
具體而言,在本發(fā)明的一個實施例中,如圖3所示,該生成模塊150可包括:獲取單元151和生成單元152。其中,獲取單元151可用于將屬于同一個字符標簽的每個語音幀的聲學(xué)特征在對應(yīng)的UBM分字模型中計算后驗概率,以得到屬于同一個字符標簽所對應(yīng)的字符的Baum-Welch統(tǒng)計量。生成單元152可用于根據(jù)Baum-Welch統(tǒng)計量通過聯(lián)合因子分析方法生成同一個字符標簽所對應(yīng)的字符的聲紋特征提取器。
本發(fā)明實施例的UBM分字模型的建立裝置,可通過提取模塊提取訓(xùn)練語音的聲學(xué)特征,語音識別模塊對訓(xùn)練語音進行語音識別以獲取訓(xùn)練語音中的各個字符,確定模塊可從訓(xùn)練語音的聲學(xué)特征中確定各個字符的聲學(xué)特征,建立模塊針對每個字符,分別對每個字符的聲學(xué)特征進行訓(xùn)練以建立對應(yīng)的UBM分字模型,生成模塊針對每個字符,分別根據(jù)每個字符的聲學(xué)特征以及對應(yīng)的UBM分字模型生成對應(yīng)的聲紋特征提取器。即針對訓(xùn)練語音,分別為每個字符單獨建立一個對應(yīng)的UBM分字模型以及聲紋特征提取器,可以獲得更加精確的Baum-Welch統(tǒng)計量,進而可以得到精確的聲紋模型,使得在聲紋提取階段,通過該UBM分字模型以及聲紋特征提取器可以大大提高聲紋特征的提取準確性,提高了聲紋系統(tǒng)的性能,并且在聲紋登錄認證時,通過對應(yīng)的UBM模型以及聲紋特征提取器同時對每個字符進行聲紋特征提取,減少了時間消耗,從而改善了用戶使用聲紋登錄服務(wù)的體驗。
為了提高聲紋特征提取的精確性,可將通過本發(fā)明實施例的UBM分字模型的建立方法所建立的UBM分字模型應(yīng)用于聲紋特征提取的應(yīng)用場景中,即可基于該UBM分字模型來進行聲紋特征的提取,為此,本發(fā)明還提出了一種基于UBM分字模型的聲紋特征生成方法。具體地,圖4是根據(jù)本發(fā)明一個實施例的基于UBM分字模型的聲紋特征生成方法的流程圖。需要說明的是,在本發(fā)明的實施例中,該UBM分字模型可以是通過本發(fā)明上述任一個實施例所述的UBM分字模型的建立方法所建立的UBM模型。
如圖4所示,該基于UBM分字模型的聲紋特征生成方法可以包括:
S410,提取測試語音的聲學(xué)特征,并對測試語音進行語音識別以獲取測試語音中的各個字符。其中,在本發(fā)明的實施例中,該聲學(xué)特征可為MFCC特征。
具體而言,在本發(fā)明的實施例中,可通過語音識別技術(shù)對測試語音進行分幀處理以獲取多個語音幀,并對多個語音幀進行幀對齊以獲取每個語音幀對應(yīng)的字符。其中,在本發(fā)明的實施例中,該測試語音可以是一個或多個語句所對應(yīng)的語音。
更具體地,可先獲取測試語音,并對該測試語音進行聲學(xué)特征的提取,之后,可通過語音識別技術(shù)對該測試語音進行分幀處理以得到多個語音幀,并對這些語音幀進行幀對齊,得到每一個語音幀對應(yīng)的具體字符,以完成每個幀的語音識別。其中,在本發(fā)明的實施例中,該字符可包括但不限于數(shù)字、字母、漢字、特殊字符(如!@#$%^&*()等)、圖片等。
S420,從測試語音的聲學(xué)特征中確定各個字符的聲學(xué)特征。
具體地,從上述得到的測試語音的聲學(xué)特征中確定每個字符的聲學(xué)特征。作為一種示例,可通過字符標簽從該測試語音的聲學(xué)特征中確定每個語音幀所對應(yīng)的聲學(xué)特征。
S430,針對每個字符,分別將每個字符的聲學(xué)特征在對應(yīng)的UBM分字模型中計算后驗概率,以得到每個字符的Baum-Welch統(tǒng)計量。
具體而言,在本發(fā)明的實施例中,可將屬于同一個字符標簽的所有語音幀的聲學(xué)特征在對應(yīng)的UBM分字模型中計算后驗概率,以得到每個字符的Baum-Welch統(tǒng)計量。其中,該對應(yīng)的UBM分字模型應(yīng)理解為該屬于同一個字符標簽的語音幀所對應(yīng)的字符的UBM模型。
更具體地,可先確定屬于同一個字符標簽的語音幀,之后,可將屬于同一個字符標簽的所有語音幀的聲學(xué)特征在該對應(yīng)的UBM分字模型中計算后驗概率,得到測試語音中每個字符的發(fā)聲的Baum-Welch統(tǒng)計量。
S440,根據(jù)每個字符的Baum-Welch統(tǒng)計量以及對應(yīng)的聲紋特征提取器生成每個字符的聲紋特征。其中,在本發(fā)明的實施例中,該聲紋特征可為ivector。
具體地,在得到每個字符的發(fā)聲的Baum-Welch統(tǒng)計量之后,可根據(jù)該Baum-Welch統(tǒng)計量并結(jié)合該每個字符對應(yīng)的聲紋特征提取器以得到每個字符的聲紋特征。
為了提高可用性,進一步地,在本發(fā)明的一個實施例中,該聲紋特征生成方法還可包括:按照預(yù)設(shè)規(guī)律將每個字符的聲紋特征進行拼接以生成測試語音的聲紋特征。具體地,可將該測試語音中所有字符的聲紋特征按照一定的順序拼接在一起,以作為該測試語音的聲紋特征。其中,該預(yù)設(shè)規(guī)律可理解是根據(jù)字符的類型的不同而設(shè)定不同的規(guī)律,例如,以該字符為數(shù)字為例,該預(yù)設(shè)規(guī)律可以是按照數(shù)字從小到大的順序。
舉例而言,以測試語音中的字符為數(shù)字、聲紋特征為ivector為例,如圖5所示,可提取測試語音的聲學(xué)特征(如MFCC特征),并通過語音識別技術(shù)對測試語音進行幀對齊,得到每一幀對應(yīng)的具體數(shù)字,之后,從測試語音的聲學(xué)特征中確定各個數(shù)字的聲學(xué)特征(如MFCC特征)。然后,針對每個數(shù)字,將同一個數(shù)字標簽的所有幀的聲學(xué)特征在對應(yīng)的UBM分字模型中計算后驗概率,以得到每個數(shù)字的Baum-Welch統(tǒng)計量。之后,針對每個數(shù)字,根據(jù)Baum-Welch統(tǒng)計量通過每個數(shù)字對應(yīng)的ivector提取器生成每個數(shù)字的ivector。最后,按照數(shù)字從小到大的順序?qū)⑺袛?shù)字的ivector拼接在一起,以得到該測試語音的ivector,如圖5所示的M={m1,m2,…,mN}即為測試語音的ivector。
本發(fā)明實施例的基于UBM分字模型的聲學(xué)特征生成方法,可先提取測試語音的聲學(xué)特征,并對測試語音進行語音識別以獲取測試語音中的各個字符,之后可從測試語音的聲學(xué)特征中確定各個字符的聲學(xué)特征,然后,針對每個字符,分別將每個字符的聲學(xué)特征在對應(yīng)的UBM分字模型中計算后驗概率,以得到每個字符的Baum-Welch統(tǒng)計量,并根據(jù)每個字符的Baum-Welch統(tǒng)計量以及對應(yīng)的聲紋特征提取器生成每個字符的聲紋特征。即通過每個字符的UBM分字模型以及聲紋特征提取器來對測試語音進行聲紋特征的提取,大大提高了聲紋特征的提取準確性,提高了聲紋系統(tǒng)的性能,并提高了聲紋密碼作為認證手段的可用性,并且在聲紋登錄認證時,通過對應(yīng)的UBM模型以及聲紋特征提取器同時對每個字符進行聲紋特征提取,減少了時間消耗,從而改善了用戶使用聲紋登錄服務(wù)的體驗。
與上述幾種實施例提供的基于UBM分字模型的聲紋特征生成方法相對應(yīng),本發(fā)明的一種實施例還提供一種基于UBM分字模型的聲紋特征生成裝置,由于本發(fā)明實施例提供的基于UBM分字模型的聲紋特征生成裝置與上述幾種實施例提供的基于UBM分字模型的聲紋特征生成方法相對應(yīng),因此在前述基于UBM分字模型的聲紋特征生成方法的實施方式也適用于本實施例提供的基于UBM分字模型的聲紋特征生成裝置,在本實施例中不再詳細描述。圖6是根據(jù)本發(fā)明一個實施例的基于UBM分字模型的聲學(xué)特征生成裝置的結(jié)構(gòu)框圖。需要說明的是,在本發(fā)明的實施例中,該UBM分字模型可以是通過本發(fā)明上述任一個實施例所述的UBM分字模型的建立裝置所建立的UBM模型。
如圖6所示,該基于UBM分字模型的聲學(xué)特征生成裝置可以包括:提取模塊210、語音識別模塊220、確定模塊230、獲取模塊240和第一生成模塊250。
具體地,提取模塊210可用于提取測試語音的聲學(xué)特征。其中,在本發(fā)明的實施例中,該聲學(xué)特征可為MFCC特征。
語音識別模塊220可用于對測試語音進行語音識別以獲取測試語音中的各個字符。具體而言,在本發(fā)明的實施例中,語音識別模塊220通過語音識別技術(shù)對測試語音進行分幀處理以獲取多個語音幀,并對多個語音幀進行幀對齊以獲取每個語音幀對應(yīng)的字符。
確定模塊230可用于從測試語音的聲學(xué)特征中確定各個字符的聲學(xué)特征。
獲取模塊240可用于針對每個字符,分別將每個字符的聲學(xué)特征在對應(yīng)的UBM分字模型中計算后驗概率,以得到每個字符的Baum-Welch統(tǒng)計量。具體而言,在本發(fā)明的實施例中,獲取模塊240可將屬于同一個字符標簽的所有語音幀的聲學(xué)特征在對應(yīng)的UBM分字模型中計算后驗概率,以得到每個字符的Baum-Welch統(tǒng)計量。
第一生成模塊250可用于根據(jù)每個字符的Baum-Welch統(tǒng)計量以及對應(yīng)的聲紋特征提取器生成每個字符的聲紋特征。其中,在本發(fā)明的實施例中,該聲紋特征可為ivector。
為了提高可用性,進一步地,在本發(fā)明的一個實施例中,如圖7所示,該聲紋特征生成裝置還可包括:第二生成模塊260。其中,第二生成模塊260可用于按照預(yù)設(shè)規(guī)律將每個字符的聲紋特征進行拼接以生成測試語音的聲紋特征。其中,該預(yù)設(shè)規(guī)律可理解是根據(jù)字符的類型的不同而設(shè)定不同的規(guī)律,例如,以該字符為數(shù)字為例,該預(yù)設(shè)規(guī)律可以是按照數(shù)字從小到大的順序。
本發(fā)明實施例的基于UBM分字模型的聲紋特征生成裝置,可通過提取模塊提取測試語音的聲學(xué)特征,語音識別模塊對測試語音進行語音識別以獲取測試語音中的各個字符,確定模塊從測試語音的聲學(xué)特征中確定各個字符的聲學(xué)特征,獲取模塊針對每個字符,分別將每個字符的聲學(xué)特征在對應(yīng)的UBM分字模型中計算后驗概率,以得到每個字符的Baum-Welch統(tǒng)計量,第一生成模塊根據(jù)每個字符的Baum-Welch統(tǒng)計量以及對應(yīng)的聲紋特征提取器生成每個字符的聲紋特征。即通過每個字符的UBM分字模型以及聲紋特征提取器來對測試語音進行聲紋特征的提取,大大提高了聲紋特征的提取準確性,提高了聲紋系統(tǒng)的性能,并提高了聲紋密碼作為認證手段的可用性,并且在聲紋登錄認證時,通過對應(yīng)的UBM模型以及聲紋特征提取器同時對每個字符進行聲紋特征提取,減少了時間消耗,從而改善了用戶使用聲紋登錄服務(wù)的體驗。
需要說明的是,本發(fā)明實施例的基于UBM分字模型的聲紋特征生成方法可應(yīng)用于聲紋認證系統(tǒng)中,例如,在聲紋注冊和登錄階段,可通過本發(fā)明實施例的基于UBM分字模型的聲紋特征生成方法來提取用戶朗誦的語音的注冊聲紋和登錄聲紋,由此,通過單個字符對應(yīng)的UBM模型對語音進行聲紋提取,可以有效地去除語音中的噪聲或者停頓,大大提升了聲紋匹配的性能,提高聲紋認證的準確性。
在本發(fā)明的描述中,需要理解的是,術(shù)語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性或者隱含指明所指示的技術(shù)特征的數(shù)量。由此,限定有“第一”、“第二”的特征可以明示或者隱含地包括至少一個該特征。在本發(fā)明的描述中,“多個”的含義是至少兩個,例如兩個,三個等,除非另有明確具體的限定。
在本說明書的描述中,參考術(shù)語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實施例或示例描述的具體特征或者特點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不必須針對的是相同的實施例或示例。而且,描述的具體特征或者特點可以在任一個或多個實施例或示例中以合適的方式結(jié)合。此外,在不相互矛盾的情況下,本領(lǐng)域的技術(shù)人員可以將本說明書中描述的不同實施例或示例以及不同實施例或示例的特征進行結(jié)合和組合。
流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括一個或更多個用于實現(xiàn)特定邏輯功能或過程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本發(fā)明的優(yōu)選實施方式的范圍包括另外的實現(xiàn),其中可以不按所示出或討論的順序,包括根據(jù)所涉及的功能按基本同時的方式或按相反的順序,來執(zhí)行功能,這應(yīng)被本發(fā)明的實施例所屬技術(shù)領(lǐng)域的技術(shù)人員所理解。
在流程圖中表示或在此以其他方式描述的邏輯和/或步驟,例如,可以被認為是用于實現(xiàn)邏輯功能的可執(zhí)行指令的定序列表,可以具體實現(xiàn)在任何計算機可讀介質(zhì)中,以供指令執(zhí)行系統(tǒng)、裝置或設(shè)備(如基于計算機的系統(tǒng)、包括處理器的系統(tǒng)或其他可以從指令執(zhí)行系統(tǒng)、裝置或設(shè)備取指令并執(zhí)行指令的系統(tǒng))使用,或結(jié)合這些指令執(zhí)行系統(tǒng)、裝置或設(shè)備而使用。就本說明書而言,"計算機可讀介質(zhì)"可以是任何可以包含、存儲、通信、傳播或傳輸程序以供指令執(zhí)行系統(tǒng)、裝置或設(shè)備或結(jié)合這些指令執(zhí)行系統(tǒng)、裝置或設(shè)備而使用的裝置。計算機可讀介質(zhì)的更具體的示例(非窮盡性列表)包括以下:具有一個或多個布線的電連接部(電子裝置),便攜式計算機盤盒(磁裝置),隨機存取存儲器(RAM),只讀存儲器(ROM),可擦除可編輯只讀存儲器(EPROM或閃速存儲器),光纖裝置,以及便攜式光盤只讀存儲器(CDROM)。另外,計算機可讀介質(zhì)甚至可以是可在其上打印所述程序的紙或其他合適的介質(zhì),因為可以例如通過對紙或其他介質(zhì)進行光學(xué)掃描,接著進行編輯、解譯或必要時以其他合適方式進行處理來以電子方式獲得所述程序,然后將其存儲在計算機存儲器中。
應(yīng)當理解,本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來實現(xiàn)。在上述實施方式中,多個步驟或方法可以用存儲在存儲器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來實現(xiàn)。例如,如果用硬件來實現(xiàn),和在另一實施方式中一樣,可用本領(lǐng)域公知的下列技術(shù)中的任一項或他們的組合來實現(xiàn):具有用于對數(shù)據(jù)信號實現(xiàn)邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(PGA),現(xiàn)場可編程門陣列(FPGA)等。
本技術(shù)領(lǐng)域的普通技術(shù)人員可以理解實現(xiàn)上述實施例方法攜帶的全部或部分步驟是可以通過程序來指令相關(guān)的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介質(zhì)中,該程序在執(zhí)行時,包括方法實施例的步驟之一或其組合。
此外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理模塊中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個模塊中。上述集成的模塊既可以采用硬件的形式實現(xiàn),也可以采用軟件功能模塊的形式實現(xiàn)。所述集成的模塊如果以軟件功能模塊的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,也可以存儲在一個計算機可讀取存儲介質(zhì)中。
上述提到的存儲介質(zhì)可以是只讀存儲器,磁盤或光盤等。盡管上面已經(jīng)示出和描述了本發(fā)明的實施例,可以理解的是,上述實施例是示例性的,不能理解為對本發(fā)明的限制,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的范圍內(nèi)可以對上述實施例進行變化、修改、替換和變型。