本發(fā)明涉及語音處理領(lǐng)域,特別涉及一種應(yīng)用于說話人識別的噪聲消除方法。
背景技術(shù):
隨著現(xiàn)代社會信息的全球化,說話人識別成為語音識別技術(shù)研究熱點之一。隨著互聯(lián)網(wǎng)的普及,網(wǎng)上用戶登錄、網(wǎng)上支付等也面臨著一定的風(fēng)險,聲紋密碼可以在原有密碼基礎(chǔ)上增加賬戶的安全性。聲紋識別即說話人識別系統(tǒng),目前在實驗環(huán)境下達(dá)到了很高的識別效果,但在實際應(yīng)用中卻表現(xiàn)不佳。導(dǎo)致這一結(jié)果的原因主要是由于實際應(yīng)用中噪聲對語音的影響,這里的噪聲主要包括環(huán)境噪聲和信道噪聲。當(dāng)前,如何提高噪聲條件下的聲紋識別效果,已經(jīng)成為了該領(lǐng)域的研究重點。
在參考文獻(xiàn)[1](Sadjadi S O,Hasan T,Hansen J H L.Mean Hilbert Envelope Coefficients(MHEC)for Robust Speaker Recognition[C]//INTERSPEECH.2012)、參考文獻(xiàn)[2](Shao Y,Wang D L.Robust speaker identification using auditory features and computational auditory scene analysis[C]//Acoustics,Speech and Signal Processing,2008.ICASSP 2008.IEEE International Conference on.IEEE,2008:1589-1592)和參考文獻(xiàn)[3](Li Q,Huang Y.Robust speaker identification using an auditory-based feature[C]//Acoustics Speech and Signal Processing(ICASSP),2010IEEE International Conference on.IEEE,2010:4514-4517)中,作者嘗試使用對噪聲不敏感的特征來提高系統(tǒng)對噪聲環(huán)境的魯棒性。但這些特征主要試圖提高特征的整體魯棒性,沒有對特定噪聲進(jìn)行針對性優(yōu)化。
在參考文獻(xiàn)[4](J.Pelecanos and S.Sridharan,“Feature warping for robust speaker verification,”in Proc.Odyssey:The Speaker and Language Recognition Workshop,Crete,Greece,Jun.2001,pp.213–218)中,作者通過一定的特征變換來提高特征對噪聲的魯棒性,但是該方法的實時計算量太大。在參考文獻(xiàn)[5](Man-Wai M A K.SNR-Dependent Mixture of PLDA for Noise Robust Speaker Verification[J].in Interspeech.2014,pp.1855-1899)中,作者通過在訓(xùn)練數(shù)據(jù)中添加噪聲來提高系統(tǒng)對噪聲的魯棒性。該方法對于已經(jīng)在線應(yīng)用的系統(tǒng)需要更換系統(tǒng)背景模型,且對于不同的應(yīng)用場景需要重新訓(xùn)練背景模型,對于系統(tǒng)在實際應(yīng)用中的部署帶來很大不便。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于克服已有的噪聲消除方法所存在的缺陷,從而提供一種在特征層消除噪聲的方法
為了實現(xiàn)上述目的,本發(fā)明提供了一種應(yīng)用于說話人識別的噪聲消除方法,包括:利用加噪后語音的聲學(xué)譜特征時域上相鄰的多幀特征來消除特征中噪聲的影響。
上述技術(shù)方案中,該方法包括以下步驟:
步驟1)、判斷測試集中的語音數(shù)據(jù)所包含的噪聲類型,對所含噪聲類型中的任意一種噪聲類型,在較寬的信噪比范圍內(nèi)取若干個有代表性的信噪比,作為與該噪聲類型相對應(yīng)的信噪比;其中,所述測試集包括了用于做說話人識別的語音數(shù)據(jù);
步驟2)、采用多個不含噪聲的訓(xùn)練集語音數(shù)據(jù)作為噪聲消除訓(xùn)練數(shù)據(jù),為噪聲消除訓(xùn)練數(shù)據(jù)按照步驟1)取定的若干個信噪比分別進(jìn)行加噪,得到加噪后的噪聲消除訓(xùn)練數(shù)據(jù)組;其中,所述訓(xùn)練集包括來自說話人識別系統(tǒng)中的通用背景模型的語音數(shù)據(jù);
步驟3)、對未加噪前的噪聲消除訓(xùn)練數(shù)據(jù)和步驟2)所得到的加噪后的噪聲消除訓(xùn)練數(shù)據(jù)分別提取聲學(xué)譜特征,得到對應(yīng)的聲學(xué)譜特征組;
步驟4)、根據(jù)步驟3)所得到的未加噪前的噪聲消除訓(xùn)練數(shù)據(jù)的聲學(xué)譜特征組,以及按照某一信噪比加噪后的噪聲消除訓(xùn)練數(shù)據(jù)的聲學(xué)譜特征組,利用梯度下降算法訓(xùn)練該信噪比對應(yīng)的特征鄰近幀補(bǔ)償?shù)哪P蛥?shù);重復(fù)本步驟,直至得到步驟1)中所選擇的所有信噪比所對應(yīng)的特征鄰近幀補(bǔ)償?shù)哪P蛥?shù);
步驟5)、為測試集中的語音提取聲學(xué)譜特征;
步驟6)、為測試集中的每句語音分別做噪聲類型判斷和信噪比估計;
步驟7)、根據(jù)步驟6)所得到的噪聲類型與信噪比估計結(jié)果,從步驟1)中所確定的若干個有代表性的信噪比中尋找最為接近的信噪比,然后從步驟4)所得到的結(jié)果中選取與該最為接近的信噪比相關(guān)的特征鄰近幀補(bǔ)償?shù)哪P蛥?shù);利用該特征鄰近幀補(bǔ)償?shù)哪P蛥?shù)為步驟5)得到的測試集語音的聲學(xué)譜特征進(jìn)行鄰近幀補(bǔ)償,得到恢復(fù)后的特征向量;
步驟8)、利用步驟7)所得到的特征向量做說話人識別。
上述技術(shù)方案中,所述提取聲學(xué)譜特征包括:首先提取通用的美爾倒譜特征,然后求取差分倒譜特征。
上述技術(shù)方案中,所述特征鄰近幀補(bǔ)償?shù)哪P蛥?shù)為Γ矩陣,所述Γ矩陣的表達(dá)式為:
所述步驟4)進(jìn)一步包括:
步驟4-1)、初始化矩陣Γ;
步驟4-2)、對所有訓(xùn)練用的特征,計算
其中,·表示向量內(nèi)積;M表示語音聲學(xué)譜特征的幀數(shù);
步驟4-3)、更新Γ:η為更新系數(shù);
步驟4-4)、重復(fù)步驟4-2)和步驟4-3)直到ε收斂。
上述技術(shù)方案中,在步驟7)中,所述臨近幀補(bǔ)償包括:
其中,為加噪后的噪聲消除訓(xùn)練數(shù)據(jù)的經(jīng)過鄰近幀補(bǔ)償之后的特征,
本發(fā)明的優(yōu)點在于:
1、本發(fā)明的方法實現(xiàn)了在特征層消除噪聲影響;
2、本發(fā)明的方法不需要增加額外的訓(xùn)練數(shù)據(jù);
3、本發(fā)明的方法在系統(tǒng)速度不會大幅降低的情況下可以明顯提高系統(tǒng)在在噪聲環(huán)境下的性能。
附圖說明
圖1是本發(fā)明的噪聲消除方法的流程圖。
具體實施方式
現(xiàn)結(jié)合附圖對本發(fā)明作進(jìn)一步的描述。
本發(fā)明提供一種在特征層消除噪聲的方法,該方法利用加噪后語音的聲學(xué)譜特征時域上相鄰的多幀特征來消除特征中噪聲的影響,從而達(dá)到提高噪聲條件下說話人識別系統(tǒng)的性能。
本發(fā)明的噪聲消除方法涉及到兩種類型的語音數(shù)據(jù)集:測試集、訓(xùn)練集。所述的測試集包括了所有用于做說話人識別的語音數(shù)據(jù),這些語音數(shù)據(jù)需要在本申請中先行消除噪聲;所述的訓(xùn)練集包括了來自說話人識別系統(tǒng)中的通用背景模型的語音數(shù)據(jù),這些語音數(shù)據(jù)是信噪比在25db以上的語音,可以認(rèn)為不含有噪聲。
參考圖1,本發(fā)明的噪聲消除方法包括以下步驟:
步驟1)、判斷測試集中的語音數(shù)據(jù)所包含的噪聲類型,對所含噪聲類型中的任意一種噪聲類型,在較寬的信噪比范圍(如-20dB~25dB)內(nèi)取若干個有代表性的信噪比,作為與該噪聲類型相對應(yīng)的信噪比;
在圖1中,所選取的若干個有代表性的信噪比用SNR_1、SNR_2、…、SNR_N表示。
步驟2)、采用m個不含噪聲的訓(xùn)練集語音數(shù)據(jù)作為噪聲消除訓(xùn)練數(shù)據(jù),為噪聲消除訓(xùn)練數(shù)據(jù)按照步驟1)取定的若干個信噪比分別進(jìn)行加噪,得到加噪后的噪聲消除訓(xùn)練數(shù)據(jù)組;
在圖1中,加噪后的噪聲消除訓(xùn)練數(shù)據(jù)組用W_1、W_2、…、W_N表示,其中W_i(i=1,2,…,N)表示對m個不含噪聲的訓(xùn)練集語音數(shù)據(jù)按照信噪比SNR_i(i=1,2,…,N)加噪后的m個含噪聲的語音。
步驟3)、對未加噪前的噪聲消除訓(xùn)練數(shù)據(jù)(也稱為原始干凈語音)和步驟2)所得到的加噪后的噪聲消除訓(xùn)練數(shù)據(jù)分別提取聲學(xué)譜特征,得到對應(yīng)的聲學(xué)譜特征 組;其中,
所述提取聲學(xué)譜特征包括:首先提取通用的美爾倒譜特征(MFCC),然后求取差分倒譜特征(MFCC-Delta)。聲學(xué)譜特征提取后,訓(xùn)練數(shù)據(jù)的每一幀得到36維特征向量,在圖1中將訓(xùn)練語音數(shù)據(jù)的聲學(xué)譜特征組記為“F_0”、“F_1”、…、“F_N”。其中,F(xiàn)_0表示未加噪的m個原始干凈語音的聲學(xué)譜特征,F(xiàn)_i(i=1,2,…,N)是W_i(i=1,2,…,N)的聲學(xué)譜特征組。
步驟4)、根據(jù)步驟3)所得到的原始干凈語音的聲學(xué)譜特征組F_0和按照信噪比SNR_i(i=1,2,…,N)加噪后語音的聲學(xué)譜特征組F_i(i=1,2,…,N),利用梯度下降算法訓(xùn)練該信噪比SNR_i對應(yīng)的特征鄰近幀補(bǔ)償?shù)哪P蛥?shù)Γ矩陣;重復(fù)本步驟,直至得到步驟1)中所選擇的所有信噪比所對應(yīng)的特征鄰近幀補(bǔ)償?shù)哪P蛥?shù);
在本步驟中,將原始干凈語音數(shù)據(jù)的聲學(xué)譜特征組F_0記為采用信噪比SNR_i加噪后的噪聲消除訓(xùn)練數(shù)據(jù)的聲學(xué)譜特征組F_i記為
對于采用某一信噪比加噪后的噪聲消除訓(xùn)練數(shù)據(jù)的第i幀特征,在本申請中采用與它相鄰的左右各n幀來進(jìn)行補(bǔ)償,補(bǔ)償過程如公式(1)所示:
其中,表示補(bǔ)償后的結(jié)果,i=1,2,...,M,j=1,2,...,D;χj是一個待估計系數(shù),模型矩陣T中的一部分。令
則(1)可以寫成為:
其中,·表示向量內(nèi)積,i=1,2,...,M,j=1,2,...,D。令
則式(2)可進(jìn)一步改寫為:
其中,i=1,2,...,M,j=1,2,...,D;
用T表示矩陣或向量的轉(zhuǎn)置,令
則加噪后的噪聲消除訓(xùn)練數(shù)據(jù)的經(jīng)過鄰近幀補(bǔ)償之后的特征表示為:
其中,
在步驟4)中,D表示特征的維數(shù)。需要學(xué)習(xí)的參數(shù)就是Γ矩陣的元素,鄰近幀補(bǔ)償?shù)哪繕?biāo)是使加噪后的噪聲消除訓(xùn)練數(shù)據(jù)的特征經(jīng)過(4)式恢復(fù)后得到的與干凈語音的特征最接近。所以,選取待優(yōu)化函數(shù)
ε越小,表示恢復(fù)后的特征越接近干凈語音的特征。所以,模型學(xué)習(xí)的過程就是選擇最優(yōu)的Γ矩陣使ε達(dá)到最小。學(xué)習(xí)過程采用如式(6)所示的梯度下降算法:
具體訓(xùn)練過程如下:
步驟4-1)、初始化矩陣Γ;
步驟4-2)、對所有訓(xùn)練用的特征,計算
步驟4-3)、更新Γ:η為更新系數(shù)(一般固定取一個較小的正實數(shù));
步驟4-4)、重復(fù)步驟4-2)和步驟4-3)直到ε收斂。
步驟5)、為測試集中的語音提取聲學(xué)譜特征;
其中,所述提取聲學(xué)譜特征包括:首先提取通用的美爾倒譜特征(MFCC),然后求取差分倒譜特征(MFCC-Delta)。特征提取后,測試數(shù)據(jù)的每一幀得到36維特征向量。
步驟6)、為測試集中的每句語音分別做噪聲類型判斷和信噪比估計;
步驟7)、根據(jù)步驟6)所得到的噪聲類型與信噪比估計結(jié)果,從步驟1)中所確定的若干個有代表性的信噪比中尋找最為接近的信噪比,然后從步驟4)所得到的結(jié)果中選取與該最為接近的信噪比相關(guān)的特征鄰近幀補(bǔ)償?shù)哪P蛥?shù);利用該特征鄰近幀補(bǔ)償?shù)哪P蛥?shù)為步驟5)得到的測試集語音的聲學(xué)譜特征進(jìn)行鄰近幀補(bǔ)償,得到恢復(fù)后的特征向量。
在本步驟中,測試集中的語音所提取的聲學(xué)譜特征序列為對于第i幀特征,在確定鄰近幀補(bǔ)償模型Γ后,可根據(jù)前述的公式(4)計算從而得到新的特征序列
步驟8)、利用步驟7)所得到的特征向量做說話人識別。
以上是對本發(fā)明的噪聲消除方法的步驟的描述。從上述描述可以看出,本發(fā)明的方法在為訓(xùn)練集中的語音數(shù)據(jù)訓(xùn)練模型參數(shù)時,依賴于由測試集中的語音數(shù)據(jù)所確定的噪聲類型與信噪比。在一定的應(yīng)用場景下,測試集中的語音數(shù)據(jù)所包含的噪聲類型與所選取的信噪比可以認(rèn)為是固定的,此時可重復(fù)使用之前訓(xùn)練得到的模型參數(shù)。但一旦應(yīng)用場景發(fā)生變化,則測試集中的語音數(shù)據(jù)所含噪聲類型與所選取的信噪比會發(fā)生變化,此時需要重新訓(xùn)練模型參數(shù)。
本申請人采用本發(fā)明的方法進(jìn)行了大量實網(wǎng)數(shù)據(jù)的測試,在傳統(tǒng)的說話人識別系統(tǒng)基礎(chǔ)上,采用基于鄰近幀補(bǔ)償?shù)脑肼曄椒ê笙到y(tǒng)在加噪的測試集上識別性能有相對10%-15%的提升。
最后所應(yīng)說明的是,以上實施例僅用以說明本發(fā)明的技術(shù)方案而非限制。盡管參照實施例對本發(fā)明進(jìn)行了詳細(xì)說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,對本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,都不脫離本發(fā)明技術(shù)方案的精神和范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。