一種基于說話人懲罰的獨立于說話人語音情感識別方法
【專利摘要】本發(fā)明公開了一種基于說話人懲罰的獨立于說話人語音情感識別方法,對語音信號樣本依次進行預(yù)處理、語音情感原始特征提取、維數(shù)約簡、分類器分類判決。其中在維數(shù)約簡階段,使用了基于說話人懲罰的圖嵌入學(xué)習(xí)方法,利用說話人標(biāo)簽信息,分別針對屬于同一類情感類別但說話人不同,以及屬于同一說話人但分屬于不同情感類別的語音信號樣本對,在圖嵌入理論的基礎(chǔ)上利用已有理論,進行組合優(yōu)化運算。與現(xiàn)有方法相比,本發(fā)明的方法在獨立于說話人的語音情感識別中,能夠有效地提升系統(tǒng)的識別性能。
【專利說明】一種基于說話人懲罰的獨立于說話人語音情感識別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于語音情感識別領(lǐng)域,特別是涉及一種基于說話人懲罰的獨立于說話人語音情感識別方法。
【背景技術(shù)】
[0002]隨著應(yīng)用需求不斷增加,語音情感識別(Speech Emotion Recognition,簡稱SER)的研究近年來得到了較大的發(fā)展。語音情感識別的成果可以應(yīng)用于呼叫中心語料的自動分析處理,以及人機交互(Human-Machine Interaction,簡稱HMI)等諸多領(lǐng)域,以獲取語音情感信息的自動分析識別,實現(xiàn)機器的智能化?;谏鲜龅男枨?,為了取得更高的系統(tǒng)性能,目前已有了大量集中在語音情感識別方面的研究工作。然而,大量已有的工作都是對如何利用專家知識或是實驗經(jīng)驗,選取有效的語音情感特征的研究,這些研究忽略了系統(tǒng)對樣本變化的自適應(yīng)性,從而并不具有很好的可移植性。而且語音情感原始特征一般都含有著大量的冗余信息。
[0003]獨立于說話人的語音情感識別工作則在語音情感識別系統(tǒng)的訓(xùn)練和測試階段分別使用完全不同的說話人語料樣本,使得算法的訓(xùn)練和測試階段基于不同的說話人信息。從而提高了算法的實用性,但卻同時加大了算法實現(xiàn)語音情感識別的難度。
[0004]維數(shù)約簡作為模式識別與機器學(xué)習(xí)中一個重要的環(huán)節(jié),不僅對特征的提取、壓縮、傳輸以及有效地減小后續(xù)模塊中的計算量有著重要的意義,還能夠顯著地提高整個系統(tǒng)的識別性能。流形學(xué)習(xí)方法常用于識別工作的維數(shù)約簡階段,可以體現(xiàn)出訓(xùn)練數(shù)據(jù)集的本征結(jié)構(gòu)。目前常用的基于圖學(xué)習(xí)的流形學(xué)習(xí)方法有多種,如局部保持投影(LocalityPreserving Pro jection)、局部線性嵌入(Locally Linear Embedding,簡稱 LLE)、擴散映射(Diffusion Maps,簡稱 DM)、Isomap、邊界 Fisher 分析(Marginal Fisher Analysis,簡稱MFA)等。此外,還有主成分分析(Principal Component Analysis,簡稱PCA)、線性判別分析(Liner Discriminant Analysis,簡稱 LDA)、局部判別嵌入(Local DiscriminantEmbedding,簡稱LDE)等可以轉(zhuǎn)化為圖學(xué)習(xí)形式的子空間學(xué)習(xí)算法。上述這些算法都可以表示為統(tǒng)一的圖嵌入框架、最小均方框架及其各類擴展形式。
[0005]當(dāng)前的研究中還存在著以下問題:由于在提取語音情感原始特征時包含了大量的說話人特征,所以不同說話人的存在對語音識別的效果有著較大的影響,尤其是獨立于說話人語音情感識別時對系統(tǒng)的影響更為明顯。而目前的語音情感識別主要針對不同說話人的情況,所以減輕不同說話人對識別的影響有著重要的意義。在此基礎(chǔ)上,大量的研究工作基于經(jīng)驗性的實驗結(jié)論來去除說話人特征的影響,但這些成果對于不同環(huán)境下的自適應(yīng)性同樣不夠理想。本發(fā)明正是基于這些缺陷,對語音情感識別系統(tǒng),尤其是獨立于說話人條件下的語音情感識別,進行了一系列改進,使其對不同說話人所帶來的影響具有一定的魯棒性。
【發(fā)明內(nèi)容】
[0006]要解決的技術(shù)問題:針對現(xiàn)有技術(shù)的不足,本發(fā)明提出一種基于說話人懲罰的獨立于說話人語音情感識別方法,即說話人懲罰圖學(xué)習(xí)(Speaker Penalty Graph Learning,簡稱SPGL),具體包括線性說話人懲罰圖學(xué)習(xí)算法(簡稱LSPGL)和核說話人懲罰圖學(xué)習(xí)算法(簡稱KSPGL),解決現(xiàn)有技術(shù)中語音情感特征受不同說話人影響較大;并且存在語音情感的維數(shù)較高,不適于特征的壓縮、傳輸,不利于系統(tǒng)的識別性能;同時傳統(tǒng)的獨立于說話人語音情感識別算法可移植性較差的技術(shù)問題。
[0007]技術(shù)方案:為解決上述技術(shù)問題,本發(fā)明采用以下技術(shù)方案:
[0008]一種基于說話人懲罰的獨立于說話人語音情感識別方法,將語音情感數(shù)據(jù)庫中若干個語音樣本按照不同說話人劃分為訓(xùn)練樣本集和測試樣本集,且訓(xùn)練集中任一樣本所屬的說話人在測試集中不出現(xiàn),其中每個語音樣本均具有語音情感標(biāo)簽信息和說話人標(biāo)簽信息,包括順序執(zhí)行的以下步驟:
[0009]步驟一,語音樣本預(yù)處理:對語音樣本進行預(yù)加重,然后對預(yù)加重后的語音樣本的時域信號進行分幀;
[0010]步驟二,語音情感特征提取:對經(jīng)步驟一處理后的每個語音樣本,分別提取其能量、基音、過零率、時長、共振峰和Mel頻率倒譜系數(shù)共6大類語音情感特征組成每個語音樣本的原始語音情感特征向量;對所述6大類語音情感特征的每一維特征進行規(guī)整化處理后組成每個語音樣本的規(guī)整化語音情感特征向量;
[0011]步驟三,特征篩選:使用訓(xùn)練樣本語音情感標(biāo)簽信息,對步驟二中得到的規(guī)整化語音情感特征向量中每個特征維數(shù)的FDR值進行特征篩選,去除規(guī)整化語音情感特征向量中對語音情感分析貢獻較小的特征,得到每個語音樣本的特征篩選后語音情感特征向量;
[0012]步驟四,基于說話人懲罰的特征維數(shù)約簡:設(shè)經(jīng)步驟三特征篩選得到訓(xùn)練樣本特征篩選后語音情感特征向量集X = [X1, X2,, χΝ],利用訓(xùn)練樣本的語音情感標(biāo)簽信息和說話人標(biāo)簽信息,采用本發(fā)明提出的LSPGL算法或KSPGL算法對X進行維數(shù)約簡訓(xùn)練,生成LSPGL算法對應(yīng)的線性降維投影矩陣A或KSPGL算法對應(yīng)的核方法降維映射陣P,同時分別求解得到X的線性映射低維樣本集AtX或核映射低維樣本集PTK,其中K為訓(xùn)練樣本集的Gram陣,選用Gauss核函數(shù);
[0013]步驟五,訓(xùn)練分類器:對多類SVM分類器進行訓(xùn)練或直接選取INN分類器;其中多類SVM分類器進行訓(xùn)練的方法為:設(shè)訓(xùn)練樣本集中有N個分屬于N。個種類的語音樣本,在訓(xùn)練樣本集中任取兩個種類的語音樣本,進行訓(xùn)練得到I個兩類SVM分類器,每兩類重復(fù)該訓(xùn)練過程,共得到N。(Nc-1) /2個兩類SVM分類器;
[0014]步驟六,測試:對于每個測試樣本,使用經(jīng)步驟五訓(xùn)練完成的分類器對每個測試樣本進行測試,具體包括順序執(zhí)行的以下步驟:
[0015](I)對經(jīng)步驟三得到的每個測試樣本Xi的特征篩選后語音情感特征向量使用
線性降維投影矩陣A或核方法降維映射陣P進行維數(shù)約簡,得到Xfsi經(jīng)過線性維數(shù)約簡
后的低維樣本或經(jīng)過核方法維數(shù)約簡后的低維樣本PtK1,對于一個測試樣本
K = [K(Xi;^,Xl), K(x^sl,X1),..., K{x';'s',Xv)]T , Gram 陣 K 中的核函數(shù)選用步驟四中所述tfj Lrauss 核函數(shù);[0016](2)使用分類器對或Ρ%進行分類,選擇多類SVM分類器或者INN分類器進行分類:
[0017]利用多類SVM分類器分類的方法為:將每個測試樣本的低維樣本或Ρ%經(jīng)
所有得到的兩類SVM分類器分類之后得到N。(凡-1)/2個判斷結(jié)果,得票最多的判斷結(jié)果即判決為對應(yīng)的測試樣本所屬的情感類別;若出現(xiàn)相同最多票數(shù),則僅選擇由最多票數(shù)所對應(yīng)的情感類別兩兩組成的兩類SVM分類器重新對該測試樣本的低維樣本進行判斷,得到新一輪判斷結(jié)果,上述方法依次遞減兩類SVM分類器的個數(shù)直到得到一個唯一的最多票數(shù)即判決為對應(yīng)測試樣本所屬的情感類別;如一個測試樣本的低維樣本按此過程仍有相同最大票數(shù)的類別判決時,則在這幾類中隨機決定對應(yīng)測試樣本的類別;
[0018]利用INN分類器分類的方法為:對于每一個測試樣本,在全體訓(xùn)練樣本中找到與其歐式距離最近的訓(xùn)練樣本,使用該訓(xùn)練樣本對應(yīng)的類別標(biāo)簽作為該測試樣本的分類判決結(jié)果。
[0019]進一步的,在本發(fā)明中,步驟二中原始語音情感特征向量中的語音情感特征分布如下:
[0020]1-80維:能量序列的統(tǒng)計特征和一階、二階抖動;能量一階、二階差分序列的統(tǒng)計特征;三個不同頻帶內(nèi)的能量序列及其一階、二階差分序列分別的統(tǒng)計特征;三個不同頻帶內(nèi)能量序列的一階、二階抖動;
[0021]81-101維:基音序列的統(tǒng)計特征和一階、二階抖動;基音一階、二階差分序列的統(tǒng)計特征;基首序列斜率;
[0022]102-121維:過零率序列及其一階、二階差分序列的統(tǒng)計特征;
[0023]122-130維:濁音幀數(shù)與清音幀數(shù)的比;濁音段數(shù)與清音段數(shù)的比;濁、清音最長段的幀數(shù);濁、清音幀數(shù)和段數(shù);語速;
[0024]131-250維:共振峰頻率序列、帶寬序列及其一階、二階差分序列的統(tǒng)計特征;共振峰頻率序列的一階、二階抖動;
[0025]251-406維:MFCC及其一階差分序列的統(tǒng)計特征;
[0026]其中統(tǒng)計特征包括一個語段的各幀中相應(yīng)特征的最大值、最小值、均值、中值、標(biāo)準(zhǔn)差和范圍。
[0027]進一步的,在本發(fā)明中,步驟二中的規(guī)整化處理的方法如下:
[0028]規(guī)整化前的所有語音樣本中的任一樣本為x(°),其中N個訓(xùn)練樣本組成的訓(xùn)練樣
本集為Xw =[χ ,#,...,4°)],設(shè)4°)為的第j個特征元素(i = 1,2,…,N);
[0029]對于任一語音樣本x(°),特征j對應(yīng)元素X:的規(guī)整化處理的計算公式為:
【權(quán)利要求】
1.一種基于說話人懲罰的獨立于說話人語音情感識別方法,其特征在于: 將語音情感數(shù)據(jù)庫中若干個語音樣本按照不同說話人劃分為訓(xùn)練樣本集和測試樣本集,且訓(xùn)練集中任一樣本所屬的說話人在測試集中不出現(xiàn),其中每個語音樣本均具有語音情感標(biāo)簽信息和說話人標(biāo)簽信息,包括順序執(zhí)行的以下步驟: 步驟一,語音樣本預(yù)處理:對語音樣本進行預(yù)加重,然后對預(yù)加重后的語音樣本的時域信號進行分幀; 步驟二,語音情感特征提取:對經(jīng)步驟一處理后的每個語音樣本,分別提取其能量、基音、過零率、時長、共振峰和Mel頻率倒譜系數(shù)共6大類語音情感特征組成每個語音樣本的原始語音情感特征向量;對所述6大類語音情感特征的每一維特征進行規(guī)整化處理后組成每個語音樣本的規(guī)整化語音情感特征向量; 步驟三,特征篩選:使用訓(xùn)練樣本語音情感標(biāo)簽信息,對步驟二中得到的規(guī)整化語音情感特征向量中每個特征維數(shù)的FDR值進行特征篩選,去除規(guī)整化語音情感特征向量中對語音情感分析貢獻較小的特征,得到每個語音樣本的特征篩選后語音情感特征向量; 步驟四,基于說話人懲罰的特征維數(shù)約簡:經(jīng)步驟三特征篩選得到訓(xùn)練樣本特征篩選后語音情感特征向量集X = [X1, X2,, xN],利用訓(xùn)練樣本的語音情感標(biāo)簽信息和說話人標(biāo)簽信息,采用LSPGL算法或KSPGL算法對X進行維數(shù)約簡訓(xùn)練,生成LSPGL算法對應(yīng)的線性降維投影矩陣A或KSPGL算法對應(yīng)的核方法降維映射陣F,同時分別求解得到X的線性映射低維樣本集AtX或核映射低維樣本集PTK,其中K為訓(xùn)練樣本集的Gram陣,選用Gauss核函數(shù); 步驟五,訓(xùn)練分類器:對多類SVM分類器進行訓(xùn)練或直接選取INN分類器;其中多類SVM分類器進行訓(xùn)練的方法為:設(shè)訓(xùn)練樣本集中有N個分屬于N。個種類的語音樣本,在訓(xùn)練樣本集中任取兩個種類的語音樣本,進行訓(xùn)練得到I個兩類SVM分類器,每兩類重復(fù)該訓(xùn)練過程,共得到N。(Nc-1) /2個兩類SVM分類器; 步驟六,測試:對于每個測試樣本,使用經(jīng)步驟五訓(xùn)練完成的分類器對每個測試樣本進行測試,具體包括順序執(zhí)行的以下步驟: (1)對經(jīng)步驟三得到的每個測試樣本I的特征篩選后語音情感特征向量使用線性降維投影矩陣A或核方法降維映射陣P進行維數(shù)約簡,得到f經(jīng)過線性維數(shù)約簡后的低維樣本或經(jīng)過核方法維數(shù)約簡后的低維樣本PtK1,對于一個測試樣本
2.根據(jù)權(quán)利要求1所述的一種基于說話人懲罰的獨立于說話人語音情感識別方法,其特征在于:步驟二中原始語音情感特征向量中的語音情感特征分布如下: 1-80維:能量序列的統(tǒng)計特征和一階、二階抖動;能量一階、二階差分序列的統(tǒng)計特征;三個不同頻帶內(nèi)的能量序列及其一階、二階差分序列分別的統(tǒng)計特征;三個不同頻帶內(nèi)能量序列的一階、二階抖動; 81-101維:基音序列的統(tǒng)計特征和一階、二階抖動;基音一階、二階差分序列的統(tǒng)計特征;基首序列斜率; 102-121維:過零率序列及其一階、二階差分序列的統(tǒng)計特征; 122-130維:濁音幀數(shù)與清音幀數(shù)的比;濁音段數(shù)與清音段數(shù)的比;濁、清音最長段的幀數(shù);濁、清音幀數(shù)和段數(shù);語速; 131-250維:共振峰頻率序列、帶寬序列及其一階、二階差分序列的統(tǒng)計特征;共振峰頻率序列的一階、二階抖動; 251-406維:MFCC及其一階差分序列的統(tǒng)計特征; 其中統(tǒng)計特征包括一個語段的各幀中相應(yīng)特征的最大值、最小值、均值、中值、標(biāo)準(zhǔn)差和范圍。
3.根據(jù)權(quán)利要求1所述的一種基于說話人懲罰的獨立于說話人語音情感識別方法,其特征在于:步驟二中的規(guī)整化處理的方法如下: 規(guī)整化前的所有語音樣本中的任一樣本為x(°),其中N個訓(xùn)練樣本組成的訓(xùn)練樣本集為
4.根據(jù)權(quán)利要求3所述的一種基于說話人懲罰的獨立于說話人語音情感識別方法,其特征在于:步驟二中所述特征篩選的方法如下:任一語音樣本規(guī)整化語音情感特征向量文
5.根據(jù)權(quán)利要求1所述的一種基于說話人懲罰的獨立于說話人語音情感識別方法,其特征在于: 維數(shù)約簡時,LSPGL算法的圖嵌入的優(yōu)化形式為:
【文檔編號】G10L25/63GK103854645SQ201410078383
【公開日】2014年6月11日 申請日期:2014年3月5日 優(yōu)先權(quán)日:2014年3月5日
【發(fā)明者】鄭文明, 徐新洲, 趙力, 黃程韋, 余華, 吳塵, 查誠 申請人:東南大學(xué)