1.一種基于無監(jiān)督域適應(yīng)的語音情感識別方法,其特征在于,包括如下步驟:
S1,語音樣本預(yù)處理:按照INTERSPEECH 2009情感挑戰(zhàn)賽的要求,利用開源工具包openEAR從原始語音樣本中提取384維特征,替代原始語音樣本作為輸入數(shù)據(jù);
S2,模型訓(xùn)練:所述模型包括三部分:特征提取,情感標(biāo)簽預(yù)測,域標(biāo)簽預(yù)測;源域的有標(biāo)簽樣本和目標(biāo)域的無標(biāo)簽訓(xùn)練樣本通過S1得到相應(yīng)的384維特征作為模型的輸入數(shù)據(jù);具體實現(xiàn)包括如下:
在模型的特征提取層,輸入數(shù)據(jù)通過不同的權(quán)重映射成兩種特征:情感判別特征和情感無關(guān)特征;然后情感判別特征通過層次非線性轉(zhuǎn)換得到高層情感特征;
源域有標(biāo)簽樣本的高層情感特征用于情感標(biāo)簽的預(yù)測,源域和目標(biāo)域樣本的高層情感特征用于域標(biāo)簽的預(yù)測;
最后更新模型的參數(shù),將兩個標(biāo)簽預(yù)測器的損失進(jìn)行反向傳播,用梯度下降法進(jìn)行參數(shù)的更新;
S3,特征提?。豪肧2中訓(xùn)練好的特征提取層的參數(shù),將源域有標(biāo)簽訓(xùn)練樣本的384維特征轉(zhuǎn)換成高層情感特征;
S4,分類器訓(xùn)練:利用S3中源域有標(biāo)簽訓(xùn)練樣本的高層情感特征和相對應(yīng)的情感標(biāo)簽,進(jìn)行分類器SVM的訓(xùn)練;
S5,語音情感識別:對任意一個目標(biāo)域的語音測試樣本,首先利用步驟S1提取384維特征作為輸入數(shù)據(jù),然后通過S2中訓(xùn)練好的特征提取層得到高層情感特征,最后輸入到S4訓(xùn)練好的SVM中進(jìn)行分類。
2.根據(jù)權(quán)利要求1所述的一種基于無監(jiān)督域適應(yīng)的語音情感識別方法,其特征在于,所述步驟S2中所述特征提取層的實現(xiàn)包括如下:
S2.1,設(shè)有N+1層,第n層有k(n)個結(jié)點,h(n)表示第n層的特征表示,n∈[0,1,...,N];對于第零層,假設(shè)h(0)=x,x為輸入樣本;那么第n層的特征表示為:
其中W(n)∈Rk(n)×k(n-1)表示權(quán)重矩陣,b(n)∈Rk(n)表示偏置,表示非線性激活函數(shù);
S2.2,為了消除提取到的特征摻雜一些情感無關(guān)的因素,引進(jìn)一個正交項來解開情感判別因素和其他無關(guān)因素;對于輸入x,把它映射成兩塊特征:一塊編碼輸入數(shù)據(jù)的判別因素,另一塊編碼輸入數(shù)據(jù)的其他因素,參數(shù)分別是θe={W(1),b(1)}和θo={w,c};
S2.3,為了讓這兩塊特征可以有效地解開,讓第i個情感相關(guān)特征的敏感度向量和每個情感無關(guān)的特征的敏感度向量正交;進(jìn)一步,對這兩塊特征進(jìn)行約束的正交損失函數(shù)定義如下:
其中表示所有樣本的域標(biāo)簽集合;
S2.4,對于輸入x,經(jīng)過上述特征提取過程,得到它的高層特征表示h(N)。
3.根據(jù)權(quán)利要求2所述的一種基于無監(jiān)督域適應(yīng)的語音情感識別方法,其特征在于,所述步驟S2中所述情感標(biāo)簽預(yù)測和域標(biāo)簽預(yù)測的實現(xiàn)包括如下:
利用得到的高層特征表示h(N)來預(yù)測情感標(biāo)簽和域標(biāo)簽:采用Softmax回歸進(jìn)行情感標(biāo)簽和域標(biāo)簽的預(yù)測,具體地,情感標(biāo)簽預(yù)測的損失函數(shù)Ly和域標(biāo)簽預(yù)測的損失函數(shù)Ld可以表示成如下形式:
其中是情感標(biāo)簽預(yù)測的參數(shù),是域標(biāo)簽預(yù)測的參數(shù);X={x|x∈Ds||x∈Dt}表示訓(xùn)練時所有可獲得的源域有標(biāo)簽樣本和目標(biāo)域無標(biāo)簽樣本集合;表示所有樣本的域標(biāo)簽集合;y表示情感標(biāo)簽;ns表示源域樣本個數(shù)。
4.根據(jù)權(quán)利要求3所述的一種基于無監(jiān)督域適應(yīng)的語音情感識別方法,其特征在于,所述步驟S2中所述更新模型參數(shù)的實現(xiàn)包括如下:
S2.5,結(jié)合特征提取、情感標(biāo)簽預(yù)測和域標(biāo)簽預(yù)測的損失函數(shù),得到總目標(biāo)函數(shù)如下:
其中f把輸入x映射成高層特征表示,Gy和Gd分別把高層特征表示映射成情感標(biāo)簽和域標(biāo)簽,Ly和Ld分別表示情感標(biāo)簽預(yù)測和域標(biāo)簽預(yù)測的損失函數(shù),a衡量域標(biāo)簽預(yù)測項的貢獻(xiàn)程度,β衡量正交損失函數(shù)的貢獻(xiàn)程度;
S2.6,為了得到情感判別和域不變的特征,需要尋找總目標(biāo)函數(shù)的一個鞍點:
S2.7,為了能使用梯度下降法來尋找這個鞍點,在特征提取層和域標(biāo)簽預(yù)測層之間加上了一個梯度反轉(zhuǎn)層;在前向傳播時,梯度反轉(zhuǎn)層相對于一個恒等變換函數(shù);在反向傳播時,梯度會乘以一個負(fù)數(shù)-λ;用如下的偽函數(shù)來描述梯度反轉(zhuǎn)層:
Rλ(x)=x,
其中I是單位矩陣;因此總目標(biāo)函數(shù)的偽目標(biāo)函數(shù)可以定義成如下形式:
所有的權(quán)重和偏置可以使用如下的梯度下降算法進(jìn)行更新:
其中m=2,...,N,μ是學(xué)習(xí)率,a和β分別衡量域預(yù)測損失函數(shù)和正交損失函數(shù)的貢獻(xiàn)程度,λ是梯度反轉(zhuǎn)層的參數(shù)。