一種用于語音情感識別的自學習語譜圖特征提取方法
【技術領域】
[0001] 本發(fā)明涉及語音情感識別技術領域,特別涉及一種應用于語音情感識別系統(tǒng)的特 征提取方法。
【背景技術】
[0002] 語音作為最主要的交流手段之一,在新型的人機交互領域受到越來越廣泛的關 注,為了使人機交互系統(tǒng)和機器人的對話系統(tǒng)更加智能和完善,語音的情感分析變得越來 越重要。此外,在一些長時間的、單調(diào)的、高強度的任務(如航天、航海等)中,相關人員常 產(chǎn)生某些負面的情緒,有效的識別這些負面情緒,有助于提高個體認知和工作效率,防患于 未然。面對犯罪調(diào)查、智能協(xié)助等問題,語音情感識別也能夠起到重要的作用。因此,語音 情感識別算法研究具有重要的實用意義。
[0003] 針對語音情感識別問題,學者們從不同角度進行了研究,取得了許多有價值的成 果。在提高算法魯棒性方面,有學者提出一些抗噪性能良好的情感識別算法。在語音情感 識別模型構(gòu)建方面,許多不同類型的識別模型被提出,例如,加權(quán)稀疏識別模型、基于語義 的情感識別模型等等。鑒于特征構(gòu)造及特征選擇對識別性能影響較大,許多學者都對情感 特征進行了細致的分析和研究,并提出了多種語音情感特征構(gòu)造方式。語音情感特征一般 包括:(1)韻律特征、(2)頻域特征、(3)音質(zhì)特征。在上述特征中,語音信號頻域和時域中 信號的相關性,在語音情感識別中起到了重要的作用。但針對語音信號相關性的研究,往往 只是研究頻域或時域中的一個域,很少有文獻將語音信號時頻兩域的相關性結(jié)合起來進行 研究。語譜圖作為一種語音能量時頻分布的可視化表達方式,橫軸代表時間,縱軸代表頻 率,連通了時頻兩域,將語譜圖的頻率點建模為圖像的像素點,可以利用圖像特征研究相鄰 頻點間的聯(lián)系,為研究時頻兩域相關性提供了一種新的思路。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的是提供一種用于語音情感識別的自學習語譜圖特征提取方法,一方 面可以提高各語音情感之間的區(qū)分性,對語音情感的分類提供更有效的特征,另一方面可 以進一步分析信號間相關性對情感識別的作用。
[0005] 為實現(xiàn)上述目的,本發(fā)明采用的技術方案是:
[0006] -種用于語音情感識別的自學習語譜圖特征提取方法,包括以下步驟:
[0007] (1)、對已知情感的標準語料庫中的語音進行預處理,得到量化后的語譜圖灰度圖 像;
[0008] (2)、計算步驟⑴所得到的語譜圖灰度圖像的Gabor語譜圖;
[0009] (3)、采用可辨別特征學習算法對步驟(2)提取到的LBP統(tǒng)計直方圖進行訓練,構(gòu) 建不同尺度、不同方向下的全局顯著性模式集合,記為*4?,···,·^,,,;
[0010] (4)、采用步驟(3)中的全局顯著性模式對語音不同尺度、不 同方向下Gabor圖譜的LBP統(tǒng)計直方圖進行特征選擇,得到處理后的統(tǒng)計直方圖 ,將N個統(tǒng)計直方圖級聯(lián)
得到適合情感分類的語
音情感特征。
[0011] 所述步驟(1)的具體步驟為:
[0012] (11)、對語音進行分幀、加窗,計算離散傅里葉變換,得到語譜圖X ;
[0013] (12)、通過下式求取線性語譜圖:
[0014] LLinear(i,j) = |X(i,j)
[0015] (13)、通過下式得到歸一化語音圖譜:
[0017] 式中max,min表示語譜圖灰度級中的最大最小值;
[0018] (14)、歸一化后的語譜圖乘以255,并進行量化處理,得灰度級為0-255的語譜圖 灰度圖像。
[0019] 所述步驟(2)的具體步驟為:
[0020] (21)、將語譜圖灰度圖像與Gabor小波的卷積,經(jīng)過卷積后,每張語譜圖灰度圖像 可以得到N = A X B張 Gabor圖譜,記為
其中A表示Gabor核方向數(shù)目, 其中B表示Gabor核尺度數(shù)目,Gabor小波的核函數(shù)定義如下:
[0023] 其中,μ表示Gabor的核方向,V表示核尺度,: = 是像素點的空間位置,。
表不尚斯函數(shù)的半徑,/&,= λ: COS% +;·*,. sin ,其中 π μ /8 ;
[0024] (22)、采用局部二值模式(Local binary pattern,LBP)對Gabor圖譜的進行編 碼,編碼后的圖譜不進行旋轉(zhuǎn)不變及一致模式映射,并直接計算統(tǒng)計直方圖,每條情感語音 Gabor圖譜的統(tǒng)計直方圖,記為
[0025] 所述步驟(3)的具體步驟為:
[0026] (31)、依據(jù)不同方向、尺度的Gabor圖譜,將所有語音的Gabor圖譜提取到的LBP 特征分為N個不同的集合,設方向為V,尺度為μ的Gabor圖譜LBP直方圖組成的集合為 ,其中M表示訓練樣本總數(shù);
[0027] (32)、采用可辨別特征學習算法對訓練學習,得到全局顯著性模 式集合d;
[0028] (33)、由于i = 1,2,…,N,最終得到N個全局顯著性模式集合
[0029] 所述步驟(3)中,可辨別特征學習算法步驟如下:
[0030] (a)計算每個特征直方圖的顯著性模式集合;
[0031] (b)計算不同類別的可區(qū)別顯著性模式集合:
[0032] 計算同一類情感特征顯著性模式集合交集,得到不同類別的可區(qū)別顯著性模式集 合;
[0033] (C)構(gòu)建全局顯著性模式集合:
[0034] 計算不同類別可區(qū)別顯著性模式集合的并集,得到全局顯著性模式集合Jgklbal。
[0035] 所述步驟(a)中,
[0036] 首先,設Γ'11為LBP統(tǒng)計直方圖,而]=(/-1)(/ = 1,2,._,256) η為顯著性模式集合閾 值;
[0037] 然后,對Γ' 11進行降序排列,結(jié)果記為?,按照降序后的}順序改變g的排列,結(jié)果 記為保留I的前k項,存入向量芬中,k值通過下述公式求得:Σ?/(〇 > %
[0038] 最后,對所有LBP統(tǒng)計直方圖進行上述運算,得到特征直方圖的顯著性模式集合 ? W'''Uμ 〇
[0039] 本發(fā)明的有益效果是:
[0040] 本發(fā)明的語音情感識別特征提取方法,基于頻點間的相關性,將語譜圖建模為圖 像,并采用圖像算法研究頻點間的相關性。在所作的統(tǒng)計實驗中,采用本發(fā)明提取的特征加 大了情感間的鑒別性,相比傳統(tǒng)的聲學特征,提高了情感識別的性能。本發(fā)明一方面可以提 高各語音情感之間的區(qū)分性,對語音情感的分類提供更有效的特征,另一方面可以進一步 分析信號間相關性對情感識別的作用。本發(fā)明提出的情感特征可以較好地識別不同種類的 情感,識別率顯著優(yōu)于現(xiàn)有的聲學特征。
【附圖說明】
[0041] 圖1為LBP編碼示意圖;
[0042] 圖2為分類識別流程圖。
【具體實施方式】
[0043] 下面結(jié)合【具體實施方式】對本發(fā)明作更進一步的說明。
[0044] 本發(fā)明提供了一種用于語音情感識別的自學習語譜圖特征提取方法,具體步驟如 下所示:
[0045] 1)語譜圖分析與預處理
[0046] 對已知情感的標準語料庫中的語音進行預處理
[0047] (1)對語音進行分幀、加窗,計算離散傅里葉變換。
[0049] 式中,N表示窗長,ω (n)表示漢明窗函數(shù)。k表示f (k) = kfs/N,其中fs表示采 樣頻率。
[0050] 求取線性語譜圖:
[0051] LLinear(i,j) = |X(i,j)
[0052] (2)采用最大最小歸一化方法對語譜圖進行歸一化,得到歸一化語音圖譜。
[0054] 式中max,min表示語譜圖灰度級中的最大最小值。
[0055] (3)將語譜圖量化成0-255的灰度級圖像0(心)。
[0056] 2)計算Gabor語譜圖
[0057] Gabor小波的核函數(shù)定義如下:
[0060] 其中,μ表示Gabor的核方向,V表示核尺度,S = 是像素點的空間位置,。 表示高斯函數(shù)的半徑。
[0062] 上式中,V e {〇, 1,2, 3, 4},μ e {〇, 1,2, 3, 4, 5, 6, 7}。經(jīng)過上式運算后,得到 40 張 Gabor圖譜。
[0063] 采用LBP對Gabor圖譜進行編碼,并計算編碼后圖譜的灰度直方圖,編碼后的圖譜 不進行旋轉(zhuǎn)不變及一致模式映射,并直接計算統(tǒng)計直方圖。每條情感語音Gabor圖譜的統(tǒng) 計直方圖,記為
,如圖1所示為LBP編碼示意圖。