專利名稱:一種基于支持向量機的語音情感識別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種語音識別方法,特別涉及一種語音情感識別系統(tǒng)及方法。
背景技術(shù):
語音情感自動識別技術(shù)主要包括兩個問題一是采用語音信號中的何種特征作為情感識別,也就是情感特征提取的問題,一是如何將特定的語音數(shù)據(jù)進行分類,也就是模式識別的問題。
在本發(fā)明之前,目前主要使用的情感特征是韻律特征及其衍生參數(shù),如持續(xù)時間、語速、振幅、基音頻率、共振峰等。其中,基音頻率和共振峰頻率是重要的情感參數(shù),但是由于人和人之間存在的個體差異性(聲道的易變性、聲道特征、單詞發(fā)音音調(diào)等)目前存在的方法都難以實現(xiàn)基音和共振峰的精確檢測,單純的使用全局基音均值、共振峰均值等常見的衍生參數(shù)難以實現(xiàn)較高的情感識別率。并且這些參數(shù)主要體現(xiàn)的是人體的聲門和聲道的特征,因此和人的生理構(gòu)造有著密切的關(guān)系,在不同的個體上顯現(xiàn)出較強的相異性。這種差異在不同的性別上尤其明顯。在過去的文獻中,這些在不考慮情感因素情況下的聲學(xué)參數(shù)性別差異已得到充分的研究,然而針對不同性別下的特征參數(shù)在情感狀態(tài)下的影響,則較少有文獻給予專門研究。在已有的各種識別方法中,具體而言,矢量分割型馬氏距離判法、主元分析法過于簡單,不足于取得好的識別率;神經(jīng)網(wǎng)絡(luò)法雖然具有高度的非線性和極強的分類能力,但是隨著網(wǎng)絡(luò)的增大所需學(xué)習(xí)時間增加很快,另外局部極小問題也是一個不足之處;隱馬爾可夫法(HMM)在建立和訓(xùn)練時間上較長,應(yīng)用于實際還需要解決計算復(fù)雜度過高的問題。另外,雖然上述方法在實驗環(huán)境下有一定的識別率,但主要是根據(jù)已有的語音庫樣本使訓(xùn)練集的性能最優(yōu),而實際中環(huán)境往往訓(xùn)練集有較大的差異。
發(fā)明內(nèi)容
本發(fā)明的目的就在于上述現(xiàn)有技術(shù)的缺陷,設(shè)計、研究一種基于支持向量機的全局與時序結(jié)構(gòu)特征相結(jié)合的語音情感識別方法。
本發(fā)明的技術(shù)方案是一種基于支持向量機的語音情感識別方法,其主要技術(shù)步驟為建立特征提取分析模塊、SVM訓(xùn)練模塊、SVM識別模塊;特征提取分析模塊包括全局結(jié)構(gòu)特征參數(shù)提取、時序結(jié)構(gòu)特征參數(shù)提?。皇紫葘υ颊Z音信號預(yù)加重、分幀,然后分別進行全局結(jié)構(gòu)特征提取、時序結(jié)構(gòu)特征提??;(1)全局結(jié)構(gòu)特征參數(shù)提取(1-1)將原始語音信號經(jīng)高通濾波器預(yù)處理,提取發(fā)音持續(xù)時間、語速參數(shù);(1-2)分幀,加窗;(1-3)應(yīng)用短時分析技術(shù),分別提取各幀語句主要特征參數(shù)基音頻率軌跡、振幅、共振峰頻率軌跡;(1-4)提取上述特征參數(shù)的衍生參數(shù)平均基音頻率,最高基音頻率、基音頻率平均變化率、平均振幅曲線、振幅動態(tài)范圍、最高第一共振峰頻率曲線、第一共振峰平均變化率、最高第二共振峰頻率;(2)時序結(jié)構(gòu)特征參數(shù)提取(2-1)將原始語音信號分幀后,經(jīng)由24個等帶寬的濾波器組成的美爾標度頻率濾波器組濾波,每幀信號以一個能量系數(shù)向量表示;(2-2)計算頻帶能量累積量,用當前幀的美爾標度濾波器組的平均能量與各個美爾標度濾波器的能量做差值,求得所有差值的絕對值的加權(quán)和,得到頻帶能量累積量;Sbec(t)=Σi=124αi|Ei(t)-E‾(t)|]]>(式1)t表示當前幀,Ei(t)為第i個美標度濾波器的能量, E(t)為美爾標度濾波器組的平均能量,αi為第i個濾波器的權(quán)重系數(shù);(2-3)根據(jù)頻帶能量累積量峰值來判定元音位置或元音區(qū)間,并用簡化能量累積量的分布來確定元音的位置,Rec=Σi=124αi|Ei(t)-E‾(t)|=RecLF+RecHF]]>(式2)t表示當前幀,Ei(t)為第i個美標度濾波器的能量, E(t)為美標度濾波器組的平均能量,αi為第i個濾波器的權(quán)重系數(shù),RecLF為低頻部分(300~1000Hz)對應(yīng)的Rec值、RecHF為高頻部分(1000~3200Hz)對應(yīng)的Rec值,根據(jù)Rec值的分布,利用峰值確定元音的位置,Rec值作為判別元音的標準必須滿足兩個條件當前語音段必須長于15ms,低頻和高頻的能量分布必須均衡,即滿足下式RecLFRecHF≥0.5]]>(式3)Δt≥15msΔt為當前幀的長度;
(2-4)采用短時分析方法,按照性別分別計算情感語句各元音區(qū)間的基音軌跡、3個共振峰軌跡、振幅能量軌跡;(2-5)計算情感語句各元音區(qū)間的最高基音頻率、該基音頻率所對應(yīng)幀的振幅能量、各元音區(qū)間的最高振幅能量、該振幅所對應(yīng)幀的基音頻率、各元音區(qū)間的持續(xù)時間以及前3個共振峰頻率;(2-6)采用均值補齊方法規(guī)整元音,即選取情感語句中元音個數(shù)最多的句子為基準,對于元音個數(shù)少的語句在尾部用全句平均值代替、補齊參數(shù)向量;將提取的全局結(jié)構(gòu)特征參數(shù)、時序結(jié)構(gòu)特征參數(shù)規(guī)整到相同的空間,得到支持向量機的輸入矢量;(3)支持向量機的訓(xùn)練單個支持向量機是一個二分模式的分類器,對SVM的訓(xùn)練是在訓(xùn)練樣本中尋找支持向量xi(=1,2,…,n)、支持向量權(quán)值系數(shù)ai和偏移系數(shù)b;SVM的訓(xùn)練步驟(3-1)從情感語句庫中選取高興、生氣、悲傷、恐懼、驚訝五種情感語句作為訓(xùn)練樣本;(3-2)選擇其中一種情感作為識別目標,對于第i條情感語句,抽取其特征參數(shù)構(gòu)成一個特征參數(shù)向量,采用符號函數(shù)作為判決函數(shù),如果這條語句屬于該類情感,則令SVM輸出參數(shù)yi=1,否則yi=-1;(3-3)利用訓(xùn)練樣本的特征參數(shù)向量和SVM輸出參數(shù)作為訓(xùn)練集,核函數(shù)是高斯(徑向基)函數(shù),采用已有的分解算法對該情感的支持向量機進行訓(xùn)練,得到該訓(xùn)練集的支持向量xi(i=1,2,…,n)、支持向量權(quán)值系數(shù)ai和偏移系數(shù)b;(3-4)高興、生氣、悲傷、恐懼、驚訝五種情感分別訓(xùn)練五個支持向量機;(4)情感識別(4-1)單個情感識別提取待識別語句的特征矢量輸入到步驟(3)已訓(xùn)練好的支持向量機中,經(jīng)輸出判別函數(shù)(符號函數(shù))對該語句進行判別,如果yj=1則該語句屬于該類情感,則該語句為該類情感,否則不屬于該類情感;(4-2)多情感識別采用One-Against-All支持向量機對高興、生氣、悲傷、恐懼、驚訝五種情感進行識別,與步驟(3)中建立的五個支持向量機對應(yīng),對每一個支持向量機,采用具有連續(xù)輸出的函數(shù)作為軟判決函數(shù),將具有最大輸出值的類別作為最終的輸出;yjk=1Σx∈svαikyik(K(xik,x))+b>1Σx∈svαjkyik(K(xik,x))+b-1≤Σx∈svαikyik(K(xik,x))+b≤1-1Σx∈svαikyik(K(xik,x))+b<-1]]>(式4)j為測試語句的標號,k為不同的情感,K(xik,x)為待識別語句x與第k種情感的第i個支持向量xik的核函數(shù)。在計算出每個樣本相對于不同情感的判別結(jié)果后,識別情感為使(式4)取得最大值的k值。
本發(fā)明的優(yōu)點和效果在于1.通過對情感語句的特征參數(shù)提取與分析,將參數(shù)從全局結(jié)構(gòu)特征擴充至?xí)r序結(jié)構(gòu),增加了特征參數(shù)的有效性;2.充分考慮了男女性別不同對特征參數(shù)的影響,在參數(shù)提取上加入性別規(guī)整;進一步提高參數(shù)有效性;3.利用支持向量機(SVM)對未知集合的識別錯誤率最小這一特點,提供一個實用的、性能優(yōu)良的高識別率語音情感識別系統(tǒng),即利用最少的支持向量,在錯分樣本和算法復(fù)雜度之間尋找折衷,獲得最好的語音識別;4.從單個SVM的二分模式情感識別擴充至多個SVM結(jié)合的多模式多情感識別;5.在多模式多情感識別上,SVM的判決函數(shù)采用具有連續(xù)輸出的函數(shù),進一步降低了誤識率。
本發(fā)明的其他優(yōu)點和效果將在下面繼續(xù)描述。
圖1——語音情感識別系統(tǒng)框圖。
圖2——特征提取分析模塊流程圖。
圖3——利用簡化能量累計量(Rec)進行元音分割圖(A)、(B)、(C)。
圖4——5個支持向量機子網(wǎng)絡(luò)訓(xùn)練圖。
圖5——支持向量機子網(wǎng)絡(luò)原理示意圖。
圖6——支持向量機情感識別圖。
圖7——使用SVM的情感識別結(jié)果(%)圖。
圖8——使用PCA的情感識別結(jié)果(%)圖。
圖9——采用最大可分性分析PCA的情感識別結(jié)果(%)圖。
具體實施例方式
下面結(jié)合附圖和實施例,對本發(fā)明所述的技術(shù)方案作進一步的闡述。
如圖1所示,是語音情感識別系統(tǒng)框圖,主要分為3大塊特征提取分析模塊、SVM訓(xùn)練模塊和SVM識別模塊。整個系統(tǒng)執(zhí)行過程可分為訓(xùn)練過程和識別過程。訓(xùn)練過程包括特征提取分析、SVM訓(xùn)練;識別過程包括特征提取分析、SVM識別。
一.特征提取分析模塊1.全局結(jié)構(gòu)特征參數(shù)選擇及性別規(guī)整全局結(jié)構(gòu)特征參數(shù)包括語句發(fā)音持續(xù)時間、語速、平均基音頻率、最高基音頻率、基音頻率的平均變化率、平均振幅、振幅的動態(tài)范圍、最高第一共振峰頻率、第一共振峰平均變化率、最高第二共振峰頻率。
首先,根據(jù)圖2中的全局結(jié)構(gòu)特征參數(shù)提取流程將待提取特征語句進行預(yù)加重處理,具體實施包括高通濾波、語句開始端點與結(jié)束端點的檢測;然后提取全句的語句發(fā)音持續(xù)時間、語速這兩個特征;然后對語句分幀加窗,采用短時分析技術(shù),按照男女性別,分別求出各幀基音、第一共振峰、第二共振峰、振幅,然后將各幀所得參數(shù)匯總,分別得到語句的基音軌跡、共振峰軌跡、振幅軌跡語速、語句發(fā)音持續(xù)時間;在以往的試驗中發(fā)現(xiàn),基音和共振峰及其衍生參數(shù)主要體現(xiàn)的是人體的聲門和聲道的特征,和人的生理構(gòu)造有著密切的關(guān)系,在不同的個體上顯現(xiàn)出較強的相異性,這種差異在不同的性別上尤其明顯。為了更好的消除性別差異對特征參數(shù)造成的影響,需要對基音和共振峰參數(shù)進行性別規(guī)整,將特征參數(shù)按照男女性別劃分為不同的性別集合,以基音為例,將各個情感語句的基音軌跡按照性別分為女性集合與男性集合,然后分別計算各個集合的均值(μi)、方差(σi),然后利用(式5)將參數(shù)規(guī)整到相同的空間s′=s-uiσi]]>(式5)最后提取衍生參數(shù)即平均基音頻率,最高基音頻率、基音頻率平均變化率、平均振幅曲線、振幅動態(tài)范圍、最高第一共振峰頻率曲線、第一共振峰平均變化率、最高第二共振峰頻率;得到上述全部全局特征參數(shù)。
2.時序結(jié)構(gòu)特征參數(shù)選擇、性別規(guī)整及元音數(shù)目規(guī)整情感語句時序結(jié)構(gòu)特征的選取是本文方法的特點之一。雖然無聲部分和清音本身對情感識別是有貢獻的,但是通過分析觀察發(fā)現(xiàn)情感特征的變化主要反映在有聲部分尤其是元音部分的特征變化上,因此需要從從語句中分割出各元音區(qū)間。
分幀加窗后根據(jù)美(Mel)標度頻率濾波器進行濾波。這組濾波器在頻率的美(Mel)坐標上是等帶寬的。采用24個濾波器的濾波器組,這樣每幀信號可以用一個能量系數(shù)向量表示。采用一個簡單的距離測量標準來計算頻帶能量累積量(Sbec),計算如式(1)所示。
Sbec(t)=Σi=124αi|Ei(t)-E‾(t)|]]>式(1)t表示當前幀,Ei(t)為第i個美標度濾波器的能量, E(t)為美標度濾波器組的平均能量,αi為第i個濾波器的權(quán)重系數(shù)。
通常由于存在共振峰以及間隙,元音具有較高的Sbec值。從一段語音的Sbec值分布,就可以根據(jù)峰值來判定元音的位置。用Sbec檢測元音時,存在著一個主要缺點,就是在清音幀出現(xiàn)Sbec峰值時,也判為元音。因此在判別標準不再采用Sbec,而是采用簡化能量累積量(Rec),計算如式(2)所示Rec=Σi=124αi|Ei(t)-E‾(t)|=RecLF+RecHF]]>(式2)t表示當前幀,Ei(t)為第i個美標度濾波器的能量, E(t)為美標度濾波器組的平均能量,αi為第i個濾波器的權(quán)重系數(shù),RecLF為低頻部分(300~1000Hz)對應(yīng)的Rec值、RecHF為高頻部分(1000~3200Hz)對應(yīng)的Rec值,根據(jù)Rec值的分布,利用峰值確定元音的位置。這里每個Rec值作為判別元音的標準必須滿足當前語音段必須長于15ms;低頻和高頻的能量分布必須均衡。即就是式(3)所要求滿足的條件。
RecLFRecHF≥0.5]]>(式3)Δt≥15ms圖3即為利用上述方法得到的元音區(qū)間分割,(A)為語音信號波形,(B)為Rec曲線,(C)為元音分割。
確定元音區(qū)間后,根據(jù)短時分析技術(shù)分別計算情感語句元音區(qū)間的基音軌跡、振幅軌跡、共振峰頻率軌跡,然后進行性別規(guī)整,方法類同于全局結(jié)構(gòu)特征參數(shù)的性別規(guī)整。然后提取最高基音頻率、該基頻所對應(yīng)幀的振幅能量、各元音區(qū)間的最高振幅能量、該振幅所對應(yīng)幀的基音頻率、各元音區(qū)間的持續(xù)時間以及前3個共振峰頻率的平均值、前3個共振峰頻率的變化率共11種特征參數(shù)。最后,考慮到不同語句的元音個數(shù)不可能相同,在訓(xùn)練階段必須對元音數(shù)目不同的語句進行規(guī)整。選取訓(xùn)練用情感語料中元音個數(shù)最多的句子作為基準,對于元音個數(shù)較少的語句的參數(shù)向量在尾部用全句的平均值代替補齊。最終得到時序結(jié)構(gòu)特征參數(shù)。
在系統(tǒng)的執(zhí)行過程中,特征提取分析是必不可少的。在訓(xùn)練過程中,訓(xùn)練樣本的特征提取分析可以直接按照圖2所示流程進行。在識別過程中,待識別語句的特征提取分析同樣按照圖2流程進行,需要注意的是其中的性別規(guī)整和元音數(shù)目規(guī)整采用訓(xùn)練過程中產(chǎn)生的參數(shù)。性別規(guī)整如語句是女聲,則按照前面訓(xùn)練過程中性別規(guī)整時的女聲的均值(μi)、方差(σi),利用(式5)將參數(shù)規(guī)整到相同的空間,男聲同理。元音數(shù)目規(guī)整采用訓(xùn)練過程中元音規(guī)整的個數(shù)進行規(guī)整。
二.支持向量機(SVM)模塊1.支持向量機(SVM)的訓(xùn)練單個的SVM本質(zhì)上是一個二分模式的分類器,判決函數(shù)為y=f(x)=sign(Σi=1nαiyiK(xi,x)+b)]]>=sign(Σ∀xi∈SVnαiyiK(xi,x)+b)]]>(式6)支持向量機子網(wǎng)絡(luò)原理示意圖如圖5所示,其中K(xi,x)(i=1,2,…,N)為核函數(shù),x為待分類樣本,訓(xùn)練樣本集為(xi,yi)(i=1,2,…,n)。xi為訓(xùn)練樣本,yi是xi的類標記。SV是支持向量集,是訓(xùn)練樣本集的一個子集,n為訓(xùn)練樣本個數(shù),N為支持向量個數(shù)。SVM的訓(xùn)練就是尋找支持向量集xi(i=1,2,…,N)、支持向量權(quán)值系數(shù)ai和偏移系數(shù)b。b的具體計算可由(式7)求得 (式7)訓(xùn)練前,從情感語音庫中選取高興、生氣、悲傷、驚訝、恐懼五種情感語句,經(jīng)過特征提取分析模塊,得到各自特征參數(shù)向量作為SVM訓(xùn)練樣本。訓(xùn)練時,首先選擇其中一種情感作為識別目標,對于第i條情感語句,采用符號函數(shù)作為判決函數(shù),如果這條語句屬于該類情感,則yi為1,否則為-1。利用訓(xùn)練樣本的特征參數(shù)向量和類標號作為訓(xùn)練樣本集,選用符合Mercer條件的高斯函數(shù)為核函數(shù),采用分解算法對該情感的支持向量機進行訓(xùn)練,其思想是通過循環(huán)迭代解決對偶尋優(yōu)問題將原問題分解成更易于處理的若干子問題,即設(shè)法減小尋優(yōu)算法要解決問題的規(guī)模,按照某種迭代策略,通過反復(fù)求解子問題,最終使結(jié)果收斂到原問題的最優(yōu)解。這是目前SVM訓(xùn)練算法一般采用的途徑,當支持向量數(shù)目遠小于訓(xùn)練樣本數(shù)目時,算法效率較高。最后得到該訓(xùn)練集關(guān)于某種情感的的支持向量集xi(i=1,2,…,N)、支持向量權(quán)值系數(shù)ai和偏移系數(shù)b。5種情感分別訓(xùn)練5個SVM,圖4是訓(xùn)練5個SVM分別對應(yīng)5種情感。
2.情感識別情感識別可大致分為兩種某條語句是否是某種情感(二分模式識別);某條語句是哪一種情感(多模式識別)。對前者的識別可以用一個SVM實現(xiàn),采用符號函數(shù)作為判決函數(shù),對后者則需要多個SVM結(jié)合實現(xiàn)。從識別的精度出發(fā),本發(fā)明采用的是“One-Against-All”的SVM網(wǎng)絡(luò),并采用具有連續(xù)輸出的軟判決函數(shù),從識別的精度角度看該法更具優(yōu)勢。
當識別問題是判斷某條語句是否是某種情感時,如判斷語句“今天是晴天”是否為“高興”,首先將語句經(jīng)過特征提取分析模塊得到特征參數(shù)向量x,選擇SVM1進行識別,求得y1=Σ∀xi∈SVnαiyiK(xi,x)+b,]]>根據(jù)(式6)求SVM1的輸出y,y為1則該語句情感為“高興”,y為-1則該語句情感不是“高興”。
當識別問題是多模式識別問題,需要利用前面已經(jīng)構(gòu)造好的5個支持向量機(SVM)。如判斷語句“今天是晴天”是哪一種情感,首先將語句經(jīng)過特征提取分析模塊得到特征參數(shù)向量x,然后將x分別輸入5個SVM中去,計算Σ∀xi∈SVNαikyikK(xik,x)+b,]]>并按照式(4)做如下處理yjk=1Σx∈svαikyik(K(xik,x))+b>1Σx∈svαjkyik(K(xik,x))+b-1<Σx∈svαikyik(K(xik,x)+b-1Σx∈svαikyik(K(xik,x))+b<-1]]>(式4)最后選擇具有最大輸出值的類別所對應(yīng)的情感作為判別結(jié)果,如圖6所示。
多模式識別不同于二分模式識別的最大特點采用了(式4)所示的具有連續(xù)輸出的函數(shù)作為判別函數(shù),而二分模式采用的是(式6)所示的符號函數(shù)。這是因為語音情感的劃分本身就是一個模糊的分類,真正的語音情感識別往往是依靠判別語音中不同情感成分的強弱來決定。一般認為某種情感成分在語音中較突出時,即認為該語音信號屬于此類情感。而符號函數(shù)是不能完全體現(xiàn)情感的這種模糊性的。因此(式4)所示函數(shù)從識別精度上看更具優(yōu)勢。
三.識別系統(tǒng)的評價如圖7、8、9所示,是本發(fā)明實施數(shù)據(jù)提供的結(jié)合全局結(jié)構(gòu)特征與時序結(jié)構(gòu)特征的并考慮到性別差異的SVM方法同傳統(tǒng)PCA方法以及進行最大可分性變換的PCA方法進行對比的結(jié)果。該結(jié)果說明,使用此種方法對語音情感進行識別效率大大高于現(xiàn)有技術(shù)的識別方法。結(jié)合前面二分模式的情感識別結(jié)果,可以知道在不同情感之間的分類界并不是一個線性超平面,而SVM可以利用核空間影射將低維空間的非線性分類問題轉(zhuǎn)化為高維特征空間的線性分類問題,而使非線性問題得到解決。
本發(fā)明請求保護的范圍并不僅僅局限于本具體實施方式
的描述。
權(quán)利要求
1.一種基于支持向量機的語音情感識別方法,其步驟為建立特征提取分析模塊、SVM訓(xùn)練模塊、SVM識別模塊;特征提取分析模塊包括全局結(jié)構(gòu)特征參數(shù)提取、時序結(jié)構(gòu)特征參數(shù)提取;首先對原始語音信號預(yù)加重、分幀,然后分別進行全局結(jié)構(gòu)特征提取、時序結(jié)構(gòu)特征提??;(1)全局結(jié)構(gòu)特征參數(shù)提取(1-1)將原始語音信號經(jīng)高通濾波器預(yù)處理,提取發(fā)音持續(xù)時間、語速參數(shù);(1-2)分幀,加窗;(1-3)應(yīng)用短時分析技術(shù),分別提取各幀語句主要特征參數(shù)基音頻率軌跡、振幅、共振峰頻率軌跡;(1-4)提取上述特征參數(shù)的衍生參數(shù)平均基音頻率,最高基音頻率、基音頻率平均變化率、平均振幅曲線、振幅動態(tài)范圍、最高第一共振峰頻率曲線、第一共振峰平均變化率、最高第二共振峰頻率;(2)時序結(jié)構(gòu)特征參數(shù)提取(2-1)將原始語音信號分幀后,經(jīng)由24個等帶寬的濾波器組成的美爾標度頻率濾波器組濾波,每幀信號以一個能量系數(shù)向量表示;(2-2)計算頻帶能量累積量,用當前幀的美爾標度濾波器組的平均能量與各個美爾標度濾波器的能量做差值,求得所有差值的絕對值的加權(quán)和,得到頻帶能量累積量;Sbec(t)=Σi=124αi|Ei(t)-E‾(t)|]]>(式1)t表示當前幀,Ei(t)為第i個美標度濾波器的能量, E(t)為美爾標度濾波器組的平均能量,αi為第i個濾波器的權(quán)重系數(shù);(2-3)根據(jù)頻帶能量累積量峰值來判定元音位置或元音區(qū)間,并用簡化能量累積量的分布來確定元音的位置,Rec=Σi=124αi|Ei(t)-E‾(t)|=RecLF+RecHF]]>(式2)t表示當前幀,Ei(t)為第i個美標度濾波器的能量, E(t)為美標度濾波器組的平均能量,αi為第i個濾波器的權(quán)重系數(shù),RecLF為低頻部分(300~1000Hz)對應(yīng)的Rec值、RecHF為高頻部分(1000~3200Hz)對應(yīng)的Rec值,根據(jù)Rec值的分布,利用峰值確定元音的位置,Rec值作為判別元音的標準必須滿足兩個條件當前語音段必須長于15ms,低頻和高頻的能量分布必須均衡,即滿足下式RecLFRecHF≥0.5]]>Δt≥15ms (式3)Δt為當前幀的長度;(2-4)采用短時分析方法,按照性別分別計算情感語句各元音區(qū)間的基音軌跡、3個共振峰軌跡、振幅能量軌跡;(2-5)計算情感語句各元音區(qū)間的最高基音頻率、該基音頻率所對應(yīng)幀的振幅能量、各元音區(qū)間的最高振幅能量、該振幅所對應(yīng)幀的基音頻率、各元音區(qū)間的持續(xù)時間以及前3個共振峰頻率;(2-6)采用均值補齊方法規(guī)整元音,即選取情感語句中元音個數(shù)最多的句子為基準,對于元音個數(shù)少的語句在尾部用全句平均值代替、補齊參數(shù)向量;將提取的全局結(jié)構(gòu)特征參數(shù)、時序結(jié)構(gòu)特征參數(shù)規(guī)整到相同的空間,得到支持向量機的輸入矢量;(3)支持向量機的訓(xùn)練單個支持向量機是一個二分模式的分類器,對SVM的訓(xùn)練是在訓(xùn)練樣本中尋找支持向量xi(i=1,2,…,n)、支持向量權(quán)值系數(shù)ai和偏移系數(shù)b;SVM的訓(xùn)練步驟(3-1)從情感語句庫中選取高興、生氣、悲傷、恐懼、驚訝五種情感語句作為訓(xùn)練樣本;(3-2)選擇其中一種情感作為識別目標,對于第i條情感語句,抽取其特征參數(shù)構(gòu)成一個特征參數(shù)向量,采用符號函數(shù)作為判決函數(shù),如果這條語句屬于該類情感,則令SVM輸出參數(shù)yi=1,否則yi=-1;(3-3)利用訓(xùn)練樣本的特征參數(shù)向量和SVM輸出參數(shù)作為訓(xùn)練集,核函數(shù)是高斯(徑向基)函數(shù),采用已有的分解算法對該情感的支持向量機進行訓(xùn)練,得到該訓(xùn)練集的支持向量xi(i=1,2,…,N)、支持向量權(quán)值系數(shù)ai和偏移系數(shù)b;(3-4)高興、生氣、悲傷、恐懼、驚訝五種情感分別訓(xùn)練五個支持向量機;(4)情感識別(4-1)單個情感識別提取待識別語句的特征矢量輸入到步驟(3)已訓(xùn)練好的支持向量機中,經(jīng)輸出判別函數(shù)(符號函數(shù))對該語句進行判別,如果yj=1則該語句屬于該類情感,則該語句為該類情感,否則不屬于該類情感;(4-2)多情感識別采用One-Against-All支持向量機對高興、生氣、悲傷、恐懼、驚訝五種情感進行識別,與步驟(3)中建立的五個支持向量機對應(yīng),對每一個支持向量機,采用具有連續(xù)輸出的函數(shù)作為軟判決函數(shù),將具有最大輸出值的類別作為最終的輸出,yik=1Σx∈svαikyik(K(xik,x))+b>1Σx∈svαikyik(K(xik,x))+b-1≤Σx∈svαikyik(K(xik,x))+b≤1-1Σx∈svαikyik(K(xik,x))+b<-1]]>(式4)j為測試語句的標號,k為不同的情感,K(xik,x)為待識別語句x與第k種情感的第i個支持向量xik的核函數(shù),在計算出每個樣本相對于不同情感的判別結(jié)果后,識別情感為使(式4)取得最大值的k值。
2.根據(jù)權(quán)利要求1所述的一種基于支持向量機的語音情感識別方法,其特征在于可以在步驟(1-4)、(2-5)之前加入特征參數(shù)關(guān)于性別的規(guī)整,即按男、女性別,將得到的每個信號樣本的特征參數(shù)劃分為不同的性別集合,分別計算各個集合的均值(μi)、方差(σi),利用(式5)將參數(shù)規(guī)整到相同的空間。s′=s-uiσi]]>(式5)
全文摘要
本發(fā)明涉及一種語音情感識別系統(tǒng)及方法。本發(fā)明采取特征提取分析模塊、SVM訓(xùn)練模塊和SVM識別模塊;訓(xùn)練過程包括特征提取分析、SVM訓(xùn)練;識別過程包括特征提取分析、SVM識別。特征提取分析有全局結(jié)構(gòu)特征參數(shù)選擇及性別規(guī)整、時序結(jié)構(gòu)特征參數(shù)選擇、性別規(guī)整及元音數(shù)目規(guī)整;支持向量機(SVM)有支持向量機訓(xùn)練、對高興、生氣、悲傷、恐懼、驚訝五種情感進行識別。解決了矢量分割型馬氏距離判法、主元分析法、神經(jīng)網(wǎng)絡(luò)法、隱馬爾可夫法等的各自缺陷。本發(fā)明加強了特征參數(shù)的有效性,加入性別規(guī)整,用最少支持向量,在錯分樣本和算法復(fù)雜度之間獲得最好的語音識別,在單個SVM及多個SVM結(jié)合的多模式具有連續(xù)輸出函數(shù),降低誤識率。
文檔編號G10L15/28GK1975856SQ20061009730
公開日2007年6月6日 申請日期2006年10月30日 優(yōu)先權(quán)日2006年10月30日
發(fā)明者趙力, 王治平, 趙艷, 鄭文明 申請人:鄒采榮