本發(fā)明涉及一種語音情感特征選擇方法,尤其涉及一種基于語音軌跡模型的語音情感特征選擇方法,屬于語音情感識別
技術領域:
。
背景技術:
:隨著信息技術的快速發(fā)展和各種智能終端的興起,現(xiàn)有的人機交互系統(tǒng)正面臨日益嚴峻的考驗。為了克服人機交互的障礙,使人機交互更為方便、自然,機器的情感智能正日益受到各領域研究者的重視。語音作為現(xiàn)今人機交互中極具發(fā)展?jié)摿Φ母咝Ы换ッ浇?,攜帶著豐富的情感信息。語音情感識別作為情感智能的重要研究課題,在遠程教學、輔助測謊、自動遠程電話服務中心以及臨床醫(yī)學,智能玩具,智能手機等方面有著廣闊的應用前景,吸引了越來越多研究機構與研究學者的廣泛關注。為了提高語音情感識別的精度和魯棒性,提取具有環(huán)境噪聲魯棒性的語音情感特征至關重要。從原始語音數(shù)據中提取有效的情感信息,剔除情感無關的環(huán)境噪聲等冗余信息是提高語音情感識別系統(tǒng)魯棒性的重點和難點。作為一種新興的語音分析技術,語音片段軌跡模型因其在語音信號處理中的靈活性和有效性,越來越得到研究者的廣泛重視。對于分類問題,建立語音片段軌跡模型,量化語音表達因素與特征表現(xiàn)的相關性,進而對語音中環(huán)境噪聲進行標準化,降低了語音中環(huán)境噪聲、語音內容等無關信息對于語音特征表現(xiàn)的影響,選擇出含有較多情感信息的語音特征。這種基于語音表達因素與特征表現(xiàn)的相關性特征提取思想和方法在語音情感識別研究中具有重要的意義。技術實現(xiàn)要素:技術問題:本發(fā)明提供一種能夠提高語音情感識別的魯棒性,降低了環(huán)境噪聲、語音內容等無關信息對于語音特征表現(xiàn)的影響,可以選擇出含有較多情感信息語音特征的基于環(huán)境噪聲標準化變換的語音情感特征選擇方法。技術方案:本發(fā)明的基于環(huán)境噪聲標準化變換的語音情感特征選擇方法,包括以下步驟:步驟1:對情感語音片段數(shù)字化后的數(shù)字語音信號X進行預處理,得到有效語音幀集合,對所述有效語音幀集合中每個語音片段X′提取一個D維的特征A,得到一個特征矩陣C:C=c1,1...c1,t...c1,Dc2,1...c2,i·...c2,D...............cm,1...cm,t...cm,D...............cK,1...cK,t...cK,D=C1...Ct...CD---(1)]]>其中,K為有效語音幀幀長,A表示從語音片段X′提取的特征,D表示特征A的維數(shù),cm,t表示特征矩陣中一個元素,Ct表示特征矩陣中一個列向量,其中t為特征矩陣中列標,t=1,2,...,D,CD表示特征矩陣中第D個列向量,m為特征矩陣中行標,m=1,2,...,K;步驟2:構建第q個語音片段的設計矩陣Zq,其行數(shù)為K,列數(shù)為軌跡模型展開階次J加1,其中元素v為設計矩陣行標,j為設計矩陣列標,v=1,2,...,K,j=1,2,...,J+1;步驟3:對每個語音片段,利用最大似然估計來計算軌跡參數(shù)矩陣Bq:Bq=(Z′qZq)-1Z′qCq(2)其中,q為語音片段編號,Cq為第q個語音片段的特征矩陣,Z′q為Zq的轉置矩陣;然后計算每個語音片段的殘差協(xié)方差矩陣∑q:Σq=Eq′EqKq=(Cq-ZqBq)′(Cq-ZqBq)Kq---(3)]]>Kq是第q個語音片段的幀數(shù);步驟4:對數(shù)字語音信號X中的環(huán)境噪聲進行標準化,然后計算環(huán)境噪聲標準化后的數(shù)字語音信號Xn的殘差協(xié)方差矩陣,所述對數(shù)字語音信號X中的環(huán)境噪聲進行標準化的具體流程為:步驟4.1:選取語音庫中沒有環(huán)境噪聲的語音作為參考標準,將其語音片段Xref的聲學特征用軌跡模型表示為{Bref,∑ref,K},將需要標準化的其他具有環(huán)境噪聲的語音片段,即需要變換的語音片段Xi的聲學特征用軌跡模型表示為{Bi,∑i,K},其中Bref表示參考語音片段Xref的平均軌跡向量,∑ref表示參考語音片段Xref的殘差協(xié)方差矩陣,Bi表示需要變換語音片段Xi的平均軌跡向量,∑i表示參考語音片段Xi的殘差協(xié)方差矩陣;步驟4.2:根據下式進行白化轉換:Xw=Di-12Vi′(Xi-Bi)---(4)]]>其中,Vi,Di分別為∑i對應的特征向量矩陣和特征值矩陣,是白化變換,Xw表示白化變換后的數(shù)據,即Xi解相關數(shù)據;步驟4.3:根據下式進行環(huán)境噪聲標準化:Xn=VrefDref12Xw+Bref---(5)]]>Xn表示Xi利用參考語音片段Xref標準化后的數(shù)據,Vref.Dref分別表示∑ref對應的特征向量矩陣和特征值矩陣;步驟5:利用步驟4中計算得到的各個環(huán)境噪聲標準化后的數(shù)字語音信號Xn的殘差協(xié)方差矩陣,利用相關性計算公式計算各個影響語音表達的因素在語音表達中與聲學特征的相關性,包括:標準化后情感因素與聲學特征的相關性、標準化后環(huán)境噪聲因素與聲學特征的相關性;步驟6:相關性比較:將所有聲學特征中,與情感因素的相關性大于與標準化后的環(huán)境噪聲因素相關性的特征作為語音情感識別特征。進一步的,本發(fā)明方法中,所述步驟1中的預處理包括如下步驟:步驟1.1:根據下式對數(shù)字語音信號X按下式進行預加重,得到預加重后的語音信號X‾(n‾)=X(n‾)-0.9375X(n‾-1),0≤n‾≤N‾-1]]>其中表示數(shù)字語音信號X的離散點序號,為數(shù)字語音信號X的長度,和分別表示數(shù)字語音信號X在第和個離散點上的值,表示預加重后的語音信號在第個離散點上的值,X(-1)=0;步驟1.2:采用交疊分段的方法對預加重后的語音信號進行分幀,得到語音幀集合x‾k,(n)=X‾(n+128(k′-1)),0≤n≤255,1≤k′≤K′]]>其中為語音幀集合中的第k′個語音幀,n表示語音幀離散點序號,k′為語音幀序號,K′為語音幀總幀數(shù),且滿足:表示向下取整;步驟1.3:對每個語音幀1≤k′≤K′,選擇窗口長度為256點的漢明窗w進行加窗處理,得到加窗語音幀xk′為:xk′(n)=x‾k′(n)w(n),0≤n≤255,1≤k′≤K′]]>其中xk′(n)、w(n)分別表示xk′、w在第n個離散點上的值,窗口長度為256點的漢明窗函w在第n個離散點上的值為:w(n)=0.54-0.46cos(2πn255),0≤n≤255]]>步驟1.4:對每個加窗語音幀xk′,1≤k′≤K′,計算短時能量Ek′和短時過零率Zk′:Ek′=Σn=0255xk′2(n),1≤k′≤K′]]>Zk′=12Σn=1255|sgn[xk′(n)]-sgn[xk′(n-1)]|]]>其中Ek′表示加窗語音幀xk′的短時能量,Zk′表示xk′的短時過零率,xk′(n)為加窗語音幀xk′在第n個采樣點上的值,xk′(n-1)為xk′在第n-1個采樣點上的值,sgn[xk′(n)]、sgn[xk′(n-1)]分別為xk′(n)、xk′(n-1)的符號函數(shù),即:sgn[x]=1,x≥0-1,x<0]]>步驟1.5:確定短時能量閾值tE和短時過零率閾值tZ:tE=1K′Σk′=1K′Ek′]]>tZ=0.1K′Σk′=1K′Zk′]]>其中K′為語音幀總幀數(shù);步驟1.6:對各加窗語音幀,首先用短時能量作第一級判別,將短時能量值大于閾值tE的加窗語音幀標記為一級判別有效語音幀,將幀序號最小的一級判別有效語音幀作為當前有效語音幀集合的起始幀,將幀序號最大的一級判別有效語音幀作為當前有效語音幀集合的結束幀,然后用短時過零率作第二級判別,即對當前有效語音幀集合,以起始幀為起點,按照幀序號由大到小的順序逐幀判別,將短時過零率大于閾值tZ的加窗語音幀標記為有效語音幀,并且以結束幀為起點按照幀序號由小到大的順序逐幀判別,將兩級判別后得到的有效語音幀集合記為{sk}1≤k≤K,其中k為有效語音幀序號,K為有效語音幀總幀數(shù),sk為有效語音幀集合中的第k個有效語音幀。進一步的,本發(fā)明方法中,所述步驟5中的標準化后情感因素與聲學特征的相關性根據下式計算:RM(A;E)=tr(ΣA)-Σf∈FP(fe)tr(ΣA|fe)---(6)]]>其中∑A為上述標準化后的數(shù)據Xn的殘差協(xié)方差矩陣,E表示影響語音情感表達中的情感因素的集合,fe為影響語音情感表達中的情感因素,即集合E中的元素,tr(·)表示某個矩陣的跡,P(fe)表示對應情感的語音樣本在語音庫中出現(xiàn)的概率,tr(∑A|fe)表示對應情感的語音樣本中聲學特征A的總的變化性;所述標準化后環(huán)境噪聲因素與聲學特征的相關性根據下式計算:RM(A;EN)=tr(ΣA)-Σf∈FP(fEN)tr(ΣA|fEN)---(7)]]>其中Sp表示影響語音情感表達中的中的環(huán)境噪聲因素的集合,fEN為影響語音情感表達中的環(huán)境噪聲因素,即集合EN中的元素,有F={E,EN},F(xiàn)為影響語音情感表達中的因素的集合,P(fEN)表示對應的環(huán)境噪聲的語音樣本在語音庫中出現(xiàn)的概率,tr(∑A|fEN)表示對應的環(huán)境噪聲的語音樣本中聲學特征A的總的變化性。進一步的,本發(fā)明方法中,步驟4中,按照與步驟3相同的方法計算環(huán)境噪聲標準化后的數(shù)字語音信號X的殘差協(xié)方差矩陣。本發(fā)明能夠利用語音片段軌跡模型,量化語音表達因素與特征表現(xiàn)的相關性,利用環(huán)境噪聲標準化方法,降低了環(huán)境噪聲、語音內容等無關信息對于語音特征表現(xiàn)的影響,選擇出含有較多情感信息的語音特征。有益效果:本發(fā)明與現(xiàn)有技術相比,具有以下優(yōu)點:建立軌跡模型方程,實質上是利用具體的函數(shù)曲線來擬合聲學特征實時變化的曲線,得到軌跡模型參數(shù){B,∑,K},可以簡單明了地表示出聲學特征的固有的特性,在后續(xù)的環(huán)境噪聲語音標準化以及計算情感因素與聲學特征的相關性的計算中使用表征聲學特征的軌跡模型參數(shù),可以顯著地降低運算的復雜度。與其他語音特征提取要求語音片段持續(xù)時間固定的方法相比,利用軌跡模型方程可以對持續(xù)時間變化的語音片段進行處理,然后通過設計矩陣將語音片段的時間度量歸一化,簡少了特征選擇的計算量并且充分保留了特征信息。本發(fā)明在進行特征選擇之前,先進行環(huán)境噪聲標準化變換,選擇語音庫中無噪聲語音片段,將其他具有環(huán)境噪聲的語音片段參數(shù)映射至標準參考語音片段,這樣可以顯著降低環(huán)境噪聲因素與語音表達特征的相關性,降低了環(huán)境噪聲對于語音特征表現(xiàn)的影響,剔除原始語音信號中與情感類別相關性較弱的冗余信息,有助于提高語音情感識別的魯棒性。用二次軌跡模型參數(shù)來表示語音特征,將語音中環(huán)境噪聲標準化處理轉化為對軌跡模型參數(shù)處理,降低了實驗數(shù)據以及計算的復雜度,提高了特征選擇的效率。附圖說明圖1為本發(fā)明的語音情感特征選擇流程圖。圖2為本發(fā)明的軌跡參數(shù)模型建立與特征相關性計算選擇流程圖。圖3為本發(fā)明環(huán)境噪聲標準化流程圖。具體實施方式下面結合實施例和說明書附圖對本發(fā)明作進一步的說明。本發(fā)明的基于環(huán)境噪聲標準化變換的語音情感特征提取方法,包括以下步驟:步驟1:對情感語音片段進行預處理,并提取特征矩陣C;具體包括:步驟1.1:對數(shù)字語音信號X按下式進行預加重,得到預加重后的語音信號X‾(n‾)=X(n‾)-0.9375X(n‾-1),0≤n‾≤N‾-1---(1)]]>其中表示數(shù)字語音信號X的離散點序號,為數(shù)字語音信號X的長度,和分別表示數(shù)字語音信號X在第和個離散點上的值,表示預加重后的語音信號在第個離散點上的值,X(-1)=0;步驟1.2:采用交疊分段的方法對預加重后的語音信號進行分幀,前一幀起點與后一幀起點的距離稱為幀移,此處幀移取8ms,即在采樣率Fs=16kHz下取128點,每一幀長取16ms,即取256點,經過分幀得到語音幀集合x‾k,(n)=X‾(n+128(k′-1)),0≤n≤255,1≤k′≤K′---(2)]]>其中為語音幀集合中的第k′個語音幀,n表示語音幀離散點序號,k′為語音幀序號,K′為語音幀總幀數(shù),且滿足:表示向下取整;步驟1.3:對各語音幀1≤k′≤K′,選擇窗口長度為256點的漢明窗w進行加窗處理,得到加窗語音幀xk′,加窗語音幀xk′為:xk′(n)=x‾k′(n)w(n),0≤n≤255,1≤k′≤K′---(4)]]>其中xk′(n)、w(n)分別表示xk′、w在第n個離散點上的值,窗口長度為256點的漢明窗w在第n個離散點上的值為:w(n)=0.54-0.46cos(2πn255),0≤n≤255---(5)]]>步驟1.4:采用公知的能量過零率雙門限判決法完成端點檢測,具體步驟如下:步驟1.4.1:對各加窗語音幀xk′,1≤k′≤K′,計算短時能量Ek′和短時過零率Zk′:Ek′=Σn=0255xk′2(n),1≤k′≤K′---(6)]]>Zk′=12Σn=1255|sgn[xk′(n)]-sgn[xk′(n-1)]|---(7)]]>其中Ek′表示加窗語音幀xk′的短時能量,Zk′表示xk′的短時過零率,xk′(n)為加窗語音幀xk′在第n個采樣點上的值,xk′(n-1)為xk′在第n-1個采樣點上的值,sgn[xk′(n)]、sgn[xk′(n-1)]分別為xk′(n)、xk′(n-1)的符號函數(shù),即:sgn[x]=1,x≥0-1,x<0---(8)]]>步驟1.4.2:確定短時能量閾值tE和短時過零率閾值tZ:tE=1K′Σk=1K′Ek′---(9)]]>tZ=0.1K′Σk′=1K′Zk′---(10)]]>其中K′為語音幀總幀數(shù);步驟1.4.3:對各加窗語音幀,首先用短時能量作第一級判別,將短時能量值大于閾值tE的加窗語音幀標記為一級判別有效語音幀,將幀序號最小的一級判別有效語音幀作為當前有效語音幀集合的起始幀,將幀序號最大的一級判別有效語音幀作為當前有效語音幀集合的結束幀,然后用短時過零率作第二級判別,即對當前有效語音幀集合,以起始幀為起點,按照幀序號由大到小的順序逐幀判別,將短時過零率大于閾值tz的加窗語音幀標記為有效語音幀,并且以結束幀為起點按照幀序號由小到大的順序逐幀判別,將短時過零率大于閾值tz的加窗語音幀標記為有效語音幀,將兩級判別后得到的有效語音幀集合記為{sk}1≤k≤K,其中k為有效語音幀序號,K為有效語音幀總幀數(shù),sk為有效語音幀集合中的第k個有效語音幀。步驟1.5:建立軌跡模型,得到軌跡模型參數(shù),具體步驟如下:對有效語音幀幀長為K(K=10)的語音片段X′提取一個D維的特征A,得到一個特征矩陣C:C=c1,1...c1,t...c1,Dc2,1...c2,i·...c2,D...............cm,1...cm,t...cm,D...............cK,1...cK,t...cK,D=C1...Ct...CD---(11)]]>其中A表示語音片段提取的特征,D表示特征A的維數(shù),特征矩陣C可以表示為一個軌跡模型方程:C=ZB+E,其中B表示軌跡參數(shù)矩陣,E表示殘差向量矩陣,Z表示設計矩陣,負責將語音片段的時間度量歸一化,cm,t表示特征矩陣中一個元素,Ct表示特征矩陣中一個列向量,其中t=1,2,...,D,m=1,2,...,K。步驟2:將特征矩陣C的列向量利用軌跡模型方程表示,并按照二次軌跡模型展開如下:Ci=ZBi+Ei(12)即:c1,ic2,i...cK,i=10011K-1(1K-1)2.........111b1,ib2,ib3,i+e1,ie2,i...eK,i---(13)]]>i=1,2,...,D表示特征矩陣C的第i維特征,表示軌跡參數(shù)矩陣第i個列向量,表示殘差向量矩陣列向量,表示設計矩陣。軌跡參數(shù)矩陣也可以表示為:cn,i=b1,i+b2,i(n-1K-1)+b3,i(n-1K-1)2+en,i---(14)]]>其中:i=1,2,...,Dn=1,2,...,K。上述步驟1和步驟2屬于并列的邏輯關系,沒有先后秩序之分。步驟3:對每個語音片段,利用最大似然估計來計算軌跡參數(shù)矩陣Bq:Bq=(Z′qZq)-1Z′qCq(15)其中,q為語音片段編號,Zq,Cq分別為第q個語音片段的設計矩陣和特征矩陣,Z′q為Zq的轉置矩陣;然后計算每個語音片段的殘差協(xié)方差矩陣∑q:Σq=Eq′EqKq=(Cq-ZqBq)′(Cq-ZqBq)Kq---(16)]]>Kq是第q個語音片段的幀數(shù);因此對于一個給定的聲學特征A,可以用一個K×1平均軌跡向量B來表示出A的平均軌線特征,用K×K的殘差協(xié)方差矩陣∑來捕捉這個特征A的平均軌線周圍的變化。因此語音片段X的聲學特征可以由軌跡模型參數(shù){B,∑,N}表示。步驟4:對數(shù)字語音信號X中的環(huán)境噪聲進行標準化,然后計算環(huán)境噪聲標準化后的數(shù)字語音信號Xn的殘差協(xié)方差矩陣,所述對數(shù)字語音信號X中的環(huán)境噪聲進行標準化的具體流程為:選取語音庫中沒有環(huán)境噪聲的語音作為參考標準,其語音片段Xref的聲學特征用軌跡模型表示為{Bref,∑ref,K}.需要標準化的具有環(huán)境噪聲語音片段Xi的聲學特征用軌跡模型表示為{Bi,∑i,K},其中Bref表示參考語音片段Xi的平均軌跡向量,∑ref表示參考語音片段Xref的殘差協(xié)方差矩陣,Bi表示需要變換語音片段Xi的平均軌跡向量,∑i表示參考語音片段Xi的殘差協(xié)方差矩陣。首先根據下式進行白化轉換:Xw=Di-12Vi′(Xi-Bi)---(18)]]>其中,Vi,Di分別為∑i對應的特征向量矩陣和特征值矩陣,是白化變換,Xw表示白化變換后的數(shù)據,即Xi解相關數(shù)據;然后根據下式進行環(huán)境噪聲標準化Xn=VrefDref12Xw+Bref---(19)]]>Xn表示Xi利用參考語音片段Xref標準化后的數(shù)據,Vref.Dref分別表示∑ref對應的特征向量矩陣和特征值矩陣;(19)式將參考音位pref的統(tǒng)計量Bref,∑ref關聯(lián)至白化數(shù)據Xw,從而進行標準化處理。所有的音位都可以通過上述操作使得其統(tǒng)計量與參考音位的統(tǒng)計量相似,從而減弱環(huán)境噪聲在語音情感識別中的影響。步驟5:利用步驟4中計算得到的各個環(huán)境噪聲標準化后的數(shù)字語音信號Xn的殘差協(xié)方差矩陣,利用相關性計算公式計算各個影響語音表達的因素在語音表達中與聲學特征的相關性,包括:標準化后情感因素與聲學特征的相關性、標準化后環(huán)境噪聲因素與聲學特征的相關性,具體步驟如下:步驟5.1:因素分析與相關性計算:首先計算聲學特征與情感因素之間相關性:RM(A;F)=tr(ΣA)-Σf∈FP(f)tr(ΣA|f)---(17)]]>F表示影響語音表達的因素,tr(·)表示某個矩陣的跡,tr(∑A)表示聲學特征A的殘差協(xié)方差矩陣的跡,代表聲學特征A的總的變化性。P(f)表示影響語音表達因素F的概率分布,例如當F為情感因素時,P(Angry)表示生氣情感的語音樣本在語音庫中出現(xiàn)的概率;tr(∑A|f)表示語音表達因素F確定后,聲學特征A的殘差協(xié)方差矩陣的跡,即代表語音表達因素F的語音樣本中聲學特征A的總的變化性。例當語音表達因素F表示情感,f表示生氣時,tr(∑A|f)表示生氣的語音樣本中聲學特征A的總的變化性。RM(A;E)表示語音表達因素F確定后,聲學特征A的不確定性地減少量,即語音表達因素F與聲學特征A的相關性。步驟5.2:計算各個影響語音表達的因素在語音表達中與聲學特征的相關性,具體步驟如下:步驟5.2.1:根據下式計算標準化后情感因素與聲學特征的相關性:RM(A;E)=tr(ΣA)-Σf∈FP(fe)tr(ΣA|fe)---(6)]]>其中∑A為上述標準化后的數(shù)據Xn的殘差協(xié)方差矩陣;其中E表示影響語音情感表達中的情感因素的集合,fe為影響語音情感表達中的情感因素,即集合E中的元素,tr(·)表示某個矩陣的跡,P(fe)表示對應情感的語音樣本在語音庫中出現(xiàn)的概率,tr(∑A|fe)表示對應情感的語音樣本中聲學特征A的總的變化性;步驟5.2.2:根據下式計算標準化后環(huán)境噪聲因素與聲學特征的相關性:RM(A;EN)=tr(ΣA)-Σf∈FP(fEN)tr(ΣA|fEN)---(7)]]>其中Sp表示影響語音情感表達中的中的環(huán)境噪聲因素的集合,fEN為影響語音情感表達中的環(huán)境噪聲因素,即集合EN中的元素,有F={E,EN},F(xiàn)為影響語音情感表達中的因素的集合,P(fEN)表示對應的環(huán)境噪聲的語音樣本在語音庫中出現(xiàn)的概率,tr(∑A|fEN)表示對應的環(huán)境噪聲語音樣本中聲學特征A的總的變化性;步驟6:相關性比較利用步驟5中計算得到的情感因素在語音表達中與聲學特征的相關性,環(huán)境噪聲標準化后在語音表達中與聲學特征的相關性,判斷各個聲學特征與情感因素相關性。步驟6.1:環(huán)境噪聲標準化后情感識別特征選擇對于一個特定的聲學特征A,計算其情感因素,環(huán)境噪聲因素,標準化后的環(huán)境噪聲因素在語音表達中與該聲學特征的相關性。對于待選擇的所有的聲學特征,依次計算每個聲學特征兩個相關性,進行比較,選擇情感因素相關性大的聲學特征作為情感識別的特征。步驟6.2:根據步驟6.1選擇出的聲學特征,作為情感識別特征,選擇出的特征基于環(huán)境噪聲的情感識別具有魯棒性。上述實施例僅是本發(fā)明的優(yōu)選實施方式,應當指出:對于本
技術領域:
的普通技術人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和等同替換,這些對本發(fā)明權利要求進行改進和等同替換后的技術方案,均落入本發(fā)明的保護范圍。當前第1頁1 2 3