本發(fā)明屬于語音信號處理和模式識別領(lǐng)域,具體涉及一種用于語音測謊系統(tǒng)中的稀疏譜特征提取方法。
背景技術(shù):
謊言檢測技術(shù)在犯罪偵查、軍事情報和公共場所安全檢查等方面有著重要的應(yīng)用,具有廣闊的發(fā)展前景,并將逐漸成為公安、司法、人事及金融行業(yè)必備的技術(shù)檢測手段。當(dāng)人在具有較強(qiáng)動機(jī)(比如獲取金錢利益、逃避罪責(zé)等)的前提下,進(jìn)行欺騙他人或者故意制造虛假事實(shí)等說謊行為時,其交感神經(jīng)系統(tǒng)或者副交感神經(jīng)系統(tǒng)的活動會增強(qiáng),以及在心理層面上會產(chǎn)生緊張情緒,進(jìn)而使得說謊者的心率、血壓、呼吸和肌肉收縮活動發(fā)生變化。測謊技術(shù)的主要依據(jù)是聲音、肢體語言、面部表情、心理反應(yīng)和生理指標(biāo)的變化,而語音信號中包含著人類豐富的情感信息,并且受多方面因素的廣泛影響,在說謊狀態(tài)下,由于神經(jīng)系統(tǒng)的控制和緊張情緒的影響,聲帶披裂肌群的緊縮、松弛活動與非說謊狀態(tài)相比更加劇烈,導(dǎo)致語音參數(shù)發(fā)生變化。相比測謊所用的血壓、心跳和腦電等生理信號而言,語音信號更加便于采集和分析,因而基于語音分析的測謊研究具有重要價值。
現(xiàn)有謊言檢測研究的識別準(zhǔn)確率普遍處于70%以下,而研究表明傳統(tǒng)的音質(zhì)和韻律方面的聲學(xué)特征對于謊言檢測問題的識別性能不佳。小波分析法是實(shí)現(xiàn)語音信號分析的一個極其重要并且已經(jīng)得到廣泛應(yīng)用的方法,小波包變換具有較好的時頻特性,通過多尺度分析法能夠?qū)崿F(xiàn)對語音頻帶無重疊的多層次分解,同時對語音高、低頻區(qū)間逐層解析,能夠?qū)崿F(xiàn)自適應(yīng)地提取表征語音特性的大量中、高頻區(qū)域信息,因而適用于分析語音信號中、高頻區(qū)間所包含的不可忽略的細(xì)節(jié)信息。
特征冗余也是影響模型識別準(zhǔn)確率的一個重要因素,隨著所提取特征種類和維數(shù)的增加,數(shù)據(jù)集內(nèi)存在冗余信息,在進(jìn)行高維特征的模型訓(xùn)練和識別時,就會引起樣本數(shù)量與樣本維度不均衡以及計算復(fù)雜度增大的問題,導(dǎo)致樣本集內(nèi)數(shù)據(jù)的類間差異性不易被鑒別和區(qū)分。傳統(tǒng)的數(shù)據(jù)降維方法如主成分分析法(principalcomponentanalysis,pca)、線性鑒別分析法(lineardiscriminantanalysis,lda)等,并不能較好的處理非線性數(shù)據(jù)集,且只能用來處理一類特征,不能夠有效去除那些冗余且差異性不顯著的特征向量。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的發(fā)明目的是提供一種用于語音測謊系統(tǒng)中的稀疏譜特征提取方法,一方面可以彌補(bǔ)傳統(tǒng)梅爾頻率譜系數(shù)提供中高頻段信息存在的不足,另一方面可以解決非線性融合參數(shù)集的冗余問題,降低分類模型的計算復(fù)雜度。
為達(dá)到上述發(fā)明目的,本發(fā)明采用的技術(shù)方案是:一種用于語音測謊系統(tǒng)中的稀疏譜特征提取方法,包括如下步驟:
步驟一、提取語音信號的梅爾頻率譜系數(shù)、小波包頻帶倒譜系數(shù),并融合所述梅爾頻率譜系數(shù)和小波包頻帶倒譜系數(shù)構(gòu)成倒譜特征;
步驟二、采用k-奇異值分解算法對倒譜特征進(jìn)行訓(xùn)練得到混合過完備表示字典;
步驟三、在步驟二中所得到的混合過完備表示字典上,采用正交匹配追蹤算法對倒譜特征進(jìn)行稀疏編碼,獲取稀疏譜特征。
進(jìn)一步地,所述步驟一中的小波包頻帶倒譜系數(shù)的提取步驟包括:
(1)對原始的真話和謊話語料進(jìn)行分段、分幀加漢明窗預(yù)處理獲取有效語音幀x(n);
(2)對有效語音幀x(n)進(jìn)行6層小波包分解,對分解后的節(jié)點(diǎn)重新按升序排列,獲取相應(yīng)子頻帶的小波包系數(shù)dm[n](m=1,…,m);
(3)計算各個子節(jié)點(diǎn)的能量:
其中,m為分解后每層中子節(jié)點(diǎn)的數(shù)目總和;
(4)對m個節(jié)點(diǎn)的對數(shù)能量進(jìn)行離散余弦變換:
由上式求得24階小波包頻帶倒譜系數(shù)。
進(jìn)一步地,所述步驟二中的混合過完備表示字典獲取的具體步驟包括:
(1)定義一個給定的初始字典a:
由上式求解原始特征參數(shù)s∈rn×k的稀疏表示結(jié)果,得到系數(shù)矩陣x;
(2)根據(jù)系數(shù)矩陣x中的非零值對a中的原子逐個更新。在每次迭代過程中僅計算一個原子ɑj及其在矩陣x中對應(yīng)的向量
其中,矩陣ek為s中n幀參數(shù)在拿掉第k列之后進(jìn)行稀疏表示的總體誤差,ɑj表示a中的第j個原子,
定義wk為所用到原子的下標(biāo)集合:
定義ωk為(wk(i),i)處的值是1,其他處是0的矩陣,則誤差矩陣為:
(3)對誤差矩陣
用矩陣u的首列替換迭代計算前的原子ɑj,v(:,1)δ(1,1)替換迭代前的系數(shù)向量,
將從真話和謊話語料中提取的倒譜特征矩陣st和sf,分別通過上述算法進(jìn)行字典學(xué)習(xí),得到表征真話和謊話的子字典at和af,對這兩個子字典進(jìn)行融合:
a=[ataf]
得到表征真話和謊話兩類參數(shù)特性的混合過完備字典a。
進(jìn)一步地,所述步驟三中的稀疏譜特征獲取的具體步驟包括:
(1)給定字典矩陣a,參數(shù)向量s,配置稀疏度參數(shù)l,令殘差r0=s,索引集
(2)求出使得r和字典a中原子ɑj之內(nèi)積最大時的下標(biāo)λ:
λt=argmaxj=1ln|<rt-1,aj>|;
(3)更新索引集λt=λt-1u{λt},收集尋找到的字典a中的重構(gòu)原子集
(4)根據(jù)最小二乘法計算:
(5)對殘差進(jìn)行更新:
直到滿足要求t>l,則不再進(jìn)行迭代計算,得到每幀語料的參數(shù)矩陣st和sf在混合字典a下的稀疏特征。
由于上述技術(shù)方案運(yùn)用,本發(fā)明與現(xiàn)有技術(shù)相比具有下列優(yōu)點(diǎn):
本發(fā)明實(shí)現(xiàn)從倒譜分析的角度獲取說謊和不說謊狀態(tài)下語音信號蘊(yùn)含的信息并加以鑒別,通過小波包分解獲取相應(yīng)子帶系數(shù)并進(jìn)一步提取人耳聽覺并不敏感的信號中、高頻段能量信息,從中尋求真話和謊話兩類聲音信號之間的差異性;而高維空間本身就具有稀疏性,在字典原子個數(shù)遠(yuǎn)大于輸入信號維數(shù)的過完備字典上進(jìn)行稀疏編碼則能夠利用較少的原子實(shí)現(xiàn)信號的近似表示,很大程度上降低了數(shù)據(jù)維度,同時基于數(shù)據(jù)集得到的訓(xùn)練字典能夠近似表征原始數(shù)據(jù)特性,適用于處理非線性參數(shù)集,采用所有樣本訓(xùn)練得到的混合過完備字典進(jìn)行稀疏編碼可以更好的實(shí)現(xiàn)語音信號降噪和分類識別,本發(fā)明結(jié)合字典學(xué)習(xí)和稀疏編碼對參數(shù)進(jìn)行稀疏分解,使得兩類樣本的差異性得到凸顯,實(shí)現(xiàn)參數(shù)優(yōu)化和抽取。
附圖說明
圖1是本發(fā)明實(shí)施例一中的方法流程圖。
圖2是本發(fā)明實(shí)施例一中的步驟一中提取小波包頻帶倒譜系數(shù)框圖。
圖3是本發(fā)明實(shí)施例一中分類識別系統(tǒng)框圖。
具體實(shí)施方式
下面結(jié)合附圖及實(shí)施例對本發(fā)明作進(jìn)一步描述:
實(shí)施例一:
參見圖1所示,一種用于語音測謊系統(tǒng)中的稀疏譜特征提取方法,包括如下步驟:
步驟一、提取語音信號的梅爾頻率譜系數(shù)、小波包頻帶倒譜系數(shù),并融合所述梅爾頻率譜系數(shù)和小波包頻帶倒譜系數(shù)構(gòu)成倒譜特征;
步驟二、采用k-奇異值分解算法對倒譜特征進(jìn)行訓(xùn)練得到混合過完備表示字典;
步驟三、在步驟二中所得到的混合過完備表示字典上,采用正交匹配追蹤算法對倒譜特征進(jìn)行稀疏編碼,獲取稀疏譜特征。
本實(shí)施例中,參見圖2所示,所述步驟一中的小波包頻帶倒譜系數(shù)的提取步驟包括:
(1)對原始的真話和謊話語料進(jìn)行分段、分幀加漢明窗預(yù)處理獲取有效語音幀x(n);
(2)對有效語音幀x(n)進(jìn)行6層小波包分解,對分解后的節(jié)點(diǎn)重新按升序排列,獲取相應(yīng)子頻帶的小波包系數(shù)dm[n](m=1,…,m);
(3)計算各個子節(jié)點(diǎn)的能量:
其中,m為分解后每層中子節(jié)點(diǎn)的數(shù)目總和;
(4)對m個節(jié)點(diǎn)的對數(shù)能量進(jìn)行離散余弦變換:
由上式求得24階小波包頻帶倒譜系數(shù),所劃分的節(jié)點(diǎn)與帶寬如表1所示。
表1
所述步驟二中的混合過完備表示字典獲取的具體步驟包括:
(1)定義一個給定的初始字典a:
由上式求解原始特征參數(shù)s∈rn×k的稀疏表示結(jié)果,得到系數(shù)矩陣x;
(2)根據(jù)系數(shù)矩陣x中的非零值對a中的原子逐個更新。在每次迭代過程中僅計算一個原子ɑj及其在矩陣x中對應(yīng)的向量
其中,矩陣ek為s中n幀參數(shù)在拿掉第k列之后進(jìn)行稀疏表示的總體誤差,ɑj表示a中的第j個原子,
定義ωk為(wk(i),i)處的值是1,其他處是0的矩陣,則誤差矩陣重新表示為:
(3)對誤差矩陣
用矩陣u的首列替換迭代計算前的原子ɑj,v(:,1)δ(1,1)替換迭代前的系數(shù)向量,
將從真話和謊話語料中提取的倒譜特征矩陣st和sf,分別通過上述算法進(jìn)行字典學(xué)習(xí),得到表征真話和謊話的子字典at和af,對這兩個子字典進(jìn)行融合:
a=[ataf]
得到表征真話和謊話兩類參數(shù)特性的混合過完備字典a。
所述步驟三中的稀疏譜特征獲取的具體步驟包括:
(1)給定字典矩陣a,參數(shù)向量s,配置稀疏度參數(shù)l,令殘差r0=s,索引集
(2)求出使得r和字典a中原子ɑj之內(nèi)積最大時的下標(biāo)λ:
λt=argmaxj=1ln|<rt-1,aj>|;
(3)更新索引集λt=λt-1u{λt},收集尋找到的字典a中的重構(gòu)原子集
(4)根據(jù)最小二乘法計算:
(5)對殘差進(jìn)行更新:
直到滿足要求t>l,則不再進(jìn)行迭代計算,得到每幀語料的參數(shù)矩陣st和sf在混合字典a下的稀疏特征。
本發(fā)明可以通過以下識別實(shí)驗進(jìn)行驗證:
參見圖3所示,本發(fā)明采用susp-dsd測謊語料庫對算法進(jìn)行驗證,語料庫由40名說話人錄制而成,包含真話和自發(fā)形式的謊言,從中選取3789句語料進(jìn)行實(shí)驗。
實(shí)驗中隨機(jī)選取其中的70%作為訓(xùn)練集,其余作為測試集。采用支持向量機(jī)作為分類器,采用識別準(zhǔn)確率作為評價指標(biāo)。
將本發(fā)明所提取的稀疏譜特征與現(xiàn)有研究中所用到的語音特征比較,包括基音頻率、共振峰參數(shù)和mfcc參數(shù)三種特征。其中每幀稀疏譜特征維數(shù)是7,稀疏wpbcc特征維數(shù)是5,表2為實(shí)驗結(jié)果。
表2
從表2的結(jié)果中可以看出,本發(fā)明所提出稀疏譜特征的識別效果明顯優(yōu)于現(xiàn)有的基頻和共振峰參數(shù)。
將本發(fā)明的算法與主成分分析法(pca)、k-svd字典學(xué)習(xí)法的特征優(yōu)化結(jié)果進(jìn)行對比,表3為實(shí)驗結(jié)果。
表3
從實(shí)驗結(jié)果可以看出,本發(fā)明所提出的特征優(yōu)化算法識別效果,明顯高于k-svd字典學(xué)習(xí)階段所提取的稀疏特征。同時本發(fā)明算法的識別效果優(yōu)于傳統(tǒng)的pca降維方法。
本發(fā)明實(shí)現(xiàn)從倒譜分析的角度獲取說謊和不說謊狀態(tài)下語音信號蘊(yùn)含的信息并加以鑒別,我們通過小波包分解獲取相應(yīng)子帶系數(shù)并進(jìn)一步提取人耳聽覺并不敏感的信號中、高頻段能量信息,從中尋求真話和謊話兩類聲音信號之間的差異性。
而高維空間本身就具有稀疏性,在字典原子個數(shù)遠(yuǎn)大于輸入信號維數(shù)的過完備字典上進(jìn)行稀疏編碼則能夠利用較少的原子實(shí)現(xiàn)信號的近似表示,很大程度上降低了數(shù)據(jù)維度。同時基于數(shù)據(jù)集得到的訓(xùn)練字典能夠近似表征原始數(shù)據(jù)特性,適用于處理非線性參數(shù)集。若通過字典訓(xùn)練提取稀疏系數(shù)作為稀疏特征,此階段系數(shù)矩陣的取得是基于不同的過完備字典,不能很好的體現(xiàn)兩類樣本參數(shù)特性,而采用所有樣本訓(xùn)練得到的混合過完備字典進(jìn)行稀疏編碼可以更好的實(shí)現(xiàn)語音信號降噪和分類識別。本發(fā)明結(jié)合字典學(xué)習(xí)和稀疏編碼對參數(shù)進(jìn)行稀疏分解,使得兩類樣本的差異性得到凸顯,實(shí)現(xiàn)參數(shù)優(yōu)化和抽取。
對所公開的實(shí)施例的上述說明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對上述實(shí)施例的多種修改對本領(lǐng)域的專業(yè)技術(shù)人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其它實(shí)施例中實(shí)現(xiàn)。因此,本發(fā)明將不會被限制于本文所示的上述實(shí)施例,而是要符合與本文所公開的原理和新穎特點(diǎn)相一致的最寬的范圍。