專利名稱:基于情感遷移規(guī)則及語音修正的說話人識別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信號處理和模式識別領(lǐng)域,主要是一種基于情感遷移規(guī)則及語音修正的說話人識別方法。
背景技術(shù):
隨著生物學(xué)和信息技術(shù)高度發(fā)展的21世紀(jì)的來臨,生物證人技術(shù)作為一種更加便捷、先進(jìn)的信息安全技術(shù)開始在全球電子商務(wù)時代嶄露頭角。聲紋識別屬于其中的一種,是一項根據(jù)語音波形中反映說話人生理和行為特征的語音參數(shù),自動識別說話人身份的技術(shù)。
相比于其他的生物認(rèn)證技術(shù),聲紋識別,即說話人識別,具有無需接觸,易接受,使用方便、經(jīng)濟(jì)、準(zhǔn)確,等以及適用于遠(yuǎn)程應(yīng)用優(yōu)勢。但是在實際應(yīng)用中,聲紋識別的性能除了會受到外界噪聲的影響之外,還會隨著說話人自身狀態(tài)(如情感)的變化而影響到采集與對比的結(jié)果。所以,強(qiáng)魯棒性的聲紋識別系統(tǒng)應(yīng)該綜合考慮說話人的生理和行為相結(jié)合的特征。聲紋特征提取的不僅是語音信號中的生理特征,還包括其中的情感特征,整個識別系統(tǒng)根據(jù)說話人的生理和行為相結(jié)合的特征進(jìn)行識別,從前提上消除了由于情感變化所帶來的聲紋識別系統(tǒng)性能不穩(wěn)定的隱患。
現(xiàn)有的情感語音說話人識別系統(tǒng)在以往基于中性語音的說話人語音模型中加入特定說話人的情感語音,利用說話人各種情感狀態(tài)下的語音進(jìn)行建模,以消除情感變化的影響。
這種基于情感語音的說話人建模方法,要求在采集用戶中性語音要求用戶同時給出情感語音。這種刻意的情感表達(dá),往往難以獲得用戶的認(rèn)同,破壞了說話人識別原有的友好性。
發(fā)明內(nèi)容
本發(fā)明要解決上述技術(shù)所存在的缺陷,提供一種基于情感遷移規(guī)則及語音修正的說話人識別方法。通過對不同情感狀態(tài)下語音特征的分析,實現(xiàn)中性語音修正,豐富語音中的情感信息,生成具有情感信息的中間狀態(tài)語音,使得采集與對比時的語音情感狀態(tài)相一致,從而提高說話人識別的性能。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案這種基于情感遷移規(guī)則及語音修正的說話人識別方法,首先對具有相同文本的中性語音與情感語音提取其中能反映情感信息的語音特征,并對這些特征進(jìn)行分析和對比,然后根據(jù)這些特征的變化規(guī)律修正采集的中性語音中的特征參數(shù)。當(dāng)對比語音的情感狀態(tài)不是中性的時候,就可以選用具備相應(yīng)情感信息的語音模型來對比。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案還可以進(jìn)一步完善。所述的進(jìn)行對比情感特征為平均基頻、基頻范圍、發(fā)音持續(xù)時間、平均強(qiáng)度和強(qiáng)度范圍。所述的中性語音中要修正的特征參數(shù)為將音頻分幀后,對各幀進(jìn)行線性預(yù)測編碼分析,得到線性預(yù)測編碼系數(shù)和余量信息,以及語音強(qiáng)度。所述的具備情感信息的中間狀態(tài)語音為把根據(jù)情感特征修正以后的中性語音特征參數(shù)利用線性預(yù)測編碼合成的方法合成得到的語音。所述的說話人模型為用高斯混合模型對從具備情感信息的中間狀態(tài)語音提取的梅爾倒譜特征系數(shù)建模得到的模型。
本發(fā)明有益的效果是結(jié)合語音特征修正和語音合成兩種方法,使得采集的語音與對比的語音情感狀態(tài)相一致,來提高說話人識別系統(tǒng)的性能。
圖1是本發(fā)明的基于情感遷移規(guī)則及語音修正的抗情感變化的說話人識別方法系統(tǒng)框架圖;圖2是本發(fā)明的語音修正的算法流程圖;具體實施方式
下面結(jié)合附圖和實施例對本發(fā)明作進(jìn)一步介紹本發(fā)明的方法共分五步。
第一步音頻預(yù)處理音頻預(yù)處理分為采樣量化,去零漂,預(yù)加重和加窗三個部分。
1、采樣量化A)、用銳截止濾波器對音頻信號進(jìn)行濾波,使其奈奎斯特頻率FN為4KHZ;B)、設(shè)置音頻采樣率F=2FN;C)、對音頻信號Sa(t)按周期進(jìn)行采樣,得到數(shù)字音頻信號的振幅序列s(n)=sa(nF);]]>D)、用脈沖編碼調(diào)制(PCM)對s(n)進(jìn)行量化編碼,得到振幅序列的量化表示s’(n)。
2、去零漂A)、計算量化的振幅序列的平均值s;B)、將每個振幅值減去平均值,得到去零漂后平均值為0的振幅序列s”(n)。
3、預(yù)加重A)、設(shè)置數(shù)字濾波器的Z傳遞函數(shù)H(z)=1-αz-1中的預(yù)加重系數(shù)α,α可取1或比1稍小的值;
B)、s”(n)通過數(shù)字濾波器,得到音頻信號的高、中、低頻幅度相當(dāng)?shù)恼穹蛄衧(n)。
4、加窗A)、計算音頻幀的幀長N(32毫秒)和幀移量T(10毫秒),分別滿足NF=0.032]]>TF=0.010]]>這里F是音頻采樣率,單位為Hz;B)、以幀長為N、幀移量為T,把s(n)劃分成一系列的音頻幀F(xiàn)m,每一音頻幀包含N個音頻信號樣本;C)、計算哈明窗函數(shù) D)、對每一音頻幀F(xiàn)m加哈明窗ω(n)×Fm(n){Fm′(n)|n=0,1,…,N-1}。
第二步情感語音特征提取語音幀的特征提取包括基頻(Pitch)、線性預(yù)測編碼系數(shù)和余量信號的提取。
1、Pitch的提取A)、設(shè)置基音頻率的搜索范圍ffloor=50,fceiling=1250(Hz);B)、設(shè)置語音的基音頻率的取值范圍fmin=50,fmax=550(Hz);C)、做快速傅立葉變換FFT,將時域信號s(n)變成頻域信號X(k)。
D)、計算每個頻率的SHR(分諧波-諧波比例)SHR=SS/SH其中SS=Σn=1NX((n-1/2)f),SH=Σn=1NX(nf),N=fceiling/f]]>E)、找出SHR最高的頻率f1F)、如果f1>fmax或者f1的SS-SH<0,那么認(rèn)為是非語音或靜音幀,沒有基音頻率,Pitch=0
G)、在[1.9375f1,2.062f1]的區(qū)間尋找SHR的局部極大的頻率f2H)、如果f2>fmax,或者f2的SHR>0.2,Pitch=f1I)、其他情況,Pitch=f2J)、對得到的基音頻率進(jìn)行自相關(guān)效驗從幀的中點開始,前后各取1/pitch長的采樣點,計算它們的自相關(guān)值C,如果C<0.2那么認(rèn)為基音頻率值不可靠,Pitch=0。
K)、最后對全部的Pitch值進(jìn)行中值平滑濾波。
2、線性預(yù)測編碼系數(shù)(LPCC)A)、設(shè)置線性預(yù)測編碼(LPC)的階數(shù)p;B)、計算p階LPC系數(shù){ai}(i=1,2,...,p),由遞推式Ri=Σn=iN-1s(n)s(n-i)]]>E0=R0Ki=-[Ri+Σj=1i-1aj((i-1)Ri-j]/Ei-1]]>1≤i≤pai(i)=ki]]>aj(i)=aj(i-1)+kiai-j(i-1)]]>1≤j≤i-1Ei=(1-ki2)Ei-1]]>i=1,2,...,paj=aj(p)]]>1≤j≤p即可算得{ai},其中Ri為自相關(guān)函數(shù)。
3、余量信號u(n)=[s(n)-Σi=1pais(n-i)]/G]]>其中G為激勵系數(shù)。
第三步、情感特征分析情感特征分析包括平均基頻、基頻范圍、發(fā)音持續(xù)時間、強(qiáng)度的均值和強(qiáng)度的變化范圍的分析。
1、平均基頻計算及變化分析A)、平均基頻的計算;Pmean=Σi=1fPif.]]>其中,Pmean是一個語句的平均基頻,Pi是各幀的基音值,f是語句中的語音幀數(shù)B)、平均基頻的變化規(guī)律是指情感語音和中性語音的平均基頻的差值A(chǔ)P=Pmean-e-Pmean-n其中,AP是平均基頻的變化規(guī)律,Pmean-e和Pmean-n分別是情感語句和相應(yīng)的中性語句的平均基頻。
2、基頻范圍計算及變化分析A)、基頻范圍的計算;R=Pmax-Pmin其中,R是一個語句的基頻范圍,Pmax是語句中基音的最大值,Pmin是語句中基音的最小值。
B)、基頻范圍的變化規(guī)律是指情感語音比中性語音的基頻范圍的商值PR=Re/Rn其中,PR是基頻范圍的變化規(guī)律,Re和Rn分別是情感語句和相應(yīng)的中性語句的基頻范圍。
3、發(fā)音的持續(xù)時間計算及變化分析A)、語句發(fā)音持續(xù)時間是每一句語句從開始到結(jié)束的持續(xù)時間。確定一句話的開始和結(jié)束的位置采用的方法是把語音能量和預(yù)先設(shè)定的能量閥值作比較。當(dāng)語音能量超過這個閥值,并且在接下來的連續(xù)幾幀都高于這個閥值,標(biāo)志著一句話的開始。當(dāng)語音能量連續(xù)幾幀低于這個閥值時表示一句話的結(jié)束。根據(jù)這個定義,用第一步中確定的每個語句的幀數(shù)來衡量語句的發(fā)音持續(xù)時間;
B)、發(fā)音持續(xù)時間的變化根據(jù)情感語句的持續(xù)時間和相應(yīng)的中性語句持續(xù)時間的比值得到D=fe/fn其中,D是發(fā)音持續(xù)時間的變化規(guī)律,fe和fn分別是情感語句和相應(yīng)的中性語句的語音幀數(shù)。
4、平均強(qiáng)度的計算及變化分析A)、A)、平均強(qiáng)度的計算;Tmean=Σi=1KTiK]]>其中,Tmean是一個語句的平均強(qiáng)度,Pi是各個采樣點的值,K是語句中的采樣點數(shù)。
B)、平均強(qiáng)度的變化規(guī)律是指情感語音和中性語音的平均強(qiáng)度的差值A(chǔ)T=Tmean-e-Tmean-n其中,AP是平均強(qiáng)度的變化規(guī)律,Tmean-e和Tmean-n分別是情感語句和相應(yīng)的中性語句的平均強(qiáng)度。
5、強(qiáng)度范圍的計算及變化分析A)、強(qiáng)度范圍的計算;TR=Rmax-Rmin其中,TR是一個語句的強(qiáng)度范圍,Rmax是語句中強(qiáng)度的最大值,Rmin是語句中強(qiáng)度的最小值。
B)、強(qiáng)度范圍的變化規(guī)律是指情感語音比中性語音的強(qiáng)度范圍的商值TRC=TRe/TRn其中,TRC是強(qiáng)度范圍的變化規(guī)律,TRe和TRn分別是情感語句和相應(yīng)的中性語句的強(qiáng)度范圍。
第四步、語音修正及中間狀態(tài)語音合成得到中性語音與情感語音的變化規(guī)律之后,就可以通過得到的變化信息,對中性語音的參數(shù)進(jìn)行修正,同時利用這些新的參數(shù)得到具備情感信息的中間狀態(tài)語音。
1、修正中性語音的持續(xù)時間通過對中性語音的幀數(shù)的加堿來達(dá)到改變語音持續(xù)時間的作用。
對D值取整為K,如果D大于1,則說明情感的變化將延長語音持續(xù)時間,使得語音幀數(shù)增加。為了模仿情感語音,對每K幀在末尾用第K幀模仿第K+1幀,原來的第K+1幀順延變?yōu)榈贙+2幀。如果D小于1,則說明情感的變化將縮短語音持續(xù)時間,使得語音幀數(shù)減少。刪去每K幀的最后一幀第K幀,原來的第K+1幀變?yōu)榈贙幀。
2、修正中性語音的基頻um=(u+AP)*PR其中,um為修正后的中性語音的基頻,u為經(jīng)過持續(xù)時間修正后的中性語音基頻,AP是平均基頻的變化規(guī)律,PR是基頻范圍的變化規(guī)律。
3、合成中間狀態(tài)語音同樣地,根據(jù)修正后的線性預(yù)測編碼系數(shù)和余量信息,利用預(yù)測編碼合成得到中間狀態(tài)語音。
s(n)=Gum(n)+Σi=1pais(n-i)]]>4、修正中間狀態(tài)的語音的強(qiáng)度最后,對經(jīng)過預(yù)測編碼合成得到語音進(jìn)行語音強(qiáng)度修正,得到具備情感信息的中間狀態(tài)語音。
Tm=(T+AT)*TRC其中,Tm為修正后的中性語音的強(qiáng)度,u為預(yù)測編碼合成得到語音的強(qiáng)度,AT是平均強(qiáng)度的變化規(guī)律,TRC是強(qiáng)度范圍的變化規(guī)律。
第五步、說話人識別在獲取具備情感信息的中間狀態(tài)語音之后,對其提取梅爾倒譜特征,并采用高斯混合模型(GMM)進(jìn)行說話人識別。對每一個用戶建立一個高斯混合模型,需要對每個人的模型參數(shù)進(jìn)行訓(xùn)練。輸入的語音信號(中間狀態(tài)語音,測試音)首先要進(jìn)行特征提取。說話人識別分為特征提取,模型訓(xùn)練,身份識別三個部分。
1、MFCC的提取A)、設(shè)置梅爾倒譜系數(shù)的階數(shù)p;B)、做快速傅立葉變換FFT,將時域信號s(n)變成頻域信號X(k)。
C)、計算梅爾域刻度Mi=ip×2592log(1+8000/2.0700.0),(i=0,1,2,...,p)]]>D)、計算對應(yīng)的頻域刻度fi=700×eMi2595ln10-1,(i=0,1,2,...,p)]]>E)、計算每個梅爾域通道φj上的對數(shù)能量譜Ej=Σk=0K2-1φj(k)|X(k)|2]]>其中Σk=0K2-1φj(k)=1.]]>F)、做離散余弦變換DCT2、GMM模型訓(xùn)練每一說話人的語音特征在特征空間中都形成了特定的分布,可以用這一分布來描述說話人的個性。高斯混合模型(GMM)是用多個高斯分布的線性組合近似說話人的特征分布。
每一說話人的概率密度函數(shù)的函數(shù)形式是相同的,所不同的只是函數(shù)中的參數(shù)。M階高斯混合模型GMM用M個單高斯分布的線性組合來描述幀特征在特征空間中的分布,即p(x)Σi=1MPibi(x)]]>bi(x)=N(x,ui,Ri)]]>=1(2π)p/2|pi|1/2exp{-12(x-ui)TRi-1(x-ui)}]]>其中,p是特征的維數(shù),bi(x)為核函數(shù),是均值矢量為ui、協(xié)方差矩陣為Ri的高斯分布函數(shù),M(可選,一般為16,32)是GMM模型的階數(shù),在建立說話人模型以前設(shè)定為一確定整數(shù)。λ=Δ{Pi,ui,Ri|i=1,2,...,M}]]>為說話人特征分布GMM中的參數(shù)。作為高斯混合分布的加權(quán)系數(shù),Pi應(yīng)滿足使得∫-∞+∞p(x/λ)dx=1]]>由于計算GMM中的p(x)需要求p×p維方陣Ri(i=1,2,...,M)的逆,運(yùn)算量大。為此,將Rj設(shè)為對角陣,將求逆運(yùn)算轉(zhuǎn)化為求倒數(shù)運(yùn)算,提高運(yùn)算速度。
3、識別用戶語音輸入后,經(jīng)特征提取,得到一特征向量序列。該序列輸入到相關(guān)用戶模型參數(shù)的GMM沖,得到相似度值s。取生成最大的s值的GMM模型所對應(yīng)的用戶為識別者。
實驗結(jié)果本系統(tǒng)在Emotional Prosody Speech語音庫上進(jìn)行了實驗。這個語音庫是由國際語言學(xué)數(shù)據(jù)聯(lián)盟依據(jù)數(shù)據(jù)庫標(biāo)準(zhǔn)建立的情感語音數(shù)據(jù)庫,用作不同情感語音的發(fā)音特征研究,由7名專業(yè)演員(3名男性目標(biāo)說話人和4名女性目標(biāo)說話人)來錄制的,用英語朗讀一系列特定予以的語句,主要是日期和數(shù)字,涵蓋了14種不同情感類型。錄音的方法是讓演員表演相應(yīng)情感時候的不同語氣、語調(diào)以及語速,每個說話人在每種情感的錄音時間不等,大約在10秒到40秒之間,也有極少數(shù)長達(dá)50秒,每個說話人總的錄音時間大約在5、6分鐘。
我們同時在這個庫上用傳統(tǒng)的說話人識別方法(Baseline)和加入線性預(yù)測編碼分析和合成但是沒有進(jìn)行特征修正的說話人識別方法(Unmodified LPC)進(jìn)行了同樣的實驗,用于和本系統(tǒng)(Modified LPC)進(jìn)行對比。這兩種方法都是利用中性語音對說話人進(jìn)行建模,沒有用到任何情感的先驗知識。
傳統(tǒng)的無任何處理的說話人識別方法基于本說明的第一步和第六步。對中性語音進(jìn)行預(yù)處理以后,對其提取梅爾倒譜特征,利用高斯混合模型對說話人建模。同樣的,測試的情感語音在經(jīng)過預(yù)處理和梅爾倒譜特征提取的過程之后,與建好的說話人模型進(jìn)行匹對,取得分最高的模型所對應(yīng)的說話人為說別者。
加入線性預(yù)測編碼分析和合成但是沒有進(jìn)行特征修正的說話人識別方法在傳統(tǒng)說話人識別方法的基礎(chǔ)上,在語音預(yù)處理之后,進(jìn)行線性預(yù)測編碼分析,之后利用分析得到的初始線性預(yù)測編碼系數(shù)和余量信號(在未作任何修正的情況下)進(jìn)行合成,再對語音提取梅爾倒譜特征,之后利用高斯混合模型對說話人建模。同樣的,測試的情感語音在經(jīng)過預(yù)處理之后,也多了一步線性預(yù)測編碼分析和合成的過程。
我們對14種情感測試語音對中性語音的說話人模型的識別結(jié)果評估。實驗結(jié)果如下
其中,“Baseline”表示傳統(tǒng)的說話人識別方法,“Unmodified LPC”表示加入線性預(yù)測編碼分析和合成但是沒有進(jìn)行特征修正的說話人識別方法,“Modified LPC”表示本系統(tǒng)所提出的方法?!癐R”表示說話人的識別正確率,即在用戶為合法的情況下,將申請人與數(shù)據(jù)庫中的所有合法用戶做比較,從而給出最相似用戶,如果申請人與給出的用戶為同一個人,則識別正確。
實驗結(jié)果表明,傳統(tǒng)的無任何處理的說話人識別方法在采集語音和測試語音情感狀態(tài)相一致的情況下(均為中性語音時),能達(dá)到較好的識別率,但當(dāng)測試情感發(fā)生變化時,性能急劇下降。
在對語音提取梅爾倒譜特征之前,進(jìn)行線性預(yù)測編碼分析和合成,不會丟失說話人特有的特征。
本識別算法能通過對文本相同的情感語音和中性語音的分析,根據(jù)語音的變化規(guī)律,對中性語音進(jìn)行修正,把情感信息加入到中性語音中去。本算法能根據(jù)情感的先驗知識,不需要特定的說話人情感語音,并且提高了說話人識別的識別率,所以增強(qiáng)了說話人識別系統(tǒng)在說話人情感波動情況下的魯棒性。
權(quán)利要求
1.一種基于情感遷移規(guī)則及語音修正的說話人識別方法,其特征在于首先對具有相同文本的中性語音與情感語音提取其中能反映情感信息的語音特征,并對這些特征進(jìn)行分析和對比,然后根據(jù)這些特征的變化規(guī)律修正采集的中性語音中的特征參數(shù);當(dāng)對比語音的情感狀態(tài)不是中性的時候,用具備相應(yīng)情感信息的語音模型來對比。
2.根據(jù)權(quán)利要求1所述的基于情感遷移規(guī)則及語音修正的說話人識別方法,其特征在于所述的中性語音中要修正的特征參數(shù)為將音頻分幀后,對各幀進(jìn)行線性預(yù)測編碼分析,得到線性預(yù)測編碼系數(shù)和余量信息,以及語音強(qiáng)度。
3.根據(jù)權(quán)利要求1所述的基于情感遷移規(guī)則及語音修正的說話人識別方法,其特征在于所述的具備情感信息的中間狀態(tài)語音為把根據(jù)情感特征修正以后的中性語音特征參數(shù)利用線性預(yù)測編碼合成的方法合成得到的語音。
4.根據(jù)權(quán)利要求1所述的基于情感遷移規(guī)則及語音修正的說話人識別方法,其特征在于所述的說話人模型為用高斯混合模型對從具備情感信息的中間狀態(tài)語音提取的梅爾倒譜特征系數(shù)建模得到的模型。
5.根據(jù)權(quán)利要求1或2或3或4所述的基于情感遷移規(guī)則及語音修正的說話人識別方法,其特征在于該方法的主要步驟5.1)、音頻預(yù)處理音頻預(yù)處理分為采樣量化,去零漂,預(yù)加重和加窗四個部分;5.2)、情感語音特征提取語音幀的特征提取包括基頻、線性預(yù)測編碼系數(shù)和余量信號的提??;5.3)、情感特征分析包括平均基頻、基頻范圍、發(fā)音持續(xù)時間、強(qiáng)度的均值和強(qiáng)度的變化范圍的分析;5.3.1)、平均基頻計算及變化分析A)、平均基頻的計算;Pmean=Σi=1fPif]]>其中,Pmean是一個語句的平均基頻,Pi是各幀的基音值,f是語句中的語音幀數(shù)B)、平均基頻的變化規(guī)律是指情感語音和中性語音的平均基頻的差值A(chǔ)P=Pmean-e-Pmean-n其中,AP是平均基頻的變化規(guī)律,Pmean-e和Pmean-n分別是情感語句和相應(yīng)的中性語句的平均基頻。5.3.2)、基頻范圍計算及變化分析A)、基頻范圍的計算;R=Pmax-Pmin其中,R是一個語句的基頻范圍,Pmax是語句中基音的最大值,Pmin是語句中基音的最小值。B)、基頻范圍的變化規(guī)律是指情感語音比中性語音的基頻范圍的商值PR=Re/Rn其中,PR是基頻范圍的變化規(guī)律,Re和Rn分別是情感語句和相應(yīng)的中性語句的基頻范圍。5.3.3)、發(fā)音的持續(xù)時間計算及變化分析A)、語句發(fā)音持續(xù)時間是每一句語句從開始到結(jié)束的持續(xù)時間,用第一步中確定的每個語句的幀數(shù)來衡量語句的發(fā)音持續(xù)時間;B)、發(fā)音持續(xù)時間的變化根據(jù)情感語句的持續(xù)時間和相應(yīng)的中性語句持續(xù)時間的比值得到D=fe/fn其中,D是發(fā)音持續(xù)時間的變化規(guī)律,fe和fn分別是情感語句和相應(yīng)的中性語句的語音幀數(shù);5.3.4)、平均強(qiáng)度的計算及變化分析A)、平均強(qiáng)度的計算;Tmean=Σi=1KTiK]]>其中,Tmean是一個語句的平均強(qiáng)度,Pi是各個采樣點的值,K是語句中的采樣點數(shù)。B)、平均強(qiáng)度的變化規(guī)律是指情感語音和中性語音的平均強(qiáng)度的差值A(chǔ)T=Tmean-e-Tmean-n其中,AP是平均強(qiáng)度的變化規(guī)律,Tmean-e和Tmean-n分別是情感語句和相應(yīng)的中性語句的平均強(qiáng)度。5.3.5)、強(qiáng)度范圍的計算及變化分析A)、強(qiáng)度范圍的計算;TR=Rmax-Rmin其中,TR是一個語句的強(qiáng)度范圍,Rmax是語句中強(qiáng)度的最大值,Rmin是語句中強(qiáng)度的最小值;B)、強(qiáng)度范圍的變化規(guī)律是指情感語音比中性語音的強(qiáng)度范圍的商值TRC=TRe/TRn其中,TRC是強(qiáng)度范圍的變化規(guī)律,TRe和TRn分別是情感語句和相應(yīng)的中性語句的強(qiáng)度范圍。5.4)、語音修正及中間狀態(tài)語音合成得到中性語音與情感語音的變化規(guī)律之后,通過得到的變化信息,對中性語音的參數(shù)進(jìn)行修正,同時利用這些新的參數(shù)得到具備情感信息的中間狀態(tài)語音;5.5)、說話人識別在獲取具備情感信息的中間狀態(tài)語音之后,對其提取梅爾倒譜特征,并采用高斯混合模型進(jìn)行說話人識別,對每一個用戶建立一個高斯混合模型,對每個人的模型參數(shù)進(jìn)行訓(xùn)練,輸入的語音信號,即中間狀態(tài)語音和測試音,首先要進(jìn)行特征提取,說話人識別分為特征提取,模型訓(xùn)練,身份識別三個部分。
6.根據(jù)權(quán)利要求5所述的基于情感遷移規(guī)則及語音修正的說話人識別方法,其特征在于所述的情感語音特征提取具體為6.1)、Pitch(基音頻率)的提取A)、設(shè)置基音頻率的搜索范圍ffloor=50,fceiling=1250(Hz);B)、設(shè)置語音的基音頻率的取值范圍fmin=50,fmax=550(Hz);C)、做快速傅立葉變換FFT,將時域信號s(n)變成頻域信號X(k);D)、計算每個頻率的分諧波-諧波比例SHR=SS/SH其中SS=Σn=1NX((n-1/2)f),SH=Σn=1NX(nf),N=fceiling/f]]>E)、找出SHR最高的頻率f1F)、如果f1>fmax或者f1的SS-SH<0,那么認(rèn)為是非語音或靜音幀,沒有基音頻率,Pitch=0G)、在[1.937f1,2.062f1]的區(qū)間尋找SHR的局部極大的頻率f2H)、如果f2>fmax,或者f2的SHR>0.2,Pitch=f1I)、其他情況,Pitch=f2J)、對得到的基音頻率進(jìn)行自相關(guān)效驗從幀的中點開始,前后各取1/pitch長的采樣點,計算它們的自相關(guān)值C,如果C<0.2那么認(rèn)為基音頻率值不可靠,Pitch=0;K)、最后對全部的Pitch值進(jìn)行中值平滑濾波;6.2)、線性預(yù)測編碼系數(shù)A)、設(shè)置線性預(yù)測編碼的階數(shù)p;B)、計算p階LPC系數(shù){ai}(i=1,2,...,p),由遞推式Ri=Σn=iN-1s(n)s(n-i)]]>E0=R0Ki=-[Ri+Σj=1i-1aj((i-1)Ri-j]/Ei-1]]>∨1≤i≤pai(i)=ki]]>aj(i)=aj(i-1)+kiai-j(i-1)]]>∨1≤j≤i-1Ei=(1-ki2)Ei-1]]>∨i=1,2,...,paj=aj(p)]]>∨i=1,2,...,p即可算得{ai},其中Ri為自相關(guān)函數(shù);6.3)、余量信號u(n)=[s(n)-Σi=1pais(n-i)]/G;]]>其中G為激勵系數(shù)。
7.根據(jù)權(quán)利要求5所述的基于情感遷移規(guī)則及語音修正的說話人識別方法,其特征在于所述的說話人識別具體步驟為7.1)、MFCC,即梅爾倒譜系數(shù)的提取A)、設(shè)置梅爾倒譜系數(shù)的階數(shù)p;B)、做快速傅立葉變換FFT,將時域信號s(n)變成頻域信號X(k);C)、計算梅爾域刻度Mi=ip×2595log(1+8000/2.0700.0),(i=0,1,2,...,p)]]>D)、計算對應(yīng)的頻域刻度fi=700×eMi2595ln10-1,(i=0,1,2,...,p)]]>E)、計算每個梅爾域通道φj上的對數(shù)能量譜Ej=Σk=0K2-1φj(k)|X(k)|2,]]>其中Σk=0K2-1φj(k)=1;]]>F)、做離散余弦變換DCT;7.2)、GMM模型訓(xùn)練M階高斯混合模型GMM用M個單高斯分布的線性組合來描述幀特征在特征空間中的分布,即p(x)=Σi=1MPibi(x),]]>bi(x)=N(x,ui,Ri)=1(2π)p/2|pi|1/2exp{-12(x-ui)TRi-1(x-ui)}]]>其中,p是特征的維數(shù),bi(x)為核函數(shù),是均值矢量為ui、協(xié)方差矩陣為Ri的高斯分布函數(shù)是GMM模型的階數(shù),在建立說話人模型以前設(shè)定為一確定整數(shù);λ=Δ{Pi,ui,Ri|i=1,2,...,M}]]>為說話人特征分布GMM中的參數(shù),作為高斯混合分布的加權(quán)系數(shù),Pi應(yīng)滿足使得∫-∞+∞p(x/λ)dx=1;]]>7.3)、識別用戶語音輸入后,經(jīng)特征提取,得到一特征向量序列;該序列輸入到相關(guān)用戶模型參數(shù)的GMM中,得到相似度值s;取生成最大的s值的GMM模型所對應(yīng)的用戶為識別者。
8.根據(jù)權(quán)利要求5所述的基于情感遷移規(guī)則及語音修正的說話人識別方法,其特征在于確定一句話的開始和結(jié)束的位置采用的方法是把語音能量和預(yù)先設(shè)定的能量閥值作比較,當(dāng)語音能量超過這個閥值,并且在接下來的連續(xù)幾幀都高于這個閥值,標(biāo)志著一句話的開始,當(dāng)語音能量連續(xù)幾幀低于這個閥值時表示一句話的結(jié)束。
9.根據(jù)權(quán)利要求5所述的基于情感遷移規(guī)則及語音修正的說話人識別方法,其特征在于在語音修正及中間狀態(tài)語音合成中具體步驟如下9.1)、修正中性語音的持續(xù)時間;通過對中性語音的幀數(shù)的加堿來改變語音持續(xù)時間;對D值取整為K,如果D大于1,則說明情感的變化將延長語音持續(xù)時間,使得語音幀數(shù)增加;為了模仿情感語音,對每K幀在末尾用第K幀模仿第K+1幀,原來的第K+1幀順延變?yōu)榈贙+2幀;如果D小于1,則說明情感的變化將縮短語音持續(xù)時間,使得語音幀數(shù)減少,刪去每K幀的最后一幀第K幀,原來的第K+1幀變?yōu)榈贙幀;9.2)、修正中性語音的基頻um=(u+AP)*PR;其中,um為修正后的中性語音的基頻,u為經(jīng)過持續(xù)時間修正后的中性語音基頻,AP是平均基頻的變化規(guī)律,PR是基頻范圍的變化規(guī)律;9.3)、合成中間狀態(tài)語音同樣地,根據(jù)修正后的線性預(yù)測編碼系數(shù)和余量信息,利用預(yù)測編碼合成得到中間狀態(tài)語音;s(n)=Gum(n)+Σi=1pais(n-i)]]>9.4)、修正中間狀態(tài)的語音的強(qiáng)度最后,對經(jīng)過預(yù)測編碼合成得到語音進(jìn)行語音強(qiáng)度修正,得到具備情感信息的中間狀態(tài)語音;Tm=(T+AT)*TRC其中,Tm為修正后的中性語音的強(qiáng)度,u為預(yù)測編碼合成得到語音的強(qiáng)度,AT是平均強(qiáng)度的變化規(guī)律,TRC是強(qiáng)度范圍的變化規(guī)律。
全文摘要
本發(fā)明涉及一種基于情感遷移規(guī)則及語音修正的說話人識別方法,首先對具有相同文本的中性語音與情感語音提取其中能反映情感信息的語音特征,并對這些特征進(jìn)行分析和對比,然后根據(jù)這些特征的變化規(guī)律修正采集的中性語音中的特征參數(shù)。當(dāng)對比語音的情感狀態(tài)不是中性的時候,就可以選用具備相應(yīng)情感信息的語音模型來對比。本發(fā)明有益的效果是結(jié)合語音特征修正和語音合成兩種方法,使得采集的語音與對比的語音情感狀態(tài)相一致,來提高說話人識別系統(tǒng)的性能。
文檔編號G10L15/08GK1787074SQ20051006195
公開日2006年6月14日 申請日期2005年12月13日 優(yōu)先權(quán)日2005年12月13日
發(fā)明者吳朝暉, 楊瑩春, 李東東 申請人:浙江大學(xué)