基于基音周期混合特征參數(shù)的聲紋識(shí)別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及語(yǔ)音信號(hào)處理領(lǐng)域,具體涉及一種基于基音周期混合特征參數(shù)的聲紋 識(shí)別方法。
【背景技術(shù)】
[0002] 在當(dāng)今信息時(shí)代的前提下,作為信息安全的重要組成部分之一的身份識(shí)別技術(shù)引 來(lái)了新的挑戰(zhàn)。傳統(tǒng)的密碼識(shí)別由于算法的局限性與硬軟件解密技術(shù)的上升已經(jīng)展現(xiàn)出了 它的弊端。作為身份識(shí)別的新技術(shù)之一,聲紋識(shí)別技術(shù),因其獨(dú)特的方便性、經(jīng)濟(jì)性及準(zhǔn)確 性等優(yōu)點(diǎn),受到人們?cè)絹?lái)越多的重視。
[0003] 聲紋識(shí)別,就是從說話人的一段語(yǔ)音中提取出說話人的個(gè)性特征,通過對(duì)個(gè)人特 征的分析與識(shí)別,從而達(dá)到對(duì)說話人進(jìn)行辨認(rèn)或者確認(rèn)的目的。說話人識(shí)別并不注意語(yǔ)音 信號(hào)的內(nèi)容,而是希望從語(yǔ)音信號(hào)中提取個(gè)人的特征,由于每個(gè)人獨(dú)特的聲道特性和發(fā)音 特點(diǎn),使得說話人的語(yǔ)音信號(hào)具有區(qū)別于其他說話人的特征,這就是聲紋識(shí)別的基本依據(jù)。
[0004] 聲紋識(shí)別的關(guān)鍵技術(shù),主要是語(yǔ)音信號(hào)的特征參數(shù)提取和識(shí)別模型的建立。最常 用的語(yǔ)音信號(hào)的特征參數(shù)有兩種:一種是根據(jù)語(yǔ)音信號(hào)的檢測(cè)周期,基音周期是語(yǔ)音信號(hào) 處理中最重要的參數(shù)之一,它攜帶著非常重要的語(yǔ)音信息在噪聲環(huán)境中能體現(xiàn)優(yōu)勢(shì);另一 種是根據(jù)語(yǔ)音信號(hào)的全極點(diǎn)模型得到的線性預(yù)測(cè)倒譜系數(shù)(LPCC),反映了說話人聲道的生 理結(jié)構(gòu)差異。LPCC特征參數(shù)的提取,是基于語(yǔ)音信號(hào)為自回歸信號(hào)的假設(shè),利用線性預(yù)測(cè)分 析從而獲得倒譜參數(shù)。LPCC參數(shù)的最大優(yōu)點(diǎn)是它能夠極為精確地估計(jì)語(yǔ)音參數(shù),用很少的 參數(shù)有效而又正確地表現(xiàn)語(yǔ)音波形機(jī)器頻譜的性質(zhì),而且計(jì)算效率高,且對(duì)元音有較好的 表示能力,它缺點(diǎn)在于不能體現(xiàn)輔音的個(gè)性特征,抗噪聲性能較差,識(shí)別率容易受環(huán)境的影 響。GFCC參數(shù)是根據(jù)人耳耳蝸的聽覺響應(yīng)特性模擬而來(lái),通過Gammatone濾波器模擬人耳 處理聲音的過程,即Gammatone濾波器倒譜系數(shù),在說話人識(shí)別系統(tǒng)中的表現(xiàn)要優(yōu)于LPCC。 因此,采用基音周期、LPCC、GFCC組合特征參數(shù),能夠有效地取長(zhǎng)補(bǔ)短,使得聲紋識(shí)別系統(tǒng)具 有較好的識(shí)別率和穩(wěn)定性。
[0005] 目前聲紋識(shí)別系統(tǒng)中的模式匹配方法主要有概率統(tǒng)計(jì)方法、動(dòng)態(tài)時(shí)間規(guī)整(DTW)、 矢量量化(VQ)、隱馬爾可夫模型(HMM)、人工神經(jīng)網(wǎng)絡(luò)方法(ANN)、支持向量機(jī)(SVM)、動(dòng)態(tài) 貝葉斯網(wǎng)絡(luò)(DBN)技術(shù)以及這些方法的組合技術(shù)等。
[0006] 目前在文本無(wú)關(guān)說話人識(shí)別中,概率統(tǒng)計(jì)方法使用較為普遍,特別是高斯組合模 型(GMM),利用語(yǔ)音中的說話人信息在短時(shí)間內(nèi)較為平穩(wěn),通過對(duì)穩(wěn)態(tài)特征如基音、聲門增 益等的統(tǒng)計(jì)分析,可以利用均值、方差等統(tǒng)計(jì)量和概率密度函數(shù)進(jìn)行分類判決。但是訓(xùn)練語(yǔ) 音不足時(shí),基于GMM的聲紋識(shí)別系統(tǒng)的識(shí)別率急劇下降。為了克服因訓(xùn)練語(yǔ)音不夠的而不 能夠很好的刻畫說話人的語(yǔ)音特征的缺陷,而引入了通用背景模型(UBM),從而產(chǎn)生了基于 GMM-UBM的說話人識(shí)別。
【發(fā)明內(nèi)容】
[0007] 本申請(qǐng)通過提供一種基于基音周期混合特征參數(shù)的聲紋識(shí)別方法,包括以下步 驟:語(yǔ)音信號(hào)的采集輸入、語(yǔ)音信號(hào)預(yù)處理、語(yǔ)音信號(hào)組合特征參數(shù)提取:即提取基音周 期、LPCC、ALPCC、能量、能量的一階差分、GFCC特征參數(shù)共同組合成多維特征向量、采用離 散二進(jìn)制粒子群優(yōu)化算法BPS0對(duì)語(yǔ)音信號(hào)組合特征參數(shù)進(jìn)行篩選、引入通用背景模型UBM 訓(xùn)練得到說話人的聲音模型、最后利用GMM-UBM模型對(duì)測(cè)試語(yǔ)音進(jìn)行識(shí)別,以解決現(xiàn)有技 術(shù)中利用單一語(yǔ)音參數(shù)進(jìn)行聲紋識(shí)別的識(shí)別準(zhǔn)確率不高以及聲紋識(shí)別系統(tǒng)不穩(wěn)定的技術(shù) 問題。
[0008] 為解決上述技術(shù)問題,本申請(qǐng)采用以下技術(shù)方案予以實(shí)現(xiàn):
[0009] 一種基于基音周期混合特征參數(shù)的聲紋識(shí)別方法,包括如下步驟:
[0010] S1 :語(yǔ)音信號(hào)的采集輸入;
[0011] S2 :語(yǔ)音信號(hào)的預(yù)處理,主要包括預(yù)加重、分幀和加窗處理;
[0012] S3 :語(yǔ)音信號(hào)組合特征參數(shù)提?。禾崛』糁芷凇PCC、ALPCC、能量、能量的一 階差分以及GFCC特征參數(shù)共同組合成多維特征向量,其中:LPCC為線性預(yù)測(cè)倒譜系數(shù), ALPCC為L(zhǎng)PCC的一階差分,GFCC為Gammatone濾波器倒譜系數(shù);
[0013] S4 :利用離散二進(jìn)制粒子群優(yōu)化算法對(duì)步驟S3中的多維特征向量進(jìn)行篩選,將 GMM-UBM識(shí)別過程中等錯(cuò)誤率作為評(píng)價(jià)函數(shù),選取使得等錯(cuò)誤率最小的特征向量作為聲紋 識(shí)別的特征向量,其中所述GMM-UBM為高斯混合模型與通用背景模型相結(jié)合的說話人識(shí)別 模型;
[0014] S5 :使用GMM-UBM訓(xùn)練得到說話人的聲音模型,即將語(yǔ)音庫(kù)隨機(jī)選取相應(yīng)數(shù)量的 語(yǔ)音訓(xùn)練得到通用背景模型UBM,然后利用最大后驗(yàn)準(zhǔn)則自適應(yīng)得到不同說話人的聲音模 型;
[0015] S6 :提取經(jīng)粒子群優(yōu)化算法篩選后的測(cè)試語(yǔ)音的特征參數(shù),利用步驟S5訓(xùn)練得到 的GMM-UBM模型,計(jì)算出對(duì)數(shù)概率得分,選擇概率得分最大者,即為目標(biāo)說話人。
[0016] 其中步驟S1中利用錄音軟件CoolEdit錄制小語(yǔ)音庫(kù),去除靜音段,并將噪聲衰 減10dB,其中采用頻率為16KHz,量化比特為16bit的wav文件,語(yǔ)音與文本無(wú)關(guān)的連續(xù)語(yǔ) 音。
[0017] 步驟S2中的語(yǔ)音信號(hào)的預(yù)處理,主要包括預(yù)加重、分幀和加窗處理。
[0018] 1、預(yù)加重:由于語(yǔ)音信號(hào)的平均功率譜受聲門激勵(lì)和口鼻輻射的影響,高倍頻大 約在800Hz以上按6dB/倍頻跌落,所以求語(yǔ)音信號(hào)頻譜,頻率越高對(duì)應(yīng)的成分越小,高頻部 分的頻譜也越難求,為此要進(jìn)行預(yù)加重處理。其目的是要提升高頻部分,使信號(hào)的頻譜變得 平坦,保持在低頻到高頻的整個(gè)頻帶中,能用同樣的信噪比求頻譜。預(yù)加重一般在語(yǔ)音信 號(hào)數(shù)字化之后,且預(yù)加重濾波器是一階的,其濾波器的實(shí)現(xiàn)形式:H(z) = 其中u- 般在(〇.9,1)之間。截取一段語(yǔ)音信號(hào),其中采樣頻率為16Khz,量化比特位為16,隨意選 取256個(gè)采樣值。
[0019] 2、分幀、加窗:由于語(yǔ)音信號(hào)具有短時(shí)平穩(wěn)性,預(yù)處理完成后需對(duì)語(yǔ)音信號(hào)進(jìn)行分 幀、加窗處理,便于用短時(shí)分析技術(shù)對(duì)語(yǔ)音信號(hào)進(jìn)行處理。通常情況下,每秒鐘的幀數(shù)約為 33~100幀,分幀既可采用連續(xù)分段的方法,也可采用交疊分段的方法,但后者可以使幀與 幀之間平滑過渡,保持其連續(xù)性。前一幀和后一幀的交疊部分稱為幀移,幀移和幀長(zhǎng)的比值 一般取為(〇~1/2)。一邊將語(yǔ)音信號(hào)用可移動(dòng)有限長(zhǎng)度的窗口進(jìn)行截取即分幀,通常采用 的窗函數(shù)有矩形窗(Rectangular)、漢明窗(Hamming)和漢寧窗(Hanning)等。
[0020] 語(yǔ)音信號(hào)經(jīng)過預(yù)處理之后,將提取特征參數(shù),特征參數(shù)的選擇應(yīng)當(dāng)滿足幾個(gè)原則: 第一,易于從語(yǔ)音信號(hào)中提取特征參數(shù);第二,不容易被模仿;第三,不隨時(shí)間和空間變化, 具有相對(duì)的穩(wěn)定性;第四,能夠有效識(shí)別不同的說話人。目前說話人確認(rèn)系統(tǒng)主要依靠語(yǔ)音 的低層次聲學(xué)特征來(lái)進(jìn)行識(shí)別,這些特征可分為時(shí)域特征和變換域特征。在本發(fā)明的步驟 S3中,語(yǔ)音信號(hào)組合特征參數(shù)提?。杭刺崛√崛?維基音周期,12維LPCC,12維ALPCC,1 維能量參數(shù),1維一階差分能量參數(shù),22維GFCC參數(shù),共同組成的49維特征向量。
[0021] 1、基音周期特征參數(shù)提取的具體步驟如下:
[0022] (1)令語(yǔ)音信號(hào)表示為s(n),語(yǔ)音的歸一化自相關(guān)函數(shù)的表示為
[0024] (2)去均值
[0025] 當(dāng)語(yǔ)音信號(hào)在分析窗里有非零均值或有非常低的低頻噪聲出現(xiàn)時(shí),歸一化自相 關(guān)函數(shù)在所要求的所有延遲上都產(chǎn)生高的相關(guān)。于是,在計(jì)算P(T)時(shí)首先減掉均值,減 去均值的信號(hào)為s'(n) =s(n) -y (2)
[0027] (3)時(shí)域基音周期粗估計(jì)及基音平滑
[0028] 由于語(yǔ)音信號(hào)呈現(xiàn)準(zhǔn)周期性,在與該幀波形具有較強(qiáng)相似性的地方,R(t)會(huì)出現(xiàn) 峰值,但是這些峰值中還需要進(jìn)一步判斷才能確定基音周期。于是獲得的語(yǔ)音幀的點(diǎn)數(shù)為 m,以m/N為步長(zhǎng)對(duì)語(yǔ)音幀抽樣,同時(shí)以生成在[1,2]之間的隨機(jī)數(shù)作為抽樣點(diǎn)值的倍數(shù)矩 陣K相乘,獲得新的語(yǔ)音幀,對(duì)語(yǔ)音信號(hào)的每一幀作相應(yīng)的處理。
[0029] 由于語(yǔ)音信號(hào)的平穩(wěn)性,基音周期曲線也是平滑的,相鄰之間的基音周期也是連 續(xù)的。由于基音周期一般不會(huì)發(fā)生突變,在度量轉(zhuǎn)移時(shí),周期的值越接近,轉(zhuǎn)移的概率就越 大。兩個(gè)備選基音周期之間的路徑轉(zhuǎn)移權(quán)值為
[0031] 采用遺傳算法,使得兩個(gè)備選基音周期之間的路徑轉(zhuǎn)移權(quán)值作為適應(yīng)度值,通過 不斷的