專利名稱:基于錨模型空間投影序數(shù)比較的快速說話人確認(rèn)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種生物特征技術(shù),主要是一種基于錨模型空間投影序數(shù)比較的快速說話人確認(rèn)方法。
背景技術(shù):
生物特征識別技術(shù)是指通過計(jì)算機(jī)利用人類自身生理或行為特征進(jìn)行身份認(rèn)定的一種技術(shù),它以人體唯一的、可靠的、穩(wěn)定的生理特征(如指紋、虹膜、臉部、掌紋等)或行為特征(語音、擊鍵、步態(tài)、簽名等)為依據(jù),采用計(jì)算機(jī)的強(qiáng)大功能和網(wǎng)絡(luò)技術(shù)進(jìn)行圖像處理和模式識別,用以鑒別人的身份。說話人識別技術(shù)是一項(xiàng)根據(jù)語音中反映說話人生理和行為特征的語音參數(shù),自動識別說話人身份的技術(shù)。說話人識別基于語音,既包含了人的生理特征,即先天的解剖學(xué)上的差異;又包含了人的行為特征,即后天發(fā)音習(xí)慣的不同。說話人識別任務(wù)有很多類型,根據(jù)認(rèn)證的方式不同,可以分為以下三類●說話人鑒別,也稱說話人辨認(rèn),是指從給定用戶集中把測試語音所屬的說話人區(qū)分出來;●說話人確認(rèn),也成說話人檢測,針對單個(gè)用戶,即通過測試語音來判斷其是否是其所聲明的用戶身份;●說話人跟蹤,是指對一段包含多個(gè)說話人的語音,正確標(biāo)注這段語音中說話人切換的時(shí)刻。
目前說話人識別技術(shù)普遍采用對倒譜特征(如MFCC)的概率分布進(jìn)行建模估計(jì),采用的模型大多為高斯混合模型和背景模型的比較。近年來,用與一組固定說話人(錨說話人)之間的相似程度來表示說話人的方法被提出,基于錨模型的說話人鑒別技術(shù)也逐漸得到發(fā)展。但基于錨模型的說話人鑒別技術(shù)仍有許多不足之處,直接比較模型得分的方法缺乏合理性。
發(fā)明內(nèi)容
本發(fā)明要解決上述技術(shù)所存在的缺陷,提供一種基于錨模型空間投影序數(shù)比較的快速說話人確認(rèn)方法,是通過將測試語音與錨模型比較,映射到錨空間后,再與其所聲明的說話人進(jìn)行比較的說話人檢索方法。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案一種基于錨模型空間投影序數(shù)比較的快速說話人確認(rèn)方法,首先用將測試語音進(jìn)行錨模型映射,然后將映射后的測試語音與其所聲明的說話人進(jìn)行序數(shù)比較。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案還可以進(jìn)一步完善。所述的錨模型映射為首先對測試語音進(jìn)行特征提取,得到一組特征向量序列,然后對錨模型中的每個(gè)高斯混合模型以及背景模型估算概率密度,得到映射后的得分向量。所述序數(shù)比較為將得分向量中的得分排序,并比較測試語音與聲明說話人的得分序數(shù)并計(jì)算序數(shù)的歐式距離,最后將序數(shù)距離與閾值比較得到最終結(jié)果。
本發(fā)明有益的效果是利用錨模型簡化確認(rèn)系統(tǒng)中的訓(xùn)練過程,克服用單個(gè)人特征信息的不完整性,增強(qiáng)識別決策結(jié)果的可靠性,使其具有更廣泛的安全性和適應(yīng)性。
圖1是匹配的錨模型上DET曲線圖;圖2是不匹配的錨模型上DET曲線圖;具體實(shí)施方式
下面結(jié)合實(shí)施例對本發(fā)明作進(jìn)一步描述。本發(fā)明的方法共分六步。
第一步音頻預(yù)處理音頻預(yù)處理分為采樣量化,去零漂,預(yù)加重和加窗三個(gè)部分。
1、采樣量化A)、用銳截止濾波器對音頻信號進(jìn)行濾波,使其奈奎斯特頻率FN為4KHZ;B)、設(shè)置音頻采樣率F=2FN;C)、對音頻信號sa(t)按周期進(jìn)行采樣,得到數(shù)字音頻信號的振幅序列s(n)=sa(nF),]]>D)、用脈沖編碼調(diào)制(PCM)對s(n)進(jìn)行量化編碼,得到振幅序列的量化表示s’(n)。
2、去零漂A)、計(jì)算量化的振幅序列的平均值s;B)、將每個(gè)振幅值減去平均值,得到去零漂后平均值為0的振幅序列s”(n)。
3、預(yù)加重A)、設(shè)置數(shù)字濾波器的Z傳遞函數(shù)H(z)=1-αz-1中的預(yù)加重系數(shù)α,α可取1或比1稍小的值;B)、s”(n)通過數(shù)字濾波器,得到音頻信號的高、中、低頻幅度相當(dāng)?shù)恼穹蛄衧(n)。
4、加窗A)、計(jì)算音頻幀的幀長N(32毫秒)和幀移量T(10毫秒),分別滿足NF=0.032]]>TF=0.010]]>這里F是音頻采樣率,單位為Hz;B)、以幀長為N、幀移量為T,把s(n)劃分成一系列的音頻幀F(xiàn)m,每一音頻幀包含N個(gè)音頻信號樣本;C)、計(jì)算哈明窗函數(shù) D)、對每一音頻幀F(xiàn)m加哈明窗ω(n)×Fm(n){Fm′(n)|n=0,1,…,N-1}。
第二步特征提取音頻幀上的特征提取包括能量和梅爾倒譜系數(shù)(MFCC)的提取。
1、能量的提取E=Σn=1Ns2(n)]]>2、MFCC的提取A)、設(shè)置梅爾倒譜系數(shù)的階數(shù)p;B)、做快速傅立葉變換FFT,將時(shí)域信號s(n)變成頻域信號X(k)。
C)、計(jì)算梅爾域刻度Mi=ip×2592log(1+8000/2.0700.0),(i=0,1,2,...,p)]]>D)、計(jì)算對應(yīng)的頻域刻度fi=700×eMi2595ln10-1,(i=0,1,2,...,p)]]>E)、計(jì)算每個(gè)梅爾域通道φi上的對數(shù)能量譜
Ej=Σk=0K2-1φj(k)|X(k)|2]]>其中Σk=0K2-1φj(k)=1.]]>F)、做離散余弦變換DCT第三步、錨模型訓(xùn)練錨模型的訓(xùn)練過程分為背景模型的訓(xùn)練和錨模型自適應(yīng)。背景模型和錨模型都是高斯混合模型(GMM)。
每一個(gè)說話人的語音特征在特征空間中都形成了特定的分布,可以用這一分布來描述說話人的個(gè)性。高斯混合模型(GMM)是用多個(gè)高斯分布的線性組合近似說話人的特征分布。
每一個(gè)說話人的概率密度函數(shù)的函數(shù)形式是相同的,所不同的只是函數(shù)中的參數(shù)。M階高斯混合模型GMM用M個(gè)單高斯分布的線性組合來描述幀特征在特征空間中的分布,即p(x)=Σi=1MPibi(x)]]>bi(x)=N(x,μi,Ri)=1(2π)p/2|pi|1/2exp{-12(x-μi)TRi-1(x-μi)}]]>其中,p是特征的維數(shù),bi(x)為核函數(shù),是均值矢量為μi、協(xié)方差矩陣為Ri的高斯分布函數(shù),M是GMM模型的階數(shù),在建立說話人模型以前設(shè)為一確定整數(shù),這里用64。λ={Pi,μi,Ri|i=1,2,...,M}為說話人特征分布GMM中的參數(shù),作為高斯混合分布的加權(quán)系數(shù),Pi應(yīng)滿足使得∫-∞+∞p(x/λ)dx=1]]>由于計(jì)算GMM中的p(x)需要求p×p維方陣Ri(i=1,2,...,M)的逆,運(yùn)算量大,為此,將Ri設(shè)成對角陣,將求逆運(yùn)算轉(zhuǎn)化維求倒數(shù)運(yùn)算,提高運(yùn)算速度。
背景模型由大量語音數(shù)據(jù)訓(xùn)練而成,用來消除背景差異和自適應(yīng)錨模型。錨模型為由一組特定說話人語音訓(xùn)練成的一組高斯混合模型。
第四步、錨空間投影用戶語音輸入后,經(jīng)特征提取,得到一特征向量序列。該序列輸入到錨模型的各個(gè)GMM中,得到一組相似度值組成的向量SCVSCV={s1,s2,...sn}其中si是第i個(gè)錨模型GMM的得分與背景模型得分之差。
第五步、基于序數(shù)比較的確認(rèn)不同于傳統(tǒng)錨模型方法中的比較注冊語音和測試語音的SCV的歐式距離,本方法比較得分向量SCV中各維度序數(shù),可以彌補(bǔ)其在待確認(rèn)說話人語音和錨模型不匹配時(shí)的局限性。
首先將SCV={s1,s2,...sn}里的得分進(jìn)行排序si1>si2>...>sin根據(jù)這個(gè)序列,可以得到得分序數(shù)向量V’={o1,o2,...on},其中,oij=j(luò)。
確認(rèn)時(shí),對說聲稱的說話人的注冊語音和測試語音都求序數(shù)向量,并比較兩個(gè)向量之間的距離d=|V1’-V2’|2。將距離與閾值比較,若距離小于閾值,則接受為同一個(gè)說話人,反之則拒絕。
實(shí)驗(yàn)結(jié)果本方法在SRMC多通道語音庫和YOHO語音庫上進(jìn)行了實(shí)驗(yàn)。SRMC語音庫包括303個(gè)說話人,分為麥克風(fēng)、PDA、手機(jī)、固定電話四個(gè)通道,每個(gè)通道的語料內(nèi)容分為個(gè)人信息、短文段落、數(shù)字串、省份傳和看圖說話等部分;YOHO語音庫包括138個(gè)說話人,每個(gè)人的語料分為注冊和確認(rèn)兩部分,為普通辦公室錄音環(huán)境。
我們選取了四組語料用于實(shí)驗(yàn),分別是Dataset 0YOHO庫所有人的注冊部分和SRMC庫里麥克風(fēng)通道的個(gè)人信息部分。這些語音用于訓(xùn)練背景模型。
Dataset 1YOHO庫里隨機(jī)選取的50個(gè)人。用于進(jìn)行確認(rèn)實(shí)驗(yàn),用每個(gè)人的注冊語料進(jìn)行注冊,確認(rèn)部分每個(gè)文件分別進(jìn)行測試。
Dataset 2YOHO庫里剩下的88個(gè)人,用每個(gè)人的注冊語料分別訓(xùn)練匹配的錨模型。
Dataset 3SRMC里隨機(jī)選取的88個(gè)人,用每個(gè)人的麥克風(fēng)通道中短文段落部分分別訓(xùn)練不匹配的錨模型。
作為對比,我們同時(shí)也用傳統(tǒng)的歐式距離和向量夾角距離在同樣的條件下進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)分為兩組,一組用匹配的錨模型Dataset 2,一組用不匹配的錨模型Dataset 3,測試數(shù)據(jù)和注冊數(shù)據(jù)都來自Dataset 1。根據(jù)改變的閾值,畫出三個(gè)算法確認(rèn)的錯(cuò)誤報(bào)警率和錯(cuò)誤接收率DET曲線,分別如圖1和圖2所示其中,當(dāng)錯(cuò)誤接收率和錯(cuò)誤拒絕率相等時(shí)的值,等錯(cuò)誤率,如下表所示
實(shí)驗(yàn)結(jié)果表明,基于錨模型空間投影序數(shù)比較的快速說話人確認(rèn)方法,比傳統(tǒng)的錨模型方法更準(zhǔn)確,對錨模型與測試說話人不匹配的情況更魯棒性。
權(quán)利要求
1.一種基于錨模型空間投影序數(shù)比較的快速說話人確認(rèn)方法,其特征在于首先用將測試語音進(jìn)行錨模型映射,然后將映射后的測試語音與其所聲明的說話人進(jìn)行序數(shù)比較。
2.權(quán)利要求1所述的所述的基于錨模型空間投影序數(shù)比較的快速說話人確認(rèn)方法,其特征在于錨模型映射為首先對測試語音進(jìn)行特征提取,得到一組特征向量序列,然后對錨模型中的每個(gè)高斯混合模型以及背景模型估算概率密度,得到映射后的得分向量。
3.權(quán)利要求1所述的所述的基于錨模型空間投影序數(shù)比較的快速說話人確認(rèn)方法,其特征在于所述序數(shù)比較為將得分向量中的得分排序,并比較測試語音與聲明說話人的得分序數(shù)并計(jì)算序數(shù)的歐式距離,最后將序數(shù)距離與閾值比較得到最終結(jié)果。
4.權(quán)利要求1或2或3所述的所述的基于錨模型空間投影序數(shù)比較的快速說話人確認(rèn)方法,其特征在于該方法具體步驟如下第一步音頻預(yù)處理音頻預(yù)處理分為采樣量化,去零漂,預(yù)加重和加窗三個(gè)部分;第二步特征提取音頻幀上的特征提取包括能量和梅爾倒譜系數(shù)的提??;第三步、錨模型訓(xùn)練錨模型的訓(xùn)練過程分為背景模型的訓(xùn)練和錨模型自適應(yīng),背景模型和錨模型都是高斯混合模型,是用多個(gè)高斯分布的線性組合近似說話人的特征分布;M階高斯混合模型GMM用M個(gè)單高斯分布的線性組合來描述幀特征在特征空間中的分布,即p(x)=Σi=1MPibi(x)]]>bi(x)=N(x,μi,Ri)=1(2π)p/2|pi|1/2exp{-12(x-μi)T-Ri-1(x-μi)}]]>其中,p是特征的維數(shù),bi(x)為核函數(shù),是均值矢量為μi、協(xié)方差矩陣為Ri的高斯分布函數(shù),M是GMM模型的階數(shù),在建立說話人模型以前設(shè)為一確定整數(shù),λ={Pi,μi,Ri|i=1,2,...,M}為說話人特征分布GMM中的參數(shù),作為高斯混合分布的加權(quán)系數(shù),Pi應(yīng)滿足使得∫-∞+∞p(x|λ)dx=1]]>背景模型由大量語音數(shù)據(jù)訓(xùn)練而成,用來消除背景差異和自適應(yīng)錨模型,錨模型為由一組特定說話人語音訓(xùn)練成的一組高斯混合模型;第四步、錨空間投影用戶語音輸入后,經(jīng)特征提取,得到一特征向量序列;該序列輸入到錨模型的各個(gè)GMM中,得到一組相似度值組成的向量SCVSCV={s1,s2,...sn},其中si是第i個(gè)錨模型GMM的得分與背景模型得分之差;第五步、基于序數(shù)比較的確認(rèn)比較得分向量SCV中各維度序數(shù);首先將SCV={s1,s2,...sn}里的得分進(jìn)行排序si1>si2>...>sin,根據(jù)這個(gè)序列,可以得到得分序數(shù)向量V’={o1,o2,...on},其中,oij=j(luò);確認(rèn)時(shí),對說聲稱的說話人的注冊語音和測試語音都求序數(shù)向量,并比較兩個(gè)向量之間的距離d=|V1’-V2’|2;將距離與閾值比較,若距離小于閾值,則接受為同一個(gè)說話人,反之則拒絕。
5.權(quán)利要求4所述的所述的基于錨模型空間投影序數(shù)比較的快速說話人確認(rèn)方法,其特征在于音頻幀上的特征提取包括能量和梅爾倒譜系數(shù)的提取;具體步驟如下5.1)、能量的提取E=Σn=1Ns2(n)]]>5.2)、MFCC的提取A)、設(shè)置梅爾倒譜系數(shù)的階數(shù)p;B)、做快速傅立葉變換FFT,將時(shí)域信號s(n)變成頻域信號X(k);C)、計(jì)算梅爾域刻度Mi=ip×2595log(1+8000/2.0700.0),(i=0,1,2,...,p)]]>D)、計(jì)算對應(yīng)的頻域刻度fi=700×eMi2595ln10-1,(i=0,1,2,...,p)]]>E)、計(jì)算每個(gè)梅爾域通道φj上的對數(shù)能量譜Ej=Σk=0K2-1φj(k)|X(k)|2,]]>其中Σk=0K2-1φj(k)=1;]]>F)、做離散余弦變換DCT。
全文摘要
本發(fā)明涉及一種基于錨模型空間投影序數(shù)比較的快速說話人確認(rèn)方法,首先用將測試語音進(jìn)行錨模型映射,然后將映射后的測試語音與其所聲明的說話人進(jìn)行序數(shù)比較。所述的錨模型映射為首先對測試語音進(jìn)行特征提取,得到一組特征向量序列,然后對錨模型中的每個(gè)高斯混合模型以及背景模型估算概率密度,得到映射后的得分向量。所述序數(shù)比較為將得分向量中的得分排序,并比較測試語音與聲明說話人的得分序數(shù)并計(jì)算序數(shù)的歐式距離,最后將序數(shù)距離與閾值比較得到最終結(jié)果。本發(fā)明有益的效果是利用錨模型簡化確認(rèn)系統(tǒng)中的訓(xùn)練過程,克服用單個(gè)人特征信息的不完整性,增強(qiáng)識別決策結(jié)果的可靠性,使其具有更廣泛的安全性和適應(yīng)性。
文檔編號G10L15/00GK1787077SQ20051006195
公開日2006年6月14日 申請日期2005年12月13日 優(yōu)先權(quán)日2005年12月13日
發(fā)明者楊瑩春, 吳朝暉, 楊旻 申請人:浙江大學(xué)