基于錨模型空間投影序數(shù)比較的快速說話人確認(rèn)方法

文檔序號：2821309閱讀：200來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：基于錨模型空間投影序數(shù)比較的快速說話人確認(rèn)方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種生物特征技術(shù)，主要是一種基于錨模型空間投影序數(shù)比較的快速說話人確認(rèn)方法。
背景技術(shù)：
生物特征識別技術(shù)是指通過計(jì)算機(jī)利用人類自身生理或行為特征進(jìn)行身份認(rèn)定的一種技術(shù)，它以人體唯一的、可靠的、穩(wěn)定的生理特征(如指紋、虹膜、臉部、掌紋等)或行為特征(語音、擊鍵、步態(tài)、簽名等)為依據(jù)，采用計(jì)算機(jī)的強(qiáng)大功能和網(wǎng)絡(luò)技術(shù)進(jìn)行圖像處理和模式識別，用以鑒別人的身份。說話人識別技術(shù)是一項(xiàng)根據(jù)語音中反映說話人生理和行為特征的語音參數(shù)，自動識別說話人身份的技術(shù)。說話人識別基于語音，既包含了人的生理特征，即先天的解剖學(xué)上的差異；又包含了人的行為特征，即后天發(fā)音習(xí)慣的不同。說話人識別任務(wù)有很多類型，根據(jù)認(rèn)證的方式不同，可以分為以下三類●說話人鑒別，也稱說話人辨認(rèn)，是指從給定用戶集中把測試語音所屬的說話人區(qū)分出來；●說話人確認(rèn)，也成說話人檢測，針對單個(gè)用戶，即通過測試語音來判斷其是否是其所聲明的用戶身份；●說話人跟蹤，是指對一段包含多個(gè)說話人的語音，正確標(biāo)注這段語音中說話人切換的時(shí)刻。
目前說話人識別技術(shù)普遍采用對倒譜特征(如MFCC)的概率分布進(jìn)行建模估計(jì)，采用的模型大多為高斯混合模型和背景模型的比較。近年來，用與一組固定說話人(錨說話人)之間的相似程度來表示說話人的方法被提出，基于錨模型的說話人鑒別技術(shù)也逐漸得到發(fā)展。但基于錨模型的說話人鑒別技術(shù)仍有許多不足之處，直接比較模型得分的方法缺乏合理性。

發(fā)明內(nèi)容
本發(fā)明要解決上述技術(shù)所存在的缺陷，提供一種基于錨模型空間投影序數(shù)比較的快速說話人確認(rèn)方法，是通過將測試語音與錨模型比較，映射到錨空間后，再與其所聲明的說話人進(jìn)行比較的說話人檢索方法。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案一種基于錨模型空間投影序數(shù)比較的快速說話人確認(rèn)方法，首先用將測試語音進(jìn)行錨模型映射，然后將映射后的測試語音與其所聲明的說話人進(jìn)行序數(shù)比較。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案還可以進(jìn)一步完善。所述的錨模型映射為首先對測試語音進(jìn)行特征提取，得到一組特征向量序列，然后對錨模型中的每個(gè)高斯混合模型以及背景模型估算概率密度，得到映射后的得分向量。所述序數(shù)比較為將得分向量中的得分排序，并比較測試語音與聲明說話人的得分序數(shù)并計(jì)算序數(shù)的歐式距離，最后將序數(shù)距離與閾值比較得到最終結(jié)果。
本發(fā)明有益的效果是利用錨模型簡化確認(rèn)系統(tǒng)中的訓(xùn)練過程，克服用單個(gè)人特征信息的不完整性，增強(qiáng)識別決策結(jié)果的可靠性，使其具有更廣泛的安全性和適應(yīng)性。

圖1是匹配的錨模型上DET曲線圖；圖2是不匹配的錨模型上DET曲線圖；具體實(shí)施方式
下面結(jié)合實(shí)施例對本發(fā)明作進(jìn)一步描述。本發(fā)明的方法共分六步。
第一步音頻預(yù)處理音頻預(yù)處理分為采樣量化，去零漂，預(yù)加重和加窗三個(gè)部分。
1、采樣量化A)、用銳截止濾波器對音頻信號進(jìn)行濾波，使其奈奎斯特頻率FN為4KHZ；B)、設(shè)置音頻采樣率F＝2FN；C)、對音頻信號sa(t)按周期進(jìn)行采樣，得到數(shù)字音頻信號的振幅序列s(n)=sa(nF),]]>D)、用脈沖編碼調(diào)制(PCM)對s(n)進(jìn)行量化編碼，得到振幅序列的量化表示s’(n)。
2、去零漂A)、計(jì)算量化的振幅序列的平均值s；B)、將每個(gè)振幅值減去平均值，得到去零漂后平均值為0的振幅序列s”(n)。
3、預(yù)加重A)、設(shè)置數(shù)字濾波器的Z傳遞函數(shù)H(z)＝1-αz-1中的預(yù)加重系數(shù)α，α可取1或比1稍小的值；B)、s”(n)通過數(shù)字濾波器，得到音頻信號的高、中、低頻幅度相當(dāng)?shù)恼穹蛄衧(n)。
4、加窗A)、計(jì)算音頻幀的幀長N(32毫秒)和幀移量T(10毫秒)，分別滿足NF=0.032]]>TF=0.010]]>這里F是音頻采樣率，單位為Hz；B)、以幀長為N、幀移量為T，把s(n)劃分成一系列的音頻幀F(xiàn)m，每一音頻幀包含N個(gè)音頻信號樣本；C)、計(jì)算哈明窗函數(shù) D)、對每一音頻幀F(xiàn)m加哈明窗ω(n)×Fm(n){Fm′(n)|n＝0，1，…，N-1}。
第二步特征提取音頻幀上的特征提取包括能量和梅爾倒譜系數(shù)(MFCC)的提取。
1、能量的提取E=Σn=1Ns2(n)]]>2、MFCC的提取A)、設(shè)置梅爾倒譜系數(shù)的階數(shù)p；B)、做快速傅立葉變換FFT，將時(shí)域信號s(n)變成頻域信號X(k)。
C)、計(jì)算梅爾域刻度Mi=ip×2592log(1+8000/2.0700.0),(i=0,1,2,...,p)]]>D)、計(jì)算對應(yīng)的頻域刻度fi=700×eMi2595ln10-1,(i=0,1,2,...,p)]]>E)、計(jì)算每個(gè)梅爾域通道φi上的對數(shù)能量譜
Ej=Σk=0K2-1φj(k)|X(k)|2]]>其中Σk=0K2-1φj(k)=1.]]>F)、做離散余弦變換DCT第三步、錨模型訓(xùn)練錨模型的訓(xùn)練過程分為背景模型的訓(xùn)練和錨模型自適應(yīng)。背景模型和錨模型都是高斯混合模型(GMM)。
每一個(gè)說話人的語音特征在特征空間中都形成了特定的分布，可以用這一分布來描述說話人的個(gè)性。高斯混合模型(GMM)是用多個(gè)高斯分布的線性組合近似說話人的特征分布。
每一個(gè)說話人的概率密度函數(shù)的函數(shù)形式是相同的，所不同的只是函數(shù)中的參數(shù)。M階高斯混合模型GMM用M個(gè)單高斯分布的線性組合來描述幀特征在特征空間中的分布，即p(x)=Σi=1MPibi(x)]]>bi(x)=N(x,μi,Ri)=1(2π)p/2|pi|1/2exp{-12(x-μi)TRi-1(x-μi)}]]>其中，p是特征的維數(shù)，bi(x)為核函數(shù)，是均值矢量為μi、協(xié)方差矩陣為Ri的高斯分布函數(shù)，M是GMM模型的階數(shù)，在建立說話人模型以前設(shè)為一確定整數(shù)，這里用64。λ＝{Pi，μi，Ri|i＝1，2，...，M}為說話人特征分布GMM中的參數(shù)，作為高斯混合分布的加權(quán)系數(shù)，Pi應(yīng)滿足使得&Integral;-∞+∞p(x/λ)dx=1]]>由于計(jì)算GMM中的p(x)需要求p×p維方陣Ri(i＝1，2，...，M)的逆，運(yùn)算量大，為此，將Ri設(shè)成對角陣，將求逆運(yùn)算轉(zhuǎn)化維求倒數(shù)運(yùn)算，提高運(yùn)算速度。
背景模型由大量語音數(shù)據(jù)訓(xùn)練而成，用來消除背景差異和自適應(yīng)錨模型。錨模型為由一組特定說話人語音訓(xùn)練成的一組高斯混合模型。
第四步、錨空間投影用戶語音輸入后，經(jīng)特征提取，得到一特征向量序列。該序列輸入到錨模型的各個(gè)GMM中，得到一組相似度值組成的向量SCVSCV＝{s1，s2，...sn}其中si是第i個(gè)錨模型GMM的得分與背景模型得分之差。
第五步、基于序數(shù)比較的確認(rèn)不同于傳統(tǒng)錨模型方法中的比較注冊語音和測試語音的SCV的歐式距離，本方法比較得分向量SCV中各維度序數(shù)，可以彌補(bǔ)其在待確認(rèn)說話人語音和錨模型不匹配時(shí)的局限性。
首先將SCV＝{s1，s2，...sn}里的得分進(jìn)行排序si1＞si2＞...＞sin根據(jù)這個(gè)序列，可以得到得分序數(shù)向量V’＝{o1，o2，...on}，其中，oij＝j(luò)。
確認(rèn)時(shí)，對說聲稱的說話人的注冊語音和測試語音都求序數(shù)向量，并比較兩個(gè)向量之間的距離d＝|V1’-V2’|2。將距離與閾值比較，若距離小于閾值，則接受為同一個(gè)說話人，反之則拒絕。
實(shí)驗(yàn)結(jié)果本方法在SRMC多通道語音庫和YOHO語音庫上進(jìn)行了實(shí)驗(yàn)。SRMC語音庫包括303個(gè)說話人，分為麥克風(fēng)、PDA、手機(jī)、固定電話四個(gè)通道，每個(gè)通道的語料內(nèi)容分為個(gè)人信息、短文段落、數(shù)字串、省份傳和看圖說話等部分；YOHO語音庫包括138個(gè)說話人，每個(gè)人的語料分為注冊和確認(rèn)兩部分，為普通辦公室錄音環(huán)境。
我們選取了四組語料用于實(shí)驗(yàn)，分別是Dataset 0YOHO庫所有人的注冊部分和SRMC庫里麥克風(fēng)通道的個(gè)人信息部分。這些語音用于訓(xùn)練背景模型。
Dataset 1YOHO庫里隨機(jī)選取的50個(gè)人。用于進(jìn)行確認(rèn)實(shí)驗(yàn)，用每個(gè)人的注冊語料進(jìn)行注冊，確認(rèn)部分每個(gè)文件分別進(jìn)行測試。
Dataset 2YOHO庫里剩下的88個(gè)人，用每個(gè)人的注冊語料分別訓(xùn)練匹配的錨模型。
Dataset 3SRMC里隨機(jī)選取的88個(gè)人，用每個(gè)人的麥克風(fēng)通道中短文段落部分分別訓(xùn)練不匹配的錨模型。
作為對比，我們同時(shí)也用傳統(tǒng)的歐式距離和向量夾角距離在同樣的條件下進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)分為兩組，一組用匹配的錨模型Dataset 2，一組用不匹配的錨模型Dataset 3，測試數(shù)據(jù)和注冊數(shù)據(jù)都來自Dataset 1。根據(jù)改變的閾值，畫出三個(gè)算法確認(rèn)的錯(cuò)誤報(bào)警率和錯(cuò)誤接收率DET曲線，分別如圖1和圖2所示其中，當(dāng)錯(cuò)誤接收率和錯(cuò)誤拒絕率相等時(shí)的值，等錯(cuò)誤率，如下表所示

實(shí)驗(yàn)結(jié)果表明，基于錨模型空間投影序數(shù)比較的快速說話人確認(rèn)方法，比傳統(tǒng)的錨模型方法更準(zhǔn)確，對錨模型與測試說話人不匹配的情況更魯棒性。
權(quán)利要求
1.一種基于錨模型空間投影序數(shù)比較的快速說話人確認(rèn)方法，其特征在于首先用將測試語音進(jìn)行錨模型映射，然后將映射后的測試語音與其所聲明的說話人進(jìn)行序數(shù)比較。
2.權(quán)利要求1所述的所述的基于錨模型空間投影序數(shù)比較的快速說話人確認(rèn)方法，其特征在于錨模型映射為首先對測試語音進(jìn)行特征提取，得到一組特征向量序列，然后對錨模型中的每個(gè)高斯混合模型以及背景模型估算概率密度，得到映射后的得分向量。
3.權(quán)利要求1所述的所述的基于錨模型空間投影序數(shù)比較的快速說話人確認(rèn)方法，其特征在于所述序數(shù)比較為將得分向量中的得分排序，并比較測試語音與聲明說話人的得分序數(shù)并計(jì)算序數(shù)的歐式距離，最后將序數(shù)距離與閾值比較得到最終結(jié)果。
4.權(quán)利要求1或2或3所述的所述的基于錨模型空間投影序數(shù)比較的快速說話人確認(rèn)方法，其特征在于該方法具體步驟如下第一步音頻預(yù)處理音頻預(yù)處理分為采樣量化，去零漂，預(yù)加重和加窗三個(gè)部分；第二步特征提取音頻幀上的特征提取包括能量和梅爾倒譜系數(shù)的提??；第三步、錨模型訓(xùn)練錨模型的訓(xùn)練過程分為背景模型的訓(xùn)練和錨模型自適應(yīng)，背景模型和錨模型都是高斯混合模型，是用多個(gè)高斯分布的線性組合近似說話人的特征分布；M階高斯混合模型GMM用M個(gè)單高斯分布的線性組合來描述幀特征在特征空間中的分布，即p(x)=Σi=1MPibi(x)]]>bi(x)=N(x,μi,Ri)=1(2π)p/2|pi|1/2exp{-12(x-μi)T-Ri-1(x-μi)}]]>其中，p是特征的維數(shù)，bi(x)為核函數(shù)，是均值矢量為μi、協(xié)方差矩陣為Ri的高斯分布函數(shù)，M是GMM模型的階數(shù)，在建立說話人模型以前設(shè)為一確定整數(shù)，λ＝{Pi，μi，Ri|i＝1，2，...，M}為說話人特征分布GMM中的參數(shù)，作為高斯混合分布的加權(quán)系數(shù)，Pi應(yīng)滿足使得&Integral;-∞+∞p(x|λ)dx=1]]>背景模型由大量語音數(shù)據(jù)訓(xùn)練而成，用來消除背景差異和自適應(yīng)錨模型，錨模型為由一組特定說話人語音訓(xùn)練成的一組高斯混合模型；第四步、錨空間投影用戶語音輸入后，經(jīng)特征提取，得到一特征向量序列；該序列輸入到錨模型的各個(gè)GMM中，得到一組相似度值組成的向量SCVSCV＝{s1，s2，...sn}，其中si是第i個(gè)錨模型GMM的得分與背景模型得分之差；第五步、基于序數(shù)比較的確認(rèn)比較得分向量SCV中各維度序數(shù)；首先將SCV＝{s1，s2，...sn}里的得分進(jìn)行排序si1＞si2＞...＞sin，根據(jù)這個(gè)序列，可以得到得分序數(shù)向量V’＝{o1，o2，...on}，其中，oij＝j(luò)；確認(rèn)時(shí)，對說聲稱的說話人的注冊語音和測試語音都求序數(shù)向量，并比較兩個(gè)向量之間的距離d＝|V1’-V2’|2；將距離與閾值比較，若距離小于閾值，則接受為同一個(gè)說話人，反之則拒絕。
5.權(quán)利要求4所述的所述的基于錨模型空間投影序數(shù)比較的快速說話人確認(rèn)方法，其特征在于音頻幀上的特征提取包括能量和梅爾倒譜系數(shù)的提取；具體步驟如下5.1)、能量的提取E=Σn=1Ns2(n)]]>5.2)、MFCC的提取A)、設(shè)置梅爾倒譜系數(shù)的階數(shù)p；B)、做快速傅立葉變換FFT，將時(shí)域信號s(n)變成頻域信號X(k)；C)、計(jì)算梅爾域刻度Mi=ip×2595log(1+8000/2.0700.0),(i=0,1,2,...,p)]]>D)、計(jì)算對應(yīng)的頻域刻度fi=700×eMi2595ln10-1,(i=0,1,2,...,p)]]>E)、計(jì)算每個(gè)梅爾域通道φj上的對數(shù)能量譜Ej=Σk=0K2-1φj(k)|X(k)|2,]]>其中Σk=0K2-1φj(k)=1;]]>F)、做離散余弦變換DCT。
全文摘要
本發(fā)明涉及一種基于錨模型空間投影序數(shù)比較的快速說話人確認(rèn)方法，首先用將測試語音進(jìn)行錨模型映射，然后將映射后的測試語音與其所聲明的說話人進(jìn)行序數(shù)比較。所述的錨模型映射為首先對測試語音進(jìn)行特征提取，得到一組特征向量序列，然后對錨模型中的每個(gè)高斯混合模型以及背景模型估算概率密度，得到映射后的得分向量。所述序數(shù)比較為將得分向量中的得分排序，并比較測試語音與聲明說話人的得分序數(shù)并計(jì)算序數(shù)的歐式距離，最后將序數(shù)距離與閾值比較得到最終結(jié)果。本發(fā)明有益的效果是利用錨模型簡化確認(rèn)系統(tǒng)中的訓(xùn)練過程，克服用單個(gè)人特征信息的不完整性，增強(qiáng)識別決策結(jié)果的可靠性，使其具有更廣泛的安全性和適應(yīng)性。
文檔編號G10L15/00GK1787077SQ20051006195
公開日2006年6月14日申請日期2005年12月13日優(yōu)先權(quán)日2005年12月13日
發(fā)明者楊瑩春, 吳朝暉, 楊旻申請人:浙江大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊瑩春;吳朝暉;楊旻
技術(shù)所有人：浙江大學(xué)
我是此專利的發(fā)明人

上一篇：樂音控制設(shè)備和方法
上一篇：基于混合支持向量機(jī)的說話人識別方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于錨模型空間投影序數(shù)比較的快速說話人確認(rèn)方法