一種基于i-vector說話人識別的聲源定位方法

文檔序號：10652767閱讀：577來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>測量裝置的制造及其應(yīng)用技術(shù)

一種基于i-vector說話人識別的聲源定位方法
【專利摘要】本發(fā)明公開了一種基于i?vector說話人識別的聲源定位方法，該方法通過引入鑒別互相關(guān)函數(shù)的特征，得到鑒別互相關(guān)函數(shù)，將此特征分為訓(xùn)練集合測試集，對i?vector說話人識別系統(tǒng)中的模型進(jìn)行訓(xùn)練和測試，采用最大期望算法實(shí)現(xiàn)對開發(fā)集i?vector向量分布概率函數(shù)的最大似然估計(jì)，建立起一個受語音時長約束的PLDA模型，能夠準(zhǔn)確地進(jìn)行語音識別以及聲源定位，這種算法的實(shí)現(xiàn)，有效地解決了傳統(tǒng)聲源定位中噪聲和混響的問題。
【專利說明】
-種基于i-vector說話人識別的聲源定位方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及一種基于i-vector說話人識別的聲源定位方法，屬于互聯(lián)網(wǎng)信息技術(shù) 領(lǐng)域。
【背景技術(shù)】
[0002] 說話人識別作為生物認(rèn)證技術(shù)的一種，是根據(jù)應(yīng)用語音波形中反映說話人生理和行為特征語音參數(shù)，自動鑒別說話人身份的一種技術(shù)。說話人識別是一種自動識別說話人的過程，它是人體個性特征識別中的重要分支，它是根據(jù)語音波形中反映說話人生理和行為特征的語音參數(shù)自動識別說話人身份的技術(shù)。隨著信息技術(shù)的不斷發(fā)展，與其他生物識別技術(shù)相比，說話人識別有著更為簡便，經(jīng)濟(jì)及可擴(kuò)展性良好等優(yōu)勢，可廣泛應(yīng)用于數(shù)據(jù)庫訪問、安全驗(yàn)證、電話銀行、計(jì)算機(jī)遠(yuǎn)程登錄等領(lǐng)域。說話人識別技術(shù)作為一項(xiàng)重要的生物特征身份鑒定技術(shù)，有著廣泛的應(yīng)用前景，國內(nèi)外許多研究者都投身到了運(yùn)一領(lǐng)域的研究中。近幾年來，W身份認(rèn)證矢量i-vector為基礎(chǔ)的說話人建模技術(shù)取得了非常大的成功，使得說話人識別系統(tǒng)的性能有了很大的提升?；谏矸菡J(rèn)證矢量（identity vector，i- vector)的子空間建模被證明是目前最前沿最有效的說話人建模技術(shù)。
[0003] 隨著計(jì)算機(jī)技術(shù)與信息產(chǎn)業(yè)的迅猛發(fā)展，聲源定位已經(jīng)成為當(dāng)前研究的一個熱點(diǎn)。確定一個聲源在空間中的位置是一項(xiàng)很有廣闊應(yīng)用前景的研究，可廣泛應(yīng)用于社會生產(chǎn)和生活的各個方面。聲源定位是通過測量物體發(fā)出的聲音對物體定位，與使用聲納、雷達(dá)、無線通訊的定位方法不同，前者信號是普通的聲音，是寬帶信號，而后者信源是窄帶信號。根據(jù)聲音信號的特點(diǎn)，人們提出了不同的聲源定位算法，但由于噪聲和混響的存在，使得現(xiàn)有的聲源定位算法的定位精度較低。
[0004] 當(dāng)前聲源定位算法大致可W分為3類:基于高分辨率譜估計(jì)的定位算法、基于時延估計(jì)(TDE:Time Delay Estimation)的定位算法和基于可控波束形成的定位算法。
[0005] (1)基于高分辨率譜估計(jì)方法主要有4種:ARMA譜估計(jì)法、最小方差譜估計(jì)法、賭譜估計(jì)法和子空間法。ARMA譜估計(jì)法通過對平穩(wěn)線性信號過程建立模型來估計(jì)功率譜密度。賭譜估計(jì)法包含最大賭法和最小交叉賭法兩種。子空間法包括了 Pisarenko諧波分解法、 Prony法、多重信號分類(MUSIC = Multiple Signal Classification)法和基于旋轉(zhuǎn)不變技術(shù)信號參數(shù)估計(jì)方法化SPRIT = Estimation of Signal Parameters via Rotational Invariance Techniques)?；诟叻直媛首V估計(jì)的定位算法都要利用接收信號的協(xié)方差矩陣，而信號的協(xié)方差矩陣在實(shí)際中是未知的，必須從觀測數(shù)據(jù)中估計(jì)得到。估計(jì)信號的協(xié)方差矩陣，需要假定聲源和噪聲是統(tǒng)計(jì)平均的，且待估計(jì)的參數(shù)(聲源位置)是固定不變的，在一定時間間隔內(nèi)平均得到，而語音是短時平穩(wěn)信號，往往不能滿足運(yùn)個條件。目前的方法絕大多數(shù)是基于遠(yuǎn)場窄帶信號設(shè)計(jì)的，在室內(nèi)環(huán)境中的混響會使得運(yùn)類算法的性能嚴(yán)重惡化。
[0006] (2)基于時延估計(jì)的定位算法
[0007] 基于時延估計(jì)的算法分為兩個步驟。第一步為時延估計(jì)，即計(jì)算聲源到每兩個麥克風(fēng)之間的時延;第二步為位置估計(jì)，即根據(jù)時延和麥克風(fēng)陣列的幾何位置估計(jì)出聲源的位置，其中時延估計(jì)（TDE)最為關(guān)鍵。廣義互相關(guān)(GCC:Generalized Cross Correlation) 時延估計(jì)法，通過計(jì)算不同麥克風(fēng)接收信號之間的互相關(guān)函數(shù)，可W估計(jì)出達(dá)到時間差 (TD0A:Time Difference Arrival)。但是在實(shí)際環(huán)境中，由于噪聲和混響的影響，相關(guān)函數(shù) 的最大峰會被弱化，造成峰值檢測困難。廣義互相關(guān)法通過對兩個麥克風(fēng)信號的互功率譜進(jìn)行加權(quán)，使得相關(guān)函數(shù)在時延外的峰值更加突出。Knapp列舉了五種常用的加權(quán)函數(shù)，其中最大似然加權(quán)的廣義互相關(guān)法(GCC-ML:GCC using Maximum Likelihood)和相位變換 (PHAT:曲ase Transform)加權(quán)的廣義互相關(guān)法（GCC-PHAT:GCC using F*hase Transform) 最為典型。計(jì)算復(fù)雜度低和易于實(shí)現(xiàn)的特點(diǎn)使得GCC方法得到了比較廣泛的應(yīng)用。
[0008] (3)基于可控波束形成的定位算法
[0009] 基于可控波束形成的定位算法早期用于雷達(dá)和聲納系統(tǒng)的目標(biāo)定位，后來被引入到麥克風(fēng)陣列信號處理。麥克風(fēng)陣波束形成技術(shù)在語音信號處理中主要有兩個方面的應(yīng) 用：1)語音增強(qiáng)；2)聲源定位。當(dāng)聲源的位置已知時，調(diào)整每個麥克風(fēng)的導(dǎo)引時延，可W使得每個麥克風(fēng)的信號在時間上對齊，從而使得麥克風(fēng)陣被到引導(dǎo)聲源的位置，然后將每個麥克風(fēng)的信號相加，達(dá)到抑制噪聲、增強(qiáng)信號的目的。上述運(yùn)種最簡單實(shí)用的波束被稱為延時-求和(de lay-and-sum)波束形成。
[0010] 在強(qiáng)混響的環(huán)境下傳統(tǒng)的算法受到了嚴(yán)重的限制。例如，基于最大輸出功率可控波束對外界環(huán)境W及聲源頻率反映比較敏感，會限制應(yīng)用場合;基于高分辨率譜估計(jì)技術(shù) 的定位方法運(yùn)算量極大且不適于近距離的定位;基于時延的定位方法的時延精度易受到混響和噪聲干擾的影響。

【發(fā)明內(nèi)容】

[0011] 本發(fā)明目的在于解決了上述現(xiàn)有技術(shù)的不足，提出一種基于i-vector說話人識別的聲源定位算法，該方法通過引入鑒別互相關(guān)函數(shù)的特征，得到鑒別互相關(guān)函數(shù)，將此特征分為訓(xùn)練集合測試集，對i-vector說話人識別系統(tǒng)中的模型進(jìn)行訓(xùn)練和測試，采用最大期望(EM:expec1:ation maximization)算法實(shí)現(xiàn)對開發(fā)集i-vector向量分布概率函數(shù)的最大似然估計(jì)，建立起一個受語音時長約束的PLDA模型，能夠準(zhǔn)確地進(jìn)行語音識別W及聲源定位，運(yùn)種算法的實(shí)現(xiàn)，有效地解決了傳統(tǒng)聲源定位中噪聲和混響的問題。
[0012] 本發(fā)明解決其技術(shù)問題所采取的技術(shù)方案是:一種基于i-vector說話人識別的聲源定位算法，該方法包括訓(xùn)練階段和定位階段。
[OOK]其中，訓(xùn)練階段的步驟如下：
[0014] 步驟1:聲源位于每個訓(xùn)練位置ri，i = l，2, . . .K，麥克風(fēng)陣記錄下聲源在該位置處發(fā)出的信號(混響信號）；
[001引步驟2:利用記錄下的混響信號，計(jì)算出互相關(guān)函數(shù)；
[0016]步驟3:由互相關(guān)函數(shù)生成特征向量y;
[0017] 步驟4:對于每個訓(xùn)練位置ri，利用特征向量，計(jì)算出互相關(guān)函數(shù)化DA模型的均值向量y和固定維度的說話人子空間及殘差Eij。
[0018] 定位階段的步驟如下：
[0019] 步驟1:麥克風(fēng)陣記錄下信號，該信號包括聲源發(fā)出的信號(混響信號)及噪聲；
[0020]步驟2:利用記錄下的信號，計(jì)算出互相關(guān)函數(shù)；
[0021 ]步驟3:由互相關(guān)函數(shù)生成特征向量y;如果有N帖數(shù)據(jù)，則生成一個特征向量集合y = {yt，t=l,. . .N};
[0022] 步驟4:利用PLDA模型對特征進(jìn)行測試，估計(jì)聲源的位置。
[0023] 此外，在互相關(guān)函數(shù)特征的選取中，通過利用一種房間沖激響應(yīng)脈沖算法roomsim 來模擬真實(shí)的聲音環(huán)境，信號Xi化)和X2化)之間的廣義互相關(guān)函數(shù)(GCC)可W在頻域計(jì)算：
[0024]
(1.1)
[002引式中，上標(biāo)V'表示復(fù)共輛，Xi( W )是xi(t)的傅里葉變換，CO )是加權(quán)函數(shù)。
[0026] 為了增強(qiáng)互相關(guān)函數(shù)的抗混響能力，可W使用相位變化(PHAT)加權(quán)函數(shù)：
[0027] (1.2)
[002引
[0029] (1.:3)
[0030] 在實(shí)際情況中，麥克風(fēng)信號xi(t)和X2(t)經(jīng)過加窗后，再由傅里葉變換求得Xl(CO) 和X2( ? )。如果房間脈沖響應(yīng)的長度化)比窗函數(shù)的長度短很多，則麥克風(fēng)信號在頻域可W 表不為：
[0031] Xn( W )=Hn(rs, w)S(co),n = l,2, (1.4)
[0032] 式中，S(CO)和Hn(。，CO)分別是S化)和hn(rs，k)的傅里葉變換。
[0033] 將式(1.4)代入式(1.3)，得到：
[0034] (1. 5)
[0035] 由式（1.5)可知，麥克風(fēng)陣接收信號Xi化)和X2化)之間的GCC等于房間脈沖響應(yīng)hi (。,1〇和]12(。，1〇之間的6〔〔。
[0036] 然而，在實(shí)際情況中房間脈沖響應(yīng)的長度L比窗函數(shù)的長度大很多，則麥克風(fēng)信號在頻域只能近似表示為：
[0037] Xn( ? )>Hn(rs, ? )*S( O ) ,n = l ,2, (1.6)
[0038] 而且，麥克風(fēng)陣接收信號Xi化）和X2(k)之間的GCC只能近似等于房間脈沖響應(yīng)hi (rs,k)和h2(rs,k)之間的GCC，即：
[0039] (1.7)
[0040] 由此可W得到互相關(guān)函數(shù)的特征。
[0041] 本發(fā)明能夠應(yīng)用于在混響和噪聲下對說話人識別W及對說話人的聲源定位。
[0042] 有益效果
[00創(chuàng) 1、本發(fā)明利用了互相關(guān)函數(shù)的特征，結(jié)合了化DA的建模方法，根據(jù)化DA模型中i- vector的概率分布函數(shù)，可W提高PLDA模型的有效性。相較于傳統(tǒng)的聲源定位算法，可W降低誤差率，提高定位的準(zhǔn)確性。運(yùn)種算法的實(shí)現(xiàn)，有效地解決了傳統(tǒng)聲源定位中噪聲和混響的問題。
[0044] 2、本發(fā)明將聲源的互相關(guān)函數(shù)的特征信息和化DA算法結(jié)合起來，適用于所有有強(qiáng) 噪聲和混響的情況。
[0045] 3、本發(fā)明通過對聲源的互相關(guān)函數(shù)特征的提取，數(shù)據(jù)采集方便簡單，定位效果也較好。
【附圖說明】
[0046] 圖1為本發(fā)明的方法流程圖。
[0047] 圖2為本發(fā)明對不同說話人在iVector模型下的等錯率eer的分析示意圖。
[004引圖3為本發(fā)明對不同測試數(shù)據(jù)在iVector模型W及信噪比為10地情況下的打分分析示意圖。圖4為本發(fā)明對不同測試數(shù)據(jù)在iVector模型W及信噪比為20地情況下的打分分析示意圖。
【具體實(shí)施方式】
[0049] 下面結(jié)合說明書附圖對本發(fā)明創(chuàng)造作進(jìn)一步的詳細(xì)說明。
[0050] 如圖1所示，本發(fā)明是一種基于i-vector說話人識別的聲源定位算法研究。PLDA 算法是一種信道補(bǔ)償算法，它是基于i-Vector特征的，因?yàn)閕-Vector特征既包含說話人信息又包含信道信息，而我們只關(guān)屯、說話人信息，所W需要信道補(bǔ)償。下面將具體描述聲源特征選擇、概率線性鑒別分析、模型訓(xùn)練和打分四個方面。
[0051] 本發(fā)明具體實(shí)施步驟，包括如下：
[0052] 步驟1:利用Roomsim的仿真環(huán)境，模擬出在帶有混響和噪聲的環(huán)境，計(jì)算出聲源信息的互相關(guān)函數(shù)的特征，對其進(jìn)行降維、語音檢測等處理，并分為訓(xùn)練集和測試集，為下一步的模型訓(xùn)練做準(zhǔn)備。
[0化3] 步驟2:提取i-Vector,在化DA的框架下，i-Vector的產(chǎn)生過程可W用一個隱藏變量來描述。不同的隱藏變量數(shù)目，不同的先驗(yàn)假設(shè)構(gòu)成了不同的PLDA模型。假定第i個說話人的第j個i-vector表示為Wij，常用的PLDA模型假設(shè)如下：
[0054] Wij = ]i+Vyi+Zij
[0055] 其中，y為所有訓(xùn)練數(shù)據(jù)的均值，V矩陣表示說話人空間（本征音矩陣），矢量yi為對應(yīng)的說話人因子，服從標(biāo)準(zhǔn)高斯分布，ZU表示殘差，由一個全角矩陣D表示。
[0056] 步驟3:應(yīng)用化DA，在已標(biāo)注數(shù)據(jù)集上通過期望最大化法化M)估計(jì)模型參數(shù)A=(y， V，D)，初始模型采用隨機(jī)值。
[0057] 步驟4:估計(jì)好模型參數(shù)后，給定兩個i-Vector Wi和W2，其對數(shù)似然比由公式計(jì)算，其中假設(shè)9tar表示他們來自同一個說話人，0。。。表示他們來自不同的說話人，用對數(shù)似然比計(jì)算得分為：
[0化引
[0059] 分別在無噪聲情況下，有噪聲情況下進(jìn)行測試，其中有噪聲情況下信噪比逐漸降低，經(jīng)過實(shí)驗(yàn)可W得到即使在有噪聲和混響的情況下，該方法也有很好的定位效果。
[0060] 下面對本發(fā)明的基于iVector的聲源定位算法在不同情況下分別進(jìn)行比較驗(yàn)證，實(shí)驗(yàn)參數(shù)選取包括如下：
[0061] (1)仿真數(shù)據(jù)集選取于Roomsim,它是一段長方形房間混響仿真代碼，可設(shè)置聲源和接聽者的位置。它的尺寸為7mX6mX3m，混響時間（Tso)與反射系數(shù)(0)的關(guān)系由艾潤公式確定：
[0062] _ ' . _
[0063] 整個數(shù)據(jù)集按8:2的比例分成訓(xùn)練集和測試集，訓(xùn)練集數(shù)據(jù)作為算法輸入，而測試集用于測試改進(jìn)后的算法性能。
[0064] (2)聲源定位系統(tǒng)采用PLDA算法，參數(shù)為ii，V，yl，zリ。ii為所有訓(xùn)練數(shù)據(jù)的均值，V矩陣表示說話人空間(本征音矩陣），矢量yi為對應(yīng)的說話人因子，服從標(biāo)準(zhǔn)高斯分布，ZU表示殘差，由一個全角矩陣D表示。
[0065] (3)i-Vector的參數(shù)矩陣T采用一個空間代替兩個空間，在傳統(tǒng)的語音識別方法中，兩個空間是由本征音空間矩陣定義的說話人空間，和由本征音信道空間矩陣定義的信道空間。運(yùn)個新的空間既包含了說話人之間的差異又包含了信道的差異。
[0066] 實(shí)驗(yàn)1:驗(yàn)證在無噪環(huán)境下用iVector模型進(jìn)行聲源定位的等錯率的結(jié)果圖
[0067] 圖2為本發(fā)明在無噪聲環(huán)境下，對五個人進(jìn)行聲源定位。其中，Model代表訓(xùn)練的模型，Test代表測試的模型。將每一行與每一列進(jìn)行匹配，顏色越深代表得分越高。等錯率eer 越低代表性能越好。通過圖2可W看出，在無噪環(huán)境下，該算法的eer為0,所W該模型的定位效果非常好。
[0068] 實(shí)驗(yàn)2:驗(yàn)證在信噪比為15地環(huán)境下用iVector模型進(jìn)行聲源定位的等錯率的結(jié)果圖
[0069] 圖3是在信噪比為10地下的等錯率的結(jié)果圖。與實(shí)驗(yàn)1類似，可看到在15地下，eer 仍然為0,定位效果很好。
[0070] 實(shí)驗(yàn)3:驗(yàn)證在信噪比為20地環(huán)境下用iVector模型進(jìn)行聲源定位的等錯率的結(jié)果圖
[0071] 圖4是在信噪比為20地下的等錯率的結(jié)果圖。與實(shí)驗(yàn)1類似，可看到在15地下，eer 仍然為0,因此可W得出結(jié)論，基于i-vector說話人識別的聲源定位算法定位有著很好的定位效果。
[0072] 對本領(lǐng)域技術(shù)人員而言，根據(jù)上述實(shí)施類型可W很容易聯(lián)想其他的優(yōu)點(diǎn)和變形。因此，本發(fā)明不局限于W上實(shí)例，其僅僅作為例子對本發(fā)明的一種形態(tài)進(jìn)行詳細(xì)、示范性的說明。在不背離本發(fā)明宗旨的范圍內(nèi)，本領(lǐng)域技術(shù)人員根據(jù)上述具體實(shí)例，通過各種等同替換所得到的技術(shù)方案，均應(yīng)包含在本發(fā)明的權(quán)利要求范圍及其等同范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種基于i-vector說話人識別的聲源定位方法，其特征在于，所述方法包括如下步驟：步驟1:聲源位于每個訓(xùn)練位置ri，i = 1，2，... K，麥克風(fēng)陣記錄下聲源在該位置處發(fā)出的信號；步驟2:利用記錄下的混響信號，計(jì)算出互相關(guān)函數(shù)；步驟3:由互相關(guān)函數(shù)生成特征向量y; 步驟4:對于每個訓(xùn)練位置Γι，利用特征向量，計(jì)算出互相關(guān)函數(shù)PLDA模型的均值向量μ 和固定維度的說話人子空間貧以及殘差e1J; 步驟5:麥克風(fēng)陣記錄下信號，該信號包括聲源發(fā)出的信號及噪聲；步驟6:利用記錄下的信號，計(jì)算出互相關(guān)函數(shù)；步驟7:由互相關(guān)函數(shù)生成特征向量y;如果有N幀數(shù)據(jù)，則生成一個特征向量集合y。步驟8:利用PLDA模型對特征進(jìn)行測試，估計(jì)聲源的位置。2. 根據(jù)權(quán)利要求1所述的一種基于i-vector說話人識別的聲源定位算法，其特征在于，步驟2中，所述的特征屬性需要分配不同的權(quán)值。3. 根據(jù)權(quán)利要求1所述的一種基于i-vector說話人識別的聲源定位算法，其特征在于，步驟3中，聲源位置特征值由項(xiàng)目特征屬性計(jì)算而來，所述計(jì)算過程包括：步驟3-1，互相關(guān)函數(shù)特征的選取中，通過利用一種房間沖激響應(yīng)脈沖算法roomsim來模擬真實(shí)的聲音環(huán)境，信號之間的廣義互相關(guān)函數(shù)可以在頻域計(jì)算；步驟3-2，為了增強(qiáng)互相關(guān)函數(shù)的抗混響能力，可以使用相位變化加權(quán)函數(shù)；步驟3-3,實(shí)際情況中，麥克風(fēng)信號時域函數(shù)經(jīng)過加窗后，再由傅里葉變換求得頻域函數(shù);如果房間脈沖響應(yīng)的長度比窗函數(shù)的長度短很多，則麥克風(fēng)陣接收信號之間的GCC等于房間脈沖響應(yīng)的GCC。4. 根據(jù)權(quán)利要求1所述的一種基于i-vector說話人識別的聲源定位算法，其特征在于：所述方法應(yīng)用于所有項(xiàng)目帶有特征屬性的聲源定位系統(tǒng)。
【文檔編號】G01S5/18GK106019230SQ201610365659
【公開日】2016年10月12日
【申請日】2016年5月27日
【發(fā)明人】萬新旺, 顧曉瑜, 楊悅, 廖鵬程
【申請人】南京郵電大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：萬新旺;顧曉瑜;楊悅;廖鵬程;
技術(shù)所有人：南京郵電大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、邢老師：1.機(jī)械設(shè)計(jì)及理論 2.生物醫(yī)學(xué)材料及器械 3.聲發(fā)射檢測技術(shù)。
2、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測試技術(shù) 5.逆向工程技術(shù)研究
3、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
4、張老師：1.機(jī)械設(shè)計(jì)的應(yīng)力分析、強(qiáng)度校核的計(jì)算機(jī)仿真 2.生物反應(yīng)器研制 3.生物力學(xué)
5、趙老師：檢測與控制技術(shù)、機(jī)器人技術(shù)、機(jī)電一體化技術(shù)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于i-vector說話人識別的聲源定位方法