一種聲紋識(shí)別方法及系統(tǒng)與流程

文檔序號(hào)：11776311閱讀：431來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及計(jì)算機(jī)領(lǐng)域，尤其涉及一種聲紋識(shí)別方法及系統(tǒng)。

背景技術(shù)：

聲紋識(shí)別(特別是文本無(wú)關(guān)領(lǐng)域)技術(shù)經(jīng)過(guò)多年的積累和演化包括高斯混合模型-通用背景模型(gaussianmixturemodel-universalbackgroundmodel，ubm-gmm)，高斯超向量(gaussiansupervector，gsv)，聯(lián)合因子分析(jointfactoranalysis，jfa)，身份因子(identityvector，i-vector)等技術(shù)。時(shí)至今日，i-vector方法主導(dǎo)著整個(gè)聲紋識(shí)別領(lǐng)域技術(shù)的發(fā)展。i-vector方法，也稱(chēng)身份因子方法，它不嘗試去強(qiáng)制分開(kāi)說(shuō)話人空間和信道空間，而是直接設(shè)置一個(gè)全局變化空間(totalvariabilityspace)，它包含了語(yǔ)音數(shù)據(jù)中所有可能的信息。然后通過(guò)因子分析的方法，得到全局變化空間的載荷因子，這個(gè)就叫做i-vector。其維度遠(yuǎn)遠(yuǎn)低于高斯超向量。在這個(gè)因子上，用一個(gè)簡(jiǎn)單的區(qū)分說(shuō)話人之間的方法，就是讓不同說(shuō)話人之間的距離變大，而同一個(gè)說(shuō)話人受噪聲影響的各個(gè)語(yǔ)句之間的距離變小。顯然的，這就是線性判別式分析(lineardiscriminantanalysis，lda)方法的目標(biāo)，將說(shuō)話人之間的差異，視為類(lèi)間矩陣，將噪聲帶來(lái)的差異，視為類(lèi)內(nèi)矩陣，然后應(yīng)用概率化的lda方法估計(jì)出i-vector的lda矩陣，在這個(gè)lda矩陣上映射出來(lái)的就是反應(yīng)說(shuō)話人身份的信息向量。

盡管基于單一i-vector矩陣的技術(shù)相對(duì)于jfa等技術(shù)在性能上已經(jīng)取得了相當(dāng)大的突破，但依然存在增加訓(xùn)練數(shù)據(jù)量，系統(tǒng)性能遇到瓶頸的問(wèn)題，所以存在著很大的性能提升空間。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明實(shí)施例所要解決的技術(shù)問(wèn)題在于，提供一種聲紋識(shí)別方法及聲紋識(shí)別系統(tǒng)，能夠突破現(xiàn)有技術(shù)中單一i-vector框架聲紋識(shí)別性能瓶頸的技術(shù)問(wèn)題。

為了解決上述技術(shù)問(wèn)題，本發(fā)明實(shí)施例第一方面公開(kāi)了一種聲紋識(shí)別方法，包括

分別訓(xùn)練n個(gè)身份因子i-vector矩陣，得到n個(gè)i-vector矩陣；所述n為大于1的自然數(shù)；

根據(jù)所述n個(gè)i-vector矩陣，從測(cè)試樣本中分別提取中n個(gè)對(duì)應(yīng)的i-vector向量；

根據(jù)所述n個(gè)對(duì)應(yīng)的i-vector分別計(jì)算得分，得出n個(gè)對(duì)應(yīng)的分?jǐn)?shù)；

將所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)進(jìn)行融合，得到目標(biāo)分?jǐn)?shù)，并根據(jù)所述目標(biāo)分?jǐn)?shù)進(jìn)行判決。

結(jié)合第一方面，在第一種可能的實(shí)現(xiàn)方式中，所述分別訓(xùn)練n個(gè)身份因子i-vector矩陣，得到n個(gè)i-vector矩陣，包括：

通過(guò)n份訓(xùn)練數(shù)據(jù)分別訓(xùn)練n個(gè)i-vector矩陣，得到n個(gè)i-vector矩陣；所述n分訓(xùn)練數(shù)據(jù)相互獨(dú)立。

結(jié)合第一方面，在第二種可能的實(shí)現(xiàn)方式中，所述將所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)進(jìn)行融合，得到目標(biāo)分?jǐn)?shù)，包括：

將所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)取平均值，作為所述目標(biāo)分?jǐn)?shù)；或者

從所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)中取最大值，作為所述目標(biāo)分?jǐn)?shù)；或者

從所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)中取最小值，作為所述目標(biāo)分?jǐn)?shù)。

結(jié)合第一方面的第一種可能的實(shí)現(xiàn)方式，在第三種可能的實(shí)現(xiàn)方式中，所述通過(guò)n份訓(xùn)練數(shù)據(jù)分別訓(xùn)練n個(gè)i-vector矩陣，得到n個(gè)i-vector矩陣，包括：

隨機(jī)選取n份第一時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù)作為背景模型的訓(xùn)練數(shù)據(jù)；

分別將所述第一時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù)進(jìn)行特征提取和特征歸一化，得到提取的特征后，分別訓(xùn)練n個(gè)gmm-ubm模型；

隨機(jī)選取n份第二時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù)作為i-vector矩陣的訓(xùn)練數(shù)據(jù)；

分別將所述第一時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù)進(jìn)行特征提取和特征歸一化，得到提取的特征后，通過(guò)訓(xùn)練完成的所述n個(gè)gmm-ubm模型，分別n個(gè)提取高斯超向量gsv；

使用所述n個(gè)gsv分別訓(xùn)練得到n個(gè)i-vector矩陣。

結(jié)合第一方面的第三種可能的實(shí)現(xiàn)方式，在第四種可能的實(shí)現(xiàn)方式中，分別進(jìn)行n個(gè)gmm-ubm模型訓(xùn)練時(shí)，n個(gè)gmm-ubm模型參數(shù)中存在m個(gè)gmm-ubm模型參數(shù)不相同，所述m為大于1，小于等于所述n的自然數(shù)。

本發(fā)明實(shí)施例第二方面公開(kāi)了一種聲紋識(shí)別系統(tǒng)，包括：

矩陣訓(xùn)練模塊，用于分別訓(xùn)練n個(gè)身份因子i-vector矩陣，得到n個(gè)i-vector矩陣；所述n為大于1的自然數(shù)；

向量提取模塊，用于根據(jù)所述n個(gè)i-vector矩陣，從測(cè)試樣本中分別提取中n個(gè)對(duì)應(yīng)的i-vector向量；

計(jì)算模塊，用于根據(jù)所述n個(gè)對(duì)應(yīng)的i-vector分別計(jì)算得分，得出n個(gè)對(duì)應(yīng)的分?jǐn)?shù)；

融合判決模塊，用于將所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)進(jìn)行融合，得到目標(biāo)分?jǐn)?shù)，并根據(jù)所述目標(biāo)分?jǐn)?shù)進(jìn)行判決。

結(jié)合第二方面，在第一種可能的實(shí)現(xiàn)方式中，所述矩陣訓(xùn)練模塊具體用于通過(guò)n份訓(xùn)練數(shù)據(jù)分別訓(xùn)練n個(gè)i-vector矩陣，得到n個(gè)i-vector矩陣；所述n分訓(xùn)練數(shù)據(jù)相互獨(dú)立。

結(jié)合第二方面，在第二種可能的實(shí)現(xiàn)方式中，所述融合判決模塊包括：

第一融合單元，用于將所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)取平均值，作為所述目標(biāo)分?jǐn)?shù)；或者

第二融合單元，用于從所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)中取最大值，作為所述目標(biāo)分?jǐn)?shù)；或者

第三融合單元，用于從所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)中取最小值，作為所述目標(biāo)分?jǐn)?shù)。

結(jié)合第二方面的第一種可能的實(shí)現(xiàn)方式，在第三種可能的實(shí)現(xiàn)方式中，所述矩陣訓(xùn)練模塊包括：

第一選取單元，用于隨機(jī)選取n份第一時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù)作為背景模型的訓(xùn)練數(shù)據(jù)；

模型訓(xùn)練單元，用于分別將所述第一時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù)進(jìn)行特征提取和特征歸一化，得到提取的特征后，分別訓(xùn)練n個(gè)gmm-ubm模型；

第二選取單元，用于隨機(jī)選取n份第二時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù)作為i-vector矩陣的訓(xùn)練數(shù)據(jù)；

gsv提取單元，用于分別將所述第一時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù)進(jìn)行特征提取和特征歸一化，得到提取的特征后，通過(guò)訓(xùn)練完成的所述n個(gè)gmm-ubm模型，分別n個(gè)提取高斯超向量gsv；

i-vector矩陣訓(xùn)練單元，用于使用所述n個(gè)gsv分別訓(xùn)練得到n個(gè)i-vector矩陣。

結(jié)合第二方面的第三種可能的實(shí)現(xiàn)方式，在第四種可能的實(shí)現(xiàn)方式中，所述模型訓(xùn)練單元分別進(jìn)行n個(gè)gmm-ubm模型訓(xùn)練時(shí)，n個(gè)gmm-ubm模型參數(shù)中存在m個(gè)gmm-ubm模型參數(shù)不相同，所述m為大于1，小于等于所述n的自然數(shù)。

本發(fā)明實(shí)施例第三方面公開(kāi)了一種計(jì)算機(jī)存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)存儲(chǔ)介質(zhì)存儲(chǔ)有程序，所述程序執(zhí)行時(shí)包括本發(fā)明實(shí)施例第一方面、或者第一方面的第一種可能的實(shí)現(xiàn)方式，或者第一方面的第二種可能的實(shí)現(xiàn)方式，或者第一方面的第三種可能的實(shí)現(xiàn)方式，或者第一方面的第四種可能的實(shí)現(xiàn)方式中的聲紋識(shí)別方法的全部步驟。

實(shí)施本發(fā)明實(shí)施例，通過(guò)分別訓(xùn)練n個(gè)i-vector矩陣，根據(jù)該n個(gè)i-vector矩陣，從測(cè)試樣本中分別提取中n個(gè)對(duì)應(yīng)的i-vector向量，然后分別計(jì)算得分，得出n個(gè)對(duì)應(yīng)的分?jǐn)?shù)；最后將該n個(gè)對(duì)應(yīng)的分?jǐn)?shù)進(jìn)行融合，得到目標(biāo)分?jǐn)?shù)，并根據(jù)該目標(biāo)分?jǐn)?shù)進(jìn)行判決，能夠?qū)崿F(xiàn)在海量訓(xùn)練數(shù)據(jù)前提下，突破現(xiàn)有技術(shù)中單一i-vector框架聲紋識(shí)別性能瓶頸的技術(shù)問(wèn)題，經(jīng)測(cè)試表明，通過(guò)兩個(gè)以上經(jīng)過(guò)足量數(shù)據(jù)訓(xùn)練的i-vector框架相對(duì)于單一i-vector框架系統(tǒng)整體性能均能提升20％～30％左右。

附圖說(shuō)明

為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見(jiàn)地，下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可以根據(jù)這些附圖獲得其他的附圖。

圖1是本發(fā)明提供的i-vector方法的識(shí)別框架示意圖；

圖2是本發(fā)明實(shí)施例提供的聲紋識(shí)別方法的流程示意圖；

圖3是本發(fā)明提供的聲紋識(shí)別方法的原理框架示意圖；

圖4是本發(fā)明實(shí)施例提供的i-vector矩陣訓(xùn)練方法的流程示意圖；

圖5是本發(fā)明提供的聲紋識(shí)別系統(tǒng)的結(jié)構(gòu)示意圖；

圖6是本發(fā)明實(shí)施例提供的融合判決模塊的結(jié)構(gòu)示意圖；

圖7是本發(fā)明實(shí)施例提供的矩陣訓(xùn)練模塊的結(jié)構(gòu)示意圖；

圖8本發(fā)明提供的聲紋識(shí)別系統(tǒng)的另一實(shí)施例的結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例?；诒景l(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。

本發(fā)明實(shí)施例提供的聲紋識(shí)別方法是基于i-vector方法的聲紋識(shí)別技術(shù)，i-vector技術(shù)是基于單一空間的跨信道算法，它不區(qū)分說(shuō)話人空間的信息和信道空間信息。對(duì)于任何一句單獨(dú)的語(yǔ)音，都可以分解為背景模型和反映每個(gè)說(shuō)話人特征的，其高斯超向量gsv可表示如下：

ms＝mo+tws

其中，ms是c*f維的高斯超向量gsv；mo是話者無(wú)關(guān)且信道無(wú)關(guān)的c*f維超向量，由ubm的均值向量拼接而成；ws即總變化因子i-vector，維數(shù)為n，是一組服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)向量；t是總變化空間矩陣，維數(shù)為cf*n。

訓(xùn)練階段，根據(jù)大量開(kāi)發(fā)數(shù)據(jù)集，利用因子分析算法，從其中估計(jì)出總變化空間矩陣t；在得到總變化空間后，將高維的gsv在矩陣t所表示的總變化子空間中進(jìn)行投影，最終得到低維的總體變化因子(i-vector)。

具體地，結(jié)合圖1示出的本發(fā)明提供的i-vector方法的識(shí)別框架示意圖，訓(xùn)練階段主要包括三個(gè)模型的訓(xùn)練：ubm背景模型訓(xùn)練、總變化矩陣t和plda模型訓(xùn)練。

1.ubm背景模型訓(xùn)練：采用數(shù)百人、信道均衡、男女聲均衡的足夠多的語(yǔ)音訓(xùn)練一個(gè)高階的gmm，以描述說(shuō)話人無(wú)關(guān)的特征分布。

2.總變化空間t(也稱(chēng)i-vector矩陣)訓(xùn)練：根據(jù)大量開(kāi)發(fā)數(shù)據(jù)集，利用因子分析和最大期望(expectationmaximizationalgorithm，em)算法，從其中估計(jì)出總變化空間矩陣t。

3.信道補(bǔ)償算法(probabilisticlineardiscriminantanalysis，plda)模型訓(xùn)練：根據(jù)總變化空間t和ubm，提取的訓(xùn)練語(yǔ)音的總變化因子i-vector，將 i-vector按說(shuō)話人進(jìn)行分組，利用因子分析和em算法，估計(jì)plda模型的參數(shù)。

最后，測(cè)試階段：根據(jù)ubm模型和總變化矩陣t，提取總變化因子即i-vector；用測(cè)試數(shù)據(jù)和目標(biāo)說(shuō)話人的i-vetcor送入plda打分，進(jìn)行判決。

本發(fā)明實(shí)施例的聲紋識(shí)別方法是基于i-vector方法的聲紋識(shí)別方法，參見(jiàn)圖2，是本發(fā)明實(shí)施例提供的聲紋識(shí)別方法的流程示意圖，該方法包括：

步驟s200：分別訓(xùn)練n個(gè)身份因子i-vector矩陣，得到n個(gè)i-vector矩陣；

具體地，本發(fā)明各個(gè)實(shí)施例中的n為大于1的自然數(shù)，通過(guò)并行地獨(dú)立的分別訓(xùn)練多個(gè)i-vector矩陣，可以得到相互沒(méi)有交集的多個(gè)i-vector矩陣。

步驟s202：根據(jù)所述n個(gè)i-vector矩陣，從測(cè)試樣本中分別提取中n個(gè)對(duì)應(yīng)的i-vector向量；

步驟s204：根據(jù)所述n個(gè)對(duì)應(yīng)的i-vector分別計(jì)算得分，得出n個(gè)對(duì)應(yīng)的分?jǐn)?shù)；

步驟s206：將所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)進(jìn)行融合，得到目標(biāo)分?jǐn)?shù)，并根據(jù)所述目標(biāo)分?jǐn)?shù)進(jìn)行判決。

具體地，結(jié)合圖3示出的本發(fā)明提供的聲紋識(shí)別方法的原理框架示意圖進(jìn)行詳細(xì)說(shuō)明，步驟s200可以通過(guò)n份訓(xùn)練數(shù)據(jù)分別訓(xùn)練n個(gè)i-vector矩陣，得到n個(gè)i-vector矩陣；所述n分訓(xùn)練數(shù)據(jù)相互獨(dú)立，即數(shù)據(jù)之間可以保證客觀相互沒(méi)有交集。

步驟s200可以具體參見(jiàn)圖4示出的本發(fā)明實(shí)施例提供的i-vector矩陣訓(xùn)練方法的流程示意圖，包括：

步驟s400：隨機(jī)選取n份第一時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù)作為背景模型的訓(xùn)練數(shù)據(jù)；

具體地，該第一時(shí)長(zhǎng)可以為50個(gè)小時(shí)的時(shí)長(zhǎng)，或者60個(gè)小時(shí)的時(shí)長(zhǎng)等等，本發(fā)明實(shí)施例不作限制。

步驟s402：分別將所述第一時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù)進(jìn)行特征提取和特征歸一化，得到提取的特征后，分別訓(xùn)練n個(gè)gmm-ubm模型；

具體地，針對(duì)1份語(yǔ)音數(shù)據(jù)，可以首先將語(yǔ)音樣本處理成采樣率8k，16bit的脈沖編碼調(diào)制(pulsecodemodulation，pcm)文件，然后提取梅爾倒譜系數(shù)(melfrequencycepstrumcoefficient，mfcc)特征，再取其一階和二階統(tǒng)計(jì)量拼接作為該樣本的特征，然后針對(duì)提取的mfcc系列特征，進(jìn)行能量檢測(cè)，語(yǔ)音活性檢測(cè)(voiceactivitydetection，vad)和歸一化；得到提取的特征后，訓(xùn) 練gmm-ubm模型，一般指定512以上個(gè)components分量；那么針對(duì)n個(gè)可以分別訓(xùn)練n個(gè)gmm-ubm模型。

需要說(shuō)明的是，分別進(jìn)行n個(gè)gmm-ubm模型訓(xùn)練時(shí)，n個(gè)gmm-ubm模型參數(shù)中存在m個(gè)gmm-ubm模型參數(shù)不相同，所述m為大于1，小于等于所述n的自然數(shù)。

步驟s404：隨機(jī)選取n份第二時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù)作為i-vector矩陣的訓(xùn)練數(shù)據(jù)；

具體地，該第二時(shí)長(zhǎng)可以為100個(gè)小時(shí)的時(shí)長(zhǎng)，或者120個(gè)小時(shí)的時(shí)長(zhǎng)等等，本發(fā)明實(shí)施例不作限制，較優(yōu)地，該第二時(shí)長(zhǎng)大于100個(gè)小時(shí)。

步驟s406：分別將所述第一時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù)進(jìn)行特征提取和特征歸一化，得到提取的特征后，通過(guò)訓(xùn)練完成的所述n個(gè)gmm-ubm模型，分別n個(gè)提取高斯超向量gsv；

具體地，針對(duì)1份語(yǔ)音數(shù)據(jù)，該特征提取和特征歸一化的過(guò)程可以參考上述步驟s402中的過(guò)程，這里不再贅述；在得到提取的特征后，使用步驟s402訓(xùn)練完成的gmm-ubm模型，提取高斯超向量(即各個(gè)高斯模型的均值，拼接后形成的超高維度向量)。

步驟s408：使用所述n個(gè)gsv分別訓(xùn)練得到n個(gè)i-vector矩陣。

接下來(lái)，步驟s202根據(jù)所述n個(gè)i-vector矩陣，從測(cè)試樣本中分別提取中n個(gè)對(duì)應(yīng)的i-vector向量，具體可以包括：先將語(yǔ)音數(shù)據(jù)進(jìn)行特征提取和特征歸一化，得到提取的特征后，該特征提取和特征歸一化的過(guò)程同樣可以參考上述步驟s402中的過(guò)程，這里不再贅述；得到提取的特征后，可以基于之前訓(xùn)練出的gmm-ubm模型和i-vector矩陣，提取出各樣本所對(duì)應(yīng)的i-vector向量。

最后步驟s206中將所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)進(jìn)行融合的融合方法可以有多種，包括：將所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)取平均值，作為所述目標(biāo)分?jǐn)?shù)；或者從所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)中取最大值，作為所述目標(biāo)分?jǐn)?shù)；或者從所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)中取最小值，作為所述目標(biāo)分?jǐn)?shù)，等等。

根據(jù)所述目標(biāo)分?jǐn)?shù)進(jìn)行判決時(shí)可以具體為，計(jì)算兩個(gè)i-vector向量之間的余弦距離，根據(jù)距離判斷兩個(gè)樣本是否屬于同一個(gè)人。(通常情況下，再得到i-vector向量后，再通過(guò)plda等方法降維，得到降維后的向量，往往更具有表征能力，在此就不做贅述)

為了便于更好地實(shí)施本發(fā)明實(shí)施例的上述方案，本發(fā)明還對(duì)應(yīng)提供了一種聲紋識(shí)別系統(tǒng)，如圖5示出的本發(fā)明提供的聲紋識(shí)別系統(tǒng)的結(jié)構(gòu)示意圖，聲紋識(shí)別系統(tǒng)50包括：矩陣訓(xùn)練模塊500、向量提取模塊502、計(jì)算模塊504和融合判決模塊506，其中

矩陣訓(xùn)練模塊500用于分別訓(xùn)練n個(gè)身份因子i-vector矩陣，得到n個(gè)i-vector矩陣；所述n為大于1的自然數(shù)；

向量提取模塊502用于根據(jù)所述n個(gè)i-vector矩陣，從測(cè)試樣本中分別提取中n個(gè)對(duì)應(yīng)的i-vector向量；

計(jì)算模塊504用于根據(jù)所述n個(gè)對(duì)應(yīng)的i-vector分別計(jì)算得分，得出n個(gè)對(duì)應(yīng)的分?jǐn)?shù)；

融合判決模塊506用于將所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)進(jìn)行融合，得到目標(biāo)分?jǐn)?shù)，并根據(jù)所述目標(biāo)分?jǐn)?shù)進(jìn)行判決。

具體地，矩陣訓(xùn)練模塊500具體用于通過(guò)n份訓(xùn)練數(shù)據(jù)分別訓(xùn)練n個(gè)i-vector矩陣，得到n個(gè)i-vector矩陣；所述n分訓(xùn)練數(shù)據(jù)相互獨(dú)立。

具體地，如圖6示出的本發(fā)明實(shí)施例提供的融合判決模塊的結(jié)構(gòu)示意圖，融合判決模塊506可以包括：第一融合單元5060、或者第二融合單元5062、或者第三融合單元5064，其中

第一融合單元5060用于將所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)取平均值，作為所述目標(biāo)分?jǐn)?shù)；或者

第二融合單元5062用于從所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)中取最大值，作為所述目標(biāo)分?jǐn)?shù)；或者

第三融合單元5064用于從所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)中取最小值，作為所述目標(biāo)分?jǐn)?shù)。

進(jìn)一步地，如圖7示出的本發(fā)明實(shí)施例提供的矩陣訓(xùn)練模塊的結(jié)構(gòu)示意圖，矩陣訓(xùn)練模塊500可以包括：第一選取單元5000、模型訓(xùn)練單元5002、第二選取單元5004、gsv提取單元5006和i-vector矩陣訓(xùn)練單元5008，其中，

第一選取單元5000用于隨機(jī)選取n份第一時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù)作為背景模型的訓(xùn)練數(shù)據(jù)；

模型訓(xùn)練單元5002用于分別將所述第一時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù)進(jìn)行特征提取和特征歸一化，得到提取的特征后，分別訓(xùn)練n個(gè)gmm-ubm模型；

第二選取單元5004用于隨機(jī)選取n份第二時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù)作為i-vector矩陣的訓(xùn)練數(shù)據(jù)；

gsv提取單元5006用于分別將所述第一時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù)進(jìn)行特征提取和特征歸一化，得到提取的特征后，通過(guò)訓(xùn)練完成的所述n個(gè)gmm-ubm模型，分別n個(gè)提取高斯超向量gsv；

i-vector矩陣訓(xùn)練單元5008用于使用所述n個(gè)gsv分別訓(xùn)練得到n個(gè)i-vector矩陣。

再進(jìn)一步地，模型訓(xùn)練單元5002分別進(jìn)行n個(gè)gmm-ubm模型訓(xùn)練時(shí)，n個(gè)gmm-ubm模型參數(shù)中存在m個(gè)gmm-ubm模型參數(shù)不相同，所述m為大于1，小于等于所述n的自然數(shù)。

請(qǐng)參閱圖8，圖8是本發(fā)明提供的聲紋識(shí)別系統(tǒng)的另一實(shí)施例的結(jié)構(gòu)示意圖。其中，如圖8所示，聲紋識(shí)別系統(tǒng)80可以包括：至少一個(gè)處理器801，例如cpu，至少一個(gè)網(wǎng)絡(luò)接口804，用戶(hù)接口803，存儲(chǔ)器805，至少一個(gè)通信總線802以及顯示屏806。其中，通信總線802用于實(shí)現(xiàn)這些組件之間的連接通信。其中，用戶(hù)接口803，可選用戶(hù)接口803還可以包括標(biāo)準(zhǔn)的有線接口、無(wú)線接口。網(wǎng)絡(luò)接口804可選的可以包括標(biāo)準(zhǔn)的有線接口、無(wú)線接口(如wi-fi接口)。存儲(chǔ)器805可以是高速ram存儲(chǔ)器，也可以是非不穩(wěn)定的存儲(chǔ)器(non-volatilememory)，例如至少一個(gè)磁盤(pán)存儲(chǔ)器。存儲(chǔ)器805可選的還可以是至少一個(gè)位于遠(yuǎn)離前述處理器801的存儲(chǔ)系統(tǒng)。如圖8所示，作為一種計(jì)算機(jī)存儲(chǔ)介質(zhì)的存儲(chǔ)器805中可以包括操作系統(tǒng)、網(wǎng)絡(luò)通信模塊、用戶(hù)接口模塊以及聲紋識(shí)別程序。

在圖8所示的聲紋識(shí)別系統(tǒng)80中處理器801可以用于調(diào)用存儲(chǔ)器805中存儲(chǔ)的聲紋識(shí)別程序，并執(zhí)行以下操作：

分別訓(xùn)練n個(gè)身份因子i-vector矩陣，得到n個(gè)i-vector矩陣；所述n為大于1的自然數(shù)；

根據(jù)所述n個(gè)i-vector矩陣，從測(cè)試樣本中分別提取中n個(gè)對(duì)應(yīng)的i-vector向量；

根據(jù)所述n個(gè)對(duì)應(yīng)的i-vector分別計(jì)算得分，得出n個(gè)對(duì)應(yīng)的分?jǐn)?shù)；

將所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)進(jìn)行融合，得到目標(biāo)分?jǐn)?shù)，并根據(jù)所述目標(biāo)分?jǐn)?shù)進(jìn)行判決。

具體地，處理器801分別訓(xùn)練n個(gè)身份因子i-vector矩陣，得到n個(gè)i-vector矩陣，可以包括：

通過(guò)n份訓(xùn)練數(shù)據(jù)分別訓(xùn)練n個(gè)i-vector矩陣，得到n個(gè)i-vector矩陣；所述n分訓(xùn)練數(shù)據(jù)相互獨(dú)立。

進(jìn)一步地，處理器801將所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)進(jìn)行融合，得到目標(biāo)分?jǐn)?shù)，可以包括：

將所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)取平均值，作為所述目標(biāo)分?jǐn)?shù)；或者

從所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)中取最大值，作為所述目標(biāo)分?jǐn)?shù)；或者

從所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)中取最小值，作為所述目標(biāo)分?jǐn)?shù)。

進(jìn)一步地，處理器801通過(guò)n份訓(xùn)練數(shù)據(jù)分別訓(xùn)練n個(gè)i-vector矩陣，得到n個(gè)i-vector矩陣，可以包括：

隨機(jī)選取n份第一時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù)作為背景模型的訓(xùn)練數(shù)據(jù)；

分別將所述第一時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù)進(jìn)行特征提取和特征歸一化，得到提取的特征后，分別訓(xùn)練n個(gè)gmm-ubm模型；

隨機(jī)選取n份第二時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù)作為i-vector矩陣的訓(xùn)練數(shù)據(jù)；

使用所述n個(gè)gsv分別訓(xùn)練得到n個(gè)i-vector矩陣。

進(jìn)一步地，分別進(jìn)行n個(gè)gmm-ubm模型訓(xùn)練時(shí)，n個(gè)gmm-ubm模型參數(shù)中存在m個(gè)gmm-ubm模型參數(shù)不相同，所述m為大于1，小于等于所述n的自然數(shù)。

需要說(shuō)明的是，本發(fā)明實(shí)施例中的聲紋識(shí)別系統(tǒng)50或聲紋識(shí)別系統(tǒng)80可以為個(gè)人計(jì)算機(jī)或移動(dòng)智能終端、平板電腦等電子終端；聲紋識(shí)別系統(tǒng)50或聲紋識(shí)別系統(tǒng)80中各功能模塊的功能可根據(jù)上述方法實(shí)施例中的方法具體實(shí)現(xiàn)，這里不再贅述。

綜上所述，實(shí)施本發(fā)明實(shí)施例，通過(guò)分別訓(xùn)練n個(gè)i-vector矩陣，根據(jù)該n個(gè)i-vector矩陣，從測(cè)試樣本中分別提取中n個(gè)對(duì)應(yīng)的i-vector向量，然后分別計(jì)算得分，得出n個(gè)對(duì)應(yīng)的分?jǐn)?shù)；最后將該n個(gè)對(duì)應(yīng)的分?jǐn)?shù)進(jìn)行融合，得到目標(biāo)分?jǐn)?shù)，并根據(jù)該目標(biāo)分?jǐn)?shù)進(jìn)行判決，能夠?qū)崿F(xiàn)在海量訓(xùn)練數(shù)據(jù)前提下，突破現(xiàn)有技術(shù)中單一i-vector框架聲紋識(shí)別性能瓶頸的技術(shù)問(wèn)題，經(jīng)測(cè)試表明，通過(guò)兩個(gè)以上經(jīng)過(guò)足量數(shù)據(jù)訓(xùn)練的i-vector框架相對(duì)于單一i-vector框架系統(tǒng)整體性能均能提升20％～30％左右。

本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程，是可以通過(guò)計(jì)算機(jī)程序來(lái)指令相關(guān)的硬件來(lái)完成，所述的程序可存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中，該程序在執(zhí)行時(shí)，可包括如上述各方法的實(shí)施例的流程。其中，所述的存儲(chǔ)介質(zhì)可為磁碟、光盤(pán)、只讀存儲(chǔ)記憶體(read-onlymemory，rom)或隨機(jī)存儲(chǔ)記憶體(randomaccessmemory，ram)等。

以上所揭露的僅為本發(fā)明較佳實(shí)施例而已，當(dāng)然不能以此來(lái)限定本發(fā)明之權(quán)利范圍，因此依本發(fā)明權(quán)利要求所作的等同變化，仍屬本發(fā)明所涵蓋的范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：金星明;李為;鄭昉勱;吳富章;朱碧磊;錢(qián)柄樺;李科;吳永堅(jiān);黃飛躍
技術(shù)所有人：騰訊科技（深圳）有限公司
我是此專(zhuān)利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

科大訊飛聲紋識(shí)別相關(guān)技術(shù)

聲紋識(shí)別系統(tǒng)相關(guān)技術(shù)

聲紋識(shí)別軟件相關(guān)技術(shù)

聲紋識(shí)別相關(guān)技術(shù)

聲紋識(shí)別技術(shù)相關(guān)技術(shù)

百度聲紋識(shí)別相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種聲紋識(shí)別方法及系統(tǒng)與流程