本發(fā)明涉及計(jì)算機(jī)領(lǐng)域,尤其涉及一種聲紋識(shí)別方法及系統(tǒng)。
背景技術(shù):
聲紋識(shí)別(特別是文本無(wú)關(guān)領(lǐng)域)技術(shù)經(jīng)過(guò)多年的積累和演化包括高斯混合模型-通用背景模型(gaussianmixturemodel-universalbackgroundmodel,ubm-gmm),高斯超向量(gaussiansupervector,gsv),聯(lián)合因子分析(jointfactoranalysis,jfa),身份因子(identityvector,i-vector)等技術(shù)。時(shí)至今日,i-vector方法主導(dǎo)著整個(gè)聲紋識(shí)別領(lǐng)域技術(shù)的發(fā)展。i-vector方法,也稱(chēng)身份因子方法,它不嘗試去強(qiáng)制分開(kāi)說(shuō)話人空間和信道空間,而是直接設(shè)置一個(gè)全局變化空間(totalvariabilityspace),它包含了語(yǔ)音數(shù)據(jù)中所有可能的信息。然后通過(guò)因子分析的方法,得到全局變化空間的載荷因子,這個(gè)就叫做i-vector。其維度遠(yuǎn)遠(yuǎn)低于高斯超向量。在這個(gè)因子上,用一個(gè)簡(jiǎn)單的區(qū)分說(shuō)話人之間的方法,就是讓不同說(shuō)話人之間的距離變大,而同一個(gè)說(shuō)話人受噪聲影響的各個(gè)語(yǔ)句之間的距離變小。顯然的,這就是線性判別式分析(lineardiscriminantanalysis,lda)方法的目標(biāo),將說(shuō)話人之間的差異,視為類(lèi)間矩陣,將噪聲帶來(lái)的差異,視為類(lèi)內(nèi)矩陣,然后應(yīng)用概率化的lda方法估計(jì)出i-vector的lda矩陣,在這個(gè)lda矩陣上映射出來(lái)的就是反應(yīng)說(shuō)話人身份的信息向量。
盡管基于單一i-vector矩陣的技術(shù)相對(duì)于jfa等技術(shù)在性能上已經(jīng)取得了相當(dāng)大的突破,但依然存在增加訓(xùn)練數(shù)據(jù)量,系統(tǒng)性能遇到瓶頸的問(wèn)題,所以存在著很大的性能提升空間。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例所要解決的技術(shù)問(wèn)題在于,提供一種聲紋識(shí)別方法及聲紋識(shí)別系統(tǒng),能夠突破現(xiàn)有技術(shù)中單一i-vector框架聲紋識(shí)別性能瓶頸的技術(shù)問(wèn)題。
為了解決上述技術(shù)問(wèn)題,本發(fā)明實(shí)施例第一方面公開(kāi)了一種聲紋識(shí)別方法,包括
分別訓(xùn)練n個(gè)身份因子i-vector矩陣,得到n個(gè)i-vector矩陣;所述n為大于1的自然數(shù);
根據(jù)所述n個(gè)i-vector矩陣,從測(cè)試樣本中分別提取中n個(gè)對(duì)應(yīng)的i-vector向量;
根據(jù)所述n個(gè)對(duì)應(yīng)的i-vector分別計(jì)算得分,得出n個(gè)對(duì)應(yīng)的分?jǐn)?shù);
將所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)進(jìn)行融合,得到目標(biāo)分?jǐn)?shù),并根據(jù)所述目標(biāo)分?jǐn)?shù)進(jìn)行判決。
結(jié)合第一方面,在第一種可能的實(shí)現(xiàn)方式中,所述分別訓(xùn)練n個(gè)身份因子i-vector矩陣,得到n個(gè)i-vector矩陣,包括:
通過(guò)n份訓(xùn)練數(shù)據(jù)分別訓(xùn)練n個(gè)i-vector矩陣,得到n個(gè)i-vector矩陣;所述n分訓(xùn)練數(shù)據(jù)相互獨(dú)立。
結(jié)合第一方面,在第二種可能的實(shí)現(xiàn)方式中,所述將所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)進(jìn)行融合,得到目標(biāo)分?jǐn)?shù),包括:
將所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)取平均值,作為所述目標(biāo)分?jǐn)?shù);或者
從所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)中取最大值,作為所述目標(biāo)分?jǐn)?shù);或者
從所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)中取最小值,作為所述目標(biāo)分?jǐn)?shù)。
結(jié)合第一方面的第一種可能的實(shí)現(xiàn)方式,在第三種可能的實(shí)現(xiàn)方式中,所述通過(guò)n份訓(xùn)練數(shù)據(jù)分別訓(xùn)練n個(gè)i-vector矩陣,得到n個(gè)i-vector矩陣,包括:
隨機(jī)選取n份第一時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù)作為背景模型的訓(xùn)練數(shù)據(jù);
分別將所述第一時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù)進(jìn)行特征提取和特征歸一化,得到提取的特征后,分別訓(xùn)練n個(gè)gmm-ubm模型;
隨機(jī)選取n份第二時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù)作為i-vector矩陣的訓(xùn)練數(shù)據(jù);
分別將所述第一時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù)進(jìn)行特征提取和特征歸一化,得到提取的特征后,通過(guò)訓(xùn)練完成的所述n個(gè)gmm-ubm模型,分別n個(gè)提取高斯超向量gsv;
使用所述n個(gè)gsv分別訓(xùn)練得到n個(gè)i-vector矩陣。
結(jié)合第一方面的第三種可能的實(shí)現(xiàn)方式,在第四種可能的實(shí)現(xiàn)方式中,分別進(jìn)行n個(gè)gmm-ubm模型訓(xùn)練時(shí),n個(gè)gmm-ubm模型參數(shù)中存在m個(gè)gmm-ubm模型參數(shù)不相同,所述m為大于1,小于等于所述n的自然數(shù)。
本發(fā)明實(shí)施例第二方面公開(kāi)了一種聲紋識(shí)別系統(tǒng),包括:
矩陣訓(xùn)練模塊,用于分別訓(xùn)練n個(gè)身份因子i-vector矩陣,得到n個(gè)i-vector矩陣;所述n為大于1的自然數(shù);
向量提取模塊,用于根據(jù)所述n個(gè)i-vector矩陣,從測(cè)試樣本中分別提取中n個(gè)對(duì)應(yīng)的i-vector向量;
計(jì)算模塊,用于根據(jù)所述n個(gè)對(duì)應(yīng)的i-vector分別計(jì)算得分,得出n個(gè)對(duì)應(yīng)的分?jǐn)?shù);
融合判決模塊,用于將所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)進(jìn)行融合,得到目標(biāo)分?jǐn)?shù),并根據(jù)所述目標(biāo)分?jǐn)?shù)進(jìn)行判決。
結(jié)合第二方面,在第一種可能的實(shí)現(xiàn)方式中,所述矩陣訓(xùn)練模塊具體用于通過(guò)n份訓(xùn)練數(shù)據(jù)分別訓(xùn)練n個(gè)i-vector矩陣,得到n個(gè)i-vector矩陣;所述n分訓(xùn)練數(shù)據(jù)相互獨(dú)立。
結(jié)合第二方面,在第二種可能的實(shí)現(xiàn)方式中,所述融合判決模塊包括:
第一融合單元,用于將所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)取平均值,作為所述目標(biāo)分?jǐn)?shù);或者
第二融合單元,用于從所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)中取最大值,作為所述目標(biāo)分?jǐn)?shù);或者
第三融合單元,用于從所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)中取最小值,作為所述目標(biāo)分?jǐn)?shù)。
結(jié)合第二方面的第一種可能的實(shí)現(xiàn)方式,在第三種可能的實(shí)現(xiàn)方式中,所述矩陣訓(xùn)練模塊包括:
第一選取單元,用于隨機(jī)選取n份第一時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù)作為背景模型的訓(xùn)練數(shù)據(jù);
模型訓(xùn)練單元,用于分別將所述第一時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù)進(jìn)行特征提取和特征歸一化,得到提取的特征后,分別訓(xùn)練n個(gè)gmm-ubm模型;
第二選取單元,用于隨機(jī)選取n份第二時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù)作為i-vector矩陣的訓(xùn)練數(shù)據(jù);
gsv提取單元,用于分別將所述第一時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù)進(jìn)行特征提取和特征歸一化,得到提取的特征后,通過(guò)訓(xùn)練完成的所述n個(gè)gmm-ubm模型,分別n個(gè)提取高斯超向量gsv;
i-vector矩陣訓(xùn)練單元,用于使用所述n個(gè)gsv分別訓(xùn)練得到n個(gè)i-vector矩陣。
結(jié)合第二方面的第三種可能的實(shí)現(xiàn)方式,在第四種可能的實(shí)現(xiàn)方式中,所述模型訓(xùn)練單元分別進(jìn)行n個(gè)gmm-ubm模型訓(xùn)練時(shí),n個(gè)gmm-ubm模型參數(shù)中存在m個(gè)gmm-ubm模型參數(shù)不相同,所述m為大于1,小于等于所述n的自然數(shù)。
本發(fā)明實(shí)施例第三方面公開(kāi)了一種計(jì)算機(jī)存儲(chǔ)介質(zhì),所述計(jì)算機(jī)存儲(chǔ)介質(zhì)存儲(chǔ)有程序,所述程序執(zhí)行時(shí)包括本發(fā)明實(shí)施例第一方面、或者第一方面的第一種可能的實(shí)現(xiàn)方式,或者第一方面的第二種可能的實(shí)現(xiàn)方式,或者第一方面的第三種可能的實(shí)現(xiàn)方式,或者第一方面的第四種可能的實(shí)現(xiàn)方式中的聲紋識(shí)別方法的全部步驟。
實(shí)施本發(fā)明實(shí)施例,通過(guò)分別訓(xùn)練n個(gè)i-vector矩陣,根據(jù)該n個(gè)i-vector矩陣,從測(cè)試樣本中分別提取中n個(gè)對(duì)應(yīng)的i-vector向量,然后分別計(jì)算得分,得出n個(gè)對(duì)應(yīng)的分?jǐn)?shù);最后將該n個(gè)對(duì)應(yīng)的分?jǐn)?shù)進(jìn)行融合,得到目標(biāo)分?jǐn)?shù),并根據(jù)該目標(biāo)分?jǐn)?shù)進(jìn)行判決,能夠?qū)崿F(xiàn)在海量訓(xùn)練數(shù)據(jù)前提下,突破現(xiàn)有技術(shù)中單一i-vector框架聲紋識(shí)別性能瓶頸的技術(shù)問(wèn)題,經(jīng)測(cè)試表明,通過(guò)兩個(gè)以上經(jīng)過(guò)足量數(shù)據(jù)訓(xùn)練的i-vector框架相對(duì)于單一i-vector框架系統(tǒng)整體性能均能提升20%~30%左右。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本發(fā)明提供的i-vector方法的識(shí)別框架示意圖;
圖2是本發(fā)明實(shí)施例提供的聲紋識(shí)別方法的流程示意圖;
圖3是本發(fā)明提供的聲紋識(shí)別方法的原理框架示意圖;
圖4是本發(fā)明實(shí)施例提供的i-vector矩陣訓(xùn)練方法的流程示意圖;
圖5是本發(fā)明提供的聲紋識(shí)別系統(tǒng)的結(jié)構(gòu)示意圖;
圖6是本發(fā)明實(shí)施例提供的融合判決模塊的結(jié)構(gòu)示意圖;
圖7是本發(fā)明實(shí)施例提供的矩陣訓(xùn)練模塊的結(jié)構(gòu)示意圖;
圖8本發(fā)明提供的聲紋識(shí)別系統(tǒng)的另一實(shí)施例的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
本發(fā)明實(shí)施例提供的聲紋識(shí)別方法是基于i-vector方法的聲紋識(shí)別技術(shù),i-vector技術(shù)是基于單一空間的跨信道算法,它不區(qū)分說(shuō)話人空間的信息和信道空間信息。對(duì)于任何一句單獨(dú)的語(yǔ)音,都可以分解為背景模型和反映每個(gè)說(shuō)話人特征的,其高斯超向量gsv可表示如下:
ms=mo+tws
其中,ms是c*f維的高斯超向量gsv;mo是話者無(wú)關(guān)且信道無(wú)關(guān)的c*f維超向量,由ubm的均值向量拼接而成;ws即總變化因子i-vector,維數(shù)為n,是一組服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)向量;t是總變化空間矩陣,維數(shù)為cf*n。
訓(xùn)練階段,根據(jù)大量開(kāi)發(fā)數(shù)據(jù)集,利用因子分析算法,從其中估計(jì)出總變化空間矩陣t;在得到總變化空間后,將高維的gsv在矩陣t所表示的總變化子空間中進(jìn)行投影,最終得到低維的總體變化因子(i-vector)。
具體地,結(jié)合圖1示出的本發(fā)明提供的i-vector方法的識(shí)別框架示意圖,訓(xùn)練階段主要包括三個(gè)模型的訓(xùn)練:ubm背景模型訓(xùn)練、總變化矩陣t和plda模型訓(xùn)練。
1.ubm背景模型訓(xùn)練:采用數(shù)百人、信道均衡、男女聲均衡的足夠多的語(yǔ)音訓(xùn)練一個(gè)高階的gmm,以描述說(shuō)話人無(wú)關(guān)的特征分布。
2.總變化空間t(也稱(chēng)i-vector矩陣)訓(xùn)練:根據(jù)大量開(kāi)發(fā)數(shù)據(jù)集,利用因子分析和最大期望(expectationmaximizationalgorithm,em)算法,從其中估計(jì)出總變化空間矩陣t。
3.信道補(bǔ)償算法(probabilisticlineardiscriminantanalysis,plda)模型訓(xùn)練:根據(jù)總變化空間t和ubm,提取的訓(xùn)練語(yǔ)音的總變化因子i-vector,將 i-vector按說(shuō)話人進(jìn)行分組,利用因子分析和em算法,估計(jì)plda模型的參數(shù)。
最后,測(cè)試階段:根據(jù)ubm模型和總變化矩陣t,提取總變化因子即i-vector;用測(cè)試數(shù)據(jù)和目標(biāo)說(shuō)話人的i-vetcor送入plda打分,進(jìn)行判決。
本發(fā)明實(shí)施例的聲紋識(shí)別方法是基于i-vector方法的聲紋識(shí)別方法,參見(jiàn)圖2,是本發(fā)明實(shí)施例提供的聲紋識(shí)別方法的流程示意圖,該方法包括:
步驟s200:分別訓(xùn)練n個(gè)身份因子i-vector矩陣,得到n個(gè)i-vector矩陣;
具體地,本發(fā)明各個(gè)實(shí)施例中的n為大于1的自然數(shù),通過(guò)并行地獨(dú)立的分別訓(xùn)練多個(gè)i-vector矩陣,可以得到相互沒(méi)有交集的多個(gè)i-vector矩陣。
步驟s202:根據(jù)所述n個(gè)i-vector矩陣,從測(cè)試樣本中分別提取中n個(gè)對(duì)應(yīng)的i-vector向量;
步驟s204:根據(jù)所述n個(gè)對(duì)應(yīng)的i-vector分別計(jì)算得分,得出n個(gè)對(duì)應(yīng)的分?jǐn)?shù);
步驟s206:將所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)進(jìn)行融合,得到目標(biāo)分?jǐn)?shù),并根據(jù)所述目標(biāo)分?jǐn)?shù)進(jìn)行判決。
具體地,結(jié)合圖3示出的本發(fā)明提供的聲紋識(shí)別方法的原理框架示意圖進(jìn)行詳細(xì)說(shuō)明,步驟s200可以通過(guò)n份訓(xùn)練數(shù)據(jù)分別訓(xùn)練n個(gè)i-vector矩陣,得到n個(gè)i-vector矩陣;所述n分訓(xùn)練數(shù)據(jù)相互獨(dú)立,即數(shù)據(jù)之間可以保證客觀相互沒(méi)有交集。
步驟s200可以具體參見(jiàn)圖4示出的本發(fā)明實(shí)施例提供的i-vector矩陣訓(xùn)練方法的流程示意圖,包括:
步驟s400:隨機(jī)選取n份第一時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù)作為背景模型的訓(xùn)練數(shù)據(jù);
具體地,該第一時(shí)長(zhǎng)可以為50個(gè)小時(shí)的時(shí)長(zhǎng),或者60個(gè)小時(shí)的時(shí)長(zhǎng)等等,本發(fā)明實(shí)施例不作限制。
步驟s402:分別將所述第一時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù)進(jìn)行特征提取和特征歸一化,得到提取的特征后,分別訓(xùn)練n個(gè)gmm-ubm模型;
具體地,針對(duì)1份語(yǔ)音數(shù)據(jù),可以首先將語(yǔ)音樣本處理成采樣率8k,16bit的脈沖編碼調(diào)制(pulsecodemodulation,pcm)文件,然后提取梅爾倒譜系數(shù)(melfrequencycepstrumcoefficient,mfcc)特征,再取其一階和二階統(tǒng)計(jì)量拼接作為該樣本的特征,然后針對(duì)提取的mfcc系列特征,進(jìn)行能量檢測(cè),語(yǔ)音活性檢測(cè)(voiceactivitydetection,vad)和歸一化;得到提取的特征后,訓(xùn) 練gmm-ubm模型,一般指定512以上個(gè)components分量;那么針對(duì)n個(gè)可以分別訓(xùn)練n個(gè)gmm-ubm模型。
需要說(shuō)明的是,分別進(jìn)行n個(gè)gmm-ubm模型訓(xùn)練時(shí),n個(gè)gmm-ubm模型參數(shù)中存在m個(gè)gmm-ubm模型參數(shù)不相同,所述m為大于1,小于等于所述n的自然數(shù)。
步驟s404:隨機(jī)選取n份第二時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù)作為i-vector矩陣的訓(xùn)練數(shù)據(jù);
具體地,該第二時(shí)長(zhǎng)可以為100個(gè)小時(shí)的時(shí)長(zhǎng),或者120個(gè)小時(shí)的時(shí)長(zhǎng)等等,本發(fā)明實(shí)施例不作限制,較優(yōu)地,該第二時(shí)長(zhǎng)大于100個(gè)小時(shí)。
步驟s406:分別將所述第一時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù)進(jìn)行特征提取和特征歸一化,得到提取的特征后,通過(guò)訓(xùn)練完成的所述n個(gè)gmm-ubm模型,分別n個(gè)提取高斯超向量gsv;
具體地,針對(duì)1份語(yǔ)音數(shù)據(jù),該特征提取和特征歸一化的過(guò)程可以參考上述步驟s402中的過(guò)程,這里不再贅述;在得到提取的特征后,使用步驟s402訓(xùn)練完成的gmm-ubm模型,提取高斯超向量(即各個(gè)高斯模型的均值,拼接后形成的超高維度向量)。
步驟s408:使用所述n個(gè)gsv分別訓(xùn)練得到n個(gè)i-vector矩陣。
接下來(lái),步驟s202根據(jù)所述n個(gè)i-vector矩陣,從測(cè)試樣本中分別提取中n個(gè)對(duì)應(yīng)的i-vector向量,具體可以包括:先將語(yǔ)音數(shù)據(jù)進(jìn)行特征提取和特征歸一化,得到提取的特征后,該特征提取和特征歸一化的過(guò)程同樣可以參考上述步驟s402中的過(guò)程,這里不再贅述;得到提取的特征后,可以基于之前訓(xùn)練出的gmm-ubm模型和i-vector矩陣,提取出各樣本所對(duì)應(yīng)的i-vector向量。
最后步驟s206中將所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)進(jìn)行融合的融合方法可以有多種,包括:將所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)取平均值,作為所述目標(biāo)分?jǐn)?shù);或者從所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)中取最大值,作為所述目標(biāo)分?jǐn)?shù);或者從所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)中取最小值,作為所述目標(biāo)分?jǐn)?shù),等等。
根據(jù)所述目標(biāo)分?jǐn)?shù)進(jìn)行判決時(shí)可以具體為,計(jì)算兩個(gè)i-vector向量之間的余弦距離,根據(jù)距離判斷兩個(gè)樣本是否屬于同一個(gè)人。(通常情況下,再得到i-vector向量后,再通過(guò)plda等方法降維,得到降維后的向量,往往更具有表 征能力,在此就不做贅述)
實(shí)施本發(fā)明實(shí)施例,通過(guò)分別訓(xùn)練n個(gè)i-vector矩陣,根據(jù)該n個(gè)i-vector矩陣,從測(cè)試樣本中分別提取中n個(gè)對(duì)應(yīng)的i-vector向量,然后分別計(jì)算得分,得出n個(gè)對(duì)應(yīng)的分?jǐn)?shù);最后將該n個(gè)對(duì)應(yīng)的分?jǐn)?shù)進(jìn)行融合,得到目標(biāo)分?jǐn)?shù),并根據(jù)該目標(biāo)分?jǐn)?shù)進(jìn)行判決,能夠?qū)崿F(xiàn)在海量訓(xùn)練數(shù)據(jù)前提下,突破現(xiàn)有技術(shù)中單一i-vector框架聲紋識(shí)別性能瓶頸的技術(shù)問(wèn)題,經(jīng)測(cè)試表明,通過(guò)兩個(gè)以上經(jīng)過(guò)足量數(shù)據(jù)訓(xùn)練的i-vector框架相對(duì)于單一i-vector框架系統(tǒng)整體性能均能提升20%~30%左右。
為了便于更好地實(shí)施本發(fā)明實(shí)施例的上述方案,本發(fā)明還對(duì)應(yīng)提供了一種聲紋識(shí)別系統(tǒng),如圖5示出的本發(fā)明提供的聲紋識(shí)別系統(tǒng)的結(jié)構(gòu)示意圖,聲紋識(shí)別系統(tǒng)50包括:矩陣訓(xùn)練模塊500、向量提取模塊502、計(jì)算模塊504和融合判決模塊506,其中
矩陣訓(xùn)練模塊500用于分別訓(xùn)練n個(gè)身份因子i-vector矩陣,得到n個(gè)i-vector矩陣;所述n為大于1的自然數(shù);
向量提取模塊502用于根據(jù)所述n個(gè)i-vector矩陣,從測(cè)試樣本中分別提取中n個(gè)對(duì)應(yīng)的i-vector向量;
計(jì)算模塊504用于根據(jù)所述n個(gè)對(duì)應(yīng)的i-vector分別計(jì)算得分,得出n個(gè)對(duì)應(yīng)的分?jǐn)?shù);
融合判決模塊506用于將所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)進(jìn)行融合,得到目標(biāo)分?jǐn)?shù),并根據(jù)所述目標(biāo)分?jǐn)?shù)進(jìn)行判決。
具體地,矩陣訓(xùn)練模塊500具體用于通過(guò)n份訓(xùn)練數(shù)據(jù)分別訓(xùn)練n個(gè)i-vector矩陣,得到n個(gè)i-vector矩陣;所述n分訓(xùn)練數(shù)據(jù)相互獨(dú)立。
具體地,如圖6示出的本發(fā)明實(shí)施例提供的融合判決模塊的結(jié)構(gòu)示意圖,融合判決模塊506可以包括:第一融合單元5060、或者第二融合單元5062、或者第三融合單元5064,其中
第一融合單元5060用于將所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)取平均值,作為所述目標(biāo)分?jǐn)?shù);或者
第二融合單元5062用于從所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)中取最大值,作為所述目標(biāo)分?jǐn)?shù);或者
第三融合單元5064用于從所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)中取最小值,作為所述目標(biāo)分?jǐn)?shù)。
進(jìn)一步地,如圖7示出的本發(fā)明實(shí)施例提供的矩陣訓(xùn)練模塊的結(jié)構(gòu)示意圖,矩陣訓(xùn)練模塊500可以包括:第一選取單元5000、模型訓(xùn)練單元5002、第二選取單元5004、gsv提取單元5006和i-vector矩陣訓(xùn)練單元5008,其中,
第一選取單元5000用于隨機(jī)選取n份第一時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù)作為背景模型的訓(xùn)練數(shù)據(jù);
模型訓(xùn)練單元5002用于分別將所述第一時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù)進(jìn)行特征提取和特征歸一化,得到提取的特征后,分別訓(xùn)練n個(gè)gmm-ubm模型;
第二選取單元5004用于隨機(jī)選取n份第二時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù)作為i-vector矩陣的訓(xùn)練數(shù)據(jù);
gsv提取單元5006用于分別將所述第一時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù)進(jìn)行特征提取和特征歸一化,得到提取的特征后,通過(guò)訓(xùn)練完成的所述n個(gè)gmm-ubm模型,分別n個(gè)提取高斯超向量gsv;
i-vector矩陣訓(xùn)練單元5008用于使用所述n個(gè)gsv分別訓(xùn)練得到n個(gè)i-vector矩陣。
再進(jìn)一步地,模型訓(xùn)練單元5002分別進(jìn)行n個(gè)gmm-ubm模型訓(xùn)練時(shí),n個(gè)gmm-ubm模型參數(shù)中存在m個(gè)gmm-ubm模型參數(shù)不相同,所述m為大于1,小于等于所述n的自然數(shù)。
請(qǐng)參閱圖8,圖8是本發(fā)明提供的聲紋識(shí)別系統(tǒng)的另一實(shí)施例的結(jié)構(gòu)示意圖。其中,如圖8所示,聲紋識(shí)別系統(tǒng)80可以包括:至少一個(gè)處理器801,例如cpu,至少一個(gè)網(wǎng)絡(luò)接口804,用戶(hù)接口803,存儲(chǔ)器805,至少一個(gè)通信總線802以及顯示屏806。其中,通信總線802用于實(shí)現(xiàn)這些組件之間的連接通信。其中,用戶(hù)接口803,可選用戶(hù)接口803還可以包括標(biāo)準(zhǔn)的有線接口、無(wú)線接口。網(wǎng)絡(luò)接口804可選的可以包括標(biāo)準(zhǔn)的有線接口、無(wú)線接口(如wi-fi接口)。存儲(chǔ)器805可以是高速ram存儲(chǔ)器,也可以是非不穩(wěn)定的存儲(chǔ)器(non-volatilememory),例如至少一個(gè)磁盤(pán)存儲(chǔ)器。存儲(chǔ)器805可選的還可以是至少一個(gè)位于遠(yuǎn)離前述處理器801的存儲(chǔ)系統(tǒng)。如圖8所示,作為一種計(jì)算機(jī)存儲(chǔ)介質(zhì)的存儲(chǔ)器805中可以包括操作系統(tǒng)、網(wǎng)絡(luò)通信模塊、用戶(hù)接口模塊以及聲紋識(shí)別程序。
在圖8所示的聲紋識(shí)別系統(tǒng)80中處理器801可以用于調(diào)用存儲(chǔ)器805中存儲(chǔ)的聲紋識(shí)別程序,并執(zhí)行以下操作:
分別訓(xùn)練n個(gè)身份因子i-vector矩陣,得到n個(gè)i-vector矩陣;所述n為大于1的自然數(shù);
根據(jù)所述n個(gè)i-vector矩陣,從測(cè)試樣本中分別提取中n個(gè)對(duì)應(yīng)的i-vector向量;
根據(jù)所述n個(gè)對(duì)應(yīng)的i-vector分別計(jì)算得分,得出n個(gè)對(duì)應(yīng)的分?jǐn)?shù);
將所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)進(jìn)行融合,得到目標(biāo)分?jǐn)?shù),并根據(jù)所述目標(biāo)分?jǐn)?shù)進(jìn)行判決。
具體地,處理器801分別訓(xùn)練n個(gè)身份因子i-vector矩陣,得到n個(gè)i-vector矩陣,可以包括:
通過(guò)n份訓(xùn)練數(shù)據(jù)分別訓(xùn)練n個(gè)i-vector矩陣,得到n個(gè)i-vector矩陣;所述n分訓(xùn)練數(shù)據(jù)相互獨(dú)立。
進(jìn)一步地,處理器801將所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)進(jìn)行融合,得到目標(biāo)分?jǐn)?shù),可以包括:
將所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)取平均值,作為所述目標(biāo)分?jǐn)?shù);或者
從所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)中取最大值,作為所述目標(biāo)分?jǐn)?shù);或者
從所述n個(gè)對(duì)應(yīng)的分?jǐn)?shù)中取最小值,作為所述目標(biāo)分?jǐn)?shù)。
進(jìn)一步地,處理器801通過(guò)n份訓(xùn)練數(shù)據(jù)分別訓(xùn)練n個(gè)i-vector矩陣,得到n個(gè)i-vector矩陣,可以包括:
隨機(jī)選取n份第一時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù)作為背景模型的訓(xùn)練數(shù)據(jù);
分別將所述第一時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù)進(jìn)行特征提取和特征歸一化,得到提取的特征后,分別訓(xùn)練n個(gè)gmm-ubm模型;
隨機(jī)選取n份第二時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù)作為i-vector矩陣的訓(xùn)練數(shù)據(jù);
分別將所述第一時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù)進(jìn)行特征提取和特征歸一化,得到提取的特征后,通過(guò)訓(xùn)練完成的所述n個(gè)gmm-ubm模型,分別n個(gè)提取高斯超向量gsv;
使用所述n個(gè)gsv分別訓(xùn)練得到n個(gè)i-vector矩陣。
進(jìn)一步地,分別進(jìn)行n個(gè)gmm-ubm模型訓(xùn)練時(shí),n個(gè)gmm-ubm模型參數(shù)中存在m個(gè)gmm-ubm模型參數(shù)不相同,所述m為大于1,小于等于所 述n的自然數(shù)。
需要說(shuō)明的是,本發(fā)明實(shí)施例中的聲紋識(shí)別系統(tǒng)50或聲紋識(shí)別系統(tǒng)80可以為個(gè)人計(jì)算機(jī)或移動(dòng)智能終端、平板電腦等電子終端;聲紋識(shí)別系統(tǒng)50或聲紋識(shí)別系統(tǒng)80中各功能模塊的功能可根據(jù)上述方法實(shí)施例中的方法具體實(shí)現(xiàn),這里不再贅述。
綜上所述,實(shí)施本發(fā)明實(shí)施例,通過(guò)分別訓(xùn)練n個(gè)i-vector矩陣,根據(jù)該n個(gè)i-vector矩陣,從測(cè)試樣本中分別提取中n個(gè)對(duì)應(yīng)的i-vector向量,然后分別計(jì)算得分,得出n個(gè)對(duì)應(yīng)的分?jǐn)?shù);最后將該n個(gè)對(duì)應(yīng)的分?jǐn)?shù)進(jìn)行融合,得到目標(biāo)分?jǐn)?shù),并根據(jù)該目標(biāo)分?jǐn)?shù)進(jìn)行判決,能夠?qū)崿F(xiàn)在海量訓(xùn)練數(shù)據(jù)前提下,突破現(xiàn)有技術(shù)中單一i-vector框架聲紋識(shí)別性能瓶頸的技術(shù)問(wèn)題,經(jīng)測(cè)試表明,通過(guò)兩個(gè)以上經(jīng)過(guò)足量數(shù)據(jù)訓(xùn)練的i-vector框架相對(duì)于單一i-vector框架系統(tǒng)整體性能均能提升20%~30%左右。
本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程,是可以通過(guò)計(jì)算機(jī)程序來(lái)指令相關(guān)的硬件來(lái)完成,所述的程序可存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),可包括如上述各方法的實(shí)施例的流程。其中,所述的存儲(chǔ)介質(zhì)可為磁碟、光盤(pán)、只讀存儲(chǔ)記憶體(read-onlymemory,rom)或隨機(jī)存儲(chǔ)記憶體(randomaccessmemory,ram)等。
以上所揭露的僅為本發(fā)明較佳實(shí)施例而已,當(dāng)然不能以此來(lái)限定本發(fā)明之權(quán)利范圍,因此依本發(fā)明權(quán)利要求所作的等同變化,仍屬本發(fā)明所涵蓋的范圍。