本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,特別是涉及一種身份向量生成方法和裝置。
背景技術(shù):
說話人身份識(shí)別是一種重要的身份識(shí)別手段,采集用戶說出一段語音,并將采集的語音進(jìn)行預(yù)處理、特征提取、建模和參數(shù)估計(jì)等一系列操作后,將語音映射為一段定長的可以表達(dá)說話人語音特征的向量,該向量稱為身份向量(i-vector)。身份向量可以良好地表達(dá)相應(yīng)語音中包括的說話人身份信息。
目前在生成語音數(shù)據(jù)的身份向量時(shí),需要提取出其聲學(xué)特征,并基于高斯混合模型形式的說話人背景模型,統(tǒng)計(jì)各聲學(xué)特征屬于說話人背景模型中每個(gè)高斯分布分量的后驗(yàn)概率的統(tǒng)計(jì)量,進(jìn)而基于該統(tǒng)計(jì)量生成身份向量。
然而,目前生成身份向量的方式,在語音數(shù)據(jù)語音長度比較短或者語音比較稀疏的情況下,會(huì)導(dǎo)致身份向量的身份識(shí)別性能降低。
技術(shù)實(shí)現(xiàn)要素:
基于此,有必要針對(duì)目前生成身份向量的方式在語音數(shù)據(jù)語音長度比較短或者語音比較稀疏的情況下,導(dǎo)致身份向量的身份識(shí)別性能降低的技術(shù)問題,提供一種身份向量生成方法和裝置。
一種身份向量生成方法,包括:
獲取待處理語音數(shù)據(jù);
從所述待處理語音數(shù)據(jù)提取相應(yīng)的聲學(xué)特征;
對(duì)各所述聲學(xué)特征屬于說話人背景模型中每個(gè)高斯分布分量的后驗(yàn)概率進(jìn)行統(tǒng)計(jì)得到統(tǒng)計(jì)量;
將所述統(tǒng)計(jì)量映射到統(tǒng)計(jì)量空間獲得參考統(tǒng)計(jì)量;所述統(tǒng)計(jì)量空間根據(jù)超過預(yù)設(shè)語音時(shí)長的語音樣本所對(duì)應(yīng)的統(tǒng)計(jì)量構(gòu)建而成;
根據(jù)統(tǒng)計(jì)得到的所述統(tǒng)計(jì)量和所述參考統(tǒng)計(jì)量確定修正統(tǒng)計(jì)量;
根據(jù)所述修正統(tǒng)計(jì)量生成身份向量。
一種身份向量生成裝置,包括:
聲學(xué)特征提取模塊,用于獲取待處理語音數(shù)據(jù);從所述待處理語音數(shù)據(jù)提取相應(yīng)的聲學(xué)特征;
統(tǒng)計(jì)量生成模塊,用于對(duì)各所述聲學(xué)特征屬于說話人背景模型中每個(gè)高斯分布分量的后驗(yàn)概率進(jìn)行統(tǒng)計(jì)得到統(tǒng)計(jì)量;
映射模塊,用于將所述統(tǒng)計(jì)量映射到統(tǒng)計(jì)量空間獲得參考統(tǒng)計(jì)量;所述統(tǒng)計(jì)量空間根據(jù)超過預(yù)設(shè)語音時(shí)長的語音樣本所對(duì)應(yīng)的統(tǒng)計(jì)量構(gòu)建而成;
修正統(tǒng)計(jì)量確定模塊,用于根據(jù)統(tǒng)計(jì)得到的所述統(tǒng)計(jì)量和所述參考統(tǒng)計(jì)量確定修正統(tǒng)計(jì)量;
身份向量生成模塊,用于根據(jù)所述修正統(tǒng)計(jì)量生成身份向量。
上述身份向量生成方法和裝置,統(tǒng)計(jì)量空間根據(jù)超過預(yù)設(shè)語音時(shí)長的語音樣本所對(duì)應(yīng)的統(tǒng)計(jì)量構(gòu)建而成,在對(duì)各所述聲學(xué)特征屬于說話人背景模型中每個(gè)高斯分布分量的后驗(yàn)概率進(jìn)行統(tǒng)計(jì)得到統(tǒng)計(jì)量后,將該統(tǒng)計(jì)量映射到該統(tǒng)計(jì)量空間中,得到的參考統(tǒng)計(jì)量是先驗(yàn)統(tǒng)計(jì)量。利用先驗(yàn)統(tǒng)計(jì)量來對(duì)統(tǒng)計(jì)得到的統(tǒng)計(jì)量進(jìn)行修正得到修正統(tǒng)計(jì)量,該修正統(tǒng)計(jì)量能夠補(bǔ)償因待處理語音數(shù)據(jù)的語音時(shí)長過短和語音稀疏的情況下導(dǎo)致的統(tǒng)計(jì)量偏估,提高身份向量的身份識(shí)別性能。
附圖說明
圖1為一個(gè)實(shí)施例中說話人識(shí)別系統(tǒng)的應(yīng)用環(huán)境圖;
圖2A為一個(gè)實(shí)施例中服務(wù)器的內(nèi)部結(jié)構(gòu)示意圖;
圖2B為一個(gè)實(shí)施例中終端的內(nèi)部結(jié)構(gòu)示意圖;
圖3為一個(gè)實(shí)施例中身份向量生成方法的流程示意圖;
圖4為另一個(gè)實(shí)施例中身份向量生成方法的流程示意圖;
圖5為一個(gè)實(shí)施例中構(gòu)建統(tǒng)計(jì)量空間的步驟的流程示意圖;
圖6為一個(gè)實(shí)施例中身份向量生成裝置的結(jié)構(gòu)框圖;
圖7為一個(gè)實(shí)施例中統(tǒng)計(jì)量生成模塊的結(jié)構(gòu)框圖;
圖8為另一個(gè)實(shí)施例中身份向量生成裝置的結(jié)構(gòu)框圖;
圖9為再一個(gè)實(shí)施例中身份向量生成裝置的結(jié)構(gòu)框圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
可以理解,本發(fā)明所使用的術(shù)語“第一”、“第二”等可在本文中用于描述各種元件,但這些元件不受這些術(shù)語限制。這些術(shù)語僅用于將第一個(gè)元件與另一個(gè)元件區(qū)分。第一零階統(tǒng)計(jì)量和第二零階統(tǒng)計(jì)量兩者都是零階統(tǒng)計(jì)量,但其不是同一零階統(tǒng)計(jì)量。
圖1為一個(gè)實(shí)施例中說話人識(shí)別系統(tǒng)的應(yīng)用環(huán)境圖。如圖1所示,該系統(tǒng)包括通過網(wǎng)絡(luò)連接的終端110和服務(wù)器120。終端110可用于采集待驗(yàn)證語音數(shù)據(jù),并采用本申請(qǐng)中的身份向量生成方法生成待驗(yàn)證身份向量,并將待驗(yàn)證身份向量發(fā)送到服務(wù)器120。服務(wù)器120可收集目標(biāo)說話人類別的語音數(shù)據(jù),并采用本申請(qǐng)中的身份向量生成方法生成目標(biāo)說話人身份向量。服務(wù)器120可用于計(jì)算待驗(yàn)證身份向量和目標(biāo)說話人身份向量的相似度;根據(jù)相似度進(jìn)行說話人身份驗(yàn)證。服務(wù)器120可用于向終端110反饋身份驗(yàn)證結(jié)果。
圖2A為一個(gè)實(shí)施例中服務(wù)器的內(nèi)部結(jié)構(gòu)示意圖。如圖2A所示,該服務(wù)器包括通過系統(tǒng)總線連接的處理器、非易失性存儲(chǔ)介質(zhì)、內(nèi)存儲(chǔ)器和網(wǎng)絡(luò)接口。其中,該服務(wù)器的非易失性存儲(chǔ)介質(zhì)存儲(chǔ)有操作系統(tǒng)、數(shù)據(jù)庫和身份向量生成裝置,該身份向量生成裝置可用于實(shí)現(xiàn)一種身份向量生成方法。該服務(wù)器的處理器用于提供計(jì)算和控制能力,支撐整個(gè)服務(wù)器的運(yùn)行。該服務(wù)器的內(nèi)存儲(chǔ)器為非易失性存儲(chǔ)介質(zhì)中的身份向量生成裝置的運(yùn)行提供環(huán)境,該內(nèi)存儲(chǔ)器中可存儲(chǔ)有計(jì)算機(jī)可讀指令,該計(jì)算機(jī)可讀指令被處理器執(zhí)行時(shí),可使得處理器執(zhí)行一種身份向量生成方法。該服務(wù)器的網(wǎng)絡(luò)接口用于與終端連接通信。服務(wù)器可以用獨(dú)立的服務(wù)器或者是多個(gè)服務(wù)器組成的服務(wù)器集群來實(shí)現(xiàn)。本領(lǐng)域技術(shù)人員可以理解,圖2A中示出的結(jié)構(gòu),僅僅是與本申請(qǐng)方案相關(guān)的部分結(jié)構(gòu)的框圖,并不構(gòu)成對(duì)本申請(qǐng)方案所應(yīng)用于其上的服務(wù)器的限定,具體的服務(wù)器可以包括比圖中所示更多或更少的部件,或者組合某些部件,或者具有不同的部件布置。
圖2B為一個(gè)實(shí)施例中終端的內(nèi)部結(jié)構(gòu)示意圖。如圖2B所示,該終端包括通過系統(tǒng)總線連接的處理器、非易失性存儲(chǔ)介質(zhì)、內(nèi)存儲(chǔ)器、網(wǎng)絡(luò)接口和聲音采集裝置。其中,終端的非易失性存儲(chǔ)介質(zhì)存儲(chǔ)有操作系統(tǒng),還包括一種身份向量生成裝置,該身份向量生成裝置用于實(shí)現(xiàn)一種身份向量生成方法。該處理器用于提供計(jì)算和控制能力,支撐整個(gè)終端的運(yùn)行。終端中的內(nèi)存儲(chǔ)器為非易失性存儲(chǔ)介質(zhì)中的身份向量生成裝置的運(yùn)行提供環(huán)境,該內(nèi)存儲(chǔ)器中可儲(chǔ)存有計(jì)算機(jī)可讀指令,該計(jì)算機(jī)可讀指令被處理器執(zhí)行時(shí),可使得處理器執(zhí)行一種身份向量生成方法。網(wǎng)絡(luò)接口用于與服務(wù)器進(jìn)行網(wǎng)絡(luò)通信。該終端可以是手機(jī)、平板電腦或者個(gè)人數(shù)字助理或穿戴式設(shè)備等。本領(lǐng)域技術(shù)人員可以理解,圖2B中示出的結(jié)構(gòu),僅僅是與本申請(qǐng)方案相關(guān)的部分結(jié)構(gòu)的框圖,并不構(gòu)成對(duì)本申請(qǐng)方案所應(yīng)用于其上的終端的限定,具體的終端可以包括比圖中所示更多或更少的部件,或者組合某些部件,或者具有不同的部件布置。
圖3為一個(gè)實(shí)施例中身份向量生成方法的流程示意圖。本實(shí)施例以該方法應(yīng)用于服務(wù)器120來舉例說明。參照?qǐng)D3,該方法具體包括如下步驟:
S302,獲取待處理語音數(shù)據(jù)。
其中,待處理語音數(shù)據(jù)是指需要對(duì)其進(jìn)行一系列處理以生成相應(yīng)的身份向量的語音數(shù)據(jù)。語音數(shù)據(jù)是在說話人將語音說出后由聲音采集設(shè)備所采集的聲音進(jìn)行保存而形成的數(shù)據(jù)。待處理語音數(shù)據(jù)可以包括待驗(yàn)證語音數(shù)據(jù)和目標(biāo)說話人類別的語音數(shù)據(jù),其中待驗(yàn)證語音數(shù)據(jù)是指未知說話人類別并需要判斷是否屬于目標(biāo)說話人類別的語音數(shù)據(jù);目標(biāo)說話人類別是已知的說話人類別,是目標(biāo)說話人說話形成的語音數(shù)據(jù)所構(gòu)成的類別。
S304,從待處理語音數(shù)據(jù)提取相應(yīng)的聲學(xué)特征。
具體地,服務(wù)器可以對(duì)待處理語音數(shù)據(jù)進(jìn)行預(yù)處理,比如濾除噪聲或者統(tǒng)一語音格式等,再從經(jīng)過預(yù)處理的待處理語音數(shù)據(jù)提取相應(yīng)的聲學(xué)特征向量。聲學(xué)特征向量是指反映聲學(xué)特性的聲學(xué)特征所構(gòu)成的向量。聲學(xué)特征向量包括一系列的聲學(xué)特征,該聲學(xué)特征可以是梅爾倒譜系數(shù)(MFCC,Mel Frequency Cepstrum Coefficient)或者線性預(yù)測倒譜系數(shù)(LPCC)。
S306,對(duì)各聲學(xué)特征屬于說話人背景模型中每個(gè)高斯分布分量的后驗(yàn)概率進(jìn)行統(tǒng)計(jì)得到統(tǒng)計(jì)量。
其中,說話人背景模型是采用一系列的語音樣本訓(xùn)練得到的高斯混合模型,用來訓(xùn)練表示與說話人無關(guān)的特征分布。其中高斯混合模型是固定數(shù)量的高斯分布分量疊加而成的數(shù)學(xué)模型。說話人背景模型可通過EM算法(Expectation Maximization Algorithm,譯為期望最大化算法)訓(xùn)練得到。說話人背景模型可采用GMM-UBM(Gaussian Mixture Model-Universal Background Model,高斯混合模型-通用背景模型)。
在一個(gè)實(shí)施例中,說話人背景模型可用如下公式(1)表示:
其中,x表示語音樣本;C是高斯混合模型所包括高斯分布分量的總數(shù),c表示高斯混合模型所包括的高斯分布分量的序號(hào);N(x|μc,∑c)表示第c個(gè)高斯分布分量;ac是第c個(gè)高斯分布分量的系數(shù);μc是第c個(gè)高斯分布分量的均值;∑c是第c個(gè)高斯分布分量的方差。
在一個(gè)實(shí)施例中,聲學(xué)特征向量可表達(dá)為:{y1,y2…yL}。該聲學(xué)特征向量包括L個(gè)聲學(xué)特征,每個(gè)聲學(xué)特征可表示為yt,其中,t∈[1,L]。在一個(gè)實(shí)施例中,聲學(xué)特征向量中各聲學(xué)特征屬于說話人背景模型中每個(gè)高斯分布分量的后驗(yàn)概率可表示為:P(c|yt,Ω)。其中,Ω表示說話人背景模型。P(c|yt,Ω)表示在說話人背景模型Ω和聲學(xué)特征yt已觀測到的情況下聲學(xué)特征yt屬于第c個(gè)高斯分布分量的后驗(yàn)概率。服務(wù)器可基于后驗(yàn)概率P(c|yt,Ω)進(jìn)行統(tǒng)計(jì)得到統(tǒng)計(jì)量。
S308,將統(tǒng)計(jì)量映射到統(tǒng)計(jì)量空間獲得參考統(tǒng)計(jì)量;統(tǒng)計(jì)量空間根據(jù)超過預(yù)設(shè)語音時(shí)長的語音樣本所對(duì)應(yīng)的統(tǒng)計(jì)量構(gòu)建而成。
其中,統(tǒng)計(jì)量空間是一種向量空間,統(tǒng)計(jì)量空間根據(jù)語音樣本所對(duì)應(yīng)的與上述統(tǒng)計(jì)得到的統(tǒng)計(jì)量同類型的統(tǒng)計(jì)量構(gòu)建而成,該用來構(gòu)建統(tǒng)計(jì)量空間的語音樣本的語音時(shí)長超過預(yù)設(shè)語音時(shí)長,預(yù)設(shè)語音時(shí)長比如30秒。用來構(gòu)建統(tǒng)計(jì)量空間的語音樣本可以是從用于訓(xùn)練說話人背景模型的語音樣本中篩選出的超過預(yù)設(shè)語音時(shí)長的語音樣本。將統(tǒng)計(jì)得到的統(tǒng)計(jì)量映射到統(tǒng)計(jì)量空間后得到參考統(tǒng)計(jì)量,該參考統(tǒng)計(jì)量是根據(jù)超過預(yù)設(shè)語音時(shí)長的語音樣本所對(duì)應(yīng)的統(tǒng)計(jì)量確定的先驗(yàn)統(tǒng)計(jì)量。
S310,根據(jù)統(tǒng)計(jì)得到的統(tǒng)計(jì)量和參考統(tǒng)計(jì)量確定修正統(tǒng)計(jì)量。
其中,修改統(tǒng)計(jì)量是利用參考統(tǒng)計(jì)量修正統(tǒng)計(jì)得到的統(tǒng)計(jì)量后得到的統(tǒng)計(jì)量,該統(tǒng)計(jì)量結(jié)合了先驗(yàn)的統(tǒng)計(jì)量和后驗(yàn)的統(tǒng)計(jì)量。
S312,根據(jù)修正統(tǒng)計(jì)量生成身份向量。
具體地,在得到修正統(tǒng)計(jì)量后,可以利用修正統(tǒng)計(jì)量并采用常規(guī)的生成身份向量的方式來生成身份向量。
上述身份向量生成方法,統(tǒng)計(jì)量空間根據(jù)超過預(yù)設(shè)語音時(shí)長的語音樣本所對(duì)應(yīng)的統(tǒng)計(jì)量構(gòu)建而成,在對(duì)各聲學(xué)特征屬于說話人背景模型中每個(gè)高斯分布分量的后驗(yàn)概率進(jìn)行統(tǒng)計(jì)得到統(tǒng)計(jì)量后,將該統(tǒng)計(jì)量映射到該統(tǒng)計(jì)量空間中,得到的參考統(tǒng)計(jì)量是先驗(yàn)統(tǒng)計(jì)量。利用先驗(yàn)統(tǒng)計(jì)量來對(duì)統(tǒng)計(jì)得到的統(tǒng)計(jì)量進(jìn)行修正得到修正統(tǒng)計(jì)量,該修正統(tǒng)計(jì)量能夠補(bǔ)償因待處理語音數(shù)據(jù)的語音時(shí)長過短和語音稀疏的情況下導(dǎo)致的統(tǒng)計(jì)量偏估,提高身份向量的身份識(shí)別性能。
圖4為另一個(gè)實(shí)施例中身份向量生成方法的流程示意圖。如圖4所示,該身份向量生成方法包括如下步驟:
S402,獲取待處理語音數(shù)據(jù)。
S404,從待處理語音數(shù)據(jù)提取相應(yīng)的聲學(xué)特征。
S406,對(duì)應(yīng)于說話人背景模型中的每個(gè)高斯分布分量,分別統(tǒng)計(jì)各聲學(xué)特征屬于相應(yīng)高斯分布分量的后驗(yàn)概率的總和作為相應(yīng)的第一零階統(tǒng)計(jì)量。
具體地,對(duì)應(yīng)于說話人背景模型Ω中的每個(gè)高斯分布分量c,分別統(tǒng)計(jì)各聲學(xué)特征yt屬于相應(yīng)高斯分布分量c的后驗(yàn)概率P(c|yt,Ω)的總和,將該總和作為相應(yīng)高斯分布分量c所對(duì)應(yīng)的第一零階統(tǒng)計(jì)量。
更具體地,可采用如下公式(2)計(jì)算對(duì)應(yīng)于高斯分布分量c的第一零階統(tǒng)計(jì)量Nc(u):
其中,u表示待處理語音數(shù)據(jù);Nc(u)表示待處理語音數(shù)據(jù)u對(duì)應(yīng)于高斯分布分量c的第一零階統(tǒng)計(jì)量;yt表示聲學(xué)特征向量的L個(gè)聲學(xué)特征中第t個(gè)聲學(xué)特征;P(c|yt,Ω)表示在說話人背景模型Ω和聲學(xué)特征yt已觀測到的情況下聲學(xué)特征yt屬于第c個(gè)高斯分布分量的后驗(yàn)概率。
S408,對(duì)應(yīng)于說話人背景模型中的每個(gè)高斯分布分量,分別將各聲學(xué)特征以該聲學(xué)特征屬于相應(yīng)高斯分布分量的后驗(yàn)概率為權(quán)重計(jì)算加權(quán)和作為相應(yīng)的第一一階統(tǒng)計(jì)量。
其中,S404和S406包括于上述步驟S304。具體地,對(duì)應(yīng)于說話人背景模型中的每個(gè)高斯分布分量c,分別將各聲學(xué)特征yt以該聲學(xué)特征yt屬于相應(yīng)高斯分布分量c的后驗(yàn)概率P(c|yt,Ω)為權(quán)重計(jì)算加權(quán)和,將該加權(quán)和作為應(yīng)高斯分布分量c所對(duì)應(yīng)的第一一階統(tǒng)計(jì)量。
更具體地,可采用如下公式(3)計(jì)算對(duì)應(yīng)于高斯分布分量c的第一一階統(tǒng)計(jì)量Fc(u):
其中,u表示待處理語音數(shù)據(jù);Fc(u)表示待處理語音數(shù)據(jù)u對(duì)應(yīng)于高斯分布分量c的第一一階統(tǒng)計(jì)量;yt表示聲學(xué)特征向量的L個(gè)聲學(xué)特征中第t個(gè)聲學(xué)特征;P(c|yt,Ω)表示在說話人背景模型Ω和聲學(xué)特征yt已觀測到的情況下聲學(xué)特征yt屬于第c個(gè)高斯分布分量的后驗(yàn)概率。
S410,將第一零階統(tǒng)計(jì)量和第一一階統(tǒng)計(jì)量映射到統(tǒng)計(jì)量空間,獲得對(duì)應(yīng)說話人背景模型中每個(gè)高斯分布分量的參考一階統(tǒng)計(jì)量和相應(yīng)參考零階統(tǒng)計(jì)量的第二商;統(tǒng)計(jì)量空間根據(jù)超過預(yù)設(shè)語音時(shí)長的語音樣本所對(duì)應(yīng)的統(tǒng)計(jì)量構(gòu)建而成。
具體地,將第一零階統(tǒng)計(jì)量Nc(u)和第一一階統(tǒng)計(jì)量Fc(u)映射到統(tǒng)計(jì)量空間H,得到對(duì)應(yīng)說話人背景模型中每個(gè)高斯分布分量c的參考一階統(tǒng)計(jì)量Fcref(u)和相應(yīng)參考零階統(tǒng)計(jì)量Ncref(u)的第二商:Fcref(u)/Ncref(u)。
S412,將第一一階統(tǒng)計(jì)量與相應(yīng)第一零階統(tǒng)計(jì)量的第三商,與相應(yīng)高斯分布分量的第二商加權(quán)求和,得到對(duì)應(yīng)說話人背景模型中每個(gè)高斯分布分量的修正一階統(tǒng)計(jì)量和相應(yīng)修正零階統(tǒng)計(jì)量的第四商作為修正統(tǒng)計(jì)量。
具體地,可采用如下公式(4)計(jì)算對(duì)應(yīng)于高斯分布分量c的修正統(tǒng)計(jì)量:
其中,表示對(duì)應(yīng)于高斯分布分量c的修正一階統(tǒng)計(jì)量;表示對(duì)應(yīng)于高斯分布分量c的修正零階統(tǒng)計(jì)量;R1和R2是權(quán)重;表示對(duì)應(yīng)于高斯分布分量c的第二商;表示對(duì)應(yīng)于高斯分布分量c的第三商??上薅≧1和R2的和為1。
在一個(gè)實(shí)施例中,加權(quán)求和中,第三商的權(quán)重為相應(yīng)高斯分布分量的第一零階統(tǒng)計(jì)量除以相應(yīng)的第一零階統(tǒng)計(jì)量與可調(diào)參數(shù)的和,第二商的權(quán)重為可調(diào)參數(shù)除以相應(yīng)高斯分布分量的第一零階統(tǒng)計(jì)量與可調(diào)參數(shù)的和。
具體地,可采用如下公式(5)計(jì)算對(duì)應(yīng)于高斯分布分量c的修正統(tǒng)計(jì)量:
其中,第三商的權(quán)重為是相應(yīng)高斯分布分量c的第一零階統(tǒng)計(jì)量Nc(u)除以相應(yīng)的第一零階統(tǒng)計(jì)量Nc(u)與可調(diào)參數(shù)q的和;第二商的權(quán)重為是可調(diào)參數(shù)q除以相應(yīng)高斯分布分量c的第一零階統(tǒng)計(jì)量Nc(u)與可調(diào)參數(shù)q的和。q取0.4~1時(shí)可達(dá)到很好的效果。本實(shí)施例中,通過調(diào)整可調(diào)參數(shù),可以針對(duì)不同環(huán)境進(jìn)行差異性調(diào)整,增加魯棒性。
S414,根據(jù)修正統(tǒng)計(jì)量生成身份向量。
具體地,當(dāng)時(shí)可求得
按照如下公式(6)定義說話人背景模型的均值超向量m:
其中,μ1、μ2……μC分別是說話人背景模型各高斯分布分量的均值。
按照如下公式(7)定義對(duì)角矩陣形式的修正零階統(tǒng)計(jì)量矩陣
其中,分別是對(duì)應(yīng)于說話人背景模型各高斯分布分量的修正零階統(tǒng)計(jì)量。
按照如下公式(8)定義修正一階統(tǒng)計(jì)量矩陣
其中,分別是對(duì)應(yīng)于說話人背景模型各高斯分布分量的修正一階統(tǒng)計(jì)量。
在一個(gè)實(shí)施例中,可根據(jù)如下公式(9)計(jì)算身份向量
其中,I表示單位矩陣;T表示已知的全因子矩陣(Total Factor Matrix);t表示轉(zhuǎn)置;∑表示對(duì)角矩陣形式的協(xié)方差矩陣,∑的對(duì)角元素是各高斯分布分量的協(xié)方差;m表示說話人背景模型的均值超向量;表示修正零階統(tǒng)計(jì)量矩陣;表示修正一階統(tǒng)計(jì)量矩陣。
在一個(gè)實(shí)施例中,可對(duì)上述公式(9)進(jìn)行變換,將涉及矩陣和的計(jì)算變換為涉及和的計(jì)算,而本實(shí)施例中在得到后可直接用來計(jì)算身份向量,不必構(gòu)建矩陣和簡化計(jì)算。
本實(shí)施例中,利用第一一階統(tǒng)計(jì)量和第一零階統(tǒng)計(jì)量可以更加準(zhǔn)確地反映聲學(xué)特征的特性,便于計(jì)算出準(zhǔn)確的修正統(tǒng)計(jì)量。由于一階統(tǒng)計(jì)量與相應(yīng)零階統(tǒng)計(jì)量的商基本保持在穩(wěn)定的范圍內(nèi),可以在確定修正統(tǒng)計(jì)量時(shí)直接進(jìn)行線性加和,減少計(jì)算量。
圖5為一個(gè)實(shí)施例中構(gòu)建統(tǒng)計(jì)量空間的步驟的流程示意圖。參照?qǐng)D5,構(gòu)建統(tǒng)計(jì)量空間的步驟具體包括如下步驟
S502,獲取超過預(yù)設(shè)語音時(shí)長的語音樣本。
具體地,可從用于訓(xùn)練說話人背景模型的語音樣本中篩選出語音時(shí)長超過預(yù)設(shè)語音時(shí)長的語音樣本。
S504,按照語音樣本中說話人類別統(tǒng)計(jì)對(duì)應(yīng)于說話人背景模型中的每個(gè)高斯分布分量的第二零階統(tǒng)計(jì)量和第二一階統(tǒng)計(jì)量。
具體地,若獲取的語音樣本共有S個(gè)說話人類別,對(duì)于第s個(gè)說話人類別,參照上述公式(2)和(3),分別統(tǒng)計(jì)對(duì)應(yīng)于每個(gè)高斯分布分量c的第二零階統(tǒng)計(jì)量和第二一階統(tǒng)計(jì)量
S506,計(jì)算第二一階統(tǒng)計(jì)量和相應(yīng)的第二零階統(tǒng)計(jì)量的第一商。
具體地,對(duì)于每個(gè)說話類別s,分別計(jì)算對(duì)應(yīng)于說話人背景模型中每個(gè)高斯分布分量c的第二一階統(tǒng)計(jì)量和相應(yīng)的第二零階統(tǒng)計(jì)量的第一商
S508,根據(jù)計(jì)算出的第一商構(gòu)建統(tǒng)計(jì)量空間。
具體地,可將對(duì)于每個(gè)說話類別s且對(duì)應(yīng)于說話人背景模型中每個(gè)高斯分布分量c的第一商,按照說話人類別和對(duì)應(yīng)的高斯分布分量依次排布形成表征統(tǒng)計(jì)量空間的矩陣。
本實(shí)施例中,基于第二一階統(tǒng)計(jì)量和相應(yīng)的第二零階統(tǒng)計(jì)量的第一商建立統(tǒng)計(jì)量空間,由于一階統(tǒng)計(jì)量與相應(yīng)零階統(tǒng)計(jì)量的商基本保持在穩(wěn)定的范圍內(nèi),便于將第一零階統(tǒng)計(jì)量和第一一階統(tǒng)計(jì)量映射到統(tǒng)計(jì)量空間的計(jì)算,提高計(jì)算效率。
在一個(gè)實(shí)施例中,S508包括:將計(jì)算出的第一商減去相應(yīng)高斯分布分量的均值得到相應(yīng)的差值;將得到的差值按照說話人類別和對(duì)應(yīng)的高斯分布分量依次排布形成表征統(tǒng)計(jì)量空間的矩陣。
具體地,可按照如下公式(10)確定表征統(tǒng)計(jì)量空間的矩陣H:
其中,m表示說話人背景模型的均值超向量;表示第s個(gè)說話人類別對(duì)應(yīng)的第二一階統(tǒng)計(jì)量矩陣,表示各第s個(gè)說話人類別的對(duì)應(yīng)于說話人背景模型各高斯分布分量c的第二零階統(tǒng)計(jì)量。
可表示為如下形式:
因此,上述公式(10)可變形為如下公式(11)
本實(shí)施例中,將計(jì)算出的第一商減去相應(yīng)高斯分布分量的均值得到相應(yīng)的差值,從而將得到的差值按照說話人類別和對(duì)應(yīng)的高斯分布分量依次排布形成表征統(tǒng)計(jì)量空間的矩陣,使得構(gòu)建出的統(tǒng)計(jì)量空間中心大致在統(tǒng)計(jì)量空間的原點(diǎn)處,便于計(jì)算,提高計(jì)算效率。
在一個(gè)實(shí)施例中,步驟S410具體包括:獲取統(tǒng)計(jì)量空間的正交基向量;求取正交基向量的映射系數(shù),正交基向量與映射系數(shù)的乘積加上相應(yīng)高斯分布分量的均值后,與相應(yīng)高斯分布分量的第三商之間的二范數(shù)距離最小化;將正交基向量乘以映射系數(shù)后加上相應(yīng)高斯分布分量的均值,得到對(duì)應(yīng)說話人背景模型中每個(gè)高斯分布分量的參考一階統(tǒng)計(jì)量和相應(yīng)參考零階統(tǒng)計(jì)量的第二商。
具體地,統(tǒng)計(jì)量空間可通過特征值分解得到統(tǒng)計(jì)量空間的一組正交基向量Feigen??啥x如下公式(12)的優(yōu)化函數(shù):
其中,Nc(u)表示對(duì)應(yīng)于高斯分布分量c的第一零階統(tǒng)計(jì)量;Fc(u)表示對(duì)應(yīng)于高斯分布分量c的第一一階統(tǒng)計(jì)量;表示對(duì)應(yīng)于高斯分布分量c的第三商;μc表示對(duì)應(yīng)于高斯分布分量c的均值;Feigen表示統(tǒng)計(jì)量空間H的正交基向量;表示映射系數(shù)。
優(yōu)化如公式(12)的優(yōu)化函數(shù),得到的最優(yōu)的映射系數(shù)如下公式(13):
進(jìn)一步地,按照如下公式(14)計(jì)算對(duì)應(yīng)說話人背景模型中每個(gè)高斯分布分量的參考一階統(tǒng)計(jì)量和相應(yīng)參考零階統(tǒng)計(jì)量的第二商:
本實(shí)施例中,可實(shí)現(xiàn)準(zhǔn)確地將第一零階統(tǒng)計(jì)量和第一一階統(tǒng)計(jì)量映射到統(tǒng)計(jì)量空間。
在一個(gè)實(shí)施例中,待處理語音數(shù)據(jù)包括待驗(yàn)證語音數(shù)據(jù)和目標(biāo)說話人類別的語音數(shù)據(jù);步驟S312包括:根據(jù)與待驗(yàn)證語音數(shù)據(jù)對(duì)應(yīng)的修正統(tǒng)計(jì)量生成待驗(yàn)證身份向量;根據(jù)與目標(biāo)說話人類別的語音數(shù)據(jù)對(duì)應(yīng)的修正統(tǒng)計(jì)量生成目標(biāo)說話人身份向量。該身份向量生成方法還包括:計(jì)算待驗(yàn)證身份向量和目標(biāo)說話人身份向量的相似度;根據(jù)相似度進(jìn)行說話人身份驗(yàn)證。
具體地,說話人身份識(shí)別可以應(yīng)用于多種需要認(rèn)證未知用戶身份的場景。說話人身份識(shí)別分為線下(off-line)和線上(on-line)兩個(gè)階段:線下階段需要收集大量的非目標(biāo)說話人類別的語音樣本用于訓(xùn)練說話人身份識(shí)別系統(tǒng),說話人身份識(shí)別系統(tǒng)包括身份向量提取模塊與身份向量規(guī)整模塊。
線上階段又分為兩個(gè)階段:注冊(cè)階段與識(shí)別階段。在注冊(cè)階段中,需要獲取目標(biāo)說話人的語音數(shù)據(jù),將該語音數(shù)據(jù)進(jìn)行預(yù)處理、特征提取與模型訓(xùn)練后,映射為一段定長的身份向量,該已知身份向量即是表征目標(biāo)說話人身份的一個(gè)模型。而在識(shí)別階段中,獲取一段身份未知的待驗(yàn)證語音,將該待驗(yàn)證語音同樣經(jīng)過預(yù)處理、特征提取與模型訓(xùn)練后,映射為一段待驗(yàn)證身份向量。
目標(biāo)說話人類別的身份向量與識(shí)別階段的待驗(yàn)證身份向量接下來在相似度計(jì)算模塊中計(jì)算相似度,將相似度與預(yù)先人工設(shè)定的一個(gè)門限值進(jìn)行比較,若相似度大于等于門限值,則可判定待驗(yàn)證語音對(duì)應(yīng)的身份與目標(biāo)說話人身份匹配,身份驗(yàn)證通過。若相似度小于門限值,則可判定待驗(yàn)證語音對(duì)應(yīng)的身份與目標(biāo)說話人身份不匹配,身份驗(yàn)證未通過。相似度可采用余弦相似度、皮爾森相關(guān)系數(shù)或者歐氏距離等。
本實(shí)施例中,即使是語音時(shí)長很短的語音數(shù)據(jù),通過本實(shí)施例的身份向量生成方法,依然可以生成身份識(shí)別性能較高的身份向量,不需要說話人說出太長的語音,使得短時(shí)文本無關(guān)說話人識(shí)別能夠廣泛推廣。
圖6為一個(gè)實(shí)施例中身份向量生成裝置600的結(jié)構(gòu)框圖。如圖6所示,身份向量生成裝置600包括聲學(xué)特征提取模塊610、統(tǒng)計(jì)量生成模塊620、映射模塊630、修正統(tǒng)計(jì)量確定模塊640和身份向量生成模塊650。
聲學(xué)特征提取模塊610,用于獲取待處理語音數(shù)據(jù);從待處理語音數(shù)據(jù)提取相應(yīng)的聲學(xué)特征。
統(tǒng)計(jì)量生成模塊620,用于對(duì)各聲學(xué)特征屬于說話人背景模型中每個(gè)高斯分布分量的后驗(yàn)概率進(jìn)行統(tǒng)計(jì)得到統(tǒng)計(jì)量。
映射模塊630,用于將統(tǒng)計(jì)量映射到統(tǒng)計(jì)量空間獲得參考統(tǒng)計(jì)量;統(tǒng)計(jì)量空間根據(jù)超過預(yù)設(shè)語音時(shí)長的語音樣本所對(duì)應(yīng)的統(tǒng)計(jì)量構(gòu)建而成。
修正統(tǒng)計(jì)量確定模塊640,用于根據(jù)統(tǒng)計(jì)得到的統(tǒng)計(jì)量和參考統(tǒng)計(jì)量確定修正統(tǒng)計(jì)量。
身份向量生成模塊650,用于根據(jù)修正統(tǒng)計(jì)量生成身份向量。
上述身份向量生成裝置600,統(tǒng)計(jì)量空間根據(jù)超過預(yù)設(shè)語音時(shí)長的語音樣本所對(duì)應(yīng)的統(tǒng)計(jì)量構(gòu)建而成,在對(duì)各聲學(xué)特征屬于說話人背景模型中每個(gè)高斯分布分量的后驗(yàn)概率進(jìn)行統(tǒng)計(jì)得到統(tǒng)計(jì)量后,將該統(tǒng)計(jì)量映射到該統(tǒng)計(jì)量空間中,得到的參考統(tǒng)計(jì)量是先驗(yàn)統(tǒng)計(jì)量。利用先驗(yàn)統(tǒng)計(jì)量來對(duì)統(tǒng)計(jì)得到的統(tǒng)計(jì)量進(jìn)行修正得到修正統(tǒng)計(jì)量,該修正統(tǒng)計(jì)量能夠補(bǔ)償因待處理語音數(shù)據(jù)的語音時(shí)長過短和語音稀疏的情況下導(dǎo)致的統(tǒng)計(jì)量偏估,提高身份向量的身份識(shí)別性能。
圖7為一個(gè)實(shí)施例中統(tǒng)計(jì)量生成模塊620的結(jié)構(gòu)框圖。本實(shí)施例中,統(tǒng)計(jì)得到的統(tǒng)計(jì)量包括第一零階統(tǒng)計(jì)量和第一一階統(tǒng)計(jì)量;統(tǒng)計(jì)量生成模塊620包括:第一零階統(tǒng)計(jì)量生成模塊621和第一一階統(tǒng)計(jì)量生成模塊622。
第一零階統(tǒng)計(jì)量生成模塊621,用于對(duì)應(yīng)于說話人背景模型中的每個(gè)高斯分布分量,分別統(tǒng)計(jì)各聲學(xué)特征屬于相應(yīng)高斯分布分量的后驗(yàn)概率的總和作為相應(yīng)的第一零階統(tǒng)計(jì)量。
第一一階統(tǒng)計(jì)量生成模塊622,用于對(duì)應(yīng)于說話人背景模型中的每個(gè)高斯分布分量,分別將各聲學(xué)特征以該聲學(xué)特征屬于相應(yīng)高斯分布分量的后驗(yàn)概率為權(quán)重計(jì)算加權(quán)和作為相應(yīng)的第一一階統(tǒng)計(jì)量。
圖8為另一個(gè)實(shí)施例中身份向量生成裝置600的結(jié)構(gòu)框圖。身份向量生成裝置600還包括:統(tǒng)計(jì)量統(tǒng)計(jì)模塊660和統(tǒng)計(jì)量空間構(gòu)建模塊670。
統(tǒng)計(jì)量統(tǒng)計(jì)模塊660,用于獲取超過預(yù)設(shè)語音時(shí)長的語音樣本;按照語音樣本中說話人類別統(tǒng)計(jì)對(duì)應(yīng)于說話人背景模型中的每個(gè)高斯分布分量的第二零階統(tǒng)計(jì)量和第二一階統(tǒng)計(jì)量。
統(tǒng)計(jì)量空間構(gòu)建模塊670,用于計(jì)算第二一階統(tǒng)計(jì)量和相應(yīng)的第二零階統(tǒng)計(jì)量的第一商;根據(jù)計(jì)算出的第一商構(gòu)建統(tǒng)計(jì)量空間。
本實(shí)施例中,基于第二一階統(tǒng)計(jì)量和相應(yīng)的第二零階統(tǒng)計(jì)量的第一商建立統(tǒng)計(jì)量空間,由于一階統(tǒng)計(jì)量與相應(yīng)零階統(tǒng)計(jì)量的商基本保持在穩(wěn)定的范圍內(nèi),便于將第一零階統(tǒng)計(jì)量和第一一階統(tǒng)計(jì)量映射到統(tǒng)計(jì)量空間的計(jì)算,提高計(jì)算效率。
在一個(gè)實(shí)施例中,統(tǒng)計(jì)量空間構(gòu)建模塊670還用于將計(jì)算出的第一商減去相應(yīng)高斯分布分量的均值得到相應(yīng)的差值;將得到的差值按照說話人類別和對(duì)應(yīng)的高斯分布分量依次排布形成表征統(tǒng)計(jì)量空間的矩陣。
本實(shí)施例中,將計(jì)算出的第一商減去相應(yīng)高斯分布分量的均值得到相應(yīng)的差值,從而將得到的差值按照說話人類別和對(duì)應(yīng)的高斯分布分量依次排布形成表征統(tǒng)計(jì)量空間的矩陣,使得構(gòu)建出的統(tǒng)計(jì)量空間中心大致在統(tǒng)計(jì)量空間的原點(diǎn)處,便于計(jì)算,提高計(jì)算效率。
在一個(gè)實(shí)施例中,參考統(tǒng)計(jì)量包括對(duì)應(yīng)說話人背景模型中每個(gè)高斯分布分量的參考一階統(tǒng)計(jì)量和相應(yīng)參考零階統(tǒng)計(jì)量的第二商;修正統(tǒng)計(jì)量確定模塊640還用于將第一一階統(tǒng)計(jì)量與相應(yīng)第一零階統(tǒng)計(jì)量的第三商,與相應(yīng)高斯分布分量的第二商加權(quán)求和,得到對(duì)應(yīng)說話人背景模型中每個(gè)高斯分布分量的修正一階統(tǒng)計(jì)量和相應(yīng)修正零階統(tǒng)計(jì)量的第四商作為修正統(tǒng)計(jì)量。
在一個(gè)實(shí)施例中,修正統(tǒng)計(jì)量確定模塊640用于加權(quán)求和時(shí),第三商的權(quán)重為相應(yīng)高斯分布分量的第一零階統(tǒng)計(jì)量除以相應(yīng)的第一零階統(tǒng)計(jì)量與可調(diào)參數(shù)的和,第二商的權(quán)重為可調(diào)參數(shù)除以相應(yīng)高斯分布分量的第一零階統(tǒng)計(jì)量與可調(diào)參數(shù)的和。本實(shí)施例中,通過調(diào)整可調(diào)參數(shù),可以針對(duì)不同環(huán)境進(jìn)行差異性調(diào)整,增加魯棒性。
在一個(gè)實(shí)施例中,映射模塊630還用于獲取統(tǒng)計(jì)量空間的正交基向量;求取正交基向量的映射系數(shù),正交基向量與映射系數(shù)的乘積加上相應(yīng)高斯分布分量的均值后,與相應(yīng)高斯分布分量的第三商之間的二范數(shù)距離最小化;將正交基向量乘以映射系數(shù)后加上相應(yīng)高斯分布分量的均值,得到對(duì)應(yīng)說話人背景模型中每個(gè)高斯分布分量的參考一階統(tǒng)計(jì)量和相應(yīng)參考零階統(tǒng)計(jì)量的第二商。
在一個(gè)實(shí)施例中,待處理語音數(shù)據(jù)包括待驗(yàn)證語音數(shù)據(jù)和目標(biāo)說話人類別的語音數(shù)據(jù);身份向量生成模塊650還用于根據(jù)與待驗(yàn)證語音數(shù)據(jù)對(duì)應(yīng)的修正統(tǒng)計(jì)量生成待驗(yàn)證身份向量;根據(jù)與目標(biāo)說話人類別的語音數(shù)據(jù)對(duì)應(yīng)的修正統(tǒng)計(jì)量生成目標(biāo)說話人身份向量。
圖9為再一個(gè)實(shí)施例中身份向量生成裝置600的結(jié)構(gòu)框圖。本實(shí)施例中身份向量生成裝置600還包括:說話人身份驗(yàn)證模塊680,用于計(jì)算待驗(yàn)證身份向量和目標(biāo)說話人身份向量的相似度;根據(jù)相似度進(jìn)行說話人身份驗(yàn)證。
本實(shí)施例中,即使是語音時(shí)長很短的語音數(shù)據(jù),通過本實(shí)施例的身份向量生成方法,依然可以生成身份識(shí)別性能較高的身份向量,不需要說話人說出太長的語音,使得短時(shí)文本無關(guān)說話人識(shí)別能夠廣泛推廣。
本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程,是可以通過計(jì)算機(jī)程序來指令相關(guān)的硬件來完成,該程序可存儲(chǔ)于一非易失性計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),可包括如上述各方法的實(shí)施例的流程。其中,該存儲(chǔ)介質(zhì)可為磁碟、光盤、只讀存儲(chǔ)記憶體(Read-Only Memory,ROM)等。
以上實(shí)施例的各技術(shù)特征可以進(jìn)行任意的組合,為使描述簡潔,未對(duì)上述實(shí)施例中的各個(gè)技術(shù)特征所有可能的組合都進(jìn)行描述,然而,只要這些技術(shù)特征的組合不存在矛盾,都應(yīng)當(dāng)認(rèn)為是本說明書記載的范圍。
以上實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對(duì)發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對(duì)于本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。