身份向量生成方法和裝置與流程

文檔序號(hào)：11809394閱讀：207來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域，特別是涉及一種身份向量生成方法和裝置。

背景技術(shù)：

說話人身份識(shí)別是一種重要的身份識(shí)別手段，采集用戶說出一段語音，并將采集的語音進(jìn)行預(yù)處理、特征提取、建模和參數(shù)估計(jì)等一系列操作后，將語音映射為一段定長的可以表達(dá)說話人語音特征的向量，該向量稱為身份向量(i-vector)。身份向量可以良好地表達(dá)相應(yīng)語音中包括的說話人身份信息。

目前在生成語音數(shù)據(jù)的身份向量時(shí)，需要提取出其聲學(xué)特征，并基于高斯混合模型形式的說話人背景模型，統(tǒng)計(jì)各聲學(xué)特征屬于說話人背景模型中每個(gè)高斯分布分量的后驗(yàn)概率的統(tǒng)計(jì)量，進(jìn)而基于該統(tǒng)計(jì)量生成身份向量。

然而，目前生成身份向量的方式，在語音數(shù)據(jù)語音長度比較短或者語音比較稀疏的情況下，會(huì)導(dǎo)致身份向量的身份識(shí)別性能降低。

技術(shù)實(shí)現(xiàn)要素：

基于此，有必要針對(duì)目前生成身份向量的方式在語音數(shù)據(jù)語音長度比較短或者語音比較稀疏的情況下，導(dǎo)致身份向量的身份識(shí)別性能降低的技術(shù)問題，提供一種身份向量生成方法和裝置。

一種身份向量生成方法，包括：

獲取待處理語音數(shù)據(jù)；

從所述待處理語音數(shù)據(jù)提取相應(yīng)的聲學(xué)特征；

對(duì)各所述聲學(xué)特征屬于說話人背景模型中每個(gè)高斯分布分量的后驗(yàn)概率進(jìn)行統(tǒng)計(jì)得到統(tǒng)計(jì)量；

將所述統(tǒng)計(jì)量映射到統(tǒng)計(jì)量空間獲得參考統(tǒng)計(jì)量；所述統(tǒng)計(jì)量空間根據(jù)超過預(yù)設(shè)語音時(shí)長的語音樣本所對(duì)應(yīng)的統(tǒng)計(jì)量構(gòu)建而成；

根據(jù)統(tǒng)計(jì)得到的所述統(tǒng)計(jì)量和所述參考統(tǒng)計(jì)量確定修正統(tǒng)計(jì)量；

根據(jù)所述修正統(tǒng)計(jì)量生成身份向量。

一種身份向量生成裝置，包括：

聲學(xué)特征提取模塊，用于獲取待處理語音數(shù)據(jù)；從所述待處理語音數(shù)據(jù)提取相應(yīng)的聲學(xué)特征；

統(tǒng)計(jì)量生成模塊，用于對(duì)各所述聲學(xué)特征屬于說話人背景模型中每個(gè)高斯分布分量的后驗(yàn)概率進(jìn)行統(tǒng)計(jì)得到統(tǒng)計(jì)量；

映射模塊，用于將所述統(tǒng)計(jì)量映射到統(tǒng)計(jì)量空間獲得參考統(tǒng)計(jì)量；所述統(tǒng)計(jì)量空間根據(jù)超過預(yù)設(shè)語音時(shí)長的語音樣本所對(duì)應(yīng)的統(tǒng)計(jì)量構(gòu)建而成；

修正統(tǒng)計(jì)量確定模塊，用于根據(jù)統(tǒng)計(jì)得到的所述統(tǒng)計(jì)量和所述參考統(tǒng)計(jì)量確定修正統(tǒng)計(jì)量；

身份向量生成模塊，用于根據(jù)所述修正統(tǒng)計(jì)量生成身份向量。

上述身份向量生成方法和裝置，統(tǒng)計(jì)量空間根據(jù)超過預(yù)設(shè)語音時(shí)長的語音樣本所對(duì)應(yīng)的統(tǒng)計(jì)量構(gòu)建而成，在對(duì)各所述聲學(xué)特征屬于說話人背景模型中每個(gè)高斯分布分量的后驗(yàn)概率進(jìn)行統(tǒng)計(jì)得到統(tǒng)計(jì)量后，將該統(tǒng)計(jì)量映射到該統(tǒng)計(jì)量空間中，得到的參考統(tǒng)計(jì)量是先驗(yàn)統(tǒng)計(jì)量。利用先驗(yàn)統(tǒng)計(jì)量來對(duì)統(tǒng)計(jì)得到的統(tǒng)計(jì)量進(jìn)行修正得到修正統(tǒng)計(jì)量，該修正統(tǒng)計(jì)量能夠補(bǔ)償因待處理語音數(shù)據(jù)的語音時(shí)長過短和語音稀疏的情況下導(dǎo)致的統(tǒng)計(jì)量偏估，提高身份向量的身份識(shí)別性能。

附圖說明

圖1為一個(gè)實(shí)施例中說話人識(shí)別系統(tǒng)的應(yīng)用環(huán)境圖；

圖2A為一個(gè)實(shí)施例中服務(wù)器的內(nèi)部結(jié)構(gòu)示意圖；

圖2B為一個(gè)實(shí)施例中終端的內(nèi)部結(jié)構(gòu)示意圖；

圖3為一個(gè)實(shí)施例中身份向量生成方法的流程示意圖；

圖4為另一個(gè)實(shí)施例中身份向量生成方法的流程示意圖；

圖5為一個(gè)實(shí)施例中構(gòu)建統(tǒng)計(jì)量空間的步驟的流程示意圖；

圖6為一個(gè)實(shí)施例中身份向量生成裝置的結(jié)構(gòu)框圖；

圖7為一個(gè)實(shí)施例中統(tǒng)計(jì)量生成模塊的結(jié)構(gòu)框圖；

圖8為另一個(gè)實(shí)施例中身份向量生成裝置的結(jié)構(gòu)框圖；

圖9為再一個(gè)實(shí)施例中身份向量生成裝置的結(jié)構(gòu)框圖。

具體實(shí)施方式

為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白，以下結(jié)合附圖及實(shí)施例，對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解，此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明，并不用于限定本發(fā)明。

可以理解，本發(fā)明所使用的術(shù)語“第一”、“第二”等可在本文中用于描述各種元件，但這些元件不受這些術(shù)語限制。這些術(shù)語僅用于將第一個(gè)元件與另一個(gè)元件區(qū)分。第一零階統(tǒng)計(jì)量和第二零階統(tǒng)計(jì)量兩者都是零階統(tǒng)計(jì)量，但其不是同一零階統(tǒng)計(jì)量。

圖1為一個(gè)實(shí)施例中說話人識(shí)別系統(tǒng)的應(yīng)用環(huán)境圖。如圖1所示，該系統(tǒng)包括通過網(wǎng)絡(luò)連接的終端110和服務(wù)器120。終端110可用于采集待驗(yàn)證語音數(shù)據(jù)，并采用本申請(qǐng)中的身份向量生成方法生成待驗(yàn)證身份向量，并將待驗(yàn)證身份向量發(fā)送到服務(wù)器120。服務(wù)器120可收集目標(biāo)說話人類別的語音數(shù)據(jù)，并采用本申請(qǐng)中的身份向量生成方法生成目標(biāo)說話人身份向量。服務(wù)器120可用于計(jì)算待驗(yàn)證身份向量和目標(biāo)說話人身份向量的相似度；根據(jù)相似度進(jìn)行說話人身份驗(yàn)證。服務(wù)器120可用于向終端110反饋身份驗(yàn)證結(jié)果。

圖2A為一個(gè)實(shí)施例中服務(wù)器的內(nèi)部結(jié)構(gòu)示意圖。如圖2A所示，該服務(wù)器包括通過系統(tǒng)總線連接的處理器、非易失性存儲(chǔ)介質(zhì)、內(nèi)存儲(chǔ)器和網(wǎng)絡(luò)接口。其中，該服務(wù)器的非易失性存儲(chǔ)介質(zhì)存儲(chǔ)有操作系統(tǒng)、數(shù)據(jù)庫和身份向量生成裝置，該身份向量生成裝置可用于實(shí)現(xiàn)一種身份向量生成方法。該服務(wù)器的處理器用于提供計(jì)算和控制能力，支撐整個(gè)服務(wù)器的運(yùn)行。該服務(wù)器的內(nèi)存儲(chǔ)器為非易失性存儲(chǔ)介質(zhì)中的身份向量生成裝置的運(yùn)行提供環(huán)境，該內(nèi)存儲(chǔ)器中可存儲(chǔ)有計(jì)算機(jī)可讀指令，該計(jì)算機(jī)可讀指令被處理器執(zhí)行時(shí)，可使得處理器執(zhí)行一種身份向量生成方法。該服務(wù)器的網(wǎng)絡(luò)接口用于與終端連接通信。服務(wù)器可以用獨(dú)立的服務(wù)器或者是多個(gè)服務(wù)器組成的服務(wù)器集群來實(shí)現(xiàn)。本領(lǐng)域技術(shù)人員可以理解，圖2A中示出的結(jié)構(gòu)，僅僅是與本申請(qǐng)方案相關(guān)的部分結(jié)構(gòu)的框圖，并不構(gòu)成對(duì)本申請(qǐng)方案所應(yīng)用于其上的服務(wù)器的限定，具體的服務(wù)器可以包括比圖中所示更多或更少的部件，或者組合某些部件，或者具有不同的部件布置。

圖2B為一個(gè)實(shí)施例中終端的內(nèi)部結(jié)構(gòu)示意圖。如圖2B所示，該終端包括通過系統(tǒng)總線連接的處理器、非易失性存儲(chǔ)介質(zhì)、內(nèi)存儲(chǔ)器、網(wǎng)絡(luò)接口和聲音采集裝置。其中，終端的非易失性存儲(chǔ)介質(zhì)存儲(chǔ)有操作系統(tǒng)，還包括一種身份向量生成裝置，該身份向量生成裝置用于實(shí)現(xiàn)一種身份向量生成方法。該處理器用于提供計(jì)算和控制能力，支撐整個(gè)終端的運(yùn)行。終端中的內(nèi)存儲(chǔ)器為非易失性存儲(chǔ)介質(zhì)中的身份向量生成裝置的運(yùn)行提供環(huán)境，該內(nèi)存儲(chǔ)器中可儲(chǔ)存有計(jì)算機(jī)可讀指令，該計(jì)算機(jī)可讀指令被處理器執(zhí)行時(shí)，可使得處理器執(zhí)行一種身份向量生成方法。網(wǎng)絡(luò)接口用于與服務(wù)器進(jìn)行網(wǎng)絡(luò)通信。該終端可以是手機(jī)、平板電腦或者個(gè)人數(shù)字助理或穿戴式設(shè)備等。本領(lǐng)域技術(shù)人員可以理解，圖2B中示出的結(jié)構(gòu)，僅僅是與本申請(qǐng)方案相關(guān)的部分結(jié)構(gòu)的框圖，并不構(gòu)成對(duì)本申請(qǐng)方案所應(yīng)用于其上的終端的限定，具體的終端可以包括比圖中所示更多或更少的部件，或者組合某些部件，或者具有不同的部件布置。

圖3為一個(gè)實(shí)施例中身份向量生成方法的流程示意圖。本實(shí)施例以該方法應(yīng)用于服務(wù)器120來舉例說明。參照?qǐng)D3，該方法具體包括如下步驟：

S302，獲取待處理語音數(shù)據(jù)。

其中，待處理語音數(shù)據(jù)是指需要對(duì)其進(jìn)行一系列處理以生成相應(yīng)的身份向量的語音數(shù)據(jù)。語音數(shù)據(jù)是在說話人將語音說出后由聲音采集設(shè)備所采集的聲音進(jìn)行保存而形成的數(shù)據(jù)。待處理語音數(shù)據(jù)可以包括待驗(yàn)證語音數(shù)據(jù)和目標(biāo)說話人類別的語音數(shù)據(jù)，其中待驗(yàn)證語音數(shù)據(jù)是指未知說話人類別并需要判斷是否屬于目標(biāo)說話人類別的語音數(shù)據(jù)；目標(biāo)說話人類別是已知的說話人類別，是目標(biāo)說話人說話形成的語音數(shù)據(jù)所構(gòu)成的類別。

S304，從待處理語音數(shù)據(jù)提取相應(yīng)的聲學(xué)特征。

具體地，服務(wù)器可以對(duì)待處理語音數(shù)據(jù)進(jìn)行預(yù)處理，比如濾除噪聲或者統(tǒng)一語音格式等，再從經(jīng)過預(yù)處理的待處理語音數(shù)據(jù)提取相應(yīng)的聲學(xué)特征向量。聲學(xué)特征向量是指反映聲學(xué)特性的聲學(xué)特征所構(gòu)成的向量。聲學(xué)特征向量包括一系列的聲學(xué)特征，該聲學(xué)特征可以是梅爾倒譜系數(shù)(MFCC，Mel Frequency Cepstrum Coefficient)或者線性預(yù)測倒譜系數(shù)(LPCC)。

S306，對(duì)各聲學(xué)特征屬于說話人背景模型中每個(gè)高斯分布分量的后驗(yàn)概率進(jìn)行統(tǒng)計(jì)得到統(tǒng)計(jì)量。

其中，說話人背景模型是采用一系列的語音樣本訓(xùn)練得到的高斯混合模型，用來訓(xùn)練表示與說話人無關(guān)的特征分布。其中高斯混合模型是固定數(shù)量的高斯分布分量疊加而成的數(shù)學(xué)模型。說話人背景模型可通過EM算法(Expectation Maximization Algorithm，譯為期望最大化算法)訓(xùn)練得到。說話人背景模型可采用GMM-UBM(Gaussian Mixture Model-Universal Background Model，高斯混合模型-通用背景模型)。

在一個(gè)實(shí)施例中，說話人背景模型可用如下公式(1)表示：

其中，x表示語音樣本；C是高斯混合模型所包括高斯分布分量的總數(shù)，c表示高斯混合模型所包括的高斯分布分量的序號(hào)；N(x|μ_c,∑_c)表示第c個(gè)高斯分布分量；a_c是第c個(gè)高斯分布分量的系數(shù)；μ_c是第c個(gè)高斯分布分量的均值；∑_c是第c個(gè)高斯分布分量的方差。

在一個(gè)實(shí)施例中，聲學(xué)特征向量可表達(dá)為：{y₁,y₂…y_L}。該聲學(xué)特征向量包括L個(gè)聲學(xué)特征，每個(gè)聲學(xué)特征可表示為y_t，其中，t∈[1,L]。在一個(gè)實(shí)施例中，聲學(xué)特征向量中各聲學(xué)特征屬于說話人背景模型中每個(gè)高斯分布分量的后驗(yàn)概率可表示為：P(c|y_t,Ω)。其中，Ω表示說話人背景模型。P(c|y_t,Ω)表示在說話人背景模型Ω和聲學(xué)特征y_t已觀測到的情況下聲學(xué)特征y_t屬于第c個(gè)高斯分布分量的后驗(yàn)概率。服務(wù)器可基于后驗(yàn)概率P(c|y_t,Ω)進(jìn)行統(tǒng)計(jì)得到統(tǒng)計(jì)量。

S308，將統(tǒng)計(jì)量映射到統(tǒng)計(jì)量空間獲得參考統(tǒng)計(jì)量；統(tǒng)計(jì)量空間根據(jù)超過預(yù)設(shè)語音時(shí)長的語音樣本所對(duì)應(yīng)的統(tǒng)計(jì)量構(gòu)建而成。

其中，統(tǒng)計(jì)量空間是一種向量空間，統(tǒng)計(jì)量空間根據(jù)語音樣本所對(duì)應(yīng)的與上述統(tǒng)計(jì)得到的統(tǒng)計(jì)量同類型的統(tǒng)計(jì)量構(gòu)建而成，該用來構(gòu)建統(tǒng)計(jì)量空間的語音樣本的語音時(shí)長超過預(yù)設(shè)語音時(shí)長，預(yù)設(shè)語音時(shí)長比如30秒。用來構(gòu)建統(tǒng)計(jì)量空間的語音樣本可以是從用于訓(xùn)練說話人背景模型的語音樣本中篩選出的超過預(yù)設(shè)語音時(shí)長的語音樣本。將統(tǒng)計(jì)得到的統(tǒng)計(jì)量映射到統(tǒng)計(jì)量空間后得到參考統(tǒng)計(jì)量，該參考統(tǒng)計(jì)量是根據(jù)超過預(yù)設(shè)語音時(shí)長的語音樣本所對(duì)應(yīng)的統(tǒng)計(jì)量確定的先驗(yàn)統(tǒng)計(jì)量。

S310，根據(jù)統(tǒng)計(jì)得到的統(tǒng)計(jì)量和參考統(tǒng)計(jì)量確定修正統(tǒng)計(jì)量。

其中，修改統(tǒng)計(jì)量是利用參考統(tǒng)計(jì)量修正統(tǒng)計(jì)得到的統(tǒng)計(jì)量后得到的統(tǒng)計(jì)量，該統(tǒng)計(jì)量結(jié)合了先驗(yàn)的統(tǒng)計(jì)量和后驗(yàn)的統(tǒng)計(jì)量。

S312，根據(jù)修正統(tǒng)計(jì)量生成身份向量。

具體地，在得到修正統(tǒng)計(jì)量后，可以利用修正統(tǒng)計(jì)量并采用常規(guī)的生成身份向量的方式來生成身份向量。

上述身份向量生成方法，統(tǒng)計(jì)量空間根據(jù)超過預(yù)設(shè)語音時(shí)長的語音樣本所對(duì)應(yīng)的統(tǒng)計(jì)量構(gòu)建而成，在對(duì)各聲學(xué)特征屬于說話人背景模型中每個(gè)高斯分布分量的后驗(yàn)概率進(jìn)行統(tǒng)計(jì)得到統(tǒng)計(jì)量后，將該統(tǒng)計(jì)量映射到該統(tǒng)計(jì)量空間中，得到的參考統(tǒng)計(jì)量是先驗(yàn)統(tǒng)計(jì)量。利用先驗(yàn)統(tǒng)計(jì)量來對(duì)統(tǒng)計(jì)得到的統(tǒng)計(jì)量進(jìn)行修正得到修正統(tǒng)計(jì)量，該修正統(tǒng)計(jì)量能夠補(bǔ)償因待處理語音數(shù)據(jù)的語音時(shí)長過短和語音稀疏的情況下導(dǎo)致的統(tǒng)計(jì)量偏估，提高身份向量的身份識(shí)別性能。

圖4為另一個(gè)實(shí)施例中身份向量生成方法的流程示意圖。如圖4所示，該身份向量生成方法包括如下步驟：

S402，獲取待處理語音數(shù)據(jù)。

S404，從待處理語音數(shù)據(jù)提取相應(yīng)的聲學(xué)特征。

S406，對(duì)應(yīng)于說話人背景模型中的每個(gè)高斯分布分量，分別統(tǒng)計(jì)各聲學(xué)特征屬于相應(yīng)高斯分布分量的后驗(yàn)概率的總和作為相應(yīng)的第一零階統(tǒng)計(jì)量。

具體地，對(duì)應(yīng)于說話人背景模型Ω中的每個(gè)高斯分布分量c，分別統(tǒng)計(jì)各聲學(xué)特征y_t屬于相應(yīng)高斯分布分量c的后驗(yàn)概率P(c|y_t,Ω)的總和，將該總和作為相應(yīng)高斯分布分量c所對(duì)應(yīng)的第一零階統(tǒng)計(jì)量。

更具體地，可采用如下公式(2)計(jì)算對(duì)應(yīng)于高斯分布分量c的第一零階統(tǒng)計(jì)量N_c(u)：

其中，u表示待處理語音數(shù)據(jù)；N_c(u)表示待處理語音數(shù)據(jù)u對(duì)應(yīng)于高斯分布分量c的第一零階統(tǒng)計(jì)量；y_t表示聲學(xué)特征向量的L個(gè)聲學(xué)特征中第t個(gè)聲學(xué)特征；P(c|y_t,Ω)表示在說話人背景模型Ω和聲學(xué)特征y_t已觀測到的情況下聲學(xué)特征y_t屬于第c個(gè)高斯分布分量的后驗(yàn)概率。

S408，對(duì)應(yīng)于說話人背景模型中的每個(gè)高斯分布分量，分別將各聲學(xué)特征以該聲學(xué)特征屬于相應(yīng)高斯分布分量的后驗(yàn)概率為權(quán)重計(jì)算加權(quán)和作為相應(yīng)的第一一階統(tǒng)計(jì)量。

其中，S404和S406包括于上述步驟S304。具體地，對(duì)應(yīng)于說話人背景模型中的每個(gè)高斯分布分量c，分別將各聲學(xué)特征y_t以該聲學(xué)特征y_t屬于相應(yīng)高斯分布分量c的后驗(yàn)概率P(c|y_t,Ω)為權(quán)重計(jì)算加權(quán)和，將該加權(quán)和作為應(yīng)高斯分布分量c所對(duì)應(yīng)的第一一階統(tǒng)計(jì)量。

更具體地，可采用如下公式(3)計(jì)算對(duì)應(yīng)于高斯分布分量c的第一一階統(tǒng)計(jì)量F_c(u)：

其中，u表示待處理語音數(shù)據(jù)；F_c(u)表示待處理語音數(shù)據(jù)u對(duì)應(yīng)于高斯分布分量c的第一一階統(tǒng)計(jì)量；y_t表示聲學(xué)特征向量的L個(gè)聲學(xué)特征中第t個(gè)聲學(xué)特征；P(c|y_t,Ω)表示在說話人背景模型Ω和聲學(xué)特征y_t已觀測到的情況下聲學(xué)特征y_t屬于第c個(gè)高斯分布分量的后驗(yàn)概率。

S410，將第一零階統(tǒng)計(jì)量和第一一階統(tǒng)計(jì)量映射到統(tǒng)計(jì)量空間，獲得對(duì)應(yīng)說話人背景模型中每個(gè)高斯分布分量的參考一階統(tǒng)計(jì)量和相應(yīng)參考零階統(tǒng)計(jì)量的第二商；統(tǒng)計(jì)量空間根據(jù)超過預(yù)設(shè)語音時(shí)長的語音樣本所對(duì)應(yīng)的統(tǒng)計(jì)量構(gòu)建而成。

具體地，將第一零階統(tǒng)計(jì)量N_c(u)和第一一階統(tǒng)計(jì)量F_c(u)映射到統(tǒng)計(jì)量空間H，得到對(duì)應(yīng)說話人背景模型中每個(gè)高斯分布分量c的參考一階統(tǒng)計(jì)量F_c^ref(u)和相應(yīng)參考零階統(tǒng)計(jì)量N_c^ref(u)的第二商：F_c^ref(u)/N_c^ref(u)。

S412，將第一一階統(tǒng)計(jì)量與相應(yīng)第一零階統(tǒng)計(jì)量的第三商，與相應(yīng)高斯分布分量的第二商加權(quán)求和，得到對(duì)應(yīng)說話人背景模型中每個(gè)高斯分布分量的修正一階統(tǒng)計(jì)量和相應(yīng)修正零階統(tǒng)計(jì)量的第四商作為修正統(tǒng)計(jì)量。

具體地，可采用如下公式(4)計(jì)算對(duì)應(yīng)于高斯分布分量c的修正統(tǒng)計(jì)量：

其中，表示對(duì)應(yīng)于高斯分布分量c的修正一階統(tǒng)計(jì)量；表示對(duì)應(yīng)于高斯分布分量c的修正零階統(tǒng)計(jì)量；R1和R2是權(quán)重；表示對(duì)應(yīng)于高斯分布分量c的第二商；表示對(duì)應(yīng)于高斯分布分量c的第三商?？上薅≧1和R2的和為1。

在一個(gè)實(shí)施例中，加權(quán)求和中，第三商的權(quán)重為相應(yīng)高斯分布分量的第一零階統(tǒng)計(jì)量除以相應(yīng)的第一零階統(tǒng)計(jì)量與可調(diào)參數(shù)的和，第二商的權(quán)重為可調(diào)參數(shù)除以相應(yīng)高斯分布分量的第一零階統(tǒng)計(jì)量與可調(diào)參數(shù)的和。

具體地，可采用如下公式(5)計(jì)算對(duì)應(yīng)于高斯分布分量c的修正統(tǒng)計(jì)量：

其中，第三商的權(quán)重為是相應(yīng)高斯分布分量c的第一零階統(tǒng)計(jì)量N_c(u)除以相應(yīng)的第一零階統(tǒng)計(jì)量N_c(u)與可調(diào)參數(shù)q的和；第二商的權(quán)重為是可調(diào)參數(shù)q除以相應(yīng)高斯分布分量c的第一零階統(tǒng)計(jì)量N_c(u)與可調(diào)參數(shù)q的和。q取0.4～1時(shí)可達(dá)到很好的效果。本實(shí)施例中，通過調(diào)整可調(diào)參數(shù)，可以針對(duì)不同環(huán)境進(jìn)行差異性調(diào)整，增加魯棒性。

S414，根據(jù)修正統(tǒng)計(jì)量生成身份向量。

具體地，當(dāng)時(shí)可求得

按照如下公式(6)定義說話人背景模型的均值超向量m：

其中，μ₁、μ₂……μ_C分別是說話人背景模型各高斯分布分量的均值。

按照如下公式(7)定義對(duì)角矩陣形式的修正零階統(tǒng)計(jì)量矩陣

其中，分別是對(duì)應(yīng)于說話人背景模型各高斯分布分量的修正零階統(tǒng)計(jì)量。

按照如下公式(8)定義修正一階統(tǒng)計(jì)量矩陣

其中，分別是對(duì)應(yīng)于說話人背景模型各高斯分布分量的修正一階統(tǒng)計(jì)量。

在一個(gè)實(shí)施例中，可根據(jù)如下公式(9)計(jì)算身份向量

其中，I表示單位矩陣；T表示已知的全因子矩陣(Total Factor Matrix)；t表示轉(zhuǎn)置；∑表示對(duì)角矩陣形式的協(xié)方差矩陣，∑的對(duì)角元素是各高斯分布分量的協(xié)方差；m表示說話人背景模型的均值超向量；表示修正零階統(tǒng)計(jì)量矩陣；表示修正一階統(tǒng)計(jì)量矩陣。

在一個(gè)實(shí)施例中，可對(duì)上述公式(9)進(jìn)行變換，將涉及矩陣和的計(jì)算變換為涉及和的計(jì)算，而本實(shí)施例中在得到后可直接用來計(jì)算身份向量，不必構(gòu)建矩陣和簡化計(jì)算。

本實(shí)施例中，利用第一一階統(tǒng)計(jì)量和第一零階統(tǒng)計(jì)量可以更加準(zhǔn)確地反映聲學(xué)特征的特性，便于計(jì)算出準(zhǔn)確的修正統(tǒng)計(jì)量。由于一階統(tǒng)計(jì)量與相應(yīng)零階統(tǒng)計(jì)量的商基本保持在穩(wěn)定的范圍內(nèi)，可以在確定修正統(tǒng)計(jì)量時(shí)直接進(jìn)行線性加和，減少計(jì)算量。

圖5為一個(gè)實(shí)施例中構(gòu)建統(tǒng)計(jì)量空間的步驟的流程示意圖。參照?qǐng)D5，構(gòu)建統(tǒng)計(jì)量空間的步驟具體包括如下步驟

S502，獲取超過預(yù)設(shè)語音時(shí)長的語音樣本。

具體地，可從用于訓(xùn)練說話人背景模型的語音樣本中篩選出語音時(shí)長超過預(yù)設(shè)語音時(shí)長的語音樣本。

S504，按照語音樣本中說話人類別統(tǒng)計(jì)對(duì)應(yīng)于說話人背景模型中的每個(gè)高斯分布分量的第二零階統(tǒng)計(jì)量和第二一階統(tǒng)計(jì)量。

具體地，若獲取的語音樣本共有S個(gè)說話人類別，對(duì)于第s個(gè)說話人類別，參照上述公式(2)和(3)，分別統(tǒng)計(jì)對(duì)應(yīng)于每個(gè)高斯分布分量c的第二零階統(tǒng)計(jì)量和第二一階統(tǒng)計(jì)量

S506，計(jì)算第二一階統(tǒng)計(jì)量和相應(yīng)的第二零階統(tǒng)計(jì)量的第一商。

具體地，對(duì)于每個(gè)說話類別s，分別計(jì)算對(duì)應(yīng)于說話人背景模型中每個(gè)高斯分布分量c的第二一階統(tǒng)計(jì)量和相應(yīng)的第二零階統(tǒng)計(jì)量的第一商

S508，根據(jù)計(jì)算出的第一商構(gòu)建統(tǒng)計(jì)量空間。

具體地，可將對(duì)于每個(gè)說話類別s且對(duì)應(yīng)于說話人背景模型中每個(gè)高斯分布分量c的第一商，按照說話人類別和對(duì)應(yīng)的高斯分布分量依次排布形成表征統(tǒng)計(jì)量空間的矩陣。

本實(shí)施例中，基于第二一階統(tǒng)計(jì)量和相應(yīng)的第二零階統(tǒng)計(jì)量的第一商建立統(tǒng)計(jì)量空間，由于一階統(tǒng)計(jì)量與相應(yīng)零階統(tǒng)計(jì)量的商基本保持在穩(wěn)定的范圍內(nèi)，便于將第一零階統(tǒng)計(jì)量和第一一階統(tǒng)計(jì)量映射到統(tǒng)計(jì)量空間的計(jì)算，提高計(jì)算效率。

在一個(gè)實(shí)施例中，S508包括：將計(jì)算出的第一商減去相應(yīng)高斯分布分量的均值得到相應(yīng)的差值；將得到的差值按照說話人類別和對(duì)應(yīng)的高斯分布分量依次排布形成表征統(tǒng)計(jì)量空間的矩陣。

具體地，可按照如下公式(10)確定表征統(tǒng)計(jì)量空間的矩陣H：

其中，m表示說話人背景模型的均值超向量；表示第s個(gè)說話人類別對(duì)應(yīng)的第二一階統(tǒng)計(jì)量矩陣，表示各第s個(gè)說話人類別的對(duì)應(yīng)于說話人背景模型各高斯分布分量c的第二零階統(tǒng)計(jì)量。

可表示為如下形式：

因此，上述公式(10)可變形為如下公式(11)

本實(shí)施例中，將計(jì)算出的第一商減去相應(yīng)高斯分布分量的均值得到相應(yīng)的差值，從而將得到的差值按照說話人類別和對(duì)應(yīng)的高斯分布分量依次排布形成表征統(tǒng)計(jì)量空間的矩陣，使得構(gòu)建出的統(tǒng)計(jì)量空間中心大致在統(tǒng)計(jì)量空間的原點(diǎn)處，便于計(jì)算，提高計(jì)算效率。

在一個(gè)實(shí)施例中，步驟S410具體包括：獲取統(tǒng)計(jì)量空間的正交基向量；求取正交基向量的映射系數(shù)，正交基向量與映射系數(shù)的乘積加上相應(yīng)高斯分布分量的均值后，與相應(yīng)高斯分布分量的第三商之間的二范數(shù)距離最小化；將正交基向量乘以映射系數(shù)后加上相應(yīng)高斯分布分量的均值，得到對(duì)應(yīng)說話人背景模型中每個(gè)高斯分布分量的參考一階統(tǒng)計(jì)量和相應(yīng)參考零階統(tǒng)計(jì)量的第二商。

具體地，統(tǒng)計(jì)量空間可通過特征值分解得到統(tǒng)計(jì)量空間的一組正交基向量F^eigen?？啥x如下公式(12)的優(yōu)化函數(shù)：

其中，N_c(u)表示對(duì)應(yīng)于高斯分布分量c的第一零階統(tǒng)計(jì)量；F_c(u)表示對(duì)應(yīng)于高斯分布分量c的第一一階統(tǒng)計(jì)量；表示對(duì)應(yīng)于高斯分布分量c的第三商；μ_c表示對(duì)應(yīng)于高斯分布分量c的均值；F^eigen表示統(tǒng)計(jì)量空間H的正交基向量；表示映射系數(shù)。

優(yōu)化如公式(12)的優(yōu)化函數(shù)，得到的最優(yōu)的映射系數(shù)如下公式(13)：

進(jìn)一步地，按照如下公式(14)計(jì)算對(duì)應(yīng)說話人背景模型中每個(gè)高斯分布分量的參考一階統(tǒng)計(jì)量和相應(yīng)參考零階統(tǒng)計(jì)量的第二商：

本實(shí)施例中，可實(shí)現(xiàn)準(zhǔn)確地將第一零階統(tǒng)計(jì)量和第一一階統(tǒng)計(jì)量映射到統(tǒng)計(jì)量空間。

在一個(gè)實(shí)施例中，待處理語音數(shù)據(jù)包括待驗(yàn)證語音數(shù)據(jù)和目標(biāo)說話人類別的語音數(shù)據(jù)；步驟S312包括：根據(jù)與待驗(yàn)證語音數(shù)據(jù)對(duì)應(yīng)的修正統(tǒng)計(jì)量生成待驗(yàn)證身份向量；根據(jù)與目標(biāo)說話人類別的語音數(shù)據(jù)對(duì)應(yīng)的修正統(tǒng)計(jì)量生成目標(biāo)說話人身份向量。該身份向量生成方法還包括：計(jì)算待驗(yàn)證身份向量和目標(biāo)說話人身份向量的相似度；根據(jù)相似度進(jìn)行說話人身份驗(yàn)證。

具體地，說話人身份識(shí)別可以應(yīng)用于多種需要認(rèn)證未知用戶身份的場景。說話人身份識(shí)別分為線下(off-line)和線上(on-line)兩個(gè)階段：線下階段需要收集大量的非目標(biāo)說話人類別的語音樣本用于訓(xùn)練說話人身份識(shí)別系統(tǒng)，說話人身份識(shí)別系統(tǒng)包括身份向量提取模塊與身份向量規(guī)整模塊。

線上階段又分為兩個(gè)階段：注冊(cè)階段與識(shí)別階段。在注冊(cè)階段中，需要獲取目標(biāo)說話人的語音數(shù)據(jù)，將該語音數(shù)據(jù)進(jìn)行預(yù)處理、特征提取與模型訓(xùn)練后，映射為一段定長的身份向量，該已知身份向量即是表征目標(biāo)說話人身份的一個(gè)模型。而在識(shí)別階段中，獲取一段身份未知的待驗(yàn)證語音，將該待驗(yàn)證語音同樣經(jīng)過預(yù)處理、特征提取與模型訓(xùn)練后，映射為一段待驗(yàn)證身份向量。

目標(biāo)說話人類別的身份向量與識(shí)別階段的待驗(yàn)證身份向量接下來在相似度計(jì)算模塊中計(jì)算相似度，將相似度與預(yù)先人工設(shè)定的一個(gè)門限值進(jìn)行比較，若相似度大于等于門限值，則可判定待驗(yàn)證語音對(duì)應(yīng)的身份與目標(biāo)說話人身份匹配，身份驗(yàn)證通過。若相似度小于門限值，則可判定待驗(yàn)證語音對(duì)應(yīng)的身份與目標(biāo)說話人身份不匹配，身份驗(yàn)證未通過。相似度可采用余弦相似度、皮爾森相關(guān)系數(shù)或者歐氏距離等。

本實(shí)施例中，即使是語音時(shí)長很短的語音數(shù)據(jù)，通過本實(shí)施例的身份向量生成方法，依然可以生成身份識(shí)別性能較高的身份向量，不需要說話人說出太長的語音，使得短時(shí)文本無關(guān)說話人識(shí)別能夠廣泛推廣。

圖6為一個(gè)實(shí)施例中身份向量生成裝置600的結(jié)構(gòu)框圖。如圖6所示，身份向量生成裝置600包括聲學(xué)特征提取模塊610、統(tǒng)計(jì)量生成模塊620、映射模塊630、修正統(tǒng)計(jì)量確定模塊640和身份向量生成模塊650。

聲學(xué)特征提取模塊610，用于獲取待處理語音數(shù)據(jù)；從待處理語音數(shù)據(jù)提取相應(yīng)的聲學(xué)特征。

統(tǒng)計(jì)量生成模塊620，用于對(duì)各聲學(xué)特征屬于說話人背景模型中每個(gè)高斯分布分量的后驗(yàn)概率進(jìn)行統(tǒng)計(jì)得到統(tǒng)計(jì)量。

映射模塊630，用于將統(tǒng)計(jì)量映射到統(tǒng)計(jì)量空間獲得參考統(tǒng)計(jì)量；統(tǒng)計(jì)量空間根據(jù)超過預(yù)設(shè)語音時(shí)長的語音樣本所對(duì)應(yīng)的統(tǒng)計(jì)量構(gòu)建而成。

修正統(tǒng)計(jì)量確定模塊640，用于根據(jù)統(tǒng)計(jì)得到的統(tǒng)計(jì)量和參考統(tǒng)計(jì)量確定修正統(tǒng)計(jì)量。

身份向量生成模塊650，用于根據(jù)修正統(tǒng)計(jì)量生成身份向量。

上述身份向量生成裝置600，統(tǒng)計(jì)量空間根據(jù)超過預(yù)設(shè)語音時(shí)長的語音樣本所對(duì)應(yīng)的統(tǒng)計(jì)量構(gòu)建而成，在對(duì)各聲學(xué)特征屬于說話人背景模型中每個(gè)高斯分布分量的后驗(yàn)概率進(jìn)行統(tǒng)計(jì)得到統(tǒng)計(jì)量后，將該統(tǒng)計(jì)量映射到該統(tǒng)計(jì)量空間中，得到的參考統(tǒng)計(jì)量是先驗(yàn)統(tǒng)計(jì)量。利用先驗(yàn)統(tǒng)計(jì)量來對(duì)統(tǒng)計(jì)得到的統(tǒng)計(jì)量進(jìn)行修正得到修正統(tǒng)計(jì)量，該修正統(tǒng)計(jì)量能夠補(bǔ)償因待處理語音數(shù)據(jù)的語音時(shí)長過短和語音稀疏的情況下導(dǎo)致的統(tǒng)計(jì)量偏估，提高身份向量的身份識(shí)別性能。

圖7為一個(gè)實(shí)施例中統(tǒng)計(jì)量生成模塊620的結(jié)構(gòu)框圖。本實(shí)施例中，統(tǒng)計(jì)得到的統(tǒng)計(jì)量包括第一零階統(tǒng)計(jì)量和第一一階統(tǒng)計(jì)量；統(tǒng)計(jì)量生成模塊620包括：第一零階統(tǒng)計(jì)量生成模塊621和第一一階統(tǒng)計(jì)量生成模塊622。

第一零階統(tǒng)計(jì)量生成模塊621，用于對(duì)應(yīng)于說話人背景模型中的每個(gè)高斯分布分量，分別統(tǒng)計(jì)各聲學(xué)特征屬于相應(yīng)高斯分布分量的后驗(yàn)概率的總和作為相應(yīng)的第一零階統(tǒng)計(jì)量。

第一一階統(tǒng)計(jì)量生成模塊622，用于對(duì)應(yīng)于說話人背景模型中的每個(gè)高斯分布分量，分別將各聲學(xué)特征以該聲學(xué)特征屬于相應(yīng)高斯分布分量的后驗(yàn)概率為權(quán)重計(jì)算加權(quán)和作為相應(yīng)的第一一階統(tǒng)計(jì)量。

圖8為另一個(gè)實(shí)施例中身份向量生成裝置600的結(jié)構(gòu)框圖。身份向量生成裝置600還包括：統(tǒng)計(jì)量統(tǒng)計(jì)模塊660和統(tǒng)計(jì)量空間構(gòu)建模塊670。

統(tǒng)計(jì)量統(tǒng)計(jì)模塊660，用于獲取超過預(yù)設(shè)語音時(shí)長的語音樣本；按照語音樣本中說話人類別統(tǒng)計(jì)對(duì)應(yīng)于說話人背景模型中的每個(gè)高斯分布分量的第二零階統(tǒng)計(jì)量和第二一階統(tǒng)計(jì)量。

統(tǒng)計(jì)量空間構(gòu)建模塊670，用于計(jì)算第二一階統(tǒng)計(jì)量和相應(yīng)的第二零階統(tǒng)計(jì)量的第一商；根據(jù)計(jì)算出的第一商構(gòu)建統(tǒng)計(jì)量空間。

在一個(gè)實(shí)施例中，統(tǒng)計(jì)量空間構(gòu)建模塊670還用于將計(jì)算出的第一商減去相應(yīng)高斯分布分量的均值得到相應(yīng)的差值；將得到的差值按照說話人類別和對(duì)應(yīng)的高斯分布分量依次排布形成表征統(tǒng)計(jì)量空間的矩陣。

在一個(gè)實(shí)施例中，參考統(tǒng)計(jì)量包括對(duì)應(yīng)說話人背景模型中每個(gè)高斯分布分量的參考一階統(tǒng)計(jì)量和相應(yīng)參考零階統(tǒng)計(jì)量的第二商；修正統(tǒng)計(jì)量確定模塊640還用于將第一一階統(tǒng)計(jì)量與相應(yīng)第一零階統(tǒng)計(jì)量的第三商，與相應(yīng)高斯分布分量的第二商加權(quán)求和，得到對(duì)應(yīng)說話人背景模型中每個(gè)高斯分布分量的修正一階統(tǒng)計(jì)量和相應(yīng)修正零階統(tǒng)計(jì)量的第四商作為修正統(tǒng)計(jì)量。

在一個(gè)實(shí)施例中，修正統(tǒng)計(jì)量確定模塊640用于加權(quán)求和時(shí)，第三商的權(quán)重為相應(yīng)高斯分布分量的第一零階統(tǒng)計(jì)量除以相應(yīng)的第一零階統(tǒng)計(jì)量與可調(diào)參數(shù)的和，第二商的權(quán)重為可調(diào)參數(shù)除以相應(yīng)高斯分布分量的第一零階統(tǒng)計(jì)量與可調(diào)參數(shù)的和。本實(shí)施例中，通過調(diào)整可調(diào)參數(shù)，可以針對(duì)不同環(huán)境進(jìn)行差異性調(diào)整，增加魯棒性。

在一個(gè)實(shí)施例中，映射模塊630還用于獲取統(tǒng)計(jì)量空間的正交基向量；求取正交基向量的映射系數(shù)，正交基向量與映射系數(shù)的乘積加上相應(yīng)高斯分布分量的均值后，與相應(yīng)高斯分布分量的第三商之間的二范數(shù)距離最小化；將正交基向量乘以映射系數(shù)后加上相應(yīng)高斯分布分量的均值，得到對(duì)應(yīng)說話人背景模型中每個(gè)高斯分布分量的參考一階統(tǒng)計(jì)量和相應(yīng)參考零階統(tǒng)計(jì)量的第二商。

在一個(gè)實(shí)施例中，待處理語音數(shù)據(jù)包括待驗(yàn)證語音數(shù)據(jù)和目標(biāo)說話人類別的語音數(shù)據(jù)；身份向量生成模塊650還用于根據(jù)與待驗(yàn)證語音數(shù)據(jù)對(duì)應(yīng)的修正統(tǒng)計(jì)量生成待驗(yàn)證身份向量；根據(jù)與目標(biāo)說話人類別的語音數(shù)據(jù)對(duì)應(yīng)的修正統(tǒng)計(jì)量生成目標(biāo)說話人身份向量。

圖9為再一個(gè)實(shí)施例中身份向量生成裝置600的結(jié)構(gòu)框圖。本實(shí)施例中身份向量生成裝置600還包括：說話人身份驗(yàn)證模塊680，用于計(jì)算待驗(yàn)證身份向量和目標(biāo)說話人身份向量的相似度；根據(jù)相似度進(jìn)行說話人身份驗(yàn)證。

本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程，是可以通過計(jì)算機(jī)程序來指令相關(guān)的硬件來完成，該程序可存儲(chǔ)于一非易失性計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中，該程序在執(zhí)行時(shí)，可包括如上述各方法的實(shí)施例的流程。其中，該存儲(chǔ)介質(zhì)可為磁碟、光盤、只讀存儲(chǔ)記憶體(Read-Only Memory，ROM)等。

以上實(shí)施例的各技術(shù)特征可以進(jìn)行任意的組合，為使描述簡潔，未對(duì)上述實(shí)施例中的各個(gè)技術(shù)特征所有可能的組合都進(jìn)行描述，然而，只要這些技術(shù)特征的組合不存在矛盾，都應(yīng)當(dāng)認(rèn)為是本說明書記載的范圍。

以上實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式，其描述較為具體和詳細(xì)，但并不能因此而理解為對(duì)發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是，對(duì)于本領(lǐng)域的普通技術(shù)人員來說，在不脫離本發(fā)明構(gòu)思的前提下，還可以做出若干變形和改進(jìn)，這些都屬于本發(fā)明的保護(hù)范圍。因此，本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李為;黃飛躍;吳永堅(jiān);吳富章;李科;金星明;錢柄樺;
技術(shù)所有人：騰訊科技（深圳）有限公司;
我是此專利的發(fā)明人

上一篇：一種固、液混合攪拌機(jī)的制作方法與工藝
上一篇：一種制備不同分子量聚蘋果酸的提取方法與流程

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

matlab生成列向量相關(guān)技術(shù)

matlab生成行向量相關(guān)技術(shù)

matlab生成隨機(jī)向量相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

身份向量生成方法和裝置與流程