用于驗(yàn)證說(shuō)話人的口令建模的設(shè)備和方法、以及說(shuō)話人驗(yàn)證系統(tǒng)的制作方法

文檔序號(hào)：2824957閱讀：308來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專(zhuān)利名稱(chēng)：用于驗(yàn)證說(shuō)話人的口令建模的設(shè)備和方法、以及說(shuō)話人驗(yàn)證系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本公開(kāi)涉及語(yǔ)音(音頻)處理技術(shù)，具體而言，涉及說(shuō)話人識(shí)別(speakerrecognition)以及說(shuō)話人驗(yàn)證(speaker verification)的技術(shù)。
背景技術(shù)：
說(shuō)話人識(shí)別技術(shù)在人機(jī)交互(Human-Machine Interactive)中是有用的。能夠使許多應(yīng)用和產(chǎn)品與說(shuō)話人識(shí)別技術(shù)相對(duì)應(yīng)，例如(I)對(duì)某種設(shè)備(家電產(chǎn)品、汽車(chē)、PC終端等)的現(xiàn)場(chǎng)訪問(wèn)控制，或者(2)通過(guò)電話線路、移動(dòng)電話線路、或者計(jì)算機(jī)的數(shù)據(jù)線路對(duì)數(shù)據(jù)庫(kù)、網(wǎng)站、甚至是銀行交易的安全的遠(yuǎn)程訪問(wèn)等，或者能夠具備說(shuō)話人識(shí)別技術(shù)以實(shí)現(xiàn)功能強(qiáng)化。在現(xiàn)實(shí)的系統(tǒng)中，在使用說(shuō)話人識(shí)別系統(tǒng)之前，需要先進(jìn)行對(duì)目標(biāo)說(shuō)話人的登記或注冊(cè)(registration)過(guò)程。在說(shuō)話人登記過(guò)程中，從目標(biāo)說(shuō)話人收集樣本語(yǔ)音，使用該樣本語(yǔ)音生成特定說(shuō)話人的統(tǒng)計(jì)模板。所生成的統(tǒng)計(jì)模板的質(zhì)量對(duì)說(shuō)話人識(shí)別系統(tǒng)的性能具有較大的影響。圖1表示用于對(duì)說(shuō)話人驗(yàn)證系統(tǒng)的口令建模的以往設(shè)備的圖。用戶(hù)在登記過(guò)程中希望登記自己的口令時(shí)，通過(guò)說(shuō)話人驗(yàn)證系統(tǒng)的前端101請(qǐng)求來(lái)自目標(biāo)用戶(hù)的口令的發(fā)聲。用戶(hù)的發(fā)聲每次不一定完全相同，因而為了在建模單元103中得到魯棒的統(tǒng)計(jì)模板模型，需要反復(fù)3至5次口令。所生成的模板模型為了隨后進(jìn)行確認(rèn)，存儲(chǔ)在數(shù)據(jù)庫(kù)105內(nèi)。

發(fā)明內(nèi)容
發(fā)明要解決的問(wèn)題以往方法的兩個(gè)主要缺點(diǎn)在于:(I)在可利用的登記數(shù)據(jù)少、或者存在較大的說(shuō)話人內(nèi)變動(dòng)的情況下，不能保證登記的效果；以及(2)用戶(hù)喜歡簡(jiǎn)單的登記過(guò)程，因而在需要多次重復(fù)時(shí)，用戶(hù)體驗(yàn)并不好。解決問(wèn)題的方案在本公開(kāi)的一個(gè)方式中，實(shí)現(xiàn)用于驗(yàn)證說(shuō)話人的口令建模設(shè)備，該設(shè)備包括:前端，從目標(biāo)說(shuō)話人獲得登記語(yǔ)音；以及模板生成單元，基于登記語(yǔ)音利用普通說(shuō)話人模型生成口令模板。在本公開(kāi)的另一形式中，提供用于驗(yàn)證說(shuō)話人的口令建模方法，該方法包括:從目標(biāo)說(shuō)話人獲得登記語(yǔ)音的步驟；以及基于登記語(yǔ)音利用普通說(shuō)話人模型生成口令模板的步驟。在本公開(kāi)的又一形式中，實(shí)現(xiàn)說(shuō)話人驗(yàn)證系統(tǒng)，該系統(tǒng)包括:前端，從目標(biāo)說(shuō)話人獲得登記語(yǔ)音和/或測(cè)試語(yǔ)音；模板生成單元，基于登記語(yǔ)音利用普通說(shuō)話人模型生成口令模板；以及動(dòng)態(tài)驗(yàn)證單元，將來(lái)自目標(biāo)說(shuō)話人的測(cè)試語(yǔ)音與從口令模板中選擇出的數(shù)據(jù)進(jìn)行比較，其中，在比較結(jié)果為閾值以上的情況下，目標(biāo)說(shuō)話人被作為申報(bào)說(shuō)話人受理。
在本公開(kāi)的設(shè)備、方法、以及系統(tǒng)中，通過(guò)考慮普通說(shuō)話人模型中包含的豐富的變異，即使在登記數(shù)據(jù)不充分的情況下，或者來(lái)自目標(biāo)說(shuō)話人的可利用的口令僅有一個(gè)時(shí)，也能夠可靠地進(jìn)行魯棒的口令建模。上述為概要內(nèi)容，因此當(dāng)然進(jìn)行了簡(jiǎn)化、一般化，并且省略了詳細(xì)情況，因此本領(lǐng)域技術(shù)人員可以理解，概要內(nèi)容僅為例示，并不意圖以任何形式進(jìn)行限制。本說(shuō)明書(shū)中記載的設(shè)備和/或過(guò)程和/或其他主題的其他方式、特征、以及優(yōu)點(diǎn)通過(guò)本說(shuō)明書(shū)中描述的示教而變得明確。本“發(fā)明內(nèi)容”用于導(dǎo)入以下的“具體實(shí)施方式
”中進(jìn)一步說(shuō)明的一些概念的簡(jiǎn)化形式。本“發(fā)明內(nèi)容”并不意圖明示權(quán)利要求的主題的關(guān)鍵特征或本質(zhì)特征，也并不意圖用于輔助決定權(quán)利要求的主題的范圍。通過(guò)參考附圖，利用以下的說(shuō)明以及附屬的權(quán)利要求可以使本公開(kāi)的上述特征以及其他特征完全明確。這些附圖僅表示基于本公開(kāi)的多個(gè)實(shí)施方式，因此應(yīng)當(dāng)理解，不應(yīng)將其認(rèn)為是限制本公開(kāi)的范圍的內(nèi)容，使用附圖更具體地、詳細(xì)地說(shuō)明本公開(kāi)。

圖1是用于對(duì)說(shuō)話人驗(yàn)證的口令建模的以往設(shè)備的圖。圖2是基于本公開(kāi)的一實(shí)施方式的用于對(duì)說(shuō)話人驗(yàn)證的口令建模的設(shè)備的圖。圖3是對(duì)于登記語(yǔ)音的各幀的、從普通說(shuō)話人模型中選擇出的從高到低的N個(gè)高斯分量(分布)的略圖。圖4是表示將登記語(yǔ)音分割為多個(gè)段(segment)的圖。圖5是合并為一個(gè)或多個(gè)GMM (高斯混合模型)的、登記語(yǔ)音的一個(gè)段內(nèi)的高斯分量的圖。圖6是包括合并后的GMM的HMM網(wǎng)的圖。圖7是對(duì)說(shuō)話人驗(yàn)證的口令建模的方法的流程圖。圖8是基于本公開(kāi)的一實(shí)施方式的說(shuō)話人驗(yàn)證系統(tǒng)的圖。圖9是基于本公開(kāi)的另一實(shí)施方式的用于對(duì)說(shuō)話人驗(yàn)證的口令建模的設(shè)備的圖。
具體實(shí)施例方式在下面的詳細(xì)說(shuō)明中參考附圖，這些附圖構(gòu)成詳細(xì)說(shuō)明的一部分。圖中類(lèi)似的標(biāo)號(hào)典型地標(biāo)識(shí)類(lèi)似的成分，除非在上下文中另行說(shuō)明。詳細(xì)的說(shuō)明、附圖、以及權(quán)利要求中說(shuō)明的例示的實(shí)施方式并不意圖進(jìn)行限定。也能夠利用其他實(shí)施方式，另外在不脫離本說(shuō)明書(shū)提出的主題的精神和范圍的情況下，可以增加其他變形。容易理解的是，在本說(shuō)明書(shū)中進(jìn)行一般性地說(shuō)明并在圖中例示的本公開(kāi)的方式可以通過(guò)各種不同結(jié)構(gòu)進(jìn)行配置、置換、組合、以及設(shè)計(jì)，它們均被明確地考察并構(gòu)成本公開(kāi)的一部分。本公開(kāi)尤其涉及關(guān)于對(duì)說(shuō)話人驗(yàn)證的口令建模的設(shè)備、方法、以及系統(tǒng)。圖2表示基于本公開(kāi)的一實(shí)施方式的用于對(duì)說(shuō)話人驗(yàn)證的口令建模的設(shè)備的圖。如圖2所示，基于本公開(kāi)的一實(shí)施方式的用于對(duì)說(shuō)話人驗(yàn)證的口令建模的設(shè)備200包括前端201、模板生成單元203、自適應(yīng)單元207、口令數(shù)據(jù)庫(kù)205、以及說(shuō)話人模型數(shù)據(jù)庫(kù)213。在上述結(jié)構(gòu)中，模板生成單元203分別連接于前端201、自適應(yīng)單元207、口令數(shù)據(jù)庫(kù)205、以及說(shuō)話人模型數(shù)據(jù)庫(kù)213。根據(jù)本公開(kāi)的一實(shí)施方式，設(shè)備200可以?xún)H包括模板生成單元203，該模板生成單元203作為外部單元或設(shè)備連接在前端201、自適應(yīng)單元207、口令數(shù)據(jù)庫(kù)205、以及說(shuō)話人模型數(shù)據(jù)庫(kù)213等其他單元上?；谝粚?shí)施方式的用于對(duì)說(shuō)話人驗(yàn)證的口令建模的設(shè)備200包括:前端201，從目標(biāo)說(shuō)話人獲得登記語(yǔ)音；以及模板生成單元203，基于登記語(yǔ)音利用普通說(shuō)話人模型生成口令模板。以下說(shuō)明基于本公開(kāi)的一實(shí)施方式的設(shè)備200的上述各個(gè)單元的操作。具體而言，設(shè)備200需要進(jìn)行本質(zhì)上是具有M (例如M = 1024)個(gè)高斯分量的混合模型的、普通說(shuō)話人模型(HMM(隱馬爾可夫模型)或GMM-UBM(通用背景模型))的學(xué)習(xí)。這種高斯分量從來(lái)自多個(gè)說(shuō)話人的語(yǔ)音數(shù)據(jù)的集合中提取出來(lái)，上述多個(gè)說(shuō)話人代表說(shuō)話人驗(yàn)證時(shí)預(yù)測(cè)的說(shuō)話人的總體。預(yù)想普通說(shuō)話人模型包含例如以下所示的、由說(shuō)話人之間以及說(shuō)話人內(nèi)差異引起的豐富的變異。
權(quán)利要求
1.用于驗(yàn)證說(shuō)話人的口令建模設(shè)備，包括: 前端，從目標(biāo)說(shuō)話人獲得登記語(yǔ)音；和模板生成單元，基于所述登記語(yǔ)音利用普通說(shuō)話人模型生成口令模板。
2.如權(quán)利要求1所述的口令建模設(shè)備，所述前端將所述登記語(yǔ)音分割為多個(gè)幀，從所述多個(gè)幀的每一個(gè)中提取表示聲學(xué)特性和/或內(nèi)容的特征參數(shù)。
3.如權(quán)利要求1所述的口令建模設(shè)備，所述普通說(shuō)話人模型包括多個(gè)高斯分量，所述高斯分量表示從所述驗(yàn)證說(shuō)話人時(shí)預(yù)測(cè)的多個(gè)說(shuō)話人收集到的語(yǔ)音數(shù)據(jù)。
4.如權(quán)利要求3所述的口令建模設(shè)備，所述模板生成單元使用各幀的所述特征參數(shù)計(jì)算所述高斯分量的各似然性得分，對(duì)于各幀選擇具有最高的似然性得分的N個(gè)高斯分量，其中N為自然數(shù)。
5.如權(quán)利要求4所述的口令建模設(shè)備，所述前端或所述模板生成單元將所述登記語(yǔ)音分割為大小相等或者大小不等的多個(gè)段，各段包含多個(gè)幀。
6.如權(quán)利要求5所述的口令建模設(shè)備，所述模板生成單元對(duì)各段內(nèi)的所有幀的所述高斯分量進(jìn)行排序，并對(duì)經(jīng)過(guò)了所述排序的高斯分量進(jìn)行合并，獲得隱馬爾可夫模型網(wǎng)作為所述口令模板。
7.如權(quán)利要求6所述的口令建模設(shè)備，所述模板生成單元對(duì)具有不同分量索引的各段內(nèi)的所有幀的所述高斯分量進(jìn)行排序，對(duì)所述排序的高斯分量的后驗(yàn)概率進(jìn)行累計(jì)，并且合并在所述后驗(yàn)概率的距離測(cè)量中最近的高斯分量。
8.如權(quán)利要求1或6所述的口令建模設(shè)備，所述口令模板通過(guò)MAP和MLLR等自適應(yīng)方法按照所述登記語(yǔ)音進(jìn)行自適應(yīng)。
9.如權(quán)利要求1所述的口令建模設(shè)備，所述普通說(shuō)話人模型通過(guò)MAP和MLLR等自適應(yīng)方法按照所述登記語(yǔ)音進(jìn)行自適應(yīng)，所述模板生成單元利用所述自適應(yīng)普通說(shuō)話人模型生成所述口令模板。
10.用于驗(yàn)證說(shuō)話人的口令建模方法，包括: 從目標(biāo)說(shuō)話人獲得登記語(yǔ)音的步驟；和基于所述登記語(yǔ)音利用普通說(shuō)話人模型生成口令模板的步驟。
11.如權(quán)利要求10所述的口令建模方法，還包括: 將所述登記語(yǔ)音分割為多個(gè)幀的步驟；和從所述多個(gè)幀的每一個(gè)中提取表示聲學(xué)特性和/或內(nèi)容的特征參數(shù)的步驟。
12.如權(quán)利要求10或11所述的口令建模方法，所述普通說(shuō)話人模型包括多個(gè)高斯分量，所述高斯分量表示從所述驗(yàn)證說(shuō)話人時(shí)預(yù)測(cè)的多個(gè)說(shuō)話人收集到的語(yǔ)音數(shù)據(jù)。
13.如權(quán)利要求12所述的口令建模方法，還包括: 使用各幀的所述特征參數(shù)計(jì)算所述高斯分量的各似然性得分的步驟；和對(duì)于各幀選擇具有最高的似然性得分的N個(gè)高斯分量的步驟，N為自然數(shù)。
14.如權(quán)利要求13所述的口令建模方法，還包括: 將所述登記語(yǔ)音分割為大小相等或者大小不等的多個(gè)段的步驟，各段包含多個(gè)幀。
15.如權(quán)利要求14所述的口令建模方法，還包括: 對(duì)各段內(nèi)的所有幀的所述高斯分量進(jìn)行排序的步驟；和合并經(jīng)過(guò)了所述排序的高斯分量，作為所述口令模板獲得隱馬爾可夫模型網(wǎng)的步驟。
16.如權(quán)利要求15所述的口令建模方法,還包括: 對(duì)具有不同分量索引的各段內(nèi)的所有幀的所述高斯分量進(jìn)行排序的步驟；對(duì)經(jīng)過(guò)了所述排序的高斯分量的后驗(yàn)概率進(jìn)行累計(jì)的步驟；和合并所述后驗(yàn)概率的距離測(cè)量中最近的高斯分量的步驟。
17.如權(quán)利要求10或15所述的口令建模方法，還包括: 通過(guò)MAP和MLLR等自適應(yīng)方法按照所述登記語(yǔ)音對(duì)所述口令模板進(jìn)行自適應(yīng)的步驟。
18.如權(quán)利要求10所述的口令建模方法，還包括: 通過(guò)MAP和MLLR等自適應(yīng)方法按照所述登記語(yǔ)音對(duì)所述普通說(shuō)話人模型進(jìn)行自適應(yīng)的步驟；和利用所述自適應(yīng)普通說(shuō)話人模型生成所述口令模板的步驟。
19.說(shuō)話人驗(yàn)證系統(tǒng),包括: 前端，從目標(biāo)說(shuō)話人獲得登記語(yǔ)音和/或測(cè)試語(yǔ)音；模板生成單元，基于所述登記語(yǔ)音利用普通說(shuō)話人模型生成口令模板；以及動(dòng)態(tài)驗(yàn)證單元，將來(lái)自所述目標(biāo)說(shuō)話人的所述測(cè)試語(yǔ)音與從所述口令模板中選擇的數(shù)據(jù)進(jìn)行比較，其中，在比較結(jié)果為閾值以上的情況下，所述目標(biāo)說(shuō)話人被作為申報(bào)說(shuō)話人受理。
20.如權(quán)利要求19所述的說(shuō)話人驗(yàn)證系統(tǒng)，所述前端還從所述目標(biāo)說(shuō)話人獲得說(shuō)話人識(shí)別信息，所述動(dòng)態(tài)驗(yàn)證單元基于所述說(shuō)話人識(shí)別信息，從所述口令模板中選擇用于比較的所述數(shù)據(jù)。
21.如權(quán)利要求20所述的說(shuō)話人驗(yàn)證系統(tǒng)，所述前端將所述登記語(yǔ)音分割為多個(gè)幀，從所述多個(gè)幀的每一個(gè)中提取表示聲學(xué)特性和/或內(nèi)容的特征參數(shù)。
22.如權(quán)利要求21所述的說(shuō)話人驗(yàn)證系統(tǒng)，所述普通說(shuō)話人模型包括多個(gè)高斯分量，所述高斯分量表示從所述驗(yàn)證說(shuō)話人時(shí)預(yù)測(cè)的多個(gè)說(shuō)話人收集到的語(yǔ)音數(shù)據(jù)。
23.如權(quán)利要求22所述的說(shuō)話人驗(yàn)證系統(tǒng)，所述模板生成單元使用各幀的所述特征參數(shù)計(jì)算所述高斯分量的各似然性得分，對(duì)于各幀選擇具有最高的似然性得分的N個(gè)高斯分量，N為自然數(shù)。
24.如權(quán)利要求23所述的說(shuō)話人驗(yàn)證系統(tǒng)，所述前端或所述模板生成單元將所述登記語(yǔ)音分割為大小相等或者大小不等的多個(gè)段，各段包含多個(gè)幀。
25.如權(quán)利要求24所述的說(shuō)話人驗(yàn)證系統(tǒng)，所述模板生成單元對(duì)各段內(nèi)的所有幀的所述高斯分量進(jìn)行排序，并對(duì)經(jīng)過(guò)了所述排序的高斯分量進(jìn)行合并，獲得隱馬爾可夫模型網(wǎng)作為所述口令模板。
26.如權(quán)利要求25所述的說(shuō)話人驗(yàn)證系統(tǒng)，所述模板生成單元對(duì)具有不同分量索引的各段內(nèi)的所有幀的所述高斯分量進(jìn)行排序，對(duì)經(jīng)過(guò)了所述排序的高斯分量的后驗(yàn)概率進(jìn)行累計(jì)，并且合并在所述后驗(yàn)概率的距離測(cè)量中最近的高斯分量。
27.如權(quán)利要求 19或25所述的說(shuō)話人驗(yàn)證系統(tǒng)，所述口令模板通過(guò)MA和MLLR等自適應(yīng)方法按照所述登記語(yǔ)音進(jìn)行自適應(yīng)。
28.如權(quán)利要求19所述的說(shuō)話人驗(yàn)證系統(tǒng)，所述普通說(shuō)話人模型通過(guò)MAP和MLLR等自適應(yīng)方法按照所述登記語(yǔ)音進(jìn)行自適應(yīng)，所述模板生成單元利用所述自適應(yīng)普通說(shuō)話人模型來(lái)生成所述口令模板。
全文摘要
提供用于驗(yàn)證說(shuō)話人的口令建模的設(shè)備和方法、以及說(shuō)話人驗(yàn)證系統(tǒng)。設(shè)備包括前端，從目標(biāo)說(shuō)話人獲得登記語(yǔ)音；以及模板生成單元，基于登記語(yǔ)音利用普通說(shuō)話人模型生成口令模板。在設(shè)備、方法、以及系統(tǒng)中，通過(guò)考慮普通說(shuō)話人模型中包含的豐富的變異，即使在登記數(shù)據(jù)不充分的情況下，或者來(lái)自目標(biāo)說(shuō)話人的可利用的口令僅有一個(gè)時(shí)，也能可靠地進(jìn)行魯棒的口令建模。
文檔編號(hào)G10L17/00GK103221996SQ201080070323
公開(kāi)日2013年7月24日申請(qǐng)日期2010年12月10日優(yōu)先權(quán)日2010年12月10日
發(fā)明者馬龍, 沈海峰, 張丙奇申請(qǐng)人:松下電器產(chǎn)業(yè)株式會(huì)社

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：馬龍;沈海峰;張丙奇
技術(shù)所有人：松下電器產(chǎn)業(yè)株式會(huì)社
我是此專(zhuān)利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

動(dòng)態(tài)口令管理系統(tǒng)相關(guān)技術(shù)

動(dòng)態(tài)口令身份認(rèn)證系統(tǒng)相關(guān)技術(shù)

動(dòng)態(tài)口令認(rèn)證系統(tǒng)相關(guān)技術(shù)

動(dòng)態(tài)口令系統(tǒng)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于驗(yàn)證說(shuō)話人的口令建模的設(shè)備和方法、以及說(shuō)話人驗(yàn)證系統(tǒng)的制作方法