亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于驗(yàn)證說(shuō)話人的口令建模的設(shè)備和方法、以及說(shuō)話人驗(yàn)證系統(tǒng)的制作方法

文檔序號(hào):2824957閱讀:308來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):用于驗(yàn)證說(shuō)話人的口令建模的設(shè)備和方法、以及說(shuō)話人驗(yàn)證系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本公開(kāi)涉及語(yǔ)音(音頻)處理技術(shù),具體而言,涉及說(shuō)話人識(shí)別(speakerrecognition)以及說(shuō)話人驗(yàn)證(speaker verification)的技術(shù)。
背景技術(shù)
說(shuō)話人識(shí)別技術(shù)在人機(jī)交互(Human-Machine Interactive)中是有用的。能夠使許多應(yīng)用和產(chǎn)品與說(shuō)話人識(shí)別技術(shù)相對(duì)應(yīng),例如(I)對(duì)某種設(shè)備(家電產(chǎn)品、汽車(chē)、PC終端等)的現(xiàn)場(chǎng)訪問(wèn)控制,或者(2)通過(guò)電話線路、移動(dòng)電話線路、或者計(jì)算機(jī)的數(shù)據(jù)線路對(duì)數(shù)據(jù)庫(kù)、網(wǎng)站、甚至是銀行交易的安全的遠(yuǎn)程訪問(wèn)等,或者能夠具備說(shuō)話人識(shí)別技術(shù)以實(shí)現(xiàn)功能強(qiáng)化。在現(xiàn)實(shí)的系統(tǒng)中,在使用說(shuō)話人識(shí)別系統(tǒng)之前,需要先進(jìn)行對(duì)目標(biāo)說(shuō)話人的登記或注冊(cè)(registration)過(guò)程。在說(shuō)話人登記過(guò)程中,從目標(biāo)說(shuō)話人收集樣本語(yǔ)音,使用該樣本語(yǔ)音生成特定說(shuō)話人的統(tǒng)計(jì)模板。所生成的統(tǒng)計(jì)模板的質(zhì)量對(duì)說(shuō)話人識(shí)別系統(tǒng)的性能具有較大的影響。圖1表示用于對(duì)說(shuō)話人驗(yàn)證系統(tǒng)的口令建模的以往設(shè)備的圖。用戶(hù)在登記過(guò)程中希望登記自己的口令時(shí),通過(guò)說(shuō)話人驗(yàn)證系統(tǒng)的前端101請(qǐng)求來(lái)自目標(biāo)用戶(hù)的口令的發(fā)聲。用戶(hù)的發(fā)聲每次不一定完全相同,因而為了在建模單元103中得到魯棒的統(tǒng)計(jì)模板模型,需要反復(fù)3至5次口令。所生成的模板模型為了隨后進(jìn)行確認(rèn),存儲(chǔ)在數(shù)據(jù)庫(kù)105內(nèi)。

發(fā)明內(nèi)容
發(fā)明要解決的問(wèn)題以往方法的兩個(gè)主要缺點(diǎn)在于:(I)在可利用的登記數(shù)據(jù)少、或者存在較大的說(shuō)話人內(nèi)變動(dòng)的情況下,不能保證登記的效果;以及(2)用戶(hù)喜歡簡(jiǎn)單的登記過(guò)程,因而在需要多次重復(fù)時(shí),用戶(hù)體驗(yàn)并不好。解決問(wèn)題的方案在本公開(kāi)的一個(gè)方式中,實(shí)現(xiàn)用于驗(yàn)證說(shuō)話人的口令建模設(shè)備,該設(shè)備包括:前端,從目標(biāo)說(shuō)話人獲得登記語(yǔ)音;以及模板生成單元,基于登記語(yǔ)音利用普通說(shuō)話人模型生成口令模板。在本公開(kāi)的另一形式中,提供用于驗(yàn)證說(shuō)話人的口令建模方法,該方法包括:從目標(biāo)說(shuō)話人獲得登記語(yǔ)音的步驟;以及基于登記語(yǔ)音利用普通說(shuō)話人模型生成口令模板的步驟。在本公開(kāi)的又一形式中,實(shí)現(xiàn)說(shuō)話人驗(yàn)證系統(tǒng),該系統(tǒng)包括:前端,從目標(biāo)說(shuō)話人獲得登記語(yǔ)音和/或測(cè)試語(yǔ)音;模板生成單元,基于登記語(yǔ)音利用普通說(shuō)話人模型生成口令模板;以及動(dòng)態(tài)驗(yàn)證單元,將來(lái)自目標(biāo)說(shuō)話人的測(cè)試語(yǔ)音與從口令模板中選擇出的數(shù)據(jù)進(jìn)行比較,其中,在比較結(jié)果為閾值以上的情況下,目標(biāo)說(shuō)話人被作為申報(bào)說(shuō)話人受理。
在本公開(kāi)的設(shè)備、方法、以及系統(tǒng)中,通過(guò)考慮普通說(shuō)話人模型中包含的豐富的變異,即使在登記數(shù)據(jù)不充分的情況下,或者來(lái)自目標(biāo)說(shuō)話人的可利用的口令僅有一個(gè)時(shí),也能夠可靠地進(jìn)行魯棒的口令建模。上述為概要內(nèi)容,因此當(dāng)然進(jìn)行了簡(jiǎn)化、一般化,并且省略了詳細(xì)情況,因此本領(lǐng)域技術(shù)人員可以理解,概要內(nèi)容僅為例示,并不意圖以任何形式進(jìn)行限制。本說(shuō)明書(shū)中記載的設(shè)備和/或過(guò)程和/或其他主題的其他方式、特征、以及優(yōu)點(diǎn)通過(guò)本說(shuō)明書(shū)中描述的示教而變得明確。本“發(fā)明內(nèi)容”用于導(dǎo)入以下的“具體實(shí)施方式
”中進(jìn)一步說(shuō)明的一些概念的簡(jiǎn)化形式。本“發(fā)明內(nèi)容”并不意圖明示權(quán)利要求的主題的關(guān)鍵特征或本質(zhì)特征,也并不意圖用于輔助決定權(quán)利要求的主題的范圍。通過(guò)參考附圖,利用以下的說(shuō)明以及附屬的權(quán)利要求可以使本公開(kāi)的上述特征以及其他特征完全明確。這些附圖僅表示基于本公開(kāi)的多個(gè)實(shí)施方式,因此應(yīng)當(dāng)理解,不應(yīng)將其認(rèn)為是限制本公開(kāi)的范圍的內(nèi)容,使用附圖更具體地、詳細(xì)地說(shuō)明本公開(kāi)。


圖1是用于對(duì)說(shuō)話人驗(yàn)證的口令建模的以往設(shè)備的圖。圖2是基于本公開(kāi)的一實(shí)施方式的用于對(duì)說(shuō)話人驗(yàn)證的口令建模的設(shè)備的圖。圖3是對(duì)于登記語(yǔ)音的各幀的、從普通說(shuō)話人模型中選擇出的從高到低的N個(gè)高斯分量(分布)的略圖。圖4是表示將登記語(yǔ)音分割為多個(gè)段(segment)的圖。圖5是合并為一個(gè)或多個(gè)GMM (高斯混合模型)的、登記語(yǔ)音的一個(gè)段內(nèi)的高斯分量的圖。圖6是包括合并后的GMM的HMM網(wǎng)的圖。圖7是對(duì)說(shuō)話人驗(yàn)證的口令建模的方法的流程圖。圖8是基于本公開(kāi)的一實(shí)施方式的說(shuō)話人驗(yàn)證系統(tǒng)的圖。圖9是基于本公開(kāi)的另一實(shí)施方式的用于對(duì)說(shuō)話人驗(yàn)證的口令建模的設(shè)備的圖。
具體實(shí)施例方式在下面的詳細(xì)說(shuō)明中參考附圖,這些附圖構(gòu)成詳細(xì)說(shuō)明的一部分。圖中類(lèi)似的標(biāo)號(hào)典型地標(biāo)識(shí)類(lèi)似的成分,除非在上下文中另行說(shuō)明。詳細(xì)的說(shuō)明、附圖、以及權(quán)利要求中說(shuō)明的例示的實(shí)施方式并不意圖進(jìn)行限定。也能夠利用其他實(shí)施方式,另外在不脫離本說(shuō)明書(shū)提出的主題的精神和范圍的情況下,可以增加其他變形。容易理解的是,在本說(shuō)明書(shū)中進(jìn)行一般性地說(shuō)明并在圖中例示的本公開(kāi)的方式可以通過(guò)各種不同結(jié)構(gòu)進(jìn)行配置、置換、組合、以及設(shè)計(jì),它們均被明確地考察并構(gòu)成本公開(kāi)的一部分。本公開(kāi)尤其涉及關(guān)于對(duì)說(shuō)話人驗(yàn)證的口令建模的設(shè)備、方法、以及系統(tǒng)。圖2表示基于本公開(kāi)的一實(shí)施方式的用于對(duì)說(shuō)話人驗(yàn)證的口令建模的設(shè)備的圖。如圖2所示,基于本公開(kāi)的一實(shí)施方式的用于對(duì)說(shuō)話人驗(yàn)證的口令建模的設(shè)備200包括前端201、模板生成單元203、自適應(yīng)單元207、口令數(shù)據(jù)庫(kù)205、以及說(shuō)話人模型數(shù)據(jù)庫(kù)213。在上述結(jié)構(gòu)中,模板生成單元203分別連接于前端201、自適應(yīng)單元207、口令數(shù)據(jù)庫(kù)205、以及說(shuō)話人模型數(shù)據(jù)庫(kù)213。根據(jù)本公開(kāi)的一實(shí)施方式,設(shè)備200可以?xún)H包括模板生成單元203,該模板生成單元203作為外部單元或設(shè)備連接在前端201、自適應(yīng)單元207、口令數(shù)據(jù)庫(kù)205、以及說(shuō)話人模型數(shù)據(jù)庫(kù)213等其他單元上?;谝粚?shí)施方式的用于對(duì)說(shuō)話人驗(yàn)證的口令建模的設(shè)備200包括:前端201,從目標(biāo)說(shuō)話人獲得登記語(yǔ)音;以及模板生成單元203,基于登記語(yǔ)音利用普通說(shuō)話人模型生成口令模板。以下說(shuō)明基于本公開(kāi)的一實(shí)施方式的設(shè)備200的上述各個(gè)單元的操作。具體而言,設(shè)備200需要進(jìn)行本質(zhì)上是具有M (例如M = 1024)個(gè)高斯分量的混合模型的、普通說(shuō)話人模型(HMM(隱馬爾可夫模型)或GMM-UBM(通用背景模型))的學(xué)習(xí)。這種高斯分量從來(lái)自多個(gè)說(shuō)話人的語(yǔ)音數(shù)據(jù)的集合中提取出來(lái),上述多個(gè)說(shuō)話人代表說(shuō)話人驗(yàn)證時(shí)預(yù)測(cè)的說(shuō)話人的總體。預(yù)想普通說(shuō)話人模型包含例如以下所示的、由說(shuō)話人之間以及說(shuō)話人內(nèi)差異引起的豐富的變異。
權(quán)利要求
1.用于驗(yàn)證說(shuō)話人的口令建模設(shè)備,包括: 前端,從目標(biāo)說(shuō)話人獲得登記語(yǔ)音;和 模板生成單元,基于所述登記語(yǔ)音利用普通說(shuō)話人模型生成口令模板。
2.如權(quán)利要求1所述的口令建模設(shè)備, 所述前端將所述登記語(yǔ)音分割為多個(gè)幀,從所述多個(gè)幀的每一個(gè)中提取表示聲學(xué)特性和/或內(nèi)容的特征參數(shù)。
3.如權(quán)利要求1所述的口令建模設(shè)備, 所述普通說(shuō)話人模型包 括多個(gè)高斯分量,所述高斯分量表示從所述驗(yàn)證說(shuō)話人時(shí)預(yù)測(cè)的多個(gè)說(shuō)話人收集到的語(yǔ)音數(shù)據(jù)。
4.如權(quán)利要求3所述的口令建模設(shè)備, 所述模板生成單元使用各幀的所述特征參數(shù)計(jì)算所述高斯分量的各似然性得分,對(duì)于各幀選擇具有最高的似然性得分的N個(gè)高斯分量,其中N為自然數(shù)。
5.如權(quán)利要求4所述的口令建模設(shè)備, 所述前端或所述模板生成單元將所述登記語(yǔ)音分割為大小相等或者大小不等的多個(gè)段,各段包含多個(gè)幀。
6.如權(quán)利要求5所述的口令建模設(shè)備, 所述模板生成單元對(duì)各段內(nèi)的所有幀的所述高斯分量進(jìn)行排序,并對(duì)經(jīng)過(guò)了所述排序的高斯分量進(jìn)行合并,獲得隱馬爾可夫模型網(wǎng)作為所述口令模板。
7.如權(quán)利要求6所述的口令建模設(shè)備, 所述模板生成單元對(duì)具有不同分量索引的各段內(nèi)的所有幀的所述高斯分量進(jìn)行排序,對(duì)所述排序的高斯分量的后驗(yàn)概率進(jìn)行累計(jì),并且合并在所述后驗(yàn)概率的距離測(cè)量中最近的高斯分量。
8.如權(quán)利要求1或6所述的口令建模設(shè)備, 所述口令模板通過(guò)MAP和MLLR等自適應(yīng)方法按照所述登記語(yǔ)音進(jìn)行自適應(yīng)。
9.如權(quán)利要求1所述的口令建模設(shè)備, 所述普通說(shuō)話人模型通過(guò)MAP和MLLR等自適應(yīng)方法按照所述登記語(yǔ)音進(jìn)行自適應(yīng),所述模板生成單元利用所述自適應(yīng)普通說(shuō)話人模型生成所述口令模板。
10.用于驗(yàn)證說(shuō)話人的口令建模方法,包括: 從目標(biāo)說(shuō)話人獲得登記語(yǔ)音的步驟;和 基于所述登記語(yǔ)音利用普通說(shuō)話人模型生成口令模板的步驟。
11.如權(quán)利要求10所述的口令建模方法,還包括: 將所述登記語(yǔ)音分割為多個(gè)幀的步驟;和 從所述多個(gè)幀的每一個(gè)中提取表示聲學(xué)特性和/或內(nèi)容的特征參數(shù)的步驟。
12.如權(quán)利要求10或11所述的口令建模方法, 所述普通說(shuō)話人模型包括多個(gè)高斯分量,所述高斯分量表示從所述驗(yàn)證說(shuō)話人時(shí)預(yù)測(cè)的多個(gè)說(shuō)話人收集到的語(yǔ)音數(shù)據(jù)。
13.如權(quán)利要求12所述的口令建模方法,還包括: 使用各幀的所述特征參數(shù)計(jì)算所述高斯分量的各似然性得分的步驟;和 對(duì)于各幀選擇具有最高的似然性得分的N個(gè)高斯分量的步驟,N為自然數(shù)。
14.如權(quán)利要求13所述的口令建模方法,還包括: 將所述登記語(yǔ)音分割為大小相等或者大小不等的多個(gè)段的步驟,各段包含多個(gè)幀。
15.如權(quán)利要求14所述的口令建模方法,還包括: 對(duì)各段內(nèi)的所有幀的所述高斯分量進(jìn)行排序的步驟;和 合并經(jīng)過(guò)了所述排序的高斯分量,作為所述口令模板獲得隱馬爾可夫模型網(wǎng)的步驟。
16.如權(quán)利要求15所述的口令建模方法,還包括: 對(duì)具有不同分量索引的各段內(nèi)的所有幀的所述高斯分量進(jìn)行排序的步驟; 對(duì)經(jīng)過(guò)了所述排序的高斯分量的后驗(yàn)概率進(jìn)行累計(jì)的步驟;和 合并所述后驗(yàn)概率的距離測(cè)量中最近的高斯分量的步驟。
17.如權(quán)利要求10或15所述的口令建模方法,還包括: 通過(guò)MAP和MLLR等自適應(yīng)方法按照所述登記語(yǔ)音對(duì)所述口令模板進(jìn)行自適應(yīng)的步驟。
18.如權(quán)利要求10所述的口令建模方法,還包括: 通過(guò)MAP和MLLR等自適應(yīng)方法按照所述登記語(yǔ)音對(duì)所述普通說(shuō)話人模型進(jìn)行自適應(yīng)的步驟;和 利用所述自適應(yīng)普通說(shuō)話人模型生成所述口令模板的步驟。
19.說(shuō)話人驗(yàn)證系統(tǒng),包括: 前端,從目標(biāo)說(shuō)話人獲得登記語(yǔ)音和/或測(cè)試語(yǔ)音; 模板生成單元,基于所述登記語(yǔ)音利用普通說(shuō)話人模型生成口令模板;以及動(dòng)態(tài)驗(yàn)證單元,將來(lái)自所述目標(biāo)說(shuō)話人的所述測(cè)試語(yǔ)音與從所述口令模板中選擇的數(shù)據(jù)進(jìn)行比較,其中, 在比較結(jié)果為閾值以上的情況下,所述目標(biāo)說(shuō)話人被作為申報(bào)說(shuō)話人受理。
20.如權(quán)利要求19所述的說(shuō)話人驗(yàn)證系統(tǒng), 所述前端還從所述目標(biāo)說(shuō)話人獲得說(shuō)話人識(shí)別信息,所述動(dòng)態(tài)驗(yàn)證單元基于所述說(shuō)話人識(shí)別信息,從所述口令模板中選擇用于比較的所述數(shù)據(jù)。
21.如權(quán)利要求20所述的說(shuō)話人驗(yàn)證系統(tǒng), 所述前端將所述登記語(yǔ)音分割為多個(gè)幀,從所述多個(gè)幀的每一個(gè)中提取表示聲學(xué)特性和/或內(nèi)容的特征參數(shù)。
22.如權(quán)利要求21所述的說(shuō)話人驗(yàn)證系統(tǒng), 所述普通說(shuō)話人模型包括多個(gè)高斯分量,所述高斯分量表示從所述驗(yàn)證說(shuō)話人時(shí)預(yù)測(cè)的多個(gè)說(shuō)話人收集到的語(yǔ)音數(shù)據(jù)。
23.如權(quán)利要求22所述的說(shuō)話人驗(yàn)證系統(tǒng), 所述模板生成單元使用各幀的所述特征參數(shù)計(jì)算所述高斯分量的各似然性得分,對(duì)于各幀選擇具有最高的似然性得分的N個(gè)高斯分量,N為自然數(shù)。
24.如權(quán)利要求23所述的說(shuō)話人驗(yàn)證系統(tǒng), 所述前端或所述模板生成單元將所述登記語(yǔ)音分割為大小相等或者大小不等的多個(gè)段,各段包含多個(gè)幀。
25.如權(quán)利要求24所述的說(shuō)話人驗(yàn)證系統(tǒng), 所述模板生成單元對(duì)各段內(nèi)的所有幀的所述高斯分量進(jìn)行排序,并對(duì)經(jīng)過(guò)了所述排序的高斯分量進(jìn)行合并,獲得隱馬爾可夫模型網(wǎng)作為所述口令模板。
26.如權(quán)利要求25所述的說(shuō)話人驗(yàn)證系統(tǒng), 所述模板生成單元對(duì)具有不同分量索引的各段內(nèi)的所有幀的所述高斯分量進(jìn)行排序,對(duì)經(jīng)過(guò)了所述排序的高斯分量的后驗(yàn)概率進(jìn)行累計(jì),并且合并在所述后驗(yàn)概率的距離測(cè)量中最近的高斯分量。
27.如權(quán)利要求 19或25所述的說(shuō)話人驗(yàn)證系統(tǒng), 所述口令模板通過(guò)MA和MLLR等自適應(yīng)方法按照所述登記語(yǔ)音進(jìn)行自適應(yīng)。
28.如權(quán)利要求19所述的說(shuō)話人驗(yàn)證系統(tǒng), 所述普通說(shuō)話人模型通過(guò)MAP和MLLR等自適應(yīng)方法按照所述登記語(yǔ)音進(jìn)行自適應(yīng),所述模板生成單元利用所述自適應(yīng)普通說(shuō)話人模型來(lái)生成所述口令模板。
全文摘要
提供用于驗(yàn)證說(shuō)話人的口令建模的設(shè)備和方法、以及說(shuō)話人驗(yàn)證系統(tǒng)。設(shè)備包括前端,從目標(biāo)說(shuō)話人獲得登記語(yǔ)音;以及模板生成單元,基于登記語(yǔ)音利用普通說(shuō)話人模型生成口令模板。在設(shè)備、方法、以及系統(tǒng)中,通過(guò)考慮普通說(shuō)話人模型中包含的豐富的變異,即使在登記數(shù)據(jù)不充分的情況下,或者來(lái)自目標(biāo)說(shuō)話人的可利用的口令僅有一個(gè)時(shí),也能可靠地進(jìn)行魯棒的口令建模。
文檔編號(hào)G10L17/00GK103221996SQ201080070323
公開(kāi)日2013年7月24日 申請(qǐng)日期2010年12月10日 優(yōu)先權(quán)日2010年12月10日
發(fā)明者馬龍, 沈海峰, 張丙奇 申請(qǐng)人:松下電器產(chǎn)業(yè)株式會(huì)社
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1