專利名稱:用于講話者驗(yàn)證的方法與系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
一般地,本發(fā)明涉及講話者驗(yàn)證方法與系統(tǒng)。更具體地,盡管并非排它性地,本發(fā)明涉及使用從嘈雜的無(wú)明顯可辨話音(unvoiced)的語(yǔ)音分量導(dǎo)出的目標(biāo)模型進(jìn)行的語(yǔ)音驗(yàn)證。
背景技術(shù):
生物鑒定常常是保護(hù)對(duì)設(shè)備或設(shè)施的訪問(wèn)的理想方法。與傳統(tǒng)的涉及物理鑰匙或者鍵入的密碼的安全鎖不同,生物鎖僅可由特定的、授權(quán)的個(gè)人操作。這樣的鎖通過(guò)測(cè)量獨(dú)特的生物特性,例如指紋、眼模式、或話音簽名,來(lái)評(píng)定個(gè)人身份。當(dāng)某人試圖開(kāi)啟這樣的鎖時(shí),測(cè)量該人士的一或多個(gè)生物特性,并與授權(quán)人士數(shù)據(jù)庫(kù)中的信息比較。如果找到匹配,則鎖開(kāi)啟,否則鎖保持關(guān)閉。因?yàn)闆](méi)有易于丟失、失竊或忘記的鑰匙或密碼,并且因?yàn)樯锖灻梢允歉叨瓤煽亢酮?dú)特的,生物鎖很可能越來(lái)越普及。
涉及講話者驗(yàn)證、或話音認(rèn)證的生物鎖,關(guān)注話音簽名的生物匹配。講話者驗(yàn)證是保護(hù)訪問(wèn)的特別方便的技術(shù),這是因?yàn)橛脩艨梢砸浴懊馓?hands free)”的方式容易地進(jìn)行之。這使得對(duì)于經(jīng)常操作于“免提”模式的設(shè)備,例如移動(dòng)電話與個(gè)人數(shù)字助理(PDA),講話者驗(yàn)證成為理想的安全技術(shù)。
因此,存在無(wú)數(shù)種試圖分類和匹配人類話音的特性,以允許話音簽名作為生物鑰匙得到可靠使用的算法。算法包括高斯混合模型通用背景模型(GMM-UBM)方法。在GMM-UBM講話者鑒定中,以GMM建模授權(quán)的講話者。使用大型語(yǔ)音語(yǔ)料庫(kù)(large speech corpus)首先創(chuàng)建高階講話者無(wú)關(guān)的UBM。其后,使用貝葉斯(Bayesian)或最大后驗(yàn)概率(MAP)適配方法,從UBM導(dǎo)出單個(gè)講話者的模型。其后,將模型與輸入話音特性向量比較,以確定特定輸入話音是否匹配GMM-UBM模型之一。
如大多數(shù)檢測(cè)系統(tǒng)那樣,講話者驗(yàn)證系統(tǒng)通常被調(diào)諧,以提供想要的接收器操作特性(ROC)。檢測(cè)/錯(cuò)誤折衷(DET)曲線是測(cè)量ROC的通用方法,其評(píng)估兩種類型的錯(cuò)誤誤拒絕率與誤接受率。關(guān)于講話者驗(yàn)證,當(dāng)授權(quán)的人士試圖將他的或她的話音與話音模型匹配,但該人士被驗(yàn)證系統(tǒng)不適當(dāng)?shù)鼐芙^時(shí),誤拒絕發(fā)生。當(dāng)未授權(quán)的人士,例如冒名頂替者,能夠成功地將他的或她的話音與為另一人士創(chuàng)建的話音模型匹配,從而獲得對(duì)設(shè)備或設(shè)施的不適當(dāng)?shù)脑L問(wèn)時(shí),誤接受發(fā)生。
許多檢測(cè)系統(tǒng)被校準(zhǔn),使得系統(tǒng)操作于誤接受率曲線與誤拒絕率曲線相交的狀況。該狀況常常被稱為等錯(cuò)誤率(EER)點(diǎn),其提供了位于過(guò)多的誤接受與過(guò)多的誤拒絕之間的平衡。然而,背景噪聲水平的變化常擾亂講話者驗(yàn)證系統(tǒng)的校準(zhǔn),導(dǎo)致不合意的誤接受數(shù)目或不合意的誤拒絕數(shù)目。
為使本發(fā)明易于理解和投入實(shí)用,現(xiàn)在將參照示例性實(shí)施例,如參照所附繪圖所示,其中在各個(gè)分立的視圖中,相似的引用號(hào)指代相同或功能上相似的組件。繪圖連同下面的詳細(xì)描述集成到說(shuō)明書并形成說(shuō)明書的一部分,以進(jìn)一步闡釋實(shí)施例,和解釋各種原則與優(yōu)點(diǎn),其遵照本發(fā)明,其中圖1是闡釋無(wú)線電話形式的無(wú)線通信設(shè)備的示意圖;圖2是闡釋MAP適配流程的示意圖;圖3是闡釋接收器操作特性(ROC)曲線的典型集的圖形;圖4是闡釋來(lái)自兩種講話者(目標(biāo)講話者與冒名頂替者)的兩組柱狀圖分值分布;
圖5是講話者驗(yàn)證系統(tǒng)的示意圖,其遵照本發(fā)明的實(shí)施例,其提供針對(duì)背景噪聲的改善的魯棒性;和圖6是闡釋遵照本發(fā)明的實(shí)施例的講話者驗(yàn)證方法的一般流程圖。
本領(lǐng)域技術(shù)人員將意識(shí)到,圖中的組件為簡(jiǎn)單和清晰起見(jiàn)而繪制,不一定遵照比例畫出。例如,圖中某些組件的尺寸相對(duì)于其它組件可能被夸大,以幫助促進(jìn)對(duì)本發(fā)明的實(shí)施例的理解。
具體實(shí)施例方式
在詳細(xì)描述遵照本發(fā)明的實(shí)施例之前,需要觀察到的是,實(shí)施例主要存在于涉及用于講話者驗(yàn)證的方法與系統(tǒng)的方法步驟與設(shè)備組件的組合。相應(yīng)地,在適宜時(shí),圖中以傳統(tǒng)符號(hào)表示設(shè)備組件與方法步驟,僅顯示與理解本發(fā)明的實(shí)施例相關(guān)的特定細(xì)節(jié),從而避免對(duì)于本領(lǐng)域普通技術(shù)人員而言顯而易見(jiàn)的細(xì)節(jié)壓倒這里的描述,令本公開(kāi)變得晦澀。
在本文檔中,關(guān)系術(shù)語(yǔ),例如第一與第二、頂與底、等等僅用于將一實(shí)體或動(dòng)作從另一實(shí)體或動(dòng)作區(qū)分開(kāi)來(lái),而不一定要求或暗示在這樣的實(shí)體或動(dòng)作之間(存在)任何實(shí)際的這樣的關(guān)系或順序。術(shù)語(yǔ)“包括”或其任何其它變形意欲指代非排它性的包括,使得包括一組元素的過(guò)程、方法、物品、或設(shè)備不僅包括這些元素,還可包括未特別地列出的或?yàn)樵撨^(guò)程、方法、物品、或設(shè)備所固有的其它元素。在無(wú)更多限制時(shí),“包括一個(gè)”之后的元素不排除在包括該元素的過(guò)程、方法、物品、或設(shè)備中存在其它相同元素。
參照?qǐng)D1,闡釋無(wú)線電話100形式的無(wú)線通信設(shè)備的示意圖,無(wú)線電話100包括射頻通信單元102,其被連接以與處理器103通信。無(wú)線電話100還具有小鍵盤106與顯示屏105,其被連接以與處理器103通信。如對(duì)于本領(lǐng)域技術(shù)人員而言將顯而易見(jiàn)的那樣,屏105可以是觸摸屏,從而使小鍵盤106成為可選項(xiàng)。
處理器103包括編碼器/解碼器111,其具有相關(guān)聯(lián)的代碼只讀存儲(chǔ)器(ROM)112,其為編碼和解碼可由無(wú)線電話100發(fā)送或接收的話音或其它信號(hào)存儲(chǔ)數(shù)據(jù)。處理器103還包括微處理器113,其由公共數(shù)據(jù)與地址總線117連接到編碼器/解碼器111、字符只讀存儲(chǔ)器(ROM)114、隨機(jī)存取存儲(chǔ)器(RAM)104、靜態(tài)可編程存儲(chǔ)器116與SIM接口118。靜態(tài)可編程存儲(chǔ)器116與SIM(常稱為SIM卡)可操作地連接到SIM接口118,除其它功能之外,其可分別存儲(chǔ)所選擇的進(jìn)來(lái)的文本消息與電話號(hào)碼數(shù)據(jù)庫(kù)(TND)(電話簿),其包括用于電話號(hào)碼的號(hào)碼域以及用于標(biāo)識(shí)符的名稱域,名稱域中的標(biāo)識(shí)符與號(hào)碼之一相關(guān)聯(lián)。例如,電話號(hào)碼數(shù)據(jù)庫(kù)TND中的一個(gè)條目可以是91999111111(在號(hào)碼域中輸入),其名稱域中為相關(guān)聯(lián)的標(biāo)識(shí)符“StevenC!at work”。SIM卡與靜態(tài)存儲(chǔ)器116還可存儲(chǔ)密碼或訓(xùn)練語(yǔ)音信號(hào)語(yǔ)料庫(kù),以允許訪問(wèn)無(wú)線電話100上的受保護(hù)功能。
微處理器113具有端口,以連接到小鍵盤106與屏105和警報(bào)115,警報(bào)115典型地包括警報(bào)揚(yáng)聲器、振動(dòng)器馬達(dá)與相關(guān)聯(lián)的驅(qū)動(dòng)。而且,微處理器113具有端口,以連接到麥克風(fēng)135和通信揚(yáng)聲器140。字符只讀存儲(chǔ)器114存儲(chǔ)碼字,以解碼或編碼可由通信單元102接收的文本消息。在此實(shí)施例中,字符只讀存儲(chǔ)器114也存儲(chǔ)用于微處理器113的操作碼字(OC),并存儲(chǔ)用于進(jìn)行與無(wú)線電話100相關(guān)聯(lián)的功能的碼字。
射頻通信單元102為具有公共天線107的組合的接收器與發(fā)送器。通信單元102具有收發(fā)器108,其經(jīng)由射頻放大器109連接到天線107。收發(fā)器108還連接到組合調(diào)制器/解調(diào)器110,將通信單元102連接到處理器103。
為了提供對(duì)本發(fā)明的清晰而完整的描述,現(xiàn)在參照分別關(guān)于現(xiàn)有技術(shù)的MAP適配流程與EER曲線的圖2與3描述一些額外的背景材料。
參照?qǐng)D2,闡釋MAP適配流程的示意圖,其遵照現(xiàn)有技術(shù)。左邊的四個(gè)橢圓205表示講話者模型,其在通用背景模型中包括四個(gè)高斯概率密度函數(shù)(PDF)。點(diǎn)210表示來(lái)自目標(biāo)講話者的訓(xùn)練語(yǔ)音樣本分值。MAP適配流程基于鄰近的訓(xùn)練語(yǔ)音樣本分值,重新計(jì)算每一高斯PDF的分布,并有效地重新配置PDF,如圖2的右邊由修改的橢圓215所表示的那樣,修改的橢圓215定義修改的講話者模型。
參照?qǐng)D3,闡釋如本領(lǐng)域眾所周知的接收器操作特性(ROC)曲線的典型集的圖形。y軸表示錯(cuò)誤率,而x軸表示門限設(shè)置,特定檢測(cè)系統(tǒng)操作于該門限以產(chǎn)生一組給定的錯(cuò)誤率。如應(yīng)用于講話者驗(yàn)證(SV)技術(shù),例如可包括在無(wú)線電話100的安全特性中的那樣,誤接受(FA)曲線表示這樣的錯(cuò)誤率,其中未授權(quán)的人士,例如冒名頂替者,能夠成功地將他的或她的話音與為另一人士創(chuàng)建的話音模型匹配,從而獲得對(duì)電話100的不適當(dāng)?shù)脑L問(wèn)。誤拒絕(FR)曲線表示這樣的錯(cuò)誤率,其中授權(quán)的人士試圖將他的或她的話音與話音模型匹配,但對(duì)電話100的訪問(wèn)被不適當(dāng)?shù)鼐芙^。兩曲線的交點(diǎn)常被稱為等錯(cuò)誤率(EER)點(diǎn)。如本領(lǐng)域眾所周知的那樣,檢測(cè)系統(tǒng)常被校準(zhǔn),以操作在EER點(diǎn)或接近EER點(diǎn),以提供最優(yōu)性能。
關(guān)于無(wú)線電話100中包括的SV系統(tǒng),如果系統(tǒng)被校準(zhǔn)以操作在對(duì)應(yīng)于門限設(shè)置T0的EER點(diǎn),電話100可為授權(quán)的用戶提供方便水平的訪問(wèn)安全性,其中電話100可快速地、可靠地驗(yàn)證授權(quán)的用戶的話音,而拒絕未授權(quán)的用戶的訪問(wèn)。然而,如果用戶要求電話100更可靠地識(shí)別授權(quán)的用戶的話音,系統(tǒng)可被校準(zhǔn)以操作在對(duì)應(yīng)于門限設(shè)置T1的更低的FR率。另一方面,如果用戶要求電話100的更大的訪問(wèn)安全性,SV系統(tǒng)可被校準(zhǔn)以操作在對(duì)應(yīng)于門限設(shè)置T2的更低的FA率。然而,對(duì)于給定的門限設(shè)定,變化水平的背景噪聲可改變想要的FA/FR率。
參照?qǐng)D4,闡釋來(lái)自兩種類型的講話者(目標(biāo)講話者與許多冒名頂替者)的兩組柱狀圖分值分布。x軸表示SV測(cè)試分值,而y軸表示測(cè)試發(fā)音(utterance)的數(shù)目。已觀察到SV系統(tǒng)在不同的背景噪聲環(huán)境中遵照不同的FA/FR ROC曲線起作用。在SV系統(tǒng)中測(cè)量背景噪聲的一種方法使用語(yǔ)音噪聲比(SNR)。安靜的背景生成更高的SNR,而嘈雜的背景生成更低的SNR。當(dāng)SV系統(tǒng)從具有高SNR的環(huán)境移動(dòng)到具有較低SNR的環(huán)境時(shí),定義系統(tǒng)的ROC的FA/FR曲線改變。圖4中顯示的分布是基于在5dB到25dB之間變化的SNR。這樣,圖4闡釋在安靜的背景環(huán)境(SNR=25dB)中,來(lái)自冒名頂替的講話者的SV分值一般將與來(lái)自目標(biāo)講話者的SV分值不同。但在相對(duì)嘈雜的背景環(huán)境(SNR=5dB)中,來(lái)自冒名頂替的講話者的SV分值一般將與來(lái)自目標(biāo)講話者的SV分值更近似,呈現(xiàn)出更多重疊。
進(jìn)一步地,圖4闡釋與來(lái)自冒名頂替的講話者的SV分值相比,來(lái)自目標(biāo)講話者的SV分值一般對(duì)背景噪聲水平更敏感。這表現(xiàn)在與冒名頂替者的SV分值相比,目標(biāo)講話者的SV分值從25dB到5dB的橫向移動(dòng)更大。目標(biāo)講話者的SV分值對(duì)于背景噪聲具有增大的敏感度,這是因?yàn)橛糜谀繕?biāo)講話者的訓(xùn)練模型一般在相對(duì)安靜或“干凈”的環(huán)境中創(chuàng)建;而來(lái)自冒名頂替者的測(cè)試語(yǔ)音一般在相對(duì)嘈雜的“真實(shí)”環(huán)境中創(chuàng)建。
參照?qǐng)D5,SV系統(tǒng)500的示意圖,其遵照本發(fā)明的實(shí)施例,提供針對(duì)背景噪聲的改善的魯棒性。系統(tǒng)500包括無(wú)明顯可辨話音(unvoiced)與有明顯可辨話音(voiced)(U/V)語(yǔ)音分類器505,其對(duì)語(yǔ)音輸入信號(hào)進(jìn)行分類。三個(gè)語(yǔ)言模型可操作地連接到U/V分類器505通用背景語(yǔ)音模型(UBM)515、干凈目標(biāo)語(yǔ)音模型(CTM)510、與嘈雜目標(biāo)語(yǔ)音模型(NTM)520。U/V分類器505將輸入語(yǔ)音信號(hào)幀分類為三個(gè)分量靜音、干凈的有明顯可辨話音語(yǔ)音、與嘈雜的無(wú)明顯可辨話音語(yǔ)音。使用來(lái)自輸入訓(xùn)練語(yǔ)音的干凈的有明顯可辨話音語(yǔ)音從UBM 515生成CTM 510,其從而僅包括一或多個(gè)特定講話者的信息。這樣,可將CTM 510定義為使用來(lái)自相對(duì)安靜的背景環(huán)境的有明顯可辨話音語(yǔ)音分量從UBM 515生成或適配的任意目標(biāo)語(yǔ)音模型。使用來(lái)自真實(shí)環(huán)境的測(cè)試語(yǔ)音發(fā)音的靜音與嘈雜的無(wú)明顯可辨話音語(yǔ)音分量從CTM 510生成NTM 520。這樣,NTM 520包括關(guān)于特定講話者與關(guān)于背景噪聲環(huán)境兩者的信息。因此,可將NTM 520定義為使用來(lái)自相對(duì)嘈雜的背景環(huán)境的無(wú)明顯可辨話音語(yǔ)音分量從UBM 515生成或適配的任意目標(biāo)語(yǔ)音模型。
這樣,系統(tǒng)500包括兩個(gè)子系統(tǒng)包括U/V分類器505、UBM 515與CTM 510的基線系統(tǒng)以及包括NTM 520的環(huán)境適配系統(tǒng)。在U/V分類器505接收輸入訓(xùn)練語(yǔ)音信號(hào)之后,系統(tǒng)500進(jìn)行登記過(guò)程,其中從輸入訓(xùn)練語(yǔ)音信號(hào)的干凈有明顯可辨話音分量525,并使用,比如說(shuō),貝葉斯(Bayesian)或最大后驗(yàn)概率(MAP)適配方法從UBM 515,生成CTM 510。
U/V分類器505還接收輸入測(cè)試語(yǔ)音信號(hào),其隨后輸出嘈雜的無(wú)明顯可辨話音語(yǔ)音分量。在上述登記過(guò)程之后,進(jìn)一步的適配過(guò)程其后從嘈雜的無(wú)明顯可辨話音語(yǔ)音分量530生成NTM 520。
本領(lǐng)域技術(shù)人員將意識(shí)到本發(fā)明的實(shí)施例的成本效率。例如,盡管系統(tǒng)500包括三個(gè)語(yǔ)音模型,CTM 510與NTM 520均直接地或間接地從UBM 515生成。這樣,在一個(gè)UBM 515包括128個(gè)原始高斯語(yǔ)音模型的特定實(shí)施例中,每幀僅需計(jì)算五個(gè)額外的高斯語(yǔ)音模型,以生成CTM 510與NTM 520兩者。這樣,相對(duì)于系統(tǒng)500相對(duì)于現(xiàn)有技術(shù)改善的噪聲魯棒性而言,額外的計(jì)算成本是微不足道的。
在生成CTM 510與NTM 520之后,輸入測(cè)試語(yǔ)音信號(hào)的分量由CTM 510、UBM 515、與NTM 520中的每一個(gè)進(jìn)行處理。如圖5所示,遵照本發(fā)明的一個(gè)實(shí)施例,計(jì)算輸入測(cè)試語(yǔ)音信號(hào)的初始CTM匹配分值,并以來(lái)自UBM的匹配分值輸出對(duì)其進(jìn)行歸一化,以創(chuàng)建第一初步匹配分值(分值1)。還計(jì)算輸入測(cè)試語(yǔ)音信號(hào)的初始NTM匹配分值,并以來(lái)自UBM的匹配分值輸出對(duì)其進(jìn)行歸一化,以創(chuàng)建第二初步匹配分值(分值2)。歸一化過(guò)程可包括各種技術(shù),例如簡(jiǎn)單地減去UBM匹配分值。其后,使用第一與第二初步匹配分值來(lái)確定最終匹配分值。例如,最終匹配分值可等于第一與第二初步匹配分值之和。
示例下面是錯(cuò)誤削減的實(shí)驗(yàn)結(jié)果,其遵照使用來(lái)自各種背景環(huán)境的輸入測(cè)試語(yǔ)音信號(hào)的本發(fā)明的實(shí)施例產(chǎn)生。背景環(huán)境包括多路串?dāng)_噪聲(表1)、機(jī)場(chǎng)噪聲(表2)、列車車廂噪聲(表3)、街道噪聲(表4)、餐館噪聲(表5)、以及列車車站噪聲(表6)。使用稱為Polycost的電話語(yǔ)音數(shù)據(jù)庫(kù)作為輸入語(yǔ)音信號(hào)。Polycost數(shù)據(jù)庫(kù)是一個(gè)大型混合語(yǔ)音語(yǔ)料庫(kù),其涉及超過(guò)100個(gè)講話者,包括外國(guó)人說(shuō)的英語(yǔ)。數(shù)據(jù)庫(kù)主要包括數(shù)字,以及一些自由語(yǔ)音,其收集自國(guó)際電話線路,并且每一講話者包括超過(guò)八段會(huì)話。不同的背景環(huán)境表示一段范圍的SNR。參數(shù)包括36維mel-頻率倒譜系數(shù)(MFCC)(例如,12MFCC+12ΔMFCC+12ΔΔMFCC)。講話者模型適配自具有128個(gè)高斯語(yǔ)音模型、3份發(fā)音(utterance)的UBM。
表1錯(cuò)誤削減—多路串?dāng)_噪聲
表2錯(cuò)誤削減—機(jī)場(chǎng)噪聲
表3錯(cuò)誤削減—列車車廂噪聲
表4錯(cuò)誤削減—街道噪聲
表5錯(cuò)誤削減—餐館噪聲
表6錯(cuò)誤削減—列車車站噪聲
上面呈現(xiàn)的實(shí)驗(yàn)數(shù)據(jù)闡述遵照本發(fā)明的講話者驗(yàn)證方法與系統(tǒng)顯著地改善了寬廣范圍的嘈雜環(huán)境下的講話者驗(yàn)證性能。錯(cuò)誤削減范圍在餐館背景噪聲下的3.5%到列車車廂背景噪聲下的42.13%之間。平均EER削減是大約22%。
總之,參照?qǐng)D6,闡釋遵照本發(fā)明的實(shí)施例的講話者驗(yàn)證方法600的一般流程圖。首先,在步驟605,無(wú)明顯可辨話音與有明顯可辨話音(U/V)語(yǔ)音分類器505對(duì)輸入訓(xùn)練語(yǔ)音信號(hào)進(jìn)行分類,以輸出干凈的有明顯可辨話音語(yǔ)音分量,并對(duì)輸入測(cè)試語(yǔ)音信號(hào)進(jìn)行分類,以輸出嘈雜的無(wú)明顯可辨話音語(yǔ)音分量。接著,在步驟610,使用訓(xùn)練語(yǔ)音的干凈的有明顯可辨話音語(yǔ)音分量從UBM 515生成CTM 510。在步驟615,使用測(cè)試語(yǔ)音的嘈雜的無(wú)明顯可辨話音語(yǔ)音分量從CTM510生成NTM 520。在步驟620,為輸入測(cè)試語(yǔ)音信號(hào)的話音語(yǔ)音分量計(jì)算初始CTM匹配分值,并以來(lái)自UBM 515的匹配分值輸出對(duì)其進(jìn)行歸一化,以創(chuàng)建第一初步匹配分值。其后,在步驟625,為輸入測(cè)試語(yǔ)音信號(hào)的話音語(yǔ)音分量計(jì)算初始NTM匹配分值,并以來(lái)自UBM515的匹配分值輸出對(duì)其進(jìn)行歸一化,以創(chuàng)建第二初步匹配分值。最后,在步驟630,使用第一與第二初步匹配分值確定最終匹配分值。
這樣,本發(fā)明的優(yōu)點(diǎn)包括更魯棒的講話者驗(yàn)證系統(tǒng)500與方法600,其對(duì)于背景噪聲較不敏感。進(jìn)一步地,本發(fā)明在計(jì)算上是高成本效率的,這是因?yàn)楸M管使用至少三個(gè)模型510、515、520,CTM 510與NTM 515系從UBM 515導(dǎo)出,因此僅計(jì)算相對(duì)小數(shù)目的額外的高斯語(yǔ)音模型。
上面的細(xì)節(jié)描述僅提供示例性實(shí)施例,而無(wú)意限制本發(fā)明的范圍、適用性、或配置。相反地,示例性實(shí)施例的詳細(xì)描述向本領(lǐng)域技術(shù)人員提供這樣的描述,其允許他們實(shí)現(xiàn)本發(fā)明的示例性實(shí)施例。需要理解的是,可在組件與步驟的功能與排列中進(jìn)行各種變化,而不偏離如所附權(quán)利要求書所述的本發(fā)明的實(shí)質(zhì)與范圍。本領(lǐng)域技術(shù)人員將意識(shí)到,這里描述的本發(fā)明的實(shí)施例可包括一或多個(gè)傳統(tǒng)處理器以及獨(dú)特的存儲(chǔ)的程序指令,其控制所述一或多個(gè)處理器連同特定的非處理器電路實(shí)現(xiàn)講話者驗(yàn)證的一些、大部分、或全部功能,如這里所描述的那樣。非處理器電路可包括,但不限于,無(wú)線接收器、無(wú)線發(fā)送器、信號(hào)驅(qū)動(dòng)器、時(shí)鐘電路、電源電路、與用戶輸入設(shè)備。同樣地,可將這些功能解釋為進(jìn)行講話者驗(yàn)證的方法的步驟。作為可供選擇的另一替代方案,可使用沒(méi)有存儲(chǔ)的程序指令的狀態(tài)機(jī)實(shí)現(xiàn)一些或全部功能,或者在一或多個(gè)專用集成電路(ASIC)中(實(shí)現(xiàn)一些或全部功能),其中將每一功能或者特定功能的某些組合作為定制邏輯來(lái)實(shí)現(xiàn)。當(dāng)然,可使用兩種方法的組合。這樣,這里已描述了這些功能的方法與設(shè)備。進(jìn)一步地,盡管可能需要顯著的努力,以及存在由,比如說(shuō),可用時(shí)間、當(dāng)前技術(shù)、與經(jīng)濟(jì)考慮等激發(fā)的許多設(shè)計(jì)選擇,當(dāng)由這里公開(kāi)的概念與原則指導(dǎo)時(shí),預(yù)期本領(lǐng)域普通技術(shù)人員將能夠容易地生成這樣的軟件指令與程序與IC,而只需最少的實(shí)驗(yàn)。
在前面的詳述中,已描述本發(fā)明的特定實(shí)施例。然而,本領(lǐng)域普通技術(shù)人員意識(shí)到,可進(jìn)行各種修改與變動(dòng),而不偏離如所附權(quán)利要求書所闡明的本發(fā)明的范圍。相應(yīng)地,說(shuō)明書與附圖應(yīng)被視為闡釋性的而非限制性的,并且所有這樣的修改均被試圖包括在本發(fā)明的范圍之內(nèi)。好處、優(yōu)點(diǎn)、問(wèn)題的解決方案,以及任何可引起任何好處、優(yōu)點(diǎn)、或解決方案發(fā)生或變得更加顯著的元素,不應(yīng)被解釋為任何權(quán)利要求的決定性的、必需的、或本質(zhì)性的特性或元素。本發(fā)明僅由所附權(quán)利要求書,包括在本申請(qǐng)的預(yù)決期間進(jìn)行的任何修正,以及權(quán)利要求的所有等價(jià)物,來(lái)定義。
權(quán)利要求
1.一種用于講話者驗(yàn)證的方法,其包括使用無(wú)明顯可辨話音與有明顯可辨話音(U/V)語(yǔ)音分類器,對(duì)輸入訓(xùn)練語(yǔ)音信號(hào)進(jìn)行分類,以輸出干凈的有明顯可辨話音的語(yǔ)音分量,并對(duì)輸入測(cè)試語(yǔ)音信號(hào)進(jìn)行分類,以輸出嘈雜的無(wú)明顯可辨話音的語(yǔ)音分量;使用所述的干凈的有明顯可辨話音語(yǔ)音分量從通用背景模型(UBM)生成干凈目標(biāo)語(yǔ)音模型(CTM);使用所述的嘈雜的無(wú)明顯可辨話音語(yǔ)音分量從所述CTM生成嘈雜目標(biāo)語(yǔ)音模型(NTM);為所述輸入測(cè)試語(yǔ)音信號(hào)計(jì)算初始CTM匹配分值,并以來(lái)自所述UBM的匹配分值輸出對(duì)其進(jìn)行歸一化,以創(chuàng)建第一初步匹配分值;為所述輸入測(cè)試語(yǔ)音信號(hào)計(jì)算初始NTM匹配分值,并以來(lái)自所述UBM的匹配分值輸出對(duì)其進(jìn)行歸一化,以創(chuàng)建第二初步匹配分值;和使用所述第一與第二初步匹配分值確定最終匹配分值。
2.如權(quán)利要求1所述的方法,其中,所述UBM包括超過(guò)100個(gè)計(jì)算的高斯語(yǔ)音模型。
3.如權(quán)利要求2所述的方法,其中,計(jì)算不超過(guò)五個(gè)額外的高斯語(yǔ)音模型以生成所述CTM與所述NTM兩者。
4.如權(quán)利要求1所述的方法,其中,通過(guò)減去來(lái)自所述UBM的匹配分值輸出來(lái)對(duì)所述初始CTM匹配分值進(jìn)行歸一化,以創(chuàng)建所述第一初步匹配分值。
5.如權(quán)利要求1所述的方法,其中,通過(guò)減去來(lái)自所述UBM的匹配分值輸出來(lái)對(duì)所述初始NTM匹配分值進(jìn)行歸一化,以創(chuàng)建所述第二初步匹配分值。
6.如權(quán)利要求1所述的方法,其中,從所述CTM生成所述NTM還使用來(lái)自所述U/V語(yǔ)音分類器的靜音分量輸出,以定義背景噪聲水平。
7.如權(quán)利要求1所述的方法,其中,所述最終匹配分值是所述第一與第二初步匹配分值之和。
8.如權(quán)利要求1所述的方法,其中,所述U/V語(yǔ)音分類器將語(yǔ)音信號(hào)分類為三種分量靜音、有明顯可辨話音語(yǔ)音、和無(wú)明顯可辨話音語(yǔ)音。
9.如權(quán)利要求1所述的方法,其中,使用最大后驗(yàn)概率(MAP)適配方法生成所述CTM與所述NTM兩者。
10.一種用于講話者驗(yàn)證的系統(tǒng),包括無(wú)明顯可辨話音與有明顯可辨話音(U/V)語(yǔ)音分類器,其接收輸入訓(xùn)練語(yǔ)音信號(hào),以輸出干凈的有明顯可辨話音語(yǔ)音分量,并接收輸入測(cè)試語(yǔ)音信號(hào),以輸出嘈雜的無(wú)明顯可辨話音語(yǔ)音分量;通用背景模型(UBM),其可操作地連接到所述U/V語(yǔ)音分類器;干凈目標(biāo)語(yǔ)音模型(CTM),其可操作地連接到所述U/V語(yǔ)音分類器與所述UBM,且其被使用所述的干凈的有明顯可辨話音語(yǔ)音分量從所述UBM生成;嘈雜目標(biāo)語(yǔ)音模型(NTM),其可操作地連接到所述U/V分類器、所述UBM與所述CTM,且其被使用所述的嘈雜的無(wú)明顯可辨話音語(yǔ)音分量從所述CTM生成;其中,為所述輸入測(cè)試語(yǔ)音信號(hào)計(jì)算初始CTM匹配分值,并以來(lái)自所述UBM的匹配分值輸出對(duì)其進(jìn)行歸一化,以創(chuàng)建第一初步匹配分值,為所述輸入測(cè)試語(yǔ)音信號(hào)計(jì)算初始NTM匹配分值,并以來(lái)自所述UBM的匹配分值輸出對(duì)其進(jìn)行歸一化,以創(chuàng)建第二初步匹配分值,以及使用所述第一與第二初步匹配分值確定最終匹配分值。
11.如權(quán)利要求10所述的系統(tǒng),其中,所述UBM包括超過(guò)100個(gè)計(jì)算的高斯語(yǔ)音模型。
12.如權(quán)利要求11所述的系統(tǒng),其中,計(jì)算不超過(guò)五個(gè)額外的高斯語(yǔ)音模型以生成所述CTM與所述NTM兩者。
13.如權(quán)利要求10所述的系統(tǒng),其中,通過(guò)減去來(lái)自所述UBM的匹配分值輸出來(lái)對(duì)所述初始CTM匹配分值進(jìn)行歸一化,以創(chuàng)建所述第一初步匹配分值。
14.如權(quán)利要求10所述的系統(tǒng),其中,通過(guò)減去來(lái)自所述UBM的匹配分值輸出來(lái)對(duì)所述初始NTM匹配分值進(jìn)行歸一化,以創(chuàng)建所述第二初步匹配分值。
15.如權(quán)利要求10所述的系統(tǒng),其中,從所述CTM生成所述NTM還使用來(lái)自所述U/V語(yǔ)音分類器的靜音分量輸出,以定義背景噪聲水平。
16.如權(quán)利要求10所述的系統(tǒng),其中,所述最終匹配分值是所述第一與第二初步匹配分值之和。
17.如權(quán)利要求10所述的系統(tǒng),其中,所述U/V語(yǔ)音分類器將語(yǔ)音信號(hào)分類為三種分量靜音、有明顯可辨話音語(yǔ)音、和無(wú)明顯可辨話音語(yǔ)音。
18.如權(quán)利要求10所述的系統(tǒng),其中,使用最大后驗(yàn)概率(MAP)適配方法生成所述CTM與所述NTM兩者。
全文摘要
一種用于講話者驗(yàn)證的方法與系統(tǒng),對(duì)于驗(yàn)證諸如講話者的身份等講話者屬性是有用的。在無(wú)明顯可辨話音與有明顯可辨話音(U/V)語(yǔ)音分類器中對(duì)輸入訓(xùn)練語(yǔ)音信號(hào)進(jìn)行分類,以輸出干凈的V語(yǔ)音分量,并對(duì)輸入測(cè)試語(yǔ)音信號(hào)進(jìn)行分類,以輸出嘈雜的U語(yǔ)音分量(605)。使用干凈的V語(yǔ)音分量從通用背景模型(UBM)生成干凈目標(biāo)模型(CTM)(610)。使用嘈雜的U語(yǔ)音分量從CTM生成嘈雜目標(biāo)模型(NTM)(615)。計(jì)算初始CTM匹配分值,以來(lái)自UBM的匹配分值輸出對(duì)其進(jìn)行歸一化,創(chuàng)建第一初步匹配分值(620)。計(jì)算初始NTM匹配分值,以來(lái)自UBM的匹配分值輸出對(duì)其進(jìn)行歸一化,創(chuàng)建第二初步匹配分值(625)。使用第一與第二初步匹配分值確定最終匹配分值(630)。
文檔編號(hào)G10L17/00GK1924998SQ200510097649
公開(kāi)日2007年3月7日 申請(qǐng)日期2005年8月29日 優(yōu)先權(quán)日2005年8月29日
發(fā)明者黃偉, 韓兆兵, 張亞昕 申請(qǐng)人:摩托羅拉公司