用于講話者驗(yàn)證的方法與系統(tǒng)的制作方法

文檔序號(hào)：2822451閱讀：152來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：用于講話者驗(yàn)證的方法與系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
一般地，本發(fā)明涉及講話者驗(yàn)證方法與系統(tǒng)。更具體地，盡管并非排它性地，本發(fā)明涉及使用從嘈雜的無(wú)明顯可辨話音(unvoiced)的語(yǔ)音分量導(dǎo)出的目標(biāo)模型進(jìn)行的語(yǔ)音驗(yàn)證。
背景技術(shù)：
生物鑒定常常是保護(hù)對(duì)設(shè)備或設(shè)施的訪問(wèn)的理想方法。與傳統(tǒng)的涉及物理鑰匙或者鍵入的密碼的安全鎖不同，生物鎖僅可由特定的、授權(quán)的個(gè)人操作。這樣的鎖通過(guò)測(cè)量獨(dú)特的生物特性，例如指紋、眼模式、或話音簽名，來(lái)評(píng)定個(gè)人身份。當(dāng)某人試圖開(kāi)啟這樣的鎖時(shí)，測(cè)量該人士的一或多個(gè)生物特性，并與授權(quán)人士數(shù)據(jù)庫(kù)中的信息比較。如果找到匹配，則鎖開(kāi)啟，否則鎖保持關(guān)閉。因?yàn)闆](méi)有易于丟失、失竊或忘記的鑰匙或密碼，并且因?yàn)樯锖灻梢允歉叨瓤煽亢酮?dú)特的，生物鎖很可能越來(lái)越普及。
涉及講話者驗(yàn)證、或話音認(rèn)證的生物鎖，關(guān)注話音簽名的生物匹配。講話者驗(yàn)證是保護(hù)訪問(wèn)的特別方便的技術(shù)，這是因?yàn)橛脩艨梢砸浴懊馓?hands free)”的方式容易地進(jìn)行之。這使得對(duì)于經(jīng)常操作于“免提”模式的設(shè)備，例如移動(dòng)電話與個(gè)人數(shù)字助理(PDA)，講話者驗(yàn)證成為理想的安全技術(shù)。
因此，存在無(wú)數(shù)種試圖分類和匹配人類話音的特性，以允許話音簽名作為生物鑰匙得到可靠使用的算法。算法包括高斯混合模型通用背景模型(GMM-UBM)方法。在GMM-UBM講話者鑒定中，以GMM建模授權(quán)的講話者。使用大型語(yǔ)音語(yǔ)料庫(kù)(large speech corpus)首先創(chuàng)建高階講話者無(wú)關(guān)的UBM。其后，使用貝葉斯(Bayesian)或最大后驗(yàn)概率(MAP)適配方法，從UBM導(dǎo)出單個(gè)講話者的模型。其后，將模型與輸入話音特性向量比較，以確定特定輸入話音是否匹配GMM-UBM模型之一。
如大多數(shù)檢測(cè)系統(tǒng)那樣，講話者驗(yàn)證系統(tǒng)通常被調(diào)諧，以提供想要的接收器操作特性(ROC)。檢測(cè)/錯(cuò)誤折衷(DET)曲線是測(cè)量ROC的通用方法，其評(píng)估兩種類型的錯(cuò)誤誤拒絕率與誤接受率。關(guān)于講話者驗(yàn)證，當(dāng)授權(quán)的人士試圖將他的或她的話音與話音模型匹配，但該人士被驗(yàn)證系統(tǒng)不適當(dāng)?shù)鼐芙^時(shí)，誤拒絕發(fā)生。當(dāng)未授權(quán)的人士，例如冒名頂替者，能夠成功地將他的或她的話音與為另一人士創(chuàng)建的話音模型匹配，從而獲得對(duì)設(shè)備或設(shè)施的不適當(dāng)?shù)脑L問(wèn)時(shí)，誤接受發(fā)生。
許多檢測(cè)系統(tǒng)被校準(zhǔn)，使得系統(tǒng)操作于誤接受率曲線與誤拒絕率曲線相交的狀況。該狀況常常被稱為等錯(cuò)誤率(EER)點(diǎn)，其提供了位于過(guò)多的誤接受與過(guò)多的誤拒絕之間的平衡。然而，背景噪聲水平的變化常擾亂講話者驗(yàn)證系統(tǒng)的校準(zhǔn)，導(dǎo)致不合意的誤接受數(shù)目或不合意的誤拒絕數(shù)目。

為使本發(fā)明易于理解和投入實(shí)用，現(xiàn)在將參照示例性實(shí)施例，如參照所附繪圖所示，其中在各個(gè)分立的視圖中，相似的引用號(hào)指代相同或功能上相似的組件。繪圖連同下面的詳細(xì)描述集成到說(shuō)明書并形成說(shuō)明書的一部分，以進(jìn)一步闡釋實(shí)施例，和解釋各種原則與優(yōu)點(diǎn)，其遵照本發(fā)明，其中圖1是闡釋無(wú)線電話形式的無(wú)線通信設(shè)備的示意圖；圖2是闡釋MAP適配流程的示意圖；圖3是闡釋接收器操作特性(ROC)曲線的典型集的圖形；圖4是闡釋來(lái)自兩種講話者(目標(biāo)講話者與冒名頂替者)的兩組柱狀圖分值分布；
圖5是講話者驗(yàn)證系統(tǒng)的示意圖，其遵照本發(fā)明的實(shí)施例，其提供針對(duì)背景噪聲的改善的魯棒性；和圖6是闡釋遵照本發(fā)明的實(shí)施例的講話者驗(yàn)證方法的一般流程圖。
本領(lǐng)域技術(shù)人員將意識(shí)到，圖中的組件為簡(jiǎn)單和清晰起見(jiàn)而繪制，不一定遵照比例畫出。例如，圖中某些組件的尺寸相對(duì)于其它組件可能被夸大，以幫助促進(jìn)對(duì)本發(fā)明的實(shí)施例的理解。
具體實(shí)施例方式
在詳細(xì)描述遵照本發(fā)明的實(shí)施例之前，需要觀察到的是，實(shí)施例主要存在于涉及用于講話者驗(yàn)證的方法與系統(tǒng)的方法步驟與設(shè)備組件的組合。相應(yīng)地，在適宜時(shí)，圖中以傳統(tǒng)符號(hào)表示設(shè)備組件與方法步驟，僅顯示與理解本發(fā)明的實(shí)施例相關(guān)的特定細(xì)節(jié)，從而避免對(duì)于本領(lǐng)域普通技術(shù)人員而言顯而易見(jiàn)的細(xì)節(jié)壓倒這里的描述，令本公開(kāi)變得晦澀。
在本文檔中，關(guān)系術(shù)語(yǔ)，例如第一與第二、頂與底、等等僅用于將一實(shí)體或動(dòng)作從另一實(shí)體或動(dòng)作區(qū)分開(kāi)來(lái)，而不一定要求或暗示在這樣的實(shí)體或動(dòng)作之間(存在)任何實(shí)際的這樣的關(guān)系或順序。術(shù)語(yǔ)“包括”或其任何其它變形意欲指代非排它性的包括，使得包括一組元素的過(guò)程、方法、物品、或設(shè)備不僅包括這些元素，還可包括未特別地列出的或?yàn)樵撨^(guò)程、方法、物品、或設(shè)備所固有的其它元素。在無(wú)更多限制時(shí)，“包括一個(gè)”之后的元素不排除在包括該元素的過(guò)程、方法、物品、或設(shè)備中存在其它相同元素。
參照?qǐng)D1，闡釋無(wú)線電話100形式的無(wú)線通信設(shè)備的示意圖，無(wú)線電話100包括射頻通信單元102，其被連接以與處理器103通信。無(wú)線電話100還具有小鍵盤106與顯示屏105，其被連接以與處理器103通信。如對(duì)于本領(lǐng)域技術(shù)人員而言將顯而易見(jiàn)的那樣，屏105可以是觸摸屏，從而使小鍵盤106成為可選項(xiàng)。
處理器103包括編碼器/解碼器111，其具有相關(guān)聯(lián)的代碼只讀存儲(chǔ)器(ROM)112，其為編碼和解碼可由無(wú)線電話100發(fā)送或接收的話音或其它信號(hào)存儲(chǔ)數(shù)據(jù)。處理器103還包括微處理器113，其由公共數(shù)據(jù)與地址總線117連接到編碼器/解碼器111、字符只讀存儲(chǔ)器(ROM)114、隨機(jī)存取存儲(chǔ)器(RAM)104、靜態(tài)可編程存儲(chǔ)器116與SIM接口118。靜態(tài)可編程存儲(chǔ)器116與SIM(常稱為SIM卡)可操作地連接到SIM接口118，除其它功能之外，其可分別存儲(chǔ)所選擇的進(jìn)來(lái)的文本消息與電話號(hào)碼數(shù)據(jù)庫(kù)(TND)(電話簿)，其包括用于電話號(hào)碼的號(hào)碼域以及用于標(biāo)識(shí)符的名稱域，名稱域中的標(biāo)識(shí)符與號(hào)碼之一相關(guān)聯(lián)。例如，電話號(hào)碼數(shù)據(jù)庫(kù)TND中的一個(gè)條目可以是91999111111(在號(hào)碼域中輸入)，其名稱域中為相關(guān)聯(lián)的標(biāo)識(shí)符“StevenC！at work”。SIM卡與靜態(tài)存儲(chǔ)器116還可存儲(chǔ)密碼或訓(xùn)練語(yǔ)音信號(hào)語(yǔ)料庫(kù)，以允許訪問(wèn)無(wú)線電話100上的受保護(hù)功能。
微處理器113具有端口，以連接到小鍵盤106與屏105和警報(bào)115，警報(bào)115典型地包括警報(bào)揚(yáng)聲器、振動(dòng)器馬達(dá)與相關(guān)聯(lián)的驅(qū)動(dòng)。而且，微處理器113具有端口，以連接到麥克風(fēng)135和通信揚(yáng)聲器140。字符只讀存儲(chǔ)器114存儲(chǔ)碼字，以解碼或編碼可由通信單元102接收的文本消息。在此實(shí)施例中，字符只讀存儲(chǔ)器114也存儲(chǔ)用于微處理器113的操作碼字(OC)，并存儲(chǔ)用于進(jìn)行與無(wú)線電話100相關(guān)聯(lián)的功能的碼字。
射頻通信單元102為具有公共天線107的組合的接收器與發(fā)送器。通信單元102具有收發(fā)器108，其經(jīng)由射頻放大器109連接到天線107。收發(fā)器108還連接到組合調(diào)制器/解調(diào)器110，將通信單元102連接到處理器103。
為了提供對(duì)本發(fā)明的清晰而完整的描述，現(xiàn)在參照分別關(guān)于現(xiàn)有技術(shù)的MAP適配流程與EER曲線的圖2與3描述一些額外的背景材料。
參照?qǐng)D2，闡釋MAP適配流程的示意圖，其遵照現(xiàn)有技術(shù)。左邊的四個(gè)橢圓205表示講話者模型，其在通用背景模型中包括四個(gè)高斯概率密度函數(shù)(PDF)。點(diǎn)210表示來(lái)自目標(biāo)講話者的訓(xùn)練語(yǔ)音樣本分值。MAP適配流程基于鄰近的訓(xùn)練語(yǔ)音樣本分值，重新計(jì)算每一高斯PDF的分布，并有效地重新配置PDF，如圖2的右邊由修改的橢圓215所表示的那樣，修改的橢圓215定義修改的講話者模型。
參照?qǐng)D3，闡釋如本領(lǐng)域眾所周知的接收器操作特性(ROC)曲線的典型集的圖形。y軸表示錯(cuò)誤率，而x軸表示門限設(shè)置，特定檢測(cè)系統(tǒng)操作于該門限以產(chǎn)生一組給定的錯(cuò)誤率。如應(yīng)用于講話者驗(yàn)證(SV)技術(shù)，例如可包括在無(wú)線電話100的安全特性中的那樣，誤接受(FA)曲線表示這樣的錯(cuò)誤率，其中未授權(quán)的人士，例如冒名頂替者，能夠成功地將他的或她的話音與為另一人士創(chuàng)建的話音模型匹配，從而獲得對(duì)電話100的不適當(dāng)?shù)脑L問(wèn)。誤拒絕(FR)曲線表示這樣的錯(cuò)誤率，其中授權(quán)的人士試圖將他的或她的話音與話音模型匹配，但對(duì)電話100的訪問(wèn)被不適當(dāng)?shù)鼐芙^。兩曲線的交點(diǎn)常被稱為等錯(cuò)誤率(EER)點(diǎn)。如本領(lǐng)域眾所周知的那樣，檢測(cè)系統(tǒng)常被校準(zhǔn)，以操作在EER點(diǎn)或接近EER點(diǎn)，以提供最優(yōu)性能。
關(guān)于無(wú)線電話100中包括的SV系統(tǒng)，如果系統(tǒng)被校準(zhǔn)以操作在對(duì)應(yīng)于門限設(shè)置T0的EER點(diǎn)，電話100可為授權(quán)的用戶提供方便水平的訪問(wèn)安全性，其中電話100可快速地、可靠地驗(yàn)證授權(quán)的用戶的話音，而拒絕未授權(quán)的用戶的訪問(wèn)。然而，如果用戶要求電話100更可靠地識(shí)別授權(quán)的用戶的話音，系統(tǒng)可被校準(zhǔn)以操作在對(duì)應(yīng)于門限設(shè)置T1的更低的FR率。另一方面，如果用戶要求電話100的更大的訪問(wèn)安全性，SV系統(tǒng)可被校準(zhǔn)以操作在對(duì)應(yīng)于門限設(shè)置T2的更低的FA率。然而，對(duì)于給定的門限設(shè)定，變化水平的背景噪聲可改變想要的FA/FR率。
參照?qǐng)D4，闡釋來(lái)自兩種類型的講話者(目標(biāo)講話者與許多冒名頂替者)的兩組柱狀圖分值分布。x軸表示SV測(cè)試分值，而y軸表示測(cè)試發(fā)音(utterance)的數(shù)目。已觀察到SV系統(tǒng)在不同的背景噪聲環(huán)境中遵照不同的FA/FR ROC曲線起作用。在SV系統(tǒng)中測(cè)量背景噪聲的一種方法使用語(yǔ)音噪聲比(SNR)。安靜的背景生成更高的SNR，而嘈雜的背景生成更低的SNR。當(dāng)SV系統(tǒng)從具有高SNR的環(huán)境移動(dòng)到具有較低SNR的環(huán)境時(shí)，定義系統(tǒng)的ROC的FA/FR曲線改變。圖4中顯示的分布是基于在5dB到25dB之間變化的SNR。這樣，圖4闡釋在安靜的背景環(huán)境(SNR＝25dB)中，來(lái)自冒名頂替的講話者的SV分值一般將與來(lái)自目標(biāo)講話者的SV分值不同。但在相對(duì)嘈雜的背景環(huán)境(SNR＝5dB)中，來(lái)自冒名頂替的講話者的SV分值一般將與來(lái)自目標(biāo)講話者的SV分值更近似，呈現(xiàn)出更多重疊。
進(jìn)一步地，圖4闡釋與來(lái)自冒名頂替的講話者的SV分值相比，來(lái)自目標(biāo)講話者的SV分值一般對(duì)背景噪聲水平更敏感。這表現(xiàn)在與冒名頂替者的SV分值相比，目標(biāo)講話者的SV分值從25dB到5dB的橫向移動(dòng)更大。目標(biāo)講話者的SV分值對(duì)于背景噪聲具有增大的敏感度，這是因?yàn)橛糜谀繕?biāo)講話者的訓(xùn)練模型一般在相對(duì)安靜或“干凈”的環(huán)境中創(chuàng)建；而來(lái)自冒名頂替者的測(cè)試語(yǔ)音一般在相對(duì)嘈雜的“真實(shí)”環(huán)境中創(chuàng)建。
參照?qǐng)D5，SV系統(tǒng)500的示意圖，其遵照本發(fā)明的實(shí)施例，提供針對(duì)背景噪聲的改善的魯棒性。系統(tǒng)500包括無(wú)明顯可辨話音(unvoiced)與有明顯可辨話音(voiced)(U/V)語(yǔ)音分類器505，其對(duì)語(yǔ)音輸入信號(hào)進(jìn)行分類。三個(gè)語(yǔ)言模型可操作地連接到U/V分類器505通用背景語(yǔ)音模型(UBM)515、干凈目標(biāo)語(yǔ)音模型(CTM)510、與嘈雜目標(biāo)語(yǔ)音模型(NTM)520。U/V分類器505將輸入語(yǔ)音信號(hào)幀分類為三個(gè)分量靜音、干凈的有明顯可辨話音語(yǔ)音、與嘈雜的無(wú)明顯可辨話音語(yǔ)音。使用來(lái)自輸入訓(xùn)練語(yǔ)音的干凈的有明顯可辨話音語(yǔ)音從UBM 515生成CTM 510，其從而僅包括一或多個(gè)特定講話者的信息。這樣，可將CTM 510定義為使用來(lái)自相對(duì)安靜的背景環(huán)境的有明顯可辨話音語(yǔ)音分量從UBM 515生成或適配的任意目標(biāo)語(yǔ)音模型。使用來(lái)自真實(shí)環(huán)境的測(cè)試語(yǔ)音發(fā)音的靜音與嘈雜的無(wú)明顯可辨話音語(yǔ)音分量從CTM 510生成NTM 520。這樣，NTM 520包括關(guān)于特定講話者與關(guān)于背景噪聲環(huán)境兩者的信息。因此，可將NTM 520定義為使用來(lái)自相對(duì)嘈雜的背景環(huán)境的無(wú)明顯可辨話音語(yǔ)音分量從UBM 515生成或適配的任意目標(biāo)語(yǔ)音模型。
這樣，系統(tǒng)500包括兩個(gè)子系統(tǒng)包括U/V分類器505、UBM 515與CTM 510的基線系統(tǒng)以及包括NTM 520的環(huán)境適配系統(tǒng)。在U/V分類器505接收輸入訓(xùn)練語(yǔ)音信號(hào)之后，系統(tǒng)500進(jìn)行登記過(guò)程，其中從輸入訓(xùn)練語(yǔ)音信號(hào)的干凈有明顯可辨話音分量525，并使用，比如說(shuō)，貝葉斯(Bayesian)或最大后驗(yàn)概率(MAP)適配方法從UBM 515，生成CTM 510。
U/V分類器505還接收輸入測(cè)試語(yǔ)音信號(hào)，其隨后輸出嘈雜的無(wú)明顯可辨話音語(yǔ)音分量。在上述登記過(guò)程之后，進(jìn)一步的適配過(guò)程其后從嘈雜的無(wú)明顯可辨話音語(yǔ)音分量530生成NTM 520。
本領(lǐng)域技術(shù)人員將意識(shí)到本發(fā)明的實(shí)施例的成本效率。例如，盡管系統(tǒng)500包括三個(gè)語(yǔ)音模型，CTM 510與NTM 520均直接地或間接地從UBM 515生成。這樣，在一個(gè)UBM 515包括128個(gè)原始高斯語(yǔ)音模型的特定實(shí)施例中，每幀僅需計(jì)算五個(gè)額外的高斯語(yǔ)音模型，以生成CTM 510與NTM 520兩者。這樣，相對(duì)于系統(tǒng)500相對(duì)于現(xiàn)有技術(shù)改善的噪聲魯棒性而言，額外的計(jì)算成本是微不足道的。
在生成CTM 510與NTM 520之后，輸入測(cè)試語(yǔ)音信號(hào)的分量由CTM 510、UBM 515、與NTM 520中的每一個(gè)進(jìn)行處理。如圖5所示，遵照本發(fā)明的一個(gè)實(shí)施例，計(jì)算輸入測(cè)試語(yǔ)音信號(hào)的初始CTM匹配分值，并以來(lái)自UBM的匹配分值輸出對(duì)其進(jìn)行歸一化，以創(chuàng)建第一初步匹配分值(分值1)。還計(jì)算輸入測(cè)試語(yǔ)音信號(hào)的初始NTM匹配分值，并以來(lái)自UBM的匹配分值輸出對(duì)其進(jìn)行歸一化，以創(chuàng)建第二初步匹配分值(分值2)。歸一化過(guò)程可包括各種技術(shù)，例如簡(jiǎn)單地減去UBM匹配分值。其后，使用第一與第二初步匹配分值來(lái)確定最終匹配分值。例如，最終匹配分值可等于第一與第二初步匹配分值之和。
示例下面是錯(cuò)誤削減的實(shí)驗(yàn)結(jié)果，其遵照使用來(lái)自各種背景環(huán)境的輸入測(cè)試語(yǔ)音信號(hào)的本發(fā)明的實(shí)施例產(chǎn)生。背景環(huán)境包括多路串?dāng)_噪聲(表1)、機(jī)場(chǎng)噪聲(表2)、列車車廂噪聲(表3)、街道噪聲(表4)、餐館噪聲(表5)、以及列車車站噪聲(表6)。使用稱為Polycost的電話語(yǔ)音數(shù)據(jù)庫(kù)作為輸入語(yǔ)音信號(hào)。Polycost數(shù)據(jù)庫(kù)是一個(gè)大型混合語(yǔ)音語(yǔ)料庫(kù)，其涉及超過(guò)100個(gè)講話者，包括外國(guó)人說(shuō)的英語(yǔ)。數(shù)據(jù)庫(kù)主要包括數(shù)字，以及一些自由語(yǔ)音，其收集自國(guó)際電話線路，并且每一講話者包括超過(guò)八段會(huì)話。不同的背景環(huán)境表示一段范圍的SNR。參數(shù)包括36維mel-頻率倒譜系數(shù)(MFCC)(例如，12MFCC+12ΔMFCC+12ΔΔMFCC)。講話者模型適配自具有128個(gè)高斯語(yǔ)音模型、3份發(fā)音(utterance)的UBM。
表1錯(cuò)誤削減—多路串?dāng)_噪聲

表2錯(cuò)誤削減—機(jī)場(chǎng)噪聲

表3錯(cuò)誤削減—列車車廂噪聲

表4錯(cuò)誤削減—街道噪聲

表5錯(cuò)誤削減—餐館噪聲

表6錯(cuò)誤削減—列車車站噪聲

上面呈現(xiàn)的實(shí)驗(yàn)數(shù)據(jù)闡述遵照本發(fā)明的講話者驗(yàn)證方法與系統(tǒng)顯著地改善了寬廣范圍的嘈雜環(huán)境下的講話者驗(yàn)證性能。錯(cuò)誤削減范圍在餐館背景噪聲下的3.5％到列車車廂背景噪聲下的42.13％之間。平均EER削減是大約22％。
總之，參照?qǐng)D6，闡釋遵照本發(fā)明的實(shí)施例的講話者驗(yàn)證方法600的一般流程圖。首先，在步驟605，無(wú)明顯可辨話音與有明顯可辨話音(U/V)語(yǔ)音分類器505對(duì)輸入訓(xùn)練語(yǔ)音信號(hào)進(jìn)行分類，以輸出干凈的有明顯可辨話音語(yǔ)音分量，并對(duì)輸入測(cè)試語(yǔ)音信號(hào)進(jìn)行分類，以輸出嘈雜的無(wú)明顯可辨話音語(yǔ)音分量。接著，在步驟610，使用訓(xùn)練語(yǔ)音的干凈的有明顯可辨話音語(yǔ)音分量從UBM 515生成CTM 510。在步驟615，使用測(cè)試語(yǔ)音的嘈雜的無(wú)明顯可辨話音語(yǔ)音分量從CTM510生成NTM 520。在步驟620，為輸入測(cè)試語(yǔ)音信號(hào)的話音語(yǔ)音分量計(jì)算初始CTM匹配分值，并以來(lái)自UBM 515的匹配分值輸出對(duì)其進(jìn)行歸一化，以創(chuàng)建第一初步匹配分值。其后，在步驟625，為輸入測(cè)試語(yǔ)音信號(hào)的話音語(yǔ)音分量計(jì)算初始NTM匹配分值，并以來(lái)自UBM515的匹配分值輸出對(duì)其進(jìn)行歸一化，以創(chuàng)建第二初步匹配分值。最后，在步驟630，使用第一與第二初步匹配分值確定最終匹配分值。
這樣，本發(fā)明的優(yōu)點(diǎn)包括更魯棒的講話者驗(yàn)證系統(tǒng)500與方法600，其對(duì)于背景噪聲較不敏感。進(jìn)一步地，本發(fā)明在計(jì)算上是高成本效率的，這是因?yàn)楸M管使用至少三個(gè)模型510、515、520，CTM 510與NTM 515系從UBM 515導(dǎo)出，因此僅計(jì)算相對(duì)小數(shù)目的額外的高斯語(yǔ)音模型。
上面的細(xì)節(jié)描述僅提供示例性實(shí)施例，而無(wú)意限制本發(fā)明的范圍、適用性、或配置。相反地，示例性實(shí)施例的詳細(xì)描述向本領(lǐng)域技術(shù)人員提供這樣的描述，其允許他們實(shí)現(xiàn)本發(fā)明的示例性實(shí)施例。需要理解的是，可在組件與步驟的功能與排列中進(jìn)行各種變化，而不偏離如所附權(quán)利要求書所述的本發(fā)明的實(shí)質(zhì)與范圍。本領(lǐng)域技術(shù)人員將意識(shí)到，這里描述的本發(fā)明的實(shí)施例可包括一或多個(gè)傳統(tǒng)處理器以及獨(dú)特的存儲(chǔ)的程序指令，其控制所述一或多個(gè)處理器連同特定的非處理器電路實(shí)現(xiàn)講話者驗(yàn)證的一些、大部分、或全部功能，如這里所描述的那樣。非處理器電路可包括，但不限于，無(wú)線接收器、無(wú)線發(fā)送器、信號(hào)驅(qū)動(dòng)器、時(shí)鐘電路、電源電路、與用戶輸入設(shè)備。同樣地，可將這些功能解釋為進(jìn)行講話者驗(yàn)證的方法的步驟。作為可供選擇的另一替代方案，可使用沒(méi)有存儲(chǔ)的程序指令的狀態(tài)機(jī)實(shí)現(xiàn)一些或全部功能，或者在一或多個(gè)專用集成電路(ASIC)中(實(shí)現(xiàn)一些或全部功能)，其中將每一功能或者特定功能的某些組合作為定制邏輯來(lái)實(shí)現(xiàn)。當(dāng)然，可使用兩種方法的組合。這樣，這里已描述了這些功能的方法與設(shè)備。進(jìn)一步地，盡管可能需要顯著的努力，以及存在由，比如說(shuō)，可用時(shí)間、當(dāng)前技術(shù)、與經(jīng)濟(jì)考慮等激發(fā)的許多設(shè)計(jì)選擇，當(dāng)由這里公開(kāi)的概念與原則指導(dǎo)時(shí)，預(yù)期本領(lǐng)域普通技術(shù)人員將能夠容易地生成這樣的軟件指令與程序與IC，而只需最少的實(shí)驗(yàn)。
在前面的詳述中，已描述本發(fā)明的特定實(shí)施例。然而，本領(lǐng)域普通技術(shù)人員意識(shí)到，可進(jìn)行各種修改與變動(dòng)，而不偏離如所附權(quán)利要求書所闡明的本發(fā)明的范圍。相應(yīng)地，說(shuō)明書與附圖應(yīng)被視為闡釋性的而非限制性的，并且所有這樣的修改均被試圖包括在本發(fā)明的范圍之內(nèi)。好處、優(yōu)點(diǎn)、問(wèn)題的解決方案，以及任何可引起任何好處、優(yōu)點(diǎn)、或解決方案發(fā)生或變得更加顯著的元素，不應(yīng)被解釋為任何權(quán)利要求的決定性的、必需的、或本質(zhì)性的特性或元素。本發(fā)明僅由所附權(quán)利要求書，包括在本申請(qǐng)的預(yù)決期間進(jìn)行的任何修正，以及權(quán)利要求的所有等價(jià)物，來(lái)定義。
權(quán)利要求
1.一種用于講話者驗(yàn)證的方法，其包括使用無(wú)明顯可辨話音與有明顯可辨話音(U/V)語(yǔ)音分類器，對(duì)輸入訓(xùn)練語(yǔ)音信號(hào)進(jìn)行分類，以輸出干凈的有明顯可辨話音的語(yǔ)音分量，并對(duì)輸入測(cè)試語(yǔ)音信號(hào)進(jìn)行分類，以輸出嘈雜的無(wú)明顯可辨話音的語(yǔ)音分量；使用所述的干凈的有明顯可辨話音語(yǔ)音分量從通用背景模型(UBM)生成干凈目標(biāo)語(yǔ)音模型(CTM)；使用所述的嘈雜的無(wú)明顯可辨話音語(yǔ)音分量從所述CTM生成嘈雜目標(biāo)語(yǔ)音模型(NTM)；為所述輸入測(cè)試語(yǔ)音信號(hào)計(jì)算初始CTM匹配分值，并以來(lái)自所述UBM的匹配分值輸出對(duì)其進(jìn)行歸一化，以創(chuàng)建第一初步匹配分值；為所述輸入測(cè)試語(yǔ)音信號(hào)計(jì)算初始NTM匹配分值，并以來(lái)自所述UBM的匹配分值輸出對(duì)其進(jìn)行歸一化，以創(chuàng)建第二初步匹配分值；和使用所述第一與第二初步匹配分值確定最終匹配分值。
2.如權(quán)利要求1所述的方法，其中，所述UBM包括超過(guò)100個(gè)計(jì)算的高斯語(yǔ)音模型。
3.如權(quán)利要求2所述的方法，其中，計(jì)算不超過(guò)五個(gè)額外的高斯語(yǔ)音模型以生成所述CTM與所述NTM兩者。
4.如權(quán)利要求1所述的方法，其中，通過(guò)減去來(lái)自所述UBM的匹配分值輸出來(lái)對(duì)所述初始CTM匹配分值進(jìn)行歸一化，以創(chuàng)建所述第一初步匹配分值。
5.如權(quán)利要求1所述的方法，其中，通過(guò)減去來(lái)自所述UBM的匹配分值輸出來(lái)對(duì)所述初始NTM匹配分值進(jìn)行歸一化，以創(chuàng)建所述第二初步匹配分值。
6.如權(quán)利要求1所述的方法，其中，從所述CTM生成所述NTM還使用來(lái)自所述U/V語(yǔ)音分類器的靜音分量輸出，以定義背景噪聲水平。
7.如權(quán)利要求1所述的方法，其中，所述最終匹配分值是所述第一與第二初步匹配分值之和。
8.如權(quán)利要求1所述的方法，其中，所述U/V語(yǔ)音分類器將語(yǔ)音信號(hào)分類為三種分量靜音、有明顯可辨話音語(yǔ)音、和無(wú)明顯可辨話音語(yǔ)音。
9.如權(quán)利要求1所述的方法，其中，使用最大后驗(yàn)概率(MAP)適配方法生成所述CTM與所述NTM兩者。
10.一種用于講話者驗(yàn)證的系統(tǒng)，包括無(wú)明顯可辨話音與有明顯可辨話音(U/V)語(yǔ)音分類器，其接收輸入訓(xùn)練語(yǔ)音信號(hào)，以輸出干凈的有明顯可辨話音語(yǔ)音分量，并接收輸入測(cè)試語(yǔ)音信號(hào)，以輸出嘈雜的無(wú)明顯可辨話音語(yǔ)音分量；通用背景模型(UBM)，其可操作地連接到所述U/V語(yǔ)音分類器；干凈目標(biāo)語(yǔ)音模型(CTM)，其可操作地連接到所述U/V語(yǔ)音分類器與所述UBM，且其被使用所述的干凈的有明顯可辨話音語(yǔ)音分量從所述UBM生成；嘈雜目標(biāo)語(yǔ)音模型(NTM)，其可操作地連接到所述U/V分類器、所述UBM與所述CTM，且其被使用所述的嘈雜的無(wú)明顯可辨話音語(yǔ)音分量從所述CTM生成；其中，為所述輸入測(cè)試語(yǔ)音信號(hào)計(jì)算初始CTM匹配分值，并以來(lái)自所述UBM的匹配分值輸出對(duì)其進(jìn)行歸一化，以創(chuàng)建第一初步匹配分值，為所述輸入測(cè)試語(yǔ)音信號(hào)計(jì)算初始NTM匹配分值，并以來(lái)自所述UBM的匹配分值輸出對(duì)其進(jìn)行歸一化，以創(chuàng)建第二初步匹配分值，以及使用所述第一與第二初步匹配分值確定最終匹配分值。
11.如權(quán)利要求10所述的系統(tǒng)，其中，所述UBM包括超過(guò)100個(gè)計(jì)算的高斯語(yǔ)音模型。
12.如權(quán)利要求11所述的系統(tǒng)，其中，計(jì)算不超過(guò)五個(gè)額外的高斯語(yǔ)音模型以生成所述CTM與所述NTM兩者。
13.如權(quán)利要求10所述的系統(tǒng)，其中，通過(guò)減去來(lái)自所述UBM的匹配分值輸出來(lái)對(duì)所述初始CTM匹配分值進(jìn)行歸一化，以創(chuàng)建所述第一初步匹配分值。
14.如權(quán)利要求10所述的系統(tǒng)，其中，通過(guò)減去來(lái)自所述UBM的匹配分值輸出來(lái)對(duì)所述初始NTM匹配分值進(jìn)行歸一化，以創(chuàng)建所述第二初步匹配分值。
15.如權(quán)利要求10所述的系統(tǒng)，其中，從所述CTM生成所述NTM還使用來(lái)自所述U/V語(yǔ)音分類器的靜音分量輸出，以定義背景噪聲水平。
16.如權(quán)利要求10所述的系統(tǒng)，其中，所述最終匹配分值是所述第一與第二初步匹配分值之和。
17.如權(quán)利要求10所述的系統(tǒng)，其中，所述U/V語(yǔ)音分類器將語(yǔ)音信號(hào)分類為三種分量靜音、有明顯可辨話音語(yǔ)音、和無(wú)明顯可辨話音語(yǔ)音。
18.如權(quán)利要求10所述的系統(tǒng)，其中，使用最大后驗(yàn)概率(MAP)適配方法生成所述CTM與所述NTM兩者。
全文摘要
一種用于講話者驗(yàn)證的方法與系統(tǒng)，對(duì)于驗(yàn)證諸如講話者的身份等講話者屬性是有用的。在無(wú)明顯可辨話音與有明顯可辨話音(U/V)語(yǔ)音分類器中對(duì)輸入訓(xùn)練語(yǔ)音信號(hào)進(jìn)行分類，以輸出干凈的V語(yǔ)音分量，并對(duì)輸入測(cè)試語(yǔ)音信號(hào)進(jìn)行分類，以輸出嘈雜的U語(yǔ)音分量(605)。使用干凈的V語(yǔ)音分量從通用背景模型(UBM)生成干凈目標(biāo)模型(CTM)(610)。使用嘈雜的U語(yǔ)音分量從CTM生成嘈雜目標(biāo)模型(NTM)(615)。計(jì)算初始CTM匹配分值，以來(lái)自UBM的匹配分值輸出對(duì)其進(jìn)行歸一化，創(chuàng)建第一初步匹配分值(620)。計(jì)算初始NTM匹配分值，以來(lái)自UBM的匹配分值輸出對(duì)其進(jìn)行歸一化，創(chuàng)建第二初步匹配分值(625)。使用第一與第二初步匹配分值確定最終匹配分值(630)。
文檔編號(hào)G10L17/00GK1924998SQ200510097649
公開(kāi)日2007年3月7日申請(qǐng)日期2005年8月29日優(yōu)先權(quán)日2005年8月29日
發(fā)明者黃偉, 韓兆兵, 張亞昕申請(qǐng)人:摩托羅拉公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃偉;韓兆兵;張亞昕
技術(shù)所有人：摩托羅拉公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于講話者驗(yàn)證的方法與系統(tǒng)的制作方法