專利名稱:說話者驗證的制作方法
說話者驗證本發(fā)明是申請日為2008年8月19日、申請?zhí)枮?00780005880. X、發(fā)明名稱為“說話者驗證”的中國專利申請的分案申請。背景說話者驗證是基于語音信號檢驗說話者聲明身份的過程。驗證通常使用已經(jīng)為使用系統(tǒng)的每個人進行過訓(xùn)練的語音模型來執(zhí)行。通常存在有兩類說話者驗證,即獨立于文本和依賴于文本。在獨立于文本的說話者驗證中,說話者提供他們想要提供的任何語音內(nèi)容。在依賴于文本的說話者驗證中,說話者在模型訓(xùn)練和驗證系統(tǒng)使用期間朗讀一特定短語。通過重復(fù)相同短語,就可以構(gòu)造用于文本依賴說話者驗證系統(tǒng)的語音單位和這些語音單位之間過渡的強模型。而在文本獨立說話者驗證系統(tǒng)中則不是這 樣,因為許多語音單位和語音單位之間的許多過渡將不會在訓(xùn)練期間被觀察到,于是將不會在模型中良好表示。以上討論僅提供一般背景信息,并不旨在幫助確定權(quán)利要求的主題的范圍。概述說話者驗證通過確定測試發(fā)言和存儲的訓(xùn)練發(fā)言的相似性得分來執(zhí)行。計算相似性得分涉及確定一組函數(shù)之和,其中每個函數(shù)包括混合成分的后驗概率與適應(yīng)均值和背景均值間差異之積。適應(yīng)均值是基于背景均值和測試發(fā)言形成的。提供本概述以便以簡化形式介紹將在以下詳細描述中進一步描述的一些概念。本概述不旨在標(biāo)識所要求保護的主題的關(guān)鍵特征或必要特征,也不旨在用于幫助確定所要求保護的主題的范圍。所要求保護的主題不限于解決任何或所有在背景中提及缺點的實現(xiàn)。附圖簡述圖I是可在其中實踐一些實施例的一個計算環(huán)境的框圖。圖2是可在其中實踐一些實施例的可選計算環(huán)境的框圖。圖3是一種訓(xùn)練文本獨立驗證系統(tǒng)的方法的流程圖。圖4是用于訓(xùn)練文本獨立驗證系統(tǒng)的各元素的框圖。圖5是一種用于在訓(xùn)練期間設(shè)置閾值的方法的流程圖。圖6是一種標(biāo)識測試發(fā)言的模型參數(shù)的流程圖。圖7是在圖6和圖8方法中使用的各元素的框圖。圖8是一種確定測試發(fā)言閾值的方法的流程圖。圖9是一種驗證測試發(fā)言的方法的流程圖。
圖10是用于驗證測試發(fā)言的各元素的框圖。圖11是一種訓(xùn)練用于文本依賴驗證系統(tǒng)的隱馬爾科夫模型的方法的流程圖。圖12是用于訓(xùn)練隱馬爾科夫模型的各元素的框圖。圖13是一種使用隱馬爾科夫模型驗證測試發(fā)言的方法的流程圖。圖14是一種使用隱馬爾科夫模型驗證測試發(fā)言的各元素的框圖。詳細描述圖I示出了可在其上實現(xiàn)各實施例的合適計算系統(tǒng)環(huán)境100的示例。計算系統(tǒng)100僅為合適的操作環(huán)境的一個示例,并非對所要求保護的主題的使用范圍或功能提出任何局限。也不應(yīng)該把計算環(huán)境100解釋為對示例性操作環(huán)境100中示出的任一組件或其組合有任何依賴性或要求。各實施例可用各種其它通用或?qū)S糜嬎阆到y(tǒng)環(huán)境或配置來操作。適合在各實施例中使用的公知的計算系統(tǒng)、環(huán)境和/或配置的示例包括,但不限于,個人計算機、服務(wù)器計算機、手持或膝上型設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、機頂盒、可編程消費者電子產(chǎn)品、網(wǎng)絡(luò)PC、小型機、大型機、包含上述系統(tǒng)或設(shè)備中的任一個的分布式計算機環(huán)境等。各實施例可在諸如由計算機執(zhí)行的程序模塊等計算機可執(zhí)行指令的通用上下文中描述。一般而言,程序模塊包括例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等,它們執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型。一些實施例被設(shè)計為在分布式計算環(huán)境中實施,在分布式計算環(huán)境中任務(wù)是由通過通信網(wǎng)絡(luò)鏈接的遠程處理設(shè)備來執(zhí)行的。在分布式計算環(huán)境中,程序模塊位于包括記憶存儲設(shè)備的本地和遠程計算機存儲介質(zhì)上。參考圖1,用于實現(xiàn)一些實施例的一個示例性系統(tǒng)包括計算機110形式的通用計算設(shè)備。計算機110的組件可以包括,但不限于處理單元120、系統(tǒng)存儲器130和將包括系統(tǒng)存儲器在內(nèi)的各種系統(tǒng)組件耦合至處理單元120的系統(tǒng)總線121。系統(tǒng)總線121可以是若干種總線結(jié)構(gòu)中的任一種,包括存儲器總線或存儲器控制器、外圍總線以及使用各類總線體系結(jié)構(gòu)中的任一種的局部總線。作為示例而非局限,這類體系結(jié)構(gòu)包括工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(ISA)總線、微通道體系結(jié)構(gòu)(MCA)總線、增強型ISA(EISA)總線、視頻電子技術(shù)標(biāo)準(zhǔn)協(xié)會(VESA)局部總線、以及外圍部件互連(PCI)總線(也稱為小背板(Mezzanine)總線)。計算機110通常包括各種計算機可讀介質(zhì)。計算機可讀介質(zhì)可以是可由計算機110訪問的任何可用介質(zhì),且包括易失性和非易失性介質(zhì)、可移動和不可移動介質(zhì)。作為示例,而非限制,計算機可讀介質(zhì)可以包括計算機存儲介質(zhì)和通信介質(zhì)。計算機存儲介質(zhì)包括以任何方法或技術(shù)實現(xiàn)的用于存儲諸如計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)等信息的易失性和非易失性、可移動和不可移動介質(zhì)。計算機存儲介質(zhì)包括,但不限于,RAM、ROM、EEPR0M、閃存或其它存儲器技術(shù)、CD-ROM、數(shù)字多功能盤(DVD)或其它光盤存儲、磁帶盒、磁帶、磁盤存儲或其它磁性存儲設(shè)備、或能用于存儲所需信息且可以由計算機110訪問的任何其它介質(zhì)。通信介質(zhì)通常具體化為諸如載波或其它傳輸機制等已調(diào)制數(shù)據(jù)信號中的計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù),且包含任何信息傳遞介質(zhì)。術(shù)語“已調(diào)制數(shù)據(jù)信號”指的是這樣一種信號,其一個或多個特征以在信號中編碼信息的方式被設(shè)定或更改。作為示例,而非限制,通信介質(zhì)包括有線介質(zhì),諸如有線網(wǎng)絡(luò)或直接線連接,以及無線介質(zhì),諸如聲學(xué)、RF、紅外線和其它無線介質(zhì)。上述的任意組合應(yīng)該包含在計算機可讀介質(zhì)的范圍內(nèi)。系統(tǒng)存儲器130包括易失性和/或非易失性存儲器形式的計算機存儲介質(zhì),如只讀存儲器(ROM) 131和隨機存取存儲器(RAM) 132?;据斎?輸出系統(tǒng)133 (BIOS)包含有助于諸如啟動時在計算機110中元件之間傳遞信息的基本例程,它通常被存儲在ROM 131中。RAM 132通常包含處理單元120可以立即訪問和/或目前正在操作的數(shù)據(jù)和/或程序模塊。作為示例而非局限,圖I示出了操作系統(tǒng)134、應(yīng)用程序135、其它程序模塊136和程序數(shù)據(jù)137。計算機110還可以包括其他可移動/不可移動、易失性/非易失性計算機存儲介質(zhì)。僅作為示例,圖I示出了從不可移動、非易失性磁介質(zhì)中讀取或向其寫入的硬盤驅(qū)動器、141,從可移動、非易失性磁盤152中讀取或向其寫入的磁盤驅(qū)動器151,以及從諸如⑶ROM或其它光學(xué)介質(zhì)等可移動、非易失性光盤156中讀取或向其寫入的光盤驅(qū)動器155??梢栽谑纠圆僮鳝h(huán)境中使用的其它可移動/不可移動、易失性/非易失性計算機存儲介質(zhì)包括,但不限于,盒式磁帶、閃存卡、數(shù)字多功能盤、數(shù)字錄像帶、固態(tài)RAM、固態(tài)ROM等。硬盤驅(qū)動器141通常由不可移動存儲器接口,諸如接口 140連接至系統(tǒng)總線121,磁盤驅(qū)動器151和光盤驅(qū)動器155通常由可移動存儲器接口,諸如接口 150連接至系統(tǒng)總線121。上面討論并在圖I中說明的驅(qū)動器和它們的相關(guān)計算機存儲介質(zhì)為計算機110提供了對計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其它數(shù)據(jù)的存儲。例如,在圖I中,硬盤驅(qū)動器141被示為存儲操作系統(tǒng)144、應(yīng)用程序145、其它程序模塊146和程序數(shù)據(jù)147。注意,這些組件可以與操作系統(tǒng)134、應(yīng)用程序135、其它程序模塊136和程序數(shù)據(jù)137相同或不同。操作系統(tǒng)144、應(yīng)用程序145、其它程序模塊146和程序數(shù)據(jù)147在這里被標(biāo)注了不同的標(biāo)號是為了說明至少它們是不同的副本。用戶可以通過例如是鍵盤162、麥克風(fēng)163和定點設(shè)備161的輸入設(shè)備將命令和信 息輸入至計算機110中,定點設(shè)備161例如是鼠標(biāo)、軌跡球或觸摸板。其他輸入設(shè)備(未圖示)可以包括操縱桿、游戲墊、衛(wèi)星天碟、掃描儀等。這些和其它輸入設(shè)備通常由耦合至系統(tǒng)總線的用戶輸入接口 160連接至處理單元120,但也可以由其它接口或總線結(jié)構(gòu),諸如并行端口、游戲端口或通用串行總線(USB)連接。監(jiān)視器191或其它類型的顯示設(shè)備也經(jīng)由諸如視頻接口 190等接口連接到系統(tǒng)總線121。除監(jiān)視器以外,計算機也可以包括其它外圍輸出設(shè)備,諸如揚聲器197和打印機196,它們可以通過輸出外圍接口 195連接。計算機110使用到例如是遠程計算機180的一個或多個遠程計算機的邏輯連接在連網(wǎng)環(huán)境中運行。遠程計算機180可以是個人計算機、手持設(shè)備、服務(wù)器、路由器、網(wǎng)絡(luò)PC、對等設(shè)備或其他通用網(wǎng)絡(luò)節(jié)點,且典型地包括以上關(guān)于計算機110描述的許多或所有的要素。圖I中所示的邏輯連接包括局域網(wǎng)(LAN) 171和廣域網(wǎng)(WAN) 173,但也可以包括其它網(wǎng)絡(luò)。這樣的聯(lián)網(wǎng)環(huán)境在辦公室、企業(yè)范圍計算機網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)和因特網(wǎng)中是常見的。當(dāng)在LAN聯(lián)網(wǎng)環(huán)境中使用時,計算機110通過網(wǎng)絡(luò)接口或適配器170連接至LAN171。當(dāng)在WAN聯(lián)網(wǎng)環(huán)境中使用時,計算機110通常包括調(diào)制解調(diào)器172或用于通過諸如因特網(wǎng)等WAN 173建立通信的其它裝置。調(diào)制解調(diào)器172可以是內(nèi)置或外置的,它可以通過用戶輸入接口 160或其它合適的機制連接至系統(tǒng)總線121。在網(wǎng)絡(luò)化環(huán)境中,相對于計算機110所描述的程序模塊或其部分可以存儲在遠程存儲器存儲設(shè)備中。作為示例,而非限定,圖I示出了遠程應(yīng)用程序185駐留在遠程計算機180上??梢岳斫?,示出的網(wǎng)絡(luò)連接是示例性的,并且可以使用在計算機之間建立通信鏈路的其它手段。圖2是移動設(shè)備200的框圖,其是示例性的計算環(huán)境。移動設(shè)備200包括微處理器202、存儲器204、輸入/輸出(I/O)組件206和用于與遠程計算機或其他移動設(shè)備通信的通信接口 208。在一實施例中,前面提到的組件在合適總線210上耦合以便相互通信。存儲器204用電池備份模塊(未圖示)實現(xiàn)為諸如隨機存取存儲器(RAM)等的非易失性電子存儲器,以使存儲在存儲器204中的信息在對移動設(shè)備200的總電源關(guān)閉時不會丟失。存儲器204的一部分優(yōu)選地被分配為用于程序執(zhí)行的可尋址存儲器,而存儲器204的另一部分優(yōu)選地被用于存儲,例如模擬硬盤驅(qū)動器上的存儲。存儲器204包括操作系統(tǒng)212、應(yīng)用程序214以及對象存儲216。在運行期間,操作系統(tǒng)212優(yōu)選地由處理器202從存儲器204執(zhí)行。操作系統(tǒng)212在一優(yōu)選實施例中是可從微軟公司購得的WINDOWS CE操作系統(tǒng)。操作系統(tǒng)212優(yōu)選地為移動設(shè)備設(shè)計,并且實現(xiàn)數(shù)據(jù)庫特征,該數(shù)據(jù)庫特征能被應(yīng)用程序214通過一組曝露的應(yīng)用程序編程接口和方法來利用。在對象存儲216中的對象由應(yīng)用程序214和操作系統(tǒng)212至少部分地響應(yīng)對曝露的應(yīng)用程序編程接口和方法的調(diào)用來維護。通信接口 208代表多種允許移動設(shè)備200發(fā)送和接收信息的設(shè)備和技術(shù)。僅舉數(shù)例,這些設(shè)備包括有線和無線調(diào)制解調(diào)器、衛(wèi)星接收機和廣播調(diào)諧器。移動設(shè)備200還可以直接連接到計算機以與其交換數(shù)據(jù)。在此類情形中,通信接口 20 8可以是紅外收發(fā)機或者串行或并行通信連接,所有的這些都能傳輸流信息。輸入/輸出組件206包括例如是觸敏屏、按鈕、滾輪、和麥克風(fēng)等的各種輸入設(shè)備,以及包括音頻發(fā)生器、振動設(shè)備和顯示器等的輸出設(shè)備。以上列出的設(shè)備是作為示例且不需要都出現(xiàn)在移動設(shè)備200上。此外,還可以用其他輸入/輸出設(shè)備附連至移動設(shè)備200或在其中找到。獨立于文本的說話者檢驗在本發(fā)明的一個實施例中,提供了一種獨立于文本的說話者驗證系統(tǒng),該系統(tǒng)通過形成基于自適應(yīng)用戶訓(xùn)練語音的模型和自適應(yīng)測試語音信號的模型的相似性測度來驗證測試語音信號。更具體地,相似性測度使用兩個自適應(yīng)模型和背景模型之間的差異。在一個實施例中,背景模型是如下定義的高斯混合模型P(xt I A0) = EW1P1 (xt I A0) = E WlNixt Tni,Ei)式 I
Z=IZ=I其中M是模型中混合分量的個數(shù),Wi是第i個混合分量的權(quán)重,Hii是第i個混合分量的均值,而E i是第i個分量的協(xié)方差矩陣。符號X ^表示背景模型的一組參數(shù)(每個分量的權(quán)重、均值和協(xié)方差)。背景模型適于使用如下等式訓(xùn)練語音
權(quán)利要求
1.一種用于獨立于文本的說話者驗證的方法 確定(800)測試發(fā)言(714)與一組訓(xùn)練發(fā)言集合(418)中的每一發(fā)言之間的相似性得分; 使用(800)所述相似性得分選擇所述一組訓(xùn)練發(fā)言集合的一個子集(720); 使用訓(xùn)練發(fā)言的所述子集(720)來定義閾值(724);以及 使用(906)所述閾值來確定所述測試發(fā)言和一存儲的用戶發(fā)言之間的驗證相似性得分。
2.如權(quán)利要求I所述的方法,其特征在于,確定(906)相似性得分包括基于所述測試發(fā)言適應(yīng)(604)背景模型以形成適應(yīng)模型的混合分量的均值并在所述相似性得分中使用(906)所述適應(yīng)模型的混合分量的均值。
3.如權(quán)利要求2所述的方法,其特征在于,使用(906)所述適應(yīng)均值包括確定所述適應(yīng)均值和所述背景模型的背景均值之差并使用所述差來確定所述相似性得分。
4.如權(quán)利要求3所述的方法,其特征在于,確定所述相似性得分還包括基于所述測試發(fā)言確定(602)混合分量的概率并使用針對所述混合分量的所述概率與所述適應(yīng)模型的混合分量的均值和所述背景模型的混合分量的均值之差的積來確定所述相似性得分。
5.如權(quán)利要求I所述的方法,其特征在于,使用所述閾值來確定驗證相似性得分包括 使用(804,800)所述閾值確定所述測試發(fā)言和所述一組訓(xùn)練發(fā)言集合中每一發(fā)言之間的新的相似性得分; 使用(800)所述新的相似性得分選擇所述一組訓(xùn)練發(fā)言集合的第二子集; 使用(802)訓(xùn)練發(fā)言的所述第二子集來定義第二閾值;以及 使用(906)所述閾值和所述第二閾值來確定所述測試發(fā)言和一存儲的用戶發(fā)言之間的驗證相似性得分。
6.如權(quán)利要求I所述的方法,其特征在于,還包括 確定(502)所述存儲的用戶發(fā)言和所述一組訓(xùn)練發(fā)言集合中每一發(fā)言之間的相似性得分; 使用(502)所述相似性得分選擇所述一組訓(xùn)練發(fā)言集合的用戶特定的子集; 使用(504)訓(xùn)練發(fā)言的所述用戶特定的子集來定義用戶特定的閾值;以及使用(906)所述用戶特定的閾值來確定所述測試發(fā)言和所述存儲的用戶發(fā)言之間的所述驗證相似性得分。
7.如權(quán)利要求6所述的方法,其特征在于,使用訓(xùn)練發(fā)言的所述用戶特定的子集來定義用戶特定的閾值包括使用由針對訓(xùn)練發(fā)言所述子集中每個訓(xùn)練發(fā)言的背景模型適應(yīng)的均值418。
8.一種用于依賴于文本的說話者驗證的方法,包括 使用來自多個說話者的文本獨立語音(1200)來訓(xùn)練(1100)高斯混合模型(1212); 接收(1102)來自用戶的訓(xùn)練發(fā)言(1216); 基于所述訓(xùn)練發(fā)言適應(yīng)(1103)所述高斯混合模型以形成針對所述用戶的隱馬爾科夫模型狀態(tài)概率參數(shù)(1404); 設(shè)置(1106)隱馬爾科夫模型轉(zhuǎn)換概率參數(shù)(1406);以及 使用所述隱馬爾科夫模型狀態(tài)概率參數(shù)(1404)和所述隱馬爾科夫模型轉(zhuǎn)換概率參數(shù)(1406)來確定(1312)測試發(fā)言(1408)是否是由所述用戶發(fā)出的。
9.如權(quán)利要求8所述的方法,其特征在于,設(shè)置隱馬爾科夫模型轉(zhuǎn)換概率參數(shù)包括 設(shè)置(1106)初始隱馬爾科夫模型轉(zhuǎn)換概率參數(shù)(1232); 使用(1108)所述隱馬爾科夫模型狀態(tài)概率參數(shù)和所述初始隱馬爾科夫模型轉(zhuǎn)換概率參數(shù)來將所述測試發(fā)言解碼成的一經(jīng)解碼的隱馬爾科夫模型狀態(tài)序列(1230);以及 基于所述經(jīng)解碼的一隱馬爾科夫模型狀態(tài)序列,更新(1106)所述隱馬爾科夫模型轉(zhuǎn)換概率參數(shù)(1232)。
10.如權(quán)利要求8所述的方法,其特征在于,還包括使用(1101)所述高斯混合模型來形成基線隱馬爾科夫模型狀態(tài)概率參數(shù)(1213),并且其中確定所述測試發(fā)言是否由所述用戶發(fā)出還包括使用所述基線隱馬爾科夫模型狀態(tài)概率參數(shù)(1213)來確定所述測試發(fā)言是否由所述用戶發(fā)出。
11.如權(quán)利要求10所述的方法,其特征在于,確定所述測試發(fā)言是否由所述用戶發(fā)出包括 使用所述隱馬爾科夫模型狀態(tài)概率參數(shù)(1404)和所述隱馬爾科夫模型轉(zhuǎn)換概率參數(shù)(1406)解碼(1308)所述測試發(fā)言,從而確定用戶概率(1424); 使用所述基線隱馬爾科夫模型狀態(tài)概率參數(shù)(1213)和所述隱馬爾科夫模型轉(zhuǎn)換概率參數(shù)(1406)解碼(1306)所述測試發(fā)言,從而確定基線概率(1422);以及 使用(1310)所述用戶概率和所述基線概率來生成得分。
全文摘要
說話者驗證通過確定測試發(fā)言和存儲的訓(xùn)練發(fā)言的相似性得分來執(zhí)行。計算相似性得分涉及確定一組函數(shù)之和,其中每個函數(shù)包括混合成分的先驗概率與適應(yīng)均值和背景均值間差值之積。適應(yīng)均值是基于背景均值和測試發(fā)言形成的。由該說話者提供的用于驗證的語音內(nèi)容可以是獨立于文本(即,他們想說的任何內(nèi)容)或者依賴于文本(即,用于訓(xùn)練的特定短語)。
文檔編號G10L17/00GK102646416SQ201210055759
公開日2012年8月22日 申請日期2007年2月13日 優(yōu)先權(quán)日2006年2月20日
發(fā)明者M·劉, Z·張 申請人:微軟公司