亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于與文本相關(guān)的說話者驗證的雙重評分方法及系統(tǒng)的制作方法

文檔序號:2826022閱讀:188來源:國知局
用于與文本相關(guān)的說話者驗證的雙重評分方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供說話者驗證系統(tǒng)及方法。該方法包括接收說話者話語并響應(yīng)話語確定與文本無關(guān)的說話者驗證分?jǐn)?shù)和與文本相關(guān)的說話者驗證分?jǐn)?shù)。還包括響應(yīng)于與文本相關(guān)的說話者驗證分?jǐn)?shù)和與文本無關(guān)的說話者驗證分?jǐn)?shù)之間關(guān)系來確定與UBM無關(guān)的說話者標(biāo)準(zhǔn)化分?jǐn)?shù),并且對于各話語將與UBM無關(guān)的說話者驗證分?jǐn)?shù)和與文本相關(guān)的說話者驗證分?jǐn)?shù)映射至二維分?jǐn)?shù)空間,其分成與接受分?jǐn)?shù)、不明確分?jǐn)?shù)和拒絕分?jǐn)?shù)對應(yīng)的三個集群。用于說話者驗證置信分?jǐn)?shù)生成的二進制決策樹被通過識別二進制決策樹各節(jié)點的邏輯函數(shù)識別,并且通過在各節(jié)點處執(zhí)行邏輯函數(shù)以對應(yīng)于話語生成該置信分?jǐn)?shù),以將話語的與文本相關(guān)的說話者驗證分?jǐn)?shù)和與UBM無關(guān)的說話者驗證分?jǐn)?shù)映射到二進制決策。
【專利說明】用干與文本相關(guān)的說話者驗證的雙重評分方法及系統(tǒng)
[0001]優(yōu)先權(quán)要求
[0002]本申請要求2012年5月31日提交的第201204003-6號新加坡專利申請的優(yōu)先權(quán)?!炯夹g(shù)領(lǐng)域】
[0003]本發(fā)明通常涉及說話者驗證,更具體地是涉及用干與文本相關(guān)的說話者驗證的系統(tǒng)及方法。
【背景技術(shù)】
[0004]說話者驗證或說話者認(rèn)證(亦稱為“語音生物測定”)是包括通過使用他/她聲音中固有的顯著特征來接受或拒絕說話者的身份請求的ニ進制分類任務(wù)。很多因素可能會約束說話者驗證系統(tǒng)。尤其是說話者之間和自身的可變性以及渠道影響嚴(yán)重影響語音驗證系統(tǒng)的精度。此外,對于現(xiàn)實應(yīng)用中人體工程學(xué)的使用,通常需要關(guān)于登記和測試語音材料的持續(xù)時間約束。遺憾的是,當(dāng)處理短于十秒的語音話語時,在不受約束的條件下已經(jīng)證明其效能的目前說話者識別引擎顯示出了其局限性。自動身份驗證引擎的執(zhí)行也遭受真實欺詐。對于語音生物測定的情況,其主要包括回放在客戶不知情的情況下從客戶處獲取的錄
曰?
[0005]因此,需要一種用于說話者驗證的系統(tǒng)及方法,以克服現(xiàn)有技術(shù)的這些缺點。此外,結(jié)合附圖及該【背景技術(shù)】中,根據(jù)通過以下詳細(xì)描述和權(quán)利要求,其它期望的特點和特征將是顯而易見的。

【發(fā)明內(nèi)容】

[0006]根據(jù)【具體實施方式】,提供了一種說話者驗證方法。該方法包括:接收說話者的話語,響應(yīng)于該話語,確定與文本無關(guān)的說話者驗證分?jǐn)?shù)和與文本相關(guān)的說話者驗證分?jǐn)?shù)。該方法還包括:響應(yīng)于與文本相關(guān)的說話者驗證分?jǐn)?shù)和與文本無關(guān)的說話者驗證分?jǐn)?shù)之間的關(guān)系,確定與UBM無關(guān)的說話者標(biāo)準(zhǔn)化分?jǐn)?shù),以及響應(yīng)于與UBM無關(guān)的說話者標(biāo)準(zhǔn)化分?jǐn)?shù),確定說話者驗證。
[0007]根據(jù)另一方面,提供了一種與用背景模型(UBM)無關(guān)的說話者驗證方法。該方法包括:接收說話者的話語,響應(yīng)于該語,確定與文本無關(guān)的說話者驗證分?jǐn)?shù)和與文本相關(guān)的說話者驗證分?jǐn)?shù)。最后,該方法包括:響應(yīng)于與文本相關(guān)的說話者驗證分?jǐn)?shù)和與文本無關(guān)的說話者驗證分?jǐn)?shù)之間的關(guān)系,確定與UBM無關(guān)的說話者標(biāo)準(zhǔn)化分?jǐn)?shù),以及響應(yīng)于與UBM無關(guān)的說話者標(biāo)準(zhǔn)化分?jǐn)?shù),確定說話者驗證。
[0008]根據(jù)又一方面,提供了一種雙重評分的與文本相關(guān)的說話者驗證方法。該方法包括:接收多個測試話語,響應(yīng)于多個話語的每個,確定與文本無關(guān)的說話者驗證分?jǐn)?shù),并響應(yīng)于多個話語的每個,確定與文本相關(guān)的說話者驗證分?jǐn)?shù)。該方法還包括:響應(yīng)于與文本相關(guān)的說話者驗證分?jǐn)?shù)和與文本無關(guān)的說話者驗證分?jǐn)?shù)之間的關(guān)系,確定與UBM無關(guān)的說話者標(biāo)準(zhǔn)化分?jǐn)?shù),并且對于多個話語的每個,將與UBM無關(guān)的說話者標(biāo)準(zhǔn)化分?jǐn)?shù)和與文本相關(guān)的說話者驗證分?jǐn)?shù)映射在ニ維分?jǐn)?shù)空間中。該方法還包括:將ニ維分?jǐn)?shù)空間分為三個集群,該三個集群對應(yīng)于接受分?jǐn)?shù)、不明確分?jǐn)?shù)以及拒絕分?jǐn)?shù)。最后,該方法包括:通過確定ニ進制決策樹的每個節(jié)點處的邏輯函數(shù),來定義用于說話者驗證置信分?jǐn)?shù)的生成的ニ進制決策樹。
[0009]并且,根據(jù)又一方面,提供了一種用于說話者驗證的系統(tǒng)。該系統(tǒng)包括:音頻接收設(shè)備和處理器。音頻接收設(shè)備接收說話者的話語,并將話語轉(zhuǎn)換為話語信號。處理器耦合到音頻接收設(shè)備,以響應(yīng)于話語信號來確定說話者驗證。通過響應(yīng)于話語信號來確定與文本無關(guān)的說話者驗證分?jǐn)?shù)和與文本相關(guān)的說話者驗證分?jǐn)?shù)、以及響應(yīng)于與文本相關(guān)的說話者驗證分?jǐn)?shù)和與文本無關(guān)的說話者驗證分?jǐn)?shù)之間的關(guān)系來確定與UBM無關(guān)的說話者標(biāo)準(zhǔn)化分?jǐn)?shù),該處理器響應(yīng)于與UBM無關(guān)的說話者標(biāo)準(zhǔn)化分?jǐn)?shù)來確定說話者驗證。
[0010]附圖簡要說明
[0011]在附圖中,在各個附圖中相同的附圖標(biāo)記表示相同的或功能相似的部分,附圖與以下的詳細(xì)描述一同并入說明書并且成為說明書的一部分,用于示出各種實施方式以及解釋根據(jù)本實施方式的各種原理及優(yōu)點。
[0012]圖1是示出根據(jù)本實施方式的用于雙重評分說話者驗證系統(tǒng)的分級多層聲學(xué)模型(HiLAM)體系結(jié)構(gòu)的示意圖。
[0013]圖2示出根據(jù)利用圖1體系結(jié)構(gòu)的實施方式的示例性雙重評分說話者驗證系統(tǒng),其中,圖2A是示出示例性系統(tǒng)的示意圖,圖2B是示出根據(jù)本實施方式執(zhí)行雙重評分說話者驗證的系統(tǒng)中的處理器的流程圖。
[0014]圖3包括圖3A、3B、3C以及3D,示出根據(jù)本實施方式通過圖1的HiLAM說話者驗證引擎得到的與文本無關(guān)及與文本相關(guān)分?jǐn)?shù)的分布圖,其中,圖3A是說出正確密碼短語的目標(biāo)說話者的圖表,圖3B是說出錯誤密碼短語的目標(biāo)說話者的圖表,圖3C是說出正確密碼短語的冒充者的圖表,圖3D是說出錯誤密碼短語的冒充者的圖表。
[0015]圖4示出按照在具有或沒有用于不同類型測試的相同聲學(xué)模型上的左右約束的情況下由圖1的HiLAM說話者驗證引擎實施的維特比對準(zhǔn)的百分比,分配到相同狀態(tài)的幀的分布圖。
[0016]圖5包括圖5A和5B,示出根據(jù)圖1的HiLAM說話者驗證引擎的評分的圖,其中,圖5A示出UBM標(biāo)準(zhǔn)化的與文本相關(guān)的評分的圖,圖5B示出說話者標(biāo)準(zhǔn)化的與文本相關(guān)的評分的圖。
[0017]圖6包括圖6A和6B,示出根據(jù)圖1的HiLAM說話者驗證引擎的評分的圖,其中,圖6A示出UBM標(biāo)準(zhǔn)化的與文本相關(guān)的評分的圖,圖6B示出說話者標(biāo)準(zhǔn)化的與文本相關(guān)的評分的圖。
[0018]圖7包括圖7A、7B以及7C,示出使用決策樹實施的軟決策邊緣系統(tǒng),其中,圖7A是文字化決策樹,圖7B是形象化決策樹,圖7C是圖形化決策樹。
[0019]圖8示出通過邏輯函數(shù)將雙重分?jǐn)?shù)映射到單個置信分?jǐn)?shù)。
[0020]本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,為了簡單清楚起見,圖中所示元件并沒有按照比例繪制。例如,為了有助于本發(fā)明的理解,示意圖或流程圖中的某些部分相對于其他部分,其尺寸可能被放大?!揪唧w實施方式】
[0021]下文中的詳細(xì)描述在本質(zhì)上僅為示例性的,并不意在限定本發(fā)明或本發(fā)明應(yīng)用及使用。此外,也不意在受到本發(fā)明的【背景技術(shù)】或下文中的詳細(xì)描述提出的任何理論的約束。本發(fā)明的目的在于提供一種說話者驗證系統(tǒng)及方法,以顯著地改進影響商務(wù)說話者驗證引擎的主要遞降系數(shù)的兩個,即持續(xù)時間約束和欺詐攻擊。
[0022]要求說話者說出特定話語是約束條件之一,其因短的講話時間而可以輕易地維持性能。大量的與文本有關(guān)的說話者識別方法已經(jīng)被提出以應(yīng)對短的持續(xù)時間。文本相關(guān)性還可以通過驗證必須說出隨機提示文本的說話者是否活著,來幫助防止錄音回放欺詐。
[0023]多層聲學(xué)體系結(jié)構(gòu)已經(jīng)被提出,其源自公知的GMM/UBM (高斯混合模型(GaussianMixture Model) /通用背景模型(Universal Background Model))框架,該框架允許同時執(zhí)行與文本無關(guān)和與文本有關(guān)的驗證。因此,根據(jù)本實施方式,本文中將描述使用稱為分級多層聲學(xué)模型(Hierarchical mult1-Layer Acoustic Model (HiLAM))的三層體系結(jié)構(gòu)和新的說話者特定的分?jǐn)?shù)標(biāo)準(zhǔn)化方法的新分?jǐn)?shù)計算方法。相比于傳統(tǒng)的UBM標(biāo)準(zhǔn)化評分,該說話者特定的分?jǐn)?shù)標(biāo)準(zhǔn)化方法提供了更高的驗證精度。此外,我們利用HiLAM結(jié)構(gòu)的特性,提出了ー種雙重評分軟邊緣(soft margin)決策,其能夠更好地區(qū)分目標(biāo)、非目標(biāo)以及錄音回放驗證。
[0024]參照圖1,略圖100示出了根據(jù)本實施方式的HiLAM體系結(jié)構(gòu)105。該體系結(jié)構(gòu)中所有節(jié)點125、135為共享相同方差(variance)和權(quán)重參數(shù)的高斯混合模型(GMM)。第一及第二層110、120與傳統(tǒng)的GMM/UBM的體系結(jié)構(gòu)相似,其中,位于上層的UBM建模通常的語音聲學(xué)空間。中間層120為與文本無關(guān)的說話者模型,由UBM的傳統(tǒng)最大后驗概率(Maximuma Posteriori, MAP)的改編(adaptation)而獲得。底層130取決于左右隱馬爾可夫模型(left-right Hidden Markov Model (HMM))的能力,以利用密碼短語(pass-phrase)的特定時態(tài)結(jié)構(gòu)。各HMM狀態(tài)135的發(fā)射概率密度函數(shù)源于中間層的與說話者相關(guān)的GMM125。這些GMM135的姆個都改編自遵循使用期望最大化(Expectation Maximization (EM))算法的MAP標(biāo)準(zhǔn)的與文本無關(guān)的說話者模型。
[0025]根據(jù)本實施方式,與權(quán)重參數(shù)被改編的傳統(tǒng)體系結(jié)構(gòu)相反地使用平均參數(shù)。因此,本實施方式由連續(xù)密度隱馬爾可夫模型(continuous density Hidden Markov Model(CDHMM))替代半連續(xù)隱馬爾可夫模型(sem1-continuous Hidden Markov Model (SCHMM)),從而以更高的運算量為代價來提供更高的精度。
[0026]此外,HiLAM體系結(jié)構(gòu)105中的所有節(jié)點125、135都共享取自UBM的相同方差和權(quán)重參數(shù)。通過這種方式,根據(jù)本實施方式在所有三個層110、120、130之間的聲學(xué)模型的一致性將作為說話者特定的分?jǐn)?shù)標(biāo)準(zhǔn)化的基礎(chǔ)。
[0027]根據(jù)本實施方式,通過首先訓(xùn)練UBM115來訓(xùn)練HiLAM結(jié)構(gòu)體系105以建模聲學(xué)空間。之后,與文本無關(guān)的說話者模型120改編自具有由客戶發(fā)言的所有數(shù)據(jù)的UBM115。最后,執(zhí)行迭代訓(xùn)練以訓(xùn)練第三層HMM130。為了初始化用于各密碼短語的HMM,將話語(utterance) 138分成S個片段{segj 140,各個片段140具有相同長度。HMM135的每個狀態(tài)都改編自使用相應(yīng)的segi的中間層GMM125。然后使用改編后的HMM135實施新的分割。根據(jù)本實施方式,維特比算法145用于該分割,并且執(zhí)行該迭代操作直至維特比路徑會聚。此外,根據(jù)本實施方式,憑經(jīng)驗選擇狀態(tài)S的數(shù)目,并且左右HMM的轉(zhuǎn)換設(shè)置為等概率。[0028]在語音驗證期間,相對于HiLAM體系結(jié)構(gòu)105中的三個層110、120、130的每個,語音序列X = {x1; x2, -xt,…,xT}的序列似然性如下計算:‘Μ (X)為在UBM115上的X的似然性,LeMM (X)為在與說話者相關(guān)且與文本無關(guān)的GMM125上的X的似然性,以及(X)為在通過維特比譯碼130對齊的與說話者相關(guān)且與文本相關(guān)的HMM130上的似然性。
[0029]遵循已知的GMM/UBM的規(guī)范,與文本無關(guān)的分?jǐn)?shù)STI (X)被計算為:
[0030]
【權(quán)利要求】
1.一種說話者驗證方法,包括: 接收說話者的話語; 響應(yīng)于所述話語,來確定與文本無關(guān)的說話者驗證分?jǐn)?shù); 響應(yīng)于所述話語,來確定與文本相關(guān)的說話者驗證分?jǐn)?shù); 響應(yīng)于所述與文本相關(guān)的說話者驗證分?jǐn)?shù)與所述與文本無關(guān)的說話者驗證分?jǐn)?shù)之間的關(guān)系,來確定與通用背景模型(UBM)無關(guān)的說話者標(biāo)準(zhǔn)化分?jǐn)?shù);以及 響應(yīng)于所述與通用背景模型無關(guān)的說話者標(biāo)準(zhǔn)化分?jǐn)?shù),來確定說話者驗證。
2.如權(quán)利要求1所述的方法,其中,確定所述與文本相關(guān)的說話者驗證分?jǐn)?shù)的步驟包括: 響應(yīng)于通過維特比譯碼對齊的所述話語的隱馬爾可夫模型(HMM),來確定所述與文本相關(guān)的說話者驗證分?jǐn)?shù)。
3.如權(quán)利要求1所述的方法,其中,確定所述與文本無關(guān)的說話者驗證分?jǐn)?shù)的步驟包括: 響應(yīng)于所述話語的與說話者相關(guān)且與文本無關(guān)的高斯混合模型(GMM),來確定所述與文本無關(guān)的說話者驗證分?jǐn)?shù)。
4.如權(quán)利要求1所述的方法,其中,響應(yīng)于所述與通用背景模型無關(guān)的說話者標(biāo)準(zhǔn)化分?jǐn)?shù)來確定說話者驗證的步驟包括: 響應(yīng)于所述與通用背景模型無關(guān)的說話者標(biāo)準(zhǔn)化分?jǐn)?shù)和所述與文本相關(guān)的說話者驗證分?jǐn)?shù)的雙重評分軟決策邊緣的結(jié)合,來確定說話者驗證。
5.如權(quán)利要求1所述的方法,還包括: 確定響應(yīng)于使錯誤接受(PFA)最小化的說話者標(biāo)準(zhǔn)化分?jǐn)?shù)而限定的第一閾值;以及 確定響應(yīng)于使錯誤拒絕(PFK)最小化的與文本相關(guān)的說話者驗證分?jǐn)?shù)而限定的第二閾值。
6.如權(quán)利要求5所述的方法,還包括: 響應(yīng)于在評分試驗中施加到所述說話者的多個說話者分?jǐn)?shù)的第一閾值和第二閾值,來確定決策樹分類評分函數(shù)。
7.如權(quán)利要求6所述的方法,其中,所述決策樹分類評分函數(shù)包括具有三個決策范圍的ー維置信區(qū)間,并且其中,響應(yīng)于所述與通用背景模型無關(guān)的說話者標(biāo)準(zhǔn)化分?jǐn)?shù)來確定說話者驗證的步驟包括:響應(yīng)于將所述與通用背景模型無關(guān)的說話者標(biāo)準(zhǔn)化分?jǐn)?shù)和與文本相關(guān)的說話者驗證分?jǐn)?shù)映射到所述三個決策范圍,來確定說話者驗證。
8.如權(quán)利要求7所述的方法,其中,所述三個決策范圍包括接受決策范圍、不明確決策范圍和拒絕決策范圍。
9.如權(quán)利要求8所述的方法,還包括: 響應(yīng)于將所述與通用背景模型無關(guān)的說話者標(biāo)準(zhǔn)化分?jǐn)?shù)和所述與文本相關(guān)的說話者驗證分?jǐn)?shù)映射到所述不明確決策范圍的所述說話者驗證,來請求進ー步的說話者話語。
10.如權(quán)利要求1所述的方法,其中,確定所述與通用背景模型無關(guān)的說話者標(biāo)準(zhǔn)化分?jǐn)?shù)的步驟包括: 響應(yīng)于所述與文本相關(guān)的說話者驗證分?jǐn)?shù)和所述與文本無關(guān)的說話者驗證分?jǐn)?shù)之間的似然比,來確定所述與通用背景模型無關(guān)的說話者標(biāo)準(zhǔn)化分?jǐn)?shù)。
11.如權(quán)利要求10所述的方法,其中,所述話語包括提示的密碼短語,并且其中,確定所述與文本無關(guān)的說話者驗證分?jǐn)?shù)的步驟包括:響應(yīng)于所述話語并且進一歩響應(yīng)于與所述提示的密碼短語不同的且由所述說話者之前發(fā)出作為錄音回放欺詐的ー個或多個密碼短語,來確定所述與文本無關(guān)的說話者驗證分?jǐn)?shù)。
12.如權(quán)利要求10所述的方法,其中,確定所述與通用背景模型無關(guān)的說話者標(biāo)準(zhǔn)化分?jǐn)?shù)的步驟包括: 確定似然比
13.如權(quán)利要求1所述的方法,還包括: 接收多個測試話語; 響應(yīng)于所述多個話語的每個,來確定與文本無關(guān)的說話者驗證分?jǐn)?shù); 響應(yīng)于所述多個話語的每個,來確定與文本相關(guān)的說話者驗證分?jǐn)?shù); 響應(yīng)于用于所述多 個話語的每個的所述與文本無關(guān)的說話者驗證分?jǐn)?shù)與所述與文本相關(guān)的說話者驗證分?jǐn)?shù)之間的關(guān)系,來確定與通用背景模型無關(guān)的說話者標(biāo)準(zhǔn)化分?jǐn)?shù);將用于所述多個話語的每個的所述與文本相關(guān)的說話者驗證分?jǐn)?shù)和所述與通用背景模型無關(guān)的說話者標(biāo)準(zhǔn)化分?jǐn)?shù)映射到ニ維分?jǐn)?shù)空間中; 將所述ニ維分?jǐn)?shù)空間分為三個集群,所述三個集群對應(yīng)于接受分?jǐn)?shù)、不明確分?jǐn)?shù)和拒絕分?jǐn)?shù);以及 通過在ニ進制決策樹的各節(jié)點處識別邏輯函數(shù),來定義用于說話者驗證置信分?jǐn)?shù)的生成的ニ進制決策樹, 其中,響應(yīng)于所述與通用背景模型無關(guān)的說話者標(biāo)準(zhǔn)化分?jǐn)?shù)來確定說話者驗證的步驟包括:生成與所述話語對應(yīng)的說話者驗證置信分?jǐn)?shù),以響應(yīng)于在所述ニ進制決策樹的各個節(jié)點處執(zhí)行所述邏輯函數(shù),從而將用于所述話語的所述與文本相關(guān)的說話者驗證分?jǐn)?shù)和用于所述話語的所述與通用背景模型無關(guān)的說話者標(biāo)準(zhǔn)化分?jǐn)?shù)映射在所述ニ進制決策樹上。
14.如權(quán)利要求13所述的方法,其中,定義所述ニ進制決策樹的步驟包括:根據(jù)分級多層聲學(xué)模型(HiLAM)的ニ進制樹建模方法,定義用于說話者驗證置信分?jǐn)?shù)的生成的所述ニ進制決策樹。
15.一種說話者驗證系統(tǒng),包括: 音頻接收設(shè)備,用于接收來自說話者的話語,并將所述話語轉(zhuǎn)換為話語信號;以及處理器,與所述音頻接收設(shè)備耦合,以響應(yīng)于所述話語信號來確定說話者驗證,其中,所述處理器根據(jù)上述權(quán)利要求中任一項所述的方法來確定說話者驗證。
【文檔編號】G10L17/08GK103456304SQ201310214139
【公開日】2013年12月18日 申請日期:2013年5月31日 優(yōu)先權(quán)日:2012年5月31日
【發(fā)明者】安東尼·拉爾徹, 李功益, 馬斌, 蔡玉翠香 申請人:新加坡科技研究局
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1