說話人認(rèn)證的注冊(cè)和驗(yàn)證方法及裝置的制作方法

文檔序號(hào)：2829492閱讀：286來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：說話人認(rèn)證的注冊(cè)和驗(yàn)證方法及裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及信息處理技術(shù)，具體地涉及說話人認(rèn)證(speakerauthentification)。
背景技術(shù)：
利用每個(gè)人說話時(shí)的發(fā)音特點(diǎn)可以識(shí)別出不同的說話人，從而可以進(jìn)行說話人的認(rèn)證。在K.Yu，J.Mason，J.Oglesby發(fā)表的文章“Speakerrecognition using hidden Markov models，dynamic time warping andvector quantisation”(Vision，Image and Signal Processing，IEEProceedings，Vol.142，Oct.1995，pp.313-18)中介紹了常見的三種說話人識(shí)別引擎技術(shù)HMM(Hidden Markov Model，隱馬爾可夫模型)，DTW(Dynamic Timing Warping，動(dòng)態(tài)時(shí)間規(guī)整)和VQ(Vector Quantization，矢量量化)。
通常，說話人認(rèn)證的過程包括注冊(cè)(enrollment)和驗(yàn)證(evaluation)兩個(gè)階段。在注冊(cè)階段，根據(jù)說話人(用戶)本人朗讀的包含密碼的語(yǔ)音，生成該說話人的說話人模板；在驗(yàn)證階段，根據(jù)說話人模板判斷測(cè)試語(yǔ)音是否為該說話人本人說出的相同密碼的語(yǔ)音。
在注冊(cè)階段，說話人模板通常是根據(jù)干凈的語(yǔ)音數(shù)據(jù)訓(xùn)練得到的，而在驗(yàn)證階段，實(shí)際輸入的測(cè)試語(yǔ)音則通常是含噪的，而含噪語(yǔ)音與干凈模板之間進(jìn)行匹配必將導(dǎo)致認(rèn)證精度的下降。
在測(cè)試語(yǔ)音與注冊(cè)模板之間進(jìn)行匹配實(shí)質(zhì)上就是將測(cè)試語(yǔ)音的聲學(xué)特征與注冊(cè)語(yǔ)音的聲學(xué)特征進(jìn)行比對(duì)。因此，無論是在注冊(cè)階段，還是在驗(yàn)證階段，對(duì)語(yǔ)音的聲學(xué)特征的選擇和提取對(duì)于說話人認(rèn)證來說就顯得相當(dāng)重要。
語(yǔ)音聲學(xué)特征的提取的主要任務(wù)是從語(yǔ)音信號(hào)中提取出能夠表征說話人的基本特征。所選取的語(yǔ)音聲學(xué)特征應(yīng)該能夠有效地區(qū)分不同的說話人，而對(duì)于同一說話人的語(yǔ)音變化則應(yīng)該能夠保持相對(duì)的穩(wěn)定性。在J.W.Picone發(fā)表的文章“Signal Modeling Techniques in Speech Recognition”(Proceedings of the IEEE，1993，81(9)1215-1247)中介紹了在語(yǔ)音識(shí)別和說話人識(shí)別中普遍采用的語(yǔ)音特征MFCC(Mel-Frequency CepstralCoefficient，美爾倒頻譜系數(shù))。MFCC是受人的聽覺系統(tǒng)研究成果推動(dòng)而導(dǎo)出的聲學(xué)特征，其考慮了人耳的聽覺特性，將頻譜轉(zhuǎn)化為基于美爾頻標(biāo)的非線性頻譜，然后轉(zhuǎn)換到倒譜域上，從而充分模擬人的聽覺特性。
MFCC的提取過程是首先用FFT(快速傅立葉變換)將語(yǔ)音從時(shí)域信號(hào)轉(zhuǎn)化到頻域，然后利用美爾刻度的三角濾波器組對(duì)其對(duì)數(shù)能量譜進(jìn)行卷積，最后對(duì)各個(gè)濾波器的輸出構(gòu)成的能量向量進(jìn)行離散余弦變換(DCT)，并取前N個(gè)系數(shù)。
但是，利用MFCC存在這樣的缺點(diǎn)，即在特征提取過程中，所采用的是固定的濾波器組，而不是依賴于說話人的自適應(yīng)濾波器組。在驗(yàn)證階段，測(cè)試語(yǔ)音與說話人模板之間的失真測(cè)度通常設(shè)定為對(duì)稱的距離函數(shù)，如歐氏距離、馬氏距離等。固定的濾波器組和對(duì)稱的距離都忽略了具體的信號(hào)或模板中固有的詳細(xì)頻譜結(jié)構(gòu)。這是對(duì)先驗(yàn)知識(shí)的浪費(fèi)，尤其對(duì)像文本相關(guān)的說話人驗(yàn)證這樣的二元決策問題，更是如此。

發(fā)明內(nèi)容
為了解決上述現(xiàn)有技術(shù)中存在的問題，本發(fā)明提供了說話人認(rèn)證的注冊(cè)方法和裝置、說話人認(rèn)證的驗(yàn)證方法和裝置以及說話人認(rèn)證系統(tǒng)。
根據(jù)本發(fā)明的一個(gè)方面，提供了一種說話人認(rèn)證的注冊(cè)方法，包括根據(jù)說話人的注冊(cè)語(yǔ)音，提取語(yǔ)音特征向量序列；以及利用上述語(yǔ)音特征向量序列，生成說話人模板；其中，上述提取語(yǔ)音特征向量序列的步驟包括利用上述說話人的注冊(cè)語(yǔ)音，生成針對(duì)該注冊(cè)語(yǔ)音的濾波器組，用于濾出該注冊(cè)語(yǔ)音的頻譜中的共振峰位置和能量；利用上述生成的濾波器組，對(duì)該注冊(cè)語(yǔ)音的頻譜進(jìn)行濾波；以及根據(jù)濾波后的上述注冊(cè)語(yǔ)音，生成特征向量序列。
根據(jù)本發(fā)明的另一個(gè)方面，提供了一種說話人認(rèn)證的驗(yàn)證方法，包括根據(jù)輸入的語(yǔ)音，提取語(yǔ)音特征向量序列；根據(jù)注冊(cè)的說話人模板和上述提取的語(yǔ)音特征向量序列，判斷該輸入的語(yǔ)音是否為說話人本人說出的注冊(cè)密碼語(yǔ)音；其中，上述注冊(cè)的說話人模板是利用前面任意一項(xiàng)權(quán)利要求所述的說話人認(rèn)證的注冊(cè)方法生成的說話人模板；以及所述根據(jù)輸入的語(yǔ)音提取語(yǔ)音特征向量序列的步驟包括利用注冊(cè)時(shí)針對(duì)說話人本人的注冊(cè)語(yǔ)音生成的濾波器組，對(duì)該輸入的語(yǔ)音的頻譜進(jìn)行濾波；以及根據(jù)濾波后的上述輸入的語(yǔ)音，生成特征向量序列。
根據(jù)本發(fā)明的另一個(gè)方面，提供了一種說話人認(rèn)證的注冊(cè)裝置，包括語(yǔ)音輸入單元(utterance input unit)，用于輸入說話人說出的包含密碼的注冊(cè)語(yǔ)音；聲學(xué)特征提取單元(acoustic feature extractor)，用于根據(jù)上述濾波后的注冊(cè)語(yǔ)音，提取出特征向量序列；以及模板生成單元(templategenerator)，用于利用上述語(yǔ)音特征向量序列，生成說話人模板，其中，上述聲學(xué)特征提取單元包括濾波器組生成單元(filter-bank generator)，用于利用上述說話人的注冊(cè)語(yǔ)音，生成針對(duì)該注冊(cè)語(yǔ)音的濾波器組；濾波單元(filtering unit)，用于利用上述生成的針對(duì)上述注冊(cè)語(yǔ)音的濾波器組，對(duì)該注冊(cè)語(yǔ)音的頻譜進(jìn)行濾波。
根據(jù)本發(fā)明的另一個(gè)方面，提供了一種說話人認(rèn)證的驗(yàn)證裝置，包括語(yǔ)音輸入單元(utterance input unit)，用于輸入語(yǔ)音；聲學(xué)特征提取單元(acoustic feature extractor)，用于根據(jù)上述輸入的語(yǔ)音，生成特征向量序列；以及判斷單元，通過比較注冊(cè)的說話人模板和上述提取的語(yǔ)音特征向量序列，判斷上述輸入的語(yǔ)音是否為說話人本人說出的注冊(cè)密碼語(yǔ)音，其中，該注冊(cè)的說話人模板是利用前面所述的說話人認(rèn)證的注冊(cè)方法生成的說話人模板；其中，上述聲學(xué)特征提取單元，包括濾波單元(filteringunit)，用于利用注冊(cè)時(shí)針對(duì)說話人本人的注冊(cè)語(yǔ)音生成的濾波器組，對(duì)上述輸入的語(yǔ)音的頻譜進(jìn)行濾波。
根據(jù)本發(fā)明的另一個(gè)方面，提供了一種說話人認(rèn)證系統(tǒng)，包括前面所述的說話人認(rèn)證的注冊(cè)裝置；以及前面所述的說話人認(rèn)證的驗(yàn)證裝置。

相信通過以下結(jié)合附圖對(duì)本發(fā)明具體實(shí)施方式
的說明，能夠使人們更好地了解本發(fā)明上述的特點(diǎn)、優(yōu)點(diǎn)和目的。
圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的說話人認(rèn)證的注冊(cè)方法的流程圖；圖2是根據(jù)本發(fā)明另一個(gè)實(shí)施例的說話人認(rèn)證的注冊(cè)方法的流程圖；圖3是根據(jù)本發(fā)明一個(gè)實(shí)施例的說話人認(rèn)證的驗(yàn)證方法的流程圖；圖4是利用本發(fā)明的聲學(xué)特征所表征的示例性注冊(cè)語(yǔ)音與輸入語(yǔ)音的對(duì)照?qǐng)D；圖5是根據(jù)本發(fā)明一個(gè)實(shí)施例的說話人認(rèn)證的注冊(cè)裝置的流程圖；圖6是根據(jù)本發(fā)明另一個(gè)實(shí)施例的說話人認(rèn)證的注冊(cè)裝置的方框圖；圖7是根據(jù)本發(fā)明一個(gè)實(shí)施例的說話人認(rèn)證的驗(yàn)證裝置的方框圖；以及圖8是根據(jù)本發(fā)明一個(gè)實(shí)施例的說話人認(rèn)證系統(tǒng)的方框圖。
具體實(shí)施例方式
下面就結(jié)合附圖對(duì)本發(fā)明的各個(gè)優(yōu)選實(shí)施例進(jìn)行詳細(xì)的說明。
圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的說話人認(rèn)證的注冊(cè)(enrollment)方法的流程圖。如圖1所示，首先在步驟101，輸入由說話人說出的包含密碼的語(yǔ)音。其中，密碼是用戶在注冊(cè)階段設(shè)定的用于驗(yàn)證的特定短語(yǔ)或發(fā)音序列。
在步驟105，對(duì)上述說話人說出的注冊(cè)語(yǔ)音進(jìn)行預(yù)處理。
在本步驟中，對(duì)注冊(cè)語(yǔ)音進(jìn)行常規(guī)的預(yù)處理，例如首先對(duì)注冊(cè)語(yǔ)音進(jìn)行模數(shù)轉(zhuǎn)換，然后對(duì)其進(jìn)行分幀(framing)處理，并對(duì)含噪的注冊(cè)語(yǔ)音信號(hào)進(jìn)行濾波，得到干凈的信號(hào)。然后，通過預(yù)加重技術(shù)濾除注冊(cè)語(yǔ)音中的低頻干擾，并計(jì)算除噪后的語(yǔ)音數(shù)據(jù)的短時(shí)能量和短時(shí)過零率，并通過對(duì)語(yǔ)音數(shù)據(jù)的短時(shí)能量和短時(shí)過零率進(jìn)行檢測(cè)而剔除靜默、白噪聲和清音，而保留有效的濁音信號(hào)。關(guān)于語(yǔ)音信號(hào)的預(yù)處理，可參考J.W.Picone發(fā)表的文章“Signal Modeling Techniques in Speech Recognition”(Proceedingsof the IEEE，1993，81(9)1215-1247)，其對(duì)語(yǔ)音信號(hào)的預(yù)處理的過程進(jìn)行了詳細(xì)描述。
在步驟110，對(duì)預(yù)處理后的注冊(cè)語(yǔ)音的每一幀進(jìn)行線性預(yù)測(cè)分析，以得到該幀的線性預(yù)測(cè)系數(shù)向量。
線性預(yù)測(cè)，又叫線性預(yù)測(cè)分析，更常被稱為線性預(yù)測(cè)編碼，簡(jiǎn)寫為L(zhǎng)PC(Linear Predictive Coding)。準(zhǔn)確地說，線性預(yù)測(cè)是指最佳線性向前一步純預(yù)測(cè)，其能夠以少數(shù)低信息率的時(shí)變參數(shù)來表示語(yǔ)音信號(hào)波形，并對(duì)語(yǔ)音參數(shù)(如基音頻率、共振峰、功率譜等)進(jìn)行精確的估計(jì)。
在本步驟中，利用LPC分析來估計(jì)注冊(cè)語(yǔ)音的譜峰，進(jìn)而對(duì)注冊(cè)語(yǔ)音的語(yǔ)音參數(shù)(在本實(shí)施例中主要是共振峰)進(jìn)行估計(jì)。具體地，在本步驟中，通過對(duì)注冊(cè)語(yǔ)音的每一數(shù)據(jù)幀(一般語(yǔ)音信號(hào)的采樣頻率為8kHz，典型幀長(zhǎng)為10～30ms)進(jìn)行線性預(yù)測(cè)分析，得到表征各幀的語(yǔ)音參數(shù)的線性預(yù)測(cè)(LPC)系數(shù)向量。
如本領(lǐng)域的技術(shù)人員所公知的那樣，語(yǔ)音的線性預(yù)測(cè)分析通常包括對(duì)于主要語(yǔ)音信號(hào)的每個(gè)取樣值，用其過去的若干個(gè)取樣值的加權(quán)和(線性組合)來表示；各加權(quán)系數(shù)的確定原則是使預(yù)測(cè)誤差的均方值最小(即遵循所謂最小均方準(zhǔn)則)，而預(yù)測(cè)誤差的定義為真實(shí)取樣值與預(yù)測(cè)值之差。
對(duì)于線性預(yù)測(cè)分析，例如可以參考Fikret Gurgen、Shigeki Sagayama、Sadaoki Furui發(fā)表的文章“A Study of Line Spectrum Pair FrequencyRepresentation for Speech Recognition”(IEICE Trans.Fundamentals，Vol.E75-A，No.1，Jan.1992，98-102.)。
接著，在步驟115，生成針對(duì)上述注冊(cè)語(yǔ)音的濾波器組。在本實(shí)施例中，對(duì)上面得到的注冊(cè)語(yǔ)音每一幀的線性預(yù)測(cè)系數(shù)向量進(jìn)行LSP(LineSpectrum Pair，線譜對(duì))分析，以獲得各幀的線譜對(duì)，并將這些線譜對(duì)組成為線譜對(duì)組，作為針對(duì)該注冊(cè)語(yǔ)音的濾波器組。
LSP可以看作是語(yǔ)音數(shù)據(jù)LPC譜的另一種表示。LSP系數(shù)可以由上述LPC系數(shù)計(jì)算得到，只需要如下合并前向和后向預(yù)測(cè)多項(xiàng)式P(z)＝A(z)+B(z)，Q(z)＝A(z)-B(z)其中，多項(xiàng)式P(z)是對(duì)稱的，Q(z)是反對(duì)稱的，P(z)的一個(gè)根為z＝+1，Q(z)的一個(gè)根為z＝-1。多項(xiàng)式P和Q的其他根都位于Z域的單位圓上，并且是共軛對(duì)。這些根的相位角，即{oi，i＝1，2，...，M}稱為線譜對(duì)。
關(guān)于LSP分析，同樣可參考Fikret Gurgen、Shigeki Sagayama、Sadaoki Furui發(fā)表的文章“A Study of Line Spectrum Pair FrequencyRepresentation for Speech Recognition”(IEICE Trans.Fundamentals，Vol.E75-A，No.1，Jan.1992，98-102.)。
接著，在步驟120，獲得上述預(yù)處理后的注冊(cè)語(yǔ)音數(shù)據(jù)的頻譜。具體地，在本步驟中，對(duì)在步驟105進(jìn)行了預(yù)處理后的注冊(cè)語(yǔ)音數(shù)據(jù)的每一幀進(jìn)行快速傅立葉變換，而得到各幀的幀譜。各幀的幀譜結(jié)合起來，便形成該注冊(cè)語(yǔ)音的頻譜。
在步驟125，對(duì)上述注冊(cè)語(yǔ)音的頻譜進(jìn)行濾波。具體地，在本步驟中，利用在步驟115獲得的濾波器組，即線譜對(duì)組，對(duì)注冊(cè)語(yǔ)音數(shù)據(jù)每一幀的幀譜進(jìn)行濾波。由于該線譜對(duì)組是通過對(duì)注冊(cè)語(yǔ)音的線性預(yù)測(cè)分析而導(dǎo)出的，并且其中的線譜對(duì)精確地描述注冊(cè)語(yǔ)音數(shù)據(jù)的頻譜中的共振峰的位置，相鄰的線譜對(duì)之間的能量描述共振峰的強(qiáng)度，因此，在本步驟中，通過利用該線譜對(duì)組對(duì)注冊(cè)語(yǔ)音的每一幀的幀譜進(jìn)行濾波，而從各幀提取出共振峰的“位置+強(qiáng)度”形式的聲學(xué)特征向量。所有幀的聲學(xué)特征向量組成了該注冊(cè)語(yǔ)音的聲學(xué)特征向量序列。
接著，在步驟130，為該注冊(cè)語(yǔ)音生成說話人模板。具體地，在本實(shí)施例中，說話人模板包含上述提取出的聲學(xué)特征向量序列和為該語(yǔ)音設(shè)定的分辯閾值。在此，本發(fā)明對(duì)于生成說話人模板的方式并沒有特別限制，可以采用任何本領(lǐng)域中已知的能夠根據(jù)聲學(xué)特征生成說話人模板的方法。
以上是對(duì)本實(shí)施例的說話人認(rèn)證的注冊(cè)方法的詳細(xì)描述。需要說明的是，在本實(shí)施例中，步驟120被示為在步驟110和115之后執(zhí)行，但是，本實(shí)施例并不旨在限制于這樣的執(zhí)行方式，在實(shí)際實(shí)現(xiàn)中，可以在步驟110和115之前執(zhí)行步驟120，或在執(zhí)行步驟110、115的同時(shí)執(zhí)行步驟120，這些執(zhí)行方式同樣都能夠達(dá)到本發(fā)明的目的。
還需要說明的是，上述說話人認(rèn)證的注冊(cè)過程是針對(duì)一個(gè)注冊(cè)語(yǔ)音的過程，在實(shí)際應(yīng)用中，為使所提取的注冊(cè)語(yǔ)音的聲學(xué)特征更準(zhǔn)確，通常會(huì)進(jìn)行注冊(cè)語(yǔ)音的訓(xùn)練，即對(duì)說話人的多個(gè)注冊(cè)語(yǔ)音分別進(jìn)行特征提取并對(duì)所提取出的多組聲學(xué)特征(說話人模板)進(jìn)行合并。在進(jìn)行模板合并時(shí)，例如可以采用基于DTW的模板合并方法，詳細(xì)內(nèi)容可以參考W.H.Abdulla、D.Chow和G.Sin發(fā)表的文章“Cross-words reference templatefor DTW-based speech recognition systems”(IEEE TENCON 2003，pp.1576-1579)。
在多個(gè)注冊(cè)語(yǔ)音的情況下，利用本實(shí)施例，除了對(duì)聲學(xué)特征(說話人模板)進(jìn)行合并之外，還要在特征提取結(jié)束之后將各特征提取過程所分別生成的濾波器組進(jìn)行合并和保存，以便在驗(yàn)證過程中使用。在本實(shí)施例中，對(duì)于濾波器組的合并，可以采取以下方式取多個(gè)濾波器組的平均；取多個(gè)濾波器組中所表征的共振峰的位置范圍最窄的濾波器組；取多個(gè)濾波器組中所表征的共振峰的位置范圍最寬的濾波器組等。
圖2是根據(jù)本發(fā)明另一個(gè)實(shí)施例的說話人認(rèn)證的注冊(cè)(enrollment)方法的流程圖。下面就結(jié)合該圖，對(duì)本實(shí)施例進(jìn)行描述。對(duì)于那些與前面實(shí)施例相同的部分，適當(dāng)省略其說明。
本實(shí)施例與圖1所示的實(shí)施例的區(qū)別在于，在對(duì)注冊(cè)語(yǔ)音進(jìn)行特征提取時(shí)，生成濾波器組的方法、進(jìn)而所生成的濾波器組是不同的。
如圖2所示，在步驟201和205，本實(shí)施例與前面圖1所示的實(shí)施例基本相同。接著，在步驟210，對(duì)上述注冊(cè)語(yǔ)音的每一幀進(jìn)行共振峰預(yù)測(cè)分析，以得到各幀的共振峰位置向量。關(guān)于共振峰預(yù)測(cè)分析，可參考LWelling，H Ney發(fā)表的文章“Formant Estimation for Speech Recognition”(IEEE Transactions on Speech and Audio Processing，vol.6，NO.1，JANUARY 1998)和A Watanabe發(fā)表的文章“Formant Estimation MethodUsing Inverse-Filter Control”(IEEE Transactions on Speech and AudioProcessing，VOL.9，NO.4，MAY 2001)。在本實(shí)施例中，將上面得到的注冊(cè)語(yǔ)音各幀的共振峰位置向量組成為共振峰位置向量組，作為針對(duì)該注冊(cè)語(yǔ)音的濾波器組。
步驟215與前面圖1所示的實(shí)施例中的步驟120相同，對(duì)注冊(cè)語(yǔ)音數(shù)據(jù)的每一幀進(jìn)行快速傅立葉變換，而得到各幀的幀譜。
在步驟220，對(duì)注冊(cè)語(yǔ)音每一幀的幀譜進(jìn)行濾波。具體地，在本實(shí)施例中，利用在步驟210中獲得的濾波器組(本實(shí)施例中為共振峰位置向量組)，對(duì)注冊(cè)語(yǔ)音數(shù)據(jù)的每一幀的幀譜進(jìn)行濾波，從而得到各幀的描述共振峰的位置的聲學(xué)特征向量。而所有幀的聲學(xué)特征向量則組成了該注冊(cè)語(yǔ)音的聲學(xué)特征向量序列。
此后的步驟225與前面圖1所示的實(shí)施例中的步驟130相同，為該注冊(cè)語(yǔ)音生成說話人模板。
同樣地，在本實(shí)施例中，步驟215被示為在步驟210之后執(zhí)行，但是，本實(shí)施例并不旨在限制于這樣的執(zhí)行方式，在實(shí)際實(shí)現(xiàn)中，可以在步驟210之前執(zhí)行步驟215，或在執(zhí)行步驟210的同時(shí)執(zhí)行步驟215。
利用本實(shí)施例，同樣可進(jìn)行注冊(cè)語(yǔ)音的訓(xùn)練，即對(duì)說話人的多個(gè)注冊(cè)語(yǔ)音分別進(jìn)行特征提取并對(duì)所提取出的聲學(xué)特征序列(說話人模板)進(jìn)行合并。在此情況下，在本實(shí)施例中，除了對(duì)各聲學(xué)特征序列(說話人模板)進(jìn)行合并之外，還要在特征提取結(jié)束之后將各特征提取過程所分別生成的濾波器組進(jìn)行合并和保存，以便在驗(yàn)證過程中使用。
圖3是根據(jù)本發(fā)明一個(gè)實(shí)施例的說話人認(rèn)證的驗(yàn)證(verification)方法的流程圖。下面結(jié)合該圖，對(duì)本實(shí)施例進(jìn)行描述。
在步驟301，輸入要驗(yàn)證的語(yǔ)音。
在步驟305，對(duì)輸入語(yǔ)音進(jìn)行預(yù)處理。本步驟中對(duì)輸入語(yǔ)音的預(yù)處理方式與前面圖1所示的實(shí)施例中對(duì)注冊(cè)語(yǔ)音的預(yù)處理方式相同，這里不再重復(fù)描述。
在步驟310，獲得上述預(yù)處理后的輸入語(yǔ)音的頻譜。具體地，在本步驟中，對(duì)上述預(yù)處理后的輸入語(yǔ)音的每一幀進(jìn)行快速傅立葉變換，而得到輸入語(yǔ)音數(shù)據(jù)的各幀的幀譜。各幀的幀譜結(jié)合起來，便形成該輸入語(yǔ)音的頻譜。
在步驟315，對(duì)上述輸入語(yǔ)音的頻譜進(jìn)行濾波。具體地，在本步驟中，利用在注冊(cè)階段針對(duì)該說話人本人的注冊(cè)語(yǔ)音生成的濾波器組(在利用圖1所示的注冊(cè)方法的情況下為線譜對(duì)組，在利用圖2所示的注冊(cè)方法的情況下為共振峰位置向量組)，對(duì)輸入語(yǔ)音的每一幀的幀譜進(jìn)行濾波。通過濾波，從輸入語(yǔ)音的各幀中提取出共振峰的“位置+強(qiáng)度”形式的聲學(xué)特征向量。所有幀的聲學(xué)特征向量組成了該輸入語(yǔ)音的聲學(xué)特征向量序列。
接著，在步驟320，對(duì)聲學(xué)特征向量序列和說話人模板進(jìn)行DTW匹配，計(jì)算距離。與以往的說話人認(rèn)證的過程相同，通常，計(jì)算距離的過程如下(1)計(jì)算聲學(xué)特征向量序列的各幀與說話人模板各幀之間的所有節(jié)點(diǎn)距離(局部距離)。圖4示出了利用本發(fā)明的聲學(xué)特征所表征的示例性輸入語(yǔ)音數(shù)據(jù)與說話人模板的一個(gè)對(duì)應(yīng)幀。由于本發(fā)明的聲學(xué)特征是共振峰的“位置+強(qiáng)度”形式的，因此，本發(fā)明的說話人模板與輸入語(yǔ)音數(shù)據(jù)之間的距離計(jì)算針對(duì)于它們之間的“強(qiáng)度(能量)”差異來進(jìn)行。具體地，在本步驟中，計(jì)算出說話人模板與輸入語(yǔ)音數(shù)據(jù)之間在一個(gè)頻帶內(nèi)的能量差，并對(duì)所計(jì)算出的所有頻帶內(nèi)的能量差進(jìn)行求和，來得到一個(gè)幀節(jié)點(diǎn)的距離。
(2)根據(jù)上述計(jì)算得到的節(jié)點(diǎn)距離，對(duì)聲學(xué)特征向量序列與說話人注冊(cè)的說話人模板進(jìn)行DTW匹配，獲得最優(yōu)匹配路徑。
(3)計(jì)算聲學(xué)特征向量序列與說話人模板之間的全局距離(最優(yōu)匹配路徑上的所有幀節(jié)點(diǎn)的距離之和)。
在此需要指出，本發(fā)明對(duì)于計(jì)算聲學(xué)特征向量序列和說話人模板的匹配距離沒有特別的限制，可以采用現(xiàn)有的和將來的各種方式和改進(jìn)方式，例如，在計(jì)算局部距離和全局距離是也可以采用各種線性、非線性變換等，從而進(jìn)一步提高認(rèn)證的可靠性。
接著，在步驟325，判斷上述全局距離是否在預(yù)先設(shè)定的閾值之內(nèi)。如果在閾值之內(nèi)，則在步驟330認(rèn)定是同一說話人說出的相同的密碼，驗(yàn)證成功；如果否，則在步驟335認(rèn)定驗(yàn)證失敗。
本實(shí)施例是通過計(jì)算將注冊(cè)語(yǔ)音數(shù)據(jù)改變?yōu)檩斎胝Z(yǔ)音數(shù)據(jù)所引起的不對(duì)稱的失真，來完成輸入語(yǔ)音和注冊(cè)語(yǔ)音的失真度量的。在實(shí)用中，這種失真測(cè)度比通常的距離函數(shù)更精確、更合理。本實(shí)施例的不對(duì)稱的失真測(cè)度等價(jià)于“Kullback鑒別信息”或“方向散度”。基于這種失真測(cè)度的判決符合最小鑒別信息原理。關(guān)于最小鑒別信息原理，請(qǐng)參見朱雪龍的著作“應(yīng)用信息論基礎(chǔ)”(第七章，清華大學(xué)出版社，北京，2000)。
一般而言，注冊(cè)語(yǔ)音數(shù)據(jù)的噪聲比較小，并且通常其是通過多次訓(xùn)練得到的，因此可以認(rèn)為是干凈語(yǔ)音。而在驗(yàn)證過程中，輸入語(yǔ)音是在實(shí)用場(chǎng)合中輸入的，因此不可避免地存在噪聲污染。根據(jù)本實(shí)施例，在驗(yàn)證階段所使用的濾波器組是根據(jù)注冊(cè)語(yǔ)音、而不是輸入語(yǔ)音生成的，因此濾波過程不會(huì)受到輸入語(yǔ)音數(shù)據(jù)中噪聲的影響。也就是說，在本實(shí)施例中，含噪的輸入語(yǔ)音數(shù)據(jù)是被干凈的注冊(cè)數(shù)據(jù)的先驗(yàn)的頻譜結(jié)構(gòu)進(jìn)行分解的。因此，本實(shí)施例充分利用了干凈的注冊(cè)數(shù)據(jù)中的先驗(yàn)知識(shí)，提供了對(duì)環(huán)境噪聲的穩(wěn)健性。
此外，在本實(shí)施例中，通過使共振峰的位置和強(qiáng)度兩種信息分離，能夠提供對(duì)頻譜結(jié)構(gòu)的精確描述。
在同一發(fā)明構(gòu)思下，圖5是根據(jù)本發(fā)明一個(gè)實(shí)施例的說話人認(rèn)證的注冊(cè)裝置的方框圖。下面就結(jié)合該圖，對(duì)本實(shí)施例進(jìn)行描述。如圖5所示，本實(shí)施例的說話人認(rèn)證的注冊(cè)裝置500，包括語(yǔ)音輸入單元(utteranceinput unit)501，用于輸入說話人說出的包含密碼的注冊(cè)語(yǔ)音；預(yù)處理單元502，用于對(duì)通過語(yǔ)音輸入單元501輸入的注冊(cè)語(yǔ)音進(jìn)行常規(guī)預(yù)處理；頻譜生成單元(spectrum generator)503，用于對(duì)預(yù)處理單元502處理后的注冊(cè)語(yǔ)音的每一幀進(jìn)行快速傅立葉變換，以得到各幀的幀譜，各幀的幀譜結(jié)合起來，便形成注冊(cè)語(yǔ)音的頻譜；聲學(xué)特征提取單元(acoustic featureextractor)504，用于根據(jù)頻譜生成單元503得到的由頻譜表達(dá)的注冊(cè)語(yǔ)音，提取出特征向量序列；模板生成單元(template generator)505，用于利用聲學(xué)特征提取單元504提取出的語(yǔ)音特征向量序列，生成說話人模板。
如圖5所示，上述聲學(xué)特征提取單元504進(jìn)一步包括線性預(yù)測(cè)分析單元(LPC analyser)5041，用于對(duì)預(yù)處理單元502處理后的注冊(cè)語(yǔ)音的每一幀進(jìn)行線性預(yù)測(cè)分析，以得到該幀的線性預(yù)測(cè)系數(shù)向量；線譜對(duì)生成單元(LSP generator)5042，用于根據(jù)線性預(yù)測(cè)分析單元5041所生成的每一幀的線性預(yù)測(cè)系數(shù)向量，計(jì)算出該幀的線譜對(duì)，所有幀的線譜對(duì)組成了線譜對(duì)組，作為針對(duì)注冊(cè)語(yǔ)音的濾波器組；濾波單元(filtering unit)5043，用于利用線譜對(duì)生成單元5042生成的針對(duì)注冊(cè)語(yǔ)音的濾波器組，即線譜對(duì)組，對(duì)頻譜生成單元503得到的注冊(cè)語(yǔ)音的頻譜進(jìn)行濾波，從而得到注冊(cè)語(yǔ)音的聲學(xué)特征。
本實(shí)施例中，提取出的是共振峰的“位置+強(qiáng)度”形式的聲學(xué)特征。在利用注冊(cè)語(yǔ)音生成說話人模板時(shí)，為使所提取的注冊(cè)語(yǔ)音的聲學(xué)特征更準(zhǔn)確，通常會(huì)進(jìn)行注冊(cè)語(yǔ)音的訓(xùn)練，即對(duì)說話人的多個(gè)注冊(cè)語(yǔ)音分別進(jìn)行特征提取并對(duì)所提取的多組聲學(xué)特征(說話人模板)進(jìn)行合并。在此情況下，在本實(shí)施例中，除了對(duì)各聲學(xué)特征(說話人模板)進(jìn)行合并之外，還要在特征提取結(jié)束之后將聲學(xué)特征提取單元針對(duì)同一說話人的不同注冊(cè)語(yǔ)音所分別生成的濾波器組進(jìn)行合并和保存，以便在驗(yàn)證過程中使用。
本實(shí)施例的說話人認(rèn)證的注冊(cè)裝置500及其各個(gè)組成部分，可以用專用的電路或芯片構(gòu)成，也可以通過計(jì)算機(jī)(處理器)執(zhí)行相應(yīng)的程序來實(shí)現(xiàn)。本實(shí)施例的說話人認(rèn)證的注冊(cè)裝置500，操作上可以實(shí)現(xiàn)前面圖1實(shí)施例的說話人認(rèn)證的注冊(cè)方法。
圖6是根據(jù)本發(fā)明另一個(gè)實(shí)施例的說話人認(rèn)證的注冊(cè)裝置的方框圖。下面就結(jié)合該圖，對(duì)本實(shí)施例進(jìn)行描述。對(duì)于那些與前面實(shí)施例相同的部分，適當(dāng)省略其說明。
本實(shí)施例中的語(yǔ)音注冊(cè)裝置600，除了聲學(xué)特征提取單元604與圖5中的聲學(xué)特征提取單元504不同外，其余結(jié)構(gòu)均與圖5相同。本實(shí)施例的聲學(xué)特征提取單元604包括共振峰預(yù)測(cè)分析單元(Formant Estimationanalyser)6041，用于對(duì)預(yù)處理單元602處理后的注冊(cè)語(yǔ)音的每一幀進(jìn)行共振峰預(yù)測(cè)分析，以得到針對(duì)該幀的共振峰位置向量，各幀的共振峰位置向量組成了共振峰位置向量組，作為針對(duì)該注冊(cè)語(yǔ)音的濾波器組；濾波單元(filtering unit)6042，用于利用共振峰預(yù)測(cè)分析單元6041生成的針對(duì)注冊(cè)語(yǔ)音的濾波器組，即共振峰位置向量組，對(duì)頻譜生成單元603所獲得的該注冊(cè)語(yǔ)音的頻譜進(jìn)行濾波，從而得到該注冊(cè)語(yǔ)音的聲學(xué)特征。
本實(shí)施例中所提取出的同樣為“位置+強(qiáng)度”形式的聲學(xué)特征。本實(shí)施例的說話人認(rèn)證的注冊(cè)裝置600及其各個(gè)組成部分，可以用專用的電路或芯片構(gòu)成，也可以通過計(jì)算機(jī)(處理器)執(zhí)行相應(yīng)的程序來實(shí)現(xiàn)。本實(shí)施例的說話人認(rèn)證的注冊(cè)裝置600，操作上可以實(shí)現(xiàn)前面圖2實(shí)施例的說話人認(rèn)證的注冊(cè)方法。
在同一發(fā)明構(gòu)思下，圖7是根據(jù)本發(fā)明一個(gè)實(shí)施例的說話人認(rèn)證的驗(yàn)證裝置的方框圖。下面就結(jié)合該圖，對(duì)本實(shí)施例進(jìn)行描述。
如圖7所示，本實(shí)施例的說話人認(rèn)證的驗(yàn)證裝置700，包括語(yǔ)音輸入單元(utterance input unit)701，用于輸入語(yǔ)音；預(yù)處理單元702，用于對(duì)通過語(yǔ)音輸入單元701輸入的語(yǔ)音進(jìn)行常規(guī)預(yù)處理；頻譜生成單元(spectrum generator)703，用于對(duì)預(yù)處理單元702處理后的輸入語(yǔ)音的每一幀進(jìn)行快速傅立葉變換，以得到各幀的幀譜，各幀的幀譜結(jié)合起來便形成了該輸入語(yǔ)音的頻譜；聲學(xué)特征提取單元(acoustic feature extractor)704，用于根據(jù)上述頻譜生成單元703得到的頻譜表達(dá)的輸入語(yǔ)音，提取出聲學(xué)特征向量序列；判斷單元705，用于通過比較注冊(cè)的說話人模板707和聲學(xué)特征提取單元704提取出的語(yǔ)音特征向量序列，判斷上述輸入的語(yǔ)音是否為說話人本人說出的注冊(cè)密碼語(yǔ)音，其中，注冊(cè)的說話人模板707是利用前面圖1或圖2所示的說話人認(rèn)證的注冊(cè)方法生成的說話人模板。
如圖7所示，聲學(xué)特征提取單元704進(jìn)一步包括濾波單元(filteringunit)7041，用于利用注冊(cè)時(shí)針對(duì)說話人本人的注冊(cè)語(yǔ)音生成的濾波器組(線譜對(duì)組或共振峰位置向量組)706，對(duì)上述輸入的語(yǔ)音的頻譜進(jìn)行濾波，以提取出聲學(xué)特征。
本實(shí)施例的判斷單元705將輸入語(yǔ)音的聲學(xué)特征與注冊(cè)時(shí)根據(jù)注冊(cè)語(yǔ)音生成的說話人模板進(jìn)行比對(duì)，計(jì)算輸入語(yǔ)音和注冊(cè)語(yǔ)音之間的失真度，并判斷該失真度是否在預(yù)先設(shè)定的閾值之內(nèi)。如果在閾值之內(nèi)，則認(rèn)定是同一說話人說出的相同的密碼，驗(yàn)證成功；如果否，則認(rèn)定驗(yàn)證失敗。
本實(shí)施例的說話人認(rèn)證的驗(yàn)證裝置700及其各個(gè)組成部分，可以由專用的電路或芯片構(gòu)成，也可以通過計(jì)算機(jī)(處理器)執(zhí)行相應(yīng)的程序來實(shí)現(xiàn)。并且，本實(shí)施例的說話人認(rèn)證的驗(yàn)證裝置700，操作上可以實(shí)現(xiàn)前面結(jié)合圖3說明的實(shí)施例的說話人認(rèn)證的驗(yàn)證方法。
根據(jù)本實(shí)施例，在驗(yàn)證階段所使用的濾波器組是根據(jù)注冊(cè)語(yǔ)音、而不是輸入語(yǔ)音而生成的，因此濾波過程不會(huì)受到輸入語(yǔ)音數(shù)據(jù)中噪聲的影響。也就是說，在本實(shí)施例中，含噪的輸入語(yǔ)音數(shù)據(jù)是被干凈的注冊(cè)數(shù)據(jù)的先驗(yàn)的頻譜結(jié)構(gòu)進(jìn)行分解的。
在同一發(fā)明構(gòu)思下，圖8是根據(jù)本發(fā)明一個(gè)實(shí)施例的說話人認(rèn)證系統(tǒng)的方框圖。下面就結(jié)合該圖，對(duì)本實(shí)施例進(jìn)行描述。
如圖8所示，本實(shí)施例的說話人認(rèn)證系統(tǒng)包括注冊(cè)裝置500，其可以為前面實(shí)施例描述的說話人認(rèn)證的注冊(cè)裝置500；以及驗(yàn)證裝置700，其可以為前面實(shí)施例描述的說話人認(rèn)證的驗(yàn)證裝置700。由注冊(cè)裝置500生成的說話人模板和濾波器組，通過任意的通信方式，例如，網(wǎng)絡(luò)、內(nèi)部信道、磁盤等記錄媒體等，傳遞給驗(yàn)證裝置700。驗(yàn)證裝置700利用該濾波器組提取出輸入語(yǔ)音的聲學(xué)特征，并根據(jù)提取的輸入語(yǔ)音聲學(xué)特征，與說話人模板進(jìn)行失真度量，從而判斷出輸入語(yǔ)音和注冊(cè)語(yǔ)音是否為同一說話人說出的相同的密碼，以完成相應(yīng)認(rèn)證。
以上雖然通過一些示例性的實(shí)施例對(duì)本發(fā)明的說話人認(rèn)證的注冊(cè)方法和裝置、說話人認(rèn)證的驗(yàn)證方法和裝置以及說話人認(rèn)證系統(tǒng)進(jìn)行了詳細(xì)的描述，但是以上這些實(shí)施例并不是窮舉的，本領(lǐng)域技術(shù)人員可以在本發(fā)明的精神和范圍內(nèi)實(shí)現(xiàn)各種變化和修改。因此，本發(fā)明并不限于這些實(shí)施例，本發(fā)明的范圍僅以所附權(quán)利要求為準(zhǔn)。
權(quán)利要求
1.一種說話人認(rèn)證的注冊(cè)方法，包括根據(jù)說話人的注冊(cè)語(yǔ)音，提取語(yǔ)音特征向量序列；以及利用上述語(yǔ)音特征向量序列，生成說話人模板；其中，上述提取語(yǔ)音特征向量序列的步驟包括利用上述說話人的注冊(cè)語(yǔ)音，生成針對(duì)該注冊(cè)語(yǔ)音的濾波器組，用于濾出該注冊(cè)語(yǔ)音的頻譜中的共振峰位置和能量；利用上述生成的濾波器組，對(duì)該注冊(cè)語(yǔ)音的頻譜進(jìn)行濾波；以及根據(jù)濾波后的上述注冊(cè)語(yǔ)音，生成特征向量序列。
2.根據(jù)權(quán)利要求1所述的說話人認(rèn)證的注冊(cè)方法，其中上述生成針對(duì)注冊(cè)語(yǔ)音的濾波器組的步驟進(jìn)一步包括對(duì)上述注冊(cè)語(yǔ)音的每一幀進(jìn)行線性預(yù)測(cè)分析，以得到該幀的線性預(yù)測(cè)系數(shù)向量；對(duì)上述得到的每一幀的線性預(yù)測(cè)系數(shù)向量進(jìn)行LSP分析以獲得該幀的線譜對(duì)；以及將上述注冊(cè)語(yǔ)音中所有幀的線譜對(duì)組成為線譜對(duì)組，作為針對(duì)該注冊(cè)語(yǔ)音的濾波器組。
3.根據(jù)權(quán)利要求1所述的說話人認(rèn)證的注冊(cè)方法，其中上述生成針對(duì)注冊(cè)語(yǔ)音的濾波器組的步驟進(jìn)一步包括對(duì)上述注冊(cè)語(yǔ)音的每一幀進(jìn)行共振峰預(yù)測(cè)分析，以得到該幀的共振峰位置向量；以及將上述所有幀的共振峰位置向量組成為共振峰位置向量組，作為濾波器組。
4.根據(jù)權(quán)利要求1所述的說話人認(rèn)證的注冊(cè)方法，其中上述對(duì)注冊(cè)語(yǔ)音的頻譜進(jìn)行濾波的步驟進(jìn)一步包括對(duì)上述注冊(cè)語(yǔ)音的每一幀進(jìn)行快速傅立葉變換，以得到該幀的幀譜；以及利用上述濾波器組，對(duì)上述每一幀的幀譜進(jìn)行濾波。
5.根據(jù)權(quán)利要求1所述的說話人認(rèn)證的注冊(cè)方法，其中上述根據(jù)說話人的注冊(cè)語(yǔ)音提取語(yǔ)音特征向量序列的步驟進(jìn)一步包括根據(jù)說話人的多個(gè)注冊(cè)語(yǔ)音，分別提取多個(gè)語(yǔ)音特征向量序列；其中，利用上述語(yǔ)音特征向量序列生成說話人模板的步驟包括對(duì)上述提取出的多個(gè)語(yǔ)音特征向量序列進(jìn)行合并，生成上述說話人模板。
6.根據(jù)權(quán)利要求5所述的說話人認(rèn)證的注冊(cè)方法，其中，為上述每個(gè)注冊(cè)語(yǔ)音生成一個(gè)濾波器組用于對(duì)該注冊(cè)語(yǔ)音的頻譜進(jìn)行濾波，上述方法進(jìn)一步包括將為上述多個(gè)注冊(cè)語(yǔ)音生成的多個(gè)濾波器組合并。
7.一種說話人認(rèn)證的驗(yàn)證方法，包括根據(jù)輸入的語(yǔ)音，提取語(yǔ)音特征向量序列；以及根據(jù)注冊(cè)的說話人模板和上述提取的語(yǔ)音特征向量序列，判斷該輸入的語(yǔ)音是否為說話人本人說出的注冊(cè)密碼語(yǔ)音；其中，上述注冊(cè)的說話人模板是利用前面任意一項(xiàng)權(quán)利要求所述的說話人認(rèn)證的注冊(cè)方法生成的說話人模板；以及所述根據(jù)輸入的語(yǔ)音提取語(yǔ)音特征向量序列的步驟包括利用注冊(cè)時(shí)針對(duì)說話人本人的注冊(cè)語(yǔ)音生成的濾波器組，對(duì)該輸入的語(yǔ)音的頻譜進(jìn)行濾波；以及根據(jù)濾波后的上述輸入的語(yǔ)音，生成特征向量序列。
8.根據(jù)權(quán)利要求7所述的說話人認(rèn)證的驗(yàn)證方法，其中上述對(duì)輸入的語(yǔ)音的頻譜進(jìn)行濾波的步驟進(jìn)一步包括對(duì)上述輸入的語(yǔ)音的每一幀進(jìn)行快速傅立葉變換，以得到輸入的語(yǔ)音每一幀的幀譜；以及利用上述注冊(cè)時(shí)針對(duì)說話人本人的注冊(cè)語(yǔ)音生成的濾波器組，對(duì)上述輸入的語(yǔ)音每一幀的幀譜進(jìn)行濾波。
9.根據(jù)權(quán)利要求7所述的說話人認(rèn)證的驗(yàn)證方法，其中上述濾波器組包括注冊(cè)時(shí)針對(duì)說話人本人的注冊(cè)語(yǔ)音生成的線譜對(duì)組。
10.根據(jù)權(quán)利要求7所述的說話人認(rèn)證的驗(yàn)證方法，其中上述濾波器組包括注冊(cè)時(shí)針對(duì)說話人本人的注冊(cè)語(yǔ)音生成的共振峰位置向量組。
11.一種說話人認(rèn)證的注冊(cè)裝置，包括語(yǔ)音輸入單元(utterance input unit)，用于輸入說話人說出的包含密碼的注冊(cè)語(yǔ)音；聲學(xué)特征提取單元(acoustic feature extractor)，用于根據(jù)上述注冊(cè)語(yǔ)音，提取出特征向量序列；以及模板生成單元(template generator)，用于利用上述語(yǔ)音特征向量序列，生成說話人模板；其中，上述聲學(xué)特征提取單元，包括濾波器組生成單元(filter-bank generator)，用于利用上述說話人的注冊(cè)語(yǔ)音，生成針對(duì)該注冊(cè)語(yǔ)音的濾波器組；以及濾波單元(filtering unit)，用于利用上述生成的針對(duì)上述注冊(cè)語(yǔ)音的濾波器組，對(duì)該注冊(cè)語(yǔ)音的頻譜進(jìn)行濾波。
12.根據(jù)權(quán)利要求11所述的說話人認(rèn)證的注冊(cè)裝置，其中上述濾波器組生成單元進(jìn)一步包括線性預(yù)測(cè)分析單元(LPC analyser)，用于對(duì)上述注冊(cè)語(yǔ)音的每一幀進(jìn)行線性預(yù)測(cè)分析，以得到該幀的線性預(yù)測(cè)系數(shù)向量；以及線譜對(duì)生成單元(LSP generator)，用于對(duì)上述得到的每一幀的線性預(yù)測(cè)系數(shù)向量進(jìn)行LSP分析以獲得該幀的線譜對(duì)。
13.根據(jù)權(quán)利要求11所述的說話人認(rèn)證的注冊(cè)裝置，其中上述濾波器組生成單元進(jìn)一步包括共振峰預(yù)測(cè)分析單元(formant estimation analyser)，用于對(duì)上述注冊(cè)語(yǔ)音的每一幀進(jìn)行共振峰預(yù)測(cè)分析，以得到該幀的共振峰位置向量。
14.根據(jù)權(quán)利要求11所述的說話人認(rèn)證的注冊(cè)裝置，還包括頻譜生成單元(spectrum generator)，用于得到上述注冊(cè)語(yǔ)音的頻譜。
15.根據(jù)權(quán)利要求14所述的說話人認(rèn)證的注冊(cè)裝置，其中上述頻譜生成單元對(duì)上述注冊(cè)語(yǔ)音的每一幀進(jìn)行快速傅立葉變換，以得到該幀的幀譜。
16.根據(jù)權(quán)利要求15所述的說話人認(rèn)證的注冊(cè)裝置，其中上述濾波單元利用上述濾波器組，對(duì)上述注冊(cè)語(yǔ)音的每一幀的幀譜進(jìn)行濾波。
17.一種說話人認(rèn)證的驗(yàn)證裝置，包括語(yǔ)音輸入單元(utterance input unit)，用于輸入語(yǔ)音；聲學(xué)特征提取單元(acoustic feature extractor)，用于根據(jù)上述輸入的語(yǔ)音，提取特征向量序列；以及判斷單元，用于通過比較注冊(cè)的說話人模板和上述提取的語(yǔ)音特征向量序列，判斷上述輸入的語(yǔ)音是否為說話人本人說出的注冊(cè)密碼語(yǔ)音，其中，該注冊(cè)的說話人模板是利用前面權(quán)利要求1～6的任意一項(xiàng)所述的說話人認(rèn)證的注冊(cè)方法生成的說話人模板；其中，上述聲學(xué)特征提取單元，包括濾波單元(filtering unit)，用于利用注冊(cè)時(shí)針對(duì)說話人本人的注冊(cè)語(yǔ)音生成的濾波器組，對(duì)上述輸入的語(yǔ)音的頻譜進(jìn)行濾波。
18.根據(jù)權(quán)利要求17所述的說話人認(rèn)證的驗(yàn)證裝置，還包括頻譜生成單元(spectrum generator)，用于得到上述輸入的語(yǔ)音的頻譜。
19.根據(jù)權(quán)利要求18所述的說話人認(rèn)證的注冊(cè)裝置，其中上述頻譜生成單元對(duì)上述輸入的語(yǔ)音的每一幀進(jìn)行快速傅立葉變換，以得到該幀的幀譜。
20.一種說話人認(rèn)證系統(tǒng)，包括根據(jù)權(quán)利要求11～16的任意一項(xiàng)所述的說話人認(rèn)證的注冊(cè)裝置；以及根據(jù)權(quán)利要求17～19的任意一項(xiàng)所述的說話人認(rèn)證的驗(yàn)證裝置。
全文摘要
本發(fā)明提供了說話人認(rèn)證的注冊(cè)方法和裝置、說話人認(rèn)證的驗(yàn)證方法和裝置以及說話人認(rèn)證系統(tǒng)。該說話人認(rèn)證的注冊(cè)方法包括根據(jù)說話人的注冊(cè)語(yǔ)音，提取語(yǔ)音特征向量序列；以及利用上述語(yǔ)音特征向量序列，生成說話人模板；其中，上述提取語(yǔ)音特征向量序列的步驟包括利用上述說話人的注冊(cè)語(yǔ)音，生成針對(duì)該注冊(cè)語(yǔ)音的濾波器組，用于濾出該注冊(cè)語(yǔ)音的頻譜中的共振峰位置和能量；利用上述生成的濾波器組，對(duì)該注冊(cè)語(yǔ)音的頻譜進(jìn)行濾波；以及根據(jù)濾波后的上述注冊(cè)語(yǔ)音，生成特征向量序列。
文檔編號(hào)G10L15/06GK101051464SQ20061007314
公開日2007年10月10日申請(qǐng)日期2006年4月6日優(yōu)先權(quán)日2006年4月6日
發(fā)明者欒劍, 丁沛, 何磊, 郝杰申請(qǐng)人:株式會(huì)社東芝

完整全部詳細(xì)技術(shù)資料下載