專利名稱:說話人認(rèn)證的注冊(cè)和驗(yàn)證方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息處理技術(shù),具體地涉及說話人認(rèn)證(speakerauthentification)。
背景技術(shù):
利用每個(gè)人說話時(shí)的發(fā)音特點(diǎn)可以識(shí)別出不同的說話人,從而可以進(jìn)行說話人的認(rèn)證。在K.Yu,J.Mason,J.Oglesby發(fā)表的文章“Speakerrecognition using hidden Markov models,dynamic time warping andvector quantisation”(Vision,Image and Signal Processing,IEEProceedings,Vol.142,Oct.1995,pp.313-18)中介紹了常見的三種說話人識(shí)別引擎技術(shù)HMM(Hidden Markov Model,隱馬爾可夫模型),DTW(Dynamic Timing Warping,動(dòng)態(tài)時(shí)間規(guī)整)和VQ(Vector Quantization,矢量量化)。
通常,說話人認(rèn)證的過程包括注冊(cè)(enrollment)和驗(yàn)證(evaluation)兩個(gè)階段。在注冊(cè)階段,根據(jù)說話人(用戶)本人朗讀的包含密碼的語(yǔ)音,生成該說話人的說話人模板;在驗(yàn)證階段,根據(jù)說話人模板判斷測(cè)試語(yǔ)音是否為該說話人本人說出的相同密碼的語(yǔ)音。
在注冊(cè)階段,說話人模板通常是根據(jù)干凈的語(yǔ)音數(shù)據(jù)訓(xùn)練得到的,而在驗(yàn)證階段,實(shí)際輸入的測(cè)試語(yǔ)音則通常是含噪的,而含噪語(yǔ)音與干凈模板之間進(jìn)行匹配必將導(dǎo)致認(rèn)證精度的下降。
在測(cè)試語(yǔ)音與注冊(cè)模板之間進(jìn)行匹配實(shí)質(zhì)上就是將測(cè)試語(yǔ)音的聲學(xué)特征與注冊(cè)語(yǔ)音的聲學(xué)特征進(jìn)行比對(duì)。因此,無論是在注冊(cè)階段,還是在驗(yàn)證階段,對(duì)語(yǔ)音的聲學(xué)特征的選擇和提取對(duì)于說話人認(rèn)證來說就顯得相當(dāng)重要。
語(yǔ)音聲學(xué)特征的提取的主要任務(wù)是從語(yǔ)音信號(hào)中提取出能夠表征說話人的基本特征。所選取的語(yǔ)音聲學(xué)特征應(yīng)該能夠有效地區(qū)分不同的說話人,而對(duì)于同一說話人的語(yǔ)音變化則應(yīng)該能夠保持相對(duì)的穩(wěn)定性。在J.W.Picone發(fā)表的文章“Signal Modeling Techniques in Speech Recognition”(Proceedings of the IEEE,1993,81(9)1215-1247)中介紹了在語(yǔ)音識(shí)別和說話人識(shí)別中普遍采用的語(yǔ)音特征MFCC(Mel-Frequency CepstralCoefficient,美爾倒頻譜系數(shù))。MFCC是受人的聽覺系統(tǒng)研究成果推動(dòng)而導(dǎo)出的聲學(xué)特征,其考慮了人耳的聽覺特性,將頻譜轉(zhuǎn)化為基于美爾頻標(biāo)的非線性頻譜,然后轉(zhuǎn)換到倒譜域上,從而充分模擬人的聽覺特性。
MFCC的提取過程是首先用FFT(快速傅立葉變換)將語(yǔ)音從時(shí)域信號(hào)轉(zhuǎn)化到頻域,然后利用美爾刻度的三角濾波器組對(duì)其對(duì)數(shù)能量譜進(jìn)行卷積,最后對(duì)各個(gè)濾波器的輸出構(gòu)成的能量向量進(jìn)行離散余弦變換(DCT),并取前N個(gè)系數(shù)。
但是,利用MFCC存在這樣的缺點(diǎn),即在特征提取過程中,所采用的是固定的濾波器組,而不是依賴于說話人的自適應(yīng)濾波器組。在驗(yàn)證階段,測(cè)試語(yǔ)音與說話人模板之間的失真測(cè)度通常設(shè)定為對(duì)稱的距離函數(shù),如歐氏距離、馬氏距離等。固定的濾波器組和對(duì)稱的距離都忽略了具體的信號(hào)或模板中固有的詳細(xì)頻譜結(jié)構(gòu)。這是對(duì)先驗(yàn)知識(shí)的浪費(fèi),尤其對(duì)像文本相關(guān)的說話人驗(yàn)證這樣的二元決策問題,更是如此。
發(fā)明內(nèi)容
為了解決上述現(xiàn)有技術(shù)中存在的問題,本發(fā)明提供了說話人認(rèn)證的注冊(cè)方法和裝置、說話人認(rèn)證的驗(yàn)證方法和裝置以及說話人認(rèn)證系統(tǒng)。
根據(jù)本發(fā)明的一個(gè)方面,提供了一種說話人認(rèn)證的注冊(cè)方法,包括根據(jù)說話人的注冊(cè)語(yǔ)音,提取語(yǔ)音特征向量序列;以及利用上述語(yǔ)音特征向量序列,生成說話人模板;其中,上述提取語(yǔ)音特征向量序列的步驟包括利用上述說話人的注冊(cè)語(yǔ)音,生成針對(duì)該注冊(cè)語(yǔ)音的濾波器組,用于濾出該注冊(cè)語(yǔ)音的頻譜中的共振峰位置和能量;利用上述生成的濾波器組,對(duì)該注冊(cè)語(yǔ)音的頻譜進(jìn)行濾波;以及根據(jù)濾波后的上述注冊(cè)語(yǔ)音,生成特征向量序列。
根據(jù)本發(fā)明的另一個(gè)方面,提供了一種說話人認(rèn)證的驗(yàn)證方法,包括根據(jù)輸入的語(yǔ)音,提取語(yǔ)音特征向量序列;根據(jù)注冊(cè)的說話人模板和上述提取的語(yǔ)音特征向量序列,判斷該輸入的語(yǔ)音是否為說話人本人說出的注冊(cè)密碼語(yǔ)音;其中,上述注冊(cè)的說話人模板是利用前面任意一項(xiàng)權(quán)利要求所述的說話人認(rèn)證的注冊(cè)方法生成的說話人模板;以及所述根據(jù)輸入的語(yǔ)音提取語(yǔ)音特征向量序列的步驟包括利用注冊(cè)時(shí)針對(duì)說話人本人的注冊(cè)語(yǔ)音生成的濾波器組,對(duì)該輸入的語(yǔ)音的頻譜進(jìn)行濾波;以及根據(jù)濾波后的上述輸入的語(yǔ)音,生成特征向量序列。
根據(jù)本發(fā)明的另一個(gè)方面,提供了一種說話人認(rèn)證的注冊(cè)裝置,包括語(yǔ)音輸入單元(utterance input unit),用于輸入說話人說出的包含密碼的注冊(cè)語(yǔ)音;聲學(xué)特征提取單元(acoustic feature extractor),用于根據(jù)上述濾波后的注冊(cè)語(yǔ)音,提取出特征向量序列;以及模板生成單元(templategenerator),用于利用上述語(yǔ)音特征向量序列,生成說話人模板,其中,上述聲學(xué)特征提取單元包括濾波器組生成單元(filter-bank generator),用于利用上述說話人的注冊(cè)語(yǔ)音,生成針對(duì)該注冊(cè)語(yǔ)音的濾波器組;濾波單元(filtering unit),用于利用上述生成的針對(duì)上述注冊(cè)語(yǔ)音的濾波器組,對(duì)該注冊(cè)語(yǔ)音的頻譜進(jìn)行濾波。
根據(jù)本發(fā)明的另一個(gè)方面,提供了一種說話人認(rèn)證的驗(yàn)證裝置,包括語(yǔ)音輸入單元(utterance input unit),用于輸入語(yǔ)音;聲學(xué)特征提取單元(acoustic feature extractor),用于根據(jù)上述輸入的語(yǔ)音,生成特征向量序列;以及判斷單元,通過比較注冊(cè)的說話人模板和上述提取的語(yǔ)音特征向量序列,判斷上述輸入的語(yǔ)音是否為說話人本人說出的注冊(cè)密碼語(yǔ)音,其中,該注冊(cè)的說話人模板是利用前面所述的說話人認(rèn)證的注冊(cè)方法生成的說話人模板;其中,上述聲學(xué)特征提取單元,包括濾波單元(filteringunit),用于利用注冊(cè)時(shí)針對(duì)說話人本人的注冊(cè)語(yǔ)音生成的濾波器組,對(duì)上述輸入的語(yǔ)音的頻譜進(jìn)行濾波。
根據(jù)本發(fā)明的另一個(gè)方面,提供了一種說話人認(rèn)證系統(tǒng),包括前面所述的說話人認(rèn)證的注冊(cè)裝置;以及前面所述的說話人認(rèn)證的驗(yàn)證裝置。
相信通過以下結(jié)合附圖對(duì)本發(fā)明具體實(shí)施方式
的說明,能夠使人們更好地了解本發(fā)明上述的特點(diǎn)、優(yōu)點(diǎn)和目的。
圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的說話人認(rèn)證的注冊(cè)方法的流程圖;圖2是根據(jù)本發(fā)明另一個(gè)實(shí)施例的說話人認(rèn)證的注冊(cè)方法的流程圖;圖3是根據(jù)本發(fā)明一個(gè)實(shí)施例的說話人認(rèn)證的驗(yàn)證方法的流程圖;圖4是利用本發(fā)明的聲學(xué)特征所表征的示例性注冊(cè)語(yǔ)音與輸入語(yǔ)音的對(duì)照?qǐng)D;圖5是根據(jù)本發(fā)明一個(gè)實(shí)施例的說話人認(rèn)證的注冊(cè)裝置的流程圖;圖6是根據(jù)本發(fā)明另一個(gè)實(shí)施例的說話人認(rèn)證的注冊(cè)裝置的方框圖;圖7是根據(jù)本發(fā)明一個(gè)實(shí)施例的說話人認(rèn)證的驗(yàn)證裝置的方框圖;以及圖8是根據(jù)本發(fā)明一個(gè)實(shí)施例的說話人認(rèn)證系統(tǒng)的方框圖。
具體實(shí)施例方式
下面就結(jié)合附圖對(duì)本發(fā)明的各個(gè)優(yōu)選實(shí)施例進(jìn)行詳細(xì)的說明。
圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的說話人認(rèn)證的注冊(cè)(enrollment)方法的流程圖。如圖1所示,首先在步驟101,輸入由說話人說出的包含密碼的語(yǔ)音。其中,密碼是用戶在注冊(cè)階段設(shè)定的用于驗(yàn)證的特定短語(yǔ)或發(fā)音序列。
在步驟105,對(duì)上述說話人說出的注冊(cè)語(yǔ)音進(jìn)行預(yù)處理。
在本步驟中,對(duì)注冊(cè)語(yǔ)音進(jìn)行常規(guī)的預(yù)處理,例如首先對(duì)注冊(cè)語(yǔ)音進(jìn)行模數(shù)轉(zhuǎn)換,然后對(duì)其進(jìn)行分幀(framing)處理,并對(duì)含噪的注冊(cè)語(yǔ)音信號(hào)進(jìn)行濾波,得到干凈的信號(hào)。然后,通過預(yù)加重技術(shù)濾除注冊(cè)語(yǔ)音中的低頻干擾,并計(jì)算除噪后的語(yǔ)音數(shù)據(jù)的短時(shí)能量和短時(shí)過零率,并通過對(duì)語(yǔ)音數(shù)據(jù)的短時(shí)能量和短時(shí)過零率進(jìn)行檢測(cè)而剔除靜默、白噪聲和清音,而保留有效的濁音信號(hào)。關(guān)于語(yǔ)音信號(hào)的預(yù)處理,可參考J.W.Picone發(fā)表的文章“Signal Modeling Techniques in Speech Recognition”(Proceedingsof the IEEE,1993,81(9)1215-1247),其對(duì)語(yǔ)音信號(hào)的預(yù)處理的過程進(jìn)行了詳細(xì)描述。
在步驟110,對(duì)預(yù)處理后的注冊(cè)語(yǔ)音的每一幀進(jìn)行線性預(yù)測(cè)分析,以得到該幀的線性預(yù)測(cè)系數(shù)向量。
線性預(yù)測(cè),又叫線性預(yù)測(cè)分析,更常被稱為線性預(yù)測(cè)編碼,簡(jiǎn)寫為L(zhǎng)PC(Linear Predictive Coding)。準(zhǔn)確地說,線性預(yù)測(cè)是指最佳線性向前一步純預(yù)測(cè),其能夠以少數(shù)低信息率的時(shí)變參數(shù)來表示語(yǔ)音信號(hào)波形,并對(duì)語(yǔ)音參數(shù)(如基音頻率、共振峰、功率譜等)進(jìn)行精確的估計(jì)。
在本步驟中,利用LPC分析來估計(jì)注冊(cè)語(yǔ)音的譜峰,進(jìn)而對(duì)注冊(cè)語(yǔ)音的語(yǔ)音參數(shù)(在本實(shí)施例中主要是共振峰)進(jìn)行估計(jì)。具體地,在本步驟中,通過對(duì)注冊(cè)語(yǔ)音的每一數(shù)據(jù)幀(一般語(yǔ)音信號(hào)的采樣頻率為8kHz,典型幀長(zhǎng)為10~30ms)進(jìn)行線性預(yù)測(cè)分析,得到表征各幀的語(yǔ)音參數(shù)的線性預(yù)測(cè)(LPC)系數(shù)向量。
如本領(lǐng)域的技術(shù)人員所公知的那樣,語(yǔ)音的線性預(yù)測(cè)分析通常包括對(duì)于主要語(yǔ)音信號(hào)的每個(gè)取樣值,用其過去的若干個(gè)取樣值的加權(quán)和(線性組合)來表示;各加權(quán)系數(shù)的確定原則是使預(yù)測(cè)誤差的均方值最小(即遵循所謂最小均方準(zhǔn)則),而預(yù)測(cè)誤差的定義為真實(shí)取樣值與預(yù)測(cè)值之差。
對(duì)于線性預(yù)測(cè)分析,例如可以參考Fikret Gurgen、Shigeki Sagayama、Sadaoki Furui發(fā)表的文章“A Study of Line Spectrum Pair FrequencyRepresentation for Speech Recognition”(IEICE Trans.Fundamentals,Vol.E75-A,No.1,Jan.1992,98-102.)。
接著,在步驟115,生成針對(duì)上述注冊(cè)語(yǔ)音的濾波器組。在本實(shí)施例中,對(duì)上面得到的注冊(cè)語(yǔ)音每一幀的線性預(yù)測(cè)系數(shù)向量進(jìn)行LSP(LineSpectrum Pair,線譜對(duì))分析,以獲得各幀的線譜對(duì),并將這些線譜對(duì)組成為線譜對(duì)組,作為針對(duì)該注冊(cè)語(yǔ)音的濾波器組。
LSP可以看作是語(yǔ)音數(shù)據(jù)LPC譜的另一種表示。LSP系數(shù)可以由上述LPC系數(shù)計(jì)算得到,只需要如下合并前向和后向預(yù)測(cè)多項(xiàng)式P(z)=A(z)+B(z),Q(z)=A(z)-B(z)其中,多項(xiàng)式P(z)是對(duì)稱的,Q(z)是反對(duì)稱的,P(z)的一個(gè)根為z=+1,Q(z)的一個(gè)根為z=-1。多項(xiàng)式P和Q的其他根都位于Z域的單位圓上,并且是共軛對(duì)。這些根的相位角,即{oi,i=1,2,...,M}稱為線譜對(duì)。
關(guān)于LSP分析,同樣可參考Fikret Gurgen、Shigeki Sagayama、Sadaoki Furui發(fā)表的文章“A Study of Line Spectrum Pair FrequencyRepresentation for Speech Recognition”(IEICE Trans.Fundamentals,Vol.E75-A,No.1,Jan.1992,98-102.)。
接著,在步驟120,獲得上述預(yù)處理后的注冊(cè)語(yǔ)音數(shù)據(jù)的頻譜。具體地,在本步驟中,對(duì)在步驟105進(jìn)行了預(yù)處理后的注冊(cè)語(yǔ)音數(shù)據(jù)的每一幀進(jìn)行快速傅立葉變換,而得到各幀的幀譜。各幀的幀譜結(jié)合起來,便形成該注冊(cè)語(yǔ)音的頻譜。
在步驟125,對(duì)上述注冊(cè)語(yǔ)音的頻譜進(jìn)行濾波。具體地,在本步驟中,利用在步驟115獲得的濾波器組,即線譜對(duì)組,對(duì)注冊(cè)語(yǔ)音數(shù)據(jù)每一幀的幀譜進(jìn)行濾波。由于該線譜對(duì)組是通過對(duì)注冊(cè)語(yǔ)音的線性預(yù)測(cè)分析而導(dǎo)出的,并且其中的線譜對(duì)精確地描述注冊(cè)語(yǔ)音數(shù)據(jù)的頻譜中的共振峰的位置,相鄰的線譜對(duì)之間的能量描述共振峰的強(qiáng)度,因此,在本步驟中,通過利用該線譜對(duì)組對(duì)注冊(cè)語(yǔ)音的每一幀的幀譜進(jìn)行濾波,而從各幀提取出共振峰的“位置+強(qiáng)度”形式的聲學(xué)特征向量。所有幀的聲學(xué)特征向量組成了該注冊(cè)語(yǔ)音的聲學(xué)特征向量序列。
接著,在步驟130,為該注冊(cè)語(yǔ)音生成說話人模板。具體地,在本實(shí)施例中,說話人模板包含上述提取出的聲學(xué)特征向量序列和為該語(yǔ)音設(shè)定的分辯閾值。在此,本發(fā)明對(duì)于生成說話人模板的方式并沒有特別限制,可以采用任何本領(lǐng)域中已知的能夠根據(jù)聲學(xué)特征生成說話人模板的方法。
以上是對(duì)本實(shí)施例的說話人認(rèn)證的注冊(cè)方法的詳細(xì)描述。需要說明的是,在本實(shí)施例中,步驟120被示為在步驟110和115之后執(zhí)行,但是,本實(shí)施例并不旨在限制于這樣的執(zhí)行方式,在實(shí)際實(shí)現(xiàn)中,可以在步驟110和115之前執(zhí)行步驟120,或在執(zhí)行步驟110、115的同時(shí)執(zhí)行步驟120,這些執(zhí)行方式同樣都能夠達(dá)到本發(fā)明的目的。
還需要說明的是,上述說話人認(rèn)證的注冊(cè)過程是針對(duì)一個(gè)注冊(cè)語(yǔ)音的過程,在實(shí)際應(yīng)用中,為使所提取的注冊(cè)語(yǔ)音的聲學(xué)特征更準(zhǔn)確,通常會(huì)進(jìn)行注冊(cè)語(yǔ)音的訓(xùn)練,即對(duì)說話人的多個(gè)注冊(cè)語(yǔ)音分別進(jìn)行特征提取并對(duì)所提取出的多組聲學(xué)特征(說話人模板)進(jìn)行合并。在進(jìn)行模板合并時(shí),例如可以采用基于DTW的模板合并方法,詳細(xì)內(nèi)容可以參考W.H.Abdulla、D.Chow和G.Sin發(fā)表的文章“Cross-words reference templatefor DTW-based speech recognition systems”(IEEE TENCON 2003,pp.1576-1579)。
在多個(gè)注冊(cè)語(yǔ)音的情況下,利用本實(shí)施例,除了對(duì)聲學(xué)特征(說話人模板)進(jìn)行合并之外,還要在特征提取結(jié)束之后將各特征提取過程所分別生成的濾波器組進(jìn)行合并和保存,以便在驗(yàn)證過程中使用。在本實(shí)施例中,對(duì)于濾波器組的合并,可以采取以下方式取多個(gè)濾波器組的平均;取多個(gè)濾波器組中所表征的共振峰的位置范圍最窄的濾波器組;取多個(gè)濾波器組中所表征的共振峰的位置范圍最寬的濾波器組等。
圖2是根據(jù)本發(fā)明另一個(gè)實(shí)施例的說話人認(rèn)證的注冊(cè)(enrollment)方法的流程圖。下面就結(jié)合該圖,對(duì)本實(shí)施例進(jìn)行描述。對(duì)于那些與前面實(shí)施例相同的部分,適當(dāng)省略其說明。
本實(shí)施例與圖1所示的實(shí)施例的區(qū)別在于,在對(duì)注冊(cè)語(yǔ)音進(jìn)行特征提取時(shí),生成濾波器組的方法、進(jìn)而所生成的濾波器組是不同的。
如圖2所示,在步驟201和205,本實(shí)施例與前面圖1所示的實(shí)施例基本相同。接著,在步驟210,對(duì)上述注冊(cè)語(yǔ)音的每一幀進(jìn)行共振峰預(yù)測(cè)分析,以得到各幀的共振峰位置向量。關(guān)于共振峰預(yù)測(cè)分析,可參考LWelling,H Ney發(fā)表的文章“Formant Estimation for Speech Recognition”(IEEE Transactions on Speech and Audio Processing,vol.6,NO.1,JANUARY 1998)和A Watanabe發(fā)表的文章“Formant Estimation MethodUsing Inverse-Filter Control”(IEEE Transactions on Speech and AudioProcessing,VOL.9,NO.4,MAY 2001)。在本實(shí)施例中,將上面得到的注冊(cè)語(yǔ)音各幀的共振峰位置向量組成為共振峰位置向量組,作為針對(duì)該注冊(cè)語(yǔ)音的濾波器組。
步驟215與前面圖1所示的實(shí)施例中的步驟120相同,對(duì)注冊(cè)語(yǔ)音數(shù)據(jù)的每一幀進(jìn)行快速傅立葉變換,而得到各幀的幀譜。
在步驟220,對(duì)注冊(cè)語(yǔ)音每一幀的幀譜進(jìn)行濾波。具體地,在本實(shí)施例中,利用在步驟210中獲得的濾波器組(本實(shí)施例中為共振峰位置向量組),對(duì)注冊(cè)語(yǔ)音數(shù)據(jù)的每一幀的幀譜進(jìn)行濾波,從而得到各幀的描述共振峰的位置的聲學(xué)特征向量。而所有幀的聲學(xué)特征向量則組成了該注冊(cè)語(yǔ)音的聲學(xué)特征向量序列。
此后的步驟225與前面圖1所示的實(shí)施例中的步驟130相同,為該注冊(cè)語(yǔ)音生成說話人模板。
同樣地,在本實(shí)施例中,步驟215被示為在步驟210之后執(zhí)行,但是,本實(shí)施例并不旨在限制于這樣的執(zhí)行方式,在實(shí)際實(shí)現(xiàn)中,可以在步驟210之前執(zhí)行步驟215,或在執(zhí)行步驟210的同時(shí)執(zhí)行步驟215。
利用本實(shí)施例,同樣可進(jìn)行注冊(cè)語(yǔ)音的訓(xùn)練,即對(duì)說話人的多個(gè)注冊(cè)語(yǔ)音分別進(jìn)行特征提取并對(duì)所提取出的聲學(xué)特征序列(說話人模板)進(jìn)行合并。在此情況下,在本實(shí)施例中,除了對(duì)各聲學(xué)特征序列(說話人模板)進(jìn)行合并之外,還要在特征提取結(jié)束之后將各特征提取過程所分別生成的濾波器組進(jìn)行合并和保存,以便在驗(yàn)證過程中使用。
圖3是根據(jù)本發(fā)明一個(gè)實(shí)施例的說話人認(rèn)證的驗(yàn)證(verification)方法的流程圖。下面結(jié)合該圖,對(duì)本實(shí)施例進(jìn)行描述。
在步驟301,輸入要驗(yàn)證的語(yǔ)音。
在步驟305,對(duì)輸入語(yǔ)音進(jìn)行預(yù)處理。本步驟中對(duì)輸入語(yǔ)音的預(yù)處理方式與前面圖1所示的實(shí)施例中對(duì)注冊(cè)語(yǔ)音的預(yù)處理方式相同,這里不再重復(fù)描述。
在步驟310,獲得上述預(yù)處理后的輸入語(yǔ)音的頻譜。具體地,在本步驟中,對(duì)上述預(yù)處理后的輸入語(yǔ)音的每一幀進(jìn)行快速傅立葉變換,而得到輸入語(yǔ)音數(shù)據(jù)的各幀的幀譜。各幀的幀譜結(jié)合起來,便形成該輸入語(yǔ)音的頻譜。
在步驟315,對(duì)上述輸入語(yǔ)音的頻譜進(jìn)行濾波。具體地,在本步驟中,利用在注冊(cè)階段針對(duì)該說話人本人的注冊(cè)語(yǔ)音生成的濾波器組(在利用圖1所示的注冊(cè)方法的情況下為線譜對(duì)組,在利用圖2所示的注冊(cè)方法的情況下為共振峰位置向量組),對(duì)輸入語(yǔ)音的每一幀的幀譜進(jìn)行濾波。通過濾波,從輸入語(yǔ)音的各幀中提取出共振峰的“位置+強(qiáng)度”形式的聲學(xué)特征向量。所有幀的聲學(xué)特征向量組成了該輸入語(yǔ)音的聲學(xué)特征向量序列。
接著,在步驟320,對(duì)聲學(xué)特征向量序列和說話人模板進(jìn)行DTW匹配,計(jì)算距離。與以往的說話人認(rèn)證的過程相同,通常,計(jì)算距離的過程如下(1)計(jì)算聲學(xué)特征向量序列的各幀與說話人模板各幀之間的所有節(jié)點(diǎn)距離(局部距離)。圖4示出了利用本發(fā)明的聲學(xué)特征所表征的示例性輸入語(yǔ)音數(shù)據(jù)與說話人模板的一個(gè)對(duì)應(yīng)幀。由于本發(fā)明的聲學(xué)特征是共振峰的“位置+強(qiáng)度”形式的,因此,本發(fā)明的說話人模板與輸入語(yǔ)音數(shù)據(jù)之間的距離計(jì)算針對(duì)于它們之間的“強(qiáng)度(能量)”差異來進(jìn)行。具體地,在本步驟中,計(jì)算出說話人模板與輸入語(yǔ)音數(shù)據(jù)之間在一個(gè)頻帶內(nèi)的能量差,并對(duì)所計(jì)算出的所有頻帶內(nèi)的能量差進(jìn)行求和,來得到一個(gè)幀節(jié)點(diǎn)的距離。
(2)根據(jù)上述計(jì)算得到的節(jié)點(diǎn)距離,對(duì)聲學(xué)特征向量序列與說話人注冊(cè)的說話人模板進(jìn)行DTW匹配,獲得最優(yōu)匹配路徑。
(3)計(jì)算聲學(xué)特征向量序列與說話人模板之間的全局距離(最優(yōu)匹配路徑上的所有幀節(jié)點(diǎn)的距離之和)。
在此需要指出,本發(fā)明對(duì)于計(jì)算聲學(xué)特征向量序列和說話人模板的匹配距離沒有特別的限制,可以采用現(xiàn)有的和將來的各種方式和改進(jìn)方式,例如,在計(jì)算局部距離和全局距離是也可以采用各種線性、非線性變換等,從而進(jìn)一步提高認(rèn)證的可靠性。
接著,在步驟325,判斷上述全局距離是否在預(yù)先設(shè)定的閾值之內(nèi)。如果在閾值之內(nèi),則在步驟330認(rèn)定是同一說話人說出的相同的密碼,驗(yàn)證成功;如果否,則在步驟335認(rèn)定驗(yàn)證失敗。
本實(shí)施例是通過計(jì)算將注冊(cè)語(yǔ)音數(shù)據(jù)改變?yōu)檩斎胝Z(yǔ)音數(shù)據(jù)所引起的不對(duì)稱的失真,來完成輸入語(yǔ)音和注冊(cè)語(yǔ)音的失真度量的。在實(shí)用中,這種失真測(cè)度比通常的距離函數(shù)更精確、更合理。本實(shí)施例的不對(duì)稱的失真測(cè)度等價(jià)于“Kullback鑒別信息”或“方向散度”。基于這種失真測(cè)度的判決符合最小鑒別信息原理。關(guān)于最小鑒別信息原理,請(qǐng)參見朱雪龍的著作“應(yīng)用信息論基礎(chǔ)”(第七章,清華大學(xué)出版社,北京,2000)。
一般而言,注冊(cè)語(yǔ)音數(shù)據(jù)的噪聲比較小,并且通常其是通過多次訓(xùn)練得到的,因此可以認(rèn)為是干凈語(yǔ)音。而在驗(yàn)證過程中,輸入語(yǔ)音是在實(shí)用場(chǎng)合中輸入的,因此不可避免地存在噪聲污染。根據(jù)本實(shí)施例,在驗(yàn)證階段所使用的濾波器組是根據(jù)注冊(cè)語(yǔ)音、而不是輸入語(yǔ)音生成的,因此濾波過程不會(huì)受到輸入語(yǔ)音數(shù)據(jù)中噪聲的影響。也就是說,在本實(shí)施例中,含噪的輸入語(yǔ)音數(shù)據(jù)是被干凈的注冊(cè)數(shù)據(jù)的先驗(yàn)的頻譜結(jié)構(gòu)進(jìn)行分解的。因此,本實(shí)施例充分利用了干凈的注冊(cè)數(shù)據(jù)中的先驗(yàn)知識(shí),提供了對(duì)環(huán)境噪聲的穩(wěn)健性。
此外,在本實(shí)施例中,通過使共振峰的位置和強(qiáng)度兩種信息分離,能夠提供對(duì)頻譜結(jié)構(gòu)的精確描述。
在同一發(fā)明構(gòu)思下,圖5是根據(jù)本發(fā)明一個(gè)實(shí)施例的說話人認(rèn)證的注冊(cè)裝置的方框圖。下面就結(jié)合該圖,對(duì)本實(shí)施例進(jìn)行描述。如圖5所示,本實(shí)施例的說話人認(rèn)證的注冊(cè)裝置500,包括語(yǔ)音輸入單元(utteranceinput unit)501,用于輸入說話人說出的包含密碼的注冊(cè)語(yǔ)音;預(yù)處理單元502,用于對(duì)通過語(yǔ)音輸入單元501輸入的注冊(cè)語(yǔ)音進(jìn)行常規(guī)預(yù)處理;頻譜生成單元(spectrum generator)503,用于對(duì)預(yù)處理單元502處理后的注冊(cè)語(yǔ)音的每一幀進(jìn)行快速傅立葉變換,以得到各幀的幀譜,各幀的幀譜結(jié)合起來,便形成注冊(cè)語(yǔ)音的頻譜;聲學(xué)特征提取單元(acoustic featureextractor)504,用于根據(jù)頻譜生成單元503得到的由頻譜表達(dá)的注冊(cè)語(yǔ)音,提取出特征向量序列;模板生成單元(template generator)505,用于利用聲學(xué)特征提取單元504提取出的語(yǔ)音特征向量序列,生成說話人模板。
如圖5所示,上述聲學(xué)特征提取單元504進(jìn)一步包括線性預(yù)測(cè)分析單元(LPC analyser)5041,用于對(duì)預(yù)處理單元502處理后的注冊(cè)語(yǔ)音的每一幀進(jìn)行線性預(yù)測(cè)分析,以得到該幀的線性預(yù)測(cè)系數(shù)向量;線譜對(duì)生成單元(LSP generator)5042,用于根據(jù)線性預(yù)測(cè)分析單元5041所生成的每一幀的線性預(yù)測(cè)系數(shù)向量,計(jì)算出該幀的線譜對(duì),所有幀的線譜對(duì)組成了線譜對(duì)組,作為針對(duì)注冊(cè)語(yǔ)音的濾波器組;濾波單元(filtering unit)5043,用于利用線譜對(duì)生成單元5042生成的針對(duì)注冊(cè)語(yǔ)音的濾波器組,即線譜對(duì)組,對(duì)頻譜生成單元503得到的注冊(cè)語(yǔ)音的頻譜進(jìn)行濾波,從而得到注冊(cè)語(yǔ)音的聲學(xué)特征。
本實(shí)施例中,提取出的是共振峰的“位置+強(qiáng)度”形式的聲學(xué)特征。在利用注冊(cè)語(yǔ)音生成說話人模板時(shí),為使所提取的注冊(cè)語(yǔ)音的聲學(xué)特征更準(zhǔn)確,通常會(huì)進(jìn)行注冊(cè)語(yǔ)音的訓(xùn)練,即對(duì)說話人的多個(gè)注冊(cè)語(yǔ)音分別進(jìn)行特征提取并對(duì)所提取的多組聲學(xué)特征(說話人模板)進(jìn)行合并。在此情況下,在本實(shí)施例中,除了對(duì)各聲學(xué)特征(說話人模板)進(jìn)行合并之外,還要在特征提取結(jié)束之后將聲學(xué)特征提取單元針對(duì)同一說話人的不同注冊(cè)語(yǔ)音所分別生成的濾波器組進(jìn)行合并和保存,以便在驗(yàn)證過程中使用。
本實(shí)施例的說話人認(rèn)證的注冊(cè)裝置500及其各個(gè)組成部分,可以用專用的電路或芯片構(gòu)成,也可以通過計(jì)算機(jī)(處理器)執(zhí)行相應(yīng)的程序來實(shí)現(xiàn)。本實(shí)施例的說話人認(rèn)證的注冊(cè)裝置500,操作上可以實(shí)現(xiàn)前面圖1實(shí)施例的說話人認(rèn)證的注冊(cè)方法。
圖6是根據(jù)本發(fā)明另一個(gè)實(shí)施例的說話人認(rèn)證的注冊(cè)裝置的方框圖。下面就結(jié)合該圖,對(duì)本實(shí)施例進(jìn)行描述。對(duì)于那些與前面實(shí)施例相同的部分,適當(dāng)省略其說明。
本實(shí)施例中的語(yǔ)音注冊(cè)裝置600,除了聲學(xué)特征提取單元604與圖5中的聲學(xué)特征提取單元504不同外,其余結(jié)構(gòu)均與圖5相同。本實(shí)施例的聲學(xué)特征提取單元604包括共振峰預(yù)測(cè)分析單元(Formant Estimationanalyser)6041,用于對(duì)預(yù)處理單元602處理后的注冊(cè)語(yǔ)音的每一幀進(jìn)行共振峰預(yù)測(cè)分析,以得到針對(duì)該幀的共振峰位置向量,各幀的共振峰位置向量組成了共振峰位置向量組,作為針對(duì)該注冊(cè)語(yǔ)音的濾波器組;濾波單元(filtering unit)6042,用于利用共振峰預(yù)測(cè)分析單元6041生成的針對(duì)注冊(cè)語(yǔ)音的濾波器組,即共振峰位置向量組,對(duì)頻譜生成單元603所獲得的該注冊(cè)語(yǔ)音的頻譜進(jìn)行濾波,從而得到該注冊(cè)語(yǔ)音的聲學(xué)特征。
本實(shí)施例中所提取出的同樣為“位置+強(qiáng)度”形式的聲學(xué)特征。本實(shí)施例的說話人認(rèn)證的注冊(cè)裝置600及其各個(gè)組成部分,可以用專用的電路或芯片構(gòu)成,也可以通過計(jì)算機(jī)(處理器)執(zhí)行相應(yīng)的程序來實(shí)現(xiàn)。本實(shí)施例的說話人認(rèn)證的注冊(cè)裝置600,操作上可以實(shí)現(xiàn)前面圖2實(shí)施例的說話人認(rèn)證的注冊(cè)方法。
在同一發(fā)明構(gòu)思下,圖7是根據(jù)本發(fā)明一個(gè)實(shí)施例的說話人認(rèn)證的驗(yàn)證裝置的方框圖。下面就結(jié)合該圖,對(duì)本實(shí)施例進(jìn)行描述。
如圖7所示,本實(shí)施例的說話人認(rèn)證的驗(yàn)證裝置700,包括語(yǔ)音輸入單元(utterance input unit)701,用于輸入語(yǔ)音;預(yù)處理單元702,用于對(duì)通過語(yǔ)音輸入單元701輸入的語(yǔ)音進(jìn)行常規(guī)預(yù)處理;頻譜生成單元(spectrum generator)703,用于對(duì)預(yù)處理單元702處理后的輸入語(yǔ)音的每一幀進(jìn)行快速傅立葉變換,以得到各幀的幀譜,各幀的幀譜結(jié)合起來便形成了該輸入語(yǔ)音的頻譜;聲學(xué)特征提取單元(acoustic feature extractor)704,用于根據(jù)上述頻譜生成單元703得到的頻譜表達(dá)的輸入語(yǔ)音,提取出聲學(xué)特征向量序列;判斷單元705,用于通過比較注冊(cè)的說話人模板707和聲學(xué)特征提取單元704提取出的語(yǔ)音特征向量序列,判斷上述輸入的語(yǔ)音是否為說話人本人說出的注冊(cè)密碼語(yǔ)音,其中,注冊(cè)的說話人模板707是利用前面圖1或圖2所示的說話人認(rèn)證的注冊(cè)方法生成的說話人模板。
如圖7所示,聲學(xué)特征提取單元704進(jìn)一步包括濾波單元(filteringunit)7041,用于利用注冊(cè)時(shí)針對(duì)說話人本人的注冊(cè)語(yǔ)音生成的濾波器組(線譜對(duì)組或共振峰位置向量組)706,對(duì)上述輸入的語(yǔ)音的頻譜進(jìn)行濾波,以提取出聲學(xué)特征。
本實(shí)施例的判斷單元705將輸入語(yǔ)音的聲學(xué)特征與注冊(cè)時(shí)根據(jù)注冊(cè)語(yǔ)音生成的說話人模板進(jìn)行比對(duì),計(jì)算輸入語(yǔ)音和注冊(cè)語(yǔ)音之間的失真度,并判斷該失真度是否在預(yù)先設(shè)定的閾值之內(nèi)。如果在閾值之內(nèi),則認(rèn)定是同一說話人說出的相同的密碼,驗(yàn)證成功;如果否,則認(rèn)定驗(yàn)證失敗。
本實(shí)施例的說話人認(rèn)證的驗(yàn)證裝置700及其各個(gè)組成部分,可以由專用的電路或芯片構(gòu)成,也可以通過計(jì)算機(jī)(處理器)執(zhí)行相應(yīng)的程序來實(shí)現(xiàn)。并且,本實(shí)施例的說話人認(rèn)證的驗(yàn)證裝置700,操作上可以實(shí)現(xiàn)前面結(jié)合圖3說明的實(shí)施例的說話人認(rèn)證的驗(yàn)證方法。
根據(jù)本實(shí)施例,在驗(yàn)證階段所使用的濾波器組是根據(jù)注冊(cè)語(yǔ)音、而不是輸入語(yǔ)音而生成的,因此濾波過程不會(huì)受到輸入語(yǔ)音數(shù)據(jù)中噪聲的影響。也就是說,在本實(shí)施例中,含噪的輸入語(yǔ)音數(shù)據(jù)是被干凈的注冊(cè)數(shù)據(jù)的先驗(yàn)的頻譜結(jié)構(gòu)進(jìn)行分解的。
在同一發(fā)明構(gòu)思下,圖8是根據(jù)本發(fā)明一個(gè)實(shí)施例的說話人認(rèn)證系統(tǒng)的方框圖。下面就結(jié)合該圖,對(duì)本實(shí)施例進(jìn)行描述。
如圖8所示,本實(shí)施例的說話人認(rèn)證系統(tǒng)包括注冊(cè)裝置500,其可以為前面實(shí)施例描述的說話人認(rèn)證的注冊(cè)裝置500;以及驗(yàn)證裝置700,其可以為前面實(shí)施例描述的說話人認(rèn)證的驗(yàn)證裝置700。由注冊(cè)裝置500生成的說話人模板和濾波器組,通過任意的通信方式,例如,網(wǎng)絡(luò)、內(nèi)部信道、磁盤等記錄媒體等,傳遞給驗(yàn)證裝置700。驗(yàn)證裝置700利用該濾波器組提取出輸入語(yǔ)音的聲學(xué)特征,并根據(jù)提取的輸入語(yǔ)音聲學(xué)特征,與說話人模板進(jìn)行失真度量,從而判斷出輸入語(yǔ)音和注冊(cè)語(yǔ)音是否為同一說話人說出的相同的密碼,以完成相應(yīng)認(rèn)證。
以上雖然通過一些示例性的實(shí)施例對(duì)本發(fā)明的說話人認(rèn)證的注冊(cè)方法和裝置、說話人認(rèn)證的驗(yàn)證方法和裝置以及說話人認(rèn)證系統(tǒng)進(jìn)行了詳細(xì)的描述,但是以上這些實(shí)施例并不是窮舉的,本領(lǐng)域技術(shù)人員可以在本發(fā)明的精神和范圍內(nèi)實(shí)現(xiàn)各種變化和修改。因此,本發(fā)明并不限于這些實(shí)施例,本發(fā)明的范圍僅以所附權(quán)利要求為準(zhǔn)。
權(quán)利要求
1.一種說話人認(rèn)證的注冊(cè)方法,包括根據(jù)說話人的注冊(cè)語(yǔ)音,提取語(yǔ)音特征向量序列;以及利用上述語(yǔ)音特征向量序列,生成說話人模板;其中,上述提取語(yǔ)音特征向量序列的步驟包括利用上述說話人的注冊(cè)語(yǔ)音,生成針對(duì)該注冊(cè)語(yǔ)音的濾波器組,用于濾出該注冊(cè)語(yǔ)音的頻譜中的共振峰位置和能量;利用上述生成的濾波器組,對(duì)該注冊(cè)語(yǔ)音的頻譜進(jìn)行濾波;以及根據(jù)濾波后的上述注冊(cè)語(yǔ)音,生成特征向量序列。
2.根據(jù)權(quán)利要求1所述的說話人認(rèn)證的注冊(cè)方法,其中上述生成針對(duì)注冊(cè)語(yǔ)音的濾波器組的步驟進(jìn)一步包括對(duì)上述注冊(cè)語(yǔ)音的每一幀進(jìn)行線性預(yù)測(cè)分析,以得到該幀的線性預(yù)測(cè)系數(shù)向量;對(duì)上述得到的每一幀的線性預(yù)測(cè)系數(shù)向量進(jìn)行LSP分析以獲得該幀的線譜對(duì);以及將上述注冊(cè)語(yǔ)音中所有幀的線譜對(duì)組成為線譜對(duì)組,作為針對(duì)該注冊(cè)語(yǔ)音的濾波器組。
3.根據(jù)權(quán)利要求1所述的說話人認(rèn)證的注冊(cè)方法,其中上述生成針對(duì)注冊(cè)語(yǔ)音的濾波器組的步驟進(jìn)一步包括對(duì)上述注冊(cè)語(yǔ)音的每一幀進(jìn)行共振峰預(yù)測(cè)分析,以得到該幀的共振峰位置向量;以及將上述所有幀的共振峰位置向量組成為共振峰位置向量組,作為濾波器組。
4.根據(jù)權(quán)利要求1所述的說話人認(rèn)證的注冊(cè)方法,其中上述對(duì)注冊(cè)語(yǔ)音的頻譜進(jìn)行濾波的步驟進(jìn)一步包括對(duì)上述注冊(cè)語(yǔ)音的每一幀進(jìn)行快速傅立葉變換,以得到該幀的幀譜;以及利用上述濾波器組,對(duì)上述每一幀的幀譜進(jìn)行濾波。
5.根據(jù)權(quán)利要求1所述的說話人認(rèn)證的注冊(cè)方法,其中上述根據(jù)說話人的注冊(cè)語(yǔ)音提取語(yǔ)音特征向量序列的步驟進(jìn)一步包括根據(jù)說話人的多個(gè)注冊(cè)語(yǔ)音,分別提取多個(gè)語(yǔ)音特征向量序列;其中,利用上述語(yǔ)音特征向量序列生成說話人模板的步驟包括對(duì)上述提取出的多個(gè)語(yǔ)音特征向量序列進(jìn)行合并,生成上述說話人模板。
6.根據(jù)權(quán)利要求5所述的說話人認(rèn)證的注冊(cè)方法,其中,為上述每個(gè)注冊(cè)語(yǔ)音生成一個(gè)濾波器組用于對(duì)該注冊(cè)語(yǔ)音的頻譜進(jìn)行濾波,上述方法進(jìn)一步包括將為上述多個(gè)注冊(cè)語(yǔ)音生成的多個(gè)濾波器組合并。
7.一種說話人認(rèn)證的驗(yàn)證方法,包括根據(jù)輸入的語(yǔ)音,提取語(yǔ)音特征向量序列;以及根據(jù)注冊(cè)的說話人模板和上述提取的語(yǔ)音特征向量序列,判斷該輸入的語(yǔ)音是否為說話人本人說出的注冊(cè)密碼語(yǔ)音;其中,上述注冊(cè)的說話人模板是利用前面任意一項(xiàng)權(quán)利要求所述的說話人認(rèn)證的注冊(cè)方法生成的說話人模板;以及所述根據(jù)輸入的語(yǔ)音提取語(yǔ)音特征向量序列的步驟包括利用注冊(cè)時(shí)針對(duì)說話人本人的注冊(cè)語(yǔ)音生成的濾波器組,對(duì)該輸入的語(yǔ)音的頻譜進(jìn)行濾波;以及根據(jù)濾波后的上述輸入的語(yǔ)音,生成特征向量序列。
8.根據(jù)權(quán)利要求7所述的說話人認(rèn)證的驗(yàn)證方法,其中上述對(duì)輸入的語(yǔ)音的頻譜進(jìn)行濾波的步驟進(jìn)一步包括對(duì)上述輸入的語(yǔ)音的每一幀進(jìn)行快速傅立葉變換,以得到輸入的語(yǔ)音每一幀的幀譜;以及利用上述注冊(cè)時(shí)針對(duì)說話人本人的注冊(cè)語(yǔ)音生成的濾波器組,對(duì)上述輸入的語(yǔ)音每一幀的幀譜進(jìn)行濾波。
9.根據(jù)權(quán)利要求7所述的說話人認(rèn)證的驗(yàn)證方法,其中上述濾波器組包括注冊(cè)時(shí)針對(duì)說話人本人的注冊(cè)語(yǔ)音生成的線譜對(duì)組。
10.根據(jù)權(quán)利要求7所述的說話人認(rèn)證的驗(yàn)證方法,其中上述濾波器組包括注冊(cè)時(shí)針對(duì)說話人本人的注冊(cè)語(yǔ)音生成的共振峰位置向量組。
11.一種說話人認(rèn)證的注冊(cè)裝置,包括語(yǔ)音輸入單元(utterance input unit),用于輸入說話人說出的包含密碼的注冊(cè)語(yǔ)音;聲學(xué)特征提取單元(acoustic feature extractor),用于根據(jù)上述注冊(cè)語(yǔ)音,提取出特征向量序列;以及模板生成單元(template generator),用于利用上述語(yǔ)音特征向量序列,生成說話人模板;其中,上述聲學(xué)特征提取單元,包括濾波器組生成單元(filter-bank generator),用于利用上述說話人的注冊(cè)語(yǔ)音,生成針對(duì)該注冊(cè)語(yǔ)音的濾波器組;以及濾波單元(filtering unit),用于利用上述生成的針對(duì)上述注冊(cè)語(yǔ)音的濾波器組,對(duì)該注冊(cè)語(yǔ)音的頻譜進(jìn)行濾波。
12.根據(jù)權(quán)利要求11所述的說話人認(rèn)證的注冊(cè)裝置,其中上述濾波器組生成單元進(jìn)一步包括線性預(yù)測(cè)分析單元(LPC analyser),用于對(duì)上述注冊(cè)語(yǔ)音的每一幀進(jìn)行線性預(yù)測(cè)分析,以得到該幀的線性預(yù)測(cè)系數(shù)向量;以及線譜對(duì)生成單元(LSP generator),用于對(duì)上述得到的每一幀的線性預(yù)測(cè)系數(shù)向量進(jìn)行LSP分析以獲得該幀的線譜對(duì)。
13.根據(jù)權(quán)利要求11所述的說話人認(rèn)證的注冊(cè)裝置,其中上述濾波器組生成單元進(jìn)一步包括共振峰預(yù)測(cè)分析單元(formant estimation analyser),用于對(duì)上述注冊(cè)語(yǔ)音的每一幀進(jìn)行共振峰預(yù)測(cè)分析,以得到該幀的共振峰位置向量。
14.根據(jù)權(quán)利要求11所述的說話人認(rèn)證的注冊(cè)裝置,還包括頻譜生成單元(spectrum generator),用于得到上述注冊(cè)語(yǔ)音的頻譜。
15.根據(jù)權(quán)利要求14所述的說話人認(rèn)證的注冊(cè)裝置,其中上述頻譜生成單元對(duì)上述注冊(cè)語(yǔ)音的每一幀進(jìn)行快速傅立葉變換,以得到該幀的幀譜。
16.根據(jù)權(quán)利要求15所述的說話人認(rèn)證的注冊(cè)裝置,其中上述濾波單元利用上述濾波器組,對(duì)上述注冊(cè)語(yǔ)音的每一幀的幀譜進(jìn)行濾波。
17.一種說話人認(rèn)證的驗(yàn)證裝置,包括語(yǔ)音輸入單元(utterance input unit),用于輸入語(yǔ)音;聲學(xué)特征提取單元(acoustic feature extractor),用于根據(jù)上述輸入的語(yǔ)音,提取特征向量序列;以及判斷單元,用于通過比較注冊(cè)的說話人模板和上述提取的語(yǔ)音特征向量序列,判斷上述輸入的語(yǔ)音是否為說話人本人說出的注冊(cè)密碼語(yǔ)音,其中,該注冊(cè)的說話人模板是利用前面權(quán)利要求1~6的任意一項(xiàng)所述的說話人認(rèn)證的注冊(cè)方法生成的說話人模板;其中,上述聲學(xué)特征提取單元,包括濾波單元(filtering unit),用于利用注冊(cè)時(shí)針對(duì)說話人本人的注冊(cè)語(yǔ)音生成的濾波器組,對(duì)上述輸入的語(yǔ)音的頻譜進(jìn)行濾波。
18.根據(jù)權(quán)利要求17所述的說話人認(rèn)證的驗(yàn)證裝置,還包括頻譜生成單元(spectrum generator),用于得到上述輸入的語(yǔ)音的頻譜。
19.根據(jù)權(quán)利要求18所述的說話人認(rèn)證的注冊(cè)裝置,其中上述頻譜生成單元對(duì)上述輸入的語(yǔ)音的每一幀進(jìn)行快速傅立葉變換,以得到該幀的幀譜。
20.一種說話人認(rèn)證系統(tǒng),包括根據(jù)權(quán)利要求11~16的任意一項(xiàng)所述的說話人認(rèn)證的注冊(cè)裝置;以及根據(jù)權(quán)利要求17~19的任意一項(xiàng)所述的說話人認(rèn)證的驗(yàn)證裝置。
全文摘要
本發(fā)明提供了說話人認(rèn)證的注冊(cè)方法和裝置、說話人認(rèn)證的驗(yàn)證方法和裝置以及說話人認(rèn)證系統(tǒng)。該說話人認(rèn)證的注冊(cè)方法包括根據(jù)說話人的注冊(cè)語(yǔ)音,提取語(yǔ)音特征向量序列;以及利用上述語(yǔ)音特征向量序列,生成說話人模板;其中,上述提取語(yǔ)音特征向量序列的步驟包括利用上述說話人的注冊(cè)語(yǔ)音,生成針對(duì)該注冊(cè)語(yǔ)音的濾波器組,用于濾出該注冊(cè)語(yǔ)音的頻譜中的共振峰位置和能量;利用上述生成的濾波器組,對(duì)該注冊(cè)語(yǔ)音的頻譜進(jìn)行濾波;以及根據(jù)濾波后的上述注冊(cè)語(yǔ)音,生成特征向量序列。
文檔編號(hào)G10L15/06GK101051464SQ20061007314
公開日2007年10月10日 申請(qǐng)日期2006年4月6日 優(yōu)先權(quán)日2006年4月6日
發(fā)明者欒劍, 丁沛, 何磊, 郝杰 申請(qǐng)人:株式會(huì)社東芝