專利名稱:用于說話人識別的拓撲聲紋的制作方法
技術領域:
本申請涉及通過聲音識別說話人。
背景技術:
不同人的聲音具有不同的聲音特征??梢蕴崛〔煌说穆曇籼卣鞯牟顒e來構成區(qū)分和辨認說話人的唯一辨認工具。從某種程度上說,說話人識別是一種基于從聲音或語音信號獲得的各個信息來自動地識別誰在講話的過程。針對各種應用場合,說話人識別可分為說話人辨認(Speaker Identification)和說話人確認(SpeakerVerification)。說話人辨認是指確定一組已知的說話人中哪位已登記的說話人提供了給定的發(fā)音。對該給定的發(fā)音進行分析,并將其與已知說話人的聲音信息相比較,以確定是否匹配。而在說話人確認中,未知說話人首先聲稱是某一已知說話人的實體,然后獲得該未知說話人的發(fā)音,并將其與所聲稱的已知說話人的信息相比較,以確定是否匹配。
說話人識別技術有多種用途。例如,可以使用說話人的聲音來控制對受限制的設備、裝置、計算機系統(tǒng)、數(shù)據(jù)庫、和各種服務的訪問,例如,對銀行、數(shù)據(jù)庫服務、購物、以及語音郵件的電話訪問,以及對安全設備和計算機系統(tǒng)的訪問。在說話人辨認和確認中,都要求用戶通過提供其語音樣本來“登入”說話人識別系統(tǒng),以使系統(tǒng)能夠表征并分析用戶的聲音模式。
在說話人識別領域,已經(jīng)開發(fā)了多種利用聲音特征的向量(例如,頻譜參數(shù))之間的距離來辨別說話人的說話人識別方法。在這種頻譜分析方法中,計算所提取的聲音特征和已知說話人的聲音模板之間的距離?;诮y(tǒng)計學分析和其他的適當分析,如果對所接收到的聲音或發(fā)音算出的距離在已知說話人的預定閾值之內(nèi),則所接收到的聲音或發(fā)音屬于該已知的說話人。
發(fā)明內(nèi)容
本申請所描述的說話人識別技術是部分地以基于頻譜參數(shù)距離計算的各種頻譜分析方法中的多個技術局限性為基礎而開發(fā)的。例如,由于同一說話人的不同發(fā)音可能具有略微不同的頻譜,而確定基本上依賴于用來適應適當閾值的聲音頻譜數(shù)據(jù)庫,所以這種頻譜分析方法可能至少不是足夠精確。
本申請的說話人識別技術使用從單個說話人計算出的聲音的拓撲特征,來構成作為每一個說話人的生物測定特征的一組離散有理數(shù)(例如整數(shù)),并使用這些有理數(shù)來辨認經(jīng)受檢查的說話人或對象。與各種頻譜分析方法中計算從不同的說話人的聲音獲得的頻譜曲線之間的距離明顯不同,該拓撲特征提供了對象和由一組有理數(shù)表示的模型或聲紋之間的一一對應關系。因此,可以針對包括說話人辨認和確認的各種應用場合來形成面向不同已知說話人的有理數(shù)數(shù)據(jù)庫。這種有理數(shù)的數(shù)據(jù)庫相對于在各種頻譜分析方法中使用的傳統(tǒng)的個人聲音數(shù)據(jù)庫較小。每一個聲紋包括用于區(qū)分說話人和其他說話人的一組離散整數(shù)或有理數(shù)形式的拓撲參數(shù),并通過嵌入說話人聲音的譜函數(shù)獲得。
在一個實施例中,描述了一種用于通過聲音來確定說話人身份的方法。首先,通過嵌入說話人聲音的譜函數(shù)提取一組拓撲指數(shù)。接下來,選擇拓撲指數(shù)作為說話人的生物測定特征,用于辨認和確認說話人和其他說話人。
在另一個實施例中,拓撲參數(shù)是從相對旋轉速度(rrr)獲得的例如整數(shù)的有理數(shù)。每一個對象都分配以可由簡短的話語重構的一組有理數(shù)。這些數(shù)的子集不隨同一說話人話語的不同而改變,而隨對象的不同而不同。這樣,可以不考慮數(shù)據(jù)庫的特征的大小建立一種描述聲音的標準方法。表征聲音的這組有理數(shù)很穩(wěn)定,可以很容易地在各種設備(例如磁性裝置或打印裝置)中進行編碼。
在本申請中描述的典型方法包括以下步驟。記錄說話人的語音信號并將其數(shù)字化。計算該離散信號的線性預測系數(shù)。根據(jù)該線性預測系數(shù)計算能譜。接著,由該能譜構建三維周期軌道,并由基準能譜(例如自然基準信號,natural reference signal)構建第二三維周期軌道。然后獲得關于語音信號和自然基準信號的周期軌道的拓撲信息。使用選出的一組拓撲指數(shù),將產(chǎn)生該語音信號的說話人與具有不同拓撲指數(shù)的其他說話人區(qū)分開。
本申請還描述了說話人識別系統(tǒng)。在一個例子中,說話人識別系統(tǒng)包括麥克風,用于從說話人接收聲音樣本;讀頭,用于從便攜存儲裝置中讀取唯一地表示已知說話人的聲音的有理數(shù)的聲音辨認數(shù)據(jù);以及處理單元。處理單元連接至麥克風和讀頭,可用于從說話人的聲音樣本中提取拓撲信息,以從聲音樣本產(chǎn)生拓撲離散數(shù)。處理單元還可用于將已知說話人的離散數(shù)與得自聲音樣本的拓撲離散數(shù)進行比較,以確定說話人是否為已知的說話人。由于用于說話人識別的離散有理數(shù)的數(shù)字碼的文件大小足夠小,所以可以將一個或多個說話人的一個或多個聲紋存儲在用戶可隨身攜帶的便攜存儲裝置中。
在附圖具體實施例方式
和權利要求中將更為詳細地描述這些和其他實例以及實施例。
圖1示出了來自單個說話人(實線)和通用基準(虛線)的用于嵌入的周期函數(shù)。這些函數(shù)由采用1/2初始周期的初始log|H(f)|2構建。
圖2示出了在函數(shù)的整個周期上針對兩個不同說話人的、使用最大熵近似值的log|H(f)|2的三個實例。在第二共振峰之外,頻譜自然地聚類成兩個不同的組。初始聲音段對應于從常規(guī)語音話語中提取的西班牙語元音[a]。
圖3示出了由一個濁音片段(實線)計算的函數(shù)F(f)的延時嵌入(Δf=40Hz)的實例。
圖4示出了三個年齡近乎相同的男性說話人的元音紋,其由在不同的登記時間段采集的大約10句話的短元音段(約100ms)構成。
圖5A示出了通過麥克風從說話人獲得的作為時間的函數(shù)的聲音樣本的實例。
圖5B示出了從圖5A中的聲音樣本獲得的能譜。
圖5C示出了用于從聲音信號提取旋轉數(shù)的拓撲法中的兩個三維軌道1和2的連接。
圖5D示出了由聲音樣本構成的軌道和來自基準信號的基準軌道之間的相對拓撲關系得到的相對旋轉數(shù)。
圖6A、圖6B、圖6C示出了從某一說話人的同一濁音的多個旋轉矩陣中選擇恒定旋轉數(shù)作為該說話人的聲紋的過程的實例。
圖7示出了以完全匹配分析方式將未知說話人的聲音與已知說話人的聲紋進行比較的實例。
圖8示出了對照三個已知說話人的三個聲紋確認兩個候選的步驟。
圖9示出了說話人識別系統(tǒng)的實例。
圖10示出了圖9中的系統(tǒng)的操作。
具體實施方式
本文所描述的說話人識別技術可以多種形式實施。在一個實施例中,從說話人的聲音樣本中提取例如一組離散有理數(shù)(例如,整數(shù))。所提取的有理數(shù)的子集存在于說話人的每一句話中,并且在正常的說話情形以及低噪音環(huán)境下,該子集在說話人的話與話之間不發(fā)生改變。這種子集被稱為聲紋,被用作說話人的生物測定特征,用于從其他說話人中辨認和確認該說話人。
因此,可以使用這種生物測定特征通過以下步驟實現(xiàn)說話人確認。首先,分析來自第二說話人的聲音樣本,以提取第二說話人的一組有理數(shù)。將第二說話人的這組離散有理數(shù)與說話人的聲紋進行比較,比較過程中不使用閾值。隨后,當?shù)诙f話人的這組有理數(shù)與說話人的聲紋之間完全匹配時,證明第二說話人就是說話人。如果不匹配,則認為第二說話人為與說話人不同的人。
在說話人辨認的實施例中,從不同的已知說話人的聲音樣本中提取聲紋。接著,分析來自未知說話人的聲紋,以提取未知說話人的一組有理數(shù),并將未知說話人的這組離散有理數(shù)與已知說話人的聲紋進行比較,以確定是否匹配,從而辨認未知說話人是否為已知說話人之一。
值得注意的是,在上述說話人確認和說話人辨認過程中,在不同組離散有理數(shù)之間進行比較,以確定是否匹配。而不需要確定兩個頻譜特征之間的差值是否在選定的閾值內(nèi)。本文所描述的說話人識別技術的各個特征優(yōu)于基于譜圖參數(shù)距離計算的各種頻譜分析方法。
聲音識別法為非侵害性的識別方法,因此,在這點上,聲音識別法優(yōu)于例如視網(wǎng)膜掃描法的其他生物測定識別方法。但是,用于說話人識別的頻譜分析法并不像包括指紋識別的其他生物測定方法那樣被廣泛地使用,這一定程度上是由于當比較不同聲音中的頻譜特征時,對于肯定辨認來說難以確定多接近才是足夠接近。本文所描述的說話人識別技術避免了使用閾值比較頻譜特征的不確定性,并提供了一種從語音頻譜信息中提取生物測定特征的新方法。
眾所周知,人的聲音的頻譜特性承載了說話人的獨有特質,因而可用于說話人識別。在產(chǎn)生濁音的過程中,通過由聲帶調節(jié)氣流而產(chǎn)生的富頻譜特征的聲音信號通過說話人的聲道過濾。作為無源濾波器的聲道的共振由說話人的人類工程學特征決定,因此可用于辨認說話人。人類聲音的物理性質可依照標準有源濾波理論(source-filter theory)進行描述。在產(chǎn)生類似元音的濁音過程中,氣流引起聲帶的周期性振動。這種振動在無源線性濾波器(即聲道)的輸入處產(chǎn)生隨時間變化的壓力波動。源和濾波器之間的分離假定聲帶振動的回饋可以忽略,Laje等人在Phys.Rev.E64,05621(2001)中在常規(guī)語音條件下已經(jīng)詳盡地證實了該假設。富頻譜特征的輸入壓力呈現(xiàn)出基頻約為100Hz的諧波。聲道從這些諧波中選擇某些頻率。這樣,濁音的頻譜載有關于聲道的信息,而每個說話人的聲道都是唯一的,因此,濁音的頻譜可以用作說話人的生物測定特征。
說話人識別領域中的典型方法(例如各種頻譜分析方法)使用表征不同對象的帶有量值的特征向量,進行多維分組,然后通過對特征向量進行度量使與不同對象相關的組(cluster)分離。在聲音的頻譜特征的構架(framework)中,進行身份確認的一種方法為作出根據(jù)話語計算出的特性之間的距離(失真測量),例如兩個頻譜之間的差值在對數(shù)量級上的積分。另一種失真測量是基于頻譜斜率(spectral slope)之間的差值,例如,能譜對相對于頻率的對數(shù)的一階導數(shù)。
這些頻譜分析方法有許多技術缺陷。圖1示出了同一說話人的三句不同話語的對數(shù)能譜的實例。對于同一說話人的不同話語,這些能譜在譜圖峰值和外形方面略有不同。因此,在計算頻譜特征之間的差值時,測量曲線之間的距離以及決定對于說話人識別可以接受多少誤差本質上很困難而且復雜。例如,這種頻譜分析方法的計算結果對不同說話人來說通常分散于多種范圍之間。同樣地,兩個范圍接近的說話人之間的可接受的值之間的界限設定在哪里也存在不確定性。
本文所述的說話人識別技術使用完全不同的從聲音和話語中提取唯一的生物測定特征的方法。上述頻譜比較可以替換地通過另一組稱為倒譜系數(shù)的系數(shù)實現(xiàn),該倒譜系數(shù)是頻譜函數(shù)的傅立葉振幅。在一定程度上,這種實現(xiàn)方式可以理解為將聲音頻譜作為“時間”序列處理,其中頻率f起時間的作用。在這種觀點下,本發(fā)明人披露為比較兩個周期軌道而在動力學系統(tǒng)理論中使用的技術可以用于濁音頻譜的分析之中。這種表達信息的方法徹底避免了頻譜特征差值的計算。特別地,本發(fā)明人探索了拓撲工具的使用,該拓撲工具用于捕獲軌道的主要形態(tài)特征,不考慮輕微變形。非線性動力學系統(tǒng)的拓撲分析是一個成熟建立的技術領域,Robert Gilmore在Review of Modern Physics,Vol.70,No.4,1455-1592頁(1998年10月)中的“Topological analysis of chaotic dynamical system”中詳細描述了基本原理和分析框架。
以下部分描述如何通過使用動力學系統(tǒng)的不同領域中開發(fā)出的拓撲工具,通過若干組有理數(shù)表征頻譜。特別地,在相對較少的一組說話人中,存在若干組似乎可強化說話人的身份信息的有理數(shù)子集。這些結果顯示了以聲音識別對象的一個新的方向有理數(shù)的排列限定了依賴于其自身的聲紋,不用考慮任何接受/拒絕閾值。
在三維動力學系統(tǒng)的分析中,周期軌道是閉合曲線,該閉合曲線可以通過彼此以及自身紐結和連接的方式來表征。例如,參見Solari和Gilmore,“Relative rotation rates for driven dynamicalsystem”,Physical Review A37,3096-3109頁(1998);Mindlin等人,“Classification of strange attractors by rational numbers”,PhysicalReview Letters,Vol.64,2350-2353頁(1990);以及Mindlin和Gilmore,Physica D58,229頁(1992)。為了將這種分析應用于說話人識別的課題中,利用通常應用于周期性“時間”序列分析中的技術,將濁音在對數(shù)標度上的能譜作為周期性數(shù)據(jù)串處理??梢岳醚訒r嵌入,將該數(shù)據(jù)串構成三維軌道。
圖2示出了兩個說話人的三個發(fā)音的對數(shù)能譜的實例。這些頻譜自然地分成分別對應于兩個說話人的兩組??梢园l(fā)現(xiàn),它們的嵌入的拓撲性質是用于身份確認的合適工具。
在上述引用的Solari和Gilmore的出版物中描述的相對旋轉速度為引入用來輔助說明被周期性驅動的二維動力學系統(tǒng)的拓撲不變量,可用于從人類聲音的頻譜特性中提取生物測定信息。相對旋轉速度還可針對一大類自治動力學系統(tǒng)以R3構建其中可以找到Poincaré部分。
為了描述聲道的頻率響應,計算每一個存儲的濁音段的能譜的最大熵近似值??梢酝ㄟ^計算濁音段{yn}的m個線性預測系數(shù)來進行上面的計算,取速度r=1/Δyn=Σk=1mdkyn-k+xn---(1)]]>其中,假設在整個語音段中l(wèi)p(線性預測)系數(shù)d1,d2,…,dm不變,并且選擇該系數(shù)使得xn最大。這些lp系數(shù)可用于估算能譜|H(f)|2為具有m個極點的有理函數(shù)H(f)=d01-Σk=1mdkeik2πfΔ---(2)]]>其在[-1/2Δ,1/2Δ]內(nèi),即,Nyquist間隔內(nèi)是周期性的。圖2中的兩個說話人的頻譜是基于公式(2)重構的頻譜的實例。
使用m=13個系數(shù)的公式(2),估計能譜函數(shù)的對數(shù)log|H(f)|2。該頻譜相對于f=0對稱。因此,每個頻譜只有一半與拓撲有理數(shù)的分析和提取相關。在處理聲音頻譜的原始數(shù)據(jù)中,我們?nèi)サ鬺og|H(f)|2和log|H(π/Δ)|之間的差值,加入線性函數(shù)并減去平均值。最終的譜函數(shù)F(f)為周期性函數(shù),其周期為初始周期的二分之一。
再參照圖1,與基準頻譜函數(shù)一起示出了同一說話人的不同話語的F(f)的一些實例??梢允褂醚訒rδ,將所得到的函數(shù)F(f)嵌入相空間。圖3進一步示出了使用δ=40Hz的軌道的實例。由F(f)、F(f-δ)、和F(f-2δ)定義的、相空間中的延時嵌入軌道總是在線F(f)=F(f-δ)=F(f-2δ)周圍顯示空洞。因此,由F(f)=F(f-2δ);F(f-δ)<F(f-2δ)定義的半面給出了良好的Poincaré部分。
選擇相對于基準的相對旋轉,作為這些周期軌道的拓撲特征。例如,使用通用基準平坦的、無節(jié)(non articulated)聲道(假設濁音為零)。該通用基準獨立于數(shù)據(jù)庫,對本申請所描述實例來說對應于具有給定長度17.5cm的開放-封閉均勻管道的能譜的嵌入。
可以通過假設軌道具有pA和pB段區(qū)間(period),按照下述計算這些嵌入頻譜的相對旋轉。建立軌道A和B的相對旋轉矩陣M∈ZpA×pB,]]>矩陣元素Mij相當于軌道A的第i區(qū)間相對于軌道B的第j區(qū)間的帶符號的交叉點(signed crossing)的求和??梢酝ㄟ^將兩個軌道A和B投影在二維子空間上來計算帶符號的交叉點。在該投影中,剛好在交叉點上的兩個區(qū)間的切向量沿氣流的方向作出。上部切向量向下部切向量旋轉,如果該旋轉是向右(左)旋的,則將+1(-1)分配給交叉點。如上述建立的相對旋轉矩陣的元素是有理數(shù)。
該相對旋轉矩陣通過以下公式與相對旋轉速度相關Rij(A,B)=1pApBΣk=0pApB-1Mi+k,j+k---(3)]]>其中,周期邊界條件被用于該矩陣。
為了建立說話人的聲音特征(voice signature),說話人所說的每一個元音都要被表征。表征元音的一種方法是通過疊加對應于同一濁音和同一說話人的所有相對旋轉矩陣,并且通過在這些相對旋轉矩陣中查找重合(coincidence),即,旋轉數(shù),當根據(jù)說話人說的不同話語計算旋轉數(shù)時它不會改變。這些重合被稱為“穩(wěn)定的旋轉數(shù)”,并且為有理數(shù)。進行的測試顯示,這些穩(wěn)定的旋轉數(shù)對于一個說話人來說是唯一的,并且不同說話人的穩(wěn)定旋轉數(shù)不同。因此,說話人的這些穩(wěn)定的旋轉整數(shù)與說話人的指紋相似,可用作聲音生物測定特征,用于辨認說話人與其他說話人。
位于原矩陣中的穩(wěn)定旋轉數(shù)的排列被稱作說話人的“元音紋(vowelprint)”。說話人的元音紋的集合被稱作“聲紋”。圖4示出了對應于三個年齡近乎相同的男性對象的西班牙元音[a]的三個元音紋實例。
上述聲紋是離散有理數(shù)的集合,該集合表示說話人獨特的元音生物測定特征??赏ㄟ^將從說話人的聲音中獲得的這些有理數(shù)與從已知說話人獲得的一組有理數(shù)相比較來識別說話人。兩組離散有理數(shù)之間的這種比較避免了頻譜特征之間距離的測量計算,并且避免了基于一些預定的閾值來匹配不同的頻譜特征過程中固有的不確定性。此外,與頻譜分析法中的頻譜特征的通常較大的聲音數(shù)據(jù)庫相比,這些有理數(shù)的數(shù)字文件的大小相對較小。因此,可以將人的聲紋作為數(shù)字碼存儲在各種便攜存儲裝置中,例如,信用卡、身份證(例如,駕駛執(zhí)照)以及銀行卡上的磁條、印制在諸如打印文件(例如,護照和駕駛執(zhí)照)和身份證的各種表面上的條形碼、小型電子存儲裝置、以及其他。人們可以方便地攜帶聲紋,并將聲紋用于辨認、確認、以及其他目的。
在多個實施例中,可以使用計算機或者基于微處理器的電子裝置和系統(tǒng)來接收和處理來自說話人的聲音信號,并提取說話人的聲紋的有理數(shù)??纱鎯υ撀暭y,用于隨后的說話人辨認和確認處理。例如,連接至計算機或基于微處理器的電子裝置和系統(tǒng)的麥克風可用于獲取來自說話人的聲音樣本。將麥克風接收到的聲音信號數(shù)字化,然后使用上述軌道處理經(jīng)過數(shù)字化的聲音信號,以獲得對于每一個說話人的一組穩(wěn)定旋轉數(shù)作為聲紋。
圖5A示出了由麥克風產(chǎn)生的、說話人的作為時間函數(shù)的聲音信號的實例。選擇一些聲音信號片段,以形成用于進一步處理的聲音頻譜。圖5B示出了從圖5A中的一個信號段獲得的聲音能譜的一個實例和選定基準聲音信號的頻譜。在系統(tǒng)的實際訓練中,從一組說話人在不同的登記期間中記錄訓練話語。
圖5C示出了兩個簡單三維軌道1和2的連接(linking)的實例。如上所述,兩個軌道1和2的組結和連接可用于獲取相對旋轉指數(shù)或相對旋轉數(shù)。從類似于圖3中的說話人的聲音信號產(chǎn)生的軌道以及基準軌道可用于獲取基于兩個軌道的相關拓撲關系的相對旋轉矩陣。圖5D示出了通過聲音樣本的拓撲分析獲得的相對旋轉整數(shù)的實例。為了提取有理數(shù),建立基于所記錄的濁音的頻譜特征的周期函數(shù)。使用相空間重構技術建立閉合三維軌道。在三維動力學系統(tǒng)的分析之后,從閉合軌道或曲線中提取連接和紐結特性。所提取的若干組有理數(shù)(旋轉數(shù))排列成如圖5D所示的矩陣形式。接著,由旋轉數(shù)的最終排列形成模型,旋轉數(shù)對于每個說話人的話語的變化保持不變。只包括位于原矩陣位置的穩(wěn)定數(shù)的矩陣可用于構成說話人的聲音簽名(voice signature)或聲音模型。
圖6A、圖6B、圖6C示出了對于特定說話人的聲音模型的形成??梢杂嬎懵曇粜盘朏(f)的軌道相對于所選擇基準的旋轉速度。對于具有p段嵌入軌道的函數(shù)F(f)和q段的基準,可以獲得p×q個旋轉數(shù)的矩陣。圖6A示出了4×4矩陣的旋轉數(shù)的實例。該矩陣的矩陣元素(i,j)相當于說話人的周期軌道的第i段相對于基準的第j段的轉數(shù)。每一個矩陣元素都是一個旋轉數(shù)。計算聲音模型作為訓練組的所有話語的恒定旋轉數(shù)。作為實例,圖6B示出了從同一說話人獲得的對于同一濁音的4個不同的矩陣。在所獲得的4個矩陣中,一些旋轉數(shù)隨矩陣的不同而改變。圖6B還示出了4個加陰影的矩陣元素,這些矩陣元素在4個矩陣中不變。基于圖6B中的4個樣本,建立如圖6C所示的聲音模型的最終矩陣。該聲音模型的矩陣與原矩陣一樣仍是p×q矩陣,除了只保留不變的矩陣元素,而其余矩陣元素為空。這些空的矩陣元素對應于變化最大的拓撲指數(shù)。對于每一個說話人和每一個濁音都有一個模型。對每一個說話人重復上述訓練處理,以建立所有說話人的模型的聲音數(shù)據(jù)庫。
在建立了已知說話人的聲音模型的數(shù)據(jù)庫、并進行存儲或使該數(shù)據(jù)庫可由說話人識別系統(tǒng)訪問之后,系統(tǒng)隨時可以確認或辨認說話人。首先,獲取來自未知說話人的聲音樣本,并且從要求登入數(shù)據(jù)庫的未知說話人的聲音模型計算一組旋轉速度矩陣。這些測試矩陣針對每一個濁音與相應的聲音模型進行比較。只有當測試矩陣與數(shù)據(jù)庫中的聲音模型中的一個完全匹配(模型匹配)時,才能確認未知說話人。只要使用全匹配標準,就不需要用于接受和拒絕門限的閾值。
圖7的左邊示出了說話人的聲音模型的實例(例如,存儲在信用卡中的代碼),右邊示出了從未知說話人獲取的測試矩陣。在左邊聲音模型中的6個恒定旋轉數(shù)中,右邊矩陣中的旋轉數(shù)只有3個匹配。因此,在該實例中沒有完全匹配,確定未知說話人不是該已知說話人。
上述用于說話人識別的拓撲法成功地經(jīng)受了檢驗。通過記錄18個說話人中每個人重說六次含有5個西班牙元音的語句,然后根據(jù)從這些元音中獲取的小片段(約100ms)構成拓撲矩陣,來建立聲音數(shù)據(jù)庫。最終的聲音數(shù)據(jù)庫具有從18個說話人中每個人的拓撲矩陣計算得到的聲紋。
接著,記錄來自要求進入數(shù)據(jù)庫的說話人的聲音樣本,并從所記錄的聲音樣本計算拓撲矩陣。將這些候選矩陣與數(shù)據(jù)庫中相應的元音紋相比較。只有當該組候選矩陣與單個存儲聲紋完全匹配時,才能辨認該說話人為數(shù)據(jù)庫的成員。在這里,完全匹配是指所有元音紋中的所有穩(wěn)定數(shù)都出現(xiàn)在相應的候選矩陣中。
圖8示出了對從18個說話人獲得的單個元音紋進行比較的實例。圖8中,兩個候選矩陣與模型的數(shù)據(jù)庫相比較。對于兩個候選矩陣中的每一個,都示出了單個元音紋。如果說話人的候選矩陣與某一存儲的聲紋完全匹配,則將該說話人辨認為數(shù)據(jù)庫的成員。模型中的灰色區(qū)域對應于矩陣中含有穩(wěn)定數(shù)的位置。將候選人辨認為數(shù)據(jù)庫的成員(即,完全匹配),要求位于候選矩陣的該位置處的數(shù)字與模型中的穩(wěn)定數(shù)相同。聲音數(shù)據(jù)庫的108句話語中的每一句都用作候選進行辨認。該測試取得了理想的識別效果,沒有一個錯誤的肯定或否定辨認。
在構成聲紋過程中進行的旋轉數(shù)子集選擇可讓人想到,可能會丟失一些信息。為了驗證這個假設,將數(shù)據(jù)庫中的每一個聲紋用構成聲紋的所有單個矩陣的集合來代替,這樣就保存了所有的拓撲信息。該數(shù)據(jù)庫的108句話語中的每一句都用作辨認的候選。計算候選矩陣與表征數(shù)據(jù)庫中每一個說話人的一組矩陣之間的重合的數(shù)目。結果表明這是一種低性能的方法,這是由于發(fā)現(xiàn)了若干個錯誤的肯定和否定。因此,由于舍棄了由隨話語的變化而變化的指數(shù)所承載的不必要的信息,拓撲穩(wěn)定數(shù)似乎強化了相關頻譜信息。
此外,對上述拓撲法和計量法之間進行了比較。在計量法中,計算頻譜之間的二次距離(quadratic distance),并在最佳閾值下計算重合。在這種情況下,通過用于構成旋轉矩陣的譜函數(shù)來代替數(shù)據(jù)庫中每個說話人的聲紋。這種計量法作為說話人識別的性能要低于拓撲法。
本拓撲法相對于各種計量法顯現(xiàn)出許多有益的優(yōu)勢。在計算頻譜之間距離的計量法中,需要定義閾值,它是一個數(shù)據(jù)庫相關量。將由有理數(shù)構成的拓撲聲紋與全匹配標準一起使用,引入了一種獨立于數(shù)據(jù)庫、不需要閾值確認接受的新方法。
實施了在標準個人計算機上運行本拓撲法的實施例,測試表明在PC上進行的拓撲處理很快。一旦記錄了話語,就可以容易地提取濁音段。使用簡便的交叉計數(shù)算法(cross-counting algorithm)(參見,例如,所引用的Gilmore論文)可以建立它們的相對旋轉矩陣,并通過簡單地計算小矩陣集合的重合來計算聲紋。一旦建立了聲音數(shù)據(jù)庫,整個識別任務就是小矩陣的匹配。
在本拓撲法中,發(fā)現(xiàn)穩(wěn)定數(shù)的數(shù)量的變化是訓練組大小的函數(shù)。對于大于10個元音的訓練組,穩(wěn)定數(shù)的數(shù)量收斂于近似8。這些穩(wěn)定數(shù)描述了濁音的譜函數(shù)相對于基準頻譜的的相對峰高,其不隨話語的變化而變化。將本數(shù)據(jù)庫中對象的穩(wěn)定數(shù)與從該對象嚴重感冒而嗓音改變時記錄的話語中獲取的拓撲指數(shù)相比較。測試表明穩(wěn)定數(shù)的矩陣中的信息適度降低只有與最高頻率相關的指數(shù)改變了,而聲紋的大部分保持不變。
多種系統(tǒng)可以采用本發(fā)明的拓撲聲音識別方法。一個簡單的實施例可以將計算機或包括微處理器的處理單元用于處理來自連接至處理單元的麥克風的聲音信號??梢允褂美珉娮哟鎯ρb置、磁存儲裝置(例如,PC中的硬盤驅動器)、或光存儲裝置的存儲介質來存儲已知說話人的拓撲聲紋。用戶通過對著麥克風說話來提供聲音樣本。處理單元首先處理來自用戶的聲音樣本,以提取用戶的拓撲聲音指數(shù),然后將用戶的拓撲聲音指數(shù)與存儲在存儲裝置中的指數(shù)相比較,以搜索用戶和數(shù)據(jù)庫中已知說話人之一的匹配。
圖9示出了實施上述拓撲法的說話人識別系統(tǒng)的實例。圖10示出了圖9中的系統(tǒng)的操作流程。該系統(tǒng)包括處理單元,可以是計算機或包括微處理器,用于根據(jù)拓撲法處理聲音信號,并用于將從讀頭讀取的聲音模型與由聲音信號構成的測試矩陣進行比較;輸入麥克風,與處理單元連接,用于記錄來自說話人的聲音信號;讀頭,也連接至處理單元,用于讀取存儲在便攜存儲裝置上的一個或多個已知說話人的聲音模型的有理數(shù),該便攜存儲裝置例如磁卡、光存儲裝置、印有以有理數(shù)編碼的條形碼的卡、或者電子存儲裝置或存儲卡。
例如,假設讀頭為磁讀取器,便攜存儲裝置為存儲有已知說話人的一個或多個聲音模型的數(shù)字碼的磁卡。要求聲稱是已知說話人的持卡人將卡片滑過讀出器并對著麥克風說話,以便獲取他的聲音樣本。處理單元處理該聲音樣本,以提取拓撲有理數(shù),并將該拓撲有理數(shù)和從該卡讀取的有理數(shù)相比較。在所有有理數(shù)之間完全匹配的情況下,確認該卡的用戶為其聲紋存儲在該卡上的已知說話人。可以允許該卡的用戶訪問例如銀行帳戶或計算機系統(tǒng)。
可以通過計算機網(wǎng)絡實現(xiàn)基于本拓撲法的計算機安全確認系統(tǒng),其中,可以通過網(wǎng)絡將來自用戶的數(shù)字化聲音樣本發(fā)送到處理單元,處理單元確定該用戶的聲音樣本是否與存儲在拓撲數(shù)據(jù)庫中的已知說話人的聲音相匹配。這種用途可應用于互聯(lián)網(wǎng)、電話線及網(wǎng)絡、例如無線電話網(wǎng)絡或無線數(shù)據(jù)網(wǎng)絡的無線通信鏈路。各種用途可以結合本發(fā)明的拓撲聲音識別作為確認過程的部分或是全部,所說確認過程例如電子銀行或金融、在線購物、各種證明文件(例如護照、身份證)的確認、以及銀行卡、信用卡、電子貿(mào)易、電話訪問、無鑰匙進入(keyless entry)(汽車、住宅、辦公室等)和駕駛執(zhí)照的用戶身份的確認。
以上只描述了一些實施例。然而,應該理解,這些實施例可進行各種修改和加強。
權利要求
1.一種用于通過聲音確定說話人的身份的方法,包括從說話人聲音的譜函數(shù)的嵌入提取一組拓撲指數(shù);以及使用選擇的所述拓撲指數(shù)作為所述說話人的生物測定特征,以辨認并確認所述說話人和其他說話人。
2.根據(jù)權利要求1所述的方法,進一步包括分析來自第二說話人的聲音樣本,以提取所述第二說話人的一組拓撲指數(shù);比較所述第二說話人的拓撲指數(shù)組和所述說話人的拓撲指數(shù)組;當所述第二說話人的拓撲指數(shù)組與所述說話人的拓撲指數(shù)組之間匹配時,確認所述第二說話人是所述說話人;以及當不匹配時,確認所述第二說話人是不同于所述說話人的人。
3.根據(jù)權利要求1所述的方法,進一步包括從不同的已知說話人的聲音中提取多組拓撲指數(shù);分析來自未知說話人的聲音樣本,以提取所述未知說話人的一組拓撲指數(shù);比較所述未知說話人的拓撲指數(shù)組和所述已知說話人的多組拓撲指數(shù),以確定是否匹配;當匹配時,確認所述未知說話人是其拓撲指數(shù)組與所述未知說話人的拓撲指數(shù)組相匹配的所述已知說話人。
4.根據(jù)權利要求1所述的方法,進一步包括將所述說話人的拓撲指數(shù)組存儲在便攜裝置中;從擁有所述便攜裝置的用戶獲取聲音樣本;分析從所述用戶獲取的所述聲音樣本,以提取所述用戶的一組拓撲指數(shù);提供讀取裝置,以從所述便攜裝置中讀取所述說話人的拓撲指數(shù)組;比較從所述便攜裝置中讀出的所述說話人的拓撲指數(shù)組和所述用戶的拓撲指數(shù)組,以確定是否匹配;以及當匹配時,確認所述用戶是所述說話人。
5.根據(jù)權利要求4所述的方法,進一步包括使用磁存儲裝置作為所述便攜裝置。
6.根據(jù)權利要求5所述的方法,其中,所述便攜裝置為磁卡,并且所述說話人的拓撲指數(shù)組存儲在所述磁卡中。
7.根據(jù)權利要求6所述的方法,其中,所述磁卡包括存儲所述說話人的拓撲指數(shù)組的磁條。
8.根據(jù)權利要求4所述的方法,其中,所述便攜裝置具有印有條形碼圖案的表面,并且所述說話人的拓撲指數(shù)組存儲在所述條形碼圖案中。
9.根據(jù)權利要求4所述的方法,進一步包括使用電子存儲裝置作為所述便攜裝置。
10.根據(jù)權利要求4所述的方法,進一步包括使用光存儲裝置作為所述便攜裝置。
11.根據(jù)權利要求1所述的方法,其中,從所述說話人的聲音中提取所述拓撲指數(shù)組包括處理來自所述說話人的語音信號,以獲取譜函數(shù);由所述譜函數(shù)構建閉合三維軌道;相對于基準,從所述軌道獲取一組拓撲指數(shù);以及選擇所述拓撲指數(shù)的子集作為所述說話人的生物測定特征。
12.一種方法,包括記錄和處理來自說話人的語音信號;由所述語音信號計算線性預測系數(shù);由所述線性預測系數(shù)計算能譜;基于所述能譜構建三維周期軌道;由自然基準信號的能譜構建三維周期軌道;獲得關于所述語音信號和所述自然基準信號的所述周期軌道的拓撲信息;以及使用選擇的一組拓撲指數(shù),將產(chǎn)生所述語音信號的所述說話人從具有不同拓撲指數(shù)的其他說話人中區(qū)分出來。
13.根據(jù)權利要求12所述的方法,其中,所述拓撲信息由所述語音信號的周期軌道與另一基準軌道之間的相對旋轉速度、和/或其自身的周期軌道的旋轉速度獲得。
14.根據(jù)權利要求12所述的方法,其中,所述拓撲信息通過計算連接特性和/或自連接特性而從軌道獲得。
15.根據(jù)權利要求12所述的方法,其中,所述拓撲信息通過計算嵌入中的紐結類型而從所述軌道獲得。
16.根據(jù)權利要求12所述的方法,其中,各個三維周期軌道相對于笛卡兒坐標系構建,所述三維周期軌道的軸由具有不同相位延遲的能譜定義。
17.根據(jù)權利要求12所述的方法,其中,各個三維周期軌道相對于笛卡兒坐標系構建,所述三維周期軌道的軸由其他積分微分嵌入定義。
18.根據(jù)權利要求12所述的方法,進一步包括形成包括多個已知說話人的不同的選擇拓撲指數(shù)組的數(shù)據(jù)庫;以及將未知說話人的選擇的一組拓撲指數(shù)與所述數(shù)據(jù)庫進行比較,以確定是否匹配。
19.一種方法,包括提供包括已知說話人的聲紋的數(shù)據(jù)庫,其中,每個聲紋包括一組用于區(qū)分說話人和其他說話人的拓撲數(shù),并得自從所述說話人聲音的能譜獲得的周期軌道與從音頻基準的能譜獲得的周期軌道之間在三維空間中的關系;以及將未知說話人的聲紋與所述數(shù)據(jù)庫進行比較,以確定是否匹配。
20.根據(jù)權利要求19所述的方法,其中,所述三維空間由具有不同延遲值的能譜函數(shù)定義。
21.根據(jù)權利要求20所述的方法,其中,所述三維空間按照三維積分微分嵌入定義。
22.一種用于從其他說話人中辨認說話人的聲紋,包括一組有理數(shù),表征譜函數(shù)的拓撲特征,用于將說話人與其他說話人區(qū)分,其中,所述拓撲參數(shù)得自從所述說話人的能譜獲得的周期軌道與從音頻基準的能譜獲得的周期軌道之間在三維空間中的關系。
23.一種說話人識別系統(tǒng),包括麥克風,用于從說話人接收聲音樣本;讀頭,用于從便攜存儲裝置中讀取表示已知說話人的有理數(shù)的聲音辨認數(shù)據(jù);以及處理單元,連接至所述麥克風和所述讀頭,所述處理單元可用于從來自所述說話人的所述聲音樣本中提取拓撲信息,以從所述聲音樣本產(chǎn)生拓撲有理數(shù),并將所述已知說話人的所述有理數(shù)與得自所述聲音樣本的所述拓撲有理數(shù)相比較,以確定所述說話人是否為所述已知說話人。
24.根據(jù)權利要求22所述的系統(tǒng),其中,所述讀頭為從磁便攜存儲裝置中讀取數(shù)據(jù)的磁讀取器。
25.根據(jù)權利要求22所述的系統(tǒng),其中,所述讀頭為從光便攜存儲裝置中讀取數(shù)據(jù)的光學讀取器。
26.根據(jù)權利要求22所述的系統(tǒng),其中,所述讀頭為從電子便攜存儲裝置中讀取數(shù)據(jù)的電子讀取器。
全文摘要
本申請的說話人識別技術使用他/她的聲音頻譜特性的拓撲描述,將其用作說話人的生物測定特征。與各種頻譜分析方法中計算從不同說話人的聲音中獲得的頻譜曲線之間的距離明顯不同,該拓撲特征提供了對象和由一組有理數(shù)表示的模型之間的一一對應關系。
文檔編號G10L17/00GK1871639SQ200480030850
公開日2006年11月29日 申請日期2004年8月20日 優(yōu)先權日2003年8月20日
發(fā)明者貝爾納多·加布里埃爾·明德林, 馬科斯·阿爾貝托·特雷維桑, 曼努埃爾·卡米洛·埃吉亞 申請人:加利福尼亞大學董事會, 布宜諾斯艾利斯大學, 基爾梅斯國立大學