本發(fā)明一般地涉及信息處理領域。具體而言,本發(fā)明涉及一種能夠準確進行說話人識別的方法和設備。
背景技術:
近年來,基于語音的信息處理技術得到了迅猛的發(fā)展并具有廣泛的應用。其中比較重要的是基于語音對說話人進行識別的技術,這被稱為說話人識別,也被稱為聲紋識別。例如,說話人識別可應用于對說話人的身份進行確認的場合,如法院審理、遠程金融服務、安保,語音檢索、反恐、軍事等領域亦有應用。
雖然說話人的語音特征本身具有相對的穩(wěn)定性,但是實際捕獲說話人語音時,難免受到聲音傳播信道、音頻捕獲設備、周邊環(huán)境噪聲等的影響。這會導致所獲得的說話人語音特征的變化,顯然對說話人識別的性能造成不利影響。
本發(fā)明致力于克服聲音傳播信道、音頻捕獲設備、周邊環(huán)境噪聲等對說話人識別的不利影響,提高說話人識別的準確度。
技術實現(xiàn)要素:
在下文中給出了關于本發(fā)明的簡要概述,以便提供關于本發(fā)明的某些方面的基本理解。應當理解,這個概述并不是關于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細描述的 前序。
本發(fā)明的目的是提出一種準確識別說話人的方法和設備。
為了實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了一種說話人識別方法,該說話人識別方法包括:從待識別說話人語料中,提取待識別說話人的語音特征;基于所提取的待識別說話人的語音特征、體現(xiàn)語音特征在特征空間中的分布的通用背景模型ubm、體現(xiàn)語音特征在特征空間中的分布的變化的統(tǒng)計值的梯度通用說話人模型gusm、體現(xiàn)環(huán)境變化的總變化矩陣,得到待識別說話人模型;以及比較待識別說話人模型和已知說話人模型,以確定待識別說話人是否為已知說話人之一。
根據(jù)本發(fā)明的另一個方面,提供了一種說話人識別設備,該說話人識別設備包括:說話人語義特征提取裝置,被配置為:從待識別說話人語料中,提取待識別說話人的語音特征;說話人模型構建裝置,被配置為:基于所提取的待識別說話人的語音特征、體現(xiàn)語音特征在特征空間中的分布的通用背景模型ubm、體現(xiàn)語音特征在特征空間中的分布的變化的統(tǒng)計值的梯度通用說話人模型gusm、體現(xiàn)環(huán)境變化的總變化矩陣,得到待識別說話人模型;以及說話人識別裝置,被配置為:比較待識別說話人模型和已知說話人模型,以確定待識別說話人是否為已知說話人之一。
另外,根據(jù)本發(fā)明的另一方面,還提供了一種存儲介質。所述存儲介質包括機器可讀的程序代碼,當在信息處理設備上執(zhí)行所述程序代碼時,所述程序代碼使得所述信息處理設備執(zhí)行根據(jù)本發(fā)明的上述方法。
此外,根據(jù)本發(fā)明的再一方面,還提供了一種程序產品。所述程序產品包括機器可執(zhí)行的指令,當在信息處理設備上執(zhí)行所述指令時,所述指令使得所述信息處理設備執(zhí)行根據(jù)本發(fā)明的上述方法。
附圖說明
參照下面結合附圖對本發(fā)明的實施例的說明,會更加容易地理解本發(fā)明的以上和其它目的、特點和優(yōu)點。附圖中的部件只是為了示出本發(fā)明的原理。 在附圖中,相同的或類似的技術特征或部件將采用相同或類似的附圖標記來表示。附圖中:
圖1示出了根據(jù)本發(fā)明的實施例的說話人識別方法的流程圖。
圖2示出了根據(jù)本發(fā)明的實施例的獲得通用背景模型ubm、梯度通用說話人模型gusm的方法的流程圖。
圖3示出了根據(jù)本發(fā)明的實施例的獲得總變化矩陣和已知說話人模型的方法的流程圖。
圖4示出了根據(jù)本發(fā)明的實施例的說話人識別設備的結構方框圖。
圖5示出了可用于實施根據(jù)本發(fā)明的實施例的方法和設備的計算機的示意性框圖。
具體實施方式
在下文中將結合附圖對本發(fā)明的示范性實施例進行詳細描述。為了清楚和簡明起見,在說明書中并未描述實際實施方式的所有特征。然而,應該了解,在開發(fā)任何這種實際實施方式的過程中必須做出很多特定于實施方式的決定,以便實現(xiàn)開發(fā)人員的具體目標,例如,符合與系統(tǒng)及業(yè)務相關的那些限制條件,并且這些限制條件可能會隨著實施方式的不同而有所改變。此外,還應該了解,雖然開發(fā)工作有可能是非常復雜和費時的,但對得益于本公開內容的本領域技術人員來說,這種開發(fā)工作僅僅是例行的任務。
在此,還需要說明的一點是,為了避免因不必要的細節(jié)而模糊了本發(fā)明,在附圖中僅僅示出了與根據(jù)本發(fā)明的方案密切相關的裝置結構和/或處理步驟,而省略了與本發(fā)明關系不大的其他細節(jié)。另外,還需要指出的是,在本發(fā)明的一個附圖或一種實施方式中描述的元素和特征可以與一個或更多個其它附圖或實施方式中示出的元素和特征相結合。
本發(fā)明的基本思想是通過訓練事先構建體現(xiàn)語音特征在特征空間中的分布及其變化的通用模型、體現(xiàn)環(huán)境變化的模型,基于上述模型和具體的待 識別說話人的語音特征,可獲得不受聲音傳播信道、音頻捕獲設備、周邊環(huán)境噪聲影響的待識別說話人模型,將其與通過同樣方式獲得的已知說話人模型進行比較,即可完成說話人識別。
下面將參照圖1描述根據(jù)本發(fā)明的實施例的說話人識別方法的流程。
圖1示出了根據(jù)本發(fā)明的實施例的說話人識別方法的流程圖。如圖1所示,根據(jù)本發(fā)明的實施例的說話人識別方法包括如下步驟:從待識別說話人語料中,提取待識別說話人的語音特征(步驟s1);基于所提取的待識別說話人的語音特征、體現(xiàn)語音特征在特征空間中的分布的通用背景模型ubm、體現(xiàn)語音特征在特征空間中的分布的變化的統(tǒng)計值的梯度通用說話人模型gusm、體現(xiàn)環(huán)境變化的總變化矩陣,得到待識別說話人模型(步驟s2);以及比較待識別說話人模型和已知說話人模型,以確定待識別說話人是否為已知說話人之一(步驟s3)。
在步驟s1中,從待識別說話人語料中,提取待識別說話人的語音特征。
具體地,以預定滑動步長滑動預定窗口的方式,掃描待識別說話人語料,從窗口對應的待識別說話人語料的數(shù)據(jù)中提取特征向量,構成第一特征向量集。
提取特征向量既可以提取時域特征,也可以提取頻域特征,因為兩者都可以反映待識別說話人的語音的特性。以下以頻域特征為例進行說明。
首先,對語音進行分幀,每幀25毫秒。預定滑動步長例如是10毫秒。對每一幀提取13維梅爾倒譜系數(shù)特征(melfrequencycepstralcoefficients,mfcc)和對數(shù)能量,共計14維特征。
然后,針對該14維特征,以每幀前后共5幀為上下文,計算一階差分特征(14維特征)和二階差分特征(14維特征),共14*3=42維特征。從而,獲得了待識別說話人的特征向量序列x={xt,t=1,...,t}。xt表示一個42維的特征向量,t為特征向量數(shù),共滑動t-1次,一般來說,t越大越好。
如果提取時域特征,例如,可以每幀25毫秒,采樣率8khz,每個特征向量具有200個特征值(采樣值)。
待識別說話人的語音特征反映了待識別說話人語音的特性,將在下面利用通用背景模型ubm、梯度通用說話人模型gusm、總變化矩陣,基于待識別說話人的語音特征,獲得待識別說話人模型。
在步驟s2中,基于所提取的待識別說話人的語音特征、體現(xiàn)語音特征在特征空間中的分布的通用背景模型ubm、體現(xiàn)語音特征在特征空間中的分布的變化的統(tǒng)計值的梯度通用說話人模型gusm、體現(xiàn)環(huán)境變化的總變化矩陣,得到待識別說話人模型。
首先,介紹通用背景模型ubm、梯度通用說話人模型gusm、總變化矩陣的構建。
圖2示出了根據(jù)本發(fā)明的實施例的獲得通用背景模型ubm、梯度通用說話人模型gusm的方法的流程圖。如圖2所示,獲得ubm、gusm的方法包括如下步驟:以預定滑動步長滑動預定窗口的方式,掃描第一訓練語料,從窗口對應的第一訓練語料的數(shù)據(jù)中提取特征向量,構成第二特征向量集(步驟s21);利用第二特征向量集,訓練ubm(步驟s22);以及將第二特征向量集輸入到ubm的微分函數(shù)中并取平均,以得到gusm(步驟s23)。
在步驟s21中,以預定滑動步長滑動預定窗口的方式,掃描第一訓練語料,從窗口對應的第一訓練語料的數(shù)據(jù)中提取特征向量,構成第二特征向量集。
步驟s21與上面描述的步驟s1類似。區(qū)別在于步驟s22中的掃描對象為第一訓練語料,獲得的結果相應構成第二特征向量集。
第一訓練語料包括來自各個說話人的、使用各種音頻捕獲設備收集的、經由各種信道(如電話所代表的有線信道、移動電話所代表的無線信道)傳輸?shù)?、各種周邊環(huán)境的語音數(shù)據(jù)。
此處的各個說話人可以包括已知說話人,也可以不包括已知說話人。已知說話人是用來與待識別說話人進行比對的說話人。由于圖2的方法目的是為了獲得通用的模型,所以第一訓練語料對應的說話人并不必須包括已知說話人。
優(yōu)選地,第一訓練語料對應的說話人盡可能多,利用的音頻捕獲設備、經過的信道、周邊環(huán)境盡可能多種多樣。
周邊環(huán)境例如是安靜、嘈雜的周邊環(huán)境。體現(xiàn)環(huán)境變化的總變化矩陣所涉及的環(huán)境是廣義的環(huán)境,包括音頻捕獲設備、信道、周邊環(huán)境的總和。
在步驟s22中,利用第二特征向量集,訓練ubm,以得到ubm的參數(shù)。
ubm可以表示為
通過利用第二特征向量集,例如通過期望最大化算法,可以得到參數(shù)λ,使得uλ(x)成為一個特定的函數(shù),也即訓練了ubm。
對uλ(x)取導,得到ubm的微分函數(shù)▽λuλ(x)。
在步驟s23中,將第二特征向量集輸入到ubm的微分函數(shù)中并取平均,以得到gusm:
圖3示出了根據(jù)本發(fā)明的實施例的獲得總變化矩陣和已知說話人模型的方法的流程圖。如圖3所示,獲得總變化矩陣和已知說話人模型的方法包括如下步驟:以預定滑動步長滑動預定窗口的方式,掃描所述第二訓練語料,針對每個已知說話人的每句話,從窗口對應的第二訓練語料的數(shù)據(jù)中,提取特征向量,構成第三特征向量集(步驟s31);將針對每個已知說話人的每句話的第三特征向量集輸入到ubm的微分函數(shù)中并取平均,以得到每個已知說話人的每句話的第二向量值(步驟s32);根據(jù)每個已知說話人的每句話的第二向量值、gusm,求解所述總變化矩陣和已知說話人的每句話的模型(步驟s33);以及將已知說話人的每句話的模型加和求平均,得到所述已知說話人模型(步驟s34)。
在步驟s31中,以預定滑動步長滑動預定窗口的方式,掃描所述第二訓練語料,針對每個已知說話人的每句話,從窗口對應的第二訓練語料的數(shù)據(jù) 中,提取特征向量,構成第三特征向量集。
以與上述步驟s21類似的方式執(zhí)行步驟s31。區(qū)別在于:在步驟s31中,掃描的對象是第二訓練語料。第二訓練語料包括來自已知說話人的、使用各種音頻捕獲設備收集的、經由各種信道傳輸?shù)?、各種周圍環(huán)境的語音數(shù)據(jù)。因為圖3所示的方法試圖獲得已知說話人模型。
另外,區(qū)別還在于,在步驟s31中,特征向量的提取是針對每個已知說話人的每句話進行的。例如,每個已知說話人的每句話是一個wav文件,針對每個已知說話人的每句話,以預定滑動步長滑動預定窗口進行掃描。
為便于描述,將已知說話人表示為s,s=1,…,s。s為已知說話人的總數(shù)。將已知說話人s說的話表示為h,h=1,…,h(s)。h(s)表示已知說話人s說的話的總數(shù)。每個說話人的每句話提取一個特征向量xh(s),每個說話人提取一個第三特征向量集x(s)={x1(s),...,xh(s)(s)}。
在步驟s32中,將針對每個已知說話人的每句話的第三特征向量集輸入到ubm的微分函數(shù)中并取平均,以得到每個已知說話人的每句話的第二向量值。
如上所述,在上述步驟s22中,得到了ubm的微分函數(shù)▽λuλ(x)。
在步驟s32中,將每個已知說話人的每句話的第三特征向量集輸入到ubm的微分函數(shù)中并取平均,即代入
在步驟s33中,根據(jù)每個已知說話人的每句話的第二向量值、gusm,求解所述總變化矩陣和已知說話人的每句話的模型。
求解的方程組如下。
g1,1=gλ+mw1
……
gs,h=gλ+mws,h
……
gs,h=gλ+mws,h
其中,gs,h是每個已知說話人的每句話的第二向量值,gλ是在步驟s23中得到的gusm,m是總變化矩陣,ws,h是已知說話人s的話h的模型,是符合正態(tài)分布n(0,1)的隨機變量。
在步驟s34中,將已知說話人的每句話的模型加和求平均,得到所述已知說話人模型。
即,執(zhí)行
至此,通過圖2和圖3所示的方法,可以得到體現(xiàn)語音特征在特征空間中的分布的通用背景模型ubm、體現(xiàn)語音特征在特征空間中的分布的變化的統(tǒng)計值的梯度通用說話人模型gusm、體現(xiàn)環(huán)境變化的總變化矩陣。因此,可以在步驟s2中,基于所提取的待識別說話人的語音特征、通用背景模型ubm、梯度通用說話人模型gusm、總變化矩陣,得到待識別說話人模型ws。
具體地,將步驟s1中提取的第一特征向量集輸入到ubm的微分函數(shù)中并取平均,以得到第一向量值。即,執(zhí)行
然后,將第一向量值和gusm之差與總變化矩陣的偽逆矩陣之積,作為待識別說話人模型wtest=pinv(m)(gtest-gλ)。其中,pinv()表示求偽逆矩陣。
在步驟s3中,比較待識別說話人模型和已知說話人模型,以確定待識別說話人是否為已知說話人之一。
具體地,計算待識別說話人模型與已知說話人模型的相似度,如余弦夾角。
然后,將待識別說話人識別為:與待識別說話人模型的相似度最大且大 于相似度閾值的已知說話人模型對應的已知說話人。
在待識別說話人模型與已知說話人模型的相似度的最大值小于或等于相似度閾值的情況下,將待識別說話人識別為已知說話人之外的說話人。
下面,將參照圖4描述根據(jù)本發(fā)明的實施例的說話人識別設備。
圖4示出了根據(jù)本發(fā)明的實施例的說話人識別設備的結構方框圖。如圖4所示,根據(jù)本發(fā)明的說話人識別設備400包括:說話人語義特征提取裝置41,被配置為:從待識別說話人語料中,提取待識別說話人的語音特征;說話人模型構建裝置42,被配置為:基于所提取的待識別說話人的語音特征、體現(xiàn)語音特征在特征空間中的分布的通用背景模型ubm、體現(xiàn)語音特征在特征空間中的分布的變化的統(tǒng)計值的梯度通用說話人模型gusm、體現(xiàn)環(huán)境變化的總變化矩陣,得到待識別說話人模型;以及說話人識別裝置43,被配置為:比較待識別說話人模型和已知說話人模型,以確定待識別說話人是否為已知說話人之一。
在一個實施例中,說話人語義特征提取裝置41被進一步配置為:以預定滑動步長滑動預定窗口的方式,掃描待識別說話人語料,從窗口對應的待識別說話人語料的數(shù)據(jù)中提取特征向量,構成第一特征向量集。
在一個實施例中,說話人模型構建裝置42被進一步配置為:將第一特征向量集輸入到ubm的微分函數(shù)中并取平均,以得到第一向量值;將第一向量值和gusm之差與總變化矩陣的偽逆矩陣之積,作為待識別說話人模型。
在一個實施例中,說話人識別設備400還包括:ubm和gusm獲取裝置,其被配置為:以預定滑動步長滑動預定窗口的方式,掃描第一訓練語料,從窗口對應的第一訓練語料的數(shù)據(jù)中提取特征向量,構成第二特征向量集;利用第二特征向量集,訓練ubm;將第二特征向量集輸入到ubm的微分函數(shù)中并取平均,以得到gusm;其中,所述第一訓練語料包括來自各個說話人的、使用各種音頻捕獲設備收集的、經由各種信道傳輸?shù)摹⒏鞣N周邊環(huán)境的語音數(shù)據(jù)。
在一個實施例中,說話人識別設備400還包括:總變化矩陣和已知說話 人模型獲取裝置,其被配置為:以預定滑動步長滑動預定窗口的方式,掃描所述第二訓練語料,針對每個已知說話人的每句話,從窗口對應的第二訓練語料的數(shù)據(jù)中,提取特征向量,構成第三特征向量集;將針對每個已知說話人的每句話的第三特征向量集輸入到ubm的微分函數(shù)中并取平均,以得到每個已知說話人的每句話的第二向量值;根據(jù)每個已知說話人的每句話的第二向量值、gusm,求解所述總變化矩陣和已知說話人的每句話的模型;將已知說話人的每句話的模型加和求平均,得到所述已知說話人模型;其中,所述第二訓練語料包括來自已知說話人的、使用各種音頻捕獲設備收集的、經由各種信道傳輸?shù)?、各種周圍環(huán)境的語音數(shù)據(jù)。
在一個實施例中,說話人識別裝置43被進一步配置為:計算待識別說話人模型與已知說話人模型的相似度;將待識別說話人識別為:與待識別說話人模型的相似度最大且大于相似度閾值的已知說話人模型對應的已知說話人。
在一個實施例中,說話人識別裝置43被進一步配置為:在待識別說話人模型與已知說話人模型的相似度的最大值小于或等于相似度閾值的情況下,將待識別說話人識別為已知說話人之外的說話人。
由于在根據(jù)本發(fā)明的說話人識別設備400中所包括的各個裝置和單元中的處理分別與上面描述的說話人識別方法中所包括的各個步驟中的處理類似,因此為了簡潔起見,在此省略這些裝置和單元的詳細描述。
此外,這里尚需指出的是,上述設備中各個組成裝置、單元可以通過軟件、固件、硬件或其組合的方式進行配置。配置可使用的具體手段或方式為本領域技術人員所熟知,在此不再贅述。在通過軟件或固件實現(xiàn)的情況下,從存儲介質或網絡向具有專用硬件結構的計算機(例如圖5所示的通用計算機500)安裝構成該軟件的程序,該計算機在安裝有各種程序時,能夠執(zhí)行各種功能等。
圖5示出了可用于實施根據(jù)本發(fā)明的實施例的方法和設備的計算機的示意性框圖。
在圖5中,中央處理單元(cpu)501根據(jù)只讀存儲器(rom)502中存儲的 程序或從存儲部分508加載到隨機存取存儲器(ram)503的程序執(zhí)行各種處理。在ram503中,還根據(jù)需要存儲當cpu501執(zhí)行各種處理等等時所需的數(shù)據(jù)。cpu501、rom502和ram503經由總線504彼此連接。輸入/輸出接口505也連接到總線504。
下述部件連接到輸入/輸出接口505:輸入部分506(包括鍵盤、鼠標等等)、輸出部分507(包括顯示器,比如陰極射線管(crt)、液晶顯示器(lcd)等,和揚聲器等)、存儲部分508(包括硬盤等)、通信部分509(包括網絡接口卡比如lan卡、調制解調器等)。通信部分509經由網絡比如因特網執(zhí)行通信處理。根據(jù)需要,驅動器510也可連接到輸入/輸出接口505??刹鹦督橘|511比如磁盤、光盤、磁光盤、半導體存儲器等等可以根據(jù)需要被安裝在驅動器510上,使得從中讀出的計算機程序根據(jù)需要被安裝到存儲部分508中。
在通過軟件實現(xiàn)上述系列處理的情況下,從網絡比如因特網或存儲介質比如可拆卸介質511安裝構成軟件的程序。
本領域的技術人員應當理解,這種存儲介質不局限于圖5所示的其中存儲有程序、與設備相分離地分發(fā)以向用戶提供程序的可拆卸介質511。可拆卸介質511的例子包含磁盤(包含軟盤(注冊商標))、光盤(包含光盤只讀存儲器(cd-rom)和數(shù)字通用盤(dvd))、磁光盤(包含迷你盤(md)(注冊商標))和半導體存儲器。或者,存儲介質可以是rom502、存儲部分508中包含的硬盤等等,其中存有程序,并且與包含它們的設備一起被分發(fā)給用戶。
本發(fā)明還提出一種存儲有機器可讀取的指令代碼的程序產品。所述指令代碼由機器讀取并執(zhí)行時,可執(zhí)行上述根據(jù)本發(fā)明的實施例的方法。
相應地,用于承載上述存儲有機器可讀取的指令代碼的程序產品的存儲介質也包括在本發(fā)明的公開中。所述存儲介質包括但不限于軟盤、光盤、磁光盤、存儲卡、存儲棒等等。
在上面對本發(fā)明具體實施例的描述中,針對一種實施方式描述和/或示出的特征可以以相同或類似的方式在一個或更多個其它實施方式中使用,與 其它實施方式中的特征相組合,或替代其它實施方式中的特征。
應該強調,術語“包括/包含”在本文使用時指特征、要素、步驟或組件的存在,但并不排除一個或更多個其它特征、要素、步驟或組件的存在或附加。
此外,本發(fā)明的方法不限于按照說明書中描述的時間順序來執(zhí)行,也可以按照其他的時間順序地、并行地或獨立地執(zhí)行。因此,本說明書中描述的方法的執(zhí)行順序不對本發(fā)明的技術范圍構成限制。
盡管上面已經通過對本發(fā)明的具體實施例的描述對本發(fā)明進行了披露,但是,應該理解,上述的所有實施例和示例均是示例性的,而非限制性的。本領域的技術人員可在所附權利要求的精神和范圍內設計對本發(fā)明的各種修改、改進或者等同物。這些修改、改進或者等同物也應當被認為包括在本發(fā)明的保護范圍內。
附記
1.一種說話人識別方法,包括:
從待識別說話人語料中,提取待識別說話人的語音特征;
基于所提取的待識別說話人的語音特征、體現(xiàn)語音特征在特征空間中的分布的通用背景模型ubm、體現(xiàn)語音特征在特征空間中的分布的變化的統(tǒng)計值的梯度通用說話人模型gusm、體現(xiàn)環(huán)境變化的總變化矩陣,得到待識別說話人模型;以及
比較待識別說話人模型和已知說話人模型,以確定待識別說話人是否為已知說話人之一。
2.如附記1所述的方法,其中,從待識別說話人語料中,提取待識別說話人的語音特征包括:
以預定滑動步長滑動預定窗口的方式,掃描待識別說話人語料,從窗口對應的待識別說話人語料的數(shù)據(jù)中提取特征向量,構成第一特征向量集。
3.如附記2所述的方法,其中,基于所提取的待識別說話人的語音 特征、體現(xiàn)語音特征在特征空間中的分布的通用背景模型ubm、體現(xiàn)語音特征在特征空間中的分布的變化的統(tǒng)計值的梯度通用說話人模型gusm、體現(xiàn)環(huán)境變化的總變化矩陣,得到待識別說話人模型包括:
將第一特征向量集輸入到ubm的微分函數(shù)中并取平均,以得到第一向量值;
將第一向量值和gusm之差與總變化矩陣的偽逆矩陣之積,作為待識別說話人模型。
4.如附記1所述的方法,其中,ubm和gusm通過如下步驟得到:
以預定滑動步長滑動預定窗口的方式,掃描第一訓練語料,從窗口對應的第一訓練語料的數(shù)據(jù)中提取特征向量,構成第二特征向量集;
利用第二特征向量集,訓練ubm;
將第二特征向量集輸入到ubm的微分函數(shù)中并取平均,以得到gusm;
其中,所述第一訓練語料包括來自各個說話人的、使用各種音頻捕獲設備收集的、經由各種信道傳輸?shù)?、各種周邊環(huán)境的語音數(shù)據(jù)。
5.如附記1所述的方法,其中所述總變化矩陣和所述已知說話人模型通過如下步驟獲得:
以預定滑動步長滑動預定窗口的方式,掃描所述第二訓練語料,針對每個已知說話人的每句話,從窗口對應的第二訓練語料的數(shù)據(jù)中,提取特征向量,構成第三特征向量集;
將針對每個已知說話人的每句話的第三特征向量集輸入到ubm的微分函數(shù)中并取平均,以得到每個已知說話人的每句話的第二向量值;
根據(jù)每個已知說話人的每句話的第二向量值、gusm,求解所述總變化矩陣和已知說話人的每句話的模型;
將已知說話人的每句話的模型加和求平均,得到所述已知說話人模型;
其中,所述第二訓練語料包括來自已知說話人的、使用各種音頻捕獲設備收集的、經由各種信道傳輸?shù)摹⒏鞣N周圍環(huán)境的語音數(shù)據(jù)。
6.如附記1所述的方法,其中,比較待識別說話人模型和所述已知說話人模型,以確定待識別說話人是否為已知說話人之一包括:
計算待識別說話人模型與已知說話人模型的相似度;
將待識別說話人識別為:與待識別說話人模型的相似度最大且大于相似度閾值的已知說話人模型對應的已知說話人。
7.如附記6所述的方法,其中,在待識別說話人模型與已知說話人模型的相似度的最大值小于或等于相似度閾值的情況下,將待識別說話人識別為已知說話人之外的說話人。
8.一種說話人識別設備,包括:
說話人語義特征提取裝置,被配置為:從待識別說話人語料中,提取待識別說話人的語音特征;
說話人模型構建裝置,被配置為:基于所提取的待識別說話人的語音特征、體現(xiàn)語音特征在特征空間中的分布的通用背景模型ubm、體現(xiàn)語音特征在特征空間中的分布的變化的統(tǒng)計值的梯度通用說話人模型gusm、體現(xiàn)環(huán)境變化的總變化矩陣,得到待識別說話人模型;以及
說話人識別裝置,被配置為:比較待識別說話人模型和已知說話人模型,以確定待識別說話人是否為已知說話人之一。
9.如附記8所述的設備,其中,說話人語義特征提取裝置被進一步配置為:
以預定滑動步長滑動預定窗口的方式,掃描待識別說話人語料,從窗口對應的待識別說話人語料的數(shù)據(jù)中提取特征向量,構成第一特征向量集。
10.如附記9所述的設備,其中,說話人模型構建裝置被進一步配置為:
將第一特征向量集輸入到ubm的微分函數(shù)中并取平均,以得到第一向量值;
將第一向量值和gusm之差與總變化矩陣的偽逆矩陣之積,作為待識別說話人模型。
11.如附記8所述的設備,還包括:ubm和gusm獲取裝置,其被配置為:
以預定滑動步長滑動預定窗口的方式,掃描第一訓練語料,從窗口對應的第一訓練語料的數(shù)據(jù)中提取特征向量,構成第二特征向量集;
利用第二特征向量集,訓練ubm;
將第二特征向量集輸入到ubm的微分函數(shù)中并取平均,以得到gusm;
其中,所述第一訓練語料包括來自各個說話人的、使用各種音頻捕獲設備收集的、經由各種信道傳輸?shù)?、各種周邊環(huán)境的語音數(shù)據(jù)。
12.如附記8所述的設備,還包括:總變化矩陣和已知說話人模型獲取裝置,其被配置為:
以預定滑動步長滑動預定窗口的方式,掃描所述第二訓練語料,針對每個已知說話人的每句話,從窗口對應的第二訓練語料的數(shù)據(jù)中,提取特征向量,構成第三特征向量集;
將針對每個已知說話人的每句話的第三特征向量集輸入到ubm的微分函數(shù)中并取平均,以得到每個已知說話人的每句話的第二向量值;
根據(jù)每個已知說話人的每句話的第二向量值、gusm,求解所述總變化矩陣和已知說話人的每句話的模型;
將已知說話人的每句話的模型加和求平均,得到所述已知說話人模型;
其中,所述第二訓練語料包括來自已知說話人的、使用各種音頻捕獲設備收集的、經由各種信道傳輸?shù)?、各種周圍環(huán)境的語音數(shù)據(jù)。
13.如附記8所述的設備,其中,說話人識別裝置被進一步配置為:
計算待識別說話人模型與已知說話人模型的相似度;
將待識別說話人識別為:與待識別說話人模型的相似度最大且大于相似度閾值的已知說話人模型對應的已知說話人。
14.如附記13所述的設備,其中,說話人識別裝置被進一步配置為:在待識別說話人模型與已知說話人模型的相似度的最大值小于或等于相似度閾值的情況下,將待識別說話人識別為已知說話人之外的說話人。