聲紋注冊、認(rèn)證方法及裝置的制造方法
【專利摘要】本發(fā)明公開了一種聲紋注冊、認(rèn)證方法及裝置,其中注冊方法包括:對用戶語音輸入的注冊字符串進行幀對齊,提取每個字符的聲學(xué)特征;將每個字符的聲學(xué)特征在全局GMM模型中計算后驗概率進行BW統(tǒng)計;通過預(yù)設(shè)的多個字符的矢量特征提取器分別提取每個字符的矢量特征;將所有字符的矢量特征進行順序拼接,獲取用戶的注冊聲紋模型。通過該發(fā)明實施例,分別對注冊字符串中的各字符進行特征處理,提高聲紋注冊模型的準(zhǔn)確性。
【專利說明】
聲紋注冊、認(rèn)證方法及裝置
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及語音處理技術(shù)領(lǐng)域,尤其涉及一種聲紋注冊、認(rèn)證方法及裝置。
【背景技術(shù)】
[0002]目前,通過聲紋作為密碼以進行登錄驗證網(wǎng)站登錄系統(tǒng)越來越多,具體地,注冊時系統(tǒng)會提示一定長度的字符串,用戶需要朗誦字符串若干遍來完成注冊;登陸的時候,系統(tǒng)會提示系統(tǒng)的字符串,用戶朗誦一遍,如果聲紋驗證一致,則認(rèn)為是用戶本人,予以通過,否則不通過。
[0003]然而,在注冊聲紋模型建立的時候,如果用戶使用過程中有大量的噪聲或者停頓,會影響聲紋注冊模型的準(zhǔn)確性,聲紋系統(tǒng)的性能將下降明顯。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的旨在至少在一定程度上解決上述的技術(shù)問題之一。
[0005]為此,本發(fā)明的第一個目的在于提出一種聲紋注冊方法,該方法分別對注冊字符串中的各字符進行特征處理,提高聲紋注冊模型的準(zhǔn)確性。
[0006]本發(fā)明的第二個目的在于提出了一種聲紋認(rèn)證方法。
[0007]本發(fā)明的第三個目的在于提出了一種聲紋注冊裝置。
[0008]本發(fā)明的第四個目的在于提出了一種聲紋認(rèn)證裝置。
[0009]為達上述目的,根據(jù)本發(fā)明第一方面實施例提出的一種聲紋注冊方法,包括以下步驟:對用戶語音輸入的注冊字符串進行幀對齊,提取每個字符的聲學(xué)特征;將所述每個字符的聲學(xué)特征在全局GMM模型中計算后驗概率進行BW (Baum-We I ch)統(tǒng)計;通過預(yù)設(shè)的多個字符的矢量特征(identity-vector,1-vector)提取器分別提取每個字符的矢量特征;將所有字符的矢量特征進行順序拼接,獲取所述用戶的注冊聲紋模型。
[0010]本發(fā)明實施例的聲紋注冊方法,首先提取每個字符的聲學(xué)特征,接著將每個字符的聲學(xué)特征進行BW統(tǒng)計,再通過預(yù)設(shè)每個字符的矢量特征提取器提取每個字符的矢量特征后將所有字符的矢量特征進行順序拼接,獲取用戶的注冊聲紋模型。該方法分別對注冊字符串中的各字符進行特征處理,提高聲紋注冊模型的準(zhǔn)確性。
[0011 ]為達上述目的,根據(jù)本發(fā)明的第二方面實施例提出的一種聲紋認(rèn)證方法,包括:對用戶語音輸入的認(rèn)證字符串進行幀對齊,提取每個字符的聲學(xué)特征;將所述每個字符的聲學(xué)特征在全局GMM模型中計算后驗概率進行BW統(tǒng)計;通過預(yù)設(shè)的多個字符的矢量特征提取器分別提取每個字符的矢量特征;將所有字符的矢量特征進行順序拼接,獲取所述用戶的認(rèn)證聲紋模型;將預(yù)存的所述用戶的注冊聲紋模型與所述認(rèn)證聲紋模型進行匹配,根據(jù)匹配結(jié)果確定所述用戶是否合法。
[0012]本發(fā)明實施例的聲紋認(rèn)證方法,首先提取每個字符的聲學(xué)特征,接著將每個字符的聲學(xué)特征進行BW統(tǒng)計,再通過預(yù)設(shè)每個字符的矢量特征提取器提取每個字符的矢量特征后將所有字符的矢量特征進行順序拼接,獲取用戶的認(rèn)證聲紋模型,進而與注冊聲紋模型匹配確定用戶是否合法。該方法提高了系統(tǒng)性能進而減少聲紋認(rèn)證的時間,進一步提高用戶使用聲紋登錄服務(wù)的體驗。
[0013]為達上述目的,根據(jù)本發(fā)明的第三方面實施例提出的聲紋注冊裝置,包括:
[0014]第一處理模塊,用于對用戶語音輸入的注冊字符串進行幀對齊,提取每個字符的聲學(xué)特征;第一統(tǒng)計模塊,用于將所述每個字符的聲學(xué)特征在全局GMM模型中計算后驗概率進行BW統(tǒng)計;第一提取模塊,用于通過預(yù)設(shè)的多個字符的矢量特征提取器分別提取每個字符的矢量特征;第一獲取模塊,用于將所有字符的矢量特征進行順序拼接,獲取所述用戶的注冊聲紋模型。
[0015]本發(fā)明實施例的聲紋注冊裝置,首先第一處理模塊提取每個字符的聲學(xué)特征,接著第一統(tǒng)計模塊將每個字符的聲學(xué)特征進行BW統(tǒng)計,第一提取模塊再通過預(yù)設(shè)每個字符的矢量特征提取器提取每個字符的矢量特征后,第一獲取模塊將所有字符的矢量特征進行順序拼接,獲取用戶的注冊聲紋模型。該裝置分別對注冊字符串中的各字符進行特征處理,提高聲紋注冊模型的準(zhǔn)確性。
[0016]為達上述目的,根據(jù)本發(fā)明的第四方面實施例提出的聲紋認(rèn)證裝置,包括:第四處理模塊,用于對用戶語音輸入的認(rèn)證字符串進行幀對齊,提取每個字符的聲學(xué)特征;第二統(tǒng)計模塊,用于將所述每個字符的聲學(xué)特征在全局GMM模型中計算后驗概率進行BW統(tǒng)計;第二提取模塊,用于通過預(yù)設(shè)的多個字符的矢量特征提取器分別提取每個字符的矢量特征;第二獲取模塊,用于將所有字符的矢量特征進行順序拼接,獲取所述用戶的認(rèn)證聲紋模型;確定模塊,用于將預(yù)存的所述用戶的注冊聲紋模型與所述認(rèn)證聲紋模型進行匹配,根據(jù)匹配結(jié)果確定所述用戶是否合法。
[0017]本發(fā)明實施例的聲紋認(rèn)證裝置,首先第四處理模塊提取每個字符的聲學(xué)特征,接著第二統(tǒng)計模塊將每個字符的聲學(xué)特征進行BW統(tǒng)計,第二提取模塊再通過預(yù)設(shè)每個字符的矢量特征提取器提取每個字符的矢量特征后,第二獲取模塊將所有字符的矢量特征進行順序拼接,獲取用戶的認(rèn)證聲紋模型,進而確定模塊將認(rèn)證聲紋模型與注冊聲紋模型匹配確定用戶是否合法。該裝置提高了系統(tǒng)性能進而減少聲紋認(rèn)證的時間,進一步提高用戶使用聲紋登錄服務(wù)的體驗。
[0018]本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。
【附圖說明】
[0019]本發(fā)明的上述和/或附加的方面和優(yōu)點從結(jié)合下面附圖對實施例的描述中將變得明顯和容易理解,其中:
[0020]圖1是根據(jù)本發(fā)明一個實施例的聲紋注冊方法的流程圖;
[0021]圖2是根據(jù)本發(fā)明一個實施例的離線訓(xùn)練階段的流程圖;
[0022]圖3是根據(jù)本發(fā)明一個具體實施例的聲紋注冊方法的流程圖;
[0023]圖4是根據(jù)本發(fā)明一個實施例的聲紋認(rèn)證方法的流程圖;
[0024]圖5是根據(jù)本發(fā)明一個實施例的聲紋注冊裝置的結(jié)構(gòu)示意圖;
[0025]圖6是根據(jù)本發(fā)明一個實施例的離線訓(xùn)練階段的結(jié)構(gòu)示意圖;以及
[0026]圖7根據(jù)本發(fā)明一個實施例的聲紋認(rèn)證裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
[0027]下面詳細(xì)描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
[0028]下面參考附圖描述本發(fā)明實施例的聲紋注冊、認(rèn)證方法及裝置。
[0029]圖1是根據(jù)本發(fā)明一個實施例的聲紋注冊方法的流程圖。
[0030]如圖1所示,本發(fā)明實施例的聲紋注冊方法包括以下步驟:
[0031]步驟101,對用戶語音輸入的注冊字符串進行幀對齊,提取每個字符的聲學(xué)特征。
[0032]具體地,用戶通過聲紋作為密碼以進行驗證登錄網(wǎng)站或者設(shè)備的登錄系統(tǒng),需要聲紋注冊,為了避免注冊場景干擾,生成精確的聲紋模型,因此提出一種能夠得到精確的聲紋模型的聲紋注冊方法。
[0033]首先,對用戶語音輸入的注冊字符串進行幀對齊,提取每個字符的聲學(xué)特征。需要說明的是,注冊字符串有很多,例如包括:文字字符串、和/或、數(shù)字字符串。即用戶朗讀輸入一段文字“登錄百度錢包”、一段數(shù)字“567765”或者“登錄567”后,利用語音識別模塊進行幀對齊,每一幀對應(yīng)一個文字或數(shù)字,即“登”對應(yīng)一幀,“5”對應(yīng)一幀等。
[0034]其中,聲學(xué)特征可以根據(jù)實際應(yīng)用需要進行選擇,例如,可以是提取每個字符語音的梅爾頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficients,MFCC)特征,也可以是每個字符語音的感知線性預(yù)測系數(shù)(Perceptual Linear Predictive,PLP)特征,或線性預(yù)測倒譜系數(shù)(Linear Predict1n Cepstrum Coefficient,LPCC)等。需要注意的是,也可以是兩種或以上的聲學(xué)特征的融合。
[0035]步驟102,將每個字符的聲學(xué)特征在全局GMM模型中計算后驗概率進行BW統(tǒng)計。
[0036]步驟103,通過預(yù)設(shè)的多個字符的矢量特征提取器分別提取每個字符的矢量特征。
[0037]具體地,獲取與每種注冊字符串對應(yīng)的聲學(xué)特征,并將每個字符的聲學(xué)特征在全局GMM模型中計算后驗概率進行BW( Baum-We I ch)統(tǒng)計,進而通過預(yù)設(shè)的多個字符的矢量特征提取器分別提取每個字符的矢量特征。
[0038]為了更加清楚的說明上述全局GMM模型和預(yù)設(shè)的多個字符的矢量特征提取器的建立過程,下面結(jié)合圖2詳細(xì)說明:
[0039]步驟201,對用戶語音輸入的訓(xùn)練字符串進行幀對齊,提取每個字符的聲學(xué)特征。
[0040]步驟202,根據(jù)所有訓(xùn)練字符串中每個字符的聲學(xué)特征訓(xùn)練全局GMM模型。
[0041 ]步驟203,將每個字符的聲學(xué)特征在全局GMM模型中計算后驗概率進行BW統(tǒng)計,進而利用聯(lián)合因子分析方法,訓(xùn)練每個字符的矢量特征提取器。
[0042]具體地,預(yù)先獲取與每種訓(xùn)練字符串對應(yīng)的聲學(xué)特征,并根據(jù)每個字符的聲學(xué)特征訓(xùn)練全局GMM模型作為普通背景模型UBM(Universal Background Model ),再將每個字符的聲學(xué)特征在全局GMM模型中計算后驗概率進行BW統(tǒng)計,進而利用聯(lián)合因子分析方法,訓(xùn)練每個字符的矢量特征提取器。
[0043]需要說明的是,訓(xùn)練字符串有很多,例如包括:文字字符串、和/或、數(shù)字字符串。以及所有訓(xùn)練字符串的聲學(xué)特征一起訓(xùn)練一個全局的GMM模型,其中,所有訓(xùn)練字符串是不區(qū)分文字的。例如“567765”,將6個字符的聲學(xué)特征一起訓(xùn)練一個全局的GMM模型。
[0044]另外,模型不限于是基于全局GMM模型的普通背景模型UBM(UniVersalBackground Model),也可以是隱馬爾可夫模型(Hidden Markov Model,HMM),或支持向量機(Support Vector Machine,SVM)等。
[0045]舉例而言,提取用戶輸入訓(xùn)練字符串的語音信息“登錄百度錢包”,將輸入訓(xùn)練字符串的語音信息中的每個字符(“登”、“錄”、“百”、“度”、“錢”和“包”)的語音的聲學(xué)特征在高斯混合模型GMM(Gaussian Mixture Model)條件下進行BW(Baum-Welch)統(tǒng)計,從而得到每句話中的每個字符(“登”、“錄”、“百”、“度”、“錢”和“包”)的BW統(tǒng)計量,再利用聯(lián)合因子分析方法訓(xùn)練每個字符(“登”、“錄”、“百”、“度”、“錢”和“包”)的語音的矢量特征,進而,得到預(yù)設(shè)的“登錄百度錢包”中每個字符的矢量特征提取器。
[0046]其中,將同一文字標(biāo)簽的每一幀的聲學(xué)特征(例如MFCC)在普通背景模型UBM(Universal Background Model)條件下進行Baum-WeIch統(tǒng)計,以計算其后驗概率,該后驗概率服從高斯分布,該后驗概率的期望便是矢量特征(identity-vector,ivector)。
[0047]需要注意的是,進行Baum-Welch統(tǒng)計時,是區(qū)分文字的,將同一文字或者數(shù)字標(biāo)簽的每一幀的聲學(xué)特征在高斯混合模型GMM中計算后驗概率。例如,“567765”,將同一數(shù)字的“5”、“6”和“7”的每一幀的聲學(xué)特征在高斯混合模型GMM中計算后驗概率。
[0048]步驟104,將所有字符的矢量特征進行順序拼接,獲取用戶的注冊聲紋模型。
[0049]從而,根據(jù)預(yù)設(shè)的多個字符的矢量特征提取器提取注冊字符串中的每個字符的矢量特征后進行順序拼接得到用戶的注冊聲紋模型。
[0050]例如,所有字符全是數(shù)字的時候,可以采用0123456789的順序拼接在一起,作為用戶的注冊聲紋模型。
[0051]為了更加清楚的了解本發(fā)明實施例的聲紋注冊方法,下面結(jié)合圖3對該聲紋注冊方法進行舉例說明,具體說明如下:
[0052]結(jié)合圖3中的ml為例詳細(xì)說明,具體如下:
[0053]首先獲取用戶輸入一段注冊字符串的語音信息,接著將其進行切分排序后,對用戶輸入注冊字符串中的每個字符語音信息進行幀對齊(每一幀對應(yīng)的具體文字或者數(shù)字)提取以得到用戶的聲學(xué)特征MFCC,然后根據(jù)每個字符的聲學(xué)特征訓(xùn)練全局GMM模型作為全局普通背景模型UBM(Universal Background Model)條件下進行Baum-WeIch統(tǒng)計,最后通過預(yù)設(shè)的字符的矢量特征提取器分別提取字符的矢量特征。
[0054]與上述實施例中的ml得到的字符的矢量特征的過程相同,可以得到I至N個字符的矢量特征,并進行順序拼接,獲取用戶的注冊聲紋模型Μ={πι1,πι2,...,πιΝ}。即完成建立且保存該用戶的用戶信息與聲紋的對應(yīng)關(guān)系。由此,用戶完成語音注冊。
[0055]綜上所述,本發(fā)明實施例的聲紋注冊方法,首先提取每個字符的聲學(xué)特征,接著將每個字符的聲學(xué)特征進行BW統(tǒng)計,再通過預(yù)設(shè)每個字符的矢量特征提取器提取每個字符的矢量特征后將所有字符的矢量特征進行順序拼接,獲取用戶的注冊聲紋模型。該方法分別對注冊字符串中的各字符進行特征處理,提高聲紋注冊模型的準(zhǔn)確性。
[0056]圖4是根據(jù)本發(fā)明一個實施例的聲紋認(rèn)證方法的流程圖。
[0057]如圖4所示,本發(fā)明實施例的聲紋認(rèn)證方法包括以下步驟:
[0058]步驟401,對用戶語音輸入的認(rèn)證字符串進行幀對齊,提取每個字符的聲學(xué)特征。
[0059]步驟402,將每個字符的聲學(xué)特征在全局GMM模型中計算后驗概率進行BW統(tǒng)計。
[0060]步驟403,通過預(yù)設(shè)的多個字符的矢量特征提取器分別提取每個字符的矢量特征。[0061 ]步驟404,將所有字符的矢量特征進行順序拼接,獲取用戶的認(rèn)證聲紋模型。
[0062]步驟405,將預(yù)存的用戶的注冊聲紋模型與認(rèn)證聲紋模型進行匹配,根據(jù)匹配結(jié)果確定用戶是否合法。
[0063]具體地,首先,對用戶語音輸入的認(rèn)證字符串進行幀對齊,提取每個字符的聲學(xué)特征。需要說明的是,注冊字符串有很多,例如包括:文字字符串、和/或、數(shù)字字符串。
[0064]例如,登錄字符串為一串文字,則用戶朗讀該字符串時一般會用一句話讀完該字符串,例如“登錄百度錢包”,即輸入的語音信息中該語音應(yīng)為一段語音“登錄百度錢包”,以這一段語音為例,在本發(fā)明的實施例中,對聲紋認(rèn)證的具體實現(xiàn)過程可如下:
[0065]例如,獲取用戶輸入一段語音“登錄百度錢包”,接著將其進行切分排序后,對用戶輸入“登錄百度錢包”中的每個字符語音信息進行幀對齊(每一幀分別對應(yīng)“登”、“錄”、“百”、“度”、“錢”和“包”)提取以得到用戶的聲學(xué)特征MFCC,然后在全局普通背景模型UBM(Universal Background Model)條件下進行Baum-Welch統(tǒng)計,再通過預(yù)設(shè)每個字符的矢量特征提取器提取每個字符的矢量特征后將所有字符的矢量特征進行順序拼接,獲取用戶的認(rèn)證聲紋模型,將認(rèn)證聲紋模型與注冊聲紋模型進行比對以判斷聲紋是否匹配從而確定用戶是否合法。
[0066]具體地,聲紋模型匹配是將登陸過程產(chǎn)生的認(rèn)證聲紋模型和用戶注冊時生成的注冊聲紋模型進行比對打分,如果注冊聲紋模型與認(rèn)證聲紋模型的匹配度大于等于預(yù)設(shè)閾值,則確定用戶合法,認(rèn)證成功,接收該用戶登錄;如果注冊聲紋模型與認(rèn)證聲紋模型的匹配度小于預(yù)設(shè)閾值,則確定用戶非法,認(rèn)證失敗,拒絕該用戶登錄。
[0067]其中,可以采用余弦距離、支持向量機(SVM)、貝葉斯分類器、以及GPLDA(高斯概率線性判別分析)等方法來實現(xiàn)。
[0068]綜上所述,本發(fā)明實施例的聲紋認(rèn)證方法,首先提取每個字符的聲學(xué)特征,接著將每個字符的聲學(xué)特征進行BW統(tǒng)計,再通過預(yù)設(shè)每個字符的矢量特征提取器提取每個字符的矢量特征后將所有字符的矢量特征進行順序拼接,獲取用戶的認(rèn)證聲紋模型,進而與注冊聲紋模型匹配確定用戶是否合法。該方法提高了系統(tǒng)性能進而減少聲紋認(rèn)證的時間,進一步提高用戶使用聲紋登錄服務(wù)的體驗。
[0069]本發(fā)明實施例提出的一種聲紋注冊、認(rèn)證方法可以應(yīng)用于終端設(shè)備中需要登錄的軟件或者網(wǎng)頁中,例如手機百度、百度貼吧和百度錢包等手機APP登錄,終端設(shè)備的類型很多,可以是個人電腦、手機、多媒體電視等終端設(shè)備。
[0070]為了實現(xiàn)上述實施例,本發(fā)明還提出了一種聲紋注冊裝置,圖5是根據(jù)本發(fā)明一個實施例的聲紋注冊裝置的結(jié)構(gòu)示意圖,如圖5所示,該聲紋注冊裝置包括:第一處理模塊110,第一統(tǒng)計模塊120、第一提取模塊130和第一獲取模塊140。
[0071]其中,第一處理模塊110用于對用戶語音輸入的注冊字符串進行幀對齊,提取每個字符的聲學(xué)特征。
[0072]具體地,第一處理模塊110對用戶語音輸入的注冊字符串進行幀對齊,提取每個字符的聲學(xué)特征。需要說明的是,注冊字符串有很多,例如包括:文字字符串、和/或、數(shù)字字符串。即用戶朗讀輸入一段文字“登錄百度錢包”、一段數(shù)字“567765”或者“登錄567”后,利用語音識別模塊進行幀對齊,每一幀對應(yīng)一個文字或數(shù)字,即“登”對應(yīng)一幀,“5”對應(yīng)一幀等。
[0073]其中,聲學(xué)特征可以根據(jù)實際應(yīng)用需要進行選擇,例如,可以是提取每個字符語音的梅爾頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficients,MFCC)特征,也可以是每個字符語音的感知線性預(yù)測系數(shù)(Perceptual Linear Predictive,PLP)特征,或線性預(yù)測倒譜系數(shù)(Linear Predict1n Cepstrum Coefficient,LPCC)等。需要注意的是,也可以是兩種或以上的聲學(xué)特征的融合。
[0074]第一統(tǒng)計模塊120用于將每個字符的聲學(xué)特征在全局GMM模型中計算后驗概率進行BW統(tǒng)計。
[0075]第一提取模塊130用于通過預(yù)設(shè)的多個字符的矢量特征提取器分別提取每個字符的矢量特征。
[0076]具體地,獲取與每種注冊字符串對應(yīng)的聲學(xué)特征,并將每個字符的聲學(xué)特征在全局GMM模型中計算后驗概率進行BW( Baum-We I ch)統(tǒng)計,進而通過預(yù)設(shè)的多個字符的矢量特征提取器分別提取每個字符的矢量特征。
[0077]為了更加清楚的說明上述全局GMM模型和預(yù)設(shè)的多個字符的矢量特征提取器的建立過程,下面結(jié)合圖6詳細(xì)說明:
[0078]第二處理模塊150用于對用戶語音輸入的訓(xùn)練字符串進行幀對齊,提取每個字符的聲學(xué)特征。
[0079]訓(xùn)練模塊160用于根據(jù)所有訓(xùn)練字符串中每個字符的聲學(xué)特征訓(xùn)練全局GMM模型。
[0080]第三處理模塊170用于將每個字符的聲學(xué)特征在全局GMM模型中計算后驗概率進行BW統(tǒng)計,進而利用聯(lián)合因子分析方法,訓(xùn)練每個字符的矢量特征提取器。
[0081]需要說明的是,前述聲紋注冊方法實施例的解釋說明全局GMM模型和預(yù)設(shè)的多個字符的矢量特征提取器的建立過程,此處不再贅述。
[0082]第一獲取模塊140用于將所有字符的矢量特征進行順序拼接,獲取用戶的注冊聲紋模型。
[0083]從而,根據(jù)預(yù)設(shè)的多個字符的矢量特征提取器提取注冊字符串中的每個字符的矢量特征后進行順序拼接得到用戶的注冊聲紋模型。
[0084]需要說明的是,前述對聲紋注冊方法實施例的解釋說明也適用于該實施例的聲紋注冊裝置,其實現(xiàn)原理類似,此處不再贅述。
[0085]本發(fā)明實施例的聲紋注冊裝置,首先第一處理模塊提取每個字符的聲學(xué)特征,接著第一統(tǒng)計模塊將每個字符的聲學(xué)特征進行BW統(tǒng)計,第一提取模塊再通過預(yù)設(shè)每個字符的矢量特征提取器提取每個字符的矢量特征后,第一獲取模塊將所有字符的矢量特征進行順序拼接,獲取用戶的注冊聲紋模型。該裝置分別對注冊字符串中的各字符進行特征處理,提高聲紋注冊模型的準(zhǔn)確性。
[0086]圖7根據(jù)本發(fā)明一個實施例的聲紋認(rèn)證裝置的結(jié)構(gòu)示意圖。
[0087]圖7是根據(jù)本發(fā)明一個實施例的聲紋認(rèn)證裝置的結(jié)構(gòu)示意圖,如圖7所示,該聲紋認(rèn)證裝置包括:第四處理模塊210、第二統(tǒng)計模塊220、第二提取模塊230、第二獲取模塊240和確定模塊250。
[0088]其中,第四處理模塊210用于對用戶語音輸入的認(rèn)證字符串進行幀對齊,提取每個字符的聲學(xué)特征。
[0089]第二統(tǒng)計模塊220用于將每個字符的聲學(xué)特征在全局GMM模型中計算后驗概率進行BW統(tǒng)計。
[0090]第二提取模塊230用于通過預(yù)設(shè)的多個字符的矢量特征提取器分別提取每個字符的矢量特征。
[0091]第二獲取模塊240用于將所有字符的矢量特征進行順序拼接,獲取用戶的認(rèn)證聲紋模型。
[0092]確定模塊250用于將預(yù)存的用戶的注冊聲紋模型與認(rèn)證聲紋模型進行匹配,根據(jù)匹配結(jié)果確定所述用戶是否合法。
[0093]具體地,首先,對用戶語音輸入的認(rèn)證字符串進行幀對齊,提取每個字符的聲學(xué)特征。需要說明的是,注冊字符串有很多,例如包括:文字字符串、和/或、數(shù)字字符串。
[0094]進而,聲紋模型匹配是將登陸過程產(chǎn)生的認(rèn)證聲紋模型和用戶注冊時生成的注冊聲紋模型進行比對打分,如果注冊聲紋模型與認(rèn)證聲紋模型的匹配度大于等于預(yù)設(shè)閾值,則確定用戶合法,認(rèn)證成功,接收該用戶登錄;如果注冊聲紋模型與認(rèn)證聲紋模型的匹配度小于預(yù)設(shè)閾值,則確定用戶非法,認(rèn)證失敗,拒絕該用戶登錄。
[0095]需要說明的是,前述對聲紋認(rèn)證方法實施例的解釋說明也適用于該實施例的聲紋認(rèn)證裝置,其實現(xiàn)原理類似,此處不再贅述。
[0096]本發(fā)明實施例的聲紋認(rèn)證裝置,首先第四處理模塊提取每個字符的聲學(xué)特征,接著第二統(tǒng)計模塊將每個字符的聲學(xué)特征進行BW統(tǒng)計,第二提取模塊再通過預(yù)設(shè)每個字符的矢量特征提取器提取每個字符的矢量特征后,第二獲取模塊將所有字符的矢量特征進行順序拼接,獲取用戶的認(rèn)證聲紋模型,進而確定模塊將認(rèn)證聲紋模型與注冊聲紋模型匹配確定用戶是否合法。該裝置提高了系統(tǒng)性能進而減少聲紋認(rèn)證的時間,進一步提高用戶使用聲紋登錄服務(wù)的體驗。
[0097]在本發(fā)明的描述中,需要理解的是,術(shù)語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性或者隱含指明所指示的技術(shù)特征的數(shù)量。由此,限定有“第一”、“第二”的特征可以明示或者隱含地包括至少一個該特征。在本發(fā)明的描述中,“多個”的含義是至少兩個,例如兩個,三個等,除非另有明確具體的限定。
[0098]在本說明書的描述中,參考術(shù)語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不必須針對的是相同的實施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點可以在任一個或多個實施例或示例中以合適的方式結(jié)合。此外,在不相互矛盾的情況下,本領(lǐng)域的技術(shù)人員可以將本說明書中描述的不同實施例或示例以及不同實施例或示例的特征進行結(jié)合和組合。
[0099]盡管上面已經(jīng)示出和描述了本發(fā)明的實施例,可以理解的是,上述實施例是示例性的,不能理解為對本發(fā)明的限制,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的范圍內(nèi)可以對上述實施例進行變化、修改、替換和變型。
【主權(quán)項】
1.一種聲紋注冊方法,其特征在于,包括以下步驟: 對用戶語音輸入的注冊字符串進行幀對齊,提取每個字符的聲學(xué)特征; 將所述每個字符的聲學(xué)特征在全局GMM模型中計算后驗概率進行BW統(tǒng)計; 通過預(yù)設(shè)的多個字符的矢量特征提取器分別提取每個字符的矢量特征; 將所有字符的矢量特征進行順序拼接,獲取所述用戶的注冊聲紋模型。2.如權(quán)利要求1所述的方法,其特征在于,所述注冊字符串的類型包括: 文字字符串,和/或,數(shù)字字符串。3.如權(quán)利要求1所述的方法,其特征在于,還包括: 對用戶語音輸入的訓(xùn)練字符串進行幀對齊,提取每個字符的聲學(xué)特征; 根據(jù)所有訓(xùn)練字符串中每個字符的聲學(xué)特征訓(xùn)練全局GMM模型; 將所述每個字符的聲學(xué)特征在全局GMM模型中計算后驗概率進行BW統(tǒng)計,進而利用聯(lián)合因子分析方法,訓(xùn)練每個字符的矢量特征提取器。4.一種聲紋認(rèn)證方法,其特征在于,包括以下步驟: 對用戶語音輸入的認(rèn)證字符串進行幀對齊,提取每個字符的聲學(xué)特征; 將所述每個字符的聲學(xué)特征在全局GMM模型中計算后驗概率進行BW統(tǒng)計; 通過預(yù)設(shè)的多個字符的矢量特征提取器分別提取每個字符的矢量特征; 將所有字符的矢量特征進行順序拼接,獲取所述用戶的認(rèn)證聲紋模型; 將預(yù)存的所述用戶的注冊聲紋模型與所述認(rèn)證聲紋模型進行匹配,根據(jù)匹配結(jié)果確定所述用戶是否合法。5.如權(quán)利要求4所述的方法,其特征在于,所述將預(yù)存的所述用戶的注冊聲紋模型與所述認(rèn)證聲紋模型進行匹配,根據(jù)匹配結(jié)果確定所述用戶是否合法,包括: 如果所述注冊聲紋模型與所述認(rèn)證聲紋模型的匹配度大于等于預(yù)設(shè)閾值,則確定所述用戶合法; 如果所述注冊聲紋模型與所述認(rèn)證聲紋模型的匹配度小于預(yù)設(shè)閾值,則確定所述用戶非法。6.一種聲紋注冊裝置,其特征在于,包括: 第一處理模塊,用于對用戶語音輸入的注冊字符串進行幀對齊,提取每個字符的聲學(xué)特征; 第一統(tǒng)計模塊,用于將所述每個字符的聲學(xué)特征在全局GMM模型中計算后驗概率進行BW統(tǒng)計; 第一提取模塊,用于通過預(yù)設(shè)的多個字符的矢量特征提取器分別提取每個字符的矢量特征; 第一獲取模塊,用于將所有字符的矢量特征進行順序拼接,獲取所述用戶的注冊聲紋模型。7.如權(quán)利要求6所述的裝置,其特征在于,所述注冊字符串的類型包括: 文字字符串,和/或,數(shù)字字符串。8.如權(quán)利要求6所述的裝置,其特征在于,還包括: 第二處理模塊,用于對用戶語音輸入的訓(xùn)練字符串進行幀對齊,提取每個字符的聲學(xué)特征; 訓(xùn)練模塊,用于根據(jù)所有訓(xùn)練字符串中每個字符的聲學(xué)特征訓(xùn)練全局GMM模型; 第三處理模塊,用于將每個字符的聲學(xué)特征在全局GMM模型中計算后驗概率進行BW統(tǒng)計,進而利用聯(lián)合因子分析方法,訓(xùn)練每個字符的矢量特征提取器。9.一種聲紋認(rèn)證裝置,其特征在于,包括: 第四處理模塊,用于對用戶語音輸入的認(rèn)證字符串進行幀對齊,提取每個字符的聲學(xué)特征; 第二統(tǒng)計模塊,用于將所述每個字符的聲學(xué)特征在全局GMM模型中計算后驗概率進行BW統(tǒng)計; 第二提取模塊,用于通過預(yù)設(shè)的多個字符的矢量特征提取器分別提取每個字符的矢量特征; 第二獲取模塊,用于將所有字符的矢量特征進行順序拼接,獲取所述用戶的認(rèn)證聲紋豐旲型; 確定模塊,用于將預(yù)存的所述用戶的注冊聲紋模型與所述認(rèn)證聲紋模型進行匹配,根據(jù)匹配結(jié)果確定所述用戶是否合法。10.如權(quán)利要求9所述的裝置,其特征在于,所述確定模塊具體用于: 如果所述注冊聲紋模型與所述認(rèn)證聲紋模型的匹配度大于等于預(yù)設(shè)閾值,則確定所述用戶合法; 如果所述注冊聲紋模型與所述認(rèn)證聲紋模型的匹配度小于預(yù)設(shè)閾值,則確定所述用戶非法。
【文檔編號】H04L29/06GK105933323SQ201610384014
【公開日】2016年9月7日
【申請日】2016年6月1日
【發(fā)明人】李超, 吳本谷
【申請人】百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司