1.一種身份向量生成方法,包括:
獲取待處理語音數(shù)據(jù);
從所述待處理語音數(shù)據(jù)提取相應(yīng)的聲學(xué)特征;
對各所述聲學(xué)特征屬于說話人背景模型中每個高斯分布分量的后驗概率進行統(tǒng)計得到統(tǒng)計量;
將所述統(tǒng)計量映射到統(tǒng)計量空間獲得參考統(tǒng)計量;所述統(tǒng)計量空間根據(jù)超過預(yù)設(shè)語音時長的語音樣本所對應(yīng)的統(tǒng)計量構(gòu)建而成;
根據(jù)統(tǒng)計得到的所述統(tǒng)計量和所述參考統(tǒng)計量確定修正統(tǒng)計量;
根據(jù)所述修正統(tǒng)計量生成身份向量。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,統(tǒng)計得到的所述統(tǒng)計量包括第一零階統(tǒng)計量和第一一階統(tǒng)計量;所述對各所述聲學(xué)特征屬于說話人背景模型中每個高斯分布分量的后驗概率進行統(tǒng)計得到統(tǒng)計量包括:
對應(yīng)于說話人背景模型中的每個高斯分布分量,分別統(tǒng)計各所述聲學(xué)特征屬于相應(yīng)高斯分布分量的后驗概率的總和作為相應(yīng)的第一零階統(tǒng)計量;
對應(yīng)于說話人背景模型中的每個高斯分布分量,分別將各所述聲學(xué)特征以該聲學(xué)特征屬于相應(yīng)高斯分布分量的后驗概率為權(quán)重計算加權(quán)和作為相應(yīng)的第一一階統(tǒng)計量。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述方法還包括:
獲取超過預(yù)設(shè)語音時長的語音樣本;
按照所述語音樣本中說話人類別統(tǒng)計對應(yīng)于說話人背景模型中的每個高斯分布分量的第二零階統(tǒng)計量和第二一階統(tǒng)計量;
計算所述第二一階統(tǒng)計量和相應(yīng)的第二零階統(tǒng)計量的第一商;
根據(jù)計算出的第一商構(gòu)建統(tǒng)計量空間。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)計算出的第一商構(gòu)建統(tǒng)計量空間包括:
將計算出的第一商減去相應(yīng)高斯分布分量的均值得到相應(yīng)的差值;
將得到的差值按照說話人類別和對應(yīng)的高斯分布分量依次排布形成表征統(tǒng)計量空間的矩陣。
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述參考統(tǒng)計量包括對應(yīng)所述說話人背景模型中每個高斯分布分量的參考一階統(tǒng)計量和相應(yīng)參考零階統(tǒng)計量的第二商;所述根據(jù)統(tǒng)計得到的所述統(tǒng)計量和所述參考統(tǒng)計量確定修正統(tǒng)計量包括:
將所述第一一階統(tǒng)計量與相應(yīng)第一零階統(tǒng)計量的第三商,與相應(yīng)高斯分布分量的所述第二商加權(quán)求和,得到對應(yīng)所述說話人背景模型中每個高斯分布分量的修正一階統(tǒng)計量和相應(yīng)修正零階統(tǒng)計量的第四商作為修正統(tǒng)計量。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述加權(quán)求和中,所述第三商的權(quán)重為相應(yīng)高斯分布分量的第一零階統(tǒng)計量除以相應(yīng)的第一零階統(tǒng)計量與可調(diào)參數(shù)的和,所述第二商的權(quán)重為所述可調(diào)參數(shù)除以所述相應(yīng)高斯分布分量的第一零階統(tǒng)計量與所述可調(diào)參數(shù)的和。
7.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述將所述統(tǒng)計量映射到統(tǒng)計量空間獲得參考統(tǒng)計量包括:
獲取所述統(tǒng)計量空間的正交基向量;
求取所述正交基向量的映射系數(shù),所述正交基向量與所述映射系數(shù)的乘積加上相應(yīng)高斯分布分量的均值后,與相應(yīng)高斯分布分量的第三商之間的二范數(shù)距離最小化;
將所述正交基向量乘以所述映射系數(shù)后加上相應(yīng)高斯分布分量的均值,得到對應(yīng)所述說話人背景模型中每個高斯分布分量的參考一階統(tǒng)計量和相應(yīng)參考零階統(tǒng)計量的第二商。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述待處理語音數(shù)據(jù)包括待驗證語音數(shù)據(jù)和目標說話人類別的語音數(shù)據(jù);所述根據(jù)所述修正統(tǒng)計量生成身份向量包括:
根據(jù)與所述待驗證語音數(shù)據(jù)對應(yīng)的修正統(tǒng)計量生成待驗證身份向量;
根據(jù)與目標說話人類別的語音數(shù)據(jù)對應(yīng)的修正統(tǒng)計量生成目標說話人身份向量;
所述方法還包括:
計算所述待驗證身份向量和所述目標說話人身份向量的相似度;
根據(jù)所述相似度進行說話人身份驗證。
9.一種身份向量生成裝置,其特征在于,包括:
聲學(xué)特征提取模塊,用于獲取待處理語音數(shù)據(jù);從所述待處理語音數(shù)據(jù)提取相應(yīng)的聲學(xué)特征;
統(tǒng)計量生成模塊,用于對各所述聲學(xué)特征屬于說話人背景模型中每個高斯分布分量的后驗概率進行統(tǒng)計得到統(tǒng)計量;
映射模塊,用于將所述統(tǒng)計量映射到統(tǒng)計量空間獲得參考統(tǒng)計量;所述統(tǒng)計量空間根據(jù)超過預(yù)設(shè)語音時長的語音樣本所對應(yīng)的統(tǒng)計量構(gòu)建而成;
修正統(tǒng)計量確定模塊,用于根據(jù)統(tǒng)計得到的所述統(tǒng)計量和所述參考統(tǒng)計量確定修正統(tǒng)計量;
身份向量生成模塊,用于根據(jù)所述修正統(tǒng)計量生成身份向量。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,統(tǒng)計得到的所述統(tǒng)計量包括第一零階統(tǒng)計量和第一一階統(tǒng)計量;所述統(tǒng)計量生成模塊包括:
第一零階統(tǒng)計量生成模塊,用于對應(yīng)于說話人背景模型中的每個高斯分布分量,分別統(tǒng)計各所述聲學(xué)特征屬于相應(yīng)高斯分布分量的后驗概率的總和作為相應(yīng)的第一零階統(tǒng)計量;
第一一階統(tǒng)計量生成模塊,用于對應(yīng)于說話人背景模型中的每個高斯分布分量,分別將各所述聲學(xué)特征以該聲學(xué)特征屬于相應(yīng)高斯分布分量的后驗概率為權(quán)重計算加權(quán)和作為相應(yīng)的第一一階統(tǒng)計量。
11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述裝置還包括:
統(tǒng)計量統(tǒng)計模塊,用于獲取超過預(yù)設(shè)語音時長的語音樣本;按照所述語音樣本中說話人類別統(tǒng)計對應(yīng)于說話人背景模型中的每個高斯分布分量的第二零階統(tǒng)計量和第二一階統(tǒng)計量;
統(tǒng)計量空間構(gòu)建模塊,用于計算所述第二一階統(tǒng)計量和相應(yīng)的第二零階統(tǒng)計量的第一商;根據(jù)計算出的第一商構(gòu)建統(tǒng)計量空間。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述統(tǒng)計量空間構(gòu)建模塊還用于將計算出的第一商減去相應(yīng)高斯分布分量的均值得到相應(yīng)的差值;將得到的差值按照說話人類別和對應(yīng)的高斯分布分量依次排布形成表征統(tǒng)計量空間的矩陣。
13.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述參考統(tǒng)計量包括對應(yīng)所述說話人背景模型中每個高斯分布分量的參考一階統(tǒng)計量和相應(yīng)參考零階統(tǒng)計量的第二商;所述修正統(tǒng)計量確定模塊還用于將所述第一一階統(tǒng)計量與相應(yīng)第一零階統(tǒng)計量的第三商,與相應(yīng)高斯分布分量的所述第二商加權(quán)求和,得到對應(yīng)所述說話人背景模型中每個高斯分布分量的修正一階統(tǒng)計量和相應(yīng)修正零階統(tǒng)計量的第四商作為修正統(tǒng)計量。
14.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述修正統(tǒng)計量確定模塊用于加權(quán)求和時,所述第三商的權(quán)重為相應(yīng)高斯分布分量的第一零階統(tǒng)計量除以相應(yīng)的第一零階統(tǒng)計量與可調(diào)參數(shù)的和,所述第二商的權(quán)重為所述可調(diào)參數(shù)除以所述相應(yīng)高斯分布分量的第一零階統(tǒng)計量與所述可調(diào)參數(shù)的和。
15.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述映射模塊還用于獲取所述統(tǒng)計量空間的正交基向量;求取所述正交基向量的映射系數(shù),所述正交基向量與所述映射系數(shù)的乘積加上相應(yīng)高斯分布分量的均值后,與相應(yīng)高斯分布分量的第三商之間的二范數(shù)距離最小化;將所述正交基向量乘以所述映射系數(shù)后加上相應(yīng)高斯分布分量的均值,得到對應(yīng)所述說話人背景模型中每個高斯分布分量的參考一階統(tǒng)計量和相應(yīng)參考零階統(tǒng)計量的第二商。
16.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述待處理語音數(shù)據(jù)包括待驗證語音數(shù)據(jù)和目標說話人類別的語音數(shù)據(jù);所述身份向量生成模塊還用于根據(jù)與所述待驗證語音數(shù)據(jù)對應(yīng)的修正統(tǒng)計量生成待驗證身份向量;根據(jù)與目標說話人類別的語音數(shù)據(jù)對應(yīng)的修正統(tǒng)計量生成目標說話人身份向量;
所述裝置還包括:
說話人身份驗證模塊,用于計算所述待驗證身份向量和所述目標說話人身份向量的相似度;根據(jù)所述相似度進行說話人身份驗證。