1.一種基于DNN模型和支持向量機(jī)模型的說話人個(gè)數(shù)估計(jì)方法,其特征在于,分為模型訓(xùn)練階段和說話人個(gè)數(shù)估計(jì)階段兩個(gè)階段,包括以下步驟:
1)模型訓(xùn)練階段;模型訓(xùn)練階段分為DNN模型訓(xùn)練階段和支持向量機(jī)SVM模型訓(xùn)練階段兩個(gè)階段;具體包括以下步驟:
1‐1)DNN模型訓(xùn)練階段:獲取N個(gè)說話人的訓(xùn)練語音數(shù)據(jù),提取每條訓(xùn)練語音數(shù)據(jù)的特征,設(shè)置DNN模型的層數(shù)和節(jié)點(diǎn)數(shù),對(duì)DNN模型進(jìn)行訓(xùn)練,得到DNN模型參數(shù);
1‐2)支持向量機(jī)SVM模型訓(xùn)練階段:獲取M個(gè)說話人的訓(xùn)練語音數(shù)據(jù),提取M個(gè)說話人的訓(xùn)練語音數(shù)據(jù)的特征,輸入到步驟1‐1)得到的DNN模型中,產(chǎn)生M組說話人各自對(duì)應(yīng)的N維特征,得到M個(gè)說話人的各自對(duì)應(yīng)的SVM模型;
2)說話人個(gè)數(shù)估計(jì)階段,具體包括以下步驟:
2‐1)獲取待測語音數(shù)據(jù),對(duì)待測語音數(shù)據(jù)進(jìn)行預(yù)處理,得到待測語音數(shù)據(jù)對(duì)應(yīng)的梅爾倒譜特征及其一階、二階導(dǎo)數(shù),共60維;
2‐2)將步驟2‐1)得到的每條待測語音數(shù)據(jù)的梅爾倒譜特征輸入到步驟1‐1)得到的DNN模型中,每條待測語音數(shù)據(jù)的60維梅爾倒譜特征對(duì)應(yīng)得到DNN模型的輸出層輸出的該條待測語音數(shù)據(jù)的N個(gè)輸出概率,將得到的每條待測語音數(shù)據(jù)的N個(gè)輸出概率組成該條待測語音數(shù)據(jù)的N維特征;
2‐3)將步驟2‐2)得到的任意一條待測語音數(shù)據(jù)的N維特征依次輸入到步驟1‐2)得到的M個(gè)說話人各自對(duì)應(yīng)的對(duì)應(yīng)的SVM模型中,每個(gè)SVM模型對(duì)該條待測語音數(shù)據(jù)進(jìn)行評(píng)分,根據(jù)每個(gè)SVM模型評(píng)分結(jié)果判斷該條待測語音數(shù)據(jù)對(duì)應(yīng)的說話人和SVM模型所對(duì)應(yīng)的M個(gè)說話人的相近程度,得分最高的SVM模型即為該條待測語音數(shù)據(jù)所對(duì)應(yīng)的類別,該SVM模型所對(duì)應(yīng)的說話人即為該條待測語音數(shù)據(jù)的近似說話人;
2‐4)重復(fù)步驟2‐3),將所有待測語音數(shù)據(jù)的N維特征分別輸入M個(gè)SVM模型中,對(duì)所有待測語音數(shù)據(jù)進(jìn)行分類,得到的類別總個(gè)數(shù)Q即為估計(jì)得到的待測語音數(shù)據(jù)的說話人個(gè)數(shù),Q≤M。
2.如權(quán)利要求1所述的方法,其特征在于,所述步驟1-2)DNN模型訓(xùn)練階段,具體包括以下步驟:
1‐1‐1)獲取N個(gè)說話人的訓(xùn)練語音數(shù)據(jù);對(duì)訓(xùn)練語音數(shù)據(jù)進(jìn)行預(yù)處理,提取每條訓(xùn)練語音數(shù)據(jù)的梅爾倒譜特征及其一階、二階導(dǎo)數(shù),總共60維;
1‐1‐2)設(shè)置DNN模型的層數(shù)和節(jié)點(diǎn)數(shù);
DNN模型分為輸入層、隱含層和輸出層三個(gè)層次;其中,輸入層對(duì)應(yīng)步驟1‐1‐1)得到的每條訓(xùn)練語音數(shù)據(jù)的梅爾倒譜特征及其一階、二階導(dǎo)數(shù),共60維,則輸入層節(jié)點(diǎn)數(shù)設(shè)置為60個(gè);輸出層的節(jié)點(diǎn)數(shù)等于所需識(shí)別的說話人個(gè)數(shù)N,每個(gè)節(jié)點(diǎn)的輸出分別對(duì)應(yīng)每個(gè)說話人的概率;隱含層用于自動(dòng)提取不同層次的特征,每層隱含層的節(jié)點(diǎn)數(shù)代表該層隱含層所提取的特征的維度;
1‐1‐3)對(duì)DNN模型進(jìn)行訓(xùn)練,得到DNN模型參數(shù);
根據(jù)步驟1‐1‐1)得到的N個(gè)說話人的訓(xùn)練語音數(shù)據(jù)的梅爾倒譜特征及一階、二階導(dǎo)數(shù),對(duì)DNN模型進(jìn)行訓(xùn)練,得到DNN模型參數(shù);DNN模型參數(shù)包括相鄰兩層的連接權(quán)重和每個(gè)節(jié)點(diǎn)的偏置;
相鄰兩層的連接權(quán)重,表達(dá)式如式(1)所示:
式中,Wi,i+1為有Pi行、Pi+1列的矩陣,其中表示DNN模型第i層的第m個(gè)節(jié)點(diǎn)和第i+1層的第n個(gè)節(jié)點(diǎn)的連接權(quán)重;
每個(gè)節(jié)點(diǎn)的偏置,表達(dá)式如式(2)所示:
式中,表示DNN模型第j層中第k個(gè)節(jié)點(diǎn)的偏置;
對(duì)DNN模型先進(jìn)行非監(jiān)督訓(xùn)練:把DNN模型中每相鄰的兩層組成一個(gè)受限玻爾茲曼機(jī),利用對(duì)比散度CD算法對(duì)每個(gè)受限玻爾茲曼機(jī)分別進(jìn)行訓(xùn)練;依次訓(xùn)練所有的受限玻爾茲曼機(jī),得到DNN模型參數(shù)的初始值;再進(jìn)行監(jiān)督訓(xùn)練:使用非監(jiān)督訓(xùn)練得到的DNN模型參數(shù)初始值,利用后向傳播算法對(duì)DNN模型參數(shù)進(jìn)行精確調(diào)整,得到DNN模型參數(shù)的最終值。
3.如權(quán)利要求1所述的方法,其特征在于,所述步驟1-3)支持向量機(jī)SVM模型訓(xùn)練階段,具體包括以下步驟:
1‐2‐1)獲取M個(gè)說話人的訓(xùn)練語音數(shù)據(jù),對(duì)M個(gè)說話人的訓(xùn)練語音數(shù)據(jù)進(jìn)行預(yù)處理,得到M個(gè)說話人的訓(xùn)練語音數(shù)據(jù)對(duì)應(yīng)的梅爾倒譜特征及一階、二階導(dǎo)數(shù),共60維;
1‐2‐2)將步驟1‐2‐1)得到的M個(gè)說話人的訓(xùn)練語音數(shù)據(jù)對(duì)應(yīng)的60維梅爾倒譜特征分別輸入到步驟1‐1)得到的DNN模型中,每個(gè)說話人的訓(xùn)練語音數(shù)據(jù)的60維梅爾倒譜特征對(duì)應(yīng)得到DNN模型的輸出層輸出的的該說話人的N個(gè)輸出概率,將得到的每個(gè)說話人的N個(gè)輸出概率組成該說話人的N維特征,共產(chǎn)生M組說話人各自對(duì)應(yīng)的N維特征;
1‐2‐3)將M個(gè)說話人中第i個(gè)說話人的訓(xùn)練語音數(shù)據(jù)作為一類,i∈1~M,類別標(biāo)簽定為1;其余M‐1個(gè)說話人作為另一類,類別標(biāo)簽定為‐1,得到二分類SVM模型;根據(jù)步驟1‐2‐2)得到的M組說話人各自對(duì)應(yīng)的N維特征及類別標(biāo)簽,對(duì)二分類SVM模型進(jìn)行訓(xùn)練,得到第i個(gè)說話人的SVM模型;
1‐2‐4)重復(fù)步驟1‐2‐3),讓i的取值分別從1到M,最終得到M個(gè)說話人的各自對(duì)應(yīng)的SVM模型,共M個(gè)。