亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于DNN模型和支持向量機(jī)模型的說話人個(gè)數(shù)估計(jì)方法與流程

文檔序號(hào):12736582閱讀:來源:國知局

技術(shù)特征:

1.一種基于DNN模型和支持向量機(jī)模型的說話人個(gè)數(shù)估計(jì)方法,其特征在于,分為模型訓(xùn)練階段和說話人個(gè)數(shù)估計(jì)階段兩個(gè)階段,包括以下步驟:

1)模型訓(xùn)練階段;模型訓(xùn)練階段分為DNN模型訓(xùn)練階段和支持向量機(jī)SVM模型訓(xùn)練階段兩個(gè)階段;具體包括以下步驟:

1‐1)DNN模型訓(xùn)練階段:獲取N個(gè)說話人的訓(xùn)練語音數(shù)據(jù),提取每條訓(xùn)練語音數(shù)據(jù)的特征,設(shè)置DNN模型的層數(shù)和節(jié)點(diǎn)數(shù),對(duì)DNN模型進(jìn)行訓(xùn)練,得到DNN模型參數(shù);

1‐2)支持向量機(jī)SVM模型訓(xùn)練階段:獲取M個(gè)說話人的訓(xùn)練語音數(shù)據(jù),提取M個(gè)說話人的訓(xùn)練語音數(shù)據(jù)的特征,輸入到步驟1‐1)得到的DNN模型中,產(chǎn)生M組說話人各自對(duì)應(yīng)的N維特征,得到M個(gè)說話人的各自對(duì)應(yīng)的SVM模型;

2)說話人個(gè)數(shù)估計(jì)階段,具體包括以下步驟:

2‐1)獲取待測語音數(shù)據(jù),對(duì)待測語音數(shù)據(jù)進(jìn)行預(yù)處理,得到待測語音數(shù)據(jù)對(duì)應(yīng)的梅爾倒譜特征及其一階、二階導(dǎo)數(shù),共60維;

2‐2)將步驟2‐1)得到的每條待測語音數(shù)據(jù)的梅爾倒譜特征輸入到步驟1‐1)得到的DNN模型中,每條待測語音數(shù)據(jù)的60維梅爾倒譜特征對(duì)應(yīng)得到DNN模型的輸出層輸出的該條待測語音數(shù)據(jù)的N個(gè)輸出概率,將得到的每條待測語音數(shù)據(jù)的N個(gè)輸出概率組成該條待測語音數(shù)據(jù)的N維特征;

2‐3)將步驟2‐2)得到的任意一條待測語音數(shù)據(jù)的N維特征依次輸入到步驟1‐2)得到的M個(gè)說話人各自對(duì)應(yīng)的對(duì)應(yīng)的SVM模型中,每個(gè)SVM模型對(duì)該條待測語音數(shù)據(jù)進(jìn)行評(píng)分,根據(jù)每個(gè)SVM模型評(píng)分結(jié)果判斷該條待測語音數(shù)據(jù)對(duì)應(yīng)的說話人和SVM模型所對(duì)應(yīng)的M個(gè)說話人的相近程度,得分最高的SVM模型即為該條待測語音數(shù)據(jù)所對(duì)應(yīng)的類別,該SVM模型所對(duì)應(yīng)的說話人即為該條待測語音數(shù)據(jù)的近似說話人;

2‐4)重復(fù)步驟2‐3),將所有待測語音數(shù)據(jù)的N維特征分別輸入M個(gè)SVM模型中,對(duì)所有待測語音數(shù)據(jù)進(jìn)行分類,得到的類別總個(gè)數(shù)Q即為估計(jì)得到的待測語音數(shù)據(jù)的說話人個(gè)數(shù),Q≤M。

2.如權(quán)利要求1所述的方法,其特征在于,所述步驟1-2)DNN模型訓(xùn)練階段,具體包括以下步驟:

1‐1‐1)獲取N個(gè)說話人的訓(xùn)練語音數(shù)據(jù);對(duì)訓(xùn)練語音數(shù)據(jù)進(jìn)行預(yù)處理,提取每條訓(xùn)練語音數(shù)據(jù)的梅爾倒譜特征及其一階、二階導(dǎo)數(shù),總共60維;

1‐1‐2)設(shè)置DNN模型的層數(shù)和節(jié)點(diǎn)數(shù);

DNN模型分為輸入層、隱含層和輸出層三個(gè)層次;其中,輸入層對(duì)應(yīng)步驟1‐1‐1)得到的每條訓(xùn)練語音數(shù)據(jù)的梅爾倒譜特征及其一階、二階導(dǎo)數(shù),共60維,則輸入層節(jié)點(diǎn)數(shù)設(shè)置為60個(gè);輸出層的節(jié)點(diǎn)數(shù)等于所需識(shí)別的說話人個(gè)數(shù)N,每個(gè)節(jié)點(diǎn)的輸出分別對(duì)應(yīng)每個(gè)說話人的概率;隱含層用于自動(dòng)提取不同層次的特征,每層隱含層的節(jié)點(diǎn)數(shù)代表該層隱含層所提取的特征的維度;

1‐1‐3)對(duì)DNN模型進(jìn)行訓(xùn)練,得到DNN模型參數(shù);

根據(jù)步驟1‐1‐1)得到的N個(gè)說話人的訓(xùn)練語音數(shù)據(jù)的梅爾倒譜特征及一階、二階導(dǎo)數(shù),對(duì)DNN模型進(jìn)行訓(xùn)練,得到DNN模型參數(shù);DNN模型參數(shù)包括相鄰兩層的連接權(quán)重和每個(gè)節(jié)點(diǎn)的偏置;

相鄰兩層的連接權(quán)重,表達(dá)式如式(1)所示:

式中,Wi,i+1為有Pi行、Pi+1列的矩陣,其中表示DNN模型第i層的第m個(gè)節(jié)點(diǎn)和第i+1層的第n個(gè)節(jié)點(diǎn)的連接權(quán)重;

每個(gè)節(jié)點(diǎn)的偏置,表達(dá)式如式(2)所示:

<mrow> <msub> <mi>B</mi> <mi>j</mi> </msub> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <msubsup> <mi>b</mi> <mn>1</mn> <mi>j</mi> </msubsup> </mtd> </mtr> <mtr> <mtd> <msubsup> <mi>b</mi> <mn>2</mn> <mi>j</mi> </msubsup> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <msubsup> <mi>b</mi> <mi>k</mi> <mi>j</mi> </msubsup> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <msubsup> <mi>b</mi> <msub> <mi>P</mi> <mi>j</mi> </msub> <mi>j</mi> </msubsup> </mtd> </mtr> </mtable> </mfenced> <mo>,</mo> <mi>j</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mn>4</mn> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

式中,表示DNN模型第j層中第k個(gè)節(jié)點(diǎn)的偏置;

對(duì)DNN模型先進(jìn)行非監(jiān)督訓(xùn)練:把DNN模型中每相鄰的兩層組成一個(gè)受限玻爾茲曼機(jī),利用對(duì)比散度CD算法對(duì)每個(gè)受限玻爾茲曼機(jī)分別進(jìn)行訓(xùn)練;依次訓(xùn)練所有的受限玻爾茲曼機(jī),得到DNN模型參數(shù)的初始值;再進(jìn)行監(jiān)督訓(xùn)練:使用非監(jiān)督訓(xùn)練得到的DNN模型參數(shù)初始值,利用后向傳播算法對(duì)DNN模型參數(shù)進(jìn)行精確調(diào)整,得到DNN模型參數(shù)的最終值。

3.如權(quán)利要求1所述的方法,其特征在于,所述步驟1-3)支持向量機(jī)SVM模型訓(xùn)練階段,具體包括以下步驟:

1‐2‐1)獲取M個(gè)說話人的訓(xùn)練語音數(shù)據(jù),對(duì)M個(gè)說話人的訓(xùn)練語音數(shù)據(jù)進(jìn)行預(yù)處理,得到M個(gè)說話人的訓(xùn)練語音數(shù)據(jù)對(duì)應(yīng)的梅爾倒譜特征及一階、二階導(dǎo)數(shù),共60維;

1‐2‐2)將步驟1‐2‐1)得到的M個(gè)說話人的訓(xùn)練語音數(shù)據(jù)對(duì)應(yīng)的60維梅爾倒譜特征分別輸入到步驟1‐1)得到的DNN模型中,每個(gè)說話人的訓(xùn)練語音數(shù)據(jù)的60維梅爾倒譜特征對(duì)應(yīng)得到DNN模型的輸出層輸出的的該說話人的N個(gè)輸出概率,將得到的每個(gè)說話人的N個(gè)輸出概率組成該說話人的N維特征,共產(chǎn)生M組說話人各自對(duì)應(yīng)的N維特征;

1‐2‐3)將M個(gè)說話人中第i個(gè)說話人的訓(xùn)練語音數(shù)據(jù)作為一類,i∈1~M,類別標(biāo)簽定為1;其余M‐1個(gè)說話人作為另一類,類別標(biāo)簽定為‐1,得到二分類SVM模型;根據(jù)步驟1‐2‐2)得到的M組說話人各自對(duì)應(yīng)的N維特征及類別標(biāo)簽,對(duì)二分類SVM模型進(jìn)行訓(xùn)練,得到第i個(gè)說話人的SVM模型;

1‐2‐4)重復(fù)步驟1‐2‐3),讓i的取值分別從1到M,最終得到M個(gè)說話人的各自對(duì)應(yīng)的SVM模型,共M個(gè)。

當(dāng)前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1