基于DNN模型和支持向量機(jī)模型的說話人個(gè)數(shù)估計(jì)方法與流程

文檔序號(hào)：12736582閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)>基于DNN模型和支持向量機(jī)模型的說話人個(gè)數(shù)估計(jì)方法與流程

技術(shù)特征：

1.一種基于DNN模型和支持向量機(jī)模型的說話人個(gè)數(shù)估計(jì)方法，其特征在于，分為模型訓(xùn)練階段和說話人個(gè)數(shù)估計(jì)階段兩個(gè)階段，包括以下步驟：

1)模型訓(xùn)練階段；模型訓(xùn)練階段分為DNN模型訓(xùn)練階段和支持向量機(jī)SVM模型訓(xùn)練階段兩個(gè)階段；具體包括以下步驟：

1‐1)DNN模型訓(xùn)練階段：獲取N個(gè)說話人的訓(xùn)練語音數(shù)據(jù)，提取每條訓(xùn)練語音數(shù)據(jù)的特征，設(shè)置DNN模型的層數(shù)和節(jié)點(diǎn)數(shù)，對(duì)DNN模型進(jìn)行訓(xùn)練，得到DNN模型參數(shù)；

1‐2)支持向量機(jī)SVM模型訓(xùn)練階段：獲取M個(gè)說話人的訓(xùn)練語音數(shù)據(jù)，提取M個(gè)說話人的訓(xùn)練語音數(shù)據(jù)的特征,輸入到步驟1‐1)得到的DNN模型中，產(chǎn)生M組說話人各自對(duì)應(yīng)的N維特征，得到M個(gè)說話人的各自對(duì)應(yīng)的SVM模型；

2)說話人個(gè)數(shù)估計(jì)階段，具體包括以下步驟：

2‐1)獲取待測語音數(shù)據(jù)，對(duì)待測語音數(shù)據(jù)進(jìn)行預(yù)處理，得到待測語音數(shù)據(jù)對(duì)應(yīng)的梅爾倒譜特征及其一階、二階導(dǎo)數(shù)，共60維；

2‐2)將步驟2‐1)得到的每條待測語音數(shù)據(jù)的梅爾倒譜特征輸入到步驟1‐1)得到的DNN模型中，每條待測語音數(shù)據(jù)的60維梅爾倒譜特征對(duì)應(yīng)得到DNN模型的輸出層輸出的該條待測語音數(shù)據(jù)的N個(gè)輸出概率，將得到的每條待測語音數(shù)據(jù)的N個(gè)輸出概率組成該條待測語音數(shù)據(jù)的N維特征；

2‐3)將步驟2‐2)得到的任意一條待測語音數(shù)據(jù)的N維特征依次輸入到步驟1‐2)得到的M個(gè)說話人各自對(duì)應(yīng)的對(duì)應(yīng)的SVM模型中，每個(gè)SVM模型對(duì)該條待測語音數(shù)據(jù)進(jìn)行評(píng)分，根據(jù)每個(gè)SVM模型評(píng)分結(jié)果判斷該條待測語音數(shù)據(jù)對(duì)應(yīng)的說話人和SVM模型所對(duì)應(yīng)的M個(gè)說話人的相近程度，得分最高的SVM模型即為該條待測語音數(shù)據(jù)所對(duì)應(yīng)的類別，該SVM模型所對(duì)應(yīng)的說話人即為該條待測語音數(shù)據(jù)的近似說話人；

2‐4)重復(fù)步驟2‐3)，將所有待測語音數(shù)據(jù)的N維特征分別輸入M個(gè)SVM模型中，對(duì)所有待測語音數(shù)據(jù)進(jìn)行分類，得到的類別總個(gè)數(shù)Q即為估計(jì)得到的待測語音數(shù)據(jù)的說話人個(gè)數(shù)，Q≤M。

2.如權(quán)利要求1所述的方法，其特征在于，所述步驟1-2)DNN模型訓(xùn)練階段，具體包括以下步驟：

1‐1‐1)獲取N個(gè)說話人的訓(xùn)練語音數(shù)據(jù)；對(duì)訓(xùn)練語音數(shù)據(jù)進(jìn)行預(yù)處理，提取每條訓(xùn)練語音數(shù)據(jù)的梅爾倒譜特征及其一階、二階導(dǎo)數(shù)，總共60維；

1‐1‐2)設(shè)置DNN模型的層數(shù)和節(jié)點(diǎn)數(shù)；

DNN模型分為輸入層、隱含層和輸出層三個(gè)層次；其中，輸入層對(duì)應(yīng)步驟1‐1‐1)得到的每條訓(xùn)練語音數(shù)據(jù)的梅爾倒譜特征及其一階、二階導(dǎo)數(shù)，共60維，則輸入層節(jié)點(diǎn)數(shù)設(shè)置為60個(gè)；輸出層的節(jié)點(diǎn)數(shù)等于所需識(shí)別的說話人個(gè)數(shù)N，每個(gè)節(jié)點(diǎn)的輸出分別對(duì)應(yīng)每個(gè)說話人的概率；隱含層用于自動(dòng)提取不同層次的特征，每層隱含層的節(jié)點(diǎn)數(shù)代表該層隱含層所提取的特征的維度；

1‐1‐3)對(duì)DNN模型進(jìn)行訓(xùn)練，得到DNN模型參數(shù)；

根據(jù)步驟1‐1‐1)得到的N個(gè)說話人的訓(xùn)練語音數(shù)據(jù)的梅爾倒譜特征及一階、二階導(dǎo)數(shù)，對(duì)DNN模型進(jìn)行訓(xùn)練，得到DNN模型參數(shù)；DNN模型參數(shù)包括相鄰兩層的連接權(quán)重和每個(gè)節(jié)點(diǎn)的偏置；

相鄰兩層的連接權(quán)重，表達(dá)式如式(1)所示：

式中，W_i,i+1為有P_i行、P_i+1列的矩陣，其中表示DNN模型第i層的第m個(gè)節(jié)點(diǎn)和第i+1層的第n個(gè)節(jié)點(diǎn)的連接權(quán)重；

每個(gè)節(jié)點(diǎn)的偏置，表達(dá)式如式(2)所示：

$<mrow> <msub> <mi>B</mi> <mi>j</mi> </msub> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <msubsup> <mi>b</mi> <mn>1</mn> <mi>j</mi> </msubsup> </mtd> </mtr> <mtr> <mtd> <msubsup> <mi>b</mi> <mn>2</mn> <mi>j</mi> </msubsup> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <msubsup> <mi>b</mi> <mi>k</mi> <mi>j</mi> </msubsup> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <msubsup> <mi>b</mi> <msub> <mi>P</mi> <mi>j</mi> </msub> <mi>j</mi> </msubsup> </mtd> </mtr> </mtable> </mfenced> <mo>,</mo> <mi>j</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mn>4</mn> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>$

式中，表示DNN模型第j層中第k個(gè)節(jié)點(diǎn)的偏置；

對(duì)DNN模型先進(jìn)行非監(jiān)督訓(xùn)練：把DNN模型中每相鄰的兩層組成一個(gè)受限玻爾茲曼機(jī)，利用對(duì)比散度CD算法對(duì)每個(gè)受限玻爾茲曼機(jī)分別進(jìn)行訓(xùn)練；依次訓(xùn)練所有的受限玻爾茲曼機(jī)，得到DNN模型參數(shù)的初始值；再進(jìn)行監(jiān)督訓(xùn)練：使用非監(jiān)督訓(xùn)練得到的DNN模型參數(shù)初始值，利用后向傳播算法對(duì)DNN模型參數(shù)進(jìn)行精確調(diào)整，得到DNN模型參數(shù)的最終值。

3.如權(quán)利要求1所述的方法，其特征在于，所述步驟1-3)支持向量機(jī)SVM模型訓(xùn)練階段，具體包括以下步驟：

1‐2‐1)獲取M個(gè)說話人的訓(xùn)練語音數(shù)據(jù)，對(duì)M個(gè)說話人的訓(xùn)練語音數(shù)據(jù)進(jìn)行預(yù)處理，得到M個(gè)說話人的訓(xùn)練語音數(shù)據(jù)對(duì)應(yīng)的梅爾倒譜特征及一階、二階導(dǎo)數(shù)，共60維；

1‐2‐2)將步驟1‐2‐1)得到的M個(gè)說話人的訓(xùn)練語音數(shù)據(jù)對(duì)應(yīng)的60維梅爾倒譜特征分別輸入到步驟1‐1)得到的DNN模型中，每個(gè)說話人的訓(xùn)練語音數(shù)據(jù)的60維梅爾倒譜特征對(duì)應(yīng)得到DNN模型的輸出層輸出的的該說話人的N個(gè)輸出概率，將得到的每個(gè)說話人的N個(gè)輸出概率組成該說話人的N維特征，共產(chǎn)生M組說話人各自對(duì)應(yīng)的N維特征；

1‐2‐3)將M個(gè)說話人中第i個(gè)說話人的訓(xùn)練語音數(shù)據(jù)作為一類，i∈1～M，類別標(biāo)簽定為1；其余M‐1個(gè)說話人作為另一類，類別標(biāo)簽定為‐1，得到二分類SVM模型；根據(jù)步驟1‐2‐2)得到的M組說話人各自對(duì)應(yīng)的N維特征及類別標(biāo)簽，對(duì)二分類SVM模型進(jìn)行訓(xùn)練，得到第i個(gè)說話人的SVM模型；

1‐2‐4)重復(fù)步驟1‐2‐3)，讓i的取值分別從1到M，最終得到M個(gè)說話人的各自對(duì)應(yīng)的SVM模型，共M個(gè)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁1 2 3

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

支持向量機(jī)模型相關(guān)技術(shù)

支持向量機(jī)預(yù)測模型相關(guān)技術(shù)

支持向量機(jī)的分類模型相關(guān)技術(shù)

支持向量機(jī)回歸模型相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于DNN模型和支持向量機(jī)模型的說話人個(gè)數(shù)估計(jì)方法與流程