專利名稱:深層神經(jīng)網(wǎng)絡(luò)的辨別預(yù)訓(xùn)練的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于深層神經(jīng)網(wǎng)絡(luò)的辨別預(yù)訓(xùn)練的方法和系統(tǒng)。
背景技術(shù):
已知深層神經(jīng)網(wǎng)絡(luò)(DNN, deep neural network)是有力的辨別建模工具,并且其能夠用于各種目的。例如,能夠組合DNN與隱式馬爾可夫模型(HMM,hidden Markov model)來表征作為語(yǔ)音的發(fā)音單位的上下文相關(guān)(⑶,context-dependent)的音素。作為結(jié)果產(chǎn)生的混合⑶-DNN-HMM利用DNN的暫時(shí)地(temporally)局部化的辨別建模能力和HMM的連續(xù)建模能力的優(yōu)點(diǎn)。CD-DNN-HMM能夠用于語(yǔ)音識(shí)別系統(tǒng)、手寫識(shí)別系統(tǒng)、以及包括姿勢(shì)識(shí)別系統(tǒng)在內(nèi)的人類行為識(shí)別/檢測(cè)系統(tǒng)等許多其它系統(tǒng)。在構(gòu)建這樣的⑶-DNN-HMM中的關(guān)鍵過程之一是DNN的訓(xùn)練。這個(gè)訓(xùn)練典型地通過首先初始化權(quán)重來進(jìn)行,并且作為“預(yù)訓(xùn)練”過程已知。
發(fā)明內(nèi)容
通常采用此處描述的辨別預(yù)訓(xùn)練技術(shù)實(shí)施例來預(yù)訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)(DNN)的隱層。此處所描述的辨別預(yù)訓(xùn)練技術(shù)實(shí)施例具有如下優(yōu)點(diǎn)使得DNN層權(quán)重接近良好的局部最優(yōu),同時(shí)仍使其留在具有高梯度的范圍內(nèi),從而能夠在訓(xùn)練的后續(xù)階段對(duì)其進(jìn)行有效地微調(diào)。在一個(gè)示例性辨別預(yù)訓(xùn)練技術(shù)實(shí)施例中,通過首先訓(xùn)練單隱層神經(jīng)網(wǎng)絡(luò)(NN)預(yù)訓(xùn)練DNN,所述單層神經(jīng)網(wǎng)絡(luò)具有輸入層,訓(xùn)練數(shù)據(jù)被輸入到所述輸入層中;輸出層,從所述輸出層生成輸出;以及第一隱層,所述第一隱層以隨機(jī)初始化的權(quán)重與所述輸入層和所述輸出層相互連接。該訓(xùn)練涉及訪問訓(xùn)練數(shù)據(jù)條目集,訓(xùn)練數(shù)據(jù)條目集中的每個(gè)訓(xùn)練數(shù)據(jù)條目具有分配到其上的對(duì)應(yīng)標(biāo)簽。之后每個(gè)數(shù)據(jù)條目被一個(gè)接一個(gè)地輸入到單隱層神經(jīng)網(wǎng)絡(luò)的輸入層中,直到全部數(shù)據(jù)條目已經(jīng)被輸入至少一次。應(yīng)該注意的是,在輸入每個(gè)數(shù)據(jù)條目之后,經(jīng)由誤差反向傳播(BP,baCk-piOpagation)過程設(shè)置與第一隱層關(guān)聯(lián)的權(quán)重,以使得從輸出層生成的輸出匹配與訓(xùn)練數(shù)據(jù)條目關(guān)聯(lián)的標(biāo)簽。這產(chǎn)生了初始的NN。一旦已經(jīng)訓(xùn)練了單隱層NN,則丟棄當(dāng)前輸出層并且添加以隨機(jī)初始化的權(quán)重與最近一個(gè)之前訓(xùn)練的隱層和新輸出層相互連接的新的隱層,以產(chǎn)生新的多隱層DNN。之后如下訓(xùn)練最近產(chǎn)生的新的多隱層DNN。將訓(xùn)練集的每個(gè)數(shù)據(jù)條目一個(gè)接一個(gè)地輸入到最近產(chǎn)生的新的多隱層DNN的輸入層,直到全部數(shù)據(jù)條目已經(jīng)被輸入至少一次。應(yīng)該注意的是,在輸入每個(gè)數(shù)據(jù)條目之后,經(jīng)由BP設(shè)置與新的隱層和每個(gè)之前訓(xùn)練的隱層關(guān)聯(lián)的權(quán)重,以使得從輸出層生成的輸出匹配與訓(xùn)練數(shù)據(jù)條目關(guān)聯(lián)的標(biāo)簽。這產(chǎn)生了比之前的DNN多一層的更深的神經(jīng)網(wǎng)絡(luò)。之后以相同的方式添加和訓(xùn)練另外的新的隱層,直到已經(jīng)添加了規(guī)定數(shù)量的隱層。之后將作為結(jié)果的最近產(chǎn)生的修正的多層DNN指定為預(yù)訓(xùn)練的DNN。應(yīng)當(dāng)注意的是,提供本概要來以簡(jiǎn)單的形式引入概念的選擇,下面在具體實(shí)施方式
中進(jìn)一步描述了這些概念。該概要不旨在標(biāo)識(shí)所要求保護(hù)的主題的關(guān)鍵特征或必要特征,也不旨在用來幫助判定所要求保護(hù)的主題的范圍。
結(jié)合下面的描述、所附的權(quán)利要求以及附圖,將更好理解本公開的具體特征、方面和優(yōu)點(diǎn),在附圖中圖1為用來實(shí)施此處所描述的辨別預(yù)訓(xùn)練技術(shù)實(shí)施例的示例性計(jì)算程序體系結(jié)構(gòu)。圖2為概述了用于預(yù)訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)(DNN)的預(yù)訓(xùn)練技術(shù)處理的一種實(shí)施方式的流程圖。圖3為概述了用于執(zhí)行微調(diào)預(yù)訓(xùn)練好的DNN的多迭代處理的迭代的處理的一種實(shí)施方式的流程圖。圖4為描繪了構(gòu)成用于實(shí)施此處所描述的辨別預(yù)訓(xùn)練技術(shù)實(shí)施例的示例性系統(tǒng)的通用計(jì)算裝置的圖。
具體實(shí)施例方式在辨別預(yù)訓(xùn)練技術(shù)實(shí)施例的下面的描述中參考了附圖,所述附圖形成說明書的一部分,其中以圖示的方式示出了可以實(shí)踐本技術(shù)的具體實(shí)施例。應(yīng)該理解的是,也可使用其它實(shí)施例并且可以做出結(jié)構(gòu)改變而不脫離本技術(shù)的范圍。1. O深層神經(jīng)網(wǎng)絡(luò)的辨別預(yù)訓(xùn)練和微調(diào)通常采用此處所描述的辨別預(yù)訓(xùn)練技術(shù)實(shí)施例來預(yù)訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)(DNN)的隱層。這產(chǎn)生了預(yù)訓(xùn)練的DNN,所述預(yù)訓(xùn)練的DNN能夠被微調(diào)以產(chǎn)生完全訓(xùn)練的DNN。為了這個(gè)描述的目的,將完成的DNN定義為具有多于一個(gè)隱層的神經(jīng)網(wǎng)絡(luò)。此外,術(shù)語(yǔ)“預(yù)訓(xùn)練”指的是獲得經(jīng)受進(jìn)一步修改的全部層中的DNN權(quán)重的過程,所述進(jìn)一步修改基于貫穿DNN中的全部層的純辨別學(xué)習(xí)過程。一個(gè)這樣的辨別學(xué)習(xí)過程是上述微調(diào),所述微調(diào)要求貫穿從頂層到底層的全部DNN層的BP。經(jīng)訓(xùn)練的DNN能夠用于各種目的。例如,DNN能夠直接地建模綁定的上下文相關(guān)(CD)狀態(tài)或者以建模上下文無關(guān)狀態(tài)的上下文無關(guān)方式建模。在建模綁定的CD狀態(tài)的情況下,如之前所指出的那樣,DNN能夠建模上下文相關(guān)(CD)音素并且能夠與隱式馬爾可夫模型(HMM)組合。作為結(jié)果的混合CD-DNN-HMM利用DNN的辨別建模能力與HMM的連續(xù)建模能力的優(yōu)點(diǎn)。CD-DNN-HMM能夠用于語(yǔ)音識(shí)別系統(tǒng)、手寫識(shí)別系統(tǒng)、以及人類行為識(shí)別/檢測(cè)系統(tǒng)等許多其它系統(tǒng)。在語(yǔ)音識(shí)別系統(tǒng)的情況下,諸如用在話音搜索任務(wù)或switchboard(電話語(yǔ)音識(shí)別標(biāo)準(zhǔn)數(shù)據(jù)集)電話呼叫轉(zhuǎn)寫任務(wù)中,CD-DNN-HMM用來在HMM語(yǔ)音識(shí)別器中直接對(duì)語(yǔ)音單元(senone)建模(綁定的⑶狀態(tài))并且近似這些語(yǔ)音單元的發(fā)出概率。語(yǔ)音單元表示成簇的(或綁定的)的上下文相關(guān)的三音素(triphone)狀態(tài)。然而,不旨在將此處所描述的辨別預(yù)訓(xùn)練技術(shù)實(shí)施例限制為語(yǔ)音識(shí)別系統(tǒng)、或任何其它上述系統(tǒng)。而是,能夠與用于任何目的的任何DNN —起采用此處所描述的辨別預(yù)訓(xùn)練技術(shù)實(shí)施例。1.1深層神經(jīng)網(wǎng)絡(luò)可以將DNN認(rèn)作為具有許多隱層的傳統(tǒng)多層感知器(MLP,mult1-layerperceptrons)0具體地,DNN將給定了觀測(cè)向量o的類s的后驗(yàn)概率Ps|。(s|o)建模為對(duì)數(shù) 線性模型的(L+1)層的棧。前L層,1 = 0…L-1,將給定輸入向量v1的隱式ニ進(jìn)制輸出單 兀h1建模為伯努利分布
權(quán)利要求
1.一種用于預(yù)訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)DNN的計(jì)算機(jī)實(shí)施的處理,包括 利用計(jì)算機(jī)來執(zhí)行下面的處理動(dòng)作 Ca)訓(xùn)練單隱層神經(jīng)網(wǎng)絡(luò)NN,所述單隱層神經(jīng)網(wǎng)絡(luò)包括輸入層,訓(xùn)練數(shù)據(jù)被輸入到所述輸入層中;輸出層,從所述輸出層生成輸出;以及第一隱層,所述第一隱層以隨機(jī)初始化的權(quán)重與所述輸入層和所述輸出層相互連接,其中所述訓(xùn)練包括 訪問訓(xùn)練數(shù)據(jù)條目集,所述訓(xùn)練數(shù)據(jù)條目集中的每個(gè)數(shù)據(jù)條目具有分配到其上的對(duì)應(yīng)標(biāo)簽(200), 將所述集中的每個(gè)數(shù)據(jù)條目一個(gè)接一個(gè)地輸入到所述輸入層中,直到全部所述數(shù)據(jù)條目已經(jīng)被輸入了至少一次以產(chǎn)生初始的NN(202),從而在每個(gè)數(shù)據(jù)條目的所述輸入之后,經(jīng)由誤差反向傳播過程設(shè)置與所述第一隱層關(guān)聯(lián)的所述權(quán)重,以使得從所述輸出層生成的所述輸出匹配與所述訓(xùn)練數(shù)據(jù)條目關(guān)聯(lián)的所述標(biāo)簽; (b)丟棄當(dāng)前輸出層并且添加以隨機(jī)初始化的權(quán)重與最近一個(gè)之前訓(xùn)練的隱層和新輸出層相互連接的新的隱層,以產(chǎn)生新的多隱層深層神經(jīng)網(wǎng)絡(luò)(204); (c)將所述集中的每個(gè)數(shù)據(jù)條目一個(gè)接一個(gè)地輸入到所述輸入層,直到全部所述數(shù)據(jù)條目已經(jīng)被輸入了至少一次,以產(chǎn)生修正的多隱層深層神經(jīng)網(wǎng)絡(luò)(206),從而在每個(gè)數(shù)據(jù)條目的所述輸入之后,經(jīng)由所述誤差反向傳播過程設(shè)置與所述新的隱層和每個(gè)之前訓(xùn)練的隱層關(guān)聯(lián)的所述權(quán)重,以產(chǎn)生與所述訓(xùn)練數(shù)據(jù)條目關(guān)聯(lián)的所述標(biāo)簽匹配的來自所述新輸出層的輸出; (d)重復(fù)動(dòng)作(b)和(C),直到已經(jīng)添加了規(guī)定數(shù)量的隱層(208);以及 Ce)將最近產(chǎn)生的修正的多層DNN指定為預(yù)訓(xùn)練的DNN (210)。
2.根據(jù)權(quán)利要求1所述的處理,其中被采用的每個(gè)輸出層利用softmax函數(shù)來使其輸出與當(dāng)前進(jìn)入的訓(xùn)練數(shù)據(jù)條目關(guān)聯(lián)的所述標(biāo)簽匹配。
3.根據(jù)權(quán)利要求1所述的處理,其中所述訪問訓(xùn)練數(shù)據(jù)條目集,所述訓(xùn)練數(shù)據(jù)條目集中的每個(gè)數(shù)據(jù)條目具有分配到其上的對(duì)應(yīng)標(biāo)簽的處理動(dòng)作包括訪問語(yǔ)音幀集,所述語(yǔ)音幀集中的每個(gè)語(yǔ)音幀對(duì)應(yīng)于語(yǔ)音單元標(biāo)簽。
4.根據(jù)權(quán)利要求1所述的處理,其中所述將所述集中的每個(gè)數(shù)據(jù)條目一個(gè)接一個(gè)地輸入到所述輸入層中,直到全部所述數(shù)據(jù)條目已經(jīng)被輸入了至少一次以產(chǎn)生初始的深層神經(jīng)網(wǎng)絡(luò)的處理動(dòng)作包括將所述集的每個(gè)數(shù)據(jù)條目?jī)H輸入一次。
5.根據(jù)權(quán)利要求1所述的處理,其中所述將所述集中的每個(gè)數(shù)據(jù)條目一個(gè)接一個(gè)地輸入到所述輸入層,直到全部所述數(shù)據(jù)條目已經(jīng)被輸入了至少一次,以產(chǎn)生修正的多隱層深層神經(jīng)網(wǎng)絡(luò)的處理動(dòng)作包括將所述集中的每個(gè)數(shù)據(jù)條目?jī)H輸入一次。
6.根據(jù)權(quán)利要求1所述的處理,其中用于設(shè)置與所述第一隱層關(guān)聯(lián)的所述權(quán)重的所述誤差反向傳播過程采用范圍在O. 01和O. 20之間的規(guī)定的學(xué)習(xí)速率。
7.根據(jù)權(quán)利要求1所述的處理,其中用于設(shè)置與每個(gè)新的隱層和每個(gè)之前訓(xùn)練的隱層關(guān)聯(lián)的所述權(quán)重的所述誤差反向傳播過程采用范圍在O. 01和O. 20之間的規(guī)定的學(xué)習(xí)速率。
8.一種用于訓(xùn)練上下文相關(guān)的深層神經(jīng)網(wǎng)絡(luò)⑶-DNN的系統(tǒng),包括 計(jì)算裝置(10); 包括能夠由所述計(jì)算裝置執(zhí)行的程序模塊的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序包括隱層生成器程序模塊(100),其中所述隱層生成器程序模塊指示所述計(jì)算裝置 初始地生成單隱層神經(jīng)網(wǎng)絡(luò),所述單隱層神經(jīng)網(wǎng)絡(luò)包括輸入層,訓(xùn)練數(shù)據(jù)被輸入到所述輸入層中;輸出層,從所述輸出層生成輸出;以及第一隱層,所述第一隱層以隨機(jī)初始化的權(quán)重與所述輸入層和所述輸出層相互連接, 每當(dāng)產(chǎn)生所述單隱層神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練版本時(shí),丟棄當(dāng)前輸出層并添加以隨機(jī)初始化的權(quán)重與所述第一隱層和新輸出層相互連接的新的隱層,以產(chǎn)生多隱層深層神經(jīng)網(wǎng)絡(luò),以及 每當(dāng)最近產(chǎn)生的多隱層深層神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練版本被產(chǎn)生并被指定為缺少規(guī)定數(shù)量的隱層時(shí),丟棄所述當(dāng)前輸出層并添加以隨機(jī)初始化的權(quán)重與最近一個(gè)之前添加的隱層和新輸出層相互連接的新的隱層,以產(chǎn)生新的多隱層深層神經(jīng)網(wǎng)絡(luò), 預(yù)訓(xùn)練程序模塊(102),其中所述預(yù)訓(xùn)練程序模塊指示所述計(jì)算裝置 訪問訓(xùn)練數(shù)據(jù)條目集,所述訓(xùn)練數(shù)據(jù)條目集中的每個(gè)數(shù)據(jù)條目具有分配到其上的對(duì)應(yīng)標(biāo)簽, 一旦生成了所述單隱層神經(jīng)網(wǎng)絡(luò)就對(duì)其進(jìn)行訪問, 將所述集中的每個(gè)數(shù)據(jù)條目一個(gè)接一個(gè)地輸入到所述單隱層神經(jīng)網(wǎng)絡(luò)的所述輸入層中,直到全部所述數(shù)據(jù)條目已經(jīng)被輸入了至少一次,以產(chǎn)生所述單隱層神經(jīng)網(wǎng)絡(luò)的所述預(yù)訓(xùn)練版本,從而在每個(gè)數(shù)據(jù)條目的所述輸入之后,經(jīng)由誤差反向傳播過程設(shè)置與所述第一隱層關(guān)聯(lián)的所述權(quán)重,以產(chǎn)生與所述訓(xùn)練數(shù)據(jù)條目關(guān)聯(lián)的所述標(biāo)簽匹配的來自所述輸出層的輸出; 在產(chǎn)生每個(gè)多隱層深層神經(jīng)網(wǎng)絡(luò)時(shí)對(duì)其進(jìn)行訪問, 對(duì)于被訪問的每個(gè)多隱層深層神經(jīng)網(wǎng)絡(luò),將所述訓(xùn)練數(shù)據(jù)條目集中的每個(gè)數(shù)據(jù)條目一個(gè)接一個(gè)地輸入到所述輸入層中,直到全部所述數(shù)據(jù)條目已經(jīng)被輸入了至少一次,以產(chǎn)生所訪問的多隱層深層神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練版本,從而在每個(gè)數(shù)據(jù)條目的所述輸入之后,經(jīng)由所述誤差反向傳播過程設(shè)置與所述最近添加的隱層和每個(gè)之前訓(xùn)練的隱層關(guān)聯(lián)的所述權(quán)重,以產(chǎn)生與所述訓(xùn)練數(shù)據(jù)條目關(guān)聯(lián)的所述標(biāo)簽匹配的來自所述輸出層的輸出,以及DNN模塊(104),其中所述DNN模塊指示所述計(jì)算裝置 每次產(chǎn)生多隱層DNN的預(yù)訓(xùn)練版本時(shí),判定所述多隱層DNN的預(yù)訓(xùn)練版本是否包括所述規(guī)定數(shù)量的隱層,以及 每當(dāng)判定為所述最近產(chǎn)生的預(yù)訓(xùn)練的多隱層深層神經(jīng)網(wǎng)絡(luò)不包括所述規(guī)定數(shù)量的隱層時(shí),將其指定為缺少所述規(guī)定數(shù)量的隱層,以及 每當(dāng)判定為所述最近產(chǎn)生的預(yù)訓(xùn)練的多隱層深層神經(jīng)網(wǎng)絡(luò)包括所述規(guī)定數(shù)量的隱層時(shí),將其指定為預(yù)訓(xùn)練的DNN。
9.根據(jù)權(quán)利要求8所述的系統(tǒng),進(jìn)一步包括微調(diào)模塊,其中所述微調(diào)模塊指示所述計(jì)算裝置迭代地訓(xùn)練所述預(yù)訓(xùn)練的DNN,直到與所述每個(gè)隱層關(guān)聯(lián)的所述權(quán)重不會(huì)在迭代之間比規(guī)定的訓(xùn)練閾值大地變化,以產(chǎn)生訓(xùn)練的DNN,其中每個(gè)訓(xùn)練迭代包括將所述訓(xùn)練數(shù)據(jù)條目集中的每個(gè)數(shù)據(jù)條目一個(gè)接一個(gè)地輸入到所述輸入層中,直到全部所述數(shù)據(jù)條目已經(jīng)被輸入了一次,以產(chǎn)生所述預(yù)訓(xùn)練DNN的新的經(jīng)微調(diào)的版本,從而在每個(gè)數(shù)據(jù)條目的所述輸入之后,經(jīng)由所述誤差反向傳播過程設(shè)置與所述隱層關(guān)聯(lián)的所述權(quán)重,以使得從所述輸出層生成的輸出匹配與所述訓(xùn)練數(shù)據(jù)條目關(guān)聯(lián)的所述標(biāo)簽。
10.一種其上存儲(chǔ)有用于訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)DNN的計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可執(zhí)行指令包括 Ca)訓(xùn)練單隱層神經(jīng)網(wǎng)絡(luò)NN,所述單隱層神經(jīng)網(wǎng)絡(luò)包括輸入層,訓(xùn)練數(shù)據(jù)被輸入到所述輸入層中;輸出層,從所述輸出層生成輸出;以及第一隱層,所述第一隱層以隨機(jī)初始化的權(quán)重與所述輸入層和所述輸出層相互連接,其中所述訓(xùn)練包括 訪問訓(xùn)練數(shù)據(jù)條目集,所述訓(xùn)練數(shù)據(jù)條目集中的每個(gè)數(shù)據(jù)條目具有分配到其上的對(duì)應(yīng)標(biāo)簽(200), 將所述集中的每個(gè)數(shù)據(jù)條目一個(gè)接一個(gè)地輸入到所述輸入層中,直到全部所述數(shù)據(jù)條目已經(jīng)被輸入了一次以產(chǎn)生初始的NN( 202),從而在每個(gè)數(shù)據(jù)條目的所述輸入之后,經(jīng)由采用范圍在O. 01和O. 20之間的規(guī)定學(xué)習(xí)速率的誤差反向傳播過程設(shè)置與所述第一隱層關(guān)聯(lián)的所述權(quán)重,以產(chǎn)生與所述訓(xùn)練數(shù)據(jù)條目關(guān)聯(lián)的所述標(biāo)簽匹配的來自所述輸出層的輸出; (b)丟棄當(dāng)前輸出層并且添加以隨機(jī)初始化的權(quán)重與最近一個(gè)之前訓(xùn)練的隱層和新輸出層相互連接的新的隱層,以產(chǎn)生新的多隱層深層神經(jīng)網(wǎng)絡(luò)(204); (c)訓(xùn)練最近產(chǎn)生的新的多隱層深層神經(jīng)網(wǎng)絡(luò),其中所述訓(xùn)練包括將所述集中的每個(gè)數(shù)據(jù)條目一個(gè)接一個(gè)地輸入到所述輸入層中,直到全部所述數(shù)據(jù)條目已經(jīng)被輸入一次,以產(chǎn)生修正的多隱層深層神經(jīng)網(wǎng)絡(luò)(206),從而在每個(gè)數(shù)據(jù)條目的所述輸入之后,經(jīng)由采用所述規(guī)定學(xué)習(xí)速率的所述誤差反向傳播過程設(shè)置與所述新的隱層和每個(gè)之前訓(xùn)練的隱層關(guān)聯(lián)的所述權(quán)重,以使得從所述輸出層生成的所述輸出匹配與所述訓(xùn)練數(shù)據(jù)條目關(guān)聯(lián)的所述標(biāo)簽; (d)重復(fù)指令(b)和(c ),直到已經(jīng)添加了規(guī)定數(shù)量的隱層(208 );以及 Ce)將最近產(chǎn)生的修正的多層DNN指定為預(yù)訓(xùn)練的DNN (210)。
全文摘要
本發(fā)明公開了深層神經(jīng)網(wǎng)絡(luò)的辨別預(yù)訓(xùn)練。提出了預(yù)訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)(DNN)的隱層的辨別預(yù)訓(xùn)練技術(shù)實(shí)施例。大體上,首先利用誤差反向傳播(BP)使用標(biāo)簽來辨別地訓(xùn)練單隱層神經(jīng)網(wǎng)絡(luò)。然后,在丟棄之前的單隱層神經(jīng)網(wǎng)絡(luò)的輸出層之后,連同新輸出層在之前訓(xùn)練的隱層的頂上添加另一隨機(jī)初始化的隱層,所述新輸出層表示分類或識(shí)別的目標(biāo)。然后利用同一策略辨別地訓(xùn)練作為結(jié)果產(chǎn)生的多隱層DNN等等,直到達(dá)到期望數(shù)量的隱層。這產(chǎn)生了預(yù)訓(xùn)練的DNN。所述辨別預(yù)訓(xùn)練技術(shù)實(shí)施例具有如下的優(yōu)點(diǎn)使得DNN層權(quán)重接近良好的局部最優(yōu),而仍使其留在具有高梯度的范圍內(nèi),從而能夠有效地對(duì)其進(jìn)行微調(diào)。
文檔編號(hào)G06N3/08GK103049792SQ20121048850
公開日2013年4月17日 申請(qǐng)日期2012年11月26日 優(yōu)先權(quán)日2011年11月26日
發(fā)明者弗蘭克塞得, 鄧麗, 俞棟, 李鋼 申請(qǐng)人:微軟公司