一種有效防止卷積神經(jīng)網(wǎng)絡(luò)過(guò)擬合的圖像分類(lèi)方法
【專(zhuān)利摘要】本發(fā)明涉及一種有效防止卷積神經(jīng)網(wǎng)絡(luò)過(guò)擬合的圖像分類(lèi)方法,包括:獲得圖像訓(xùn)練集和圖像測(cè)試集;卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練;用訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)圖像測(cè)試集進(jìn)行圖像分類(lèi)。其中,卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練的步驟為:對(duì)圖像訓(xùn)練集中的圖像數(shù)據(jù)進(jìn)行預(yù)處理和樣本擴(kuò)增,形成訓(xùn)練樣本;對(duì)訓(xùn)練樣本進(jìn)行前向傳播提取圖像特征;在Softmax分類(lèi)器中計(jì)算各樣本的分類(lèi)概率;根據(jù)概率yi計(jì)算得到訓(xùn)練誤差;利用所述訓(xùn)練誤差從卷積神經(jīng)網(wǎng)絡(luò)的最后一層依次往前反向傳播,同時(shí)利用隨機(jī)梯度下降法SGD修改網(wǎng)絡(luò)權(quán)值矩陣W。與現(xiàn)有技術(shù)相比,本發(fā)明具有分類(lèi)精度高、收斂速度快、計(jì)算效率高等優(yōu)點(diǎn)。
【專(zhuān)利說(shuō)明】一種有效防止卷積神經(jīng)網(wǎng)絡(luò)過(guò)擬合的圖像分類(lèi)方法 【技術(shù)領(lǐng)域】
[〇〇〇1] 本發(fā)明涉及圖像處理領(lǐng)域,尤其是涉及一種有效防止卷積神經(jīng)網(wǎng)絡(luò)過(guò)擬合的圖像 分類(lèi)方法。 【背景技術(shù)】
[0002] 隨著多媒體技術(shù)與計(jì)算機(jī)網(wǎng)絡(luò)的廣泛應(yīng)用,網(wǎng)絡(luò)上出現(xiàn)大量圖像數(shù)據(jù)。為了能夠 有效的管理這些圖像文件,為用戶(hù)提供更好的體驗(yàn)服務(wù),自動(dòng)識(shí)別這些圖像的內(nèi)容變的越 來(lái)越重要。
[0003] 隨機(jī)機(jī)器學(xué)習(xí)方法的不斷完善和發(fā)展,深度學(xué)習(xí)算法越來(lái)越受到重視,其中卷積 神經(jīng)網(wǎng)絡(luò)就是深度學(xué)習(xí)中一種重要的算法,目前已成為語(yǔ)音分析和圖像識(shí)別領(lǐng)域的研究熱 點(diǎn)。卷積神經(jīng)打破了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中層與層之間的神經(jīng)元全連接的方式,它的權(quán)值共享網(wǎng) 絡(luò)結(jié)構(gòu)使之更類(lèi)似于生物神經(jīng)網(wǎng)絡(luò),降低了網(wǎng)絡(luò)模型的復(fù)雜度,減少了權(quán)值的數(shù)量。該優(yōu)點(diǎn) 在網(wǎng)絡(luò)的輸入是圖像是表現(xiàn)的更為明顯,使圖像可以直接作為網(wǎng)絡(luò)的輸入,避免了傳統(tǒng)識(shí) 別算法中復(fù)雜的特征提取和數(shù)據(jù)重建過(guò)程。卷積網(wǎng)絡(luò)是為識(shí)別二維形狀而特殊設(shè)計(jì)的一個(gè) 多層感知器,這種網(wǎng)絡(luò)結(jié)構(gòu)對(duì)平移、比例縮放、傾斜或者其他形式的形變具有高度不變性。
[0004] 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類(lèi)技術(shù)能夠有效地自動(dòng)的從圖像中提取特征信息,提 取的特征具有非常好的圖像表達(dá)能力,因此該技術(shù)在一些圖像分類(lèi)問(wèn)題中取得了令人滿(mǎn)意 的實(shí)驗(yàn)結(jié)果。盡管如此,該技術(shù)目前還存在以下缺陷:
[0005] 第一,由于圖像數(shù)據(jù)庫(kù)中帶標(biāo)簽的數(shù)據(jù)是有限的,隨著卷積神經(jīng)網(wǎng)絡(luò)的規(guī)模不斷 增大,需要訓(xùn)練的權(quán)值也會(huì)不斷增加,這勢(shì)必使得神經(jīng)網(wǎng)絡(luò)出現(xiàn)過(guò)擬合現(xiàn)象,即訓(xùn)練時(shí)的分 類(lèi)精度遠(yuǎn)遠(yuǎn)好于測(cè)試時(shí)的分類(lèi)精度。
[0006] 第二,為了獲取更好的特征表達(dá)能力以便取得更好的分類(lèi)精度,某些研究人員采 用增加網(wǎng)絡(luò)深度、擴(kuò)大網(wǎng)絡(luò)規(guī)模的方法。但是,這種方法將極大的增加計(jì)算復(fù)雜度,傳統(tǒng)的 CPU運(yùn)算速度已經(jīng)不能滿(mǎn)足這樣的計(jì)算復(fù)雜度。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種分類(lèi)精度高、收 斂速度快、計(jì)算效率高的有效防止卷積神經(jīng)網(wǎng)絡(luò)過(guò)擬合的圖像分類(lèi)方法。
[0008] 本發(fā)明的目的可以通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn):
[0009] 一種有效防止卷積神經(jīng)網(wǎng)絡(luò)過(guò)擬合的圖像分類(lèi)方法,該方法運(yùn)行在GPU中,包括:
[〇〇1〇] 步驟一,獲得圖像訓(xùn)練集和圖像測(cè)試集;
[0011] 步驟二,卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練,具體包括以下步驟:
[0012] a)設(shè)定卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和訓(xùn)練次數(shù)上限N,初始化神經(jīng)網(wǎng)絡(luò)權(quán)值矩陣W,所述 結(jié)構(gòu)包括卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)和每層中特征圖的數(shù)量;
[0013] b)從所述圖像訓(xùn)練集中獲取圖像數(shù)據(jù)進(jìn)行預(yù)處理,并進(jìn)行樣本擴(kuò)增,形成訓(xùn)練樣 本;
[0014] c)對(duì)所述訓(xùn)練樣本進(jìn)行前向傳播提取圖像特征,所述前向傳播包括卷積層、非線(xiàn) 性歸一化層和混合pooling層的計(jì)算;
[0015] d)在Softmax分類(lèi)器中計(jì)算各樣本的分類(lèi)概率:
[0016]
【權(quán)利要求】
1. 一種有效防止卷積神經(jīng)網(wǎng)絡(luò)過(guò)擬合的圖像分類(lèi)方法,其特征在于,該方法運(yùn)行在 GPU中,包括: 步驟一,獲得圖像訓(xùn)練集和圖像測(cè)試集; 步驟二,卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練,具體包括以下步驟: a) 設(shè)定卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和訓(xùn)練次數(shù)上限N,初始化神經(jīng)網(wǎng)絡(luò)權(quán)值矩陣W,所述結(jié)構(gòu) 包括卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)和每層中特征圖的數(shù)量; b) 從所述圖像訓(xùn)練集中獲取圖像數(shù)據(jù)進(jìn)行預(yù)處理,并進(jìn)行樣本擴(kuò)增,形成訓(xùn)練樣本; c) 對(duì)所述訓(xùn)練樣本進(jìn)行前向傳播提取圖像特征,所述前向傳播包括卷積層、非線(xiàn)性歸 一化層和混合pooling層的計(jì)算; d) 在Softmax分類(lèi)器中計(jì)算各樣本的分類(lèi)概率:
式中,Si表示Softmax分類(lèi)器第i個(gè)神經(jīng)元的輸出值,Si = F · η,F(xiàn)為某個(gè)訓(xùn)練樣本 的圖像特征向量,η為相應(yīng)的權(quán)值,n為需要分類(lèi)的類(lèi)別數(shù)量: e) 根據(jù)概率yi計(jì)算得到訓(xùn)練誤差
當(dāng)i = k時(shí),0ik=l,i表示第i個(gè)類(lèi)別,當(dāng)原始輸入屬于類(lèi)別i莊
f) 利用所述訓(xùn)練誤差從卷積神經(jīng)網(wǎng)絡(luò)的最后一層依次往前反向傳播,同時(shí)利用隨機(jī)梯 度下降法SGD修改網(wǎng)絡(luò)權(quán)值矩陣W ; g) 判斷模型訓(xùn)練是否完成,若是,則保存卷積神經(jīng)網(wǎng)絡(luò)模型和Softmax分類(lèi)器后執(zhí)行 步驟三,若否,則返回步驟b); 步驟三,利用訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)圖像測(cè)試集進(jìn)行圖像分類(lèi)。
2. 根據(jù)權(quán)利要求1所述的一種有效防止卷積神經(jīng)網(wǎng)絡(luò)過(guò)擬合的圖像分類(lèi)方法,其特征 在于,所述步驟a)中,初始權(quán)值矩陣W的元素的取值范圍為[-0.01,0. 01]。
3. 根據(jù)權(quán)利要求1所述的一種有效防止卷積神經(jīng)網(wǎng)絡(luò)過(guò)擬合的圖像分類(lèi)方法,其特征 在于,所述步驟b)具體為: bl)對(duì)于長(zhǎng)寬相等的圖像,利用0PENCV中的cvResize函數(shù)進(jìn)行縮放,縮放后的圖片大 小為NXN ; b2)對(duì)長(zhǎng)寬不相等的圖像,固定短邊S不變,截取長(zhǎng)邊中間的連續(xù)S個(gè)像素,形成SXS 大小的圖像,再重復(fù)步驟bl)最終形成NXN大小的圖像; b3)計(jì)算所有圖像的像素值之和,并除以圖像的數(shù)量得到一個(gè)均值圖像,在每一副圖像 中減去所述均值圖像得到輸入樣本; b4)對(duì)所述輸入樣本進(jìn)行數(shù)據(jù)擴(kuò)增,形成最終的訓(xùn)練樣本。
4. 根據(jù)權(quán)利要求1所述的一種有效防止卷積神經(jīng)網(wǎng)絡(luò)過(guò)擬合的圖像分類(lèi)方法,其特征 在于,步驟c)中,所述卷積層的計(jì)算具體為: yk = max{wk*x,0} 其中,X表示前一層的輸出,即當(dāng)前層的輸入,yk表示第k個(gè)特征圖的輸出,wk代表與前 一層的輸出相連的第k個(gè)權(quán)值矩陣,表示二維的內(nèi)積運(yùn)算; 所沭韭錢(qián)樺昀一仆層的i+笪旦蝕為,
其中,Xku為非線(xiàn)性歸一化層計(jì)算時(shí)前一層第k個(gè)特征圖的輸出,累加運(yùn)算是在第k個(gè) 特征圖相鄰的N個(gè)特征圖的相同位置(i,j)上完成的,α和β為預(yù)設(shè)的歸一化參數(shù),ykij 為新生成的特征圖; 所述混合pooling層的計(jì)算具體為:
其中,λ是取值為0或者1的隨機(jī)參數(shù),XkM為混合pooling層計(jì)算時(shí)前一層第k個(gè)特 征圖的輸出,Ru為待降采樣的區(qū)域。
5.根據(jù)權(quán)利要求1所述的一種有效防止卷積神經(jīng)網(wǎng)絡(luò)過(guò)擬合的圖像分類(lèi)方法,其特征 在于,所述步驟g)中,判斷模型訓(xùn)練是否完成的準(zhǔn)則是:達(dá)到訓(xùn)練次數(shù)上限。
【文檔編號(hào)】G06K9/62GK104102919SQ201410333924
【公開(kāi)日】2014年10月15日 申請(qǐng)日期:2014年7月14日 優(yōu)先權(quán)日:2014年7月14日
【發(fā)明者】王瀚漓, 俞定君 申請(qǐng)人:同濟(jì)大學(xué)