亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于卷積神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林的手寫數(shù)字識別方法與流程

文檔序號:11654873閱讀:1175來源:國知局
基于卷積神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林的手寫數(shù)字識別方法與流程

本發(fā)明涉及模式識別和機(jī)器學(xué)習(xí)領(lǐng)域,具體涉及一種結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林的手寫數(shù)字識別方法。



背景技術(shù):

手寫數(shù)字識別包含在字符識別技術(shù)中,是模式識別的一種。處理一些數(shù)據(jù)信息的關(guān)鍵技術(shù)就是手寫數(shù)字識別,比如財(cái)務(wù)報(bào)表、郵政編碼、各種票據(jù)等等。手寫數(shù)字識別的改進(jìn)和研究不僅具有重大的現(xiàn)實(shí)意義和應(yīng)用價(jià)值,還有著極其關(guān)鍵的理論價(jià)值。

卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,cnn)是深度學(xué)習(xí)算法的一種,廣泛應(yīng)用在圖像識別領(lǐng)域。cnn通過一層一層的學(xué)習(xí),可以自動從輸入圖像中提取特征,在面對不同的圖像識別任務(wù)時(shí)都有很好的效果,被認(rèn)為是通用圖像識別系統(tǒng)的代表之一。但是cnn在訓(xùn)練的過程中需要采用bp算法來調(diào)整參數(shù),這個(gè)過程會消耗大量時(shí)間。隨機(jī)權(quán)值的網(wǎng)絡(luò)在近幾年的研究中被證明同樣可以取得很好的效果。

隨機(jī)森林(randomforests,rf)是leobreiman在2001年發(fā)表的論文中提出的一種新的機(jī)器學(xué)習(xí)算法,在分類和回歸上具有很高的精度,訓(xùn)練速度快并且不容易出現(xiàn)過擬合的問題,在抗噪方面也表現(xiàn)良好,現(xiàn)有的基于隨機(jī)森林的分類器都依賴手工選取的特征,然而手工選取是非常費(fèi)力而且需要專業(yè)知識的方法,能否選好很大程度上取決于經(jīng)驗(yàn)和運(yùn)氣。



技術(shù)實(shí)現(xiàn)要素:

基于以上問題,本發(fā)明提出一種基于卷積神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林的手寫數(shù)字識別方法,用隨機(jī)權(quán)值的cnn提取數(shù)字圖像的特征,然后交給rf完成分類。這樣使得模型在提取特征的過程中大大減少了時(shí)間,既克服了cnn訓(xùn)練時(shí)間過長的問題,又解決了在rf在人工選取特征的缺陷。

本發(fā)明的技術(shù)方案如下:一種基于卷積神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林的手寫體數(shù)字識別方法,具體步驟如下:

步驟1,采集手寫數(shù)字圖像生成訓(xùn)練集和測試集;

步驟2,構(gòu)造并初始化卷積神經(jīng)網(wǎng)絡(luò):該網(wǎng)絡(luò)包括:輸入層、兩個(gè)卷積層、兩個(gè)降采樣層和一個(gè)全連接層,其中:輸入層的數(shù)據(jù)是手寫數(shù)字圖像,是28*28像素點(diǎn)構(gòu)成的矩陣,卷積層c1有10個(gè)特征圖,降采樣層s2同樣有10個(gè)特征圖,卷積層c3則有20個(gè)特征圖,s4層對c3層特征圖基礎(chǔ)上進(jìn)行降采樣得到20張?zhí)卣鲌D,此時(shí)得到特征數(shù)據(jù);

步驟3,訓(xùn)練隨機(jī)森林分類器,隨機(jī)森林是一種統(tǒng)計(jì)學(xué)習(xí)理論,它利用bootstrap重抽樣方法從原始樣本中抽取多個(gè)樣本,然后對每個(gè)bootstrap樣本進(jìn)行決策樹建模,然后組成多棵決策樹進(jìn)行預(yù)測,最終投票得出預(yù)測結(jié)果。具體過程如下:

步驟3.1:從樣本集中用bootstrap采樣選出n個(gè)樣本;

步驟3.2:從所有屬性中隨機(jī)選擇k個(gè)屬性,選擇最佳分割屬性作為節(jié)點(diǎn)建立cart決策樹;

步驟3.3:重復(fù)以上兩步m次,即建立了m棵cart決策樹,這m棵cart決策樹形成隨機(jī)森林,通過投票表決結(jié)果,決定數(shù)據(jù)屬于哪一類。

步驟4:手寫數(shù)字的識別,從卷積神經(jīng)網(wǎng)絡(luò)中得到特征數(shù)據(jù)之后,將特征數(shù)據(jù)輸入到訓(xùn)練好的隨機(jī)森林分類器中從而得到手寫數(shù)字識別結(jié)果。

通過以上內(nèi)容可知,本申請?zhí)峁┑氖且环N基于卷積神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林的手寫體數(shù)字識別方法,首先手寫數(shù)字圖像的數(shù)據(jù)集,分為訓(xùn)練集和測試集,然后設(shè)計(jì)網(wǎng)絡(luò)的層數(shù)、特征圖的數(shù)目和卷積核的大小等等,之后用隨機(jī)化權(quán)值的卷積神經(jīng)網(wǎng)絡(luò)提取數(shù)字圖像的特征,最后輸入到隨機(jī)森林分類器中完成分類。本申請通過卷積神經(jīng)網(wǎng)絡(luò)提取手寫數(shù)字圖像的特征,避免了顯示的特征提取,直接將圖片作為網(wǎng)絡(luò)的輸入;避免了深度學(xué)習(xí)訓(xùn)練時(shí)間長的缺點(diǎn),訓(xùn)練時(shí)間短;同時(shí)識別精度也比較高。

附圖說明

為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本申請實(shí)施例提供的一種手寫體數(shù)字識別方法的流程圖。

圖2為本申請所使用的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面將結(jié)合本申請實(shí)施例中的附圖,對本申請實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本申請一部分實(shí)施例,而不是全部的實(shí)施例?;诒旧暾堉械膶?shí)施例,本領(lǐng)域普通技術(shù)人員在沒有付出創(chuàng)造性勞動前提下所獲得的所有其它實(shí)施例,都屬于本申請保護(hù)的范圍。

實(shí)施例1

如圖1所示,本實(shí)施例包括以下步驟:

步驟1,采集手寫數(shù)字圖像生成訓(xùn)練集和測試集;

步驟2,構(gòu)建卷積神經(jīng)網(wǎng)絡(luò):

本實(shí)施例中采用的卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)廣泛應(yīng)用的一個(gè)模型,尤其在圖片領(lǐng)域非常高效,它是一個(gè)多層的神經(jīng)網(wǎng)絡(luò),可以完成特征的自動提取和分類。輸入層的圖像通過若干個(gè)可訓(xùn)練的卷積核和偏置進(jìn)行卷及特征提取之后會在c1得到相應(yīng)的特征圖,然后經(jīng)過池化之后,加上權(quán)值和偏置之后輸入到sigmoid函數(shù)再次得到特征圖,c3層和s4層特征圖的提取與c1層和s2層類似,最終這些特征圖連接為一個(gè)向量輸入到傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)中,得到輸出進(jìn)而完成分類。

步驟2.1:構(gòu)造如圖2所示的多層神經(jīng)網(wǎng)絡(luò),包括輸入層,兩個(gè)卷積層,兩個(gè)降采樣層和一個(gè)全連接層,c層為卷積層,c層中的神經(jīng)元通過局部感受野(一個(gè)卷積核,比如5*5大小)與上層相連接,并通過卷積計(jì)算提取該局部的特征,使用單調(diào)遞增的sigmoid函數(shù)作為激活函數(shù);s層為降采樣層,用池化的方法進(jìn)行二次特征提取。這種c層和s層交替出現(xiàn)的結(jié)構(gòu)使網(wǎng)絡(luò)對輸入樣本有較高的畸變?nèi)萑棠芰Γ?/p>

步驟2.2:卷積神經(jīng)網(wǎng)絡(luò)的輸入為28*28的灰度圖,卷積層c1卷積核大小為5*5,有10張?zhí)卣鲌D,降采樣層s2有10張?zhí)卣鲌D,卷積層c3由s2的10張?zhí)卣鲌D經(jīng)卷積而后得到20張?zhí)卣鲌D,因?yàn)樘卣鲌D的數(shù)量較少,為了得到更全面的特征,組合方式采用全連接的方式,降采樣層s4有20張?zhí)卣鲌D,全連接層將s4的20張?zhí)卣鲌D排列,設(shè)置500個(gè)節(jié)點(diǎn);

步驟2.3:隨機(jī)初始化卷積神經(jīng)網(wǎng)絡(luò)的權(quán)值,將樣本(x,y)輸入到網(wǎng)絡(luò)中,其中x是樣本的數(shù)據(jù),y是標(biāo)簽,經(jīng)過逐層計(jì)算得到樣本的特征。

步驟3,訓(xùn)練隨機(jī)森林分類器,隨機(jī)森林算法是由leobreiman提出,其實(shí)質(zhì)是一個(gè)包含k個(gè)決策樹的分類器,這些決策樹的形成采用了隨機(jī)的方法,因此也叫隨機(jī)決策樹,樹與樹之間是沒有關(guān)聯(lián)的。它采用bootstrap重抽樣方法從原始樣本中抽取n個(gè)樣本;對每個(gè)樣本從所有屬性中選擇k個(gè)屬性,選擇最佳屬性作為節(jié)點(diǎn)建立cart決策樹;重復(fù)m次建立m棵cart決策樹,這m棵cart形成隨機(jī)森林,通過投票得到最終投票結(jié)果。

步驟3.1:從樣本集中用bootstrap采樣選出n個(gè)樣本;

步驟3.2:從所有屬性中隨機(jī)選擇k個(gè)屬性,選擇最佳分裂屬性作為節(jié)點(diǎn)建立cart決策樹,其中最佳分裂指數(shù)是根據(jù)gini指數(shù)來選擇的:假設(shè)集合t中包含n個(gè)類別的記錄,其中g(shù)ini指數(shù)就是根據(jù)式來計(jì)算的,其中pj代表類j出現(xiàn)的概率,如果集合t分成m部分n1,n2,…,nm。那么這個(gè)分裂的gini系數(shù)就是

對于所有的屬性都要遍歷所有可能的分裂方式,然后選擇具有最小指數(shù)的分裂作為分裂標(biāo)準(zhǔn)。然后每棵樹任意生長,不進(jìn)行剪枝。

步驟3.3:重復(fù)以上兩步m次,即建立了m棵cart決策樹,這m棵cart決策樹形成隨機(jī)森林,通過投票表決結(jié)果,決定數(shù)據(jù)屬于哪一類。

步驟4,手寫數(shù)字識別:將卷積神經(jīng)網(wǎng)絡(luò)提取得到的測試特征數(shù)據(jù)輸入訓(xùn)練好的隨機(jī)森林分類器,最終得到測試結(jié)果。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1