本發(fā)明涉及CT影像匹配識別技術(shù)領(lǐng)域,尤其涉及一種基于多視野卷積神經(jīng)網(wǎng)絡(luò)的影像特征識別方法。
背景技術(shù):
目前,用于圖像自動分類的大多數(shù)方法并不是端到端的,這意味著在匹配識別之前還需要用預(yù)定義的濾波器提取特征(如方向梯度直方圖,本地二進制模式等)或手動提取圖像的特征(如幾何、紋理、外觀等)。特征學(xué)習(xí)是直接從訓(xùn)練數(shù)據(jù)中直接學(xué)習(xí)的高階表征。人工神經(jīng)網(wǎng)絡(luò)(ANN)從原始的數(shù)據(jù)中學(xué)習(xí)到特征,然而,由于傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)的全連接和淺層網(wǎng)絡(luò)結(jié)構(gòu),無法提取獨立性強的高階特征,嚴重限制了實際圖像數(shù)據(jù)的應(yīng)用。
深度卷積神經(jīng)網(wǎng)絡(luò)(DNN)是一種快速的,可擴展的,端到端的學(xué)習(xí)框架,推進計算機視覺的快速發(fā)展?;诰矸e神經(jīng)網(wǎng)絡(luò)(CNN)的車型分類、定位、語義分割和動作識別已達到目前最先進的水平。
但是,目前還沒有較為完善的用于CT影像識別的CNN技術(shù)。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的是提供一種基于多視野卷積神經(jīng)網(wǎng)絡(luò)的特征識別方法,不僅實現(xiàn)了端到端的影像識別,而且還確保了識別精確度。
本發(fā)明的目的是通過以下技術(shù)方案實現(xiàn)的:
一種基于多視野卷積神經(jīng)網(wǎng)絡(luò)的影像特征識別方法,包括:
步驟一、收集歷史數(shù)據(jù)庫中的帶有正負標簽的CT影像,建立數(shù)據(jù)集;
步驟二、利用圖像分割算法判斷數(shù)據(jù)集中每一CT影像中所標定特征的位置區(qū)域,提取不同像素大小的敏感區(qū)域;
步驟三、構(gòu)建多視野卷積神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)構(gòu)架包括:相互交替的卷積層與池化層,后接一個全連接層,最后的輸出層是Softmax分類器;
步驟四、將提取的不同像素大小的敏感區(qū)域作為樣本輸入至多視野卷積神經(jīng)網(wǎng)絡(luò),并對多視野卷積神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得訓(xùn)練好的多視野卷積神經(jīng)網(wǎng)絡(luò);
步驟五、采用步驟二的方式對待識別的CT影像進行處理,將提取到的不同像素大小的敏感區(qū)域輸入到訓(xùn)練好的多視野卷積神經(jīng)網(wǎng)絡(luò)中進行特征識別,根據(jù)識別結(jié)果來確定待識別CT影像的正負標簽。
所述提取不同像素大小的敏感區(qū)域包括:
判斷出CT影像中所標定特征的位置區(qū)域,所標定特征即用于特征識別的特征,再從中提取S個像素大小分別為M1,M2,…,MS的敏感區(qū)域。
所述對多視野卷積神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練包括:
隨機初始化各層參數(shù),包括:卷積層的卷積核,全連接層的權(quán)重矩陣與偏置向量以及Softmax分類器的參數(shù),并進行前向傳播;
權(quán)值更新:基于前向傳播各層的輸出以及訓(xùn)練集的標簽進行逐層反向傳播,確定各層參數(shù),完成對整個多視角神經(jīng)網(wǎng)絡(luò)有監(jiān)督的訓(xùn)練;
微調(diào)網(wǎng)絡(luò)參數(shù):利用Dropout技術(shù)對整個網(wǎng)絡(luò)進行微調(diào);
選擇模型超參:將步驟二中得到的敏感區(qū)域隨機均分為N份,利用N折交叉驗證技術(shù),選擇使得模型泛化性能最好的超參。
前向傳播包括:
第一層為卷積層C1,其表達式為:
其中,X為輸入的樣本,表示卷積層C1的第i個特征向量的輸入,表示卷積層C1第i個卷積核,valid表示conv所表示的卷積運算是窄卷積運算,表示連接輸入層和卷積層C1的偏置向量,表示卷積層C1第i個特征向量的激活值,f為卷積層的激活函數(shù);
第二層是池化層S2,其表達式為:
其中,表示池化層S2第i個特征向量的輸入,表示池化層S2第i個特征向量的激活值,down表示下采樣,表示池化層S2下采樣操作的系數(shù),表示連接卷積層C1和池化層S2的偏置向量;
第三層是卷積層C3,其表達式為:
其中,表示卷積層C3第i個特征向量的輸入,表示卷積層C3第i個卷積核,*表示卷積運算,表示卷積層C3第i個特征向量的激活值,表示連接池化層S2和卷積層C3的偏置向量,表示池化層S2的輸出;
第四層為池化層S4,其表達式為:
其中,表示池化層S4第i個特征向量的輸入,表示池化層S4池化操作的系數(shù),表示第4層第i個特征向量的激活值表示連接輸入層和池化層S4的偏置向量;
第五層為全連接層,將順序展開成向量,并有序連接成一個長向量,作為Softmax分類器的輸入;其表達式為:
其中,池化層S4的輸出,表示全連接層第i個特征向量的激活值;
第六層為Softmax分類器,其表達式為:
其中,θj表示該層的參數(shù),P(yi=j(luò)|xi;θ)表示Softmax分類器輸出概率,yi表示Softmax分類器的分類結(jié)果,J(θ)表示目標函數(shù),m表示樣本個數(shù),k表示類別數(shù),表示該層參數(shù)矩陣的轉(zhuǎn)置,θij表示全連接層和Softmax分類器之間的系數(shù)矩陣,xi表示所給定的樣本i,θc表示連接全連接FC層和第c個類別輸出器的參數(shù),是權(quán)重衰減項,表示權(quán)重衰減項系數(shù)。
反向傳播包括:
Softmax分類器的反向傳播:
θj=θj-α▽θJ(θ)
其中,m表示樣本個數(shù);δ(6)表示反向傳播中根據(jù)Softmax層計算的殘差項,α表示網(wǎng)絡(luò)學(xué)習(xí)率;
全連接層的反向傳播:將δ(6)依照前向傳播的規(guī)格進行拆分,其表達式為:
δ(5)=inconcatenate(δ(6));
卷積層的反向傳播:
其中,s=1,3,up表示上采樣運算,(*)st表示遍歷*的所有元素,表示所連接的池化層S2中中相關(guān)的元素構(gòu)成的矩陣。
池化層的反向傳播:
其中,q=2,4,full表示寬卷積運算。
利用Dropout技術(shù)對整個網(wǎng)絡(luò)進行微調(diào)包括:
每m個樣本為一個批次做梯度下降,每次梯度下降的時候每個隱藏節(jié)點以概率P1隨機忽略;每個輸入節(jié)點以概率P2隨機忽略;
在測試的時候,輸入層與卷積層之間的權(quán)重乘以(1-P2),其他層的權(quán)重乘以(1-P1)。
所述將步驟二中得到的敏感區(qū)域隨機均分為N份,利用N折交叉驗證技術(shù),選擇使得模型泛化性能最好的超參包括:
首先固定超參,然后把步驟二中得到的敏感區(qū)域隨機均分為N份,將第1份作為驗證集,剩下的N-1份作為訓(xùn)練集,對多視野卷積神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練;
將驗證集數(shù)據(jù)輸入到訓(xùn)練后的多視野卷積神經(jīng)網(wǎng)絡(luò)里面,得到多視野卷積神經(jīng)網(wǎng)絡(luò)的識別準確率;再將第2份最為驗證集,剩下的N-1份作為訓(xùn)練集,對多視野卷積神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,將驗證集數(shù)據(jù)輸入到訓(xùn)練后的多視野卷積神經(jīng)網(wǎng)絡(luò)里面,得到第二個多視野卷積神經(jīng)網(wǎng)絡(luò)的識別準確率;
如此重復(fù)N次,得到N個識別準確率,對這N個識別準確率進行平均,得到在這組超參下所訓(xùn)練出來的多視野卷積神經(jīng)網(wǎng)絡(luò)的識別準確率;然后換一組超參,重復(fù)上述步驟,選出使得識別準確率最高的超參組合作為最終對于超參的設(shè)定。
所述根據(jù)識別結(jié)果來確定待識別CT影像的正負標簽包括:
若待識別CT影像中的特征與帶有正標簽的CT影像中標定特征匹配,則確定待識別CT影像為正標簽;
若待識別CT影像中的特征與帶有負標簽的CT影像中標定特征匹配,則確定待識別CT影像為負標簽。
由上述本發(fā)明提供的技術(shù)方案可以看出,采用端到端的圖像處理方式,避免了繁瑣的預(yù)處理過程;此外,還以深度學(xué)習(xí)為基礎(chǔ),構(gòu)建多視野的卷積神經(jīng)網(wǎng)絡(luò),以所標定特征的多個視野為輸入,達到更高識別精確度。
附圖說明
為了更清楚地說明本發(fā)明實施例的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域的普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他附圖。
圖1為本發(fā)明實施例提供的一種基于多視野卷積神經(jīng)網(wǎng)絡(luò)的影像特征識別方法的流程圖。
具體實施方式
下面結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明的保護范圍。
圖1為本發(fā)明實施例提供的一種基于多視野卷積神經(jīng)網(wǎng)絡(luò)的影像特征識別方法的流程圖。如圖1所示,其主要包括如下步驟:
步驟一、收集歷史數(shù)據(jù)庫中的帶有正負標簽的CT影像,建立數(shù)據(jù)集。
此處的,正負標簽可以指代CT影像的屬性;例如,可以根據(jù)CT影像中標定的良惡性來確定,以便于后續(xù)特征識別后為待識別影像賦予相應(yīng)的標簽。
步驟二、利用圖像分割算法判斷數(shù)據(jù)集中每一CT影像中所標定特征的位置區(qū)域,提取不同像素大小的敏感區(qū)域。
本發(fā)明實施例中,所標定特征可以根據(jù)實際情況來選定,例如,可以將CT影像中某個器官或者組織作為標定特征;但是,本發(fā)明并不關(guān)注所標定特征的具體種類。
提取不同像素大小的敏感區(qū)域,也就是提取不同視野的敏感區(qū)域;例如,判斷出CT影像中所標定特征的位置區(qū)域后,從中提取S個像素大小分別為M1,M2,…,MS的敏感區(qū)域。
步驟三、構(gòu)建多視野卷積神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)構(gòu)架包括:相互交替的卷積層與池化層,后接一個全連接層,最后的輸出層是Softmax分類器。
本發(fā)明實施例中,相互交替的卷積層與池化層的具體數(shù)量可以根據(jù)實際情況來確定,如果卷積層與池化層各兩個,則網(wǎng)絡(luò)的層次依次是:多視野輸入層、卷積層、池化層、卷積層、池化層、全連接層以及輸出層(Softmax分類器)。
設(shè)定第一個卷積層的卷積核長度ks1,特征向量個數(shù)為c1;設(shè)定第一個池化層的池化長度設(shè)置為np1;設(shè)定第二個卷積層的卷積核長度ks2,特征向量個數(shù)為c2;設(shè)定第一個池化層的池化長度設(shè)置為np1。
步驟四、將提取的不同像素大小的敏感區(qū)域作為樣本輸入至多視野卷積神經(jīng)網(wǎng)絡(luò),并對多視野卷積神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得訓(xùn)練好的多視野卷積神經(jīng)網(wǎng)絡(luò)。
本發(fā)明實施例中,多視野卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練的過程如下:
1、隨機初始化各層參數(shù),包括:卷積層的卷積核,全連接層的權(quán)重矩陣與偏置向量以及Softmax分類器的參數(shù),并進行前向傳播。
前向傳播的過程如下:
第一層為卷積層C1,其表達式為:
其中,X為輸入的樣本,表示卷積層C1的第i個特征向量(特征向量的尺寸隨著敏感區(qū)域的增大而變多,導(dǎo)致運算量不同,訓(xùn)練時間和精度都不同)的輸入,表示卷積層C1第i個卷積核,valid表示conv所表示的卷積運算是窄卷積運算('valid'表示影像邊界處理的一種模式),表示連接輸入層和卷積層C1的偏置向量;表示卷積層C1第i個特征向量的激活值,f為卷積層的激活函數(shù);
第二層是池化層S2,其表達式為:
其中,表示池化層S2第i個特征向量的輸入,表示池化層S2第i個特征向量的激活值,down表示下采樣,表示池化層S2下采樣操作的系數(shù),表示連接卷積層C1和池化層S2的偏置向量;
第三層是卷積層C3,其表達式為:
其中,表示卷積層C3第i個特征向量的輸入,表示卷積層C3第i個卷積核,*表示卷積運算,表示卷積層C3第i個特征向量的激活值,表示連接池化層S2和卷積層C3的偏置向量,表示池化層S2的輸出;
第四層為池化層S4,其表達式為:
其中,表示池化層S4第i個特征向量的輸入,表示池化層S4池化層下采樣操作的系數(shù),表示池化層S4第i個特征向量的激活值;表示連接卷積層C3和池化層S4的偏置向量;
第五層為全連接FC層,將順序展開成向量,并有序連接成一個長向量,作為Softmax分類器的輸入;其表達式為:
其中,池化層S4的輸出,即全連接層的輸入,表示全連接層第i個特征向量的激活值;
第六層為Softmax分類器,其表達式為:
其中,θj表示該層的參數(shù),P(yi=j(luò)|xi;θ)表示Softmax分類器輸出概率,yi表示Softmax分類器的分類結(jié)果,J(θ)表示目標函數(shù),m表示樣本個數(shù),k表示類別數(shù),表示該層參數(shù)矩陣的轉(zhuǎn)置,θij表示全連接層和Softmax分類器之間的系數(shù)矩陣,xi表示所給定的樣本i,θc表示連接全連接FC層和第c個類別輸出器的參數(shù);是權(quán)重衰減項,表示權(quán)重衰減項系數(shù),防止模型過擬合。
2、權(quán)值更新:基于前向傳播各層的輸出以及訓(xùn)練集的標簽進行逐層反向傳播,確定各層參數(shù),完成對整個多視角神經(jīng)網(wǎng)絡(luò)有監(jiān)督的訓(xùn)練。
反向傳播的過程如下:
Softmax分類器的反向傳播:
θj=θj-α▽θJ(θ)
其中,m表示樣本個數(shù);δ(6)表示反向傳播中根據(jù)Softmax層計算的殘差項,α表示網(wǎng)絡(luò)學(xué)習(xí)率。
全連接層的反向傳播:將δ(6)依照前向傳播的規(guī)格進行拆分,其表達式為:
δ(5)=inconcatenate(δ(6));
其中,δ(5)表示反向傳播中根據(jù)全連接層計算的殘差項。
卷積層的反向傳播:
其中,s=1,3,up表示上采樣運算,(*)st表示遍歷*的所有元素,表示所連接的池化層S2中中相關(guān)的元素構(gòu)成的矩陣。
池化層的反向傳播:
其中,q=2,4,full表示寬卷積運算,此處的'full'與前文的'valid'是相對的,表示兩種不同的邊界處理方式。
3、微調(diào)網(wǎng)絡(luò)參數(shù),利用Dropout技術(shù)對整個網(wǎng)絡(luò)進行微調(diào),在有大量訓(xùn)練樣本的情況下,微調(diào)能顯著提升分類器性能。
微調(diào)過程如下:
每m個樣本為一個批次做梯度下降,每次梯度下降的時候每個隱藏節(jié)點以概率P1隨機忽略;每個輸入節(jié)點以概率P2隨機忽略;每次的權(quán)重更新只更新保留下來的節(jié)點所對應(yīng)的權(quán)重。忽略并不意味著刪除,每次權(quán)重更新的過程都要從所有的節(jié)點中隨機選擇,更新也是在上次更新后的基礎(chǔ)之上進行更新。
在測試的時候,輸入層與卷積層之間的權(quán)重乘以(1-P2),其他層的權(quán)重乘以(1-P1)。
4、選擇模型超參:將步驟二中得到的敏感區(qū)域隨機均分為N份,利用N折交叉驗證技術(shù),選擇使得模型泛化性能最好的超參。
在模型訓(xùn)練的過程中需要幾個參數(shù)事先確定下來,這樣的參數(shù)叫做超參。為了選出使得模型性能最好的超參,采用N折交叉驗證技術(shù)進行選擇,過程如下:
首先固定超參,然后把步驟二中得到的敏感區(qū)域隨機均分為N份,將第1份作為驗證集,剩下的N-1份作為訓(xùn)練集,對多視野卷積神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練;
將驗證集數(shù)據(jù)輸入到訓(xùn)練后的多視野卷積神經(jīng)網(wǎng)絡(luò)里面,得到多視野卷積神經(jīng)網(wǎng)絡(luò)的識別準確率;再將第2份最為驗證集,剩下的N-1份作為訓(xùn)練集,對多視野卷積神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,將驗證集數(shù)據(jù)輸入到訓(xùn)練后的多視野卷積神經(jīng)網(wǎng)絡(luò)里面,得到第二個多視野卷積神經(jīng)網(wǎng)絡(luò)的識別準確率;
如此重復(fù)N次,得到N個識別準確率,對這N個識別準確率進行平均,得到在這組超參下所訓(xùn)練出來的多視野卷積神經(jīng)網(wǎng)絡(luò)的識別準確率;然后換一組超參,重復(fù)上述步驟,選出使得識別準確率最高的超參組合作為最終對于超參的設(shè)定。
步驟五、采用步驟二的方式對待識別的CT影像進行處理,將提取到的不同像素大小的敏感區(qū)域輸入到訓(xùn)練好的多視野卷積神經(jīng)網(wǎng)絡(luò)中進行特征識別,根據(jù)識別結(jié)果來確定待識別CT影像的正負標簽。
具體的:
若待識別CT影像中的特征與帶有正標簽的CT影像中標定特征匹配,則確定待識別CT影像為正標簽;
若待識別CT影像中的特征與帶有負標簽的CT影像中標定特征匹配,則確定待識別CT影像為負標簽。
本發(fā)明實施例上述方案中,采用端到端的圖像處理方式,避免了繁瑣的預(yù)處理過程;此外,還以深度學(xué)習(xí)為基礎(chǔ),構(gòu)建多視野的卷積神經(jīng)網(wǎng)絡(luò),以所標定特征的多個視野為輸入,達到更高識別精確度。
通過以上的實施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到上述實施例可以通過軟件實現(xiàn),也可以借助軟件加必要的通用硬件平臺的方式來實現(xiàn)?;谶@樣的理解,上述實施例的技術(shù)方案可以以軟件產(chǎn)品的形式體現(xiàn)出來,該軟件產(chǎn)品可以存儲在一個非易失性存儲介質(zhì)(可以是CD-ROM,U盤,移動硬盤等)中,包括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例所述的方法。
以上所述,僅為本發(fā)明較佳的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明披露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應(yīng)該以權(quán)利要求書的保護范圍為準。