亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于改進的深度玻爾茲曼機肺結節(jié)特征提取和良惡性分類方法與流程

文檔序號:12864452閱讀:520來源:國知局
一種基于改進的深度玻爾茲曼機肺結節(jié)特征提取和良惡性分類方法與流程

本發(fā)明涉及肺結節(jié)特征提取,具體涉及一種基于改進的深度玻爾茲曼機肺結節(jié)特征提取和良惡性分類方法。



背景技術:

傳統(tǒng)的計算機輔助診斷系統(tǒng)(computeraideddiagnosis,簡稱cad)分析肺結節(jié)一般采用基于形態(tài)學的結節(jié)分割和人工提取肺結節(jié)紋理特征或形狀特征。這種基于底層特征的分類方法可以克服人眼的惰性和對灰度圖像的不敏感性,提高放射科醫(yī)生對結節(jié)識別和診斷的精確性,但是選取什么樣肺結節(jié)圖像表征,很大程度上依靠經(jīng)驗和運氣;而且使用形態(tài)學對結節(jié)的描述是不準確的,比如結節(jié)邊緣的定義是模糊的、主觀的?;谏疃炔柶澛鼨C無監(jiān)督方法能夠讓機器自動地學習到肺結節(jié)圖像深層結構特征,就能很好地避免人為因素的影響,借鑒人腦的多層抽象機制來實現(xiàn)對肺結節(jié)抽象表達,使學習到的特征相似于生物視覺的特征,從而提升分類的準確性,并輔助醫(yī)師做出可靠的診斷決策。



技術實現(xiàn)要素:

本發(fā)明針對現(xiàn)有技術的不足提供一種基于深度波爾茲曼機的肺結節(jié)特征提取以及采用極限學習機進行良惡性分類,既能自動提取到肺結節(jié)具有表達能力的深層特征,又能對提取的特征進行準確、快速的分類,為醫(yī)師對查詢病灶的診斷提供決策支持,從客觀方面起到輔助診斷的作用。

本發(fā)明采用的技術方案為:

一種基于改進的深度玻爾茲曼機肺結節(jié)特征提取和良惡性分類方法,包括以下步驟:

步驟a,采用閾值概率圖方法從肺部ct圖像分割肺結節(jié),得到感興趣區(qū)域(roi),并裁剪成同一大小的結節(jié)圖像存入樣本數(shù)據(jù)庫;

步驟b,設計有監(jiān)督的深度學習算法pnd-ebm實現(xiàn)肺結節(jié)的診斷,具體為采用基于深度玻爾茲曼機(dbm)提取肺結節(jié)roi的具有深層表達能力的特征:通過dbm兩個隱層提取肺結節(jié)淺層和高層特征,并通過修改代價函數(shù),解決訓練過程中特征同質化現(xiàn)象,從而獲得表達肺結節(jié)高維的特征信息,并為下一步分類做準備;然后采用基于極限學習機(elm)將提取的肺結節(jié)特征進行良惡性分類。

所述的方法,所述步驟a具體步驟如下:

a1、預處理數(shù)據(jù)集

第1步,假設lidc數(shù)據(jù)庫中4位放射性專家專家經(jīng)驗值一樣,因此賦給每個專家的權重值均為0.25;

第2步,如果區(qū)域中的某個像素同時被μ(1≤μ≤4)名專家標注,則該像素為結節(jié)區(qū)域的概率值為0.25μ;

第3步,經(jīng)過上述操作,將肺結節(jié)roi轉換為0~1之間的概率映射圖;

第4步,設置一個閾值k,分割肺結節(jié)區(qū)域時概率值低于k的像素設置為0,高于k的像素設置為1,就生成了相應的二值圖像;

第5步,將此二值圖像與原圖像進行and運算,即得到肺結節(jié)圖像;

第6步,將肺結節(jié)圖像統(tǒng)一裁剪成大小為32×32,存入樣本數(shù)據(jù)庫中,作為pnd-dbm的輸入;

a2、擴充并平衡數(shù)據(jù)集:

第1步,將良性結節(jié)向x軸、y軸方向平移±2像素,以及將肺結節(jié)旋轉90°,180°,270°后存儲;

第2步,將惡性結節(jié)每隔90°旋轉一次并存儲;

經(jīng)過擴充數(shù)據(jù)集操作后,良性結節(jié)擴充8倍,惡性結節(jié)擴充4倍,在擴充數(shù)據(jù)集的同時也解決了數(shù)據(jù)集不平衡的問題。

所述的方法,所述步驟b具體步驟如下:基于dbm和elm算法,提出pnd-edbm用于肺結節(jié)特征提取與良惡性分類,dbm前兩個隱含層用來提取肺結節(jié)特征,可見層與第一個隱含層構成第一個rbm模型,第一個隱含層與第二個隱含層構成第二個rbm模型,由于第二個隱含層同時也作為elm的隱含層,因此第二、三個隱含層與分類層構成elm模型;第一個rbm模型提取肺結節(jié)特征信息并對輸入數(shù)據(jù)構建低層特征表達,第二個rbm模型構建肺結節(jié)高層的特征表達,elm模型對提取到的高層特征進行快速準確分類;

具體訓練步驟如下:

第1步,無監(jiān)督訓練:以重構誤差函數(shù)作為目標函數(shù),采用貪婪逐層算法,先對第一層的rbm進行無監(jiān)督學習,直到數(shù)據(jù)達到收斂條件或超過訓練迭代次數(shù)后,固定本層的參數(shù)并傳遞給下一個rbm進行訓練;

第2步,有監(jiān)督微調(diào):首先,利用帶標簽的訓練樣本對elm分類器進行訓練,然后利用將已經(jīng)調(diào)好的dbm網(wǎng)絡參數(shù)作為微調(diào)的初始值,采用mini-batch梯度下降法,通過最小化交叉熵函數(shù),找到全局最優(yōu)點,微調(diào)網(wǎng)絡參數(shù);

b1、dbm提取肺結節(jié)過程如下;

第1步,采用兩隱含層深度玻爾茲曼機來提取肺結節(jié)特征,用一個二值的可見單元向量來表示輸入結節(jié)圖像,h1與h2是底層與高層的二值隱含單元向量;對于給定的一組狀態(tài){v,h1,h2},定義如下能量函數(shù):

e(v,h1,h2,θ)=-vtwh1-h1jh2-a1th1-a2th2-btv

其中,θ={w,j,a1,a2,b}為dbm參數(shù),w為可見單元v到隱含單元h1的權值矩陣,j為隱含單元h1到隱含單元h2的權值矩陣,a1和a2分別為表示隱含單元的偏置,b表示可見單元的偏置;

第2步,則可見單元與隱藏單元的聯(lián)合概率為:

其中,常數(shù)項z(θ)定義為:

第3步,根據(jù)邏輯回歸函數(shù)得到兩個隱含層以及可見層單元重構的條件分布概率為:

通過上述幾個式子,就得到了dbm模型的參數(shù);

b2、采用稀疏交叉熵懲罰因子改進代價函數(shù);

定義兩個隨機分布q(x)與p(x)之間的交叉熵(crossentropy)為q(x)與p(x)之間的kullback-leiber距離與p(x)的熵之和,定義如下所示:

crossentropy=-∫p(x)lnq(x)dx

當q(x)等于p(x)時,交叉熵最小,即kullback-leiber距離最??;

利用交叉熵的概念,提出新的稀疏懲罰因子——交叉熵稀疏懲罰因子,p(x)為隱單元稀疏度,q(x)為隱單元激活概率分布,rbm隱單元個數(shù)為m,l為訓練樣本v的個數(shù),如下所示:

對給定訓練集v={v(1),...,v(m)},對于rbm的訓練,就是處理下式的優(yōu)化問題:

式中λ為稀疏正則化常數(shù),p用于控制隱單元的稀疏程度,即通過稀疏懲罰因子鼓勵隱單元在學習過程中的平均激活概率與p之間的kullback-leiber距離達到最小,使隱單元具備稀疏性;

b3、采用elm進行良惡性分類

第1步,設訓練樣本為[xi,ti](i=1,2,3,...,k),對于一個m個隱層節(jié)點的神經(jīng)網(wǎng)絡可以表示為:

其中,xi代表每一個肺結節(jié)特征樣本,ti代表良性或者惡性結果,β為隱含層和輸出層之間的連接權值矩陣;g(x)為隱含層的激活函數(shù),可取sigmoid、sine或者rbf函數(shù);w為輸入層和隱含層之間的連接權值,c為隱含層的偏置向量;

第2步,單隱層的神經(jīng)網(wǎng)絡學習的目的是使得輸出的誤差最小,也就是存在w,β,b使得o與t近似相等:

第3步,確定隱含層神經(jīng)元個數(shù),隨機設定輸入層與隱含層的連接權值w和隱含層神經(jīng)元的閾值b;

第4步,選擇一個無限可微的函數(shù)作為隱含層神經(jīng)元的激活函數(shù),進而計算隱含層輸出層矩陣h,用矩陣形式可表示為:hb=t,式中h被稱作網(wǎng)絡的隱含層輸出矩陣;

第5步,隱含層和輸出層之間的連接權值β可由hb=t的極小二范數(shù)最小二乘解得:計算輸出值權值式中為隱含層輸出矩陣h的moore-penrose廣義逆。

與現(xiàn)有技術相比,本發(fā)明的有益效果為:

1、本發(fā)明的方法針對lidc數(shù)據(jù)庫中ct進行預處理,采用的是概率閾值圖,而不是分割結節(jié),也沒有使用任何形態(tài)學處理結節(jié),保留了原始結節(jié)信息;

2、與傳統(tǒng)的方法手工提取結節(jié)特征相比,比如紋理特征、形狀特性等,本發(fā)明方法使用的dbm算法能夠自動獲取結節(jié)有區(qū)別能力的特征;

3、本發(fā)明方法采用elm對肺結節(jié)特征進行分類,可以保證精度不變的情況下,減少時間復雜度,將elm運用到dbm中,能更有效的節(jié)約時間。

附圖說明

圖1是本發(fā)明算法流程圖。

圖2是本發(fā)明基于閾值概率圖的肺結節(jié)圖像分割過程圖。(a)原始結節(jié)圖像,(b-e)4位專家對同一肺結節(jié)分割的二值圖像,以及標注惡性度分別為5,5,5,4,(f)概率閾值圖處理后的結果,(g)閾值k=0.25時標準結節(jié)區(qū)域二值圖像,(h)最終提取的肺結節(jié)圖像,惡性度為5。

圖3是pnd-edbm結構圖。

圖4是dbm結構圖。

圖5是在三種不同稀疏懲罰因子下rbm可視化圖。

圖6是elm結構圖。

圖7是相對比其他深度學習框架肺結節(jié)分類實驗結果圖。

具體實施方式

以下結合具體實施例,對本發(fā)明進行詳細說明。

參照圖1,本發(fā)明方法的實現(xiàn)流程如下:

一種基于深度波爾茲曼機的肺結節(jié)特征提取以及采用極限學習機進行良惡性分類識別的方法,包括以下步驟:

步驟a,采用閾值概率圖(thresholdprobabilitymap,簡稱tpm)方法從肺部ct圖像分割肺結節(jié),得到感興趣區(qū)域(roi),并裁剪成同一大小的結節(jié)圖像存入樣本數(shù)據(jù)庫,為下一步提取特征做準備。

步驟b,設計有監(jiān)督的深度學習算法pnd-ebm實現(xiàn)肺結節(jié)的診斷,具體為采用基于深度玻爾茲曼機(dbm)提取肺結節(jié)roi的具有深層表達能力的特征:采用兩個隱含層提取肺結節(jié)淺層和高層特征,并通過修改代價函數(shù),從而獲得表達結節(jié)高維的特征信息,并為下一步分類做準備。采用基于極限學習機(elm)將提取的肺結節(jié)特征進行良惡性分類。

優(yōu)選的,所述步驟a中采用閾值概率圖方法從肺部ct圖像分割肺結節(jié),得到感興趣區(qū)域(roi)的過程如下:

本專利使用的數(shù)據(jù)集來自于美國國家癌癥研究會(nationalcancerinstitute,簡稱nci)于2001年4月起陸續(xù)頒布了lidc(lungimagedatabaseconsortiumimage,簡稱lidc)。數(shù)據(jù)庫包含1018個病例,其中每個病例對應一個文件夾,包括完整的肺部ct掃描圖像100~300張以及一個注釋文件(.xml文件)。注釋文件中只對直徑大于3mm的結節(jié)給出了由4名放射性專家標注的結節(jié)輪廓上每個點的坐標,小于3mm的小結節(jié)則只給出了中心點坐標。因此,本實驗中只考慮直徑大于3mm的結節(jié),以便于對本文分類算法的精準度進行評價。

a1、預處理數(shù)據(jù)集

第1步,假設lidc數(shù)據(jù)庫中4位放射性專家專家經(jīng)驗值一樣,因此賦給每個專家的權重值均為0.25;

第2步,如果區(qū)域中的某個像素同時被μ(1≤μ≤4)名專家標注,則該像素為結節(jié)區(qū)域的概率值為0.25μ;

第3步,經(jīng)過上述操作,將肺結節(jié)roi轉換為0~1之間的概率映射圖;

第4步,設置一個閾值k(本專利設置閾值k=0.25),分割肺結節(jié)區(qū)域時概率值低于k的像素設置為0,高于k的像素設置為1,就生成了相應的二值圖像。

第5步,將此二值圖像與原圖像進行and運算,即得到肺結節(jié)圖像。

第6步,將肺結節(jié)圖像統(tǒng)一裁剪成大小為32×32,存入樣本數(shù)據(jù)庫中,作為pnd-dbm的輸入;

本專利對lidc數(shù)據(jù)庫中的ct圖像預處理采用概率閾值圖方法,可以得到結節(jié)圖像共15864個結節(jié),其中良性結節(jié)4469,惡性結節(jié)11395,從中,可以發(fā)現(xiàn)樣本集中惡性結節(jié)個數(shù)是良性結節(jié)的2.55倍,且樣本數(shù)據(jù)集過少,網(wǎng)絡在學習過程中可能會出現(xiàn)過擬合現(xiàn)象,因為需要擴充和平衡數(shù)據(jù)集。

圖2為概率閾值圖方法處理lidc數(shù)據(jù)庫中的ct圖像結果,(a)為原始結節(jié)圖像,(b-e)為4位專家標注的結節(jié)區(qū)域大小的二值圖像以及惡性度大小,(f)概率閾值圖處理后的結果,(g)經(jīng)過閾值k處理后的標準結節(jié)區(qū)域二值圖像,(h)為與原始結節(jié)圖像與運算后的結節(jié)區(qū)域,即得到最終的結節(jié)圖像并存入訓練數(shù)據(jù)集中。

a2、擴充并平衡數(shù)據(jù)集:

第1步,將良性結節(jié)向x軸、y軸方向平移±2像素,以及將結節(jié)旋轉90°,180°,270°后存儲;

第2步,將惡性結節(jié)每隔90°旋轉一次并存儲;

經(jīng)過擴充數(shù)據(jù)集后,良性結節(jié)擴充8倍,惡性結節(jié)擴充4倍,在擴充數(shù)據(jù)集的同時也解決了數(shù)據(jù)集不平衡的問題。經(jīng)過上述操作,根據(jù)2-8原則將72800個結節(jié)作為訓練集,其中良性結節(jié)32000個,惡性結節(jié)40800個,測試集8532個。

優(yōu)選的,所述步驟b中特征提取過程如下:

參照圖3,本發(fā)明專利基于dbm和elm算法,提出pnd-edbm用于肺結節(jié)特征提取與良惡性分類,dbm前兩個隱含層用來提取肺結節(jié)特征,可見層與第一個隱含層構成第一個rbm模型,第一個隱含層與第二個隱含層構成第二個rbm模型,由于第二個隱含層同時也作為elm的隱含層,因此第二、三個隱含層與分類層構成elm模型;第一個rbm模型提取肺結節(jié)特征信息并對輸入數(shù)據(jù)構建低層特征表達,第二個rbm模型構建肺結節(jié)高層的特征表達,elm模型對提取到的高層特征進行快速準確分類。

本專利隨機選取訓練集72800個,測試樣本8532個,在網(wǎng)絡結構1024-500-300-500-2下進行測試,mini-batch(分批處理個數(shù))為100,迭代20次,隨機隱退概率設置為0.5,學習率ε=0.01下進行訓練。具體訓練步驟如下:

第1步,無監(jiān)督訓練:以重構誤差函數(shù)作為目標函數(shù),采用貪婪逐層算法,先對第一層的rbm進行無監(jiān)督學習,直到數(shù)據(jù)達到收斂條件或超過訓練迭代次數(shù)后,固定本層的參數(shù)并傳遞給下一個rbm進行訓練。

第2步,微調(diào):首先,利用帶標簽的訓練樣本對elm分類器進行訓練,然后利用將已經(jīng)調(diào)好的dbm網(wǎng)絡參數(shù)作為微調(diào)的初始值,采用mini-batch梯度下降法,通過最小化交叉熵函數(shù),找到全局最優(yōu)點,微調(diào)網(wǎng)絡參數(shù)。

b1、參照圖4中dbm結構圖,dbm提取肺結節(jié)過程如下;

第1步,本專利采用兩隱含層深度玻爾茲曼機來提取肺結節(jié)特征,用一個二值的可見單元向量v來表示輸入結節(jié)圖像,h1與h2是底層與高層的二值隱含單元向量。對于給定的一組狀態(tài){v,h1,h2},定義如下能量函數(shù):

e(v,h1,h2,θ)=-vtwh1-h1jh2-a1th1-a2th2-btv

其中,θ={w,j,a1,a2,b}為dbm參數(shù),w為可見單元v到隱含單元h1的權值矩陣,j為隱含單元h1到隱含單元h2的權值矩陣,a1和a2分別為表示隱含單元的偏置,b表示可見單元的偏置。

第2步,則可見單元與隱藏單元的聯(lián)合概率為:

其中,常數(shù)項z(θ)定義為:

第3步,根據(jù)邏輯回歸函數(shù)得到兩個隱含層以及可見層單元重構的條件分布概率為:

根據(jù)上述幾個式子,就得到了dbm的參數(shù)。

b2、采用稀疏交叉熵懲罰因子改進代價函數(shù);

定義兩個隨機分布q(x)與p(x)之間的交叉熵(crossentropy)為q(x)與p(x)之間的kullback-leiber距離與p(x)的熵之和,定義如下所示:

crossentropy=-∫p(x)lnq(x)dx

當q(x)等于p(x)時,交叉熵最小,即kullback-leiber距離最?。?/p>

利用交叉熵的概念,提出新的稀疏懲罰因子——交叉熵稀疏懲罰因子,p(x)為隱單元稀疏度,q(x)為隱單元激活概率分布,rbm隱單元個數(shù)為m,l為訓練樣本v的個數(shù),如下所示:

對給定訓練集v={v(1),...,v(m)},對于rbm的訓練,就是處理下式的優(yōu)化問題:

式中λ為稀疏正則化常數(shù),p用于控制隱單元的稀疏程度,即通過稀疏懲罰因子鼓勵隱單元在學習過程中的平均激活概率與p之間的kullback-leiber距離達到最小,使隱單元具備稀疏性。

圖5為在三種不同懲罰因子下,rbm可視化圖,(a)為無稀疏交叉熵懲罰因子,(b)為誤差平方和稀疏懲罰因子,(c)交叉熵稀疏懲罰因子實驗結果圖。在沒有稀疏懲罰因子的情況下,rbm出現(xiàn)了嚴重的特征同質化現(xiàn)象,結節(jié)特征不明顯;但采用稀疏懲罰因子后,可以看到比較明顯的結節(jié)輪廓,證明了稀疏懲罰因子能夠有效地避免特征同質化問題;但對比圖(b)和圖(c)可以發(fā)現(xiàn),圖(b)中仍然存在著結節(jié)特征相似的現(xiàn)象,說明相較于誤差平方和稀疏懲罰因子,交叉熵稀疏懲罰因子下rbm學習的特征更清楚,證明特征同質化得到進一步弱化。

b3、參照圖6中elm結構圖,采用elm進行肺結節(jié)良惡性分類過程如下:

第1步,設訓練樣本為[xi,ti](i=1,2,3,...,k),對于一個m個隱層節(jié)點的神經(jīng)網(wǎng)絡可以表示為:

其中,β為隱含層和輸出層之間的連接權值矩陣;g(x)為隱含層的激活函數(shù),可取sigmoid、sine或者rbf函數(shù);w為輸入層和隱含層之間的連接權值,c為隱含層的偏置向量。

第2步,單隱層的神經(jīng)網(wǎng)絡學習的目的是使得輸出的誤差最小,也就是存在w,β,b使得o與t近似相等:

第3步,確定隱含層神經(jīng)元個數(shù),隨機設定輸入層與隱含層的連接權值w和隱含層神經(jīng)元的閾值b;

第4步,選擇一個無限可微的函數(shù)作為隱含層神經(jīng)元的激活函數(shù),進而計算隱含層輸出層矩陣h,用矩陣形式可表示為:hb=t,式中h被稱作網(wǎng)絡的隱含層輸出矩陣。

第5步,隱含層和輸出層之間的連接權值β可由hb=t的極小二范數(shù)最小二乘解得:計算輸出值權值式中為隱含層輸出矩陣h的moore-penrose廣義逆。

圖7對比了本發(fā)明與其他深度學習方法用于肺結節(jié)良惡性分類,對肺結節(jié)的準確性(acc)、敏感性(sen)以及特異性(spe)進行對比,setio*使用的是多視角卷積神經(jīng)網(wǎng)絡,分類器采用softmax,達到了87.93%的敏感性;ypsilantis*使用的是混合卷積神經(jīng)網(wǎng)絡以及循環(huán)神經(jīng)網(wǎng)絡cnn-rnn,采用svm作為分類器,達到了90.5%的敏感性;kumar*使用的是自編碼提取肺結節(jié)特征,并使用二叉樹作為分類器,達到了82.78%的特異性,shen*使用的是多視角卷積神經(jīng)網(wǎng)絡,并采用隨機森林進行分類,達到了88.84%的準確率,而本文發(fā)明的方法在對肺結節(jié)診斷時的敏感度,特異性和準確度分別為85.36%,87.32%和89.85%。

應當理解的是,對本領域普通技術人員來說,可以根據(jù)上述說明加以改進或變換,而所有這些改進和變換都應屬于本發(fā)明所附權利要求的保護范圍。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1