本發(fā)明涉及計(jì)算機(jī)圖形學(xué)下的醫(yī)學(xué)成像、神經(jīng)解剖學(xué)領(lǐng)域,是一種針對大腦神經(jīng)疾病的,基于體素分析的數(shù)據(jù)驅(qū)動機(jī)器學(xué)習(xí)方法。
背景技術(shù):
定量擴(kuò)散張量成像(dti)用于纖維建模,是十分有效的臨床應(yīng)用工具,用于評估損傷的程度和定位神經(jīng)疾病。但是缺乏不足的分辨率限制了dti探測更復(fù)雜的微結(jié)構(gòu)信息。現(xiàn)有的神經(jīng)疾病方法通常用于驗(yàn)證疾病的臨床猜測,并且難以預(yù)測和積極測量涉及這些疾病的腦區(qū)。找出有效的區(qū)分分類疾病方法是解決問題的關(guān)鍵。
技術(shù)實(shí)現(xiàn)要素:
為了克服現(xiàn)有基于dti的纖維量化指標(biāo)一直存在著低精度以及判斷結(jié)果與疾病臨床表現(xiàn)不一致等問題的不足,針對以上兩個(gè)限制,基于hardi技術(shù)的神經(jīng)系統(tǒng)疾病,本發(fā)明提供了一種精度較高的基于體素分析的數(shù)據(jù)驅(qū)動機(jī)器學(xué)習(xí)方法,其中提出了數(shù)據(jù)驅(qū)動的機(jī)器學(xué)習(xí)方法來分析和預(yù)測神經(jīng)系統(tǒng)疾病。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:
一種用于神經(jīng)疾病的基于體素分析的數(shù)據(jù)驅(qū)動機(jī)器學(xué)習(xí)方法,包括如下步驟:
1)根據(jù)對腦區(qū)指標(biāo)的定量測量值進(jìn)行主成分分析pca模型訓(xùn)練,過程如下:
獲得的量化數(shù)據(jù)組表示為:
其中,n代表總的樣本數(shù)量;
降維后的數(shù)據(jù)q在維度m下被表示為:
其中,維度滿足1≤m≤p的部分表示的意思是保留方差為投影空間最大值的正交軸,增量主成分分析用新輸入的數(shù)據(jù)和上一步特征值更新當(dāng)前的特征值;
通過兩個(gè)樣本協(xié)方差矩陣s的前導(dǎo)特征向量得出q,其中:
公式中
sqi=λiqi,i=1,...m(4)
在該表達(dá)式中,λi是矩陣s第i個(gè)最大特征向量;
在所操作的樣本空間中,
2)對所有特征進(jìn)行提取,過程如下:
在初步處理后,在初步處理后,觀察考慮特征列表中的每個(gè)特征,之后要人工地對特征進(jìn)行挑選移除;設(shè)樣本為x=[x1,...xj,...xn]t,其中
單變量特征選擇通過單變量統(tǒng)計(jì)檢驗(yàn)取選擇最佳特征;
對獲取樣本數(shù)據(jù)去計(jì)算單因素方差分析中的p值,對每個(gè)樣本都是基于計(jì)算出的k最高值進(jìn)行特征進(jìn)行選擇;對所有的樣本,去計(jì)算病人組與正??刂平M在每個(gè)體素間的距離和副本以及將最大k值包括進(jìn)新樣本;新樣本
3)為所選出的特征選擇最佳分類器模型算法,過程如下:
利用這些指數(shù)和選擇的體素,在這里使用隨機(jī)森林rf算法訓(xùn)練高分疾病分類模型;在分類器模型部分中,需要做的是從選擇出的特征中規(guī)劃出一個(gè)預(yù)測函數(shù)f(x)去預(yù)測y;如果考慮到新的特征隊(duì)列
3.1.采用bootstrap抽樣技術(shù)從原始數(shù)據(jù)集中抽取ntree個(gè)訓(xùn)練集,每個(gè)訓(xùn)練集的大小為原始數(shù)據(jù)集的三分之二;
3.2.為每一個(gè)bootstrap訓(xùn)練集分別建立分類回歸樹cart,共產(chǎn)生ntree棵決策樹構(gòu)成一片“森林”,隨機(jī)選擇最優(yōu)屬性進(jìn)行分支,mtry≤m;
3.3.集合ntree棵決策樹的預(yù)測結(jié)果,采用投票的方式?jīng)Q定新樣本的類別;
隨機(jī)森林分類器設(shè)置三個(gè)參數(shù):森林中決策樹的數(shù)量ntree、內(nèi)部節(jié)點(diǎn)隨機(jī)選擇屬性的個(gè)數(shù)mtry及終節(jié)點(diǎn)的最小樣本數(shù)nodesize;
4)預(yù)測
對于一個(gè)新樣本,要去量化所有量化指標(biāo)對于獲取測量值矩陣
進(jìn)一步,所述步驟4)中,在預(yù)測環(huán)節(jié),隨機(jī)森林算法在訓(xùn)練過程中的每次bootstrap抽樣,將有三分之一的數(shù)據(jù)未被抽中,這部分?jǐn)?shù)據(jù)被稱為袋外數(shù)據(jù),隨機(jī)森林算法就是利用這部分?jǐn)?shù)據(jù)進(jìn)行內(nèi)部的誤差估計(jì)。
本發(fā)明的目標(biāo)是找到一個(gè)數(shù)據(jù)驅(qū)動的方法,積極測量與神經(jīng)系統(tǒng)疾病相關(guān)的腦區(qū),然后根據(jù)這些區(qū)域的特點(diǎn)預(yù)測新的樣本。同時(shí),該方法可以根據(jù)不同的疾病特征自動選擇合適的定量測量指標(biāo)。與單一成像技術(shù)(dti)相比,多種技術(shù)(dti,hardi)的混合可以提取更多的功能,有助于剖析特定的疾病病理可能更準(zhǔn)確。
本發(fā)明的有益效果主要表現(xiàn)在:精度較高。
具體實(shí)施方式
下面對本發(fā)明作進(jìn)一步描述。
一種用于神經(jīng)疾病的基于體素分析的數(shù)據(jù)驅(qū)動機(jī)器學(xué)習(xí)方法,包括如下步驟:
1)根據(jù)對腦區(qū)指標(biāo)的定量測量值進(jìn)行主成分分析(pca)模型訓(xùn)練,過程如下:
該步驟其實(shí)就是使用pca方法提取基于hardi成像算法的合成指數(shù)。
獲得的量化數(shù)據(jù)組可以表示為:
其中,n代表總的樣本數(shù)量;
降維后的數(shù)據(jù)q在維度m下可以被表示為:
在這個(gè)公式中,其中滿足1≤m≤p的部分表示的意思是保留方差為投影空間最大值的正交軸。在這里選用增量主成分分析(ipca)去彌補(bǔ)當(dāng)要分解的數(shù)據(jù)集過大而不能適應(yīng)存儲器的問題,作為主成分分析方法的替代。增量主成分分析用新輸入的數(shù)據(jù)和上一步特征值就實(shí)現(xiàn)更新當(dāng)前的特征值而不用考慮整個(gè)數(shù)據(jù)集。
通過兩個(gè)樣本協(xié)方差矩陣s的前導(dǎo)特征向量可以得出q。其中:
公式中
sqi=λiqi,i=1,...m(4)
在該表達(dá)式中,λi是矩陣s第i個(gè)最大特征向量。
在所操作的樣本空間中,
2)對所有特征(指標(biāo)數(shù)值)進(jìn)行提取,過程如下:
核心是要提供特征選擇算法以自動獲得在整個(gè)大腦之間的控制和患者對象之間可能具有顯著多樣性的重要體素。
在初步處理后,在初步處理后,觀察考慮特征列表中的每個(gè)特征,之后要人工地對特征進(jìn)行挑選移除;設(shè)樣本為x=[x1,...xj,...xn]t,其中
單變量特征選擇通過單變量統(tǒng)計(jì)檢驗(yàn)取選擇最佳特征。
在這個(gè)系統(tǒng)實(shí)驗(yàn)過程中,對獲取樣本數(shù)據(jù)去計(jì)算單因素方差分析中的p值。selectkbest是用來提取數(shù)據(jù)集中最明顯特征的常用技術(shù),經(jīng)常用于去將原始數(shù)據(jù)縮減為包含最大差異量的特征的子集。對每個(gè)樣本都是基于計(jì)算出的k最高值進(jìn)行特征進(jìn)行選擇。對所有的樣本,去計(jì)算病人組與正常控制組在每個(gè)體素間的距離和副本以及將最大k值包括進(jìn)新樣本。新樣本
3)為所選出的特征選擇最佳分類器模型算法,過程如下:
利用這些指數(shù)和選擇的體素,在這里使用隨機(jī)森林(rf)算法訓(xùn)練高分疾病分類模型。在分類器模型部分中,需要做的是從選擇出的特征中規(guī)劃出一個(gè)預(yù)測函數(shù)f(x)去預(yù)測y。如果考慮到新的特征隊(duì)列
其算法由以下三步實(shí)現(xiàn):
3.1.采用bootstrap抽樣技術(shù)從原始數(shù)據(jù)集中抽取ntree個(gè)訓(xùn)練集,每個(gè)訓(xùn)練集的大小約為原始數(shù)據(jù)集的三分之二。
3.2.為每一個(gè)bootstrap訓(xùn)練集分別建立分類回歸樹(classificationandregressiontree,cart),共產(chǎn)生ntree棵決策樹構(gòu)成一片“森林”。隨機(jī)選擇最優(yōu)屬性進(jìn)行分支(mtry≤m)。
3.3.集合ntree棵決策樹的預(yù)測結(jié)果,采用投票(voting)的方式?jīng)Q定新樣本的類別。
隨機(jī)森林分類器利用基于breiman隨機(jī)森林理論的r語言軟件包randomforest來實(shí)現(xiàn)。需要設(shè)置三個(gè)主要的參數(shù):森林中決策樹的數(shù)量(ntree)、內(nèi)部節(jié)點(diǎn)隨機(jī)選擇屬性的個(gè)數(shù)(mtry)及終節(jié)點(diǎn)的最小樣本數(shù)(nodesize)。
在隨機(jī)森林算法中,特征之間的一個(gè)相對的重要性排名也用在決策點(diǎn),這也可以去評估特征在預(yù)估新目標(biāo)變量中相對重要性。決策樹頂端的特征會被考慮進(jìn)最終的預(yù)測。樣本預(yù)期的部分因此可以被運(yùn)用至特征間相對主次地位的評估。
4)預(yù)測
預(yù)測一個(gè)新樣本通常旨在去獲得分類的信息和概率。對于一個(gè)新樣本,要去量化所有量化指標(biāo)對于獲取測量值矩陣
在預(yù)測環(huán)節(jié)。隨機(jī)森林算法在訓(xùn)練過程中的每次bootstrap抽樣,將有約三分之一的數(shù)據(jù)未被抽中,這部分?jǐn)?shù)據(jù)被稱為袋外(out-of-bag)數(shù)據(jù)。隨機(jī)森林就是利用這部分?jǐn)?shù)據(jù)進(jìn)行內(nèi)部的誤差估計(jì)。