亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種用于神經(jīng)疾病的基于體素分析的數(shù)據(jù)驅(qū)動機(jī)器學(xué)習(xí)方法與流程

文檔序號:11677860閱讀:294來源:國知局

本發(fā)明涉及計(jì)算機(jī)圖形學(xué)下的醫(yī)學(xué)成像、神經(jīng)解剖學(xué)領(lǐng)域,是一種針對大腦神經(jīng)疾病的,基于體素分析的數(shù)據(jù)驅(qū)動機(jī)器學(xué)習(xí)方法。



背景技術(shù):

定量擴(kuò)散張量成像(dti)用于纖維建模,是十分有效的臨床應(yīng)用工具,用于評估損傷的程度和定位神經(jīng)疾病。但是缺乏不足的分辨率限制了dti探測更復(fù)雜的微結(jié)構(gòu)信息。現(xiàn)有的神經(jīng)疾病方法通常用于驗(yàn)證疾病的臨床猜測,并且難以預(yù)測和積極測量涉及這些疾病的腦區(qū)。找出有效的區(qū)分分類疾病方法是解決問題的關(guān)鍵。



技術(shù)實(shí)現(xiàn)要素:

為了克服現(xiàn)有基于dti的纖維量化指標(biāo)一直存在著低精度以及判斷結(jié)果與疾病臨床表現(xiàn)不一致等問題的不足,針對以上兩個(gè)限制,基于hardi技術(shù)的神經(jīng)系統(tǒng)疾病,本發(fā)明提供了一種精度較高的基于體素分析的數(shù)據(jù)驅(qū)動機(jī)器學(xué)習(xí)方法,其中提出了數(shù)據(jù)驅(qū)動的機(jī)器學(xué)習(xí)方法來分析和預(yù)測神經(jīng)系統(tǒng)疾病。

本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:

一種用于神經(jīng)疾病的基于體素分析的數(shù)據(jù)驅(qū)動機(jī)器學(xué)習(xí)方法,包括如下步驟:

1)根據(jù)對腦區(qū)指標(biāo)的定量測量值進(jìn)行主成分分析pca模型訓(xùn)練,過程如下:

獲得的量化數(shù)據(jù)組表示為:

其中,n代表總的樣本數(shù)量;代表每個(gè)樣本體素的量化指標(biāo)值。

降維后的數(shù)據(jù)q在維度m下被表示為:

其中,維度滿足1≤m≤p的部分表示的意思是保留方差為投影空間最大值的正交軸,增量主成分分析用新輸入的數(shù)據(jù)和上一步特征值更新當(dāng)前的特征值;

通過兩個(gè)樣本協(xié)方差矩陣s的前導(dǎo)特征向量得出q,其中:

公式中k和nj分別表示樣本平均值、分類的數(shù)目以及類j中的樣本數(shù)量;因此,推出以下的結(jié)果表達(dá):

sqi=λiqi,i=1,...m(4)

在該表達(dá)式中,λi是矩陣s第i個(gè)最大特征向量;

在所操作的樣本空間中,的主成分主軸m是解相關(guān)的;

2)對所有特征進(jìn)行提取,過程如下:

在初步處理后,在初步處理后,觀察考慮特征列表中的每個(gè)特征,之后要人工地對特征進(jìn)行挑選移除;設(shè)樣本為x=[x1,...xj,...xn]t,其中每個(gè)樣本xj都有一個(gè)對應(yīng)的分類yj;

單變量特征選擇通過單變量統(tǒng)計(jì)檢驗(yàn)取選擇最佳特征;

對獲取樣本數(shù)據(jù)去計(jì)算單因素方差分析中的p值,對每個(gè)樣本都是基于計(jì)算出的k最高值進(jìn)行特征進(jìn)行選擇;對所有的樣本,去計(jì)算病人組與正??刂平M在每個(gè)體素間的距離和副本以及將最大k值包括進(jìn)新樣本;新樣本是從原樣本中獲得,它們的y值是被保留的;

3)為所選出的特征選擇最佳分類器模型算法,過程如下:

利用這些指數(shù)和選擇的體素,在這里使用隨機(jī)森林rf算法訓(xùn)練高分疾病分類模型;在分類器模型部分中,需要做的是從選擇出的特征中規(guī)劃出一個(gè)預(yù)測函數(shù)f(x)去預(yù)測y;如果考慮到新的特征隊(duì)列和它對應(yīng)的隊(duì)列y,就可以去建立一個(gè)隨機(jī)森林分類器去區(qū)分病人及控制樣本;每個(gè)訓(xùn)練集都是在聚合技術(shù)作用下由獨(dú)立森林樹創(chuàng)建的;由以下三步實(shí)現(xiàn):

3.1.采用bootstrap抽樣技術(shù)從原始數(shù)據(jù)集中抽取ntree個(gè)訓(xùn)練集,每個(gè)訓(xùn)練集的大小為原始數(shù)據(jù)集的三分之二;

3.2.為每一個(gè)bootstrap訓(xùn)練集分別建立分類回歸樹cart,共產(chǎn)生ntree棵決策樹構(gòu)成一片“森林”,隨機(jī)選擇最優(yōu)屬性進(jìn)行分支,mtry≤m;

3.3.集合ntree棵決策樹的預(yù)測結(jié)果,采用投票的方式?jīng)Q定新樣本的類別;

隨機(jī)森林分類器設(shè)置三個(gè)參數(shù):森林中決策樹的數(shù)量ntree、內(nèi)部節(jié)點(diǎn)隨機(jī)選擇屬性的個(gè)數(shù)mtry及終節(jié)點(diǎn)的最小樣本數(shù)nodesize;

4)預(yù)測

對于一個(gè)新樣本,要去量化所有量化指標(biāo)對于獲取測量值矩陣之后,增量主成分分析提供了增量更新原始主成分分析的方法去獲得一個(gè)新的增量主成分分析模型;對獲得的該模型,去計(jì)算增量主成分分析特征向量,而測量值矩陣的維度會被降為新的q=[q1,...qm];這些新測量值將重新排列為x。

進(jìn)一步,所述步驟4)中,在預(yù)測環(huán)節(jié),隨機(jī)森林算法在訓(xùn)練過程中的每次bootstrap抽樣,將有三分之一的數(shù)據(jù)未被抽中,這部分?jǐn)?shù)據(jù)被稱為袋外數(shù)據(jù),隨機(jī)森林算法就是利用這部分?jǐn)?shù)據(jù)進(jìn)行內(nèi)部的誤差估計(jì)。

本發(fā)明的目標(biāo)是找到一個(gè)數(shù)據(jù)驅(qū)動的方法,積極測量與神經(jīng)系統(tǒng)疾病相關(guān)的腦區(qū),然后根據(jù)這些區(qū)域的特點(diǎn)預(yù)測新的樣本。同時(shí),該方法可以根據(jù)不同的疾病特征自動選擇合適的定量測量指標(biāo)。與單一成像技術(shù)(dti)相比,多種技術(shù)(dti,hardi)的混合可以提取更多的功能,有助于剖析特定的疾病病理可能更準(zhǔn)確。

本發(fā)明的有益效果主要表現(xiàn)在:精度較高。

具體實(shí)施方式

下面對本發(fā)明作進(jìn)一步描述。

一種用于神經(jīng)疾病的基于體素分析的數(shù)據(jù)驅(qū)動機(jī)器學(xué)習(xí)方法,包括如下步驟:

1)根據(jù)對腦區(qū)指標(biāo)的定量測量值進(jìn)行主成分分析(pca)模型訓(xùn)練,過程如下:

該步驟其實(shí)就是使用pca方法提取基于hardi成像算法的合成指數(shù)。

獲得的量化數(shù)據(jù)組可以表示為:

其中,n代表總的樣本數(shù)量;代表每個(gè)樣本體素的量化指標(biāo)值。

降維后的數(shù)據(jù)q在維度m下可以被表示為:

在這個(gè)公式中,其中滿足1≤m≤p的部分表示的意思是保留方差為投影空間最大值的正交軸。在這里選用增量主成分分析(ipca)去彌補(bǔ)當(dāng)要分解的數(shù)據(jù)集過大而不能適應(yīng)存儲器的問題,作為主成分分析方法的替代。增量主成分分析用新輸入的數(shù)據(jù)和上一步特征值就實(shí)現(xiàn)更新當(dāng)前的特征值而不用考慮整個(gè)數(shù)據(jù)集。

通過兩個(gè)樣本協(xié)方差矩陣s的前導(dǎo)特征向量可以得出q。其中:

公式中k和nj分別表示:樣本平均值,分類的數(shù)目以及類j中的樣本數(shù)量。因此,我們可以推出以下的結(jié)果表達(dá):

sqi=λiqi,i=1,...m(4)

在該表達(dá)式中,λi是矩陣s第i個(gè)最大特征向量。

在所操作的樣本空間中,的主成分主軸m是解相關(guān)的。關(guān)于主成分分析用來特征提取和降維的想法假設(shè):觀察向量大多數(shù)信息被包含在了兩個(gè)m主軸中被第一個(gè)跨越的子空間中即m<p部分。所以每個(gè)原始數(shù)據(jù)向量在維度m可以被自己的主成分向量表示。提出的方法中,通過對roi使用pca降維訓(xùn)練出一個(gè)主成分模型p(λ,q)。除了pca,這個(gè)模型在全腦的其他區(qū)域都適用。對于roi,可以半自動地對目標(biāo)數(shù)據(jù)選取,采用一個(gè)可以足以包括所有對象的roi的最小邊界矩形去補(bǔ)充選擇的roi并確保其統(tǒng)一的維度。

2)對所有特征(指標(biāo)數(shù)值)進(jìn)行提取,過程如下:

核心是要提供特征選擇算法以自動獲得在整個(gè)大腦之間的控制和患者對象之間可能具有顯著多樣性的重要體素。

在初步處理后,在初步處理后,觀察考慮特征列表中的每個(gè)特征,之后要人工地對特征進(jìn)行挑選移除;設(shè)樣本為x=[x1,...xj,...xn]t,其中每個(gè)樣本xj都有一個(gè)對應(yīng)的分類yj(比如病人樣本取0,正常控制組樣本取1)。

單變量特征選擇通過單變量統(tǒng)計(jì)檢驗(yàn)取選擇最佳特征。

在這個(gè)系統(tǒng)實(shí)驗(yàn)過程中,對獲取樣本數(shù)據(jù)去計(jì)算單因素方差分析中的p值。selectkbest是用來提取數(shù)據(jù)集中最明顯特征的常用技術(shù),經(jīng)常用于去將原始數(shù)據(jù)縮減為包含最大差異量的特征的子集。對每個(gè)樣本都是基于計(jì)算出的k最高值進(jìn)行特征進(jìn)行選擇。對所有的樣本,去計(jì)算病人組與正常控制組在每個(gè)體素間的距離和副本以及將最大k值包括進(jìn)新樣本。新樣本是從原樣本中獲得,因此,它們的y值是被保留的。

3)為所選出的特征選擇最佳分類器模型算法,過程如下:

利用這些指數(shù)和選擇的體素,在這里使用隨機(jī)森林(rf)算法訓(xùn)練高分疾病分類模型。在分類器模型部分中,需要做的是從選擇出的特征中規(guī)劃出一個(gè)預(yù)測函數(shù)f(x)去預(yù)測y。如果考慮到新的特征隊(duì)列和它對應(yīng)的隊(duì)列y,就可以去建立一個(gè)隨機(jī)森林分類器去區(qū)分病人及控制樣本。不過,每個(gè)訓(xùn)練集都是在聚合技術(shù)作用下由獨(dú)立森林樹創(chuàng)建的。

其算法由以下三步實(shí)現(xiàn):

3.1.采用bootstrap抽樣技術(shù)從原始數(shù)據(jù)集中抽取ntree個(gè)訓(xùn)練集,每個(gè)訓(xùn)練集的大小約為原始數(shù)據(jù)集的三分之二。

3.2.為每一個(gè)bootstrap訓(xùn)練集分別建立分類回歸樹(classificationandregressiontree,cart),共產(chǎn)生ntree棵決策樹構(gòu)成一片“森林”。隨機(jī)選擇最優(yōu)屬性進(jìn)行分支(mtry≤m)。

3.3.集合ntree棵決策樹的預(yù)測結(jié)果,采用投票(voting)的方式?jīng)Q定新樣本的類別。

隨機(jī)森林分類器利用基于breiman隨機(jī)森林理論的r語言軟件包randomforest來實(shí)現(xiàn)。需要設(shè)置三個(gè)主要的參數(shù):森林中決策樹的數(shù)量(ntree)、內(nèi)部節(jié)點(diǎn)隨機(jī)選擇屬性的個(gè)數(shù)(mtry)及終節(jié)點(diǎn)的最小樣本數(shù)(nodesize)。

在隨機(jī)森林算法中,特征之間的一個(gè)相對的重要性排名也用在決策點(diǎn),這也可以去評估特征在預(yù)估新目標(biāo)變量中相對重要性。決策樹頂端的特征會被考慮進(jìn)最終的預(yù)測。樣本預(yù)期的部分因此可以被運(yùn)用至特征間相對主次地位的評估。

4)預(yù)測

預(yù)測一個(gè)新樣本通常旨在去獲得分類的信息和概率。對于一個(gè)新樣本,要去量化所有量化指標(biāo)對于獲取測量值矩陣是必要的。之后,增量主成分分析提供了增量更新原始主成分分析的方法去獲得一個(gè)新的增量主成分分析模型。對獲得的該模型,去計(jì)算增量主成分分析特征向量,而測量值矩陣的維度會被降為新的q=[q1,...qm]。這些新測量值將重新排列為x。

在預(yù)測環(huán)節(jié)。隨機(jī)森林算法在訓(xùn)練過程中的每次bootstrap抽樣,將有約三分之一的數(shù)據(jù)未被抽中,這部分?jǐn)?shù)據(jù)被稱為袋外(out-of-bag)數(shù)據(jù)。隨機(jī)森林就是利用這部分?jǐn)?shù)據(jù)進(jìn)行內(nèi)部的誤差估計(jì)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1