一種用于神經(jīng)疾病的基于體素分析的數(shù)據(jù)驅(qū)動機(jī)器學(xué)習(xí)方法與流程

文檔序號：11677860閱讀：294來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及計(jì)算機(jī)圖形學(xué)下的醫(yī)學(xué)成像、神經(jīng)解剖學(xué)領(lǐng)域，是一種針對大腦神經(jīng)疾病的，基于體素分析的數(shù)據(jù)驅(qū)動機(jī)器學(xué)習(xí)方法。

背景技術(shù)：

定量擴(kuò)散張量成像(dti)用于纖維建模，是十分有效的臨床應(yīng)用工具，用于評估損傷的程度和定位神經(jīng)疾病。但是缺乏不足的分辨率限制了dti探測更復(fù)雜的微結(jié)構(gòu)信息。現(xiàn)有的神經(jīng)疾病方法通常用于驗(yàn)證疾病的臨床猜測，并且難以預(yù)測和積極測量涉及這些疾病的腦區(qū)。找出有效的區(qū)分分類疾病方法是解決問題的關(guān)鍵。

技術(shù)實(shí)現(xiàn)要素：

為了克服現(xiàn)有基于dti的纖維量化指標(biāo)一直存在著低精度以及判斷結(jié)果與疾病臨床表現(xiàn)不一致等問題的不足，針對以上兩個(gè)限制，基于hardi技術(shù)的神經(jīng)系統(tǒng)疾病，本發(fā)明提供了一種精度較高的基于體素分析的數(shù)據(jù)驅(qū)動機(jī)器學(xué)習(xí)方法，其中提出了數(shù)據(jù)驅(qū)動的機(jī)器學(xué)習(xí)方法來分析和預(yù)測神經(jīng)系統(tǒng)疾病。

本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是：

一種用于神經(jīng)疾病的基于體素分析的數(shù)據(jù)驅(qū)動機(jī)器學(xué)習(xí)方法，包括如下步驟：

1)根據(jù)對腦區(qū)指標(biāo)的定量測量值進(jìn)行主成分分析pca模型訓(xùn)練，過程如下：

獲得的量化數(shù)據(jù)組表示為：

其中，n代表總的樣本數(shù)量；代表每個(gè)樣本體素的量化指標(biāo)值。

降維后的數(shù)據(jù)q在維度m下被表示為：

其中，維度滿足1≤m≤p的部分表示的意思是保留方差為投影空間最大值的正交軸，增量主成分分析用新輸入的數(shù)據(jù)和上一步特征值更新當(dāng)前的特征值；

通過兩個(gè)樣本協(xié)方差矩陣s的前導(dǎo)特征向量得出q，其中：

公式中k和nj分別表示樣本平均值、分類的數(shù)目以及類j中的樣本數(shù)量；因此，推出以下的結(jié)果表達(dá)：

sqi＝λiqi,i＝1,...m(4)

在該表達(dá)式中，λi是矩陣s第i個(gè)最大特征向量；

在所操作的樣本空間中，的主成分主軸m是解相關(guān)的；

2)對所有特征進(jìn)行提取，過程如下：

在初步處理后，在初步處理后，觀察考慮特征列表中的每個(gè)特征，之后要人工地對特征進(jìn)行挑選移除；設(shè)樣本為x＝[x1,...xj,...xn]^t，其中每個(gè)樣本xj都有一個(gè)對應(yīng)的分類yj；

單變量特征選擇通過單變量統(tǒng)計(jì)檢驗(yàn)取選擇最佳特征；

對獲取樣本數(shù)據(jù)去計(jì)算單因素方差分析中的p值，對每個(gè)樣本都是基于計(jì)算出的k最高值進(jìn)行特征進(jìn)行選擇；對所有的樣本，去計(jì)算病人組與正?？刂平M在每個(gè)體素間的距離和副本以及將最大k值包括進(jìn)新樣本；新樣本是從原樣本中獲得，它們的y值是被保留的；

3)為所選出的特征選擇最佳分類器模型算法，過程如下：

利用這些指數(shù)和選擇的體素，在這里使用隨機(jī)森林rf算法訓(xùn)練高分疾病分類模型；在分類器模型部分中，需要做的是從選擇出的特征中規(guī)劃出一個(gè)預(yù)測函數(shù)f(x)去預(yù)測y；如果考慮到新的特征隊(duì)列和它對應(yīng)的隊(duì)列y，就可以去建立一個(gè)隨機(jī)森林分類器去區(qū)分病人及控制樣本；每個(gè)訓(xùn)練集都是在聚合技術(shù)作用下由獨(dú)立森林樹創(chuàng)建的；由以下三步實(shí)現(xiàn)：

3.1.采用bootstrap抽樣技術(shù)從原始數(shù)據(jù)集中抽取ntree個(gè)訓(xùn)練集，每個(gè)訓(xùn)練集的大小為原始數(shù)據(jù)集的三分之二；

3.2.為每一個(gè)bootstrap訓(xùn)練集分別建立分類回歸樹cart，共產(chǎn)生ntree棵決策樹構(gòu)成一片“森林”，隨機(jī)選擇最優(yōu)屬性進(jìn)行分支，mtry≤m；

3.3.集合ntree棵決策樹的預(yù)測結(jié)果，采用投票的方式?jīng)Q定新樣本的類別；

隨機(jī)森林分類器設(shè)置三個(gè)參數(shù)：森林中決策樹的數(shù)量ntree、內(nèi)部節(jié)點(diǎn)隨機(jī)選擇屬性的個(gè)數(shù)mtry及終節(jié)點(diǎn)的最小樣本數(shù)nodesize；

4)預(yù)測

對于一個(gè)新樣本，要去量化所有量化指標(biāo)對于獲取測量值矩陣之后，增量主成分分析提供了增量更新原始主成分分析的方法去獲得一個(gè)新的增量主成分分析模型；對獲得的該模型，去計(jì)算增量主成分分析特征向量，而測量值矩陣的維度會被降為新的q＝[q¹,...q^m]；這些新測量值將重新排列為x。

進(jìn)一步，所述步驟4)中，在預(yù)測環(huán)節(jié)，隨機(jī)森林算法在訓(xùn)練過程中的每次bootstrap抽樣，將有三分之一的數(shù)據(jù)未被抽中，這部分?jǐn)?shù)據(jù)被稱為袋外數(shù)據(jù)，隨機(jī)森林算法就是利用這部分?jǐn)?shù)據(jù)進(jìn)行內(nèi)部的誤差估計(jì)。

本發(fā)明的目標(biāo)是找到一個(gè)數(shù)據(jù)驅(qū)動的方法，積極測量與神經(jīng)系統(tǒng)疾病相關(guān)的腦區(qū)，然后根據(jù)這些區(qū)域的特點(diǎn)預(yù)測新的樣本。同時(shí)，該方法可以根據(jù)不同的疾病特征自動選擇合適的定量測量指標(biāo)。與單一成像技術(shù)(dti)相比，多種技術(shù)(dti，hardi)的混合可以提取更多的功能，有助于剖析特定的疾病病理可能更準(zhǔn)確。

本發(fā)明的有益效果主要表現(xiàn)在：精度較高。

具體實(shí)施方式

下面對本發(fā)明作進(jìn)一步描述。

一種用于神經(jīng)疾病的基于體素分析的數(shù)據(jù)驅(qū)動機(jī)器學(xué)習(xí)方法，包括如下步驟：

1)根據(jù)對腦區(qū)指標(biāo)的定量測量值進(jìn)行主成分分析(pca)模型訓(xùn)練，過程如下：

該步驟其實(shí)就是使用pca方法提取基于hardi成像算法的合成指數(shù)。

獲得的量化數(shù)據(jù)組可以表示為：

其中，n代表總的樣本數(shù)量；代表每個(gè)樣本體素的量化指標(biāo)值。

降維后的數(shù)據(jù)q在維度m下可以被表示為：

在這個(gè)公式中，其中滿足1≤m≤p的部分表示的意思是保留方差為投影空間最大值的正交軸。在這里選用增量主成分分析(ipca)去彌補(bǔ)當(dāng)要分解的數(shù)據(jù)集過大而不能適應(yīng)存儲器的問題，作為主成分分析方法的替代。增量主成分分析用新輸入的數(shù)據(jù)和上一步特征值就實(shí)現(xiàn)更新當(dāng)前的特征值而不用考慮整個(gè)數(shù)據(jù)集。

通過兩個(gè)樣本協(xié)方差矩陣s的前導(dǎo)特征向量可以得出q。其中：

公式中k和nj分別表示：樣本平均值，分類的數(shù)目以及類j中的樣本數(shù)量。因此，我們可以推出以下的結(jié)果表達(dá)：

sqi＝λiqi,i＝1,...m(4)

在該表達(dá)式中，λi是矩陣s第i個(gè)最大特征向量。

在所操作的樣本空間中，的主成分主軸m是解相關(guān)的。關(guān)于主成分分析用來特征提取和降維的想法假設(shè)：觀察向量大多數(shù)信息被包含在了兩個(gè)m主軸中被第一個(gè)跨越的子空間中即m＜p部分。所以每個(gè)原始數(shù)據(jù)向量在維度m可以被自己的主成分向量表示。提出的方法中，通過對roi使用pca降維訓(xùn)練出一個(gè)主成分模型p(λ,q)。除了pca，這個(gè)模型在全腦的其他區(qū)域都適用。對于roi，可以半自動地對目標(biāo)數(shù)據(jù)選取，采用一個(gè)可以足以包括所有對象的roi的最小邊界矩形去補(bǔ)充選擇的roi并確保其統(tǒng)一的維度。

2)對所有特征(指標(biāo)數(shù)值)進(jìn)行提取，過程如下：

核心是要提供特征選擇算法以自動獲得在整個(gè)大腦之間的控制和患者對象之間可能具有顯著多樣性的重要體素。

在初步處理后，在初步處理后，觀察考慮特征列表中的每個(gè)特征，之后要人工地對特征進(jìn)行挑選移除；設(shè)樣本為x＝[x1,...xj,...xn]^t，其中每個(gè)樣本xj都有一個(gè)對應(yīng)的分類yj(比如病人樣本取0，正常控制組樣本取1)。

單變量特征選擇通過單變量統(tǒng)計(jì)檢驗(yàn)取選擇最佳特征。

在這個(gè)系統(tǒng)實(shí)驗(yàn)過程中，對獲取樣本數(shù)據(jù)去計(jì)算單因素方差分析中的p值。selectkbest是用來提取數(shù)據(jù)集中最明顯特征的常用技術(shù)，經(jīng)常用于去將原始數(shù)據(jù)縮減為包含最大差異量的特征的子集。對每個(gè)樣本都是基于計(jì)算出的k最高值進(jìn)行特征進(jìn)行選擇。對所有的樣本，去計(jì)算病人組與正常控制組在每個(gè)體素間的距離和副本以及將最大k值包括進(jìn)新樣本。新樣本是從原樣本中獲得，因此，它們的y值是被保留的。

3)為所選出的特征選擇最佳分類器模型算法，過程如下：

利用這些指數(shù)和選擇的體素，在這里使用隨機(jī)森林(rf)算法訓(xùn)練高分疾病分類模型。在分類器模型部分中，需要做的是從選擇出的特征中規(guī)劃出一個(gè)預(yù)測函數(shù)f(x)去預(yù)測y。如果考慮到新的特征隊(duì)列和它對應(yīng)的隊(duì)列y，就可以去建立一個(gè)隨機(jī)森林分類器去區(qū)分病人及控制樣本。不過，每個(gè)訓(xùn)練集都是在聚合技術(shù)作用下由獨(dú)立森林樹創(chuàng)建的。

其算法由以下三步實(shí)現(xiàn)：

3.1.采用bootstrap抽樣技術(shù)從原始數(shù)據(jù)集中抽取ntree個(gè)訓(xùn)練集，每個(gè)訓(xùn)練集的大小約為原始數(shù)據(jù)集的三分之二。

3.2.為每一個(gè)bootstrap訓(xùn)練集分別建立分類回歸樹(classificationandregressiontree，cart)，共產(chǎn)生ntree棵決策樹構(gòu)成一片“森林”。隨機(jī)選擇最優(yōu)屬性進(jìn)行分支(mtry≤m)。

3.3.集合ntree棵決策樹的預(yù)測結(jié)果，采用投票(voting)的方式?jīng)Q定新樣本的類別。

隨機(jī)森林分類器利用基于breiman隨機(jī)森林理論的r語言軟件包randomforest來實(shí)現(xiàn)。需要設(shè)置三個(gè)主要的參數(shù)：森林中決策樹的數(shù)量(ntree)、內(nèi)部節(jié)點(diǎn)隨機(jī)選擇屬性的個(gè)數(shù)(mtry)及終節(jié)點(diǎn)的最小樣本數(shù)(nodesize)。

在隨機(jī)森林算法中，特征之間的一個(gè)相對的重要性排名也用在決策點(diǎn)，這也可以去評估特征在預(yù)估新目標(biāo)變量中相對重要性。決策樹頂端的特征會被考慮進(jìn)最終的預(yù)測。樣本預(yù)期的部分因此可以被運(yùn)用至特征間相對主次地位的評估。

4)預(yù)測

預(yù)測一個(gè)新樣本通常旨在去獲得分類的信息和概率。對于一個(gè)新樣本，要去量化所有量化指標(biāo)對于獲取測量值矩陣是必要的。之后，增量主成分分析提供了增量更新原始主成分分析的方法去獲得一個(gè)新的增量主成分分析模型。對獲得的該模型，去計(jì)算增量主成分分析特征向量，而測量值矩陣的維度會被降為新的q＝[q¹,...q^m]。這些新測量值將重新排列為x。

在預(yù)測環(huán)節(jié)。隨機(jī)森林算法在訓(xùn)練過程中的每次bootstrap抽樣，將有約三分之一的數(shù)據(jù)未被抽中，這部分?jǐn)?shù)據(jù)被稱為袋外(out-of-bag)數(shù)據(jù)。隨機(jī)森林就是利用這部分?jǐn)?shù)據(jù)進(jìn)行內(nèi)部的誤差估計(jì)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：馮遠(yuǎn)靜;周思琪;金麗玲;何建忠;曾慶潤;吳燁
技術(shù)所有人：浙江工業(yè)大學(xué)
我是此專利的發(fā)明人

上一篇：一種臥式整列卸料裝置的制造方法
上一篇：一種用于煙氣脫硝的條形鐵基分子篩催化劑及其制備方法與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種用于神經(jīng)疾病的基于體素分析的數(shù)據(jù)驅(qū)動機(jī)器學(xué)習(xí)方法與流程