專利名稱:Ii型糖尿病發(fā)病概率分層預(yù)測(cè)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種II型糖尿病發(fā)病概率分層預(yù)測(cè)方法,屬于生物信息處理技術(shù)領(lǐng)域。
背景技術(shù):
II型糖尿病是由遺傳因素和環(huán)境因素長(zhǎng)期相互作用而引起的臨床綜合征,可導(dǎo)致心臟、腦血管、腎功能、眼睛下肢等多器官并發(fā)癥發(fā)生,具有很高的致殘率,甚至很多在確診糖尿病之前就已經(jīng)出現(xiàn)了并發(fā)癥。因此,對(duì)于II型糖尿病控制,關(guān)鍵是預(yù)防,即在糖尿病發(fā)生以前通過(guò)生活方式和飲食等干預(yù),從而避免或者延緩糖尿病的發(fā)生,也是目前控制II型糖尿病最有效、最經(jīng)濟(jì)的方法。II型糖尿病發(fā)病概率分層預(yù)測(cè)需要解決2個(gè)基本問(wèn)題:1.如何提取與II型糖尿病發(fā)病緊密相關(guān)的關(guān)鍵屬性,提高發(fā)病概率預(yù)測(cè)的準(zhǔn)確性;2.如何根據(jù)關(guān)鍵屬性合理的預(yù)測(cè)個(gè)體發(fā)病概率。綜觀現(xiàn)有II型糖尿病發(fā)病概率預(yù)測(cè)方法,通常使用的方法有:1.在關(guān)鍵屬性提取方面:根據(jù)算法原理一般分為過(guò)濾法和包裝法,過(guò)濾法一般包括以下方法:(I)Relief方法:該方法是根據(jù)統(tǒng)計(jì)相關(guān)性標(biāo)準(zhǔn)提取關(guān)鍵屬性,根據(jù)特征值的區(qū)分能力來(lái)評(píng)價(jià)特征的相關(guān)度,即關(guān)鍵屬性應(yīng)該使同類的樣本接近,而使不同類的樣本之間遠(yuǎn)離,基本思想是:對(duì)樣本進(jìn)行抽樣,在根據(jù)抽取的樣本與同類、不同類的兩個(gè)最接近樣本的差異計(jì)算相關(guān)度,從而確定每個(gè)屬性的不同權(quán)重。Relief方法選擇的關(guān)鍵屬性相關(guān)性較強(qiáng),且能夠處理離散和連續(xù)屬性,但該方法不能消除冗余屬性,且由于計(jì)算樣本間距離將產(chǎn)生較大的時(shí)間開(kāi)銷,無(wú)法滿足高維數(shù)據(jù)關(guān)鍵屬性提取的時(shí)間性能要求。(2)主成分分析方法:該方法研究各個(gè)屬性之間的相關(guān)關(guān)系,將原來(lái)一組具有一定相關(guān)性的屬性,通過(guò)變換成為一組新的屬性集合作為關(guān)鍵屬性,通過(guò)這種變換達(dá)到用較少的新屬性代替原來(lái)較多屬性的目的,并且使新屬性盡可能多保留原來(lái)較多屬性反映的信息。但是主成分分析法涉及到特征方程等矩陣運(yùn)算,算法的時(shí)間消耗不能滿足高維數(shù)據(jù)關(guān)鍵屬性提取的要求。(3)粗糙集方法:該方法是在保持屬性的分類能力下,不斷篩除冗余屬性從而獲得關(guān)鍵屬性集合。粗糙集方法一般根據(jù)差別矩陣、屬性重要度或JOHNSON約簡(jiǎn)方法,通過(guò)屬性依賴程度的不同消除對(duì)分類結(jié)果影響較低的屬性,達(dá)到提取關(guān)鍵屬性的目的。雖然該方法可以有效地刪除不相關(guān)屬性,但沒(méi)有考慮噪聲數(shù)據(jù)的影響,并且計(jì)算效率低。(4)信息熵方法:該方法主要用于信息理論中分析信息不確定度,也可用作屬性作用度的評(píng)價(jià),即關(guān)鍵屬性提取。其基本思想是根據(jù)計(jì)算信息增益等方法劃分?jǐn)?shù)據(jù),并從新計(jì)算劃分后的數(shù)據(jù)增益,典型方法有ID3和C4.5,但該方法時(shí)間復(fù)雜度高。(5)遺傳算法:該方法將解表示為以二進(jìn)制串編碼的“染色體”,在執(zhí)行算法前,給出假設(shè)解的“染色體”,然后把這些假設(shè)解置于具體問(wèn)題也即“環(huán)境”中,按照一定原則從中選擇出較適應(yīng)環(huán)境的編碼串模擬生物遺傳過(guò)程的復(fù)制、交叉、變異產(chǎn)生更適應(yīng)環(huán)境的新一代。依此進(jìn)化,最后就會(huì)逐漸收斂到最適應(yīng)環(huán)境的一個(gè)編碼串上,也即最優(yōu)解。通過(guò)該過(guò)程即可提取關(guān)鍵屬性。但該方法需要不停迭代計(jì)算,算法時(shí)間復(fù)雜度高,在關(guān)鍵屬性提取中很少應(yīng)用。包裝法:該方法將學(xué)習(xí)算法作為測(cè)試用的黑盒子,利用相關(guān)的學(xué)習(xí)算法對(duì)屬性子集進(jìn)行評(píng)價(jià),其主要思想是用訓(xùn)練數(shù)據(jù)和相應(yīng)的學(xué)習(xí)算法訓(xùn)練一個(gè)分類模型,然后用測(cè)試數(shù)據(jù)來(lái)評(píng)估這個(gè)分類器的分類準(zhǔn)確率,通過(guò)迭代提取關(guān)鍵屬性,同時(shí)能夠發(fā)現(xiàn)比較適合的學(xué)習(xí)算法以及算法的相關(guān)參數(shù)設(shè)定值。包裝法優(yōu)點(diǎn)是對(duì)學(xué)習(xí)算法的支持度高,缺點(diǎn)是該模型需要耗費(fèi)大量的時(shí)間進(jìn)行學(xué)習(xí)和訓(xùn)練,時(shí)間復(fù)雜度高,效率低,不適用于學(xué)習(xí)算法經(jīng)常變動(dòng)的情況。2.在發(fā)病概率預(yù)測(cè)方面:(I)多元回歸多元回歸模型是應(yīng)用較廣泛的一種建模方法,既可以橫斷面資料用于群體水平糖尿病危險(xiǎn)因素的探索,也可以隊(duì)列資料用于個(gè)體水平糖尿病的發(fā)病風(fēng)險(xiǎn)的預(yù)測(cè)上。利用logistic回歸建立糖尿病個(gè)體水平預(yù)測(cè)模型對(duì)資料的要求比較寬松。模型因變量是發(fā)生糖尿病和不發(fā)生糖尿病概率之比的自然對(duì)數(shù),很容易獲得未來(lái)一定時(shí)間發(fā)生糖尿病或者某種并發(fā)癥的概率;自變量可以是分類資料也可以是連續(xù)變量。⑵決策樹(shù)決策樹(shù)模型是對(duì)偶然事件或者按照時(shí)間順序列出所有由此引發(fā)的不同結(jié)果繪制成圖形,由于這個(gè)圖形就像一棵樹(shù)干,故稱為決策樹(shù)。每一個(gè)偶然事件都分配一個(gè)概率,這種概率是靜態(tài)概率,也是決策樹(shù)的缺點(diǎn)所在。所以決策樹(shù)只是一種決策方法,或者說(shuō)是一種建模思路,一般并不單獨(dú)用于模型的建立,而是用其他建模方法,按照決策樹(shù)的思路建立一個(gè)混合模型。⑶Cox比例風(fēng)險(xiǎn)在糖尿病相關(guān)預(yù)測(cè)模型中,Cox比例風(fēng)險(xiǎn)模型應(yīng)用于糖尿病發(fā)病風(fēng)險(xiǎn)評(píng)估,糖尿病并發(fā)癥風(fēng)險(xiǎn)評(píng)估和糖尿病死亡率評(píng)估等。Cox比例風(fēng)險(xiǎn)模型能有效利用結(jié)局變量所經(jīng)歷的時(shí)間信息,可以分析刪失數(shù)據(jù),比較符合隊(duì)列研究的實(shí)際情況。利用Cox比例風(fēng)險(xiǎn)模型獲得相關(guān)變量的RR值后,轉(zhuǎn)化形成危險(xiǎn)評(píng)分,避免了數(shù)學(xué)公式推廣應(yīng)用的局限性,任何一個(gè)人用評(píng)分規(guī)則對(duì)模型變量進(jìn)行評(píng)分,就可以獲得今后若干年的糖尿病發(fā)病概率。無(wú)論是普通居民還是專業(yè)人士均可以輕松做出自己未來(lái)患糖尿病的概率,進(jìn)而采取相應(yīng)措施。在用Cox比例風(fēng)險(xiǎn)模型建立糖尿病發(fā)病概率、糖尿病并發(fā)癥發(fā)病概率或者是成本效益分析時(shí),要求連續(xù)觀察,確定每一觀測(cè)對(duì)象的結(jié)局,并計(jì)算相應(yīng)的人年數(shù),應(yīng)用該法建立模型,對(duì)數(shù)據(jù)要求高,追蹤時(shí)間不宜過(guò)短,成本較高。(4)人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)是20世紀(jì)80年代中期基于大腦和神經(jīng)系統(tǒng)研究而建立的一種計(jì)算模型,由許多并行計(jì)算、功能簡(jiǎn)單的單元按照一定的層次排列組成,具有很強(qiáng)的自組織、自適應(yīng)和容錯(cuò)能力等特征,在處理非線性問(wèn)題上,具有獨(dú)特的優(yōu)越性,廣泛應(yīng)用于糖尿病等慢性病的預(yù)測(cè),但是人工神經(jīng)網(wǎng)絡(luò)建模復(fù)雜,且規(guī)則不易理解。(5)阿基米德預(yù)測(cè)法阿基米德模型是一個(gè)通過(guò)模擬生物器官來(lái)對(duì)“人”進(jìn)行模擬。人的模型是利用一組方程,可以表征人類的所有相關(guān)的生理系統(tǒng)活動(dòng);并且阿基米德模型還可以模擬個(gè)體生理、疾病、干預(yù)和衛(wèi)生保健,它用一組方程去描述疾病和相關(guān)并發(fā)癥的生理工作方式。阿基米德模型可以預(yù)測(cè)糖尿病、冠心病、心肌收縮等13種疾病的發(fā)病概率,并且經(jīng)過(guò)驗(yàn)證,達(dá)到很好的預(yù)測(cè)效果。阿基米德模型與其他預(yù)測(cè)模型的不同之處:1)它是一個(gè)針對(duì)個(gè)體的模擬方法,而不是所有的人用同一個(gè)模型;2)它需要很多的生物細(xì)節(jié),包括:治療過(guò)程、資源和治療開(kāi)銷等;3)它在時(shí)間上面是連續(xù)的,而不是離散化的;4)它能模擬很多的疾病,包括II型糖尿病和它的并發(fā)癥。雖然阿基米德模型可以預(yù)測(cè)多年以后糖尿病的發(fā)病概率,但是需要大量的臨床數(shù)據(jù)去建立模型。在公開(kāi)的21個(gè)方程中涉及的變量就超過(guò)30個(gè),并且許多變量都是領(lǐng)域性比較強(qiáng)的屬性,一般人很難獲取。由于醫(yī)學(xué)數(shù)據(jù)中同一個(gè)人長(zhǎng)期的跟蹤數(shù)據(jù)是比較少的,如果能夠根據(jù)小數(shù)據(jù)集的跟蹤數(shù)據(jù)就可以預(yù)測(cè)多年的糖尿病發(fā)病概率,則對(duì)糖尿病的干預(yù)和控制有重要實(shí)際應(yīng)用價(jià)值。糖尿病相關(guān)預(yù)測(cè)模型的建立方法較多,除了上述幾種主要方法外,也有人用可加模型、Gompertzm模型和模糊模型建立了糖尿病、糖尿病并發(fā)癥發(fā)生概率的預(yù)測(cè)模型。甚至在缺乏隊(duì)列數(shù)據(jù)的情況下有人采用文獻(xiàn)查閱和專家經(jīng)驗(yàn)相結(jié)合,根據(jù)哈佛癌癥風(fēng)險(xiǎn)評(píng)估方
法建立。綜上所述,對(duì)于II型糖尿病的預(yù)測(cè)這一應(yīng)用場(chǎng)景,現(xiàn)有的預(yù)測(cè)方法都是將人群初始時(shí)刻視為相同健康狀況,但是不同人群初始風(fēng)險(xiǎn)等級(jí)是不同的。而且現(xiàn)有預(yù)測(cè)技術(shù)的預(yù)測(cè)準(zhǔn)確率不夠理想,模型過(guò)于復(fù)雜,解釋性較差。
發(fā)明內(nèi)容
本發(fā)明的目的是解決預(yù)測(cè)個(gè)體和人群N年以后II型糖尿病發(fā)病概率的問(wèn)題,提出一種基于馬爾科夫鏈的II型糖尿病發(fā)病概率分層預(yù)測(cè)方法。本發(fā)明的設(shè)計(jì)原理為根據(jù)II型糖尿病風(fēng)險(xiǎn)等級(jí)判定標(biāo)準(zhǔn),將人群分層處理;再對(duì)不同風(fēng)險(xiǎn)等級(jí)人群采用包裝法進(jìn)行屬性選擇,選擇出與II型糖尿病發(fā)病密切相關(guān)的8維發(fā)病危險(xiǎn)屬性;然后利用樸素貝葉斯算法,根據(jù)8維發(fā)病危險(xiǎn)屬性計(jì)算出個(gè)體初始發(fā)病概率;個(gè)體初始發(fā)病概率與單步轉(zhuǎn)移矩陣構(gòu)建馬爾可夫鏈,從而建立針對(duì)不同風(fēng)險(xiǎn)等級(jí)人群的II型糖尿病發(fā)病概率預(yù)測(cè)系統(tǒng)。本發(fā)明在進(jìn)一步提升II型糖尿病發(fā)病概率預(yù)測(cè)準(zhǔn)確率的同時(shí),可以根據(jù)不同個(gè)體輸入的數(shù)據(jù)選擇對(duì)應(yīng)風(fēng)險(xiǎn)等級(jí)的預(yù)測(cè)模型,預(yù)測(cè)N年內(nèi)的發(fā)病概率。本發(fā)明的技術(shù)方案是通過(guò)如下步驟實(shí)現(xiàn)的:步驟1,發(fā)病風(fēng)險(xiǎn)狀態(tài)判定。具體方法如下:為了實(shí)現(xiàn)對(duì)未患病人群S進(jìn)行發(fā)病概率預(yù)測(cè),本發(fā)明首先對(duì)未患II型糖尿病的人群進(jìn)行發(fā)病風(fēng)險(xiǎn)狀態(tài)的判定,將人群劃分為無(wú)風(fēng)險(xiǎn)、低中風(fēng)險(xiǎn)、和高風(fēng)險(xiǎn)3個(gè)風(fēng)險(xiǎn)等級(jí)。并且無(wú)風(fēng)險(xiǎn)、低中風(fēng)險(xiǎn)和高風(fēng)險(xiǎn)作為數(shù)據(jù)的分類的類別變量,在本文中分別使用0,I和2表
/Jn ο步驟2,在步驟I的基礎(chǔ)上,求解初始狀態(tài)向量。具體過(guò)程如下:步驟2.1,首先對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行屬性選擇,具體方法為:輸入經(jīng)過(guò)RSD處理以后的數(shù)據(jù),運(yùn)用包裝法作為屬性選擇算法,采用樸素貝葉斯算法作為包裝法中的學(xué)習(xí)算法,選擇出N維關(guān)鍵屬性。步驟2.2,在步驟2.1的基礎(chǔ)上,將屬性選擇輸出的N維屬性作為求解初始狀態(tài)向量的輸入,采用樸素貝葉斯算法,求解初始狀態(tài)向量。基于樸素貝葉斯求解初始狀態(tài)向量的具體方法為:首先設(shè)初始狀態(tài)空間為:0,1,2分別代表無(wú)風(fēng)險(xiǎn)、低中風(fēng)險(xiǎn)和高風(fēng)險(xiǎn)狀態(tài)。步驟2.2.1,計(jì)算先驗(yàn)概率
權(quán)利要求
1.一種II型糖尿病發(fā)概率分層預(yù)測(cè)方法,其特征在于,包括如下步驟: 步驟1,將N個(gè)被評(píng)估對(duì)象作為樣本集S,其中每個(gè)對(duì)象包含M個(gè)影響2型糖尿病發(fā)病的關(guān)鍵屬性;將關(guān)鍵屬性作為列,不同樣本對(duì)應(yīng)的屬性值作為行,建立樣本集S的矩陣表示[s(a+c)b];采用包裝法中樸素貝葉斯學(xué)習(xí)算法對(duì)樣本集進(jìn)行屬性選擇,選擇出影響II型糖尿病發(fā)病的J維屬性。
步驟2,求解初始狀態(tài)向量。具體過(guò)程如下: 步驟2.1,利用風(fēng)險(xiǎn)狀態(tài)判定系統(tǒng)對(duì)人群進(jìn)行風(fēng)險(xiǎn)狀態(tài)判定,判定為無(wú)風(fēng)險(xiǎn)、低風(fēng)險(xiǎn)、中風(fēng)險(xiǎn)或高風(fēng)險(xiǎn)4個(gè)風(fēng)險(xiǎn)等級(jí)中的一種。基于模型復(fù)雜程度的考慮,將低風(fēng)險(xiǎn)和中風(fēng)險(xiǎn)人群合并,統(tǒng)稱為低中風(fēng)險(xiǎn)人群,并且無(wú)風(fēng)險(xiǎn)、低中風(fēng)險(xiǎn)和高風(fēng)險(xiǎn)作為數(shù)據(jù)的分類的類別變量,在本文中分別使用類別Ci(0、1、2)表示。
步驟2.2,在步驟2.1的基礎(chǔ)上,將屬性選擇輸出的J維屬性作為求解初始狀態(tài)向量的輸入,基于樸素貝葉斯算法,求解初始狀態(tài)向量。具體方法為: 步驟2.2.1,計(jì)算先驗(yàn)概率
2.根據(jù)權(quán)利要求1所述的II型糖尿病發(fā)病概率分層預(yù)測(cè)方法,其特征在于:步驟2.2.4,計(jì)算初始狀態(tài)向量P (Ci IX)。
樸素貝葉斯分類算法,把記錄X分到它所作用總的程度最大的類別中去。也就是分到P(CiIX)最大的類別Ci中去。具體計(jì)算公式如下所示:
3.根據(jù)權(quán)利要求1所述的II型糖尿病發(fā)病概率分層預(yù)測(cè)方法,其特征在于:步驟3,求解一步狀態(tài)轉(zhuǎn)移矩陣。
認(rèn)為馬爾科夫鏈中的一個(gè)吸收態(tài)。結(jié)合算法原理和狀態(tài)轉(zhuǎn)移兩部分的介紹,我們可以得到以下結(jié)論,經(jīng)過(guò)風(fēng)險(xiǎn)狀態(tài)判定以后經(jīng)過(guò)統(tǒng)計(jì)分析可以得到各個(gè)風(fēng)險(xiǎn)等級(jí)的m步轉(zhuǎn)移矩陣如下式所示:
4.根據(jù)權(quán)利要求1所述的II型糖尿病發(fā)病概率分層預(yù)測(cè)方法,其特征在于:在步驟2和3的基礎(chǔ)上,即在已知初始狀態(tài)向量和一步狀態(tài)轉(zhuǎn)移矩陣的情況下構(gòu)建馬爾科夫鏈?zhǔn)剑錁?gòu)建的公式如下式所示。Pn = P0XQn 式中,Ptl是初始狀態(tài)向量,Q是一步狀態(tài)轉(zhuǎn)移矩陣,η表示轉(zhuǎn)移的次數(shù)。
全文摘要
本發(fā)明涉及一種II型糖尿病發(fā)病概率分層預(yù)測(cè)方法,屬于生物信息處理技術(shù)領(lǐng)域。本發(fā)明首先對(duì)Ⅱ型糖尿病人群進(jìn)行風(fēng)險(xiǎn)等級(jí)判定,然后對(duì)不同風(fēng)險(xiǎn)等級(jí)人群采用包裝法進(jìn)行屬性選擇,選擇出關(guān)鍵發(fā)病危險(xiǎn)屬性;然后利用樸素貝葉斯算法,計(jì)算出個(gè)體初始發(fā)病概率;個(gè)體初始發(fā)病概率與單步轉(zhuǎn)移矩陣構(gòu)建馬爾可夫鏈,從而建立針對(duì)不同風(fēng)險(xiǎn)等級(jí)人群的Ⅱ型糖尿病發(fā)病概率預(yù)測(cè)系統(tǒng)。與現(xiàn)有技術(shù)相比,本發(fā)明在進(jìn)一步提升II型糖尿病發(fā)病概率預(yù)測(cè)準(zhǔn)確率的同時(shí),可以根據(jù)不同個(gè)體輸入的數(shù)據(jù)選擇對(duì)應(yīng)風(fēng)險(xiǎn)等級(jí)的預(yù)測(cè)模型,預(yù)測(cè)多年內(nèi)的發(fā)病概率,處理速度快。能夠達(dá)到對(duì)Ⅱ型糖尿病早發(fā)現(xiàn)、早重視、提前干預(yù),降低(或延緩)Ⅱ型糖尿病發(fā)生的目的。
文檔編號(hào)G06Q10/04GK103150611SQ20131007385
公開(kāi)日2013年6月12日 申請(qǐng)日期2013年3月8日 優(yōu)先權(quán)日2013年3月8日
發(fā)明者羅森林, 趙海秀, 潘麗敏, 郭偉東, 張鐵梅 申請(qǐng)人:北京理工大學(xué)