本發(fā)明涉及一種智慧醫(yī)療領(lǐng)域,具體地,涉及一種心腦血管疾病風(fēng)險(xiǎn)預(yù)測(cè)方法及系統(tǒng)。
背景技術(shù):
心腦血管疾病泛指由于高脂血癥、血液黏稠、動(dòng)脈粥樣硬化、高血壓等所導(dǎo)致的心臟、大腦及全身組織發(fā)生的缺血性或出血性疾病,是心臟血管和腦血管疾病的統(tǒng)稱。心腦血管疾病是一種嚴(yán)重威脅人類,特別是50歲以上中老年人健康的常見(jiàn)病,具有高患病率、高致殘率和高死亡率的特點(diǎn),即使應(yīng)用目前最先進(jìn)、完善的治療手段,仍有50%以上的心腦血管疾病幸存者生活不能完全自理,全世界每年死于心腦血管疾病的人數(shù)高達(dá)1500萬(wàn)人,居各種死因首位。
預(yù)后預(yù)測(cè)是指預(yù)測(cè)疾病的可能病程和結(jié)局。它既包括判斷疾病的特定后果,也包括提供時(shí)間線索,如預(yù)測(cè)某段時(shí)間內(nèi)發(fā)生某種結(jié)局的可能性。早發(fā)現(xiàn)、早診斷、早治療是改善預(yù)后的前提。心腦血管疾病患者的良好預(yù)后是患者生活質(zhì)量的保障,也是醫(yī)患雙方進(jìn)行康復(fù)治療的首要目標(biāo)。精準(zhǔn)醫(yī)療的一個(gè)目標(biāo)是能對(duì)心腦血管疾病患者的預(yù)后有準(zhǔn)確的預(yù)測(cè),從而能針對(duì)性地對(duì)康復(fù)項(xiàng)目進(jìn)行調(diào)整,達(dá)到康復(fù)速度快,康復(fù)效果好的目標(biāo)。
隨著醫(yī)療信息化的發(fā)展,醫(yī)院積累了大量的健康醫(yī)療數(shù)據(jù)。如何更好的利用這些數(shù)據(jù)以及醫(yī)學(xué)知識(shí),通過(guò)認(rèn)知計(jì)算技術(shù),提供精準(zhǔn)醫(yī)療的決策是醫(yī)院現(xiàn)階段所需要的。認(rèn)知計(jì)算有助于彌合數(shù)據(jù)量和數(shù)據(jù)洞察力之間的差距,幫助臨床醫(yī)生發(fā)掘數(shù)據(jù)中隱藏的洞察力。基于這些發(fā)掘的洞察力,認(rèn)知模型可提供基于證據(jù)的選項(xiàng),進(jìn)而幫助決策并減少人為偏差,有助于醫(yī)療專業(yè)人員做出更加明智、及時(shí)的決策。
到目前為止,認(rèn)知計(jì)算技術(shù)在中國(guó)人群心腦血管疾病預(yù)后風(fēng)險(xiǎn)預(yù)測(cè)方面尚屬空白。而國(guó)外認(rèn)知計(jì)算技術(shù)雖然已有成功應(yīng)用案例,但主要解決的是腫瘤等疾病診斷領(lǐng)域,在心腦血管疾病的預(yù)后風(fēng)險(xiǎn)預(yù)測(cè)方面還尚未見(jiàn)有報(bào)道。鑒于國(guó)內(nèi)外沒(méi)有可用于預(yù)測(cè)心腦血管疾病預(yù)后風(fēng)險(xiǎn)的智能模型,很有必要建立一種預(yù)測(cè)準(zhǔn)確度高、適用于臨床醫(yī)生應(yīng)用的心腦血管疾病預(yù)后風(fēng)險(xiǎn)預(yù)測(cè)模型。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)現(xiàn)有技術(shù)中的缺陷,本發(fā)明的目的是提供一種心腦血管疾病風(fēng)險(xiǎn)預(yù)測(cè)方法及系統(tǒng),其建立適合中國(guó)人群的心腦血管疾病預(yù)后風(fēng)險(xiǎn)預(yù)測(cè)模型,臨床醫(yī)生輸入模型需要的患者健康醫(yī)療數(shù)據(jù),通過(guò)模型得到患者未來(lái)某個(gè)時(shí)間段的預(yù)測(cè)康復(fù)結(jié)局,能夠很好的進(jìn)行預(yù)后風(fēng)險(xiǎn)預(yù)測(cè),提前針對(duì)不同風(fēng)險(xiǎn)等級(jí)的患者人群進(jìn)行康復(fù)訓(xùn)練方面的干預(yù),從而實(shí)現(xiàn)個(gè)性化的精準(zhǔn)康復(fù)治療。
根據(jù)本發(fā)明的一個(gè)方面,提供一種心腦血管疾病風(fēng)險(xiǎn)預(yù)測(cè)方法,其特征在于,其包括以下步驟:
步驟一,問(wèn)題定義,心腦血管疾病患者預(yù)后風(fēng)險(xiǎn)預(yù)測(cè)問(wèn)題包括分析的目標(biāo)人群、關(guān)心的預(yù)后結(jié)局、人群數(shù)據(jù)采集的觀察窗口及預(yù)測(cè)時(shí)間窗口;
步驟二,數(shù)據(jù)采集,針對(duì)目標(biāo)人群,從相關(guān)信息系統(tǒng)收集觀察期窗口內(nèi)的心腦血管疾病患者的醫(yī)療健康數(shù)據(jù)及預(yù)后結(jié)局?jǐn)?shù)據(jù);
步驟三,數(shù)據(jù)預(yù)處理,數(shù)據(jù)質(zhì)量的好壞直接影響模型的預(yù)測(cè)效果,數(shù)據(jù)預(yù)處理針對(duì)數(shù)據(jù)集進(jìn)行一系列的集成、清洗和缺失數(shù)據(jù)的處理,從而提高數(shù)據(jù)質(zhì)量,采集的數(shù)據(jù)類型多種多樣,其中包括選擇項(xiàng)、日期時(shí)間、數(shù)值型、字符型以及是否型數(shù)據(jù),不同數(shù)據(jù)類型使得數(shù)據(jù)預(yù)處理更加有挑戰(zhàn)性,針對(duì)不同數(shù)據(jù)類型需要采取不同處理方法進(jìn)行針對(duì)性數(shù)據(jù)預(yù)處理;
步驟四,特征工程,基于經(jīng)過(guò)清洗的病人住院記錄、健康狀況特征所形成一系列觀測(cè)向量,主要工作包括基于各種數(shù)據(jù)類型生成原始輸入特征,數(shù)據(jù)類型的轉(zhuǎn)換,并基于領(lǐng)域知識(shí)及歷史數(shù)據(jù)生成新的輸入特征;
步驟五,模型構(gòu)建與評(píng)估,在眾多的機(jī)器學(xué)習(xí)算法中,隨機(jī)森林是一種利用多個(gè)分類樹(shù)對(duì)數(shù)據(jù)進(jìn)行判別與分類的方法,隨機(jī)森林算法處理高維特征,同時(shí)還給出各個(gè)變量的重要性評(píng)分,評(píng)估各個(gè)變量在分類中所起的作用且易于實(shí)現(xiàn)并行化,利用選定的人群和輸入特征及已知的康復(fù)結(jié)局,構(gòu)建了隨機(jī)森林預(yù)測(cè)模型。最后,使用ROC曲線和AUC值對(duì)模型的預(yù)測(cè)效果進(jìn)行評(píng)估。
優(yōu)選地,所述步驟二中數(shù)據(jù)采集所需要采集的數(shù)據(jù)包括:康復(fù)科門診數(shù)據(jù)、康復(fù)科治療室數(shù)據(jù)、神內(nèi)/神外門診數(shù)據(jù)、神內(nèi)/神外住院數(shù)據(jù)、康復(fù)科住院數(shù)據(jù)、腦卒中篩查門診數(shù)據(jù),這些數(shù)據(jù)涉及的內(nèi)容涵蓋有患者基本信息、病歷或電子病歷、檢測(cè)檢驗(yàn)、影像、診斷、處方、治療、評(píng)估表數(shù)據(jù)。
優(yōu)選地,所述步驟三具體包括以下步驟:
步驟三十一,數(shù)據(jù)集成,把不同來(lái)源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)整合到一起,從而為之后的分析和模型訓(xùn)練提供全面的數(shù)據(jù),只需把不同來(lái)源的數(shù)據(jù)按照一定聯(lián)系規(guī)則整合到一起,根據(jù)病人ID號(hào)把不同數(shù)據(jù)源但有同樣ID號(hào)的信息連接在一起,這樣所有來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)就被整合到了一起;
步驟三十二,數(shù)據(jù)清洗,數(shù)據(jù)清洗的任務(wù)是通過(guò)各種措施從準(zhǔn)確性、一致性、無(wú)冗余性角度清洗原始數(shù)據(jù)以提高數(shù)據(jù)質(zhì)量,方便下一步缺失數(shù)據(jù)處理的操作;
步驟三十三,缺失值處理,是對(duì)數(shù)據(jù)集中所缺失的數(shù)據(jù)進(jìn)行填充。
優(yōu)選地,所述步驟五中具體包括以下步驟:
步驟五十一,原始訓(xùn)練數(shù)據(jù)集中的樣本數(shù)為N(N是>1的正整數(shù)),應(yīng)用bootstrap采樣法有放回地隨機(jī)抽取K個(gè)新的自助樣本集,并由此構(gòu)建K棵分類樹(shù),每次未被抽到的樣本組成了K個(gè)袋外數(shù)據(jù);其中K(K是>1的正整數(shù))為模型參數(shù),根據(jù)模型性能進(jìn)行選擇。
步驟五十二,設(shè)有mall(mall是>1的正整數(shù))個(gè)變量,則在每一棵樹(shù)的每個(gè)節(jié)點(diǎn)處隨機(jī)抽取mtry(mtry是>1的正整數(shù))個(gè)變量,然后在mtry中選擇一個(gè)最具有分類能力的變量,變量分類的閾值通過(guò)檢查每一個(gè)分類點(diǎn)確定;
步驟五十三,每棵樹(shù)最大限度地生長(zhǎng),不做任何修剪;
步驟五十四,將生成的多棵分類樹(shù)組成隨機(jī)森林,用隨機(jī)森林分類器對(duì)新的數(shù)據(jù)進(jìn)行判別與分類,分類結(jié)果按樹(shù)分類器的投票多少而定;
另外,模型的性能需要有標(biāo)準(zhǔn)的準(zhǔn)則進(jìn)行評(píng)估,進(jìn)而指導(dǎo)我們調(diào)整參數(shù),提高模型的性能,通過(guò)交叉驗(yàn)證技術(shù)驗(yàn)證模型的預(yù)測(cè)性能,并使用AUC(ROC曲線下面積)值作為性能評(píng)估指標(biāo),在ROC曲線中,以假陽(yáng)性率(False Positive Rate)為x軸,以真陽(yáng)性率(True Positive Rate)為y軸,假陽(yáng)性率指實(shí)際負(fù)樣本中被錯(cuò)誤預(yù)測(cè)為正樣本的概率,真陽(yáng)性率指實(shí)際正樣本中被預(yù)測(cè)正確的概率,計(jì)算公式如下式:
本發(fā)明還提供一種心腦血管疾病風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng),其特征在于,其包括:
問(wèn)題定義模塊,對(duì)心腦血管疾病患者預(yù)后風(fēng)險(xiǎn)預(yù)測(cè)問(wèn)題進(jìn)行定義;
數(shù)據(jù)采集模塊,從相關(guān)信息系統(tǒng)收集觀察期窗口內(nèi)的心腦血管疾病患者的醫(yī)療健康數(shù)據(jù)及預(yù)后結(jié)局?jǐn)?shù)據(jù);
數(shù)據(jù)預(yù)處理模塊,針對(duì)數(shù)據(jù)集進(jìn)行一系列的集成、清洗和缺失數(shù)據(jù)的處理;
特征工程生成模塊,基于經(jīng)過(guò)清洗的病人住院記錄、健康狀況特征所形成一系列觀測(cè)向量;
模型構(gòu)建與評(píng)估模塊,通過(guò)隨機(jī)森林算法處理高維特征,同時(shí)還給出各個(gè)變量的重要性評(píng)分,評(píng)估各個(gè)變量在分類中所起的作用且易于實(shí)現(xiàn)并行化,利用選定的人群和輸入特征及已知的康復(fù)結(jié)局,構(gòu)建了隨機(jī)森林預(yù)測(cè)模型;并對(duì)模型的預(yù)測(cè)效果進(jìn)行評(píng)估;
數(shù)據(jù)庫(kù),存儲(chǔ)不同來(lái)源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)。
優(yōu)選地,所述問(wèn)題定義模塊、數(shù)據(jù)采集模塊、數(shù)據(jù)預(yù)處理模塊、特征工程生成模塊、模型構(gòu)建與評(píng)估模塊依次連接,數(shù)據(jù)采集模塊與數(shù)據(jù)庫(kù)連接。
與現(xiàn)有技術(shù)相比,本發(fā)明具有如下的有益效果:本發(fā)明建立適合中國(guó)人群的心腦血管疾病預(yù)后風(fēng)險(xiǎn)預(yù)測(cè)模型,臨床醫(yī)生輸入模型需要的患者健康醫(yī)療數(shù)據(jù),通過(guò)模型得到患者未來(lái)某個(gè)時(shí)間段的預(yù)測(cè)康復(fù)結(jié)局,能夠很好的進(jìn)行預(yù)后風(fēng)險(xiǎn)預(yù)測(cè),提前針對(duì)不同風(fēng)險(xiǎn)等級(jí)的患者人群進(jìn)行康復(fù)訓(xùn)練方面的干預(yù),從而實(shí)現(xiàn)個(gè)性化的精準(zhǔn)康復(fù)治療,具有巨大的醫(yī)療和臨床使用價(jià)值。
附圖說(shuō)明
通過(guò)閱讀參照以下附圖對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯:
圖1為心腦血管疾病風(fēng)險(xiǎn)預(yù)測(cè)方法流程圖。
圖2為預(yù)后風(fēng)險(xiǎn)預(yù)測(cè)模型圖。
圖3為特征選擇的一般過(guò)程流程圖。
圖4為受試者工作特征(ROC)曲線對(duì)比圖。
圖5為本發(fā)明心腦血管疾病風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng)的原理框圖。
具體實(shí)施方式
下面結(jié)合具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明。以下實(shí)施例將有助于本領(lǐng)域的技術(shù)人員進(jìn)一步理解本發(fā)明,但不以任何形式限制本發(fā)明。應(yīng)當(dāng)指出的是,對(duì)本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn)。這些都屬于本發(fā)明的保護(hù)范圍。
如圖1所示,本發(fā)明心腦血管疾病風(fēng)險(xiǎn)預(yù)測(cè)方法包括以下步驟:
步驟一,問(wèn)題定義,心腦血管疾病患者預(yù)后風(fēng)險(xiǎn)預(yù)測(cè)問(wèn)題包括分析的目標(biāo)人群、關(guān)心的預(yù)后結(jié)局、人群數(shù)據(jù)采集的觀察窗口及預(yù)測(cè)時(shí)間窗口;
步驟二,數(shù)據(jù)采集,針對(duì)目標(biāo)人群,從相關(guān)信息系統(tǒng)收集觀察期窗口內(nèi)的心腦血管疾病患者的醫(yī)療健康數(shù)據(jù)及預(yù)后結(jié)局?jǐn)?shù)據(jù),所采集的數(shù)據(jù)包括:康復(fù)科門診數(shù)據(jù)、康復(fù)科治療室數(shù)據(jù)、神內(nèi)/神外門診數(shù)據(jù)、神內(nèi)/神外住院數(shù)據(jù)、康復(fù)科住院數(shù)據(jù)、腦卒中篩查門診數(shù)據(jù)等,這些數(shù)據(jù)涉及的內(nèi)容涵蓋有患者基本信息、病歷或EMR(電子病歷)、檢測(cè)檢驗(yàn)、影像、診斷、處方、治療、評(píng)估表數(shù)據(jù);
步驟三,數(shù)據(jù)預(yù)處理,數(shù)據(jù)質(zhì)量的好壞直接影響模型的預(yù)測(cè)效果,數(shù)據(jù)預(yù)處理針對(duì)數(shù)據(jù)集進(jìn)行一系列的集成、清洗和缺失數(shù)據(jù)的處理,從而提高數(shù)據(jù)質(zhì)量,采集的數(shù)據(jù)類型多種多樣,其中包括選擇項(xiàng)(如性別為男/女)、日期時(shí)間、數(shù)值型(如檢測(cè)值)、字符型(如診斷)以及是否型數(shù)據(jù),不同數(shù)據(jù)類型使得數(shù)據(jù)預(yù)處理更加有挑戰(zhàn)性,針對(duì)不同數(shù)據(jù)類型需要采取不同處理方法進(jìn)行針對(duì)性數(shù)據(jù)預(yù)處理,具體處理過(guò)程如下:
步驟三十一,數(shù)據(jù)集成,把不同來(lái)源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)整合到一起,從而為之后的分析和模型訓(xùn)練提供全面的數(shù)據(jù),只需把不同來(lái)源的數(shù)據(jù)按照一定聯(lián)系規(guī)則整合到一起,根據(jù)病人ID號(hào)把不同數(shù)據(jù)源但有同樣ID號(hào)的信息連接在一起,這樣所有來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)就被整合到了一起;
步驟三十二,數(shù)據(jù)清洗,數(shù)據(jù)清洗的任務(wù)是通過(guò)各種措施從準(zhǔn)確性、一致性、無(wú)冗余性角度清洗原始數(shù)據(jù)以提高數(shù)據(jù)質(zhì)量,方便下一步缺失數(shù)據(jù)處理的操作;
步驟三十三,缺失值處理,是對(duì)數(shù)據(jù)集中所缺失的數(shù)據(jù)進(jìn)行填充,醫(yī)療領(lǐng)域的特征數(shù)據(jù)普遍在時(shí)間序列上比較稀疏,因此如何處理缺失數(shù)據(jù)對(duì)整體數(shù)據(jù)集質(zhì)量有很大的影響,會(huì)直接影響之后模型預(yù)測(cè)的結(jié)果,基于正則化最大期望算法進(jìn)行缺失數(shù)據(jù)填補(bǔ)。
步驟四,特征工程,基于經(jīng)過(guò)清洗的病人住院記錄、健康狀況等特征所形成一系列觀測(cè)向量,主要工作包括基于各種數(shù)據(jù)類型生成原始輸入特征,數(shù)據(jù)類型的轉(zhuǎn)換,并基于領(lǐng)域知識(shí)及歷史數(shù)據(jù)生成新的輸入特征,例如計(jì)數(shù)特征、共生模式特征、集合統(tǒng)計(jì)特征等,通過(guò)特征構(gòu)造(轉(zhuǎn)換原始特征并衍生組合特征)和特征選擇(從原始特征和組合特征中自動(dòng)選擇潛在的風(fēng)險(xiǎn)因素)技術(shù)識(shí)別潛在的風(fēng)險(xiǎn)因子;
經(jīng)過(guò)以上步驟的處理,生成了用于模型訓(xùn)練的樣本數(shù)據(jù)集,每個(gè)患者將被表示為由多個(gè)輸入特征和單個(gè)目標(biāo)預(yù)后結(jié)局組成的向量,并根據(jù)預(yù)后結(jié)局的好壞標(biāo)記為正負(fù)例樣本(建立的模型是一個(gè)分類器);
步驟五,模型構(gòu)建與評(píng)估,在眾多的機(jī)器學(xué)習(xí)算法中,隨機(jī)森林是一種利用多個(gè)分類樹(shù)對(duì)數(shù)據(jù)進(jìn)行判別與分類的方法,隨機(jī)森林算法能夠處理高維特征,同時(shí)還能給出各個(gè)變量的重要性評(píng)分,評(píng)估各個(gè)變量在分類中所起的作用且易于實(shí)現(xiàn)并行化,利用選定的人群和輸入特征及已知的康復(fù)結(jié)局,構(gòu)建了隨機(jī)森林預(yù)測(cè)模型,具體實(shí)現(xiàn)過(guò)程如下:
步驟五十一,原始訓(xùn)練數(shù)據(jù)集中樣本數(shù)為N,應(yīng)用bootstrap采樣法有放回地隨機(jī)抽取K個(gè)新的自助樣本集,并由此構(gòu)建K棵分類樹(shù),每次未被抽到的樣本組成了K個(gè)袋外數(shù)據(jù);
步驟五十二,設(shè)有mall個(gè)變量,則在每一棵樹(shù)的每個(gè)節(jié)點(diǎn)處隨機(jī)抽取mtry個(gè)變量,然后在mtry中選擇一個(gè)最具有分類能力的變量,變量分類的閾值通過(guò)檢查每一個(gè)分類點(diǎn)確定;
步驟五十三,每棵樹(shù)最大限度地生長(zhǎng),不做任何修剪;
步驟五十四,將生成的多棵分類樹(shù)組成隨機(jī)森林,用隨機(jī)森林分類器對(duì)新的數(shù)據(jù)進(jìn)行判別與分類,分類結(jié)果按樹(shù)分類器的投票多少而定;
另外,模型的性能需要有標(biāo)準(zhǔn)的準(zhǔn)則進(jìn)行評(píng)估,進(jìn)而指導(dǎo)我們調(diào)整參數(shù),提高模型的性能,通過(guò)交叉驗(yàn)證技術(shù)驗(yàn)證模型的預(yù)測(cè)性能,并使用AUC(ROC曲線下面積)值作為性能評(píng)估指標(biāo),在ROC曲線中,以假陽(yáng)性率(False Positive Rate)為x軸,以真陽(yáng)性率(True Positive Rate)為y軸,假陽(yáng)性率指實(shí)際負(fù)樣本中被錯(cuò)誤預(yù)測(cè)為正樣本的概率,真陽(yáng)性率指實(shí)際正樣本中被預(yù)測(cè)正確的概率,計(jì)算如下式(1)和(2):
其中,TP(True Positive)表示正確預(yù)測(cè)到的正例的數(shù)量;FN(False Negative)把正例預(yù)測(cè)成負(fù)例的數(shù)量;FP(False Positive)把負(fù)例預(yù)測(cè)成正例的數(shù)量;TN(True Negative)正確預(yù)測(cè)到的負(fù)例的數(shù)量。
本實(shí)施例以從XXX醫(yī)院康復(fù)所采集的700位有明確康復(fù)結(jié)局評(píng)定量表的腦卒中患者數(shù)據(jù)為樣本,樣本數(shù)據(jù)具體包括:患者的基本信息(性別、年齡、身高、體重、教育程度、婚姻狀態(tài)等),體征數(shù)據(jù)(血壓、心率),病史數(shù)據(jù)(門診及住院診斷、用藥史及治療歷史、檢查檢驗(yàn)歷史及相關(guān)影像數(shù)據(jù)),進(jìn)入康復(fù)科后的功能評(píng)估項(xiàng)目及結(jié)果。
步驟一,問(wèn)題定義
如圖2所示,基于所采集的數(shù)據(jù),將建立以認(rèn)知功能障礙為目標(biāo)結(jié)局的預(yù)測(cè)模型,其中預(yù)測(cè)建模的目標(biāo)人群為因腦卒中住院并接受康復(fù)治療的患者;預(yù)測(cè)建模的目標(biāo)結(jié)局為康復(fù)認(rèn)知功能;用于建立模型的數(shù)據(jù)觀察窗口為進(jìn)入康復(fù)科后一周前的歷史數(shù)據(jù);模型適用的預(yù)測(cè)窗口為基礎(chǔ)評(píng)估后預(yù)測(cè)未來(lái)一個(gè)月內(nèi)的認(rèn)知功能。
步驟二,數(shù)據(jù)集成
使用病人ID號(hào)將不同數(shù)據(jù)源但是有同樣ID號(hào)的患者數(shù)據(jù)連接在一起,這樣所有來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)就整合到了同一個(gè)數(shù)據(jù)文件中。
步驟二十一,數(shù)據(jù)清洗
數(shù)據(jù)清洗的任務(wù)是通過(guò)各種措施從準(zhǔn)確性、一致性、無(wú)冗余性角度清洗原始數(shù)據(jù)以提高數(shù)據(jù)質(zhì)量,方便下一步缺失數(shù)據(jù)處理的操作;
步驟二十二,缺失值處理
在統(tǒng)計(jì)計(jì)算中,最大期望(EM)算法是在概率模型中尋找參數(shù)最大似然估計(jì)或者最大后驗(yàn)估計(jì)的算法,其中概率模型依賴于無(wú)法觀測(cè)的隱藏變量。在處理缺失數(shù)據(jù)時(shí),缺失特征變量可被看作是無(wú)法觀測(cè)的隱藏變量,可用最大期望算法來(lái)補(bǔ)充缺失的數(shù)據(jù)。此方法一般可以分為三步:1、計(jì)算最大期望;2、正則化最大期望,避免過(guò)度擬合;3、對(duì)上一步生成的方程進(jìn)行評(píng)估;最大期望的詳細(xì)計(jì)算方法如下:
1)EM(最大期望)算法步驟,最大期望算法經(jīng)過(guò)兩個(gè)步驟交替進(jìn)行計(jì)算,第一步是計(jì)算期望(E),利用對(duì)隱藏變量的現(xiàn)有估計(jì)值,計(jì)算其最大似然估計(jì)值;第二步是最大化(M),最大化在計(jì)算期望(E)步上求得的最大似然值來(lái)計(jì)算參數(shù)的值,最大化(M)步找到的參數(shù)估計(jì)值被用于下一個(gè)計(jì)算期望(E)步計(jì)算中,這個(gè)過(guò)程不斷交替進(jìn)行。
2)EM(最大期望)算法應(yīng)用,用于估計(jì)無(wú)法觀測(cè)的數(shù)據(jù),y表示能夠觀察到的不完整變量值,用x表示無(wú)法觀察到的變量值,在給定的觀察到的數(shù)據(jù)條件下未知數(shù)據(jù)的條件如下式(3):
其中,p表示概率密度函數(shù);x表示輸入特征變量;y表示輸出目標(biāo)變量;θ表示模型的未知參數(shù)。
3)處理效果評(píng)估,采用標(biāo)準(zhǔn)誤差(RMSE)對(duì)缺失數(shù)據(jù)的填充效果進(jìn)行評(píng)估,RMSE(標(biāo)準(zhǔn)誤差)能夠很好地反映出所填充數(shù)據(jù)和真實(shí)數(shù)據(jù)的偏離程度,RMSE(標(biāo)準(zhǔn)誤差)值越小,表示填充數(shù)據(jù)和真實(shí)數(shù)據(jù)的偏離程度越小,其精度越高,反之,RMSE(標(biāo)準(zhǔn)誤差)越大,表示填充數(shù)據(jù)和真實(shí)數(shù)據(jù)的偏離程度越大,RMSE(標(biāo)準(zhǔn)誤差)的數(shù)學(xué)表達(dá)式如下式(4):
其中,n為樣本數(shù);Xobs,i代表第i個(gè)觀測(cè)值;Xmodel,i代表Xobs,i的模型預(yù)測(cè)值。
步驟三,特征工程,潛在風(fēng)險(xiǎn)因子識(shí)別
根據(jù)得到的數(shù)據(jù)集,基于集合運(yùn)算(count,mean,min,max,std.)和領(lǐng)域知識(shí)(組合已有特征)的方法構(gòu)造新特征,例如某個(gè)病人一天中可能有幾個(gè)血壓值,我們可以采用平均值,最大值或最小值最為血壓這個(gè)特征變量的最后值。
如圖3所示,采用的特征選擇過(guò)程,具體包括產(chǎn)生過(guò)程、評(píng)價(jià)函數(shù)、停止準(zhǔn)則、驗(yàn)證過(guò)程四個(gè)部分。
在產(chǎn)生過(guò)程中,采用基于啟發(fā)式搜索的序列前向選擇方法,假設(shè)特征子集X從空集開(kāi)始,每次選擇一個(gè)特征加入特征子集,使得特征函數(shù)最優(yōu),本實(shí)施例采用的評(píng)價(jià)函數(shù)是基于篩選器的方法,并且使用線性相關(guān)系數(shù)來(lái)衡量向量之間線性相關(guān)度,如下式(5):
其中,Xi表示第i個(gè)特征向量;Y表示目標(biāo)輸出向量;cov(Xi,Y)表示Xi和Y的協(xié)方差;var(Xi)和var(Y)分別表示Xi和Y的方差。
當(dāng)評(píng)價(jià)函數(shù)值達(dá)到停止準(zhǔn)則設(shè)定的閾值時(shí)停止搜索過(guò)程,最后在驗(yàn)證數(shù)據(jù)集上驗(yàn)證選出來(lái)的特征子集的有效性。
步驟四,預(yù)后風(fēng)險(xiǎn)模型訓(xùn)練和評(píng)估
將生成的特征變量作為輸入向量矩陣,將未來(lái)一個(gè)月內(nèi)的康復(fù)結(jié)局作為目標(biāo)輸出變量,為了降低模型參數(shù)對(duì)模型性能的影響,采用五折交叉驗(yàn)證法將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,將數(shù)據(jù)集隨機(jī)劃分為均勻的五份,每次都取其中一份作為測(cè)試集,另外四份作為訓(xùn)練集,每次都計(jì)算出真陽(yáng)性率和假陽(yáng)性率,將其平均值作為模型最后的真陽(yáng)性率和假陽(yáng)性率。
如圖4所示,預(yù)測(cè)模型(Algorithm 1)和基于邏輯回歸算法的預(yù)測(cè)模型(Algorithm 2)在測(cè)試數(shù)據(jù)集上的ROC曲線對(duì)比,受試者工作特征(ROC)曲線下面積,即AUC值分別為0.798和0.706,相比于后者有了顯著的提升。
如圖5所示,本發(fā)明心腦血管疾病風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng)包括:
問(wèn)題定義模塊,對(duì)心腦血管疾病患者預(yù)后風(fēng)險(xiǎn)預(yù)測(cè)問(wèn)題進(jìn)行定義;
數(shù)據(jù)采集模塊,從相關(guān)信息系統(tǒng)收集觀察期窗口內(nèi)的心腦血管疾病患者的醫(yī)療健康數(shù)據(jù)及預(yù)后結(jié)局?jǐn)?shù)據(jù);
數(shù)據(jù)預(yù)處理模塊,針對(duì)數(shù)據(jù)集進(jìn)行一系列的集成、清洗和缺失數(shù)據(jù)的處理;
特征工程生成模塊,基于經(jīng)過(guò)清洗的病人住院記錄、健康狀況特征所形成一系列觀測(cè)向量;
模型構(gòu)建與評(píng)估模塊,通過(guò)隨機(jī)森林算法處理高維特征,同時(shí)還給出各個(gè)變量的重要性評(píng)分,評(píng)估各個(gè)變量在分類中所起的作用且易于實(shí)現(xiàn)并行化,利用選定的人群和輸入特征及已知的康復(fù)結(jié)局,構(gòu)建了隨機(jī)森林預(yù)測(cè)模型;并對(duì)模型預(yù)測(cè)效果進(jìn)行性能方面的評(píng)估。
數(shù)據(jù)庫(kù),存儲(chǔ)不同來(lái)源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)。
問(wèn)題定義模塊、數(shù)據(jù)采集模塊、數(shù)據(jù)預(yù)處理模塊、特征工程生成模塊、模型構(gòu)建與評(píng)估模塊依次連接,數(shù)據(jù)采集模塊與數(shù)據(jù)庫(kù)連接,這樣方便連接。
綜上所述,本發(fā)明建立適合中國(guó)人群的心腦血管疾病預(yù)后風(fēng)險(xiǎn)預(yù)測(cè)模型,臨床醫(yī)生輸入模型需要的患者健康醫(yī)療數(shù)據(jù),通過(guò)模型得到患者未來(lái)某個(gè)時(shí)間段的預(yù)測(cè)康復(fù)結(jié)局,能夠很好的進(jìn)行預(yù)后風(fēng)險(xiǎn)預(yù)測(cè),提前針對(duì)不同風(fēng)險(xiǎn)等級(jí)的患者人群進(jìn)行康復(fù)訓(xùn)練方面的干預(yù),從而實(shí)現(xiàn)個(gè)性化的精準(zhǔn)康復(fù)治療,具有巨大的醫(yī)療和臨床使用價(jià)值。
以上對(duì)本發(fā)明的具體實(shí)施例進(jìn)行了描述。需要理解的是,本發(fā)明并不局限于上述特定實(shí)施方式,本領(lǐng)域技術(shù)人員可以在權(quán)利要求的范圍內(nèi)做出各種變形或修改,這并不影響本發(fā)明的實(shí)質(zhì)內(nèi)容。