心腦血管疾病風(fēng)險(xiǎn)預(yù)測(cè)方法及系統(tǒng)與流程

文檔序號(hào)：12720663閱讀：780來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

心腦血管疾病風(fēng)險(xiǎn)預(yù)測(cè)方法及系統(tǒng)與流程

本發(fā)明涉及一種智慧醫(yī)療領(lǐng)域，具體地，涉及一種心腦血管疾病風(fēng)險(xiǎn)預(yù)測(cè)方法及系統(tǒng)。

背景技術(shù)：

心腦血管疾病泛指由于高脂血癥、血液黏稠、動(dòng)脈粥樣硬化、高血壓等所導(dǎo)致的心臟、大腦及全身組織發(fā)生的缺血性或出血性疾病，是心臟血管和腦血管疾病的統(tǒng)稱。心腦血管疾病是一種嚴(yán)重威脅人類，特別是50歲以上中老年人健康的常見(jiàn)病，具有高患病率、高致殘率和高死亡率的特點(diǎn)，即使應(yīng)用目前最先進(jìn)、完善的治療手段，仍有50％以上的心腦血管疾病幸存者生活不能完全自理，全世界每年死于心腦血管疾病的人數(shù)高達(dá)1500萬(wàn)人，居各種死因首位。

預(yù)后預(yù)測(cè)是指預(yù)測(cè)疾病的可能病程和結(jié)局。它既包括判斷疾病的特定后果，也包括提供時(shí)間線索，如預(yù)測(cè)某段時(shí)間內(nèi)發(fā)生某種結(jié)局的可能性。早發(fā)現(xiàn)、早診斷、早治療是改善預(yù)后的前提。心腦血管疾病患者的良好預(yù)后是患者生活質(zhì)量的保障，也是醫(yī)患雙方進(jìn)行康復(fù)治療的首要目標(biāo)。精準(zhǔn)醫(yī)療的一個(gè)目標(biāo)是能對(duì)心腦血管疾病患者的預(yù)后有準(zhǔn)確的預(yù)測(cè)，從而能針對(duì)性地對(duì)康復(fù)項(xiàng)目進(jìn)行調(diào)整，達(dá)到康復(fù)速度快，康復(fù)效果好的目標(biāo)。

隨著醫(yī)療信息化的發(fā)展，醫(yī)院積累了大量的健康醫(yī)療數(shù)據(jù)。如何更好的利用這些數(shù)據(jù)以及醫(yī)學(xué)知識(shí)，通過(guò)認(rèn)知計(jì)算技術(shù)，提供精準(zhǔn)醫(yī)療的決策是醫(yī)院現(xiàn)階段所需要的。認(rèn)知計(jì)算有助于彌合數(shù)據(jù)量和數(shù)據(jù)洞察力之間的差距，幫助臨床醫(yī)生發(fā)掘數(shù)據(jù)中隱藏的洞察力。基于這些發(fā)掘的洞察力，認(rèn)知模型可提供基于證據(jù)的選項(xiàng)，進(jìn)而幫助決策并減少人為偏差，有助于醫(yī)療專業(yè)人員做出更加明智、及時(shí)的決策。

到目前為止，認(rèn)知計(jì)算技術(shù)在中國(guó)人群心腦血管疾病預(yù)后風(fēng)險(xiǎn)預(yù)測(cè)方面尚屬空白。而國(guó)外認(rèn)知計(jì)算技術(shù)雖然已有成功應(yīng)用案例，但主要解決的是腫瘤等疾病診斷領(lǐng)域，在心腦血管疾病的預(yù)后風(fēng)險(xiǎn)預(yù)測(cè)方面還尚未見(jiàn)有報(bào)道。鑒于國(guó)內(nèi)外沒(méi)有可用于預(yù)測(cè)心腦血管疾病預(yù)后風(fēng)險(xiǎn)的智能模型，很有必要建立一種預(yù)測(cè)準(zhǔn)確度高、適用于臨床醫(yī)生應(yīng)用的心腦血管疾病預(yù)后風(fēng)險(xiǎn)預(yù)測(cè)模型。

技術(shù)實(shí)現(xiàn)要素：

針對(duì)現(xiàn)有技術(shù)中的缺陷，本發(fā)明的目的是提供一種心腦血管疾病風(fēng)險(xiǎn)預(yù)測(cè)方法及系統(tǒng)，其建立適合中國(guó)人群的心腦血管疾病預(yù)后風(fēng)險(xiǎn)預(yù)測(cè)模型，臨床醫(yī)生輸入模型需要的患者健康醫(yī)療數(shù)據(jù)，通過(guò)模型得到患者未來(lái)某個(gè)時(shí)間段的預(yù)測(cè)康復(fù)結(jié)局，能夠很好的進(jìn)行預(yù)后風(fēng)險(xiǎn)預(yù)測(cè)，提前針對(duì)不同風(fēng)險(xiǎn)等級(jí)的患者人群進(jìn)行康復(fù)訓(xùn)練方面的干預(yù)，從而實(shí)現(xiàn)個(gè)性化的精準(zhǔn)康復(fù)治療。

根據(jù)本發(fā)明的一個(gè)方面，提供一種心腦血管疾病風(fēng)險(xiǎn)預(yù)測(cè)方法，其特征在于，其包括以下步驟：

步驟一，問(wèn)題定義，心腦血管疾病患者預(yù)后風(fēng)險(xiǎn)預(yù)測(cè)問(wèn)題包括分析的目標(biāo)人群、關(guān)心的預(yù)后結(jié)局、人群數(shù)據(jù)采集的觀察窗口及預(yù)測(cè)時(shí)間窗口；

步驟二，數(shù)據(jù)采集，針對(duì)目標(biāo)人群，從相關(guān)信息系統(tǒng)收集觀察期窗口內(nèi)的心腦血管疾病患者的醫(yī)療健康數(shù)據(jù)及預(yù)后結(jié)局?jǐn)?shù)據(jù)；

步驟三，數(shù)據(jù)預(yù)處理，數(shù)據(jù)質(zhì)量的好壞直接影響模型的預(yù)測(cè)效果，數(shù)據(jù)預(yù)處理針對(duì)數(shù)據(jù)集進(jìn)行一系列的集成、清洗和缺失數(shù)據(jù)的處理，從而提高數(shù)據(jù)質(zhì)量，采集的數(shù)據(jù)類型多種多樣，其中包括選擇項(xiàng)、日期時(shí)間、數(shù)值型、字符型以及是否型數(shù)據(jù)，不同數(shù)據(jù)類型使得數(shù)據(jù)預(yù)處理更加有挑戰(zhàn)性，針對(duì)不同數(shù)據(jù)類型需要采取不同處理方法進(jìn)行針對(duì)性數(shù)據(jù)預(yù)處理；

步驟四，特征工程，基于經(jīng)過(guò)清洗的病人住院記錄、健康狀況特征所形成一系列觀測(cè)向量，主要工作包括基于各種數(shù)據(jù)類型生成原始輸入特征，數(shù)據(jù)類型的轉(zhuǎn)換，并基于領(lǐng)域知識(shí)及歷史數(shù)據(jù)生成新的輸入特征；

步驟五，模型構(gòu)建與評(píng)估，在眾多的機(jī)器學(xué)習(xí)算法中，隨機(jī)森林是一種利用多個(gè)分類樹(shù)對(duì)數(shù)據(jù)進(jìn)行判別與分類的方法，隨機(jī)森林算法處理高維特征，同時(shí)還給出各個(gè)變量的重要性評(píng)分，評(píng)估各個(gè)變量在分類中所起的作用且易于實(shí)現(xiàn)并行化，利用選定的人群和輸入特征及已知的康復(fù)結(jié)局，構(gòu)建了隨機(jī)森林預(yù)測(cè)模型。最后，使用ROC曲線和AUC值對(duì)模型的預(yù)測(cè)效果進(jìn)行評(píng)估。

優(yōu)選地，所述步驟二中數(shù)據(jù)采集所需要采集的數(shù)據(jù)包括：康復(fù)科門診數(shù)據(jù)、康復(fù)科治療室數(shù)據(jù)、神內(nèi)/神外門診數(shù)據(jù)、神內(nèi)/神外住院數(shù)據(jù)、康復(fù)科住院數(shù)據(jù)、腦卒中篩查門診數(shù)據(jù)，這些數(shù)據(jù)涉及的內(nèi)容涵蓋有患者基本信息、病歷或電子病歷、檢測(cè)檢驗(yàn)、影像、診斷、處方、治療、評(píng)估表數(shù)據(jù)。

優(yōu)選地，所述步驟三具體包括以下步驟：

步驟三十一，數(shù)據(jù)集成，把不同來(lái)源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)整合到一起，從而為之后的分析和模型訓(xùn)練提供全面的數(shù)據(jù)，只需把不同來(lái)源的數(shù)據(jù)按照一定聯(lián)系規(guī)則整合到一起，根據(jù)病人ID號(hào)把不同數(shù)據(jù)源但有同樣ID號(hào)的信息連接在一起，這樣所有來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)就被整合到了一起；

步驟三十二，數(shù)據(jù)清洗，數(shù)據(jù)清洗的任務(wù)是通過(guò)各種措施從準(zhǔn)確性、一致性、無(wú)冗余性角度清洗原始數(shù)據(jù)以提高數(shù)據(jù)質(zhì)量，方便下一步缺失數(shù)據(jù)處理的操作；

步驟三十三，缺失值處理，是對(duì)數(shù)據(jù)集中所缺失的數(shù)據(jù)進(jìn)行填充。

優(yōu)選地，所述步驟五中具體包括以下步驟：

步驟五十一，原始訓(xùn)練數(shù)據(jù)集中的樣本數(shù)為N(N是>1的正整數(shù))，應(yīng)用bootstrap采樣法有放回地隨機(jī)抽取K個(gè)新的自助樣本集，并由此構(gòu)建K棵分類樹(shù)，每次未被抽到的樣本組成了K個(gè)袋外數(shù)據(jù)；其中K(K是>1的正整數(shù))為模型參數(shù)，根據(jù)模型性能進(jìn)行選擇。

步驟五十二，設(shè)有mall(mall是>1的正整數(shù))個(gè)變量，則在每一棵樹(shù)的每個(gè)節(jié)點(diǎn)處隨機(jī)抽取mtry(mtry是>1的正整數(shù))個(gè)變量，然后在mtry中選擇一個(gè)最具有分類能力的變量，變量分類的閾值通過(guò)檢查每一個(gè)分類點(diǎn)確定；

步驟五十三，每棵樹(shù)最大限度地生長(zhǎng)，不做任何修剪；

步驟五十四，將生成的多棵分類樹(shù)組成隨機(jī)森林，用隨機(jī)森林分類器對(duì)新的數(shù)據(jù)進(jìn)行判別與分類，分類結(jié)果按樹(shù)分類器的投票多少而定；

另外，模型的性能需要有標(biāo)準(zhǔn)的準(zhǔn)則進(jìn)行評(píng)估，進(jìn)而指導(dǎo)我們調(diào)整參數(shù)，提高模型的性能，通過(guò)交叉驗(yàn)證技術(shù)驗(yàn)證模型的預(yù)測(cè)性能，并使用AUC(ROC曲線下面積)值作為性能評(píng)估指標(biāo)，在ROC曲線中，以假陽(yáng)性率(False Positive Rate)為x軸，以真陽(yáng)性率(True Positive Rate)為y軸，假陽(yáng)性率指實(shí)際負(fù)樣本中被錯(cuò)誤預(yù)測(cè)為正樣本的概率，真陽(yáng)性率指實(shí)際正樣本中被預(yù)測(cè)正確的概率，計(jì)算公式如下式：

本發(fā)明還提供一種心腦血管疾病風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng)，其特征在于，其包括：

問(wèn)題定義模塊，對(duì)心腦血管疾病患者預(yù)后風(fēng)險(xiǎn)預(yù)測(cè)問(wèn)題進(jìn)行定義；

數(shù)據(jù)采集模塊，從相關(guān)信息系統(tǒng)收集觀察期窗口內(nèi)的心腦血管疾病患者的醫(yī)療健康數(shù)據(jù)及預(yù)后結(jié)局?jǐn)?shù)據(jù)；

數(shù)據(jù)預(yù)處理模塊，針對(duì)數(shù)據(jù)集進(jìn)行一系列的集成、清洗和缺失數(shù)據(jù)的處理；

特征工程生成模塊，基于經(jīng)過(guò)清洗的病人住院記錄、健康狀況特征所形成一系列觀測(cè)向量；

模型構(gòu)建與評(píng)估模塊，通過(guò)隨機(jī)森林算法處理高維特征，同時(shí)還給出各個(gè)變量的重要性評(píng)分，評(píng)估各個(gè)變量在分類中所起的作用且易于實(shí)現(xiàn)并行化，利用選定的人群和輸入特征及已知的康復(fù)結(jié)局，構(gòu)建了隨機(jī)森林預(yù)測(cè)模型；并對(duì)模型的預(yù)測(cè)效果進(jìn)行評(píng)估；

數(shù)據(jù)庫(kù)，存儲(chǔ)不同來(lái)源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)。

優(yōu)選地，所述問(wèn)題定義模塊、數(shù)據(jù)采集模塊、數(shù)據(jù)預(yù)處理模塊、特征工程生成模塊、模型構(gòu)建與評(píng)估模塊依次連接，數(shù)據(jù)采集模塊與數(shù)據(jù)庫(kù)連接。

與現(xiàn)有技術(shù)相比，本發(fā)明具有如下的有益效果：本發(fā)明建立適合中國(guó)人群的心腦血管疾病預(yù)后風(fēng)險(xiǎn)預(yù)測(cè)模型，臨床醫(yī)生輸入模型需要的患者健康醫(yī)療數(shù)據(jù)，通過(guò)模型得到患者未來(lái)某個(gè)時(shí)間段的預(yù)測(cè)康復(fù)結(jié)局，能夠很好的進(jìn)行預(yù)后風(fēng)險(xiǎn)預(yù)測(cè)，提前針對(duì)不同風(fēng)險(xiǎn)等級(jí)的患者人群進(jìn)行康復(fù)訓(xùn)練方面的干預(yù)，從而實(shí)現(xiàn)個(gè)性化的精準(zhǔn)康復(fù)治療，具有巨大的醫(yī)療和臨床使用價(jià)值。

附圖說(shuō)明

通過(guò)閱讀參照以下附圖對(duì)非限制性實(shí)施例所作的詳細(xì)描述，本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯：

圖1為心腦血管疾病風(fēng)險(xiǎn)預(yù)測(cè)方法流程圖。

圖2為預(yù)后風(fēng)險(xiǎn)預(yù)測(cè)模型圖。

圖3為特征選擇的一般過(guò)程流程圖。

圖4為受試者工作特征(ROC)曲線對(duì)比圖。

圖5為本發(fā)明心腦血管疾病風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng)的原理框圖。

具體實(shí)施方式

下面結(jié)合具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明。以下實(shí)施例將有助于本領(lǐng)域的技術(shù)人員進(jìn)一步理解本發(fā)明，但不以任何形式限制本發(fā)明。應(yīng)當(dāng)指出的是，對(duì)本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō)，在不脫離本發(fā)明構(gòu)思的前提下，還可以做出若干變形和改進(jìn)。這些都屬于本發(fā)明的保護(hù)范圍。

如圖1所示，本發(fā)明心腦血管疾病風(fēng)險(xiǎn)預(yù)測(cè)方法包括以下步驟：

步驟二，數(shù)據(jù)采集，針對(duì)目標(biāo)人群，從相關(guān)信息系統(tǒng)收集觀察期窗口內(nèi)的心腦血管疾病患者的醫(yī)療健康數(shù)據(jù)及預(yù)后結(jié)局?jǐn)?shù)據(jù)，所采集的數(shù)據(jù)包括：康復(fù)科門診數(shù)據(jù)、康復(fù)科治療室數(shù)據(jù)、神內(nèi)/神外門診數(shù)據(jù)、神內(nèi)/神外住院數(shù)據(jù)、康復(fù)科住院數(shù)據(jù)、腦卒中篩查門診數(shù)據(jù)等，這些數(shù)據(jù)涉及的內(nèi)容涵蓋有患者基本信息、病歷或EMR(電子病歷)、檢測(cè)檢驗(yàn)、影像、診斷、處方、治療、評(píng)估表數(shù)據(jù)；

步驟三，數(shù)據(jù)預(yù)處理，數(shù)據(jù)質(zhì)量的好壞直接影響模型的預(yù)測(cè)效果，數(shù)據(jù)預(yù)處理針對(duì)數(shù)據(jù)集進(jìn)行一系列的集成、清洗和缺失數(shù)據(jù)的處理，從而提高數(shù)據(jù)質(zhì)量，采集的數(shù)據(jù)類型多種多樣，其中包括選擇項(xiàng)(如性別為男/女)、日期時(shí)間、數(shù)值型(如檢測(cè)值)、字符型(如診斷)以及是否型數(shù)據(jù)，不同數(shù)據(jù)類型使得數(shù)據(jù)預(yù)處理更加有挑戰(zhàn)性，針對(duì)不同數(shù)據(jù)類型需要采取不同處理方法進(jìn)行針對(duì)性數(shù)據(jù)預(yù)處理，具體處理過(guò)程如下：

步驟三十三，缺失值處理，是對(duì)數(shù)據(jù)集中所缺失的數(shù)據(jù)進(jìn)行填充，醫(yī)療領(lǐng)域的特征數(shù)據(jù)普遍在時(shí)間序列上比較稀疏，因此如何處理缺失數(shù)據(jù)對(duì)整體數(shù)據(jù)集質(zhì)量有很大的影響，會(huì)直接影響之后模型預(yù)測(cè)的結(jié)果，基于正則化最大期望算法進(jìn)行缺失數(shù)據(jù)填補(bǔ)。

步驟四，特征工程，基于經(jīng)過(guò)清洗的病人住院記錄、健康狀況等特征所形成一系列觀測(cè)向量，主要工作包括基于各種數(shù)據(jù)類型生成原始輸入特征，數(shù)據(jù)類型的轉(zhuǎn)換，并基于領(lǐng)域知識(shí)及歷史數(shù)據(jù)生成新的輸入特征，例如計(jì)數(shù)特征、共生模式特征、集合統(tǒng)計(jì)特征等，通過(guò)特征構(gòu)造(轉(zhuǎn)換原始特征并衍生組合特征)和特征選擇(從原始特征和組合特征中自動(dòng)選擇潛在的風(fēng)險(xiǎn)因素)技術(shù)識(shí)別潛在的風(fēng)險(xiǎn)因子；

經(jīng)過(guò)以上步驟的處理，生成了用于模型訓(xùn)練的樣本數(shù)據(jù)集，每個(gè)患者將被表示為由多個(gè)輸入特征和單個(gè)目標(biāo)預(yù)后結(jié)局組成的向量，并根據(jù)預(yù)后結(jié)局的好壞標(biāo)記為正負(fù)例樣本(建立的模型是一個(gè)分類器)；

步驟五，模型構(gòu)建與評(píng)估，在眾多的機(jī)器學(xué)習(xí)算法中，隨機(jī)森林是一種利用多個(gè)分類樹(shù)對(duì)數(shù)據(jù)進(jìn)行判別與分類的方法，隨機(jī)森林算法能夠處理高維特征，同時(shí)還能給出各個(gè)變量的重要性評(píng)分，評(píng)估各個(gè)變量在分類中所起的作用且易于實(shí)現(xiàn)并行化，利用選定的人群和輸入特征及已知的康復(fù)結(jié)局，構(gòu)建了隨機(jī)森林預(yù)測(cè)模型，具體實(shí)現(xiàn)過(guò)程如下：

步驟五十一，原始訓(xùn)練數(shù)據(jù)集中樣本數(shù)為N，應(yīng)用bootstrap采樣法有放回地隨機(jī)抽取K個(gè)新的自助樣本集，并由此構(gòu)建K棵分類樹(shù)，每次未被抽到的樣本組成了K個(gè)袋外數(shù)據(jù)；

步驟五十二，設(shè)有mall個(gè)變量，則在每一棵樹(shù)的每個(gè)節(jié)點(diǎn)處隨機(jī)抽取mtry個(gè)變量，然后在mtry中選擇一個(gè)最具有分類能力的變量，變量分類的閾值通過(guò)檢查每一個(gè)分類點(diǎn)確定；

步驟五十三，每棵樹(shù)最大限度地生長(zhǎng)，不做任何修剪；

其中，TP(True Positive)表示正確預(yù)測(cè)到的正例的數(shù)量；FN(False Negative)把正例預(yù)測(cè)成負(fù)例的數(shù)量；FP(False Positive)把負(fù)例預(yù)測(cè)成正例的數(shù)量；TN(True Negative)正確預(yù)測(cè)到的負(fù)例的數(shù)量。

本實(shí)施例以從XXX醫(yī)院康復(fù)所采集的700位有明確康復(fù)結(jié)局評(píng)定量表的腦卒中患者數(shù)據(jù)為樣本，樣本數(shù)據(jù)具體包括：患者的基本信息(性別、年齡、身高、體重、教育程度、婚姻狀態(tài)等)，體征數(shù)據(jù)(血壓、心率)，病史數(shù)據(jù)(門診及住院診斷、用藥史及治療歷史、檢查檢驗(yàn)歷史及相關(guān)影像數(shù)據(jù))，進(jìn)入康復(fù)科后的功能評(píng)估項(xiàng)目及結(jié)果。

步驟一，問(wèn)題定義

如圖2所示，基于所采集的數(shù)據(jù)，將建立以認(rèn)知功能障礙為目標(biāo)結(jié)局的預(yù)測(cè)模型，其中預(yù)測(cè)建模的目標(biāo)人群為因腦卒中住院并接受康復(fù)治療的患者；預(yù)測(cè)建模的目標(biāo)結(jié)局為康復(fù)認(rèn)知功能；用于建立模型的數(shù)據(jù)觀察窗口為進(jìn)入康復(fù)科后一周前的歷史數(shù)據(jù)；模型適用的預(yù)測(cè)窗口為基礎(chǔ)評(píng)估后預(yù)測(cè)未來(lái)一個(gè)月內(nèi)的認(rèn)知功能。

步驟二，數(shù)據(jù)集成

使用病人ID號(hào)將不同數(shù)據(jù)源但是有同樣ID號(hào)的患者數(shù)據(jù)連接在一起，這樣所有來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)就整合到了同一個(gè)數(shù)據(jù)文件中。

步驟二十一，數(shù)據(jù)清洗

數(shù)據(jù)清洗的任務(wù)是通過(guò)各種措施從準(zhǔn)確性、一致性、無(wú)冗余性角度清洗原始數(shù)據(jù)以提高數(shù)據(jù)質(zhì)量，方便下一步缺失數(shù)據(jù)處理的操作；

步驟二十二，缺失值處理

在統(tǒng)計(jì)計(jì)算中，最大期望(EM)算法是在概率模型中尋找參數(shù)最大似然估計(jì)或者最大后驗(yàn)估計(jì)的算法，其中概率模型依賴于無(wú)法觀測(cè)的隱藏變量。在處理缺失數(shù)據(jù)時(shí)，缺失特征變量可被看作是無(wú)法觀測(cè)的隱藏變量，可用最大期望算法來(lái)補(bǔ)充缺失的數(shù)據(jù)。此方法一般可以分為三步：1、計(jì)算最大期望；2、正則化最大期望，避免過(guò)度擬合；3、對(duì)上一步生成的方程進(jìn)行評(píng)估；最大期望的詳細(xì)計(jì)算方法如下：

1)EM(最大期望)算法步驟，最大期望算法經(jīng)過(guò)兩個(gè)步驟交替進(jìn)行計(jì)算，第一步是計(jì)算期望(E)，利用對(duì)隱藏變量的現(xiàn)有估計(jì)值，計(jì)算其最大似然估計(jì)值；第二步是最大化(M)，最大化在計(jì)算期望(E)步上求得的最大似然值來(lái)計(jì)算參數(shù)的值，最大化(M)步找到的參數(shù)估計(jì)值被用于下一個(gè)計(jì)算期望(E)步計(jì)算中，這個(gè)過(guò)程不斷交替進(jìn)行。

2)EM(最大期望)算法應(yīng)用，用于估計(jì)無(wú)法觀測(cè)的數(shù)據(jù)，y表示能夠觀察到的不完整變量值，用x表示無(wú)法觀察到的變量值，在給定的觀察到的數(shù)據(jù)條件下未知數(shù)據(jù)的條件如下式(3)：

其中，p表示概率密度函數(shù)；x表示輸入特征變量；y表示輸出目標(biāo)變量；θ表示模型的未知參數(shù)。

3)處理效果評(píng)估，采用標(biāo)準(zhǔn)誤差(RMSE)對(duì)缺失數(shù)據(jù)的填充效果進(jìn)行評(píng)估，RMSE(標(biāo)準(zhǔn)誤差)能夠很好地反映出所填充數(shù)據(jù)和真實(shí)數(shù)據(jù)的偏離程度，RMSE(標(biāo)準(zhǔn)誤差)值越小，表示填充數(shù)據(jù)和真實(shí)數(shù)據(jù)的偏離程度越小，其精度越高，反之，RMSE(標(biāo)準(zhǔn)誤差)越大，表示填充數(shù)據(jù)和真實(shí)數(shù)據(jù)的偏離程度越大，RMSE(標(biāo)準(zhǔn)誤差)的數(shù)學(xué)表達(dá)式如下式(4)：

其中，n為樣本數(shù)；X_obs,i代表第i個(gè)觀測(cè)值；X_model,i代表X_obs,i的模型預(yù)測(cè)值。

步驟三，特征工程，潛在風(fēng)險(xiǎn)因子識(shí)別

根據(jù)得到的數(shù)據(jù)集，基于集合運(yùn)算(count，mean，min，max，std.)和領(lǐng)域知識(shí)(組合已有特征)的方法構(gòu)造新特征，例如某個(gè)病人一天中可能有幾個(gè)血壓值，我們可以采用平均值，最大值或最小值最為血壓這個(gè)特征變量的最后值。

如圖3所示，采用的特征選擇過(guò)程，具體包括產(chǎn)生過(guò)程、評(píng)價(jià)函數(shù)、停止準(zhǔn)則、驗(yàn)證過(guò)程四個(gè)部分。

在產(chǎn)生過(guò)程中，采用基于啟發(fā)式搜索的序列前向選擇方法，假設(shè)特征子集X從空集開(kāi)始，每次選擇一個(gè)特征加入特征子集，使得特征函數(shù)最優(yōu)，本實(shí)施例采用的評(píng)價(jià)函數(shù)是基于篩選器的方法，并且使用線性相關(guān)系數(shù)來(lái)衡量向量之間線性相關(guān)度，如下式(5)：

其中，X_i表示第i個(gè)特征向量；Y表示目標(biāo)輸出向量；cov(X_i,Y)表示X_i和Y的協(xié)方差；var(X_i)和var(Y)分別表示X_i和Y的方差。

當(dāng)評(píng)價(jià)函數(shù)值達(dá)到停止準(zhǔn)則設(shè)定的閾值時(shí)停止搜索過(guò)程，最后在驗(yàn)證數(shù)據(jù)集上驗(yàn)證選出來(lái)的特征子集的有效性。

步驟四，預(yù)后風(fēng)險(xiǎn)模型訓(xùn)練和評(píng)估

將生成的特征變量作為輸入向量矩陣，將未來(lái)一個(gè)月內(nèi)的康復(fù)結(jié)局作為目標(biāo)輸出變量，為了降低模型參數(shù)對(duì)模型性能的影響，采用五折交叉驗(yàn)證法將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集，將數(shù)據(jù)集隨機(jī)劃分為均勻的五份，每次都取其中一份作為測(cè)試集，另外四份作為訓(xùn)練集，每次都計(jì)算出真陽(yáng)性率和假陽(yáng)性率，將其平均值作為模型最后的真陽(yáng)性率和假陽(yáng)性率。

如圖4所示，預(yù)測(cè)模型(Algorithm 1)和基于邏輯回歸算法的預(yù)測(cè)模型(Algorithm 2)在測(cè)試數(shù)據(jù)集上的ROC曲線對(duì)比，受試者工作特征(ROC)曲線下面積，即AUC值分別為0.798和0.706，相比于后者有了顯著的提升。

如圖5所示，本發(fā)明心腦血管疾病風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng)包括：

問(wèn)題定義模塊，對(duì)心腦血管疾病患者預(yù)后風(fēng)險(xiǎn)預(yù)測(cè)問(wèn)題進(jìn)行定義；

數(shù)據(jù)預(yù)處理模塊，針對(duì)數(shù)據(jù)集進(jìn)行一系列的集成、清洗和缺失數(shù)據(jù)的處理；

特征工程生成模塊，基于經(jīng)過(guò)清洗的病人住院記錄、健康狀況特征所形成一系列觀測(cè)向量；

模型構(gòu)建與評(píng)估模塊，通過(guò)隨機(jī)森林算法處理高維特征，同時(shí)還給出各個(gè)變量的重要性評(píng)分，評(píng)估各個(gè)變量在分類中所起的作用且易于實(shí)現(xiàn)并行化，利用選定的人群和輸入特征及已知的康復(fù)結(jié)局，構(gòu)建了隨機(jī)森林預(yù)測(cè)模型；并對(duì)模型預(yù)測(cè)效果進(jìn)行性能方面的評(píng)估。

數(shù)據(jù)庫(kù)，存儲(chǔ)不同來(lái)源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)。

問(wèn)題定義模塊、數(shù)據(jù)采集模塊、數(shù)據(jù)預(yù)處理模塊、特征工程生成模塊、模型構(gòu)建與評(píng)估模塊依次連接，數(shù)據(jù)采集模塊與數(shù)據(jù)庫(kù)連接，這樣方便連接。

綜上所述，本發(fā)明建立適合中國(guó)人群的心腦血管疾病預(yù)后風(fēng)險(xiǎn)預(yù)測(cè)模型，臨床醫(yī)生輸入模型需要的患者健康醫(yī)療數(shù)據(jù)，通過(guò)模型得到患者未來(lái)某個(gè)時(shí)間段的預(yù)測(cè)康復(fù)結(jié)局，能夠很好的進(jìn)行預(yù)后風(fēng)險(xiǎn)預(yù)測(cè)，提前針對(duì)不同風(fēng)險(xiǎn)等級(jí)的患者人群進(jìn)行康復(fù)訓(xùn)練方面的干預(yù)，從而實(shí)現(xiàn)個(gè)性化的精準(zhǔn)康復(fù)治療，具有巨大的醫(yī)療和臨床使用價(jià)值。

以上對(duì)本發(fā)明的具體實(shí)施例進(jìn)行了描述。需要理解的是，本發(fā)明并不局限于上述特定實(shí)施方式，本領(lǐng)域技術(shù)人員可以在權(quán)利要求的范圍內(nèi)做出各種變形或修改，這并不影響本發(fā)明的實(shí)質(zhì)內(nèi)容。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：童曉渝;章玉宇;崔修濤;王永明;熊偉;胡天龍;廖光源
技術(shù)所有人：中電科軟件信息服務(wù)有限公司
我是此專利的發(fā)明人

上一篇：一種改進(jìn)型扁平外墻PVC排水管的制作方法與工藝
上一篇：發(fā)動(dòng)機(jī)殼體的制作方法與工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

心腦血管疾病治療方法相關(guān)技術(shù)

心腦血管疾病相關(guān)技術(shù)

心腦血管疾病的癥狀相關(guān)技術(shù)

預(yù)防心腦血管疾病相關(guān)技術(shù)

如何預(yù)防心腦血管疾病相關(guān)技術(shù)

心腦血管疾病的預(yù)防相關(guān)技術(shù)

心腦血管疾病有哪些相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

心腦血管疾病風(fēng)險(xiǎn)預(yù)測(cè)方法及系統(tǒng)與流程