1.一種心腦血管患者相似性分析方法,其特征在于,其包括以下步驟:
步驟一,問題定義,基于歷史數(shù)據(jù)對心腦血管患者進(jìn)行細(xì)化分群,研究特定治療手段對特定人群治療結(jié)局的影響,并針對個(gè)體患者推薦個(gè)性化治療方案,將幫助臨床醫(yī)生更精準(zhǔn)地認(rèn)識目標(biāo)患者的病情以及治療手段所帶來的預(yù)后效果,從而有效地實(shí)現(xiàn)個(gè)性化精準(zhǔn)醫(yī)療;
步驟二,數(shù)據(jù)采集,針對目標(biāo)人群,從相關(guān)信息系統(tǒng)收集觀察期窗口內(nèi)的患者醫(yī)療健康數(shù)據(jù)及預(yù)后結(jié)局?jǐn)?shù)據(jù),所采集的數(shù)據(jù)包括:康復(fù)科門診數(shù)據(jù)、康復(fù)科治療室數(shù)據(jù)、神內(nèi)/神外門診數(shù)據(jù)、神內(nèi)/神外住院數(shù)據(jù)、康復(fù)科住院數(shù)據(jù)、腦卒中篩查門診數(shù)據(jù),這些數(shù)據(jù)涉及的內(nèi)容涵蓋有患者基本信息、病歷或電子病歷、檢測檢驗(yàn)、影像、診斷、處方、治療、評估表數(shù)據(jù);
步驟三,數(shù)據(jù)預(yù)處理,所采集的數(shù)據(jù)類型多種多樣,包括:選擇項(xiàng)、日期時(shí)間、數(shù)值型、字符型以及是否型數(shù)據(jù),針對不同數(shù)據(jù)類型需要采取不同處理方法進(jìn)行針對性數(shù)據(jù)預(yù)處理;
步驟四,特征工程,患者數(shù)據(jù)來自多個(gè)臨床數(shù)據(jù)庫,涉及患者個(gè)體生理信息、歷史診療信息、病情信息,在使用機(jī)器學(xué)習(xí)技術(shù)建模學(xué)習(xí)數(shù)據(jù)之前,首先需要使用特定領(lǐng)域知識以及統(tǒng)計(jì)學(xué)習(xí)方法來提取或組合變化得到的各屬性數(shù)據(jù),從而生成有效的特征數(shù)據(jù);
步驟五,基于相似性的患者聚類建模,采用基于劃分的聚類算法,即k-均值算法進(jìn)行患者的聚類建模,其中通過夾角余弦來度量患者之間的相似性;
步驟六,診療方案推薦,當(dāng)患者問診時(shí),結(jié)合問診患者的個(gè)體特征和病患群體特征,采用基于相似性計(jì)算的群組定向技術(shù),為問診患者找到最相近歷史病患群組,抽取出該群組內(nèi)病患的主體診療方案作為首選診療方案推薦給問診患者。
2.根據(jù)權(quán)利要求1所述的心腦血管患者相似性分析方法,其特征在于,所述步驟三具體包括以下步驟:
步驟三十一,數(shù)據(jù)集成,把不同來源的數(shù)據(jù)按照一定規(guī)則整合到一起,根據(jù)病人ID號把不同數(shù)據(jù)源但是有同樣ID號的信息連接在一起,這樣所有不同數(shù)據(jù)源的數(shù)據(jù)就整合到了一起;
步驟三十二,數(shù)據(jù)清洗,針對不同數(shù)據(jù)類型存在的不同問題,提出了基于規(guī)則的數(shù)據(jù)清洗方法;
步驟三十三,缺失值處理,醫(yī)療領(lǐng)域的特征數(shù)據(jù)普遍在時(shí)間序列上比較稀疏,因此采用基于正則化最大期望算法進(jìn)行缺失數(shù)據(jù)的填補(bǔ),將缺失特征變量視為無法觀測的隱藏變量,此方法一般分為三步:一,計(jì)算最大期望;二,正則化EM,避免過度擬合;三,對上一步生成的方程進(jìn)行評估;
步驟三十四,特征刪除,根據(jù)專家知識對那些無效值和缺失值超過總樣本量30%的,對于診斷問題不是特別重要的特征進(jìn)行刪除處理;
步驟三十五,去異常點(diǎn),采用偏差分析、基于分布不合理性的異常檢測方法,結(jié)合常識性規(guī)則、業(yè)務(wù)特定規(guī)則進(jìn)行異常值的識別,并對異常點(diǎn)進(jìn)行刪除處理。
3.根據(jù)權(quán)利要求1所述的心腦血管患者相似性分析方法,其特征在于,所述步驟四具體包括以下步驟:
步驟四十一,特征構(gòu)造和特征選擇,其基于預(yù)處理后的數(shù)據(jù),通過特征構(gòu)造和特征選擇技術(shù)識別潛在的風(fēng)險(xiǎn)因子;
步驟四十二,特征處理,使用log映射函數(shù)將特征取值映射到[0,1]區(qū)間,同時(shí)采用等值劃分方法對連續(xù)數(shù)據(jù)的離散化處理,將特征空間按照值域進(jìn)行均分,每一段內(nèi)的取值等同處理。
4.一種心腦血管患者相似性分析系統(tǒng),其特征在于,其包括:
問題定義模塊,基于歷史數(shù)據(jù)對心腦血管患者進(jìn)行細(xì)化分群,研究特定治療手段對特定人群治療結(jié)局的影響,并針對個(gè)體患者推薦個(gè)性化治療方案;
數(shù)據(jù)采集模塊,從相關(guān)信息系統(tǒng)收集觀察期窗口內(nèi)的患者醫(yī)療健康數(shù)據(jù)及預(yù)后結(jié)局?jǐn)?shù)據(jù);
數(shù)據(jù)預(yù)處理模塊,針對不同數(shù)據(jù)類型需要采取不同處理方法進(jìn)行針對性數(shù)據(jù)預(yù)處理;
特征工程生成模塊,生成有效的特征數(shù)據(jù);
患者聚類建模模塊,采用基于劃分的聚類算法,即k-均值算法進(jìn)行患者的聚類建模;
診療方案推薦模塊,采用基于相似性計(jì)算的群組定向技術(shù),為問診患者找到最相近歷史病患群組,抽取出該群組內(nèi)病患的主體診療方案作為首選診療方案推薦給問診患者;
數(shù)據(jù)庫,存儲數(shù)據(jù)采集模塊采集的數(shù)據(jù)以及診療方案推薦模塊的治療方案。
5.根據(jù)權(quán)利要求4所述的心腦血管患者相似性分析系統(tǒng),其特征在于,所述問題定義模塊、數(shù)據(jù)采集模塊、數(shù)據(jù)預(yù)處理模塊、特征工程生成模塊、患者聚類建模模塊、診療方案推薦模塊依次連接,數(shù)據(jù)庫與數(shù)據(jù)采集模塊連接。