一種基于醫(yī)療大數(shù)據(jù)挖掘的慢性病風(fēng)險模型的構(gòu)建方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種模型的構(gòu)建方法,特別是關(guān)于一種基于醫(yī)療大數(shù)據(jù)挖掘的慢性病 風(fēng)險模型的構(gòu)建方法。
【背景技術(shù)】
[0002] 心臟病、腦卒中、腫瘤、慢性呼吸道疾病、糖尿病等慢性病造成嚴重的社會負擔(dān),并 呈現(xiàn)出快速上升和年輕化趨勢。世界衛(wèi)生組織2005的一項報告顯示對心臟病、中風(fēng)、癌癥 和其他慢性病長期存在的誤解助長了全球?qū)λ鼈兊暮鲆暎?005年因慢性病造成的死亡人 數(shù)將達3500萬,其中80%以上發(fā)生在低收入和中等收入國家。報告強調(diào)了對慢性病的日益 嚴重性要有所預(yù)測和了解,并緊急對其采取行動,這就要求那些能夠加強慢性病預(yù)防和控 制工作的各國領(lǐng)袖以及國際公共衛(wèi)生界對此采取新的策略,其中,至關(guān)重要的第一步是將 最新和最準(zhǔn)確的知識和信息傳授給一線衛(wèi)生專業(yè)人員和廣大公眾。
[0003] 遺傳因素和不健康生活方式是慢性病發(fā)生的根本原因,家庭成員相似的遺傳背景 和共同的生活習(xí)慣,使得慢性病的發(fā)生常表現(xiàn)出明顯的家族聚集性。高血壓、糖尿病、血脂 異常、肥胖、冠心病、腦卒中和腫瘤均為多基因遺傳病,同時受環(huán)境和心理因素的影響。遺傳 因素與環(huán)境因素作用的總和決定一個人是否易于患病,即易患性,這種易患性高到一定的 程度(超過閾值)時才會發(fā)病。顯然,為預(yù)防發(fā)病,疾病的遺傳度越高,就越應(yīng)該注意控制 環(huán)境和心理因素的影響,以防止其易患性達到發(fā)病的閾值。那種只講遺傳,忽視可改變危險 因素干預(yù)的宿命論觀點是完全錯誤的,事實上,80 %以上的心臟病、腦卒中和糖尿病,40 % 以上的腫瘤都是可以預(yù)防的。
[0004] 年齡、性別、遺傳、高血壓、糖尿病、血脂異常、超重和肥胖、不健康膳食、缺乏身體 活動、吸煙、精神壓力過大、過量飲酒等都是慢性病事件的危險因素。除年齡、性別和遺傳背 景無法改變外,其他危險因素都是可以干預(yù)的。慢性病危險因素間常存在協(xié)同作用,即兩個 危險因素同時存在時,其致病作用遠遠高于兩個因素單獨存在時的作用之和。因此,針對所 有危險因素進行綜合干預(yù)效果是最好的。
[0005] 合理的科學(xué)依據(jù)為綜合或者特定慢性病的健康評估模型,健康評估起源于臨床護 理,最初是對疾病損害程度的判斷工具,后來演化為臨床決策和預(yù)測的有力助手,基本方法 是問卷量表、體檢問卷、臨床指數(shù)公式、評分表和評估模型,采集數(shù)據(jù)的來源可以是體檢數(shù) 據(jù)和各大醫(yī)院的醫(yī)療病例記錄。針對某種慢性病的評估模型能夠在一定可靠度下對人群的 發(fā)病風(fēng)險程度進行劃分。
[0006] 因此,進一步推進我國慢性病高危人群篩查及干預(yù)工作、探索其有效防治途徑與 策略至關(guān)重要,可有效提高我國居民發(fā)病危險因素知曉率和控制率,降低慢性病的發(fā)生率、 復(fù)發(fā)率、死亡率和致殘率,從而減輕慢性病給社會和家庭帶來的經(jīng)濟負擔(dān)和疾病負擔(dān),提 高國民健康水平。
[0007] 現(xiàn)有慢性病風(fēng)險模型參差不齊,多數(shù)過于簡單,缺乏數(shù)據(jù)支持,不夠精確、危險程 度劃分過粗糙、高危人群過于廣泛等缺陷。
【發(fā)明內(nèi)容】
[0008] 針對上述問題,本發(fā)明的目的是提供一種精確合理、簡單易用的基于醫(yī)療大數(shù)據(jù) 挖掘的慢性病風(fēng)險模型的構(gòu)建方法。
[0009] 為實現(xiàn)上述目的,本發(fā)明采取以下技術(shù)方案:一種基于醫(yī)療大數(shù)據(jù)挖掘的慢性病 風(fēng)險模型的構(gòu)建方法,其包括以下步驟:
[0010] 1)確定慢性病的若干個危險因素,獲得參與調(diào)查的人群含有危險因素及是否患有 慢性病的醫(yī)療統(tǒng)計數(shù)據(jù);
[0011] 2)對慢性病的若干個危險因素進行任意組合獲得η種危險因素組合,其中,η為 正整數(shù);將每個危險因素組合作為關(guān)聯(lián)規(guī)則X=> Y中的先導(dǎo)X,將慢性病作為關(guān)聯(lián)規(guī)則 X二Y中的后繼Υ,計算每個危險因素組合在醫(yī)療統(tǒng)計數(shù)據(jù)中的支持度和置信度;
[0012] 3)設(shè)置最小支持度和最小置信度,在η種危險因素組合中選擇出支持度和置信度 在最小支持度和最小置信度以上的危險因素組合;
[0013] 4)通過危險因素組合構(gòu)建慢性病風(fēng)險模型,其為慢性病與每種危險因素同時出現(xiàn) 的概率,具體是指每種危險因素在支持度和置信度高于最小支持度和最小置信度的危險因 素組合中出現(xiàn)的概率。
[0014] 所述步驟2)中,每個危險因素組合在醫(yī)療統(tǒng)計數(shù)據(jù)中的支持度為既包含危險因 素組合且又包含慢性病的數(shù)據(jù)在臨床統(tǒng)計數(shù)據(jù)中的概率;每個危險因素組合在臨床統(tǒng)計數(shù) 據(jù)中的置信度為既包含危險因素組合且又包含慢性病的數(shù)據(jù)在包含危險因素組合的數(shù)據(jù) 中的概率。
[0015] 所述步驟4)中,所述每種危險因素在支持度和置信度高于最小支持度和最小置 信度的危險因素組合中出現(xiàn)的概率P 1S :
[0016] Pi= n i/N ;
[0017] 式中,P1為第i種危險因素在支持度和置信度高于最小支持度和最小置信度的危 險因素組合中出現(xiàn)的概率;Il 1為第i種危險因素在支持度和置信度高于最小支持度和最小 置信度的危險因素組合中出現(xiàn)的次數(shù);N為支持度和置信度高于最小支持度和最小置信度 的危險因素組合數(shù)。
[0018] 本發(fā)明由于采取以上技術(shù)方案,其具有以下優(yōu)點:本發(fā)明由于采用通過關(guān)聯(lián)規(guī)則 從大量統(tǒng)計數(shù)據(jù)中挖掘出慢性病的危險因素與慢性病之間有價值的相關(guān)關(guān)系構(gòu)建慢性病 風(fēng)險模型,在慢性病風(fēng)險模型中,更加簡明清晰地顯示了慢性病與各個危險因素同時發(fā)病 的概率,使得人們可以在發(fā)現(xiàn)某個危險因素后及時有效地采取慢性病的有效防治措施,從 而減輕慢性病給社會和家庭帶來的經(jīng)濟負擔(dān)和疾病負擔(dān)。綜上所述,本發(fā)明可以廣泛應(yīng)用 于慢性病風(fēng)險模型的構(gòu)建中。
【附圖說明】
[0019] 圖1是本發(fā)明的基于臨床大數(shù)據(jù)挖掘的慢性病風(fēng)險模型的構(gòu)建流程示意圖;
[0020] 圖2是本發(fā)明的實施例中各個危險因素的出現(xiàn)次數(shù)柱狀圖。
【具體實施方式】
[0021] 下面結(jié)合附圖和實施例對本發(fā)明進行詳細的描述。
[0022] 如圖1所示,本發(fā)明提供一種基于醫(yī)療大數(shù)據(jù)挖掘的慢性病風(fēng)險模型的構(gòu)建方 法,其包括以下步驟:
[0023] 1)確定慢性病的若干個危險因素,通過慢性病篩查與防控工程的實施獲得參與人 群含有危險因素及是否患有慢性病的醫(yī)療統(tǒng)計數(shù)據(jù)。
[0024] 2)對慢性病的若干個危險因素進行任意組合獲得η種危險因素組合,其中,η為 正整數(shù)。將每個危險因素組合作為關(guān)聯(lián)規(guī)則X^Y中的先導(dǎo)X,將慢性病作為關(guān)聯(lián)規(guī)則 X二Y中的后繼Υ,計算每個危險因素組合在醫(yī)療統(tǒng)計數(shù)據(jù)中的支持度supp (XY)和置信度 conf (YIX) 〇
[0025] 其中,每個危險因素組合在醫(yī)療統(tǒng)計數(shù)據(jù)中的支持度supp(XY)為既包含危險因 素組合且又包含慢性病的數(shù)據(jù)在醫(yī)療統(tǒng)計數(shù)據(jù)中的概率;置信度co