醫(yī)學(xué)數(shù)據(jù)處理方法
【技術(shù)領(lǐng)域】
[0001] 本申請涉及醫(yī)學(xué)數(shù)據(jù)挖掘領(lǐng)域,更具體地涉及疾病治療方式與病人特征的關(guān)系挖 掘方法。
【背景技術(shù)】
[0002] 在疾病發(fā)現(xiàn)、治療的過程中,醫(yī)生根據(jù)病人的不同特征進(jìn)行相應(yīng)的診斷。因此,發(fā) 現(xiàn)病人特征與治療方式之間的關(guān)系可以對醫(yī)生選擇合適的藥物和治療方式有指導(dǎo)作用?,F(xiàn) 有的相關(guān)分析方法通常將病人信息與治療方式依次進(jìn)行進(jìn)行簡單的假設(shè)檢驗(yàn),并且缺少自 動(dòng)化的實(shí)現(xiàn)方式。因此,期待可以自動(dòng)地在批量病人中得到治療方式與病人特征的關(guān)系的 方法。
【發(fā)明內(nèi)容】
[0003] 為解決現(xiàn)有技術(shù)中存在的上述問題,本申請的實(shí)施方式提出了一種醫(yī)學(xué)數(shù)據(jù)處理 方法,包括步驟S1:將關(guān)于多個(gè)病人的醫(yī)學(xué)數(shù)據(jù)分為病人特征數(shù)據(jù)和治療數(shù)據(jù),并將該特征 數(shù)據(jù)和治療數(shù)據(jù)分別通過歸一化轉(zhuǎn)換成矩陣;步驟S2:利用分級(jí)聚類從治療數(shù)據(jù)中找出具 有相似治療方式的病人;步驟S3:針對每一類病人獲得共同的治療方式;以及步驟S4:針對 每一類病人獲得共同的特征,并對每一類病人,關(guān)聯(lián)此類病人對應(yīng)的治療方式和特征,得到 治療方式和病人特征的對應(yīng)關(guān)系。
【附圖說明】
[0004] 圖1示出了根據(jù)本發(fā)明的實(shí)施方式的醫(yī)學(xué)數(shù)據(jù)處理的方法的示意流程圖。
【具體實(shí)施方式】
[0005] 下面結(jié)合附圖對本發(fā)明的實(shí)施方式進(jìn)行詳細(xì)描述。
[0006] 圖1示出了根據(jù)本發(fā)明的實(shí)施方式的醫(yī)學(xué)數(shù)據(jù)處理方法的示意流程圖。參考圖1, 在本發(fā)明的實(shí)施方式中,提供了醫(yī)學(xué)數(shù)據(jù)處理方法,該方法可以包括:
[0007] 步驟S1:將收集的關(guān)于多個(gè)病人的醫(yī)學(xué)數(shù)據(jù)分為病人特征數(shù)據(jù)和治療數(shù)據(jù),并將 該特征數(shù)據(jù)和治療數(shù)據(jù)分別通過歸一化轉(zhuǎn)換成矩陣。在本申請中,所述的醫(yī)學(xué)數(shù)據(jù)主要可 以分為兩類。第一類為病人特征數(shù)據(jù),例如患者基本信息、治療前臨床檢查信息、治療前尿 常規(guī)信息、治療前生化信息、治療前生命體征等。第二類為治療數(shù)據(jù),例如用藥信息、治療方 式等。數(shù)據(jù)歸一化例如,特征"性別"可根據(jù)男、女轉(zhuǎn)為_1、1;特征"陽性"可以根據(jù)值轉(zhuǎn)為〇、 1;用藥信息可根據(jù)是否用此藥轉(zhuǎn)為1、〇等。
[0008] 本步驟輸入可以為收集的病人數(shù)據(jù),包括病人特征數(shù)據(jù)和治療數(shù)據(jù)。輸出可以為 病人特征矩陣和治療矩陣,病人特征矩陣行為特征,列為病人,值為原始記錄經(jīng)過轉(zhuǎn)化后的 取值。治療矩陣行為治療信息,列為病人,值為原始記錄經(jīng)過轉(zhuǎn)化后的取值。
[0009] 在本發(fā)明的實(shí)施方式中,步驟S1可以包括:
[0010] 步驟S1-1:將醫(yī)學(xué)數(shù)據(jù)分為病人特征數(shù)據(jù)和治療數(shù)據(jù)。病人特征數(shù)據(jù)可以為治療 前病人信息,例如患者基本信息、治療前臨床檢查信息、治療前尿常規(guī)信息、治療前生化信 息、治療前生命體征等。治療數(shù)據(jù)可以例如為用藥信息、治療方式等。
[0011] 步驟S1-2:將病人特征數(shù)據(jù)離散化、數(shù)值化。可以將病人特征數(shù)據(jù)分為離散型、連 續(xù)型。對于離散型取值的因素,可以例如將數(shù)值轉(zhuǎn)化為離散值1、2···。而對于連續(xù)型取值的 因素,保留數(shù)值。
[0012] 步驟S1-3:將離散化和數(shù)值化后的病人特征數(shù)據(jù)歸一化。將病人特征數(shù)據(jù)按照下 式(1)歸一化,從而得到病人特征矩陣X。式(1)中,X為病人特征數(shù)據(jù), Xl表示第i個(gè)病人的特 征數(shù)據(jù),Xmax表示病人特征數(shù)據(jù)的最大值,Xmin表示病人特征數(shù)據(jù)的最小值。
[0014]該病人特征矩陣X例如如下式所示,行為因素,列為病人,每一個(gè)值是一個(gè)數(shù)值。該 式中,f表示特征,共有η個(gè)特征,p個(gè)病人。Xlj表示第j個(gè)病人的第i個(gè)特征的取值。
[0016] 步驟S1-4:將治療數(shù)據(jù)離散化、數(shù)值化??梢詫⒅委煍?shù)據(jù)分為離散型、連續(xù)型。對于 離散型取值的因素,可以例如將數(shù)值轉(zhuǎn)化為離散值1、2···。對于連續(xù)型取值的因素,保留數(shù) 值。
[0017] 步驟S1-5:將離散化和數(shù)值化后的治療數(shù)據(jù)歸一化。將治療數(shù)據(jù)按照下式(3)歸一 化,從而得到病人治療矩陣Y。式(3)中,y為治療數(shù)據(jù), yi表示第i個(gè)病人的治療數(shù)據(jù),ymax表 示病人治療數(shù)據(jù)的最大值,ymin表示病人治療數(shù)據(jù)的最小值。
[0019]病人治療矩陣Y例如如下式所示,行為治療信息,列為病人,每一個(gè)值是一個(gè)數(shù)值。 式中,t表示治療信息,共有m個(gè)特征,p個(gè)病人。yij表示第j個(gè)病人的第i個(gè)治療信息的取值。
[0021]步驟S2:治療方式聚類:利用分級(jí)聚類從治療數(shù)據(jù)中找出具有相似治療方式的病 人。本步驟輸入可以為病人治療矩陣Y,輸出可以為病人分類。這里治療方式聚類可以是指 利用分級(jí)聚類從治療數(shù)據(jù)中找出具有相似治療方式的病人。治療數(shù)據(jù)的形式可以為患疾病 人及其對應(yīng)的治療信息。對于每一個(gè)病人,這些治療信息可以形成向量。對治療信息維度進(jìn) 行分級(jí)聚類,選擇類別N,將病人分成N個(gè)類別。每一類病人具有相似的治療方式。
[0022]具體來說,步驟S2可以包括:
[0023]步驟S2-1:根據(jù)下式(4)計(jì)算病人治療方式向量兩兩的歐式距離。設(shè)… ymi)為病人i對應(yīng)的治療方式向量,式(4)中,Dij表不向量的歐式距1?,yai表不第i個(gè)病人的 第a個(gè)治療信息的取值,yaj表示第j個(gè)病人的第a個(gè)治療信息的取值,共有m個(gè)特征,p個(gè)病人。
[0025]步驟S2-2:將p個(gè)病人劃分為p類,即每一類只含有一個(gè)病人,按照下式(5)計(jì)算類 間距離。式(5)中,Pi表示第i個(gè)病人對應(yīng)的治療方式向量,匕表示第j個(gè)病人對應(yīng)治療方式向 量,DC表示類間距離,C表示類別,DC rs表示類別Cr和類別Cs的類間距離。
[0027] 步驟S2-3:合并兩個(gè)距離最小的類別。
[0028] 步驟S2-4:重復(fù)步驟S2-3,直至最后一個(gè)病人被合并,形成分級(jí)聚類結(jié)果。
[0029]步驟S2-5:選擇類別數(shù)N,將病人分為N類(N為正整數(shù))。
[0030]步驟S3:獲得共同治療方式:針對每一類病人獲得共同的治療方式。本步驟輸入可 以為病人分類、治療矩陣Y,輸出可以為病人分類對應(yīng)的治療方式。該獲得共同治療方式可 以是指對每一類病人尋找共同的治療方式。對多類(例如N類)病人的每一類,將當(dāng)前研究類 作為正樣本,隨機(jī)地從剩下的N-1類中挑選等樣本量的負(fù)樣本。對每一個(gè)治療方式,利用t假 設(shè)檢驗(yàn)獲得顯著的治療方式。經(jīng)過本步驟,得到每一類病人具有的共同治療方式。
[0031] 具體地,該步驟S3可以包括:
[0032]步驟S3-1:將N類病人的當(dāng)前研究類作為正樣本,隨機(jī)地從剩下的N-1類中挑選等 樣本量的負(fù)樣本。
[0033]步驟S3-2:保留治療矩陣Y中與正樣本包含的病人相關(guān)聯(lián)的列,刪除治療矩陣Y中 的其余列,以形成矩陣A;保留治療矩陣Y中與負(fù)樣本包含的病人相關(guān)聯(lián)的列,刪除治療矩陣 Y中的其余列,以形成矩陣B。
[0034]步驟S3-3:針對每一個(gè)治療方式,對矩陣A和B進(jìn)行t假設(shè)檢驗(yàn)。選擇統(tǒng)計(jì)顯著性〈 0.01的治療方式作為當(dāng)前研究類病人的共同治療方式。
[0035] 步驟S3-4:對N類病人的每一類,重復(fù)步驟S3-1到步驟S3-3,得到每類病人對應(yīng)的 治療方式。
[0036]步驟S4:針對每一類病人獲得共同的特征。本步驟輸入可以為病人分類、特征矩陣 X,輸出可以為病人分類對應(yīng)的特征。獲得共同特征是指對每一類病人尋找共同的特征。例 如對N類病人的每一類,將當(dāng)前研究類作為正樣本,隨機(jī)的從剩下的N-ι類中挑選等樣本量 的負(fù)樣本。對每一個(gè)病人特征,利用t假設(shè)檢驗(yàn)獲得顯著的特征。經(jīng)過本步驟,得到每一類病 人具有的共同特征,結(jié)合每一類病人具有的共同治療方式,得到顯著的治療方式與病人特 征對應(yīng)關(guān)系。
[0037] 具體地,該步驟S4可以包括:
[0038]步驟S4-1:將N類病人的當(dāng)前研究類作為正樣本,隨機(jī)地從剩下的N-1類中挑選等 樣本量的負(fù)樣本。
[0039]步驟S4-2:保留特征矩陣X中與正樣本包含的病人相關(guān)聯(lián)的列,刪除特征矩陣X中 的其余列,以形成矩陣A';保留特征矩陣Y中與負(fù)樣本包含的病人相關(guān)聯(lián)的列,刪除特征矩 陣Y中的其余列,以形成矩陣B '。
[0040]步驟S4-3:對每一個(gè)特征,對矩陣A'和B'進(jìn)行t假設(shè)檢驗(yàn)。選擇統(tǒng)計(jì)顯著性〈0.01的 特征作為當(dāng)前研究類病人的共同特征。
[0041] 步驟S4-4:對N類病人的每一類,重復(fù)步驟S4-1到步驟S4-3,得到每類病人對應(yīng)的 特征。
[0042]步驟S4-5:對N類病人的每一類,關(guān)聯(lián)此類病人對應(yīng)的治療方式和特征,得到治療 方式和病人特征的對應(yīng)關(guān)系。
[0043] 可選地,步驟S4可以包括步驟S4-6:采用計(jì)算機(jī)顯示相關(guān)的治療方式和病人特征。
[0044] 步驟S5:調(diào)整參數(shù)以獲得相關(guān)的治療方式和病人特征。經(jīng)過步驟S1到S4,如果沒有 滿足條件的治療方式和病人特征,可采用此步驟來獲得。這里參數(shù)調(diào)整是指如