果沒有滿足 條件的治療方式與病人特征,通過調(diào)整類別個數(shù)重復計算來獲得相關(guān)的治療方式與病人特 征。
[0045] 具體地,步驟S5可以包括:
[0046] 步驟S5-1:對N類病人中的某類,如果步驟S3-3沒有得到此類病人對應的共同治療 方式,則可提高統(tǒng)計顯著性閾值,例如提高到〇. 05。
[0047] 步驟S5-2:對N類病人中的某類,如果步驟S4-3沒有得到此類病人對應的共同特 征,則可提高統(tǒng)計顯著性閾值,例如提高到0.05。
[0048]步驟S5-3:在步驟S2-5中降低或升高類別個數(shù)的值,對病人的類別數(shù)目進行調(diào)整, 重復步驟S3和/或S4,在不同的租細粒度上得到相關(guān)的治療方式和病人特征。
[0049]在上述步驟S3和步驟S4中提到的t假設(shè)檢驗可以是所屬領(lǐng)域中已知的檢驗方法, 下文簡單介紹t假設(shè)檢驗的基本思想。
[0050] 設(shè)總體X與Y獨立,。:表不乂的標準差,以:表不乂的均值,Si表不X的樣本方差,無表不X 的樣本均值,σ2表示Y的標準差,μ2表示X的均值,s2表示Y的樣本方差,F(xiàn)表示Y的樣本均值,p 表示統(tǒng)計顯著性。設(shè)兩正態(tài)總體的方差相等,即erf = σ22 = σ2,考慮雙邊假設(shè)檢驗問題:
[0051] Ηο:μι = μ2*^?ι :μι矣μ2
[0052] 這時在μι = μ2下可得:
[0055] 由此得到上述假設(shè)檢驗問題的拒絕域為
[0056] { | Τ | >ti-Ρ/2(ηι+η2_2)}
[0057] 本領(lǐng)域技術(shù)人員可以理解上述的方法可以通過軟件、硬件以及軟件和硬件的結(jié)合 的方式來實施。
[0058] 在疾病發(fā)現(xiàn)、治療的過程中,醫(yī)生可以根據(jù)病人的不同特征進行相應的診斷。發(fā)現(xiàn) 病人特征與治療方式之間的關(guān)系可以指導醫(yī)生選擇合適的藥物和治療方式。本發(fā)明的實施 方式與現(xiàn)有技術(shù)相比具有至少以下優(yōu)點之一。
[0059] 1.現(xiàn)有的相關(guān)分析方法通常缺少自動化的實現(xiàn)方式。本發(fā)明的實施方式提出了一 種疾病治療方式與治療前因素的關(guān)系挖掘方法,可以自動地在大規(guī)模的病人中找出具有相 似治療方式的病人,并且檢測出相似治療方式病人所具有的共同特征,從而得到治療方式 與病人特征的關(guān)系。
[0060] 2.現(xiàn)有的相關(guān)分析方法通常將病人信息與治療方式依次進行假設(shè)檢驗,而實際中 病人之間存在著相似性。本發(fā)明的實施方式的步驟S2從整體的角度出發(fā),利用聚類的思想 從治療數(shù)據(jù)中找出具有相似治療方式的病人,將病人劃分為不同的類別進行研究。
[0061] 3.現(xiàn)有的相關(guān)分析方法分類后通常缺乏更細致的分析。本發(fā)明的實施方式的步驟 S3針對每一類病人獲得共同的治療方式,步驟S4針對每一類病人獲得共同的特征。步驟S3 和S4在整體角度的基礎(chǔ)上,對每一類進行了更細致的分析。
[0062] 4.現(xiàn)有的相關(guān)分析方法通常執(zhí)行步驟較為單一,假設(shè)分析結(jié)果與預期不符,缺乏 反饋過程。本發(fā)明的實施方式中的步驟S5提出了調(diào)節(jié)參數(shù)的反饋過程,來得到符合實際情 況的結(jié)果。
[0063]本領(lǐng)域技術(shù)人員可以理解,上面描述的本發(fā)明的實施方式的醫(yī)學數(shù)據(jù)處理方法的 步驟不是必須按照所示的步驟的順序來執(zhí)行的。只要能夠?qū)嵤┍景l(fā)明的實施方式,可以按 其他順序來執(zhí)行步驟,或至少一些步驟可以同步進行。例如,步驟S3和步驟S4的任意一個步 驟可以先被執(zhí)行,或同時被執(zhí)行。例如,步驟Sl-2、S1-3的組合和步驟Sl-4、S1-5的組合中的 任意一個組合可以先被執(zhí)行,或同時被執(zhí)行。
[0064]雖然本申請是通過描述【具體實施方式】的方式來描述本發(fā)明,但本領(lǐng)域技術(shù)人員可 以理解這些具體的實施方式是示意性而非限制性的。本領(lǐng)域技術(shù)人員通過在閱讀本申請的 實施方式了解本申請的構(gòu)思的情況下可以對實施方式進行各種修改、變形和替換。
【主權(quán)項】
1. 一種醫(yī)學數(shù)據(jù)處理方法,該方法包括: 步驟S1:將關(guān)于多個病人的醫(yī)學數(shù)據(jù)分為病人特征數(shù)據(jù)和治療數(shù)據(jù),并將該特征數(shù)據(jù) 和治療數(shù)據(jù)分別通過歸一化轉(zhuǎn)換成矩陣; 步驟S2:利用分級聚類從治療數(shù)據(jù)中找出具有相似治療方式的病人; 步驟S3:針對每一類病人獲得共同的治療方式;W及 步驟S4:針對每一類病人獲得共同的特征,并對每一類病人,關(guān)聯(lián)此類病人對應的治療 方式和特征,得到治療方式和病人特征的對應關(guān)系。2. 根據(jù)權(quán)利要求1所述的方法,其中,所述步驟S1包括: 步驟S1-1:將醫(yī)學數(shù)據(jù)分為病人特征數(shù)據(jù)和治療數(shù)據(jù); 步驟S1-2:將病人特征數(shù)據(jù)離散化、數(shù)值化; 步驟S1-3:將離散化和數(shù)值化后的病人特征數(shù)據(jù)按照公式(1)歸一化,從而得到病人特 征矩陣X,其中,Xi表示第i個病人的特征數(shù)據(jù),Xmax表示病人特征數(shù)據(jù)的最大值,Xmin表示病人特征 數(shù)據(jù)的最小值; 步驟S1-4:將治療數(shù)據(jù)離散化、數(shù)值化; 步驟S1-5:將離散化和數(shù)值化后的治療數(shù)據(jù)按照公式(3)歸一化,從而得到病人治療矩 陣Y,其中,yi表示第i個病人的治療數(shù)據(jù),ymax表示病人治療數(shù)據(jù)的最大值,y"in表示病人治療 數(shù)據(jù)的最小值。3. 根據(jù)權(quán)利要求1所述的方法,其中,所述步驟S2包括: 步驟S2-1:根據(jù)式(4)計算病人治療方式向量兩兩的歐式距離; 設(shè)Pi= (yii ,y2i''Tmi)為病人i對應的治療方式向量,式(4)中,Di康不向量的歐式距離, yai表示第i個病人的第a個治療信息的取值,yaj表示第j個病人的第a個治療信息的取值,步驟S2-2:將P個病人劃分為P類,即每一類只含有一個病人,按照下式(5)計算類間距 離,式(5)中,DC表示類間距離,C表示類別,DCrs表示類別Cr和類別Cs的類間距離,步驟S2-3:合并兩個距離最小的類別; 步驟S2-4:重復步驟S2-3,直至最后一個病人被合并,W形成分級聚類結(jié)果; 步驟S2-5:選擇類別數(shù)N,將病人分為N類。4. 根據(jù)權(quán)利要求1所述的方法,其中,所述步驟S3包括: 步驟S3-1:將N類病人的當前研究類作為正樣本,隨機地從剩下的N-1類中挑選等樣本 量的負樣本; 步驟S3-2:保留治療矩陣Υ中與正樣本包含的病人相關(guān)聯(lián)的列,刪除治療矩陣Υ中的其 余列,W形成矩陣Α;保留治療矩陣Υ中與負樣本包含的病人相關(guān)聯(lián)的列,刪除治療矩陣Υ中 的其余列,W形成矩陣Β; 步驟S3-3:針對每一個治療方式,對矩陣A和Β進行t假設(shè)檢驗,選擇統(tǒng)計顯著性<0.01的 治療方式作為當前研究類病人的共同治療方式; 步驟S3-4:對N類病人的每一類,重復所述步驟S3-1到所述步驟S3-3,得到每類病人對 應的治療方式。5. 根據(jù)權(quán)利要求1所述的方法,其中,所述步驟S4包括: 步驟S4-1:將N類病人的當前研究類作為正樣本,隨機地從剩下的N-1類中挑選等樣本 量的負樣本; 步驟S4-2:保留特征矩陣X中與正樣本包含的病人相關(guān)聯(lián)的列,刪除特征矩陣X中的其 余列,W形成矩陣A';保留特征矩陣Y中與負樣本包含的病人相關(guān)聯(lián)的列,刪除特征矩陣Y中 的其余列,W形成矩陣B'; 步驟S4-3:對每一個特征,對矩陣A '和B '進行t假設(shè)檢驗。選擇統(tǒng)計顯著性<0.01的特征 作為當前研究類病人的共同特征; 步驟S4-4:對N類病人的每一類,重復所述步驟S4-1到步驟S4-3,得到每類病人對應的 特征; 步驟S4-5:對N類病人的每一類,關(guān)聯(lián)此類病人對應的治療方式和特征,得到治療方式 和病人特征的對應關(guān)系。6. 根據(jù)權(quán)利要求4或5所述的方法,該方法還包括: 步驟S5:調(diào)整參數(shù)W獲得相關(guān)的治療方式和病人特征。7. 根據(jù)權(quán)利要求6所述的方法,其中,所述步驟S5包括: 對N類病人中的一類,如果所述步驟S3-3沒有得到此類病人對應的共同治療方式,則提 高統(tǒng)計顯著性闊值,再重復所述步驟S3。8. 根據(jù)權(quán)利要求6所述的方法,其中,所述步驟S5包括: 對N類病人中的一類,如果所述步驟S4-3沒有得到此類病人對應的共同特征,則可提高 統(tǒng)計顯著性闊值,再重復所述步驟S4。9. 根據(jù)權(quán)利要求6所述的方法,其中,所述步驟S5包括: 在所述步驟S2-5中降低或升高類別數(shù)目,重復所述步驟S3和/或所述步驟S4。
【專利摘要】公開了一種醫(yī)學數(shù)據(jù)處理方法,包括步驟S1:將關(guān)于多個病人的醫(yī)學數(shù)據(jù)分為病人特征數(shù)據(jù)和治療數(shù)據(jù),并將該特征數(shù)據(jù)和治療數(shù)據(jù)分別通過歸一化轉(zhuǎn)換成矩陣;步驟S2:利用分級聚類從治療數(shù)據(jù)中找出具有相似治療方式的病人;步驟S3:針對每一類病人獲得共同的治療方式;步驟S4:針對每一類病人獲得共同的特征,以及對每一類病人,關(guān)聯(lián)此類病人對應的治療方式和特征,得到治療方式和病人特征的對應關(guān)系。
【IPC分類】G06F19/00
【公開號】CN105574351
【申請?zhí)枴緾N201511029760
【發(fā)明人】黃亦謙
【申請人】北京千安哲信息技術(shù)有限公司
【公開日】2016年5月11日
【申請日】2015年12月31日