基于多標(biāo)簽?zāi)P偷呐两鹕∽C型的輔助預(yù)測方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種針對帕金森病證型的建模及預(yù)測方法,該方法解決了多標(biāo)簽分類算法在類別稀疏和不均衡的情況下預(yù)測不準(zhǔn)確的問題。
【背景技術(shù)】
[0002]數(shù)據(jù)挖掘主要是指從巨量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。隨著數(shù)據(jù)挖掘的發(fā)展,如今數(shù)據(jù)挖掘技術(shù)已經(jīng)廣泛的應(yīng)用于各個行業(yè)當(dāng)中。
[0003]本發(fā)明的主要目標(biāo)就是將數(shù)據(jù)挖掘技術(shù)應(yīng)用于帕金森病中醫(yī)診斷中,通過數(shù)據(jù)挖掘技術(shù)的引入,以規(guī)范帕金森病中醫(yī)診斷的過程,使其診斷過程可以盡可能的客觀可靠,從而達到應(yīng)用于實踐中輔助醫(yī)生進行臨床診療,更好的服務(wù)患者的目的。
[0004]中醫(yī)將帕金森病分為五種證型,每個患者可能伴有一種或兩種證型,并且有主證和次證之分。隨之伴隨的問題是,傳統(tǒng)的多標(biāo)簽分類算法只能預(yù)測證型,無法區(qū)分主、次證。但是,若將主、次證分開預(yù)測又會造成訓(xùn)練數(shù)據(jù)的類別不均衡和割斷了主、次證的關(guān)聯(lián)性,會嚴(yán)重影響預(yù)測的效果?;谛畔㈧氐亩鄻?biāo)簽分類方法即可以區(qū)分主、次證,又能夠很好的克服主、次證分離后類別不均衡的問題,保證了預(yù)測的準(zhǔn)確性。
【發(fā)明內(nèi)容】
[0005]本發(fā)明目的是,解決的這樣的問題,當(dāng)帕金森病主、次證分離時造成的類別不均衡的問題,主要關(guān)注的是既能輔助識別主、次證,又要能夠保證提高預(yù)測的準(zhǔn)確性。
[0006]本發(fā)明的技術(shù)方案是:基于多標(biāo)簽?zāi)P偷呐两鹕∽C型的輔助預(yù)測方法,包括三個模塊:預(yù)測模型的構(gòu)建、均衡性評估和挖掘預(yù)測階段處理模塊;
[0007]I)預(yù)測模型的構(gòu)建模塊的流程:
[0008]a.選定一個主證;
[0009]b.選取K個次證;
[0010]c.將主證和K個次證組成新的證型集;
[0011 ] d.評估該證型集的均衡性;
[0012]e.若均衡性滿足條件,則確定了主證與次證的關(guān)聯(lián)性,否則返回b ;
[0013]f.將證型集作為訓(xùn)練數(shù)據(jù)構(gòu)建一個多標(biāo)簽?zāi)P停?br>[0014]g.結(jié)束。
[0015]2)均衡性評估
[0016]a.將l)-c得到的證型集進行組合;
[0017]b.統(tǒng)計證型組合的數(shù)量和出現(xiàn)的頻率;
[0018]c.根據(jù)信息熵公式,計算該證型集的熵值;
[0019]d.結(jié)束。
[0020]3)預(yù)測階段
[0021]a.將給定的待預(yù)測數(shù)據(jù)傳給l)_f得到模型進行分類;
[0022]b.將所有模型的分類結(jié)果進行投票,得到最終預(yù)測結(jié)果。
[0023]c.結(jié)束。
[0024]本發(fā)明l)-a中,因為所有證型都有可能成為主證,因此采用逐個遍歷證型的方法。
[0025]本發(fā)明I) _b,c,d中,選取K個次證,K首先取0,也就是將主證單獨作為一個證型集,若不滿足均衡條件,將K逐漸遞增,取0,1,2,3..?此外,當(dāng)K值變大時,次證的選取組合就會變多。為了取得全局最優(yōu)的組合,可以遍歷所可能性,取均衡性最優(yōu)的組合,但這個方案的執(zhí)行效率低。也可以隨機的抽取一些組合提高效率,但是得到的是局部最優(yōu)的組合。這兩種選取方案各有利弊,可根據(jù)需求選取。
[0026]本發(fā)明l)-e中,一旦確認(rèn)了證型集,就可確立主證與次證的關(guān)聯(lián)性。
[0027]本發(fā)明I)_f中,采用Label Powerset多標(biāo)簽分類算法構(gòu)建模型。一個證型集對應(yīng)訓(xùn)練一個模型。
[0028]本發(fā)明2)_a中,原數(shù)據(jù)中使用01標(biāo)注患者是否診斷有該證型,采用二進制編碼的方式對證型集進行組合。
[0029]本發(fā)明2)_b中,統(tǒng)計出證型組合的數(shù)量和每種組合出現(xiàn)的頻率。
[0030]本發(fā)明2)-C中,信息j:商的公式為-Spi1g2(Pi)。為了方便K取不同值時,比較不同證型集之間的摘值,歸一化摘值:_ Spi1g2 (Pi)/1g2 (C)。Pi某種組合出現(xiàn)的頻率.
[0031]本發(fā)明3)-a中,將待預(yù)測的數(shù)據(jù)分別傳給l)_f中構(gòu)建的模型,每個模型都將得到一個預(yù)測結(jié)果。
[0032]本發(fā)明3)_b中,根據(jù)中醫(yī)治療帕金森病的經(jīng)驗,患者患證的可能性有兩種:只患有一種證型,或者患有一個主證和一個次證。由預(yù)測模型的建立階段可知,每個模型都是由一個主證和K個次證組成的數(shù)據(jù)集訓(xùn)練獲得,因此每個模型的預(yù)測結(jié)果都將是一個主證和若干次證出現(xiàn)的概率。本發(fā)明首先將根據(jù)所有模型預(yù)測出來的主證的概率進行排序,將概率最高的主證作為最終的預(yù)測結(jié)果。次證是由主證所在的模型決定的,所有次證中出現(xiàn)概率最高的為最終預(yù)測結(jié)果。以上主證和次證出現(xiàn)的概率均以50%為閾值,低于50%的無效。當(dāng)主證模型中無有效的次證,則該主證為最終預(yù)測結(jié)果。當(dāng)所有主證出現(xiàn)的概率低于50%時,則選取概率最高的次證作為最終預(yù)測結(jié)果。
[0033]本發(fā)明的有益效果是,當(dāng)帕金森病主、次證分離時造成的類別不均衡的問題,本發(fā)明方法既能輔助識別主、次證,又要能夠保證提高預(yù)測的準(zhǔn)確性。
【附圖說明】
[0034]圖1是本發(fā)明用于預(yù)測模型的構(gòu)建的方法流程圖。
[0035]圖2是本發(fā)明用于輔助預(yù)測帕金森證型的方法流程圖。
【具體實施方式】
[0036]為了更了解本發(fā)明的技術(shù)內(nèi)容,特舉具體實施例并配合所附圖示說明如下。
[0037]圖1是本發(fā)明構(gòu)建預(yù)測模型的流程圖。主要分為兩個模塊:預(yù)測模型構(gòu)建和均衡性評估。
[0038]每個證型都可能成為主證或者次證,為了識別主次之分,在組織訓(xùn)練數(shù)據(jù)時必須將主次分離。原始數(shù)據(jù)的證型表達為(證型1,證型2,證型3,證型4,證型5) = (1,0,2,0,O),該數(shù)據(jù)說明證型I為主證,證型3為次證。主次分離后得到(證型1-主,證型2-主,證型3-主,證型4-主,證型5-主,證型1-次,證型2-次,證型3-次,證型4-次,證型5-次)=(1,0,0,0,0,0,0,1,0,0),這就造成了訓(xùn)練數(shù)據(jù)的類別稀疏,若直接交給多標(biāo)簽算法構(gòu)建模型得到的結(jié)果將非常不理想。
[0039]本發(fā)明初始認(rèn)為當(dāng)主次數(shù)據(jù)分離時,每個主證都是不均衡的,因此步驟(I)選定一個主證的方法就是逐個遍歷所有的主證。
[0040]步驟(2)實際上是構(gòu)建均衡的證型集,其中包含一個主證和K個次證,如(證型
1-主,證型3-次,證型4-次)構(gòu)成一個均衡集。K的取值范圍為0,1,2,…,n-l(n是證型的數(shù)目),初始時K = 0,也就是證型集中只有主證一個證型。構(gòu)建均衡的證型集有兩種方法,I)將所有可能的證型集計算出來,然后去均衡性最優(yōu)的,也就是熵值最高的集合;2)K從0,I, 2,…,η-1逐個取值,發(fā)現(xiàn)證型集的熵值達