亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于代價(jià)敏感學(xué)習(xí)貝葉斯的乳腺癌數(shù)據(jù)計(jì)算機(jī)分類系統(tǒng)的制作方法

文檔序號(hào):11708095閱讀:375來(lái)源:國(guó)知局
基于代價(jià)敏感學(xué)習(xí)貝葉斯的乳腺癌數(shù)據(jù)計(jì)算機(jī)分類系統(tǒng)的制作方法與工藝

本發(fā)明涉及一種數(shù)據(jù)分類技術(shù),尤其是涉及一種基于代價(jià)敏感學(xué)習(xí)貝葉斯的乳腺癌數(shù)據(jù)計(jì)算機(jī)分類系統(tǒng),屬于機(jī)器學(xué)習(xí)中的分類領(lǐng)域。



背景技術(shù):

乳腺癌數(shù)據(jù)是根據(jù)各種醫(yī)療儀器對(duì)人體的檢查結(jié)果形成的。傳統(tǒng)上,國(guó)內(nèi)外主要是憑借醫(yī)生自身的醫(yī)學(xué)知識(shí)和多年積累的臨床診斷經(jīng)驗(yàn)對(duì)獲得的乳腺癌數(shù)據(jù)進(jìn)行分類,這種分類結(jié)果的有效性通常取決于醫(yī)生的業(yè)務(wù)水平,主觀因素影響較大。乳腺癌數(shù)據(jù)分類是一種典型的不平衡分類問(wèn)題,在分類任務(wù)中更關(guān)注其患病類的分類準(zhǔn)確率。因此,開發(fā)乳腺癌數(shù)據(jù)分類系統(tǒng)來(lái)提高乳腺癌分類的準(zhǔn)確率是至關(guān)重要。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種基于代價(jià)敏感學(xué)習(xí)貝葉斯的乳腺癌數(shù)據(jù)計(jì)算機(jī)分類系統(tǒng)。

本發(fā)明的目的可以通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn):

一種基于代價(jià)敏感學(xué)習(xí)貝葉斯的乳腺癌數(shù)據(jù)計(jì)算機(jī)分類系統(tǒng),包括:

數(shù)據(jù)輸入模塊,用于獲取待分類的乳腺癌數(shù)據(jù);

數(shù)據(jù)預(yù)處理模塊,用于對(duì)所獲取的待分類的乳腺癌數(shù)據(jù)進(jìn)行預(yù)處理;

數(shù)據(jù)分類模塊,用于采用經(jīng)訓(xùn)練的代價(jià)敏感樸素貝葉斯分類網(wǎng)絡(luò)對(duì)預(yù)處理后的乳腺癌數(shù)據(jù)進(jìn)行分類。

所述數(shù)據(jù)預(yù)處理模塊對(duì)待分類的乳腺癌數(shù)據(jù)進(jìn)行預(yù)處理具體為:

對(duì)所述乳腺癌數(shù)據(jù)中的每一屬性值均進(jìn)行離散化處理,處理公式為:

其中,n表示某一屬性的屬性值,n1表示該屬性對(duì)應(yīng)的最不正常情況值,n0表示該屬性對(duì)應(yīng)的最正常情況值。

所述數(shù)據(jù)分類模塊包括:

數(shù)據(jù)庫(kù)單元,用于存儲(chǔ)歷史乳腺癌數(shù)據(jù)及對(duì)應(yīng)分類;

分類網(wǎng)絡(luò)建立單元,用于根據(jù)數(shù)據(jù)庫(kù)單元中的數(shù)據(jù)建立代價(jià)敏感樸素貝葉斯分類網(wǎng)絡(luò)并進(jìn)行訓(xùn)練;

實(shí)時(shí)分類單元,用于調(diào)用所述代價(jià)敏感樸素貝葉斯分類網(wǎng)絡(luò)進(jìn)行乳腺癌數(shù)據(jù)的實(shí)時(shí)分類。

所述分類網(wǎng)絡(luò)建立單元中,代價(jià)敏感樸素貝葉斯分類網(wǎng)絡(luò)的建立過(guò)程為:

1)從數(shù)據(jù)庫(kù)單元中調(diào)用訓(xùn)練數(shù)據(jù)test={(x1,y1),(x2,y2),...,(xn,yn)},其中是第i個(gè)樣本的第j個(gè)特征,ajl是第j個(gè)特征可能取的第l個(gè)值,j=1,2,...,n,l=1,2,...,sj,yi∈{t,f},n為測(cè)試樣本個(gè)數(shù),n為特征總數(shù),sj為可能值總數(shù),t、f為分類類別;

2)計(jì)算先驗(yàn)概率:

計(jì)算條件概率:

3)對(duì)于給定的實(shí)例x=(x(1),x(2),...,x(n))t,計(jì)算:

p(y=t)∏jp(x(j)=x(j)|y=t)

p(y=f)πjp(x(j)=x(j)|y=f)

4)加入代價(jià)敏感參數(shù)ctf和cft,構(gòu)建損失函數(shù):

l(x,t)=p(f|x)*ctf

l(x,f)=p(t|x)*cft

其中,0<ctf=1<cft,表明將t類誤分為f類的代價(jià)大于將f類誤分為t類的代價(jià),p(f|x)、p(t|x)分別表示將樣本x預(yù)測(cè)為類別f、類別t的條件概率;

5)根據(jù)損失函數(shù)最小化確定實(shí)例x的類別:

所述數(shù)據(jù)分類模塊還包括:

模型驗(yàn)證單元,用于對(duì)所述分類網(wǎng)絡(luò)建立單元建立并訓(xùn)練的代價(jià)敏感樸素貝葉斯分類網(wǎng)絡(luò)進(jìn)行十折交叉驗(yàn)證。

與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn):

1)本發(fā)明將代價(jià)敏感思想引入到樸素貝葉斯法中形成代價(jià)敏感樸素貝葉斯分類算法,分類時(shí)引入了代價(jià)敏感參數(shù),令多類(f)誤分為少類(t)的代價(jià)為定值1,學(xué)習(xí)過(guò)程中只需調(diào)整一個(gè)參數(shù),即少類(t)誤分為多類(f)的代價(jià)敏感參數(shù)。相比之前的代價(jià)敏感樸素貝葉斯分類器實(shí)驗(yàn)過(guò)程參數(shù)值變少,降低算法復(fù)雜度。同時(shí)對(duì)乳腺癌數(shù)據(jù)進(jìn)行分類,分類準(zhǔn)確率高。

2)本發(fā)明給不同的誤分類情況賦予不同的代價(jià),能處理不平衡分類,能對(duì)乳腺癌數(shù)據(jù)進(jìn)行有效的分類。

附圖說(shuō)明

圖1為本發(fā)明的結(jié)構(gòu)示意圖;

圖2為本發(fā)明與樸素貝葉斯分類算法在不平衡數(shù)據(jù)集上的分類結(jié)果示意圖,橫坐標(biāo)為classificationindex(分類索引),縱坐標(biāo)為ratio(比例),其中,(a)為credit-g,(b)為breast-w,(c)為haberman,(d)為breast-c,(e)為sick,(f)為hepatitis,(g)為vote,(h)為tic-tac-toe。

具體實(shí)施方式

下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明。本實(shí)施例以本發(fā)明技術(shù)方案為前提進(jìn)行實(shí)施,給出了詳細(xì)的實(shí)施方式和具體的操作過(guò)程,但本發(fā)明的保護(hù)范圍不限于下述的實(shí)施例。

如圖1所示,本實(shí)施例提供一種基于代價(jià)敏感學(xué)習(xí)貝葉斯的乳腺癌數(shù)據(jù)計(jì)算機(jī)分類系統(tǒng),包括數(shù)據(jù)輸入模塊1、數(shù)據(jù)預(yù)處理模塊2和數(shù)據(jù)分類模塊3,其中,數(shù)據(jù)輸入模塊1用于獲取待分類的乳腺癌數(shù)據(jù);數(shù)據(jù)預(yù)處理模塊2用于對(duì)所獲取的待分類的乳腺癌數(shù)據(jù)進(jìn)行預(yù)處理;數(shù)據(jù)分類模塊3用于采用經(jīng)訓(xùn)練的代價(jià)敏感樸素貝葉斯分類網(wǎng)絡(luò)(cl-nbc算法)對(duì)預(yù)處理后的乳腺癌數(shù)據(jù)進(jìn)行分類。

每組乳腺癌數(shù)據(jù)有9個(gè)屬性值,由于該9個(gè)屬性值的指標(biāo)取值是連續(xù)的,需要對(duì)數(shù)據(jù)進(jìn)行離散化處理來(lái)方便分類模型進(jìn)行處理。本系統(tǒng)中,數(shù)據(jù)預(yù)處理模塊2對(duì)待分類的乳腺癌數(shù)據(jù)進(jìn)行預(yù)處理具體為:

對(duì)所述乳腺癌數(shù)據(jù)中的每一屬性值均進(jìn)行離散化處理,處理公式為:

其中,n表示某一屬性的屬性值,n1表示該屬性對(duì)應(yīng)的最不正常情況值,n0表示該屬性對(duì)應(yīng)的最正常情況值。

經(jīng)預(yù)處理后的乳腺癌數(shù)據(jù)如表1所示。

表1乳腺癌數(shù)據(jù)集屬性描述

數(shù)據(jù)分類模塊3包括:數(shù)據(jù)庫(kù)單元31,用于存儲(chǔ)歷史乳腺癌數(shù)據(jù)及對(duì)應(yīng)分類;分類網(wǎng)絡(luò)建立單元32,用于根據(jù)數(shù)據(jù)庫(kù)單元中的數(shù)據(jù)建立代價(jià)敏感樸素貝葉斯分類網(wǎng)絡(luò)并進(jìn)行訓(xùn)練;實(shí)時(shí)分類單元33,用于調(diào)用所述代價(jià)敏感樸素貝葉斯分類網(wǎng)絡(luò)進(jìn)行乳腺癌數(shù)據(jù)的實(shí)時(shí)分類。

分類網(wǎng)絡(luò)建立單元32中,代價(jià)敏感樸素貝葉斯分類網(wǎng)絡(luò)的建立過(guò)程為:

1)從數(shù)據(jù)庫(kù)單元中調(diào)用訓(xùn)練數(shù)據(jù)test={(x1,y1),(x2,y2),...,(xn,yn)},其中是第i個(gè)樣本的第j個(gè)特征,ajl是第j個(gè)特征可能取的第l個(gè)值,j=1,2,...,n,l=1,2,...,sj,yi∈{t,f},n為測(cè)試樣本個(gè)數(shù),n為特征總數(shù),sj為可能值總數(shù),t、f為分類類別;

2)計(jì)算先驗(yàn)概率:

計(jì)算條件概率:

3)對(duì)于給定的實(shí)例x=(x(1),x(2),...,x(n))t,計(jì)算:

p(y=t)∏jp(x(j)=x(j)|y=t)

p(y=f)∏jp(x(j)=x(j)|y=f)

4)加入代價(jià)敏感參數(shù)ctf和cft,構(gòu)建損失函數(shù):

l(x,t)=p(f|x)*ctf

l(x,f)=p(t|x)*cft

5)根據(jù)損失函數(shù)最小化確定實(shí)例x的類別:

本發(fā)明的另一實(shí)施例中,數(shù)據(jù)分類模塊3還包括模型驗(yàn)證單元34,用于對(duì)所述分類網(wǎng)絡(luò)建立單元建立并訓(xùn)練的代價(jià)敏感樸素貝葉斯分類網(wǎng)絡(luò)進(jìn)行十折交叉驗(yàn)證,驗(yàn)證代價(jià)敏感樸素貝葉斯分類網(wǎng)絡(luò)在乳腺癌數(shù)據(jù)集上的處理效果,選取的評(píng)價(jià)指標(biāo)為:recall(召回率)、f-measure、g-mean、accurccy(準(zhǔn)確率)。

本實(shí)施例采用的數(shù)據(jù)集來(lái)源于wisconsin醫(yī)學(xué)院的williamh.wolberg博士提供的乳腺癌數(shù)據(jù)樣本。圖2是本發(fā)明在8個(gè)不平衡數(shù)據(jù)集上的分類結(jié)果,對(duì)比的算法是原始的樸素貝葉斯法(nbc)。選擇如下算法評(píng)價(jià)分類指標(biāo):recall、f-measure、g-mean、accurccy作為算法的分類效果指標(biāo)。其中短劃線表示樸素貝葉斯分類算法,實(shí)線表示本發(fā)明。

表2四種算法分類準(zhǔn)確率比較

表2所示為4種算法對(duì)乳腺癌數(shù)據(jù)分類的準(zhǔn)確率,結(jié)果顯示cl-nbc算法的分類準(zhǔn)確率最高,同時(shí)圖2(b)所示少類的recall達(dá)0.9920,意味著乳腺癌數(shù)據(jù)中99.20%被分類正確了,從而影響了生病患者的前期發(fā)現(xiàn)及時(shí)治療。

以上詳細(xì)描述了本發(fā)明的較佳具體實(shí)施例。應(yīng)當(dāng)理解,本領(lǐng)域的普通技術(shù)人員無(wú)需創(chuàng)造性勞動(dòng)就可以根據(jù)本發(fā)明的構(gòu)思作出諸多修改和變化。因此,凡本技術(shù)領(lǐng)域中技術(shù)人員依本發(fā)明的構(gòu)思在現(xiàn)有技術(shù)的基礎(chǔ)上通過(guò)邏輯分析、推理或者有限的實(shí)驗(yàn)可以得到的技術(shù)方案,皆應(yīng)在由權(quán)利要求書所確定的保護(hù)范圍內(nèi)。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1