亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于多標(biāo)記學(xué)習(xí)和貝葉斯網(wǎng)絡(luò)的中醫(yī)癥型分類預(yù)測(cè)方法與流程

文檔序號(hào):12720641閱讀:424來(lái)源:國(guó)知局

本發(fā)明涉及一種信息分類預(yù)測(cè)方法,特別是涉及一種使用標(biāo)記相關(guān)性作為描述樣本的補(bǔ)充特征,并且將多標(biāo)記學(xué)習(xí)算法和貝葉斯網(wǎng)絡(luò)進(jìn)行結(jié)合的基于多標(biāo)記學(xué)習(xí)的中醫(yī)臨床癥型分類方法。



背景技術(shù):

中醫(yī)臨床癥型分類主要是通過(guò)中醫(yī)望聞問(wèn)切的手法得到患者的癥狀信息(如:頭疼、四肢冰冷、脈細(xì)等),并運(yùn)用分類模型得到該患者對(duì)應(yīng)癥型(如:氣虛、肝胃郁熱等)。中醫(yī)臨床癥型分類問(wèn)題最大特點(diǎn)在于:每個(gè)患者對(duì)應(yīng)癥型常有多個(gè),例如:氣陰兩虛兼血瘀,其中包含了氣虛、陰虛和血瘀三種癥型,因此使用多標(biāo)記學(xué)習(xí)模型構(gòu)建分類器成為解決該問(wèn)題的常用方法?;诳疾鞓?biāo)記之間相關(guān)性的不同方式,已有的多標(biāo)記學(xué)習(xí)問(wèn)題求解策略大致可以分為三種:一階、二階和高階;其中一階方法將多標(biāo)記問(wèn)題轉(zhuǎn)化成多個(gè)獨(dú)立的二分類問(wèn)題,忽略標(biāo)記之間的關(guān)系,所以模型泛化能力最低,正確率不高;二階方法將多標(biāo)記問(wèn)題拆分成兩兩標(biāo)記比較,在一定程度上提高分類器泛化能力和正確率,但當(dāng)現(xiàn)實(shí)問(wèn)題具有超越二階的相關(guān)性時(shí),該類方法的性能將會(huì)受到很大影響;高階方法策略通過(guò)考察高階的標(biāo)記相關(guān)性來(lái)構(gòu)造分類器,如處理任一標(biāo)記對(duì)其它所有標(biāo)記的影響,這類方法往往泛化能力最高,但其復(fù)雜度也可能隨之變大,不利于處理大規(guī)模數(shù)據(jù)。使用標(biāo)記相關(guān)性來(lái)設(shè)計(jì)分類器,是多標(biāo)記學(xué)習(xí)領(lǐng)域的特點(diǎn)也是難點(diǎn)?,F(xiàn)在常用的多標(biāo)記分類方法有大部分是將已有的二分類器進(jìn)行改編,以適應(yīng)多標(biāo)記學(xué)習(xí)問(wèn)題。



技術(shù)實(shí)現(xiàn)要素:

要解決的技術(shù)問(wèn)題

為了避免現(xiàn)有技術(shù)的不足之處,本發(fā)明提出一種基于多標(biāo)記學(xué)習(xí)和貝葉斯網(wǎng)絡(luò)的中醫(yī)癥型分類預(yù)測(cè)方法。

技術(shù)方案

一種基于多標(biāo)記學(xué)習(xí)和貝葉斯網(wǎng)絡(luò)的中醫(yī)癥型分類預(yù)測(cè)方法,其特征在于步驟如下:

步驟1:根據(jù)收集到的t個(gè)中醫(yī)病例,整理了s種四診癥狀,選擇以二值方式為特征賦值,如果病人出現(xiàn)某一癥狀,則該癥狀賦值為1,反之為0,由此得到每個(gè)樣本的特征集xi=(xi1,xi2,…,xis),其中i=1,…,t;同時(shí),根據(jù)中醫(yī)病例整理出k種常見(jiàn)的糖尿病癥型,針對(duì)每個(gè)樣本,如果該樣本對(duì)應(yīng)標(biāo)記集中有某一癥型,則為該癥型賦值1,反之為0,由此得到每個(gè)樣本的標(biāo)記集Yi=(yi1,yi2,…,yik),其中i=1,…,t,將每個(gè)樣本的特征集和標(biāo)記集一一對(duì)應(yīng)對(duì)應(yīng)得到一個(gè)數(shù)據(jù)集S={(x1,Y1),(x2,Y2),…,(xt,Yt)},將數(shù)據(jù)集S分為訓(xùn)練數(shù)據(jù)集D={(x1,Y1),(x2,Y2),…,(xm,Ym)}和測(cè)試數(shù)據(jù)集K={(x1,Y1),(x2,Y2),…,(xn,Yn)};

步驟2:將樣本的標(biāo)記集Yi=(yi1,yi2,…,yik)輸入到Bayesian DAG learning工具包中,使用Bayesian DAG learning工具包中所提供動(dòng)態(tài)規(guī)劃算法DP來(lái)計(jì)算得到最優(yōu)貝葉斯網(wǎng)絡(luò)模型;

步驟3:根據(jù)貝葉斯網(wǎng)絡(luò)模型讀取訓(xùn)練數(shù)據(jù)集D中每個(gè)樣本標(biāo)記的父節(jié)點(diǎn)信息pa=(p1,p2,…,pk),將已有s維的四診信息與k維的父節(jié)點(diǎn)信息融合,得到了一個(gè)s+k維的訓(xùn)練數(shù)據(jù)的增廣特征集:xi′=xi∪pai=(xi1,xi2,…,xis,pi1,pi2,…,pik);

步驟4:使用訓(xùn)練數(shù)據(jù)D的特征集x1,x2,…,xm和它們的父節(jié)點(diǎn)信息pa1,pa2,…,pam分別作為訓(xùn)練數(shù)據(jù)和訓(xùn)練數(shù)據(jù)的標(biāo)記集,訓(xùn)練得到一個(gè)多標(biāo)記神經(jīng)網(wǎng)絡(luò),使用這個(gè)多標(biāo)記神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)測(cè)試數(shù)據(jù)集K中每個(gè)樣本標(biāo)記的父節(jié)點(diǎn)信息;然后將父節(jié)點(diǎn)信息與測(cè)試數(shù)據(jù)四診信息融合,形成測(cè)試數(shù)據(jù)的增廣特征集;

步驟5:將增廣訓(xùn)練數(shù)據(jù)集D’={(x1′,Y1),(x2′,Y2),…,(xn′,Yn)}平均分成兩份D1’,D2’用來(lái)訓(xùn)練出最優(yōu)特征子集;使用訓(xùn)練數(shù)據(jù)D1’來(lái)隨機(jī)生成新的特征子集共100組,將100組特征子集作為最初解空間,使用模擬退火算法SA進(jìn)行迭代,每輪迭代中,將經(jīng)過(guò)每組特征子集簡(jiǎn)化后的訓(xùn)練數(shù)據(jù)D1’輸入多標(biāo)記分類器,由多標(biāo)記分類器輸出一個(gè)指標(biāo)Average precision作為描述特征子集的適應(yīng)度,在設(shè)定時(shí)間Tk搜索解空間里適應(yīng)度最高的解,即100組的特征子集:BF1’,BF2’,…,BF100’;

步驟6:將BF1’,BF2’,…,BF100’作為遺傳算法GA的100個(gè)初始種群,經(jīng)過(guò)選擇、交叉和變異算子,不斷迭代產(chǎn)生新的解,每輪迭代中,將經(jīng)過(guò)每組特征子集簡(jiǎn)化后的訓(xùn)練數(shù)據(jù)D1’輸入多標(biāo)記分類器,由多標(biāo)記分類器輸出一個(gè)指標(biāo)Average precision作為描述特征子集的適應(yīng)度,在設(shè)定時(shí)間Tg內(nèi)得到適應(yīng)度最高的100組的特征子集:BF1”,BF2”,…,BF100”;

步驟7:將適應(yīng)度最高的100組解:BF1”,BF2”,…,BF100”作為爬山算法HC的輸入,每輪迭代時(shí)改變每組特征子集中的任意一個(gè)特征值,將經(jīng)過(guò)這組特征子集簡(jiǎn)化后的訓(xùn)練數(shù)據(jù)D1’輸入多標(biāo)記分類器,由多標(biāo)記分類器輸出一個(gè)指標(biāo)Average precision作為描述特征子集的適應(yīng)度,在設(shè)定時(shí)間Th內(nèi)計(jì)算選出適應(yīng)度最優(yōu)的一組,將其作為最優(yōu)特征子集BF;

步驟8:使用步驟5-7對(duì)D2’依次進(jìn)行隨機(jī)生成新的特征子集共100組、模擬退火算法SA、遺傳算法GA、爬山算法HC迭代,得到最優(yōu)特征子集BF’,比較BF和BF’的適應(yīng)度,選取適應(yīng)度高的那組的那組作為最終的最優(yōu)特征子集;

步驟9:將增廣測(cè)試數(shù)據(jù)集中的增廣特征集按照步驟8得到的最終最優(yōu)特征子集的特征序號(hào)進(jìn)行特征選擇,將訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集中的增廣特征集替換為最優(yōu)特征子集,分別得到了最優(yōu)訓(xùn)練數(shù)據(jù)集DBF和最優(yōu)測(cè)試數(shù)據(jù)集KBF;最后使用DBF訓(xùn)練多標(biāo)記分類器,并在KBF上完成測(cè)試。

步驟4中所述的多標(biāo)記神經(jīng)網(wǎng)絡(luò)使用誤差反向傳播算法實(shí)現(xiàn)訓(xùn)練,誤差函數(shù)是:

其中,m是訓(xùn)練樣本數(shù),Yi表示樣本xi對(duì)應(yīng)的相關(guān)標(biāo)記,表示樣本xi對(duì)應(yīng)的無(wú)關(guān)標(biāo)記,表示該網(wǎng)絡(luò)對(duì)樣本xi的相關(guān)標(biāo)記的實(shí)際輸出值;表示該網(wǎng)絡(luò)對(duì)樣本xi的無(wú)關(guān)標(biāo)記的實(shí)際輸出值。

所述的多標(biāo)記分類器采用SVM算法設(shè)計(jì)分類器。

步驟6中所述的選擇、交叉和變異算子分別使用輪盤賭選擇策略Roulette Select Scheme、Half Uniform Crossover Scheme、二進(jìn)制變異策略,交叉和變異概率設(shè)置為pc≥0.8,pm≤0.05。

有益效果

本發(fā)明提出的一種基于多標(biāo)記學(xué)習(xí)和貝葉斯網(wǎng)絡(luò)的中醫(yī)癥型分類預(yù)測(cè)方法,首先,由于增加了癥型之間的相關(guān)性作為補(bǔ)充信息,對(duì)樣本的描述相較傳統(tǒng)四診信息更為豐富,更清晰的刻畫了樣本,提高了分類器的正確率。而且,在中醫(yī)診療實(shí)踐中,中醫(yī)專家是通過(guò)中醫(yī)的理論結(jié)合長(zhǎng)期的臨床實(shí)踐經(jīng)驗(yàn)得出最終的判斷,所以統(tǒng)計(jì)常見(jiàn)癥型并通過(guò)貝葉斯網(wǎng)絡(luò)來(lái)分析癥型之間的聯(lián)系與中醫(yī)診療過(guò)程是一致的。最后,本發(fā)明方法相較于一階的多標(biāo)記學(xué)習(xí)算法,在構(gòu)造分類器時(shí),都使用一樣數(shù)量的分類器,只是本發(fā)明在樣本特征集上增加了若干父節(jié)點(diǎn)信息的值,所以,在計(jì)算復(fù)雜度和時(shí)間成本上的增加極小,但分類效果明顯優(yōu)于一階多標(biāo)記學(xué)習(xí)算法。

附圖說(shuō)明

圖1 6種中醫(yī)癥型的貝葉斯網(wǎng)絡(luò)模型

具體實(shí)施方式

現(xiàn)結(jié)合實(shí)施例、附圖對(duì)本發(fā)明作進(jìn)一步描述:

為了更好的運(yùn)用標(biāo)記之間的相關(guān)性來(lái)提高分類正確率,本發(fā)明提供一種將貝葉斯網(wǎng)絡(luò)與多標(biāo)記學(xué)習(xí)結(jié)合的分類方法。該方法首先針對(duì)中醫(yī)臨床糖尿病的6種常見(jiàn)癥型進(jìn)行統(tǒng)計(jì),使用貝葉斯網(wǎng)絡(luò)計(jì)算每種癥型在其他癥型出現(xiàn)下的條件概率,得到6種癥型之間的有向無(wú)環(huán)圖模型,這種圖模型可以很好的描述標(biāo)記之間的相關(guān)性:兩個(gè)節(jié)點(diǎn)的箭頭代表此兩個(gè)癥型是具有因果關(guān)系或是非條件獨(dú)立的;而節(jié)點(diǎn)中變量間若沒(méi)有箭頭相互連接一起的情況就稱這兩個(gè)癥型彼此之間為條件獨(dú)立。若兩個(gè)節(jié)點(diǎn)間以一個(gè)單箭頭連接在一起,表示其中一個(gè)節(jié)點(diǎn)是“成因(parents)”,另一個(gè)是“果(descendants or children)”。由此通過(guò)建立貝葉斯網(wǎng)絡(luò),可以直觀的發(fā)現(xiàn)每種癥型存在的隱形“成因”,在這里我們稱之為每個(gè)癥型的父節(jié)點(diǎn)信息。所以,本發(fā)明通過(guò)尋找到中醫(yī)糖尿病6種癥型之間的關(guān)系,發(fā)掘每個(gè)癥型存在的隱形“成因”,并將這些“成因”與傳統(tǒng)四診信息結(jié)合起來(lái),構(gòu)造增廣特征集來(lái)描述樣本。最后通過(guò)特征選擇算法和多標(biāo)記分類算法來(lái)構(gòu)造分類器,實(shí)現(xiàn)對(duì)中醫(yī)臨床糖尿病6種常見(jiàn)癥型的分類預(yù)測(cè)。

1.構(gòu)造數(shù)據(jù)集

根據(jù)收集到的128個(gè)糖尿病病例,整理了78種四診癥狀,例如:多飲、多食、口苦、舌紅、脈弦等等,這些癥狀全方位的描述了病人的情況,可當(dāng)作描述樣本的特征。選擇以二值方式為特征賦值,根據(jù)病例的記載如果病人出現(xiàn)某一癥狀,則該癥狀賦值為1,反之為0,由此得到每個(gè)樣本的特征集xi=(xi1,xi2,…,xi78),(i=1,…,128)。同時(shí),根據(jù)病例整理出6種常見(jiàn)的糖尿病癥型,分別是:氣虛、陰虛、血瘀、肝胃郁熱和濕阻,針對(duì)每個(gè)樣本,如果該樣本對(duì)應(yīng)標(biāo)記集中有某一癥型,則為該癥型賦值1,反之為0,由此得到每個(gè)樣本的標(biāo)記集Yi=(yi1,yi2,…,yi6),(i=1,…,128)。將每個(gè)樣本的特征集和標(biāo)記集一一對(duì)應(yīng)對(duì)應(yīng)得到一個(gè)數(shù)據(jù)集S={(x1,Y1),(x2,Y2),…,(x128,Y128)},將數(shù)據(jù)集S分為訓(xùn)練數(shù)據(jù)集D={(x1,Y1),(x2,Y2),…,(xm,Ym)}和測(cè)試數(shù)據(jù)集K={(x1,Y1),(x2,Y2),…,(xn,Yn)}。

2.構(gòu)造貝葉斯網(wǎng)絡(luò)

本發(fā)明運(yùn)用貝葉斯網(wǎng)絡(luò)來(lái)描述標(biāo)記相關(guān)性時(shí),將采集到的128組病例的6維癥型(標(biāo)記集)Yi=(yi1,yi2,…,yi6),(i=1,…,128)作為輸入數(shù)據(jù),隨機(jī)變量y1,y2,…,y6分別代表貝葉斯網(wǎng)絡(luò)中的6個(gè)節(jié)點(diǎn)。使用Bayesian DAG learning(BDAGL)工具包中所提供動(dòng)態(tài)規(guī)劃算法(dynamic programming,DP)來(lái)得到如圖1所示的最優(yōu)貝葉斯網(wǎng)絡(luò)結(jié)構(gòu),貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)是以矩陣形式存在。

3.構(gòu)造訓(xùn)練數(shù)據(jù)的增廣特征集

得到圖1所示的貝葉斯網(wǎng)絡(luò)后,可以讀取每種癥型的父節(jié)點(diǎn)信息pa=(p1,p2,…,p6),例如一個(gè)樣本的標(biāo)記是“肝胃郁熱兼血瘀”(Yi=(0,0,1,1,0,0)),那么他的父節(jié)點(diǎn)信息是“氣虛、陰虛、濕和痰瘀阻內(nèi)”(pai=(1,1,0,0,1,1))。在訓(xùn)練階段,對(duì)每個(gè)訓(xùn)練樣本標(biāo)記集Y中,排在第一個(gè)的,也就是中醫(yī)診斷中的“主證”(key syndrome)按照上述貝葉斯網(wǎng)絡(luò)尋找它的父節(jié)點(diǎn)信息。然后,將已有78維的四診信息與6維的父節(jié)點(diǎn)信息融合,得到了一個(gè)84維的增廣特征集(Augmented feature):xi′=xi∪pai=(xi1,xi2,…,xi78,pi1,pi2,…,pi6)。

4.構(gòu)造測(cè)試數(shù)據(jù)的增廣特征集

對(duì)于測(cè)試數(shù)據(jù),由于不知道其真實(shí)標(biāo)記,所以無(wú)法直接從貝葉斯網(wǎng)絡(luò)中獲取其父節(jié)點(diǎn)信息,從而需要對(duì)它們的父節(jié)點(diǎn)信息進(jìn)行預(yù)測(cè)。本發(fā)明使用多標(biāo)記神經(jīng)網(wǎng)絡(luò)對(duì)測(cè)試樣本的父節(jié)點(diǎn)信息進(jìn)行預(yù)測(cè)。將訓(xùn)練數(shù)據(jù)D的特征集x1,x2,…,xm和它們的父節(jié)點(diǎn)信息pa1,pa2,…,pam作為訓(xùn)練數(shù)據(jù)和訓(xùn)練數(shù)據(jù)的標(biāo)記集,訓(xùn)練得到一個(gè)多標(biāo)記神經(jīng)網(wǎng)絡(luò),使用這個(gè)多標(biāo)記神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)測(cè)試數(shù)據(jù)集K中的每個(gè)樣本標(biāo)記的父節(jié)點(diǎn)信息。多標(biāo)記神經(jīng)網(wǎng)絡(luò)中使用誤差反向傳播算法實(shí)現(xiàn)訓(xùn)練,誤差函數(shù)是:

m是訓(xùn)練樣本數(shù),Yi表示樣本xi對(duì)應(yīng)的相關(guān)標(biāo)記,表示樣本xi對(duì)應(yīng)的無(wú)關(guān)標(biāo)記,表示該網(wǎng)絡(luò)對(duì)樣本xi的相關(guān)標(biāo)記的實(shí)際輸出值;表示該網(wǎng)絡(luò)對(duì)樣本xi的無(wú)關(guān)標(biāo)記的實(shí)際輸出值。可以看出當(dāng)越大,分類誤差越小,分類器效果越好。這個(gè)誤差函數(shù)是為了區(qū)別樣本xi的相關(guān)標(biāo)記和無(wú)關(guān)標(biāo)記,該網(wǎng)絡(luò)在相關(guān)標(biāo)記Yi上的輸出值應(yīng)該大于無(wú)關(guān)標(biāo)記的,其含義與效果與多標(biāo)記算法評(píng)價(jià)指標(biāo)中的ranking loss比較相似,最后通過(guò)梯度下降和誤差反向傳播最小化誤差函數(shù)。

在構(gòu)造網(wǎng)絡(luò)時(shí),網(wǎng)絡(luò)中的輸入層有78個(gè)節(jié)點(diǎn),輸出層有6個(gè)節(jié)點(diǎn),隱層節(jié)點(diǎn)數(shù)設(shè)置為10,激活函數(shù)設(shè)置為“tanh”。將訓(xùn)練好的網(wǎng)絡(luò)用于預(yù)測(cè)測(cè)試數(shù)據(jù)K的6維父節(jié)點(diǎn)信息,然后將父節(jié)點(diǎn)信息與測(cè)試數(shù)據(jù)四診信息合并,形成測(cè)試數(shù)據(jù)的增廣特征集。

5.特征選擇和分類

本發(fā)明使用特征選擇算法對(duì)樣本特征集進(jìn)行特征篩選,找到最優(yōu)特征子集,降低增廣特征集的維數(shù)。本發(fā)明使用的特征選擇算法集合了模擬退火算法、遺傳算法和爬山算法,其核心是遺傳算法。為了避免由于遺傳算法隨機(jī)初始化導(dǎo)致算法陷入局部最優(yōu),在開(kāi)始時(shí)借助模擬退火的全局搜索能力,在解空間里找到散落在不同位置的多個(gè)近似最優(yōu)解,將這些近似最優(yōu)解作為遺傳算法的初始種群,從而避免了在收斂速率很高時(shí)陷入局部最優(yōu),最終在遺傳算法輸出的多個(gè)解中進(jìn)行改編并使用爬山算法將結(jié)果進(jìn)一步優(yōu)化。為了找到最優(yōu)特征子集,同時(shí)需要對(duì)每種特征子集進(jìn)行評(píng)估,本發(fā)明使用多標(biāo)記分類器來(lái)測(cè)試每個(gè)特征子集的性能。

本發(fā)明將增廣訓(xùn)練數(shù)據(jù)集D’={(x1′,Y1),(x2′,Y2),…,(xn′,Yn)}平均分成兩份D1’,D2’用來(lái)訓(xùn)練出最優(yōu)特征子集(也可以分成三份D1’,D2’和D3’,其中兩份用來(lái)訓(xùn)練出最優(yōu)特征子集,一份用來(lái)測(cè)試最優(yōu)特征子集的性能,在經(jīng)過(guò)D1’,D2’訓(xùn)練得到最優(yōu)特征子集后,為了放心,再利用D3’去進(jìn)行測(cè)試,具體操作為:將D3’按照最優(yōu)特征子集的特征序號(hào)進(jìn)行特征選擇,將經(jīng)過(guò)這組特征子集簡(jiǎn)化后的訓(xùn)練數(shù)據(jù)D3’輸入多標(biāo)記分類器,由多標(biāo)記分類器輸出一個(gè)指標(biāo)Average precision作為描述特征子集的適應(yīng)度,比較D3’測(cè)試得到的適應(yīng)度和經(jīng)D1’,D2’訓(xùn)練得到最高的那個(gè)適應(yīng)度,如果在D3’測(cè)試得到的適應(yīng)度值在D1’,D2’訓(xùn)練得到最高的那個(gè)適應(yīng)度的值±0.1范圍內(nèi),就說(shuō)明最優(yōu)特征子集沒(méi)有問(wèn)題;否則重新開(kāi)始訓(xùn)練)。在劃分?jǐn)?shù)據(jù)集時(shí),盡量保證每種標(biāo)記的數(shù)據(jù)在各個(gè)數(shù)據(jù)集中大致一樣多。在進(jìn)行特征選擇前,需構(gòu)造多標(biāo)記分類器實(shí)現(xiàn)對(duì)最優(yōu)特征子集的評(píng)估,本發(fā)明使用SVM算法設(shè)計(jì)分類器:

F(x,Y)=[f(x,y1),…f(x,y6)],

其中Θ是人為加入用以區(qū)分相關(guān)標(biāo)記和無(wú)關(guān)標(biāo)記的閾值,假設(shè)F(x,Y)都是線性模型。該分類器是以最小化ploss為目標(biāo),即:

其中

可以看出是hinge losses的和,定義

則該問(wèn)題可轉(zhuǎn)化為:

此處q是標(biāo)記個(gè)數(shù),n是訓(xùn)練樣本數(shù),向量C表示hinge loss的權(quán)重??梢园l(fā)現(xiàn),ξ可由決定,不需要優(yōu)化,所以通過(guò)引入約束矩陣A,我們可將優(yōu)化問(wèn)題寫成:

由于上式計(jì)算量較大,需要將數(shù)據(jù)集劃分成若干份,以便于并行計(jì)算,最后引入surrogate augmented lagrangian算子:

其中αz和η是拉格朗日乘數(shù)。那么,上式可分解成為Z個(gè)獨(dú)立的子問(wèn)題,即:

k是迭代次數(shù)。由此,該問(wèn)題可由現(xiàn)有處理SVM分類問(wèn)題的多種方法來(lái)處理。

得到分類器F(x,Y)=[f(x,y1),…f(x,y6)]后,可以用來(lái)測(cè)試每種特征子集的好壞。接下使用訓(xùn)練數(shù)據(jù)D1’和D2’來(lái)隨機(jī)生成新的特征子集共100組:BF1,BF2,…,BF100,將100組特征子集輸入特征選擇算法,經(jīng)過(guò)不斷更新迭代最終輸出最優(yōu)特征子集。本發(fā)明使用分類器中的指標(biāo)Average precision作為適應(yīng)度函數(shù)(fittness)來(lái)評(píng)價(jià)每一種特征子集的好壞,最優(yōu)特征子集具有最高的Average precision。

首先,將100組特征子集BF1,BF2,…,BF100作為最初解空間,輸入模擬退火算法(SA)。在SA的每次迭代時(shí),對(duì)100組特征子集進(jìn)行變異,以產(chǎn)生新的特征子集,模擬退火算法的變異概率pm隨著溫度下降而降低,最終在限定時(shí)間Tk搜索到解空間里適應(yīng)度最高的解(特征子集)。

其中Tc表示當(dāng)前溫度,由上式可知,變異概率pm隨著當(dāng)前溫度Tc的下降,由0.5逐漸趨近于0,即對(duì)特征子集的改變逐漸變小,這個(gè)變異操作相當(dāng)于在整個(gè)解空間隨機(jī)的采樣。產(chǎn)生新的特征子集進(jìn)入搜索空間后,模擬退火算法(SA)以一定概率接受比當(dāng)解稍差的解,狀態(tài)轉(zhuǎn)移概率如下所示:

可以看出,隨著溫度Tc降低,較差的解被接受的概率也越來(lái)越小。溫度冷卻的進(jìn)度是隨著程序運(yùn)行的耗時(shí)進(jìn)行的。于是當(dāng)時(shí)間截止,可得到經(jīng)過(guò)全局搜索保留下的100組較好的解,即100組較好的特征子集:BF1’,BF2’,…,BF100’。將BF1’,BF2’,…,BF100’作為遺傳算法(GA)的100個(gè)初始種群,在時(shí)間Tg內(nèi),經(jīng)過(guò)選擇、交叉和變異算子,不斷迭代產(chǎn)生新的解,在這里使用輪盤賭選擇策略(Roulette Select Scheme),交叉使用Half Uniform Crossover Scheme,變異采用二進(jìn)制變異策略,交叉和變異概率一般設(shè)置為pc≥0.8,pm≤0.05,得到適應(yīng)度最高的100組解:BF1”,BF2”,…,BF100”。最后,把由遺傳算法搜索得到的100組特征子集,作為爬山算法(HC)的輸入,在時(shí)間Th內(nèi),每輪迭代時(shí)改變每組特征子集中的任意一個(gè)特征值,并從中計(jì)算選出適應(yīng)度最優(yōu)的一組,即為最優(yōu)特征子集,例如:原始特征子集x=(x1,x2,…,x84)是84維的,經(jīng)過(guò)特征選擇之后的最優(yōu)特征子集也許是x=(x2,x4…,x81)是40維的。這個(gè)特征子集記錄了被選擇的特征序號(hào)。

在增廣訓(xùn)練數(shù)據(jù)集D’上得到最優(yōu)特征子集之后,對(duì)增廣測(cè)試數(shù)據(jù)集中的增廣特征集按照最優(yōu)特征子集的特征序號(hào)進(jìn)行特征選擇,由此完成了增廣訓(xùn)練數(shù)據(jù)集D’和增廣測(cè)試數(shù)據(jù)集的特征選擇,將訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集中的增廣特征集替換為最優(yōu)特征子集分別得到了最優(yōu)訓(xùn)練數(shù)據(jù)集DBF和最優(yōu)測(cè)試數(shù)據(jù)集KBF。最后使用DBF訓(xùn)練先前構(gòu)造的多標(biāo)記分類器,并在KBF上完成測(cè)試。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1