專利名稱:一種基于支持向量機(jī)的專家系統(tǒng)知識(shí)獲取方法
技術(shù)領(lǐng)域:
本發(fā)明屬于信息處理技術(shù)領(lǐng)域,特別是一種基于支持向量機(jī)的專家系統(tǒng)知識(shí)獲取方法。
背景技術(shù):
目前,基于數(shù)據(jù)挖掘的知識(shí)獲取主要是通過機(jī)器學(xué)習(xí)或數(shù)理統(tǒng)計(jì)方面的一些算法從已有的一些數(shù)據(jù)中獲取知識(shí)。其中關(guān)聯(lián)分析法、人工神經(jīng)元網(wǎng)絡(luò)、粗糙集和決策樹等在數(shù)據(jù)挖掘中的應(yīng)用很廣泛。如果能把這些算法和目前的實(shí)際應(yīng)用相結(jié)合,就能夠從實(shí)際的數(shù)據(jù)中自動(dòng)獲取知識(shí)規(guī)則,有效地突破了知識(shí)獲取的瓶頸問題。將大大提升專家系統(tǒng)的智能化水平和知識(shí)獲取能力。近年來,支持向量機(jī)作為數(shù)據(jù)挖掘中的一種新興的分類技術(shù),完善的泛化性理論指導(dǎo)和核函數(shù)強(qiáng)大的非線性映射能力使支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)一樣,具有逼近任意連續(xù)有界非線性函數(shù)的能力,并且它還具有神經(jīng)網(wǎng)絡(luò)所不具有的許多優(yōu)點(diǎn),如泛化能力強(qiáng),學(xué)習(xí)問題不存在局部極小,可以自動(dòng)確定學(xué)習(xí)機(jī)的結(jié)構(gòu),不存在維數(shù)災(zāi)難問題,以及處理小樣本能力強(qiáng)等。由于這些優(yōu)點(diǎn),基于支持向量機(jī)的數(shù)據(jù)挖掘技術(shù)已受到數(shù)據(jù)挖掘界的重視,對(duì)它的研究不斷深入。而且,迄今發(fā)表的SVM規(guī)則提取算法不僅簡(jiǎn)單而且具有廣泛的適用性。目前已有的從SVM中提取知識(shí)的方法有二,一是首先利用K-means聚類算法得到訓(xùn)練樣本集中每一類樣本的聚類中心,然后在得到的聚類中心和支持向量的基礎(chǔ)上構(gòu)建橢圓型的規(guī)貝U,最后將橢圓型規(guī)則映射到樣本空間坐標(biāo)軸上,得到if-then規(guī)則。但是由該方法得到的橢圓型規(guī)則之間重疊的比較嚴(yán)重,而且由于K-means聚類效果過分依賴于聚類中心初始值,因此這種規(guī)則提取方法很難控制得到規(guī)則的數(shù)目以及規(guī)則的質(zhì)量;另一是基于SVM的超矩形規(guī)則提取算法,首先將訓(xùn)練樣本映射到高維特征空間中,以得到樣本的支持向量和最優(yōu)分類超平面,然后在得到的支持向量和聚類中心的基礎(chǔ)上構(gòu)建超矩形,最后將超矩形映射到樣本空間坐標(biāo)軸上,得到超矩形規(guī)則。但是這種方法得到的超矩形規(guī)則由于用到了樣本的所有特征,這樣得到的知識(shí)規(guī)則復(fù)雜、可理解性低。
發(fā)明內(nèi)容
本發(fā)明針對(duì)上述問題,提出了一種基于支持向量機(jī)的專家系統(tǒng)知識(shí)獲取方法,目的就在于解決上述現(xiàn)有技術(shù)的局限性,有效地獲取專家系統(tǒng)知識(shí)規(guī)則,突破專家系統(tǒng)知識(shí)動(dòng)態(tài)獲取瓶頸。為達(dá)成上述目的,本發(fā)明的技術(shù)方案是一種基于支持向量機(jī)的專家系統(tǒng)知識(shí)獲取方法,包括數(shù)據(jù)預(yù)處理、支持向量聚類、超矩形規(guī)則提取和規(guī)則簡(jiǎn)化、以及基于規(guī)則的樣本識(shí)別過程;具體描述如下步驟A,對(duì)不平衡樣本數(shù)據(jù)進(jìn)行預(yù)處理;判斷各類樣本的數(shù)目是否平衡,若不平衡,則采用SMOTE過抽樣算法對(duì)少數(shù)類樣本進(jìn)行重采樣,以使得各類樣本數(shù)目平衡;其過程如下
步驟A-1,對(duì)少數(shù)類中的每一個(gè)樣本X,計(jì)算X到少數(shù)類樣本集中每個(gè)樣本的歐幾里德距離,獲得其k個(gè)最近鄰;步驟A-2,樣本數(shù)據(jù)集中多數(shù)類與少數(shù)類樣本數(shù)目的比值為不平衡比率U,根據(jù)U設(shè)置采樣倍率;對(duì)每一個(gè)少數(shù)類樣本X,從其k個(gè)最近鄰中隨機(jī)選擇合適的一個(gè)樣本為 ,在X與 之間進(jìn)行隨機(jī)線性插值;步驟A-3,構(gòu)造新的少數(shù)類樣本Xnew Xmw = x+ra//6/(0,l)x(;v- . )其中,rand(0,I)表示O到I之間的一個(gè)隨機(jī)數(shù);步驟A-4,把人工合成的新樣本與原始訓(xùn)練樣本集并為一個(gè)新的訓(xùn)練集;步驟B,利用遺傳算法對(duì)特征維數(shù)大的樣本,進(jìn)行特征選取,其步驟為步驟B-1,二進(jìn)制編碼,二進(jìn)制碼中的每一位對(duì)應(yīng)一個(gè)特征,對(duì)于二進(jìn)制碼中每一位的值,“O”表示特征未被選中;“1”表示特征被選中;步驟B-2,生成初始群體,隨機(jī)產(chǎn)生S個(gè)初始串構(gòu)成初始種群,S表示種群數(shù),S為自然數(shù);步驟B-3,計(jì)算個(gè)體適應(yīng)度值,選取基于最近鄰分類法的適應(yīng)度函數(shù),利用其分類識(shí)別率作為特征評(píng)價(jià)函數(shù),其步驟為步驟B-3-1,將樣本隨機(jī)分為訓(xùn)練樣本和測(cè)試樣本集;步驟B-3-2,對(duì)每一個(gè)特征組合初始串,去掉訓(xùn)練樣本和測(cè)試樣本中未被選中的特征,從而得到新的訓(xùn)練樣本和測(cè)試樣本集,運(yùn)用最近鄰法對(duì)測(cè)試樣本進(jìn)行識(shí)別,得到識(shí)別率R;步驟B-3-3,考慮所選擇的特征數(shù)目M,則構(gòu)造適應(yīng)度函數(shù)為J =及(1+們由于O彡R彡1,因此,特征數(shù)M越小、識(shí)別率越大,則適應(yīng)度函數(shù)J值越大,η為平衡特征數(shù)目和識(shí)別率權(quán)重的參數(shù),通常,O ^ n ^ I ;步驟Β-4,在S個(gè)初始串中選擇適應(yīng)度最大的個(gè)體,即種群中最好的個(gè)體無條件地復(fù)制到下一代新種群中,然后對(duì)對(duì)父代種群進(jìn)行選擇、交叉和變異等遺傳算子運(yùn)算,從而繁殖出下一代新種群其它S-1個(gè)基因串;交叉和變異是產(chǎn)生新個(gè)體的遺傳算子,交叉率取值范圍為[O, I],變異率取值范圍為[O, I];步驟Β-5,如果達(dá)到設(shè)定的繁衍代數(shù),返回最好的基因串,所述基因串中,I表示特征被選中,O表示特征未被選中,從而得到特征組合,并將其作為特征選取的依據(jù),算法結(jié)束;否則,回到步驟Β-4繼續(xù)下一代的繁衍;步驟C,利用支持向量機(jī)聚類算法得到特征選取后樣本的聚類分配矩陣,根據(jù)所述聚類分配矩陣構(gòu)建超矩形規(guī)則;步驟C-1,支持向量聚類,其步驟如下步驟C-1-1,特征空間中的一個(gè)樣本點(diǎn)到其最小包含超球球心的距離為D(Xi)
權(quán)利要求
1.一種基于支持向量機(jī)的專家系統(tǒng)知識(shí)獲取方法,其特征在于,所述方法包括數(shù)據(jù)預(yù)處理、支持向量聚類、超矩形規(guī)則提取和規(guī)則簡(jiǎn)化、以及基于規(guī)則的樣本識(shí)別過程;具體描述如下 步驟A,對(duì)不平衡樣本進(jìn)行數(shù)據(jù)預(yù)處理;判斷各類樣本的數(shù)目是否平衡,若不平衡,則采用SMOTE過抽樣算法對(duì)少數(shù)類樣本進(jìn)行重采樣,以使得各類樣本數(shù)目平衡;其過程如下步驟A-1,對(duì)少數(shù)類中的每一個(gè)樣本X,計(jì)算X到少數(shù)類樣本集中每個(gè)樣本的歐幾里德距離,獲得其k個(gè)最近鄰,k為自然數(shù); 步驟A-2,樣本數(shù)據(jù)集中多數(shù)類與少數(shù)類樣本數(shù)目的比值為不平衡比率U,根據(jù)U設(shè)置采樣倍率;對(duì)每一個(gè)少數(shù)類樣本X,從其k個(gè)最近鄰中隨機(jī)選擇合適的一個(gè)樣本為 ,在X與 之間進(jìn)行隨機(jī)線性插值; 步驟A-3,構(gòu)造新的少數(shù)類樣本Xmw
全文摘要
本發(fā)明提出了一種基于支持向量機(jī)的專家系統(tǒng)知識(shí)獲取方法,基于支持向量機(jī)的規(guī)則提取過程包括數(shù)據(jù)預(yù)處理、支持向量聚類、超矩形規(guī)則提取和規(guī)則簡(jiǎn)化、以及基于規(guī)則的樣本識(shí)別過程;所述方法經(jīng)過特征提取與規(guī)則簡(jiǎn)化之后,提取的規(guī)則更加簡(jiǎn)潔,易于解釋;在計(jì)算聚類分配矩陣時(shí),僅對(duì)支持向量進(jìn)行聚類標(biāo)識(shí),大大降低了計(jì)算量;規(guī)則提取方法先進(jìn),診斷識(shí)別率更高;支持向量機(jī)是數(shù)據(jù)挖掘中的一種新興的分類技術(shù),具有堅(jiān)實(shí)的理論基礎(chǔ)和優(yōu)良的泛化性能;本發(fā)明能有效地獲取專家系統(tǒng)知識(shí)規(guī)則,突破專家系統(tǒng)知識(shí)動(dòng)態(tài)獲取的瓶頸。
文檔編號(hào)G06K9/62GK103034691SQ20121050524
公開日2013年4月10日 申請(qǐng)日期2012年11月30日 優(yōu)先權(quán)日2012年11月30日
發(fā)明者李愛, 陳果, 王洪偉, 郝騰飛, 于明月, 程小勇 申請(qǐng)人:南京航空航天大學(xué)