本發(fā)明涉及數(shù)據(jù)分類技術(shù)領(lǐng)域,特別涉及一種不均衡數(shù)據(jù)分類的方法。
背景技術(shù):
數(shù)據(jù)分類,簡(jiǎn)單來(lái)說(shuō),就是按照事先指定的某種標(biāo)準(zhǔn)給對(duì)象貼上標(biāo)識(shí)性的標(biāo)簽,然后根據(jù)標(biāo)簽進(jìn)行區(qū)分歸類。具體的過(guò)程為:把數(shù)據(jù)樣本映射到一個(gè)事先定義的類中的學(xué)習(xí)過(guò)程,即給定一組輸入的屬性向量及其對(duì)應(yīng)的類別,用基于歸納的學(xué)習(xí)算法得出分類。特別是隨著計(jì)算能力、存儲(chǔ)、網(wǎng)絡(luò)的高速發(fā)展,人類積累的數(shù)據(jù)量正以指數(shù)速度增長(zhǎng)。面對(duì)大量的數(shù)據(jù)時(shí),人們迫切希望從中提取出隱藏其中的有用信息,需要發(fā)現(xiàn)更深層次的規(guī)律,對(duì)決策、商務(wù)應(yīng)用提供更有效的支持。因此,對(duì)采集到的大量龐雜的數(shù)據(jù)進(jìn)行分類處理顯得尤為重要。
在現(xiàn)實(shí)生活和實(shí)際應(yīng)用當(dāng)中的很多情形下,使用或產(chǎn)生的數(shù)據(jù)集中各類的數(shù)據(jù)都不是個(gè)數(shù)相近的。有時(shí)候,一些類可能比另一些類的個(gè)數(shù)要多很多,基于這種情況,最常見的應(yīng)用就有信息的分類過(guò)濾及網(wǎng)絡(luò)應(yīng)用協(xié)議的分類識(shí)別等,為此在分類器的設(shè)計(jì)時(shí)就需要考慮數(shù)據(jù)的不均衡性問(wèn)題。否則,容易造成小類在分類器中被大類淹沒(méi),而導(dǎo)致無(wú)法識(shí)別或識(shí)別的正確率偏低的問(wèn)題。
目前,對(duì)于不均衡數(shù)據(jù)分類的處理,在數(shù)據(jù)集層面所使用的一種方法就是欠抽樣策略,這種方法是將數(shù)據(jù)從原始數(shù)據(jù)集中移除,通過(guò)隨機(jī)地減少多數(shù)類樣本來(lái)縮小多數(shù)類樣本的規(guī)模,達(dá)到與少數(shù)類樣本數(shù)量相同的目的。顯然,這種方法存在著明顯地缺點(diǎn),即在將多數(shù)類樣本刪除的同時(shí)有可能會(huì)丟失具有代表性的多數(shù)類樣本信息。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于,為解決現(xiàn)有技術(shù)中通過(guò)采用欠抽樣方法進(jìn)行數(shù)據(jù)分類時(shí),易導(dǎo)致重要數(shù)據(jù)丟失的技術(shù)問(wèn)題,提供了一種不均衡數(shù)據(jù)分類的方法,該方法采用動(dòng)態(tài)循環(huán)抽樣數(shù)據(jù)集,通過(guò)分類結(jié)果反饋的方式,動(dòng)態(tài)的調(diào)節(jié)增加每次抽樣的樣本信息,達(dá)到最終滿意的分類結(jié)果,有效的改善了小類分類準(zhǔn)確率較低的情況。
為實(shí)現(xiàn)上述目的,本發(fā)明提供的一種不均衡數(shù)據(jù)分類的方法,對(duì)參與訓(xùn)練的不均衡數(shù)據(jù)集進(jìn)行動(dòng)態(tài)循環(huán)抽樣處理,所述的方法具體包括:
步驟1)選擇參與訓(xùn)練的數(shù)據(jù)集中的兩類,依據(jù)兩類中樣本個(gè)體數(shù)量的多少分為大類和小類,并且計(jì)算出兩類之間的倍數(shù)關(guān)系,倍數(shù)為大類與小類的樣本個(gè)數(shù)比值向下取整得到。
步驟2)計(jì)算大類中的每個(gè)樣本個(gè)體到小類中心的距離,根據(jù)計(jì)算出來(lái)的距離按照從小到大的順序?qū)Υ箢愔械乃袠颖緜€(gè)體進(jìn)行升序排序;
步驟3)對(duì)大類進(jìn)行動(dòng)態(tài)循環(huán)抽樣,每抽樣一次后對(duì)數(shù)據(jù)集分類一次,直到滿足結(jié)束條件為止。具體的抽樣過(guò)程為:初次抽樣時(shí),從排序后的大類中取前n個(gè)樣本個(gè)體,n是小類中樣本的個(gè)數(shù),用抽樣得到的大類的樣本與小類中的所有樣本構(gòu)成訓(xùn)練集對(duì)分離器進(jìn)行訓(xùn)練,并用訓(xùn)練后的分類器分類整個(gè)數(shù)據(jù)集;
步驟4)判斷步驟3)的分類結(jié)果是否滿足分類結(jié)束條件,如果不滿足,則從大類中加倍抽取樣本個(gè)體后重復(fù)執(zhí)行步驟3,否則,結(jié)束分類操作,輸出該分類結(jié)果。
作為上述技術(shù)方案的進(jìn)一步改進(jìn),所述的分類器采用效率較高的最小二乘法支持向量機(jī)。最小二乘法支持向量機(jī)(lssvm)是由suyken對(duì)標(biāo)準(zhǔn)支持向量的約束條件和風(fēng)險(xiǎn)函數(shù)進(jìn)行修改導(dǎo)出的,即將不等式約束變?yōu)榈仁郊s束,從而將原來(lái)的qp問(wèn)題變成了一個(gè)解線性方程組的問(wèn)題。從而極大地簡(jiǎn)化了分類模型參數(shù)求解的計(jì)算過(guò)程,很好地提高了訓(xùn)練效率。將訓(xùn)練數(shù)據(jù)集帶入到線性方程組,通過(guò)對(duì)線性方程組求解得到lssvm分類模型的相應(yīng)參數(shù),利用訓(xùn)練得到的lssvm分類模型即可對(duì)測(cè)試數(shù)據(jù)集進(jìn)行分類了。
作為上述技術(shù)方案的進(jìn)一步改進(jìn),非線性支持向量機(jī)(lssvm)是通過(guò)徑向基函數(shù)非線性變換的將輸入向量映射到一個(gè)高維特征空間,并在這個(gè)高維特征空間中構(gòu)造最優(yōu)分類面。因此,小類樣本的中心在高維特征空間的計(jì)算公式為
作為上述技術(shù)方案的進(jìn)一步改進(jìn),所述的分類結(jié)束條件為預(yù)設(shè)的大類和小類識(shí)別的正確率、或者為加倍抽樣的倍數(shù)達(dá)到了兩類之間的預(yù)設(shè)倍數(shù)值、或者為多次加倍抽樣分類的識(shí)別正確率之間變化范圍在指定范圍,上述三個(gè)條件滿足其中一個(gè)就可以停止分類操作。
本發(fā)明的一種不均衡數(shù)據(jù)分類方法的優(yōu)點(diǎn)在于:
本發(fā)明的分類方法的原理簡(jiǎn)單,容易實(shí)現(xiàn);不存在過(guò)抽樣中通過(guò)引入額外訓(xùn)練數(shù)據(jù)而帶來(lái)的分類器構(gòu)建時(shí)延以及可能出現(xiàn)的過(guò)度擬合情況;避免了在欠抽樣方法中通過(guò)減少多類樣本數(shù)量,而可能造成一些重要的信息丟失所帶來(lái)的分類結(jié)果不理想的情況;通過(guò)對(duì)參與訓(xùn)練的不均衡數(shù)據(jù)集進(jìn)行動(dòng)態(tài)循環(huán)抽樣處理,以獲得滿足最優(yōu)條件的分類結(jié)果,從而有效的提高小類在分類中的識(shí)別正確率。
附圖說(shuō)明
圖1為本發(fā)明的一種不均衡數(shù)據(jù)分類的方法流程圖。
具體實(shí)施方式
下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明所述的一種不均衡數(shù)據(jù)分類的方法進(jìn)行詳細(xì)說(shuō)明。
如圖1所示,為本發(fā)明提供的一種不均衡數(shù)據(jù)分類方法的流程圖。對(duì)參與最小二乘法支持向量機(jī)的訓(xùn)練數(shù)據(jù)集,進(jìn)行動(dòng)態(tài)循環(huán)抽樣處理,使訓(xùn)練得到的分類器能夠很好地識(shí)別測(cè)試集中的小類別。在本實(shí)施例中,具體的分類方法包括:
步驟1,選擇參與訓(xùn)練的數(shù)據(jù)集中的兩類,通過(guò)統(tǒng)計(jì)數(shù)據(jù)集中兩類的樣本個(gè)體的個(gè)數(shù),比較多少后確定出大類和小類,同時(shí)計(jì)算出兩類之間的倍數(shù)關(guān)系,倍數(shù)為大類與小類的樣本個(gè)數(shù)比值向下取整;
步驟2,根據(jù)距離公式
步驟3,從排好序的大類中抽取前n(小類的樣本個(gè)數(shù))個(gè)樣本個(gè)體,與小類中的所有樣本個(gè)體一起作為訓(xùn)練集對(duì)分類器進(jìn)行訓(xùn)練,用訓(xùn)練好的分類器分類整個(gè)數(shù)據(jù)集;
步驟4,判斷步驟3的分類結(jié)果如果滿足分類結(jié)束條件,則結(jié)束分類操作,輸出該分類結(jié)果,否則,從大類中加倍抽取樣本個(gè)體后,再與小類一起作為新的訓(xùn)練集對(duì)分類器進(jìn)行訓(xùn)練,然后用訓(xùn)練好的分類器分類測(cè)試集,即重復(fù)執(zhí)行步驟3的操作,直至達(dá)到滿足分類結(jié)束條件為止,輸出分類結(jié)果。
此外,在本發(fā)明的實(shí)施例中,所述的分類器可采用最小二乘法支持向量機(jī)。
所述的分類結(jié)束條件有預(yù)設(shè)的大小類識(shí)別的正確率、加倍抽樣的次數(shù)達(dá)到了兩類之間的預(yù)設(shè)倍數(shù)值、多次加倍抽樣分類的識(shí)別正確率之間變化范圍在指定范圍內(nèi)。從排好序的大類中抽取前n(小類的樣本個(gè)數(shù))個(gè)樣本個(gè)體,根據(jù)步驟2可知:這n個(gè)樣本個(gè)體是離小類中心最近的個(gè)體,如果將離小類中心距離最近的樣本個(gè)體與小類中的各樣本區(qū)分開來(lái),那么離小類中心遠(yuǎn)的樣本個(gè)體也就更容易區(qū)分了。若抽取的n個(gè)樣本個(gè)體包含了比較全的大類樣本信息,那么小類和大類的識(shí)別正確率都會(huì)很高,一般也就滿足分類結(jié)束條件而停止操作。若抽取的這n個(gè)樣本個(gè)體不能包含大類樣本的所有信息,這時(shí)候訓(xùn)練分類得到的結(jié)果就是小類識(shí)別正確率很高,而大類識(shí)別正確率偏低。此時(shí),根據(jù)分類結(jié)果的反饋,再?gòu)拇箢愔谐槿‰x小類中心距離最近的前2n個(gè)樣本個(gè)體,這2n個(gè)樣本個(gè)體包含的大類樣本信息比前n個(gè)樣本個(gè)體多,此時(shí)再次訓(xùn)練分類器,得到的分類結(jié)果中大類的識(shí)別正確率會(huì)增加,以此類推,繼續(xù)判斷是否滿足分類結(jié)束條件,如果仍沒(méi)有滿足,則再增加1倍大類樣本個(gè)體的抽取數(shù)量,重復(fù)執(zhí)行訓(xùn)練操作,直到滿足分類結(jié)束條件后輸出相應(yīng)的分類結(jié)果。
最后所應(yīng)說(shuō)明的是,以上實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案而非限制。盡管參照實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)說(shuō)明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,對(duì)本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,都不脫離本發(fā)明技術(shù)方案的精神和范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。