非平衡類數(shù)據(jù)的分類的制作方法
【專利說明】非平衡類數(shù)據(jù)的分類發(fā)明領(lǐng)域
[0001]本發(fā)明涉及數(shù)據(jù)挖掘技術(shù),特別涉及非平衡類數(shù)據(jù)分類器的訓(xùn)練方法、非平衡類數(shù)據(jù)分類器和非平衡類數(shù)據(jù)分類的方法。
【背景技術(shù)】
[0002]分類是數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)中最常用的技術(shù)之一,其根據(jù)一組已知類別的對(duì)象訓(xùn)練得到分類器,然后將未知類別的對(duì)象應(yīng)用于該分類器以確定相應(yīng)的類別。在非平衡類數(shù)據(jù)中,某類樣本的數(shù)量遠(yuǎn)遠(yuǎn)大于其它類樣本,其中前者被稱為負(fù)類數(shù)據(jù),后者被稱為正類數(shù)據(jù)。
[0003]實(shí)際應(yīng)用(例如信用卡交易欺詐檢測(cè)、網(wǎng)絡(luò)入侵檢測(cè)、醫(yī)學(xué)疾病診斷等)中常會(huì)遇到非平衡類數(shù)據(jù)的分類問題,這類問題的共同點(diǎn)是少數(shù)類信息是用戶關(guān)注的重點(diǎn)。例如在信用卡交易欺詐檢測(cè)的應(yīng)用中,更為關(guān)心的是欺詐客戶,但是監(jiān)測(cè)到的數(shù)據(jù)集中大部分是信用卡正常交易記錄,非法交易所占比例很小。用于處理分類問題的現(xiàn)有技術(shù)有很多種,如決策樹、貝葉斯網(wǎng)絡(luò)、支持向量機(jī)等,但這些技術(shù)多針對(duì)平衡數(shù)據(jù)而設(shè)計(jì),未考慮到正類和負(fù)類數(shù)據(jù)分布的巨大差異性,因此處理效果不佳。
[0004]目前,非平衡類數(shù)據(jù)的分類主要采用兩種思路:一是改變訓(xùn)練集樣本的分布,降低不平衡度,主要包括改變數(shù)據(jù)集分布的重采樣方法,其缺點(diǎn)是分類效果依賴于重采樣算法,而對(duì)于很多應(yīng)用來(lái)說,數(shù)據(jù)集的最優(yōu)分布難以確定;二是針對(duì)非平衡類數(shù)據(jù)特點(diǎn)構(gòu)造新算法或改造現(xiàn)有算法(例如代價(jià)敏感學(xué)習(xí)方法、特征選擇方法和單類學(xué)習(xí)方法等),代價(jià)敏感學(xué)習(xí)方法的缺點(diǎn)是很難對(duì)錯(cuò)誤分類的代價(jià)給出準(zhǔn)確的估計(jì),使得整體性能提升得不到保障,特征選擇方法更多的是適用于文本分類的問題,適用范圍受到較大限制,單類學(xué)習(xí)方法的缺點(diǎn)是僅僅利用少數(shù)正類數(shù)據(jù),完全忽略了負(fù)類數(shù)據(jù)中蘊(yùn)涵的有用信息。
[0005]由上可見,迫切需要一種性能優(yōu)秀和適用范圍大的非平衡類數(shù)據(jù)處理技術(shù)。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的一個(gè)目的是提供一種訓(xùn)練非平衡類數(shù)據(jù)分類器的方法,其具有信息挖掘充分、全面和分類精度高等優(yōu)點(diǎn)。
[0007]在按照本發(fā)明一個(gè)實(shí)施例的訓(xùn)練非平衡類數(shù)據(jù)分類器的方法中,由所述非平衡類數(shù)據(jù)分類器進(jìn)行分類的數(shù)據(jù)具有多個(gè)屬性,所述方法包含下列步驟:
[0008]將所述多個(gè)屬性劃分為多個(gè)屬性組,每個(gè)所述屬性組對(duì)應(yīng)一個(gè)子分類器,每個(gè)所述子分類器適于基于對(duì)應(yīng)的所述屬性組對(duì)數(shù)據(jù)進(jìn)行分類,使得能夠根據(jù)預(yù)先設(shè)定的規(guī)則,由各個(gè)所述子分類器的分類結(jié)果得到最終的分類結(jié)果;
[0009]將訓(xùn)練數(shù)據(jù)樣本劃分為多個(gè)測(cè)試集;以及
[0010]對(duì)于每個(gè)所述屬性組,利用不同的所述測(cè)試集訓(xùn)練對(duì)應(yīng)的子分類器。
[0011]優(yōu)選地,在上述方法中,將所述多個(gè)屬性劃分為η個(gè)屬性組并且將訓(xùn)練數(shù)據(jù)樣本劃分為(η+1)個(gè)測(cè)試集,在子分類器的訓(xùn)練步驟中,按照下列方式訓(xùn)練第i個(gè)子分類器:
[0012]利用前(1-1)個(gè)子分類器對(duì)第i個(gè)測(cè)試集的訓(xùn)練數(shù)據(jù)樣本進(jìn)行分類以得到(i_l)組正類數(shù)據(jù);
[0013]將所述(1-Ι)組正類數(shù)據(jù)的交集作為進(jìn)一步的訓(xùn)練數(shù)據(jù)樣本來(lái)訓(xùn)練第i個(gè)子分類器。
[0014]優(yōu)選地,在上述方法中,按照隨機(jī)方式將訓(xùn)練數(shù)據(jù)樣本劃分為多個(gè)測(cè)試集。
[0015]優(yōu)選地,在上述方法中,利用最大召回率算法來(lái)訓(xùn)練第i個(gè)子分類器。
[0016]優(yōu)選地,在上述方法中,按照屬性之間的相關(guān)性將所述多個(gè)屬性劃分為多個(gè)屬性組,所述相關(guān)性較大的屬性被劃分在不同的屬性組內(nèi)。
[0017]本發(fā)明的還有一個(gè)目的是提供一種非平衡類數(shù)據(jù)分類器,其具有高分類精度和分類效率等優(yōu)點(diǎn)。
[0018]按照本發(fā)明一個(gè)實(shí)施例的非平衡類數(shù)據(jù)分類器包括:
[0019]數(shù)據(jù)接收單元;
[0020]多個(gè)子分類器,由所述非平衡類數(shù)據(jù)分類器進(jìn)行分類的數(shù)據(jù)具有多個(gè)屬性,所述多個(gè)屬性被劃分為多個(gè)屬性組,每個(gè)所述屬性組對(duì)應(yīng)一個(gè)所述子分類器,每個(gè)所述子分類器被配置為并行地從所述數(shù)據(jù)接收單元接收數(shù)據(jù)并且基于對(duì)應(yīng)的所述屬性組對(duì)接收的數(shù)據(jù)進(jìn)行分類;以及
[0021]與所述多個(gè)子分類器耦合的決策節(jié)點(diǎn),其配置為根據(jù)預(yù)先設(shè)定的規(guī)則,由各個(gè)所述子分類器輸出的分類結(jié)果得到最終的分類結(jié)果,
[0022]其中,按照下列方式訓(xùn)練所述非平衡類數(shù)據(jù)分類器:將訓(xùn)練數(shù)據(jù)樣本劃分為多個(gè)測(cè)試集,對(duì)于每個(gè)所述屬性組,利用不同的所述測(cè)試集訓(xùn)練對(duì)應(yīng)的子分類器。
[0023]優(yōu)選地,在上述非平衡類數(shù)據(jù)分類器中,所述多個(gè)子分類器和所述決策節(jié)點(diǎn)在多個(gè)物理上并行的計(jì)算設(shè)備上實(shí)施。
[0024]優(yōu)選地,在上述非平衡類數(shù)據(jù)分類器中,所述決策節(jié)點(diǎn)取各個(gè)所述子分類器輸出的正類數(shù)據(jù)的交集作為最終的分類結(jié)果。
[0025]本發(fā)明的還有一個(gè)目的是提供一種非平衡類數(shù)據(jù)分類的方法,其具有高分類精度和分類效率等優(yōu)點(diǎn)。
[0026]按照本發(fā)明一個(gè)實(shí)施例的非平衡類數(shù)據(jù)分類的方法包括下列步驟:
[0027]將待分類的數(shù)據(jù)輸入多個(gè)子分類器,所述待分類的數(shù)據(jù)具有多個(gè)屬性,所述多個(gè)屬性被劃分為多個(gè)屬性組,每個(gè)所述屬性組對(duì)應(yīng)一個(gè)所述子分類器;
[0028]每個(gè)所述子分類器并行地基于對(duì)應(yīng)的所述屬性組對(duì)所述待分類的數(shù)據(jù)進(jìn)行分類;以及
[0029]根據(jù)預(yù)先設(shè)定的規(guī)則,由各個(gè)所述子分類器輸出的分類結(jié)果得到最終的分類結(jié)果,
[0030]其中,按照下列方式訓(xùn)練所述非平衡類數(shù)據(jù)分類器:將訓(xùn)練數(shù)據(jù)樣本劃分為多個(gè)測(cè)試集,對(duì)于每個(gè)所述屬性組,利用不同的所述測(cè)試集訓(xùn)練對(duì)應(yīng)的子分類器。
【附圖說明】
[0031 ] 從結(jié)合附圖的以下詳細(xì)說明中,將會(huì)使本發(fā)明的上述和其它目的及優(yōu)點(diǎn)更加完全清楚。
[0032]圖1為按照本發(fā)明一個(gè)實(shí)施例的訓(xùn)練非平衡類數(shù)據(jù)分類器的方法的流程圖。
[0033]圖2為圖1所示實(shí)施例中的子分類器訓(xùn)練例程的示意圖。
[0034]圖3為按照本發(fā)明一個(gè)實(shí)施例的非平衡類數(shù)據(jù)分類器的示意圖。
[0035]圖4為按照本發(fā)明一個(gè)實(shí)施例的非平衡類數(shù)據(jù)分類方法的流程圖。
【具體實(shí)施方式】
[0036]下面參照其中圖示了本發(fā)明示意性實(shí)施例的附圖更為全面地說明本發(fā)明。但本發(fā)明可以按不同形式來(lái)實(shí)現(xiàn),而不應(yīng)解讀為僅限于本文給出的各實(shí)施例。給出的上述各實(shí)施例旨在使本文的披露全面完整,從而使對(duì)本發(fā)明保護(hù)范圍的理解更為全面和準(zhǔn)確。
[0037]諸如“包含”和“包括”之類的用語(yǔ)表示除了具有在說明書和權(quán)利要求書中有直接和明確表述的單元和步驟以外,本發(fā)明的技術(shù)方案也不排除具有未被直接或明確表述的其它單元和步驟的情形。
[0038]按照本發(fā)明的一個(gè)方面,非平衡類數(shù)據(jù)的分類基于對(duì)象屬性的拆分。具體而言,所處理的數(shù)據(jù)對(duì)象一般具有多個(gè)屬性,在本發(fā)明的實(shí)施例中,這些屬性被劃分為多個(gè)屬性組,每個(gè)屬性組對(duì)應(yīng)于一個(gè)子分類器,不同的子分類器基于相應(yīng)的屬性組對(duì)數(shù)據(jù)施行分類操作,子分類器分類操作的結(jié)果按照預(yù)先設(shè)定的規(guī)則匯總后產(chǎn)生最終的分類結(jié)果。由于可以為針對(duì)各個(gè)屬性組的子分類器設(shè)定不同的分類規(guī)則,因此屬性中所蘊(yùn)含的信息得以充分利用,從而提升了非平衡數(shù)據(jù)分類的精度。另外,可將多個(gè)子分類器部署到分布式系統(tǒng)中的不同節(jié)點(diǎn)上,使得每個(gè)子分類器能夠基于屬性組并行地對(duì)數(shù)據(jù)進(jìn)行分類,這提高了處理效率,從而滿足大數(shù)據(jù)量或大吞吐量的應(yīng)用需求。
[0039]按照本發(fā)明的另一個(gè)方面,在分類器訓(xùn)練階段采用下列訓(xùn)練方式:將子分類器視為按照順序相連的級(jí)聯(lián)結(jié)構(gòu),用于下一級(jí)子分類器的訓(xùn)練數(shù)據(jù)樣本取決于前級(jí)子分類器輸出的正類數(shù)據(jù),當(dāng)遍歷級(jí)聯(lián)結(jié)構(gòu)的所有級(jí)后,每個(gè)子分類器都經(jīng)過訓(xùn)練,由此完成整個(gè)分類器的訓(xùn)練。本發(fā)明的發(fā)明人發(fā)現(xiàn),這種基于級(jí)聯(lián)結(jié)構(gòu)的訓(xùn)練方式能夠充分提升分類器的整體性能,并且還提高了訓(xùn)練效率。再者,借助于級(jí)聯(lián)結(jié)構(gòu),全體訓(xùn)練數(shù)據(jù)樣本中蘊(yùn)含的信息得到充分利用,提高了分類器的整體性能。
[0040]圖1為按照本發(fā)明一個(gè)實(shí)施例的訓(xùn)練非平衡類數(shù)據(jù)分類器的方法的流程圖。
[0041]如上所述,所處理的數(shù)據(jù)對(duì)象一般具有多個(gè)屬性,因此如圖1所示,在步驟SllO中,首先將這些屬性劃分為η個(gè)屬性組Ap A2……Αη。優(yōu)選地,屬性的劃分可基于屬性之間的相關(guān)性,其中,相關(guān)性較大的屬性盡可能被劃分在不同的屬性組內(nèi),以使同一屬性組內(nèi)的屬性之間具有較小的相關(guān)性。這種劃分方式的優(yōu)點(diǎn)是使各個(gè)子分類器的分類能力均衡化。需要指出的是,在本實(shí)施例中,各個(gè)屬性組內(nèi)屬性的數(shù)量可以不同。
[0042]隨后進(jìn)入步驟S120,將訓(xùn)練數(shù)據(jù)樣本劃分為m個(gè)測(cè)試集I;、T2……Tlrt。為簡(jiǎn)化處理,這里可以按照隨機(jī)方式劃分訓(xùn)練數(shù)據(jù)樣本。在本實(shí)施例中,優(yōu)選地,可以使屬性組的數(shù)量η與測(cè)試集的數(shù)量m之間具有確定的關(guān)系,例如測(cè)試集的數(shù)量m被取值為η+1。
[0043]接著,在步驟S130中,解析得到每個(gè)測(cè)試集中的每個(gè)訓(xùn)練數(shù)據(jù)樣本的η個(gè)屬性的取值,以下將這些取值的集合又稱為屬性值集合。如上所述,屬性被劃分為η個(gè)屬性組,因此每個(gè)訓(xùn)練數(shù)據(jù)樣本的屬性值集合由η個(gè)屬性值子集組成,每個(gè)子集對(duì)應(yīng)于η個(gè)屬性組中的一個(gè)。
[0044]如上所述,每個(gè)屬性組對(duì)應(yīng)于一個(gè)子分類器。因此本實(shí)施例的方法流程隨后進(jìn)入步驟S140,執(zhí)行對(duì)每個(gè)子分類器進(jìn)行訓(xùn)練的例程。優(yōu)選地,子分類器SpS2……Sn被布置成按照下標(biāo)序號(hào)相連的級(jí)聯(lián)結(jié)構(gòu),對(duì)于級(jí)聯(lián)結(jié)構(gòu)的第i個(gè)子分類器,它的訓(xùn)練數(shù)據(jù)樣本取自前級(jí)子分類器對(duì)測(cè)試集Ti作分類處理得到的正類數(shù)據(jù)。由此,當(dāng)級(jí)聯(lián)結(jié)構(gòu)上的所有子分類器都被遍歷后,即完成了整個(gè)分類器的訓(xùn)練。
[0045]圖2為圖1所示實(shí)施例中的子分類器訓(xùn)練例程的示意圖。這里假設(shè)將屬性被劃分為η個(gè)屬性組Ap A2……K,訓(xùn)練數(shù)據(jù)樣本被劃分為(η+1)個(gè)測(cè)試集I;、T2……Τη,并且與屬性組A2……An對(duì)應(yīng)的子分類器被記為S1、S2……Sn。
[0046]圖2所示的例程包括下列過程:
[0047]步驟I):首先,利用測(cè)試集Ttl對(duì)基于屬性組A1的子分類器S1進(jìn)行訓(xùn)練。即,利用測(cè)試集Ttl中訓(xùn)練數(shù)據(jù)樣本的對(duì)應(yīng)于屬性組A1的屬性值子集來(lái)訓(xùn)練子分類器S1,使得該子分類器能夠基于屬性組A1對(duì)數(shù)據(jù)進(jìn)行準(zhǔn)確分類。優(yōu)選地,在本步驟和下面的步驟中,均采用最大召回率算法對(duì)子分類器進(jìn)行訓(xùn)練。
[0048]步驟2a):利用在上述步驟I)中經(jīng)過訓(xùn)練的子分類器S1,基于屬性組A1對(duì)測(cè)試集T1的訓(xùn)練數(shù)據(jù)樣本進(jìn)行分類。
[0049]步驟2b)分離出分類結(jié)果中的正類數(shù)據(jù)Pn。
[0050]步驟2c):利用上述步驟2b)中得到的正類數(shù)據(jù)P11對(duì)基于屬性組A2的子分類器S2進(jìn)行訓(xùn)練,即,利用正類數(shù)據(jù)P11中每個(gè)訓(xùn)練數(shù)據(jù)樣本的對(duì)應(yīng)于屬性組A2的屬性值