本申請(qǐng)涉及大數(shù)據(jù)技術(shù),尤其涉及一種應(yīng)用機(jī)器學(xué)習(xí)解決數(shù)據(jù)分類的方法及系統(tǒng)。
背景技術(shù):
在征信系統(tǒng)的建設(shè)過程中,引入機(jī)器學(xué)習(xí)算法與評(píng)分規(guī)則結(jié)合,可以解決企業(yè)及個(gè)人信用的量化問題。
計(jì)算機(jī)根據(jù)機(jī)器學(xué)習(xí)算法,針對(duì)已標(biāo)注的樣本進(jìn)行學(xué)習(xí),從而,可以歸納總結(jié)出樣本中的元素在不同的類別之間的分布規(guī)律或分布規(guī)則。利用歸納總結(jié)出的分布規(guī)律或分布規(guī)則,可以對(duì)未標(biāo)注的樣本進(jìn)行分類,也就是說,將這些未標(biāo)注的元素映射到所屬的類別上。
現(xiàn)有技術(shù)中,對(duì)人群的信用數(shù)據(jù)進(jìn)行分類的方法具有多種。常見的分類算法包括:決策樹、貝葉斯、k近鄰、支持向量機(jī)、基于關(guān)聯(lián)規(guī)則、集成學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)。
在利用分類算法,歸納總結(jié)元素在不同的類別之間的分布規(guī)律的過程中,可以將已標(biāo)注的樣本作為訓(xùn)練集,生成與信用數(shù)據(jù)的屬性有關(guān)的參數(shù)。該參數(shù)影響元素所屬的類別。這些參數(shù)通常與某一中分類算法是對(duì)應(yīng)的,兩者合稱分類模型,或者分類器。這些參數(shù),也稱為模型參數(shù)。為了表征分類器的性能,即分類算法及其對(duì)應(yīng)的參數(shù)對(duì)信用數(shù)據(jù)樣本分類的準(zhǔn)確性,可以通過測(cè)試集來進(jìn)行測(cè)試。當(dāng)一個(gè)分類器對(duì)測(cè)試集中元素分類時(shí),被正確分類的元素?cái)?shù)量越多,則分類器的性能越好。
在實(shí)現(xiàn)現(xiàn)有技術(shù)過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問題:
人群可以根據(jù)年齡、學(xué)歷、資產(chǎn)狀況等屬性劃分為幾個(gè)種類。通常,不同的分類器在對(duì)不同種類的信用數(shù)據(jù)分類時(shí)具有不同的性能表現(xiàn)。也就是說,對(duì)于同一種類的人群,不同的分類器分類的準(zhǔn)確度不同。沒有一種分類器在全局樣本,也就是,全部的人群中具有絕對(duì)優(yōu)勢(shì)的準(zhǔn)確度。
因此,需要提供一種對(duì)全局樣本的數(shù)據(jù)的分類準(zhǔn)確度高的技術(shù)方案。
技術(shù)實(shí)現(xiàn)要素:
本申請(qǐng)實(shí)施例提供一種對(duì)全局樣本的數(shù)據(jù)的分類準(zhǔn)確度高的技術(shù)方案。
具體的,一種數(shù)據(jù)的分類方法,包括:
選擇一個(gè)已標(biāo)注數(shù)據(jù)分類結(jié)果的初級(jí)訓(xùn)練集;
從分類算法集內(nèi)選擇第一分類算法;
利用所述初級(jí)訓(xùn)練集,對(duì)與第一分類算法對(duì)應(yīng)的參數(shù)進(jìn)行優(yōu)化,獲得滿足期望的初級(jí)參數(shù);
構(gòu)建由所述第一分類算法和所述初級(jí)參數(shù)定義的一級(jí)分類器;
選擇一個(gè)已標(biāo)注數(shù)據(jù)分類結(jié)果的初級(jí)測(cè)試集;
利用一級(jí)分類器對(duì)初級(jí)測(cè)試集分類,生成由測(cè)試分類結(jié)果和已標(biāo)注分類結(jié)果構(gòu)成的次級(jí)訓(xùn)練集;
從分類算法集內(nèi)選擇第二分類算法;
利用所述次級(jí)訓(xùn)練集,對(duì)與第二分類算法對(duì)應(yīng)的參數(shù)進(jìn)行優(yōu)化,獲得滿足期望的次級(jí)參數(shù);
構(gòu)建由所述第二分類算法和所述次級(jí)參數(shù)定義的二級(jí)分類器;
組合一級(jí)分類器和二級(jí)分類器形成組合分類器,以對(duì)數(shù)據(jù)分類;
使用組合分類器對(duì)數(shù)據(jù)分類;
其中,所述數(shù)據(jù)為多維度屬性的特征向量。
本申請(qǐng)實(shí)施例還提供一種數(shù)據(jù)的分類系統(tǒng),包括:
存儲(chǔ)模塊,用于存儲(chǔ)已標(biāo)注數(shù)據(jù)分類結(jié)果的初級(jí)訓(xùn)練集、初級(jí)測(cè)試集、分類算法集;
建模模塊,用于:
選擇一個(gè)已標(biāo)注數(shù)據(jù)分類結(jié)果的初級(jí)訓(xùn)練集;
從分類算法集內(nèi)選擇第一分類算法;
利用所述初級(jí)訓(xùn)練集,對(duì)與第一分類算法對(duì)應(yīng)的參數(shù)進(jìn)行優(yōu)化,獲得滿足期望的初級(jí)參數(shù);
構(gòu)建由所述第一分類算法和所述初級(jí)參數(shù)定義的一級(jí)分類器;
選擇一個(gè)已標(biāo)注信用數(shù)據(jù)的分類結(jié)果的初級(jí)測(cè)試集;
利用一級(jí)分類器對(duì)初級(jí)測(cè)試集分類,生成由測(cè)試分類結(jié)果和已標(biāo)注分類結(jié)果構(gòu)成的次級(jí)訓(xùn)練集;
從分類算法集內(nèi)選擇第二分類算法;
利用所述次級(jí)訓(xùn)練集,對(duì)與第二分類算法對(duì)應(yīng)的參數(shù)進(jìn)行優(yōu)化,獲得滿足期望的次級(jí)參數(shù);
構(gòu)建由所述第二分類算法和所述次級(jí)參數(shù)定義的二級(jí)分類器;
組合一級(jí)分類器和二級(jí)分類器形成組合分類器;
分類模塊,用于使用組合分類器對(duì)數(shù)據(jù)分類。
本申請(qǐng)實(shí)施例提供的數(shù)據(jù)的分類方法和系統(tǒng),至少具有如下有益效果:
將分類準(zhǔn)確的分類器集成到一起,可以提高分類的準(zhǔn)確性。
附圖說明
此處所說明的附圖用來提供對(duì)本申請(qǐng)的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本申請(qǐng)的示意性實(shí)施例及其說明用于解釋本申請(qǐng),并不構(gòu)成對(duì)本申請(qǐng)的不當(dāng)限定。在附圖中:
圖1為本申請(qǐng)實(shí)施例提供的數(shù)據(jù)分類的過程示意圖。
圖2為本申請(qǐng)實(shí)施例提供的初級(jí)訓(xùn)練集和次級(jí)訓(xùn)練集的關(guān)系圖。
圖3為本申請(qǐng)實(shí)施例提供的數(shù)據(jù)的分類方法流程圖。
圖4為本申請(qǐng)實(shí)施例使用的數(shù)據(jù)的分類系統(tǒng)的結(jié)構(gòu)示意圖。
具體實(shí)施方式
為使本申請(qǐng)的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本申請(qǐng)具體實(shí)施例及相應(yīng)的附圖對(duì)本申請(qǐng)技術(shù)方案進(jìn)行清楚、完整地描述。顯然,所描述的實(shí)施例僅是本申請(qǐng)一部分實(shí)施例,而不是全部的實(shí)施例。基于本申請(qǐng)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本申請(qǐng)保護(hù)的范圍。
在征信系統(tǒng)的建設(shè)中,勢(shì)必要用到大數(shù)據(jù)技術(shù)。在大數(shù)據(jù)技術(shù)中,機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘算法是重要的一環(huán)。通過這些算法與模型對(duì)企業(yè)及個(gè)人信用進(jìn)行量化的評(píng)價(jià)與預(yù)測(cè),從而可以指導(dǎo)如何將資產(chǎn)、現(xiàn)金流等資源以較低的風(fēng)險(xiǎn)投入到生產(chǎn)中,提高生產(chǎn)效率。
征信系統(tǒng)中的數(shù)據(jù)為多維度屬性的特征向量。具體的,例如,數(shù)據(jù)包括但不限于姓名、性別、年齡、職業(yè)、房產(chǎn)、車輛、有價(jià)證券、月收入、月消費(fèi)、信用額度、逾期次數(shù)、最大逾期天數(shù)等各個(gè)維度的屬性。將這些維度的屬性對(duì)應(yīng)的屬性值或特征值數(shù)值化后可以用來量化表示企業(yè)用戶或個(gè)人用戶的信用水平或信用級(jí)別。
數(shù)據(jù)的分布具有聚類的規(guī)律。將人群劃分為若干類別,可以用每一個(gè)類別的樣本的平均信用值,來評(píng)估樣本中每一個(gè)元素的信用值。這里的元素,可以指一個(gè)人。因此,樣本中每一個(gè)元素的信用值的準(zhǔn)確度,依賴于樣本中元素分類的準(zhǔn)確度。
常見的分類算法包括:決策樹、貝葉斯、k近鄰、支持向量機(jī)、基于關(guān)聯(lián)規(guī)則、集成學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)。
決策樹是進(jìn)行分類與預(yù)測(cè)的常見方法之一。決策樹方法,是從已標(biāo)注數(shù)據(jù)分類結(jié)果的訓(xùn)練集歸納總結(jié)出分類規(guī)則。即針對(duì)樣本的屬性構(gòu)建一棵屬性類別關(guān)系樹。屬性類別關(guān)系樹按照一定的規(guī)則,選擇不同的屬性作為樹中的節(jié)點(diǎn)來構(gòu)建屬性和類別之間的關(guān)系??梢圆捎米皂敹逻f歸構(gòu)建這顆屬性類別關(guān)系樹。樹的葉子節(jié)點(diǎn)便是每個(gè)類別,非葉子節(jié)點(diǎn)便是屬性,節(jié)點(diǎn)之間的連線便是節(jié)點(diǎn)屬性的不同取值范圍。決策樹構(gòu)建后,便從決策樹根節(jié)點(diǎn)開始從上到下對(duì)需要進(jìn)行類別標(biāo)注的元素,進(jìn)行屬性值的比較,最后到達(dá)某個(gè)葉子節(jié)點(diǎn)。該葉子節(jié)點(diǎn)所對(duì)應(yīng)的類別便是該元素的類別。常用的決策樹算法有id3、c4.5/c5.0、cart等。這些算法的區(qū)別主要在于,屬性選擇的策略、決策樹的結(jié)構(gòu)、是否采用剪枝以及剪枝的方法、是否處理大數(shù)據(jù)集等。屬性取值范圍選擇合理時(shí),分類準(zhǔn)確性高。可以通過訓(xùn)練集,優(yōu)化與決策樹對(duì)應(yīng)的屬性取值范圍等參數(shù)。一種可實(shí)現(xiàn)的方式是,選用特定參數(shù),使得決策樹方法針對(duì)訓(xùn)練集內(nèi)的數(shù)據(jù)元素分類準(zhǔn)確度最高。通常,一種分類算法及與分類算法對(duì)應(yīng)的參數(shù)也被稱為分類模型或分類器。選用更合理的參數(shù),也就是,分類模型的優(yōu)化或分類器的優(yōu)化。
貝葉斯分類算法是基于概率論中的貝葉斯公式對(duì)元素進(jìn)行分類的算法。該算法使用貝葉斯公式,計(jì)算元素屬于每個(gè)類別的條件概率,選擇條件概率最大所對(duì)應(yīng)的類別作為其類別。常見的貝葉斯分類算法包括樸素貝葉斯、貝葉斯網(wǎng)絡(luò)。樸素貝葉斯、貝葉斯網(wǎng)絡(luò)的區(qū)別在于假設(shè)屬性之間是否條件獨(dú)立。樸素貝葉斯假設(shè)屬性之間是條件獨(dú)立的,而貝葉斯網(wǎng)絡(luò)是假設(shè)部分屬性之間是有關(guān)聯(lián)的。與決策樹方法類似的是,屬性之間的關(guān)聯(lián)性也可以認(rèn)為是一種與類算法對(duì)應(yīng)的參數(shù)。
k近鄰算法是基于元素的分類算法。該算法首先定義一個(gè)鄰居范圍,即設(shè)定鄰居的個(gè)數(shù)。然后,采用投票的方式來決定元素所屬的類別,即多數(shù)戰(zhàn)勝少數(shù)的策略。元素的類別為鄰居元素中大部分所對(duì)應(yīng)的類別。一般都是采用歐式距離,即選取歐式距離最近的k個(gè)已標(biāo)注類別的樣本作為自己的鄰居。既可以采取鄰居平等投票的方式,也可以采取鄰居權(quán)重值的方式進(jìn)行投票。采取鄰居權(quán)重值的方式進(jìn)行投票,即不同的鄰居的意見有著不同的權(quán)重。一般距離越近的鄰居權(quán)重越大。同樣,這里的鄰居的個(gè)數(shù),也可以認(rèn)為是一種與分類算法對(duì)應(yīng)的參數(shù)。
對(duì)于支持向量機(jī)、基于關(guān)聯(lián)規(guī)則的分類器、集成學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)等分類算法而言,訓(xùn)練樣本誤差、分類誤差、屬性的權(quán)重值等可以認(rèn)為是與分類算法對(duì)應(yīng)的參數(shù)。
通過訓(xùn)練集,對(duì)分類算法對(duì)應(yīng)的參數(shù)進(jìn)行優(yōu)化,可以提高數(shù)據(jù)分類的準(zhǔn)確性。
請(qǐng)參照?qǐng)D1,為本申請(qǐng)實(shí)施例提供的數(shù)據(jù)的分類方法,具體包括以下步驟:
s01:選擇一個(gè)已標(biāo)注數(shù)據(jù)分類結(jié)果的初級(jí)訓(xùn)練集。
表1
表1為已標(biāo)注數(shù)據(jù)分類結(jié)果的數(shù)據(jù)集合的示意列表。在該列表中,所有用戶的數(shù)據(jù)集合作為一個(gè)樣本,而對(duì)應(yīng)的,一個(gè)用戶可以作為樣本的一個(gè)元素。每一個(gè)元素可以具有年齡、職位等多個(gè)維度的屬性。可以將樣本中的每一個(gè)元素的分類結(jié)果予以標(biāo)注,例如以c1、c2、c3方式予以標(biāo)注。具體的,c1、c2、c3可以取0值或取1值。
這里選擇的初級(jí)訓(xùn)練集可以是數(shù)據(jù)集合中隨機(jī)抽取的一部分。
s02:從分類算法集內(nèi)選擇第一分類算法。
分類算法集是適于分類的算法的集合。分類算法集可以包括決策樹、貝葉斯分類器、k近鄰、支持向量機(jī)、基于關(guān)聯(lián)規(guī)則的分類器、集成學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)等多種算法。前面已經(jīng)對(duì)決策樹算法、貝葉斯分類器算法、k近鄰算法做了簡要說明,而支持向量機(jī)、基于關(guān)聯(lián)規(guī)則的分類器、集成學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)等其余算法在機(jī)器算法領(lǐng)域均有專門的著作加以說明,這里則不再贅述。本申請(qǐng)實(shí)施例在該步驟中,從中選出一個(gè)算法。當(dāng)然,也可以重復(fù)的進(jìn)行,從而選出多個(gè)分類算法。
s03:利用所述初級(jí)訓(xùn)練集,對(duì)與第一分類算法對(duì)應(yīng)的參數(shù)進(jìn)行優(yōu)化,獲得滿足期望的初級(jí)參數(shù)。
對(duì)于決策樹算法而言,屬性值或特征值的取值范圍對(duì)數(shù)據(jù)元素的分類結(jié)果具有影響。進(jìn)一步的,不同的屬性對(duì)數(shù)據(jù)元素的分類結(jié)果可以具有不同程度的影響。在使用決策樹算法進(jìn)行歸納總結(jié)出分類規(guī)則的過程中,可以假設(shè)屬性值的一系列的取值范圍,也可以假設(shè)不同屬性的一系列的權(quán)重值。迭代計(jì)算出屬性值最優(yōu)的取值范圍,或不同屬性的最優(yōu)權(quán)重值,以使決策樹的分類算法對(duì)初級(jí)訓(xùn)練集的數(shù)據(jù)元素的分類準(zhǔn)確率滿足期望值,或者以使決策樹的分類算法對(duì)初級(jí)訓(xùn)練集的數(shù)據(jù)元素的分類準(zhǔn)確率最高。
對(duì)于貝葉斯分類器算法而言,不同屬性之間的關(guān)聯(lián)性對(duì)數(shù)據(jù)元素的分類結(jié)果具有影響。進(jìn)一步的,不同的屬性對(duì)數(shù)據(jù)元素的分類結(jié)果可以具有不同程度的影響。在使用決策樹算法進(jìn)行歸納總結(jié)出分類規(guī)則的過程中,可以假設(shè)某些屬性之間的一系列的相關(guān)度,也可以假設(shè)不同屬性的一系列的權(quán)重值。迭代計(jì)算出屬性之間的最優(yōu)的相關(guān)度系數(shù),或不同屬性的最優(yōu)權(quán)重值,以使貝葉斯分類器算法對(duì)初級(jí)訓(xùn)練集的數(shù)據(jù)元素的分類準(zhǔn)確率滿足期望值,或者以使貝葉斯分類器算法對(duì)初級(jí)訓(xùn)練集的數(shù)據(jù)元素的分類準(zhǔn)確率最高。
對(duì)于k近鄰算法而言,數(shù)據(jù)元素的鄰居的個(gè)數(shù)對(duì)數(shù)據(jù)元素的分類結(jié)果具有影響。進(jìn)一步的,不同的屬性對(duì)數(shù)據(jù)元素的分類結(jié)果可以具有不同程度的影響。在使用k近鄰算法進(jìn)行歸納總結(jié)出分類規(guī)則的過程中,可以假設(shè)鄰居的個(gè)數(shù)的一系列的取值范圍,也可以假設(shè)不同屬性的一系列的權(quán)重值。迭代計(jì)算出鄰居的個(gè)數(shù)最優(yōu)的取值,或不同屬性的最優(yōu)權(quán)重值,以使k近鄰的分類算法對(duì)初級(jí)訓(xùn)練集的數(shù)據(jù)元素的分類準(zhǔn)確率滿足期望值,或者以使k近鄰的分類算法對(duì)初級(jí)訓(xùn)練集的數(shù)據(jù)元素的分類準(zhǔn)確率最高。
當(dāng)然,對(duì)于其他分類算法而言,例如支持向量機(jī)、基于關(guān)聯(lián)規(guī)則的分類器、集成學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)等,與上面介紹的分類算法對(duì)應(yīng)的參數(shù)可以相同,也可以不同。最終,通過初級(jí)訓(xùn)練集對(duì)分類算法的使用,可以獲得與第一分類算法對(duì)應(yīng)的、滿足期望的初級(jí)參數(shù)。對(duì)于支持向量機(jī)的分類算法而言,初級(jí)參數(shù)可以包括訓(xùn)練樣本誤差、分類誤差等。對(duì)于基于關(guān)聯(lián)規(guī)則的分類器、集成學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)等的分類算法而言,初級(jí)參數(shù)可以包括屬性的權(quán)重值。
s04:構(gòu)建由所述第一分類算法和所述初級(jí)參數(shù)定義的一級(jí)分類器。
正如上面所列舉的,不同的分類算法之間往往具有一些特殊種類的初級(jí)參數(shù),有的分類算法之間還可以具有共同的初級(jí)參數(shù)。分類算法及與其對(duì)應(yīng)的初級(jí)參數(shù),可以構(gòu)成對(duì)于數(shù)據(jù)樣本起分類作用的分類器,或者分類模型。這些初級(jí)參數(shù),也可以認(rèn)為是分類模型的模型參數(shù)。
s05:選擇一個(gè)已標(biāo)注數(shù)據(jù)分類結(jié)果的初級(jí)測(cè)試集。
本申請(qǐng)實(shí)施例中,可以選擇一個(gè)已標(biāo)注數(shù)據(jù)分類結(jié)果的數(shù)據(jù)集合,以測(cè)試分類器的分類的準(zhǔn)確性。
進(jìn)一步的,在本申請(qǐng)?zhí)峁┑挠忠粚?shí)施例中,還提供一種初級(jí)測(cè)試集的選擇方法。具體的,將數(shù)據(jù)集合隨機(jī)劃分為樣本容量相等的n個(gè)子數(shù)據(jù)集合;
取其中一個(gè)子數(shù)據(jù)集合作為所述初級(jí)測(cè)試集;
設(shè)定剩余的n-1個(gè)子數(shù)據(jù)集合為所述初級(jí)測(cè)試集對(duì)應(yīng)的初級(jí)訓(xùn)練集。
s06:利用一級(jí)分類器對(duì)初級(jí)測(cè)試集分類,生成由測(cè)試分類結(jié)果和已標(biāo)注分類結(jié)果構(gòu)成的次級(jí)訓(xùn)練集。
在本申請(qǐng)實(shí)施例提供的一種可實(shí)現(xiàn)的方式中,將數(shù)據(jù)集合s,隨機(jī)劃分?jǐn)?shù)據(jù)為大體相同的j份子數(shù)據(jù)集合。從中選擇一份子數(shù)據(jù)集合sj作為初級(jí)測(cè)試集,剩余的j-1份子數(shù)據(jù)集合作為與初級(jí)測(cè)試集對(duì)應(yīng)的初級(jí)訓(xùn)練集。從分類算法集{z1,z2,……zk}內(nèi),依次選擇第k,k∈(1,k)個(gè)算法,然后用初級(jí)訓(xùn)練集進(jìn)行訓(xùn)練,獲得一個(gè)分類器,或者叫分類模型
s07:從分類算法集內(nèi)選擇第二分類算法。
同步驟s02類似,這里可以選擇出另一種分類算法。當(dāng)然,這里的分類算法可以是決策樹、貝葉斯分類器、k近鄰、支持向量機(jī)、基于關(guān)聯(lián)規(guī)則的分類器、集成學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)中的一種算法中的一種。
s08:利用所述次級(jí)訓(xùn)練集,對(duì)與第二分類算法對(duì)應(yīng)的參數(shù)進(jìn)行優(yōu)化,獲得滿足期望的次級(jí)參數(shù)。
同步驟s03類似,這里可以獲得滿足期望的初級(jí)參數(shù)。這里的次級(jí)參數(shù)可以包括測(cè)試分類結(jié)果的取值范圍、測(cè)試分類結(jié)果的之間的關(guān)聯(lián)性、測(cè)試分類結(jié)果的鄰居的個(gè)數(shù)、測(cè)試分類結(jié)果的訓(xùn)練樣本誤差、測(cè)試分類結(jié)果的分類誤差、測(cè)試分類結(jié)果的權(quán)重值中至少一種。
s09:構(gòu)建由所述第二分類算法和所述次級(jí)參數(shù)定義的二級(jí)分類器。
同步驟s04類似,這里可以獲得由第二分類算法和次級(jí)參數(shù)定義的二級(jí)分類器。
s10:組合一級(jí)分類器和二級(jí)分類器形成組合分類器,以對(duì)數(shù)據(jù)分類。
進(jìn)一步的,在本申請(qǐng)?zhí)峁┑挠忠粚?shí)施例中,組合一級(jí)分類器和二級(jí)分類器形成組合分類器,以對(duì)數(shù)據(jù)分類,具體包括:重復(fù)從分類算法集內(nèi)抽取兩種分類算法,分別構(gòu)建不同的待定組合分類器;
選擇一個(gè)已標(biāo)注數(shù)據(jù)分類結(jié)果的次級(jí)測(cè)試集;
統(tǒng)計(jì)不同的待定組合分類器對(duì)次級(jí)測(cè)試集分類的準(zhǔn)確性;
選定準(zhǔn)確性最高的待定組合分類器;
使用選定的組合分類器對(duì)數(shù)據(jù)分類。
初級(jí)參數(shù)是對(duì)數(shù)據(jù)的屬性限定的參數(shù)。次級(jí)參數(shù)是對(duì)測(cè)試分類結(jié)果和已標(biāo)注的分類結(jié)果限定的參數(shù),最終,仍然是對(duì)數(shù)據(jù)的屬性限定的參數(shù)。因此,組合分類器所對(duì)應(yīng)的參數(shù)仍然是對(duì)數(shù)據(jù)的屬性限定的參數(shù)。組合分類器可以對(duì)數(shù)據(jù)分類。
s11:使用組合分類器對(duì)數(shù)據(jù)分類。
在本申請(qǐng)?zhí)峁┑膶?shí)施例中,利用所述初級(jí)訓(xùn)練集,對(duì)與第一分類算法對(duì)應(yīng)的參數(shù)進(jìn)行優(yōu)化,獲得滿足期望的初級(jí)參數(shù),構(gòu)建由第一分類算法和初級(jí)參數(shù)定義的一級(jí)分類器,通過該步驟可以獲得每一種分類算法對(duì)應(yīng)的優(yōu)化的一級(jí)分類器。進(jìn)一步的,利用一級(jí)分類器對(duì)初級(jí)測(cè)試集分類,生成測(cè)試分類結(jié)果,從而可以選擇測(cè)試分類結(jié)果中準(zhǔn)確率最高的一級(jí)分類器,也就是說,通過該步驟可以獲得多種分類算法中最優(yōu)的一級(jí)分類器。更進(jìn)一步的,利用次級(jí)訓(xùn)練集,對(duì)與第二分類算法對(duì)應(yīng)的參數(shù)進(jìn)行優(yōu)化,獲得滿足期望的次級(jí)參數(shù);構(gòu)建由所述第二分類算法和所述次級(jí)參數(shù)定義的二級(jí)分類器,通過該步驟可以獲得與一級(jí)分類器具有最強(qiáng)互補(bǔ)性的二級(jí)分類器,也就是說,通過這些步驟的結(jié)合,最終獲得了分類準(zhǔn)確性最高的組合分類器。
以上是本申請(qǐng)實(shí)施例提供的數(shù)據(jù)的分類方法,基于同樣的思路,請(qǐng)參照?qǐng)D4,本申請(qǐng)還提供一種數(shù)據(jù)的分類系統(tǒng)1,包括:
存儲(chǔ)模塊11,用于存儲(chǔ)已標(biāo)注數(shù)據(jù)分類結(jié)果的初級(jí)訓(xùn)練集、初級(jí)測(cè)試集、分類算法集;
建模模塊12,用于:
選擇一個(gè)已標(biāo)注數(shù)據(jù)分類結(jié)果的初級(jí)訓(xùn)練集;
從分類算法集內(nèi)選擇第一分類算法;
利用所述初級(jí)訓(xùn)練集,對(duì)與第一分類算法對(duì)應(yīng)的參數(shù)進(jìn)行優(yōu)化,獲得滿足期望的初級(jí)參數(shù);
構(gòu)建由所述第一分類算法和所述初級(jí)參數(shù)定義的一級(jí)分類器;
選擇一個(gè)已標(biāo)注數(shù)據(jù)分類結(jié)果的初級(jí)測(cè)試集;
利用一級(jí)分類器對(duì)初級(jí)測(cè)試集分類,生成由測(cè)試分類結(jié)果和已標(biāo)注分類結(jié)果構(gòu)成的次級(jí)訓(xùn)練集;
從分類算法集內(nèi)選擇第二分類算法;
利用所述次級(jí)訓(xùn)練集,對(duì)與第二分類算法對(duì)應(yīng)的參數(shù)進(jìn)行優(yōu)化,獲得滿足期望的次級(jí)參數(shù);
構(gòu)建由所述第二分類算法和所述次級(jí)參數(shù)定義的二級(jí)分類器;
組合一級(jí)分類器和二級(jí)分類器形成組合分類器;
分類模塊13,用于使用組合分類器對(duì)數(shù)據(jù)分類。
進(jìn)一步的,在本申請(qǐng)?zhí)峁┑挠忠粚?shí)施例中,存儲(chǔ)模塊11,存儲(chǔ)已標(biāo)注數(shù)據(jù)的分類結(jié)果的數(shù)據(jù)集合;
建模模塊12,用于:
將數(shù)據(jù)集合隨機(jī)劃分為樣本容量相等的j個(gè)子數(shù)據(jù)集合;
取其中一個(gè)子數(shù)據(jù)集合作為所述初級(jí)測(cè)試集;
設(shè)定剩余的j-1個(gè)子數(shù)據(jù)集合為所述初級(jí)測(cè)試集對(duì)應(yīng)的初級(jí)訓(xùn)練集。
進(jìn)一步的,在本申請(qǐng)?zhí)峁┑挠忠粚?shí)施例中,第一分類算法至少包括決策樹、貝葉斯分類器、k近鄰、支持向量機(jī)、基于關(guān)聯(lián)規(guī)則的分類器、集成學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)中的一種算法;
初級(jí)參數(shù)至少包括屬性的取值范圍、屬性之間的關(guān)聯(lián)性、鄰居的個(gè)數(shù)、訓(xùn)練樣本誤差、分類誤差、屬性的權(quán)重值中至少一種。
進(jìn)一步的,在本申請(qǐng)?zhí)峁┑挠忠粚?shí)施例中,第二分類算法至少包括決策樹、貝葉斯分類器、k近鄰、支持向量機(jī)、基于關(guān)聯(lián)規(guī)則的分類器、集成學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)中的一種算法;
次級(jí)參數(shù)至少包括測(cè)試分類結(jié)果的取值范圍、測(cè)試分類結(jié)果的之間的關(guān)聯(lián)性、測(cè)試分類結(jié)果的鄰居的個(gè)數(shù)、測(cè)試分類結(jié)果的訓(xùn)練樣本誤差、測(cè)試分類結(jié)果的分類誤差、測(cè)試分類結(jié)果的權(quán)重值中至少一種。
進(jìn)一步的,在本申請(qǐng)?zhí)峁┑挠忠粚?shí)施例中,所述建模模塊12,用于:組合一級(jí)分類器和二級(jí)分類器形成組合分類器,以對(duì)數(shù)據(jù)分類,具體用于:
重復(fù)從分類算法集內(nèi)抽取兩種分類算法,分別構(gòu)建不同的待定組合分類器;
選擇一個(gè)已標(biāo)注數(shù)據(jù)的分類結(jié)果的次級(jí)測(cè)試集;
統(tǒng)計(jì)不同的待定組合分類器對(duì)次級(jí)測(cè)試集分類的準(zhǔn)確性;
選定準(zhǔn)確性最高的待定組合分類器;
使用選定的組合分類器對(duì)數(shù)據(jù)分類。
在本申請(qǐng)?zhí)峁┑膶?shí)施例中,在本申請(qǐng)?zhí)峁┑膶?shí)施例中,利用所述初級(jí)訓(xùn)練集,對(duì)與第一分類算法對(duì)應(yīng)的參數(shù)進(jìn)行優(yōu)化,獲得滿足期望的初級(jí)參數(shù),構(gòu)建由第一分類算法和初級(jí)參數(shù)定義的一級(jí)分類器,通過該步驟可以獲得每一種分類算法對(duì)應(yīng)的優(yōu)化的一級(jí)分類器。進(jìn)一步的,利用一級(jí)分類器對(duì)初級(jí)測(cè)試集分類,生成測(cè)試分類結(jié)果,從而可以選擇測(cè)試分類結(jié)果中準(zhǔn)確率最高的一級(jí)分類器,也就是說,通過該步驟可以獲得多種分類算法中最優(yōu)的一級(jí)分類器。更進(jìn)一步的,利用次級(jí)訓(xùn)練集,對(duì)與第二分類算法對(duì)應(yīng)的參數(shù)進(jìn)行優(yōu)化,獲得滿足期望的次級(jí)參數(shù);構(gòu)建由所述第二分類算法和所述次級(jí)參數(shù)定義的二級(jí)分類器,通過該步驟可以獲得與一級(jí)分類器具有最強(qiáng)互補(bǔ)性的二級(jí)分類器,也就是說,通過這些步驟的結(jié)合,最終獲得了分類準(zhǔn)確性最高的組合分類器。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本發(fā)明可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、cd-rom、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)值處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)值處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。
這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)值處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。
這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)值處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。
在一個(gè)典型的配置中,計(jì)算設(shè)備包括一個(gè)或多個(gè)處理器(cpu)、輸入/輸出接口、網(wǎng)絡(luò)接口和內(nèi)存。
內(nèi)存可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲(chǔ)器,隨機(jī)存取存儲(chǔ)器(ram)和/或非易失性內(nèi)存等形式,如只讀存儲(chǔ)器(rom)或閃存(flashram)。內(nèi)存是計(jì)算機(jī)可讀介質(zhì)的示例。
計(jì)算機(jī)可讀介質(zhì)包括永久性和非永久性、可移動(dòng)和非可移動(dòng)媒體可以由任何方法或技術(shù)來實(shí)現(xiàn)信息存儲(chǔ)。信息可以是計(jì)算機(jī)可讀指令、數(shù)值結(jié)構(gòu)、程序的模塊或其他數(shù)值。計(jì)算機(jī)的存儲(chǔ)介質(zhì)的例子包括,但不限于相變內(nèi)存(pram)、靜態(tài)隨機(jī)存取存儲(chǔ)器(sram)、動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(dram)、其他類型的隨機(jī)存取存儲(chǔ)器(ram)、只讀存儲(chǔ)器(rom)、電可擦除可編程只讀存儲(chǔ)器(eeprom)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤只讀存儲(chǔ)器(cd-rom)、數(shù)字多功能光盤(dvd)或其他光學(xué)存儲(chǔ)、磁盒式磁帶,磁帶磁磁盤存儲(chǔ)或其他磁性存儲(chǔ)設(shè)備或任何其他非傳輸介質(zhì),可用于存儲(chǔ)可以被計(jì)算設(shè)備訪問的信息。按照本文中的界定,計(jì)算機(jī)可讀介質(zhì)不包括暫存電腦可讀媒體(transitorymedia),如調(diào)制的數(shù)值信號(hào)和載波。
還需要說明的是,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過程、方法、商品或者設(shè)備中還存在另外的相同要素。
本領(lǐng)域技術(shù)人員應(yīng)明白,本申請(qǐng)的實(shí)施例可提供為方法、系統(tǒng)或計(jì)算機(jī)程序產(chǎn)品。因此,本申請(qǐng)可采用完全硬件實(shí)施例、完全軟件實(shí)施例或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本申請(qǐng)可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、cd-rom、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
以上所述僅為本申請(qǐng)的實(shí)施例而已,并不用于限制本申請(qǐng)。對(duì)于本領(lǐng)域技術(shù)人員來說,本申請(qǐng)可以有各種更改和變化。凡在本申請(qǐng)的精神和原理之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本申請(qǐng)的權(quán)利要求范圍之內(nèi)。