數(shù)據(jù)的分類方法及系統(tǒng)與流程

文檔序號(hào)：12825632閱讀：468來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本申請(qǐng)涉及大數(shù)據(jù)技術(shù)，尤其涉及一種應(yīng)用機(jī)器學(xué)習(xí)解決數(shù)據(jù)分類的方法及系統(tǒng)。

背景技術(shù)：

在征信系統(tǒng)的建設(shè)過程中，引入機(jī)器學(xué)習(xí)算法與評(píng)分規(guī)則結(jié)合，可以解決企業(yè)及個(gè)人信用的量化問題。

計(jì)算機(jī)根據(jù)機(jī)器學(xué)習(xí)算法，針對(duì)已標(biāo)注的樣本進(jìn)行學(xué)習(xí)，從而，可以歸納總結(jié)出樣本中的元素在不同的類別之間的分布規(guī)律或分布規(guī)則。利用歸納總結(jié)出的分布規(guī)律或分布規(guī)則，可以對(duì)未標(biāo)注的樣本進(jìn)行分類，也就是說，將這些未標(biāo)注的元素映射到所屬的類別上。

現(xiàn)有技術(shù)中，對(duì)人群的信用數(shù)據(jù)進(jìn)行分類的方法具有多種。常見的分類算法包括：決策樹、貝葉斯、k近鄰、支持向量機(jī)、基于關(guān)聯(lián)規(guī)則、集成學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)。

在利用分類算法，歸納總結(jié)元素在不同的類別之間的分布規(guī)律的過程中，可以將已標(biāo)注的樣本作為訓(xùn)練集，生成與信用數(shù)據(jù)的屬性有關(guān)的參數(shù)。該參數(shù)影響元素所屬的類別。這些參數(shù)通常與某一中分類算法是對(duì)應(yīng)的，兩者合稱分類模型，或者分類器。這些參數(shù)，也稱為模型參數(shù)。為了表征分類器的性能，即分類算法及其對(duì)應(yīng)的參數(shù)對(duì)信用數(shù)據(jù)樣本分類的準(zhǔn)確性，可以通過測(cè)試集來進(jìn)行測(cè)試。當(dāng)一個(gè)分類器對(duì)測(cè)試集中元素分類時(shí)，被正確分類的元素?cái)?shù)量越多，則分類器的性能越好。

在實(shí)現(xiàn)現(xiàn)有技術(shù)過程中，發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問題：

人群可以根據(jù)年齡、學(xué)歷、資產(chǎn)狀況等屬性劃分為幾個(gè)種類。通常，不同的分類器在對(duì)不同種類的信用數(shù)據(jù)分類時(shí)具有不同的性能表現(xiàn)。也就是說，對(duì)于同一種類的人群，不同的分類器分類的準(zhǔn)確度不同。沒有一種分類器在全局樣本，也就是，全部的人群中具有絕對(duì)優(yōu)勢(shì)的準(zhǔn)確度。

因此，需要提供一種對(duì)全局樣本的數(shù)據(jù)的分類準(zhǔn)確度高的技術(shù)方案。

技術(shù)實(shí)現(xiàn)要素：

本申請(qǐng)實(shí)施例提供一種對(duì)全局樣本的數(shù)據(jù)的分類準(zhǔn)確度高的技術(shù)方案。

具體的，一種數(shù)據(jù)的分類方法，包括：

選擇一個(gè)已標(biāo)注數(shù)據(jù)分類結(jié)果的初級(jí)訓(xùn)練集；

從分類算法集內(nèi)選擇第一分類算法；

利用所述初級(jí)訓(xùn)練集，對(duì)與第一分類算法對(duì)應(yīng)的參數(shù)進(jìn)行優(yōu)化，獲得滿足期望的初級(jí)參數(shù)；

構(gòu)建由所述第一分類算法和所述初級(jí)參數(shù)定義的一級(jí)分類器；

選擇一個(gè)已標(biāo)注數(shù)據(jù)分類結(jié)果的初級(jí)測(cè)試集；

利用一級(jí)分類器對(duì)初級(jí)測(cè)試集分類，生成由測(cè)試分類結(jié)果和已標(biāo)注分類結(jié)果構(gòu)成的次級(jí)訓(xùn)練集；

從分類算法集內(nèi)選擇第二分類算法；

利用所述次級(jí)訓(xùn)練集，對(duì)與第二分類算法對(duì)應(yīng)的參數(shù)進(jìn)行優(yōu)化，獲得滿足期望的次級(jí)參數(shù)；

構(gòu)建由所述第二分類算法和所述次級(jí)參數(shù)定義的二級(jí)分類器；

組合一級(jí)分類器和二級(jí)分類器形成組合分類器，以對(duì)數(shù)據(jù)分類；

使用組合分類器對(duì)數(shù)據(jù)分類；

其中，所述數(shù)據(jù)為多維度屬性的特征向量。

本申請(qǐng)實(shí)施例還提供一種數(shù)據(jù)的分類系統(tǒng)，包括：

存儲(chǔ)模塊，用于存儲(chǔ)已標(biāo)注數(shù)據(jù)分類結(jié)果的初級(jí)訓(xùn)練集、初級(jí)測(cè)試集、分類算法集；

建模模塊，用于：

選擇一個(gè)已標(biāo)注數(shù)據(jù)分類結(jié)果的初級(jí)訓(xùn)練集；

從分類算法集內(nèi)選擇第一分類算法；

利用所述初級(jí)訓(xùn)練集，對(duì)與第一分類算法對(duì)應(yīng)的參數(shù)進(jìn)行優(yōu)化，獲得滿足期望的初級(jí)參數(shù)；

構(gòu)建由所述第一分類算法和所述初級(jí)參數(shù)定義的一級(jí)分類器；

選擇一個(gè)已標(biāo)注信用數(shù)據(jù)的分類結(jié)果的初級(jí)測(cè)試集；

利用一級(jí)分類器對(duì)初級(jí)測(cè)試集分類，生成由測(cè)試分類結(jié)果和已標(biāo)注分類結(jié)果構(gòu)成的次級(jí)訓(xùn)練集；

從分類算法集內(nèi)選擇第二分類算法；

利用所述次級(jí)訓(xùn)練集，對(duì)與第二分類算法對(duì)應(yīng)的參數(shù)進(jìn)行優(yōu)化，獲得滿足期望的次級(jí)參數(shù)；

構(gòu)建由所述第二分類算法和所述次級(jí)參數(shù)定義的二級(jí)分類器；

組合一級(jí)分類器和二級(jí)分類器形成組合分類器；

分類模塊，用于使用組合分類器對(duì)數(shù)據(jù)分類。

本申請(qǐng)實(shí)施例提供的數(shù)據(jù)的分類方法和系統(tǒng)，至少具有如下有益效果：

將分類準(zhǔn)確的分類器集成到一起，可以提高分類的準(zhǔn)確性。

附圖說明

此處所說明的附圖用來提供對(duì)本申請(qǐng)的進(jìn)一步理解，構(gòu)成本申請(qǐng)的一部分，本申請(qǐng)的示意性實(shí)施例及其說明用于解釋本申請(qǐng)，并不構(gòu)成對(duì)本申請(qǐng)的不當(dāng)限定。在附圖中：

圖1為本申請(qǐng)實(shí)施例提供的數(shù)據(jù)分類的過程示意圖。

圖2為本申請(qǐng)實(shí)施例提供的初級(jí)訓(xùn)練集和次級(jí)訓(xùn)練集的關(guān)系圖。

圖3為本申請(qǐng)實(shí)施例提供的數(shù)據(jù)的分類方法流程圖。

圖4為本申請(qǐng)實(shí)施例使用的數(shù)據(jù)的分類系統(tǒng)的結(jié)構(gòu)示意圖。

具體實(shí)施方式

為使本申請(qǐng)的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚，下面將結(jié)合本申請(qǐng)具體實(shí)施例及相應(yīng)的附圖對(duì)本申請(qǐng)技術(shù)方案進(jìn)行清楚、完整地描述。顯然，所描述的實(shí)施例僅是本申請(qǐng)一部分實(shí)施例，而不是全部的實(shí)施例。基于本申請(qǐng)中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例，都屬于本申請(qǐng)保護(hù)的范圍。

在征信系統(tǒng)的建設(shè)中，勢(shì)必要用到大數(shù)據(jù)技術(shù)。在大數(shù)據(jù)技術(shù)中，機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘算法是重要的一環(huán)。通過這些算法與模型對(duì)企業(yè)及個(gè)人信用進(jìn)行量化的評(píng)價(jià)與預(yù)測(cè)，從而可以指導(dǎo)如何將資產(chǎn)、現(xiàn)金流等資源以較低的風(fēng)險(xiǎn)投入到生產(chǎn)中，提高生產(chǎn)效率。

征信系統(tǒng)中的數(shù)據(jù)為多維度屬性的特征向量。具體的，例如，數(shù)據(jù)包括但不限于姓名、性別、年齡、職業(yè)、房產(chǎn)、車輛、有價(jià)證券、月收入、月消費(fèi)、信用額度、逾期次數(shù)、最大逾期天數(shù)等各個(gè)維度的屬性。將這些維度的屬性對(duì)應(yīng)的屬性值或特征值數(shù)值化后可以用來量化表示企業(yè)用戶或個(gè)人用戶的信用水平或信用級(jí)別。

數(shù)據(jù)的分布具有聚類的規(guī)律。將人群劃分為若干類別，可以用每一個(gè)類別的樣本的平均信用值，來評(píng)估樣本中每一個(gè)元素的信用值。這里的元素，可以指一個(gè)人。因此，樣本中每一個(gè)元素的信用值的準(zhǔn)確度，依賴于樣本中元素分類的準(zhǔn)確度。

常見的分類算法包括：決策樹、貝葉斯、k近鄰、支持向量機(jī)、基于關(guān)聯(lián)規(guī)則、集成學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)。

決策樹是進(jìn)行分類與預(yù)測(cè)的常見方法之一。決策樹方法，是從已標(biāo)注數(shù)據(jù)分類結(jié)果的訓(xùn)練集歸納總結(jié)出分類規(guī)則。即針對(duì)樣本的屬性構(gòu)建一棵屬性類別關(guān)系樹。屬性類別關(guān)系樹按照一定的規(guī)則，選擇不同的屬性作為樹中的節(jié)點(diǎn)來構(gòu)建屬性和類別之間的關(guān)系?？梢圆捎米皂敹逻f歸構(gòu)建這顆屬性類別關(guān)系樹。樹的葉子節(jié)點(diǎn)便是每個(gè)類別，非葉子節(jié)點(diǎn)便是屬性，節(jié)點(diǎn)之間的連線便是節(jié)點(diǎn)屬性的不同取值范圍。決策樹構(gòu)建后，便從決策樹根節(jié)點(diǎn)開始從上到下對(duì)需要進(jìn)行類別標(biāo)注的元素，進(jìn)行屬性值的比較，最后到達(dá)某個(gè)葉子節(jié)點(diǎn)。該葉子節(jié)點(diǎn)所對(duì)應(yīng)的類別便是該元素的類別。常用的決策樹算法有id3、c4.5/c5.0、cart等。這些算法的區(qū)別主要在于，屬性選擇的策略、決策樹的結(jié)構(gòu)、是否采用剪枝以及剪枝的方法、是否處理大數(shù)據(jù)集等。屬性取值范圍選擇合理時(shí)，分類準(zhǔn)確性高。可以通過訓(xùn)練集，優(yōu)化與決策樹對(duì)應(yīng)的屬性取值范圍等參數(shù)。一種可實(shí)現(xiàn)的方式是，選用特定參數(shù)，使得決策樹方法針對(duì)訓(xùn)練集內(nèi)的數(shù)據(jù)元素分類準(zhǔn)確度最高。通常，一種分類算法及與分類算法對(duì)應(yīng)的參數(shù)也被稱為分類模型或分類器。選用更合理的參數(shù)，也就是，分類模型的優(yōu)化或分類器的優(yōu)化。

貝葉斯分類算法是基于概率論中的貝葉斯公式對(duì)元素進(jìn)行分類的算法。該算法使用貝葉斯公式，計(jì)算元素屬于每個(gè)類別的條件概率，選擇條件概率最大所對(duì)應(yīng)的類別作為其類別。常見的貝葉斯分類算法包括樸素貝葉斯、貝葉斯網(wǎng)絡(luò)。樸素貝葉斯、貝葉斯網(wǎng)絡(luò)的區(qū)別在于假設(shè)屬性之間是否條件獨(dú)立。樸素貝葉斯假設(shè)屬性之間是條件獨(dú)立的，而貝葉斯網(wǎng)絡(luò)是假設(shè)部分屬性之間是有關(guān)聯(lián)的。與決策樹方法類似的是，屬性之間的關(guān)聯(lián)性也可以認(rèn)為是一種與類算法對(duì)應(yīng)的參數(shù)。

k近鄰算法是基于元素的分類算法。該算法首先定義一個(gè)鄰居范圍，即設(shè)定鄰居的個(gè)數(shù)。然后，采用投票的方式來決定元素所屬的類別，即多數(shù)戰(zhàn)勝少數(shù)的策略。元素的類別為鄰居元素中大部分所對(duì)應(yīng)的類別。一般都是采用歐式距離，即選取歐式距離最近的k個(gè)已標(biāo)注類別的樣本作為自己的鄰居。既可以采取鄰居平等投票的方式，也可以采取鄰居權(quán)重值的方式進(jìn)行投票。采取鄰居權(quán)重值的方式進(jìn)行投票，即不同的鄰居的意見有著不同的權(quán)重。一般距離越近的鄰居權(quán)重越大。同樣，這里的鄰居的個(gè)數(shù)，也可以認(rèn)為是一種與分類算法對(duì)應(yīng)的參數(shù)。

對(duì)于支持向量機(jī)、基于關(guān)聯(lián)規(guī)則的分類器、集成學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)等分類算法而言，訓(xùn)練樣本誤差、分類誤差、屬性的權(quán)重值等可以認(rèn)為是與分類算法對(duì)應(yīng)的參數(shù)。

通過訓(xùn)練集，對(duì)分類算法對(duì)應(yīng)的參數(shù)進(jìn)行優(yōu)化，可以提高數(shù)據(jù)分類的準(zhǔn)確性。

請(qǐng)參照?qǐng)D1，為本申請(qǐng)實(shí)施例提供的數(shù)據(jù)的分類方法，具體包括以下步驟：

s01：選擇一個(gè)已標(biāo)注數(shù)據(jù)分類結(jié)果的初級(jí)訓(xùn)練集。

表1

表1為已標(biāo)注數(shù)據(jù)分類結(jié)果的數(shù)據(jù)集合的示意列表。在該列表中，所有用戶的數(shù)據(jù)集合作為一個(gè)樣本，而對(duì)應(yīng)的，一個(gè)用戶可以作為樣本的一個(gè)元素。每一個(gè)元素可以具有年齡、職位等多個(gè)維度的屬性。可以將樣本中的每一個(gè)元素的分類結(jié)果予以標(biāo)注，例如以c1、c2、c3方式予以標(biāo)注。具體的，c1、c2、c3可以取0值或取1值。

這里選擇的初級(jí)訓(xùn)練集可以是數(shù)據(jù)集合中隨機(jī)抽取的一部分。

s02：從分類算法集內(nèi)選擇第一分類算法。

分類算法集是適于分類的算法的集合。分類算法集可以包括決策樹、貝葉斯分類器、k近鄰、支持向量機(jī)、基于關(guān)聯(lián)規(guī)則的分類器、集成學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)等多種算法。前面已經(jīng)對(duì)決策樹算法、貝葉斯分類器算法、k近鄰算法做了簡要說明，而支持向量機(jī)、基于關(guān)聯(lián)規(guī)則的分類器、集成學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)等其余算法在機(jī)器算法領(lǐng)域均有專門的著作加以說明，這里則不再贅述。本申請(qǐng)實(shí)施例在該步驟中，從中選出一個(gè)算法。當(dāng)然，也可以重復(fù)的進(jìn)行，從而選出多個(gè)分類算法。

s03：利用所述初級(jí)訓(xùn)練集，對(duì)與第一分類算法對(duì)應(yīng)的參數(shù)進(jìn)行優(yōu)化，獲得滿足期望的初級(jí)參數(shù)。

對(duì)于決策樹算法而言，屬性值或特征值的取值范圍對(duì)數(shù)據(jù)元素的分類結(jié)果具有影響。進(jìn)一步的，不同的屬性對(duì)數(shù)據(jù)元素的分類結(jié)果可以具有不同程度的影響。在使用決策樹算法進(jìn)行歸納總結(jié)出分類規(guī)則的過程中，可以假設(shè)屬性值的一系列的取值范圍，也可以假設(shè)不同屬性的一系列的權(quán)重值。迭代計(jì)算出屬性值最優(yōu)的取值范圍，或不同屬性的最優(yōu)權(quán)重值，以使決策樹的分類算法對(duì)初級(jí)訓(xùn)練集的數(shù)據(jù)元素的分類準(zhǔn)確率滿足期望值，或者以使決策樹的分類算法對(duì)初級(jí)訓(xùn)練集的數(shù)據(jù)元素的分類準(zhǔn)確率最高。

對(duì)于貝葉斯分類器算法而言，不同屬性之間的關(guān)聯(lián)性對(duì)數(shù)據(jù)元素的分類結(jié)果具有影響。進(jìn)一步的，不同的屬性對(duì)數(shù)據(jù)元素的分類結(jié)果可以具有不同程度的影響。在使用決策樹算法進(jìn)行歸納總結(jié)出分類規(guī)則的過程中，可以假設(shè)某些屬性之間的一系列的相關(guān)度，也可以假設(shè)不同屬性的一系列的權(quán)重值。迭代計(jì)算出屬性之間的最優(yōu)的相關(guān)度系數(shù)，或不同屬性的最優(yōu)權(quán)重值，以使貝葉斯分類器算法對(duì)初級(jí)訓(xùn)練集的數(shù)據(jù)元素的分類準(zhǔn)確率滿足期望值，或者以使貝葉斯分類器算法對(duì)初級(jí)訓(xùn)練集的數(shù)據(jù)元素的分類準(zhǔn)確率最高。

對(duì)于k近鄰算法而言，數(shù)據(jù)元素的鄰居的個(gè)數(shù)對(duì)數(shù)據(jù)元素的分類結(jié)果具有影響。進(jìn)一步的，不同的屬性對(duì)數(shù)據(jù)元素的分類結(jié)果可以具有不同程度的影響。在使用k近鄰算法進(jìn)行歸納總結(jié)出分類規(guī)則的過程中，可以假設(shè)鄰居的個(gè)數(shù)的一系列的取值范圍，也可以假設(shè)不同屬性的一系列的權(quán)重值。迭代計(jì)算出鄰居的個(gè)數(shù)最優(yōu)的取值，或不同屬性的最優(yōu)權(quán)重值，以使k近鄰的分類算法對(duì)初級(jí)訓(xùn)練集的數(shù)據(jù)元素的分類準(zhǔn)確率滿足期望值，或者以使k近鄰的分類算法對(duì)初級(jí)訓(xùn)練集的數(shù)據(jù)元素的分類準(zhǔn)確率最高。

當(dāng)然，對(duì)于其他分類算法而言，例如支持向量機(jī)、基于關(guān)聯(lián)規(guī)則的分類器、集成學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)等，與上面介紹的分類算法對(duì)應(yīng)的參數(shù)可以相同，也可以不同。最終，通過初級(jí)訓(xùn)練集對(duì)分類算法的使用，可以獲得與第一分類算法對(duì)應(yīng)的、滿足期望的初級(jí)參數(shù)。對(duì)于支持向量機(jī)的分類算法而言，初級(jí)參數(shù)可以包括訓(xùn)練樣本誤差、分類誤差等。對(duì)于基于關(guān)聯(lián)規(guī)則的分類器、集成學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)等的分類算法而言，初級(jí)參數(shù)可以包括屬性的權(quán)重值。

s04：構(gòu)建由所述第一分類算法和所述初級(jí)參數(shù)定義的一級(jí)分類器。

正如上面所列舉的，不同的分類算法之間往往具有一些特殊種類的初級(jí)參數(shù)，有的分類算法之間還可以具有共同的初級(jí)參數(shù)。分類算法及與其對(duì)應(yīng)的初級(jí)參數(shù)，可以構(gòu)成對(duì)于數(shù)據(jù)樣本起分類作用的分類器，或者分類模型。這些初級(jí)參數(shù)，也可以認(rèn)為是分類模型的模型參數(shù)。

s05：選擇一個(gè)已標(biāo)注數(shù)據(jù)分類結(jié)果的初級(jí)測(cè)試集。

本申請(qǐng)實(shí)施例中，可以選擇一個(gè)已標(biāo)注數(shù)據(jù)分類結(jié)果的數(shù)據(jù)集合，以測(cè)試分類器的分類的準(zhǔn)確性。

進(jìn)一步的，在本申請(qǐng)?zhí)峁┑挠忠粚?shí)施例中，還提供一種初級(jí)測(cè)試集的選擇方法。具體的，將數(shù)據(jù)集合隨機(jī)劃分為樣本容量相等的n個(gè)子數(shù)據(jù)集合；

取其中一個(gè)子數(shù)據(jù)集合作為所述初級(jí)測(cè)試集；

設(shè)定剩余的n-1個(gè)子數(shù)據(jù)集合為所述初級(jí)測(cè)試集對(duì)應(yīng)的初級(jí)訓(xùn)練集。

s06：利用一級(jí)分類器對(duì)初級(jí)測(cè)試集分類，生成由測(cè)試分類結(jié)果和已標(biāo)注分類結(jié)果構(gòu)成的次級(jí)訓(xùn)練集。

在本申請(qǐng)實(shí)施例提供的一種可實(shí)現(xiàn)的方式中，將數(shù)據(jù)集合s，隨機(jī)劃分?jǐn)?shù)據(jù)為大體相同的j份子數(shù)據(jù)集合。從中選擇一份子數(shù)據(jù)集合sj作為初級(jí)測(cè)試集，剩余的j-1份子數(shù)據(jù)集合作為與初級(jí)測(cè)試集對(duì)應(yīng)的初級(jí)訓(xùn)練集。從分類算法集{z1，z2，……zk}內(nèi)，依次選擇第k，k∈(1，k)個(gè)算法，然后用初級(jí)訓(xùn)練集進(jìn)行訓(xùn)練，獲得一個(gè)分類器，或者叫分類模型其中-j表示用第j份子數(shù)據(jù)集合sj，作為初級(jí)測(cè)試集，除sj外的j-1份子數(shù)據(jù)集合作為訓(xùn)練集。然后，用初級(jí)測(cè)試集測(cè)試分類器可以獲得一個(gè)分類結(jié)果zk，j。zk，j表示用第k個(gè)算法對(duì)應(yīng)的一級(jí)分類器對(duì)第j份子數(shù)據(jù)集合sj的分類結(jié)果?？梢詫y(cè)試分類結(jié)果和已標(biāo)注分類結(jié)果構(gòu)成次級(jí)訓(xùn)練集，即{z1，j，z2，j，……zk，j，yj}。其中yj表示第j份子數(shù)據(jù)集合sj已標(biāo)注的分類結(jié)果。

s07：從分類算法集內(nèi)選擇第二分類算法。

同步驟s02類似，這里可以選擇出另一種分類算法。當(dāng)然，這里的分類算法可以是決策樹、貝葉斯分類器、k近鄰、支持向量機(jī)、基于關(guān)聯(lián)規(guī)則的分類器、集成學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)中的一種算法中的一種。

s08：利用所述次級(jí)訓(xùn)練集，對(duì)與第二分類算法對(duì)應(yīng)的參數(shù)進(jìn)行優(yōu)化，獲得滿足期望的次級(jí)參數(shù)。

同步驟s03類似，這里可以獲得滿足期望的初級(jí)參數(shù)。這里的次級(jí)參數(shù)可以包括測(cè)試分類結(jié)果的取值范圍、測(cè)試分類結(jié)果的之間的關(guān)聯(lián)性、測(cè)試分類結(jié)果的鄰居的個(gè)數(shù)、測(cè)試分類結(jié)果的訓(xùn)練樣本誤差、測(cè)試分類結(jié)果的分類誤差、測(cè)試分類結(jié)果的權(quán)重值中至少一種。

s09：構(gòu)建由所述第二分類算法和所述次級(jí)參數(shù)定義的二級(jí)分類器。

同步驟s04類似，這里可以獲得由第二分類算法和次級(jí)參數(shù)定義的二級(jí)分類器。

s10：組合一級(jí)分類器和二級(jí)分類器形成組合分類器，以對(duì)數(shù)據(jù)分類。

進(jìn)一步的，在本申請(qǐng)?zhí)峁┑挠忠粚?shí)施例中，組合一級(jí)分類器和二級(jí)分類器形成組合分類器，以對(duì)數(shù)據(jù)分類，具體包括：重復(fù)從分類算法集內(nèi)抽取兩種分類算法，分別構(gòu)建不同的待定組合分類器；

選擇一個(gè)已標(biāo)注數(shù)據(jù)分類結(jié)果的次級(jí)測(cè)試集；

統(tǒng)計(jì)不同的待定組合分類器對(duì)次級(jí)測(cè)試集分類的準(zhǔn)確性；

選定準(zhǔn)確性最高的待定組合分類器；

使用選定的組合分類器對(duì)數(shù)據(jù)分類。

初級(jí)參數(shù)是對(duì)數(shù)據(jù)的屬性限定的參數(shù)。次級(jí)參數(shù)是對(duì)測(cè)試分類結(jié)果和已標(biāo)注的分類結(jié)果限定的參數(shù)，最終，仍然是對(duì)數(shù)據(jù)的屬性限定的參數(shù)。因此，組合分類器所對(duì)應(yīng)的參數(shù)仍然是對(duì)數(shù)據(jù)的屬性限定的參數(shù)。組合分類器可以對(duì)數(shù)據(jù)分類。

s11：使用組合分類器對(duì)數(shù)據(jù)分類。

在本申請(qǐng)?zhí)峁┑膶?shí)施例中，利用所述初級(jí)訓(xùn)練集，對(duì)與第一分類算法對(duì)應(yīng)的參數(shù)進(jìn)行優(yōu)化，獲得滿足期望的初級(jí)參數(shù)，構(gòu)建由第一分類算法和初級(jí)參數(shù)定義的一級(jí)分類器，通過該步驟可以獲得每一種分類算法對(duì)應(yīng)的優(yōu)化的一級(jí)分類器。進(jìn)一步的，利用一級(jí)分類器對(duì)初級(jí)測(cè)試集分類，生成測(cè)試分類結(jié)果，從而可以選擇測(cè)試分類結(jié)果中準(zhǔn)確率最高的一級(jí)分類器，也就是說，通過該步驟可以獲得多種分類算法中最優(yōu)的一級(jí)分類器。更進(jìn)一步的，利用次級(jí)訓(xùn)練集，對(duì)與第二分類算法對(duì)應(yīng)的參數(shù)進(jìn)行優(yōu)化，獲得滿足期望的次級(jí)參數(shù)；構(gòu)建由所述第二分類算法和所述次級(jí)參數(shù)定義的二級(jí)分類器，通過該步驟可以獲得與一級(jí)分類器具有最強(qiáng)互補(bǔ)性的二級(jí)分類器，也就是說，通過這些步驟的結(jié)合，最終獲得了分類準(zhǔn)確性最高的組合分類器。

以上是本申請(qǐng)實(shí)施例提供的數(shù)據(jù)的分類方法，基于同樣的思路，請(qǐng)參照?qǐng)D4，本申請(qǐng)還提供一種數(shù)據(jù)的分類系統(tǒng)1，包括：

存儲(chǔ)模塊11，用于存儲(chǔ)已標(biāo)注數(shù)據(jù)分類結(jié)果的初級(jí)訓(xùn)練集、初級(jí)測(cè)試集、分類算法集；

建模模塊12，用于：

選擇一個(gè)已標(biāo)注數(shù)據(jù)分類結(jié)果的初級(jí)訓(xùn)練集；

從分類算法集內(nèi)選擇第一分類算法；

利用所述初級(jí)訓(xùn)練集，對(duì)與第一分類算法對(duì)應(yīng)的參數(shù)進(jìn)行優(yōu)化，獲得滿足期望的初級(jí)參數(shù)；

構(gòu)建由所述第一分類算法和所述初級(jí)參數(shù)定義的一級(jí)分類器；

選擇一個(gè)已標(biāo)注數(shù)據(jù)分類結(jié)果的初級(jí)測(cè)試集；

利用一級(jí)分類器對(duì)初級(jí)測(cè)試集分類，生成由測(cè)試分類結(jié)果和已標(biāo)注分類結(jié)果構(gòu)成的次級(jí)訓(xùn)練集；

從分類算法集內(nèi)選擇第二分類算法；

利用所述次級(jí)訓(xùn)練集，對(duì)與第二分類算法對(duì)應(yīng)的參數(shù)進(jìn)行優(yōu)化，獲得滿足期望的次級(jí)參數(shù)；

構(gòu)建由所述第二分類算法和所述次級(jí)參數(shù)定義的二級(jí)分類器；

組合一級(jí)分類器和二級(jí)分類器形成組合分類器；

分類模塊13，用于使用組合分類器對(duì)數(shù)據(jù)分類。

進(jìn)一步的，在本申請(qǐng)?zhí)峁┑挠忠粚?shí)施例中，存儲(chǔ)模塊11，存儲(chǔ)已標(biāo)注數(shù)據(jù)的分類結(jié)果的數(shù)據(jù)集合；

建模模塊12，用于：

將數(shù)據(jù)集合隨機(jī)劃分為樣本容量相等的j個(gè)子數(shù)據(jù)集合；

取其中一個(gè)子數(shù)據(jù)集合作為所述初級(jí)測(cè)試集；

設(shè)定剩余的j-1個(gè)子數(shù)據(jù)集合為所述初級(jí)測(cè)試集對(duì)應(yīng)的初級(jí)訓(xùn)練集。

進(jìn)一步的，在本申請(qǐng)?zhí)峁┑挠忠粚?shí)施例中，第一分類算法至少包括決策樹、貝葉斯分類器、k近鄰、支持向量機(jī)、基于關(guān)聯(lián)規(guī)則的分類器、集成學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)中的一種算法；

初級(jí)參數(shù)至少包括屬性的取值范圍、屬性之間的關(guān)聯(lián)性、鄰居的個(gè)數(shù)、訓(xùn)練樣本誤差、分類誤差、屬性的權(quán)重值中至少一種。

進(jìn)一步的，在本申請(qǐng)?zhí)峁┑挠忠粚?shí)施例中，第二分類算法至少包括決策樹、貝葉斯分類器、k近鄰、支持向量機(jī)、基于關(guān)聯(lián)規(guī)則的分類器、集成學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)中的一種算法；

次級(jí)參數(shù)至少包括測(cè)試分類結(jié)果的取值范圍、測(cè)試分類結(jié)果的之間的關(guān)聯(lián)性、測(cè)試分類結(jié)果的鄰居的個(gè)數(shù)、測(cè)試分類結(jié)果的訓(xùn)練樣本誤差、測(cè)試分類結(jié)果的分類誤差、測(cè)試分類結(jié)果的權(quán)重值中至少一種。

進(jìn)一步的，在本申請(qǐng)?zhí)峁┑挠忠粚?shí)施例中，所述建模模塊12，用于：組合一級(jí)分類器和二級(jí)分類器形成組合分類器，以對(duì)數(shù)據(jù)分類，具體用于：

重復(fù)從分類算法集內(nèi)抽取兩種分類算法，分別構(gòu)建不同的待定組合分類器；

選擇一個(gè)已標(biāo)注數(shù)據(jù)的分類結(jié)果的次級(jí)測(cè)試集；

統(tǒng)計(jì)不同的待定組合分類器對(duì)次級(jí)測(cè)試集分類的準(zhǔn)確性；

選定準(zhǔn)確性最高的待定組合分類器；

使用選定的組合分類器對(duì)數(shù)據(jù)分類。

在本申請(qǐng)?zhí)峁┑膶?shí)施例中，在本申請(qǐng)?zhí)峁┑膶?shí)施例中，利用所述初級(jí)訓(xùn)練集，對(duì)與第一分類算法對(duì)應(yīng)的參數(shù)進(jìn)行優(yōu)化，獲得滿足期望的初級(jí)參數(shù)，構(gòu)建由第一分類算法和初級(jí)參數(shù)定義的一級(jí)分類器，通過該步驟可以獲得每一種分類算法對(duì)應(yīng)的優(yōu)化的一級(jí)分類器。進(jìn)一步的，利用一級(jí)分類器對(duì)初級(jí)測(cè)試集分類，生成測(cè)試分類結(jié)果，從而可以選擇測(cè)試分類結(jié)果中準(zhǔn)確率最高的一級(jí)分類器，也就是說，通過該步驟可以獲得多種分類算法中最優(yōu)的一級(jí)分類器。更進(jìn)一步的，利用次級(jí)訓(xùn)練集，對(duì)與第二分類算法對(duì)應(yīng)的參數(shù)進(jìn)行優(yōu)化，獲得滿足期望的次級(jí)參數(shù)；構(gòu)建由所述第二分類算法和所述次級(jí)參數(shù)定義的二級(jí)分類器，通過該步驟可以獲得與一級(jí)分類器具有最強(qiáng)互補(bǔ)性的二級(jí)分類器，也就是說，通過這些步驟的結(jié)合，最終獲得了分類準(zhǔn)確性最高的組合分類器。

本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白，本發(fā)明的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此，本發(fā)明可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且，本發(fā)明可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、cd-rom、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。

本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合?？商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)值處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器，使得通過計(jì)算機(jī)或其他可編程數(shù)值處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。

這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)值處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中，使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品，該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。

這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)值處理設(shè)備上，使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理，從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。

在一個(gè)典型的配置中，計(jì)算設(shè)備包括一個(gè)或多個(gè)處理器(cpu)、輸入/輸出接口、網(wǎng)絡(luò)接口和內(nèi)存。

內(nèi)存可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲(chǔ)器，隨機(jī)存取存儲(chǔ)器(ram)和/或非易失性內(nèi)存等形式，如只讀存儲(chǔ)器(rom)或閃存(flashram)。內(nèi)存是計(jì)算機(jī)可讀介質(zhì)的示例。

計(jì)算機(jī)可讀介質(zhì)包括永久性和非永久性、可移動(dòng)和非可移動(dòng)媒體可以由任何方法或技術(shù)來實(shí)現(xiàn)信息存儲(chǔ)。信息可以是計(jì)算機(jī)可讀指令、數(shù)值結(jié)構(gòu)、程序的模塊或其他數(shù)值。計(jì)算機(jī)的存儲(chǔ)介質(zhì)的例子包括，但不限于相變內(nèi)存(pram)、靜態(tài)隨機(jī)存取存儲(chǔ)器(sram)、動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(dram)、其他類型的隨機(jī)存取存儲(chǔ)器(ram)、只讀存儲(chǔ)器(rom)、電可擦除可編程只讀存儲(chǔ)器(eeprom)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤只讀存儲(chǔ)器(cd-rom)、數(shù)字多功能光盤(dvd)或其他光學(xué)存儲(chǔ)、磁盒式磁帶，磁帶磁磁盤存儲(chǔ)或其他磁性存儲(chǔ)設(shè)備或任何其他非傳輸介質(zhì)，可用于存儲(chǔ)可以被計(jì)算設(shè)備訪問的信息。按照本文中的界定，計(jì)算機(jī)可讀介質(zhì)不包括暫存電腦可讀媒體(transitorymedia)，如調(diào)制的數(shù)值信號(hào)和載波。

還需要說明的是，術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、商品或者設(shè)備不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、商品或者設(shè)備所固有的要素。在沒有更多限制的情況下，由語句“包括一個(gè)……”限定的要素，并不排除在包括所述要素的過程、方法、商品或者設(shè)備中還存在另外的相同要素。

本領(lǐng)域技術(shù)人員應(yīng)明白，本申請(qǐng)的實(shí)施例可提供為方法、系統(tǒng)或計(jì)算機(jī)程序產(chǎn)品。因此，本申請(qǐng)可采用完全硬件實(shí)施例、完全軟件實(shí)施例或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且，本申請(qǐng)可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、cd-rom、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。

以上所述僅為本申請(qǐng)的實(shí)施例而已，并不用于限制本申請(qǐng)。對(duì)于本領(lǐng)域技術(shù)人員來說，本申請(qǐng)可以有各種更改和變化。凡在本申請(qǐng)的精神和原理之內(nèi)所作的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本申請(qǐng)的權(quán)利要求范圍之內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：趙科科;王曉光;李文鵬;漆遠(yuǎn);張柯;楊強(qiáng)鵬;隋宛辰;俞吳杰;楊旭
技術(shù)所有人：阿里巴巴集團(tuán)控股有限公司
我是此專利的發(fā)明人

上一篇：醫(yī)院廢水處理系統(tǒng)的制作方法與工藝
上一篇：一種數(shù)據(jù)匹配方法及裝置與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

數(shù)據(jù)分析系統(tǒng)方案相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

數(shù)據(jù)的分類方法及系統(tǒng)與流程