本發(fā)明涉及機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域,特別是涉及一種面向數(shù)據(jù)分類的特征權(quán)重確定方法及裝置。
背景技術(shù):
數(shù)據(jù)分類問題就是根據(jù)數(shù)據(jù)的特征對(duì)數(shù)據(jù)所屬的類別進(jìn)行判定。例如,對(duì)一個(gè)國(guó)家的經(jīng)濟(jì)水平,可以根據(jù)GDP、國(guó)民收入、國(guó)土面積等特征,來判定該國(guó)家屬于發(fā)達(dá)國(guó)家或發(fā)展中國(guó)家。數(shù)據(jù)分類方法的基礎(chǔ)思想是,選取一些已知類別的訓(xùn)練數(shù)據(jù),確定每個(gè)訓(xùn)練數(shù)據(jù)的特征權(quán)重,并利用各特征權(quán)重訓(xùn)練多個(gè)分類器,之后利用各分類器,對(duì)未知類別的測(cè)試數(shù)據(jù)進(jìn)行分類。具體地,可以計(jì)算測(cè)試數(shù)據(jù)屬于每種類別的置信度,最后將測(cè)試數(shù)據(jù)歸屬于置信度最大的類別。
現(xiàn)有技術(shù)中,數(shù)據(jù)分類方法主要是選取已知類別的訓(xùn)練數(shù)據(jù),然后對(duì)所有訓(xùn)練數(shù)據(jù)確定一個(gè)統(tǒng)一的特征權(quán)重,并利用確定的特征權(quán)重,訓(xùn)練分類器,之后利用分類器,對(duì)未知類別的測(cè)試數(shù)據(jù)進(jìn)行分類。
但是,每個(gè)訓(xùn)練數(shù)據(jù)對(duì)數(shù)據(jù)分類的重要程度是不同的,重要的訓(xùn)練數(shù)據(jù)有助于數(shù)據(jù)分類,不重要訓(xùn)練數(shù)據(jù)可能會(huì)干擾數(shù)據(jù)分類。如上述例子,訓(xùn)練數(shù)據(jù)中的國(guó)土面積對(duì)經(jīng)濟(jì)水平的判定不重要,而且還會(huì)干擾經(jīng)濟(jì)水平的判定。這樣的話,由于每個(gè)訓(xùn)練數(shù)據(jù)對(duì)數(shù)據(jù)分類的重要程度不同,如果將所有訓(xùn)練數(shù)據(jù)的特征權(quán)重設(shè)置為相同,將導(dǎo)致不重要的訓(xùn)練數(shù)據(jù)對(duì)數(shù)據(jù)分類造成干擾,進(jìn)而致使數(shù)據(jù)分類不準(zhǔn)確。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例的目的在于提供一種面向數(shù)據(jù)分類的特征權(quán)重確定方法及裝置,以準(zhǔn)確的對(duì)數(shù)據(jù)進(jìn)行分類。具體技術(shù)方案如下:
一種面向數(shù)據(jù)分類的特征權(quán)重確定方法,包括:
獲取各類別的訓(xùn)練數(shù)據(jù),初始化每個(gè)訓(xùn)練數(shù)據(jù)的當(dāng)前特征權(quán)重為相同值,并獲取預(yù)設(shè)的執(zhí)行數(shù)量;
將各訓(xùn)練數(shù)據(jù)的當(dāng)前特征權(quán)重確定為對(duì)應(yīng)各訓(xùn)練數(shù)據(jù)的第一特征權(quán)重;
針對(duì)每個(gè)訓(xùn)練數(shù)據(jù),將該訓(xùn)練數(shù)據(jù)作為第一訓(xùn)練數(shù)據(jù),并根據(jù)每個(gè)訓(xùn)練數(shù)據(jù)的第一特征權(quán)重,計(jì)算所述第一訓(xùn)練數(shù)據(jù)與其他各訓(xùn)練數(shù)據(jù)的歐式距離;
根據(jù)所述第一訓(xùn)練數(shù)據(jù)與其他各訓(xùn)練數(shù)據(jù)的歐式距離,確定其他各訓(xùn)練數(shù)據(jù)的樣本權(quán)重;
根據(jù)其他各訓(xùn)練數(shù)據(jù)的樣本權(quán)重、所述第一訓(xùn)練數(shù)據(jù)的第一特征權(quán)重、以及預(yù)先構(gòu)建的多目標(biāo)優(yōu)化函數(shù),確定所述第一訓(xùn)練數(shù)據(jù)的當(dāng)前特征權(quán)重;
判斷已執(zhí)行的循環(huán)次數(shù)是否為所述執(zhí)行數(shù)量;如果否,返回執(zhí)行所述將各訓(xùn)練數(shù)據(jù)的當(dāng)前特征權(quán)重確定為對(duì)應(yīng)各訓(xùn)練數(shù)據(jù)的第一特征權(quán)重的步驟。
可選地,所述根據(jù)其他各訓(xùn)練數(shù)據(jù)的樣本權(quán)重、所述第一訓(xùn)練數(shù)據(jù)的第一特征權(quán)重、以及預(yù)先構(gòu)建的多目標(biāo)優(yōu)化函數(shù),確定所述第一訓(xùn)練數(shù)據(jù)的當(dāng)前特征權(quán)重包括:
將所述多目標(biāo)優(yōu)化函數(shù)轉(zhuǎn)化為單目標(biāo)優(yōu)化函數(shù);
求解所述單目標(biāo)優(yōu)化函數(shù)的帕累托解集;
針對(duì)所述帕累托解集中的任一解,采用交叉驗(yàn)證的方法,確定該帕累托解對(duì)應(yīng)的分類準(zhǔn)確率;
將分類準(zhǔn)確率最大的帕累托解確定為所述第一訓(xùn)練數(shù)據(jù)的當(dāng)前特征權(quán)重。
可選地,所述針對(duì)所述帕累托解集中的任一解,采用交叉驗(yàn)證的方法,確定該帕累托解對(duì)應(yīng)的分類準(zhǔn)確率包括:
針對(duì)所述帕累托解集中的任一解,利用該帕累托解確定所述第一訓(xùn)練數(shù)據(jù)的分類器半徑;
針對(duì)任一其他訓(xùn)練數(shù)據(jù),根據(jù)所述第一訓(xùn)練數(shù)據(jù)的分類器半徑以及所述第一訓(xùn)練數(shù)據(jù)與該訓(xùn)練數(shù)據(jù)的歐式距離,確定該訓(xùn)練數(shù)據(jù)針對(duì)所述第一訓(xùn)練數(shù)據(jù)的分類信息,其中,所述分類信息包括該訓(xùn)練數(shù)據(jù)與所述第一訓(xùn)練數(shù)據(jù)屬于同一類別或不屬于同一類別;
根據(jù)所確定的分類信息以及每個(gè)訓(xùn)練數(shù)據(jù)的所屬類別,確定該帕累托解對(duì)應(yīng)的分類準(zhǔn)確率。
可選地,所述確定其他各訓(xùn)練數(shù)據(jù)的樣本權(quán)重包括:
根據(jù)以下公式,確定當(dāng)?shù)谝挥?xùn)練數(shù)據(jù)為x(i)時(shí),任一其他訓(xùn)練數(shù)據(jù)x(j)(j=1,...,N,j≠i)的樣本權(quán)重:
其中,所述N為訓(xùn)練數(shù)據(jù)的個(gè)數(shù),所述為所述訓(xùn)練數(shù)據(jù)x(j)(j=1,...,N,j≠i)的樣本權(quán)重,所述dij|k為所述第一訓(xùn)練數(shù)據(jù)x(i)與所述訓(xùn)練數(shù)據(jù)x(j)的歐式距離dij|k,所述所述為訓(xùn)練數(shù)據(jù)x(k)(k=1,...,N)的第一特征權(quán)重,所述表示向量按元素相乘,所述所述y(i)為所述第一訓(xùn)練數(shù)據(jù)x(i)所屬的類別集合,所述y(j)為所述其他訓(xùn)練數(shù)據(jù)x(j)所屬的類別集合。
可選地,所述多目標(biāo)優(yōu)化函數(shù)為:
其中,所述為與所述第一訓(xùn)練數(shù)據(jù)屬于同一類別的訓(xùn)練數(shù)據(jù)與所述第一訓(xùn)練數(shù)據(jù)的加權(quán)距離和,所述所述f(i)為所述第一訓(xùn)練數(shù)據(jù)x(i)的當(dāng)前特征權(quán)重,所述為與所述第一訓(xùn)練數(shù)據(jù)不屬于同一類別的訓(xùn)練數(shù)據(jù)與所述第一訓(xùn)練數(shù)據(jù)的加權(quán)距離和,所述M為訓(xùn)練數(shù)據(jù)的特征維度。
可選地,所述單目標(biāo)優(yōu)化函數(shù)為:
其中,ε∈[0,tr(b(i))]。
為達(dá)到上述目的,本發(fā)明實(shí)施例還提供了一種面向數(shù)據(jù)分類的特征權(quán)重確定裝置,包括:
獲取單元,用于獲取各類別的訓(xùn)練數(shù)據(jù),初始化每個(gè)訓(xùn)練數(shù)據(jù)的當(dāng)前特征權(quán)重為相同值,并獲取預(yù)設(shè)的執(zhí)行數(shù)量;
第一確定單元,用于將各訓(xùn)練數(shù)據(jù)的當(dāng)前特征權(quán)重確定為對(duì)應(yīng)各訓(xùn)練數(shù)據(jù)的第一特征權(quán)重;
計(jì)算單元,用于針對(duì)每個(gè)訓(xùn)練數(shù)據(jù),將該訓(xùn)練數(shù)據(jù)作為第一訓(xùn)練數(shù)據(jù),并根據(jù)每個(gè)訓(xùn)練數(shù)據(jù)的第一特征權(quán)重,計(jì)算所述第一訓(xùn)練數(shù)據(jù)與其他各訓(xùn)練數(shù)據(jù)的歐式距離;
第二確定單元,用于根據(jù)所述第一訓(xùn)練數(shù)據(jù)與其他各訓(xùn)練數(shù)據(jù)的歐式距離,確定其他各訓(xùn)練數(shù)據(jù)的樣本權(quán)重;
第三確定單元,用于根據(jù)其他各訓(xùn)練數(shù)據(jù)的樣本權(quán)重、所述第一訓(xùn)練數(shù)據(jù)的第一特征權(quán)重、以及預(yù)先構(gòu)建的多目標(biāo)優(yōu)化函數(shù),確定所述第一訓(xùn)練數(shù)據(jù)的當(dāng)前特征權(quán)重;
判斷單元,用于判斷執(zhí)行的循環(huán)次數(shù)是否為所述執(zhí)行數(shù)量,如果否,觸發(fā)所述第一確定單元。
可選地,所述第三確定單元包括:
轉(zhuǎn)化子單元,用于將所述多目標(biāo)優(yōu)化函數(shù)轉(zhuǎn)化為單目標(biāo)優(yōu)化函數(shù);
求解子單元,用于求解所述單目標(biāo)優(yōu)化函數(shù)的帕累托解集;
第一確定子單元,用于針對(duì)所述帕累托解集中的任一解,采用交叉驗(yàn)證的方法,確定該帕累托解對(duì)應(yīng)的分類準(zhǔn)確率;
第二確定子單元,用于將分類準(zhǔn)確率最大的帕累托解確定為所述第一訓(xùn)練數(shù)據(jù)的當(dāng)前特征權(quán)重。
可選地,所述第一確定子單元包括:
第一確定子模塊,用于針對(duì)所述帕累托解集中的任一解,利用該帕累托解確定所述第一訓(xùn)練數(shù)據(jù)的分類器半徑;
第二確定子模塊,用于針對(duì)任一其他訓(xùn)練數(shù)據(jù),根據(jù)所述第一訓(xùn)練數(shù)據(jù)的分類器半徑以及所述第一訓(xùn)練數(shù)據(jù)與該訓(xùn)練數(shù)據(jù)的歐式距離,確定該訓(xùn)練數(shù)據(jù)針對(duì)所述第一訓(xùn)練數(shù)據(jù)的分類信息,其中,所述分類信息包括該訓(xùn)練數(shù)據(jù)與所述第一訓(xùn)練數(shù)據(jù)屬于同一類別或不屬于同一類別;
第三確定子模塊,用于根據(jù)所確定的分類信息以及每個(gè)訓(xùn)練數(shù)據(jù)的所屬類別,確定該帕累托解對(duì)應(yīng)的分類準(zhǔn)確率。
可選地,所述第二確定單元具體用于:
根據(jù)以下公式,確定當(dāng)?shù)谝挥?xùn)練數(shù)據(jù)為x(i)時(shí),任一其他訓(xùn)練數(shù)據(jù)x(j)(j=1,...,N,j≠i)的樣本權(quán)重:
其中,所述N為訓(xùn)練數(shù)據(jù)的個(gè)數(shù),所述為所述訓(xùn)練數(shù)據(jù)x(j)(j=1,...,N,j≠i)的樣本權(quán)重,所述dij|k為所述第一訓(xùn)練數(shù)據(jù)x(i)與所述訓(xùn)練數(shù)據(jù)x(j)的歐式距離dij|k,所述所述為訓(xùn)練數(shù)據(jù)x(k)(k=1,...,N)的第一特征權(quán)重,所述表示向量按元素相乘,所述所述y(i)為所述第一訓(xùn)練數(shù)據(jù)x(i)所屬的類別集合,所述y(j)為所述其他訓(xùn)練數(shù)據(jù)x(j)所屬的類別集合。
本發(fā)明實(shí)施例提供了一種面向數(shù)據(jù)分類的特征權(quán)重確定方法及裝置,首先獲取各類別的訓(xùn)練數(shù)據(jù),初始化每個(gè)訓(xùn)練數(shù)據(jù)的當(dāng)前特征權(quán)重為相同值,并獲取預(yù)設(shè)的執(zhí)行數(shù)量;然后依次執(zhí)行循環(huán)次數(shù)為所述執(zhí)行數(shù)量的下列步驟:將各訓(xùn)練數(shù)據(jù)的當(dāng)前特征權(quán)重確定為對(duì)應(yīng)各訓(xùn)練數(shù)據(jù)的第一特征權(quán)重;針對(duì)每個(gè)訓(xùn)練數(shù)據(jù),將該訓(xùn)練數(shù)據(jù)作為第一訓(xùn)練數(shù)據(jù),并計(jì)算所述第一訓(xùn)練數(shù)據(jù)與其他各訓(xùn)練數(shù)據(jù)的歐式距離;根據(jù)所述第一訓(xùn)練數(shù)據(jù)與其他各訓(xùn)練數(shù)據(jù)的歐式距離,以及每個(gè)訓(xùn)練數(shù)據(jù)的第一特征權(quán)重,確定其他各訓(xùn)練數(shù)據(jù)的樣本權(quán)重;根據(jù)其他各訓(xùn)練數(shù)據(jù)的樣本權(quán)重、所述第一訓(xùn)練數(shù)據(jù)的第一特征權(quán)重、以及預(yù)先構(gòu)建的多目標(biāo)優(yōu)化函數(shù),確定所述第一訓(xùn)練數(shù)據(jù)的當(dāng)前特征權(quán)重。與現(xiàn)有技術(shù)相比,應(yīng)用本發(fā)明實(shí)施例,可以確定每個(gè)訓(xùn)練數(shù)據(jù)的特征權(quán)重,進(jìn)而能夠準(zhǔn)確的對(duì)數(shù)據(jù)進(jìn)行分類。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實(shí)施例所提供的一種面向數(shù)據(jù)分類的特征權(quán)重確定方法的流程示意圖;
圖2為本發(fā)明實(shí)施例所提供的一種面向數(shù)據(jù)分類的特征權(quán)重確定方法中確定當(dāng)前特征權(quán)重方法的流程示意圖;
圖3為本發(fā)明實(shí)施例所提供的一種面向數(shù)據(jù)分類的特征權(quán)重確定裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
為了能夠準(zhǔn)確的對(duì)數(shù)據(jù)進(jìn)行分類,本發(fā)明實(shí)施例提供了一種面向數(shù)據(jù)分類的特征權(quán)重確定方法及裝置。需要說明的是,本發(fā)明實(shí)施例所提供的一種面向數(shù)據(jù)分類的特征權(quán)重確定方法及裝置可以應(yīng)用于服務(wù)器。本實(shí)施例中的公式中所出現(xiàn)的參數(shù)均為各個(gè)訓(xùn)練數(shù)據(jù)或測(cè)試數(shù)據(jù)在同一特征空間中的特征值。
如圖1所示,本實(shí)施例提供了一種面向數(shù)據(jù)分類的特征權(quán)重確定方法,應(yīng)用于服務(wù)器,該方法包括以下步驟:
S110,獲取各類別的訓(xùn)練數(shù)據(jù),初始化每個(gè)訓(xùn)練數(shù)據(jù)的當(dāng)前特征權(quán)重為相同值,并獲取預(yù)設(shè)的執(zhí)行數(shù)量。
在本發(fā)明實(shí)施例中,服務(wù)器可以針對(duì)待分析的各類別,獲取每個(gè)類別的訓(xùn)練數(shù)據(jù)。例如,針對(duì)國(guó)家是否為“發(fā)達(dá)國(guó)家”和“不發(fā)達(dá)國(guó)家”兩個(gè)類別,獲取GDP數(shù)據(jù)、國(guó)民收入數(shù)據(jù)、國(guó)土面積數(shù)據(jù),并將這些數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)。
然后,服務(wù)器可以將每個(gè)訓(xùn)練數(shù)據(jù)映射到同一個(gè)特征空間,以保證每個(gè)訓(xùn)練數(shù)據(jù)的特征維度相同。之后將每個(gè)訓(xùn)練數(shù)據(jù)的當(dāng)前特征權(quán)重初始化為相同值,例如可以將每個(gè)訓(xùn)練數(shù)據(jù)的當(dāng)前特征權(quán)重初始化為零向量,零向量的維度為訓(xùn)練數(shù)據(jù)的特征維度。
在本發(fā)明實(shí)施例中,在服務(wù)器獲取訓(xùn)練數(shù)據(jù)之前,用戶可以根據(jù)訓(xùn)練數(shù)據(jù)的收斂函數(shù),預(yù)先設(shè)定執(zhí)行數(shù)量,并將預(yù)設(shè)的執(zhí)行數(shù)量保存在服務(wù)器本地。服務(wù)器可以在初始化每個(gè)訓(xùn)練數(shù)據(jù)的當(dāng)前特征權(quán)重為相同值后,直接在本地獲取預(yù)設(shè)的執(zhí)行數(shù)量。例如,用戶可以將執(zhí)行數(shù)量預(yù)設(shè)為2到5之間的任一整數(shù),并將預(yù)設(shè)的執(zhí)行數(shù)量保存到服務(wù)器本地。
S120,將各訓(xùn)練數(shù)據(jù)的當(dāng)前特征權(quán)重確定為對(duì)應(yīng)各訓(xùn)練數(shù)據(jù)的第一特征權(quán)重。
服務(wù)器可以針對(duì)每個(gè)訓(xùn)練數(shù)據(jù),將該訓(xùn)練數(shù)據(jù)的當(dāng)前特征權(quán)重確定為該訓(xùn)練數(shù)據(jù)的第一特征權(quán)重。
S130,針對(duì)每個(gè)訓(xùn)練數(shù)據(jù),將該訓(xùn)練數(shù)據(jù)作為第一訓(xùn)練數(shù)據(jù),并根據(jù)每個(gè)訓(xùn)練數(shù)據(jù)的第一特征權(quán)重,計(jì)算所述第一訓(xùn)練數(shù)據(jù)與其他各訓(xùn)練數(shù)據(jù)的歐式距離。
可以理解,其他各訓(xùn)練數(shù)據(jù)可以包括第一訓(xùn)練數(shù)據(jù)所屬的類別中除第一訓(xùn)練數(shù)據(jù)之外的其他各訓(xùn)練數(shù)據(jù),以及其他類別中的各訓(xùn)練數(shù)據(jù)。
具體地,服務(wù)器將每個(gè)訓(xùn)練數(shù)據(jù)映射到同一個(gè)特征空間后,可以首先選取一個(gè)訓(xùn)練數(shù)據(jù)作為第一訓(xùn)練數(shù)據(jù)x(i),然后,計(jì)算第一訓(xùn)練數(shù)據(jù)x(i)與其他各訓(xùn)練數(shù)據(jù)x(j)(j=1,...,N,j≠i)的歐式距離dij|k。其中,為訓(xùn)練數(shù)據(jù)x(k)(k=1,...,N)的第一特征權(quán)重,所述表示向量按元素相乘。
例如,假設(shè)第一訓(xùn)練數(shù)據(jù)為x1,其他訓(xùn)練數(shù)據(jù)有5個(gè),為{x2,x3,x4,x5,x6},則服務(wù)器在將每個(gè)訓(xùn)練數(shù)據(jù){x1,x2,x3,x4,x5,x6}映射到同一個(gè)特征空間后,根據(jù)公式分別計(jì)算第一訓(xùn)練數(shù)據(jù)x1與其他5個(gè)訓(xùn)練數(shù)據(jù){x2,x3,x4,x5,x6}的歐式距離dij|k。
需要說明的是,服務(wù)器計(jì)算目標(biāo)訓(xùn)練數(shù)據(jù)與其他訓(xùn)練數(shù)據(jù)的歐式距離的過程,還可以采用現(xiàn)有的任一種方法,本發(fā)明實(shí)施例對(duì)此不進(jìn)行贅述。
S140,根據(jù)所述第一訓(xùn)練數(shù)據(jù)與其他各訓(xùn)練數(shù)據(jù)的歐式距離,確定其他各訓(xùn)練數(shù)據(jù)的樣本權(quán)重。
具體地,可以根據(jù)以下公式,確定當(dāng)?shù)谝挥?xùn)練數(shù)據(jù)為x(i)時(shí),任一其他訓(xùn)練數(shù)據(jù)x(j)(j=1,...,N,j≠i)的樣本權(quán)重:
其中,所述N為訓(xùn)練數(shù)據(jù)的個(gè)數(shù),所述為所述訓(xùn)練數(shù)據(jù)x(j)(j=1,...,N,j≠i)的樣本權(quán)重,所述dij|k為所述第一訓(xùn)練數(shù)據(jù)x(i)與所述訓(xùn)練數(shù)據(jù)x(j)的加權(quán)歐式距離dij|k,所述所述為訓(xùn)練數(shù)據(jù)x(k)(k=1,...,N)的第一特征權(quán)重,所述表示向量按元素相乘,所述所述y(i)為所述第一訓(xùn)練數(shù)據(jù)x(i)所屬的類別集合,所述y(j)為所述其他訓(xùn)練數(shù)據(jù)x(j)所屬的類別集合。
例如,假設(shè)第一訓(xùn)練數(shù)據(jù)為x1,其他訓(xùn)練數(shù)據(jù)有5個(gè),為{x2,x3,x4,x5,x6},則確定的訓(xùn)練數(shù)據(jù)x2的樣本權(quán)重為:
S150,根據(jù)其他各訓(xùn)練數(shù)據(jù)的樣本權(quán)重、所述第一訓(xùn)練數(shù)據(jù)的第一特征權(quán)重、以及預(yù)先構(gòu)建的多目標(biāo)優(yōu)化函數(shù),確定所述第一訓(xùn)練數(shù)據(jù)的當(dāng)前特征權(quán)重。
服務(wù)器可以將確定的其他各訓(xùn)練數(shù)據(jù)的樣本權(quán)重和第一訓(xùn)練數(shù)據(jù)的第一特征權(quán)重帶入到預(yù)先構(gòu)建的多目標(biāo)優(yōu)化函數(shù),對(duì)多目標(biāo)函數(shù)進(jìn)行求解,進(jìn)而確定第一訓(xùn)練數(shù)據(jù)的當(dāng)前特征權(quán)重。
詳細(xì)地,預(yù)先構(gòu)建的多目標(biāo)函數(shù)可以為:
其中,M為訓(xùn)練數(shù)據(jù)的特征維度,為與第一訓(xùn)練數(shù)據(jù)屬于同一類別的訓(xùn)練數(shù)據(jù)與第一訓(xùn)練數(shù)據(jù)的加權(quán)距離和,f(i)為第一訓(xùn)練數(shù)據(jù)x(i)的當(dāng)前特征權(quán)重,為與第一訓(xùn)練數(shù)據(jù)不屬于同一類別的訓(xùn)練數(shù)據(jù)與第一訓(xùn)練數(shù)據(jù)的加權(quán)距離和,1T表示f(i)的各個(gè)元素相加,例如,f(1)=(a b c)T,則1Tf(1)=a+b+c。
為了方案布局清晰,后續(xù)對(duì)根據(jù)其他各訓(xùn)練數(shù)據(jù)的樣本權(quán)重、第一訓(xùn)練數(shù)據(jù)的第一特征權(quán)重、以及預(yù)先構(gòu)建的多目標(biāo)優(yōu)化函數(shù),確定第一訓(xùn)練數(shù)據(jù)的當(dāng)前特征權(quán)重的過程進(jìn)行詳細(xì)介紹。
S160,判斷執(zhí)行的循環(huán)次數(shù)是否為所述執(zhí)行數(shù)量,如果是,結(jié)束,如果否,返回S120。
如果循環(huán)次數(shù)只有一次的話,最終確定的每個(gè)訓(xùn)練數(shù)據(jù)的特征權(quán)重的區(qū)別很小,可能無法避免不重要的訓(xùn)練數(shù)據(jù)對(duì)數(shù)據(jù)分類的干擾。因此,為了能夠準(zhǔn)確的確定每個(gè)訓(xùn)練數(shù)據(jù)的特征權(quán)重,進(jìn)而準(zhǔn)確的對(duì)數(shù)據(jù)進(jìn)行分類,可以迭代更新每個(gè)訓(xùn)練數(shù)據(jù)的樣本權(quán)重以及當(dāng)前特征權(quán)重。也就是說,在確定出每個(gè)訓(xùn)練數(shù)據(jù)的當(dāng)前特征權(quán)重后,服務(wù)器可以判斷已執(zhí)行的循環(huán)次數(shù)是否為預(yù)設(shè)的執(zhí)行數(shù)量,如果是,結(jié)束,如果否,則返回到S120??梢岳斫?,返回到S120時(shí),此時(shí),S120中,針對(duì)各訓(xùn)練數(shù)據(jù),該訓(xùn)練數(shù)據(jù)的第一特征權(quán)重為上一次循環(huán)確定該訓(xùn)練數(shù)據(jù)的當(dāng)前特征權(quán)重。
應(yīng)用本實(shí)施例,通過根據(jù)選定的第一訓(xùn)練數(shù)據(jù)與其他各訓(xùn)練數(shù)據(jù)的歐式距離以及各訓(xùn)練數(shù)據(jù)的第一特征權(quán)重,可以確定其他個(gè)訓(xùn)練數(shù)據(jù)的樣本權(quán)重。并根據(jù)確定樣本權(quán)重以及第一訓(xùn)練數(shù)據(jù)的第一特征權(quán)重、以及預(yù)先構(gòu)建的多目標(biāo)優(yōu)化函數(shù),能夠確定第一訓(xùn)練數(shù)據(jù)的當(dāng)前特征權(quán)重??梢源_定每個(gè)訓(xùn)練數(shù)據(jù)的特征權(quán)重,進(jìn)而能夠準(zhǔn)確的對(duì)數(shù)據(jù)進(jìn)行分類。
下面介紹根據(jù)其他各訓(xùn)練數(shù)據(jù)的樣本權(quán)重、第一訓(xùn)練數(shù)據(jù)的第一特征權(quán)重、以及預(yù)先構(gòu)建的多目標(biāo)優(yōu)化函數(shù),確定第一訓(xùn)練數(shù)據(jù)的當(dāng)前特征權(quán)重的過程,如圖2所示,該過程可以包括:
S210,將所述多目標(biāo)優(yōu)化函數(shù)轉(zhuǎn)化為單目標(biāo)優(yōu)化函數(shù)。
可以理解,為便于計(jì)算,可以對(duì)預(yù)先構(gòu)建的多目標(biāo)函數(shù)進(jìn)行轉(zhuǎn)化,將其轉(zhuǎn)化為單目標(biāo)函數(shù)。
例如,服務(wù)器可以根據(jù)主要目標(biāo)法將預(yù)先構(gòu)建的多目標(biāo)函數(shù)進(jìn)行轉(zhuǎn)化,轉(zhuǎn)化后的單目標(biāo)函數(shù)為:
其中,ε∈[0,tr(b(i))],tr(b(i))表示矩陣b(i)的對(duì)角線上元素的和。
S220,求解所述單目標(biāo)優(yōu)化函數(shù)的帕累托解集。
在將多目標(biāo)函數(shù)轉(zhuǎn)化為單目標(biāo)函數(shù)之后,服務(wù)器可以對(duì)轉(zhuǎn)化后的單目標(biāo)函數(shù)進(jìn)行求解,得到單目標(biāo)優(yōu)化函數(shù)的帕累托解集。
例如,在求解S210中的單目標(biāo)函數(shù)的過程中,可以令ε按一定間隔取值,每一個(gè)確定的ε對(duì)應(yīng)一個(gè)f(i)的最優(yōu)解,取遍所有ε即得到本次循環(huán)中該第一訓(xùn)練數(shù)據(jù)的對(duì)應(yīng)的帕累托解集。例如,ε按間隔0.05取值,則ε的取值有0,0.05,0.1,0.15,0.2……。
可以理解,服務(wù)器求解單目標(biāo)優(yōu)化函數(shù)的帕累托解集的過程,可以采用現(xiàn)有的任一種方法,本發(fā)明實(shí)施例對(duì)此不進(jìn)行贅述。
S230,針對(duì)所述帕累托解集中的任一解,采用交叉驗(yàn)證的方法,確定該帕累托解對(duì)應(yīng)的分類準(zhǔn)確率。
具體地,確定該帕累托解對(duì)應(yīng)的分類準(zhǔn)確率的過程可以包括:
首先,針對(duì)所述帕累托解集中的任一解,利用該帕累托解確定第一訓(xùn)練數(shù)據(jù)的分類器半徑。
具體地,假設(shè)第一訓(xùn)練數(shù)據(jù)x(i)對(duì)應(yīng)的帕累托解為其中β=1,2...P,P為帕累托解集中的帕累托解的個(gè)數(shù)。則第一訓(xùn)練數(shù)據(jù)x(i)的分類器半徑的確定過程可以包括:獲取第一訓(xùn)練數(shù)據(jù)的類別為Ci,將滿足預(yù)設(shè)條件的最大第一預(yù)設(shè)閾值確定為第一訓(xùn)練數(shù)據(jù)的分類器半徑。其中,預(yù)設(shè)條件為:與第一訓(xùn)練數(shù)據(jù)在下的加權(quán)距離小于第一預(yù)設(shè)閾值的所有訓(xùn)練數(shù)據(jù)中,類別不屬于類別Ci的訓(xùn)練數(shù)據(jù)數(shù)量與屬于類別是Ci的訓(xùn)練數(shù)據(jù)數(shù)量之比小于第一預(yù)設(shè)閾值。將第一訓(xùn)練數(shù)據(jù)的分類器半徑記為
需要說明的是,對(duì)于確定其他各訓(xùn)練數(shù)據(jù)的分類器半徑的過程,還可以采用現(xiàn)有技術(shù)中的任一分類器半徑確定方法,被實(shí)施例不再贅述。
然后,針對(duì)任一其他訓(xùn)練數(shù)據(jù),確定該訓(xùn)練數(shù)據(jù)針對(duì)第一訓(xùn)練數(shù)據(jù)的分類信息,其中,分類信息包括該訓(xùn)練數(shù)據(jù)與第一訓(xùn)練數(shù)據(jù)屬于同一類別或不屬于同一類別。
具體地,可以根據(jù)以下公式,確定該訓(xùn)練數(shù)據(jù)x(e),e=1,2,...,N,e≠i針對(duì)第一訓(xùn)練數(shù)據(jù)x(i)的分類信息:
其中,dei為第一訓(xùn)練數(shù)據(jù)x(i)與訓(xùn)練數(shù)據(jù)x(e)的歐式距離,為第一訓(xùn)練數(shù)據(jù)的分類器半徑,為第一訓(xùn)練數(shù)據(jù)對(duì)應(yīng)的帕累托解。
最后,根據(jù)所確定的分類信息以及每個(gè)訓(xùn)練數(shù)據(jù)的所屬類別,確定該帕累托解對(duì)應(yīng)的分類準(zhǔn)確率。
具體地,針對(duì)任一訓(xùn)練數(shù)據(jù),如果所確定的分類信息與該訓(xùn)練數(shù)據(jù)的所屬類別一致,則表示第一訓(xùn)練數(shù)據(jù)對(duì)該訓(xùn)練數(shù)據(jù)分類正確。例如,訓(xùn)練數(shù)據(jù)x(e)與第一訓(xùn)練數(shù)據(jù)x(i)屬于同一類別,且訓(xùn)練數(shù)據(jù)x(e)針對(duì)第一訓(xùn)練數(shù)據(jù)x(i)的分類信息為1,則該訓(xùn)練數(shù)據(jù)所確定的分類信息與該訓(xùn)練數(shù)據(jù)的所屬類別一致,即第一訓(xùn)練數(shù)據(jù)對(duì)該訓(xùn)練數(shù)據(jù)分類正確。
舉例而言,假設(shè)第一訓(xùn)練數(shù)據(jù)為x1,其他訓(xùn)練數(shù)據(jù)有5個(gè),為{x2,x3,x4,x5,x6},第一訓(xùn)練數(shù)據(jù)x(i)以及訓(xùn)練數(shù)據(jù)x2,x3屬于類比C1,訓(xùn)練數(shù)據(jù)x4,x5,x6屬于類比C2,{x2,x3,x4,x5,x6}針對(duì)第一訓(xùn)練數(shù)據(jù)x(i)的分類信息分別為:{1,1,1,0,0},根據(jù)每個(gè)訓(xùn)練數(shù)據(jù)的所屬類別,x4的分類信息中是錯(cuò)誤的,{x2,x3,x5,x6}的分類信息中是正確的,則該帕累托解對(duì)應(yīng)的分類準(zhǔn)確率為4/5=80%。
S240,將分類準(zhǔn)確率最大的帕累托解確定為所述第一訓(xùn)練數(shù)據(jù)的當(dāng)前特征權(quán)重。
服務(wù)器在確定出帕累托解集中的所有帕累托解對(duì)應(yīng)的分類準(zhǔn)確率后,可以將分類準(zhǔn)確率最大的帕累托解確定為第一訓(xùn)練數(shù)據(jù)的當(dāng)前特征權(quán)重。
作為本實(shí)施例的一種可選方案,在計(jì)算出每個(gè)訓(xùn)練數(shù)據(jù)的特征權(quán)重之后,該方法還可以包括:
首先,獲取測(cè)試數(shù)據(jù)x(q)。
然后,針對(duì)每個(gè)類別,計(jì)算該類別中各個(gè)訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)x(q)的歐氏距離。
例如假設(shè)有三個(gè)類別,則服務(wù)器計(jì)算測(cè)試數(shù)據(jù)x(q)與這三個(gè)類別中的每個(gè)訓(xùn)練數(shù)據(jù)x(i)的歐式距離dqi。具體地,其中,f(i)為訓(xùn)練數(shù)據(jù)x(i)的特征權(quán)重??梢岳斫猓街械膞(q)以及x(i)為測(cè)試數(shù)據(jù)x(q)與訓(xùn)練數(shù)據(jù)x(i)在同一特征空間的特征值。
之后,根據(jù)該類別中各個(gè)訓(xùn)練數(shù)據(jù)對(duì)應(yīng)的歐氏距離,以及該訓(xùn)練數(shù)據(jù)的分類器半徑,確定該訓(xùn)練數(shù)據(jù)針對(duì)測(cè)試數(shù)據(jù)的分類信息,其中,分類信息包括該訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)屬于同一類別或不屬于同一類別。
具體地,針對(duì)該類別中每個(gè)訓(xùn)練數(shù)據(jù),根據(jù)以下公式,確定該訓(xùn)練數(shù)據(jù)針對(duì)測(cè)試數(shù)據(jù)的分類信息:
其中,r(i)是該訓(xùn)練數(shù)據(jù)x(i)的分類器半徑,dqi為該訓(xùn)練數(shù)據(jù)x(i)與測(cè)試數(shù)據(jù)x(q)的歐氏距離,s(i)(x(q))為該訓(xùn)練數(shù)據(jù)xi針對(duì)測(cè)試數(shù)據(jù)x(q)的分類信息。
例如,類別C1中有三個(gè)訓(xùn)練數(shù)據(jù){x(1),x(2),x(3)},訓(xùn)練數(shù)據(jù)x(1)的分類器半徑為r(1)=0.5,測(cè)試數(shù)據(jù)x(q)與訓(xùn)練數(shù)據(jù)x(1)的歐式距離為dq1=0.4,則有dq1≤r(1),則訓(xùn)練數(shù)據(jù)x(1)針對(duì)測(cè)試數(shù)據(jù)x(q)的分類信息是1。
然后,根據(jù)該類別中各個(gè)訓(xùn)練數(shù)據(jù)針對(duì)所述測(cè)試數(shù)據(jù)的分類信息,確定測(cè)試數(shù)據(jù)屬于該類別的置信度。
具體地,可以根據(jù)以下公式,確定測(cè)試數(shù)據(jù)屬于該類別的置信度:
其中,為測(cè)試數(shù)據(jù)x(q)屬于該類別Cl的置信度,|Cl|是該類別Cl中包括的訓(xùn)練數(shù)據(jù)x(i)的數(shù)量。
例如,類別C1中有三個(gè)訓(xùn)練數(shù)據(jù){x(1),x(2),x(3)},訓(xùn)練數(shù)據(jù){x(1),x(2),x(3)}針對(duì)測(cè)試數(shù)據(jù)x(q)的分類信息分別是s(1)(x(q))=1,s(2)(x(q))=0,s(3)(x(q))=1,則測(cè)試數(shù)據(jù)x(q)屬于類別C1的置信度為
最后,確定測(cè)試數(shù)據(jù)屬于最大置信度對(duì)應(yīng)的類別。
服務(wù)器在計(jì)算出測(cè)試數(shù)據(jù)屬于每個(gè)類別的置信度后,確定測(cè)試數(shù)據(jù)屬于最大置信度對(duì)應(yīng)的類別,即
例如,有三個(gè)類別C1,C2,C3,測(cè)試數(shù)據(jù)x(q)屬于每個(gè)類別的置信度為則服務(wù)器確定測(cè)試數(shù)據(jù)x(q)屬于類別C2,即
如圖3所示,本實(shí)施例提供了一種面向數(shù)據(jù)分類的特征權(quán)重確定裝置,應(yīng)用于服務(wù)器,該裝置包括:
獲取單元310,用于獲取各類別的訓(xùn)練數(shù)據(jù),初始化每個(gè)訓(xùn)練數(shù)據(jù)的當(dāng)前特征權(quán)重為相同值,并獲取預(yù)設(shè)的執(zhí)行數(shù)量;
第一確定單元320,用于將各訓(xùn)練數(shù)據(jù)的當(dāng)前特征權(quán)重確定為對(duì)應(yīng)各訓(xùn)練數(shù)據(jù)的第一特征權(quán)重;
計(jì)算單元330,用于針對(duì)每個(gè)訓(xùn)練數(shù)據(jù),將該訓(xùn)練數(shù)據(jù)作為第一訓(xùn)練數(shù)據(jù),并計(jì)算第一訓(xùn)練數(shù)據(jù)與其他各訓(xùn)練數(shù)據(jù)的歐式距離;
第二確定單元340,用于根第一訓(xùn)練數(shù)據(jù)與其他各訓(xùn)練數(shù)據(jù)的歐式距離,以及每個(gè)訓(xùn)練數(shù)據(jù)的第一特征權(quán)重,確定其他各訓(xùn)練數(shù)據(jù)的樣本權(quán)重;
第三確定單元350,用于根據(jù)其他各訓(xùn)練數(shù)據(jù)的樣本權(quán)重、第一訓(xùn)練數(shù)據(jù)的第一特征權(quán)重、以及預(yù)先構(gòu)建的多目標(biāo)優(yōu)化函數(shù),確定第一訓(xùn)練數(shù)據(jù)的當(dāng)前特征權(quán)重;
判斷單元360,用于判斷執(zhí)行的循環(huán)次數(shù)是否為執(zhí)行數(shù)量,如果否,觸發(fā)第一確定單元320,如果是,結(jié)束。
可選地,第三確定單元350包括:
轉(zhuǎn)化子單元(圖3中未示出),用于將多目標(biāo)優(yōu)化函數(shù)轉(zhuǎn)化為單目標(biāo)優(yōu)化函數(shù);
求解子單元(圖3中未示出),用于求解單目標(biāo)優(yōu)化函數(shù)的帕累托解集;
第一確定子單元(圖3中未示出),用于針對(duì)帕累托解集中的任一解,采用交叉驗(yàn)證的方法,確定該帕累托解對(duì)應(yīng)的分類準(zhǔn)確率;
第二確定子單元(圖3中未示出),用于將分類準(zhǔn)確率最大的帕累托解確定為第一訓(xùn)練數(shù)據(jù)的當(dāng)前特征權(quán)重。
可選地,第一確定子單元(圖3中未示出)包括:
第一確定子模塊(圖3中未示出),用于針對(duì)帕累托解集中的任一解,利用該帕累托解確定所述第一訓(xùn)練數(shù)據(jù)的分類器半徑;
第二確定子模塊(圖3中未示出),用于針對(duì)任一其他訓(xùn)練數(shù)據(jù),根據(jù)所述第一訓(xùn)練數(shù)據(jù)的分類器半徑以及所述第一訓(xùn)練數(shù)據(jù)與該訓(xùn)練數(shù)據(jù)的歐式距離,確定該訓(xùn)練數(shù)據(jù)針對(duì)第一訓(xùn)練數(shù)據(jù)的分類信息,其中,分類信息包括該訓(xùn)練數(shù)據(jù)與第一訓(xùn)練數(shù)據(jù)屬于同一類別或不屬于同一類別;
第三確定子模塊(圖3中未示出),用于根據(jù)所確定的分類信息以及每個(gè)訓(xùn)練數(shù)據(jù)的所屬類別,確定該帕累托解對(duì)應(yīng)的分類準(zhǔn)確率。
可選地,第二確定單元340具體用于:
根據(jù)以下公式,確定當(dāng)?shù)谝挥?xùn)練數(shù)據(jù)為x(i)時(shí),任一其他訓(xùn)練數(shù)據(jù)x(j)(j=1,...,N,j≠i)的樣本權(quán)重:
其中,N為訓(xùn)練數(shù)據(jù)的個(gè)數(shù),為訓(xùn)練數(shù)據(jù)x(j)(j=1,...,N,j≠i)的樣本權(quán)重,dij|k為第一訓(xùn)練數(shù)據(jù)x(i)與訓(xùn)練數(shù)據(jù)x(j)的歐式距離dij|k,為訓(xùn)練數(shù)據(jù)x(k)(k=1,...,N)的第一特征權(quán)重,表示向量按元素相乘,y(i)為第一訓(xùn)練數(shù)據(jù)x(i)所屬的類別集合,y(j)為其他訓(xùn)練數(shù)據(jù)x(j)所屬的類別集合。
具體地,預(yù)先構(gòu)建的多目標(biāo)優(yōu)化函數(shù)可以為:
其中,為與第一訓(xùn)練數(shù)據(jù)屬于同一類別的訓(xùn)練數(shù)據(jù)與第一訓(xùn)練數(shù)據(jù)的加權(quán)距離和,f(i)為第一訓(xùn)練數(shù)據(jù)x(i)的當(dāng)前特征權(quán)重,為與第一訓(xùn)練數(shù)據(jù)不屬于同一類別的訓(xùn)練數(shù)據(jù)與第一訓(xùn)練數(shù)據(jù)的加權(quán)距離和,M為訓(xùn)練數(shù)據(jù)的特征維度。
具體地,轉(zhuǎn)化后的單目標(biāo)優(yōu)化函數(shù)為:
其中,ε∈[0,tr(b(i))]。
需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
本說明書中的各個(gè)實(shí)施例均采用相關(guān)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見即可,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處。尤其,對(duì)于系統(tǒng)實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述的比較簡(jiǎn)單,相關(guān)之處參見方法實(shí)施例的部分說明即可。
以上所述僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均包含在本發(fā)明的保護(hù)范圍內(nèi)。