本申請(qǐng)涉及人工智能領(lǐng)域,更具體的說是涉及一種數(shù)據(jù)處理方法和裝置。
背景技術(shù):
:在人工智能領(lǐng)域,分類問題一直占據(jù)著很重要的角色,因其在實(shí)際工程中常常會(huì)涉及到此類問題,各式各樣的分類器層出不窮,比如貝葉斯網(wǎng)絡(luò)、決策樹、邏輯回歸等等。支持向量機(jī)(SVM,SupportVectorMachine)因其具強(qiáng)大的理論邏輯,同時(shí)在實(shí)際實(shí)驗(yàn)中有較高的準(zhǔn)確率,所以經(jīng)常會(huì)被應(yīng)用到解決實(shí)際問題中。然而,傳統(tǒng)的支持向量機(jī)只能解決二分類問題,怎么將支持向量機(jī)應(yīng)用到多分類問題就成為一大難點(diǎn)。目前,將支持向量機(jī)應(yīng)用到多分類問題上的主流思路是將多分類問題逐個(gè)拆解成二分類問題,然后通過訓(xùn)練多個(gè)二分類器來實(shí)現(xiàn)多分類問題的分類。著名的將SVM應(yīng)用到多類問題上的解決方法主要有一對(duì)多、一對(duì)一、二叉樹SVM等算法。這些算法在一定程度上都能夠?qū)崿F(xiàn)SVM在多類問題上的分類,但是這其中也存在一些缺陷。例如,一個(gè)具有N類的訓(xùn)練樣本集,一對(duì)多方式是將N類中的一類數(shù)據(jù)作為一組訓(xùn)練樣本,其余N-1類作為另一組訓(xùn)練樣本,每一類都重復(fù)此過程訓(xùn)練出一個(gè)二分類器,總體需要訓(xùn)練出N個(gè)分類器,但此方法中因?yàn)槭褂靡活悓?duì)N-1類的數(shù)據(jù),訓(xùn)練過程中會(huì)出現(xiàn)數(shù)據(jù)不平衡的問題,這樣會(huì)降低分類器的準(zhǔn)確度。技術(shù)實(shí)現(xiàn)要素:有鑒于此,本申請(qǐng)?zhí)峁┝艘环N數(shù)據(jù)處理方法和裝置,解決了現(xiàn)有技術(shù)中多分類問題中分類器準(zhǔn)確度較低的問題。為實(shí)現(xiàn)上述目的,本申請(qǐng)?zhí)峁┤缦录夹g(shù)方案:一種數(shù)據(jù)處理方法,包括:將預(yù)設(shè)訓(xùn)練集中的數(shù)據(jù)放入第一節(jié)點(diǎn)中;采用預(yù)設(shè)的相似度聚類算法將所述第一節(jié)點(diǎn)中的數(shù)據(jù)類聚成組,得到至少兩組數(shù)據(jù);對(duì)所述至少兩組數(shù)據(jù)進(jìn)行支持向量機(jī)SVM訓(xùn)練。上述的方法,優(yōu)選的,所述將預(yù)設(shè)訓(xùn)練集中的數(shù)據(jù)放入第一節(jié)點(diǎn)中之后,還包括:分析所述數(shù)據(jù)的類別的個(gè)數(shù);基于所述類別的個(gè)數(shù)等于2,將每個(gè)類別的數(shù)據(jù)記為一組,對(duì)所述兩組數(shù)據(jù)進(jìn)行SVM訓(xùn)練;基于所述類別的個(gè)數(shù)大于2,執(zhí)行所述采用預(yù)設(shè)的相似度聚類算法將所述第一節(jié)點(diǎn)中的數(shù)據(jù)類聚成組步驟。上述的方法,優(yōu)選的,所述采用預(yù)設(shè)的相似度聚類算法將所述第一節(jié)點(diǎn)中的數(shù)據(jù)類聚成組,得到至少兩組數(shù)據(jù),包括:依據(jù)預(yù)設(shè)相似度算法,計(jì)算所述訓(xùn)練集中任意兩個(gè)類別的數(shù)據(jù)之間的相似度;基于所述相似度生成離散度圖;依據(jù)預(yù)設(shè)的轉(zhuǎn)換規(guī)則,將所述離散度圖轉(zhuǎn)換成最小生成樹;依據(jù)預(yù)設(shè)的分割規(guī)則,將所述最小生成樹分割成至少兩組。上述的方法,優(yōu)選的,所述依據(jù)預(yù)設(shè)相似度算法,計(jì)算所述訓(xùn)練集中任意兩個(gè)類別的數(shù)據(jù)之間的相似度,包括:依據(jù)第一類別的數(shù)據(jù)分布和第二類別的數(shù)據(jù)分布,以及所述第一類別和第二類別的距離,計(jì)算得到所述第一類別和第二類別的相似度;具體采用如下公式計(jì)算:其中,SIMij表示第一類別i和第二類別j的相似度,Ri表示第一類別i的數(shù)據(jù)分布,Rj表示第二類別j的數(shù)據(jù)分布,Dij表示的第一類別i和第二類別j的距離。上述的方法,優(yōu)選的,所述基于所述相似度生成離散度圖,包括:依據(jù)所述相似度,得到任意兩個(gè)類別間的離散度,建立離散度矩陣,所述離散度矩陣中包含至少兩個(gè)類別,以及類別之間的離散度;依據(jù)所述離散度矩陣建立離散度圖,所述離散圖中每個(gè)節(jié)點(diǎn)表示一個(gè)類別,節(jié)點(diǎn)之間的帶權(quán)邊表示類別之間的離散度。上述的方法,優(yōu)選的,所述最小生成樹中任意兩個(gè)節(jié)點(diǎn)之間的帶權(quán)邊的權(quán)重值表示所述兩個(gè)節(jié)點(diǎn)之間的離散度,所述依據(jù)預(yù)設(shè)的分割規(guī)則,將所述最小生成樹分割成至少兩組,包括:依據(jù)預(yù)設(shè)的閾值,將所述最小生成樹中權(quán)重值大于所述閾值的邊截?cái)?,以?shí)現(xiàn)將所述最小生成樹被截為至少三個(gè)圖;將每個(gè)圖中所有節(jié)點(diǎn)合并為一組,以實(shí)現(xiàn)將所述最小生成樹分割成至少兩組。上述的方法,優(yōu)選的,所述對(duì)所述至少兩組數(shù)據(jù)進(jìn)行SVM訓(xùn)練,包括:依次從所述至少兩組數(shù)據(jù)中獲取每一組數(shù)據(jù)作為一組訓(xùn)練樣本,分別進(jìn)行訓(xùn)練。上述的方法,優(yōu)選的,還包括:依據(jù)分成的至少兩組數(shù)據(jù),生成與所述數(shù)據(jù)組數(shù)對(duì)應(yīng)個(gè)數(shù)的第二節(jié)點(diǎn);將每組數(shù)據(jù)依次放入對(duì)應(yīng)的第二節(jié)點(diǎn)中;將任一第二節(jié)點(diǎn)作為新的第一節(jié)點(diǎn),并循環(huán)執(zhí)行所述采用預(yù)設(shè)的相似度聚類算法將所述第一節(jié)點(diǎn)中的數(shù)據(jù)類聚成組,得到至少兩組數(shù)據(jù)步驟。一種數(shù)據(jù)處理裝置,包括:訓(xùn)練集處理模塊,用于將預(yù)設(shè)訓(xùn)練集中的數(shù)據(jù)放入第一節(jié)點(diǎn)中;類聚處理模塊,用于采用預(yù)設(shè)的相似度聚類算法將所述第一節(jié)點(diǎn)中的數(shù)據(jù)類聚成組,得到至少兩組數(shù)據(jù);訓(xùn)練模塊,用于對(duì)所述至少兩組數(shù)據(jù)進(jìn)行支持向量機(jī)SVM訓(xùn)練。上述的裝置,優(yōu)選的,所述類聚處理模塊,包括:計(jì)算單元,用于依據(jù)預(yù)設(shè)相似度算法,計(jì)算所述訓(xùn)練集中任意兩個(gè)類別的數(shù)據(jù)之間的相似度;生成單元,用于基于所述相似度生成離散度圖;轉(zhuǎn)換單元,用于依據(jù)預(yù)設(shè)的轉(zhuǎn)換規(guī)則,將所述離散度圖轉(zhuǎn)換成最小生成樹;分割單元,用于依據(jù)預(yù)設(shè)的分割規(guī)則,將所述最小生成樹分割成至少兩組。經(jīng)由上述的技術(shù)方案可知,與現(xiàn)有技術(shù)相比,本申請(qǐng)?zhí)峁┝艘环N數(shù)據(jù)處理方法,包括:將預(yù)設(shè)訓(xùn)練集中的數(shù)據(jù)放入第一節(jié)點(diǎn)中;采用預(yù)設(shè)的相似度聚類算法將所述第一節(jié)點(diǎn)中的數(shù)據(jù)類聚成組,得到至少兩組數(shù)據(jù);對(duì)所述至少兩組數(shù)據(jù)進(jìn)行SVM訓(xùn)練。采用該方法,通過預(yù)設(shè)的相似度聚類算法,將第一節(jié)點(diǎn)中的多個(gè)類別的數(shù)據(jù)類聚成組,而每組數(shù)據(jù)就是聚類完成的一類數(shù)據(jù),并對(duì)該聚類完成的數(shù)據(jù)進(jìn)行SVM訓(xùn)練,該過程中,采用的類聚成組的算法,使得SVM在二分類時(shí)達(dá)到間隔最大化的效果,提高分類準(zhǔn)確率。附圖說明為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。圖1為本申請(qǐng)?zhí)峁┑囊环N數(shù)據(jù)處理方法實(shí)施例1的流程圖;圖2為本申請(qǐng)?zhí)峁┑囊环N數(shù)據(jù)處理方法實(shí)施例2的流程圖;圖3為本申請(qǐng)?zhí)峁┑囊环N數(shù)據(jù)處理方法實(shí)施例3的流程圖;圖4為本申請(qǐng)?zhí)峁┑囊环N數(shù)據(jù)處理方法實(shí)施例3中離散度圖示意圖;圖5為本申請(qǐng)?zhí)峁┑囊环N數(shù)據(jù)處理方法實(shí)施例3中用于生成最小生成樹的離散度示意圖;圖6為本申請(qǐng)?zhí)峁┑囊环N數(shù)據(jù)處理方法實(shí)施例3中基于圖5的離散度示意圖得到最小生成樹過程示意圖;圖7為本申請(qǐng)?zhí)峁┑囊环N數(shù)據(jù)處理方法實(shí)施例3中分割最小生成樹示意圖;圖8為本申請(qǐng)?zhí)峁┑囊环N數(shù)據(jù)處理方法實(shí)施例4的流程圖;圖9為本申請(qǐng)?zhí)峁┑囊环N數(shù)據(jù)處理方法實(shí)施例5的流程圖;圖10為本申請(qǐng)?zhí)峁┑囊环N數(shù)據(jù)處理方法實(shí)施例5中多層次結(jié)構(gòu)示意圖;圖11為本申請(qǐng)?zhí)峁┑囊环N數(shù)據(jù)處理裝置實(shí)施例1的結(jié)構(gòu)示意圖;圖12為本申請(qǐng)?zhí)峁┑囊环N數(shù)據(jù)處理裝置實(shí)施例2的結(jié)構(gòu)示意圖。具體實(shí)施方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。首先,需要說明的是,該SVM處理多分類問題時(shí),需要對(duì)訓(xùn)練集中的每個(gè)類別的數(shù)據(jù)作為一組訓(xùn)練樣本,剩余的數(shù)據(jù)作為一組訓(xùn)練樣本,每一類別都重復(fù)該過程。而在本申請(qǐng)中的訓(xùn)練集中可以包含有多個(gè)類別的數(shù)據(jù),為實(shí)現(xiàn)對(duì)該訓(xùn)練集中的數(shù)據(jù)進(jìn)行多分類,通過預(yù)設(shè)的相似度聚類算法,將該訓(xùn)練集中的多個(gè)類別的數(shù)據(jù)類聚成組,得到多個(gè)組,每個(gè)組中可以包含有一個(gè)或者多個(gè)分類的數(shù)據(jù),該組中的多個(gè)分類的數(shù)據(jù)具有較高的相似度,進(jìn)而在后續(xù)的SVM訓(xùn)練過程中,可將該類聚成組的每一組進(jìn)行SVM一對(duì)多的訓(xùn)練,由于每組中的類別較少,相應(yīng)的,進(jìn)行訓(xùn)練過程中,一次訓(xùn)練的數(shù)據(jù)較少,降低了訓(xùn)練的復(fù)雜度;并且由于類聚成組的算法對(duì)訓(xùn)練集中的數(shù)據(jù)進(jìn)行分組,使得SVM在二分類時(shí)達(dá)到間隔最大化的效果,提高分類準(zhǔn)確率。如圖1所示的,為本申請(qǐng)?zhí)峁┑囊环N數(shù)據(jù)處理方法實(shí)施例1的流程圖,該方法可以包括以下步驟:步驟S101:將預(yù)設(shè)訓(xùn)練集中的所有類別的數(shù)據(jù)放入第一節(jié)點(diǎn)中;其中,該訓(xùn)練集中包含有數(shù)據(jù),該數(shù)據(jù)為待分類進(jìn)行SVM訓(xùn)練的數(shù)據(jù)。具體的,將該訓(xùn)練集中的所有數(shù)據(jù)放入第一節(jié)點(diǎn)中,以實(shí)現(xiàn)對(duì)該數(shù)據(jù)進(jìn)行分類的過程。其中,該第一節(jié)點(diǎn)是用于承載該數(shù)據(jù)的結(jié)構(gòu),后續(xù)實(shí)現(xiàn)相似度聚類算法的步驟是基于該第一節(jié)點(diǎn)中承載的數(shù)據(jù)進(jìn)行的。需要說明的是,該訓(xùn)練集中數(shù)據(jù)已有分類的類別,比如對(duì)給定的新聞稿件按照欄目進(jìn)行分類,比如判斷一篇新聞是否屬于政治、經(jīng)濟(jì)、娛樂以及體育等。該新聞中包含的類別可以為文字、圖片、當(dāng)天新聞、政治、經(jīng)濟(jì)等多種類別。需要說明的是,該訓(xùn)練集中的數(shù)據(jù)的類別可以為一種、兩種甚至多種。需要說明的是,針對(duì)不同個(gè)數(shù)類別的處理方法不同,本實(shí)施例中主要針對(duì)類別較多的數(shù)據(jù)進(jìn)行處理,其余處理方式在后續(xù)實(shí)施例中會(huì)詳細(xì)說明,本實(shí)施例不做詳述。步驟S102:采用預(yù)設(shè)的相似度聚類算法將所述第一節(jié)點(diǎn)中的數(shù)據(jù)類聚成組,得到至少兩組數(shù)據(jù);其中,該預(yù)設(shè)的相似度聚類算法,是將該第一節(jié)點(diǎn)的訓(xùn)練集中所有的數(shù)據(jù)聚類成組,每一組為一類。例如,該新聞屬于政治、經(jīng)濟(jì)等類別。具體的,根據(jù)該預(yù)設(shè)的相似度聚類算法,將該第一節(jié)點(diǎn)中的數(shù)據(jù)類聚成組,得到了至少兩組數(shù)據(jù)。步驟S103:對(duì)所述至少兩組數(shù)據(jù)進(jìn)行SVM訓(xùn)練。其中,基于SVM對(duì)該得到的至少兩組數(shù)據(jù)分別進(jìn)行訓(xùn)練。其中,當(dāng)該一組數(shù)據(jù)中包含的數(shù)據(jù)為該訓(xùn)練集中的一個(gè)類別的數(shù)據(jù)時(shí),可以采用一對(duì)一的算法;當(dāng)該一組數(shù)據(jù)中包含的數(shù)據(jù)為該訓(xùn)練集中的兩個(gè)甚至更多類別的數(shù)據(jù)時(shí),可以采用一對(duì)多的算法。需要說明的是,具體訓(xùn)練過程后續(xù)實(shí)施例中會(huì)詳細(xì)說明,本實(shí)施例中不做詳述。綜上,本實(shí)施例提供的一種數(shù)據(jù)處理方法,包括:將預(yù)設(shè)訓(xùn)練集中的數(shù)據(jù)放入第一節(jié)點(diǎn)中;采用預(yù)設(shè)的相似度聚類算法將所述第一節(jié)點(diǎn)中的數(shù)據(jù)類聚成組,得到至少兩組數(shù)據(jù);對(duì)所述至少兩組數(shù)據(jù)進(jìn)行SVM訓(xùn)練。采用該方法,通過預(yù)設(shè)的相似度聚類算法,將第一節(jié)點(diǎn)中的多個(gè)類別的數(shù)據(jù)類聚成組,而每組數(shù)據(jù)就是聚類完成的一類數(shù)據(jù),并對(duì)該聚類完成的數(shù)據(jù)進(jìn)行SVM訓(xùn)練,該過程中,采用的類聚成組的算法,使得SVM在二分類時(shí)達(dá)到間隔最大化的效果,提高分類準(zhǔn)確率。如圖2所示的,為本申請(qǐng)?zhí)峁┑囊环N數(shù)據(jù)處理方法實(shí)施例2的流程圖,該方法可以包括以下步驟:步驟S201:將預(yù)設(shè)訓(xùn)練集中的數(shù)據(jù)放入第一節(jié)點(diǎn)中;步驟S201與實(shí)施例1中的步驟S101一致,本實(shí)施例中不做贅述。步驟S202:分析所述數(shù)據(jù)的類別的個(gè)數(shù);其中,該類別的個(gè)數(shù)為一個(gè)時(shí),無需進(jìn)行分組,也無需進(jìn)行SVM訓(xùn)練。如果該類別的個(gè)數(shù)是兩個(gè)時(shí),無需進(jìn)行分組,直接依據(jù)其現(xiàn)有的兩個(gè)類別,將每個(gè)類別的數(shù)據(jù)記為一組,并對(duì)兩組數(shù)據(jù)進(jìn)行SVM訓(xùn)練,即執(zhí)行步驟S203;如果類別的個(gè)數(shù)大于兩個(gè)時(shí),則,需要進(jìn)行分組,并針對(duì)每一組數(shù)據(jù)進(jìn)行SVM訓(xùn)練,執(zhí)行步驟S204-205。步驟S203:基于所述類別的個(gè)數(shù)等于2,將每個(gè)類別的數(shù)據(jù)記為一組,對(duì)所述兩組數(shù)據(jù)進(jìn)行SVM訓(xùn)練;步驟S204:基于所述類別的個(gè)數(shù)大于2,采用預(yù)設(shè)的相似度聚類算法將所述第一節(jié)點(diǎn)中的數(shù)據(jù)類聚成組,得到至少兩組數(shù)據(jù);步驟S205:對(duì)所述至少兩組數(shù)據(jù)進(jìn)行SVM訓(xùn)練。其中,步驟S204-205與實(shí)施例1中的步驟S102-103一致,本實(shí)施例中不做贅述。綜上,本實(shí)施例提供的一種數(shù)據(jù)處理方法中,還包括:分析所述數(shù)據(jù)的類別的個(gè)數(shù);基于所述類別的個(gè)數(shù)等于2,將每個(gè)類別的數(shù)據(jù)記為一組,對(duì)所述兩組數(shù)據(jù)進(jìn)行SVM訓(xùn)練;基于所述類別的個(gè)數(shù)大于2,執(zhí)行所述采用預(yù)設(shè)的相似度聚類算法將所述第一節(jié)點(diǎn)中的數(shù)據(jù)類聚成組步驟。采用該方法,對(duì)訓(xùn)練集中的數(shù)據(jù)的類別個(gè)數(shù)進(jìn)行分析,基于該訓(xùn)練集中數(shù)據(jù)的類別個(gè)數(shù),對(duì)該數(shù)據(jù)進(jìn)行不同的處理,數(shù)據(jù)處理靈活。如圖3所示的,為本申請(qǐng)?zhí)峁┑囊环N數(shù)據(jù)處理方法實(shí)施例3的流程圖,該方法可以包括以下步驟:步驟S301:將預(yù)設(shè)訓(xùn)練集中的數(shù)據(jù)放入第一節(jié)點(diǎn)中;其中,步驟S301與實(shí)施例1中的步驟S101一致,本實(shí)施例中不做贅述。步驟S302:依據(jù)預(yù)設(shè)相似度算法,計(jì)算所述訓(xùn)練集中任意兩個(gè)類別的數(shù)據(jù)之間的相似度;其中,預(yù)設(shè)相似度算法,以對(duì)該訓(xùn)練集中各個(gè)類別的數(shù)據(jù)之間的相似度進(jìn)行計(jì)算,進(jìn)而實(shí)現(xiàn)基于該相似度進(jìn)行后續(xù)的類聚成組過程。其中,該步驟S302具體實(shí)現(xiàn)為:依據(jù)第一類別的數(shù)據(jù)分布和第二類別的數(shù)據(jù)分布,以及所述第一類別和第二類別的距離,計(jì)算得到所述第一類別和第二類別的相似度;具體采用如下公式(1)計(jì)算:其中,SIMij表示第一類別i和第二類別j的相似度,Ri表示第一類別i的數(shù)據(jù)分布,Rj表示第二類別j的數(shù)據(jù)分布,Dij表示的第一類別i和第二類別j的距離。具體的,該第一類別與第二類別的距離可以采用在高維特征空間中的歐式距離。其中,該第一類別i的數(shù)據(jù)分布具體采用如下公式(2)計(jì)算:其中,該第一類別i和第二類別j的距離具體采用如下公式(3)計(jì)算:Dij=||mi-mj||(3)其中,該公式(2)和公式(3)中,xt表示當(dāng)前類別中的數(shù)據(jù)樣本點(diǎn),li表示類別i中數(shù)據(jù)樣本點(diǎn)的個(gè)數(shù),mi是類別i在高維特征空間的中心。其中,該mi具體采用如下公式(4)計(jì)算:其中,該Φ(xs)為核函數(shù)。具體實(shí)施中,該核函數(shù)表征的為空間中任一點(diǎn)x到某一中心xc之間歐式距離的單調(diào)函數(shù),其公式為Φ(x)=k||x-xc||,其中k為系數(shù)。具體實(shí)施中,采用上述計(jì)算公式,依次對(duì)該訓(xùn)練集中的所有類別的數(shù)據(jù)分布進(jìn)行計(jì)算兩個(gè)類別之間的相似度。步驟S303:基于所述相似度生成離散度圖;其中,該相似度表征了兩個(gè)類別間的相似程度,基于該相似度能夠得到該兩個(gè)類別的離散度,進(jìn)而依據(jù)該離散度能夠生成該訓(xùn)練集中數(shù)據(jù)的離散度圖。其中,該離散度圖以圖的形式表征了該訓(xùn)練集中數(shù)據(jù)的離散程度。其中,該步驟S303具體實(shí)現(xiàn)為:依據(jù)所述相似度,得到任意兩個(gè)類別間的離散度,建立離散度矩陣,所述離散度矩陣中包含至少兩個(gè)類別,以及類別之間的離散度;依據(jù)所述離散度矩陣建立離散度圖,所述離散度圖中每個(gè)節(jié)點(diǎn)表示一個(gè)類別,節(jié)點(diǎn)之間的帶權(quán)邊表示類別之間的離散度。具體的,該相似度與離散度為倒數(shù)關(guān)系,類別之間的離散度用來描述類別之間的可分性。具體采用如下公式(5)計(jì)算:需要說明的是,具體實(shí)施中,為提高計(jì)算過程中的準(zhǔn)確度,還可以直接依據(jù)兩個(gè)類別的數(shù)據(jù)分布,以及兩個(gè)類別之間的距離直接計(jì)算該離散度。具體采用如下公式(6)計(jì)算:其中,SEPij表示第一類別i和第二類別j的離散度,Ri表示第一類別i的數(shù)據(jù)分布,Rj表示第二類別j的數(shù)據(jù)分布,Dij表示的第一類別i和第二類別j的距離。具體實(shí)施中,計(jì)算得到各個(gè)類別之間的離散度后,可以生成一表格以記錄該離散度。如下表1所示的,為5個(gè)類別之間的離散度。表1類別1234512.51.55.63.422.52.84.63.531.52.84.23.445.64.64.24.753.43.53.44.7具體的,基于該離散度,建立一離散度圖,該圖中,包括節(jié)點(diǎn)和邊,其中,每個(gè)節(jié)點(diǎn)表示一個(gè)類別,節(jié)點(diǎn)之間的帶權(quán)邊表示類別之間的離散度。如圖4所示的為本實(shí)施例中提供的離散度圖示意圖,圖中包括5個(gè)節(jié)點(diǎn)以及相應(yīng)的節(jié)點(diǎn)間的邊,該節(jié)點(diǎn)間的邊的權(quán)值與上述表1中內(nèi)容一致。步驟S304:依據(jù)預(yù)設(shè)的轉(zhuǎn)換規(guī)則,將所述離散度圖轉(zhuǎn)換成最小生成樹;其中,該離散度圖轉(zhuǎn)換為最小生成樹的過程可以使用Prim(普里姆)或Kruskai(克魯斯卡爾)算法實(shí)現(xiàn)。本實(shí)施例中以Prim算法為例進(jìn)行說明,當(dāng)然不限制于該P(yáng)rim算法。具體的,該P(yáng)rim算法的基本思想是,首先以一個(gè)該離散度圖中的任一結(jié)點(diǎn)作為最小生成樹的初始結(jié)點(diǎn),然后以迭代的方式找出初始結(jié)點(diǎn)與最小生成樹中各結(jié)點(diǎn)權(quán)重最小邊,并加入到最小生成樹中。加入之后,如果圖中有環(huán)路,即產(chǎn)生回路,則跳過這條邊,選擇下一個(gè)結(jié)點(diǎn),繼續(xù)尋找不形成回路的邊。當(dāng)所有結(jié)點(diǎn)都加入到最小生成樹中之后,就得出了連通圖中的最小生成樹。一個(gè)具有N個(gè)結(jié)點(diǎn)的離散度圖生成的最小生成樹中具有N個(gè)結(jié)點(diǎn)和N-1條邊。其中,任意兩個(gè)結(jié)點(diǎn)之間邊的權(quán)重值采用該兩個(gè)結(jié)點(diǎn)之間的離散度值表示。其中,該迭代的方式找到當(dāng)最小生成樹中只有一個(gè)初始結(jié)點(diǎn)A時(shí),找到與該初始結(jié)點(diǎn)的權(quán)重最小的結(jié)點(diǎn),假如為B,加入到最小生成樹中,然后在圖中找除了這兩個(gè)結(jié)點(diǎn)A和B之外的所有結(jié)點(diǎn),分別與當(dāng)前的兩個(gè)結(jié)點(diǎn)比較,找出最小距離的那個(gè)結(jié)點(diǎn),假如是C,C與A的距離小于其他所有結(jié)點(diǎn)與A和B的距離,那么將C加入到最小生成樹中,并與A相連,依次類推。如圖5所示的是用于生成最小生成樹的離散度示意圖,其中,該圖中包含6個(gè)結(jié)點(diǎn)v1-6。其中,v1和v2的離散度為6,v1和v3的離散度為1,v1和v4的離散度為5,v2和v5的離散度為3,v2和v3的離散度為5,v3和v4的離散度為5,v3和v5的離散度為6,v3和v6的離散度為4,v5和v6的離散度為6,v4和v6的離散度為2。如圖6所示的為基于圖5的離散度示意圖得到最小生成樹過程示意圖,其中,以v1為初始結(jié)點(diǎn),該v1權(quán)值最小(取值為1)的邊為v1與v3的邊,則選擇v3,v3剩余邊中權(quán)值最小(取值為4)的邊為v3與v6的邊,則選擇v6,該v6剩余邊中權(quán)值最小(取值為2)的邊為v6與v4的邊,v4與v3、v1的邊的權(quán)值均為5,而將v3或者v1選擇后,形成環(huán)路,則放棄選擇v3或者v1,選擇另一條路,從經(jīng)過的四個(gè)結(jié)點(diǎn)中(v4、v6、v3和v1)剩余邊中選擇不形成環(huán)路且權(quán)值最小(取值為5)的邊為v3與v2的邊,則選擇v2,v2剩余邊中權(quán)值最小(取值為3)的邊為v5與v2的邊,至此完成的最小生成樹中包含6個(gè)全部結(jié)點(diǎn)以及5條邊。步驟S305:依據(jù)預(yù)設(shè)的分割規(guī)則,將所述最小生成樹分割成至少兩組;其中,該分割規(guī)則根據(jù)該最小生成樹的權(quán)值計(jì)算生成分割的條件,分割得到多組,每組中包含的節(jié)點(diǎn)對(duì)應(yīng)的數(shù)據(jù)相似度較高,進(jìn)而在后續(xù)步驟中針對(duì)相似度較高的類別的數(shù)據(jù)進(jìn)行SVM訓(xùn)練。其中,該步驟S305具體實(shí)現(xiàn)為:依據(jù)預(yù)設(shè)的閾值,將所述最小生成樹中權(quán)重值大于所述閾值的邊截?cái)?,以?shí)現(xiàn)將所述最小生成樹被截為至少兩個(gè)圖;將每個(gè)圖中所有節(jié)點(diǎn)合并為一組,以實(shí)現(xiàn)將所述最小生成樹分割成至少兩組。其中,該閾值是根據(jù)類別的相關(guān)內(nèi)容計(jì)算得到。計(jì)算該閾值,具體采用如下公式(7)計(jì)算:其中,δ為閾值,該N表示類別個(gè)數(shù),∑W表示該最小生成樹中每個(gè)帶權(quán)邊表示類別之間的離散度之和。如圖7所示的為分割最小生成樹示意圖,其中,該最小生成樹包括v1-v6一共6個(gè)節(jié)點(diǎn),其中,v1和v3的離散度為1,v3和v6的離散度為4,v6和v4的離散度為2,v2和v3的離散度為5,v2和v5的離散度為3。計(jì)算得到的閾值δ=1/(6-1)(1+4+6+5+3)=3,則將該離散度大于該3的邊截?cái)?,截?cái)鄓3和v6之間、v2和v3之間的邊,得到三組,圖中采用//表示截?cái)唷2襟ES306:對(duì)所述至少兩組數(shù)據(jù)進(jìn)行SVM訓(xùn)練。其中,步驟S306與實(shí)施例1中的步驟S103一致,本實(shí)施例中不做贅述。需要說明的是,通過多組實(shí)驗(yàn)證明本實(shí)施例提出的方法在準(zhǔn)確度以及時(shí)間性能上較其他代表性SVM多分方法有顯著的提高。相同數(shù)據(jù)集上本發(fā)明所述方法的準(zhǔn)確率比其他方法要高出2-3%,而在時(shí)間性能上,本發(fā)明的分類時(shí)間比其他方法要少出幾倍甚至幾十倍,這和數(shù)據(jù)的類別個(gè)數(shù)有關(guān),類別個(gè)數(shù)越多,本發(fā)明的時(shí)間性能提升越明顯。綜上,本實(shí)施例提供的一種數(shù)據(jù)處理方法中,依據(jù)預(yù)設(shè)相似度算法,計(jì)算所述訓(xùn)練集中任意兩個(gè)類別的數(shù)據(jù)之間的相似度;基于所述相似度生成離散度圖;依據(jù)預(yù)設(shè)的轉(zhuǎn)換規(guī)則,將所述離散度圖轉(zhuǎn)換成最小生成樹;依據(jù)預(yù)設(shè)的分割規(guī)則,將所述最小生成樹分割成至少兩組。采用該方法,保證了組與組之間的離散度最大化,使得SVM在二分類時(shí)達(dá)到間隔最大化的效果,提高分類準(zhǔn)確率。如圖8所示的,為本申請(qǐng)?zhí)峁┑囊环N數(shù)據(jù)處理方法實(shí)施例4的流程圖,該方法可以包括以下步驟:步驟S801:將預(yù)設(shè)訓(xùn)練集中的數(shù)據(jù)放入第一節(jié)點(diǎn)中;步驟S802:采用預(yù)設(shè)的相似度聚類算法將所述第一節(jié)點(diǎn)中的數(shù)據(jù)類聚成組,得到至少兩組數(shù)據(jù);其中,步驟S801-802與實(shí)施例1中的步驟S101-102一致,本實(shí)施例中不做贅述。步驟S803:依次從所述至少兩組數(shù)據(jù)中獲取每一組數(shù)據(jù)作為一組訓(xùn)練樣本,分別進(jìn)行訓(xùn)練。具體的,將該類聚成組得到的多組數(shù)據(jù)中,分別獲取每一組數(shù)據(jù)進(jìn)行訓(xùn)練,可以采用一對(duì)多的算法,得到與所述數(shù)據(jù)組數(shù)對(duì)應(yīng)的二分類器。由于每組中可以包含多個(gè)節(jié)點(diǎn),即多個(gè)類別的數(shù)據(jù),則相對(duì)現(xiàn)有技術(shù)中針對(duì)N類的訓(xùn)練樣本集,總體需要訓(xùn)練出N個(gè)分類器而言,減少了分類器的數(shù)量。例如,當(dāng)有K個(gè)組時(shí),會(huì)生成K個(gè)SVM二分類器,K的取值為正整數(shù)。綜上,本實(shí)施例提供的一種數(shù)據(jù)處理方法,依次從所述至少兩組數(shù)據(jù)中獲取每一組數(shù)據(jù)作為一組訓(xùn)練樣本,分別進(jìn)行訓(xùn)練,該訓(xùn)練過程中,會(huì)得到與該數(shù)據(jù)組數(shù)對(duì)應(yīng)的二分類器,減少訓(xùn)練SVM的數(shù)量,達(dá)到提高效率的效果。如圖9所示的,為本申請(qǐng)?zhí)峁┑囊环N數(shù)據(jù)處理方法實(shí)施例5的流程圖,該方法可以包括以下步驟:步驟S901:將預(yù)設(shè)訓(xùn)練集中的數(shù)據(jù)放入第一節(jié)點(diǎn)中;步驟S902:采用預(yù)設(shè)的相似度聚類算法將所述第一節(jié)點(diǎn)中的數(shù)據(jù)類聚成組,得到至少兩組數(shù)據(jù);步驟S903:對(duì)所述至少兩組數(shù)據(jù)進(jìn)行SVM訓(xùn)練;其中,步驟S901-903與實(shí)施例1中的步驟S101-103一致,本實(shí)施例中不做贅述。步驟S904:依據(jù)分成的至少兩組數(shù)據(jù),生成與所述數(shù)據(jù)組數(shù)對(duì)應(yīng)個(gè)數(shù)的第二節(jié)點(diǎn);步驟S905:將每組數(shù)據(jù)依次放入對(duì)應(yīng)的第二節(jié)點(diǎn)中;其中,為提高SVM訓(xùn)練的準(zhǔn)確度,在經(jīng)過將所述第一節(jié)點(diǎn)中的數(shù)據(jù)類聚成組之后,循環(huán)進(jìn)行類聚成組以及SVM訓(xùn)練的過程。具體的,將該分成的多組數(shù)據(jù),放入與其組數(shù)對(duì)應(yīng)的第二節(jié)點(diǎn)中,每個(gè)第二節(jié)點(diǎn)中放入一組數(shù)據(jù)。步驟S906:將任一第二節(jié)點(diǎn)作為新的第一節(jié)點(diǎn),并循環(huán)執(zhí)行所述采用預(yù)設(shè)的相似度聚類算法將所述第一節(jié)點(diǎn)中的數(shù)據(jù)類聚成組,得到至少兩組數(shù)據(jù)步驟。其中,將一個(gè)第二節(jié)點(diǎn)作為新的第一節(jié)點(diǎn),進(jìn)行類聚成組以及SVM訓(xùn)練過程。其中,該第二節(jié)點(diǎn)與第一節(jié)點(diǎn)類似,也是用于承載該數(shù)據(jù)的結(jié)構(gòu),并且,該第二節(jié)點(diǎn)可以視為第一節(jié)點(diǎn)的子節(jié)點(diǎn)。具體的,當(dāng)一組數(shù)據(jù)中只有一個(gè)類別時(shí),則結(jié)束,方有兩個(gè)類別時(shí),直接對(duì)該兩個(gè)類別分別進(jìn)行SVM訓(xùn)練,當(dāng)有三個(gè)及以上的類別時(shí),循環(huán)執(zhí)行該步驟S902步驟。需要說明的是,本實(shí)施例中提供的方案中,每次執(zhí)行類聚成組過程,則生成多個(gè)組,對(duì)每個(gè)組進(jìn)行聚類成組再次得到該組下的多個(gè)組,得到的為多層次結(jié)構(gòu)。如圖10所示的為本實(shí)施例中得到的多層次結(jié)構(gòu)示意圖,其中,第一層類聚成組時(shí),將N類數(shù)據(jù)分為k組,得到n1類、n2類…nk類;第二層類聚成組時(shí),將該n2類數(shù)據(jù)分為p組,得到m1類、m2類…mp類,圖中,虛線橢圓表征類聚成組以及進(jìn)行SVM訓(xùn)練的過程。綜上,本實(shí)施例提供的一種數(shù)據(jù)處理方法,還包括:依據(jù)分成的至少兩組數(shù)據(jù),生成與所述數(shù)據(jù)組數(shù)對(duì)應(yīng)個(gè)數(shù)的第二節(jié)點(diǎn);將每組數(shù)據(jù)依次放入對(duì)應(yīng)的第二節(jié)點(diǎn)中;將任一第二節(jié)點(diǎn)作為新的第一節(jié)點(diǎn),并循環(huán)執(zhí)行所述采用預(yù)設(shè)的相似度聚類算法將所述第一節(jié)點(diǎn)中的數(shù)據(jù)類聚成組,得到至少兩組數(shù)據(jù)步驟。采用該方法,通過對(duì)類聚成組的每組數(shù)據(jù)再次進(jìn)行類聚成組處理,得到多層次結(jié)構(gòu),而使用多層次結(jié)構(gòu),可以減少使用訓(xùn)練模型進(jìn)行數(shù)據(jù)分類過程中SVM的數(shù)量,達(dá)到提高效率的效果。上述本發(fā)明提供的實(shí)施例中詳細(xì)描述了一種數(shù)據(jù)處理方法,對(duì)于本發(fā)明的數(shù)據(jù)處理方法可采用多種形式的裝置實(shí)現(xiàn),因此本發(fā)明還提供了一種數(shù)據(jù)處理裝置,下面給出具體的實(shí)施例進(jìn)行詳細(xì)說明。如圖11所示的為本申請(qǐng)?zhí)峁┑囊环N數(shù)據(jù)處理裝置實(shí)施例1的結(jié)構(gòu)示意圖,該裝置包括以下結(jié)構(gòu):訓(xùn)練集處理模塊1101、類聚處理模塊1102和訓(xùn)練模塊1103;其中,該訓(xùn)練集處理模塊1101,用于將預(yù)設(shè)訓(xùn)練集中的數(shù)據(jù)放入第一節(jié)點(diǎn)中;其中,該類聚處理模塊1102,用于采用預(yù)設(shè)的相似度聚類算法將所述第一節(jié)點(diǎn)中的數(shù)據(jù)類聚成組,得到至少兩組數(shù)據(jù);其中,該訓(xùn)練模塊1103,用于對(duì)所述至少兩組數(shù)據(jù)進(jìn)行支持向量機(jī)SVM訓(xùn)練。優(yōu)選的,該裝置還包括:分析判斷模塊,用于分析所述數(shù)據(jù)的類別的個(gè)數(shù);基于所述類別的個(gè)數(shù)等于2,將每個(gè)類別的數(shù)據(jù)記為一組,觸發(fā)所述訓(xùn)練模塊對(duì)所述兩組數(shù)據(jù)進(jìn)行SVM訓(xùn)練;基于所述類別的個(gè)數(shù)大于2,執(zhí)觸發(fā)所述類聚處理模塊。優(yōu)選的,所述訓(xùn)練模塊,具體用于:依次從所述至少兩組數(shù)據(jù)中獲取每一組數(shù)據(jù)作為一組訓(xùn)練樣本,分別進(jìn)行訓(xùn)練。優(yōu)選的,所述裝置還包括:組數(shù)據(jù)處理模塊,用于依據(jù)分成的至少兩組數(shù)據(jù),生成與所述數(shù)據(jù)組數(shù)對(duì)應(yīng)個(gè)數(shù)的第二節(jié)點(diǎn),并將每組數(shù)據(jù)依次放入對(duì)應(yīng)的第二節(jié)點(diǎn)中后,觸發(fā)所述類聚處理模塊將任一第二節(jié)點(diǎn)作為新的第一節(jié)點(diǎn),并循環(huán)執(zhí)行所述采用預(yù)設(shè)的相似度聚類算法將所述第一節(jié)點(diǎn)中的數(shù)據(jù)類聚成組,得到至少兩組數(shù)據(jù)步驟。綜上,本實(shí)施例提供的一種數(shù)據(jù)處理裝置,通過預(yù)設(shè)的相似度聚類算法,將第一節(jié)點(diǎn)中的多個(gè)類別的數(shù)據(jù)類聚成組,而每組數(shù)據(jù)就是聚類完成的一類數(shù)據(jù),相對(duì)該聚類完成的數(shù)據(jù)進(jìn)行SVM訓(xùn)練,該過程中,采用的類聚成組的算法,使得SVM在二分類時(shí)達(dá)到間隔最大化的效果,提高分類準(zhǔn)確率。如圖12所示的為本申請(qǐng)?zhí)峁┑囊环N數(shù)據(jù)處理裝置實(shí)施例2的結(jié)構(gòu)示意圖,該裝置包括以下結(jié)構(gòu):訓(xùn)練集處理模塊1201、類聚處理模塊1202和訓(xùn)練模塊1203;其中,該類聚處理模塊包括計(jì)算單元1204、生成單元1205、轉(zhuǎn)換單元1206和分割單元1207;其中,該訓(xùn)練集處理模塊1201和訓(xùn)練模塊1203的結(jié)構(gòu)功能與實(shí)施例1中相應(yīng)結(jié)構(gòu)功能一致,本實(shí)施例中不做贅述。其中,該計(jì)算單元1204,用于依據(jù)預(yù)設(shè)相似度算法,計(jì)算所述訓(xùn)練集中任意兩個(gè)類別的數(shù)據(jù)之間的相似度;其中,該生成單元1205,用于基于所述相似度生成離散度圖;其中,該轉(zhuǎn)換單元1206,用于依據(jù)預(yù)設(shè)的轉(zhuǎn)換規(guī)則,將所述離散度圖轉(zhuǎn)換成最小生成樹;其中,該分割單元1207,用于依據(jù)預(yù)設(shè)的分割規(guī)則,將所述最小生成樹分割成至少兩組。綜上,本實(shí)施例提供的一種數(shù)據(jù)處理裝置,保證了組與組之間的離散度最大化,使得SVM在二分類時(shí)達(dá)到間隔最大化的效果,提高分類準(zhǔn)確率。本說明書中各個(gè)實(shí)施例采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似部分互相參見即可。對(duì)于實(shí)施例提供的裝置而言,由于其與實(shí)施例提供的方法相對(duì)應(yīng),所以描述的比較簡單,相關(guān)之處參見方法部分說明即可。對(duì)所提供的實(shí)施例的上述說明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對(duì)這些實(shí)施例的多種修改對(duì)本領(lǐng)域的專業(yè)技術(shù)人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其它實(shí)施例中實(shí)現(xiàn)。因此,本發(fā)明將不會(huì)被限制于本文所示的這些實(shí)施例,而是要符合與本文所提供的原理和新穎特點(diǎn)相一致的最寬的范圍。當(dāng)前第1頁1 2 3