一種基于網(wǎng)格搜索技術(shù)用于支持向量機(jī)的參數(shù)尋優(yōu)方法
【專利摘要】本發(fā)明涉及一種基于網(wǎng)格搜索技術(shù)用于SVM的參數(shù)優(yōu)化方法,屬于機(jī)器學(xué)習(xí)的參數(shù)尋優(yōu)領(lǐng)域。本方法包括抽樣,尋優(yōu)以及選舉三個(gè)階段;具體包括:抽樣生成多個(gè)訓(xùn)練集:從一個(gè)給定的完整樣本集中隨機(jī)抽取樣本P次組成P個(gè)子集,作為訓(xùn)練集,P為正整數(shù);確保每一個(gè)子集中的正負(fù)樣本比例與全集中的正負(fù)樣本比例保持一致;每個(gè)子集規(guī)模大小根據(jù)完整樣本集的大小預(yù)先給定,子集數(shù)目P的大小確保反應(yīng)全集的概率分布;每個(gè)子集進(jìn)行參數(shù)尋優(yōu):利用網(wǎng)格搜索技術(shù),分別對抽樣得到的P個(gè)子集并行地進(jìn)行參數(shù)尋優(yōu),完整遍歷整個(gè)參數(shù)空間;匯總性能結(jié)果并且采用選舉的方式選出參數(shù)組合作為最終的結(jié)果輸出。本發(fā)明旨在提升參數(shù)尋優(yōu)過程中的計(jì)算效率。
【專利說明】—種基于網(wǎng)格搜索技術(shù)用于支持向量機(jī)的參數(shù)尋優(yōu)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于機(jī)器學(xué)習(xí)的參數(shù)尋優(yōu)領(lǐng)域,特別涉及一種基于網(wǎng)格搜索技術(shù)用于支持向量機(jī)的參數(shù)尋優(yōu)方法。
【背景技術(shù)】
[0002]支持向量機(jī)(SVM)是一種廣泛應(yīng)用的機(jī)器學(xué)習(xí)算法,其在解決小規(guī)模樣本、非線性以及高維數(shù)據(jù)的模式識別問題中具有良好的性能表現(xiàn),處理的問題主要包括了統(tǒng)計(jì)分類和回歸分析。歸因于良好的泛化性能,SVM被廣泛應(yīng)用在各種領(lǐng)域,諸如,文本分類、模式識別、故障診斷等。SVM是基于統(tǒng)計(jì)學(xué)習(xí)理論發(fā)展出來的學(xué)習(xí)算法,現(xiàn)在以二分類問題為例介紹SVM算法,其它問題在算法上有一定的差異,但是基本思路是一致的。
[0003]首先給出問題定義,假設(shè)一組樣本集{(Xi, y)| Xi ∈ Rd, i = 1,2,...,η},其中Xi是d維的特征向量,y,表示樣本類別,二分類問題有兩個(gè)類別標(biāo)識{+1,_1},+1為正類,-1為負(fù)類)。通常情況下,樣本數(shù)據(jù)是線性不可分的,SVM通過將樣本數(shù)據(jù)從原始的不可分空間映射到一個(gè)高維可分空間中,將原來線性不可分的樣本數(shù)據(jù)轉(zhuǎn)化成了線性可分的,然后建立一個(gè)最大間隔超平面,這個(gè)最大間隔超平面通過一個(gè)決策函數(shù)來表示,就是SVM訓(xùn)練得到的模型或稱為模型(任何機(jī)器學(xué)習(xí)算法訓(xùn)練得到的都稱之為模型),使得兩邊的樣本數(shù)據(jù)到超平面的距離最大化,如圖1(a)所示,中間虛線是超平面,兩邊平行的實(shí)線是樣本數(shù)據(jù)距離超平面最近的點(diǎn)(圖中的小圓圈和小三角),SVM要求的是最大化這兩條實(shí)線間隔距離的那個(gè)虛線代表的超平面。SVM模型的建立和使用包括以下兩個(gè)階段:
[0004]階段1:訓(xùn)練階段,通過訓(xùn)練數(shù)據(jù),求解最大間隔超平面(即得到模型,算法本質(zhì)是解如下的二次規(guī)劃問題):
[0005]
【權(quán)利要求】
1.一種基于網(wǎng)格搜索技術(shù)用于SVM的參數(shù)優(yōu)化方法,其特征在于,對于給定的樣本集,采用優(yōu)化的網(wǎng)格搜索技術(shù)進(jìn)行參數(shù)尋優(yōu),同時(shí)采用N折交叉驗(yàn)證來確保得到可靠穩(wěn)定的SVM模型; 該方法包括抽樣,尋優(yōu)以及選舉三個(gè)階段;具體包括以下步驟: 步驟I)抽樣生成多個(gè)訓(xùn)練集:從完整樣本集中隨機(jī)抽取樣本P次組成P個(gè)子集,作為訓(xùn)練集,P為正整數(shù);確保每一個(gè)子集中的正負(fù)樣本比例與全集中的正負(fù)樣本比例保持一致;每個(gè)子集規(guī)模大小根據(jù)完整樣本集的大小預(yù)先給定,子集數(shù)目P的大小確保反應(yīng)全集的概率分布; 步驟2)每個(gè)子集進(jìn)行參數(shù)尋優(yōu):利用網(wǎng)格搜索技術(shù),分別對抽樣得到的P個(gè)子集并行地進(jìn)行參數(shù)尋優(yōu),完整遍歷整個(gè)參數(shù)空間; 步驟3)匯總性能結(jié)果并且采用選舉的方式選出參數(shù)組合作為最終的結(jié)果輸出,具體包括以下兩個(gè)子步驟: 步驟3-1)收集每一個(gè)計(jì)算任務(wù)的最優(yōu)參數(shù)組合作為候選參數(shù)組合; 每個(gè)計(jì)算任務(wù)采用相同的指標(biāo)來度量在該任務(wù)所負(fù)責(zé)的數(shù)據(jù)集上的所有參數(shù)組合產(chǎn)生的SVM模型的性能,從中選擇性能最優(yōu)的參數(shù)組合,輸出到文件中;參數(shù)尋優(yōu)結(jié)束后,收集每個(gè)計(jì)算任務(wù)輸出的文件,匯總每個(gè)計(jì)算任務(wù)的最優(yōu)參數(shù)組合,構(gòu)成候選集; 步驟3-2)從候選集中選舉得到性能最優(yōu)的參數(shù)組合: 將候選集中每個(gè)參數(shù)組合用一個(gè)點(diǎn)表示,候選集中所有參數(shù)組合在空間上的分布形成一個(gè)概率云模型圖,找出所有參數(shù)點(diǎn)中距離云模型所有點(diǎn)的質(zhì)心最近的那個(gè)點(diǎn)為匯聚點(diǎn),該匯聚點(diǎn)就是所求最佳參數(shù)組合,如果存在多個(gè)匯聚點(diǎn),將匯聚點(diǎn)取出查看明細(xì)投票數(shù),得出最佳參數(shù)組合。
2.如權(quán)利要求1所述方法,其特征在于,所述步驟2)具體包括以下兩種并行化方式: 方式1:每個(gè)子集作為單個(gè)獨(dú)立的計(jì)算任務(wù)進(jìn)行參數(shù)尋優(yōu)計(jì)算,每個(gè)子集分配到計(jì)算機(jī)集群中的一個(gè)核上進(jìn)行參數(shù)尋優(yōu),各計(jì)算任務(wù)是并行執(zhí)行,在P個(gè)核上同時(shí)進(jìn)行參數(shù)尋優(yōu); 方式2:每個(gè)子集并行地進(jìn)行N折交叉驗(yàn)證的計(jì)算過程,每個(gè)子集分為N個(gè)次子集,其中N-1個(gè)作為訓(xùn)練集,I個(gè)作為測試集,總共進(jìn)行N輪交叉驗(yàn)證的計(jì)算,每個(gè)計(jì)算任務(wù)配到計(jì)算機(jī)集群中的一個(gè)核上進(jìn)行參數(shù)尋優(yōu),各計(jì)算任務(wù)并行執(zhí)行,每個(gè)子集進(jìn)行N折交叉驗(yàn)證,每一輪的N個(gè)計(jì)算任務(wù)分配到N個(gè)核上進(jìn)行計(jì)算,共NXP個(gè)計(jì)算任務(wù)分配到NXP個(gè)核上同時(shí)進(jìn)行參數(shù)尋優(yōu),N為正整數(shù)。
【文檔編號】G06F17/30GK103744978SQ201410016619
【公開日】2014年4月23日 申請日期:2014年1月14日 優(yōu)先權(quán)日:2014年1月14日
【發(fā)明者】楊廣文, 季穎生, 王小鴿, 陳宇樹, 薛志輝 申請人:清華大學(xué)