支持向量機(jī)分類器的構(gòu)造方法及裝置、分類方法及裝置制造方法
【專利摘要】本發(fā)明提供了一種支持向量機(jī)分類器的構(gòu)造方法及裝置、分類方法及裝置,其中,該方法包括:確定非線性的帶權(quán)核函數(shù);基于帶權(quán)核函數(shù)確定非凸Lp分式范數(shù)罰目標(biāo)函數(shù);利用非凸Lp分式范數(shù)罰目標(biāo)函數(shù)構(gòu)造支持向量機(jī)分類器。本發(fā)明與現(xiàn)有技術(shù)中對(duì)高維小樣本數(shù)據(jù)進(jìn)行分類時(shí)需要遍歷所有特征維的組合來(lái)尋找所需的特征的技術(shù)方案相比,使得構(gòu)造的支持向量機(jī)分類器能實(shí)現(xiàn)非線性核映射后樣例原空間的特征選擇功能,能用于對(duì)高維小樣本數(shù)據(jù)進(jìn)行分類,產(chǎn)生更稀疏的模型,實(shí)現(xiàn)更準(zhǔn)確的特征選擇,得到更好的預(yù)測(cè)準(zhǔn)確度,大幅度地降低了計(jì)算復(fù)雜度,避免了數(shù)據(jù)災(zāi)難。
【專利說(shuō)明】支持向量機(jī)分類器的構(gòu)造方法及裝置、分類方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及智能信息處理【技術(shù)領(lǐng)域】,尤其涉及一種支持向量機(jī)(Support VectorMachine, SVM)分類器的構(gòu)造方法及裝置、分類方法及裝置。
【背景技術(shù)】
[0002]在計(jì)算機(jī)視覺(jué)例如:腦核磁共振三維成像、生物信息學(xué)、癌癥微陣列基因診斷和商業(yè)網(wǎng)站客戶關(guān)系分析等領(lǐng)域,存在著大量的高維小樣本數(shù)據(jù)。高維小樣本數(shù)據(jù)的特點(diǎn)是樣例為高維數(shù)據(jù),樣例的類標(biāo)簽獲取比較困難,如果采用人工標(biāo)注的方式代價(jià)高。基于以上原因?qū)е铝擞蓄悩?biāo)簽的樣例比較少,然而,分類預(yù)測(cè)的目標(biāo)不但要求算法有準(zhǔn)確的預(yù)測(cè)性能,還希望算法能夠找出與該輸出最相關(guān)的輸入特征,例如:需要輸出與預(yù)測(cè)的疾病最相關(guān)的基因,以便于生物學(xué)研究及醫(yī)學(xué)診斷治療,因此確定樣例的類標(biāo)簽就顯得更為重要。
[0003]目前,常用的分類器是L2范數(shù)正則化SVM分類器,這種分類器難以滿足上述在保證預(yù)測(cè)準(zhǔn)確性的前提下,對(duì)樣本進(jìn)行準(zhǔn)確分類。目前的L1、LO范數(shù)SVM分類器依靠遍歷所有特征維的組合來(lái)尋找所需的特征,這樣就導(dǎo)致得到的模型向量不是稀疏向量,靠人工選取數(shù)值最大的分量作為所選特征。如果采用這種L1、L0范數(shù)SVM分類器對(duì)高維小樣本數(shù)據(jù)進(jìn)行分類的話,計(jì)算量太大,而且目前的L1、L0、L2范數(shù)正則化SVM分類器通常不能實(shí)現(xiàn)樣例原空間特征選擇,不能實(shí)現(xiàn)非線性核映射后原空間的特征選擇功能分類器設(shè)計(jì)。
【發(fā)明內(nèi)容】
[0004]本發(fā)明實(shí)施例提供了一 種支持向量機(jī)分類器的構(gòu)造方法及裝置、分類方法及裝置,用以實(shí)現(xiàn)非線性核映射分類器設(shè)計(jì),并具有原空間樣例特征選擇功能,降低計(jì)算復(fù)雜度。
[0005]本發(fā)明實(shí)施例提供了一種支持向量機(jī)SVM分類器的構(gòu)造方法,包括:確定非線性的帶權(quán)核函數(shù);基于帶權(quán)核函數(shù)確定非凸Lp分式范數(shù)罰目標(biāo)函數(shù);利用非凸Lp分式范數(shù)罰目標(biāo)函數(shù)構(gòu)造SVM分類器。
[0006]在一個(gè)實(shí)施例中,帶權(quán)核函數(shù)包括以下至少之一:
[0007]階次為q的多項(xiàng)式帶權(quán)核函數(shù):kw (Xi, χ^?ΧΨχ^'Ψχ」)+^ ;
[0008]徑向基帶權(quán)核函數(shù):~(X,.,X7) = exp (- ((ψχ,) — (ψχ, )||;丨σ1、'
[0009]帶權(quán)神經(jīng)元的非線性作用核函數(shù):1?ψ (Xi, XjktanhQiWxi^WXj)-δ );
[0010]其中,kw (.,.)表示帶權(quán)核函數(shù);i和j表示樣例下標(biāo);(Xi, Xj)表示樣例標(biāo)簽對(duì),Xi和Xj表示樣例和k表示常數(shù),c>0 ;ψ表示權(quán)對(duì)角矩陣,ψ e Rmxm, O ^ ψπ ^ I ;q、O、k和δ表示核參數(shù),σ >0。
[0011]在一個(gè)實(shí)施例中,基于帶權(quán)核函數(shù)確定的非凸Lp分式范數(shù)罰目標(biāo)函數(shù)為:
[0012]in"CL(w,人(χ..),.ν) + Ω, (λν) + Ω: (Ψ)[0013]其中,w表示模型向量;C表示L(wTkw (X,.),y)與Ω 2 (Ψ)之間的權(quán)衡參數(shù),C≥O ;P表示正則化階次,0〈p≤2 ;L(wTkw(x,.), y)表示損失函數(shù),kw(x,.)表示以x作為自變量的帶權(quán)核函數(shù),另一個(gè)參數(shù)為一確定值;wT表示求w的轉(zhuǎn)置;Q1(W)表示正則化項(xiàng);Ω2(Ψ)表示樣例特征權(quán)矩陣正則化項(xiàng)。
[0014]在一個(gè)實(shí)施例中嗎,利用非凸Lp分式范數(shù)罰目標(biāo)函數(shù)構(gòu)造SVM分類器,包括:
[0015]在02($)中引入輔助變量Θ,構(gòu)造輔助凸函數(shù)g(W,Θ),用g(W,Θ)來(lái)替代目標(biāo)函數(shù)中的Ω2(Ψ),得到替代目標(biāo)函數(shù):
[0016]
【權(quán)利要求】
1.一種支持向量機(jī)分類器的構(gòu)造方法,其特征在于,包括: 確定非線性的帶權(quán)核函數(shù); 基于帶權(quán)核函數(shù)確定非凸Lp分式范數(shù)罰目標(biāo)函數(shù); 利用非凸Lp分式范數(shù)罰目標(biāo)函數(shù)構(gòu)造支持向量機(jī)SVM分類器。
2.如權(quán)利要求1所述的方法,其特征在于,帶權(quán)核函數(shù)包括以下至少之一: 階次為q的多項(xiàng)式帶權(quán)核函數(shù):kw (Xi, χ?.) = ((Ψχ?)τ(Ψχ?.)+ο)<1 ;徑向基帶權(quán)核函數(shù):;
3.如權(quán)利要求2所述的方法,其特征在于,基于帶權(quán)核函數(shù)確定的非凸Lp分式范數(shù)罰目標(biāo)函數(shù)為:
4.如權(quán)利要求3所述的方法,其特征在于,利用非凸Lp分式范數(shù)罰目標(biāo)函數(shù)構(gòu)造SVM分類器,包括: 在Ω2(Ψ)中引入輔助變量Θ,構(gòu)造輔助凸函數(shù)g(W,Θ),用g(W,Θ)來(lái)替代目標(biāo)函數(shù)中的Ω2(Ψ),得到替代目標(biāo)函數(shù):
5.如權(quán)利要求4所述的方法,其特征在于: 所述構(gòu)造輔助凸函數(shù)g(w,Θ),用g(w,Θ)來(lái)替代目標(biāo)函數(shù)中的Ω2(Ψ),得到替代目標(biāo)函數(shù),包括: 采用局部二次變分近似法,或者局部線性變分近似法構(gòu)造g(w,Θ)得到替代目標(biāo)函數(shù); 所述求解替代目標(biāo)函數(shù)的最優(yōu)解,包括: 重復(fù)執(zhí)行以下操作直至輪轉(zhuǎn)變量尋優(yōu)算法的輸出結(jié)果經(jīng)計(jì)算后的測(cè)試誤差與前一次計(jì)算得到的測(cè)試誤差相同為止:采用進(jìn)化算法求解所述替代目標(biāo)函數(shù)當(dāng)前的最優(yōu)模型參數(shù)值,其中,模型參數(shù)包括:C、P和核參數(shù);固定模型參數(shù)在當(dāng)前的最優(yōu)模型參數(shù)值上;使用輪轉(zhuǎn)變量尋優(yōu)算法求解替代目標(biāo)函數(shù)得到最優(yōu)解; 將最終得到的最優(yōu)解作為所述替代目標(biāo)函數(shù)的最優(yōu)解。
6.如權(quán)利要求5所述的方法,其特征在于,采用進(jìn)化算法求解所述替代目標(biāo)函數(shù)當(dāng)前的最優(yōu)模型參數(shù)值,包括: 將模型參數(shù)的值作為表現(xiàn)型形式; 利用預(yù)定的編碼機(jī)制,將模型參數(shù)轉(zhuǎn)換為基因型染色體編碼; 按照非線性的帶權(quán)核函數(shù)的核函數(shù)類型,將基因染色體編碼疊加組成核染色體編碼;輸入核染色體編碼作為基因進(jìn)化計(jì)算過(guò)程的輸入,進(jìn)行基因進(jìn)化計(jì)算,產(chǎn)生更新種群編碼序列; 對(duì)更新種群編碼序列進(jìn)行譯碼轉(zhuǎn)換為表現(xiàn)型形式; 將表現(xiàn)型形式作為替代目標(biāo)函數(shù)當(dāng)前的最優(yōu)模型參數(shù)值。
7.如權(quán)利要求6所述的方法,其特征在于,進(jìn)行基因進(jìn)化計(jì)算,產(chǎn)生更新種群編碼序列,包括: 產(chǎn)生由初始編碼序列表示的初始種群; 將輪轉(zhuǎn)變量尋優(yōu)算法的輸出結(jié)果經(jīng)計(jì)算后的測(cè)試誤差,作為適應(yīng)度評(píng)價(jià)函數(shù),對(duì)所述初始種群中的個(gè)體進(jìn)行適應(yīng)度評(píng)價(jià); 按照適應(yīng)度評(píng)價(jià)的結(jié)果對(duì)組合染色體進(jìn)行選擇,產(chǎn)生子代個(gè)體,其中,適應(yīng)度越高的個(gè)體被選中的概率越大; 將初始種群作為父代染色體編碼; 對(duì)父代染色體編碼按小概率擾動(dòng)產(chǎn)生變化,得到子代個(gè)體染色體編碼; 對(duì)子代個(gè)體染色體編碼進(jìn)行變異交叉操作,產(chǎn)生更新種群編碼序列。
8.如權(quán)利要求5所述的方法,其特征在于,采用局部二次變分近似法得到的替代目標(biāo)函數(shù)為:
9.如權(quán)利要求5所述的方法,其特征在于,采用局部線性變分近似法得到的替代目標(biāo)函數(shù)為:
10.如權(quán)利要求5所述的方法,其特征在于,固定C、p和核參數(shù)在當(dāng)前的最優(yōu)參數(shù)值上,使用輪轉(zhuǎn)變量尋優(yōu)算法求解替代目標(biāo)函數(shù)得到最優(yōu)解,包括: 設(shè)置最大迭代次數(shù)T ; 設(shè)置θ、w和Ψ的初始值; 重復(fù)執(zhí)行以下步驟,直至滿足預(yù)設(shè)的終止條件或者重復(fù)次數(shù)大于T次:將當(dāng)前Θ和w的值作為已知值,求解替代目標(biāo)函數(shù)中Ψ的最優(yōu)值,將求得的Ψ的最優(yōu)值和當(dāng)前Θ的值作為已知值,求解替代目標(biāo)函數(shù)中w的最優(yōu)值,將求得的w和Ψ的最優(yōu)值作為已知值,求解替代目標(biāo)函數(shù)中Θ的最優(yōu)值; 將求得的Θ、《和Ψ的最優(yōu)值作為替代目標(biāo)函數(shù)的最優(yōu)解。
11.一種對(duì)高維小樣本數(shù)據(jù)進(jìn)行分類的方法,其特征在于,包括: 根據(jù)權(quán)利要求1至10中任一項(xiàng)所述的支持向量機(jī)SVM分類器的構(gòu)造方法,構(gòu)造SVM分類器; 利用構(gòu)造的SVM分類器,對(duì)高維小樣本數(shù)據(jù)進(jìn)行分類。
12.—種支持向量機(jī)分類器的構(gòu)造裝置,其特征在于,包括: 核函數(shù)確定模塊,用于確定非線性的帶權(quán)核函數(shù); 目標(biāo)函數(shù)確定模塊,用于基于帶權(quán)核函數(shù)確定非凸Lp分式范數(shù)罰目標(biāo)函數(shù); 構(gòu)造模塊,用于利用非凸Lp分式范數(shù)罰目標(biāo)函數(shù)構(gòu)造支持向量機(jī)SVM分類器。
13.如權(quán)利要求12所述的裝置,其特征在于,帶權(quán)核函數(shù)包括以下至少之一:
14.如權(quán)利要求13所述的裝置,其特征在于,所述目標(biāo)函數(shù)確定模塊確定的非凸Lp分式范數(shù)罰目標(biāo)函數(shù)為:
15.如權(quán)利要求14所述的裝置,其特征在于,所述構(gòu)造模塊包括: 替代目標(biāo)函數(shù)構(gòu)造單元,用于在Ω2(Ψ)中引入輔助變量Θ,構(gòu)造輔助凸函數(shù)δ(Ψ, 9),用8($,Θ)來(lái)替代目標(biāo)函數(shù)中的Ω2(Ψ),得到替代目標(biāo)函數(shù):
16.如權(quán)利要求15所述的裝置,其特征在于: 所述替代目標(biāo)函數(shù)構(gòu)造單元具體用于采用局部二次變分近似法,或者局部線性變分近似法構(gòu)造g(W,Θ)得到替代目標(biāo)函數(shù);所述分類器構(gòu)造單元包括: 迭代子單元,用于重復(fù)執(zhí)行以下操作直至輪轉(zhuǎn)變量尋優(yōu)算法的輸出結(jié)果經(jīng)計(jì)算后的測(cè)試誤差與前一次計(jì)算得到的測(cè)試誤差相同為止:采用進(jìn)化算法求解所述替代目標(biāo)函數(shù)當(dāng)前的最優(yōu)模型參數(shù)值,其中,模型參數(shù)包括:c、P和核參數(shù);固定模型參數(shù)在當(dāng)前的最優(yōu)模型參數(shù)值上;使用輪轉(zhuǎn)變量尋優(yōu)算法求解替代目標(biāo)函數(shù)得到最優(yōu)解; 求解子單元,用于將最終得到的最優(yōu)解作為所述替代目標(biāo)函數(shù)的最優(yōu)解。
17.如權(quán)利要求16所述的裝置,其特征在于,所述迭代子單元包括: 第一轉(zhuǎn)換子單元。用于將模型參數(shù)的值作為表現(xiàn)型形式,利用預(yù)定的編碼機(jī)制,將模型參數(shù)轉(zhuǎn)換為基因型染色體編碼; 疊加子單元,用于按照非線性的帶權(quán)核函數(shù)的核函數(shù)類型,將基因染色體編碼疊加組成核染色體編碼; 計(jì)算子單元,用于輸入核染色體編碼作為基因進(jìn)化計(jì)算過(guò)程的輸入,進(jìn)行基因進(jìn)化計(jì)算,產(chǎn)生更新種群編碼序列; 第二轉(zhuǎn)換子單元,用于對(duì)更新種群編碼序列進(jìn)行譯碼轉(zhuǎn)換為表現(xiàn)型形式,并將表現(xiàn)型形式作為替代目標(biāo)函數(shù)當(dāng)前的最優(yōu)模型參數(shù)值。
18.如權(quán)利要求17所述的裝置,其特征在于,所述計(jì)算子單元包括: 構(gòu)建子單元,用于產(chǎn)生由初始編碼序列表示的初始種群; 評(píng)價(jià)子單元,用于將輪轉(zhuǎn)變量尋優(yōu)算法的輸出結(jié)果經(jīng)計(jì)算后的測(cè)試誤差,作為適應(yīng)度評(píng)價(jià)函數(shù),對(duì)所述初始種群中的個(gè)體進(jìn)行適應(yīng)度評(píng)價(jià); 選擇子單元,用于按照適應(yīng)度評(píng)價(jià)的結(jié)果對(duì)組合染色體進(jìn)行選擇,產(chǎn)生子代個(gè)體,其中,適應(yīng)度越高的個(gè)體被選中的概率越大; 擾動(dòng)子單元,用于將初始種群作為父代染色體編碼,對(duì)父代染色體編碼按小概率擾動(dòng)產(chǎn)生變化,得到子代個(gè)體染色體編碼; 編譯子單元,用于對(duì)子代個(gè)體染色體編碼進(jìn)行變異交叉操作,產(chǎn)生更新種群編碼序列。
19.如權(quán)利要求16所述的裝置,其特征在于,所述凸函數(shù)構(gòu)造單元采用局部二次變分近似法得到的替代目標(biāo)函數(shù)為:
20.如權(quán)利要求16所述的裝置,其特征在于,所述凸函數(shù)構(gòu)造單元采用局部線性變分近似法得到的替代目標(biāo)函數(shù)為:
21.如權(quán)利要求16所述的裝置,其特征在于,所述迭代子單元具體用于按照以下方式使用輪轉(zhuǎn)變量尋優(yōu)算法求解替代目標(biāo)函數(shù)得到最優(yōu)解: 設(shè)置最大迭代次數(shù)T ; 設(shè)置Θ、w和Ψ的初始值;重復(fù)執(zhí)行以下步驟,直至滿足預(yù)設(shè)的終止條件或者重復(fù)次數(shù)大于T次:將當(dāng)前Θ和W的值作為已知值,求解替代目標(biāo)函數(shù)中Ψ的最優(yōu)值,將求得的Ψ的最優(yōu)值和當(dāng)前Θ的值作為已知值,求解替代目標(biāo)函數(shù)中W的最優(yōu)值,將求得的W和Ψ的最優(yōu)值作為已知值,求解替代目標(biāo)函數(shù)中Θ的最優(yōu)值; 將求得的Θ、¥和Ψ的最優(yōu)值作為替代目標(biāo)函數(shù)的最優(yōu)解。
22.—種對(duì)高維小樣本數(shù)據(jù)進(jìn)行分類的裝置,其特征在于,包括: 構(gòu)造單元,用于利用權(quán)利要求12至21中任一項(xiàng)所述的支持向量機(jī)分類器的構(gòu)造裝置,構(gòu)造支持向量機(jī)SVM分類器; 分類單元,用于利用構(gòu)造的SVM分類器,對(duì)高維小樣本數(shù)據(jù)進(jìn)行分類。
【文檔編號(hào)】G06F17/30GK103559294SQ201310559733
【公開(kāi)日】2014年2月5日 申請(qǐng)日期:2013年11月12日 優(yōu)先權(quán)日:2013年11月12日
【發(fā)明者】劉建偉, 劉媛, 羅雄麟 申請(qǐng)人:中國(guó)石油大學(xué)(北京)