一種例外點抑制的快速回歸分類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及大規(guī)模數(shù)據(jù)分析與模式分類領(lǐng)域,更具體地,涉及一種基于例外點抑 制機理與可并行計算設(shè)計的快速數(shù)據(jù)回歸分類方法。
【背景技術(shù)】
[0002] 字典學(xué)習(xí)與稀疏表示方法最近在機器學(xué)習(xí)與模式識別領(lǐng)域受到廣泛的關(guān)注,并在 一些具體應(yīng)用問題上得到了卓越的表現(xiàn)性能。在限制等距條件下,任何一個測試樣本都可 以表示為一組訓(xùn)練樣本的線性組合,這為基于極小重構(gòu)誤差原理的分類器設(shè)計提供了新的 發(fā)展思路。美國伊利諾伊大學(xué)香檳分校Wright博士于2009年提出稀疏表示分類器(SRC)并 成功應(yīng)用于人像識別,該方法隨后被廣泛引用并用于解決其他相關(guān)問題。
[0003] 然而,盡管SRC在一些帶有光線變化和局部遮擋的數(shù)據(jù)庫上得到了不錯的結(jié)果,它 仍然不能很好的解決帶有戶外光線和其他例外點的數(shù)據(jù)分類問題。同時,SRC算法具有較高 的計算復(fù)雜度,不能高效的處理大規(guī)模數(shù)據(jù)實時分類。香港理工大學(xué)張磊教授提出了基于 Gabor變換的快速字典學(xué)習(xí)算法,北京郵電大學(xué)鄧偉洪博士針對具體的遮擋情形也提出了 新的算法用于改善分類精度??紤]到損失函數(shù)對例外點的敏感程度,深圳大學(xué)楊猛博士提 出迭代重加權(quán)的新方式用以衰減部分遮擋像素的不利影響,中科院自動化所赫然博士提出 極大化相關(guān)熵方法實現(xiàn)了對例外點更加有效的抑制方式,然而這些方法由于需要用到較大 規(guī)模的訓(xùn)練數(shù)據(jù),使得計算復(fù)雜度依然較高,無法滿足大規(guī)模運算與實時處理需求。
【發(fā)明內(nèi)容】
[0004] 為了克服上述現(xiàn)有技術(shù)的不足,本發(fā)明提出一種基于例外點抑制機理的數(shù)據(jù)快速 分類方法。該方法能夠有效的抑制數(shù)據(jù)例外點對回歸系數(shù)的不利影響,在數(shù)據(jù)帶有例外點 的前提下逐類別估計出穩(wěn)健的回歸系數(shù),能夠較快的處理大規(guī)模數(shù)據(jù)分類問題。
[0005] 為了實現(xiàn)上述目的,本發(fā)明的技術(shù)方案為:
[0006] -種例外點抑制的快速回歸分類方法,包括以下步驟:
[0007] S1.輸入數(shù)據(jù),并進入循環(huán)體;
[0008] S2.設(shè)置參數(shù),進行數(shù)據(jù)更新;
[0009] S3.構(gòu)建回歸模型,進行數(shù)值優(yōu)化;
[0010] S4.對測試樣本進行分類;求得最優(yōu)類標(biāo)k'使得測試樣本?中關(guān)于訓(xùn)練數(shù)據(jù)Z的表 示向量,在最大熵的情況下 fc*與?最相關(guān);
[0011] 步驟S1中輸入的數(shù)據(jù)包括Zk,nk,《d,P,γ 0;
[0012] 其中[Ζ1',···,ΖΚ]=Ζ是一組帶有類別屬性或標(biāo)簽的數(shù)據(jù),Zk表示第k個類別的數(shù) 據(jù)矩陣,n k表示第k類的樣本數(shù),1?=1,2,···,Κ;?表示測試樣本,d表示數(shù)據(jù)維數(shù),P是回歸模 型(見下面式(1))的正則化參數(shù),γ〇表示初始化誤差向量;
[0013] 步驟S2中設(shè)置的參數(shù)包括:
[0014]
[0015] 其中t表示迭代指標(biāo),rt是第t步迭代所得誤差向量,γ η是第t-1步所得回歸系數(shù) 向量,σ是高斯函數(shù)對應(yīng)的標(biāo)準(zhǔn)差,.Pt ^ <9*01:).表示第t步對應(yīng)的相關(guān)熵,W是由向量做對 角化處理之后得到的對角矩陣;
[0016] 步驟S2中按照下式進行數(shù)據(jù)更新:= l47Zfc,;! = M/i,之〃表示對數(shù)據(jù)矩陣Zk左乘 W(行變換)得到的規(guī)范化矩陣,f表示對測試樣本i左乘W的結(jié)果;
[0017] 步驟S3中構(gòu)建的回歸模型為:
[0018]
[0019] 其中與表示向量g的第j個分量,Zi表示第i個訓(xùn)練樣本,Zij是Zi的第j個元素;
[0020] 進行數(shù)值優(yōu)化的過程為:
[0021] 根據(jù)共輒凸函數(shù)的優(yōu)化原理,存在g( ·)的一個共輒凸函數(shù)φ(·),使得
υ… pf V " ,一^且對一個固定的δ,在p'=-g(5)處能達到最大值;設(shè)p =
[P!,P2,…,Pd ] 7是一個輔助向量,建立新的回歸模型:
[0022]
[0023]是權(quán)值向量,P是非負(fù)的正則化參數(shù),使用交叉驗證方法確定P 的經(jīng)驗極優(yōu)值;
[0024] 下面考慮回歸模型(2)的數(shù)值優(yōu)化問題;
[0025] 當(dāng)變量γ固定時,maYx/ = 最大化f等同于最大化增廣函數(shù)/(y,P); 顯然,使用交替優(yōu)化的方式能夠計算出公式(2)的一組局部最優(yōu)值(γ,P);
[0026]
[0027]
[0028] 其中k表示類別指標(biāo),上標(biāo)t和t+1分別表示第t和t+1次的迭代結(jié)果,Ω =diag(P) 表示由向量P得到的對角矩陣;輔助向量-p的值是公式(4)的權(quán)重;公式(4)的目標(biāo)函數(shù)可重 新表示成下面的二次規(guī)劃:
[0029] t
^ γ
[0030] 其中
?于矩陣刃 藝+pi是正定的,公式 (5)對應(yīng)的二次規(guī)劃是一個凸問題,用活動集方法求解;
[0031] 從公式(3)到公式(5)找到極優(yōu)的γ去最大化目標(biāo)函數(shù)的變量pt;公式(3)更新了 輔助變量;交替優(yōu)化公式(3)和(4)直到公式(2)的目標(biāo)函數(shù)達到收斂;
[0032] 判斷更新迭代條件,并由此判斷是否返回循環(huán)體,如返回循環(huán)體,則跳轉(zhuǎn)到步驟 S2,否則輸出γ$=γ?;
[0033] 對測試樣本i進行分類的過程為:
[0034] 對每一個類別k,設(shè)yk是回歸向量系數(shù),則測試樣本?由? = 重構(gòu)出來;如果 在含和I之間存在最大的相關(guān)熵或最小的非線性重構(gòu)誤差,即
[0035]
[0036] 則將i歸類到k*。
[0037] 與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為:(1)相關(guān)熵函數(shù)對任意兩個特征向量計算 逐點相似度之和,自然對局部遮擋或例外點有著非常敏感的判斷和抑制。(2)回歸系數(shù)的非 負(fù)約束進一步加強了模型的解釋性,模型可以轉(zhuǎn)化為標(biāo)準(zhǔn)的二次規(guī)劃問題求解。(3)新方法 針對不同類別的數(shù)據(jù)做分片(逐類)回歸,處理速度較快并且能夠?qū)Υ笠?guī)模數(shù)據(jù)做并行處 理。
[0038]本發(fā)明提出了新的逐類魯棒回歸分類方法,用于改善已有分類器的穩(wěn)健性和實效 性,在抑制例外點和噪音等方面有著十分重要的作用和廣泛的應(yīng)用空間。
【附圖說明】
[0039] 圖1為基于相關(guān)熵函數(shù)的回歸模型。
[0040] 圖2為基于極大重構(gòu)相似度量的分類方法。
[0041 ]圖3為本發(fā)明方法的流程圖。
【具體實施方式】
[0042]附圖僅用于示例性說明,不能理解為對本專利的限制;為了更好說明本實施例,附 圖某些部件會有省略、放大或縮小,并不代表實際產(chǎn)品的尺寸;
[0043]對于本領(lǐng)域技術(shù)人員來說,附圖中某些公知結(jié)構(gòu)及其說明可能省略是可以理解 的。下面結(jié)合附圖和實施例對本發(fā)明的技術(shù)方案做進一步的說明。
[0044] 圖1為基于相關(guān)熵函數(shù)的回歸模型,同一類別的訓(xùn)練數(shù)據(jù)用于構(gòu)建回歸模型的預(yù) 測矩陣,測試樣本用作響應(yīng)向量,使用相關(guān)熵做為回歸誤差函數(shù)?;貧w模型可以表示為帶有 非負(fù)約束的二次規(guī)劃問題求解。
[0045] 圖2為基于極大重構(gòu)相似度量的分類方法,其中柱狀圖的高度表示不同類別的相 似度量,極大相似度對應(yīng)的類別即為預(yù)測結(jié)果。
[0046] 圖3為本發(fā)明方法的流程圖與主要算法步驟,其中包含數(shù)據(jù)輸入、參數(shù)初始化與調(diào) 優(yōu)、目標(biāo)函數(shù)迭代優(yōu)化、逐類分類預(yù)測等主要過程。
[00