本發(fā)明涉及一種數(shù)據(jù)分析方法,尤其涉及一種樣本標(biāo)簽缺失數(shù)據(jù)的基于支持向量機(jī)的分類器訓(xùn)練方法.
背景技術(shù):
:對(duì)于兩類樣本標(biāo)簽均已知的分類數(shù)據(jù),一類較成功的數(shù)據(jù)分類方法是支持向量機(jī).該類方法以結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理為理論指導(dǎo),在較簡(jiǎn)單的函數(shù)集合中,極小化經(jīng)驗(yàn)損失.對(duì)于非線性分類問題,通常引入核函數(shù),在相當(dāng)大的程度上克服了維數(shù)災(zāi)難.支持向量機(jī)已成為處理監(jiān)督學(xué)習(xí)問題的一類重要的數(shù)據(jù)處理和分析方法.但是,許多實(shí)際應(yīng)用所采集的數(shù)據(jù)經(jīng)常是不完整的,特別是,很大一部分?jǐn)?shù)據(jù)的標(biāo)簽信息是缺失的.從該種類型的數(shù)據(jù)中尋找其內(nèi)在規(guī)律的方法通常歸結(jié)為半監(jiān)督學(xué)習(xí).考慮僅有兩類樣本的數(shù)據(jù),這兩類樣本分別為正類樣本和負(fù)類樣本.本發(fā)明考慮其中一類樣本,設(shè)為正類樣本,其標(biāo)簽數(shù)據(jù)全部缺失.所采集的數(shù)據(jù)中,僅有部分負(fù)類樣本的標(biāo)簽是已知的,其余樣本標(biāo)簽信息缺失.缺失標(biāo)簽的數(shù)據(jù)可能是正類樣本,也可能是負(fù)類樣本,還可能是未知概率分布的其他樣本.該種類型的數(shù)據(jù)廣泛出現(xiàn)于圖像識(shí)別、多肽鑒定等問題.由于負(fù)類樣本均未知,該類數(shù)據(jù)比通常的半監(jiān)督學(xué)習(xí)問題更難于處理和分析.本發(fā)明涉及公開一種從該種正類樣本標(biāo)簽全部缺失的數(shù)據(jù)中訓(xùn)練分類器的方法,并用于分類和識(shí)別.該問題屬于一類特殊的半監(jiān)督學(xué)習(xí)問題,可以借鑒現(xiàn)有的半監(jiān)督學(xué)習(xí)技術(shù).公告號(hào)為CN101980202A的發(fā)明采用聚類技術(shù),迭代更新標(biāo)記樣本集和未標(biāo)記樣本集.公告號(hào)為CN105005790A的發(fā)明在已知標(biāo)簽樣本數(shù)據(jù)集上訓(xùn)練多個(gè)基本分類器,通過投票策略,對(duì)未知標(biāo)簽樣本數(shù)據(jù)集樣本進(jìn)行分類,迭代更新標(biāo)記樣本集和未標(biāo)記樣本集,訓(xùn)練得到的分類器用于電子鼻室內(nèi)毒氣的智能識(shí)別.公告號(hào)為CN104992184A的發(fā)明采用類似的思想,在已知標(biāo)簽樣本數(shù)據(jù)集上訓(xùn)練多個(gè)基本分類器,引入人工標(biāo)注技術(shù)迭代分類,并將該訓(xùn)練方法用于圖像分類.以上半監(jiān)督學(xué)習(xí)技術(shù)及當(dāng)前相關(guān)研究文獻(xiàn)中的方法的基本思想是通過融入經(jīng)典的分類、聚類技術(shù),或引入外部信息甚至人工標(biāo)注等方法,預(yù)測(cè)或標(biāo)注未標(biāo)記樣本中部分置信度較高的樣本的標(biāo)簽,從而迭代更新標(biāo)記樣本集和未標(biāo)記樣本集.這些方法通常針對(duì)具體的應(yīng)用問題專門設(shè)計(jì),在所應(yīng)用的問題中具有特定的有益效果,其局限性主要有兩方面:(1)由于不同數(shù)據(jù)集數(shù)據(jù)內(nèi)在分布規(guī)律的差異,現(xiàn)有方法更新標(biāo)記樣本集和未標(biāo)記樣本集的規(guī)則通常并不能直接應(yīng)用于不同的數(shù)據(jù)集,特別是數(shù)據(jù)的潛在概率分布有較大差異的數(shù)據(jù)集.(2)現(xiàn)有的方法在訓(xùn)練數(shù)據(jù)集上具有一定的準(zhǔn)確性,但通常推廣性能較差,即在獨(dú)立的測(cè)試數(shù)據(jù)集上性能較差.雖然有些應(yīng)用問題本身不要求在獨(dú)立測(cè)試集上進(jìn)行分類和識(shí)別,但推廣性能差意味著在訓(xùn)練集上的分類和識(shí)別結(jié)果存在較大偏差.本發(fā)明針對(duì)上述局限性,公開了一種正類樣本標(biāo)簽全部缺失的數(shù)據(jù)處理方法,采集的數(shù)據(jù)缺失了全部正類樣本的標(biāo)簽和部分負(fù)類樣本的標(biāo)簽.技術(shù)實(shí)現(xiàn)要素:為了克服現(xiàn)有技術(shù)在不同數(shù)據(jù)集上通用性較差,以及所得到的分類器或分類方法推廣性能較差的缺陷,本發(fā)明提供一種優(yōu)化求解技術(shù),視全部未標(biāo)記樣本為正類樣本,將其標(biāo)簽的可靠性作為待求解的決策變量,基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理建立最優(yōu)化模型,并提供有效的算法進(jìn)行求解.本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:一種從正類樣本標(biāo)簽缺失數(shù)據(jù)訓(xùn)練分類器的方法,主要包括以下步驟:步驟1.數(shù)據(jù)預(yù)處理,將數(shù)據(jù)的每個(gè)特征轉(zhuǎn)換為數(shù)值型數(shù)據(jù),去除冗余特征,數(shù)據(jù)歸一化;步驟2.設(shè)預(yù)處理后的訓(xùn)練樣本為其中,xi∈Rd,yi∈{-1,+1},N為所有訓(xùn)練樣本的個(gè)數(shù).已知負(fù)類樣本點(diǎn)標(biāo)簽為“-1”,所有未標(biāo)記樣本的標(biāo)簽為“+1”.記Ω-={i|yi=-1},Ω+={i|yi=+1}.求解如下形式的自適應(yīng)半監(jiān)督學(xué)習(xí)模型:其中,是待求解的分類函數(shù),是待求分類函數(shù)所屬的再生核Hilbert空間,θ=[θ1,...,θN]T∈RN是模型待求解的決策變量,θi∈[0,1]表征第i個(gè)樣本標(biāo)簽的置信度,L(·)是損失函數(shù),是關(guān)于θ的正則化函數(shù),c1>0,c2>0,μ>0為常數(shù).c1表示負(fù)類樣本損失的權(quán)重,c2表示未標(biāo)記樣本(正類樣本)損失的權(quán)重.步驟3.依據(jù)訓(xùn)練得出的分類器f,預(yù)測(cè)未標(biāo)記樣本的標(biāo)簽.各步驟的詳細(xì)說明:步驟1數(shù)據(jù)預(yù)處理.數(shù)據(jù)歸一化:將樣本的各個(gè)特征的數(shù)值做平移和放縮,使之成為0均值、1方差的數(shù)據(jù).若依據(jù)經(jīng)驗(yàn)已知某些特征有重要作用,可在完成上述數(shù)據(jù)歸一化操作后,對(duì)相應(yīng)特征乘以恰當(dāng)?shù)南禂?shù).步驟2.1對(duì)于非線性分類數(shù)據(jù),選擇恰當(dāng)?shù)暮撕瘮?shù)來度量樣本的相似性.如果對(duì)數(shù)據(jù)集沒有先驗(yàn)知識(shí),則采用高斯核函數(shù)其中σ>0為常數(shù).步驟2.2自適應(yīng)半監(jiān)督學(xué)習(xí)模型(1)的可執(zhí)行形式.2.2.1自適應(yīng)半監(jiān)督學(xué)習(xí)模型(1)中的決策函數(shù),依據(jù)表示定理,具有如下形式:f(x)=Σi=1Nβik(xi,x).---(2)]]>因此,f(xj)=Σi=1Nβik(xi,xj)=KjTβ,j=1,...,N---(3)]]>其中,核矩陣K=(Kij),Kij=k(xi,xj),Kj表示矩陣K的第j列.2.2.2損失函數(shù)對(duì)于不同的應(yīng)用問題,采用現(xiàn)有文獻(xiàn)中公開的損失函數(shù).本發(fā)明以經(jīng)典的Hinge損失函數(shù)和平方損失函數(shù)為例,公開該模型的具體求解算法.Hinge損失具有如下形式:L(yi,f(xi))=max(0,1-yif(xi)),i=1,...,N.(4)平方損失具有如下形式:L(yi,f(xi))={max(0,1-yif(xi))}2,i=1,...,N.(5)2.2.3正則化項(xiàng)的選取原則如下:(1)關(guān)于θ為凸函數(shù),θi∈[0,1],i=1,...,N.(2)記則θ*(μ,l)關(guān)于l單調(diào)不增,且應(yīng)同時(shí)滿足上述兩條規(guī)則.依據(jù)該原則,可給出正則化項(xiàng)的多種形式.本發(fā)明以的兩種實(shí)用形式為例,說明模型(1)的求解方案.可按下述公式計(jì)算:或者2.2.4自適應(yīng)半監(jiān)督學(xué)習(xí)模型的具體形式依據(jù)(1)式及再生核Hilbert空間的性質(zhì),||f||H2=<Σi=1Nβik(xi,x),Σj=1Nβjk(xj,x)>=Σi=1NΣj=1Nk(xi,xj)βiβj=βTKβ.]]>將上式及(3),(4)式代入自適應(yīng)半監(jiān)督學(xué)習(xí)模型(1)得該模型的具體形式:其中K=(Kij),Kij=k(xi,xj),p=1或p=2,分別對(duì)應(yīng)Hinge損失和平方損失,由(6)式或(7)式確定.2.2.5自適應(yīng)半監(jiān)督學(xué)習(xí)模型的求解方法自適應(yīng)半監(jiān)督學(xué)習(xí)模型(8)是非線性規(guī)劃問題,包含兩部分待求解的變量β∈RN,θ∈RN.對(duì)規(guī)模N≤10000的數(shù)據(jù)集,直接調(diào)用算法工具包,如Matlab的fmincon,求解.對(duì)于大規(guī)模數(shù)據(jù)集,本發(fā)明公開如下迭代算法.記模型(8)的目標(biāo)函數(shù)為算法1.交替搜索算法輸入:訓(xùn)練樣本常數(shù)c1,c2,μ;輸出:β*∈RN,θ*∈RN;步1.初始化.選取β0=[0,...,0]T,θ0=[1,...,1]T,置k=0;步2.對(duì)于固定的θk,以βk為初始點(diǎn),近似求解凸優(yōu)化問題minβF(β,θk)---(10)]]>置最優(yōu)解為βk+1;步3.對(duì)于固定的βk+1,求解凸優(yōu)化問題minθF(βk+1,θ)]]>s.t.θi=1,i∈Ω-0≤θi≤1,i∈Ω+.(11)置最優(yōu)解為θk+1,置k:=k+1,轉(zhuǎn)步2,直至滿足終止準(zhǔn)則.算法的流程圖見附圖1.算法的具體實(shí)施:子問題(11)的求解當(dāng)取特定形式時(shí),子問題(11)有解析解.記li=L(yi,f(xi)),i=1,...,N.記子問題(11)的最優(yōu)解為θk+1,設(shè)若以(6)式確定則若以(7)式確定則子問題(10)的近似求解由子問題(10)是算法1的每次迭代的一個(gè)子問題,僅需要求解其近似解.子問題(10)可寫為其中,由(11)式定義,i=1,...,N.該問題是一個(gè)加權(quán)的原始形式的支持向量機(jī)模型,采用求解支持向量機(jī)的算法,如SMO算法,近似求解.算法1的終止準(zhǔn)則若迭代次數(shù)超過則算法終止迭代,r1>0為常數(shù).步驟3.預(yù)測(cè)未標(biāo)記樣本的標(biāo)簽記β*∈RN為算法1輸出的最優(yōu)解,則模型訓(xùn)練的分類函數(shù)為:f^(x)=Σi=1Nβi*k(xi,x).---(13)]]>對(duì)于樣本xk,其標(biāo)簽預(yù)測(cè)為本發(fā)明的有益效果是::(1)樣本標(biāo)簽的可靠性作為模型待求解的決策變量,可以克服人為引入其他數(shù)據(jù)處理技術(shù)預(yù)測(cè)未標(biāo)記樣本誤差較大的缺點(diǎn).(2)在不同數(shù)據(jù)集上,特別是數(shù)據(jù)內(nèi)在概率分布差異較大的不同數(shù)據(jù)集上,本方法通用性強(qiáng).(3)訓(xùn)練所得到的分類器具有良好的推廣性能,可在獨(dú)立的測(cè)試集合上測(cè)試分類錯(cuò)誤率,從而有效避免分類器過擬合.附圖說明圖1為本發(fā)明所公開的算法1的流程圖.該算法是本發(fā)明的主體算法,它通過求解兩個(gè)子問題,交替計(jì)算βk和θk,直至迭代終止,輸出β*,并依據(jù)(13)式計(jì)算分類函數(shù)具體實(shí)施方式下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明進(jìn)一步說明.選取3個(gè)多肽鑒定數(shù)據(jù)集對(duì)所公開方法的有效性進(jìn)行測(cè)試.表1中列出了這3個(gè)數(shù)據(jù)集:yeast,ups1和tal08的樣本總數(shù);已知負(fù)類樣本的數(shù)目;未標(biāo)記樣本的數(shù)目.每個(gè)數(shù)據(jù)集均按照1:1的比例隨機(jī)分成兩個(gè)子集合——訓(xùn)練集和測(cè)試集.本發(fā)明給出的數(shù)據(jù)處理方法在訓(xùn)練集上進(jìn)行計(jì)算,得到分類函數(shù),并在獨(dú)立的測(cè)試集上測(cè)試分類函數(shù)的性能.對(duì)所測(cè)試的3個(gè)數(shù)據(jù)集均采用統(tǒng)一的參數(shù)設(shè)置:自適應(yīng)半監(jiān)督學(xué)習(xí)模型(8)中取μ=5.0,c1=c2=1.0,采用平方損失函數(shù),并以(6)式確定算法1的終止準(zhǔn)則中r1取值為0.5.表2列出了本發(fā)明采用的方法在訓(xùn)練集和測(cè)試集上鑒定的TP和FP的數(shù)目,其中錯(cuò)誤率=FP/(TP+FP)取在0.025的水平.通過表2可見,該方法在訓(xùn)練集和測(cè)試集上鑒定的TP和FP的數(shù)目接近一致與“測(cè)試集樣本/樣本總數(shù)=50%”的比例一致,說明該方法所計(jì)算的分類函數(shù)在測(cè)試集上具有良好的預(yù)測(cè)性能.另外,3個(gè)數(shù)據(jù)集未標(biāo)記樣本的分布差異較大,但該方法采用統(tǒng)一的參數(shù)設(shè)置,沒有人為干預(yù),取得了一致的性能表現(xiàn),表明該方法具有一定的通用性.表1數(shù)據(jù)集總計(jì)負(fù)類樣本未標(biāo)記樣本yeast1489281896703ups11733583618974tal08695602733842222表2本發(fā)明方法在訓(xùn)練集和測(cè)試集上的性能(錯(cuò)誤率=0.025)當(dāng)前第1頁(yè)1 2 3