專利名稱:一種基于svm主動學(xué)習(xí)的多標簽分類控制方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種多標簽分類方法。
背景技術(shù):
信息時代的到來,使得大量信息開始以計算機可讀的形式存在,并且數(shù)量急劇增加。但是這些信息魚龍混雜,很多有意義的數(shù)據(jù)都被大量的垃圾信息所淹沒,如何從這些信息中自動分類出有用的信息將是一個重要的課題。在傳統(tǒng)的分類問題中,都是假定一個樣本只屬于一個類標簽。但是由于客觀事物本身的復(fù)雜性,一個樣本可以同時擁有多個標簽。在所有的多標簽學(xué)習(xí)框架中,每個樣本與一個標簽集合相關(guān)聯(lián),多標簽學(xué)習(xí)的任務(wù)就是要為未知樣本預(yù)測其標簽集,且標簽集的大小是未知的。監(jiān)督的學(xué)習(xí)方法在分類領(lǐng)域得到了廣泛的應(yīng)用,但要想在這種方法下得到一個比較滿意的分類模型則需要大量的訓(xùn)練數(shù)據(jù)。而構(gòu)造多標簽訓(xùn)練樣本集則需要耗費領(lǐng)域?qū)<揖薮蟮墓ぷ髁?。同時,訓(xùn)練樣本過多將使得學(xué)習(xí)過程變慢,甚至變得難以接受,而主動學(xué)習(xí)能有效的克服這兩個瓶頸。它根據(jù)現(xiàn)有的分類模型,采用某種樣本選擇策略,迭代的選擇一些最有價值的樣本進行標記,能最快的改進現(xiàn)有模型的分類性能。支持向量機(SVM Support Vector Machine)是在上世紀90年代以來逐漸被人們廣泛應(yīng)用的一種統(tǒng)計學(xué)習(xí)方法,是一種基于統(tǒng)計學(xué)習(xí)理論的新型的分類技術(shù)。支持向量機最突出的優(yōu)點在于它強大的推廣能力,在解決小樣本、非線性和高維等模式識別問題中表現(xiàn)出許多特有的優(yōu)勢,是一種可以進行累積學(xué)習(xí)的學(xué)習(xí)模型。目前,關(guān)于SVM主動學(xué)習(xí)的多標簽分類技術(shù)還比較少,主要關(guān)注點還停留在單標簽的主動學(xué)習(xí)上。據(jù)了解,國內(nèi)最新且最有價值的關(guān)于多標簽的研究就是楊碧姍的文章,先估計樣本在每個標簽上的后驗概率并排序,接著利用邏輯回歸預(yù)測標簽的數(shù)目,然后近似的確定樣本標簽,據(jù)此來構(gòu)造損失函數(shù)并作為樣本的選擇策略。而國內(nèi)其他文章幾乎都是針對多類的研究。比如袁勛等利用每個類別的后驗概率構(gòu)造樣本置信度,以此作為樣本選擇依據(jù),宋鑫穎等通過減少非支持向量來保證訓(xùn)練速度。國外最早使用SVM方法來解決多標簽主動學(xué)習(xí)的是Xuchim Li,他利用在相鄰兩個循環(huán)中期望損失下降的程度作為分類器改進的標志。使用了最大平均損失值和最大損失值兩種計算方法。Brinker利用的選擇策略是依據(jù)所有二分類支持向量機的輸出絕對值的最小值,以期能夠最大限度的約簡版本空間。由于不同的分類器間輸出的值不具有直接可比性,所以Mohan Singh等提出了一種利用后驗概率來選擇樣本的方法。
發(fā)明內(nèi)容
為了克服已有的多標簽分類方法的計算速度較慢、主動學(xué)習(xí)效果較差的不足,本發(fā)明提供一種計算速度快、模型合理、主動學(xué)習(xí)效果較好的基于SVM主動學(xué)習(xí)的多標簽分類控制方法。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是一種基于SVM主動學(xué)習(xí)的多標簽分類控制方法,所述多標簽分類控制方法包括以下步驟1)選擇樣本,過程如下1. 1)首先確定兩條邊界線之間的距離在高維空間中的分類間隔;1. 2)對每個未知樣本計算其決策值將未知樣本代入分類器,計算在高維空間中離分隔線間的距離;1. 3)計算每個樣本所對應(yīng)的后驗概率值,包括正類的概率和負類的概率,分別表示為 P(y = Ι|χ)和 P(y = -Ι|χ);1.4)根據(jù)期望間隔公式計算期望間隔的大小,若樣本估計為正類時,則對應(yīng)的間隔為Margin+ + /(χ),若樣本估計為負類的時候,則對應(yīng)的間隔為
,. .-Margin Margin ^---f(x).1.5)對某個特定的未知樣本,其對應(yīng)的期望間隔由下述公式計算得到& = Margin+*P (y = 11 χ) +Margin>P (y = -11 χ);1. 6)確定好樣本選擇標準后,使用如下公式來選擇最有價值的樣本晉瓜/風(fēng).1^.^)(1);2)確定樣本后,設(shè)定未帶類別標注的候選樣本集U、帶類別標注的測試集L、每次從U中選取固定的樣本數(shù)和主動學(xué)習(xí)循環(huán)的次數(shù),分類過程如下2. 1)從候選樣本集U中選擇η個樣本并正確標注其類標號,構(gòu)造初始訓(xùn)練樣本集 Τ,保證T中每個類別各有一個樣本;2. 2)根據(jù)訓(xùn)練集Τ,構(gòu)造SVM分類器f ;2. 3)對U中所有樣本使用當前分類器f進行計算,求得其決策值;2. 4)依據(jù)f值和sigmoid函數(shù)求得樣本屬于正類和負類的后驗概率值;2. 5)根據(jù)后驗概率和決策值,利用期望間隔公式求得期望間隔的大小;2. 6)依據(jù)公式(1)的標準從樣本集U中選擇額定數(shù)目的樣本;2. 7)將步驟2. 6)所選擇的樣本集正確標注后加入到訓(xùn)練集T中,同時從U中舍去此樣本集;2. 8)若檢測循環(huán)達到預(yù)定次數(shù)時,分類終止,并返回分類器f,否則重復(fù)步驟 2. 2)。本發(fā)明的技術(shù)構(gòu)思為基于SVM分類器的構(gòu)建就是尋求最大化分類間隔,因此在樣本較少的情況下自然會使得樣本間的間隔擴大化了,而且會遠遠大于實際間隔,從而導(dǎo)致了分類器在預(yù)測過程中會做出錯誤的判斷。我們需要找到某種方法來盡快的縮減樣本間的間隔大小。為此本發(fā)明提出了一種基于期望間隔大小選擇策略的主動學(xué)習(xí)方法,依據(jù)當前樣本集,能夠迅速的縮小分類間隔,以求盡快的提高分類性能。根據(jù)
圖1,我們對本發(fā)明的原理進行闡述當所選擇的未知樣本為正類的時候(圖中空心圓),超平面將會向負類方向移動,由原支持向量所確定的分類間隔的正邊界線可以由圖1中的f(X) = 1近似為到 f' (x) = 1,超平面也由Sl近似成S2,而負邊線的位置卻不會有太大的改變,由此分類間隔可近似為
權(quán)利要求
1. 一種基于SVM主動學(xué)習(xí)的多標簽分類控制方法,其特征在于所述多標簽分類控制方法包括以下步驟(1)選擇樣本,過程如下(1.1)首先確定兩條邊界線之間的距離在高維空間中的分類間隔; 1. 2)對每個未知樣本計算其決策值將未知樣本代入分類器,計算在高維空間中離分隔線間的距離;(1.3)計算每個樣本所對應(yīng)的后驗概率值,包括正類的概率和負類的概率,分別表示為 P(y = Ι|χ)和 P(y = -l|x);(1.4)根據(jù)期望間隔公式計算期望間隔的大小,若樣本估計為正類時,則對應(yīng)的間隔為Margin+ + /(χ),若樣本估計為負類的時候,則對應(yīng)的間隔為
全文摘要
一種基于SVM主動學(xué)習(xí)的多標簽分類控制方法,包括以下步驟1)選擇樣本,過程如下首先確定兩條邊界線之間的距離,對每個未知樣本計算其決策值,計算每個樣本所對應(yīng)的后驗概率值,包括正類的概率和負類的概率;根據(jù)期望間隔公式計算期望間隔的大小;對某個特定的未知樣本,計算其期望間隔;確定好樣本選擇標準后,使用如下公式來選擇最有價值的樣本2)確定樣本后進行分類,未帶類別標注的候選樣本集U;帶類別標注的測試集L;每次從U中選取固定的樣本數(shù);主動學(xué)習(xí)循環(huán)的次數(shù)。本發(fā)明計算速度快、模型合理、主動學(xué)習(xí)效果較好。
文檔編號G06K9/62GK102270192SQ20111021178
公開日2011年12月7日 申請日期2011年7月27日 優(yōu)先權(quán)日2011年7月27日
發(fā)明者何熊熊, 劉端陽, 邱衛(wèi)杰 申請人:浙江工業(yè)大學(xué)