一種基于svm主動學(xué)習(xí)的多標簽分類控制方法

文檔序號：6429517閱讀：379來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種基于svm主動學(xué)習(xí)的多標簽分類控制方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種多標簽分類方法。
背景技術(shù)：
信息時代的到來，使得大量信息開始以計算機可讀的形式存在，并且數(shù)量急劇增加。但是這些信息魚龍混雜，很多有意義的數(shù)據(jù)都被大量的垃圾信息所淹沒，如何從這些信息中自動分類出有用的信息將是一個重要的課題。在傳統(tǒng)的分類問題中，都是假定一個樣本只屬于一個類標簽。但是由于客觀事物本身的復(fù)雜性，一個樣本可以同時擁有多個標簽。在所有的多標簽學(xué)習(xí)框架中，每個樣本與一個標簽集合相關(guān)聯(lián)，多標簽學(xué)習(xí)的任務(wù)就是要為未知樣本預(yù)測其標簽集，且標簽集的大小是未知的。監(jiān)督的學(xué)習(xí)方法在分類領(lǐng)域得到了廣泛的應(yīng)用，但要想在這種方法下得到一個比較滿意的分類模型則需要大量的訓(xùn)練數(shù)據(jù)。而構(gòu)造多標簽訓(xùn)練樣本集則需要耗費領(lǐng)域?qū)＜揖薮蟮墓ぷ髁?。同時，訓(xùn)練樣本過多將使得學(xué)習(xí)過程變慢，甚至變得難以接受，而主動學(xué)習(xí)能有效的克服這兩個瓶頸。它根據(jù)現(xiàn)有的分類模型，采用某種樣本選擇策略，迭代的選擇一些最有價值的樣本進行標記，能最快的改進現(xiàn)有模型的分類性能。支持向量機(SVM Support Vector Machine)是在上世紀90年代以來逐漸被人們廣泛應(yīng)用的一種統(tǒng)計學(xué)習(xí)方法，是一種基于統(tǒng)計學(xué)習(xí)理論的新型的分類技術(shù)。支持向量機最突出的優(yōu)點在于它強大的推廣能力，在解決小樣本、非線性和高維等模式識別問題中表現(xiàn)出許多特有的優(yōu)勢，是一種可以進行累積學(xué)習(xí)的學(xué)習(xí)模型。目前，關(guān)于SVM主動學(xué)習(xí)的多標簽分類技術(shù)還比較少，主要關(guān)注點還停留在單標簽的主動學(xué)習(xí)上。據(jù)了解，國內(nèi)最新且最有價值的關(guān)于多標簽的研究就是楊碧姍的文章，先估計樣本在每個標簽上的后驗概率并排序，接著利用邏輯回歸預(yù)測標簽的數(shù)目，然后近似的確定樣本標簽，據(jù)此來構(gòu)造損失函數(shù)并作為樣本的選擇策略。而國內(nèi)其他文章幾乎都是針對多類的研究。比如袁勛等利用每個類別的后驗概率構(gòu)造樣本置信度，以此作為樣本選擇依據(jù)，宋鑫穎等通過減少非支持向量來保證訓(xùn)練速度。國外最早使用SVM方法來解決多標簽主動學(xué)習(xí)的是Xuchim Li，他利用在相鄰兩個循環(huán)中期望損失下降的程度作為分類器改進的標志。使用了最大平均損失值和最大損失值兩種計算方法。Brinker利用的選擇策略是依據(jù)所有二分類支持向量機的輸出絕對值的最小值，以期能夠最大限度的約簡版本空間。由于不同的分類器間輸出的值不具有直接可比性，所以Mohan Singh等提出了一種利用后驗概率來選擇樣本的方法。

發(fā)明內(nèi)容
為了克服已有的多標簽分類方法的計算速度較慢、主動學(xué)習(xí)效果較差的不足，本發(fā)明提供一種計算速度快、模型合理、主動學(xué)習(xí)效果較好的基于SVM主動學(xué)習(xí)的多標簽分類控制方法。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是一種基于SVM主動學(xué)習(xí)的多標簽分類控制方法，所述多標簽分類控制方法包括以下步驟1)選擇樣本，過程如下1. 1)首先確定兩條邊界線之間的距離在高維空間中的分類間隔；1. 2)對每個未知樣本計算其決策值將未知樣本代入分類器，計算在高維空間中離分隔線間的距離；1. 3)計算每個樣本所對應(yīng)的后驗概率值，包括正類的概率和負類的概率，分別表示為 P(y = Ι|χ)和 P(y = -Ι|χ)；1.4)根據(jù)期望間隔公式計算期望間隔的大小，若樣本估計為正類時，則對應(yīng)的間隔為Margin+ + /(χ)，若樣本估計為負類的時候，則對應(yīng)的間隔為
,. .-Margin Margin ^---f(x).1.5)對某個特定的未知樣本，其對應(yīng)的期望間隔由下述公式計算得到& = Margin+*P (y = 11 χ) +Margin>P (y = -11 χ)；1. 6)確定好樣本選擇標準后，使用如下公式來選擇最有價值的樣本晉瓜/風(fēng).1^.^)(1)；2)確定樣本后，設(shè)定未帶類別標注的候選樣本集U、帶類別標注的測試集L、每次從U中選取固定的樣本數(shù)和主動學(xué)習(xí)循環(huán)的次數(shù)，分類過程如下2. 1)從候選樣本集U中選擇η個樣本并正確標注其類標號，構(gòu)造初始訓(xùn)練樣本集 Τ，保證T中每個類別各有一個樣本；2. 2)根據(jù)訓(xùn)練集Τ，構(gòu)造SVM分類器f ；2. 3)對U中所有樣本使用當前分類器f進行計算，求得其決策值；2. 4)依據(jù)f值和sigmoid函數(shù)求得樣本屬于正類和負類的后驗概率值；2. 5)根據(jù)后驗概率和決策值，利用期望間隔公式求得期望間隔的大小；2. 6)依據(jù)公式(1)的標準從樣本集U中選擇額定數(shù)目的樣本；2. 7)將步驟2. 6)所選擇的樣本集正確標注后加入到訓(xùn)練集T中，同時從U中舍去此樣本集；2. 8)若檢測循環(huán)達到預(yù)定次數(shù)時，分類終止，并返回分類器f，否則重復(fù)步驟 2. 2)。本發(fā)明的技術(shù)構(gòu)思為基于SVM分類器的構(gòu)建就是尋求最大化分類間隔，因此在樣本較少的情況下自然會使得樣本間的間隔擴大化了，而且會遠遠大于實際間隔，從而導(dǎo)致了分類器在預(yù)測過程中會做出錯誤的判斷。我們需要找到某種方法來盡快的縮減樣本間的間隔大小。為此本發(fā)明提出了一種基于期望間隔大小選擇策略的主動學(xué)習(xí)方法，依據(jù)當前樣本集，能夠迅速的縮小分類間隔，以求盡快的提高分類性能。根據(jù)

圖1，我們對本發(fā)明的原理進行闡述當所選擇的未知樣本為正類的時候(圖中空心圓)，超平面將會向負類方向移動，由原支持向量所確定的分類間隔的正邊界線可以由圖1中的f(X) = 1近似為到 f' (x) = 1，超平面也由Sl近似成S2，而負邊線的位置卻不會有太大的改變，由此分類間隔可近似為
權(quán)利要求
1. 一種基于SVM主動學(xué)習(xí)的多標簽分類控制方法，其特征在于所述多標簽分類控制方法包括以下步驟(1)選擇樣本，過程如下(1.1)首先確定兩條邊界線之間的距離在高維空間中的分類間隔； 1. 2)對每個未知樣本計算其決策值將未知樣本代入分類器，計算在高維空間中離分隔線間的距離；(1.3)計算每個樣本所對應(yīng)的后驗概率值，包括正類的概率和負類的概率，分別表示為 P(y = Ι|χ)和 P(y = -l|x)；(1.4)根據(jù)期望間隔公式計算期望間隔的大小，若樣本估計為正類時，則對應(yīng)的間隔為Margin+ + /(χ)，若樣本估計為負類的時候，則對應(yīng)的間隔為
全文摘要
一種基于SVM主動學(xué)習(xí)的多標簽分類控制方法，包括以下步驟1)選擇樣本，過程如下首先確定兩條邊界線之間的距離，對每個未知樣本計算其決策值，計算每個樣本所對應(yīng)的后驗概率值，包括正類的概率和負類的概率；根據(jù)期望間隔公式計算期望間隔的大小；對某個特定的未知樣本，計算其期望間隔；確定好樣本選擇標準后，使用如下公式來選擇最有價值的樣本2)確定樣本后進行分類，未帶類別標注的候選樣本集U；帶類別標注的測試集L；每次從U中選取固定的樣本數(shù)；主動學(xué)習(xí)循環(huán)的次數(shù)。本發(fā)明計算速度快、模型合理、主動學(xué)習(xí)效果較好。
文檔編號G06K9/62GK102270192SQ20111021178
公開日2011年12月7日申請日期2011年7月27日優(yōu)先權(quán)日2011年7月27日
發(fā)明者何熊熊, 劉端陽, 邱衛(wèi)杰申請人:浙江工業(yè)大學(xué)

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉端陽;邱衛(wèi)杰;何熊熊
技術(shù)所有人：浙江工業(yè)大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于svm主動學(xué)習(xí)的多標簽分類控制方法