一種樣本標(biāo)簽缺失數(shù)據(jù)的分類器訓(xùn)練方法與流程

文檔序號(hào)：11831702閱讀：1857來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及一種數(shù)據(jù)分析方法，尤其涉及一種樣本標(biāo)簽缺失數(shù)據(jù)的基于支持向量機(jī)的分類器訓(xùn)練方法.
背景技術(shù)：
：對(duì)于兩類樣本標(biāo)簽均已知的分類數(shù)據(jù)，一類較成功的數(shù)據(jù)分類方法是支持向量機(jī).該類方法以結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理為理論指導(dǎo)，在較簡(jiǎn)單的函數(shù)集合中，極小化經(jīng)驗(yàn)損失.對(duì)于非線性分類問題，通常引入核函數(shù)，在相當(dāng)大的程度上克服了維數(shù)災(zāi)難.支持向量機(jī)已成為處理監(jiān)督學(xué)習(xí)問題的一類重要的數(shù)據(jù)處理和分析方法.但是，許多實(shí)際應(yīng)用所采集的數(shù)據(jù)經(jīng)常是不完整的，特別是，很大一部分?jǐn)?shù)據(jù)的標(biāo)簽信息是缺失的.從該種類型的數(shù)據(jù)中尋找其內(nèi)在規(guī)律的方法通常歸結(jié)為半監(jiān)督學(xué)習(xí).考慮僅有兩類樣本的數(shù)據(jù)，這兩類樣本分別為正類樣本和負(fù)類樣本.本發(fā)明考慮其中一類樣本，設(shè)為正類樣本，其標(biāo)簽數(shù)據(jù)全部缺失.所采集的數(shù)據(jù)中，僅有部分負(fù)類樣本的標(biāo)簽是已知的，其余樣本標(biāo)簽信息缺失.缺失標(biāo)簽的數(shù)據(jù)可能是正類樣本，也可能是負(fù)類樣本，還可能是未知概率分布的其他樣本.該種類型的數(shù)據(jù)廣泛出現(xiàn)于圖像識(shí)別、多肽鑒定等問題.由于負(fù)類樣本均未知，該類數(shù)據(jù)比通常的半監(jiān)督學(xué)習(xí)問題更難于處理和分析.本發(fā)明涉及公開一種從該種正類樣本標(biāo)簽全部缺失的數(shù)據(jù)中訓(xùn)練分類器的方法，并用于分類和識(shí)別.該問題屬于一類特殊的半監(jiān)督學(xué)習(xí)問題，可以借鑒現(xiàn)有的半監(jiān)督學(xué)習(xí)技術(shù).公告號(hào)為CN101980202A的發(fā)明采用聚類技術(shù)，迭代更新標(biāo)記樣本集和未標(biāo)記樣本集.公告號(hào)為CN105005790A的發(fā)明在已知標(biāo)簽樣本數(shù)據(jù)集上訓(xùn)練多個(gè)基本分類器，通過投票策略，對(duì)未知標(biāo)簽樣本數(shù)據(jù)集樣本進(jìn)行分類，迭代更新標(biāo)記樣本集和未標(biāo)記樣本集，訓(xùn)練得到的分類器用于電子鼻室內(nèi)毒氣的智能識(shí)別.公告號(hào)為CN104992184A的發(fā)明采用類似的思想，在已知標(biāo)簽樣本數(shù)據(jù)集上訓(xùn)練多個(gè)基本分類器，引入人工標(biāo)注技術(shù)迭代分類，并將該訓(xùn)練方法用于圖像分類.以上半監(jiān)督學(xué)習(xí)技術(shù)及當(dāng)前相關(guān)研究文獻(xiàn)中的方法的基本思想是通過融入經(jīng)典的分類、聚類技術(shù)，或引入外部信息甚至人工標(biāo)注等方法，預(yù)測(cè)或標(biāo)注未標(biāo)記樣本中部分置信度較高的樣本的標(biāo)簽，從而迭代更新標(biāo)記樣本集和未標(biāo)記樣本集.這些方法通常針對(duì)具體的應(yīng)用問題專門設(shè)計(jì)，在所應(yīng)用的問題中具有特定的有益效果，其局限性主要有兩方面：(1)由于不同數(shù)據(jù)集數(shù)據(jù)內(nèi)在分布規(guī)律的差異，現(xiàn)有方法更新標(biāo)記樣本集和未標(biāo)記樣本集的規(guī)則通常并不能直接應(yīng)用于不同的數(shù)據(jù)集，特別是數(shù)據(jù)的潛在概率分布有較大差異的數(shù)據(jù)集.(2)現(xiàn)有的方法在訓(xùn)練數(shù)據(jù)集上具有一定的準(zhǔn)確性，但通常推廣性能較差，即在獨(dú)立的測(cè)試數(shù)據(jù)集上性能較差.雖然有些應(yīng)用問題本身不要求在獨(dú)立測(cè)試集上進(jìn)行分類和識(shí)別，但推廣性能差意味著在訓(xùn)練集上的分類和識(shí)別結(jié)果存在較大偏差.本發(fā)明針對(duì)上述局限性，公開了一種正類樣本標(biāo)簽全部缺失的數(shù)據(jù)處理方法，采集的數(shù)據(jù)缺失了全部正類樣本的標(biāo)簽和部分負(fù)類樣本的標(biāo)簽.技術(shù)實(shí)現(xiàn)要素：為了克服現(xiàn)有技術(shù)在不同數(shù)據(jù)集上通用性較差，以及所得到的分類器或分類方法推廣性能較差的缺陷，本發(fā)明提供一種優(yōu)化求解技術(shù)，視全部未標(biāo)記樣本為正類樣本，將其標(biāo)簽的可靠性作為待求解的決策變量，基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理建立最優(yōu)化模型，并提供有效的算法進(jìn)行求解.本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是：一種從正類樣本標(biāo)簽缺失數(shù)據(jù)訓(xùn)練分類器的方法，主要包括以下步驟：步驟1.數(shù)據(jù)預(yù)處理，將數(shù)據(jù)的每個(gè)特征轉(zhuǎn)換為數(shù)值型數(shù)據(jù)，去除冗余特征，數(shù)據(jù)歸一化；步驟2.設(shè)預(yù)處理后的訓(xùn)練樣本為其中，xi∈Rd,yi∈{-1,+1}，N為所有訓(xùn)練樣本的個(gè)數(shù).已知負(fù)類樣本點(diǎn)標(biāo)簽為“-1”，所有未標(biāo)記樣本的標(biāo)簽為“+1”.記Ω-＝{i|yi＝-1},Ω+＝{i|yi＝+1}.求解如下形式的自適應(yīng)半監(jiān)督學(xué)習(xí)模型：其中，是待求解的分類函數(shù)，是待求分類函數(shù)所屬的再生核Hilbert空間，θ＝[θ1,...,θN]T∈RN是模型待求解的決策變量，θi∈[0,1]表征第i個(gè)樣本標(biāo)簽的置信度，L(·)是損失函數(shù)，是關(guān)于θ的正則化函數(shù)，c1＞0,c2＞0,μ＞0為常數(shù).c1表示負(fù)類樣本損失的權(quán)重，c2表示未標(biāo)記樣本(正類樣本)損失的權(quán)重.步驟3.依據(jù)訓(xùn)練得出的分類器f，預(yù)測(cè)未標(biāo)記樣本的標(biāo)簽.各步驟的詳細(xì)說明：步驟1數(shù)據(jù)預(yù)處理.數(shù)據(jù)歸一化：將樣本的各個(gè)特征的數(shù)值做平移和放縮，使之成為0均值、1方差的數(shù)據(jù).若依據(jù)經(jīng)驗(yàn)已知某些特征有重要作用，可在完成上述數(shù)據(jù)歸一化操作后，對(duì)相應(yīng)特征乘以恰當(dāng)?shù)南禂?shù).步驟2.1對(duì)于非線性分類數(shù)據(jù)，選擇恰當(dāng)?shù)暮撕瘮?shù)來度量樣本的相似性.如果對(duì)數(shù)據(jù)集沒有先驗(yàn)知識(shí)，則采用高斯核函數(shù)其中σ＞0為常數(shù).步驟2.2自適應(yīng)半監(jiān)督學(xué)習(xí)模型(1)的可執(zhí)行形式.2.2.1自適應(yīng)半監(jiān)督學(xué)習(xí)模型(1)中的決策函數(shù)，依據(jù)表示定理，具有如下形式：f(x)=Σi=1Nβik(xi,x).---(2)]]>因此，f(xj)=Σi=1Nβik(xi,xj)=KjTβ,j=1,...,N---(3)]]>其中，核矩陣K＝(Kij),Kij＝k(xi,xj)，Kj表示矩陣K的第j列.2.2.2損失函數(shù)對(duì)于不同的應(yīng)用問題，采用現(xiàn)有文獻(xiàn)中公開的損失函數(shù).本發(fā)明以經(jīng)典的Hinge損失函數(shù)和平方損失函數(shù)為例，公開該模型的具體求解算法.Hinge損失具有如下形式：L(yi,f(xi))＝max(0,1-yif(xi)),i＝1,...,N.(4)平方損失具有如下形式：L(yi,f(xi))＝{max(0,1-yif(xi))}2,i＝1,...,N.(5)2.2.3正則化項(xiàng)的選取原則如下：(1)關(guān)于θ為凸函數(shù),θi∈[0,1],i＝1,...,N.(2)記則θ*(μ,l)關(guān)于l單調(diào)不增，且應(yīng)同時(shí)滿足上述兩條規(guī)則.依據(jù)該原則，可給出正則化項(xiàng)的多種形式.本發(fā)明以的兩種實(shí)用形式為例，說明模型(1)的求解方案.可按下述公式計(jì)算：或者2.2.4自適應(yīng)半監(jiān)督學(xué)習(xí)模型的具體形式依據(jù)(1)式及再生核Hilbert空間的性質(zhì)，||f||H2=<Σi=1Nβik(xi,x),Σj=1Nβjk(xj,x)>=Σi=1NΣj=1Nk(xi,xj)βiβj=βTKβ.]]>將上式及(3)，(4)式代入自適應(yīng)半監(jiān)督學(xué)習(xí)模型(1)得該模型的具體形式：其中K＝(Kij),Kij＝k(xi,xj)，p＝1或p＝2，分別對(duì)應(yīng)Hinge損失和平方損失，由(6)式或(7)式確定.2.2.5自適應(yīng)半監(jiān)督學(xué)習(xí)模型的求解方法自適應(yīng)半監(jiān)督學(xué)習(xí)模型(8)是非線性規(guī)劃問題，包含兩部分待求解的變量β∈RN，θ∈RN.對(duì)規(guī)模N≤10000的數(shù)據(jù)集，直接調(diào)用算法工具包，如Matlab的fmincon，求解.對(duì)于大規(guī)模數(shù)據(jù)集，本發(fā)明公開如下迭代算法.記模型(8)的目標(biāo)函數(shù)為算法1.交替搜索算法輸入：訓(xùn)練樣本常數(shù)c1,c2,μ；輸出：β*∈RN,θ*∈RN；步1.初始化.選取β0＝[0,...,0]T,θ0＝[1,...,1]T,置k＝0；步2.對(duì)于固定的θk，以βk為初始點(diǎn)，近似求解凸優(yōu)化問題minβF(β,θk)---(10)]]>置最優(yōu)解為βk+1；步3.對(duì)于固定的βk+1，求解凸優(yōu)化問題minθF(βk+1,θ)]]>s.t.θi＝1,i∈Ω-0≤θi≤1,i∈Ω+.(11)置最優(yōu)解為θk+1，置k:＝k+1，轉(zhuǎn)步2，直至滿足終止準(zhǔn)則.算法的流程圖見附圖1.算法的具體實(shí)施：子問題(11)的求解當(dāng)取特定形式時(shí)，子問題(11)有解析解.記li＝L(yi,f(xi)),i＝1,...,N.記子問題(11)的最優(yōu)解為θk+1，設(shè)若以(6)式確定則若以(7)式確定則子問題(10)的近似求解由子問題(10)是算法1的每次迭代的一個(gè)子問題，僅需要求解其近似解.子問題(10)可寫為其中，由(11)式定義，i＝1,...,N.該問題是一個(gè)加權(quán)的原始形式的支持向量機(jī)模型，采用求解支持向量機(jī)的算法，如SMO算法，近似求解.算法1的終止準(zhǔn)則若迭代次數(shù)超過則算法終止迭代，r1＞0為常數(shù).步驟3.預(yù)測(cè)未標(biāo)記樣本的標(biāo)簽記β*∈RN為算法1輸出的最優(yōu)解，則模型訓(xùn)練的分類函數(shù)為：f^(x)=Σi=1Nβi*k(xi,x).---(13)]]>對(duì)于樣本xk，其標(biāo)簽預(yù)測(cè)為本發(fā)明的有益效果是：：(1)樣本標(biāo)簽的可靠性作為模型待求解的決策變量，可以克服人為引入其他數(shù)據(jù)處理技術(shù)預(yù)測(cè)未標(biāo)記樣本誤差較大的缺點(diǎn).(2)在不同數(shù)據(jù)集上，特別是數(shù)據(jù)內(nèi)在概率分布差異較大的不同數(shù)據(jù)集上，本方法通用性強(qiáng).(3)訓(xùn)練所得到的分類器具有良好的推廣性能，可在獨(dú)立的測(cè)試集合上測(cè)試分類錯(cuò)誤率，從而有效避免分類器過擬合.附圖說明圖1為本發(fā)明所公開的算法1的流程圖.該算法是本發(fā)明的主體算法，它通過求解兩個(gè)子問題，交替計(jì)算βk和θk，直至迭代終止，輸出β*，并依據(jù)(13)式計(jì)算分類函數(shù)具體實(shí)施方式下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明進(jìn)一步說明.選取3個(gè)多肽鑒定數(shù)據(jù)集對(duì)所公開方法的有效性進(jìn)行測(cè)試.表1中列出了這3個(gè)數(shù)據(jù)集：yeast,ups1和tal08的樣本總數(shù)；已知負(fù)類樣本的數(shù)目；未標(biāo)記樣本的數(shù)目.每個(gè)數(shù)據(jù)集均按照1:1的比例隨機(jī)分成兩個(gè)子集合——訓(xùn)練集和測(cè)試集.本發(fā)明給出的數(shù)據(jù)處理方法在訓(xùn)練集上進(jìn)行計(jì)算，得到分類函數(shù)，并在獨(dú)立的測(cè)試集上測(cè)試分類函數(shù)的性能.對(duì)所測(cè)試的3個(gè)數(shù)據(jù)集均采用統(tǒng)一的參數(shù)設(shè)置：自適應(yīng)半監(jiān)督學(xué)習(xí)模型(8)中取μ＝5.0，c1＝c2＝1.0,采用平方損失函數(shù)，并以(6)式確定算法1的終止準(zhǔn)則中r1取值為0.5.表2列出了本發(fā)明采用的方法在訓(xùn)練集和測(cè)試集上鑒定的TP和FP的數(shù)目，其中錯(cuò)誤率＝FP/(TP+FP)取在0.025的水平.通過表2可見，該方法在訓(xùn)練集和測(cè)試集上鑒定的TP和FP的數(shù)目接近一致與“測(cè)試集樣本/樣本總數(shù)＝50％”的比例一致，說明該方法所計(jì)算的分類函數(shù)在測(cè)試集上具有良好的預(yù)測(cè)性能.另外，3個(gè)數(shù)據(jù)集未標(biāo)記樣本的分布差異較大，但該方法采用統(tǒng)一的參數(shù)設(shè)置，沒有人為干預(yù)，取得了一致的性能表現(xiàn)，表明該方法具有一定的通用性.表1數(shù)據(jù)集總計(jì)負(fù)類樣本未標(biāo)記樣本yeast1489281896703ups11733583618974tal08695602733842222表2本發(fā)明方法在訓(xùn)練集和測(cè)試集上的性能(錯(cuò)誤率＝0.025)當(dāng)前第1頁(yè)1 2 3

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：梁錫軍;夏重杭;
技術(shù)所有人：中國(guó)石油大學(xué)（華東）;
我是此專利的發(fā)明人

上一篇：口服液制劑瓶上料工具的制作方法與工藝
上一篇：一種耐候?yàn)r青路面裂縫修補(bǔ)材料的制作方法與工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種樣本標(biāo)簽缺失數(shù)據(jù)的分類器訓(xùn)練方法與流程