本發(fā)明涉及一種基于層次性多示例多標(biāo)記學(xué)習(xí)的設(shè)計方法,屬于機(jī)器學(xué)習(xí)的技術(shù)領(lǐng)域。
背景技術(shù):
監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域解決實際問題時常見的學(xué)習(xí)框架,它先對學(xué)習(xí)對象進(jìn)行特征提取,即:學(xué)習(xí)對象由一個示例(即屬性向量)描述且對應(yīng)于一個概念標(biāo)記。具體來說,令Χ為示例空間、Y為標(biāo)記空間,則學(xué)習(xí)任務(wù)就是從數(shù)據(jù)集{(x1,y1),(x2,y2)…(xm,ym)}中學(xué)得函數(shù)Χ→Y,其中xi∈X為一個示例,yi∈Y為示例xi所屬的類別標(biāo)記。
隨著監(jiān)督學(xué)習(xí)框架在多種研究領(lǐng)域的廣泛應(yīng)用,其問題亦應(yīng)運而生。因為在真實世界中多義性對象的存在:一個對象可能包含多個示例同時對應(yīng)于多個類別標(biāo)記,此時如果利用上述監(jiān)督學(xué)習(xí)框架并不能進(jìn)行很好的建模。并且僅僅用一個示例來描述學(xué)習(xí)對象往往會導(dǎo)致有用信息的丟失,降低學(xué)習(xí)的性能。舉些例子來說,在圖像分類問題中,一幅圖像往往可以分割為多個具有特定含義相對獨立的區(qū)域,每個區(qū)域都可以用一個示例來描述,這樣,一幅圖像就可以表示成多個示例組成的一個集合,與此同時該圖像往往可能同時隸屬于多個概念標(biāo)記;在文檔分類中,可以根據(jù)其各部分表達(dá)含義的不同劃分為若干部分,每個部分用一個示例來描述,這樣,一個文檔就可以表示成多個示例的集合,而該文檔在從不同的角度進(jìn)行思考時,可能同時隸屬于“政治”、“經(jīng)濟(jì)”、“文化”等多個概念類別標(biāo)記;在生物信息學(xué)中,基因或者蛋白質(zhì)的每個特征可以由一個示例進(jìn)行表示,而基因或者蛋白質(zhì)本身往往隸屬于多個生物學(xué)功能。為解決上述問題提出了多示例多標(biāo)記學(xué)習(xí)學(xué)習(xí)框架,每個訓(xùn)練樣本由多個示例組成的包描述,同時隸屬于多個類別標(biāo)記集。那么形式化地說,令Χ為示例空間而Y為標(biāo)記空間,則學(xué)習(xí)任務(wù)就是從數(shù)據(jù)集{(Χ1,Y1),(Χ2,Y2)…(ΧN,YN)}中學(xué)得函數(shù)2Χ→2Y,其中Χi∈X為一組示例yi∈Y為Χi隸屬的類別標(biāo)記此外,ni表示Χi中所含示例的個數(shù),li表示Yi所含的標(biāo)記個數(shù)。
隨著機(jī)器學(xué)習(xí)理論與應(yīng)用研究越來越深入,多示例多標(biāo)記學(xué)習(xí)顯然已經(jīng)成為機(jī)器學(xué)習(xí)領(lǐng)域熱門研究方向之一。由于多示例多標(biāo)記學(xué)習(xí)問題與現(xiàn)實應(yīng)用密切相關(guān),針對多示例多標(biāo)記學(xué)習(xí)分類問題的研究具有重要的理論和應(yīng)用價值。多示例多標(biāo)記學(xué)習(xí)是一個具有挑戰(zhàn)性的研究課題,過去主要應(yīng)用于文本分類領(lǐng)域,而現(xiàn)在引起了越來越多的研究人員的興趣,并應(yīng)用到很多新的研究領(lǐng)域,如娛樂分類、蛋白質(zhì)功能分類、Web信息挖掘、數(shù)據(jù)信息檢索以及圖像和視頻的語義分類等。
但是,目前已存在的多示例多標(biāo)記學(xué)習(xí)算法沒有考慮標(biāo)記間層次性結(jié)構(gòu),可是,現(xiàn)實很多應(yīng)用中標(biāo)記之間的關(guān)系呈現(xiàn)層次性結(jié)構(gòu)。例如,在文檔分類問題中,如果已知一篇文檔描述的是關(guān)于足球的體育類新聞,則該文檔可以標(biāo)記為新聞類、體育新聞類、足球新聞類等,可以看出標(biāo)記類別是呈現(xiàn)一定層次性結(jié)構(gòu)的。若標(biāo)記為體育新聞類,則該文檔同時標(biāo)記為休閑新聞類的可能性將大于標(biāo)記為政治新聞類的可能性。再比如,如果已知一段視頻或一幅圖像標(biāo)記為“野生動物”類,則該視頻或圖像同時標(biāo)記為“草原”類的可能性將大于其標(biāo)記為“城市”類的可能性。所以,隨著在多示例多標(biāo)記學(xué)習(xí)領(lǐng)域的研究深入,迫切需要挖掘出一種能應(yīng)用于層次性多示例多標(biāo)記學(xué)習(xí)的算法。層次性結(jié)構(gòu)一般分為:樹形(tree)或者有向無環(huán)圖(DAG)結(jié)構(gòu),他們的不同之處在于,DAG結(jié)構(gòu)中節(jié)點可以有多個父節(jié)點,最典型的例子就是:蛋白質(zhì)的GO(即基因本體學(xué))功能信息呈現(xiàn)DAG結(jié)構(gòu)。GO是用于描述蛋白質(zhì)的功能信息的,它主要從分子功能、生物學(xué)過程、細(xì)胞組分三個方面描述蛋白質(zhì)信息,每一方面都呈現(xiàn)出有向無環(huán)圖結(jié)構(gòu)。而本發(fā)明能夠很好地解決上面問題。
技術(shù)實現(xiàn)要素:
本發(fā)明目的在于解決了已有的多示例多標(biāo)記學(xué)習(xí)方法沒有考慮標(biāo)記間層次性結(jié)構(gòu)關(guān)系的問題,設(shè)計出一種將多示例單示例化方法、多標(biāo)記學(xué)習(xí)與標(biāo)記間層次性結(jié)構(gòu)的優(yōu)化方法集合到一個框架中的新的層次性多示例多標(biāo)記學(xué)習(xí)設(shè)計方法及系統(tǒng)框架。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:本發(fā)明將多示例單示例化方法、多標(biāo)記學(xué)習(xí)與標(biāo)記間層次性結(jié)構(gòu)的優(yōu)化方法統(tǒng)一到一個框架中,提出了一種全新的層次性多示例多標(biāo)記學(xué)習(xí)設(shè)計方法。它充分利用各訓(xùn)練樣本所包含標(biāo)記之間的層次性關(guān)系,有效地預(yù)測新樣本的標(biāo)記集合,為多種應(yīng)用提供了有效的解決思路。我們提出的層次性多示例多標(biāo)記學(xué)習(xí)設(shè)計方法主要考慮了如下問題:
1)為現(xiàn)實中存在的多種層次性多示例多標(biāo)記學(xué)習(xí)任務(wù)第一次提出詳細(xì)的解決方案;
2)完善層次性標(biāo)記的代價損失函數(shù),保證了每一層被錯分結(jié)點的代價權(quán)重不一樣,同時縮小了在每個被錯分結(jié)點上代價損失之間的差距,體現(xiàn)了層與層之間代價損失數(shù)值的合理性方法。
方法流程:
步驟1:給定輸入多示例多標(biāo)記訓(xùn)練數(shù)據(jù)集:
D={(Xi,Yi)|1≤i≤N},包含ni個樣本示例(每個樣本包含示例個數(shù)可能不一樣,每個示例為d維),Yi={yi,1,…,yi,n}為第i樣本包的標(biāo)記,以及多示例測試集T={Xt},
步驟2:所有樣本包Xi,以及測試包Xt進(jìn)行多示例單示例化,將原始的多示例樣本包壓縮為(2d+1)K維單示例向量;
步驟3:基于步驟2中將多示例樣本包轉(zhuǎn)化為單示例向量,從而將多示例多標(biāo)記學(xué)習(xí)問題轉(zhuǎn)換為多標(biāo)記學(xué)習(xí)問題;
步驟4:給定測試集T,通過多標(biāo)記學(xué)習(xí)算法,得到每一個測試樣本Xt的預(yù)測類別標(biāo)記
步驟5:結(jié)合標(biāo)記之間層次性結(jié)構(gòu)的關(guān)系重新優(yōu)化、調(diào)參,得到最終的層次性結(jié)構(gòu)的標(biāo)記集合這就是測試樣本Xt的層次性類別標(biāo)記集。即:分類結(jié)果。
進(jìn)一步地,本發(fā)明的方法包括多示例單示例化、多標(biāo)記學(xué)習(xí)、層次性結(jié)點被錯誤分類的代價優(yōu)化、標(biāo)記間層次性結(jié)構(gòu)的優(yōu)化。
進(jìn)一步地,本發(fā)明所述的多示例轉(zhuǎn)化為單示例問題,雖然多示例描述包的信息相對比較完整,但是示例假設(shè)空間復(fù)雜度較高,所以將多示例轉(zhuǎn)化為能最大程度保留包的信息的單示例向量,從而將復(fù)雜的多示例多標(biāo)記學(xué)習(xí)問題轉(zhuǎn)化為多標(biāo)記學(xué)習(xí)問題,將算法的計算復(fù)雜度充分降低。
進(jìn)一步地,本發(fā)明所述的多標(biāo)記學(xué)習(xí)問題,是利用分類準(zhǔn)則對訓(xùn)練集進(jìn)行統(tǒng)計和分析,然后基于得到的統(tǒng)計信息,通過“最大后驗概率(maximum a posteriori,MAP)”準(zhǔn)則預(yù)測新樣本的標(biāo)記集合。
進(jìn)一步地,本發(fā)明所述的層次性被錯分結(jié)點的代價損失,是將層次性結(jié)構(gòu)中所有被錯分結(jié)點信息考慮在內(nèi),確保同層結(jié)點代價損失不同,通過sigmoid函數(shù):之后,縮小了每個被錯分結(jié)點上代價損失之間的差距,合理優(yōu)化了代價損失的數(shù)值,間接提高了模型的預(yù)測性能。
進(jìn)一步地,本發(fā)明所述的步驟4預(yù)測出的測試樣本的標(biāo)記集,再結(jié)合標(biāo)記的層次性結(jié)構(gòu),重新優(yōu)化、調(diào)參,最終預(yù)測出測試樣本的層次性標(biāo)記集合。
本發(fā)明還提供了層次性多示例多標(biāo)記學(xué)習(xí)的設(shè)計系統(tǒng),該系統(tǒng)主要包括多示例單示例化模塊、多標(biāo)記學(xué)習(xí)模塊、標(biāo)記間層次性結(jié)構(gòu)的優(yōu)化模塊。
多示例單示例化模塊的功能是將多示例學(xué)習(xí)的樣本包映射為一個新的能夠最大程度保留包信息的向量表示,簡化示例空間的復(fù)雜度,從而將多示例多標(biāo)記學(xué)習(xí)問題退化為多標(biāo)記學(xué)習(xí)問題。
多標(biāo)記學(xué)習(xí)模塊的功能是根據(jù)訓(xùn)練數(shù)據(jù)建立模型,來預(yù)測新樣本的類別標(biāo)記集合。
標(biāo)記間層次性結(jié)構(gòu)的優(yōu)化模塊的功能是將由多標(biāo)記學(xué)習(xí)得到的預(yù)測結(jié)果,結(jié)合標(biāo)記的層次性結(jié)構(gòu),重新優(yōu)化、調(diào)參,最終得到新樣本的層次性標(biāo)記集合。
有益效果:
1、本發(fā)明完成了多示例多標(biāo)記學(xué)習(xí)與層次性結(jié)構(gòu)的統(tǒng)一,解決了標(biāo)記之間的關(guān)系呈現(xiàn)層次性結(jié)構(gòu)的多示例多標(biāo)記學(xué)習(xí)問題。
2、本發(fā)明解決了層次性多示例多標(biāo)記學(xué)習(xí)中,每個被錯分節(jié)點代價損失的優(yōu)化問題,并且合理利用損失函數(shù),把每個被錯分結(jié)點的信息都考慮在內(nèi)。
3、本發(fā)明考慮了標(biāo)記間層次性關(guān)系,提升了多示例多標(biāo)記算法的學(xué)習(xí)效率,提高了分類的準(zhǔn)確度。
附圖說明
圖1為本發(fā)明系統(tǒng)的架構(gòu)圖。
圖2為本發(fā)明的方法流程圖。
圖3-a為層次性結(jié)構(gòu)為樹形時的方法流程圖。
圖3-b位層次性結(jié)構(gòu)為有向無環(huán)圖時的方法流程圖。
具體實施方式
下面結(jié)合說明書附圖對本發(fā)明創(chuàng)造作進(jìn)一步的詳細(xì)說明。
實施例一
如圖1所示,本發(fā)明提供了層次性多示例多標(biāo)記學(xué)習(xí)的設(shè)計系統(tǒng),該系統(tǒng)包括多示例單示例化模塊的功能、多標(biāo)記學(xué)習(xí)模塊的功能、層次性被錯分結(jié)點的代價優(yōu)化模塊、標(biāo)記間層次性結(jié)構(gòu)的優(yōu)化模塊。
多示例單示例化模塊的功能是將多示例學(xué)習(xí)的樣本包映射為一個新的能夠最大程度保留包信息的向量表示,簡化示例空間的復(fù)雜度,從而將多示例多標(biāo)記學(xué)習(xí)問題退化為多標(biāo)記學(xué)習(xí)問題。
多標(biāo)記學(xué)習(xí)模塊的功能是根據(jù)訓(xùn)練數(shù)據(jù)建立模型,預(yù)測新樣本的類別標(biāo)記集合。在特征空間中,如果一個樣本的k個最相似的樣本中的大多數(shù)都屬于某一個類別,則該樣本也屬于這個類別。它是利用分類準(zhǔn)則對訓(xùn)練集進(jìn)行統(tǒng)計和分析,然后基于得到的統(tǒng)計信息,通過“最大后驗概率”準(zhǔn)則預(yù)測新的標(biāo)記集合。
層次性被錯分結(jié)點的代價優(yōu)化模塊考慮了所有被錯分節(jié)點的代價損失,從而提高了分類器的泛化性能。保證了每一層被錯分結(jié)點的代價權(quán)重不一樣,同時縮小了每個被錯分結(jié)點上代價損失之間的差距,體現(xiàn)了層與層之間代價損失數(shù)值的合理性。
標(biāo)記間層次性結(jié)構(gòu)的優(yōu)化模塊的功能是將由多標(biāo)記學(xué)習(xí)得到的預(yù)測結(jié)果,結(jié)合標(biāo)記的層次性結(jié)構(gòu),重新優(yōu)化、調(diào)參,最終得到新樣本的層次性標(biāo)記集合。
如圖2所示,本發(fā)明提供了一種基于層次性的多示例多標(biāo)記學(xué)習(xí)設(shè)計的設(shè)計方法,該方法具體實施步驟包括如下:
1、多示例樣本包單示例化
多示例轉(zhuǎn)化為單示例過程:對于多示例學(xué)習(xí),一個樣本是由多個示例組成的示例包。該過程是將多示例學(xué)習(xí)的樣本包映射為一個新的能夠最大程度保留包信息的向量表示,從而將多示例多標(biāo)記學(xué)習(xí)問題轉(zhuǎn)化為多標(biāo)記學(xué)習(xí)問題。
以下就是本發(fā)明將多示例包映射為單一向量的映射函數(shù)的求取過程:
給定任意樣本包由于包中的示例是獨立同分布的,使用高斯混合模型(GMM)描述如下:
其中Ω={ωk,μk,Σk,k=1,…,k}是GMM的參數(shù),ωk是混合權(quán)重,μk是平均向量,∑k是第k個高斯過程的協(xié)方差對角矩陣,是相應(yīng)的方差向量。pk是第k高斯過程,表示如下:
對(1.1)式關(guān)于Ω求梯度并歸一化:
注意到,樣本包Xi中示例的維度是d,是標(biāo)量,和都是d維向量,那么映射函數(shù)以高斯混合模型p將樣本包Xi映射為組成的(2d+1)K-維的Fisher向量過程如下:
1)在樣本數(shù)據(jù)上使用最大似然估計(MLE)確定GMM參數(shù)Ω。
2)將所有的樣本包映射為單一向量。
3)對得到的單一向量進(jìn)行L2范數(shù)標(biāo)準(zhǔn)化處理。
通過以上方法,本發(fā)明首先將所有樣本包轉(zhuǎn)化為單一向量的單示例表示。
2、多標(biāo)記模型構(gòu)建
上述1中已將多示例樣本包轉(zhuǎn)化為單示例向量,從而問題退化為多標(biāo)記學(xué)習(xí),本發(fā)明使用的多標(biāo)記學(xué)習(xí)算法是一種惰性學(xué)習(xí)算法,它并沒有在整個樣本空間上一次性地估計目標(biāo)函數(shù),而是針對每個待分類樣本做出局部的和相異的估計。
本發(fā)明的方法是一種惰性學(xué)習(xí)方法。該方法的思想是:在特征空間中,如果一個樣本的k個最相似(即最鄰近)的樣本中的大多數(shù)都屬于某一個類別,則該樣本也屬于這個類別。它是利用分類準(zhǔn)則對訓(xùn)練集進(jìn)行統(tǒng)計和分析,然后基于得到的統(tǒng)計信息,通過“最大后驗概率”準(zhǔn)則預(yù)測未見示例的標(biāo)記集合。
給定包含q個標(biāo)記的多標(biāo)記訓(xùn)練集D={(x1,Y1),...,(xm,Ym)},對于未知樣本x的標(biāo)記矢量表示為:其中表示第j個標(biāo)記,如果j∈Y,否則為0。假設(shè)Ν(x)表示x在訓(xùn)練集中的k個近鄰樣本構(gòu)成的集合,對于第j個標(biāo)記y(j)(1≤j≤q),該算法首先計算N(x)中屬于標(biāo)記y(j)的樣本個數(shù)Cj:
令Ej表示樣本x屬于標(biāo)記y(j)的事件(Event),Ρ(Ej|Cj)表示當(dāng)x的k近鄰集合Ν(x)中有Cj個樣本屬于標(biāo)記y(j)的條件下,事件Ej成立的后驗概率,相反的,P(-Ej|Cj)表示N(x)中有Cj個樣本屬于標(biāo)記y(j)的條件下,事件Ej不成立的后驗概率?;谧畲蠛篁灨怕蕼?zhǔn)則即可得到多標(biāo)記分類器,表達(dá)式如下:
Y={y(j)|f(x,y(j))=Ρ(Ej|Cj)/Ρ(-Ej|Cj)>1,1≤j≤q} (2.2)
由于后驗概率難以直接計算,基于貝葉斯定理,可將其轉(zhuǎn)換為求先驗概率和條件概率:
P(Ej|Cj)=P(Ej)×P(Cj|Ej)/P(Cj) (2.3)
因此,多標(biāo)記函數(shù)可重寫為:
多標(biāo)記分類器可重寫為:
Y={yj|P(Ej)×P(Cj|Ej)/P(-Ej)×P(Cj|-Ej)>1,1≤j≤q} (2.5)
其中,Ρ(Ej)表示事件Ej成立時的先驗概率,P(-Ej)表示事件Ej不成立時的先驗概率,P(Cj|Ej)表示事件Ej成立時,近鄰集合N(x)中有Cj個樣本屬于標(biāo)記y(j)的條件概率。
先驗概率和條件概率可基于對訓(xùn)練集進(jìn)行頻率計數(shù)的方式進(jìn)行估計。先驗概率利用統(tǒng)計訓(xùn)練集中屬于每個標(biāo)記的樣本數(shù)估計得到:
其中,s是平滑參數(shù),用以控制均勻分布在概率估計時的權(quán)重,一般設(shè)為1對應(yīng)Laplace平滑。
條件概率的估計方式較為復(fù)雜,首先需要計算出兩個數(shù)組:
其中δj(xi)與式(2.1)中定義的Cj類似,統(tǒng)計了樣本xi的k近鄰中屬于標(biāo)記y(j)的樣本個數(shù)。κj[r]統(tǒng)計了屬于標(biāo)記y(j)且其k近鄰集合中恰好有r個近鄰屬于標(biāo)記y(j)的訓(xùn)練樣本的個數(shù),相反統(tǒng)計了不屬于標(biāo)記y(j)但其k近鄰集合中恰好有r個近鄰屬于標(biāo)記y(j)的訓(xùn)練樣本的個數(shù)。條件概率估計如下:
通過以上多標(biāo)記學(xué)習(xí)方法,可以得到給定新樣本的標(biāo)記集合即在每
個標(biāo)記節(jié)點上的輸出值:pi
3、層次性結(jié)構(gòu)構(gòu)建學(xué)習(xí)方法
代價函數(shù)優(yōu)化過程:層次性多標(biāo)記學(xué)習(xí)允許一個樣本屬于多個類別標(biāo)記,標(biāo)記之間的關(guān)系可以呈現(xiàn)層次性結(jié)構(gòu),其中層次中每個節(jié)點的代價損失是學(xué)習(xí)的重點,過去常用的每個節(jié)點的代價損失權(quán)重是:ci=cpa(i)/nsibl(i)(i為除根結(jié)點外的結(jié)點,pa(i)表示i的父節(jié)點,nsibl(i)統(tǒng)計i的兄弟姐妹的個數(shù)),常用損失函數(shù)為漢明損失:這樣計算結(jié)點代價損失,可能會有如下問題:
1)已知的樣本標(biāo)記信息都是葉子結(jié)點,由于不同葉子結(jié)點的結(jié)點深度不一樣,所以ci實際差距不是呈現(xiàn)倍數(shù)關(guān)系
2)每個結(jié)點直接使用公式cpa(i)/nsibl(i)計算ci,不是實際情況
3)層次性結(jié)構(gòu)層數(shù)深,很多節(jié)點的子節(jié)點數(shù)量多,如果使用公式
cpa(i)/nsibl(i)計算ci,那么往往忽略了深層被錯分節(jié)點的ci
所以,我們提出了一種有效的解決方法,再將ci通過一個sigmoid函數(shù):這樣保證了每一層被錯分結(jié)點的代價權(quán)重不一樣,同時縮小了每個被錯分結(jié)點上代價損失之間的差距,體現(xiàn)了層與層之間代價損失數(shù)值的合理性。
層次性結(jié)構(gòu)構(gòu)建過程:給定測試樣本xt,由上述2)可以得到xt的標(biāo)記集合在該方法中,考慮標(biāo)記之間的層次性結(jié)構(gòu),重新優(yōu)化調(diào)參,最終得到樣例的層次性標(biāo)記集合。其中一個關(guān)鍵的步驟就是找到滿足以下問題的多標(biāo)記集合
●與上述2)中粗略估計的標(biāo)記集合最大程度相似
●滿足標(biāo)記的層次性結(jié)構(gòu)
●預(yù)先設(shè)定的正標(biāo)記個數(shù)為:L
對于每個標(biāo)記結(jié)點:
δ(i)=ci(αpi-β(1-pi)) (3.1)
其中pi是樣例xt在每個標(biāo)記結(jié)點上的輸出值,那么優(yōu)化δ(i),使其最大化,就能得到樣本xt的L個正標(biāo)記集合{n1,n2…nL},也即優(yōu)化如下公式:
引入一個二進(jìn)制指示函數(shù)θ(i)∈{0,1},θ(i)=1表示樣本有第i個標(biāo)記,θ(i)=0表示樣本不具有標(biāo)記i。則式(3.2)可重寫為:其中由于標(biāo)記的層次性約束有兩類:tree、DAG,那么相應(yīng)的優(yōu)化問題分以下兩種:
a)標(biāo)記之間的關(guān)系呈現(xiàn)tree結(jié)構(gòu)時,優(yōu)化問題可重寫為:
偽代碼如下:
b)標(biāo)記之間的關(guān)系呈現(xiàn)DAG結(jié)構(gòu)時,優(yōu)化問題可重寫為:
偽代碼如下:
說明:1)SNV是指超結(jié)點S中所有結(jié)點pi值和的均值。
2)由二進(jìn)制指示函數(shù)θ(i),將θ(i)=1的所有節(jié)點在最后迭代中被選擇出來,即樣本xt的相關(guān)標(biāo)記集合{n1,n2…nL}。由于部分θ(i)是小數(shù)形式,它的處理根據(jù)不同應(yīng)用而定,因為我們著重得到:召回率-精度曲線,所以我們把小數(shù)形式的結(jié)點也當(dāng)作正標(biāo)記處理,那么,最終得到樣本xt的正標(biāo)記個數(shù)就會大于L。
本發(fā)明所解決的問題包括如下:
(1)更新層次性標(biāo)記結(jié)點的代價權(quán)重,把每個被錯分結(jié)點的信息都考慮在內(nèi)
由于每個錯分結(jié)點都代表了分類器的認(rèn)知能力,所以定義好每個節(jié)點的代價函數(shù)是學(xué)習(xí)層次性多示例多標(biāo)記問題的重點。過去考慮層次之間代價信息呈現(xiàn)倍數(shù)關(guān)系,但是由于每個節(jié)點所在層次以及所含子節(jié)點數(shù)目不盡相同,如果只是呈現(xiàn)倍數(shù)關(guān)系過于簡化,所以我們提出再通過sigmoid函數(shù),一方面考慮了所有錯分結(jié)點的代價損失,另一方面也體現(xiàn)了其數(shù)值的合理性。
(2)完成了多示例多標(biāo)記學(xué)習(xí)與層次性結(jié)構(gòu)的統(tǒng)一,提高了多示例多標(biāo)記學(xué)習(xí)模型的預(yù)測性能
傳統(tǒng)的多示例多標(biāo)記學(xué)習(xí)算法中沒有將標(biāo)記之間的層次性結(jié)構(gòu)考慮在內(nèi),建立模型時雖然考慮了標(biāo)記之間的相關(guān)性,但是標(biāo)記之間具體呈現(xiàn)怎樣的結(jié)構(gòu)沒有考慮清楚,所以構(gòu)建的模型準(zhǔn)確率較低。本發(fā)明中將標(biāo)記之間的層次性結(jié)構(gòu)引入計算中,充分考慮標(biāo)記之間的相互影響,結(jié)合由惰性多標(biāo)記算法得到的標(biāo)記集合,重新優(yōu)化調(diào)參,最終得到層次性結(jié)構(gòu)的標(biāo)記集合。
實施例二
本發(fā)明的算法偽代碼如下:
。