本發(fā)明涉及多標(biāo)簽主動(dòng)學(xué)習(xí)
技術(shù)領(lǐng)域:
,特別是涉及一種基于條件依賴標(biāo)簽集的多標(biāo)簽主動(dòng)學(xué)習(xí)方法。
背景技術(shù):
:隨著計(jì)算機(jī)的快速發(fā)展,多標(biāo)簽圖像分類的研究已經(jīng)成為相關(guān)領(lǐng)域研究的熱點(diǎn),在學(xué)術(shù)界和企業(yè)界受到越來越多的關(guān)注。多標(biāo)簽主動(dòng)學(xué)習(xí)方法的作用是處理多標(biāo)簽圖像的分類問題,即通過學(xué)習(xí)得到一個(gè)分類器,該分類器能夠根據(jù)圖像的內(nèi)容為圖像分配多個(gè)相關(guān)的標(biāo)簽。目前,多標(biāo)簽主動(dòng)學(xué)習(xí)領(lǐng)域的研究主流是針對(duì)基于“樣本-標(biāo)簽對(duì)”的多標(biāo)簽主動(dòng)學(xué)習(xí)方法的研究。因?yàn)橄啾容^基于“樣本”的多標(biāo)簽主動(dòng)學(xué)習(xí)方法,基于“樣本-標(biāo)簽對(duì)”的多標(biāo)簽主動(dòng)學(xué)習(xí)方法不僅能更大程度上提升主動(dòng)學(xué)習(xí)效率,降低訓(xùn)練集空間的樣本冗余,也能最大程度上降低人工標(biāo)記的代價(jià),因此基于“樣本-標(biāo)簽對(duì)”的多標(biāo)簽主動(dòng)學(xué)習(xí)方法逐漸成為研究的熱點(diǎn)之一。但是,所有的基于“樣本-標(biāo)簽對(duì)”的多標(biāo)簽主動(dòng)學(xué)習(xí)方法都不可避免地面臨著“弱標(biāo)記”問題和標(biāo)簽間依賴關(guān)系丟失問題,即隨著主動(dòng)學(xué)習(xí)過程的不斷迭代,訓(xùn)練樣本中存在著大量不完全標(biāo)記的樣本,而這些不完全標(biāo)記的樣本,從一定程度上對(duì)標(biāo)簽關(guān)系的挖掘存在著重要的影響。而已有研究表明標(biāo)簽關(guān)系在很大程度上影響著多標(biāo)簽主動(dòng)學(xué)習(xí)的采樣策略,進(jìn)而影響主動(dòng)學(xué)習(xí)結(jié)果。因此,如何解決基于“樣本-標(biāo)簽對(duì)”的多標(biāo)簽主動(dòng)學(xué)習(xí)方法過程中遇到的樣本“弱標(biāo)記”問題,或者如何在“弱標(biāo)記”條件下挖掘并利用標(biāo)簽關(guān)系是本領(lǐng)域技術(shù)人員亟待解決的問題。技術(shù)實(shí)現(xiàn)要素:本發(fā)明的目的是提供一種基于條件依賴標(biāo)簽集的多標(biāo)簽主動(dòng)學(xué)習(xí)方法,用于解決基于“樣本-標(biāo)簽對(duì)”的多標(biāo)簽主動(dòng)學(xué)習(xí)方法過程中遇到的樣本“弱標(biāo)記”問題,或者在“弱標(biāo)記”條件下挖掘并利用標(biāo)簽關(guān)系以進(jìn)行主動(dòng)學(xué)習(xí)。為解決上述技術(shù)問題,本發(fā)明提供一種基于條件依賴標(biāo)簽集的多標(biāo)簽主動(dòng)學(xué)習(xí)方法,包括:獲取原始樣本對(duì)應(yīng)的標(biāo)簽集合,計(jì)算所述標(biāo)簽集合中各標(biāo)簽與其余標(biāo)簽的依賴結(jié)果以得到各標(biāo)簽對(duì)應(yīng)的條件依賴標(biāo)簽集;計(jì)算各樣本-標(biāo)簽對(duì)對(duì)應(yīng)的信息熵,并利用所述條件依賴標(biāo)簽集計(jì)算各樣本-標(biāo)簽對(duì)的相對(duì)熵;整合各所述信息熵和各所述相對(duì)熵得到對(duì)應(yīng)的各樣本-標(biāo)簽對(duì)的信息量;篩選出信息量最大的樣本-標(biāo)簽對(duì)作為預(yù)先建立的主動(dòng)學(xué)習(xí)模型的輸入對(duì)象,并進(jìn)行主動(dòng)學(xué)習(xí)。優(yōu)選地,所述計(jì)算所述標(biāo)簽集合中各標(biāo)簽與其余標(biāo)簽的依賴結(jié)果以得到各標(biāo)簽對(duì)應(yīng)的條件依賴標(biāo)簽集具體包括:在所述標(biāo)簽集合中按照預(yù)處理規(guī)則篩選出存在依賴關(guān)系的各對(duì)標(biāo)簽;分別為各對(duì)標(biāo)簽構(gòu)建多個(gè)基于概率分布的二類分類器模型;在所述標(biāo)簽集合上進(jìn)行k次交叉驗(yàn)證,分別獲取各所述二類分類器模型與對(duì)應(yīng)的標(biāo)簽的k次平均分類準(zhǔn)確率;按照t-檢驗(yàn)計(jì)算各標(biāo)簽得到的所述k次分均分類準(zhǔn)確率的t-檢驗(yàn)值,并將各標(biāo)簽間的最大的t-檢驗(yàn)值作為所述依賴結(jié)果;其中,若所述依賴結(jié)果大于0,則當(dāng)前兩個(gè)標(biāo)簽存在條件依賴關(guān)系。優(yōu)選地,所述二類分類器模型的數(shù)量為四個(gè)。優(yōu)選地,所述信息熵具體通過當(dāng)前分類器模型對(duì)當(dāng)前樣本-標(biāo)簽對(duì)的預(yù)測概率值得到。優(yōu)選地,所述相對(duì)熵具體通過kl散度方式得到。本發(fā)明所提供的基于條件依賴標(biāo)簽集的多標(biāo)簽主動(dòng)學(xué)習(xí)方法,首先挖掘出弱標(biāo)記條件下的各標(biāo)簽的條件依賴標(biāo)簽集,并在條件依賴標(biāo)簽集的基礎(chǔ)上,計(jì)算各樣本-標(biāo)簽對(duì)的信息熵和相對(duì)熵,然后整合信息熵和相對(duì)熵之后得到對(duì)應(yīng)的各樣本-標(biāo)簽對(duì)的信息量,最后篩選出信息量最大的樣本-標(biāo)簽對(duì)作為主動(dòng)學(xué)習(xí)模型的輸入對(duì)象。通過實(shí)驗(yàn)表明,該主動(dòng)學(xué)習(xí)方法相對(duì)于其他弱標(biāo)記條件下挖掘標(biāo)簽間關(guān)系的方法具有良好的泛化性能。附圖說明為了更清楚地說明本發(fā)明實(shí)施例,下面將對(duì)實(shí)施例中所需要使用的附圖做簡單的介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實(shí)施例提供的一種基于條件依賴標(biāo)簽集的多標(biāo)簽主動(dòng)學(xué)習(xí)方法的流程圖;圖2為本發(fā)明實(shí)施例提供的一種弱標(biāo)記條件下的各對(duì)標(biāo)簽的條件依賴關(guān)系的挖掘示意圖;圖3為本發(fā)明實(shí)施例提供的在數(shù)據(jù)集flags上的accuracy的對(duì)比圖;圖4為本發(fā)明實(shí)施例提供的在數(shù)據(jù)集scene上的accuracy的對(duì)比圖;圖5為本發(fā)明實(shí)施例提供的在數(shù)據(jù)集nus_wide上的accuracy的對(duì)比圖;圖6為本發(fā)明實(shí)施例提供的在數(shù)據(jù)集corel5k上的macro-f1的對(duì)比圖;圖7為本發(fā)明實(shí)施例提供的在數(shù)據(jù)集yeast上的macro-f1的對(duì)比圖;圖8為本發(fā)明實(shí)施例提供的在數(shù)據(jù)集emotions上的macro-f1的對(duì)比圖;圖9為本發(fā)明實(shí)施例提供的在數(shù)據(jù)集flags上的macro-f1的對(duì)比圖;圖10為本發(fā)明實(shí)施例提供的在數(shù)據(jù)集scene上的macro-f1的對(duì)比圖;圖11為本發(fā)明實(shí)施例提供的在數(shù)據(jù)集nus_wide上的macro-f1的對(duì)比圖;圖12為本發(fā)明實(shí)施例提供的在數(shù)據(jù)集corel5k上的macro-f1的對(duì)比圖;圖13為本發(fā)明實(shí)施例提供的在數(shù)據(jù)集yeast上的macro-f1的對(duì)比圖;圖14為本發(fā)明實(shí)施例提供的在數(shù)據(jù)集emotions上的macro-f1的對(duì)比圖;圖15為本發(fā)明實(shí)施例提供的在數(shù)據(jù)集flags上的micro-f1的對(duì)比圖;圖16為本發(fā)明實(shí)施例提供的在數(shù)據(jù)集scene上的micro-f1的對(duì)比圖;圖17為本發(fā)明實(shí)施例提供的在數(shù)據(jù)集nus_wide上的micro-f1的對(duì)比圖;圖18為本發(fā)明實(shí)施例提供的在數(shù)據(jù)集corel5k上的micro-f1的對(duì)比圖;圖19為本發(fā)明實(shí)施例提供的在數(shù)據(jù)集yeast上的micro-f1的對(duì)比圖;圖20為本發(fā)明實(shí)施例提供的在數(shù)據(jù)集emotions上的micro-f1的對(duì)比圖。具體實(shí)施方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下,所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)范圍。本發(fā)明的核心是提供一種基于條件依賴標(biāo)簽集的多標(biāo)簽主動(dòng)學(xué)習(xí)方法,用于解決基于“樣本-標(biāo)簽對(duì)”的多標(biāo)簽主動(dòng)學(xué)習(xí)方法過程中遇到的樣本“弱標(biāo)記”問題,或者在“弱標(biāo)記”條件下挖掘并利用標(biāo)簽關(guān)系以進(jìn)行主動(dòng)學(xué)習(xí)。為了使本
技術(shù)領(lǐng)域:
的人員更好地理解本發(fā)明方案,下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說明。需要說明的是,本發(fā)明中提到的“弱標(biāo)記”是指對(duì)于一個(gè)樣本來說,其已被標(biāo)記的標(biāo)簽數(shù)量小于總的標(biāo)簽數(shù)量。例如,當(dāng)前標(biāo)簽集合中包含3個(gè)標(biāo)簽,分別是標(biāo)簽1、標(biāo)簽2和標(biāo)簽3,那對(duì)于樣本1來說,也可能含有這3個(gè)標(biāo)簽。但是分類后,樣本1中只有標(biāo)簽1和標(biāo)簽2被標(biāo)記,而標(biāo)簽3未被標(biāo)記,則樣本1存在弱標(biāo)記問題。圖1為本發(fā)明實(shí)施例提供的一種基于條件依賴標(biāo)簽集的多標(biāo)簽主動(dòng)學(xué)習(xí)方法的流程圖。如圖1所示,該方法包括:s10:獲取原始樣本對(duì)應(yīng)的標(biāo)簽集合,計(jì)算所述標(biāo)簽集合中各標(biāo)簽與其余標(biāo)簽的依賴結(jié)果以得到各標(biāo)簽對(duì)應(yīng)的條件依賴標(biāo)簽集。s11:計(jì)算各樣本-標(biāo)簽對(duì)對(duì)應(yīng)的信息熵,并利用所述條件依賴標(biāo)簽集計(jì)算各樣本-標(biāo)簽對(duì)的相對(duì)熵。s12:整合各所述信息熵和各所述相對(duì)熵得到對(duì)應(yīng)的各樣本-標(biāo)簽對(duì)的信息量。s13:篩選出信息量最大的樣本-標(biāo)簽對(duì)作為預(yù)先建立的主動(dòng)學(xué)習(xí)模型的輸入對(duì)象,并進(jìn)行主動(dòng)學(xué)習(xí)。需要說明的是,本發(fā)明所要解決的主要問題是如何為主動(dòng)學(xué)習(xí)模型選擇較好的輸入對(duì)象,從而提高學(xué)習(xí)的精度,因此主動(dòng)學(xué)習(xí)模型的建立請(qǐng)參見現(xiàn)有技術(shù),本發(fā)明不再贅述。步驟s10的作用就是原始樣本如果存在弱標(biāo)記的問題,則如何在標(biāo)簽集合中挖掘各對(duì)標(biāo)簽的條件依賴關(guān)系。作為優(yōu)選地實(shí)施方式,步驟s10具體包括如下幾個(gè)步驟:s100:在標(biāo)簽集合中按照預(yù)處理規(guī)則篩選出存在依賴關(guān)系的各對(duì)標(biāo)簽;s101:分別為各對(duì)標(biāo)簽構(gòu)建多個(gè)基于概率分布的二類分類器模型;s102:在標(biāo)簽集合上進(jìn)行k次交叉驗(yàn)證,分別獲取各二類分類器模型與對(duì)應(yīng)的標(biāo)簽的k次平均分類準(zhǔn)確率;s103:按照t-檢驗(yàn)計(jì)算各標(biāo)簽得到的k次分均分類準(zhǔn)確率的t-檢驗(yàn)值,并將各標(biāo)簽間的最大的t-檢驗(yàn)值作為依賴結(jié)果;其中,若依賴結(jié)果大于0,則當(dāng)前兩個(gè)標(biāo)簽存在條件依賴關(guān)系。為了讓本領(lǐng)域技術(shù)人員更加清楚步驟s10,給出圖2。圖2為本發(fā)明實(shí)施例提供的一種弱標(biāo)記條件下的各對(duì)標(biāo)簽的條件依賴關(guān)系的挖掘示意圖。通過步驟s10不僅能判斷每對(duì)標(biāo)簽之間的是否存在條件依賴關(guān)系,還給出了每對(duì)標(biāo)簽之間條件依賴的量化方式即依賴程度。如圖2所示,條件依賴關(guān)系的挖掘主要包括三個(gè)部分:數(shù)據(jù)預(yù)處理(對(duì)應(yīng)步驟s100)、模型構(gòu)建(s101-s102)以及標(biāo)簽間條件依賴量化(s103)。數(shù)據(jù)預(yù)處理是專門針對(duì)弱標(biāo)記多標(biāo)簽數(shù)據(jù)進(jìn)行處理的過程,主要任務(wù)為每對(duì)可能存在依賴關(guān)系的標(biāo)簽挑選可用于挖掘標(biāo)簽條件依賴關(guān)系的數(shù)據(jù),同時(shí)剔除無法用于挖掘標(biāo)簽關(guān)系的數(shù)據(jù),如圖2中數(shù)據(jù)預(yù)處理環(huán)節(jié)所示。數(shù)據(jù)預(yù)處理過程如下:假設(shè)現(xiàn)存在一個(gè)標(biāo)簽空間大小為l的標(biāo)簽集合,數(shù)據(jù)預(yù)處理第一步就是對(duì)數(shù)據(jù)進(jìn)行拆分和重構(gòu),由于該標(biāo)簽空間大小為l的標(biāo)簽集合一共存在l(l-1)/2個(gè)標(biāo)簽對(duì),因此需要將標(biāo)簽集合拆分成l(l-1)/2組包含對(duì)應(yīng)標(biāo)簽信息的數(shù)據(jù)集。并將無法用于條件依賴挖掘的數(shù)據(jù)進(jìn)行剔除,例如圖2中數(shù)據(jù)預(yù)處理環(huán)節(jié),由于樣本5和樣本9存在嚴(yán)重的弱標(biāo)記問題,導(dǎo)致標(biāo)簽信息不足而無法用于標(biāo)簽關(guān)系挖掘,因此在預(yù)處理過程中被剔除。這里l=3,則進(jìn)行分解后可以得到3組。例如,對(duì)于標(biāo)簽1和標(biāo)簽2來說,可用于挖掘標(biāo)簽條件依賴關(guān)系的數(shù)據(jù)就是樣本1,樣本2和樣本3。對(duì)于標(biāo)簽1和標(biāo)簽3來說,可用于挖掘標(biāo)簽條件依賴關(guān)系的數(shù)據(jù)就是樣本2,樣本6和樣本8。對(duì)于標(biāo)簽2和標(biāo)簽3來說,可用于挖掘標(biāo)簽條件依賴關(guān)系的數(shù)據(jù)就是樣本2,樣本4和樣本7。需要說明的是,本文中的每對(duì)標(biāo)簽是指任意兩個(gè)標(biāo)簽的組合,例如標(biāo)簽1和標(biāo)簽2就是一對(duì)標(biāo)簽。數(shù)據(jù)預(yù)處理之后,需要為每對(duì)標(biāo)簽構(gòu)建多個(gè)(圖中以四個(gè)為例)基于概率分布的二類分類器模型。假設(shè)現(xiàn)在需要求解標(biāo)簽la和lb之間是否存在條件依賴關(guān)系,我們需要在原始樣本的特征空間上構(gòu)建的原始分類模型hoa和hob分別用于預(yù)測標(biāo)簽la和lb,還需構(gòu)建另外兩個(gè)在樣本特征空間基礎(chǔ)上分別將標(biāo)簽la和lb作為擴(kuò)充屬性的分類模型hba和hab。其中,原始分類模型hoa和hob和擴(kuò)充屬性的分類模型hba和hab均為二類分類器模型。在獲得這四個(gè)模型之后,在現(xiàn)有的數(shù)據(jù)集上進(jìn)行k次交叉驗(yàn)證,分別獲取模型hoa和hba對(duì)標(biāo)簽la的k次平均分類準(zhǔn)確率avgaccuracyoa和avgaccuracyba,以及模型hob和hab對(duì)標(biāo)簽lb的k次平均分類準(zhǔn)確率avgaccuracyob和avgaccuracyab。在獲取每組分類模型的準(zhǔn)確率之后,采用公式(1)所示的t-檢驗(yàn)量化兩個(gè)模型的分類結(jié)果。其中,和分別是對(duì)應(yīng)分類器模型的k次平均分類準(zhǔn)確率的方差的無偏估計(jì)量。為了方便描述,公式中的和分別為avgaccuracyab和avgaccuracyob。對(duì)于每一對(duì)標(biāo)簽,如果擴(kuò)充屬性的分類器模型的平均分類準(zhǔn)確率avgaccuracyab和avgaccuracyba均分別小于原始的分類器模型的平均分類準(zhǔn)確率avgaccuracyob和avgaccuracyoa,我們認(rèn)為標(biāo)簽la和lb之間不存在條件依賴關(guān)系,其t-檢驗(yàn)值均為0。通過上述方法,針對(duì)每一對(duì)標(biāo)簽la和lb,我們可以得到兩個(gè)t-檢驗(yàn)值tab和tba,最終,我們以最大的t-檢驗(yàn)值表示標(biāo)簽la和lb之間的條件依賴程度,即dab=max{tab,tba},dab為每一對(duì)標(biāo)簽la和lb的依賴程度。經(jīng)過上述過程,我們可以得到一個(gè)l維的標(biāo)簽間條件依賴矩陣d,如公式(2)所示:其中,dab等于dba,在d的基礎(chǔ)上,若dab>0我們認(rèn)為標(biāo)簽la和lb間條件依賴關(guān)系成立。在此基礎(chǔ)上,依據(jù)標(biāo)簽間條件依賴矩陣d,我們可以為標(biāo)簽集中的每一個(gè)標(biāo)簽li獲得一個(gè)條件依賴標(biāo)簽集cl(li)。采樣策略是主動(dòng)學(xué)習(xí)的核心內(nèi)容,在獲取的條件依賴標(biāo)簽集的基礎(chǔ)上,提出了一種融合不確定性和依賴標(biāo)簽間信息增益的樣本-標(biāo)簽對(duì)采樣策略,接下來對(duì)我們提出的方法進(jìn)行詳述。在多標(biāo)簽主動(dòng)學(xué)習(xí)的迭代過程中,如何選擇信息量最大的樣本-標(biāo)簽對(duì)直接決定著主動(dòng)學(xué)習(xí)的效果。需要說明的是,本文中的樣本-標(biāo)簽對(duì)指的是一個(gè)樣本和一個(gè)標(biāo)簽的組合,即“樣本-標(biāo)簽對(duì)”。本文中使用信息熵來衡量樣本-標(biāo)簽對(duì)的不確定性,同時(shí)利用相關(guān)標(biāo)簽之間的相對(duì)熵來衡量當(dāng)前“樣本-標(biāo)簽對(duì)”在其條件依賴標(biāo)簽集上的信息增益,然后通過整合樣本-標(biāo)簽對(duì)不確定性和信息增益,選擇信息含量最大的樣本-標(biāo)簽對(duì)。作為優(yōu)選地實(shí)施方式,信息熵具體通過當(dāng)前分類器模型對(duì)當(dāng)前樣本-標(biāo)簽對(duì)的預(yù)測概率值得到。當(dāng)前樣本-標(biāo)簽對(duì)的信息熵可以通過公式(3)來計(jì)算:其中,pi表示當(dāng)前分類器模型對(duì)當(dāng)前樣本-標(biāo)簽對(duì)的預(yù)測概率值。作為優(yōu)選地實(shí)施方式,相對(duì)熵具體通過kl散度方式得到。當(dāng)前樣本-標(biāo)簽對(duì)在其條件依賴標(biāo)簽集上的相對(duì)熵,可以通過kl散度(kullback-leiblerdivergence)來計(jì)算,如公式(4)所示:其中,pi表示當(dāng)前分類器模型對(duì)當(dāng)前標(biāo)簽的預(yù)測概率值,qi表示當(dāng)前分類器模型對(duì)當(dāng)前標(biāo)簽的條件依賴標(biāo)簽集中其它標(biāo)簽的預(yù)測概率值?;谝陨?,通過整合信息熵以及相對(duì)熵就可以得到對(duì)應(yīng)的各樣本-標(biāo)簽對(duì)的信息量:其中,表示當(dāng)前分類器模型對(duì)樣本xj的標(biāo)簽li預(yù)測的后驗(yàn)概率,xij為樣本-標(biāo)簽對(duì),表示第i個(gè)樣本和其第j個(gè)標(biāo)簽。這里,如果一個(gè)標(biāo)簽的條件依賴標(biāo)簽集合為空,那么以上采樣策略僅僅考慮標(biāo)簽的不確定性,即信息熵。整合樣本-標(biāo)簽對(duì)的不確定性和其在相關(guān)標(biāo)簽集合上的相對(duì)熵之后,篩選出信息量最大的樣本-標(biāo)簽對(duì)作為預(yù)先建立的主動(dòng)學(xué)習(xí)模型的輸入對(duì)象,并進(jìn)行主動(dòng)學(xué)習(xí)。換句話說,主動(dòng)學(xué)習(xí)的輸入對(duì)象就是:其中,ud為未標(biāo)記的樣本的集合。本發(fā)明實(shí)施例提供的基于條件依賴標(biāo)簽集的多標(biāo)簽主動(dòng)學(xué)習(xí)方法,首先挖掘出弱標(biāo)記條件下的各標(biāo)簽的條件依賴標(biāo)簽集,并在條件依賴標(biāo)簽集的基礎(chǔ)上,計(jì)算各樣本-標(biāo)簽對(duì)的信息熵和相對(duì)熵,然后整合信息熵和相對(duì)熵之后得到對(duì)應(yīng)的各樣本-標(biāo)簽對(duì)的信息量,最后篩選出信息量最大的樣本-標(biāo)簽對(duì)作為主動(dòng)學(xué)習(xí)模型的輸入對(duì)象。通過實(shí)驗(yàn)表明,該主動(dòng)學(xué)習(xí)方法相對(duì)于其他弱標(biāo)記條件下挖掘標(biāo)簽間關(guān)系的方法具有良好的泛化性能。為了更加充分論證本發(fā)明提到的主動(dòng)學(xué)習(xí)的方法的優(yōu)勢,下文給出具體的實(shí)驗(yàn)驗(yàn)證過程。1)實(shí)驗(yàn)數(shù)據(jù)及相關(guān)設(shè)置(1)數(shù)據(jù)集為了比較本發(fā)明提出的方法的有效性,使用mulan提供的六個(gè)多標(biāo)簽學(xué)習(xí)研究領(lǐng)域常用的數(shù)據(jù)集(flags,scene,nus_wide,corel5k,yeast和emotions)進(jìn)行對(duì)比實(shí)驗(yàn),這六個(gè)數(shù)據(jù)集的詳細(xì)情況如表1所示。表1實(shí)驗(yàn)數(shù)據(jù)集詳情數(shù)據(jù)集領(lǐng)域樣本數(shù)標(biāo)簽數(shù)特征數(shù)flagsimage194719sceneimage24076294nus_wideimage26964881128corel5kimage5000374499emotionsmusic593672yeastbiology241714103(2)對(duì)比方法及評(píng)價(jià)指標(biāo)這里,將本發(fā)明的方法簡稱wlmal,與多標(biāo)簽主動(dòng)學(xué)習(xí)中常用的四個(gè)代表性方法進(jìn)行對(duì)比。這四個(gè)對(duì)比方法分別是:adaptive:一種基于樣本的多標(biāo)簽主動(dòng)學(xué)習(xí)方法,通過考慮樣本的不確定性和加權(quán)的期望標(biāo)簽基數(shù)差異制定采樣策略。該方法在主動(dòng)學(xué)習(xí)的迭代過程中自適應(yīng)生成權(quán)衡因子用于權(quán)衡標(biāo)簽基數(shù)在采樣中的影響。lmal:一種基于“樣本-標(biāo)簽對(duì)”的多標(biāo)簽主動(dòng)學(xué)習(xí)方法,通過考慮每個(gè)“樣本-標(biāo)簽對(duì)”的不確定性制定采樣策略。tdal:一種基于二維思想的“樣本-標(biāo)簽對(duì)”采樣策略,通過考慮標(biāo)簽間的互信息制定采樣策略。mtal:一種考慮標(biāo)簽間交叉熵和樣本不確定性的基于“樣本-標(biāo)簽對(duì)”的多標(biāo)簽主動(dòng)學(xué)習(xí)方法。實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)使用多標(biāo)簽主動(dòng)學(xué)習(xí)領(lǐng)域常用的三種指標(biāo)進(jìn)行比較,即accuracy,macro-f1,micro-f1。(3)實(shí)驗(yàn)設(shè)置在試驗(yàn)中,brknn模型被用作所有對(duì)比方法統(tǒng)一的基準(zhǔn)多標(biāo)簽分類器模型。brknn是多標(biāo)簽學(xué)習(xí)領(lǐng)域一種典型的“問題轉(zhuǎn)換”方法,并且該方法已經(jīng)在mulan中進(jìn)行了完整的實(shí)現(xiàn)。對(duì)于每一個(gè)數(shù)據(jù)集,首先將其打亂后拆分成三個(gè)部分:一個(gè)初始訓(xùn)練樣本集,一個(gè)未標(biāo)記樣本集和一個(gè)測試樣本集。其中,初始訓(xùn)練樣本集的大小為30個(gè)樣本,測試集的大小為數(shù)據(jù)集大小的30%,余下樣本構(gòu)成未標(biāo)記樣本集??紤]到每個(gè)數(shù)據(jù)集大小不同,在試驗(yàn)中,針對(duì)flags數(shù)據(jù)集迭代進(jìn)行100次主動(dòng)學(xué)習(xí)過程,對(duì)于其他的數(shù)據(jù)集進(jìn)行400次迭代。為了方便與基于“樣本”的多標(biāo)簽主動(dòng)學(xué)習(xí)方法進(jìn)行對(duì)比,在試驗(yàn)中,對(duì)基于“樣本-標(biāo)簽對(duì)”的主動(dòng)學(xué)習(xí)方法采用一種批處理的方式,即在每次迭代中一次性采樣l個(gè)“樣本-標(biāo)簽對(duì)”用于查詢,其中l(wèi)為每個(gè)數(shù)據(jù)集的標(biāo)簽空間的大小。為了證明各個(gè)方法的普遍性,我們對(duì)每個(gè)方法重復(fù)進(jìn)行10次試驗(yàn),并對(duì)各方法最終的10組試驗(yàn)結(jié)果的平均值進(jìn)行比較。接下來的部分,我們展示了所有對(duì)比方法的實(shí)驗(yàn)結(jié)果,并對(duì)所有的實(shí)驗(yàn)結(jié)果進(jìn)行詳細(xì)的分析。2)實(shí)驗(yàn)結(jié)果分析圖3-圖8分別為本發(fā)明實(shí)施例提供的在數(shù)據(jù)集flags、scene、nus_wide、corel5k、yeast、emotions上的accuracy的對(duì)比圖。圖9-圖14分別為本發(fā)明實(shí)施例提供的在數(shù)據(jù)集flags、scene、nus_wide、corel5k、yeast、emotions上的macro-f1的對(duì)比圖。圖15-圖20分別為本發(fā)明實(shí)施例提供的在數(shù)據(jù)集flags、scene、nus_wide、corel5k、yeast、emotions上的micro-f1的對(duì)比圖。圖3-圖20分別展示了利用wlmal方法和另外四個(gè)對(duì)比方法在六個(gè)數(shù)據(jù)集上分別針對(duì)評(píng)估指標(biāo)accuracy、macro-f1和micro-f1的10次實(shí)驗(yàn)的平均結(jié)果。通過這些實(shí)驗(yàn)結(jié)果,我們可以得出以下結(jié)論:本發(fā)明提出的主動(dòng)學(xué)習(xí)方法相對(duì)于其他弱標(biāo)記條件下挖掘標(biāo)簽間關(guān)系的方法具有良好的泛化性能。以上對(duì)本發(fā)明所提供的基于條件依賴標(biāo)簽集的多標(biāo)簽主動(dòng)學(xué)習(xí)方法進(jìn)行了詳細(xì)介紹。說明書中各個(gè)實(shí)施例采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似部分互相參見即可。對(duì)于實(shí)施例公開的裝置而言,由于其與實(shí)施例公開的方法相對(duì)應(yīng),所以描述的比較簡單,相關(guān)之處參見方法部分說明即可。應(yīng)當(dāng)指出,對(duì)于本
技術(shù)領(lǐng)域:
的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以對(duì)本發(fā)明進(jìn)行若干改進(jìn)和修飾,這些改進(jìn)和修飾也落入本發(fā)明權(quán)利要求的保護(hù)范圍內(nèi)。還需要說明的是,在本說明書中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。當(dāng)前第1頁12