本發(fā)明涉及主動學(xué)習(xí)領(lǐng)域,尤其是基于峰值密度聚類的主動學(xué)習(xí)方法。
背景技術(shù):
主動學(xué)習(xí)在某些情況下,沒有類標(biāo)簽的數(shù)據(jù)相當(dāng)豐富而有類標(biāo)簽的數(shù)據(jù)相當(dāng)稀少,并且人工對數(shù)據(jù)進(jìn)行標(biāo)記的成本又相當(dāng)高昂。在這種情況下,我們可以讓學(xué)習(xí)算法主動地提出要對哪些數(shù)據(jù)進(jìn)行標(biāo)注,之后我們要將這些數(shù)據(jù)送到專家那里讓他們進(jìn)行標(biāo)注,再將這些數(shù)據(jù)加入到訓(xùn)練樣本集中對算法進(jìn)行訓(xùn)練,這一過程叫做主動學(xué)習(xí)。
主動學(xué)習(xí)這個過程最重要的是兩點:一、由學(xué)習(xí)算法主動提出對未標(biāo)記的樣本的標(biāo)記需求;二、選擇策略。
聚類算法:類,就是指相似元素的集合。聚類是把一些對象按照具體特征組織到若干個類別里。
如圖1展示了一個一般的主動學(xué)習(xí)實現(xiàn)的框架,主要可以分為以下兩個部分:
第一部分是初始化階段,通常是隨機從樣本中選擇一部分實例構(gòu)成初始訓(xùn)練集。然后送入分類器,對樣本進(jìn)行分類。
第二部分是循環(huán)查詢階段,選擇器根據(jù)一定的查詢策略從未標(biāo)記的樣本中選擇最有信息的樣本進(jìn)行標(biāo)記;被選擇的實例會加入訓(xùn)練集中,重新訓(xùn)練分類器,過程一直迭代,直到終止條件滿足。
現(xiàn)有技術(shù)主要缺點是初始階段,需要從大量樣本中隨機進(jìn)行選擇,構(gòu)建初始訓(xùn)練集,如果隨機選擇的初始樣本不好,很有可能導(dǎo)致后續(xù)算法無法達(dá)到預(yù)定的效果。需要構(gòu)建一個復(fù)雜的分類器,有些方法是每次選擇一個樣本,重新加入分類器,對樣本進(jìn)行分類,這樣可能極大的降低算法的效率。
因此,對于上述問題有必要提出基于峰值密度聚類的主動學(xué)習(xí)方法。
技術(shù)實現(xiàn)要素:
針對上述現(xiàn)有技術(shù)中存在的不足,本發(fā)明的目的在于提供一種大大減少人工標(biāo)記實例的個數(shù),大大減少成本,提高經(jīng)濟效益的基于峰值密度聚類的主動學(xué)習(xí)方法。
首先提出基于固定標(biāo)記個數(shù)的主動學(xué)習(xí)問題:
輸入:決策系統(tǒng)s=(u,c,d),用戶指定的標(biāo)記個數(shù)。
輸出:該決策系統(tǒng)中所有實例的標(biāo)簽。
優(yōu)化目標(biāo):預(yù)測準(zhǔn)確度最高。
基于峰值密度聚類的主動學(xué)習(xí)方法,其方法步驟為:(1)開始時,將所有未能標(biāo)記數(shù)據(jù)進(jìn)行聚類;(2)根據(jù)聚類的信息,構(gòu)建一個選擇器,從大量未標(biāo)記樣本中,選擇最有價值的樣本進(jìn)行標(biāo)記;(3)根據(jù)已經(jīng)標(biāo)記的樣本和已有的聚類結(jié)構(gòu),對未能標(biāo)記的樣本進(jìn)行預(yù)測和分類;(4)判斷是否未分類實例,若是,則重新進(jìn)行聚類,若否,則結(jié)束。
優(yōu)選地,所述聚類可以采用kmeans或densitypeak主流聚類方法進(jìn)行。
優(yōu)選地,所述聚類首先進(jìn)行定義本地密度α,其中:
αi=∑jχ(dij-dc)
然后計算最小距離β,β是點i與如何密度比它大的點之間的最小距離,其中:
最后構(gòu)建聚類關(guān)系樹結(jié)構(gòu)ms=[m(x1),l,m(xn)],該樹僅構(gòu)建一次,存儲,用于后續(xù)的聚類分析。
優(yōu)選地,所述聚類首先設(shè)置選擇參數(shù)γ,其中:
γ=α×β
然后排序,根據(jù)聚類后形成的簇,分簇對γ進(jìn)行排序,形成排序表。
優(yōu)選地,所述分類實施分為兩種情況分類,其中一種情況實施步驟為:(1)標(biāo)記的實例的數(shù)量未達(dá)到指定的最大數(shù)量;(2)根據(jù)聚類后形成的簇,分簇對γ進(jìn)行排序的選擇器選擇最有價值的實例;(3)預(yù)測實例,并繼續(xù)重新聚類未標(biāo)記的實例;(4)將檢查每個聚類中的標(biāo)記數(shù)據(jù),如果聚類中的所有標(biāo)簽都是相同的,確定該簇是純的;(5)對于一個純粹的聚類,直接預(yù)測所有未標(biāo)記數(shù)據(jù)與任何其他數(shù)據(jù)相同,如果聚類是不純凈的,將執(zhí)行重新聚類,迭代地,直到標(biāo)記的數(shù)據(jù)達(dá)到設(shè)定的最大值。
優(yōu)選地,所述分類實施的另一種情況實施方法:如果標(biāo)記的數(shù)據(jù)的數(shù)量已達(dá)到最大極限,但仍然有不純凈的簇和未標(biāo)記的數(shù)據(jù),將使用投票策略來確定未標(biāo)記實例的標(biāo)簽。
由于采用上述技術(shù)方案,本發(fā)明將alec方法與最主流的分類算法knn,c4.5決策樹算法,普通貝葉斯方法naivebayes方法在以下12數(shù)據(jù)集上進(jìn)行了仔細(xì)的比較,可以以很少的標(biāo)記數(shù)量獲得很高的準(zhǔn)確度,可以大大減少人工標(biāo)記實例的個數(shù),從而大大減少成本,提高經(jīng)濟效益,同時具有很強的實用性。
附圖說明
圖1是現(xiàn)有主動學(xué)習(xí)方法示意圖;
圖2是本發(fā)明的方法示意圖;
圖3是本發(fā)明的具有20個實例的聚類樹結(jié)構(gòu)構(gòu)建示意圖;
圖4是本發(fā)明實施例的聚類后排序表;
圖5是本發(fā)明dla數(shù)據(jù)集對比實驗圖;
圖6是本發(fā)明dccc數(shù)據(jù)集對比實驗圖;
圖7是本發(fā)明poker數(shù)據(jù)集對比實驗圖;
圖8是本發(fā)明penbased數(shù)據(jù)集對比實驗圖;
圖9是本發(fā)明segment數(shù)據(jù)集對比實驗圖;
圖10是本發(fā)明glass數(shù)據(jù)集對比實驗圖;
圖11是本發(fā)明seeds數(shù)據(jù)集對比實驗圖;
圖12是本發(fā)明iris數(shù)據(jù)集對比實驗圖;
圖13是本發(fā)明aggregation數(shù)據(jù)集對比實驗圖;
圖14是本發(fā)明r15數(shù)據(jù)集對比實驗圖;
圖15是本發(fā)明flame數(shù)據(jù)集對比實驗圖;
圖16是本發(fā)明spiral數(shù)據(jù)集對比實驗圖。
具體實施方式
以下結(jié)合附圖對本發(fā)明的實施例進(jìn)行詳細(xì)說明,但是本發(fā)明可以由權(quán)利要求限定和覆蓋的多種不同方式實施。
如圖2并結(jié)合圖3至圖16所示,基于峰值密度聚類的主動學(xué)習(xí)方法,其方法步驟為:(1)開始時,將所有未能標(biāo)記數(shù)據(jù)進(jìn)行聚類;(2)根據(jù)聚類的信息,構(gòu)建一個選擇器,從大量未標(biāo)記樣本中,選擇最有價值的樣本進(jìn)行標(biāo)記;(3)根據(jù)已經(jīng)標(biāo)記的樣本和已有的聚類結(jié)構(gòu),對未能標(biāo)記的樣本進(jìn)行預(yù)測和分類;(4)判斷是否未分類實例,若是,則重新進(jìn)行聚類,若否,則結(jié)束。
進(jìn)一步的,所述聚類可以采用kmeans或densitypeak主流聚類方法進(jìn)行。
進(jìn)一步的,所述聚類首先進(jìn)行定義本地密度α,其中:
αi=∑jχ(dij-dc)
然后計算最小距離β,β是點i與如何密度比它大的點之間的最小距離,其中:
最后構(gòu)建聚類關(guān)系樹結(jié)構(gòu)ms=[m(x1),l,m(xn)],該樹僅構(gòu)建一次,存儲,用于后續(xù)的聚類分析。
進(jìn)一步的,所述聚類首先設(shè)置選擇參數(shù)γ,其中:
γ=α×β
然后排序,根據(jù)聚類后形成的簇,分簇對γ進(jìn)行排序,形成排序表,如圖4所示,紅色部分為每一簇所選擇的實例。
進(jìn)一步的,所述分類實施分為兩種情況分類,其中一種情況實施步驟為:(1)標(biāo)記的實例的數(shù)量未達(dá)到指定的最大數(shù)量;(2)根據(jù)聚類后形成的簇,分簇對γ進(jìn)行排序的選擇器選擇最有價值的實例;(3)預(yù)測實例,并繼續(xù)重新聚類未標(biāo)記的實例;(4)將檢查每個聚類中的標(biāo)記數(shù)據(jù),如果聚類中的所有標(biāo)簽都是相同的,確定該簇是純的;(5)對于一個純粹的聚類,直接預(yù)測所有未標(biāo)記數(shù)據(jù)與任何其他數(shù)據(jù)相同,如果聚類是不純凈的,將執(zhí)行重新聚類,迭代地,直到標(biāo)記的數(shù)據(jù)達(dá)到設(shè)定的最大值。
所述分類實施的另一種情況實施方法:如果標(biāo)記的數(shù)據(jù)的數(shù)量已達(dá)到最大極限,但仍然有不純凈的簇和未標(biāo)記的數(shù)據(jù),將使用投票策略來確定未標(biāo)記實例的標(biāo)簽。
圖3為聚類樹,從圖可以看出,第一次,整個樹被聚成塊1和塊2,圖4為塊信息表,表示每塊根據(jù)優(yōu)先級的大小降序排列,依次選擇最有價值的實例進(jìn)行標(biāo)注;
圖5至圖16是在12個數(shù)據(jù)集上的對比實驗圖,橫軸為用戶指定的標(biāo)記個數(shù),縱軸為輸出的分類精度。
本發(fā)明將alec方法與最主流的分類算法knn,c4.5決策樹算法,普通貝葉斯方法naivebayes方法在圖5至圖16中12個數(shù)據(jù)集上進(jìn)行了仔細(xì)的比較,可以以很少的標(biāo)記數(shù)量獲得很高的準(zhǔn)確度,可以大大減少人工標(biāo)記實例的個數(shù),從而大大減少成本,提高經(jīng)濟效益,同時具有很強的實用性。
以上所述僅為本發(fā)明的優(yōu)選實施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運用在其他相關(guān)的技術(shù)領(lǐng)域,均同理包括在本發(fā)明的專利保護(hù)范圍內(nèi)。