基于峰值密度聚類的主動學(xué)習(xí)方法與流程

文檔序號：11655007閱讀：995來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及主動學(xué)習(xí)領(lǐng)域,尤其是基于峰值密度聚類的主動學(xué)習(xí)方法。

背景技術(shù)：

主動學(xué)習(xí)在某些情況下，沒有類標(biāo)簽的數(shù)據(jù)相當(dāng)豐富而有類標(biāo)簽的數(shù)據(jù)相當(dāng)稀少，并且人工對數(shù)據(jù)進(jìn)行標(biāo)記的成本又相當(dāng)高昂。在這種情況下，我們可以讓學(xué)習(xí)算法主動地提出要對哪些數(shù)據(jù)進(jìn)行標(biāo)注，之后我們要將這些數(shù)據(jù)送到專家那里讓他們進(jìn)行標(biāo)注，再將這些數(shù)據(jù)加入到訓(xùn)練樣本集中對算法進(jìn)行訓(xùn)練，這一過程叫做主動學(xué)習(xí)。

主動學(xué)習(xí)這個過程最重要的是兩點：一、由學(xué)習(xí)算法主動提出對未標(biāo)記的樣本的標(biāo)記需求；二、選擇策略。

聚類算法：類，就是指相似元素的集合。聚類是把一些對象按照具體特征組織到若干個類別里。

如圖1展示了一個一般的主動學(xué)習(xí)實現(xiàn)的框架，主要可以分為以下兩個部分：

第一部分是初始化階段，通常是隨機從樣本中選擇一部分實例構(gòu)成初始訓(xùn)練集。然后送入分類器，對樣本進(jìn)行分類。

第二部分是循環(huán)查詢階段，選擇器根據(jù)一定的查詢策略從未標(biāo)記的樣本中選擇最有信息的樣本進(jìn)行標(biāo)記；被選擇的實例會加入訓(xùn)練集中，重新訓(xùn)練分類器，過程一直迭代，直到終止條件滿足。

現(xiàn)有技術(shù)主要缺點是初始階段，需要從大量樣本中隨機進(jìn)行選擇，構(gòu)建初始訓(xùn)練集，如果隨機選擇的初始樣本不好，很有可能導(dǎo)致后續(xù)算法無法達(dá)到預(yù)定的效果。需要構(gòu)建一個復(fù)雜的分類器，有些方法是每次選擇一個樣本，重新加入分類器，對樣本進(jìn)行分類，這樣可能極大的降低算法的效率。

因此，對于上述問題有必要提出基于峰值密度聚類的主動學(xué)習(xí)方法。

技術(shù)實現(xiàn)要素：

針對上述現(xiàn)有技術(shù)中存在的不足，本發(fā)明的目的在于提供一種大大減少人工標(biāo)記實例的個數(shù)，大大減少成本，提高經(jīng)濟效益的基于峰值密度聚類的主動學(xué)習(xí)方法。

首先提出基于固定標(biāo)記個數(shù)的主動學(xué)習(xí)問題：

輸入：決策系統(tǒng)s＝(u,c,d)，用戶指定的標(biāo)記個數(shù)。

輸出：該決策系統(tǒng)中所有實例的標(biāo)簽。

優(yōu)化目標(biāo)：預(yù)測準(zhǔn)確度最高。

基于峰值密度聚類的主動學(xué)習(xí)方法，其方法步驟為：(1)開始時，將所有未能標(biāo)記數(shù)據(jù)進(jìn)行聚類；(2)根據(jù)聚類的信息，構(gòu)建一個選擇器，從大量未標(biāo)記樣本中，選擇最有價值的樣本進(jìn)行標(biāo)記；(3)根據(jù)已經(jīng)標(biāo)記的樣本和已有的聚類結(jié)構(gòu)，對未能標(biāo)記的樣本進(jìn)行預(yù)測和分類；(4)判斷是否未分類實例，若是，則重新進(jìn)行聚類，若否，則結(jié)束。

優(yōu)選地，所述聚類可以采用kmeans或densitypeak主流聚類方法進(jìn)行。

優(yōu)選地，所述聚類首先進(jìn)行定義本地密度α，其中：

αi＝∑jχ(dij-dc)

然后計算最小距離β，β是點i與如何密度比它大的點之間的最小距離，其中：

最后構(gòu)建聚類關(guān)系樹結(jié)構(gòu)ms＝[m(x1),l,m(xn)]，該樹僅構(gòu)建一次，存儲，用于后續(xù)的聚類分析。

優(yōu)選地，所述聚類首先設(shè)置選擇參數(shù)γ，其中：

γ＝α×β

然后排序，根據(jù)聚類后形成的簇，分簇對γ進(jìn)行排序，形成排序表。

優(yōu)選地，所述分類實施分為兩種情況分類，其中一種情況實施步驟為：(1)標(biāo)記的實例的數(shù)量未達(dá)到指定的最大數(shù)量；(2)根據(jù)聚類后形成的簇，分簇對γ進(jìn)行排序的選擇器選擇最有價值的實例；(3)預(yù)測實例，并繼續(xù)重新聚類未標(biāo)記的實例；(4)將檢查每個聚類中的標(biāo)記數(shù)據(jù)，如果聚類中的所有標(biāo)簽都是相同的，確定該簇是純的；(5)對于一個純粹的聚類，直接預(yù)測所有未標(biāo)記數(shù)據(jù)與任何其他數(shù)據(jù)相同，如果聚類是不純凈的，將執(zhí)行重新聚類，迭代地，直到標(biāo)記的數(shù)據(jù)達(dá)到設(shè)定的最大值。

優(yōu)選地，所述分類實施的另一種情況實施方法：如果標(biāo)記的數(shù)據(jù)的數(shù)量已達(dá)到最大極限，但仍然有不純凈的簇和未標(biāo)記的數(shù)據(jù)，將使用投票策略來確定未標(biāo)記實例的標(biāo)簽。

由于采用上述技術(shù)方案，本發(fā)明將alec方法與最主流的分類算法knn,c4.5決策樹算法，普通貝葉斯方法naivebayes方法在以下12數(shù)據(jù)集上進(jìn)行了仔細(xì)的比較，可以以很少的標(biāo)記數(shù)量獲得很高的準(zhǔn)確度，可以大大減少人工標(biāo)記實例的個數(shù)，從而大大減少成本，提高經(jīng)濟效益，同時具有很強的實用性。

附圖說明

圖1是現(xiàn)有主動學(xué)習(xí)方法示意圖；

圖2是本發(fā)明的方法示意圖；

圖3是本發(fā)明的具有20個實例的聚類樹結(jié)構(gòu)構(gòu)建示意圖；

圖4是本發(fā)明實施例的聚類后排序表；

圖5是本發(fā)明dla數(shù)據(jù)集對比實驗圖；

圖6是本發(fā)明dccc數(shù)據(jù)集對比實驗圖；

圖7是本發(fā)明poker數(shù)據(jù)集對比實驗圖；

圖8是本發(fā)明penbased數(shù)據(jù)集對比實驗圖；

圖9是本發(fā)明segment數(shù)據(jù)集對比實驗圖；

圖10是本發(fā)明glass數(shù)據(jù)集對比實驗圖；

圖11是本發(fā)明seeds數(shù)據(jù)集對比實驗圖；

圖12是本發(fā)明iris數(shù)據(jù)集對比實驗圖；

圖13是本發(fā)明aggregation數(shù)據(jù)集對比實驗圖；

圖14是本發(fā)明r15數(shù)據(jù)集對比實驗圖；

圖15是本發(fā)明flame數(shù)據(jù)集對比實驗圖；

圖16是本發(fā)明spiral數(shù)據(jù)集對比實驗圖。

具體實施方式

以下結(jié)合附圖對本發(fā)明的實施例進(jìn)行詳細(xì)說明，但是本發(fā)明可以由權(quán)利要求限定和覆蓋的多種不同方式實施。

如圖2并結(jié)合圖3至圖16所示，基于峰值密度聚類的主動學(xué)習(xí)方法，其方法步驟為：(1)開始時，將所有未能標(biāo)記數(shù)據(jù)進(jìn)行聚類；(2)根據(jù)聚類的信息，構(gòu)建一個選擇器，從大量未標(biāo)記樣本中，選擇最有價值的樣本進(jìn)行標(biāo)記；(3)根據(jù)已經(jīng)標(biāo)記的樣本和已有的聚類結(jié)構(gòu)，對未能標(biāo)記的樣本進(jìn)行預(yù)測和分類；(4)判斷是否未分類實例，若是，則重新進(jìn)行聚類，若否，則結(jié)束。

進(jìn)一步的，所述聚類可以采用kmeans或densitypeak主流聚類方法進(jìn)行。

進(jìn)一步的，所述聚類首先進(jìn)行定義本地密度α，其中：

αi＝∑jχ(dij-dc)

然后計算最小距離β，β是點i與如何密度比它大的點之間的最小距離，其中：

最后構(gòu)建聚類關(guān)系樹結(jié)構(gòu)ms＝[m(x1),l,m(xn)]，該樹僅構(gòu)建一次，存儲，用于后續(xù)的聚類分析。

進(jìn)一步的，所述聚類首先設(shè)置選擇參數(shù)γ，其中：

γ＝α×β

然后排序，根據(jù)聚類后形成的簇，分簇對γ進(jìn)行排序，形成排序表，如圖4所示，紅色部分為每一簇所選擇的實例。

進(jìn)一步的，所述分類實施分為兩種情況分類，其中一種情況實施步驟為：(1)標(biāo)記的實例的數(shù)量未達(dá)到指定的最大數(shù)量；(2)根據(jù)聚類后形成的簇，分簇對γ進(jìn)行排序的選擇器選擇最有價值的實例；(3)預(yù)測實例，并繼續(xù)重新聚類未標(biāo)記的實例；(4)將檢查每個聚類中的標(biāo)記數(shù)據(jù)，如果聚類中的所有標(biāo)簽都是相同的，確定該簇是純的；(5)對于一個純粹的聚類，直接預(yù)測所有未標(biāo)記數(shù)據(jù)與任何其他數(shù)據(jù)相同，如果聚類是不純凈的，將執(zhí)行重新聚類，迭代地，直到標(biāo)記的數(shù)據(jù)達(dá)到設(shè)定的最大值。

所述分類實施的另一種情況實施方法：如果標(biāo)記的數(shù)據(jù)的數(shù)量已達(dá)到最大極限，但仍然有不純凈的簇和未標(biāo)記的數(shù)據(jù)，將使用投票策略來確定未標(biāo)記實例的標(biāo)簽。

圖3為聚類樹，從圖可以看出，第一次，整個樹被聚成塊1和塊2，圖4為塊信息表，表示每塊根據(jù)優(yōu)先級的大小降序排列，依次選擇最有價值的實例進(jìn)行標(biāo)注；

圖5至圖16是在12個數(shù)據(jù)集上的對比實驗圖，橫軸為用戶指定的標(biāo)記個數(shù)，縱軸為輸出的分類精度。

本發(fā)明將alec方法與最主流的分類算法knn,c4.5決策樹算法，普通貝葉斯方法naivebayes方法在圖5至圖16中12個數(shù)據(jù)集上進(jìn)行了仔細(xì)的比較，可以以很少的標(biāo)記數(shù)量獲得很高的準(zhǔn)確度，可以大大減少人工標(biāo)記實例的個數(shù)，從而大大減少成本，提高經(jīng)濟效益，同時具有很強的實用性。

以上所述僅為本發(fā)明的優(yōu)選實施例，并非因此限制本發(fā)明的專利范圍，凡是利用本發(fā)明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換，或直接或間接運用在其他相關(guān)的技術(shù)領(lǐng)域，均同理包括在本發(fā)明的專利保護(hù)范圍內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：汪敏;閔帆;肖斌;李志偉;李瀟;張櫻弋
技術(shù)所有人：西南石油大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于峰值密度聚類的主動學(xué)習(xí)方法與流程