面向失衡數(shù)據(jù)集的簇邊界采樣與動態(tài)剪枝的失衡數(shù)據(jù)分類方法

文檔序號：6620471閱讀：321來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

面向失衡數(shù)據(jù)集的簇邊界采樣與動態(tài)剪枝的失衡數(shù)據(jù)分類方法
【專利摘要】面向失衡數(shù)據(jù)集的簇邊界采樣與動態(tài)剪枝的失衡數(shù)據(jù)分類方法，屬于失衡數(shù)據(jù)分類領(lǐng)域。為了解決目前失衡數(shù)據(jù)分類方法分類效果不好的問題。它包括：步驟一：對失衡數(shù)據(jù)集D基于密度聚類進(jìn)行簇邊界采樣，獲取重采樣后的失衡數(shù)據(jù)集B；步驟二：對重采樣后的失衡數(shù)據(jù)集B基于KNN動態(tài)閾值進(jìn)行剪枝，獲取剪枝后的失衡數(shù)據(jù)集T；步驟三：對剪枝后的失衡數(shù)據(jù)集T采用SVM分類器進(jìn)行分類，獲取分類后的失衡數(shù)據(jù)集。它應(yīng)用于醫(yī)療診斷、癌癥檢測、蛋白質(zhì)的檢測、故障檢測、客戶流失預(yù)測等領(lǐng)域。
【專利說明】面向失衡數(shù)據(jù)集的簇邊界采樣與動態(tài)剪枝的失衡數(shù)據(jù)分類方法【技術(shù)領(lǐng)域】
[〇〇〇1] 本發(fā)明屬于失衡數(shù)據(jù)分類領(lǐng)域。【背景技術(shù)】
[0002] 失衡數(shù)據(jù)集分類的應(yīng)用領(lǐng)域很多。例如，醫(yī)療診斷、癌癥檢測、信用卡、保險等欺詐檢測方面，生物信息學(xué)領(lǐng)域，如蛋白質(zhì)的檢測、企業(yè)破產(chǎn)、故障檢測、客戶流失預(yù)測等等。
[0003] 由于失衡數(shù)據(jù)集本身特性，失衡數(shù)據(jù)的分類問題不同于傳統(tǒng)分類問題，它具有很多傳統(tǒng)分類策略和分類方法中沒有考慮到的因素，如數(shù)據(jù)海量問題、數(shù)據(jù)條件屬性缺失問題、數(shù)據(jù)集失衡、數(shù)據(jù)淹沒現(xiàn)象、標(biāo)注瓶頸以及數(shù)據(jù)的混疊性和復(fù)雜性等均影響著分類器的分類效果。
[0004] 目前，解決失衡數(shù)據(jù)集分類問題主要采取兩種策略：一是重采樣，該方法即可以適當(dāng)屏蔽大類樣本的信息量或提高小類樣本的錯分代價；二是探索更適合失衡數(shù)據(jù)的分類模型，針對失衡數(shù)據(jù)的特點對分類算法進(jìn)行改進(jìn)以提高其分類能力。無論數(shù)據(jù)集是否失衡，數(shù) 據(jù)集的重疊都會對分類的準(zhǔn)確度產(chǎn)生很大影響。選擇性刪除數(shù)據(jù)的目地是找出數(shù)據(jù)集重疊的區(qū)域，并將該區(qū)域的樣本刪除，而利用特征提取算法處理重疊問題目前還只停留在理論階段。要是解決數(shù)據(jù)分類問題，就必須考慮數(shù)據(jù)存在的混疊現(xiàn)象與復(fù)雜性。樣本在樣本空間上的數(shù)據(jù)混疊現(xiàn)象和復(fù)雜性現(xiàn)象，這種數(shù)據(jù)是影響分類準(zhǔn)確度不高導(dǎo)致分類器分類效果不好的原因之一。
[0005] 目前采用的過采樣實現(xiàn)動態(tài)采樣速率調(diào)整的方法對待測信號進(jìn)行高速率的采樣，結(jié)合采樣需求，從過采樣所采得的信號進(jìn)行抽取有效的數(shù)據(jù)。其采樣點需求應(yīng)包括標(biāo)準(zhǔn)周期下的采樣速率和在采樣信號頻率發(fā)生變化時的頻率跟蹤所對應(yīng)的采樣速率。本發(fā)明的有益效果在于，既減輕數(shù)字信號處理器的運行負(fù)擔(dān)，亦可方便將采樣模塊應(yīng)用于其他場合。該方法中數(shù)字信號的處理方法只是從過采樣后的數(shù)字信號中抽取有效的信號。但是，由于數(shù) 據(jù)集中的每個數(shù)據(jù)元素都描述了該類事物的基本特征，重采樣方法必定會造成一定的信息損失，為了盡可能的減小數(shù)據(jù)集中的信息損失使得保留的數(shù)據(jù)具有代表性，我們提出了一個適用于失衡數(shù)據(jù)集分類問題的簇邊界采樣方法。
[0006] 采用多媒體數(shù)據(jù)高維索引及KNN檢索方法構(gòu)建多個多媒體數(shù)據(jù)的高維索引，高維索引包括多個節(jié)點和多個多媒體數(shù)據(jù)的數(shù)據(jù)數(shù)據(jù)對象，每個節(jié)點包括節(jié)點的節(jié)點中心到節(jié) 點對應(yīng)的子節(jié)點的節(jié)點中心或數(shù)據(jù)對象的距離；根據(jù)KNN檢索算法，在高維索引中確定出待檢索數(shù)據(jù)的檢索范圍及候選檢索引節(jié)點集合；根據(jù)檢索范圍及候選索引節(jié)點集合內(nèi)各節(jié) 點包括的距離，對候選索引節(jié)點集合進(jìn)行剪枝處理得出待檢索數(shù)據(jù)的檢索結(jié)果。通過在構(gòu) 建多媒體數(shù)據(jù)的高維索引時存入每個節(jié)點的節(jié)點中心到節(jié)點對應(yīng)的子節(jié)點的節(jié)點中心或數(shù)據(jù)對象的距離，并依據(jù)該存儲的距離，對得到的候選索引節(jié)點集合進(jìn)行剪枝處理，得出所述待檢索數(shù)據(jù)的檢索結(jié)果。
[0007] 采用一種在線升級主樣本模型的KNN故障檢測方法將主樣本空間的數(shù)據(jù)作為建模數(shù)據(jù)的訓(xùn)練集，利用KNN檢測方法進(jìn)行建模和故障檢測，在主樣本空間中找到每個樣本的k個最近鄰，對每個樣本計算k個最近鄰距離的平方和，將所有樣本的k近鄰平方和按序列確定故障檢測的閾值；對于新來的一個待檢測樣本X，從主樣本空間中找到X的k個最近鄰，計算樣本X的k個最近鄰距離平方和并將其與閾值進(jìn)行比較，如果小于閾值則樣本X是正常的，否則樣本是故障的；通過主樣本模型的選取可以是各工況的數(shù)據(jù)結(jié)構(gòu)得到優(yōu)化，提高故障檢測模型的精確度。
[0008] 上述有兩種方法使用KNN方法設(shè)置了固定的值，檢測樣本與該值進(jìn)行比較。然而，在失衡數(shù)據(jù)集中存在著正負(fù)例的高失衡比及數(shù)據(jù)的混疊的現(xiàn)象，在數(shù)據(jù)處理時正負(fù)例應(yīng)該采用不同的控制閾值對樣本進(jìn)行剪枝。
【發(fā)明內(nèi)容】

[0009] 本發(fā)明的目的是為了解決目前失衡數(shù)據(jù)分類方法分類效果不好的問題，本發(fā)明提供一種面向失衡數(shù)據(jù)集的簇邊界采樣與動態(tài)剪枝的失衡數(shù)據(jù)分類方法。
[〇〇1〇] 本發(fā)明的面向失衡數(shù)據(jù)集的簇邊界采樣與動態(tài)剪枝的失衡數(shù)據(jù)分類方法，
[0011] 它包括如下步驟：
[0012] 步驟一：對失衡數(shù)據(jù)集D基于密度聚類進(jìn)行簇邊界采樣，獲取重采樣后的失衡數(shù) 據(jù)集B ;
[0013] 步驟二：對重采樣后的失衡數(shù)據(jù)集B基于KNN動態(tài)閾值進(jìn)行剪枝，獲取剪枝后的失衡數(shù)據(jù)集T ;
[0014] 步驟三：對剪枝后的失衡數(shù)據(jù)集T采用SVM分類器進(jìn)行分類，獲取分類后的失衡數(shù) 據(jù)集。
[0015] 步驟一中，對失衡數(shù)據(jù)集D基于密度聚類進(jìn)行簇邊界采樣，獲取重采樣后的失衡數(shù)據(jù)集E的方法包括：
[0016] 步驟一一：遍歷失衡數(shù)據(jù)集D中的數(shù)據(jù)元素，計算失衡數(shù)據(jù)集D中的數(shù)據(jù)元素與數(shù) 據(jù)元素之間的歐幾里得距離；
[0017] 步驟一二：根據(jù)失衡數(shù)據(jù)集D的特征和步驟一一得到的數(shù)據(jù)元素與數(shù)據(jù)元素之間的歐幾里得距離，計算聚類密度閾值MINK ;
[0018] 步驟一三：利用第一組密度閾值對失衡數(shù)據(jù)集D進(jìn)行聚類，劃分成n+1個簇，失衡數(shù)據(jù)集D = IA，C2, C3,. . .，Cn，CmisJ，n為正整數(shù)，CMise表示噪聲的簇，所述第一組密度閾值包括聚類密度閾值MINPi和數(shù)據(jù)元素的鄰域EPSi ;
[0019] 步驟一四：對失衡數(shù)據(jù)集D中的數(shù)據(jù)元素進(jìn)行相應(yīng)的標(biāo)記，標(biāo)記為簇Ci或噪聲 Cnoise' i 1，2，3，· · ·，η ;
[0020] 步驟一五：對于簇Q，計算相應(yīng)簇中的數(shù)據(jù)元素的個數(shù)Nei，根據(jù)所述Nei計算相應(yīng) 簇Q的邊界密度閾值MINPu ;
[0021] 步驟一六：計算每一個數(shù)據(jù)元素在設(shè)定的鄰域內(nèi)與其屬于同一簇的數(shù)據(jù)元素的個數(shù) EPSci ;
[0022] 步驟一七：根據(jù)第二組密度閾值，從簇Q中提取邊界元素&，所述第二組密度閾值包括 MINPei 和 EPSci ;
[0023] 步驟一八：轉(zhuǎn)入步驟一四，直到失衡數(shù)據(jù)集D中所有非噪聲的數(shù)據(jù)元素所在的簇都被遍歷時，得到重采樣之后獲取的失衡數(shù)據(jù)集B = {Bp B2, B3,. . .，Bn}，結(jié)束。
[0024] 步驟二中，對重采樣后的失衡數(shù)據(jù)集B基于KNN動態(tài)閾值進(jìn)行剪枝，獲取剪枝后的失衡數(shù)據(jù)集T的方法包括：
[0025] 步驟二一：在重采樣后的失衡數(shù)據(jù)集B中選擇一個未計算的邊界元素作為查詢點 xq，找出所述查詢點的K個近鄰點，K為正整數(shù)；
[0026] 步驟二二：通過公式
【權(quán)利要求】
1. 面向失衡數(shù)據(jù)集的簇邊界采樣與動態(tài)剪枝的失衡數(shù)據(jù)分類方法，其特征在于，它包括如下步驟：步驟一：對失衡數(shù)據(jù)集D基于密度聚類進(jìn)行簇邊界采樣，獲取重采樣后的失衡數(shù)據(jù)集 B ；步驟二：對重采樣后的失衡數(shù)據(jù)集B基于KNN動態(tài)閾值進(jìn)行剪枝，獲取剪枝后的失衡數(shù) 據(jù)集T ; 步驟三：對剪枝后的失衡數(shù)據(jù)集T采用SVM分類器進(jìn)行分類，獲取分類后的失衡數(shù)據(jù) 集。
2. 根據(jù)權(quán)利要求1所述的面向失衡數(shù)據(jù)集的簇邊界采樣與動態(tài)剪枝的失衡數(shù)據(jù)分類方法，其特征在于，步驟一中，對失衡數(shù)據(jù)集D基于密度聚類進(jìn)行簇邊界采樣，獲取重采樣后的失衡數(shù)據(jù)集E的方法包括：步驟一一：遍歷失衡數(shù)據(jù)集D中的數(shù)據(jù)元素，計算失衡數(shù)據(jù)集D中的數(shù)據(jù)元素與數(shù)據(jù)元素之間的歐幾里得距離；步驟一二：根據(jù)失衡數(shù)據(jù)集D的特征和步驟一一得到的數(shù)據(jù)元素與數(shù)據(jù)元素之間的歐幾里得距離，計算聚類密度閾值MINK ; 步驟一三：利用第一組密度閾值對失衡數(shù)據(jù)集D進(jìn)行聚類，劃分成n+1個簇，失衡數(shù)據(jù) 集D = IA，C2, C3,. . .，Cn，CmisJ，η為正整數(shù)，CMise表示噪聲的簇，所述第一組密度閾值包括聚類密度閾值MINPi和數(shù)據(jù)元素的鄰域EPSi ; 步驟一四：對失衡數(shù)據(jù)集D中的數(shù)據(jù)元素進(jìn)行相應(yīng)的標(biāo)記，標(biāo)記為簇Q或噪聲CMise，i 1 y 2 y 3 y · · · y Γ1 ，步驟一五：對于簇Ci，計算相應(yīng)簇中的數(shù)據(jù)元素的個數(shù)Nd，根據(jù)所述t計算相應(yīng)簇Ci 的邊界密度閾值MINPci ; 步驟一六：計算每一個數(shù)據(jù)元素在設(shè)定的鄰域內(nèi)與其屬于同一簇的數(shù)據(jù)元素的個數(shù) EPSci ；步驟一七：根據(jù)第二組密度閾值，從簇q中提取邊界元素&，所述第二組密度閾值包括 MINPei 和 EPSci ; 步驟一八：轉(zhuǎn)入步驟一四，直到失衡數(shù)據(jù)集D中所有非噪聲的數(shù)據(jù)元素所在的簇都被遍歷時，得到重采樣之后獲取的失衡數(shù)據(jù)集B = {Bp B2, B3,. . .，BJ，結(jié)束。
3. 根據(jù)權(quán)利要求1所述的面向失衡數(shù)據(jù)集的簇邊界采樣與動態(tài)剪枝的失衡數(shù)據(jù)分類方法，其特征在于，步驟二中，對重采樣后的失衡數(shù)據(jù)集B基于KNN動態(tài)閾值進(jìn)行剪枝，獲取剪枝后的失衡數(shù)據(jù)集T的方法包括：步驟二一：在重采樣后的失衡數(shù)據(jù)集B中選擇一個未計算的邊界元素作為查詢點X,，找出所述查詢點的K個近鄰點，K為正整數(shù)；步驟二二：通過公式7計算查詢點的屬性預(yù)測值v(Xq);如果f(Xq)= 1且ψ(χ,)彡θ+，則刪除當(dāng)前查詢點Xq，如果f(Xq) = - 1且v(Xq)彡θ_，則刪除當(dāng)前查詢點X,，否則，查詢點X,存入剪枝后的失衡數(shù)據(jù)集T，f(Xi) e U，-l}，轉(zhuǎn)入步驟二三；Θ +為正例的控制閾值，Θ -為反例的控制閾值；步驟二三：判斷重采樣后的失衡數(shù)據(jù)集B中的邊界元素是否全部計算，若是，結(jié)束，若否，轉(zhuǎn)入步驟二一。
【文檔編號】G06F17/30GK104102718SQ201410342032
【公開日】2014年10月15日申請日期:2014年7月17日優(yōu)先權(quán)日:2014年7月17日
【發(fā)明者】李鵬, 張楷卉申請人:哈爾濱理工大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李鵬;張楷卉
技術(shù)所有人：哈爾濱理工大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

uci數(shù)據(jù)集相關(guān)技術(shù)

數(shù)據(jù)集相關(guān)技術(shù)

imagenet數(shù)據(jù)集下載相關(guān)技術(shù)

mnist數(shù)據(jù)集下載相關(guān)技術(shù)

mnist數(shù)據(jù)集相關(guān)技術(shù)

iris數(shù)據(jù)集相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

面向失衡數(shù)據(jù)集的簇邊界采樣與動態(tài)剪枝的失衡數(shù)據(jù)分類方法