面向失衡數(shù)據(jù)集的簇邊界采樣與動態(tài)剪枝的失衡數(shù)據(jù)分類方法
【專利摘要】面向失衡數(shù)據(jù)集的簇邊界采樣與動態(tài)剪枝的失衡數(shù)據(jù)分類方法,屬于失衡數(shù)據(jù)分類領(lǐng)域。為了解決目前失衡數(shù)據(jù)分類方法分類效果不好的問題。它包括:步驟一:對失衡數(shù)據(jù)集D基于密度聚類進(jìn)行簇邊界采樣,獲取重采樣后的失衡數(shù)據(jù)集B;步驟二:對重采樣后的失衡數(shù)據(jù)集B基于KNN動態(tài)閾值進(jìn)行剪枝,獲取剪枝后的失衡數(shù)據(jù)集T;步驟三:對剪枝后的失衡數(shù)據(jù)集T采用SVM分類器進(jìn)行分類,獲取分類后的失衡數(shù)據(jù)集。它應(yīng)用于醫(yī)療診斷、癌癥檢測、蛋白質(zhì)的檢測、故障檢測、客戶流失預(yù)測等領(lǐng)域。
【專利說明】面向失衡數(shù)據(jù)集的簇邊界采樣與動態(tài)剪枝的失衡數(shù)據(jù)分類 方法 【技術(shù)領(lǐng)域】
[〇〇〇1] 本發(fā)明屬于失衡數(shù)據(jù)分類領(lǐng)域。 【背景技術(shù)】
[0002] 失衡數(shù)據(jù)集分類的應(yīng)用領(lǐng)域很多。例如,醫(yī)療診斷、癌癥檢測、信用卡、保險等欺詐 檢測方面,生物信息學(xué)領(lǐng)域,如蛋白質(zhì)的檢測、企業(yè)破產(chǎn)、故障檢測、客戶流失預(yù)測等等。
[0003] 由于失衡數(shù)據(jù)集本身特性,失衡數(shù)據(jù)的分類問題不同于傳統(tǒng)分類問題,它具有很 多傳統(tǒng)分類策略和分類方法中沒有考慮到的因素,如數(shù)據(jù)海量問題、數(shù)據(jù)條件屬性缺失問 題、數(shù)據(jù)集失衡、數(shù)據(jù)淹沒現(xiàn)象、標(biāo)注瓶頸以及數(shù)據(jù)的混疊性和復(fù)雜性等均影響著分類器的 分類效果。
[0004] 目前,解決失衡數(shù)據(jù)集分類問題主要采取兩種策略:一是重采樣,該方法即可以適 當(dāng)屏蔽大類樣本的信息量或提高小類樣本的錯分代價;二是探索更適合失衡數(shù)據(jù)的分類模 型,針對失衡數(shù)據(jù)的特點對分類算法進(jìn)行改進(jìn)以提高其分類能力。無論數(shù)據(jù)集是否失衡,數(shù) 據(jù)集的重疊都會對分類的準(zhǔn)確度產(chǎn)生很大影響。選擇性刪除數(shù)據(jù)的目地是找出數(shù)據(jù)集重疊 的區(qū)域,并將該區(qū)域的樣本刪除,而利用特征提取算法處理重疊問題目前還只停留在理論 階段。要是解決數(shù)據(jù)分類問題,就必須考慮數(shù)據(jù)存在的混疊現(xiàn)象與復(fù)雜性。樣本在樣本空 間上的數(shù)據(jù)混疊現(xiàn)象和復(fù)雜性現(xiàn)象,這種數(shù)據(jù)是影響分類準(zhǔn)確度不高導(dǎo)致分類器分類效果 不好的原因之一。
[0005] 目前采用的過采樣實現(xiàn)動態(tài)采樣速率調(diào)整的方法對待測信號進(jìn)行高速率的采樣, 結(jié)合采樣需求,從過采樣所采得的信號進(jìn)行抽取有效的數(shù)據(jù)。其采樣點需求應(yīng)包括標(biāo)準(zhǔn)周 期下的采樣速率和在采樣信號頻率發(fā)生變化時的頻率跟蹤所對應(yīng)的采樣速率。本發(fā)明的有 益效果在于,既減輕數(shù)字信號處理器的運行負(fù)擔(dān),亦可方便將采樣模塊應(yīng)用于其他場合。該 方法中數(shù)字信號的處理方法只是從過采樣后的數(shù)字信號中抽取有效的信號。但是,由于數(shù) 據(jù)集中的每個數(shù)據(jù)元素都描述了該類事物的基本特征,重采樣方法必定會造成一定的信息 損失,為了盡可能的減小數(shù)據(jù)集中的信息損失使得保留的數(shù)據(jù)具有代表性,我們提出了一 個適用于失衡數(shù)據(jù)集分類問題的簇邊界采樣方法。
[0006] 采用多媒體數(shù)據(jù)高維索引及KNN檢索方法構(gòu)建多個多媒體數(shù)據(jù)的高維索引,高維 索引包括多個節(jié)點和多個多媒體數(shù)據(jù)的數(shù)據(jù)數(shù)據(jù)對象,每個節(jié)點包括節(jié)點的節(jié)點中心到節(jié) 點對應(yīng)的子節(jié)點的節(jié)點中心或數(shù)據(jù)對象的距離;根據(jù)KNN檢索算法,在高維索引中確定出 待檢索數(shù)據(jù)的檢索范圍及候選檢索引節(jié)點集合;根據(jù)檢索范圍及候選索引節(jié)點集合內(nèi)各節(jié) 點包括的距離,對候選索引節(jié)點集合進(jìn)行剪枝處理得出待檢索數(shù)據(jù)的檢索結(jié)果。通過在構(gòu) 建多媒體數(shù)據(jù)的高維索引時存入每個節(jié)點的節(jié)點中心到節(jié)點對應(yīng)的子節(jié)點的節(jié)點中心或 數(shù)據(jù)對象的距離,并依據(jù)該存儲的距離,對得到的候選索引節(jié)點集合進(jìn)行剪枝處理,得出所 述待檢索數(shù)據(jù)的檢索結(jié)果。
[0007] 采用一種在線升級主樣本模型的KNN故障檢測方法將主樣本空間的數(shù)據(jù)作為建 模數(shù)據(jù)的訓(xùn)練集,利用KNN檢測方法進(jìn)行建模和故障檢測,在主樣本空間中找到每個樣本 的k個最近鄰,對每個樣本計算k個最近鄰距離的平方和,將所有樣本的k近鄰平方和按序 列確定故障檢測的閾值;對于新來的一個待檢測樣本X,從主樣本空間中找到X的k個最近 鄰,計算樣本X的k個最近鄰距離平方和并將其與閾值進(jìn)行比較,如果小于閾值則樣本X是 正常的,否則樣本是故障的;通過主樣本模型的選取可以是各工況的數(shù)據(jù)結(jié)構(gòu)得到優(yōu)化,提 高故障檢測模型的精確度。
[0008] 上述有兩種方法使用KNN方法設(shè)置了固定的值,檢測樣本與該值進(jìn)行比較。然而, 在失衡數(shù)據(jù)集中存在著正負(fù)例的高失衡比及數(shù)據(jù)的混疊的現(xiàn)象,在數(shù)據(jù)處理時正負(fù)例應(yīng)該 采用不同的控制閾值對樣本進(jìn)行剪枝。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明的目的是為了解決目前失衡數(shù)據(jù)分類方法分類效果不好的問題,本發(fā)明提 供一種面向失衡數(shù)據(jù)集的簇邊界采樣與動態(tài)剪枝的失衡數(shù)據(jù)分類方法。
[〇〇1〇] 本發(fā)明的面向失衡數(shù)據(jù)集的簇邊界采樣與動態(tài)剪枝的失衡數(shù)據(jù)分類方法,
[0011] 它包括如下步驟:
[0012] 步驟一:對失衡數(shù)據(jù)集D基于密度聚類進(jìn)行簇邊界采樣,獲取重采樣后的失衡數(shù) 據(jù)集B ;
[0013] 步驟二:對重采樣后的失衡數(shù)據(jù)集B基于KNN動態(tài)閾值進(jìn)行剪枝,獲取剪枝后的失 衡數(shù)據(jù)集T ;
[0014] 步驟三:對剪枝后的失衡數(shù)據(jù)集T采用SVM分類器進(jìn)行分類,獲取分類后的失衡數(shù) 據(jù)集。
[0015] 步驟一中,對失衡數(shù)據(jù)集D基于密度聚類進(jìn)行簇邊界采樣,獲取重采樣后的失衡 數(shù)據(jù)集E的方法包括:
[0016] 步驟一一:遍歷失衡數(shù)據(jù)集D中的數(shù)據(jù)元素,計算失衡數(shù)據(jù)集D中的數(shù)據(jù)元素與數(shù) 據(jù)元素之間的歐幾里得距離;
[0017] 步驟一二:根據(jù)失衡數(shù)據(jù)集D的特征和步驟一一得到的數(shù)據(jù)元素與數(shù)據(jù)元素之間 的歐幾里得距離,計算聚類密度閾值MINK ;
[0018] 步驟一三:利用第一組密度閾值對失衡數(shù)據(jù)集D進(jìn)行聚類,劃分成n+1個簇,失衡 數(shù)據(jù)集D = IA,C2, C3,. . .,Cn,CmisJ,n為正整數(shù),CMise表示噪聲的簇,所述第一組密度閾值 包括聚類密度閾值MINPi和數(shù)據(jù)元素的鄰域EPSi ;
[0019] 步驟一四:對失衡數(shù)據(jù)集D中的數(shù)據(jù)元素進(jìn)行相應(yīng)的標(biāo)記,標(biāo)記為簇Ci或噪聲 Cnoise' i 1,2,3,· · ·,η ;
[0020] 步驟一五:對于簇Q,計算相應(yīng)簇中的數(shù)據(jù)元素的個數(shù)Nei,根據(jù)所述Nei計算相應(yīng) 簇Q的邊界密度閾值MINPu ;
[0021] 步驟一六:計算每一個數(shù)據(jù)元素在設(shè)定的鄰域內(nèi)與其屬于同一簇的數(shù)據(jù)元素的個 數(shù) EPSci ;
[0022] 步驟一七:根據(jù)第二組密度閾值,從簇Q中提取邊界元素&,所述第二組密度閾值 包括 MINPei 和 EPSci ;
[0023] 步驟一八:轉(zhuǎn)入步驟一四,直到失衡數(shù)據(jù)集D中所有非噪聲的數(shù)據(jù)元素所在的簇 都被遍歷時,得到重采樣之后獲取的失衡數(shù)據(jù)集B = {Bp B2, B3,. . .,Bn},結(jié)束。
[0024] 步驟二中,對重采樣后的失衡數(shù)據(jù)集B基于KNN動態(tài)閾值進(jìn)行剪枝,獲取剪枝后的 失衡數(shù)據(jù)集T的方法包括:
[0025] 步驟二一:在重采樣后的失衡數(shù)據(jù)集B中選擇一個未計算的邊界元素作為查詢點 xq,找出所述查詢點的K個近鄰點,K為正整數(shù);
[0026] 步驟二二:通過公式
【權(quán)利要求】
1. 面向失衡數(shù)據(jù)集的簇邊界采樣與動態(tài)剪枝的失衡數(shù)據(jù)分類方法,其特征在于,它包 括如下步驟: 步驟一:對失衡數(shù)據(jù)集D基于密度聚類進(jìn)行簇邊界采樣,獲取重采樣后的失衡數(shù)據(jù)集 B ; 步驟二:對重采樣后的失衡數(shù)據(jù)集B基于KNN動態(tài)閾值進(jìn)行剪枝,獲取剪枝后的失衡數(shù) 據(jù)集T ; 步驟三:對剪枝后的失衡數(shù)據(jù)集T采用SVM分類器進(jìn)行分類,獲取分類后的失衡數(shù)據(jù) 集。
2. 根據(jù)權(quán)利要求1所述的面向失衡數(shù)據(jù)集的簇邊界采樣與動態(tài)剪枝的失衡數(shù)據(jù)分類 方法,其特征在于,步驟一中,對失衡數(shù)據(jù)集D基于密度聚類進(jìn)行簇邊界采樣,獲取重采樣 后的失衡數(shù)據(jù)集E的方法包括: 步驟一一:遍歷失衡數(shù)據(jù)集D中的數(shù)據(jù)元素,計算失衡數(shù)據(jù)集D中的數(shù)據(jù)元素與數(shù)據(jù)元 素之間的歐幾里得距離; 步驟一二:根據(jù)失衡數(shù)據(jù)集D的特征和步驟一一得到的數(shù)據(jù)元素與數(shù)據(jù)元素之間的歐 幾里得距離,計算聚類密度閾值MINK ; 步驟一三:利用第一組密度閾值對失衡數(shù)據(jù)集D進(jìn)行聚類,劃分成n+1個簇,失衡數(shù)據(jù) 集D = IA,C2, C3,. . .,Cn,CmisJ,η為正整數(shù),CMise表示噪聲的簇,所述第一組密度閾值包括 聚類密度閾值MINPi和數(shù)據(jù)元素的鄰域EPSi ; 步驟一四:對失衡數(shù)據(jù)集D中的數(shù)據(jù)元素進(jìn)行相應(yīng)的標(biāo)記,標(biāo)記為簇Q或噪聲CMise,i 1 y 2 y 3 y · · · y Γ1 , 步驟一五:對于簇Ci,計算相應(yīng)簇中的數(shù)據(jù)元素的個數(shù)Nd,根據(jù)所述t計算相應(yīng)簇Ci 的邊界密度閾值MINPci ; 步驟一六:計算每一個數(shù)據(jù)元素在設(shè)定的鄰域內(nèi)與其屬于同一簇的數(shù)據(jù)元素的個數(shù) EPSci ; 步驟一七:根據(jù)第二組密度閾值,從簇q中提取邊界元素&,所述第二組密度閾值包括 MINPei 和 EPSci ; 步驟一八:轉(zhuǎn)入步驟一四,直到失衡數(shù)據(jù)集D中所有非噪聲的數(shù)據(jù)元素所在的簇都被 遍歷時,得到重采樣之后獲取的失衡數(shù)據(jù)集B = {Bp B2, B3,. . .,BJ,結(jié)束。
3. 根據(jù)權(quán)利要求1所述的面向失衡數(shù)據(jù)集的簇邊界采樣與動態(tài)剪枝的失衡數(shù)據(jù)分類 方法,其特征在于,步驟二中,對重采樣后的失衡數(shù)據(jù)集B基于KNN動態(tài)閾值進(jìn)行剪枝,獲取 剪枝后的失衡數(shù)據(jù)集T的方法包括: 步驟二一:在重采樣后的失衡數(shù)據(jù)集B中選擇一個未計算的邊界元素作為查詢點X,, 找出所述查詢點的K個近鄰點,K為正整數(shù); 步驟二二:通過公式7計算查詢點的屬性預(yù)測值v(Xq);如果f(Xq)= 1且ψ(χ,)彡θ+,則刪除當(dāng)前查詢點Xq,如果f(Xq) = - 1且v(Xq)彡θ_,則刪除當(dāng)前查 詢點X,,否則,查詢點X,存入剪枝后的失衡數(shù)據(jù)集T,f(Xi) e U,-l},轉(zhuǎn)入步驟二三;Θ +為 正例的控制閾值,Θ -為反例的控制閾值; 步驟二三:判斷重采樣后的失衡數(shù)據(jù)集B中的邊界元素是否全部計算,若是,結(jié)束,若 否,轉(zhuǎn)入步驟二一。
【文檔編號】G06F17/30GK104102718SQ201410342032
【公開日】2014年10月15日 申請日期:2014年7月17日 優(yōu)先權(quán)日:2014年7月17日
【發(fā)明者】李鵬, 張楷卉 申請人:哈爾濱理工大學(xué)