基于遺傳算法從大規(guī)模高維數(shù)據(jù)中檢測(cè)離群數(shù)據(jù)的方法
【專利摘要】本發(fā)明公開了一種基于遺傳算法從大規(guī)模高維數(shù)據(jù)中檢測(cè)離群數(shù)據(jù)的方法,屬于離群數(shù)據(jù)挖掘【技術(shù)領(lǐng)域】,包括如下步驟:(1)樣本離散化及編碼:將高維數(shù)據(jù)進(jìn)行編碼,每一個(gè)個(gè)體對(duì)應(yīng)一個(gè)字符串;選擇稀疏系數(shù)作為適應(yīng)度函數(shù),由該系數(shù)作為判定個(gè)體優(yōu)劣的標(biāo)準(zhǔn);(2)循環(huán)迭代:維護(hù)一個(gè)群體,群體包括若干個(gè)體;通過交叉、變異、選擇按照優(yōu)勝劣汰的原則不斷的更新這個(gè)群體;(3)譯碼得到離群數(shù)據(jù):將最終獲得的群體進(jìn)行譯碼對(duì)應(yīng)相應(yīng)的樣本數(shù)據(jù),進(jìn)而發(fā)現(xiàn)隱藏在其中的離群數(shù)據(jù)。本發(fā)明可以高效快速的從大規(guī)模高維數(shù)據(jù)中發(fā)現(xiàn)隱藏在其中的離群數(shù)據(jù)。
【專利說明】基于遺傳算法從大規(guī)模高維數(shù)據(jù)中檢測(cè)離群數(shù)據(jù)的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種離群數(shù)據(jù)挖掘【技術(shù)領(lǐng)域】,具體地說是一種基于遺傳算法從大規(guī)模 高維數(shù)據(jù)中檢測(cè)離群數(shù)據(jù)的方法。
【背景技術(shù)】
[0002] 離群數(shù)據(jù)是指在大量數(shù)據(jù)存在的一些與數(shù)據(jù)的一般行為或模型不一致的數(shù)據(jù)。離 群數(shù)據(jù)的產(chǎn)生一般認(rèn)為有兩種原因: (1)、度量或執(zhí)行錯(cuò)誤所導(dǎo)致:對(duì)這類型離群數(shù)據(jù)的篩選,可以從大量數(shù)據(jù)中篩選出雜 質(zhì)或存在問題的數(shù)據(jù),進(jìn)而提高數(shù)據(jù)的總體質(zhì)量。
[0003] (2)、固有的數(shù)據(jù)變異性的結(jié)果:這類型數(shù)據(jù)的客觀存在決定了對(duì)該類型離群數(shù)據(jù) 篩選的重要性。例如在科研數(shù)據(jù)發(fā)現(xiàn)客觀存在的一些未知的離群數(shù)據(jù),可以很好的提高相 關(guān)理論的研究。
[0004] 利用離群數(shù)據(jù)檢測(cè),不僅可以用來在分類、聚類及回歸等其它應(yīng)用中排除樣本中 的雜質(zhì)數(shù)據(jù),而且可以發(fā)現(xiàn)在大樣本數(shù)據(jù)中存在的一些分布比較少的特殊樣本數(shù)據(jù)。
[0005] 隨著數(shù)據(jù)的不斷積累及數(shù)據(jù)的規(guī)模不斷的增大,傳統(tǒng)離群數(shù)據(jù)挖掘算法利用現(xiàn)有 計(jì)算條件在其中篩選離群數(shù)據(jù)越發(fā)地困難。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的技術(shù)任務(wù)是提供一種結(jié)可以高效快速的從大規(guī)模高維數(shù)據(jù)中發(fā)現(xiàn)隱藏 在其中的離群數(shù)據(jù)的基于遺傳算法從大規(guī)模高維數(shù)據(jù)中檢測(cè)離群數(shù)據(jù)的方法。
[0007] 本發(fā)明的技術(shù)任務(wù)是按以下方式實(shí)現(xiàn)的: 基于遺傳算法從大規(guī)模高維數(shù)據(jù)中檢測(cè)離群數(shù)據(jù)的方法,包括如下步驟: (1) 、樣本離散化及編碼:將高維數(shù)據(jù)進(jìn)行編碼,每一個(gè)個(gè)體對(duì)應(yīng)一個(gè)字符串;選擇稀 疏系數(shù)作為適應(yīng)度函數(shù),由該系數(shù)作為判定個(gè)體優(yōu)劣的標(biāo)準(zhǔn); (2) 、循環(huán)迭代:維護(hù)一個(gè)群體,群體包括若干個(gè)體;通過交叉、變異、選擇按照優(yōu)勝劣 汰的原則不斷的更新這個(gè)群體; (3) 、譯碼得到離群數(shù)據(jù):將最終獲得的群體進(jìn)行譯碼對(duì)應(yīng)相應(yīng)的樣本數(shù)據(jù),進(jìn)而發(fā)現(xiàn) 隱藏在其中的離群數(shù)據(jù)。
[0008] 編碼及譯碼:遺傳算法中的一個(gè)群體是由經(jīng)過基因編碼的一定數(shù)目的個(gè)體組成; 每個(gè)個(gè)體是染色體帶有特征的實(shí)體,染色體用字符串的形式來表示,變量與個(gè)體之間的映 像通過編碼實(shí)現(xiàn);對(duì)于一個(gè)》維數(shù)據(jù)集,第個(gè)屬性的取值為穸或者*,*表示 對(duì)該屬性的取值不關(guān)心;對(duì)于原始數(shù)據(jù)中的第時(shí)*^?)個(gè)屬性的取值按照數(shù)值的大小投影 到-個(gè)分組中,即數(shù)據(jù)映像到一維空間上后;每一區(qū)間包含相等數(shù)量的數(shù)據(jù)點(diǎn),將轉(zhuǎn)變?yōu)闉?1?史之間的某個(gè)值。例如對(duì)一個(gè)四維數(shù)據(jù)集的二維子空間它的一個(gè)可能的二維子空間模 式為"*3*9",這個(gè)模式中,第二維和第四維的取值是確定的,而第一維和第三維的取值是不 關(guān)心的;而該字符串對(duì)應(yīng)的原始數(shù)據(jù)是第二維和第四維的取值分別是3和9的數(shù)據(jù),而第一 維和第三維不予考慮。
[0009] 適應(yīng)度函數(shù)是評(píng)價(jià)所有個(gè)體的目標(biāo)函數(shù);通過編碼,將數(shù)據(jù)的每一維分成個(gè)等 深度區(qū)間;即數(shù)據(jù)映像到一維空間上后,每一區(qū)間包含相等數(shù)量的數(shù)據(jù)點(diǎn),占總數(shù)據(jù)點(diǎn)的 /= i/妒:在一個(gè)數(shù)據(jù)集k維子空間中的每一維上各取一個(gè)深度區(qū)間,組成一個(gè)k維立方 體D,引人稀疏系數(shù)S (D)來表示它的稀疏程度(D)對(duì)應(yīng)的k個(gè)屬性及取值相當(dāng)于數(shù)據(jù)集的 一個(gè)模式;S(D)越小表示D所包含的數(shù)據(jù)點(diǎn)越少,稀疏系數(shù)很小的D對(duì)應(yīng)的模式即為異常 模式;稀疏系數(shù)S(D)的定義如下:
【權(quán)利要求】
1. 基于遺傳算法從大規(guī)模高維數(shù)據(jù)中檢測(cè)離群數(shù)據(jù)的方法,其特征在于包括如下步 驟: (1) 、樣本離散化及編碼:將高維數(shù)據(jù)進(jìn)行編碼,每一個(gè)個(gè)體對(duì)應(yīng)一個(gè)字符串;選擇稀 疏系數(shù)作為適應(yīng)度函數(shù),由該系數(shù)作為判定個(gè)體優(yōu)劣的標(biāo)準(zhǔn); (2) 、循環(huán)迭代:維護(hù)一個(gè)群體,群體包括若干個(gè)體;通過交叉、變異、選擇按照優(yōu)勝劣 汰的原則不斷的更新這個(gè)群體; (3)、譯碼得到離群數(shù)據(jù):將最終獲得的群體進(jìn)行譯碼對(duì)應(yīng)相應(yīng)的樣本數(shù)據(jù),進(jìn)而發(fā)現(xiàn) 隱藏在其中的離群數(shù)據(jù)。
2. 根據(jù)權(quán)利要求1所述的基于遺傳算法從大規(guī)模高維數(shù)據(jù)中檢測(cè)離群數(shù)據(jù)的方法,其 特征在于編碼及譯碼:遺傳算法中的一個(gè)群體是由經(jīng)過基因編碼的一定數(shù)目的個(gè)體組成; 每個(gè)個(gè)體是染色體帶有特征的實(shí)體,染色體用字符串的形式來表示,變量與個(gè)體之間的映 像通過編碼實(shí)現(xiàn);對(duì)于一個(gè)I*維數(shù)據(jù)集,第個(gè)屬性的取值為1?P或者*,*表示對(duì) 該屬性的取值不關(guān)心;對(duì)于原始數(shù)據(jù)中的第個(gè)屬性的取值按照數(shù)值的大小投影到 -個(gè)分組中,即數(shù)據(jù)映像到一維空間上后;每一區(qū)間包含相等數(shù)量的數(shù)據(jù)點(diǎn),將轉(zhuǎn)變?yōu)闉?1?鏟之間的某個(gè)值。
3. 根據(jù)權(quán)利要求1所述的基于遺傳算法從大規(guī)模高維數(shù)據(jù)中檢測(cè)離群數(shù)據(jù)的方法, 其特征在于適應(yīng)度函數(shù)是評(píng)價(jià)所有個(gè)體的目標(biāo)函數(shù);通過編碼,將數(shù)據(jù)的每一維分成-個(gè) 等深度區(qū)間;即數(shù)據(jù)映像到一維空間上后,每一區(qū)間包含相等數(shù)量的數(shù)據(jù)點(diǎn),占總數(shù)據(jù)點(diǎn)的 /=V史;在一個(gè)數(shù)據(jù)集k維子空間中的每一維上各取一個(gè)深度區(qū)間,組成一個(gè)k維立方體 D,引人稀疏系數(shù)S(D)來表示它的稀疏程度(D)對(duì)應(yīng)的k個(gè)屬性及取值相當(dāng)于數(shù)據(jù)集的一 個(gè)模式;S(D)越小表示D所包含的數(shù)據(jù)點(diǎn)越少,稀疏系數(shù)很小的D對(duì)應(yīng)的模式即為異常模 式;稀疏系數(shù)S(D)的定義如下:
其中,n(ll)為立方體D包含的數(shù)據(jù)點(diǎn)的數(shù)目,/ = 1/伊,N為數(shù)據(jù)集大??;JVx/?為預(yù)期 分?jǐn)?shù),
為標(biāo)準(zhǔn)偏差點(diǎn)。
4. 根據(jù)權(quán)利要求1所述的基于遺傳算法從大規(guī)模高維數(shù)據(jù)中檢測(cè)離群數(shù)據(jù)的方法, 其特征在于交叉及變異:對(duì)于一對(duì)模式階為k的字符串si和s2,串中的每一個(gè)位置,有三 種類型:全為*,都不是*,只有一個(gè)為* ;在交叉時(shí),首先將第二類位置進(jìn)行兩點(diǎn)交叉,選取 稀疏系數(shù)最小的一個(gè)置在si'對(duì)應(yīng)的位置上;反復(fù)選取第三類位置對(duì)應(yīng)的父串值并設(shè)置在 si'的相應(yīng)位置上,使得si'有最小的稀疏系數(shù),直到si'對(duì)應(yīng)的位置都設(shè)置完畢;si'的其 它位置設(shè)為* ;s2'為si'的補(bǔ)串; 對(duì)于模式階為k的字符串s,串中的每一個(gè)位置為*或者不為*,兩次位置獨(dú)立進(jìn)行變 異;對(duì)于第一類位置,變異時(shí)選取其中的一個(gè)位置變?yōu)?到-之間的一個(gè)隨機(jī)值,同時(shí)選取 一個(gè)第二類位置變?yōu)? ;對(duì)于第二類位置,變異時(shí)選取其中的一個(gè)位置變?yōu)?到-之間的一 個(gè)隨機(jī)值。
5.根據(jù)權(quán)利要求1所述的基于遺傳算法從大規(guī)模高維數(shù)據(jù)中檢測(cè)離群數(shù)據(jù)的方法,其 特征在于清除迭代:迭代計(jì)算時(shí),如果群體中的個(gè)體收斂時(shí)將其中所有個(gè)體去除并進(jìn)行解 碼;回歸初始條件,重新進(jìn)行計(jì)算,直到適應(yīng)度函數(shù)達(dá)到閾值或離群數(shù)據(jù)的個(gè)數(shù)達(dá)到閾值。
【文檔編號(hào)】G06F17/30GK104408116SQ201410689745
【公開日】2015年3月11日 申請(qǐng)日期:2014年11月26日 優(yōu)先權(quán)日:2014年11月26日
【發(fā)明者】韋鵬, 付興旺, 吳楠 申請(qǐng)人:浪潮電子信息產(chǎn)業(yè)股份有限公司