基于遺傳算法從大規(guī)模高維數(shù)據(jù)中檢測(cè)離群數(shù)據(jù)的方法

文檔序號(hào)：6635786閱讀：390來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于遺傳算法從大規(guī)模高維數(shù)據(jù)中檢測(cè)離群數(shù)據(jù)的方法
【專利摘要】本發(fā)明公開了一種基于遺傳算法從大規(guī)模高維數(shù)據(jù)中檢測(cè)離群數(shù)據(jù)的方法，屬于離群數(shù)據(jù)挖掘【技術(shù)領(lǐng)域】，包括如下步驟：（1）樣本離散化及編碼：將高維數(shù)據(jù)進(jìn)行編碼，每一個(gè)個(gè)體對(duì)應(yīng)一個(gè)字符串；選擇稀疏系數(shù)作為適應(yīng)度函數(shù)，由該系數(shù)作為判定個(gè)體優(yōu)劣的標(biāo)準(zhǔn)；（2）循環(huán)迭代：維護(hù)一個(gè)群體，群體包括若干個(gè)體；通過交叉、變異、選擇按照優(yōu)勝劣汰的原則不斷的更新這個(gè)群體；（3）譯碼得到離群數(shù)據(jù)：將最終獲得的群體進(jìn)行譯碼對(duì)應(yīng)相應(yīng)的樣本數(shù)據(jù)，進(jìn)而發(fā)現(xiàn)隱藏在其中的離群數(shù)據(jù)。本發(fā)明可以高效快速的從大規(guī)模高維數(shù)據(jù)中發(fā)現(xiàn)隱藏在其中的離群數(shù)據(jù)。
【專利說明】基于遺傳算法從大規(guī)模高維數(shù)據(jù)中檢測(cè)離群數(shù)據(jù)的方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種離群數(shù)據(jù)挖掘【技術(shù)領(lǐng)域】，具體地說是一種基于遺傳算法從大規(guī)模高維數(shù)據(jù)中檢測(cè)離群數(shù)據(jù)的方法。

【背景技術(shù)】
[0002] 離群數(shù)據(jù)是指在大量數(shù)據(jù)存在的一些與數(shù)據(jù)的一般行為或模型不一致的數(shù)據(jù)。離群數(shù)據(jù)的產(chǎn)生一般認(rèn)為有兩種原因： (1)、度量或執(zhí)行錯(cuò)誤所導(dǎo)致：對(duì)這類型離群數(shù)據(jù)的篩選，可以從大量數(shù)據(jù)中篩選出雜質(zhì)或存在問題的數(shù)據(jù)，進(jìn)而提高數(shù)據(jù)的總體質(zhì)量。
[0003] (2)、固有的數(shù)據(jù)變異性的結(jié)果：這類型數(shù)據(jù)的客觀存在決定了對(duì)該類型離群數(shù)據(jù) 篩選的重要性。例如在科研數(shù)據(jù)發(fā)現(xiàn)客觀存在的一些未知的離群數(shù)據(jù)，可以很好的提高相關(guān)理論的研究。
[0004] 利用離群數(shù)據(jù)檢測(cè)，不僅可以用來在分類、聚類及回歸等其它應(yīng)用中排除樣本中的雜質(zhì)數(shù)據(jù)，而且可以發(fā)現(xiàn)在大樣本數(shù)據(jù)中存在的一些分布比較少的特殊樣本數(shù)據(jù)。
[0005] 隨著數(shù)據(jù)的不斷積累及數(shù)據(jù)的規(guī)模不斷的增大，傳統(tǒng)離群數(shù)據(jù)挖掘算法利用現(xiàn)有計(jì)算條件在其中篩選離群數(shù)據(jù)越發(fā)地困難。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明的技術(shù)任務(wù)是提供一種結(jié)可以高效快速的從大規(guī)模高維數(shù)據(jù)中發(fā)現(xiàn)隱藏在其中的離群數(shù)據(jù)的基于遺傳算法從大規(guī)模高維數(shù)據(jù)中檢測(cè)離群數(shù)據(jù)的方法。
[0007] 本發(fā)明的技術(shù)任務(wù)是按以下方式實(shí)現(xiàn)的：基于遺傳算法從大規(guī)模高維數(shù)據(jù)中檢測(cè)離群數(shù)據(jù)的方法，包括如下步驟： (1) 、樣本離散化及編碼：將高維數(shù)據(jù)進(jìn)行編碼，每一個(gè)個(gè)體對(duì)應(yīng)一個(gè)字符串；選擇稀疏系數(shù)作為適應(yīng)度函數(shù)，由該系數(shù)作為判定個(gè)體優(yōu)劣的標(biāo)準(zhǔn)； (2) 、循環(huán)迭代：維護(hù)一個(gè)群體，群體包括若干個(gè)體；通過交叉、變異、選擇按照優(yōu)勝劣汰的原則不斷的更新這個(gè)群體； (3) 、譯碼得到離群數(shù)據(jù)：將最終獲得的群體進(jìn)行譯碼對(duì)應(yīng)相應(yīng)的樣本數(shù)據(jù)，進(jìn)而發(fā)現(xiàn) 隱藏在其中的離群數(shù)據(jù)。
[0008] 編碼及譯碼：遺傳算法中的一個(gè)群體是由經(jīng)過基因編碼的一定數(shù)目的個(gè)體組成；每個(gè)個(gè)體是染色體帶有特征的實(shí)體，染色體用字符串的形式來表示，變量與個(gè)體之間的映像通過編碼實(shí)現(xiàn)；對(duì)于一個(gè)》維數(shù)據(jù)集，第個(gè)屬性的取值為穸或者*，*表示對(duì)該屬性的取值不關(guān)心；對(duì)于原始數(shù)據(jù)中的第時(shí)*^?)個(gè)屬性的取值按照數(shù)值的大小投影到-個(gè)分組中，即數(shù)據(jù)映像到一維空間上后；每一區(qū)間包含相等數(shù)量的數(shù)據(jù)點(diǎn)，將轉(zhuǎn)變?yōu)闉?1?史之間的某個(gè)值。例如對(duì)一個(gè)四維數(shù)據(jù)集的二維子空間它的一個(gè)可能的二維子空間模式為"*3*9"，這個(gè)模式中，第二維和第四維的取值是確定的，而第一維和第三維的取值是不關(guān)心的；而該字符串對(duì)應(yīng)的原始數(shù)據(jù)是第二維和第四維的取值分別是3和9的數(shù)據(jù)，而第一維和第三維不予考慮。
[0009] 適應(yīng)度函數(shù)是評(píng)價(jià)所有個(gè)體的目標(biāo)函數(shù)；通過編碼，將數(shù)據(jù)的每一維分成個(gè)等深度區(qū)間；即數(shù)據(jù)映像到一維空間上后，每一區(qū)間包含相等數(shù)量的數(shù)據(jù)點(diǎn)，占總數(shù)據(jù)點(diǎn)的 /= i/妒：在一個(gè)數(shù)據(jù)集k維子空間中的每一維上各取一個(gè)深度區(qū)間，組成一個(gè)k維立方體D，引人稀疏系數(shù)S (D)來表示它的稀疏程度（D)對(duì)應(yīng)的k個(gè)屬性及取值相當(dāng)于數(shù)據(jù)集的一個(gè)模式；S(D)越小表示D所包含的數(shù)據(jù)點(diǎn)越少，稀疏系數(shù)很小的D對(duì)應(yīng)的模式即為異常模式；稀疏系數(shù)S(D)的定義如下：

【權(quán)利要求】
1. 基于遺傳算法從大規(guī)模高維數(shù)據(jù)中檢測(cè)離群數(shù)據(jù)的方法，其特征在于包括如下步驟： (1) 、樣本離散化及編碼：將高維數(shù)據(jù)進(jìn)行編碼，每一個(gè)個(gè)體對(duì)應(yīng)一個(gè)字符串；選擇稀疏系數(shù)作為適應(yīng)度函數(shù)，由該系數(shù)作為判定個(gè)體優(yōu)劣的標(biāo)準(zhǔn)； (2) 、循環(huán)迭代：維護(hù)一個(gè)群體，群體包括若干個(gè)體；通過交叉、變異、選擇按照優(yōu)勝劣汰的原則不斷的更新這個(gè)群體； (3)、譯碼得到離群數(shù)據(jù)：將最終獲得的群體進(jìn)行譯碼對(duì)應(yīng)相應(yīng)的樣本數(shù)據(jù)，進(jìn)而發(fā)現(xiàn) 隱藏在其中的離群數(shù)據(jù)。
2. 根據(jù)權(quán)利要求1所述的基于遺傳算法從大規(guī)模高維數(shù)據(jù)中檢測(cè)離群數(shù)據(jù)的方法，其特征在于編碼及譯碼：遺傳算法中的一個(gè)群體是由經(jīng)過基因編碼的一定數(shù)目的個(gè)體組成；每個(gè)個(gè)體是染色體帶有特征的實(shí)體，染色體用字符串的形式來表示，變量與個(gè)體之間的映像通過編碼實(shí)現(xiàn)；對(duì)于一個(gè)I*維數(shù)據(jù)集，第個(gè)屬性的取值為1?P或者*，*表示對(duì) 該屬性的取值不關(guān)心；對(duì)于原始數(shù)據(jù)中的第個(gè)屬性的取值按照數(shù)值的大小投影到 -個(gè)分組中，即數(shù)據(jù)映像到一維空間上后；每一區(qū)間包含相等數(shù)量的數(shù)據(jù)點(diǎn)，將轉(zhuǎn)變?yōu)闉?1?鏟之間的某個(gè)值。
3. 根據(jù)權(quán)利要求1所述的基于遺傳算法從大規(guī)模高維數(shù)據(jù)中檢測(cè)離群數(shù)據(jù)的方法，其特征在于適應(yīng)度函數(shù)是評(píng)價(jià)所有個(gè)體的目標(biāo)函數(shù)；通過編碼，將數(shù)據(jù)的每一維分成-個(gè) 等深度區(qū)間；即數(shù)據(jù)映像到一維空間上后，每一區(qū)間包含相等數(shù)量的數(shù)據(jù)點(diǎn)，占總數(shù)據(jù)點(diǎn)的 /=V史；在一個(gè)數(shù)據(jù)集k維子空間中的每一維上各取一個(gè)深度區(qū)間，組成一個(gè)k維立方體 D，引人稀疏系數(shù)S(D)來表示它的稀疏程度（D)對(duì)應(yīng)的k個(gè)屬性及取值相當(dāng)于數(shù)據(jù)集的一個(gè)模式；S(D)越小表示D所包含的數(shù)據(jù)點(diǎn)越少，稀疏系數(shù)很小的D對(duì)應(yīng)的模式即為異常模式；稀疏系數(shù)S(D)的定義如下：
其中，n(ll)為立方體D包含的數(shù)據(jù)點(diǎn)的數(shù)目，/ = 1/伊，N為數(shù)據(jù)集大??；JVx/?為預(yù)期分?jǐn)?shù)，
為標(biāo)準(zhǔn)偏差點(diǎn)。
4. 根據(jù)權(quán)利要求1所述的基于遺傳算法從大規(guī)模高維數(shù)據(jù)中檢測(cè)離群數(shù)據(jù)的方法，其特征在于交叉及變異：對(duì)于一對(duì)模式階為k的字符串si和s2,串中的每一個(gè)位置，有三種類型：全為*，都不是*，只有一個(gè)為* ;在交叉時(shí)，首先將第二類位置進(jìn)行兩點(diǎn)交叉，選取稀疏系數(shù)最小的一個(gè)置在si'對(duì)應(yīng)的位置上；反復(fù)選取第三類位置對(duì)應(yīng)的父串值并設(shè)置在 si'的相應(yīng)位置上，使得si'有最小的稀疏系數(shù)，直到si'對(duì)應(yīng)的位置都設(shè)置完畢；si'的其它位置設(shè)為* ;s2'為si'的補(bǔ)串；對(duì)于模式階為k的字符串s,串中的每一個(gè)位置為*或者不為*,兩次位置獨(dú)立進(jìn)行變異；對(duì)于第一類位置，變異時(shí)選取其中的一個(gè)位置變?yōu)?到-之間的一個(gè)隨機(jī)值，同時(shí)選取一個(gè)第二類位置變?yōu)? ;對(duì)于第二類位置，變異時(shí)選取其中的一個(gè)位置變?yōu)?到-之間的一個(gè)隨機(jī)值。
5.根據(jù)權(quán)利要求1所述的基于遺傳算法從大規(guī)模高維數(shù)據(jù)中檢測(cè)離群數(shù)據(jù)的方法，其特征在于清除迭代：迭代計(jì)算時(shí)，如果群體中的個(gè)體收斂時(shí)將其中所有個(gè)體去除并進(jìn)行解碼；回歸初始條件，重新進(jìn)行計(jì)算，直到適應(yīng)度函數(shù)達(dá)到閾值或離群數(shù)據(jù)的個(gè)數(shù)達(dá)到閾值。
【文檔編號(hào)】G06F17/30GK104408116SQ201410689745
【公開日】2015年3月11日申請(qǐng)日期:2014年11月26日優(yōu)先權(quán)日:2014年11月26日
【發(fā)明者】韋鵬, 付興旺, 吳楠申請(qǐng)人:浪潮電子信息產(chǎn)業(yè)股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：韋鵬;付興旺;吳楠;
技術(shù)所有人：浪潮電子信息產(chǎn)業(yè)股份有限公司;
我是此專利的發(fā)明人

上一篇：一種相控陣天線繞射場(chǎng)計(jì)算方法
上一篇：虛擬機(jī)的休眠模式設(shè)置方法和裝置制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

高維數(shù)據(jù)相關(guān)技術(shù)

高維數(shù)據(jù)可視化相關(guān)技術(shù)

高維數(shù)據(jù)降維方法相關(guān)技術(shù)

高維數(shù)據(jù)分析相關(guān)技術(shù)

matlab高維數(shù)據(jù)可視化相關(guān)技術(shù)

高維數(shù)據(jù)聚類相關(guān)技術(shù)

python高維數(shù)據(jù)可視化相關(guān)技術(shù)

高維數(shù)據(jù)降維相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于遺傳算法從大規(guī)模高維數(shù)據(jù)中檢測(cè)離群數(shù)據(jù)的方法