亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種異常檢測訓(xùn)練集的構(gòu)建方法及裝置制造方法

文檔序號(hào):6519972閱讀:337來源:國知局
一種異常檢測訓(xùn)練集的構(gòu)建方法及裝置制造方法
【專利摘要】本申請(qǐng)公開了一種異常檢測訓(xùn)練集構(gòu)建方法及裝置,該方法將獲取到的樣本數(shù)據(jù)集合確定為當(dāng)前數(shù)據(jù)集合,依據(jù)接收到的各個(gè)當(dāng)前標(biāo)注指令,在當(dāng)前數(shù)據(jù)集合中獲取已標(biāo)注數(shù)據(jù),將已標(biāo)注數(shù)據(jù)加入第一數(shù)據(jù)集合,將未標(biāo)注數(shù)據(jù)組成第二數(shù)據(jù)集合,判斷異常點(diǎn)數(shù)據(jù)的個(gè)數(shù)是否達(dá)到預(yù)設(shè)數(shù)值,若是,依據(jù)已標(biāo)記數(shù)據(jù)和未標(biāo)記數(shù)據(jù)生成訓(xùn)練集,若否,依據(jù)第一數(shù)據(jù)集合計(jì)算未標(biāo)注數(shù)據(jù)的異常點(diǎn)概率,依據(jù)異常點(diǎn)概率對(duì)所述未標(biāo)注數(shù)據(jù)進(jìn)行排序,并確定為當(dāng)前數(shù)據(jù)集合,返回執(zhí)行獲取各個(gè)當(dāng)前標(biāo)注指令。與現(xiàn)有技術(shù)單次計(jì)算異常點(diǎn)概率相比,本方法利用已標(biāo)注數(shù)據(jù)對(duì)未標(biāo)注數(shù)據(jù)重新計(jì)算異常點(diǎn)概率,依據(jù)異常點(diǎn)概率排序后異常點(diǎn)排序前移,可減少標(biāo)注次數(shù),提高訓(xùn)練集構(gòu)建效率。
【專利說明】一種異常檢測訓(xùn)練集的構(gòu)建方法及裝置
【技術(shù)領(lǐng)域】
[0001]本申請(qǐng)涉及異常檢測【技術(shù)領(lǐng)域】,尤其是一種異常檢測訓(xùn)練集的構(gòu)建方法及裝置?!颈尘凹夹g(shù)】
[0002]異常檢測,是對(duì)某個(gè)事務(wù)活動(dòng)中產(chǎn)生的大量數(shù)據(jù)進(jìn)行檢測以確定其中的異常數(shù)據(jù),所述異常數(shù)據(jù)被稱為異常點(diǎn)。異常點(diǎn)具有不符合正常數(shù)據(jù)的分布特征或表現(xiàn)模式,通過分析異常點(diǎn)可以獲知事務(wù)活動(dòng)的安全狀態(tài),例如:信貸事務(wù)中的異常點(diǎn)可能代表一項(xiàng)信貸欺詐,網(wǎng)絡(luò)通信中的異常點(diǎn)可能代表黑客對(duì)電腦的攻擊。異常檢測的主要方式是,利用預(yù)先構(gòu)建的訓(xùn)練集,使用異常檢測算法對(duì)所述大量數(shù)據(jù)進(jìn)行檢測。因此,訓(xùn)練集是所述異常檢測方式的基礎(chǔ)。
[0003]發(fā)明人通過研究發(fā)現(xiàn),現(xiàn)有的訓(xùn)練集構(gòu)建方式為:獲得多個(gè)樣本數(shù)據(jù),所述各個(gè)樣本數(shù)據(jù)可能為異常點(diǎn),也可能為正常點(diǎn),利用現(xiàn)有檢測算法如無監(jiān)督異常點(diǎn)檢測算法計(jì)算各個(gè)樣本數(shù)據(jù)是異常點(diǎn)的概率,依據(jù)所述概率的大小,對(duì)所述各個(gè)樣本數(shù)據(jù)進(jìn)行排序后生成樣本數(shù)據(jù)集合。依次獲取所述樣本數(shù)據(jù)集合中的樣本數(shù)據(jù),人工標(biāo)注所述各個(gè)樣本數(shù)據(jù)是正常點(diǎn)或異常點(diǎn),當(dāng)標(biāo)注的樣本數(shù)據(jù)中異常點(diǎn)達(dá)到預(yù)設(shè)的數(shù)量時(shí),停止所述構(gòu)建過程。
[0004]所述構(gòu)建方式中單次計(jì)算樣本數(shù)據(jù)的異常點(diǎn)概率,計(jì)算的異常點(diǎn)概率正確率較低,對(duì)樣本數(shù)據(jù)進(jìn)行標(biāo)注的次數(shù)較多,導(dǎo)致訓(xùn)練集的構(gòu)建效率較低。

【發(fā)明內(nèi)容】

[0005]有鑒于此,本申請(qǐng)?zhí)峁┝艘环N異常檢測訓(xùn)練集的構(gòu)建方法及裝置,以解決現(xiàn)有構(gòu)建方式中單次計(jì)算樣本數(shù)據(jù)的異常點(diǎn)概率,計(jì)算的異常點(diǎn)概率正確率較低,對(duì)樣本數(shù)據(jù)進(jìn)行標(biāo)注的次數(shù)較多,導(dǎo)致訓(xùn)練集的構(gòu)建效率較低的問題。本申請(qǐng)的技術(shù)方案如下:
[0006]一種異常檢測訓(xùn)練集的構(gòu)建方法,包括:
[0007]獲取樣本數(shù)據(jù)集合,并將所述獲取到的樣本數(shù)據(jù)集合確定為當(dāng)前數(shù)據(jù)集合;
[0008]獲取各個(gè)當(dāng)前標(biāo)注指令;
[0009]依據(jù)獲取到的所述各個(gè)當(dāng)前標(biāo)注指令,在所述當(dāng)前數(shù)據(jù)集合中獲取與所述各個(gè)當(dāng)前標(biāo)注指令相對(duì)應(yīng)的已標(biāo)注數(shù)據(jù),將所述已標(biāo)注數(shù)據(jù)加入第一數(shù)據(jù)集合,將所述當(dāng)前數(shù)據(jù)集合中的未標(biāo)注數(shù)據(jù)組成第二數(shù)據(jù)集合;其中,所述已標(biāo)注數(shù)據(jù)包括正常點(diǎn)數(shù)據(jù)或異常點(diǎn)數(shù)據(jù);
[0010]判斷所述第一數(shù)據(jù)集合中異常點(diǎn)數(shù)據(jù)的個(gè)數(shù)是否達(dá)到預(yù)設(shè)數(shù)值;
[0011]若是,依據(jù)所述第一數(shù)據(jù)集合中的已標(biāo)記數(shù)據(jù)和所述第二數(shù)據(jù)集合中的未標(biāo)記數(shù)據(jù),生成訓(xùn)練集;
[0012]若否,依據(jù)所述第一數(shù)據(jù)集合,計(jì)算所述第二數(shù)據(jù)集合中的未標(biāo)注數(shù)據(jù)的異常點(diǎn)概率,依據(jù)所述異常點(diǎn)概率,對(duì)所述第二數(shù)據(jù)集合中的未標(biāo)注數(shù)據(jù)進(jìn)行排序,將排序后的第二數(shù)據(jù)集合確定為當(dāng)前數(shù)據(jù)集合,返回執(zhí)行所述獲取各個(gè)當(dāng)前標(biāo)注指令。
[0013]優(yōu)選的,所述依據(jù)獲取到的所述各個(gè)當(dāng)前標(biāo)注指令,在所述當(dāng)前數(shù)據(jù)集合中獲取與所述各個(gè)當(dāng)前標(biāo)注指令相對(duì)應(yīng)的已標(biāo)注數(shù)據(jù),將所述已標(biāo)注數(shù)據(jù)加入第一數(shù)據(jù)集合,將所述當(dāng)前數(shù)據(jù)集合中的未標(biāo)注數(shù)據(jù)組成第二數(shù)據(jù)集合,包括:
[0014]解析獲取到的所述各個(gè)標(biāo)注指令,獲得與所述各個(gè)標(biāo)注指令相對(duì)應(yīng)的標(biāo)注;
[0015]依據(jù)標(biāo)注指令與數(shù)據(jù)間的對(duì)應(yīng)關(guān)系,為所述各個(gè)數(shù)據(jù)添加相對(duì)應(yīng)的標(biāo)注;其中,所述各個(gè)數(shù)據(jù)是在所述當(dāng)前數(shù)據(jù)集合中獲取的;
[0016]將所述各個(gè)添加標(biāo)注的數(shù)據(jù)確定為已標(biāo)注數(shù)據(jù),并將所述已標(biāo)注數(shù)據(jù)加入第一數(shù)據(jù)集合;其中,所述已標(biāo)注數(shù)據(jù)包括正常點(diǎn)數(shù)據(jù)或異常點(diǎn)數(shù)據(jù);
[0017]將所述當(dāng)前數(shù)據(jù)集合中的未標(biāo)注數(shù)據(jù)組成第二數(shù)據(jù)集合。
[0018]優(yōu)選的,正常點(diǎn)的標(biāo)注為1,異常點(diǎn)的標(biāo)注為0,則:
[0019]所述依據(jù)所述第一數(shù)據(jù)集合,計(jì)算所述第二數(shù)據(jù)集合中的未標(biāo)注數(shù)據(jù)的異常點(diǎn)概率,包括:
[0020]將所述樣本數(shù)據(jù)集合表示為X=U1, X2,...xn},將第一數(shù)據(jù)集合表示為L= {χ1; X2,...X1I,將第二數(shù)據(jù)集合表示為 U= {x1+1, x1+2,...xn};
[0021]依據(jù)所述第一數(shù)據(jù)集合中各個(gè)數(shù)據(jù)的標(biāo)注生成標(biāo)注集合F= Iu1, u2,...uj ;其中,所述ui為I或O ;
[0022]依據(jù)所述第一數(shù)據(jù)集合、所述第二數(shù)據(jù)集合及所述標(biāo)注集合,利用公

【權(quán)利要求】
1.一種異常檢測訓(xùn)練集的構(gòu)建方法,其特征在于,包括: 獲取樣本數(shù)據(jù)集合,并將所述獲取到的樣本數(shù)據(jù)集合確定為當(dāng)前數(shù)據(jù)集合; 獲取各個(gè)當(dāng)前標(biāo)注指令; 依據(jù)獲取到的所述各個(gè)當(dāng)前標(biāo)注指令,在所述當(dāng)前數(shù)據(jù)集合中獲取與所述各個(gè)當(dāng)前標(biāo)注指令相對(duì)應(yīng)的已標(biāo)注數(shù)據(jù),將所述已標(biāo)注數(shù)據(jù)加入第一數(shù)據(jù)集合,將所述當(dāng)前數(shù)據(jù)集合中的未標(biāo)注數(shù)據(jù)組成第二數(shù)據(jù)集合;其中,所述已標(biāo)注數(shù)據(jù)包括正常點(diǎn)數(shù)據(jù)或異常點(diǎn)數(shù)據(jù); 判斷所述第一數(shù)據(jù)集合中異常點(diǎn)數(shù)據(jù)的個(gè)數(shù)是否達(dá)到預(yù)設(shè)數(shù)值; 若是,依據(jù)所述第一數(shù)據(jù)集合中的已標(biāo)記數(shù)據(jù)和所述第二數(shù)據(jù)集合中的未標(biāo)記數(shù)據(jù),生成訓(xùn)練集; 若否,依據(jù)所述第一數(shù)據(jù)集合,計(jì)算所述第二數(shù)據(jù)集合中的未標(biāo)注數(shù)據(jù)的異常點(diǎn)概率,依據(jù)所述異常點(diǎn)概率,對(duì)所述第二數(shù)據(jù)集合中的未標(biāo)注數(shù)據(jù)進(jìn)行排序,將排序后的第二數(shù)據(jù)集合確定為當(dāng)前數(shù)據(jù)集合,返回執(zhí)行所述獲取各個(gè)當(dāng)前標(biāo)注指令。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述依據(jù)獲取到的所述各個(gè)當(dāng)前標(biāo)注指令,在所述當(dāng)前數(shù)據(jù)集合中獲取與所述各個(gè)當(dāng)前標(biāo)注指令相對(duì)應(yīng)的已標(biāo)注數(shù)據(jù),將所述已標(biāo)注數(shù)據(jù)加入第一數(shù)據(jù)集合,將所述當(dāng)前數(shù)據(jù)集合中的未標(biāo)注數(shù)據(jù)組成第二數(shù)據(jù)集合,包括: 解析獲取到的所述各個(gè)標(biāo)注指令,獲得與所述各個(gè)標(biāo)注指令相對(duì)應(yīng)的標(biāo)注; 依據(jù)標(biāo)注指令與數(shù)據(jù)間的對(duì)應(yīng)關(guān)系,為所述各個(gè)數(shù)據(jù)添加相對(duì)應(yīng)的標(biāo)注;其中,所述各個(gè)數(shù)據(jù)是在所述當(dāng)前數(shù)據(jù)集合中獲取的; 將所述各個(gè)添加標(biāo)注的數(shù)據(jù)確定為已標(biāo)注數(shù)據(jù),并將所述已標(biāo)注數(shù)據(jù)加入第一數(shù)據(jù)集合;其中,所述已標(biāo)注數(shù)據(jù)包括正常點(diǎn)數(shù)據(jù)或異常點(diǎn)數(shù)據(jù); 將所述當(dāng)前數(shù)據(jù)集合中的未標(biāo)注數(shù)據(jù)組成第二數(shù)據(jù)集合。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,正常點(diǎn)的標(biāo)注為1,異常點(diǎn)的標(biāo)注為O,則: 所述依據(jù)所述第一數(shù)據(jù)集合,計(jì)算所述第二數(shù)據(jù)集合中的未標(biāo)注數(shù)據(jù)的異常點(diǎn)概率,包括: 將所述樣本數(shù)據(jù)集合表示為X=U1, χ2,...χη},將第一數(shù)據(jù)集合表示為L= {χ1; X2,...X1I,將第二數(shù)據(jù)集合表示為 U= {x1+1, x1+2,...xn}; 依據(jù)所述第一數(shù)據(jù)集合中各個(gè)數(shù)據(jù)的標(biāo)注生成標(biāo)注集合F=Iu1, U2,...uj ;其中,所述Ui為I或O ; 依據(jù)所述第一數(shù)據(jù)集合、所述第二數(shù)據(jù)集合及所述標(biāo)注集合,利用公式
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,當(dāng)所述當(dāng)前標(biāo)注指令為多個(gè)時(shí),則所述獲取各個(gè)當(dāng)前標(biāo)注指令,包括: 在所述當(dāng)前數(shù)據(jù)集合中獲取多個(gè)概率大于等于預(yù)設(shè)閾值的數(shù)據(jù),生成備選數(shù)據(jù)集合;依據(jù)所述備選數(shù)據(jù)集合及預(yù)設(shè)值,利用聚類算法,在所述備選數(shù)據(jù)集合中獲取K個(gè)數(shù)據(jù);其中,所述預(yù)設(shè)值為大于I的整數(shù),所述K值與所述預(yù)設(shè)值相同; 將所述K個(gè)數(shù)據(jù)作為待標(biāo)注數(shù)據(jù); 依據(jù)所述待標(biāo)注數(shù)據(jù),獲取當(dāng)前標(biāo)注指令。
5.一種異常檢測訓(xùn)練集的構(gòu)建裝置,其特征在于,包括: 當(dāng)前數(shù)據(jù)集合確定單元,用于獲取樣本數(shù)據(jù)集合,并將所述獲取到的樣本數(shù)據(jù)集合確定為當(dāng)前數(shù)據(jù)集合; 當(dāng)前標(biāo)注指令獲取單元,用于獲取各個(gè)當(dāng)前標(biāo)注指令; 數(shù)據(jù)集合區(qū)分單元,用于依據(jù)獲取到的所述各個(gè)當(dāng)前標(biāo)注指令,在所述當(dāng)前數(shù)據(jù)集合中獲取與所述各個(gè)當(dāng)前標(biāo)注指令相對(duì)應(yīng)的已標(biāo)注數(shù)據(jù),將所述已標(biāo)注數(shù)據(jù)加入第一數(shù)據(jù)集合,將所述當(dāng)前數(shù)據(jù)集合中的未標(biāo)注數(shù)據(jù)組成第二數(shù)據(jù)集合;其中,所述已標(biāo)注數(shù)據(jù)包括正常點(diǎn)數(shù)據(jù)或異常點(diǎn)數(shù)據(jù); 判斷單元,用于判斷所述第一數(shù)據(jù)集合中異常點(diǎn)數(shù)據(jù)的個(gè)數(shù)是否達(dá)到預(yù)設(shè)數(shù)值,如果是,觸發(fā)第一判斷結(jié)果單元,否則,觸發(fā)第二判斷結(jié)果單元; 第一判斷結(jié)果單元,用于依據(jù)所述第一數(shù)據(jù)集合中的已標(biāo)記數(shù)據(jù)和所述第二數(shù)據(jù)集合中的未標(biāo)記數(shù)據(jù),生成訓(xùn)練集; 第二判斷結(jié)果單元,用于依據(jù)所述第一數(shù)據(jù)集合,計(jì)算所述第二數(shù)據(jù)集合中的未標(biāo)注數(shù)據(jù)的異常點(diǎn)概率,依據(jù)所述異常點(diǎn)概率,對(duì)所述第二數(shù)據(jù)集合中的未標(biāo)注數(shù)據(jù)進(jìn)行排序,將排序后的第二數(shù)據(jù)集合確定為當(dāng)前數(shù)據(jù)集合,觸發(fā)所述當(dāng)前標(biāo)注指令獲取單元。
6.根據(jù)權(quán)利要求5所述的裝置,其特征在于,所述數(shù)據(jù)集合區(qū)分單元包括: 解析子單元,用于解析獲取到的所述各個(gè)標(biāo)注指令,獲得與所述各個(gè)標(biāo)注指令相對(duì)應(yīng)的標(biāo)注; 標(biāo)注子單元,用于依據(jù)標(biāo)注指令與數(shù)據(jù)間的對(duì)應(yīng)關(guān)系,為所述各個(gè)數(shù)據(jù)添加相對(duì)應(yīng)的標(biāo)注;其中,所述各個(gè)數(shù)據(jù)是在所述當(dāng)前數(shù)據(jù)集合中獲取的; 加入子單元,用于將所述各個(gè)添加標(biāo)注的數(shù)據(jù)確定為已標(biāo)注數(shù)據(jù),并將所述已標(biāo)注數(shù)據(jù)加入第一數(shù)據(jù)集合;其中,所述已標(biāo)注數(shù)據(jù)包括正常點(diǎn)數(shù)據(jù)或異常點(diǎn)數(shù)據(jù); 組成子單元,用于將所述當(dāng)前數(shù)據(jù)集合中的未標(biāo)注數(shù)據(jù)組成第二數(shù)據(jù)集合。
7.根據(jù)權(quán)利要求5所述的裝置,其特征在于,所述第二判斷結(jié)果單元包括: 計(jì)算單元,用于依據(jù)所述第一數(shù)據(jù)集合,計(jì)算所述第二數(shù)據(jù)集合中的未標(biāo)注數(shù)據(jù)的異常點(diǎn)概率;排序單元,用于依據(jù)所述異常點(diǎn)概率,對(duì)所述第二數(shù)據(jù)集合中的未標(biāo)注數(shù)據(jù)進(jìn)行排序; 確定單元,用于將排序后的第二數(shù)據(jù)集合確定為當(dāng)前數(shù)據(jù)集合,觸發(fā)所述當(dāng)前標(biāo)注指令獲取單元執(zhí)行所述獲取各個(gè)當(dāng)前標(biāo)注指令。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,正常點(diǎn)的標(biāo)注為1,異常點(diǎn)的標(biāo)注為O,則所述計(jì)算單元包括: 集合表示子單元,用于將所述樣本數(shù)據(jù)集合表示為
9.根據(jù)權(quán)利要求5所述的裝置,其特征在于,當(dāng)所述當(dāng)前標(biāo)注指令獲取單元獲取的所述當(dāng)前標(biāo)注指令為多個(gè)時(shí),所述當(dāng)前標(biāo)注指令獲取單元包括: 備選數(shù)據(jù)集合生成子單元,用于在所述當(dāng)前數(shù)據(jù)集合中獲取多個(gè)概率大于等于預(yù)設(shè)閾值的數(shù)據(jù),生成備選數(shù)據(jù)集合; 多個(gè)數(shù)據(jù)獲取子單元,用于依據(jù)所述備選數(shù)據(jù)集合及預(yù)設(shè)值,利用聚類算法,在所述備選數(shù)據(jù)集合中獲取K個(gè)數(shù)據(jù);其中,所述預(yù)設(shè)值為大于I的整數(shù),所述K值與所述預(yù)設(shè)值相同; 待標(biāo)注數(shù)據(jù)生成子單元,用于將所述K個(gè)數(shù)據(jù)作為待標(biāo)注數(shù)據(jù); 當(dāng)前標(biāo)注指令獲取子單元,用于依據(jù)所述待標(biāo)注數(shù)據(jù),獲取當(dāng)前標(biāo)注指令。
【文檔編號(hào)】G06F19/00GK103559420SQ201310589362
【公開日】2014年2月5日 申請(qǐng)日期:2013年11月20日 優(yōu)先權(quán)日:2013年11月20日
【發(fā)明者】趙朋朋, 周徐, 吳健, 辛潔, 鮮學(xué)豐, 崔志明 申請(qǐng)人:蘇州大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1