亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于快速聚類的混合檢測(cè)器生成方法與流程

文檔序號(hào):11920796閱讀:356來(lái)源:國(guó)知局
一種基于快速聚類的混合檢測(cè)器生成方法與流程

本發(fā)明涉及一種檢測(cè)器生成方法。



背景技術(shù):

基于大數(shù)據(jù)的分析和應(yīng)用日益廣泛,人工免疫系統(tǒng)作為一種高效的生物啟發(fā)計(jì)算方法再次成為研究的熱點(diǎn),眾多學(xué)者在人工免疫系統(tǒng)領(lǐng)域開發(fā)新的算法。AIS由生物免疫系統(tǒng)啟發(fā)而來(lái),借鑒免疫系統(tǒng)的功能和原理并應(yīng)用于復(fù)雜問(wèn)題的解決,是最早的人工免疫系統(tǒng)模型。否定選擇算法(NSA:Negative selection algorithm)作為人工免疫中一種重要的算法,是由T細(xì)胞在胸腺中成熟的模型而來(lái)的。FORRESTS最初于1994年提出基于字符串的否定選擇算法(NNSA),但是受計(jì)算開銷的影響,限制了應(yīng)用。后來(lái),許多應(yīng)用問(wèn)題可以在真實(shí)值空間中定義和研究,檢測(cè)器和抗原的屬性被歸一化到N維實(shí)值范圍,所以NSA演變出了實(shí)值形式即RNSA。RNSA典型的是在二維空間中表示,具有可視化的特點(diǎn)。但傳統(tǒng)的RNSA采用半徑固定的檢測(cè)器,這種方式生成的檢測(cè)器有很多黑洞,而且覆蓋率不理想。為了解決傳統(tǒng)RNSA黑洞普遍的情況,Zhou Ji等人提出了采用可變半徑的V-detector算法,檢測(cè)器的半徑被定義為到自體集邊緣的距離。該算法不僅減少了黑洞現(xiàn)象,而且減少了檢測(cè)器的數(shù)量。已經(jīng)有很多實(shí)驗(yàn)證明V-detector算法得到好的效果。

在很多論文中提到,基于模式識(shí)別算法的對(duì)象距離計(jì)算,因此算法主要的時(shí)間開銷集中在距離的計(jì)算上。但是RNSA,V-detector算法都沒(méi)有考慮從減少距離計(jì)算來(lái)提升算法的效率。在RNSA和V-detector算法的檢測(cè)器生成過(guò)程中,候選的檢測(cè)器(未成熟的檢測(cè)器)在自我耐受的時(shí)候需要計(jì)算該檢測(cè)器與全部訓(xùn)練數(shù)據(jù)的距離。因此,NSA算法過(guò)多的時(shí)間開銷是檢測(cè)器生成過(guò)程效率過(guò)低導(dǎo)致的。針對(duì)于自體檢測(cè)器個(gè)數(shù)過(guò)多的問(wèn)題,公茂果等人提出FtNSA算法,在檢測(cè)器生成之后,以異常檢測(cè)器為樣本去生成半徑可變的自體檢測(cè)器,生成自體檢測(cè)器的過(guò)程基本與生成異常檢測(cè)器相同。顯然FtNSA算法大大減少了自體檢測(cè)器的個(gè)數(shù),可以在檢測(cè)階段極大的提高檢測(cè)效率,但是仍然存在以下三個(gè)方面的問(wèn)題:

(1)異常檢測(cè)器生成效率方面,與V-detector相差無(wú)幾,故FtNSA算法仍然存在異常檢測(cè)器生成效率過(guò)低的問(wèn)題。

(2)V-detector和FtNSA算法都沒(méi)有考慮檢測(cè)器集合中每個(gè)檢測(cè)器的貢獻(xiàn)。檢測(cè)器存在嚴(yán)重的重疊現(xiàn)象,有的檢測(cè)器的貢獻(xiàn)其實(shí)很小,是基本無(wú)用的檢測(cè)器,如果仍然把這些檢測(cè)器保留下來(lái),會(huì)導(dǎo)致自體檢測(cè)器生成階段和檢測(cè)階段效率變低。

(3)不管是RNSA,V-detector或者是FtNSA,都對(duì)自體訓(xùn)練數(shù)據(jù)有嚴(yán)格的要求,對(duì)訓(xùn)練數(shù)據(jù)沒(méi)有識(shí)別和驗(yàn)證能力,他們認(rèn)為所給的訓(xùn)練數(shù)據(jù)全部都是正常的。在實(shí)際中,由于噪聲的影響,總會(huì)有少量的異常樣本存在于訓(xùn)練數(shù)據(jù)中,如果不把這些樣本識(shí)別出來(lái)進(jìn)行剔除,那么算法就會(huì)認(rèn)為這些異常樣本是正常的。也就是說(shuō),檢測(cè)器檢測(cè)器無(wú)法覆蓋這些異常樣本,這會(huì)導(dǎo)致檢測(cè)率大大降低,顯然這是不合適的。

總的來(lái)說(shuō),目前大多數(shù)的改進(jìn)NSA算法都存在檢測(cè)器生成效率低下,所需自體樣本個(gè)數(shù)過(guò)多,檢測(cè)器重疊嚴(yán)重且沒(méi)有抗噪聲能力等問(wèn)題。



技術(shù)實(shí)現(xiàn)要素:

為了克服已有檢測(cè)器生成方法的效率較低、重疊嚴(yán)重且沒(méi)有抗噪聲能力、誤測(cè)率較高的不足,本發(fā)明提供了一種效率較高、有效減少重疊、抗噪聲能力較好、誤測(cè)率較低的基于快速聚類的混合檢測(cè)器生成方法。

本發(fā)明解決其技術(shù)問(wèn)題所采用的技術(shù)方案是:

一種基于快速聚類的混合檢測(cè)器生成方法,所述生成方法包括以下步驟:

1)基于快速聚類算法實(shí)現(xiàn)劃分,生成少量自體檢測(cè)器替代自體樣本,步驟如下:

1.1)對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行基于密度的聚類分析,過(guò)程如下:

1.1.1計(jì)算每一對(duì)自體數(shù)據(jù)集S中的數(shù)據(jù)的距離,按升序排列,并確定dc;

1.1.2計(jì)算每一個(gè)S中數(shù)據(jù)對(duì)象的ρ、δ、γ,并進(jìn)行歸一化處理;

1.1.3取分割區(qū)間數(shù),畫出γ的概率分布圖,找到第一個(gè)概率密度為0的區(qū)間號(hào)i,并且令j=1;

1.1.4對(duì)于第j個(gè)區(qū)間,判斷此區(qū)間是否形成尖峰。如果不是,跳轉(zhuǎn)步驟1.1.7;

1.1.5如果j≤i,跳轉(zhuǎn)步驟1.1.7;

1.1.6將落在第j個(gè)區(qū)間的數(shù)據(jù)對(duì)象加入聚類中心集合Cen;

1.1.7如果j<200,j++并跳轉(zhuǎn)步驟1.1.4;否則,退出;

1.1.8根據(jù)聚類中心劃分每個(gè)數(shù)據(jù)對(duì)象,得到n個(gè)類簇,每個(gè)類簇集合記為Ci,i∈[1,n];

1.2)剔除噪聲樣本和檢測(cè)邊界點(diǎn);

1.3)生成自體檢測(cè)器;

2)異常檢測(cè)器生成過(guò)程,設(shè)置檢測(cè)器半徑下限以及重疊分析;

3)在檢測(cè)中只掃描異常檢測(cè)器而不去掃描個(gè)數(shù)更多的自體檢測(cè)器,被異常檢測(cè)器激活的對(duì)象都被認(rèn)為是異常個(gè)數(shù),沒(méi)有被異常檢測(cè)器激活的對(duì)象被認(rèn)為是正常個(gè)體。

進(jìn)一步,所述1.2)中,剔除噪聲樣本和檢測(cè)邊界點(diǎn)的過(guò)程如下:

1.2.1i=1;

1.2.2對(duì)于第i個(gè)類簇,畫出它的ρ分布圖;

1.2.3在分割區(qū)間數(shù)n的歸一化ρ密度分布圖中,如果第一個(gè)區(qū)間的概率密度大于第二個(gè)區(qū)間的概率密度,那么總存在第一個(gè)波谷所在的區(qū)間i,這個(gè)區(qū)間的密度上限即為噪聲密度閾值ρbi;

在左半平面總存在一個(gè)概率密度最大的區(qū)間j,這個(gè)區(qū)間的密度下限即為邊界密度閾值ρci

1.2.3對(duì)于Ci中的每一個(gè)點(diǎn),密度小于ρbi標(biāo)識(shí)為噪聲,密度大于ρbi而小于ρci標(biāo)識(shí)為邊界;

1.2.4如果i≥n,退出;否則i++,跳轉(zhuǎn)步驟1.2.2。

再進(jìn)一步,所述1.3)中,生成自體檢測(cè)器的過(guò)程如下:

1.3.1i=1;

1.3.2對(duì)于第i個(gè)類簇,以每一個(gè)不是噪聲的點(diǎn)為圓心,Rs為固定半徑生成自體檢測(cè)器;

1.3.3獲取第i個(gè)類簇的聚類中心,找到距離這個(gè)聚類中心最近的一個(gè)邊界點(diǎn),兩者距離記為Rc,以聚類中心為圓心,Rc為自適應(yīng)半徑生成大自體檢測(cè)器;

1.3.4檢測(cè)出被大自體檢測(cè)器包含的固定半徑檢測(cè)器,將它們剔除;

1.3.5對(duì)第i個(gè)類的自體檢測(cè)器進(jìn)行重疊分析,剔除無(wú)用自體檢測(cè)器;

1.3.6如果i≥n,退出;否則i++,跳轉(zhuǎn)步驟1.3.2。

更進(jìn)一步,所述步驟2)中,用兩個(gè)檢測(cè)器中心的距離dis與兩個(gè)檢測(cè)器的半徑R1,R2的關(guān)系來(lái)判斷,通過(guò)(6)來(lái)判斷它們是否重疊,若是滿足(6),則判斷為重疊,ma為預(yù)設(shè)值;

dis<R1+R2(ma-1) (6)。

所述步驟2)中,檢測(cè)器半徑下限取自體半徑Rs

本發(fā)明的技術(shù)構(gòu)思為:設(shè)計(jì)了一種半徑自適應(yīng)的混合檢測(cè)器生成算法FCA-MD(Mixed Detectors based on fast clustering algorithm)。

在調(diào)用檢測(cè)器算法之前生成自體檢測(cè)器,將自體個(gè)數(shù)降低,故檢測(cè)器生成的算法被提高,這是FtNSA所欠缺的。另外,F(xiàn)CA-MD分析檢測(cè)器集合的重疊,將無(wú)用檢測(cè)器剔除,進(jìn)一步降低自體檢測(cè)器和異常檢測(cè)器的個(gè)數(shù)。

FCA-MD的算法分為自體檢測(cè)器生成算法FCA-SD、異常檢測(cè)器生成算法V-ND和檢測(cè)算法MD算法三個(gè)主要部分,分別如下:

1)自體檢測(cè)器生成算法FCA-SD針對(duì)自體樣本過(guò)多的問(wèn)題,基于快速聚類算法實(shí)現(xiàn)劃分,生成少量自體檢測(cè)器替代自體樣本,以此來(lái)提高檢測(cè)器生成算法效率。參考了Alex Rodriguez和Alessandro Laio在Science期刊上發(fā)表的一種快速搜尋密度峰聚類方法(DPC)[15],設(shè)計(jì)一種改進(jìn)的DPC算法,提出一種自動(dòng)確定聚類中心的新方法,通過(guò)找出多個(gè)合適的密度閾值來(lái)劃分核心點(diǎn)、噪聲點(diǎn)和邊界點(diǎn),再利用聚類中心與邊界點(diǎn)生成半徑自適應(yīng)的自體檢測(cè)器。

2)異常檢測(cè)器生成算法V-ND實(shí)質(zhì)上是對(duì)V-detector算法的改進(jìn),針對(duì)其檢測(cè)器個(gè)數(shù)多、檢測(cè)器質(zhì)量不高的問(wèn)題,設(shè)置了檢測(cè)器半徑下限以及重疊分析。

3)混合檢測(cè)器MD為了實(shí)現(xiàn)更加快速可靠的檢測(cè),在檢測(cè)中只掃描異常檢測(cè)器而不去掃描個(gè)數(shù)更多的自體檢測(cè)器。

FCA-MD的新特征有:(1)對(duì)實(shí)值自體集添加密度分布,并添加噪聲,不再使用傳統(tǒng)的均勻分布的數(shù)據(jù)集;(2)對(duì)密度數(shù)據(jù)集進(jìn)行聚類分析,然后準(zhǔn)確地識(shí)別噪聲樣本進(jìn)行剔除并生成自體檢測(cè)器;(3)在檢測(cè)器生成的過(guò)程中,用自體檢測(cè)器代替自體樣本,并分析每個(gè)檢測(cè)器的貢獻(xiàn),剔除重疊的無(wú)用檢測(cè)器。

FCA-MD在檢測(cè)器生成階段做一個(gè)基于快速聚類的預(yù)處理,實(shí)現(xiàn)了自體樣本的噪聲剔除并生成半徑自適應(yīng)的自體檢測(cè)器。通過(guò)用更少的自體檢測(cè)器代替自體樣本去生成異常檢測(cè)器,大大提高檢測(cè)器算法的效率。多組仿真實(shí)驗(yàn)驗(yàn)證了FCA-MD相比較于V-detector和FtNSA,可以在較少的自體個(gè)數(shù)下,獲得更高的效率,更小的誤測(cè)率以及更小的檢測(cè)器集合。

本發(fā)明的有益效果主要表現(xiàn)在:效率較高、有效減少重疊、抗噪聲能力較好、誤測(cè)率較低。

附圖說(shuō)明

圖1是Five Circle Data Set的典型γ概率分布圖,其中,(a)是自體數(shù)據(jù)集分布圖,(b)是γ分布圖,(c)是聚類結(jié)果。

圖2是Five Circle Data Set的ρ分布圖,其中,(a)表示噪聲比例0%的情況,(b)表示噪聲比例5%的情況。

圖3是噪聲與邊界的識(shí)別結(jié)果圖。

圖4是兩種自體檢測(cè)生成器效果比較,其中,(a)表示固定半徑RS自體檢測(cè)器,(b)表示FCA-SD算法生成的自體檢測(cè)器。

圖5是重疊判定規(guī)則示意圖,其中,(a)是重疊的情形;(b)是不重疊的情形。

圖6是V-ND算法流程圖。

圖7是V-detector與V-ND算法生成的檢測(cè)器對(duì)比圖,其中,(a)表示V-detector算法;(b)表示V-ND算法。

具體實(shí)施方式

下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步描述。

參照?qǐng)D1~圖7,一種基于快速聚類的混合檢測(cè)器生成方法,包括如下步驟:

1)自體檢測(cè)器生成算法FCA-SD針對(duì)自體樣本過(guò)多的問(wèn)題,基于快速聚類算法實(shí)現(xiàn)劃分,生成少量自體檢測(cè)器替代自體樣本,以此來(lái)提高檢測(cè)器生成算法效率。參照文獻(xiàn)1:R.Alex,L.Alessandro,Clustering by fast search and find of density peaks,Science,2014,344(6191):1492-1496。設(shè)計(jì)一種改進(jìn)的DPC算法,提出一種自動(dòng)確定聚類中心的新方法,通過(guò)找出多個(gè)合適的密度閾值來(lái)劃分核心點(diǎn)、噪聲點(diǎn)和邊界點(diǎn),再利用聚類中心與邊界點(diǎn)生成半徑自適應(yīng)的自體檢測(cè)器。

2)異常檢測(cè)器生成算法V-ND實(shí)質(zhì)上是對(duì)V-detector算法的改進(jìn),針對(duì)其檢測(cè)器個(gè)數(shù)多、檢測(cè)器質(zhì)量不高的問(wèn)題,設(shè)置了檢測(cè)器半徑下限以及重疊分析。

3)混合檢測(cè)器MD為了實(shí)現(xiàn)更加快速可靠的檢測(cè),在檢測(cè)中只掃描異常檢測(cè)器而不去掃描個(gè)數(shù)更多的自體檢測(cè)器。

FCA-SD算法包括:1.1)對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行基于密度的聚類分析;1.2)剔除噪聲樣本和檢測(cè)邊界點(diǎn);1.3)生成自體檢測(cè)器三個(gè)階段。

參照文獻(xiàn)1,運(yùn)用DPC的ρ-δ的思想,基于γ的概率分布圖找出聚類中心并準(zhǔn)確劃分;聚類中心的密度比周圍的點(diǎn)高并且到密度更高的點(diǎn)距離十分遠(yuǎn)。利用這樣的思想選出聚類中心,以它們?yōu)橹行纳砂霃娇勺兊淖泽w檢測(cè)器,達(dá)到將自體個(gè)體降低的目的。在此基本思想上,設(shè)計(jì)了一種聚類中心快速自動(dòng)確定的快速搜尋密度峰聚類算法(DPC),并基于DPC實(shí)現(xiàn)樣本集的自體聚類和噪聲點(diǎn)剔除。并且可以應(yīng)用在不同形狀和維度的數(shù)據(jù)集上。DPC的基本思想:

①聚類中心被密度小于它們的鄰居所包圍;

②聚類中心距離密度更高的點(diǎn)有相當(dāng)大的距離。

即理想為了找到理想的聚類中心,DPC介紹了一個(gè)點(diǎn)的局部密度計(jì)算公式(1)和更高密度最鄰近距離公式(2)。

這里需要說(shuō)明的是,最高密度的點(diǎn)i的δi應(yīng)該由(3)給出??梢钥闯?,局部密度最大或者全局密度最大的點(diǎn),其δi值比周圍鄰居的δi大很多。DPC搜尋這種δi異常大的點(diǎn)為密度峰,將其作為聚類中心,參數(shù)dc的值由輸入?yún)?shù)t決定。

在有些數(shù)據(jù)集中,每個(gè)點(diǎn)的密度估計(jì)可能會(huì)存在誤差,嚴(yán)重的時(shí)候會(huì)影響算法的效果。為此,我們需要一種更加精確的密度計(jì)算公式(4)。

在DPC中,聚類中心可以通過(guò)對(duì)決策圖分析得到,即δi和ρi都很大的點(diǎn)為聚類中心。但是,沒(méi)有一個(gè)標(biāo)準(zhǔn)去評(píng)判多大δi和ρi的點(diǎn)可以作為聚類中心。在聚類中心并不明顯時(shí),DPC算法又提供一個(gè)思路,將γi=ρiδi降序排列,截選去前N個(gè)點(diǎn)作為聚類中心。但是仍然不是一個(gè)自動(dòng)的過(guò)程。根據(jù)思路,設(shè)計(jì)自動(dòng)確定聚類中心的方法:對(duì)于任意數(shù)據(jù)集D,分別計(jì)算每一個(gè)數(shù)據(jù)點(diǎn)i的兩個(gè)屬性值:數(shù)據(jù)對(duì)象的局部密度和到具有更高局部密度的其他點(diǎn)的最小距離,從而根據(jù)γi=ρiδi得到數(shù)據(jù)集D中每個(gè)數(shù)據(jù)點(diǎn)i的γ分布圖,得到定理1。

定理1對(duì)于數(shù)據(jù)集D的所有數(shù)據(jù)點(diǎn)γ分布圖,在第一個(gè)概率密度為0的區(qū)間之后,若存在這樣的若干個(gè)區(qū)間,它的概率密度不為0且比相鄰的兩個(gè)區(qū)間大,則落在這些區(qū)間的數(shù)據(jù)被認(rèn)為是聚類中心。

在計(jì)算每個(gè)點(diǎn)的γi后,將其進(jìn)行歸一化到[0,1]空間,然后將[0,1]分割成100個(gè)區(qū)間,計(jì)算γi落在每個(gè)區(qū)間的點(diǎn)個(gè)數(shù),從而畫出γi的概率分布圖,分析概率分布圖,在第一個(gè)概率密度為0的區(qū)間之后,若存在這樣的若干個(gè)區(qū)間,它們都滿足其概率密度不為0且比相鄰的兩個(gè)區(qū)間大,則落在這些區(qū)間的數(shù)據(jù)被認(rèn)為是聚類中心。

假設(shè)取Five Circle Data Set數(shù)據(jù)為例,通過(guò)定理1計(jì)算獲得相應(yīng)區(qū)間的數(shù)據(jù),并將其作為聚類中心,實(shí)際數(shù)據(jù)驗(yàn)證了定義1的有效性。

圖1顯示了一個(gè)Five Circle Data Set的典型γ概率分布圖。圖1(a)為數(shù)據(jù)集的顯示,可以看出有密度分布的Five Circle Data Set理論上應(yīng)該有5個(gè)聚類中心,圖1(b)為其γ分布圖,橫軸為γ的區(qū)間數(shù),第i個(gè)區(qū)間的γ范圍為縱軸為γ落在這個(gè)區(qū)間的點(diǎn)的個(gè)數(shù)。從圖1(b)可以看出,γ分布在第一個(gè)或第二個(gè)區(qū)間的點(diǎn)非常多,且隨著區(qū)間數(shù)增加,概率密度急劇降為0。而在第一個(gè)密度為0的區(qū)間之后,形成幾個(gè)尖峰,可以發(fā)現(xiàn)尖峰的數(shù)量與理論上聚類中心個(gè)數(shù)很接近。至此驗(yàn)證了定理1。

FCA-SD第一階段為聚類分析,過(guò)程如下:

1.1.1計(jì)算每一對(duì)自體數(shù)據(jù)集S中的數(shù)據(jù)的距離,按升序排列,并確定dc;

1.1.2計(jì)算每一個(gè)S中數(shù)據(jù)對(duì)象的ρ、δ、γ,并進(jìn)行歸一化處理;

1.1.3取分割區(qū)間數(shù)100,畫出γ的概率分布圖。找到第一個(gè)概率密度為0的區(qū)間號(hào)i,并且令j=1;

1.1.4對(duì)于第j個(gè)區(qū)間,判斷此區(qū)間是否形成尖峰。如果不是,跳轉(zhuǎn)步驟1.1.7;

1.1.5如果j≤i,跳轉(zhuǎn)步驟1.1.7;

1.1.6將落在第j個(gè)區(qū)間的數(shù)據(jù)對(duì)象加入聚類中心集合Cen;

1.1.7如果j<200,j++并跳轉(zhuǎn)步驟1.1.4;否則,退出;

1.1.8根據(jù)聚類中心劃分每個(gè)數(shù)據(jù)對(duì)象,得到n個(gè)類簇,每個(gè)類簇集合記為Ci,i∈[1,n]。

FCA-SD通過(guò)這種方式,在γ分布圖上檢測(cè)尖峰來(lái)確定聚類中心。找到聚類中心后,運(yùn)用DPC算法的思想進(jìn)行分類;圖1(c)顯示了聚類的結(jié)果,不同點(diǎn)形表示不同的類簇。

FCA-SD只是利用聚類中心生成自體檢測(cè)器,并不是做單純的聚類,也沒(méi)有聚類準(zhǔn)確率這個(gè)指標(biāo),所以對(duì)聚類中心的個(gè)數(shù)沒(méi)有嚴(yán)格的要求。如果FCA-SD在Five Circle Data Set中選出了6個(gè)聚類中心,這是不要緊的,因?yàn)檫@只是意味著多了一個(gè)自體檢測(cè)器,并不是說(shuō)分類不準(zhǔn)確。

一種標(biāo)識(shí)噪聲與數(shù)據(jù)點(diǎn)邊界的新方法,該階段建立在聚類分析完成的基礎(chǔ)上,基于每個(gè)類簇的ρ概率分布圖找到多個(gè)合適的密度閾值劃分噪聲點(diǎn)與邊界點(diǎn);

DPC介紹了每個(gè)類簇的邊界區(qū)域來(lái)剔除噪聲。邊界定義為這樣的點(diǎn)集,點(diǎn)集里屬于一個(gè)類簇的點(diǎn)在距離dc之內(nèi)存在著屬于看另一個(gè)類簇的點(diǎn)。找出每個(gè)類簇的邊界中密度最高的點(diǎn),將其密度記錄為ρb,即為噪聲閾值。但是,當(dāng)噪聲的數(shù)量比較少,分屬每個(gè)類簇的噪聲之間的距離都大于截?cái)嗑嚯x時(shí),每個(gè)類簇的ρb不能被計(jì)算。

定理2.在分割區(qū)間數(shù)n合適的歸一化ρ密度分布圖中,如果第一個(gè)區(qū)間的概率密度大于第二個(gè)區(qū)間的概率密度,那么總存在第一個(gè)波谷所在的區(qū)間i,這個(gè)區(qū)間的密度上限即為噪聲密度閾值ρb,密度小于ρb的點(diǎn)為噪聲。

定理3.在分割區(qū)間數(shù)n合適的歸一化ρ密度分布圖中,在左半平面總存在一個(gè)概率密度最大的區(qū)間j,這個(gè)區(qū)間的密度下限即為邊界密度閾值ρc,密度介于ρb和ρc之間的點(diǎn)為邊界點(diǎn)。

FCA-SD設(shè)計(jì)了一個(gè)新的判定噪聲閾值的辦法:把所有點(diǎn)的密度ρ歸一化到[0,1]區(qū)間,將[0,1]合適地分割成k等分,與γ分布圖相似,也畫出每個(gè)類的ρ分布圖。如果從第一個(gè)區(qū)間開始,單調(diào)遞減過(guò)后出現(xiàn)的是第一個(gè)概率密度低谷,其所在區(qū)間號(hào)為m,將這個(gè)區(qū)間的密度上限作為該類的噪聲閾值ρbi,即該類中密度小于ρbi的數(shù)據(jù)對(duì)象被認(rèn)為是噪聲。如果從第一個(gè)點(diǎn)開始單調(diào)遞增過(guò)后出現(xiàn)的是第一個(gè)波峰,則該類的ρbi為0。

以Five Circle Data Set為例。圖2(a)顯示了無(wú)噪聲下Five Circle Data Set每個(gè)類的ρ分布圖,圖2(b)顯示了5%噪聲下Five Circle Data Set每個(gè)類的ρ分布圖,第一個(gè)圖為存在噪聲的聚類結(jié)果圖,分割區(qū)間數(shù)k均取50個(gè)??梢园l(fā)現(xiàn)一個(gè)明顯的區(qū)別:有噪聲時(shí),ρ分布圖一開始呈下降的趨勢(shì)且形成一個(gè)波谷,而無(wú)噪聲時(shí)ρ分布圖一開始從0增加到一個(gè)波峰。這就是由于噪聲的密度與類簇中點(diǎn)的密度有一定的差距,即噪聲的最大密度與類簇中點(diǎn)的最小密度有一定的間隔。如果我們適當(dāng)?shù)倪x擇分割區(qū)間,就可以找到這個(gè)密度間隔,落在這個(gè)密度間隔內(nèi)的點(diǎn)很少。因此,第一個(gè)波谷就把噪聲與類簇區(qū)分開,這個(gè)波谷所在的密度區(qū)間的密度上限就作為了該類的密度閾值ρbi,每個(gè)類中密度小于這個(gè)閾值的點(diǎn)即為噪聲。一般的,F(xiàn)CA-SD取分割區(qū)間數(shù)為50,對(duì)于噪聲密度較高或較低的數(shù)據(jù)集,可以適當(dāng)調(diào)整分割區(qū)間數(shù)以獲得更加準(zhǔn)確地噪聲閾值。

在剔除噪聲后,為了形成半徑自適應(yīng)自體檢測(cè)器,需要去找出自體集的邊界。在確定合適的分割區(qū)間數(shù)后,F(xiàn)CA-SD算法分析每個(gè)類的ρ分布圖,從左半部分的波形圖上找到最大尖峰值,即落在這個(gè)密度區(qū)間的點(diǎn)個(gè)數(shù)最多且大于相鄰兩個(gè)區(qū)間,這個(gè)區(qū)間的密度下限記為ρc。因?yàn)槲覀兪菑淖蟀氩糠值牟ㄐ沃姓业摩?sub>c,所以ρc∈[0,0.5]。FCA-SD將密度ρi滿足ρb≤ρi≤ρc的點(diǎn)i作為邊界點(diǎn),它們?cè)谛纬勺泽w檢測(cè)器中發(fā)揮作用。

FCA-SD第二階段為噪聲標(biāo)識(shí)與邊界檢測(cè),n為類簇個(gè)數(shù),Ci為第i個(gè)類簇集合,i∈[1,n],檢測(cè)過(guò)程如下:

1.2.1i=1;

1.2.2對(duì)于第i個(gè)類簇,畫出它的ρ分布圖;

1.2.3在分割區(qū)間數(shù)n的歸一化ρ密度分布圖中,如果第一個(gè)區(qū)間的概率密度大于第二個(gè)區(qū)間的概率密度,那么總存在第一個(gè)波谷所在的區(qū)間i,這個(gè)區(qū)間的密度上限即為噪聲密度閾值ρbi;

在左半平面總存在一個(gè)概率密度最大的區(qū)間j,這個(gè)區(qū)間的密度下限即為邊界密度閾值ρci;

1.2.3對(duì)于Ci中的每一個(gè)點(diǎn),密度小于ρbi標(biāo)識(shí)為噪聲,密度大于ρbi而小于ρci標(biāo)識(shí)為邊界;

1.2.4如果i≥n,退出;否則i++,跳轉(zhuǎn)步驟1.2.2。

圖3顯示了在噪聲比例5%下,噪聲的剔除和邊界檢測(cè)的結(jié)果。黑點(diǎn)標(biāo)識(shí)被剔除的噪聲,在每個(gè)類簇中邊界點(diǎn)用小圓點(diǎn)標(biāo)識(shí),邊界以內(nèi)的點(diǎn)用大圓點(diǎn)標(biāo)識(shí)??梢钥闯觯現(xiàn)CA-SD算法可以準(zhǔn)確得剔除噪聲并檢測(cè)邊界。

生成自體檢測(cè)器階段,采用自適應(yīng)半徑大檢測(cè)器和固定半徑小檢測(cè)器結(jié)合的形式,生成個(gè)數(shù)少、覆蓋域好的自體檢測(cè)器。

標(biāo)識(shí)出噪聲和邊界后,F(xiàn)CA-SD開始生成自體檢測(cè)器。首先,我們以每個(gè)非噪聲的點(diǎn)為圓心,生成半徑為RS(RS為FCA-SD算法的輸入?yún)?shù),與V-detector和FtNSA算法中的自體半徑一致)的固定半徑自體檢測(cè)器。這樣生成的自體檢測(cè)器是很多的,而且會(huì)出現(xiàn)重疊現(xiàn)象。然后,我們以聚類中心為圓心,以聚類中心到最近的邊界點(diǎn)的距離為半徑,生成一個(gè)大圓,并且將完全鑲嵌在這個(gè)大圓里的無(wú)用常半徑自體檢測(cè)器剔除,這樣就大大減少自體檢測(cè)器的個(gè)數(shù)。但是,自體檢測(cè)器還是存在一些重疊,是否重疊由公式(5)定義。

Sij標(biāo)志自體檢測(cè)器i和自體檢測(cè)器j是否被判定為重疊,ci和cj為兩個(gè)自體檢測(cè)器的中心。

當(dāng)有兩個(gè)自體檢測(cè)器被判定為重疊時(shí),只要選擇其中一個(gè)剔除即可。

FCA-SD第三階段為自體檢測(cè)器生成,n為類簇個(gè)數(shù),Ci為第i個(gè)類簇集合,i∈[1,n],Rs為自體半徑,過(guò)程如下:

1.3.1i=1;

1.3.2對(duì)于第i個(gè)類簇,以每一個(gè)不是噪聲的點(diǎn)為圓心,Rs為固定半徑生成自體檢測(cè)器;

1.3.3獲取第i個(gè)類簇的聚類中心,找到距離這個(gè)聚類中心最近的一個(gè)邊界點(diǎn),兩者距離記為Rc。以聚類中心為圓心,Rc為自適應(yīng)半徑生成大自體檢測(cè)器;

1.3.4檢測(cè)出被大自體檢測(cè)器包含的固定半徑檢測(cè)器,將它們剔除;

1.3.5對(duì)第i個(gè)類的自體檢測(cè)器進(jìn)行重疊分析,剔除無(wú)用自體檢測(cè)器;

1.3.6如果i≥n,退出;否則i++,跳轉(zhuǎn)步驟1.3.2。

圖4(a)說(shuō)明采用固定半徑的自體檢測(cè)器,會(huì)導(dǎo)致大量重疊,尤其是在訓(xùn)練數(shù)據(jù)密度很高的區(qū)域內(nèi),自體檢測(cè)器個(gè)數(shù)十分多,這在生成檢測(cè)器階段效率是很低的。圖4(b)為FCA-SD算法生成的自體檢測(cè)器,以聚類中心為圓心的大圓很好的覆蓋了密度很高區(qū)域的自體檢測(cè)器,使自體檢測(cè)器大大減少。另外自體區(qū)域邊緣的檢測(cè)器個(gè)數(shù)也下降不少。圖4說(shuō)明了FCA-SD算法可以很好地將自體的個(gè)數(shù)降低,提高生成檢測(cè)器的效率。

針對(duì)于V-detector算法檢測(cè)器多且重疊嚴(yán)重的現(xiàn)象,V-ND算法對(duì)其進(jìn)行了2個(gè)方面的改進(jìn):(1)增加重疊判斷;(2)增加檢測(cè)器半徑下限。

判斷兩個(gè)檢測(cè)器是否重疊,可以用兩個(gè)檢測(cè)器中心的距離dis與兩個(gè)檢測(cè)器的半徑R1,R2的關(guān)系來(lái)判斷。如圖5(a)所示,兩個(gè)檢測(cè)器內(nèi)切,滿足dis=R1-R2(這里我們假設(shè)R1大于R2),顯然這種情況是重疊的,檢測(cè)器2是無(wú)用的檢測(cè)器。如圖5(b)所示,檢測(cè)器2的中心在檢測(cè)器1上,滿足dis=R1,但檢測(cè)器2仍然有檢測(cè)器1覆蓋不到的空間,所以V-ND認(rèn)為它們不重疊。若是檢測(cè)器1與檢測(cè)器2的dis滿足R1-R2<dis<R1,我們通過(guò)(6)來(lái)判斷它們是否重疊,若是滿足(6),則判斷為重疊,ma為預(yù)設(shè)值,本發(fā)明取0.1。

dis<R1+R2(ma-1) (6)

V-ND與V-detector算法僅有的不同為保存候選檢測(cè)器的條件。V-ND算法在保存候選檢測(cè)器時(shí)增加兩個(gè)條件:1.檢測(cè)器半徑>Rs;2.利用重疊判定規(guī)則不與已有檢測(cè)器重疊。如果不滿足這兩個(gè)條件,V-ND不會(huì)接受這個(gè)候選檢測(cè)器,而是考慮其他更優(yōu)良的候選檢測(cè)器。圖7表示V-detector與V-ND算法生成的檢測(cè)器對(duì)比,一個(gè)黑圈代表一個(gè)檢測(cè)器,黑圈覆蓋的范圍為檢測(cè)器的覆蓋區(qū)域??梢园l(fā)現(xiàn),V-detector算法檢測(cè)器的覆蓋域與V-ND算法檢測(cè)器的覆蓋域幾乎一樣,但前者的個(gè)數(shù)為500個(gè),后者個(gè)數(shù)為164個(gè),差不多是3倍左右,也就是說(shuō)V-ND算法將檢測(cè)器的個(gè)數(shù)降低了約67%。

設(shè)置檢測(cè)器半徑的下限主要是為了防止過(guò)小檢測(cè)器的產(chǎn)生。一方面過(guò)小的檢測(cè)器覆蓋區(qū)域很小,即產(chǎn)生的貢獻(xiàn)很小。另一方面,過(guò)小的檢測(cè)器容易侵入自體區(qū)域,引起虛警率的提高。在本發(fā)明中,設(shè)置檢測(cè)器半徑下限為自體半徑Rs。

檢測(cè)算法MD為了追求檢測(cè)效率,采用最簡(jiǎn)單,最快速的檢測(cè)方案。在檢測(cè)時(shí)只使用異常檢測(cè)器,而不掃描自體檢測(cè)器,只要是被異常檢測(cè)器激活的對(duì)象都被認(rèn)為是異常個(gè)數(shù),沒(méi)有被異常檢測(cè)器激活的對(duì)象被認(rèn)為是正常個(gè)體。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1