本發(fā)明屬于數(shù)據(jù)挖掘
技術(shù)領(lǐng)域:
,具體的說是一種數(shù)據(jù)流中基于模式發(fā)現(xiàn)的貝葉斯分類器。
背景技術(shù):
:目前基于模式的貝葉斯分類模型大多是針對靜態(tài)數(shù)據(jù)集合的,通常不能適應(yīng)于高速動態(tài)變化與無限的數(shù)據(jù)流環(huán)境。對此提出一種基于模式發(fā)現(xiàn)的數(shù)據(jù)流環(huán)境下貝葉斯分類學(xué)習(xí)模型以適應(yīng)高速的數(shù)據(jù)流環(huán)境。分類是在已有數(shù)據(jù)的基礎(chǔ)上構(gòu)建一個分類模型,該模型能夠把數(shù)據(jù)庫中的數(shù)據(jù)記錄映射到給定類別中的某一個,從而可以用于數(shù)據(jù)預(yù)測。貝葉斯分類器是一種已有廣泛研究的分類器。構(gòu)造貝葉斯分類模型中一個難點是對貝葉斯理論中聯(lián)合概率的計算,這通常需要借助某種簡化模型。最經(jīng)典的簡化模型是樸素貝葉斯(Bays,NB),其基于條件獨立性的假設(shè),即數(shù)據(jù)集中所有的屬性都條件獨立于給定的類屬性。但是NB提出的條件獨立性假設(shè)在現(xiàn)實數(shù)據(jù)中很少成立。因此之后提出了許多算法來弱化Bays的條件獨立性假設(shè)。一種是以研究屬性之間的低階依賴為代表的貝葉斯網(wǎng)絡(luò);另一種從屬性之間的高階依賴出發(fā),通過在數(shù)據(jù)集中抽取的頻繁模式來建立聯(lián)合概率的乘積近似值。在文獻(xiàn)“Bayesianapproachtouseemergingpatternsforclassification.”(Fan,H.,J.,andRamamohanarao,K.AIn:Schewe,K.,D.,andZhou,X.,F(xiàn).(eds.).TheProceedingofthe14thAustralasianDatabaseConference.Darlinghurst,Australia:AustralianComputerSociety,2003.pp.39-48.)中,當(dāng)分類請求時才抽取頻繁項集,接著在抽取的項集上依據(jù)條件依賴模型建立乘積近似值。并且對于待分類實例在每一個類標(biāo)值下建立相同結(jié)構(gòu)的乘積近似值。項集抽取的原則是抽取盡可能多的項集來覆蓋待分類實例并且抽取項集之間的包含盡可能多的重復(fù)項。這種方法的缺點首先是乘積近似值與類標(biāo)的關(guān)聯(lián)性非常弱;其次算法添加頻繁項集直到?jīng)]有可用的頻繁項集,以致乘積近似值中包含乘積項的個數(shù)很大程度依賴于給定最小支持度閥值。在文獻(xiàn)“RIB:Arobustitemset-basedBayesianapproachtoclassification.”(Baralis,E.,Cagliero,L.Knowledge-BasedSystems,Volume71,2014.pp.366-375.)中,分類器遵從屬性獨立假設(shè),算法選擇長的非重復(fù)的完全覆蓋待分類實例的頻繁項集的最小集合。并對于同一待分類實例根據(jù)類標(biāo)值抽取不同的頻繁項集集合來構(gòu)建不同結(jié)構(gòu)的乘積近似值。抽取項集的算法采用貪婪式策略,抽取過程是迭代式的,算法無限循環(huán)直到抽取到的項集集合完全覆蓋待分類實例。同時在每一次迭代的過程中都需要計算項集中屬性的依賴程度進(jìn)行比較來選擇局部最優(yōu)項集。這樣算法需要將大量的工作集中于分類器測試階段,分類器建立過程時間長從而響應(yīng)分類請求速度慢。文獻(xiàn)“DSM-FI:Anefficientalgorithmforminingfrequentitemsetsindatastreams.Li,H.,F(xiàn).,Shan,M.,K.,andLee,S.,Y.”(KnowledgeandInformationSystems,Volume17,Number1,2008.pp.79-97.)中提出的DSM-FI算法用于在連續(xù)的事務(wù)型數(shù)據(jù)流上增量地挖掘頻繁項集。算法使用界標(biāo)窗口模型來獲取流數(shù)據(jù),并且提出了頻繁項集查找機(jī)制用于抽取頻繁項集。但是DSM-FI算法中,數(shù)據(jù)結(jié)構(gòu)的構(gòu)造過程較為復(fù)雜,并且對同一事務(wù)中的項中存在重復(fù)存儲的現(xiàn)象。另外DSM-FI算法在抽取頻繁項集時需要進(jìn)行多次的篩選,在這個過程中需要產(chǎn)生候選項集。數(shù)據(jù)流是一個高速的,理論上無限的數(shù)據(jù)元素的連續(xù)序列并且數(shù)據(jù)的分布可能隨著時間發(fā)生變化。不同于靜態(tài)數(shù)據(jù)集合上分類模型的建立,基于模式的數(shù)據(jù)流分類器需要處理以下問題:(1)數(shù)據(jù)流算法在任意時刻只能獲取數(shù)據(jù)流的一個數(shù)據(jù)片段,因此與能多次掃描全部數(shù)據(jù)適用于靜態(tài)數(shù)據(jù)集合的算法相比,在數(shù)據(jù)流上算法難以確定挖掘出的頻繁模式的完整性。(2)當(dāng)分類請求出現(xiàn)時,算法處理的當(dāng)前片段中可能不包含待分類實例中所有的項。(3)由于數(shù)據(jù)流高速和無界的特點,算法必須在有限的處理時間和內(nèi)存消耗內(nèi)完成數(shù)據(jù)處理。(4)數(shù)據(jù)流中數(shù)據(jù)的分布可能發(fā)生變化,算法必須能夠快速的適應(yīng)變化。因此,本發(fā)明力求解決如何在高速動態(tài)變化與無限的數(shù)據(jù)流環(huán)境中建立高效的分類模型。技術(shù)實現(xiàn)要素:技術(shù)問題:本發(fā)明致力于在數(shù)據(jù)流環(huán)境下建立基于模式的貝葉斯分類模型,因而提出了使用半懶散式學(xué)習(xí)策略的基于模式的數(shù)據(jù)流貝葉斯分類器PDSB(Pattern_basedDataStreamBayesianClassifier)。PDSB在訓(xùn)練階段只對數(shù)據(jù)進(jìn)行初步的處理即建立項的形式的數(shù)據(jù)表達(dá)。當(dāng)有分類請求時,算法依據(jù)待分類實例抽取頻繁模式并且在抽取到的模式上建立對待分類實例特定的局部分類模型。技術(shù)方案:該方法主要有兩個階段組成:模式發(fā)現(xiàn)階段和建立分類器階段。為建立數(shù)據(jù)流中基于模式的貝葉斯分類模型,本發(fā)明提出了一個單次掃描算法FFI使用滑動窗口模型用于在連續(xù)數(shù)據(jù)流上挖掘頻繁項集。其具體步驟包括如下:(1)數(shù)據(jù)流上的模式發(fā)現(xiàn)作為建立基于模式的貝葉斯分類模型,提出了基于DSM-FI使用滑動窗口模型的單次掃描算法FFI(Findfrequentitemsetfromdatastream)用于在連續(xù)數(shù)據(jù)流上挖掘頻繁項集。FFI算法使用滑動窗口模型來獲取流數(shù)據(jù),對于當(dāng)前窗口SW=(T1,T2,...,Tw),其中w是滑動窗口的大小。FFI讀取事務(wù)Ti,并將其類標(biāo)ci∈C進(jìn)行劃分,對不同劃分的事務(wù)集分別建立混合樹結(jié)構(gòu)對于項集的抽取也是按類標(biāo)在不同的HTSi中分別進(jìn)行抽取的。主要包括以下步驟:1)FFI算法讀取當(dāng)前窗口中的事務(wù),并且按事務(wù)的類標(biāo)值對事務(wù)進(jìn)行劃分;2)FFI算法建立混合樹結(jié)構(gòu)HTS來存儲當(dāng)前窗口中事務(wù)的所有項;根據(jù)事務(wù)的劃分結(jié)果將事務(wù)加入到不同的混合結(jié)構(gòu)中;3)當(dāng)窗口中的事務(wù)發(fā)現(xiàn)變化時(新的事務(wù)到來舊的事務(wù)被丟棄),F(xiàn)FI算法需對混合樹結(jié)構(gòu)HTS進(jìn)行修剪,刪除不在當(dāng)前窗口中事務(wù)的信息;4)當(dāng)有分類請求時,根據(jù)待分類實例T在混合樹結(jié)構(gòu)HTS={HTSi}中分別選擇頻繁項集集合。具體說來,給定的數(shù)據(jù)流DS包含屬性A1,A2,A3,A4,...,An和類屬性C。ci是任意的類屬性值,Ttest={x1,x2,...,xn}是待分類實例;當(dāng)有分類請求時,根據(jù)待分類實例Ttest={x1,x2,...,xn}分別在混合結(jié)構(gòu)HTS={HTSi}中抽取與待分類實例具有相同項的項集集合。(2)建立分類器階段該方法是半懶惰式的,只有當(dāng)有待分類請求時才對待分類實例建立特定的分類模型。算法使用在數(shù)據(jù)流中抽取的頻繁模式來估計貝葉斯概率,在屬性獨立假設(shè)下依照條件獨立模型建立乘積近似值。用于建立乘積近似值的項集必須滿足下列要求:1)抽取的項集之間不包含重復(fù)的項兩個項集包含重復(fù)的項即這兩個項集的所有項的集合之間存在交集。如果選擇的項集之間存在重復(fù)的項則構(gòu)建的乘積近似值將不滿足屬性獨立假設(shè),因為乘積項所表示的屬性集合之間存在交集。2)選擇盡可能長的項集項集的長度是指項集中包含項的個數(shù)。在抽取不包含重復(fù)項的前提下抽取的項集越長則乘積近似值中包含的乘積項就越少。所以建立的乘積近似值就越加符合屬性獨立假設(shè)。同時,在估計聯(lián)合概率是也會將越多的屬性依賴關(guān)系考慮進(jìn)去。3)選擇盡可能覆蓋待分類實例的項集集合由于數(shù)據(jù)流是無限的而算法只能使用有限的內(nèi)存,當(dāng)有待分類實例到來時,算法不能遍歷整個數(shù)據(jù)集來抽取項集。另外,由于數(shù)據(jù)流是動態(tài)的,數(shù)據(jù)的底層分布可能隨時變化即存在概率漂移的情況,若發(fā)生概念漂移歷史數(shù)據(jù)將不再適用于當(dāng)前情況,所以近期的數(shù)據(jù)的重要性要大于歷史數(shù)據(jù)。使用最近的數(shù)據(jù)建立分類模型也保證了分類模型在一定程度上避免了概率漂移的發(fā)生,因為它受到歷史數(shù)據(jù)干擾較小。這些情況表明了在數(shù)據(jù)流上數(shù)據(jù)挖掘中可能存在抽取的項集集合不能夠完全覆蓋待分類實例的情況。4)項集的最小集合最小是指集合中包含的元素(即項集)個數(shù)最少。在盡可能抽取到足夠多的項的情況下希望抽取到的項集集合是最小集,即希望組成乘積近似值的乘積項盡可能的少。這樣可以最小化獨立假設(shè)的數(shù)量,從而使得乘積近似值更加符合條件獨立模型。分類器的訓(xùn)練階段的主要工作是處理數(shù)據(jù),即抽取并維護(hù)事務(wù)中頻繁或非頻繁項以方便后續(xù)分類模型的建立。所以在這一階段的主要任務(wù)是建立混合樹結(jié)構(gòu),當(dāng)有新的數(shù)據(jù)生成時更新滑動窗口和相應(yīng)的混合樹結(jié)構(gòu)。當(dāng)有分類請求時,PDSB抽取盡可能包含待分類實例所有項的頻繁項集集合來估計貝葉斯理論中的概率。有益效果:本發(fā)明提出的方法在運(yùn)行時間和分類精度上具有較高的性能,更加適應(yīng)數(shù)據(jù)流動態(tài)的環(huán)境。附圖說明圖1與NaiveBayes在randomRBF數(shù)據(jù)集上的分類精度比較圖2與Bayes在Connect-4數(shù)據(jù)集上的分類精度比較圖3與k-NN和k-NNwithPAW在SEA數(shù)據(jù)集上的分類精度比較圖4與k-NN和k-NNwithPAW在agrawal數(shù)據(jù)集上的分類精度比較圖5與RuleClassifier和RuleClassifierNBayes在agrawal數(shù)據(jù)集上的分類精度比較圖6與RuleClassifier和RuleClassifierNBayes在randomRBF數(shù)據(jù)集上的分類精度比較圖7與HoeffdingTree和HoeffdingOptionTree在agrawal數(shù)據(jù)集上的分類精度比較圖8與HoeffdingTree和HoeffdingOptionTree在SEA數(shù)據(jù)集上的分類精度比較具體實施方法以下結(jié)合附圖和實施例對本發(fā)明的技術(shù)方案作進(jìn)一步描述。PDSB是一個半懶惰式分類器,在訓(xùn)練階段建立以項形式的密集數(shù)據(jù)表達(dá)。當(dāng)有待分類請求時才對待分類實例建立特定的分類模型。(1)在數(shù)據(jù)流中創(chuàng)建乘積近似值PDSB使用在數(shù)據(jù)流中抽取的頻繁模式來估計貝葉斯概率,在屬性獨立假設(shè)下依照條件獨立模型建立乘積近似值。1)抽取的項集決定乘積近似值的結(jié)構(gòu)。例如,給定的數(shù)據(jù)流DS包含屬性A1,A2,A3,A4,A5和類屬性C。ci是任意的類屬性值,T={a1,a2,...,a5}是待分類實例,為估計概率P(T,ci)的值算法需要在混合樹結(jié)構(gòu)HTSi抽取項集,其中HTSi由類標(biāo)為ci的數(shù)據(jù)建立的。如果抽取項集集合為{{a1,a2,a3},{a4,a5}}則建立的用于估計概率的乘積近似值為P(T,ci)=P(a1,a2,a3,a4,a5,ci)≈P(ci)P(a1a2a3|ci)。如果抽取項集集合為{{a1,a2},{a3},{a4,a5}}則建立的用于估計概率的乘積近似值為P(T,ci)=P(a1,a2,a3,a4,a5,ci)≈P(ci)P(a1a2a3|ci)P(a4a5|ci)P(a3|ci)。2)PDSB對同一個待分類實例在各個類標(biāo)上分別抽取項集,即乘積近似值的結(jié)構(gòu)與類標(biāo)相關(guān)。例如:設(shè)定類屬性C有屬性值c3,c3,c3。為預(yù)測待分類實例T={a1,a2,...,a5}的類標(biāo),PDSB需要從混合樹結(jié)構(gòu)HTS1,HTS2和HTS3中分別抽取項集集合。若從混合樹結(jié)構(gòu)HTS1中抽取的項集集合為{{a1,a2,a3},{a4,a5}};從混合樹結(jié)構(gòu)HTS2中抽取的項集集合為{{a1,a2},{a3},{a4,a5}};從混合樹結(jié)構(gòu)HTS3中抽取的項集集合為{{a1,a2,a3,a4},{a5}};則概率P(T,c1)的乘積近似值為P(T,c1)=P(a1,a2,a3,a4,a5,c1)≈P(c1)P(a1a2a3|c1)P(a4a5|c1);概率P(T,c2)的乘積近似值為P(T,c2)=P(a1,a2,a3,a4,a5,c2)≈P(c2)P(a1a2a3|c2)P(a3|c2)P(a4a5|c2);概率P(T,c3)的乘積近似值為P(T,c3)=P(a1,a2,a3,a4,a5,c3)≈P(c1)P(a1a2a3a4|c3)P(a5|c3);3)乘積近似值中每一個乘積項中所隱含的屬性集條件獨立于給定的類標(biāo);例如,聯(lián)合概率P(T,ci)的乘積近似值為P(T,ci)=P(a1,a2,a3,a4,a5,ci)≈P(ci)P(a1a2a3|ci)P(a4a5|ci),其中乘積項P(a1a2a3|ci)和P(a4a5|ci)的表示的屬性集分別為{A1,A2,A3}和{A4,A5},則這兩個屬性集之間相互獨立。由于數(shù)據(jù)流是無限的而算法只能使用有限的內(nèi)存,當(dāng)有待分類實例到來時,算法不能夠遍歷整個數(shù)據(jù)集來抽取項集。另一方面,由于數(shù)據(jù)流是動態(tài)的,數(shù)據(jù)的底層分布可能隨時變化而存在概率漂移的情況,若發(fā)生概念漂移歷史數(shù)據(jù)將不再適用于當(dāng)前情況,所以近期的數(shù)據(jù)的重要性要大于歷史數(shù)據(jù)。使用最近的數(shù)據(jù)建立分類模型也保證了分類模型在一定程度上避免了概率漂移的發(fā)生,因為它受到歷史數(shù)據(jù)干擾較小。這些情況表明了為符合數(shù)據(jù)流上數(shù)據(jù)挖掘的要求,可以存在抽取的項集集合不能夠完全覆蓋待分類實例的情況。在本方法中使用Laplace平滑來處理這種情況。舉例:T={a1,a2,...,a5}是待分類實例,ci是任意類屬性值。從混合樹結(jié)構(gòu)HTSi中抽取到的項集集合為{{a1,a2,a3},{a5}}。項集集合中包含的所有項不能夠完全覆蓋待分類實例中的所有項{a1,a2,a3,a4,a5}。我們使用公式1來估計聯(lián)合概率P(T,ci)的值。P(T,ci)=P(a1,a2,...,a5,ci)(1)≈P(ci)P(a1a2a3|ci)P(a5|ci)≈P(ci)P(a1a2a3|ci)P(a5|ci)·P(a4|ci)其中P(a1a2a3|ci)=count(a1a2a3ci)+1count(ci)+attnum(A1)+attnum(A2)+attnum(A3)]]>P(a4|ci)=1count(ci)+attnum(A4)]]>其中,函數(shù)attnum(A4)是計算屬性A4中的屬性值的個數(shù)。函數(shù)count(ci)是記錄當(dāng)前窗口中類標(biāo)為ci的事物個數(shù)。4)項集的最小集合最小是指集合中包含的元素(即項集)個數(shù)少。在盡可能抽取到足夠多的項的情況下希望抽取到的項集集合是最小集,即希望組成乘積近似值的乘積項盡可能的少。這樣能最小化獨立假設(shè)的數(shù)量使得乘積近似值更加符合條件獨立模型。舉例:T={a1,a2,...,a5}是待分類實例,ci是任意類屬性值。從混合樹結(jié)構(gòu)HTSi中抽取到的項集集合為{{a1,a2},{a3}}。項集集合中包含的所有項不能夠完全覆蓋待分類實例中的所有項{a1,a2,a3,a4,a5}。我們使用公式2來估計聯(lián)合概率P(T,ci)的值。P(T,ci)=P(a1,a2,...,a5,ci)(2)≈P(ci)P(a1a2|ci)P(a3|ci)·P(a4a5|ci)其中P(a4a5|ci)=1count(ci)+attnum(A4)+attnum(A5)]]>2.PDSB分類器訓(xùn)練階段在PDSB分類器的訓(xùn)練階段的主要工作是處理數(shù)據(jù),即抽取并維護(hù)事務(wù)中頻繁或非頻繁項以方便后續(xù)分類模型的建立。所以在這一階段的主要任務(wù)是建立混合樹結(jié)構(gòu),當(dāng)有新的數(shù)據(jù)生成時更新滑動窗口和相應(yīng)的混合樹結(jié)構(gòu)。算法1描述了在訓(xùn)練階段使用滑動窗口模型處理數(shù)據(jù)的完整過程。算法1:FFI:Findfrequentitemalgorithmondatastream輸入:數(shù)據(jù)流DS=(T1,T2,...,Tn,...),滑動窗口大小w;輸出:混合樹結(jié)構(gòu)HTS={HTSi},其中i為對應(yīng)的類標(biāo)值;3.類標(biāo)預(yù)測PDSB分類器是一個半懶惰式的基于模式的數(shù)據(jù)流貝葉斯分類器。對于待分類實例Ttest,在每一個類值所對應(yīng)的混合結(jié)構(gòu)HTSi抽取項集并且計算概率P(T,ci);將每一次抽取到的最佳項集添加到finalItemset中,finalItemset是用于最終計算概率的頻繁項集的集合,finalItemset中的項集都相互獨立,項集之間沒有相同的項。算法2描述了PDSB分類器為待分類實例預(yù)測類標(biāo)的過程。算法2:ClassifierClassPrediction(HTS,Ttest,min_sup)輸入:HTS={HTSi},最小用戶支持度閥值min_supand測試實例Ttest輸出:Ttest待分類實例Ttest的類標(biāo)c當(dāng)有分類請求時,PDSB抽取盡可能包含待分類實例所有項的頻繁項集集合來估計貝葉斯理論中的概率。算法3描述了用于建立乘積近似值的頻繁項集的抽取過程。算法3:selectBestItemset(Ttest,HTSi,min_sup)輸入:測試實例Ttest;混合樹結(jié)構(gòu)HTSi;用戶定義最小支持度min_sup;輸出:thebestfrequentitemsetBestFpattern;本發(fā)明的仿真結(jié)果本方明進(jìn)行了大量實驗主要從分類精度和運(yùn)行時間兩個方面對算法的性能進(jìn)行評價,同時還研究算法參數(shù)調(diào)整對分類器性能的影響。實驗平臺是MassiveOnlineAnalysis(MOA)。實驗在3.00GHz、Intel(R)Core(TM)2DuoCPU、4G內(nèi)存、Windows7系統(tǒng)的計算機(jī)上進(jìn)行。在真實數(shù)據(jù)集和合成數(shù)據(jù)集上進(jìn)行實驗。真實數(shù)據(jù)集是5個UCI機(jī)器學(xué)習(xí)庫中的數(shù)據(jù)集。合成數(shù)據(jù)集是使用數(shù)據(jù)生成器中生成的數(shù)據(jù)集。表1中列出真實數(shù)據(jù)和合成數(shù)據(jù)的主要特征。Table1Syntheticandrealdatasetscharacterisdcs表1真實數(shù)據(jù)和合成數(shù)據(jù)表1中的數(shù)據(jù)集Chess,Connect-4,EEG,F(xiàn)irm和MAGIC來自UCI機(jī)器學(xué)習(xí)庫。數(shù)據(jù)集agrawal,randomRBF,randomRBFdrift,SEA和STAGGER分別是由數(shù)據(jù)生成器AgrawalGenerator,RandomRBFGenerator,randomRBFdrift,SEAGenerator和STAGGERGenerator生成器生成的100,000條事務(wù)組成的;1數(shù)據(jù)預(yù)處理有連續(xù)屬性值的數(shù)據(jù)不能夠以項或者關(guān)聯(lián)規(guī)則的形式用于分類器。為了增加可用數(shù)據(jù),在PDSB分類器中對數(shù)據(jù)集進(jìn)行屬性離散化操作。PDSB分類器中對數(shù)據(jù)的連續(xù)屬性值離散化采用的是最小化信息熵的啟發(fā)式算法。離散化代碼來自MOA平臺。表2中列出預(yù)處理之后數(shù)據(jù)的主要特征。表中的屬性Attribute不包含類屬性,表中的項Item不包含類屬性-值對。Table2datasetsafterpre-processing表2預(yù)處理之后的數(shù)據(jù)集2實驗?zāi)P褪褂妙A(yù)測誤差估計法(prequentialerrorestimators)對算法性能進(jìn)行評價。對于PDSB分類器,設(shè)置了二種參數(shù)配置,第一種是標(biāo)準(zhǔn)型,標(biāo)準(zhǔn)型參數(shù)設(shè)置對所有數(shù)據(jù)集將滑動窗口的窗口大小w固定為w=10%*n,其中n是數(shù)據(jù)集的實例個數(shù);將最小支持度閾值固定為min_sup=0.01%*w,其中w是當(dāng)前窗口大小。第二種是調(diào)整型,由于算法在不同數(shù)據(jù)集上達(dá)到最優(yōu)的情況下參數(shù)的設(shè)置是不同的。調(diào)整型參數(shù)設(shè)置對每一個數(shù)據(jù)集分別調(diào)整滑動窗口的窗口大小w=p*n其中p∈[10%,90%]和最小支持度閾值min_sup=q*w的值以使得算法在該數(shù)據(jù)集上達(dá)到最優(yōu)性能。3分類精度將PDSB分類器與數(shù)據(jù)流貝葉斯分類器進(jìn)行精度比較。由于PDSB是基于模式的半懶惰式分類器,將PDSB與關(guān)聯(lián)性分類器和懶惰式分類器進(jìn)行比較。最后為了實驗的全面性,將PDSB與其它分類器(非貝葉斯和非關(guān)聯(lián)性的急切式分類器)進(jìn)行比較。表3中給出了各個分類器的分類精度。表中第一列描述了使用的數(shù)據(jù)集。第2,3,4,5,6,7,8,9,10,11,12列分別給出了分類器NaiveBayes,NaiveBayesMultinomial、kNN、kNNwithPAW、RuleClassifier、RuleClassifierNBayes、HoeffdingTree、HoeffdingOptionTree、SGD、ORTO和FIMTDD在各個數(shù)據(jù)集上的分類精度。Table3AccuracyComparisonwithWell-KnownClassifiers表3算法分類精度對比(1)與貝葉斯分類器進(jìn)行比較選取的數(shù)據(jù)流貝葉斯分類器包括NaiveBayes和NaiveBayesMultinomial;PDSB算法在標(biāo)準(zhǔn)型和調(diào)整型參數(shù)設(shè)置上分別進(jìn)行實驗。如表3所示,PDSB分類器在分類進(jìn)度上要總體優(yōu)于NaiveBayesMultinomial;PDSB與Bayes相比在randomRBF、randomRBFdriff、SEA、Chess、Connect-4、EEG、Firm和MAGIC數(shù)據(jù)集上具有較高的分類精度,在agrawal和STAGGER數(shù)據(jù)集上二者相持平。總的來說,PDSB分類器在分類精度上優(yōu)于其它數(shù)據(jù)流貝葉斯分類器。圖1和圖2是PDSB與Bayes在數(shù)據(jù)集randomRBF和Connect-4上分類精度的比較,PDSB標(biāo)準(zhǔn)型參數(shù)設(shè)置;采用的評價策略在每10,000條數(shù)據(jù)時輸出一條評價結(jié)果。(2)與基于實例的數(shù)據(jù)流分類器進(jìn)行比較;將所提出的算法與基于實例(懶惰式)分類器k-NN,k-NNwithPAW在分類精度上進(jìn)行比較;有表3可知,盡管在平均分類進(jìn)度上PDSB分類器略低于k-NN和k-NNwithPAW分類器,但是在SEA、STAGGER、Firm和MAGIC數(shù)據(jù)集上PDSB與k-NN,k-NNwithPAW相比在分類精度上相持平甚至略高于。圖3和圖4是PDSB與k-NN和k-NNwithPAW在數(shù)據(jù)集SEA和agrawal分類精度的比較,PDSB標(biāo)準(zhǔn)型參數(shù)設(shè)置;采用的評價策略在每10,000條數(shù)據(jù)時輸出一條評價結(jié)果。(3)與關(guān)聯(lián)性數(shù)據(jù)流分類器進(jìn)行比較;將所提出的算法與關(guān)聯(lián)性分類器RuleClassifier和RuleClassifierNBayes在分類精度上進(jìn)行比較。由表2可知,PDSB分類器在agrawal、randomRBF、randomRBFdrift、和EEG數(shù)據(jù)集上分類精度優(yōu)于RuleClassifier和RuleClassifierNBayes分類器,而在STAGGER、Chess、Connect-4、Firm和MAGIC數(shù)據(jù)集上分類進(jìn)度與RuleClassifier和RuleClassifierNBayes持平。總的來說,PDSB分類器優(yōu)于關(guān)聯(lián)性數(shù)據(jù)流分類器。圖5和圖6是PDSB與RuleClassifier和RuleClassifierNBayes在數(shù)據(jù)集agrawal和randomRBF分類精度的比較,PDSB標(biāo)準(zhǔn)型參數(shù)設(shè)置;采用的評價策略在每10,000條數(shù)據(jù)時輸出一條評價結(jié)果。(4)與其它的數(shù)據(jù)流分類器進(jìn)行比較;將所提出的算法與其它數(shù)據(jù)流分類器在分類精度上進(jìn)行比較。分類器包括HoeffdingTree、HoeffdingOptionTree、ORTO、SGD、ORTO和FIMTDD;由表7可知,PDSB與樹形分類器HoeffdingTree和HoeffdingOptionTree相比在數(shù)據(jù)集agrawal、SEA、STAGGER、Firm和MAGIC上的分類進(jìn)度較優(yōu)。在參數(shù)設(shè)置為調(diào)整型時,PDSB在數(shù)據(jù)集Chess和Connect-4具有較高的分類精度。在參數(shù)設(shè)置為調(diào)整型時PDSB分類器的平均分類精度優(yōu)于HoeffdingTree和HoeffdingOptionTree分類器。與SGD,ORTO和FIMTDD分類器比較,PDSB在所選的10個數(shù)據(jù)集上都有較優(yōu)的分類精度。圖7和圖8是PDSB與HoeffdingTree和HoeffdingOptionTree在數(shù)據(jù)集agrawal和SEA分類精度的比較,圖中的縱軸表示分類精度,采用的評價策略在每10,000條數(shù)據(jù)時輸出一條評價結(jié)果。5.4運(yùn)行時間PDSB是半懶惰式分類器,它在具備懶散式分類器的較高分類進(jìn)度和能夠處理動態(tài)復(fù)雜環(huán)境的優(yōu)點,同時與懶散式分類器相比算法又有著較快的處理速度。表4是PDSB分類器與kNN和kNNwithPAW分類器在運(yùn)行時間上的比較,從表中可以看出在agrawal、SEA、Chess、EEG、Firm和MAGIC數(shù)據(jù)集上PDSB分類器相較于kNN和kNNwithPAW在運(yùn)行時間上有著較大的優(yōu)勢。但PDSB分類器在randomRBF、randomRBFdrift、Connect-4數(shù)據(jù)集上運(yùn)行時間較長。結(jié)合表2可知PDSB運(yùn)行效率會受數(shù)據(jù)集中所有項的個數(shù)的影響。數(shù)據(jù)集中所有項的個數(shù)越多則PDSB分類器處理該數(shù)據(jù)集的時間越長。綜上,PDSB對所含項少的數(shù)據(jù)集在運(yùn)行時間和分類精度上具有較高的性能。表4運(yùn)行時間Table4RuntimeComparisonDatasetkNNkNNwithPAWPDSBagrawal18.433929.88663.7989randomRBF40.476359.0282124.2752randomRBFdrift39.428259.1799123.8207SEA11.372020.10071.5522STAGGER12.660622.04971.3974Chess7.840811.30983.4078Connect-489.2032123.4780303.4664EEG7.13339.36974.4285Firm6.33398.93084.5657MAGIC7.07419.71442.6431當(dāng)前第1頁1 2 3