專利名稱:云計算環(huán)境下的分類規(guī)則挖掘方法
技術(shù)領(lǐng)域:
本發(fā)明屬于云計算環(huán)境下數(shù)據(jù)分析技術(shù)領(lǐng)域,具體涉及一種云計算環(huán)境下的分類規(guī)則挖掘方法。
背景技術(shù):
分類技術(shù)研究是云計算環(huán)境下數(shù)據(jù)分析與管理的重要研究領(lǐng)域。一方面,分類是數(shù)據(jù)挖掘重要的任務(wù)類型,云計算環(huán)境下的數(shù)據(jù)具有海量性、分布性和動態(tài)性等特征,這些特征給云計算環(huán)境下的數(shù)據(jù)管理帶來了挑戰(zhàn),通過分類規(guī)則挖掘?qū)@些數(shù)據(jù)進(jìn)行分析,有助于提高云計算環(huán)境下海量數(shù)據(jù)分析與管理的效率。另一方面,云環(huán)境具有超大規(guī)模的存儲和計算能力,資源和結(jié)構(gòu)具有動態(tài)伸縮性,并且通過虛擬化技術(shù)和龐大的資源池按需提供服務(wù),使得高效的數(shù)據(jù)分類成為可能。分類規(guī)則挖掘是數(shù)據(jù)分析管理中的重要任務(wù),有助于更好地理解云計算環(huán)境下的海量數(shù)據(jù),輔助云計算環(huán)境下的運營決策;同時,云計算高性能的計算和存儲能力,為分類規(guī)則挖掘提供了高效運行的保障。因此,分類規(guī)則挖掘是云計算環(huán)境下的數(shù)據(jù)分析處理的重要技術(shù),其理論和應(yīng)用的研究具有重要意義。在分類規(guī)則挖掘技術(shù)的研究中,國內(nèi)外學(xué)者提出了諸多解決方案,包括以貝葉斯法為代表的統(tǒng)計學(xué)方法、以決策樹法和規(guī)則歸納法為代表的及其學(xué)習(xí)方法,以及神經(jīng)網(wǎng)絡(luò)方法等,這些方法應(yīng)用于小規(guī)模靜態(tài)數(shù)據(jù)集的分類規(guī)則挖掘時,具有較高的分類精度。然而這些方法仍存在瓶頸問題,包括需要對數(shù)據(jù)集進(jìn)行多次的掃描和排序,導(dǎo)致算法的低效;對噪聲和確實數(shù)據(jù)比較敏感,易出現(xiàn)過擬合;對于大訓(xùn)練集的可伸縮性不是很好等。特別在云計算環(huán)境下,分布式海量數(shù)據(jù)集的大規(guī)模性和動態(tài)性,導(dǎo)致數(shù)據(jù)分類過程搜索空間和維度的激增,增加了分類的計算復(fù)雜性,降低了傳統(tǒng)分類方法的效率,因而現(xiàn)有的分類規(guī)則挖掘方法無法直接應(yīng)用于云計算環(huán)境中。
發(fā)明內(nèi)容
為了解決上述問題,本發(fā)明克服現(xiàn)有技術(shù)的局限性,提供一種云計算環(huán)境下的分類規(guī)則挖掘方法。本發(fā)明適用于云計算環(huán)境下分布式數(shù)據(jù)存儲上的數(shù)據(jù)分類,可進(jìn)行云計算環(huán)境下數(shù)據(jù)分類任務(wù)的分布式并行處理,對云計算環(huán)境下海量數(shù)據(jù)的分類處理問題起到了積極的效果。利用云計算環(huán)境下大規(guī)模計算節(jié)點的規(guī)模計算效應(yīng),有效提高云計算環(huán)境下海量數(shù)據(jù)分類規(guī)則挖掘的效率;并通過主從式的組織結(jié)構(gòu)和基于遺傳算法的規(guī)則訓(xùn)練過程,解決分類規(guī)則挖掘在云計算環(huán)境下的分布式實現(xiàn)。本發(fā)明為解決技術(shù)問題采用如下技術(shù)方案本發(fā)明云計算環(huán)境下的分類規(guī)則挖掘方法的特點是所述云計算環(huán)境由多個分布式的服務(wù)器構(gòu)成;在所述云計算環(huán)境下實施分類規(guī)則挖掘時,采取主從式組織結(jié)構(gòu),所述主從式組織結(jié)構(gòu)為設(shè)置一臺服務(wù)器為控制中心,其它服務(wù)器為從屬服務(wù)器;由所述控制中心安排部署整個挖掘任務(wù)的執(zhí)行、調(diào)度管理并協(xié)調(diào)各從屬服務(wù)器的操作;所述各從屬服務(wù)器是任務(wù)的具體執(zhí)行單元,所述分類規(guī)則挖掘方法按如下步驟進(jìn)行a、由控制中心將待分類的數(shù)據(jù)集劃分為訓(xùn)練樣本和測試樣本,對所述訓(xùn)練樣本進(jìn)行均勻劃分,得到相同大小的各數(shù)據(jù)塊,為每個數(shù)據(jù)塊指定一個執(zhí)行分類挖掘任務(wù)的從屬服務(wù)器作為處理單元,將所述各數(shù)據(jù)塊分配到對應(yīng)的各處理單元上;b、由所述處理單元采用遺傳算法對分配得到的數(shù)據(jù)塊實施用于分類的原子規(guī)則的訓(xùn)練,將訓(xùn)練得到的原子規(guī)則存入緩沖區(qū);C、由所述控制中心對緩沖區(qū)內(nèi)的原子規(guī)則進(jìn)行劃分,選擇閑置的從屬服務(wù)器作為分類器,安排分類器進(jìn)行原子規(guī)則的冗余約簡,并檢測約簡結(jié)果的分類精度,篩選出滿足分類精度要求的約簡結(jié)果,作為分類規(guī)則挖掘的最終結(jié)果。本發(fā)明云計算環(huán)境下的分類規(guī)則挖掘方法的特點也在于 所述步驟a的執(zhí)行過程是控制中心在接到分類挖掘任務(wù)的請求后,將待分類的數(shù)據(jù)集劃分為訓(xùn)練樣本和測試樣本,根據(jù)用戶所提出分類挖掘任務(wù)的要求以及訓(xùn)練樣本的特征,搜索合適的從屬服務(wù)器作為處理單元,并將訓(xùn)練樣本均勻劃分成大小相同的數(shù)據(jù)塊;設(shè)滿足條件的處理單元數(shù)量為N,訓(xùn)練樣本大小為M,則所劃分的數(shù)據(jù)塊大小為M/N ;所述合適的從屬服務(wù)器滿足的條件是存儲空間不小于M/N,響應(yīng)時間不大于用戶所要求的最晚時間;控制中心訪問所述訓(xùn)練樣本,將劃分所得的數(shù)據(jù)塊復(fù)制到相應(yīng)的處理單元上,并向處理單元傳遞利用遺傳算法訓(xùn)練原子規(guī)則的操作指令。所述步驟b中的原子規(guī)則的訓(xùn)練過程是處理單元對構(gòu)成數(shù)據(jù)塊的每一條數(shù)據(jù)記錄進(jìn)行遺傳編碼,通過遺傳操作的循環(huán)迭代生成原子規(guī)則,將所述原子規(guī)則以〈key,value〉鍵值對的形式存入緩沖區(qū),所述〈key,value〉鍵值對中的key為類標(biāo)簽,value為該類標(biāo)簽下的原子規(guī)則;控制中心周期性地讀取緩沖區(qū)中的〈key, value〉鍵值對,生成〈key, value list〉鍵值對列表存入緩沖區(qū),所述〈key, value list〉鍵值對列表中的key為類標(biāo)簽,valuelist為該類標(biāo)簽下的原子規(guī)則列表;處理單元完成對數(shù)據(jù)塊中所有數(shù)據(jù)記錄的操作之后,向控制中心發(fā)送處理單元操作完畢的消息。所述步驟c按如下過程進(jìn)行由控制中心搜索閑置的從屬服務(wù)器作為分類器,分類器的個數(shù)為〈key,valuelist〉鍵值對列表中key值的個數(shù),每個分類器對應(yīng)一個key值;控制中心將〈key, valuelist〉鍵值對列表中的原子規(guī)則列表和測試樣本中具有相同類標(biāo)簽的記錄傳送到的分類器中,并向分類器傳遞冗余約簡和分類精度檢測的操作指令;分類器對同一類標(biāo)簽下的多個相同原子規(guī)則只記錄一次,刪除冗余的原子規(guī)則,得到約簡后的原子規(guī)則;分類器利用約簡后的原子規(guī)則對測試樣本進(jìn)行分類,檢測分類結(jié)果是否與測試樣本的類標(biāo)簽相一致,假設(shè)被原子規(guī)則a分類的測試樣本中,有Y條記錄的類標(biāo)簽與分類結(jié)果相一致,有N條記錄的類標(biāo)簽與分類結(jié)果不一致,則原子規(guī)則a的分類精度為Y/(Y+N);假定用戶提出的分類挖掘任務(wù)要求中,分類精度要求為a,將所有分類精度不小于a的原子規(guī)則作為分類規(guī)則挖掘的最終結(jié)果傳送給控制中心;控制中心匯總所有分類器生成的最終結(jié)果,再將匯總結(jié)果反饋至分類規(guī)則挖掘任務(wù)的請求者。與已有的數(shù)據(jù)分類方法相比,本發(fā)明的有益效果體現(xiàn)在I、本發(fā)明將海量數(shù)據(jù)的分類規(guī)則挖掘任務(wù)劃分成多個子任務(wù),分配到云計算環(huán)境中的大規(guī)模服務(wù)器集群上處理,降低單個任務(wù)的計算復(fù)雜度,利用云計算服務(wù)器集群的規(guī)模計算效應(yīng),顯著提高整個分類規(guī)則挖掘任務(wù)的效率;2、本發(fā)明中主從式組織結(jié)構(gòu),實現(xiàn)了云計算環(huán)境下任務(wù)的分配、調(diào)度與管理,為分類規(guī)則挖掘提供了分布式的實現(xiàn)機(jī)制;同時,規(guī)則訓(xùn)練采用的遺傳算法本身具有良好的并行性,解決了常規(guī)分類技術(shù)在分布式環(huán)境中并行性差的問題。
圖I為本發(fā)明云計算環(huán)境下分類規(guī)則挖掘方法的原理2為本發(fā)明中基于遺傳操作循環(huán)迭代的原子規(guī)則生成的流程圖
具體實施例方式在本實施例云計算環(huán)境下的分類規(guī)則挖掘方法中云計算環(huán)境由多個分布式的服務(wù)器構(gòu)成;在云計算環(huán)境下實施分類規(guī)則挖掘時,采取主從式組織結(jié)構(gòu),主從式組織結(jié)構(gòu)為設(shè)置一臺服務(wù)器為控制中心,其它服務(wù)器為從屬服務(wù)器;由控制中心安排部署整個挖掘任務(wù)的執(zhí)行、調(diào)度管理并協(xié)調(diào)各從屬服務(wù)器的操作;各從屬服務(wù)器是任務(wù)的具體執(zhí)行單元。分類規(guī)則挖掘方法如圖I所示,按如下步驟進(jìn)行I、由控制中心將待分類的數(shù)據(jù)集劃分為訓(xùn)練樣本和測試樣本,對訓(xùn)練樣本進(jìn)行均勻劃分,得到相同大小的各數(shù)據(jù)塊,為每個數(shù)據(jù)塊指定一個執(zhí)行分類挖掘任務(wù)的從屬服務(wù)器作為處理單元,將各數(shù)據(jù)塊分配到對應(yīng)的各處理單元上;2、由處理單元采用遺傳算法對分配得到的數(shù)據(jù)塊實施用于分類的原子規(guī)則的訓(xùn)練,將訓(xùn)練得到的原子規(guī)則存入緩沖區(qū);3、由控制中心對緩沖區(qū)內(nèi)的原子規(guī)則進(jìn)行劃分,選擇閑置的從屬服務(wù)器作為分類器,安排分類器進(jìn)行原子規(guī)則的冗余約簡,并檢測約簡結(jié)果的分類精度,篩選出滿足分類精度要求的約簡結(jié)果,作為分類規(guī)則挖掘的最終結(jié)果。假設(shè)數(shù)據(jù)集由關(guān)系模式R(%,%, ,%)表示,其中ai(i=l,2,…,k)為屬性。將屬性組〈a” a2, ...,ak>分為兩部分,包括k_l個條件屬性與I個類標(biāo)簽,屬性a” a2, ...,ak^為條件屬性,屬性ak為類標(biāo)簽。數(shù)據(jù)集中的每一條數(shù)據(jù)記錄均為一個k維向量[Cl,C2,…,ck],Ci為該數(shù)據(jù)記錄中屬性%的取值。原子規(guī)則的表現(xiàn)形式為If(B1=C1) A (a2=c2)八…八, Then ak=ck。步驟I的執(zhí)行過程是控制中心在接到分類挖掘任務(wù)的請求后,將待分類的數(shù)據(jù)集劃分為訓(xùn)練樣本和測試樣本,根據(jù)用戶所提出分類挖掘任務(wù)的要求以及訓(xùn)練樣本的特征,搜索合適的從屬服務(wù)器作為處理單元,并將訓(xùn)練樣本均勻劃分成大小相同的數(shù)據(jù)塊;設(shè)滿足條件的處理單元數(shù)量為N,訓(xùn)練樣本大小為M,則所劃分的數(shù)據(jù)塊大小為M/N ;
合適的從屬服務(wù)器需滿足如下條件存儲空間不小于M/N,響應(yīng)時間不大于用戶所要求的最晚時間??刂浦行脑L問訓(xùn)練樣本,將劃分所得的數(shù)據(jù)塊復(fù)制到相應(yīng)的處理單元上,并向處理單元傳遞利用遺傳算法訓(xùn)練原子規(guī)則的操作指令。步驟2中原子規(guī)則的訓(xùn)練過程是處理單元對構(gòu)成數(shù)據(jù)塊的每一 條數(shù)據(jù)記錄進(jìn)行遺傳編碼,通過遺傳操作的循環(huán)迭代生成原子規(guī)則,將原子規(guī)則以〈key, value〉鍵值對的形式存入緩沖區(qū),〈key, value〉鍵值對中的key為類標(biāo)簽,value為該類標(biāo)簽下的原子規(guī)則;數(shù)據(jù)記錄的遺傳編碼過程為每條數(shù)據(jù)記錄表示為一條染色體,染色體基因值由k個屬性值的二進(jìn)制碼值構(gòu)成。若屬性值為離散值,可直接進(jìn)行二進(jìn)制編碼;若屬性值為連續(xù)值,則要對連續(xù)屬性值進(jìn)行離散化后,再進(jìn)行二進(jìn)制編碼。二進(jìn)制編碼過程為設(shè)屬性ai有s個離散屬性值V1, V2,…,vs,則用含s個碼位的二進(jìn)制數(shù)表示屬性%的值。若%的值為則該屬性值二進(jìn)制碼的第j位值為1,其余碼位的值位為O。例如,性別屬性有“男”、“女”兩個值,若屬性值為“男”,則該屬性的二進(jìn)制編碼為“0 I” ;若屬性值為“女”,編碼為“I O”。遺傳算法中,每條染色體為一個遺傳個體,所有的遺傳個體構(gòu)成一個種群,種群規(guī)模用遺傳個體的數(shù)量n表示,由遺傳編碼過程得到的種群為初始種群,一個二進(jìn)制碼位對應(yīng)染色體的一個基因位。遺傳操作的循環(huán)迭代過程如圖2所示第t次迭代中,首先評價第t代種群P(t)的適應(yīng)度,之后判斷是否停止迭代,若滿足迭代停止條件,則停止迭代,將P (t)輸出作為原子規(guī)則;若不滿足迭代停止條件,則進(jìn)行選擇、交叉和變異操作,生成第t+1代種群P (t+1),令t=t+l,實施下一次迭代。迭代停止條件為以下兩個條件的任意一個①迭代次數(shù)t> 100;②適應(yīng)度fitness>0. 75。適應(yīng)度評價為設(shè)某一遺傳個體對應(yīng)的數(shù)據(jù)記錄為[C1, C2,…,Ck],該遺傳個體的適應(yīng)度為fitneSS=IT/n+TT/(TT+TF),其中IT為數(shù)據(jù)塊中滿足“(ai=Cl) A (a2=c2)八…八(ak=ck)”的數(shù)據(jù)記錄條數(shù),TF為數(shù)據(jù)快中滿足“(B1=C1)八(a2=c2)八…八(ak—fCk—i)八(ak關(guān)ck) ”的數(shù)據(jù)記錄條數(shù),FT為數(shù)據(jù)塊中滿足“n IKa1=C1)八(a2=c2)八…八(ak—fCk—i)]八(ak=ck) ”的數(shù)據(jù)記錄條數(shù),FF為數(shù)據(jù)塊中滿足“n IKa1=C1)八(a2=c2)八…A (ak_!=Ck^1) ] A (ak關(guān)ck) ”的數(shù)據(jù)記錄條數(shù)。選擇操作為遺傳個體Xi的選擇概率朽=Zitness(Xi)/^^fitnes^Xj),復(fù)制PiXn
個Xi的副本作為下一次遺傳操作種群中的個體,fItnexss(Xi)為Xi的適應(yīng)度值。交叉操作為按照交叉概率P。隨機(jī)選擇兩個遺傳個體Xi和Xp隨機(jī)選擇染色體上的一個基因位《,將Xi和Xj上基因位w后面的基因段交換形成兩個新的個體,作為下一次遺傳操作種群中的個體。其中,交叉概率P。為
之間的數(shù)值,也可采用自適應(yīng)的交叉概率。變異操作為按照變異概率Pm隨機(jī)選擇一個遺傳個體Xi,隨機(jī)選擇Xi上一個基因位,對該基因位上的二進(jìn)制碼進(jìn)行取反。其中,變異概率Pm為
之間的數(shù)值,也可采用自適應(yīng)的變異概率。
控制中心周期性地讀取緩沖區(qū)中的〈key, value〉鍵值對,生成〈key, value list〉鍵值對列表存入緩沖區(qū),〈key, value list〉鍵值對列表中的key為類標(biāo)簽,value list為該類標(biāo)簽下的原子規(guī)則列表;處理單元完成對數(shù)據(jù)塊中所有數(shù)據(jù)記錄的操作之后,向控制中心發(fā)送處理單元操作完畢的消息。步驟3按如下過程進(jìn)行 由控制中心搜索閑置的從屬服務(wù)器作為分類器,分類器的個數(shù)為〈key,valuelist〉鍵值對列表中key值的個數(shù),每個分類器對應(yīng)一個key值;控制中心將〈key, valuelist〉鍵值對列表中的原子規(guī)則列表和測試樣本中具有相同類標(biāo)簽的記錄傳送到的分類器中,并向分類器傳遞冗余約簡和分類精度檢測的操作指令;分類器對同一類標(biāo)簽下的多個相同原子規(guī)則只記錄一次,刪除冗余的原子規(guī)則,得到約簡后的原子規(guī)則;分類器利用約簡后的原子規(guī)則對測試樣本進(jìn)行分類,檢測分類結(jié)果是否與測試樣本的類標(biāo)簽相一致,假設(shè)被原子規(guī)則a分類的測試樣本中,有Y條記錄的類標(biāo)簽與分類結(jié)果相一致,有N條記錄的類標(biāo)簽與分類結(jié)果不一致,則原子規(guī)則a的分類精度為Y/ (Y+N)。用戶提出的分類挖掘任務(wù)要求中,分類精度要求為a,將所有分類精度不小于a的原子規(guī)則作為分類規(guī)則挖掘的最終結(jié)果,傳送給控制中心;控制中心匯總所有分類器生成的最終結(jié)果,再將匯總結(jié)果反饋至分類規(guī)則挖掘任務(wù)的請求者。
權(quán)利要求
1.一種云計算環(huán)境下的分類規(guī)則挖掘方法,其特征在于 所述云計算環(huán)境由多個分布式的服務(wù)器構(gòu)成;在所述云計算環(huán)境下實施分類規(guī)則挖掘時,采取主從式組織結(jié)構(gòu),所述主從式組織結(jié)構(gòu)為設(shè)置一臺服務(wù)器為控制中心,其它服務(wù)器為從屬服務(wù)器;由所述控制中心安排部署整個挖掘任務(wù)的執(zhí)行、調(diào)度管理并協(xié)調(diào)各從屬服務(wù)器的操作;所述各從屬服務(wù)器是任務(wù)的具體執(zhí)行單元,所述分類規(guī)則挖掘方法按如下步驟進(jìn)行 a、由控制中心將待分類的數(shù)據(jù)集劃分為訓(xùn)練樣本和測試樣本,對所述訓(xùn)練樣本進(jìn)行均勻劃分,得到相同大小的各數(shù)據(jù)塊,為每個數(shù)據(jù)塊指定一個執(zhí)行分類挖掘任務(wù)的從屬服務(wù)器作為處理単元,將所述各數(shù)據(jù)塊分配到對應(yīng)的各處理單元上; b、由所述處理單元采用遺傳算法對分配得到的數(shù)據(jù)塊實施用于分類的原子規(guī)則的訓(xùn)練,將訓(xùn)練得到的原子規(guī)則存入緩沖區(qū); C、由所述控制中心對緩沖區(qū)內(nèi)的原子規(guī)則進(jìn)行劃分,選擇閑置的從屬服務(wù)器作為分類 器,安排分類器進(jìn)行原子規(guī)則的冗余約簡,并檢測約簡結(jié)果的分類精度,篩選出滿足分類精度要求的約簡結(jié)果,作為分類規(guī)則挖掘的最終結(jié)果。
2.根據(jù)權(quán)利要求書I所述的云計算環(huán)境下的分類規(guī)則挖掘方法,其特征在于,所述步驟a的執(zhí)行過程是 控制中心在接到分類挖掘任務(wù)的請求后,將待分類的數(shù)據(jù)集劃分為訓(xùn)練樣本和測試樣本,根據(jù)用戶所提出分類挖掘任務(wù)的要求以及訓(xùn)練樣本的特征,捜索合適的從屬服務(wù)器作為處理単元,并將訓(xùn)練樣本均勻劃分成大小相同的數(shù)據(jù)塊;設(shè)滿足條件的處理單元數(shù)量為N,訓(xùn)練樣本大小為M,則所劃分的數(shù)據(jù)塊大小為M/N ; 所述合適的從屬服務(wù)器滿足的條件是存儲空間不小于M/N,響應(yīng)時間不大于用戶所要求的最晚時間; 控制中心訪問所述訓(xùn)練樣本,將劃分所得的數(shù)據(jù)塊復(fù)制到相應(yīng)的處理單元上,并向處理單元傳遞利用遺傳算法訓(xùn)練原子規(guī)則的操作指令。
3.根據(jù)權(quán)利要求書I所述的云計算環(huán)境下的分類規(guī)則挖掘方法,其特征在于,所述步驟b中的原子規(guī)則的訓(xùn)練過程是 處理單元對構(gòu)成數(shù)據(jù)塊的每一條數(shù)據(jù)記錄進(jìn)行遺傳編碼,通過遺傳操作的循環(huán)迭代生成原子規(guī)則,將所述原子規(guī)則以〈key, value〉鍵值對的形式存入緩沖區(qū),所述〈key, value〉鍵值對中的key為類標(biāo)簽,value為該類標(biāo)簽下的原子規(guī)則; 控制中心周期性地讀取緩沖區(qū)中的〈key, value〉鍵值對,生成〈key, value list〉鍵值對列表存入緩沖區(qū),所述〈key, value list〉鍵值對列表中的key為類標(biāo)簽,value list為該類標(biāo)簽下的原子規(guī)則列表; 處理單元完成對數(shù)據(jù)塊中所有數(shù)據(jù)記錄的操作之后,向控制中心發(fā)送處理單元操作完畢的消息。
4.根據(jù)權(quán)利要求書I所述的云計算環(huán)境下的分類規(guī)則挖掘方法,其特征在于,所述步驟c按如下過程進(jìn)行 由控制中心搜索閑置的從屬服務(wù)器作為分類器,分類器的個數(shù)為〈key,value list〉鍵值對列表中key值的個數(shù),姆個分類器對應(yīng)ー個key值;控制中心將〈key, value list〉鍵值對列表中的原子規(guī)則列表和測試樣本中具有相同類標(biāo)簽的記錄傳送到的分類器中,井向分類器傳遞冗余約簡和分類精度檢測的操作指令; 分類器對同一類標(biāo)簽下的多個相同原子規(guī)則只記錄一次,刪除冗余的原子規(guī)則,得到約簡后的原子規(guī)則; 分類器利用約簡后的原子規(guī)則對測試樣本進(jìn)行分類,檢測分類結(jié)果是否與測試樣本的類標(biāo)簽相一致,假設(shè)被原子規(guī)則a分類的測試樣本中,有Y條記錄的類標(biāo)簽與分類結(jié) 果相一致,有N條記錄的類標(biāo)簽與分類結(jié)果不一致,則原子規(guī)則a的分類精度為Y/ (Y+N);假定用戶提出的分類挖掘任務(wù)要求中,分類精度要求為α,將所有分類精度不小于α的原子規(guī)則作為分類規(guī)則挖掘的最終結(jié)果傳送給控制中心; 控制中心匯總所有分類器生成的最終結(jié)果,再將匯總結(jié)果反饋至分類規(guī)則挖掘任務(wù)的請求者。
全文摘要
本發(fā)明公開了一種云計算環(huán)境下的分類規(guī)則挖掘方法,其特征在于采用由一個控制中心和多個從屬服務(wù)器構(gòu)成的主從式組織結(jié)構(gòu),首先由控制中心將待分類數(shù)據(jù)集劃分為訓(xùn)練樣本和測試樣本,并將訓(xùn)練樣本均勻劃分為相同大小的各數(shù)據(jù)塊分配到各處理單元上;然后由處理單元采用遺傳算法訓(xùn)練數(shù)據(jù)塊,得到分類的原子規(guī)則;最后由分類器約簡原子規(guī)則,并選擇滿足分類精度要求的約簡結(jié)果作為分類規(guī)則挖掘的最終結(jié)果。本發(fā)明適用于云計算環(huán)境下分布式數(shù)據(jù)存儲上的數(shù)據(jù)分類,可進(jìn)行云計算環(huán)境下數(shù)據(jù)分類任務(wù)的分布式并行處理,對云計算環(huán)境下海量數(shù)據(jù)的分類處理問題起到了積極的效果。
文檔編號G06F17/30GK102737126SQ20121020381
公開日2012年10月17日 申請日期2012年6月19日 優(yōu)先權(quán)日2012年6月19日
發(fā)明者丁帥, 丁靜, 徐達(dá)宇, 楊善林, 羅賀, 范雯娟 申請人:合肥工業(yè)大學(xué)