亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于MapReduce的概率頻繁項集挖掘方法

文檔序號:6547941閱讀:306來源:國知局
基于MapReduce的概率頻繁項集挖掘方法
【專利摘要】本發(fā)明公開了一種基于MapReduce的概率頻繁項集挖掘方法,包含以下步驟:1)讀入不確定數(shù)據(jù)集T1;2)在Map端依次處理不確定數(shù)據(jù)集T1中的每一個事務,將事務中每一項及其概率值映射成<key,value>鍵值對;3)在Reduce端接收Map端的輸出,利用正態(tài)近似方法生成概率頻繁1項集;4),將3)中所輸出的概率頻繁1項集,生成列表F_list;5),讀入存儲在分布式文件系統(tǒng)HDFS上的不確定數(shù)據(jù)集T1,按照列表F_list進行處理,生成不確定數(shù)據(jù)集T2;6),運行基于MapReduce的UApriori方法不斷處理5)中得到的不確定數(shù)據(jù)集T2生成候選項集,然后利用正態(tài)近似的方法從候選項集中生成概率頻繁項集,直到生成所有的概率頻繁項集為止。
【專利說明】基于MapReduce的概率頻繁項集挖掘方法
【技術領域】
[0001]本發(fā)明涉及計算機數(shù)據(jù)發(fā)掘方法,特別是基于MapReduce的大規(guī)模不確定數(shù)據(jù)概率頻繁項集的近似挖掘方法。
【背景技術】
[0002]近年來,由于一些新的應用,比如:傳感器網(wǎng)絡的檢測、移動物體的搜索、蛋白間相互作用的網(wǎng)絡分析以及數(shù)據(jù)的集成和數(shù)據(jù)的清洗等等,不確定數(shù)據(jù)的挖掘成為了數(shù)據(jù)挖掘領域的一個新的熱門研究話題。不確定數(shù)據(jù)挖掘主要包括聚類、分類、關聯(lián)規(guī)則的挖掘、孤立點檢測等方面,其中頻繁項集的挖掘是數(shù)據(jù)挖掘領域的一個基礎。因此,不確定數(shù)據(jù)中的概率頻繁項集的挖掘成為了研究的熱點。例如目前比較流行的無線傳感網(wǎng)絡,無線傳感網(wǎng)絡搜集了大量的數(shù)據(jù)。然而由于傳感器固有的不確定性,搜集到的數(shù)據(jù)通常是不精確的。因此,如何挖掘不確定的概率數(shù)據(jù)中隱藏的規(guī)則是很必要的。然而在傳統(tǒng)數(shù)據(jù)的頻繁項集的挖掘過程中,每一事物包含的項是確定的,但是在很多不確定數(shù)據(jù)中,不確定性造成了挖掘結果的復雜性,因此不確定數(shù)據(jù)中有效的概率頻繁項集的挖掘方法是研究的重要課題。而面對海量的數(shù)據(jù),傳統(tǒng)的單機模式下的概率頻繁項集的挖掘方法往往難以滿足要求,開源的Hadoop平臺為許許多多的數(shù)據(jù)挖掘方法提供了沃土。
[0003]授權中國專利“一種基于Hadoop的頻繁閉項集挖掘方法”(102622447A)和“一種基于MapReduce模型的并行關聯(lián)方法”(103150163A)也是基于Hadoop平臺MapReduce模型下,關于頻繁項集的挖掘方法。但是,其所關注的問題還是在確定數(shù)據(jù)中的頻繁項集,所求解的頻繁項集也是基于項集在所有事務中的支持度,而非項集的頻繁概率,該傳統(tǒng)方法根本無法處理不確定數(shù)據(jù)。另有專利“一種關聯(lián)規(guī)則挖掘方法及其系統(tǒng)”(101799810B)也是針對確定數(shù)據(jù)中頻繁項集的挖掘,但一方面該方法因為沒有基于MapReduce的并行化不能處理大數(shù)據(jù),另一方面該方法不能處理不確定數(shù)據(jù),目前已知的關于頻繁項集挖掘的專利都不適用于復雜的不確定數(shù)據(jù)中概率頻繁項集的挖掘。

【發(fā)明內(nèi)容】

[0004]發(fā)明目的:本發(fā)明為了解決現(xiàn)有技術中的問題,提出了一種基于MapReduce的概率頻繁項集挖掘方法,通過Hadoop的MapReduce分布式框架下,采用UApriori方法基礎上的一種概率頻繁項集正態(tài)近似挖掘方法,從而有效解決大規(guī)模不確定數(shù)據(jù)下,概率頻繁項集快速準確挖掘的問題。
[0005]
【發(fā)明內(nèi)容】
:本發(fā)明公開了一種基于MapReduce的概率頻繁項集挖掘方法,包含以下步驟:
[0006]I),讀入存儲在分布式文件系統(tǒng)HDFS上的不確定數(shù)據(jù)集Tl,該不確定數(shù)據(jù)集共包含N個事務,N>1 ;
[0007]2),在Map端依次處理不確定數(shù)據(jù)集Tl中的每一個事務,事務中包含不同的項以及該項在事務中出現(xiàn)的概率值,項是事務中記錄數(shù)據(jù)的基本單元,將事務的每一項及其概率值映射成〈key, value)鍵值對,其中key代表項集,項集是由項組成的集合,value代表該項集在一個事務中的概率值,以事務tl{ (B,1.0) ; (C, 0.5) ; (D, 0.2) ; (E, 0.5)}為例,tl中包含5個項B,C,D, E,每一項后面的數(shù)字,表示該項出現(xiàn)在事務tl中的概率值,對事務tl來說它將會生成 < {B},1.0>,< {C},0.5>,< {D},0.2> 和 < {E},0.5> 的〈key, value)鍵值對,此時的項集key中都只含有I個項,為I項集,當項集中含有k(k ^ 2)個項時,稱之為k項集;
[0008]3),在Reduce端接收Map端的輸出,依次處理每個項集key,利用正態(tài)近似方法計算項集key的頻繁概率,判斷該項集key是否為概率頻繁項集,若是,則以項集key的頻繁概率作為項集key對應的value的值,輸出〈key, value〉鍵值對,否則舍去當前項集key,繼續(xù)處理下一個項集,Reduce輸出關于概率頻繁I項集的〈key, value〉鍵值對;
[0009]4),將3)中所輸出〈key, value〉鍵值對中的項集key按照value值由大到小進行排序,由此生成列表F_list,列表F_list為概率頻繁I項集的集合;
[0010]5),讀入存儲在分布式文件系統(tǒng)HDFS上的不確定數(shù)據(jù)集Tl,并且將每個事務中的項及其概率值,按照這些項在列表F_list中的順序進行排序,刪去不在列表?_18^中的項及其概率值,生成處理后的不確定數(shù)據(jù)集T2,將T2存儲在分布式文件系統(tǒng)HDFS上;
[0011]6),運行基于MapReduce的UApriori方法不斷處理5)中得到的不確定數(shù)據(jù)集T2生成候選項集,然后利用正態(tài)近似的方法從候選項集中生成概率頻繁項集,直到生成所有概率頻繁項集為止。
[0012]本發(fā)明中,所述 步驟3中利用正態(tài)近似來計算項集key的頻繁概率,具體如下:
[0013]給定一個包含N條事務的不確定數(shù)據(jù)集,用戶給定一個最小支持率minsup和最小頻繁概率閾值σ,其中minsup和σ取值范圍都為(0,I),項集X滿足:P (sup (X) ^ NXminsup)≥σ,那么項集X是概率頻繁項集;
[0014]正態(tài)分布近似概率頻繁項挖掘包括以下步驟:
[0015]不確定數(shù)據(jù)集中每個事務是否包含項集X可以看作是一個單一的硬幣投擲過程,也就是項集X是否出現(xiàn)在事務中服從泊松二項分布,當數(shù)據(jù)量很大時,根據(jù)Lyapunov中心極限定理,泊松二項分布可以用正態(tài)分布來近似求解。sup(X)是指項集X在所有事務中出現(xiàn)的次數(shù),即項集X在不確定數(shù)據(jù)集中的支持度,首先計算項集X在所有事務中出現(xiàn)的次數(shù)得到 sup (X);
[0016]如果項集X不滿足sup(X)≥NXminsup的條件,那么項集X不是概率頻繁項集,若項集X滿足sup (X) ^ NXminsup的條件,再利用正態(tài)分布近似求解項集X的頻繁概率,其公式如下:
【權利要求】
1.一種基于MapReduce的概率頻繁項集挖掘方法,其特征在于,包含以下步驟: 1),讀入存儲在分布式文件系統(tǒng)HDFS上的不確定數(shù)據(jù)集Tl,該不確定數(shù)據(jù)集共包含N個事務,N>1 ; 2),在Map端依次處理不確定數(shù)據(jù)集Tl中的每一個事務,事務中包含不同的項以及該項在事務中出現(xiàn)的概率值,項是事務記錄數(shù)據(jù)的基本單元,將事務的每一項及其概率值映射成〈key,value)鍵值對,其中key代表項集,項集是由項組成的集合,此時項集中只含有I項,為I項集,value代表該項集在一個事務中的概率值; 3),在Reduce端接收Map端的輸出,依次處理每個項集key,利用正態(tài)近似方法計算項集key的頻繁概率,判斷該項集key是否為概率頻繁項集,若是,則以項集key的頻繁概率作為項集key對應的value的值,輸出〈key, value〉鍵值對,否則舍去當前項集key,繼續(xù)處理下一個項集,Reduce輸出關于概率頻繁I項集的〈key, value〉鍵值對; 4),將3)中所輸出〈key,value〉鍵值對中的項集key按照value值由大到小進行排序,由此生成列表F_list,列表F_list為概率頻繁I項集的集合,其中I項集表示項集中只含有I個項,當項集中含有k(k ^ 2)個項時,稱之為k項集; 5),讀入存儲在分布式文件系統(tǒng)HDFS上的不確定數(shù)據(jù)集Tl,并且將每個事務中的項及其概率值,按照這些項在列表F_list中的順序進行排序,刪去不在列中的項及其概率值,生成處理后的不確定數(shù)據(jù)集T2,將T2存儲在分布式文件系統(tǒng)HDFS上; 6),運行基于MapReduce的UApriori方法不斷處理5)中得到的不確定數(shù)據(jù)集T2生成候選項集,然后利用正態(tài)近似的方法從候選項集中生成概率頻繁項集,直到生成所有的概率頻繁項集為止。
2.根據(jù)權利要求1所述基于MapReduce的概率頻繁項集挖掘方法,其特征在于,所述步驟3中利用正態(tài)近似來計算項集key的頻繁概率,具體如下: 給定一個包含N條事務的不確定數(shù)據(jù)集,用戶給定一個最小支持率minsup和最小頻繁概率閾值σ,其中minsup和σ取值范圍都為(0,I),項集X滿足:P (sup⑴≥NXminsup)≥σ,則項集X是概率頻繁項集; 正態(tài)分布近似概率頻繁項集挖掘包括以下步驟: sup (X)是指項集X在不確定數(shù)據(jù)集所有事務中出現(xiàn)的次數(shù),即項集X在不確定數(shù)據(jù)集中的支持度,首先計算項集X在所有事務中出現(xiàn)的次數(shù)得到sup(X); 如果項集X不滿足sup (X) ^ NXminsup的條件,那么項集X不是概率頻繁項集,若項集X滿足sup(X) ^ NXminsup的條件,再利用正態(tài)分布近似求解項集X的頻繁概率,其公式如下
3.根據(jù)權利要求2所述的基于MapReduce的概率頻繁項集挖掘方法,其特征在于,所述步驟6)運行基于MapReduce的UApriori方法包含以下步驟: 21)根據(jù)列表F_list概率頻繁I項集的集合,將列表F_list中任意兩個不相同的概率頻繁I項集組合生成候選2項集,所有的候選2項集組成候選2項集的集合,存儲在分布式文件系統(tǒng)HDFS中; 22)若候選項集的集合不為空,直接進入步驟23),若候選項集的集合為空,則結束; 23)在Map端載入分布式文件系統(tǒng)HDFS上的候選項集的集合,讀取分布式文件系統(tǒng)HDFS上的不確定數(shù)據(jù)集T2,根據(jù)候選項集的集合依次處理不確定數(shù)據(jù)集T2中的每個事務:如果一個事務中包含候選集合中的一個候選項集,將該候選項集及其在事務中的概率值映射成新的〈key, value)鍵值對,其中key代表新的候選項集,value代表該候選項集在這個事務中的概率值,該概率值根據(jù)公式(d)計算; 24)在Reduce端接收Map端的輸出,依次處理每個項集key,利用正態(tài)近似方法計算項集key的頻繁概率,判斷該項集key是否為概率頻繁項集,若是,則以項集key的頻繁概率作為項集key對應的新的value的值,輸出新的〈key, value)鍵值對,否則舍去當前項集key,繼續(xù)處理下一個項集; 25)如果步驟24)中Reduce輸出的概率頻繁k項集的集合為空,則結束,如果Reduce輸出的概率頻繁k項集的集合不為空,k > 2,其中k項集表示為項集含有k個項,如果概率頻繁k項集的集合中存在任意兩個不相同的概率頻繁k項集,且任意兩個不相同的概率頻繁k項集之間包含k-Ι個相同的項,只有I個項不相同,那么將這兩個概率頻繁k項集進行合并,生成這兩個概率頻繁k項集的候選k+Ι項集,直到生成所有的概率頻繁k項集的候選k+Ι項集,組成候選k+Ι項集的集合,然后返回步驟22)繼續(xù)運行。
【文檔編號】G06F17/30GK103995882SQ201410231646
【公開日】2014年8月20日 申請日期:2014年5月28日 優(yōu)先權日:2014年5月28日
【發(fā)明者】楊育彬, 徐靜, 王蘇琦 申請人:南京大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1