亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

海量交易數(shù)據(jù)中頻繁項(xiàng)目集的挖掘方法及查詢(xún)方法

文檔序號(hào):8361466閱讀:454來(lái)源:國(guó)知局
海量交易數(shù)據(jù)中頻繁項(xiàng)目集的挖掘方法及查詢(xún)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種海量交易數(shù)據(jù)中頻繁項(xiàng)目集的挖掘方法及查詢(xún)方法。
【背景技術(shù)】
[0002]從海量交易數(shù)據(jù)中挖掘頻繁項(xiàng)目集并分析其中的頻繁項(xiàng)目關(guān)聯(lián)規(guī)則是具有十分重要的實(shí)際應(yīng)用價(jià)值的,傳統(tǒng)的頻繁項(xiàng)目集挖掘方法主要包括Apr1ri算法以及頻繁項(xiàng)目集增長(zhǎng)算法兩種。隨著交易數(shù)據(jù)數(shù)量的急速增長(zhǎng),并行頻繁項(xiàng)目集增長(zhǎng)算法得到了發(fā)展,其中HaoyuanLi等人于2008年提出的并行頻繁項(xiàng)目集增長(zhǎng)(FP-Growth)算法是已有的處理海量數(shù)據(jù)中頻繁項(xiàng)目集挖掘問(wèn)題的最佳算法。FP-Growth算法是基于MapReduce的并行頻繁項(xiàng)目集增長(zhǎng)算法,在FP-Growth算法中將單棵頻繁項(xiàng)目集樹(shù)拆分成多棵無(wú)關(guān)的頻繁項(xiàng)目集子樹(shù),從而可以在多個(gè)Reduce任務(wù)中并行地挖掘各棵頻繁項(xiàng)目集子樹(shù)。隨著服務(wù)器集群中機(jī)器數(shù)量的增加,并行頻繁項(xiàng)目集增長(zhǎng)算法的效率可以達(dá)到近乎線性的加速比。
[0003]然而,現(xiàn)有的并行頻繁項(xiàng)目集增長(zhǎng)算法沒(méi)有考慮到MapReduce中Reduce任務(wù)的均衡性問(wèn)題,并且算法的整體性能需要進(jìn)一步優(yōu)化。

【發(fā)明內(nèi)容】

[0004]為了解決上述現(xiàn)有技術(shù)存在的問(wèn)題,本發(fā)明的目的在于提供一種海量交易數(shù)據(jù)中頻繁項(xiàng)目集的挖掘方法,其中,所述挖掘方法包括步驟:A)收集原始交易數(shù)據(jù),并更新與原始交易數(shù)據(jù)對(duì)應(yīng)的索引文件;B)查詢(xún)是否存在未處理的原始交易數(shù)據(jù),其中,若存在未處理的原始交易數(shù)據(jù),則執(zhí)行步驟C);若未存在未處理的原始交易數(shù)據(jù),則返回步驟A) ;C)對(duì)未處理的原始交易數(shù)據(jù)進(jìn)行預(yù)處理,并將經(jīng)過(guò)預(yù)處理的原始交易數(shù)據(jù)導(dǎo)入到分布式文件系統(tǒng)中;D)利用均衡的并行頻繁項(xiàng)目集增長(zhǎng)算法對(duì)導(dǎo)入到分布式文件系統(tǒng)中的經(jīng)過(guò)預(yù)處理的原始交易數(shù)據(jù)進(jìn)行計(jì)算,進(jìn)而得到頻繁項(xiàng)目集;E)將由步驟D)得到的頻繁項(xiàng)目集導(dǎo)入到分布式文件系統(tǒng)中;F)更新與經(jīng)過(guò)步驟C)至步驟E)處理的原始交易數(shù)據(jù)對(duì)應(yīng)的索引文件。
[0005]進(jìn)一步地,在步驟A)中,所述索引文件包括與原始交易數(shù)據(jù)相對(duì)應(yīng)的有關(guān)數(shù)據(jù)描述信息。
[0006]進(jìn)一步地,所述步驟C)還包括:選擇適合的數(shù)據(jù)結(jié)構(gòu)來(lái)保存經(jīng)過(guò)預(yù)處理的原始交易數(shù)據(jù)。
[0007]進(jìn)一步地,在步驟C)中,所述對(duì)未處理的原始交易數(shù)據(jù)進(jìn)行預(yù)處理包括:對(duì)未處理的原始交易數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和/或?qū)ξ刺幚淼脑冀灰讛?shù)據(jù)進(jìn)行數(shù)據(jù)分類(lèi)和/或?qū)ξ刺幚淼脑冀灰讛?shù)據(jù)進(jìn)行數(shù)據(jù)合并。
[0008]進(jìn)一步地,所述適合的數(shù)據(jù)結(jié)構(gòu)是體現(xiàn)所述經(jīng)過(guò)預(yù)處理的原始交易數(shù)據(jù)的時(shí)間屬性的數(shù)據(jù)結(jié)構(gòu)。
[0009]進(jìn)一步地,所述步驟D)的具體實(shí)現(xiàn)方式包括步驟:D1)獲取由用戶(hù)定義的頻繁項(xiàng)目的最小支持度閾值;D2)使用MapReduce來(lái)統(tǒng)計(jì)導(dǎo)入到分布式文件系統(tǒng)中的交易數(shù)據(jù)中的每一項(xiàng)目的支持度,根據(jù)所述最小支持度閾值來(lái)篩選出頻繁項(xiàng)目;D3)將篩選出的頻繁項(xiàng)目按照支持度從高到低的順序排序,進(jìn)而得到頻繁項(xiàng)目列表;D4)計(jì)算基于每個(gè)頻繁項(xiàng)目的原子單元的挖掘負(fù)載,根據(jù)分組數(shù)均勻分配每個(gè)頻繁項(xiàng)目的原子單元,使各分組所含的頻繁項(xiàng)目的挖掘負(fù)載總和相對(duì)均衡;D5)使用MapReduce并行創(chuàng)建并挖掘出頻繁項(xiàng)目集。
[0010]本發(fā)明的另一目的還在于提供一種海量交易數(shù)據(jù)中頻繁項(xiàng)目集的查詢(xún)方法,其中,所述查詢(xún)方法包括步驟:a)基于上述的挖掘方法挖掘出若干頻繁項(xiàng)目集以形成頻繁項(xiàng)目集數(shù)據(jù)集山)設(shè)置頻繁項(xiàng)目集的查詢(xún)參數(shù)或頻繁項(xiàng)目集關(guān)聯(lián)信息的查詢(xún)參數(shù);c)在頻繁項(xiàng)目集數(shù)據(jù)集中查詢(xún)頻繁項(xiàng)目集或頻繁項(xiàng)目集關(guān)聯(lián)信息;d)輸出查詢(xún)到的頻繁項(xiàng)目集或頻繁項(xiàng)目集關(guān)聯(lián)信息。
[0011]進(jìn)一步地,在步驟b)中,所述查詢(xún)參數(shù)至少包括被選擇的頻繁項(xiàng)目集數(shù)據(jù)集、被選擇的查詢(xún)時(shí)間范圍、被選擇的查詢(xún)類(lèi)別以及被設(shè)置的與所述選擇到的查詢(xún)類(lèi)別相對(duì)應(yīng)的輸入?yún)?shù)。
[0012]進(jìn)一步地,所述步驟c)的具體實(shí)現(xiàn)方式包括步驟:cl)將頻繁項(xiàng)目集的查詢(xún)參數(shù)或者頻繁項(xiàng)目集關(guān)聯(lián)信息的查詢(xún)參數(shù)提交MapReduce查詢(xún)?nèi)蝿?wù);c2)在頻繁項(xiàng)目集數(shù)據(jù)集中查詢(xún)與頻繁項(xiàng)目集的查詢(xún)參數(shù)對(duì)應(yīng)的頻繁項(xiàng)目集或者與頻繁項(xiàng)目集關(guān)聯(lián)信息的查詢(xún)參數(shù)對(duì)應(yīng)的頻繁項(xiàng)目集關(guān)聯(lián)信息,并將查詢(xún)到的頻繁項(xiàng)目集或者頻繁項(xiàng)目集關(guān)聯(lián)信息進(jìn)行返回;c3)整合返回的頻繁項(xiàng)目集或者頻繁項(xiàng)目集關(guān)聯(lián)信息,并將整合后的頻繁項(xiàng)目集或者頻繁項(xiàng)目集關(guān)聯(lián)信息進(jìn)行發(fā)送。
[0013]進(jìn)一步地,所述步驟d)包括:以圖形或列表的形式輸出查詢(xún)到的頻繁項(xiàng)目集或頻繁項(xiàng)目集關(guān)聯(lián)信息。
[0014]本發(fā)明旨在針對(duì)大量的交易數(shù)據(jù),基于分布式服務(wù)器集群構(gòu)架特有的頻繁項(xiàng)目集挖掘方法和查詢(xún)方法,能快速準(zhǔn)確地從海量交易事務(wù)數(shù)據(jù)庫(kù)中挖掘出有用的頻繁項(xiàng)目,獲取有價(jià)值的產(chǎn)品關(guān)聯(lián)規(guī)則信息。
【附圖說(shuō)明】
[0015]通過(guò)下面結(jié)合附圖進(jìn)行的描述,本發(fā)明的上述和其他目的和特點(diǎn)將會(huì)變得更加清楚,附圖中:
[0016]圖1是示出根據(jù)本發(fā)明的實(shí)施例的分布式服務(wù)器集群的架構(gòu)示意圖。
[0017]圖2是示出根據(jù)本發(fā)明的實(shí)施例的海量交易數(shù)據(jù)中頻繁項(xiàng)目集的挖掘方法的流程圖。
[0018]圖3是示出根據(jù)本發(fā)明的實(shí)施例的海量交易數(shù)據(jù)中頻繁項(xiàng)目集的查詢(xún)方法的流程圖。
【具體實(shí)施方式】
[0019]現(xiàn)在通過(guò)參照附圖對(duì)實(shí)施例進(jìn)行描述以解釋本發(fā)明。在附圖中,為了清晰起見(jiàn),可以夸大層和區(qū)域的厚度。在下面的描述中,為了避免公知結(jié)構(gòu)和/或功能的不必要的詳細(xì)描述所導(dǎo)致的本發(fā)明構(gòu)思的混淆,可省略公知結(jié)構(gòu)和/或功能的不必要的詳細(xì)描述。
[0020]在本實(shí)施例中,可采用Hadoop作為提供MapReduce計(jì)算框架和分布式文件系統(tǒng)HDFS的底層支持平臺(tái)。Hadoop是一個(gè)開(kāi)源的可運(yùn)行在大規(guī)模集群上的分布式系統(tǒng)基礎(chǔ)架構(gòu),其中分布式文件系統(tǒng)HDFS和MapReduce是其核心成員。[0021 ] 分布式文件系統(tǒng)HDFS采用主/從節(jié)點(diǎn)架構(gòu),在HDFS集群中有唯一的名為NameNode的主進(jìn)程和若干DataNode從進(jìn)程。NameNode管理文件系統(tǒng)的名字空間,調(diào)節(jié)客戶(hù)端對(duì)于文件的訪問(wèn)。DataNode管理所在節(jié)點(diǎn)的存儲(chǔ)空間。HDFS對(duì)外公開(kāi)文件系統(tǒng)的名字空間并且允許用戶(hù)數(shù)據(jù)存儲(chǔ)在文件中。在文件系統(tǒng)內(nèi)部,文件被拆分成一個(gè)或多個(gè)數(shù)據(jù)塊并分布在DataNode所在的節(jié)點(diǎn)上。NameNode執(zhí)行包括文件打開(kāi)、文件關(guān)閉、文件重命名等文件系統(tǒng)名字空間操作。DataNode負(fù)責(zé)響應(yīng)來(lái)自文件系統(tǒng)客戶(hù)端的讀寫(xiě)請(qǐng)求和根據(jù)NameNode的指令創(chuàng)建、刪除和復(fù)制數(shù)據(jù)塊。
[0022]MapReduce框架中有唯一的JobTracker監(jiān)控進(jìn)程和多個(gè)TaskTracker從工作進(jìn)程。JobTracker負(fù)責(zé)調(diào)度組成該MapReduce作業(yè)的各個(gè)任務(wù)的執(zhí)行,對(duì)任務(wù)進(jìn)行監(jiān)控并重新啟動(dòng)執(zhí)行失敗的任務(wù)。TaskTracker負(fù)責(zé)執(zhí)行JobTracker分配給它的任務(wù)。
[0023]下面將以分布式服務(wù)器集群作為一示例來(lái)對(duì)本實(shí)施例的海量交易數(shù)據(jù)中頻繁項(xiàng)目集的挖掘方法及查詢(xún)方法來(lái)進(jìn)行說(shuō)明,但本發(fā)明并不以此為限。
[0024]圖1是示出根據(jù)本發(fā)明的實(shí)施例的分布式服務(wù)器集群的架構(gòu)示意圖。
[0025]參照?qǐng)D1,根據(jù)本發(fā)明的實(shí)施例的分布式服務(wù)器集群采用主/從節(jié)點(diǎn)構(gòu)架,其由主節(jié)點(diǎn)服務(wù)器20以及從節(jié)點(diǎn)服務(wù)器31、從節(jié)點(diǎn)服務(wù)器32、……、從節(jié)點(diǎn)服務(wù)器3η共η個(gè)從節(jié)點(diǎn)服務(wù)器構(gòu)成。其中,主節(jié)點(diǎn)服務(wù)器20負(fù)責(zé)NameNode和JobTracker ;從節(jié)點(diǎn)服務(wù)器31、從節(jié)點(diǎn)服務(wù)器32、……、從節(jié)點(diǎn)服務(wù)器3η共η個(gè)從節(jié)點(diǎn)服務(wù)器則負(fù)責(zé)DataNode和TaskTracker0
[0026]具體而言,客戶(hù)端(例如計(jì)算機(jī)等)10向主節(jié)點(diǎn)服務(wù)器20提交頻繁項(xiàng)目集的查詢(xún)請(qǐng)求或頻繁項(xiàng)目集關(guān)聯(lián)信息的查詢(xún)請(qǐng)求。這里,主節(jié)點(diǎn)服務(wù)器20具有兩個(gè)功能,其一是響應(yīng)客戶(hù)端10提供的頻繁項(xiàng)目集的查詢(xún)請(qǐng)求或頻繁項(xiàng)目集關(guān)聯(lián)信息的查詢(xún)請(qǐng)求,將頻繁項(xiàng)目集的查詢(xún)請(qǐng)求或頻繁項(xiàng)目集關(guān)聯(lián)信息的查詢(xún)請(qǐng)求所請(qǐng)求的任務(wù)分配給各個(gè)從節(jié)點(diǎn)服務(wù)器,其二是自身周期性地啟動(dòng)海量交易數(shù)據(jù)中頻繁項(xiàng)目集的挖掘任務(wù),并將該挖掘任務(wù)進(jìn)行劃分后均勻分配給各個(gè)從節(jié)點(diǎn)服務(wù)器;各個(gè)從節(jié)點(diǎn)服務(wù)器負(fù)責(zé)完成由主節(jié)點(diǎn)服務(wù)器20提供的頻繁項(xiàng)目集的查詢(xún)請(qǐng)求或頻繁項(xiàng)目集關(guān)聯(lián)信息的查詢(xún)請(qǐng)求所請(qǐng)求的任務(wù)以及主節(jié)點(diǎn)服務(wù)器20分配的挖掘任務(wù)后,將挖掘結(jié)果和查詢(xún)結(jié)果(即查詢(xún)到的頻繁項(xiàng)目集或者頻繁項(xiàng)目集關(guān)聯(lián)信息)通過(guò)主節(jié)點(diǎn)服務(wù)器20進(jìn)行整合后回傳給客戶(hù)端10。
[0027]下面將對(duì)上述的主節(jié)點(diǎn)服務(wù)器20自身周期性地啟動(dòng)海量交易數(shù)據(jù)中頻繁項(xiàng)目集的挖掘任務(wù)所采用的挖掘方法進(jìn)行詳細(xì)的說(shuō)明。
[0028]圖2是示出根據(jù)本發(fā)明的實(shí)施例的海量交易數(shù)據(jù)中頻繁項(xiàng)目集的挖掘方法的流程圖。
[0029]參照?qǐng)D2,在步驟Sll中,收集海量原始交易數(shù)據(jù),并更新與原始交易數(shù)據(jù)對(duì)應(yīng)的索引文件。所述索引文件包含了與原始交易數(shù)據(jù)對(duì)應(yīng)的有關(guān)數(shù)據(jù)描述信息,該數(shù)據(jù)描述信息可包括,但不限于,文件名、文件大小、收集時(shí)間、存放目錄、是否已處理等,其中,可用“O”表示未處理,“ I ”表示已處理。
[0030]在步驟S12中,查詢(xún)是否存在未處理的原始交易數(shù)據(jù),其中,若存在未處理的原始交易數(shù)據(jù),則執(zhí)行下面的步驟S13);若未存在未處理的原始交易數(shù)據(jù),則返回步驟S11。例如,可查詢(xún)與原始交易數(shù)據(jù)對(duì)應(yīng)的索引文件信息,其中,若存在‘是否已處理’的值為O的文件信息,則根據(jù)索引文件中‘文件名’及‘存放目錄’等信息找到對(duì)應(yīng)未處理的原始交易數(shù)據(jù)作為輸入數(shù)據(jù)來(lái)執(zhí)行下面的步驟S13 ;若不存在‘是否已處理’值為O的文件信息,則停止并返回到步驟S11。
[0031]在步驟S13中,對(duì)未處理的原始交易數(shù)據(jù)(例如可是與存在‘是否已處理’的值為O的索引文件信息相對(duì)應(yīng)的原始交易數(shù)據(jù))進(jìn)行預(yù)處理,并將經(jīng)過(guò)預(yù)處理的原始交易數(shù)據(jù)導(dǎo)入到分布式文件系統(tǒng)中。具體而言,主節(jié)點(diǎn)服務(wù)器20可將經(jīng)過(guò)預(yù)處理的原始交易數(shù)據(jù)劃分成若干連續(xù)的交易數(shù)據(jù)塊,并將該若干連續(xù)的交易數(shù)據(jù)塊均勻分布在本實(shí)施例的分布式服務(wù)器集群的各個(gè)從節(jié)點(diǎn)服務(wù)器上。在該步驟的具體
當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1