基于模糊理論的大數(shù)據(jù)信息挖掘方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設及大數(shù)據(jù)領(lǐng)域,更具體而言,設及一種基于模糊理論的大數(shù)據(jù)信息挖掘 方法。
【背景技術(shù)】
[0002] 隨著社會工業(yè)化、信息化水平的不斷提高,如今數(shù)據(jù)已取代計算成為信息計算的 中屯、,云計算、大數(shù)據(jù)正在成為一種趨勢和潮流。包括存儲容量、可用性、I/O性能、數(shù)據(jù) 安全性、可擴展性等諸多方面。大數(shù)據(jù)是規(guī)模非常巨大和復雜的數(shù)據(jù)集。大數(shù)據(jù)有4V: Volume(大量),數(shù)據(jù)量持續(xù)快速增加;Velocity(高速),數(shù)據(jù)I/O速度更快;Variety(多 樣),數(shù)據(jù)類型和來源多樣化;Value(價值),其存在各方面的可用價值。與此同時,大數(shù)據(jù) 信息挖掘技術(shù)中有很多分支和方向,對它進行深入研究有著重要的應用價值。關(guān)聯(lián)規(guī)則數(shù) 據(jù)挖掘于1993年由Agrawal等人提出,它最初是W分析事務數(shù)據(jù)庫中項與項之間聯(lián)系為目 標,后來的技術(shù)人員對問題原型進行多方面的改進和擴充。目前,關(guān)聯(lián)規(guī)則挖掘技術(shù)已經(jīng)被 應用到商業(yè)、電信、金融、農(nóng)業(yè)、醫(yī)療等領(lǐng)域,并取得了良好的效果。關(guān)聯(lián)規(guī)則挖掘算法是關(guān) 聯(lián)規(guī)則數(shù)據(jù)挖掘研究中的主要內(nèi)容之一,迄今為止已提出了多種關(guān)聯(lián)規(guī)則挖掘算法,其中 最著名的是Agrawal提出的Apriori算法。傳統(tǒng)的Apriori算法及其改進算法都是集中在 給定的,確定的,精確的概念上完成數(shù)據(jù)的挖掘,難W對非精確的或者說模糊的概念進行挖 掘。
[0003] 另外,在現(xiàn)有技術(shù)中,還存在諸多應用,例如;用模糊集理論對關(guān)聯(lián)規(guī)則挖掘算法 拓展,引入模糊關(guān)聯(lián)規(guī)則的概念,用模糊概念表示數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,拓寬關(guān)聯(lián)規(guī)則的表 示和應用范圍。并將概念分層應用到關(guān)聯(lián)規(guī)則的挖掘中,引入多層次模糊關(guān)聯(lián)規(guī)則挖掘算 法,將其應用到商品交易中,用其解決模糊概念的關(guān)聯(lián)規(guī)則挖掘的問題,有利于指導決策的 審IJ定。再例如甫技術(shù)采用挖掘數(shù)量關(guān)聯(lián)規(guī)則,將種類屬性的值映射到一組連續(xù)的整數(shù),然 后分為小間隔,并且鄰近間隔組合成大的間隔;并將獲得新間隔映射到連續(xù)整數(shù)上。然而如 上所述,現(xiàn)有技術(shù)中的模糊集和對應關(guān)系是事先給定的,并且對大數(shù)據(jù)信息挖掘方法的速 度不夠快,效率不夠高,準確性有待改進。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的之一是提供一種基于模糊理論的大數(shù)據(jù)信息挖掘方法,能夠基于聚 類算法確定模糊集,確定關(guān)系函數(shù)并確定關(guān)注的模糊關(guān)聯(lián)規(guī)則,從而為大數(shù)據(jù)信息挖掘提 供快速、高效和高準確性的手段。
[0005] 本發(fā)明為解決上述技術(shù)問題而采取的技術(shù)方案為:一種基于模糊理論的大數(shù)據(jù)信 息挖掘方法,其特征在于;在步驟S1中,通過聚類算法,獲得模糊集;在步驟S2中,確定關(guān) 系函數(shù);在步驟S3中,確定關(guān)注的模糊關(guān)聯(lián)規(guī)則。
[0006] 根據(jù)本發(fā)明的一個方面,該方法還包括;輸入的數(shù)據(jù)集S包括n維空間中的M值, M是數(shù)據(jù)庫中值的數(shù)量,n是參數(shù)的總數(shù)量;其中n、M、K的數(shù)值均為正整數(shù);獲得聚類K的 期望數(shù)量;用單獨的值開始,作為單獨的聚類,在每個階段上,合并最鄰近的聚類的對,形成 新的聚類;執(zhí)行W上操作,直到只剩下K個聚類。
[0007] 根據(jù)本發(fā)明的另一個方面,該方法還包括;首先確定第i個參數(shù)的模糊集,其范圍 為I(i)到A(i),其中前者表示該參數(shù)的最小值,后者表示該參數(shù)的最大值;其次確定第i個參數(shù)的模糊集的最中屯、的點的集化……fik),其中k是正整數(shù)。
[000引根據(jù)本發(fā)明的另一個方面,該方法還包括;確定該參數(shù)具有的附加的兩個模 糊集,間隔分別為[I(i),f。]和[fik,A(i)];進而確定總的k+2個模糊集具有的范圍 [I(i),fu],……化(k-i),A(i)]和[fik,A(i)];獲得每個參數(shù)的模糊集,為步驟S2的生成奠 定基礎。
[0009] 根據(jù)本發(fā)明的另一個方面,該方法還包括;步驟S2的具體實現(xiàn)方式為;在W上獲 得第i個參數(shù)的模糊集后,可確定關(guān)系函數(shù),其范圍為I(i)到A(i),其中前者表示該參數(shù)的 最小值,后者表示該參數(shù)的最大值。
[0010] 根據(jù)本發(fā)明的另一個方面,該方法還包括;步驟S2具體實現(xiàn)方式進一步包括使用 W下步驟確定關(guān)系函數(shù);S21 ;對于具有范圍從I(i)到fii的模糊集而言,如果某個值U不 大于f。,則關(guān)系函數(shù)F(u)為(u-f。)和(I(i)-f。)的商;否則如果某個值U小于f。,則關(guān) 系函數(shù)F(u)為0。
[0011] 根據(jù)本發(fā)明的另一個方面,該方法還包括;步驟S2具體實現(xiàn)方式進一步包括使用 W下步驟確定關(guān)系函數(shù);S22 ;對于具有最中屯、的點fu的每個模糊集而言,j不小于1但不 大于k;如果某個值U不小于fiu_l>但不大于fU,則此時關(guān)系函數(shù)Fu(u)為和 (fu-fi(j-i))的商;如果某個值U不小于f。'但不大于f化1),貝1J關(guān)系函數(shù)F(u)為(u-f"州) 和成j-fi(州)的商。
[0012] 根據(jù)本發(fā)明的另一個方面,該方法還包括;步驟S2具體實現(xiàn)方式進一步包括使用 W下步驟確定關(guān)系函數(shù);S23 ;對于范圍從fik到A(i)的每個模糊集,如果某個值U不大于 fik,則關(guān)系函數(shù)Fw(U)為0 ;如果某個值U大于fik但不大于A(i),則關(guān)系函數(shù)FW(U)為 (u-fik)和(A(i)-fn)的商。
[0013] 根據(jù)本發(fā)明的另一個方面,該方法還包括;確定關(guān)注的模糊關(guān)聯(lián)規(guī)則具體為S31 ; 確定事件數(shù)據(jù)庫中的DB(ei,e2,……e。),其中n是正整數(shù);確定參數(shù)P的集合,確定P中數(shù) 值參數(shù)有關(guān)的模糊集。
[0014] 根據(jù)本發(fā)明的另一個方面,該方法還包括;確定關(guān)注的模糊關(guān)聯(lián)規(guī)則還進一 步包括S32 ;確定模糊關(guān)聯(lián)規(guī)則,具體通過W下公式獲得;Rule=P1/P2,其中P1為 玄,e地口和K的商,而P2為Se,eDB口。,e/W和K的商,其中i是不大于N的正整 數(shù);其中各參數(shù)的含義如先前步驟中所述,F(xiàn)(U)的選擇和確定方式根據(jù)S2步驟確定。
【附圖說明】
[0015] 在附圖中通過實例的方式而不是通過限制的方式來示出本發(fā)明的實施例,其中相 同的附圖標記表示相同的元件,其中:
[0016] 根據(jù)本發(fā)明的實施例,圖1圖示基于模糊理論的大數(shù)據(jù)信息挖掘方法的流程圖。
【具體實施方式】
[0017] 在下面的描述中,參考附圖并W圖示的方式示出幾個具體的實施例。將理解的是: 可設想并且可做出其他實施例而不脫離本公開的范圍或精神。因此,W下詳細描述不應被 認為具有限制意義。
[0018] 根據(jù)本發(fā)明的實施例,圖1圖示基于模糊理論的大數(shù)據(jù)信息挖掘方法的流程圖。 首先,在步驟S1中,通過聚類算法,獲得模糊集;其次,在步驟S2中,確定關(guān)系函數(shù);再次, 在步驟S3中,確定關(guān)注的模糊關(guān)聯(lián)規(guī)則。
[0019] 在步驟S1中,首先從給定參數(shù)的值中確定模糊集,具體為;輸入的數(shù)據(jù)集S包括n 維空間中的M值,M是數(shù)據(jù)庫中值的數(shù)量,n是參數(shù)的總數(shù)量;其中n、M、K的數(shù)值均為正整 數(shù)。獲得聚類K的期望數(shù)量;用單獨的值開始,作為單獨的聚類,在每個階段上,合并最鄰近 的聚類的對,形成新的聚類;執(zhí)行W上操作,直到只剩下K個聚類。
[0020] 優(yōu)選地,W上步驟可用W下方法實現(xiàn);首先確定第i個參數(shù)的模糊集,其范圍為 I(i)到A(i),其中前者表示該參數(shù)的最小值,后者表示該參數(shù)的最大值。其次確定第i個 參數(shù)的模糊集的最中屯、的點的集(f。,fc,fu,……fik),其中k是正整數(shù)。該步驟進一步 包括;確定該參數(shù)具有的附加的兩個模糊集,間隔分別為[I(i),fii]和[fik,A(i)];進而確 定總的k+2個模糊集具有的范圍[I(i),fii],……化(k-i),A(i)]和[fik,A(i)];獲得每個 參數(shù)的模糊集,為步驟S2的生成奠定基礎。