亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

面向不確定數(shù)據(jù)的閉序列挖掘方法

文檔序號(hào):9200435閱讀:543來源:國(guó)知局
面向不確定數(shù)據(jù)的閉序列挖掘方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種閉序列挖掘方法,特別是涉及一種面向不確定數(shù)據(jù)的閉序列挖掘 方法。
【背景技術(shù)】
[0002] 面向不確定數(shù)據(jù)的頻繁模式挖掘方法主要可分為三類:
[0003] 1)期望計(jì)算法。
[0004] 針對(duì)不確定數(shù)據(jù)的頻繁項(xiàng)集挖掘方法主要包括:基于傳統(tǒng)Aprior方法改造的 U-Aprior方法、U-Aprior的剪枝算法、樹結(jié)構(gòu)方法以及挖掘用戶期望概率項(xiàng)集的方法。 [0005] 在確定數(shù)據(jù)流挖掘方法FP-stream基礎(chǔ)上,文獻(xiàn)"Leung C K S, Brajczuk D A. Efficient algorithms for mining constrained frequent patterns from uncertain data[C]//Proceedings of the 1st ACM SIGKDD Workshop on Knowledge Discovery from Uncertain Data. ACM, 2009:9-18. "和"Leung C K S, Hao B. Mining of frequent itemsets from streams of uncertain data[C]//Data Engineering, 2009. ICDE' 09. IEEE 25th International Conference on. IEEE, 2009:1663-1670. " 提出 了兩種不確定數(shù)據(jù)流頻繁項(xiàng) 集挖掘方法:UF-streaming和SUF-growth方法。兩種方法的相同之處都是對(duì)每個(gè)數(shù)據(jù)項(xiàng) 增加概率屬性,當(dāng)窗口滑動(dòng)時(shí),帶有概率的數(shù)據(jù)項(xiàng)不斷更新到頻繁項(xiàng)集樹中,并通過計(jì)算期 望支持度確定頻繁項(xiàng)集。而它們的區(qū)別是UF-streaming方法進(jìn)行了剪枝。隨著窗口的滑 動(dòng),兩方法均需占用大量存儲(chǔ)空間,而且處理速度較慢。
[0006] 2)頻次分布計(jì)算法。
[0007] 文獻(xiàn) "Zhang Q, Li F, Yi K. Finding frequent items in probabilistic data[C]//Proceedings of the 2008 ACM SIGMOD international conference on Management of data. ACM, 2008:819-832. "提出了通過頻次分布計(jì)算支持度的方式來定 義頻繁項(xiàng),由于充分考慮了項(xiàng)集發(fā)生的分布特性,能夠得到更精確的頻繁項(xiàng)。DP(Dynamic Programming-based apriori algorithm)算法和 DC (Divide-and-Conquer-based apriori algorithm)算法是目前基于頻次分布挖掘頻繁項(xiàng)集的代表算法。同樣由于頻次分布函數(shù)精 確計(jì)算代價(jià)很大,故均采用一些剪枝方法。DC算法采用卷積技術(shù),其算法復(fù)雜度較DP算法 低。
[0008] Is-UFI算法將頻次分布計(jì)算方式引入到數(shù)據(jù)流環(huán)境中頻繁項(xiàng)的挖掘,算法采用理 論最大值模型預(yù)測(cè)未來基本窗口的期望支持度上界,再進(jìn)行近似計(jì)算概率上界,并以此為 依據(jù)對(duì)數(shù)據(jù)項(xiàng)進(jìn)行動(dòng)態(tài)過濾;最后對(duì)過濾后的數(shù)據(jù)項(xiàng)進(jìn)行頻繁特性檢查;算法中采用了舊 數(shù)據(jù)的卷積運(yùn)算結(jié)果來提高計(jì)算效率。但是,上界計(jì)算中采用近似算法,容易導(dǎo)致精度的下 降。
[0009] 3)近似算法。
[0010] 頻次分布計(jì)算復(fù)雜度高的特點(diǎn)催生了近似頻次分布計(jì)算方面的研宄。其中, F1DUApriori算法采用泊松分布近似頻次分布函數(shù);NDUApriori和NDUH-Mine算法采用正態(tài) 分布近似頻次分布函數(shù)。roUApriori算法只能得出哪些是概率頻繁項(xiàng)集,而不能得出具體 的概率值;NDUApriori算法在稠密大量數(shù)據(jù)庫(kù)中有很好的性能,但是在稀疏情況下是不可 行的;NDUH-Mine算法在稀疏大量數(shù)據(jù)庫(kù)中比NDUApriori算法挖掘效率高。然而,無(wú)論哪 種近似算法都只適用于數(shù)據(jù)規(guī)模較大的情況。

【發(fā)明內(nèi)容】

[0011] 為了克服現(xiàn)有面向不確定數(shù)據(jù)的閉序列挖掘方法精度差的不足,本發(fā)明提供一種 面向不確定數(shù)據(jù)的閉序列挖掘方法。該方法首先將不確定數(shù)據(jù)成功地轉(zhuǎn)換為確定數(shù)據(jù)的序 列挖掘,并從中剪枝掉那些非閉序列,再加上"概率頻繁"性質(zhì)檢查過程中的剪枝技術(shù),從而 可以精確高效地挖掘概率頻繁閉序列。
[0012] 本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:一種面向不確定數(shù)據(jù)的閉序列挖掘 方法,其特點(diǎn)是采用以下步驟:
[0013] 步驟一、生成頻繁序列FS的子集或者頻繁閉合序列FCS的超集頻繁閉合候選項(xiàng) FCC,保存在相應(yīng)的內(nèi)存當(dāng)中。
[0014] 剪枝的過程,首先通過執(zhí)行i-拓展和S-拓展,遞歸的生成候選項(xiàng)并且進(jìn)行支持度 檢測(cè),返回頻繁閉合候選集的FCC的一部分用p來進(jìn)行表示,對(duì)生成的p序列進(jìn)行i拓展和 s拓展,在每次拓展之前,采用CheckAvoidable方法來判斷p序列是否需要被裁剪掉。
[0015] 采用 CheckAvoidable 方法找出 p =< a ej >和1)' =< a ei ej >序列,即如果 每次找到a序列后存在&這樣的序列形式,序列中間肯定會(huì)存在e ,這時(shí)能夠避免拓展 這樣的P序列。
[0016] 為了找到這種形式的序列,定義了兩種形式:1(S,P)和I(Dp)
[0017] 1(S,P)是序列S對(duì)于P序列的所有剩余項(xiàng)數(shù)目綜合。
[0018] I(Dp)是對(duì)于整個(gè)數(shù)據(jù)庫(kù)來說,所有序列si(i = 1,2,…,η)對(duì)于p序列的所有 l(si,p)數(shù)目的總和。
[0019] 如果存在且I(Dp) = I(Dp'),則能夠判斷P和P'序列滿足上文假設(shè)的 形式,能夠避免對(duì)于P序列的拓展。
[0020] 利用后剪枝的方法,消除頻繁閉合候選項(xiàng)中所有的非閉合序列,最終獲得只含有 頻繁閉合序列。
[0021] 步驟二、由步驟一得到從不確定數(shù)據(jù)中挖掘出來所有的閉合序列,從所有的閉合 序列中過濾掉非概率頻繁序列。
[0022] 首先,計(jì)算一長(zhǎng)度序列的頻繁概率,生成閉序列。然后基于序列的S-拓展和i_拓 展理論,計(jì)算所有閉項(xiàng)集子集的概率頻繁,利用卷積的方法得到項(xiàng)集的頻次分布特征。最 后,在序列生成的過程中,使用剪枝方法加快項(xiàng)集的生長(zhǎng)過程。
[0023] 本發(fā)明的有益效果是:該方法首先將不確定數(shù)據(jù)成功地轉(zhuǎn)換為確定數(shù)據(jù)的序列挖 掘,并從中剪枝掉那些非閉序列,再加上"概率頻繁"性質(zhì)檢查過程中的剪枝技術(shù),從而精確 高效地挖掘出概率頻繁閉序列。
[0024] 下面結(jié)合附圖和【具體實(shí)施方式】對(duì)本發(fā)明作詳細(xì)說明。
【附圖說明】
[0025] 圖1是本發(fā)明面向不確定數(shù)據(jù)的閉序列挖掘方法的流程圖。
[0026] 圖2是本發(fā)明面向不確定數(shù)據(jù)的閉序列挖掘方法實(shí)施例圖。
【具體實(shí)施方式】
[0027] 參照?qǐng)D1-2。本發(fā)明面向不確定數(shù)據(jù)的閉序列挖掘方法涉及如下概念定義:
[0028] 序列與支持度:令I(lǐng) = {xp x2, ...,xm}為不同項(xiàng)集合,定義一個(gè)I的非空子集 X(項(xiàng)或序列),一個(gè)序列S=< II,12, ...,111>且11 e I,由此序列的長(zhǎng)度可以定義為
I在事務(wù)數(shù)據(jù)庫(kù)中的發(fā)生次數(shù)t稱為支持度,即support (X)。
[0029] 頻繁序列:序列S是否為的頻繁的條件是S的支持度大于給定的支持度閾值 Ininsup0
[0030] 閉序列:S為閉序列的條件是不存在S的超集S'有support (S) = support(S')。
[0031] 可能世界模型是從不確定性數(shù)據(jù)中演化出很多確定的數(shù)據(jù)實(shí)例,成為可能世界實(shí) 例。每一個(gè)可能世界實(shí)例是由確定的事務(wù)構(gòu)成。不確定序列3在&發(fā)生的概率為P(I e ti), 此概率可以產(chǎn)生兩個(gè)可能世界實(shí)例,一個(gè)實(shí)例是S存在&中,另一個(gè)實(shí)例是S不存在于t i 中。各元組的任意合法組合均構(gòu)成一個(gè)可能世界實(shí)例PWi。不確定
當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1