本發(fā)明屬于空間co-location(并置)模式挖掘
技術(shù)領(lǐng)域:
,特別是涉及一種頻繁co-location(并置)模式的無損壓縮方法。
背景技術(shù):
:空間co-location模式挖掘(miningprevalentco-locationpatternsfromspatialdatasets)用于識別傳統(tǒng)地理空間數(shù)據(jù)集中頻繁地緊密相鄰出現(xiàn)的空間特征組。如圖1是一個空間數(shù)據(jù)集的例子。圖中以不同的圖標表示不同的空間特征,如房子。圖中共有5個特征,每個特征有4個空間實例。從圖中可以觀察到,空間特征枯樹和山火以及房子和鳥的實例趨于頻繁地緊密相鄰出現(xiàn)。這兩個模式暗示著“山火頻繁與枯樹太多有關(guān)”,而“房子與鳥的頻繁出現(xiàn),說明人居環(huán)境得到了改善”??臻gco-location模式挖掘的應(yīng)用包括找出生活(或生長)空間相互重疊的動(或植)物、識別特定人群經(jīng)常聚集的地段以便有目的地放置特定廣告、理解地球氣候系統(tǒng)不同元素之間的聯(lián)系等。由于此研究領(lǐng)域具有較高的理論研究與實際應(yīng)用價值,國內(nèi)外許多研究者提出了各種空間co-location模式挖掘算法。與從事務(wù)數(shù)據(jù)庫中挖掘頻繁項集類似,從大型空間數(shù)據(jù)庫中挖掘頻繁co-location模式集的主要挑戰(zhàn)是這種挖掘常常產(chǎn)生大量滿足最小頻繁性閾值m的空間co-location模式,當m設(shè)得很低時尤其如此。這是因為如果一個co-location模式是頻繁的,則他的所有子集也是頻繁的。為此,現(xiàn)有技術(shù)(j.s.yooandm.bow.miningtop-kclosedco-locationpatterns[c].inproceedingsofieeeinternationalconferenceonspatialdataminingandgeographicalknowledgeservices(icsdm),pp.100-105,2011.記為文獻2)提出了一種top-k閉co-location模式概念和相應(yīng)的挖掘算法,在該文獻中,閉co-location模式的概念是:一個co-location模式c是閉的,當且僅當它的參與度值均大于它的任何超模式的參與度值,即:top-k閉co-location模式的概念是:設(shè)l是按參與度值降序排列的所有閉co-location模式的列表,p是列表l中第k個閉co-location模式的參與度,top-k閉co-location模式是指所有參與度值大于等于p的閉co-location模式的集合。top-k閉co-location模式挖掘的方法是:首先,把輸入數(shù)據(jù)組織成實例鄰居事務(wù)集和特征鄰居事務(wù)集。鄰居事務(wù)集的優(yōu)點在于:1、它不會丟失任何具有鄰近關(guān)系的實例對;2、它易建成;3、由它可方便地產(chǎn)生候選co-location模式;4、它可以給出co-location模式參與度的上界值。其次,使用類fp-tree結(jié)構(gòu)來存儲具有鄰近關(guān)系的空間特征,從而可以得到星型鄰居候選模式。然后,通過組合相關(guān)星型鄰居候選模式,可以得到候選co-location模式和候選模式參與度的上界值。接下來,利用內(nèi)部最小頻繁性閾值θ可以定義一個剪枝框架,從而減少搜索空間中候選模式的數(shù)量。這個剪枝框架的基本思想是:設(shè)定當前top-k結(jié)果集中最小的參與度值為內(nèi)部最小頻繁性閾值θ,如果下一個候選的參與度的上界值小于θ,則它及它所有的超集均可以剪枝。再然后,對于不能剪枝的候選模式,利用實例鄰居事務(wù)集獲得候選模式的表實例,從而可以計算候選模式的真實參與度值。最后,利用折半查找的方法在top-k有序結(jié)果集中對比co-location模式的參與度值,從而得到最終的top-k閉模式集。對于圖2(a)所示的空間數(shù)據(jù)集,通常用f={a,b,c,d}來表示空間特征的集合,而特征實例則記為“特征.數(shù)字編號”,例如“a.1”,圖中用實例間的連線表示兩個實例間存在鄰近關(guān)系。可以看到,在圖2(a)所示的這個空間數(shù)據(jù)集中特征a有4個實例,b有5個實例,c有3個實例,而d有4個實例。而參與率和參與度的引入,則可用來挑選出f中所有的頻繁co-location模式。假若此時設(shè)置最小參與度閾值m=0.3,那么這個數(shù)據(jù)集所包含的頻繁co-location模式為:{a,b,c,d},{a,b,c},{a,b,d},{a,c,d},{b,c,d},{a,b},{a,c},{a,d},{b,c},{b,d}和{c,d}(圖2(b)給出了圖2(a)數(shù)據(jù)集的所有co-location模式的表實例、參與率和參與度等值)。然而,由于滿足向下閉包性質(zhì)的co-location模式會產(chǎn)生大量的冗余模式,因此如何使用一個精簡集(較小的集合),使其不僅能描繪原始結(jié)果集且通過它能夠推導(dǎo)出原始的結(jié)果集便成了新的研究熱點。于是,學者們提出了極大co-location模式集和閉co-location模式集這兩個概念。極大co-location模式集是有損壓縮的精簡集,這是因為它雖能推導(dǎo)出原始結(jié)果集,但不一定能推導(dǎo)出相應(yīng)的參與度(pi)值。而閉co-location模式集是無損壓縮的精簡集,它解決了極大co-location模式集不能推導(dǎo)出相應(yīng)參與度(pi)值的問題。但這也使得閉co-location模式集的精簡能力變得很有限。例如,圖2(a)中數(shù)據(jù)集的閉co-location模式集是{{a,b,c,d},{a,b,d},{a,c,d},{b,c,d},{a,b},{a,d},{b,d},{c,d}},可以看到,這樣的精簡集依舊很大。實踐中,由空間數(shù)據(jù)集產(chǎn)生的頻繁co-location模式的數(shù)量可能非常大,因此,從中識別出可以推導(dǎo)出其他所有的頻繁co-location模式的、較小的、具有代表性的壓縮子集是有用的。頻繁閉co-location模式集(記為pi-閉co-location模式集)提供了頻繁co-location模式集的一種壓縮表示,該表示不丟失參與度信息。存在的頻繁閉co-location模式概念沿襲了傳統(tǒng)頻繁閉項集的思想,其結(jié)果是壓縮率極低,即頻繁閉co-location模式數(shù)目仍然偏大。技術(shù)實現(xiàn)要素:本發(fā)明實施例的目的在于提供一種頻繁co-location模式的無損壓縮方法,該方法提供了頻繁co-location模式集的更小的、不丟失參與度信息的壓縮表示。本發(fā)明所采用的技術(shù)方案是,頻繁co-location模式的無損壓縮方法,首先定義spi-閉co-location模式:定義1.對于兩個給定的co-location模式c和c′且c在c′中的超參與度spi(c|c')被定義為通過c'的表實例計算得到的c中所有特征參與率的最小值,即:spi(c|c')=min{pr(c',fi),fi∈c};定義2.一個co-location模式c是spi-閉co-location模式,當且僅當c的pi值大于c在它所有spi-閉的超模式c'中的spi值,即:當且僅當c'是spi-閉co-location模式,同時pi(c)>spi(c|c')→c是一個spi-閉co-location模式;定義3.若一個spi-閉co-location模式c是spi-閉頻繁co-location模式,當且僅當c是spi-閉的且pi(c)≥m,其中m表示的是用戶指定的頻繁性閾值;而對于一個co-location模式c,如果存在一個co-location模式c'使得且pi(c)=spi(c|c')(pi(c)=pi(c')),那么稱“c'spi-覆蓋c(pi-覆蓋)”;然后,按照以下步驟進行:步驟1,預(yù)處理輸入數(shù)據(jù):生成鄰居事務(wù)集nt和特征鄰居事務(wù)集ent;步驟2,使用字典序前綴樹結(jié)構(gòu)來存儲特征鄰居事務(wù)集,基于特征鄰居事務(wù)集的前綴樹結(jié)構(gòu),生成星型spi-閉候選模式,組合星型spi-閉候選模式生成團spi-閉候選模式;步驟3,生成了團spi-閉候選模式之后,通過掃描鄰居事務(wù)集nt,可以得到候選模式的候選表實例,再通過檢測其它實例的鄰近關(guān)系,可以得到真正符合團關(guān)系的表實例;基于表實例可以計算模式的參與度pi,同時可以通過以下方法判定一個模式是否是spi-閉co-location模式:對于k階候選模式c,若pi(c)=upi(c)(c的參與度pi=c的上界參與度upi),那么c一定是spi-閉co-location模式;否則,就需要先生成模式c的所有k-1階被剪枝的子模式作為候選,接下來,若pi(c)<m,那么c就被剪枝掉;如若大于等于m,則需要根據(jù)定義2和定義3來判定c是否是一個spi-閉co-location模式。進一步的,所述步驟1中,預(yù)處理輸入數(shù)據(jù)具體過程為:使用給定的鄰近距離閾值處理輸入數(shù)據(jù)集,得到所有的鄰近實例對,通過分組鄰近實例對,生成鄰居事務(wù)集nt,然后,根據(jù)鄰居事務(wù)集nt生成特征鄰居事務(wù)集ent;對于一個空間特征實例f.i∈s,它的實例鄰居事務(wù)集是一個包含f.i和所有與f.i具有鄰近關(guān)系的其它空間特征實例的集合,也就是nt(f.i)={f.i,g.j∈s|nr(f.i,g.j)=trueandf≠g},其中nr表示空間實例之間的鄰近關(guān)系,f.i被稱為參考實例,所有實例的鄰居事務(wù)集的集合稱為空間數(shù)據(jù)的鄰居事務(wù)集,記為nt;實例鄰居事務(wù)集nt中不同空間特征的字典序集,稱為特征鄰居事務(wù)集ent。進一步的,所述步驟2使用字典序前綴樹結(jié)構(gòu)來存儲特征鄰居事務(wù)集的具體過程為:步驟1.定義字典序前綴樹;以參考實例的特征類型為根節(jié)點,以特征鄰居事務(wù)集中鄰居特征為子節(jié)點;每個子節(jié)點由三部分內(nèi)容構(gòu)成:特征類型,計數(shù)值和節(jié)點連線;其中,特征類型用來標識節(jié)點;計數(shù)值代表在整個特征事務(wù)集中有幾條路徑可以從參考實例的特征類型到達該特征類型;節(jié)點連線連接的是在這棵樹中與該節(jié)點擁有相同特征類型的節(jié)點;步驟2.由于在字典序前綴樹中,所有的子節(jié)點都與根節(jié)點具有鄰近關(guān)系,所以可以生成星型spi-閉候選co-location模式;而且通過字典序前綴樹,還可以得到此星型spi-閉co-location模式的參與率上界值(upr);若在同一棵樹中,某個候選的上界參與率等于它的超候選的上界參與率,那么,就標紅這個星型候選;但若某個候選的上界參與率小于閾值m,那么就把它刪除掉;步驟3,通過組合k個相關(guān)星型spi-閉co-location候選模式,生成k階團spi-閉co-location候選模式,且這k個星型候選中最小的上界參與率便是k階團spi-閉co-location候選模式的上界參與度值(upi)。本發(fā)明的有益效果是:提出了一種頻繁co-location模式的無損壓縮新方法,稱為spi-閉co-location模式挖掘方法。spi-閉co-location模式集提供了頻繁co-location模式集的更小(比現(xiàn)有技術(shù)提出的閉co-location模式(稱為pi-閉co-location模式)集減少約30%)的、不丟失參與度信息的壓縮表示。附圖說明為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1是空間數(shù)據(jù)集舉例。圖2a是一個空間數(shù)據(jù)集示例,圖2b是圖2a中所有可能的co-location模式的co-location實例、參與率和參與度值。圖3是候選模式的生成示例,其中圖3a是表1(a)數(shù)據(jù)集中特征的字典序前綴樹;圖3b是星型spi-閉候選模式;圖3c是團spi-閉候選模式。圖4是本發(fā)明實施例中spi-挖掘器和pi-挖掘器運行時間對比圖。具體實施方式下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。首先,給出spi-閉co-location模式的相關(guān)定義和引理,然后給出能夠直接挖掘這一類模式的方法。定義1.超參與度,thesuperparticipationindexspi(c|c')對于兩個給定的co-location模式c和c′且c在c′中的超參與度spi(c|c')被定義為通過c'的表實例計算得到的c中所有特征參與率的最小值。即:spi(c|c')=min{pr(c',fi),fi∈c}。例1,在圖2(a)中,spi({a,c,d}|{a,b,c,d})=min{pr({a,b,c,d},a)=2/4,pr({a,b,c,d},c)=1/3,pr({a,b,c,d},d)=2/4}=1/3。類似地,spi({a,b,d}|{a,b,c,d})=2/5。定義2.spi-閉co-location模式,spi-closedco-locationpatterns一個co-location模式c是spi-閉co-location模式,當且僅當c的pi值大于c在它所有spi-閉的超模式c'中的spi值。即:當且僅當c'是spi-閉co-location模式,同時pi(c)>spi(c|c')→c是一個spi-閉co-location模式。為方便后面的描述,我們把傳統(tǒng)閉co-location模式(即文獻2提出的閉co-location模式)記作pi-閉co-location模式(pi-closedco-locationpatterns)。例2,對于圖2(a)中的空間數(shù)據(jù)集,若m=0.3,那么{a,b,c,d}是一個spi-閉co-location模式。而由于pi({a,b,c})=spi({a,b,c}|{a,b,c,d})=pi({a,b,c,d}),pi({a,b,d})=spi({a,b,d}|{a,b,c,d})>pi({a,b,c,d}),所以{a,b,c}和{a,b,d}都不是spi-閉co-location模式,但是,{a,b,d}是一個pi-閉co-location模式。定義3.spi-閉頻繁co-location模式,spi-closedprevalentco-locationpatterns若一個spi-閉co-location模式c是spi-閉頻繁co-location模式,當且僅當c是spi-閉的且pi(c)≥m,其中m表示的是用戶指定的頻繁性閾值。為了簡化陳述,用spi-閉co-location模式代替spi-閉頻繁co-location模式。而對于一個co-location模式c,如果存在一個co-location模式c'使得且pi(c)=spi(c|c')(pi(c)=pi(c')),那么稱“c'spi-覆蓋c(pi-覆蓋)”。引理1.若且“c'pi-覆蓋c”,那么“c'spi-覆蓋c”一定成立。引理2.在頻繁co-location模式集中,spi-覆蓋關(guān)系是一種偽偏序關(guān)系,它滿足:(1)“cspi-覆蓋c”。(自反性)(2)若“c′spi-覆蓋c”且“cspi-覆蓋c′”,那么c=c′。(反對稱性)(3)若pi(c)=pi(c′)且“c"spi-覆蓋c′”,那么“c"一定能夠spi-覆蓋c”。(偽傳遞性)我們注意到,“pi-覆蓋關(guān)系”是滿足傳遞性的,但是“spi-覆蓋關(guān)系”并非如此。這也就是為什么在定義2中附加了條件“c'是spi-閉co-location模式”。此外,尋找spi-閉co-location模式的過程必須自頂向下進行,也就是說,spi-閉co-location模式的挖掘是從高階到低階依次生成的。最后,spi-閉模式集的壓縮性能比pi-閉模式集的壓縮性能要強,也就是說,對于同一數(shù)據(jù)集,我們得到的spi-閉模式集sspi-closed中所包含的模式數(shù)量要比pi-閉模式集spi-closed中所包含的模式數(shù)量要少。引理3.若c∈sspi-closed,那么c∈spi-closed,反之則不一定成立。下面闡述直接挖掘spi-閉co-location模式的有效方法,稱為spi-閉挖掘器。為了快速生成spi-閉co-location模式集,需要預(yù)處理輸入數(shù)據(jù),其過程如下:對于一個空間特征實例f.i∈s,它的實例鄰居事務(wù)集是一個包含f.i和所有與f.i具有鄰近關(guān)系的其它空間特征實例的集合。也就是,nt(f.i)={f.i,g.j∈s|nr(f.i,g.j)=trueandf≠g},其中nr表示空間實例之間的鄰近關(guān)系,f.i被稱為參考實例。例如,在圖2(a)中,實例a.1的實例鄰居事務(wù)集是{a.1,b.1,c.1,d.1}。而表1(a)給出了圖2(a)中所有空間實例的鄰居事務(wù)集。實例鄰居事務(wù)集中不同空間特征的字典序集,稱為特征鄰居事務(wù)集,如表1(b)是表1(a)對應(yīng)的特征鄰居事務(wù)集。表1為圖2(a)空間數(shù)據(jù)集的實例鄰居事務(wù)集和特征鄰居事務(wù)集為了方便快捷地生成候選spi-閉co-location模式并剪枝候選搜索空間,使用字典序前綴樹結(jié)構(gòu)來存儲特征鄰居事務(wù)集。首先,我們定義字典序前綴樹。它以參考實例的特征類型為根節(jié)點,以特征鄰居事務(wù)集中鄰居特征為子節(jié)點。每個節(jié)點由三部分內(nèi)容構(gòu)成:特征類型,計數(shù)值和節(jié)點連線。其中,特征類型用來標識節(jié)點;計數(shù)值代表在整個特征事務(wù)集中有幾條路徑可以從參考實例的特征類型到達該特征類型;節(jié)點連線連接的是在這棵樹中與該節(jié)點擁有相同特征類型的節(jié)點。例如,表1(b)中的特征鄰近事務(wù)集的字典序前綴樹如在圖3(a)所示。其次,由于在字典序前綴樹中,所有的子節(jié)點都與根節(jié)點具有鄰近關(guān)系,所以可以生成星型spi-閉候選co-location模式。而且通過字典序前綴樹,還可以得到此星型spi-閉co-location模式的參與率上界值(它是根節(jié)點的參與率上界值)。若在同一棵樹中,某個候選的上界參與率等于它的超候選的上界參與率,那么,就標紅這個星型候選。但若某個候選的上界參與率小于閾值m,那么就把它刪除掉。例如,對于圖3(a)中特征a的字典序前綴樹,如果m=0.3,可以得到星型候選及上界參與度:{a,b,c,d}:2/4,{a,b,c}:2/4,{a,b,d}:2/4,{a,c,d}:3/4,{a,b}:3/4,{a,c}:3/4,{a,d}:3/4。而其中需要被標紅的候選模式分別為:{a,b,c}:2/4,{a,b,d}:2/4,{a,c}:3/4和{a,d}:3/4。圖3(a)中4棵前綴樹所能生成的星型spi-閉co-location候選模式如圖3(b)所示。最后,通過組合k個相關(guān)星型spi-閉co-location候選模式,生成k階團spi-閉co-location候選模式,且這k個星型候選中最小的上界參與率便是k階團spi-閉co-location候選模式的上界參與度值。剪枝1(非頻繁剪枝):若一個co-location模式c不是某個特征fi(fi∈c)前綴樹的星型spi-閉co-location候選模式,那么c可以被剪枝掉。例如,若m=0.4,那么模式{c,a,b,d}和{c,a,b}就不是特征c前綴樹的星型spi-閉co-location候選模式。那么,{a,b,c,d}和{a,b,c}不能再組合形成團spi-閉co-location候選模式,{a,b,c,d}和{a,b,c}可以被剪枝掉。剪枝2(非spi-閉剪枝1):若一個團spi-閉候選模式c的upi值(上界參與度值)被標紅,且upi(c)=upi(c')(c′是一個團spi-閉候選模式),那么c可以被剪枝掉。例如,在圖3(c)中,upi({a,b,c})=upi({a,b,c,d}),若{a,b,c,d}是團spi-閉候選模式,那么{a,b,c}可以被剪枝掉。同樣地,{a,c}和{b,c}也可以被剪枝掉。剪枝3(非spi-閉剪枝2):若一個團spi-閉候選模式c的upi值被標紅,且upi(c)=uspi(c|c')(c′是一個團spi-閉候選模式,uspi(c|c')是指超參與度上界值),那么c可以被剪枝掉。例如,在圖3(c)中,upi({a,b,d})=uspi({a,b,d}|{a,b,c,d})=2/5,若{a,b,c,d}是團spi-閉候選模式,那么{a,b,d}可以被剪枝掉。同樣地,{a,d}也可以被剪枝掉。但是,由于upi({b,d})≠uspi({b,d}|{b,c,d}),所以{b,d}不可以被剪枝掉。如圖3(c)所示,若m=0.3,那么可以得到的團spi-閉候選模式和它們的upi值分別為:{a,b,c,d}:1/3,{a,c,d}:2/3,{b,c,d}:2/3},{a,b}:3/5,{b,d}:3/4和{c,d}:1。注意到,對于圖2(a)中的空間數(shù)據(jù)集,通過上述的剪枝過程,所有非spi-閉模式都已被剪枝掉。此外,注意到,剪枝3包含了剪枝2,也就是說,能被剪枝2剪枝掉的候選模式,也能用剪枝3剪枝掉。之所以保留剪枝2的原因在于:1、當使用值對比策略時,剪枝2的計算復(fù)雜性要比剪枝3的低;2、符合剪枝2條件的非spi-閉模式居多。一旦生成了候選模式之后,就需要找出每個候選模式的表實例并計算出它們的真實參與度(pi)值。對此,將以自頂向下的方式來完成。通過掃描鄰居事務(wù)集,可以得到候選模式的候選表實例,再通過檢測其它實例的鄰居事務(wù)集,可以得到真正符合團關(guān)系的表實例。例如,在圖3(a)中,{a.2,b.2,c.1,d.2}是候選模式{a,b,c,d}的真實表實例。但{a.2,b.1,c.1,d.2}就不是了。對于k階候選模式c,若pi(c)=upi(c),那么c一定是spi-閉co-location模式。否則,就需要先生成模式c的所有k-1階子模式,接下來,若pi(c)<m,那么c就被剪枝掉;如若大于等于m,則需要根據(jù)定義2和定義3來檢測c是否是一個spi-閉co-location模式。需要注意的是,2階co-location模式的upi值是其真實的pi值。下面,給出直接挖掘spi-閉co-location模式的spi-閉挖掘器的算法:而第三部分的主要功能是計算cncc中每個候選模式的真實pi值,且生成spi-閉頻繁co-location模式集ω。特別地,若一個候選模式c,其pi(c)=upi(c),那么就直接把模式c從cncc移到ω中。但若候選模式c的pi(c)≠upi(c),那么就用steps25)–27)進一步處理它們。下面通過一組實驗(實施例)來驗證本發(fā)明提出的spi-閉co-location模式集和spi-閉挖掘器的性能。本實驗所采用的編程工具是visualc++。運行spi-挖掘器的實驗環(huán)境是:cpu:intelcorei53337u@1.80ghz;ram:2gb;operatingsystem:microsoftwindows7.實施例所使用的數(shù)據(jù)是來自“云南三江并流保護區(qū)”的植物分布數(shù)據(jù)集,它擁有少量空間特征,但含有大量特征實例。此組數(shù)據(jù)是分布在110000m×160000m區(qū)域范圍,它不僅含有離散分布的數(shù)據(jù),而且含有聚簇分布的數(shù)據(jù)。如表1所示。表1.云南三江并流保護區(qū)植物分布數(shù)據(jù)集數(shù)據(jù)集名特征數(shù)實例數(shù)(max,min)實例分布區(qū)域(米)云南三江并流植物分布數(shù)據(jù)集15501046(55646,8706)110000×160000(max,min):用來表示此數(shù)據(jù)集中所有特征的最大實例數(shù)目和最小實例數(shù)目使用表1所示的數(shù)據(jù)集,我們對spi-閉挖掘器和pi-閉挖掘器進行對比。如表2所示,它給出的是隨著模式階數(shù)的增長,生成的候選模式的數(shù)量和最終結(jié)果模式的數(shù)量。可以看到,spi-閉挖掘器生成的候選模式的數(shù)量比pi-閉挖掘器生成的候選模式的數(shù)量要少。此外,隨著模式階數(shù)的增長,spi-閉挖掘器生成的候選模式的數(shù)量和最終結(jié)果模式的數(shù)量越來越靠近。這樣就會大幅度地減少算法的運行時間,因為判定一個長候選模式是否是閉模式所花費的時間要比判定一個較短的候選模式所花費的時間要長。表2.spi-閉挖掘器和pi-閉挖掘器對比在這個實驗中,我們設(shè)置d=10000,m=0.3如圖4所示,我們可以看到,當m和d比較小時,spi-閉挖掘器要比pi-閉挖掘器運行的快。特別是當m=0.1時,spi-閉挖掘器比pi-挖掘器快了三倍。本發(fā)明的優(yōu)點是:1、提出的spi-閉co-location模式集提供了頻繁co-location模式集的更小(比文獻2提出的閉co-location模式(稱為pi-閉co-location模式)集減少約30%)的、不丟失參與度信息的表示。2、設(shè)計的spi-閉挖掘器的運行時間比傳統(tǒng)pi-閉co-location模式挖掘所用的時間要少。首先,因為spi-閉模式的約束條件要比pi-閉模式的約束條件要強,所以,與pi-閉模式挖掘算法相比,在spi-閉挖掘器中生成的候選模式要少;其次,在spi-閉co-location模式生成的過程中,大量的時間被用在生成co-location實例和計算pi值上。因此,在生成候選模式的過程中,我們使用了3種剪枝策略來盡可能地去掉非spi-閉模式,如圖1(a)所示的數(shù)據(jù),在組合過濾階段,所有非spi-閉co-location模式已被全部剪枝掉了。本說明書中的各個實施例均采用相關(guān)的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于系統(tǒng)實施例而言,由于其基本相似于方法實施例,所以描述的比較簡單,相關(guān)之處參見方法實施例的部分說明即可。以上所述僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進等,均包含在本發(fā)明的保護范圍內(nèi)。當前第1頁12