一種針對單個(gè)不確定圖的頻繁子圖挖掘方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及圖挖掘技術(shù),特別地,設(shè)及一種針對單個(gè)不確定圖的頻繁子圖挖掘方 法。
【背景技術(shù)】
[0002] 不確定性在現(xiàn)實(shí)應(yīng)用中,無論是對內(nèi)源還是外源,都是一種固有的屬性。例如,在 一個(gè)合作社交網(wǎng)絡(luò)中,利用目前掌握的信息,我們未必能明確斷言比爾和馬修兩人具有很 好的合作關(guān)系,通常我們使用概率來衡量該種合作關(guān)系的可能性。假設(shè)該種關(guān)系存在的概 率為P,P的值由本領(lǐng)域?qū)<彝ㄟ^可用信息人工確定,或者由信息抽取或生成規(guī)則自動產(chǎn) 生。在大數(shù)據(jù)時(shí)代的今天,對于管理不確定數(shù)據(jù)有更為強(qiáng)烈的需求,因此目前出現(xiàn)了各種質(zhì) 量不一的數(shù)據(jù)。特別地,我們專注于不確定圖,尤其是圖的邊上具有存在概率的不確定圖。 不確定圖模型具有廣泛的應(yīng)用領(lǐng)域,除了社會網(wǎng)絡(luò),不確定圖模型還被應(yīng)用于通信網(wǎng)絡(luò),無 線傳感器網(wǎng)絡(luò),蛋白質(zhì)交互網(wǎng)絡(luò)W及生物學(xué)中的調(diào)控網(wǎng)絡(luò)等。
[0003]另一方面,頻繁模式挖掘作為數(shù)據(jù)挖掘領(lǐng)域高度關(guān)注的主題,一直持續(xù)了近十年, 相關(guān)研究也取得了長足的進(jìn)展,其中頻繁子圖引起了特別的研究興趣。所謂頻繁子圖是指 從多個(gè)小確定圖的集合或者單個(gè)大確定圖中發(fā)現(xiàn)的支持度不小于用戶給定闊值的子圖。頻 繁子圖再刻畫確定圖的數(shù)據(jù)特征、分類、聚類W及建立索引方面具有重要作用。
[0004] 雖然目前對于頻繁子圖及其在確定圖上挖掘的方法已經(jīng)具有很好的理解,但在不 確定圖上,該一問題變得更加有趣但也更少被研究。一個(gè)不確定圖時(shí)特殊的邊加權(quán)圖,其中 每條邊(u,v)上的權(quán)重是其存在的概率。最近,研究工作致力于在多個(gè)小的不確定圖的圖 集上挖掘頻繁子圖。但是,該問題在單個(gè)大型不確定圖中雖然同等重要,因?yàn)楝F(xiàn)實(shí)生活中的 大型網(wǎng)絡(luò)越來越多地出現(xiàn)了不確定性一一比如,在社會網(wǎng)絡(luò)中一個(gè)人對另一個(gè)人的影響是 具有概率的;在生物網(wǎng)絡(luò)中的蛋白質(zhì)交互情況也有一定測量誤差一-但現(xiàn)有技術(shù)在本方面 是一片空白。
[0005] 針對現(xiàn)有技術(shù)中缺乏針對單個(gè)不確定圖的頻繁子圖挖掘技術(shù)方案的問題,目前尚 缺乏有效的解決方案。
【發(fā)明內(nèi)容】
[0006] 針對現(xiàn)有技術(shù)中缺乏針對單個(gè)不確定圖的頻繁子圖挖掘技術(shù)方案的問題,本發(fā)明 的目的在于提出一種針對單個(gè)不確定圖的頻繁子圖挖掘方法,能允許針對單個(gè)不確定圖進(jìn) 行頻繁子圖挖掘,填補(bǔ)了本領(lǐng)域的技術(shù)空白。
[0007] 基于上述目的,本發(fā)明提供的技術(shù)方案如下:
[0008] 根據(jù)本發(fā)明的一個(gè)方面,提供了一種針對單個(gè)不確定圖的頻繁子圖挖掘方法,包 括:
[0009] 獲取單個(gè)不確定圖;
[0010] 根據(jù)單個(gè)不確定圖枚舉出單個(gè)不確定圖的所有子圖;
[0011] 在單個(gè)不確定圖的所有蘊(yùn)含圖中指定部分蘊(yùn)含圖為樣本圖;
[0012] 分別計(jì)算單個(gè)不確定圖的每個(gè)樣本圖的存在概率,W及每個(gè)子圖在單個(gè)不確定圖 的樣本圖上的期望支持度.
[0013] 根據(jù)每個(gè)子圖在單個(gè)不確定圖的樣本圖上的期望支持度與單個(gè)不確定圖的每個(gè) 樣本圖的存在概率,判定該子圖是否為頻繁子圖;
[0014] 輸出所有頻繁子圖。
[0015] 其中,根據(jù)單個(gè)不確定圖枚舉出單個(gè)不確定圖的所有子圖包括:
[0016] 從單個(gè)不確定圖提取出多個(gè)蘊(yùn)含圖,每個(gè)蘊(yùn)含圖都是單個(gè)不確定圖可能的存在方 式;
[0017] 分別計(jì)算每個(gè)蘊(yùn)含圖所包含的所有子圖。
[0018] 并且,提取出多個(gè)蘊(yùn)含圖的個(gè)數(shù)為2的單個(gè)不確定圖中邊的個(gè)數(shù)次幕。
[0019] 并且,在單個(gè)不確定圖的所有蘊(yùn)含圖中指定部分蘊(yùn)含圖為樣本圖,為在單個(gè)不確 定圖的所有蘊(yùn)含圖隨機(jī)指定數(shù)個(gè)蘊(yùn)含圖為樣本圖,其中,樣本圖的數(shù)量與任一子圖在單個(gè) 不確定圖的所有蘊(yùn)含圖的支持度最大值的平方成正比,與不置信度的自然對數(shù)成反比,與 誤差系數(shù)的平方成反比,與支持度闊值的平方成反比。
[0020] 并且,分別計(jì)算單個(gè)不確定圖的每個(gè)樣本圖的存在概率,W及每個(gè)子圖在單個(gè)不 確定圖的樣本圖上的期望支持度包括:
[0021] 根據(jù)單個(gè)不確定圖中每條邊的概率,計(jì)算出每個(gè)蘊(yùn)含圖的存在概率;
[0022] 指定單個(gè)不確定圖的所有子圖中的一個(gè);
[0023] 分別計(jì)算被指定的子圖在每個(gè)樣本圖上的支持度;
[0024]根據(jù)每個(gè)樣本圖的存在概率、被指定的子圖在每個(gè)樣本圖上的支持度,計(jì)算被指 定的子圖在每個(gè)樣本圖上的支持度;
[00巧]繼續(xù)從單個(gè)不確定圖中指定下一個(gè)子圖并計(jì)算其在每個(gè)樣本圖上的支持度,直到 單個(gè)不確定圖的所有子圖都被指定;
[0026] 根據(jù)每個(gè)子圖在每個(gè)樣本圖上的支持度,計(jì)算每個(gè)子圖在單個(gè)不確定圖上的期望 支持度。
[0027]并且,分別計(jì)算被指定的子圖在每個(gè)樣本圖上的支持度,為使用最大獨(dú)立集法計(jì) 算被指定的子圖在每個(gè)樣本圖上的基于最小像的支持度。
[0028] 并且,根據(jù)每個(gè)子圖在單個(gè)不確定圖的樣本圖上的期望支持度與單個(gè)不確定圖的 每個(gè)樣本圖的存在概率,判定該子圖是否為頻繁子圖包括:
[0029] 獲取期望支持度闊值;
[0030] 根據(jù)單個(gè)不確定圖的每個(gè)樣本圖的存在概率,計(jì)算子圖在所有支持度等于一恒定 值的蘊(yùn)含圖上的聚合概率;
[0031] 根據(jù)子圖在所有支持度等于一恒定值的蘊(yùn)含圖上的聚合概率,計(jì)算子圖在單個(gè)不 確定圖的所有蘊(yùn)含圖中期望支持度不小于該恒定值的聚合概率;
[0032] 根據(jù)子圖在單個(gè)不確定圖的所有蘊(yùn)含圖中期望支持度不小于該恒定值的聚合概 率,計(jì)算當(dāng)前概率觀察值與結(jié)果區(qū)間;
[0033] 根據(jù)結(jié)果區(qū)間與期望支持度闊值判定子圖是否為頻繁子圖,將所有結(jié)果區(qū)間上限 大于期望支持度闊值、且結(jié)果區(qū)間下限大于期望支持度闊值與非誤差系數(shù)的乘積的子圖判 定為頻繁子圖,將所有結(jié)果區(qū)間上限小于期望支持度闊值的子圖判定為不是頻繁子圖。
[0034] 從上面所述可W看出,本發(fā)明提供的技術(shù)方案通過將單個(gè)不確定圖劃分為多個(gè)蘊(yùn) 含的確定圖并將蘊(yùn)含圖視作確定圖抽樣計(jì)算子圖的期望支持度的手段,能在單個(gè)不確定圖 上使用頻繁子圖挖掘技術(shù),填補(bǔ)了本領(lǐng)域的技術(shù)空白。
【附圖說明】
[0035] 為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面