亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于歸并聚類的并行化頻繁概率子圖搜索方法_2

文檔序號:9597881閱讀:來源:國知局
遺 漏地識別出所有給定節(jié)點大小的概率子圖。采用基于Spark并行框架的實現(xiàn)結(jié)構(gòu),將得 到的概率子圖存儲到HDFS文件系統(tǒng),然后將所有概率子圖文件加載到彈性分布式數(shù)據(jù)集 (Resilient Distributed Datasets,RDD),以便后續(xù)處理。
[0033] 步驟2,計算概率子圖的節(jié)點電壓序列。首先將概率子圖的鄰接矩陣轉(zhuǎn)換成對應(yīng)的 伴隨電路,然后添加一個參考節(jié)點,通過節(jié)點電壓法對整個伴隨電路施加全激勵,得到節(jié)點 電壓序列。其過程如圖1所示。
[0034] 考慮一個具有4個節(jié)點Vl、v2, ^和v 4的概率子圖g (圖1-A),其對應(yīng)的鄰接矩陣 如圖1-B所示,首先將概率圖g的每一條邊均用其概率p(即p e (〇,1))的倒數(shù)l/p表示 電阻值(圖1-C);接著,增加一個參考節(jié)點v5,將新增的節(jié)點與原圖中每個節(jié)點之間增加一 個阻值為1/2的電阻,即電導(dǎo)為2,得到概率子圖g的伴隨電路N ;然后,以新增節(jié)點v5為參 考節(jié)點,對伴隨電路N施加全激勵(即在節(jié)點v5與其他任意節(jié)點之間施加相同的電流源I s, 電流值均選為1A,在v5與其余4個節(jié)點之間電流都是從節(jié)點v 5指向其余節(jié)點,如圖1-D所 示);最后,根據(jù)U/R= 1(其中R= 1/P)得出概率子圖g的節(jié)點電壓序列U。
[0035] 步驟3,歸并聚類階段。采用基于Spark框架的實現(xiàn)結(jié)構(gòu),對每個Spark計算節(jié)點 中的概率子圖均進(jìn)行歸并聚類計算,得到若干概率子圖同構(gòu)類,直到每個Spark計算節(jié)點 均收斂(即聚類個數(shù)不再變化),再將結(jié)果匯總,并對匯總的概率子圖同構(gòu)類再進(jìn)行一次歸 并聚類,其過程如圖2所示。
[0036] 在上述過程中的歸并聚類過程如圖3中所示,包括如下子步驟:
[0037] 1)聚類初始化:假設(shè)共有η個概率子圖構(gòu)成概率子圖集G = {gl,g2,…,gn},則先 讓其中每個概率子圖自成一類,它們作為η個聚類樹的η個葉子節(jié)點,而概率子圖的標(biāo)號集 Rg= {1,2,…,η},并設(shè)置閾值參數(shù)ε和Θ。
[0038] 2)歸并聚類:假設(shè)聚類總數(shù)L,而flag用來標(biāo)識歸并聚類過程中是否有聚合操作, 其初始值為〇 ;對于從i = 1到i = L/2的概率子圖,計算&和g i^是否同構(gòu)(采用比較 間隔步長為L/2,每層聚類后將打亂當(dāng)前的圖類序列,以避免在每層聚類時,由于兩兩比較 的類別沒有發(fā)生變化而產(chǎn)生聚類的效果較差的情況)。具體步驟和計算公式如下:
[0039] (a)首先根據(jù)兩個概率子圖&、^4/2的節(jié)點電壓序列U和U',求出兩個概率子圖 的距離矩陣D,具體計算公式如下。例如,求矩陣A和矩陣B的距離矩陣DAB,其計算公式如 下:
[0041] (b)再利用匈牙利算法處理距離矩陣D,得出概率子圖^和g 1+U2的節(jié)點映射關(guān)系 〈map,map^ >,同時計算出兩個節(jié)點序列s和V的錯配置VMval,其計算公式如下:
[0043] (c)接著根據(jù)映射關(guān)系〈map, map ' >調(diào)整兩個概率子圖gp gi+l72的鄰 接矩陣d和0-,然后計算調(diào)整后d和0-之間的錯配置PMval,其計算公式如下:
?其中vjP 分別表示在鄰接矩陣d和d'中,位于第i行、第j 列的元素。
[0044] (d)設(shè)置同構(gòu)標(biāo)志iso的初值為0,根據(jù)上述計算結(jié)果進(jìn)行判斷,若VMval〈 ε且 PMval〈 Θ,則將同構(gòu)標(biāo)志iS0置為1,將兩概率子圖聚成一類。同時修改概率子圖集Rg,修 改flag為1。
[0045] 3)重新計算聚類總數(shù)L,若flag為1則回到步驟2)繼續(xù)計算,直到flag不再為 1時停止歸并聚類,并匯總各個Spark計算節(jié)點歸并聚類的結(jié)果,然后進(jìn)行一次歸并聚類。
[0046] 步驟4,概率子圖頻繁度計算。在通過歸并聚類得到概率圖集后,計算每個概率子 圖同構(gòu)類中的子圖數(shù)量sum,并利用初始概率子圖集的子圖數(shù)量n,判斷sum/n與預(yù)設(shè)的頻 繁度f之間的關(guān)系,若sum/n>f則判定其為頻繁概率子圖。
[0047] 最后應(yīng)說明的是:本發(fā)明還可有其他多種實施方式,在不背離本發(fā)明精神及其實 質(zhì)的情況下,熟悉本領(lǐng)域的技術(shù)人員可根據(jù)本發(fā)明做出各種相應(yīng)的改變和變形,這些相應(yīng) 的改變和變形都應(yīng)屬于本發(fā)明所附的權(quán)利要求的保護(hù)范圍。
【主權(quán)項】
1. 一種基于歸并聚類的并行化頻繁概率子圖搜索方法,其特征在于,包括以下步驟: 步驟1 :預(yù)處理概率子圖;首先將待處理的概率網(wǎng)絡(luò)(概率圖),進(jìn)行概率子圖劃分,得 到指定節(jié)點個數(shù)的概率子圖集,然后將這些概率子圖對應(yīng)的鄰接矩陣存儲為HDFS文件,并 將所有概率子圖集加載到彈性分布式數(shù)據(jù)集(ResilientDistributedDatasets,RDD); 步驟2 :對每個Spark計算節(jié)點中的概率子圖,將其鄰接矩陣轉(zhuǎn)換成對應(yīng)的伴隨電路, 通過添加一個參考節(jié)點,并根據(jù)節(jié)點電壓法,得到概率子圖的節(jié)點電壓序列; 步驟3 :對每個Spark計算節(jié)點中的概率子圖均進(jìn)行歸并聚類計算,得到若干概率子圖 同構(gòu)類,直到每個計算節(jié)點均收斂,將結(jié)果匯總,對匯總的概率子圖同構(gòu)類再進(jìn)行一次歸并 聚類; 步驟4:計算每個概率子圖同構(gòu)類的概率子圖數(shù)量,得出頻率,進(jìn)而得到頻繁概率子 圖。2. 根據(jù)權(quán)利要求1所述的基于歸并聚類的并行化頻繁概率子圖搜索方法,其特征在 于:在預(yù)處理概率子圖階段,從輸入的概率網(wǎng)絡(luò)(概率圖)中不重復(fù)、不遺漏地識別出所有 具有給定節(jié)點個數(shù)的概率子圖,采用基于Spark框架的實現(xiàn)結(jié)構(gòu),將得到的概率子圖存儲 到HDFS文件系統(tǒng),然后將所有子圖加載到RDD。3. 根據(jù)權(quán)利要求1所述的基于歸并聚類的并行化頻繁概率子圖搜索方法,其特征在 于:在將所有概率子圖的鄰接矩陣轉(zhuǎn)換為伴隨電路求節(jié)點電壓序列時,首先將概率子圖的 鄰接矩陣轉(zhuǎn)換成對應(yīng)的伴隨電路,然后添加一個參考節(jié)點,通過節(jié)點電壓法對整個伴隨電 路施加全激勵得到節(jié)點電壓序列;具體步驟為: 1) 針對輸入的概率子圖g,假設(shè)有k個節(jié)點Vl、v2、…、vk,將概率圖g的每一條邊均用 其概率P的倒數(shù)Ι/p表示電阻值(即當(dāng)邊概率值趨于0時,該段電路斷開,表示該段電路對 整個節(jié)點電壓影響很小),Pe(〇, 1); 2) 增加一個參考節(jié)點vk+1,并在新增的節(jié)點與原圖中每個節(jié)點之間增加一個電阻值為 1/2的電阻,得到概率子圖g的伴隨電路N; 3) 以新增節(jié)點vk+1為參考節(jié)點,對伴隨電路N施加全激勵,S卩在節(jié)點vk+1與其他任意節(jié) 點之間施加相同的電流源Is,電流值均選為1A,在vk+1與其余k個節(jié)點之間的電流均從節(jié)點 vk+i指向其余節(jié)點; 4) 根據(jù)U/R=I得出概率子圖g的節(jié)點電壓序列U,其中R= 1/P。4. 根據(jù)權(quán)利要求1所述的基于歸并聚類的并行化頻繁概率子圖搜索方法,其特征在 于:采用基于Spark框架的實現(xiàn)結(jié)構(gòu),對每個Spark計算節(jié)點中的概率子圖均進(jìn)行歸并聚類 計算,得到若干概率子圖同構(gòu)類,直到每個計算節(jié)點均收斂,再將各計算節(jié)點的結(jié)果匯總, 對匯總的概率子圖同構(gòu)類再進(jìn)行一次歸并聚類,歸并聚類的具體步驟為: 1) 聚類初始化:假設(shè)共有η個概率子圖構(gòu)成概率子圖集G= {gl,g2,…,gn},則先讓其 中每個概率子圖自成一類,它們作為η個聚類樹的η個葉子節(jié)點,而概率子圖的標(biāo)號集Rg = {1,2,…,n},并設(shè)置閾值參數(shù)ε和Θ; 2) 歸并聚類:假設(shè)聚類總數(shù)L,而flag用來標(biāo)識歸并聚類過程中是否有聚合操作,其初 始值為〇 ;對于從i= 1到i=L/2的概率子圖,計算&和gi^是否同構(gòu),采用比較間隔步 長為L/2,每層聚類后將打亂當(dāng)前的圖類序列,以避免在每層聚類時,由于兩兩比較的類別 沒有發(fā)生變化而產(chǎn)生聚類的效果較差的情況;具體步驟為: (a) 首先根據(jù)兩個概率子圖&41+^的節(jié)點電壓序列U和U',利用歐式距離求出兩個 概率子圖的距離矩陣D; (b) 再利用匈牙利算法處理距離矩陣D,得出概率子圖gJPg1+U2的節(jié)點映射關(guān)系,同時 計算出兩概率子圖節(jié)點電壓序列的錯配值VMval; (C)接著根據(jù)節(jié)點映射關(guān)系調(diào)整兩個概率子圖gpgpw的鄰接矩陣d和d',然后計算 調(diào)整后d和d'之間的錯配值PMval; (d)根據(jù)上述計算結(jié)果進(jìn)行判斷,若VMval〈ε且PMval〈Θ,則將兩概率子圖聚成一類。 同時修改概率子圖集Rg,修改flag為1 ; 3)重新計算聚類總數(shù)L,若flag為1則回到步驟2)繼續(xù)計算,直到flag不再為1時 停止歸并聚類,并匯總各個Spark計算節(jié)點的聚類結(jié)果,然后再進(jìn)行一次歸并聚類。5.根據(jù)權(quán)利要求1所述的基于歸并聚類的并行化頻繁概率子圖搜索方法,其特征在 于:通過統(tǒng)計每個概率子圖同構(gòu)類中子圖數(shù)量sum,并利用初始概率子圖集的子圖數(shù)量n, 判斷sum/n與預(yù)設(shè)的頻繁度f之間的關(guān)系,若sum/n>f,則判定其是否為頻繁概率子圖。
【專利摘要】本發(fā)明公開了一種基于歸并聚類的并行化頻繁概率子圖搜索方法。本發(fā)明針對現(xiàn)有頻繁子圖搜索方法中時空消耗大、無法滿足大數(shù)據(jù)環(huán)境要求等問題,首先采用節(jié)點電壓法將概率子圖映射為電路拓?fù)溥M(jìn)行處理;然后利用歸并聚類對概率子圖進(jìn)行聚類,有效降低時間開銷;最后基于Spark框架對方法進(jìn)行實現(xiàn),進(jìn)一步提升計算速度及可擴(kuò)展性。
【IPC分類】G06F17/30
【公開號】CN105354243
【申請?zhí)枴緾N201510666545
【發(fā)明人】楊鵬, 顧梁, 王春艷
【申請人】東南大學(xué)
【公開日】2016年2月24日
【申請日】2015年10月15日
當(dāng)前第2頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1