專利名稱:基于概率圖模型的頻繁模式關(guān)聯(lián)分類方法
技術(shù)領(lǐng)域:
本發(fā)明公開了一種基于概率圖模型(Probabilistic Graphical Model)的頻繁模式關(guān)聯(lián)分類方法,涉及一種基于概率圖模型的頻繁模式之間相互關(guān)系的表示、并在不同抽象層次上進行關(guān)聯(lián)分類的方法。屬于數(shù)據(jù)挖掘及信息處理技術(shù)領(lǐng)域。
背景技術(shù):
實際中的數(shù)據(jù)對象,除了本身的屬性外,對象的行為、以及由于行為而產(chǎn)生的相互關(guān)系,也是對其進行分類的重要依據(jù)。利用頻繁模式挖掘算法得到頻繁出現(xiàn)在數(shù)據(jù)集中的模式,利用關(guān)聯(lián)規(guī)則表達頻繁模式之間的相互關(guān)系,經(jīng)典分類算法以對象本身的屬性為基礎(chǔ)、未考慮由于對象之間行為而產(chǎn)生的相互關(guān)系,為此,將表示對象間相互關(guān)系的關(guān)聯(lián)規(guī)則用于數(shù)據(jù)的分類中,公知的關(guān)聯(lián)分類方法基于關(guān)聯(lián)規(guī)則進行數(shù)據(jù)對象的分類分析。董杰 (大連理工大學(xué)博士論文,2009)提出了一種基于位表的關(guān)聯(lián)規(guī)則挖掘及關(guān)聯(lián)分類算法;陳國青等(〈信息資源管理學(xué)報〉,2011(2))介紹了基于信息熵的關(guān)聯(lián)分類方法;霍緯綱等(〈 計算機研究與發(fā)展〉,2011,48(4) =567-575)提出了一種基于多目標(biāo)進化算法的模糊關(guān)聯(lián)分類方法。作為關(guān)聯(lián)分類的基礎(chǔ)性技術(shù)手段,頻繁模式的關(guān)聯(lián)規(guī)則表示方法不能從全局的角度有效表達頻繁模式間較復(fù)雜的相互關(guān)系,不能描述所涉及頻繁模式的全局概率分布及相互關(guān)系的不確定性,為此,公知的方法利用圖模型擴展頻繁模式和關(guān)聯(lián)規(guī)則的挖掘算法。耿汝年等(〈計算機集成制造系統(tǒng)〉,2008,14 (6) =1220-1229)提出了一種基于全局圖遍歷的頻繁模式挖掘算法;陳文等(〈計算機工程〉,2010,36 (13) 9-6)提出了一種基于關(guān)聯(lián)圖的加權(quán)關(guān)聯(lián)規(guī)則模型,并利用關(guān)聯(lián)圖存儲頻繁模式集;胡春玲等(〈軟件學(xué)報〉,2011,22 (12) 2934-2950)提出了一種基于貝葉斯網(wǎng)這一概率圖模型的頻繁模式興趣度計算和剪枝策略, 并有效利用貝葉斯網(wǎng)的推理算法來計算關(guān)聯(lián)規(guī)則的支持度。相對公知的頻繁模式表示方法,基于概率圖模型可以表示頻繁模式之間任意形式的全局相互關(guān)系、以及相互關(guān)系的不確定性,基于概率圖模型分析頻繁模式間相互關(guān)系的緊密程度、并進行結(jié)點的合并,可以在不同抽象層次進行頻繁模式分類。以頻繁模式之間的因果關(guān)系為出發(fā)點,提出了頻繁模式的概率圖模型表示方法,建立了從頻繁模式到概率圖模型的等價轉(zhuǎn)換機制,給出了基于概率圖模型性質(zhì)的頻繁模式層次聚集方法,將其用于學(xué)術(shù)論文和論文作者聯(lián)系的自動分類的問題中,具有較高的效率和分類準(zhǔn)確率。此方法能以一個統(tǒng)一的模型方便高效地實現(xiàn)頻繁模式之間相互依賴關(guān)系的全局表示,可滿足不同抽象層次用戶的關(guān)聯(lián)分類需求,具有較好的伸縮性,為后續(xù)研發(fā)提供理論依據(jù)和技術(shù)基礎(chǔ)。
發(fā)明內(nèi)容
本發(fā)明提供一種基于概率圖模型的頻繁模式關(guān)聯(lián)分類方法。在Apriori頻繁模式挖掘算法的執(zhí)行結(jié)果之上,提供一種基于概率圖模型的頻繁模式間相互關(guān)系的表示及頻繁模式的關(guān)聯(lián)分類方法。以馬爾可夫網(wǎng)(Markov network)這一重要概率圖模型作為知識表示的基本框架,建立頻繁模式與概率圖模型的內(nèi)在聯(lián)系,構(gòu)建頻繁模式中蘊含的馬爾可夫網(wǎng),通過結(jié)點自底向上的聚集對頻繁模式進行不同抽象層次上的關(guān)聯(lián)分類??梢詮娜值慕嵌确奖愀咝У乇硎绢l繁模式間任意形式的相互關(guān)系,不同抽象層次用戶的關(guān)聯(lián)分類具有較好的伸縮性,為后續(xù)研發(fā)提供理論依據(jù)和技術(shù)基礎(chǔ)。本發(fā)明按以下步聚完成本發(fā)明工藝流程為首先,基于Apriori頻繁模式挖掘算法、設(shè)置支持度,獲得極大頻繁項目集;接著,對每個極大頻繁項目集分別構(gòu)建初始無向圖,并根據(jù)它們之間的公共項目集進行初始無向圖的合并,進而測試圖中結(jié)點之間的條件獨立性,刪除條件獨立的邊, 得到頻繁項目集中蘊含的馬爾可夫網(wǎng);然后,對得到的馬爾可夫網(wǎng)進行弦化處理,將弦化的馬爾可夫網(wǎng)表示為連接樹,以一個弦化子圖作為連接樹的一個頂點,從而得到頻繁模式的初始分類;進一步以自底向上的方式,對連接樹的頂點進行聚集合并,得到反映更高抽象層次的分類,直到滿足用戶需求為止。(I)獲得頻繁模式基于Apriori頻繁模式挖掘算法,并設(shè)置支持度閾值,得到 I-頻繁項集,2-頻繁項集,……,直到不能得到更大的頻繁項集為止,從而獲得極大頻繁項集?;贏priori頻繁模式挖掘算法,針對項集I = U1,…,in},設(shè)置支持度閾值ε (O < ε < I),若I的子集X滿足概率P(X)彡ε,則X為頻繁項集。首先得到含有I個項的 I-頻繁項目集,再得到含有2個項的2-頻繁項目集,……,依次執(zhí)行,直到不能得到更大的頻繁項集為止。從而獲得極大頻繁項目集;(2)構(gòu)建頻繁模式中蘊含的馬爾可夫網(wǎng)針對每個極大頻繁項目集,首先構(gòu)建以其中各頻繁項目作為結(jié)點的全連通無向圖,再將各極大頻繁項目集所對應(yīng)的完全子圖進行合并,然后根據(jù)頻繁項目之間是否條件獨立來確定邊的刪除與保留,從而得到反應(yīng)頻繁項目之間全局相互關(guān)聯(lián)的馬爾可夫網(wǎng)。①對每個極大頻繁項目集分別構(gòu)建無向圖對極大頻繁項集Ai,以其中的項作為圖的結(jié)點,用無向邊連接Ai中任意兩個不同的項,得到Ai對應(yīng)的全連通無向圖G(Ai),如圖
2、圖3和圖4所示;②合并所有頻繁項集對應(yīng)的無向圖對于存在公共項的任意兩個Ai和Ap將Ai中的每個項與 中的其他項用無向邊相連,從而將每個極大頻繁項集對應(yīng)的無向圖進行合并,得到全局無向圖G,如圖5所示;③刪去條件獨立結(jié)點對應(yīng)的邊,得到馬爾可夫網(wǎng)用<α Z β> 表示“ α 與 β 條件獨立于 Ζ”,若 P ( α,Ζ,β) =Ρλ (α,Ζ) ·Ρ λ (β,
ο P(X) < λ
Ζ)/Ρλ⑵,其中= j, X為頻繁項集,λ為給定的概率閾值。
L尸(Ji ) γ(Λ ) > Λ若X為極大頻繁項集,α,β e X,有〈α I χ- α - β I β >總成立。對于所有頻繁項集對應(yīng)的無向圖,考查G(Ai)中的任意無向邊(ail; aik),若〈ajAi-aifaiklaik〉成立(即an 與aik條件獨立于G(Ai)中其他結(jié)點),則從G中刪除邊(ail; aik);若an和aik又是Aj中的頻繁項且〈a^Ai-aifaiklaik〉成立(即an與aik條件獨立于G (Aj)中其他結(jié)點),則也從G 中刪除邊(ail; aik)。從而建立了頻繁模式與條件獨立性之間的關(guān)系,得到了表示頻繁項之間相互依賴關(guān)系的無向圖結(jié)構(gòu),該圖結(jié)構(gòu)滿足概率圖模型的必要條件、為有效的頻繁項馬爾可夫網(wǎng),將其稱為項關(guān)聯(lián)馬爾可夫網(wǎng)(Item Association Markov Network),如圖6所不。(3)頻繁模式的層次聚集根據(jù)弦化的定義,(一個無向圖稱為弦圖,當(dāng)圖中任一長度大于3的環(huán)都至少有一個弦),將構(gòu)建的馬爾可夫網(wǎng)弦化處理,同時建立馬爾可夫網(wǎng)中各結(jié)點極大完全子圖的無環(huán)序,進而得到以極大完全子圖為結(jié)點的聯(lián)接樹,根據(jù)聯(lián)接樹中極大完全子圖的無環(huán)序進行聯(lián)接樹中結(jié)點的聚集合并,自底向上的方式重復(fù)此過程,直到滿足用戶所需抽象程度為止。①用弦化(Chordal)作為頻繁項聯(lián)系緊密的衡量標(biāo)準(zhǔn),得到弦化的項關(guān)聯(lián)馬爾可夫網(wǎng)及弦化子圖的序基于無向圖弦化的概念,對每個長度不少于4的環(huán)都進行弦化(即三角化,使得每個環(huán)的長度不大于3),每個長度不超過3的環(huán)中的結(jié)點構(gòu)成一個弦化子圖Xi,每個弦化子圖包含聯(lián)系緊密的頻繁項且對應(yīng)一個初始的類,如圖7所示;進一步基于以下標(biāo)準(zhǔn)得到弦化子圖的序(Xl,…,xm),為得到更高抽象層次的類奠定基礎(chǔ)
其中 I 彡 j 彡 i ;②將弦化無向圖表示為連接樹(Join Tree):弦化的馬爾可夫網(wǎng)可以用樹結(jié)構(gòu)來描述,稱為連接樹;而連接樹本身是弦化的,包括了聯(lián)系緊密的頻繁項。將弦化子圖作為頂點,若Ci與有公共頻繁項,則Ci與之間有一條無向邊,得到連接樹Τ,如圖8所示;③連接樹結(jié)點聚集合并,實現(xiàn)不同抽象層次的頻繁模式關(guān)聯(lián)分類按照弦化子圖的序,將連接樹T中各無向邊末端的頂點與頭端結(jié)點合并,得到新的連接樹Τ,,其中每個結(jié)點對應(yīng)更高抽象層次的一個類,如圖9和圖10所示。以自底向上的方式重復(fù)此過程,得到越來越大的類,直到滿足用戶所需抽象程度為止。與公知技術(shù)相比本發(fā)明具有的優(yōu)點及積極效果(I)通過構(gòu)建概率圖模型,以一個統(tǒng)一的模型、從全局的角度描述了頻繁模式之間的相互關(guān)系,是頻繁模式及關(guān)聯(lián)規(guī)則挖掘方法的擴展,更容易地實現(xiàn)了頻繁模式間任意形式相互關(guān)系的建模,彌補了基于關(guān)聯(lián)規(guī)則的頻繁模式間相互關(guān)系表示機制的不足。(2)以頻繁模式間的因果關(guān)系為出發(fā)點,建立了從頻繁模式到概率圖模型的等價轉(zhuǎn)換機制、頻繁模式聯(lián)合概率分布的表示機制,定量地反映了頻繁模式間相互依賴的不確定性。(3)基于概率圖模型的結(jié)點聚集來實現(xiàn)關(guān)聯(lián)分類,避免了基于關(guān)聯(lián)規(guī)則進行關(guān)聯(lián)分類時由于僅考慮局部相關(guān)性帶來的分類或聚類結(jié)果的片面性和不準(zhǔn)確性,提高了關(guān)聯(lián)分類的易實現(xiàn)性和結(jié)果的正確性;實現(xiàn)了頻繁模式不同抽象層次的關(guān)聯(lián)分類,具有更好的可伸縮性,能滿足用戶的不同需求。(4)成熟的概率圖模型推理方法可為關(guān)聯(lián)分類提供定量的分析和計算的支撐技術(shù),為解決自動關(guān)聯(lián)分類及基于關(guān)聯(lián)分類的社會計算等目前亟待解決的熱點問題提供了有力的技術(shù)支持。
四
圖I本發(fā)明的技術(shù)路線圖。包括以下三個主要部分獲得頻繁模式(預(yù)處理)、構(gòu)建概率圖模型和層次關(guān)聯(lián)分類;圖2、圖3和圖4分別為三個頻繁項目集對應(yīng)的初始無向圖圖2全連通無向子圖①。結(jié)點為極大頻繁項集(Α,B, C)中的頻繁項;
圖3全連通無向子圖②。結(jié)點為極大頻繁項集(C,D)中的頻繁項;圖4全連通無向子圖③。結(jié)點為極大頻繁項集(D,E,F(xiàn))中的頻繁項;圖5所有頻繁項的無向圖。合并圖2、圖3和圖4得到圖5,結(jié)點為所有頻繁項集 U = (A,B, C,D,E,F(xiàn))中的頻繁項,合并全連通無向子圖時添加的邊用雙線表示;圖6關(guān)鍵詞頻繁項目集U的項關(guān)聯(lián)馬爾可夫網(wǎng)。對圖5進行條件獨立測試后得到;圖7弦化的項關(guān)聯(lián)馬爾可夫網(wǎng)G。對圖6進行弦化處理得到,其中X1 =“頻繁項”, x2 = “Apriori”,X3 = “剪枝”,X4 = “分類”,X5 = “貝葉斯網(wǎng)”,X6 = “團樹”;圖8弦化的項關(guān)聯(lián)馬爾可夫網(wǎng)G的連接樹1\。其中C1 = (x1;x2,X3)代表“關(guān)聯(lián)規(guī)則”,C2 = (x2, x3, x5)代表“圖模型挖掘”,C3 = (x2, X4)代表“分類分析”,C4 = (x5, x6)代表“概率圖模型”;圖9新的連接樹圖T2。對圖8中T1的頂點聚集合并得到,其中CflC1, C2)代表“關(guān)
聯(lián)規(guī)則挖掘”,C21HC2, C4)代表“不確定性知識發(fā)現(xiàn)”,C3tHCu C3)代表“關(guān)聯(lián)分類”;圖10新的連接樹T3和最高抽象層次的連接樹Τ4。分別對T2和T3的頂點聚集合
并得到,其中cYUc/, 代表“人工智能”,fV=(r/,c/)代表“數(shù)據(jù)挖掘”;C24) 表示“數(shù)據(jù)與知識工程”。
五具體實施例方式實施例I :學(xué)術(shù)論文關(guān)鍵詞關(guān)聯(lián)分類(I)項目集從發(fā)表的學(xué)術(shù)論文中抽取關(guān)鍵詞(Keywords)并對各詞出現(xiàn)的頻繁度分別進行統(tǒng)計,若兩個關(guān)鍵詞出現(xiàn)在同一篇論文中,則表示兩個關(guān)鍵字同時出現(xiàn)的支持度計算加I ;(2)極大頻繁項目集設(shè)置最小支持度閾值,使用Apriori算法,掃描關(guān)鍵詞并計數(shù),得到I-頻繁項目集的集合,進一步得到2-頻繁項目集的集合,……,不斷執(zhí)行直到不能再找到k-頻繁項目集為止;(3)針對每個關(guān)鍵詞極大頻繁項目集,首先構(gòu)建以其中各頻繁項目作為結(jié)點的全連通無向圖,然后根據(jù)頻繁項之間是否條件獨立來確定邊的刪除與保留,從而得到各極大頻繁項目集的子圖,再將各極大頻繁項目集所對應(yīng)子圖進行合并,得到反映頻繁項目之間全局相互關(guān)系的馬爾可夫網(wǎng),U= (A,B,C,D,E,F(xiàn))為關(guān)鍵詞的I-頻繁項目集,首先得到分別如圖2、圖3和圖4所示的3個全連通無向子圖,再根據(jù)各子圖的公共結(jié)點將這3個子圖合并,得到對應(yīng)于U中所有頻繁項的無向圖,如圖5所示,對關(guān)鍵詞頻繁項目進行條件獨立測試,若條件獨立,則刪去相應(yīng)的邊,(A,E)、(A,F(xiàn))、(B,E)和(B,F(xiàn))這4對結(jié)點間的邊不存在,對于圖5中的無向圖,<E|C,D|F>(即E和F條件獨立于C和D),則刪去E和F之間的邊,得到關(guān)鍵詞頻繁項目集U的項關(guān)聯(lián)馬爾可夫網(wǎng),如圖6所示;(4)若弦化的項關(guān)聯(lián)馬爾可夫網(wǎng)如圖7所示,按照弦化子圖的序(C1, C2,C3,C4),得到連接樹T1,如圖8所示,圖8中連接樹頂點極大完全子圖的無環(huán)序為(C/,c2',C3,), 則對T1中的頂點進行聚集合并,得到新的、描述更高抽象層次關(guān)鍵詞頻繁項目分類的連接樹1~2,如圖9所示。對T2中的頂點進行聚集合并,得到新的連接樹T3,進而得到C1",=(C1",C2"),即得到最高抽象層次類的連接樹T4,如圖10所示。性能選擇ScienceDirect數(shù)據(jù)庫中5個“主題(Subject) ”中的學(xué)術(shù)論文400 篇,選取其中的1500個關(guān)鍵詞,記錄這些論文的主題及其下的子主題信息,執(zhí)行以上步驟
(1) (4),從1000個頻繁項構(gòu)建項關(guān)聯(lián)馬爾可夫網(wǎng)只需15毫秒,獲得論文所述子主題和上一級主題分類信息,在這兩個分類的抽象層次分別與論文本身所述類相比,本研究所得結(jié)果的誤差分別為2. 5%和I. 2%。
權(quán)利要求
1.一種基于概率圖模型的頻繁模式關(guān)聯(lián)分類方法,其特征在于其按以下步驟完成,(1)獲得頻繁模式基于Apriori頻繁模式挖掘算法,并設(shè)置支持度閾值,得到1_頻繁項集,2-頻繁項集,……,直到不能得到更大的頻繁項集為止,從而獲得極大頻繁項集;(2)構(gòu)建頻繁模式中蘊含的馬爾可夫網(wǎng)針對每個極大頻繁項目集,首先構(gòu)建以其中各頻繁項目作為結(jié)點的全連通無向圖,再將各極大頻繁項目集所對應(yīng)的完全子圖進行合并,然后根據(jù)頻繁項目之間是否條件獨立來確定邊的刪除與保留,從而得到反應(yīng)頻繁項目之間全局相互關(guān)聯(lián)的馬爾可夫網(wǎng);(3)頻繁模式的層次聚集根據(jù)弦化的定義,將構(gòu)建的馬爾可夫網(wǎng)弦化處理,同時建立馬爾可夫網(wǎng)中各結(jié)點極大完全子圖的無環(huán)序,進而得到以極大完全子圖為結(jié)點的聯(lián)接樹, 根據(jù)聯(lián)接樹中極大完全子圖的無環(huán)序進行聯(lián)接樹中結(jié)點的聚集合并,自底向上的方式重復(fù)此過程,直到滿足用戶所需抽象程度為止。
2.根據(jù)權(quán)利要求I所述的基于概率圖模型的頻繁模式關(guān)聯(lián)分類方法,其特征在于一種學(xué)術(shù)論文關(guān)鍵詞關(guān)聯(lián)分類法按以下步驟完成,(1)項目集從發(fā)表的學(xué)術(shù)論文中抽取關(guān)鍵詞(Keywords)并對各詞出現(xiàn)的頻繁度分別進行統(tǒng)計,若兩個關(guān)鍵詞出現(xiàn)在同一篇論文中,則表示兩個關(guān)鍵字同時出現(xiàn)的支持度計算加I ;(2)極大頻繁項目集設(shè)置最小支持度閾值,使用Apriori算法,掃描關(guān)鍵詞并計數(shù),得到I-頻繁項目集的集合,進一步得到2-頻繁項目集的集合,……,不斷執(zhí)行直到不能再找到k-頻繁項目集為止;(3)針對每個關(guān)鍵詞極大頻繁項目集,首先構(gòu)建以其中各頻繁項目作為結(jié)點的全連通無向圖,然后根據(jù)頻繁項之間是否條件獨立來確定邊的刪除與保留,從而得到各極大頻繁項目集的子圖,再將各極大頻繁項目集所對應(yīng)子圖進行合并,得到反映頻繁項目之間全局相互關(guān)系的馬爾可夫網(wǎng),U = A,B, C,D,E,F(xiàn)為關(guān)鍵詞的I-頻繁項目集,首先得到3個全連通無向子圖,再根據(jù)各子圖的公共結(jié)點將這3個子圖合并,得到對應(yīng)于U中所有頻繁項的無向圖,對關(guān)鍵詞頻繁項目進行條件獨立測試,若條件獨立,則刪去相應(yīng)的邊,(A,E)、(A,F(xiàn))、 (B,E)和(B,F(xiàn))這4對結(jié)點間的邊不存在,對于圖5中的無向圖,<E|C,D|F>,則刪去E和F 之間的邊,得到關(guān)鍵詞頻繁項目集U的項關(guān)聯(lián)馬爾可夫網(wǎng);(4)按照弦化子圖的序C1,C2, C3, C4,得到連接樹T1,圖8中連接樹頂點極大完全子圖的無環(huán)序為C/, C21, Cl則對T1中的頂點進行聚集合并,得到新的、描述更高抽象層次關(guān)鍵詞頻繁項目分類的連接樹T2,對T2中的頂點進行聚集合并,得到新的連接樹T3,進而得到 C1" ' =C1" ,C2",即得到最高抽象層次類的連接樹T4。
全文摘要
本發(fā)明涉及一種基于概率圖模型的頻繁模式關(guān)聯(lián)分類方法。在Apriori頻繁模式挖掘算法的執(zhí)行結(jié)果之上,提供一種基于概率圖模型的頻繁模式間相互關(guān)系的表示及頻繁模式的關(guān)聯(lián)分類方法。以馬爾可夫網(wǎng)這一重要概率圖模型作為知識表示的基本框架,建立頻繁模式與概率圖模型的內(nèi)在聯(lián)系,構(gòu)建頻繁模式中蘊含的馬爾可夫網(wǎng),通過結(jié)點自底向上的聚集對頻繁模式進行不同抽象層次上的關(guān)聯(lián)分類,可以從全局的角度方便高效地表示頻繁模式間任意形式的相互關(guān)系,不同抽象層次用戶的關(guān)聯(lián)分類具有較好的伸縮性,為后續(xù)研發(fā)提供理論依據(jù)和技術(shù)基礎(chǔ)。
文檔編號G06F17/30GK102609528SQ20121003166
公開日2012年7月25日 申請日期2012年2月14日 優(yōu)先權(quán)日2012年2月14日
發(fā)明者劉惟一, 岳昆 申請人:云南大學(xué)