本發(fā)明公開了一種基于頻繁稠密模式的圖分類分類方法,涉及到神經(jīng)影像處理、社交網(wǎng)絡(luò)、頻繁項挖掘、分類器構(gòu)建等方面,旨在實現(xiàn)對圖數(shù)據(jù)進(jìn)行準(zhǔn)確、高效的分類。
背景技術(shù):
圖作為一種通用的數(shù)據(jù)集結(jié)構(gòu),可以在許多問題中用以表示數(shù)據(jù)對象之間的復(fù)雜結(jié)構(gòu)關(guān)系。比如基于神經(jīng)影像構(gòu)建出圖數(shù)據(jù),再通過復(fù)雜網(wǎng)絡(luò)等技術(shù)對圖進(jìn)行分析研究,或者使用圖結(jié)構(gòu)表示化合物的結(jié)構(gòu)。目前,圖分類問題主要研究二分類問題,即正類和負(fù)類,主要目標(biāo)在于構(gòu)筑一個分類模型,將兩者分開。近年來,已經(jīng)有許多種圖特征被用于圖分類。例如,節(jié)點的度(degree)、聚類系數(shù)(clustering coefficient)、判別性子圖(discriminative subnetwork)等,許多基于這些特征的圖分類方法被提出。然而,這些圖特征具有兩個很大的缺點。首先,這些圖特征都是基于無權(quán)圖,而大部分圖數(shù)據(jù)是有權(quán)數(shù)據(jù)。所以在提取這些特征時,需要將圖進(jìn)行閾值化,從而將有權(quán)圖轉(zhuǎn)化為無權(quán)圖。然而,閾值化會損失極大的損失圖中的權(quán)值信息,這會影響最終的分類結(jié)果。第二,大部分圖特征(節(jié)點的度,聚類系數(shù)等)都只考慮單個節(jié)點的信息,而忽視了多個節(jié)點之間的信息。而許多研究表明,在大部分中,多個節(jié)點之間的連接對大腦的功能有重要的作用。很顯然,這兩個缺點都會極大的影響最終的分類性能。
本發(fā)明基于以上兩個問題,提出一種新的圖特征,也就是頻繁稠密模式。頻繁稠密模式可以同時解決以上兩個問題,是一種理想的圖特征。然后,構(gòu)造了一種基于頻繁稠密模式的圖分類方法。該方法可以高效且準(zhǔn)確的對圖進(jìn)行分類。
技術(shù)實現(xiàn)要素:
本發(fā)明針對現(xiàn)有方法的缺陷,提出了一種基于頻繁稠密模式的圖分類方法。
本發(fā)明為解決上述問題,采用如下技術(shù)方案:
步驟一、從圖數(shù)據(jù)集中挖掘頻繁稠密模式;
步驟二、從眾多的頻繁稠密模式中選擇出擁有較高判別性的頻繁稠密模式,作為判別性頻繁稠密模式;
步驟三、基于判別性頻繁稠密模式構(gòu)建特征矩陣,然后使用支持向量機構(gòu)建分類器。構(gòu)建的分類器可用于對圖進(jìn)行分類。
步驟四、對未知類型的圖,使用步驟三訓(xùn)練出的分類器對其進(jìn)行分類。
所述步驟一中,神經(jīng)影像可以是功能性磁共振成像(functional magnetic resonance imaging,fMRI)、結(jié)構(gòu)性磁共振成像(structural magnetic resonance imaging,sMRI)等。不同類型的腦 影像數(shù)據(jù)的構(gòu)造過程有所不同。例如,在fMRI中,先將大腦分割為90個腦區(qū),然后,計算各個腦區(qū)之間的時間序列的相關(guān)度。把腦區(qū)作為節(jié)點,成對腦區(qū)的連接作為邊,相關(guān)度作為成對腦區(qū)之間的邊的權(quán)值。此外通過測試化合物的化學(xué)結(jié)構(gòu),我們可以得到化合物對應(yīng)的圖。通過上述步驟可以獲得神經(jīng)影像以及化合物對應(yīng)的圖,分為正類和負(fù)類,分別表示為D+和D-。
所述步驟一中,我們將圖集分為正類和負(fù)類,分別表示為D+和D-,然后從圖集合中挖掘出頻繁稠密模式。首先,我們給出頻繁稠密模式與頻繁稠密模式的定義。
定義1:稠密度
對于一個有權(quán)圖G={V,E,W},其中V是節(jié)點集合,E是邊的集合。W是邊的權(quán)值集合,其中w(e)表示邊e的權(quán)值。圖G的稠密度定義為Density(G)=∑e w(e)/|V|。
定義2:頻繁稠密模式
對于一個有權(quán)圖集合D={G1,G2,...,Gn},其中n是D中包含的圖的數(shù)量。對于一個頻繁稠密模式dense pattern(dp),dp的頻繁度定義為:
如果Freq(op|D)>θ成立,其中θ是一個預(yù)定義的閾值,op就被稱為D的一個頻繁稠密模式。
在頻繁稠密模式的挖掘過程中,構(gòu)建出一棵深度優(yōu)先搜索樹對所有的頻繁稠密模式進(jìn)行搜索,判斷其是否滿足頻繁度條件。在搜索過程中,使用頻繁稠密模式的Apriori性質(zhì),也就是一個頻繁稠密模式的頻繁度不低于基于它衍生出的任意頻繁稠密模式的頻繁度。這樣,如果已經(jīng)判斷一個頻繁稠密模式不是頻繁稠密模式,則可以判斷它的衍生的任意頻繁稠密模式都不是頻繁稠密模式,也就可以直接將這些頻繁稠密模式進(jìn)行剪枝,不需要再對它們進(jìn)行搜索。使用Apriori性質(zhì),可以大大加快頻繁稠密模式的搜索過程。
所述步驟二中,從數(shù)量眾多的頻繁稠密模式中挑選出判別性較高的頻繁稠密模式時,使用Ratio Score函數(shù)來衡量頻繁稠密模式的判別性。一個從正類D+中挖掘出的頻繁稠密模式dp的Ratio Score值可由公式(4)計算:
其中,D-表示負(fù)類的圖集。ε是一個很小的值,用來防止公式(4)中的分母為0。如果dp是從負(fù)類圖集,也就是D-中挖掘出的頻繁稠密模式,那么dp可通過公式(5)計算:
一個頻繁稠密模式的Ratio Score得分越高,證明它的判別性越強,反之亦然。在計算出每個頻繁稠密模式的Ratio Score之后,挑選出Ratio Score得分最高的前n個頻繁稠密模式做為判別性頻繁稠密模式。值得注意的是,在本方法中,我們從正類圖集合與負(fù)類圖集合中分別挖掘出判別性頻繁稠密模式,然后再將兩部分判別性頻繁稠密模式合并在一起。
所述步驟三中,利用步驟四挑選出的判別性頻繁稠密模式,為每一個圖構(gòu)建出一個特征向量,最后將所有圖數(shù)據(jù)的特征向量結(jié)合在一起,構(gòu)建出特征矩陣。具體來說,在圖數(shù)據(jù)集中,如果圖Gi包含有判別性模式opj,則相應(yīng)的特征矩陣中的Fi,j=1,否則,F(xiàn)i,j=0。如此構(gòu)建出特征矩陣之后,使用支持向量機(SVM)訓(xùn)練出分類器。訓(xùn)練好的分類器可以實現(xiàn)對圖的分類。
所述步驟四中,對于一個未知類別的圖數(shù)據(jù),使用步驟三訓(xùn)練好的分類器,對其進(jìn)行分類,預(yù)測出圖所屬的類別。
本發(fā)明采用以上技術(shù)方案與現(xiàn)有技術(shù)相比,具有以下技術(shù)效果:
(1)省去了在現(xiàn)存方法中普遍采用的閾值化這一步驟;
(2)分類效果與現(xiàn)有方法相比,有明顯的提升;
(3)可以對圖數(shù)據(jù)進(jìn)行局部異常結(jié)構(gòu)分析。
附圖說明
圖1為稠密度定義的示例圖。其中,有權(quán)圖包含五個節(jié)點與七條有權(quán)重邊,稠密度為
圖2為本發(fā)明的方法流程圖。其中,共包含四個步驟,也就是挖掘頻繁稠密模式、選擇判別性頻繁稠密模式、構(gòu)建分類器以及對未知類別的圖進(jìn)行分類。
圖3為頻繁稠密模式挖掘示例圖。其中,每個點代表一條邊,從根節(jié)點出發(fā)到當(dāng)前點的所有邊構(gòu)成當(dāng)前的頻繁稠密模式。然后,計算當(dāng)前頻繁稠密模式的頻繁度。如果頻繁度高于預(yù)定義的閾值,則當(dāng)前頻繁稠密模式是頻繁稠密模式(例如dpi),繼續(xù)搜索由它衍生出的頻繁稠密模式是否為頻繁稠密模式(dpj等)。如果當(dāng)前頻繁稠密模式不是頻繁稠密模式(例如dpk),則直接刪除它以及所有由他衍生出的頻繁稠密模式。
具體實施方式
以下結(jié)合附圖和實施例對本發(fā)明的技術(shù)方案做進(jìn)一步詳細(xì)說明:
實施例
如圖2所示,具體的實施過程包含四個步驟:
步驟一是挖掘頻繁稠密模式。在頻繁稠密模式的挖掘過程中,構(gòu)建出一棵深度優(yōu)先搜索樹對所有的頻繁稠密模式進(jìn)行搜索,判斷其是否滿足頻繁度條件。在搜索過程中,使用頻繁 稠密模式的Apriori性質(zhì),也就是一個頻繁稠密模式的頻繁度不低于基于它衍生出的任意頻繁稠密模式的頻繁度。在圖3中給出了搜索過程的示例圖。圖中,每個點代表一條邊,從根節(jié)點出發(fā)到當(dāng)前點的所有邊構(gòu)成當(dāng)前的頻繁稠密模式。然后,計算當(dāng)前頻繁稠密模式的頻繁度。如果頻繁度高于預(yù)定義的閾值,則當(dāng)前頻繁稠密模式是頻繁稠密模式(例如dpi),繼續(xù)搜索由它衍生出的頻繁稠密模式是否為頻繁稠密模式(dpj等)。如果當(dāng)前頻繁稠密模式不是頻繁稠密模式(例如dpk),則直接刪除它以及所有由他衍生出的頻繁稠密模式。值得注意的是,在本方法中,分別從正類的圖集合與負(fù)類的圖集合中挖掘頻繁稠密模式。
步驟二是選擇判別性頻繁稠密模式。在步驟二挖掘出頻繁稠密模式之后,使用公式(4)與公式(5)計算出每個頻繁稠密模式的Ratio Score得分。然后,分別從正常的圖集合中挖掘出的頻繁稠密模式與從負(fù)類的圖集合中挖掘出的頻繁稠密模式中,分別選擇出具有最高Ratio Score得分的前n個頻繁稠密模式,作為判別性頻繁稠密模式。
步驟三是構(gòu)建分類器。利用步驟二挑選出的判別性頻繁稠密模式,為每一個圖構(gòu)建出一個特征向量,最后將所有圖數(shù)據(jù)的特征向量結(jié)合在一起,構(gòu)建出特征矩陣。具體來說,在圖數(shù)據(jù)集中,如果圖Gi包含有判別性子圖dpj,則相應(yīng)的特征矩陣中的Fi,j=1,否則,F(xiàn)i,j=0。構(gòu)建出特征矩陣之后,使用支持向量機訓(xùn)練出分類器。訓(xùn)練好的分類器可以實現(xiàn)對圖的分類。
步驟四是對未知類別的圖進(jìn)行分類。對于一個未知類別的人的腦影像數(shù)據(jù),根據(jù)步驟一中的敘述構(gòu)建好圖之后,使用步驟二選擇的判別性頻繁稠密模式,構(gòu)建出該圖的特征向量。具體來說,如果該圖包含有判別性子圖opi,則相應(yīng)的特征矩陣中的fi=1,否則,fi=0。然后,使用步驟四訓(xùn)練好的分類器,對其進(jìn)行分類,預(yù)測出該人的圖的具體類別。
上面結(jié)合附圖對本發(fā)明的實施方式作了詳細(xì)說明,但是本發(fā)明并不限于上述實施方式,在本領(lǐng)域普通技術(shù)人員所具備的知識范圍內(nèi),還可以在不脫離本發(fā)明宗旨的前提下做出各種變化。