專利名稱::對聚類分析結果進行可視化的方法
技術領域:
:本發(fā)明屬于計算機信息處理
技術領域:
,涉及到一種對聚類分析結果進行可視化的方法。
背景技術:
:聚類分析是數(shù)據(jù)挖掘、知識發(fā)現(xiàn)的重要手段,可以從海量的數(shù)據(jù)集合中抽取隱含的、先前未知的、對決策有潛在價值的信息。目前,對大量數(shù)據(jù)信息進行聚類分析的一般過程如下所述首先,確定要進行聚類分析的數(shù)據(jù)信息范圍;然后,選擇合適的聚類分析算法,對數(shù)據(jù)信息進行聚類分析處理;最后,將聚類分析結果以恰當?shù)男问竭M行展現(xiàn)。用可視化的方法對聚類結果進行表示,能很好地利用人們對可視化模型和結構的直觀理解力,解決信息量大、無法快速和有效交流的問題,同時可視化技術可幫助觀察、篩選、發(fā)現(xiàn)和理解信息,發(fā)現(xiàn)隱藏在數(shù)據(jù)和信息背后的知識。目前,對聚類分析結果進行可視化多采用餅圖、柱狀、導航式的樹型結構標簽等形式來表現(xiàn)聚類分析結果,但是這些表現(xiàn)形式往往只能反映聚類結果中類與類之間的數(shù)量關系、類內(nèi)成員的比例關系以及隸屬關系等。專利200710142715.0提出的結構化數(shù)據(jù)的聚類實現(xiàn)了類別與類成員關系的可視化表達,不能反映類成員之間的語義關系;專利200610001267.8提出用于增強搜索結果導航的可視化方法及設備,該方法中涉及到對聚類信息的可視化,但其主要針對將可視化聚類信息與搜索結果相聯(lián)動,并沒有涉及聚類語義信息中的可視化;專利200810108432.9和200710160532.1提出的可視化方法主要針對層次化信息的可視化表現(xiàn),未涉及到信息本身之間相似關系的可視化表達;許翔燕等人發(fā)表的“聚類結果可視化研究”一文,提出了幾種對聚類結果的可視化方法,但是可視化表現(xiàn)中缺乏語義信息。由于丟失了文本及其之間的語義信息,所以這類可視化表示方法不能進一步利用成員的內(nèi)容信息反映語義關系,增加了對聚類分析結果理解的困難,也很難表達更全面的信息和隱含在數(shù)據(jù)信息中較復雜的知識結構。本發(fā)明利用吳江寧、田海燕所發(fā)表的“基于主題地圖的文獻組織方法研究”(吳江寧、田海燕,《情報學報》第26卷第3期,P323-331,2007年6月)中所提出“基于主題地圖的多層文獻組織模型方法”,構建聚類分析結果的主題層次邏輯。首先,利用多階段層次聚類算法進行聚類;然后,確定類別(主題)及其所處的層次。
發(fā)明內(nèi)容基于上述現(xiàn)存技術中存在的問題,其提供了一種適用于對聚類分析結果進行可視化的方法,可以反映聚類分析結果的特點又能反映數(shù)據(jù)信息之間的語義相似程度,以幫助用戶迅速地理解聚類分析結果,發(fā)現(xiàn)其中隱含的模式和知識;并將具有層次的可視化聚類分析結果主題圖與數(shù)據(jù)信息聯(lián)動地顯示,幫助用戶迅速、準確地找到所需要的信息。本發(fā)明所述方法的步驟如下(1)構建主題層次邏輯利用吳江寧、田海燕所發(fā)表的“基于主題地圖的文獻組織方法研究”中所提出“基于主題地圖的多層文獻組織模型方法”,構建聚類分析結果的主題層次邏輯。首先,利用多階段層次聚類算法進行聚類;然后,確定類別(主題)及其所處的層次;最后,根據(jù)聚類結果建立類別(主題)及其之間的關聯(lián)以及數(shù)據(jù)信息對象及其之間的關系,從而形成樹狀結構主題層次邏輯。其中,當聚類分析結果中不存在層次關系時,將聚類分析結果中的類別和數(shù)據(jù)信息對象作為層次,構建兩層主題層次邏輯。該步驟也可以使用其他方法構建主題層次邏輯,但其特點要求是既要能清楚反映數(shù)據(jù)信息對象的聚類結果,又能清楚反映聚類類別間的結構關系及其關聯(lián)、數(shù)據(jù)信息對象間的語義相似程度。構建主題層次邏輯的目的是將根據(jù)類別涵蓋范圍的不同將類別劃分為多個層次,并對各層類別建立關聯(lián),通過多層次類別之間以及類別與數(shù)據(jù)信息對象、數(shù)據(jù)信息對象之間的關聯(lián)體現(xiàn)聚類分析結果的特點及數(shù)據(jù)信息之間的語義關系。(2)根據(jù)設計的布局模型和布局算法對主題層次進行抽象布局聚類分析結果的主題層次涉及兩類對象虛擬類別對象和類成員對象。它們也是抽象布局所處理的對象。布局模型包括模擬所有對象之間語義相似關系的力模型,以及評判布局效果的能量評估模型。在此基礎上使用布局算法進行抽象布局。1)力模型包括彈簧力模型和電子力模型彈簧力模型將兩個對象控制在代表其語義相似程度的理想距離附近,適用于存在語義關系的對象。該模型中的彈簧力分為以下四種Fs(1):同一層次中類質(zhì)心之間的力;質(zhì)心和子結點之間的力,即各類的質(zhì)心與該類內(nèi)的結點之間的相互作用力;同一類中結點之間的力。結點與其他質(zhì)心之間的力,該力最弱。彈簧力計算公式為Fs(a,b)=k_a'b=-Fs(b,a)(0<ks(i)<1,i=1,2,3,4)d{a,b)其中,ks(i)是彈簧系數(shù),代表對象間的關系類型對力的影響程度,比如,對象是同一類時ks則大,對象屬于不同類時ks則??;d(a,b)是對象a,b之間的可視化距離;la,b是a,b之間的理想距離,它是a,b之間的相似度sim(a,b)、調(diào)節(jié)參數(shù)a,3的函數(shù)。iab=a*e-(徹(a’6)*妁2a,0是可調(diào)參數(shù)。其中,a用來根據(jù)a,b所處的層次調(diào)整標準距離,0用來根據(jù)a,b間力的種類加強相似度到距離轉換的區(qū)分。一般情況下,當a,b間的力是Fs(1)并且層次越高時,由于sim(a,b)較小,映射后的距離區(qū)分度不大,可通過提高0的值來增強距離的區(qū)分;同時由于該層次對象之間的語義關系弱于低層次,所以a值相應增大可得到比較大的標準距離。電子力模型使得對象相互排斥,避免重疊,起到輔助布局的作用。計算公式為Fe(a,b)=Kq"qt=-Fe(b,a)(a(a,b))其中,d(a,b)是對象a,b之間的可視化距離;qa和qb是兩個常量;ke是電子斥力系數(shù),代表對象間的關系類型對力的影響程度,比如,同一類中對象間的排斥力比不同類中對象間的排斥力要小,相應的也小。2)能量評估模型每種布局都是聚類分析結果映射到二維或三維空間中的映射函數(shù)p,使用能量評估函數(shù)E評價各種映射函數(shù)p的布局效果。布局中的對象在力的作用下向理想的位置移動,在整個布局系統(tǒng)中產(chǎn)生能量E(p),形成不穩(wěn)定狀態(tài);對象通過移動不斷被布局在理想位置附近,系統(tǒng)的能量E(p)也逐漸變小,布局效果不斷優(yōu)化;當E(p)達到全局最小時,映射函數(shù)p將得到最優(yōu)的布局效果。所以,能量評估模型定義如下其中,v。是對象o在力的作用下運動的速度,<是對象o的能量。3)布局算法布局算法通過對象間的理想距離和可視化距離計算施加在對象之間的力,根據(jù)力的大小和布局能量對布局進行調(diào)整,最終達到最優(yōu)的布局效果。布局算法主要步驟描述如下Stepl隨機初始化布局和能量閾值e;St印2對于每個點a今計算a與其存在語義關系的點間的彈簧力的和Fs(a)=EFs(a,b);今計算a與所有其他點間的電子力之和Fe(a)=EFe(a,b);今計算a受到的力的總和:F(a)=Fs(a)+Fe(a);今根據(jù)受到的力與平衡關系,計算a的新位置;St印3對布局系統(tǒng)進行能量評估E(p);St印4如果E(p)<0,得到布局結果,布局完成;否則執(zhí)行St印5;St印5:根據(jù)所有點的新位置,更新布局。然后返回St印2。(3)利用等值線生成算法構建等值線形式的聚類分析結果主題層次圖使用等值線的形式構建層次性主題圖,分區(qū)域、分層次地表現(xiàn)聚類分析結果中數(shù)據(jù)信息的聚集情況,反映數(shù)據(jù)信息間的語義相似關系。其步驟為對二維平面布局后的類成員應用設計的山峰模型生成高度,用疊加的山峰高度反映類成員的疏密分布;對疊加高度的山峰進行使用等值線生成算法生成等值線,進而構建具有等值線效果的主題層次圖可視化表現(xiàn)形式。1)山峰模型的構建公式為其中,(x0,y0)是類內(nèi)成員對象布局中的坐標,z(x,y)表示受(X(l,y0)處山峰模型的影響,(x,y)處所形成的高度值,\控制山峰的高度,9控制山峰的影響范圍的大小。其他可以生成“山峰”形狀的函數(shù)亦可以作為山峰模型的函數(shù),如球形函數(shù)、橢球函數(shù)或墨西哥帽函數(shù)等。2)等值線生成算法對疊加高度的山峰進行等值切剖、投影生成等值線,然后根據(jù)一定的梯度進行區(qū)域著色,進而構建具有等值線效果的主題圖可視化表現(xiàn)形式。等值切剖使用特定高度的平面切剖山峰形成截面,核心是尋找等值點。該方法利用插值法計算等值點其中,(X,Y)是特定高度Z的點的坐標,已知(Xl,Y1)和(x2,y2)的高度分別是Z1和z2。兩個等值點的連線就是一條等值線片段。投影將不同高度的山峰截面垂直映射到二維布局平面上,核心是等值線追蹤,即對不同高度的等值點所構成的等值線片段進行追蹤則可連接成一個整體,或為封閉等值線亦或為非封閉等值線。等值線追蹤算法描述輸入網(wǎng)格點高度值集,特定高度序列;輸出等值線集序列;對于每一特定高度Stepl等值線段首尾相接構成等值線片段;Step2如果存在等值線片段,繼續(xù);否則輸出等值線集序列;St印3如果等值線片段首尾端點不同,繼續(xù);否則轉St印7;St印4等值線片段首尾相接;St印5如果端點不是邊界點,轉St印3,否則轉St印6;St印6生成邊界等值線,轉St印8;St印7生成封閉等值線,轉St印8;StepS剔除連接所用的等值線片段,轉St印2。本發(fā)明提供的可視化方法能夠充分表現(xiàn)聚類結果中數(shù)據(jù)信息對象間的語義相似關系,提高聚類分析結果表達的直觀性和可理解性,有利于發(fā)現(xiàn)其中的新模式、新知識。附圖1是利用聚類分析結果中的層次特點以及對象間的語義相似程度相結合而構建主題層次邏輯示意圖。附圖2是力模型示意圖。附圖3是布局流程示意圖。附圖4是山峰模型示意圖。附圖5是對聚類分析結果進行可視化后的效果示意圖。具體實施例方式以下結合技術方案和附圖詳細敘述本發(fā)明的具體實施例。步驟1構建主題層次邏輯應用基于主題地圖的多層文獻組織模型方法,構建聚類分析結果的主題層次邏輯。(如圖1所示)。步驟2:構建力模型根據(jù)聚類分析結果中主題層次邏輯,分析其中的力模型并進行構建。1)彈簧力Fs(1)同一層次中類質(zhì)心之間的力,如圖2中的虛線所示。Fy2)質(zhì)心和子結點之間的力,如圖2中的點劃線所示。Fs(3)同一類中結點之間的力,如圖2中的實線所示。Fsw結點與其他質(zhì)心之間的力,該力最弱,如圖2中的粗短線所示。任何兩個存在語義關系的對象(質(zhì)心/文本)間的彈簧力計算公式為a,b之間的理想距離la,b為2)電子力適用于所有的對象。任何兩個對象(質(zhì)心/文本)之間的電子力計算公式步驟3構建能量評估模型每種布局都是聚類分析結果映射到二維或三維空間中的映射函數(shù)p,使用能量評估函數(shù)E評價各種映射函數(shù)ρ的布局效果。能量評估函數(shù)E(p)定義如下其中,V0是對象ο在力的作用下運動的速度,V〗是對象ο的能量。步驟4進行布局在對聚類分析結果的主題層次構建力模型和能量評估模型的基礎上,應用設計的布局算法進行抽象布局,反映聚類分析結果中數(shù)據(jù)信息對象之間的語義相似關系。布局算法主要步驟描述如下Stepl隨機初始化布局和能量閾值θ;St印2對于每個點a今計算a與其存在語義關系的點間的彈簧力的和Fs(a)=ΣFs(a,b);今計算a與所有其他點間的電子力之和Fe(a)=ΣFe(a,b);今計算a受到的力的總和=F(a)=Fs(a)+Fe(a);今根據(jù)受到的力與平衡關系,計算a的新位置;St印3對布局系統(tǒng)進行能量評估E(p);St印4如果Ε(ρ)<θ,得到布局結果,布局完成;否則執(zhí)行St印5;St印5:根據(jù)所有點的新位置,更新布局。然后返回St印2。步驟5:構建山峰模型布局中的每一個類內(nèi)成員對象表示為一個小山峰,示意圖見圖4。如果在一個小的區(qū)域內(nèi)類內(nèi)成員對象相互聚集,重疊的山峰和高度將進行疊加,構成更大和更高的結構-山脈-類內(nèi)成員對象的主題。山峰模型的構建公式為z(、滬((^O)2+(少-KJ)2)(λ>0,θ>0)其中,(x0,y0)是類內(nèi)成員對象布局中的坐標,z(x,y)表示受(X(l,y0)處山峰模型的影響,(x,y)處所形成的高度值,λ控制山峰的高度,θ控制山峰的影響范圍的大小。步驟6:生成等值線本發(fā)明方法的等值線生成算法為四部高度值構建、等值點計算、等值線追蹤和等值線區(qū)域著色。1)高度值構建可視化視野由許多網(wǎng)格組成的,根據(jù)類內(nèi)成員對象在可視化視野中的布局和山峰模型的思想,將疊加的高度值賦予相關的網(wǎng)格上的點,這樣就構建了反映類內(nèi)成員對象布局特征的高度值。2)等值點計算特定高度的點構成了等值線,然而網(wǎng)格中的點是離散的數(shù)據(jù)點,具有離散的高度,該方法利用插值法計算等值點其中,(X,Y)是特定高度Z的點的坐標,已知(X1,Y1)和(x2,J2)的高度分別是Z1和z2。兩個等值點的連線就是一條等值線片段。3)等值線追蹤對不同高度的等值點所構成的等值線片段進行追蹤則可連接成一個整體。根據(jù)等值線的構成不同,該方法將其分為封閉等值線和非封閉等值線,并提出如下等值線追蹤算法描述輸入網(wǎng)格點高度值集,特定高度序列輸出等值線集序列對于每一特定高度Stepl等值線段首尾相接構成等值線片段;Step2如果存在等值線片段,繼續(xù);否則輸出等值線集序列;Step3如果等值線片段首尾端點不同,繼續(xù);否則轉St印7;Step4等值線片段首尾相接;Step5如果端點不是邊界點,轉St印3,否則轉St印6;Step6生成邊界等值線,轉St印8;Step7生成封閉等值線,轉St印8;StepS剔除連接所用的等值線片段,轉St印2。4)等值線區(qū)域著色對生成的等值線圖區(qū)域,根據(jù)一定的梯度進行著色,構建具有層次的可視化主題圖。圖5顯示了應用本發(fā)明方法的一個實例圖。其中每個節(jié)代表一篇專利文本,而點之間的距離表示了全局中兩點之間的語義相似程度。相似度大的文本點之間距離小,反之距離大。圖5明顯地由5個山峰(Cluster_l,Cluster_2,Cluster_3,Cluster_4,Cluster_6)組成,構成5個主題,反映了聚類分析結果中的5個類別。Cluster_5形成的山峰不明顯,和Cluster_4基本在一個山脈中,說明Cluster_5和Cluster_4的語義相似程度較大,是Cluster_4主題中的外圍專利主題類。這是在其他非可視化的聚類分析結果表達中無法得到的隱含模式。以上結合具體實施例對本發(fā)明所涉及的對聚類分析結果進行可視化的方法進行了詳盡的描述,但本發(fā)明并不限于此,本領域的相關研究人員和技術人員在對本發(fā)明思想的理解下,可根據(jù)實際問題對相關參數(shù)進行修改和替換;本發(fā)明的保護范圍由所附權利要求進行限定。本發(fā)明的可視化方法可以應用于任何聚類分析的場合,尤其是對大量文本信息進行聚類分析的情況下。通過該可視化方法,聚類分析結果中對象之間的語義相似關系通過直觀的平面距離得到很好的體現(xiàn),類別(主題)和數(shù)據(jù)信息對象的疏密分布及其聚集情況也能夠清晰的表達出來。權利要求一種對聚類分析結果進行可視化的方法,其特征在于包括如下步驟(1)構建聚類分析結果的主題層次邏輯首先,利用多階段層次聚類算法進行聚類;然后,確定類別主題及其所處的層次;最后,根據(jù)聚類結果建立類別主題及其之間的關聯(lián)以及數(shù)據(jù)信息對象及其之間的關系,從而形成樹狀結構主題層次邏輯;其中,當聚類分析結果中不存在層次關系時,將聚類分析結果中的類別和數(shù)據(jù)信息對象作為層次,構建兩層主題層次邏輯;(2)設計的布局模型和布局算法對主題層次進行抽象布局聚類分析結果的主題層次涉及兩類對象虛擬類別對象和類成員對象,它們也是抽象布局所處理的對象;布局模型包括模擬所有對象之間語義相似關系的力模型和評判布局效果的能量評估模型,并在此基礎上使用布局算法進行抽象布局;1)力模型包括彈簧力模型和電子力模型彈簧力模型將兩個對象控制在代表其語義相似程度的理想距離附近,適用于存在語義關系的對象;該模型中的彈簧力分為以下四種Fs(1)同一層次中類質(zhì)心之間的力;Fs(2)質(zhì)心和子結點之間的力,即各類的質(zhì)心與該類內(nèi)的結點之間的相互作用力;Fs(3)同一類中結點之間的力;Fs(4)結點與其他質(zhì)心之間的力,該力最弱;彈簧力計算公式為<mrow><msub><mi>F</mi><mi>s</mi></msub><mrow><mo>(</mo><mi>a</mi><mo>,</mo><mi>b</mi><mo>)</mo></mrow><mo>=</mo><msub><mi>k</mi><mrow><mi>s</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></mrow></msub><mfrac><mrow><mi>d</mi><mrow><mo>(</mo><mi>a</mi><mo>,</mo><mi>b</mi><mo>)</mo></mrow><mo>-</mo><msub><mi>l</mi><mrow><mi>a</mi><mo>,</mo><mi>b</mi></mrow></msub></mrow><mrow><mi>d</mi><mrow><mo>(</mo><mi>a</mi><mo>,</mo><mi>b</mi><mo>)</mo></mrow></mrow></mfrac><mo>=</mo><mo>-</mo><msub><mi>F</mi><mi>s</mi></msub><mrow><mo>(</mo><mi>b</mi><mo>,</mo><mi>a</mi><mo>)</mo></mrow></mrow>(0<ks(i)<1,i=1,2,3,4)其中,ks(i)是彈簧系數(shù),代表對象間的關系類型對力的影響程度,比如,對象是同一類時ks則大,對象屬于不同類時ks則小;d(a,b)是對象a,b之間的可視化距離;la,b是a,b之間的理想距離,它是a,b之間的相似度sim(a,b)、調(diào)節(jié)參數(shù)α,β的函數(shù);<mrow><mi>E</mi><mrow><mo>(</mo><mi>p</mi><mo>)</mo></mrow><mo>=</mo><munder><mi>Σ</mi><mi>o</mi></munder><msubsup><mi>v</mi><mi>o</mi><mn>2</mn></msubsup></mrow><mrow><msub><mi>l</mi><mrow><mi>a</mi><mo>,</mo><mi>b</mi></mrow></msub><mo>=</mo><mi>a</mi><mo>*</mo><msup><mi>e</mi><mrow><mo>-</mo><msup><mrow><mo>(</mo><mi>sim</mi><mrow><mo>(</mo><mi>a</mi><mo>,</mo><mi>b</mi><mo>)</mo></mrow><mo>*</mo><mi>β</mi><mo>)</mo></mrow><mn>2</mn></msup></mrow></msup></mrow>α,β是可調(diào)參數(shù);其中,α用來根據(jù)a,b所處的層次調(diào)整標準距離,β用來根據(jù)a,b間力的種類加強相似度到距離轉換的區(qū)分;一般情況下,當a,b間的力是Fs(1)并且層次越高時,由于sim(a,b)較小,映射后的距離區(qū)分度不大,可通過提高β的值來增強距離的區(qū)分;同時由于該層次對象之間的語義關系弱于低層次,所以α值相應增大可得到比較大的標準距離;電子力模型使得對象相互排斥,避免重疊,起到輔助布局的作用;計算公式為<mrow><msub><mi>F</mi><mi>e</mi></msub><mrow><mo>(</mo><mi>a</mi><mo>,</mo><mi>b</mi><mo>)</mo></mrow><mo>=</mo><msub><mi>k</mi><mi>e</mi></msub><mfrac><mrow><msub><mi>q</mi><mi>a</mi></msub><msub><mi>q</mi><mi>b</mi></msub></mrow><msup><mrow><mo>(</mo><mi>d</mi><mrow><mo>(</mo><mi>a</mi><mo>,</mo><mi>b</mi><mo>)</mo></mrow><mo>)</mo></mrow><mn>2</mn></msup></mfrac><mo>=</mo><mo>-</mo><msub><mi>F</mi><mi>e</mi></msub><mrow><mo>(</mo><mi>b</mi><mo>,</mo><mi>a</mi><mo>)</mo></mrow></mrow>其中,d(a,b)是對象a,b之間的可視化距離;qa和qb是兩個常量;ke是電子斥力系數(shù),代表對象間的關系類型對力的影響程度,比如,同一類中對象間的排斥力比不同類中對象間的排斥力要小,相應的ke也?。?)能量評估模型每種布局都是聚類分析結果映射到二維或三維空間中的映射函數(shù)p,使用能量評估函數(shù)E評價各種映射函數(shù)p的布局效果;布局中的對象在力的作用下向理想的位置移動,在整個布局系統(tǒng)中產(chǎn)生能量E(p),形成不穩(wěn)定狀態(tài);對象通過移動不斷被布局在理想位置附近,系統(tǒng)的能量E(p)也逐漸變小,布局效果不斷優(yōu)化;當E(p)達到全局最小時,映射函數(shù)p將得到最優(yōu)的布局效果;所以,能量評估模型定義如下其中,vo是對象o在力的作用下運動的速度,是對象o的能量;3)布局算法布局算法通過對象間的理想距離和可視化距離計算施加在對象之間的力,根據(jù)力的大小和布局能量對布局進行調(diào)整,最終達到最優(yōu)的布局效果;布局算法主要步驟描述如下Step1隨機初始化布局和能量閾值θ;Step2對于每個點a計算a與其存在語義關系的點間的彈簧力的和Fs(a)=∑Fs(a,b);計算a與所有其他點間的電子力之和Fe(a)=∑Fe(a,b);計算a受到的力的總和F(a)=Fs(a)+Fe(a);根據(jù)受到的力與平衡關系,計算a的新位置;Step3對布局系統(tǒng)進行能量評估E(p);Step4如果E(p)<θ,得到布局結果,布局完成;否則執(zhí)行Step5;Step5根據(jù)所有點的新位置,更新布局;然后返回Step2;(3)利用等值線生成算法構建等值線形式的聚類分析結果主題層次圖使用等值線的形式構建層次性主題圖,分區(qū)域、分層次地表現(xiàn)聚類分析結果中數(shù)據(jù)信息的聚集情況,反映數(shù)據(jù)信息間的語義相似關系;其步驟為對二維平面布局后的類成員應用設計的山峰模型生成高度,用疊加的山峰高度反映類成員的疏密分布;對疊加高度的山峰進行使用等值線生成算法生成等值線,進而構建具有等值線效果的主題層次圖可視化表現(xiàn)形式;1)山峰模型的構建公式為<mrow><msub><mi>z</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow></msub><mo>=</mo><mi>λ</mi><mo>*</mo><msup><mi>e</mi><mrow><mo>-</mo><mi>θ</mi><mo>*</mo><mrow><mo>(</mo><msup><mrow><mo>(</mo><mi>x</mi><mo>-</mo><msub><mi>x</mi><mn>0</mn></msub><mo>)</mo></mrow><mn>2</mn></msup><mo>+</mo><msup><mrow><mo>(</mo><mi>y</mi><mo>-</mo><msub><mi>y</mi><mn>0</mn></msub><mo>)</mo></mrow><mn>2</mn></msup><mo>)</mo></mrow></mrow></msup></mrow>(λ>0,θ>0)其中,(x0,y0)是類內(nèi)成員對象布局中的坐標,z(x,y)表示受(x0,y0)處山峰模型的影響,(x,y)處所形成的高度值,λ控制山峰的高度,θ控制山峰的影響范圍的大??;2)等值線生成算法對疊加高度的山峰進行等值切剖、投影生成等值線,然后根據(jù)一定的梯度進行區(qū)域著色,進而構建具有等值線效果的主題圖可視化表現(xiàn)形式;等值切剖使用特定高度的平面切剖山峰形成截面,核心是尋找等值點;該方法利用插值法計算等值點<mfencedopen='{'close=''><mtable><mtr><mtd><mi>X</mi><mo>=</mo><msub><mi>x</mi><mn>1</mn></msub><mo>+</mo><mfrac><mrow><mi>Z</mi><mo>-</mo><msub><mi>z</mi><mn>1</mn></msub></mrow><mrow><msub><mi>z</mi><mn>2</mn></msub><mo>-</mo><msub><mi>z</mi><mn>1</mn></msub></mrow></mfrac><mrow><mo>(</mo><msub><mi>x</mi><mn>2</mn></msub><mo>-</mo><msub><mi>x</mi><mn>1</mn></msub><mo>)</mo></mrow></mtd></mtr><mtr><mtd><mi>Y</mi><mo>=</mo><msub><mi>y</mi><mn>1</mn></msub><mo>+</mo><mfrac><mrow><mi>Z</mi><mo>-</mo><msub><mi>z</mi><mn>1</mn></msub></mrow><mrow><msub><mi>z</mi><mn>2</mn></msub><mo>-</mo><msub><mi>z</mi><mn>1</mn></msub></mrow></mfrac><mrow><mo>(</mo><msub><mi>y</mi><mn>2</mn></msub><mo>-</mo><msub><mi>y</mi><mn>1</mn></msub><mo>)</mo></mrow></mtd></mtr></mtable></mfenced>(z1≤z0≤z2)其中,(X,Y)是特定高度Z的點的坐標,已知(x1,y1)和(x2,y2)的高度分別是z1和z2;兩個等值點的連線就是一條等值線片段;投影將不同高度的山峰截面垂直映射到二維布局平面上,核心是等值線追蹤,即對不同高度的等值點所構成的等值線片段進行追蹤則可連接成一個整體,或為封閉等值線亦或為非封閉等值線;等值線追蹤算法描述輸入網(wǎng)格點高度值集,特定高度序列;輸出等值線集序列;對于每一特定高度Step1等值線段首尾相接構成等值線片段;Step2如果存在等值線片段,繼續(xù);否則輸出等值線集序列;Step3如果等值線片段首尾端點不同,繼續(xù);否則轉Step7;Step4等值線片段首尾相接;Step5如果端點不是邊界點,轉Step3,否則轉Step6;Step6生成邊界等值線,轉Step8;Step7生成封閉等值線,轉Step8;Step8剔除連接所用的等值線片段,轉Step2。FSA00000132770100031.tif,FSA00000132770100032.tif,FSA00000132770100033.tif,FSA00000132770100034.tif,FSA00000132770100035.tif2.根據(jù)權利要求1所述的對聚類分析結果進行可視化的方法,其特征還在于,利用“基于主題地圖的多層文獻組織模型方法”構建聚類分析結果的主題層次邏輯。3.根據(jù)權利要求1或2所述的對聚類分析結果進行可視化的方法,其特征還在于,所述的山峰模型的函數(shù)可為球形函數(shù)、橢球函數(shù)或墨西哥帽函數(shù),其他生成“山峰”形狀的函數(shù)作為山峰模型的函數(shù)。全文摘要本發(fā)明涉及一種對聚類分析結果進行可視化的方法,屬于計算機信息處理
技術領域:
。該方法利用聚類分析結果的特點和數(shù)據(jù)信息對象間的語義相似關系,根據(jù)聚類分析結果中的類間、類成員間、以及類與成員間的信息設計平面布局方法,并根據(jù)平面布局數(shù)據(jù)自動生成直觀的、具有層次信息的可視化主題圖。本發(fā)明提供的可視化方法能夠充分表現(xiàn)聚類結果中類內(nèi)成員對象間的語義相似關系,提高聚類分析結果表達的直觀性和可理解性,有利于發(fā)現(xiàn)其中的新模式、新知識。文檔編號G06F17/30GK101859324SQ20101019439公開日2010年10月13日申請日期2010年6月3日優(yōu)先權日2010年6月3日發(fā)明者吳江寧,宣照國,王桂才,馬鳳閘申請人:大連理工大學