專利名稱:數(shù)據(jù)集的可視化方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,具體地,涉及數(shù)據(jù)集的可視化方法和系統(tǒng)。
背景技術(shù):
社會網(wǎng)絡(luò)是由多個節(jié)點(通常代表個人或組織)構(gòu)成的社會結(jié)構(gòu),其中的節(jié)點相 互之間通過一種或多種特定類型的依賴關(guān)系聯(lián)結(jié)起來。節(jié)點之間的依賴關(guān)系例如是金融關(guān) 系、人際關(guān)系、社會關(guān)系等。社會網(wǎng)絡(luò),作為自然結(jié)構(gòu)出現(xiàn)在我們的日常生活中,節(jié)點之間的 關(guān)系能夠揭示關(guān)于該結(jié)構(gòu)的諸多信息。1964年以來,社會網(wǎng)絡(luò)分析便成為一個重要的研究方向,目前已經(jīng)發(fā)展成為具有 其自身的理論說明、方法、社會網(wǎng)絡(luò)分析軟件及研究人員等的范型。對于社會網(wǎng)絡(luò)分析來說,可視化是能夠提供極大便利的重要技術(shù)。目前,社會網(wǎng)絡(luò) 的可視化主要分為兩種類型第一種類型是如圖1(a)所示的節(jié)點鏈接圖那樣僅呈現(xiàn)節(jié)點 之間的依賴關(guān)系而忽視了節(jié)點的背景信息的可視化方法,第二種類型是如圖1(b)所示的 那樣不僅呈現(xiàn)了節(jié)點之間的依賴關(guān)系而且還呈現(xiàn)了節(jié)點的背景信息的可視化方法。在社會網(wǎng)絡(luò)分析中,分析人員對于社會網(wǎng)絡(luò)的研究不僅專注于社會網(wǎng)絡(luò)的拓?fù)洌?而且還要考慮社會網(wǎng)絡(luò)中各個節(jié)點背后的背景信息。因此,上述第一種類型的社會網(wǎng)絡(luò)的可視化方法,由于不能夠呈現(xiàn)節(jié)點背后的背 景信息,所以存在著不利于社會網(wǎng)絡(luò)分析的順利開展的問題。此外,在上述第二種類型的社會網(wǎng)絡(luò)的可視化方法中,即使呈現(xiàn)了節(jié)點的背景信 息,但是也會由于呈現(xiàn)方式的混亂,而存在著不能夠有效地引導(dǎo)社會網(wǎng)絡(luò)分析的順利開展 的問題。例如就圖1(b)所示的可視化方法而言,可以看出,由于呈現(xiàn)方式的不適當(dāng),在單個 視圖上同時呈現(xiàn)了大量節(jié)點的多種背景信息,引起了極度的視覺混亂。此外,網(wǎng)絡(luò)的數(shù)據(jù)集通常是多維的,即包含多種屬性的信息,但在上述第二種類型 的可視化方法中,除了可能出現(xiàn)圖1(b)所示的呈現(xiàn)方式混亂的情況之外,還存在著將高維 度(多種屬性)的背景信息壓縮為低維度(少數(shù)一種或幾種屬性)的背景信息的情況。在 此情況下,由于節(jié)點的大部分背景信息的省略,將引起呈現(xiàn)內(nèi)容的失真。上述這些問題不僅僅存在于社會網(wǎng)絡(luò)的可視化的情況,而且還存在于其他諸如 SMS (Short Message krvice,短消息服務(wù))網(wǎng)絡(luò)、互聯(lián)網(wǎng)等基于內(nèi)容的網(wǎng)絡(luò)的可視化情況。
發(fā)明內(nèi)容
鑒于上述問題,本發(fā)明提供一種數(shù)據(jù)集的可視化方法和系統(tǒng),以便通過分別從數(shù) 據(jù)集的不同信息維度呈現(xiàn)數(shù)據(jù)集的不同概況來可視化數(shù)據(jù)集,在確保向數(shù)據(jù)集分析人員呈 遞數(shù)據(jù)集的全面信息的同時,防止呈現(xiàn)內(nèi)容的失真以及視覺混亂。根據(jù)本發(fā)明的一個方面,提供了一種數(shù)據(jù)集的可視化方法,包括將數(shù)據(jù)集基于不 同信息維度劃分為多個信息層;以及分別將基于不同信息維度劃分的上述多個信息層進(jìn)行 可視化處理,以用于呈現(xiàn)該多個信息層的各自的視圖。
根據(jù)本發(fā)明的另一個方面,提供了一種數(shù)據(jù)集的可視化系統(tǒng),包括分層單元,其 將數(shù)據(jù)集基于不同信息維度劃分為多個信息層;以及可視化單元,其分別將基于不同信息 維度的上述多個信息層進(jìn)行可視化處理,以用于呈現(xiàn)該多個信息層的各自的視圖。如果采用本發(fā)明,則通過分別從數(shù)據(jù)集的不同信息維度呈現(xiàn)數(shù)據(jù)集的不同概況來 可視化數(shù)據(jù)集,使數(shù)據(jù)集分析人員能夠根據(jù)自身的需要從不同的角度獲得關(guān)于數(shù)據(jù)集的不 同信息,從而有助于數(shù)據(jù)集分析的開展。
相信通過以下結(jié)合附圖對本發(fā)明具體實施方式
的說明,能夠使人們更好地了解本 發(fā)明上述的特點、優(yōu)點和目的。圖1是現(xiàn)有的社會網(wǎng)絡(luò)的可視化方法的圖示說明;圖2是根據(jù)本發(fā)明實施例的網(wǎng)絡(luò)的可視化方法的流程圖;圖3是圖2中的步驟205的圖示說明;圖4是圖2中的步驟210的圖示說明;圖5是圖2中的步驟210的詳細(xì)流程圖;圖6是圖5中的步驟510的詳細(xì)流程圖;圖7是圖6中的步驟605的詳細(xì)流程圖;圖8是圖5中的步驟515的詳細(xì)流程圖;以及圖9是根據(jù)本發(fā)明實施例的網(wǎng)絡(luò)的可視化系統(tǒng)的方框圖。
具體實施例方式下面就結(jié)合附圖對本發(fā)明的各個優(yōu)選實施例進(jìn)行詳細(xì)說明。圖2是根據(jù)本發(fā)明實施例的網(wǎng)絡(luò)的可視化方法的流程圖。如圖2所示,本實施例的網(wǎng)絡(luò)的可視化方法,在步驟205,將網(wǎng)絡(luò)的數(shù)據(jù)集基于不 同信息維度劃分為多個信息層。其中,每一信息維度的信息層是由上述網(wǎng)絡(luò)的數(shù)據(jù)集中該 信息維度的數(shù)據(jù)組成的。在本步驟中,可以根據(jù)網(wǎng)絡(luò)的數(shù)據(jù)集中所包含的任何信息維度,來對網(wǎng)絡(luò)進(jìn)行信 息層的劃分。例如,在一個與論文有關(guān)的網(wǎng)絡(luò)的情況下,可以理解,論文數(shù)據(jù)集中將會包含 諸如論文信息、作者、會議等多種維度的信息。在此情況下,可以如圖3(a)所示,將與論文 有關(guān)的網(wǎng)絡(luò)劃分為基于論文信息維度的信息層、基于作者維度的信息層和基于會議維度的 fn息層。此外,在一個實施例中,在網(wǎng)絡(luò)的數(shù)據(jù)集中包含較少的信息維度時,在本步驟中, 也可以如圖3(b)所示,簡單地將網(wǎng)絡(luò)劃分為基于網(wǎng)絡(luò)拓?fù)涞男畔雍驮诰W(wǎng)絡(luò)拓?fù)涞幕A(chǔ) 上附加了背景信息的信息層。其中,基于網(wǎng)絡(luò)拓?fù)涞男畔觾H包含與網(wǎng)絡(luò)拓?fù)溆嘘P(guān)的信息, 即網(wǎng)絡(luò)中的各個節(jié)點以及各個節(jié)點之間的鏈接關(guān)系。此外,在網(wǎng)絡(luò)拓?fù)涞幕A(chǔ)上附加了背 景信息的信息層,則除了包含與網(wǎng)絡(luò)拓?fù)溆嘘P(guān)的信息之外,還包含該網(wǎng)絡(luò)中的多個節(jié)點的 屬性描述。此外,在本步驟中,也可以基于網(wǎng)絡(luò)的數(shù)據(jù)集中隱含而非直接存在的信息維度來 生成信息層。例如,在與文檔有關(guān)的網(wǎng)絡(luò)的情況下,可以根據(jù)文檔中所隱含的關(guān)鍵字,生成基于關(guān)鍵字維度的信息層。在此情況下,如果與文檔有關(guān)的網(wǎng)絡(luò)的數(shù)據(jù)集僅給出文檔而并 沒有直接給出文檔中所包含的關(guān)鍵字,則在本步驟中,需要首先采用適合的內(nèi)容提取模型、 諸如TF-IDF和LDA等,從各個文檔中提取出關(guān)鍵字信息,然后再根據(jù)所提取的關(guān)鍵字信息, 劃分成基于關(guān)鍵字維度的信息層。在步驟210,分別對基于不同信息維度的上述多個信息層進(jìn)行可視化處理,以用于 呈現(xiàn)該多個信息層的各自的視圖。在本步驟中,可以采用本領(lǐng)域中任何一種已有的可視化方法來分別為上述多個信 息層生成視圖。例如,可以采用等高線圖生成方法來分別生成上述多個信息層的等高線圖。此外,在分別將上述多個信息層可視化時,該多個信息層的各自的視圖的呈現(xiàn)方 式也可以是多種的。例如在一個實施例中,可以將該多個信息層的各自的視圖組合為一個視圖,來呈 現(xiàn)給分析人員,并且使得分析人員能夠在上述多個信息層的各自的視圖之間進(jìn)行切換。在此情況下,可以利用alpha bending(透明色處理)技術(shù),來進(jìn)行多個信息層的 視圖的組合。具體地,當(dāng)分析人員聚焦于整個網(wǎng)絡(luò)時,調(diào)整各個信息層的色彩alpha值,被 聚焦的信息層采用較大的alpha值,而其他信息層采用較小的alpha值,從而使各個信息層 能夠重疊在一起,而在分析人員希望聚焦于多個信息層中的某一個信息層從而切換到該信 息層時,改變該信息層的視圖的色彩alpha值,將其設(shè)置為非透明,同時將其他信息層的視 圖設(shè)置為背景視圖而不可見。此外,關(guān)于該多個信息層的視圖之間的切換,可以通過提供切換按鈕或菜單來實 現(xiàn)瞬時切換,也可以通過提供滾動條,采用過渡的色彩alpha值的平滑方式來實現(xiàn)。通過提 供滾動條,能夠?qū)崿F(xiàn)多個信息層的視圖之間的平滑切換。此外,在另一個實施例中,在本步驟中,也可以將上述多個信息層的視圖作為單獨 的視圖呈現(xiàn)給分析人員,使分析人員無需切換便能夠同時觀看到網(wǎng)絡(luò)的不同信息層的視 圖。此外,在本步驟中,除了能夠采用本領(lǐng)域中任何一種已有的可視化方法來分別為 上述多個信息層生成視圖之外,也可以采用根據(jù)本發(fā)明一個實施例的基于密度的等高線圖 生成方法,來為上述多個信息層中的至少一個生成基于密度的等高線圖。關(guān)于根據(jù)本發(fā)明一個實施例的基于密度的等高線圖生成方法,為了能夠直觀地理 解,圖4(a) (c)分別示出了對于某一與論文有關(guān)的網(wǎng)絡(luò),在將該網(wǎng)絡(luò)分別劃分為基于會 議維度的信息層、基于作者維度的信息層和基于關(guān)鍵字維度的信息層的情況下,采用根據(jù) 本發(fā)明一個實施例的該基于密度的等高線圖生成方法,分別將各個信息層可視化而得到的 示例性視圖。如上所述,這些視圖可以利用alpha bending技術(shù)進(jìn)行處理,組合為一個視圖, 并使分析人員能夠通過切換來觀看各個視圖。此外,這些視圖也可以作為單獨的視圖分別 呈現(xiàn)給分析人員。此外,圖4(d) (e)示出了對于某一網(wǎng)絡(luò),在簡單地將該網(wǎng)絡(luò)劃分為基于網(wǎng)絡(luò)拓 撲的信息層和在網(wǎng)絡(luò)拓?fù)涞幕A(chǔ)上附加了背景信息的信息層的情況下,采用根據(jù)本發(fā)明一 個實施例的該基于密度的等高線圖生成方法分別將各個信息層可視化而得到的示例性視 圖。同樣,這些視圖可以組合地呈現(xiàn),也可以單獨地呈現(xiàn)。在根據(jù)本發(fā)明一個實施例的該基于密度的等高線圖生成方法中,采用等高線以及顏色的結(jié)合來表示節(jié)點之間的關(guān)系。具體地,在該方法中,僅提取并布局重要的節(jié)點,并且 利用等高線來表示未提取出的潛在節(jié)點及其之間的關(guān)系,而等高線內(nèi)的填充顏色則用于表 示節(jié)點之間的不同等級的關(guān)系。例如,等高線內(nèi)的填充顏色越深,表示該等高線內(nèi)的節(jié)點之 間的關(guān)系越緊密。此外,等高線內(nèi)的填充顏色還用于表示等高線內(nèi)的信息密度,該信息密度 是利用等高線內(nèi)圍繞著被布局的重要節(jié)點的、其他未呈現(xiàn)節(jié)點計算出的。下面關(guān)于根據(jù)本發(fā)明一個實施例的該基于密度的等高線圖生成方法,結(jié)合圖5-8 進(jìn)行詳細(xì)描述。圖5-8是示出在圖1的步驟210中采用根據(jù)本發(fā)明一個實施例的該基于密 度的等高線圖生成方法將上述基于不同信息維度的多個信息層中的至少一個可視化的過 程的詳細(xì)流程圖。具體地,如圖5所示,首先在步驟505,從上述基于不同信息維度的多個信息層中, 選擇主信息層。在本步驟中,可以采用本領(lǐng)域中任何一種已有的布局方法,對于上述多個信息層 的每一個,分別根據(jù)該信息層所包含的數(shù)據(jù)集,生成視圖,進(jìn)而根據(jù)所生成的視圖選擇出能 夠得到最佳布局效果的視圖的信息層,作為主信息層。具體地,可以根據(jù)以下條件來衡量視 圖的布局效果a)具有較佳的拓?fù)浣Y(jié)構(gòu),能夠清晰地劃分為幾個部分;b)具有良好的對稱結(jié)構(gòu),所謂良好的對稱結(jié)構(gòu),是這樣來評價的選擇視圖的中 心點(到視圖的四周距離都相同或近似的節(jié)點),以該中心點為中心畫一個十字,將視圖分 成四份,如果每一份中節(jié)點的數(shù)量都相同,那么視圖就具有良好的對稱結(jié)構(gòu);c)平均路徑長度短,所謂平均路徑長度,是這樣計算得到的在視圖中選擇任意 兩個節(jié)點組成一個節(jié)點對,計算它們之間的最短距離,進(jìn)而計算視圖中所存在的所有節(jié)點 對的最短距離的平均值;d)視圖的規(guī)模較小,即視圖中所包含的節(jié)點的數(shù)目較少。在步驟510,對上述主信息層所包含的數(shù)據(jù)集進(jìn)行概括,以構(gòu)成包含中心節(jié)點及其 之間的鏈接關(guān)系的樣本數(shù)據(jù)集。該樣本數(shù)據(jù)集,用作為在為各個信息層生成視圖時的布局 樣本。一般而言,網(wǎng)絡(luò)的數(shù)據(jù)集的信息量都是非常大的,進(jìn)而根據(jù)網(wǎng)絡(luò)的數(shù)據(jù)集所得到 的各個信息層的信息量也都是非常大的,這樣,如果將各個信息層的所有信息都直接呈現(xiàn) 在視圖上,則會造成視覺混亂。所以,在本步驟中,在生成視圖之前,對作為各個信息層的視 圖的布局樣本的主信息層的數(shù)據(jù)集進(jìn)行采樣。當(dāng)然,采樣后的樣本數(shù)據(jù)集,應(yīng)該由能夠體現(xiàn) 原主信息層的數(shù)據(jù)集概況的典型數(shù)據(jù)、即重要的節(jié)點及其之間的鏈接構(gòu)成。關(guān)于該步驟,結(jié)合圖6進(jìn)行詳細(xì)描述。如圖6所示,首先,在步驟605,對上述主信息層的數(shù)據(jù)集進(jìn)行節(jié)點概括,以獲得包 含多個中心節(jié)點的中心節(jié)點集。在一個實施例中,在本步驟中,根據(jù)節(jié)點的中心度對上述主信息層的數(shù)據(jù)集進(jìn)行 節(jié)點概括。也就是說,從該主信息層的數(shù)據(jù)集中提取出多個分別處于其他節(jié)點所包圍的中 心的中心節(jié)點,構(gòu)成中心節(jié)點集。具體地,首先,根據(jù)節(jié)點的中心度,確定一個最重要的節(jié)點,然后以該最重要的節(jié) 點為基準(zhǔn),計算節(jié)點之間的最短距離,來選擇相互之間距離最遠(yuǎn)的多個節(jié)點,將這些節(jié)點作為中心節(jié)點。也就是說,可以認(rèn)為相互之間距離最遠(yuǎn)的多個節(jié)點是均勻地分布在視圖的不 同部分上的,所以通過提取這些節(jié)點作為中心節(jié)點,不會導(dǎo)致某一部分信息的丟失,從而不 會導(dǎo)致所生成的視圖的極大失真。本領(lǐng)域技術(shù)人員可以理解,上述節(jié)點的中心度,可以是等 級(degree)中心度、接近性(closeness)中心度、中間性(betweenness)中心度等。關(guān)于該步驟,可以利用圖7所示的過程來實現(xiàn)。在圖7所示的過程中,假設(shè)需要從 上述主信息層的數(shù)據(jù)集V中概括出包含m個中心節(jié)點的中心節(jié)點集P。如圖7所示,首先在步驟705,根據(jù)節(jié)點的中心度,從上述主信息層的數(shù)據(jù)集V中選 擇出一個最重要的節(jié)Ap1,將其移動到中心節(jié)點集P中。接著,在步驟710,對于中心節(jié)點集P中的中心節(jié)點Pi,計算其與當(dāng)前主信息層的 數(shù)據(jù)集V中的各個節(jié)點的最短距離向量Cli [1,. . . η],其中η是當(dāng)前主信息層的數(shù)據(jù)集V中 的節(jié)點數(shù)量。在此,在各個中心節(jié)Api的最短距離向量屯[1,...η]中,分別保存了該中心節(jié)點 Pi到數(shù)據(jù)集V中的各個節(jié)點的最短距離,S卩屯[1]保存了 Pi到數(shù)據(jù)集V中的第1個節(jié)點的 最短距離,Cli [2]保存了 Pi到數(shù)據(jù)集V中的第2個節(jié)點的最短距離,等等。在步驟715,在中心節(jié)點集P中的所有中心節(jié)點相互之間,進(jìn)行最短距離向量的比 較,以從當(dāng)前主信息層的數(shù)據(jù)集V中選擇出一個節(jié)點,將其從V移動到P中,該選擇的節(jié)點 到中心節(jié)點集P中的中心節(jié)點的最短距離大于數(shù)據(jù)集V中的其他節(jié)點。具體而言,首先針對中心節(jié)點集P中的各個中心節(jié)點Pi,根據(jù)其最短距離向量 ...η],在數(shù)據(jù)集V中確定一個距離該中心節(jié)點Pi最遠(yuǎn)的節(jié)點X,即與Pi的最短距離φ[χ]最大的節(jié)點,進(jìn)而在各個中心節(jié)點Pi的最遠(yuǎn)節(jié)點χ相互之間,進(jìn)行最短距離djx]的 比較,從而最終確定出一個最短距離djx]最大的節(jié)點X,將其從數(shù)據(jù)集V移動到P中。例如,假設(shè)中心節(jié)點集P中存在a和b兩個節(jié)點,則首先根據(jù)節(jié)點a、b的最短距離 向量,在數(shù)據(jù)集V中為節(jié)點a確定一個最遠(yuǎn)的節(jié)點al,為節(jié)點b確定一個最遠(yuǎn)的節(jié)點bl,然 后對節(jié)點a、al之間的距離與節(jié)點b、bl之間的距離進(jìn)行比較,選擇其中較大的距離所對應(yīng) 的那個節(jié)點(al或bl),將其從數(shù)據(jù)集V移動到中心節(jié)點集P中。在步驟720,判斷中心節(jié)點集P中的中心節(jié)點數(shù)是否達(dá)到m,如果是,則該過程結(jié) 束,否則返回到步驟710。以上圖7的過程就是對圖6中的步驟605的進(jìn)一步詳細(xì)化。接著,返回到圖6,在步驟610,根據(jù)主信息層的原始數(shù)據(jù)集,為中心節(jié)點集中的各 個中心節(jié)點進(jìn)行鏈接概括,以獲得包含中心節(jié)點之間的鏈接關(guān)系的中心節(jié)點鏈接集。由于通過步驟605中的節(jié)點的概括,使中心節(jié)點集中的中心節(jié)點作為與其相關(guān)的 周圍節(jié)點的代表而被選擇出,所以也應(yīng)該將這些相關(guān)的周圍節(jié)點之間的鏈接概括并綁定到 其相應(yīng)的中心節(jié)點上。具體地,在本步驟中,對于中心節(jié)點集中的任意兩個中心節(jié)點P1和P2,利用廣度優(yōu) 先搜索(Breadth-First-Search,BFS)算法在上述主信息層的原始數(shù)據(jù)集中尋找所有連接 這兩個中心節(jié)點的路徑、即邊,并且對這些邊中長度小于預(yù)定的最大長度λ的邊進(jìn)行加權(quán) 合并,作為直接連接中心節(jié)點集中的這兩個中心節(jié)點P1和P2的邊,添加到中心節(jié)點鏈接集 中。例如,假設(shè)中心節(jié)點pl、p2之間有10條邊el,e2,. . . en,每條邊的權(quán)值為wl,w2,. . . wn, 則利用一條權(quán)值為. . +wn的邊e來代替這10條邊,將該邊e添加到中心節(jié)點鏈接集中,同時將上述10條邊el,e2,. . . en從主信息層的原始數(shù)據(jù)集中刪除。并且,在獲得了中心節(jié)點鏈接集之后,該中心節(jié)點鏈接集與上述的中心節(jié)點集一 起構(gòu)成了樣本數(shù)據(jù)集。以上圖6的過程就是對圖5中的步驟510的進(jìn)一步詳細(xì)化。接著,返回到圖5,在步驟515,以上述概括出的樣本數(shù)據(jù)集為布局樣本,為上述主 信息層生成基于密度的等高線圖。關(guān)于該步驟,下面結(jié)合圖8進(jìn)行詳細(xì)描述。如圖8所示,首先在步驟805,計算生成等高線圖所需的高度矩陣的維數(shù)。高度矩陣是任何一種等高線生成算法都需要的輸入。為了生成NXN維高度矩陣, 在本步驟中,根據(jù)屏幕的尺寸,基于下式(1)來計算高度矩陣的維數(shù)N:N =* hei^L(1)ratio其中,width和height分別是屏幕的寬度和高度,ratio是常量??紤]到高度矩陣的維數(shù)N越大,所生成的等高線越平滑,但所花費(fèi)的計算時間也 越多這一事實,根據(jù)本發(fā)明的發(fā)明人的經(jīng)驗,將上面的常量ratio設(shè)置為10是適宜的。接著,在步驟810,將上述樣本數(shù)據(jù)集中的各個中心節(jié)點布局到屏幕上。也就是說, 根據(jù)樣本數(shù)據(jù)集中所包含的中心節(jié)點和中心節(jié)點之間的鏈接關(guān)系,確定各個中心節(jié)點在屏 幕上的布局。在該步驟中,可以采用本領(lǐng)域中任何一種已有的布局方法將上述樣本數(shù)據(jù)集中的 中心節(jié)點布局到屏幕上。在步驟815,為上述樣本數(shù)據(jù)集中的各個中心節(jié)點,以其周圍未被選擇到上述樣本 數(shù)據(jù)集中的節(jié)點的數(shù)量作為該中心節(jié)點的質(zhì)量,計算該中心節(jié)點的密度分布。由于樣本數(shù)據(jù)集中的各個中心節(jié)點是從原始的主信息層的數(shù)據(jù)集中、作為其周圍 節(jié)點的代表被概括出來的,所以在本步驟中,將圍繞著中心節(jié)點的周圍節(jié)點的數(shù)量作為中 心節(jié)點的質(zhì)量,計算出中心節(jié)點的密度分布,以便將周圍節(jié)點體現(xiàn)在中心節(jié)點的密度分布 中。具體地,將主信息層的數(shù)據(jù)集中未被選擇到樣本數(shù)據(jù)集中的各個節(jié)點分別指派給 距離該節(jié)點最近的中心節(jié)點,在此,假設(shè)主信息層的數(shù)據(jù)集中指派給中心節(jié)點i的未選擇 節(jié)點的數(shù)量為Hii,則利用下式(2)來計算中心節(jié)點i的密度分布f(x)1 mf ν Λ/ω^Σ ^ψ) ⑵n i=\ n \ n J其中,x表示屏幕上的某個位置的二維坐標(biāo),&表示中心節(jié)點i在屏幕上的二維坐 標(biāo),η是原始的主信息層中的總節(jié)點數(shù),m是樣本數(shù)據(jù)集中的中心節(jié)點數(shù),h是帶寬,KO是 核函數(shù)。對于上式O)中的核函數(shù)K(),可以使用本領(lǐng)域中已有的分布函數(shù),例如具有0平 均數(shù)和最小的整數(shù)變量的高斯分布函數(shù),即N(0,1)。此外,上式O)中的帶寬h,是用于控制所獲得的密度分布f(x)的平滑程度的常 量。h越小,所得到的分布f(x)越將出現(xiàn)窄而陡峭的波峰,h越大,f(x)的分布越均勻及平 滑。對于帶寬h,可以通過交叉驗證來得到。
在此,在優(yōu)選實施例中,根據(jù)下式C3)所示的評估器,通過棄一法交叉驗證來評估 出帶寬h的最佳值
0085]
權(quán)利要求
1.一種數(shù)據(jù)集的可視化方法,包括將數(shù)據(jù)集基于不同信息維度劃分為多個信息層;以及分別對基于不同信息維度的上述多個信息層進(jìn)行可視化處理,以用于呈現(xiàn)該多個信息 層的各自的視圖。
2.根據(jù)權(quán)利要求1所述的方法,其中進(jìn)行可視化處理的步驟進(jìn)一步包括利用透明色處理技術(shù)對上述多個信息層的各自的視圖進(jìn)行處理,以將其組合為一個視 圖,并且使得上述多個信息層的各自的視圖之間能夠進(jìn)行切換。
3.根據(jù)權(quán)利要求1所述的方法,其中進(jìn)行可視化處理的步驟進(jìn)一步包括 從上述基于不同信息維度的多個信息層中,選擇主信息層;對上述主信息層所包含的數(shù)據(jù)集進(jìn)行概括,以構(gòu)成包含中心節(jié)點及其之間的鏈接關(guān)系 的樣本數(shù)據(jù)集;以及以上述樣本數(shù)據(jù)集為布局樣本,為上述主信息層生成基于密度的等高線圖。
4.根據(jù)權(quán)利要求3所述的方法,其中上述概括的步驟進(jìn)一步包括對上述主信息層的數(shù)據(jù)集進(jìn)行節(jié)點概括,以獲得包含多個中心節(jié)點的中心節(jié)點集;以及根據(jù)上述主信息層的數(shù)據(jù)集,為上述中心節(jié)點集中的中心節(jié)點進(jìn)行鏈接概括,以獲得 包含中心節(jié)點之間的鏈接關(guān)系的中心節(jié)點鏈接集。
5.根據(jù)權(quán)利要求4所述的方法,其中對上述主信息層的數(shù)據(jù)集進(jìn)行節(jié)點概括的步驟進(jìn) 一步包括從上述主信息層的數(shù)據(jù)集中,根據(jù)節(jié)點的中心度,選擇出一個最重要的節(jié)點,將其移動 到中心節(jié)點集中;依次執(zhí)行以下步驟,直到中心節(jié)點集中的中心節(jié)點數(shù)達(dá)到預(yù)定的值 對于中心節(jié)點集中的各個中心節(jié)點,計算其與上述主信息層的數(shù)據(jù)集中未被選擇到中 心節(jié)點集中的節(jié)點之間的最短距離向量;以及從主信息層的數(shù)據(jù)集中未被選擇到中心節(jié)點集中的節(jié)點中選擇出一個與中心節(jié)點的 最短距離是最短的這樣的節(jié)點,移動到中心節(jié)點集中。
6.根據(jù)權(quán)利要求4所述的方法,其中為上述中心節(jié)點集中的中心節(jié)點進(jìn)行鏈接概括的 步驟進(jìn)一步包括對于上述中心節(jié)點集中的任意兩個中心節(jié)點利用廣度優(yōu)先搜索算法在主信息層的數(shù)據(jù)集中尋找所有連接這兩個中心節(jié)點的路徑;以及對上述路徑中長度小于預(yù)定的最大長度的路徑進(jìn)行加權(quán)合并,作為直接連接上述任意 兩個中心節(jié)點的鏈接,添加到上述中心節(jié)點鏈接集中。
7.根據(jù)權(quán)利要求3所述的方法,其中為上述主信息層生成基于密度的等高線圖的步驟 進(jìn)一步包括 為上述樣本數(shù)據(jù)集中的各個中心節(jié)點,以其周圍的未被選擇到上述樣本數(shù)據(jù)集中的節(jié) 點的數(shù)量作為該中心節(jié)點的質(zhì)量,計算該中心節(jié)點的密度分布;將上述樣本數(shù)據(jù)集中的各個中心節(jié)點的密度分布結(jié)合到用于生成等高線的高度矩陣中;利用上述高度矩陣,為上述各個中心節(jié)點生成等高線并填充顏色,以為上述主信息層 生成基于密度的等高線圖;以及將上述主信息層中、與上述各個中心節(jié)點相對應(yīng)的背景信息布局到上述基于密度的等 高線圖上。
8.根據(jù)權(quán)利要求3所述的方法,其中進(jìn)行可視化處理的步驟還包括將非主信息層中與上述主信息層中的中心節(jié)點的背景信息對應(yīng)的信息布局到非主信 息層的等高線圖上,其中非主信息層的等高線圖與主信息層的等高線圖一致。
9.根據(jù)權(quán)利要求7所述的方法,其中上述計算中心節(jié)點的密度分布的步驟進(jìn)一步包括對于上述樣本數(shù)據(jù)集中的各個中心節(jié)點,根據(jù)下式計算密度分布
10.根據(jù)權(quán)利要求9所述的方法,其中上述帶寬h是通過交叉驗證而得到的、使下式的 結(jié)果最小的值
11.根據(jù)權(quán)利要求9所述的方法,其中上述密度分布結(jié)合步驟進(jìn)一步包括根據(jù)下式對上述樣本數(shù)據(jù)集中的各個中心節(jié)點的密度分布進(jìn)行合成,以生成高度矩陣 的每一坐標(biāo)處的合成密度分布
12.—種數(shù)據(jù)集的可視化系統(tǒng),包括分層單元,其將數(shù)據(jù)集基于不同信息維度劃分為多個信息層;以及可視化單元,其分別對基于不同信息維度的上述多個信息層進(jìn)行可視化處理,以用于 呈現(xiàn)該多個信息層的各自的視圖。
13.根據(jù)權(quán)利要求12所述的系統(tǒng),其中上述可視化單元,利用透明色處理技術(shù)對該多 個信息層的各自的視圖進(jìn)行處理,以將其組合為一個視圖,并且使得上述多個信息層的各 自的視圖之間能夠進(jìn)行切換。
14.根據(jù)權(quán)利要求12所述的系統(tǒng),其中上述可視化單元進(jìn)一步包括主信息層選擇單元,其從上述基于不同信息維度的多個信息層中,選擇主信息層;數(shù)據(jù)集概括單元,其對上述主信息層所包含的數(shù)據(jù)集進(jìn)行概括,以構(gòu)成包含中心節(jié)點 及其之間的鏈接關(guān)系的樣本數(shù)據(jù)集;以及視圖生成單元,其以上述樣本數(shù)據(jù)集為布局樣本,為上述主信息層生成基于密度的等 高線圖。
15.根據(jù)權(quán)利要求14所述的系統(tǒng),其中上述數(shù)據(jù)集概括單元進(jìn)一步包括節(jié)點概括單元,其對上述主信息層的數(shù)據(jù)集進(jìn)行節(jié)點概括,以獲得包含多個中心節(jié)點 的中心節(jié)點集;以及鏈接概括單元,其根據(jù)上述主信息層的數(shù)據(jù)集,為上述中心節(jié)點集中的中心節(jié)點進(jìn)行 鏈接概括,以獲得包含中心節(jié)點之間的鏈接關(guān)系的中心節(jié)點鏈接集。
16.根據(jù)權(quán)利要求15所述的系統(tǒng),其中上述節(jié)點概括單元從上述主信息層的數(shù)據(jù)集中,根據(jù)節(jié)點的中心度,選擇出一個最重要的節(jié)點,將其移動 到中心節(jié)點集中;依次進(jìn)行以下處理,直到中心節(jié)點集中的中心節(jié)點數(shù)達(dá)到預(yù)定的值對于中心節(jié)點集中的各個中心節(jié)點,計算其與上述主信息層的數(shù)據(jù)集中未被選擇到中 心節(jié)點集中的節(jié)點之間的最短距離向量;以及從主信息層的數(shù)據(jù)集中未被選擇到中心節(jié)點集中的節(jié)點中選擇出一個與中心節(jié)點的 最短距離是最短的這樣的節(jié)點,移動到中心節(jié)點集中。
17.根據(jù)權(quán)利要求15所述的系統(tǒng),其中上述鏈接概括單元對于上述中心節(jié)點集中的任 意兩個中心節(jié)點利用廣度優(yōu)先搜索算法在主信息層的數(shù)據(jù)集中尋找所有連接這兩個中心節(jié)點的路徑;以及對上述路徑中長度小于預(yù)定的最大長度的路徑進(jìn)行加權(quán)合并,作為直接連接上述任意 兩個中心節(jié)點的鏈接,添加到上述中心節(jié)點鏈接集中。
18.根據(jù)權(quán)利要求14所述的系統(tǒng),其中上述視圖生成單元進(jìn)一步包括密度分布計算單元,其為上述樣本數(shù)據(jù)集中的各個中心節(jié)點,以其周圍的未被選擇到 上述樣本數(shù)據(jù)集中的節(jié)點的數(shù)量作為該中心節(jié)點的質(zhì)量,計算該中心節(jié)點的密度分布;密度分布結(jié)合單元,其將上述密度分布計算單元所計算出的各個中心節(jié)點的密度分布 結(jié)合到用于生成等高線的高度矩陣中;等高線生成單元,其利用上述高度矩陣,為上述各個中心節(jié)點生成等高線并填充顏色, 以為上述主信息層生成基于密度的等高線圖;以及信息布局單元,其將上述主信息層中與上述各個中心節(jié)點相對應(yīng)的背景信息布局到上 述基于密度的等高線圖上。
19.根據(jù)權(quán)利要求14所述的系統(tǒng),其中上述視圖生成單元,將非主信息層中與上述主 信息層中的中心節(jié)點的背景信息對應(yīng)的信息布局到非主信息層的等高線圖上,其中非主信 息層的等高線圖與主信息層的等高線圖一致。
20.根據(jù)權(quán)利要求18所述的系統(tǒng),其中上述密度分布計算單元,對于上述樣本數(shù)據(jù)集 中的各個中心節(jié)點,根據(jù)下式計算密度分布,m/ν \ Μ h \ h )其中,X表示屏幕上的某個位置的二維坐標(biāo),Xi表示中心節(jié)點i在屏幕上的二維坐標(biāo), η是上述主信息層中的總節(jié)點數(shù),m是上述樣本數(shù)據(jù)集中的中心節(jié)點數(shù),Hii是上述主信息層中未被選擇到樣本數(shù)據(jù)集中的、中心節(jié)點i的周圍節(jié)點的數(shù)量,h是帶寬,KO是核函數(shù)。
21.根據(jù)權(quán)利要求20所述的系統(tǒng),其中上述帶寬h是通過交叉驗證而得到的、使下式的 結(jié)果最小的值hn2 L h Jhnyj其中,K*(x) =K⑵(x)-2K(x),K(2)(x) =S K(x-y)K(y)dy, K(χ)為高斯分布函數(shù) Ν(0, 1), Κ(2) (χ)為高斯分布函數(shù)Ν(0,2)。
22.根據(jù)權(quán)利要求20所述的系統(tǒng),其中上述密度分布結(jié)合單元根據(jù)下式對上述樣本數(shù) 據(jù)集中的各個中心節(jié)點的密度分布進(jìn)行合成,以生成高度矩陣的每一坐標(biāo)處的合成密度分 布/W= Σ"。G中的所有其中,G表示上述樣本數(shù)據(jù)集,Ps表示樣本數(shù)據(jù)集G中的某個中心節(jié)點,fs (χ)是中心節(jié) 點Ps的密度分布。
全文摘要
本發(fā)明提供一種數(shù)據(jù)集的可視化方法和系統(tǒng),該方法包括將數(shù)據(jù)集基于不同信息維度劃分為多個信息層;以及分別將基于不同信息維度的上述多個信息層進(jìn)行可視化處理,以用于呈現(xiàn)該多個信息層的各自的視圖。在本發(fā)明中,通過分別從數(shù)據(jù)集的不同信息維度呈現(xiàn)數(shù)據(jù)集的不同概況來可視化數(shù)據(jù)集,在確保向數(shù)據(jù)集分析人員呈遞數(shù)據(jù)集的全面信息的同時,防止呈現(xiàn)內(nèi)容的失真以及視覺混亂。
文檔編號G06F17/30GK102053988SQ20091021131
公開日2011年5月11日 申請日期2009年10月30日 優(yōu)先權(quán)日2009年10月30日
發(fā)明者劉世霞, 孫冀萌, 時磊, 曹楠, 錢偉江 申請人:國際商業(yè)機(jī)器公司