數(shù)據(jù)處理方法和數(shù)據(jù)處理裝置制造方法
【專利摘要】公開(kāi)了一種數(shù)據(jù)處理方法和數(shù)據(jù)處理裝置,該數(shù)據(jù)處理方法包括:聚類步驟,對(duì)具有多個(gè)維度的多個(gè)樣本進(jìn)行協(xié)同聚類以獲得第一數(shù)量的樣本簇、第二數(shù)量的維度簇和表示聚類前后的信息關(guān)系的目標(biāo)函數(shù)值;權(quán)重計(jì)算步驟,基于所獲得的第一數(shù)量的樣本簇、第二數(shù)量的維度簇和目標(biāo)函數(shù)值計(jì)算表示每個(gè)樣本簇與每個(gè)維度簇之間的關(guān)聯(lián)程度的權(quán)重;維度簇排序步驟,基于算出的權(quán)重對(duì)維度簇進(jìn)行排序,以使得當(dāng)對(duì)維度簇和樣本簇的分布進(jìn)行可視化時(shí),與每個(gè)維度簇關(guān)聯(lián)程度最高的樣本簇分布在該維度簇附近并且不同樣本簇彼此分隔開(kāi);以及可視化步驟,基于所確定的維度簇的排序使得維度和樣本的分布可視化。
【專利說(shuō)明】數(shù)據(jù)處理方法和數(shù)據(jù)處理裝置
【技術(shù)領(lǐng)域】
[0001] 本公開(kāi)涉及一種數(shù)據(jù)處理方法和數(shù)據(jù)處理裝置,更具體地,涉及一種通過(guò)使用加 權(quán)維度簇算法來(lái)提高多維樣本數(shù)據(jù)的可視化質(zhì)量的數(shù)據(jù)處理方法和數(shù)據(jù)處理裝置。
【背景技術(shù)】
[0002] 借助圖形化手段對(duì)數(shù)據(jù)進(jìn)行可視化能夠更清晰地傳達(dá)與溝通信息。在圖形中將數(shù) 據(jù)集里不同類別的數(shù)據(jù)分開(kāi)顯示并且同類別數(shù)據(jù)相鄰顯示,有助于用戶挑選不同類別的數(shù) 據(jù)。例如,用戶可能需要從大量web服務(wù)中選擇出不同類別的服務(wù)進(jìn)行mashup (糅合),因 此將web服務(wù)的類簇結(jié)構(gòu)進(jìn)行可視化能夠方便用戶直觀地挑選出需要的服務(wù)類別。
[0003] 在大數(shù)據(jù)時(shí)代,高維數(shù)據(jù)比比皆是,如使用不同關(guān)鍵字表示的web服務(wù)數(shù)據(jù)、 使用不同實(shí)驗(yàn)條件表示的基因數(shù)據(jù)、使用不同觀測(cè)指標(biāo)表示的天文數(shù)據(jù)等。徑向可視 化(Radviz)是一種廣泛使用的可視化技術(shù),它能有效地顯示出高維數(shù)據(jù)集中的簇結(jié)構(gòu)。 Radviz將樣本的維度(即特征)映射到圓上,再利用物理學(xué)中的胡克定律(Hooke' s law)計(jì) 算樣本坐標(biāo),把樣本映射到圓內(nèi)。Radviz的可視化效果依賴于圓上的維度次序,不恰當(dāng)?shù)木S 度次序通常會(huì)導(dǎo)致樣本簇顯示過(guò)于集中、某些樣本被集中顯示在圓心附近、簇與簇之間重 疊、雜亂等問(wèn)題。傳統(tǒng)的Radviz維度排序方法包括隨機(jī)排序(參見(jiàn)以下非專利文獻(xiàn)1)、基于 相似維度的排序(參見(jiàn)以下非專利文獻(xiàn)2和3)和基于維度均值的t-statistics (t-統(tǒng)計(jì)) 排序(參見(jiàn)以下非專利文獻(xiàn)4)等。但是,現(xiàn)有技術(shù)的這些排序方法均存在不足之處,例如, 隨機(jī)排序的可視化效果質(zhì)量的高低也是隨機(jī)的;基于相似維度的排序可把相似維度放置在 一起,但無(wú)法保證與維度相關(guān)聯(lián)的樣本簇靠近這些維度;并且基于維度均值的排序?qū)颖?與取值較大的維度關(guān)聯(lián)起來(lái),但沒(méi)有考慮維度與維度之間的相似性。
[0004] 引用列表
[0005] 【非專利文獻(xiàn) 1 】:P. Hoffman, G. Grinstein, K. Marx, I. Grosse 和 E. Stanley. "DNA visual and analytic data mining,'· In Proceedings of the8th conference on Visualization' 97, pages437 - ff.,Los Alamitos, CA, USA, 1997。
[0006] 【非專利文獻(xiàn) 2】:Caro,L.D.,F(xiàn)rias-Ma;rtinez,V·和 Frias-Martinez, E. , "Analyzing the Role of Dimension Arrangement for Data Visualization in Radviz, In :M. J Zaki et al. (Eds. ) : PAKDD2010, Part II,LNAI6119, pp. 125-132, 2010. Springer-Verlag, Heidelberg, 2010。
[0007] 【非專利文獻(xiàn) 3】:M. Ankerst,S. Berchtold 和 D. A. Keim. "Similarity Clustering of Dimensions for an Enhanced Visualization of Multidimensional Data,'· In INF0VIS, 1998。
[0008] 【非專利文獻(xiàn) 4】:J. Sharko, G. Grinstein 和 K. A. Marx. "Vectorized radviz and its application to multiple cluster datasets,'· Visualization and Computer Graphics, IEEE, 2008。
[0009] 【非專利文獻(xiàn)5】:I. S. Dhillon,S. Mallela 和 D. S. Modha. Information-theoretic co-clustering. In Proceedings of the ninth ACM SIGKDD International Confer-ence on Knowledge Discovery and Data mining, pages89-98. ACM, 2003.
[0010] 【非專利文獻(xiàn) 6】:Y. Cheng 和 G. M. Church. Biclustering of expression data. In Proceedings of the eighth International Conference on Intelligent Systems for Molecular Biology, volume8, pages93-103, 2000.
[0011] 【非專利文獻(xiàn) 7】:H. Cho, I. Dhilion, Y. Guan 和 S. Sra, "Minimum sum-squared residue co-clustering of gene expression data,,' in Proceedings of the fourth SIAM international conference on data mining, vol. 114, 2004.
[0012] 【非專利文獻(xiàn) 8 】:D. Chakrabarti, S. Papadimitriou, D. Modha 和 C. Faloutsos, "Fully automatic cross-associations,,'in Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2004, pp. 79 - 88.
【發(fā)明內(nèi)容】
[0013] 在下文中給出了關(guān)于本發(fā)明的簡(jiǎn)要概述,以便提供關(guān)于本發(fā)明的某些方面的基本 理解。但是,應(yīng)當(dāng)理解,這個(gè)概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖用來(lái)確定 本發(fā)明的關(guān)鍵性部分或重要部分,也不是意圖用來(lái)限定本發(fā)明的范圍。其目的僅僅是以簡(jiǎn) 化的形式給出關(guān)于本發(fā)明的某些概念,以此作為稍后給出的更詳細(xì)描述的前序。
[0014] 鑒于以上情形,本發(fā)明的目的是提供一種能夠使得可視化方法更準(zhǔn)確地顯示數(shù)據(jù) 集簇結(jié)構(gòu)的數(shù)據(jù)處理方法和數(shù)據(jù)處理裝置,其通過(guò)對(duì)具有多個(gè)維度的多個(gè)樣本進(jìn)行協(xié)同聚 類以得到樣本簇和維度簇,根據(jù)各個(gè)樣本簇和維度簇之間的關(guān)聯(lián)程度計(jì)算維度簇的權(quán)重, 基于維度簇權(quán)重對(duì)維度簇進(jìn)行排序,從而使得當(dāng)對(duì)樣本簇和維度簇的分布進(jìn)行可視化時(shí), 樣本簇靠近與其相關(guān)的維度簇并且不同類別的樣本簇明顯分隔開(kāi)。
[0015] 圖1以Radviz可視化方法為例,示意性地示出了現(xiàn)有技術(shù)與應(yīng)用了本發(fā)明的可視 化效果之間的差別,其中,圖1的左側(cè)示出了對(duì)維度隨機(jī)排序所得到的可視化效果,并且圖 1的右側(cè)示出了通過(guò)應(yīng)用本發(fā)明而得到的可視化效果??梢钥闯?,在對(duì)維度隨機(jī)排序的情況 下,導(dǎo)致樣本簇過(guò)于密集而無(wú)法直觀地看出樣本簇與哪些維度相關(guān)。而根據(jù)本發(fā)明,通過(guò)對(duì) 維度重新進(jìn)行適當(dāng)排序,使得可視化之后的樣本簇靠近與其相關(guān)的維度并且不同的樣本簇 很好地分隔開(kāi),從而用戶可以根據(jù)靠近樣本簇的維度名稱來(lái)推測(cè)該樣本簇的類別。
[0016] 根據(jù)本發(fā)明的一方面,提供了一種數(shù)據(jù)處理方法,其包括:聚類步驟,對(duì)具有多個(gè) 維度的多個(gè)樣本進(jìn)行協(xié)同聚類以獲得第一數(shù)量的樣本簇、第二數(shù)量的維度簇和目標(biāo)函數(shù) 值,其中,目標(biāo)函數(shù)值表示聚類前后的信息關(guān)系;權(quán)重計(jì)算步驟,基于所獲得的第一數(shù)量的 樣本簇、第二數(shù)量的維度簇和目標(biāo)函數(shù)值計(jì)算權(quán)重,該權(quán)重表示每個(gè)樣本簇與每個(gè)維度簇 之間的關(guān)聯(lián)程度;維度簇排序步驟,基于算出的權(quán)重對(duì)維度簇進(jìn)行排序,以使得當(dāng)對(duì)維度簇 和樣本簇的分布進(jìn)行可視化時(shí),與每個(gè)維度簇關(guān)聯(lián)程度最高的樣本簇分布在該維度簇附近 并且不同的樣本簇彼此分隔開(kāi);以及可視化步驟,基于在維度簇排序步驟中所確定的維度 簇的排序,使得維度和樣本的分布可視化。
[0017] 根據(jù)本發(fā)明的優(yōu)選實(shí)施例,維度簇排序步驟進(jìn)一步包括:維度簇分配子步驟,對(duì)于 每個(gè)維度簇,基于所確定的權(quán)重,確定與該維度簇的關(guān)聯(lián)程度最高的樣本簇并且將該維度 簇分配給所確定的樣本簇;以及第一排序子步驟,基于在維度簇分配子步驟中的分配結(jié)果 對(duì)維度簇進(jìn)行排序,以使得分配給同一樣本簇的所有維度簇排在相鄰的位置。
[0018] 根據(jù)本發(fā)明的另一優(yōu)選實(shí)施例,維度簇排序步驟進(jìn)一步包括:第二排序子步驟,對(duì) 于排在相鄰的位置的、分配給同一樣本簇的維度簇,進(jìn)一步基于這些維度簇中的各個(gè)維度 簇關(guān)于該樣本簇的權(quán)重對(duì)這些維度簇進(jìn)行排序。
[0019] 根據(jù)本發(fā)明的另一優(yōu)選實(shí)施例,在可視化步驟中采用徑向坐標(biāo)可視化(Radviz)使 得樣本和維度的分布可視化。
[0020] 根據(jù)本發(fā)明的另一優(yōu)選實(shí)施例,可視化步驟可以進(jìn)一步包括:維度簇排列子步驟, 將維度簇按所確定的排序排列在圓上;樣本坐標(biāo)計(jì)算子步驟,基于維度簇在圓上的排列來(lái) 計(jì)算多個(gè)樣本中的每個(gè)樣本在圓內(nèi)的坐標(biāo);以及可視化子步驟,基于維度簇的排列和樣本 的坐標(biāo)而使得維度和樣本的分布可視化。
[0021] 根據(jù)本發(fā)明的另一方面,還提供了一種數(shù)據(jù)處理裝置,其包括:聚類單元,被配置 成對(duì)具有多個(gè)維度的多個(gè)樣本進(jìn)行協(xié)同聚類以獲得第一數(shù)量的樣本簇、第二數(shù)量的維度簇 和目標(biāo)函數(shù)值,其中,目標(biāo)函數(shù)值表示聚類前后的信息關(guān)系;權(quán)重計(jì)算單元,被配置成基于 所獲得的第一數(shù)量的樣本簇、第二數(shù)量的維度簇和目標(biāo)函數(shù)值計(jì)算權(quán)重,權(quán)重表示每個(gè)樣 本簇與每個(gè)維度簇之間的關(guān)聯(lián)程度;維度簇排序單元,被配置成基于算出的權(quán)重對(duì)維度簇 進(jìn)行排序,以使得當(dāng)對(duì)維度簇和樣本簇的分布進(jìn)行可視化時(shí),與每個(gè)維度簇關(guān)聯(lián)程度最高 的樣本簇分布在該維度簇附近并且不同的樣本簇彼此分隔開(kāi);以及可視化單元,被配置成 基于維度簇排序單元所確定的維度簇的排序,使得維度和樣本的分布可視化。
[0022] 根據(jù)本發(fā)明的實(shí)施例的又一方面,還提供了一種存儲(chǔ)介質(zhì),該存儲(chǔ)介質(zhì)包括機(jī)器 可讀的程序代碼,當(dāng)在信息處理設(shè)備上執(zhí)行程序代碼時(shí),該程序代碼使得信息處理設(shè)備執(zhí) 行根據(jù)本發(fā)明的數(shù)據(jù)處理方法。
[0023] 此外,根據(jù)本發(fā)明的實(shí)施例的再一方面,還提供了一種程序產(chǎn)品,該程序產(chǎn)品包括 機(jī)器可執(zhí)行的指令,當(dāng)在信息處理設(shè)備上執(zhí)行指令時(shí),該指令使得信息處理設(shè)備執(zhí)行根據(jù) 本發(fā)明的數(shù)據(jù)處理方法。
[0024] 因此,根據(jù)本發(fā)明的實(shí)施例,能夠提高對(duì)高維數(shù)據(jù)的可視化的效果,從而使得樣本 簇靠近其相關(guān)的維度簇而分布,并且不同的樣本簇明顯地分隔開(kāi)。
[0025] 在下面的說(shuō)明書部分中給出本發(fā)明實(shí)施例的其它方面,其中,詳細(xì)說(shuō)明用于充分 地公開(kāi)本發(fā)明實(shí)施例的優(yōu)選實(shí)施例,而不對(duì)其施加限定。
【專利附圖】
【附圖說(shuō)明】
[0026] 本發(fā)明可以通過(guò)參考下文中結(jié)合附圖所給出的詳細(xì)描述而得到更好的理解,其中 在所有附圖中使用了相同或相似的附圖標(biāo)記來(lái)表示相同或者相似的部件。所述附圖連同下 面的詳細(xì)說(shuō)明一起包含在本說(shuō)明書中并形成說(shuō)明書的一部分,用來(lái)進(jìn)一步舉例說(shuō)明本發(fā)明 的優(yōu)選實(shí)施例和解釋本發(fā)明的原理和優(yōu)點(diǎn)。其中:
[0027] 圖1是示意性地示出根據(jù)現(xiàn)有技術(shù)和根據(jù)本發(fā)明的可視化效果的示例的圖;
[0028] 圖2是示出根據(jù)本發(fā)明的實(shí)施例的數(shù)據(jù)處理方法的示例處理的流程圖;
[0029] 圖3是示出圖2所示的權(quán)重計(jì)算步驟的具體處理操作的示例的流程圖;
[0030] 圖4是示出圖2所示的維度簇排序步驟的具體處理操作的示例的流程圖;
[0031] 圖5是示出圖2所示的可視化步驟的具體處理操作的示例的流程圖;
[0032] 圖6是示出根據(jù)本發(fā)明的實(shí)施例的數(shù)據(jù)處理裝置的示例配置的框圖;
[0033] 圖7是示出圖6所示的權(quán)重計(jì)算單元的詳細(xì)配置示例的框圖;
[0034] 圖8是示出圖6所示的維度簇排序單元的詳細(xì)配置示例的框圖;
[0035] 圖9是示出圖6所示的可視化單元的詳細(xì)配置示例的框圖;以及
[0036] 圖10是示出作為本發(fā)明的實(shí)施例中所采用的信息處理設(shè)備的個(gè)人計(jì)算機(jī)的示例 結(jié)構(gòu)的框圖。
【具體實(shí)施方式】
[0037] 在下文中將結(jié)合附圖對(duì)本發(fā)明的示范性實(shí)施例進(jìn)行描述。為了清楚和簡(jiǎn)明起見(jiàn), 在說(shuō)明書中并未描述實(shí)際實(shí)施方式的所有特征。然而,應(yīng)該了解,在開(kāi)發(fā)任何這種實(shí)際實(shí)施 例的過(guò)程中必須做出很多特定于實(shí)施方式的決定,以便實(shí)現(xiàn)開(kāi)發(fā)人員的具體目標(biāo),例如,符 合與系統(tǒng)及業(yè)務(wù)相關(guān)的那些限制條件,并且這些限制條件可能會(huì)隨著實(shí)施方式的不同而有 所改變。此外,還應(yīng)該了解,雖然開(kāi)發(fā)工作有可能是非常復(fù)雜和費(fèi)時(shí)的,但對(duì)得益于本公開(kāi) 內(nèi)容的本領(lǐng)域技術(shù)人員來(lái)說(shuō),這種開(kāi)發(fā)工作僅僅是例行的任務(wù)。
[0038] 在此,還需要說(shuō)明的一點(diǎn)是,為了避免因不必要的細(xì)節(jié)而模糊了本發(fā)明,在附圖中 僅僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的設(shè)備結(jié)構(gòu)和/或處理步驟,而省略了與本發(fā)明 關(guān)系不大的其它細(xì)節(jié)。
[0039] 以下將參照?qǐng)D1至圖10來(lái)描述根據(jù)本發(fā)明的實(shí)施例的數(shù)據(jù)處理方法和數(shù)據(jù)處理 裝直。
[0040] 首先,將參照?qǐng)D2來(lái)描述根據(jù)本發(fā)明的實(shí)施例的數(shù)據(jù)處理方法的示例處理流程。
[0041] 如圖2所示,根據(jù)本發(fā)明的數(shù)據(jù)處理方法可以包括聚類步驟S210、權(quán)重計(jì)算步驟 S212、維度簇排序步驟S214和可視化步驟S216。以下將分別詳細(xì)描述各個(gè)步驟中的處理。
[0042] 首先,在聚類步驟S210中,對(duì)具有多個(gè)維度的多個(gè)樣本進(jìn)行協(xié)同聚類以獲得第一 數(shù)量的樣本簇、第二數(shù)量的維度簇和目標(biāo)函數(shù)值,其中,目標(biāo)函數(shù)值表示聚類前后的信息關(guān) 系。
[0043] 作為示例,假設(shè)輸入數(shù)據(jù)為mXη的數(shù)據(jù)矩陣,S卩,輸入數(shù)據(jù)包括m個(gè)樣本和η個(gè)維 度,其中原始數(shù)據(jù)需要經(jīng)過(guò)預(yù)處理后形成該數(shù)據(jù)矩陣,矩陣的行表示樣本,矩陣的列表示維 度,即每個(gè)樣本由η個(gè)維度(即特征)來(lái)表示。這里采用協(xié)同聚類算法對(duì)數(shù)據(jù)矩陣的行和列 (即,樣本和維度)分別進(jìn)行聚類,這是由于雖然僅需要對(duì)維度簇進(jìn)行排序,但是需要協(xié)同聚 類的所有輸出來(lái)計(jì)算維度簇的權(quán)重,因而不能使用單向聚類方法。對(duì)輸入數(shù)據(jù)矩陣進(jìn)行協(xié) 同聚類之后的輸出包括k個(gè)(S卩,第一數(shù)量)樣本簇和1個(gè)(S卩,第二數(shù)量)維度簇以及表示 聚類前后的信息關(guān)系的目標(biāo)函數(shù)值。
[0044] 優(yōu)選地,作為示例,在本發(fā)明中采用基于信息論的協(xié)同聚類(ITCC)作為具體的協(xié) 同聚類算法,并且在該情況下,目標(biāo)函數(shù)值表示聚類前后的互信息損失。
[0045] ITCC根據(jù)輸入矩陣與聚類得到的輸出矩陣之間的互信息損失來(lái)衡量聚類結(jié)果的 優(yōu)劣,互信息損失越小,則說(shuō)明聚類效果越好。假設(shè)X表示聚類后的樣本簇(行)的索引,y 表示聚類后的維度簇(列)的索引,聚類后的輸出結(jié)果中的k個(gè)樣本簇表示為
【權(quán)利要求】
1. 一種數(shù)據(jù)處理方法,包括: 聚類步驟,對(duì)具有多個(gè)維度的多個(gè)樣本進(jìn)行協(xié)同聚類以獲得第一數(shù)量的樣本簇、第二 數(shù)量的維度簇和目標(biāo)函數(shù)值,其中,所述目標(biāo)函數(shù)值表示聚類前后的信息關(guān)系; 權(quán)重計(jì)算步驟,基于所獲得的第一數(shù)量的樣本簇、第二數(shù)量的維度簇和目標(biāo)函數(shù)值計(jì) 算權(quán)重,所述權(quán)重表示每個(gè)樣本簇與每個(gè)維度簇之間的關(guān)聯(lián)程度; 維度簇排序步驟,基于算出的權(quán)重對(duì)所述維度簇進(jìn)行排序,以使得當(dāng)對(duì)所述維度簇和 所述樣本簇的分布進(jìn)行可視化時(shí),與每個(gè)維度簇關(guān)聯(lián)程度最高的樣本簇分布在該維度簇附 近并且不同的樣本簇彼此分隔開(kāi);以及 可視化步驟,基于在所述維度簇排序步驟中所確定的維度簇的排序,使得所述維度和 所述樣本的分布可視化。
2. 根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理方法,其中,所述維度簇排序步驟進(jìn)一步包括: 維度簇分配子步驟,對(duì)于每個(gè)維度簇,基于所確定的權(quán)重,確定與該維度簇的關(guān)聯(lián)程度 最高的樣本簇并且將該維度簇分配給所確定的樣本簇;以及 第一排序子步驟,基于在所述維度簇分配子步驟中的分配結(jié)果對(duì)所述維度簇進(jìn)行排 序,以使得分配給同一樣本簇的所有維度簇排在相鄰的位置。
3. 根據(jù)權(quán)利要求2所述的數(shù)據(jù)處理方法,其中,所述維度簇排序步驟進(jìn)一步包括: 第二排序子步驟,對(duì)于排在相鄰的位置的、分配給同一樣本簇的維度簇,進(jìn)一步基于這 些維度簇中的各個(gè)維度簇關(guān)于該樣本簇的權(quán)重對(duì)這些維度簇進(jìn)行排序。
4. 根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的數(shù)據(jù)處理方法,其中,在所述可視化步驟中采用 徑向坐標(biāo)可視化Radviz使得所述樣本和所述維度的分布可視化。
5. 根據(jù)權(quán)利要求4所述的數(shù)據(jù)處理方法,其中,所述可視化步驟進(jìn)一步包括: 維度簇排列子步驟,將所述維度簇按所確定的排序排列在圓上; 樣本坐標(biāo)計(jì)算子步驟,基于所述維度簇在所述圓上的排列來(lái)計(jì)算所述多個(gè)樣本中的每 個(gè)樣本在所述圓內(nèi)的坐標(biāo);以及 可視化子步驟,基于所述維度簇的排列和所述樣本的坐標(biāo)而使得所述維度和所述樣本 的分布可視化。
6. -種數(shù)據(jù)處理裝置,包括: 聚類單元,被配置成對(duì)具有多個(gè)維度的多個(gè)樣本進(jìn)行協(xié)同聚類以獲得第一數(shù)量的樣本 簇、第二數(shù)量的維度簇和目標(biāo)函數(shù)值,其中,所述目標(biāo)函數(shù)值表示聚類前后的信息關(guān)系; 權(quán)重計(jì)算單元,被配置成基于所獲得的第一數(shù)量的樣本簇、第二數(shù)量的維度簇和目標(biāo) 函數(shù)值計(jì)算權(quán)重,所述權(quán)重表示每個(gè)樣本簇與每個(gè)維度簇之間的關(guān)聯(lián)程度; 維度簇排序單元,被配置成基于算出的權(quán)重對(duì)所述維度簇進(jìn)行排序,以使得當(dāng)對(duì)所述 維度簇和所述樣本簇的分布進(jìn)行可視化時(shí),與每個(gè)維度簇關(guān)聯(lián)程度最高的樣本簇分布在該 維度簇附近并且不同的樣本簇彼此分隔開(kāi);以及 可視化單元,被配置成基于所述維度簇排序單元所確定的維度簇的排序,使得所述維 度和所述樣本的分布可視化。
7. 根據(jù)權(quán)利要求6所述的數(shù)據(jù)處理裝置,其中,所述維度簇排序單元進(jìn)一步包括: 維度簇分配模塊,被配置成對(duì)于每個(gè)維度簇,基于所確定的權(quán)重,確定與該維度簇的關(guān) 聯(lián)程度最高的樣本簇并且將該維度簇分配給所確定的樣本簇;以及 第一排序模塊,被配置成基于所述維度簇分配模塊的分配結(jié)果對(duì)所述維度簇進(jìn)行排 序,以使得分配給同一樣本簇的所有維度簇排在相鄰的位置。
8. 根據(jù)權(quán)利要求7所述的數(shù)據(jù)處理裝置,其中,所述維度簇排序單元進(jìn)一步包括: 第二排序模塊,被配置成對(duì)于排在相鄰的位置的、分配給同一樣本簇的維度簇,進(jìn)一步 基于這些維度簇中的各個(gè)維度簇關(guān)于該樣本簇的權(quán)重對(duì)這些維度簇進(jìn)行排序。
9. 根據(jù)權(quán)利要求6至8中任一項(xiàng)所述的數(shù)據(jù)處理裝置,其中,所述可視化單元被配置成 采用徑向坐標(biāo)可視化Radviz使得所述樣本和所述維度的分布可視化。
10. 根據(jù)權(quán)利要求9所述的數(shù)據(jù)處理裝置,其中,所述可視化單元進(jìn)一步包括: 維度簇排列模塊,被配置成將所述維度簇按所確定的排序排列在圓上; 樣本坐標(biāo)計(jì)算模塊,被配置成基于所述維度簇在所述圓上的排列來(lái)計(jì)算所述多個(gè)樣本 中的每個(gè)樣本在所述圓內(nèi)的坐標(biāo);以及 可視化模塊,被配置成基于所述維度簇的排列和所述樣本的坐標(biāo)而使得所述維度和所 述樣本的分布可視化。
【文檔編號(hào)】G06F17/30GK104050162SQ201310075814
【公開(kāi)日】2014年9月17日 申請(qǐng)日期:2013年3月11日 優(yōu)先權(quán)日:2013年3月11日
【發(fā)明者】黃琦珍, 張軍, 鐘朝亮, 松尾昭彥 申請(qǐng)人:富士通株式會(huì)社