基于初始數(shù)據(jù)可視化確定替代性數(shù)據(jù)可視化的方法和系統(tǒng)的制作方法【專利摘要】根據(jù)本發(fā)明的一個(gè)實(shí)施例,一種計(jì)算機(jī)實(shí)現(xiàn)的方法包括基于數(shù)據(jù)集合的所選擇的第一可視化的規(guī)范和包括有關(guān)數(shù)據(jù)集合的信息的參數(shù)生成數(shù)據(jù)集合的替代性可視化?!緦@f明】基于初始數(shù)據(jù)可視化確定替代性數(shù)據(jù)可視化的方法和系統(tǒng)【
技術(shù)領(lǐng)域:
】[0001]本發(fā)明的實(shí)施例涉及數(shù)據(jù)可視化,更具體地說,涉及基于選擇的初始數(shù)據(jù)可視化的規(guī)范確定替代性(alternative)數(shù)據(jù)可視化。【
背景技術(shù):
】[0002]選擇合適的方式來可視化數(shù)據(jù)涉及結(jié)合數(shù)據(jù)知識和數(shù)據(jù)可視化技術(shù)知識。然而,專注于特定領(lǐng)域的企業(yè)用戶通常缺乏數(shù)據(jù)可視化技術(shù)的專業(yè)知識。研究已經(jīng)顯示,在用戶選擇的數(shù)據(jù)視覺表示與其在可用的可視化列表中的位置之間的高度的相關(guān)性。換句話說,人們往往簡單地選擇最容易得到的可視化,而它可能不會導(dǎo)致數(shù)據(jù)的最佳可視化?!?br/>發(fā)明內(nèi)容】[0003]根據(jù)本發(fā)明的一個(gè)實(shí)施例,一種計(jì)算機(jī)實(shí)現(xiàn)的方法包括基于數(shù)據(jù)集合的所選擇的第一可視化的規(guī)范和包括有關(guān)該數(shù)據(jù)集合的信息的參數(shù)生成該數(shù)據(jù)集合的替代性可視化。本發(fā)明的實(shí)施例還包括一種用于以與上述本質(zhì)相同的方式可視化數(shù)據(jù)的系統(tǒng)和計(jì)算機(jī)程序廣品。【專利附圖】【附圖說明】[0004]一般情況下,各附圖中類似的參考標(biāo)號用來指代類似的部件。[0005]圖1是本發(fā)明的實(shí)施例使用的示例性計(jì)算環(huán)境的示意圖。[0006]圖2是示例根據(jù)本發(fā)明實(shí)施例的分析數(shù)據(jù)的基礎(chǔ)可視化以生成數(shù)據(jù)的替代性可視化的方式的流程圖。[0007]圖3是示例根據(jù)本發(fā)明實(shí)施例的圖2中的流程圖的視覺目標(biāo)和統(tǒng)計(jì)關(guān)系發(fā)現(xiàn)的方式的流程圖。[0008]圖4是示例根據(jù)本發(fā)明實(shí)施例的圖2中的流程圖的可視化推薦的方式的流程圖。[0009]圖5是示例根據(jù)本發(fā)明實(shí)施例的圖4中的流程圖的規(guī)則執(zhí)行的方式的流程圖。[0010]圖6是示例性初始數(shù)據(jù)可視化的圖。[0011]圖7A-7B示出了根據(jù)本發(fā)明實(shí)施例的為圖6中的初始數(shù)據(jù)可視化推薦的示例性替代性可視化?!揪唧w實(shí)施方式】[0012]可視化通常是指來自數(shù)據(jù)集合的數(shù)據(jù)的視覺表示。來自數(shù)據(jù)集合的變量通常映射到視覺表示的一組分量。分量的示例包括位置(例如,圖的X、Y、Z坐標(biāo))、美感(例如,顏色、大小、標(biāo)記、形狀等)和分面(faceting)(例如,圖表的行、列、外部行(outerrow),外部列(outercolumn)等)。在關(guān)系模型中,示例性數(shù)據(jù)集合可以包括其中每個(gè)記錄(即,每行數(shù)據(jù))都由一組列描述的數(shù)據(jù)表格,其中每一列是數(shù)據(jù)變量(也稱為字段)。[0013]本發(fā)明實(shí)施例基于用戶選擇的初始數(shù)據(jù)可視化為用戶提供推薦的替代性數(shù)據(jù)可視化。本發(fā)明實(shí)施例分析用戶的初始可視化、數(shù)據(jù)集合和元數(shù)據(jù)的規(guī)范。本實(shí)施例還為用戶提供一組新的、描述數(shù)據(jù)額外的方面的候選可視化,或者提供更好的數(shù)據(jù)視覺表示。[0014]例如,如果用戶最初選擇變量X和Y的散點(diǎn)圖(scatterplot),并且在X和Y之間存在高度的相關(guān)性,那么本發(fā)明實(shí)施例可以為用戶提供顯示疊加在原始散點(diǎn)圖上的統(tǒng)計(jì)平滑結(jié)果的候選可視化。同樣地,如果數(shù)據(jù)包含額外的類別的信息,那么候選可視化可以包括通過顏色、陰影或標(biāo)記形狀標(biāo)識每個(gè)(X,Y)對的類別的散點(diǎn)圖(帶有圖例)。這組候選可視化可以包括與原始的不同類型的可視化。例如,用戶可能最初為分層數(shù)據(jù)選擇條形圖,得到顯示分層結(jié)構(gòu)的樹形圖。同樣,最初選擇條形圖代表金融時(shí)間序列的用戶可能會得到線圖;最初選擇簇狀條形圖(clusteredbarchart)的用戶可能會得到點(diǎn)圖(dotplot)或平板化(paneled)條形圖;最初選擇數(shù)據(jù)包含美國各州名稱的條形圖可能會得到地圖。替代性可視化的具體推薦依賴于情境(例如,業(yè)務(wù)領(lǐng)域、數(shù)據(jù)和定制規(guī)則)和用戶的初始可視化。[0015]用于本發(fā)明實(shí)施例的示例性環(huán)境在圖1中示出。具體地說,該環(huán)境包括一個(gè)或多個(gè)服務(wù)器系統(tǒng)10和一個(gè)或多個(gè)客戶端或終端用戶系統(tǒng)14。服務(wù)器系統(tǒng)10和客戶端系統(tǒng)14可以彼此遠(yuǎn)離,并通過網(wǎng)絡(luò)12進(jìn)行通信。該網(wǎng)絡(luò)可以通過任何數(shù)量的任何合適的通信媒介(例如,廣域網(wǎng)(WAN)、局域網(wǎng)(LAN)、互聯(lián)網(wǎng)、內(nèi)聯(lián)網(wǎng)等)來實(shí)現(xiàn)。替代性地,服務(wù)器系統(tǒng)10和客戶端系統(tǒng)14可以相對于彼此是本地的,并通過任何合適的本地通信媒介(例如,局域網(wǎng)(LAN)、硬連線、無線鏈路、內(nèi)聯(lián)網(wǎng)等)進(jìn)行通信。[0016]客戶端系統(tǒng)14使用戶能夠針對各種應(yīng)用與服務(wù)器系統(tǒng)10進(jìn)行交互。服務(wù)器系統(tǒng)包括基于用戶選擇的初始數(shù)據(jù)可視化提供替代性數(shù)據(jù)可視化的可視化模塊16??梢暬K通過客戶端系統(tǒng)14從用戶那里接收初始可視化選擇。該可視化模塊進(jìn)一步接收可以存儲在數(shù)據(jù)庫系統(tǒng)18中的數(shù)據(jù)集合和其他輸入(例如,元數(shù)據(jù)和規(guī)則集合)或其他源。該數(shù)據(jù)庫系統(tǒng)可以通過任何常規(guī)的或其他的數(shù)據(jù)庫或存儲單元實(shí)現(xiàn),可以相對于服務(wù)器系統(tǒng)10和客戶端系統(tǒng)14是本地的,或遠(yuǎn)離這兩者,并可以通過任何合適的通信媒介(例如,局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)、互聯(lián)網(wǎng)、硬連線、無線鏈路、內(nèi)聯(lián)網(wǎng)等)進(jìn)行通信。[0017]客戶端系統(tǒng)14可以展示圖形用戶(例如,GUI等)或其他界面(例如,命令行提示、菜單屏幕等),以從用戶請求期望數(shù)據(jù)的可視化的初始選擇以及有關(guān)所期望數(shù)據(jù)的其他信息和分析,并可以顯示初始可視化和一組推薦的替代性可視化,以及包括其他生成的圖表和任何其他類型的分析結(jié)果的報(bào)告。[0018]服務(wù)器系統(tǒng)10和客戶端系統(tǒng)14可以通過優(yōu)選配備顯示器或監(jiān)視器、基礎(chǔ)組件(base)(例如,包括處理器、存儲器和/或內(nèi)部或外部通信設(shè)備(例如,調(diào)制解調(diào)器,網(wǎng)卡等))、可選的輸入設(shè)備(例如,鍵盤、鼠標(biāo)或其他輸入設(shè)備)和任何可商業(yè)獲得和/或定制的軟件(例如,服務(wù)器/通信軟件、可視化模塊、瀏覽器/接口軟件等等)的任何常規(guī)的或其他的計(jì)算機(jī)系統(tǒng)實(shí)現(xiàn)。另外,可視化模塊16可以包括執(zhí)行下面描述的各種功能的一個(gè)或多個(gè)模塊或單元,并可以通過任何數(shù)量的軟件和/或硬件模塊或單元的任意組合實(shí)現(xiàn)。[0019]可替換地,一個(gè)或多個(gè)客戶端系統(tǒng)14可以在作為獨(dú)立單元工作時(shí)分析數(shù)據(jù)。在獨(dú)立工作模式中,客戶端系統(tǒng)存儲數(shù)據(jù)或可以訪問數(shù)據(jù),并包括分析數(shù)據(jù)并基于用戶選擇的初始數(shù)據(jù)可視化提供推薦的替代性數(shù)據(jù)可視化的可視化模塊16。[0020]圖2示出了根據(jù)本發(fā)明實(shí)施例的根據(jù)初始數(shù)據(jù)可視化確定替代性數(shù)據(jù)可視化的方式(例如,通過可視化模塊16和服務(wù)器系統(tǒng)10和/或客戶端系統(tǒng)14)。具體地說,可視化模塊16接收作為輸入的初始可視化規(guī)范210(描述用戶選擇的可視化并識別源數(shù)據(jù)集合)、數(shù)據(jù)集合230、業(yè)務(wù)元數(shù)據(jù)220和一組用于確定替代性可視化的啟發(fā)式規(guī)則260。可視化模塊以多級操作,包括視覺目標(biāo)和統(tǒng)計(jì)關(guān)系發(fā)現(xiàn)級240和可視化推薦級270。發(fā)現(xiàn)級240分析規(guī)范210、數(shù)據(jù)集合230和業(yè)務(wù)元數(shù)據(jù)220,以辨識與有關(guān)數(shù)據(jù)可視化的用戶目標(biāo)相關(guān)的信息,并尋找數(shù)據(jù)集合中多個(gè)變量之間的統(tǒng)計(jì)關(guān)系。結(jié)果以豐富的元數(shù)據(jù)250的形式傳遞給可視化推薦級270??梢暬扑]級270接收豐富的元數(shù)據(jù)250、規(guī)范210和啟發(fā)式規(guī)則260,并應(yīng)用啟發(fā)式規(guī)則生成改進(jìn)的可視化的替代性可視化候選290。可視化推薦級的輸出是一組替代性可視化候選290。每一個(gè)最終的可視化候選都與陳述候選理由的說明相關(guān)聯(lián)。[0021]圖3示出了根據(jù)本發(fā)明實(shí)施例的發(fā)現(xiàn)級240編譯信息用于可視化推薦級270的方式(例如,通過可視化模塊16和服務(wù)器系統(tǒng)10和/或客戶端系統(tǒng)14)。具體地說,可視化分析310檢查初始可視化規(guī)范210的語義結(jié)構(gòu)以發(fā)現(xiàn)有關(guān)數(shù)據(jù)可視化的用戶的目標(biāo)以及數(shù)據(jù)到可視化分量的現(xiàn)有映射。規(guī)范對初始可視化進(jìn)行了充分描述,包括諸如變量位置、變量美感表示(如顏色、大小、形狀或標(biāo)記)、元素(如條形、線或點(diǎn))、分面和/或預(yù)先計(jì)算的統(tǒng)計(jì)值的信息。這些信息反映了用戶的意圖。例如,被選擇用位置表示的字段可能是對用戶來說非常重要的字段,使用條形元素可能表示對總結(jié)而不是趨勢的偏好。[0022]另外,可視化可以看作是數(shù)據(jù)統(tǒng)計(jì)模型。例如,圖表的Y軸變量通常被假定為依賴于X軸變量。前者可以標(biāo)記為“目標(biāo)”變量,而后者為“預(yù)測值”變量,用于下面描述的多變量建模。用來對數(shù)據(jù)進(jìn)行分段的變量(如用來平板化圖表或?yàn)閳D表的點(diǎn)或線上色的變量)表示條件關(guān)系,其中Y變量依賴于X變量,而X變量不同地依賴于條件(conditioning)變量的值。[0023]元數(shù)據(jù)分析320收集業(yè)務(wù)級別元數(shù)據(jù)220并對元數(shù)據(jù)進(jìn)行分析,以辨識情景。業(yè)務(wù)元數(shù)據(jù)220可以例如將變量識別為貨幣類型,并進(jìn)一步將該變量分類為開支字段或收入字段。收入字段和支出字段可以分別被指定為目標(biāo)和預(yù)測值。[0024]統(tǒng)計(jì)分析330計(jì)算各個(gè)變量的統(tǒng)計(jì)值,并發(fā)現(xiàn)數(shù)據(jù)集合的變量之間的統(tǒng)計(jì)關(guān)系??梢赃B同變量對的關(guān)聯(lián)度量一起產(chǎn)生多變量模型。最初,單變量分析331獨(dú)立計(jì)算每個(gè)變量的統(tǒng)計(jì)描述數(shù)據(jù)。單變量分析包括標(biāo)準(zhǔn)統(tǒng)計(jì)度量,如平均值、標(biāo)準(zhǔn)偏差、計(jì)數(shù)、缺失值計(jì)數(shù)、偏斜、峰度、順序統(tǒng)計(jì)值(中位數(shù)、四分位數(shù)等)和特殊指示符,特殊指示符包括在變量被確定為標(biāo)識符時(shí)被標(biāo)記為真的標(biāo)志(flag)。這是當(dāng)變量具有唯一字符串值或整數(shù)值、其中每個(gè)數(shù)據(jù)行都包括唯一值時(shí)的情形。這些變量未映射到除文本分量之外的其他的可視化分量。[0025]另外,創(chuàng)建有限大小的、適合用于創(chuàng)建統(tǒng)計(jì)圖表的數(shù)據(jù)概要。對于分類數(shù)據(jù),此概要包括變量的獨(dú)特類別的頻率表格,同時(shí)通過對于其頻率不落入固定數(shù)量的前幾位(例如,前100)的類別將所有的最低頻率項(xiàng)聚合成單個(gè)“其他”類別來確保最多產(chǎn)生固定數(shù)量的類另Ij(例如,最大100個(gè)類別)。[0026]對于數(shù)值數(shù)據(jù),生成同樣的頻率表格,除了使用分箱統(tǒng)計(jì)(statisticalbinning)創(chuàng)建多個(gè)值的范圍的頻率。例如,可以形成可變大小的分箱(bin)(利用可變分箱直方圖算法或任何其他合適的方法)為變量生成固定數(shù)量的分箱(例如,分箱的最大數(shù)量為100)。[0027]可視化分析310(規(guī)范分析)、元數(shù)據(jù)分析320和單獨(dú)變量統(tǒng)計(jì)331的結(jié)果被用來選擇用于雙變量統(tǒng)計(jì)分析332的變量對,以及用來識別作為多變量預(yù)測模型的目標(biāo)和預(yù)測值的變量。雙變量分析確定變量對之間關(guān)系的強(qiáng)度。對于多變量預(yù)測值建模333,與其他變量有強(qiáng)關(guān)聯(lián)的變量被給予優(yōu)先級。多變量預(yù)測值建模確定兩個(gè)以上變量之間的關(guān)系。得到的多變量預(yù)測值模型包括一組具有已知的統(tǒng)計(jì)關(guān)系、可用來生成候選可視化的變量。[0028]雙變量分析332對于每個(gè)所選的變量產(chǎn)生關(guān)系強(qiáng)度的度量和其統(tǒng)計(jì)似然性的度量。生成有限大小的交叉制表表格(cross-tabulationtable),其定義所選每組成對值的頻率。此交叉制表表格定義變量對的聯(lián)合分布。對該表格進(jìn)行分析,以提供對關(guān)聯(lián)的度量,包括:穩(wěn)健相關(guān)性度量,確定關(guān)系真實(shí)的統(tǒng)計(jì)概率;以及關(guān)系的強(qiáng)度,作為所述方差的改善而度量。計(jì)算得到的度量被保存供以后使用。交叉制表表格可用于創(chuàng)建雙變量可視化。[0029]使用提供優(yōu)于計(jì)算變量之間的關(guān)系的強(qiáng)度的傳統(tǒng)統(tǒng)計(jì)方法的多個(gè)優(yōu)點(diǎn)的技術(shù)對統(tǒng)計(jì)關(guān)系的強(qiáng)度進(jìn)行評估。它提供下述優(yōu)點(diǎn):它允許容易地對分類和連續(xù)變量之間的關(guān)系進(jìn)行比較,還提供實(shí)施優(yōu)勢,即一旦執(zhí)行交叉制表,得到的分析就不依賴于數(shù)據(jù)規(guī)模,因此對給定數(shù)量的變量具有固定的計(jì)算時(shí)間。該算法的細(xì)節(jié)在下面描述。[0030]對于大量的變量,得到的變量對的數(shù)量可能變得極大。因此,可以將分析限制于生成固定數(shù)量的雙變量可視化,基于可視化分析310(規(guī)范分析)、元數(shù)據(jù)分析320和單獨(dú)變量統(tǒng)計(jì)331選擇那些具有最高關(guān)系強(qiáng)度、具有統(tǒng)計(jì)學(xué)上的重要意義的變量以及那些被標(biāo)識為用戶感興趣的變量。[0031]生成交叉制表表格的更詳細(xì)的描述如下。如前所述,數(shù)據(jù)集合中的每個(gè)變量,無論是數(shù)值還是分類,都可以具有計(jì)算出的有限大小的頻率表示。這導(dǎo)致為每個(gè)變量定義最多給定數(shù)量的分箱(數(shù)值的或分類的)。因此,變量對將定義具有有限數(shù)量的單元格(cell)的表格(例如,假設(shè)每個(gè)變量有有限的100個(gè)類別,這將導(dǎo)致一對變量最多10,000個(gè)單元格)。該算法對全部數(shù)據(jù)進(jìn)行迭代,并且對每一對變量,計(jì)算由第一變量(變量I)的分箱和第二變量(變量2)的分箱交叉定義的單元格。然后,該單元格的頻率增大。對于少于受限類別(例如,100個(gè)類別)的數(shù)量的數(shù)據(jù),交叉制表表格將是真實(shí)雙變量分布的完美表示。[0032]為了效率,可以生成交叉制表,使得不存儲零值,只記錄非零組合。[0033]當(dāng)數(shù)據(jù)多種多樣時(shí),變量對之間的交叉制表變?yōu)橐环N近似。對于數(shù)值數(shù)據(jù)選擇分箱算法會極大地影響該項(xiàng)技術(shù)的使用。在一個(gè)示例性實(shí)施例中,使用可變寬度的分箱,使得邊際分箱頻率更加均勻,因此在高度不均勻數(shù)據(jù)的情形中低于分析來說比固定寬度的分箱更有用。[0034]變量元數(shù)據(jù)(來自可視化分析310和/或元數(shù)據(jù)分析320)可以用來指示哪些變量用于Y維度,哪些用于X維度,最好,目標(biāo)變量在Y維度上,預(yù)測值在X維度上。[0035]為了計(jì)算穩(wěn)健相關(guān)性度量,使用用于雙向表格的標(biāo)準(zhǔn)方差分析(ANOVA)技術(shù)分析交叉制表表格??ǚ?ch1-square)度量用來計(jì)算關(guān)系真實(shí)的統(tǒng)計(jì)概率。評估關(guān)系強(qiáng)度作為所述方差的比例(標(biāo)準(zhǔn)ANOVA術(shù)語中的分?jǐn)?shù)SSE/SST0的平方根)。[0036]數(shù)據(jù)的穩(wěn)健相關(guān)性度量使用標(biāo)準(zhǔn)統(tǒng)計(jì)卡方獨(dú)立性測試來計(jì)算。它產(chǎn)生多個(gè)度量,包括:統(tǒng)計(jì)顯著性和計(jì)數(shù)方差預(yù)測(通過將SSE(使用邊際頻率預(yù)測計(jì)數(shù)時(shí)的平方誤差項(xiàng)之和)除以SSTO(假設(shè)所有單元格都具有相等的頻率時(shí)的平方誤差項(xiàng)之和)來度量)。[0037]多變量分析333尋找兩個(gè)或更多變量之間的統(tǒng)計(jì)關(guān)系。在一個(gè)實(shí)施例中,使用“隨機(jī)森林”標(biāo)準(zhǔn)統(tǒng)計(jì)技術(shù)對目標(biāo)變量對預(yù)測值變量的依賴性進(jìn)行建模。該項(xiàng)技術(shù)在即使變量數(shù)量太大以至于無法考慮所有可能的組合時(shí)仍然有用。本方法涉及的該技術(shù)如下:[0038]1.對每一個(gè)目標(biāo)變量Y,構(gòu)建隨機(jī)森林模型,其使用其他變量的子集預(yù)測該變量。[0039]a.使用變量元數(shù)據(jù),以確保只有具有“未知”或“預(yù)測”用途的變量被用來預(yù)測變量。[0040]b.如果存在大量這樣的變量(足以使得擬合模型時(shí)間過長),則使用在雙變量關(guān)聯(lián)過程中計(jì)算得到的關(guān)聯(lián)數(shù)據(jù),選擇與目標(biāo)變量具有最強(qiáng)關(guān)系的變量,以及基于初始可視化和元數(shù)據(jù)分析被識別為用戶感興趣的變量。[0041]2.對于每個(gè)模型,記錄(i)關(guān)系真實(shí)的統(tǒng)計(jì)概率關(guān)系強(qiáng)度,作為所述方差的改善而度量。[0042]3.如果模型在統(tǒng)計(jì)學(xué)上是有效的,那么記錄每個(gè)變量X對目標(biāo)變量Y的模型的貢獻(xiàn)。這可以通過多種方法實(shí)現(xiàn),諸如針對標(biāo)準(zhǔn)或典型隨機(jī)森林模型描述的那些方法。在一個(gè)示例實(shí)現(xiàn)中,該模型使用從模型中排除的變量X重新擬合,關(guān)系強(qiáng)度的差異用作貢獻(xiàn)度量。對于每個(gè)變量,結(jié)果是與該變量在多變量意義上相關(guān)聯(lián)、并根據(jù)其對多變量模型的貢獻(xiàn)排序、評分的其他變量的列表。[0043]發(fā)現(xiàn)級240的結(jié)果被編譯為豐富的元數(shù)據(jù)250,包括使用統(tǒng)計(jì)信息(例如,與其他字段的最強(qiáng)關(guān)聯(lián)關(guān)系)和對用戶來說字段有多重要的度量(例如,認(rèn)為最初在y軸上使用的字段對用戶來說非常重要)豐富的業(yè)務(wù)元數(shù)據(jù)和任何來自數(shù)據(jù)集合230之內(nèi)的元數(shù)據(jù)。豐富的元數(shù)據(jù)250被提供給可視化推薦級270。[0044]圖4示出了根據(jù)本發(fā)明實(shí)施例的、可視化推薦級270生成新的候選可視化的方式(例如,通過可視化模塊16和服務(wù)器系統(tǒng)10和/或客戶端系統(tǒng)14)。具體地,規(guī)則執(zhí)行410接收啟發(fā)式規(guī)則260、初始可視化規(guī)范210和豐富的元數(shù)據(jù)250,并產(chǎn)生中間候選420。每個(gè)中間候選伴隨有純文本說明和一個(gè)或更多評分,可以通過所述一個(gè)或更多評分對候選進(jìn)行排序。中間候選420不是可視化的實(shí)際呈現(xiàn),而是可以應(yīng)用啟發(fā)式規(guī)則的可視化的規(guī)范。在處理過程中,這些規(guī)范被放置在池(pool)中,進(jìn)一步提供輸入給規(guī)則執(zhí)行410。這些規(guī)則以專家系統(tǒng)方式執(zhí)行,諸如專家系統(tǒng)的前向鏈或其他類型。例如,這些規(guī)則可以對于每一個(gè)新的中間候選執(zhí)行,以生成進(jìn)一步的中間候選,直到找到所有獨(dú)特的候選或達(dá)到限制。過濾430從中間候選420中選擇(例如,使用評分)一組最終的替代性可視化候選290。[0045]圖5示出了根據(jù)本發(fā)明實(shí)施例的規(guī)則執(zhí)行410和過濾430生成中間和最終候選的方式。具體地,啟發(fā)式規(guī)則應(yīng)用540通過應(yīng)用啟發(fā)式規(guī)則260創(chuàng)建新的候選可視化。例如,如果目標(biāo)確定為“顯示收入趨勢”,而在收入和商店標(biāo)識符之間存在強(qiáng)關(guān)聯(lián),那么將線或區(qū)域元素添加到原始規(guī)范(如果還不存在),并且平滑函數(shù)可應(yīng)用于線以使得趨勢更清楚。規(guī)則260被設(shè)計(jì)用于評估豐富的元數(shù)據(jù)250和/或初始可視化規(guī)范210,并對可視化加以改進(jìn),或創(chuàng)建具有改進(jìn)的新的可視化。規(guī)則可以包括預(yù)定義的規(guī)則、通用規(guī)則、由領(lǐng)域?qū)<叶x的規(guī)則(例如,金融規(guī)則),為特定數(shù)據(jù)集合定義的規(guī)則和/或由用戶為特定分析定義的規(guī)貝U。系統(tǒng)的規(guī)則可以針對不同的目的進(jìn)行調(diào)整,如基于新手所犯的常見錯(cuò)誤創(chuàng)建改進(jìn)的可視化,或朝向某個(gè)行業(yè)領(lǐng)域內(nèi)更相關(guān)的表示移動。每個(gè)規(guī)則通常僅修改可視化的一個(gè)分量方面,如應(yīng)用顏色表示字段,或相對于使用條形選擇使用點(diǎn)來表示數(shù)據(jù)。[0046]純文本說明550為產(chǎn)生新的候選的每一個(gè)規(guī)則提供純文本理由。這些說明在應(yīng)用規(guī)則時(shí)生成和捕獲。在處理結(jié)束時(shí),這些語句組合成段落,并展示給用戶。例如,當(dāng)規(guī)則確定向圖添加統(tǒng)計(jì)平滑器時(shí),可以添加解釋平滑的表示如何使得看到整體趨勢更容易的語句。[0047]評分560將分?jǐn)?shù)分配給中間可視化候選420??梢允褂萌魏魏线m的評分系統(tǒng)。評分系統(tǒng)可以使用行業(yè)特定規(guī)則。可以創(chuàng)建并分配代表不同的、想要的特性的若干不同的分?jǐn)?shù)。示例包括代表數(shù)據(jù)的關(guān)聯(lián)強(qiáng)度、復(fù)雜度/簡單度以及數(shù)據(jù)的所表示的維度的平板化(paneling)或數(shù)量的分?jǐn)?shù)??梢允褂眠@些因素的加權(quán)組合,以生成整體分?jǐn)?shù),然后將其用于從可能的候選中選擇信息最豐富的候選可視化。[0048]關(guān)聯(lián)強(qiáng)度可以基于由每個(gè)可視化分量展現(xiàn)的統(tǒng)計(jì)關(guān)系的強(qiáng)度、以及基于每個(gè)可視化分量對于給定類型的統(tǒng)計(jì)關(guān)系的適合性,進(jìn)行評分。每個(gè)分量的數(shù)據(jù)適合性度量,都以數(shù)據(jù)的統(tǒng)計(jì)和元特性(metacharacteristics)為基礎(chǔ)(如,類別數(shù)量、偏斜和均勻性),提供給定分量對于變量有多適合的度量。例如,有五種情形的分類變量比起傾斜數(shù)值變量更適合用于顏色。具體地,候選可視化可以根據(jù)它們與下面表格I中作為示例給出的預(yù)測變量的優(yōu)選使用順序的符合性(conformance)進(jìn)行排序。[0049]表格1:預(yù)測變暈的優(yōu)選使用順序[0050]【權(quán)利要求】1.一種計(jì)算機(jī)實(shí)現(xiàn)的方法,包括:基于數(shù)據(jù)集合的所選擇的第一可視化的規(guī)范和包括有關(guān)數(shù)據(jù)集合的信息的參數(shù),生成數(shù)據(jù)集合的替代性可視化。2.根據(jù)權(quán)利要求1所述的方法,其中所述參數(shù)還包括所述數(shù)據(jù)集合的元數(shù)據(jù)。3.根據(jù)權(quán)利要求1所述的方法,其中所述參數(shù)還包括數(shù)據(jù)集合的兩個(gè)或更多變量之間的統(tǒng)計(jì)關(guān)系。4.根據(jù)權(quán)利要求1所述的方法,還包括生成替代性可視化的說明。5.根據(jù)權(quán)利要求1所述的方法,其中第一可視化的規(guī)范包括一組可視化組件,以及通過應(yīng)用預(yù)定義的啟發(fā)式規(guī)則以創(chuàng)建該組可視化組件的修改實(shí)例來生成替代性可視化的規(guī)范。6.根據(jù)權(quán)利要求1所述的方法,還包括:通過將啟發(fā)式規(guī)則應(yīng)用于第一可視化的規(guī)范,生成多個(gè)新的可視化的規(guī)范;將分?jǐn)?shù)分配給每一個(gè)新的可視化;以及基于分?jǐn)?shù)產(chǎn)生該新的可視化的子集。7.一種系統(tǒng),包括:計(jì)算機(jī)系統(tǒng),包括至少一個(gè)處理器,該處理器被配置為:基于數(shù)據(jù)集合的所選擇的第一可視化的規(guī)范和包括有關(guān)數(shù)據(jù)集合的信息的參數(shù)生成數(shù)據(jù)集合的替代性可視化。8.根據(jù)權(quán)利要求7所述的系統(tǒng),其中所述參數(shù)還包括數(shù)據(jù)集合的元數(shù)據(jù)。9.根據(jù)權(quán)利要求7所述的系統(tǒng),其中所述參數(shù)還包括數(shù)據(jù)集合的兩個(gè)或更多變量之間的統(tǒng)計(jì)關(guān)系。10.根據(jù)權(quán)利要求7所述的系統(tǒng),其中所述至少一個(gè)處理器被進(jìn)一步配置為:生成替代性可視化的說明。11.根據(jù)權(quán)利要求7所述的系統(tǒng),其中第一可視化的規(guī)范包括一組可視化組件,以及通過應(yīng)用預(yù)定義的啟發(fā)式規(guī)則以創(chuàng)建該組可視化組件的修改實(shí)例來生成替代性可視化的規(guī)范。12.根據(jù)權(quán)利要求7所述的系統(tǒng),其中所述至少一個(gè)處理器被進(jìn)一步配置為:通過將啟發(fā)式規(guī)則應(yīng)用于初始可視化的規(guī)范,生成多個(gè)新的可視化的規(guī)范;將分?jǐn)?shù)分配給每一個(gè)新的可視化;以及基于分?jǐn)?shù)產(chǎn)生該新的可視化的子集?!疚臋n編號】G06F17/30GK103678457SQ201310412238【公開日】2014年3月26日申請日期:2013年9月11日優(yōu)先權(quán)日:2012年9月11日【發(fā)明者】S.D.吉布森,D.J.羅普,G.J.威爾斯申請人:國際商業(yè)機(jī)器公司