亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種多維數(shù)據(jù)的分析方法與流程

文檔序號:11707677閱讀:462來源:國知局

本發(fā)明涉及可視分析領(lǐng)域中的多維數(shù)據(jù)可視分析領(lǐng)域,特別涉及一種多維數(shù)據(jù)的分析方法。



背景技術(shù):

多維數(shù)據(jù)分析被公認(rèn)為是一件極具挑戰(zhàn)的事情。為了攻克這一難題,很多用于評估多維數(shù)據(jù)質(zhì)量的技術(shù)相繼被提出。有方法將數(shù)據(jù)投影到二維散點(diǎn)圖上,并利用映射結(jié)果構(gòu)建凸包,α包和最小生成樹,之后通過所得圖像的形狀來評估數(shù)據(jù)的質(zhì)量;有方法不僅從圖像空間上評估質(zhì)量,也在數(shù)據(jù)空間中分析相關(guān)性和類別等屬性?;跀?shù)據(jù)類型(如類別型,順序型和數(shù)值型)的方法來完成這一工作。

關(guān)于數(shù)據(jù)研究工具,如r,python和sql在數(shù)據(jù)分析方面各有專長。r是一種被廣泛使用的統(tǒng)計(jì)計(jì)算語言。python雖然不是專門為數(shù)據(jù)分析而生,但是它的一些擴(kuò)展庫如numpy和scipy都可以用于數(shù)據(jù)計(jì)算。sql的數(shù)據(jù)編輯和查詢功能可以輔助分析人員提取并處理數(shù)據(jù)庫中的數(shù)據(jù)。除此之外,timeseer是一款數(shù)據(jù)描述工具,它的主要功能是針對時(shí)間型數(shù)據(jù)構(gòu)建二維分布。

多視圖技術(shù)不需對數(shù)據(jù)進(jìn)行任何變形就可以從多方面展現(xiàn)多維數(shù)據(jù)。在可視化領(lǐng)域中,使用多視圖來展現(xiàn)多變量數(shù)據(jù)集這一技術(shù)也一直受到人們的重視。很多優(yōu)秀的可視化系統(tǒng),如vistrails、improvise和mosaicjs都涉及多視圖聯(lián)動技術(shù)。同樣作為對多視圖聯(lián)動技術(shù)在多維數(shù)據(jù)方面的實(shí)踐,將多維數(shù)據(jù)展示和可視化結(jié)合起來的研究也變得越來越重要。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明公開了一種多維數(shù)據(jù)的分析方法,更利于發(fā)現(xiàn)數(shù)據(jù)中變量間的數(shù)據(jù)分布關(guān)聯(lián)性,發(fā)現(xiàn)數(shù)據(jù)值的對應(yīng)關(guān)系,從而發(fā)現(xiàn)變量冗余性等,為進(jìn)一步的數(shù)據(jù)分析提供依據(jù)和支持。

一種多維數(shù)據(jù)的分析方法,包括以下步驟:

(1)將多維數(shù)據(jù)集的每個(gè)維度和每兩個(gè)維度組合作為數(shù)據(jù)視圖,單獨(dú)計(jì)算出數(shù)據(jù)的分布并繪制出相應(yīng)的圖表;

(2)將步驟(1)的每個(gè)數(shù)據(jù)視圖的分布和每對數(shù)據(jù)視圖的聯(lián)合分布轉(zhuǎn)化為數(shù)據(jù)視圖之間的信息感知關(guān)系;

(3)根據(jù)步驟(2)的信息感知關(guān)系,判斷步驟(1)中的數(shù)據(jù)視圖是否滿足四元組條件,并在滿足的情況下提取四元組;

(4)解析步驟(3)得到的四元組構(gòu)建為表達(dá)數(shù)據(jù)視圖信息感知關(guān)系的樹結(jié)構(gòu)。

為了使本發(fā)明方法的適用范圍更廣,優(yōu)選的,步驟(1)中,多維數(shù)據(jù)集包括多個(gè)類別型維度、多個(gè)數(shù)值型維度和多個(gè)時(shí)間型維度。

為了更好地展示數(shù)據(jù)視圖之間的信息感知關(guān)系,優(yōu)選的,步驟(2)中,計(jì)算數(shù)據(jù)視圖之間的信息感知關(guān)系的公式如下:

其中:

d(a)和d(b)分別代表數(shù)據(jù)視圖a和數(shù)據(jù)視圖b的值域;

p(a,b),p(a)和p(b)分別是數(shù)據(jù)視圖a和數(shù)據(jù)視圖b的聯(lián)合概率分布和各自的邊緣概率分布。

為了更好的滿足條件,優(yōu)選的,步驟(3)中,根據(jù)步驟(2)的信息感知關(guān)系,判斷步驟(1)中的數(shù)據(jù)視圖是否滿足四元組條件,并在滿足的情況下提取四元組的具體步驟如下:

3-1、從數(shù)據(jù)視圖a、b、c和d的關(guān)系數(shù)組i(a;b)、i(a;c)、i(a;d)、i(b;c)、i(b;d)和i(c;d)中找到互信息最大和第二大的值,并記錄對應(yīng)的下標(biāo);

3-2、當(dāng)步驟3-1中得到的最大和第二大的值的下標(biāo)之和為5(即下標(biāo)組合為0和5、1和4、2和3)時(shí),數(shù)據(jù)視圖a、b、c和d滿足四元組條件;

為了使樹結(jié)構(gòu)能夠更好的展示數(shù)據(jù)圖形之間的關(guān)系,優(yōu)選的,步驟(4)中,解析步驟(3)得到的四元組構(gòu)建樹結(jié)構(gòu)的具體步驟如下:

4-1、解析四元組生成一個(gè)圖結(jié)構(gòu),所述圖結(jié)構(gòu)的節(jié)點(diǎn)代表數(shù)據(jù)視圖,邊代表數(shù)據(jù)視圖之間的關(guān)系;

4-2、邊的權(quán)重由對應(yīng)的數(shù)據(jù)視圖在所有四元組中屬于的同組個(gè)數(shù)和不同組個(gè)數(shù)決定;例如,步驟3-2中,最大值和第二大值的下標(biāo)組合為1和4,則滿足四元組條件,由于數(shù)組對應(yīng)的值為i(a;c)和i(b;d),構(gòu)成四元組(ac|bd),其中數(shù)據(jù)視圖ac、bd為同組,ad、ab、bc、cd為不同組。

4-3、根據(jù)步驟4-2得到的邊的權(quán)重將步驟4-1得到的結(jié)構(gòu)圖分割為兩個(gè)子圖;

4-4、將步驟4-3中結(jié)構(gòu)被破壞的四元組刪掉,更新數(shù)據(jù)視圖之間的邊權(quán)重,重新執(zhí)行圖結(jié)構(gòu)的分割算法,在圖結(jié)構(gòu)無法分割或邊權(quán)重不存在不同組數(shù)據(jù)視圖的時(shí)候結(jié)束,得到最后的結(jié)構(gòu)圖作為樹結(jié)構(gòu)。

優(yōu)選的,還包括如下步驟:

(5)通過力引導(dǎo)樹來對步驟(4)的樹結(jié)構(gòu)進(jìn)行可視化,得到的布局中的所有節(jié)點(diǎn)都是數(shù)據(jù)視圖。

優(yōu)選的,步驟(5)中,通過不同的可視化布局來展現(xiàn)數(shù)據(jù)視圖的不同維度,類別型信息采用直方圖,數(shù)值型信息采用折線圖,時(shí)間型數(shù)據(jù)采用日歷圖和二維數(shù)據(jù)采用散點(diǎn)圖。

本發(fā)明的方法可以集成python的數(shù)據(jù)處理庫和可視化視圖,從而更好地解釋了維度之間的關(guān)系,設(shè)置維度掃描儀可以在一維、二維、三維和四維上分別進(jìn)行探索。

本發(fā)明的有益效果:

本發(fā)明的多維數(shù)據(jù)的分析方法,通過具有表現(xiàn)力的交互方式來幫助分析人員全面地預(yù)覽整個(gè)多維數(shù)據(jù)集以及深入探索多個(gè)數(shù)據(jù)視圖,提出了一個(gè)關(guān)于視圖匹配和組織的策略。

附圖說明

圖1為本發(fā)明方法的流程示意圖。

具體實(shí)施方式

下面以報(bào)警數(shù)據(jù)的案例,結(jié)合附圖詳細(xì)描述本發(fā)明方法,使本發(fā)明的目的和效果將變得更加明顯。

如圖1所示,本實(shí)施例提供一種多維數(shù)據(jù)探索方法,包括如下步驟:

步驟1:視圖提取。

找到一個(gè)多維數(shù)據(jù)集,將它的每個(gè)維度和每兩個(gè)維度組合作為數(shù)據(jù)視圖,單獨(dú)計(jì)算出數(shù)據(jù)的分布。本實(shí)施例中的報(bào)警數(shù)據(jù)一共有16個(gè)維度,包括8個(gè)類別型維度、6個(gè)數(shù)值型維度和2個(gè)時(shí)間型維度。對于類別型維度統(tǒng)計(jì)每個(gè)類別的數(shù)據(jù)量;對于數(shù)值型維度,合理地將數(shù)據(jù)分段,統(tǒng)計(jì)每個(gè)段的數(shù)據(jù)量;時(shí)間型維度類似于數(shù)值型,先分段,再統(tǒng)計(jì)每個(gè)分段的數(shù)據(jù)量;對于兩個(gè)維度組合的數(shù)據(jù)視圖,數(shù)據(jù)是各自維度(分段)值的組合的統(tǒng)計(jì),如維度x的值有1和2,維度y的值有3和4,那么組合維度的值就有(1,3)、(2,3)、(1,4)和(2,4),分別統(tǒng)計(jì)這4組值的數(shù)據(jù)量。

步驟2:計(jì)算關(guān)系矩陣。

將每個(gè)視圖的分布和每對視圖的聯(lián)合分布轉(zhuǎn)化為視圖之間的信息感知關(guān)系。這里可以用互信息值來代表信息感知關(guān)系,并據(jù)此計(jì)算出相應(yīng)的關(guān)系矩陣。兩個(gè)視圖的互信息定義如下:

其中,d(a)和d(b)分別代表視圖a和視圖b的值域。p(a,b),p(a)和p(b)分別是它們的聯(lián)合概率分布和各自的邊緣概率分布。對所有視圖對計(jì)算互信息值。

以本實(shí)施例中的報(bào)警數(shù)據(jù)為例,a和b就是步驟一中提取的任意兩個(gè)數(shù)據(jù)視圖,可以是單維度視圖或二維視圖。而a和b分別是a和b視圖中所對應(yīng)的值,如步驟一中的1、2和4。邊緣概率分布由步驟一中統(tǒng)計(jì)得到的單視圖分布除以總數(shù)據(jù)量決定,聯(lián)合概率分布則是視圖組合中所有值的統(tǒng)計(jì)量總數(shù)據(jù)量決定。

步驟3:構(gòu)建四元組。

四元組是一種四個(gè)數(shù)據(jù)分兩組的結(jié)構(gòu)(表示為ab|cd),在同組中的數(shù)據(jù)(ab或cd)比在不同組中的數(shù)據(jù)(ac、ad、bc、bd)之間有更高的相關(guān)性。構(gòu)建四元組算法描述了判斷數(shù)據(jù)視圖abcd是否滿足四元組條件,并在滿足的情況下提取四元組的過程。

算法首先從從關(guān)系數(shù)組(i(a;b);i(a;c);i(a;d);i(b;c);i(b;d);i(c;d))中找到互信息最大和第二大的值,并記錄對應(yīng)的下標(biāo);

如果這四個(gè)數(shù)據(jù)視圖滿足四元組條件,那么只有這兩個(gè)值的下標(biāo)之和為5才能保證對應(yīng)的兩組視圖集合沒有交集。

具體算法如下:

輸入:對于數(shù)據(jù)視圖a、b、c、d和對應(yīng)的關(guān)系數(shù)組relations=[i(a;b);i(a;c);i(a;d);i(b;c);i(b;d);i(c;d)],和閾值k輸出:如果滿足四元組條件則返回該四元組:

1:得到關(guān)系數(shù)組relations中的最大值和對應(yīng)的下標(biāo),分別記為maxrelation和maxindex;

2:計(jì)算第二大值的下標(biāo):secondmaxindex=5–maxindex;

3:得到第二大值:secondmaxrelation=relations[secondmaxindex];

4:qualified=true;

5:for關(guān)系數(shù)組中除最大值和第二大值外的其它值do;

6:if如果存在一個(gè)關(guān)系值大于k_secondmaxrelationthen;

7:qualified=false;

8:break;

9:endif;

10:endfor;

11:return如果qualified=true滿足,返回對應(yīng)的四元組。

步驟4:構(gòu)建樹結(jié)構(gòu)。

采用qmc算法通過兩步遞歸得到樹結(jié)構(gòu)。qmc算法首先解析四元組生成一個(gè)圖結(jié)構(gòu),圖的節(jié)點(diǎn)代表視圖,邊代表視圖之間的關(guān)系。邊的權(quán)重由對應(yīng)視圖在所有四元組中屬于同組個(gè)數(shù)和不同組個(gè)數(shù)決定。然后執(zhí)行圖的分割算法,根據(jù)邊的權(quán)重將這個(gè)圖分割為兩個(gè)子圖。分割完成后將結(jié)構(gòu)被破壞的四元組刪掉,更新視圖之間的邊權(quán)重,重新執(zhí)行圖分割算法。算法在圖結(jié)構(gòu)無法分割或邊權(quán)重不存在不同組視圖的時(shí)候結(jié)束。

完成樹結(jié)構(gòu)的構(gòu)建后,為了更好地分析樹結(jié)構(gòu)中的多維數(shù)據(jù),還可以進(jìn)行以下步驟的操作:

步驟5:研究高維數(shù)據(jù)。

通過力引導(dǎo)樹來對分類樹進(jìn)行可視化,該布局中的所有節(jié)點(diǎn)都是數(shù)據(jù)視圖。為了避免顯示內(nèi)容的重疊和遮擋,在對整棵樹進(jìn)行概覽的時(shí)候,選擇只顯示每個(gè)視圖的縮略圖。用戶可以通過選擇來查看縮略圖中的具體細(xì)節(jié),比如圖中的數(shù)據(jù)值等。

采用不同的可視化布局來展現(xiàn)數(shù)據(jù)的不同維度,比如用于展現(xiàn)類別型信息的直方圖,用于展現(xiàn)數(shù)值型信息的折線圖,用于展現(xiàn)時(shí)間型數(shù)據(jù)的日歷圖和用于展現(xiàn)二維數(shù)據(jù)的散點(diǎn)圖等等。當(dāng)一個(gè)縮略圖被鼠標(biāo)懸浮時(shí),一條連接該視圖到根節(jié)點(diǎn)的路徑被用綠色高亮出來。除此之外,如果這個(gè)縮略圖不在葉節(jié)點(diǎn)上,那么連接與它相關(guān)的葉節(jié)點(diǎn)的路徑也被高亮。

步驟6:更深層次的數(shù)據(jù)探索。

用戶還可以通過以下交互進(jìn)行更深層次的數(shù)據(jù)探索:

關(guān)系構(gòu)建:當(dāng)用戶選中兩個(gè)視圖的時(shí)候,系統(tǒng)自動生成一個(gè)以兩個(gè)視圖中的所有維度為軸的平行坐標(biāo)圖,可以用來進(jìn)行維度比較等。

生成了橙色平行坐標(biāo)圖包含與報(bào)警事件類型相關(guān)的4個(gè)維度,藍(lán)色平行坐標(biāo)圖包含大量的集中出現(xiàn)的空數(shù)據(jù);平行坐標(biāo)圖表達(dá)了district_or_sector和zone_or_beat兩個(gè)維度之間的關(guān)系有一定的相關(guān)性。

時(shí)間聚合:用戶可以對與時(shí)間型數(shù)據(jù)相關(guān)的視圖進(jìn)行不同時(shí)間段的聚類操作,比如按年、月、日等等。

將時(shí)間維度的數(shù)據(jù)按小時(shí)聚合后的結(jié)果,能夠看出數(shù)據(jù)在一天中不同時(shí)段的分布。

刷選聯(lián)動:當(dāng)用戶在一個(gè)視圖中刷選了一些數(shù)據(jù)后,其他視圖中的這部分?jǐn)?shù)據(jù)也被高亮出來,所有藍(lán)色小圖的紅色被高亮部分。

視圖變換:對每種類型的數(shù)據(jù),都提供多種可視化方式以供選擇,比如可以把經(jīng)緯度相關(guān)的視圖變換到地圖視圖中。

除此之外,用戶還可以使用一些輔助控件進(jìn)行靈活的數(shù)據(jù)研究:

維度總覽控件:在這里,數(shù)據(jù)集的所有維度及它們的數(shù)據(jù)類型和基本統(tǒng)計(jì)結(jié)果都被一一列出。其中數(shù)據(jù)類型通過小縮略圖來表示。當(dāng)這個(gè)維度被鼠標(biāo)懸浮,它的統(tǒng)計(jì)信息被自動展示出來,比如數(shù)值型數(shù)據(jù)的分位數(shù)值,時(shí)間型數(shù)據(jù)的時(shí)間跨度和類別型數(shù)據(jù)的種類數(shù)量等。

視圖選擇控件:該控件用于選擇或取消選擇一個(gè)或一組試圖。用戶可以點(diǎn)擊表示維度的方塊矩陣,并給相應(yīng)位置的方塊著上預(yù)定義的顏色。其中白色代表普通視圖,黑色代表隱藏視圖,其他顏色用于高亮視圖。用戶可以通過點(diǎn)擊對角線上的方塊選擇對應(yīng)的一維視圖,點(diǎn)擊非對角線上的方塊選擇相應(yīng)的二維視圖。除此之外,一維視圖還可以通過拖拽矩形框選來進(jìn)行選擇。

摘要快照控件:分析人員對當(dāng)前樹結(jié)構(gòu)的總結(jié)或備注將被保留在這里。在創(chuàng)造了很多快照的時(shí)候,最新的快照或者被分析人員解鎖的那一個(gè)快照會被激活。

通過列出了3個(gè)分組的快照,分別對照原圖中第一組、第二組和第三組的視圖組,快照中保留了用戶對這些視圖組的總結(jié),第一組視圖和報(bào)警事件類型相關(guān),第二組視圖中的數(shù)據(jù)包含大量的集中出現(xiàn)的空數(shù)據(jù),第三組視圖和報(bào)警的地點(diǎn)相關(guān)。

通過這一系列的探索,用戶可以發(fā)現(xiàn)與第一組視圖和第三組視圖中數(shù)據(jù)具有一對多的關(guān)系,很可能包含一定冗余性,用戶在實(shí)際分析的時(shí)候可以將組內(nèi)數(shù)據(jù)等價(jià)看待。而第二組數(shù)據(jù)由于包含大量空數(shù)據(jù),對實(shí)際分析價(jià)值相對較小。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1