本發(fā)明涉及數(shù)據(jù)可視化技術(shù)領(lǐng)域,具體為一種基于聚類分析的非結(jié)構(gòu)化數(shù)據(jù)集可視化方法。
背景技術(shù):
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,特別是internet和intranet技術(shù)的飛快發(fā)展,各行業(yè)和個(gè)人數(shù)據(jù)量的需求增加,使得非結(jié)構(gòu)化數(shù)據(jù)的數(shù)量日趨增大,非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)系統(tǒng)開始流行。
針對(duì)于非結(jié)構(gòu)化數(shù)據(jù)可視化領(lǐng)域的相關(guān)技術(shù)還未成熟,不像關(guān)系型數(shù)據(jù)庫那樣有很多配套的可視化管理工具,如oracle,sqlserver和mysql等都有相應(yīng)的可視化管理工具來簡化用戶的操作和使用。
目前用戶對(duì)非結(jié)構(gòu)化數(shù)據(jù)集進(jìn)行搜索,僅能獲得單一獨(dú)立的信息。然而大量的數(shù)據(jù)堆積,使得用戶無法對(duì)信息進(jìn)行概括歸納,形成有語義內(nèi)容的知識(shí),并可交互直觀可視化的多維度觀測(cè),進(jìn)一步高效的管理該系統(tǒng)?;蛘哂脩粜枰ㄟ^將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù),比如存入關(guān)系型數(shù)據(jù)庫,或者轉(zhuǎn)換成execl文件,再對(duì)其進(jìn)行分析可視化,極大的浪費(fèi)了用戶的工作時(shí)間。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明所解決的技術(shù)問題在于提供一種基于聚類分析的非結(jié)構(gòu)化數(shù)據(jù)集可視化方法,以解決上述背景技術(shù)中的問題。
本發(fā)明所解決的技術(shù)問題采用以下技術(shù)方案來實(shí)現(xiàn):一種基于聚類分析的非結(jié)構(gòu)化數(shù)據(jù)集可視化方法,包括以下步驟:
步驟(1)針對(duì)非結(jié)構(gòu)化數(shù)據(jù)集中的內(nèi)容信息特征進(jìn)行存儲(chǔ);
步驟(2)基于聚類分析對(duì)所述非結(jié)構(gòu)化存儲(chǔ)數(shù)據(jù)集進(jìn)行解析,得到半結(jié)構(gòu)化表信息;
步驟(3)基于聚類分析得到的半結(jié)構(gòu)化表信息進(jìn)一步數(shù)據(jù)解析;
步驟(4)基于需求選取對(duì)應(yīng)維度信息,制定可視化策略,將所述展示數(shù)據(jù)進(jìn)行可視化內(nèi)容展示。
進(jìn)一步地,步驟(1)中,所述非結(jié)構(gòu)化數(shù)據(jù)包括:辦公文檔、文本、圖像、xml/html、各類報(bào)表、視頻和三維造型,所述內(nèi)容信息特征包括文本的基于分詞的詞頻特征、圖像的紋理和輪廓特征、視頻的關(guān)鍵幀特征和三維造型的投影輪廓特征;其存儲(chǔ)方法為利用json格式進(jìn)行存儲(chǔ)。
進(jìn)一步地,步驟(2)中,所述半結(jié)構(gòu)化數(shù)據(jù)就是介于完全結(jié)構(gòu)化數(shù)據(jù)和完全無結(jié)構(gòu)的數(shù)據(jù)之間的數(shù)據(jù),html文檔就屬于半結(jié)構(gòu)化數(shù)據(jù);半結(jié)構(gòu)化數(shù)據(jù)是自描述的,數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容混在一起,沒有明顯的區(qū)分;其解析方法為基于k-means方法將樣例數(shù)據(jù)聚類成k個(gè)簇。
進(jìn)一步地,所述完全結(jié)構(gòu)化數(shù)據(jù)包括關(guān)系型數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫中的數(shù)據(jù),完全無結(jié)構(gòu)的數(shù)據(jù)包括聲音、圖像文件。
進(jìn)一步地,步驟(3)中,所述數(shù)據(jù)解析包括數(shù)據(jù)過濾,篩選,聚合,內(nèi)聯(lián)操作得到展示數(shù)據(jù)。
進(jìn)一步地,步驟(4)中,所述可視化內(nèi)容展示空間為平面或三維空間,所述展示的內(nèi)容包括非結(jié)構(gòu)數(shù)據(jù)的原始數(shù)據(jù)和元數(shù)據(jù)項(xiàng),所述元數(shù)據(jù)項(xiàng)包括基本屬性、語義特征和應(yīng)用場(chǎng)景;在進(jìn)行可視化內(nèi)容展示時(shí)提供四種節(jié)點(diǎn)交互功能:視圖概覽、移動(dòng)變換、區(qū)域縮放、焦點(diǎn)變換和節(jié)點(diǎn)細(xì)節(jié)查詢,以支持用戶進(jìn)行交互分析。
進(jìn)一步地,步驟(4)中,可視化內(nèi)容展示方式包括柱狀圖、餅圖、折線圖、熱點(diǎn)圖、地圖、雷達(dá)圖、熱力圖、k線圖、關(guān)系圖、樹形圖、箱線圖、平行坐標(biāo)圖、儀表盤圖、標(biāo)簽云圖、漏斗圖。
與已公開技術(shù)相比,本發(fā)明存在以下優(yōu)點(diǎn):1)本發(fā)明支持非結(jié)構(gòu)化層次信息的可視化,通過聚類分析,可以對(duì)非結(jié)構(gòu)數(shù)據(jù)節(jié)點(diǎn)的原始內(nèi)容進(jìn)行一種“所見即所得”的展示,相比于傳統(tǒng)導(dǎo)入關(guān)系型數(shù)據(jù)再分析的方法,更加高效和自然。
2)本發(fā)明基于聚類分析對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行一種信息重構(gòu),相比于傳統(tǒng)基于文件夾目錄樹的組織模式,能夠更客觀的體現(xiàn)數(shù)據(jù)的語義關(guān)聯(lián),能夠更好的體現(xiàn)用戶的交互意圖。
3)本發(fā)明采用多維的可視化布局,可以進(jìn)行多方位信息展示,并且擁有多種交互方法,可以讓用戶從不同側(cè)面對(duì)非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)倉庫中包含的元數(shù)據(jù)項(xiàng)進(jìn)行觀察和分析。
附圖說明
圖1為本發(fā)明的系統(tǒng)流程示意圖。
圖2為本發(fā)明的具體實(shí)施例所提出的一種聚類分析后的可視化散點(diǎn)展示圖。
具體實(shí)施方式
為了使本發(fā)明的技術(shù)手段、創(chuàng)作特征、工作流程、使用方法達(dá)成目的與功效易于明白了解,下面將結(jié)合本發(fā)明實(shí)施例,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
如圖1、圖2所示,一種基于聚類分析的非結(jié)構(gòu)化數(shù)據(jù)集可視化方法,包括以下步驟:
步驟(1)針對(duì)非結(jié)構(gòu)化數(shù)據(jù)集中的內(nèi)容信息特征進(jìn)行存儲(chǔ),比如利用json格式進(jìn)行存儲(chǔ)。
本發(fā)明的方法使用的非結(jié)構(gòu)化數(shù)據(jù)包括文本、圖像、視頻等數(shù)據(jù)類型,以及三維造型等廣義非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)內(nèi)容體現(xiàn)為數(shù)據(jù)節(jié)點(diǎn)特征,如文本基于分詞的詞頻特征、圖像的紋理和輪廓特征、視頻的關(guān)鍵幀特征和三維造型的投影輪廓特征等。存儲(chǔ)類型可以是json文件
步驟(2)基于聚類分析對(duì)所述非結(jié)構(gòu)化存儲(chǔ)數(shù)據(jù)進(jìn)行解析,得到半結(jié)構(gòu)化表信息;比如基于k-means方法將樣例數(shù)據(jù)聚類成k個(gè)簇
本步驟所生成的半結(jié)構(gòu)化數(shù)據(jù)就是介于完全結(jié)構(gòu)化數(shù)據(jù)(如關(guān)系型數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫中的數(shù)據(jù))和完全無結(jié)構(gòu)的數(shù)據(jù)(如聲音、圖像文件等)之間的數(shù)據(jù),html文檔就屬于半結(jié)構(gòu)化數(shù)據(jù)。它一般是自描述的,數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容混在一起,沒有明顯的區(qū)分。
步驟(3)針對(duì)基于聚類分析得到的半結(jié)構(gòu)化表信息進(jìn)行進(jìn)一步解析操作,如字段解析,數(shù)據(jù)統(tǒng)計(jì),最大值、最小值和平均值,得到進(jìn)一步的展示數(shù)據(jù);
步驟(4)根據(jù)需求選取對(duì)應(yīng)數(shù)據(jù)維度,拖拽到對(duì)應(yīng)圖表、地圖、控件、組件的坐標(biāo)軸進(jìn)行綁定;進(jìn)一步根據(jù)可視化內(nèi)容展示選擇圖表、地圖、控件、組件拖拽到畫布;添加交互設(shè)置。
本步驟所述的可視化策略包括圖表庫、控件庫和地理信息系統(tǒng)(gis)。圖表庫支持多種圖表類型,圖表類型包括柱形圖、條形圖、折線圖、餅圖、面積圖、組合圖、儀表盤和矢量地圖,控件庫包括文本框、單選框、復(fù)選框、圖片、線條、下拉框、滑動(dòng)條、下拉列表、按鈕、列表。地理信息系統(tǒng)(gis,geographicinformationsystem)是一門綜合性學(xué)科,結(jié)合地理學(xué)與地圖學(xué)以及遙感和計(jì)算機(jī)科學(xué),已經(jīng)廣泛的應(yīng)用在不同的領(lǐng)域,是用于輸入、存儲(chǔ)、查詢、分析和顯示地理數(shù)據(jù)的計(jì)算機(jī)系統(tǒng),gis是一種基于計(jì)算機(jī)的工具,它可以對(duì)空間信息進(jìn)行分析和處理(簡而言之,是對(duì)地球上存在的現(xiàn)象和發(fā)生的事件進(jìn)行成圖和分析)。gis技術(shù)把地圖這種獨(dú)特的視覺化效果和地理分析功能與解析后的數(shù)據(jù)(例如查詢和統(tǒng)計(jì)分析等)集成在一起。
本發(fā)明支持非結(jié)構(gòu)化數(shù)據(jù)節(jié)點(diǎn)內(nèi)容的直觀呈現(xiàn);支持非結(jié)構(gòu)化數(shù)據(jù)元數(shù)據(jù)項(xiàng)如物理屬性、語義特征、應(yīng)用場(chǎng)景的展示;支持?jǐn)?shù)據(jù)節(jié)點(diǎn)之間基于內(nèi)容的語義關(guān)聯(lián)分析;支持一種焦點(diǎn)+文本內(nèi)容的展示方式;支持可視形態(tài)的焦點(diǎn)轉(zhuǎn)移、視圖旋轉(zhuǎn)縮放等交互操作。
本發(fā)明對(duì)非結(jié)構(gòu)化數(shù)據(jù)集進(jìn)行聚類分析后,可以得到半結(jié)構(gòu)化數(shù)據(jù)信息,半結(jié)構(gòu)化數(shù)據(jù)就是介于完全結(jié)構(gòu)化數(shù)據(jù)(如關(guān)系型數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫中的數(shù)據(jù))和完全無結(jié)構(gòu)的數(shù)據(jù)(如聲音、圖像文件等)之間的數(shù)據(jù),html文檔就屬于半結(jié)構(gòu)化數(shù)據(jù)。它一般是自描述的,數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容混在一起,沒有明顯的區(qū)分。通過對(duì)基于聚類分析得到的半結(jié)構(gòu)化數(shù)據(jù)集進(jìn)行解析后,進(jìn)行可視化展示,幫助用戶發(fā)現(xiàn)海量的非結(jié)構(gòu)化層次信息中隱藏的規(guī)律和模式,輔助用戶認(rèn)知和決策。
以上顯示和描述了本發(fā)明的基本原理、主要特征及本發(fā)明的優(yōu)點(diǎn)。本行業(yè)的技術(shù)人員應(yīng)該了解,本發(fā)明不受上述實(shí)施例的限制,上述實(shí)施例和說明書中描述的只是說明本發(fā)明的原理,在不脫離本發(fā)明精神和范圍的前提下,本發(fā)明還會(huì)有各種變化和改進(jìn),這些變化和改進(jìn)都落入要求保護(hù)的本發(fā)明范圍內(nèi)。本發(fā)明的要求保護(hù)范圍由所附的權(quán)利要求書及其等效物界定。