用于呈現(xiàn)數(shù)據(jù)的方法和裝置制造方法
【專利摘要】本發(fā)明的各實(shí)施方式提供了用于呈現(xiàn)數(shù)據(jù)的方法和裝置。具體地,在本發(fā)明的一個實(shí)施方式中,提供了一種用于呈現(xiàn)數(shù)據(jù)的方法,包括:從數(shù)據(jù)源的第一數(shù)據(jù)集合獲取第一原始數(shù)據(jù)、以及轉(zhuǎn)換自第一原始數(shù)據(jù)的第一三維數(shù)據(jù);提取將第一原始數(shù)據(jù)轉(zhuǎn)換為第一三維數(shù)據(jù)的轉(zhuǎn)換規(guī)則;響應(yīng)于從數(shù)據(jù)源的第二數(shù)據(jù)集合獲取第二原始數(shù)據(jù),基于轉(zhuǎn)換規(guī)則將第二原始數(shù)據(jù)轉(zhuǎn)換為第二三維數(shù)據(jù);以及呈現(xiàn)第二三維數(shù)據(jù)的可視化表示;其中第一原始數(shù)據(jù)和第二原始數(shù)據(jù)的維度大于三維。在本發(fā)明的一個實(shí)施方式中,提供了用于呈現(xiàn)數(shù)據(jù)的裝置。采用本發(fā)明所述的方法和裝置,可以利用自動化處理代替人工操作,快速準(zhǔn)確地將高維數(shù)據(jù)轉(zhuǎn)換為低維數(shù)據(jù),進(jìn)而以可視化方式呈現(xiàn)。
【專利說明】用于呈現(xiàn)數(shù)據(jù)的方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明的各實(shí)施方式涉及數(shù)據(jù)處理,更具體地,涉及用于將高維數(shù)據(jù)轉(zhuǎn)換為低維數(shù)據(jù)并以可視化方式進(jìn)行呈現(xiàn)的方法和裝置。
【背景技術(shù)】
[0002]隨著計(jì)算機(jī)硬件技術(shù)以及軟件技術(shù)的發(fā)展,越來越多的行業(yè)已經(jīng)實(shí)現(xiàn)了基于計(jì)算機(jī)的自動化處理。隨著辦公自動化的普及,業(yè)務(wù)處理期間涉及的各種數(shù)據(jù)可以以諸如二維表格等方式存儲在數(shù)據(jù)存儲系統(tǒng)中。通常,根據(jù)行業(yè)的不同,這些數(shù)據(jù)通常會涉及方方面面的數(shù)據(jù),并且以相當(dāng)高的維度表示。
[0003]具體地,僅以電子產(chǎn)品行業(yè)為例,當(dāng)電子產(chǎn)品提供商建立數(shù)據(jù)庫時,需要采集關(guān)于客戶的諸多方面的信息。在本發(fā)明的上下文中,可以將這些方面稱為“維度”。例如,在描述客戶屬性時,可以包括但不限于如下維度,姓名、年齡、血型、職業(yè)、婚姻狀況、收入等方面的信息;例如,對于出售的各種商品而言,可能會涉及商品名稱、型號、價格、折扣、銷量、生產(chǎn)日期、保修期等方面的信息。當(dāng)記錄購買事件的內(nèi)容時,則需要包括客戶屬性、商品屬性以及購買發(fā)生的時間、地點(diǎn)等等更多維度。在上文中僅以示例方式示出了數(shù)據(jù)中可能涉及的多個維度的示例,應(yīng)當(dāng)理解,在實(shí)際應(yīng)用環(huán)境中,數(shù)據(jù)的維度可能會達(dá)到數(shù)十甚至上百的數(shù)量級。
[0004]目前的常規(guī)處理是,以二維表格的形式將數(shù)據(jù)的各個維度打印在諸如紙張上或者在顯示器上顯示。當(dāng)數(shù)據(jù)維度較低(例如,小于5維)時,可以較為方便地以二維表格形式呈現(xiàn),然而當(dāng)數(shù)據(jù)的維度達(dá)到一定數(shù)量級時,根本不能以常規(guī)方式來呈現(xiàn)這些數(shù)據(jù)。
[0005]數(shù)據(jù)立方體技術(shù)是數(shù)據(jù)處理領(lǐng)域中的一種新型的技術(shù)方案,立方體可以以更為直觀的方式存儲和顯示多維數(shù)據(jù)。該技術(shù)方案可以將高維的原始數(shù)據(jù)轉(zhuǎn)換為三維數(shù)據(jù)并進(jìn)行顯示。目前,如何基于數(shù)據(jù)立方體技術(shù)來以更有效的方式將高維數(shù)據(jù)轉(zhuǎn)換為低維數(shù)據(jù),并進(jìn)行可視化顯示已經(jīng)成為一個研究重點(diǎn)。
[0006]盡管目前已經(jīng)開發(fā)出一些基于數(shù)據(jù)立方體技術(shù)來對降低數(shù)據(jù)維度的技術(shù)方案,然而實(shí)現(xiàn)這些技術(shù)方案的基礎(chǔ)是,假定待處理數(shù)據(jù)可以全面地反映所在領(lǐng)域的數(shù)據(jù)分布規(guī)律,即,只有當(dāng)待處理數(shù)據(jù)能夠展示原始數(shù)據(jù)在整個樣本空間內(nèi)的常規(guī)分布規(guī)律時,才能夠準(zhǔn)確地降低這些待處理數(shù)據(jù)的維度。
[0007]然而目前所面臨的問題在于,在許多領(lǐng)域中實(shí)現(xiàn)辦公自動化的時間并不長,所采集到的原始數(shù)據(jù)在數(shù)量上并不充分,并且有可能不能夠全面反映該領(lǐng)域中的一般分布規(guī)律。例如,僅以電子產(chǎn)品行業(yè)為例,電子產(chǎn)品在A國還屬于新興行業(yè),并且根據(jù)目前在A國市場中所采集到的數(shù)據(jù),客戶可能主要集中在20-40歲的年齡段;然而根據(jù)發(fā)達(dá)國家的統(tǒng)計(jì)數(shù)據(jù),電子產(chǎn)品的主要客戶可能會集中在例如15-50歲的年齡區(qū)間。
[0008]應(yīng)當(dāng)注意,待處理數(shù)據(jù)本身會隨著時間而逐漸豐富,并且逐漸趨向于反映數(shù)據(jù)自身的真實(shí)分布規(guī)律,如果在初始時基于所采集到的“非典型”數(shù)據(jù)來開發(fā)數(shù)據(jù)立方體模型,則很可能會因?yàn)樵摂?shù)據(jù)模型不夠準(zhǔn)確等原因,造成該數(shù)據(jù)模型不再適用于處理未來的數(shù)據(jù),甚至造成必須放棄已經(jīng)付出勞動并重新構(gòu)造數(shù)據(jù)模型等不良結(jié)果。另一方面,新興行業(yè)中的技術(shù)人員的專業(yè)素質(zhì)有待提高,無法以有效的方式處理數(shù)據(jù)。因而,面對從不成熟數(shù)據(jù)源采集到的并不能準(zhǔn)確反映數(shù)據(jù)的一般分布規(guī)律的原始數(shù)據(jù),如何以適當(dāng)方式進(jìn)行處理成為一項(xiàng)亟待解決的問題。
【發(fā)明內(nèi)容】
[0009]因而,期望開發(fā)出一種數(shù)據(jù)轉(zhuǎn)換的技術(shù)方案,期望該技術(shù)方案能夠?qū)碜圆怀墒鞌?shù)據(jù)源的原始數(shù)據(jù)進(jìn)行合理處理,進(jìn)而將該原始數(shù)據(jù)從復(fù)雜的高維數(shù)據(jù)轉(zhuǎn)換為較低維度的數(shù)據(jù),并且還期望可以以易于識別的方式向用戶呈現(xiàn)該數(shù)據(jù)的可視化表現(xiàn)。
[0010]在本發(fā)明的一個實(shí)施方式中,提供了一種用于呈現(xiàn)數(shù)據(jù)的方法,包括:從數(shù)據(jù)源的第一數(shù)據(jù)集合獲取第一原始數(shù)據(jù)、以及轉(zhuǎn)換自第一原始數(shù)據(jù)的第一三維數(shù)據(jù);提取將第一原始數(shù)據(jù)轉(zhuǎn)換為第一三維數(shù)據(jù)的轉(zhuǎn)換規(guī)則;響應(yīng)于從數(shù)據(jù)源的第二數(shù)據(jù)集合獲取第二原始數(shù)據(jù),基于轉(zhuǎn)換規(guī)則將第二原始數(shù)據(jù)轉(zhuǎn)換為第二三維數(shù)據(jù);以及呈現(xiàn)第二三維數(shù)據(jù)的可視化表示;其中第一原始數(shù)據(jù)和第二原始數(shù)據(jù)的維度大于三維。
[0011]在本發(fā)明的一個實(shí)施方式中,呈現(xiàn)第二三維數(shù)據(jù)的可視化表示包括:根據(jù)第二三維數(shù)據(jù)的三個維度,將第二三維數(shù)據(jù)劃分為多個空間;以及在第二三維數(shù)據(jù)的三個維度中呈現(xiàn)多個空間。
[0012]在本發(fā)明的一個實(shí)施方式中,在第二三維數(shù)據(jù)的三個維度中呈現(xiàn)多個空間包括:將多個空間之一內(nèi)的一部分第二三維數(shù)據(jù)聚類為多個類別;以及在空間內(nèi)呈現(xiàn)多個類別。
[0013]在本發(fā)明的一個實(shí)施方式中,提供了一種用于呈現(xiàn)數(shù)據(jù)的裝置,包括:獲取模塊,配置用于從數(shù)據(jù)源的第一數(shù)據(jù)集合獲取第一原始數(shù)據(jù)、以及轉(zhuǎn)換自第一原始數(shù)據(jù)的第一三維數(shù)據(jù);提取模塊,配置用于提取將第一原始數(shù)據(jù)轉(zhuǎn)換為第一三維數(shù)據(jù)的轉(zhuǎn)換規(guī)則;轉(zhuǎn)換模塊,配置用于響應(yīng)于從數(shù)據(jù)源的第二數(shù)據(jù)集合獲取第二原始數(shù)據(jù),基于轉(zhuǎn)換規(guī)則將第二原始數(shù)據(jù)轉(zhuǎn)換為第二三維數(shù)據(jù);以及呈現(xiàn)模塊,配置用于呈現(xiàn)第二三維數(shù)據(jù)的可視化表示;其中第一原始數(shù)據(jù)和第二原始數(shù)據(jù)的維度大于三維。
[0014]在本發(fā)明的一個實(shí)施方式中,呈現(xiàn)模塊包括:劃分模塊,配置用于根據(jù)第二三維數(shù)據(jù)的三個維度,將第二三維數(shù)據(jù)劃分為多個空間;以及空間呈現(xiàn)模塊,配置用于在第二三維數(shù)據(jù)的三個維度中呈現(xiàn)多個空間。
[0015]在本發(fā)明的一個實(shí)施方式中,空間呈現(xiàn)模塊包括:聚類模塊,配置用于將多個空間之一內(nèi)的一部分第二三維數(shù)據(jù)聚類為多個類別;以及聚類呈現(xiàn)模塊,配置用于在空間內(nèi)呈現(xiàn)多個類別。
[0016]采用本發(fā)明的各個實(shí)施方式所述的技術(shù)方案,可以基于適用于成熟數(shù)據(jù)源的數(shù)據(jù)處理的數(shù)據(jù)模型,來將來自不成熟數(shù)據(jù)源的原始數(shù)據(jù)進(jìn)行自動處理。進(jìn)一步,可以在業(yè)務(wù)發(fā)展初期利用計(jì)算機(jī)的自動化處理代替人工操作,從而快速準(zhǔn)確地將高維數(shù)據(jù)轉(zhuǎn)換為低維數(shù)據(jù),進(jìn)而以可視化方式呈現(xiàn)。
【專利附圖】
【附圖說明】
[0017]結(jié)合附圖并參考以下詳細(xì)說明,本發(fā)明各實(shí)施方式的特征、優(yōu)點(diǎn)及其他方面將變得更加明顯,在此以示例性而非限制性的方式示出了本發(fā)明的若干實(shí)施方式。在附圖中:
[0018]圖1示意性示出了適于實(shí)現(xiàn)本發(fā)明實(shí)施方式的示例性計(jì)算系統(tǒng)的框圖;
[0019]圖2示意性示出了根據(jù)一個技術(shù)方案的用于呈現(xiàn)數(shù)據(jù)的系統(tǒng)的架構(gòu)圖;
[0020]圖3示意性示出了根據(jù)一個實(shí)施方式的用于呈現(xiàn)數(shù)據(jù)的方法的流程圖;
[0021]圖4示意性示出了神經(jīng)網(wǎng)絡(luò)模型的示意圖;
[0022]圖5示意性示出了根據(jù)一個實(shí)施方式所呈現(xiàn)的數(shù)據(jù)立方體的圖示;
[0023]圖6A-圖6C分別示意性示出了根據(jù)一個實(shí)施方式的對三維數(shù)據(jù)進(jìn)行聚類的圖示;以及
[0024]圖7示意性示出了根據(jù)一個實(shí)施方式的用于呈現(xiàn)數(shù)據(jù)的裝置的框圖。
【具體實(shí)施方式】
[0025]下面將參照附圖更詳細(xì)地描述本公開的優(yōu)選實(shí)施方式。雖然附圖中顯示了本公開的優(yōu)選實(shí)施方式,然而應(yīng)該理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施方式所限制。相反,提供這些實(shí)施方式是為了使本公開更加透徹和完整,并且能夠?qū)⒈竟_的范圍完整地傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0026]所屬【技術(shù)領(lǐng)域】的技術(shù)人員知道,本發(fā)明可以實(shí)現(xiàn)為系統(tǒng)、方法或計(jì)算機(jī)程序產(chǎn)品。因此,本公開可以具體實(shí)現(xiàn)為以下形式,即:可以是完全的硬件、也可以是完全的軟件(包括固件、駐留軟件、微代碼等),還可以是硬件和軟件結(jié)合的形式,本文一般稱為“電路”、“模塊”或“系統(tǒng)”。此外,在一些實(shí)施例中,本發(fā)明還可以實(shí)現(xiàn)為在一個或多個計(jì)算機(jī)可讀介質(zhì)中的計(jì)算機(jī)程序產(chǎn)品的形式,該計(jì)算機(jī)可讀介質(zhì)中包含計(jì)算機(jī)可讀的程序代碼。
[0027]可以采用一個或多個計(jì)算機(jī)可讀的介質(zhì)的任意組合。計(jì)算機(jī)可讀介質(zhì)可以是計(jì)算機(jī)可讀信號介質(zhì)或者計(jì)算機(jī)可讀存儲介質(zhì)。計(jì)算機(jī)可讀存儲介質(zhì)例如可以是一但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計(jì)算機(jī)可讀存儲介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個或多個導(dǎo)線的電連接、便攜式計(jì)算機(jī)磁盤、硬盤、隨機(jī)存取存儲器(RAM)、只讀存儲器(ROM)、可擦式可編程只讀存儲器(EPR0M或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(CD-ROM)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本文件中,計(jì)算機(jī)可讀存儲介質(zhì)可以是任何包含或存儲程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。
[0028]計(jì)算機(jī)可讀的信號介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了計(jì)算機(jī)可讀的程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括——但不限于——電磁信號、光信號或上述的任意合適的組合。計(jì)算機(jī)可讀的信號介質(zhì)還可以是計(jì)算機(jī)可讀存儲介質(zhì)以外的任何計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。
[0029]計(jì)算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括一但不限于一無線、電線、光纜、RF等等,或者上述的任意合適的組合。
[0030]可以以一種或多種程序設(shè)計(jì)語言或其組合來編寫用于執(zhí)行本發(fā)明操作的計(jì)算機(jī)程序代碼,所述程序設(shè)計(jì)語言包括面向?qū)ο蟮某绦蛟O(shè)計(jì)語言-諸如Java、Smalltalk、C++,還包括常規(guī)的過程式程序設(shè)計(jì)語言-諸如“C”語言或類似的程序設(shè)計(jì)語言。程序代碼可以完全地在用戶計(jì)算機(jī)上執(zhí)行、部分地在用戶計(jì)算機(jī)上執(zhí)行、作為一個獨(dú)立的軟件包執(zhí)行、部分在用戶計(jì)算機(jī)上部分在遠(yuǎn)程計(jì)算機(jī)上執(zhí)行、或者完全在遠(yuǎn)程計(jì)算機(jī)或服務(wù)器上執(zhí)行。在涉及遠(yuǎn)程計(jì)算機(jī)的情形中,遠(yuǎn)程計(jì)算機(jī)可以通過任意種類的網(wǎng)絡(luò)一包括局域網(wǎng)(LAN)或廣域網(wǎng)(WAN)-連接到用戶計(jì)算機(jī),或者,可以連接到外部計(jì)算機(jī)(例如利用因特網(wǎng)服務(wù)提供商來通過因特網(wǎng)連接)。
[0031]下面將參照本發(fā)明實(shí)施例的方法、裝置(系統(tǒng))和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或框圖描述本發(fā)明。應(yīng)當(dāng)理解,流程圖和/或框圖的每個方框以及流程圖和/或框圖中各方框的組合,都可以由計(jì)算機(jī)程序指令實(shí)現(xiàn)。這些計(jì)算機(jī)程序指令可以提供給通用計(jì)算機(jī)、專用計(jì)算機(jī)或其他可編程數(shù)據(jù)處理裝置的處理器,從而生產(chǎn)出一種機(jī)器,這些計(jì)算機(jī)程序指令通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理裝置執(zhí)行,產(chǎn)生了實(shí)現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的裝置。
[0032]也可以把這些計(jì)算機(jī)程序指令存儲在能使得計(jì)算機(jī)或其他可編程數(shù)據(jù)處理裝置以特定方式工作的計(jì)算機(jī)可讀介質(zhì)中,這樣,存儲在計(jì)算機(jī)可讀介質(zhì)中的指令就產(chǎn)生出一個包括實(shí)現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的指令裝置(instruct1nmeans)的制造品(manufacture)。
[0033]也可以把計(jì)算機(jī)程序指令加載到計(jì)算機(jī)、其他可編程數(shù)據(jù)處理裝置、或其他設(shè)備上,使得在計(jì)算機(jī)、其他可編程數(shù)據(jù)處理裝置或其他設(shè)備上執(zhí)行一系列操作步驟,以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的過程,從而使得在計(jì)算機(jī)或其他可編程裝置上執(zhí)行的指令能夠提供實(shí)現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的過程。
[0034]圖1示出了適于用來實(shí)現(xiàn)本發(fā)明實(shí)施方式的示例性計(jì)算機(jī)系統(tǒng)/服務(wù)器12的框圖。圖1顯示的計(jì)算機(jī)系統(tǒng)/服務(wù)器12僅僅是一個示例,不應(yīng)對本發(fā)明實(shí)施例的功能和使用范圍帶來任何限制。
[0035]如圖1所示,計(jì)算機(jī)系統(tǒng)/服務(wù)器12以通用計(jì)算設(shè)備的形式表現(xiàn)。計(jì)算機(jī)系統(tǒng)/服務(wù)器12的組件可以包括但不限于:一個或者多個處理器或者處理單元16,系統(tǒng)存儲器28,連接不同系統(tǒng)組件(包括系統(tǒng)存儲器28和處理單元16)的總線18。
[0036]總線18表示幾類總線結(jié)構(gòu)中的一種或多種,包括存儲器總線或者存儲器控制器,外圍總線,圖形加速端口,處理器或者使用多種總線結(jié)構(gòu)中的任意總線結(jié)構(gòu)的局域總線。舉例來說,這些體系結(jié)構(gòu)包括但不限于工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(ISA)總線,微通道體系結(jié)構(gòu)(MAC)總線,增強(qiáng)型ISA總線、視頻電子標(biāo)準(zhǔn)協(xié)會(VESA)局域總線以及外圍組件互連(PCI)總線。
[0037]計(jì)算機(jī)系統(tǒng)/服務(wù)器12典型地包括多種計(jì)算機(jī)系統(tǒng)可讀介質(zhì)。這些介質(zhì)可以是任何能夠被計(jì)算機(jī)系統(tǒng)/服務(wù)器12訪問的可用介質(zhì),包括易失性和非易失性介質(zhì),可移動的和不可移動的介質(zhì)。
[0038]系統(tǒng)存儲器28可以包括易失性存儲器形式的計(jì)算機(jī)系統(tǒng)可讀介質(zhì),例如隨機(jī)存取存儲器(RAM) 30和/或高速緩存存儲器32。計(jì)算機(jī)系統(tǒng)/服務(wù)器12可以進(jìn)一步包括其他可移動/不可移動的、易失性/非易失性計(jì)算機(jī)系統(tǒng)存儲介質(zhì)。僅作為舉例,存儲系統(tǒng)34可以用于讀寫不可移動的、非易失性磁介質(zhì)(圖1未顯示,通常稱為“硬盤驅(qū)動器”)。盡管圖1中未示出,可以提供用于對可移動非易失性磁盤(例如“軟盤”)讀寫的磁盤驅(qū)動器,以及對可移動非易失性光盤(例如⑶-ROM,DVD-ROM或者其他光介質(zhì))讀寫的光盤驅(qū)動器。在這些情況下,每個驅(qū)動器可以通過一個或者多個數(shù)據(jù)介質(zhì)接口與總線18相連。存儲器28可以包括至少一個程序產(chǎn)品,該程序產(chǎn)品具有一組(例如至少一個)程序模塊,這些程序模塊被配置以執(zhí)行本發(fā)明各實(shí)施例的功能。
[0039]具有一組(至少一個)程序模塊42的程序/實(shí)用工具40,可以存儲在例如存儲器28中,這樣的程序模塊42包括——但不限于——操作系統(tǒng)、一個或者多個應(yīng)用程序、其他程序模塊以及程序數(shù)據(jù),這些示例中的每一個或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實(shí)現(xiàn)。程序模塊42通常執(zhí)行本發(fā)明所描述的實(shí)施例中的功能和/或方法。
[0040]計(jì)算機(jī)系統(tǒng)/服務(wù)器12也可以與一個或多個外部設(shè)備14(例如鍵盤、指向設(shè)備、顯示器24等)通信,還可與一個或者多個使得用戶能與該計(jì)算機(jī)系統(tǒng)/服務(wù)器12交互的設(shè)備通信,和/或與使得該計(jì)算機(jī)系統(tǒng)/服務(wù)器12能與一個或多個其他計(jì)算設(shè)備進(jìn)行通信的任何設(shè)備(例如網(wǎng)卡,調(diào)制解調(diào)器等等)通信。這種通信可以通過輸入/輸出(I/O)接口 22進(jìn)行。并且,計(jì)算機(jī)系統(tǒng)/服務(wù)器12還可以通過網(wǎng)絡(luò)適配器20與一個或者多個網(wǎng)絡(luò)(例如局域網(wǎng)(LAN),廣域網(wǎng)(WAN)和/或公共網(wǎng)絡(luò),例如因特網(wǎng))通信。如圖所示,網(wǎng)絡(luò)適配器20通過總線18與計(jì)算機(jī)系統(tǒng)/服務(wù)器12的其他模塊通信。應(yīng)當(dāng)明白,盡管圖中未示出,可以結(jié)合計(jì)算機(jī)系統(tǒng)/服務(wù)器12使用其他硬件和/或軟件模塊,包括但不限于:微代碼、設(shè)備驅(qū)動器、冗余處理單元、外部磁盤驅(qū)動陣列、RAID系統(tǒng)、磁帶驅(qū)動器以及數(shù)據(jù)備份存儲系統(tǒng)等。
[0041]在本發(fā)明的上下文中,將以上文所述的表示購買事件的數(shù)據(jù)為具體示例進(jìn)行描述。該數(shù)據(jù)例如可以包括多個維度,例如,姓名、年齡、血型、商品名稱、型號、價格、購買時間、地點(diǎn),等等。本領(lǐng)域技術(shù)人員還可以基于下文中所描述的方法來對包括其他維度的原始數(shù)據(jù)進(jìn)行數(shù)據(jù)。
[0042]圖2示意性示出了根據(jù)一個技術(shù)方案的用于呈現(xiàn)數(shù)據(jù)的系統(tǒng)的架構(gòu)圖200。在此技術(shù)方案中,從數(shù)據(jù)源210中采集到的數(shù)據(jù)是高維數(shù)據(jù)(如箭頭A所示)。繼而,在方框220處,可以通過分析高維數(shù)據(jù)中的各個數(shù)據(jù)維度之間的關(guān)系,尋找適當(dāng)?shù)挠成浞绞絹韺⒏呔S數(shù)據(jù)降低維度,并輸出低維數(shù)據(jù)(如箭頭B所示,例如三維數(shù)據(jù))。接著,在方框230處,可以基于低維數(shù)據(jù)來建立數(shù)據(jù)立方體,并形成數(shù)據(jù)的可視化表示(如箭頭C所示)。
[0043]應(yīng)當(dāng)注意,在此技術(shù)方案中在方框220處所示“降低維度”是指將原始的高維數(shù)據(jù)降低到少數(shù)的幾個維度,同時保持原有數(shù)據(jù)的信息。另外,在方框230處所示的步驟是基于降維后的數(shù)據(jù)來形成的,這兩個步驟在很大程度上依賴于技術(shù)人員的專業(yè)經(jīng)驗(yàn),并且需要大量的人工分析和處理,才能夠生成可視化表示。換言之,在圖2所示的技術(shù)方案中,方框240中的步驟主要依賴于人工處理。由于不同技術(shù)人員的經(jīng)驗(yàn)不同,所輸出的結(jié)果也會有所不同。
[0044]另外,采用如圖2所示的技術(shù)方案的另一問題在于,當(dāng)數(shù)據(jù)源210中的數(shù)據(jù)樣本本身的是不成熟數(shù)據(jù)時,即使技術(shù)人員具有豐富的專業(yè)經(jīng)驗(yàn),在如方框240所示的步驟也很可能并不適合。
[0045]本發(fā)明的各個實(shí)施方式的一個應(yīng)用環(huán)境在于,假設(shè)電子產(chǎn)品市場在A國剛剛起步,并且相關(guān)的客戶、商品、以及購買行為的數(shù)據(jù)并不充分(即,盡管每個數(shù)據(jù)樣本的維度都較高,但是數(shù)據(jù)樣本的數(shù)量很少)。則從A國采集的數(shù)據(jù)無法代表該國真正的數(shù)據(jù)空間分布,因而無法進(jìn)行后續(xù)的降低維度和構(gòu)建數(shù)據(jù)立方體的處理。假設(shè)B國是發(fā)達(dá)國家,一方面,電子產(chǎn)品行業(yè)發(fā)展成熟,數(shù)據(jù)整理和記錄完善;另一方面,某些數(shù)據(jù)倉庫擁有者還可能已經(jīng)針對電子產(chǎn)品行業(yè)的數(shù)據(jù)建立了數(shù)據(jù)立方體。此時,期望可以利用目前已有的數(shù)據(jù)集(來自B國的數(shù)據(jù))來輔助建立當(dāng)前數(shù)據(jù)集(來自A國的數(shù)據(jù))的數(shù)據(jù)立方體,從而避免A國數(shù)據(jù)不充分的時期難以構(gòu)建數(shù)據(jù)立方體的難題。
[0046]基于上述思想,本發(fā)明提供了一種用于呈現(xiàn)數(shù)據(jù)的方法。該方法包括:從數(shù)據(jù)源的第一數(shù)據(jù)集合獲取第一原始數(shù)據(jù)、以及轉(zhuǎn)換自第一原始數(shù)據(jù)的第一三維數(shù)據(jù);提取將第一原始數(shù)據(jù)轉(zhuǎn)換為第一三維數(shù)據(jù)的轉(zhuǎn)換規(guī)則;響應(yīng)于從數(shù)據(jù)源的第二數(shù)據(jù)集合獲取第二原始數(shù)據(jù),基于轉(zhuǎn)換規(guī)則將第二原始數(shù)據(jù)轉(zhuǎn)換為第二三維數(shù)據(jù);以及呈現(xiàn)第二三維數(shù)據(jù)的可視化表示;其中第一原始數(shù)據(jù)和第二原始數(shù)據(jù)的維度大于三維。
[0047]圖3示意性示出了根據(jù)一個實(shí)施方式的用于呈現(xiàn)數(shù)據(jù)的方法的流程圖300。具體地,在步驟S302處,從數(shù)據(jù)源的第一數(shù)據(jù)集合獲取第一原始數(shù)據(jù)、以及轉(zhuǎn)換自第一原始數(shù)據(jù)的第一三維數(shù)據(jù)。在本發(fā)明的上下文中,數(shù)據(jù)源是指提供待處理數(shù)據(jù)的來源,例如,可以將來自全球電子產(chǎn)品市場的數(shù)據(jù)稱為數(shù)據(jù)源。應(yīng)當(dāng)注意,數(shù)據(jù)源可以包括多個數(shù)據(jù)集合,例如,可以將來自B國的數(shù)據(jù)稱為第一數(shù)據(jù)集合,并將來自A國的數(shù)據(jù)成為第二數(shù)據(jù)集合?;蛘?,除了按照空間位置關(guān)系來劃分第一數(shù)據(jù)集合和第二數(shù)據(jù)集合以外,還可以按照其他標(biāo)準(zhǔn)來進(jìn)行劃分。
[0048]在此實(shí)施方式中,來自第一數(shù)據(jù)集合中的第一原始數(shù)據(jù)是成熟數(shù)據(jù),并且已經(jīng)針對這些成熟數(shù)據(jù)進(jìn)行了降維處理,因而還可以獲得轉(zhuǎn)換自第一原始數(shù)據(jù)的第一三維數(shù)據(jù)。應(yīng)當(dāng)注意,目前已經(jīng)出現(xiàn)了許多數(shù)據(jù)倉庫的提供者,這些提供者針對各行各業(yè)的原始數(shù)據(jù)進(jìn)行采集和分析,并且以免費(fèi)或者付費(fèi)的方式來向外界提供處理后的數(shù)據(jù)立方體。在本發(fā)明的實(shí)施方式中,并不限定如何獲取第一原始數(shù)據(jù)和第一三維數(shù)據(jù)的具體方式。
[0049]在此實(shí)施方式中,第一原始數(shù)據(jù)例如可以包括η個維度,并且每個數(shù)據(jù)樣本可以表示為X1 = [X1, x2,...,xn],第一三維數(shù)據(jù)例如可以表示為X1 = [a,b,c]。在上文所述的電子產(chǎn)品行業(yè)的實(shí)施方式中,第一三維數(shù)據(jù)例如可以表示[客戶購買力,客戶身體狀況,商品性價比]三方面的內(nèi)容。
[0050]在步驟S304處,提取將第一原始數(shù)據(jù)轉(zhuǎn)換為第一三維數(shù)據(jù)的轉(zhuǎn)換規(guī)則。本領(lǐng)域技術(shù)人員可以采用多種方式來從第一原始數(shù)據(jù)Xi = [X1, X2,, Xn]和第一三維數(shù)據(jù)Xi =[a,b,c]中提取轉(zhuǎn)換規(guī)則。例如,可以構(gòu)造一個映射函數(shù),并使得該映射函數(shù)可以將第一原始數(shù)據(jù)中的高維數(shù)據(jù)(例如,η維)轉(zhuǎn)換為第一三維數(shù)據(jù)中的低維數(shù)據(jù)(例如,三維)。應(yīng)當(dāng)注意,在此實(shí)施方式中,第一原始數(shù)據(jù)可以是來自成熟市場的成熟數(shù)據(jù),第一三維數(shù)據(jù)可以是經(jīng)驗(yàn)豐富的專業(yè)人員構(gòu)建的,因而認(rèn)為從上述數(shù)據(jù)提取的轉(zhuǎn)換規(guī)則可以作為指導(dǎo)針對從數(shù)據(jù)源的其他數(shù)據(jù)集合采集的原始數(shù)據(jù)的轉(zhuǎn)換標(biāo)準(zhǔn)。
[0051]在步驟S306處,響應(yīng)于從數(shù)據(jù)源的第二數(shù)據(jù)集合獲取第二原始數(shù)據(jù),基于轉(zhuǎn)換規(guī)則將第二原始數(shù)據(jù)轉(zhuǎn)換為第二三維數(shù)據(jù)。在已經(jīng)獲得了將高維數(shù)據(jù)轉(zhuǎn)換為三維數(shù)據(jù)的轉(zhuǎn)換規(guī)則的情況下,即可基于該轉(zhuǎn)換規(guī)則來處理來自第二數(shù)據(jù)集合的第二原始數(shù)據(jù)。
[0052]應(yīng)當(dāng)注意,從數(shù)據(jù)源的第二數(shù)據(jù)集合獲取的第二原始數(shù)據(jù)的維度可以不同于從數(shù)據(jù)源的第一數(shù)據(jù)集合獲取的第一原始數(shù)據(jù)的維度,例如,第二原始數(shù)據(jù)可以具有m個維度并且可以表示為Yi = Ly1, y2,...,ym],此時轉(zhuǎn)換所得的第二三維數(shù)據(jù)可以表示為Pred(Yi)=[apred, bpred, Cpred] 0在此“pred”可以表示預(yù)測的含義。
[0053]以此方式可以獲得第二三維數(shù)據(jù)(即,降維后的數(shù)據(jù)),第二三維數(shù)據(jù)被映射至新的特征空間。通過步驟S306的處理,可以實(shí)現(xiàn)特征空間的學(xué)習(xí),S卩,基于數(shù)據(jù)源的第二數(shù)據(jù)集合中的第二原始數(shù)據(jù)構(gòu)建的數(shù)據(jù)立方體可以模仿基于數(shù)據(jù)源的第一數(shù)據(jù)集合中的第一原始數(shù)據(jù)構(gòu)建的數(shù)據(jù)立方體。換言之,在基于不成熟數(shù)據(jù)構(gòu)建數(shù)據(jù)立方體時,學(xué)習(xí)了基于成熟數(shù)據(jù)構(gòu)建數(shù)據(jù)立方體的可靠經(jīng)驗(yàn)。此時,第二三維數(shù)據(jù)也可以表示[客戶購買力,客戶身體狀況,商品性價比]三方面的內(nèi)容。
[0054]在步驟S308處,呈現(xiàn)第二三維數(shù)據(jù)的可視化表示,其中第一原始數(shù)據(jù)和第二原始數(shù)據(jù)的維度大于三維?;谏衔牡牟襟ES302-S308,可以獲得三維立方體數(shù)據(jù)Pred(Yi)=[aPred,bPred,cPred],繼而可以以可視化的方式呈現(xiàn)該第二三維數(shù)據(jù)。例如,可以按照第二三維數(shù)據(jù)中的每個數(shù)據(jù)在三個維度的坐標(biāo)中的數(shù)值大小關(guān)系,來呈現(xiàn)所獲得的第二三維數(shù)據(jù)。
[0055]在本發(fā)明的一個實(shí)施方式中,提取將第一原始數(shù)據(jù)轉(zhuǎn)換為第一三維數(shù)據(jù)的轉(zhuǎn)換規(guī)則包括:基于第一原始數(shù)據(jù)和第一三維數(shù)據(jù)構(gòu)造神經(jīng)網(wǎng)絡(luò)模型;針對神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練;以及基于訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)模型生成轉(zhuǎn)換規(guī)則。
[0056]在此實(shí)施方式中,可以基于神經(jīng)網(wǎng)絡(luò)來提取轉(zhuǎn)換規(guī)則。圖4示意性示出了神經(jīng)網(wǎng)絡(luò)模型的示意圖400。神經(jīng)網(wǎng)絡(luò)是一種描述人類神經(jīng)網(wǎng)絡(luò)行為特征、進(jìn)行分布式并行信息處理算法的數(shù)學(xué)模型。神經(jīng)網(wǎng)絡(luò)通過調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系,從而達(dá)到處理信息的目的。神經(jīng)網(wǎng)絡(luò)可以反映人腦功能的若干基本特性,并且對傳統(tǒng)的計(jì)算機(jī)結(jié)構(gòu)和人工智能提供有力的支持。
[0057]在神經(jīng)網(wǎng)絡(luò)中,可以包括輸入層節(jié)點(diǎn)410、中間層節(jié)點(diǎn)420以及輸出層節(jié)點(diǎn)430。在本發(fā)明的應(yīng)用環(huán)境下,輸入層節(jié)點(diǎn)410可以對應(yīng)于高維數(shù)據(jù),輸出層節(jié)點(diǎn)430可以對應(yīng)于三維數(shù)據(jù),而中間層節(jié)點(diǎn)420可以對應(yīng)于轉(zhuǎn)換規(guī)則。
[0058]例如,轉(zhuǎn)換規(guī)則可以是映射函數(shù)的形式:
[0059]/(X) = -J-^
[0060]上文公式中Q可以是調(diào)整激勵函數(shù)形式的Sigmoid參數(shù),并且轉(zhuǎn)換原理如下:將樣本的輸入/輸出問題轉(zhuǎn)換為非線性優(yōu)化問題,例如可以使用梯度下降法來實(shí)現(xiàn)。
[0061]在此實(shí)施方式中,提取轉(zhuǎn)換規(guī)則的過程可以對應(yīng)于如何訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,以使經(jīng)該神經(jīng)網(wǎng)絡(luò)模型處理后的第一原始數(shù)據(jù)能夠逼近于第一三維數(shù)據(jù)的過程;繼而可以基于訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)模型生成轉(zhuǎn)換規(guī)則。具體地,基于第一原始數(shù)據(jù)和第一三維數(shù)據(jù)構(gòu)造的神經(jīng)網(wǎng)絡(luò)模型可以是一個初始模型,經(jīng)由該模型輸出的三維數(shù)據(jù)可能會與第一三維數(shù)據(jù)存在一定差異,因而需要后續(xù)的“訓(xùn)練”步驟來逐漸降低甚至消除該差異。
[0062]在本發(fā)明的一個實(shí)施方式中,經(jīng)由訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)模型輸出的三維數(shù)據(jù)與第一三維數(shù)據(jù)之間的差異最小化。在此實(shí)施方式中,可以在多個輪次中進(jìn)行訓(xùn)練,可以通過修改各層神經(jīng)元的權(quán)值,使網(wǎng)絡(luò)的輸出與預(yù)期值相符,即通過修改權(quán)值,來使得經(jīng)由該映射函數(shù)生成的輸出更好地適合于第一三維數(shù)據(jù)。例如,可以在經(jīng)由訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)模型輸出的三維數(shù)據(jù)與第一三維數(shù)據(jù)之間的差異達(dá)到一定閾值時,結(jié)束訓(xùn)練過程。
[0063]在本發(fā)明的一個實(shí)施方式中,呈現(xiàn)第二三維數(shù)據(jù)的可視化表示包括:根據(jù)第二三維數(shù)據(jù)的三個維度,將第二三維數(shù)據(jù)劃分為多個空間;以及在第二三維數(shù)據(jù)的三個維度中呈現(xiàn)多個空間。
[0064]具體地,例如在上文中已經(jīng)將數(shù)據(jù)源的第二原始數(shù)據(jù)轉(zhuǎn)換為第二三維數(shù)據(jù),此時,第二三維數(shù)據(jù)也涉及[客戶購買力,客戶身體狀況,商品性價比]三方面的內(nèi)容??梢栽谶@三個維度上將第二三維數(shù)據(jù)進(jìn)行進(jìn)一步的細(xì)化,即,提供更精細(xì)粒度的劃分。例如,在客戶購買力這一維度中,可以按照“高”、“中”、“低”將數(shù)據(jù)劃分為三個空間;在客戶身體狀況和商品性價比這兩個維度中,也可以將數(shù)據(jù)按照“高”、“中”、“低”劃分為三個空間。此時,在三個維度中,都存在相對應(yīng)的三個細(xì)化的空間。因而在數(shù)據(jù)立方體的第一層級中,可以存在3X3X3 = 27個細(xì)化的空間。
[0065]在本發(fā)明的一個實(shí)施方式中,在第二三維數(shù)據(jù)的三個維度中呈現(xiàn)多個空間包括:將多個空間之一內(nèi)的一部分第二三維數(shù)據(jù)聚類為多個類別;以及在該空間內(nèi)呈現(xiàn)多個類別。
[0066]在此實(shí)施方式中,在立方體數(shù)據(jù)的第二層級,還可以將每個空間內(nèi)的數(shù)據(jù)進(jìn)行進(jìn)一步的劃分。例如,針對客戶購買力這一維度,在被分類為“高”的空間內(nèi),還可以進(jìn)行進(jìn)一步的細(xì)分,例如聚類為“高”、“中”、“低”三個類別,或者,還可以聚類為其他數(shù)量的類別。又例如,在被分類為“低”的空間內(nèi),還可以進(jìn)一步聚類為“高”、“中”、“低”三個類別。
[0067]圖5示意性示出了根據(jù)一個實(shí)施方式的所呈現(xiàn)的數(shù)據(jù)立方體的圖示500。在圖5中,三維坐標(biāo)系XYZ例如可以表示上文所述的三個維度[客戶購買力,客戶身體狀況,商品性價比]。在此示例中,每個維度中的數(shù)據(jù)都被劃分為“高”、“中”、“低”的三個空間(分別如附圖標(biāo)記520 、530和540所示),在此所示的每個小立方體即為第一層級處的空間。在圖5中,以空間560為示例示出了如何在第二層級中進(jìn)一步細(xì)分。例如在此示例中,空間560又被聚類為“高”、“中”、“低”三個類別。
[0068]在本發(fā)明的一個實(shí)施方式中,可以使用“K均值算法”來進(jìn)行聚類。具體地,將多個空間之一內(nèi)的一部分第二三維數(shù)據(jù)聚類為多個類別包括:選擇一部分第二三維數(shù)據(jù)中的多個對象作為多個中心對象;在至少一個輪次中執(zhí)行如下步驟直至多個點(diǎn)群不再變化,計(jì)算一部分第二三維數(shù)據(jù)中的每個對象與中心對象的距離;按照距離將每個對象劃分為多個點(diǎn)群;將多個中心對象分別移至點(diǎn)群的中心;基于多個點(diǎn)群來形成多個類別。
[0069]現(xiàn)在將參見圖6描述聚類步驟的詳細(xì)細(xì)節(jié)。圖6A-圖6C分別示意性示出了根據(jù)一個實(shí)施方式的對三維數(shù)據(jù)進(jìn)行聚類的圖示600A-600C。在圖6A-圖6C中僅以示例方式示出了數(shù)據(jù)對象A-E。本領(lǐng)域技術(shù)人員可以基于所示出的原理來實(shí)現(xiàn)將更多數(shù)量的數(shù)據(jù)進(jìn)行聚類。具體步驟如下:
[0070]步驟1,選擇一部分第二三維數(shù)據(jù)中的多個對象(例如,對象610A和620A)作為多個中心對象。
[0071]步驟2,計(jì)算一部分第二三維數(shù)據(jù)中的每個對象(對象A-E)與中心對象(對象610A和620A)的距離。應(yīng)當(dāng)注意,盡管在圖6A-6C中在二維平面中示出了第二三維數(shù)據(jù)中的對象A-E,本領(lǐng)域技術(shù)人員可以理解,在求解每個對象與中心對象之間的距離時,可以基于三維坐標(biāo)計(jì)算。例如,假設(shè)對象A的坐標(biāo)為(XpypZ1),對象610的坐標(biāo)為(x2,y2,z2),則兩者之間的距尚為:^(x2 ,-X1)2 + {y23—)2 + (z2,-Zi )2 ο
[0072]步驟3,按照距離大小將每個對象劃分為多個點(diǎn)群,如圖6B所示,假設(shè)對象A與中心對象610的距離小于與中心對象620的距離,則可以將對象A劃分至對應(yīng)于對象610的點(diǎn)群I。類似地,還可以將其他對象B-E劃分至點(diǎn)群I或者點(diǎn)群2。最終,點(diǎn)群I可以包括對象A和C,而點(diǎn)群2可以包括對象B、D和E。
[0073]步驟4,如圖6C所示,將多個中心對象(對象610A和620A)分別移至點(diǎn)群(點(diǎn)群I和點(diǎn)群2)的中心位置。在此步驟中,可以對點(diǎn)群中所包括的對象的坐標(biāo)求取平均以計(jì)算中心位置的坐標(biāo)。
[0074]步驟5,重復(fù)上文所述的步驟2-4,直到生成的點(diǎn)群不再改變。
[0075]步驟6,基于多個點(diǎn)群來形成多個類別。
[0076]采用上文所述的步驟1-6,即可實(shí)現(xiàn)聚類操作。在本發(fā)明的一個實(shí)施方式中,將多個空間之一內(nèi)的一部分第二三維數(shù)據(jù)聚類為多個類別包括:迭代地對多個類別中的一類別進(jìn)行聚類,以形成多個子類別。在此“迭代”的含義在于,還可以將特定類別劃分為更細(xì)的粒度,例如,將如圖5中所示的空間560中的“高”、“中”、“低”的三個類別中的任一項(xiàng)進(jìn)行進(jìn)一步的劃分。
[0077]在本發(fā)明的一個實(shí)施方式中,所述多個類別的數(shù)量是基于所述第一原始數(shù)據(jù)和所述第一三維數(shù)據(jù)來確定的。在來自數(shù)據(jù)源的第二數(shù)據(jù)集合的第二原始數(shù)據(jù)并不能充分反映真實(shí)數(shù)據(jù)分布的情況下,還可以參考從第一原始數(shù)據(jù)構(gòu)建數(shù)據(jù)立方體時的標(biāo)準(zhǔn),來確定將一個空間內(nèi)的一部分第二三維數(shù)據(jù)聚類為多少個類別。換言之,可以參考已有的立方體數(shù)據(jù)來指導(dǎo)K均值算法,進(jìn)而實(shí)現(xiàn)聚類。
[0078]具體地,類似于上文所述的提取將所述第一原始數(shù)據(jù)轉(zhuǎn)換為所述第一三維數(shù)據(jù)的轉(zhuǎn)換規(guī)則的方法,在此實(shí)施方式中,還可以例如采用神經(jīng)網(wǎng)絡(luò)來生成將第一三維數(shù)據(jù)進(jìn)行聚類時所遵循的標(biāo)準(zhǔn)。例如,假設(shè)在現(xiàn)有的B國的數(shù)據(jù)立方體中,在“客戶購買力”這一維度上,已經(jīng)將被分類為“高”的空間進(jìn)一步細(xì)分為“高”、“中”、“低”三個類別,則在處理來自A國的原始數(shù)據(jù)時,可以將所述多個空間之一內(nèi)的一部分第二三維數(shù)據(jù)聚類為三個類別(即,“高”、“中”、“低”)。
[0079]在本發(fā)明的一個實(shí)施方式中,在空間內(nèi)呈現(xiàn)多個類別包括:響應(yīng)于空間被選擇,呈現(xiàn)空間范圍內(nèi)的多個類別。例如對于圖5中所示的可視化呈現(xiàn),可以僅在空間560被選擇時才呈現(xiàn)該空間內(nèi)的進(jìn)一步類別,以避免干擾用戶查看數(shù)據(jù)立方體時受到干擾。
[0080]在本發(fā)明的一個實(shí)施方式中,第一原始數(shù)據(jù)和第二原始數(shù)據(jù)的分布趨勢相一致。在此實(shí)施方式中,第一原始數(shù)據(jù)可以是來自成熟市場的均勻分布的成熟數(shù)據(jù),第二原始數(shù)據(jù)可原始來自不成熟市場的數(shù)據(jù)。盡管在初始時第二原始數(shù)據(jù)的樣本數(shù)量可能較少并且樣本分布也有可能不能反映真實(shí)分布規(guī)律,然而隨著時間的推移和樣本數(shù)量的增加,第二原始數(shù)據(jù)將逐步反映出真實(shí)的分布規(guī)律,即,趨向于與第一原始數(shù)據(jù)的分布規(guī)律相一致。由于第一三維數(shù)據(jù)可以是經(jīng)驗(yàn)豐富的專業(yè)人員構(gòu)建的,因而所提取的轉(zhuǎn)換規(guī)則可以指導(dǎo)將從數(shù)據(jù)源的其他數(shù)據(jù)集合采集的原始數(shù)據(jù)降低至三維數(shù)據(jù)。
[0081]圖7示意性示出了根據(jù)一個實(shí)施方式的用于呈現(xiàn)數(shù)據(jù)的裝置的框圖700。具體地,提供了一種用于呈現(xiàn)數(shù)據(jù)的裝置,包括:獲取模塊710,配置用于從數(shù)據(jù)源的第一數(shù)據(jù)集合獲取第一原始數(shù)據(jù)、以及轉(zhuǎn)換自第一原始數(shù)據(jù)的第一三維數(shù)據(jù);提取模塊720,配置用于提取將第一原始數(shù)據(jù)轉(zhuǎn)換為第一三維數(shù)據(jù)的轉(zhuǎn)換規(guī)則;轉(zhuǎn)換模塊730,配置用于響應(yīng)于從數(shù)據(jù)源的第二數(shù)據(jù)集合獲取第二原始數(shù)據(jù),基于轉(zhuǎn)換規(guī)則將第二原始數(shù)據(jù)轉(zhuǎn)換為第二三維數(shù)據(jù);及呈現(xiàn)模塊740,配置用于呈現(xiàn)第二三維數(shù)據(jù)的可視化表示;其中第一原始數(shù)據(jù)和第二原始數(shù)據(jù)的維度大于三維。
[0082]在本發(fā)明的一個實(shí)施方式中,提取模塊720包括:構(gòu)造模塊,配置用于基于第一原始數(shù)據(jù)和第一三維數(shù)據(jù)構(gòu)造神經(jīng)網(wǎng)絡(luò)模型;訓(xùn)練模塊,配置用于針對神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練;以及生成模塊,配置用于基于訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)模型生成轉(zhuǎn)換規(guī)則。
[0083]在本發(fā)明的一個實(shí)施方式中,經(jīng)由訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)模型輸出的三維數(shù)據(jù)與第一三維數(shù)據(jù)之間的差異最小化。
[0084]在本發(fā)明的一個實(shí)施方式中,呈現(xiàn)模塊740包括:劃分模塊,配置用于根據(jù)第二三維數(shù)據(jù)的三個維度,將第二三維數(shù)據(jù)劃分為多個空間;以及空間呈現(xiàn)模塊,配置用于在第二三維數(shù)據(jù)的三個維度中呈現(xiàn)多個空間。
[0085]在本發(fā)明的一個實(shí)施方式中,空間呈現(xiàn)模塊740包括:聚類模塊,配置用于將多個空間之一內(nèi)的一部分第二三維數(shù)據(jù)聚類為多個類別;以及聚類呈現(xiàn)模塊,配置用于在空間內(nèi)呈現(xiàn)多個類別。
[0086]在本發(fā)明的一個實(shí)施方式中,聚類模塊包括:指定模塊,配置用于選擇一部分第二三維數(shù)據(jù)中的多個對象作為多個中心對象;執(zhí)行模塊,配置用于在至少一個輪次中執(zhí)行如下步驟直至多個點(diǎn)群不再變化,計(jì)算一部分第二三維數(shù)據(jù)中的每個對象與中心對象的距離;按照距離將每個對象劃分為多個點(diǎn)群;將多個中心對象分別移至點(diǎn)群的中心;形成模塊,配置用于基于多個點(diǎn)群來形成多個類別。
[0087]在本發(fā)明的一個實(shí)施方式中,聚類模塊包括:迭代模塊,配置用于迭代地對多個類別中的一類別進(jìn)行聚類,以形成多個子類別。
[0088]在本發(fā)明的一個實(shí)施方式中,所述多個類別的數(shù)量是基于所述第一原始數(shù)據(jù)和所述第一三維數(shù)據(jù)來確定的。
[0089]在本發(fā)明的一個實(shí)施方式中,呈現(xiàn)模塊740包括:展開模塊,配置用于響應(yīng)于空間被選擇,呈現(xiàn)空間范圍內(nèi)的多個類別。
[0090]在本發(fā)明的一個實(shí)施方式中,第一原始數(shù)據(jù)是均勻分布的。
[0091]采用本發(fā)明的各個實(shí)施方式,可以在無不需要人工干預(yù)和操作的情況下,自動、有效地實(shí)現(xiàn)數(shù)據(jù)的降維(構(gòu)建數(shù)據(jù)立方體)和聚類(在多個層級中細(xì)分?jǐn)?shù)據(jù));并且能夠根據(jù)數(shù)據(jù)源的具體情況,從不成熟的高維的原始數(shù)據(jù)來生成數(shù)據(jù)立方體,并進(jìn)行后續(xù)聚類。
[0092]附圖中的流程圖和框圖顯示了根據(jù)本發(fā)明的多個實(shí)施方式的系統(tǒng)、方法和計(jì)算機(jī)程序產(chǎn)品的可能實(shí)現(xiàn)的體系架構(gòu)、功能和操作。在這點(diǎn)上,流程圖或框圖中的每個方框可以代表一個模塊、程序段或代碼的一部分,所述模塊、程序段或代碼的一部分包含一個或多個用于實(shí)現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實(shí)現(xiàn)中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個連續(xù)的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實(shí)現(xiàn),或者可以用專用硬件與計(jì)算機(jī)指令的組合來實(shí)現(xiàn)。
[0093]以上已經(jīng)描述了本發(fā)明的各實(shí)施方式,上述說明是示例性的,并非窮盡性的,并且也不限于所披露的各實(shí)施方式。在不偏離所說明的各實(shí)施方式的范圍和精神的情況下,對于本【技術(shù)領(lǐng)域】的普通技術(shù)人員來說許多修改和變更都是顯而易見的。本文中所用術(shù)語的選擇,旨在最好地解釋各實(shí)施方式的原理、實(shí)際應(yīng)用或?qū)κ袌鲋械募夹g(shù)的技術(shù)改進(jìn),或者使本【技術(shù)領(lǐng)域】的其他普通技術(shù)人員能理解本文披露的各實(shí)施方式。
【權(quán)利要求】
1.一種用于呈現(xiàn)數(shù)據(jù)的方法,包括: 從數(shù)據(jù)源的第一數(shù)據(jù)集合獲取第一原始數(shù)據(jù)、以及轉(zhuǎn)換自所述第一原始數(shù)據(jù)的第一三維數(shù)據(jù); 提取將所述第一原始數(shù)據(jù)轉(zhuǎn)換為所述第一三維數(shù)據(jù)的轉(zhuǎn)換規(guī)則; 響應(yīng)于從所述數(shù)據(jù)源的第二數(shù)據(jù)集合獲取第二原始數(shù)據(jù),基于所述轉(zhuǎn)換規(guī)則將所述第二原始數(shù)據(jù)轉(zhuǎn)換為第二三維數(shù)據(jù);以及呈現(xiàn)所述第二三維數(shù)據(jù)的可視化表示, 其中所述第一原始數(shù)據(jù)和所述第二原始數(shù)據(jù)的維度大于三維。
2.根據(jù)權(quán)利要求1所述的方法,其中提取將所述第一原始數(shù)據(jù)轉(zhuǎn)換為所述第一三維數(shù)據(jù)的轉(zhuǎn)換規(guī)則包括: 基于所述第一原始數(shù)據(jù)和所述第一三維數(shù)據(jù)構(gòu)造神經(jīng)網(wǎng)絡(luò)模型; 針對所述神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練;以及 基于所述訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)模型生成所述轉(zhuǎn)換規(guī)則。
3.根據(jù)權(quán)利要求2所述的方法,其中經(jīng)由所述訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)模型輸出的三維數(shù)據(jù)與所述第一三維數(shù)據(jù)之間的差異最小化。
4.根據(jù)權(quán)利要求 1-3中任一項(xiàng)所述的方法,其中呈現(xiàn)所述第二三維數(shù)據(jù)的可視化表示包括: 根據(jù)所述第二三維數(shù)據(jù)的三個維度,將所述第二三維數(shù)據(jù)劃分為多個空間;以及 在所述第二三維數(shù)據(jù)的三個維度中呈現(xiàn)所述多個空間。
5.根據(jù)權(quán)利要求4所述的方法,其中在所述第二三維數(shù)據(jù)的三個維度中呈現(xiàn)所述多個空間包括: 將所述多個空間之一內(nèi)的一部分第二三維數(shù)據(jù)聚類為多個類別;以及 在所述空間內(nèi)呈現(xiàn)所述多個類別。
6.根據(jù)權(quán)利要求5所述的方法,其中將所述多個空間之一內(nèi)的一部分第二三維數(shù)據(jù)聚類為多個類別包括: 選擇所述一部分第二三維數(shù)據(jù)中的多個對象作為多個中心對象; 在至少一個輪次中執(zhí)行如下步驟直至多個點(diǎn)群不再變化, 計(jì)算所述一部分第二三維數(shù)據(jù)中的每個對象與所述中心對象的距離; 按照所述距離的大小將每個對象劃分為所述多個點(diǎn)群; 將所述多個中心對象分別移至所述點(diǎn)群的中心位置; 基于所述多個點(diǎn)群來形成所述多個類別。
7.根據(jù)權(quán)利要求5所述的方法,其中所述多個類別的數(shù)量是基于所述第一原始數(shù)據(jù)和所述第一三維數(shù)據(jù)來確定的。
8.根據(jù)權(quán)利要求5所述的方法,其中將所述多個空間之一內(nèi)的一部分第二三維數(shù)據(jù)聚類為多個類別包括: 迭代地對所述多個類別中的一類別進(jìn)行聚類,以形成多個子類別。
9.根據(jù)權(quán)利要求5所述的方法,其中在所述空間內(nèi)呈現(xiàn)所述多個類別包括: 響應(yīng)于所述空間被選擇,呈現(xiàn)所述空間范圍內(nèi)的多個類別。
10.根據(jù)權(quán)利要求1所述的方法,其中所述第一原始數(shù)據(jù)和所述第二原始數(shù)據(jù)的分布趨勢相一致。
11.一種用于呈現(xiàn)數(shù)據(jù)的裝置,包括: 獲取模塊,配置用于從數(shù)據(jù)源的第一數(shù)據(jù)集合獲取第一原始數(shù)據(jù)、以及轉(zhuǎn)換自所述第一原始數(shù)據(jù)的第一三維數(shù)據(jù); 提取模塊,配置用于提取將所述第一原始數(shù)據(jù)轉(zhuǎn)換為所述第一三維數(shù)據(jù)的轉(zhuǎn)換規(guī)則;轉(zhuǎn)換模塊,配置用于響應(yīng)于從所述數(shù)據(jù)源的第二數(shù)據(jù)集合獲取第二原始數(shù)據(jù),基于所述轉(zhuǎn)換規(guī)則將所述第二原始數(shù)據(jù)轉(zhuǎn)換為第二三維數(shù)據(jù);以及呈現(xiàn)模塊,配置用于呈現(xiàn)所述第 二三維數(shù)據(jù)的可視化表示, 其中所述第一原始數(shù)據(jù)和所述第二原始數(shù)據(jù)的維度大于三維。
12.根據(jù)權(quán)利要求11所述的裝置,其中所述提取模塊包括: 構(gòu)造模塊,配置用于基于所述第一原始數(shù)據(jù)和所述第一三維數(shù)據(jù)構(gòu)造神經(jīng)網(wǎng)絡(luò)模型; 訓(xùn)練模塊,配置用于針對所述神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練;以及 生成模塊,配置用于基于所述訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)模型生成所述轉(zhuǎn)換規(guī)則。
13.根據(jù)權(quán)利要求12所述的裝置,其中經(jīng)由所述訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)模型輸出的三維數(shù)據(jù)與所述第一三維數(shù)據(jù)之間的差異最小化。
14.根據(jù)權(quán)利要求11-13中任一項(xiàng)所述的裝置,其中所述呈現(xiàn)模塊包括: 劃分模塊,配置用于根據(jù)所述第二三維數(shù)據(jù)的三個維度,將所述第二三維數(shù)據(jù)劃分為多個空間;以及 空間呈現(xiàn)模塊,配置用于在所述第二三維數(shù)據(jù)的三個維度中呈現(xiàn)所述多個空間。
15.根據(jù)權(quán)利要求14所述的裝置,其中所述空間呈現(xiàn)模塊包括: 聚類模塊,配置用于將所述多個空間之一內(nèi)的一部分第二三維數(shù)據(jù)聚類為多個類別;以及 聚類呈現(xiàn)模塊,配置用于在所述空間內(nèi)呈現(xiàn)所述多個類別。
16.根據(jù)權(quán)利要求15所述的裝置,其中所述聚類模塊包括: 指定模塊,配置用于選擇所述一部分第二三維數(shù)據(jù)中的多個對象作為多個中心對象; 執(zhí)行模塊,配置用于在至少一個輪次中執(zhí)行如下步驟直至多個點(diǎn)群不再變化, 計(jì)算所述一部分第二三維數(shù)據(jù)中的每個對象與所述中心對象的距離; 按照所述距離的大小將每個對象劃分為所述多個點(diǎn)群; 將所述多個中心對象分別移至所述點(diǎn)群的中心位置; 形成模塊,配置用于基于所述多個點(diǎn)群來形成所述多個類別。
17.根據(jù)權(quán)利要求15所述的裝置,其中所述多個類別的數(shù)量是基于所述第一原始數(shù)據(jù)和所述第一三維數(shù)據(jù)來確定的。
18.根據(jù)權(quán)利要求15所述的裝置,其中所述聚類模塊包括: 迭代模塊,配置用于迭代地對所述多個類別中的一類別進(jìn)行聚類,以形成多個子類別。
19.根據(jù)權(quán)利要求15所述的裝置,其中所述呈現(xiàn)模塊包括: 展開模塊,配置用于響應(yīng)于所述空間被選擇,呈現(xiàn)所述空間范圍內(nèi)的多個類別。
20.根據(jù)權(quán)利要求11所述的裝置,其中所述第一原始數(shù)據(jù)和所述第二原始數(shù)據(jù)的分布趨勢相一致。
【文檔編號】G06N3/08GK104077303SQ201310104829
【公開日】2014年10月1日 申請日期:2013年3月28日 優(yōu)先權(quán)日:2013年3月28日
【發(fā)明者】張超, 嚴(yán)駿馳, 王瑜, 趙乾坤, 張欣, 田春華 申請人:國際商業(yè)機(jī)器公司