數據源數據自動建模方法
【技術領域】
[0001] 本發(fā)明涉及一種數據源數據自動建模方法,具體地涉及一種對復雜數據源數據進 行自動建模并展示的方法。
【背景技術】
[0002] 很多存儲復雜數據的數據源,例如從社交數據庫、電商數據庫,到人類基因數據 庫,都是基于復雜的多維、大數據量存儲的數據集。針對這種數據集進行處理,存在一個巨 大的挑戰(zhàn)是如何從海量的數據中發(fā)現隱含的數據結構、數據關聯關系、并最終提取出有意 義的數據。通常來說,分析師想不借助任何工具,從如此巨量的數據中提取出有意義的數據 來是不太現實的。通常分析師會借助各種分析工具來幫助提取部分有意義的數據。但是依 賴現有分析工具對復雜數據源數據進行建模并展示必須要持續(xù)的人機交互。用戶需要很熟 悉復雜數據集的特性,必須給計算機明確的指令來讓計算機調用相應的算法來完成建模。 在很多情況下,這種人機交互需要重復進行多次。當用戶處理的數據是以萬億計時,這樣的 數據處理方式非常復雜和繁瑣。因此需要一種高級數據自動建模以及可視化方式。
【發(fā)明內容】
[0003] 針對上述技術問題,本發(fā)明目的是:提供一種數據源數據自動建模方法,在海量數 據中建立分析模型,可以方便地為業(yè)務人員進行數據建模,可以更快更好的分析用戶海量 數據。
[0004] 本發(fā)明的技術方案是: 一種數據源數據自動建模方法,包括如下步驟: SOl:多數據源接入及表結構解析:接入不同的數據源中的數據,解析各數據源中所有 表的表結構; S02:為數據源表中表結構標識業(yè)務對象:遍歷數據源中所有表,提取需要建模的屬 性列表,為每個屬性列表中的屬性設置業(yè)務對象名稱、業(yè)務對象類型以及業(yè)務對象聚集方 式; S03:歸并同類項業(yè)務對象以及來源:對所有設置業(yè)務對象的屬性進行匯總并歸并同 類項; S04:解析業(yè)務對象并建模生成建模結構集:對設置業(yè)務對象的屬性按照設置參數進 行建模,對未設置業(yè)務對象的屬性按照建模規(guī)則進行建模,所述建模規(guī)則包括數值型屬性 標記為度量,非數值型屬性標記為維度,并歸并同類項業(yè)務對象。
[0005] 優(yōu)選的,所述步驟SOl中的表結構包括表中的字段以及字段類型。
[0006] 優(yōu)選的,所述步驟SOl包括以下步驟: 獲取表連接及表結構的元數據; 獲取表的表結構屬性列表; 記錄表結構屬性列表,并與步驟S02中生成的業(yè)務對象映射匹配。
[0007] 與現有技術相比,本發(fā)明的優(yōu)點是: 1.該方法可以幫助用戶基于數據源中數據快速有效的建立起業(yè)務模型,還可以幫助用 戶發(fā)現數據源中隱藏的數據之間的深層次關聯關系,比如基于用戶身份信息時可以挖掘用 戶的年齡段以及對應的消費量、消費習慣的關聯信息。
[0008] 該方法為用戶在海量數據中建立分析模型提供了可行的基礎,可以嵌在魔鏡數據 分析平臺中,可以方便的為業(yè)務人員進行數據建模,可以更快更好的分析用戶海量數據。
【附圖說明】
[0009] 下面結合附圖及實施例對本發(fā)明作進一步描述: 圖1為本發(fā)明數據源數據自動建模方法的流程圖。
【具體實施方式】
[0010] 為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚明了,下面結合【具體實施方式】并參 照附圖,對本發(fā)明進一步詳細說明。應該理解,這些描述只是示例性的,而并非要限制本發(fā) 明的范圍。此外,在以下說明中,省略了對公知結構和技術的描述,以避免不必要地混淆本 發(fā)明的概念。
[0011] 實施例: 如圖1所示,一種對復雜數據源數據進行自動建模并展示的方法,具體步驟如下: A.多數據源接入及表結構解析 對用戶的不同數據源中數據進行接入,分析并解析出各數據源中所有表的表結構。數 據源可以是mysql、oracle、DB2等關系型數據庫,比如說用戶有個mysql數據庫,庫中含有 △、8兩張表,4表包含41、4233..^10,10個字段,8表包含81、82、83三個字段。該步驟 可以對mysql數據庫中A、B兩張表,以及每張表中所有的字段(包括字段類型),使用SQL 語法獲取數據源元數據的方法解析出A、B兩張表表結構。A表包含A1、A2、A3. . . A10,10個 字段,B表包含B1、B2、B3三個字段,以及每個字段的類型,類型可以為字符型,文本型,數值 型,邏輯型和日期型。記錄上述結果為后續(xù)建模做準備。
[0012] 語法獲取數據源元數據的部分偽代碼如下: L/iN 丄η ^ * *w 〇/ ?
獲取的每個步驟都是由數據庫管理系統本身提供的接口提供的。
[0013] 為數據源表中每個字段標識一個業(yè)務對象 遍歷數據源中所有表,提取所有需要建模的屬性列表,為每個屬性設置業(yè)務對象名稱、 業(yè)務對象類型、業(yè)務對象聚集方式。
[0014] 例如,如果用戶從業(yè)務角度,對A表中A2、A3字段比較感興趣,那么用戶可以對應 的建立業(yè)務對象YWA2、YWA3,為每個屬性設置業(yè)務對象名稱YWA2、YWA3,YWA2的業(yè)務對象類 型是數值型,YWA3是時間類型,YWA2業(yè)務對象聚集方式可以是匯總、平均、最大值、最小值 等等,YWA3聚集方式可以是計數。
[0015] -般的,數值型的業(yè)務對象的聚集方式可以是匯總、平均、最大值、最小值等等,字 符類型的業(yè)務對象的聚集方式可以是計數。
[0016] 歸并同類項業(yè)務對象以及來源 對所有設置業(yè)務對象的屬性進行匯總,歸并同類項。
[0017] 例如,在電商系統數據庫中可能包含用戶表以及交易表,用戶表中包含了用戶的 身份證信息(實名制),即每個用戶都記錄了唯一的身份證信息,交易表中也包含了用戶信 息,即每個交易記錄都包含了用戶的身份證信息和交易信息。在這種業(yè)務場景中,分析該數 據庫的業(yè)務人員可以建立一個用戶身份證的業(yè)務對象。用戶表以及交易表中都包含用戶身 份證信息,將業(yè)務人員建立的用戶身份證業(yè)務對象關聯到用戶表中的身份證信息,以及交 易表中的身份證信息。當用戶希望查詢身份證以及其他業(yè)務對象的關聯關系時,系統知道 可以從兩個表(兩個路徑)中分析并得出最優(yōu)的結果。
[0018] 自動解析業(yè)務對象并進行建模 對設置業(yè)務對象的屬性按照設置參數進行建模,對未設置業(yè)務對象的屬性按照建模規(guī) 則進行建模。該建模規(guī)則包括數值型屬性標記為度量,非數值型屬性標記為維度,并歸并同 類項業(yè)務對象。
[0019] 例如,交易金額標識為度量,用戶所在省份標識為維度,同時歸并同類項業(yè)務對 象。例如步驟C中例子,用戶表以及交易表都包含用戶身份證信息,則業(yè)務人員只需要一個 業(yè)務對象"用戶身份",把該業(yè)務對象同時關聯到用戶表中身份信息列以及交易表中身份信 息列。
[0020] 用戶可以對建模后的模型進行手工設置,最終呈現出用戶想要的業(yè)務模型以及數 據庫中表字段的映射,可以減少業(yè)務人員對龐大的數據庫中所有字段進行手工配置。
[0021] 應當理解的是,本發(fā)明的上述【具體實施方式】僅僅用于示例性說明或解釋本發(fā)明的 原理,而不構成對本發(fā)明的限制。因此,在不偏離本發(fā)明的精神和范圍的情況下所做的任何 修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內。此外,本發(fā)明所附權利要求旨 在涵蓋落入所附權利要求范圍和邊界、或者這種范圍和邊界的等同形式內的全部變化和修 改例。
【主權項】
1. 一種數據源數據自動建模方法,其特征在于,包括如下步驟: 501 :多數據源表結構解析:解析數據源中所有表的表結構; 502 :為數據源表中表結構標識業(yè)務對象:遍歷數據源中所有表,提取需要建模的屬性 列表,為屬性列表中的屬性設置業(yè)務對象名稱、業(yè)務對象類型以及業(yè)務對象聚集方式; 503 :歸并同類項業(yè)務對象:對所有設置業(yè)務對象的屬性進行匯總并歸并同類項; 504 :解析業(yè)務對象并建模生成建模結構集:對設置業(yè)務對象的屬性按照設置參數進 行建模,對未設置業(yè)務對象的屬性按照建模規(guī)則進行建模,所述建模規(guī)則包括數值型屬性 標記為度量,非數值型屬性標記為維度,并歸并同類項業(yè)務對象。2. 根據權利要求1所述的數據源數據自動建模方法,其特征在于,所述步驟SOl中的表 結構包括表中的字段、字段類型以及默認值。3. 根據權利要求1所述的數據源數據自動建模方法,其特征在于,所述步驟SOl包括以 下步驟: 獲取表連接及表結構的元數據; 獲取表的表結構屬性列表; 記錄表結構屬性列表,并與步驟S02中生成的業(yè)務對象映射匹配。
【專利摘要】<b>本發(fā)明公開了一種數據源數據自動建模方法,包括如下步驟:多數據源接入及表結構解析:接入不同的數據源中的數據,解析各數據源中所有表的表結構;為數據源表中表結構標識業(yè)務對象:遍歷數據源中所有表,提取需要建模的屬性列表,為每個屬性列表中的屬性設置業(yè)務對象名稱、業(yè)務對象類型以及業(yè)務對象聚集方式;歸并同類項業(yè)務對象:對所有設置業(yè)務對象的屬性進行匯總并歸并同類項;解析業(yè)務對象并建模生成建模結構集:對設置業(yè)務對象的屬性按照設置參數進行建模,對未設置業(yè)務對象的屬性按照建模規(guī)則進行建模,建模規(guī)則包括數值型屬性標記為度量,非數值型屬性標記為維度,并歸并同類項業(yè)務對象??梢苑奖愕剡M行數據建模,有利于分析用戶海量數據。</b>
【IPC分類】G06F17/30
【公開號】CN105095436
【申請?zhí)枴緾N201510436270
【發(fā)明人】馬曉東, 馬小東, 謝曉芳, 王鵬
【申請人】蘇州國云數據科技有限公司
【公開日】2015年11月25日
【申請日】2015年7月23日