亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種數(shù)據(jù)處理方法和設(shè)備與流程

文檔序號:12363990閱讀:179來源:國知局
一種數(shù)據(jù)處理方法和設(shè)備與流程

本申請實施例涉及通信技術(shù)領(lǐng)域,特別涉及一種數(shù)據(jù)處理方法和設(shè)備。



背景技術(shù):

傳統(tǒng)的數(shù)據(jù)建模方式,是將數(shù)據(jù)從源系統(tǒng)中抽出,再經(jīng)過手工編寫SQL(Structured Query Language,結(jié)構(gòu)化查詢語言)將抽出的數(shù)據(jù)整合成為數(shù)據(jù)倉庫標準的維表結(jié)構(gòu),之后整個數(shù)據(jù)倉庫的建模就完成了,后續(xù)根據(jù)互聯(lián)網(wǎng)業(yè)務(wù)模式,一般會有以下兩類需求:

一、將數(shù)據(jù)倉庫標準的維表通過手工編寫SQL的方式整合成為業(yè)務(wù)大寬表;

二、將多個數(shù)據(jù)倉庫標準的維表通過手工編寫SQL的方式整合成為算法模型需要的輸入樣本集。

可見在現(xiàn)有技術(shù)中,不管是哪種需求,都是需要手工根據(jù)需求來整合的,這樣導(dǎo)致計算結(jié)果不可通用復(fù)用,效率低下,且人工維護成本比較高。



技術(shù)實現(xiàn)要素:

針對現(xiàn)有技術(shù)中的缺陷,本申請?zhí)岢隽艘环N數(shù)據(jù)處理方法,包括:

獲取原始的數(shù)據(jù);

將獲取的原始的數(shù)據(jù)進行分類;

當(dāng)接收到待處理業(yè)務(wù)時,根據(jù)所述待處理業(yè)務(wù)的需要從分類后的數(shù)據(jù)中提取需要的數(shù)據(jù)。

可選的,所述原始的數(shù)據(jù)包括:新增的數(shù)據(jù),更新的數(shù)據(jù),特定領(lǐng)域的 數(shù)據(jù);

所述獲取原始的數(shù)據(jù),包括:

定時從預(yù)設(shè)的多個數(shù)據(jù)庫中獲取新增的數(shù)據(jù);

定時從預(yù)設(shè)的多個數(shù)據(jù)庫中獲取更新的數(shù)據(jù);

定時基于關(guān)鍵詞獲取預(yù)定領(lǐng)域的數(shù)據(jù)。

可選的,在所述將獲取的原始的數(shù)據(jù)進行分類,之前還包括:

將獲取的原始的數(shù)據(jù)存儲在操作數(shù)據(jù)源ODS中,并對所述ODS中原有的數(shù)據(jù)與獲取的原始的數(shù)據(jù)進行整合。

可選的,所述將獲取的原始的數(shù)據(jù)進行分類,包括:

根據(jù)預(yù)設(shè)的分類規(guī)則和分類需要設(shè)置分類配置參數(shù);

整合所有的分類配置參數(shù)生成分類整合模板數(shù)據(jù);

基于所述分類整合模板數(shù)據(jù)和多源數(shù)據(jù)整合框架生成SQL代碼;

通過所述SQL代碼從所述ODS中獲取原始的數(shù)據(jù),以及將獲取的原始的數(shù)據(jù)按照對象進行分類;

將分類后的數(shù)據(jù)存儲在數(shù)據(jù)倉庫DW中,并對所述DW中原有的數(shù)據(jù)與獲取的分類后的數(shù)據(jù)進行整合;

其中所述對象包括:時間,地點,事件,人物,關(guān)系。

可選的,當(dāng)接收到待處理業(yè)務(wù)時,根據(jù)所述待處理業(yè)務(wù)的需要從分類后的數(shù)據(jù)中提取需要的數(shù)據(jù),具體包括:

當(dāng)接收到待處理業(yè)務(wù)后,基于預(yù)設(shè)的規(guī)則分析所述待處理業(yè)務(wù)的需要以確定處理所述待處理業(yè)務(wù)所需要的數(shù)據(jù);

基于確定的數(shù)據(jù)從分類后的數(shù)據(jù)中提取的數(shù)據(jù),存儲在數(shù)據(jù)集市DM中。

本申請還提出了一種數(shù)據(jù)處理設(shè)備,包括:

獲取模塊,用于獲取原始的數(shù)據(jù),

分類模塊,用于將獲取的原始的數(shù)據(jù)進行分類;

提取模塊,用于當(dāng)接收到待處理業(yè)務(wù)時,根據(jù)所述待處理業(yè)務(wù)的需要從分類后的數(shù)據(jù)中提取需要的數(shù)據(jù)。

可選的,所述原始的數(shù)據(jù)包括:新增的數(shù)據(jù),更新的數(shù)據(jù),特定領(lǐng)域的數(shù)據(jù);

所述獲取模塊,具體用于:

定時從預(yù)設(shè)的多個數(shù)據(jù)庫中獲取新增的數(shù)據(jù);

定時從預(yù)設(shè)的多個數(shù)據(jù)庫中獲取更新的數(shù)據(jù);

定時基于關(guān)鍵詞獲取預(yù)定領(lǐng)域的數(shù)據(jù)。

可選的,該設(shè)備還包括:

整合模塊,用于將獲取的原始的數(shù)據(jù)存儲在操作數(shù)據(jù)源ODS中,并對所述ODS中原有的數(shù)據(jù)與獲取的原始的數(shù)據(jù)進行整合。

可選的,所述分類模塊,具體用于:

根據(jù)預(yù)設(shè)的分類規(guī)則和分類需要設(shè)置分類配置參數(shù);

整合所有的分類配置參數(shù)生成分類整合模板數(shù)據(jù);

基于所述分類整合模板數(shù)據(jù)和多源數(shù)據(jù)整合框架生成SQL代碼;

通過所述SQL代碼從所述ODS中獲取原始的數(shù)據(jù),以及將獲取的原始的數(shù)據(jù)按照對象進行分類;

將分類后的數(shù)據(jù)存儲在數(shù)據(jù)倉庫DW中,并對所述DW中原有的數(shù)據(jù)與獲取的分類后的數(shù)據(jù)進行整合;

其中所述對象包括:時間,地點,事件,人物,關(guān)系。

可選的,提取模塊,具體用于:

當(dāng)接收到待處理業(yè)務(wù)后,基于預(yù)設(shè)的規(guī)則分析所述待處理業(yè)務(wù)的需要以確定處理所述待處理業(yè)務(wù)所需要的數(shù)據(jù);

基于確定的數(shù)據(jù)從分類后的數(shù)據(jù)中提取的數(shù)據(jù),存儲在數(shù)據(jù)集市DM中。

與現(xiàn)有技術(shù)相比,本申請中通過將獲取的原始的數(shù)據(jù)進行分類;以便當(dāng)接收到待處理業(yè)務(wù)時,根據(jù)待處理業(yè)務(wù)的需要從分類后的數(shù)據(jù)中提取需要的數(shù)據(jù),實現(xiàn)了數(shù)據(jù)處理的自動化,無需進行人工處理,使得計算結(jié)果是可以通用復(fù)用的,提高了效率。

附圖說明

圖1為本申請實施例提出的一種數(shù)據(jù)處理方法的流程示意圖;

圖2為本申請實施例提出的一種數(shù)據(jù)處理方法的示意圖;

圖3為本申請實施例提出的一種數(shù)據(jù)處理設(shè)備的結(jié)構(gòu)示意圖。

具體實施方式

如背景技術(shù)所述,針對現(xiàn)有技術(shù)中的缺陷,本申請中提出了一種數(shù)據(jù)處理方法,如圖1所示,包括以下步驟:

步驟101、獲取原始的數(shù)據(jù)。

具體的,原始的數(shù)據(jù)可以是各種數(shù)據(jù),具體可以基于需要進行選擇,而基于需要就可以從各數(shù)據(jù)庫中獲取原始的數(shù)據(jù),例如可以如圖2所示,可以從以下數(shù)據(jù)庫中進行獲?。郝灭^住宿訂房記錄數(shù)據(jù)庫,鐵路買票乘車記錄數(shù)據(jù)庫,民航預(yù)定乘機記錄數(shù)據(jù)庫,人口普查記錄數(shù)據(jù)庫,違法犯罪記錄數(shù)據(jù)庫,等等,具體的可以基于需要進行設(shè)置,還可以基于需要從其他數(shù)據(jù)庫中獲取原始的數(shù)據(jù)。

隨著時間的變化,不斷會有新的數(shù)據(jù)產(chǎn)生,而舊有的數(shù)據(jù)也會不斷的進行更新更新,另外,基于某些需要還可能需要特定的領(lǐng)域的數(shù)據(jù),因此原始的數(shù)據(jù)可以包括:新增的數(shù)據(jù),更新的數(shù)據(jù),特定領(lǐng)域的數(shù)據(jù);因此具體的獲取過程可以包括:

定時從預(yù)設(shè)的多個數(shù)據(jù)庫中獲取新增的數(shù)據(jù);

定時從預(yù)設(shè)的多個數(shù)據(jù)庫中獲取更新的數(shù)據(jù);

定時基于關(guān)鍵詞獲取預(yù)定領(lǐng)域的數(shù)據(jù)。

其中預(yù)設(shè)的多個數(shù)據(jù)庫就可以包括上述的多個數(shù)據(jù)庫,還可以基于需要從其他的數(shù)據(jù)庫中進行獲取,例如若需要查詢某人(例如為A)的網(wǎng)絡(luò)購物情況,則需要查詢網(wǎng)絡(luò)購物記錄數(shù)據(jù)庫,來得到淘寶上該用戶A的賬戶記錄,從而得知在淘寶上的網(wǎng)絡(luò)購物情況,至于其他的網(wǎng)站的購物記錄,例如天貓等與此類似。

而在獲取了原始的數(shù)據(jù)之后,需要處理該原始的數(shù)據(jù),具體的,可以將將獲取的原始的數(shù)據(jù)存儲在ODS(Operational Data Store,操作數(shù)據(jù)源)中,并對ODS中原有的數(shù)據(jù)與獲取的原始的數(shù)據(jù)進行整合。例如,獲取的原始數(shù)據(jù)中包含有數(shù)據(jù)1,數(shù)據(jù)2,數(shù)據(jù)3,而ODS中原有的數(shù)據(jù)中存在數(shù)據(jù)3,兩個數(shù)據(jù)3是重復(fù)的,就可以任刪一個,例如可以保留ODS中原有的數(shù)據(jù)3,而刪除獲取的原始的數(shù)據(jù)中的數(shù)據(jù)3,以此在保證數(shù)據(jù)完整全面的同時,避免重復(fù)多余的數(shù)據(jù)出現(xiàn)。

步驟102、將獲取的原始的數(shù)據(jù)進行分類。

具體的,在步驟101中,只是獲取了數(shù)據(jù),而數(shù)據(jù)有很多,為此本申請中對獲取的數(shù)據(jù)進行分類,具體的過程包括:根據(jù)預(yù)設(shè)的分類規(guī)則和分類需要設(shè)置分類配置參數(shù);整合所有的分類配置參數(shù)生成分類整合模板數(shù)據(jù);基于所述分類整合模板數(shù)據(jù)和多源數(shù)據(jù)整合框架生成SQL代碼;通過所述SQL代碼從所述ODS中獲取原始的數(shù)據(jù),以及將獲取的原始的數(shù)據(jù)按照對象進行分類;將分類后的數(shù)據(jù)存儲在數(shù)據(jù)倉庫DW中,并對所述DW中原有的數(shù)據(jù)與獲取的分類后的數(shù)據(jù)進行整合;其中所述對象包括:時間,地點,事件,人物,關(guān)系;以便后續(xù)在需要的時候能快捷地進行提取,具體的分類過程可以如下:

基于預(yù)設(shè)的分類規(guī)則和分類需要設(shè)置分類配置參數(shù),分類規(guī)則中包含有分類的各個步驟,例如步驟可以有:提取原始數(shù)據(jù),對原始數(shù)據(jù)進行掃描以確定各原始數(shù)據(jù)的多維度特征,基于分類需要選取特定的特征來對各原始數(shù)據(jù)進行分類整合,對應(yīng)的,每個步驟配置對應(yīng)的分類配置參數(shù),而所有的分類配置參數(shù)整合起來就是一套分類的流程,也即對應(yīng)分類整合模板數(shù)據(jù),后續(xù)可以通過分類整合模板數(shù)據(jù)輸入多源數(shù)據(jù)整合框架(用于生成SQL代碼),來生成對應(yīng)的SQL代碼,從而可以使得后續(xù)若是面對同樣的分類需要,就可以直接利用生成的SQL代碼來進行分類,而若是要滿足不同的需要,則只需要對應(yīng)的調(diào)整分類配置參數(shù)就能適應(yīng)不同的需要。

而當(dāng)原始數(shù)據(jù)是存儲在ODS中時,利用SQL代碼從ODS中獲取原始的數(shù)據(jù)并進行分類;

將獲取的原始的數(shù)據(jù)按照對象進行分類;其中對象包括:時間,地點,事件,人物,關(guān)系;按照對象進行分類可以更好的展示各種維度的事件,以此可以更好地滿足需要,后續(xù)將分類后的數(shù)據(jù)存儲在DW(Data Warehouse,數(shù)據(jù)倉庫)中,并對DW中原有的數(shù)據(jù)與獲取的分類后的數(shù)據(jù)進行整合。

具體的分類過程如圖2所示,利用SQL代碼獲取原始的數(shù)據(jù),并將獲取的原始的數(shù)據(jù)基于時間,地點,事件,人物,關(guān)系進行分類,例如基于時間劃分可以將其中涉及到時間的數(shù)據(jù),按照時間的先后順序進行排列,并設(shè)定時間區(qū)間,以便對時間進行分類,例如時間存在2012.03.06,2015.05.04,2013.03.05,2014.06.03,2013.02.04,可以設(shè)定時間區(qū)間為1年,因此可以將這幾個時間進行劃分,具體的,分為區(qū)間1(2012.03.06),區(qū)間2(2013.02.04,2013.03.05),區(qū)間3(2013.03.05),區(qū)間4(2015.05.04);而其他的例如地點,可以分為國家,省份,市,縣等進行劃分,或者按照經(jīng)緯度進行劃分,而事件,則可以基于需要分為交易,轉(zhuǎn)賬,犯罪,旅行等等進行劃分,人物則可以基于與人有關(guān)的身份證,姓名,手機號,郵箱等進行劃分,具體的,例如 存在3個人,分別為A、B、C,則可以設(shè)置分類A中包括身份證,姓名,手機號,郵箱,至于B、C與此類似,在此不再進行贅敘,而關(guān)系則可以包括:人際關(guān)系,例如好友,同學(xué),老鄉(xiāng)等等,還可以是同車司機,結(jié)伙作案等等,而原始的數(shù)據(jù)之間的聯(lián)系還是存在的,只是將數(shù)據(jù)進行了分類,例如原始的數(shù)據(jù)為用戶1在時間1與用戶2進行了交易,用戶1賣給用戶2貨物1,其中分類后,時間為時間1,人物為用戶1和用戶2,關(guān)系是交易,具體的用戶1賣給用戶2貨物1,在分類后,數(shù)據(jù)被分為了3部分,不過在分類后都可以從任一部分找到其他的部分。

步驟103、當(dāng)接收到待處理業(yè)務(wù)時,根據(jù)待處理業(yè)務(wù)的需要從分類后的當(dāng)接收到待處理業(yè)務(wù)時,根據(jù)待處理業(yè)務(wù)的需要從分類后的數(shù)據(jù)中提取需要的數(shù)據(jù)。

其中,具體的提取數(shù)據(jù)的操作,具體包括:

當(dāng)接收到待處理業(yè)務(wù)后,基于預(yù)設(shè)的規(guī)則分析待處理業(yè)務(wù)的需要以確定處理待處理業(yè)務(wù)所需要的數(shù)據(jù);基于確定的數(shù)據(jù)從分類后的數(shù)據(jù)中提取的數(shù)據(jù),存儲在數(shù)據(jù)集市DM(Data Malt,數(shù)據(jù)集市)中。

具體的,例如需要對商家A在淘寶上2014年的業(yè)績進行評估來給出評分,首先可以基于預(yù)設(shè)的規(guī)則分析該業(yè)務(wù)的需要的數(shù)據(jù),例如需要商家A中所賣的各種商品,各商品的價格,商家A在2014年的各種商品的銷售額,每賣出去的商品是否有評價,有評價的比例,評價中的好中差的評分的數(shù)量和比例,評分中有圖片的數(shù)量和比例,為此,就可以從分類后的數(shù)據(jù)中獲取相應(yīng)的數(shù)據(jù),例如人物的數(shù)據(jù)就包括各買家的賬號,手機號以及其他,關(guān)系為與商家A的交易,具體的交易數(shù)據(jù),買家對商家A賣出去的商品的評價,時間則為2014年1月1日到2014年12月1日,以此獲取前述數(shù)據(jù)來共同對商家A在淘寶上2014年的業(yè)績進行評估。

為了對本申請進行進一步的說明,本申請還公開了一種數(shù)據(jù)處理設(shè)備,如圖3所示,包括:

獲取模塊301,用于獲取原始的數(shù)據(jù),

分類模塊302,用于將獲取的原始的數(shù)據(jù)進行分類;

提取模塊303,用于當(dāng)接收到待處理業(yè)務(wù)時,根據(jù)所述待處理業(yè)務(wù)的需要從分類后的數(shù)據(jù)中提取需要的數(shù)據(jù)。

可選的,所述原始的數(shù)據(jù)包括:新增的數(shù)據(jù),更新的數(shù)據(jù),特定領(lǐng)域的數(shù)據(jù);

所述獲取模塊301,具體用于:

定時從預(yù)設(shè)的多個數(shù)據(jù)庫中獲取新增的數(shù)據(jù);

定時從預(yù)設(shè)的多個數(shù)據(jù)庫中獲取更新的數(shù)據(jù);

定時基于關(guān)鍵詞獲取預(yù)定領(lǐng)域的數(shù)據(jù)。

可選的,該數(shù)據(jù)處理設(shè)備還包括:

整合模塊,用于將獲取的原始的數(shù)據(jù)存儲在操作數(shù)據(jù)源ODS中,并對所述ODS中原有的數(shù)據(jù)與獲取的原始的數(shù)據(jù)進行整合。

可選的,所述分類模塊302,具體用于:

根據(jù)預(yù)設(shè)的分類規(guī)則和分類需要設(shè)置分類配置參數(shù);

整合所有的分類配置參數(shù)生成分類整合模板數(shù)據(jù);

基于所述分類整合模板數(shù)據(jù)和多源數(shù)據(jù)整合框架生成SQL代碼;

通過所述SQL代碼從所述ODS中獲取原始的數(shù)據(jù),以及將獲取的原始的數(shù)據(jù)按照對象進行分類;

將分類后的數(shù)據(jù)存儲在數(shù)據(jù)倉庫DW中,并對所述DW中原有的數(shù)據(jù)與獲取的分類后的數(shù)據(jù)進行整合;

其中所述對象包括:時間,地點,事件,人物,關(guān)系。

可選的,提取模塊303,具體用于:

當(dāng)接收到待處理業(yè)務(wù)后,基于預(yù)設(shè)的規(guī)則分析所述待處理業(yè)務(wù)的需要以確定處理所述待處理業(yè)務(wù)所需要的數(shù)據(jù);

基于確定的數(shù)據(jù)從分類后的數(shù)據(jù)中提取的數(shù)據(jù),存儲在數(shù)據(jù)集市DM中。

與現(xiàn)有技術(shù)相比,本申請中通過將獲取的原始的數(shù)據(jù)進行分類;以便當(dāng)接收到待處理業(yè)務(wù)時,根據(jù)待處理業(yè)務(wù)的需要從分類后的數(shù)據(jù)中提取需要的數(shù)據(jù),實現(xiàn)了數(shù)據(jù)處理的自動化,無需進行人工處理,使得計算結(jié)果是可以通用復(fù)用的,提高了效率。

通過以上的實施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到本申請可以通過硬件實現(xiàn),也可以借助軟件加必要的通用硬件平臺的方式來實現(xiàn)?;谶@樣的理解,本申請的技術(shù)方案可以以軟件產(chǎn)品的形式體現(xiàn)出來,該軟件產(chǎn)品可以存儲在一個非易失性存儲介質(zhì)(可以是CD-ROM,U盤,移動硬盤等)中,包括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本申請各個實施場景所述的方法。

本領(lǐng)域技術(shù)人員可以理解附圖只是一個優(yōu)選實施場景的示意圖,附圖中的模塊或流程并不一定是實施本申請所必須的。

本領(lǐng)域技術(shù)人員可以理解實施場景中的裝置中的模塊可以按照實施場景描述進行分布于實施場景的裝置中,也可以進行相應(yīng)變化位于不同于本實施場景的一個或多個裝置中。上述實施場景的模塊可以合并為一個模塊,也可以進一步拆分成多個子模塊。

上述本申請序號僅僅為了描述,不代表實施場景的優(yōu)劣。

以上公開的僅為本申請的幾個具體實施場景,但是,本申請并非局限于此,任何本領(lǐng)域的技術(shù)人員能思之的變化都應(yīng)落入本申請的保護范圍。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1