報告,按既定規(guī)則推送給各級管理人員、分析人員和業(yè)務(wù)人員。
[0045]后臺任務(wù)調(diào)度器所調(diào)用的分析模型通過對數(shù)據(jù)池內(nèi)的樣本數(shù)據(jù)進行訓(xùn)練獲得,挑選數(shù)據(jù)池內(nèi)合適的樣本數(shù)據(jù)進行查詢統(tǒng)計與分析,形成查詢模型和分析模型,保存在工作區(qū)內(nèi)。
[0046]將上述用于企業(yè)經(jīng)營數(shù)據(jù)分析的大數(shù)據(jù)可視化分析處理系統(tǒng)應(yīng)于上海銀行的審計業(yè)務(wù)數(shù)據(jù)處理中,其實施運行如下:
[0047]當前系統(tǒng)時間為21:00,以下示例處理流程和數(shù)據(jù)分析流程
[0048]I)按照系統(tǒng)設(shè)定,每天晚上的21:00開始數(shù)據(jù)收集流程
[0049]a)各業(yè)務(wù)系統(tǒng)數(shù)據(jù)
[0050]1.查看各業(yè)務(wù)系統(tǒng)的卸出數(shù)據(jù)存放目錄有無更新;
[0051]i1.按文件名+時間戳判斷是否是新數(shù)據(jù);
[0052]ii1.按標準格式進行數(shù)據(jù)格式化處理(定長變定界,長度判斷,對特殊字符進行處理,對中文編碼進行處理);
[0053]iv.清除三天前的待清洗數(shù)據(jù)(待清洗數(shù)據(jù)保留三天);
[0054]V.處理完的數(shù)據(jù)保存至待清洗數(shù)據(jù);
[0055]b)非格式化數(shù)據(jù)
[0056]1.查看非格式化數(shù)據(jù)存放目錄有無更新;
[0057]i1.按文件名+時間戳判斷是否是新數(shù)據(jù);
[0058]ii1.對非格式化數(shù)據(jù)進行信息提取,轉(zhuǎn)換為格式化數(shù)據(jù);
[0059]iv.按標準格式進行數(shù)據(jù)格式化處理(定長變定界,長度判斷,對特殊字符進行處理,對中文編碼進行處理);
[0060]V.清除三天前的待清洗數(shù)據(jù)(待清洗數(shù)據(jù)保留三天);
[0061]v1.處理完的數(shù)據(jù)保存至待清洗數(shù)據(jù);
[0062]c)外部數(shù)據(jù)
[0063]1.運行網(wǎng)絡(luò)爬蟲,抓取相關(guān)數(shù)據(jù)(各級法院的處罰、開庭等信息;各級工商機構(gòu)的處罰信息;征信機構(gòu)的信用信息;商務(wù)部門的行業(yè)分析報告等);保存為非格式化信息;
[0064]i1.對非格式化數(shù)據(jù)進行信息提取,轉(zhuǎn)換為格式化數(shù)據(jù);
[0065]ii1.按標準格式進行數(shù)據(jù)格式化處理(定長變定界,長度判斷,對特殊字符進行處理,對中文編碼進行處理);
[0066]iv.清除三天前的待清洗數(shù)據(jù)(待清洗數(shù)據(jù)保留三天);
[0067]V.處理完的數(shù)據(jù)保存至待清洗數(shù)據(jù);
[0068]2)晚上23:00開始進行數(shù)據(jù)清洗
[0069]a)按照時間范圍(審計數(shù)據(jù)有效性一般為三年)清洗數(shù)據(jù);
[0070]b)按照業(yè)務(wù)范圍(按照行業(yè)和地域范圍刪除未展開業(yè)務(wù)的數(shù)據(jù))清洗數(shù)據(jù);
[0071]c)按照特定隱私規(guī)則(行領(lǐng)導(dǎo)等)清洗數(shù)據(jù);
[0072]d)清除三天前的已清洗數(shù)據(jù)(待清洗數(shù)據(jù)保留三天);
[0073]e)清洗完的數(shù)據(jù)保存為已清洗數(shù)據(jù);
[0074]3)第二天早上1:00開始數(shù)據(jù)標準化操作
[0075]a)刪除數(shù)據(jù)保留期間外的數(shù)據(jù)(數(shù)據(jù)保留時間三年);
[0076]b)生成導(dǎo)航字段(部門,客戶號,時間戳等);
[0077]c)處理時間拉鏈(從流水類數(shù)據(jù)生成狀態(tài)類數(shù)據(jù));
[0078]d)按照業(yè)務(wù)領(lǐng)域?qū)霐?shù)據(jù);
[0079]4)早上4:00開始運行分析任務(wù)
[0080]a)按照預(yù)先定義的并發(fā)數(shù)(16個并發(fā))啟動分析模型,按步驟執(zhí)行;
[0081]b)刪除過往的執(zhí)行結(jié)果(只保留最后一次的執(zhí)行結(jié)果);
[0082]c)步驟執(zhí)行結(jié)果保存至工作區(qū);
[0083]5)早上7:00開始報告生成和推送
[0084]a)對每個任務(wù)的結(jié)果生成結(jié)果報告(運行結(jié)果是否成功,數(shù)據(jù)時間,運行時間等基本信息)和疑點數(shù)據(jù)報告(任務(wù)中每個分析模型最終發(fā)現(xiàn)的疑點數(shù)據(jù));
[0085]b)按照預(yù)定的規(guī)則分發(fā)報告;
[0086]6)早上7:30報告分發(fā)完畢,更新數(shù)據(jù)時間標記
[0087]7)早上9:00審計人員開始上班,進行報告閱讀和模型搭建工作
[0088]8)下午17:00審計人員下班;各業(yè)務(wù)系統(tǒng)開始進行卸數(shù)工作
[0089]9)晚上21:00卸數(shù)完成;回到I)。
【主權(quán)項】
1.一種用于企業(yè)經(jīng)營數(shù)據(jù)分析的大數(shù)據(jù)可視化分析處理系統(tǒng),其特征在于,包括: 數(shù)據(jù)來源判斷模塊,用于判斷數(shù)據(jù)來源以采用相應(yīng)的數(shù)據(jù)收集方式; 數(shù)據(jù)收集模塊,根據(jù)所述相應(yīng)的數(shù)據(jù)收集方式對數(shù)據(jù)進行收集; 數(shù)據(jù)保存模塊,將所述數(shù)據(jù)收集模塊收集的數(shù)據(jù)保存為待清洗數(shù)據(jù); 數(shù)據(jù)清洗模塊,對所述待清洗數(shù)據(jù)進行數(shù)據(jù)清洗,生成已清洗數(shù)據(jù); 數(shù)據(jù)標準化處理模塊,對所述已清洗數(shù)據(jù)進行標準化處理,生成公共導(dǎo)航字段,并保存至數(shù)據(jù)池; 后臺任務(wù)調(diào)度模塊,調(diào)用已建立的分析模型對數(shù)據(jù)池內(nèi)的數(shù)據(jù)進行分析并生成可視化分析結(jié)果報告。2.根據(jù)權(quán)利要求1所述的用于企業(yè)經(jīng)營數(shù)據(jù)分析的大數(shù)據(jù)可視化分析處理系統(tǒng),其特征在于,所述數(shù)據(jù)來源包括內(nèi)部格式化數(shù)據(jù)、內(nèi)部非格式化數(shù)據(jù)和外部網(wǎng)站數(shù)據(jù); 所述相應(yīng)的數(shù)據(jù)收集方式具體為: 對于內(nèi)部格式化數(shù)據(jù),采用給定接口進行數(shù)據(jù)收集,保存為待清洗數(shù)據(jù); 對于內(nèi)部非格式化數(shù)據(jù),通過信息提取操作將所述非格式化數(shù)據(jù)轉(zhuǎn)化為格式化數(shù)據(jù)后進行數(shù)據(jù)收集,保存為待清洗數(shù)據(jù); 對于外部網(wǎng)站數(shù)據(jù),采用網(wǎng)絡(luò)爬蟲技術(shù)抓取外部網(wǎng)站數(shù)據(jù),然后對抓取的數(shù)據(jù)進行信息提取操作,將非格式化數(shù)據(jù)轉(zhuǎn)換為格式化數(shù)據(jù),然后進行數(shù)據(jù)收集處理,保存為待清洗數(shù)據(jù)。3.根據(jù)權(quán)利要求1所述的用于企業(yè)經(jīng)營數(shù)據(jù)分析的大數(shù)據(jù)可視化分析處理系統(tǒng),其特征在于,所述數(shù)據(jù)清洗是指剔除待清洗數(shù)據(jù)中的無用數(shù)據(jù),所述無用數(shù)據(jù)包括失效數(shù)據(jù)、業(yè)務(wù)范圍外數(shù)據(jù)和特定隱私信息。4.根據(jù)權(quán)利要求1所述的用于企業(yè)經(jīng)營數(shù)據(jù)分析的大數(shù)據(jù)可視化分析處理系統(tǒng),其特征在于,所述數(shù)據(jù)標準化處理模塊對已清洗數(shù)據(jù)進行標準化處理后,更新數(shù)據(jù)時間標記。5.根據(jù)權(quán)利要求1所述的用于企業(yè)經(jīng)營數(shù)據(jù)分析的大數(shù)據(jù)可視化分析處理系統(tǒng),其特征在于,所述后臺任務(wù)調(diào)度模塊按照定時方式者事件觸發(fā)方式啟動分析模型進行分析。6.根據(jù)權(quán)利要求1所述的用于企業(yè)經(jīng)營數(shù)據(jù)分析的大數(shù)據(jù)可視化分析處理系統(tǒng),其特征在于,所述分析模型通過對數(shù)據(jù)池內(nèi)的樣本數(shù)據(jù)進行訓(xùn)練獲得。7.根據(jù)權(quán)利要求1所述的用于企業(yè)經(jīng)營數(shù)據(jù)分析的大數(shù)據(jù)可視化分析處理系統(tǒng),其特征在于,所述分析模型和分析結(jié)果均保存在工作區(qū)內(nèi)。
【專利摘要】本發(fā)明涉及一種用于企業(yè)經(jīng)營數(shù)據(jù)分析的大數(shù)據(jù)可視化分析處理系統(tǒng),其特征在于,包括:數(shù)據(jù)來源判斷模塊,用于判斷數(shù)據(jù)來源以采用相應(yīng)的數(shù)據(jù)收集方式;數(shù)據(jù)收集模塊,根據(jù)所述相應(yīng)的數(shù)據(jù)收集方式對數(shù)據(jù)進行收集;數(shù)據(jù)保存模塊,將所述數(shù)據(jù)收集模塊收集的數(shù)據(jù)保存為待清洗數(shù)據(jù);數(shù)據(jù)清洗模塊,對所述待清洗數(shù)據(jù)進行數(shù)據(jù)清洗,生成已清洗數(shù)據(jù);數(shù)據(jù)標準化處理模塊,對所述已清洗數(shù)據(jù)進行標準化處理,生成公共導(dǎo)航字段,并保存至數(shù)據(jù)池;后臺任務(wù)調(diào)度模塊,調(diào)用已建立的分析模型對數(shù)據(jù)池內(nèi)的數(shù)據(jù)進行分析并生成可視化分析結(jié)果報告。與現(xiàn)有技術(shù)相比,本發(fā)明具有提高工作效率、支撐跨系統(tǒng)數(shù)據(jù)分析、保密性高等優(yōu)點。
【IPC分類】G06F17/30, G06Q10/06
【公開號】CN104966172
【申請?zhí)枴緾N201510430542
【發(fā)明人】范磊, 錢強
【申請人】上海融甸信息科技有限公司
【公開日】2015年10月7日
【申請日】2015年7月21日