一種信息系統(tǒng)服務平臺用數(shù)據(jù)采集系統(tǒng)的制作方法
【專利說明】
【背景技術】
[0001]設立在許昌開普研究院的“中國電器工業(yè)繼電保護及自動化設備協(xié)會”,隸屬中國電氣工業(yè)協(xié)會,下屬有30多個行業(yè)協(xié)會分支機構,擁有一萬多家行業(yè)企業(yè)會員。協(xié)會需要搜集大量的企業(yè)信息,目前對于企業(yè)信息的搜集停留在過去手工收集,手工整理,手工做報表的傳統(tǒng)信息化水平。隨著行業(yè)規(guī)模不斷壯大,大量的離線業(yè)務數(shù)據(jù)零散的分布在單機PC中,形成一個個信息孤島,使得難以對業(yè)務數(shù)據(jù)進行快速歷史、橫向?qū)Ρ?、縱向研究等有效的分析和利用,削弱了服務質(zhì)量,降低了工作效率,影響了研究院對協(xié)會成員的服務質(zhì)量。為消除以上問題、彌補不足、建立健全統(tǒng)計工作網(wǎng)絡、增加統(tǒng)計企業(yè)數(shù)量、縮短統(tǒng)計工作時間、更好服務行業(yè)企業(yè),我們開發(fā)了行業(yè)數(shù)據(jù)采集系統(tǒng)。
【發(fā)明內(nèi)容】
[0002]許昌開普電氣研究院的數(shù)據(jù)采集主要分為結構化和半結構化數(shù)據(jù)采集和非機構化數(shù)據(jù)采集(通過網(wǎng)絡爬蟲方式獲取網(wǎng)絡數(shù)據(jù))。在許昌開普電氣研究院的數(shù)據(jù)倉庫(EDW)系統(tǒng)中,數(shù)據(jù)由數(shù)據(jù)源系統(tǒng)加載到數(shù)據(jù)倉庫(EDff)的各個數(shù)據(jù)層中,并通過提供數(shù)據(jù)接口給相關使用者。其實現(xiàn)的困難在于數(shù)據(jù)采集(數(shù)據(jù)整合)系統(tǒng)將面臨的數(shù)據(jù)環(huán)境復雜,包括巨大的加載數(shù)據(jù)量、錯綜復雜的數(shù)據(jù)關系和參差不齊的數(shù)據(jù)質(zhì)量,這些都使數(shù)據(jù)采集的架構和應用設計需要解決的問題。
[0003]結構化和半結構化數(shù)據(jù)采集
結構化和半結構化數(shù)據(jù)采集模型如圖1所示。圖1中:
1、用系統(tǒng)的BPM平臺可以支持多個應用,每個應用是一個運行時的實例;
2、一個應用包含有一個或多個模塊,在應用上可以定義角色、函數(shù)、樣式、組件等技術的工件,并應用于各個業(yè)務模塊;
3、一個模塊式一組業(yè)務功能的集合,他包括表單、工作流、視圖、報表、任務等。
[0004]通過高效的數(shù)據(jù)采集系統(tǒng)結構、層次化的應用功能劃分和標準的程序模板,數(shù)據(jù)倉庫(EDW)系統(tǒng)能夠達到以下目標:
1、支持在此框架下實現(xiàn)行業(yè)信息系統(tǒng)服務平臺所需要的數(shù)據(jù)采集功能;
2、支持在規(guī)定的批處理時間窗口(BatchWindow)內(nèi)能夠完成數(shù)據(jù)加載工作,即需要滿足日常數(shù)據(jù)加載的性能需求;
3、能夠支持有效的應用程序開發(fā)模式,提高開發(fā)效率,盡量減少應用開發(fā)成本;
4、減少系統(tǒng)維護的復雜性,支持后續(xù)增加新數(shù)據(jù)或功能的開發(fā)工作;
5、和上系統(tǒng)接口的松耦合設計,避免上系統(tǒng)的變更導致數(shù)據(jù)采集程序本身頻繁變更。
[0005]許昌開普電氣研究院的數(shù)據(jù)倉庫(EDW)系統(tǒng)數(shù)據(jù)采集復雜,應用系統(tǒng)數(shù)據(jù)需求旺盛,數(shù)據(jù)質(zhì)量參差不齊,結合以上系統(tǒng)目標及設計原則,采用的是BPM數(shù)據(jù)采集工具。BPM的數(shù)據(jù)結構設計如圖2所示。圖2中:
1、設計時數(shù)據(jù)一包含發(fā)Form、View, WorkFlow的設計模板,僅在系統(tǒng)設計時被改變和存儲; 2、授權類數(shù)據(jù)一包含User、Role、Dept信息,表現(xiàn)用戶的基本信息、角色信息、組織架構,以及定乂對系統(tǒng)各功能t旲塊的訪冋權限;
3、運行時數(shù)據(jù)一包含Counter、Document、WorkFlowstate數(shù)據(jù),分別存儲計算器、文檔、工作流狀態(tài)??紤]到需要不同的實例(一個實例對應一個應用,比如可以為不同的應用系統(tǒng)分別建立不同的實例)邏輯上分開,所以對于每一個不同的實例,提供不同的數(shù)據(jù)源定義。
[0006]非結構化數(shù)據(jù)采集示例
非結構化數(shù)據(jù)采集模型如圖3所示。本系統(tǒng)通過開發(fā)的數(shù)據(jù)爬蟲技術,可以通過互聯(lián)網(wǎng)把數(shù)據(jù)爬蟲到hadoop平臺中,通過Hadoop處理快速非機構化的文本,把數(shù)據(jù)整合到關系型數(shù)據(jù)庫中進行分析。利用Hadoop實現(xiàn)了一個分布式文件系統(tǒng)(Hadoop Distributed FileSystem),簡稱HDFS。HDFS有高容錯性的特點,并且設計用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來訪問應用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(large data set)的應用程序。HDFS放寬了(relax) POSIX的要求,可以以流的形式訪問(streaming access)文件系統(tǒng)中的數(shù)據(jù)。Hadoop帶有用Java語言編寫的框架,運行在Linux生產(chǎn)平臺上Hadoop上的應用程序也可以使用其他語言編寫,比如C++。Hadoop的MapReduce功能實現(xiàn)了將單個任務打碎,并將碎片任務(Map)發(fā)送到多個節(jié)點上,之后再以單個數(shù)據(jù)集的形式加載(Reduce)到數(shù)據(jù)倉庫里。實現(xiàn)非結構化數(shù)據(jù)的自動采集。
[0007]附圖清單:
圖1結構化和半結構化數(shù)據(jù)采集模型圖2 BPM的數(shù)據(jù)結構設計模型圖3非結構化數(shù)據(jù)采集模型。
【主權項】
1.本發(fā)明涉及一種信息系統(tǒng)服務平臺用數(shù)據(jù)采集系統(tǒng),其設計思想是利用硬件和軟件結合,設計了數(shù)據(jù)采集架構、數(shù)據(jù)采集效率、數(shù)據(jù)采集調(diào)度、數(shù)據(jù)采集監(jiān)控、數(shù)據(jù)采集開發(fā)規(guī)范化的算法,實現(xiàn)電工行業(yè)企業(yè)統(tǒng)計數(shù)據(jù)采集工作。2.根據(jù)權利要求1所述的數(shù)據(jù)采集系統(tǒng),其描述數(shù)據(jù)架構以數(shù)據(jù)倉庫為核心,構建與業(yè)務系統(tǒng)相分離但又緊密聯(lián)系的、集中統(tǒng)一共享的、面向管理決策的、以客戶為中心的數(shù)據(jù)統(tǒng)計分析平臺系統(tǒng),進行網(wǎng)絡數(shù)據(jù)的采集和獲取,本發(fā)明開發(fā)設計的算法實現(xiàn)了行業(yè)協(xié)會對信息結構化和半結構化數(shù)據(jù)采集及非結構化數(shù)據(jù)的采集錄入。3.根據(jù)權利要求1所述的數(shù)據(jù)采集系統(tǒng),其特點是改變了傳統(tǒng)的手工整理數(shù)據(jù)的方法,利用電子表格、網(wǎng)絡在線上報導入或者系統(tǒng)規(guī)范化統(tǒng)統(tǒng)一接口標準,以及定期在指定的數(shù)據(jù)倉庫獲取互聯(lián)網(wǎng)上的半結構化數(shù)據(jù),該設計算法思想在所有電工行業(yè)協(xié)會采集數(shù)據(jù)的方式上是獨特而且唯一的。4.根據(jù)權利要求1所述的數(shù)據(jù)采集系統(tǒng),該系統(tǒng)實現(xiàn)了電工行業(yè)以行業(yè)協(xié)會為分類全部企業(yè)數(shù)據(jù)的數(shù)據(jù)采集工作。
【專利摘要】許昌開普電氣研究院對于企業(yè)信息的搜集停留在手工收集,手工整理,手工做報表的傳統(tǒng)信息化水平,大量的離線業(yè)務數(shù)據(jù)零散的分布在單機PC中,形成一個個信息孤島,離散化的數(shù)據(jù),使得難以對業(yè)務數(shù)據(jù)進行快速歷史、橫向?qū)Ρ?、縱向研究等有效的分析和利用;無法用信息化的手段實現(xiàn)零散數(shù)據(jù)的整理和積累,并及時的對數(shù)據(jù)進行分析應用。許昌開普研究院發(fā)明了“一種信息系統(tǒng)服務平臺用數(shù)據(jù)采集系統(tǒng)”,建立的信息系統(tǒng)服務平臺用開發(fā)了結構化和半結構化數(shù)據(jù)采集及非結構化數(shù)據(jù)的采集錄入,實現(xiàn)用信息化技術對離散數(shù)據(jù)的采集整理,解決手工采集、整理數(shù)據(jù)及海量數(shù)據(jù)快速處理的問題。
【IPC分類】G06F17/30
【公開號】CN105653573
【申請?zhí)枴?br>【發(fā)明人】姚致清, 胡韻華, 李志勇, 張喜玲, 韓萬林, 楊慧霞, 閆黎明, 贠雨含, 劉政, 蔣冠前, 陳勇, 蘇靜, 楊靜
【申請人】許昌開普電氣研究院, 《電力系統(tǒng)保護與控制》雜志社
【公開日】2016年6月8日
【申請日】2015年10月15日