本發(fā)明涉及水利水電數據構建技術領域,具體涉及一種水利水電大數據架構建設方法。
背景技術:
隨著“數字水利”的提出,人們逐步認識到只有借助于信息技術、計算機技術、網絡技術才能實現(xiàn)水利水電行業(yè)的管理現(xiàn)代化,達到知識經濟時代發(fā)展的要求。“數字水利”能夠為水利水電行業(yè)構造一個統(tǒng)一的、立體的、開放式的信息系統(tǒng),為水利水電部門的決策提供信息支持,實現(xiàn)水利水電可持續(xù)發(fā)展。同時,加強水利重點工程的信息化管理,將先進的管理思想、方法及信息技術運用到水利水電工程的科學管理中去,建立健全水利水電工程管理機制,推動水利水電管理的精確化、科學化勢在必行。因此,作為“水利信息化”的基礎支撐技術,水利水電工程水利水電大數據信息化建設己經成為提高水利水電工程建設績效和質量管控的重要手段。未來大數據發(fā)展是各個行業(yè)發(fā)展方向,但在水利水電行業(yè)中并沒有形成專有的技術方法,采用傳統(tǒng)大數據分析方法無法對水利水電行業(yè)數據進行體系化的采集、挖掘、分析和形成指導數據。因此了解大數據發(fā)展趨勢,建立一種專有的大數據分析方法,在水利水電大數據未來發(fā)展中十分重要。
技術實現(xiàn)要素:
本發(fā)明的目的在于針對現(xiàn)有水利水電大數據體系建設技術在水利水電行業(yè)應用的技術缺陷,提供一種水利水電大數據架構建設方法。
本發(fā)明的技術方案是:
一種水利水電大數據架構建設方法,包括水利水電大數據采集系統(tǒng)、水利水電大數據挖掘系統(tǒng)、水利水電大數據挖掘模型庫、水利水電大數據分析系統(tǒng)及水利水電大數據分布服務器節(jié)點控制系統(tǒng),包括以下幾個步驟:
(a)可用數據的采集和存儲:水利水電大數據架構建設方法利用水利水電大數據采集系統(tǒng)中的網絡爬蟲技術,對互聯(lián)網、水利水電大數據所在內網中的可用數據進行采集,對可用數據進行META數據校驗分析,校驗分析后的數據交由水利水電大數據分布服務器節(jié)點控制系統(tǒng)進行分類存儲; META數據校驗分析包括以下幾個步驟:
1)定義提出有效數據檢索范圍邊界條件;
2)制定檢索策略,在檢索范圍內廣泛收集;
3)確定納入和排除標準,剔除不符合要求的文獻;
4)數據測試質量評估和特征描述;
5)異質性檢驗;
6)統(tǒng)計合并效應量并進行統(tǒng)計推斷;
7)敏感性分析;
8)作出結論及評價;
(b)水利水電大數據的挖掘:水利水電大數據挖掘系統(tǒng)向水利水電大數據分布服務器節(jié)點控制系統(tǒng)提交請求并獲取分類存儲的數據,水利水電大數據挖掘系統(tǒng)通過以下步驟對分類存儲的數據進行數據特性對比:將符合特征的數據所在位置索引遞交進行數據分析,得到有效數據;數據特性對比包括以下幾個步驟:
1) 根據用戶定義的關鍵字條件,明確數據挖掘任務的具體特征,在基于Hadoop平臺的水電大數據分布服務器節(jié)點控制系統(tǒng)歸類存檔系統(tǒng)中進行海量數據檢索、提取;
2) 對獲得數據進行預處理,確定數據挖掘任務所涉及的目標數據,對其進行數據噪聲消除、消除冗余數據等處理,然后降維;
3) 對降噪去贅后的數據與用戶邊界條件進行模糊對比;
(c)對比數據的提?。核姶髷祿诰蛳到y(tǒng)中用于數據特性對比的數據的特征、特性定義從水利水電大數據挖掘模型庫中提?。?/p>
(d)水利水電大數據的分析:水利水電大數據挖掘系統(tǒng)將數據挖掘產生的有效數據在水利水電大數據分析系統(tǒng)進一步進行分析,水利水電大數據分析系統(tǒng)通過對有效數據的時間、位置、字節(jié)、出現(xiàn)頻率、網絡標簽和自定義特征的描述,生成最終可為水利水電行業(yè)決策提供數據支撐的趨勢數據報表。
優(yōu)選的,所述的水利水電大數據采集系統(tǒng)、水利水電大數據挖掘系統(tǒng)、水利水電大數據挖掘模型庫、水利水電大數據分析系統(tǒng)及水利水電大數據分布服務器節(jié)點控制系統(tǒng)分別部署在不同的服務器上,采用TCP/IP網絡進行互通互聯(lián);數據的存儲采用Hadoop服務器。
優(yōu)選的,所述水利水電大數據分析系統(tǒng)包括數據計算服務器、統(tǒng)一數據采集模塊、數據輸出模塊、大數據及計算模型管理SPM,統(tǒng)一數據采集模塊、數據輸出模塊、大數據及計算模型管理SPM均與數據計算服務器連接,統(tǒng)一數據采集模塊實時采集用戶邊界條件,所述用戶邊界條件包括混凝土澆筑數據、施工現(xiàn)場氣候數據、水庫運行管理數據及大壩微裂變形數據;數據計算服務器從統(tǒng)一數據采集模塊中讀取實時采集的數據,再通過在線計算或者離線計算對采集的數據進行處理;大數據及計算模型管理SPM存放采集的數據或者處理后的數據或者其它數據;數據輸出模塊將數據計算服務器處理的數據輸出成為分析結果及支撐數據,分析結果及支撐數據包括傳統(tǒng)報表、查詢數據、可視化數據、即席分析數據、可提取數據中的一種或者多種,或者其它形式的數據。
本發(fā)明的有益效果是:
本發(fā)明的水利水電大數據架構建設方法相對于傳統(tǒng)大數據分析方法,可實現(xiàn)對水利水電行業(yè)數據進行體系化的采集、挖掘、分析并形成指導數據,有利于提高水利水電工程建設績效和質量管控水平,同時提高了水利水電工程的信息化管理水平。
附圖說明
圖1為本發(fā)明的系統(tǒng)框圖;
圖2為本發(fā)明中水利水電大數據分析系統(tǒng)的運行模式結構框圖;
圖2中圖框1為用戶邊界條件,圖框2為分析結果及支撐數據。
具體實施方式
參見圖1-2,一種水利水電大數據架構建設方法,包括水利水電大數據采集系統(tǒng)(SunGather)、水利水電大數據挖掘系統(tǒng)(SunGroove)、水利水電大數據挖掘模型庫、水利水電大數據分析系統(tǒng)(Sunalizer)及水利水電大數據分布服務器節(jié)點控制系統(tǒng)五部分,包括如下幾個步驟:
(a)可用數據的采集和存儲:所述水利水電大數據架構建設方法利用水利水電大數據采集系統(tǒng)中的網絡爬蟲技術(Crawler),對互聯(lián)網、水利水電大數據采集系統(tǒng)所在內網中的可用數據進行采集,對可用數據進行META數據校驗后,交由水利水電大數據分布服務器節(jié)點控制系統(tǒng)進行分類存儲;META數據校驗分析包括以下幾個步驟:
1)定義提出有效數據檢索范圍邊界條件;
2)制定檢索策略,在檢索范圍內廣泛收集;
3)確定納入和排除標準,剔除不符合要求的文獻;
4)數據測試質量評估和特征描述;
5)異質性檢驗;
6)統(tǒng)計合并效應量并進行統(tǒng)計推斷;
7)敏感性分析;
8)作出結論及評價;
(b)水利水電大數據的挖掘:水利水電大數據挖掘系統(tǒng)向水利水電大數據分布服務器節(jié)點控制系統(tǒng)提交請求獲取分類存儲的數據,水利水電大數據挖掘系統(tǒng)對分類存儲的數據進行數據特性對比,將符合特征的數據所在位置索引遞交進行數據分析;
1) 根據用戶定義的關鍵字條件(如:拱壩、大體積混凝土、平半鋼閘門、農田水利等關鍵字),明確數據挖掘任務的具體特征,在基于Hadoop平臺的水電大數據分布服務器節(jié)點控制系統(tǒng)歸類存檔系統(tǒng)中進行海量數據檢索、提??;
2) 對獲得數據進行預處理,確定數據挖掘任務所涉及的目標數據,對其進行數據噪聲消除、消除冗余數據等處理,然后降維;
3) 對降噪去贅后的數據與用戶邊界條件進行模糊對比;
(c)對比數據的提?。核姶髷祿诰蛳到y(tǒng)中用于數據特性對比的數據的特征、特性定義從水利水電大數據挖掘模型庫中提取;
(d)水利水電大數據的分析:水利水電大數據挖掘系統(tǒng)將數據挖掘產生的有效數據在水利水電大數據分析系統(tǒng)進一步進行分析,水利水電大數據分析系統(tǒng)通過對有效數據的時間、位置、字節(jié)、出現(xiàn)頻率、網絡標簽和自定義特征的描述,生成最終可為水利水電行業(yè)決策提供數據支撐的趨勢數據報表;
水利水電大數據采集系統(tǒng)(SunGather)、水利水電大數據挖掘系統(tǒng)(SunGroove)、水利水電大數據挖掘模型庫、水利水電大數據分析系統(tǒng)(Sunalizer)及水利水電大數據分布服務器節(jié)點控制系統(tǒng)分別部署在5臺不同的服務器上,采用TCP/IP網絡進行互通互聯(lián);數據的存儲采用Hadoop服務器,與水利水電大數據采集、挖掘、分析邏輯分開,隨時添加擴展任意數量的存儲服務器。
水利水電大數據分析系統(tǒng)包括數據計算服務器、統(tǒng)一數據采集模塊、數據輸出模塊、大數據及計算模型管理SPM(Scratch Pad Memory 便箋式存貯器高速暫存存貯器),統(tǒng)一數據采集模塊、數據輸出模塊、大數據及計算模型管理SPM均與數據計算服務器連接,統(tǒng)一數據采集模塊實時的采集用戶邊界條件,所述用戶邊界條件包括混凝土澆筑數據、施工現(xiàn)場氣候數據、水庫運行管理數據及大壩微裂變形數據中的一種、多種,或者采集其它需要采集的數據;數據計算服務器從統(tǒng)一數據采集模塊中讀取實時采集的數據,再通過在線計算或者離線計算對采集的數據進行處理;大數據及計算模型管理SPM存放采集的數據或者處理后的數據或者其它數據;數據輸出模塊將數據計算服務器處理的數據輸出成為分析結果及支撐數據,分析結果及支撐數據包括傳統(tǒng)報表、查詢數據、可視化數據、即席分析數據、可提取數據中的一種或者多種,或者其它形式的數據。