一種全球能源互聯(lián)網(wǎng)技術(shù)資源數(shù)據(jù)收集方法
【專利摘要】本發(fā)明提供一種全球能源互聯(lián)網(wǎng)技術(shù)資源數(shù)據(jù)收集方法,該方法通過構(gòu)建收集系統(tǒng),對(duì)全球能源互聯(lián)網(wǎng)技術(shù)資源數(shù)據(jù)進(jìn)行分類;以不同的方式獲取所述全球能源互聯(lián)網(wǎng)技術(shù)資源數(shù)據(jù);針對(duì)全球能源互聯(lián)網(wǎng)技術(shù)資源數(shù)據(jù)特點(diǎn),采取基于Hadoop分布式平臺(tái)與Oracle全文檢索的全球能源互聯(lián)網(wǎng)數(shù)據(jù)存儲(chǔ)與檢索。本發(fā)明提出的方法實(shí)現(xiàn)了全面、有效及準(zhǔn)確的為全球能源互聯(lián)網(wǎng)技術(shù)進(jìn)行數(shù)據(jù)收集,為全球能源互聯(lián)網(wǎng)建設(shè)基于多源信息的分析、計(jì)算、規(guī)劃和輔助決策奠定基礎(chǔ),且其數(shù)據(jù)獲取方式多且靈活,數(shù)據(jù)種類豐富、包含信息多、存儲(chǔ)快捷安全且訪問迅速。
【專利說明】
一種全球能源互聯(lián)網(wǎng)技術(shù)資源數(shù)據(jù)收集方法
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及電網(wǎng)運(yùn)行管理領(lǐng)域,具體涉及一種全球能源互聯(lián)網(wǎng)技術(shù)資源數(shù)據(jù)收集方法。
【背景技術(shù)】
[0002]全球能源互聯(lián)網(wǎng)涉及的地理氣象環(huán)境跨度大、設(shè)計(jì)技術(shù)領(lǐng)域眾多,包含數(shù)據(jù)種類多且分散,存在收集困難,分析繁瑣的問題。
[0003]目前還沒有一個(gè)完整的全面支撐其研究,集成多專業(yè)領(lǐng)域信息的全球能源互聯(lián)網(wǎng)技術(shù)資源數(shù)據(jù)收集方法。全球能源互聯(lián)網(wǎng)就是“特高壓電網(wǎng)+智能電網(wǎng)+清潔能源”,以智能電網(wǎng)相關(guān)數(shù)據(jù)收集方法為參考。智能電網(wǎng)在數(shù)據(jù)收集時(shí)大多只考慮了電力行業(yè)相關(guān)數(shù)據(jù),數(shù)據(jù)獲取方式相對(duì)單一,數(shù)據(jù)種類相對(duì)較少,缺少全球化數(shù)據(jù)收集思維方式的思考。
【發(fā)明內(nèi)容】
[0004]有鑒于此,本發(fā)明提供的一種全球能源互聯(lián)網(wǎng)技術(shù)資源數(shù)據(jù)收集方法,該方法實(shí)現(xiàn)了全面、有效及準(zhǔn)確的為全球能源互聯(lián)網(wǎng)技術(shù)進(jìn)行數(shù)據(jù)收集,為全球能源互聯(lián)網(wǎng)建設(shè)基于多源信息的分析、計(jì)算、規(guī)劃和輔助決策奠定基礎(chǔ),且其數(shù)據(jù)獲取方式多且靈活,數(shù)據(jù)種類豐富、包含信息多、存儲(chǔ)快捷安全且訪問迅速。
[0005]本發(fā)明的目的是通過以下技術(shù)方案實(shí)現(xiàn)的:
[0006]—種全球能源互聯(lián)網(wǎng)技術(shù)資源數(shù)據(jù)收集方法,所述方法包括如下步驟:
[0007]步驟1.建立全球能源互聯(lián)網(wǎng)技術(shù)資源的數(shù)據(jù)收集系統(tǒng),所述數(shù)據(jù)收集系統(tǒng)包括相互通信的數(shù)據(jù)存儲(chǔ)單元、監(jiān)控單元、數(shù)據(jù)中心、可視化展示平臺(tái)、分析評(píng)估單元、專業(yè)化計(jì)算單元、數(shù)據(jù)維護(hù)單元及數(shù)據(jù)接口 ;
[0008]步驟2.根據(jù)全球能源互聯(lián)網(wǎng)數(shù)據(jù)的來源,對(duì)所述全球能源互聯(lián)網(wǎng)技術(shù)資源數(shù)據(jù)進(jìn)行分類;
[0009]步驟3.獲取所述全球能源互聯(lián)網(wǎng)技術(shù)資源數(shù)據(jù);
[0010]步驟4.基于Hadoop分布式平臺(tái)與Oracle全文檢索,建立全球能源互聯(lián)網(wǎng)數(shù)據(jù)存儲(chǔ)與檢索結(jié)構(gòu)系統(tǒng)。
[0011]優(yōu)選的,所述步驟I中的所述數(shù)據(jù)存儲(chǔ)單元包括Oracle數(shù)據(jù)庫及Hadoop分布式文件系統(tǒng);
[0012]所述監(jiān)控單元為接口監(jiān)控終端;
[0013]所述數(shù)據(jù)中心為全球能源互聯(lián)網(wǎng)數(shù)據(jù)中心,且為Oracle數(shù)據(jù)庫提供數(shù)據(jù)檢索,并基于Hadoop分布式文件系統(tǒng)進(jìn)行存儲(chǔ)及計(jì)算;
[0014]所述可視化展示平臺(tái)包括可視化的人機(jī)交互界面;
[0015]所述分析評(píng)估單元基于指標(biāo)體系構(gòu)建的數(shù)據(jù)分析與評(píng)估方法應(yīng)用;
[0016]所述專業(yè)化計(jì)算單元基于所述可視化平臺(tái)進(jìn)行計(jì)算;
[0017]所述數(shù)據(jù)維護(hù)單元用于對(duì)所述數(shù)據(jù)進(jìn)行管理及維護(hù);
[0018]所述數(shù)據(jù)接口包括數(shù)據(jù)人機(jī)界面接口、web界面數(shù)據(jù)自動(dòng)獲取接口和電力行業(yè)內(nèi)數(shù)據(jù)獲取接口。
[0019]優(yōu)選的,所述步驟2包括:
[0020]2-1.根據(jù)全球能源互聯(lián)網(wǎng)數(shù)據(jù)的來源,對(duì)所述全球能源互聯(lián)網(wǎng)技術(shù)資源數(shù)據(jù)進(jìn)行一次分類,得到一次分類數(shù)劇組;其中,所述一次分類數(shù)劇組包括地理信息數(shù)據(jù),氣象數(shù)據(jù),資源數(shù)據(jù),電力交易類數(shù)據(jù)、技術(shù)能力數(shù)據(jù)與基礎(chǔ)數(shù)據(jù);
[0021 ] 2-2.對(duì)所述一次分類數(shù)劇組中的各數(shù)據(jù)進(jìn)行二次分類,包括:
[0022]所述地理信息數(shù)據(jù)包括經(jīng)度及瑋度、山川、河流及湖泊的分布、水能、風(fēng)能及太陽能的能源分布信息;
[0023]所述氣象數(shù)據(jù)包括溫度、風(fēng)力及降水?dāng)?shù)據(jù);
[0024]所述資源數(shù)據(jù)包括風(fēng)、光、水、煤及天然氣的能源分布、成本及可開發(fā)儲(chǔ)量信息;
[0025]所述電力交易類數(shù)據(jù)包括市場(chǎng)報(bào)價(jià)、成交量、成交電價(jià)、負(fù)荷類型、電壓等級(jí)、日期及匯率信息;
[0026]所述技術(shù)能力數(shù)據(jù)包括電源類技術(shù)能力數(shù)據(jù)及電網(wǎng)類技術(shù)能力數(shù)據(jù);
[0027]所述基礎(chǔ)數(shù)據(jù)包括國家人口、GDP及第三產(chǎn)業(yè)GDP占比信息;
[0028]所述電源類技術(shù)能力數(shù)據(jù)包括風(fēng)電及光伏能源的發(fā)電機(jī)組類型、裝機(jī)容量及儲(chǔ)能參數(shù);所述電網(wǎng)類技術(shù)能力數(shù)據(jù)包括電網(wǎng)設(shè)備參數(shù)、線路容量及負(fù)荷數(shù)據(jù)。
[0029]優(yōu)選的,所述步驟3中獲取所述全球能源互聯(lián)網(wǎng)技術(shù)資源數(shù)據(jù)的方式包括:
[0030]用戶根據(jù)自身需求,進(jìn)行Web數(shù)據(jù)自動(dòng)搜索與獲?。?br>[0031]獲取電力行業(yè)專業(yè)數(shù)據(jù);其中,所述專業(yè)數(shù)據(jù)包括電力企業(yè)生產(chǎn)運(yùn)行數(shù)據(jù)、電力企業(yè)運(yùn)營(yíng)數(shù)據(jù)、電力企業(yè)管理數(shù)據(jù)、城市數(shù)據(jù)、指標(biāo)數(shù)據(jù)及專題數(shù)據(jù);
[0032]自動(dòng)提取文本中數(shù)據(jù)信息,并根據(jù)所述數(shù)據(jù)的類型劃分,實(shí)現(xiàn)基于文字分析功能的數(shù)據(jù)自動(dòng)獲取。
[0033]優(yōu)選的,所述用戶根據(jù)自身需求,進(jìn)行Web數(shù)據(jù)自動(dòng)搜索與獲取,包括:
[0034]a.用戶根據(jù)自身需求制定下載規(guī)則;
[0035]b.用戶根據(jù)所述下載規(guī)則,確定下載周期及系統(tǒng)運(yùn)行頻率,進(jìn)行Web數(shù)據(jù)自動(dòng)搜索與獲取。
[0036]優(yōu)選的,所述步驟b包括:
[0037]b_l.實(shí)時(shí)從目標(biāo)網(wǎng)站中獲取服務(wù)端的更新數(shù)據(jù),即所述網(wǎng)頁自動(dòng)瀏覽導(dǎo)航時(shí),混合處理html文本和JavaScript腳本,從頁面內(nèi)獲取超級(jí)鏈接,完成Web數(shù)據(jù)自動(dòng)搜索;
[0038]b-2.用戶根據(jù)所述下載規(guī)則,確定下載周期及系統(tǒng)運(yùn)行頻率,自動(dòng)獲取更新數(shù)據(jù)并將所述更新數(shù)據(jù)存儲(chǔ)至本地存儲(chǔ)目錄中;完成Web數(shù)據(jù)自動(dòng)獲取。
[0039]優(yōu)選的,若所述步驟b-Ι中的所述頁面為表格數(shù)據(jù)頁面,則所述步驟b-Ι中還包括:
[0040]c.用戶選擇表格字段信息與表格數(shù)據(jù)入庫方式;
[0041]d.記錄用戶選擇并定時(shí)按照所述用戶選擇,將所述表格數(shù)據(jù)頁面內(nèi)更新的數(shù)據(jù)入庫。
[0042]優(yōu)選的,所述獲取電力行業(yè)專業(yè)數(shù)據(jù)中的所述電力企業(yè)生產(chǎn)運(yùn)行數(shù)據(jù)包括發(fā)電量、配電網(wǎng)主設(shè)備及電壓穩(wěn)定性數(shù)據(jù),其中,所述配電網(wǎng)主設(shè)備包括高壓線路、主變壓器、中壓線路及配電變壓器;
[0043]所述電力企業(yè)運(yùn)營(yíng)數(shù)據(jù)包括交易電價(jià)、售電量及用電客戶數(shù)據(jù);
[0044]所述電力企業(yè)管理數(shù)據(jù)包括ERP、一體化平臺(tái)及協(xié)同辦公數(shù)據(jù);
[0045]所述城市數(shù)據(jù)包括城市的人口,地理位置及空氣質(zhì)量數(shù)據(jù)。
[0046]優(yōu)選的,所述自動(dòng)提取文本中數(shù)據(jù)信息,并根據(jù)所述數(shù)據(jù)的類型劃分,實(shí)現(xiàn)基于文字分析功能的數(shù)據(jù)自動(dòng)獲取,包括:
[0047]e.針對(duì)目標(biāo)URL,采用基于自然語言處理的抽取模型,自動(dòng)進(jìn)行文本信息的抽?。?br>[0048]f.將抽取得到的所述數(shù)據(jù)儲(chǔ)存在本地硬盤中;
[0049]g.根據(jù)基于樸素貝葉斯的文本分類技術(shù)對(duì)數(shù)據(jù)進(jìn)行自動(dòng)分類,并根據(jù)計(jì)算信息的技術(shù)資源數(shù)據(jù)信息類型所屬概率,將所述信息劃分為地理數(shù)據(jù)信息、氣象信息或能源信息。
[0050]優(yōu)選的,所述步驟4中的所述全球能源互聯(lián)網(wǎng)數(shù)據(jù)存儲(chǔ)與檢索結(jié)構(gòu)系統(tǒng)中的數(shù)據(jù)庫為關(guān)系型數(shù)據(jù)庫,且所述全球能源互聯(lián)網(wǎng)數(shù)據(jù)存儲(chǔ)與檢索結(jié)構(gòu)系統(tǒng)包括相互通信的信息收集模塊、索引模塊、文本聚類模塊、分類索引模塊、索引合并模塊、查詢模塊以及可視化模塊
[0051]從上述的技術(shù)方案可以看出,本發(fā)明提供了一種全球能源互聯(lián)網(wǎng)技術(shù)資源數(shù)據(jù)收集方法,該方法通過構(gòu)建收集系統(tǒng),;對(duì)全球能源互聯(lián)網(wǎng)技術(shù)資源數(shù)據(jù)進(jìn)行分類;以不同的方式獲取所述全球能源互聯(lián)網(wǎng)技術(shù)資源數(shù)據(jù);針對(duì)全球能源互聯(lián)網(wǎng)技術(shù)資源數(shù)據(jù)特點(diǎn),采取基于Hadoop分布式平臺(tái)與Oracle全文檢索的全球能源互聯(lián)網(wǎng)數(shù)據(jù)存儲(chǔ)與檢索。本發(fā)明提出的方法實(shí)現(xiàn)了全面、有效及準(zhǔn)確的為全球能源互聯(lián)網(wǎng)技術(shù)進(jìn)行數(shù)據(jù)收集,為全球能源互聯(lián)網(wǎng)建設(shè)基于多源信息的分析、計(jì)算、規(guī)劃和輔助決策奠定基礎(chǔ),且其數(shù)據(jù)獲取方式多且靈活,數(shù)據(jù)種類豐富、包含信息多、存儲(chǔ)快捷安全且訪問迅速。
[0052]與最接近的現(xiàn)有技術(shù)比,本發(fā)明提供的技術(shù)方案具有以下優(yōu)異效果:
[0053]1、本發(fā)明所提供的技術(shù)方案中,為全球能源互聯(lián)網(wǎng)建設(shè)基于多源信息的分析、計(jì)算、規(guī)劃和輔助決策奠定基礎(chǔ)。
[0054]2、本發(fā)明所提供的技術(shù)方案,基于數(shù)據(jù)中心硬件平臺(tái)的支撐,從數(shù)據(jù)分類、獲取、存儲(chǔ)三個(gè)方面來進(jìn)行全球能源互聯(lián)網(wǎng)技術(shù)資源數(shù)據(jù)的收集,實(shí)現(xiàn)了全面、有效及準(zhǔn)確的為全球能源互聯(lián)網(wǎng)技術(shù)進(jìn)行數(shù)據(jù)收集。
[0055]3、本發(fā)明所提供的技術(shù)方案,數(shù)據(jù)獲取方式多且靈活、數(shù)據(jù)種類豐富、包含信息多、存儲(chǔ)快捷安全且訪問迅速。
[0056]4、本發(fā)明提供的技術(shù)方案,應(yīng)用廣泛,具有顯著的社會(huì)效益和經(jīng)濟(jì)效益。
【附圖說明】
[0057]圖1是本發(fā)明的一種全球能源互聯(lián)網(wǎng)技術(shù)資源數(shù)據(jù)收集方法的流程圖;
[0058]圖2是本發(fā)明的數(shù)據(jù)收集方法中步驟2的流程示意圖;
[0059]圖3是本發(fā)明的數(shù)據(jù)收集方法中步驟3中的用戶根據(jù)自身需求,進(jìn)行Web數(shù)據(jù)自動(dòng)搜索與獲取的流程示意圖;
[0060]圖4是本發(fā)明的數(shù)據(jù)收集方法中步驟3中的自動(dòng)提取文本中數(shù)據(jù)信息,并根據(jù)所述數(shù)據(jù)的類型劃分,實(shí)現(xiàn)基于文字分析功能的數(shù)據(jù)自動(dòng)獲取的流程示意圖;
[0061]圖5是本發(fā)明的具體應(yīng)用例中的全球能源互聯(lián)網(wǎng)數(shù)據(jù)中心硬件架構(gòu)圖;
[0062]圖6是本發(fā)明的具體應(yīng)用例中的全球能源互聯(lián)網(wǎng)數(shù)據(jù)中心數(shù)據(jù)庫_ER模型圖;
[0063]圖7是本發(fā)明的具體應(yīng)用例中的全球能源互聯(lián)網(wǎng)數(shù)據(jù)檢索結(jié)構(gòu)。
【具體實(shí)施方式】
[0064]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0065]如圖1所示,本發(fā)明提供一種全球能源互聯(lián)網(wǎng)技術(shù)資源數(shù)據(jù)收集方法,方法包括如下步驟:
[0066]步驟1.建立全球能源互聯(lián)網(wǎng)技術(shù)資源的數(shù)據(jù)收集系統(tǒng),數(shù)據(jù)收集系統(tǒng)包括相互通信的數(shù)據(jù)存儲(chǔ)單元、監(jiān)控單元、數(shù)據(jù)中心、可視化展示平臺(tái)、分析評(píng)估單元、專業(yè)化計(jì)算單元、數(shù)據(jù)維護(hù)單元及數(shù)據(jù)接口 ;
[0067]步驟2.根據(jù)全球能源互聯(lián)網(wǎng)數(shù)據(jù)的來源,對(duì)全球能源互聯(lián)網(wǎng)技術(shù)資源數(shù)據(jù)進(jìn)行分類;
[0068]步驟3.獲取全球能源互聯(lián)網(wǎng)技術(shù)資源數(shù)據(jù);
[0069]步驟4.基于Hadoop分布式平臺(tái)與Oracle全文檢索,建立全球能源互聯(lián)網(wǎng)數(shù)據(jù)存儲(chǔ)與檢索結(jié)構(gòu)系統(tǒng)。
[°07°]其中,步驟I中的數(shù)據(jù)存儲(chǔ)單元包括Oracle數(shù)據(jù)庫及Hadoop分布式文件系統(tǒng);
[0071]監(jiān)控單元為接口監(jiān)控終端;
[0072]數(shù)據(jù)中心為全球能源互聯(lián)網(wǎng)數(shù)據(jù)中心,且為Oracle數(shù)據(jù)庫提供數(shù)據(jù)檢索,并基于Hadoop分布式文件系統(tǒng)進(jìn)行存儲(chǔ)及計(jì)算;
[0073]可視化展示平臺(tái)包括可視化的人機(jī)交互界面;
[0074]分析評(píng)估單元基于指標(biāo)體系構(gòu)建的數(shù)據(jù)分析與評(píng)估方法應(yīng)用;
[0075]專業(yè)化計(jì)算單元基于可視化平臺(tái)進(jìn)行計(jì)算;
[0076]數(shù)據(jù)維護(hù)單元用于對(duì)數(shù)據(jù)進(jìn)行管理及維護(hù);
[0077]數(shù)據(jù)接口包括數(shù)據(jù)人機(jī)界面接口、web界面數(shù)據(jù)自動(dòng)獲取接口和電力行業(yè)內(nèi)數(shù)據(jù)獲取接口。
[0078]其中,步驟3中獲取全球能源互聯(lián)網(wǎng)技術(shù)資源數(shù)據(jù)的方式包括:
[0079]用戶根據(jù)自身需求,進(jìn)行Web數(shù)據(jù)自動(dòng)搜索與獲取;
[0080]獲取電力行業(yè)專業(yè)數(shù)據(jù);其中,專業(yè)數(shù)據(jù)包括電力企業(yè)生產(chǎn)運(yùn)行數(shù)據(jù)、電力企業(yè)運(yùn)營(yíng)數(shù)據(jù)、電力企業(yè)管理數(shù)據(jù)、城市數(shù)據(jù)、指標(biāo)數(shù)據(jù)及專題數(shù)據(jù);
[0081]自動(dòng)提取文本中數(shù)據(jù)信息,并根據(jù)數(shù)據(jù)的類型劃分,實(shí)現(xiàn)基于文字分析功能的數(shù)據(jù)自動(dòng)獲取。
[0082]如圖2所示,步驟2包括:
[0083]2-1.根據(jù)全球能源互聯(lián)網(wǎng)數(shù)據(jù)的來源,對(duì)全球能源互聯(lián)網(wǎng)技術(shù)資源數(shù)據(jù)進(jìn)行一次分類,得到一次分類數(shù)劇組;其中,一次分類數(shù)劇組包括地理信息數(shù)據(jù),氣象數(shù)據(jù),資源數(shù)據(jù),電力交易類數(shù)據(jù)、技術(shù)能力數(shù)據(jù)與基礎(chǔ)數(shù)據(jù);
[0084]2-2.對(duì)一次分類數(shù)劇組中的各數(shù)據(jù)進(jìn)行二次分類,包括:
[0085]地理信息數(shù)據(jù)包括經(jīng)度及瑋度、山川、河流及湖泊的分布、水能、風(fēng)能及太陽能的能源分布信息;
[0086]氣象數(shù)據(jù)包括溫度、風(fēng)力及降水?dāng)?shù)據(jù);
[0087]資源數(shù)據(jù)包括風(fēng)、光、水、煤及天然氣的能源分布、成本及可開發(fā)儲(chǔ)量信息;
[0088]電力交易類數(shù)據(jù)包括市場(chǎng)報(bào)價(jià)、成交量、成交電價(jià)、負(fù)荷類型、電壓等級(jí)、日期及匯率?目息;
[0089]技術(shù)能力數(shù)據(jù)包括電源類技術(shù)能力數(shù)據(jù)及電網(wǎng)類技術(shù)能力數(shù)據(jù);
[0090]基礎(chǔ)數(shù)據(jù)包括國家人口、GDP及第三產(chǎn)業(yè)GDP占比信息。
[0091]其中,2-2中的電源類技術(shù)能力數(shù)據(jù)包括風(fēng)電及光伏能源的發(fā)電機(jī)組類型、裝機(jī)容量及儲(chǔ)能參數(shù);電網(wǎng)類技術(shù)能力數(shù)據(jù)包括電網(wǎng)設(shè)備參數(shù)、線路容量及負(fù)荷數(shù)據(jù)。
[0092]如圖3所示,步驟3中的用戶根據(jù)自身需求,進(jìn)行Web數(shù)據(jù)自動(dòng)搜索與獲取包括:
[0093]a.用戶根據(jù)自身需求制定下載規(guī)則;
[0094]b.用戶根據(jù)下載規(guī)則,確定下載周期及系統(tǒng)運(yùn)行頻率,進(jìn)行Web數(shù)據(jù)自動(dòng)搜索與獲取。
[0095]其中,步驟b包括:
[0096]b_l.實(shí)時(shí)從目標(biāo)網(wǎng)站中獲取服務(wù)端的更新數(shù)據(jù),即網(wǎng)頁自動(dòng)瀏覽導(dǎo)航時(shí),混合處理html文本和JavaScript腳本,從頁面內(nèi)獲取超級(jí)鏈接,完成Web數(shù)據(jù)自動(dòng)搜索;
[0097]b-2.用戶根據(jù)下載規(guī)則,確定下載周期及系統(tǒng)運(yùn)行頻率,自動(dòng)獲取更新數(shù)據(jù)并將更新數(shù)據(jù)存儲(chǔ)至本地存儲(chǔ)目錄中;完成Web數(shù)據(jù)自動(dòng)獲取。
[0098]其中,若步驟b-Ι中的頁面為表格數(shù)據(jù)頁面,則步驟b-Ι中還包括:
[0099]c.用戶選擇表格字段信息與表格數(shù)據(jù)入庫方式;
[0100]d.記錄用戶選擇并定時(shí)按照用戶選擇,將表格數(shù)據(jù)頁面內(nèi)更新的數(shù)據(jù)入庫。
[0101]其中,步驟4中的電力企業(yè)生產(chǎn)運(yùn)行數(shù)據(jù)包括發(fā)電量、配電網(wǎng)主設(shè)備及電壓穩(wěn)定性數(shù)據(jù),其中,配電網(wǎng)主設(shè)備包括高壓線路、主變壓器、中壓線路及配電變壓器;
[0102]電力企業(yè)運(yùn)營(yíng)數(shù)據(jù)包括交易電價(jià)、售電量及用電客戶數(shù)據(jù);
[0103]電力企業(yè)管理數(shù)據(jù)包括ERP、一體化平臺(tái)及協(xié)同辦公數(shù)據(jù);
[0104]城市數(shù)據(jù)包括城市的人口,地理位置及空氣質(zhì)量數(shù)據(jù)。
[0105]如圖4所示,步驟3中的自動(dòng)提取文本中數(shù)據(jù)信息,并根據(jù)數(shù)據(jù)的類型劃分,實(shí)現(xiàn)基于文字分析功能的數(shù)據(jù)自動(dòng)獲取包括:
[0106]e.針對(duì)目標(biāo)URL,采用基于自然語言處理的抽取模型,自動(dòng)進(jìn)行文本信息的抽??;
[0107]f.將抽取得到的數(shù)據(jù)儲(chǔ)存在本地硬盤中;
[0108]g.根據(jù)基于樸素貝葉斯的文本分類技術(shù)對(duì)數(shù)據(jù)進(jìn)行自動(dòng)分類,并根據(jù)計(jì)算信息的技術(shù)資源數(shù)據(jù)信息類型所屬概率,將信息劃分為地理數(shù)據(jù)信息、氣象信息或能源信息。
[0109]其中,步驟4中的全球能源互聯(lián)網(wǎng)數(shù)據(jù)存儲(chǔ)與檢索結(jié)構(gòu)系統(tǒng)中的數(shù)據(jù)庫為關(guān)系型數(shù)據(jù)庫,且全球能源互聯(lián)網(wǎng)數(shù)據(jù)存儲(chǔ)與檢索結(jié)構(gòu)系統(tǒng)包括相互通信的信息收集模塊、索引模塊、文本聚類模塊、分類索引模塊、索引合并模塊、查詢模塊以及可視化模塊。
[0110]本發(fā)明提供一種全球能源互聯(lián)網(wǎng)技術(shù)資源數(shù)據(jù)收集方法的具體應(yīng)用例,如下:
[0111]I)數(shù)據(jù)中心硬件架構(gòu)如圖5所示:
[0112]數(shù)據(jù)接口:包括數(shù)據(jù)人機(jī)界面、web界面數(shù)據(jù)自動(dòng)獲取和電力行業(yè)內(nèi)數(shù)據(jù)獲取。
[0113]數(shù)據(jù):全球能源互聯(lián)網(wǎng)數(shù)據(jù),給予Oracle數(shù)據(jù)庫進(jìn)行數(shù)據(jù)檢索,基于Hadoop分布式文件系統(tǒng)進(jìn)行存儲(chǔ)及計(jì)算。
[0114]可視化展示:可視化的人機(jī)交互界面
[0115]分析評(píng)估:基于指標(biāo)體系構(gòu)建的數(shù)據(jù)分析與評(píng)估方法應(yīng)用。
[0116]專業(yè)化計(jì)算:基于可視化平臺(tái)的專業(yè)計(jì)算功能。
[0117]數(shù)據(jù)維護(hù):數(shù)據(jù)管理及維護(hù)。
[0118]2)確立數(shù)據(jù)分類原則。根據(jù)全球能源互聯(lián)網(wǎng)數(shù)據(jù)來源的不同,數(shù)據(jù)可分類為地理信息數(shù)據(jù),氣象數(shù)據(jù),資源數(shù)據(jù),電力交易類數(shù)據(jù)、技術(shù)能力數(shù)據(jù)與基礎(chǔ)數(shù)據(jù)。地理信息數(shù)據(jù)主要包括經(jīng)度、瑋度,山川、河流、湖泊的分布、水能、風(fēng)能、太陽能等一次能源的分布信息。
[0119]氣象數(shù)據(jù)主要包括溫度、風(fēng)力、降水等。資源數(shù)據(jù)包括風(fēng)、光、水、煤、天然氣等一次能源分布、成本、可開發(fā)儲(chǔ)量等信息。
[0120]電力交易類數(shù)據(jù)主要包括各市場(chǎng)報(bào)價(jià),成交量,成交電價(jià)、負(fù)荷類型,電壓等級(jí),日期和匯率等信息;技術(shù)能力數(shù)據(jù)包含兩個(gè)方面的數(shù)據(jù):電源類技術(shù)能力數(shù)據(jù),電網(wǎng)類技術(shù)能力數(shù)據(jù)。
[0121]電源類技術(shù)能力數(shù)據(jù)主要包括風(fēng)電,光伏等能源的發(fā)電機(jī)組類型,裝機(jī)容量,儲(chǔ)能參數(shù)等;電網(wǎng)類技術(shù)能力數(shù)據(jù)主要包括電網(wǎng)設(shè)備參數(shù),線路容量,負(fù)荷等數(shù)據(jù);基礎(chǔ)數(shù)據(jù)包括國家人口,GDP,第三產(chǎn)業(yè)GDP占比等信息。如圖6所示。
[0122]3)針對(duì)用戶需要,進(jìn)行Web數(shù)據(jù)自動(dòng)搜索與獲取。
[0123]具體是指,用戶根據(jù)需求,自己制定下載規(guī)則,包括單一數(shù)據(jù)下載周期和系統(tǒng)自動(dòng)運(yùn)行頻率等,實(shí)時(shí)地從目標(biāo)網(wǎng)站中獲取最新的服務(wù)端推送的數(shù)據(jù),存儲(chǔ)到本地的存儲(chǔ)目錄中。
[0124]技術(shù)上可分為兩步,網(wǎng)頁自動(dòng)瀏覽導(dǎo)航,更新數(shù)據(jù)的自動(dòng)獲取。在網(wǎng)頁的自動(dòng)瀏覽導(dǎo)航方面,對(duì)html文本和JavaScript腳本作混合處理,完整地從頁面內(nèi)爬取所含的超級(jí)鏈接,在更新數(shù)據(jù)的自動(dòng)獲取方面,由上文用戶自己制定下載規(guī)則,確定下載周期和系統(tǒng)運(yùn)行頻率。針對(duì)表格數(shù)據(jù)頁面,選擇表格字段信息與表格數(shù)據(jù)入庫方式,程序會(huì)記錄下用戶選擇,今后定時(shí)地按照用戶選擇,將該頁面內(nèi)更新的數(shù)據(jù)入庫。
[0125]以上兩步實(shí)現(xiàn)了網(wǎng)頁更新數(shù)據(jù)的自動(dòng)獲取。
[0126]4)從電力行業(yè)內(nèi)獲取相關(guān)專業(yè)數(shù)據(jù)。
[0127]數(shù)據(jù)中心具有行業(yè)內(nèi)專業(yè)數(shù)據(jù)獲取通道,可以安全的從豐富的數(shù)據(jù)資源中獲取全球能源互聯(lián)網(wǎng)技術(shù)資源相關(guān)信息。專業(yè)數(shù)據(jù)包括電力企業(yè)生產(chǎn)運(yùn)行數(shù)據(jù),如發(fā)電量、配電網(wǎng)主設(shè)備(包括高壓線路、主變壓器、中壓線路及配電變壓器等)、電壓穩(wěn)定性等方面的數(shù)據(jù);電力企業(yè)運(yùn)營(yíng)數(shù)據(jù),如交易電價(jià)、售電量、用電客戶等方面數(shù)據(jù);電力企業(yè)管理數(shù)據(jù),如ERP、一體化平臺(tái)、協(xié)同辦公等方面的數(shù)據(jù)。其次,宏觀經(jīng)濟(jì)、氣象數(shù)據(jù)等指標(biāo)數(shù)據(jù)或?qū)n}數(shù)據(jù),國內(nèi)外多個(gè)城市的人口,地理位置,空氣質(zhì)量等數(shù)據(jù)也包含在電力行業(yè)數(shù)據(jù)資源庫中。
[0128]5)通過自動(dòng)提取文本數(shù)據(jù)信息,并對(duì)數(shù)據(jù)進(jìn)行分類的方法,實(shí)現(xiàn)基于文字分析功能的數(shù)據(jù)自動(dòng)獲取。
[0129]針對(duì)目標(biāo)URL,采用基于自然語言處理的抽取模型,自動(dòng)進(jìn)行文本信息的抽取,。抽取得到的數(shù)據(jù)儲(chǔ)存在本地硬盤中,使用基于樸素貝葉斯的文本分類技術(shù)對(duì)數(shù)據(jù)進(jìn)行自動(dòng)分類,通過計(jì)算某條信息屬于哪類技術(shù)資源數(shù)據(jù)信息的概率,將信息分類為地理數(shù)據(jù)信息,氣象信息,能源信息等。
[0130]6)基于Hadoop分布式平臺(tái)與Oracle全文檢索的全球能源互聯(lián)網(wǎng)數(shù)據(jù)存儲(chǔ)與檢索結(jié)構(gòu)模式。
[0131]Hadoop分布式文件存儲(chǔ)系統(tǒng)可處理結(jié)構(gòu)類型繁多,更新速度快,對(duì)海量歷史數(shù)據(jù)進(jìn)行離線分析處理與交互性強(qiáng)的全球能源互聯(lián)網(wǎng)技術(shù)資源數(shù)據(jù)。
[0132]Oracle全文檢索支持多源異構(gòu)信息源集合的全球能源互聯(lián)網(wǎng)信息,較大程度地保持原有數(shù)據(jù)的真實(shí)性。
[0133]該系統(tǒng)使用了關(guān)系型數(shù)據(jù)庫。系統(tǒng)的結(jié)構(gòu)主要包括信息收集模塊、索引模塊、文本聚類模塊、分類索引模塊、索引合并模塊、查詢模塊以及可視化模塊等,如圖7所示。
[0134]以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案而非對(duì)其限制,盡管參照上述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明,所屬領(lǐng)域的普通技術(shù)人員依然可以對(duì)本發(fā)明的【具體實(shí)施方式】進(jìn)行修改或者等同替換,而這些未脫離本發(fā)明精神和范圍的任何修改或者等同替換,其均在申請(qǐng)待批的本發(fā)明的權(quán)利要求保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1.一種全球能源互聯(lián)網(wǎng)技術(shù)資源數(shù)據(jù)收集方法,其特征在于,所述方法包括如下步驟: 步驟1.建立全球能源互聯(lián)網(wǎng)技術(shù)資源的數(shù)據(jù)收集系統(tǒng),所述數(shù)據(jù)收集系統(tǒng)包括相互通信的數(shù)據(jù)存儲(chǔ)單元、監(jiān)控單元、數(shù)據(jù)中心、可視化展示平臺(tái)、分析評(píng)估單元、專業(yè)化計(jì)算單元、數(shù)據(jù)維護(hù)單元及數(shù)據(jù)接口 ; 步驟2.根據(jù)全球能源互聯(lián)網(wǎng)數(shù)據(jù)的來源,對(duì)所述全球能源互聯(lián)網(wǎng)技術(shù)資源數(shù)據(jù)進(jìn)行分類; 步驟3.獲取所述全球能源互聯(lián)網(wǎng)技術(shù)資源數(shù)據(jù); 步驟4.基于Hadoop分布式平臺(tái)與Oracle全文檢索,建立全球能源互聯(lián)網(wǎng)數(shù)據(jù)存儲(chǔ)與檢索結(jié)構(gòu)系統(tǒng)。2.如權(quán)利要求1所述的方法,其特征在于,所述步驟I中的所述數(shù)據(jù)存儲(chǔ)單元包括Oracle數(shù)據(jù)庫及Hadoop分布式文件系統(tǒng); 所述監(jiān)控單元為接口監(jiān)控終端; 所述數(shù)據(jù)中心為全球能源互聯(lián)網(wǎng)數(shù)據(jù)中心,且為Oracle數(shù)據(jù)庫提供數(shù)據(jù)檢索,并基于Hadoop分布式文件系統(tǒng)進(jìn)行存儲(chǔ)及計(jì)算; 所述可視化展示平臺(tái)包括可視化的人機(jī)交互界面; 所述分析評(píng)估單元基于指標(biāo)體系構(gòu)建的數(shù)據(jù)分析與評(píng)估方法應(yīng)用; 所述專業(yè)化計(jì)算單元基于所述可視化平臺(tái)進(jìn)行計(jì)算; 所述數(shù)據(jù)維護(hù)單元用于對(duì)所述數(shù)據(jù)進(jìn)行管理及維護(hù); 所述數(shù)據(jù)接口包括數(shù)據(jù)人機(jī)界面接口、web界面數(shù)據(jù)自動(dòng)獲取接口和電力行業(yè)內(nèi)數(shù)據(jù)獲取接口。3.如權(quán)利要求1所述的方法,其特征在于,所述步驟2包括: 2-1.根據(jù)全球能源互聯(lián)網(wǎng)數(shù)據(jù)的來源,對(duì)所述全球能源互聯(lián)網(wǎng)技術(shù)資源數(shù)據(jù)進(jìn)行一次分類,得到一次分類數(shù)劇組;其中,所述一次分類數(shù)劇組包括地理信息數(shù)據(jù),氣象數(shù)據(jù),資源數(shù)據(jù),電力交易類數(shù)據(jù)、技術(shù)能力數(shù)據(jù)與基礎(chǔ)數(shù)據(jù); 2-2.對(duì)所述一次分類數(shù)劇組中的各數(shù)據(jù)進(jìn)行二次分類,包括: 所述地理信息數(shù)據(jù)包括經(jīng)度及瑋度、山川、河流及湖泊的分布、水能、風(fēng)能及太陽能的能源分布信息; 所述氣象數(shù)據(jù)包括溫度、風(fēng)力及降水?dāng)?shù)據(jù); 所述資源數(shù)據(jù)包括風(fēng)、光、水、煤及天然氣的能源分布、成本及可開發(fā)儲(chǔ)量信息; 所述電力交易類數(shù)據(jù)包括市場(chǎng)報(bào)價(jià)、成交量、成交電價(jià)、負(fù)荷類型、電壓等級(jí)、日期及匯率?目息; 所述技術(shù)能力數(shù)據(jù)包括電源類技術(shù)能力數(shù)據(jù)及電網(wǎng)類技術(shù)能力數(shù)據(jù); 所述基礎(chǔ)數(shù)據(jù)包括國家人口、⑶P及第三產(chǎn)業(yè)⑶P占比信息; 所述電源類技術(shù)能力數(shù)據(jù)包括風(fēng)電及光伏能源的發(fā)電機(jī)組類型、裝機(jī)容量及儲(chǔ)能參數(shù);所述電網(wǎng)類技術(shù)能力數(shù)據(jù)包括電網(wǎng)設(shè)備參數(shù)、線路容量及負(fù)荷數(shù)據(jù)。4.如權(quán)利要求1所述的方法,其特征在于,所述步驟3中獲取所述全球能源互聯(lián)網(wǎng)技術(shù)資源數(shù)據(jù)的方式包括: 用戶根據(jù)自身需求,進(jìn)行Web數(shù)據(jù)自動(dòng)搜索與獲??; 獲取電力行業(yè)專業(yè)數(shù)據(jù);其中,所述專業(yè)數(shù)據(jù)包括電力企業(yè)生產(chǎn)運(yùn)行數(shù)據(jù)、電力企業(yè)運(yùn)營(yíng)數(shù)據(jù)、電力企業(yè)管理數(shù)據(jù)、城市數(shù)據(jù)、指標(biāo)數(shù)據(jù)及專題數(shù)據(jù); 自動(dòng)提取文本中數(shù)據(jù)信息,并根據(jù)所述數(shù)據(jù)的類型劃分,實(shí)現(xiàn)基于文字分析功能的數(shù)據(jù)自動(dòng)獲取。5.如權(quán)利要求4所述的方法,其特征在于,所述用戶根據(jù)自身需求,進(jìn)行Web數(shù)據(jù)自動(dòng)搜索與獲取,包括: a.用戶根據(jù)自身需求制定下載規(guī)則; b.用戶根據(jù)所述下載規(guī)則,確定下載周期及系統(tǒng)運(yùn)行頻率,進(jìn)行Web數(shù)據(jù)自動(dòng)搜索與獲取。6.如權(quán)利要求5所述的方法,其特征在于,所述步驟b包括: b-Ι.實(shí)時(shí)從目標(biāo)網(wǎng)站中獲取服務(wù)端的更新數(shù)據(jù),即所述網(wǎng)頁自動(dòng)瀏覽導(dǎo)航時(shí),混合處理html文本和JavaScript腳本,從頁面內(nèi)獲取超級(jí)鏈接,完成Web數(shù)據(jù)自動(dòng)搜索; b_2.用戶根據(jù)所述下載規(guī)則,確定下載周期及系統(tǒng)運(yùn)行頻率,自動(dòng)獲取更新數(shù)據(jù)并將所述更新數(shù)據(jù)存儲(chǔ)至本地存儲(chǔ)目錄中;完成Web數(shù)據(jù)自動(dòng)獲取。7.如權(quán)利要求6所述的方法,其特征在于,若所述步驟b-Ι中的所述頁面為表格數(shù)據(jù)頁面,則所述步驟b-Ι中還包括: c.用戶選擇表格字段信息與表格數(shù)據(jù)入庫方式; d.記錄用戶選擇并定時(shí)按照所述用戶選擇,將所述表格數(shù)據(jù)頁面內(nèi)更新的數(shù)據(jù)入庫。8.如權(quán)利要求4所述的方法,其特征在于,所述獲取電力行業(yè)專業(yè)數(shù)據(jù)中的所述電力企業(yè)生產(chǎn)運(yùn)行數(shù)據(jù)包括發(fā)電量、配電網(wǎng)主設(shè)備及電壓穩(wěn)定性數(shù)據(jù),其中,所述配電網(wǎng)主設(shè)備包括高壓線路、主變壓器、中壓線路及配電變壓器; 所述電力企業(yè)運(yùn)營(yíng)數(shù)據(jù)包括交易電價(jià)、售電量及用電客戶數(shù)據(jù); 所述電力企業(yè)管理數(shù)據(jù)包括ERP、一體化平臺(tái)及協(xié)同辦公數(shù)據(jù); 所述城市數(shù)據(jù)包括城市的人口,地理位置及空氣質(zhì)量數(shù)據(jù)。9.如權(quán)利要求4所述的方法,其特征在于,所述自動(dòng)提取文本中數(shù)據(jù)信息,并根據(jù)所述數(shù)據(jù)的類型劃分,實(shí)現(xiàn)基于文字分析功能的數(shù)據(jù)自動(dòng)獲取,包括: e.針對(duì)目標(biāo)URL,采用基于自然語言處理的抽取模型,自動(dòng)進(jìn)行文本信息的抽??; f.將抽取得到的所述數(shù)據(jù)儲(chǔ)存在本地硬盤中; g.根據(jù)基于樸素貝葉斯的文本分類技術(shù)對(duì)數(shù)據(jù)進(jìn)行自動(dòng)分類,并根據(jù)計(jì)算信息的技術(shù)資源數(shù)據(jù)信息類型所屬概率,將所述信息劃分為地理數(shù)據(jù)信息、氣象信息或能源信息。10.如權(quán)利要求1所述的方法,其特征在于,所述步驟4中的所述全球能源互聯(lián)網(wǎng)數(shù)據(jù)存儲(chǔ)與檢索結(jié)構(gòu)系統(tǒng)中的數(shù)據(jù)庫為關(guān)系型數(shù)據(jù)庫,且所述全球能源互聯(lián)網(wǎng)數(shù)據(jù)存儲(chǔ)與檢索結(jié)構(gòu)系統(tǒng)包括相互通信的信息收集模塊、索引模塊、文本聚類模塊、分類索引模塊、索引合并模塊、查詢模塊以及可視化模塊。
【文檔編號(hào)】G06Q50/06GK105824945SQ201610161855
【公開日】2016年8月3日
【申請(qǐng)日】2016年3月21日
【發(fā)明人】周海明, 趙琦, 劉超群
【申請(qǐng)人】中國電力科學(xué)研究院, 國家電網(wǎng)公司, 國網(wǎng)天津市電力公司