一種面向防洪減災(zāi)領(lǐng)域的水利大數(shù)據(jù)存取系統(tǒng)及方法
【專利摘要】本發(fā)明公開了一種面向防洪減災(zāi)領(lǐng)域的水利大數(shù)據(jù)存取系統(tǒng)與方法,所述存取系統(tǒng)包括對象索引庫、對象編碼標(biāo)識、數(shù)據(jù)存儲HDFS、對象信息庫、對象分類器五個部分,使用自定義的編碼規(guī)則對水利系統(tǒng)中的各個部門、水利單元進行編碼,根據(jù)編碼將各個水利單元對象化,將關(guān)系型數(shù)據(jù)庫與Hadoop分布式文件系統(tǒng)緊密聯(lián)系起來,使用Hadoop分布式文件系統(tǒng)存儲水利大數(shù)據(jù)中的非結(jié)構(gòu)化數(shù)據(jù),建立非結(jié)構(gòu)化數(shù)據(jù)與對象的映射。
【專利說明】一種面向防洪減災(zāi)領(lǐng)域的水利大數(shù)據(jù)存取系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于面向防洪減災(zāi)領(lǐng)域的分布式大數(shù)據(jù)存儲領(lǐng)域,具體地涉及一種基于HDFS平臺,對涉及防洪減災(zāi)的水利數(shù)據(jù)實編碼方式、數(shù)據(jù)對象技術(shù),對水利大數(shù)據(jù)實現(xiàn)優(yōu)化存儲與訪問。
【背景技術(shù)】
[0002]隨著水利信息化的發(fā)展,經(jīng)濟社會和技術(shù)的發(fā)展擴展了水利數(shù)據(jù)服務(wù)的領(lǐng)域,現(xiàn)代水利數(shù)據(jù)的應(yīng)用早已不局限于防災(zāi)減災(zāi)、工程設(shè)計等傳統(tǒng)應(yīng)用范疇。3S、物聯(lián)網(wǎng)等現(xiàn)代信息采集技術(shù)的發(fā)展與應(yīng)用,全面拓展了水利信息的時空尺度和要素類型,水利數(shù)據(jù)的種類和數(shù)量急劇膨脹,逐漸呈現(xiàn)出多源、多維、大量和多態(tài)的大數(shù)據(jù)特征。從信息采集的角度看:2012年底,全國省級以上能接收數(shù)據(jù)的測(監(jiān))站128291處,按每秒產(chǎn)生一條8+8字節(jié)數(shù)據(jù)計算,一年將產(chǎn)生約60TB的實時數(shù)據(jù);從全國第一次水利普查的角度看:涉及對象:9900萬,4億條基礎(chǔ)數(shù)據(jù)記錄,這是歷史記錄。設(shè)550萬個水利對象和56萬個經(jīng)濟社會用水戶需要進行實時監(jiān)控,仍按每個對象每秒產(chǎn)生16字節(jié)記,一年將產(chǎn)生約2781TB的實時數(shù)據(jù);如果物聯(lián)網(wǎng)將所有水利對象都連入網(wǎng)絡(luò),則水利數(shù)據(jù)的量將遠遠超過一般認為的“大數(shù)據(jù)”量標(biāo)準(zhǔn)。有效存儲水利大數(shù)據(jù),已經(jīng)成為水利信息化發(fā)展面臨的重要關(guān)鍵技術(shù)問題之一。
[0003]目前,水利數(shù)據(jù)基本上采用以關(guān)系數(shù)據(jù)庫組織和管理結(jié)構(gòu)化數(shù)據(jù),用GIS加關(guān)系數(shù)據(jù)庫組織地理空間數(shù)據(jù),用關(guān)系數(shù)據(jù)庫管理目錄或特征加文件存儲數(shù)據(jù)實體組織半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),缺少對處理海量的水利大數(shù)據(jù),特別是圖像和數(shù)據(jù)流等半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)方面的考慮。
[0004]目前,水利信息中各類非結(jié)構(gòu)化數(shù)據(jù)紛繁復(fù)雜,如何對一種數(shù)據(jù)分類成為必須要解決的問題。同時,在水利信息中,數(shù)據(jù)量繁多,如何有效的分類,在實際運用中高效的展示所述的數(shù)據(jù)成為了當(dāng)前水利行業(yè)研究的重要課題。
[0005]經(jīng)初步檢索,暫未發(fā)現(xiàn)有與本
【發(fā)明內(nèi)容】
相關(guān)的專利條目。
【發(fā)明內(nèi)容】
[0006]發(fā)明目的:為了填補面向防洪減災(zāi)領(lǐng)域的水利大數(shù)據(jù)存儲與訪問的空白,制定一種水利對象與屬性,水利對象與編碼之間的映射關(guān)系,提供一套能夠?qū)⒎墙Y(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)相結(jié)合、面向?qū)ο蟮倪m合大數(shù)據(jù)存取的水利數(shù)據(jù)的存取系統(tǒng)與方法,提高數(shù)據(jù)訪問性能。
[0007]技術(shù)方案:一種面向防洪減災(zāi)領(lǐng)域的水利大數(shù)據(jù)存取系統(tǒng),包括對象索引庫、對象編碼標(biāo)識模塊、數(shù)據(jù)存儲HDFS、對象信息庫、對象分類器五個部分:
所述的對象編碼標(biāo)識模塊,通過制定的編碼規(guī)則,為每個水利單元進行標(biāo)記編碼,其編碼對所有水利單元具有唯一性;
所述的對象索引庫,為水利編碼與水利單元提供一種映射關(guān)系;
所述的數(shù)據(jù)存儲HDFS,主要使用Hadoop分布式文件系統(tǒng),對水利數(shù)據(jù)中的非結(jié)構(gòu)化數(shù)據(jù)按照一定的規(guī)律進行存儲;
所述的對象信息庫,包括各個水利對象及其屬性內(nèi)容,其對應(yīng)于非結(jié)構(gòu)化數(shù)據(jù)的路徑與接口 ;
所述的對象分類器,通過提取對象信息庫的特征值,使用數(shù)據(jù)挖掘中分類算法將其進行自動分類,滿足數(shù)據(jù)量大,人工分類難以完成的特點。
[0008]上述對象編碼標(biāo)識模塊使用面向?qū)ο笏枷?,將每個水利單元作為一個對象。為了方便查找與管理,對各個對象進行編碼,編碼規(guī)則:編碼其由18位組成,前六位為行政區(qū)劃代碼,第七至十四位為其竣工日期,第15至18位為順序碼。由此,其編碼具有唯一性。
[0009]上述對象信息庫將所有該對象的數(shù)據(jù),包括文檔、設(shè)計圖紙、照片等都作為其屬性,將其對象編碼作為所有屬性的唯一標(biāo)識并建立能反應(yīng)對象與其屬性的對應(yīng)關(guān)系。
[0010]上述對象分類器根據(jù)水利大數(shù)據(jù)的特點,分析對象信息庫,利用對象分類器,利用數(shù)據(jù)挖掘中的k-最臨近方法,每個類別含有多個訓(xùn)練數(shù)據(jù),其通過計算每個訓(xùn)練數(shù)據(jù)到待分類元組的距離,取和待分類元組距離最近的k個訓(xùn)練數(shù)據(jù)。其中,k值根據(jù)水利對象的訓(xùn)練情況而定。
[0011]上述對象索引庫,建立對象與其編碼的映射關(guān)系,建立一張對象、編碼、類別對應(yīng)的關(guān)系表。存儲其關(guān)系利用關(guān)系型數(shù)據(jù)庫,使用結(jié)構(gòu)化存儲。利用關(guān)系型數(shù)據(jù)庫查詢效率高的特點,實現(xiàn)對數(shù)據(jù)對象高效查詢。
[0012]一種面向防洪減災(zāi)領(lǐng)域的水利大數(shù)據(jù)存取方法,包括以下步驟:
(1)將各個水利數(shù)據(jù)進行整理,分別將數(shù)據(jù)按照面向?qū)ο蟮乃枷脒M行對象化,將數(shù)據(jù)按照其水利單元設(shè)計為一個對象,并將所有與此數(shù)據(jù)有關(guān)的文件進行整理;
(2)使用對象編碼標(biāo)識方法,對水利對象進行編碼;
(3)將所有于此對象有關(guān)的屬性內(nèi)容存儲到數(shù)據(jù)存儲HDFS中,在其存儲時,按照如下文件夾名命名目錄:一級目錄:行政區(qū)劃代碼、二級目錄:其竣工日期、三級目錄:此對象順序碼、四級目錄:存放文件類型;
(4)根據(jù)各個對象的編碼和其有關(guān)屬性內(nèi)容在數(shù)據(jù)存儲HDFS中的位置,建立對象信息庫,存放各個對象與其相關(guān)屬性的對應(yīng)關(guān)系;
(5)抽取其中某些特征性數(shù)據(jù),組成訓(xùn)練樣本,使用k-最臨近方法的數(shù)據(jù)挖掘算法,訓(xùn)練對象分類器;
(6)使用已經(jīng)訓(xùn)練完成的對象分類器對剩余數(shù)據(jù)進行分類;
(7)根據(jù)對象名稱、對象編碼、對象類別建立對象索引數(shù)據(jù)庫;
(8)查詢對象索引庫(可根據(jù)類別或者對象名稱查詢);
(9)若查找的對象存在,顯示對象信息庫中包含內(nèi)容;
(10)查看所需數(shù)據(jù)是否在該對象的對象信息庫中;
(11)若存在,獲取器相對應(yīng)的位于數(shù)據(jù)存儲HDFS中的地址;
(12)根據(jù)地址以數(shù)據(jù)流的形式,進行數(shù)據(jù)讀取。
[0013]水利大數(shù)據(jù)存儲方法,其存儲批量非結(jié)構(gòu)化數(shù)據(jù)工作流程為:
(1)對非結(jié)構(gòu)化水利數(shù)據(jù)進行整理分析,獲取其描述的共同的水利單元;
(2)判斷水利對象是否存在于對象索引庫中;
(3)若存在,獲取該對象的編碼。根據(jù)對象信息庫,尋找該對象存放屬性的目錄,將非結(jié)構(gòu)化數(shù)據(jù)存入該目錄,更新對象信息庫;
(4)若不存在,利用對象編碼標(biāo)識方法實現(xiàn)對象編碼。根據(jù)編碼在數(shù)據(jù)存儲HDFS中建立目錄并存放數(shù)據(jù),為對象與該對象的屬性建立對象信息庫,使用對象分類器,為該對象進行分類,最終寫入對象信息庫中。
[0014]本發(fā)明采用上述技術(shù)方案,具有以下有益效果:本發(fā)明通過對非結(jié)構(gòu)化水利數(shù)據(jù)的整理,利用Hadoop分布式文件系統(tǒng)進行存儲,制定一套適合于水利對象編碼的編碼規(guī)貝U,將非結(jié)構(gòu)化數(shù)據(jù)與水利單元相結(jié)合,使用面向?qū)ο蟮姆诸愃枷?,實現(xiàn)一個面向防洪減災(zāi)領(lǐng)域的水利大數(shù)據(jù)存取。
【專利附圖】
【附圖說明】
[0015]圖1為本發(fā)明實施例的系統(tǒng)拓撲結(jié)構(gòu)圖;
圖2為本發(fā)明實施例的面向防洪減災(zāi)領(lǐng)域的水利大數(shù)據(jù)存取方法中數(shù)據(jù)存儲批量非結(jié)構(gòu)化數(shù)據(jù)工作流程圖;
圖3為本發(fā)明實施例的面向防洪減災(zāi)領(lǐng)域的水利大數(shù)據(jù)存取方法中數(shù)據(jù)查找及獲取工作流程圖。
【具體實施方式】
[0016]下面結(jié)合具體實施例,進一步闡明本發(fā)明,應(yīng)理解這些實施例僅用于說明本發(fā)明而不用于限制本發(fā)明的范圍,在閱讀了本發(fā)明之后,本領(lǐng)域技術(shù)人員對本發(fā)明的各種等價形式的修改均落于本申請所附權(quán)利要求所限定的范圍。
[0017]如圖1所示,面向防洪減災(zāi)領(lǐng)域的水利大數(shù)據(jù)存取系統(tǒng),包括對象編碼標(biāo)識模塊、對象索引庫、對象分類器、對象信息庫、數(shù)據(jù)存儲HDFS ;
對象編碼標(biāo)識模塊,將每個水利單元作為一個對象,其編碼由18位組成,前六位為行政區(qū)劃代碼,第七至十四位為其竣工日期,第15至18位為順序碼。每個水利對象均只有唯一性。
[0018]對象信息庫,將所有該對象的數(shù)據(jù),包括文檔、設(shè)計圖紙、照片等都作為其屬性,將該對象編碼作為所有屬性的唯一標(biāo)識并建立能反應(yīng)對象及其屬性的對應(yīng)關(guān)系。
[0019]對象分類器,根據(jù)水利大數(shù)據(jù)的特點,分析對象信息庫,使用數(shù)據(jù)挖掘中的k_最臨近方法,每個類別含有多個訓(xùn)練數(shù)據(jù),其通過計算每個訓(xùn)練數(shù)據(jù)到待分類元組的距離,取和待分類元組距離最近的k個訓(xùn)練數(shù)據(jù)。其中,k的值根據(jù)水利對象的訓(xùn)練情況而定。
[0020]對象索引庫,建立對象與其編碼的映射關(guān)系,建立一張對象、編碼、類別對應(yīng)關(guān)系表。存儲其關(guān)系利用關(guān)系型數(shù)據(jù)庫,使用結(jié)構(gòu)化存儲。利用關(guān)系型數(shù)據(jù)庫查詢效率高的特點,對數(shù)據(jù)對象進行高效查詢。
[0021]圖2為面向防洪減災(zāi)領(lǐng)域的水利大數(shù)據(jù)存取方法中存儲數(shù)據(jù)的工作流程圖,其存儲批量非結(jié)構(gòu)化數(shù)據(jù)工作流程為:
(1)對非結(jié)構(gòu)化數(shù)據(jù),如圖片、音頻等按照水利單元進行分類和整理,將描述相同水利單元的非結(jié)構(gòu)化數(shù)據(jù)存放在一起,并將其中的非結(jié)構(gòu)化數(shù)據(jù)作為該水利單元的屬性的內(nèi)容;
(2)判斷對象是否存在于對象索引庫中; (3)若存在,獲取該對象的編碼,根據(jù)對象信息庫,尋找該對象存放屬性的目錄,將非結(jié)構(gòu)化數(shù)據(jù)存入該目錄,更新對象信息庫;
(4)若不存在,利用對象編碼標(biāo)識方法對對象進行編碼,根據(jù)編碼在數(shù)據(jù)存儲HDFS中建立目錄并存放數(shù)據(jù),為對象與該對象的屬性建立對象信息庫,使用對象分類器,為該對象進行分類,最終插入對象信息庫中。
[0022] 如圖3所示,面向防洪減災(zāi)領(lǐng)域的水利大數(shù)據(jù)存取方法,其存儲數(shù)據(jù)查找及獲取工作流程為:
(I)查詢對象索引庫(可根據(jù)類別或者對象名稱查詢);
(2 )若對象存在,顯示對象信息庫中包含內(nèi)容;
(3)查看所需數(shù)據(jù)是否在該對象的對象信息庫中;
(4)若存在,獲取其相對應(yīng)的位于數(shù)據(jù)存儲HDFS中的地址;
(5)根據(jù)地址以數(shù)據(jù)流的形式,進行數(shù)據(jù)的讀取。
【權(quán)利要求】
1.一種面向防洪減災(zāi)領(lǐng)域的水利大數(shù)據(jù)存取系統(tǒng),其特征在于:包括對象索引庫、對象編碼標(biāo)識模塊、數(shù)據(jù)存儲HDFS、對象信息庫和對象分類器: 所述的對象編碼標(biāo)識模塊,通過制定的編碼規(guī)則,為每個水利單元進行標(biāo)記編碼,其編碼對所有水利單元具有唯一性; 所述的對象索引庫,為水利編碼與水利單元提供一種映射關(guān)系; 所述的數(shù)據(jù)存儲HDFS,主要使用Hadoop分布式文件系統(tǒng),對水利數(shù)據(jù)中的非結(jié)構(gòu)化數(shù)據(jù)進行規(guī)律存儲; 所述的對象信息庫,包括各個水利對象及其屬性內(nèi)容,其對應(yīng)于非結(jié)構(gòu)化數(shù)據(jù)的路徑與接口 ; 所述的對象分類器,通過提取對象信息庫的特征值,使用數(shù)據(jù)挖掘中分類算法將其進行自動分類。
2.如權(quán)利要求1所述的面向防洪減災(zāi)領(lǐng)域的水利大數(shù)據(jù)存取系統(tǒng),其特征在于:所述對象編碼標(biāo)識模塊使用面向?qū)ο笏枷?,將每個水利單元作為一個對象,對各個對象進行編碼,其使用唯一性編碼規(guī)則:由18位組成,前六位為行政區(qū)劃代碼,第七至十四位為其竣工日期,第15至18位為順序碼。
3.如權(quán)利要求1所述的面向防洪減災(zāi)領(lǐng)域的水利大數(shù)據(jù)存取系統(tǒng),其特征在于:所述對象信息庫將所有該對象的數(shù)據(jù),包括文檔、設(shè)計圖紙和照片非結(jié)構(gòu)化數(shù)據(jù),都作為其屬性,將其對象編碼作為所有屬性的唯一標(biāo)識并建立反應(yīng)對象與其屬性的對應(yīng)關(guān)系。
4.如權(quán)利要求1所述的面向防洪減災(zāi)領(lǐng)域的水利大數(shù)據(jù)存取系統(tǒng),其特征在于:所述對象分類器根據(jù)水利大數(shù)據(jù)的特點,分析對象信息庫;在對象分類器,利用數(shù)據(jù)挖掘中的k_最臨近方法,每個類別含有多個訓(xùn)練數(shù)據(jù),其通過計算每個訓(xùn)練數(shù)據(jù)到待分類元組的距離,取和待分類元組距離最近的k個訓(xùn)練數(shù)據(jù)。
5.如權(quán)利要求1所述的面向防洪減災(zāi)領(lǐng)域的水利大數(shù)據(jù)存取系統(tǒng),其特征在于:使用對象索引庫,建立對象與其編碼的映射關(guān)系,建立一張對象、編碼、類別對應(yīng)的關(guān)系表。
6.一種面向防洪減災(zāi)領(lǐng)域的水利大數(shù)據(jù)存取方法,其特征在于,包括以下步驟: (1)將各個水利數(shù)據(jù)進行整理,分別將數(shù)據(jù)按照面向?qū)ο蟮乃枷脒M行對象化,將數(shù)據(jù)按照其水利單元設(shè)計為一個對象,并將所有與此數(shù)據(jù)有關(guān)的進行分類,之后將所有與此對象有關(guān)的文件整合在一起; (2)使用對象編碼標(biāo)識方法,對水利對象進行編碼; (3)將所有于此對象有關(guān)的屬性內(nèi)容存儲到數(shù)據(jù)存儲HDFS中,在其存儲時,按照如下文件夾名命名目錄:一級目錄:行政區(qū)劃代碼、二級目錄:其竣工日期、三級目錄:此對象順序碼、四級目錄:存放文件類型; (4)根據(jù)各個對象的編碼和其有關(guān)屬性內(nèi)容在數(shù)據(jù)存儲HDFS中的位置,建立對象信息庫,存放各個對象與其相關(guān)屬性的對應(yīng)關(guān)系; (5)抽取其中某些特征性數(shù)據(jù),組成訓(xùn)練樣本,使用k-最臨近方法的數(shù)據(jù)挖掘算法,訓(xùn)練對象分類器; (6)使用已經(jīng)訓(xùn)練完成的對象分類器對剩余數(shù)據(jù)進行分類; (7)根據(jù)對象名稱、對象編碼、對象類別建立對象索引數(shù)據(jù)庫; (8)查詢對象索引庫;(9)若查找的對象存在,顯示對象信息庫中包含內(nèi)容; (10)查看所需數(shù)據(jù)是否在該對象的對象信息庫中; (11)若存在,獲取器相對應(yīng)的位于數(shù)據(jù)存儲HDFS中的地址; (12)根據(jù)地址以數(shù)據(jù)流的形式,進行數(shù)據(jù)讀取。
7.如權(quán)利要求1所述的面向防洪減災(zāi)領(lǐng)域的水利大數(shù)據(jù)存取方法,其特征在于,其存儲批量非結(jié)構(gòu)化水利數(shù)據(jù)工作流程為: (1)對非結(jié)構(gòu)化水利數(shù)據(jù)進行整理分析,獲取其描述的共同的水利單元; (2)判斷水利對象是否存在于對象索引庫中; (3)若存在,獲取該對象的編碼;根據(jù)對象信息庫,尋找該對象存放屬性的目錄,將非結(jié)構(gòu)化數(shù)據(jù)存入該目錄,更新對象信息庫; (4)若不存在, 利用對象編碼標(biāo)識方法實現(xiàn)對象編碼;根據(jù)編碼在數(shù)據(jù)存儲HDFS中建立目錄并存放數(shù)據(jù),為對象與該對象的屬性建立對象信息庫,使用對象分類器,為該對象進行分類,最終寫入對象信息庫中。
【文檔編號】G06F17/30GK103970842SQ201410169799
【公開日】2014年8月6日 申請日期:2014年4月24日 優(yōu)先權(quán)日:2014年4月24日
【發(fā)明者】毛鶯池, 王久龍, 平萍, 顧剛, 戚榮志, 任道寧, 閔偉 申請人:河海大學(xué)