一種社區(qū)管理服務大數(shù)據(jù)處理系統(tǒng)及其處理方法
【技術領域】
[0001] 本發(fā)明涉及大數(shù)據(jù)處理分析,特別是涉及針對社區(qū)管理服務的大數(shù)據(jù)處理系統(tǒng)及 方法。
【背景技術】
[0002] 社區(qū)管理是社會治理的細胞,是國家治理體系和治理能力現(xiàn)代化建設的重要基 礎?;ヂ?lián)網(wǎng)尤其是移動互聯(lián)網(wǎng)在社區(qū)管理服務中的廣泛應用,以及社交網(wǎng)絡、智慧城市等新 型信息源的不斷涌現(xiàn),催生了多源、動態(tài)、海量、異構的社區(qū)管理服務大數(shù)據(jù)。
[0003] 目前主流的大數(shù)據(jù)計算方法為開源分布式計算平臺Hadoop,其核心為分布式文件 系統(tǒng)HDFS與編程模型MapReduce。雖然Mapreduce擅長處理半結構化數(shù)據(jù)與結構化數(shù)據(jù), 然而針對特定需求的數(shù)據(jù)處理任務效率低下,面對社區(qū)管理服務大數(shù)據(jù)對時效性要求高的 問題尚未形成良好的解決辦法,也沒有形成完整的冗余數(shù)據(jù)集成機制,為開發(fā)社區(qū)管理服 務大數(shù)據(jù)的潛在價值帶來了不便。
【發(fā)明內容】
[0004] 本發(fā)明是為了克服現(xiàn)有技術存在的不足之處,提供一種社區(qū)管理服務大數(shù)據(jù)處理 系統(tǒng)及其處理方法,以期能形成面向社區(qū)管理服務的半結構化數(shù)據(jù)和結構化數(shù)據(jù)的采集機 制,針對具有不同時效性的社區(qū)管理服務大數(shù)據(jù)形成高效的存儲機制,為解決社區(qū)管理服 務大數(shù)據(jù)冗余性高的問題形成完整的集成機制,從而提升社區(qū)管理服務大數(shù)據(jù)的處理效 率。
[0005] 本發(fā)明為達到上述目的所采用的技術方案是:
[0006] 本發(fā)明一種社區(qū)管理服務大數(shù)據(jù)處理系統(tǒng)的特點包括:社區(qū)管理服務數(shù)據(jù)庫、數(shù) 據(jù)收集系統(tǒng)和數(shù)據(jù)集成系統(tǒng);
[0007] 所述數(shù)據(jù)收集系統(tǒng)包括半結構化數(shù)據(jù)采集模塊和結構化數(shù)據(jù)采集模塊;所述半結 構化數(shù)據(jù)采集模塊用于對社區(qū)管理服務的HTML格式數(shù)據(jù)進行定向采集,獲得半結構化數(shù) 據(jù);所述結構化數(shù)據(jù)采集模塊對社區(qū)管理服務數(shù)據(jù)庫的數(shù)據(jù)進行定向采集,獲得結構化數(shù) 據(jù);
[0008] 所述數(shù)據(jù)集成系統(tǒng)包括數(shù)據(jù)轉換模塊和數(shù)據(jù)融合模塊;所述數(shù)據(jù)轉換模塊將所述 半結構化數(shù)據(jù)轉換為新結構化數(shù)據(jù),所述數(shù)據(jù)融合模塊對結構化數(shù)據(jù)和新結構化數(shù)據(jù)進行 基于關鍵字的整合處理,獲得社區(qū)管理服務的結構化數(shù)據(jù)。
[0009] 本發(fā)明一種社區(qū)管理服務大數(shù)據(jù)處理系統(tǒng)的處理方法的特點是按如下步驟進 行:
[0010] 步驟1、獲得半結構化數(shù)據(jù)并進行存儲;
[0011] 步驟1. 1、構建用于臨時存儲半結構化數(shù)據(jù)的XML模板文檔;
[0012] 步驟1. 2、利用篩選器對社區(qū)管理服務的HTML格式數(shù)據(jù)進行解析并定向抓??;獲 得半結構化數(shù)據(jù);將所述半結構化數(shù)據(jù)存入所述XML模板文檔中;
[0013] 步驟2、獲得長期存儲數(shù)據(jù)并進行存儲;
[0014] 步驟2. 1、對社區(qū)管理服務數(shù)據(jù)庫中的任意長期存儲數(shù)據(jù)進行定向采集,獲得第v 個長期結構化數(shù)據(jù),記為
【主權項】
1. 一種社區(qū)管理服務大數(shù)據(jù)處理系統(tǒng),其特征包括:社區(qū)管理服務數(shù)據(jù)庫、數(shù)據(jù)收集 系統(tǒng)和數(shù)據(jù)集成系統(tǒng); 所述數(shù)據(jù)收集系統(tǒng)包括半結構化數(shù)據(jù)采集模塊和結構化數(shù)據(jù)采集模塊;所述半結構化 數(shù)據(jù)采集模塊用于對社區(qū)管理服務的HTML格式數(shù)據(jù)進行定向采集,獲得半結構化數(shù)據(jù);所 述結構化數(shù)據(jù)采集模塊對社區(qū)管理服務數(shù)據(jù)庫的數(shù)據(jù)進行定向采集,獲得結構化數(shù)據(jù); 所述數(shù)據(jù)集成系統(tǒng)包括數(shù)據(jù)轉換模塊和數(shù)據(jù)融合模塊;所述數(shù)據(jù)轉換模塊將所述半結 構化數(shù)據(jù)轉換為新結構化數(shù)據(jù),所述數(shù)據(jù)融合模塊對結構化數(shù)據(jù)和新結構化數(shù)據(jù)進行基于 關鍵字的整合處理,獲得社區(qū)管理服務的結構化數(shù)據(jù)。
2. -種利用權利要求1所述的社區(qū)管理服務大數(shù)據(jù)處理系統(tǒng)的處理方法,其特征是按 如下步驟進行: 步驟1、獲得半結構化數(shù)據(jù)并進行存儲; 步驟1. 1、構建用于臨時存儲半結構化數(shù)據(jù)的XML模板文檔; 步驟1. 2、利用篩選器對社區(qū)管理服務的HTML格式數(shù)據(jù)進行解析并定向抓??;獲得半 結構化數(shù)據(jù);將所述半結構化數(shù)據(jù)存入所述XML模板文檔中; 步驟2、獲得長期存儲數(shù)據(jù)并進行存儲; 步驟2. 1、對社區(qū)管理服務數(shù)據(jù)庫中的任意長期存儲數(shù)據(jù)進行定向采集,獲得第v個長 期結構化數(shù)據(jù),記彡
彳W表示所述第v個長期結構化數(shù)據(jù)Av 中第i個的元素;;V表示所述長期存儲數(shù)據(jù)的總數(shù); 步驟2. 2、創(chuàng)建用于存儲所述第v個長期結構化數(shù)據(jù)\的第一數(shù)據(jù)鏈棧義'1與第二數(shù)據(jù) 鏈棧; 步驟2. 3、根據(jù)所述第v個長期結構化數(shù)據(jù)Av的生成時間將所述第v個長期結構化數(shù) 據(jù)Av依次存入所述第一數(shù)據(jù)鏈棧dv);并用元素屬性Date來表示所述第v個長期結構化數(shù) 據(jù)Av的生成時間,記為
;表示所述第v 個長期結構化數(shù)據(jù)Av中第i個的元素的生成時間; 步驟2. 4、初始化i = 1 ;則所述第一數(shù)據(jù)鏈棧義1中第i個元素4?表示棧頂元素; 步驟2. 5、令指針指向所述第i個元素; 步驟2. 6、將所述第i個元素#的生成時間與時間閾值A進行比較;在所述第 i個元素才;生成時間Da砵1大于所述時間閾值A時,取出所述第i個元素#并壓入到所 述第二數(shù)據(jù)鏈棧中;并將i+1賦給i后,返回步驟2. 5順序執(zhí)行;從而利用所述第二數(shù) 據(jù)鏈棧七1完成長期存儲數(shù)據(jù)的存儲;并形成第v個長期存儲數(shù)據(jù)表,進而獲得V個長期存 儲數(shù)據(jù)表; 步驟3、獲得臨時存儲數(shù)據(jù)并進行存儲; 步驟3. 1、根據(jù)設定周期對所述社區(qū)管理服務數(shù)據(jù)庫中的臨時存儲數(shù)據(jù)進行定向采集, 獲得臨時結構化數(shù)據(jù); 步驟3. 2、創(chuàng)建容量為S的隊列Queue 1 ; 步驟3. 3、將所述臨時存儲數(shù)據(jù)壓入所述隊列Queuel ; 步驟3. 4、用元素數(shù)據(jù)Data來表示存放在所述社區(qū)管理服務數(shù)據(jù)庫中的其他臨時存儲 數(shù)據(jù); 步驟3. 5、判斷所述隊列Queuel是否空余,若空余,則將所述元素數(shù)據(jù)Data順序存放在 所述隊列Queuel的隊尾;若所述隊列Queuel已滿,則刪除所述隊列Queuel的隊頭元素,并 將所述元素數(shù)據(jù)Data插入到所述隊列Queuel的隊尾;從而形成臨時存儲數(shù)據(jù)表; 步驟4、將所述XML模板文檔采用關鍵字映射機制生成結構化數(shù)據(jù)表;將所述半結構化 數(shù)據(jù)存入所述結構化數(shù)據(jù)表; 步驟5、對所述長期存儲數(shù)據(jù)表、臨時存儲數(shù)據(jù)表與結構化數(shù)據(jù)表進行基于主鍵關聯(lián)的 去冗整合操作,包括: 步驟5. 1、對所述V個長期存儲數(shù)據(jù)表、臨時存儲數(shù)據(jù)表與結構化數(shù)據(jù)表依次標記形 成數(shù)據(jù)表 label = {labels, label2,…,label』,…,labelv+2} ;labelj表示第 j 個數(shù)據(jù)表; 1 ^ j ^ V+2 ; 步驟5. 2、對所述數(shù)據(jù)表label依次設立整合標志位flag ;記為flag = {flag。flag2,…,flag』,…,flagv+2} ;flagj表示第j個數(shù)據(jù)表label』的整合標志位; 步驟5. 3、初始化j = 1,flag^= 1 ;則將第j個數(shù)據(jù)表label d乍為參照表; 步驟5. 4、將所述第j個數(shù)據(jù)表labe^與第j+1個數(shù)據(jù)表label ^按照相似度規(guī)則進行 關鍵字相似度比較;所述相似度規(guī)則為:若^心*0,則設置flagj+i=丨,并進行 表整合操作,即labeljU label j+1= labelj。j+1;并執(zhí)行步驟5. 5;若?心/,「、/"?/川=0, 則設置flagj+1= 0,并執(zhí)行步驟5. 6 ; 步驟5. 5、將label」。j+1賦值給label j+1;判斷j+1 = V+2是否成立,若成立,表示完成 表整合操作,形成社區(qū)管理服務數(shù)據(jù)表label';并執(zhí)行步驟5. 7 ;否則,則將j+1賦值給j 后返回步驟5. 4; 步驟5. 6、將labelj+2賦值給label j+1并返回步驟5. 4 ; 步驟5. 7、在所述數(shù)據(jù)表label中任意挑選整合標志位flag為0的數(shù)據(jù)表作為參照表, 并與其他整合標志位flag為0的數(shù)據(jù)表按照相似度規(guī)則進行關鍵字相似度比較,直到整合 標志位flag為0的數(shù)據(jù)表都完成關鍵字相似度比較為止,從而形成最終更新的社區(qū)管理服 務數(shù)據(jù)表;由此獲得社區(qū)管理服務的結構化數(shù)據(jù)。
【專利摘要】本發(fā)明公開了一種社區(qū)管理服務大數(shù)據(jù)處理系統(tǒng)及其處理方法,包括社區(qū)管理服務數(shù)據(jù)庫、數(shù)據(jù)收集系統(tǒng)和數(shù)據(jù)集成系統(tǒng);數(shù)據(jù)收集系統(tǒng)用于實現(xiàn)對社區(qū)管理服務大數(shù)據(jù)的采集;數(shù)據(jù)集成系統(tǒng)用于實現(xiàn)對社區(qū)管理服務大數(shù)據(jù)的轉換與融合。本發(fā)明能形成面向社區(qū)管理服務的半結構化數(shù)據(jù)和結構化數(shù)據(jù)的采集機制,針對具有不同時效性的社區(qū)管理服務大數(shù)據(jù)形成高效的存儲機制,為解決社區(qū)管理服務大數(shù)據(jù)冗余性高的問題形成完整的集成機制,從而提升社區(qū)管理服務大數(shù)據(jù)的處理效率。
【IPC分類】G06F17-30
【公開號】CN104615734
【申請?zhí)枴緾N201510070156
【發(fā)明人】丁帥, 楊善林, 蔡瓊, 徐健, 潘禹辰, 牛鋒
【申請人】合肥工業(yè)大學
【公開日】2015年5月13日
【申請日】2015年2月10日