利用html腳本解析的異構(gòu)系統(tǒng)間多層級(jí)數(shù)據(jù)同步方法及系統(tǒng)的制作方法
【專利摘要】一種利用HTML腳本解析的異構(gòu)系統(tǒng)間多層級(jí)數(shù)據(jù)同步方法及系統(tǒng),其特征是所述的方法包括后臺(tái)程序模擬用戶登錄,通過指定URL頁面發(fā)送請(qǐng)求;接收頁面發(fā)送的URL請(qǐng)求;解析URL,抽取數(shù)據(jù);判斷當(dāng)前頁面是否有更新;查詢數(shù)據(jù)存儲(chǔ)服務(wù)器,判斷步驟103所述目標(biāo)數(shù)據(jù)是否有更新,如果有更新,執(zhí)行步驟106;否則,執(zhí)行步驟105;忽略本次URL請(qǐng)求;對(duì)所述URL請(qǐng)求不作處理,直接忽略,結(jié)束流程;采集網(wǎng)頁數(shù)據(jù)并存儲(chǔ);采集所述URL對(duì)應(yīng)的網(wǎng)頁數(shù)據(jù),交給數(shù)據(jù)存儲(chǔ)服務(wù)器進(jìn)行存儲(chǔ);判斷下一層級(jí)數(shù)據(jù);根據(jù)所述URL,判斷其對(duì)應(yīng)頁面是否有下一層級(jí)數(shù)據(jù)鏈接,如果有,獲取該鏈接URL,執(zhí)行步驟101;否則,結(jié)束流程。本發(fā)明解決了跨系統(tǒng)數(shù)據(jù)同步共享問題,具有速度快,準(zhǔn)確性高的優(yōu)點(diǎn)。
【專利說明】利用HTML腳本解析的異構(gòu)系統(tǒng)間多層級(jí)數(shù)據(jù)同步方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種數(shù)據(jù)解析及數(shù)據(jù)采集技術(shù),尤其涉及一種利用HTML腳本解析的異構(gòu)系統(tǒng)間多層級(jí)數(shù)據(jù)同步方法及系統(tǒng)。
【背景技術(shù)】
[0002]目前,隨著信息技術(shù)的不斷發(fā)展,現(xiàn)今各大行業(yè)企事業(yè)單位在經(jīng)過多年的信息化建設(shè),形成了基于自己公司實(shí)際情況的面向各個(gè)職能、業(yè)務(wù)部門的專業(yè)系統(tǒng),而多個(gè)系統(tǒng)擁有相對(duì)獨(dú)立的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)與方案,這對(duì)跨系統(tǒng)數(shù)據(jù)的共享及整合分析造成一定的難度。針對(duì)此類問題,現(xiàn)有解決方案通常是通過開發(fā)數(shù)據(jù)接口或生成特定的數(shù)據(jù)交換文件方式解決。此種解決方案無法脫離業(yè)務(wù)系統(tǒng),需要系統(tǒng)開發(fā)方根據(jù)需求配合開發(fā)諸多接口,為一種雙向都要開發(fā)的系統(tǒng),協(xié)調(diào)工作較為繁瑣。若將雙向開發(fā)變?yōu)閱蜗蛐枨蠓介_發(fā),無疑將降低數(shù)據(jù)同步工作的開發(fā)難度,節(jié)約大量協(xié)調(diào)成本。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的目的是針對(duì)目前跨系統(tǒng)數(shù)據(jù)同步共享不便的問題,發(fā)明一種利用HTML腳本解析的異構(gòu)系統(tǒng)間多層級(jí)數(shù)據(jù)同步方法,同時(shí)提供一種相匹配的系統(tǒng)。
[0004]本發(fā)明的技術(shù)方案之一是:
一種利用HTML腳本解析的異構(gòu)系統(tǒng)間多層級(jí)數(shù)據(jù)同步方法,其特征是它包括以下步
驟:
步驟101:后臺(tái)程序模擬用戶登錄,通過指定URL頁面發(fā)送請(qǐng)求;
步驟102:接收頁面發(fā)送的URL請(qǐng)求;
步驟103:解析URL,抽取數(shù)據(jù);
步驟104:判斷當(dāng)前頁面是否有更新;查詢數(shù)據(jù)存儲(chǔ)服務(wù)器,判斷步驟103所述目標(biāo)數(shù)據(jù)是否有更新,如果有更新,執(zhí)行步驟106 ;否則,執(zhí)行步驟105 ;
步驟105:忽略本次URL請(qǐng)求;對(duì)所述URL請(qǐng)求不作處理,直接忽略,結(jié)束流程;
步驟106:采集網(wǎng)頁數(shù)據(jù)并存儲(chǔ);采集所述URL對(duì)應(yīng)的網(wǎng)頁數(shù)據(jù),交給數(shù)據(jù)存儲(chǔ)服務(wù)器進(jìn)行存儲(chǔ);
步驟107:判斷下一層級(jí)數(shù)據(jù);根據(jù)所述URL,判斷其對(duì)應(yīng)頁面是否有下一層級(jí)數(shù)據(jù)鏈接,如果有,獲取該鏈接URL,執(zhí)行步驟101 ;否則,結(jié)束流程。
[0005]所述指定URL為異構(gòu)系統(tǒng)上某個(gè)預(yù)知的鏈接的URL,該URL對(duì)應(yīng)網(wǎng)頁所包含的數(shù)據(jù)即所述業(yè)務(wù)系統(tǒng)需要同步的數(shù)據(jù)。
[0006]所述解析URL是指生成HTML源文件,取出包含目標(biāo)數(shù)據(jù)的源碼塊,生成DOM文檔對(duì)象,解析DOM文檔對(duì)象并抽取出目標(biāo)數(shù)據(jù)。
[0007]本發(fā)明的技術(shù)方案之二是:
一種利用HTML腳本解析的異構(gòu)系統(tǒng)間多層級(jí)數(shù)據(jù)同步異構(gòu)系統(tǒng)間多層級(jí)數(shù)據(jù)同步系統(tǒng),其特征是它包括數(shù)據(jù)采集服務(wù)器200和數(shù)據(jù)存儲(chǔ)服務(wù)器300,其中數(shù)據(jù)存儲(chǔ)服務(wù)器300用于存儲(chǔ)數(shù)據(jù)采集服務(wù)器200所采集的數(shù)據(jù);所述的數(shù)據(jù)采集服務(wù)器200用于采集目標(biāo)網(wǎng)頁數(shù)據(jù),包括用于通過后臺(tái)程序模擬用戶登錄指定URL的網(wǎng)頁并向后臺(tái)發(fā)送請(qǐng)求的發(fā)送請(qǐng)求模塊201、用于接收指定URL的網(wǎng)頁所發(fā)送的請(qǐng)求的接收請(qǐng)求模塊202和用于判斷指定URL的網(wǎng)頁是否有更新,在有更新時(shí)觸發(fā)采集模塊的判斷模塊203和用于采集指定URL網(wǎng)頁的數(shù)據(jù)的數(shù)據(jù)采集模塊204。
[0008]本發(fā)明的有益效果:
本發(fā)明解決了跨系統(tǒng)數(shù)據(jù)同步共享問題,具有速度快,準(zhǔn)確性高的優(yōu)點(diǎn)。同時(shí)通過異構(gòu)系統(tǒng)間多層級(jí)數(shù)據(jù)同步系統(tǒng)將數(shù)據(jù)采集服務(wù)器與數(shù)據(jù)存儲(chǔ)服務(wù)器分離,有利于減輕自身系統(tǒng)的負(fù)擔(dān),提聞數(shù)據(jù)同步的效率。
【專利附圖】
【附圖說明】
[0009]圖1為本發(fā)明同步方法的流程圖。
[0010]圖2為本發(fā)明同步系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0011]下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步的說明。
[0012]實(shí)施例一。
[0013]如圖1所示。
[0014]一種利用HTML腳本解析的異構(gòu)系統(tǒng)間多層級(jí)數(shù)據(jù)同步方法包括以下步驟:
步驟101:后臺(tái)程序模擬用戶登錄,通過指定URL頁面發(fā)送請(qǐng)求;
所述指定URL為異構(gòu)系統(tǒng)上某個(gè)預(yù)知的鏈接的URL,該URL對(duì)應(yīng)網(wǎng)頁所包含的數(shù)據(jù)即所述業(yè)務(wù)系統(tǒng)需要同步的數(shù)據(jù)。
[0015]步驟102:接收頁面發(fā)送的URL請(qǐng)求;
步驟103:解析URL,抽取數(shù)據(jù);
解析所述URL,生成HTML源文件,取出包含目標(biāo)數(shù)據(jù)的源碼塊,生成DOM文檔對(duì)象解析DOM文檔對(duì)象并抽取出目標(biāo)數(shù)據(jù)。
[0016]步驟104:判斷當(dāng)前頁面是否有更新;
查詢數(shù)據(jù)存儲(chǔ)服務(wù)器,判斷步驟103所述目標(biāo)數(shù)據(jù)是否有更新,如果有更新,執(zhí)行步驟016 ;否則,執(zhí)行步驟015。
[0017]步驟105:忽略本次URL請(qǐng)求;
對(duì)所述URL請(qǐng)求不作處理,直接忽略,結(jié)束流程。
[0018]步驟106:采集網(wǎng)頁數(shù)據(jù)并存儲(chǔ);
采集所述URL對(duì)應(yīng)的網(wǎng)頁數(shù)據(jù),交給數(shù)據(jù)存儲(chǔ)服務(wù)器進(jìn)行存儲(chǔ)。
[0019]步驟107:判斷下一層級(jí)數(shù)據(jù);
根據(jù)所述URL,判斷其對(duì)應(yīng)頁面是否有下一層級(jí)數(shù)據(jù)鏈接,如果有,獲取該鏈接URL,執(zhí)行步驟101;否則,結(jié)束流程。
[0020]實(shí)施例二。
[0021]一種利用HTML腳本解析的異構(gòu)系統(tǒng)間多層級(jí)數(shù)據(jù)同步異構(gòu)系統(tǒng)間多層級(jí)數(shù)據(jù)同步系統(tǒng),它包括數(shù)據(jù)采集服務(wù)器200和數(shù)據(jù)存儲(chǔ)服務(wù)器300,如圖2所示,其中數(shù)據(jù)存儲(chǔ)服務(wù)器300用于存儲(chǔ)數(shù)據(jù)采集服務(wù)器200所采集的數(shù)據(jù);所述的數(shù)據(jù)采集服務(wù)器200用于采集目標(biāo)網(wǎng)頁數(shù)據(jù),包括用于通過后臺(tái)程序模擬用戶登錄指定URL的網(wǎng)頁服務(wù)器400并向后臺(tái)發(fā)送請(qǐng)求的發(fā)送請(qǐng)求模塊201、用于接收指定URL的網(wǎng)頁服務(wù)器400所發(fā)送的請(qǐng)求的接收請(qǐng)求模塊202和用于判斷指定URL的網(wǎng)頁是否有更新,在有更新時(shí)觸發(fā)采集模塊的判斷模塊203和用于采集指定URL網(wǎng)頁服務(wù)器400的數(shù)據(jù)的數(shù)據(jù)采集模塊204,判斷模塊203與數(shù)據(jù)存儲(chǔ)服務(wù)器300雙向連接,數(shù)據(jù)采集模塊204的輸出接數(shù)據(jù)存儲(chǔ)服務(wù)器300的輸入。
[0022]本發(fā)明未涉及部分均與現(xiàn)有技術(shù)相同或可采用現(xiàn)有技術(shù)加以實(shí)現(xiàn)。
【權(quán)利要求】
1.一種利用HTML腳本解析的異構(gòu)系統(tǒng)間多層級(jí)數(shù)據(jù)同步方法,其特征是它包括以下步驟: 步驟101:后臺(tái)程序模擬用戶登錄,通過指定URL頁面發(fā)送請(qǐng)求; 步驟102:接收頁面發(fā)送的URL請(qǐng)求; 步驟103:解析URL,抽取數(shù)據(jù); 步驟104:判斷當(dāng)前頁面是否有更新;查詢數(shù)據(jù)存儲(chǔ)服務(wù)器,判斷步驟103所述目標(biāo)數(shù)據(jù)是否有更新,如果有更新,執(zhí)行步驟106 ;否則,執(zhí)行步驟105 ; 步驟105:忽略本次URL請(qǐng)求;對(duì)所述URL請(qǐng)求不作處理,直接忽略,結(jié)束流程; 步驟106:采集網(wǎng)頁數(shù)據(jù)并存儲(chǔ);采集所述URL對(duì)應(yīng)的網(wǎng)頁數(shù)據(jù),交給數(shù)據(jù)存儲(chǔ)服務(wù)器進(jìn)行存儲(chǔ); 步驟107:判斷下一層級(jí)數(shù)據(jù);根據(jù)所述URL,判斷其對(duì)應(yīng)頁面是否有下一層級(jí)數(shù)據(jù)鏈接,如果有,獲取該鏈接URL,執(zhí)行步驟101 ;否則,結(jié)束流程。
2.根據(jù)權(quán)利要求1所述方法,其特征是所述指定URL為異構(gòu)系統(tǒng)上某個(gè)預(yù)知的鏈接的URL,該URL對(duì)應(yīng)網(wǎng)頁所包含的數(shù)據(jù)即所述業(yè)務(wù)系統(tǒng)需要同步的數(shù)據(jù)。
3.根據(jù)權(quán)利要求1所述方法,其特征是所述解析URL是指生成HTML源文件,取出包含目標(biāo)數(shù)據(jù)的源碼塊,生成DOM文檔對(duì)象,解析DOM文檔對(duì)象并抽取出目標(biāo)數(shù)據(jù)。
4.一種利用HTML腳本解析的異構(gòu)系統(tǒng)間多層級(jí)數(shù)據(jù)同步異構(gòu)系統(tǒng)間多層級(jí)數(shù)據(jù)同步系統(tǒng),其特征是它包括數(shù)據(jù)采集服務(wù)器(200)和數(shù)據(jù)存儲(chǔ)服務(wù)器(300),其中數(shù)據(jù)存儲(chǔ)服務(wù)器(300)用于存儲(chǔ)數(shù)據(jù)采集服務(wù)器(200)所采集的數(shù)據(jù);所述的數(shù)據(jù)采集服務(wù)器(200)用于采集目標(biāo)網(wǎng)頁數(shù)據(jù),包括用于通過后臺(tái)程序模擬用戶登錄指定URL的網(wǎng)頁并向后臺(tái)發(fā)送請(qǐng)求的發(fā)送請(qǐng)求模塊(201)、用于接收指定URL的網(wǎng)頁所發(fā)送的請(qǐng)求的接收請(qǐng)求模塊(202)和用于判斷指定URL的網(wǎng)頁是否有更新,在有更新時(shí)觸發(fā)采集模塊的判斷模塊(203)和用于采集指定URL網(wǎng)頁的數(shù)據(jù)的數(shù)據(jù)采集模塊(204)。
【文檔編號(hào)】G06F17/30GK103927384SQ201410179995
【公開日】2014年7月16日 申請(qǐng)日期:2014年4月30日 優(yōu)先權(quán)日:2014年4月30日
【發(fā)明者】朱紅, 張明, 孫佳煒, 嵇文路, 朱紅勤, 郭晏 申請(qǐng)人:國(guó)家電網(wǎng)公司, 江蘇省電力公司南京供電公司, 江蘇省電力公司, 南京鑫歐欣信息技術(shù)有限公司