亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種b/s結(jié)構(gòu)系統(tǒng)的數(shù)據(jù)抓取方法

文檔序號:6369245閱讀:216來源:國知局
專利名稱:一種b/s結(jié)構(gòu)系統(tǒng)的數(shù)據(jù)抓取方法
技術(shù)領域
本發(fā)明屬于計算機及互聯(lián)網(wǎng)技術(shù)領域,涉及一種數(shù)據(jù)抓取方法,尤其涉及一種B/S 結(jié)構(gòu)系統(tǒng)的數(shù)據(jù)抓取方法。
背景技術(shù)
目前在電子政務的推動工作中,往往要遇到這樣一個問題各政府部門條線系統(tǒng)在建設各自的信息系統(tǒng)時,對于與其他部門的信息系統(tǒng)的對接問題的考慮不周,這導致了各個系統(tǒng)之間缺乏橫向聯(lián)系,無法共享一些公共的數(shù)據(jù)信息。這種現(xiàn)象引發(fā)了一系列的問題包括系統(tǒng)數(shù)據(jù)的冗余,數(shù)據(jù)的 缺失,甚至是不同系統(tǒng)中相通對象的描述數(shù)據(jù)嚴重不符;還存在二次數(shù)據(jù)錄入的問題,相關(guān)系統(tǒng)數(shù)據(jù)維護者可能要向多個系統(tǒng)錄入相關(guān)的數(shù)據(jù),客觀上加重了系統(tǒng)數(shù)據(jù)維護者的工作量。這一現(xiàn)象是與系統(tǒng)建設推動工作效率、減輕工作強度的初衷相違背的。但是要合理解決上述問題,不僅僅要靠技術(shù)上突破,還往往需要政府拿出切實可行政務電子化的發(fā)展方針,要有一個合理并彈性的,能協(xié)調(diào)各條線部門聯(lián)橫發(fā)展的路線來。例如,上海各區(qū)縣鎮(zhèn)都在進行電子政務的建設,大都遇到一個問題,民政和勞保兩條線中都有各自先前建設的老系統(tǒng),一個是B/S結(jié)構(gòu)的,一個是C/S結(jié)構(gòu)的。遇到的實際困難是這兩個系統(tǒng)的后臺數(shù)據(jù)庫是無法向第三方公開的,也就是說,第三方無法直接向這些數(shù)據(jù)庫中讀寫維護相關(guān)數(shù)據(jù),所以客觀上講,第三方只有通過現(xiàn)有這兩個系統(tǒng)來(合法地) 完成數(shù)據(jù)維護。同時由于第三方要建立由上海區(qū)縣政府所使用信息系統(tǒng),這不可避免的會使用到民政和勞保的數(shù)據(jù)信息。如果采用同步錄入數(shù)據(jù),也就出現(xiàn)了前節(jié)所提到的二次錄入的問題。此外,還有一些業(yè)務數(shù)據(jù)只能通過網(wǎng)頁的方式訪問、查看,很難成為可以直接利用的數(shù)據(jù)資源,數(shù)據(jù)展示格式已固定不變,不能夠靈活運用。

發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種B/S結(jié)構(gòu)系統(tǒng)的數(shù)據(jù)抓取方法,可方便快捷地抓取其他B/S結(jié)構(gòu)業(yè)務系統(tǒng)的數(shù)據(jù),并提供給其他業(yè)務系統(tǒng)錄入。為解決上述技術(shù)問題,本發(fā)明采用如下技術(shù)方案一種上述數(shù)據(jù)抓取系統(tǒng)的數(shù)據(jù)抓取方法,所述方法包括地址列表獲取步驟,獲取需要抓取的網(wǎng)頁的地址列表信息;網(wǎng)頁數(shù)據(jù)請求步驟,根據(jù)網(wǎng)頁的地址列表信息提出請求,得到網(wǎng)頁的內(nèi)容;網(wǎng)頁數(shù)據(jù)抓取步驟,分析網(wǎng)頁的結(jié)構(gòu),并提取出想要的內(nèi)容。作為本發(fā)明的一種優(yōu)選方案,所述方法進一步包括模擬登錄步驟,根據(jù)登錄驗證信息模擬登錄;登錄后,再進行數(shù)據(jù)的抓取。作為本發(fā)明的一種優(yōu)選方案,所述網(wǎng)頁數(shù)據(jù)抓取步驟中,根據(jù)數(shù)據(jù)發(fā)送的源地址與目標地址抓取所需的網(wǎng)頁中的數(shù)據(jù),抓取的數(shù)據(jù)為TCP/IP數(shù)據(jù)包,對TCP/IP數(shù)據(jù)包進行解析后獲得HTTP協(xié)議中的文本數(shù)據(jù)。作為本發(fā)明的一種優(yōu)選方案,所述方法包括C/S數(shù)據(jù)抓取流程,抓取C/S結(jié)構(gòu)系統(tǒng)的數(shù)據(jù);包括如下步驟鉤子加載步驟鉤子加載模塊根據(jù)進程數(shù)量生成設定數(shù)量的抓取鉤子模塊,配置給需要抓取的進程;一個進程配置一個抓取鉤子模塊,或者多個進程配置一個抓取鉤子模塊,或者一個進程配置多個抓取鉤子模塊;數(shù)據(jù)抓取步驟抓取鉤子模塊監(jiān)控其對應進程中業(yè)務數(shù)據(jù)的傳遞,并抓取相應的業(yè)務數(shù)據(jù);
配置文件生成步驟配置文件生成模塊將所述抓取鉤子模塊抓取的業(yè)務數(shù)據(jù)按照可配置的格式寫入配置文件中,供其他系統(tǒng)進行數(shù)據(jù)錄入。數(shù)據(jù)利用步驟,根據(jù)所述配置文件生成模塊生成的配置文件獲取相應數(shù)據(jù),并進行數(shù)據(jù)錄入。本發(fā)明的有益效果在于本發(fā)明提出的B/S結(jié)構(gòu)系統(tǒng)的數(shù)據(jù)抓取方法,可方便快捷地抓取其他B/S結(jié)構(gòu)業(yè)務系統(tǒng)的數(shù)據(jù),并提供給其他業(yè)務系統(tǒng)錄入。本發(fā)明使用WINDOWS SOCKET的方法抓取流經(jīng)網(wǎng)絡的網(wǎng)頁中的數(shù)據(jù),當用戶提交網(wǎng)頁數(shù)據(jù)時,B/S程序就能夠根據(jù)數(shù)據(jù)發(fā)送的源地址與目標地址抓取所需的網(wǎng)頁中的數(shù)據(jù),因為是抓取的TCP/IP數(shù)據(jù)包,需要對其進行解析從而獲得HTTP協(xié)議中的文本數(shù)據(jù)。


圖I為實施例一中數(shù)據(jù)抓取系統(tǒng)的框架圖。圖2為實施例一中數(shù)據(jù)抓取系統(tǒng)的組成示意圖。圖3為實施例一中第一數(shù)據(jù)抓取子系統(tǒng)的組成示意圖。圖4為實施例一中第一數(shù)據(jù)抓取流程的流程圖。圖5為實施例一中第二數(shù)據(jù)抓取流程的流程圖。圖6為實施例二中B/S結(jié)構(gòu)系統(tǒng)的數(shù)據(jù)抓取系統(tǒng)的組成示意圖。
具體實施例方式下面結(jié)合附圖詳細說明本發(fā)明的優(yōu)選實施例。實施例一請參閱圖I、圖2,本發(fā)明揭示了一種數(shù)據(jù)抓取系統(tǒng),所述系統(tǒng)包括兩大子系統(tǒng)第一數(shù)據(jù)抓取子系統(tǒng)10、第二數(shù)據(jù)抓取子系統(tǒng)20。即,本實施例中,本發(fā)明可方便快捷地抓取其他B/S結(jié)構(gòu)業(yè)務系統(tǒng)、C/S結(jié)構(gòu)業(yè)務系統(tǒng)的數(shù)據(jù)。第一數(shù)據(jù)抓取子系統(tǒng)10用以抓取C/S結(jié)構(gòu)系統(tǒng)30的數(shù)據(jù),包括所述鉤子加載模塊11、抓取鉤子模塊12、配置文件生成模塊13 ;第二數(shù)據(jù)抓取子系統(tǒng)20用以抓取B/S結(jié)構(gòu)系統(tǒng)40的數(shù)據(jù);所述第二數(shù)據(jù)抓取子系統(tǒng)20包括地址列表獲取模塊21、網(wǎng)頁數(shù)據(jù)請求模塊22、網(wǎng)頁數(shù)據(jù)抓取模塊23。第一數(shù)據(jù)抓取子系統(tǒng)請參閱圖2、圖3,第一數(shù)據(jù)抓取子系統(tǒng)10中,鉤子加載模塊11用以根據(jù)進程數(shù)量生成設定數(shù)量的抓取鉤子模塊,配置給需要抓取的進程;一個進程配置一個抓取鉤子模塊,或者多個進程配置一個抓取鉤子模塊,或者一個進程配置多個抓取鉤子模塊。抓取鉤子模塊12用以監(jiān)控其對應進程中業(yè)務數(shù)據(jù)的傳遞,并抓取相應的業(yè)務數(shù)據(jù)。配置文件生成模塊13用以將所述抓取鉤子模塊抓取的業(yè)務數(shù)據(jù)按照可配置的格式寫入配置文件中,供其他系統(tǒng)進行數(shù)據(jù)錄入。所述鉤子加載模塊11、抓取鉤子模塊12、配置文件生成模塊13設置于第一 C/S業(yè)務系統(tǒng)對應的計算機中;所述系統(tǒng)還包括設置于第二 C/S業(yè)務系統(tǒng)對應的計算機中的數(shù)據(jù)利用模塊50,用以根據(jù)所述配置文件生成模塊生成的配置文件獲取相應數(shù)據(jù),并進行數(shù)據(jù)錄入。第二數(shù)據(jù)抓取子系統(tǒng)第二數(shù)據(jù)抓取子系統(tǒng)20中,地址列表獲取模塊21用以獲取需要抓取的網(wǎng)頁的地址列表信息。網(wǎng)頁數(shù)據(jù)請求模塊22用以根據(jù)網(wǎng)頁的地址列表信息提出請求,得到網(wǎng)頁的內(nèi)容。網(wǎng)頁數(shù)據(jù)抓取模塊23用以分析網(wǎng)頁的結(jié)構(gòu),并提取出想要的內(nèi)容。所述網(wǎng)頁數(shù)據(jù)抓取模塊用以根據(jù)數(shù) 據(jù)發(fā)送的源地址與目標地址抓取所需的網(wǎng)頁中的數(shù)據(jù),抓取的數(shù)據(jù)為 TCP/IP數(shù)據(jù)包,對TCP/IP數(shù)據(jù)包進行解析后獲得HTTP協(xié)議中的文本數(shù)據(jù)。由于某些網(wǎng)站的數(shù)據(jù)需要登錄后才能夠訪問,對于這類安全性高的數(shù)據(jù),需要模擬登錄,對數(shù)據(jù)頁面進行解析,然后才能抓取利用。所述第二數(shù)據(jù)抓取子系統(tǒng)包括模擬登錄模塊,用以根據(jù)登錄驗證信息模擬登錄;登錄后,再進行數(shù)據(jù)的抓取。以上介紹了本發(fā)明數(shù)據(jù)抓取系統(tǒng)的組成,本發(fā)明在揭示上述數(shù)據(jù)抓取系統(tǒng)的同時,還揭示一種上述數(shù)據(jù)抓取系統(tǒng)的數(shù)據(jù)抓取方法,所述方法包括第一數(shù)據(jù)抓取流程、第二數(shù)據(jù)抓取流程。請參閱圖4,第一數(shù)據(jù)抓取流程具體包括如下步驟鉤子加載步驟鉤子加載模塊根據(jù)進程數(shù)量生成設定數(shù)量的抓取鉤子模塊,配置給需要抓取的進程;一個進程配置一個抓取鉤子模塊,或者多個進程配置一個抓取鉤子模塊,或者一個進程配置多個抓取鉤子模塊;數(shù)據(jù)抓取步驟抓取鉤子模塊監(jiān)控其對應進程中業(yè)務數(shù)據(jù)的傳遞,并抓取相應的業(yè)務數(shù)據(jù);配置文件生成步驟配置文件生成模塊將所述抓取鉤子模塊抓取的業(yè)務數(shù)據(jù)按照可配置的格式寫入配置文件中,供其他系統(tǒng)進行數(shù)據(jù)錄入。數(shù)據(jù)利用步驟,根據(jù)所述配置文件生成模塊生成的配置文件獲取相應數(shù)據(jù),并進行數(shù)據(jù)錄入。請參閱圖5,第二數(shù)據(jù)抓取流程具體包括如下步驟地址列表獲取步驟,獲取需要抓取的網(wǎng)頁的地址列表信息。模擬登錄步驟,根據(jù)登錄驗證信息模擬登錄;登錄后,再進行數(shù)據(jù)的抓取。本步驟主要是針對一些需要登錄后才能夠訪問數(shù)據(jù)的網(wǎng)站,對于這類安全性高的數(shù)據(jù),需要模擬登錄,對數(shù)據(jù)頁面進行解析,然后才能抓取利用。網(wǎng)頁數(shù)據(jù)請求步驟,根據(jù)網(wǎng)頁的地址列表信息提出請求,得到網(wǎng)頁的內(nèi)容。網(wǎng)頁數(shù)據(jù)抓取步驟,分析網(wǎng)頁的結(jié)構(gòu),并提取出想要的內(nèi)容。具體地,根據(jù)數(shù)據(jù)發(fā)送的源地址與目標地址抓取所需的網(wǎng)頁中的數(shù)據(jù),抓取的數(shù)據(jù)為TCP/IP數(shù)據(jù)包,對TCP/IP 數(shù)據(jù)包進行解析后獲得HTTP協(xié)議中的文本數(shù)據(jù)。實施例二請參閱圖6,本發(fā)明揭示了一種B/S結(jié)構(gòu)系統(tǒng)的數(shù)據(jù)抓取系統(tǒng)200,所述系統(tǒng)包括 地址列表獲取模塊210、網(wǎng)頁數(shù)據(jù)請求模塊220、網(wǎng)頁數(shù)據(jù)抓取模塊230。地址列表獲取模塊210用以獲取需要抓取的網(wǎng)頁的地址列表信息。網(wǎng)頁數(shù)據(jù)請求模塊220用以根據(jù)網(wǎng)頁的地址列表信息提出請求,得到網(wǎng)頁的內(nèi)容。網(wǎng)頁數(shù)據(jù)抓取模塊230用以分析網(wǎng)頁的結(jié)構(gòu),并提取出想要的內(nèi)容。所述網(wǎng)頁數(shù)據(jù)抓取模塊用以根據(jù)數(shù)據(jù)發(fā)送的源地址與目標地址抓取所需的網(wǎng)頁中的數(shù)據(jù),抓取的數(shù)據(jù)為TCP/IP數(shù)據(jù)包,對TCP/IP數(shù)據(jù)包進行解析后獲得HTTP協(xié)議中的文本數(shù)據(jù)。 由于某些網(wǎng)站的數(shù)據(jù)需要登錄后才能夠訪問,對于這類安全性高的數(shù)據(jù),需要模擬登錄,對數(shù)據(jù)頁面進行解析,然后才能抓取利用。所述第二數(shù)據(jù)抓取子系統(tǒng)包括模擬登錄模塊,用以根據(jù)登錄驗證信息模擬登錄;登錄后,再進行數(shù)據(jù)的抓取。以上介紹了本發(fā)明B/S結(jié)構(gòu)系統(tǒng)的數(shù)據(jù)抓取系統(tǒng)的組成,本發(fā)明在揭示上述數(shù)據(jù)抓取系統(tǒng)的同時,還揭示一種上述數(shù)據(jù)抓取系統(tǒng)的數(shù)據(jù)抓取方法,具體包括如下步驟地址列表獲取步驟,獲取需要抓取的網(wǎng)頁的地址列表信息。模擬登錄步驟,根據(jù)登錄驗證信息模擬登錄;登錄后,再進行數(shù)據(jù)的抓取。本步驟主要是針對一些需要登錄后才能夠訪問數(shù)據(jù)的網(wǎng)站,對于這類安全性高的數(shù)據(jù),需要模擬登錄,對數(shù)據(jù)頁面進行解析,然后才能抓取利用。網(wǎng)頁數(shù)據(jù)請求步驟,根據(jù)網(wǎng)頁的地址列表信息提出請求,得到網(wǎng)頁的內(nèi)容。網(wǎng)頁數(shù)據(jù)抓取步驟,分析網(wǎng)頁的結(jié)構(gòu),并提取出想要的內(nèi)容。具體地,根據(jù)數(shù)據(jù)發(fā)送的源地址與目標地址抓取所需的網(wǎng)頁中的數(shù)據(jù),抓取的數(shù)據(jù)為TCP/IP數(shù)據(jù)包,對TCP/IP 數(shù)據(jù)包進行解析后獲得HTTP協(xié)議中的文本數(shù)據(jù)。綜上所述,本發(fā)明提出的B/S結(jié)構(gòu)系統(tǒng)的數(shù)據(jù)抓取方法,可方便快捷地抓取其他 B/S結(jié)構(gòu)業(yè)務系統(tǒng)的數(shù)據(jù),并提供給其他業(yè)務系統(tǒng)錄入。本發(fā)明使用WINDOWS SOCKET的方法抓取流經(jīng)網(wǎng)絡的網(wǎng)頁中的數(shù)據(jù),當用戶提交網(wǎng)頁數(shù)據(jù)時,B/S程序就能夠根據(jù)數(shù)據(jù)發(fā)送的源地址與目標地址抓取所需的網(wǎng)頁中的數(shù)據(jù),因為是抓取的TCP/IP數(shù)據(jù)包,需要對其進行解析從而獲得HTTP協(xié)議中的文本數(shù)據(jù)。這里本發(fā)明的描述和應用是說明性的,并非想將本發(fā)明的范圍限制在上述實施例中。這里所披露的實施例的變形和改變是可能的,對于那些本領域的普通技術(shù)人員來說實施例的替換和等效的各種部件是公知的。本領域技術(shù)人員應該清楚的是,在不脫離本發(fā)明的精神或本質(zhì)特征的情況下,本發(fā)明可以以其它形式、結(jié)構(gòu)、布置、比例,以及用其它組件、 材料和部件來實現(xiàn)。在不脫離本發(fā)明范圍和精神的情況下,可以對這里所披露的實施例進行其它變形和改變。
權(quán)利要求
1.ー種B/S結(jié)構(gòu)系統(tǒng)的數(shù)據(jù)抓取方法,其特征在于,所述方法包括 地址列表獲取步驟,獲取需要抓取的網(wǎng)頁的地址列表信息; 網(wǎng)頁數(shù)據(jù)請求步驟,根據(jù)網(wǎng)頁的地址列表信息提出請求,得到網(wǎng)頁的內(nèi)容; 網(wǎng)頁數(shù)據(jù)抓取步驟,分析網(wǎng)頁的結(jié)構(gòu),并提取出想要的內(nèi)容。
2.根據(jù)權(quán)利要求I所述的數(shù)據(jù)抓取方法,其特征在干 所述方法進ー步包括模擬登錄步驟,根據(jù)登錄驗證信息模擬登錄;登錄后,再進行數(shù)據(jù)的抓取。
3.根據(jù)權(quán)利要求I所述的數(shù)據(jù)抓取方法,其特征在于 所述網(wǎng)頁數(shù)據(jù)抓取步驟中,根據(jù)數(shù)據(jù)發(fā)送的源地址與目標地址抓取所需的網(wǎng)頁中的數(shù)據(jù),抓取的數(shù)據(jù)為TCP/IP數(shù)據(jù)包,對TCP/IP數(shù)據(jù)包進行解析后獲得HTTP協(xié)議中的文本數(shù)據(jù)。
4.根據(jù)權(quán)利要求3所述的數(shù)據(jù)抓取方法,其特征在于 所述方法包括C/S數(shù)據(jù)抓取流程,抓取C/S結(jié)構(gòu)系統(tǒng)的數(shù)據(jù);包括如下步驟 鉤子加載步驟鉤子加載模塊根據(jù)進程數(shù)量生成設定數(shù)量的抓取鉤子模塊,配置給需要抓取的進程;一個進程配置ー個抓取鉤子模塊,或者多個進程配置ー個抓取鉤子模塊,或者一個進程配置多個抓取鉤子模塊; 數(shù)據(jù)抓取步驟抓取鉤子模塊監(jiān)控其對應進程中業(yè)務數(shù)據(jù)的傳遞,并抓取相應的業(yè)務數(shù)據(jù); 配置文件生成步驟配置文件生成模塊將所述抓取鉤子模塊抓取的業(yè)務數(shù)據(jù)按照可配置的格式寫入配置文件中,供其他系統(tǒng)進行數(shù)據(jù)錄入。
數(shù)據(jù)利用步驟,根據(jù)所述配置文件生成模塊生成的配置文件獲取相應數(shù)據(jù),并進行數(shù)據(jù)錄入。
全文摘要
本發(fā)明揭示了一種B/S結(jié)構(gòu)系統(tǒng)的數(shù)據(jù)抓取方法,所述方法包括地址列表獲取步驟,獲取需要抓取的網(wǎng)頁的地址列表信息;網(wǎng)頁數(shù)據(jù)請求步驟,根據(jù)網(wǎng)頁的地址列表信息提出請求,得到網(wǎng)頁的內(nèi)容;網(wǎng)頁數(shù)據(jù)抓取步驟,分析網(wǎng)頁的結(jié)構(gòu),并提取出想要的內(nèi)容。本發(fā)明提出的B/S結(jié)構(gòu)系統(tǒng)的數(shù)據(jù)抓取方法,可方便快捷地抓取其他B/S結(jié)構(gòu)業(yè)務系統(tǒng)的數(shù)據(jù),并提供給其他業(yè)務系統(tǒng)錄入。
文檔編號G06F17/30GK102708178SQ201210141010
公開日2012年10月3日 申請日期2012年5月8日 優(yōu)先權(quán)日2012年5月8日
發(fā)明者吳衛(wèi)平 申請人:上?;ヂ?lián)網(wǎng)軟件有限公司, 上?;ボ浶畔⒖萍加邢薰?br>
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1