專利名稱:動態(tài)數(shù)據(jù)采集裝置的制作方法
技術(shù)領(lǐng)域:
本實用新型涉及的是一種面向互聯(lián)網(wǎng)“暗網(wǎng)”(De印Web)動態(tài)數(shù)據(jù)資源的分布式 采集裝置,屬于分布式動態(tài)采集技術(shù)領(lǐng)域。
背景技術(shù):
對于企業(yè)競爭情報領(lǐng)域,用戶需要從廣泛的互聯(lián)網(wǎng)領(lǐng)域里尋找對自己有用的或者 不利的信息,而通過普通的搜索引擎很難達到用戶的目的,原因之一是搜索引擎分散導致 很難獲取完整的數(shù)據(jù),二是搜索引擎只能獲取靜態(tài)的網(wǎng)頁數(shù)據(jù),而不能獲得動態(tài)數(shù)據(jù),也不 能獲取通過檢索引擎等查詢接口的數(shù)據(jù),更不能獲取企業(yè)內(nèi)部數(shù)據(jù)或者購買的商業(yè)數(shù)據(jù), 這些數(shù)據(jù)都是De印Web數(shù)據(jù)。而且,靜態(tài)的網(wǎng)頁數(shù)據(jù)只是占了整個Web數(shù)據(jù)的很小一部分, 遠遠不能滿足用戶的需求。對于學術(shù)研究領(lǐng)域,用戶希望獲取資源的范圍越廣泛越好,越專業(yè)越好。而專業(yè)領(lǐng) 域的數(shù)據(jù)大多是屬于Deep Web數(shù)據(jù),往往不能通過普通的搜索引擎獲取,而是通過自建數(shù) 據(jù)庫、專業(yè)的搜索引擎或者購買的商業(yè)數(shù)據(jù)庫獲取。
實用新型內(nèi)容為解決現(xiàn)有技術(shù)存在的問題,本實用新型的目的在于提供一種動態(tài)數(shù)據(jù)采集裝 置,能夠?qū)Σ杉蝿?wù)進行動態(tài)策略制定,均衡調(diào)度、邏輯控制對分布式負載進行采集,從而 獲得互聯(lián)網(wǎng)深層動態(tài)數(shù)據(jù)。本實用新型所述動態(tài)數(shù)據(jù)采集裝置的技術(shù)方案如下所述動態(tài)數(shù)據(jù)采集裝置,包括調(diào)度管理單元、調(diào)度控制單元、采集單元以及發(fā)布單 元,其中所述調(diào)度管理單元分別與調(diào)度控制單元、采集單元以及發(fā)布單元相連接,用于接收 需要采集的詞庫或采集的檢索條件,創(chuàng)建采集任務(wù)和動態(tài)采集策略,并存儲采集結(jié)果;所述 調(diào)度控制單元分別與調(diào)度管理單元和采集單元相連接,用于對調(diào)度管理單元創(chuàng)建的采集任 務(wù)進行分析,并控制所述采集單元進行采集;所述采集單元分別與調(diào)度控制單元和調(diào)度管 理單元相連接,用于采集動態(tài)數(shù)據(jù);并且所述發(fā)布單元與調(diào)度管理單元相連接,用于發(fā)布經(jīng) 調(diào)度管理單元過濾和存儲后的采集結(jié)果。其中,所述調(diào)度管理單元還包括對采集所需詞庫進行管理的詞庫管理子單元、對 采集任務(wù)進行配置和管理的調(diào)度管理子單元以及用于存儲采集結(jié)果的存儲子單元。進一步,所述詞庫管理子單元包括詞庫建立模塊、詞庫補充模塊以及檢索條件模 塊。所述調(diào)度管理子單元包括創(chuàng)建任務(wù)模塊、選擇數(shù)據(jù)來源模塊、策略制定與更改模 塊以及過濾存儲設(shè)置模塊。并且,所述存儲子單元包括索引模塊以及主題模塊。所述調(diào)度控制單元包括分析子單元以及分布式調(diào)度控制子單元。優(yōu)選的,所述調(diào)度控制單元是分布式負載均衡調(diào)度邏輯控制器;
3[0013]所述采集單元包括面向TOB資源的自動化采集器以及面向協(xié)議資源的自動化采 集器;所述發(fā)布單元是采集庫發(fā)布管理平臺。進一步,所述調(diào)度管理子單元是采集任務(wù)調(diào)度管理系統(tǒng);所述詞庫管理子單元是采集模擬詞庫管理系統(tǒng);所述存儲子單元是采集存儲調(diào)度系統(tǒng)。并且,所述索引子模塊是索引數(shù)據(jù)庫模塊;所述主題子模塊是主題數(shù)據(jù)庫模塊。具體來講,所述動態(tài)數(shù)據(jù)包括動態(tài)網(wǎng)頁數(shù)據(jù)、商業(yè)數(shù)據(jù)、開放存儲數(shù)據(jù)以及企業(yè)內(nèi) 部數(shù)據(jù)。本實用新型所述動態(tài)數(shù)據(jù)采集裝置,能夠?qū)Σ杉蝿?wù)進行動態(tài)策略制定,均衡調(diào) 度、邏輯控制對分布式負載進行采集,從而獲得互聯(lián)網(wǎng)深層動態(tài)數(shù)據(jù)。
圖1是本實用新型動態(tài)數(shù)據(jù)采集裝置的結(jié)構(gòu)示意圖;圖2是本實用新型動態(tài)數(shù)據(jù)采集裝置的另一種結(jié)構(gòu)示意圖;圖3是本實用新型調(diào)度管理單元的結(jié)構(gòu)示意圖;圖4是本實用新型動態(tài)數(shù)據(jù)采集裝置的最佳實施例結(jié)構(gòu)示意圖;圖5是本實用新型最佳實施例中創(chuàng)建采集任務(wù)的界面圖;圖6是本實用新型最佳實施例中選擇數(shù)據(jù)資源的界面圖;圖7是本實用新型最佳實施例中制定采集策略的界面圖;圖8是本實用新型最佳實施例中采集資源庫的程序運行圖;圖9是本實用新型最佳實施例中發(fā)布采集數(shù)據(jù)的界面圖。
具體實施方式
本實用新型提供了一種動態(tài)數(shù)據(jù)采集裝置,所述裝置與通用搜索引擎的面向靜態(tài) 網(wǎng)頁鏈接分析機制不同,具有均衡調(diào)度、邏輯控制采集互聯(lián)網(wǎng)深層動態(tài)數(shù)據(jù)的功能,能夠根 據(jù)用戶的檢索條件,創(chuàng)建不同的采集任務(wù),制定不同的動態(tài)采集策略,實現(xiàn)對動態(tài)數(shù)據(jù)的快 速采集。下面通過具體實施例對所述動態(tài)數(shù)據(jù)采集裝置進行說明。如圖1所示,本實用新型所述動態(tài)數(shù)據(jù)采集裝置包括調(diào)度管理單元、調(diào)度控制單 元、采集單元以及發(fā)布單元,所述調(diào)度管理單元用于輸入主題詞庫或檢索條件、創(chuàng)建采集任 務(wù)、采集策略,由所述調(diào)度控制單元進行分析,并控制所述采集單元進行采集,采集結(jié)果通 過調(diào)度管理單元進行過濾存儲后,通過所述發(fā)布單元進行發(fā)布。本實用新型所述裝置中,調(diào)度管理單元和調(diào)度控制單元是核心單元。其中調(diào)度管 理單元用于輸入主題詞庫或檢索條件、制定動態(tài)數(shù)據(jù)采集任務(wù),對采集到的動態(tài)數(shù)據(jù)進行 過濾和存儲。在采集過程中,根據(jù)用戶需要可以對采集策略進行中止、暫停以及修改。調(diào)度 控制單元用于對采集任務(wù)及策略進行智能算法分析,并邏輯控制采集單元對分布式負載進 行采集。[0035]其次,采集單元用于對分布式服務(wù)器系統(tǒng)的動態(tài)數(shù)據(jù)進行采集;發(fā)布單元用于對 采集結(jié)果進行發(fā)布。如圖2所示,在所述動態(tài)數(shù)據(jù)采集裝置中,調(diào)度管理單元進一步包括詞庫管理子 單元、調(diào)度管理子單元以及存儲子單元。其中,如圖3所示,詞庫管理子單元包括詞庫建立 模塊、詞庫補充模塊以及檢索條件模塊,其中詞庫建立模塊用于輸入主題詞庫;所述詞庫補 充模塊用于對主題詞庫進行補充;所述檢索條件模塊用于輸入檢索條件。調(diào)度管理子單元 還包括創(chuàng)建任務(wù)模塊、選擇數(shù)據(jù)來源模塊、策略制定與更改模塊以及過濾存儲設(shè)置模塊。所 述調(diào)度管理子單元具有定制功能,可以根據(jù)用戶需要創(chuàng)建采集任務(wù)、選擇數(shù)據(jù)來源、設(shè)置過 濾條件、存儲方式以及制定采集策略等,并可以根據(jù)調(diào)度控制單元的反饋信息進行策略的 更改;存儲子單元包括索引模塊以及主題模塊,用于對采集單元采集的數(shù)據(jù)信息進行存儲。如圖2所示,在所述動態(tài)數(shù)據(jù)采集裝置中,調(diào)度控制單元進一步包括分析子單元 以及分布式調(diào)度控制子單元。其中,所述分析子單元用于對調(diào)度管理單元制定的各種任務(wù) 及策略等進行智能算法分析;分布式調(diào)度控制子單元用于根據(jù)分析子單元的分析結(jié)果,均 衡調(diào)度邏輯控制采集單元對分布式負載進行數(shù)據(jù)采集。概括說來,本實用新型所述動態(tài)數(shù)據(jù)采集裝置的原理如下根據(jù)用戶輸入的主題詞庫或檢索條件生成對應(yīng)的檢索條件,并根據(jù)采集任務(wù)、數(shù) 據(jù)來源以及采集策略,對分布式負載進行模擬訪問并解析返回的數(shù)據(jù)信息;根據(jù)用戶設(shè)定 的過濾規(guī)則對返回的數(shù)據(jù)信息進行過濾;過濾后的信息按照用戶設(shè)定的格式和設(shè)置進行存 儲,并根據(jù)索引設(shè)置進行字段索引處理;采集過程中,用戶可以對采集策略進行調(diào)整,例如 可以調(diào)整采集的時間、周期、存儲策略,還可以暫停或重啟采集的子任務(wù)等;最后采集的結(jié) 果(包括調(diào)度信息)通過發(fā)布單元進行發(fā)布。綜上所述,所述動態(tài)數(shù)據(jù)采集裝置通過對分布式負載進行均衡調(diào)度以及邏輯控 制,實現(xiàn)了對互聯(lián)網(wǎng)深層動態(tài)數(shù)據(jù)的采集。下面結(jié)合實際,詳細說明一下本實用新型的最佳實施例。本實用新型最佳實施例中,分布式負載采用分布式服務(wù)器數(shù)據(jù)庫系統(tǒng),并且在動 態(tài)數(shù)據(jù)采集裝置安裝中已經(jīng)根據(jù)用戶需求預先配置好了所有可以進行采集的數(shù)據(jù)來源列表。如圖4所示,本實用新型最佳實施例采用如下的設(shè)置方式調(diào)度控制單元是分布式負載均衡調(diào)度邏輯控制器,分布式負載均衡調(diào)度邏輯控制 器用于基于智能分析算法對采集任務(wù)以及調(diào)度策略進行分析,并對采集進行均衡調(diào)度、邏 輯控制;所述分布式負載均衡調(diào)度邏輯控制器可以為多個,分別布置在不同的主機,也可以 進行級別設(shè)置,擴展采集的功能。采集單元包括面向Web資源的自動化采集器以及面向協(xié)議資源的自動化采集器, 所述面向Web資源的自動化采集器和面向協(xié)議資源的自動化采集器分別為多個,用于對分 布式負載進行數(shù)據(jù)采集。發(fā)布單元是采集庫發(fā)布管理平臺,主要采用的是自建主題采集庫發(fā)布管理平臺, 用于對采集的數(shù)據(jù)信息進行分類管理以及應(yīng)用發(fā)布。其次,調(diào)度管理子單元是采集任務(wù)調(diào)度管理系統(tǒng),采用人機交互界面,可以設(shè)置采 集任務(wù)、存儲設(shè)置、采集策略等;詞庫管理子單元是采集模擬詞庫管理系統(tǒng),用于輸入主題
5詞庫或檢索條件,按照過濾條件,對采集的數(shù)據(jù)信息的特征詞庫進行過濾,并對原有詞庫進 行補充;存儲子單元是采集存儲調(diào)度系統(tǒng),包括索引數(shù)據(jù)庫和主題數(shù)據(jù)庫。本實用新型最佳實施例的使用步驟如下步驟1、在采集模擬主題詞庫管理系統(tǒng)中,輸入需要采集的詞庫。具體來說,輸入需要采集的詞庫是按照主題的數(shù)據(jù)采集功能。用戶可以通過界面 錄入或者文件導入的方式規(guī)定數(shù)據(jù)采集的主題詞庫,采集系統(tǒng)自動按照詞庫進行采集。步驟2、在采集任務(wù)調(diào)度系統(tǒng)的人機交互界面中,設(shè)置采集任務(wù)。用戶按照自己的需求,根據(jù)系統(tǒng)的導航功能,創(chuàng)建采集任務(wù),如圖5所示;選擇數(shù) 據(jù)來源、格式,如圖6所示;選擇執(zhí)行采集任務(wù)的時間、周期和采集策略,如圖7所示;選擇 數(shù)據(jù)存儲目標地址、存儲格式、索引設(shè)置以及過濾條件等。步驟3、執(zhí)行采集任務(wù),啟動采集服務(wù)器進行采集。如圖8所示.分布式負載均衡調(diào)度邏輯控制器,對上述采集任務(wù)根據(jù)設(shè)定的策略進行智能分 析,自動啟動自動化采集器進行動態(tài)數(shù)據(jù)的采集。采集的數(shù)據(jù)根據(jù)采集任務(wù)調(diào)度系統(tǒng)設(shè)定 的過濾規(guī)則以及存儲的地址以及存儲的格式,發(fā)送到采集存儲調(diào)度系統(tǒng)進行存儲。采集模 擬詞庫管理系統(tǒng)采集出動態(tài)數(shù)據(jù)的特征詞庫,對其中沒有的特征詞進行補充。采集過程中,用戶可以通過采集任務(wù)調(diào)度系統(tǒng)隨時查看采集任務(wù)的進度,暫?;?者重啟采集的子任務(wù),調(diào)整采集的時間以及采集策略等,分布式均衡調(diào)度邏輯控制器基于 智能分析算法進行調(diào)度。步驟4、在數(shù)據(jù)庫發(fā)布管理平臺,用戶可以根據(jù)自己的需求,對獲取的數(shù)據(jù)進行分 類管理或者應(yīng)用發(fā)布等。圖9示出了根據(jù)本實用新型最佳實施例發(fā)布采集數(shù)據(jù)的界面圖。其中,在步驟1中,在采集模擬主題詞庫管理系統(tǒng)中,也可以輸入特定檢索條件, 輸入采集的特定檢索條件是按照檢索條件的數(shù)據(jù)采集功能。所述的檢索條件可以是一個 邏輯表達式,也可以是個簡單的自然描述語句,系統(tǒng)可以自動解析輸入規(guī)則,比如需要從數(shù) 據(jù)源的全文字段中獲取包含“某產(chǎn)品名稱”的信息,而不需要包括“某公司名稱”的信息,采 集系統(tǒng)自動解析并生成對應(yīng)的檢索條件如全文=“某產(chǎn)品名稱”and not全文=“某公司名 稱”。綜上所述,本實用新型所述動態(tài)數(shù)據(jù)采集裝置,定制功能豐富,實現(xiàn)對動態(tài)數(shù)據(jù)的 快速靈活的采集。例如,用戶通過采集任務(wù)調(diào)度管理系統(tǒng),可以對選定的主題、檢索條件等 對數(shù)據(jù)進行采集,可以選擇數(shù)據(jù)來源,也可以選擇字段映射關(guān)系將多個來源字段同時采集 到一個字段中等等,可以制定采集的策略、時間以及周期等,并且在采集過程中,可以隨時 更改、暫?;蛑兄共杉蝿?wù),可以根據(jù)設(shè)定的存儲格式、地址以及索引字段進行分類存儲。而且,本實用新型所述動態(tài)數(shù)據(jù)采集裝置,可擴展性健壯性好。既有單個任務(wù)的分 布式采集功能,又有系統(tǒng)級別的擴展,可以把分布式負載均衡調(diào)度邏輯控制器部署到多個 主機,擴展了分布式采集功能。除此之外,本實用新型的特點還包括操作簡便實用。人機交互性能好,用戶只需要 依照系統(tǒng)的提示,按部就班的進行設(shè)置即可,比如在管理系統(tǒng)中根據(jù)系統(tǒng)導航提示輸入采 集任務(wù),選擇采集任務(wù)數(shù)據(jù)源,可選簡單的過濾條件選項,完成設(shè)置后啟動采集器即可。本實用新型的硬件部分包括1)至少一臺主流配置商用服務(wù)器[0063]硬件基本配置為4CPU、8G內(nèi)存、IT磁盤空間,包括預裝Windows2003/2000Server 操作系統(tǒng)和ASP. NET應(yīng)用服務(wù)器,虛擬操作系統(tǒng)3個并可以擴展,用于操作系統(tǒng)級別的分布 式采集系統(tǒng)的部署;采用服務(wù)器級別的分布式采集功能,則可以按照需要擴展到多臺商用 服務(wù)器。2)至少3臺數(shù)據(jù)存儲服務(wù)器以數(shù)據(jù)存儲和集成為中心的數(shù)據(jù)庫存儲系統(tǒng),預裝支持海量存儲和全文索引功能 的關(guān)系型數(shù)據(jù)庫系統(tǒng),比如CNKI公司的Kbase系統(tǒng)。3)至少一臺數(shù)據(jù)索引服務(wù)器主要存儲采集數(shù)據(jù)的索引信息,目的是加快數(shù)據(jù)集成和檢索速度和效率。4)至少1臺文件服務(wù)器文件服務(wù)器主要存儲采集的文件格式的信息,文件格式包括圖片、網(wǎng)頁等信息。本實用新型包括了多種技術(shù),包括面向TOB資源的采集技術(shù)、針對TOB資源的頁面 分析技術(shù)和結(jié)果抽取技術(shù),面向多種協(xié)議方式(包括XML、HTTP等等)訪問資源的采集技 術(shù),基于智能分析的分布式調(diào)度技術(shù)以及數(shù)據(jù)索引存儲技術(shù)等。雖然上面針對動態(tài)數(shù)據(jù)采集裝置的原理以及具體實施方式
,但是,在本實用新型 的上述引導下,本領(lǐng)域技術(shù)人員可以在上述實施例的基礎(chǔ)上進行各種改進和變形,而這些 改進或者變形落在本實用新型的保護范圍內(nèi)。本領(lǐng)域技術(shù)人員應(yīng)該明白,上面的具體描述 只是為了解釋本實用新型的目的,并非用于限制本實用新型。因此,本實用新型的思想并不 限定于以上說明的實施例,本實用新型的思想范疇不僅包括權(quán)利要求書記載的范圍,還包 括與權(quán)利要求等同或者等價的變形。
權(quán)利要求一種動態(tài)數(shù)據(jù)采集裝置,其特征在于包括調(diào)度管理單元、調(diào)度控制單元、采集單元以及發(fā)布單元,其中所述調(diào)度管理單元分別與調(diào)度控制單元、采集單元以及發(fā)布單元相連接,用于接收需要采集的詞庫或采集的檢索條件,創(chuàng)建采集任務(wù)和動態(tài)采集策略,并存儲采集結(jié)果;所述調(diào)度控制單元分別與調(diào)度管理單元和采集單元相連接,用于對調(diào)度管理單元創(chuàng)建的采集任務(wù)進行分析,并控制所述采集單元進行采集;所述采集單元分別與調(diào)度控制單元和調(diào)度管理單元相連接,用于采集動態(tài)數(shù)據(jù),并且將采集獲取的數(shù)據(jù)發(fā)送給調(diào)度管理單元進行處理和存儲;并且所述發(fā)布單元與調(diào)度管理單元相連接,用于發(fā)布經(jīng)調(diào)度管理單元過濾和存儲后的采集結(jié)果。
2.根據(jù)權(quán)利要求1所述的動態(tài)數(shù)據(jù)采集裝置,其特征在于所述調(diào)度管理單元還包括 對采集所需詞庫進行管理的詞庫管理子單元、對采集任務(wù)進行配置和管理的調(diào)度管理子單 元以及用于存儲采集結(jié)果的存儲子單元。
3.根據(jù)權(quán)利要求2所述的動態(tài)數(shù)據(jù)采集裝置,其特征在于所述詞庫管理子單元還包括詞庫建立模塊、詞庫補充模塊以及檢索條件模塊。
4.根據(jù)權(quán)利要求2所述的動態(tài)數(shù)據(jù)采集裝置,其特征在于所述調(diào)度管理子單元包括創(chuàng)建任務(wù)模塊、選擇數(shù)據(jù)來源模塊、策略制定與更改模塊以 及過濾存儲設(shè)置模塊。
5.根據(jù)權(quán)利要求2所述的動態(tài)數(shù)據(jù)采集裝置,其特征在于 所述存儲子單元包括索引模塊以及主題模塊。
6.根據(jù)權(quán)利要求1所述的動態(tài)數(shù)據(jù)采集裝置,其特征在于所述調(diào)度控制單元包括分析子單元以及分布式調(diào)度控制子單元。
7.根據(jù)權(quán)利要求6所述的動態(tài)數(shù)據(jù)采集裝置,其特征在于 所述調(diào)度控制單元是分布式負載均衡調(diào)度邏輯控制器;所述采集單元包括面向Web資源的自動化采集器以及面向協(xié)議資源的自動化采集器; 所述發(fā)布單元是采集庫發(fā)布管理平臺。
8.根據(jù)權(quán)利要求7所述的動態(tài)數(shù)據(jù)采集裝置,其特征在于 所述調(diào)度管理子單元是采集任務(wù)調(diào)度管理系統(tǒng);所述詞庫管理子單元是采集模擬詞庫管理系統(tǒng); 所述存儲子單元是采集存儲調(diào)度系統(tǒng)。
9.根據(jù)權(quán)利要求8所述的動態(tài)數(shù)據(jù)采集裝置,其特征在于 所述索引子模塊是索引數(shù)據(jù)庫模塊;所述主題子模塊是主題數(shù)據(jù)庫模塊。
10.根據(jù)權(quán)利要求9所述的動態(tài)數(shù)據(jù)采集裝置,其特征在于所述動態(tài)數(shù)據(jù)包括動態(tài)網(wǎng)頁數(shù)據(jù)、商業(yè)數(shù)據(jù)、開放存儲數(shù)據(jù)以及企業(yè)內(nèi)部數(shù)據(jù)。
專利摘要本實用新型公開了一種動態(tài)數(shù)據(jù)采集裝置,屬于分布式動態(tài)數(shù)據(jù)采集技術(shù)領(lǐng)域。所述裝置包括調(diào)度管理單元、調(diào)度控制單元、采集單元以及發(fā)布單元。其中所述調(diào)度管理單元分別與調(diào)度控制單元、采集單元以及發(fā)布單元相連接,用于接收需要采集的詞庫或采集的檢索條件,創(chuàng)建采集任務(wù)和動態(tài)采集策略,并存儲采集結(jié)果;所述調(diào)度控制單元分別與調(diào)度管理單元和采集單元相連接,用于對調(diào)度管理單元創(chuàng)建的采集任務(wù)進行分析,并控制所述采集單元進行采集;所述采集單元分別與調(diào)度控制單元和調(diào)度管理單元相連接,用于采集動態(tài)數(shù)據(jù),并且將采集獲取的數(shù)據(jù)發(fā)送給調(diào)度管理單元進行處理和存儲;并且所述發(fā)布單元與調(diào)度管理單元相連接,用于發(fā)布經(jīng)調(diào)度管理單元過濾和存儲后的采集結(jié)果。
文檔編號G06F17/30GK201654777SQ20092015167
公開日2010年11月24日 申請日期2009年4月22日 優(yōu)先權(quán)日2009年4月22日
發(fā)明者張振海, 雷華平 申請人:同方知網(wǎng)(北京)技術(shù)有限公司