一種基于垂直行業(yè)的多任務(wù)式采集與收割方法
【專利摘要】本發(fā)明提供一種基于垂直行業(yè)的多任務(wù)式采集與收割方法,也是一種基于互聯(lián)網(wǎng)垂直行業(yè)信息按照主從式結(jié)構(gòu)進(jìn)行多任務(wù)自定義采集和收割的方法(簡稱:gReap方法),該方法用以填補市面主流搜索采集及其數(shù)據(jù)匯總技術(shù)的部分短板。解決了垂直行業(yè)關(guān)于多源化、互異化數(shù)據(jù)采集中多任務(wù)定制與協(xié)同困難,定制化解析語義不強,無法智慧化數(shù)據(jù)并及時收割等難題。通過實現(xiàn)該方法的互聯(lián)網(wǎng)行業(yè)數(shù)據(jù)采集,再疊加政府企業(yè)內(nèi)部組織數(shù)據(jù)以融合大數(shù)據(jù),讓我們透過數(shù)據(jù)背后分析出市場價值與趨勢。
【專利說明】
一種基于垂直行業(yè)的多任務(wù)式采集與收割方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種計算機應(yīng)用,涉及行業(yè)垂直搜索采集、分布式計算與存儲【技術(shù)領(lǐng)域】,具體地說是一種基于垂直行業(yè)的多任務(wù)式采集與收割方法。
【背景技術(shù)】
[0002]當(dāng)今已經(jīng)是數(shù)據(jù)大爆炸的時代,各個行業(yè)面臨著大部分的問題如下:
1、集中管理互聯(lián)網(wǎng)垂直行業(yè)數(shù)據(jù)。從無規(guī)則、無行業(yè)分類的互聯(lián)網(wǎng)獲取到針對性的行業(yè)價值的信息;
2、主流的Nutch等很難原生的滿足多任務(wù),并且定制采集和加工數(shù)據(jù)的需求,同時還需要解決大型互聯(lián)網(wǎng)公司的反爬機制;
3、采集到的互聯(lián)網(wǎng)數(shù)據(jù)如何自動收割和語義化存儲,并與內(nèi)部數(shù)據(jù)做共享與整合;
4、海量數(shù)據(jù)的存儲,快速讀寫與容災(zāi);
5、集群管理維護(hù)難。原有系統(tǒng)沒有一個從硬件到軟件到服務(wù)狀態(tài)的整體監(jiān)控和管理系統(tǒng)。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的目的是基于“自定義的主從式、多任務(wù)采集和收割”將客戶定義的一個垂直行業(yè)業(yè)務(wù)需求,進(jìn)行智能的匹配采集源和數(shù)據(jù)元素;將定義好的一個需求主題經(jīng)過本專利的gReap系統(tǒng)進(jìn)行多任務(wù)化為任務(wù)集合,集合中任意一個任務(wù)可再按維度細(xì)化成子任務(wù),按照主從心跳模式由調(diào)度節(jié)點分配給執(zhí)行節(jié)點執(zhí)行采集,對于執(zhí)行完采集的節(jié)點,調(diào)度節(jié)點主動進(jìn)行收割,采取分布式存儲,并與行業(yè)內(nèi)部組織數(shù)據(jù)進(jìn)行整合分析的技術(shù)。
[0004]本發(fā)明的目的是按以下方式實現(xiàn)的,具體步驟如下:
步驟1:客戶根據(jù)需求主題,通過某些或者某類行業(yè)網(wǎng)站,分析并定義出所需的數(shù)據(jù)要素,發(fā)送給本專利的gReap采割系統(tǒng);
步驟2:gReap采割系統(tǒng)根據(jù)請求數(shù)據(jù),自動匹配行業(yè)模板及其采割方法,并回饋給客戶以驗證是否符合要求,如果不符合,提供給用戶自定義數(shù)據(jù)模型和采割方法,以便gReap按需提供實現(xiàn)數(shù)據(jù)和內(nèi)容的交付;
步驟3:確定任務(wù)模板,gReap系統(tǒng)中的適配模塊首先接收到這個模板,將模板分解為多個采集任務(wù),并將每個任務(wù)分配給調(diào)度監(jiān)控集群;
步驟4:調(diào)度節(jié)點根據(jù)任務(wù)進(jìn)行按維度劃分,并負(fù)責(zé)將各個子任務(wù)分配給執(zhí)行節(jié)點,同時監(jiān)控執(zhí)行情況,對于異常或者出錯的子任務(wù)動態(tài)遷移到正常執(zhí)行節(jié)點,調(diào)度節(jié)點與執(zhí)行節(jié)點依賴MapReduce計算模型;
步驟5:執(zhí)行節(jié)點融合Nutch思路,按獨立網(wǎng)址維護(hù)采集周期,并納入gReap語義化采集模塊進(jìn)行采集,該模塊用以解決主要反爬宿主的數(shù)據(jù)采集;
步驟6:在執(zhí)行完成采集以后,執(zhí)行節(jié)點主動心跳狀態(tài),gReap系統(tǒng)收割模塊負(fù)責(zé)異構(gòu)收割,并按照一定的規(guī)則進(jìn)行數(shù)據(jù)預(yù)處理,并進(jìn)行收割庫歸檔,以備后續(xù)數(shù)據(jù)分析; 步驟7:收割庫的歸檔借助于Hadoop分布式文件系統(tǒng),采用列式數(shù)據(jù)分布存儲方式,以提供海量存儲和高性能的讀寫速度,以及安全的容災(zāi)能力。
[0005]本發(fā)明的目的有益效果是:該方法用以填補市面主流搜索采集及其數(shù)據(jù)匯總技術(shù)的部分短板。解決了垂直行業(yè)關(guān)于多源化、互異化數(shù)據(jù)采集中多任務(wù)定制與協(xié)同困難,定制化解析語義不強,無法智慧化數(shù)據(jù)并及時收割等難題。通過實現(xiàn)該方法的互聯(lián)網(wǎng)行業(yè)數(shù)據(jù)采集,再疊加政府企業(yè)內(nèi)部組織數(shù)據(jù)以融合大數(shù)據(jù),讓我們透過數(shù)據(jù)背后分析出市場價值與趨勢。
【專利附圖】
【附圖說明】
[0006]圖1為gReap系統(tǒng)的整體核心流程圖。
【具體實施方式】
[0007]參照說明書附圖對本發(fā)明的方法作以下詳細(xì)地說明。
[0008]提供一種基于垂直行業(yè)的多任務(wù)式采集與收割方法,具體步驟如下:
步驟1:客戶根據(jù)需求主題,通過某些或者某類行業(yè)網(wǎng)站,分析并定義出所需的數(shù)據(jù)要素,發(fā)送給本專利的gReap采割系統(tǒng);
步驟2:gReap采割系統(tǒng)根據(jù)請求數(shù)據(jù),自動匹配行業(yè)模板及其采割方法,并回饋給客戶以驗證是否符合要求,如果不符合,提供給用戶自定義數(shù)據(jù)模型和采割方法,以便gReap按需提供實現(xiàn)數(shù)據(jù)和內(nèi)容的交付;
步驟3:確定任務(wù)模板,gReap系統(tǒng)中的適配模塊首先接收到這個模板,將模板分解為多個采集任務(wù),并將每個任務(wù)分配給調(diào)度監(jiān)控集群;
步驟4:調(diào)度節(jié)點根據(jù)任務(wù)進(jìn)行按維度劃分,并負(fù)責(zé)將各個子任務(wù)分配給執(zhí)行節(jié)點,同時監(jiān)控執(zhí)行情況,對于異?;蛘叱鲥e的子任務(wù)動態(tài)遷移到正常執(zhí)行節(jié)點,調(diào)度節(jié)點與執(zhí)行節(jié)點依賴MapReduce計算模型;
步驟5:執(zhí)行節(jié)點融合Nutch思路,按獨立網(wǎng)址維護(hù)采集周期,并納入gReap語義化采集模塊進(jìn)行采集,該模塊用以解決主要反爬宿主的數(shù)據(jù)采集;
步驟6:在執(zhí)行完成采集以后,執(zhí)行節(jié)點主動心跳狀態(tài),gReap系統(tǒng)收割模塊負(fù)責(zé)異構(gòu)收割,并按照一定的規(guī)則進(jìn)行數(shù)據(jù)預(yù)處理,并進(jìn)行收割庫歸檔,以備后續(xù)數(shù)據(jù)分析;
步驟7:收割庫的歸檔借助于Hadoop分布式文件系統(tǒng),采用列式數(shù)據(jù)分布存儲方式,以提供海量存儲和高性能的讀寫速度,以及安全的容災(zāi)能力。
[0009]除說明書所述的技術(shù)特征外,均為本專業(yè)技術(shù)人員的已知技術(shù)。
【權(quán)利要求】
1.一種基于垂直行業(yè)的多任務(wù)式采集與收割方法,其特征在于,具體步驟如下:步驟1:客戶根據(jù)需求主題,通過某些或者某類行業(yè)網(wǎng)站,分析并定義出所需的數(shù)據(jù)要素,發(fā)送給本專利的gReap采割系統(tǒng); 步驟2:gReap采割系統(tǒng)根據(jù)請求數(shù)據(jù),自動匹配行業(yè)模板及其采割方法,并回饋給客戶以驗證是否符合要求,如果不符合,提供給用戶自定義數(shù)據(jù)模型和采割方法,以便gReap按需提供實現(xiàn)數(shù)據(jù)和內(nèi)容的交付; 步驟3:確定任務(wù)模板,gReap系統(tǒng)中的適配模塊首先接收到這個模板,將模板分解為多個采集任務(wù),并將每個任務(wù)分配給調(diào)度監(jiān)控集群; 步驟4:調(diào)度節(jié)點根據(jù)任務(wù)進(jìn)行按維度劃分,并負(fù)責(zé)將各個子任務(wù)分配給執(zhí)行節(jié)點,同時監(jiān)控執(zhí)行情況,對于異?;蛘叱鲥e的子任務(wù)動態(tài)遷移到正常執(zhí)行節(jié)點,調(diào)度節(jié)點與執(zhí)行節(jié)點依賴MapReduce計算模型; 步驟5:執(zhí)行節(jié)點融合Nutch思路,按獨立網(wǎng)址維護(hù)采集周期,并納入gReap語義化采集模塊進(jìn)行采集,該模塊用以解決主要反爬宿主的數(shù)據(jù)采集; 步驟6:在執(zhí)行完成采集以后,執(zhí)行節(jié)點主動心跳狀態(tài),gReap系統(tǒng)收割模塊負(fù)責(zé)異構(gòu)收割,并按照一定的規(guī)則進(jìn)行數(shù)據(jù)預(yù)處理,并進(jìn)行收割庫歸檔,以備后續(xù)數(shù)據(jù)分析; 步驟7:收割庫的歸檔借助于Hadoop分布式文件系統(tǒng),采用列式數(shù)據(jù)分布存儲方式,以提供海量存儲和高性能的讀寫速度,以及安全的容災(zāi)能力。
【文檔編號】G06F17/30GK104391990SQ201410774655
【公開日】2015年3月4日 申請日期:2014年12月16日 優(yōu)先權(quán)日:2014年12月16日
【發(fā)明者】王詩華, 王傳超, 孫海峰 申請人:浪潮軟件集團(tuán)有限公司