亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

網(wǎng)頁(yè)的智能采集方法及系統(tǒng)與流程

文檔序號(hào):11515026閱讀:365來(lái)源:國(guó)知局
網(wǎng)頁(yè)的智能采集方法及系統(tǒng)與流程

本發(fā)明涉及軟件及計(jì)算機(jī)領(lǐng)域,尤其涉及一種網(wǎng)頁(yè)的智能采集方法及系統(tǒng)。



背景技術(shù):

在傳統(tǒng)采集中,用戶(hù)需要具備基本的網(wǎng)頁(yè)代碼閱讀能力,這樣就局限住了那些需要使用采集功能而不會(huì)配置的用戶(hù),并且對(duì)于擁有配置能力的用戶(hù)也會(huì)消耗大量的配置時(shí)間。由此大量的采集源配置工作,采集效率、采集數(shù)量的壓力日益增大,市面普通的采集器已經(jīng)不滿(mǎn)足我們的業(yè)務(wù)需求,所以研發(fā)部門(mén)需要實(shí)現(xiàn)以圍繞業(yè)務(wù)為核心的高性能、高可用性的智能型采集器及采集方法。

現(xiàn)有的網(wǎng)頁(yè)的采集方法性能低,效率低。



技術(shù)實(shí)現(xiàn)要素:

本申請(qǐng)?zhí)峁┮环N網(wǎng)頁(yè)的智能采集方法。其解決現(xiàn)有技術(shù)的技術(shù)方案性能低,效率低的缺點(diǎn)。

一方面,提供一種網(wǎng)頁(yè)的智能采集方法,所述方法包括如下步驟:

計(jì)算機(jī)設(shè)備獲取添加任務(wù)以及添加網(wǎng)址;

計(jì)算機(jī)設(shè)備添加網(wǎng)頁(yè)的采集規(guī)則,對(duì)該采集規(guī)則智能解析;

計(jì)算機(jī)設(shè)備測(cè)試采集規(guī)則,在該采集規(guī)則測(cè)試通過(guò)后,發(fā)布任務(wù);

計(jì)算機(jī)設(shè)備依據(jù)該采集規(guī)則開(kāi)始采集網(wǎng)頁(yè),并將采集的網(wǎng)頁(yè)數(shù)據(jù)發(fā)布。

可選的,所述方法在發(fā)任務(wù)之后還包括:

將所述發(fā)布任務(wù)同步到數(shù)據(jù)庫(kù)中。

可選的,所述方法在對(duì)該采集規(guī)則智能解析之前還包括:

人工制定規(guī)則,具體的:用戶(hù)通過(guò)對(duì)網(wǎng)址數(shù)據(jù)結(jié)構(gòu)的分析,制定出提取元素?cái)?shù)據(jù)的規(guī)則;計(jì)算機(jī)設(shè)備自動(dòng)定位網(wǎng)頁(yè)元素,使用戶(hù)點(diǎn)擊即可獲取元素內(nèi)容,并由計(jì)算機(jī)設(shè)備生成采集規(guī)則。

可選的,所述對(duì)該采集規(guī)則智能解析具體,包括:

對(duì)所述采集規(guī)則進(jìn)行語(yǔ)義算法解析識(shí)別出所述采集規(guī)則的有效內(nèi)容,計(jì)算出該數(shù)據(jù)的提取規(guī)則。

可選的,所述對(duì)該采集規(guī)則智能解析具體,包括:

從規(guī)則庫(kù)中查找所述添加網(wǎng)址對(duì)應(yīng)的采集規(guī)則,如規(guī)則庫(kù)存所述添加網(wǎng)址,則將所述添加網(wǎng)址對(duì)應(yīng)的采集規(guī)則提取復(fù)用。

第二方面,提供一種計(jì)算機(jī)設(shè)備,所述計(jì)算機(jī)設(shè)備包括:

獲取單元,用于獲取添加任務(wù)以及添加網(wǎng)址;

處理單元,用于添加網(wǎng)頁(yè)的采集規(guī)則,對(duì)該采集規(guī)則智能解析,測(cè)試采集規(guī)則,在該采集規(guī)則測(cè)試通過(guò)后,發(fā)布任務(wù),依據(jù)該采集規(guī)則開(kāi)始采集網(wǎng)頁(yè),并將采集的網(wǎng)頁(yè)數(shù)據(jù)發(fā)布。

可選的,所述處理單元,還用于將所述發(fā)布任務(wù)同步到數(shù)據(jù)庫(kù)中。

可選的,處理單元,還用于人工制定規(guī)則,具體的:用戶(hù)通過(guò)對(duì)網(wǎng)址數(shù)據(jù)結(jié)構(gòu)的分析,制定出提取元素?cái)?shù)據(jù)的規(guī)則;計(jì)算機(jī)設(shè)備自動(dòng)定位網(wǎng)頁(yè)元素,使用戶(hù)點(diǎn)擊即可獲取元素內(nèi)容,并由計(jì)算機(jī)設(shè)備生成采集規(guī)則。

可選的,所述處理單元,具體用于對(duì)所述采集規(guī)則進(jìn)行語(yǔ)義算法解析識(shí)別出所述采集規(guī)則的有效內(nèi)容,計(jì)算出該數(shù)據(jù)的提取規(guī)則。

第三方面,提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)第一方面提供的網(wǎng)頁(yè)的智能采集方法。

本發(fā)明提供的技術(shù)方案通過(guò)自動(dòng)解析采集規(guī)則,實(shí)現(xiàn)網(wǎng)頁(yè)的自動(dòng)采集,所以其具有效率高、成本低的優(yōu)點(diǎn)。

附圖說(shuō)明

為了更清楚地說(shuō)明本發(fā)明實(shí)施例的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明第一較佳實(shí)施方式提供的一種網(wǎng)頁(yè)的智能采集方法的流程圖;

圖2為本發(fā)明第二較佳實(shí)施方式提供的一種計(jì)算機(jī)設(shè)備的結(jié)構(gòu)圖。

圖3為本發(fā)明第二較佳實(shí)施方式提供的一種計(jì)算機(jī)設(shè)備的硬件結(jié)構(gòu)圖。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

請(qǐng)參考圖1,圖1是本發(fā)明第一較佳實(shí)施方式提出的一種網(wǎng)頁(yè)的智能采集方法,該方法由計(jì)算機(jī)設(shè)備執(zhí)行,該方法如圖1所示,包括如下步驟:

步驟s101、計(jì)算機(jī)設(shè)備獲取添加任務(wù)以及添加網(wǎng)址。

步驟s102、計(jì)算機(jī)設(shè)備添加網(wǎng)頁(yè)的采集規(guī)則,對(duì)該采集規(guī)則智能解析。

步驟s103、計(jì)算機(jī)設(shè)備測(cè)試采集規(guī)則,在該采集規(guī)則測(cè)試通過(guò)后,發(fā)布任務(wù)。

步驟s104、計(jì)算機(jī)設(shè)備依據(jù)該采集規(guī)則開(kāi)始采集網(wǎng)頁(yè),并將采集的網(wǎng)頁(yè)數(shù)據(jù)發(fā)布。

可選的,上述方法在步驟s103與步驟s104之間還可以包括:

計(jì)算機(jī)設(shè)備將發(fā)布的任務(wù)存儲(chǔ)在數(shù)據(jù)庫(kù)。

可選的,上述方法中對(duì)該采集規(guī)則進(jìn)行智能解析的流程如圖2a所示,其中,圖2a一種網(wǎng)頁(yè)的智能解析方法的示意圖,通過(guò)智能提取采集規(guī)則,可大大減少用戶(hù)配置采集規(guī)則所需的時(shí)間,并且可幫助普通用戶(hù)快速實(shí)現(xiàn)規(guī)則提取。該解析方案包含:元素定位提取、規(guī)則數(shù)據(jù)庫(kù)匹配、模型數(shù)據(jù)庫(kù)匹配、語(yǔ)義算法。其中元素定位提取可最大限度的方便大眾,直接點(diǎn)擊網(wǎng)頁(yè)中的某元素,系統(tǒng)便可自動(dòng)提取出該元素對(duì)應(yīng)的提取規(guī)則(xpath地址、正則參數(shù)提取);然后規(guī)則數(shù)據(jù)庫(kù)匹配作為智能解析的第一步操作,若添加的網(wǎng)址類(lèi)似于規(guī)則庫(kù)中網(wǎng)址,則自動(dòng)提取規(guī)則并校驗(yàn),不通過(guò)時(shí)使用模型數(shù)據(jù)庫(kù),通過(guò)語(yǔ)義分析標(biāo)題的動(dòng)詞、介詞或副詞組合概率以判斷網(wǎng)址類(lèi)型,從模型庫(kù)中提取該類(lèi)型的模型規(guī)則進(jìn)行數(shù)據(jù)提取測(cè)驗(yàn),將有效的前三個(gè)規(guī)則提示給用戶(hù)選擇,在用戶(hù)進(jìn)行選擇或修改時(shí),對(duì)該規(guī)則進(jìn)行修正或記錄以達(dá)到規(guī)則庫(kù)越來(lái)越充實(shí)、精確。語(yǔ)義算法作為補(bǔ)充功能,當(dāng)規(guī)則庫(kù)和模型庫(kù)無(wú)法提取出規(guī)則時(shí),對(duì)所需類(lèi)型元素進(jìn)行統(tǒng)一提取,根據(jù)內(nèi)容進(jìn)行計(jì)算并篩選出可用規(guī)則。

元素規(guī)則提?。和ㄟ^(guò)對(duì)網(wǎng)頁(yè)元素的點(diǎn)擊,系統(tǒng)自動(dòng)提取出該元素的提取規(guī)則,包括xpath地址、正則參數(shù)提取;

規(guī)則數(shù)據(jù)庫(kù)匹配:作為智能解析的第一步,根據(jù)主域名進(jìn)行匹配(例如:gd.*.cn類(lèi)似于sz.*.cn)。找到對(duì)應(yīng)的規(guī)則進(jìn)行后臺(tái)解析,如果其規(guī)則能有效提取數(shù)據(jù),則推薦該規(guī)則。

模型數(shù)據(jù)庫(kù)匹配/語(yǔ)義分析:作為智能解析的第二步,模型庫(kù)字段由采集源類(lèi)型決定。由語(yǔ)義分析確認(rèn)采集源類(lèi)型,并提取庫(kù)中屬于該類(lèi)型的模型,如果其規(guī)則能有效提取數(shù)據(jù),則推薦該規(guī)則(當(dāng)多個(gè)規(guī)則均采集到數(shù)據(jù)時(shí),同時(shí)推薦,取字符長(zhǎng)度大小的前3個(gè))。當(dāng)用戶(hù)對(duì)規(guī)則進(jìn)行調(diào)整,并進(jìn)行有效測(cè)試之后,記錄新規(guī)則(增加修正計(jì)數(shù)、未調(diào)整則僅記錄引用計(jì)數(shù)),當(dāng)源規(guī)則包含新規(guī)則時(shí),直接進(jìn)行修正。當(dāng)用戶(hù)新增字段時(shí),則系統(tǒng)對(duì)該類(lèi)型的模型庫(kù)添加該字段及初始規(guī)則。

語(yǔ)義算法:語(yǔ)義分析通過(guò)對(duì)標(biāo)題、內(nèi)容的動(dòng)詞/介詞/副詞組合概率以判斷網(wǎng)址類(lèi)型;語(yǔ)義算法通過(guò)對(duì)內(nèi)容進(jìn)行計(jì)算并篩選出可用規(guī)則(例如新聞?lì)愋偷膬?nèi)容字段:通過(guò)對(duì)內(nèi)容長(zhǎng)度的反向推算,取不包含div的內(nèi)容(文字)長(zhǎng)度最大的底層div以確認(rèn)包含內(nèi)容的元素并生成提取規(guī)則)。

智能解析規(guī)則

1、語(yǔ)義算法:通過(guò)對(duì)采集數(shù)據(jù)的語(yǔ)義分析過(guò)濾無(wú)效內(nèi)容,識(shí)別出有效內(nèi)容,并計(jì)算出該數(shù)據(jù)的提取規(guī)則。

2、規(guī)則庫(kù):存儲(chǔ)已有網(wǎng)址的采集規(guī)則,當(dāng)出現(xiàn)相同或相似的新增采集網(wǎng)址時(shí)可以提取復(fù)用。

3、模型庫(kù):存儲(chǔ)主流數(shù)據(jù)采集模型(支持模型擴(kuò)展),從而使計(jì)算機(jī)設(shè)備快速識(shí)別出所需要提取的元素及生成規(guī)則。

例如:新聞模型,當(dāng)采集一篇新聞詳情頁(yè)網(wǎng)址時(shí),系統(tǒng)可根據(jù)新聞模型自動(dòng)提取出″標(biāo)題″、″作者″、″來(lái)源″、″發(fā)布時(shí)間″、″內(nèi)容″等字段)。

4、自我修正:當(dāng)通過(guò)自動(dòng)解析生成規(guī)則,用戶(hù)變更規(guī)則并進(jìn)行有效測(cè)試(或有效采集)時(shí),計(jì)算機(jī)設(shè)備會(huì)自動(dòng)更新模型庫(kù)。

可選的,上述方法在對(duì)該規(guī)則智能解析之前還可以包括:

人工制定規(guī)則,具體的:

1、用戶(hù)通過(guò)對(duì)網(wǎng)址數(shù)據(jù)結(jié)構(gòu)的分析,制定出提取元素?cái)?shù)據(jù)的規(guī)則。

2、元素定位:計(jì)算機(jī)設(shè)備自動(dòng)定位網(wǎng)頁(yè)元素,使用戶(hù)點(diǎn)擊即可獲取元素內(nèi)容,并由計(jì)算機(jī)設(shè)備生成采集規(guī)則。

參閱圖2b,圖2b提供一種計(jì)算機(jī)設(shè)備,所述計(jì)算機(jī)設(shè)備包括:

獲取單元201,用于獲取添加任務(wù)以及添加網(wǎng)址;

處理單元202,用于添加網(wǎng)頁(yè)的采集規(guī)則,對(duì)該采集規(guī)則智能解析,測(cè)試采集規(guī)則,在該采集規(guī)則測(cè)試通過(guò)后,發(fā)布任務(wù),依據(jù)該采集規(guī)則開(kāi)始采集網(wǎng)頁(yè),并將采集的網(wǎng)頁(yè)數(shù)據(jù)發(fā)布。

可選的,處理單元202,還用于將所述發(fā)布任務(wù)同步到數(shù)據(jù)庫(kù)中。

可選的,處理單元202,還用于人工制定規(guī)則,具體的:用戶(hù)通過(guò)對(duì)網(wǎng)址數(shù)據(jù)結(jié)構(gòu)的分析,制定出提取元素?cái)?shù)據(jù)的規(guī)則;計(jì)算機(jī)設(shè)備自動(dòng)定位網(wǎng)頁(yè)元素,使用戶(hù)點(diǎn)擊即可獲取元素內(nèi)容,并由計(jì)算機(jī)設(shè)備生成采集規(guī)則。

可選的,處理單元202,具體用于對(duì)所述采集規(guī)則進(jìn)行語(yǔ)義算法解析識(shí)別出所述采集規(guī)則的有效內(nèi)容,計(jì)算出該數(shù)據(jù)的提取規(guī)則。

參閱圖3,圖3為一種計(jì)算機(jī)設(shè)備30,包括:處理器301、收發(fā)器302、存儲(chǔ)器303和總線304,收發(fā)器302用于與外部設(shè)備之間收發(fā)數(shù)據(jù)。處理器301的數(shù)量可以是一個(gè)或多個(gè)。本申請(qǐng)的一些實(shí)施例中,處理器301、存儲(chǔ)器302和收發(fā)器303可通過(guò)總線304或其他方式連接。計(jì)算機(jī)設(shè)備30可以用于執(zhí)行圖1的步驟。關(guān)于本實(shí)施例涉及的術(shù)語(yǔ)的含義以及舉例,可以參考圖1對(duì)應(yīng)的實(shí)施例。此處不再贅述。

其中,存儲(chǔ)器303中存儲(chǔ)程序代碼。處理器301用于調(diào)用存儲(chǔ)器303中存儲(chǔ)的程序代碼,用于執(zhí)行以下操作:

處理器301,用于在啟動(dòng)后,接收位置傳感器發(fā)送的多個(gè)位置信息,對(duì)多個(gè)位置信息進(jìn)行識(shí)別得到第一運(yùn)動(dòng)趨勢(shì),查詢(xún)第一運(yùn)動(dòng)趨勢(shì)對(duì)應(yīng)的第一操作,執(zhí)行該第一操作。

需要說(shuō)明的是,這里的處理器301可以是一個(gè)處理元件,也可以是多個(gè)處理元件的統(tǒng)稱(chēng)。例如,該處理元件可以是中央處理器(centralprocessingunit,cpu),也可以是特定集成電路(applicationspecificintegratedcircuit,asic),或者是被配置成本申請(qǐng)實(shí)施例的一個(gè)或多個(gè)集成電路,例如:一個(gè)或多個(gè)微處理器(digitalsignalprocessor,dsp),或,一個(gè)或者多個(gè)現(xiàn)場(chǎng)可編程門(mén)陣列(fieldprogrammablegatearray,fpga)。

存儲(chǔ)器303可以是一個(gè)存儲(chǔ)裝置,也可以是多個(gè)存儲(chǔ)元件的統(tǒng)稱(chēng),且用于存儲(chǔ)可執(zhí)行程序代碼或應(yīng)用程序運(yùn)行裝置運(yùn)行所需要參數(shù)、數(shù)據(jù)等。且存儲(chǔ)器303可以包括隨機(jī)存儲(chǔ)器(ram),也可以包括非易失性存儲(chǔ)器(non-volatilememory),例如磁盤(pán)存儲(chǔ)器,閃存(flash)等。

總線304可以是工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(industrystandardarchitecture,isa)總線、外部設(shè)備互連(peripheralcomponent,pci)總線或擴(kuò)展工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(extendedindustrystandardarchitecture,eisa)總線等。該總線可以分為地址總線、數(shù)據(jù)總線、控制總線等。為便于表示,圖3中僅用一條粗線表示,但并不表示僅有一根總線或一種類(lèi)型的總線。

該終端還可以包括輸入輸出裝置,連接于總線304,以通過(guò)總線與處理器301等其它部分連接。該輸入輸出裝置可以為操作人員提供一輸入界面,以便操作人員通過(guò)該輸入界面選擇布控項(xiàng),還可以是其它接口,可通過(guò)該接口外接其它設(shè)備。

需要說(shuō)明的是,對(duì)于前述的各個(gè)方法實(shí)施例,為了簡(jiǎn)單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本發(fā)明,某一些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說(shuō)明書(shū)中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作和模塊并不一定是本發(fā)明所必須的。

在上述實(shí)施例中,對(duì)各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒(méi)有詳細(xì)描述的部分,可以參見(jiàn)其他實(shí)施例的相關(guān)描述。

本領(lǐng)域普通技術(shù)人員可以理解上述實(shí)施例的各種方法中的全部或部分步驟是可以通過(guò)程序來(lái)指令相關(guān)的硬件來(lái)完成,該程序可以存儲(chǔ)于一計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,存儲(chǔ)介質(zhì)可以包括:閃存盤(pán)、只讀存儲(chǔ)器(英文:read-onlymemory,簡(jiǎn)稱(chēng):rom)、隨機(jī)存取器(英文:randomaccessmemory,簡(jiǎn)稱(chēng):ram)、磁盤(pán)或光盤(pán)等。

以上實(shí)施例的說(shuō)明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說(shuō)明書(shū)內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1