亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種網(wǎng)頁(yè)內(nèi)容抓取方法和裝置的制造方法

文檔序號(hào):9826254閱讀:226來(lái)源:國(guó)知局
一種網(wǎng)頁(yè)內(nèi)容抓取方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別涉及一種網(wǎng)頁(yè)內(nèi)容抓取方法和裝置。
【背景技術(shù)】
[0002]目前搜索引擎得到廣泛使用,人們常常通過(guò)搜索引擎搜索內(nèi)容。搜索引擎事先從互聯(lián)網(wǎng)服務(wù)器中抓取網(wǎng)頁(yè)內(nèi)容,將抓取得到的網(wǎng)頁(yè)內(nèi)容收錄起來(lái),然后供用戶搜索。
[0003]目前搜索引擎都使用網(wǎng)絡(luò)爬蟲(chóng)從互聯(lián)網(wǎng)服務(wù)器中抓取網(wǎng)頁(yè)內(nèi)容,網(wǎng)絡(luò)爬蟲(chóng)是一種抓取網(wǎng)頁(yè)內(nèi)容的應(yīng)用。然而發(fā)明人在實(shí)現(xiàn)本發(fā)明時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)爬蟲(chóng)抓取網(wǎng)頁(yè)內(nèi)容的過(guò)程比較耗時(shí),導(dǎo)致抓取網(wǎng)頁(yè)內(nèi)容的效率低。

【發(fā)明內(nèi)容】

[0004]為了使解決現(xiàn)有技術(shù)的問(wèn)題,本發(fā)明提供了一種網(wǎng)頁(yè)內(nèi)容抓取方法和裝置。技術(shù)方案如下:
[0005]一方面,本發(fā)明提供了一種網(wǎng)頁(yè)內(nèi)容抓取方法,所述方法包括:
[0006]周期性的通過(guò)第一線程從第一調(diào)度庫(kù)中找出調(diào)度時(shí)間到達(dá)的網(wǎng)頁(yè)標(biāo)識(shí),將所述找出的網(wǎng)頁(yè)標(biāo)識(shí)從所述第一調(diào)度庫(kù)移至第二調(diào)度庫(kù)中,所述第一調(diào)度庫(kù)用于存儲(chǔ)所有待抓取網(wǎng)頁(yè)內(nèi)容的網(wǎng)頁(yè)標(biāo)識(shí);
[0007]在抓取完網(wǎng)頁(yè)內(nèi)容時(shí),通過(guò)第二線程從所述第二調(diào)度庫(kù)中選擇調(diào)度優(yōu)先級(jí)別最高的預(yù)設(shè)數(shù)值個(gè)網(wǎng)頁(yè)標(biāo)識(shí);
[0008]根據(jù)所述選擇的網(wǎng)頁(yè)標(biāo)識(shí),抓取網(wǎng)頁(yè)內(nèi)容。
[0009]另一方面,本發(fā)明提供了一種網(wǎng)頁(yè)內(nèi)容抓取裝置,所述裝置包括:
[0010]第一移動(dòng)模塊,用于周期性的通過(guò)第一線程從第一調(diào)度庫(kù)中找出調(diào)度時(shí)間到達(dá)的網(wǎng)頁(yè)標(biāo)識(shí),將所述找出的網(wǎng)頁(yè)標(biāo)識(shí)從所述第一調(diào)度庫(kù)移至第二調(diào)度庫(kù)中,所述第一調(diào)度庫(kù)用于存儲(chǔ)所有待抓取網(wǎng)頁(yè)內(nèi)容的網(wǎng)頁(yè)標(biāo)識(shí);
[0011]選擇模塊,用于在抓取完網(wǎng)頁(yè)內(nèi)容時(shí),通過(guò)第二線程從所述第二調(diào)度庫(kù)中選擇調(diào)度優(yōu)先級(jí)別最高的預(yù)設(shè)數(shù)值個(gè)網(wǎng)頁(yè)標(biāo)識(shí);
[0012]抓取模塊,用于根據(jù)所述選擇的網(wǎng)頁(yè)標(biāo)識(shí),抓取網(wǎng)頁(yè)內(nèi)容。
[0013]在本發(fā)明實(shí)施例中周期性的通過(guò)第一線程從第一調(diào)度庫(kù)中找出調(diào)度時(shí)間為當(dāng)前時(shí)間或者在當(dāng)前時(shí)間之前的網(wǎng)頁(yè)標(biāo)識(shí),將找出的網(wǎng)頁(yè)標(biāo)識(shí)從第一調(diào)度庫(kù)移至第二調(diào)度庫(kù)中,在抓取完網(wǎng)頁(yè)內(nèi)容時(shí),通過(guò)第二線程從第二調(diào)度庫(kù)中選擇調(diào)度優(yōu)先級(jí)別最高的預(yù)設(shè)數(shù)值個(gè)網(wǎng)頁(yè)標(biāo)識(shí);根據(jù)選擇的網(wǎng)頁(yè)標(biāo)識(shí),抓取網(wǎng)頁(yè)內(nèi)容。由于第一線程和第二線程可以同時(shí)進(jìn)行,并且第二調(diào)度庫(kù)中存儲(chǔ)的網(wǎng)頁(yè)標(biāo)識(shí)的數(shù)目較少,從第二調(diào)度庫(kù)中選擇網(wǎng)頁(yè)標(biāo)識(shí)比較省時(shí),從而提聞了抓取網(wǎng)頁(yè)內(nèi)容的效率。
【附圖說(shuō)明】
[0014]圖1是本發(fā)明實(shí)施例1提供的一種網(wǎng)頁(yè)內(nèi)容抓取方法流程圖;
[0015]圖2是本發(fā)明實(shí)施例2提供的一種網(wǎng)頁(yè)內(nèi)容抓取方法流程圖;
[0016]圖3-1是本發(fā)明實(shí)施例3提供的一種網(wǎng)頁(yè)內(nèi)容抓取裝置結(jié)構(gòu)示意圖;
[0017]圖3-2是本發(fā)明實(shí)施例3提供的另一種網(wǎng)頁(yè)內(nèi)容抓取裝置結(jié)構(gòu)示意圖;
[0018]圖4是本發(fā)明實(shí)施例4提供的一種服務(wù)器的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0019]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施方式作進(jìn)一步地詳細(xì)描述。
[0020]實(shí)施例1
[0021]本發(fā)明實(shí)施例提供了一種網(wǎng)頁(yè)內(nèi)容抓取方法,參見(jiàn)圖1,該方法包括:
[0022]步驟101:周期性的通過(guò)第一線程從第一調(diào)度庫(kù)中找出調(diào)度時(shí)間到達(dá)的網(wǎng)頁(yè)標(biāo)識(shí),將找出的網(wǎng)頁(yè)標(biāo)識(shí)從第一調(diào)度庫(kù)移至第二調(diào)度庫(kù)中,第一調(diào)度庫(kù)用于存儲(chǔ)所有待抓取網(wǎng)頁(yè)內(nèi)容的網(wǎng)頁(yè)標(biāo)識(shí);
[0023]步驟102:在抓取完網(wǎng)頁(yè)內(nèi)容時(shí),通過(guò)第二線程從第二調(diào)度庫(kù)中選擇調(diào)度優(yōu)先級(jí)別最高的預(yù)設(shè)數(shù)值個(gè)網(wǎng)頁(yè)標(biāo)識(shí);
[0024]步驟103:根據(jù)選擇的網(wǎng)頁(yè)標(biāo)識(shí),抓取網(wǎng)頁(yè)內(nèi)容。
[0025]在本發(fā)明實(shí)施例中周期性的通過(guò)第一線程從第一調(diào)度庫(kù)中找出調(diào)度時(shí)間為當(dāng)前時(shí)間或者在當(dāng)前時(shí)間之前的網(wǎng)頁(yè)標(biāo)識(shí),將找出的網(wǎng)頁(yè)標(biāo)識(shí)從第一調(diào)度庫(kù)移至第二調(diào)度庫(kù)中,在抓取完網(wǎng)頁(yè)內(nèi)容時(shí),通過(guò)第二線程從第二調(diào)度庫(kù)中選擇調(diào)度優(yōu)先級(jí)別最高的預(yù)設(shè)數(shù)值個(gè)網(wǎng)頁(yè)標(biāo)識(shí);根據(jù)選擇的網(wǎng)頁(yè)標(biāo)識(shí),抓取網(wǎng)頁(yè)內(nèi)容。由于第一線程和第二線程可以同時(shí)進(jìn)行,并且第二調(diào)度庫(kù)中存儲(chǔ)的網(wǎng)頁(yè)標(biāo)識(shí)的數(shù)目較少,從第二調(diào)度庫(kù)中選擇網(wǎng)頁(yè)標(biāo)識(shí)比較省時(shí),從而提聞了抓取網(wǎng)頁(yè)內(nèi)容的效率。
[0026]實(shí)施例2
[0027]本發(fā)明實(shí)施例提供了一種網(wǎng)頁(yè)內(nèi)容抓取方法,該方法的執(zhí)行主體可以為服務(wù)器。在搜索引擎領(lǐng)域,需要從互聯(lián)網(wǎng)上的服務(wù)器中的抓取網(wǎng)頁(yè)內(nèi)容,為了提高抓取網(wǎng)頁(yè)內(nèi)容的效率,在本發(fā)明實(shí)施例中建立第一線程和第二線程,周期性地通過(guò)第一線程從第一調(diào)度庫(kù)找出調(diào)度時(shí)間到達(dá)的網(wǎng)頁(yè)標(biāo)識(shí),將找出的網(wǎng)頁(yè)標(biāo)識(shí)添加到第二調(diào)度庫(kù);通過(guò)第二線程從第二調(diào)度庫(kù)中選擇網(wǎng)頁(yè)標(biāo)識(shí),再抓取選擇的網(wǎng)頁(yè)標(biāo)識(shí)對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容。
[0028]其中,第一線程和第二線程是并行工作的,第一進(jìn)程周期性地從第一調(diào)度庫(kù)中選擇網(wǎng)頁(yè)標(biāo)識(shí),只要第二調(diào)度庫(kù)中有網(wǎng)頁(yè)標(biāo)識(shí),第二進(jìn)程只要在抓取完網(wǎng)頁(yè)內(nèi)容后就從第二調(diào)度庫(kù)中選擇網(wǎng)頁(yè)標(biāo)識(shí),如此通過(guò)第一線程和第二線程使抓取網(wǎng)頁(yè)內(nèi)容的兩個(gè)過(guò)程并行執(zhí)打,從而提聞抓取網(wǎng)頁(yè)內(nèi)容的效率。
[0029]參見(jiàn)圖2,該方法包括:
[0030]步驟201:周期性的通過(guò)第一線程從第一調(diào)度庫(kù)中找出調(diào)度時(shí)間到達(dá)的網(wǎng)頁(yè)標(biāo)識(shí),將找出的網(wǎng)頁(yè)標(biāo)識(shí)從第一調(diào)度庫(kù)移至第二調(diào)度庫(kù)中;
[0031]第一調(diào)度庫(kù)中用于存儲(chǔ)互聯(lián)網(wǎng)中包括的網(wǎng)頁(yè)的網(wǎng)頁(yè)標(biāo)識(shí),第一調(diào)度庫(kù)中的每個(gè)網(wǎng)頁(yè)標(biāo)識(shí)對(duì)應(yīng)一個(gè)調(diào)度時(shí)間間隔,對(duì)于每個(gè)網(wǎng)頁(yè)標(biāo)識(shí),該網(wǎng)頁(yè)標(biāo)識(shí)的調(diào)度時(shí)間是根據(jù)該網(wǎng)頁(yè)標(biāo)識(shí)對(duì)應(yīng)的調(diào)度時(shí)間間隔周期性計(jì)算得到的。
[0032]將網(wǎng)頁(yè)標(biāo)識(shí)和調(diào)度時(shí)間間隔存儲(chǔ)在網(wǎng)頁(yè)標(biāo)識(shí)和調(diào)度時(shí)間間隔的對(duì)應(yīng)關(guān)系中,從而可以根據(jù)網(wǎng)頁(yè)標(biāo)識(shí),從網(wǎng)頁(yè)標(biāo)識(shí)和調(diào)度時(shí)間間隔的對(duì)應(yīng)關(guān)系中獲取網(wǎng)頁(yè)標(biāo)識(shí)的調(diào)度時(shí)間間隔。
[0033]網(wǎng)頁(yè)標(biāo)識(shí)的調(diào)度時(shí)間間隔可以根據(jù)網(wǎng)頁(yè)標(biāo)識(shí)對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容變化快慢進(jìn)行設(shè)置并更改。如果網(wǎng)頁(yè)標(biāo)識(shí)對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容變化較快,則為該網(wǎng)頁(yè)標(biāo)識(shí)分配一個(gè)較小的調(diào)度時(shí)間間隔;如果網(wǎng)頁(yè)標(biāo)識(shí)對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容變化較慢,則為該網(wǎng)頁(yè)標(biāo)識(shí)分配一個(gè)較大的調(diào)度時(shí)間間隔。
[0034]例如,網(wǎng)頁(yè)標(biāo)識(shí)對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容變化較快,如5分鐘變化一次,則為該網(wǎng)頁(yè)標(biāo)識(shí)分配一個(gè)較小的調(diào)度時(shí)間間隔,如為該網(wǎng)頁(yè)標(biāo)識(shí)分配一個(gè)5分鐘或者4分鐘的調(diào)度時(shí)間間隔等;如果網(wǎng)頁(yè)標(biāo)識(shí)對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容變化較慢,如20分鐘變化一次,則為該網(wǎng)頁(yè)標(biāo)識(shí)分配一個(gè)較大的調(diào)度時(shí)間間隔,如為該網(wǎng)頁(yè)標(biāo)識(shí)分配一個(gè)20分鐘或者18分鐘的調(diào)度時(shí)間間隔。
[0035]調(diào)度時(shí)間到達(dá)的網(wǎng)頁(yè)標(biāo)識(shí)是指調(diào)度時(shí)間為當(dāng)前時(shí)間或者在當(dāng)前時(shí)間之前的網(wǎng)頁(yè)標(biāo)識(shí)。
[0036]步驟201可以具體為:周期性的通過(guò)第一線程根據(jù)調(diào)度時(shí)間由近到遠(yuǎn)的順序?qū)⒌谝徽{(diào)度庫(kù)中的網(wǎng)頁(yè)標(biāo)識(shí)進(jìn)行排序,從排序后的第一調(diào)度庫(kù)中找出調(diào)度時(shí)間為當(dāng)前時(shí)間或者在當(dāng)前時(shí)間之前的網(wǎng)頁(yè)標(biāo)識(shí)。
[0037]網(wǎng)頁(yè)標(biāo)識(shí)可以為網(wǎng)頁(yè)的URL(Uniform Resoure Locator,統(tǒng)一資源定位器)等。
[0038]步驟202:在抓取完網(wǎng)頁(yè)內(nèi)容時(shí),通過(guò)第二線程從第二調(diào)度庫(kù)中選擇調(diào)度優(yōu)先級(jí)別最高的預(yù)設(shè)數(shù)值個(gè)網(wǎng)頁(yè)標(biāo)識(shí);
[0039]計(jì)時(shí)的時(shí)間到達(dá)預(yù)設(shè)時(shí)長(zhǎng)就是抓取完網(wǎng)頁(yè)內(nèi)容。
[0040]第二線程與第一線程并行工作,在抓取完網(wǎng)頁(yè)內(nèi)容時(shí),只要第二調(diào)度庫(kù)中有網(wǎng)頁(yè)標(biāo)識(shí),就通過(guò)第二線程從第二調(diào)度庫(kù)中選擇網(wǎng)頁(yè)標(biāo)識(shí)。
[0041]由于每個(gè)網(wǎng)頁(yè)標(biāo)識(shí)對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容的價(jià)值并不相同,因此,根據(jù)每個(gè)網(wǎng)頁(yè)標(biāo)識(shí)對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容的價(jià)值為每個(gè)網(wǎng)頁(yè)標(biāo)識(shí)分配一個(gè)調(diào)度優(yōu)先級(jí)別。如果網(wǎng)頁(yè)標(biāo)識(shí)對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容的價(jià)值高,則為網(wǎng)頁(yè)標(biāo)識(shí)分配一個(gè)高的優(yōu)先級(jí)別,如果網(wǎng)頁(yè)標(biāo)識(shí)對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容的價(jià)值低,則為網(wǎng)頁(yè)標(biāo)識(shí)分配一個(gè)低的優(yōu)先級(jí)別。在抓取網(wǎng)頁(yè)內(nèi)容時(shí),首先抓取網(wǎng)頁(yè)內(nèi)容的價(jià)值高也即調(diào)度優(yōu)先級(jí)別高的網(wǎng)頁(yè)標(biāo)識(shí)對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容,然后抓取網(wǎng)頁(yè)內(nèi)容的價(jià)值低也即調(diào)度優(yōu)先級(jí)別低的網(wǎng)頁(yè)標(biāo)識(shí)對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容。
[0042]進(jìn)一步地,服務(wù)器為每個(gè)網(wǎng)頁(yè)標(biāo)識(shí)分配一個(gè)調(diào)度優(yōu)先級(jí)別之后,將每個(gè)網(wǎng)頁(yè)標(biāo)識(shí)和每個(gè)網(wǎng)頁(yè)標(biāo)識(shí)的調(diào)度優(yōu)先級(jí)別存儲(chǔ)在網(wǎng)頁(yè)標(biāo)識(shí)和調(diào)度優(yōu)先級(jí)別的對(duì)應(yīng)關(guān)系中,從而可以根據(jù)網(wǎng)頁(yè)標(biāo)識(shí)從網(wǎng)頁(yè)標(biāo)識(shí)和調(diào)度優(yōu)先級(jí)別的對(duì)應(yīng)關(guān)系中獲取網(wǎng)頁(yè)標(biāo)識(shí)的調(diào)度優(yōu)先級(jí)別。
[0043]服務(wù)器也可以將每個(gè)網(wǎng)頁(yè)標(biāo)識(shí)的調(diào)度優(yōu)先級(jí)別存儲(chǔ)到網(wǎng)頁(yè)標(biāo)識(shí)的屬性信息中,從而可以從網(wǎng)頁(yè)標(biāo)識(shí)的屬性信息中獲取網(wǎng)頁(yè)標(biāo)識(shí)的調(diào)度優(yōu)先級(jí)別。
[0044]其中,步驟202可以通過(guò)以下步驟(I)至
當(dāng)前第1頁(yè)1 2 3 4 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1