專利名稱:一種互聯(lián)網(wǎng)主題文件搜索方法、爬蟲系統(tǒng)和搜索引擎的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)文件搜索,尤其涉及一種互聯(lián)網(wǎng)主題文件搜索方法,以 及相應(yīng)的爬蟲系統(tǒng)和搜索引擎。
背景技術(shù):
Internet已經(jīng)成為計(jì)算機(jī)領(lǐng)域最熱門的一項(xiàng)技術(shù),Internet的普及使人們可 以突破空間、地域的限制,方便地共享信息資源。www是Internet上提供的最 主要、應(yīng)用最廣泛的一種信息服務(wù),自誕生以來得到了迅猛發(fā)展,已經(jīng)成為一 個(gè)巨大的信息庫,存儲(chǔ)著大量有價(jià)值的信息,人們可以在其上查找到自己感興 趣的各種內(nèi)容。但在實(shí)際使用中,web網(wǎng)上龐大的數(shù)據(jù)量會(huì)給用戶的信息查詢 工作帶來極大的困難。在這種情況下,各種信息檢索服務(wù)應(yīng)運(yùn)而生,而全文檢 索技術(shù)是廣泛采用的一項(xiàng)重要信息檢索技術(shù)。目前,基于www網(wǎng)的全文檢索 技術(shù)正得到日益廣泛的應(yīng)用,已經(jīng)有不少頗具影響的大型全文檢索工具,其中 比較著名的中文搜索引擎系統(tǒng)有www.soso.com, www.baidu.com等,這些全文 檢索系統(tǒng)的應(yīng)用對(duì)www網(wǎng)上文檔信息的查詢起到了巨大作用。
目前互聯(lián)網(wǎng)搜索引擎一般由爬蟲系統(tǒng)、索引系統(tǒng)、檢索系統(tǒng)組成,爬蟲系 統(tǒng)需要從網(wǎng)絡(luò)上不同的網(wǎng)站采集網(wǎng)頁和各種文件,比如web網(wǎng)頁、mp3文件等, 然后交給索引系統(tǒng)建立索引數(shù)據(jù)庫,檢索系統(tǒng)接收用戶的檢索請(qǐng)求,檢索索引 數(shù)據(jù)庫,返回符合用戶需求的結(jié)果。
一般互聯(lián)網(wǎng)搜索引擎系統(tǒng)架構(gòu)如圖1所示,包括
網(wǎng)頁服務(wù)器提供中文搜索引擎系統(tǒng)網(wǎng)頁訪問服務(wù),是用戶使用中文搜索 引擎系統(tǒng)的用戶接口;
檢索系統(tǒng)根據(jù)用戶提交的檢索關(guān)鍵詞檢索索引數(shù)據(jù)庫,根據(jù)一定算法對(duì)
符合檢索需求的文檔進(jìn)行排序、過濾,返回給網(wǎng)頁服務(wù)器;
索引系統(tǒng)對(duì)爬蟲系統(tǒng)采集的文檔進(jìn)行處理,建立索引數(shù)據(jù)庫; 爬蟲系統(tǒng)采集互聯(lián)網(wǎng)的網(wǎng)頁和各種文檔數(shù)據(jù)。 現(xiàn)有技術(shù)一采集所有的web網(wǎng)站和網(wǎng)頁。
執(zhí)行特定互聯(lián)網(wǎng)主題文件搜索的搜索引擎中,其爬蟲系統(tǒng)一般只采集特定 主題的文件,然后建立索引,提供檢索。但要采集特定主題的文件,需要采集 網(wǎng)頁,找到特定主題文件的統(tǒng)一資源定位符(Uniform Resource Locator, URL)鏈接。
目前爬蟲系統(tǒng)一般采用遍歷所有網(wǎng)頁,即采集所有的網(wǎng)頁和文件,然后保 存需要的特定主題的文件。由于含有特定主題文件的網(wǎng)頁很少,導(dǎo)致下載特定 主題文件的效率很低,下載幾萬個(gè)網(wǎng)頁才包含有一個(gè)特定主題文件,而且還很 可能是死鏈。因此需要一種技術(shù)提高下載包含特定主題文件的網(wǎng)頁的概率。 現(xiàn)有技術(shù)二采集特定的主題網(wǎng)站和網(wǎng)頁。
根據(jù)對(duì)采集的網(wǎng)頁進(jìn)行分析,發(fā)現(xiàn)一般網(wǎng)頁間的鏈接具有以下特征主題 聚集性和本地性。網(wǎng)頁普遍具有這兩個(gè)特性,本地性決定同一主機(jī)的網(wǎng)頁互相 鏈接概率比較大,主題聚集性決定同一主題的網(wǎng)頁互相鏈接概率大。
網(wǎng)頁之間的鏈接特性可以用圖2來進(jìn)行模擬表示,圖2中,每一個(gè)圓圏代 表一個(gè)網(wǎng)頁,實(shí)心圓圏代表包含mp3文件的網(wǎng)頁;假設(shè)需要采集MP3文件, 圖2中顯示出新聞主題和音樂主題的網(wǎng)頁之間的鏈接和包含的MP3文件,結(jié) 果表明新聞主題的網(wǎng)頁之間互相鏈接比較多,音樂主題的網(wǎng)頁之間互相鏈接 比較多,音樂主題和新聞主題之間的網(wǎng)頁鏈接比較少。音樂主題的網(wǎng)頁包含 MP3文件的URU既率要比新聞主題的網(wǎng)頁包含的MP3文件的URL概率大。
因此,現(xiàn)有技術(shù)二中采用對(duì)特定的主題網(wǎng)頁進(jìn)行搜索的方法。以上述采集 MP3文件為例,MP3搜索引擎的爬蟲系統(tǒng)采集音樂主題網(wǎng)站和網(wǎng)頁,發(fā)現(xiàn)和 采集MP3文件的效率會(huì)比較高。
盡管現(xiàn)有技術(shù)二的采集效率較高,但由于只采集特定的少數(shù)網(wǎng)站,導(dǎo)致整 個(gè)采集的特定主題文件比較少,無法采集互聯(lián)網(wǎng)上盡可能多的文件。
發(fā)明內(nèi)容
本發(fā)明提供一種互聯(lián)網(wǎng)主題文件搜索方法,用以解決現(xiàn)有技術(shù)中存在的搜 索互聯(lián)網(wǎng)主題文件效率低或釆集不全面的問題。
為解決所述技術(shù)問題,本發(fā)明釆用的技術(shù)方案是,提供一種互聯(lián)網(wǎng)主題文
件搜索方法,該方法包括
A、 解析下載的網(wǎng)頁,提取網(wǎng)頁中包含的統(tǒng)一資源定位符URL;
B、 確定出各URL的對(duì)應(yīng)優(yōu)先級(jí);
C、 按優(yōu)先級(jí)從高到低的順序采集各URL,建立索引,搜索所需互聯(lián)網(wǎng)主 題文件。
根據(jù)本發(fā)明的上述方法,還包括 保存已采集的URL歷史記錄;
所述步驟B中,根據(jù)所述歷史記錄判斷下載網(wǎng)頁中包含的URL是否已采 集,僅對(duì)未采集過的URL確定優(yōu)先級(jí)。 根據(jù)本發(fā)明的上述方法,還包括
設(shè)置URL過濾條件,僅對(duì)未采集過的不符合所述過濾條件的URL確定優(yōu) 先級(jí)。
才艮據(jù)本發(fā)明的上述方法,所述確定優(yōu)先級(jí),具體方法為 采用預(yù)定算法計(jì)算出待采集URL的URL的主題分;根據(jù)所述主題分的分 值大小確定URL的對(duì)應(yīng)優(yōu)先級(jí)。
所述采用預(yù)定算法計(jì)算出待采集URL的URL的主題分,具體方法為
計(jì)算包含該URL的已采集的網(wǎng)頁對(duì)應(yīng)的網(wǎng)頁主題分;
累加包括該URL的全部網(wǎng)頁的主題分作為該URL的URL的主題分。
所述網(wǎng)頁主題分具體計(jì)算公式為
F (p) = a x numFileLink x FactorLink + b*numKeyWord x FactorWord;
式中,F(xiàn) (p)為計(jì)算出的網(wǎng)頁主題分;
numFileLink為該網(wǎng)頁含有的主題文件URL的個(gè)數(shù);
FactorLink為URL鏈接的積分因子;
numKeyWord為該網(wǎng)頁含有的主題關(guān)鍵詞個(gè)數(shù);
FactorWord為主題關(guān)鍵詞的積分因子;
a, b為4又重因子,且a+b-l。
同時(shí),本發(fā)明還提供一種搜索引擎的爬蟲系統(tǒng),包括URL隊(duì)列存儲(chǔ)模塊、 網(wǎng)頁和文件下載才莫塊、網(wǎng)頁解析模塊和采集控制模塊;
所述URL隊(duì)列存儲(chǔ)模塊,按優(yōu)先級(jí)順序存儲(chǔ)待采集的URL;
所述網(wǎng)頁和文件下載模塊,按URL優(yōu)先級(jí)從高到低的順序下載網(wǎng)頁或文 件;將下栽的網(wǎng)頁發(fā)送到所述網(wǎng)頁解析模塊,將下栽的文件發(fā)送到搜索引擎的 索引系統(tǒng)處理;
所述網(wǎng)頁解析模塊,對(duì)網(wǎng)頁進(jìn)行解析,提取網(wǎng)頁中包含的URL發(fā)送到所 述采集控制模塊;
所述采集控制模塊確定出待采集的URL的優(yōu)先級(jí),并將待采集的URL按 其優(yōu)先級(jí)存入所述URL隊(duì)列存儲(chǔ)模塊中的對(duì)應(yīng)優(yōu)先級(jí)隊(duì)列中。
根據(jù)本發(fā)明提供的上述爬蟲系統(tǒng),還包括URL過濾模塊連接在所述網(wǎng)頁 解析模塊和采集控制模塊之間;
所述URL過濾才莫塊判斷所述網(wǎng)頁解析4莫塊解析出的URL是否已采集,僅 保留未采集過的URL;并進(jìn)一步判斷未采集過的URL是否符合設(shè)置的URL 過濾條件,僅將不符合所述過濾條件的未采集過的URL發(fā)送給所述采集控制 模塊。
所述采集控制模塊包括
URL的主題分計(jì)算子模塊,采用預(yù)定算法計(jì)算出待采集URL的URL的主 題分;
URL優(yōu)先級(jí)確定子模塊,根據(jù)URL主題分的分值大小確定對(duì)應(yīng)URL的優(yōu)
先級(jí),存入到所述URL隊(duì)列存儲(chǔ)模塊的不同優(yōu)先級(jí)隊(duì)列中。
對(duì)應(yīng)于所述爬蟲系統(tǒng),本發(fā)明還提供一種搜索引擎,包括爬蟲系統(tǒng)、索引
系統(tǒng)和檢索系統(tǒng),所述爬蟲系統(tǒng)包括URL隊(duì)列存儲(chǔ)模塊、網(wǎng)頁和文件下栽模
塊、網(wǎng)頁解析模塊和釆集控制模塊;
所述URL隊(duì)列存儲(chǔ)模塊,按優(yōu)先級(jí)順序存儲(chǔ)待采集的URL; 所述網(wǎng)頁和文件下載模塊,按URL優(yōu)先級(jí)從高到低的順序下載網(wǎng)頁或文
件;將下載的網(wǎng)頁發(fā)送到所述網(wǎng)頁解析模塊,將下載的文件發(fā)送到搜索引擎的
索引系統(tǒng)處理;
所述網(wǎng)頁解析模塊,對(duì)網(wǎng)頁進(jìn)行解析,提取網(wǎng)頁中包含的URL發(fā)送到所 述采集控制模塊;
所述采集控制模塊確定出待采集的URL的優(yōu)先級(jí),并將待采集的URL按 其優(yōu)先級(jí)存入所述URL隊(duì)列存儲(chǔ)模塊中的對(duì)應(yīng)優(yōu)先級(jí)隊(duì)列中。 本發(fā)明有益效果如下
(1) 本發(fā)明通過解析下載網(wǎng)頁,提取網(wǎng)頁中包含的統(tǒng)一資源定位符URL; 對(duì)各URL根據(jù)預(yù)定規(guī)則確定優(yōu)先級(jí),優(yōu)先采集優(yōu)先級(jí)較高的URL,搜索所需 主題文件;由于優(yōu)先級(jí)較高的URL與主題文件的關(guān)系較密切,搜索出相關(guān)主 題文件的可能性較大,因此,采用本發(fā)明能提高搜索效率。
(2) 本發(fā)明不局限于對(duì)某些特定網(wǎng)站進(jìn)行搜索,可以根據(jù)URL優(yōu)先級(jí)搜 索各相關(guān)網(wǎng)頁,因此,可以做到在整個(gè)Internet上進(jìn)行搜索。
圖1為現(xiàn)有技術(shù)中文信息檢索系統(tǒng)架構(gòu)圖; 圖2為不同主題之間的網(wǎng)頁鏈接示意圖; 圖3為本發(fā)明提供的爬蟲系統(tǒng)結(jié)構(gòu)示意圖; 圖4為本發(fā)明方法流程圖。
具體實(shí)施例方式
參見圖3,為本發(fā)明提供的爬蟲系統(tǒng)1結(jié)構(gòu)示意圖。包括網(wǎng)頁和文件下 載模塊ll、網(wǎng)頁解析模塊12、 URL過濾模塊13、采集控制模塊14和URL隊(duì) 列存儲(chǔ)模塊15。
下面對(duì)各模塊的功能進(jìn)行詳細(xì)描述。
網(wǎng)頁和文件下載模塊ll:使用HTTP、 FTP協(xié)議下栽網(wǎng)頁或文件,并把下 載的網(wǎng)頁提交給網(wǎng)頁解析模塊12,把下載的文件提交給搜索引擎的索引系統(tǒng)建 立索引數(shù)據(jù)庫;
爬蟲系統(tǒng)1剛開始啟動(dòng)運(yùn)行時(shí),設(shè)置一些種子URL放入U(xiǎn)RL隊(duì)列存儲(chǔ)模 塊15的最高優(yōu)先級(jí)URL隊(duì)列(其對(duì)應(yīng)URL主題分為一個(gè)默認(rèn)初始值),例如 一些常見的目錄導(dǎo)航網(wǎng)頁,如www.hao123 .com,網(wǎng)頁和文4牛下栽才莫塊11 乂人URL 隊(duì)列獲取種子URL,然后下載網(wǎng)頁并發(fā)送到網(wǎng)頁解析模塊12進(jìn)行解析。
網(wǎng)頁解析模塊12:解析HTML網(wǎng)頁,提取網(wǎng)頁包含的URL鏈接,并提交 給URL過濾模塊13。
URL過濾模塊13:判斷各URL是否已經(jīng)采集,如果未采集,判斷是否符 合設(shè)定的過濾條件,如果當(dāng)前URL未采集且不符合設(shè)定的過濾條件,則作為 待采集URL發(fā)送給采集控制模塊14;
在該URL過濾模塊13中,保存已采集的URL歷史記錄;根據(jù)保存的歷 史記錄判斷下載網(wǎng)頁中包含的URL是否已采集,并將已采集的URL實(shí)時(shí)存入 歷史記錄中進(jìn)行記錄更新;
在該URL過濾模塊13中,還可以存儲(chǔ)過濾條件,例如過濾條件為設(shè)定 的URL黑名單,URL過濾模塊13根據(jù)該過濾條件判斷當(dāng)前的URL是否位于 黑名單中,如果當(dāng)前URL位于設(shè)置的黑名單中,則判定該URL符合設(shè)定的過 濾條件,該URL將被過濾掉,不被發(fā)送到采集控制模塊14;否則,URL過濾
模塊13將網(wǎng)頁解析模塊12發(fā)送過來的判斷為未采集且不符合過濾條件的URL 全部發(fā)送到采集控制模塊14進(jìn)行處理。
采集控制模塊14,采用預(yù)定算法計(jì)算出待采集URL的URL的主題分,根 據(jù)各URL主題分的分值大小確定對(duì)應(yīng)URL的優(yōu)先級(jí);并將各URL根據(jù)其對(duì) 應(yīng)的優(yōu)先級(jí)存入到URL隊(duì)列存儲(chǔ)模塊15的不同優(yōu)先級(jí)隊(duì)列中;
URL主題分的具體計(jì)算方法如下
2> (P)
S (url)= 已經(jīng)采集的包含該urf的網(wǎng)頁 《(1)
式(1)中,S (url)為該URL的URL主題分,F(xiàn) (p)為網(wǎng)頁的主題分。 即一個(gè)URL的主題分為所有已經(jīng)采集的包含該URL的網(wǎng)頁的主題分之和。 其中
F( p) = a*numFileLink*FactorLink + b*numKey Word* Factor Word 式(2 )
式(2)中,F(xiàn) (p)為計(jì)算出的包含該URL的網(wǎng)頁對(duì)應(yīng)的網(wǎng)頁主題分;
numFileLink為該網(wǎng)頁含有的主題文件URL的個(gè)數(shù);
FactorLink為URL鏈接的積分因子;
numKeyWord為該網(wǎng)頁含有的主題關(guān)鍵詞個(gè)數(shù);
FactorWord為主題關(guān)鍵詞的積分因子;
a, b為權(quán)重因子,且a+b-l;
也就是說一個(gè)網(wǎng)頁的主題分與包含的主題文件個(gè)數(shù)和主題關(guān)鍵詞個(gè)數(shù)的 相關(guān),其包括主題文件越多,主題關(guān)鍵詞越多,則該網(wǎng)頁的主題分越大。
URL隊(duì)列存儲(chǔ)模塊15:保存有多個(gè)不同優(yōu)先級(jí)的URL隊(duì)列,并根據(jù)URL 的主題分大小把待采集URL放入到不同的優(yōu)先級(jí)隊(duì)列;例如保存有三個(gè)隊(duì) 列,分別為第一優(yōu)先級(jí)隊(duì)列,第二優(yōu)先級(jí)隊(duì)列和第三優(yōu)先級(jí)隊(duì)列,URL根據(jù)主 題分大小劃分成三個(gè)不同的區(qū)間,其中,第一優(yōu)先級(jí)隊(duì)列級(jí)別最高,存儲(chǔ)主題 分最大區(qū)間的待采集URL,第二優(yōu)先級(jí)隊(duì)列次之,第三優(yōu)先級(jí)隊(duì)列級(jí)別最低; 網(wǎng)頁和文件下載才莫塊11首先采集級(jí)別最高的第一優(yōu)先級(jí)隊(duì)列中的URL,只有 當(dāng)?shù)谝粌?yōu)先級(jí)隊(duì)列為空后(由于已采集過的URL將從隊(duì)列中刪除,如果第一 優(yōu)先級(jí)隊(duì)列中的URL都被采集,則該隊(duì)列將為空),才順序采集第二優(yōu)先級(jí)隊(duì) 列和第三優(yōu)先級(jí)隊(duì)列中的URL;
該URL隊(duì)列存儲(chǔ)模塊15中存儲(chǔ)的URL隊(duì)列個(gè)數(shù)可隨意設(shè)置,本發(fā)明對(duì) 此不作限定。
根據(jù)本發(fā)明提供的上述爬蟲系統(tǒng)1,本發(fā)明提供一種主題文件搜索方法, 其具體流程如圖4所示,包括
步驟Sll、網(wǎng)頁解析模塊解析網(wǎng)頁和文件下載模塊下載的網(wǎng)頁,并對(duì)網(wǎng)頁 進(jìn)行解析,提取網(wǎng)頁包含的URL,并發(fā)送到URL過濾模塊;
步驟S12、 URL過濾模塊判斷當(dāng)前的URL是否已采集,或者是否符合設(shè) 定的過濾條件需要被過濾掉;如果判斷結(jié)果表明當(dāng)前URL已被釆集或符合設(shè) 定的過濾條件,則丟棄該URL,流程轉(zhuǎn)至步驟Sll,由網(wǎng)頁解析模塊繼續(xù)提取 網(wǎng)頁中包含的其它URL;如果判斷結(jié)果表明當(dāng)前URL未被采集或不符合設(shè)定 的過濾條件,則發(fā)送該URL到采集控制模塊,繼續(xù)下列步驟;
步驟S13、采集控制^t塊根據(jù)主題文件采集算法(如采用上述式(1)、式 (2)所定義的具體算法)計(jì)算出該URL對(duì)應(yīng)的URL主題分;
步驟S14、采集控制模塊根據(jù)設(shè)定的URL主題分與優(yōu)先級(jí)的對(duì)應(yīng)關(guān)系,確 定出該URL的優(yōu)先級(jí),將該URL存入到URL隊(duì)列存儲(chǔ)模塊的對(duì)應(yīng)優(yōu)先級(jí)隊(duì) 列中;
步驟S15、網(wǎng)頁和文件下載模塊從高優(yōu)先級(jí)隊(duì)列開始依次讀取URL進(jìn)行下 載;將下載的網(wǎng)元發(fā)送到網(wǎng)頁解析模塊處理,將下載的文件發(fā)送到搜索引擎的 索引系統(tǒng)。
綜上所述,本發(fā)明通過解析下載網(wǎng)頁,提取網(wǎng)頁中包含的URL;對(duì)各URL 根據(jù)URL主題分計(jì)算方法計(jì)算主題分,根據(jù)預(yù)定規(guī)則確定優(yōu)先級(jí),放入不同 的優(yōu)先級(jí)隊(duì)列,優(yōu)先采集優(yōu)先級(jí)較高的URL,搜索所需主題文件;由于優(yōu)先級(jí) 較高的URL與主題文件的關(guān)系較密切,搜索出相關(guān)主題文件的可能性較大, 因此,采用本發(fā)明能提高搜索效率。
另外,本發(fā)明可以做到在整個(gè)Internet上進(jìn)行搜索,不局限于對(duì)某些特定 網(wǎng)站,搜索全面,充分滿足用戶需要。
顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā) 明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及 其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。
權(quán)利要求
1、一種互聯(lián)網(wǎng)主題文件搜索方法,其特征在于,包括A、解析下載的網(wǎng)頁,提取網(wǎng)頁中包含的統(tǒng)一資源定位符URL;B、確定出各URL的對(duì)應(yīng)優(yōu)先級(jí);C、按優(yōu)先級(jí)從高到低的順序采集各URL,建立索引,搜索所需互聯(lián)網(wǎng)主題文件。
2、 如權(quán)利要求1所述的互聯(lián)網(wǎng)主題文件搜索方法,其特征在于,還包括 保存已采集的URL歷史記錄;所述步驟B中,根據(jù)所述歷史記錄判斷下載網(wǎng)頁中包含的URL是否已采 集,僅對(duì)未采集過的URL確定優(yōu)先級(jí)。
3、 如權(quán)利要求2所述的互聯(lián)網(wǎng)主題文件搜索方法,其特征在于,還包括 設(shè)置URL過濾條件,僅對(duì)未采集過的不符合所述過濾條件的URL確定優(yōu)先級(jí)。
4、 如權(quán)利要求1所述的互聯(lián)網(wǎng)主題文件搜索方法,其特征在于,所述確 定優(yōu)先級(jí),具體方法為采用預(yù)定算法計(jì)算出待采集URL的URL的主題分;根據(jù)所述主題分的分 值大小確定URL的對(duì)應(yīng)優(yōu)先級(jí)。
5、 如權(quán)利要求4所述的互聯(lián)網(wǎng)主題文件搜索方法,其特征在于,所述采 用預(yù)定算法計(jì)算出待采集URL的URL的主題分,具體方法為計(jì)算包含該URL的已采集的網(wǎng)頁對(duì)應(yīng)的網(wǎng)頁主題分;累加包括該URL的全部網(wǎng)頁的主題分作為該URL的URL的主題分。
6、 如權(quán)利要求5所述的互聯(lián)網(wǎng)主題文件搜索方法,其特征在于,所述網(wǎng) 頁主題分具體計(jì)算公式為F (p) = a x numFileLink x FactorLink + b*numKeyWord x FactorWord; 式中,F(xiàn) (p)為計(jì)算出的網(wǎng)頁主題分; numFileLink為該網(wǎng)頁含有的主題文件URJL的個(gè)數(shù); FactorLink為URL鏈接的積分因子; numKeyWord為該網(wǎng)頁含有的主題關(guān)鍵詞個(gè)數(shù); FactorWord為主題關(guān)鍵詞的積分因子; a, b為權(quán)重因子,且a+b-l。
7、 一種搜索引擎的爬蟲系統(tǒng),其特征在于包括URL隊(duì)列存儲(chǔ)模塊、網(wǎng) 頁和文件下載模塊、網(wǎng)頁解析模塊和采集控制模塊;所述URL隊(duì)列存儲(chǔ)模塊,按優(yōu)先級(jí)順序存儲(chǔ)待采集的URL;所述網(wǎng)頁和文件下載;f莫塊,按URL優(yōu)先級(jí)從高到低的順序下載網(wǎng)頁或文 件;將下載的網(wǎng)頁發(fā)送到所述網(wǎng)頁解析模塊,將下栽的文件發(fā)送到搜索引擎的 索引系統(tǒng)處理;所述網(wǎng)頁解析4莫塊,對(duì)網(wǎng)頁進(jìn)行解析,提取網(wǎng)頁中包含的URL發(fā)送到所 述采集控制模塊;所述采集控制模塊確定出待采集的URL的優(yōu)先級(jí),并將待采集的URL按 其優(yōu)先級(jí)存入所述URL隊(duì)列存儲(chǔ)模塊中的對(duì)應(yīng)優(yōu)先級(jí)隊(duì)列中。
8、 如權(quán)利要求7所述的爬蟲系統(tǒng),其特征在于,還包括URL過濾模塊連 接在所述網(wǎng)頁解析模塊和采集控制模塊之間;所述URL過濾才莫塊判斷所述網(wǎng)頁解析模塊解析出的URL是否已采集,僅 保留未采集過的URL;并進(jìn)一步判斷未采集過的URL是否符合設(shè)置的URL 過濾條件,僅將不符合所述過濾條件的未采集過的URL發(fā)送給所述采集控制 模塊。
9、 如權(quán)利要求7或8所述的爬蟲系統(tǒng),其特征在于,所述采集控制模塊 包括URL的主題分計(jì)算子模塊,采用預(yù)定算法計(jì)算出待采集URL的URL的主 題分;URL優(yōu)先級(jí)確定子才莫塊,根據(jù)URL主題分的分值大小確定對(duì)應(yīng)URL的優(yōu)先級(jí),存入到所述URL隊(duì)列存儲(chǔ);f莫塊的不同優(yōu)先級(jí)隊(duì)列中。
10、 一種搜索引擎,包括爬蟲系統(tǒng)、索引系統(tǒng)和檢索系統(tǒng),其特征在于,所述爬蟲系統(tǒng)包括URL隊(duì)列存儲(chǔ)模塊、網(wǎng)頁和文件下栽模塊、網(wǎng)頁解析模塊和采集控制模塊;所述URL隊(duì)列存儲(chǔ)模塊,按優(yōu)先級(jí)順序存儲(chǔ)待采集的URL; 所述網(wǎng)頁和文件下栽才莫塊,按URL優(yōu)先級(jí)從高到低的順序下栽網(wǎng)頁或文件;將下載的網(wǎng)頁發(fā)送到所述網(wǎng)頁解析模塊,將下栽的文件發(fā)送到搜索引擎的索引系統(tǒng)處理;所述網(wǎng)頁解析模塊,對(duì)網(wǎng)頁進(jìn)行解析,提取網(wǎng)頁中包含的URL發(fā)送到所 述采集控制模塊;所述采集控制模塊確定出待采集的URL的優(yōu)先級(jí),并將待采集的URL按 其優(yōu)先級(jí)存入所述URL隊(duì)列存儲(chǔ)模塊中的對(duì)應(yīng)優(yōu)先級(jí)隊(duì)列中。
全文摘要
本發(fā)明公開了一種互聯(lián)網(wǎng)主題文件搜索方法,包括解析下載的網(wǎng)頁,提取網(wǎng)頁中包含的統(tǒng)一資源定位符URL;確定出各URL的對(duì)應(yīng)優(yōu)先級(jí);按優(yōu)先級(jí)從高到低的順序采集各URL,建立索引,搜索所需互聯(lián)網(wǎng)主題文件。本發(fā)明還公開了一種互聯(lián)網(wǎng)主題文件的搜索引擎的爬蟲系統(tǒng)和搜索引擎。本發(fā)明提供的爬蟲系統(tǒng)至少包括URL隊(duì)列存儲(chǔ)模塊、網(wǎng)頁和文件下載模塊、網(wǎng)頁解析模塊和采集控制模塊。采用本發(fā)明可以提高互聯(lián)網(wǎng)主題文件搜索效率。
文檔編號(hào)G06F17/30GK101114285SQ20061009927
公開日2008年1月30日 申請(qǐng)日期2006年7月25日 優(yōu)先權(quán)日2006年7月25日
發(fā)明者余祥鑫, 衛(wèi) 楊 申請(qǐng)人:騰訊科技(深圳)有限公司