一種互聯(lián)網(wǎng)主題文件搜索方法、爬蟲系統(tǒng)和搜索引擎的制作方法

文檔序號(hào)：6559944閱讀：176來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種互聯(lián)網(wǎng)主題文件搜索方法、爬蟲系統(tǒng)和搜索引擎的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及互聯(lián)網(wǎng)文件搜索，尤其涉及一種互聯(lián)網(wǎng)主題文件搜索方法，以及相應(yīng)的爬蟲系統(tǒng)和搜索引擎。
背景技術(shù)：
Internet已經(jīng)成為計(jì)算機(jī)領(lǐng)域最熱門的一項(xiàng)技術(shù)，Internet的普及使人們可以突破空間、地域的限制，方便地共享信息資源。www是Internet上提供的最主要、應(yīng)用最廣泛的一種信息服務(wù)，自誕生以來得到了迅猛發(fā)展，已經(jīng)成為一個(gè)巨大的信息庫，存儲(chǔ)著大量有價(jià)值的信息，人們可以在其上查找到自己感興趣的各種內(nèi)容。但在實(shí)際使用中，web網(wǎng)上龐大的數(shù)據(jù)量會(huì)給用戶的信息查詢工作帶來極大的困難。在這種情況下，各種信息檢索服務(wù)應(yīng)運(yùn)而生，而全文檢索技術(shù)是廣泛采用的一項(xiàng)重要信息檢索技術(shù)。目前，基于www網(wǎng)的全文檢索技術(shù)正得到日益廣泛的應(yīng)用，已經(jīng)有不少頗具影響的大型全文檢索工具，其中比較著名的中文搜索引擎系統(tǒng)有www.soso.com， www.baidu.com等，這些全文檢索系統(tǒng)的應(yīng)用對(duì)www網(wǎng)上文檔信息的查詢起到了巨大作用。
目前互聯(lián)網(wǎng)搜索引擎一般由爬蟲系統(tǒng)、索引系統(tǒng)、檢索系統(tǒng)組成，爬蟲系統(tǒng)需要從網(wǎng)絡(luò)上不同的網(wǎng)站采集網(wǎng)頁和各種文件，比如web網(wǎng)頁、mp3文件等，然后交給索引系統(tǒng)建立索引數(shù)據(jù)庫，檢索系統(tǒng)接收用戶的檢索請(qǐng)求，檢索索引數(shù)據(jù)庫，返回符合用戶需求的結(jié)果。
一般互聯(lián)網(wǎng)搜索引擎系統(tǒng)架構(gòu)如圖1所示，包括
網(wǎng)頁服務(wù)器提供中文搜索引擎系統(tǒng)網(wǎng)頁訪問服務(wù)，是用戶使用中文搜索引擎系統(tǒng)的用戶接口；
檢索系統(tǒng)根據(jù)用戶提交的檢索關(guān)鍵詞檢索索引數(shù)據(jù)庫，根據(jù)一定算法對(duì)
符合檢索需求的文檔進(jìn)行排序、過濾，返回給網(wǎng)頁服務(wù)器；
索引系統(tǒng)對(duì)爬蟲系統(tǒng)采集的文檔進(jìn)行處理，建立索引數(shù)據(jù)庫；爬蟲系統(tǒng)采集互聯(lián)網(wǎng)的網(wǎng)頁和各種文檔數(shù)據(jù)。現(xiàn)有技術(shù)一采集所有的web網(wǎng)站和網(wǎng)頁。
執(zhí)行特定互聯(lián)網(wǎng)主題文件搜索的搜索引擎中，其爬蟲系統(tǒng)一般只采集特定主題的文件，然后建立索引，提供檢索。但要采集特定主題的文件，需要采集網(wǎng)頁，找到特定主題文件的統(tǒng)一資源定位符(Uniform Resource Locator, URL)鏈接。
目前爬蟲系統(tǒng)一般采用遍歷所有網(wǎng)頁，即采集所有的網(wǎng)頁和文件，然后保存需要的特定主題的文件。由于含有特定主題文件的網(wǎng)頁很少，導(dǎo)致下載特定主題文件的效率很低，下載幾萬個(gè)網(wǎng)頁才包含有一個(gè)特定主題文件，而且還很可能是死鏈。因此需要一種技術(shù)提高下載包含特定主題文件的網(wǎng)頁的概率。現(xiàn)有技術(shù)二采集特定的主題網(wǎng)站和網(wǎng)頁。
根據(jù)對(duì)采集的網(wǎng)頁進(jìn)行分析，發(fā)現(xiàn)一般網(wǎng)頁間的鏈接具有以下特征主題聚集性和本地性。網(wǎng)頁普遍具有這兩個(gè)特性，本地性決定同一主機(jī)的網(wǎng)頁互相鏈接概率比較大，主題聚集性決定同一主題的網(wǎng)頁互相鏈接概率大。
網(wǎng)頁之間的鏈接特性可以用圖2來進(jìn)行模擬表示，圖2中，每一個(gè)圓圏代表一個(gè)網(wǎng)頁，實(shí)心圓圏代表包含mp3文件的網(wǎng)頁；假設(shè)需要采集MP3文件，圖2中顯示出新聞主題和音樂主題的網(wǎng)頁之間的鏈接和包含的MP3文件，結(jié) 果表明新聞主題的網(wǎng)頁之間互相鏈接比較多，音樂主題的網(wǎng)頁之間互相鏈接比較多，音樂主題和新聞主題之間的網(wǎng)頁鏈接比較少。音樂主題的網(wǎng)頁包含 MP3文件的URU既率要比新聞主題的網(wǎng)頁包含的MP3文件的URL概率大。
因此，現(xiàn)有技術(shù)二中采用對(duì)特定的主題網(wǎng)頁進(jìn)行搜索的方法。以上述采集 MP3文件為例，MP3搜索引擎的爬蟲系統(tǒng)采集音樂主題網(wǎng)站和網(wǎng)頁，發(fā)現(xiàn)和采集MP3文件的效率會(huì)比較高。
盡管現(xiàn)有技術(shù)二的采集效率較高，但由于只采集特定的少數(shù)網(wǎng)站，導(dǎo)致整個(gè)采集的特定主題文件比較少，無法采集互聯(lián)網(wǎng)上盡可能多的文件。

發(fā)明內(nèi)容
本發(fā)明提供一種互聯(lián)網(wǎng)主題文件搜索方法，用以解決現(xiàn)有技術(shù)中存在的搜索互聯(lián)網(wǎng)主題文件效率低或釆集不全面的問題。
為解決所述技術(shù)問題，本發(fā)明釆用的技術(shù)方案是，提供一種互聯(lián)網(wǎng)主題文
件搜索方法，該方法包括
A、解析下載的網(wǎng)頁，提取網(wǎng)頁中包含的統(tǒng)一資源定位符URL;
B、確定出各URL的對(duì)應(yīng)優(yōu)先級(jí)；
C、按優(yōu)先級(jí)從高到低的順序采集各URL，建立索引，搜索所需互聯(lián)網(wǎng)主題文件。
根據(jù)本發(fā)明的上述方法，還包括保存已采集的URL歷史記錄；
所述步驟B中，根據(jù)所述歷史記錄判斷下載網(wǎng)頁中包含的URL是否已采集，僅對(duì)未采集過的URL確定優(yōu)先級(jí)。根據(jù)本發(fā)明的上述方法，還包括
設(shè)置URL過濾條件，僅對(duì)未采集過的不符合所述過濾條件的URL確定優(yōu) 先級(jí)。
才艮據(jù)本發(fā)明的上述方法，所述確定優(yōu)先級(jí)，具體方法為采用預(yù)定算法計(jì)算出待采集URL的URL的主題分；根據(jù)所述主題分的分值大小確定URL的對(duì)應(yīng)優(yōu)先級(jí)。
所述采用預(yù)定算法計(jì)算出待采集URL的URL的主題分，具體方法為
計(jì)算包含該URL的已采集的網(wǎng)頁對(duì)應(yīng)的網(wǎng)頁主題分；
累加包括該URL的全部網(wǎng)頁的主題分作為該URL的URL的主題分。
所述網(wǎng)頁主題分具體計(jì)算公式為
F (p) = a x numFileLink x FactorLink + b*numKeyWord x FactorWord;
式中，F(xiàn) (p)為計(jì)算出的網(wǎng)頁主題分；
numFileLink為該網(wǎng)頁含有的主題文件URL的個(gè)數(shù)；
FactorLink為URL鏈接的積分因子；
numKeyWord為該網(wǎng)頁含有的主題關(guān)鍵詞個(gè)數(shù)；
FactorWord為主題關(guān)鍵詞的積分因子；
a， b為4又重因子，且a+b-l。
同時(shí)，本發(fā)明還提供一種搜索引擎的爬蟲系統(tǒng)，包括URL隊(duì)列存儲(chǔ)模塊、網(wǎng)頁和文件下載才莫塊、網(wǎng)頁解析模塊和采集控制模塊；
所述URL隊(duì)列存儲(chǔ)模塊，按優(yōu)先級(jí)順序存儲(chǔ)待采集的URL;
所述網(wǎng)頁和文件下載模塊，按URL優(yōu)先級(jí)從高到低的順序下載網(wǎng)頁或文件；將下栽的網(wǎng)頁發(fā)送到所述網(wǎng)頁解析模塊，將下栽的文件發(fā)送到搜索引擎的索引系統(tǒng)處理；
所述網(wǎng)頁解析模塊，對(duì)網(wǎng)頁進(jìn)行解析，提取網(wǎng)頁中包含的URL發(fā)送到所述采集控制模塊；
所述采集控制模塊確定出待采集的URL的優(yōu)先級(jí)，并將待采集的URL按其優(yōu)先級(jí)存入所述URL隊(duì)列存儲(chǔ)模塊中的對(duì)應(yīng)優(yōu)先級(jí)隊(duì)列中。
根據(jù)本發(fā)明提供的上述爬蟲系統(tǒng)，還包括URL過濾模塊連接在所述網(wǎng)頁解析模塊和采集控制模塊之間；
所述URL過濾才莫塊判斷所述網(wǎng)頁解析4莫塊解析出的URL是否已采集，僅保留未采集過的URL;并進(jìn)一步判斷未采集過的URL是否符合設(shè)置的URL 過濾條件，僅將不符合所述過濾條件的未采集過的URL發(fā)送給所述采集控制模塊。
所述采集控制模塊包括
URL的主題分計(jì)算子模塊，采用預(yù)定算法計(jì)算出待采集URL的URL的主題分；
URL優(yōu)先級(jí)確定子模塊，根據(jù)URL主題分的分值大小確定對(duì)應(yīng)URL的優(yōu)
先級(jí)，存入到所述URL隊(duì)列存儲(chǔ)模塊的不同優(yōu)先級(jí)隊(duì)列中。
對(duì)應(yīng)于所述爬蟲系統(tǒng)，本發(fā)明還提供一種搜索引擎，包括爬蟲系統(tǒng)、索引
系統(tǒng)和檢索系統(tǒng)，所述爬蟲系統(tǒng)包括URL隊(duì)列存儲(chǔ)模塊、網(wǎng)頁和文件下栽模
塊、網(wǎng)頁解析模塊和釆集控制模塊；
所述URL隊(duì)列存儲(chǔ)模塊，按優(yōu)先級(jí)順序存儲(chǔ)待采集的URL; 所述網(wǎng)頁和文件下載模塊，按URL優(yōu)先級(jí)從高到低的順序下載網(wǎng)頁或文
件；將下載的網(wǎng)頁發(fā)送到所述網(wǎng)頁解析模塊，將下載的文件發(fā)送到搜索引擎的
索引系統(tǒng)處理；
所述網(wǎng)頁解析模塊，對(duì)網(wǎng)頁進(jìn)行解析，提取網(wǎng)頁中包含的URL發(fā)送到所述采集控制模塊；
所述采集控制模塊確定出待采集的URL的優(yōu)先級(jí)，并將待采集的URL按其優(yōu)先級(jí)存入所述URL隊(duì)列存儲(chǔ)模塊中的對(duì)應(yīng)優(yōu)先級(jí)隊(duì)列中。本發(fā)明有益效果如下
(1) 本發(fā)明通過解析下載網(wǎng)頁，提取網(wǎng)頁中包含的統(tǒng)一資源定位符URL; 對(duì)各URL根據(jù)預(yù)定規(guī)則確定優(yōu)先級(jí)，優(yōu)先采集優(yōu)先級(jí)較高的URL，搜索所需主題文件；由于優(yōu)先級(jí)較高的URL與主題文件的關(guān)系較密切，搜索出相關(guān)主題文件的可能性較大，因此，采用本發(fā)明能提高搜索效率。
(2) 本發(fā)明不局限于對(duì)某些特定網(wǎng)站進(jìn)行搜索，可以根據(jù)URL優(yōu)先級(jí)搜索各相關(guān)網(wǎng)頁，因此，可以做到在整個(gè)Internet上進(jìn)行搜索。

圖1為現(xiàn)有技術(shù)中文信息檢索系統(tǒng)架構(gòu)圖；圖2為不同主題之間的網(wǎng)頁鏈接示意圖；圖3為本發(fā)明提供的爬蟲系統(tǒng)結(jié)構(gòu)示意圖；圖4為本發(fā)明方法流程圖。
具體實(shí)施例方式
參見圖3，為本發(fā)明提供的爬蟲系統(tǒng)1結(jié)構(gòu)示意圖。包括網(wǎng)頁和文件下載模塊ll、網(wǎng)頁解析模塊12、 URL過濾模塊13、采集控制模塊14和URL隊(duì) 列存儲(chǔ)模塊15。
下面對(duì)各模塊的功能進(jìn)行詳細(xì)描述。
網(wǎng)頁和文件下載模塊ll:使用HTTP、 FTP協(xié)議下栽網(wǎng)頁或文件，并把下載的網(wǎng)頁提交給網(wǎng)頁解析模塊12,把下載的文件提交給搜索引擎的索引系統(tǒng)建立索引數(shù)據(jù)庫；
爬蟲系統(tǒng)1剛開始啟動(dòng)運(yùn)行時(shí)，設(shè)置一些種子URL放入U(xiǎn)RL隊(duì)列存儲(chǔ)模塊15的最高優(yōu)先級(jí)URL隊(duì)列(其對(duì)應(yīng)URL主題分為一個(gè)默認(rèn)初始值)，例如一些常見的目錄導(dǎo)航網(wǎng)頁，如www.hao123 .com,網(wǎng)頁和文4牛下栽才莫塊11 乂人URL 隊(duì)列獲取種子URL，然后下載網(wǎng)頁并發(fā)送到網(wǎng)頁解析模塊12進(jìn)行解析。
網(wǎng)頁解析模塊12:解析HTML網(wǎng)頁，提取網(wǎng)頁包含的URL鏈接，并提交給URL過濾模塊13。
URL過濾模塊13:判斷各URL是否已經(jīng)采集，如果未采集，判斷是否符合設(shè)定的過濾條件，如果當(dāng)前URL未采集且不符合設(shè)定的過濾條件，則作為待采集URL發(fā)送給采集控制模塊14;
在該URL過濾模塊13中，保存已采集的URL歷史記錄；根據(jù)保存的歷史記錄判斷下載網(wǎng)頁中包含的URL是否已采集，并將已采集的URL實(shí)時(shí)存入歷史記錄中進(jìn)行記錄更新；
在該URL過濾模塊13中，還可以存儲(chǔ)過濾條件，例如過濾條件為設(shè)定的URL黑名單，URL過濾模塊13根據(jù)該過濾條件判斷當(dāng)前的URL是否位于黑名單中，如果當(dāng)前URL位于設(shè)置的黑名單中，則判定該URL符合設(shè)定的過濾條件，該URL將被過濾掉，不被發(fā)送到采集控制模塊14;否則，URL過濾
模塊13將網(wǎng)頁解析模塊12發(fā)送過來的判斷為未采集且不符合過濾條件的URL 全部發(fā)送到采集控制模塊14進(jìn)行處理。
采集控制模塊14,采用預(yù)定算法計(jì)算出待采集URL的URL的主題分，根據(jù)各URL主題分的分值大小確定對(duì)應(yīng)URL的優(yōu)先級(jí)；并將各URL根據(jù)其對(duì) 應(yīng)的優(yōu)先級(jí)存入到URL隊(duì)列存儲(chǔ)模塊15的不同優(yōu)先級(jí)隊(duì)列中；
URL主題分的具體計(jì)算方法如下
2> (P)
S (url)= 已經(jīng)采集的包含該urf的網(wǎng)頁《(1)
式(1)中，S (url)為該URL的URL主題分，F(xiàn) (p)為網(wǎng)頁的主題分。即一個(gè)URL的主題分為所有已經(jīng)采集的包含該URL的網(wǎng)頁的主題分之和。其中
F( p) = a*numFileLink*FactorLink + b*numKey Word* Factor Word 式(2 )
式(2)中，F(xiàn) (p)為計(jì)算出的包含該URL的網(wǎng)頁對(duì)應(yīng)的網(wǎng)頁主題分；
numFileLink為該網(wǎng)頁含有的主題文件URL的個(gè)數(shù)；
FactorLink為URL鏈接的積分因子；
numKeyWord為該網(wǎng)頁含有的主題關(guān)鍵詞個(gè)數(shù)；
FactorWord為主題關(guān)鍵詞的積分因子；
a， b為權(quán)重因子，且a+b-l;
也就是說一個(gè)網(wǎng)頁的主題分與包含的主題文件個(gè)數(shù)和主題關(guān)鍵詞個(gè)數(shù)的相關(guān)，其包括主題文件越多，主題關(guān)鍵詞越多，則該網(wǎng)頁的主題分越大。
URL隊(duì)列存儲(chǔ)模塊15:保存有多個(gè)不同優(yōu)先級(jí)的URL隊(duì)列，并根據(jù)URL 的主題分大小把待采集URL放入到不同的優(yōu)先級(jí)隊(duì)列；例如保存有三個(gè)隊(duì) 列，分別為第一優(yōu)先級(jí)隊(duì)列，第二優(yōu)先級(jí)隊(duì)列和第三優(yōu)先級(jí)隊(duì)列，URL根據(jù)主題分大小劃分成三個(gè)不同的區(qū)間，其中，第一優(yōu)先級(jí)隊(duì)列級(jí)別最高，存儲(chǔ)主題分最大區(qū)間的待采集URL,第二優(yōu)先級(jí)隊(duì)列次之，第三優(yōu)先級(jí)隊(duì)列級(jí)別最低；網(wǎng)頁和文件下載才莫塊11首先采集級(jí)別最高的第一優(yōu)先級(jí)隊(duì)列中的URL，只有當(dāng)?shù)谝粌?yōu)先級(jí)隊(duì)列為空后(由于已采集過的URL將從隊(duì)列中刪除，如果第一優(yōu)先級(jí)隊(duì)列中的URL都被采集，則該隊(duì)列將為空)，才順序采集第二優(yōu)先級(jí)隊(duì) 列和第三優(yōu)先級(jí)隊(duì)列中的URL;
該URL隊(duì)列存儲(chǔ)模塊15中存儲(chǔ)的URL隊(duì)列個(gè)數(shù)可隨意設(shè)置，本發(fā)明對(duì) 此不作限定。
根據(jù)本發(fā)明提供的上述爬蟲系統(tǒng)1,本發(fā)明提供一種主題文件搜索方法，其具體流程如圖4所示，包括
步驟Sll、網(wǎng)頁解析模塊解析網(wǎng)頁和文件下載模塊下載的網(wǎng)頁，并對(duì)網(wǎng)頁進(jìn)行解析，提取網(wǎng)頁包含的URL,并發(fā)送到URL過濾模塊；
步驟S12、 URL過濾模塊判斷當(dāng)前的URL是否已采集，或者是否符合設(shè) 定的過濾條件需要被過濾掉；如果判斷結(jié)果表明當(dāng)前URL已被釆集或符合設(shè) 定的過濾條件，則丟棄該URL,流程轉(zhuǎn)至步驟Sll，由網(wǎng)頁解析模塊繼續(xù)提取網(wǎng)頁中包含的其它URL;如果判斷結(jié)果表明當(dāng)前URL未被采集或不符合設(shè)定的過濾條件，則發(fā)送該URL到采集控制模塊，繼續(xù)下列步驟；
步驟S13、采集控制^t塊根據(jù)主題文件采集算法(如采用上述式(1)、式 (2)所定義的具體算法)計(jì)算出該URL對(duì)應(yīng)的URL主題分；
步驟S14、采集控制模塊根據(jù)設(shè)定的URL主題分與優(yōu)先級(jí)的對(duì)應(yīng)關(guān)系，確定出該URL的優(yōu)先級(jí)，將該URL存入到URL隊(duì)列存儲(chǔ)模塊的對(duì)應(yīng)優(yōu)先級(jí)隊(duì) 列中；
步驟S15、網(wǎng)頁和文件下載模塊從高優(yōu)先級(jí)隊(duì)列開始依次讀取URL進(jìn)行下載；將下載的網(wǎng)元發(fā)送到網(wǎng)頁解析模塊處理，將下載的文件發(fā)送到搜索引擎的索引系統(tǒng)。
綜上所述，本發(fā)明通過解析下載網(wǎng)頁，提取網(wǎng)頁中包含的URL;對(duì)各URL 根據(jù)URL主題分計(jì)算方法計(jì)算主題分，根據(jù)預(yù)定規(guī)則確定優(yōu)先級(jí)，放入不同的優(yōu)先級(jí)隊(duì)列，優(yōu)先采集優(yōu)先級(jí)較高的URL，搜索所需主題文件；由于優(yōu)先級(jí) 較高的URL與主題文件的關(guān)系較密切，搜索出相關(guān)主題文件的可能性較大，因此，采用本發(fā)明能提高搜索效率。
另外，本發(fā)明可以做到在整個(gè)Internet上進(jìn)行搜索，不局限于對(duì)某些特定網(wǎng)站，搜索全面，充分滿足用戶需要。
顯然，本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā) 明的精神和范圍。這樣，倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi)，則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。
權(quán)利要求
1、一種互聯(lián)網(wǎng)主題文件搜索方法，其特征在于，包括A、解析下載的網(wǎng)頁，提取網(wǎng)頁中包含的統(tǒng)一資源定位符URL；B、確定出各URL的對(duì)應(yīng)優(yōu)先級(jí)；C、按優(yōu)先級(jí)從高到低的順序采集各URL，建立索引，搜索所需互聯(lián)網(wǎng)主題文件。
2、如權(quán)利要求1所述的互聯(lián)網(wǎng)主題文件搜索方法，其特征在于，還包括保存已采集的URL歷史記錄；所述步驟B中，根據(jù)所述歷史記錄判斷下載網(wǎng)頁中包含的URL是否已采集，僅對(duì)未采集過的URL確定優(yōu)先級(jí)。
3、如權(quán)利要求2所述的互聯(lián)網(wǎng)主題文件搜索方法，其特征在于，還包括設(shè)置URL過濾條件，僅對(duì)未采集過的不符合所述過濾條件的URL確定優(yōu)先級(jí)。
4、如權(quán)利要求1所述的互聯(lián)網(wǎng)主題文件搜索方法，其特征在于，所述確定優(yōu)先級(jí)，具體方法為采用預(yù)定算法計(jì)算出待采集URL的URL的主題分；根據(jù)所述主題分的分值大小確定URL的對(duì)應(yīng)優(yōu)先級(jí)。
5、如權(quán)利要求4所述的互聯(lián)網(wǎng)主題文件搜索方法，其特征在于，所述采用預(yù)定算法計(jì)算出待采集URL的URL的主題分，具體方法為計(jì)算包含該URL的已采集的網(wǎng)頁對(duì)應(yīng)的網(wǎng)頁主題分；累加包括該URL的全部網(wǎng)頁的主題分作為該URL的URL的主題分。
6、如權(quán)利要求5所述的互聯(lián)網(wǎng)主題文件搜索方法，其特征在于，所述網(wǎng) 頁主題分具體計(jì)算公式為F (p) = a x numFileLink x FactorLink + b*numKeyWord x FactorWord; 式中，F(xiàn) (p)為計(jì)算出的網(wǎng)頁主題分； numFileLink為該網(wǎng)頁含有的主題文件URJL的個(gè)數(shù)； FactorLink為URL鏈接的積分因子； numKeyWord為該網(wǎng)頁含有的主題關(guān)鍵詞個(gè)數(shù)； FactorWord為主題關(guān)鍵詞的積分因子； a, b為權(quán)重因子，且a+b-l。
7、一種搜索引擎的爬蟲系統(tǒng)，其特征在于包括URL隊(duì)列存儲(chǔ)模塊、網(wǎng) 頁和文件下載模塊、網(wǎng)頁解析模塊和采集控制模塊；所述URL隊(duì)列存儲(chǔ)模塊，按優(yōu)先級(jí)順序存儲(chǔ)待采集的URL;所述網(wǎng)頁和文件下載;f莫塊，按URL優(yōu)先級(jí)從高到低的順序下載網(wǎng)頁或文件；將下載的網(wǎng)頁發(fā)送到所述網(wǎng)頁解析模塊，將下栽的文件發(fā)送到搜索引擎的索引系統(tǒng)處理；所述網(wǎng)頁解析4莫塊，對(duì)網(wǎng)頁進(jìn)行解析，提取網(wǎng)頁中包含的URL發(fā)送到所述采集控制模塊；所述采集控制模塊確定出待采集的URL的優(yōu)先級(jí)，并將待采集的URL按其優(yōu)先級(jí)存入所述URL隊(duì)列存儲(chǔ)模塊中的對(duì)應(yīng)優(yōu)先級(jí)隊(duì)列中。
8、如權(quán)利要求7所述的爬蟲系統(tǒng)，其特征在于，還包括URL過濾模塊連接在所述網(wǎng)頁解析模塊和采集控制模塊之間；所述URL過濾才莫塊判斷所述網(wǎng)頁解析模塊解析出的URL是否已采集，僅保留未采集過的URL;并進(jìn)一步判斷未采集過的URL是否符合設(shè)置的URL 過濾條件，僅將不符合所述過濾條件的未采集過的URL發(fā)送給所述采集控制模塊。
9、如權(quán)利要求7或8所述的爬蟲系統(tǒng)，其特征在于，所述采集控制模塊包括URL的主題分計(jì)算子模塊，采用預(yù)定算法計(jì)算出待采集URL的URL的主題分；URL優(yōu)先級(jí)確定子才莫塊，根據(jù)URL主題分的分值大小確定對(duì)應(yīng)URL的優(yōu)先級(jí)，存入到所述URL隊(duì)列存儲(chǔ);f莫塊的不同優(yōu)先級(jí)隊(duì)列中。
10、一種搜索引擎，包括爬蟲系統(tǒng)、索引系統(tǒng)和檢索系統(tǒng)，其特征在于，所述爬蟲系統(tǒng)包括URL隊(duì)列存儲(chǔ)模塊、網(wǎng)頁和文件下栽模塊、網(wǎng)頁解析模塊和采集控制模塊；所述URL隊(duì)列存儲(chǔ)模塊，按優(yōu)先級(jí)順序存儲(chǔ)待采集的URL; 所述網(wǎng)頁和文件下栽才莫塊，按URL優(yōu)先級(jí)從高到低的順序下栽網(wǎng)頁或文件；將下載的網(wǎng)頁發(fā)送到所述網(wǎng)頁解析模塊，將下栽的文件發(fā)送到搜索引擎的索引系統(tǒng)處理；所述網(wǎng)頁解析模塊，對(duì)網(wǎng)頁進(jìn)行解析，提取網(wǎng)頁中包含的URL發(fā)送到所述采集控制模塊；所述采集控制模塊確定出待采集的URL的優(yōu)先級(jí)，并將待采集的URL按其優(yōu)先級(jí)存入所述URL隊(duì)列存儲(chǔ)模塊中的對(duì)應(yīng)優(yōu)先級(jí)隊(duì)列中。
全文摘要
本發(fā)明公開了一種互聯(lián)網(wǎng)主題文件搜索方法，包括解析下載的網(wǎng)頁，提取網(wǎng)頁中包含的統(tǒng)一資源定位符URL；確定出各URL的對(duì)應(yīng)優(yōu)先級(jí)；按優(yōu)先級(jí)從高到低的順序采集各URL，建立索引，搜索所需互聯(lián)網(wǎng)主題文件。本發(fā)明還公開了一種互聯(lián)網(wǎng)主題文件的搜索引擎的爬蟲系統(tǒng)和搜索引擎。本發(fā)明提供的爬蟲系統(tǒng)至少包括URL隊(duì)列存儲(chǔ)模塊、網(wǎng)頁和文件下載模塊、網(wǎng)頁解析模塊和采集控制模塊。采用本發(fā)明可以提高互聯(lián)網(wǎng)主題文件搜索效率。
文檔編號(hào)G06F17/30GK101114285SQ20061009927
公開日2008年1月30日申請(qǐng)日期2006年7月25日優(yōu)先權(quán)日2006年7月25日
發(fā)明者余祥鑫, 衛(wèi) 楊申請(qǐng)人:騰訊科技(深圳)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：余祥鑫;楊衛(wèi)
技術(shù)所有人：騰訊科技(深圳)有限公司
我是此專利的發(fā)明人

上一篇：依電源轉(zhuǎn)換器規(guī)格調(diào)整攜帶式裝置工作效能的電路及方法
上一篇：管理線程異常的防護(hù)方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種互聯(lián)網(wǎng)主題文件搜索方法、爬蟲系統(tǒng)和搜索引擎的制作方法

一種互聯(lián)網(wǎng)主題文件搜索方法、爬蟲系統(tǒng)和搜索引擎的制作方法