內(nèi)部網(wǎng)可定制爬蟲系統(tǒng)構(gòu)建方法

文檔序號(hào)：6465247閱讀：209來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：內(nèi)部網(wǎng)可定制爬蟲系統(tǒng)構(gòu)建方法
技術(shù)領(lǐng)域：
本發(fā)明涉及網(wǎng)絡(luò)凄t據(jù)采集系統(tǒng)的構(gòu)建方法，尤其涉及一種內(nèi)部網(wǎng)可定制爬出系統(tǒng)構(gòu)建方法。
背景技術(shù)：
隨著信息時(shí)代的到來，越來越多的企業(yè)、學(xué)校等紛紛建立起自己的內(nèi)部網(wǎng)，在內(nèi)部網(wǎng)上搭建服務(wù)器實(shí)行數(shù)據(jù)的共享來提高工作、學(xué)習(xí)等效率。但是隨著內(nèi)部網(wǎng)數(shù)據(jù)量的激增，人們很難簡(jiǎn)單快捷地在內(nèi)部網(wǎng)上找到所需的凄t據(jù)，因此#丈據(jù)的共享并沒有帶來顯著的效率的提高。內(nèi)部網(wǎng)和數(shù)據(jù)共享并沒有發(fā)揮它們應(yīng)有的潛力。于是，人們想能否通過因特網(wǎng)上的一般搜索引擎來檢索內(nèi)部網(wǎng)上的數(shù)據(jù)，
但;^艮不幸的是，由于這些數(shù)據(jù)只能在企業(yè)、學(xué)校等內(nèi)部使用、交流和傳播，因此因特網(wǎng)上的一般搜索引擎4企索不到這些內(nèi)部網(wǎng)的數(shù) 據(jù)。為了解決這一問題，人們提出了內(nèi)部網(wǎng)搜索引擎的概念。而從一般因特網(wǎng)上的搜索引擎轉(zhuǎn)變到內(nèi)部網(wǎng)上的搜索引擎，其他的搜索引擎系統(tǒng)部分可以直接復(fù)制，惟一的不同是爬蟲系統(tǒng)，因此內(nèi)部網(wǎng) 爬蟲系統(tǒng)是內(nèi)部網(wǎng)搜索引擎的核心。怎樣估文到爬蟲系統(tǒng)只在內(nèi)部網(wǎng) 上采集數(shù)據(jù)已受到越來越多的學(xué)者的關(guān)注。目前，還沒有一種系統(tǒng) 的行之有效的內(nèi)部網(wǎng)爬蟲構(gòu)建方法。
由于內(nèi)部網(wǎng)上的數(shù)據(jù)類型千差萬(wàn)別，如音頻、視頻、圖像、文本等，其中，音頻又包括mp3、 wma等，禍J貞又包括avi、 rm、 rmvb、 wmv等,圖像又包括jpg、 png、 tif、 bmp等，文本又包括txt、 doc、 pdf等。為了提高檢索效率和降低搜索引擎的開發(fā)難度，提出了只針對(duì)某一類數(shù)據(jù)類型的特色搜索引擎，如音頻搜索引擎、視頻搜索引擎、圖像搜索引擎、文本搜索引擎等。因此，爬蟲系統(tǒng) 的數(shù)據(jù)類型針對(duì)性是搭建特色搜索引擎的核心部分之一，也受到越來越多的學(xué)者的關(guān)注。目前，也還沒有一種系統(tǒng)的行之有效的數(shù)據(jù) 類型針對(duì)型爬蟲構(gòu)建方法。

發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)存在的問題，本發(fā)明的目的是提供一種內(nèi)部網(wǎng)可定制爬出系統(tǒng)構(gòu)建方法。
為達(dá)到上述目的，本發(fā)明的方法包括下列步驟 (1 )分析超鏈接所指向的數(shù)據(jù)是否是web網(wǎng)頁(yè)；
(2) 若是web網(wǎng)頁(yè)，則分析web網(wǎng)頁(yè)，處理超鏈接信息；若不是web網(wǎng)頁(yè)，則直接進(jìn)入步驟(3);
(3) 才艮據(jù)定制下載數(shù)據(jù)；
(4 )重復(fù)執(zhí)行步驟(1 ) ， ( 2 )和(3 )，直到?jīng)]有需要處理的超鏈接為止。
上述方法中，步-驟(2)進(jìn)一步包凌舌 (21 ) 4是取web網(wǎng)頁(yè)內(nèi)超鏈4妄；
(22) 檢測(cè)超鏈接是否是內(nèi)部網(wǎng)的超鏈接；
(23) 若是內(nèi)部網(wǎng)的超鏈接，則保存此超鏈接；若不是內(nèi)部網(wǎng)的超鏈接，則不保存此超鏈接。
上述方法中，步驟(3)進(jìn)一步包括
(31)檢測(cè)當(dāng)前待下載數(shù)據(jù)的類型是否與預(yù)先定制的數(shù)據(jù)類型相
同；(32 )若當(dāng)前待下載凄i據(jù)的類型與預(yù)先定制的數(shù)據(jù)類型相同，則下載此數(shù)據(jù)；若當(dāng)前待下載數(shù)據(jù)的類型與預(yù)先定制的數(shù)據(jù)類型不相同，則不下載此^t據(jù)。
本發(fā)明的有益效果在于，通過應(yīng)用本發(fā)明所描述的方法，可以有效地解決爬蟲系統(tǒng)無(wú)法采集內(nèi)部網(wǎng)數(shù)據(jù)的問題；可以為搭建特色搜索引擎所需的重要技術(shù)--爬蟲系統(tǒng)的數(shù)據(jù)類型針對(duì)性提供通用的框架，有效地降^氐系統(tǒng)開發(fā)成本。
結(jié)合附圖，本發(fā)明的其他特點(diǎn)和優(yōu)點(diǎn)可以從下面通過舉例來對(duì)

圖1是根據(jù)本發(fā)明的一個(gè)實(shí)施方式的方法的流程圖。
圖2是根據(jù)本發(fā)明的一個(gè)實(shí)施方式所得到的超鏈接列表片段截取。
具體實(shí)施例方式
下面將結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式
進(jìn)行詳細(xì)描述。
圖1是才艮據(jù)本發(fā)明的一個(gè)實(shí)施方式的方法的流程圖。該流程開始于步驟101,這些內(nèi)部網(wǎng)可以是企業(yè)、學(xué)校等，需要指出的是這 <又<義是舉例，內(nèi)部網(wǎng)的不同形式不構(gòu)成對(duì)本發(fā)明的限制。然后在步驟102中，分析超鏈接所指向的數(shù)據(jù)是否是web網(wǎng)頁(yè)。需要說明的是起始超鏈接應(yīng)當(dāng)是包含超鏈接豐富的web網(wǎng)頁(yè)，如網(wǎng)站的首頁(yè) 等，這僅僅是最優(yōu)舉例，起始超鏈接的不同不構(gòu)成對(duì)本發(fā)明的限制。分析判斷超鏈接所指向的數(shù)據(jù)是否是web網(wǎng)頁(yè)，一種實(shí)施方式是利用超鏈接的本身所包含的信息來進(jìn)行分析。下面通過舉例來進(jìn) 一步說明。如圖2所示，從201所指向的超鏈接可知，此超鏈接所指向的數(shù)據(jù)是一個(gè)doc格式的文本數(shù)據(jù)；從202所指向的超鏈接可知，此超鏈接所指向的數(shù)據(jù)是一個(gè)htm格式的web網(wǎng)頁(yè)。另一種實(shí) 施方式是利用超《連接的錨文本，例如，一個(gè)錨文本可能是如下文字北京郵電大學(xué)校內(nèi)信息首頁(yè)，從這個(gè)錨文本也可以分析出此超鏈接所指向的數(shù)據(jù)是一個(gè)web網(wǎng)頁(yè)，而且是一個(gè)包含超鏈接豐富的web 網(wǎng)頁(yè)。還有一種實(shí)施方式是通過HTTP協(xié)i義Content-Type,即通過給服務(wù)器發(fā)送請(qǐng)求得到Content-Type數(shù)據(jù)，來分析判斷超鏈接所指向的數(shù)據(jù)是否是web網(wǎng)頁(yè)。以上是判斷超鏈接所指向的數(shù)據(jù)是否是 web網(wǎng)頁(yè)的三種不同的實(shí)施例，其他不同的實(shí)施例子不構(gòu)成對(duì)本發(fā) 明的限制。
若是web網(wǎng)頁(yè)，則流程進(jìn)入步驟103;若不是web網(wǎng)頁(yè)，則流程直接進(jìn)入步驟107。
在步驟103,才是取web網(wǎng)頁(yè)內(nèi)超鏈接。一個(gè)實(shí)施例是通過正則表達(dá)式技術(shù)，來匹配網(wǎng)頁(yè)源碼中的超《連接，從而定位超鏈接，進(jìn)而提取出超鏈接。
步-驟103之后，流禾呈進(jìn)入步驟104。
在步驟104,將步驟103中提取出的超鏈接分析檢測(cè)是否是內(nèi) 部網(wǎng)的超鏈才妄。
下面通過超鏈接的結(jié)構(gòu)并且結(jié)合一個(gè)實(shí)施例來說明。
超鏈4妻的結(jié)構(gòu)是協(xié)"i義+主才幾域名+文件名+端口號(hào)，其中端口號(hào)可以缺省。分析可知，其中協(xié)議可以是http、 ftp等不同形式，這部分在內(nèi)部網(wǎng)和外部網(wǎng)是一致的，不能夠作為區(qū)分是否是內(nèi)部網(wǎng)的標(biāo)志。第二部分是主機(jī)域名，它能夠十分顯著地表示主才幾，也就是服務(wù)器所在的網(wǎng)絡(luò)環(huán)境，即主機(jī)是位于外部網(wǎng)還是內(nèi)部網(wǎng)，這就是分析判斷的標(biāo)志。接下來是文件名和端口號(hào)，這兩部分在內(nèi)部網(wǎng)和外部網(wǎng)也是一致的，也不能夠作為區(qū)分是否是內(nèi)部網(wǎng)的標(biāo)志。一個(gè) 實(shí)施例是通過正則表達(dá)式技術(shù)，來匹配主機(jī)域名，進(jìn)而判斷是否是
內(nèi)部網(wǎng)的超鏈接。如圖2所示，這些超鏈接都是來自同一個(gè)內(nèi)部網(wǎng)，可以明顯看到所有的超《連4妻都擁有共同的內(nèi)部網(wǎng)主才幾i或名 www.buptnu.com.cn，通過正貝'j表達(dá)式匹酉己www.buptnu.com.cn字才尋串，能夠匹配上的屬于這一內(nèi)部網(wǎng)，不能夠匹配上的不屬于這一內(nèi) 部網(wǎng)。由于在內(nèi)部網(wǎng)上主機(jī)域名是很少有限的幾個(gè)，每一個(gè)都估文如上的處理，這樣就能夠把整個(gè)內(nèi)部網(wǎng)的超鏈接與外部網(wǎng)的超鏈接區(qū) 分開。以上是分析檢測(cè)是否是內(nèi)部網(wǎng)的超鏈接的一個(gè)實(shí)施例，其他不同的實(shí)施例子不構(gòu)成對(duì)本發(fā)明的限制。
若是內(nèi)部網(wǎng)的超鏈接，則流程進(jìn)入步驟105;若不是內(nèi)部網(wǎng)的超鏈接，則流程進(jìn)入步驟106 。
在步驟105,保存此超鏈接。
在步驟106，不保存此超鏈接。
步驟105之后，流程進(jìn)入步驟107;步驟106之后，流程進(jìn)入步驟107。
在步驟107，檢測(cè)當(dāng)前待下載數(shù)據(jù)的類型是否與預(yù)先定制的數(shù) 據(jù)類型相同。如上所述的超鏈接的結(jié)構(gòu)是協(xié)議+主機(jī)域名+文件名 +端口號(hào)。其中文件名都包含有表示這個(gè)數(shù)據(jù)類型的后綴，如圖2 所示，表示數(shù)才居類型的后鄉(xiāng)農(nóng)有.doc、 .htm、 .xls、 .rar。一個(gè)實(shí)施例是通過正則表達(dá)式，匹配包含在超鏈接里的數(shù)據(jù)類型的后綴，然后與預(yù)先定制的數(shù)據(jù)類型比較。若當(dāng)前待下載數(shù)據(jù)的類型與預(yù)先定制的數(shù)據(jù)類型相同，則流考呈進(jìn)入步驟108;若當(dāng)前待下載凄史據(jù)的類型與預(yù)先定制的凝:據(jù)類型不相同，則流程進(jìn)入步驟109。
在步驟108,下載此數(shù)據(jù)。
在步-驟109，不下載it匕凄t據(jù)。
步驟108之后，流程進(jìn)入步驟110;步驟109之后，流程進(jìn)入步驟110。
在步驟110， 4企測(cè)在步驟105中保存的超鏈接是否全部^皮處理，若全部被處理完了，則流程進(jìn)入步驟111;若還有沒有^皮處理的超《連*接，則流程進(jìn)入步驟102。
以上結(jié)合附圖描述了本發(fā)明的具體實(shí)施方式
，各種舉例說明不對(duì)發(fā)明的實(shí)質(zhì)內(nèi)容構(gòu)成限制，本發(fā)明不限于上面提供的實(shí)施細(xì)節(jié)，可以在不脫離本發(fā)明特征的情況下以另外的實(shí)施例實(shí)現(xiàn)。所屬4支術(shù) 領(lǐng)域的普通#支術(shù)人員在閱讀了 i兌明書后可以對(duì)以前所述的具體實(shí) 施方式估W奮改或變形，而不背離發(fā)明的實(shí)質(zhì)和范圍。
權(quán)利要求
1.一種內(nèi)部網(wǎng)可定制爬蟲系統(tǒng)構(gòu)建方法，其特征在于包括下列步驟(1)分析超鏈接所指向的數(shù)據(jù)是否是web網(wǎng)頁(yè)；(2)若是web網(wǎng)頁(yè)，則分析web網(wǎng)頁(yè)，處理超鏈接信息；若不是web網(wǎng)頁(yè)，則直接進(jìn)入步驟(3)；(3)根據(jù)定制下載數(shù)據(jù)；(4)重復(fù)執(zhí)行步驟(1)，(2)和(3)，直到?jīng)]有需要處理的超鏈接為止。
2. 根據(jù)權(quán)利要求1所述的內(nèi)部網(wǎng)可定制爬蟲系統(tǒng)構(gòu)建方法，其特征在于步驟(2)進(jìn)一步包括(21 )才是取web網(wǎng)頁(yè)內(nèi)超鏈4妄；(22 )檢測(cè)超鏈接是否是內(nèi)部網(wǎng)的超鏈接；(23 )若是內(nèi)部網(wǎng)的超鏈接，則保存此超鏈接；若不是內(nèi)部網(wǎng)的超鏈接，則不保存此超鏈接。
3. 根據(jù)權(quán)利要求1所述的內(nèi)部網(wǎng)可定制爬蟲系統(tǒng)構(gòu)建方法，其特征在于步驟(3)進(jìn)一步包括(31 )檢測(cè)當(dāng)前待下載數(shù)據(jù)的類型是否與預(yù)先定制的數(shù) 據(jù)類型相同；(32)若當(dāng)前待下載數(shù)據(jù)的類型與預(yù)先定制的數(shù)據(jù)類型相同，則下載此數(shù)據(jù)；若當(dāng)前待下載數(shù)據(jù)的類型與預(yù)先定制的 ^t據(jù)類型不相同，則不下載此數(shù)據(jù)。
全文摘要
本發(fā)明公開了一種內(nèi)部網(wǎng)可定制爬出系統(tǒng)構(gòu)建方法，該方法包括下列步驟(1)分析超鏈接所指向的數(shù)據(jù)是否是web網(wǎng)頁(yè)；(2)若是web網(wǎng)頁(yè)，則分析web網(wǎng)頁(yè)，處理超鏈接信息；若不是web網(wǎng)頁(yè)，則直接進(jìn)入步驟(3)；(3)根據(jù)定制下載數(shù)據(jù)；(4)重復(fù)執(zhí)行步驟(1)，(2)和(3)，直到?jīng)]有需要處理的超鏈接為止。通過應(yīng)用本發(fā)明所描述的方法，可以有效地解決爬蟲系統(tǒng)無(wú)法采集內(nèi)部網(wǎng)數(shù)據(jù)的問題；可以為搭建特色搜索引擎所需的重要技術(shù)——爬蟲系統(tǒng)的數(shù)據(jù)類型針對(duì)性提供通用的框架，有效地降低系統(tǒng)開發(fā)成本。
文檔編號(hào)G06F17/30GK101295321SQ20081012645
公開日2008年10月29日申請(qǐng)日期2008年6月27日優(yōu)先權(quán)日2008年6月27日
發(fā)明者徐蔚然, 溥楊, 軍郭申請(qǐng)人:北京郵電大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊溥;郭軍;徐蔚然
技術(shù)所有人：北京郵電大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

爬蟲系統(tǒng)相關(guān)技術(shù)

分布式爬蟲系統(tǒng)相關(guān)技術(shù)

爬蟲系統(tǒng)架構(gòu)相關(guān)技術(shù)

四周實(shí)現(xiàn)爬蟲系統(tǒng)相關(guān)技術(shù)

python分布式爬蟲系統(tǒng)相關(guān)技術(shù)

爬蟲系統(tǒng)架構(gòu)圖相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

內(nèi)部網(wǎng)可定制爬蟲系統(tǒng)構(gòu)建方法