本發(fā)明涉及一種計(jì)算機(jī)領(lǐng)域,特別是涉及一種爬取企業(yè)內(nèi)網(wǎng)信息的方法及系統(tǒng)。
背景技術(shù):
隨著企業(yè)的規(guī)模逐漸擴(kuò)大,許多員工積累的經(jīng)驗(yàn)與技術(shù)知識(shí)逐漸形成一個(gè)技術(shù)及管理經(jīng)驗(yàn)知識(shí)庫(kù),公司也形成豐富的企業(yè)文化知識(shí)。在大型企業(yè)中還存在著多種知識(shí)庫(kù),公司文化庫(kù),采購(gòu)知識(shí)庫(kù)等等。目前,網(wǎng)絡(luò)信息資源的應(yīng)用在企業(yè)內(nèi)部及企業(yè)間得到快速發(fā)展和廣泛的應(yīng)用,企業(yè)員工需要接收和處理的信息量每年成倍的增長(zhǎng);Web文檔作為企業(yè)內(nèi)部網(wǎng)絡(luò)信息資源的重要載體,包含了企業(yè)大量有價(jià)值的相關(guān)資源。
但由于許多大型企業(yè)內(nèi)部眾多獨(dú)立的Web資源系統(tǒng),Web文檔的格式和內(nèi)容大部分都為半結(jié)構(gòu)化和分散形式存在,企業(yè)人員很難在大量的Web文檔中找到有價(jià)值的信息,給企業(yè)員工在信息檢索方面帶來(lái)很大的煩惱,也使得企業(yè)內(nèi)部的很多資源沒(méi)能得到充分的共享。
技術(shù)實(shí)現(xiàn)要素:
鑒于上述問(wèn)題,提出了本發(fā)明以便于提供一種克服上述問(wèn)題或者至少部分地解決上述問(wèn)題的爬取企業(yè)內(nèi)網(wǎng)信息的方法及裝置。
依據(jù)本發(fā)明的第一個(gè)方面,提供了一種爬取企業(yè)內(nèi)網(wǎng)信息的方法,包括:
利用網(wǎng)絡(luò)爬蟲(chóng)從指定企業(yè)局域網(wǎng)內(nèi)的目標(biāo)內(nèi)容源中爬取內(nèi)容信息;
根據(jù)爬取到的所述內(nèi)容信息,構(gòu)建信息索引;
將所述信息索引反饋至指定服務(wù)器,以供企業(yè)內(nèi)部定制的搜索引擎進(jìn)行檢索。
依據(jù)本發(fā)明的第二個(gè)方面,提供了一種爬取企業(yè)內(nèi)網(wǎng)信息的裝置,包括:
爬取模塊,用于利用網(wǎng)絡(luò)爬蟲(chóng)從指定企業(yè)局域網(wǎng)內(nèi)的目標(biāo)內(nèi)容源中爬取內(nèi)容信息;
構(gòu)建模塊,用于根據(jù)爬取到的所述內(nèi)容信息,構(gòu)建信息索引;
反饋模塊,用于將所述信息索引反饋至指定服務(wù)器,以供企業(yè)內(nèi)部定制的搜索引擎進(jìn)行檢索。
依據(jù)本發(fā)明的第三個(gè)方面,提供了一種服務(wù)器,包括爬取企業(yè)內(nèi)網(wǎng)信息的裝置,其中,所述爬取企業(yè)內(nèi)網(wǎng)信息的裝置,包括:
爬取模塊,用于利用網(wǎng)絡(luò)爬蟲(chóng)從指定企業(yè)局域網(wǎng)內(nèi)的目標(biāo)內(nèi)容源中爬取內(nèi)容信息;
構(gòu)建模塊,用于根據(jù)爬取到的所述內(nèi)容信息,構(gòu)建信息索引;
反饋模塊,用于將所述信息索引反饋至指定服務(wù)器,以供企業(yè)內(nèi)部定制的搜索引擎進(jìn)行檢索。
借由上述技術(shù)方案,本發(fā)明實(shí)施例提供的技術(shù)方案至少具有下列優(yōu)點(diǎn):
本發(fā)明實(shí)施例提供的技術(shù)方案利用網(wǎng)絡(luò)爬蟲(chóng)爬取指定企業(yè)局域網(wǎng)內(nèi)的目標(biāo)內(nèi)容源中的內(nèi)容信息,然后根據(jù)內(nèi)容信息構(gòu)建信息索引,最后再將信息索引反饋至指定服務(wù)器,以供企業(yè)內(nèi)部定制的搜索引擎進(jìn)行檢索,整合了企業(yè)局域網(wǎng)內(nèi)的信息資源,進(jìn)而能有效的提高員工檢索企業(yè)內(nèi)部信息的工作效率,加強(qiáng)了企業(yè)內(nèi)部知識(shí)的共享。
上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,并可依照說(shuō)明書(shū)的內(nèi)容予以實(shí)施,以下以本發(fā)明的較佳實(shí)施例并配合附圖詳細(xì)說(shuō)明如后。
附圖說(shuō)明
通過(guò)閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
圖1示出了本發(fā)明實(shí)施例一提供的爬取企業(yè)內(nèi)網(wǎng)信息的方法的流程示 意圖;
圖2示出了本發(fā)明實(shí)施例一提供的爬取企業(yè)內(nèi)網(wǎng)信息的方法中步驟101的一種具體實(shí)現(xiàn)實(shí)例的流程示意圖;
圖3示出了本發(fā)明實(shí)施例二提供的爬取企業(yè)內(nèi)網(wǎng)信息的裝置的結(jié)構(gòu)示意圖;
圖4示出了本實(shí)施例三提供的所述服務(wù)器的一種實(shí)現(xiàn)結(jié)構(gòu)示意圖。
具體實(shí)施方式
為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
如圖1所示,本發(fā)明實(shí)施例一提供的爬取企業(yè)內(nèi)網(wǎng)信息的方法的流程示意圖。本實(shí)施例提供的所述的方法的執(zhí)行主體可以是能夠?qū)崿F(xiàn)下述方法的裝置,該裝置可以是實(shí)體裝置(如服務(wù)器),還可以是虛擬裝置(如爬蟲(chóng)程序)。具體的,本實(shí)施例所述的方法包括:
步驟101、利用網(wǎng)絡(luò)爬蟲(chóng)從指定企業(yè)局域網(wǎng)內(nèi)的目標(biāo)內(nèi)容源中爬取內(nèi)容信息。
其中,所述的內(nèi)容信息為WEB文檔。其中,所述WEB文檔為包含有企業(yè)內(nèi)部網(wǎng)絡(luò)的工作內(nèi)容、企業(yè)客戶(hù)信息、企業(yè)即時(shí)通信信息、企業(yè)人事信息或企業(yè)產(chǎn)品信息等的文檔。本發(fā)明實(shí)施例對(duì)所述WEB文檔包含的內(nèi)容不作具體限定。所述目標(biāo)內(nèi)容源包括:企業(yè)數(shù)據(jù)庫(kù)、網(wǎng)頁(yè)、文件和單據(jù)等中的任意一種或多種。
網(wǎng)絡(luò)爬蟲(chóng)主要目的是將互聯(lián)網(wǎng)上的網(wǎng)頁(yè)下載到本地形成一個(gè)或聯(lián)網(wǎng)內(nèi)容的鏡像備份。即在具體實(shí)施例時(shí),本步驟可采用如下方法實(shí)現(xiàn):
首先,利用網(wǎng)絡(luò)爬蟲(chóng)獲取所述指定企業(yè)局域網(wǎng)內(nèi)的目標(biāo)內(nèi)容源的網(wǎng)絡(luò)全局位置。
其中,所述網(wǎng)絡(luò)全局位置包括至少一個(gè)IP地址。具體的,本步驟:利用網(wǎng)絡(luò)爬蟲(chóng)獲取所述指定企業(yè)局域網(wǎng)內(nèi)的目標(biāo)內(nèi)容源的網(wǎng)絡(luò)全局位置,可 采用如下方法實(shí)現(xiàn),如圖2所示:
步驟S11、利用網(wǎng)絡(luò)爬蟲(chóng)得到所述指定企業(yè)局域網(wǎng)內(nèi)的待爬取統(tǒng)一資源定位符URL隊(duì)列,所述URL隊(duì)列中包含有至少一個(gè)待爬取URL。
步驟S12、從所述URL隊(duì)列中提取待爬取的URL。
步驟S13、根據(jù)所述待爬取的URL,解析出域名解析系統(tǒng)DNS,并得到服務(wù)器的IP地址。
然后,從所述網(wǎng)絡(luò)全局位置指向的服務(wù)器中保存的目標(biāo)內(nèi)容源中爬取所述內(nèi)容信息。
步驟S14、根據(jù)所述IP地址,從所述IP地址指向的服務(wù)器中下載所述待爬取的URL對(duì)應(yīng)的WEB文檔。
在實(shí)際應(yīng)用中,URL對(duì)應(yīng)的WEB文檔中可能還包含有鏈接,該步驟還可包括:
步驟S15、將已下載WEB文檔對(duì)應(yīng)的URL保存在已抓取URL隊(duì)列中。
步驟S16、對(duì)已抓取URL隊(duì)列中的URL進(jìn)行分析。
步驟S17、當(dāng)分析得出所述URL還存在有下一級(jí)URL時(shí),將所述下一級(jí)URL放入所述待抓取URL隊(duì)列中。
具體的,本實(shí)施例提供的所述網(wǎng)絡(luò)爬蟲(chóng)的基本結(jié)構(gòu)(如圖2所示),其工作流程如下:
步驟S21、首先網(wǎng)絡(luò)爬蟲(chóng)選取種子URL。
步驟S22、將這些種子URL放入待爬取URL隊(duì)列
步驟S23、從待爬取URL隊(duì)列中取出待爬取的URL,解析DNS,并且得到主機(jī)的IP,并將URL對(duì)應(yīng)的網(wǎng)頁(yè)下載下來(lái),存儲(chǔ)進(jìn)已下載網(wǎng)頁(yè)庫(kù)中。此外,將這些URL放進(jìn)已爬取URL隊(duì)列。
步驟S24、分析已爬取URL隊(duì)列中的URL,分析其中的其他URL,并且將URL放入待爬取URL隊(duì)列,從而進(jìn)入下一個(gè)循環(huán)。
待爬取URL隊(duì)列是很重要的一部分。待爬取URL隊(duì)列中的URL以什么樣的順序排列也是一個(gè)很重要的問(wèn)題,因?yàn)檫@涉及到先爬取哪個(gè)頁(yè)面,后爬取哪個(gè)頁(yè)面。而決定這些URL排列順序的方法,叫做網(wǎng)絡(luò)爬蟲(chóng)的爬取策略。
第一種爬取策略:深度優(yōu)先遍歷策略
深度優(yōu)先遍歷策略時(shí)指網(wǎng)絡(luò)爬蟲(chóng)會(huì)從起始頁(yè)開(kāi)始,一個(gè)鏈接一個(gè)鏈接跟蹤下去,處理完這條線路之后再轉(zhuǎn)入下一個(gè)起始頁(yè),繼續(xù)跟蹤鏈接。
第二種爬取策略:寬度優(yōu)先遍歷策略
寬度優(yōu)先遍歷策略的基本思路是,將新下載網(wǎng)頁(yè)中發(fā)現(xiàn)的鏈接直接插入待爬取URL隊(duì)列的末尾。也就是指網(wǎng)絡(luò)爬蟲(chóng)會(huì)先爬取起始網(wǎng)頁(yè)中鏈接的所有網(wǎng)頁(yè),然后再選擇其中的一個(gè)鏈接網(wǎng)頁(yè),繼續(xù)爬取在此網(wǎng)頁(yè)中鏈接的所有網(wǎng)頁(yè)。
第二種爬取策略:反向鏈接數(shù)策略
反向鏈接數(shù)是指一個(gè)網(wǎng)頁(yè)被其他網(wǎng)頁(yè)鏈接指向的數(shù)量。反向鏈接數(shù)表示的是一個(gè)網(wǎng)頁(yè)的內(nèi)容受到其他人的推薦的程度。因此,很多時(shí)候搜索引擎的爬取系統(tǒng)會(huì)使用這個(gè)指標(biāo)來(lái)評(píng)價(jià)網(wǎng)頁(yè)的重要程度,從而決定不同網(wǎng)頁(yè)的爬取先后順序。
步驟102、根據(jù)爬取到的所述內(nèi)容信息,構(gòu)建信息索引。
在具體實(shí)施例時(shí),本實(shí)施例可針對(duì)內(nèi)容信息獲得的不同格式的文件/數(shù)據(jù)將其中需要索引的部分提取出來(lái),再使用不同語(yǔ)言處理模塊對(duì)其進(jìn)行處理和標(biāo)準(zhǔn)化,生成信息索引。多個(gè)內(nèi)容索引即可構(gòu)建出所述信息索引。
步驟103、將所述信息索引反饋至指定服務(wù)器,以供企業(yè)內(nèi)部定制的搜索引擎進(jìn)行檢索。
其中,所述指定服務(wù)器為所述指定企業(yè)局域網(wǎng)內(nèi)的服務(wù)器,或?yàn)榈谌教峁┥烫峁┑姆?wù)器。
本實(shí)施例提供的技術(shù)方案利用網(wǎng)絡(luò)爬蟲(chóng)爬取指定企業(yè)局域網(wǎng)內(nèi)的目標(biāo)內(nèi)容源中的內(nèi)容信息,然后根據(jù)內(nèi)容信息構(gòu)建信息索引,最后再將信息索引反饋至指定服務(wù)器,以供企業(yè)內(nèi)部定制的搜索引擎進(jìn)行檢索,整合了企業(yè)局域網(wǎng)內(nèi)的信息資源,進(jìn)而能有效的提高員工檢索企業(yè)內(nèi)部信息的工作效率,加強(qiáng)了企業(yè)內(nèi)部知識(shí)的共享。
互聯(lián)網(wǎng)是實(shí)時(shí)變化的,具有很強(qiáng)的動(dòng)態(tài)性,去除一些死鏈接和/或更新一些信頁(yè)面是非常必要的。即本發(fā)明實(shí)施例提供的所述方法,還包括如下步驟:
設(shè)定爬取周期,按設(shè)定的爬取周期從所述目標(biāo)內(nèi)容源中爬取所述內(nèi)容信息。
其中,上述的設(shè)定的爬去周期可此采用相應(yīng)的網(wǎng)頁(yè)更新策略的得到。具體的,網(wǎng)頁(yè)更新策略主要是決定何時(shí)更新之前已經(jīng)下載過(guò)的頁(yè)面。常見(jiàn)的更新策略有一下幾種:
1、歷史參考策略
根據(jù)頁(yè)面以往的歷史更新數(shù)據(jù),預(yù)測(cè)該頁(yè)面未來(lái)何時(shí)會(huì)發(fā)生變化。一般來(lái)說(shuō),是通過(guò)泊松過(guò)程進(jìn)行建模進(jìn)行預(yù)測(cè)。
2、用戶(hù)體驗(yàn)策略
盡管搜索引擎針對(duì)于某個(gè)查詢(xún)條件能夠返回?cái)?shù)量巨大的結(jié)果,但是用戶(hù)往往只關(guān)注前幾頁(yè)結(jié)果。因此,爬取系統(tǒng)可以?xún)?yōu)先更新那些現(xiàn)實(shí)在查詢(xún)結(jié)果前幾頁(yè)中的網(wǎng)頁(yè),而后再更新那些后面的網(wǎng)頁(yè)。這種更新策略也是需要用到歷史信息的。
3、聚類(lèi)抽樣策略
前面提到的兩種更新策略都有一個(gè)前提:需要網(wǎng)頁(yè)的歷史信息。這樣就存在兩個(gè)問(wèn)題:第一,系統(tǒng)要是為每個(gè)系統(tǒng)保存多個(gè)版本的歷史信息,無(wú)疑增加了很多的系統(tǒng)負(fù)擔(dān);第二,要是新的網(wǎng)頁(yè)完全沒(méi)有歷史信息,就無(wú)法確定更新策略。
這種策略認(rèn)為,網(wǎng)頁(yè)具有很多屬性,類(lèi)似屬性的網(wǎng)頁(yè),可以認(rèn)為其更新頻率也是類(lèi)似的。要計(jì)算某一個(gè)類(lèi)別網(wǎng)頁(yè)的更新頻率,只需要對(duì)這一類(lèi)網(wǎng)頁(yè)抽樣,以他們的更新周期作為整個(gè)類(lèi)別的更新周期。
進(jìn)一步的,在web文檔爬取中,常常發(fā)現(xiàn)檢索引擎返回存在重復(fù)的WEB文檔,為避免重復(fù)爬取及后續(xù)web文檔聚類(lèi),需要排除這些重復(fù)的文檔。這里采取基于URL鏈接去重的方式進(jìn)行Web文檔去重。即,本發(fā)明實(shí)施例提供的所述的方法,還包括:對(duì)爬取到的所述內(nèi)容信息進(jìn)行去重處理。
需要說(shuō)明的是:對(duì)于前述的各方法實(shí)施例,為了簡(jiǎn)單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本發(fā)明,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說(shuō)明書(shū)中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作和模塊并不一定是本發(fā)明所必須的。
如圖3所示,本發(fā)明實(shí)施例二提供的爬取企業(yè)內(nèi)網(wǎng)信息的裝置的結(jié)構(gòu)示意圖。本實(shí)施例提供的所述裝置可實(shí)現(xiàn)上述實(shí)施例提供的所述方法。具 體的,所述的裝置包括:爬取模塊1、構(gòu)建模塊2和反饋模塊3。其中,
爬取模塊1,用于利用網(wǎng)絡(luò)爬蟲(chóng)從指定企業(yè)局域網(wǎng)內(nèi)的目標(biāo)內(nèi)容源中爬取內(nèi)容信息。
構(gòu)建模塊2,用于根據(jù)爬取到的所述內(nèi)容信息,構(gòu)建信息索引。
反饋模塊3,用于將所述信息索引反饋至指定服務(wù)器,以供企業(yè)內(nèi)部定制的搜索引擎進(jìn)行檢索。
本實(shí)施例提供的技術(shù)方案利用網(wǎng)絡(luò)爬蟲(chóng)爬取指定企業(yè)局域網(wǎng)內(nèi)的目標(biāo)內(nèi)容源中的內(nèi)容信息,然后根據(jù)內(nèi)容信息構(gòu)建信息索引,最后再將信息索引反饋至指定服務(wù)器,以供企業(yè)內(nèi)部定制的搜索引擎進(jìn)行檢索,整合了企業(yè)局域網(wǎng)內(nèi)的信息資源,進(jìn)而能有效的提高員工檢索企業(yè)內(nèi)部信息的工作效率,加強(qiáng)了企業(yè)內(nèi)部知識(shí)的共享。
進(jìn)一步的,上述的指定服務(wù)器可以為所述指定企業(yè)局域網(wǎng)內(nèi)的服務(wù)器,或?yàn)榈谌教峁┥烫峁┑姆?wù)器。
進(jìn)一步的,所述的內(nèi)容信息為WEB文檔;其中,
所述WEB文檔為包含有企業(yè)內(nèi)部網(wǎng)絡(luò)的工作內(nèi)容、企業(yè)客戶(hù)信息、企業(yè)即時(shí)通信信息、企業(yè)內(nèi)部郵件信息、企業(yè)人事信息或企業(yè)產(chǎn)品信息的文檔。
進(jìn)一步的,上述的爬取模塊還可采用如下結(jié)構(gòu)實(shí)現(xiàn)。具體的,爬取模塊,包括:獲取單元和爬取單元。其中,獲取單元,用于利用網(wǎng)絡(luò)爬蟲(chóng)獲取所述指定企業(yè)局域網(wǎng)內(nèi)的目標(biāo)內(nèi)容源的網(wǎng)絡(luò)全局位置。爬取單元,用于從所述網(wǎng)絡(luò)全局位置指向的服務(wù)器中保存的目標(biāo)內(nèi)容源中爬取所述內(nèi)容信息。
再進(jìn)一步的,上述的網(wǎng)絡(luò)全局位置包括至少一個(gè)IP地址。
再進(jìn)一步的,上述的獲取單元,可具體用于:
利用網(wǎng)絡(luò)爬蟲(chóng)得到所述指定企業(yè)局域網(wǎng)內(nèi)的待爬取統(tǒng)一資源定位符URL隊(duì)列,所述URL隊(duì)列中包含有至少一個(gè)待爬取URL;
從所述URL隊(duì)列中提取待爬取的URL;
根據(jù)所述待爬取的URL,解析出域名解析系統(tǒng)DNS,并得到服務(wù)器的IP地址。
再進(jìn)一步的,上述的爬取單元,可具體用于:
根據(jù)所述IP地址,從所述IP地址指向的服務(wù)器中下載所述待爬取的URL對(duì)應(yīng)的WEB文檔。
進(jìn)一步的,本實(shí)施例提供的所述爬取企業(yè)內(nèi)網(wǎng)信息的裝置還可包括:處理模塊。其中,所述處理模塊,具體用于:
將已下載WEB文檔對(duì)應(yīng)的URL保存在已抓取URL隊(duì)列中;
對(duì)已抓取URL隊(duì)列中的URL進(jìn)行分析;
當(dāng)分析得出所述URL還存在有下一級(jí)URL時(shí),將所述下一級(jí)URL放入所述待抓取URL隊(duì)列中。
進(jìn)一步的,本實(shí)施例提供的所述爬取企業(yè)內(nèi)網(wǎng)信息的裝置還可包括:設(shè)定模塊。其中,所述設(shè)定模塊,用于設(shè)定爬取周期,按設(shè)定的爬取周期從所述目標(biāo)內(nèi)容源中爬取所述內(nèi)容信息。
本發(fā)明實(shí)施例三提供的一種服務(wù)器。其中,所述服務(wù)器包括:爬取企業(yè)內(nèi)網(wǎng)信息的裝置。該爬取企業(yè)內(nèi)網(wǎng)信息的裝置,具體用于:
利用網(wǎng)絡(luò)爬蟲(chóng)從指定企業(yè)局域網(wǎng)內(nèi)的目標(biāo)內(nèi)容源中爬取內(nèi)容信息;
根據(jù)爬取到的所述內(nèi)容信息,構(gòu)建信息索引;
將所述信息索引反饋至指定服務(wù)器,以供企業(yè)內(nèi)部定制的搜索引擎進(jìn)行檢索。
具體的,本實(shí)施例提供的所述爬取企業(yè)內(nèi)網(wǎng)信息的裝置可采用上述實(shí)施例二提供的裝置來(lái)實(shí)現(xiàn),即本實(shí)施例提供的所述裝置的實(shí)現(xiàn)結(jié)構(gòu)及實(shí)現(xiàn)原理可參見(jiàn)上述實(shí)施例中的相應(yīng)內(nèi)容,此處不再贅述。
本實(shí)施例提供的技術(shù)方案利用網(wǎng)絡(luò)爬蟲(chóng)爬取指定企業(yè)局域網(wǎng)內(nèi)的目標(biāo)內(nèi)容源中的內(nèi)容信息,然后根據(jù)內(nèi)容信息構(gòu)建信息索引,最后再將信息索引反饋至指定服務(wù)器,以供企業(yè)內(nèi)部定制的搜索引擎進(jìn)行檢索,整合了企業(yè)局域網(wǎng)內(nèi)的信息資源,進(jìn)而能有效的提高員工檢索企業(yè)內(nèi)部信息的工作效率,加強(qiáng)了企業(yè)內(nèi)部知識(shí)的共享。
本實(shí)施例中所述的爬取企業(yè)內(nèi)網(wǎng)信息的裝置可以是安裝在所述服務(wù)器上的應(yīng)用程序,也可以是設(shè)置在所述服務(wù)器中并與所述服務(wù)器中的處理器通信連接的具有上述功能的邏輯電路或芯片。
具體的,圖4示出了本實(shí)施例三提供的所述服務(wù)器的一種實(shí)現(xiàn)結(jié)構(gòu)示意圖。如圖4所示,本實(shí)施例三所述的服務(wù)器50包括:處理器51和存儲(chǔ) 器53。其中,所述處理器51和所述存儲(chǔ)器53通過(guò)通信線路54完成相互間的通信。所述處理器51用于執(zhí)行應(yīng)用程序531。所述存儲(chǔ)器53用于存放所述應(yīng)用程序531。其中,所述應(yīng)用程序531為爬取企業(yè)內(nèi)網(wǎng)信息的裝置,該應(yīng)用程序用于:
利用網(wǎng)絡(luò)爬蟲(chóng)從指定企業(yè)局域網(wǎng)內(nèi)的目標(biāo)內(nèi)容源中爬取內(nèi)容信息;
根據(jù)爬取到的所述內(nèi)容信息,構(gòu)建信息索引;
將所述信息索引反饋至指定服務(wù)器,以供企業(yè)內(nèi)部定制的搜索引擎進(jìn)行檢索。
在上述實(shí)施例中,對(duì)各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒(méi)有詳述的部分,可以參見(jiàn)其他實(shí)施例的相關(guān)描述。
可以理解的是,上述方法及交換機(jī)中的相關(guān)特征可以相互參考。另外,上述實(shí)施例中的“第一”、“第二”等是用于區(qū)分各實(shí)施例,而并不代表各實(shí)施例的優(yōu)劣。
所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡(jiǎn)潔,上述描述的系統(tǒng),裝置和單元的具體工作過(guò)程,可以參考前述方法實(shí)施例中的對(duì)應(yīng)過(guò)程,在此不再贅述。
在此提供的算法和顯示不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類(lèi)系統(tǒng)所要求的結(jié)構(gòu)是顯而易見(jiàn)的。此外,本發(fā)明也不針對(duì)任何特定編程語(yǔ)言。應(yīng)當(dāng)明白,可以利用各種編程語(yǔ)言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對(duì)特定語(yǔ)言所做的描述是為了披露本發(fā)明的最佳實(shí)施方式。
在此處所提供的說(shuō)明書(shū)中,說(shuō)明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒(méi)有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對(duì)本說(shuō)明書(shū)的理解。
類(lèi)似地,應(yīng)當(dāng)理解,為了精簡(jiǎn)本公開(kāi)并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該公開(kāi)的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說(shuō),如下面的權(quán)利要 求書(shū)所反映的那樣,發(fā)明方面在于少于前面公開(kāi)的單個(gè)實(shí)施例的所有特征。因此,遵循具體實(shí)施方式的權(quán)利要求書(shū)由此明確地并入該具體實(shí)施方式,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。
本領(lǐng)域那些技術(shù)人員可以理解,可以對(duì)實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們?cè)O(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中。可以把實(shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過(guò)程或者單元中的至少一些是相互排斥之外,可以采用任何組合對(duì)本說(shuō)明書(shū)(包括伴隨的權(quán)利要求、摘要和附圖)中公開(kāi)的所有特征以及如此公開(kāi)的任何方法或者設(shè)備的所有過(guò)程或單元進(jìn)行組合。除非另外明確陳述,本說(shuō)明書(shū)(包括伴隨的權(quán)利要求、摘要和附圖)中公開(kāi)的每個(gè)特征可以由提供相同、等同或相似目的替代特征來(lái)代替。
此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書(shū)中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來(lái)使用。
本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(DSP)來(lái)實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例提供的裝置中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者以任何其他形式提供。
應(yīng)該注意的是上述實(shí)施例對(duì)本發(fā)明進(jìn)行說(shuō)明而不是對(duì)本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步 驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來(lái)實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過(guò)同一個(gè)硬件項(xiàng)來(lái)具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱(chēng)。
本發(fā)明公開(kāi)了A1、一種爬取企業(yè)內(nèi)網(wǎng)信息的方法,包括:
利用網(wǎng)絡(luò)爬蟲(chóng)從指定企業(yè)局域網(wǎng)內(nèi)的目標(biāo)內(nèi)容源中爬取內(nèi)容信息;
根據(jù)爬取到的所述內(nèi)容信息,構(gòu)建信息索引;
將所述信息索引反饋至指定服務(wù)器,以供企業(yè)內(nèi)部定制的搜索引擎進(jìn)行檢索。
A2、如A1所述的方法,所述指定服務(wù)器為所述指定企業(yè)局域網(wǎng)內(nèi)的服務(wù)器,或?yàn)榈谌教峁┥烫峁┑姆?wù)器。
A3、如A1或A2所述的方法,所述的內(nèi)容信息為WEB文檔;其中,
所述WEB文檔為包含有企業(yè)內(nèi)部網(wǎng)絡(luò)的工作內(nèi)容、企業(yè)客戶(hù)信息、企業(yè)即時(shí)通信信息、企業(yè)內(nèi)部郵件信息、企業(yè)人事信息或企業(yè)產(chǎn)品信息的文檔。
A4、如A3所述的方法,所述利用網(wǎng)絡(luò)爬蟲(chóng)從指定企業(yè)局域網(wǎng)內(nèi)的目標(biāo)內(nèi)容源中爬取內(nèi)容信息,包括:
利用網(wǎng)絡(luò)爬蟲(chóng)獲取所述指定企業(yè)局域網(wǎng)內(nèi)的目標(biāo)內(nèi)容源的網(wǎng)絡(luò)全局位置;
從所述網(wǎng)絡(luò)全局位置指向的服務(wù)器中保存的目標(biāo)內(nèi)容源中爬取所述內(nèi)容信息。
A5、如A4所述的方法,所述網(wǎng)絡(luò)全局位置包括至少一個(gè)IP地址。
A6、如A5所述的方法,所述利用網(wǎng)絡(luò)爬蟲(chóng)獲取所述指定企業(yè)局域網(wǎng)內(nèi)的目標(biāo)內(nèi)容源的網(wǎng)絡(luò)全局位置,包括:
利用網(wǎng)絡(luò)爬蟲(chóng)得到所述指定企業(yè)局域網(wǎng)內(nèi)的待爬取統(tǒng)一資源定位符URL隊(duì)列,所述URL隊(duì)列中包含有至少一個(gè)待爬取URL;
從所述URL隊(duì)列中提取待爬取的URL;
根據(jù)所述待爬取的URL,解析出域名解析系統(tǒng)DNS,并得到服務(wù)器的IP地址。
A7、如A6所述的方法,所述從所述網(wǎng)絡(luò)全局位置指向的服務(wù)器中保存的目標(biāo)內(nèi)容源中爬取所述內(nèi)容信息,具體為:
根據(jù)所述IP地址,從所述IP地址指向的服務(wù)器中下載所述待爬取的URL對(duì)應(yīng)的WEB文檔。
A8、如A7所述的方法,還包括:
將已下載WEB文檔對(duì)應(yīng)的URL保存在已抓取URL隊(duì)列中;
對(duì)已抓取URL隊(duì)列中的URL進(jìn)行分析;
當(dāng)分析得出所述URL還存在有下一級(jí)URL時(shí),將所述下一級(jí)URL放入所述待抓取URL隊(duì)列中。
A9、如A1或A2所述的方法,還包括:
設(shè)定爬取周期,按設(shè)定的爬取周期從所述目標(biāo)內(nèi)容源中爬取所述內(nèi)容信息。
本發(fā)明還公開(kāi)了B10、一種爬取企業(yè)內(nèi)網(wǎng)信息的裝置,包括:
爬取模塊,用于利用網(wǎng)絡(luò)爬蟲(chóng)從指定企業(yè)局域網(wǎng)內(nèi)的目標(biāo)內(nèi)容源中爬取內(nèi)容信息;
構(gòu)建模塊,用于根據(jù)爬取到的所述內(nèi)容信息,構(gòu)建信息索引;
反饋模塊,用于將所述信息索引反饋至指定服務(wù)器,以供企業(yè)內(nèi)部定制的搜索引擎進(jìn)行檢索。
B11、如B10所述的裝置,所述指定服務(wù)器為所述指定企業(yè)局域網(wǎng)內(nèi)的服務(wù)器,或?yàn)榈谌教峁┥烫峁┑姆?wù)器。
B12、如B10或B11所述的裝置,所述的內(nèi)容信息為WEB文檔;其中,
所述WEB文檔為包含有企業(yè)內(nèi)部網(wǎng)絡(luò)的工作內(nèi)容、企業(yè)客戶(hù)信息、企業(yè)即時(shí)通信信息、企業(yè)內(nèi)部郵件信息、企業(yè)人事信息或企業(yè)產(chǎn)品信息的文檔。
B13、如B12所述的裝置,所述爬取模塊,包括:
獲取單元,用于利用網(wǎng)絡(luò)爬蟲(chóng)獲取所述指定企業(yè)局域網(wǎng)內(nèi)的目標(biāo)內(nèi)容源的網(wǎng)絡(luò)全局位置;
爬取單元,用于從所述網(wǎng)絡(luò)全局位置指向的服務(wù)器中保存的目標(biāo)內(nèi)容源中爬取所述內(nèi)容信息。
B14、如B13所述的裝置,所述網(wǎng)絡(luò)全局位置包括至少一個(gè)IP地址。
B15、如B14所述的裝置,所述獲取單元,具體用于:
利用網(wǎng)絡(luò)爬蟲(chóng)得到所述指定企業(yè)局域網(wǎng)內(nèi)的待爬取統(tǒng)一資源定位符URL隊(duì)列,所述URL隊(duì)列中包含有至少一個(gè)待爬取URL;
從所述URL隊(duì)列中提取待爬取的URL;
根據(jù)所述待爬取的URL,解析出域名解析系統(tǒng)DNS,并得到服務(wù)器的IP地址。
B16、如B15所述的裝置,所述爬取單元,具體用于:
根據(jù)所述IP地址,從所述IP地址指向的服務(wù)器中下載所述待爬取的URL對(duì)應(yīng)的WEB文檔。
B17、如B16所述的裝置,還包括:處理模塊,其中,所述處理模塊,具體用于:
將已下載WEB文檔對(duì)應(yīng)的URL保存在已抓取URL隊(duì)列中;
對(duì)已抓取URL隊(duì)列中的URL進(jìn)行分析;
當(dāng)分析得出所述URL還存在有下一級(jí)URL時(shí),將所述下一級(jí)URL放入所述待抓取URL隊(duì)列中。
B18、如B10或B11所述的裝置,還包括:
設(shè)定模塊,用于設(shè)定爬取周期,按設(shè)定的爬取周期從所述目標(biāo)內(nèi)容源中爬取所述內(nèi)容信息。
本發(fā)明還公開(kāi)了C19、一種服務(wù)器,包括上述權(quán)利要求B10~B18中任一項(xiàng)所述的爬取企業(yè)內(nèi)網(wǎng)信息的裝置。