專利名稱:一種網(wǎng)頁(yè)爬蟲協(xié)作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息網(wǎng)絡(luò)技術(shù)領(lǐng)域,特別涉及一種網(wǎng)頁(yè)爬蟲協(xié)作方法。
背景技術(shù):
如今互聯(lián)網(wǎng)搜索引擎成為人們?nèi)粘I畈豢苫蛉钡囊环N工具,如谷歌、百度、搜狗、人民搜索等。搜索資訊、學(xué)習(xí)、疑難問題解答、廣告等等,搜索引擎業(yè)務(wù)滲透到生活的方方面面。在搜索引擎中,至關(guān)重要的一步是相關(guān)信息的采集獲取,在互聯(lián)網(wǎng)上則典型地體現(xiàn)為網(wǎng)頁(yè)的采集。網(wǎng)頁(yè)的采集經(jīng)歷了幾個(gè)階段。第一個(gè)階段是單主機(jī)采集階段,這是典型的中心處理方式;第二個(gè)階段是多臺(tái)主機(jī)協(xié)作的集群采集階段,其特征表現(xiàn)為這些主機(jī)處于一個(gè) IDC機(jī)房或高速互聯(lián)的網(wǎng)絡(luò)之中,其間通信不會(huì)成為問題,同時(shí)各主機(jī)是長(zhǎng)在線的,有一臺(tái)控制主機(jī);第三個(gè)階段是相距較遠(yuǎn)的多臺(tái)主機(jī)協(xié)作的P2P采集階段,其特征表現(xiàn)為這些主機(jī)是由相關(guān)機(jī)構(gòu)無(wú)償奉獻(xiàn)的,意圖促進(jìn)對(duì)等協(xié)作,主機(jī)呈現(xiàn)長(zhǎng)時(shí)間在線特征,沒有中心控制點(diǎn)ο上述三個(gè)階段除第一個(gè)階段處在第二階段、第三階段之前、由于明顯的單機(jī)處理能力等缺陷而被淘汰之外,第二、三階段是并行的,是由兩種主導(dǎo)思路決定的,嚴(yán)格說來是分布式網(wǎng)頁(yè)采集的兩種實(shí)現(xiàn)比較合適,集群采集是由公司主導(dǎo)的,其目的是靠搜索得來的信息贏利,P2P采集是P2P搜索引擎的基礎(chǔ),完全是一種社會(huì)化網(wǎng)絡(luò)行為,其作用在于抵消公司主導(dǎo)搜索引擎的弊端。另外,隨著用戶終端資源能力的日益增強(qiáng),其資源在開機(jī)的大部分時(shí)間內(nèi)處于空閑運(yùn)行狀態(tài),浪費(fèi)非常嚴(yán)重;同時(shí)這些終端的在線呈現(xiàn)不同的周期性特征(例如日(day)周期、周(week)周期),在線時(shí)長(zhǎng)則一般隨用戶不同而呈現(xiàn)準(zhǔn)常數(shù)周期變化。在現(xiàn)有技術(shù)中,由一臺(tái)主機(jī)負(fù)責(zé)一定范圍內(nèi)(如IP地址或域名某個(gè)區(qū)段內(nèi)網(wǎng)站內(nèi)容采集)的網(wǎng)頁(yè)爬取和更新,并通過存儲(chǔ)接口存儲(chǔ)在本地、集中式存儲(chǔ)或分布式系統(tǒng)內(nèi)。上述集群采集方法面臨采集帶寬大量消耗、經(jīng)費(fèi)以及網(wǎng)頁(yè)的海量存儲(chǔ)問題,P2P采集又面臨利他用途的可持續(xù)問題。
發(fā)明內(nèi)容
本發(fā)明的目的在于,為克服目前采集設(shè)備中心化面臨的帶寬問題和網(wǎng)頁(yè)的海量存儲(chǔ)問題,同時(shí)將利他和利已用戶相結(jié)合,解決P2P采集的可持續(xù)問題,從而提供一種網(wǎng)頁(yè)爬蟲協(xié)作方法。為實(shí)現(xiàn)上述目的,本發(fā)明提供一種網(wǎng)頁(yè)爬蟲協(xié)作方法,該方法用于多種網(wǎng)絡(luò)環(huán)境下存在大量網(wǎng)頁(yè)爬蟲情況下的協(xié)作方法,所述的方法步驟如下步驟1,將一設(shè)定周期中某段時(shí)間同時(shí)在線的爬蟲節(jié)點(diǎn)劃分為一采集組,且各爬蟲節(jié)點(diǎn)被劃分的所有采集組的在線時(shí)間段相連接能實(shí)現(xiàn)一個(gè)周期的連續(xù)在線。步驟2,以所述采集組為單位進(jìn)行網(wǎng)頁(yè)采集,且各采集組間還通過消息交換的方法協(xié)作實(shí)現(xiàn)設(shè)定周期內(nèi)對(duì)網(wǎng)頁(yè)內(nèi)容的不間斷采集。步驟3,所述每個(gè)采集組內(nèi)的若干爬蟲節(jié)點(diǎn)協(xié)作存儲(chǔ)該采集組所采集的網(wǎng)頁(yè)。其中,所述采集組包含兩個(gè)以上的采集節(jié)點(diǎn)。2、根據(jù)權(quán)利要求1所述的網(wǎng)頁(yè)爬蟲協(xié)作方法,其特征在于,所述每個(gè)采集組采用自動(dòng)生成或配置的方式得到對(duì)應(yīng)于該采集組的ID號(hào)。上述技術(shù)方案中,所述消息交換方法為各采集組形成一個(gè)路由網(wǎng)絡(luò),節(jié)點(diǎn)依據(jù)路由信息表將信令或消息發(fā)送到另一個(gè)采集組;其中,所述路由網(wǎng)絡(luò)中的路由協(xié)議可采用IP 網(wǎng)絡(luò)路由中的路由協(xié)議,或?qū)Φ染W(wǎng)絡(luò)中的各種DHT協(xié)議。所述消息交換方法為中心控制消息交換方法,該方法的發(fā)送消息的節(jié)點(diǎn)向其所在網(wǎng)絡(luò)的中心控制節(jié)點(diǎn)詢問目的采集組對(duì)應(yīng)的ID信息,在得到該信息后,以此信息為目的地發(fā)送消息。所述協(xié)作存儲(chǔ)為被采集的網(wǎng)頁(yè)在與該采集節(jié)點(diǎn)位于同一采集組內(nèi)的各爬蟲節(jié)點(diǎn)上分別保存被采集網(wǎng)頁(yè)的副本,所述各副本存儲(chǔ)節(jié)點(diǎn)能單獨(dú)針對(duì)所存儲(chǔ)的網(wǎng)頁(yè)驗(yàn)證是否最新,并執(zhí)行更新;或由所有副本存儲(chǔ)節(jié)點(diǎn)中的一個(gè)代表節(jié)點(diǎn)對(duì)網(wǎng)頁(yè)驗(yàn)證是否最新,并通知其他存儲(chǔ)該網(wǎng)頁(yè)的副本節(jié)點(diǎn)執(zhí)行更新或?qū)⒈徊杉木W(wǎng)頁(yè)直接發(fā)送到副本存放節(jié)點(diǎn)。所述步驟1進(jìn)一步包含如下步驟爬蟲節(jié)點(diǎn)上線后,向管理服務(wù)器注冊(cè),之后每隔一定時(shí)間,管理服務(wù)器輪詢各爬蟲節(jié)點(diǎn)設(shè)備,查詢其在線狀態(tài);管理服務(wù)器依據(jù)爬蟲節(jié)點(diǎn)的在線信息將所有爬蟲節(jié)點(diǎn)劃分成若干采集組;管理服務(wù)器將各采集組的信息反饋到爬蟲節(jié)點(diǎn),各爬蟲節(jié)點(diǎn)依據(jù)該信息自組成網(wǎng);其中,所述爬蟲節(jié)點(diǎn)的信息包含該節(jié)點(diǎn)所在網(wǎng)絡(luò)和/或在線歷史信息。與目前網(wǎng)頁(yè)采集的方法相比,本發(fā)明具有下列優(yōu)點(diǎn)(1)將中心化采集的帶寬負(fù)擔(dān)分?jǐn)偟礁鞑杉?jié)點(diǎn),使其可節(jié)省大量帶寬費(fèi)用;(2)將網(wǎng)頁(yè)的中心化存儲(chǔ)劃分為分布式存儲(chǔ),節(jié)省了中心節(jié)點(diǎn)的存儲(chǔ)費(fèi)用;(3)將利他和利已用戶相結(jié)合,使網(wǎng)頁(yè)采集系統(tǒng)具有可持續(xù)發(fā)展能力。本發(fā)明提出利用上述大量終端資源實(shí)現(xiàn)網(wǎng)頁(yè)采集的一種方法,解決采集設(shè)備中心化面臨的帶寬問題和網(wǎng)頁(yè)的海量存儲(chǔ)問題,同時(shí)將利他和利已用戶相結(jié)合,解決P2P 采集的時(shí)間可持續(xù)問題。
圖1是本發(fā)明的采集組內(nèi)節(jié)點(diǎn)間在線時(shí)段間的關(guān)系示意圖;圖2是本發(fā)明的采集組間通信的環(huán)狀路由示意圖;圖3是本發(fā)明的某個(gè)時(shí)段內(nèi)采集組內(nèi)節(jié)點(diǎn)維護(hù)網(wǎng)頁(yè)的冗余關(guān)系圖;圖4是本發(fā)明實(shí)施例提供的利用本發(fā)明網(wǎng)頁(yè)爬蟲協(xié)作方法進(jìn)行網(wǎng)頁(yè)采集的系統(tǒng)示意圖。
具體實(shí)施例方式下面結(jié)合附圖及具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步的描述。本發(fā)明提供的一種網(wǎng)頁(yè)爬蟲協(xié)作方法,所述的方法步驟如下首先,爬蟲節(jié)點(diǎn)依據(jù)在線時(shí)間段形成若干采集組,所有的采集組能實(shí)現(xiàn)一個(gè)周期的連續(xù)在線;然后,采集組間通過消息交換的方法采集網(wǎng)頁(yè);最后,所有的采集組協(xié)作存儲(chǔ)CN 102480524 A說明書3/4 頁(yè)被采集的網(wǎng)頁(yè)。所述的采集組采用散布于多個(gè)網(wǎng)絡(luò)的數(shù)個(gè)爬蟲節(jié)點(diǎn),依據(jù)在線時(shí)間特征,形成在一定時(shí)間周期上呈現(xiàn)在線時(shí)間互補(bǔ)并全覆蓋的節(jié)點(diǎn)集合。所述的消息交換的方法包含節(jié)點(diǎn)依據(jù)路由信息表將信令或消息發(fā)送到另一個(gè)采集組或中心控制消息交換的方式將消息從一個(gè)采集組傳到另一個(gè)采集組。所述的被采集網(wǎng)頁(yè)在一個(gè)采集組內(nèi)要存儲(chǔ)一個(gè)副本。為達(dá)到上述發(fā)明目的,本發(fā)明提供的網(wǎng)頁(yè)爬蟲協(xié)作方法包括網(wǎng)頁(yè)爬蟲節(jié)點(diǎn)形成采集組的方法、采集組間消息交換的方法和被采集網(wǎng)頁(yè)的存儲(chǔ)方法。其中,網(wǎng)頁(yè)爬蟲節(jié)點(diǎn)形成采集組的方法指散布于多個(gè)網(wǎng)絡(luò)的數(shù)個(gè)爬蟲節(jié)點(diǎn),依據(jù)在線時(shí)間特征,形成在一定周期(比如星期(week))上在線時(shí)間呈現(xiàn)互補(bǔ)、全覆蓋的節(jié)點(diǎn)集合。這樣的節(jié)點(diǎn)集合構(gòu)成一個(gè)采集組,并被分配一個(gè)采集組ID,該采集組ID可以是配置的, 也可以是自動(dòng)生成的。其中,采集組間消息交換的方法指一個(gè)采集組中的一個(gè)節(jié)點(diǎn)將信令或消息發(fā)送到另一個(gè)采集組的方法。采集組間交換消息的方法有兩種(1)各采集組形成一個(gè)路由網(wǎng)絡(luò), 其中路由網(wǎng)絡(luò)中的路由協(xié)議可采用IP網(wǎng)絡(luò)路由中的相關(guān)路由協(xié)議,如0SPF、RIP等,或?qū)Φ染W(wǎng)絡(luò)中的各種DHT協(xié)議,如CHORD、KAD、CAN等。節(jié)點(diǎn)依據(jù)路由信息表將信令或消息發(fā)送到另一個(gè)采集組,這有點(diǎn)類似定向組播的方法。(2)中心控制消息交換方法,指要發(fā)送消息的節(jié)點(diǎn)向中心控制節(jié)點(diǎn)詢問目的采集組ID對(duì)應(yīng)的信息(比如IP地址等),在得到該信息后, 以此信息為目的地發(fā)送消息。其中,被采集網(wǎng)頁(yè)的存儲(chǔ)方法指在一個(gè)采集組內(nèi)各采集點(diǎn)間的存儲(chǔ)方法。在形成采集組時(shí),針對(duì)任意一個(gè)時(shí)間段,都要有兩個(gè)或以上的節(jié)點(diǎn)保持存活狀態(tài),被采集的網(wǎng)頁(yè)在這些節(jié)點(diǎn)上都要保持一個(gè)副本,各節(jié)點(diǎn)可單獨(dú)針對(duì)所存儲(chǔ)的網(wǎng)頁(yè)驗(yàn)證是否最新,并執(zhí)行更新;或由一個(gè)代表節(jié)點(diǎn)對(duì)網(wǎng)頁(yè)驗(yàn)證是否最新,并通知其他存儲(chǔ)該網(wǎng)頁(yè)的節(jié)點(diǎn)執(zhí)行更新或?qū)⒕W(wǎng)頁(yè)直接發(fā)送到這些節(jié)點(diǎn)。實(shí)施例1參考圖4網(wǎng)頁(yè)爬蟲的協(xié)作采集系統(tǒng)簡(jiǎn)圖,本實(shí)施例提供的網(wǎng)頁(yè)爬蟲協(xié)作方法包括如下步驟1)計(jì)算設(shè)備上線后,向管理服務(wù)器注冊(cè);之后每隔一定時(shí)間(比如30秒),管理服務(wù)器輪詢各計(jì)算設(shè)備,查詢?cè)诰€狀態(tài);2)管理服務(wù)器依據(jù)計(jì)算設(shè)備的信息(如所在網(wǎng)絡(luò)、在線歷史)劃分成若干采集組 (比如,以周(7天)為周期,則采集組數(shù)=168/采集組在線時(shí)間長(zhǎng)度);3)管理服務(wù)器將各采集組的信息發(fā)送到計(jì)算設(shè)備,各計(jì)算設(shè)備依據(jù)該信息自組成網(wǎng);4)每個(gè)采集組負(fù)責(zé)一定范圍內(nèi)網(wǎng)頁(yè)的采集(比如依據(jù)域名.com、.edu等),并在網(wǎng)頁(yè)分析過程中將不由本采集組負(fù)責(zé)采集的網(wǎng)頁(yè)標(biāo)識(shí)發(fā)送到對(duì)應(yīng)采集組,這里利用的是采集組間消息交換的方法;另外,若要覆蓋全時(shí)段范圍的采集,則需要每個(gè)采集組負(fù)責(zé)采集所有網(wǎng)頁(yè);5)網(wǎng)頁(yè)被采集后,在本采集組內(nèi)同時(shí)至少有兩個(gè)存活節(jié)點(diǎn),這些節(jié)點(diǎn)都要存儲(chǔ)被采集的網(wǎng)頁(yè);各節(jié)點(diǎn)可單獨(dú)針對(duì)所存儲(chǔ)的網(wǎng)頁(yè)驗(yàn)證是否最新,并執(zhí)行更新;或由一個(gè)代表節(jié)點(diǎn)對(duì)網(wǎng)頁(yè)驗(yàn)證是否最新,并通知其他存儲(chǔ)該網(wǎng)頁(yè)的節(jié)點(diǎn)執(zhí)行更新或?qū)⒕W(wǎng)頁(yè)直接發(fā)送到這些節(jié)點(diǎn)。如上步驟1-2是網(wǎng)頁(yè)爬蟲節(jié)點(diǎn)形成采集組的方法,步驟3-4是采集組間消息交換的方法,步驟5是被采集網(wǎng)頁(yè)的存儲(chǔ)方法。下面結(jié)合圖4,說明網(wǎng)頁(yè)爬蟲協(xié)作方法。如圖4所示,本發(fā)明提供一個(gè)網(wǎng)頁(yè)爬蟲協(xié)作采集系統(tǒng)簡(jiǎn)圖在這里我們僅示意給出兩個(gè)網(wǎng)絡(luò)——網(wǎng)絡(luò)1和網(wǎng)絡(luò)2,每個(gè)網(wǎng)絡(luò)有4種不同計(jì)算設(shè)備,同時(shí)系統(tǒng)中還有一臺(tái)管理服務(wù)器。假定網(wǎng)絡(luò)1和網(wǎng)絡(luò)2中的計(jì)算設(shè)備上線后,各計(jì)算設(shè)備向管理服務(wù)器注冊(cè),之后管理服務(wù)器輪詢?cè)O(shè)備狀態(tài);據(jù)此統(tǒng)計(jì)得出如圖1所示的設(shè)備在線規(guī)律,該圖中所示的采集組 1的2臺(tái)示意的計(jì)算節(jié)點(diǎn)在預(yù)設(shè)的7天周期的時(shí)間段上從tl到t2的子時(shí)間段均在線,其中的采集組1的在線時(shí)間段取2臺(tái)計(jì)算節(jié)點(diǎn)在線時(shí)間段的交集;并將各設(shè)備分成兩個(gè)采集組——采集組1和采集組2,這兩個(gè)采集組可以實(shí)現(xiàn)一個(gè)周期(7天)的連續(xù)在線。假設(shè)采集組1負(fù)責(zé)采集網(wǎng)站1,并在所采集到的網(wǎng)頁(yè)分析時(shí),發(fā)現(xiàn)網(wǎng)站2,且網(wǎng)站2不是本采集組的采集任務(wù),則其中一個(gè)計(jì)算設(shè)備將采集網(wǎng)站2的任務(wù)依據(jù)采集組間消息交換的方法(見圖 2)發(fā)送到采集組2。在采集網(wǎng)頁(yè)i后,采集組1中的計(jì)算節(jié)點(diǎn)1將網(wǎng)頁(yè)i發(fā)往該組內(nèi)的計(jì)算節(jié)點(diǎn)2(它們是計(jì)算節(jié)點(diǎn)1的備份節(jié)點(diǎn)),由計(jì)算節(jié)點(diǎn)2存儲(chǔ)網(wǎng)頁(yè)i,這樣達(dá)到冗余存儲(chǔ)的目的,見圖3。 在這里,網(wǎng)頁(yè)i的更新可由計(jì)算節(jié)點(diǎn)1負(fù)責(zé),并將更新通知計(jì)算節(jié)點(diǎn)2。需要說明的是,以上介紹的本發(fā)明的實(shí)施方案而并非限制。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,任何對(duì)本發(fā)明技術(shù)方案的修改或者等同替代都不脫離本發(fā)明技術(shù)方案的精神和范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍內(nèi)。
權(quán)利要求
1.一種網(wǎng)頁(yè)爬蟲協(xié)作方法,該方法用于多種網(wǎng)絡(luò)環(huán)境下存在大量網(wǎng)頁(yè)爬蟲情況下的協(xié)作方法,所述的方法步驟如下步驟1,將一設(shè)定周期中某段時(shí)間同時(shí)在線的爬蟲節(jié)點(diǎn)劃分為一采集組,且各爬蟲節(jié)點(diǎn)被劃分的所有采集組的在線時(shí)間段相連接能實(shí)現(xiàn)一個(gè)周期的連續(xù)在線;步驟2,以所述采集組為單位進(jìn)行網(wǎng)頁(yè)采集,且各采集組間還通過消息交換的方法協(xié)作實(shí)現(xiàn)設(shè)定周期內(nèi)對(duì)網(wǎng)頁(yè)內(nèi)容的不間斷采集;步驟3,所述每個(gè)采集組內(nèi)的若干爬蟲節(jié)點(diǎn)協(xié)作存儲(chǔ)該采集組所采集的網(wǎng)頁(yè);其中,所述采集組包含兩個(gè)以上的采集節(jié)點(diǎn)。
2.根據(jù)權(quán)利要求1所述的網(wǎng)頁(yè)爬蟲協(xié)作方法,其特征在于,所述每個(gè)采集組采用自動(dòng)生成或配置的方式得到對(duì)應(yīng)于該采集組的ID號(hào)。
3.根據(jù)權(quán)利要求1所述的網(wǎng)頁(yè)爬蟲協(xié)作方法,其特征在于,所述消息交換方法為各采集組形成一個(gè)路由網(wǎng)絡(luò),節(jié)點(diǎn)依據(jù)路由信息表將信令或消息發(fā)送到另一個(gè)采集組;其中,所述路由網(wǎng)絡(luò)中的路由協(xié)議可采用IP網(wǎng)絡(luò)路由中的路由協(xié)議,或?qū)Φ染W(wǎng)絡(luò)中的各種DHT協(xié)議。
4.根據(jù)權(quán)利要求1所述的網(wǎng)頁(yè)爬蟲協(xié)作方法,其特征在于,所述消息交換方法為中心控制消息交換方法,該方法的發(fā)送消息的節(jié)點(diǎn)向其所在網(wǎng)絡(luò)的中心控制節(jié)點(diǎn)詢問目的采集組對(duì)應(yīng)的ID信息,在得到該信息后,以此信息為目的地發(fā)送消息。
5.根據(jù)權(quán)利要求1所述的網(wǎng)頁(yè)爬蟲協(xié)作方法,其特征在于,所述協(xié)作存儲(chǔ)為被采集的網(wǎng)頁(yè)在與該采集節(jié)點(diǎn)位于同一采集組內(nèi)的各爬蟲節(jié)點(diǎn)上分別保存被采集網(wǎng)頁(yè)的副本,所述各副本存儲(chǔ)節(jié)點(diǎn)能單獨(dú)針對(duì)所存儲(chǔ)的網(wǎng)頁(yè)驗(yàn)證是否最新,并執(zhí)行更新;或由所有副本存儲(chǔ)節(jié)點(diǎn)中的一個(gè)代表節(jié)點(diǎn)對(duì)網(wǎng)頁(yè)驗(yàn)證是否最新,并通知其他存儲(chǔ)該網(wǎng)頁(yè)的副本節(jié)點(diǎn)執(zhí)行更新或?qū)⒈徊杉木W(wǎng)頁(yè)直接發(fā)送到副本存放節(jié)點(diǎn)。
6.根據(jù)權(quán)利要求1所述的網(wǎng)頁(yè)爬蟲協(xié)作方法,其特征在于,所述步驟1進(jìn)一步包含如下步驟爬蟲節(jié)點(diǎn)上線后,向管理服務(wù)器注冊(cè),之后每隔一定時(shí)間,管理服務(wù)器輪詢各爬蟲節(jié)點(diǎn)設(shè)備,查詢其在線狀態(tài);管理服務(wù)器依據(jù)爬蟲節(jié)點(diǎn)的在線信息將所有爬蟲節(jié)點(diǎn)劃分成若干采集組;管理服務(wù)器將各采集組的信息反饋到爬蟲節(jié)點(diǎn),各爬蟲節(jié)點(diǎn)依據(jù)該信息自組成網(wǎng);其中,所述爬蟲節(jié)點(diǎn)的信息包含該節(jié)點(diǎn)所在網(wǎng)絡(luò)和/或在線歷史信息。
全文摘要
本發(fā)明公開了一種網(wǎng)頁(yè)爬蟲協(xié)作方法,所述的方法步驟如下首先,爬蟲節(jié)點(diǎn)依據(jù)在線時(shí)間段形成若干采集組,所有的各采集組能實(shí)現(xiàn)一個(gè)周期的連續(xù)在線;然后,采集組間通過消息交換的方法采集網(wǎng)頁(yè);最后,所有的采集組協(xié)作存儲(chǔ)被采集的網(wǎng)頁(yè)。所述每個(gè)采集組采用自動(dòng)生成或配置的方式得到對(duì)應(yīng)于該采集組的ID號(hào)。消息交換的方法可采用各采集組形成一個(gè)路由網(wǎng)絡(luò),節(jié)點(diǎn)依據(jù)路由信息表將信令或消息發(fā)送到另一個(gè)采集組;其中,所述路由網(wǎng)絡(luò)中的路由協(xié)議可采用IP網(wǎng)絡(luò)路由中的路由協(xié)議,或?qū)Φ染W(wǎng)絡(luò)中的各種DHT協(xié)議;或采用中心控制消息交換方法。本發(fā)明可解決采集設(shè)備中心化面臨的帶寬問題和網(wǎng)頁(yè)的海量存儲(chǔ)問題,解決P2P采集的時(shí)間可持續(xù)問題。
文檔編號(hào)G06F17/30GK102480524SQ20111037526
公開日2012年5月30日 申請(qǐng)日期2011年11月23日 優(yōu)先權(quán)日2010年11月26日
發(fā)明者王勁林, 王玲芳, 鄧峰, 齊向東 申請(qǐng)人:中國(guó)科學(xué)院聲學(xué)研究所