亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

跨境數(shù)據(jù)同步的方法、系統(tǒng),以及境內(nèi)和境外數(shù)據(jù)中心與流程

文檔序號(hào):12809728閱讀:3970來源:國(guó)知局
跨境數(shù)據(jù)同步的方法、系統(tǒng),以及境內(nèi)和境外數(shù)據(jù)中心與流程

本申請(qǐng)涉及跨境數(shù)據(jù)同步技術(shù)領(lǐng)域,尤其涉及一種跨境數(shù)據(jù)同步的方法、系統(tǒng),以及境內(nèi)和境外數(shù)據(jù)中心。



背景技術(shù):

目前在海外市場(chǎng),seo(搜索引擎優(yōu)化)仍是拓展流量的重要渠道,也是國(guó)內(nèi)網(wǎng)站邁向國(guó)際,向海外拓展流量的重要途徑。

但是跨境seo存在一個(gè)很嚴(yán)峻的問題:網(wǎng)絡(luò)不穩(wěn)定,且性能差(網(wǎng)絡(luò)延遲大),網(wǎng)絡(luò)訪問超時(shí)現(xiàn)象比較嚴(yán)重。從后臺(tái)統(tǒng)計(jì)的數(shù)據(jù)來看,海外訪問國(guó)內(nèi)網(wǎng)站基本在1.5s以上,而且在面臨國(guó)際熱點(diǎn)事件時(shí),容易出現(xiàn)網(wǎng)絡(luò)擁塞,加劇網(wǎng)絡(luò)超時(shí)現(xiàn)象。網(wǎng)絡(luò)性能是影響用戶體驗(yàn)的重要原因,同時(shí)也是影響seo的關(guān)鍵因素之一,尤其是搜索引擎的爬蟲資源有限,性能問題嚴(yán)重影響爬蟲的爬取、收錄以及最后的排名。

針對(duì)以上跨境網(wǎng)絡(luò)性能和穩(wěn)定性差的問題,目前存在兩種方案:

第一種,在全球各地實(shí)現(xiàn)本地單元化部署,這種方案能夠徹底解決網(wǎng)絡(luò)性能問題。但對(duì)于很多大型網(wǎng)站,其核心系統(tǒng),包括數(shù)據(jù)中心等均部署在中心機(jī)房,要實(shí)現(xiàn)在異地尤其是跨境單元化部署,相當(dāng)于在異地復(fù)制一套數(shù)據(jù)中心,且要實(shí)現(xiàn)異地雙活同步方案,部署時(shí)間長(zhǎng),部署成本非常之高。在海外拓展業(yè)務(wù)代價(jià)太大,尤其在海外業(yè)務(wù)初始拓展階段,難以接受如此高的成本。

第二種,緩存方案,目前cdn(contentdeliverynetwork,內(nèi)容分發(fā)網(wǎng)絡(luò))緩存方案已經(jīng)非常成熟,只要在全球各地部署上cdn節(jié)點(diǎn),推送數(shù)據(jù)到各地的cdn節(jié)點(diǎn),可以實(shí)現(xiàn)用戶訪問就近c(diǎn)dn緩存,從而避免訪問跨國(guó)網(wǎng)絡(luò)的問題。但這種方案需要消耗大量cdn緩存,而且cdn緩存方案是針對(duì)重要業(yè)務(wù)的熱點(diǎn)訪問內(nèi)容才具有較好的緩存效果,對(duì)于seo這種大量長(zhǎng)尾的網(wǎng)頁內(nèi)容,基本沒有熱點(diǎn),且初始業(yè)務(wù)量極低,采用cdn緩存方案的效果差且成本非常高。



技術(shù)實(shí)現(xiàn)要素:

本申請(qǐng)旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。

為此,本申請(qǐng)的一個(gè)目的在于提出一種跨境數(shù)據(jù)同步的方法,該方法能夠在實(shí)現(xiàn)跨境 數(shù)據(jù)同步的前提下,避免實(shí)時(shí)跨境網(wǎng)絡(luò)訪問導(dǎo)致嚴(yán)重超時(shí)的問題,從而減少了海外訪問的響應(yīng)時(shí)間,在提升了網(wǎng)絡(luò)爬蟲的效率的同時(shí)還增加了網(wǎng)絡(luò)穩(wěn)定性。

本申請(qǐng)的第二個(gè)目的在于提出一種跨境數(shù)據(jù)同步的系統(tǒng)。

本申請(qǐng)的第三個(gè)目的在于提出一種跨境數(shù)據(jù)同步的方法。

本申請(qǐng)的第四個(gè)目的在于提出一種境內(nèi)數(shù)據(jù)中心。

本申請(qǐng)的第五個(gè)目的在于提出一種境外數(shù)據(jù)中心。

為了實(shí)現(xiàn)上述目的,本申請(qǐng)第一方面實(shí)施例的跨境數(shù)據(jù)同步的方法,包括以下步驟:境內(nèi)數(shù)據(jù)中心檢測(cè)第一待同步數(shù)據(jù)的數(shù)據(jù)類型;如果所述數(shù)據(jù)類型為網(wǎng)頁數(shù)據(jù),則所述境內(nèi)數(shù)據(jù)中心獲取所述第一待同步數(shù)據(jù)的同步規(guī)則;以及所述境內(nèi)數(shù)據(jù)中心將所述同步規(guī)則發(fā)送至境外數(shù)據(jù)中心,其中,所述境外數(shù)據(jù)中心根據(jù)所述同步規(guī)則從所述境內(nèi)數(shù)據(jù)中心抓取所述第一待同步數(shù)據(jù)。

根據(jù)本申請(qǐng)實(shí)施例的跨境數(shù)據(jù)同步的方法,首先境內(nèi)數(shù)據(jù)中心檢測(cè)第一待同步數(shù)據(jù)的數(shù)據(jù)類型,如果數(shù)據(jù)類型為網(wǎng)頁數(shù)據(jù),則境內(nèi)數(shù)據(jù)中心獲取第一待同步數(shù)據(jù)的同步規(guī)則,而后境內(nèi)數(shù)據(jù)中心將同步規(guī)則發(fā)送至境外數(shù)據(jù)中心,其中,境外數(shù)據(jù)中心根據(jù)同步規(guī)則從境內(nèi)數(shù)據(jù)中心抓取第一待同步數(shù)據(jù)。因此,該方法能夠在實(shí)現(xiàn)跨境數(shù)據(jù)同步的前提下,避免實(shí)時(shí)跨境網(wǎng)絡(luò)訪問導(dǎo)致嚴(yán)重超時(shí)的問題,從而減少了海外訪問的響應(yīng)時(shí)間,在提升了網(wǎng)絡(luò)爬蟲的效率的同時(shí)還增加了網(wǎng)絡(luò)穩(wěn)定性。

為了實(shí)現(xiàn)上述目的,本申請(qǐng)第二方面實(shí)施例的跨境數(shù)據(jù)同步的系統(tǒng),包括境內(nèi)數(shù)據(jù)中心和境外數(shù)據(jù)中心,其中,所述境內(nèi)數(shù)據(jù)中心,用于檢測(cè)第一待同步數(shù)據(jù)的數(shù)據(jù)類型,并在所述數(shù)據(jù)類型為網(wǎng)頁數(shù)據(jù)時(shí),獲取所述第一待同步數(shù)據(jù)的同步規(guī)則,并將所述同步規(guī)則發(fā)送至境外數(shù)據(jù)中心;所述境外數(shù)據(jù)中心,用于根據(jù)所述同步規(guī)則從所述境內(nèi)數(shù)據(jù)中心抓取所述第一待同步數(shù)據(jù)。

根據(jù)本申請(qǐng)實(shí)施例的跨境數(shù)據(jù)同步的系統(tǒng),首先通過境內(nèi)數(shù)據(jù)中心檢測(cè)第一待同步數(shù)據(jù)的數(shù)據(jù)類型,并在數(shù)據(jù)類型為網(wǎng)頁數(shù)據(jù)時(shí),獲取第一待同步數(shù)據(jù)的同步規(guī)則,并將同步規(guī)則發(fā)送至境外數(shù)據(jù)中心,而后境外數(shù)據(jù)中心根據(jù)同步規(guī)則從境內(nèi)數(shù)據(jù)中心抓取第一待同步數(shù)據(jù)。因此,該系統(tǒng)能夠在實(shí)現(xiàn)跨境數(shù)據(jù)同步的前提下,避免實(shí)時(shí)跨境網(wǎng)絡(luò)訪問導(dǎo)致嚴(yán)重超時(shí)的問題,從而減少了海外訪問的響應(yīng)時(shí)間,在提升了網(wǎng)絡(luò)爬蟲的效率的同時(shí)還增加了網(wǎng)絡(luò)穩(wěn)定性。

為了實(shí)現(xiàn)上述目的,本申請(qǐng)第三方面實(shí)施例的跨境數(shù)據(jù)同步的方法,包括以下步驟:境外數(shù)據(jù)中心接收境內(nèi)數(shù)據(jù)中心發(fā)送的同步規(guī)則;所述境外數(shù)據(jù)中心根據(jù)所述同步規(guī)則從境內(nèi)數(shù)據(jù)中心抓取第一待同步數(shù)據(jù),其中,所述第一待同步數(shù)據(jù)的數(shù)據(jù)類型為網(wǎng)頁數(shù)據(jù)。

根據(jù)本申請(qǐng)實(shí)施例的跨境數(shù)據(jù)同步的方法,首先境外數(shù)據(jù)中心接收境內(nèi)數(shù)據(jù)中心發(fā)送 的同步規(guī)則,并根據(jù)同步規(guī)則從境內(nèi)數(shù)據(jù)中心抓取第一待同步數(shù)據(jù),其中,第一待同步數(shù)據(jù)的數(shù)據(jù)類型為網(wǎng)頁數(shù)據(jù)。因此,該方法能夠在實(shí)現(xiàn)跨境數(shù)據(jù)同步的前提下,避免實(shí)時(shí)跨境網(wǎng)絡(luò)訪問導(dǎo)致嚴(yán)重超時(shí)的問題,從而減少了海外訪問的響應(yīng)時(shí)間,在提升了網(wǎng)絡(luò)爬蟲的效率的同時(shí)還增加了網(wǎng)絡(luò)穩(wěn)定性。

為了實(shí)現(xiàn)上述目的,本申請(qǐng)第四方面實(shí)施例的境內(nèi)數(shù)據(jù)中心,包括:檢測(cè)模塊,用于檢測(cè)第一待同步數(shù)據(jù)的數(shù)據(jù)類型;同步規(guī)則獲取模塊,用于在所述數(shù)據(jù)類型為網(wǎng)頁數(shù)據(jù)時(shí),獲取所述第一待同步數(shù)據(jù)的同步規(guī)則;以及第一發(fā)送模塊,用于將所述同步規(guī)則發(fā)送至境外數(shù)據(jù)中心,其中,所述境外數(shù)據(jù)中心根據(jù)所述同步規(guī)則從所述境內(nèi)數(shù)據(jù)中心抓取所述第一待同步數(shù)據(jù)。

根據(jù)本申請(qǐng)實(shí)施例的境內(nèi)數(shù)據(jù)中心,首先通過檢測(cè)模塊檢測(cè)第一待同步數(shù)據(jù)的數(shù)據(jù)類型,而后通過同步規(guī)則獲取模塊在數(shù)據(jù)類型為網(wǎng)頁數(shù)據(jù)時(shí),獲取第一待同步數(shù)據(jù)的同步規(guī)則,最后通過第一發(fā)送模塊將同步規(guī)則發(fā)送至境外數(shù)據(jù)中心,其中,境外數(shù)據(jù)中心根據(jù)同步規(guī)則從境內(nèi)數(shù)據(jù)中心抓取第一待同步數(shù)據(jù)。因此,該境內(nèi)數(shù)據(jù)中心能夠在實(shí)現(xiàn)跨境數(shù)據(jù)同步的前提下,避免實(shí)時(shí)跨境網(wǎng)絡(luò)訪問導(dǎo)致嚴(yán)重超時(shí)的問題,從而減少了海外訪問的響應(yīng)時(shí)間,在提升了網(wǎng)絡(luò)爬蟲的效率的同時(shí)還增加了網(wǎng)絡(luò)穩(wěn)定性。

為了實(shí)現(xiàn)上述目的,本申請(qǐng)第五方面實(shí)施例的境外數(shù)據(jù)中心,包括:第一接收模塊,用于接收境內(nèi)數(shù)據(jù)中心發(fā)送的同步規(guī)則;抓取模塊,用于根據(jù)所述同步規(guī)則從境內(nèi)數(shù)據(jù)中心抓取第一待同步數(shù)據(jù),其中,所述第一待同步數(shù)據(jù)的數(shù)據(jù)類型為網(wǎng)頁數(shù)據(jù)。

根據(jù)本申請(qǐng)實(shí)施例的境外數(shù)據(jù)中心,首先通過第一接收模塊接收境內(nèi)數(shù)據(jù)中心發(fā)送的同步規(guī)則,而后抓取模塊根據(jù)同步規(guī)則從境內(nèi)數(shù)據(jù)中心抓取第一待同步數(shù)據(jù),其中,第一待同步數(shù)據(jù)的數(shù)據(jù)類型為網(wǎng)頁數(shù)據(jù)。因此,該境外數(shù)據(jù)中心能夠在實(shí)現(xiàn)跨境數(shù)據(jù)同步的前提下,避免實(shí)時(shí)跨境網(wǎng)絡(luò)訪問導(dǎo)致嚴(yán)重超時(shí)的問題,從而減少了海外訪問的響應(yīng)時(shí)間,在提升了網(wǎng)絡(luò)爬蟲的效率的同時(shí)還增加了網(wǎng)絡(luò)穩(wěn)定性。

本申請(qǐng)附加的方面的優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本申請(qǐng)的實(shí)踐了解到。

附圖說明

圖1是根據(jù)本申請(qǐng)一個(gè)實(shí)施例的跨境數(shù)據(jù)同步的方法的流程圖。

圖2是根據(jù)本申請(qǐng)一個(gè)實(shí)施例的跨境數(shù)據(jù)同步系統(tǒng)示意圖。

圖3是根據(jù)本申請(qǐng)第二個(gè)實(shí)施例的跨境數(shù)據(jù)同步的方法的流程圖。

圖4是根據(jù)本申請(qǐng)一個(gè)實(shí)施例的seo詞庫(kù)數(shù)據(jù)同步示意圖。

圖5是根據(jù)本申請(qǐng)第三個(gè)實(shí)施例的跨境數(shù)據(jù)同步的方法的流程圖。

圖6是根據(jù)本申請(qǐng)第四個(gè)實(shí)施例的跨境數(shù)據(jù)同步的方法的流程圖。

圖7是根據(jù)本申請(qǐng)一個(gè)實(shí)施例的跨境數(shù)據(jù)同步的系統(tǒng)的方框示意圖。

圖8是根據(jù)本申請(qǐng)另一個(gè)實(shí)施例的跨境數(shù)據(jù)同步的系統(tǒng)的方框示意圖

圖9是根據(jù)本申請(qǐng)又一個(gè)實(shí)施例的跨境數(shù)據(jù)同步的系統(tǒng)的方框示意圖

圖10是根據(jù)本申請(qǐng)第五個(gè)實(shí)施例的跨境數(shù)據(jù)同步的方法的流程圖。

圖11是根據(jù)本申請(qǐng)第六個(gè)實(shí)施例的跨境數(shù)據(jù)同步的方法的流程圖。

圖12是根據(jù)本申請(qǐng)第七個(gè)實(shí)施例的跨境數(shù)據(jù)同步的方法的流程圖。

圖13是根據(jù)本申請(qǐng)一個(gè)實(shí)施例的境內(nèi)數(shù)據(jù)中心的方框示意圖。

圖14是根據(jù)本申請(qǐng)另一個(gè)實(shí)施例的境內(nèi)數(shù)據(jù)中心的方框示意圖。

圖15是根據(jù)本申請(qǐng)一個(gè)實(shí)施例的境外數(shù)據(jù)中心的方框示意圖。

圖16是根據(jù)本申請(qǐng)另一個(gè)實(shí)施例的境外數(shù)據(jù)中心的方框示意圖。

圖17是根據(jù)本申請(qǐng)又一個(gè)實(shí)施例的境外數(shù)據(jù)中心的方框示意圖。

具體實(shí)施方式

下面詳細(xì)描述本申請(qǐng)的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的,旨在用于解釋本申請(qǐng),而不能理解為對(duì)本申請(qǐng)的限制。

下面參照附圖來描述根據(jù)本申請(qǐng)實(shí)施例提出的跨境數(shù)據(jù)同步的方法、系統(tǒng),以及境內(nèi)和境外數(shù)據(jù)中心。

圖1是根據(jù)本申請(qǐng)一個(gè)實(shí)施例的跨境數(shù)據(jù)同步的方法的流程圖。

如圖1所示,該跨境數(shù)據(jù)同步的方法包括以下步驟:

s1,境內(nèi)數(shù)據(jù)中心檢測(cè)第一待同步數(shù)據(jù)的數(shù)據(jù)類型。

其中,上述數(shù)據(jù)類型可包括網(wǎng)頁數(shù)據(jù)、文件數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)等。

其中,需要理解的是,該實(shí)施例中所說的網(wǎng)頁數(shù)據(jù)可包括html(超級(jí)文本標(biāo)記語言)內(nèi)容,其中,html內(nèi)容可包括html(超級(jí)文本標(biāo)記語言)頁面中的文本語言、超鏈接文字和超鏈接圖片等。

其中,需要理解的是,該實(shí)施例中所說的文件數(shù)據(jù)可包括word文檔、pdf文檔、excel文檔和ppt文檔等,其中上述文檔還可被稱作為非結(jié)構(gòu)數(shù)據(jù)。

其中,需要理解的是,該實(shí)施例中所說的結(jié)構(gòu)化數(shù)據(jù)可包括數(shù)據(jù)庫(kù)數(shù)據(jù)。

s2,如果數(shù)據(jù)類型為網(wǎng)頁數(shù)據(jù),則境內(nèi)數(shù)據(jù)中心獲取第一待同步數(shù)據(jù)的同步規(guī)則。

具體地,當(dāng)境內(nèi)數(shù)據(jù)中心檢測(cè)出第一待同步數(shù)據(jù)的數(shù)據(jù)類型為網(wǎng)頁數(shù)據(jù)類型時(shí),境內(nèi)數(shù)據(jù)中心將獲取第一待同步數(shù)據(jù)的同步規(guī)則并選擇合適的傳送通道。

其中,需要理解的是,該實(shí)施例中所述的傳輸通道可包括oss(openstorageservice,阿里云開放存儲(chǔ)服務(wù))、filesync(文件同步工具)和drc(datasourcecontrol,數(shù)據(jù)源控制信道)等,其中,oss主要用于傳送非實(shí)時(shí)數(shù)據(jù),filesync主要用于同步實(shí)時(shí)數(shù)據(jù)和關(guān)鍵數(shù)據(jù),drc主要用于結(jié)構(gòu)化數(shù)據(jù)的同步。

s3,境內(nèi)數(shù)據(jù)中心將同步規(guī)則發(fā)送至境外數(shù)據(jù)中心,其中,境外數(shù)據(jù)中心根據(jù)同步規(guī)則從境內(nèi)數(shù)據(jù)中心抓取第一待同步數(shù)據(jù)。

在本申請(qǐng)的一個(gè)實(shí)施例中,境內(nèi)數(shù)據(jù)中心通過境內(nèi)數(shù)據(jù)中心和境外數(shù)據(jù)中心之間的專線將同步規(guī)則發(fā)送至境外數(shù)據(jù)中心。

具體地,境內(nèi)數(shù)據(jù)中心通過專線將同步規(guī)則發(fā)送至境外數(shù)據(jù)中心,而后,境外數(shù)據(jù)中心根據(jù)同步規(guī)則從境內(nèi)數(shù)據(jù)中心抓取第一待同步數(shù)據(jù)。

例如,第一待同步數(shù)據(jù)為在線html內(nèi)容(網(wǎng)頁數(shù)據(jù))時(shí),如圖2所示,可通過定時(shí)系統(tǒng)設(shè)置定時(shí)任務(wù),美國(guó)機(jī)房(境外數(shù)據(jù)中心)根據(jù)境內(nèi)數(shù)據(jù)中心發(fā)送的同步規(guī)則主動(dòng)向杭州/上海機(jī)房(境內(nèi)數(shù)據(jù)中心)拉取在線html內(nèi)容數(shù)據(jù),境外數(shù)據(jù)中心通過爬蟲系統(tǒng)從國(guó)內(nèi)爬取核心的seo(搜索引擎優(yōu)化)的html內(nèi)容。

在本申請(qǐng)的一個(gè)實(shí)施例中,如圖3所示,上述跨境數(shù)據(jù)同步的方法還可包括:

s4,如果數(shù)據(jù)類型為文件數(shù)據(jù),則境內(nèi)數(shù)據(jù)中心通過云存儲(chǔ)服務(wù)器將第一待同步數(shù)據(jù)發(fā)送至境外數(shù)據(jù)中心。

其中,需要理解的是,上述云存儲(chǔ)服務(wù)器可以是oss(openstorageservice,阿里云開放存儲(chǔ)服務(wù)),即傳輸通道。

具體地,當(dāng)境內(nèi)數(shù)據(jù)中心檢測(cè)出第一待同步數(shù)據(jù)的數(shù)據(jù)類型為文件數(shù)據(jù)類型時(shí),境內(nèi)數(shù)據(jù)中心將可以對(duì)該數(shù)據(jù)類型進(jìn)行預(yù)處理,并通過云存儲(chǔ)服務(wù)器將第一待同步數(shù)據(jù)發(fā)送至境外數(shù)據(jù)中心,以便實(shí)現(xiàn)第一待同步數(shù)據(jù)的同步。

例如,如圖4所示,首先杭州數(shù)據(jù)中心(境內(nèi)數(shù)據(jù)中心)檢測(cè)seo詞庫(kù)(第一待同步數(shù)據(jù))的類型,確定seo詞庫(kù)是個(gè)約2gb的文件,然后對(duì)seo詞庫(kù)進(jìn)行分割(按字母進(jìn)行分區(qū))壓縮,而后上傳到美國(guó)數(shù)據(jù)中心(境外數(shù)據(jù)中心)的oss節(jié)點(diǎn)(第二云存儲(chǔ)服務(wù)器),以便實(shí)現(xiàn)第一待同步數(shù)據(jù)的同步。

進(jìn)一步而言,在本申請(qǐng)的另一個(gè)實(shí)施例中,如圖5所示,境內(nèi)數(shù)據(jù)中心通過云存儲(chǔ)服務(wù)器將第一待同步數(shù)據(jù)發(fā)送至境外數(shù)據(jù)中心的具體過程可包括:

s41,境內(nèi)數(shù)據(jù)中心將第一待同步數(shù)據(jù)發(fā)送至與境外數(shù)據(jù)中心處于同一境內(nèi)的第二云存儲(chǔ)服務(wù)器。

其中,需要理解的是,上述第二云存儲(chǔ)服務(wù)器可以是oss(openstorageservice,阿里云開放存儲(chǔ)服務(wù))的一個(gè)節(jié)點(diǎn)。

s42,境內(nèi)數(shù)據(jù)中心通知境外數(shù)據(jù)中心從第二云存儲(chǔ)服務(wù)器中抓取第一待同步數(shù)據(jù)。

例如,如圖4所示,當(dāng)分割壓縮后的seo詞庫(kù)上傳到美國(guó)數(shù)據(jù)中心(境外數(shù)據(jù)中心)的oss節(jié)點(diǎn)(第二云存儲(chǔ)服務(wù)器)時(shí),杭州數(shù)據(jù)中心(境內(nèi)數(shù)據(jù)中心)通知國(guó)際系統(tǒng)(境外數(shù)據(jù)中心),國(guó)際系統(tǒng)收到通知后去拉取數(shù)據(jù)并存入國(guó)際本地存儲(chǔ)。

其中,需要理解的是,本實(shí)施例中所說的國(guó)際(境外)本地存儲(chǔ)可以是分別由4臺(tái)機(jī)器組成的數(shù)據(jù)同步集群和4臺(tái)機(jī)器組成的本地化服務(wù)集群。在國(guó)內(nèi)(境內(nèi)),同樣也可有一個(gè)數(shù)據(jù)同步小集群,以實(shí)現(xiàn)與國(guó)際數(shù)據(jù)同步集群的數(shù)據(jù)同步。并依托于國(guó)內(nèi)外的兩個(gè)數(shù)據(jù)同步集群,實(shí)現(xiàn)從國(guó)內(nèi)數(shù)據(jù)中心推送實(shí)時(shí)數(shù)據(jù)到海外集群,而海外集群則通過拉取方式獲取非實(shí)時(shí)數(shù)據(jù),并且推送實(shí)時(shí)數(shù)據(jù)回國(guó)內(nèi)(例如,日志回流監(jiān)控等)。以此實(shí)現(xiàn)跨境數(shù)據(jù)同步。

在本申請(qǐng)的一個(gè)實(shí)施例中,如圖6所示,上述跨境數(shù)據(jù)同步的方法還可包括:

s43,境外數(shù)據(jù)中心將第二待同步數(shù)據(jù)發(fā)送至與境內(nèi)數(shù)據(jù)中心處于同一境內(nèi)的第一云存儲(chǔ)服務(wù)器。

其中,需要理解的是,上述第一云存儲(chǔ)服務(wù)器可以是oss(openstorageservice,阿里云開放存儲(chǔ)服務(wù))的一個(gè)節(jié)點(diǎn)。

s44,境外數(shù)據(jù)中心通知境內(nèi)數(shù)據(jù)中心從第一云存儲(chǔ)服務(wù)器中抓取第二待同步數(shù)據(jù)。

例如,如圖4所示,在國(guó)際系統(tǒng)(境外數(shù)據(jù)中心)將分割壓縮后的seo詞庫(kù)拉取并存入國(guó)際本地存儲(chǔ)的同時(shí),國(guó)際系統(tǒng)再收集到增量詞庫(kù)(即第二待同步數(shù)據(jù)),而后將增量詞庫(kù)反向推送到國(guó)內(nèi)數(shù)據(jù)中心(境內(nèi)數(shù)據(jù)中心),以此實(shí)現(xiàn)跨境數(shù)據(jù)同步。

根據(jù)本申請(qǐng)實(shí)施例的跨境數(shù)據(jù)同步的方法,首先境內(nèi)數(shù)據(jù)中心檢測(cè)第一待同步數(shù)據(jù)的數(shù)據(jù)類型,如果數(shù)據(jù)類型為網(wǎng)頁數(shù)據(jù),則境內(nèi)數(shù)據(jù)中心獲取第一待同步數(shù)據(jù)的同步規(guī)則,而后境內(nèi)數(shù)據(jù)中心將同步規(guī)則發(fā)送至境外數(shù)據(jù)中心,其中,境外數(shù)據(jù)中心根據(jù)同步規(guī)則從境內(nèi)數(shù)據(jù)中心抓取第一待同步數(shù)據(jù)。因此,該方法能夠在實(shí)現(xiàn)跨境數(shù)據(jù)同步的前提下,避免實(shí)時(shí)跨境網(wǎng)絡(luò)訪問導(dǎo)致嚴(yán)重超時(shí)的問題,從而減少了海外訪問的響應(yīng)時(shí)間,在提升了網(wǎng)絡(luò)爬蟲的效率的同時(shí)還增加了網(wǎng)絡(luò)穩(wěn)定性。

為了實(shí)現(xiàn)上述實(shí)施例,本申請(qǐng)還提出一種跨境數(shù)據(jù)同步的系統(tǒng)。

圖7是根據(jù)本申請(qǐng)一個(gè)實(shí)施例的跨境數(shù)據(jù)同步的系統(tǒng)的方框示意圖。

如圖7所示,該跨境數(shù)據(jù)同步的系統(tǒng)包括境內(nèi)數(shù)據(jù)中心100和境外數(shù)據(jù)中心200,其中,

境內(nèi)數(shù)據(jù)中心100用于檢測(cè)第一待同步數(shù)據(jù)的數(shù)據(jù)類型,并在數(shù)據(jù)類型為網(wǎng)頁數(shù)據(jù)時(shí),獲取第一待同步數(shù)據(jù)的同步規(guī)則,并將同步規(guī)則發(fā)送至境外數(shù)據(jù)中心200。

其中,上述數(shù)據(jù)類型可包括網(wǎng)頁數(shù)據(jù)、文件數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)等。

其中,需要理解的是,該實(shí)施例中所說的網(wǎng)頁數(shù)據(jù)可包括html(超級(jí)文本標(biāo)記語言) 內(nèi)容,其中,html內(nèi)容可包括html(超級(jí)文本標(biāo)記語言)頁面中的文本語言、超鏈接文字和超鏈接圖片等。

其中,需要理解的是,該實(shí)施例中所說的文件數(shù)據(jù)可包括word文檔、pdf文檔、excel文檔和ppt文檔等,其中上述文檔還可被稱作為非結(jié)構(gòu)數(shù)據(jù)。

其中,需要理解的是,該實(shí)施例中所說的結(jié)構(gòu)化數(shù)據(jù)可包括數(shù)據(jù)庫(kù)數(shù)據(jù)。

具體地,當(dāng)境內(nèi)數(shù)據(jù)中心100檢測(cè)出第一待同步數(shù)據(jù)的數(shù)據(jù)類型為網(wǎng)頁數(shù)據(jù)類型時(shí),境內(nèi)數(shù)據(jù)中心100將獲取第一待同步數(shù)據(jù)的同步規(guī)則并選擇合適的傳送通道,并將同步規(guī)則發(fā)送至境外數(shù)據(jù)中心200。

其中,需要理解的是,該實(shí)施例中所述的傳輸通道可包括oss(openstorageservice,阿里云開放存儲(chǔ)服務(wù))、filesync(文件同步工具)和drc(datasourcecontrol,數(shù)據(jù)源控制信道)等,其中,oss主要用于傳送非實(shí)時(shí)數(shù)據(jù),filesync主要用于同步實(shí)時(shí)數(shù)據(jù)和關(guān)鍵數(shù)據(jù),drc主要用于結(jié)構(gòu)化數(shù)據(jù)的同步。

境外數(shù)據(jù)中心200用于根據(jù)同步規(guī)則從境內(nèi)數(shù)據(jù)中心抓取第一待同步數(shù)據(jù)。

在本申請(qǐng)的一個(gè)實(shí)施例中,境內(nèi)數(shù)據(jù)中心100通過境內(nèi)數(shù)據(jù)中心100和境外數(shù)據(jù)中心200之間的專線將同步規(guī)則發(fā)送至境外數(shù)據(jù)中心200。

具體地,境內(nèi)數(shù)據(jù)中心100通過專線將同步規(guī)則發(fā)送至境外數(shù)據(jù)中心200,而后,境外數(shù)據(jù)中心200根據(jù)同步規(guī)則從境內(nèi)數(shù)據(jù)中心100抓取第一待同步數(shù)據(jù)。

例如,第一待同步數(shù)據(jù)為在線html內(nèi)容(網(wǎng)頁數(shù)據(jù))時(shí),如圖2所示,可通過定時(shí)系統(tǒng)設(shè)置定時(shí)任務(wù),美國(guó)機(jī)房(境外數(shù)據(jù)中心200)根據(jù)境內(nèi)數(shù)據(jù)中心100發(fā)送的同步規(guī)則主動(dòng)向杭州/上海機(jī)房(境內(nèi)數(shù)據(jù)中心100)拉取在線html內(nèi)容數(shù)據(jù),境外數(shù)據(jù)中心200通過爬蟲系統(tǒng)從國(guó)內(nèi)爬取核心的seo(搜索引擎優(yōu)化)的html內(nèi)容。

在本申請(qǐng)的一個(gè)實(shí)施例中,如圖8所示,上述跨境數(shù)據(jù)同步的系統(tǒng)還可包括云存儲(chǔ)服務(wù)器300,其中,境內(nèi)數(shù)據(jù)中心100在數(shù)據(jù)類型為文件數(shù)據(jù)時(shí),通過云存儲(chǔ)服務(wù)器將第一待同步數(shù)據(jù)發(fā)送至境外數(shù)據(jù)中心200。

其中,需要理解的是,上述云存儲(chǔ)服務(wù)器300可以是oss(openstorageservice,阿里云開放存儲(chǔ)服務(wù)),即傳輸通道。

具體地,當(dāng)境內(nèi)數(shù)據(jù)中心100檢測(cè)出第一待同步數(shù)據(jù)的數(shù)據(jù)類型為文件數(shù)據(jù)類型時(shí),境內(nèi)數(shù)據(jù)中心100將可以對(duì)該數(shù)據(jù)類型進(jìn)行預(yù)處理,并通過云存儲(chǔ)服務(wù)器300將第一待同步數(shù)據(jù)發(fā)送至境外數(shù)據(jù)中心,以便實(shí)現(xiàn)第一待同步數(shù)據(jù)的同步。

例如,如圖4所示,首先杭州數(shù)據(jù)中心(境內(nèi)數(shù)據(jù)中心100)檢測(cè)seo詞庫(kù)(第一待同步數(shù)據(jù))的類型,確定seo詞庫(kù)是個(gè)約2gb的文件,然后對(duì)seo詞庫(kù)進(jìn)行分割(按字母進(jìn)行分區(qū))壓縮,而后上傳到美國(guó)數(shù)據(jù)中心(境外數(shù)據(jù)中心200)的oss節(jié)點(diǎn)(第二云存儲(chǔ) 服務(wù)器320)。以便實(shí)現(xiàn)第一待同步數(shù)據(jù)的同步。

進(jìn)一步而言,在本申請(qǐng)的一個(gè)實(shí)施例中,如圖9所示,云存儲(chǔ)服務(wù)器300包括與境內(nèi)數(shù)據(jù)中心100處于同一境內(nèi)的第一云存儲(chǔ)服務(wù)器310,以及與境外數(shù)據(jù)中心200處于同一境內(nèi)的第二云存儲(chǔ)服務(wù)器320。

其中,需要理解的是,上述第一云存儲(chǔ)服務(wù)器310可以是oss(openstorageservice,阿里云開放存儲(chǔ)服務(wù))的一個(gè)節(jié)點(diǎn)。

其中,需要理解的是,上述第二云存儲(chǔ)服務(wù)器320可以是oss(openstorageservice,阿里云開放存儲(chǔ)服務(wù))的一個(gè)節(jié)點(diǎn)。

例如,如圖4所示,當(dāng)分割壓縮后的seo詞庫(kù)上傳到美國(guó)數(shù)據(jù)中心(境外數(shù)據(jù)中心200)的oss節(jié)點(diǎn)(第二云存儲(chǔ)服務(wù)器320)時(shí),杭州數(shù)據(jù)中心(境內(nèi)數(shù)據(jù)中心100)通知國(guó)際系統(tǒng)(境外數(shù)據(jù)中心200),國(guó)際系統(tǒng)收到通知后去拉取數(shù)據(jù)并存入國(guó)際本地存儲(chǔ)。

其中,需要理解的是,本實(shí)施例中所說的國(guó)際(境外)本地存儲(chǔ)可以是分別由4臺(tái)機(jī)器組成的數(shù)據(jù)同步集群和4臺(tái)機(jī)器組成的本地化服務(wù)集群。在國(guó)內(nèi)(境內(nèi)),同樣也可有一個(gè)數(shù)據(jù)同步小集群,以實(shí)現(xiàn)與國(guó)際數(shù)據(jù)同步集群的數(shù)據(jù)同步。并依托于國(guó)內(nèi)外的兩個(gè)數(shù)據(jù)同步集群,實(shí)現(xiàn)從國(guó)內(nèi)數(shù)據(jù)中心推送實(shí)時(shí)數(shù)據(jù)到海外集群,而海外集群則通過拉取方式獲取非實(shí)時(shí)數(shù)據(jù),并且推送實(shí)時(shí)數(shù)據(jù)回國(guó)內(nèi)(例如,日志回流監(jiān)控等)。以此實(shí)現(xiàn)跨境數(shù)據(jù)同步。

在本申請(qǐng)的一個(gè)實(shí)施例中,境內(nèi)數(shù)據(jù)中心100還用于將第一待同步數(shù)據(jù)發(fā)送至與第二云存儲(chǔ)服務(wù)器320,并通知境外數(shù)據(jù)中心200從第二云存儲(chǔ)服務(wù)器320中抓取第一待同步數(shù)據(jù)。

另外,境外數(shù)據(jù)中心200還用于將第二待同步數(shù)據(jù)發(fā)送至與第一云存儲(chǔ)服務(wù)器310,并通知境內(nèi)數(shù)據(jù)中心100從第一云存儲(chǔ)服務(wù)器310中抓取第二待同步數(shù)據(jù)。

例如,如圖4所示,在國(guó)際系統(tǒng)(境外數(shù)據(jù)中心)將分割壓縮后的seo詞庫(kù)拉取并存入國(guó)際本地存儲(chǔ)的同時(shí),國(guó)際系統(tǒng)再收集到增量詞庫(kù)(即第二待同步數(shù)據(jù)),而后將增量詞庫(kù)反向推送到國(guó)內(nèi)數(shù)據(jù)中心(境內(nèi)數(shù)據(jù)中心100),以此實(shí)現(xiàn)跨境數(shù)據(jù)同步。

根據(jù)本申請(qǐng)實(shí)施例的跨境數(shù)據(jù)同步的系統(tǒng),首先通過境內(nèi)數(shù)據(jù)中心檢測(cè)第一待同步數(shù)據(jù)的數(shù)據(jù)類型,并在數(shù)據(jù)類型為網(wǎng)頁數(shù)據(jù)時(shí),獲取第一待同步數(shù)據(jù)的同步規(guī)則,并將同步規(guī)則發(fā)送至境外數(shù)據(jù)中心,而后境外數(shù)據(jù)中心根據(jù)同步規(guī)則從境內(nèi)數(shù)據(jù)中心抓取第一待同步數(shù)據(jù)。因此,該系統(tǒng)能夠在實(shí)現(xiàn)跨境數(shù)據(jù)同步的前提下,避免實(shí)時(shí)跨境網(wǎng)絡(luò)訪問導(dǎo)致嚴(yán)重超時(shí)的問題,從而減少了海外訪問的響應(yīng)時(shí)間,在提升了網(wǎng)絡(luò)爬蟲的效率的同時(shí)還增加了網(wǎng)絡(luò)穩(wěn)定性。

為了實(shí)現(xiàn)上述實(shí)施例,本申請(qǐng)還提出一種跨境數(shù)據(jù)同步的方法。

圖10是根據(jù)本申請(qǐng)第五個(gè)實(shí)施例的跨境數(shù)據(jù)同步的方法的流程圖。

如圖10所示,該跨境數(shù)據(jù)同步的方法包括以下步驟:

s101,境外數(shù)據(jù)中心接收境內(nèi)數(shù)據(jù)中心發(fā)送的同步規(guī)則。

s102,境外數(shù)據(jù)中心根據(jù)同步規(guī)則從境內(nèi)數(shù)據(jù)中心抓取第一待同步數(shù)據(jù),其中,第一待同步數(shù)據(jù)的數(shù)據(jù)類型為網(wǎng)頁數(shù)據(jù)。

其中,上述數(shù)據(jù)類型可包括網(wǎng)頁數(shù)據(jù)、文件數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)等。

其中,需要理解的是,該實(shí)施例中所說的網(wǎng)頁數(shù)據(jù)可包括html(超級(jí)文本標(biāo)記語言)內(nèi)容,其中,html內(nèi)容可包括html(超級(jí)文本標(biāo)記語言)頁面中的文本語言、超鏈接文字和超鏈接圖片等。

其中,需要理解的是,該實(shí)施例中所說的文件數(shù)據(jù)可包括word文檔、pdf文檔、excel文檔和ppt文檔等,其中上述文檔還可被稱作為非結(jié)構(gòu)數(shù)據(jù)。

其中,需要理解的是,該實(shí)施例中所說的結(jié)構(gòu)化數(shù)據(jù)可包括數(shù)據(jù)庫(kù)數(shù)據(jù)。

具體地,當(dāng)境內(nèi)數(shù)據(jù)中心檢測(cè)出第一待同步數(shù)據(jù)的數(shù)據(jù)類型為網(wǎng)頁數(shù)據(jù)類型時(shí),境內(nèi)數(shù)據(jù)中心將獲取第一待同步數(shù)據(jù)的同步規(guī)則,并選擇合適的傳送通道。

其中,需要理解的是,該實(shí)施例中所述的傳輸通道可包括oss(openstorageservice,阿里云開放存儲(chǔ)服務(wù))、filesync(文件同步工具)和drc(datasourcecontrol,數(shù)據(jù)源控制信道)等,其中,oss主要用于傳送非實(shí)時(shí)數(shù)據(jù),filesync主要用于同步實(shí)時(shí)數(shù)據(jù)和關(guān)鍵數(shù)據(jù),drc主要用于結(jié)構(gòu)化數(shù)據(jù)的同步。

在本申請(qǐng)的一個(gè)實(shí)施例中,境外數(shù)據(jù)中心通過境內(nèi)數(shù)據(jù)中心和境外數(shù)據(jù)中心之間的專線接收境內(nèi)數(shù)據(jù)中心發(fā)送的同步規(guī)則。

具體地,境內(nèi)數(shù)據(jù)中心通過專線將同步規(guī)則發(fā)送至境外數(shù)據(jù)中心,而后,境外數(shù)據(jù)中心根據(jù)同步規(guī)則從境內(nèi)數(shù)據(jù)中心抓取第一待同步數(shù)據(jù)。

例如,第一待同步數(shù)據(jù)為在線html內(nèi)容(網(wǎng)頁數(shù)據(jù))時(shí),如圖2所示,可通過定時(shí)系統(tǒng)設(shè)置定時(shí)任務(wù),美國(guó)機(jī)房(境外數(shù)據(jù)中心)根據(jù)境內(nèi)數(shù)據(jù)中心發(fā)送的同步規(guī)則主動(dòng)向杭州/上海機(jī)房(境內(nèi)數(shù)據(jù)中心)拉取在線html內(nèi)容數(shù)據(jù),境外數(shù)據(jù)中心通過爬蟲系統(tǒng)從國(guó)內(nèi)爬取核心的seo(搜索引擎優(yōu)化)的html內(nèi)容。

在本申請(qǐng)的一個(gè)實(shí)施例中,上述跨境數(shù)據(jù)同步的方法還可包括,如果數(shù)據(jù)類型為文件數(shù)據(jù),則境外數(shù)據(jù)中心通過云存儲(chǔ)服務(wù)器接收第一待同步數(shù)據(jù)。

其中,需要理解的是,上述云存儲(chǔ)服務(wù)器可以是oss(openstorageservice,阿里云開放存儲(chǔ)服務(wù)),即傳輸通道。

具體地,當(dāng)境內(nèi)數(shù)據(jù)中心檢測(cè)出第一待同步數(shù)據(jù)的數(shù)據(jù)類型為文件數(shù)據(jù)類型時(shí),境內(nèi)數(shù)據(jù)中心將可以對(duì)該數(shù)據(jù)類型進(jìn)行預(yù)處理,并通過云存儲(chǔ)服務(wù)器將第一待同步數(shù)據(jù)發(fā)送至 境外數(shù)據(jù)中心,以便實(shí)現(xiàn)第一待同步數(shù)據(jù)的同步。

例如,如圖4所示,首先杭州數(shù)據(jù)中心(境內(nèi)數(shù)據(jù)中心)檢測(cè)seo詞庫(kù)(第一待同步數(shù)據(jù))的類型,確定seo詞庫(kù)是個(gè)約2gb的文件,然后對(duì)seo詞庫(kù)進(jìn)行分割(按字母進(jìn)行分區(qū))壓縮,而后上傳到美國(guó)數(shù)據(jù)中心(境外數(shù)據(jù)中心)的oss節(jié)點(diǎn)(第二云存儲(chǔ)服務(wù)器)。以便實(shí)現(xiàn)第一待同步數(shù)據(jù)的同步。

進(jìn)一步而言,在本申請(qǐng)的一個(gè)實(shí)施例中,如圖11所示,境外數(shù)據(jù)中心通過云存儲(chǔ)服務(wù)器接收第一待同步數(shù)據(jù)的具體過程可包括:

s201,境外數(shù)據(jù)中心接收境內(nèi)數(shù)據(jù)中心發(fā)送的通知。

s202,境外數(shù)據(jù)中心從第二云存儲(chǔ)服務(wù)器中抓取第一待同步數(shù)據(jù),其中,第二云存儲(chǔ)服務(wù)器與境外數(shù)據(jù)中心處于同一境內(nèi)。

其中,需要理解的是,上述第二云存儲(chǔ)服務(wù)器可以是oss(openstorageservice,阿里云開放存儲(chǔ)服務(wù))的一個(gè)節(jié)點(diǎn)。

例如,如圖4所示,當(dāng)分割壓縮后的seo詞庫(kù)上傳到美國(guó)數(shù)據(jù)中心(境外數(shù)據(jù)中心)的oss節(jié)點(diǎn)(第二云存儲(chǔ)服務(wù)器)時(shí),杭州數(shù)據(jù)中心(境內(nèi)數(shù)據(jù)中心)通知國(guó)際系統(tǒng)(境外數(shù)據(jù)中心),國(guó)際系統(tǒng)收到通知后去拉取數(shù)據(jù)并存入國(guó)際本地存儲(chǔ)。

其中,需要理解的是,本實(shí)施例中所說的國(guó)際(境外)本地存儲(chǔ)可以是分別由4臺(tái)機(jī)器組成的數(shù)據(jù)同步集群和4臺(tái)機(jī)器組成的本地化服務(wù)集群。在國(guó)內(nèi)(境內(nèi)),同樣也可有一個(gè)數(shù)據(jù)同步小集群,以實(shí)現(xiàn)與國(guó)際數(shù)據(jù)同步集群的數(shù)據(jù)同步。并依托于國(guó)內(nèi)外的兩個(gè)數(shù)據(jù)同步集群,實(shí)現(xiàn)從國(guó)內(nèi)數(shù)據(jù)中心推送實(shí)時(shí)數(shù)據(jù)到海外集群,而海外集群則通過拉取方式獲取非實(shí)時(shí)數(shù)據(jù),并且推送實(shí)時(shí)數(shù)據(jù)回國(guó)內(nèi)(例如,日志回流監(jiān)控等)。以此實(shí)現(xiàn)跨境數(shù)據(jù)同步。

在本申請(qǐng)的一個(gè)實(shí)施例中,如圖12所示,上述跨境數(shù)據(jù)同步的方法還可包括:

s203,境外數(shù)據(jù)中心將第二待同步數(shù)據(jù)發(fā)送至與境內(nèi)數(shù)據(jù)中心處于同一境內(nèi)的第一云存儲(chǔ)服務(wù)器。

其中,需要理解的是,上述第一云存儲(chǔ)服務(wù)器可以是oss(openstorageservice,阿里云開放存儲(chǔ)服務(wù))的一個(gè)節(jié)點(diǎn)。

s204,境外數(shù)據(jù)中心通知境內(nèi)數(shù)據(jù)中心從第一云存儲(chǔ)服務(wù)器中抓取第二待同步數(shù)據(jù)。

例如,如圖4所示,在國(guó)際系統(tǒng)(境外數(shù)據(jù)中心)將分割壓縮后的seo詞庫(kù)拉取并存入國(guó)際本地存儲(chǔ)的同時(shí),國(guó)際系統(tǒng)再收集到增量詞庫(kù)(即第二待同步數(shù)據(jù)),而后將增量詞庫(kù)反向推送到國(guó)內(nèi)數(shù)據(jù)中心(境內(nèi)數(shù)據(jù)中心),以此實(shí)現(xiàn)跨境數(shù)據(jù)同步。

根據(jù)本申請(qǐng)實(shí)施例的跨境數(shù)據(jù)同步的方法,首先境外數(shù)據(jù)中心接收境內(nèi)數(shù)據(jù)中心發(fā)送的同步規(guī)則,并根據(jù)同步規(guī)則從境內(nèi)數(shù)據(jù)中心抓取第一待同步數(shù)據(jù),其中,第一待同步數(shù) 據(jù)的數(shù)據(jù)類型為網(wǎng)頁數(shù)據(jù)。因此,該方法能夠在實(shí)現(xiàn)跨境數(shù)據(jù)同步的前提下,避免實(shí)時(shí)跨境網(wǎng)絡(luò)訪問導(dǎo)致嚴(yán)重超時(shí)的問題,從而減少了海外訪問的響應(yīng)時(shí)間,在提升了網(wǎng)絡(luò)爬蟲的效率的同時(shí)還增加了網(wǎng)絡(luò)穩(wěn)定性。

為了實(shí)現(xiàn)上述實(shí)施例,本申請(qǐng)還提出一種境內(nèi)數(shù)據(jù)中心。

圖13是根據(jù)本申請(qǐng)一個(gè)實(shí)施例的境內(nèi)數(shù)據(jù)中心的方框示意圖。

如圖13所示,該境內(nèi)數(shù)據(jù)中心包括檢測(cè)模塊10、同步規(guī)則獲取模塊20和第一發(fā)送模塊30。

具體地,檢測(cè)模塊10用于檢測(cè)第一待同步數(shù)據(jù)的數(shù)據(jù)類型。

其中,上述數(shù)據(jù)類型可包括網(wǎng)頁數(shù)據(jù)、文件數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)等。

其中,需要理解的是,該實(shí)施例中所說的網(wǎng)頁數(shù)據(jù)可包括html(超級(jí)文本標(biāo)記語言)內(nèi)容,其中,html內(nèi)容可包括html(超級(jí)文本標(biāo)記語言)頁面中的文本語言、超鏈接文字和超鏈接圖片等。

其中,需要理解的是,該實(shí)施例中所說的文件數(shù)據(jù)可包括word文檔、pdf文檔、excel文檔和ppt文檔等,其中上述文檔還可被稱作為非結(jié)構(gòu)數(shù)據(jù)。

其中,需要理解的是,該實(shí)施例中所說的結(jié)構(gòu)化數(shù)據(jù)可包括數(shù)據(jù)庫(kù)數(shù)據(jù)。

同步規(guī)則獲取模塊20用于在數(shù)據(jù)類型為網(wǎng)頁數(shù)據(jù)時(shí),獲取第一待同步數(shù)據(jù)的同步規(guī)則。

具體地,當(dāng)檢測(cè)模塊10檢測(cè)出第一待同步數(shù)據(jù)的數(shù)據(jù)類型為網(wǎng)頁數(shù)據(jù)類型時(shí),同步規(guī)則獲取模塊20及獲取第一待同步數(shù)據(jù)的同步規(guī)則,并選擇合適的傳輸通道。

其中,需要理解的是,該實(shí)施例中所述的傳輸通道可包括oss(openstorageservice,阿里云開放存儲(chǔ)服務(wù))、filesync(文件同步工具)和drc(datasourcecontrol,數(shù)據(jù)源控制信道)等,其中,oss主要用于傳送非實(shí)時(shí)數(shù)據(jù),filesync主要用于同步實(shí)時(shí)數(shù)據(jù)和關(guān)鍵數(shù)據(jù),drc主要用于結(jié)構(gòu)化數(shù)據(jù)的同步。

第一發(fā)送模塊30用于將同步規(guī)則發(fā)送至境外數(shù)據(jù)中心,其中,境外數(shù)據(jù)中心根據(jù)同步規(guī)則從境內(nèi)數(shù)據(jù)中心抓取第一待同步數(shù)據(jù)。

在本申請(qǐng)的一個(gè)實(shí)施例中,第一發(fā)送模塊30通過境內(nèi)數(shù)據(jù)中心和境外數(shù)據(jù)中心之間的專線將同步規(guī)則發(fā)送至境外數(shù)據(jù)中心。

具體地,第一發(fā)送模塊30通過專線將同步規(guī)則發(fā)送至境外數(shù)據(jù)中心,而后,境外數(shù)據(jù)中心根據(jù)同步規(guī)則從境內(nèi)數(shù)據(jù)中心抓取第一待同步數(shù)據(jù)。

例如,第一待同步數(shù)據(jù)為在線html內(nèi)容(網(wǎng)頁數(shù)據(jù))時(shí),如圖2所示,可通過定時(shí)系統(tǒng)設(shè)置定時(shí)任務(wù),美國(guó)機(jī)房(境外數(shù)據(jù)中心)根據(jù)境內(nèi)數(shù)據(jù)中心發(fā)送的同步規(guī)則主動(dòng)向杭州/上海機(jī)房(境內(nèi)數(shù)據(jù)中心)拉取在線html內(nèi)容數(shù)據(jù),境外數(shù)據(jù)中心通過爬蟲系統(tǒng)從國(guó)內(nèi)爬取核心的seo(搜索引擎優(yōu)化)的html內(nèi)容。

在本申請(qǐng)的一個(gè)實(shí)施例中,如圖14所示,上述境內(nèi)數(shù)據(jù)中心還包括,第二發(fā)送模塊40用于在數(shù)據(jù)類型為文件數(shù)據(jù)時(shí),通過云存儲(chǔ)服務(wù)器將第一待同步數(shù)據(jù)發(fā)送至境外數(shù)據(jù)中心。

其中,需要理解的是,上述云存儲(chǔ)服務(wù)器可以是oss(openstorageservice,阿里云開放存儲(chǔ)服務(wù)),即傳輸通道。

具體地,當(dāng)檢測(cè)模塊10檢測(cè)出第一待同步數(shù)據(jù)的數(shù)據(jù)類型為文件數(shù)據(jù)類型時(shí),第二發(fā)送模塊40可以對(duì)該數(shù)據(jù)類型進(jìn)行預(yù)處理,并通過云存儲(chǔ)服務(wù)器將第一待同步數(shù)據(jù)發(fā)送至境外數(shù)據(jù)中心,以便實(shí)現(xiàn)第一待同步數(shù)據(jù)的同步。

例如,如圖4所示,首先杭州數(shù)據(jù)中心(境內(nèi)數(shù)據(jù)中心)檢測(cè)seo詞庫(kù)(第一待同步數(shù)據(jù))的類型,確定seo詞庫(kù)是個(gè)約2gb的文件,然后對(duì)seo詞庫(kù)進(jìn)行分割(按字母進(jìn)行分區(qū))壓縮,而后上傳到美國(guó)數(shù)據(jù)中心(境外數(shù)據(jù)中心)的oss節(jié)點(diǎn)(第二云存儲(chǔ)服務(wù)器)。以便實(shí)現(xiàn)第一待同步數(shù)據(jù)的同步。

在本申請(qǐng)的一個(gè)實(shí)施例中,第二發(fā)送模塊40將第一待同步數(shù)據(jù)發(fā)送至與境外數(shù)據(jù)中心處于同一境內(nèi)的第二云存儲(chǔ)服務(wù)器,并通知境外數(shù)據(jù)中心從第二云存儲(chǔ)服務(wù)器中抓取第一待同步數(shù)據(jù)。

其中,需要理解的是,上述第二云存儲(chǔ)服務(wù)器可以是oss(openstorageservice,阿里云開放存儲(chǔ)服務(wù))的一個(gè)節(jié)點(diǎn)。

例如,如圖4所示,當(dāng)分割壓縮后的seo詞庫(kù)上傳到美國(guó)數(shù)據(jù)中心(境外數(shù)據(jù)中心)的oss節(jié)點(diǎn)(第二云存儲(chǔ)服務(wù)器)時(shí),杭州數(shù)據(jù)中心(境內(nèi)數(shù)據(jù)中心)通知國(guó)際系統(tǒng)(境外數(shù)據(jù)中心),國(guó)際系統(tǒng)收到通知后去拉取數(shù)據(jù)并存入國(guó)際本地存儲(chǔ)。

其中,需要理解的是,本實(shí)施例中所說的國(guó)際(境外)本地存儲(chǔ)可以是分別由4臺(tái)機(jī)器組成的數(shù)據(jù)同步集群和4臺(tái)機(jī)器組成的本地化服務(wù)集群。在國(guó)內(nèi)(境內(nèi)),同樣也可有一個(gè)數(shù)據(jù)同步小集群,以實(shí)現(xiàn)與國(guó)際數(shù)據(jù)同步集群的數(shù)據(jù)同步。并依托于國(guó)內(nèi)外的兩個(gè)數(shù)據(jù)同步集群,實(shí)現(xiàn)從國(guó)內(nèi)數(shù)據(jù)中心推送實(shí)時(shí)數(shù)據(jù)到海外集群,而海外集群則通過拉取方式獲取非實(shí)時(shí)數(shù)據(jù),并且推送實(shí)時(shí)數(shù)據(jù)回國(guó)內(nèi)(例如,日志回流監(jiān)控等)。以此實(shí)現(xiàn)跨境數(shù)據(jù)同步。

根據(jù)本申請(qǐng)實(shí)施例的境內(nèi)數(shù)據(jù)中心,首先通過檢測(cè)模塊檢測(cè)第一待同步數(shù)據(jù)的數(shù)據(jù)類型,而后通過同步規(guī)則獲取模塊在數(shù)據(jù)類型為網(wǎng)頁數(shù)據(jù)時(shí),獲取第一待同步數(shù)據(jù)的同步規(guī)則,最后通過第一發(fā)送模塊將同步規(guī)則發(fā)送至境外數(shù)據(jù)中心,其中,境外數(shù)據(jù)中心根據(jù)同步規(guī)則從境內(nèi)數(shù)據(jù)中心抓取第一待同步數(shù)據(jù)。因此,該境內(nèi)數(shù)據(jù)中心能夠在實(shí)現(xiàn)跨境數(shù)據(jù)同步的前提下,避免實(shí)時(shí)跨境網(wǎng)絡(luò)訪問導(dǎo)致嚴(yán)重超時(shí)的問題,從而減少了海外訪問的響應(yīng)時(shí)間,在提升了網(wǎng)絡(luò)爬蟲的效率的同時(shí)還增加了網(wǎng)絡(luò)穩(wěn)定性。

為了實(shí)現(xiàn)上述實(shí)施例,本申請(qǐng)還提出一種境外數(shù)據(jù)中心。

圖15是根據(jù)本申請(qǐng)一個(gè)實(shí)施例的境外數(shù)據(jù)中心的方框示意圖。

如圖15所示,該境外數(shù)據(jù)中心包括第一接收模塊50和抓取模塊60。

具體地,第一接收模塊50用于接收境內(nèi)數(shù)據(jù)中心發(fā)送的同步規(guī)則。

抓取模塊60用于根據(jù)同步規(guī)則從境內(nèi)數(shù)據(jù)中心抓取第一待同步數(shù)據(jù),其中,第一待同步數(shù)據(jù)的數(shù)據(jù)類型為網(wǎng)頁數(shù)據(jù)。

其中,上述數(shù)據(jù)類型可包括網(wǎng)頁數(shù)據(jù)、文件數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)等。

其中,需要理解的是,該實(shí)施例中所說的網(wǎng)頁數(shù)據(jù)可包括html(超級(jí)文本標(biāo)記語言)內(nèi)容,其中,html內(nèi)容可包括html(超級(jí)文本標(biāo)記語言)頁面中的文本語言、超鏈接文字和超鏈接圖片等。

其中,需要理解的是,該實(shí)施例中所說的文件數(shù)據(jù)可包括word文檔、pdf文檔、excel文檔和ppt文檔等,其中上述文檔還可被稱作為非結(jié)構(gòu)數(shù)據(jù)。

其中,需要理解的是,該實(shí)施例中所說的結(jié)構(gòu)化數(shù)據(jù)可包括數(shù)據(jù)庫(kù)數(shù)據(jù)。

在本申請(qǐng)的一個(gè)實(shí)施例中,如圖16所示,上述境外數(shù)據(jù)中心還包括,第二接收模塊70用于在數(shù)據(jù)類型為文件數(shù)據(jù)時(shí),通過云存儲(chǔ)服務(wù)器接收第一待同步數(shù)據(jù)。

其中,需要理解的是,上述云存儲(chǔ)服務(wù)器可以是oss(openstorageservice,阿里云開放存儲(chǔ)服務(wù)),即傳輸通道。

具體地,當(dāng)境內(nèi)數(shù)據(jù)中心檢測(cè)出第一待同步數(shù)據(jù)的數(shù)據(jù)類型為文件數(shù)據(jù)類型時(shí),第二接收模塊70將可以對(duì)該數(shù)據(jù)類型進(jìn)行預(yù)處理,并通過云存儲(chǔ)服務(wù)器將第一待同步數(shù)據(jù)發(fā)送至境外數(shù)據(jù)中心,以便實(shí)現(xiàn)第一待同步數(shù)據(jù)的同步。

例如,如圖4所示,首先杭州數(shù)據(jù)中心(境內(nèi)數(shù)據(jù)中心)檢測(cè)seo(searchengineoptimization,搜索引擎優(yōu)化)詞庫(kù)(第一待同步數(shù)據(jù))的類型,確定seo詞庫(kù)是個(gè)約2gb的文件,然后對(duì)seo詞庫(kù)進(jìn)行分割(按字母進(jìn)行分區(qū))壓縮,而后上傳到美國(guó)數(shù)據(jù)中心(境外數(shù)據(jù)中心)的oss節(jié)點(diǎn)(第二云存儲(chǔ)服務(wù)器)。以便實(shí)現(xiàn)第一待同步數(shù)據(jù)的同步。

其中,需要理解的是,該實(shí)施例中所述的傳輸通道可包括oss(openstorageservice,阿里云開放存儲(chǔ)服務(wù))、filesync(文件同步工具)和drc(datasourcecontrol,數(shù)據(jù)源控制信道)等,其中,oss主要用于傳送非實(shí)時(shí)數(shù)據(jù),filesync主要用于同步實(shí)時(shí)數(shù)據(jù)和關(guān)鍵數(shù)據(jù),drc主要用于結(jié)構(gòu)化數(shù)據(jù)的同步。

進(jìn)一步地,在本申請(qǐng)的一個(gè)實(shí)施例中,如圖17所示,上述境外數(shù)據(jù)中心還包括,第三發(fā)送模塊80用于將第二待同步數(shù)據(jù)發(fā)送至與境內(nèi)數(shù)據(jù)中心處于同一境內(nèi)的第一云存儲(chǔ)服務(wù)器,并通知境內(nèi)數(shù)據(jù)中心從第一云存儲(chǔ)服務(wù)器中抓取第二待同步數(shù)據(jù)。

其中,需要理解的是,上述第二云存儲(chǔ)服務(wù)器可以是oss(openstorageservice,阿里云開放存儲(chǔ)服務(wù))的一個(gè)節(jié)點(diǎn)。

例如,如圖4所示,當(dāng)分割壓縮后的seo詞庫(kù)上傳到美國(guó)數(shù)據(jù)中心(境外數(shù)據(jù)中心)的oss節(jié)點(diǎn)(第二云存儲(chǔ)服務(wù)器)時(shí),杭州數(shù)據(jù)中心(境內(nèi)數(shù)據(jù)中心)通知國(guó)際系統(tǒng)(境外數(shù)據(jù)中心),國(guó)際系統(tǒng)收到通知后去拉取數(shù)據(jù)并存入國(guó)際本地存儲(chǔ)。

其中,需要理解的是,本實(shí)施例中所說的國(guó)際(境外)本地存儲(chǔ)可以是分別由4臺(tái)機(jī)器組成的數(shù)據(jù)同步集群和4臺(tái)機(jī)器組成的本地化服務(wù)集群。在國(guó)內(nèi)(境內(nèi)),同樣也可有一個(gè)數(shù)據(jù)同步小集群,以實(shí)現(xiàn)與國(guó)際數(shù)據(jù)同步集群的數(shù)據(jù)同步。并依托于國(guó)內(nèi)外的兩個(gè)數(shù)據(jù)同步集群,實(shí)現(xiàn)從國(guó)內(nèi)數(shù)據(jù)中心推送實(shí)時(shí)數(shù)據(jù)到海外集群,而海外集群則通過拉取方式獲取非實(shí)時(shí)數(shù)據(jù),并且推送實(shí)時(shí)數(shù)據(jù)回國(guó)內(nèi)(例如,日志回流監(jiān)控等)。以此實(shí)現(xiàn)跨境數(shù)據(jù)同步。

根據(jù)本申請(qǐng)實(shí)施例的境外數(shù)據(jù)中心,首先通過第一接收模塊接收境內(nèi)數(shù)據(jù)中心發(fā)送的同步規(guī)則,而后抓取模塊根據(jù)同步規(guī)則從境內(nèi)數(shù)據(jù)中心抓取第一待同步數(shù)據(jù),其中,第一待同步數(shù)據(jù)的數(shù)據(jù)類型為網(wǎng)頁數(shù)據(jù)。因此,該境外數(shù)據(jù)中心能夠在實(shí)現(xiàn)跨境數(shù)據(jù)同步的前提下,避免實(shí)時(shí)跨境網(wǎng)絡(luò)訪問導(dǎo)致嚴(yán)重超時(shí)的問題,從而減少了海外訪問的響應(yīng)時(shí)間,在提升了網(wǎng)絡(luò)爬蟲的效率的同時(shí)還增加了網(wǎng)絡(luò)穩(wěn)定性。

此外,術(shù)語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對(duì)重要性或者隱含指明所指示的技術(shù)特征的數(shù)量。由此,限定有“第一”、“第二”的特征可以明示或者隱含地包括至少一個(gè)該特征。在本申請(qǐng)的描述中,“多個(gè)”的含義是至少兩個(gè),例如兩個(gè),三個(gè)等,除非另有明確具體的限定。

在本說明書的描述中,參考術(shù)語“一個(gè)實(shí)施例”、“一些實(shí)施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本申請(qǐng)的至少一個(gè)實(shí)施例或示例中。在本說明書中,對(duì)上述術(shù)語的示意性表述不必須針對(duì)的是相同的實(shí)施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可以在任一個(gè)或多個(gè)實(shí)施例或示例中以合適的方式結(jié)合。此外,在不相互矛盾的情況下,本領(lǐng)域的技術(shù)人員可以將本說明書中描述的不同實(shí)施例或示例以及不同實(shí)施例或示例的特征進(jìn)行結(jié)合和組合。

盡管上面已經(jīng)示出和描述了本申請(qǐng)的實(shí)施例,可以理解的是,上述實(shí)施例是示例性的,不能理解為對(duì)本申請(qǐng)的限制,本領(lǐng)域的普通技術(shù)人員在本申請(qǐng)的范圍內(nèi)可以對(duì)上述實(shí)施例進(jìn)行變化、修改、替換和變型。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1