一種暗網(wǎng)空間數(shù)據(jù)采集方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)絡(luò)信息技術(shù)領(lǐng)域,具體而言,涉及一種暗網(wǎng)空間數(shù)據(jù)采集方法及裝置。
【背景技術(shù)】
[0002]自從2006年云的設(shè)想被Google提出以來(lái),國(guó)內(nèi)外的學(xué)術(shù)界和產(chǎn)業(yè)界都給與了極大的關(guān)注。在學(xué)術(shù)領(lǐng)域,Scientific Cloud和Open Nebula是有名的云計(jì)算科學(xué)研究項(xiàng)目。在產(chǎn)業(yè)界,Google云計(jì)算平臺(tái)率先領(lǐng)跑,提出了分布式計(jì)算框架下分布式文件系統(tǒng)GFS (Google File System)、MapReduce分布式編程框架和并行處理的數(shù)據(jù)庫(kù)系統(tǒng)BigTable;由于云計(jì)算平臺(tái)將所有數(shù)據(jù)存儲(chǔ)在網(wǎng)上和能夠提供強(qiáng)大的計(jì)算資源等特點(diǎn),使其成為了研究熱點(diǎn)。
[0003]隨著互聯(lián)網(wǎng)不斷深入社會(huì)生活各個(gè)角落,互聯(lián)網(wǎng)的信息更新速度加快,且蘊(yùn)含豐富的空間位置信息。互聯(lián)網(wǎng)已是公眾獲取信息的主要渠道,相對(duì)傳統(tǒng)信息收集和傳播方式更為廣泛,更新速度快,成為了全社會(huì)、多領(lǐng)域、廣縱深、近實(shí)時(shí)的動(dòng)態(tài)映像。因此,充分利用互聯(lián)網(wǎng)信息,挖掘出有效的空間數(shù)據(jù),將是信息服務(wù)的一個(gè)重要內(nèi)容和發(fā)展方向,也是對(duì)傳統(tǒng)測(cè)繪手段獲取空間數(shù)據(jù)的一個(gè)有效補(bǔ)充手段。
[0004]根據(jù)IDC的數(shù)據(jù),人類社會(huì)一天產(chǎn)生的信息量為8兆萬(wàn)億字節(jié),而其中大量的內(nèi)容包含有與地理空間有關(guān)的信息。據(jù)統(tǒng)計(jì),18.78%的網(wǎng)絡(luò)資源包含有空間位置信息,而空間位置相關(guān)的用戶檢索則占18.6%。目前在Web 2.0時(shí)代,數(shù)以億計(jì)的網(wǎng)民還可以自發(fā)通過(guò)網(wǎng)絡(luò)(如微博、微信、社交網(wǎng)絡(luò)等)發(fā)布各種具有地理空間意義的信息,出現(xiàn)了大眾參與的自發(fā)地理信息系統(tǒng)(Volunteer GIS),如OpenStreetMap、Wikimapia等。此外,還有大量帶有地理信息的圖片和文本。海量VGI數(shù)據(jù)廣泛分布在互聯(lián)網(wǎng)中,如何有效的采集這些VGI數(shù)據(jù)則成為了研究的熱點(diǎn)。
[0005]暗網(wǎng)(Hidden Web)是指網(wǎng)絡(luò)上不能通過(guò)靜態(tài)鏈接獲取其內(nèi)容的web頁(yè)面,如各網(wǎng)站通過(guò)用輸入關(guān)鍵詞才能獲得表單內(nèi)容的頁(yè)面,需要登錄才能獲取的頁(yè)面等,這些頁(yè)面是目前搜索引擎所無(wú)法抓取的網(wǎng)頁(yè)、不能直接進(jìn)行檢索的網(wǎng)頁(yè),即“看不見(jiàn)”的網(wǎng)站。2000年由 Bright Planet 公司發(fā)布的一個(gè)名為《The Deep Web-Surfacing The Hidden Value》白皮書(shū)中提供的數(shù)據(jù),“暗網(wǎng)”包含100億個(gè)不重復(fù)的表單,其包含的信息量是“非暗網(wǎng)”的40倍,有效高質(zhì)內(nèi)容總量至少是后者的1000倍到2000倍。而此比率隨著時(shí)間推移正在越來(lái)越大。發(fā)掘、索引和豐富展示更多的暗網(wǎng)數(shù)據(jù),對(duì)各搜索引擎來(lái)說(shuō)已經(jīng)勢(shì)在必行或者正在實(shí)施。
[0006]綜上研究和開(kāi)發(fā)一種分布式的暗網(wǎng)空間數(shù)據(jù)采集技術(shù),具有重要的科研價(jià)值和市場(chǎng)前景。
【發(fā)明內(nèi)容】
[0007]本發(fā)明的目的在于提供一種暗網(wǎng)空間數(shù)據(jù)采集方法及裝置,以實(shí)現(xiàn)對(duì)暗網(wǎng)空間數(shù)據(jù)的采集。
[0008]第一方面,本發(fā)明實(shí)施例提供了一種暗網(wǎng)空間數(shù)據(jù)采集方法,包括:搭建分布式系統(tǒng)基礎(chǔ)架構(gòu);在所述分布式系統(tǒng)基礎(chǔ)架構(gòu)中,構(gòu)建Web請(qǐng)求池;根據(jù)所述Web請(qǐng)求池中Web請(qǐng)求的數(shù)量和類型,動(dòng)態(tài)計(jì)算任務(wù)量,并彈性分配給部署在所述分布式系統(tǒng)上的采集引擎;所述采集引擎根據(jù)分配到的采集任務(wù)基于異步I/O模型采集文本空間的暗網(wǎng)數(shù)據(jù),并存儲(chǔ)到分布式系統(tǒng)上的數(shù)據(jù)倉(cāng)庫(kù);解析采集到的所述暗網(wǎng)數(shù)據(jù)并抽取目標(biāo)信息。
[0009]結(jié)合第一方面,本發(fā)明實(shí)施例提供了第一方面的第一種可能的實(shí)施方式,其中,所述在所述分布式系統(tǒng)基礎(chǔ)架構(gòu)中,構(gòu)建Web請(qǐng)求池,包括:基于本體語(yǔ)料庫(kù)動(dòng)態(tài)生成用于匹配抓取內(nèi)容的關(guān)鍵詞列表;通過(guò)配置式的表單模板生成與所述關(guān)鍵詞列表中的關(guān)鍵詞匹配的查詢表單,作為Web請(qǐng)求;將生成的所述Web請(qǐng)求存儲(chǔ)于Web請(qǐng)求池。
[0010]結(jié)合第一方面,本發(fā)明實(shí)施例提供了第一方面的第二種可能的實(shí)施方式,其中,所述方法還包括:確定采集到的所述暗網(wǎng)數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)類型;根據(jù)所述暗網(wǎng)數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)類型進(jìn)行內(nèi)容解析并抽取其所包含的數(shù)據(jù)統(tǒng)計(jì)信息;根據(jù)所述數(shù)據(jù)統(tǒng)計(jì)信息構(gòu)建新的查詢表單,作為Web請(qǐng)求存儲(chǔ)到所述Web請(qǐng)求池中。
[0011]結(jié)合第一方面,本發(fā)明實(shí)施例提供了第一方面的第三種可能的實(shí)施方式,其中,所述解析采集到的所述暗網(wǎng)數(shù)據(jù)并抽取目標(biāo)信息,包括:采用基于可擴(kuò)展標(biāo)記語(yǔ)言XML構(gòu)建的解析模板對(duì)所述暗網(wǎng)數(shù)據(jù)進(jìn)行解析;其中所述解析過(guò)程中,基于XPath進(jìn)行細(xì)粒度節(jié)點(diǎn)的查找和定位,從而獲取所述目標(biāo)信息。
[0012]結(jié)合第一方面,本發(fā)明實(shí)施例提供了第一方面的第四種可能的實(shí)施方式,其中,所述方法還包括:對(duì)抽取到的所述目標(biāo)信息進(jìn)行數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換與格式標(biāo)準(zhǔn)化;其中,所述目標(biāo)信息包括屬性信息,將所述屬性信息與給定的數(shù)據(jù)結(jié)構(gòu)進(jìn)行映射,實(shí)現(xiàn)數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換;將所述屬性信息按照既定的標(biāo)準(zhǔn)進(jìn)行轉(zhuǎn)換和補(bǔ)充,得到標(biāo)準(zhǔn)化的表達(dá)。
[0013]結(jié)合第一方面,本發(fā)明實(shí)施例提供了第一方面的第五種可能的實(shí)施方式,其中,所述方法還包括:將提取的目標(biāo)信息存儲(chǔ)到MongoDB數(shù)據(jù)庫(kù)中。
[0014]結(jié)合第一方面,本發(fā)明實(shí)施例提供了第一方面的第六種可能的實(shí)施方式,其中,所述方法還包括:根據(jù)文本屬性和空間屬性分別建立索引表,為所述目標(biāo)信息查詢提供查詢通道。
[0015]第二方面,本發(fā)明實(shí)施例還提供了一種暗網(wǎng)空間數(shù)據(jù)采集裝置,包括:系統(tǒng)架構(gòu)搭建模塊,用于搭建分布式系統(tǒng)基礎(chǔ)架構(gòu);請(qǐng)求池構(gòu)建模塊,用于在所述分布式系統(tǒng)基礎(chǔ)架構(gòu)中,構(gòu)建Web請(qǐng)求池;任務(wù)分配模塊,用于根據(jù)所述Web請(qǐng)求池中Web請(qǐng)求的數(shù)量和類型,動(dòng)態(tài)計(jì)算任務(wù)量,并彈性分配給部署在所述分布式系統(tǒng)上的采集引擎;數(shù)據(jù)采集模塊,用于所述采集引擎根據(jù)分配到的采集任務(wù)基于異步I/O模型采集文本空間的暗網(wǎng)數(shù)據(jù),并存儲(chǔ)到分布式系統(tǒng)上的數(shù)據(jù)倉(cāng)庫(kù);信息抽取模塊,用于解析采集到的所述暗網(wǎng)數(shù)據(jù)并抽取目標(biāo)信息。
[0016]結(jié)合第二方面,本發(fā)明實(shí)施例提供了第二方面的第一種可能的實(shí)施方式,其中,所述裝置還包括:Web請(qǐng)求池?cái)U(kuò)充模塊,用于確定采集到的所述暗網(wǎng)數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)類型;根據(jù)所述暗網(wǎng)數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)類型進(jìn)行內(nèi)容解析并抽取其所包含的數(shù)據(jù)統(tǒng)計(jì)信息;根據(jù)所述數(shù)據(jù)統(tǒng)計(jì)信息構(gòu)建新的查詢表單,作為Web請(qǐng)求存儲(chǔ)到所述Web請(qǐng)求池中。
[0017]結(jié)合第二方面,本發(fā)明實(shí)施例提供了第二方面的第二種可能的實(shí)施方式,其中,所述裝置還包括:結(jié)構(gòu)轉(zhuǎn)換與標(biāo)準(zhǔn)化模塊,用于對(duì)抽取到的所述目標(biāo)信息進(jìn)行數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換與格式標(biāo)準(zhǔn)化;其中,所述目標(biāo)信息包括屬性信息,將所述屬性信息與給定的數(shù)據(jù)結(jié)構(gòu)進(jìn)行映射,實(shí)現(xiàn)數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換;將所述屬性信息按照既定的標(biāo)準(zhǔn)進(jìn)行轉(zhuǎn)換和補(bǔ)充,得到標(biāo)準(zhǔn)化的表達(dá);和/或,還包括:存儲(chǔ)模塊,用于將提取的目標(biāo)信息存儲(chǔ)到MongoDB數(shù)據(jù)庫(kù)中。
[0018]本發(fā)明實(shí)施例的暗網(wǎng)空間數(shù)據(jù)采集方法及裝置,采用分布式系統(tǒng)基礎(chǔ)架構(gòu)為基礎(chǔ),使得可以在不了解分布式底層細(xì)節(jié)的情況下,開(kāi)發(fā)分布式采集程序,本