一種面向主題的信息采集方法和系統(tǒng)的制作方法

文檔序號(hào)：6470862閱讀：325來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專(zhuān)利名稱(chēng)：一種面向主題的信息采集方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種信息采集技術(shù)，具體的說(shuō)，涉及一種面向主題的信息采集方法和系統(tǒng)。
背景技術(shù)：
搜索引擎(Search Engine)的誕生，使得檢索信息的能力獲得了極大的提高。盡管搜索引擎得到了飛速的發(fā)展和廣泛的應(yīng)用，當(dāng)前的搜索引擎仍然無(wú)法完全滿(mǎn)足用戶(hù)的需求，在檢索結(jié)果的準(zhǔn)確性、覆蓋率、時(shí)效性等方面都還存在不足，搜索引擎依然面臨巨大的技術(shù)挑戰(zhàn)。通用搜索引擎為用戶(hù)提供不限定主題、內(nèi)容廣泛的信息搜索服務(wù)，為了保證檢索內(nèi)容的覆蓋率，搜索引擎希望能夠索引盡可能多的內(nèi)容。同時(shí)為了保證檢索結(jié)果的時(shí)效性，需要盡可能減少索引庫(kù)與數(shù)據(jù)源網(wǎng)站數(shù)據(jù)同步的延時(shí)。
在通用搜索引擎面臨上述難以解決的問(wèn)題時(shí)，面向主題的搜索引擎 (又稱(chēng)為垂直搜索引擎)受到人們?cè)絹?lái)越多的關(guān)注。如面向BBS、面向視頻內(nèi)容、面向科技文獻(xiàn)等各種針對(duì)特定領(lǐng)域、特定主題、特定網(wǎng)站類(lèi)型的搜索引擎。面向主題的搜索引擎只對(duì)特定網(wǎng)站或特定主題的網(wǎng)頁(yè)進(jìn)行索引，從信息采集的角度，面向主題的搜索引擎需要過(guò)濾與本主題無(wú)關(guān)的內(nèi) 容，從而減少了網(wǎng)頁(yè)采集和分析的數(shù)據(jù)規(guī)模。面向主題的搜索引擎可以利用領(lǐng)域知識(shí)和特點(diǎn)，通過(guò)具有特色的采集調(diào)度和內(nèi)容抽取技術(shù)，實(shí)現(xiàn)比通用搜索引擎獲取網(wǎng)頁(yè)更高的效率，并提高信息抽取的質(zhì)量。
現(xiàn)有技術(shù)中的面向主題的搜索引擎主要由網(wǎng)頁(yè)釆集、網(wǎng)頁(yè)信息抽取、索引、檢索等模塊組成。其中網(wǎng)頁(yè)采集抽取是搜索引擎的數(shù)據(jù)來(lái)源和基礎(chǔ)。面向主題的網(wǎng)頁(yè)采集方法的一般步驟分為
1) 設(shè)定采集種子網(wǎng)頁(yè)，并提取該網(wǎng)頁(yè)中出現(xiàn)的新鏈接，作為待采集的網(wǎng)頁(yè)；
2) 采集網(wǎng)頁(yè)；
3) 對(duì)采集到的網(wǎng)頁(yè)進(jìn)行分析，判斷網(wǎng)頁(yè)是否與主題相關(guān)，并且提取出該網(wǎng)頁(yè)中出現(xiàn)的新鏈接，作為待釆集的網(wǎng)頁(yè)。并重復(fù)步驟2。
從降低網(wǎng)絡(luò)帶寬和磁盤(pán)存儲(chǔ)需求的角度出發(fā)，一個(gè)優(yōu)秀的面向主題的網(wǎng)絡(luò)信息采集方法應(yīng)該具有較高的采集有效性，即所采集頁(yè)面中與主題相關(guān)的頁(yè)面所占的比例要盡可能的高，這樣可以極大的降低無(wú)關(guān)數(shù)據(jù)的釆集量和存儲(chǔ)量。

發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問(wèn)題是提供一種面向主題的信息采集方法和系統(tǒng)，來(lái)提高面向主題的互聯(lián)網(wǎng)信息采集的有效性。
根據(jù)本發(fā)明的一個(gè)方面，提供了一種面向主題的信息采集方法，包
括下列步驟
1) 根據(jù)待采集鏈接隊(duì)列中鏈接的順序，從所述待采集鏈接隊(duì)列中獲得多個(gè)鏈接，采集并存儲(chǔ)所述多個(gè)鏈接的頁(yè)面內(nèi)容，提取所述頁(yè)面中的新鏈接，判定所述頁(yè)面的主題相關(guān)性，提取所述頁(yè)面的相關(guān)鏈接集合，將所述新鏈接添加到所述待采集鏈接隊(duì)列中；
2) 根據(jù)所述頁(yè)面的相關(guān)鏈接集合和所述頁(yè)面的主題相關(guān)性，計(jì)算所有鏈接的頁(yè)面的主題相關(guān)性，并調(diào)整添加了所述新鏈接的待采集鏈接隊(duì)列中的鏈接的順序，重復(fù)步驟1)和2)直至采集結(jié)束。
其中，所述步驟1)中的所述提取所述頁(yè)面的相關(guān)鏈接集合包括下列步驟
11) 根據(jù)所述頁(yè)面內(nèi)容，構(gòu)建所述頁(yè)面的DOM樹(shù)；
12) 提取所述DOM樹(shù)的極大并列子樹(shù)族，由所述極大并列子樹(shù)族的并列節(jié)點(diǎn)集合構(gòu)成所述頁(yè)面的相關(guān)鏈接集合。
其中，所述步驟11)是利用開(kāi)源工具HTML Parser完成。
其中，所述步驟11 )還包括
111)刪除所述DOM樹(shù)中的非鏈接型葉子節(jié)點(diǎn)。
其中，所述步驟12)所述提取所述DOM樹(shù)的極大并列子樹(shù)族包括
A. 置并列子樹(shù)族集合5 = 0,置棧ST = 0,將所述DOM樹(shù)的根節(jié)點(diǎn) root添力。到棧中；
B. 如果ST^0,則集合S即為所求集合，否則取出ST的棧頂元素p;
C. 如果p是一個(gè)葉子節(jié)點(diǎn)，返回步驟B;
D. 如果p只有一個(gè)兒子節(jié)點(diǎn)q，將q添加到棧ST當(dāng)中，返回步驟B;
E. 判斷<formula>formula see original document page 6</formula>是否構(gòu)成了以p為根節(jié)點(diǎn)的并列
子樹(shù)族，如果是，則將T添力。到S當(dāng)中，否則以此將
cM《0),cM《0),…,cM《々)0)添力。到棧ST當(dāng)中，轉(zhuǎn)至步驟B。
其中，所述步驟1)中所述判定所述頁(yè)面的主題相關(guān)性采用文本分類(lèi) 方法。
其中，所述步驟2)中所述根據(jù)所述頁(yè)面的相關(guān)鏈接集合和所述頁(yè)面的主題相關(guān)性，計(jì)算所有鏈接的頁(yè)面的主題相關(guān)性，包括
21) 對(duì)于已經(jīng)采集的，但非確實(shí)主題相關(guān)的頁(yè)面，根據(jù)所述非確實(shí)主題相關(guān)的頁(yè)面中的新鏈接的個(gè)數(shù)，以及所述非確實(shí)主題相關(guān)的頁(yè)面中的新鏈接的頁(yè)面的主題相關(guān)性，計(jì)算所述非確實(shí)主題相關(guān)的頁(yè)面的主題相關(guān) 性；
22) 對(duì)于步驟1)所述新鏈接所指向的頁(yè)面，根據(jù)所述新鏈接所在的相關(guān)鏈接集合內(nèi)的鏈接的平均主題相關(guān)性，以及所述新鏈接所在的鏈接的個(gè)數(shù)，計(jì)算所述新鏈接的頁(yè)面的主題相關(guān)性。
其中，所述步驟21 )和所述步驟22 )根據(jù)雅各比迭代法和高斯一塞德爾迭代法進(jìn)行計(jì)算。
其中，所述雅各比迭代法和高斯一塞德?tīng)柕ㄟM(jìn)行8至12次迭代。根據(jù)本發(fā)明的另一方面，還提供了一種面向主題的信息采集系統(tǒng)，包括..
待采集鏈接隊(duì)列，用于存儲(chǔ)鏈接；
存儲(chǔ)信息庫(kù)，用于存儲(chǔ)頁(yè)面內(nèi)容、頁(yè)面的相關(guān)鏈接集合和頁(yè)面的主題相關(guān)性；
多線(xiàn)程采集器，用于根據(jù)鏈接的順序，從所述待采集鏈接隊(duì)列中獲得多個(gè)鏈接，并從互聯(lián)網(wǎng)中采集所述多個(gè)鏈接的頁(yè)面的內(nèi)容并存儲(chǔ)至所述存儲(chǔ)信息庫(kù)，提取所述頁(yè)面中的新鏈接，判定所述頁(yè)面的主題相關(guān)性，提取所述頁(yè)面的相關(guān)鏈接集合，并存儲(chǔ)所述頁(yè)面的主題相關(guān)性和所述頁(yè)面的相關(guān)鏈接集合到所述存儲(chǔ)信息庫(kù)，將所述新鏈接添加到所述待采集鏈接隊(duì) 列；
采集調(diào)度器，用于根據(jù)所述頁(yè)面的相關(guān)鏈接集合和所述頁(yè)面的主題相關(guān)性，計(jì)算所述待采集鏈接隊(duì)列中所有鏈接的頁(yè)面的主題相關(guān)性，并調(diào)整所迷待采集鏈接隊(duì)列中鏈接的順序。
在該系統(tǒng)中，所述多線(xiàn)程采集器包括提取相關(guān)鏈接集合裝置，用于提取所述頁(yè)面的相關(guān)鏈接集合，所述提取相關(guān)鏈接集合裝置進(jìn)一步包括
用于根據(jù)所述頁(yè)面內(nèi)容，構(gòu)建所述頁(yè)面的DOM樹(shù)的裝置；和
用于提取所述DOM樹(shù)的極大并列子樹(shù)族，由所述極大并列子樹(shù)族的并列節(jié)點(diǎn)集合構(gòu)成所述頁(yè)面的相關(guān)鏈接集合的裝置。
在該系統(tǒng)中，所述采集調(diào)度器包括用于計(jì)算所有鏈接的頁(yè)面的主題相關(guān)性的裝置，所述用于計(jì)算所有鏈接的頁(yè)面的主題相關(guān)性的裝置包括
計(jì)算非確實(shí)主題相關(guān)的頁(yè)面的主題相關(guān)性的裝置，用于對(duì)于已經(jīng)采集的，但非確實(shí)主題相關(guān)的頁(yè)面，根據(jù)所述非確實(shí)主題相關(guān)的頁(yè)面中的新鏈接的個(gè)數(shù)，以及所述非確實(shí)主題相關(guān)的頁(yè)面中的新鏈接的頁(yè)面的主題相關(guān) 性，計(jì)算所述非確實(shí)主題相關(guān)的頁(yè)面的主題相關(guān)性；
計(jì)算新鏈接的頁(yè)面的主題相關(guān)性的裝置，用于對(duì)于所述新鏈接所指向的頁(yè)面，根據(jù)所述新鏈接所在的相關(guān)鏈接集合內(nèi)的鏈接的平均主題相關(guān) 性，以及所述新鏈接所在的鏈接的個(gè)數(shù)，計(jì)算所述新鏈接的頁(yè)面的主題相關(guān)性。
本發(fā)明的有益效果在于本發(fā)明放棄采用鏈接的文本信息，應(yīng)用基于鏈接拓樸結(jié)構(gòu)信息，極大的減小了對(duì)存儲(chǔ)空間的需求；并且提高了面向主題信息采集的有效性。

圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的面向主題的信息采集系統(tǒng)框架圖；圖2是DOM樹(shù)并列葉子節(jié)點(diǎn)集合示意圖。
具體實(shí)施例方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白，以下結(jié)合附圖，對(duì)根據(jù)本發(fā)明一個(gè)實(shí)施例的面向主題的信息采集方法進(jìn)一步詳細(xì)說(shuō)明。應(yīng)
當(dāng)理解，此處所描述的具體實(shí)施例僅用以解釋本發(fā)明，并不用于限定本發(fā)明。
面向主題信息采集方法基于鏈接拓樸結(jié)構(gòu)分析的思想，根據(jù)網(wǎng)頁(yè)信息分析以及主題相關(guān)性預(yù)測(cè)方法對(duì)互聯(lián)網(wǎng)頁(yè)面進(jìn)行采集，極大地提高視面向主題采集有效性。首先對(duì)互聯(lián)網(wǎng)頁(yè)面內(nèi)容進(jìn)行分析，提取并列鏈接集合，判定該頁(yè)面的主題相關(guān)性；然后依據(jù)該互聯(lián)網(wǎng)頁(yè)面內(nèi)的鏈接之間的拓樸結(jié) 構(gòu)信息，計(jì)算該頁(yè)面內(nèi)鏈接所指向的頁(yè)面的主題相關(guān)性；最后利用可根據(jù) 主題相關(guān)性調(diào)整采集順序的主題信息采集系統(tǒng)進(jìn)行信息采集。
根據(jù)本發(fā)明一個(gè)實(shí)施例，整個(gè)采集系統(tǒng)框架的運(yùn)行機(jī)制如圖l所示，
具體包括下列3步
1) 設(shè)置初始采集鏈接集合(Seed),并添加到待采集鏈接隊(duì)列 (Queue )。
2) 多線(xiàn)程釆集器(MTD, Multi-threaded downloader)從待采集4連接隊(duì)列(Queue )中根據(jù)待采集鏈接的順序獲得多個(gè)鏈接，并從互聯(lián)網(wǎng)(WEB ) 中采集這些鏈接的頁(yè)面的內(nèi)容，提取該頁(yè)面中的新鏈接，MTD根據(jù)下述方法分析該頁(yè)面，提取該頁(yè)面的相關(guān)鏈接集合，并判定該頁(yè)面的主題相關(guān) 性。其中所述多個(gè)鏈接一般占Queue中所有鏈接的10%至30%。把頁(yè)面的內(nèi)容、該頁(yè)面的主題相關(guān)性和該頁(yè)面的相關(guān)鏈接集合信息存儲(chǔ)到存儲(chǔ)信息庫(kù)(Storage)中，將所述新鏈接添加到Queue中。
其中，提取該頁(yè)面的相關(guān)鏈接集合是對(duì)HTML頁(yè)面的建立DOM樹(shù)模型，從DOM樹(shù)模型中抽取極大并列子樹(shù)族，進(jìn)而提取互聯(lián)網(wǎng)頁(yè)面中相關(guān) 鏈接集合。
利用開(kāi)源工具HTML Parser對(duì)頁(yè)面的HTML文本內(nèi)容完成DOM樹(shù)模型的構(gòu)建。由于頁(yè)面采集過(guò)程只涉及到HTML文本中的鏈接信息，因此，優(yōu)選的可以將HTML文本中非鏈接型葉子節(jié)點(diǎn)從DOM樹(shù)中進(jìn)行刪除，從而完成對(duì)DOM數(shù)的壓縮。首先找到D OM樹(shù)中的一個(gè)非鏈接型葉子節(jié)點(diǎn)，如果找不到，則結(jié)束；否則刪除該節(jié)點(diǎn)，并重復(fù)上述操作直到結(jié)束。
定義rree(p)描述一棵以節(jié)點(diǎn)p為根的樹(shù)，cw(p)表示p的兒子節(jié)點(diǎn)的個(gè) 數(shù)，cM《0),c/z/W2 0)，…,cM《(p)0)分別表示p的c"O)個(gè)兒子節(jié)點(diǎn)；
對(duì)于一個(gè)節(jié)點(diǎn)p而言，它的所有兒子節(jié)點(diǎn)是有序的，序列的順序即節(jié) 點(diǎn)所對(duì)應(yīng)的HTML文本在原始頁(yè)面中的上下文關(guān)系；
稱(chēng)7>^(>)與7>ee(《)具有相同的結(jié)構(gòu)，當(dāng)且^又當(dāng)節(jié)點(diǎn)p和節(jié)點(diǎn)q均為葉子節(jié)點(diǎn)時(shí)，或者節(jié)點(diǎn)p和節(jié)點(diǎn)q均為非葉子節(jié)點(diǎn)時(shí)，m(p) = c"(《)，且對(duì)于
vu ^ ^ , o)和cM《(《)也具有相同的結(jié)構(gòu)；
如果對(duì)于一個(gè)節(jié)點(diǎn)p,它有兩個(gè)或兩個(gè)以上的葉子節(jié)點(diǎn)，且任意兩個(gè)
葉子節(jié)點(diǎn)c/n'W, (; )和c/z//《.O)所構(gòu)成的子樹(shù)7>ee(c/z/W, (p))和7Vee(cM《O》都具有相同結(jié)構(gòu)，則稱(chēng)2>ee(cW(p)),rree(c歸,O))，...， 7Vee(cM《(p)O))構(gòu)成了以節(jié) 點(diǎn)p為才艮節(jié)點(diǎn)的并列子樹(shù)族。TV^O!), 7>ee(>2)，…，7>ee(> )構(gòu)成以root為根節(jié)點(diǎn)的一個(gè)極大并列子樹(shù)族T ，當(dāng)且僅當(dāng)不存在并列子樹(shù)族 r^(7Vee(仏)，7Vee(《2),…,r,ee(^》，它滿(mǎn)足3/,y,1 S/S"，1《y^m, j吏4尋^是； ,的牙且
先。
r^e(A)， 7>^(/72)，.." 7Vee(凡)構(gòu)成一個(gè)以root為才艮節(jié)點(diǎn)并列子樹(shù)族T, 假設(shè)這n棵樹(shù)中每一棵樹(shù)都包含有m+l個(gè)節(jié)點(diǎn)，定義對(duì)于VU&^w，
2(/0 =仏。《1,...,^4表示7>"(^,)的前序遍歷結(jié)果，樹(shù)的前序、后序或者中序遍歷結(jié)果都是唯一的，在前序遍歷結(jié)果中顯然
^ = {、,^，...,^}被稱(chēng)為并列子樹(shù)族T的一個(gè)并列節(jié)點(diǎn)集合。如圖2所示，
其中填充圖案相同的節(jié)點(diǎn)為并列葉子節(jié)點(diǎn)。
任何兩個(gè)極大并列子樹(shù)族都是不相交的。如果兩個(gè)極大并列子樹(shù)族 r—7V^O,),7yee02),…,7^e(/0), 它們的共同父親是；。，以及 r = (7Vee(A),rree(《2),…,7V—《m)}，它們的共同父親是《。，且有《。- p。；假設(shè)T 和T，相交，那么必然存在一個(gè)節(jié)點(diǎn)r，使得&和p。都是r的祖先，根據(jù)樹(shù) 的性質(zhì)有要么《。是P。的祖先、要么A是《。的祖先，這與T和T，是極大子樹(shù) 族矛盾，所以任何兩個(gè)極大并列子樹(shù)族都是不相交的。
根據(jù)以上描述，從DOM樹(shù)中I是取極大并列子樹(shù)族的步驟如下
A. 置并列子樹(shù)族集合5 = 0，置棧S2^0,將DOM樹(shù)的根節(jié)點(diǎn)root 添加到棧中；
B. 如果51 = 0,轉(zhuǎn)至步驟F;否則取出ST的棧頂元素p;
C. 如果p是一個(gè)葉子節(jié)點(diǎn)，返回步驟B,否則進(jìn)行步驟D;
D. 如果p只有一個(gè)兒子節(jié)點(diǎn)q,將q添加到棧ST當(dāng)中，返回步驟B, 否則進(jìn)行步驟E;
E. 判斷7" = {7>^(^,'械0》|/ = 1.丄"(;7)}是否構(gòu)成了以p為才艮節(jié)點(diǎn)的并列
子樹(shù)族，如果是，則將T添力口到S當(dāng)中，否則以此將 cM《0 ),cM《O),…,cM《咖)0)添力。到棧ST當(dāng)中，轉(zhuǎn)至步驟B;
F. 集合S即為所求集合。的，都是O(n)。
獲取每一極大并列子樹(shù)族的每一個(gè)由葉子節(jié)點(diǎn)構(gòu)成的并列節(jié)點(diǎn)集合，則每個(gè)集合構(gòu)成該DOM樹(shù)描述的HTML頁(yè)面中的一個(gè)相關(guān)鏈接集合。
互聯(lián)網(wǎng)頁(yè)面的主題相關(guān)性是指某頁(yè)面確實(shí)是與主題相關(guān)，或者某頁(yè)面所指向的頁(yè)面都具有很高的主題相關(guān)性。可以理解這個(gè)定義是遞歸的。
用/(/)表示鏈接/所指向的頁(yè)面的主題相關(guān)性，也就是鏈接/所指向頁(yè) 面的主題相關(guān)程度，/(/>
, /(/)越大鏈接/的主題相關(guān)性越大，/(/)越
小鏈接/的主題相關(guān)性越小。用P(7)表示鏈接/所指向的頁(yè)面；用
0!^77fo^(/))表示頁(yè)面P(/)中的所有鏈接。一個(gè)頁(yè)面P(/)可能擁有若干個(gè)相
關(guān)鏈接集合。這里用鏈接集合re/afe《(P(/)), retoe《(i5(/)),…，retoe《(i5(/))表示頁(yè)面戶(hù)(/)的s個(gè)相關(guān)鏈接集合，顯然有
本領(lǐng)域技術(shù)人員可以理解，一個(gè)鏈接可能存在于多個(gè)相關(guān)鏈接集合當(dāng)中。
用F表示目前已經(jīng)采集到的頁(yè)面集合，R表示已經(jīng)采集到的確實(shí)主題相關(guān)的頁(yè)面所組成的集合，顯然有i e尸。例如，主題為視頻，R表示已經(jīng) 采集到的含有視頻的頁(yè)面所組成的集合。N表示目前待采集的頁(yè)面集合，
定義集合= {v 1 / e。^!7ifo(P(V)),P(V)e "表示鏈接/出現(xiàn)過(guò)的頁(yè)面。
對(duì)于已經(jīng)采集到的頁(yè)面，從互聯(lián)網(wǎng)中獲得HTML頁(yè)面內(nèi)容，可以得到大量的頁(yè)面特征信息，一般可利用文本分類(lèi)以及其它相關(guān)技術(shù)進(jìn)行主題相關(guān)性判斷，確定該頁(yè)面是否確實(shí)主題相關(guān)。也即
對(duì)于P(/)ei 的情況，= 1 ( 1 )
3)采集調(diào)度器(Scheduler),每隔一段時(shí)間以后將會(huì)根據(jù)Storage中存儲(chǔ)的相關(guān)鏈接集合信息和如上所述的已經(jīng)采集到的頁(yè)面的主題相關(guān)性，計(jì)算Queue中所有鏈接的頁(yè)面的主題相關(guān)性，并調(diào)整Queue中鏈接的采集順序，然后重復(fù)執(zhí)行步驟2)。
如果一個(gè)頁(yè)面它所指向的頁(yè)面大多數(shù)都是與主題相關(guān)的話(huà)，則稱(chēng)該頁(yè) 面在面向主題的信息釆集中是一個(gè)好的發(fā)散型(Hub)頁(yè)面。因?yàn)榻^大多數(shù) 的互聯(lián)網(wǎng)頁(yè)面中，主題相關(guān)的頁(yè)面總是并列出現(xiàn)的；所以在同一個(gè)頁(yè)面中的一個(gè)相關(guān)鏈接集合中的若干個(gè)鏈接所指向的頁(yè)面具有很高的主題相關(guān) 性的話(huà)，那么該集合中其余的鏈接指向的頁(yè)面也具有很高的相關(guān)性。
根據(jù)上述原理，對(duì)于已經(jīng)采集的，但非確實(shí)主題相關(guān)的頁(yè)面，根據(jù)所述非確實(shí)主題相關(guān)的頁(yè)面中的新鏈接的個(gè)數(shù)，以及所述非確實(shí)主題相關(guān)的頁(yè)面中的新鏈接的頁(yè)面的主題相關(guān)性，計(jì)算所述非確實(shí)主題相關(guān)的頁(yè)面的主題相關(guān)性對(duì)于<formula>formula see original document page 12</formula>, 且<formula>formula see original document page 12</formula>的情況,<formula>formula see original document page 12</formula>(2)
其中，符號(hào)| l表示計(jì)算集合中元素個(gè)數(shù)。
對(duì)于目前待釆集的頁(yè)面集合，根據(jù)所述新鏈接所在的相關(guān)鏈接集合內(nèi) 的鏈接的平均主題相關(guān)性，以及所述新鏈接所在的鏈接的個(gè)數(shù)，計(jì)算所述新鏈接的頁(yè)面的主題相關(guān)性對(duì)于e iV時(shí)情況，
<formula>formula see original document page 12</formula> (3)
根據(jù)上述方程(1 )、 ( 2 )和(3 )對(duì)/(/)進(jìn)行計(jì)算。類(lèi)似于一種基于拓
樸關(guān)系的頁(yè)面重要程度評(píng)分(Page Rank)的計(jì)算方式，可以采用雅各比 (Jacobi)迭代法與高斯一塞德?tīng)?Gauss-Seidel)迭代法對(duì)/(/)進(jìn)行求解。
為了控制迭代過(guò)程的計(jì)算消耗，通過(guò)實(shí)驗(yàn)論證，優(yōu)選的，采用的迭代次數(shù) 為8至12次。
根據(jù)頁(yè)面的主題相關(guān)性，調(diào)整添加了新鏈接的待采集鏈接隊(duì)列中的鏈接的順序，重復(fù)執(zhí)行上述步驟2)和步驟3 )直到Queue中鏈接為空時(shí)結(jié) 束。本領(lǐng)域技術(shù)人員可以理解，也可以自行設(shè)置采集頁(yè)面數(shù)量的上限閾值，達(dá)到這個(gè)閾值以后，自動(dòng)結(jié)束并退出采集程序。
綜上所述，根據(jù)本發(fā)明的一個(gè)具體實(shí)施例，提供了一種面向主題的信息采集系統(tǒng)，包括
待采集鏈接隊(duì)列，用于存儲(chǔ)鏈接；
存儲(chǔ)信息庫(kù)，用于存儲(chǔ)頁(yè)面內(nèi)容、頁(yè)面的相關(guān)鏈接集合和頁(yè)面的主題相關(guān)性；
多線(xiàn)程釆集器，用于根據(jù)鏈接的順序，從待釆集鏈接隊(duì)列中獲得多個(gè) 鏈接，并從互聯(lián)網(wǎng)中采集該多個(gè)鏈接的頁(yè)面的內(nèi)容并存儲(chǔ)至存儲(chǔ)信息庫(kù)，提取該頁(yè)面中的新鏈接，判定該頁(yè)面的主題相關(guān)性，提取該頁(yè)面的相關(guān)鏈接集合，并存儲(chǔ)該頁(yè)面的主題相關(guān)性和該頁(yè)面的相關(guān)鏈接集合到存儲(chǔ)信息庫(kù)，將新鏈接添加到上述待采集鏈接隊(duì)列；
采集調(diào)度器，用于根據(jù)該頁(yè)面的相關(guān)鏈接集合和頁(yè)面的主題相關(guān)性，計(jì)算上述待采集鏈接隊(duì)列中所有鏈接的頁(yè)面的主題相關(guān)性，并調(diào)整所述待采集鏈接隊(duì)列中鏈接的順序。
在該系統(tǒng)中，多線(xiàn)程采集器包括提取相關(guān)鏈接集合裝置，用于提取頁(yè) 面的相關(guān)鏈接集合，該提取相關(guān)鏈接集合裝置進(jìn)一步包括
用于根據(jù)頁(yè)面內(nèi)容，構(gòu)建頁(yè)面的DOM樹(shù)的裝置；和
用于提取該DOM樹(shù)的極大并列子樹(shù)族，由該極大并列子樹(shù)族的并列節(jié)點(diǎn)集合構(gòu)成頁(yè)面的相關(guān)鏈接集合的裝置。
在該系統(tǒng)中，釆集調(diào)度器包括用于計(jì)算所有鏈接的頁(yè)面的主題相關(guān)性的裝置，所述用于計(jì)算所有鏈接的頁(yè)面的主題相關(guān)性的裝置包括
計(jì)算非確實(shí)主題相關(guān)的頁(yè)面的主題相關(guān)性的裝置，其用于對(duì)于已經(jīng)采集的，但非確實(shí)主題相關(guān)的頁(yè)面，根據(jù)該非確實(shí)主題相關(guān)的頁(yè)面中的新鏈接的個(gè)數(shù)，以及該非確實(shí)主題相關(guān)的頁(yè)面中的新鏈接的頁(yè)面的主題相關(guān) 性，計(jì)算該非確實(shí)主題相關(guān)的頁(yè)面的主題相關(guān)性；
計(jì)算新鏈接的頁(yè)面的主題相關(guān)性的裝置，其用于對(duì)于新鏈接所指向的頁(yè)面，根據(jù)該新鏈接所在的相關(guān)鏈接集合內(nèi)的鏈接的平均主題相關(guān)性，以及該新鏈接所在的鏈接的個(gè)數(shù)，計(jì)算該新鏈接的頁(yè)面的主題相關(guān)性。
應(yīng)該注意到并理解，在不脫離后附的權(quán)利要求所要求的本發(fā)明的精神和范圍的情況下，能夠?qū)ι鲜鲈敿?xì)描述的本發(fā)明做出各種修改和改進(jìn)。因此，要求保護(hù)的技術(shù)方案的范圍不受所給出的任何特定示范教導(dǎo)的限制。
權(quán)利要求
1. 一種面向主題的信息采集方法，包括下列步驟:1)根據(jù)待采集鏈接隊(duì)列中鏈接的順序，從所述待采集鏈接隊(duì)列中獲得多個(gè)鏈接，采集并存儲(chǔ)所述多個(gè)鏈接的頁(yè)面內(nèi)容，提取所述頁(yè)面中的新鏈接，判定所述頁(yè)面的主題相關(guān)性，提取所述頁(yè)面的相關(guān)鏈接集合，將所述新鏈接添加到所述待采集鏈接隊(duì)列中；2)根據(jù)所述頁(yè)面的相關(guān)鏈接集合和所述頁(yè)面的主題相關(guān)性，計(jì)算所有鏈接的頁(yè)面的主題相關(guān)性，并調(diào)整添加了所述新鏈接的待采集鏈接隊(duì)列中的鏈接的順序，重復(fù)步驟1)和2)直至采集結(jié)束。
2. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述步驟1 )中的所述提取所述頁(yè)面的相關(guān)鏈接集合包括下列步驟11 )才艮據(jù)所述頁(yè)面內(nèi)容，構(gòu)建所述頁(yè)面的DOM樹(shù)；12 )提取所述DOM樹(shù)的極大并列子樹(shù)族，由所述極大并列子樹(shù)族的并列節(jié)點(diǎn)集合構(gòu)成所述頁(yè)面的相關(guān)鏈接集合。
3. 根據(jù)權(quán)利要求2所述的方法，其特征在于，所述步驟11)是利用開(kāi)源工具HTML Parser完成。
4. 根據(jù)權(quán)利要求2所述的方法，其特征在于，所述步驟ll)還包括 111)刪除所述DOM樹(shù)中的非鏈接型葉子節(jié)點(diǎn)。
5. 根據(jù)權(quán)利要求2所述的方法，其特征在于，所述步驟12)所述提取所述DOM樹(shù)的極大并列子樹(shù)族包括A. 置并列子樹(shù)族集合5 = 0，置棧S7^0,將所述DOM樹(shù)的根節(jié)點(diǎn) root添力口到棧中；B. 如果sr-0，則集合S即為所求集合，否則取出ST的棧頂元素p;C. 如果p是一個(gè)葉子節(jié)點(diǎn)，返回步驟B;D. 如果p只有一個(gè)兒子節(jié)點(diǎn)q，將q添加到棧ST當(dāng)中，返回步驟B;E. 判斷r—r^e(cM《0))l!^l…c"(p》是否構(gòu)成了以p為沖艮節(jié)點(diǎn)的并列子樹(shù)族，如果是，則將T添力口到 S 當(dāng)中，否貝'j以此將 cM《0),cM《0),…,cM《(p)0)添加到棧ST當(dāng)中，轉(zhuǎn)至步驟B。
6. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述步驟1 )所述判定所述頁(yè)面的主題相關(guān)性釆用文本分類(lèi)方法。
7. 根據(jù)權(quán)利要求l所述的方法，其特征在于，所述步驟2)所述根據(jù) 所述頁(yè)面的相關(guān)鏈接集合和所述頁(yè)面的主題相關(guān)性，計(jì)算所有鏈接的頁(yè)面的主題相關(guān)性，包括21) 對(duì)于已經(jīng)采集的，但非確實(shí)主題相關(guān)的頁(yè)面，根據(jù)所述非確實(shí)主題相關(guān)的頁(yè)面中的新鏈接的個(gè)數(shù)，以及所述非確實(shí)主題相關(guān)的頁(yè)面中的新鏈接的頁(yè)面的主題相關(guān)性，計(jì)算所述非確實(shí)主題相關(guān)的頁(yè)面的主題相關(guān)性；22) 對(duì)于步驟1)所述新鏈接所指向的頁(yè)面，根據(jù)所述新鏈接所在的相關(guān)鏈接集合內(nèi)的鏈接的平均主題相關(guān)性，以及所述新鏈接所在的鏈接的個(gè)數(shù)，計(jì)算所述新鏈接的頁(yè)面的主題相關(guān)性。
8. 根據(jù)權(quán)利要求7所述的方法，其特征在于，所述步驟21)和所述步驟22 )根據(jù)雅各比迭代法和高斯一塞德?tīng)柕ㄟM(jìn)行計(jì)算。
9. 根據(jù)權(quán)利要求8所述的方法，其特征在于，所述雅各比迭代法和高斯一塞德?tīng)柕ㄟM(jìn)行8至12次迭代。
10. —種面向主題的信息采集系統(tǒng)，包括待采集鏈接隊(duì)列，用于存儲(chǔ)鏈接；存儲(chǔ)信息庫(kù)，用于存儲(chǔ)頁(yè)面內(nèi)容、頁(yè)面的相關(guān)鏈接集合和頁(yè)面的主題相關(guān)性；多線(xiàn)程采集器，用于根據(jù)鏈接的順序，從所述待采集鏈接隊(duì)列中獲得多個(gè)鏈接，并從互聯(lián)網(wǎng)中采集所述多個(gè)鏈接的頁(yè)面的內(nèi)容并存儲(chǔ)至所述存儲(chǔ)信息庫(kù)，提取所述頁(yè)面中的新鏈接，判定所述頁(yè)面的主題相關(guān)性，提取所述頁(yè)面的相關(guān)鏈接集合，并存儲(chǔ)所述頁(yè)面的主題相關(guān)性和所述頁(yè)面的相關(guān)鏈接集合到所述存儲(chǔ)信息庫(kù)，將所述新鏈接添加到所述待采集鏈接隊(duì) 列；采集調(diào)度器，用于根據(jù)所述頁(yè)面的相關(guān)鏈接集合和所述頁(yè)面的主題相關(guān)性，計(jì)算所述待釆集鏈接隊(duì)列中所有鏈接的頁(yè)面的主題相關(guān)性，并調(diào)整所述待采集鏈接隊(duì)列中鏈接的順序。
11. 根據(jù)權(quán)利要求IO所述的系統(tǒng)，其特征在于，所述多線(xiàn)程釆集器包括提取相關(guān)鏈接集合裝置，用于提取所述頁(yè)面的相關(guān)鏈接集合，所述提取相關(guān)鏈接集合裝置進(jìn)一步包括用于根據(jù)所述頁(yè)面內(nèi)容，構(gòu)建所述頁(yè)面的DOM樹(shù)的裝置；和用于提取所述DOM樹(shù)的極大并列子樹(shù)族，由所述極大并列子樹(shù)族的并列節(jié)點(diǎn)集合構(gòu)成所述頁(yè)面的相關(guān)鏈接集合的裝置。
12.根據(jù)權(quán)利要求IO所述的系統(tǒng)，其特征在于，所述采集調(diào)度器包括用于計(jì)算所有鏈接的頁(yè)面的主題相關(guān)性的裝置，所述用于計(jì)算所有鏈接的頁(yè)面的主題相關(guān)性的裝置包括計(jì)算非確實(shí)主題相關(guān)的頁(yè)面的主題相關(guān)性的裝置，用于對(duì)于已經(jīng)采集的，但非確實(shí)主題相關(guān)的頁(yè)面，根據(jù)所述非確實(shí)主題相關(guān)的頁(yè)面中的新鏈接的個(gè)數(shù)，以及所述非確實(shí)主題相關(guān)的頁(yè)面中的新鏈接的頁(yè)面的主題相關(guān) 性，計(jì)算所述非確實(shí)主題相關(guān)的頁(yè)面的主題相關(guān)性；計(jì)算新鏈接的頁(yè)面的主題相關(guān)性的裝置，用于對(duì)于所述新鏈接所指向的頁(yè)面，根據(jù)所述新鏈接所在的相關(guān)鏈接集合內(nèi)的鏈接的平均主題相關(guān) 性，以及所述新鏈接所在的鏈接的個(gè)數(shù)，計(jì)算所述新鏈接的頁(yè)面的主題相關(guān)性。
全文摘要
本發(fā)明提供一種面向主題的信息采集方法，包括下列步驟1)根據(jù)待采集鏈接隊(duì)列中鏈接的順序，從所述待采集鏈接隊(duì)列中獲得多個(gè)鏈接，采集并存儲(chǔ)所述多個(gè)鏈接的頁(yè)面內(nèi)容，提取所述頁(yè)面中的新鏈接，判定所述頁(yè)面的主題相關(guān)性，提取所述頁(yè)面的相關(guān)鏈接集合，將所述新鏈接添加到所述待采集鏈接隊(duì)列中；2)根據(jù)所述頁(yè)面的相關(guān)鏈接集合和所述頁(yè)面的主題相關(guān)性，計(jì)算所有鏈接的頁(yè)面的主題相關(guān)性，并調(diào)整添加了所述新鏈接的待采集鏈接隊(duì)列中的鏈接的順序，重復(fù)步驟1和2直至采集結(jié)束。上述方法極大的減小了對(duì)存儲(chǔ)空間的需求；并且提高了面向主題信息采集的有效性。
文檔編號(hào)G06F17/30GK101382956SQ20081022352
公開(kāi)日2009年3月11日申請(qǐng)日期2008年10月6日優(yōu)先權(quán)日2008年10月6日
發(fā)明者張勇東, 李佳文, 郭俊波申請(qǐng)人:中國(guó)科學(xué)院計(jì)算技術(shù)研究所

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李佳文;張勇東;郭俊波
技術(shù)所有人：中國(guó)科學(xué)院計(jì)算技術(shù)研究所
我是此專(zhuān)利的發(fā)明人

上一篇：一種鐵路應(yīng)急救援信息共享模型的實(shí)現(xiàn)方法
上一篇：一種空基平臺(tái)懸停視頻穩(wěn)像方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

面向?qū)ο笙到y(tǒng)開(kāi)發(fā)方法相關(guān)技術(shù)

系統(tǒng)日志采集方法相關(guān)技術(shù)

面向?qū)ο髷?shù)據(jù)庫(kù)系統(tǒng)相關(guān)技術(shù)

面向?qū)ο蟮南到y(tǒng)分析相關(guān)技術(shù)

面向?qū)ο笙到y(tǒng)設(shè)計(jì)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種面向主題的信息采集方法和系統(tǒng)的制作方法