亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種面向主題的信息采集方法和系統(tǒng)的制作方法

文檔序號(hào):6470862閱讀:325來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):一種面向主題的信息采集方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種信息采集技術(shù),具體的說(shuō),涉及一種面向主題的信息 采集方法和系統(tǒng)。
背景技術(shù)
搜索引擎(Search Engine)的誕生,使得檢索信息的能力獲得了極大 的提高。盡管搜索引擎得到了飛速的發(fā)展和廣泛的應(yīng)用,當(dāng)前的搜索引擎 仍然無(wú)法完全滿(mǎn)足用戶(hù)的需求,在檢索結(jié)果的準(zhǔn)確性、覆蓋率、時(shí)效性等 方面都還存在不足,搜索引擎依然面臨巨大的技術(shù)挑戰(zhàn)。通用搜索引擎為 用戶(hù)提供不限定主題、內(nèi)容廣泛的信息搜索服務(wù),為了保證檢索內(nèi)容的覆 蓋率,搜索引擎希望能夠索引盡可能多的內(nèi)容。同時(shí)為了保證檢索結(jié)果的 時(shí)效性,需要盡可能減少索引庫(kù)與數(shù)據(jù)源網(wǎng)站數(shù)據(jù)同步的延時(shí)。
在通用搜索引擎面臨上述難以解決的問(wèn)題時(shí),面向主題的搜索引擎 (又稱(chēng)為垂直搜索引擎)受到人們?cè)絹?lái)越多的關(guān)注。如面向BBS、面向視 頻內(nèi)容、面向科技文獻(xiàn)等各種針對(duì)特定領(lǐng)域、特定主題、特定網(wǎng)站類(lèi)型的 搜索引擎。面向主題的搜索引擎只對(duì)特定網(wǎng)站或特定主題的網(wǎng)頁(yè)進(jìn)行索 引,從信息采集的角度,面向主題的搜索引擎需要過(guò)濾與本主題無(wú)關(guān)的內(nèi) 容,從而減少了網(wǎng)頁(yè)采集和分析的數(shù)據(jù)規(guī)模。面向主題的搜索引擎可以利 用領(lǐng)域知識(shí)和特點(diǎn),通過(guò)具有特色的采集調(diào)度和內(nèi)容抽取技術(shù),實(shí)現(xiàn)比通 用搜索引擎獲取網(wǎng)頁(yè)更高的效率,并提高信息抽取的質(zhì)量。
現(xiàn)有技術(shù)中的面向主題的搜索引擎主要由網(wǎng)頁(yè)釆集、網(wǎng)頁(yè)信息抽取、 索引、檢索等模塊組成。其中網(wǎng)頁(yè)采集抽取是搜索引擎的數(shù)據(jù)來(lái)源和基礎(chǔ)。 面向主題的網(wǎng)頁(yè)采集方法的一般步驟分為
1) 設(shè)定采集種子網(wǎng)頁(yè),并提取該網(wǎng)頁(yè)中出現(xiàn)的新鏈接,作為待采集 的網(wǎng)頁(yè);
2) 采集網(wǎng)頁(yè);
3) 對(duì)采集到的網(wǎng)頁(yè)進(jìn)行分析,判斷網(wǎng)頁(yè)是否與主題相關(guān),并且提取 出該網(wǎng)頁(yè)中出現(xiàn)的新鏈接,作為待釆集的網(wǎng)頁(yè)。并重復(fù)步驟2。
從降低網(wǎng)絡(luò)帶寬和磁盤(pán)存儲(chǔ)需求的角度出發(fā), 一個(gè)優(yōu)秀的面向主題的 網(wǎng)絡(luò)信息采集方法應(yīng)該具有較高的采集有效性,即所采集頁(yè)面中與主題相 關(guān)的頁(yè)面所占的比例要盡可能的高,這樣可以極大的降低無(wú)關(guān)數(shù)據(jù)的釆集 量和存儲(chǔ)量。

發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問(wèn)題是提供一種面向主題的信息采集方法和系 統(tǒng),來(lái)提高面向主題的互聯(lián)網(wǎng)信息采集的有效性。
根據(jù)本發(fā)明的一個(gè)方面,提供了一種面向主題的信息采集方法,包
括下列步驟
1) 根據(jù)待采集鏈接隊(duì)列中鏈接的順序,從所述待采集鏈接隊(duì)列中獲 得多個(gè)鏈接,采集并存儲(chǔ)所述多個(gè)鏈接的頁(yè)面內(nèi)容,提取所述頁(yè)面中的新 鏈接,判定所述頁(yè)面的主題相關(guān)性,提取所述頁(yè)面的相關(guān)鏈接集合,將所 述新鏈接添加到所述待采集鏈接隊(duì)列中;
2) 根據(jù)所述頁(yè)面的相關(guān)鏈接集合和所述頁(yè)面的主題相關(guān)性,計(jì)算所 有鏈接的頁(yè)面的主題相關(guān)性,并調(diào)整添加了所述新鏈接的待采集鏈接隊(duì)列 中的鏈接的順序,重復(fù)步驟1)和2)直至采集結(jié)束。
其中,所述步驟1)中的所述提取所述頁(yè)面的相關(guān)鏈接集合包括下列 步驟
11) 根據(jù)所述頁(yè)面內(nèi)容,構(gòu)建所述頁(yè)面的DOM樹(shù);
12) 提取所述DOM樹(shù)的極大并列子樹(shù)族,由所述極大并列子樹(shù)族的 并列節(jié)點(diǎn)集合構(gòu)成所述頁(yè)面的相關(guān)鏈接集合。
其中,所述步驟11)是利用開(kāi)源工具HTML Parser完成。
其中,所述步驟11 )還包括
111)刪除所述DOM樹(shù)中的非鏈接型葉子節(jié)點(diǎn)。
其中,所述步驟12)所述提取所述DOM樹(shù)的極大并列子樹(shù)族包括
A. 置并列子樹(shù)族集合5 = 0,置棧ST = 0,將所述DOM樹(shù)的根節(jié)點(diǎn) root添力。到棧中;
B. 如果ST^0,則集合S即為所求集合,否則取出ST的棧頂元素p;
C. 如果p是一個(gè)葉子節(jié)點(diǎn),返回步驟B;
D. 如果p只有一個(gè)兒子節(jié)點(diǎn)q,將q添加到棧ST當(dāng)中,返回步驟B;
E. 判斷<formula>formula see original document page 6</formula>是否構(gòu)成了以p為根節(jié)點(diǎn)的并列
子樹(shù)族,如果是,則將T添力。到S當(dāng)中,否則以此將
cM《0),cM《0),…,cM《々)0)添力。到棧ST當(dāng)中,轉(zhuǎn)至步驟B。
其中,所述步驟1)中所述判定所述頁(yè)面的主題相關(guān)性采用文本分類(lèi) 方法。
其中,所述步驟2)中所述根據(jù)所述頁(yè)面的相關(guān)鏈接集合和所述頁(yè)面 的主題相關(guān)性,計(jì)算所有鏈接的頁(yè)面的主題相關(guān)性,包括
21) 對(duì)于已經(jīng)采集的,但非確實(shí)主題相關(guān)的頁(yè)面,根據(jù)所述非確實(shí)主 題相關(guān)的頁(yè)面中的新鏈接的個(gè)數(shù),以及所述非確實(shí)主題相關(guān)的頁(yè)面中的新 鏈接的頁(yè)面的主題相關(guān)性,計(jì)算所述非確實(shí)主題相關(guān)的頁(yè)面的主題相關(guān) 性;
22) 對(duì)于步驟1)所述新鏈接所指向的頁(yè)面,根據(jù)所述新鏈接所在的 相關(guān)鏈接集合內(nèi)的鏈接的平均主題相關(guān)性,以及所述新鏈接所在的鏈接的 個(gè)數(shù),計(jì)算所述新鏈接的頁(yè)面的主題相關(guān)性。
其中,所述步驟21 )和所述步驟22 )根據(jù)雅各比迭代法和高斯一塞德 爾迭代法進(jìn)行計(jì)算。
其中,所述雅各比迭代法和高斯一塞德?tīng)柕ㄟM(jìn)行8至12次迭代。 根據(jù)本發(fā)明的另一方面,還提供了一種面向主題的信息采集系統(tǒng),包括..
待采集鏈接隊(duì)列,用于存儲(chǔ)鏈接;
存儲(chǔ)信息庫(kù),用于存儲(chǔ)頁(yè)面內(nèi)容、頁(yè)面的相關(guān)鏈接集合和頁(yè)面的主題 相關(guān)性;
多線(xiàn)程采集器,用于根據(jù)鏈接的順序,從所述待采集鏈接隊(duì)列中獲得 多個(gè)鏈接,并從互聯(lián)網(wǎng)中采集所述多個(gè)鏈接的頁(yè)面的內(nèi)容并存儲(chǔ)至所述存 儲(chǔ)信息庫(kù),提取所述頁(yè)面中的新鏈接,判定所述頁(yè)面的主題相關(guān)性,提取 所述頁(yè)面的相關(guān)鏈接集合,并存儲(chǔ)所述頁(yè)面的主題相關(guān)性和所述頁(yè)面的相 關(guān)鏈接集合到所述存儲(chǔ)信息庫(kù),將所述新鏈接添加到所述待采集鏈接隊(duì) 列;
采集調(diào)度器,用于根據(jù)所述頁(yè)面的相關(guān)鏈接集合和所述頁(yè)面的主題相 關(guān)性,計(jì)算所述待采集鏈接隊(duì)列中所有鏈接的頁(yè)面的主題相關(guān)性,并調(diào)整 所迷待采集鏈接隊(duì)列中鏈接的順序。
在該系統(tǒng)中,所述多線(xiàn)程采集器包括提取相關(guān)鏈接集合裝置,用于提 取所述頁(yè)面的相關(guān)鏈接集合,所述提取相關(guān)鏈接集合裝置進(jìn)一 步包括
用于根據(jù)所述頁(yè)面內(nèi)容,構(gòu)建所述頁(yè)面的DOM樹(shù)的裝置;和
用于提取所述DOM樹(shù)的極大并列子樹(shù)族,由所述極大并列子樹(shù)族的 并列節(jié)點(diǎn)集合構(gòu)成所述頁(yè)面的相關(guān)鏈接集合的裝置。
在該系統(tǒng)中,所述采集調(diào)度器包括用于計(jì)算所有鏈接的頁(yè)面的主題相 關(guān)性的裝置,所述用于計(jì)算所有鏈接的頁(yè)面的主題相關(guān)性的裝置包括
計(jì)算非確實(shí)主題相關(guān)的頁(yè)面的主題相關(guān)性的裝置,用于對(duì)于已經(jīng)采集 的,但非確實(shí)主題相關(guān)的頁(yè)面,根據(jù)所述非確實(shí)主題相關(guān)的頁(yè)面中的新鏈 接的個(gè)數(shù),以及所述非確實(shí)主題相關(guān)的頁(yè)面中的新鏈接的頁(yè)面的主題相關(guān) 性,計(jì)算所述非確實(shí)主題相關(guān)的頁(yè)面的主題相關(guān)性;
計(jì)算新鏈接的頁(yè)面的主題相關(guān)性的裝置,用于對(duì)于所述新鏈接所指向 的頁(yè)面,根據(jù)所述新鏈接所在的相關(guān)鏈接集合內(nèi)的鏈接的平均主題相關(guān) 性,以及所述新鏈接所在的鏈接的個(gè)數(shù),計(jì)算所述新鏈接的頁(yè)面的主題相 關(guān)性。
本發(fā)明的有益效果在于本發(fā)明放棄采用鏈接的文本信息,應(yīng)用基于 鏈接拓樸結(jié)構(gòu)信息,極大的減小了對(duì)存儲(chǔ)空間的需求;并且提高了面向主 題信息采集的有效性。


圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的面向主題的信息采集系統(tǒng)框架圖; 圖2是DOM樹(shù)并列葉子節(jié)點(diǎn)集合示意圖。
具體實(shí)施例方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖, 對(duì)根據(jù)本發(fā)明一個(gè)實(shí)施例的面向主題的信息采集方法進(jìn)一步詳細(xì)說(shuō)明。應(yīng)
當(dāng)理解,此處所描述的具體實(shí)施例僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
面向主題信息采集方法基于鏈接拓樸結(jié)構(gòu)分析的思想,根據(jù)網(wǎng)頁(yè)信息 分析以及主題相關(guān)性預(yù)測(cè)方法對(duì)互聯(lián)網(wǎng)頁(yè)面進(jìn)行采集,極大地提高視面向 主題采集有效性。首先對(duì)互聯(lián)網(wǎng)頁(yè)面內(nèi)容進(jìn)行分析,提取并列鏈接集合, 判定該頁(yè)面的主題相關(guān)性;然后依據(jù)該互聯(lián)網(wǎng)頁(yè)面內(nèi)的鏈接之間的拓樸結(jié) 構(gòu)信息,計(jì)算該頁(yè)面內(nèi)鏈接所指向的頁(yè)面的主題相關(guān)性;最后利用可根據(jù) 主題相關(guān)性調(diào)整采集順序的主題信息采集系統(tǒng)進(jìn)行信息采集。
根據(jù)本發(fā)明一個(gè)實(shí)施例,整個(gè)采集系統(tǒng)框架的運(yùn)行機(jī)制如圖l所示,
具體包括下列3步
1) 設(shè)置初始采集鏈接集合(Seed),并添加到待采集鏈接隊(duì)列 (Queue )。
2) 多線(xiàn)程釆集器(MTD, Multi-threaded downloader)從待采集4連接 隊(duì)列(Queue )中根據(jù)待采集鏈接的順序獲得多個(gè)鏈接,并從互聯(lián)網(wǎng)(WEB ) 中采集這些鏈接的頁(yè)面的內(nèi)容,提取該頁(yè)面中的新鏈接,MTD根據(jù)下述 方法分析該頁(yè)面,提取該頁(yè)面的相關(guān)鏈接集合,并判定該頁(yè)面的主題相關(guān) 性。其中所述多個(gè)鏈接一般占Queue中所有鏈接的10%至30%。把頁(yè)面 的內(nèi)容、該頁(yè)面的主題相關(guān)性和該頁(yè)面的相關(guān)鏈接集合信息存儲(chǔ)到存儲(chǔ)信 息庫(kù)(Storage)中,將所述新鏈接添加到Queue中。
其中,提取該頁(yè)面的相關(guān)鏈接集合是對(duì)HTML頁(yè)面的建立DOM樹(shù)模 型,從DOM樹(shù)模型中抽取極大并列子樹(shù)族,進(jìn)而提取互聯(lián)網(wǎng)頁(yè)面中相關(guān) 鏈接集合。
利用開(kāi)源工具HTML Parser對(duì)頁(yè)面的HTML文本內(nèi)容完成DOM樹(shù)模 型的構(gòu)建。由于頁(yè)面采集過(guò)程只涉及到HTML文本中的鏈接信息,因此, 優(yōu)選的可以將HTML文本中非鏈接型葉子節(jié)點(diǎn)從DOM樹(shù)中進(jìn)行刪除,從 而完成對(duì)DOM數(shù)的壓縮。首先找到D OM樹(shù)中的 一 個(gè)非鏈接型葉子節(jié)點(diǎn), 如果找不到,則結(jié)束;否則刪除該節(jié)點(diǎn),并重復(fù)上述操作直到結(jié)束。
定義rree(p)描述一棵以節(jié)點(diǎn)p為根的樹(shù),cw(p)表示p的兒子節(jié)點(diǎn)的個(gè) 數(shù),cM《0),c/z/W2 0),…,cM《(p)0)分別表示p的c"O)個(gè)兒子節(jié)點(diǎn);
對(duì)于一個(gè)節(jié)點(diǎn)p而言,它的所有兒子節(jié)點(diǎn)是有序的,序列的順序即節(jié) 點(diǎn)所對(duì)應(yīng)的HTML文本在原始頁(yè)面中的上下文關(guān)系;
稱(chēng)7>^(>)與7>ee(《)具有相同的結(jié)構(gòu),當(dāng)且^又當(dāng)節(jié)點(diǎn)p和節(jié)點(diǎn)q均為葉 子節(jié)點(diǎn)時(shí),或者節(jié)點(diǎn)p和節(jié)點(diǎn)q均為非葉子節(jié)點(diǎn)時(shí),m(p) = c"(《),且對(duì)于
vu ^ ^ , o)和cM《(《)也具有相同的結(jié)構(gòu);
如果對(duì)于一個(gè)節(jié)點(diǎn)p,它有兩個(gè)或兩個(gè)以上的葉子節(jié)點(diǎn),且任意兩個(gè)
葉子節(jié)點(diǎn)c/n'W, (; )和c/z//《.O)所構(gòu)成的子樹(shù)7>ee(c/z/W, (p))和7Vee(cM《O》都具 有相同結(jié)構(gòu),則稱(chēng)2>ee(cW(p)),rree(c歸,O)),..., 7Vee(cM《(p)O))構(gòu)成了以節(jié) 點(diǎn)p為才艮節(jié)點(diǎn)的并列子樹(shù)族。TV^O!), 7>ee(>2),…,7>ee(> )構(gòu)成以root為根 節(jié)點(diǎn)的 一 個(gè)極大并列子樹(shù)族T ,當(dāng)且僅當(dāng)不存在并列子樹(shù)族 r^(7Vee(仏),7Vee(《2),…,r,ee(^》,它滿(mǎn)足3/,y,1 S/S",1《y^m, j吏4尋^是; ,的牙且
先。
r^e(A), 7>^(/72),.." 7Vee(凡)構(gòu)成一個(gè)以root為才艮節(jié)點(diǎn)并列子樹(shù)族T, 假設(shè)這n棵樹(shù)中每一棵樹(shù)都包含有m+l個(gè)節(jié)點(diǎn),定義對(duì)于VU&^w,
2(/0 =仏。《1,...,^4表示7>"(^,)的前序遍歷結(jié)果,樹(shù)的前序、后序或者中序 遍歷結(jié)果都是唯一的,在前序遍歷結(jié)果中顯然
^ = {、,^,...,^}被稱(chēng)為并列子樹(shù)族T的一個(gè)并列節(jié)點(diǎn)集合。如圖2所示,
其中填充圖案相同的節(jié)點(diǎn)為并列葉子節(jié)點(diǎn)。
任何兩個(gè)極大并列子樹(shù)族都是不相交的。如果兩個(gè)極大并列子樹(shù)族 r—7V^O,),7yee02),…,7^e(/0), 它們的共同父親是; 。,以及 r = (7Vee(A),rree(《2),…,7V—《m)},它們的共同父親是《。,且有《。- p。;假設(shè)T 和T,相交,那么必然存在一個(gè)節(jié)點(diǎn)r,使得&和p。都是r的祖先,根據(jù)樹(shù) 的性質(zhì)有要么《。是P。的祖先、要么A是《。的祖先,這與T和T,是極大子樹(shù) 族矛盾,所以任何兩個(gè)極大并列子樹(shù)族都是不相交的。
根據(jù)以上描述,從DOM樹(shù)中I是取極大并列子樹(shù)族的步驟如下
A. 置并列子樹(shù)族集合5 = 0,置棧S2^0,將DOM樹(shù)的根節(jié)點(diǎn)root 添加到棧中;
B. 如果51 = 0,轉(zhuǎn)至步驟F;否則取出ST的棧頂元素p;
C. 如果p是一個(gè)葉子節(jié)點(diǎn),返回步驟B,否則進(jìn)行步驟D;
D. 如果p只有一個(gè)兒子節(jié)點(diǎn)q,將q添加到棧ST當(dāng)中,返回步驟B, 否則進(jìn)行步驟E;
E. 判斷7" = {7>^(^,'械0》|/ = 1.丄"(;7)}是否構(gòu)成了以p為才艮節(jié)點(diǎn)的并列
子樹(shù)族,如果是,則將T添力口到S當(dāng)中,否則以此將 cM《0 ),cM《O),…,cM《咖)0)添力。到棧ST當(dāng)中,轉(zhuǎn)至步驟B;
F. 集合S即為所求集合。 的,都是O(n)。
獲取每一極大并列子樹(shù)族的每一個(gè)由葉子節(jié)點(diǎn)構(gòu)成的并列節(jié)點(diǎn)集合, 則每個(gè)集合構(gòu)成該DOM樹(shù)描述的HTML頁(yè)面中的一個(gè)相關(guān)鏈接集合。
互聯(lián)網(wǎng)頁(yè)面的主題相關(guān)性是指某頁(yè)面確實(shí)是與主題相關(guān),或者某頁(yè)面 所指向的頁(yè)面都具有很高的主題相關(guān)性。可以理解這個(gè)定義是遞歸的。
用/(/)表示鏈接/所指向的頁(yè)面的主題相關(guān)性,也就是鏈接/所指向頁(yè) 面的主題相關(guān)程度,/(/>
, /(/)越大鏈接/的主題相關(guān)性越大,/(/)越
小鏈接/的主題相關(guān)性越小。用P(7)表示鏈接/所指向的頁(yè)面;用
0!^77fo^(/))表示頁(yè)面P(/)中的所有鏈接。一個(gè)頁(yè)面P(/)可能擁有若干個(gè)相
關(guān)鏈接集合。這里用鏈接集合re/afe《(P(/)), retoe《(i5(/)),…,retoe《(i5(/))表 示頁(yè)面戶(hù)(/)的s個(gè)相關(guān)鏈接集合,顯然有
本領(lǐng)域技術(shù)人員可以理解, 一個(gè)鏈接可能存在于多個(gè)相關(guān)鏈接集合當(dāng)中。
用F表示目前已經(jīng)采集到的頁(yè)面集合,R表示已經(jīng)采集到的確實(shí)主題 相關(guān)的頁(yè)面所組成的集合,顯然有i e尸。例如,主題為視頻,R表示已經(jīng) 采集到的含有視頻的頁(yè)面所組成的集合。N表示目前待采集的頁(yè)面集合,
定義集合= {v 1 / e。^!7ifo(P(V)),P(V)e "表示鏈接/出現(xiàn)過(guò)的頁(yè)面。
對(duì)于已經(jīng)采集到的頁(yè)面,從互聯(lián)網(wǎng)中獲得HTML頁(yè)面內(nèi)容,可以得到 大量的頁(yè)面特征信息, 一般可利用文本分類(lèi)以及其它相關(guān)技術(shù)進(jìn)行主題相 關(guān)性判斷,確定該頁(yè)面是否確實(shí)主題相關(guān)。也即
對(duì)于P(/)ei 的情況,= 1 ( 1 )
3)采集調(diào)度器(Scheduler),每隔一段時(shí)間以后將會(huì)根據(jù)Storage中 存儲(chǔ)的相關(guān)鏈接集合信息和如上所述的已經(jīng)采集到的頁(yè)面的主題相關(guān)性, 計(jì)算Queue中所有鏈接的頁(yè)面的主題相關(guān)性,并調(diào)整Queue中鏈接的采集 順序,然后重復(fù)執(zhí)行步驟2)。
如果一個(gè)頁(yè)面它所指向的頁(yè)面大多數(shù)都是與主題相關(guān)的話(huà),則稱(chēng)該頁(yè) 面在面向主題的信息釆集中是一個(gè)好的發(fā)散型(Hub)頁(yè)面。因?yàn)榻^大多數(shù) 的互聯(lián)網(wǎng)頁(yè)面中,主題相關(guān)的頁(yè)面總是并列出現(xiàn)的;所以在同一個(gè)頁(yè)面中 的 一個(gè)相關(guān)鏈接集合中的若干個(gè)鏈接所指向的頁(yè)面具有很高的主題相關(guān) 性的話(huà),那么該集合中其余的鏈接指向的頁(yè)面也具有很高的相關(guān)性。
根據(jù)上述原理,對(duì)于已經(jīng)采集的,但非確實(shí)主題相關(guān)的頁(yè)面,根據(jù)所 述非確實(shí)主題相關(guān)的頁(yè)面中的新鏈接的個(gè)數(shù),以及所述非確實(shí)主題相關(guān)的 頁(yè)面中的新鏈接的頁(yè)面的主題相關(guān)性,計(jì)算所述非確實(shí)主題相關(guān)的頁(yè)面的 主題相關(guān)性對(duì)于<formula>formula see original document page 12</formula>, 且<formula>formula see original document page 12</formula>的情況,<formula>formula see original document page 12</formula>(2)
其中,符號(hào)| l表示計(jì)算集合中元素個(gè)數(shù)。
對(duì)于目前待釆集的頁(yè)面集合,根據(jù)所述新鏈接所在的相關(guān)鏈接集合內(nèi) 的鏈接的平均主題相關(guān)性,以及所述新鏈接所在的鏈接的個(gè)數(shù),計(jì)算所述 新鏈接的頁(yè)面的主題相關(guān)性對(duì)于e iV時(shí)情況,
<formula>formula see original document page 12</formula> (3)
根據(jù)上述方程(1 )、 ( 2 )和(3 )對(duì)/(/)進(jìn)行計(jì)算。類(lèi)似于一種基于拓
樸關(guān)系的頁(yè)面重要程度評(píng)分(Page Rank)的計(jì)算方式,可以采用雅各比 (Jacobi)迭代法與高斯一塞德?tīng)?Gauss-Seidel)迭代法對(duì)/(/)進(jìn)行求解。
為了控制迭代過(guò)程的計(jì)算消耗,通過(guò)實(shí)驗(yàn)論證,優(yōu)選的,采用的迭代次數(shù) 為8至12次。
根據(jù)頁(yè)面的主題相關(guān)性,調(diào)整添加了新鏈接的待采集鏈接隊(duì)列中的鏈 接的順序,重復(fù)執(zhí)行上述步驟2)和步驟3 )直到Queue中鏈接為空時(shí)結(jié) 束。本領(lǐng)域技術(shù)人員可以理解,也可以自行設(shè)置采集頁(yè)面數(shù)量的上限閾值, 達(dá)到這個(gè)閾值以后,自動(dòng)結(jié)束并退出采集程序。
綜上所述,根據(jù)本發(fā)明的一個(gè)具體實(shí)施例,提供了一種面向主題的信 息采集系統(tǒng),包括
待采集鏈接隊(duì)列,用于存儲(chǔ)鏈接;
存儲(chǔ)信息庫(kù),用于存儲(chǔ)頁(yè)面內(nèi)容、頁(yè)面的相關(guān)鏈接集合和頁(yè)面的主題 相關(guān)性;
多線(xiàn)程釆集器,用于根據(jù)鏈接的順序,從待釆集鏈接隊(duì)列中獲得多個(gè) 鏈接,并從互聯(lián)網(wǎng)中采集該多個(gè)鏈接的頁(yè)面的內(nèi)容并存儲(chǔ)至存儲(chǔ)信息庫(kù), 提取該頁(yè)面中的新鏈接,判定該頁(yè)面的主題相關(guān)性,提取該頁(yè)面的相關(guān)鏈 接集合,并存儲(chǔ)該頁(yè)面的主題相關(guān)性和該頁(yè)面的相關(guān)鏈接集合到存儲(chǔ)信息 庫(kù),將新鏈接添加到上述待采集鏈接隊(duì)列;
采集調(diào)度器,用于根據(jù)該頁(yè)面的相關(guān)鏈接集合和頁(yè)面的主題相關(guān)性, 計(jì)算上述待采集鏈接隊(duì)列中所有鏈接的頁(yè)面的主題相關(guān)性,并調(diào)整所述待 采集鏈接隊(duì)列中鏈接的順序。
在該系統(tǒng)中,多線(xiàn)程采集器包括提取相關(guān)鏈接集合裝置,用于提取頁(yè) 面的相關(guān)鏈接集合,該提取相關(guān)鏈接集合裝置進(jìn)一步包括
用于根據(jù)頁(yè)面內(nèi)容,構(gòu)建頁(yè)面的DOM樹(shù)的裝置;和
用于提取該DOM樹(shù)的極大并列子樹(shù)族,由該極大并列子樹(shù)族的并列 節(jié)點(diǎn)集合構(gòu)成頁(yè)面的相關(guān)鏈接集合的裝置。
在該系統(tǒng)中,釆集調(diào)度器包括用于計(jì)算所有鏈接的頁(yè)面的主題相關(guān)性 的裝置,所述用于計(jì)算所有鏈接的頁(yè)面的主題相關(guān)性的裝置包括
計(jì)算非確實(shí)主題相關(guān)的頁(yè)面的主題相關(guān)性的裝置,其用于對(duì)于已經(jīng)采 集的,但非確實(shí)主題相關(guān)的頁(yè)面,根據(jù)該非確實(shí)主題相關(guān)的頁(yè)面中的新鏈 接的個(gè)數(shù),以及該非確實(shí)主題相關(guān)的頁(yè)面中的新鏈接的頁(yè)面的主題相關(guān) 性,計(jì)算該非確實(shí)主題相關(guān)的頁(yè)面的主題相關(guān)性;
計(jì)算新鏈接的頁(yè)面的主題相關(guān)性的裝置,其用于對(duì)于新鏈接所指向的 頁(yè)面,根據(jù)該新鏈接所在的相關(guān)鏈接集合內(nèi)的鏈接的平均主題相關(guān)性,以 及該新鏈接所在的鏈接的個(gè)數(shù),計(jì)算該新鏈接的頁(yè)面的主題相關(guān)性。
應(yīng)該注意到并理解,在不脫離后附的權(quán)利要求所要求的本發(fā)明的精神 和范圍的情況下,能夠?qū)ι鲜鲈敿?xì)描述的本發(fā)明做出各種修改和改進(jìn)。因 此,要求保護(hù)的技術(shù)方案的范圍不受所給出的任何特定示范教導(dǎo)的限制。
權(quán)利要求
1. 一種面向主題的信息采集方法,包括下列步驟:1)根據(jù)待采集鏈接隊(duì)列中鏈接的順序,從所述待采集鏈接隊(duì)列中獲得多個(gè)鏈接,采集并存儲(chǔ)所述多個(gè)鏈接的頁(yè)面內(nèi)容,提取所述頁(yè)面中的新鏈接,判定所述頁(yè)面的主題相關(guān)性,提取所述頁(yè)面的相關(guān)鏈接集合,將所述新鏈接添加到所述待采集鏈接隊(duì)列中;2)根據(jù)所述頁(yè)面的相關(guān)鏈接集合和所述頁(yè)面的主題相關(guān)性,計(jì)算所有鏈接的頁(yè)面的主題相關(guān)性,并調(diào)整添加了所述新鏈接的待采集鏈接隊(duì)列中的鏈接的順序,重復(fù)步驟1)和2)直至采集結(jié)束。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟1 )中的所述 提取所述頁(yè)面的相關(guān)鏈接集合包括下列步驟11 )才艮據(jù)所述頁(yè)面內(nèi)容,構(gòu)建所述頁(yè)面的DOM樹(shù);12 )提取所述DOM樹(shù)的極大并列子樹(shù)族,由所述極大并列子樹(shù)族的 并列節(jié)點(diǎn)集合構(gòu)成所述頁(yè)面的相關(guān)鏈接集合。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟11)是利用 開(kāi)源工具HTML Parser完成。
4. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟ll)還包括 111)刪除所述DOM樹(shù)中的非鏈接型葉子節(jié)點(diǎn)。
5. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟12)所述提 取所述DOM樹(shù)的極大并列子樹(shù)族包括A. 置并列子樹(shù)族集合5 = 0,置棧S7^0,將所述DOM樹(shù)的根節(jié)點(diǎn) root添力口到棧中;B. 如果sr-0,則集合S即為所求集合,否則取出ST的棧頂元素p;C. 如果p是一個(gè)葉子節(jié)點(diǎn),返回步驟B;D. 如果p只有一個(gè)兒子節(jié)點(diǎn)q,將q添加到棧ST當(dāng)中,返回步驟B;E. 判斷r—r^e(cM《0))l!^l…c"(p》是否構(gòu)成了以p為沖艮節(jié)點(diǎn)的并列子樹(shù)族,如果是,則將T添力口到 S 當(dāng)中,否貝'j以此將 cM《0),cM《0),…,cM《(p)0)添加到棧ST當(dāng)中,轉(zhuǎn)至步驟B。
6. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟1 )所述判定 所述頁(yè)面的主題相關(guān)性釆用文本分類(lèi)方法。
7. 根據(jù)權(quán)利要求l所述的方法,其特征在于,所述步驟2)所述根據(jù) 所述頁(yè)面的相關(guān)鏈接集合和所述頁(yè)面的主題相關(guān)性,計(jì)算所有鏈接的頁(yè)面 的主題相關(guān)性,包括21) 對(duì)于已經(jīng)采集的,但非確實(shí)主題相關(guān)的頁(yè)面,根據(jù)所述非確實(shí)主題相關(guān)的頁(yè)面中的新鏈接的個(gè)數(shù),以及所述非確實(shí)主題相關(guān)的頁(yè)面中的新 鏈接的頁(yè)面的主題相關(guān)性,計(jì)算所述非確實(shí)主題相關(guān)的頁(yè)面的主題相關(guān)性;22) 對(duì)于步驟1)所述新鏈接所指向的頁(yè)面,根據(jù)所述新鏈接所在的 相關(guān)鏈接集合內(nèi)的鏈接的平均主題相關(guān)性,以及所述新鏈接所在的鏈接的 個(gè)數(shù),計(jì)算所述新鏈接的頁(yè)面的主題相關(guān)性。
8. 根據(jù)權(quán)利要求7所述的方法,其特征在于,所述步驟21)和所述 步驟22 )根據(jù)雅各比迭代法和高斯一塞德?tīng)柕ㄟM(jìn)行計(jì)算。
9. 根據(jù)權(quán)利要求8所述的方法,其特征在于,所述雅各比迭代法和高 斯一塞德?tīng)柕ㄟM(jìn)行8至12次迭代。
10. —種面向主題的信息采集系統(tǒng),包括 待采集鏈接隊(duì)列,用于存儲(chǔ)鏈接;存儲(chǔ)信息庫(kù),用于存儲(chǔ)頁(yè)面內(nèi)容、頁(yè)面的相關(guān)鏈接集合和頁(yè)面的主題 相關(guān)性;多線(xiàn)程采集器,用于根據(jù)鏈接的順序,從所述待采集鏈接隊(duì)列中獲得 多個(gè)鏈接,并從互聯(lián)網(wǎng)中采集所述多個(gè)鏈接的頁(yè)面的內(nèi)容并存儲(chǔ)至所述存 儲(chǔ)信息庫(kù),提取所述頁(yè)面中的新鏈接,判定所述頁(yè)面的主題相關(guān)性,提取 所述頁(yè)面的相關(guān)鏈接集合,并存儲(chǔ)所述頁(yè)面的主題相關(guān)性和所述頁(yè)面的相 關(guān)鏈接集合到所述存儲(chǔ)信息庫(kù),將所述新鏈接添加到所述待采集鏈接隊(duì) 列;采集調(diào)度器,用于根據(jù)所述頁(yè)面的相關(guān)鏈接集合和所述頁(yè)面的主題相 關(guān)性,計(jì)算所述待釆集鏈接隊(duì)列中所有鏈接的頁(yè)面的主題相關(guān)性,并調(diào)整 所述待采集鏈接隊(duì)列中鏈接的順序。
11. 根據(jù)權(quán)利要求IO所述的系統(tǒng),其特征在于,所述多線(xiàn)程釆集器包 括提取相關(guān)鏈接集合裝置,用于提取所述頁(yè)面的相關(guān)鏈接集合,所述提取 相關(guān)鏈接集合裝置進(jìn)一步包括用于根據(jù)所述頁(yè)面內(nèi)容,構(gòu)建所述頁(yè)面的DOM樹(shù)的裝置;和 用于提取所述DOM樹(shù)的極大并列子樹(shù)族,由所述極大并列子樹(shù)族的 并列節(jié)點(diǎn)集合構(gòu)成所述頁(yè)面的相關(guān)鏈接集合的裝置。
12.根據(jù)權(quán)利要求IO所述的系統(tǒng),其特征在于,所述采集調(diào)度器包括 用于計(jì)算所有鏈接的頁(yè)面的主題相關(guān)性的裝置,所述用于計(jì)算所有鏈接的頁(yè)面的主題相關(guān)性的裝置包括計(jì)算非確實(shí)主題相關(guān)的頁(yè)面的主題相關(guān)性的裝置,用于對(duì)于已經(jīng)采集 的,但非確實(shí)主題相關(guān)的頁(yè)面,根據(jù)所述非確實(shí)主題相關(guān)的頁(yè)面中的新鏈 接的個(gè)數(shù),以及所述非確實(shí)主題相關(guān)的頁(yè)面中的新鏈接的頁(yè)面的主題相關(guān) 性,計(jì)算所述非確實(shí)主題相關(guān)的頁(yè)面的主題相關(guān)性;計(jì)算新鏈接的頁(yè)面的主題相關(guān)性的裝置,用于對(duì)于所述新鏈接所指向 的頁(yè)面,根據(jù)所述新鏈接所在的相關(guān)鏈接集合內(nèi)的鏈接的平均主題相關(guān) 性,以及所述新鏈接所在的鏈接的個(gè)數(shù),計(jì)算所述新鏈接的頁(yè)面的主題相 關(guān)性。
全文摘要
本發(fā)明提供一種面向主題的信息采集方法,包括下列步驟1)根據(jù)待采集鏈接隊(duì)列中鏈接的順序,從所述待采集鏈接隊(duì)列中獲得多個(gè)鏈接,采集并存儲(chǔ)所述多個(gè)鏈接的頁(yè)面內(nèi)容,提取所述頁(yè)面中的新鏈接,判定所述頁(yè)面的主題相關(guān)性,提取所述頁(yè)面的相關(guān)鏈接集合,將所述新鏈接添加到所述待采集鏈接隊(duì)列中;2)根據(jù)所述頁(yè)面的相關(guān)鏈接集合和所述頁(yè)面的主題相關(guān)性,計(jì)算所有鏈接的頁(yè)面的主題相關(guān)性,并調(diào)整添加了所述新鏈接的待采集鏈接隊(duì)列中的鏈接的順序,重復(fù)步驟1和2直至采集結(jié)束。上述方法極大的減小了對(duì)存儲(chǔ)空間的需求;并且提高了面向主題信息采集的有效性。
文檔編號(hào)G06F17/30GK101382956SQ20081022352
公開(kāi)日2009年3月11日 申請(qǐng)日期2008年10月6日 優(yōu)先權(quán)日2008年10月6日
發(fā)明者張勇東, 李佳文, 郭俊波 申請(qǐng)人:中國(guó)科學(xué)院計(jì)算技術(shù)研究所
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1