專利名稱:一種Web論壇信息抽取系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及Web信息處理技術(shù)領(lǐng)域,尤其是涉及一種Web論壇信息抽取系統(tǒng)。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)上的信息呈現(xiàn)出爆炸式的增長(zhǎng)。而其中Web 論壇發(fā)展得尤為迅猛,據(jù)中國(guó)Web信息中心2008年底的統(tǒng)計(jì),Web論壇的使用人數(shù)達(dá)到了 9100萬(wàn),占網(wǎng)民總數(shù)的30%以上。每天都有成千上萬(wàn)的人在不同的Web論壇發(fā)布信息、探 討問(wèn)題、交流觀點(diǎn),日積月累使Web論壇成為一個(gè)巨大的信息資源庫(kù),如何有效的從Web論 壇中抽取出有用的信息具有重要的意義。 Web論壇信息抽取屬于Web信息抽取中針對(duì)網(wǎng)頁(yè)中某種屬性的抽取,比根據(jù)從新 聞報(bào)道中抽取標(biāo)題、正文內(nèi)容、作者、發(fā)表時(shí)間等。目前Web信息抽取的方法主要有三種
(1)、手工方法通過(guò)觀察網(wǎng)頁(yè)代碼發(fā)現(xiàn)一定的模式,再根據(jù)此模式編寫程序?qū)崿F(xiàn) 目標(biāo)數(shù)據(jù)的抽取。當(dāng)需要處理的站點(diǎn)數(shù)量較大時(shí),此種方法需要耗費(fèi)大量的人力勞動(dòng),代價(jià) 較高。 (2)、構(gòu)造分裝器(Wr即per):分裝器是一種軟件構(gòu)件,主要通過(guò)兩種方式來(lái)生成,
一是通過(guò)領(lǐng)域?qū)<襾?lái)制定抽取規(guī)則,二是采用機(jī)器學(xué)習(xí)算法通過(guò)學(xué)習(xí)標(biāo)注過(guò)的樣本來(lái)自動(dòng)
生成Wrapper 。這實(shí)際上是一種半自動(dòng)的抽取方法,仍然需要手工標(biāo)注樣本, (3)、自動(dòng)抽取無(wú)監(jiān)督的方法,該種方法能從網(wǎng)頁(yè)中自動(dòng)尋找模式或語(yǔ)法以進(jìn)行
數(shù)據(jù)的抽取。因?yàn)榇朔N方法不需要手工標(biāo)注樣本,所以適用于處理大量站點(diǎn)和網(wǎng)頁(yè)的信息
抽取工作,但是其準(zhǔn)確率相對(duì)較低。 由于互聯(lián)網(wǎng)上論壇數(shù)量巨大,而且各個(gè)論壇風(fēng)格各異,現(xiàn)有方法用于Web論壇信 息抽取時(shí)或多或少存在一些問(wèn)題方法1,2需要大量的人工參與,無(wú)法滿足實(shí)際應(yīng)用的需 求;方法3能實(shí)現(xiàn)自動(dòng)抽取但準(zhǔn)確率又比較低。因此,我們迫切需求一種適用與Web論壇信 息抽取的全自動(dòng)、準(zhǔn)確率高的方法。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的在于提供一種Web論壇信息抽取系統(tǒng),該系統(tǒng)能對(duì)互聯(lián) 網(wǎng)上多種論壇的指定信息進(jìn)行自動(dòng)抽取,且有很高的準(zhǔn)確率。
為達(dá)到上述目的,本發(fā)明的系統(tǒng)包括以下模塊 網(wǎng)頁(yè)采集模塊,用于根據(jù)用戶指定的論壇站點(diǎn)和相應(yīng)的版塊自動(dòng)下載論壇網(wǎng)頁(yè); 網(wǎng)頁(yè)解析模塊,用于對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行清洗,形成網(wǎng)頁(yè)的文檔對(duì)象模型(D0M)以便信息抽取 算法的實(shí)施;在線抽取模塊,用于根據(jù)論壇網(wǎng)頁(yè)的布局結(jié)構(gòu)特點(diǎn)對(duì)網(wǎng)頁(yè)中的指定信息進(jìn)行 抽??;數(shù)據(jù)庫(kù)存儲(chǔ)模塊,用于將所抽取的內(nèi)容存儲(chǔ)在數(shù)據(jù)庫(kù)系統(tǒng)中以便進(jìn)行其它的應(yīng)用。
進(jìn)一步,所述網(wǎng)頁(yè)采集模塊包括以下單元 網(wǎng)頁(yè)獲取單元,該單元向HTTP服務(wù)器發(fā)送請(qǐng)求,讀取返回的內(nèi)容;鏈接獲取單元, 該單元從下載到的網(wǎng)頁(yè)中分析提取出待下載的網(wǎng)頁(yè)的URL;下載隊(duì)列管理單元,該單元根據(jù)一定的策略從下載URL隊(duì)列中取出下一個(gè)要下載的URL。 進(jìn)一步,所述網(wǎng)頁(yè)解析模塊還用于所述網(wǎng)頁(yè)采集模塊中的鏈接獲取單元,鏈接分析提取是基于網(wǎng)頁(yè)的DOM樹進(jìn)行的。 進(jìn)一步,所述在線抽取模塊包括以下單元網(wǎng)頁(yè)主題信息塊發(fā)現(xiàn)單元,該單元從網(wǎng)頁(yè)中確定包含待抽取信息的塊狀區(qū)域,對(duì)網(wǎng)頁(yè)噪聲進(jìn)行初步過(guò)濾;信息抽取單元,該單元對(duì)主題信息塊中的網(wǎng)頁(yè)噪聲進(jìn)行進(jìn)一步的過(guò)濾,再?gòu)闹谐槿〕鲋付ǖ男畔ⅰ?br>
進(jìn)一步,所述數(shù)據(jù)庫(kù)存儲(chǔ)模塊包括以下單元信息識(shí)別單元,該單元用于確定抽取出的信息是否已存在于數(shù)據(jù)庫(kù)中,進(jìn)一步確定是否要進(jìn)行插入記錄操作或是更新記錄操作或是空操作;信息保存單元,該單元將抽取出的信息插入或更新至數(shù)據(jù)庫(kù)。
本發(fā)明的有益效果是 本發(fā)明的有益效果在于,由于抓住了論壇網(wǎng)頁(yè)在布局結(jié)構(gòu)上的共有特點(diǎn),使得本發(fā)明可以適用于互聯(lián)網(wǎng)上絕大多數(shù)的論壇,通用性比較強(qiáng)。同時(shí)通過(guò)逐步縮小待抽取信息的范圍以及利用了待抽取信息的統(tǒng)計(jì)規(guī)律和自身特點(diǎn),使信息抽取的準(zhǔn)確率很高;另外,本發(fā)明不需要人工標(biāo)注樣本,極大的減少了成本。本發(fā)明的其他優(yōu)點(diǎn)、目標(biāo)和特征在某種程度上將在隨后的說(shuō)明書中進(jìn)行闡述,并且在某種程度上,基于對(duì)下文的考察研究對(duì)本領(lǐng)域技術(shù)人員而言將是顯而易見(jiàn)的,或者可以從本發(fā)明的實(shí)踐中得到教導(dǎo)。本發(fā)明的目標(biāo)和其他優(yōu)點(diǎn)可以通過(guò)下面的說(shuō)明書以及附圖中所特別指出的結(jié)構(gòu)來(lái)實(shí)現(xiàn)和獲得。
附圖為本發(fā)明的結(jié)構(gòu)示意圖。 圖1是本發(fā)明Web論壇信息抽取系統(tǒng)的結(jié)構(gòu)圖; 圖2是本發(fā)明Web論壇信息抽取系統(tǒng)操作方法的流程具體實(shí)施例方式
下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步描述。
如圖1所示,本發(fā)明的系統(tǒng)結(jié)構(gòu)包括如下模塊 Web論壇網(wǎng)頁(yè)采集模塊IOI,用于根據(jù)用戶指定的論壇站點(diǎn)和相應(yīng)的版塊來(lái)自動(dòng)下載論壇網(wǎng)頁(yè),該采集模塊需利用抽取模塊中抽取出的內(nèi)容;網(wǎng)頁(yè)解析模塊102,用于對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行清洗,使其滿足HTML規(guī)范并解析網(wǎng)頁(yè),形成網(wǎng)頁(yè)的文檔對(duì)象模型(DOM);在線抽取模塊103,用于根據(jù)論壇網(wǎng)頁(yè)的結(jié)構(gòu)特點(diǎn)和待抽取信息的特征和統(tǒng)計(jì)規(guī)律對(duì)網(wǎng)頁(yè)中的指定信息進(jìn)行抽?。粩?shù)據(jù)庫(kù)存儲(chǔ)模塊104,用于將所抽取的內(nèi)容存儲(chǔ)在數(shù)據(jù)庫(kù)系統(tǒng)中以便進(jìn)行有效的管理和其它的應(yīng)用。 以抽取人民網(wǎng)強(qiáng)國(guó)論壇的國(guó)際版為具體的實(shí)施例,本發(fā)明各模塊的實(shí)現(xiàn)方式如下所述。 以強(qiáng)國(guó)論壇國(guó)際版塊的URL為起始鏈接,其URL地址為"http:〃bbsl. people,com. cn/boardList. do 7 action = pos讓ist&boardld = 6,,,由網(wǎng)頁(yè)獲取單元下載該網(wǎng)頁(yè),由網(wǎng)頁(yè)解析模塊解析該網(wǎng)頁(yè),使其符合HTML標(biāo)準(zhǔn)并生成該網(wǎng)頁(yè)的DOM樹結(jié)構(gòu),并交由在線抽取模塊進(jìn)行處理。在線抽取模塊確定該主題索引頁(yè)面中的主題信息塊所在,并從中抽取出主題標(biāo)題及其鏈接,查看回復(fù)數(shù)、更新時(shí)間等,其中抽取出的標(biāo)題的鏈接交由采集模塊的
4鏈接獲取單元并添加至下載隊(duì)列中,下載隊(duì)列管理單元按照廣度優(yōu)先的原則確定下一個(gè)待
下載的鏈接。同時(shí)該主題索引頁(yè)面的下一頁(yè)鏈接有如下形式"http:〃bbs1. people, com.
cn/boardLlst. do action = postList&boardld = 6&pageNo = 2,,,只需依次增力口相應(yīng)的
參數(shù)pageNo值即可實(shí)現(xiàn)多頁(yè)的下載。同樣的方式也可完成內(nèi)容頁(yè)面的下載。以此方式即
可完成某一主題所有相關(guān)信息的獲取,抽取出的信息再交由數(shù)據(jù)庫(kù)存儲(chǔ)模塊。由信息識(shí)別
單元確定某一帖子是否為新帖,這一點(diǎn)可有帖子標(biāo)題和URL的雙Hash值來(lái)判斷,若為新帖,
則由數(shù)據(jù)庫(kù)存儲(chǔ)模塊的信息保存單元執(zhí)行數(shù)據(jù)庫(kù)記錄插入操作;若為舊帖,但是有新的回
帖或查看數(shù)發(fā)生改變,則由保存單元執(zhí)行數(shù)據(jù)庫(kù)記錄更新操作;否則不執(zhí)行任何操作。 需要注意的是,網(wǎng)頁(yè)采集模塊、網(wǎng)頁(yè)解析模塊和在線抽取模塊是互相配合執(zhí)行的,
由于獲取到的鏈接均是包含待抽取信息的頁(yè)面的鏈接,所以網(wǎng)頁(yè)采集的精度很高,幾乎沒(méi)
有無(wú)用的網(wǎng)頁(yè),這也保證了在線抽取模塊中信息抽取的準(zhǔn)確率。 以下結(jié)合圖2所示,介紹本發(fā)明Web論壇信息抽取系統(tǒng)的操作方法 步驟S201 ,裁剪DOM樹,設(shè)定閾值。對(duì)由網(wǎng)頁(yè)解析模塊得到的網(wǎng)頁(yè)的DOM樹進(jìn)行進(jìn)
一步的裁剪,具體如下 (1)如果節(jié)點(diǎn)不含有任何子節(jié)點(diǎn)或所含文本子節(jié)點(diǎn)為空,則刪除該節(jié)點(diǎn);
(2)如果節(jié)點(diǎn)為HTML的注釋部分,則刪除該節(jié)點(diǎn);
(3)如果節(jié)點(diǎn)為腳本節(jié)點(diǎn),則刪除該節(jié)點(diǎn)。 同時(shí),設(shè)定布局相似度閾值SOL為0. 9,計(jì)算相似度時(shí)所達(dá)到的節(jié)點(diǎn)的深度或?qū)訑?shù)N,一般取3,以及各層對(duì)整體布局的貢獻(xiàn)系數(shù),本實(shí)例取0. 6,0. 3,0. 1。上述閾值可根據(jù)實(shí)際情況進(jìn)行調(diào)整,一般可有實(shí)驗(yàn)數(shù)據(jù)得到一組效果最好的。 步驟S202,獲取下一個(gè)要處理的節(jié)點(diǎn),一般從〈B0DY〉節(jié)點(diǎn)開(kāi)始,之后按照其子節(jié)點(diǎn)的順序依次獲取。 步驟S203,判斷S202中得到的節(jié)點(diǎn)是否為空,若為空則說(shuō)明節(jié)點(diǎn)已處理完畢,執(zhí)行步驟S209 ;否則執(zhí)行步驟S204。 步驟S204,獲取該節(jié)點(diǎn)的所有孩子節(jié)點(diǎn),保留其中的塊狀子節(jié)點(diǎn),如〈DIV〉、〈TABLE〉、 〈F0RM〉、 〈UL〉等節(jié)點(diǎn),因?yàn)檫@些節(jié)點(diǎn)才會(huì)影響到布局。 步驟S205,通過(guò)計(jì)算比較得到相似節(jié)點(diǎn)的個(gè)數(shù)。計(jì)算兩個(gè)節(jié)點(diǎn)之間的布局相似度具體可以按照如下公式進(jìn)行 <formula>formula see original document page 5</formula> 其中,SoL(x,y)即表示兩個(gè)節(jié)點(diǎn)x、y之間的布局相似度(Similarity ofLayout)。N表示比較的深度,即只比較到第N層節(jié)點(diǎn);Mi表示第i層子節(jié)點(diǎn)的個(gè)數(shù);A為第i層子節(jié)
點(diǎn)對(duì)整體結(jié)構(gòu)布局的貢獻(xiàn)系數(shù),"i應(yīng)該滿足Sij.lj","表示進(jìn)行比較的兩個(gè)節(jié)點(diǎn)的第i
層第j個(gè)節(jié)點(diǎn)是否為同種類型的塊狀節(jié)點(diǎn),其值取0或1。首先判斷兩個(gè)節(jié)點(diǎn)是否為使用了同樣的HTML標(biāo)簽,比如是否同為〈TR〉或〈TD〉標(biāo)簽,若不同,則為0 ;若相同,則繼續(xù)比較兩節(jié)點(diǎn)屬性是否相同,如width, style, align等能反映節(jié)點(diǎn)布局結(jié)構(gòu)的屬性,若這些屬性值也相同,則Sij為1。 若計(jì)算所得SoL值大于閾值0. 9則認(rèn)為兩節(jié)點(diǎn)在布局上相似。同樣的方法計(jì)算所有子節(jié)點(diǎn)之間相似度,得到相似節(jié)點(diǎn)的個(gè)數(shù)。 步驟S206,查看相似節(jié)點(diǎn)的個(gè)數(shù)是否滿足預(yù)設(shè)值。 一般情況下,主題信息塊的數(shù)量 通常都比較多,選取合適的閾值可使結(jié)果更準(zhǔn)確。 步驟S207,如果滿足閾值,則認(rèn)為該節(jié)點(diǎn)為可能的結(jié)果,將其保存以待進(jìn)一步的處理。 步驟S208,如果未滿足閾值,則需要在其子節(jié)點(diǎn)中繼續(xù)尋找相似的節(jié)點(diǎn),即把該節(jié) 點(diǎn)的所有子節(jié)點(diǎn)均添加到待處理隊(duì)列中。轉(zhuǎn)至步驟S202繼續(xù)執(zhí)行。 步驟S209,從得到的可能的結(jié)果中確定主題信息塊??筛鶕?jù)不同的網(wǎng)頁(yè)類型使用 不同的方法,若是論壇網(wǎng)頁(yè)的主題索引頁(yè)面,則可根據(jù)所含相似子節(jié)點(diǎn)個(gè)數(shù)最多的節(jié)點(diǎn)為 包含主題信息塊的節(jié)點(diǎn),各相似子節(jié)點(diǎn)即為主題信息塊,這是因?yàn)?,主題索引頁(yè)面通常會(huì)列 出數(shù)十個(gè)最新的主題,或者根據(jù)節(jié)點(diǎn)中所含鏈接的錨文本長(zhǎng)度最長(zhǎng),因?yàn)橹黝}索引頁(yè)面中 通常都會(huì)提供主題的標(biāo)題鏈接用來(lái)指向內(nèi)容頁(yè)面,而標(biāo)題通常含有較多的文字,上述兩種 方法也可結(jié)合使用。在內(nèi)容頁(yè)面中應(yīng)使用不同的方法,因?yàn)橛械奶踊靥苌?,這就導(dǎo)致主 題信息塊的數(shù)量很少,但是內(nèi)容頁(yè)面的主題信息塊中通常含有數(shù)量較多的文本內(nèi)容,因此 可以以此為特征來(lái)確定內(nèi)容頁(yè)面中的主題信息塊。 步驟S210,從主題信息塊中抽取指定信息。 一般從論壇網(wǎng)頁(yè)中抽取的信息無(wú)非就 是帖子的標(biāo)題、作者、內(nèi)容、發(fā)表時(shí)間、查看和回復(fù)的數(shù)量等等,這些信息本身各具特點(diǎn),但 有時(shí)也會(huì)產(chǎn)生影響,如帖子的查看和回復(fù)數(shù)為數(shù)字而帖子的內(nèi)容中也可能出現(xiàn)數(shù)字等。但 是在主題信息塊內(nèi),這些信息的位置是相對(duì)固定的,由于主題信息塊是相似的,所以所有主 題信息塊中某個(gè)位置上的信息應(yīng)該都是相同類型的,會(huì)表現(xiàn)出一定的統(tǒng)計(jì)規(guī)律性。因此,可 以將主題塊表示成具有明顯語(yǔ)義信息的節(jié)點(diǎn)的集合,比如文本節(jié)點(diǎn)、超鏈接、圖片等,信息 其它節(jié)點(diǎn)不予考慮。其中第i個(gè)主題信息塊Bi表示為如下形式& = {ni, n2, n3. . . nk} , 代表各語(yǔ)義節(jié)點(diǎn)。采用深度優(yōu)先的方式遍歷主題信息塊中的所有節(jié)點(diǎn),按照下面的步驟得 到Bi : 獲取下一個(gè)要處理的節(jié)點(diǎn)。若為空,結(jié)束。否則轉(zhuǎn)至(2)。
若當(dāng)前節(jié)點(diǎn)的子節(jié)點(diǎn)只含有文本節(jié)點(diǎn)或鏈接節(jié)點(diǎn),將其添加到Bi中,轉(zhuǎn)至(1)。
由上述方法將所有主題信息塊表示成語(yǔ)義節(jié)點(diǎn)的集合。先對(duì)Bi中的節(jié)點(diǎn)進(jìn)一步 過(guò)濾,若所有的Bi中節(jié)點(diǎn)ni都相同,則認(rèn)為rii是噪聲節(jié)點(diǎn),再應(yīng)用以下規(guī)則從Bi中抽取包 含指定信息的節(jié)點(diǎn) Rl :對(duì)所有Bi中對(duì)應(yīng)文本節(jié)點(diǎn)求出其長(zhǎng)度的平均值,最大者為正文。 R2 :對(duì)所有Bi中對(duì)應(yīng)鏈接節(jié)點(diǎn)求出其錨文本長(zhǎng)度的平均值,最大者為標(biāo)題。 R3 :所有Bi中對(duì)應(yīng)某節(jié)點(diǎn)其文本中均含有數(shù)字則為查看回復(fù)數(shù)。 R4 :所有Bi中對(duì)應(yīng)某節(jié)點(diǎn)其文本中均含有一定格式的時(shí)間字符串則為時(shí)間。 R5 :若所有Bi中對(duì)應(yīng)某節(jié)點(diǎn)其文本中均出現(xiàn)"作者"、"Name"等字樣則為作者,否
則Bi中鏈接節(jié)點(diǎn)中位置靠前且錨文本長(zhǎng)度較短的為作者節(jié)點(diǎn)。 步驟S211,完成信息抽取的工作。 最后說(shuō)明的是,以上實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案而非限制,本領(lǐng)域普通 技術(shù)人員對(duì)本發(fā)明的技術(shù)方案所做的其他修改或者等同替換,只要不脫離本發(fā)明技術(shù)方案 的精神和范圍,均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。
權(quán)利要求
一種Web論壇信息抽取系統(tǒng),其特征在于,該系統(tǒng)包括如下模塊網(wǎng)頁(yè)采集模塊,用于根據(jù)用戶指定的論壇站點(diǎn)和相應(yīng)的版塊自動(dòng)下載論壇網(wǎng)頁(yè);網(wǎng)頁(yè)解析模塊,用于對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行清洗,形成網(wǎng)頁(yè)的文檔對(duì)象模型以便信息抽取算法的實(shí)施;在線抽取模塊,用于根據(jù)論壇網(wǎng)頁(yè)的布局結(jié)構(gòu)特點(diǎn)對(duì)網(wǎng)頁(yè)中的指定信息進(jìn)行抽取;數(shù)據(jù)庫(kù)存儲(chǔ)模塊,用于將所抽取的內(nèi)容存儲(chǔ)在數(shù)據(jù)庫(kù)系統(tǒng)中以便進(jìn)行其它的應(yīng)用。
2. 根據(jù)權(quán)利要求1所述的Web論壇信息抽取系統(tǒng),其特征在于,所述網(wǎng)頁(yè)采集模塊包括 以下單元網(wǎng)頁(yè)獲取單元,該單元向HTTP服務(wù)器發(fā)送請(qǐng)求,讀取返回的內(nèi)容; 鏈接獲取單元,該單元從下載到的網(wǎng)頁(yè)中分析提取出待下載的網(wǎng)頁(yè)的URL ; 下載隊(duì)列管理單元,該單元根據(jù)一定的策略從下載URL隊(duì)列中取出下一個(gè)要下載的URL。
3. 根據(jù)權(quán)利要求1所述的Web論壇信息抽取系統(tǒng),其特征在于,所述網(wǎng)頁(yè)解析模塊進(jìn)一 步用于所述網(wǎng)頁(yè)采集模塊中的鏈接獲取單元,鏈接分析提取是基于網(wǎng)頁(yè)的DOM樹進(jìn)行的。
4. 根據(jù)權(quán)利要求1所述的Web論壇信息抽取系統(tǒng),其特征在于,所述在線抽取模塊包括 以下單元網(wǎng)頁(yè)主題信息塊發(fā)現(xiàn)單元,該單元從網(wǎng)頁(yè)中確定包含待抽取信息的塊狀區(qū)域,對(duì)網(wǎng)頁(yè) 噪聲進(jìn)行初步過(guò)濾;信息抽取單元,該單元對(duì)主題信息塊中的網(wǎng)頁(yè)噪聲進(jìn)行進(jìn)一步的過(guò)濾,再?gòu)闹谐槿〕?指定的信息。
5. 根據(jù)權(quán)利要求1所述的Web論壇信息抽取系統(tǒng),其特征在于,所述數(shù)據(jù)庫(kù)存儲(chǔ)模塊包 括以下單元信息識(shí)別單元,該單元用于確定抽取出的信息是否已存在于數(shù)據(jù)庫(kù)中,進(jìn)一步確定是 否要進(jìn)行插入記錄操作或是更新記錄操作或是空操作;信息保存單元,該單元將抽取出的信息插入或更新至數(shù)據(jù)庫(kù)。
全文摘要
本發(fā)明公開(kāi)了一種Web論壇信息抽取系統(tǒng),該系統(tǒng)包括如下模塊網(wǎng)頁(yè)采集模塊,用于根據(jù)用戶指定的論壇站點(diǎn)和相應(yīng)的版塊自動(dòng)下載論壇網(wǎng)頁(yè);網(wǎng)頁(yè)解析模塊,用于對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行清洗,形成網(wǎng)頁(yè)的文檔對(duì)象模型(DOM)以便信息抽取算法的實(shí)施;在線抽取模塊,用于根據(jù)論壇網(wǎng)頁(yè)的布局結(jié)構(gòu)特點(diǎn)對(duì)網(wǎng)頁(yè)中的指定信息進(jìn)行抽?。粩?shù)據(jù)庫(kù)存儲(chǔ)模塊,用于將所抽取的內(nèi)容存儲(chǔ)在數(shù)據(jù)庫(kù)系統(tǒng)中以便進(jìn)行其它的應(yīng)用;本發(fā)明的能對(duì)互聯(lián)網(wǎng)上多種論壇的指定信息進(jìn)行自動(dòng)抽取,且有很高的準(zhǔn)確率。
文檔編號(hào)G06F17/30GK101727486SQ200910227300
公開(kāi)日2010年6月9日 申請(qǐng)日期2009年12月4日 優(yōu)先權(quán)日2009年12月4日
發(fā)明者李弼程, 林琛, 王允, 郭志剛, 閻紅燦 申請(qǐng)人:中國(guó)人民解放軍信息工程大學(xué)