一種Web論壇信息抽取系統(tǒng)的制作方法

文檔序號(hào)：6584150閱讀：398來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種Web論壇信息抽取系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及Web信息處理技術(shù)領(lǐng)域，尤其是涉及一種Web論壇信息抽取系統(tǒng)。
背景技術(shù)：
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展，互聯(lián)網(wǎng)上的信息呈現(xiàn)出爆炸式的增長(zhǎng)。而其中Web 論壇發(fā)展得尤為迅猛，據(jù)中國(guó)Web信息中心2008年底的統(tǒng)計(jì)，Web論壇的使用人數(shù)達(dá)到了 9100萬(wàn)，占網(wǎng)民總數(shù)的30%以上。每天都有成千上萬(wàn)的人在不同的Web論壇發(fā)布信息、探討問(wèn)題、交流觀點(diǎn)，日積月累使Web論壇成為一個(gè)巨大的信息資源庫(kù)，如何有效的從Web論壇中抽取出有用的信息具有重要的意義。 Web論壇信息抽取屬于Web信息抽取中針對(duì)網(wǎng)頁(yè)中某種屬性的抽取，比根據(jù)從新聞報(bào)道中抽取標(biāo)題、正文內(nèi)容、作者、發(fā)表時(shí)間等。目前Web信息抽取的方法主要有三種
(1)、手工方法通過(guò)觀察網(wǎng)頁(yè)代碼發(fā)現(xiàn)一定的模式，再根據(jù)此模式編寫程序?qū)崿F(xiàn) 目標(biāo)數(shù)據(jù)的抽取。當(dāng)需要處理的站點(diǎn)數(shù)量較大時(shí)，此種方法需要耗費(fèi)大量的人力勞動(dòng)，代價(jià) 較高。 (2)、構(gòu)造分裝器(Wr即per):分裝器是一種軟件構(gòu)件，主要通過(guò)兩種方式來(lái)生成，
一是通過(guò)領(lǐng)域?qū)＜襾?lái)制定抽取規(guī)則，二是采用機(jī)器學(xué)習(xí)算法通過(guò)學(xué)習(xí)標(biāo)注過(guò)的樣本來(lái)自動(dòng)
生成Wrapper 。這實(shí)際上是一種半自動(dòng)的抽取方法，仍然需要手工標(biāo)注樣本， (3)、自動(dòng)抽取無(wú)監(jiān)督的方法，該種方法能從網(wǎng)頁(yè)中自動(dòng)尋找模式或語(yǔ)法以進(jìn)行
數(shù)據(jù)的抽取。因?yàn)榇朔N方法不需要手工標(biāo)注樣本，所以適用于處理大量站點(diǎn)和網(wǎng)頁(yè)的信息
抽取工作，但是其準(zhǔn)確率相對(duì)較低。由于互聯(lián)網(wǎng)上論壇數(shù)量巨大，而且各個(gè)論壇風(fēng)格各異，現(xiàn)有方法用于Web論壇信息抽取時(shí)或多或少存在一些問(wèn)題方法1，2需要大量的人工參與，無(wú)法滿足實(shí)際應(yīng)用的需求；方法3能實(shí)現(xiàn)自動(dòng)抽取但準(zhǔn)確率又比較低。因此，我們迫切需求一種適用與Web論壇信息抽取的全自動(dòng)、準(zhǔn)確率高的方法。

發(fā)明內(nèi)容
有鑒于此，本發(fā)明的目的在于提供一種Web論壇信息抽取系統(tǒng)，該系統(tǒng)能對(duì)互聯(lián) 網(wǎng)上多種論壇的指定信息進(jìn)行自動(dòng)抽取，且有很高的準(zhǔn)確率。
為達(dá)到上述目的，本發(fā)明的系統(tǒng)包括以下模塊網(wǎng)頁(yè)采集模塊，用于根據(jù)用戶指定的論壇站點(diǎn)和相應(yīng)的版塊自動(dòng)下載論壇網(wǎng)頁(yè)；網(wǎng)頁(yè)解析模塊，用于對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行清洗，形成網(wǎng)頁(yè)的文檔對(duì)象模型(D0M)以便信息抽取算法的實(shí)施；在線抽取模塊，用于根據(jù)論壇網(wǎng)頁(yè)的布局結(jié)構(gòu)特點(diǎn)對(duì)網(wǎng)頁(yè)中的指定信息進(jìn)行抽??；數(shù)據(jù)庫(kù)存儲(chǔ)模塊，用于將所抽取的內(nèi)容存儲(chǔ)在數(shù)據(jù)庫(kù)系統(tǒng)中以便進(jìn)行其它的應(yīng)用。
進(jìn)一步，所述網(wǎng)頁(yè)采集模塊包括以下單元網(wǎng)頁(yè)獲取單元，該單元向HTTP服務(wù)器發(fā)送請(qǐng)求，讀取返回的內(nèi)容；鏈接獲取單元，該單元從下載到的網(wǎng)頁(yè)中分析提取出待下載的網(wǎng)頁(yè)的URL;下載隊(duì)列管理單元，該單元根據(jù)一定的策略從下載URL隊(duì)列中取出下一個(gè)要下載的URL。進(jìn)一步，所述網(wǎng)頁(yè)解析模塊還用于所述網(wǎng)頁(yè)采集模塊中的鏈接獲取單元，鏈接分析提取是基于網(wǎng)頁(yè)的DOM樹進(jìn)行的。進(jìn)一步，所述在線抽取模塊包括以下單元網(wǎng)頁(yè)主題信息塊發(fā)現(xiàn)單元，該單元從網(wǎng)頁(yè)中確定包含待抽取信息的塊狀區(qū)域，對(duì)網(wǎng)頁(yè)噪聲進(jìn)行初步過(guò)濾；信息抽取單元，該單元對(duì)主題信息塊中的網(wǎng)頁(yè)噪聲進(jìn)行進(jìn)一步的過(guò)濾，再?gòu)闹谐槿〕鲋付ǖ男畔ⅰ?br> 進(jìn)一步，所述數(shù)據(jù)庫(kù)存儲(chǔ)模塊包括以下單元信息識(shí)別單元，該單元用于確定抽取出的信息是否已存在于數(shù)據(jù)庫(kù)中，進(jìn)一步確定是否要進(jìn)行插入記錄操作或是更新記錄操作或是空操作；信息保存單元，該單元將抽取出的信息插入或更新至數(shù)據(jù)庫(kù)。
本發(fā)明的有益效果是本發(fā)明的有益效果在于，由于抓住了論壇網(wǎng)頁(yè)在布局結(jié)構(gòu)上的共有特點(diǎn)，使得本發(fā)明可以適用于互聯(lián)網(wǎng)上絕大多數(shù)的論壇，通用性比較強(qiáng)。同時(shí)通過(guò)逐步縮小待抽取信息的范圍以及利用了待抽取信息的統(tǒng)計(jì)規(guī)律和自身特點(diǎn)，使信息抽取的準(zhǔn)確率很高；另外，本發(fā)明不需要人工標(biāo)注樣本，極大的減少了成本。本發(fā)明的其他優(yōu)點(diǎn)、目標(biāo)和特征在某種程度上將在隨后的說(shuō)明書中進(jìn)行闡述，并且在某種程度上，基于對(duì)下文的考察研究對(duì)本領(lǐng)域技術(shù)人員而言將是顯而易見(jiàn)的，或者可以從本發(fā)明的實(shí)踐中得到教導(dǎo)。本發(fā)明的目標(biāo)和其他優(yōu)點(diǎn)可以通過(guò)下面的說(shuō)明書以及附圖中所特別指出的結(jié)構(gòu)來(lái)實(shí)現(xiàn)和獲得。

附圖為本發(fā)明的結(jié)構(gòu)示意圖。圖1是本發(fā)明Web論壇信息抽取系統(tǒng)的結(jié)構(gòu)圖；圖2是本發(fā)明Web論壇信息抽取系統(tǒng)操作方法的流程具體實(shí)施例方式
下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步描述。
如圖1所示，本發(fā)明的系統(tǒng)結(jié)構(gòu)包括如下模塊 Web論壇網(wǎng)頁(yè)采集模塊IOI，用于根據(jù)用戶指定的論壇站點(diǎn)和相應(yīng)的版塊來(lái)自動(dòng)下載論壇網(wǎng)頁(yè)，該采集模塊需利用抽取模塊中抽取出的內(nèi)容；網(wǎng)頁(yè)解析模塊102，用于對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行清洗，使其滿足HTML規(guī)范并解析網(wǎng)頁(yè)，形成網(wǎng)頁(yè)的文檔對(duì)象模型(DOM);在線抽取模塊103，用于根據(jù)論壇網(wǎng)頁(yè)的結(jié)構(gòu)特點(diǎn)和待抽取信息的特征和統(tǒng)計(jì)規(guī)律對(duì)網(wǎng)頁(yè)中的指定信息進(jìn)行抽?。粩?shù)據(jù)庫(kù)存儲(chǔ)模塊104，用于將所抽取的內(nèi)容存儲(chǔ)在數(shù)據(jù)庫(kù)系統(tǒng)中以便進(jìn)行有效的管理和其它的應(yīng)用。以抽取人民網(wǎng)強(qiáng)國(guó)論壇的國(guó)際版為具體的實(shí)施例，本發(fā)明各模塊的實(shí)現(xiàn)方式如下所述。以強(qiáng)國(guó)論壇國(guó)際版塊的URL為起始鏈接，其URL地址為"http:〃bbsl. people,com. cn/boardList. do 7 action = pos讓ist&boardld = 6，，，由網(wǎng)頁(yè)獲取單元下載該網(wǎng)頁(yè)，由網(wǎng)頁(yè)解析模塊解析該網(wǎng)頁(yè)，使其符合HTML標(biāo)準(zhǔn)并生成該網(wǎng)頁(yè)的DOM樹結(jié)構(gòu)，并交由在線抽取模塊進(jìn)行處理。在線抽取模塊確定該主題索引頁(yè)面中的主題信息塊所在，并從中抽取出主題標(biāo)題及其鏈接，查看回復(fù)數(shù)、更新時(shí)間等，其中抽取出的標(biāo)題的鏈接交由采集模塊的
4鏈接獲取單元并添加至下載隊(duì)列中，下載隊(duì)列管理單元按照廣度優(yōu)先的原則確定下一個(gè)待
下載的鏈接。同時(shí)該主題索引頁(yè)面的下一頁(yè)鏈接有如下形式"http:〃bbs1. people, com.
cn/boardLlst. do action = postList&boardld = 6&pageNo = 2，，，只需依次增力口相應(yīng)的
參數(shù)pageNo值即可實(shí)現(xiàn)多頁(yè)的下載。同樣的方式也可完成內(nèi)容頁(yè)面的下載。以此方式即
可完成某一主題所有相關(guān)信息的獲取，抽取出的信息再交由數(shù)據(jù)庫(kù)存儲(chǔ)模塊。由信息識(shí)別
單元確定某一帖子是否為新帖，這一點(diǎn)可有帖子標(biāo)題和URL的雙Hash值來(lái)判斷，若為新帖，
則由數(shù)據(jù)庫(kù)存儲(chǔ)模塊的信息保存單元執(zhí)行數(shù)據(jù)庫(kù)記錄插入操作；若為舊帖，但是有新的回
帖或查看數(shù)發(fā)生改變，則由保存單元執(zhí)行數(shù)據(jù)庫(kù)記錄更新操作；否則不執(zhí)行任何操作。需要注意的是，網(wǎng)頁(yè)采集模塊、網(wǎng)頁(yè)解析模塊和在線抽取模塊是互相配合執(zhí)行的，
由于獲取到的鏈接均是包含待抽取信息的頁(yè)面的鏈接，所以網(wǎng)頁(yè)采集的精度很高，幾乎沒(méi)
有無(wú)用的網(wǎng)頁(yè)，這也保證了在線抽取模塊中信息抽取的準(zhǔn)確率。以下結(jié)合圖2所示，介紹本發(fā)明Web論壇信息抽取系統(tǒng)的操作方法步驟S201 ，裁剪DOM樹，設(shè)定閾值。對(duì)由網(wǎng)頁(yè)解析模塊得到的網(wǎng)頁(yè)的DOM樹進(jìn)行進(jìn)
一步的裁剪，具體如下 (1)如果節(jié)點(diǎn)不含有任何子節(jié)點(diǎn)或所含文本子節(jié)點(diǎn)為空，則刪除該節(jié)點(diǎn)；
(2)如果節(jié)點(diǎn)為HTML的注釋部分，則刪除該節(jié)點(diǎn)；
(3)如果節(jié)點(diǎn)為腳本節(jié)點(diǎn)，則刪除該節(jié)點(diǎn)。同時(shí)，設(shè)定布局相似度閾值SOL為0. 9，計(jì)算相似度時(shí)所達(dá)到的節(jié)點(diǎn)的深度或?qū)訑?shù)N，一般取3，以及各層對(duì)整體布局的貢獻(xiàn)系數(shù)，本實(shí)例取0. 6，0. 3，0. 1。上述閾值可根據(jù)實(shí)際情況進(jìn)行調(diào)整，一般可有實(shí)驗(yàn)數(shù)據(jù)得到一組效果最好的。步驟S202，獲取下一個(gè)要處理的節(jié)點(diǎn)，一般從〈B0DY〉節(jié)點(diǎn)開(kāi)始，之后按照其子節(jié)點(diǎn)的順序依次獲取。步驟S203，判斷S202中得到的節(jié)點(diǎn)是否為空，若為空則說(shuō)明節(jié)點(diǎn)已處理完畢，執(zhí)行步驟S209 ;否則執(zhí)行步驟S204。步驟S204，獲取該節(jié)點(diǎn)的所有孩子節(jié)點(diǎn)，保留其中的塊狀子節(jié)點(diǎn)，如〈DIV〉、〈TABLE〉、〈F0RM〉、〈UL〉等節(jié)點(diǎn)，因?yàn)檫@些節(jié)點(diǎn)才會(huì)影響到布局。步驟S205，通過(guò)計(jì)算比較得到相似節(jié)點(diǎn)的個(gè)數(shù)。計(jì)算兩個(gè)節(jié)點(diǎn)之間的布局相似度具體可以按照如下公式進(jìn)行 <formula>formula see original document page 5</formula> 其中，SoL(x，y)即表示兩個(gè)節(jié)點(diǎn)x、y之間的布局相似度(Similarity ofLayout)。N表示比較的深度，即只比較到第N層節(jié)點(diǎn)；Mi表示第i層子節(jié)點(diǎn)的個(gè)數(shù)；A為第i層子節(jié)
點(diǎn)對(duì)整體結(jié)構(gòu)布局的貢獻(xiàn)系數(shù)，"i應(yīng)該滿足Sij.lj","表示進(jìn)行比較的兩個(gè)節(jié)點(diǎn)的第i
層第j個(gè)節(jié)點(diǎn)是否為同種類型的塊狀節(jié)點(diǎn)，其值取0或1。首先判斷兩個(gè)節(jié)點(diǎn)是否為使用了同樣的HTML標(biāo)簽，比如是否同為〈TR〉或〈TD〉標(biāo)簽，若不同，則為0 ;若相同，則繼續(xù)比較兩節(jié)點(diǎn)屬性是否相同，如width, style, align等能反映節(jié)點(diǎn)布局結(jié)構(gòu)的屬性，若這些屬性值也相同，則Sij為1。若計(jì)算所得SoL值大于閾值0. 9則認(rèn)為兩節(jié)點(diǎn)在布局上相似。同樣的方法計(jì)算所有子節(jié)點(diǎn)之間相似度，得到相似節(jié)點(diǎn)的個(gè)數(shù)。步驟S206，查看相似節(jié)點(diǎn)的個(gè)數(shù)是否滿足預(yù)設(shè)值。一般情況下，主題信息塊的數(shù)量通常都比較多，選取合適的閾值可使結(jié)果更準(zhǔn)確。步驟S207，如果滿足閾值，則認(rèn)為該節(jié)點(diǎn)為可能的結(jié)果，將其保存以待進(jìn)一步的處理。步驟S208，如果未滿足閾值，則需要在其子節(jié)點(diǎn)中繼續(xù)尋找相似的節(jié)點(diǎn)，即把該節(jié) 點(diǎn)的所有子節(jié)點(diǎn)均添加到待處理隊(duì)列中。轉(zhuǎn)至步驟S202繼續(xù)執(zhí)行。步驟S209，從得到的可能的結(jié)果中確定主題信息塊?？筛鶕?jù)不同的網(wǎng)頁(yè)類型使用不同的方法，若是論壇網(wǎng)頁(yè)的主題索引頁(yè)面，則可根據(jù)所含相似子節(jié)點(diǎn)個(gè)數(shù)最多的節(jié)點(diǎn)為包含主題信息塊的節(jié)點(diǎn)，各相似子節(jié)點(diǎn)即為主題信息塊，這是因?yàn)?，主題索引頁(yè)面通常會(huì)列出數(shù)十個(gè)最新的主題，或者根據(jù)節(jié)點(diǎn)中所含鏈接的錨文本長(zhǎng)度最長(zhǎng)，因?yàn)橹黝}索引頁(yè)面中通常都會(huì)提供主題的標(biāo)題鏈接用來(lái)指向內(nèi)容頁(yè)面，而標(biāo)題通常含有較多的文字，上述兩種方法也可結(jié)合使用。在內(nèi)容頁(yè)面中應(yīng)使用不同的方法，因?yàn)橛械奶踊靥苌?，這就導(dǎo)致主題信息塊的數(shù)量很少，但是內(nèi)容頁(yè)面的主題信息塊中通常含有數(shù)量較多的文本內(nèi)容，因此可以以此為特征來(lái)確定內(nèi)容頁(yè)面中的主題信息塊。步驟S210，從主題信息塊中抽取指定信息。一般從論壇網(wǎng)頁(yè)中抽取的信息無(wú)非就是帖子的標(biāo)題、作者、內(nèi)容、發(fā)表時(shí)間、查看和回復(fù)的數(shù)量等等，這些信息本身各具特點(diǎn)，但有時(shí)也會(huì)產(chǎn)生影響，如帖子的查看和回復(fù)數(shù)為數(shù)字而帖子的內(nèi)容中也可能出現(xiàn)數(shù)字等。但是在主題信息塊內(nèi)，這些信息的位置是相對(duì)固定的，由于主題信息塊是相似的，所以所有主題信息塊中某個(gè)位置上的信息應(yīng)該都是相同類型的，會(huì)表現(xiàn)出一定的統(tǒng)計(jì)規(guī)律性。因此，可以將主題塊表示成具有明顯語(yǔ)義信息的節(jié)點(diǎn)的集合，比如文本節(jié)點(diǎn)、超鏈接、圖片等，信息其它節(jié)點(diǎn)不予考慮。其中第i個(gè)主題信息塊Bi表示為如下形式& = {ni， n2， n3. . . nk} ，代表各語(yǔ)義節(jié)點(diǎn)。采用深度優(yōu)先的方式遍歷主題信息塊中的所有節(jié)點(diǎn)，按照下面的步驟得到Bi : 獲取下一個(gè)要處理的節(jié)點(diǎn)。若為空，結(jié)束。否則轉(zhuǎn)至(2)。
若當(dāng)前節(jié)點(diǎn)的子節(jié)點(diǎn)只含有文本節(jié)點(diǎn)或鏈接節(jié)點(diǎn)，將其添加到Bi中，轉(zhuǎn)至(1)。
由上述方法將所有主題信息塊表示成語(yǔ)義節(jié)點(diǎn)的集合。先對(duì)Bi中的節(jié)點(diǎn)進(jìn)一步過(guò)濾，若所有的Bi中節(jié)點(diǎn)ni都相同，則認(rèn)為rii是噪聲節(jié)點(diǎn)，再應(yīng)用以下規(guī)則從Bi中抽取包含指定信息的節(jié)點(diǎn) Rl :對(duì)所有Bi中對(duì)應(yīng)文本節(jié)點(diǎn)求出其長(zhǎng)度的平均值，最大者為正文。 R2 :對(duì)所有Bi中對(duì)應(yīng)鏈接節(jié)點(diǎn)求出其錨文本長(zhǎng)度的平均值，最大者為標(biāo)題。 R3 :所有Bi中對(duì)應(yīng)某節(jié)點(diǎn)其文本中均含有數(shù)字則為查看回復(fù)數(shù)。 R4 :所有Bi中對(duì)應(yīng)某節(jié)點(diǎn)其文本中均含有一定格式的時(shí)間字符串則為時(shí)間。 R5 :若所有Bi中對(duì)應(yīng)某節(jié)點(diǎn)其文本中均出現(xiàn)"作者"、"Name"等字樣則為作者，否
則Bi中鏈接節(jié)點(diǎn)中位置靠前且錨文本長(zhǎng)度較短的為作者節(jié)點(diǎn)。步驟S211，完成信息抽取的工作。最后說(shuō)明的是，以上實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案而非限制，本領(lǐng)域普通技術(shù)人員對(duì)本發(fā)明的技術(shù)方案所做的其他修改或者等同替換，只要不脫離本發(fā)明技術(shù)方案的精神和范圍，均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。
權(quán)利要求
一種Web論壇信息抽取系統(tǒng)，其特征在于，該系統(tǒng)包括如下模塊網(wǎng)頁(yè)采集模塊，用于根據(jù)用戶指定的論壇站點(diǎn)和相應(yīng)的版塊自動(dòng)下載論壇網(wǎng)頁(yè)；網(wǎng)頁(yè)解析模塊，用于對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行清洗，形成網(wǎng)頁(yè)的文檔對(duì)象模型以便信息抽取算法的實(shí)施；在線抽取模塊，用于根據(jù)論壇網(wǎng)頁(yè)的布局結(jié)構(gòu)特點(diǎn)對(duì)網(wǎng)頁(yè)中的指定信息進(jìn)行抽取；數(shù)據(jù)庫(kù)存儲(chǔ)模塊，用于將所抽取的內(nèi)容存儲(chǔ)在數(shù)據(jù)庫(kù)系統(tǒng)中以便進(jìn)行其它的應(yīng)用。
2. 根據(jù)權(quán)利要求1所述的Web論壇信息抽取系統(tǒng)，其特征在于，所述網(wǎng)頁(yè)采集模塊包括以下單元網(wǎng)頁(yè)獲取單元，該單元向HTTP服務(wù)器發(fā)送請(qǐng)求，讀取返回的內(nèi)容；鏈接獲取單元，該單元從下載到的網(wǎng)頁(yè)中分析提取出待下載的網(wǎng)頁(yè)的URL ; 下載隊(duì)列管理單元，該單元根據(jù)一定的策略從下載URL隊(duì)列中取出下一個(gè)要下載的URL。
3. 根據(jù)權(quán)利要求1所述的Web論壇信息抽取系統(tǒng)，其特征在于，所述網(wǎng)頁(yè)解析模塊進(jìn)一步用于所述網(wǎng)頁(yè)采集模塊中的鏈接獲取單元，鏈接分析提取是基于網(wǎng)頁(yè)的DOM樹進(jìn)行的。
4. 根據(jù)權(quán)利要求1所述的Web論壇信息抽取系統(tǒng)，其特征在于，所述在線抽取模塊包括以下單元網(wǎng)頁(yè)主題信息塊發(fā)現(xiàn)單元，該單元從網(wǎng)頁(yè)中確定包含待抽取信息的塊狀區(qū)域，對(duì)網(wǎng)頁(yè) 噪聲進(jìn)行初步過(guò)濾；信息抽取單元，該單元對(duì)主題信息塊中的網(wǎng)頁(yè)噪聲進(jìn)行進(jìn)一步的過(guò)濾，再?gòu)闹谐槿〕?指定的信息。
5. 根據(jù)權(quán)利要求1所述的Web論壇信息抽取系統(tǒng)，其特征在于，所述數(shù)據(jù)庫(kù)存儲(chǔ)模塊包括以下單元信息識(shí)別單元，該單元用于確定抽取出的信息是否已存在于數(shù)據(jù)庫(kù)中，進(jìn)一步確定是否要進(jìn)行插入記錄操作或是更新記錄操作或是空操作；信息保存單元，該單元將抽取出的信息插入或更新至數(shù)據(jù)庫(kù)。
全文摘要
本發(fā)明公開(kāi)了一種Web論壇信息抽取系統(tǒng)，該系統(tǒng)包括如下模塊網(wǎng)頁(yè)采集模塊，用于根據(jù)用戶指定的論壇站點(diǎn)和相應(yīng)的版塊自動(dòng)下載論壇網(wǎng)頁(yè)；網(wǎng)頁(yè)解析模塊，用于對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行清洗，形成網(wǎng)頁(yè)的文檔對(duì)象模型(DOM)以便信息抽取算法的實(shí)施；在線抽取模塊，用于根據(jù)論壇網(wǎng)頁(yè)的布局結(jié)構(gòu)特點(diǎn)對(duì)網(wǎng)頁(yè)中的指定信息進(jìn)行抽?。粩?shù)據(jù)庫(kù)存儲(chǔ)模塊，用于將所抽取的內(nèi)容存儲(chǔ)在數(shù)據(jù)庫(kù)系統(tǒng)中以便進(jìn)行其它的應(yīng)用；本發(fā)明的能對(duì)互聯(lián)網(wǎng)上多種論壇的指定信息進(jìn)行自動(dòng)抽取，且有很高的準(zhǔn)確率。
文檔編號(hào)G06F17/30GK101727486SQ200910227300
公開(kāi)日2010年6月9日申請(qǐng)日期2009年12月4日優(yōu)先權(quán)日2009年12月4日
發(fā)明者李弼程, 林琛, 王允, 郭志剛, 閻紅燦申請(qǐng)人:中國(guó)人民解放軍信息工程大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李弼程;王允;林琛;郭志剛;閻紅燦
技術(shù)所有人：中國(guó)人民解放軍信息工程大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

海賊王之最強(qiáng)抽取系統(tǒng)相關(guān)技術(shù)

龍珠之最強(qiáng)抽取系統(tǒng)相關(guān)技術(shù)

評(píng)標(biāo)專家抽取系統(tǒng)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種Web論壇信息抽取系統(tǒng)的制作方法