一種網(wǎng)頁結(jié)構(gòu)化信息抽取方法

文檔序號(hào)：6491818閱讀：2734來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種網(wǎng)頁結(jié)構(gòu)化信息抽取方法
【專利摘要】本發(fā)明設(shè)計(jì)一種網(wǎng)頁結(jié)構(gòu)化信息抽取方法，網(wǎng)頁信息抽取的主要任務(wù)就是對(duì)網(wǎng)頁庫(kù)中的非結(jié)構(gòu)化信息進(jìn)行提取，以結(jié)構(gòu)化數(shù)據(jù)的方式存儲(chǔ)在數(shù)據(jù)庫(kù)中。主要包括網(wǎng)頁分析、制定抽取規(guī)則、元數(shù)據(jù)抽取和信息整合四個(gè)方面。首先需要對(duì)目標(biāo)網(wǎng)頁進(jìn)行分析，確定待抽取的元數(shù)據(jù)并分析其對(duì)應(yīng)的HTML代碼特點(diǎn)。然后，根據(jù)待抽取元數(shù)據(jù)在網(wǎng)頁中對(duì)應(yīng)的代碼特點(diǎn)制定相應(yīng)的抽取規(guī)則，抽取規(guī)則的制定要保證對(duì)待抽取數(shù)據(jù)匹配的唯一性。根據(jù)制定的抽取規(guī)則，所有待抽取的字段信息都會(huì)準(zhǔn)確地從網(wǎng)頁文本中抽取出來，并作為結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)中。最后對(duì)抽取后的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行整合處理，確保數(shù)據(jù)庫(kù)中信息的一致性和完整性。
【專利說明】一種網(wǎng)頁結(jié)構(gòu)化信息抽取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息抽取方法，特別是一種網(wǎng)頁結(jié)構(gòu)化信息抽取方法。
【背景技術(shù)】
[0002]信息抽取(Information Extraction, IE)是把文本里包含的信息進(jìn)行結(jié)構(gòu)化處理，變成表格一樣的組織形式。輸入信息抽取系統(tǒng)的是原始文本，輸出的是固定格式的信息點(diǎn)。信息點(diǎn)從各種各樣的文檔中被抽取出來，然后以統(tǒng)一的形式集成在一起，這就是信息抽取的主要任務(wù)。信息以統(tǒng)一的形式集成在一起的好處是方便檢查和比較，例如比較不同的招聘和商品信息。還有一個(gè)好處是能對(duì)數(shù)據(jù)作自動(dòng)化處理，例如用數(shù)據(jù)挖掘方法發(fā)現(xiàn)和解釋數(shù)據(jù)模型。信息抽取技術(shù)對(duì)于從大量的文檔中抽取需要的特定信息來說是非常有用的，它并不試圖全面理解整篇文檔，只是對(duì)文檔中包含相關(guān)信息的部分進(jìn)行分析。至于哪些信息是相關(guān)的，由系統(tǒng)設(shè)計(jì)時(shí)定下的領(lǐng)域范圍而定。IE系統(tǒng)中的關(guān)鍵組成部分就是一系列的抽取規(guī)則或模式，其作用是確定需要抽取的信息。
[0003]因特網(wǎng)提供了一個(gè)巨大的信息源，這種信息源往往是半結(jié)構(gòu)化的，雖然中間夾雜著結(jié)構(gòu)化和自由文本?；ヂ?lián)網(wǎng)上同一主題的信息通常分散存放在不同網(wǎng)站上，表現(xiàn)的形式也各不相同。若能將這些信息收集在一起，用結(jié)構(gòu)化形式儲(chǔ)存，那將是有益的。網(wǎng)上文本信息的大量增加導(dǎo)致這方面的研究得到高度重視。Web信息抽取(Web InformationExtraction,WebIE)是將Web作為信息源的一類信息抽取，就是從半結(jié)構(gòu)化的Web文檔中提取數(shù)據(jù)，屬于Web內(nèi)容挖掘的范疇。目前Web上的網(wǎng)頁大部分是以超文本標(biāo)記語言描述的，主要目的是為了顯示，讓人通過瀏覽器瀏覽，但缺乏對(duì)數(shù)據(jù)本身的描述，不含清晰的語義信息，模式也不太明確。這使得應(yīng)用程序無法直接解析并利用Web上海量的信息，造成資源極大的浪費(fèi)。Web信息抽取正是研究如何將分散在Internet上的半結(jié)構(gòu)化的HTML頁面中的隱含的信息點(diǎn)提取出來，并以更為結(jié)構(gòu)化、語義更為清晰的形式表示，為用戶在Web中查詢數(shù)據(jù)、應(yīng)用程序直接利用Web中的數(shù)據(jù)提供便利。

【發(fā)明內(nèi)容】

[0004]網(wǎng)頁信息抽取的主要任務(wù)就是將分散在Internet上的半結(jié)構(gòu)化的HTML頁面中的隱含的信息點(diǎn)提取出來，并以更為結(jié)構(gòu)化、語義更為清晰的形式表示。
[0005]為了實(shí)現(xiàn)上述目的，本發(fā)明的技術(shù)方案如下:一種網(wǎng)頁結(jié)構(gòu)化信息抽取方法，包括以下步驟:
[0006]A、網(wǎng)頁分析
[0007]對(duì)目標(biāo)網(wǎng)頁進(jìn)行分析，確定待抽取的元數(shù)據(jù)并分析其對(duì)應(yīng)的HTML代碼特點(diǎn)；
[0008]B、制定抽取規(guī)則:
[0009]該抽取規(guī)則包括采樣、識(shí)別需要抽取的信息代碼片段、建立匹配模式、構(gòu)建信息抽取程序和匹配模式和抽取程序驗(yàn)證五個(gè)部分；
[0010]B1、采樣:[0011]針對(duì)一個(gè)站點(diǎn)，下載20個(gè)典型的輸出頁面的源代碼作為分析和驗(yàn)證的樣本；
[0012]B2、識(shí)別需要抽取的信息代碼片段:
[0013]選取任意一個(gè)下載的源代碼作為構(gòu)建匹配模式的樣本，通過可視化的HTML編輯器手工選擇需要抽取的信息，然后切換到源代碼編輯模式，這是就能夠看到需要抽取的信息對(duì)應(yīng)的HTML源代碼片斷，將這些代碼片斷標(biāo)記下來；
[0014]B3、建立匹配模式:
[0015]對(duì)于每一個(gè)已標(biāo)記的信息片斷，采用正則表達(dá)式為它建立一個(gè)通用的匹配模式串；該模式匹配要求只能構(gòu)匹配被標(biāo)記的代碼片段，同時(shí)要有一定的通用性，能夠適應(yīng)該代碼片段內(nèi)部的文本和細(xì)微布局的變化，同時(shí)對(duì)每一個(gè)匹配模式串加上標(biāo)識(shí)符，便于后續(xù)對(duì)匹配的信息進(jìn)行識(shí)別和抽?。?br> [0016]B4、構(gòu)建信息抽取程序:
[0017]在匹配模式串的基礎(chǔ)上，通過模式串的標(biāo)記識(shí)別對(duì)應(yīng)匹配成功的代碼片斷，識(shí)別特殊的屬性字段，過濾掉HTML中無用的標(biāo)記，獲得純文本信息；
[0018]B5、匹配模式和抽取程序驗(yàn)證:
[0019]使用其剩下的下載樣本來驗(yàn)證匹配模式串和抽取程序的正確性；如果發(fā)現(xiàn)對(duì)于剩下的樣本不正確，則回溯到B2，重新構(gòu)建；
[0020]C、元數(shù)據(jù)抽取:
[0021]根據(jù)網(wǎng)頁的HTML代碼的特點(diǎn)對(duì)元數(shù)據(jù)進(jìn)行抽??；根據(jù)制定的抽取規(guī)則，所有待抽取的字段信息都會(huì)準(zhǔn)確地從網(wǎng)頁文本中抽取出來，并作為結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)中；
[0022]D、信息整合
[0023]對(duì)抽取后的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行整合處理，確保數(shù)據(jù)庫(kù)中信息的一致性和完整性；選取標(biāo)識(shí)屬性，作為區(qū)分不同信息的依據(jù)。
[0024]與現(xiàn)有技術(shù)相比，本發(fā)明具有以下有益效果:
[0025]1、本發(fā)明提供了強(qiáng)大的信息抽取功能，通過對(duì)匹配模式串和模式串片斷增加標(biāo)記，可以十分方便地獲得匹配成功的代碼或者其中的一部分；
[0026]2、本發(fā)明制定的抽取規(guī)則能夠?qū)⒕W(wǎng)頁庫(kù)中的非結(jié)構(gòu)化信息進(jìn)行正確的提取，以結(jié)構(gòu)化數(shù)據(jù)的方式存儲(chǔ)在數(shù)據(jù)庫(kù)中，為索引模塊和信息檢索模塊提供數(shù)據(jù)來源。
【專利附圖】

【附圖說明】
[0027]本發(fā)明共有附圖1張，其中:
[0028]圖1是網(wǎng)頁/[目息抽取流程圖；
【具體實(shí)施方式】
[0029]網(wǎng)頁信息抽取的主要任務(wù)就是對(duì)網(wǎng)頁庫(kù)中的非結(jié)構(gòu)化信息進(jìn)行提取，以結(jié)構(gòu)化數(shù)據(jù)的方式存儲(chǔ)在數(shù)據(jù)庫(kù)中，其具體流程如圖1所示。圖1中每個(gè)部分的【具體實(shí)施方式】如下:
[0030]A、網(wǎng)頁分析
[0031]對(duì)目標(biāo)網(wǎng)頁進(jìn)行分析，確定待抽取的元數(shù)據(jù)并分析其對(duì)應(yīng)的HTML代碼特點(diǎn)。
[0032]B、制定抽取規(guī)則
[0033]B1、采樣[0034]針對(duì)一個(gè)站點(diǎn)，下載20個(gè)典型的輸出頁面的源代碼作為分析和驗(yàn)證的樣本。
[0035]B2、識(shí)別需要抽取的信息代碼片段
[0036]選取任意一個(gè)下載的源代碼作為構(gòu)建匹配模式的樣本，通過可視化的HTML編輯器手工選擇需要抽取的信息，然后切換到源代碼編輯模式，這是就能夠看到需要抽取的信息對(duì)應(yīng)的HTML源代碼片斷，將這些代碼片斷標(biāo)記下來。
[0037]B3、建立匹配模式
[0038]對(duì)于每一個(gè)已標(biāo)記的信息片斷，采用正則表達(dá)式為它建立一個(gè)通用的匹配模式串。該模式匹配要求只能構(gòu)匹配被標(biāo)記的代碼片段，同時(shí)要有一定的通用性，能夠適應(yīng)該代碼片段內(nèi)部的文本和細(xì)微布局的變化，同時(shí)對(duì)每一個(gè)匹配模式串加上標(biāo)識(shí)符，便于后續(xù)對(duì)匹配的信息進(jìn)行識(shí)別和抽取。
[0039]B4、構(gòu)建信息抽取程序
[0040]在匹配模式串的基礎(chǔ)上，通過模式串的標(biāo)記識(shí)別對(duì)應(yīng)匹配成功的代碼片斷，識(shí)別特殊的屬性字段，過濾掉HTML中無用的標(biāo)記，獲得純文本信息。
[0041]B5、匹配模式和抽取程序驗(yàn)證
[0042]使用其剩下的下載樣本來驗(yàn)證匹配模式串和抽取程序的正確性。如果發(fā)現(xiàn)對(duì)于剩下的樣本不正確，則回溯到B2，重新構(gòu)建。
[0043]C、元數(shù)據(jù)抽取
[0044]根據(jù)網(wǎng)頁的HTML代碼的特點(diǎn)對(duì)元數(shù)據(jù)進(jìn)行抽取。根據(jù)制定的抽取規(guī)則，所有待抽取的字段信息都會(huì)準(zhǔn)確地從網(wǎng)頁文本中抽取出來，并作為結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)中。
[0045]D、信息整合對(duì)抽取后的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行整合處理，確保數(shù)據(jù)庫(kù)中信息的一致性和完整性。選取標(biāo)識(shí)屬性，作為區(qū)分不同信息的依據(jù)。
【權(quán)利要求】
1.一種網(wǎng)頁結(jié)構(gòu)化信息抽取方法，其特征在于:包括以下步驟: A、網(wǎng)頁分析對(duì)目標(biāo)網(wǎng)頁進(jìn)行分析，確定待抽取的元數(shù)據(jù)并分析其對(duì)應(yīng)的HTML代碼特點(diǎn)； B、制定抽取規(guī)則: 該抽取規(guī)則包括采樣、識(shí)別需要抽取的信息代碼片段、建立匹配模式、構(gòu)建信息抽取程序和匹配模式和抽取程序驗(yàn)證五個(gè)部分； B1、采樣: 針對(duì)一個(gè)站點(diǎn)，下載20個(gè)典型的輸出頁面的源代碼作為分析和驗(yàn)證的樣本； B2、識(shí)別需要抽取的信息代碼片段: 選取任意一個(gè)下載的源代碼作為構(gòu)建匹配模式的樣本，通過可視化的HTML編輯器手工選擇需要抽取的信息，然后切換到源代碼編輯模式，這是就能夠看到需要抽取的信息對(duì)應(yīng)的HTML源代碼片斷，將這些代碼片斷標(biāo)記下來； B3、建立匹配模式: 對(duì)于每一個(gè)已標(biāo)記的信息片斷，采用正則表達(dá)式為它建立一個(gè)通用的匹配模式串；該模式匹配要求只能構(gòu)匹配被標(biāo)記的代碼片段，同時(shí)要有一定的通用性，能夠適應(yīng)該代碼片段內(nèi)部的文本和細(xì)微布局的變化，同時(shí)對(duì)每一個(gè)匹配模式串加上標(biāo)識(shí)符，便于后續(xù)對(duì)匹配的信息進(jìn)行識(shí)別和抽取； B4、構(gòu)建信息抽取程序: 在匹配模式串的基礎(chǔ)上，通過模式串的標(biāo)記識(shí)別對(duì)應(yīng)匹配成功的代碼片斷，識(shí)別特殊的屬性字段，過濾掉HTML中無用的標(biāo)記，獲得純文本信息； B5、匹配模式和抽取程序驗(yàn)證: 使用其剩下的下載樣本來驗(yàn)證匹配模式串和抽取程序的正確性；如果發(fā)現(xiàn)對(duì)于剩下的樣本不正確，則回溯到B2，重新構(gòu)建； C、元數(shù)據(jù)抽取: 根據(jù)網(wǎng)頁的HTML代碼的特點(diǎn)對(duì)元數(shù)據(jù)進(jìn)行抽取；根據(jù)制定的抽取規(guī)則，所有待抽取的字段信息都會(huì)準(zhǔn)確地從網(wǎng)頁文本中抽取出來，并作為結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)中； D、信息整合對(duì)抽取后的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行整合處理，確保數(shù)據(jù)庫(kù)中信息的一致性和完整性；選取標(biāo)識(shí)屬性，作為區(qū)分不同信息的依據(jù)。
【文檔編號(hào)】G06F17/30GK103838796SQ201210491471
【公開日】2014年6月4日申請(qǐng)日期:2012年11月27日優(yōu)先權(quán)日:2012年11月27日
【發(fā)明者】侯辛酉, 夏銘澤申請(qǐng)人:大連靈動(dòng)科技發(fā)展有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：侯辛酉;夏銘澤;
技術(shù)所有人：大連靈動(dòng)科技發(fā)展有限公司;
我是此專利的發(fā)明人

上一篇：一種移動(dòng)搜索引擎優(yōu)化方法
上一篇：一種模板相關(guān)匹配方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種網(wǎng)頁結(jié)構(gòu)化信息抽取方法