一種網(wǎng)頁結(jié)構(gòu)化信息抽取方法
【專利摘要】本發(fā)明設(shè)計(jì)一種網(wǎng)頁結(jié)構(gòu)化信息抽取方法,網(wǎng)頁信息抽取的主要任務(wù)就是對(duì)網(wǎng)頁庫(kù)中的非結(jié)構(gòu)化信息進(jìn)行提取,以結(jié)構(gòu)化數(shù)據(jù)的方式存儲(chǔ)在數(shù)據(jù)庫(kù)中。主要包括網(wǎng)頁分析、制定抽取規(guī)則、元數(shù)據(jù)抽取和信息整合四個(gè)方面。首先需要對(duì)目標(biāo)網(wǎng)頁進(jìn)行分析,確定待抽取的元數(shù)據(jù)并分析其對(duì)應(yīng)的HTML代碼特點(diǎn)。然后,根據(jù)待抽取元數(shù)據(jù)在網(wǎng)頁中對(duì)應(yīng)的代碼特點(diǎn)制定相應(yīng)的抽取規(guī)則,抽取規(guī)則的制定要保證對(duì)待抽取數(shù)據(jù)匹配的唯一性。根據(jù)制定的抽取規(guī)則,所有待抽取的字段信息都會(huì)準(zhǔn)確地從網(wǎng)頁文本中抽取出來,并作為結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)中。最后對(duì)抽取后的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行整合處理,確保數(shù)據(jù)庫(kù)中信息的一致性和完整性。
【專利說明】一種網(wǎng)頁結(jié)構(gòu)化信息抽取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息抽取方法,特別是一種網(wǎng)頁結(jié)構(gòu)化信息抽取方法。
【背景技術(shù)】
[0002]信息抽取(Information Extraction, IE)是把文本里包含的信息進(jìn)行結(jié)構(gòu)化處理,變成表格一樣的組織形式。輸入信息抽取系統(tǒng)的是原始文本,輸出的是固定格式的信息點(diǎn)。信息點(diǎn)從各種各樣的文檔中被抽取出來,然后以統(tǒng)一的形式集成在一起,這就是信息抽取的主要任務(wù)。信息以統(tǒng)一的形式集成在一起的好處是方便檢查和比較,例如比較不同的招聘和商品信息。還有一個(gè)好處是能對(duì)數(shù)據(jù)作自動(dòng)化處理,例如用數(shù)據(jù)挖掘方法發(fā)現(xiàn)和解釋數(shù)據(jù)模型。信息抽取技術(shù)對(duì)于從大量的文檔中抽取需要的特定信息來說是非常有用的,它并不試圖全面理解整篇文檔,只是對(duì)文檔中包含相關(guān)信息的部分進(jìn)行分析。至于哪些信息是相關(guān)的,由系統(tǒng)設(shè)計(jì)時(shí)定下的領(lǐng)域范圍而定。IE系統(tǒng)中的關(guān)鍵組成部分就是一系列的抽取規(guī)則或模式,其作用是確定需要抽取的信息。
[0003]因特網(wǎng)提供了一個(gè)巨大的信息源,這種信息源往往是半結(jié)構(gòu)化的,雖然中間夾雜著結(jié)構(gòu)化和自由文本?;ヂ?lián)網(wǎng)上同一主題的信息通常分散存放在不同網(wǎng)站上,表現(xiàn)的形式也各不相同。若能將這些信息收集在一起,用結(jié)構(gòu)化形式儲(chǔ)存,那將是有益的。網(wǎng)上文本信息的大量增加導(dǎo)致這方面的研究得到高度重視。Web信息抽取(Web InformationExtraction,WebIE)是將Web作為信息源的一類信息抽取,就是從半結(jié)構(gòu)化的Web文檔中提取數(shù)據(jù),屬于Web內(nèi)容挖掘的范疇。目前Web上的網(wǎng)頁大部分是以超文本標(biāo)記語言描述的,主要目的是為了顯示,讓人通過瀏覽器瀏覽,但缺乏對(duì)數(shù)據(jù)本身的描述,不含清晰的語義信息,模式也不太明確。這使得應(yīng)用程序無法直接解析并利用Web上海量的信息,造成資源極大的浪費(fèi)。Web信息抽取正是研究如何將分散在Internet上的半結(jié)構(gòu)化的HTML頁面中的隱含的信息點(diǎn)提取出來,并以更為結(jié)構(gòu)化、語義更為清晰的形式表示,為用戶在Web中查詢數(shù)據(jù)、應(yīng)用程序直接利用Web中的數(shù)據(jù)提供便利。
【發(fā)明內(nèi)容】
[0004]網(wǎng)頁信息抽取的主要任務(wù)就是將分散在Internet上的半結(jié)構(gòu)化的HTML頁面中的隱含的信息點(diǎn)提取出來,并以更為結(jié)構(gòu)化、語義更為清晰的形式表示。
[0005]為了實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案如下:一種網(wǎng)頁結(jié)構(gòu)化信息抽取方法,包括以下步驟:
[0006]A、網(wǎng)頁分析
[0007]對(duì)目標(biāo)網(wǎng)頁進(jìn)行分析,確定待抽取的元數(shù)據(jù)并分析其對(duì)應(yīng)的HTML代碼特點(diǎn);
[0008]B、制定抽取規(guī)則:
[0009]該抽取規(guī)則包括采樣、識(shí)別需要抽取的信息代碼片段、建立匹配模式、構(gòu)建信息抽取程序和匹配模式和抽取程序驗(yàn)證五個(gè)部分;
[0010]B1、采樣:[0011]針對(duì)一個(gè)站點(diǎn),下載20個(gè)典型的輸出頁面的源代碼作為分析和驗(yàn)證的樣本;
[0012]B2、識(shí)別需要抽取的信息代碼片段:
[0013]選取任意一個(gè)下載的源代碼作為構(gòu)建匹配模式的樣本,通過可視化的HTML編輯器手工選擇需要抽取的信息,然后切換到源代碼編輯模式,這是就能夠看到需要抽取的信息對(duì)應(yīng)的HTML源代碼片斷,將這些代碼片斷標(biāo)記下來;
[0014]B3、建立匹配模式:
[0015]對(duì)于每一個(gè)已標(biāo)記的信息片斷,采用正則表達(dá)式為它建立一個(gè)通用的匹配模式串;該模式匹配要求只能構(gòu)匹配被標(biāo)記的代碼片段,同時(shí)要有一定的通用性,能夠適應(yīng)該代碼片段內(nèi)部的文本和細(xì)微布局的變化,同時(shí)對(duì)每一個(gè)匹配模式串加上標(biāo)識(shí)符,便于后續(xù)對(duì)匹配的信息進(jìn)行識(shí)別和抽?。?br>
[0016]B4、構(gòu)建信息抽取程序:
[0017]在匹配模式串的基礎(chǔ)上,通過模式串的標(biāo)記識(shí)別對(duì)應(yīng)匹配成功的代碼片斷,識(shí)別特殊的屬性字段,過濾掉HTML中無用的標(biāo)記,獲得純文本信息;
[0018]B5、匹配模式和抽取程序驗(yàn)證:
[0019]使用其剩下的下載樣本來驗(yàn)證匹配模式串和抽取程序的正確性;如果發(fā)現(xiàn)對(duì)于剩下的樣本不正確,則回溯到B2,重新構(gòu)建;
[0020]C、元數(shù)據(jù)抽取:
[0021]根據(jù)網(wǎng)頁的HTML代碼的特點(diǎn)對(duì)元數(shù)據(jù)進(jìn)行抽??;根據(jù)制定的抽取規(guī)則,所有待抽取的字段信息都會(huì)準(zhǔn)確地從網(wǎng)頁文本中抽取出來,并作為結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)中;
[0022]D、信息整合
[0023]對(duì)抽取后的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行整合處理,確保數(shù)據(jù)庫(kù)中信息的一致性和完整性;選取標(biāo)識(shí)屬性,作為區(qū)分不同信息的依據(jù)。
[0024]與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:
[0025]1、本發(fā)明提供了強(qiáng)大的信息抽取功能,通過對(duì)匹配模式串和模式串片斷增加標(biāo)記,可以十分方便地獲得匹配成功的代碼或者其中的一部分;
[0026]2、本發(fā)明制定的抽取規(guī)則能夠?qū)⒕W(wǎng)頁庫(kù)中的非結(jié)構(gòu)化信息進(jìn)行正確的提取,以結(jié)構(gòu)化數(shù)據(jù)的方式存儲(chǔ)在數(shù)據(jù)庫(kù)中,為索引模塊和信息檢索模塊提供數(shù)據(jù)來源。
【專利附圖】
【附圖說明】
[0027]本發(fā)明共有附圖1張,其中:
[0028]圖1是網(wǎng)頁/[目息抽取流程圖;
【具體實(shí)施方式】
[0029]網(wǎng)頁信息抽取的主要任務(wù)就是對(duì)網(wǎng)頁庫(kù)中的非結(jié)構(gòu)化信息進(jìn)行提取,以結(jié)構(gòu)化數(shù)據(jù)的方式存儲(chǔ)在數(shù)據(jù)庫(kù)中,其具體流程如圖1所示。圖1中每個(gè)部分的【具體實(shí)施方式】如下:
[0030]A、網(wǎng)頁分析
[0031]對(duì)目標(biāo)網(wǎng)頁進(jìn)行分析,確定待抽取的元數(shù)據(jù)并分析其對(duì)應(yīng)的HTML代碼特點(diǎn)。
[0032]B、制定抽取規(guī)則
[0033]B1、采樣[0034]針對(duì)一個(gè)站點(diǎn),下載20個(gè)典型的輸出頁面的源代碼作為分析和驗(yàn)證的樣本。
[0035]B2、識(shí)別需要抽取的信息代碼片段
[0036]選取任意一個(gè)下載的源代碼作為構(gòu)建匹配模式的樣本,通過可視化的HTML編輯器手工選擇需要抽取的信息,然后切換到源代碼編輯模式,這是就能夠看到需要抽取的信息對(duì)應(yīng)的HTML源代碼片斷,將這些代碼片斷標(biāo)記下來。
[0037]B3、建立匹配模式
[0038]對(duì)于每一個(gè)已標(biāo)記的信息片斷,采用正則表達(dá)式為它建立一個(gè)通用的匹配模式串。該模式匹配要求只能構(gòu)匹配被標(biāo)記的代碼片段,同時(shí)要有一定的通用性,能夠適應(yīng)該代碼片段內(nèi)部的文本和細(xì)微布局的變化,同時(shí)對(duì)每一個(gè)匹配模式串加上標(biāo)識(shí)符,便于后續(xù)對(duì)匹配的信息進(jìn)行識(shí)別和抽取。
[0039]B4、構(gòu)建信息抽取程序
[0040]在匹配模式串的基礎(chǔ)上,通過模式串的標(biāo)記識(shí)別對(duì)應(yīng)匹配成功的代碼片斷,識(shí)別特殊的屬性字段,過濾掉HTML中無用的標(biāo)記,獲得純文本信息。
[0041]B5、匹配模式和抽取程序驗(yàn)證
[0042]使用其剩下的下載樣本來驗(yàn)證匹配模式串和抽取程序的正確性。如果發(fā)現(xiàn)對(duì)于剩下的樣本不正確,則回溯到B2,重新構(gòu)建。
[0043]C、元數(shù)據(jù)抽取
[0044]根據(jù)網(wǎng)頁的HTML代碼的特點(diǎn)對(duì)元數(shù)據(jù)進(jìn)行抽取。根據(jù)制定的抽取規(guī)則,所有待抽取的字段信息都會(huì)準(zhǔn)確地從網(wǎng)頁文本中抽取出來,并作為結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)中。
[0045]D、信息整合對(duì)抽取后的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行整合處理,確保數(shù)據(jù)庫(kù)中信息的一致性和完整性。選取標(biāo)識(shí)屬性,作為區(qū)分不同信息的依據(jù)。
【權(quán)利要求】
1.一種網(wǎng)頁結(jié)構(gòu)化信息抽取方法,其特征在于:包括以下步驟: A、網(wǎng)頁分析 對(duì)目標(biāo)網(wǎng)頁進(jìn)行分析,確定待抽取的元數(shù)據(jù)并分析其對(duì)應(yīng)的HTML代碼特點(diǎn); B、制定抽取規(guī)則: 該抽取規(guī)則包括采樣、識(shí)別需要抽取的信息代碼片段、建立匹配模式、構(gòu)建信息抽取程序和匹配模式和抽取程序驗(yàn)證五個(gè)部分; B1、采樣: 針對(duì)一個(gè)站點(diǎn),下載20個(gè)典型的輸出頁面的源代碼作為分析和驗(yàn)證的樣本; B2、識(shí)別需要抽取的信息代碼片段: 選取任意一個(gè)下載的源代碼作為構(gòu)建匹配模式的樣本,通過可視化的HTML編輯器手工選擇需要抽取的信息,然后切換到源代碼編輯模式,這是就能夠看到需要抽取的信息對(duì)應(yīng)的HTML源代碼片斷,將這些代碼片斷標(biāo)記下來; B3、建立匹配模式: 對(duì)于每一個(gè)已標(biāo)記的信息片斷,采用正則表達(dá)式為它建立一個(gè)通用的匹配模式串;該模式匹配要求只能構(gòu)匹配被標(biāo)記的代碼片段,同時(shí)要有一定的通用性,能夠適應(yīng)該代碼片段內(nèi)部的文本和細(xì)微布局的變化,同時(shí)對(duì)每一個(gè)匹配模式串加上標(biāo)識(shí)符,便于后續(xù)對(duì)匹配的信息進(jìn)行識(shí)別和抽取; B4、構(gòu)建信息抽取程序: 在匹配模式串的基礎(chǔ)上,通過模式串的標(biāo)記識(shí)別對(duì)應(yīng)匹配成功的代碼片斷,識(shí)別特殊的屬性字段,過濾掉HTML中無用的標(biāo)記,獲得純文本信息; B5、匹配模式和抽取程序驗(yàn)證: 使用其剩下的下載樣本來驗(yàn)證匹配模式串和抽取程序的正確性;如果發(fā)現(xiàn)對(duì)于剩下的樣本不正確,則回溯到B2,重新構(gòu)建; C、元數(shù)據(jù)抽取: 根據(jù)網(wǎng)頁的HTML代碼的特點(diǎn)對(duì)元數(shù)據(jù)進(jìn)行抽取;根據(jù)制定的抽取規(guī)則,所有待抽取的字段信息都會(huì)準(zhǔn)確地從網(wǎng)頁文本中抽取出來,并作為結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)中; D、信息整合 對(duì)抽取后的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行整合處理,確保數(shù)據(jù)庫(kù)中信息的一致性和完整性;選取標(biāo)識(shí)屬性,作為區(qū)分不同信息的依據(jù)。
【文檔編號(hào)】G06F17/30GK103838796SQ201210491471
【公開日】2014年6月4日 申請(qǐng)日期:2012年11月27日 優(yōu)先權(quán)日:2012年11月27日
【發(fā)明者】侯辛酉, 夏銘澤 申請(qǐng)人:大連靈動(dòng)科技發(fā)展有限公司