一種面向用戶的web信息自動(dòng)提取方法
【專利摘要】本發(fā)明提供一種面向用戶的WEB信息自動(dòng)提取方法,該方法主要用于用戶指定的一個(gè)或多個(gè)網(wǎng)站內(nèi)容的快速定位與自動(dòng)提取。具體為:首先根據(jù)給定的鏈接地址(URL),遍歷整個(gè)網(wǎng)站,獲得用戶所關(guān)注的頁面;然后存儲(chǔ)相應(yīng)頁面的鏈接地址;再抽取關(guān)注頁面的信息標(biāo)題,發(fā)布時(shí)間、主要內(nèi)容等信息;最后將抽取的信息存儲(chǔ)于數(shù)據(jù)庫和文件系統(tǒng)中,并且去除抽取的重復(fù)信息。本發(fā)明應(yīng)用于信息檢索或咨詢類網(wǎng)站的信息采集,能夠從大量的WEB頁面中提取用戶關(guān)注的信息,并且能快速定位用戶所關(guān)注的內(nèi)容。
【專利說明】_種面向用戶的WEB信息自動(dòng)提取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及文本處理【技術(shù)領(lǐng)域】,尤其是一種面向用戶的WEB信息自動(dòng)提取方法。
【背景技術(shù)】
[0002]本發(fā)明涉及文本處理【技術(shù)領(lǐng)域】,如何在海量的WEB信息中快速而又準(zhǔn)確地獲取信息成為當(dāng)前的研宄熱點(diǎn),特別是從用戶關(guān)注的站點(diǎn)中自動(dòng)提取信息,并快速定位信息內(nèi)容已經(jīng)得到廣泛關(guān)注?,F(xiàn)有的信息提取方法,主要有基于主題和關(guān)鍵詞的WEB信息自動(dòng)提取方法,以及基于查詢的WEB信息采集技術(shù),面向主題、關(guān)鍵詞以及基于查詢的WEB信息采集都是有選擇性地提取特定內(nèi)容的WEB頁面,采集的頁面單一,不能滿足用戶所關(guān)注的所有WEB站點(diǎn)信息的自動(dòng)提取。
【發(fā)明內(nèi)容】
[0003]本發(fā)明提出了一種面向用戶的WEB信息自動(dòng)提取方法。本發(fā)明能分析用戶關(guān)注的站點(diǎn)列表,能夠從大量的WEB頁面中提取用戶關(guān)注的信息,并且能快速定位用戶所關(guān)注的內(nèi)容,以提高用戶獲取信息的效率。
[0004]為了達(dá)到上述目的,本發(fā)明所采用的技術(shù)方案為:
[0005]一種面向用戶的WEB信息自動(dòng)提取方法,包括以下步驟:
[0006](I)根據(jù)用戶給定的WEB站點(diǎn)鏈接列表,依次遍歷每個(gè)WEB站點(diǎn),獲得用戶關(guān)注頁面;
[0007](2)識(shí)別WEB站點(diǎn)中每個(gè)頁面的鏈接地址并存儲(chǔ);
[0008](3)提取用戶關(guān)注頁面的標(biāo)題、發(fā)布時(shí)間、頁面正文;
[0009](4)將提取的內(nèi)容格式規(guī)范化后存儲(chǔ)于數(shù)據(jù)庫和文件系統(tǒng)中,其中頁面標(biāo)題、發(fā)布時(shí)間存儲(chǔ)于數(shù)據(jù)庫中,頁面正文存儲(chǔ)于文件系統(tǒng)中;、
[0010](5)去除抽取的重復(fù)信息;
[0011]進(jìn)一步的,所述步驟(I)中,用戶給定的鏈接列表為用戶手動(dòng)輸入或從系統(tǒng)默認(rèn)的WEB站點(diǎn)列表中選擇獲得。
[0012]進(jìn)一步的,所述步驟(2)識(shí)別連接地址并存儲(chǔ)具體包括以下步驟:
[0013]2a)對于每個(gè)WEB站點(diǎn),以一個(gè)URL作為信息來源,根據(jù)HTML文檔的DOM樹結(jié)構(gòu)獲得相應(yīng)WEB頁面的HTML源代碼,再根據(jù)WEB頁面的編碼格式獲得WEB頁面的分頁鏈接格式,根據(jù)分頁鏈接格式獲得分頁的全部鏈接地址,再根據(jù)分頁鏈接地址獲得所有分頁的HTML源代碼;
[0014]2b)依次獲取用戶關(guān)注的WEB站點(diǎn)列表中每個(gè)URL,連接并解析相應(yīng)頁面,提取頁面中所有鏈接地址后,逐個(gè)判斷這些鏈接是否為網(wǎng)站內(nèi)部鏈接,且是否已存在于待檢索鏈接隊(duì)列或已檢索鏈接隊(duì)列中,如果某一鏈接被判定為該網(wǎng)站內(nèi)部鏈接,且不存在于待檢索鏈接隊(duì)列與已檢索鏈接隊(duì)列中,則將該鏈接地址存入待檢索鏈接隊(duì)列,否則不對該鏈接地址進(jìn)行操作,直接獲取下一個(gè)鏈接進(jìn)行判斷;
[0015]2c)在該頁面所有鏈接處理完畢后,系統(tǒng)將從待檢索鏈接隊(duì)列中取出下一個(gè)鏈接地址替代用戶關(guān)注的WEB站點(diǎn)的首頁鏈接地址,重復(fù)步驟2a)到2b),處理完畢后,將該鏈接存入已檢索鏈接隊(duì)列,然后繼續(xù)從待檢索鏈接隊(duì)列中提取下一鏈接地址,如此循環(huán),直到待檢索鏈接隊(duì)列為空,則結(jié)束當(dāng)前站點(diǎn)的檢索工作,開始對下一站點(diǎn)進(jìn)行檢索。
[0016]更進(jìn)一步的,所述步驟(3)具體包括以下步驟:
[0017]3a)提取標(biāo)題,從目標(biāo)鏈接隊(duì)列中逐個(gè)提取信息鏈接地址,并對該鏈接地址進(jìn)行連接與頁面解析,過濾出該頁面HTML文檔中的〈title〉標(biāo)簽,提取出符合要求的節(jié)點(diǎn)存入節(jié)點(diǎn)列表,然后獲取節(jié)點(diǎn)的顯示文本信息,并對所提取的信息進(jìn)行適應(yīng)性修改;
[0018]3b)提取正文,提取主體內(nèi)容,過濾出HTML文檔中的節(jié)點(diǎn)、<div>節(jié)點(diǎn)、<div>節(jié)點(diǎn)作為先輩節(jié)點(diǎn)的節(jié)點(diǎn)、<a>節(jié)點(diǎn)以及擁有后代節(jié)點(diǎn)<a>的節(jié)點(diǎn);
[0019]3c)提取發(fā)布時(shí)間,當(dāng)頁面解析完成后通過正則表達(dá)式匹配法提取出信息發(fā)布時(shí)間。
[0020]再進(jìn)一步的,所述步驟(5)去除抽取重復(fù)的信息具體為:對一個(gè)信息站點(diǎn)進(jìn)行過一次采集后,為了避免對已采集信息的重復(fù)采集,僅對新產(chǎn)生的頁面進(jìn)行采集,提取信息基本屬性后,在數(shù)據(jù)庫中查詢該信息是否存在,如果存在,直接提取下一信息鏈接進(jìn)行操作,否則,將該條信息存入。
【專利附圖】
【附圖說明】
[0021]圖1為本發(fā)明面向用戶的WEB信息自動(dòng)提取方法的流程圖。
【具體實(shí)施方式】
[0022]下面將結(jié)合說明書附圖,對本發(fā)明作進(jìn)一步說明。
[0023]如圖1所示,一種面向用戶的WEB信息自動(dòng)提取方法,包括以下步驟:
[0024]步驟1,用戶給定WEB站點(diǎn)鏈接列表,遍歷整個(gè)WEB站點(diǎn),獲得用戶關(guān)注的頁面;用戶首先手動(dòng)輸入關(guān)注的WEB站點(diǎn)列表首頁的URL,或者使用系統(tǒng)默認(rèn)的WEB站點(diǎn)列表,如輸入各大新聞網(wǎng)站的首頁鏈接地址。如,搜狐的首頁鏈接http://www.sohu.com,新浪的首頁鏈接 http://www.sina.com.cn。
[0025]步驟2,識(shí)別WEB站點(diǎn)中每個(gè)頁面的鏈接地址與并存儲(chǔ),具體包括以下步驟:2a)、對于每個(gè)WEB站點(diǎn),采用瀏覽器編程技術(shù),以一個(gè)URL作為信息來源,依照HTML文檔的DOM樹結(jié)構(gòu)獲得相應(yīng)WEB頁面的HTML源代碼,分析WEB頁面的編碼格式,根據(jù)WEB頁面的編碼格式獲得WEB頁面的分頁鏈接格式,根據(jù)分頁鏈接格式獲得分頁的全部鏈接地址,再根據(jù)分頁鏈接地址獲得所有分頁的HTML源代碼。
[0026]2b)、依次獲取用戶關(guān)注的WEB站點(diǎn)列表中每個(gè)URL,連接并解析相應(yīng)頁面,提取頁面中所有鏈接地址后,逐個(gè)判斷這些鏈接是否為網(wǎng)站內(nèi)部鏈接,且是否已存在于待檢索鏈接隊(duì)列或已檢索鏈接隊(duì)列中。如果某一鏈接被判定為該網(wǎng)站內(nèi)部鏈接,且不存在于待檢索鏈接隊(duì)列與已檢索鏈接隊(duì)列中,則將該鏈接地址存入待檢索鏈接隊(duì)列,否則不對該鏈接地址進(jìn)行操作,直接獲取下一個(gè)鏈接進(jìn)行判斷。
[0027]2c)、在該頁面所有鏈接處理完畢后,系統(tǒng)將從待檢索鏈接隊(duì)列中取出下一個(gè)鏈接地址替代用戶關(guān)注的WEB站點(diǎn)的首頁鏈接地址,重復(fù)步驟2a)到2b),處理完畢后,將該鏈接存入已檢索鏈接隊(duì)列,然后繼續(xù)從待檢索鏈接隊(duì)列中提取下一鏈接地址,如此循環(huán),直到待檢索鏈接隊(duì)列為空,則結(jié)束當(dāng)前站點(diǎn)的檢索工作,開始對下一站點(diǎn)進(jìn)行檢索。
[0028]步驟3,提取用戶關(guān)注頁面的標(biāo)題、發(fā)布時(shí)間、頁面正文,具體為:
[0029]3a)、提取標(biāo)題:當(dāng)網(wǎng)站鏈接遍歷完成后,系統(tǒng)將從目標(biāo)鏈接隊(duì)列中逐個(gè)提取信息鏈接地址,并對該鏈接地址進(jìn)行連接與頁面解析。頁面解析完成后,調(diào)用HTMLParser中的方法TagNameFiIter O過濾出該頁面HTML文檔中〈title〉標(biāo)簽,然后調(diào)用方法extractAl INodesThatMatch O提取出滿足要求的節(jié)點(diǎn)存入節(jié)點(diǎn)列表,接著調(diào)用方法toPlainTextStringO獲取節(jié)點(diǎn)的顯示文本信息,并對提取的信息進(jìn)行適當(dāng)?shù)男薷摹H鐒h除符號(hào)“I”及之后的文本內(nèi)容、刪除或以空格替換文本中的“? ”、“&”、“: ”等不可作為文本文檔文件名使用的內(nèi)容,即為提取的標(biāo)題。
[0030]3b)、提取正文:主體內(nèi)容提取主要是通過調(diào)用HTMLParser中的方法來完成的,調(diào)用方法TagNameFilterO,過濾出HTML文檔中的〈P〉節(jié)點(diǎn);調(diào)用方法TagNameFilterO,過濾出HTML文檔中的<div>節(jié)點(diǎn);調(diào)用方法HasParentFilterO,過濾出HTML文檔中<div>節(jié)點(diǎn)作為先輩節(jié)點(diǎn)的節(jié)點(diǎn);調(diào)用方法TagNameFilter O,過濾出HTML文檔中的<a>節(jié)點(diǎn);調(diào)用方法HasChildFilter O,過濾出HTML文檔中擁有后代節(jié)點(diǎn)<a>的節(jié)點(diǎn)等。
[0031]3c)、提取發(fā)布時(shí)間:頁面解析完成后,調(diào)用HTMLParser中正則表達(dá)式匹配法提取信息發(fā)布時(shí)間。信息發(fā)布時(shí)間的正則表達(dá)式為:\\d\\d\\d\\d-\\d+_\\d+.? \\d\\d:\\d\\d,調(diào)用Pattern類中的compile O方法后,正則表達(dá)式便被編譯到了模式中,調(diào)用方法matcher O,創(chuàng)建出與HTML文檔內(nèi)容以及該模式相匹配的匹配器,最后依次調(diào)用Matcher類中的方法find O與group O,便可提取出HTML文檔中形式為yyyy-MM_dd hh:mm、yyyy-M_ddhh:mm、yyyy-MM-d hh:mm或yyyy-M-dd hh:mm等形式的字符串序列,即為信息發(fā)布時(shí)間。
[0032]步驟4,一個(gè)網(wǎng)頁除了有標(biāo)題、正文、發(fā)布時(shí)間這些我們需要的信息以外,都還會(huì)有一些附帶信息,最常見的是廣告和對其他網(wǎng)站、網(wǎng)頁的鏈接信息,并且還會(huì)包括一些HTML標(biāo)記,我們將這些不需要的信息稱為無關(guān)信息,因此要獲取網(wǎng)頁文本,首要做的就是去除網(wǎng)頁中的無關(guān)信息。因此我們需要將提取的內(nèi)容格式規(guī)范化后再存儲(chǔ)于數(shù)據(jù)庫和文件系統(tǒng)中,其中,頁面標(biāo)題、發(fā)布時(shí)間存儲(chǔ)于數(shù)據(jù)庫中,頁面正文存儲(chǔ)于文件系統(tǒng)中。
[0033]步驟5,去除抽取重復(fù)的信息,具體方法為:
[0034]對一個(gè)WEB站點(diǎn)進(jìn)行過一次采集后,為了避免對已采集信息的重復(fù)采集,僅對新產(chǎn)生的頁面進(jìn)行采集,提取信息基本屬性后,在數(shù)據(jù)庫中查詢該信息是否存在,如果存在,直接提取下一信息鏈接進(jìn)行操作,否則,將該條信息存入系統(tǒng)。
[0035]以上顯示和描述了本發(fā)明的基本原理、主要特征及優(yōu)點(diǎn)。本行業(yè)的技術(shù)人員應(yīng)該了解,本發(fā)明不受上述實(shí)施例的限制,上述實(shí)施例和說明書中描述的只是說明本發(fā)明的原理,在不脫離本發(fā)明精神和范圍的前提下,本發(fā)明還會(huì)有各種變化和改進(jìn),這些變化和改進(jìn)都落入要求保護(hù)的本發(fā)明范圍內(nèi)。本發(fā)明要求保護(hù)范圍由所附的權(quán)利要求書及其等效物界定。
【權(quán)利要求】
1.一種面向用戶的WEB信息自動(dòng)提取方法,其特征在于包含如下步驟: (1)根據(jù)用戶給定的WEB站點(diǎn)鏈接列表,依次遍歷每個(gè)WEB站點(diǎn),獲得用戶關(guān)注頁面; (2)識(shí)別WEB站點(diǎn)中每個(gè)頁面的鏈接地址并存儲(chǔ); (3)提取用戶關(guān)注頁面的標(biāo)題、發(fā)布時(shí)間、頁面正文; (4)將提取的內(nèi)容格式規(guī)范化后存儲(chǔ)于數(shù)據(jù)庫和文件系統(tǒng)中,其中頁面標(biāo)題、發(fā)布時(shí)間存儲(chǔ)于數(shù)據(jù)庫中,頁面正文存儲(chǔ)于文件系統(tǒng)中; (5)去除抽取的重復(fù)信息。
2.根據(jù)權(quán)利要求1所述的一種面向用戶的WEB信息自動(dòng)提取方法,其特征在于:所述步驟(I)中,用戶給定的鏈接列表為用戶手動(dòng)輸入或從系統(tǒng)默認(rèn)的WEB站點(diǎn)列表中選擇獲得。
3.根據(jù)權(quán)利要求1所述的一種面向用戶的WEB信息自動(dòng)提取方法,其特征在于:所述步驟(2)識(shí)別連接地址并存儲(chǔ)具體包括以下步驟: 2a)對于每個(gè)WEB站點(diǎn),以一個(gè)URL作為信息來源,根據(jù)HTML文檔的DOM樹結(jié)構(gòu)獲得相應(yīng)WEB頁面的HTML源代碼,再根據(jù)WEB頁面的編碼格式獲得WEB頁面的分頁鏈接格式,根據(jù)分頁鏈接格式獲得分頁的全部鏈接地址,再根據(jù)分頁鏈接地址獲得所有分頁的HTML源代碼; 2b)依次獲取用戶關(guān)注的WEB站點(diǎn)列表中每個(gè)URL,連接并解析相應(yīng)頁面,提取頁面中所有鏈接地址后,逐個(gè)判斷這些鏈接是否為網(wǎng)站內(nèi)部鏈接,且是否已存在于待檢索鏈接隊(duì)列或已檢索鏈接隊(duì)列中,如果某一鏈接被判定為該網(wǎng)站內(nèi)部鏈接,且不存在于待檢索鏈接隊(duì)列與已檢索鏈接隊(duì)列中,則將該鏈接地址存入待檢索鏈接隊(duì)列,否則不對該鏈接地址進(jìn)行操作,直接獲取下一個(gè)鏈接進(jìn)行判斷; 2c)在該頁面所有鏈接處理完畢后,系統(tǒng)將從待檢索鏈接隊(duì)列中取出下一個(gè)鏈接地址替代用戶關(guān)注的WEB站點(diǎn)的首頁鏈接地址,重復(fù)步驟2a)到2b),處理完畢后,將該鏈接存入已檢索鏈接隊(duì)列,然后繼續(xù)從待檢索鏈接隊(duì)列中提取下一鏈接地址,如此循環(huán),直到待檢索鏈接隊(duì)列為空,則結(jié)束當(dāng)前站點(diǎn)的檢索工作,開始對下一站點(diǎn)進(jìn)行檢索。
4.根據(jù)權(quán)利要求1所述的一種面向用戶的WEB信息自動(dòng)提取方法,其特征在于:所述步驟(3)具體包括以下步驟: 3a)提取標(biāo)題,從目標(biāo)鏈接隊(duì)列中逐個(gè)提取信息鏈接地址,并對該鏈接地址進(jìn)行連接與頁面解析,過濾出該頁面HTML文檔中的〈title〉標(biāo)簽,提取出符合要求的節(jié)點(diǎn)存入節(jié)點(diǎn)列表,然后獲取節(jié)點(diǎn)的顯示文本信息,并對所提取的信息進(jìn)行適應(yīng)性修改; 3b)提取正文,提取主體內(nèi)容,過濾出HTML文檔中的節(jié)點(diǎn)、<div>節(jié)點(diǎn)、<div>節(jié)點(diǎn)作為先輩節(jié)點(diǎn)的節(jié)點(diǎn)、<a>節(jié)點(diǎn)以及擁有后代節(jié)點(diǎn)<a>的節(jié)點(diǎn); 3c)提取發(fā)布時(shí)間,當(dāng)頁面解析完成后通過正則表達(dá)式匹配法提取出信息發(fā)布時(shí)間。
5.根據(jù)權(quán)利要求1所述的一種面向用戶的WEB信息自動(dòng)提取方法,其特征在于:所述步驟(5)去除抽取重復(fù)的信息具體為:對一個(gè)信息站點(diǎn)進(jìn)行過一次采集后,為了避免對已采集信息的重復(fù)采集,僅對新產(chǎn)生的頁面進(jìn)行采集,提取信息基本屬性后,在數(shù)據(jù)庫中查詢該信息是否存在,如果存在,直接提取下一信息鏈接進(jìn)行操作,否則,將該條信息存入系統(tǒng)。
【文檔編號(hào)】G06F17/30GK104504016SQ201410758981
【公開日】2015年4月8日 申請日期:2014年12月10日 優(yōu)先權(quán)日:2014年12月10日
【發(fā)明者】劉文婷 申請人:河海大學(xué)