一種面向用戶的web信息自動(dòng)提取方法

文檔序號(hào)：6638193閱讀：1138來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種面向用戶的web信息自動(dòng)提取方法
【專利摘要】本發(fā)明提供一種面向用戶的WEB信息自動(dòng)提取方法，該方法主要用于用戶指定的一個(gè)或多個(gè)網(wǎng)站內(nèi)容的快速定位與自動(dòng)提取。具體為：首先根據(jù)給定的鏈接地址(URL)，遍歷整個(gè)網(wǎng)站，獲得用戶所關(guān)注的頁面；然后存儲(chǔ)相應(yīng)頁面的鏈接地址；再抽取關(guān)注頁面的信息標(biāo)題，發(fā)布時(shí)間、主要內(nèi)容等信息；最后將抽取的信息存儲(chǔ)于數(shù)據(jù)庫和文件系統(tǒng)中，并且去除抽取的重復(fù)信息。本發(fā)明應(yīng)用于信息檢索或咨詢類網(wǎng)站的信息采集，能夠從大量的WEB頁面中提取用戶關(guān)注的信息，并且能快速定位用戶所關(guān)注的內(nèi)容。
【專利說明】_種面向用戶的WEB信息自動(dòng)提取方法

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及文本處理【技術(shù)領(lǐng)域】，尤其是一種面向用戶的WEB信息自動(dòng)提取方法。

【背景技術(shù)】
[0002]本發(fā)明涉及文本處理【技術(shù)領(lǐng)域】，如何在海量的WEB信息中快速而又準(zhǔn)確地獲取信息成為當(dāng)前的研宄熱點(diǎn)，特別是從用戶關(guān)注的站點(diǎn)中自動(dòng)提取信息，并快速定位信息內(nèi)容已經(jīng)得到廣泛關(guān)注?，F(xiàn)有的信息提取方法，主要有基于主題和關(guān)鍵詞的WEB信息自動(dòng)提取方法，以及基于查詢的WEB信息采集技術(shù)，面向主題、關(guān)鍵詞以及基于查詢的WEB信息采集都是有選擇性地提取特定內(nèi)容的WEB頁面，采集的頁面單一，不能滿足用戶所關(guān)注的所有WEB站點(diǎn)信息的自動(dòng)提取。

【發(fā)明內(nèi)容】

[0003]本發(fā)明提出了一種面向用戶的WEB信息自動(dòng)提取方法。本發(fā)明能分析用戶關(guān)注的站點(diǎn)列表，能夠從大量的WEB頁面中提取用戶關(guān)注的信息，并且能快速定位用戶所關(guān)注的內(nèi)容，以提高用戶獲取信息的效率。
[0004]為了達(dá)到上述目的，本發(fā)明所采用的技術(shù)方案為:
[0005]一種面向用戶的WEB信息自動(dòng)提取方法，包括以下步驟:
[0006](I)根據(jù)用戶給定的WEB站點(diǎn)鏈接列表，依次遍歷每個(gè)WEB站點(diǎn)，獲得用戶關(guān)注頁面；
[0007](2)識(shí)別WEB站點(diǎn)中每個(gè)頁面的鏈接地址并存儲(chǔ)；
[0008](3)提取用戶關(guān)注頁面的標(biāo)題、發(fā)布時(shí)間、頁面正文；
[0009](4)將提取的內(nèi)容格式規(guī)范化后存儲(chǔ)于數(shù)據(jù)庫和文件系統(tǒng)中，其中頁面標(biāo)題、發(fā)布時(shí)間存儲(chǔ)于數(shù)據(jù)庫中，頁面正文存儲(chǔ)于文件系統(tǒng)中；、
[0010](5)去除抽取的重復(fù)信息；
[0011]進(jìn)一步的，所述步驟(I)中，用戶給定的鏈接列表為用戶手動(dòng)輸入或從系統(tǒng)默認(rèn)的WEB站點(diǎn)列表中選擇獲得。
[0012]進(jìn)一步的，所述步驟(2)識(shí)別連接地址并存儲(chǔ)具體包括以下步驟:
[0013]2a)對于每個(gè)WEB站點(diǎn)，以一個(gè)URL作為信息來源，根據(jù)HTML文檔的DOM樹結(jié)構(gòu)獲得相應(yīng)WEB頁面的HTML源代碼，再根據(jù)WEB頁面的編碼格式獲得WEB頁面的分頁鏈接格式，根據(jù)分頁鏈接格式獲得分頁的全部鏈接地址，再根據(jù)分頁鏈接地址獲得所有分頁的HTML源代碼；
[0014]2b)依次獲取用戶關(guān)注的WEB站點(diǎn)列表中每個(gè)URL，連接并解析相應(yīng)頁面，提取頁面中所有鏈接地址后，逐個(gè)判斷這些鏈接是否為網(wǎng)站內(nèi)部鏈接，且是否已存在于待檢索鏈接隊(duì)列或已檢索鏈接隊(duì)列中，如果某一鏈接被判定為該網(wǎng)站內(nèi)部鏈接，且不存在于待檢索鏈接隊(duì)列與已檢索鏈接隊(duì)列中，則將該鏈接地址存入待檢索鏈接隊(duì)列，否則不對該鏈接地址進(jìn)行操作，直接獲取下一個(gè)鏈接進(jìn)行判斷；
[0015]2c)在該頁面所有鏈接處理完畢后，系統(tǒng)將從待檢索鏈接隊(duì)列中取出下一個(gè)鏈接地址替代用戶關(guān)注的WEB站點(diǎn)的首頁鏈接地址，重復(fù)步驟2a)到2b)，處理完畢后，將該鏈接存入已檢索鏈接隊(duì)列，然后繼續(xù)從待檢索鏈接隊(duì)列中提取下一鏈接地址，如此循環(huán)，直到待檢索鏈接隊(duì)列為空，則結(jié)束當(dāng)前站點(diǎn)的檢索工作，開始對下一站點(diǎn)進(jìn)行檢索。
[0016]更進(jìn)一步的，所述步驟(3)具體包括以下步驟:
[0017]3a)提取標(biāo)題，從目標(biāo)鏈接隊(duì)列中逐個(gè)提取信息鏈接地址，并對該鏈接地址進(jìn)行連接與頁面解析，過濾出該頁面HTML文檔中的〈title〉標(biāo)簽，提取出符合要求的節(jié)點(diǎn)存入節(jié)點(diǎn)列表，然后獲取節(jié)點(diǎn)的顯示文本信息，并對所提取的信息進(jìn)行適應(yīng)性修改；
[0018]3b)提取正文，提取主體內(nèi)容，過濾出HTML文檔中的節(jié)點(diǎn)、<div>節(jié)點(diǎn)、<div>節(jié)點(diǎn)作為先輩節(jié)點(diǎn)的節(jié)點(diǎn)、<a>節(jié)點(diǎn)以及擁有后代節(jié)點(diǎn)<a>的節(jié)點(diǎn)；
[0019]3c)提取發(fā)布時(shí)間，當(dāng)頁面解析完成后通過正則表達(dá)式匹配法提取出信息發(fā)布時(shí)間。
[0020]再進(jìn)一步的，所述步驟(5)去除抽取重復(fù)的信息具體為:對一個(gè)信息站點(diǎn)進(jìn)行過一次采集后，為了避免對已采集信息的重復(fù)采集，僅對新產(chǎn)生的頁面進(jìn)行采集，提取信息基本屬性后，在數(shù)據(jù)庫中查詢該信息是否存在，如果存在，直接提取下一信息鏈接進(jìn)行操作，否則，將該條信息存入。

【專利附圖】

【附圖說明】
[0021]圖1為本發(fā)明面向用戶的WEB信息自動(dòng)提取方法的流程圖。

【具體實(shí)施方式】
[0022]下面將結(jié)合說明書附圖，對本發(fā)明作進(jìn)一步說明。
[0023]如圖1所示，一種面向用戶的WEB信息自動(dòng)提取方法，包括以下步驟:
[0024]步驟1，用戶給定WEB站點(diǎn)鏈接列表，遍歷整個(gè)WEB站點(diǎn)，獲得用戶關(guān)注的頁面；用戶首先手動(dòng)輸入關(guān)注的WEB站點(diǎn)列表首頁的URL，或者使用系統(tǒng)默認(rèn)的WEB站點(diǎn)列表，如輸入各大新聞網(wǎng)站的首頁鏈接地址。如，搜狐的首頁鏈接http://www.sohu.com，新浪的首頁鏈接 http://www.sina.com.cn。
[0025]步驟2，識(shí)別WEB站點(diǎn)中每個(gè)頁面的鏈接地址與并存儲(chǔ)，具體包括以下步驟:2a)、對于每個(gè)WEB站點(diǎn)，采用瀏覽器編程技術(shù)，以一個(gè)URL作為信息來源，依照HTML文檔的DOM樹結(jié)構(gòu)獲得相應(yīng)WEB頁面的HTML源代碼，分析WEB頁面的編碼格式，根據(jù)WEB頁面的編碼格式獲得WEB頁面的分頁鏈接格式，根據(jù)分頁鏈接格式獲得分頁的全部鏈接地址，再根據(jù)分頁鏈接地址獲得所有分頁的HTML源代碼。
[0026]2b)、依次獲取用戶關(guān)注的WEB站點(diǎn)列表中每個(gè)URL，連接并解析相應(yīng)頁面，提取頁面中所有鏈接地址后，逐個(gè)判斷這些鏈接是否為網(wǎng)站內(nèi)部鏈接，且是否已存在于待檢索鏈接隊(duì)列或已檢索鏈接隊(duì)列中。如果某一鏈接被判定為該網(wǎng)站內(nèi)部鏈接，且不存在于待檢索鏈接隊(duì)列與已檢索鏈接隊(duì)列中，則將該鏈接地址存入待檢索鏈接隊(duì)列，否則不對該鏈接地址進(jìn)行操作，直接獲取下一個(gè)鏈接進(jìn)行判斷。
[0027]2c)、在該頁面所有鏈接處理完畢后，系統(tǒng)將從待檢索鏈接隊(duì)列中取出下一個(gè)鏈接地址替代用戶關(guān)注的WEB站點(diǎn)的首頁鏈接地址，重復(fù)步驟2a)到2b)，處理完畢后，將該鏈接存入已檢索鏈接隊(duì)列，然后繼續(xù)從待檢索鏈接隊(duì)列中提取下一鏈接地址，如此循環(huán)，直到待檢索鏈接隊(duì)列為空，則結(jié)束當(dāng)前站點(diǎn)的檢索工作，開始對下一站點(diǎn)進(jìn)行檢索。
[0028]步驟3，提取用戶關(guān)注頁面的標(biāo)題、發(fā)布時(shí)間、頁面正文，具體為:
[0029]3a)、提取標(biāo)題:當(dāng)網(wǎng)站鏈接遍歷完成后，系統(tǒng)將從目標(biāo)鏈接隊(duì)列中逐個(gè)提取信息鏈接地址，并對該鏈接地址進(jìn)行連接與頁面解析。頁面解析完成后，調(diào)用HTMLParser中的方法TagNameFiIter O過濾出該頁面HTML文檔中〈title〉標(biāo)簽，然后調(diào)用方法extractAl INodesThatMatch O提取出滿足要求的節(jié)點(diǎn)存入節(jié)點(diǎn)列表，接著調(diào)用方法toPlainTextStringO獲取節(jié)點(diǎn)的顯示文本信息，并對提取的信息進(jìn)行適當(dāng)?shù)男薷摹Ｈ鐒h除符號(hào)“I”及之后的文本內(nèi)容、刪除或以空格替換文本中的“？ ”、“&”、“: ”等不可作為文本文檔文件名使用的內(nèi)容，即為提取的標(biāo)題。
[0030]3b)、提取正文:主體內(nèi)容提取主要是通過調(diào)用HTMLParser中的方法來完成的，調(diào)用方法TagNameFilterO，過濾出HTML文檔中的〈P〉節(jié)點(diǎn)；調(diào)用方法TagNameFilterO，過濾出HTML文檔中的<div>節(jié)點(diǎn)；調(diào)用方法HasParentFilterO，過濾出HTML文檔中<div>節(jié)點(diǎn)作為先輩節(jié)點(diǎn)的節(jié)點(diǎn)；調(diào)用方法TagNameFilter O，過濾出HTML文檔中的<a>節(jié)點(diǎn)；調(diào)用方法HasChildFilter O，過濾出HTML文檔中擁有后代節(jié)點(diǎn)<a>的節(jié)點(diǎn)等。
[0031]3c)、提取發(fā)布時(shí)間:頁面解析完成后，調(diào)用HTMLParser中正則表達(dá)式匹配法提取信息發(fā)布時(shí)間。信息發(fā)布時(shí)間的正則表達(dá)式為:\\d\\d\\d\\d-\\d+_\\d+.? \\d\\d:\\d\\d，調(diào)用Pattern類中的compile O方法后，正則表達(dá)式便被編譯到了模式中，調(diào)用方法matcher O，創(chuàng)建出與HTML文檔內(nèi)容以及該模式相匹配的匹配器，最后依次調(diào)用Matcher類中的方法find O與group O，便可提取出HTML文檔中形式為yyyy-MM_dd hh:mm、yyyy-M_ddhh:mm、yyyy-MM-d hh:mm或yyyy-M-dd hh:mm等形式的字符串序列，即為信息發(fā)布時(shí)間。
[0032]步驟4，一個(gè)網(wǎng)頁除了有標(biāo)題、正文、發(fā)布時(shí)間這些我們需要的信息以外，都還會(huì)有一些附帶信息，最常見的是廣告和對其他網(wǎng)站、網(wǎng)頁的鏈接信息，并且還會(huì)包括一些HTML標(biāo)記，我們將這些不需要的信息稱為無關(guān)信息，因此要獲取網(wǎng)頁文本，首要做的就是去除網(wǎng)頁中的無關(guān)信息。因此我們需要將提取的內(nèi)容格式規(guī)范化后再存儲(chǔ)于數(shù)據(jù)庫和文件系統(tǒng)中，其中，頁面標(biāo)題、發(fā)布時(shí)間存儲(chǔ)于數(shù)據(jù)庫中，頁面正文存儲(chǔ)于文件系統(tǒng)中。
[0033]步驟5，去除抽取重復(fù)的信息，具體方法為:
[0034]對一個(gè)WEB站點(diǎn)進(jìn)行過一次采集后，為了避免對已采集信息的重復(fù)采集，僅對新產(chǎn)生的頁面進(jìn)行采集，提取信息基本屬性后，在數(shù)據(jù)庫中查詢該信息是否存在，如果存在，直接提取下一信息鏈接進(jìn)行操作，否則，將該條信息存入系統(tǒng)。
[0035]以上顯示和描述了本發(fā)明的基本原理、主要特征及優(yōu)點(diǎn)。本行業(yè)的技術(shù)人員應(yīng)該了解，本發(fā)明不受上述實(shí)施例的限制，上述實(shí)施例和說明書中描述的只是說明本發(fā)明的原理，在不脫離本發(fā)明精神和范圍的前提下，本發(fā)明還會(huì)有各種變化和改進(jìn)，這些變化和改進(jìn)都落入要求保護(hù)的本發(fā)明范圍內(nèi)。本發(fā)明要求保護(hù)范圍由所附的權(quán)利要求書及其等效物界定。
【權(quán)利要求】
1.一種面向用戶的WEB信息自動(dòng)提取方法，其特征在于包含如下步驟: (1)根據(jù)用戶給定的WEB站點(diǎn)鏈接列表，依次遍歷每個(gè)WEB站點(diǎn)，獲得用戶關(guān)注頁面； (2)識(shí)別WEB站點(diǎn)中每個(gè)頁面的鏈接地址并存儲(chǔ)； (3)提取用戶關(guān)注頁面的標(biāo)題、發(fā)布時(shí)間、頁面正文； (4)將提取的內(nèi)容格式規(guī)范化后存儲(chǔ)于數(shù)據(jù)庫和文件系統(tǒng)中，其中頁面標(biāo)題、發(fā)布時(shí)間存儲(chǔ)于數(shù)據(jù)庫中，頁面正文存儲(chǔ)于文件系統(tǒng)中； (5)去除抽取的重復(fù)信息。
2.根據(jù)權(quán)利要求1所述的一種面向用戶的WEB信息自動(dòng)提取方法，其特征在于:所述步驟(I)中，用戶給定的鏈接列表為用戶手動(dòng)輸入或從系統(tǒng)默認(rèn)的WEB站點(diǎn)列表中選擇獲得。
3.根據(jù)權(quán)利要求1所述的一種面向用戶的WEB信息自動(dòng)提取方法，其特征在于:所述步驟(2)識(shí)別連接地址并存儲(chǔ)具體包括以下步驟: 2a)對于每個(gè)WEB站點(diǎn)，以一個(gè)URL作為信息來源，根據(jù)HTML文檔的DOM樹結(jié)構(gòu)獲得相應(yīng)WEB頁面的HTML源代碼，再根據(jù)WEB頁面的編碼格式獲得WEB頁面的分頁鏈接格式，根據(jù)分頁鏈接格式獲得分頁的全部鏈接地址，再根據(jù)分頁鏈接地址獲得所有分頁的HTML源代碼； 2b)依次獲取用戶關(guān)注的WEB站點(diǎn)列表中每個(gè)URL，連接并解析相應(yīng)頁面，提取頁面中所有鏈接地址后，逐個(gè)判斷這些鏈接是否為網(wǎng)站內(nèi)部鏈接，且是否已存在于待檢索鏈接隊(duì)列或已檢索鏈接隊(duì)列中，如果某一鏈接被判定為該網(wǎng)站內(nèi)部鏈接，且不存在于待檢索鏈接隊(duì)列與已檢索鏈接隊(duì)列中，則將該鏈接地址存入待檢索鏈接隊(duì)列，否則不對該鏈接地址進(jìn)行操作，直接獲取下一個(gè)鏈接進(jìn)行判斷； 2c)在該頁面所有鏈接處理完畢后，系統(tǒng)將從待檢索鏈接隊(duì)列中取出下一個(gè)鏈接地址替代用戶關(guān)注的WEB站點(diǎn)的首頁鏈接地址，重復(fù)步驟2a)到2b)，處理完畢后，將該鏈接存入已檢索鏈接隊(duì)列，然后繼續(xù)從待檢索鏈接隊(duì)列中提取下一鏈接地址，如此循環(huán)，直到待檢索鏈接隊(duì)列為空，則結(jié)束當(dāng)前站點(diǎn)的檢索工作，開始對下一站點(diǎn)進(jìn)行檢索。
4.根據(jù)權(quán)利要求1所述的一種面向用戶的WEB信息自動(dòng)提取方法，其特征在于:所述步驟(3)具體包括以下步驟: 3a)提取標(biāo)題，從目標(biāo)鏈接隊(duì)列中逐個(gè)提取信息鏈接地址，并對該鏈接地址進(jìn)行連接與頁面解析，過濾出該頁面HTML文檔中的〈title〉標(biāo)簽，提取出符合要求的節(jié)點(diǎn)存入節(jié)點(diǎn)列表，然后獲取節(jié)點(diǎn)的顯示文本信息，并對所提取的信息進(jìn)行適應(yīng)性修改； 3b)提取正文，提取主體內(nèi)容，過濾出HTML文檔中的節(jié)點(diǎn)、<div>節(jié)點(diǎn)、<div>節(jié)點(diǎn)作為先輩節(jié)點(diǎn)的節(jié)點(diǎn)、<a>節(jié)點(diǎn)以及擁有后代節(jié)點(diǎn)<a>的節(jié)點(diǎn)； 3c)提取發(fā)布時(shí)間，當(dāng)頁面解析完成后通過正則表達(dá)式匹配法提取出信息發(fā)布時(shí)間。
5.根據(jù)權(quán)利要求1所述的一種面向用戶的WEB信息自動(dòng)提取方法，其特征在于:所述步驟(5)去除抽取重復(fù)的信息具體為:對一個(gè)信息站點(diǎn)進(jìn)行過一次采集后，為了避免對已采集信息的重復(fù)采集，僅對新產(chǎn)生的頁面進(jìn)行采集，提取信息基本屬性后，在數(shù)據(jù)庫中查詢該信息是否存在，如果存在，直接提取下一信息鏈接進(jìn)行操作，否則，將該條信息存入系統(tǒng)。
【文檔編號(hào)】G06F17/30GK104504016SQ201410758981
【公開日】2015年4月8日申請日期:2014年12月10日優(yōu)先權(quán)日:2014年12月10日
【發(fā)明者】劉文婷申請人:河海大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉文婷;
技術(shù)所有人：河海大學(xué);
我是此專利的發(fā)明人

上一篇：搜索結(jié)果的處理方法及裝置制造方法
上一篇：一種可顯示圖案的衣服及顯示方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

面向用戶相關(guān)技術(shù)

計(jì)算機(jī)面向的用戶群體相關(guān)技術(shù)

用戶特征提取相關(guān)技術(shù)

用戶行為特征提取相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種面向用戶的web信息自動(dòng)提取方法