專利名稱::一種基于html標(biāo)簽的網(wǎng)頁正文提取方法及裝置的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及計算機網(wǎng)絡(luò)中網(wǎng)頁文字信息處理領(lǐng)域,特別涉及網(wǎng)頁正文的提取方法和裝置。
背景技術(shù):
:隨著互聯(lián)網(wǎng)的不斷發(fā)展,Web頁面數(shù)量急劇大幅増加,網(wǎng)頁已經(jīng)成為人們最為巨大和廣泛的信息來源。許多有用的信息淹沒在浩如煙海的Web頁面中,網(wǎng)頁中的正文數(shù)據(jù)往往被許多噪音數(shù)據(jù)所干擾,如廣告、鏈接、產(chǎn)品推薦、導(dǎo)航條、版權(quán)說明等。如何幫助人們迅速提取有效的信息,研究和探索各種高效、實用的Web網(wǎng)頁正文數(shù)據(jù)提取技術(shù)對于Web數(shù)據(jù)挖掘具有非常重要的意義,成為ー個非常重要的問題。針對HTML網(wǎng)頁的特點,需要利用網(wǎng)頁結(jié)構(gòu)布局信息對網(wǎng)頁進行區(qū)域分割,模擬IE瀏覽器的顯示方式,對網(wǎng)頁進行解析。系統(tǒng)根據(jù)人類的視覺原理,把網(wǎng)頁解析處理的結(jié)果進行分塊,然后根據(jù)用戶需求,提取用戶需要的相關(guān)網(wǎng)頁塊的內(nèi)容。因此網(wǎng)頁分割是從網(wǎng)頁中提取有效信息的常用手段,當(dāng)前比較常用的網(wǎng)頁分割方法主要有一下2種I、基于位置關(guān)系的分割法該方法利用網(wǎng)頁頁面的布局進行分塊,將ー個網(wǎng)頁分成上、下、左、右和中間5個部分,再根據(jù)這5個部分的特征進行分類。但是,實際的網(wǎng)頁結(jié)構(gòu)要復(fù)雜的多,這種基于網(wǎng)頁布局的方法并不適用于所有的網(wǎng)頁,而且這種方法切分的網(wǎng)頁粒度比較粗,有可能破壞網(wǎng)頁本身的內(nèi)在特征,難以充分包括整個網(wǎng)頁的語義特征。中國科學(xué)院聲學(xué)研究所對上述方法進行了改進,提出了一種基于快速傅里葉變換的網(wǎng)頁正文提取方法(專利申請?zhí)枮?00710063182.7),用網(wǎng)頁的頻域特征來分割頁面、過濾噪聲,進而提取有效信息,實驗結(jié)果表明,此種方法能比較準(zhǔn)確的對“正文式”網(wǎng)頁的有效信息進行提取。但該方法必須局限在基于同一個模板的網(wǎng)頁集,而Web上的網(wǎng)頁模板不計其數(shù),因此該方法顯然不夠通用。2、基于文檔對象模型(DOM,DocumentObjectModel)的分割法該方法通過找出網(wǎng)頁HTML文檔里的特定標(biāo)簽,利用標(biāo)簽項將HTML文檔表示成ー個DOM樹的結(jié)構(gòu),然后根據(jù)特定標(biāo)簽包括heading、table、paragraph和list等來提取有效的樹結(jié)點數(shù)據(jù)。但是,在許多情況下,文檔對象模型不是用來表示網(wǎng)頁內(nèi)容結(jié)構(gòu)的,所以利用該方法不能夠準(zhǔn)確地對網(wǎng)頁中各分塊的語義信息進行辨別。莫雅靜對上述方法進行了改進,提出了ー種基于統(tǒng)計回溯定位的正文提取方法(專利申請?zhí)枮?01110326226.7),在一定范圍內(nèi)能夠較好地提取網(wǎng)頁正文,但是其有一定的局限性,這種方法的缺點是不能高效識別正文區(qū)域塊和刪除正文中的無用鏈接。以上方法都是對HTML語義結(jié)構(gòu)進行分析,找到網(wǎng)頁正文所在的位置進行處理,提取出網(wǎng)頁的正文。但這些方法對于網(wǎng)頁結(jié)構(gòu)出現(xiàn)非常規(guī)現(xiàn)象吋,效果不好。比如網(wǎng)頁的正文極短,而該網(wǎng)頁中的廣告欄含有的文字量很大,這樣會把廣告所在的部分當(dāng)成了正文部分提取出來,造成提取失效。
發(fā)明內(nèi)容本發(fā)明所提出的一種基于HTML標(biāo)簽的網(wǎng)頁正文提取方法能夠比較準(zhǔn)確地識別出非常規(guī)的網(wǎng)頁結(jié)構(gòu)中的網(wǎng)頁正文,提高提取網(wǎng)頁正文內(nèi)容的通用性、準(zhǔn)確率和效率。由于本發(fā)明基于HTML規(guī)范,提取后的網(wǎng)頁內(nèi)容和結(jié)構(gòu)與源網(wǎng)頁一致,有很高的可擴展性。因此,本發(fā)明具有可觀的應(yīng)用價值,它不僅滿足PAD和手機用戶的即時訪問需求,又可應(yīng)用于信息檢索領(lǐng)域的自動文摘和自動分類等系統(tǒng)。本發(fā)明的主要思想是對普遍擁有相似結(jié)構(gòu)的網(wǎng)頁進行分塊,先將整個網(wǎng)頁分成head和body兩個區(qū)域塊,然后分別對這兩個區(qū)域塊中的HTML標(biāo)簽語義進行分析,由凈化處理單元刪除無用的標(biāo)簽元素及其內(nèi)容,進而提取出網(wǎng)頁的正文內(nèi)容。超文本標(biāo)記語言(hypertextmarkuplanguage,HTML)是網(wǎng)頁編寫的基本語言。要實現(xiàn)Web網(wǎng)頁的正文提取,必須對HTML的語法結(jié)構(gòu)有個清楚的認(rèn)識。對于搜狐、新浪、網(wǎng)易等包含大量信息的大型門戶網(wǎng)站而言,其各類網(wǎng)頁中包含信息標(biāo)題、文摘、超鏈接等可供用戶檢索用的有用信息,且這類網(wǎng)站結(jié)構(gòu)穩(wěn)定、類似具有普遍代表性,所以只要對這些網(wǎng)站信息做到高效濾除,則等于可以對這類網(wǎng)站的信息做到批量處理的目的。經(jīng)對比得到該類網(wǎng)站普遍擁有相似的結(jié)構(gòu)如下<html><head>網(wǎng)頁標(biāo)題及其它與網(wǎng)頁標(biāo)題無關(guān)的信息</head>〈body>正文標(biāo)題,正文內(nèi)容及其它與網(wǎng)頁正文標(biāo)題,正文內(nèi)容無關(guān)的信息</bodyX/html>本發(fā)明算法的分析和處理過程由“浄化處理單元”完成,由3大環(huán)節(jié)構(gòu)成①刪除head區(qū)域塊中與網(wǎng)頁標(biāo)題無關(guān)的內(nèi)容;②確定body區(qū)域塊中網(wǎng)頁正文標(biāo)題的位置;③刪除body區(qū)域塊中與網(wǎng)頁正文無關(guān)的內(nèi)容。下面將分別對各處理環(huán)節(jié)逐一進行說明。I、刪除head區(qū)域塊中與網(wǎng)頁標(biāo)題無關(guān)的內(nèi)容在〈headX/head〉區(qū)域塊中,如果在<title>〈/title>或<hn>〈/hn>或<div>〈/div>或<ul>或</ul>或〈/p>或<b>〈/b>或〈strongX/strong〉里沒有href,src或link出現(xiàn),就將這些標(biāo)簽中的內(nèi)容作為網(wǎng)頁標(biāo)題保留,其余的標(biāo)簽與內(nèi)容全部刪除。因為head區(qū)域塊主要用于存放網(wǎng)頁標(biāo)題以及被瀏覽器所識別而不顯示在網(wǎng)頁正文內(nèi)容里的用來描述所屬頁面的基本屬性,或者用于存放網(wǎng)頁標(biāo)題以及被搜索引擎查找該網(wǎng)頁但不顯示在網(wǎng)頁正文內(nèi)容里的信息。2、確定body區(qū)域塊中網(wǎng)頁正文標(biāo)題的位置首先,本發(fā)明通過從各大網(wǎng)站下載的近I萬張各類網(wǎng)頁進行分析和聚類實驗,引入標(biāo)題相似率概念,即標(biāo)題相似率=正文標(biāo)題長度/網(wǎng)頁標(biāo)題長度,得到標(biāo)題相似率變化的大致范圍是51%100%,這是定位網(wǎng)頁正文標(biāo)題位置的第一個條件。此外,本文定位網(wǎng)頁正文標(biāo)題位置用到的第二個條件是當(dāng)捜索到下列標(biāo)簽之ー時<DIVid=ArticleTit></DIV>(出現(xiàn)幾率大約60%)<Hlid=ArticleTit></Hl>(出現(xiàn)幾率大約30%)</p>(與下面3組標(biāo)簽一起出現(xiàn)的幾率大約10%)<strong></strong><ul></ul><b></b>如果這些標(biāo)簽中不包含<a>〈/a>,href或link標(biāo)簽,并且上面6種標(biāo)簽之一中的文檔內(nèi)容長度與在上節(jié)中的獲得的網(wǎng)頁標(biāo)題長度的標(biāo)題相似率范圍在51%-100%之內(nèi),那么就把該標(biāo)簽內(nèi)的文檔內(nèi)容作為網(wǎng)頁正文標(biāo)題保留。通過上述第I、第2個步驟,就確定了網(wǎng)頁正文標(biāo)題的位置。3、刪除body區(qū)域塊中與網(wǎng)頁正文無關(guān)的內(nèi)容確定了網(wǎng)頁正文標(biāo)題的位置后,就把位于〈body〉標(biāo)簽與網(wǎng)頁正文標(biāo)題之間的所有內(nèi)容全部刪除,因為這些內(nèi)容都是LOGO鏈接、腳本、樣式表等與網(wǎng)頁正文無關(guān)的信息。在網(wǎng)頁正文標(biāo)題后就是網(wǎng)頁正文區(qū)域塊。接著,將按照下面兩種方法刪除網(wǎng)頁正文區(qū)域塊中與正文內(nèi)容無關(guān)的文字鏈接和圖片鏈接。(I)網(wǎng)頁正文區(qū)域中文字鏈接的處理網(wǎng)頁正文區(qū)域塊里的文字鏈接處理起來相對比較簡單,當(dāng)捜索到“〈ahref=相對地址URL>[hyperlinktext]</a>”形式的鏈接區(qū)塊時,如果“[hyperIinktext]”在正文里出現(xiàn)超過2次,就認(rèn)為該鏈接是正文內(nèi)容,需要保留下來,否則就清除包括<a>〈/a>的所有內(nèi)容。(2)網(wǎng)頁正文區(qū)域中圖片鏈接的處理網(wǎng)頁正文區(qū)域塊里的圖像主要用兩種方式在網(wǎng)上發(fā)布句內(nèi)的(inlined)圖片鏈接和引用的(referenced)圖片鏈接。對兩者之一或其綜合出現(xiàn)情況,其HTML格式是不一樣的。一般地,存在如下需要區(qū)別處理的3種情況I)對于句內(nèi)的或嵌入的圖片鏈接,圖像是在網(wǎng)絡(luò)文件內(nèi),文件里有下面的代碼〈imgsrc=絕對地址URLalt=[alttext]>這里,URL給出了圖像的絕對地址??蛇x的alt標(biāo)簽標(biāo)明當(dāng)瀏覽器正在載入圖像的內(nèi)容說明。一般情況下這種格式的圖像是正文圖像,可用下面給出的第二個判斷條件進ー步判斷是否是正文圖像,以提高準(zhǔn)確率。2)對于引用的圖像是來自父頁面的引用的情況,一般用下面的代碼表示〈a>〈imghref=相對地址URL>[hyperlinktext]</a>這里,可選的[hyperlinktext]提供描述超鏈接所指向的圖像的內(nèi)容說明。這種格式的圖像可能是正文圖像,也可能是與正文無關(guān)的鏈接圖像,也需要下面給出的第二個判斷條件進ー步判斷是否是正文圖像。3)對于句內(nèi)的和引用的圖片鏈接同時出現(xiàn)的綜合情況,文件里有下面的代碼<a><imgsrc=絕對地址URLlhref=相對地址URL2X/a><ahref=相對地址URLlXimgsrc=絕對地址URL2>〈/a>這種格式的圖像可能是正文圖像,也可能是與正文無關(guān)的鏈接圖像,仍需要下面給出的第二個條件進ー步判斷是否是正文圖像。在上述3類情況中,給出的是處理圖像鏈接內(nèi)容的第一個判斷條件。因為HTML網(wǎng)頁中圖像鏈接的處理相對比較復(fù)雜,所以對上述3類情況,還需用下面給出的第二個判斷條件進行判斷才能決定是保留或是刪除該圖像。第二個判斷條件在上述3種情況中,如果src的絕對地址中是gif,wmf,swf(動畫文件格式)等格式的圖像,一般情況下都是與正文內(nèi)容無關(guān)的按鈕圖像,要刪除。如果是以jpg,jpeg,jpeg2000,png,bmp,svg等格式結(jié)尾的圖像一般是正文圖像,貝U要保留。當(dāng)掃描到網(wǎng)頁正文內(nèi)容結(jié)束后,刪除body區(qū)域中除了</bodyX/html>標(biāo)簽的所有信息,進而提取出網(wǎng)頁的正文內(nèi)容。在待刪除的無關(guān)內(nèi)容中,一般地可能包括有style、script,link等元素及其內(nèi)容。這是因為Style元素主要用來改善網(wǎng)頁的顯示效果,它的內(nèi)容主要是設(shè)計網(wǎng)頁顯示的屬性,和網(wǎng)頁正文無關(guān);script元素是腳本程序,用來設(shè)計動態(tài)網(wǎng)頁,它的內(nèi)容也和網(wǎng)頁正文無關(guān)。因此要將這兩個標(biāo)簽及其之間的內(nèi)容全部刪除。至于超鏈接元素a也要被刪除,因為本發(fā)明只是解決網(wǎng)頁的主體正文提取。超鏈接里面的內(nèi)容需要根據(jù)上面的分析判斷不是網(wǎng)頁正文內(nèi)容才能被刪除。在浄化處理單元處理結(jié)束后,為確保提取正確的網(wǎng)頁主體正文,需要進行由轉(zhuǎn)義字符轉(zhuǎn)換處理單元進行轉(zhuǎn)義字符轉(zhuǎn)換處理。轉(zhuǎn)義字符串也稱字符實體。在HTML中,定義轉(zhuǎn)義字符串的原因有兩個第一個原因是像“ぐ’和“〉”這類符號已經(jīng)用來表示HTML標(biāo)簽,因此就不能直接當(dāng)作文本中的符號來使用。為了在HTML文檔中使用這些符號,就需要定義它的轉(zhuǎn)義字符串。當(dāng)解釋程序遇到這類字符串時就把它解釋為真實的字符。在輸入轉(zhuǎn)義字符串時,要嚴(yán)格遵守字母大小寫的規(guī)則。第二個原因是,有些字符在ASCII字符集中沒有定義,因此需要使用轉(zhuǎn)義字符串來表示。綜上所述,本發(fā)明所提出的一種基于HTML標(biāo)簽的網(wǎng)頁正文提取方法通過含有中央處理器、寄存器、轉(zhuǎn)義字符轉(zhuǎn)換處理單元、浄化處理單元、存儲器的裝置提取出網(wǎng)頁的正文內(nèi)容,包括以下步驟(1)中央處理器將網(wǎng)頁的HTML代碼以文本形式讀入寄存器中,并將寄存器中的字符全部小寫化,便于后面的字符匹配;(2)通過掃描寄存器,將HTML網(wǎng)頁劃分成Head和Body兩大區(qū)域塊;(3)調(diào)用凈化處理單元,對寄存器進行凈化;(4)調(diào)用轉(zhuǎn)義字符轉(zhuǎn)換處理單元,把寄存器里面的轉(zhuǎn)義字符轉(zhuǎn)化成正常字符;(5)依次在存儲器中保存寄存器中網(wǎng)頁信息,即為提取的網(wǎng)頁正文部分。本發(fā)明所提出的一種基于HTML標(biāo)簽的網(wǎng)頁正文提取裝置包括中央處理器、寄存器、轉(zhuǎn)義字符轉(zhuǎn)換處理單元、浄化處理單元、存儲器,提取出網(wǎng)頁的正文內(nèi)容包括以下步驟(1)中央處理器將網(wǎng)頁的HTML代碼以文本形式讀入寄存器中,并將寄存器中的字符全部小寫化,便于后面的字符匹配;(2)通過掃描寄存器,將HTML網(wǎng)頁劃分成Head和Body兩大區(qū)域塊;(3)調(diào)用凈化處理單元,對寄存器進行凈化;(4)調(diào)用轉(zhuǎn)義字符轉(zhuǎn)換處理單元,把寄存器里面的轉(zhuǎn)義字符轉(zhuǎn)化成正常字符;(5)依次在存儲器中保存寄存器中網(wǎng)頁信息,即為提取的網(wǎng)頁正文部分。圖I為Web全文檢索中間件的架構(gòu)模型圖。圖2為文檔搜索系統(tǒng)的架構(gòu)模型圖。具體實施例方式在具體實施過程中,可以用字符串str作為寄存器,浄化處理單元在分析查找到網(wǎng)頁標(biāo)題、網(wǎng)頁正文標(biāo)題和網(wǎng)頁正文后,先刪除這些內(nèi)容之外的所有信息,然后保留這些內(nèi)容到清空后的字符串str中。由于style元素,script元素,a元素,是必須有結(jié)束標(biāo)簽的,所以很容易定位這些元素所對應(yīng)的子字符串在字符串str中的位置和長度,但考慮到很多網(wǎng)頁的不規(guī)范性,為提高程序的容錯性能,本實施方式采用了如下描述給出的ー種標(biāo)簽配對方法,將這些要刪除的元素各部分補齊,然后再進行匹配刪除。標(biāo)簽配對方法由于在style元素、script元素和a元素的內(nèi)容中,可能還會出現(xiàn)其它的標(biāo)簽,因此從開始標(biāo)簽向后查找,并記住查到的每ー個標(biāo)簽的位置,在其它標(biāo)簽之前插入結(jié)束標(biāo)簽即可完成標(biāo)簽配對。雖然HTML協(xié)議允許出現(xiàn)元素的交叉,即〈elementl>〈element2X/elementl>〈/element2>的情況,但因table元素,div元素,style元素,script元素和a元素不會出現(xiàn)這種情況,故在本實施方式不再考慮這種情況。本發(fā)明所提出的一種基于HTML標(biāo)簽的網(wǎng)頁正文提取方法及裝置的系統(tǒng)實現(xiàn)采用Delphi7進行設(shè)計,開發(fā)的硬件平臺為Pentium42.4G的CPU,512M內(nèi)存。為了驗證這個新算法的正確性,特從新浪、搜狐、雅虎、網(wǎng)易、中國新聞網(wǎng)、騰訊網(wǎng)六大網(wǎng)站下載了I萬張新聞網(wǎng)頁進行了實驗,并在其中隨機抽取了3000張網(wǎng)頁,分別用基于快速傅立葉變換的網(wǎng)頁正文內(nèi)容提取算法和本發(fā)明進行對比實驗。實驗結(jié)果表明,本發(fā)明提取網(wǎng)頁正文的成功率高于85%,達(dá)到了提取當(dāng)前網(wǎng)頁正文的目的。本發(fā)明在執(zhí)行效率上也很好,對ー個3000字左右的網(wǎng)頁抽取正文,平均時間為23毫秒。而基于快速傅立葉變換的網(wǎng)頁正文內(nèi)容提取算法提取的正文中,部分鏈接不能除去,成功率相對較低,不到80%。而該算法在執(zhí)行效率上也較低,對于ー個3000字左右的網(wǎng)頁提取正文的平均時間為127毫秒。在具體實施過程中,本發(fā)明還可以應(yīng)用于信息檢索領(lǐng)域,構(gòu)建出以下ー種Web全文檢索中間件和ー種文檔搜索系統(tǒng)。圖I給出了Web全文檢索中間件的架構(gòu)模型。整個中間件由信息采集模塊、信息處理模塊和全文檢索模塊組成。各個模塊的簡要描述如下。I)信息采集模塊。該模塊主要是負(fù)責(zé)對Web網(wǎng)頁進行多線程抓取并對抓取所得到的URL進行去重處理。在該模塊中,采集接ロ面向Web網(wǎng)站,只需給定抓取的起始URL,即可通過寬度優(yōu)先搜索策略完成整個站點所有網(wǎng)頁的抓取。2)信息處理模塊。該模塊包含兩個主要內(nèi)容,先對采集到的網(wǎng)頁內(nèi)容進行正文提取,采用所提出的基于標(biāo)簽的正文提取方法來實現(xiàn);后對提取結(jié)果進行分詞并建立索引,其中分詞功能可通過使用中文分詞組件JE-Analysis來實現(xiàn)。3)全文檢索模塊。全文檢索模塊提供了用戶檢索功能的接ロ,其內(nèi)部封裝了全文檢索、用戶檢索條件解析、對檢索結(jié)果進行排序以及若干提高用戶體驗的個性化操作功能,如搜索關(guān)鍵詞智能提^^、相關(guān)關(guān)鍵詞搜索和聞級檢索等。圖2給出了文檔搜索系統(tǒng)的架構(gòu)模型。文檔搜索系統(tǒng)采用J2EE技術(shù)結(jié)合MVC架構(gòu),利用Web全文檢索中間件,采用Java語言開發(fā)實現(xiàn)。I)表示層。用于生成用戶訪問的Web頁面,包括文檔搜索引擎的搜索界面、結(jié)果的返回頁面、高級搜索頁面,搜索引擎進行初始設(shè)置或者調(diào)整服務(wù)器功能的ー些頁面,都集中在表示層。簡單地說,表示層就是該系統(tǒng)與各種用戶的人機接ロ。2)邏輯層。邏輯層位于系統(tǒng)的服務(wù)器端,包含眾多的功能模塊,是實現(xiàn)文檔搜索系統(tǒng)和搜索服務(wù)功能的核心層次。表示層中提出的各種功能都通過邏輯層相應(yīng)的代碼模塊實現(xiàn)。邏輯層的設(shè)計包含兩個主要的內(nèi)容一是面向Internet的網(wǎng)頁信息自動采集功能,通過ー個專門的多線程爬蟲程序來實現(xiàn),并把采集的頁面信息存儲在下面的數(shù)據(jù)存儲層中;另ー個則是分析用戶條件,進行組合捜索,將檢索結(jié)果按照特定的緩存策略進行緩存,同時對給予用戶展示的結(jié)果按照時問排序或者相關(guān)度排序。邏輯層的設(shè)計是實現(xiàn)系統(tǒng)健壯性、可重用性、可擴展性和可維護性的關(guān)鍵因素。3)數(shù)據(jù)存儲層。數(shù)據(jù)存儲層主要是負(fù)責(zé)將網(wǎng)頁爬蟲采集到的HTML頁面進行URL去重,然后用本發(fā)明所描述的基于HTML標(biāo)簽的正文提取方法對頁面正文進行遞歸地提取,將提取結(jié)果封裝成對象的形式,利用Lucene為其建立倒排索引,在索引文件中存儲相應(yīng)的數(shù)據(jù)。權(quán)利要求1.一種基于HTML標(biāo)簽的網(wǎng)頁正文提取裝置,包括中央處理器、寄存器、轉(zhuǎn)義字符轉(zhuǎn)換處理單元、凈化處理單元、存儲器,其特征是,中央處理單元按照如下步驟執(zhí)行網(wǎng)頁正文的提取(1)中央處理器將網(wǎng)頁的HTML代碼以文本形式讀入寄存器中,并將寄存器中的字符全部小寫化,便于后面的字符匹配;(2)中央處理器通過掃描寄存器,將HTML網(wǎng)頁劃分成Head和Body兩大區(qū)域塊;(3)中央處理器調(diào)用凈化處理單元,通過以下3個環(huán)節(jié)對寄存器進行凈化①刪除head區(qū)域塊中與網(wǎng)頁標(biāo)題無關(guān)的內(nèi)容,②確定body區(qū)域塊中網(wǎng)頁正文標(biāo)題的位置,③刪除body區(qū)域塊中與網(wǎng)頁正文無關(guān)的內(nèi)容;(4)中央處理器調(diào)用轉(zhuǎn)義字符轉(zhuǎn)換處理單元,把寄存器里面的轉(zhuǎn)義字符轉(zhuǎn)化成正常字符;(5)中央處理器依次在存儲器中保存寄存器中網(wǎng)頁信息,即為提取的網(wǎng)頁正文部分。2.一種基于HTML標(biāo)簽的網(wǎng)頁正文提取方法,通過含有中央處理器、寄存器、轉(zhuǎn)義字符轉(zhuǎn)換處理單元、凈化處理單元、存儲器的裝置提取出網(wǎng)頁的正文內(nèi)容,其特征是,該方法包括以下步驟(1)中央處理器將網(wǎng)頁的HTML代碼以文本形式讀入寄存器中,并將寄存器中的字符全部小寫化,便于后面的字符匹配;(2)中央處理器通過掃描寄存器,將HTML網(wǎng)頁劃分成Head和Body兩大區(qū)域塊;(3)中央處理器調(diào)用凈化處理單元,通過以下3個環(huán)節(jié)對寄存器進行凈化①刪除head區(qū)域塊中與網(wǎng)頁標(biāo)題無關(guān)的內(nèi)容,②確定body區(qū)域塊中網(wǎng)頁正文標(biāo)題的位置,③刪除body區(qū)域塊中與網(wǎng)頁正文無關(guān)的內(nèi)容;(4)中央處理器調(diào)用轉(zhuǎn)義字符轉(zhuǎn)換處理單元,把寄存器里面的轉(zhuǎn)義字符轉(zhuǎn)化成正常字符;(5)中央處理器依次在存儲器中保存寄存器中網(wǎng)頁信息,即為提取的網(wǎng)頁正文部分。3.—種Web全文檢索中間件,由信息采集接口、信息采集模塊、信息處理模塊、全文檢索模塊和檢索接口組成,其中,信息采集模塊對來自信息采集接口的Web網(wǎng)頁進行抓取并對抓取所得到的URL進行去重處理;信息處理模塊先對信息采集模塊采集到的網(wǎng)頁內(nèi)容進行正文提取,后對提取結(jié)果進行分詞并建立索引;全文檢索模塊內(nèi)部封裝了全文檢索、用戶檢索條件解析、對檢索結(jié)果進行排序以及提高用戶體驗的個性化操作功能,對外提供了檢索接口,其特征是,信息處理模塊中對信息采集模塊采集到的網(wǎng)頁內(nèi)容進行正文提取的裝置是如權(quán)利要求I所述的一種基于HTML標(biāo)簽的網(wǎng)頁正文提取裝置。4.如權(quán)利要求3所述的一種Web全文檢索中間件,信息采集模塊對來自信息采集接口的Web網(wǎng)頁進行抓取時采用多線程抓取。5.一種中間件的Web全文檢索方法,該中間件由信息采集接口、信息采集模塊、信息處理模塊、全文檢索模塊和檢索接口組成,全文檢索包括以下步驟(I)信息采集模塊對來自信息采集接口的Web網(wǎng)頁進行抓取并對抓取所得到的URL進行去重處理;(2)信息處理模塊先對信息采集模塊采集到的網(wǎng)頁內(nèi)容進行正文提取,后對提取結(jié)果進行分詞并建立索引;(3)全文檢索模塊內(nèi)部封裝了全文檢索、用戶檢索條件解析、對檢索結(jié)果進行排序以及提高用戶體驗的個性化操作功能,對外提供了檢索接口;其特征是,信息處理模塊中對信息采集模塊采集到的網(wǎng)頁內(nèi)容進行正文提取的方法是如權(quán)利要求2所述的一種基于HTML標(biāo)簽的網(wǎng)頁正文提取方法。6.如權(quán)利要求5所述的一種Web全文檢索中間件的構(gòu)造方法,信息采集模塊對來自信息采集接口的Web網(wǎng)頁進行抓取時采用多線程抓取。7.一種文檔搜索系統(tǒng),其特征是,由人機接口和如權(quán)利要求3所述的一種Web全文檢索中間件組成,人機接口提供起始URL給中間件的信息采集接口,并顯示中間件通過檢索接口輸出的檢索結(jié)果。8.一種文檔搜索的方法,通過人機接口和一種Web全文檢索中間件進行文檔檢索,其特征是,包括以下步驟(1)人機接口提供起始URL給中間件的信息采集接口;(2)中間件調(diào)用如權(quán)利要求5所述的一種中間件的Web全文檢索方法,檢索結(jié)果通過檢索接口輸出;(3)檢索結(jié)果通過人機接口顯示。全文摘要本發(fā)明所提供一種基于HTML標(biāo)簽的網(wǎng)頁正文提取方法和裝置,能夠比較準(zhǔn)確地識別出非常規(guī)的網(wǎng)頁結(jié)構(gòu)中的網(wǎng)頁正文,提高了提取網(wǎng)頁正文內(nèi)容的通用性、準(zhǔn)確率、效率和可擴展性,不僅滿足PAD和手機用戶的即時訪問需求,又可應(yīng)用于信息檢索領(lǐng)域的自動文摘和自動分類系統(tǒng)。文檔編號G06F17/30GK102779169SQ20121021355公開日2012年11月14日申請日期2012年6月27日優(yōu)先權(quán)日2012年6月27日發(fā)明者劉迎春,方筠捷,魏華峰申請人:江蘇新瑞峰信息科技有限公司