亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種互聯(lián)網(wǎng)網(wǎng)頁清洗方法、系統(tǒng)及設(shè)備的制作方法

文檔序號:6460821閱讀:167來源:國知局

專利名稱::一種互聯(lián)網(wǎng)網(wǎng)頁清洗方法、系統(tǒng)及設(shè)備的制作方法
技術(shù)領(lǐng)域
:本發(fā)明屬于互聯(lián)網(wǎng)信息處理領(lǐng)域,尤其涉及一種互聯(lián)網(wǎng)網(wǎng)頁清洗方法、系統(tǒng)及設(shè)備。
背景技術(shù)
:隨著互聯(lián)網(wǎng)的快速發(fā)展,Web已經(jīng)成為信息發(fā)布和信息共享的基礎(chǔ)平臺,其中以HTML格式的Web網(wǎng)頁是主要的信息載體。目前,Web網(wǎng)頁已經(jīng)從最初的手工編輯的靜態(tài)網(wǎng)頁發(fā)展成為由數(shù)據(jù)庫和模板生成的動態(tài)網(wǎng)頁,Web網(wǎng)頁中包含的內(nèi)容也越來越復(fù)雜,除了正文內(nèi)容外,還包含廣告、標語、導(dǎo)航信息、版權(quán)信息等噪聲信息。網(wǎng)頁清洗類似于數(shù)據(jù)挖掘中的數(shù)據(jù)清洗,通過Web挖掘和機器學(xué)習技術(shù)將Web網(wǎng)頁的數(shù)據(jù)進^f亍清洗、凈化,提取有用的信息,去除噪聲信息。網(wǎng)頁清洗可以為搜索引擎、移動電話瀏覽、Web信息提取和信息收集等應(yīng)用的提供基礎(chǔ)。在互聯(lián)網(wǎng)搜索中,在去除廣告等噪聲信息基礎(chǔ)上建立的索引可以有效地提高搜索的準確率;通過僅將頁面中的正文信息塊或片段顯示出來,而忽略廣告、導(dǎo)航鏈接等其它的信息塊,為移動用戶移動電話瀏覽提供更好的用戶體驗;在Web信息提取中,只有去掉網(wǎng)頁的噪聲信息,才能更好的提取出所需要的結(jié)構(gòu)化和純文本信息,v^人而為自然語言處理、分類、聚類和文摘等系統(tǒng)提供文本資源。在面向主題的信息收集,通過判斷哪些信息塊與指定的主題相關(guān),可以有選擇地收集與特定主題相關(guān)的信息。現(xiàn)有的網(wǎng)頁清洗方案基本上針對特定類型網(wǎng)頁或者特定沖莫板網(wǎng)頁,能夠清洗的網(wǎng)頁有限。同時,網(wǎng)頁清洗準確率較低,不能正確去除各種噪聲信息。
發(fā)明內(nèi)容本發(fā)明實施例的目的在于提供一種互聯(lián)網(wǎng)網(wǎng)頁清洗方法,旨在解決現(xiàn)有的網(wǎng)頁清洗方案能夠清洗的網(wǎng)頁有限,清洗準確率較低的問題。本發(fā)明實施例是這樣實現(xiàn)的,一種互聯(lián)網(wǎng)網(wǎng)頁清洗方法,所述方法包括下述步驟分析輸入的網(wǎng)頁,對網(wǎng)頁標簽內(nèi)容自動糾錯,建立文檔對象模型樹;保留所述文檔對象模型樹中具有表示內(nèi)容的HTML的塊元素結(jié)點,生成與所述文檔對象模型樹對應(yīng)的結(jié)構(gòu)塊樹;在所述結(jié)構(gòu)塊樹的基礎(chǔ)上按照定義的網(wǎng)頁類型對輸入的網(wǎng)頁進行分類;根據(jù)輸入的網(wǎng)頁所屬的網(wǎng)頁類型,對其進行語義塊分析,提取并輸出重要塊及其文本信息。本發(fā)明實施例的另一目的在于提供一種互聯(lián)網(wǎng)網(wǎng)頁清洗系統(tǒng),所述系統(tǒng)包括:網(wǎng)頁分析單元,用于分析輸入的網(wǎng)頁,對網(wǎng)頁標簽內(nèi)容自動糾錯,建立文檔對象模型樹;結(jié)構(gòu)塊樹生成單元,用于保留所述文檔對象模型樹中具有表示內(nèi)容的HTML的塊元素結(jié)點,生成與所述文檔對象模型樹對應(yīng)的結(jié)構(gòu)塊樹;網(wǎng)頁分類單元,用于在所述結(jié)構(gòu)塊樹的基礎(chǔ)上按照定義的網(wǎng)頁類型對輸入的網(wǎng)頁進行分類;以及網(wǎng)頁清洗單元,用于根據(jù)輸入的網(wǎng)頁所屬的網(wǎng)頁類型,對其進行語義塊分析,提取并輸出重要塊及其文本信息。本發(fā)明實施例的另一目的在于提供一種包含上述互聯(lián)網(wǎng)網(wǎng)頁清洗系統(tǒng)的通信設(shè)備。本發(fā)明實施例基于網(wǎng)頁分類策略,將網(wǎng)頁分為語義內(nèi)聚的合適粒度大小的塊,對每個塊進行分析識別,有效地提取出重要塊及其信息,可以實現(xiàn)任意網(wǎng)頁的清洗,清洗準確率高,可以應(yīng)用于移動終端瀏覽、搜索引擎、面向主題的信息收集、自動信息提取和垂直搜索等方面。圖1是本發(fā)明實施例提供的互聯(lián)網(wǎng)網(wǎng)頁清洗方法的實現(xiàn)流程圖;圖2是本發(fā)明實施例提供的語義塊分割示意圖;圖3是本發(fā)明實施例提供的內(nèi)容型網(wǎng)頁文本內(nèi)容提取的實現(xiàn)流程圖;圖4是本發(fā)明實施例提供的多塊文本型網(wǎng)頁文本提取的實現(xiàn)流程圖;圖5是本發(fā)明實施例提供的互聯(lián)網(wǎng)網(wǎng)頁清洗系統(tǒng)的結(jié)構(gòu)圖。具體實施方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進行進一步詳細說明。應(yīng)當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。本發(fā)明實施例基于網(wǎng)頁分類策略,將網(wǎng)頁分為語義內(nèi)聚的合適粒度大小的語義塊,對每個語義塊進行分析識別,有效地提取出重要塊及其信息,可以實現(xiàn)對任意網(wǎng)頁的清洗,包括內(nèi)容型網(wǎng)頁的正文提取、多塊文本型網(wǎng)頁的內(nèi)容提取、索引型網(wǎng)頁重要塊自動提取,以及BBS/Blog型網(wǎng)頁的內(nèi)容提取等,清洗準確率高。圖1示出了本發(fā)明實施例提供的互聯(lián)網(wǎng)網(wǎng)頁清洗方法的實現(xiàn)流程,詳述如下在步驟101中,分析輸入的網(wǎng)頁,對網(wǎng)頁標簽內(nèi)容自動糾錯,建立DOM樹;在本發(fā)明實施例中,網(wǎng)頁分析的目的是利用HTML網(wǎng)頁語義定義標準進4亍上下文句法約束,實現(xiàn)網(wǎng)頁標簽內(nèi)容的自動糾錯,建立一個正確的文檔對象模型(DocumentObjectModel,DOM)樹,以便于后續(xù)分析。DOM樹是一個樹結(jié)構(gòu),具有便于操作訪問、以及重新恢復(fù)原始網(wǎng)頁的優(yōu)點。由于網(wǎng)頁在手工編輯過程中的編輯錯誤以及使用不規(guī)范的格式,會導(dǎo)致網(wǎng)頁標簽內(nèi)容的錯誤以及語義模糊,給機器自動處理帶來很大困難。本發(fā)明實施例中,在DOM樹的分析過程中,重點解決常見的HTML網(wǎng)頁錯誤以及格式不規(guī)范等問題,具體可以包括1.元素省略或者結(jié)束標記的省略,例如<HTML><body>text</body></HTML>,該例中將HTML元素下的<head>省略。在分析過程中從HTML格式的完整性出發(fā),需要發(fā)現(xiàn)省略元素,自動生成補全;<UL><Li>a<Li>b</UL>,該例是結(jié)束標記的省略,省略了</0>標記。通常標記TD,TH,LI,DD等將結(jié)束標記省略,但省略標記后,后面結(jié)點是兒子結(jié)點還是兄弟結(jié)點存在二義性,需要根據(jù)標簽的上下文語義來決定。2.標簽犬牙交錯,例如〈b〉bold<i>bolditalic</b>bold</i>,斜體〈b〉和黑體O標注屬于犬牙交錯,相互包含。3.元素標記錯誤,例如〈Hl〉heacK/H2〉,結(jié)束標記為<氾1>,錯標為</112>。4.內(nèi)容模型錯誤,在HTML4.01語義規(guī)范中,規(guī)定每個標簽下能夠包含的標簽和不能夠包含的標簽,例如HTML標簽只能包含title、body,如果包含一個table標簽,則是4普誤的。針對上述的網(wǎng)頁錯誤或者格式不規(guī)范等問題,一般可以采用基于HTML網(wǎng)頁語義定義標準進行上下文句法約束的方式解決,利用有限狀態(tài)機進行詞法分析,將開始和結(jié)束標記作為狀態(tài)轉(zhuǎn)移的觸發(fā)條件,對每個標簽和內(nèi)容進行分析,得到一系列標記(token),再利用語義約束方式進行自頂向下句法分析過程對整個文檔進行分析,自動糾正網(wǎng)頁錯誤,規(guī)范HTML格式,可以生成魯棒的DOM樹。在步驟S102中,保留DOM樹中具有表示內(nèi)容的HTML的塊元素結(jié)點,生成與DOM樹對應(yīng)的結(jié)構(gòu)塊樹;在語法上,HTML文檔中的元素可以分為塊元素(block-levelelements)和內(nèi)聯(lián)元素(Inlineelements)兩種類型。塊元素和內(nèi)聯(lián)元素的區(qū)別主要體現(xiàn)在兩個方面,在內(nèi)容模型方面,塊元素可以包含其它塊元素或者內(nèi)聯(lián)元素,而內(nèi)聯(lián)元素通常只能夠包含內(nèi)聯(lián)元素或者數(shù)據(jù)。因此,塊元素通常表示了比內(nèi)聯(lián)元素更大的結(jié)構(gòu);在展現(xiàn)格式方面,塊元素通常在新的一行上開始顯示,而內(nèi)聯(lián)元素并不是這樣的。在HTML規(guī)范中,常見的塊元素如下表所示Moc吸"o:rfi:|fo應(yīng)||潔丄五||爿dz)腐s"〉〈豐777T%//W'肌IOZ/'〉<ABV777T%pr^brma"gd〃尸i五〃〉_在這些塊元素中,如table,tr,td,th是用來繪制表格的,ol,ul是表示列表的。本發(fā)明實施例中,根據(jù)上述網(wǎng)頁分析生成的DOM樹,從網(wǎng)頁結(jié)構(gòu)的角度對信息塊進行定義,DOM樹包括葉子結(jié)點和根結(jié)點,葉子結(jié)點通常對應(yīng)內(nèi)聯(lián)元素,而非葉子結(jié)點對應(yīng)塊元素。才艮據(jù)統(tǒng)計觀察,在Web網(wǎng)頁中,如果一個塊元素類型的HTML元素是表示內(nèi)容的塊元素結(jié)點,例如〈tablexdivxulxtrxtd〉的結(jié)點,那么該元素及其包含的內(nèi)容為一個結(jié)構(gòu)塊,而對于其它元素標記,通常包含于這幾個元素之中。因此,在本發(fā)明實施例中,查找DOM樹中表示內(nèi)容的HTML的塊元素結(jié)點,保留相應(yīng)的表示內(nèi)容的HTML的塊元素結(jié)點,不展現(xiàn)其它結(jié)點。由于每個結(jié)構(gòu)塊可能是相互包含,結(jié)構(gòu)塊的父結(jié)點或者子結(jié)點還是一個塊元素類型塊,這樣根據(jù)結(jié)構(gòu)塊的結(jié)點之間的關(guān)系,各個結(jié)構(gòu)塊組合就生成一個樹型結(jié)構(gòu)。在該結(jié)構(gòu)塊樹中,可以根據(jù)相鄰的塊結(jié)構(gòu)分析,確定相鄰塊是否是語義聚斂的,也可以根據(jù)父結(jié)點與子結(jié)點上下文文本增益來判斷主要內(nèi)容塊。因此,在結(jié)構(gòu)塊樹中,可以方便的進行接下來的語義塊分析,即對各結(jié)點進行合并和組合形成新的內(nèi)容收斂的語義塊。在步驟S103中,根據(jù)網(wǎng)頁內(nèi)部特征,在結(jié)構(gòu)塊樹的&出上按照定義的網(wǎng)頁類型對網(wǎng)頁進行分類;在本發(fā)明實施例中,網(wǎng)頁類型定義是網(wǎng)頁內(nèi)部特征來定義的,而不是按照內(nèi)容形式劃分的,具體的網(wǎng)頁類型可以根據(jù)實現(xiàn)需要進行相應(yīng)劃分。作為本發(fā)明的一個實施例,將網(wǎng)頁分為內(nèi)容型網(wǎng)頁、多塊文本型網(wǎng)頁、索引型網(wǎng)頁,以及非明顯特征型網(wǎng)頁。內(nèi)容型網(wǎng)頁中具有大段的文本,包含的鏈接文本相對少,文本一般處于網(wǎng)頁的中間位置,鏈接等信息處于兩邊成獨立的狀態(tài),例如導(dǎo)航塊,廣告塊等。內(nèi)容型網(wǎng)頁包括新聞網(wǎng)頁的內(nèi)容頁面,BBS的內(nèi)容網(wǎng)頁等。多塊文本型網(wǎng)頁中具有多段文本,且每段文本在DOM樹上是分割開的,沒有一個統(tǒng)一結(jié)點可以包含這些文本結(jié)點,文本塊與文本塊之間的大小差異不大,沒有特別突出的塊,在處理時需要將這些塊內(nèi)容提取^^并作為輸出結(jié)果。索引型網(wǎng)頁包含鏈接的文本比較多,很少具有不包含鏈接的大段文本,大多數(shù)都是鏈接文本,難以通過文本/鏈接比例的標準判斷是否是噪聲信息塊。在該類網(wǎng)頁中,又包括兩種子類型,一類是BBS/Blog型網(wǎng)頁,該類網(wǎng)頁具有大段包含鏈接的索引文本,但由于該類網(wǎng)頁具有的特征基本上與內(nèi)容型網(wǎng)頁沒有太大差別,可以歸結(jié)為內(nèi)容型網(wǎng)頁。另一類為導(dǎo)^^型網(wǎng)頁,該類網(wǎng)頁具有明顯的塊,且包含鏈接的文本多,而不包含鏈接的文本很少。對于系統(tǒng)無法識別具有有效特征的非明顯特征型網(wǎng)頁,既沒有明顯的塊信息,也沒有大段文本信息,可以不作處理,直接對其標簽進行規(guī)范后輸出結(jié)果。根據(jù)上述網(wǎng)頁類型的定義,本發(fā)明實施例中,利用ID3決策樹分類器(QuinlanJR.Inductionofdecisiontrees.MachineLearning)的方法對網(wǎng)頁進4亍分類。決策樹分類器的訓(xùn)練數(shù)據(jù)是通過手工標注一定數(shù)量具有代表性的網(wǎng)頁,每個類別包含100個左右。然后,利用統(tǒng)計的方法從中選出具有代表性的特征,輸入判別特征包括文本個數(shù)信息、鏈接文本個數(shù)信息、文本語義信息,以及標簽信息等,輸入特征的每個屬性代表決策樹分類器輸入矢量的一個分量,利用該訓(xùn)練數(shù)據(jù)訓(xùn)練出ID3決策樹分類器,統(tǒng)計的特征包括1)最大文本塊的包含文本長度是否大于150;2)最大文本塊和次最大文本塊的比例是否小于1.3;3)次文本塊包含的文本長度是否大于400;4)次最大文本塊是不是版權(quán)信息;5)最大文本塊和次最大文本塊是否是父子結(jié)點關(guān)系;6)塊文本是否包含標點符號信息"。";7)塊文本包含標簽符號的個數(shù);8)最大文本塊是否包含〈p、<^>結(jié)點,以及包含的個數(shù);9)整個body結(jié)點塊文本和鏈接文本比例是否大于2;10)最大文本和整個網(wǎng)頁鏈接文本的比例是否小于0.08;11)最大文本和整個網(wǎng)頁鏈接文本的比例是否大于0.05,且包含p的文本塊大于75;12)網(wǎng)頁無明顯的塊信息,而且最大文本塊小于一定的閾值;13)網(wǎng)頁中無塊信息,也沒有包含p的文本。經(jīng)過上述訓(xùn)練出的決策樹分類器,利用該決策樹分類器對網(wǎng)頁進行分類。輸入是通過前面已經(jīng)分析得到的結(jié)構(gòu)塊樹,從中提取上述特征對應(yīng)的屬性值,然后組合成特征矢量,輸入到?jīng)Q策樹分類器,最后輸出是定義內(nèi)容型網(wǎng)頁、多塊文本型網(wǎng)頁、索引型網(wǎng)頁、非明顯特征型網(wǎng)頁等四個類別網(wǎng)頁中的某一類別。在對網(wǎng)頁分類時,需要統(tǒng)計各塊包含的文本大小、最大文本塊和次最大文本塊大小。在本發(fā)明實施中,可以采用自底向上的后序遍歷統(tǒng)計方法,在遍歷過程中,通過在結(jié)構(gòu)塊子樹中設(shè)定是否被包含的標志位,從而能夠有效的統(tǒng)計出各塊包含的文本大小,以及最大文本塊和次最大文本塊,具體算法的實現(xiàn)示例如下intTraversePostNode(Node*tnod,int&nNum,int&nLinkNum){〃返回>=1表示包含table和div,0為不包含初始化結(jié)點包含的文本數(shù)nNum為0,鏈接文本數(shù)nLinkNum為0;獲到指針tnod的最左兒子結(jié)點tempnode;if(最左兒子結(jié)點為空){統(tǒng)計葉子結(jié)點包含的文本數(shù)如果該葉子結(jié)點是鏈接,設(shè)定鏈接文本氺tnLinkNum等于nNum;else{while(結(jié)點tempnode不等于空){遞歸調(diào)用TraversePostNode(tempnode,nTempNum,nTempLinkNum),并返回是否包含結(jié)構(gòu)塊標識nval;累力口nval,并寸呆存在nlnclude;累力口nTempNum并寸呆存在nNum;累力口nTempLinkNum并<呆存在nLinkNum;對下一個兄弟結(jié)點進4亍處理,tempnode=GetNext(tempnode);if(結(jié)點是包含20個字以上的有效結(jié)構(gòu)塊){if(標志nlnclude為0){if(結(jié)構(gòu)塊是文本塊)統(tǒng)計最大文本塊,同時統(tǒng)計次最大文本塊}返回包含結(jié)構(gòu)塊信息標志1;if(標志nlnclude大于0)返回包含結(jié)構(gòu)塊信息標志1;;返回包含結(jié)構(gòu)塊信息標志0;在步驟S104中,4艮據(jù)輸入的網(wǎng)頁所屬的網(wǎng)頁類型,對其進4亍語義塊分析,提取并輸出重要塊及其文本信息在本發(fā)明實施例中,語義塊是在結(jié)構(gòu)塊基礎(chǔ)上定義的。由于語義塊二義性和主觀性,很難定義。因此,需要從機器能夠識別的角度去進行定義和分析。本發(fā)明實施例中,語義塊定義為1)該元素中包含一個或者若干個結(jié)構(gòu)塊,即若干個相鄰的結(jié)構(gòu)塊聚集在該元素中;2)語義塊包含的文字達到一定的數(shù)值,且能夠通過網(wǎng)頁表示出來;3)除了有明顯的區(qū)分點,例如子標題等視覺特征,否則盡量將相鄰的塊合并。在進行語義塊分析時,可以采用在已經(jīng)構(gòu)建的結(jié)構(gòu)塊樹中尋找一個合適基本覆蓋所有葉子結(jié)點的切割方法,例如在圖2中,結(jié)點l,2,…,8分別代表結(jié)構(gòu)塊,但由于6,7,8語義聚斂,合并為一個語義結(jié)點3,因此,最終塊4,5,3即為所要求的語義塊。由于結(jié)構(gòu)塊樹是一個遞歸的結(jié)構(gòu),需要判斷在哪個結(jié)點進行分割,如果在比較底層分割,可能導(dǎo)致分割粒度太小,如果在高層分割,可能導(dǎo)致分割的粒度太大。本發(fā)明實施例中根據(jù)結(jié)構(gòu)塊內(nèi)部的微結(jié)構(gòu)相似或者相同的原則進行塊合并,并自動確定語義塊的粒度大小。作為本發(fā)明的一個實施例,語義塊分析所利用的特征主要有基于URL結(jié)構(gòu)相似性、基于標簽的結(jié)構(gòu)相似性、基于視覺特征和基于上下文文本的信息增益四個方面l.基于URL結(jié)構(gòu)相似性在具有塊的網(wǎng)頁中,網(wǎng)頁是由塊所組成,在每個塊的內(nèi)部,它的URL結(jié)構(gòu)基本上是相同或者是相近的。因為在由網(wǎng)頁模板塊生成的網(wǎng)頁分析中,通常變化的部分為內(nèi)容,例如新聞塊(news)、娛樂塊(ent)等,為了能夠機器自動處理,減少人的手工編輯工作量,通常URL都是按照一定規(guī)律生成,例如一般目錄結(jié)構(gòu)相同,只是最后的文件名(用一定規(guī)律數(shù)字表示)不同,而且URL表示都具有一定語義的含義,相對不變的部分可能是廣告、導(dǎo)航等信息,而這些信息變化相對不太頻繁,它們的URL也沒有新聞塊URL結(jié)構(gòu)變化有規(guī)律。因此,本發(fā)明實施例中可以利用URL結(jié)構(gòu)相似性作為特征進行語義分塊,結(jié)構(gòu)相似性包括語義塊中URL結(jié)構(gòu)是否規(guī)律性變化,以及URL結(jié)構(gòu)中是否包含標志性語義特征。塊的URL為http:〃news.qq.com/a/20080108細688.htmhttp:〃news.qq.com/a/20080108/001413.htmhttp:〃news.qq.com/a/20080108/000572.htm由此可見,這些URL前面的部分完全相同,而有-見律變化的是最后部分用數(shù)字表示的文件名。在本發(fā)明實施例中,基于URL結(jié)構(gòu)相似性分析的算法如下1)在每個塊中,提取塊中包含的所有URL;2)將每個URL看作是一個字符串,去除http:〃頭信息,然后利用分割標記"/."對其進行分割;3)在分割的字符串基礎(chǔ)上,對每個塊統(tǒng)計出頻繁出現(xiàn)的URL的標志性token等語義特征,這些token組成該塊的語義中心;4)對于每個塊,計算相鄰的兩塊的語義中心距離,如果大于一定閾值,則合并相鄰的兩塊。設(shè)兩個塊的語義中心分別表示為fl^A^,6AA&,a,^是屬于統(tǒng)計出的token,語義中心距離A,定義為A,-^^,其中,《=1"'=/。2.基于標簽的結(jié)構(gòu)相似性標簽的結(jié)構(gòu)相似性主要是指在某塊的子樹下,該子樹標簽組成后的序列具有重復(fù)的特征,例如對于標簽〈p〉<br><br><br><br><br>〈p〉〈br〉序列,將會可能形成一個塊,或者由多個p,tr,td,li等組成的單元也可能是一個連續(xù)的語義塊。在對標簽的結(jié)構(gòu)相似性進行判斷時,首先統(tǒng)計子樹下出現(xiàn)最頻繁的標簽符號,然后以這些標簽為中心前后擴展,并驗證該序列是否結(jié)構(gòu)相似。該方法比現(xiàn)有技術(shù)中直接利用通過后綴樹的方法統(tǒng)計最大重復(fù)子串的效率高,且能夠達到同樣的效果。3.基于視覺的特征由于網(wǎng)頁每個塊之間具有很強的視覺差異,對于網(wǎng)頁的首頁,人憑肉眼可以很方便的將其分塊,例如當一塊中有標題存在、字體大小的變化、背景變化這些都會導(dǎo)致被認為是塊與塊之間的分割標記。本發(fā)明實施例中,利用^L覺特征來確定分割標記時1)確定勤出的塊,該塊一般是符合一定條件的結(jié)構(gòu)塊,塊包含的文本大小大于一定的閾值;2)利用視覺特征對該結(jié)構(gòu)塊向前和向后擴展。向前擴展時,判斷當前塊的前段單元是否是該段的標題,是則加入該單元,并停止向前擴展,結(jié)束;否則判斷是否有字體的變化,字號顏色的變化和背景顏色變化等,有則停止擴展,結(jié)束;向后擴展時,判斷是否有字體的變化,字號顏色的變化和背景顏色變化等,有則停止向后擴展。4.基于上下文文本的信息增益本發(fā)明實施例中,上下文文本的信息增益Ow/w/C^f/J定義為C0"feCo"fe"^"("》,其中表示當前結(jié)點包含的文本長度,Co她"^"(^)表示在塊結(jié)點樹上該結(jié)點的父親結(jié)點包含文本的長度。由于結(jié)構(gòu)塊樹是一個相互嵌套的塊,對于最底層的結(jié)構(gòu)塊,由于其包含的信息可能被上層的結(jié)點信息所包含,因此,如果上下文文本的信息增益小于一定閾值,則將結(jié)點向其父結(jié)點擴展,直到不能擴展為止,即將該節(jié)點的父節(jié)點設(shè)為當前節(jié)點,再進^f亍上下文文本的信息增益計算,如果所得值小于一定閾值,則繼續(xù),直到上下文文本的信息增益值不小于閾值?;谏舷挛奈谋镜男畔⒃鲆嫱ǔEc視覺特征相結(jié)合使用,可以達到更為準確的效果。本發(fā)明實施例中,在對網(wǎng)頁進行清洗時,當輸入的網(wǎng)頁為內(nèi)容型網(wǎng)頁時,提取其主要文本塊;當輸入的網(wǎng)頁為多塊文本型網(wǎng)頁時,獲取每個文本塊的內(nèi)容,輸出合并后的多塊文本;當輸入的網(wǎng)頁為索引型網(wǎng)頁時,利用統(tǒng)一資源定位符(UniformResourceLocation,URL)結(jié)構(gòu)相似性、DOM樹標簽的相似性和視覺特征來進行語義塊分析,在分析的語義塊上輸出重要的語義塊單元;當輸入的網(wǎng)頁為非明顯特征型網(wǎng)頁時,直接對網(wǎng)頁的標簽進行規(guī)范后輸出。對不同類型的網(wǎng)頁進行清洗后,將網(wǎng)頁清洗的結(jié)果輸出。對于內(nèi)容型網(wǎng)頁,由于網(wǎng)頁中具有大段的文本,其中包含鏈接的文本相對少,因此,首先利用自底向上的方法尋找包含最大文本結(jié)點的結(jié)點,在尋找到的最大文本結(jié)點上,綜合利用結(jié)構(gòu)塊內(nèi)部進行分析,最后提取正文,實現(xiàn)流程如圖3所示,詳述如下在步驟S301中,統(tǒng)計有效的最大文本塊,判斷最大文本塊是否是版權(quán)信息塊,如果是,則用次最大文本塊或者包含p結(jié)點的文本塊代替作為最大文本塊。在步驟S302中,擴展最大文本塊的結(jié)點;由于統(tǒng)計的最大文本的結(jié)點未能包含全部文本內(nèi)容,需要對其進行擴展,一直向其父結(jié)點進行擴展。擴展的規(guī)則主要是根據(jù)上下文文本的信息增益和文本增益和鏈接文本增益的比例特征來判斷,如果文本的信息增益小于一定闊值(如0.65)且文本增益和鏈接文本增益的比例大于一定閾值(0.5),則在結(jié)構(gòu)塊樹中向其父親結(jié)點擴展。在步驟S303中,最大文本塊內(nèi)部分析,去除其中的噪聲信息;在最大文本塊的內(nèi)部,自頂向下進行分析,尋找包含兒子節(jié)點最多的子樹,即最大扇出子樹結(jié)點,然后對每個扇出子樹結(jié)點進行分析,分別判斷每個子樹塊是否是鏈接塊,每個子樹是否具有連續(xù)的結(jié)構(gòu)符號等,去除噪聲信息。每個子樹塊是否是鏈接塊的判斷根據(jù)塊文本和鏈接文本比例確定,如果塊文本和鏈接文本的比例大于2則是鏈接塊,刪除該鏈接塊。每個子樹是否具有連續(xù)的結(jié)構(gòu)符號根據(jù)標簽結(jié)構(gòu)相似性判斷,如果有連續(xù)的結(jié)構(gòu)符號表示文本是內(nèi)聚的,是正文,予以保留。連續(xù)標簽信息部分大多數(shù)都是語義內(nèi)聚,不包含噪聲信息。由于開始的部分和結(jié)尾續(xù),包含噪音信息。根據(jù)標簽符號連續(xù)性以及包含字數(shù)多少等一系列啟發(fā)式規(guī)則判斷開頭和結(jié)尾部分的標簽是否屬于正文文本內(nèi)容,如果不屬于則刪除,如果屬于則^f呆留。在步驟S304中,去除最大文本塊中的圖像與圖像標題信息;在文本塊中,根據(jù)圖像的標簽信息IMG為觸發(fā)條件,然后在DOM中尋找相應(yīng)的文本結(jié)點,并判斷是否是圖像標題信息,是則去除圖像和圖像標題信息。在步驟S305中,獲取標題與時間信息;在文本塊中,標題信息主要是通過視覺信息來判斷,例如該結(jié)點塊是否比當前的字體大,字體是否是黑體,該結(jié)點塊的背景顏色是否不同于當前的背景等。時間信息主要是通過時間模板的格式來獲取。在步驟S306中,輸出對應(yīng)的文本內(nèi)容。對于多塊文本型網(wǎng)頁,首先對該網(wǎng)頁進行語義分析,獲取大小粒度合適的相應(yīng)語義塊,對于每個語義塊,根據(jù)文本/鏈接文本的比例,判斷其是否是文本塊,對于文本塊,則按照上述內(nèi)容型網(wǎng)頁的分析方式,獲取該文本塊的文本內(nèi)容,合并輸出文本塊內(nèi)容,處理完所有文本塊以后,合并輸出所有文本塊的文本內(nèi)容,合并后的文本內(nèi)容就是最終的輸出文本,具體實現(xiàn)如圖4所示在步驟S401中,網(wǎng)頁進行語義分析,獲取大小粒度合適的相應(yīng)語義塊;在步驟S402中,對于每個語義塊,根據(jù)文本/鏈接文本的比例,判斷是否是文本塊,對于文本塊進行內(nèi)容型網(wǎng)頁分析,獲取該文本塊的文本內(nèi)容;在步驟S403中,合并輸出文本塊內(nèi)容;在步驟S404中,判斷是否所有的文本塊已經(jīng)分析完畢,是則執(zhí)行步驟S405,否則執(zhí)行步驟S402;在步驟S405中,合并輸出所有文本塊的文本內(nèi)容。對于索引型網(wǎng)頁,通過對索引型網(wǎng)頁進行語義分析,獲取粒度大小合適的語義塊,然后再根據(jù)URL結(jié)構(gòu)特征和語義特征獲取重要的塊信息。根據(jù)URL結(jié)構(gòu)分析,可以判定哪些塊中包含變化規(guī)律的URL結(jié)構(gòu)。另外,對于每塊中的URL,通過統(tǒng)計URL包含的符號,并提取包含類似news,ent等標志性的語義特征。如果URL變化規(guī)律,且包含所定義的標志性的語義特征,粒度大小合適,提取其為重要塊。并按照預(yù)先定義語義特征權(quán)值按照重要程度大小輸出,刪除噪聲等無關(guān)信息塊。圖5示出了本發(fā)明實施例提供的互聯(lián)網(wǎng)網(wǎng)頁清洗系統(tǒng)的結(jié)構(gòu),為了便于說明僅示出了與本發(fā)明實施例相關(guān)的部分。該系統(tǒng)可以用于對網(wǎng)頁進行各種處理的通信設(shè)備,例如Web服務(wù)器、搜索引擎等,也可以用于具備網(wǎng)頁處理能力的各種終端設(shè)備,例如計算機、筆記本電腦、個人數(shù)字助理(PersonalDigitalAssistant,PDA)等,可以是運行于這些設(shè)備內(nèi)的軟件單元、硬件單元或者軟硬件相結(jié)合的單元,也可以作為獨立的掛件集成到這些設(shè)備中或者運行于這些設(shè)備的應(yīng)用系統(tǒng)中,其中網(wǎng)頁分析單元51分析輸入的網(wǎng)頁,對網(wǎng)頁標簽內(nèi)容自動糾錯,建立DOM樹。在本發(fā)明實施例中,網(wǎng)頁分析單元51對輸入的網(wǎng)頁進行分析時,采用HTML網(wǎng)頁語義定義標準進行上下文句法約束方式,實現(xiàn)網(wǎng)頁標簽內(nèi)容的自動糾錯。結(jié)構(gòu)塊樹生成單元52保留所述文檔對象模型樹中具有表示內(nèi)容的HTML的塊元素結(jié)點,生成與DOM樹對應(yīng)的結(jié)構(gòu)塊樹。網(wǎng)頁分類單元53在結(jié)構(gòu)塊樹的基礎(chǔ)上按照定義的網(wǎng)頁類型對輸入的網(wǎng)頁進行分類。在本發(fā)明實施例中,網(wǎng)頁類型根據(jù)網(wǎng)頁的內(nèi)部特征定義,而不是按照內(nèi)容形式劃分的,對網(wǎng)頁進行分類時采用決策樹分類器實現(xiàn),決策樹分類器的輸入判別特征包括文本個數(shù)信息、鏈接文本個數(shù)信息、文本語義信息,以及標簽信息等。作為本發(fā)明的一個實施例,將網(wǎng)頁的類型分為內(nèi)容型網(wǎng)頁、多塊文本型網(wǎng)頁、索引型網(wǎng)頁和非明顯特征型網(wǎng)頁,具體的網(wǎng)頁定義和分類過程如上所述,不再贅述。網(wǎng)頁清洗單元54根據(jù)輸入的網(wǎng)頁所屬的網(wǎng)頁類型,對其進行語義塊分析,提取并輸出重要塊及其文本信息。在本發(fā)明實施例中,當輸入的網(wǎng)頁為內(nèi)容型網(wǎng)頁時,網(wǎng)頁清洗單元54^是取網(wǎng)頁的主要文本塊;輸入的網(wǎng)頁為多塊文本型網(wǎng)頁時,網(wǎng)頁清洗單元54對輸入的網(wǎng)頁進行語義塊分析,獲取相應(yīng)語義塊,對于每個語義塊分別獲取文本塊內(nèi)容,合并后輸出文本信息;當輸入的網(wǎng)頁為索引型網(wǎng)頁時,網(wǎng)頁清洗單元54對進行語義分析,獲取粒度大小合適的語義塊,根據(jù)URL結(jié)構(gòu)特征和語義特征等語義塊分析特征獲取重要的塊信息;當輸入的網(wǎng)頁為非明顯特征型網(wǎng)頁時,網(wǎng)頁清洗單元54對網(wǎng)頁的標簽進4亍*見范后輸出。在對不同類型的網(wǎng)頁進行清洗時的具體實現(xiàn)方式如上所述,不再贅述。在本發(fā)明實施例中,語義塊分析所利用的特征包括URL結(jié)構(gòu)相似性,標簽的結(jié)構(gòu)相似性,視覺特征,或者上下文文本的信息增益,具體實現(xiàn)如上所述,不再贅述。本發(fā)明實施例基于網(wǎng)頁分類策略,將網(wǎng)頁分為語義內(nèi)聚的合適粒度大小的塊,對每個塊進行分析識別,有效地提取出重要塊及其信息,可以實現(xiàn)任意網(wǎng)頁的清洗,不僅可以解決內(nèi)容型網(wǎng)頁的主要文本內(nèi)容的提取,而且可以提供其它類型網(wǎng)頁如索引型網(wǎng)頁,BBS/Blog型網(wǎng)頁的重要塊提取以及噪聲信息去除,清洗準確率高。對于移動電話和PDA等電子終端的用戶來說,由于終端的顯示屏幕有限,通過分塊顯示大大提高系統(tǒng)的可用性。在搜索引擎方面,經(jīng)過通用網(wǎng)頁的清洗,在此基礎(chǔ)上建立索引可以消除噪聲信息的影響,能夠顯著提高搜索的準確性和性能。同時,本發(fā)明實施例通過將網(wǎng)頁分成語義內(nèi)聚的塊,提取重要塊,去除噪聲塊,可以將以網(wǎng)頁為檢索單元轉(zhuǎn)化成按照語義塊為檢索單元,從而能夠更準確搜索和定位搜索信息塊,這對于在移動設(shè)備上搜索和瀏覽顯得尤為重要。同樣對于面向主題的信息收集,系統(tǒng)通過判斷哪些信息塊與指定的主題相關(guān),然后將這些主題塊中包含的超鏈加入到下載隊列中進行下載,可以大大提高信息收集效率。另外,本發(fā)明實施例為自動信息提取和垂直搜索奠定了基礎(chǔ),通過有效地進行網(wǎng)頁清洗,提取出Web網(wǎng)頁的主要內(nèi)容,可以更好的將半結(jié)構(gòu)化信息轉(zhuǎn)化成所需要的結(jié)構(gòu)化信息。在自然語言處理、分類、聚類和文摘等系統(tǒng)中,網(wǎng)頁清洗也是利用Web網(wǎng)頁作為語料的處理基礎(chǔ)。以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。權(quán)利要求1、一種互聯(lián)網(wǎng)網(wǎng)頁清洗方法,其特征在于,所述方法包括下述步驟分析輸入的網(wǎng)頁,對網(wǎng)頁標簽內(nèi)容自動糾錯,建立文檔對象模型樹;保留所述文檔對象模型樹中具有表示內(nèi)容的HTML的塊元素結(jié)點,生成與所述文檔對象模型樹對應(yīng)的結(jié)構(gòu)塊樹;在所述結(jié)構(gòu)塊樹的基礎(chǔ)上按照定義的網(wǎng)頁類型對輸入的網(wǎng)頁進行分類;根據(jù)輸入的網(wǎng)頁所屬的網(wǎng)頁類型,對其進行語義塊分析,提取并輸出重要塊及其文本信息。2、如權(quán)利要求l所述的方法,其特征在于,在對輸入的網(wǎng)頁進行分析時,采用HTML網(wǎng)頁語義定義標準進行上下文句法約束方式,實現(xiàn)網(wǎng)頁標簽內(nèi)容的自動糾錯。3、如權(quán)利要求l所述的方法,其特征在于,對輸入的網(wǎng)頁進行分類時采用決策樹分類器實現(xiàn)。4、如權(quán)利要求3所述的方法,其特征在于,所述決策樹分類器的輸入判別特征包括文本個數(shù)信息、鏈接文本個數(shù)信息、文本語義信息,以及標簽信息。5、如權(quán)利要求l、3或4所述的方法,其特征在于,所述網(wǎng)頁類型根據(jù)網(wǎng)頁的內(nèi)部特征定義。6、如權(quán)利要求5所述的方法,其特征在于,所述網(wǎng)頁類型包括內(nèi)容型網(wǎng)頁、多塊文本型網(wǎng)頁、索引型網(wǎng)頁或者非明顯特征型網(wǎng)頁。7、如權(quán)利要求6所述的方法,其特征在于,當所述輸入的網(wǎng)頁為內(nèi)容型網(wǎng)頁時,所述根據(jù)輸入的網(wǎng)頁所屬的網(wǎng)頁類型,對其進行語義塊分析,提取并輸出重要塊及其文本信息的步驟具體為統(tǒng)計有效的最大文本塊,判斷最大文本塊是否是版權(quán)信息塊,是則用次最大文本塊或者包含p結(jié)點的文本塊代替作為最大文本塊;擴展最大文本塊,利用上下文文本信息增益和文本增益和鏈接文本增益的比例特征去擴展所述最大文本塊的結(jié)點;塊內(nèi)部分析,對所述最大文本塊進行內(nèi)部分析,去除其中的噪聲信息。8、如權(quán)利要求6所述的方法,其特征在于,當所述輸入的網(wǎng)頁為多塊文本型網(wǎng)頁時,所述根據(jù)輸入的網(wǎng)頁所屬的網(wǎng)頁類型,對其進行語義塊分析,提取并輸出重要塊及其文本信息的步驟具體為對輸入的網(wǎng)頁進4亍語義塊分析,獲擬目應(yīng)語義塊;對于每個語義塊分別獲取文本塊內(nèi)容,合并后輸出文本信息。9、如權(quán)利要求6所述的方法,其特征在于,當所述輸入的網(wǎng)頁為索引型網(wǎng)頁時,所述根據(jù)輸入的網(wǎng)頁所屬的網(wǎng)頁類型,對其進行語義塊分析,提取并輸出重要塊及其文本信息的步驟具體為對進行語義分析,獲取粒度大小合適的語義塊;根據(jù)語義塊分析特征獲取重要的塊信息。10、如權(quán)利要求l、7、8或9所述的方法,其特征在于,所述語義塊分析所利用的特征包括URL結(jié)構(gòu)相似性,標簽的結(jié)構(gòu)相似性,視覺特征,或者上下文文本的信息增益。11、如權(quán)利要求IO所述的方法,其特征在于,所述的URL結(jié)構(gòu)相似性包括語義塊中URL結(jié)構(gòu)是否規(guī)律性變化,以及URL結(jié)構(gòu)中是否包含標志性語義特征。12、一種互聯(lián)網(wǎng)網(wǎng)頁清洗系統(tǒng),其特征在于,所述系統(tǒng)包括網(wǎng)頁分析單元,用于分析輸入的網(wǎng)頁,對網(wǎng)頁標簽內(nèi)容自動糾錯,建立文檔對象模型樹;結(jié)構(gòu)塊樹生成單元,用于保留所述文檔對象模型樹中具有表示內(nèi)容的HTML的塊元素結(jié)點,生成與所述文檔對象才莫型樹對應(yīng)的結(jié)構(gòu)塊樹;網(wǎng)頁分類單元,用于在所述結(jié)構(gòu)塊樹的基礎(chǔ)上按照定義的網(wǎng)頁類型對輸入的網(wǎng)頁進行分類;以及網(wǎng)頁清洗單元,用于根據(jù)輸入的網(wǎng)頁所屬的網(wǎng)頁類型,對其進行語義塊分析,提取并輸出重要塊及其文本信息。13、如權(quán)利要求12所述的系統(tǒng),其特征在于,所述網(wǎng)頁分析單元對輸入的網(wǎng)頁進行分析時,采用t[TML網(wǎng)頁語義定義標準進^f亍上下文句法約束方式,實現(xiàn)網(wǎng)頁標簽內(nèi)容的自動糾錯。14、如權(quán)利要求12所述的系統(tǒng),其特征在于,所述網(wǎng)頁分類單元對輸入的網(wǎng)頁進行分類時采用決策樹分類器實現(xiàn)。15、如權(quán)利要求12或14所述的系統(tǒng),其特征在于,所述網(wǎng)頁類型根據(jù)網(wǎng)頁的內(nèi)部特4正定義。16、如權(quán)利要求15所述的系統(tǒng),其特征在于,所述網(wǎng)頁類型包括內(nèi)容型網(wǎng)頁、多塊文本型網(wǎng)頁、索引型網(wǎng)頁或者非明顯特征型網(wǎng)頁。17、如權(quán)利要求12所述的系統(tǒng),其特征在于,所述語義塊分析所利用的特征包括URL結(jié)構(gòu)相似性,標簽的結(jié)構(gòu)相似性,—見覺特征,或者上下文文本的信息增益。18、一種包含權(quán)利要求12的互聯(lián)網(wǎng)網(wǎng)頁清洗系統(tǒng)的通信設(shè)備。全文摘要本發(fā)明適用于互聯(lián)網(wǎng)信息處理領(lǐng)域,提供了一種互聯(lián)網(wǎng)網(wǎng)頁清洗方法、系統(tǒng)及設(shè)備,所述方法包括下述步驟分析輸入的網(wǎng)頁,對網(wǎng)頁標簽內(nèi)容自動糾錯,建立文檔對象模型樹;保留所述文檔對象模型樹中具有表示內(nèi)容的HTML的塊元素結(jié)點,生成與所述文檔對象模型樹對應(yīng)的結(jié)構(gòu)塊樹;在所述結(jié)構(gòu)塊樹的基礎(chǔ)上按照定義的網(wǎng)頁類型對輸入的網(wǎng)頁進行分類;根據(jù)輸入的網(wǎng)頁所屬的網(wǎng)頁類型,對其進行語義塊分析,提取并輸出重要塊及其文本信息。本發(fā)明可以實現(xiàn)任意網(wǎng)頁的清洗,清洗準確率高,可以應(yīng)用于移動終端瀏覽、搜索引擎、面向主題的信息收集、自動信息提取和垂直搜索等方面。文檔編號G06F17/30GK101251855SQ20081006643公開日2008年8月27日申請日期2008年3月27日優(yōu)先權(quán)日2008年3月27日發(fā)明者方高林,鄭全戰(zhàn)申請人:騰訊科技(深圳)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1