專利名稱::使用網(wǎng)頁標(biāo)簽聚類提取新聞網(wǎng)頁內(nèi)容的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明總體地涉及新聞網(wǎng)頁內(nèi)容提取領(lǐng)域,更具體地說,本發(fā)明涉及一種使用網(wǎng)頁標(biāo)簽聚類提取新聞網(wǎng)頁內(nèi)容的方法和系統(tǒng)。
背景技術(shù):
:在新聞(或者資訊)搜索領(lǐng)域,新聞?wù)奶崛∈潜夭豢缮俚沫h(huán)節(jié),其正文提取的質(zhì)量高低決定了新聞搜索的質(zhì)量和用戶體驗(yàn)。目前新聞?wù)奶崛》椒ǜ魇礁鳂?,按是否使用模板的方式分為兩大類基于模?或包裝器)方式提取和基于非模板方式提取。在基于模板方式提取中,首先定義模板,然后編寫程序解析執(zhí)行模板得到數(shù)據(jù)。根據(jù)模板生成方式又可分為人工模板提取和自動(dòng)模板提取。在人工模板提取中,針對(duì)提取的目標(biāo)站點(diǎn),人工手工編寫模板,模板可以是正則匹配方式,也可以是簡單的字符串匹配首位匹配方式。在自動(dòng)模板提取中,利用機(jī)器學(xué)習(xí)算法,先從目標(biāo)網(wǎng)站獲取一部分網(wǎng)頁數(shù)據(jù)進(jìn)行學(xué)習(xí)訓(xùn)練,獲取模板,然后程序利用模板提取數(shù)據(jù)。非模板方式提取大多基于統(tǒng)計(jì)和學(xué)習(xí)方式來實(shí)現(xiàn)。目前主要的算法有基于規(guī)則的、基于分塊的、基于視覺的等。比較有代表性的是微軟的基于視覺的頁面分割算法,經(jīng)過頁面塊提取,分隔條提取以及語義塊重構(gòu)3步,確定網(wǎng)頁的主要語義塊。人工編寫模板方式的缺點(diǎn)是需要耗費(fèi)巨大人力資源來撰寫模板,并且隨著目標(biāo)網(wǎng)站的變化,維護(hù)模板的成本也非常大。自動(dòng)模板方式的缺點(diǎn)是算法復(fù)雜,同時(shí)也需要對(duì)目標(biāo)網(wǎng)站周期監(jiān)控,以維護(hù)模板的變化。無論是人工還是自動(dòng)產(chǎn)生模板,其假設(shè)網(wǎng)站的數(shù)據(jù)是通過模板產(chǎn)生,一些大型的網(wǎng)站基本問題不大,也就是不同的入口可能模板不同,但對(duì)眾多的中小網(wǎng)站而言,其模板化不是很好,利用模板提取只能提取大部分的信息,有較多的機(jī)會(huì)包含垃圾信息?;谝曈X的頁面分割算法由于規(guī)則復(fù)雜,性能不高,不太適合新聞搜索引擎的應(yīng)用。因此,需要一種有效提取新聞網(wǎng)頁內(nèi)容的方法。
發(fā)明內(nèi)容為了解決現(xiàn)有技術(shù)中的上述缺點(diǎn)和問題而提出本發(fā)明。本發(fā)明針對(duì)新聞網(wǎng)頁內(nèi)容提取技術(shù)的不足,設(shè)計(jì)基于標(biāo)簽聚類的算法來提取新聞內(nèi)容,避免人工規(guī)則及其模板的弊端。根據(jù)本發(fā)明的一個(gè)方面,提供了一種使用網(wǎng)頁標(biāo)簽聚類提取新聞網(wǎng)頁內(nèi)容的方法,包括對(duì)網(wǎng)頁內(nèi)容進(jìn)行預(yù)處理,包括將所述網(wǎng)頁內(nèi)容解析成DOM樹和統(tǒng)計(jì)所述DOM樹的各節(jié)點(diǎn)的信息;啟發(fā)式刪除所述DOM樹的節(jié)點(diǎn);規(guī)則式刪除所述DOM樹的節(jié)點(diǎn);以及基于標(biāo)簽結(jié)構(gòu)聚類刪除所述DOM樹的節(jié)點(diǎn),從而生成最終的DOM樹以輸出。在所述方法中,基于標(biāo)簽結(jié)構(gòu)聚類刪除所述DOM樹的節(jié)點(diǎn)可以包括對(duì)經(jīng)過啟發(fā)3式刪除和規(guī)則式刪除的所述DOM樹的所有節(jié)點(diǎn)統(tǒng)計(jì)標(biāo)簽結(jié)構(gòu)信息;對(duì)所統(tǒng)計(jì)的標(biāo)簽結(jié)構(gòu)信息進(jìn)行相似聚類計(jì)算,從而獲得多個(gè)類;選取所述多個(gè)類中內(nèi)容最大的類,并且將所選取的類中節(jié)點(diǎn)的共同父節(jié)點(diǎn)作為內(nèi)容節(jié)點(diǎn);以及根據(jù)所述內(nèi)容節(jié)點(diǎn),處理所有其它節(jié)點(diǎn),以形成所述最終的DOM樹。所述方法可以進(jìn)一步包括對(duì)所述網(wǎng)頁內(nèi)容進(jìn)行精細(xì)處理。所述方法可以包括對(duì)所統(tǒng)計(jì)的標(biāo)簽結(jié)構(gòu)信息取MD5哈希,通過MD5值相同進(jìn)行嚴(yán)格聚類。所述信息包括標(biāo)點(diǎn)、符號(hào)數(shù),字符數(shù),鏈接數(shù),圖片數(shù)。并且所述符號(hào)和字符數(shù)按鏈接分為錨文本中的中文符號(hào)數(shù),錨文本中的英文符號(hào)數(shù),錨文本中的中文字?jǐn)?shù),錨文本中的英文字?jǐn)?shù);非錨文本中的中文符號(hào)數(shù),非錨文本中的英文符號(hào)數(shù),非錨文本中的中文字?jǐn)?shù),非錨文本中的英文字?jǐn)?shù)。在所述方法中,規(guī)則式刪除所述DOM樹的節(jié)點(diǎn)可以包括統(tǒng)計(jì)節(jié)點(diǎn)的鏈接數(shù)和非錨文本字符數(shù)的比值,如果所述比值大于閾值,則將該節(jié)點(diǎn)標(biāo)記為可刪除節(jié)點(diǎn)。所述閾值基于本網(wǎng)頁全局鏈接數(shù)和全局非錨文本字符數(shù)的比值或根據(jù)經(jīng)驗(yàn)值。根據(jù)本發(fā)明的另一個(gè)方面,提供了一種使用網(wǎng)頁標(biāo)簽聚類提取新聞網(wǎng)頁內(nèi)容的系統(tǒng),包括預(yù)處理模塊,用于對(duì)網(wǎng)頁內(nèi)容進(jìn)行預(yù)處理,以將所述網(wǎng)頁內(nèi)容解析成DOM樹并且統(tǒng)計(jì)所述DOM樹的各節(jié)點(diǎn)的信息;啟發(fā)式刪除模塊,用于啟發(fā)式刪除與所述DOM樹中指定的標(biāo)簽對(duì)象相對(duì)應(yīng)的節(jié)點(diǎn);規(guī)則式刪除模塊,用于規(guī)則式刪除鏈接數(shù)和非錨文本字符數(shù)的比值大于指定閾值的節(jié)點(diǎn);以及標(biāo)簽結(jié)構(gòu)聚類刪除模塊,用于基于標(biāo)簽結(jié)構(gòu)聚類刪除節(jié)點(diǎn)。所述系統(tǒng)可以進(jìn)一步包括精細(xì)處理模塊,用于對(duì)所述網(wǎng)頁內(nèi)容進(jìn)行精細(xì)處理。通過下面結(jié)合附圖進(jìn)行的描述,本發(fā)明一些示范性實(shí)施例的上述和其他方面、特征和優(yōu)點(diǎn)對(duì)于本領(lǐng)域技術(shù)人員來說將變得顯而易見,其中圖1是示出根據(jù)本發(fā)明一個(gè)示范性實(shí)施例的提取新聞網(wǎng)頁內(nèi)容的方法的流程圖;圖2是示出根據(jù)本發(fā)明一個(gè)示范性實(shí)施例的基于標(biāo)簽結(jié)構(gòu)聚類刪除節(jié)點(diǎn)的過程的流程圖;以及圖3是示出根據(jù)本發(fā)明示范性實(shí)施例的系統(tǒng)的框圖。具體實(shí)施例方式提供參考附圖的下面描述以幫助全面理解本發(fā)明的示范性實(shí)施例。其包括各種細(xì)節(jié)以助于理解,而應(yīng)當(dāng)將它們認(rèn)為僅僅是示范性的。因此,本領(lǐng)域普通技術(shù)人員應(yīng)當(dāng)認(rèn)識(shí)到,可以對(duì)這里描述的實(shí)施例做出各種改變和修改,而不會(huì)背離本發(fā)明的范圍和精神。同樣,為了清楚和簡明,省略了對(duì)公知功能和結(jié)構(gòu)的描述。下面將參考附圖詳細(xì)描述本發(fā)明。圖1是示出根據(jù)本發(fā)明一個(gè)示范性實(shí)施例的提取新聞網(wǎng)頁內(nèi)容的方法100的流程圖。如圖1中所示,方法100開始于步驟110。在步驟110中,對(duì)網(wǎng)頁內(nèi)容進(jìn)行預(yù)處理,以將網(wǎng)頁內(nèi)容解析成DOM(DocumentObjectModel,文檔對(duì)象模型)樹并且統(tǒng)計(jì)DOM樹的各節(jié)點(diǎn)的信息。如何將網(wǎng)頁內(nèi)容解析成DOM樹對(duì)于本領(lǐng)域技術(shù)人員是公知的,因此在此不進(jìn)行詳細(xì)描述。對(duì)網(wǎng)頁內(nèi)容進(jìn)行預(yù)處理可以包括整理網(wǎng)頁內(nèi)容標(biāo)簽,將不匹配或者不閉合的標(biāo)簽按規(guī)則整理成閉合標(biāo)簽,之后將整理好的網(wǎng)頁內(nèi)容解析成DOM樹;以及統(tǒng)計(jì)各個(gè)節(jié)點(diǎn)的fn息ο節(jié)點(diǎn)的信息可以包括標(biāo)點(diǎn)、符號(hào)數(shù),字符數(shù)(例如,中文、英文、數(shù)字、其他等),鏈接數(shù),圖片數(shù)等。其中,符號(hào)和字符又可按鏈接分為錨文本中的中文符號(hào)數(shù),錨文本中的英文符號(hào)數(shù),錨文本中的中文字?jǐn)?shù),錨文本中的英文字?jǐn)?shù);非錨文本中的中文符號(hào)數(shù),非錨文本中的英文符號(hào)數(shù),非錨文本中的中文字?jǐn)?shù),非錨文本中的英文字?jǐn)?shù)。在步驟120中,啟發(fā)式刪除節(jié)點(diǎn)。該步驟的操作對(duì)象為DOM樹中指定的標(biāo)簽對(duì)象。例如,啟發(fā)式移除涉及的HTML標(biāo)簽主要有META、HR、IMG、STYLE、SCRIPT、NOSCRIPT、INPUT、SELECT、EMBED、BUTTON、OPTION、0PTGR0UP。之所以要?jiǎng)h除上述HTML標(biāo)簽對(duì)象,是因?yàn)樗鼈儾粫?huì)影響內(nèi)容本身。例如,kript腳本部分中標(biāo)點(diǎn)和內(nèi)容較多,但是不是頁面本身展示內(nèi)容,style樣式是展示內(nèi)容,也不會(huì)影響內(nèi)容本身,因此在DOM樹上,將這兩類節(jié)點(diǎn)標(biāo)記為可刪除節(jié)點(diǎn)。刪除方式采取自低而上的方式,同時(shí)保證在刪除該節(jié)點(diǎn)時(shí),本節(jié)點(diǎn)的統(tǒng)計(jì)信息也在其父節(jié)點(diǎn)中刪除。在步驟130中,規(guī)則式刪除節(jié)點(diǎn)。該步驟的操作對(duì)象為table,div等內(nèi)容標(biāo)簽。在該步驟中,可以計(jì)算節(jié)點(diǎn)的鏈接數(shù)和非錨文本字符數(shù)的比值,如果比值大于閾值(例如,閾值可以為0.05),則可以該節(jié)點(diǎn)標(biāo)記為可刪除節(jié)點(diǎn)。在步驟140中,基于標(biāo)簽結(jié)構(gòu)聚類刪除節(jié)點(diǎn),從而生成最終的DOM樹以輸出。下面將參考圖2描述基于標(biāo)簽結(jié)構(gòu)聚類來刪除節(jié)點(diǎn)的過程。圖2是示出根據(jù)本發(fā)明一個(gè)示范性實(shí)施例的基于標(biāo)簽結(jié)構(gòu)聚類刪除節(jié)點(diǎn)的過程200的流程圖。在步驟210中,對(duì)經(jīng)過啟發(fā)式刪除和規(guī)則式刪除的DOM樹的所有節(jié)點(diǎn)統(tǒng)計(jì)標(biāo)簽結(jié)構(gòu)信息。在步驟220中,對(duì)所統(tǒng)計(jì)的標(biāo)簽結(jié)構(gòu)信息進(jìn)行相似聚類計(jì)算,從而獲得多個(gè)類。對(duì)于每個(gè)節(jié)點(diǎn)而言,自其父節(jié)點(diǎn)至節(jié)點(diǎn)本身有一條路徑,該路徑稱之為節(jié)點(diǎn)的結(jié)構(gòu)路徑,路徑上的所有標(biāo)簽組成(諸如用例如“_”或“/”等的分隔符連接組成)的字符串作為路徑值。因此,對(duì)所統(tǒng)計(jì)的標(biāo)簽結(jié)構(gòu)信息進(jìn)行相似聚類計(jì)算即是對(duì)路徑值進(jìn)行相似聚類計(jì)算。例如,可以通過K均值算法、C均值算法、EM算法等中的任何一種來對(duì)對(duì)所有路徑值做相似聚類計(jì)算。每個(gè)標(biāo)簽結(jié)構(gòu)是一個(gè)(或多個(gè))類,每個(gè)類包括祖先節(jié)點(diǎn)指針,其是最終找到的內(nèi)容節(jié)點(diǎn)的祖先指針;詞數(shù)目,用于確定內(nèi)容最大的類;垃圾詞數(shù)目和刪除比率,可以用于消除內(nèi)容域內(nèi)的噪音;以及節(jié)點(diǎn)集合,可以通過節(jié)點(diǎn)集合找到共同的祖先節(jié)點(diǎn)。在步驟230中,選取內(nèi)容(有效標(biāo)點(diǎn)符合數(shù)和非錨文本字符數(shù))最大的類,并且將該類中節(jié)點(diǎn)的共同父節(jié)點(diǎn)作為整個(gè)新聞網(wǎng)頁的內(nèi)容節(jié)點(diǎn)。在步驟MO中,處理所述內(nèi)容節(jié)點(diǎn)下的所有節(jié)點(diǎn),用于進(jìn)一步消除噪音,從而形成最終的DOM樹。此外,在步驟220中,為了進(jìn)一步提高程序效率,可以對(duì)所統(tǒng)計(jì)的標(biāo)簽結(jié)構(gòu)信息(即路徑值)取MD5哈希,通過MD5值相同進(jìn)行嚴(yán)格聚類。上面已經(jīng)對(duì)本發(fā)明的方法進(jìn)行了描述,然而可以對(duì)本發(fā)明的方法進(jìn)行精化以精細(xì)處理新聞內(nèi)容。一些財(cái)經(jīng)類網(wǎng)站,多會(huì)有些聲明,例如“搜狐證券聲明本頻道資訊內(nèi)容系轉(zhuǎn)引自合作媒體及合作機(jī)構(gòu),不代表搜狐證券自身觀點(diǎn)與立場,建議投資者對(duì)此資訊謹(jǐn)慎判斷,據(jù)此入市,風(fēng)險(xiǎn)自擔(dān)。”在這種情況下,如果將這樣的聲明作為新聞內(nèi)容的一部分,若新聞實(shí)際內(nèi)容就一句話或者較短,則這樣的聲明會(huì)影響新聞內(nèi)容的計(jì)算,諸如指紋計(jì)算、新聞相似度計(jì)算等。為了消除這樣的不利影響,可以采用以下的兩種精細(xì)加工內(nèi)容方式(1)對(duì)于新聞節(jié)點(diǎn)內(nèi)容里面的所有節(jié)點(diǎn),若其刪除率(相同路徑節(jié)點(diǎn)保留數(shù)/相同路徑節(jié)點(diǎn)總數(shù))較高(90%以上),則刪除該節(jié)點(diǎn);(2)制作一個(gè)詞表,詞表內(nèi)容為詞串和詞性,其中詞串為3-4個(gè)漢字非詞的串,其屬性標(biāo)記為聲明、導(dǎo)航、版權(quán)、廣告等等,通過對(duì)標(biāo)簽里的對(duì)應(yīng)內(nèi)容做最大正向匹配切詞,獲取該標(biāo)簽對(duì)應(yīng)的詞屬性集,根據(jù)比值(詞屬性集合數(shù)/文本長度)決定節(jié)點(diǎn)的取舍。圖3是示出根據(jù)本發(fā)明示范性實(shí)施例的系統(tǒng)300的框圖。如圖3中所示,系統(tǒng)300可以包括預(yù)處理模塊310、啟發(fā)式刪除模塊320、規(guī)則式刪除模塊330、標(biāo)簽結(jié)構(gòu)聚類刪除模塊340??蛇x地,系統(tǒng)300還可以包括精細(xì)處理模塊(圖3中未示出)。具體而言,預(yù)處理模塊310對(duì)網(wǎng)頁內(nèi)容進(jìn)行預(yù)處理,以將網(wǎng)頁內(nèi)容解析成DOM樹并且統(tǒng)計(jì)DOM樹的各節(jié)點(diǎn)的信息。啟發(fā)式刪除模塊320用于啟發(fā)式刪除與DOM樹中指定的標(biāo)簽對(duì)象相對(duì)應(yīng)的節(jié)點(diǎn)。規(guī)則式刪除模塊330用于規(guī)則式刪除鏈接數(shù)和非錨文本字符數(shù)的比值大于指定閾值的節(jié)點(diǎn)。標(biāo)簽結(jié)構(gòu)聚類刪除模塊340用于基于標(biāo)簽結(jié)構(gòu)聚類刪除節(jié)點(diǎn)。由于上面已結(jié)合圖2詳細(xì)描述了如何基于標(biāo)簽結(jié)構(gòu)聚類來刪除節(jié)點(diǎn),所以在此不再詳述。根據(jù)本發(fā)明,提供了一種使用網(wǎng)頁標(biāo)簽聚類實(shí)現(xiàn)新聞網(wǎng)頁內(nèi)容提取的方法和系統(tǒng)。本領(lǐng)域普通技術(shù)人員將了解到,本發(fā)明的方法和優(yōu)點(diǎn)可以獲得以下優(yōu)點(diǎn)(1)基于單網(wǎng)頁分析,無需模板,節(jié)省大量人工;(算法簡單,分析效率高;C3)能夠?yàn)楹罄m(xù)的指紋計(jì)算,內(nèi)容聚類,新聞事件聚類提供高質(zhì)量數(shù)據(jù)保證。應(yīng)指出的是,上面分別對(duì)本發(fā)明的系統(tǒng)和方法實(shí)施例分別進(jìn)行了描述,但是對(duì)一個(gè)實(shí)施例描述的細(xì)節(jié)也可應(yīng)用于另一個(gè)實(shí)施例。以上結(jié)合具體實(shí)施例描述了本發(fā)明的基本原理,但是,需要指出的是,對(duì)本領(lǐng)域的普通技術(shù)人員而言,能夠理解本發(fā)明的方法和系統(tǒng)的全部或者任何步驟或者部件可以以軟件、硬件、固件或者它們的組合加以實(shí)現(xiàn),這是本領(lǐng)域普通技術(shù)人員在閱讀了本發(fā)明的說明的情況下運(yùn)用他們的基本編程技能就能實(shí)現(xiàn)的。因此,本發(fā)明的目的還可以通過在任何計(jì)算裝置上運(yùn)行一個(gè)軟件模塊或者一組軟件模塊來實(shí)現(xiàn)。所述計(jì)算裝置可以是公知的通用裝置。因此,本發(fā)明的目的也可以僅僅通過提供包含實(shí)現(xiàn)所述方法或者系統(tǒng)的程序代碼的程序產(chǎn)品來實(shí)現(xiàn)。也就是說,這樣的程序產(chǎn)品也構(gòu)成本發(fā)明,并且存儲(chǔ)有這樣的程序產(chǎn)品的存儲(chǔ)介質(zhì)也構(gòu)成本發(fā)明。顯然,所述存儲(chǔ)介質(zhì)可以是任何公知的存儲(chǔ)介質(zhì)或者將來所開發(fā)出來的任何存儲(chǔ)介質(zhì)。雖然本說明書包含許多特定實(shí)施方式細(xì)節(jié),但是不應(yīng)當(dāng)將這些細(xì)節(jié)解釋為對(duì)任何發(fā)明或可以主張的內(nèi)容的范圍的限制,而應(yīng)當(dāng)解釋為對(duì)可以特定于特定發(fā)明的特定實(shí)施例的特征的描述。還可以將在本說明書中在分離的實(shí)施例的情境中描述的某些特征組合在單個(gè)實(shí)施例中實(shí)現(xiàn)。相反地,也可以將在單個(gè)實(shí)施方式的情境中描述的各個(gè)特征分離地在多個(gè)實(shí)施方式中實(shí)現(xiàn)或在任何適當(dāng)?shù)淖咏M合中實(shí)現(xiàn)。此外,盡管可能在上面將特征描述為在某些組合中起作用,甚至最初主張如此,但是可以在一些情況下將來自所主張的組合的一個(gè)或多個(gè)特征從組合中刪去,并且可以將所主張的組合指向子組合或者子組合的變體。類似地,雖然在附圖中以特定次序描繪了操作,但是不應(yīng)當(dāng)將這理解為需要以所示的特定次序或者以連續(xù)次序執(zhí)行這樣的操作、或者需要執(zhí)行所有圖示的操作才能達(dá)到期望的結(jié)果。在某些情況下,多任務(wù)以及并行處理可以是有利的。此外,不應(yīng)當(dāng)將在上述實(shí)施例中的各種系統(tǒng)組件的分離理解為在所有實(shí)施例中均需要這樣的分離,而應(yīng)當(dāng)理解的是,通??梢詫⑺枋龅某绦蚪M件和系統(tǒng)集成到一起成為單個(gè)軟件產(chǎn)品或封裝為多個(gè)軟件產(chǎn)品。計(jì)算機(jī)程序(也稱作程序、軟件、軟件應(yīng)用、腳本或代碼)可以以任何形式的編程語言編寫,所述編程語言包括編譯或解釋語言、或者說明性或過程語言,并且其可以以任何形式部署,包括作為獨(dú)立程序或作為模塊、組件、子程序或適于在計(jì)算環(huán)境中使用的其它單元。計(jì)算機(jī)程序沒有必要對(duì)應(yīng)于文件系統(tǒng)中的文件??梢詫⒊绦虼鎯?chǔ)在保持其它程序或數(shù)據(jù)的文件(例如,存儲(chǔ)在標(biāo)記語言文檔中的一個(gè)或多個(gè)腳本)的一部分、專用于討論中的程序的單個(gè)文件或者多個(gè)協(xié)調(diào)文件(例如,存儲(chǔ)一個(gè)或多個(gè)模塊、子程序或部分代碼的文件)中。上述具體實(shí)施方式,并不構(gòu)成對(duì)本發(fā)明保護(hù)范圍的限制。本領(lǐng)域技術(shù)人員應(yīng)該明白的是,取決于設(shè)計(jì)要求和其他因素,可以發(fā)生各種各樣的修改、組合、子組合和替代。任何在本發(fā)明的精神和原則之內(nèi)所作的修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)范圍之內(nèi)。權(quán)利要求1.一種使用網(wǎng)頁標(biāo)簽聚類提取新聞網(wǎng)頁內(nèi)容的方法,包括對(duì)網(wǎng)頁內(nèi)容進(jìn)行預(yù)處理,包括將所述網(wǎng)頁內(nèi)容解析成DOM樹和統(tǒng)計(jì)所述DOM樹的各節(jié)點(diǎn)的信息;啟發(fā)式刪除所述DOM樹的節(jié)點(diǎn);規(guī)則式刪除所述DOM樹的節(jié)點(diǎn);以及基于標(biāo)簽結(jié)構(gòu)聚類刪除所述DOM樹的節(jié)點(diǎn),從而生成最終的DOM樹以輸出。2.根據(jù)權(quán)利要求1所述的方法,其中,基于標(biāo)簽結(jié)構(gòu)聚類刪除所述DOM樹的節(jié)點(diǎn)包括對(duì)經(jīng)過啟發(fā)式刪除和規(guī)則式刪除的所述DOM樹的所有節(jié)點(diǎn)統(tǒng)計(jì)標(biāo)簽結(jié)構(gòu)信息;對(duì)所統(tǒng)計(jì)的標(biāo)簽結(jié)構(gòu)信息進(jìn)行相似聚類計(jì)算,從而獲得多個(gè)類;選取所述多個(gè)類中內(nèi)容最大的類,并且將所選取的類中節(jié)點(diǎn)的共同父節(jié)點(diǎn)作為內(nèi)容節(jié)點(diǎn);以及處理所述內(nèi)容節(jié)點(diǎn)下的所有節(jié)點(diǎn),以形成所述最終的DOM樹。3.根據(jù)權(quán)利要求1所述的方法,其中,所述方法進(jìn)一步包括對(duì)所述網(wǎng)頁內(nèi)容進(jìn)行精細(xì)處理。4.根據(jù)權(quán)利要求2所述的方法,其中,對(duì)所統(tǒng)計(jì)的標(biāo)簽結(jié)構(gòu)信息取MD5哈希,通過MD5值相同進(jìn)行嚴(yán)格聚類。5.根據(jù)權(quán)利要求1所述的方法,其中,所述信息包括標(biāo)點(diǎn)、符號(hào)數(shù),字符數(shù),鏈接數(shù),圖片數(shù)。6.根據(jù)權(quán)利要求1所述的方法,其中,所述符號(hào)和字符數(shù)按鏈接分為錨文本中的中文符號(hào)數(shù),錨文本中的英文符號(hào)數(shù),錨文本中的中文字?jǐn)?shù),錨文本中的英文字?jǐn)?shù);非錨文本中的中文符號(hào)數(shù),非錨文本中的英文符號(hào)數(shù),非錨文本中的中文字?jǐn)?shù),非錨文本中的英文字?jǐn)?shù)。7.根據(jù)權(quán)利要求1所述的方法,其中,規(guī)則式刪除所述DOM樹的節(jié)點(diǎn)包括統(tǒng)計(jì)節(jié)點(diǎn)的鏈接數(shù)和非錨文本字符數(shù)的比值,如果所述比值大于閾值,則將該節(jié)點(diǎn)標(biāo)記為可刪除節(jié)點(diǎn)。8.根據(jù)權(quán)利要求1所述的方法,其中,所述閾值基于本網(wǎng)頁全局鏈接數(shù)和全局非錨文本字符數(shù)的比值或根據(jù)經(jīng)驗(yàn)值。9.一種使用網(wǎng)頁標(biāo)簽聚類提取新聞網(wǎng)頁內(nèi)容的系統(tǒng),包括預(yù)處理模塊,用于對(duì)網(wǎng)頁內(nèi)容進(jìn)行預(yù)處理,以將所述網(wǎng)頁內(nèi)容解析成DOM樹并且統(tǒng)計(jì)所述DOM樹的各節(jié)點(diǎn)的信息;啟發(fā)式刪除模塊,用于啟發(fā)式刪除與所述DOM樹中指定的標(biāo)簽對(duì)象相對(duì)應(yīng)的節(jié)點(diǎn);規(guī)則式刪除模塊,用于規(guī)則式刪除鏈接數(shù)和非錨文本字符數(shù)的比值大于指定閾值的節(jié)點(diǎn);以及標(biāo)簽結(jié)構(gòu)聚類刪除模塊,用于基于標(biāo)簽結(jié)構(gòu)聚類刪除節(jié)點(diǎn)。10.根據(jù)權(quán)利要求9所述的系統(tǒng),其中,所述系統(tǒng)進(jìn)一步包括精細(xì)處理模塊,用于對(duì)所述網(wǎng)頁內(nèi)容進(jìn)行精細(xì)處理。全文摘要本發(fā)明提供了一種使用網(wǎng)頁標(biāo)簽聚類提取新聞網(wǎng)頁內(nèi)容的方法和系統(tǒng)。所述方法包括對(duì)網(wǎng)頁內(nèi)容進(jìn)行預(yù)處理,包括將所述網(wǎng)頁內(nèi)容解析成DOM樹和統(tǒng)計(jì)所述DOM樹的各節(jié)點(diǎn)的信息;啟發(fā)式刪除所述DOM樹的節(jié)點(diǎn);規(guī)則式刪除所述DOM樹的節(jié)點(diǎn);以及基于標(biāo)簽結(jié)構(gòu)聚類刪除所述DOM樹的節(jié)點(diǎn),從而生成最終的DOM樹以輸出。文檔編號(hào)G06F17/30GK102298638SQ201110270418公開日2011年12月28日申請日期2011年8月31日優(yōu)先權(quán)日2011年8月31日發(fā)明者王放,許歡慶,郭永福,陳沛,高勇申請人:北京中搜網(wǎng)絡(luò)技術(shù)股份有限公司