亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法和裝置的制作方法

文檔序號(hào):6436328閱讀:227來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種正文提取實(shí)現(xiàn)方法和裝置,尤其涉及一種基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法和裝置。
背景技術(shù)
隨著hternet的不斷發(fā)展,互聯(lián)網(wǎng)內(nèi)的數(shù)據(jù)成指數(shù)型增長(zhǎng),已經(jīng)成為巨大的、分布廣泛的信息源。這里面不乏我們需要的信息,但許多信息包含在浩如煙海的Web網(wǎng)頁(yè)中, 如何幫助人們迅速提取有效信息變成了當(dāng)前最重要的問(wèn)題。在這種背景下,網(wǎng)頁(yè)正文的自動(dòng)化提取也越來(lái)越多受到相關(guān)研究人員研究與關(guān)注,現(xiàn)在主要的研究成果有基于模板的網(wǎng)頁(yè)正文提取方法,基于視覺(jué)特征的網(wǎng)頁(yè)正文提取方法(VIPS),基于統(tǒng)計(jì)的網(wǎng)頁(yè)正文提取方法等。下面簡(jiǎn)單介紹這三種常用網(wǎng)頁(yè)正文的自動(dòng)化提取方法,并對(duì)每種方法的特點(diǎn)進(jìn)行分析。1、基于模板的網(wǎng)頁(yè)正文提取方法這種方法使用包裝器(Wrapper)來(lái)抽取網(wǎng)頁(yè)中的有效信息。包裝器是一個(gè)程序,該程序基于頁(yè)面的布局特征,針對(duì)特定的一類(lèi)網(wǎng)頁(yè),編寫(xiě)解析器,解析出正文在頁(yè)面中的位置。這種方法的優(yōu)點(diǎn)是實(shí)現(xiàn)簡(jiǎn)單,文本抽取準(zhǔn)確率極高。 缺點(diǎn)是通用性差,每一類(lèi)網(wǎng)頁(yè)都要編寫(xiě)特定的包裝器,不適合大規(guī)模頁(yè)面的抽取,另外如果某一類(lèi)頁(yè)面發(fā)生了變化,那么該類(lèi)頁(yè)面的包裝器就會(huì)失效,必須重新修改。2、基于視覺(jué)特征的網(wǎng)頁(yè)正文提取方法微軟亞洲研究中心的研究員DengCai等提出了一種基于視覺(jué)的語(yǔ)義塊提取的方法,主要思路是依據(jù)DOM樹(shù)結(jié)構(gòu)將整個(gè)頁(yè)面逐層迭代分解成語(yǔ)義塊,通過(guò)他們提出的VIPS算法給每個(gè)語(yǔ)義塊賦DOC (Degree of Coherence)值, 該值越大說(shuō)明該語(yǔ)義塊內(nèi)部?jī)?nèi)容之間的緊密程度越大。然后檢測(cè)語(yǔ)義塊之間的分隔條,并對(duì)其設(shè)置權(quán)重,再?gòu)臋?quán)重最小的分隔條開(kāi)始合并分隔條兩側(cè)的頁(yè)面塊,這個(gè)過(guò)程迭代進(jìn)行, 直至構(gòu)建出頁(yè)面的整個(gè)內(nèi)容。這個(gè)方法的優(yōu)點(diǎn)是通用性強(qiáng),從人對(duì)于網(wǎng)頁(yè)語(yǔ)義塊視覺(jué)感知的角度進(jìn)行分析,是目前最接近人類(lèi)認(rèn)知的方法。其準(zhǔn)確性由于目前為止還沒(méi)有成熟的應(yīng)用,所以還無(wú)法檢驗(yàn)。 它的缺點(diǎn)是實(shí)現(xiàn)過(guò)程過(guò)于復(fù)雜,由于網(wǎng)頁(yè)視覺(jué)特點(diǎn)的復(fù)雜性,導(dǎo)致VIPS具有算法規(guī)則過(guò)于復(fù)雜和性能低等缺陷,僅僅是DOC值的賦值過(guò)程就要遵循12條規(guī)則,在實(shí)際應(yīng)用中可能還會(huì)增加更多的規(guī)則,因此,基于視覺(jué)特征的網(wǎng)頁(yè)正文提取方法目前還停留在理論層面上,有待實(shí)踐的檢驗(yàn)。3、基于統(tǒng)計(jì)的網(wǎng)頁(yè)正文提取方法該方法對(duì)網(wǎng)頁(yè)特征從不同角度進(jìn)行統(tǒng)計(jì)分析, 采用統(tǒng)計(jì)學(xué)原理進(jìn)行正文特征分析并抽取正文。這種方法的優(yōu)點(diǎn)是通用性強(qiáng)、可維護(hù)性好。缺點(diǎn)是文本抽取的準(zhǔn)確率有限,實(shí)際應(yīng)用的系統(tǒng)往往會(huì)借鑒基于模板方法的經(jīng)驗(yàn),能夠在一定程度上提高文本抽取的準(zhǔn)確率。

發(fā)明內(nèi)容
本發(fā)明的主要目的在于提供一種基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法和裝置,以自適應(yīng)大多數(shù)網(wǎng)頁(yè)的正文提取需求。為了達(dá)到上述目的,本發(fā)明提供了一種基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法, 包括以下步驟解析步驟將網(wǎng)頁(yè)解析為DOM樹(shù)結(jié)構(gòu),按行分析網(wǎng)頁(yè),得到每一行的純文本長(zhǎng)度;排序步驟對(duì)該DOM樹(shù)中的所有行根據(jù)純文本長(zhǎng)度由高到低進(jìn)行排序;回溯步驟從純文本長(zhǎng)度最長(zhǎng)的行開(kāi)始,依次取出該DOM樹(shù)中的行,以該行中純文本最長(zhǎng)的文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯,將與該文本節(jié)點(diǎn)具有相同特征值的所有文本節(jié)點(diǎn)放到一節(jié)點(diǎn)組中,并計(jì)算該節(jié)點(diǎn)組的文本集中度,取文本集中度最高的節(jié)點(diǎn)組作為目標(biāo)節(jié)點(diǎn)組;回溯結(jié)果分析步驟將目標(biāo)節(jié)點(diǎn)組中的純文本率大于純文本率閾值的目標(biāo)節(jié)點(diǎn)定為正文候選節(jié)點(diǎn);輸出步驟輸出正文候選節(jié)點(diǎn)。實(shí)施時(shí),在回溯步驟中,所述特征值包括標(biāo)簽名和屬性。實(shí)施時(shí),所述回溯步驟還包括當(dāng)所述特征值包括ID屬性時(shí),將所述ID屬性的屬性值中的數(shù)字去除。實(shí)施時(shí),本發(fā)明所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法在解析步驟和排序步驟之間還包含整理步驟;所述整理步驟包括將網(wǎng)頁(yè)中純文本長(zhǎng)度為零的行刪除,所述純文本長(zhǎng)度為零的行為僅有換行符的行。實(shí)施時(shí),在回溯步驟中,以該行中純文本最長(zhǎng)的文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯步驟包括如果該行有多個(gè)文本節(jié)點(diǎn),且該多個(gè)文本節(jié)點(diǎn)的純文本長(zhǎng)度不同,則以該行中純文本最長(zhǎng)的文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯;如果該行有多個(gè)文本節(jié)點(diǎn),且該多個(gè)文本節(jié)點(diǎn)的純文本長(zhǎng)度相同,則任選該多個(gè)文本節(jié)點(diǎn)中的一個(gè)文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯;如果該行僅有一個(gè)文本節(jié)點(diǎn),則以該文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯。實(shí)施時(shí),本發(fā)明所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法在回溯結(jié)果分析步驟和輸出步驟之間還包括判斷步驟;判斷步驟包括判斷一正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容是否相似, 如果相似則結(jié)束,否則轉(zhuǎn)至輸出步驟;在判斷步驟中,所述判斷一正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容是否相似步驟包括判斷一正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容的相似度是否大于一預(yù)先設(shè)定的相似度閾值。實(shí)施時(shí),在判斷步驟中,判斷一正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容是否相似步驟包括判斷該正文候選節(jié)點(diǎn)的純文本長(zhǎng)度是否大于純文本長(zhǎng)度閾值,如果是則直接輸出該正文候選節(jié)點(diǎn),否則采用編輯距離算法計(jì)算該正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)之間的相似度,根據(jù)該相似度是否大于所述相似度閾值以判斷該正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容是否相似。
實(shí)施時(shí),在判斷步驟中,當(dāng)所述目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)數(shù)大于5時(shí),采用編輯距離算法計(jì)算該正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)之間的相似度步驟包括采用編輯距離算法計(jì)算該正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的兩端節(jié)點(diǎn)和中間三個(gè)節(jié)點(diǎn)之間的相似度。實(shí)施時(shí),判斷步驟還包括判斷該正文候選節(jié)點(diǎn)的特征值是否含有隱藏屬性,如果含有則結(jié)束,否則轉(zhuǎn)至輸出步驟。實(shí)施時(shí),本發(fā)明所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法在回溯結(jié)果分析步驟和判斷步驟之間還包括已發(fā)現(xiàn)純文本率判斷步驟;已發(fā)現(xiàn)純文本率判斷步驟包括判斷當(dāng)前已發(fā)現(xiàn)純文本長(zhǎng)度占全文純文本長(zhǎng)度的比例是否小于一預(yù)先設(shè)定的已發(fā)現(xiàn)純文本率閾值,如果是則轉(zhuǎn)至回溯結(jié)果分析步驟,否則轉(zhuǎn)至判斷步驟。實(shí)施時(shí),在回溯結(jié)果分析步驟中,純文本率閾值是50% ;在判斷步驟中,所述相似度閾值是50 % ;在所述已發(fā)現(xiàn)純文本率判斷步驟中,所述已發(fā)現(xiàn)純文本率閾值是60 %,所述純文本長(zhǎng)度閾值是100。本發(fā)明還提供了一種基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取裝置,包括依次連接的解析模塊,排序模塊、回溯模塊、回溯結(jié)果分析模塊和輸出模塊,其中,所述解析模塊,用于將網(wǎng)頁(yè)解析為DOM樹(shù)結(jié)構(gòu),按行分析網(wǎng)頁(yè),得到每一行的純文本長(zhǎng)度;所述排序模塊,用于對(duì)該DOM樹(shù)中的所有行根據(jù)純文本長(zhǎng)度由高到低進(jìn)行排序;所述回溯模塊,用于從純文本長(zhǎng)度最長(zhǎng)的行開(kāi)始,依次取出該DOM樹(shù)中的行,以該行中純文本最長(zhǎng)的文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯,將與該文本節(jié)點(diǎn)具有相同特征值的所有文本節(jié)點(diǎn)放到一節(jié)點(diǎn)組中,并計(jì)算該節(jié)點(diǎn)組的文本集中度,取文本集中度最高的節(jié)點(diǎn)組作為目標(biāo)節(jié)點(diǎn)組;所述回溯結(jié)果分析模塊,用于將目標(biāo)節(jié)點(diǎn)組中的純文本率大于純文本率閾值的目標(biāo)節(jié)點(diǎn)定為正文候選節(jié)點(diǎn);所述輸出模塊,用于輸出正文候選節(jié)點(diǎn)。實(shí)施時(shí),所述特征值包括標(biāo)簽名和屬性。實(shí)施時(shí),所述回溯模塊還用于當(dāng)所述特征值包括ID屬性時(shí)將所述ID屬性的屬性值中的數(shù)字去除。實(shí)施時(shí),本發(fā)明所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取裝置還包括整理模塊, 其連接于解析模塊和排序模塊之間;所述整理模塊用于將網(wǎng)頁(yè)中純文本長(zhǎng)度為零的行刪除,所述純文本長(zhǎng)度為零的行為僅有換行符的行。實(shí)施時(shí),所述回溯模塊以該行中純文本最長(zhǎng)的文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯步驟包括如果該行有多個(gè)文本節(jié)點(diǎn),且該多個(gè)文本節(jié)點(diǎn)的純文本長(zhǎng)度不同,則所述回溯模塊以該行中純文本最長(zhǎng)的文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯;如果該行有多個(gè)文本節(jié)點(diǎn),且該多個(gè)文本節(jié)點(diǎn)的純文本長(zhǎng)度相同,則所述回溯模塊任選該多個(gè)文本節(jié)點(diǎn)中的一個(gè)文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯;如果該行僅有一個(gè)文本節(jié)點(diǎn),則所述回溯模塊以該文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯。
實(shí)施時(shí),本發(fā)明所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取裝置還包括判斷模塊, 其連接于回溯結(jié)果分析模塊和輸出模塊之間;所述判斷模塊,用于判斷一正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容是否相似,如果相似則控制關(guān)閉所述輸出模塊,否則開(kāi)啟所述輸出模塊;所述判斷模塊判斷一正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容是否相似步驟包括所述判斷模塊判斷一正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容的相似度是否大于一預(yù)先設(shè)定的相似度閾值。實(shí)施時(shí),所述判斷模塊判斷一正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容是否相似步驟包括所述判斷模塊判斷該正文候選節(jié)點(diǎn)的純文本長(zhǎng)度是否大于純文本長(zhǎng)度閾值,如果是則直接輸出該正文候選節(jié)點(diǎn),否則采用編輯距離算法計(jì)算該正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)之間的相似度,根據(jù)該相似度是否大于所述相似度閾值以判斷該正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容是否相似。實(shí)施時(shí),當(dāng)所述目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)數(shù)大于5時(shí),所述判斷模塊采用編輯距離算法計(jì)算該正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)之間的相似度步驟包括所述判斷模塊采用編輯距離算法計(jì)算該正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的兩端節(jié)點(diǎn)和中間三個(gè)節(jié)點(diǎn)之間的相似度。實(shí)施時(shí),所述判斷模塊還用于判斷該正文候選節(jié)點(diǎn)的特征值是否含有隱藏屬性, 如果含有則控制關(guān)閉所述輸出模塊,否則控制開(kāi)啟所述輸出模塊。實(shí)施時(shí),本發(fā)明所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取裝置還包括已發(fā)現(xiàn)純文本率判斷模塊,其連接于所述回溯結(jié)果分析模塊和所述判斷模塊之間;所述已發(fā)現(xiàn)純文本率判斷模塊,用于判斷當(dāng)前已發(fā)現(xiàn)純文本長(zhǎng)度占全文純文本長(zhǎng)度的比例是否小于一預(yù)先設(shè)定的已發(fā)現(xiàn)純文本率閾值,如果是則控制開(kāi)啟所述回溯結(jié)果分析模塊,否則控制開(kāi)啟所述判斷模塊。實(shí)施時(shí),所述純文本率閾值是50%,所述相似度閾值是50%,所述已發(fā)現(xiàn)純文本率閾值是60%,所述純文本長(zhǎng)度閾值是100。與現(xiàn)有技術(shù)相比,本發(fā)明所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法和裝置, 通用性強(qiáng)、可維護(hù)性好、適用面廣,可自適應(yīng)大多數(shù)網(wǎng)頁(yè)的正文提取需求。


圖1是本發(fā)明所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法的一實(shí)施例的流程圖;圖2是本發(fā)明所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取裝置的一實(shí)施例的結(jié)構(gòu)框圖。
具體實(shí)施例方式本發(fā)明所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法和裝置,通過(guò)統(tǒng)計(jì)網(wǎng)頁(yè)中各行的純文本長(zhǎng)度,并通過(guò)回溯找到正文所在節(jié)點(diǎn)。網(wǎng)頁(yè)的正文內(nèi)容大多數(shù)都有一個(gè)獨(dú)享標(biāo)簽,該獨(dú)享標(biāo)簽是正文所在標(biāo)簽,一般情況下,該獨(dú)享標(biāo)簽中只含有正文內(nèi)容,網(wǎng)頁(yè)正文內(nèi)容是由一個(gè)或多個(gè)獨(dú)享標(biāo)簽組成,因此, 提取網(wǎng)頁(yè)正文的重點(diǎn)即由找文本變?yōu)檎要?dú)享標(biāo)簽。本發(fā)明通過(guò)計(jì)算文本集中率來(lái)找出網(wǎng)頁(yè)正文的獨(dú)享標(biāo)簽,文本集中率表示為純文本長(zhǎng)度和文本節(jié)點(diǎn)個(gè)數(shù)的比值,文本節(jié)點(diǎn)越少而純文本越多則文本集中率越大,反之亦然。所述純文本是指網(wǎng)頁(yè)中除去標(biāo)簽、樣式代碼、腳本代碼、鏈接、表單控件的內(nèi)容。在實(shí)際應(yīng)用中,文本集中率的比較是以節(jié)點(diǎn)組為單位進(jìn)行的,該節(jié)點(diǎn)組指的是多個(gè)節(jié)點(diǎn)放在一起的組合。在本發(fā)明中,如果正文只分布在一個(gè)獨(dú)享節(jié)點(diǎn)中則節(jié)點(diǎn)組的長(zhǎng)度為1,當(dāng)正文分布在η個(gè)獨(dú)享節(jié)點(diǎn)中時(shí),節(jié)點(diǎn)組長(zhǎng)度為η。所述獨(dú)享節(jié)點(diǎn)是最大程度包含純文本內(nèi)容的節(jié)點(diǎn),一個(gè)獨(dú)享節(jié)點(diǎn)被某一段正文所獨(dú)自占有。當(dāng)有一個(gè)文本節(jié)點(diǎn)時(shí),判斷其是不是獨(dú)享節(jié)點(diǎn),分別計(jì)算本節(jié)點(diǎn)和父節(jié)點(diǎn)的文本集中率并比對(duì),如果父節(jié)點(diǎn)比本節(jié)點(diǎn)大,則繼續(xù)分析父節(jié)點(diǎn),一直回溯遇到文本集中率最大的節(jié)點(diǎn),最大文本集中率的節(jié)點(diǎn)我們認(rèn)為是獨(dú)享節(jié)點(diǎn),其中添加了一些規(guī)則如果文本節(jié)點(diǎn)是<span>或
則在比較時(shí)忽略本身的文本集中率。例如,如果有幾個(gè)含有純文本的節(jié)點(diǎn)簇?fù)碓谝黄?,那么這幾個(gè)節(jié)點(diǎn)的父節(jié)點(diǎn)就很有可能是獨(dú)享節(jié)點(diǎn)。在找到網(wǎng)頁(yè)正文的獨(dú)享節(jié)點(diǎn)后,就要輸出該獨(dú)享節(jié)點(diǎn),此時(shí)輸出的獨(dú)享節(jié)點(diǎn)可能會(huì)含有噪音,對(duì)于不同類(lèi)型的噪音本發(fā)明使用了相應(yīng)的規(guī)則進(jìn)行去噪,規(guī)則列舉如下規(guī)則一(純文本率規(guī)則)如果程序誤判獨(dú)享節(jié)點(diǎn)則會(huì)造成大量噪音出現(xiàn),被誤判的節(jié)點(diǎn)多為廣告鏈接節(jié)點(diǎn)或其他非正文節(jié)點(diǎn),這些節(jié)點(diǎn)的特征是含有一定量的純文本或文本集中率較高,想要排除它們的最好方法是計(jì)算這些節(jié)點(diǎn)的純文本率,所述純文本率是指純文本占所有文本的比例,該所有文本只包括純文本和鏈接文本,因此純文本率表示為純文本長(zhǎng)度和該所有文本長(zhǎng)度的比值。如果一節(jié)點(diǎn)的鏈接文本長(zhǎng)度大于純文本長(zhǎng)度,則認(rèn)為該節(jié)點(diǎn)為假的獨(dú)享節(jié)點(diǎn), 則將其拋棄。規(guī)則二(相似節(jié)點(diǎn)規(guī)則)出現(xiàn)噪音的另一個(gè)原因是獨(dú)享節(jié)點(diǎn)可能會(huì)包含一些無(wú)用信息,如評(píng)論式網(wǎng)頁(yè)中的用戶(hù)信息。所述評(píng)論式網(wǎng)頁(yè)是指有不連續(xù)的短篇文字的網(wǎng)頁(yè),文本內(nèi)容分布分散。如果該用戶(hù)信息展示的都是一些用戶(hù)屬性值,而且該些用戶(hù)屬性值大多相似,則該用戶(hù)信息不能算有效信息。本發(fā)明利用相似度判斷網(wǎng)頁(yè)內(nèi)獨(dú)享節(jié)點(diǎn)組中的節(jié)點(diǎn)的內(nèi)容的相似度是否大于一預(yù)先設(shè)定的閾值(該閾值例如可以為50%),如果是則拋棄該節(jié)點(diǎn)。如果有很多需要比較的節(jié)點(diǎn),無(wú)需全部?jī)蓛杀容^一遍,只需要均勻地比較其中幾個(gè)便可以說(shuō)明全部情況(如只比較兩頭的節(jié)點(diǎn)和中間的節(jié)點(diǎn))。所述獨(dú)享節(jié)點(diǎn)組是指分析出來(lái)獨(dú)享節(jié)點(diǎn)后,程序會(huì)把屬性名稱(chēng)和屬性相同(刨除了屬性名為id屬性)的獨(dú)享節(jié)點(diǎn)分成獨(dú)享節(jié)點(diǎn)組,相似節(jié)點(diǎn)的處理都是在獨(dú)享節(jié)點(diǎn)組內(nèi)進(jìn)行的。在本發(fā)明中,相似度的計(jì)算引用了文本編輯距離算法,該算法大致描述如下A和B文本編輯距離就是A變成B要做的增、刪、改的操作次數(shù),這個(gè)次數(shù)越大說(shuō)明 A和B的差別越大。該算法對(duì)于短文本的文本距離計(jì)算非常適合,因?yàn)榇笪谋?文本長(zhǎng)度大于100的文本)的比較很耗性能而且大文本在網(wǎng)頁(yè)的地位肯定重要,所以如果是大文本,則規(guī)定不用比較直接輸出。規(guī)則三(隱藏屬性規(guī)則):噪音的另一個(gè)原因是輸出了應(yīng)該隱藏的正文內(nèi)容,在正文提取中,不得不考慮文本在瀏覽器的實(shí)際效果,如果該文本存在但不顯示,則認(rèn)為它不是有效信息最起碼不是這篇網(wǎng)頁(yè)的中心話(huà)題,因此在正文提取時(shí)也要排除掉。不顯示在瀏覽器則就是隱藏屬性的作用,檢查標(biāo)簽屬性中是否含有display none或visibi 1 ity hidden便可以達(dá)到此目的。如圖1所示,本發(fā)明所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法的一實(shí)施例, 包括以下步驟解析步驟11 將網(wǎng)頁(yè)解析為DOM樹(shù)結(jié)構(gòu),按行分析網(wǎng)頁(yè),得到每一行的純文本長(zhǎng)度;排序步驟12 對(duì)該DOM樹(shù)中的所有行根據(jù)純文本長(zhǎng)度由高到低進(jìn)行排序;回溯步驟13 從純文本長(zhǎng)度最長(zhǎng)的行開(kāi)始,依次取出該DOM樹(shù)中的行,以該行中純文本最長(zhǎng)的文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯,將與該文本節(jié)點(diǎn)具有相同特征值的所有文本節(jié)點(diǎn)放到一節(jié)點(diǎn)組中,并計(jì)算該節(jié)點(diǎn)組的文本集中度,取文本集中度最高的節(jié)點(diǎn)組作為目標(biāo)節(jié)點(diǎn)組;回溯結(jié)果分析步驟14 將目標(biāo)節(jié)點(diǎn)組中的純文本率比純文本率閾值低的目標(biāo)節(jié)點(diǎn)篩掉,保留純文本率大于純文本率閾值的目標(biāo)節(jié)點(diǎn),并將其定位正文候選節(jié)點(diǎn);輸出步驟15 輸出該正文候選節(jié)點(diǎn)的內(nèi)容。實(shí)施時(shí),在回溯步驟13中,所述特征值包括標(biāo)簽名和屬性。實(shí)施時(shí),所述回溯步驟13還包括當(dāng)所述特征值包括ID屬性時(shí),將所述ID屬性的屬性值中的數(shù)字去除。實(shí)施時(shí),在解析步驟11和排序步驟12之間還包含整理步驟;所述整理步驟包括將網(wǎng)頁(yè)中純文本長(zhǎng)度為零的行刪除,所述純文本長(zhǎng)度為零的行為僅有換行符的行。實(shí)施時(shí),在回溯步驟中13,以該行中純文本最長(zhǎng)的文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯步驟包括如果該行有多個(gè)文本節(jié)點(diǎn),且該多個(gè)文本節(jié)點(diǎn)的純文本長(zhǎng)度不同,則以該行中純文本最長(zhǎng)的文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯;如果該行有多個(gè)文本節(jié)點(diǎn),且該多個(gè)文本節(jié)點(diǎn)的純文本長(zhǎng)度相同,則任選該多個(gè)文本節(jié)點(diǎn)中的一個(gè)文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯;如果該行僅有一個(gè)文本節(jié)點(diǎn),則以該文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯。實(shí)施時(shí),在回溯結(jié)果分析步驟14和輸出步驟15之間還包括判斷步驟;判斷步驟包括判斷一正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容是否相似, 如果相似則結(jié)束,否則轉(zhuǎn)至輸出步驟15 ;在判斷步驟中,所述判斷一正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容是否相似步驟包括判斷一正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容的相似度是否大于一預(yù)先設(shè)定的相似度閾值。實(shí)施時(shí),在判斷步驟中,判斷一正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容是否相似步驟包括判斷該正文候選節(jié)點(diǎn)的純文本長(zhǎng)度是否大于純文本長(zhǎng)度閾值,如果是則直接輸出該正文候選節(jié)點(diǎn),否則采用編輯距離算法計(jì)算該正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)之間的相似度,根據(jù)該相似度是否大于所述相似度閾值以判斷該正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容是否相似。實(shí)施時(shí),在判斷步驟中,當(dāng)所述目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)數(shù)大于5時(shí),采用編輯距離算法計(jì)算該正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)之間的相似度步驟包括采用編輯距離算法計(jì)算該正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的兩端節(jié)點(diǎn)和中間三個(gè)節(jié)點(diǎn)之間的相似度。實(shí)施時(shí),判斷步驟還包括判斷該正文候選節(jié)點(diǎn)的特征值是否含有隱藏屬性,如果含有則結(jié)束,否則轉(zhuǎn)至輸出步驟。實(shí)施時(shí),在回溯結(jié)果分析步驟14和判斷步驟之間還包括已發(fā)現(xiàn)純文本率判斷步驟;已發(fā)現(xiàn)純文本率判斷步驟包括判斷當(dāng)前已發(fā)現(xiàn)純文本長(zhǎng)度占全文純文本長(zhǎng)度的比例是否小于一預(yù)先設(shè)定的已發(fā)現(xiàn)純文本率閾值,如果是則轉(zhuǎn)至回溯結(jié)果分析步驟14,否則轉(zhuǎn)至判斷步驟。實(shí)施時(shí),在回溯結(jié)果分析步驟14中,純文本率閾值是50% ;在判斷步驟中,所述相似度閾值是50 % ;在所述已發(fā)現(xiàn)純文本率判斷步驟中,所述已發(fā)現(xiàn)純文本率閾值是60 %,所述純文本長(zhǎng)度閾值是100。根據(jù)另一種具體實(shí)施方式
,本發(fā)明所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法包括以下步驟步驟一將網(wǎng)頁(yè)解析成DOM樹(shù)結(jié)構(gòu),例如可以使用開(kāi)源組件HtmlParser將網(wǎng)頁(yè)解析成DOM樹(shù)結(jié)構(gòu)。步驟二(統(tǒng)計(jì)與整理步驟)1、統(tǒng)計(jì)節(jié)點(diǎn),把相同特征值的節(jié)點(diǎn)歸為一類(lèi);所述特征值包括標(biāo)簽名和節(jié)點(diǎn)的所有屬性;把網(wǎng)頁(yè)解析成DOM樹(shù)后,每個(gè)標(biāo)簽都可以認(rèn)為是一個(gè)節(jié)點(diǎn),標(biāo)簽的屬性就是節(jié)點(diǎn)的屬性。然而對(duì)于含有ID屬性的標(biāo)簽要特殊處理,因?yàn)橛行┱搲W(wǎng)頁(yè)中的帖子所在節(jié)點(diǎn)的ID多為增量的編號(hào),如
<div id="replyl">
回復(fù)1; </div>
<div id="replylOO">
回復(fù)100; </div>
本實(shí)施例采取的方法是把ID屬性值中的數(shù)字去掉,即<div id = " replyl" >的特征值為 “div id = reply".,2、按行分析網(wǎng)頁(yè),得到每一行的純文本長(zhǎng)度。統(tǒng)計(jì)全文純文本長(zhǎng)度WholeLength, 這個(gè)過(guò)程也在解析網(wǎng)頁(yè)的過(guò)程中進(jìn)行;在解析網(wǎng)頁(yè)的同時(shí)得到原格式每一行的純文本長(zhǎng)度,DOM樹(shù)的解析過(guò)程是把每個(gè)標(biāo)簽和文本都轉(zhuǎn)換成節(jié)點(diǎn),并保存節(jié)點(diǎn)關(guān)系。在解析過(guò)程中, 換行符(\n)可以告知每一行的結(jié)束。3.把一些空文本行(只含換行符)以及長(zhǎng)度很小的文本行進(jìn)行排除,用以提高效率,然后對(duì)所有的行根據(jù)純文本長(zhǎng)度由高到低排序。步驟三(回溯與文本集中度計(jì)算步驟)1.依次取出一行(這是一個(gè)遞歸過(guò)程,從最長(zhǎng)的行開(kāi)始,取過(guò)的不再取),找出行內(nèi)最重要的文本節(jié)點(diǎn);如果這行有多個(gè)節(jié)點(diǎn),則純文本最長(zhǎng)的節(jié)點(diǎn)是最重要的節(jié)點(diǎn),如果改行只是某個(gè)節(jié)點(diǎn)的一部分純文本,則這個(gè)該節(jié)點(diǎn)就是最重要的節(jié)點(diǎn)。以該行內(nèi)最重要的節(jié)點(diǎn)為起點(diǎn)回溯,每回溯一層節(jié)點(diǎn),找出與該節(jié)點(diǎn)相同特征值的所有節(jié)點(diǎn)(前面已作節(jié)點(diǎn)統(tǒng)計(jì)),放到一個(gè)節(jié)點(diǎn)組中。其中,所述最重要的節(jié)點(diǎn)是指如果這行有多個(gè)節(jié)點(diǎn),則純文本最長(zhǎng)的節(jié)點(diǎn)是最重要的節(jié)點(diǎn);如果該行只是某個(gè)節(jié)點(diǎn)的一部分純文本,則這個(gè)該節(jié)點(diǎn)就是最重要的節(jié)點(diǎn)。每層節(jié)點(diǎn)泛指節(jié)點(diǎn)回溯過(guò)程中遇到的每個(gè)節(jié)點(diǎn);如果取出的是第三行,就以第三行中最重要的節(jié)點(diǎn)為起點(diǎn),回溯它的父節(jié)點(diǎn),回溯在DOM節(jié)點(diǎn)中表達(dá)的意思是指找父節(jié)點(diǎn);2.計(jì)算節(jié)點(diǎn)組文本集中度。文本集中度是節(jié)點(diǎn)組的所含純文本長(zhǎng)度與節(jié)點(diǎn)的總個(gè)數(shù)的比值。公式表示為
Concentration(文本集中度^她^夠;!正^度)
NodeCount(節(jié)點(diǎn)個(gè)數(shù))回溯完成后(一般回溯至<body>標(biāo)簽即算完成),取此次回溯過(guò)程中遇到的最大文本集中度的節(jié)點(diǎn)組,稱(chēng)為目標(biāo)節(jié)點(diǎn)組。3.在回溯過(guò)程中要記錄已處理過(guò)的節(jié)點(diǎn)特征值,避免下次回溯重復(fù)處理。步驟四(回溯結(jié)果分析步驟)1.迭代回溯返回的目標(biāo)節(jié)點(diǎn)組,計(jì)算節(jié)點(diǎn)組的純文本率,純文本率是純文本長(zhǎng)度與含有鏈接的純文本長(zhǎng)度的比值
PlarnTextRatromXifm ~嚇輸
料)-MText(總文本長(zhǎng)度)其中鏈接文本長(zhǎng)度是指純文本長(zhǎng)度+鏈接文本長(zhǎng)度。如果PlainTextRatio大于閾值R(R的取值一般為0. 5比較合適。這個(gè)可根據(jù)需求而定,當(dāng)寧缺毋濫時(shí)該值可設(shè)的大一點(diǎn),反之亦然)則把該節(jié)點(diǎn)定為正文候選節(jié)點(diǎn),等待抽取。如果PlainTextRatio小于R 則認(rèn)為該節(jié)點(diǎn)是噪音節(jié)點(diǎn),將其拋棄。2.統(tǒng)計(jì)當(dāng)前已發(fā)現(xiàn)純文本長(zhǎng)度kenLength占全文純文本W(wǎng)holeLength的比例,所述已發(fā)現(xiàn)純文本長(zhǎng)度kenLength為所述正文候選節(jié)點(diǎn)內(nèi)的純文本長(zhǎng)度;該比例表示為SeenRatio
權(quán)利要求
1.一種基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法,其特征在于,包括以下步驟 解析步驟將網(wǎng)頁(yè)解析為DOM樹(shù)結(jié)構(gòu),按行分析網(wǎng)頁(yè),得到每一行的純文本長(zhǎng)度; 排序步驟對(duì)該DOM樹(shù)中的所有行根據(jù)純文本長(zhǎng)度由高到低進(jìn)行排序;回溯步驟從純文本長(zhǎng)度最長(zhǎng)的行開(kāi)始,依次取出該DOM樹(shù)中的行,以該行中純文本最長(zhǎng)的文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯,將與該文本節(jié)點(diǎn)具有相同特征值的所有文本節(jié)點(diǎn)放到一節(jié)點(diǎn)組中,并計(jì)算該節(jié)點(diǎn)組的文本集中度,取文本集中度最高的節(jié)點(diǎn)組作為目標(biāo)節(jié)點(diǎn)組;回溯結(jié)果分析步驟將目標(biāo)節(jié)點(diǎn)組中的純文本率大于純文本率閾值的目標(biāo)節(jié)點(diǎn)定為正文候選節(jié)點(diǎn);輸出步驟輸出正文候選節(jié)點(diǎn)。
2.如權(quán)利要求1所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法,其特征在于,在回溯步驟中,所述特征值包括標(biāo)簽名和屬性。
3.如權(quán)利要求2所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法,其特征在于,所述回溯步驟還包括當(dāng)所述特征值包括ID屬性時(shí),將所述ID屬性的屬性值中的數(shù)字去除。
4.如權(quán)利要求1所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法,其特征在于,在解析步驟和排序步驟之間還包含整理步驟;所述整理步驟包括將網(wǎng)頁(yè)中純文本長(zhǎng)度為零的行刪除,所述純文本長(zhǎng)度為零的行為僅有換行符的行。
5.如權(quán)利要求1所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法,其特征在于,在回溯步驟中,以該行中純文本最長(zhǎng)的文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯步驟包括如果該行有多個(gè)文本節(jié)點(diǎn),且該多個(gè)文本節(jié)點(diǎn)的純文本長(zhǎng)度不同,則以該行中純文本最長(zhǎng)的文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯;如果該行有多個(gè)文本節(jié)點(diǎn),且該多個(gè)文本節(jié)點(diǎn)的純文本長(zhǎng)度相同,則任選該多個(gè)文本節(jié)點(diǎn)中的一個(gè)文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯;如果該行僅有一個(gè)文本節(jié)點(diǎn),則以該文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯。
6.如權(quán)利要求1所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法,其特征在于,在回溯結(jié)果分析步驟和輸出步驟之間還包括判斷步驟;判斷步驟包括判斷一正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容是否相似,如果相似則結(jié)束,否則轉(zhuǎn)至輸出步驟;在判斷步驟中,所述判斷一正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容是否相似步驟包括判斷一正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容的相似度是否大于一預(yù)先設(shè)定的相似度閾值。
7.如權(quán)利要求6所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法,其特征在于,在判斷步驟中,判斷一正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容是否相似步驟包括判斷該正文候選節(jié)點(diǎn)的純文本長(zhǎng)度是否大于純文本長(zhǎng)度閾值,如果是則直接輸出該正文候選節(jié)點(diǎn),否則采用編輯距離算法計(jì)算該正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)之間的相似度,根據(jù)該相似度是否大于所述相似度閾值以判斷該正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容是否相似。
8.如權(quán)利要求7所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法,其特征在于,在判斷步驟中,當(dāng)所述目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)數(shù)大于5時(shí),采用編輯距離算法計(jì)算該正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)之間的相似度步驟包括采用編輯距離算法計(jì)算該正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的兩端節(jié)點(diǎn)和中間三個(gè)節(jié)點(diǎn)之間的相似度。
9.如權(quán)利要求6至8中任一權(quán)利要求所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法, 其特征在于,判斷步驟還包括判斷該正文候選節(jié)點(diǎn)的特征值是否含有隱藏屬性,如果含有則結(jié)束,否則轉(zhuǎn)至輸出步驟。
10.如權(quán)利要求6至8中任一權(quán)利要求所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法, 其特征在于,在回溯結(jié)果分析步驟和判斷步驟之間還包括已發(fā)現(xiàn)純文本率判斷步驟;已發(fā)現(xiàn)純文本率判斷步驟包括判斷當(dāng)前已發(fā)現(xiàn)純文本長(zhǎng)度占全文純文本長(zhǎng)度的比例是否小于一預(yù)先設(shè)定的已發(fā)現(xiàn)純文本率閾值,如果是則轉(zhuǎn)至回溯結(jié)果分析步驟,否則轉(zhuǎn)至判斷步驟。
11.如權(quán)利要求10所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法,其特征在于,在回溯結(jié)果分析步驟中,純文本率閾值是50% ;在判斷步驟中,所述相似度閾值是50% ;在所述已發(fā)現(xiàn)純文本率判斷步驟中,所述已發(fā)現(xiàn)純文本率閾值是60%,所述純文本長(zhǎng)度閾值是 100。
12.一種基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取裝置,其特征在于,包括依次連接的解析模塊,排序模塊、回溯模塊、回溯結(jié)果分析模塊和輸出模塊,其中,所述解析模塊,用于將網(wǎng)頁(yè)解析為DOM樹(shù)結(jié)構(gòu),按行分析網(wǎng)頁(yè),得到每一行的純文本長(zhǎng)度;所述排序模塊,用于對(duì)該DOM樹(shù)中的所有行根據(jù)純文本長(zhǎng)度由高到低進(jìn)行排序;所述回溯模塊,用于從純文本長(zhǎng)度最長(zhǎng)的行開(kāi)始,依次取出該DOM樹(shù)中的行,以該行中純文本最長(zhǎng)的文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯,將與該文本節(jié)點(diǎn)具有相同特征值的所有文本節(jié)點(diǎn)放到一節(jié)點(diǎn)組中,并計(jì)算該節(jié)點(diǎn)組的文本集中度,取文本集中度最高的節(jié)點(diǎn)組作為目標(biāo)節(jié) ;^^會(huì)冃. 所述回溯結(jié)果分析模塊,用于將目標(biāo)節(jié)點(diǎn)組中的純文本率大于純文本率閾值的目標(biāo)節(jié)點(diǎn)定為正文候選節(jié)點(diǎn);所述輸出模塊,用于輸出正文候選節(jié)點(diǎn)。
13.如權(quán)利要求12所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取裝置,其特征在于,所述特征值包括標(biāo)簽名和屬性。
14.如權(quán)利要求13所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取裝置,其特征在于,所述回溯模塊還用于當(dāng)所述特征值包括ID屬性時(shí)將所述ID屬性的屬性值中的數(shù)字去除。
15.如權(quán)利要求12所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取裝置,其特征在于,還包括整理模塊,其連接于解析模塊和排序模塊之間;所述整理模塊用于將網(wǎng)頁(yè)中純文本長(zhǎng)度為零的行刪除,所述純文本長(zhǎng)度為零的行為僅有換行符的行。
16.如權(quán)利要求12所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取裝置,其特征在于,所述回溯模塊以該行中純文本最長(zhǎng)的文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯步驟包括如果該行有多個(gè)文本節(jié)點(diǎn),且該多個(gè)文本節(jié)點(diǎn)的純文本長(zhǎng)度不同,則所述回溯模塊以該行中純文本最長(zhǎng)的文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯;如果該行有多個(gè)文本節(jié)點(diǎn),且該多個(gè)文本節(jié)點(diǎn)的純文本長(zhǎng)度相同,則所述回溯模塊任選該多個(gè)文本節(jié)點(diǎn)中的一個(gè)文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯;如果該行僅有一個(gè)文本節(jié)點(diǎn),則所述回溯模塊以該文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯。
17.如權(quán)利要求12所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取裝置,其特征在于,還包括判斷模塊,其連接于回溯結(jié)果分析模塊和輸出模塊之間;所述判斷模塊,用于判斷一正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容是否相似, 如果相似則控制關(guān)閉所述輸出模塊,否則開(kāi)啟所述輸出模塊;所述判斷模塊判斷一正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容是否相似步驟包括所述判斷模塊判斷一正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容的相似度是否大于一預(yù)先設(shè)定的相似度閾值。
18.如權(quán)利要求17所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取裝置,其特征在于,所述判斷模塊判斷一正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容是否相似步驟包括所述判斷模塊判斷該正文候選節(jié)點(diǎn)的純文本長(zhǎng)度是否大于純文本長(zhǎng)度閾值,如果是則直接輸出該正文候選節(jié)點(diǎn),否則采用編輯距離算法計(jì)算該正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)之間的相似度,根據(jù)該相似度是否大于所述相似度閾值以判斷該正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容是否相似。
19.如權(quán)利要求18所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取裝置,其特征在于,當(dāng)所述目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)數(shù)大于5時(shí),所述判斷模塊采用編輯距離算法計(jì)算該正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)之間的相似度步驟包括所述判斷模塊采用編輯距離算法計(jì)算該正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的兩端節(jié)點(diǎn)和中間三個(gè)節(jié)點(diǎn)之間的相似度。
20.如權(quán)利要求17至19中任一權(quán)利要求所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取裝置,其特征在于,所述判斷模塊還用于判斷該正文候選節(jié)點(diǎn)的特征值是否含有隱藏屬性,如果含有則控制關(guān)閉所述輸出模塊,否則控制開(kāi)啟所述輸出模塊。
21.如權(quán)利要求17至19中任一權(quán)利要求所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取裝置,其特征在于,還包括已發(fā)現(xiàn)純文本率判斷模塊,其連接于所述回溯結(jié)果分析模塊和所述判斷模塊之間;所述已發(fā)現(xiàn)純文本率判斷模塊,用于判斷當(dāng)前已發(fā)現(xiàn)純文本長(zhǎng)度占全文純文本長(zhǎng)度的比例是否小于一預(yù)先設(shè)定的已發(fā)現(xiàn)純文本率閾值,如果是則控制開(kāi)啟所述回溯結(jié)果分析模塊,否則控制開(kāi)啟所述判斷模塊。
22.如權(quán)利要求21所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取裝置,其特征在于,純文本率閾值是50 %,所述相似度閾值是50 %,所述已發(fā)現(xiàn)純文本率閾值是60 %,所述純文本長(zhǎng)度閾值是100。
全文摘要
本發(fā)明提供了一種基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法和裝置。所述基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法包括以下步驟將網(wǎng)頁(yè)解析為DOM樹(shù)結(jié)構(gòu),按行分析網(wǎng)頁(yè),得到每一行的純文本長(zhǎng)度;對(duì)該DOM樹(shù)中的所有行根據(jù)純文本長(zhǎng)度由高到低進(jìn)行排序;從純文本長(zhǎng)度最長(zhǎng)的行開(kāi)始,依次取出該DOM樹(shù)中的行,以該行中純文本最長(zhǎng)的文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯,將與該文本節(jié)點(diǎn)具有相同特征值的所有文本節(jié)點(diǎn)放到一節(jié)點(diǎn)組中,并計(jì)算該節(jié)點(diǎn)組的文本集中度,取文本集中度最高的節(jié)點(diǎn)組作為目標(biāo)節(jié)點(diǎn)組;將目標(biāo)節(jié)點(diǎn)組中的純文本率大于純文本率閾值的目標(biāo)節(jié)點(diǎn)定為正文候選節(jié)點(diǎn);輸出正文候選節(jié)點(diǎn)。本發(fā)明通用性強(qiáng)、可維護(hù)性好、適用面廣,可自適應(yīng)大多數(shù)網(wǎng)頁(yè)的正文提取需求。
文檔編號(hào)G06F17/27GK102314520SQ20111032622
公開(kāi)日2012年1月11日 申請(qǐng)日期2011年10月24日 優(yōu)先權(quán)日2011年10月24日
發(fā)明者樊慶沖 申請(qǐng)人:莫雅靜
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1