基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法和裝置的制作方法

文檔序號(hào)：6436328閱讀：227來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專(zhuān)利名稱(chēng)：基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法和裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種正文提取實(shí)現(xiàn)方法和裝置，尤其涉及一種基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法和裝置。
背景技術(shù)：
隨著hternet的不斷發(fā)展，互聯(lián)網(wǎng)內(nèi)的數(shù)據(jù)成指數(shù)型增長(zhǎng)，已經(jīng)成為巨大的、分布廣泛的信息源。這里面不乏我們需要的信息，但許多信息包含在浩如煙海的Web網(wǎng)頁(yè)中，如何幫助人們迅速提取有效信息變成了當(dāng)前最重要的問(wèn)題。在這種背景下，網(wǎng)頁(yè)正文的自動(dòng)化提取也越來(lái)越多受到相關(guān)研究人員研究與關(guān)注，現(xiàn)在主要的研究成果有基于模板的網(wǎng)頁(yè)正文提取方法，基于視覺(jué)特征的網(wǎng)頁(yè)正文提取方法(VIPS)，基于統(tǒng)計(jì)的網(wǎng)頁(yè)正文提取方法等。下面簡(jiǎn)單介紹這三種常用網(wǎng)頁(yè)正文的自動(dòng)化提取方法，并對(duì)每種方法的特點(diǎn)進(jìn)行分析。1、基于模板的網(wǎng)頁(yè)正文提取方法這種方法使用包裝器(Wrapper)來(lái)抽取網(wǎng)頁(yè)中的有效信息。包裝器是一個(gè)程序，該程序基于頁(yè)面的布局特征，針對(duì)特定的一類(lèi)網(wǎng)頁(yè)，編寫(xiě)解析器，解析出正文在頁(yè)面中的位置。這種方法的優(yōu)點(diǎn)是實(shí)現(xiàn)簡(jiǎn)單，文本抽取準(zhǔn)確率極高。缺點(diǎn)是通用性差，每一類(lèi)網(wǎng)頁(yè)都要編寫(xiě)特定的包裝器，不適合大規(guī)模頁(yè)面的抽取，另外如果某一類(lèi)頁(yè)面發(fā)生了變化，那么該類(lèi)頁(yè)面的包裝器就會(huì)失效，必須重新修改。2、基于視覺(jué)特征的網(wǎng)頁(yè)正文提取方法微軟亞洲研究中心的研究員DengCai等提出了一種基于視覺(jué)的語(yǔ)義塊提取的方法，主要思路是依據(jù)DOM樹(shù)結(jié)構(gòu)將整個(gè)頁(yè)面逐層迭代分解成語(yǔ)義塊，通過(guò)他們提出的VIPS算法給每個(gè)語(yǔ)義塊賦DOC (Degree of Coherence)值，該值越大說(shuō)明該語(yǔ)義塊內(nèi)部?jī)?nèi)容之間的緊密程度越大。然后檢測(cè)語(yǔ)義塊之間的分隔條，并對(duì)其設(shè)置權(quán)重，再?gòu)臋?quán)重最小的分隔條開(kāi)始合并分隔條兩側(cè)的頁(yè)面塊，這個(gè)過(guò)程迭代進(jìn)行，直至構(gòu)建出頁(yè)面的整個(gè)內(nèi)容。這個(gè)方法的優(yōu)點(diǎn)是通用性強(qiáng)，從人對(duì)于網(wǎng)頁(yè)語(yǔ)義塊視覺(jué)感知的角度進(jìn)行分析，是目前最接近人類(lèi)認(rèn)知的方法。其準(zhǔn)確性由于目前為止還沒(méi)有成熟的應(yīng)用，所以還無(wú)法檢驗(yàn)。它的缺點(diǎn)是實(shí)現(xiàn)過(guò)程過(guò)于復(fù)雜，由于網(wǎng)頁(yè)視覺(jué)特點(diǎn)的復(fù)雜性，導(dǎo)致VIPS具有算法規(guī)則過(guò)于復(fù)雜和性能低等缺陷，僅僅是DOC值的賦值過(guò)程就要遵循12條規(guī)則，在實(shí)際應(yīng)用中可能還會(huì)增加更多的規(guī)則，因此，基于視覺(jué)特征的網(wǎng)頁(yè)正文提取方法目前還停留在理論層面上，有待實(shí)踐的檢驗(yàn)。3、基于統(tǒng)計(jì)的網(wǎng)頁(yè)正文提取方法該方法對(duì)網(wǎng)頁(yè)特征從不同角度進(jìn)行統(tǒng)計(jì)分析，采用統(tǒng)計(jì)學(xué)原理進(jìn)行正文特征分析并抽取正文。這種方法的優(yōu)點(diǎn)是通用性強(qiáng)、可維護(hù)性好。缺點(diǎn)是文本抽取的準(zhǔn)確率有限，實(shí)際應(yīng)用的系統(tǒng)往往會(huì)借鑒基于模板方法的經(jīng)驗(yàn)，能夠在一定程度上提高文本抽取的準(zhǔn)確率。

發(fā)明內(nèi)容
本發(fā)明的主要目的在于提供一種基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法和裝置，以自適應(yīng)大多數(shù)網(wǎng)頁(yè)的正文提取需求。為了達(dá)到上述目的，本發(fā)明提供了一種基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法，包括以下步驟解析步驟將網(wǎng)頁(yè)解析為DOM樹(shù)結(jié)構(gòu)，按行分析網(wǎng)頁(yè)，得到每一行的純文本長(zhǎng)度；排序步驟對(duì)該DOM樹(shù)中的所有行根據(jù)純文本長(zhǎng)度由高到低進(jìn)行排序；回溯步驟從純文本長(zhǎng)度最長(zhǎng)的行開(kāi)始，依次取出該DOM樹(shù)中的行，以該行中純文本最長(zhǎng)的文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯，將與該文本節(jié)點(diǎn)具有相同特征值的所有文本節(jié)點(diǎn)放到一節(jié)點(diǎn)組中，并計(jì)算該節(jié)點(diǎn)組的文本集中度，取文本集中度最高的節(jié)點(diǎn)組作為目標(biāo)節(jié)點(diǎn)組；回溯結(jié)果分析步驟將目標(biāo)節(jié)點(diǎn)組中的純文本率大于純文本率閾值的目標(biāo)節(jié)點(diǎn)定為正文候選節(jié)點(diǎn)；輸出步驟輸出正文候選節(jié)點(diǎn)。實(shí)施時(shí)，在回溯步驟中，所述特征值包括標(biāo)簽名和屬性。實(shí)施時(shí)，所述回溯步驟還包括當(dāng)所述特征值包括ID屬性時(shí)，將所述ID屬性的屬性值中的數(shù)字去除。實(shí)施時(shí)，本發(fā)明所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法在解析步驟和排序步驟之間還包含整理步驟；所述整理步驟包括將網(wǎng)頁(yè)中純文本長(zhǎng)度為零的行刪除，所述純文本長(zhǎng)度為零的行為僅有換行符的行。實(shí)施時(shí)，在回溯步驟中，以該行中純文本最長(zhǎng)的文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯步驟包括如果該行有多個(gè)文本節(jié)點(diǎn)，且該多個(gè)文本節(jié)點(diǎn)的純文本長(zhǎng)度不同，則以該行中純文本最長(zhǎng)的文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯；如果該行有多個(gè)文本節(jié)點(diǎn)，且該多個(gè)文本節(jié)點(diǎn)的純文本長(zhǎng)度相同，則任選該多個(gè)文本節(jié)點(diǎn)中的一個(gè)文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯；如果該行僅有一個(gè)文本節(jié)點(diǎn)，則以該文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯。實(shí)施時(shí)，本發(fā)明所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法在回溯結(jié)果分析步驟和輸出步驟之間還包括判斷步驟；判斷步驟包括判斷一正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容是否相似，如果相似則結(jié)束，否則轉(zhuǎn)至輸出步驟；在判斷步驟中，所述判斷一正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容是否相似步驟包括判斷一正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容的相似度是否大于一預(yù)先設(shè)定的相似度閾值。實(shí)施時(shí)，在判斷步驟中，判斷一正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容是否相似步驟包括判斷該正文候選節(jié)點(diǎn)的純文本長(zhǎng)度是否大于純文本長(zhǎng)度閾值，如果是則直接輸出該正文候選節(jié)點(diǎn)，否則采用編輯距離算法計(jì)算該正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)之間的相似度，根據(jù)該相似度是否大于所述相似度閾值以判斷該正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容是否相似。
實(shí)施時(shí)，在判斷步驟中，當(dāng)所述目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)數(shù)大于5時(shí)，采用編輯距離算法計(jì)算該正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)之間的相似度步驟包括采用編輯距離算法計(jì)算該正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的兩端節(jié)點(diǎn)和中間三個(gè)節(jié)點(diǎn)之間的相似度。實(shí)施時(shí)，判斷步驟還包括判斷該正文候選節(jié)點(diǎn)的特征值是否含有隱藏屬性，如果含有則結(jié)束，否則轉(zhuǎn)至輸出步驟。實(shí)施時(shí)，本發(fā)明所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法在回溯結(jié)果分析步驟和判斷步驟之間還包括已發(fā)現(xiàn)純文本率判斷步驟；已發(fā)現(xiàn)純文本率判斷步驟包括判斷當(dāng)前已發(fā)現(xiàn)純文本長(zhǎng)度占全文純文本長(zhǎng)度的比例是否小于一預(yù)先設(shè)定的已發(fā)現(xiàn)純文本率閾值，如果是則轉(zhuǎn)至回溯結(jié)果分析步驟，否則轉(zhuǎn)至判斷步驟。實(shí)施時(shí)，在回溯結(jié)果分析步驟中，純文本率閾值是50% ；在判斷步驟中，所述相似度閾值是50 % ；在所述已發(fā)現(xiàn)純文本率判斷步驟中，所述已發(fā)現(xiàn)純文本率閾值是60 %，所述純文本長(zhǎng)度閾值是100。本發(fā)明還提供了一種基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取裝置，包括依次連接的解析模塊，排序模塊、回溯模塊、回溯結(jié)果分析模塊和輸出模塊，其中，所述解析模塊，用于將網(wǎng)頁(yè)解析為DOM樹(shù)結(jié)構(gòu)，按行分析網(wǎng)頁(yè)，得到每一行的純文本長(zhǎng)度；所述排序模塊，用于對(duì)該DOM樹(shù)中的所有行根據(jù)純文本長(zhǎng)度由高到低進(jìn)行排序；所述回溯模塊，用于從純文本長(zhǎng)度最長(zhǎng)的行開(kāi)始，依次取出該DOM樹(shù)中的行，以該行中純文本最長(zhǎng)的文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯，將與該文本節(jié)點(diǎn)具有相同特征值的所有文本節(jié)點(diǎn)放到一節(jié)點(diǎn)組中，并計(jì)算該節(jié)點(diǎn)組的文本集中度，取文本集中度最高的節(jié)點(diǎn)組作為目標(biāo)節(jié)點(diǎn)組；所述回溯結(jié)果分析模塊，用于將目標(biāo)節(jié)點(diǎn)組中的純文本率大于純文本率閾值的目標(biāo)節(jié)點(diǎn)定為正文候選節(jié)點(diǎn)；所述輸出模塊，用于輸出正文候選節(jié)點(diǎn)。實(shí)施時(shí)，所述特征值包括標(biāo)簽名和屬性。實(shí)施時(shí)，所述回溯模塊還用于當(dāng)所述特征值包括ID屬性時(shí)將所述ID屬性的屬性值中的數(shù)字去除。實(shí)施時(shí)，本發(fā)明所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取裝置還包括整理模塊，其連接于解析模塊和排序模塊之間；所述整理模塊用于將網(wǎng)頁(yè)中純文本長(zhǎng)度為零的行刪除，所述純文本長(zhǎng)度為零的行為僅有換行符的行。實(shí)施時(shí)，所述回溯模塊以該行中純文本最長(zhǎng)的文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯步驟包括如果該行有多個(gè)文本節(jié)點(diǎn)，且該多個(gè)文本節(jié)點(diǎn)的純文本長(zhǎng)度不同，則所述回溯模塊以該行中純文本最長(zhǎng)的文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯；如果該行有多個(gè)文本節(jié)點(diǎn)，且該多個(gè)文本節(jié)點(diǎn)的純文本長(zhǎng)度相同，則所述回溯模塊任選該多個(gè)文本節(jié)點(diǎn)中的一個(gè)文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯；如果該行僅有一個(gè)文本節(jié)點(diǎn)，則所述回溯模塊以該文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯。
實(shí)施時(shí)，本發(fā)明所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取裝置還包括判斷模塊，其連接于回溯結(jié)果分析模塊和輸出模塊之間；所述判斷模塊，用于判斷一正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容是否相似，如果相似則控制關(guān)閉所述輸出模塊，否則開(kāi)啟所述輸出模塊；所述判斷模塊判斷一正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容是否相似步驟包括所述判斷模塊判斷一正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容的相似度是否大于一預(yù)先設(shè)定的相似度閾值。實(shí)施時(shí)，所述判斷模塊判斷一正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容是否相似步驟包括所述判斷模塊判斷該正文候選節(jié)點(diǎn)的純文本長(zhǎng)度是否大于純文本長(zhǎng)度閾值，如果是則直接輸出該正文候選節(jié)點(diǎn)，否則采用編輯距離算法計(jì)算該正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)之間的相似度，根據(jù)該相似度是否大于所述相似度閾值以判斷該正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容是否相似。實(shí)施時(shí)，當(dāng)所述目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)數(shù)大于5時(shí)，所述判斷模塊采用編輯距離算法計(jì)算該正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)之間的相似度步驟包括所述判斷模塊采用編輯距離算法計(jì)算該正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的兩端節(jié)點(diǎn)和中間三個(gè)節(jié)點(diǎn)之間的相似度。實(shí)施時(shí)，所述判斷模塊還用于判斷該正文候選節(jié)點(diǎn)的特征值是否含有隱藏屬性，如果含有則控制關(guān)閉所述輸出模塊，否則控制開(kāi)啟所述輸出模塊。實(shí)施時(shí)，本發(fā)明所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取裝置還包括已發(fā)現(xiàn)純文本率判斷模塊，其連接于所述回溯結(jié)果分析模塊和所述判斷模塊之間；所述已發(fā)現(xiàn)純文本率判斷模塊，用于判斷當(dāng)前已發(fā)現(xiàn)純文本長(zhǎng)度占全文純文本長(zhǎng)度的比例是否小于一預(yù)先設(shè)定的已發(fā)現(xiàn)純文本率閾值，如果是則控制開(kāi)啟所述回溯結(jié)果分析模塊，否則控制開(kāi)啟所述判斷模塊。實(shí)施時(shí)，所述純文本率閾值是50%，所述相似度閾值是50%，所述已發(fā)現(xiàn)純文本率閾值是60%，所述純文本長(zhǎng)度閾值是100。與現(xiàn)有技術(shù)相比，本發(fā)明所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法和裝置，通用性強(qiáng)、可維護(hù)性好、適用面廣，可自適應(yīng)大多數(shù)網(wǎng)頁(yè)的正文提取需求。

圖1是本發(fā)明所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法的一實(shí)施例的流程圖；圖2是本發(fā)明所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取裝置的一實(shí)施例的結(jié)構(gòu)框圖。
具體實(shí)施例方式本發(fā)明所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法和裝置，通過(guò)統(tǒng)計(jì)網(wǎng)頁(yè)中各行的純文本長(zhǎng)度，并通過(guò)回溯找到正文所在節(jié)點(diǎn)。網(wǎng)頁(yè)的正文內(nèi)容大多數(shù)都有一個(gè)獨(dú)享標(biāo)簽，該獨(dú)享標(biāo)簽是正文所在標(biāo)簽，一般情況下，該獨(dú)享標(biāo)簽中只含有正文內(nèi)容，網(wǎng)頁(yè)正文內(nèi)容是由一個(gè)或多個(gè)獨(dú)享標(biāo)簽組成，因此，提取網(wǎng)頁(yè)正文的重點(diǎn)即由找文本變?yōu)檎要?dú)享標(biāo)簽。本發(fā)明通過(guò)計(jì)算文本集中率來(lái)找出網(wǎng)頁(yè)正文的獨(dú)享標(biāo)簽，文本集中率表示為純文本長(zhǎng)度和文本節(jié)點(diǎn)個(gè)數(shù)的比值，文本節(jié)點(diǎn)越少而純文本越多則文本集中率越大，反之亦然。所述純文本是指網(wǎng)頁(yè)中除去標(biāo)簽、樣式代碼、腳本代碼、鏈接、表單控件的內(nèi)容。在實(shí)際應(yīng)用中，文本集中率的比較是以節(jié)點(diǎn)組為單位進(jìn)行的，該節(jié)點(diǎn)組指的是多個(gè)節(jié)點(diǎn)放在一起的組合。在本發(fā)明中，如果正文只分布在一個(gè)獨(dú)享節(jié)點(diǎn)中則節(jié)點(diǎn)組的長(zhǎng)度為1，當(dāng)正文分布在η個(gè)獨(dú)享節(jié)點(diǎn)中時(shí)，節(jié)點(diǎn)組長(zhǎng)度為η。所述獨(dú)享節(jié)點(diǎn)是最大程度包含純文本內(nèi)容的節(jié)點(diǎn)，一個(gè)獨(dú)享節(jié)點(diǎn)被某一段正文所獨(dú)自占有。當(dāng)有一個(gè)文本節(jié)點(diǎn)時(shí)，判斷其是不是獨(dú)享節(jié)點(diǎn)，分別計(jì)算本節(jié)點(diǎn)和父節(jié)點(diǎn)的文本集中率并比對(duì)，如果父節(jié)點(diǎn)比本節(jié)點(diǎn)大，則繼續(xù)分析父節(jié)點(diǎn)，一直回溯遇到文本集中率最大的節(jié)點(diǎn)，最大文本集中率的節(jié)點(diǎn)我們認(rèn)為是獨(dú)享節(jié)點(diǎn)，其中添加了一些規(guī)則如果文本節(jié)點(diǎn)是<span>或
則在比較時(shí)忽略本身的文本集中率。例如，如果有幾個(gè)含有純文本的節(jié)點(diǎn)簇?fù)碓谝黄?，那么這幾個(gè)節(jié)點(diǎn)的父節(jié)點(diǎn)就很有可能是獨(dú)享節(jié)點(diǎn)。在找到網(wǎng)頁(yè)正文的獨(dú)享節(jié)點(diǎn)后，就要輸出該獨(dú)享節(jié)點(diǎn)，此時(shí)輸出的獨(dú)享節(jié)點(diǎn)可能會(huì)含有噪音，對(duì)于不同類(lèi)型的噪音本發(fā)明使用了相應(yīng)的規(guī)則進(jìn)行去噪，規(guī)則列舉如下規(guī)則一(純文本率規(guī)則)如果程序誤判獨(dú)享節(jié)點(diǎn)則會(huì)造成大量噪音出現(xiàn)，被誤判的節(jié)點(diǎn)多為廣告鏈接節(jié)點(diǎn)或其他非正文節(jié)點(diǎn)，這些節(jié)點(diǎn)的特征是含有一定量的純文本或文本集中率較高，想要排除它們的最好方法是計(jì)算這些節(jié)點(diǎn)的純文本率，所述純文本率是指純文本占所有文本的比例，該所有文本只包括純文本和鏈接文本，因此純文本率表示為純文本長(zhǎng)度和該所有文本長(zhǎng)度的比值。如果一節(jié)點(diǎn)的鏈接文本長(zhǎng)度大于純文本長(zhǎng)度，則認(rèn)為該節(jié)點(diǎn)為假的獨(dú)享節(jié)點(diǎn)，則將其拋棄。規(guī)則二(相似節(jié)點(diǎn)規(guī)則)出現(xiàn)噪音的另一個(gè)原因是獨(dú)享節(jié)點(diǎn)可能會(huì)包含一些無(wú)用信息，如評(píng)論式網(wǎng)頁(yè)中的用戶(hù)信息。所述評(píng)論式網(wǎng)頁(yè)是指有不連續(xù)的短篇文字的網(wǎng)頁(yè)，文本內(nèi)容分布分散。如果該用戶(hù)信息展示的都是一些用戶(hù)屬性值，而且該些用戶(hù)屬性值大多相似，則該用戶(hù)信息不能算有效信息。本發(fā)明利用相似度判斷網(wǎng)頁(yè)內(nèi)獨(dú)享節(jié)點(diǎn)組中的節(jié)點(diǎn)的內(nèi)容的相似度是否大于一預(yù)先設(shè)定的閾值(該閾值例如可以為50%)，如果是則拋棄該節(jié)點(diǎn)。如果有很多需要比較的節(jié)點(diǎn)，無(wú)需全部?jī)蓛杀容^一遍，只需要均勻地比較其中幾個(gè)便可以說(shuō)明全部情況(如只比較兩頭的節(jié)點(diǎn)和中間的節(jié)點(diǎn))。所述獨(dú)享節(jié)點(diǎn)組是指分析出來(lái)獨(dú)享節(jié)點(diǎn)后，程序會(huì)把屬性名稱(chēng)和屬性相同(刨除了屬性名為id屬性)的獨(dú)享節(jié)點(diǎn)分成獨(dú)享節(jié)點(diǎn)組，相似節(jié)點(diǎn)的處理都是在獨(dú)享節(jié)點(diǎn)組內(nèi)進(jìn)行的。在本發(fā)明中，相似度的計(jì)算引用了文本編輯距離算法，該算法大致描述如下A和B文本編輯距離就是A變成B要做的增、刪、改的操作次數(shù)，這個(gè)次數(shù)越大說(shuō)明 A和B的差別越大。該算法對(duì)于短文本的文本距離計(jì)算非常適合，因?yàn)榇笪谋?文本長(zhǎng)度大于100的文本)的比較很耗性能而且大文本在網(wǎng)頁(yè)的地位肯定重要，所以如果是大文本，則規(guī)定不用比較直接輸出。規(guī)則三(隱藏屬性規(guī)則):噪音的另一個(gè)原因是輸出了應(yīng)該隱藏的正文內(nèi)容，在正文提取中，不得不考慮文本在瀏覽器的實(shí)際效果，如果該文本存在但不顯示，則認(rèn)為它不是有效信息最起碼不是這篇網(wǎng)頁(yè)的中心話(huà)題，因此在正文提取時(shí)也要排除掉。不顯示在瀏覽器則就是隱藏屬性的作用，檢查標(biāo)簽屬性中是否含有display none或visibi 1 ity hidden便可以達(dá)到此目的。如圖1所示，本發(fā)明所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法的一實(shí)施例，包括以下步驟解析步驟11 將網(wǎng)頁(yè)解析為DOM樹(shù)結(jié)構(gòu)，按行分析網(wǎng)頁(yè)，得到每一行的純文本長(zhǎng)度；排序步驟12 對(duì)該DOM樹(shù)中的所有行根據(jù)純文本長(zhǎng)度由高到低進(jìn)行排序；回溯步驟13 從純文本長(zhǎng)度最長(zhǎng)的行開(kāi)始，依次取出該DOM樹(shù)中的行，以該行中純文本最長(zhǎng)的文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯，將與該文本節(jié)點(diǎn)具有相同特征值的所有文本節(jié)點(diǎn)放到一節(jié)點(diǎn)組中，并計(jì)算該節(jié)點(diǎn)組的文本集中度，取文本集中度最高的節(jié)點(diǎn)組作為目標(biāo)節(jié)點(diǎn)組；回溯結(jié)果分析步驟14 將目標(biāo)節(jié)點(diǎn)組中的純文本率比純文本率閾值低的目標(biāo)節(jié)點(diǎn)篩掉，保留純文本率大于純文本率閾值的目標(biāo)節(jié)點(diǎn)，并將其定位正文候選節(jié)點(diǎn)；輸出步驟15 輸出該正文候選節(jié)點(diǎn)的內(nèi)容。實(shí)施時(shí)，在回溯步驟13中，所述特征值包括標(biāo)簽名和屬性。實(shí)施時(shí)，所述回溯步驟13還包括當(dāng)所述特征值包括ID屬性時(shí)，將所述ID屬性的屬性值中的數(shù)字去除。實(shí)施時(shí)，在解析步驟11和排序步驟12之間還包含整理步驟；所述整理步驟包括將網(wǎng)頁(yè)中純文本長(zhǎng)度為零的行刪除，所述純文本長(zhǎng)度為零的行為僅有換行符的行。實(shí)施時(shí)，在回溯步驟中13，以該行中純文本最長(zhǎng)的文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯步驟包括如果該行有多個(gè)文本節(jié)點(diǎn)，且該多個(gè)文本節(jié)點(diǎn)的純文本長(zhǎng)度不同，則以該行中純文本最長(zhǎng)的文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯；如果該行有多個(gè)文本節(jié)點(diǎn)，且該多個(gè)文本節(jié)點(diǎn)的純文本長(zhǎng)度相同，則任選該多個(gè)文本節(jié)點(diǎn)中的一個(gè)文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯；如果該行僅有一個(gè)文本節(jié)點(diǎn)，則以該文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯。實(shí)施時(shí)，在回溯結(jié)果分析步驟14和輸出步驟15之間還包括判斷步驟；判斷步驟包括判斷一正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容是否相似，如果相似則結(jié)束，否則轉(zhuǎn)至輸出步驟15 ；在判斷步驟中，所述判斷一正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容是否相似步驟包括判斷一正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容的相似度是否大于一預(yù)先設(shè)定的相似度閾值。實(shí)施時(shí)，在判斷步驟中，判斷一正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容是否相似步驟包括判斷該正文候選節(jié)點(diǎn)的純文本長(zhǎng)度是否大于純文本長(zhǎng)度閾值，如果是則直接輸出該正文候選節(jié)點(diǎn)，否則采用編輯距離算法計(jì)算該正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)之間的相似度，根據(jù)該相似度是否大于所述相似度閾值以判斷該正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容是否相似。實(shí)施時(shí)，在判斷步驟中，當(dāng)所述目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)數(shù)大于5時(shí)，采用編輯距離算法計(jì)算該正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)之間的相似度步驟包括采用編輯距離算法計(jì)算該正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的兩端節(jié)點(diǎn)和中間三個(gè)節(jié)點(diǎn)之間的相似度。實(shí)施時(shí)，判斷步驟還包括判斷該正文候選節(jié)點(diǎn)的特征值是否含有隱藏屬性，如果含有則結(jié)束，否則轉(zhuǎn)至輸出步驟。實(shí)施時(shí)，在回溯結(jié)果分析步驟14和判斷步驟之間還包括已發(fā)現(xiàn)純文本率判斷步驟；已發(fā)現(xiàn)純文本率判斷步驟包括判斷當(dāng)前已發(fā)現(xiàn)純文本長(zhǎng)度占全文純文本長(zhǎng)度的比例是否小于一預(yù)先設(shè)定的已發(fā)現(xiàn)純文本率閾值，如果是則轉(zhuǎn)至回溯結(jié)果分析步驟14，否則轉(zhuǎn)至判斷步驟。實(shí)施時(shí)，在回溯結(jié)果分析步驟14中，純文本率閾值是50% ；在判斷步驟中，所述相似度閾值是50 % ；在所述已發(fā)現(xiàn)純文本率判斷步驟中，所述已發(fā)現(xiàn)純文本率閾值是60 %，所述純文本長(zhǎng)度閾值是100。根據(jù)另一種具體實(shí)施方式
，本發(fā)明所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法包括以下步驟步驟一將網(wǎng)頁(yè)解析成DOM樹(shù)結(jié)構(gòu)，例如可以使用開(kāi)源組件HtmlParser將網(wǎng)頁(yè)解析成DOM樹(shù)結(jié)構(gòu)。步驟二(統(tǒng)計(jì)與整理步驟)1、統(tǒng)計(jì)節(jié)點(diǎn)，把相同特征值的節(jié)點(diǎn)歸為一類(lèi)；所述特征值包括標(biāo)簽名和節(jié)點(diǎn)的所有屬性；把網(wǎng)頁(yè)解析成DOM樹(shù)后，每個(gè)標(biāo)簽都可以認(rèn)為是一個(gè)節(jié)點(diǎn)，標(biāo)簽的屬性就是節(jié)點(diǎn)的屬性。然而對(duì)于含有ID屬性的標(biāo)簽要特殊處理，因?yàn)橛行┱搲W(wǎng)頁(yè)中的帖子所在節(jié)點(diǎn)的ID多為增量的編號(hào)，如
<div id="replyl">
回復(fù)1； </div>
<div id="replylOO">
回復(fù)100; </div>
本實(shí)施例采取的方法是把ID屬性值中的數(shù)字去掉，即<div id = " replyl" >的特征值為 “div id = reply".,2、按行分析網(wǎng)頁(yè)，得到每一行的純文本長(zhǎng)度。統(tǒng)計(jì)全文純文本長(zhǎng)度WholeLength，這個(gè)過(guò)程也在解析網(wǎng)頁(yè)的過(guò)程中進(jìn)行；在解析網(wǎng)頁(yè)的同時(shí)得到原格式每一行的純文本長(zhǎng)度，DOM樹(shù)的解析過(guò)程是把每個(gè)標(biāo)簽和文本都轉(zhuǎn)換成節(jié)點(diǎn)，并保存節(jié)點(diǎn)關(guān)系。在解析過(guò)程中，換行符(\n)可以告知每一行的結(jié)束。3.把一些空文本行(只含換行符)以及長(zhǎng)度很小的文本行進(jìn)行排除，用以提高效率，然后對(duì)所有的行根據(jù)純文本長(zhǎng)度由高到低排序。步驟三(回溯與文本集中度計(jì)算步驟)1.依次取出一行(這是一個(gè)遞歸過(guò)程，從最長(zhǎng)的行開(kāi)始，取過(guò)的不再取)，找出行內(nèi)最重要的文本節(jié)點(diǎn)；如果這行有多個(gè)節(jié)點(diǎn)，則純文本最長(zhǎng)的節(jié)點(diǎn)是最重要的節(jié)點(diǎn)，如果改行只是某個(gè)節(jié)點(diǎn)的一部分純文本，則這個(gè)該節(jié)點(diǎn)就是最重要的節(jié)點(diǎn)。以該行內(nèi)最重要的節(jié)點(diǎn)為起點(diǎn)回溯，每回溯一層節(jié)點(diǎn)，找出與該節(jié)點(diǎn)相同特征值的所有節(jié)點(diǎn)(前面已作節(jié)點(diǎn)統(tǒng)計(jì))，放到一個(gè)節(jié)點(diǎn)組中。其中，所述最重要的節(jié)點(diǎn)是指如果這行有多個(gè)節(jié)點(diǎn)，則純文本最長(zhǎng)的節(jié)點(diǎn)是最重要的節(jié)點(diǎn)；如果該行只是某個(gè)節(jié)點(diǎn)的一部分純文本，則這個(gè)該節(jié)點(diǎn)就是最重要的節(jié)點(diǎn)。每層節(jié)點(diǎn)泛指節(jié)點(diǎn)回溯過(guò)程中遇到的每個(gè)節(jié)點(diǎn)；如果取出的是第三行，就以第三行中最重要的節(jié)點(diǎn)為起點(diǎn)，回溯它的父節(jié)點(diǎn)，回溯在DOM節(jié)點(diǎn)中表達(dá)的意思是指找父節(jié)點(diǎn)；2.計(jì)算節(jié)點(diǎn)組文本集中度。文本集中度是節(jié)點(diǎn)組的所含純文本長(zhǎng)度與節(jié)點(diǎn)的總個(gè)數(shù)的比值。公式表示為
Concentration(文本集中度^她^夠；！正^度)
NodeCount(節(jié)點(diǎn)個(gè)數(shù))回溯完成后(一般回溯至<body>標(biāo)簽即算完成)，取此次回溯過(guò)程中遇到的最大文本集中度的節(jié)點(diǎn)組，稱(chēng)為目標(biāo)節(jié)點(diǎn)組。3.在回溯過(guò)程中要記錄已處理過(guò)的節(jié)點(diǎn)特征值，避免下次回溯重復(fù)處理。步驟四(回溯結(jié)果分析步驟)1.迭代回溯返回的目標(biāo)節(jié)點(diǎn)組，計(jì)算節(jié)點(diǎn)組的純文本率，純文本率是純文本長(zhǎng)度與含有鏈接的純文本長(zhǎng)度的比值
PlarnTextRatromXifm ~嚇輸
料)-MText(總文本長(zhǎng)度)其中鏈接文本長(zhǎng)度是指純文本長(zhǎng)度+鏈接文本長(zhǎng)度。如果PlainTextRatio大于閾值R(R的取值一般為0. 5比較合適。這個(gè)可根據(jù)需求而定，當(dāng)寧缺毋濫時(shí)該值可設(shè)的大一點(diǎn)，反之亦然)則把該節(jié)點(diǎn)定為正文候選節(jié)點(diǎn)，等待抽取。如果PlainTextRatio小于R 則認(rèn)為該節(jié)點(diǎn)是噪音節(jié)點(diǎn)，將其拋棄。2.統(tǒng)計(jì)當(dāng)前已發(fā)現(xiàn)純文本長(zhǎng)度kenLength占全文純文本W(wǎng)holeLength的比例，所述已發(fā)現(xiàn)純文本長(zhǎng)度kenLength為所述正文候選節(jié)點(diǎn)內(nèi)的純文本長(zhǎng)度；該比例表示為SeenRatio
權(quán)利要求
1.一種基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法，其特征在于，包括以下步驟解析步驟將網(wǎng)頁(yè)解析為DOM樹(shù)結(jié)構(gòu)，按行分析網(wǎng)頁(yè)，得到每一行的純文本長(zhǎng)度；排序步驟對(duì)該DOM樹(shù)中的所有行根據(jù)純文本長(zhǎng)度由高到低進(jìn)行排序；回溯步驟從純文本長(zhǎng)度最長(zhǎng)的行開(kāi)始，依次取出該DOM樹(shù)中的行，以該行中純文本最長(zhǎng)的文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯，將與該文本節(jié)點(diǎn)具有相同特征值的所有文本節(jié)點(diǎn)放到一節(jié)點(diǎn)組中，并計(jì)算該節(jié)點(diǎn)組的文本集中度，取文本集中度最高的節(jié)點(diǎn)組作為目標(biāo)節(jié)點(diǎn)組；回溯結(jié)果分析步驟將目標(biāo)節(jié)點(diǎn)組中的純文本率大于純文本率閾值的目標(biāo)節(jié)點(diǎn)定為正文候選節(jié)點(diǎn)；輸出步驟輸出正文候選節(jié)點(diǎn)。
2.如權(quán)利要求1所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法，其特征在于，在回溯步驟中，所述特征值包括標(biāo)簽名和屬性。
3.如權(quán)利要求2所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法，其特征在于，所述回溯步驟還包括當(dāng)所述特征值包括ID屬性時(shí)，將所述ID屬性的屬性值中的數(shù)字去除。
4.如權(quán)利要求1所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法，其特征在于，在解析步驟和排序步驟之間還包含整理步驟；所述整理步驟包括將網(wǎng)頁(yè)中純文本長(zhǎng)度為零的行刪除，所述純文本長(zhǎng)度為零的行為僅有換行符的行。
5.如權(quán)利要求1所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法，其特征在于，在回溯步驟中，以該行中純文本最長(zhǎng)的文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯步驟包括如果該行有多個(gè)文本節(jié)點(diǎn)，且該多個(gè)文本節(jié)點(diǎn)的純文本長(zhǎng)度不同，則以該行中純文本最長(zhǎng)的文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯；如果該行有多個(gè)文本節(jié)點(diǎn)，且該多個(gè)文本節(jié)點(diǎn)的純文本長(zhǎng)度相同，則任選該多個(gè)文本節(jié)點(diǎn)中的一個(gè)文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯；如果該行僅有一個(gè)文本節(jié)點(diǎn)，則以該文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯。
6.如權(quán)利要求1所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法，其特征在于，在回溯結(jié)果分析步驟和輸出步驟之間還包括判斷步驟；判斷步驟包括判斷一正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容是否相似，如果相似則結(jié)束，否則轉(zhuǎn)至輸出步驟；在判斷步驟中，所述判斷一正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容是否相似步驟包括判斷一正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容的相似度是否大于一預(yù)先設(shè)定的相似度閾值。
7.如權(quán)利要求6所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法，其特征在于，在判斷步驟中，判斷一正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容是否相似步驟包括判斷該正文候選節(jié)點(diǎn)的純文本長(zhǎng)度是否大于純文本長(zhǎng)度閾值，如果是則直接輸出該正文候選節(jié)點(diǎn)，否則采用編輯距離算法計(jì)算該正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)之間的相似度，根據(jù)該相似度是否大于所述相似度閾值以判斷該正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容是否相似。
8.如權(quán)利要求7所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法，其特征在于，在判斷步驟中，當(dāng)所述目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)數(shù)大于5時(shí)，采用編輯距離算法計(jì)算該正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)之間的相似度步驟包括采用編輯距離算法計(jì)算該正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的兩端節(jié)點(diǎn)和中間三個(gè)節(jié)點(diǎn)之間的相似度。
9.如權(quán)利要求6至8中任一權(quán)利要求所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法，其特征在于，判斷步驟還包括判斷該正文候選節(jié)點(diǎn)的特征值是否含有隱藏屬性，如果含有則結(jié)束，否則轉(zhuǎn)至輸出步驟。
10.如權(quán)利要求6至8中任一權(quán)利要求所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法，其特征在于，在回溯結(jié)果分析步驟和判斷步驟之間還包括已發(fā)現(xiàn)純文本率判斷步驟；已發(fā)現(xiàn)純文本率判斷步驟包括判斷當(dāng)前已發(fā)現(xiàn)純文本長(zhǎng)度占全文純文本長(zhǎng)度的比例是否小于一預(yù)先設(shè)定的已發(fā)現(xiàn)純文本率閾值，如果是則轉(zhuǎn)至回溯結(jié)果分析步驟，否則轉(zhuǎn)至判斷步驟。
11.如權(quán)利要求10所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法，其特征在于，在回溯結(jié)果分析步驟中，純文本率閾值是50% ；在判斷步驟中，所述相似度閾值是50% ；在所述已發(fā)現(xiàn)純文本率判斷步驟中，所述已發(fā)現(xiàn)純文本率閾值是60%，所述純文本長(zhǎng)度閾值是 100。
12.一種基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取裝置，其特征在于，包括依次連接的解析模塊，排序模塊、回溯模塊、回溯結(jié)果分析模塊和輸出模塊，其中，所述解析模塊，用于將網(wǎng)頁(yè)解析為DOM樹(shù)結(jié)構(gòu)，按行分析網(wǎng)頁(yè)，得到每一行的純文本長(zhǎng)度；所述排序模塊，用于對(duì)該DOM樹(shù)中的所有行根據(jù)純文本長(zhǎng)度由高到低進(jìn)行排序；所述回溯模塊，用于從純文本長(zhǎng)度最長(zhǎng)的行開(kāi)始，依次取出該DOM樹(shù)中的行，以該行中純文本最長(zhǎng)的文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯，將與該文本節(jié)點(diǎn)具有相同特征值的所有文本節(jié)點(diǎn)放到一節(jié)點(diǎn)組中，并計(jì)算該節(jié)點(diǎn)組的文本集中度，取文本集中度最高的節(jié)點(diǎn)組作為目標(biāo)節(jié) ；^^會(huì)冃. 所述回溯結(jié)果分析模塊，用于將目標(biāo)節(jié)點(diǎn)組中的純文本率大于純文本率閾值的目標(biāo)節(jié)點(diǎn)定為正文候選節(jié)點(diǎn)；所述輸出模塊，用于輸出正文候選節(jié)點(diǎn)。
13.如權(quán)利要求12所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取裝置，其特征在于，所述特征值包括標(biāo)簽名和屬性。
14.如權(quán)利要求13所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取裝置，其特征在于，所述回溯模塊還用于當(dāng)所述特征值包括ID屬性時(shí)將所述ID屬性的屬性值中的數(shù)字去除。
15.如權(quán)利要求12所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取裝置，其特征在于，還包括整理模塊，其連接于解析模塊和排序模塊之間；所述整理模塊用于將網(wǎng)頁(yè)中純文本長(zhǎng)度為零的行刪除，所述純文本長(zhǎng)度為零的行為僅有換行符的行。
16.如權(quán)利要求12所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取裝置，其特征在于，所述回溯模塊以該行中純文本最長(zhǎng)的文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯步驟包括如果該行有多個(gè)文本節(jié)點(diǎn)，且該多個(gè)文本節(jié)點(diǎn)的純文本長(zhǎng)度不同，則所述回溯模塊以該行中純文本最長(zhǎng)的文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯；如果該行有多個(gè)文本節(jié)點(diǎn)，且該多個(gè)文本節(jié)點(diǎn)的純文本長(zhǎng)度相同，則所述回溯模塊任選該多個(gè)文本節(jié)點(diǎn)中的一個(gè)文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯；如果該行僅有一個(gè)文本節(jié)點(diǎn)，則所述回溯模塊以該文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯。
17.如權(quán)利要求12所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取裝置，其特征在于，還包括判斷模塊，其連接于回溯結(jié)果分析模塊和輸出模塊之間；所述判斷模塊，用于判斷一正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容是否相似，如果相似則控制關(guān)閉所述輸出模塊，否則開(kāi)啟所述輸出模塊；所述判斷模塊判斷一正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容是否相似步驟包括所述判斷模塊判斷一正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容的相似度是否大于一預(yù)先設(shè)定的相似度閾值。
18.如權(quán)利要求17所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取裝置，其特征在于，所述判斷模塊判斷一正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容是否相似步驟包括所述判斷模塊判斷該正文候選節(jié)點(diǎn)的純文本長(zhǎng)度是否大于純文本長(zhǎng)度閾值，如果是則直接輸出該正文候選節(jié)點(diǎn)，否則采用編輯距離算法計(jì)算該正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)之間的相似度，根據(jù)該相似度是否大于所述相似度閾值以判斷該正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)內(nèi)容是否相似。
19.如權(quán)利要求18所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取裝置，其特征在于，當(dāng)所述目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)數(shù)大于5時(shí)，所述判斷模塊采用編輯距離算法計(jì)算該正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)之間的相似度步驟包括所述判斷模塊采用編輯距離算法計(jì)算該正文候選節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)組內(nèi)的兩端節(jié)點(diǎn)和中間三個(gè)節(jié)點(diǎn)之間的相似度。
20.如權(quán)利要求17至19中任一權(quán)利要求所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取裝置，其特征在于，所述判斷模塊還用于判斷該正文候選節(jié)點(diǎn)的特征值是否含有隱藏屬性，如果含有則控制關(guān)閉所述輸出模塊，否則控制開(kāi)啟所述輸出模塊。
21.如權(quán)利要求17至19中任一權(quán)利要求所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取裝置，其特征在于，還包括已發(fā)現(xiàn)純文本率判斷模塊，其連接于所述回溯結(jié)果分析模塊和所述判斷模塊之間；所述已發(fā)現(xiàn)純文本率判斷模塊，用于判斷當(dāng)前已發(fā)現(xiàn)純文本長(zhǎng)度占全文純文本長(zhǎng)度的比例是否小于一預(yù)先設(shè)定的已發(fā)現(xiàn)純文本率閾值，如果是則控制開(kāi)啟所述回溯結(jié)果分析模塊，否則控制開(kāi)啟所述判斷模塊。
22.如權(quán)利要求21所述的基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取裝置，其特征在于，純文本率閾值是50 %，所述相似度閾值是50 %，所述已發(fā)現(xiàn)純文本率閾值是60 %，所述純文本長(zhǎng)度閾值是100。
全文摘要
本發(fā)明提供了一種基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法和裝置。所述基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法包括以下步驟將網(wǎng)頁(yè)解析為DOM樹(shù)結(jié)構(gòu)，按行分析網(wǎng)頁(yè)，得到每一行的純文本長(zhǎng)度；對(duì)該DOM樹(shù)中的所有行根據(jù)純文本長(zhǎng)度由高到低進(jìn)行排序；從純文本長(zhǎng)度最長(zhǎng)的行開(kāi)始，依次取出該DOM樹(shù)中的行，以該行中純文本最長(zhǎng)的文本節(jié)點(diǎn)為起點(diǎn)進(jìn)行回溯，將與該文本節(jié)點(diǎn)具有相同特征值的所有文本節(jié)點(diǎn)放到一節(jié)點(diǎn)組中，并計(jì)算該節(jié)點(diǎn)組的文本集中度，取文本集中度最高的節(jié)點(diǎn)組作為目標(biāo)節(jié)點(diǎn)組；將目標(biāo)節(jié)點(diǎn)組中的純文本率大于純文本率閾值的目標(biāo)節(jié)點(diǎn)定為正文候選節(jié)點(diǎn)；輸出正文候選節(jié)點(diǎn)。本發(fā)明通用性強(qiáng)、可維護(hù)性好、適用面廣，可自適應(yīng)大多數(shù)網(wǎng)頁(yè)的正文提取需求。
文檔編號(hào)G06F17/27GK102314520SQ20111032622
公開(kāi)日2012年1月11日申請(qǐng)日期2011年10月24日優(yōu)先權(quán)日2011年10月24日
發(fā)明者樊慶沖申請(qǐng)人:莫雅靜

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：樊慶沖
技術(shù)所有人：莫雅靜
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

網(wǎng)頁(yè)正文提取相關(guān)技術(shù)

網(wǎng)頁(yè)正文提取算法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于統(tǒng)計(jì)回溯定位的網(wǎng)頁(yè)正文提取方法和裝置的制作方法