亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

網(wǎng)頁信息處理方法及裝置制造方法

文檔序號:6489718閱讀:132來源:國知局
網(wǎng)頁信息處理方法及裝置制造方法
【專利摘要】本發(fā)明的實施例提供一種網(wǎng)頁信息處理方法及裝置,涉及計算機(jī)【技術(shù)領(lǐng)域】,包括:對原始網(wǎng)頁進(jìn)行特征識別,得出各特征的取值;根據(jù)所述各特征的取值判斷所述原始網(wǎng)頁是否為目標(biāo)網(wǎng)頁;當(dāng)判斷出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁時,從原始網(wǎng)頁中提取目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁鏈接和目標(biāo)內(nèi)容圖片;在新頁面中顯示所述目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁鏈接和目標(biāo)內(nèi)容圖片。采用本發(fā)明提供的方法進(jìn)行處理后得出的小說頁面既簡潔,同時不失關(guān)注點又便于閱讀。
【專利說明】網(wǎng)頁信息處理方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機(jī)【技術(shù)領(lǐng)域】,尤其涉及一種網(wǎng)頁信息處理方法及裝置。
【背景技術(shù)】
[0002]目前,通過網(wǎng)頁展現(xiàn)小說的形式主要有以下兩種:一種是文字形式,即小說正文以文字形式直接展現(xiàn)在網(wǎng)頁中,用戶瀏覽文字形式的小說網(wǎng)頁時,查看到的是一行行的文字。另一種是圖片形式,小說正文以圖片形式存在,并通過圖片展現(xiàn)在網(wǎng)頁中。用戶瀏覽圖片形式的小說網(wǎng)頁時,查看到的是一張張顯示有小說正文的圖片。
[0003]通常,展現(xiàn)小說的網(wǎng)頁(下文簡稱為小說網(wǎng)頁)除了顯示小說的相關(guān)內(nèi)容(例如,小說的標(biāo)題,上下章節(jié)的鏈接,小說正文等等)之外,還經(jīng)常會顯示一些廣告、其他網(wǎng)站導(dǎo)航、版權(quán)、推薦者等等其他無關(guān)信息。
[0004]為了便于用戶閱讀小說,現(xiàn)有技術(shù)提供一種網(wǎng)頁信息處理方法,可以將文字形式的小說頁面中小說相關(guān)的信息提取并顯示給用戶,而與小說不相關(guān)的信息則不會顯示給用戶。
[0005]然而,現(xiàn)有技術(shù)無法對圖片形式的小說頁面進(jìn)行處理。

【發(fā)明內(nèi)容】

[0006]本發(fā)明的實施例提供一種網(wǎng)頁信息處理方法及裝置,采用本發(fā)明提供的方法進(jìn)行處理后得出的小說頁面既簡潔,同時不失關(guān)注點又便于閱讀。
[0007]為達(dá)到上述目的,本發(fā)明的實施例采用如下技術(shù)方案:
[0008]一方面,提供一種網(wǎng)頁信息處理方法,包括:
[0009]對原始網(wǎng)頁進(jìn)行特征識別,得出各特征的取值,所述特征包括:用于表示原始網(wǎng)頁與目標(biāo)網(wǎng)頁相似程度的第一特征、用于表示文本長度的第二特征,所述文本長度是指原始網(wǎng)頁中以文字形式顯示出來的文字及標(biāo)點符號的總個數(shù)、用于表示原始網(wǎng)頁的URL中是否包括目標(biāo)關(guān)鍵字的第三特征、用于表示原始網(wǎng)頁是否存在目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字的第四特征、用于表示原始網(wǎng)頁是否存在目標(biāo)內(nèi)容翻頁鏈接的第五特征和用于表示原始網(wǎng)頁是否存在目標(biāo)內(nèi)容圖片的第六特征;
[0010]根據(jù)所述各特征的取值判斷所述原始網(wǎng)頁是否為目標(biāo)網(wǎng)頁;
[0011]當(dāng)判斷出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁時,從原始網(wǎng)頁中提取目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁鏈接和目標(biāo)內(nèi)容圖片;
[0012]在新頁面中顯示所述目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁鏈接和目標(biāo)內(nèi)容圖片。
[0013]本發(fā)明實施例的一種實現(xiàn)方式中,所述對原始網(wǎng)頁進(jìn)行特征識別,得出各特征的取值包括:
[0014]利用預(yù)設(shè)文本分類器對原始網(wǎng)頁進(jìn)行計算,得出第一特征的取值,所述第一特征的取值范圍為[0,100];
[0015]計算原始網(wǎng)頁中以文字形式顯示出來的文字及標(biāo)點符號的總個數(shù),得出文本長度,所述文本長度的取值即為第二特征的取值;
[0016]判斷原始網(wǎng)頁的URL中是否包含目標(biāo)關(guān)鍵字,其中,判斷結(jié)果為原始網(wǎng)頁的URL中包含目標(biāo)關(guān)鍵字時,得出第三特征的取值為真,否則,得出第三特征的取值為假;
[0017]判斷原始網(wǎng)頁是否存在目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字,判斷結(jié)果為原始網(wǎng)頁存在目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字時,得出第四特征的取值為真,否則,得出第四特征的取值為假;
[0018]判斷原始網(wǎng)頁是否存在目標(biāo)內(nèi)各翻頁鏈接,判斷結(jié)果為原始網(wǎng)頁存在目標(biāo)內(nèi)各翻頁鏈接時,得出第五特征的取值為真,否則,得出第五特征的取值為假;
[0019]判斷原始網(wǎng)頁是否存在目標(biāo)內(nèi)容圖片,判斷結(jié)果為原始網(wǎng)頁存在目標(biāo)內(nèi)容圖片時,得出第六特征的取值為真,否則,得出第六特征的取值為假。
[0020]本發(fā)明實施例的一種實現(xiàn)方式中,所述目標(biāo)關(guān)鍵字包括:“files/article/html/”、多個連續(xù)的數(shù)字串目錄名稱或者“xs” ;
[0021]所述目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字包括?,第*卷”、“第*章”、“第*節(jié)”或者“第*篇”;
[0022]所述目標(biāo)內(nèi)容翻頁鏈接所采用的文字包括:“回目錄”、“上一章”、“下一章”、“上一節(jié)”、“下一節(jié)”、“回首頁”、“上一頁”、“下一頁”、“上一卷”、“下一卷”、“上一篇”或者“下一
O
[0023]本發(fā)明實施例的一種實現(xiàn)方式中,所述根據(jù)所述各特征的取值判斷所述原始網(wǎng)頁是否為目標(biāo)網(wǎng)頁包括:
[0024]判斷第二特征的取值是否小于第一預(yù)設(shè)閾值且第三特征的取值是否為真且第六特征的取值是否為真,其中,判斷結(jié)果為第二特征的取值小于第一預(yù)設(shè)閾值且第三特征的取值為真且第六特征的取值為真時,得出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁,否則,得出所述原始網(wǎng)頁不是目標(biāo)網(wǎng)頁;
[0025]或者,判斷第二特征的取值是否小于第一預(yù)設(shè)閾值且第五特征的取值是否為真且第六特征的取值是否為真,其中,判斷結(jié)果為第二特征的取值小于第一預(yù)設(shè)閾值且第五特征的取值為真且第六特征的取值為真時,得出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁,否則,得出所述原始網(wǎng)頁不是目標(biāo)網(wǎng)頁;
[0026]或者,判斷第一特征的取值是否大于第二預(yù)設(shè)閾值且第五特征的取值是否為真且第六特征的取值是否為真,其中,判斷結(jié)果為第一特征的取值大于第二預(yù)設(shè)閾值且第五特征的取值為真且第六特征的取值為真時,得出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁,否則,得出所述原始網(wǎng)頁不是目標(biāo)網(wǎng)頁;
[0027]或者,判斷第一特征的取值是否大于第二預(yù)設(shè)閾值且第二特征的取值是否小于第一預(yù)設(shè)閾值且第四特征的取值是否為真且第六特征的取值是否為真,其中,判斷結(jié)果為第一特征的取值大于第二預(yù)設(shè)閾值且第二特征的取值小于第一預(yù)設(shè)閾值且第四特征的取值為真且第六特征的取值為真時,得出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁,否則,得出所述原始網(wǎng)頁不是目標(biāo)網(wǎng)頁。
[0028]本發(fā)明實施例的一種實現(xiàn)方式中,所述當(dāng)判斷出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁時,從原始網(wǎng)頁中提取目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁鏈接和目標(biāo)內(nèi)容圖片包括:
[0029]當(dāng)判斷出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁時,從原始網(wǎng)頁中提取目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字所在行的所有文字;
[0030]從原始網(wǎng)頁的DOM樹中提取目標(biāo)內(nèi)容翻頁鏈接,所述提取出的目標(biāo)內(nèi)容翻頁鏈接包括目標(biāo)內(nèi)容翻頁鏈接采用的文字及其指向的URL ;
[0031]從原始網(wǎng)頁中目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字所在行與目標(biāo)內(nèi)容翻頁鏈接所在行之間提取目標(biāo)內(nèi)容圖片。
[0032]另一方面,提供一種網(wǎng)頁信息處理裝置,包括:
[0033]識別模塊,用于對原始網(wǎng)頁進(jìn)行特征識別,得出各特征的取值,所述特征包括:用于表示原始網(wǎng)頁與目標(biāo)網(wǎng)頁相似程度的第一特征、用于表示文本長度的第二特征,所述文本長度是指原始網(wǎng)頁中以文字形式顯示出來的文字及標(biāo)點符號的總個數(shù)、用于表示原始網(wǎng)頁的URL中是否包括目標(biāo) 關(guān)鍵字的第三特征、用于表示原始網(wǎng)頁是否存在目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字的第四特征、用于表示原始網(wǎng)頁是否存在目標(biāo)內(nèi)容翻頁鏈接的第五特征和用于表示原始網(wǎng)頁是否存在目標(biāo)內(nèi)容圖片的第六特征;
[0034]判斷模塊,用于根據(jù)所述各特征的取值判斷所述原始網(wǎng)頁是否為目標(biāo)網(wǎng)頁;
[0035]提取模塊,用于當(dāng)判斷出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁時,從原始網(wǎng)頁中提取目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁鏈接和目標(biāo)內(nèi)容圖片;
[0036]顯示模塊,用于在新頁面中顯示所述目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁鏈接和目標(biāo)內(nèi)容圖片。
[0037]本發(fā)明實施例的一種實現(xiàn)方式中,所述識別模塊包括:
[0038]計算單元,用于利用預(yù)設(shè)文本分類器對原始網(wǎng)頁進(jìn)行計算,得出第一特征的取值,所述第一特征的取值范圍為[0,100];
[0039]所述計算單元,還用于計算原始網(wǎng)頁中以文字形式顯示出來的文字及標(biāo)點符號的總個數(shù),得出文本長度,所述文本長度的取值即為第二特征的取值;
[0040]判斷單元,用于判斷原始網(wǎng)頁的URL中是否包含目標(biāo)關(guān)鍵字,其中,判斷結(jié)果為原始網(wǎng)頁的URL中包含目標(biāo)關(guān)鍵字時,得出第三特征的取值為真,否則,得出第三特征的取值為假;
[0041]所述判斷單元,還用于判斷原始網(wǎng)頁是否存在目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字,判斷結(jié)果為原始網(wǎng)頁存在目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字時,得出第四特征的取值為真,否則,得出第四特征的取值為假;
[0042]所述判斷單元,還用于判斷原始網(wǎng)頁是否存在目標(biāo)內(nèi)容翻頁鏈接,判斷結(jié)果為原始網(wǎng)頁存在目標(biāo)內(nèi)容翻頁鏈接時,得出第五特征的取值為真,否則,得出第五特征的取值為假;
[0043]所述判斷單元,還用于判斷原始網(wǎng)頁是否存在目標(biāo)內(nèi)容圖片,判斷結(jié)果為原始網(wǎng)頁存在目標(biāo)內(nèi)容圖片時,得出第六特征的取值為真,否則,得出第六特征的取值為假。
[0044]本發(fā)明實施例的一種實現(xiàn)方式中,所述目標(biāo)關(guān)鍵字包括:“files/article/html/”、多個連續(xù)的數(shù)字串目錄名稱或者“xs” ;
[0045]所述目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字包括?,第*卷”、“第*章”、“第*節(jié)”或者“第*篇”;
[0046]所述目標(biāo)內(nèi)容翻頁鏈接所采用的文字包括:“回目錄”、“上一章”、“下一章”、“上一節(jié)”、“下一節(jié)”、“回首頁”、“上一頁”、“下一頁”、“上一卷”、“下一卷”、“上一篇”或者“下一
笛”
屆 ο
[0047]本發(fā)明實施例的一種實現(xiàn)方式中,所述判斷模塊具體用于判斷第二特征的取值是否小于第一預(yù)設(shè)閾值且第三特征的取值是否為真且第六特征的取值是否為真,其中,判斷結(jié)果為第二特征的取值小于第一預(yù)設(shè)閾值且第三特征的取值為真且第六特征的取值為真時,得出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁,否則,得出所述原始網(wǎng)頁不是目標(biāo)網(wǎng)頁;
[0048]或者,所述判斷模塊具體用于判斷第二特征的取值是否小于第一預(yù)設(shè)閾值且第五特征的取值是否為真且第六特征的取值是否為真,其中,判斷結(jié)果為第二特征的取值小于第一預(yù)設(shè)閾值且第五特征的取值為真且第六特征的取值為真時,得出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁,否則,得出所述原始網(wǎng)頁不是目標(biāo)網(wǎng)頁;
[0049]或者,所述判斷模塊具體用于判斷第一特征的取值是否大于第二預(yù)設(shè)閾值且第五特征的取值是否為真且第六特征的取值是否為真,其中,判斷結(jié)果為第一特征的取值大于第二預(yù)設(shè)閾值且第五特征的取值為真且第六特征的取值為真時,得出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁,否則,得出所述原始網(wǎng)頁不是目標(biāo)網(wǎng)頁;
[0050]或者,所述判斷模塊具體用于判斷第一特征的取值是否大于第二預(yù)設(shè)閾值且第二特征的取值是否小于第一預(yù)設(shè)閾值且第四特征的取值是否為真且第六特征的取值是否為真,其中,判斷結(jié)果為第一特征的取值大于第二預(yù)設(shè)閾值且第二特征的取值小于第一預(yù)設(shè)閾值且第四特征的取值為真且第六特征的取值為真時,得出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁,否貝U,得出所述原始網(wǎng)頁不是目標(biāo)網(wǎng)頁。
[0051]本發(fā)明實施例的一種實現(xiàn)方式中,所述提取模塊具體用于當(dāng)判斷模塊判斷出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁時,從原始網(wǎng)頁中提取目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字所在行的所有文字;從原始網(wǎng)頁的DOM樹中提取目標(biāo)內(nèi)容翻頁鏈接,所述提取出的目標(biāo)內(nèi)容翻頁鏈接包括目標(biāo)內(nèi)容翻頁鏈接采用的文字及其指向的URL ;從原始網(wǎng)頁中目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字所在行與目標(biāo)內(nèi)容翻頁鏈接所在行之間提取目標(biāo)內(nèi)容圖片。
[0052]上述技術(shù)方案中,通過對原始網(wǎng)頁進(jìn)行特征識別,得出各特征的取值,根據(jù)所述各特征的取值判斷所述原始網(wǎng)頁是否為目標(biāo)網(wǎng)頁;當(dāng)判斷出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁時,從原始網(wǎng)頁中提取目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁鏈接和目標(biāo)內(nèi)容圖片;并在新頁面中顯示所述目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁鏈接和目標(biāo)內(nèi)容圖片,亦即,原始頁面中除了所述目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁鏈接和目標(biāo)內(nèi)容圖片之外的內(nèi)容,不會在新頁面中顯示,減小了無關(guān)內(nèi)容對用戶引起的閱讀干擾,該新頁面內(nèi)容簡潔,不失關(guān)注點又便于閱讀。
[0053]特別的,當(dāng)上述技術(shù)方案應(yīng)用于小說頁面的處理時,可以實現(xiàn)在新頁面中顯示小說標(biāo)題、小說翻頁鏈接和包含有小說正文的圖片,而除了小說標(biāo)題、小說翻頁鏈接和包含有小說正文的圖片之外的內(nèi)容,例如廣告、其他網(wǎng)站導(dǎo)航、版權(quán)、推薦者等小說無關(guān)內(nèi)容都不會進(jìn)行顯示,減小了無關(guān)內(nèi)容對用戶引起的閱讀干擾,該新頁面內(nèi)容簡潔,不失關(guān)注點又便于閱讀。
【專利附圖】

【附圖說明】
[0054]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0055]圖1為本發(fā)明實施例1提供一種網(wǎng)頁信息處理方法的流程圖;[0056]圖2為本發(fā)明實施例1提供一種網(wǎng)頁信息處理方法中步驟101的實現(xiàn)流程圖;
[0057]圖3為本發(fā)明實施例1提供一種網(wǎng)頁信息處理方法中步驟103的實現(xiàn)流程圖;
[0058]圖4為本發(fā)明實施例2提供一種網(wǎng)頁信息處理裝置的結(jié)構(gòu)圖;
[0059]圖5為本發(fā)明實施例2提供一種網(wǎng)頁信息處理裝置中識別模塊的結(jié)構(gòu)圖。
【具體實施方式】
[0060]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。
[0061]實施例1:
[0062]本發(fā)明實施例的一種應(yīng)用場景為:對原始網(wǎng)頁進(jìn)行識別后,如果該原始網(wǎng)頁為目標(biāo)網(wǎng)頁,則從該目標(biāo)網(wǎng)頁中提取用戶所關(guān)注的目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁鏈接和目標(biāo)內(nèi)容圖片,并通過新網(wǎng)頁顯示出來。
[0063]其中,上述原始網(wǎng)頁為互聯(lián)網(wǎng)中任意類型的網(wǎng)頁,比如,可能是用于展現(xiàn)新聞的新聞網(wǎng)頁,或者用于展現(xiàn)小說的小說網(wǎng)頁,或者用于展現(xiàn)視頻的視頻網(wǎng)頁等等,上述目標(biāo)網(wǎng)頁為某一種特定類型的網(wǎng)頁,比如該目標(biāo)網(wǎng)頁為小說網(wǎng)頁。
[0064]由于原始網(wǎng)頁中通常展現(xiàn)的信息較為廣泛,除了用戶關(guān)注的內(nèi)容之外,還可能存在其他與用戶所關(guān)注內(nèi)容不相關(guān)的信息。例如,原始網(wǎng)頁為小說網(wǎng)頁時,該原始網(wǎng)頁除了顯示小說標(biāo)題、翻頁鏈接和小說正文之外,通常還會顯示例如廣告、其他網(wǎng)站導(dǎo)航、版權(quán)、推薦者等小說無關(guān)內(nèi)容,當(dāng)用戶閱讀小說時,主要關(guān)注點為小說標(biāo)題、翻頁鏈接和小說正文,而其他無關(guān)信息將會對用戶產(chǎn)生干擾,因而,本發(fā)明提供一種網(wǎng)頁處理的方法,采用該方法進(jìn)行處理后得出的小說頁面既簡潔,同時不失關(guān)注點又便于閱讀,減小了無關(guān)內(nèi)容對用戶引起的閱讀干擾。
[0065]下面詳細(xì)描述一種網(wǎng)頁信息處理方法,如圖1所示,該方法包括:
[0066]101、對原始網(wǎng)頁進(jìn)行特征識別,得出各特征的取值。
[0067]其中,所述特征包括:用于表示原始網(wǎng)頁與目標(biāo)網(wǎng)頁相似程度的第一特征、用于表示文本長度的第二特征,所述文本長度是指原始網(wǎng)頁中以文字形式顯示出來的文字及標(biāo)點符號的總個數(shù)、用于表示原始網(wǎng)頁的URL中是否包括目標(biāo)關(guān)鍵字的第三特征、用于表示原始網(wǎng)頁是否存在目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字的第四特征、用于表示原始網(wǎng)頁是否存在目標(biāo)內(nèi)容翻頁鏈接的第五特征和用于表示原始網(wǎng)頁是否存在目標(biāo)內(nèi)容圖片的第六特征。
[0068]102、根據(jù)所述各特征的取值判斷所述原始網(wǎng)頁是否為目標(biāo)網(wǎng)頁。
[0069]103、當(dāng)判斷出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁時,從原始網(wǎng)頁中提取目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁鏈接和目標(biāo)內(nèi)容圖片。
[0070]104、在新頁面中顯示所述目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁鏈接和目標(biāo)內(nèi)容圖片。
[0071]本實施例中,通過對原始網(wǎng)頁進(jìn)行特征識別,得出各特征的取值,根據(jù)所述各特征的取值判斷所述原始網(wǎng)頁是否為目標(biāo)網(wǎng)頁;當(dāng)判斷出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁時,從原始網(wǎng)頁中提取目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁鏈接和目標(biāo)內(nèi)容圖片;并在新頁面中顯示所述目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁鏈接和目標(biāo)內(nèi)容圖片,亦即,原始頁面中除了所述目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁鏈接和目標(biāo)內(nèi)容圖片之外的內(nèi)容,不會在新頁面中顯示,減小了無關(guān)內(nèi)容對用戶引起的閱讀干擾,該新頁面內(nèi)容簡潔,不失關(guān)注點又便于閱讀。
[0072]特別的,當(dāng)上述技術(shù)方案應(yīng)用于小說頁面的處理時,可以實現(xiàn)在新頁面中顯示小說標(biāo)題、小說翻頁鏈接和包含有小說正文的圖片,而除了小說標(biāo)題、小說翻頁鏈接和包含有小說正文的圖片之外的內(nèi)容,例如廣告、其他網(wǎng)站導(dǎo)航、版權(quán)、推薦者等小說無關(guān)內(nèi)容都不會進(jìn)行顯示,減小了無關(guān)內(nèi)容對用戶引起的閱讀干擾,該新頁面內(nèi)容簡潔,不失關(guān)注點又便于閱讀。
[0073]下文以目標(biāo)網(wǎng)頁為圖片形式的小說網(wǎng)頁為例,對上述網(wǎng)頁信息處理的方法做進(jìn)一步說明。如圖2所示,上述步驟101中所述對原始網(wǎng)頁進(jìn)行特征識別,得出各特征的取值具體包括如下步驟:
[0074]1011、利用預(yù)設(shè)文本分類器對原始網(wǎng)頁進(jìn)行計算,得出第一特征的取值,所述第一特征的取值范圍為[0,100]。
[0075]其中,上述預(yù)設(shè)文本分類器采用邏輯回歸(logistic regression)這一線性分類算法。該算法在實現(xiàn)時分為訓(xùn)練和測試兩個計算過程。
[0076]訓(xùn)練過程用于生成預(yù)設(shè)文本分類器,具體為:首先人工標(biāo)注一批訓(xùn)練樣本(該訓(xùn)練樣本包括小說網(wǎng)頁和非小說網(wǎng)頁),然后利用分詞將每個訓(xùn)練樣本向量化,利用邏輯回歸對訓(xùn)練樣本進(jìn)行學(xué)習(xí)以最小化目標(biāo)函數(shù),這樣就生成了預(yù)設(shè)文本分類器。
[0077]測試過程主要是利用生成的預(yù)設(shè)文本分類器對未知樣本進(jìn)行打分,亦即,本步驟中的利用預(yù)設(shè)文本分類器對原始網(wǎng)頁進(jìn)行計算,得出一個分值(其取值范圍為[0,100]),該分值即為第一特征的取值,用于表示原始網(wǎng)頁與目標(biāo)網(wǎng)頁(即圖片形式的小說網(wǎng)頁)相似程度。第一特征也可以稱之為“小說傾向程度”。
[0078]需要說明的是,第一特征的取值越大,說明原始網(wǎng)頁與目標(biāo)網(wǎng)頁(即圖片形式的小說網(wǎng)頁)相似程度越高,反之,第一特征的取值越小,說明原始網(wǎng)頁與目標(biāo)網(wǎng)頁(即圖片形式的小說網(wǎng)頁)相似程度越低。
[0079]1012、計算原始網(wǎng)頁中以文字形式顯示出來的文字及標(biāo)點符號的總個數(shù),得出文本長度,所述文本長度的取值即為第二特征的取值。
[0080]由于圖片形式的小說網(wǎng)頁中,小說正文內(nèi)容均以圖片的形式進(jìn)行顯示,與文字形式的小說網(wǎng)頁相比時,圖片形式的小說網(wǎng)頁中直接以文字形式顯示出來的文字及標(biāo)點符號的總個數(shù)是比較少的,因而,通過本步驟計算出的第二特征的取值在一定程度上也可以用于反映原始網(wǎng)頁與圖片形式的小說網(wǎng)頁相似程度。
[0081]需要說明的是,上述第二特征的取值越小,說明原始網(wǎng)頁與圖片形式的小說網(wǎng)頁相似程度越高,反之上述第二特征的取值越大,說明原始網(wǎng)頁與圖片形式的小說網(wǎng)頁相似程度越低。
[0082]1013、判斷原始網(wǎng)頁的 URL (Uniform/Universal Resource Locator,統(tǒng)一資源定位符)中是否包含目標(biāo)關(guān)鍵字,其中,判斷結(jié)果為原始網(wǎng)頁的URL中包含目標(biāo)關(guān)鍵字時,得出第三特征的取值為真,否則,得出第三特征的取值為假。
[0083]其中,所述目標(biāo)關(guān)鍵字包括:“/fileS/artiCle/html/”、多個連續(xù)的數(shù)字串目錄名稱或者“ xs ”。[0084]上述多個連續(xù)的數(shù)字串目錄名稱,例如,可以是“/75/75623/13214574”,其中“75” “75623” “13214574”即為數(shù)字串目錄名稱。
[0085]本步驟在具體實現(xiàn)時,例如,可以判斷原始網(wǎng)頁的URL中是否包“/files/article/html/”和多個連續(xù)的數(shù)字串目錄名稱;
[0086]或者,又如,還可以判斷原始網(wǎng)頁的URL中是否“ xs ”和多個連續(xù)的數(shù)字串目錄名稱。
[0087]可以理解的是,當(dāng)本步驟得出的第三特征的取值為真時,說明原始網(wǎng)頁的URL中包含目標(biāo)關(guān)鍵字,也就是說原始網(wǎng)頁與目標(biāo)網(wǎng)頁存在相似的可能性較大,反之,當(dāng)本步驟得出的第三特征的取值為假時,說明原始網(wǎng)頁的URL中沒有包含目標(biāo)關(guān)鍵字,也就是說原始網(wǎng)頁與目標(biāo)網(wǎng)頁存在相似的可能性較小。
[0088]1014、判斷原始網(wǎng)頁是否存在目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字,判斷結(jié)果為原始網(wǎng)頁存在目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字時,得出第四特征的取值為真,否則,得出第四特征的取值為假。
[0089]其中,當(dāng)目標(biāo)網(wǎng)頁為圖片形式的小說網(wǎng)頁時,所述目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字包括:“第*卷”、“第*章”、“第*節(jié)”或者“第*篇”。其中可以為數(shù)字。
[0090]可以理解的是,當(dāng)本步驟得出的第四特征的取值為真時,說明原始網(wǎng)頁包含目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字,也就是說原始網(wǎng)頁與目標(biāo)網(wǎng)頁存在相似的可能性較大,反之,當(dāng)本步驟得出的第四特征的取值為假時,說明原始網(wǎng)頁沒有包含目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字,也就是說原始網(wǎng)頁與目標(biāo)網(wǎng)頁存在相似的可能性較小。
[0091 ] 1015、判斷原始網(wǎng)頁是否存在目標(biāo)內(nèi)各翻頁鏈接,判斷結(jié)果為原始網(wǎng)頁存在目標(biāo)內(nèi)容翻頁鏈接時,得出第五特征的取值為真,否則,得出第五特征的取值為假。
[0092]由于圖片形式的小說網(wǎng)頁中,通過會存在“回目錄”、“上一章”、“下一章”、“上一節(jié)”、“下一節(jié)”、“回首頁”、“上一頁”、“下一頁”、“上一卷”、“下一卷”、“上一篇”或者“下一篇”
等等的翻譯鏈接。
[0093]因而,當(dāng)目標(biāo)網(wǎng)頁為圖片形式的小說網(wǎng)頁時,所述目標(biāo)內(nèi)容翻頁鏈接所采用的文字包括:“回目錄”、“上一章”、“下一章”、“上一節(jié)”、“下一節(jié)”、“回首頁”、“上一頁”、“下一頁”、“上一卷”、“下一卷”、“上一篇”或者“下一篇”,這些文字均以鏈接的形式出現(xiàn)。
[0094]可以理解的是,當(dāng)本步驟得出的第五特征的取值為真時,說明原始網(wǎng)頁包含目標(biāo)內(nèi)容翻頁鏈接,也就是說原始網(wǎng)頁與目標(biāo)網(wǎng)頁存在相似的可能性較大,反之,當(dāng)本步驟得出的第五特征的取值為假時,說明原始網(wǎng)頁沒有包含目標(biāo)內(nèi)容翻頁鏈接,也就是說原始網(wǎng)頁與目標(biāo)網(wǎng)頁存在相似的可能性較小。
[0095]1016、判斷原始網(wǎng)頁是否存在目標(biāo)內(nèi)容圖片,判斷結(jié)果為原始網(wǎng)頁存在目標(biāo)內(nèi)容圖片時,得出第六特征的取值為真,否則,得出第六特征的取值為假。
[0096]該目標(biāo)內(nèi)容圖片是指包含有目標(biāo)內(nèi)容的圖片,例如包含有小說正文的圖片。
[0097]可以理解的是,當(dāng)本步驟得出的第六特征的取值為真時,說明原始網(wǎng)頁包含目標(biāo)內(nèi)容圖片,也就是說原始網(wǎng)頁與目標(biāo)網(wǎng)頁存在相似的可能性較大,反之,當(dāng)本步驟得出的第六特征的取值為假時,說明原始網(wǎng)頁沒有包含目標(biāo)內(nèi)容圖片,也就是說原始網(wǎng)頁與目標(biāo)網(wǎng)頁存在相似的可能性較小。
[0098]需要說明的是,為了提高原始網(wǎng)頁識別的精度,步驟102中根據(jù)所述各特征的取值判斷所述原始網(wǎng)頁是否為目標(biāo)網(wǎng)頁時,需要將上述各個特征的取值進(jìn)行組合判斷,以便于準(zhǔn)確判斷出原始網(wǎng)頁是否為目標(biāo)網(wǎng)頁。如下所述,上述步驟102具體可以如下幾種方式實現(xiàn):
[0099]方式一、判斷第二特征的取值是否小于第一預(yù)設(shè)閾值且第三特征的取值是否為真且第六特征的取值是否為真。
[0100]其中,判斷結(jié)果為第二特征的取值小于第一預(yù)設(shè)閾值且第三特征的取值為真且第六特征的取值為真時,亦即,原始網(wǎng)頁中以文字形式顯示出來的文字及標(biāo)點符號的總個數(shù)小于第一預(yù)設(shè)閾值(例如該閾值為500)且原始網(wǎng)頁的URL中包含目標(biāo)關(guān)鍵字且原始網(wǎng)頁存在目標(biāo)內(nèi)容圖片,則可以得出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁;否則,得出所述原始網(wǎng)頁不是目標(biāo)網(wǎng)頁。
[0101]方式二、判斷第二特征的取值是否小于第一預(yù)設(shè)閾值且第五特征的取值是否為真且第六特征的取值是否為真。
[0102]其中,判斷結(jié)果為第二特征的取值小于第一預(yù)設(shè)閾值且第五特征的取值為真且第六特征的取值為真時,亦即原始網(wǎng)頁中以文字形式顯示出來的文字及標(biāo)點符號的總個數(shù)小于第一預(yù)設(shè)閾值(例如該閾值為500)且原始網(wǎng)頁存在目標(biāo)內(nèi)容翻頁鏈接且原始網(wǎng)頁存在目標(biāo)內(nèi)容圖片時,則可以得出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁;否則,得出所述原始網(wǎng)頁不是目標(biāo)網(wǎng)頁;
[0103]方式三、判斷第一特征的取值是否大于第二預(yù)設(shè)閾值且第五特征的取值是否為真且第六特征的取值是否為真。
[0104]其中,判斷結(jié)果為第一特征的取值大于第二預(yù)設(shè)閾值且第五特征的取值為真且第六特征的取值為真時,亦即原始網(wǎng)頁與目標(biāo)網(wǎng)頁相似程度取值大于第二預(yù)設(shè)閾值(例如第二預(yù)設(shè)閾值可以為85)且原始網(wǎng)頁存在目標(biāo)內(nèi)容翻頁鏈接且原始網(wǎng)頁存在目標(biāo)內(nèi)容圖片時,則可以得出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁,否則,得出所述原始網(wǎng)頁不是目標(biāo)網(wǎng)頁;
[0105]方式四、判斷第一特征的取值是否大于第二預(yù)設(shè)閾值且第二特征的取值是否小于第一預(yù)設(shè)閾值且第四特征的取值是否為真且第六特征的取值是否為真。
[0106]其中,判斷結(jié)果為第一特征的取值大于第二預(yù)設(shè)閾值且第二特征的取值小于第一預(yù)設(shè)閾值且第四特征的取值為真且第六特征的取值為真時,亦即原始網(wǎng)頁與目標(biāo)網(wǎng)頁相似程度取值大于第二預(yù)設(shè)閾值且原始網(wǎng)頁中以文字形式顯示出來的文字及標(biāo)點符號的總個數(shù)小于第一預(yù)設(shè)閾值且原始網(wǎng)頁存在目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字且原始網(wǎng)頁存在目標(biāo)內(nèi)容圖片,則可以得出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁,否則,得出所述原始網(wǎng)頁不是目標(biāo)網(wǎng)頁。
[0107]本發(fā)明實施例的一種實現(xiàn)方式中,如圖3所示,上述103步驟可以采用如下步驟實現(xiàn):
[0108]1031、當(dāng)判斷出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁時,從原始網(wǎng)頁中提取目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字所在行的所有文字。
[0109]由于小說標(biāo)題通常是獨立成行的,因而,提取目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字所在行的所有文字,既可以將“第*卷”、“第*章”、“第*節(jié)”或者“第*篇”等目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字提取出來,也可以將具體的章節(jié)名稱提取出來。
[0110]例如,小說標(biāo)題所在行的全文為“第3章軒轅劍之崆峒印”,則本步驟可以將目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字“第3章”和具體的章節(jié)名稱“軒轅劍之崆峒印”都提取出來。
[0111]1032、從原始網(wǎng)頁的DOM (Document Object Model,文檔對象模型)樹中提取目標(biāo)內(nèi)容翻頁鏈接,所述提取出的目標(biāo)內(nèi)容翻頁鏈接包括目標(biāo)內(nèi)容翻頁鏈接采用的文字及其指向的URL。
[0112]例如,目標(biāo)內(nèi)容翻頁鏈接采用的文字為“上一章”(亦即在網(wǎng)頁中該“上一章”顯示為一種網(wǎng)頁鏈接形式)時,其指向的URL應(yīng)該為上一章網(wǎng)頁的URL。
[0113]1033、從原始網(wǎng)頁中目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字所在行與目標(biāo)內(nèi)容翻頁鏈接所在行之間提取目標(biāo)內(nèi)容圖片。
[0114]由于圖片形式的小說網(wǎng)頁中,目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字所在行通常位于整個頁面的上方,目標(biāo)內(nèi)容翻頁鏈接所在行通常位于整個頁面的下方,而包含有小說正文的圖片通常位于目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字所在行與目標(biāo)內(nèi)容翻頁鏈接所在行之間,因而,可以利用該位置關(guān)系快速地將小說正文的圖片提取出來。
[0115]實施例2:
[0116]本發(fā)明實施例提供一種網(wǎng)頁信息處理裝置,如圖4所示,該裝置包括:
[0117]識別模塊11,用于對原始網(wǎng)頁進(jìn)行特征識別,得出各特征的取值,
[0118]所述特征包括:用于表示原始網(wǎng)頁與目標(biāo)網(wǎng)頁相似程度的第一特征、用于表示文本長度的第二特征,所述文本長度是指原始網(wǎng)頁中以文字形式顯示出來的文字及標(biāo)點符號的總個數(shù)、用于表示原始網(wǎng)頁的URL中是否包括目標(biāo)關(guān)鍵字的第三特征、用于表示原始網(wǎng)頁是否存在目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字的第四特征、用于表示原始網(wǎng)頁是否存在目標(biāo)內(nèi)容翻頁鏈接的第五特征和用于表示原始網(wǎng)頁是否存在目標(biāo)內(nèi)容圖片的第六特征;
[0119]判斷模塊12,用于根據(jù)所述各特征的取值判斷所述原始網(wǎng)頁是否為目標(biāo)網(wǎng)頁;
[0120]提取模塊13,用于當(dāng)判斷出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁時,從原始網(wǎng)頁中提取目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁鏈接和目標(biāo)內(nèi)容圖片;
[0121]顯示模塊14,用于在新頁面中顯示所述目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁鏈接和目標(biāo)內(nèi)容圖片。
[0122]本實施例中,通過對原始網(wǎng)頁進(jìn)行特征識別,得出各特征的取值,根據(jù)所述各特征的取值判斷所述原始網(wǎng)頁是否為目標(biāo)網(wǎng)頁;當(dāng)判斷出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁時,從原始網(wǎng)頁中提取目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁鏈接和目標(biāo)內(nèi)容圖片;并在新頁面中顯示所述目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁鏈接和目標(biāo)內(nèi)容圖片,亦即,原始頁面中除了所述目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁鏈接和目標(biāo)內(nèi)容圖片之外的內(nèi)容,不會在新頁面中顯示,減小了無關(guān)內(nèi)容對用戶引起的閱讀干擾,該新頁面內(nèi)容簡潔,不失關(guān)注點又便于閱讀。
[0123]特別的,當(dāng)上述技術(shù)方案應(yīng)用于小說頁面的處理時,可以實現(xiàn)在新頁面中顯示小說標(biāo)題、小說翻頁鏈接和包含有小說正文的圖片,而除了小說標(biāo)題、小說翻頁鏈接和包含有小說正文的圖片之外的內(nèi)容,例如廣告、其他網(wǎng)站導(dǎo)航、版權(quán)、推薦者等小說無關(guān)內(nèi)容都不會進(jìn)行顯示,減小了無關(guān)內(nèi)容對用戶引起的閱讀干擾,該新頁面內(nèi)容簡潔,不失關(guān)注點又便于閱讀。
[0124]本發(fā)明實施例的一種實現(xiàn)方式中,如圖5所示,所述識別模塊11包括:
[0125]計算單元111,用于利用預(yù)設(shè)文本分類器對原始網(wǎng)頁進(jìn)行計算,得出第一特征的取值,所述第一特征的取值范圍為[0,100];
[0126]所述計算單元111,還用于計算原始網(wǎng)頁中以文字形式顯示出來的文字及標(biāo)點符號的總個數(shù),得出文本長度,所述文本長度的取值即為第二特征的取值;[0127]判斷單元112,用于判斷原始網(wǎng)頁的URL中是否包含目標(biāo)關(guān)鍵字,其中,判斷結(jié)果為原始網(wǎng)頁的URL中包含目標(biāo)關(guān)鍵字時,得出第三特征的取值為真,否則,得出第三特征的取值為假;
[0128]所述判斷單元112,還用于判斷原始網(wǎng)頁是否存在目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字,判斷結(jié)果為原始網(wǎng)頁存在目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字時,得出第四特征的取值為真,否則,得出第四特征的取值為假;
[0129]所述判斷單元112,還用于判斷原始網(wǎng)頁是否存在目標(biāo)內(nèi)容翻頁鏈接,判斷結(jié)果為原始網(wǎng)頁存在目標(biāo)內(nèi)容翻頁鏈接時,得出第五特征的取值為真,否則,得出第五特征的取值為假;
[0130]所述判斷單元112,還用于判斷原始網(wǎng)頁是否存在目標(biāo)內(nèi)容圖片,判斷結(jié)果為原始網(wǎng)頁存在目標(biāo)內(nèi)容圖片時,得出第六特征的取值為真,否則,得出第六特征的取值為假。
[0131]本發(fā)明實施例的一種實現(xiàn)方式中,當(dāng)上述目標(biāo)網(wǎng)頁具體為圖片形式的小說網(wǎng)頁時,所述目標(biāo)關(guān)鍵字包括:“/files/article/html/”、多個連續(xù)的數(shù)字串目錄名稱或者“xs”;所述目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字包括?,第*卷”、“第*章”、“第*節(jié)”或者“第*篇”;所述目標(biāo)內(nèi)容翻頁鏈接所采用的文字包括:“回目錄”、“上一章”、“下一章”、“上一節(jié)”、“下一節(jié)”、“回首頁”、“上一頁”、“下一頁”、“上一卷”、“下一卷”、“上一篇”或者“下一篇”。
[0132]本發(fā)明實施例的一種實現(xiàn)方式中,所述判斷模塊12具體用于判斷第二特征的取值是否小于第一預(yù)設(shè)閾值且第三特征的取值是否為真且第六特征的取值是否為真,其中,判斷結(jié)果為第二特征的取值小于第一預(yù)設(shè)閾值且第三特征的取值為真且第六特征的取值為真時,得出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁,否則,得出所述原始網(wǎng)頁不是目標(biāo)網(wǎng)頁;
[0133]或者,所述判斷模塊12具體用于判斷第二特征的取值是否小于第一預(yù)設(shè)閾值且第五特征的取值是否為真且第六特征的取值是否為真,其中,判斷結(jié)果為第二特征的取值小于第一預(yù)設(shè)閾值且第五特征的取值為真且第六特征的取值為真時,得出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁,否則,得出所述原始網(wǎng)頁不是目標(biāo)網(wǎng)頁;
[0134]或者,所述判斷模塊12具體用于判斷第一特征的取值是否大于第二預(yù)設(shè)閾值且第五特征的取值是否為真且第六特征的取值是否為真,其中,判斷結(jié)果為第一特征的取值大于第二預(yù)設(shè)閾值且第五特征的取值為真且第六特征的取值為真時,得出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁,否則,得出所述原始網(wǎng)頁不是目標(biāo)網(wǎng)頁;
[0135]或者,所述判斷模塊12具體用于判斷第一特征的取值是否大于第二預(yù)設(shè)閾值且第二特征的取值是否小于第一預(yù)設(shè)閾值且第四特征的取值是否為真且第六特征的取值是否為真,其中,判斷結(jié)果為第一特征的取值大于第二預(yù)設(shè)閾值且第二特征的取值小于第一預(yù)設(shè)閾值且第四特征的取值為真且第六特征的取值為真時,得出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁,否則,得出所述原始網(wǎng)頁不是目標(biāo)網(wǎng)頁。
[0136]本發(fā)明實施例的一種實現(xiàn)方式中,所述提取模塊13具體用于當(dāng)判斷模塊判斷出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁時,從原始網(wǎng)頁中提取目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字所在行的所有文字;從原始網(wǎng)頁的DOM樹中提取目標(biāo)內(nèi)容翻頁鏈接,所述提取出的目標(biāo)內(nèi)容翻頁鏈接包括目標(biāo)內(nèi)容翻頁鏈接采用的文字及其指向的URL ;從原始網(wǎng)頁中目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字所在行與目標(biāo)內(nèi)容翻頁鏈接所在行之間提取目標(biāo)內(nèi)容圖片。
[0137]通過以上的實施方式的描述,所屬領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可借助軟件加必需的通用硬件的方式來實現(xiàn),當(dāng)然也可以通過硬件,但很多情況下前者是更佳的實施方式。基于這樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機(jī)軟件產(chǎn)品存儲在可讀取的存儲介質(zhì)中,如計算機(jī)的軟盤,硬盤或光盤等,包括若干指令用以使得一臺計算機(jī)設(shè)備(可以是個人計算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例所述的方法。
[0138]以上所述,僅為本發(fā)明的【具體實施方式】,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本【技術(shù)領(lǐng)域】的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。
【權(quán)利要求】
1.一種網(wǎng)頁信息處理方法,其特征在于,包括: 對原始網(wǎng)頁進(jìn)行特征識別,得出各特征的取值,所述特征包括:用于表示原始網(wǎng)頁與目標(biāo)網(wǎng)頁相似程度的第一特征、用于表示文本長度的第二特征,所述文本長度是指原始網(wǎng)頁中以文字形式顯示出來的文字及標(biāo)點符號的總個數(shù)、用于表示原始網(wǎng)頁的URL中是否包括目標(biāo)關(guān)鍵字的第三特征、用于表示原始網(wǎng)頁是否存在目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字的第四特征、用于表示原始網(wǎng)頁是否存在目標(biāo)內(nèi)容翻頁鏈接的第五特征和用于表示原始網(wǎng)頁是否存在目標(biāo)內(nèi)容圖片的第六特征; 根據(jù)所述各特征的取值判斷所述原始網(wǎng)頁是否為目標(biāo)網(wǎng)頁; 當(dāng)判斷出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁時,從原始網(wǎng)頁中提取目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁鏈接和目標(biāo)內(nèi)容圖片; 在新頁面中顯示所述目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁鏈接和目標(biāo)內(nèi)容圖片。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對原始網(wǎng)頁進(jìn)行特征識別,得出各特征的取值包括: 利用預(yù)設(shè)文本分類器對原始網(wǎng)頁進(jìn)行計算,得出第一特征的取值,所述第一特征的取值范圍為[O, 100]; 計算原始網(wǎng)頁中以文字形式顯示出來的文字及標(biāo)點符號的總個數(shù),得出文本長度,所述文本長度的取值即為第二特征的取值; 判斷原始網(wǎng)頁的URL中是否包含目標(biāo)關(guān)鍵字,其中,判斷結(jié)果為原始網(wǎng)頁的URL中包含目標(biāo)關(guān)鍵字時,得出第三特征的取值為真,否則,得出第三特征的取值為假; 判斷原始網(wǎng)頁是否存在目標(biāo)內(nèi)`容標(biāo)題關(guān)鍵字,判斷結(jié)果為原始網(wǎng)頁存在目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字時,得出第四特征的取值為真,否則,得出第四特征的取值為假; 判斷原始網(wǎng)頁是否存在目標(biāo)內(nèi)各翻頁鏈接,判斷結(jié)果為原始網(wǎng)頁存在目標(biāo)內(nèi)各翻頁鏈接時,得出第五特征的取值為真,否則,得出第五特征的取值為假; 判斷原始網(wǎng)頁是否存在目標(biāo)內(nèi)容圖片,判斷結(jié)果為原始網(wǎng)頁存在目標(biāo)內(nèi)容圖片時,得出第六特征的取值為真,否則,得出第六特征的取值為假。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述目標(biāo)關(guān)鍵字包括Z/files/article/html/”、多個連續(xù)的數(shù)字串目錄名稱或者“xs” ; 所述目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字包括:“第*卷”、“第*章”、“第*節(jié)”或者“第*篇”; 所述目標(biāo)內(nèi)容翻頁鏈接所采用的文字包括:“回目錄”、“上一章”、“下一章”、“上一節(jié)”、“下一節(jié)”、“回首頁”、“上一頁”、“下一頁”、“上一卷”、“下一卷”、“上一篇”或者“下一篇”。
4.根據(jù)權(quán)利要求1-3任一項所述的方法,其特征在于,所述根據(jù)所述各特征的取值判斷所述原始網(wǎng)頁是否為目標(biāo)網(wǎng)頁包括: 判斷第二特征的取值是否小于第一預(yù)設(shè)閾值且第三特征的取值是否為真且第六特征的取值是否為真,其中,判斷結(jié)果為第二特征的取值小于第一預(yù)設(shè)閾值且第三特征的取值為真且第六特征的取值為真時,得出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁,否則,得出所述原始網(wǎng)頁不是目標(biāo)網(wǎng)頁; 或者,判斷第二特征的取值是否小于第一預(yù)設(shè)閾值且第五特征的取值是否為真且第六特征的取值是否為真,其中,判斷結(jié)果為第二特征的取值小于第一預(yù)設(shè)閾值且第五特征的取值為真且第六特征的取值為真時,得出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁,否則,得出所述原始網(wǎng)頁不是目標(biāo)網(wǎng)頁; 或者,判斷第一特征的取值是否大于第二預(yù)設(shè)閾值且第五特征的取值是否為真且第六特征的取值是否為真,其中,判斷結(jié)果為第一特征的取值大于第二預(yù)設(shè)閾值且第五特征的取值為真且第六特征的取值為真時,得出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁,否則,得出所述原始網(wǎng)頁不是目標(biāo)網(wǎng)頁; 或者,判斷第一特征的取值是否大于第二預(yù)設(shè)閾值且第二特征的取值是否小于第一預(yù)設(shè)閾值且第四特征的取值是否為真且第六特征的取值是否為真,其中,判斷結(jié)果為第一特征的取值大于第二預(yù)設(shè)閾值且第二特征的取值小于第一預(yù)設(shè)閾值且第四特征的取值為真且第六特征的取值為真時,得出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁,否則,得出所述原始網(wǎng)頁不是目標(biāo)網(wǎng)頁。
5.根據(jù)權(quán)利要求1-3所述的方法,其特征在于,所述當(dāng)判斷出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁時,從原始網(wǎng)頁中提取目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁鏈接和目標(biāo)內(nèi)容圖片包括: 當(dāng)判斷出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁時,從原始網(wǎng)頁中提取目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字所在行的所有文字; 從原始網(wǎng)頁的DOM樹中提取目標(biāo)內(nèi)容翻頁鏈接,所述提取出的目標(biāo)內(nèi)容翻頁鏈接包括目標(biāo)內(nèi)容翻頁鏈接采用的文字及其指向的URL ; 從原始網(wǎng)頁中目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字所在行與目標(biāo)內(nèi)容翻頁鏈接所在行之間提取目標(biāo)內(nèi)容圖片。
6.一種網(wǎng)頁信息處理裝置,其特征在于,包括: 識別模塊,用于對原始網(wǎng)頁進(jìn)行特征識別,得出各特征的取值,所述特征包括:用于表示原始網(wǎng)頁與目標(biāo)網(wǎng)頁相似程度的第一特征、用于表示文本長度的第二特征,所述文本長度是指原始網(wǎng)頁中以文字形式顯示出來的文字及標(biāo)點符號的總個數(shù)、用于表示原始網(wǎng)頁的URL中是否包括目標(biāo)關(guān)鍵字的第三特征、用于表示原始網(wǎng)頁是否存在目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字的第四特征、用于表示原始網(wǎng)頁是否存在目標(biāo)內(nèi)容翻頁鏈接的第五特征和用于表示原始網(wǎng)頁是否存在目標(biāo)內(nèi)容圖片的第六特征; 判斷模塊,用于根據(jù)所述各特征的取值判斷所述原始網(wǎng)頁是否為目標(biāo)網(wǎng)頁; 提取模塊,用于當(dāng)判斷出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁時,從原始網(wǎng)頁中提取目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁鏈接和目標(biāo)內(nèi)容圖片; 顯示模塊,用于在新頁面中顯示所述目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁鏈接和目標(biāo)內(nèi)容圖片。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述識別模塊包括: 計算單元,用于利用預(yù)設(shè)文本分類器對原始網(wǎng)頁進(jìn)行計算,得出第一特征的取值,所述第一特征的取值范圍為[0,100]; 所述計算單元,還用于計算原始網(wǎng)頁中以文字形式顯示出來的文字及標(biāo)點符號的總個數(shù),得出文本長度,所述文本長度的取值即為第二特征的取值; 判斷單元,用于判斷原始網(wǎng)頁的URL中是否包含目標(biāo)關(guān)鍵字,其中,判斷結(jié)果為原始網(wǎng)頁的URL中包含目標(biāo)關(guān)鍵字時,得出第三特征的取值為真,否則,得出第三特征的取值為假; 所述判斷單元,還用于判斷原始網(wǎng)頁是否存在目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字,判斷結(jié)果為原始網(wǎng)頁存在目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字時,得出第四特征的取值為真,否則,得出第四特征的取值為假; 所述判斷單元,還用于判斷原始網(wǎng)頁是否存在目標(biāo)內(nèi)容翻頁鏈接,判斷結(jié)果為原始網(wǎng)頁存在目標(biāo)內(nèi)容翻頁鏈接時,得出第五特征的取值為真,否則,得出第五特征的取值為假; 所述判斷單元,還用于判斷原始網(wǎng)頁是否存在目標(biāo)內(nèi)容圖片,判斷結(jié)果為原始網(wǎng)頁存在目標(biāo)內(nèi)容圖片時,得出第六特征的取值為真,否則,得出第六特征的取值為假。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述目標(biāo)關(guān)鍵字包括Z/files/article/html/”、多個連續(xù)的數(shù)字串目錄名稱或者“xs” ; 所述目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字包括?,第*卷”、“第*章”、“第*節(jié)”或者“第*篇”; 所述目標(biāo)內(nèi)容翻頁鏈接所采用的文字包括:“回目錄”、“上一章”、“下一章”、“上一節(jié)”、“下一節(jié)”、“回首頁”、“上一頁”、“下一頁”、“上一卷”、“下一卷”、“上一篇”或者“下一篇”。
9.根據(jù)權(quán)利要 求6-8任一項所述的裝置,其特征在于, 所述判斷模塊具體用于判斷第二特征的取值是否小于第一預(yù)設(shè)閾值且第三特征的取值是否為真且第六特征的取值是否為真,其中,判斷結(jié)果為第二特征的取值小于第一預(yù)設(shè)閾值且第三特征的取值為真且第六特征的取值為真時,得出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁,否貝U,得出所述原始網(wǎng)頁不是目標(biāo)網(wǎng)頁; 或者,所述判斷模塊具體用于判斷第二特征的取值是否小于第一預(yù)設(shè)閾值且第五特征的取值是否為真且第六特征的取值是否為真,其中,判斷結(jié)果為第二特征的取值小于第一預(yù)設(shè)閾值且第五特征的取值為真且第六特征的取值為真時,得出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁,否則,得出所述原始網(wǎng)頁不是目標(biāo)網(wǎng)頁; 或者,所述判斷模塊具體用于判斷第一特征的取值是否大于第二預(yù)設(shè)閾值且第五特征的取值是否為真且第六特征的取值是否為真,其中,判斷結(jié)果為第一特征的取值大于第二預(yù)設(shè)閾值且第五特征的取值為真且第六特征的取值為真時,得出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁,否則,得出所述原始網(wǎng)頁不是目標(biāo)網(wǎng)頁; 或者,所述判斷模塊具體用于判斷第一特征的取值是否大于第二預(yù)設(shè)閾值且第二特征的取值是否小于第一預(yù)設(shè)閾值且第四特征的取值是否為真且第六特征的取值是否為真,其中,判斷結(jié)果為第一特征的取值大于第二預(yù)設(shè)閾值且第二特征的取值小于第一預(yù)設(shè)閾值且第四特征的取值為真且第六特征的取值為真時,得出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁,否則,得出所述原始網(wǎng)頁不是目標(biāo)網(wǎng)頁。
10.根據(jù)權(quán)利要求6-8所述的裝置,其特征在于,所述提取模塊具體用于當(dāng)判斷模塊判斷出所述原始網(wǎng)頁為目標(biāo)網(wǎng)頁時,從原始網(wǎng)頁中提取目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字所在行的所有文字;從原始網(wǎng)頁的DOM樹中提取目標(biāo)內(nèi)容翻頁鏈接,所述提取出的目標(biāo)內(nèi)容翻頁鏈接包括目標(biāo)內(nèi)容翻頁鏈接采用的文字及其指向的URL ;從原始網(wǎng)頁中目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字所在行與目標(biāo)內(nèi)容翻頁鏈接所在行之間提取目標(biāo)內(nèi)容圖片。
【文檔編號】G06F17/30GK103729354SQ201210382157
【公開日】2014年4月16日 申請日期:2012年10月10日 優(yōu)先權(quán)日:2012年10月10日
【發(fā)明者】蔡兵 申請人:騰訊科技(深圳)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1