亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

網(wǎng)頁(yè)類型識(shí)別方法及裝置制造方法

文檔序號(hào):6515256閱讀:149來(lái)源:國(guó)知局
網(wǎng)頁(yè)類型識(shí)別方法及裝置制造方法
【專利摘要】本發(fā)明公開(kāi)了一種網(wǎng)頁(yè)類型識(shí)別方法及裝置,該方法包括:在多個(gè)已知網(wǎng)頁(yè)類型的樣本網(wǎng)頁(yè)中分別統(tǒng)計(jì)是否包含多個(gè)目的頁(yè)面特征,得到統(tǒng)計(jì)結(jié)果;利用決策樹(shù)算法對(duì)多個(gè)樣本網(wǎng)頁(yè)的已知網(wǎng)頁(yè)類型和統(tǒng)計(jì)結(jié)果進(jìn)行分析,得到目的頁(yè)面特征的優(yōu)先級(jí)排序,以及目的頁(yè)面特征與網(wǎng)頁(yè)類型之間的對(duì)應(yīng)關(guān)系;按照所述優(yōu)先級(jí)排序在待識(shí)別網(wǎng)頁(yè)中依次查找所述目的頁(yè)面特征,根據(jù)查找結(jié)果和所述對(duì)應(yīng)關(guān)系確定待識(shí)別網(wǎng)頁(yè)的網(wǎng)頁(yè)類型。與現(xiàn)有技術(shù)相比,該方法可以利用樣本網(wǎng)頁(yè)對(duì)多個(gè)目的頁(yè)面特征的有效性進(jìn)行排序,在識(shí)別待識(shí)別網(wǎng)頁(yè)時(shí),按照排序先查找有效性較高的目的頁(yè)面特征,然后查找有效性較低的目的頁(yè)面特征,縮短了識(shí)別耗費(fèi)的時(shí)間,提高了識(shí)別效率。
【專利說(shuō)明】網(wǎng)頁(yè)類型識(shí)別方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及移動(dòng)通信領(lǐng)域,特別是涉及一種網(wǎng)頁(yè)類型識(shí)別方法及裝置。
【背景技術(shù)】
[0002]小說(shuō)閱讀器是一種提供小說(shuō)下載閱讀功能的軟件,不僅能夠提供本地小說(shuō)閱讀下載,一般還支持網(wǎng)絡(luò)小說(shuō)的下載、閱讀、搜索等功能。網(wǎng)絡(luò)小說(shuō)下載或閱讀,是以互聯(lián)網(wǎng)上的各個(gè)小說(shuō)類的網(wǎng)頁(yè)為基礎(chǔ),通過(guò)將這些網(wǎng)頁(yè)上的小說(shuō)進(jìn)行抽取,再重新整合成合適的格式呈現(xiàn)給用戶。由于網(wǎng)頁(yè)小說(shuō)的目錄頁(yè)面和內(nèi)容頁(yè)面采用的抽取算法不同,通常需要首先判斷小說(shuō)的網(wǎng)頁(yè)類型,然后根據(jù)網(wǎng)頁(yè)類型再采用相應(yīng)的抽取算法進(jìn)行抽取。
[0003]目前識(shí)別網(wǎng)頁(yè)類型的方法有:基于白名單識(shí)別和基于頁(yè)面關(guān)鍵字識(shí)別?;诎酌麊巫R(shí)別的方法是指將互聯(lián)網(wǎng)上的各個(gè)目標(biāo)網(wǎng)頁(yè)歸入白名單中,針對(duì)白名單中不同網(wǎng)頁(yè)的頁(yè)面特征采用不同的識(shí)別算法,如起點(diǎn)網(wǎng)、吾讀網(wǎng)等小說(shuō)網(wǎng)頁(yè)分別有各自的排版布局方法,預(yù)先根據(jù)其排版特征設(shè)計(jì)出每個(gè)網(wǎng)站對(duì)應(yīng)的識(shí)別算法來(lái)區(qū)分這些網(wǎng)站的小說(shuō)的網(wǎng)頁(yè)類型?;陧?yè)面關(guān)鍵字方法根據(jù)頁(yè)面是否包含區(qū)分目錄頁(yè)面和內(nèi)容頁(yè)面的關(guān)鍵字來(lái)識(shí)別網(wǎng)頁(yè)類型,例如某一網(wǎng)頁(yè)包含“設(shè)置字體”,則認(rèn)為當(dāng)前網(wǎng)頁(yè)類型為內(nèi)容頁(yè)面。
[0004]上述基于白名單和頁(yè)面關(guān)鍵字識(shí)別的方法都存在一定的缺點(diǎn)?;诎酌麊巫R(shí)別的方法,對(duì)于未加入到白名單中網(wǎng)頁(yè)的網(wǎng)頁(yè)類型往往無(wú)法準(zhǔn)確識(shí)別,而隨著互聯(lián)網(wǎng)網(wǎng)頁(yè)數(shù)量巨大且網(wǎng)站不斷增加,白名單中的網(wǎng)頁(yè)的數(shù)目也在不斷增多,導(dǎo)致維護(hù)成本非常高;而基于頁(yè)面關(guān)鍵字識(shí)別的方法,由于網(wǎng)絡(luò)頁(yè)面差別很大,用于區(qū)分網(wǎng)頁(yè)類型的關(guān)鍵字可能不適用所有的網(wǎng)頁(yè),因此頁(yè)面關(guān)鍵字方法往往無(wú)法準(zhǔn)確識(shí)別網(wǎng)頁(yè)類型。

【發(fā)明內(nèi)容】

[0005]本發(fā)明實(shí)施例提供了一種網(wǎng)頁(yè)類型識(shí)別方法及裝置,以解決現(xiàn)有技術(shù)中存在無(wú)法對(duì)網(wǎng)頁(yè)類型進(jìn)行準(zhǔn)確識(shí)別的問(wèn)題。
[0006]為了解決上述技術(shù)問(wèn)題,第一方面,本發(fā)明實(shí)施例公開(kāi)了一種網(wǎng)頁(yè)類型識(shí)別方法,包括:在多個(gè)已知網(wǎng)頁(yè)類型的樣本網(wǎng)頁(yè)中分別統(tǒng)計(jì)是否包含多個(gè)目的頁(yè)面特征,得到統(tǒng)計(jì)結(jié)果;利用決策樹(shù)算法對(duì)多個(gè)樣本網(wǎng)頁(yè)的已知網(wǎng)頁(yè)類型和統(tǒng)計(jì)結(jié)果進(jìn)行分析,得到目的頁(yè)面特征的優(yōu)先級(jí)排序,以及目的頁(yè)面特征與網(wǎng)頁(yè)類型之間的對(duì)應(yīng)關(guān)系;按照所述優(yōu)先級(jí)排序在待識(shí)別網(wǎng)頁(yè)中依次查找所述目的頁(yè)面特征,根據(jù)查找結(jié)果和所述對(duì)應(yīng)關(guān)系確定待識(shí)別網(wǎng)頁(yè)的網(wǎng)頁(yè)類型。
[0007]第一方面第一種可能的實(shí)施方式中,所述在多個(gè)已知網(wǎng)頁(yè)類型的樣本網(wǎng)頁(yè)中分別統(tǒng)計(jì)是否包含多個(gè)目的頁(yè)面特征,得到統(tǒng)計(jì)結(jié)果的步驟包括:逐一判斷所述樣本網(wǎng)頁(yè)是否包含目的頁(yè)面特征;當(dāng)所述樣本網(wǎng)頁(yè)包含所述目的頁(yè)面特征時(shí),記錄為第一特征;當(dāng)所述樣本網(wǎng)頁(yè)不包含所述目的頁(yè)面特征時(shí),記錄為第二特征;構(gòu)建包含所有樣本網(wǎng)頁(yè)對(duì)應(yīng)第一特征、第二特征的表格,將所述表格作為統(tǒng)計(jì)結(jié)果。
[0008]結(jié)合第一方面第一種可能的實(shí)施方式,第一方面第二種可能的實(shí)施方式中,所述利用決策樹(shù)算法對(duì)多個(gè)樣本網(wǎng)頁(yè)的已知網(wǎng)頁(yè)類型和統(tǒng)計(jì)結(jié)果進(jìn)行分析,得到目的頁(yè)面特征的優(yōu)先級(jí)排序,以及目的頁(yè)面特征與網(wǎng)頁(yè)類型之間的對(duì)應(yīng)關(guān)系的步驟包括:根據(jù)所述表格計(jì)算多個(gè)所述目的頁(yè)面特征的信息增益;將多個(gè)所述目的頁(yè)面特征按照信息增益由大到小進(jìn)行排序,得到目的頁(yè)面特征的優(yōu)先級(jí)排序;根據(jù)多個(gè)樣本網(wǎng)頁(yè)的已知網(wǎng)頁(yè)類型和所述目的頁(yè)面特征的優(yōu)先級(jí)排序生成目的頁(yè)面特征與網(wǎng)頁(yè)類型的對(duì)應(yīng)關(guān)系。
[0009]結(jié)合第一方面第二種可能的實(shí)施方式,第一方面第三種可能的實(shí)施方式中,按以下方式計(jì)算每個(gè)所述目的頁(yè)面特征的信息增益:根據(jù)所述表格計(jì)算目的頁(yè)面特征的相對(duì)應(yīng)第一特征的比值和第二特征的比值;分別計(jì)算第一特征和第二特征的信息熵;根據(jù)所述第一特征和第二特征的信息熵計(jì)算目的頁(yè)面特征的條件熵;根據(jù)所述表格計(jì)算目的頁(yè)面特征的信息熵;將目的頁(yè)面特征的信息熵減去目的頁(yè)面特征的條件熵得到目的頁(yè)面特征的信息增益。
[0010]結(jié)合第一方面、第一方面第一種可能的實(shí)施方式、第一方面第二種可能的實(shí)施方式或第一方面第三種可能的實(shí)施方式,所述在待識(shí)別網(wǎng)頁(yè)中按照所述優(yōu)先級(jí)排序依次查找所述目的頁(yè)面特征,根據(jù)查找結(jié)果和所述對(duì)應(yīng)關(guān)系確定待識(shí)別網(wǎng)頁(yè)的網(wǎng)頁(yè)類型的步驟包括:在待識(shí)別網(wǎng)頁(yè)中查找優(yōu)先級(jí)排序最大的目的頁(yè)面特征;判斷所述待識(shí)別網(wǎng)頁(yè)中是否存在優(yōu)先級(jí)排序最大的目的頁(yè)面特征;當(dāng)所述待識(shí)別網(wǎng)頁(yè)中存在優(yōu)先級(jí)排序最大的目的頁(yè)面特征時(shí),在所述對(duì)應(yīng)關(guān)系中查找與存在的目的頁(yè)面特征相對(duì)應(yīng)的網(wǎng)頁(yè)類型,將查找到的網(wǎng)頁(yè)類型作為待識(shí)別網(wǎng)頁(yè)的網(wǎng)頁(yè)類型;當(dāng)所述待識(shí)別網(wǎng)頁(yè)中不存在優(yōu)先級(jí)排序最大的目的頁(yè)面特征時(shí),按照優(yōu)先級(jí)排序由大到小在待識(shí)別網(wǎng)頁(yè)中依次查找其它目的頁(yè)面特征,直至查找到待識(shí)別網(wǎng)頁(yè)的網(wǎng)頁(yè)類型,或者,直至將對(duì)應(yīng)關(guān)系表中所有目的頁(yè)面特征查找完成。
[0011]第二方面,本發(fā)明實(shí)施例公開(kāi)了一種網(wǎng)頁(yè)類型識(shí)別裝置,包括:統(tǒng)計(jì)單元,用于在多個(gè)已知網(wǎng)頁(yè)類型的樣本網(wǎng)頁(yè)中分別統(tǒng)計(jì)是否包含多個(gè)目的頁(yè)面特征,得到統(tǒng)計(jì)結(jié)果;分析單元,用于利用決策樹(shù)算法對(duì)對(duì)多個(gè)樣本網(wǎng)頁(yè)的已知網(wǎng)頁(yè)類型和統(tǒng)計(jì)結(jié)果進(jìn)行分析,得到目的頁(yè)面特征的優(yōu)先級(jí)排序,以及目的頁(yè)面特征與網(wǎng)頁(yè)類型之間的對(duì)應(yīng)關(guān)系;網(wǎng)頁(yè)類型確定單元,用于按照所述優(yōu)先級(jí)排序在待識(shí)別網(wǎng)頁(yè)中依次查找所述目的頁(yè)面特征,根據(jù)查找結(jié)果和所述對(duì)應(yīng)關(guān)系確定待識(shí)別網(wǎng)頁(yè)的網(wǎng)頁(yè)類型。
[0012]第二方面第一種可能的實(shí)施方式中,所述統(tǒng)計(jì)單元包括:第一判斷單元,用于逐一判斷所述樣本網(wǎng)頁(yè)是否包含目的頁(yè)面特征;記錄單元,用于當(dāng)所述樣本網(wǎng)頁(yè)包含所述目的頁(yè)面特征時(shí),記錄為第一特征;當(dāng)所述樣本網(wǎng)頁(yè)不包含所述目的頁(yè)面特征時(shí),記錄為第二特征;表格構(gòu)建單兀,用于構(gòu)建包含所有樣本網(wǎng)頁(yè)對(duì)應(yīng)第一特征、第二特征的表格,將所述表格作為統(tǒng)計(jì)結(jié)果。
[0013]結(jié)合第二方面第一種可能的實(shí)施方式,第二方面第二種可能的實(shí)施方式中,所述分析單元包括:信息增益計(jì)算單元,用于根據(jù)所述表格計(jì)算多個(gè)所述目的頁(yè)面特征的信息增益;排序單元,用于將多個(gè)所述目的頁(yè)面特征按照信息增益由大到小進(jìn)行排序,得到目的頁(yè)面特征的優(yōu)先級(jí)排序;對(duì)應(yīng)關(guān)系生成單元,用于根據(jù)多個(gè)樣本網(wǎng)頁(yè)的已知網(wǎng)頁(yè)類型和所述目的頁(yè)面特征的優(yōu)先級(jí)排序生成目的頁(yè)面特征與網(wǎng)頁(yè)類型的對(duì)應(yīng)關(guān)系。
[0014]結(jié)合第二方面第二種可能的實(shí)施方式,第二方面第三種可能的實(shí)施方式中,所述信息增益計(jì)算單元包括:比值計(jì)算單元,用于根據(jù)所述表格計(jì)算目的頁(yè)面特征的相對(duì)應(yīng)第一特征的比值和第二特征的比值;第一信息熵計(jì)算單元,用于分別計(jì)算第一特征和第二特征的信息熵;條件熵計(jì)算單元,用于根據(jù)所述第一特征和第二特征的信息熵計(jì)算目的頁(yè)面特征的條件熵;第二信息熵計(jì)算單元,用于根據(jù)所述表格計(jì)算目的頁(yè)面特征的信息熵;信息增益計(jì)算子單元,用于將目的頁(yè)面特征的信息熵減去目的頁(yè)面特征的條件熵得到目的頁(yè)面特征的信息增益。
[0015]結(jié)合第二方面、第二方面第一種可能的實(shí)施方式、第二方面第二種可能的實(shí)施方式或第二方面第三種可能的實(shí)施方式,第二方面第四種可能的實(shí)施方式中所述網(wǎng)頁(yè)類型確定單元包括:目的頁(yè)面特征查找單元,在待識(shí)別網(wǎng)頁(yè)中查找優(yōu)先級(jí)排序最大的目的頁(yè)面特征;第二判斷單元,用于判斷所述待識(shí)別網(wǎng)頁(yè)中是否存在優(yōu)先級(jí)排序最大的目的頁(yè)面特征;網(wǎng)頁(yè)類型查找單元,用于當(dāng)所述待識(shí)別網(wǎng)頁(yè)中存在優(yōu)先級(jí)排序最大的目的頁(yè)面特征時(shí),在所述對(duì)應(yīng)關(guān)系中查找與存在的目的頁(yè)面特征相對(duì)應(yīng)的網(wǎng)頁(yè)類型,將查找到的網(wǎng)頁(yè)類型作為待識(shí)別網(wǎng)頁(yè)的網(wǎng)頁(yè)類型;當(dāng)所述待識(shí)別網(wǎng)頁(yè)中不存在優(yōu)先級(jí)排序最大的目的頁(yè)面特征時(shí),所述目的頁(yè)面特征查找單元還按照優(yōu)先級(jí)排序由大到小在待識(shí)別網(wǎng)頁(yè)中依次查找其它目的頁(yè)面特征,直至查找到待識(shí)別網(wǎng)頁(yè)的網(wǎng)頁(yè)類型,或者,直至查找完對(duì)應(yīng)關(guān)系表中所有目的頁(yè)面特征。
[0016]由以上技術(shù)方案可見(jiàn),本申請(qǐng)實(shí)施例提供的該網(wǎng)頁(yè)類型識(shí)別方法,首先統(tǒng)計(jì)多個(gè)已知網(wǎng)頁(yè)類型的樣本網(wǎng)頁(yè)對(duì)多個(gè)目的網(wǎng)頁(yè)特征的包含情況,得到樣本網(wǎng)頁(yè)對(duì)多個(gè)目的頁(yè)面特征的統(tǒng)計(jì)結(jié)果,然后利用決策樹(shù)算法進(jìn)行分析,得到目的頁(yè)面特征的優(yōu)先級(jí)排序,以及目的頁(yè)面特征與網(wǎng)頁(yè)類型之間的對(duì)應(yīng)關(guān)系,目的頁(yè)面特征的優(yōu)先級(jí)排序就是目的頁(yè)面特征識(shí)別網(wǎng)頁(yè)類型的有效性排序,最后按照優(yōu)先級(jí)排序在待識(shí)別網(wǎng)頁(yè)中依次查找多個(gè)目的頁(yè)面特征,并根據(jù)查找結(jié)果和目的頁(yè)面特征與網(wǎng)頁(yè)類型之間的對(duì)應(yīng)關(guān)系確定待識(shí)別網(wǎng)頁(yè)的網(wǎng)頁(yè)類型。
[0017]與現(xiàn)有技術(shù)相比,該方法可以利用樣本網(wǎng)頁(yè)對(duì)多個(gè)目的頁(yè)面特征的有效性進(jìn)行排序,在識(shí)別待識(shí)別網(wǎng)頁(yè)時(shí),按照排序先查找有效性較高的目的頁(yè)面特征,然后查找有效性較低的目的頁(yè)面特征,提高了識(shí)別準(zhǔn)確率,并且縮短了識(shí)別耗費(fèi)的時(shí)間,提高了識(shí)別效率。
【專利附圖】

【附圖說(shuō)明】
[0018]為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,對(duì)于本領(lǐng)域普通技術(shù)人員而言,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0019]圖1為本申請(qǐng)實(shí)施例提供的一種網(wǎng)頁(yè)類型識(shí)別方法的流程示意圖;
[0020]圖2為本申請(qǐng)實(shí)施例提供的SlOO的詳細(xì)流程示意圖;
[0021]圖3為本申請(qǐng)實(shí)施例提供的S200的詳細(xì)流程示意圖;
[0022]圖4為本申請(qǐng)實(shí)施例提供的S201的詳細(xì)流程示意圖;
[0023]圖5為本申請(qǐng)實(shí)施例中得到頁(yè)面特征與網(wǎng)頁(yè)類型的對(duì)應(yīng)關(guān)系的最終結(jié)果的可視化示意圖;
[0024]圖6為本申請(qǐng)實(shí)施例提供的S300的詳細(xì)流程示意圖;
[0025]圖7為本申請(qǐng)實(shí)施例提供的一種網(wǎng)頁(yè)類型識(shí)別裝置的結(jié)構(gòu)示意圖;
[0026]圖8為本申請(qǐng)實(shí)施例提供的統(tǒng)計(jì)單元的結(jié)構(gòu)示意圖;
[0027]圖9為本申請(qǐng)實(shí)施例提供的分析單元的結(jié)構(gòu)示意圖;[0028]圖10為本申請(qǐng)實(shí)施例提供的信息增益計(jì)算單元的結(jié)構(gòu)示意圖;
[0029]圖11為本申請(qǐng)實(shí)施例提供的網(wǎng)頁(yè)類型確定單元的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0030]為了使本【技術(shù)領(lǐng)域】的人員更好地理解本發(fā)明實(shí)施例中的技術(shù)方案,并使本發(fā)明實(shí)施例的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖對(duì)本發(fā)明實(shí)施例中技術(shù)方案作進(jìn)一步詳細(xì)的說(shuō)明。
[0031]參見(jiàn)圖1,為本申請(qǐng)實(shí)施例提供的一種網(wǎng)頁(yè)類型識(shí)別方法的流程示意圖,所述方法包括以下步驟:
[0032]SlOO:在多個(gè)已知網(wǎng)頁(yè)類型的樣本網(wǎng)頁(yè)中分別統(tǒng)計(jì)是否包含多個(gè)目的頁(yè)面特征,得到統(tǒng)計(jì)結(jié)果。
[0033]已知網(wǎng)頁(yè)類型的樣本網(wǎng)頁(yè)可以隨機(jī)選取小說(shuō)網(wǎng)站的網(wǎng)頁(yè),樣本網(wǎng)頁(yè)的網(wǎng)頁(yè)類型可以包括:小說(shuō)內(nèi)容頁(yè)和小說(shuō)目錄頁(yè)等。目的頁(yè)面特征是指樣本網(wǎng)頁(yè)中包含的特征,可以根據(jù)網(wǎng)頁(yè)中的字?jǐn)?shù)、特征關(guān)鍵字或者網(wǎng)頁(yè)字?jǐn)?shù)與特征關(guān)鍵字從樣本網(wǎng)頁(yè)中提取多個(gè)目的頁(yè)面特征,另外,還可以接收用戶輸入的多個(gè)頁(yè)面特征。在本申請(qǐng)其他實(shí)施例中,還可以根據(jù)其它參數(shù)來(lái)選取目的頁(yè)面特征,在此不再一一列舉,并且可以采用其他方式獲取目的頁(yè)面特征。
[0034]在本申請(qǐng)實(shí)施例中,如圖2所示,該步驟可以包括以下步驟:
[0035]SlOl:逐一判斷所述樣本網(wǎng)頁(yè)是否包含目的頁(yè)面特征。
[0036]對(duì)于每個(gè)樣本網(wǎng)頁(yè),判斷該樣本網(wǎng)頁(yè)包含每個(gè)目的頁(yè)面特征的情況,當(dāng)樣本網(wǎng)頁(yè)包含某一個(gè)目的頁(yè)面特征時(shí),進(jìn)行S102,當(dāng)樣本網(wǎng)頁(yè)不包含某一個(gè)目的頁(yè)面特征時(shí),進(jìn)行S103。
[0037]S102:記錄為第一特征。
[0038]S103:記錄為第二特征。
[0039]第一特征與第二特征是用于區(qū)分樣本網(wǎng)頁(yè)是否包含某一目的頁(yè)面特征,所以要求第一特征與第二特征不同。在本申請(qǐng)實(shí)施例中,第一特征可以為1,第二特征可以為0,這里數(shù)值來(lái)區(qū)分樣本網(wǎng)頁(yè)是否包含某一目的頁(yè)面特征僅是本申請(qǐng)的一個(gè)優(yōu)選實(shí)施例,在本申請(qǐng)其他實(shí)施例中,還可以采用其它方式來(lái)區(qū)分樣本網(wǎng)頁(yè)是否包含某一個(gè)目的網(wǎng)頁(yè)特征,例如:第一特征和第二特征用選用不同的字母,或者,第一特征和第二特征選用不同的高低電平信號(hào)。
[0040]S104:構(gòu)建包含所有樣本網(wǎng)頁(yè)對(duì)應(yīng)第一特征、第二特征的表格,將所述表格作為統(tǒng)計(jì)結(jié)果。
[0041]參見(jiàn)表1,為本申請(qǐng)實(shí)施例提供的24個(gè)樣本網(wǎng)頁(yè)的統(tǒng)計(jì)結(jié)果的示例,在本申請(qǐng)實(shí)施例中,在最后一欄中關(guān)于樣本網(wǎng)頁(yè)的網(wǎng)頁(yè)類型增加到樣本網(wǎng)頁(yè)的統(tǒng)計(jì)結(jié)果中,并且樣本網(wǎng)頁(yè)的網(wǎng)頁(yè)類型為內(nèi)容頁(yè)時(shí)用I表示,樣本網(wǎng)頁(yè)的網(wǎng)頁(yè)類型為目錄頁(yè)時(shí)用O表示。
[0042]
【權(quán)利要求】
1.一種網(wǎng)頁(yè)類型識(shí)別方法,其特征在于,包括: 在多個(gè)已知網(wǎng)頁(yè)類型的樣本網(wǎng)頁(yè)中分別統(tǒng)計(jì)是否包含多個(gè)目的頁(yè)面特征,得到統(tǒng)計(jì)結(jié)果; 利用決策樹(shù)算法對(duì)多個(gè)樣本網(wǎng)頁(yè)的已知網(wǎng)頁(yè)類型和統(tǒng)計(jì)結(jié)果進(jìn)行分析,得到目的頁(yè)面特征的優(yōu)先級(jí)排序,以及目的頁(yè)面特征與網(wǎng)頁(yè)類型之間的對(duì)應(yīng)關(guān)系; 按照所述優(yōu)先級(jí)排序在待識(shí)別網(wǎng)頁(yè)中依次查找所述目的頁(yè)面特征,根據(jù)查找結(jié)果和所述對(duì)應(yīng)關(guān)系確定待識(shí)別網(wǎng)頁(yè)的網(wǎng)頁(yè)類型。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述在多個(gè)已知網(wǎng)頁(yè)類型的樣本網(wǎng)頁(yè)中分別統(tǒng)計(jì)是否包含多個(gè)目的頁(yè)面特征,得到統(tǒng)計(jì)結(jié)果的步驟包括: 逐一判斷所述樣本網(wǎng)頁(yè)是否包含目的頁(yè)面特征; 當(dāng)所述樣本網(wǎng)頁(yè)包含所述目的頁(yè)面特征時(shí),記錄為第一特征;當(dāng)所述樣本網(wǎng)頁(yè)不包含所述目的頁(yè)面特征時(shí),記錄為第二特征; 構(gòu)建包含所有樣本網(wǎng)頁(yè)對(duì)應(yīng)第一特征、第二特征的表格,將所述表格作為統(tǒng)計(jì)結(jié)果。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述利用決策樹(shù)算法對(duì)多個(gè)樣本網(wǎng)頁(yè)的已知網(wǎng)頁(yè)類型和統(tǒng)計(jì)結(jié)果進(jìn)行分析,得到目的頁(yè)面特征的優(yōu)先級(jí)排序,以及目的頁(yè)面特征與網(wǎng)頁(yè)類型之間的對(duì)應(yīng)關(guān)系的步驟包括: 根據(jù)所述表格計(jì)算多個(gè)所述目的頁(yè)面特征的信息增益; 將多個(gè)所述目的頁(yè)面特征按照信息增益由大到小進(jìn)行排序,得到目的頁(yè)面特征的優(yōu)先級(jí)排序; 根據(jù)多個(gè)樣本網(wǎng)頁(yè)的已知網(wǎng)頁(yè)類型和所述目的頁(yè)面特征的優(yōu)先級(jí)排序生成目的頁(yè)面特征與網(wǎng)頁(yè)類型的對(duì)應(yīng)關(guān)系。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,按以下方式計(jì)算每個(gè)所述目的頁(yè)面特征的信息增益: 根據(jù)所述表格計(jì)算目的頁(yè)面特征的相對(duì)應(yīng)第一特征的比值和第二特征的比值; 分別計(jì)算第一特征和第二特征的信息熵; 根據(jù)所述第一特征和第二特征的信息熵計(jì)算目的頁(yè)面特征的條件熵; 根據(jù)所述表格計(jì)算目的頁(yè)面特征的信息熵; 將目的頁(yè)面特征的信息熵減去目的頁(yè)面特征的條件熵得到目的頁(yè)面特征的信息增益。
5.根據(jù)權(quán)利要求1-4任一項(xiàng)所述的方法,其特征在于,所述在待識(shí)別網(wǎng)頁(yè)中按照所述優(yōu)先級(jí)排序依次查找所述目的頁(yè)面特征,根據(jù)查找結(jié)果和所述對(duì)應(yīng)關(guān)系確定待識(shí)別網(wǎng)頁(yè)的網(wǎng)頁(yè)類型的步驟包括: 在待識(shí)別網(wǎng)頁(yè)中查找優(yōu)先級(jí)排序最大的目的頁(yè)面特征 ; 判斷所述待識(shí)別網(wǎng)頁(yè)中是否存在優(yōu)先級(jí)排序最大的目的頁(yè)面特征; 當(dāng)所述待識(shí)別網(wǎng)頁(yè)中存在優(yōu)先級(jí)排序最大的目的頁(yè)面特征時(shí),在所述對(duì)應(yīng)關(guān)系中查找與存在的目的頁(yè)面特征相對(duì)應(yīng)的網(wǎng)頁(yè)類型,將查找到的網(wǎng)頁(yè)類型作為待識(shí)別網(wǎng)頁(yè)的網(wǎng)頁(yè)類型; 當(dāng)所述待識(shí)別網(wǎng)頁(yè)中不存在優(yōu)先級(jí)排序最大的目的頁(yè)面特征時(shí),按照優(yōu)先級(jí)排序由大到小在待識(shí)別網(wǎng)頁(yè)中依次查找其它目的頁(yè)面特征,直至查找到待識(shí)別網(wǎng)頁(yè)的網(wǎng)頁(yè)類型,或者,直至將對(duì)應(yīng)關(guān)系表中所有目的頁(yè)面特征查找完成。
6.一種網(wǎng)頁(yè)類型識(shí)別裝置,其特征在于,包括: 統(tǒng)計(jì)單元,用于在多個(gè)已知網(wǎng)頁(yè)類型的樣本網(wǎng)頁(yè)中分別統(tǒng)計(jì)是否包含多個(gè)目的頁(yè)面特征,得到統(tǒng)計(jì)結(jié)果; 分析單元,用于利用決策樹(shù)算法對(duì)對(duì)多個(gè)樣本網(wǎng)頁(yè)的已知網(wǎng)頁(yè)類型和統(tǒng)計(jì)結(jié)果進(jìn)行分析,得到目的頁(yè)面特征的優(yōu)先級(jí)排序,以及目的頁(yè)面特征與網(wǎng)頁(yè)類型之間的對(duì)應(yīng)關(guān)系; 網(wǎng)頁(yè)類型確定單元,用于按照所述優(yōu)先級(jí)排序在待識(shí)別網(wǎng)頁(yè)中依次查找所述目的頁(yè)面特征,根據(jù)查找結(jié)果和所述對(duì)應(yīng)關(guān)系確定待識(shí)別網(wǎng)頁(yè)的網(wǎng)頁(yè)類型。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述統(tǒng)計(jì)單元包括: 第一判斷單元,用 于逐一判斷所述樣本網(wǎng)頁(yè)是否包含目的頁(yè)面特征; 記錄單元,用于當(dāng)所述樣本網(wǎng)頁(yè)包含所述目的頁(yè)面特征時(shí),記錄為第一特征;當(dāng)所述樣本網(wǎng)頁(yè)不包含所述目的頁(yè)面特征時(shí),記錄為第二特征; 表格構(gòu)建單兀,用于構(gòu)建包含所有樣本網(wǎng)頁(yè)對(duì)應(yīng)第一特征、第二特征的表格,將所述表格作為統(tǒng)計(jì)結(jié)果。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述分析單元包括: 信息增益計(jì)算單元,用于根據(jù)所述表格計(jì)算多個(gè)所述目的頁(yè)面特征的信息增益; 排序單元,用于將多個(gè)所述目的頁(yè)面特征按照信息增益由大到小進(jìn)行排序,得到目的頁(yè)面特征的優(yōu)先級(jí)排序; 對(duì)應(yīng)關(guān)系生成單元,用于根據(jù)多個(gè)樣本網(wǎng)頁(yè)的已知網(wǎng)頁(yè)類型和所述目的頁(yè)面特征的優(yōu)先級(jí)排序生成目的頁(yè)面特征與網(wǎng)頁(yè)類型的對(duì)應(yīng)關(guān)系。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述信息增益計(jì)算單元包括: 比值計(jì)算單元,用于根據(jù)所述表格計(jì)算目的頁(yè)面特征的相對(duì)應(yīng)第一特征的比值和第二特征的比值; 第一信息熵計(jì)算單元,用于分別計(jì)算第一特征和第二特征的信息熵; 條件熵計(jì)算單元,用于根據(jù)所述第一特征和第二特征的信息熵計(jì)算目的頁(yè)面特征的條件熵; 第二信息熵計(jì)算單元,用于根據(jù)所述表格計(jì)算目的頁(yè)面特征的信息熵; 信息增益計(jì)算子單元,用于將目的頁(yè)面特征的信息熵減去目的頁(yè)面特征的條件熵得到目的頁(yè)面特征的信息增益。
10.根據(jù)權(quán)利要求6-9任一項(xiàng)所述的裝置,其特征在于,所述網(wǎng)頁(yè)類型確定單元包括: 目的頁(yè)面特征查找單元,在待識(shí)別網(wǎng)頁(yè)中查找優(yōu)先級(jí)排序最大的目的頁(yè)面特征; 第二判斷單元,用于判斷所述待識(shí)別網(wǎng)頁(yè)中是否存在優(yōu)先級(jí)排序最大的目的頁(yè)面特征; 網(wǎng)頁(yè)類型查找單元,用于當(dāng)所述待識(shí)別網(wǎng)頁(yè)中存在優(yōu)先級(jí)排序最大的目的頁(yè)面特征時(shí),在所述對(duì)應(yīng)關(guān)系中查找與存在的目的頁(yè)面特征相對(duì)應(yīng)的網(wǎng)頁(yè)類型,將查找到的網(wǎng)頁(yè)類型作為待識(shí)別網(wǎng)頁(yè)的網(wǎng)頁(yè)類型; 當(dāng)所述待識(shí)別網(wǎng)頁(yè)中不存在優(yōu)先級(jí)排序最大的目的頁(yè)面特征時(shí),所述目的頁(yè)面特征查找單元還按照優(yōu)先級(jí)排序由大到小在待識(shí)別網(wǎng)頁(yè)中依次查找其它目的頁(yè)面特征,直至查找到待識(shí)別網(wǎng)頁(yè)的網(wǎng)頁(yè)類型,或者,直至查找完對(duì)應(yīng)關(guān)系表中所有目的頁(yè)面特征。
【文檔編號(hào)】G06F17/30GK103577547SQ201310476416
【公開(kāi)日】2014年2月12日 申請(qǐng)日期:2013年10月12日 優(yōu)先權(quán)日:2013年10月12日
【發(fā)明者】梁捷, 王磊 申請(qǐng)人:優(yōu)視科技有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1