一種網(wǎng)頁(yè)類別的識(shí)別方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于互聯(lián)網(wǎng)領(lǐng)域,尤其涉及一種網(wǎng)頁(yè)類別的識(shí)別方法和裝置。
【背景技術(shù)】
[0002]隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展,越來(lái)越多的用戶使用手機(jī)瀏覽器來(lái)獲取、閱讀各種信息,包括如文字、圖片、視頻、音頻等。由于其使用方便,給人們生活帶來(lái)了極大的方便。
[0003]在使用手機(jī)瀏覽器瀏覽網(wǎng)頁(yè)內(nèi)容時(shí),為了更為方便的對(duì)網(wǎng)頁(yè)中的內(nèi)容進(jìn)行抽取、分析用戶行為和更好的在手機(jī)瀏覽器中展示頁(yè)面中的內(nèi)容,可以對(duì)網(wǎng)頁(yè)的內(nèi)容進(jìn)行識(shí)別,如對(duì)文字正文頁(yè)與圖片正文頁(yè)的識(shí)別(約定當(dāng)網(wǎng)頁(yè)中的文字內(nèi)容占整個(gè)網(wǎng)頁(yè)的比例達(dá)到預(yù)設(shè)的一個(gè)定值,如百分之六十,則判定其為文字正文頁(yè),也可以由網(wǎng)頁(yè)中各種元素所占的比例進(jìn)行判斷,根據(jù)占用比例最高的元素對(duì)應(yīng)的類別進(jìn)行劃分)。文字正文頁(yè)一般具有典型的標(biāo)題,在頁(yè)面中間部分為大段的文字內(nèi)容或摻雜有少量圖片,比如一些典型的新聞、博客、科技資訊類的文字正文頁(yè);圖片正文頁(yè)一般具有典型的標(biāo)題,在頁(yè)面的中間部分是大量的圖片內(nèi)容,整個(gè)頁(yè)面通過(guò)圖片來(lái)展示頁(yè)面內(nèi)容,比如一些攝影類站點(diǎn)的圖片內(nèi)容頁(yè)。
[0004]由于缺少對(duì)網(wǎng)頁(yè)類別識(shí)別的方法,不能對(duì)網(wǎng)頁(yè)類別進(jìn)行有效的識(shí)別,從而不利于對(duì)網(wǎng)頁(yè)內(nèi)容的抽取、用戶行為的分析和更好的在手機(jī)瀏覽器中展示頁(yè)面中的內(nèi)容。
【發(fā)明內(nèi)容】
[0005]本發(fā)明實(shí)施例的目的在于提供一種網(wǎng)頁(yè)類別的識(shí)別方法,以解決現(xiàn)有技術(shù)缺少對(duì)網(wǎng)頁(yè)類別識(shí)別的方法,不能對(duì)網(wǎng)頁(yè)類別進(jìn)行有效的識(shí)別的問(wèn)題,從而便于對(duì)網(wǎng)頁(yè)內(nèi)容的抽取、用戶行為的分析和更好的在手機(jī)瀏覽器中展示頁(yè)面中的內(nèi)容。
[0006]本發(fā)明實(shí)施例的第一方提供了一種網(wǎng)頁(yè)類別的識(shí)別方法,所述方法包括:
[0007]獲取待識(shí)別網(wǎng)頁(yè)的頁(yè)面特征;
[0008]根據(jù)預(yù)先生成的決策樹(shù)模型加載所述頁(yè)面特征,所述決策樹(shù)模型由已經(jīng)確定網(wǎng)頁(yè)類別的多個(gè)樣本網(wǎng)頁(yè)訓(xùn)練生成;
[0009]遞歸遍歷所述決策樹(shù)模型,查找所述頁(yè)面特征對(duì)應(yīng)的決策樹(shù)葉子分類節(jié)點(diǎn),由所述葉子節(jié)點(diǎn)得到所述待識(shí)別網(wǎng)頁(yè)的網(wǎng)頁(yè)類別。
[0010]本發(fā)明實(shí)施例的另一方面還提供了一種網(wǎng)頁(yè)類別的識(shí)別裝置,所述裝置包括:
[0011]頁(yè)面特征獲取單元,用于獲取待識(shí)別網(wǎng)頁(yè)的頁(yè)面特征;
[0012]頁(yè)面特征加載單元,用于根據(jù)預(yù)先生成的決策樹(shù)模型加載所述頁(yè)面特征,所述決策樹(shù)模型由已經(jīng)確定網(wǎng)頁(yè)類別的多個(gè)樣本網(wǎng)頁(yè)訓(xùn)練生成;
[0013]遍歷查找單元,用于遞歸遍歷所述決策樹(shù)模型,查找所述頁(yè)面特征對(duì)應(yīng)的決策樹(shù)葉子分類節(jié)點(diǎn),由所述葉子節(jié)點(diǎn)得到所述待識(shí)別網(wǎng)頁(yè)的網(wǎng)頁(yè)類別。
[0014]在本發(fā)明實(shí)施例中,通過(guò)獲取待識(shí)別網(wǎng)頁(yè)的頁(yè)面特征,并將獲取的頁(yè)面特征加載到預(yù)先生成的決策樹(shù)模型,而所述決策樹(shù)模型由已經(jīng)確定網(wǎng)頁(yè)類別的多個(gè)樣本網(wǎng)頁(yè)訓(xùn)練生成,從而能夠快速有效的查找到?jīng)Q策樹(shù)葉子分類節(jié)點(diǎn)對(duì)應(yīng)的網(wǎng)頁(yè)類別,便于對(duì)網(wǎng)頁(yè)內(nèi)容的抽取、用戶行為的分析和更好的在手機(jī)瀏覽器中展示頁(yè)面中的內(nèi)容。
【附圖說(shuō)明】
[0015]圖1是本發(fā)明第一實(shí)施例提供的網(wǎng)頁(yè)類別的識(shí)別方法的實(shí)現(xiàn)流程圖;
[0016]圖2是本發(fā)明第二實(shí)施例提供的網(wǎng)頁(yè)類別的識(shí)別方法的實(shí)現(xiàn)流程圖;
[0017]圖3是本發(fā)明第三實(shí)施例提供的網(wǎng)頁(yè)類別的識(shí)別裝置的結(jié)構(gòu)框圖;
[0018]圖4為本發(fā)明第四實(shí)施例提供的終端結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0019]為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0020]本發(fā)明實(shí)施例根據(jù)現(xiàn)有技術(shù)中不能有效的對(duì)網(wǎng)頁(yè)類別,主要是文字正文頁(yè)和圖片正文頁(yè)進(jìn)行識(shí)別,當(dāng)然還可以包括其它類別的頁(yè),提出一種快速有效的網(wǎng)頁(yè)類別的識(shí)別方法,所述方法包括:獲取待識(shí)別網(wǎng)頁(yè)的頁(yè)面特征;根據(jù)預(yù)先生成的決策樹(shù)模型加載所述頁(yè)面特征,所述決策樹(shù)模型由已經(jīng)確定網(wǎng)頁(yè)類別的多個(gè)樣本網(wǎng)頁(yè)訓(xùn)練生成;遞歸遍歷所述決策樹(shù)模型,查找所述頁(yè)面特征對(duì)應(yīng)的決策樹(shù)葉子分類節(jié)點(diǎn),由所述葉子節(jié)點(diǎn)得到所述待識(shí)別網(wǎng)頁(yè)的網(wǎng)頁(yè)類別。通過(guò)本方法能夠快速有效的查找到?jīng)Q策樹(shù)葉子分類節(jié)點(diǎn)對(duì)應(yīng)的網(wǎng)頁(yè)類另O,便于對(duì)網(wǎng)頁(yè)內(nèi)容的抽取、用戶行為的分析和更好的在手機(jī)瀏覽器中展示頁(yè)面中的內(nèi)容。
[0021]其中,對(duì)于網(wǎng)頁(yè)類別的劃分依據(jù),由于現(xiàn)在網(wǎng)頁(yè)中多種元素的摻合,劃分的依據(jù)可以為網(wǎng)頁(yè)中的元素所占的百分比達(dá)到預(yù)先設(shè)定值,或者選擇其中所占百分比最多的對(duì)應(yīng)同一類別的元素。
[0022]實(shí)施例一:
[0023]圖1示出了本發(fā)明第一實(shí)施例提供的網(wǎng)頁(yè)類別的識(shí)別方法的實(shí)現(xiàn)流程,詳述如下:
[0024]在步驟SlOl中,獲取待識(shí)別網(wǎng)頁(yè)的頁(yè)面特征。
[0025]具體的,所述待識(shí)別的網(wǎng)頁(yè),包括網(wǎng)頁(yè)的頁(yè)面地址、頁(yè)面信息以及相應(yīng)的網(wǎng)頁(yè)源代碼息。
[0026]獲取所述待識(shí)別網(wǎng)頁(yè)的頁(yè)面特征,可以在對(duì)網(wǎng)頁(yè)內(nèi)容抽取之前或者終端為移動(dòng)終端時(shí),通過(guò)手機(jī)瀏覽器查看頁(yè)面內(nèi)容之前獲取?;蛘咴趯?duì)用戶行為進(jìn)行分析時(shí),在用戶獲取查看網(wǎng)頁(yè)之前或者之后進(jìn)行網(wǎng)頁(yè)類別的識(shí)別。
[0027]具體的,所述頁(yè)面特征,可以包括以下特征的一項(xiàng)或者多項(xiàng):網(wǎng)頁(yè)地址特征、網(wǎng)頁(yè)標(biāo)題特征、二級(jí)導(dǎo)航特征、文檔對(duì)象模型DOM樹(shù)結(jié)構(gòu)特征和數(shù)據(jù)塊特征。
[0028]更進(jìn)一步的,所述獲取待識(shí)別網(wǎng)頁(yè)的頁(yè)面特征步驟包括:
[0029]獲取所述待識(shí)別網(wǎng)頁(yè)的頁(yè)面地址;
[0030]根據(jù)所述待識(shí)別網(wǎng)頁(yè)的頁(yè)面地址,提取所述頁(yè)面地址中包含的日期信息、預(yù)設(shè)的分類敏感關(guān)鍵詞以及尾部數(shù)字串;
[0031]根據(jù)所述頁(yè)面地址中包括的路徑數(shù)據(jù)獲取所述頁(yè)面的首頁(yè)級(jí)數(shù)信息。
[0032]所述首頁(yè)級(jí)數(shù)信息,包括如一級(jí)首頁(yè)和二級(jí)首頁(yè)等,可以通過(guò)域名地址信息直接進(jìn)行判斷,當(dāng)只包括主機(jī)域名地址時(shí)為一級(jí)首頁(yè),在主機(jī)域名地址后添加進(jìn)一步的路徑信息對(duì)應(yīng)為二級(jí)首頁(yè)或者更后一級(jí)主頁(yè)。所述頁(yè)面地址中關(guān)鍵字,根據(jù)預(yù)先統(tǒng)計(jì)的所屬類別的關(guān)鍵詞庫(kù)進(jìn)行判斷,比如對(duì)于關(guān)鍵詞“blog”對(duì)應(yīng)于文字正文頁(yè)類別的關(guān)鍵詞。所述尾部的數(shù)字段,可以設(shè)定數(shù)字的個(gè)數(shù),當(dāng)大于所設(shè)定的個(gè)數(shù)時(shí)認(rèn)為其尾部為數(shù)字段。
[0033]作為頁(yè)面特征進(jìn)一步的限定,所述所述獲取待識(shí)別網(wǎng)頁(yè)的頁(yè)面特征步驟包括:
[0034]獲取所述待識(shí)別網(wǎng)頁(yè)的源代碼,根據(jù)網(wǎng)頁(yè)源代碼的編碼規(guī)則提取所述待識(shí)別網(wǎng)頁(yè)的標(biāo)題;
[0035]根據(jù)預(yù)設(shè)的標(biāo)題分類關(guān)鍵詞庫(kù),獲取所述標(biāo)題中包括的標(biāo)題分類關(guān)鍵詞。
[0036]本發(fā)明實(shí)施例中所述網(wǎng)頁(yè)的標(biāo)題,與下面所述的標(biāo)題,是兩個(gè)范圍不同的概念,本發(fā)明實(shí)施例所述的標(biāo)題,包括網(wǎng)頁(yè)標(biāo)題、正文標(biāo)題等。
[0037]網(wǎng)頁(yè)的標(biāo)題,一般通過(guò)網(wǎng)頁(yè)編碼規(guī)則,由關(guān)鍵詞<titleX/title>之間限定的內(nèi)容作為網(wǎng)頁(yè)的標(biāo)題進(jìn)行限定。
[0038]所述標(biāo)題分類關(guān)鍵詞,可以根據(jù)預(yù)先統(tǒng)計(jì)的數(shù)據(jù),如標(biāo)題中包括關(guān)鍵詞“圖”或者“組圖”等關(guān)鍵詞,則對(duì)應(yīng)圖片正文頁(yè),標(biāo)題中包括“視頻”、“第*集”等關(guān)鍵詞,則對(duì)應(yīng)為視頻正文頁(yè)。
[0039]另外,本發(fā)明實(shí)施例所述獲取待識(shí)別網(wǎng)頁(yè)的頁(yè)面特征步驟包括:
[0040]獲取所述待識(shí)別網(wǎng)頁(yè)的文檔對(duì)象模型DOM樹(shù),判斷所述待識(shí)別網(wǎng)頁(yè)的文檔對(duì)象模型DOM樹(shù)是否包含二級(jí)導(dǎo)航;
[0041]如果所述待識(shí)別的網(wǎng)頁(yè)包含二級(jí)導(dǎo)航,則根據(jù)預(yù)設(shè)的導(dǎo)航分類關(guān)鍵詞庫(kù)查找所述二級(jí)導(dǎo)航中包括的關(guān)鍵詞。
[0042]所述二級(jí)導(dǎo)航特征,是用于指引頁(yè)面所處站點(diǎn)位置的標(biāo)識(shí),比如在圖片正文頁(yè)中,“您的當(dāng)前位置 > 網(wǎng)站首頁(yè) > 自拍寫真 > 自拍寫真圖片 > 網(wǎng)絡(luò)美女寫真”就是一個(gè)典型的二級(jí)導(dǎo)航。在二級(jí)導(dǎo)航中是否存在導(dǎo)航分類關(guān)鍵詞,比如常見(jiàn)的“圖片”、“寫真”、“自拍”等屬于圖片正文頁(yè)類別的關(guān)鍵詞或者一些其它的屬于文字正文頁(yè)的,如“小說(shuō)”、“散文”、“閱讀”等關(guān)鍵詞。
[0043]其中,由待識(shí)別網(wǎng)頁(yè)的文檔對(duì)象模型DOM樹(shù)判斷是否包含二級(jí)導(dǎo)航,可以根據(jù)文檔對(duì)象模型DOM樹(shù)結(jié)構(gòu)信息進(jìn)行判定,如判斷如果包括多個(gè)下拉的并列子結(jié)點(diǎn),且并列子節(jié)點(diǎn)個(gè)數(shù)大于預(yù)定值,則當(dāng)前網(wǎng)頁(yè)包括二級(jí)導(dǎo)航。
[0044]更進(jìn)一步的,所述獲取待識(shí)別網(wǎng)頁(yè)的頁(yè)面特征步驟包括:
[0045]獲取所述待識(shí)別網(wǎng)頁(yè)的文檔對(duì)象模型DOM樹(shù);
[0046]根據(jù)所述文檔對(duì)象模型DOM樹(shù),提取所述待識(shí)別網(wǎng)頁(yè)的純文本節(jié)點(diǎn)個(gè)數(shù)、純文本長(zhǎng)度、錨文本長(zhǎng)度、純文本密度、圖片個(gè)數(shù)中的一個(gè)或者多個(gè)。
[0047]在遍歷網(wǎng)頁(yè)文本對(duì)象模型DOM樹(shù)的同時(shí),計(jì)算網(wǎng)頁(yè)所有純文本、錨文本、圖片、標(biāo)點(diǎn)符號(hào)的個(gè)數(shù)、長(zhǎng)度等特征。所述錨文本指的是帶關(guān)鍵詞的超文本鏈接,指向關(guān)鍵詞內(nèi)