一種確定信息塊的位置信息的方法及裝置的制造方法
【專利摘要】本發(fā)明公開了一種確定信息塊的位置信息的方法,包括:將待處理網(wǎng)頁內(nèi)容轉(zhuǎn)換成模型樹,模型樹中包含多個節(jié)點(diǎn);針對每種類型的信息塊,在多個節(jié)點(diǎn)中搜索該種類型信息塊的特征信息,特征信息為用于描述該種類型信息塊的表現(xiàn)形式的信息;確定包含特征信息的每個節(jié)點(diǎn)的權(quán)重值,包含特征信息的每個節(jié)點(diǎn)包括第一節(jié)點(diǎn)和第二節(jié)點(diǎn),第一節(jié)點(diǎn)為直接包含特征信息的節(jié)點(diǎn),第二節(jié)點(diǎn)為自身不直接包含特征信息的節(jié)點(diǎn);確定特定節(jié)點(diǎn)所聚類的信息塊的位置信息為該種類型信息塊的位置信息,特定節(jié)點(diǎn)包括權(quán)重值最大的節(jié)點(diǎn),以及權(quán)重值最大的節(jié)點(diǎn)下屬的所有節(jié)點(diǎn)。本申請?zhí)峁┑姆桨缚梢酝ㄟ^節(jié)點(diǎn)聚類的方式準(zhǔn)確的自動定位出信息塊的位置信息,提高了信息塊定位的效率。
【專利說明】
一種確定信息塊的位置信息的方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及信息處理技術(shù)領(lǐng)域,具體涉及一種確定信息塊的位置信息的方法及裝 置。
【背景技術(shù)】
[0002] 當(dāng)前因特網(wǎng)上的各種網(wǎng)頁中,通常都伴隨有大量的廣告和無關(guān)鏈接。尤其是例如 小說等用戶閱讀類的網(wǎng)頁,大量的廣告和無關(guān)鏈接不僅浪費(fèi)流量,還給用戶帶來了很大的 干擾。
[0003] 因此,如果能在終端設(shè)備側(cè)展示網(wǎng)頁之前,就對網(wǎng)頁中的干擾信息進(jìn)行過濾,就可 以避免流量浪費(fèi)和用戶干擾問題。
[0004] 對干擾信息進(jìn)行過濾,需要準(zhǔn)確定位出網(wǎng)頁中各種類型信息塊的位置,以小說為 例,信息塊可以是小說的標(biāo)題和正文等。
[0005] 通常,由于不同網(wǎng)站的網(wǎng)頁排版布局不同,即便是同一網(wǎng)站,網(wǎng)頁排版布局也經(jīng)常 變化,當(dāng)前對網(wǎng)頁中信息塊定位的方法都是依靠人工來實(shí)現(xiàn)的,需要長期對網(wǎng)頁排版布局 進(jìn)行監(jiān)測,在網(wǎng)頁排版布局發(fā)生變化后,需要人工再次同步修改配置。這種方法雖然能準(zhǔn)確 定位網(wǎng)頁中信息塊的位置,但需要長期不斷的對網(wǎng)站的網(wǎng)頁進(jìn)行監(jiān)控和維護(hù)。不光成本高, 而且定位效率低下。
【發(fā)明內(nèi)容】
[0006] 為解決現(xiàn)有技術(shù)中網(wǎng)頁中信息塊的定位效率低下問題,本發(fā)明實(shí)施例提供一種確 定信息塊的位置信息的方法,可以通過節(jié)點(diǎn)聚類的方式準(zhǔn)確的自動定位出信息塊的位置信 息,提高了信息塊定位的效率。本發(fā)明實(shí)施例還提供了相應(yīng)的裝置。
[0007] 本發(fā)明第一方面提供一種確定信息塊的位置信息的方法,包括:
[0008] 將待處理網(wǎng)頁內(nèi)容轉(zhuǎn)換成模型樹,所述模型樹中包含多個節(jié)點(diǎn);
[0009] 針對每種類型的信息塊,在所述多個節(jié)點(diǎn)中搜索該種類型信息塊的特征信息,所 述特征信息為用于描述該種類型信息塊的表現(xiàn)形式的信息;
[0010]確定包含所述特征信息的每個節(jié)點(diǎn)的權(quán)重值,所述包含特征信息的每個節(jié)點(diǎn)包括 第一節(jié)點(diǎn)和第二節(jié)點(diǎn),所述第一節(jié)點(diǎn)為直接包含所述特征信息的節(jié)點(diǎn),所述第二節(jié)點(diǎn)為不 直接包含所述特征信息的節(jié)點(diǎn);
[0011]確定特定節(jié)點(diǎn)所聚類的信息塊的位置信息為該種類型信息塊的位置信息,所述特 定節(jié)點(diǎn)包括權(quán)重值最大的節(jié)點(diǎn),以及所述權(quán)重值最大的節(jié)點(diǎn)下屬的所有節(jié)點(diǎn)。
[0012] 本發(fā)明第二方面提供一種確定信息塊的位置信息的裝置,包括:
[0013] 轉(zhuǎn)換單元,用于將待處理網(wǎng)頁內(nèi)容轉(zhuǎn)換成模型樹,所述模型樹中包含多個節(jié)點(diǎn);
[0014] 搜索單元,用于針對每種類型的信息塊,在所述轉(zhuǎn)換單元轉(zhuǎn)換的所述模型樹的多 個節(jié)點(diǎn)中搜索該種類型信息塊的特征信息,所述特征信息為用于描述該種類型信息塊的表 現(xiàn)形式的信息;
[0015] 第一確定單元,用于確定包含所述搜索單元搜索的特征信息的每個節(jié)點(diǎn)的權(quán)重 值,所述包含特征信息的每個節(jié)點(diǎn)包括第一節(jié)點(diǎn)和第二節(jié)點(diǎn),所述第一節(jié)點(diǎn)為直接包含所 述特征信息的節(jié)點(diǎn),所述第二節(jié)點(diǎn)為不直接包含所述特征信息的節(jié)點(diǎn);
[0016] 第二確定單元,用于確定特定節(jié)點(diǎn)所聚類的信息塊的位置信息為該種類型信息塊 的位置信息,所述特定節(jié)點(diǎn)包括所述第一確定單元所確定的每個節(jié)點(diǎn)的權(quán)重值中權(quán)重值最 大的節(jié)點(diǎn),以及所述權(quán)重值最大的節(jié)點(diǎn)下屬的所有節(jié)點(diǎn)。
[0017] 與現(xiàn)有技術(shù)中通過人工方式定位網(wǎng)頁中的信息塊的定位效率低下相比,本發(fā)明實(shí) 施例提供的確定信息塊的位置信息的方法,可以通過節(jié)點(diǎn)聚類的方式準(zhǔn)確的自動定位出信 息塊的位置信息,提高了信息塊定位的效率。
【附圖說明】
[0018] 為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對實(shí)施例描述中所需要使 用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于 本領(lǐng)域技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附 圖。
[0019] 圖1是本發(fā)明實(shí)施例中確定信息塊的位置信息的方法的一實(shí)施例示意圖;
[0020] 圖2是本發(fā)明實(shí)施例中模型樹的一示例示意圖;
[0021 ]圖3是本發(fā)明實(shí)施例中模型樹的另一示例示意圖;
[0022] 圖4是本發(fā)明實(shí)施例中從圖3所示的模型樹中抽取出的包含特征信息的節(jié)點(diǎn)的一 示意圖;
[0023] 圖5是本發(fā)明實(shí)施例中從圖3所示的模型樹中抽取出的包含特征信息的節(jié)點(diǎn)的另 一示意圖;
[0024] 圖6是本發(fā)明實(shí)施例中確定信息塊的位置信息的裝置的一實(shí)施例示意圖;
[0025] 圖7是本發(fā)明實(shí)施例中確定信息塊的位置信息的裝置的另一實(shí)施例示意圖;
[0026] 圖8是本發(fā)明實(shí)施例中服務(wù)器的一實(shí)施例示意圖。
【具體實(shí)施方式】
[0027] 本發(fā)明實(shí)施例提供一種確定信息塊的位置信息的方法,可以通過節(jié)點(diǎn)聚類的方式 準(zhǔn)確的自動定位出信息塊的位置信息,提高了信息塊定位的效率。本發(fā)明實(shí)施例還提供了 相應(yīng)的裝置。以下分別進(jìn)行詳細(xì)說明。
[0028] 下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于 本發(fā)明中的實(shí)施例,本領(lǐng)域技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施 例,都屬于本發(fā)明保護(hù)的范圍。
[0029] 參閱圖1,本發(fā)明實(shí)施例提供的確定信息塊的位置信息的方法的一實(shí)施例包括:
[0030] 101、將待處理網(wǎng)頁內(nèi)容轉(zhuǎn)換成模型樹,所述模型樹中包含多個節(jié)點(diǎn)。
[0031] 以文本類內(nèi)容為例,網(wǎng)頁內(nèi)容指的是可以包括標(biāo)題、正文,以及人物介紹等內(nèi)容。
[0032] 模型樹是按照網(wǎng)頁內(nèi)容各部分所屬的分支進(jìn)行劃分,將各部分按照層次結(jié)構(gòu)劃分 到不同的節(jié)點(diǎn)中所形成的。圖2位一個簡單的模型樹示意圖。如圖2所示,模型樹按照層次結(jié) 構(gòu)可以包括節(jié)點(diǎn)0,節(jié)點(diǎn)0下屬有節(jié)點(diǎn)1和節(jié)點(diǎn)2兩個節(jié)點(diǎn),節(jié)點(diǎn)1下屬有節(jié)點(diǎn)11 一個節(jié)點(diǎn),節(jié) 點(diǎn)2下屬有節(jié)點(diǎn)21和節(jié)點(diǎn)22兩個節(jié)點(diǎn)。
[0033] 102、針對每種類型的信息塊,在所述多個節(jié)點(diǎn)中搜索該種類型信息塊的特征信 息,所述特征信息為用于描述該種類型信息塊的表現(xiàn)形式的信息。
[0034]信息塊的類型指的是網(wǎng)頁中所包含的信息的種類,以文本類內(nèi)容為例,信息塊的 類型可以包括目錄、文章標(biāo)題、文章正文、作者簡介以及索引介紹等。
[0035] 特征塊的特征信息指的是用于描述該種類型信息塊的表現(xiàn)形式的信息,例如:信 息塊是純文本、鏈接或者圖片等表現(xiàn)形式的信息。
[0036] 若信息塊的類型是文章正文,則特征信息可以是純文本,若信息塊的類型是目錄, 則特征信息可以是鏈接。
[0037] 搜索過程可以是從最上層的節(jié)點(diǎn)開始,逐個掃描,例如:圖2中可以從節(jié)點(diǎn)0開始, 逐個掃描其他節(jié)點(diǎn)。
[0038] 掃描時是針對一種類型,逐個掃描節(jié)點(diǎn)。如針對目錄,逐個掃描每個節(jié)點(diǎn)中是否有 鏈接特征信息。針對文章正文,逐個掃描每個節(jié)點(diǎn)中是否有純文本特征信息。
[0039] 模型樹中可以包括多個節(jié)點(diǎn),但并不一定每個節(jié)點(diǎn)都包含該種類型的特征信息。 因此,針對每種類型,確定出包含該種類型所對應(yīng)特征信息的節(jié)點(diǎn)。
[0040] 例如:確定出節(jié)點(diǎn)2、節(jié)點(diǎn)21和節(jié)點(diǎn)22中包含文章正文的純文本特征信息。
[0041] 103、確定包含所述特征信息的每個節(jié)點(diǎn)的權(quán)重值,所述包含特征信息的每個節(jié)點(diǎn) 包括第一節(jié)點(diǎn)和第二節(jié)點(diǎn),所述第一節(jié)點(diǎn)為直接包含所述特征信息的節(jié)點(diǎn),所述第二節(jié)點(diǎn) 為不直接包含所述特征信息的節(jié)點(diǎn)。
[0042] 本申請中所描述的包含特征信息的節(jié)點(diǎn)包括直接包含和間接包含兩種,直接包含 是指該節(jié)點(diǎn)自身就包含該種類型的特征信息。間接包含是指該節(jié)點(diǎn)不包含該種類型的特征 信息,但是該節(jié)點(diǎn)的子節(jié)點(diǎn)或?qū)O節(jié)點(diǎn)可能包含該種類型的特征信息,也就是說無論該節(jié)點(diǎn) 下屬的哪層節(jié)點(diǎn)中包含該種類型的特征信息,都屬于該節(jié)點(diǎn)間接包含該種類型的特征信 息。
[0043] 關(guān)于每個節(jié)點(diǎn)的權(quán)重值計算可以預(yù)先配置算法,當(dāng)節(jié)點(diǎn)中直接包含特征信息時, 可以將特征信息的相關(guān)參數(shù)輸入到權(quán)重值算法中,從而計算出該節(jié)點(diǎn)的相關(guān)特征信息的權(quán) 重值。例如:當(dāng)特征信息是鏈接時,可以將鏈接長度輸入權(quán)重值算法中,從而計算出該節(jié)點(diǎn) 鏈接特征的權(quán)重值,當(dāng)特征信息是純文本時,可以將純文本的字符數(shù)量輸入到權(quán)重值算法 中,從而計算出該節(jié)點(diǎn)純文本的權(quán)重值,當(dāng)然各種特征信息的權(quán)重值算法可以是不同的。
[0044] 當(dāng)節(jié)點(diǎn)中間接包含特征信息時,可以通過其下屬的子節(jié)點(diǎn)的權(quán)重值計算得到該節(jié) 點(diǎn)的權(quán)重值,例如:當(dāng)節(jié)點(diǎn)2不包含純文本特征信息,節(jié)點(diǎn)21和節(jié)點(diǎn)22包含該純文本特征信 息,貝可以通過上述算法的計算方式計算出節(jié)點(diǎn)21和節(jié)點(diǎn)22的權(quán)重值,然后通過節(jié)點(diǎn)21和 節(jié)點(diǎn)22的權(quán)重值計算出節(jié)點(diǎn)2的權(quán)重值。
[0045] 104、確定特定節(jié)點(diǎn)所聚類的信息塊的位置信息為該種類型信息塊的位置信息,所 述特定節(jié)點(diǎn)包括權(quán)重值最大的節(jié)點(diǎn),以及所述權(quán)重值最大的節(jié)點(diǎn)下屬的所有節(jié)點(diǎn)。
[0046] 針對同一類型,各節(jié)點(diǎn)的權(quán)重值都確定出來后,可以從中找出權(quán)重值最大的節(jié)點(diǎn), 例如:節(jié)點(diǎn)2的權(quán)重值最大,節(jié)點(diǎn)21和節(jié)點(diǎn)22都是節(jié)點(diǎn)2的下屬節(jié)點(diǎn),則節(jié)點(diǎn)2、節(jié)點(diǎn)21和節(jié)點(diǎn) 22都是本申請中所描述的特定節(jié)點(diǎn)。
[0047] 若節(jié)點(diǎn)21和節(jié)點(diǎn)22還有其他節(jié)點(diǎn),則節(jié)點(diǎn)21和節(jié)點(diǎn)22下屬的其他節(jié)點(diǎn)也屬于特定 節(jié)點(diǎn)。
[0048] 這些特定節(jié)點(diǎn)所聚類的信息塊的位置信息為該種類型信息塊的位置信息,也就是 說節(jié)點(diǎn)2、節(jié)點(diǎn)21和節(jié)點(diǎn)22所聚類的信息塊的位置信息為該種類型信息塊的位置信息,若節(jié) 點(diǎn)2、節(jié)點(diǎn)21和節(jié)點(diǎn)22所聚類的信息塊是文章正文,則該網(wǎng)頁中文章正文的位置信息就是節(jié) 點(diǎn)2、節(jié)點(diǎn)21和節(jié)點(diǎn)22所聚類的信息塊的位置信息。
[0049] 與現(xiàn)有技術(shù)中通過人工方式定位網(wǎng)頁中的信息塊的定位效率低下相比,本發(fā)明實(shí) 施例提供的確定信息塊的位置信息的方法,可以通過節(jié)點(diǎn)聚類的方式準(zhǔn)確的自動定位出信 息塊的位置信息,提高了信息塊定位的效率。
[0050] 可選地,所述確定包含所述特征信息的每個節(jié)點(diǎn)的權(quán)重值,可以包括:
[0051 ]針對每個第一節(jié)點(diǎn),根據(jù)預(yù)置算法確定所述直接包含所述特征信息的每個第一節(jié) 點(diǎn)的權(quán)重值;
[0052]針對每個第二節(jié)點(diǎn),將其直接從屬的子節(jié)點(diǎn)的權(quán)重值做和運(yùn)算后,再乘以一個收 縮因子,確定所述每個第二節(jié)點(diǎn)的權(quán)重值。
[0053]用公式表示為:
[0054] weight (第二節(jié)點(diǎn))= Θ*Σ weight (第一節(jié)點(diǎn))
[0055] 本發(fā)明實(shí)施例中,若以圖2中的節(jié)點(diǎn)2、節(jié)點(diǎn)21和節(jié)點(diǎn)22為例,當(dāng)節(jié)點(diǎn)21和節(jié)點(diǎn)22是 第一節(jié)點(diǎn),節(jié)點(diǎn)2是第二節(jié)點(diǎn)時,節(jié)點(diǎn)21的權(quán)重值是1.5,節(jié)點(diǎn)22的權(quán)重值是1.8,則節(jié)點(diǎn)2的 權(quán)重值就可以是(1.5+1.8) *θ,Θ為收縮因子,Θ的取值可以是〇. 5到1之間的一個數(shù)值,例如: 取0.8,則節(jié)點(diǎn)2的權(quán)重值就等于(1.5+1.8)*0.8 = 1.84。
[0056] 可選地,所述確定包含所述特征信息的每個節(jié)點(diǎn)的權(quán)重值,可以包括:
[0057] 針對不同類型的信息塊,并行確定包含不同類型特征信息的每個節(jié)點(diǎn)的權(quán)重值。 [0058]本發(fā)明實(shí)施例中,可以同時確定不同類型特征信息的權(quán)重值,例如:可以同時確定 鏈接特征信息的權(quán)重值和純文本特征信息的權(quán)重值,兩者不沖突。
[0059] 可選地,所述將待處理網(wǎng)頁內(nèi)容轉(zhuǎn)換成模型樹,可以包括:
[0060] 將超文本標(biāo)記語言HTML形式的待處理網(wǎng)頁內(nèi)容按照主從節(jié)點(diǎn)的關(guān)系,逐步轉(zhuǎn)換成 文檔對象模型D0M節(jié)點(diǎn),在所述待處理網(wǎng)頁內(nèi)容都轉(zhuǎn)換完成后得到D0M樹;
[0061] 在轉(zhuǎn)換過程中,若檢測到所述待處理網(wǎng)頁內(nèi)容中存在錯誤,則糾正所述錯誤,并將 糾正后的內(nèi)容劃分到相應(yīng)的D0M節(jié)點(diǎn)中。
[0062] 本發(fā)明實(shí)施例中所涉及到的網(wǎng)頁可以是超文本標(biāo)記語言(hypertext markup language,HTML)的形式。
[0063] 下面以一個HTML網(wǎng)頁為例,介紹HTML網(wǎng)頁轉(zhuǎn)換成文檔對象模型(Document Object Model,D0M)樹的過程。
[0064] HTML 網(wǎng)頁為:
[0067] 以上HTML網(wǎng)頁內(nèi)容,按照網(wǎng)頁內(nèi)容中的層次和分支,轉(zhuǎn)換成如圖3所示的DOM樹, D0M樹上包含的節(jié)點(diǎn)可以稱為D0M節(jié)點(diǎn)。
[0068] 首先,基于D0M標(biāo)準(zhǔn),將HTML文本轉(zhuǎn)換成程序內(nèi)存中的一棵D0M樹。這在回避傳統(tǒng)方 法中需要面對分詞和文本語義識別的問題的同時,還能兼得兩個好處:一是可以使用成熟 的樹遍歷算法來搜索D0M樹中的任何位置;二是在生成D0M樹的過程中,可以同步糾正HTML 文檔本身的錯誤,比如殘缺的DIV元素等等。即使是不認(rèn)識的自定義的元素,也最終能變成 D0M樹上的一個普通節(jié)點(diǎn),不會妨礙D0M樹的遍歷操作。
[0069]轉(zhuǎn)換得到如圖3所示的D0M樹后,接下來針對不同類型的信息塊,逐個節(jié)點(diǎn)搜索該 類型的特征信息,如搜索標(biāo)題類型的特征信息,特征信息是連續(xù)的少量文字。
[0070] 從搜索結(jié)果來看,有圖4中的節(jié)點(diǎn)32直接包含該標(biāo)題類型的特征信息,節(jié)點(diǎn)30、節(jié) 點(diǎn)31屬于不直接包含該標(biāo)題類型的特征信息,則可以按照標(biāo)題的權(quán)重值算法計算節(jié)點(diǎn)32的 權(quán)重值。
[0071] 若計算出節(jié)點(diǎn)32的權(quán)重值為2.57,節(jié)點(diǎn)31、節(jié)點(diǎn)30可以根據(jù)節(jié)點(diǎn)32與權(quán)重因子的 乘積進(jìn)行依次計算,若θ = 0.7,則節(jié)點(diǎn)31的權(quán)重值為1.8。之后再將節(jié)點(diǎn)31的權(quán)重與權(quán)重因 子相乘得到節(jié)點(diǎn)30的權(quán)重值位1.26。
[0072] 由此可見,針對標(biāo)題類型,權(quán)重值最大的節(jié)點(diǎn)是節(jié)點(diǎn)32,則可以將節(jié)點(diǎn)32作為特定 節(jié)點(diǎn)。節(jié)點(diǎn)32所聚類的信息塊的位置信息即為該標(biāo)題信息塊的位置信息,若節(jié)點(diǎn)32所聚類 的信息塊的位置信息為/html/body/div[4],則標(biāo)題的位置信息即為/html/body/div[4]/。
[0073]同理,若在圖3所示的DOM樹中逐個節(jié)點(diǎn)搜索正文的特征信息,正文的特征信息可 以是連續(xù)的大量字符,例如:可以設(shè)置30為門限,當(dāng)連續(xù)的字符數(shù)量大于30時,則認(rèn)為是正 文。
[0074]從搜索結(jié)果來看,有圖5所示的節(jié)點(diǎn)43、節(jié)點(diǎn)44和節(jié)點(diǎn)45直接包含正文的特征信 息。貝可以按照正文的權(quán)重值算法計算節(jié)點(diǎn)43、節(jié)點(diǎn)44和節(jié)點(diǎn)45的權(quán)重值。
[0075]若計算出節(jié)點(diǎn)43、節(jié)點(diǎn)44和節(jié)點(diǎn)45分別為1,節(jié)點(diǎn)41、節(jié)點(diǎn)42、節(jié)點(diǎn)40屬于間接包括 正文的特征信息,則可以采用上述第一節(jié)點(diǎn)和第二節(jié)點(diǎn)之間的計算關(guān)系式,通過收縮因子 計算節(jié)點(diǎn)41、節(jié)點(diǎn)42、節(jié)點(diǎn)40的權(quán)重值,若收縮因子θ = 〇.7,則節(jié)點(diǎn)41的權(quán)重值為1*0.7 = 0.7,節(jié)點(diǎn) 42 的權(quán)重為(1+1)*0.7 = 1.4,節(jié)點(diǎn) 40 的權(quán)重值為(0·7+1·4)*0·7 = 1·47。
[0076] 由此可見,針對正文類型,權(quán)重值最大的節(jié)點(diǎn)為節(jié)點(diǎn)40,則可以確定針對正文的特 定節(jié)點(diǎn)包括節(jié)點(diǎn)40、節(jié)點(diǎn)41、節(jié)點(diǎn)42、節(jié)點(diǎn)43、節(jié)點(diǎn)44和節(jié)點(diǎn)45。節(jié)點(diǎn)40、節(jié)點(diǎn)41、節(jié)點(diǎn)42、節(jié) 點(diǎn)43、節(jié)點(diǎn)44和節(jié)點(diǎn)45所聚類的信息塊的位置信息即為正文的位置信息,若節(jié)點(diǎn)40、節(jié)點(diǎn) 41、節(jié)點(diǎn)42、節(jié)點(diǎn)43、節(jié)點(diǎn)44和節(jié)點(diǎn)45所聚類的信息塊的位置信息為/html/body/div[8]/, 則正文的位置信息為/html/body/div[8]/。
[0077] 可選地,所述確定特定節(jié)點(diǎn)所聚類的信息塊的位置信息為該種類型信息塊的位置 信息之后,所述方法還可以包括:
[0078] 建立信息塊的類型與該種類型信息塊的位置信息之間的對應(yīng)關(guān)系,所述對應(yīng)關(guān)系 用于過濾網(wǎng)頁中的干擾信息。
[0079] 本發(fā)明實(shí)施例中,在確定每種類型信息塊的位置信息后,可以建立信息塊的類型 與該種類型信息塊的位置信息之間的對應(yīng)關(guān)系。
[0080] 對應(yīng)關(guān)系可以用表格的形式表示,也可以用其他形式表示,若以表格的形式表示, 可以參閱表1進(jìn)行理解。
[0081] 表1:信息塊的類型與該種類型信息塊的位置信息之間的對應(yīng)關(guān)系
[0083] 以上表1只是列舉了幾種類型進(jìn)行說明,并沒有窮舉信息塊的類型與該種類型信 息塊的位置信息之間的全部對應(yīng)關(guān)系,因此,以上表1的內(nèi)容不應(yīng)理解為是對信息塊的類型 與該種類型信息塊的位置信息的對應(yīng)關(guān)系所包含的內(nèi)容的限定。
[0084] 因為網(wǎng)頁中可能包含廣告等干擾信息,所以在確定出上述有用信息的位置后,就 可以把絕大部分的廣告等干擾信息剔除到使用范圍之外了。
[0085] 為實(shí)現(xiàn)上述圖1至圖5部分所描述的確定信息塊的位置信息的方法,本申請還提供 了相應(yīng)的裝置,該裝置各部分模塊所執(zhí)行的功能,可以結(jié)合在圖1至圖5部分的方法實(shí)施例 進(jìn)行理解。
[0086] 參閱圖6,本發(fā)明實(shí)施例提供的確定信息塊的位置信息的裝置的一實(shí)施例包括:
[0087] 轉(zhuǎn)換單元501,用于將待處理網(wǎng)頁內(nèi)容轉(zhuǎn)換成模型樹,所述模型樹中包含多個節(jié) 占 .
[0088] 搜索單元502,用于針對每種類型的信息塊,在所述轉(zhuǎn)換單元501轉(zhuǎn)換的所述模型 樹的多個節(jié)點(diǎn)中搜索該種類型信息塊的特征信息,所述特征信息為用于描述該種類型信息 塊的表現(xiàn)形式的信息;
[0089]第一確定單元503,用于確定包含所述搜索單元502搜索的特征信息的每個節(jié)點(diǎn)的 權(quán)重值,所述包含特征信息的每個節(jié)點(diǎn)包括第一節(jié)點(diǎn)和第二節(jié)點(diǎn),所述第一節(jié)點(diǎn)為直接包 含所述特征信息的節(jié)點(diǎn),所述第二節(jié)點(diǎn)為不直接包含所述特征信息的節(jié)點(diǎn);
[0090] 第二確定單元504,用于確定特定節(jié)點(diǎn)所聚類的信息塊的位置信息為該種類型信 息塊的位置信息,所述特定節(jié)點(diǎn)包括所述第一確定單元503所確定的每個節(jié)點(diǎn)的權(quán)重值中 權(quán)重值最大的節(jié)點(diǎn),以及所述權(quán)重值最大的節(jié)點(diǎn)下屬的所有節(jié)點(diǎn)。
[0091] 本發(fā)明實(shí)施例中,轉(zhuǎn)換單元501將待處理網(wǎng)頁內(nèi)容轉(zhuǎn)換成模型樹,所述模型樹中包 含多個節(jié)點(diǎn);搜索單元502針對每種類型的信息塊,在所述轉(zhuǎn)換單元501轉(zhuǎn)換的所述模型樹 的多個節(jié)點(diǎn)中搜索該種類型信息塊的特征信息,所述特征信息為用于描述該種類型信息塊 的表現(xiàn)形式的信息;第一確定單元503確定包含所述搜索單元502搜索的特征信息的每個節(jié) 點(diǎn)的權(quán)重值,所述包含特征信息的每個節(jié)點(diǎn)包括第一節(jié)點(diǎn)和第二節(jié)點(diǎn),所述第一節(jié)點(diǎn)為直 接包含所述特征信息的節(jié)點(diǎn),所述第二節(jié)點(diǎn)為不直接包含所述特征信息的節(jié)點(diǎn);第二確定 單元504確定特定節(jié)點(diǎn)所聚類的信息塊的位置信息為該種類型信息塊的位置信息,所述特 定節(jié)點(diǎn)包括所述第一確定單元503所確定的每個節(jié)點(diǎn)的權(quán)重值中權(quán)重值最大的節(jié)點(diǎn),以及 所述權(quán)重值最大的節(jié)點(diǎn)下屬的所有節(jié)點(diǎn)。與現(xiàn)有技術(shù)中通過人工方式定位網(wǎng)頁中的信息塊 的定位效率低下相比,本發(fā)明實(shí)施例提供的確定信息塊的位置信息的裝置,可以通過節(jié)點(diǎn) 聚類的方式準(zhǔn)確的自動定位出信息塊的位置信息,提高了信息塊定位的效率。
[0092] 可選地,所述第一確定單元503用于:
[0093] 針對每個第一節(jié)點(diǎn),根據(jù)預(yù)置算法確定所述直接包含所述特征信息的每個第一節(jié) 點(diǎn)的權(quán)重值;
[0094] 針對每個第二節(jié)點(diǎn),將其直接從屬的子節(jié)點(diǎn)的權(quán)重值做和運(yùn)算后,再乘以一個收 縮因子,確定所述每個第二節(jié)點(diǎn)的權(quán)重值。
[0095] 可選地,所述第一確定單元503,用于針對不同類型的信息塊,并行確定包含不同 類型特征信息的每個節(jié)點(diǎn)的權(quán)重值。
[0096] 可選地,所述轉(zhuǎn)換單元501用于:
[0097]將超文本標(biāo)記語言HTML形式的待處理網(wǎng)頁內(nèi)容按照主從節(jié)點(diǎn)的關(guān)系,逐步轉(zhuǎn)換成 文檔對象模型D0M節(jié)點(diǎn),在所述待處理網(wǎng)頁內(nèi)容都轉(zhuǎn)換完成后得到D0M樹;
[0098]在轉(zhuǎn)換過程中,若檢測到所述待處理網(wǎng)頁內(nèi)容中存在錯誤,則糾正所述錯誤,并將 糾正后的內(nèi)容劃分到相應(yīng)的D0M節(jié)點(diǎn)中。
[0099]可選地,參閱圖7,本發(fā)明實(shí)施例提供的確定信息塊的位置信息的裝置50的另一實(shí) 施例中,所述裝置50還包括:
[0100]建立單元505,用于在所述第二確定單元504確定該種類型信息塊的位置信息之 后,建立信息塊的類型與該種類型信息塊的位置信息之間的對應(yīng)關(guān)系,所述對應(yīng)關(guān)系用于 過濾網(wǎng)頁中的干擾信息。
[0101] 本發(fā)明實(shí)施例所提供的確定信息塊的位置信息的裝置可以通過服務(wù)器或者物理 主機(jī)來實(shí)現(xiàn),下面以服務(wù)器為例,介紹確定信息塊的位置信息的方法依靠服務(wù)器實(shí)現(xiàn)的過 程。
[0102] 圖8是本發(fā)明實(shí)施例提供的服務(wù)器60的結(jié)構(gòu)示意圖。所述服務(wù)器60包括處理器 610、存儲器650和收發(fā)器630,存儲器650可以包括只讀存儲器和隨機(jī)存取存儲器,并向處理 器610提供操作指令和數(shù)據(jù)。存儲器650的一部分還可以包括非易失性隨機(jī)存取存儲器 (NVRAM)〇
[0103] 在一些實(shí)施方式中,存儲器650存儲了如下的元素,可執(zhí)行模塊或者數(shù)據(jù)結(jié)構(gòu),或 者他們的子集,或者他們的擴(kuò)展集:
[0104] 在本發(fā)明實(shí)施例中,通過調(diào)用存儲器650存儲的操作指令(該操作指令可存儲在操 作系統(tǒng)中),
[0105]將待處理網(wǎng)頁內(nèi)容轉(zhuǎn)換成模型樹,所述模型樹中包含多個節(jié)點(diǎn);
[0106] 針對每種類型的信息塊,在所述多個節(jié)點(diǎn)中搜索該種類型信息塊的特征信息,所 述特征信息為用于描述該種類型信息塊的表現(xiàn)形式的信息;
[0107] 確定包含所述特征信息的每個節(jié)點(diǎn)的權(quán)重值,所述包含特征信息的每個節(jié)點(diǎn)包括 第一節(jié)點(diǎn)和第二節(jié)點(diǎn),所述第一節(jié)點(diǎn)為直接包含所述特征信息的節(jié)點(diǎn),所述第二節(jié)點(diǎn)為不 直接包含所述特征信息的節(jié)點(diǎn);
[0108] 確定特定節(jié)點(diǎn)所聚類的信息塊的位置信息為該種類型信息塊的位置信息,所述特 定節(jié)點(diǎn)包括權(quán)重值最大的節(jié)點(diǎn),以及所述權(quán)重值最大的節(jié)點(diǎn)下屬的所有節(jié)點(diǎn)。
[0109] 與現(xiàn)有技術(shù)中通過人工方式定位網(wǎng)頁中的信息塊的定位效率低下相比,本發(fā)明實(shí) 施例提供的服務(wù)器,可以通過節(jié)點(diǎn)聚類的方式準(zhǔn)確的自動定位出信息塊的位置信息,提高 了信息塊定位的效率。
[0110] 處理器610控制服務(wù)器60的操作,處理器610還可以稱為CPU(Central Processing Unit,中央處理單元)。存儲器650可以包括只讀存儲器和隨機(jī)存取存儲器,并向處理器610 提供指令和數(shù)據(jù)。存儲器650的一部分還可以包括非易失性隨機(jī)存取存儲器(NVRAM)。具體 的應(yīng)用中服務(wù)器60的各個組件通過總線系統(tǒng)620耦合在一起,其中總線系統(tǒng)620除包括數(shù)據(jù) 總線之外,還可以包括電源總線、控制總線和狀態(tài)信號總線等。但是為了清楚說明起見,在 圖中將各種總線都標(biāo)為總線系統(tǒng)620。
[0111] 上述本發(fā)明實(shí)施例揭示的方法可以應(yīng)用于處理器610中,或者由處理器610實(shí)現(xiàn)。 處理器610可能是一種集成電路芯片,具有信號的處理能力。在實(shí)現(xiàn)過程中,上述方法的各 步驟可以通過處理器610中的硬件的集成邏輯電路或者軟件形式的指令完成。上述的處理 器610可以是通用處理器、數(shù)字信號處理器(DSP)、專用集成電路(ASIC)、現(xiàn)成可編程門陣列 (FPGA)或者其他可編程邏輯器件、分立門或者晶體管邏輯器件、分立硬件組件??梢詫?shí)現(xiàn)或 者執(zhí)行本發(fā)明實(shí)施例中的公開的各方法、步驟及邏輯框圖。通用處理器可以是微處理器或 者該處理器也可以是任何常規(guī)的處理器等。結(jié)合本發(fā)明實(shí)施例所公開的方法的步驟可以直 接體現(xiàn)為硬件譯碼處理器執(zhí)行完成,或者用譯碼處理器中的硬件及軟件模塊組合執(zhí)行完 成。軟件模塊可以位于隨機(jī)存儲器,閃存、只讀存儲器,可編程只讀存儲器或者電可擦寫可 編程存儲器、寄存器等本領(lǐng)域成熟的存儲介質(zhì)中。該存儲介質(zhì)位于存儲器650,處理器610讀 取存儲器650中的信息,結(jié)合其硬件完成上述方法的步驟。
[0112] 可選地,處理器610用于:
[0113] 針對每個第一節(jié)點(diǎn),根據(jù)預(yù)置算法確定所述直接包含所述特征信息的每個第一節(jié) 點(diǎn)的權(quán)重值;
[0114] 針對每個第二節(jié)點(diǎn),將其直接從屬的子節(jié)點(diǎn)的權(quán)重值做和運(yùn)算后,再乘以一個收 縮因子,確定所述每個第二節(jié)點(diǎn)的權(quán)重值。
[0115] 可選地,處理器610用于:
[0116] 針對不同類型的信息塊,并行確定包含不同類型特征信息的每個節(jié)點(diǎn)的權(quán)重值。
[0117] 可選地,處理器610用于:
[0118] 將超文本標(biāo)記語言HTML形式的待處理網(wǎng)頁內(nèi)容按照主從節(jié)點(diǎn)的關(guān)系,逐步轉(zhuǎn)換成 文檔對象模型D0M節(jié)點(diǎn),在所述待處理網(wǎng)頁內(nèi)容都轉(zhuǎn)換完成后得到D0M樹;
[0119]在轉(zhuǎn)換過程中,若檢測到所述待處理網(wǎng)頁內(nèi)容中存在錯誤,則糾正所述錯誤,并將 糾正后的內(nèi)容劃分到相應(yīng)的D0M節(jié)點(diǎn)中。
[0120] 可選地,處理器610用于:
[0121]建立信息塊的類型與該種類型信息塊的位置信息之間的對應(yīng)關(guān)系,所述對應(yīng)關(guān)系 用于過濾網(wǎng)頁中的干擾信息。
[0122] 以上的服務(wù)器60可以參閱圖1至圖5部分的描述進(jìn)行理解,本處不做過多贅述。
[0123] 本領(lǐng)域普通技術(shù)人員可以理解上述實(shí)施例的各種方法中的全部或部分步驟是可 以通過程序來指令相關(guān)的硬件來完成,該程序可以存儲于一計算機(jī)可讀存儲介質(zhì)中,存儲 介質(zhì)可以包括:R〇M、RAM、磁盤或光盤等。
[0124] 以上對本發(fā)明實(shí)施例所提供的確定信息塊的位置信息的方法以及裝置進(jìn)行了詳 細(xì)介紹,本文中應(yīng)用了具體個例對本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說 明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù) 本發(fā)明的思想,在【具體實(shí)施方式】及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不 應(yīng)理解為對本發(fā)明的限制。
【主權(quán)項】
1. 一種確定信息塊的位置信息的方法,其特征在于,包括: 將待處理網(wǎng)頁內(nèi)容轉(zhuǎn)換成模型樹,所述模型樹中包含多個節(jié)點(diǎn); 針對每種類型的信息塊,在所述多個節(jié)點(diǎn)中搜索該種類型信息塊的特征信息,所述特 征信息為用于描述該種類型信息塊的表現(xiàn)形式的信息; 確定包含所述特征信息的每個節(jié)點(diǎn)的權(quán)重值,所述包含特征信息的每個節(jié)點(diǎn)包括第一 節(jié)點(diǎn)和第二節(jié)點(diǎn),所述第一節(jié)點(diǎn)為直接包含所述特征信息的節(jié)點(diǎn),所述第二節(jié)點(diǎn)為不直接 包含所述特征信息的節(jié)點(diǎn); 確定特定節(jié)點(diǎn)所聚類的信息塊的位置信息為該種類型信息塊的位置信息,所述特定節(jié) 點(diǎn)包括權(quán)重值最大的節(jié)點(diǎn),以及所述權(quán)重值最大的節(jié)點(diǎn)下屬的所有節(jié)點(diǎn)。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定包含所述特征信息的每個節(jié)點(diǎn)的 權(quán)重值,包括: 針對每個第一節(jié)點(diǎn),根據(jù)預(yù)置算法確定所述直接包含所述特征信息的每個第一節(jié)點(diǎn)的 權(quán)重值; 針對每個第二節(jié)點(diǎn),將其直接從屬的子節(jié)點(diǎn)的權(quán)重值做和運(yùn)算后,再乘以一個收縮因 子,確定所述每個第二節(jié)點(diǎn)的權(quán)重值。3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定包含所述特征信息的每個節(jié)點(diǎn)的 權(quán)重值,包括: 針對不同類型的信息塊,并行確定包含不同類型特征信息的每個節(jié)點(diǎn)的權(quán)重值。4. 根據(jù)權(quán)利要求1-3任一所述的方法,其特征在于,所述將待處理網(wǎng)頁內(nèi)容轉(zhuǎn)換成模型 樹,包括: 將超文本標(biāo)記語言HTML形式的待處理網(wǎng)頁內(nèi)容按照主從節(jié)點(diǎn)的關(guān)系,逐步轉(zhuǎn)換成文檔 對象模型DOM節(jié)點(diǎn),在所述待處理網(wǎng)頁內(nèi)容都轉(zhuǎn)換完成后得到DOM樹; 在轉(zhuǎn)換過程中,若檢測到所述待處理網(wǎng)頁內(nèi)容中存在錯誤,則糾正所述錯誤,并將糾正 后的內(nèi)容劃分到相應(yīng)的DOM節(jié)點(diǎn)中。5. 根據(jù)權(quán)利要求1-3任一所述的方法,其特征在于,所述確定特定節(jié)點(diǎn)所聚類的信息塊 的位置信息為該種類型信息塊的位置信息之后,所述方法還包括: 建立信息塊的類型與該種類型信息塊的位置信息之間的對應(yīng)關(guān)系,所述對應(yīng)關(guān)系用于 過濾網(wǎng)頁中的干擾信息。6. -種確定信息塊的位置信息的裝置,其特征在于,包括: 轉(zhuǎn)換單元,用于將待處理網(wǎng)頁內(nèi)容轉(zhuǎn)換成模型樹,所述模型樹中包含多個節(jié)點(diǎn); 搜索單元,用于針對每種類型的信息塊,在所述轉(zhuǎn)換單元轉(zhuǎn)換的所述模型樹的多個節(jié) 點(diǎn)中搜索該種類型信息塊的特征信息,所述特征信息為用于描述該種類型信息塊的表現(xiàn)形 式的信息; 第一確定單元,用于確定包含所述搜索單元搜索的特征信息的每個節(jié)點(diǎn)的權(quán)重值,所 述包含特征信息的每個節(jié)點(diǎn)包括第一節(jié)點(diǎn)和第二節(jié)點(diǎn),所述第一節(jié)點(diǎn)為直接包含所述特征 信息的節(jié)點(diǎn),所述第二節(jié)點(diǎn)為不直接包含所述特征信息的節(jié)點(diǎn); 第二確定單元,用于確定特定節(jié)點(diǎn)所聚類的信息塊的位置信息為該種類型信息塊的位 置信息,所述特定節(jié)點(diǎn)包括所述第一確定單元所確定的每個節(jié)點(diǎn)的權(quán)重值中權(quán)重值最大的 節(jié)點(diǎn),以及所述權(quán)重值最大的節(jié)點(diǎn)下屬的所有節(jié)點(diǎn)。7. 根據(jù)權(quán)利要求6所述的裝置,其特征在于, 所述第一確定單元用于: 針對每個第一節(jié)點(diǎn),根據(jù)預(yù)置算法確定所述直接包含所述特征信息的每個第一節(jié)點(diǎn)的 權(quán)重值; 針對每個第二節(jié)點(diǎn),將其直接從屬的子節(jié)點(diǎn)的權(quán)重值做和運(yùn)算后,再乘以一個收縮因 子,確定所述每個第二節(jié)點(diǎn)的權(quán)重值。8. 根據(jù)權(quán)利要求6所述的裝置,其特征在于, 所述第一確定單元,用于針對不同類型的信息塊,并行確定包含不同類型特征信息的 每個節(jié)點(diǎn)的權(quán)重值。9. 根據(jù)權(quán)利要求6-8任一所述的裝置,其特征在于, 所述轉(zhuǎn)換單元用于: 將超文本標(biāo)記語言HTML形式的待處理網(wǎng)頁內(nèi)容按照主從節(jié)點(diǎn)的關(guān)系,逐步轉(zhuǎn)換成文檔 對象模型DOM節(jié)點(diǎn),在所述待處理網(wǎng)頁內(nèi)容都轉(zhuǎn)換完成后得到DOM樹; 在轉(zhuǎn)換過程中,若檢測到所述待處理網(wǎng)頁內(nèi)容中存在錯誤,則糾正所述錯誤,并將糾正 后的內(nèi)容劃分到相應(yīng)的DOM節(jié)點(diǎn)中。10. 根據(jù)權(quán)利要求6-8任一所述的裝置,其特征在于,所述裝置還包括: 建立單元,用于在所述第二確定單元確定該種類型信息塊的位置信息之后,建立信息 塊的類型與該種類型信息塊的位置信息之間的對應(yīng)關(guān)系,所述對應(yīng)關(guān)系用于過濾網(wǎng)頁中的 干擾信息。
【文檔編號】G06F17/30GK106095854SQ201610389942
【公開日】2016年11月9日
【申請日】2016年6月2日 公開號201610389942.2, CN 106095854 A, CN 106095854A, CN 201610389942, CN-A-106095854, CN106095854 A, CN106095854A, CN201610389942, CN201610389942.2
【發(fā)明人】馬莘權(quán)
【申請人】騰訊科技(深圳)有限公司