一種獲取網(wǎng)頁(yè)分塊的標(biāo)注規(guī)則的方法及裝置制造方法
【專利摘要】本發(fā)明提供了一種獲取網(wǎng)頁(yè)分塊的標(biāo)注規(guī)則的方法及裝置,其中所述方法包括:A.獲取一個(gè)以上的網(wǎng)頁(yè)集合中節(jié)點(diǎn)的多頁(yè)面信息,其中一個(gè)節(jié)點(diǎn)的多頁(yè)面信息用于描述該節(jié)點(diǎn)在所屬網(wǎng)頁(yè)集合中的分布狀況;B.從所述一個(gè)以上的網(wǎng)頁(yè)集合中獲取分塊樣本集;C.利用預(yù)設(shè)的種子標(biāo)注規(guī)則對(duì)所述分塊樣本集進(jìn)行標(biāo)注,以得到訓(xùn)練樣本集;D.確定所述訓(xùn)練樣本集的分類特征,其中一個(gè)訓(xùn)練樣本的分類特征至少包括由該訓(xùn)練樣本所包含節(jié)點(diǎn)的多頁(yè)面信息構(gòu)成的多頁(yè)面特征;E.根據(jù)確定的分類特征,對(duì)所述訓(xùn)練樣本集進(jìn)行機(jī)器學(xué)習(xí),以得到機(jī)器標(biāo)注規(guī)則。通過(guò)上述方式,本發(fā)明能夠提高對(duì)網(wǎng)頁(yè)分塊進(jìn)行標(biāo)注的準(zhǔn)確性。
【專利說(shuō)明】一種獲取網(wǎng)頁(yè)分塊的標(biāo)注規(guī)則的方法及裝置
【【技術(shù)領(lǐng)域】】
[0001]本發(fā)明涉及網(wǎng)頁(yè)處理技術(shù),特別涉及一種獲取網(wǎng)頁(yè)分塊的標(biāo)注規(guī)則的方法及裝置。
【【背景技術(shù)】】
[0002]對(duì)網(wǎng)頁(yè)分塊進(jìn)行標(biāo)注,能夠更好地對(duì)網(wǎng)頁(yè)進(jìn)行分析,從而有助于搜索引擎獲取更為準(zhǔn)確的搜索結(jié)果。
[0003]對(duì)網(wǎng)頁(yè)分塊進(jìn)行標(biāo)注依賴于標(biāo)注規(guī)則,傳統(tǒng)的方法是采用人工規(guī)則進(jìn)行標(biāo)注,但這難以適應(yīng)大規(guī)模標(biāo)注的需要。在中國(guó)發(fā)明專利申請(qǐng)?zhí)枮镃N201110035729.9的發(fā)明中,公開(kāi)了一種獲取網(wǎng)頁(yè)分塊的標(biāo)注規(guī)則的方法,該方法能夠適應(yīng)大規(guī)模標(biāo)注的需要,也能夠?qū)崿F(xiàn)較高的準(zhǔn)確性。
[0004]但是,采用中國(guó)發(fā)明專利申請(qǐng)?zhí)枮镃N201110035729.9的方法,在某些情況下對(duì)網(wǎng)頁(yè)分塊標(biāo)注的結(jié)果仍不夠理想,例如對(duì)網(wǎng)頁(yè)中的相關(guān)鏈接塊和推薦鏈接塊的標(biāo)注,現(xiàn)有技術(shù)難以很好地將兩者區(qū)分開(kāi)來(lái),標(biāo)注的準(zhǔn)確性較差。
【
【發(fā)明內(nèi)容】
】
[0005]本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種獲取網(wǎng)頁(yè)分塊的標(biāo)注規(guī)則的方法及裝置,以提高對(duì)網(wǎng)頁(yè)分塊進(jìn)行標(biāo)注的準(zhǔn)確性。
[0006]本發(fā)明為解決技術(shù)問(wèn)題而采用的技術(shù)方案是提供一種獲取網(wǎng)頁(yè)分塊的標(biāo)注規(guī)則的方法,包括:A.獲取一個(gè)以上的網(wǎng)頁(yè)集合中節(jié)點(diǎn)的多頁(yè)面信息,其中一個(gè)節(jié)點(diǎn)的多頁(yè)面信息用于描述該節(jié)點(diǎn)在所屬網(wǎng)頁(yè)集合中的分布狀況從所述一個(gè)以上的網(wǎng)頁(yè)集合中獲取分塊樣本集;C.利用預(yù)設(shè)的種子標(biāo)注規(guī)則對(duì)所述分塊樣本集進(jìn)行標(biāo)注,以得到訓(xùn)練樣本集;D.確定所述訓(xùn)練樣本集的分類特征,其中一個(gè)訓(xùn)練樣本的分類特征至少包括由該訓(xùn)練樣本所包含節(jié)點(diǎn)的多頁(yè)面信息構(gòu)成的多頁(yè)面特征;E.根據(jù)確定的分類特征,對(duì)所述訓(xùn)練樣本集進(jìn)行機(jī)器學(xué)習(xí),以得到機(jī)器標(biāo)注規(guī)則。
[0007]根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,一個(gè)節(jié)點(diǎn)的多頁(yè)面信息包括該節(jié)點(diǎn)的重復(fù)度及該節(jié)點(diǎn)的唯一重復(fù)度中的至少一種,其中一個(gè)節(jié)點(diǎn)的重復(fù)度等于在該節(jié)點(diǎn)所屬的網(wǎng)頁(yè)集合中,以該節(jié)點(diǎn)的路徑出現(xiàn)的節(jié)點(diǎn)總數(shù)與該節(jié)點(diǎn)所屬網(wǎng)頁(yè)集合包含的網(wǎng)頁(yè)總數(shù)之間的比值,一個(gè)節(jié)點(diǎn)的唯一重復(fù)度等于在該節(jié)點(diǎn)所屬的網(wǎng)頁(yè)集合中,以該節(jié)點(diǎn)的路徑在所屬網(wǎng)頁(yè)中唯一出現(xiàn)的節(jié)點(diǎn)總數(shù)與該節(jié)點(diǎn)所屬網(wǎng)頁(yè)集合包含的網(wǎng)頁(yè)總數(shù)之間的比值。
[0008]根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述步驟C包括:采用特征選擇算法對(duì)所述訓(xùn)練樣本集的單頁(yè)面特征進(jìn)行選取,以得到重要的單頁(yè)面特征,其中一個(gè)訓(xùn)練樣本的單頁(yè)面特征是指僅由該訓(xùn)練樣本自身信息決定的特征;利用所述訓(xùn)練樣本集中訓(xùn)練樣本所包含節(jié)點(diǎn)的多頁(yè)面信息得到訓(xùn)練樣本集的多頁(yè)面特征;將所述重要的單頁(yè)面特征及所述多頁(yè)面特征組合為分類特征。
[0009] 根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,一個(gè)訓(xùn)練樣本的單頁(yè)面特征至少包括以下特征中的一種:視覺(jué)特征、內(nèi)容特征、文本結(jié)構(gòu)特征或網(wǎng)頁(yè)結(jié)構(gòu)特征。
[0010]根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述步驟E進(jìn)一步包括:在滿足終止條件前,將機(jī)器標(biāo)注規(guī)則作為種子標(biāo)注規(guī)則,以循環(huán)執(zhí)行所述步驟C至所述步驟E。
[0011]根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述終止條件為當(dāng)次循環(huán)得到的機(jī)器標(biāo)注規(guī)則與上次循環(huán)得到的機(jī)器標(biāo)注規(guī)則之間的差值小于預(yù)設(shè)值。
[0012]本發(fā)明還提供了一種獲取網(wǎng)頁(yè)分塊的標(biāo)注規(guī)則的裝置,包括:挖掘單元,用于獲取一個(gè)以上的網(wǎng)頁(yè)集合中節(jié)點(diǎn)的多頁(yè)面信息,其中一個(gè)節(jié)點(diǎn)的多頁(yè)面信息用于描述該節(jié)點(diǎn)在所屬網(wǎng)頁(yè)集合中的分布狀況;樣本獲取單元,用于從所述一個(gè)以上的網(wǎng)頁(yè)集合中獲取分塊樣本集;標(biāo)注單元,用于利用預(yù)設(shè)的種子標(biāo)注規(guī)則對(duì)分塊樣本集進(jìn)行標(biāo)注,以得到訓(xùn)練樣本集;確定單元,用于確定所述訓(xùn)練樣本集的分類特征,其中一個(gè)訓(xùn)練樣本的分類特征至少包括由該訓(xùn)練樣本所包含節(jié)點(diǎn)的多頁(yè)面信息構(gòu)成的多頁(yè)面特征;學(xué)習(xí)單元,用于根據(jù)確定的分類特征,對(duì)訓(xùn)練樣本集進(jìn)行機(jī)器學(xué)習(xí),以得到機(jī)器標(biāo)注規(guī)則。
[0013]根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,一個(gè)節(jié)點(diǎn)的多頁(yè)面信息包括該節(jié)點(diǎn)的重復(fù)度及該節(jié)點(diǎn)的唯一重復(fù)度中的至少一種,其中一個(gè)節(jié)點(diǎn)的重復(fù)度等于在該節(jié)點(diǎn)所屬的網(wǎng)頁(yè)集合中,以該節(jié)點(diǎn)的路徑出現(xiàn)的節(jié)點(diǎn)總數(shù)與該節(jié)點(diǎn)所屬網(wǎng)頁(yè)集合包含的網(wǎng)頁(yè)總數(shù)之間的比值,一個(gè)節(jié)點(diǎn)的唯一重復(fù)度等于在該節(jié)點(diǎn)所屬的網(wǎng)頁(yè)集合中,以該節(jié)點(diǎn)的路徑在所屬網(wǎng)頁(yè)中唯一出現(xiàn)的節(jié)點(diǎn)總數(shù)與該節(jié)點(diǎn)所屬網(wǎng)頁(yè)集合包含的網(wǎng)頁(yè)總數(shù)之間的比值。
[0014]根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述確定單元包括:單頁(yè)面特征選取單元,用于采用特征選擇算法對(duì)所述訓(xùn)練樣本集的單頁(yè)面特征進(jìn)行選取,以得到重要的單頁(yè)面特征,其中一個(gè)訓(xùn)練樣本的單頁(yè)面特征 是指僅由該訓(xùn)練樣本自身信息決定的特征;多頁(yè)面特征計(jì)算單元,用于利用所述訓(xùn)練樣本集中訓(xùn)練樣本所包含節(jié)點(diǎn)的多頁(yè)面信息得到訓(xùn)練樣本集的多頁(yè)面特征;分類特征生成單元,用于將所述重要的單頁(yè)面特征及所述多頁(yè)面特征組合為分類特征。
[0015]根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,一個(gè)訓(xùn)練樣本的單頁(yè)面特征至少包括以下特征中的一種:視覺(jué)特征、內(nèi)容特征、文本結(jié)構(gòu)特征或網(wǎng)頁(yè)結(jié)構(gòu)特征。
[0016]根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述學(xué)習(xí)單元進(jìn)一步用于,在滿足終止條件前,將所述機(jī)器標(biāo)注規(guī)則作為種子標(biāo)注規(guī)則,以觸發(fā)所述標(biāo)注單元至所述學(xué)習(xí)單元循環(huán)執(zhí)行。
[0017]根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述終止條件為當(dāng)次循環(huán)得到的機(jī)器標(biāo)注規(guī)則與上次循環(huán)得到的機(jī)器標(biāo)注規(guī)則之間的差值小于預(yù)設(shè)值。
[0018]由以上技術(shù)方案可以看出,本發(fā)明首先利用網(wǎng)頁(yè)集合,獲取到網(wǎng)頁(yè)節(jié)點(diǎn)的多頁(yè)面信息,然后再利用節(jié)點(diǎn)的多頁(yè)面信息得到訓(xùn)練樣本的多頁(yè)面特征。本發(fā)明與現(xiàn)有技術(shù)相比,對(duì)訓(xùn)練樣本的分類特征進(jìn)行了改進(jìn),這使得最終得到的機(jī)器標(biāo)注規(guī)則能夠產(chǎn)生更為準(zhǔn)確的標(biāo)注效果,從而可以提高對(duì)網(wǎng)頁(yè)分塊進(jìn)行標(biāo)注的準(zhǔn)確性。
【【專利附圖】
【附圖說(shuō)明】】
[0019]圖1為本發(fā)明中獲取網(wǎng)頁(yè)分塊的標(biāo)注規(guī)則的方法的實(shí)施例一的流程示意圖;
[0020]圖2為本發(fā)明中網(wǎng)頁(yè)DOM樹(shù)的實(shí)施例一的示意圖;
[0021]圖3為本發(fā)明中網(wǎng)頁(yè)DOM樹(shù)的實(shí)施例二的示意圖;
[0022]圖4為本發(fā)明中網(wǎng)頁(yè)DOM樹(shù)的實(shí)施例三的示意圖;[0023]圖5為本發(fā)明中分塊樣本的實(shí)施例的示意圖;
[0024]圖6為本發(fā)明中訓(xùn)練樣本的實(shí)施例的示意圖;
[0025]圖7為本發(fā)明中獲取網(wǎng)頁(yè)分塊的標(biāo)注規(guī)則的方法的實(shí)施例二的流程示意圖;
[0026]圖8為本發(fā)明中相關(guān)鏈接塊和推薦鏈接塊的實(shí)施例的示意圖;
[0027]圖9為本發(fā)明中獲取網(wǎng)頁(yè)分塊的標(biāo)注規(guī)則的裝置的實(shí)施例的結(jié)構(gòu)示意框圖。
【【具體實(shí)施方式】】 [0028]為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)描述。
[0029]本發(fā)明是對(duì)中國(guó)發(fā)明申請(qǐng)?zhí)枮镃N201110035729.9的發(fā)明進(jìn)行的改進(jìn),以獲取到比現(xiàn)有技術(shù)效果更優(yōu)的網(wǎng)頁(yè)分塊標(biāo)注規(guī)則。請(qǐng)參考圖1,圖1為本發(fā)明中獲取網(wǎng)頁(yè)分塊的標(biāo)注規(guī)則的方法的實(shí)施例的流程示意圖。
[0030]下面對(duì)圖1所示的實(shí)施例中的各個(gè)步驟進(jìn)行具體介紹。
[0031]步驟SI中,作為網(wǎng)頁(yè)集合的一種實(shí)施方式,可以將互聯(lián)網(wǎng)中歸屬于相同站點(diǎn)的網(wǎng)頁(yè)作為一個(gè)網(wǎng)頁(yè)集合,也可以將互聯(lián)網(wǎng)中的網(wǎng)頁(yè)按照URL的相似度進(jìn)行聚類,每類網(wǎng)頁(yè)作為一個(gè)網(wǎng)頁(yè)集合。
[0032]本實(shí)施例預(yù)先在步驟SI中,將網(wǎng)頁(yè)按照網(wǎng)頁(yè)集合劃分,并借由劃分的網(wǎng)頁(yè)集合,計(jì)算集合中節(jié)點(diǎn)的多頁(yè)面信息,其中一個(gè)節(jié)點(diǎn)的多頁(yè)面信息用于描述該節(jié)點(diǎn)在所屬網(wǎng)頁(yè)集合中的分布狀況。
[0033]具體地,本實(shí)施例中,節(jié)點(diǎn)的多頁(yè)面信息可以包括以下兩種信息中的至少一種--節(jié)點(diǎn)的重復(fù)度及節(jié)點(diǎn)的唯一重復(fù)度。
[0034]具體地,一個(gè)節(jié)點(diǎn)的重復(fù)度等于在該節(jié)點(diǎn)所屬的網(wǎng)頁(yè)集合中,以該節(jié)點(diǎn)的路徑出現(xiàn)的節(jié)點(diǎn)總數(shù)與該節(jié)點(diǎn)所屬網(wǎng)頁(yè)集合包含的網(wǎng)頁(yè)總數(shù)之間的比值。一個(gè)節(jié)點(diǎn)的唯一重復(fù)度等于在該節(jié)點(diǎn)所屬的網(wǎng)頁(yè)集合中,以該節(jié)點(diǎn)的路徑在所屬網(wǎng)頁(yè)中唯一出現(xiàn)的節(jié)點(diǎn)總數(shù)與該節(jié)點(diǎn)所屬網(wǎng)頁(yè)集合包含的網(wǎng)頁(yè)總數(shù)之間的比值。
[0035]作為一種實(shí)施方式,節(jié)點(diǎn)的路徑由節(jié)點(diǎn)內(nèi)容及距離節(jié)點(diǎn)內(nèi)容最近的N層X(jué)PATH描述共同表示,其中N的值不超過(guò)最大可能值,并且N的具體值可根據(jù)本領(lǐng)域技術(shù)人員的需要自由設(shè)定。請(qǐng)參考圖2,圖2為本發(fā)明中網(wǎng)頁(yè)DOM樹(shù)的一個(gè)實(shí)施例的示意圖??梢岳斫猓瑢?duì)圖2中的節(jié)點(diǎn)I而言,N的最大可能值是6,對(duì)節(jié)點(diǎn)4而言,N的最大可能值是7。
[0036]假設(shè)N的值為3,以圖2中的節(jié)點(diǎn)I為例,節(jié)點(diǎn)I的路徑由節(jié)點(diǎn)I的內(nèi)容(abc)與距離節(jié)點(diǎn)I的內(nèi)容最近的3層X(jué)PATH描述(tr-td-div)共同表示。則在圖2的DOM樹(shù)代表的網(wǎng)頁(yè)中,以節(jié)點(diǎn)I的路徑出現(xiàn)的節(jié)點(diǎn)包括節(jié)點(diǎn)1、節(jié)點(diǎn)3和節(jié)點(diǎn)4。假設(shè)N的值為6,則在圖2的DOM樹(shù)代表的網(wǎng)頁(yè)中,以節(jié)點(diǎn)I的路徑出現(xiàn)的節(jié)點(diǎn)僅包括節(jié)點(diǎn)I和節(jié)點(diǎn)3。
[0037]假設(shè)網(wǎng)頁(yè)集合包含的網(wǎng)頁(yè)有A、B、C (網(wǎng)頁(yè)集合包含的網(wǎng)頁(yè)總數(shù)為3),且網(wǎng)頁(yè)A的DOM樹(shù)如圖2所示,網(wǎng)頁(yè)B的DOM樹(shù)如圖3所示,網(wǎng)頁(yè)C的DOM樹(shù)如圖4所示。對(duì)節(jié)點(diǎn)I而言,在網(wǎng)頁(yè)A中,以節(jié)點(diǎn)I的路徑出現(xiàn)的節(jié)點(diǎn)包括節(jié)點(diǎn)1、節(jié)點(diǎn)3和節(jié)點(diǎn)4 (數(shù)量為3);在網(wǎng)頁(yè)B中,以節(jié)點(diǎn)I的路徑出現(xiàn)的節(jié)點(diǎn)包括節(jié)點(diǎn)5、節(jié)點(diǎn)7和節(jié)點(diǎn)8 (數(shù)量為3);在網(wǎng)頁(yè)C中,以節(jié)點(diǎn)I的路徑出現(xiàn)的節(jié)點(diǎn)包括節(jié)點(diǎn)9、節(jié)點(diǎn)11和節(jié)點(diǎn)12 (數(shù)量為3)。所以節(jié)點(diǎn)I的重復(fù)度就等于(3+3+3) /3=3。由于節(jié)點(diǎn)I的路徑在網(wǎng)頁(yè)A、B、C中均沒(méi)有唯一出現(xiàn),即以節(jié)點(diǎn)I的路徑在網(wǎng)頁(yè)A、B、C中唯一出現(xiàn)的節(jié)點(diǎn)數(shù)分別都是O,因此,節(jié)點(diǎn)I的唯一重復(fù)度等于(0+0+0)/3=0O對(duì)節(jié)點(diǎn)2而言,在網(wǎng)頁(yè)A中,以節(jié)點(diǎn)2的路徑出現(xiàn)的節(jié)點(diǎn)僅包括節(jié)點(diǎn)2 ;在網(wǎng)頁(yè)B中,以節(jié)點(diǎn)2的路徑出現(xiàn)的節(jié)點(diǎn)僅包括節(jié)點(diǎn)6 ;在網(wǎng)頁(yè)C中,沒(méi)有以節(jié)點(diǎn)2的路徑出現(xiàn)的節(jié)點(diǎn)。所以節(jié)點(diǎn)2的重復(fù)度等于(1+1+0)/3=2/3。由于節(jié)點(diǎn)2的路徑在網(wǎng)頁(yè)A和網(wǎng)頁(yè)B中均唯一出現(xiàn),在網(wǎng)頁(yè)C中沒(méi)有出現(xiàn),即以節(jié)點(diǎn)2的路徑在網(wǎng)頁(yè)A、B中唯一出現(xiàn)的節(jié)點(diǎn)數(shù)分別是1,以節(jié)點(diǎn)2的路徑在網(wǎng)頁(yè)C中唯一出現(xiàn)的節(jié)點(diǎn)數(shù)是0,因此,節(jié)點(diǎn)2的唯一重復(fù)度等于(1+1+0) /3=2/3。
[0038]根據(jù)上面的介紹,可以知道在步驟SI中,對(duì)各網(wǎng)頁(yè)集合中的節(jié)點(diǎn)分別進(jìn)行統(tǒng)計(jì),即可得到各網(wǎng)頁(yè)集合中節(jié)點(diǎn)的多頁(yè)面信息。
[0039]在步驟S2中需要獲取分塊樣本集,作為一種實(shí)施方式,可以接收人工從步驟SI中得到的具有節(jié)點(diǎn)的多頁(yè)面信息的網(wǎng)頁(yè)集合中選取的分塊樣本集。值得注意的是,在本發(fā)明中的一個(gè)分塊樣本,指的是網(wǎng)頁(yè)中的某個(gè)分塊,而不是一個(gè)網(wǎng)頁(yè),即分塊樣本是以網(wǎng)頁(yè)中的一個(gè)部分為單位的,而不是以網(wǎng)頁(yè)為單位進(jìn)行劃分的。請(qǐng)參考圖5,圖5中一個(gè)方框就可以作為一個(gè)分塊樣本。分塊樣本集就是由這樣的分塊樣本構(gòu)成的集合。
[0040]步驟S3中可以采用與中國(guó)發(fā)明專利申請(qǐng)?zhí)枮镃N201110035729.9的方法中類似的手段確定種子標(biāo)注規(guī)則,即種子標(biāo)注規(guī)則可以是一個(gè)高準(zhǔn)確率,低召回率的規(guī)則。對(duì)分塊樣本集采用種子標(biāo)注規(guī)則進(jìn)行標(biāo)注后,得到訓(xùn)練樣本集,其中的訓(xùn)練樣本,是帶有類型信息的一個(gè)網(wǎng)頁(yè)分塊。請(qǐng)參考圖6,圖6中的標(biāo)注過(guò)的各個(gè)網(wǎng)頁(yè)分塊即是訓(xùn)練樣本的示意。
[0041]步驟S4中需要確定訓(xùn)練樣本集中各訓(xùn)練樣本的分類特征,作為一種實(shí)施方式,各訓(xùn)練樣本的分類特征是訓(xùn)練樣本所包含節(jié)點(diǎn)的多頁(yè)面信息構(gòu)成的多頁(yè)面特征。如果一個(gè)訓(xùn)練樣本僅包含一個(gè)節(jié)點(diǎn),則該訓(xùn)練樣本的多頁(yè)面特征可以是所包含節(jié)點(diǎn)的多頁(yè)面信息,如果一個(gè)訓(xùn)練樣本包含多個(gè)節(jié)點(diǎn),則該訓(xùn)練樣本的多頁(yè)面特征可以由所包含的各節(jié)點(diǎn)的多頁(yè)面信息加權(quán)求和得到。例如一個(gè)訓(xùn)練樣本包含節(jié)點(diǎn)1、2、3,這三個(gè)節(jié)點(diǎn)的重復(fù)度和唯一重復(fù)度構(gòu)成的多頁(yè)面信息分別表示為(1,1)、(1,I)和(1,1),假設(shè)這3個(gè)節(jié)點(diǎn)的權(quán)重相同,則該訓(xùn)練樣本的多頁(yè)面特征就可以表示為(1,I)。
[0042]作為一種更優(yōu)的實(shí)施方式,訓(xùn)練樣本的分類特征進(jìn)一步還包括單頁(yè)面特征。這里一個(gè)訓(xùn)練樣本的單頁(yè)面特征是指僅由該訓(xùn)練樣本自身信息決定的特征。從前面的描述中可以看出,訓(xùn)練樣本的多頁(yè)面特征是依賴一個(gè)網(wǎng)頁(yè)集合才能得到的特征,而訓(xùn)練樣本的單頁(yè)面特征則只需要訓(xùn)練樣本所在的網(wǎng)頁(yè)就可得到。例如單頁(yè)面特征可以是以下任意一種或多種的組合:訓(xùn)練樣本的視覺(jué)特征(包括訓(xùn)練樣本中節(jié)點(diǎn)的大小、位置、面積、或/和訓(xùn)練樣本與網(wǎng)頁(yè)中其它分塊的距離和相對(duì)位置等)、訓(xùn)練樣本的內(nèi)容特征(包括訓(xùn)練樣本內(nèi)容中的關(guān)鍵字、符號(hào)、訓(xùn)練樣本內(nèi)容與網(wǎng)頁(yè)中其他分塊內(nèi)容之間的相似度、或/和訓(xùn)練樣本內(nèi)容與網(wǎng)頁(yè)標(biāo)題之間的相似度等)、訓(xùn)練樣本的文本結(jié)構(gòu)特征(包括訓(xùn)練樣本中的文字?jǐn)?shù)量、鏈接數(shù)量、或/和文字與鏈接之間的比例等)、訓(xùn)練樣本的網(wǎng)頁(yè)結(jié)構(gòu)特征(包括訓(xùn)練樣本中節(jié)點(diǎn)的標(biāo)簽ID、節(jié)點(diǎn)的XPATH的深度等)??傊诂F(xiàn)有技術(shù)中可以提取的各種由訓(xùn)練樣本自身信息決定的特征都可以作為本發(fā)明中的單頁(yè)面特征。
[0043]與對(duì)應(yīng)的,步驟S4包括:
[0044]步驟S41:采用特征選擇算法對(duì)訓(xùn)練樣本集的單頁(yè)面特征進(jìn)行選取,以得到重要的單頁(yè)面特征。[0045]步驟S42:利用訓(xùn)練樣本集中訓(xùn)練樣本所包含節(jié)點(diǎn)的多頁(yè)面信息得到訓(xùn)練樣本集的多頁(yè)面特征。
[0046]步驟S43:將步驟S41中得到的重要的單頁(yè)面特征及步驟S42得到的多頁(yè)面特征組合為分類特征。
[0047]步驟S41中,重要的單頁(yè)面特征指的是類別區(qū)分度敏感的單頁(yè)面特征,即加入該單頁(yè)面特征有利于提高分類算法的效果。獲取重要的單頁(yè)面特征的方法與中國(guó)發(fā)明專利申請(qǐng)?zhí)枮镃N201110035729.9的發(fā)明中描述的獲取重要的離散特征的方法是類似的,在本說(shuō)明書(shū)中不再贅述。
[0048]步驟S42中得到各個(gè)訓(xùn)練樣本的多頁(yè)面特征的方法已經(jīng)在前面介紹,即如果一個(gè)訓(xùn)練樣本僅包含一個(gè)節(jié)點(diǎn),則該訓(xùn)練樣本的多頁(yè)面特征可以是所包含節(jié)點(diǎn)的多頁(yè)面信息,如果一個(gè)訓(xùn)練樣本包含多個(gè)節(jié)點(diǎn),則該訓(xùn)練樣本的多頁(yè)面特征可以由所包含的各節(jié)點(diǎn)的多頁(yè)面信息加權(quán)求和得到。
[0049]步驟S43中,可以將重要的單頁(yè)面特征與多頁(yè)面特征組合為特征向量,作為步驟S5對(duì)訓(xùn)練樣本集進(jìn)行機(jī)器學(xué)習(xí)的依據(jù)。
[0050]機(jī)器學(xué)習(xí)的模型可以表示為Y=f(Xl,X2,......Xn)的形式。其中X1,X2,......Xn
表示一個(gè)訓(xùn)練樣本的η維分類特征,Y表示該訓(xùn)練樣本的標(biāo)注類型,f表示機(jī)器標(biāo)注規(guī)則。
由于訓(xùn)練樣本的X1,X2,......Xn已知且Y已知,通過(guò)對(duì)大量訓(xùn)練樣本進(jìn)行學(xué)習(xí),就可以總
結(jié)出機(jī)器標(biāo)注規(guī)則f。本發(fā)明對(duì)機(jī)器學(xué)習(xí)算法不做限制,任何已知的機(jī)器學(xué)習(xí)算法均可在本發(fā)明中使用。
[0051]以上,對(duì)圖1所示的實(shí)施例進(jìn)行了詳細(xì)介紹。作為本發(fā)明方法的另一個(gè)實(shí)施例,請(qǐng)參考圖7。在圖7所示的實(shí)施例中,步驟S5進(jìn)一步包括:在滿足終止條件前,將機(jī)器標(biāo)注規(guī)則作為種子標(biāo)注規(guī)則,以循環(huán)執(zhí)行步驟S3至S5。也就是說(shuō),在圖7所示的實(shí)施例中,在得到機(jī)器標(biāo)注規(guī)則之后,會(huì)用得到的機(jī)器標(biāo)注規(guī)則再次對(duì)分塊樣本集進(jìn)行標(biāo)注,得到訓(xùn)練樣本集,并重復(fù)確定訓(xùn)練樣本集的分類特征及機(jī)器學(xué)習(xí)的過(guò)程。作為一種實(shí)施方式,終止條件是當(dāng)次循環(huán)得到的機(jī)器標(biāo)注規(guī)則與上次循環(huán)得到的機(jī)器標(biāo)注規(guī)則之間的差值小于預(yù)設(shè)值。以導(dǎo)航條的機(jī)器標(biāo)注規(guī)則為例,如果當(dāng)次循環(huán)得到的機(jī)器標(biāo)注規(guī)則為距離網(wǎng)頁(yè)頂端不超過(guò)20mm,上次循環(huán)得到的機(jī)器標(biāo)注規(guī)則為距離網(wǎng)頁(yè)頂端不超過(guò)21mm,如果這兩者的差值已經(jīng)小于預(yù)設(shè)值,則可以停止循環(huán)。經(jīng)過(guò)上述循環(huán)迭代過(guò)程,最終的機(jī)器標(biāo)注規(guī)則的準(zhǔn)確性會(huì)大大提聞。
[0052]在得到最終的機(jī)器標(biāo)注規(guī)則之后,就可以采用最終的機(jī)器標(biāo)注規(guī)則給任意的網(wǎng)頁(yè)分塊進(jìn)行標(biāo)注。具體地包括:對(duì)待標(biāo)注的網(wǎng)頁(yè)分塊提取與獲取機(jī)器標(biāo)注規(guī)則時(shí)一致的分類特征,其中單頁(yè)面特征的提取方式與現(xiàn)有技術(shù)類似。提取待標(biāo)注的網(wǎng)頁(yè)分塊的多頁(yè)面特征時(shí),可先將該網(wǎng)頁(yè)分塊所屬的頁(yè)面歸入步驟SI中的一個(gè)網(wǎng)頁(yè)集合中,例如根據(jù)URL的相似性將該網(wǎng)頁(yè)分塊歸入一個(gè)網(wǎng)頁(yè)集合中,然后根據(jù)該集合中節(jié)點(diǎn)的多頁(yè)面信息確定待標(biāo)注的網(wǎng)頁(yè)分塊的多頁(yè)面特征。在對(duì)待標(biāo)注的網(wǎng)頁(yè)分塊提取了分類特征之后,就可以利用機(jī)器標(biāo)注規(guī)則對(duì)該網(wǎng)頁(yè)分塊進(jìn)行標(biāo)注。
[0053]可以看出,本發(fā)明與現(xiàn)有技術(shù)相比,對(duì)分類特征進(jìn)行了改進(jìn),由于在分類特征中采用了多頁(yè)面特征,本發(fā)明能夠很好地提高機(jī)器標(biāo)注規(guī)則的準(zhǔn)確性,從而可以利用更為準(zhǔn)確的機(jī)器標(biāo)注規(guī)則對(duì)網(wǎng)頁(yè)分塊進(jìn)行標(biāo)注,得到更準(zhǔn)確的網(wǎng)頁(yè)分塊標(biāo)注結(jié)果。例如,在使用本發(fā)明方法得到的機(jī)器標(biāo)注規(guī)則對(duì)網(wǎng)頁(yè)中的推薦鏈接塊和相關(guān)鏈接塊進(jìn)行標(biāo)注,其結(jié)果的準(zhǔn)確性大為提高。網(wǎng)頁(yè)中的推薦鏈接,通常是對(duì)當(dāng)前熱點(diǎn)新聞的推薦,與網(wǎng)頁(yè)的主體內(nèi)容沒(méi)有關(guān)系,因此在一個(gè)網(wǎng)站的很多網(wǎng)頁(yè)中,推薦鏈接的內(nèi)容是相同的。而網(wǎng)頁(yè)中的相關(guān)鏈接,通常是與網(wǎng)頁(yè)的主體內(nèi)容相關(guān)的其他網(wǎng)頁(yè)的鏈接,由于網(wǎng)頁(yè)的主體內(nèi)容各自不同,因此在一個(gè)網(wǎng)站的各網(wǎng)頁(yè)中,相關(guān)鏈接一般并不相同。由于相關(guān)鏈接塊和推薦鏈接塊在單頁(yè)面特征上具有很大的相似性,因此在沒(méi)有使用本發(fā)明之前,這兩者的標(biāo)注結(jié)果均不太理想,而在本發(fā)明對(duì)分類特征進(jìn)行改進(jìn)后,由于多頁(yè)面特征使得這兩者有了很好的區(qū)分度,因此標(biāo)注效果也大大提高。相關(guān)鏈接塊和推薦鏈接塊的示意可參考圖8。
[0054]請(qǐng)參考圖9,圖9為本發(fā)明中獲取網(wǎng)頁(yè)分塊的標(biāo)注規(guī)則的裝置的實(shí)施例的結(jié)構(gòu)示意框圖。該實(shí)施例包括:挖掘單元201、樣本獲取單元202、標(biāo)注單元203、確定單元204、學(xué)習(xí)單元205。
[0055]其中,挖掘單元201,用于獲取一個(gè)以上的網(wǎng)頁(yè)集合中節(jié)點(diǎn)的多頁(yè)面信息,其中一個(gè)節(jié)點(diǎn)的多頁(yè)面信息用于描述該節(jié)點(diǎn)在所屬網(wǎng)頁(yè)集合中的分布狀況。
[0056]樣本獲取單元202,用于從一個(gè)以上的網(wǎng)頁(yè)集合中獲取分塊樣本集。
[0057]標(biāo)注單元203,用于利用預(yù)設(shè)的種子標(biāo)注規(guī)則對(duì)分塊樣本集進(jìn)行標(biāo)注,以得到訓(xùn)練樣本集。
[0058]確定單元204,用于確定訓(xùn)練樣本集的分類特征,其中一個(gè)訓(xùn)練樣本的分類特征至少包括由該訓(xùn)練樣本所包含節(jié)點(diǎn)的多頁(yè)面信息構(gòu)成的多頁(yè)面特征。
[0059]學(xué)習(xí)單元205,用于根據(jù)確定的分類特征,對(duì)訓(xùn)練樣本集進(jìn)行機(jī)器學(xué)習(xí),以得到機(jī)器標(biāo)注規(guī)則。
[0060]在一個(gè)實(shí)施例中,一個(gè)節(jié)點(diǎn)的多頁(yè)面信息包括該節(jié)點(diǎn)的重復(fù)度及該節(jié)點(diǎn)的唯一重復(fù)度中的至少一種,其中一個(gè)節(jié)點(diǎn)的重復(fù)度等于在該節(jié)點(diǎn)所屬的網(wǎng)頁(yè)集合中,以該節(jié)點(diǎn)的路徑出現(xiàn)的節(jié)點(diǎn)總數(shù)與該節(jié)點(diǎn)所屬網(wǎng)頁(yè)集合包含的網(wǎng)頁(yè)總數(shù)之間的比值,一個(gè)節(jié)點(diǎn)的唯一重復(fù)度等于在該節(jié)點(diǎn)所屬的網(wǎng)頁(yè)集合中,以該節(jié)點(diǎn)的路徑在所屬網(wǎng)頁(yè)中唯一出現(xiàn)的節(jié)點(diǎn)總數(shù)與該節(jié)點(diǎn)所屬網(wǎng)頁(yè)集合包含的網(wǎng)頁(yè)總數(shù)之間的比值。
[0061]在一個(gè)實(shí)施例中,一個(gè)訓(xùn)練樣本的分類特征還包括單頁(yè)面特征,其中訓(xùn)練樣本的單頁(yè)面特征是指僅由該訓(xùn)練樣本自身信息決定的特征。具體地,一個(gè)訓(xùn)練樣本的單頁(yè)面特征至少包括以下特征中的一種:視覺(jué)特征、內(nèi)容特征、文本結(jié)構(gòu)特征或網(wǎng)頁(yè)結(jié)構(gòu)特征。與之對(duì)應(yīng)的,確定單元204具體包括:單頁(yè)面特征選取單元(圖中未示出)、多頁(yè)面特征計(jì)算單元(圖中未示出)和分類特征生成單元(圖中未示出)。其中單頁(yè)面特征選取單元,用于采用特征選擇算法對(duì)訓(xùn)練樣本集的單頁(yè)面特征進(jìn)行選取,以得到重要的單頁(yè)面特征。多頁(yè)面特征計(jì)算單元,用于利用訓(xùn)練樣本集中訓(xùn)練樣本所包含節(jié)點(diǎn)的多頁(yè)面信息得到訓(xùn)練樣本集的多頁(yè)面特征。分類特征生成單元,用于將重要的單頁(yè)面特征及多頁(yè)面特征組合為分類特征。
[0062]在一個(gè)實(shí)施例中,學(xué)習(xí)單元205進(jìn)一步用于,在滿足終止條件前,將機(jī)器標(biāo)注規(guī)則作為種子標(biāo)注規(guī)則,以觸發(fā)標(biāo)注單元203至學(xué)習(xí)單元205循環(huán)執(zhí)行。作為一種實(shí)施方式,終止條件為當(dāng)次循環(huán)得到的機(jī)器標(biāo)注規(guī)則與上次循環(huán)得到的機(jī)器標(biāo)注規(guī)則之間的差值小于預(yù)設(shè)值。
[0063]以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。
【權(quán)利要求】
1.一種獲取網(wǎng)頁(yè)分塊的標(biāo)注規(guī)則的方法,包括: A.獲取一個(gè)以上的網(wǎng)頁(yè)集合中節(jié)點(diǎn)的多頁(yè)面信息,其中一個(gè)節(jié)點(diǎn)的多頁(yè)面信息用于描述該節(jié)點(diǎn)在所屬網(wǎng)頁(yè)集合中的分布狀況; B.從所述一個(gè)以上的網(wǎng)頁(yè)集合中獲取分塊樣本集; C.利用預(yù)設(shè)的種子標(biāo)注規(guī)則對(duì)所述分塊樣本集進(jìn)行標(biāo)注,以得到訓(xùn)練樣本集; D.確定所述訓(xùn)練樣本集的分類特征,其中一個(gè)訓(xùn)練樣本的分類特征至少包括由該訓(xùn)練樣本所包含節(jié)點(diǎn)的多頁(yè)面信息構(gòu)成的多頁(yè)面特征; E.根據(jù)確定的分類特征,對(duì)所述訓(xùn)練樣本集進(jìn)行機(jī)器學(xué)習(xí),以得到機(jī)器標(biāo)注規(guī)則。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,一個(gè)節(jié)點(diǎn)的多頁(yè)面信息包括該節(jié)點(diǎn)的重復(fù)度及該節(jié)點(diǎn)的唯一重復(fù)度中的至少一種,其中一個(gè)節(jié)點(diǎn)的重復(fù)度等于在該節(jié)點(diǎn)所屬的網(wǎng)頁(yè)集合中,以該節(jié)點(diǎn)的路徑出現(xiàn)的節(jié)點(diǎn)總數(shù)與該節(jié)點(diǎn)所屬網(wǎng)頁(yè)集合包含的網(wǎng)頁(yè)總數(shù)之間的比值,一個(gè)節(jié)點(diǎn)的唯一重復(fù)度等于在該節(jié)點(diǎn)所屬的網(wǎng)頁(yè)集合中,以該節(jié)點(diǎn)的路徑在所屬網(wǎng)頁(yè)中唯一出現(xiàn)的節(jié)點(diǎn)總數(shù)與該節(jié)點(diǎn)所屬網(wǎng)頁(yè)集合包含的網(wǎng)頁(yè)總數(shù)之間的比值。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟C包括: 采用特征選擇算法對(duì)所述訓(xùn)練樣本集的單頁(yè)面特征進(jìn)行選取,以得到重要的單頁(yè)面特征,其中一個(gè)訓(xùn)練樣本的單頁(yè)面特征是指僅由該訓(xùn)練樣本自身信息決定的特征; 利用所述訓(xùn)練樣本集中訓(xùn)練樣本所包含節(jié)點(diǎn)的多頁(yè)面信息得到訓(xùn)練樣本集的多頁(yè)面特征; 將所述重要的單頁(yè)面特征及所述多頁(yè)面特征組合為分類特征。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,一個(gè)訓(xùn)練樣本的單頁(yè)面特征至少包括以下特征中的一種:視覺(jué)特征、內(nèi)容特征、文本結(jié)構(gòu)特征或網(wǎng)頁(yè)結(jié)構(gòu)特征。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟E進(jìn)一步包括: 在滿足終止條件前,將機(jī)器標(biāo)注規(guī)則作為種子標(biāo)注規(guī)則,以循環(huán)執(zhí)行所述步驟C至所述步驟E。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述終止條件為當(dāng)次循環(huán)得到的機(jī)器標(biāo)注規(guī)則與上次循環(huán)得到的機(jī)器標(biāo)注規(guī)則之間的差值小于預(yù)設(shè)值。
7.一種獲取網(wǎng)頁(yè)分塊的標(biāo)注規(guī)則的裝置,包括: 挖掘單元,用于獲取一個(gè)以上的網(wǎng)頁(yè)集合中節(jié)點(diǎn)的多頁(yè)面信息,其中一個(gè)節(jié)點(diǎn)的多頁(yè)面信息用于描述該節(jié)點(diǎn)在所屬網(wǎng)頁(yè)集合中的分布狀況; 樣本獲取單元,用于從所述一個(gè)以上的網(wǎng)頁(yè)集合中獲取分塊樣本集; 標(biāo)注單元,用于利用預(yù)設(shè)的種子標(biāo)注規(guī)則對(duì)分塊樣本集進(jìn)行標(biāo)注,以得到訓(xùn)練樣本集; 確定單元,用于確定所述訓(xùn)練樣本集的分類特征,其中一個(gè)訓(xùn)練樣本的分類特征至少包括由該訓(xùn)練樣本所包含節(jié)點(diǎn)的多頁(yè)面信息構(gòu)成的多頁(yè)面特征; 學(xué)習(xí)單元,用于根據(jù)確定的分類特征,對(duì)訓(xùn)練樣本集進(jìn)行機(jī)器學(xué)習(xí),以得到機(jī)器標(biāo)注規(guī)則。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,一個(gè)節(jié)點(diǎn)的多頁(yè)面信息包括該節(jié)點(diǎn)的重復(fù)度及該節(jié)點(diǎn)的唯一重復(fù)度中的至少一種,其中一個(gè)節(jié)點(diǎn)的重復(fù)度等于在該節(jié)點(diǎn)所屬的網(wǎng)頁(yè)集合中,以該節(jié)點(diǎn)的路徑出現(xiàn)的節(jié)點(diǎn)總數(shù)與該節(jié)點(diǎn)所屬網(wǎng)頁(yè)集合包含的網(wǎng)頁(yè)總數(shù)之間的比值,一個(gè)節(jié)點(diǎn)的唯一重復(fù)度等于在該節(jié)點(diǎn)所屬的網(wǎng)頁(yè)集合中,以該節(jié)點(diǎn)的路徑在所屬網(wǎng)頁(yè)中唯一出現(xiàn)的節(jié)點(diǎn)總數(shù)與該節(jié)點(diǎn)所屬網(wǎng)頁(yè)集合包含的網(wǎng)頁(yè)總數(shù)之間的比值。
9.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述確定單元包括: 單頁(yè)面特征選取單元,用于采用特征選擇算法對(duì)所述訓(xùn)練樣本集的單頁(yè)面特征進(jìn)行選取,以得到重要的單頁(yè)面特征,其中一個(gè)訓(xùn)練樣本的單頁(yè)面特征是指僅由該訓(xùn)練樣本自身信息決定的特征; 多頁(yè)面特征計(jì)算單元,用于利用所述訓(xùn)練樣本集中訓(xùn)練樣本所包含節(jié)點(diǎn)的多頁(yè)面信息得到訓(xùn)練樣本集的多頁(yè)面特征; 分類特征生成單元,用于將所述重要的單頁(yè)面特征及所述多頁(yè)面特征組合為分類特征。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,一個(gè)訓(xùn)練樣本的單頁(yè)面特征至少包括以下特征中的一種:視覺(jué)特征、內(nèi)容特征、文本結(jié)構(gòu)特征或網(wǎng)頁(yè)結(jié)構(gòu)特征。
11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述學(xué)習(xí)單元進(jìn)一步用于,在滿足終止條件前,將所述機(jī)器標(biāo)注規(guī)則作為種子標(biāo)注規(guī)則,以觸發(fā)所述標(biāo)注單元至所述學(xué)習(xí)單元循環(huán)執(zhí)行。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述終止條件為當(dāng)次循環(huán)得到的機(jī)器標(biāo)注規(guī)則與上次循環(huán)得到的機(jī)器標(biāo)注規(guī)則之間的差值小于預(yù)設(shè)值。
【文檔編號(hào)】G06F17/30GK103942224SQ201310024439
【公開(kāi)日】2014年7月23日 申請(qǐng)日期:2013年1月23日 優(yōu)先權(quán)日:2013年1月23日
【發(fā)明者】田振雷, 吳一璞, 劉秋水, 黃金剛, 牛正雨 申請(qǐng)人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司