一種網(wǎng)站重點(diǎn)頁(yè)面的挖掘方法及裝置制造方法
【專(zhuān)利摘要】本發(fā)明提供了一種網(wǎng)站重點(diǎn)頁(yè)面的挖掘方法及裝置。其中網(wǎng)站重點(diǎn)頁(yè)面的挖掘方法包括:分別從網(wǎng)站的各網(wǎng)頁(yè)中提取導(dǎo)航鏈接串;分別將提取的各導(dǎo)航鏈接串拆分為鏈接對(duì),其中每個(gè)鏈接對(duì)由該導(dǎo)航鏈接串中相鄰位置的兩個(gè)鏈接構(gòu)成;從各鏈接對(duì)中確定重點(diǎn)鏈接對(duì),并將所述重點(diǎn)鏈接對(duì)所對(duì)應(yīng)的頁(yè)面作為所述網(wǎng)站的重點(diǎn)頁(yè)面。通過(guò)上述方式,本發(fā)明可以提高對(duì)網(wǎng)站重點(diǎn)頁(yè)面進(jìn)行挖掘時(shí)的召回率及準(zhǔn)確率。
【專(zhuān)利說(shuō)明】一種網(wǎng)站重點(diǎn)頁(yè)面的挖掘方法及裝置
【【技術(shù)領(lǐng)域】】
[0001]本發(fā)明涉及數(shù)據(jù)挖掘處理技術(shù),特別涉及一種網(wǎng)站重點(diǎn)頁(yè)面的挖掘方法及裝置。【【背景技術(shù)】】
[0002]網(wǎng)頁(yè)權(quán)威性是搜索引擎對(duì)結(jié)果進(jìn)行排序的一個(gè)重要參考因素。計(jì)算網(wǎng)頁(yè)權(quán)威性時(shí),將參與計(jì)算的所有網(wǎng)頁(yè)作為一個(gè)集合,并通過(guò)集合內(nèi)網(wǎng)頁(yè)之間的鏈接關(guān)系迭代計(jì)算網(wǎng)頁(yè)的權(quán)威性。但是隨著互聯(lián)網(wǎng)的發(fā)展,互聯(lián)網(wǎng)上的網(wǎng)頁(yè)越來(lái)越多,如果將互聯(lián)網(wǎng)上所有網(wǎng)頁(yè)都作為參與權(quán)威性計(jì)算的網(wǎng)頁(yè),則對(duì)計(jì)算系統(tǒng)的架構(gòu)要求非常高,因此通常僅挑選各網(wǎng)站與外部網(wǎng)站存在鏈接關(guān)系的網(wǎng)頁(yè)作為參與權(quán)威性計(jì)算的網(wǎng)頁(yè),但是現(xiàn)有技術(shù)的這種方式,會(huì)導(dǎo)致各網(wǎng)站內(nèi)部的一些優(yōu)秀網(wǎng)頁(yè)無(wú)法得到權(quán)威性值,此外,也會(huì)影響參與計(jì)算的網(wǎng)頁(yè)得到的權(quán)威性值的準(zhǔn)確性。
[0003]為了改善上述問(wèn)題,現(xiàn)有技術(shù)有一種做法,是將網(wǎng)站內(nèi)與外部網(wǎng)站存在鏈接關(guān)系的網(wǎng)頁(yè),以及網(wǎng)站內(nèi)的一些重要網(wǎng)頁(yè)一起提取出來(lái),作為參與網(wǎng)頁(yè)權(quán)威性計(jì)算的網(wǎng)頁(yè)。在現(xiàn)有技術(shù)中,是通過(guò)網(wǎng)站中網(wǎng)頁(yè)的站內(nèi)反鏈數(shù)量來(lái)確定網(wǎng)頁(yè)的重要性的,例如將網(wǎng)站中站內(nèi)反鏈數(shù)量大于設(shè)定閾值的網(wǎng)頁(yè)提取出來(lái),如果這些網(wǎng)頁(yè)所指向網(wǎng)頁(yè)的站內(nèi)反鏈數(shù)量也大于設(shè)定閾值,則將這些網(wǎng)頁(yè)及所指網(wǎng)頁(yè)作為重點(diǎn)網(wǎng)頁(yè)。但是這種現(xiàn)有技術(shù)的方法,召回率較低,準(zhǔn)確性也較差。
【
【發(fā)明內(nèi)容】
】
[0004]本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種網(wǎng)站重點(diǎn)頁(yè)面的挖掘方法及裝置,以提高對(duì)網(wǎng)站重點(diǎn)頁(yè)面進(jìn)行挖掘時(shí)的召回率及準(zhǔn)確率。
[0005]本發(fā)明為解決技術(shù)問(wèn)題而采用的技術(shù)方案是提供一種網(wǎng)站重點(diǎn)頁(yè)面的挖掘方法,包括:分別從網(wǎng)站的各網(wǎng)頁(yè)中提取導(dǎo)航鏈接串;分別將提取的各導(dǎo)航鏈接串拆分為鏈接對(duì),其中每個(gè)鏈接對(duì)由該導(dǎo)航·鏈接串中相鄰位置的兩個(gè)鏈接構(gòu)成;從各鏈接對(duì)中確定重點(diǎn)鏈接對(duì),并將所述重點(diǎn)鏈接對(duì)所對(duì)應(yīng)的頁(yè)面作為所述網(wǎng)站的重點(diǎn)頁(yè)面。
[0006]根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,從各鏈接對(duì)中確定重點(diǎn)鏈接對(duì)的步驟包括:分別統(tǒng)計(jì)各鏈接對(duì)的出現(xiàn)次數(shù),并將出現(xiàn)次數(shù)滿(mǎn)足預(yù)置條件的鏈接對(duì)作為重點(diǎn)鏈接對(duì)。
[0007]根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述預(yù)置條件包括:出現(xiàn)次數(shù)大于設(shè)定值;或者出現(xiàn)次數(shù)的排名超過(guò)各鏈接對(duì)中設(shè)定比例的鏈接對(duì)。
[0008]根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,從各鏈接對(duì)中確定重點(diǎn)鏈接對(duì)的步驟包括:分別利用預(yù)先訓(xùn)練好的分類(lèi)模型對(duì)各鏈接對(duì)進(jìn)行分類(lèi),并將分為重要類(lèi)別的鏈接對(duì)作為重點(diǎn)鏈接對(duì),其中所述分類(lèi)模型中的分類(lèi)特征參數(shù)包括鏈接對(duì)的出現(xiàn)次數(shù)。
[0009]根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述分類(lèi)模型中的分類(lèi)特征參數(shù)進(jìn)一步還包括以下至少一種:鏈接對(duì)中指向鏈接所對(duì)應(yīng)的頁(yè)面的出度、鏈接對(duì)中指向鏈接的深度、鏈接對(duì)中被指鏈接的深度、鏈接對(duì)中指向鏈接的深度與被指鏈接的深度之間的差值、鏈接對(duì)所對(duì)應(yīng)的錨文本詞數(shù)量。[0010]根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述方法進(jìn)一步包括:計(jì)算所述重點(diǎn)頁(yè)面的網(wǎng)頁(yè)權(quán)威性,其中所述網(wǎng)頁(yè)權(quán)威性是搜索引擎將所述重點(diǎn)頁(yè)面作為搜索結(jié)果返回時(shí),對(duì)所述重點(diǎn)頁(yè)面進(jìn)行排序的依據(jù)。
[0011]本發(fā)明還提供了一種網(wǎng)站重點(diǎn)頁(yè)面的挖掘裝置,包括:挖掘單元,用于分別從網(wǎng)站的各網(wǎng)頁(yè)中提取導(dǎo)航鏈接串;拆分單元,用于分別將提取的各導(dǎo)航鏈接串拆分為鏈接對(duì),其中每個(gè)鏈接對(duì)由該導(dǎo)航鏈接串中相鄰位置的兩個(gè)鏈接構(gòu)成;確定單元,用于從各鏈接對(duì)中確定重點(diǎn)鏈接對(duì),并將所述重點(diǎn)鏈接對(duì)所對(duì)應(yīng)的頁(yè)面作為所述網(wǎng)站的重點(diǎn)頁(yè)面。
[0012]根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述確定單元包括:統(tǒng)計(jì)單元,用于分別統(tǒng)計(jì)各鏈接對(duì)的出現(xiàn)次數(shù),并將出現(xiàn)次數(shù)滿(mǎn)足預(yù)置條件的鏈接對(duì)作為重點(diǎn)鏈接對(duì)。
[0013]根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述預(yù)置條件包括:出現(xiàn)次數(shù)大于設(shè)定值;或者出現(xiàn)次數(shù)的排名超過(guò)各鏈接對(duì)中設(shè)定比例的鏈接對(duì)。
[0014]根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述確定單元包括:分類(lèi)單元,用于分別利用預(yù)先訓(xùn)練好的分類(lèi)模型對(duì)各鏈接對(duì)進(jìn)行分類(lèi),并將分為重要類(lèi)別的鏈接對(duì)作為重點(diǎn)鏈接對(duì),其中所述分類(lèi)模型中的分類(lèi)特征參數(shù)包括鏈接對(duì)的出現(xiàn)次數(shù)。
[0015]根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述分類(lèi)模型中的分類(lèi)特征參數(shù)進(jìn)一步還包括以下至少一種:鏈接對(duì)中指向鏈接所對(duì)應(yīng)的頁(yè)面的出度、鏈接對(duì)中指向鏈接的深度、鏈接對(duì)中被指鏈接的深度、鏈接對(duì)中指向鏈接的深度與被指鏈接的深度之 間的差值、鏈接對(duì)所對(duì)應(yīng)的錨文本詞數(shù)量。
[0016]根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述裝置進(jìn)一步包括:計(jì)算單元,用于計(jì)算所述重點(diǎn)頁(yè)面的網(wǎng)頁(yè)權(quán)威性,其中所述網(wǎng)頁(yè)權(quán)威性是搜索引擎將所述重點(diǎn)頁(yè)面作為搜索結(jié)構(gòu)返回時(shí),對(duì)所述重點(diǎn)頁(yè)面進(jìn)行排序的依據(jù)。
[0017]由以上技術(shù)方案可以看出,本發(fā)明在確定網(wǎng)站中的重點(diǎn)頁(yè)面時(shí),不依賴(lài)網(wǎng)頁(yè)的站內(nèi)反鏈數(shù)量,而是對(duì)網(wǎng)站中網(wǎng)頁(yè)的導(dǎo)航鏈接串進(jìn)行分析。實(shí)驗(yàn)數(shù)據(jù)表明,對(duì)互聯(lián)網(wǎng)上的各大網(wǎng)站采用本發(fā)明的方法進(jìn)行挖掘后,召回的重點(diǎn)頁(yè)面數(shù)量與現(xiàn)有技術(shù)相比,增加了 2000萬(wàn),并且召回的重點(diǎn)頁(yè)面大多屬于網(wǎng)站的目錄頁(yè),也就是說(shuō)本發(fā)明方法召回的網(wǎng)頁(yè)能夠很好地反映出網(wǎng)頁(yè)的重要性,即本發(fā)明方法的準(zhǔn)確率較高。
【【專(zhuān)利附圖】
【附圖說(shuō)明】】
[0018]圖1為本發(fā)明中網(wǎng)站重點(diǎn)頁(yè)面的挖掘方法的流程示意圖;
[0019]圖2為本發(fā)明中導(dǎo)航鏈接串的示意圖;
[0020]圖3為本發(fā)明中網(wǎng)頁(yè)源文件的示意圖;
[0021]圖4為本發(fā)明中網(wǎng)站重點(diǎn)頁(yè)面的挖掘裝置的實(shí)施例一的結(jié)構(gòu)示意框圖;
[0022]圖5為本發(fā)明中網(wǎng)站重點(diǎn)頁(yè)面的挖掘裝置的實(shí)施例二的結(jié)構(gòu)示意框圖;
[0023]圖6為本發(fā)明中模型訓(xùn)練裝置的實(shí)施例的結(jié)構(gòu)示意框圖;
[0024]圖7為本發(fā)明中網(wǎng)站重點(diǎn)頁(yè)面的挖掘裝置的實(shí)施例三的結(jié)構(gòu)示意框圖。
【【具體實(shí)施方式】】
[0025]為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)描述。[0026]請(qǐng)參考圖1,圖1為本發(fā)明中網(wǎng)站重點(diǎn)頁(yè)面的挖掘方法的流程示意圖。如圖1所示,該方法包括:
[0027]步驟SlOl:分別從網(wǎng)站的各網(wǎng)頁(yè)中提取導(dǎo)航鏈接串。
[0028]步驟S102:分別將提取的各導(dǎo)航鏈接串拆分為鏈接對(duì)。
[0029]步驟S103:從各鏈接對(duì)中確定重點(diǎn)鏈接對(duì),并將重點(diǎn)鏈接對(duì)所對(duì)應(yīng)的頁(yè)面作為網(wǎng)站的重點(diǎn)頁(yè)面。
[0030]下面對(duì)上述步驟進(jìn)行具體說(shuō)明。
[0031]請(qǐng)參考圖2,圖2為本發(fā)明中導(dǎo)航鏈接串的示意圖。如圖2所示,導(dǎo)航鏈接串是網(wǎng)頁(yè)上方由“〉”符號(hào)連接起來(lái)的鏈接串。
[0032]請(qǐng)參考圖3,圖3為本發(fā)明中網(wǎng)頁(yè)源文件的示意圖。如圖3所示,本發(fā)明中通過(guò)“〉”符號(hào),可以從網(wǎng)頁(yè)源文件上定位若干個(gè)相鄰的超鏈標(biāo)簽,步驟SlOl中將這些超鏈標(biāo)簽中的鏈接地址提取出來(lái),就得到了一個(gè)網(wǎng)頁(yè)的導(dǎo)航鏈接串。
[0033]步驟S102中的鏈接對(duì),是由導(dǎo)航鏈接串中相鄰位置的兩個(gè)鏈接構(gòu)成的。如形如“A->B->C->D”的導(dǎo)航鏈接串,可提取出“C_>D”三個(gè)鏈接對(duì)。
[0034]在將網(wǎng)站中各網(wǎng)頁(yè)的導(dǎo)航鏈接串拆分后,得到一個(gè)鏈接對(duì)集合,該集合中可以包含重復(fù)的元素,例如這個(gè)鏈接如果在多個(gè)頁(yè)面的導(dǎo)航鏈接串中出現(xiàn),就會(huì)成為鏈接對(duì)集合中的重復(fù)元素。
[0035]作為一種實(shí)施方式,步驟S103中從各鏈接對(duì)中確定重點(diǎn)鏈接對(duì)的方式包括:
[0036]分別統(tǒng)計(jì)各鏈接對(duì)的出現(xiàn)次數(shù),并將出現(xiàn)次數(shù)滿(mǎn)足預(yù)置條件的鏈接對(duì)作為重點(diǎn)鏈接對(duì)。
[0037]鏈接對(duì)的出現(xiàn)次數(shù),是元素在上述集合中的出現(xiàn)次數(shù),即鏈接對(duì)在各導(dǎo)航鏈接串中出現(xiàn)的次數(shù)。分別統(tǒng)計(jì)上述集合中每個(gè)元素的出現(xiàn)次數(shù),就可以根據(jù)鏈接對(duì)的出現(xiàn)次數(shù)確定重點(diǎn)鏈接對(duì),如將出現(xiàn)次數(shù)滿(mǎn)足預(yù)置條件的鏈接對(duì)作為重點(diǎn)鏈接對(duì)。
[0038]上述預(yù)置條件包括:出現(xiàn)次數(shù)大于設(shè)定值;或者,出現(xiàn)次數(shù)的排名超過(guò)各鏈接對(duì)中設(shè)定比例的鏈接對(duì)。
[0039]例如將出現(xiàn)次數(shù)大于100的鏈接對(duì)作為重點(diǎn)鏈接對(duì),或者當(dāng)各鏈接對(duì)的總數(shù)為600,設(shè)定比例為70%時(shí),由于600*70%=420,則將出現(xiàn)次數(shù)排名在前180名的鏈接對(duì)(超過(guò)各鏈接對(duì)中的70%的鏈接對(duì))作為重點(diǎn)鏈接對(duì)。
[0040]作為優(yōu)選的實(shí)施方式,步驟S103中從各鏈接對(duì)中確定重點(diǎn)鏈接對(duì)的方式包括:
[0041]分別利用預(yù)先訓(xùn)練好的分類(lèi)模型對(duì)各鏈接對(duì)進(jìn)行分類(lèi),并將分為重要類(lèi)別的鏈接對(duì)作為重點(diǎn)鏈接對(duì)。
[0042]上述訓(xùn)練好的分類(lèi)模型中的分類(lèi)特征參數(shù)包括鏈接對(duì)的出現(xiàn)次數(shù)。此外,上述訓(xùn)練好的分類(lèi)模型的分類(lèi)特征參數(shù)還可以進(jìn)一步包括以下至少一種:鏈接對(duì)中的指向鏈接所對(duì)應(yīng)的頁(yè)面的出度、鏈接對(duì)中的指向鏈接的深度、鏈接對(duì)中的被指鏈接的深度、鏈接對(duì)中的指向鏈接的深度與被指鏈接的深度之間的差值、鏈接對(duì)所對(duì)應(yīng)的錨文本詞數(shù)量。
[0043]下面先介紹一下預(yù)先訓(xùn)練分類(lèi)模型的一種實(shí)施方式,本發(fā)明中既可以以這種方式得到訓(xùn)練好的分類(lèi)模型,也可以獲取一個(gè)第三方訓(xùn)練好的模型作為本發(fā)明中的分類(lèi)模型,只要該模型中的分類(lèi)特征參數(shù)符合上述限定即可。
[0044]訓(xùn)練分類(lèi)模型的方法包括:[0045]S1:獲取標(biāo)注好的鏈接對(duì)樣本,其中的樣本包括正樣本和負(fù)樣本,正樣本就是標(biāo)注為重要鏈接對(duì)的樣本,負(fù)樣本就是標(biāo)注為非重要鏈接對(duì)的樣本。
[0046]S2:提取各樣本的分類(lèi)特征,以及,利用具有分類(lèi)特征的樣本對(duì)分類(lèi)模型中對(duì)應(yīng)的分類(lèi)特征參數(shù)進(jìn)行訓(xùn)練,以確定重要鏈接對(duì)的分類(lèi)特征參數(shù)范圍以及非重要鏈接對(duì)的分類(lèi)特征參數(shù)范圍。
[0047]在訓(xùn)練結(jié)束后,分類(lèi)模型的分類(lèi)特征參數(shù)就具備了描述重要鏈接對(duì)的能力。
[0048]在利用訓(xùn)練好的分類(lèi)模型在步驟S103中對(duì)各鏈接對(duì)進(jìn)行分類(lèi)的步驟中,首先提取待分類(lèi)的鏈接對(duì)的分類(lèi)特征,然后將提取的分類(lèi)特征與訓(xùn)練好的分類(lèi)模型中的分類(lèi)特征參數(shù)進(jìn)行比對(duì),如果提取的分類(lèi)特征落入重要鏈接對(duì)的分類(lèi)特征參數(shù)范圍,則待分類(lèi)的鏈接對(duì)就被分為重要類(lèi)別,否則待分類(lèi)的鏈接對(duì)就被分為非重要類(lèi)別。
[0049]下面對(duì)前面提到的各個(gè)分類(lèi)特征參數(shù)進(jìn)行一個(gè)詳細(xì)的說(shuō)明。
[0050]鏈接對(duì)的出現(xiàn)次數(shù)與步驟S103的上一個(gè)實(shí)施例中的含義相同,即鏈接對(duì)在步驟SlOl得到的各導(dǎo)航鏈接串中出現(xiàn)的次數(shù)。
[0051]形如這樣的鏈接對(duì),鏈接A即是該鏈接對(duì)中的指向鏈接,鏈接B即是該鏈接對(duì)中的被指鏈接。本發(fā)明中,鏈接對(duì)中的指向鏈接所對(duì)應(yīng)的頁(yè)面的出度,指的是鏈接對(duì)中的指向鏈接所對(duì)應(yīng)的頁(yè)面包含的、指向其他頁(yè)面的所有鏈接的總數(shù),如上面這個(gè)鏈接對(duì),假設(shè)鏈接A所對(duì)應(yīng)的頁(yè)面上包含三個(gè)指向其他頁(yè)面的鏈接,則鏈接對(duì)“A->B”中的指向鏈接A所對(duì)應(yīng)的頁(yè)面的出度就是3。
[0052]本發(fā)明中,鏈接對(duì)中的指向鏈接的深度,指的是從網(wǎng)站的首頁(yè)到達(dá)指向鏈接所對(duì)應(yīng)的頁(yè)面的最少跳轉(zhuǎn)次數(shù)。例如網(wǎng)站的首頁(yè)為F,指向鏈接所對(duì)應(yīng)的頁(yè)面為X,鏈接關(guān)系“F->T1->T2->X”表示首頁(yè)F有指向頁(yè)面Tl的鏈接,頁(yè)面Tl有指向頁(yè)面T2的鏈接,頁(yè)面T2有指向頁(yè)面X的鏈接,即從首頁(yè)F到頁(yè)面X的跳轉(zhuǎn)次數(shù)為3,如果該跳轉(zhuǎn)次數(shù)是從首頁(yè)F到達(dá)頁(yè)面X的最少跳轉(zhuǎn)次數(shù),則頁(yè)面X所對(duì)應(yīng)的指向鏈接的深度就是3。
[0053]同理,本發(fā)明中,鏈接對(duì)中的被指鏈接的深度,指的是從網(wǎng)站的首頁(yè)到達(dá)被指鏈接所對(duì)應(yīng)的頁(yè)面的最少跳轉(zhuǎn)次數(shù)。
[0054]假設(shè)鏈接對(duì)中,指向鏈接A的深度為3,被指鏈接B的深度為1,則指向鏈接的深度與被指鏈接的深度之間的差值就是3-1=2。
[0055]鏈接對(duì)所對(duì)應(yīng)的錨文本詞數(shù)量,指的是鏈接對(duì)中的兩個(gè)鏈接分別對(duì)應(yīng)的錨文本經(jīng)過(guò)切詞后得到的錨文本詞的總數(shù)。如形如“電腦維修_>軟件故障”這樣的鏈接對(duì),錨文本有“電腦維修”和“軟件故障”,切詞后得到“電腦”、“維修”、“軟件”、“故障”,因此該鏈接對(duì)所對(duì)應(yīng)的錨文本詞數(shù)量就是4。
[0056]在本發(fā)明中,利用現(xiàn)有技術(shù)的各種機(jī)器學(xué)習(xí)方法,如SVM (support vectormachine支持向量機(jī)),即可實(shí)現(xiàn)對(duì)分類(lèi)模型進(jìn)行訓(xùn)練以及利用訓(xùn)練好的分類(lèi)模型對(duì)鏈接對(duì)進(jìn)行分類(lèi)的步驟,在此不再贅述。
[0057]在執(zhí)行完步驟S103后,本發(fā)明就確定了網(wǎng)站中的重點(diǎn)頁(yè)面。進(jìn)一步的,本發(fā)明還包括計(jì)算重點(diǎn)頁(yè)面的網(wǎng)頁(yè)權(quán)威性,其中網(wǎng)頁(yè)權(quán)威性是搜索引擎將網(wǎng)站的重點(diǎn)頁(yè)面作為搜索結(jié)果返回時(shí),對(duì)重點(diǎn)頁(yè)面進(jìn)行排序的依據(jù)。計(jì)算頁(yè)面的網(wǎng)頁(yè)權(quán)威性,在本領(lǐng)域已有多種公知做法,如美國(guó)發(fā)明專(zhuān)利號(hào)為6285999的專(zhuān)利文件即公開(kāi)了一種計(jì)算網(wǎng)頁(yè)權(quán)威性的方法。
[0058]此外,本發(fā)明確定的重點(diǎn)頁(yè)面還可用于生成網(wǎng)站的骨架。重點(diǎn)頁(yè)面相互之間的鏈接關(guān)系,可以反映一個(gè)網(wǎng)站的網(wǎng)頁(yè)分布情況,利用重點(diǎn)頁(yè)面相互之間的鏈接關(guān)系生成網(wǎng)站的骨架,就可以對(duì)網(wǎng)站網(wǎng)頁(yè)的類(lèi)型進(jìn)行分類(lèi)。通常網(wǎng)站的骨架形成一個(gè)樹(shù)型的結(jié)構(gòu),則在同一分支的網(wǎng)站網(wǎng)頁(yè)可歸為一類(lèi)。
[0059]請(qǐng)參考圖4,圖4為本發(fā)明中網(wǎng)站重點(diǎn)頁(yè)面的挖掘裝置的實(shí)施例一的結(jié)構(gòu)示意框圖。如圖4所示,該裝置包括:挖掘單元201、拆分單元202及確定單元203。
[0060]其中挖掘單元201,用于分別從網(wǎng)站的各網(wǎng)頁(yè)中提取導(dǎo)航鏈接串。拆分單元202,用于分別將提取的各導(dǎo)航鏈接串拆分為鏈接對(duì)。確定單元203,用于從各鏈接對(duì)中確定重點(diǎn)鏈接對(duì),并將重點(diǎn)鏈接對(duì)所對(duì)應(yīng)的頁(yè)面作為網(wǎng)站的重點(diǎn)頁(yè)面。
[0061]請(qǐng)參考圖2,圖2本發(fā)明中導(dǎo)航鏈接串的示意圖。如圖2所示,導(dǎo)航鏈接串是網(wǎng)頁(yè)上方由“〉”符號(hào)連接起來(lái)的鏈接串。
[0062]請(qǐng)參考圖3,圖3為本發(fā)明中網(wǎng)頁(yè)源文件的示意圖。如圖3所示,本發(fā)明中通過(guò)“〉”符號(hào),可以從網(wǎng)頁(yè)源文件上定位若干個(gè)相鄰的超鏈標(biāo)簽,挖掘單元201將這些超鏈標(biāo)簽中的鏈接地址提取出來(lái),就得到了一個(gè)網(wǎng)頁(yè)的導(dǎo)航鏈接串。
[0063]本發(fā)明中的鏈接對(duì),是由導(dǎo)航鏈接串中相鄰位置的兩個(gè)鏈接構(gòu)成的。如形如“ A->B->C->D ”的導(dǎo)航鏈接串,可提取出“ A->B ”、“ B->C ”、“ C->D ”三個(gè)鏈接對(duì)。
[0064]拆分單元202在將網(wǎng)站中各網(wǎng)頁(yè)的導(dǎo)航鏈接串拆分后,得到一個(gè)鏈接對(duì)集合,該集合中可以包含重復(fù)的元素,例如這個(gè)鏈接如果在多個(gè)頁(yè)面的導(dǎo)航鏈接串中出現(xiàn),則經(jīng)過(guò)拆分單元202處理,就會(huì)成為鏈接對(duì)集合中的重復(fù)元素。
[0065]在本實(shí)施例中,確定單元203包括統(tǒng)計(jì)單元2031,其中統(tǒng)計(jì)單元2031,用于分別統(tǒng)計(jì)各鏈接對(duì)的出現(xiàn)次數(shù),并將出現(xiàn)次數(shù)滿(mǎn)足預(yù)置條件的鏈接對(duì)作為重點(diǎn)鏈接對(duì)。
[0066]其中,預(yù)置條件包括:出現(xiàn)次數(shù)大于設(shè)定值;或者,出現(xiàn)次數(shù)的排名超過(guò)各鏈接對(duì)中設(shè)定比例的鏈接對(duì)。
[0067]例如統(tǒng)計(jì)單元2031將出現(xiàn)次數(shù)大于100的鏈接對(duì)作為重點(diǎn)鏈接對(duì),或者當(dāng)各鏈接對(duì)的總數(shù)為600,設(shè)定比例為70%時(shí),由于600*70%=420,則將出現(xiàn)次數(shù)排名在前180名的鏈接對(duì)(超過(guò)各鏈接對(duì)中的70%的鏈接對(duì))作為重點(diǎn)鏈接對(duì)。
[0068]請(qǐng)參考圖5,圖5為本發(fā)明中網(wǎng)站重點(diǎn)頁(yè)面的挖掘裝置的實(shí)施例二的結(jié)構(gòu)示意框圖。如圖5所示,該實(shí)施例與實(shí)施例一的區(qū)別在于,確定單元203包括分類(lèi)單元2032,用于分別利用預(yù)先訓(xùn)練好的分類(lèi)模型204對(duì)各鏈接對(duì)進(jìn)行分類(lèi),并將分為重要類(lèi)別的鏈接對(duì)作為重點(diǎn)鏈接對(duì)。
[0069]上述訓(xùn)練好的分類(lèi)模型204中的分類(lèi)特征參數(shù)包括鏈接對(duì)的出現(xiàn)次數(shù)。此外,分類(lèi)特征參數(shù)還可以進(jìn)一步包括以下至少一種:鏈接對(duì)中的指向鏈接所對(duì)應(yīng)的頁(yè)面的出度、鏈接對(duì)中的指向鏈接的深度、鏈接對(duì)中的被指鏈接的深度、鏈接對(duì)中的指向鏈接的深度與被指鏈接的深度之間的差值、鏈接對(duì)所對(duì)應(yīng)的錨文本詞數(shù)量。
[0070]本發(fā)明中訓(xùn)練好的分類(lèi)模型既可以是一個(gè)第三方訓(xùn)練好的模型,也可以是預(yù)先由模型訓(xùn)練裝置得到的模型。請(qǐng)參考圖6,圖6為本發(fā)明中模型訓(xùn)練裝置的實(shí)施例的結(jié)構(gòu)示意框圖。
[0071]如圖6所示,模型訓(xùn)練裝置301包括樣本獲取單元3011和訓(xùn)練單元3012,其中樣本獲取單元3011,用于獲取標(biāo)注好的鏈接對(duì)樣本。訓(xùn)練單元3012,用于提取各樣本的分類(lèi)特征,以及,利用具有分類(lèi)特征的樣本對(duì)分類(lèi)模型中對(duì)應(yīng)的分類(lèi)特征參數(shù)進(jìn)行訓(xùn)練,以確定重要鏈接對(duì)的分類(lèi)特征參數(shù)范圍以及非重要鏈接對(duì)的分類(lèi)特征參數(shù)范圍。
[0072]請(qǐng)參考圖7,圖7為本發(fā)明中網(wǎng)站重點(diǎn)頁(yè)面的挖掘裝置的實(shí)施例三的結(jié)構(gòu)示意框圖。如圖7所示,該實(shí)施例進(jìn)一步還包括計(jì)算單元205,其中計(jì)算單元205,用于計(jì)算重點(diǎn)頁(yè)面的網(wǎng)頁(yè)權(quán)威性,其中網(wǎng)頁(yè)權(quán)威性是搜索引擎向用戶(hù)返回重點(diǎn)頁(yè)面時(shí),對(duì)重點(diǎn)頁(yè)面進(jìn)行排序的依據(jù)。計(jì)算單元205的實(shí)施方式可參考美國(guó)發(fā)明專(zhuān)利號(hào)為6285999的專(zhuān)利文件,在此不再贅述。
[0073]以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。
【權(quán)利要求】
1.一種網(wǎng)站重點(diǎn)頁(yè)面的挖掘方法,包括: 分別從網(wǎng)站的各網(wǎng)頁(yè)中提取導(dǎo)航鏈接串; 分別將提取的各導(dǎo)航鏈接串拆分為鏈接對(duì),其中每個(gè)鏈接對(duì)由該導(dǎo)航鏈接串中相鄰位置的兩個(gè)鏈接構(gòu)成; 從各鏈接對(duì)中確定重點(diǎn)鏈接對(duì),并將所述重點(diǎn)鏈接對(duì)所對(duì)應(yīng)的頁(yè)面作為所述網(wǎng)站的重點(diǎn)頁(yè)面。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,從各鏈接對(duì)中確定重點(diǎn)鏈接對(duì)的步驟包括: 分別統(tǒng)計(jì)各鏈接對(duì)的出現(xiàn)次數(shù),并將出現(xiàn)次數(shù)滿(mǎn)足預(yù)置條件的鏈接對(duì)作為重點(diǎn)鏈接對(duì)。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述預(yù)置條件包括: 出現(xiàn)次數(shù)大于設(shè)定值;或者出現(xiàn)次數(shù)的排名超過(guò)各鏈接對(duì)中設(shè)定比例的鏈接對(duì)。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,從各鏈接對(duì)中確定重點(diǎn)鏈接對(duì)的步驟包括: 分別利用預(yù)先訓(xùn)練好的分類(lèi)模型對(duì)各鏈接對(duì)進(jìn)行分類(lèi),并將分為重要類(lèi)別的鏈接對(duì)作為重點(diǎn)鏈接對(duì),其中所述分類(lèi)模型中的分類(lèi)特征參數(shù)包括鏈接對(duì)的出現(xiàn)次數(shù)。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述分類(lèi)模型中的分類(lèi)特征參數(shù)進(jìn)一步還包括以下至少一種: 鏈接對(duì)中指向鏈接所對(duì)應(yīng)的頁(yè)面的出度、鏈接對(duì)中指向鏈接的深度、鏈接對(duì)中被指鏈接的深度、鏈接對(duì)中指向鏈接的深度與被指鏈接的深度之間的差值、鏈接對(duì)所對(duì)應(yīng)的錨文本詞數(shù)量。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法進(jìn)一步包括: 計(jì)算所述重點(diǎn)頁(yè)面的網(wǎng)頁(yè)權(quán)威性,其中所述網(wǎng)頁(yè)權(quán)威性是搜索引擎將所述重點(diǎn)頁(yè)面作為搜索結(jié)果返回時(shí),對(duì)所述重點(diǎn)頁(yè)面進(jìn)行排序的依據(jù)。
7.一種網(wǎng)站重點(diǎn)頁(yè)面的挖掘裝置,包括: 挖掘單元,用于分別從網(wǎng)站的各網(wǎng)頁(yè)中提取導(dǎo)航鏈接串; 拆分單元,用于分別將提取的各導(dǎo)航鏈接串拆分為鏈接對(duì),其中每個(gè)鏈接對(duì)由該導(dǎo)航鏈接串中相鄰位置的兩個(gè)鏈接構(gòu)成; 確定單元,用于從各鏈接對(duì)中確定重點(diǎn)鏈接對(duì),并將所述重點(diǎn)鏈接對(duì)所對(duì)應(yīng)的頁(yè)面作為所述網(wǎng)站的重點(diǎn)頁(yè)面。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述確定單元包括: 統(tǒng)計(jì)單元,用于分別統(tǒng)計(jì)各鏈接對(duì)的出現(xiàn)次數(shù),并將出現(xiàn)次數(shù)滿(mǎn)足預(yù)置條件的鏈接對(duì)作為重點(diǎn)鏈接對(duì)。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述預(yù)置條件包括: 出現(xiàn)次數(shù)大于設(shè)定值;或者出現(xiàn)次數(shù)的排名超過(guò)各鏈接對(duì)中設(shè)定比例的鏈接對(duì)。
10.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述確定單元包括: 分類(lèi)單元,用于分別利用預(yù)先訓(xùn)練好的分類(lèi)模型對(duì)各鏈接對(duì)進(jìn)行分類(lèi),并將分為重要類(lèi)別的鏈接對(duì)作為重點(diǎn)鏈接對(duì),其中所述分類(lèi)模型中的分類(lèi)特征參數(shù)包括鏈接對(duì)的出現(xiàn)次數(shù)。
11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述分類(lèi)模型中的分類(lèi)特征參數(shù)進(jìn)一步還包括以下至少一種: 鏈接對(duì)中指向鏈接所對(duì)應(yīng)的頁(yè)面的出度、鏈接對(duì)中指向鏈接的深度、鏈接對(duì)中被指鏈接的深度、鏈接對(duì)中指向鏈接的深度與被指鏈接的深度之間的差值、鏈接對(duì)所對(duì)應(yīng)的錨文本詞數(shù)量。
12.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述裝置進(jìn)一步包括: 計(jì)算單元,用于計(jì)算所述重點(diǎn)頁(yè)面的網(wǎng)頁(yè)權(quán)威性,其中所述網(wǎng)頁(yè)權(quán)威性是搜索引擎將所述重點(diǎn)頁(yè)面作 為搜索結(jié)構(gòu)返回時(shí),對(duì)所述重點(diǎn)頁(yè)面進(jìn)行排序的依據(jù)。
【文檔編號(hào)】G06F17/30GK103714093SQ201210380363
【公開(kāi)日】2014年4月9日 申請(qǐng)日期:2012年9月29日 優(yōu)先權(quán)日:2012年9月29日
【發(fā)明者】張沖 申請(qǐng)人:北京百度網(wǎng)訊科技有限公司