一種基于內(nèi)容的垃圾網(wǎng)頁檢測方法及其檢測裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及數(shù)據(jù)挖掘、文本挖掘和捜索引擎領(lǐng)域,尤其設(shè)及一種基于內(nèi)容的垃圾 網(wǎng)頁檢測方法及其檢測裝置。
【背景技術(shù)】
[0002] 頁面排序算法可用于對垃圾網(wǎng)頁的檢測。其中的網(wǎng)頁等級任ageRank)是Google 用于標(biāo)識網(wǎng)頁的等級/重要性的一種方法,是Google用來衡量一個網(wǎng)站好壞的唯一標(biāo)準(zhǔn)。 陽00引化geRank的計算基于W下兩個基本假設(shè):
[0004] 數(shù)量假設(shè):在網(wǎng)絡(luò)圖模型中,如果一個頁面節(jié)點接收到的其他網(wǎng)頁指向的入鏈數(shù) 量越多,那么運(yùn)個頁面越重要。
[0005] 質(zhì)量假設(shè):指向頁面A的入鏈質(zhì)量不同,質(zhì)量高的頁面會通過鏈接向其他頁面?zhèn)?遞更多的權(quán)重。所W越是質(zhì)量高的頁面指向頁面A,則頁面A越重要。
[0006] 所W化geRank實現(xiàn)了將鏈接價值概念作為網(wǎng)頁排名的因素。
[0007] 化geRank的計算步驟可分為如下兩個:
[0008] 在初始階段:網(wǎng)頁通過鏈接關(guān)系構(gòu)建起網(wǎng)絡(luò)圖,每個頁面設(shè)置相同的化geRank 值,通過若干輪的計算,會得到每個頁面所獲得的最終化geRank值。隨著每一輪的計算進(jìn) 行,網(wǎng)頁當(dāng)前的化geRank值會不斷得到更新。
[0009] 在一輪中更新頁面化geRank得分的計算方法:在一輪更新頁面化geRank得分的 計算中,每個頁面將其當(dāng)前的化geRank值平均分配到本頁面包含的出鏈上,運(yùn)樣每個鏈接 即獲得了相應(yīng)的權(quán)值。而每個頁面將所有指向本頁面的入鏈所傳入的權(quán)值求和,即可得到 新的化geRank得分。當(dāng)每個頁面都獲得了更新后的化geRank值,就完成了一輪化geRank 計算。 陽010] 化geRank的缺陷在于它單純地根據(jù)一個網(wǎng)頁上被鏈接的站點數(shù)量和質(zhì)量來給該 網(wǎng)頁分配一個絕對的"重要性"值。即若一個網(wǎng)頁的鏈入網(wǎng)頁數(shù)越多且其等級越高,則傳 遞給此網(wǎng)頁的頁面等級值也將會越高。由此可W看出,PageRank算法只考慮了網(wǎng)頁之間的 鏈接而忽略了網(wǎng)頁的內(nèi)容與主題間的相關(guān)性,所W即使一個網(wǎng)頁的內(nèi)容與主題的相關(guān)性較 低,也會因為此網(wǎng)頁的PageRank值較大而獲得較高的排名,從而影響了捜索結(jié)果的相關(guān)性 與準(zhǔn)確性。
【發(fā)明內(nèi)容】
[0011] 本發(fā)明提供了一種基于內(nèi)容的垃圾網(wǎng)頁檢測方法及其檢測裝置,本發(fā)明能夠有效 克服化geRank算法在檢測垃圾網(wǎng)頁時只考慮研究垃圾網(wǎng)頁之間鏈接的關(guān)系,忽略了網(wǎng)頁 內(nèi)容關(guān)系的問題,詳見下文描述:
[0012] 一種基于內(nèi)容的垃圾網(wǎng)頁檢測方法,所述垃圾網(wǎng)頁檢測方法包括W下步驟:
[0013] 計算所有網(wǎng)頁與種子垃圾網(wǎng)頁的內(nèi)容最大相似度值,生成相似度集合;
[0014] 利用化geRank算法對所有網(wǎng)頁進(jìn)行降序排序;
[0015] 基于排序結(jié)果,從相似度集合中查尋網(wǎng)頁與種子垃圾網(wǎng)頁間的內(nèi)容相似度值;
[0016] 比較相似度值與相似度闊值,對網(wǎng)頁進(jìn)行檢測,并將檢測出的垃圾網(wǎng)頁加入到垃 圾網(wǎng)頁集合中。
[0017] 其中,所述計算所有網(wǎng)頁與種子垃圾網(wǎng)頁的內(nèi)容最大相似度值,生成相似度集合 的步驟具體為:
[001引采用統(tǒng)計的方法對所有網(wǎng)頁進(jìn)行特征提取,然后利用向量空間模型將提取出的特 征組成向量;
[0019] 采用基于向量空間的余弦相似度方法計算所有網(wǎng)頁與種子垃圾網(wǎng)頁內(nèi)容間的相 似性,選取最大相似度值;
[0020] 由最大相似度值組成相似度集合。
[0021] 其中,所述比較相似度值與相似度闊值,對網(wǎng)頁進(jìn)行檢測,并將檢測出的垃圾網(wǎng)頁 加入到垃圾網(wǎng)頁集合中的步驟具體為:
[0022] 若某一網(wǎng)頁與種子垃圾網(wǎng)頁內(nèi)容的相似度值大于相似度闊值,則認(rèn)定網(wǎng)頁為垃圾 網(wǎng)頁,并將網(wǎng)頁加入到垃圾網(wǎng)頁集合中。
[0023] 其中,所述方法還包括:挑選若干個垃圾網(wǎng)頁作為種子垃圾網(wǎng)頁。
[0024] 其中,所述方法還包括:
[00巧]設(shè)置垃圾網(wǎng)頁集合的最大容量,重復(fù)進(jìn)行查詢,直至達(dá)到最大容量,流程結(jié)束。 [00%] -種基于內(nèi)容的垃圾網(wǎng)頁檢測裝置,所述垃圾網(wǎng)頁檢測裝置包括:
[0027] 生成模塊,用于計算所有網(wǎng)頁與種子垃圾網(wǎng)頁的內(nèi)容最大相似度值,生成相似度 集合;
[0028] 排序模塊,用于利用化geRank算法對所有網(wǎng)頁進(jìn)行降序排序;
[0029] 查詢模塊,用于基于排序結(jié)果,從相似度集合中查尋網(wǎng)頁與種子垃圾網(wǎng)頁間的內(nèi) 容相似度值;
[0030] 檢測模塊,用于比較相似度值與相似度闊值,對網(wǎng)頁進(jìn)行檢測,并將檢測出的垃圾 網(wǎng)頁加入到垃圾網(wǎng)頁集合中。
[0031] 所述生成模塊包括:
[0032] 提取子模塊,用于采用統(tǒng)計的方法對所有網(wǎng)頁進(jìn)行特征提取,然后利用向量空間 模型將提取出的特征組成向量;
[0033] 選取模塊,用于采用基于向量空間的余弦相似度方法計算所有網(wǎng)頁與種子垃圾網(wǎng) 頁內(nèi)容間的相似性,選取最大相似度值;
[0034] 組成模塊,用于由最大相似度值組成相似度集合。
[0035] 所述檢測模塊包括:
[0036] 檢測子模塊,用于若某一網(wǎng)頁與種子垃圾網(wǎng)頁內(nèi)容的相似度值大于相似度闊值, 則認(rèn)定網(wǎng)頁為垃圾網(wǎng)頁,并將網(wǎng)頁加入到垃圾網(wǎng)頁集合中。
[0037] 所述裝置還包括:
[0038] 挑選模塊,用于挑選若干個垃圾網(wǎng)頁作為種子垃圾網(wǎng)頁。
[0039] 本發(fā)明提供的技術(shù)方案的有益效果是:本發(fā)明為垃圾網(wǎng)頁的檢測提供了一種新思 路,鑒于傳統(tǒng)的化geRank算法只考慮了網(wǎng)頁之間的鏈接,本發(fā)明在傳統(tǒng)的化geRank算法基 礎(chǔ)上加入了對網(wǎng)頁內(nèi)容相似度的判定,把網(wǎng)頁間的鏈接與內(nèi)容結(jié)合起來,從鏈接的角度提 高了網(wǎng)頁的重要性,從內(nèi)容的角度提高了網(wǎng)頁的相關(guān)性。首先,它提高了垃圾網(wǎng)頁檢測的準(zhǔn) 確度和效率。其次,它方便了用戶的查詢,并且降低了引擎服務(wù)商的運(yùn)營成本。最后,它減 少了數(shù)據(jù)庫的存儲空間,提高了數(shù)據(jù)庫的存儲利用率。實驗結(jié)果表明,加入相似度計算后, 實驗效果要優(yōu)于化geRank算法,驗證了本發(fā)明的可行性。
【附圖說明】
[0040] 圖1為一種基于內(nèi)容的垃圾網(wǎng)頁檢測方法的流程圖;
[0041] 圖2為不同相似度闊值S時檢測出的垃圾網(wǎng)頁數(shù)量值隨S值變化的示意圖;
[0042] 圖3為化geRank算法和本方法的垃圾網(wǎng)頁召回率比較的示意圖;
[0043]圖4為一種基于內(nèi)容的垃圾網(wǎng)頁檢測裝置的結(jié)構(gòu)示意圖;
[0044] 圖5為生成模塊的示意圖; W45]圖6為檢測模塊的示意圖;
[0046] 圖7為一種基于內(nèi)容的垃圾網(wǎng)頁檢測裝置的另一結(jié)構(gòu)示意圖。
[0047] 附圖中,各標(biāo)號所代表的部件列表如下: W48] 1 :生成模塊; 2 :排序模塊; W例 3 :查詢模塊; 4 :檢測模塊;
[0050] 5 :挑選模塊; 11 :提取子模塊; 陽05U 12:選取模塊; 13:組成模塊;
[0052]41 :檢測子模塊。
【具體實施方式】
[0053] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面對本發(fā)明實施方式作進(jìn)一步 地詳細(xì)描述。
[0054] 實施例1 陽化5] -種基于內(nèi)容的垃圾網(wǎng)頁檢測方法,參見圖1,該垃圾網(wǎng)頁檢測方法包括W下步 驟:
[0056]101 :挑選出若干個垃圾網(wǎng)頁作為種子垃圾網(wǎng)頁;
[0057] 假設(shè)總共有N個網(wǎng)頁,其中已被標(biāo)記出的垃圾網(wǎng)頁有X個,存放在集合X中。從集 合X中隨機(jī)挑選出m個垃圾網(wǎng)