1和2中的方案進(jìn)行可行性驗(yàn)證,詳見(jiàn)下文描述: 陽(yáng)103] 本發(fā)明實(shí)施例采取召回率來(lái)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)測(cè),即用檢測(cè)出的垃圾網(wǎng)頁(yè)與已標(biāo) 記的垃圾網(wǎng)頁(yè)集合的交集,在已標(biāo)記的垃圾網(wǎng)頁(yè)集合中所占的比率來(lái)表示召回率。
[0104] 在計(jì)算實(shí)驗(yàn)結(jié)果時(shí),檢測(cè)垃圾網(wǎng)頁(yè)集合的容量設(shè)定為20000個(gè)網(wǎng)頁(yè)。相似度的闊 值S分別被設(shè)為0. 91,0. 93,0. 95,0. 97和0. 99五個(gè)值來(lái)對(duì)召回率進(jìn)行監(jiān)控。
[0105] 本方法的實(shí)驗(yàn)結(jié)果與傳統(tǒng)的化geRank結(jié)果進(jìn)行對(duì)比,發(fā)現(xiàn)本方法 (Sim-PageRank)檢測(cè)出的垃圾網(wǎng)頁(yè)數(shù)量和召回率要高于傳統(tǒng)化geRank算法,當(dāng)相似度的 闊值S取0. 91時(shí),檢測(cè)出的垃圾網(wǎng)頁(yè)數(shù)量和召回率與傳統(tǒng)化geRank算法的檢測(cè)相差最小。 此時(shí),兩者檢測(cè)出的垃圾網(wǎng)頁(yè)數(shù)量相差11,召回率相差3. 34%。當(dāng)闊值取0. 99時(shí),兩者 檢測(cè)出垃圾網(wǎng)頁(yè)數(shù)量和召回率相差最大,其中檢測(cè)出的垃圾網(wǎng)頁(yè)數(shù)量相差22,召回率相差 6. 68%。 陽(yáng)106] 在圖2中,隨著相似度闊值S從0. 91逐漸增大至0. 99,檢測(cè)出的垃圾網(wǎng)頁(yè)數(shù)量呈 遞增趨勢(shì),在S= 0. 91時(shí),兩者差值最小,在S= 0. 99時(shí),兩者差值達(dá)到最大。在圖3中, 可W看出本方法明顯優(yōu)于化geRank算法。 陽(yáng)107]目P,通過(guò)實(shí)驗(yàn)結(jié)果表明,加入相似度計(jì)算后,本方法實(shí)驗(yàn)效果要優(yōu)于傳統(tǒng)化geRank 算法。 陽(yáng)108] 實(shí)施例4 陽(yáng)109] -種基于內(nèi)容的垃圾網(wǎng)頁(yè)檢測(cè)裝置,參見(jiàn)圖4,該垃圾網(wǎng)頁(yè)檢測(cè)裝置包括:
[0110] 生成模塊1,用于計(jì)算所有網(wǎng)頁(yè)與種子垃圾網(wǎng)頁(yè)的內(nèi)容最大相似度值,生成相似度 集合; 陽(yáng)11U 排序模塊2,用于利用化geRank算法對(duì)所有網(wǎng)頁(yè)進(jìn)行降序排序;
[0112] 查詢模塊3,用于基于排序結(jié)果,從相似度集合中查尋網(wǎng)頁(yè)與種子垃圾網(wǎng)頁(yè)間的內(nèi) 容相似度值;
[0113] 檢測(cè)模塊4,用于比較相似度值與相似度闊值,對(duì)網(wǎng)頁(yè)進(jìn)行檢測(cè),并將檢測(cè)出的垃 圾網(wǎng)頁(yè)加入到垃圾網(wǎng)頁(yè)集合中。
[0114]其中,參見(jiàn)圖5,生成模塊1包括:
[0115] 提取子模塊11,用于采用統(tǒng)計(jì)的方法對(duì)所有網(wǎng)頁(yè)進(jìn)行特征提取,然后利用向量空 間模型將提取出的特征組成向量;
[0116] 選取模塊12,用于采用基于向量空間的余弦相似度方法計(jì)算所有網(wǎng)頁(yè)與種子垃圾 網(wǎng)頁(yè)內(nèi)容間的相似性,選取最大相似度值;
[0117] 組成模塊13,用于由最大相似度值組成相似度集合。
[0118] 其中,參見(jiàn)圖6,檢測(cè)模塊4包括:
[0119] 檢測(cè)子模塊41,用于若某一網(wǎng)頁(yè)與種子垃圾網(wǎng)頁(yè)內(nèi)容的相似度值大于相似度闊 值,則認(rèn)定網(wǎng)頁(yè)為垃圾網(wǎng)頁(yè),并將網(wǎng)頁(yè)加入到垃圾網(wǎng)頁(yè)集合中。
[0120] 其中,參見(jiàn)圖7,該檢測(cè)裝置還包括: 陽(yáng)121] 挑選模塊5,用于挑選若干個(gè)垃圾網(wǎng)頁(yè)作為種子垃圾網(wǎng)頁(yè)。
[0122] 本發(fā)明實(shí)施例對(duì)上述模塊、子模塊的執(zhí)行主體不做限制,能實(shí)現(xiàn)上述功能的器件 均可,例如:?jiǎn)纹瑱C(jī)、PC機(jī)等。
[0123] 綜上所述,本發(fā)明實(shí)施例通過(guò)上述的模塊、子模塊,提高了垃圾網(wǎng)頁(yè)檢測(cè)的準(zhǔn)確度 和效率。 陽(yáng)124] 本發(fā)明實(shí)施例對(duì)各器件的型號(hào)除做特殊說(shuō)明的W外,其他器件的型號(hào)不做限制, 只要能完成上述功能的器件均可。
[0125] 本領(lǐng)域技術(shù)人員可W理解附圖只是一個(gè)優(yōu)選實(shí)施例的示意圖,上述本發(fā)明實(shí)施例 序號(hào)僅僅為了描述,不代表實(shí)施例的優(yōu)劣。
[01%] W上所述僅為本發(fā)明的較佳實(shí)施例,并不用W限制本發(fā)明,凡在本發(fā)明的精神和 原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種基于內(nèi)容的垃圾網(wǎng)頁(yè)檢測(cè)方法,其特征在于,所述垃圾網(wǎng)頁(yè)檢測(cè)方法包括以下 步驟: 計(jì)算所有網(wǎng)頁(yè)與種子垃圾網(wǎng)頁(yè)的內(nèi)容最大相似度值,生成相似度集合; 利用PageRank算法對(duì)所有網(wǎng)頁(yè)進(jìn)行降序排序; 基于排序結(jié)果,從相似度集合中查尋網(wǎng)頁(yè)與種子垃圾網(wǎng)頁(yè)間的內(nèi)容相似度值; 比較相似度值與相似度閾值,對(duì)網(wǎng)頁(yè)進(jìn)行檢測(cè),并將檢測(cè)出的垃圾網(wǎng)頁(yè)加入到垃圾網(wǎng) 頁(yè)集合中。2. 根據(jù)權(quán)利要求1所述的一種基于內(nèi)容的垃圾網(wǎng)頁(yè)檢測(cè)方法,其特征在于,所述計(jì)算 所有網(wǎng)頁(yè)與種子垃圾網(wǎng)頁(yè)的內(nèi)容最大相似度值,生成相似度集合的步驟具體為: 采用統(tǒng)計(jì)的方法對(duì)所有網(wǎng)頁(yè)進(jìn)行特征提取,然后利用向量空間模型將提取出的特征組 成向量; 采用基于向量空間的余弦相似度方法計(jì)算所有網(wǎng)頁(yè)與種子垃圾網(wǎng)頁(yè)內(nèi)容間的相似性, 選取最大相似度值; 由最大相似度值組成相似度集合。3. 根據(jù)權(quán)利要求1或2所述的一種基于內(nèi)容的垃圾網(wǎng)頁(yè)檢測(cè)方法,其特征在于,所述比 較相似度值與相似度閾值,對(duì)網(wǎng)頁(yè)進(jìn)行檢測(cè),并將檢測(cè)出的垃圾網(wǎng)頁(yè)加入到垃圾網(wǎng)頁(yè)集合 中的步驟具體為: 若某一網(wǎng)頁(yè)與種子垃圾網(wǎng)頁(yè)內(nèi)容的相似度值大于相似度閾值,則認(rèn)定網(wǎng)頁(yè)為垃圾網(wǎng) 頁(yè),并將網(wǎng)頁(yè)加入到垃圾網(wǎng)頁(yè)集合中。4. 根據(jù)權(quán)利要求1至3中任一權(quán)利要求所述的一種基于內(nèi)容的垃圾網(wǎng)頁(yè)檢測(cè)方法,其 特征在于,所述方法還包括: 挑選若干個(gè)垃圾網(wǎng)頁(yè)作為種子垃圾網(wǎng)頁(yè)。5. 根據(jù)權(quán)利要求1至3中任一權(quán)利要求所述的一種基于內(nèi)容的垃圾網(wǎng)頁(yè)檢測(cè)方法,其 特征在于,所述方法還包括: 設(shè)置垃圾網(wǎng)頁(yè)集合的最大容量,重復(fù)進(jìn)行查詢,直至達(dá)到最大容量,流程結(jié)束。6. -種基于內(nèi)容的垃圾網(wǎng)頁(yè)檢測(cè)裝置,其特征在于,所述垃圾網(wǎng)頁(yè)檢測(cè)裝置包括: 生成模塊,用于計(jì)算所有網(wǎng)頁(yè)與種子垃圾網(wǎng)頁(yè)的內(nèi)容最大相似度值,生成相似度集 合; 排序模塊,用于利用PageRank算法對(duì)所有網(wǎng)頁(yè)進(jìn)行降序排序; 查詢模塊,用于基于排序結(jié)果,從相似度集合中查尋網(wǎng)頁(yè)與種子垃圾網(wǎng)頁(yè)間的內(nèi)容相 似度值; 檢測(cè)模塊,用于比較相似度值與相似度閾值,對(duì)網(wǎng)頁(yè)進(jìn)行檢測(cè),并將檢測(cè)出的垃圾網(wǎng)頁(yè) 加入到垃圾網(wǎng)頁(yè)集合中。7. 根據(jù)權(quán)利要求6所述的一種基于內(nèi)容的垃圾網(wǎng)頁(yè)檢測(cè)裝置,其特征在于,所述生成 豐吳塊包括: 提取子模塊,用于采用統(tǒng)計(jì)的方法對(duì)所有網(wǎng)頁(yè)進(jìn)行特征提取,然后利用向量空間模型 將提取出的特征組成向量; 選取模塊,用于采用基于向量空間的余弦相似度方法計(jì)算所有網(wǎng)頁(yè)與種子垃圾網(wǎng)頁(yè)內(nèi) 容間的相似性,選取最大相似度值; 組成模塊,用于由最大相似度值組成相似度集合。8. 根據(jù)權(quán)利要求6所述的一種基于內(nèi)容的垃圾網(wǎng)頁(yè)檢測(cè)裝置,其特征在于,所述檢測(cè) 豐吳塊包括: 檢測(cè)子模塊,用于若某一網(wǎng)頁(yè)與種子垃圾網(wǎng)頁(yè)內(nèi)容的相似度值大于相似度閾值,則認(rèn) 定網(wǎng)頁(yè)為垃圾網(wǎng)頁(yè),并將網(wǎng)頁(yè)加入到垃圾網(wǎng)頁(yè)集合中。9. 根據(jù)權(quán)利要求6-8中任一權(quán)利要求所述的一種基于內(nèi)容的垃圾網(wǎng)頁(yè)檢測(cè)裝置,其特 征在于,所述裝置還包括: 挑選模塊,用于挑選若干個(gè)垃圾網(wǎng)頁(yè)作為種子垃圾網(wǎng)頁(yè)。
【專利摘要】本發(fā)明公開(kāi)了一種基于內(nèi)容的垃圾網(wǎng)頁(yè)檢測(cè)方法及其檢測(cè)裝置,方法包括:計(jì)算所有網(wǎng)頁(yè)與種子垃圾網(wǎng)頁(yè)的內(nèi)容最大相似度值,生成相似度集合;利用PageRank算法對(duì)所有網(wǎng)頁(yè)進(jìn)行降序排序;基于排序結(jié)果,從相似度集合中查尋網(wǎng)頁(yè)與種子垃圾網(wǎng)頁(yè)間的內(nèi)容相似度值;比較相似度值與相似度閾值,對(duì)網(wǎng)頁(yè)進(jìn)行檢測(cè),并將檢測(cè)出的垃圾網(wǎng)頁(yè)加入到垃圾網(wǎng)頁(yè)集合中。裝置包括:生成模塊、排序模塊、查詢模塊和檢測(cè)模塊,通過(guò)這些模塊,本發(fā)明在傳統(tǒng)的PageRank算法基礎(chǔ)上加入對(duì)網(wǎng)頁(yè)內(nèi)容相似度的判定,把網(wǎng)頁(yè)的鏈接與內(nèi)容結(jié)合起來(lái),對(duì)垃圾網(wǎng)頁(yè)進(jìn)行檢測(cè),以此提高了垃圾網(wǎng)頁(yè)檢測(cè)的準(zhǔn)確度和效率。
【IPC分類】G06F17/30
【公開(kāi)號(hào)】CN105183784
【申請(qǐng)?zhí)枴緾N201510502698
【發(fā)明人】喻梅, 孟瑩, 于瑞國(guó), 周靜, 雷霆, 田逸塵
【申請(qǐng)人】天津大學(xué)
【公開(kāi)日】2015年12月23日
【申請(qǐng)日】2015年8月14日