一種網(wǎng)站鏡像的檢測(cè)方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)應(yīng)用技術(shù)領(lǐng)域,尤其涉及一種網(wǎng)站鏡像的檢測(cè)方法及裝置。
【背景技術(shù)】
[0002] "網(wǎng)站"是構(gòu)成互聯(lián)網(wǎng)的重要主體之一。對(duì)于網(wǎng)站所有者而言,網(wǎng)站的排名和流量 是網(wǎng)站的核心價(jià)值,能夠與在線廣告投放等商業(yè)模式相結(jié)合,為網(wǎng)站所有者帶來(lái)可觀的商 業(yè)利益。然而,現(xiàn)在互聯(lián)網(wǎng)上出現(xiàn)一種稱(chēng)為"網(wǎng)站惡意鏡像"的侵權(quán)行為,對(duì)網(wǎng)站所有者的 利益造成嚴(yán)重?fù)p害。該行為是指:侵權(quán)者將原始網(wǎng)站的內(nèi)容復(fù)制到自己掌握的多個(gè)域名上, 形成原始網(wǎng)站的多個(gè)惡意鏡像網(wǎng)站,當(dāng)這些鏡像網(wǎng)站被搜索引擎檢索收錄后,用戶通過(guò)搜 索引擎查找相關(guān)信息時(shí),就會(huì)被分流到侵權(quán)者掌握的大量鏡像網(wǎng)站上,不僅使侵權(quán)者輕易 獲取大量流量以及其背后的商業(yè)價(jià)值,而且還對(duì)原始網(wǎng)站的排名和流量造成嚴(yán)重影響,侵 害了原始網(wǎng)站所有者的權(quán)益。
[0003] 原始網(wǎng)站所有者發(fā)現(xiàn)其擁有的網(wǎng)站惡意鏡像后,一般通過(guò)屏蔽鏡像域名被訪問(wèn)等 方式,防止侵權(quán)者繼續(xù)盜取原始網(wǎng)站的內(nèi)容。但由于互聯(lián)網(wǎng)上存在大量的免費(fèi)域名資源,因 此侵權(quán)者很容易以低廉的成本更換域名后,再次盜取原始網(wǎng)站的內(nèi)容,建立惡意鏡像網(wǎng)站。 因此,需要一種網(wǎng)站鏡像的檢測(cè)方法及裝置,以解決現(xiàn)有技術(shù)中存在的上述技術(shù)問(wèn)題。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明提供一種網(wǎng)站鏡像的檢測(cè)方法及裝置,在保證檢測(cè)準(zhǔn)確性的同時(shí),提高網(wǎng) 站鏡像檢測(cè)的效率。
[0005] 本發(fā)明采用的技術(shù)方案是:
[0006] -種網(wǎng)站鏡像的檢測(cè)方法,其包括:計(jì)算待檢測(cè)網(wǎng)站的標(biāo)題信息與原始網(wǎng)站的標(biāo) 題信息的相似度,若所述相似度超過(guò)設(shè)定閾值,則所述待檢測(cè)網(wǎng)站為疑似網(wǎng)站;比對(duì)所述疑 似網(wǎng)站的網(wǎng)頁(yè)結(jié)構(gòu)中的可視化元素和所述原始網(wǎng)站的網(wǎng)頁(yè)結(jié)構(gòu)中的可視化元素,若滿足預(yù) 設(shè)條件,則判定所述疑似網(wǎng)站為鏡像網(wǎng)站。
[0007] 優(yōu)選地,所述計(jì)算待檢測(cè)網(wǎng)站的標(biāo)題信息與原始網(wǎng)站的標(biāo)題信息的相似度,若所 述相似度超過(guò)設(shè)定閾值,則所述待檢測(cè)網(wǎng)站為疑似網(wǎng)站之前,所述方法還包括:加載待檢測(cè) 網(wǎng)站的網(wǎng)頁(yè)內(nèi)容;從待檢測(cè)網(wǎng)站的網(wǎng)頁(yè)內(nèi)容中提取標(biāo)題。
[0008] 優(yōu)選地,所述計(jì)算待檢測(cè)網(wǎng)站的標(biāo)題信息與所述原始網(wǎng)站的標(biāo)題信息的相似度, 具體包括:將待檢測(cè)網(wǎng)站的標(biāo)題和原始網(wǎng)站的標(biāo)題分別進(jìn)行中英文分詞;提取待檢測(cè)網(wǎng)站 的標(biāo)題和原始網(wǎng)站的標(biāo)題中的中英文單詞,分別建立待檢測(cè)索引和原始索引;分別比對(duì)所 述待檢測(cè)索引中的單詞和所述原始索引中的單詞,以計(jì)算待檢測(cè)網(wǎng)站的標(biāo)題信息與所述原 始網(wǎng)站的標(biāo)題信息的相似度。
[0009] 優(yōu)選地,比對(duì)所述疑似網(wǎng)站的網(wǎng)頁(yè)結(jié)構(gòu)中的可視化元素和所述原始網(wǎng)站的網(wǎng)頁(yè)結(jié) 構(gòu)中的可視化元素,若滿足預(yù)設(shè)條件,則判定所述疑似網(wǎng)站為鏡像網(wǎng)站之前,所述方法還包 括:篩選所述疑似網(wǎng)站中疑似網(wǎng)頁(yè)的文檔對(duì)象模型DOM樹(shù)節(jié)點(diǎn),保留反映DOM樹(shù)形結(jié)構(gòu)的關(guān) 鍵節(jié)點(diǎn),篩選所述原始網(wǎng)站中原始網(wǎng)頁(yè)的文檔對(duì)象模型DOM樹(shù)節(jié)點(diǎn),保留反映DOM樹(shù)形結(jié)構(gòu) 的原始節(jié)點(diǎn);在所述關(guān)鍵節(jié)點(diǎn)和原始節(jié)點(diǎn)上分別附加位置屬性,構(gòu)建疑似網(wǎng)頁(yè)的可視化元 素樹(shù)和原始網(wǎng)頁(yè)的可視化元素樹(shù)。
[0010] 優(yōu)選地,所述篩選所述疑似網(wǎng)站中疑似網(wǎng)頁(yè)的文檔對(duì)象模型DOM樹(shù)節(jié)點(diǎn),保留反 映DOM樹(shù)形結(jié)構(gòu)的關(guān)鍵節(jié)點(diǎn),具體包括:確定所述疑似網(wǎng)頁(yè)的視覺(jué)邊界;刪除分隔欄;刪除 節(jié)點(diǎn)面積小于設(shè)定下限值的關(guān)鍵節(jié)點(diǎn);刪除節(jié)點(diǎn)面積小于閾值的關(guān)鍵節(jié)點(diǎn)所包含的所有子 節(jié)點(diǎn),以歸并零碎區(qū)域;刪除節(jié)點(diǎn)面積大于設(shè)定上限值并且包含所有子節(jié)點(diǎn)的關(guān)鍵節(jié)點(diǎn)。
[0011] 優(yōu)選地,所述位置屬性包括位置四元組:關(guān)鍵節(jié)點(diǎn)或者原始節(jié)點(diǎn)顯示的矩形區(qū)域 的左上角頂點(diǎn)對(duì)應(yīng)地與疑似網(wǎng)頁(yè)或者原始網(wǎng)頁(yè)的頁(yè)面上邊緣的像素距離為頂坐標(biāo)top、關(guān) 鍵節(jié)點(diǎn)或者原始節(jié)點(diǎn)顯示的矩形區(qū)域的左上角頂點(diǎn)對(duì)應(yīng)地與疑似網(wǎng)頁(yè)或者原始網(wǎng)頁(yè)的頁(yè) 面左邊緣的像素距離為左坐標(biāo)left、關(guān)鍵節(jié)點(diǎn)或者原始節(jié)點(diǎn)顯示的矩形區(qū)域的像素高度 height以及關(guān)鍵節(jié)點(diǎn)或者原始節(jié)點(diǎn)顯示的矩形區(qū)域的像素寬度width。
[0012] 優(yōu)選地,所述比對(duì)所述疑似網(wǎng)站的網(wǎng)頁(yè)結(jié)構(gòu)中的可視化元素和所述原始網(wǎng)站的網(wǎng) 頁(yè)結(jié)構(gòu)中的可視化元素,具體包括:判斷關(guān)鍵節(jié)點(diǎn)和原始節(jié)點(diǎn)的相似性:分別將疑似網(wǎng)頁(yè) 的可視化元素樹(shù)上的關(guān)鍵節(jié)點(diǎn)和原始網(wǎng)頁(yè)的可視化元素樹(shù)上的原始節(jié)點(diǎn)分別變?yōu)榫€性列 表;依次比對(duì)線性列表上的關(guān)鍵節(jié)點(diǎn)和原始節(jié)點(diǎn),則關(guān)鍵節(jié)點(diǎn)的節(jié)點(diǎn)面積等同于原始節(jié)點(diǎn) 的節(jié)點(diǎn)面積,并且滿足以下任一條件的節(jié)點(diǎn)對(duì)具有相似性:A、水平位置差異符合整體位移, 且頂坐標(biāo)相同;B、垂直位置差異符合整體位移,且左坐標(biāo)相同;C、水平和垂直位置差異均 符合整體位移;D、水平位置差異符合整體位移,且底坐標(biāo)至網(wǎng)頁(yè)底部的距離相同。
[0013] 優(yōu)選地,若滿足預(yù)設(shè)條件,則判定所述疑似網(wǎng)站為鏡像網(wǎng)站,具體包括:若滿足: C - k/A+D - t/B+w>0時(shí),判定所述疑似網(wǎng)頁(yè)與所述原始網(wǎng)頁(yè)相似,所述疑似網(wǎng)站為鏡像網(wǎng) 站,其中:遍歷節(jié)點(diǎn)占比:A =遍歷的節(jié)點(diǎn)總數(shù)/鏡像節(jié)點(diǎn)總數(shù);遍歷面積占比=遍歷的 節(jié)點(diǎn)總面積/鏡像節(jié)點(diǎn)總面積;相似結(jié)點(diǎn)占比:C =相似的節(jié)點(diǎn)總數(shù)/遍歷的節(jié)點(diǎn)總數(shù);相 似面積占比:D =相似的節(jié)點(diǎn)總面積/遍歷的節(jié)點(diǎn)總面積;參數(shù)k、t、w的取值在實(shí)際應(yīng)用中 根據(jù)訓(xùn)練集進(jìn)行計(jì)算。
[0014] 本發(fā)明還提供了一種網(wǎng)站鏡像的檢測(cè)裝置,其包括:網(wǎng)站標(biāo)題驗(yàn)證模塊:用于計(jì) 算待檢測(cè)網(wǎng)站的標(biāo)題信息與原始網(wǎng)站的標(biāo)題信息的相似度,若所述相似度超過(guò)設(shè)定閾值, 則所述待檢測(cè)網(wǎng)站為疑似網(wǎng)站;網(wǎng)頁(yè)結(jié)構(gòu)比對(duì)模塊:用于比對(duì)所述疑似網(wǎng)站的網(wǎng)頁(yè)結(jié)構(gòu)中 的可視化元素和所述原始網(wǎng)站的網(wǎng)頁(yè)結(jié)構(gòu)中的可視化元素,若滿足預(yù)設(shè)條件,則判定所述 疑似網(wǎng)站為鏡像網(wǎng)站。
[0015] 優(yōu)選地,所述網(wǎng)頁(yè)標(biāo)題驗(yàn)證模塊,還用于:將待檢測(cè)網(wǎng)站的標(biāo)題和原始網(wǎng)站的標(biāo)題 分別進(jìn)行中英文分詞;提取待檢測(cè)網(wǎng)站的標(biāo)題和原始網(wǎng)站的標(biāo)題中的中英文單詞,分別建 立待檢測(cè)索引和原始索引;分別比對(duì)所述待檢測(cè)索引中的單詞和所述原始索引中的單詞, 以計(jì)算待檢測(cè)網(wǎng)站的標(biāo)題信息與所述原始網(wǎng)站的標(biāo)題信息的相似度。
[0016] 采用上述技術(shù)方案,本發(fā)明至少具有下列效果:
[0017] 本發(fā)明的網(wǎng)站鏡像的檢測(cè)方法可以準(zhǔn)確的檢測(cè)出原始網(wǎng)站的鏡像網(wǎng)站,并且檢測(cè) 效率較高。
【附圖說(shuō)明】
[0018] 圖1為本發(fā)明第一實(shí)施例網(wǎng)站鏡像的檢測(cè)方法的流程圖;
[0019] 圖2為本發(fā)明第二實(shí)施例網(wǎng)站鏡像的檢測(cè)方法的流程圖;
[0020] 圖3為本發(fā)明第三實(shí)施例網(wǎng)站鏡像的檢測(cè)方法的流程圖;
[0021] 圖4為本發(fā)明第四實(shí)施例網(wǎng)站鏡像的檢測(cè)裝置的方框圖。
【具體實(shí)施方式】
[0022] 為更進(jìn)一步闡述本發(fā)明為達(dá)成預(yù)定目的所采取的技術(shù)手段及功效,以下結(jié)合附圖 及較佳實(shí)施例,對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明如后。
[0023] 本發(fā)明提供的網(wǎng)站鏡像的檢測(cè)方法包括前級(jí)檢測(cè)步驟和后級(jí)檢測(cè)步驟,下面將詳 細(xì)地描述本發(fā)明的網(wǎng)站鏡像的檢測(cè)方法及其各個(gè)步驟。
[0024] 第一實(shí)施例
[0025] 如圖1所示,本實(shí)施例的網(wǎng)站鏡像的檢測(cè)方法包括:前級(jí)驗(yàn)證步驟SlO:計(jì)算待檢 測(cè)網(wǎng)站的標(biāo)題信息與原始網(wǎng)站的標(biāo)題信息的相似度,若相似度超過(guò)設(shè)定閾值,則待檢測(cè)網(wǎng) 站為疑似網(wǎng)站。
[0026] 后級(jí)驗(yàn)證步驟S20 :比對(duì)疑似網(wǎng)站的網(wǎng)頁(yè)結(jié)構(gòu)中的可視化元素和原始網(wǎng)站的網(wǎng)頁(yè) 結(jié)構(gòu)中的可視化元素,若滿足預(yù)設(shè)條件,則判定疑似網(wǎng)站為鏡像網(wǎng)站。
[0027] 前級(jí)驗(yàn)證步驟僅是對(duì)待檢測(cè)網(wǎng)站的標(biāo)題信息進(jìn)行驗(yàn)證,與原始網(wǎng)站的標(biāo)題信息的 相似度,該步驟檢測(cè)速度快,具有較高的準(zhǔn)確性。而后級(jí)驗(yàn)證步驟是對(duì)符合前級(jí)驗(yàn)證步驟的 疑似網(wǎng)站的網(wǎng)頁(yè)結(jié)構(gòu)進(jìn)行驗(yàn)證,復(fù)雜性較高,速度較慢,但具有非常高的準(zhǔn)確性。前后兩級(jí) 驗(yàn)證,使得前級(jí)驗(yàn)證步驟能夠從輸入的大量待檢測(cè)網(wǎng)站中快速排除明顯不具有相似度的待 檢測(cè)網(wǎng)站,后級(jí)驗(yàn)證步驟再對(duì)剩余的具有相似度的少量疑似網(wǎng)站樣本進(jìn)行精確判定,這樣 從總體上在保證網(wǎng)站鏡像準(zhǔn)確性的同時(shí),盡可能提高檢測(cè)效率。
[0028] 作為優(yōu)選地,計(jì)算待檢測(cè)網(wǎng)站的標(biāo)題信息與原始網(wǎng)站的標(biāo)題信息的相似度,具體 包括:步驟S100:將待檢測(cè)網(wǎng)站的標(biāo)題和原始網(wǎng)站的標(biāo)題分別進(jìn)行中英文分詞;步驟S101: 提取待檢測(cè)網(wǎng)站的標(biāo)題和原始網(wǎng)站的標(biāo)題中的中英文單詞,分別建