技術(shù)領(lǐng)域
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種網(wǎng)頁視覺相似度識別方法。
背景技術(shù):
目前,對于網(wǎng)頁相似度的評估方法一般有三種,一種是通過分析網(wǎng)頁的代碼DOM結(jié)構(gòu),來判斷網(wǎng)頁的相似性,但這種判斷方法因?yàn)榫W(wǎng)頁的編程語言不同,會相應(yīng)增加判斷難度。另一個(gè)問題是大量的網(wǎng)頁會采用相同的開源框架搭建,這些網(wǎng)頁有可能具有相似的DOM結(jié)構(gòu),但其外觀和業(yè)務(wù)可能完全不同。
第二種方法是分析網(wǎng)站url特征信息,來判斷網(wǎng)站的仿冒,但這只適用于分析仿冒或釣魚網(wǎng)站,并不能適用于網(wǎng)頁視覺相似度的相似性判斷。
第三種方法是通過網(wǎng)頁視覺特征生成模塊生成待檢測網(wǎng)頁的視覺特征,然后通過網(wǎng)頁相似性計(jì)算模塊計(jì)算其與特征庫中網(wǎng)頁視覺特征的相似度,最后根據(jù)相似度值分析給出網(wǎng)頁是否為釣魚網(wǎng)站的檢測結(jié)果。但是,這種方法適用于頁面圖片很多的情況,而且必須要有一個(gè)可供對比的特征庫,使用場景也只是限于進(jìn)行釣魚網(wǎng)站的識別,并不能進(jìn)行頁面變化追蹤。
因此,針對上述問題,有必要提出進(jìn)一步的解決方案。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種網(wǎng)頁視覺相似度識別方法,以克服現(xiàn)有技術(shù)中存在的問題。
為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明提供一種網(wǎng)頁視覺相似度識別方法,其包括如下步驟:
S1、確認(rèn)目標(biāo)網(wǎng)站是否存在,如存在,執(zhí)行步驟S2;
S2、根據(jù)網(wǎng)站的網(wǎng)頁生成快照,并將快照數(shù)據(jù)保存于數(shù)據(jù)庫中;
S3、對所述快照數(shù)據(jù)中的文字?jǐn)?shù)據(jù)和圖像數(shù)據(jù)進(jìn)行分離,根據(jù)分離的文字?jǐn)?shù)據(jù)和圖像數(shù)據(jù)分別生成文字?jǐn)?shù)據(jù)的特征向量和和圖像數(shù)據(jù)的特征向量;
S4、將得到的文字?jǐn)?shù)據(jù)的特征向量和和圖像數(shù)據(jù)的特征向量,與數(shù)據(jù)庫中的已保存的頁面圖片的特征向量進(jìn)行兩兩對比,獲得兩張圖片之間的相似度信息。
作為本發(fā)明的網(wǎng)頁視覺相似度識別方法的改進(jìn),步驟S1中,通過網(wǎng)址或ip的掃描方式確認(rèn)目標(biāo)網(wǎng)站是否存在。
作為本發(fā)明的網(wǎng)頁視覺相似度識別方法的改進(jìn),步驟S2中,通過網(wǎng)站的網(wǎng)頁url,獲得網(wǎng)頁的頁面,對頁面生成快照,并將快照數(shù)據(jù)保存于數(shù)據(jù)庫中。
作為本發(fā)明的網(wǎng)頁視覺相似度識別方法的改進(jìn),步驟S3中,對所述快照數(shù)據(jù)進(jìn)行ocr文字識別,根據(jù)文字識別的結(jié)果,將文字?jǐn)?shù)據(jù)提取出來。
作為本發(fā)明的網(wǎng)頁視覺相似度識別方法的改進(jìn),所述文字?jǐn)?shù)據(jù)包括文字內(nèi)容和位置信息。
作為本發(fā)明的網(wǎng)頁視覺相似度識別方法的改進(jìn),步驟S3中,根據(jù)網(wǎng)頁頁面的特征,對快照進(jìn)行切割,根據(jù)切割后的子圖片,生成圖像數(shù)據(jù)的特征向量。
作為本發(fā)明的網(wǎng)頁視覺相似度識別方法的改進(jìn),根據(jù)網(wǎng)頁頁面的特征,對快照進(jìn)行切割,針對切割后的任一子圖片,獲得其像素點(diǎn)信息以及其與相鄰子圖片之間的邊界變化信息組成的數(shù)組,根據(jù)所述像素點(diǎn)信息和邊界變化信息組成的數(shù)組,生成圖像數(shù)據(jù)的特征向量。
作為本發(fā)明的網(wǎng)頁視覺相似度識別方法的改進(jìn),步驟S4中,將得到的文字?jǐn)?shù)據(jù)的特征向量和和圖像數(shù)據(jù)的特征向量,與數(shù)據(jù)庫中的已保存的頁面圖片的特征向量進(jìn)行兩兩對比,判斷二者特征向量差的模是否大于閾值,根據(jù)判斷結(jié)果,獲得兩張圖片之間的相似度信息。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:本發(fā)明的網(wǎng)頁視覺相似度識別方法鑒別快速,且結(jié)果準(zhǔn)確,有效避免了網(wǎng)站的偽造和仿冒,維護(hù)了網(wǎng)絡(luò)的安全,有利于互聯(lián)網(wǎng)技術(shù)的發(fā)展。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明中記載的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明的網(wǎng)頁視覺相似度識別方法一具體實(shí)施方式的方法流程示意圖;
圖2為步驟S3一具體實(shí)施方式中對圖片進(jìn)行分割的原理示意圖。
具體實(shí)施方式
下面結(jié)合附圖所示的各實(shí)施方式對本發(fā)明進(jìn)行詳細(xì)說明,但應(yīng)當(dāng)說明的是,這些實(shí)施方式并非對本發(fā)明的限制,本領(lǐng)域普通技術(shù)人員根據(jù)這些實(shí)施方式所作的功能、方法、或者結(jié)構(gòu)上的等效變換或替代,均屬于本發(fā)明的保護(hù)范圍之內(nèi)。
如圖1所示,本發(fā)明的網(wǎng)頁視覺相似度識別方法包括:
S1、確認(rèn)目標(biāo)網(wǎng)站是否存在,如存在,執(zhí)行步驟S2。
其中,通過網(wǎng)址或ip的掃描方式確認(rèn)目標(biāo)網(wǎng)站是否存在。如存在,執(zhí)行步驟S2。
S2、根據(jù)網(wǎng)站的網(wǎng)頁生成快照,并將快照數(shù)據(jù)保存于數(shù)據(jù)庫中。
其中,通過網(wǎng)站的網(wǎng)頁url,獲得網(wǎng)頁的頁面,對頁面生成快照,并將快照數(shù)據(jù)保存于數(shù)據(jù)庫中。所述快照的格式可以為jpg或其他易于處理的標(biāo)準(zhǔn)圖片格式。
S3、對所述快照數(shù)據(jù)中的文字?jǐn)?shù)據(jù)和圖像數(shù)據(jù)進(jìn)行分離,根據(jù)分離的文字?jǐn)?shù)據(jù)和圖像數(shù)據(jù)分別生成文字?jǐn)?shù)據(jù)的特征向量和和圖像數(shù)據(jù)的特征向量。
由于頁面主要由文字和圖像(如顏色區(qū)塊、其他圖片等)組成,從而,將圖片中的文字部分和圖像部分進(jìn)行分離。分離后,單獨(dú)對文字部分和圖像部分進(jìn)行對比,既可以提高判斷的準(zhǔn)確率,也不需要對頁面的進(jìn)行代碼層的分析,從而大大提高了檢測效率和準(zhǔn)確率。
具體地,分離快照數(shù)據(jù)中的文字?jǐn)?shù)據(jù)按照如下方式進(jìn)行:對所述快照數(shù)據(jù)進(jìn)行ocr文字識別,根據(jù)文字識別的結(jié)果,將文字?jǐn)?shù)據(jù)提取出來。所述文字?jǐn)?shù)據(jù)包括文字內(nèi)容和位置信息。然后,根據(jù)所述文字內(nèi)容和位置信息生成文字?jǐn)?shù)據(jù)的特征向量。
分離快照數(shù)據(jù)中的圖像數(shù)據(jù)按照如下方式進(jìn)行:根據(jù)網(wǎng)頁頁面的特征,對快照進(jìn)行切割,根據(jù)切割后的子圖片,生成圖像數(shù)據(jù)的特征向量。
進(jìn)一步地,上述實(shí)施方式中,根據(jù)網(wǎng)頁頁面的特征,對快照進(jìn)行切割,針對切割后的任一子圖片,獲得其像素點(diǎn)信息以及其與相鄰子圖片之間的邊界變化信息組成的數(shù)組,根據(jù)所述像素點(diǎn)信息和邊界變化信息組成的數(shù)組,生成圖像數(shù)據(jù)的特征向量。
下面針對分離快照數(shù)據(jù)中的圖像數(shù)據(jù)的方式進(jìn)行舉例說明。
如圖2所示,假設(shè)圖片分割為A、B、C、D四個(gè)子圖片,為了獲取A區(qū)域的特征向量,首先,對A區(qū)域進(jìn)行位置分割,得到A區(qū)域占據(jù)頁面圖片的位置點(diǎn)信息,每個(gè)位置點(diǎn)處的像素值記錄下來。同時(shí),A區(qū)域的鄰域B和D與A有兩條接壤的邊界,從A到B的邊界兩邊各取4個(gè)像素點(diǎn),計(jì)算出變化值,如此一組邊界上的變化值組成一個(gè)數(shù)組。同理,獲得A到D的變化值數(shù)組。從而,A區(qū)域的像素點(diǎn)信息和A到B、D的邊界變化信息組成的數(shù)組可以得到A的特征向量。依此類推,獲得B、C、D區(qū)域的特征向量。
S4、將得到的文字?jǐn)?shù)據(jù)的特征向量和和圖像數(shù)據(jù)的特征向量,與數(shù)據(jù)庫中的已保存的頁面圖片的特征向量進(jìn)行兩兩對比,獲得兩張圖片之間的相似度信息。
其中,將得到的文字?jǐn)?shù)據(jù)的特征向量和和圖像數(shù)據(jù)的特征向量,與數(shù)據(jù)庫中的已保存的頁面圖片的特征向量進(jìn)行兩兩對比,判斷二者特征向量差的模是否大于閾值,根據(jù)判斷結(jié)果,獲得兩張圖片之間的相似度信息。具體地,如大于閾值,則判定兩張圖片不相似,否則,兩張圖片相似。
綜上所述,本發(fā)明的網(wǎng)頁視覺相似度識別方法鑒別快速,且結(jié)果準(zhǔn)確,有效避免了網(wǎng)站的偽造和仿冒,維護(hù)了網(wǎng)絡(luò)的安全,有利于互聯(lián)網(wǎng)技術(shù)的發(fā)展。
對于本領(lǐng)域技術(shù)人員而言,顯然本發(fā)明不限于上述示范性實(shí)施例的細(xì)節(jié),而且在不背離本發(fā)明的精神或基本特征的情況下,能夠以其他的具體形式實(shí)現(xiàn)本發(fā)明。因此,無論從哪一點(diǎn)來看,均應(yīng)將實(shí)施例看作是示范性的,而且是非限制性的,本發(fā)明的范圍由所附權(quán)利要求而不是上述說明限定,因此旨在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有變化囊括在本發(fā)明內(nèi)。不應(yīng)將權(quán)利要求中的任何附圖標(biāo)記視為限制所涉及的權(quán)利要求。
此外,應(yīng)當(dāng)理解,雖然本說明書按照實(shí)施方式加以描述,但并非每個(gè)實(shí)施方式僅包含一個(gè)獨(dú)立的技術(shù)方案,說明書的這種敘述方式僅僅是為清楚起見,本領(lǐng)域技術(shù)人員應(yīng)當(dāng)將說明書作為一個(gè)整體,各實(shí)施例中的技術(shù)方案也可以經(jīng)適當(dāng)組合,形成本領(lǐng)域技術(shù)人員可以理解的其他實(shí)施方式。