亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

偽原創(chuàng)網(wǎng)站的識(shí)別方法及裝置的制造方法

文檔序號(hào):8258659閱讀:361來(lái)源:國(guó)知局
偽原創(chuàng)網(wǎng)站的識(shí)別方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息技術(shù)領(lǐng)域,特別涉及一種偽原創(chuàng)網(wǎng)站的識(shí)別方法及裝置。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,通過(guò)網(wǎng)絡(luò)獲取信息的用戶人數(shù)也越來(lái)越多,能夠?yàn)橛脩籼峁┬畔⒌木W(wǎng)站也隨之增多。然而隨著網(wǎng)站數(shù)量的不斷增多,不同網(wǎng)站之間信息的重復(fù)率也隨之增加,因此出現(xiàn)了偽原創(chuàng)網(wǎng)站,偽原創(chuàng)網(wǎng)站中的網(wǎng)頁(yè)通常為對(duì)原創(chuàng)網(wǎng)站中的網(wǎng)頁(yè)進(jìn)行再加工生成的。
[0003]目前,對(duì)偽原創(chuàng)網(wǎng)站的識(shí)別方式通常為首先挖掘偽原創(chuàng)特征詞,若某一個(gè)網(wǎng)頁(yè)包含有偽原創(chuàng)特征詞,則確定該網(wǎng)頁(yè)為偽原創(chuàng)網(wǎng)頁(yè),并且當(dāng)一個(gè)網(wǎng)站包含有大量偽原創(chuàng)網(wǎng)頁(yè)時(shí),確定該網(wǎng)站為偽原創(chuàng)網(wǎng)站。然而由于自然語(yǔ)言中詞語(yǔ)存在多義性的問(wèn)題,因此現(xiàn)有偽原創(chuàng)特征詞的挖掘準(zhǔn)確率較低,從而造成基于偽原創(chuàng)特征詞識(shí)別偽原創(chuàng)網(wǎng)站的準(zhǔn)確率較低。

【發(fā)明內(nèi)容】

[0004]本發(fā)明實(shí)施例提供一種偽原創(chuàng)網(wǎng)站的識(shí)別方法及裝置,可以提高偽原創(chuàng)網(wǎng)站的識(shí)別準(zhǔn)確率。
[0005]本發(fā)明實(shí)施例采用的技術(shù)方案為:
[0006]一種偽原創(chuàng)網(wǎng)站的識(shí)別方法,包括:
[0007]提取網(wǎng)站中包含的各個(gè)網(wǎng)頁(yè)和所述各個(gè)網(wǎng)頁(yè)分別對(duì)應(yīng)的樣式指紋;
[0008]分別計(jì)算所述各個(gè)網(wǎng)頁(yè)分別對(duì)應(yīng)的樣式指紋與偽原創(chuàng)樣式指紋之間的海明距離;
[0009]統(tǒng)計(jì)所述各個(gè)網(wǎng)頁(yè)中與所述偽原創(chuàng)樣式指紋之間的海明距離大于或等于第一預(yù)設(shè)閾值的網(wǎng)頁(yè)數(shù)量;
[0010]若所述網(wǎng)頁(yè)數(shù)量大于或等于第二預(yù)設(shè)閾值,則確定所述網(wǎng)站為偽原創(chuàng)網(wǎng)站。
[0011]一種偽原創(chuàng)網(wǎng)站的識(shí)別裝置,包括:
[0012]提取單元,用于提取網(wǎng)站中包含的各個(gè)網(wǎng)頁(yè)和所述各個(gè)網(wǎng)頁(yè)分別對(duì)應(yīng)的樣式指紋;
[0013]計(jì)算單元,用于分別計(jì)算所述提取單元提取的所述各個(gè)網(wǎng)頁(yè)分別對(duì)應(yīng)的樣式指紋與偽原創(chuàng)樣式指紋之間的海明距離;
[0014]統(tǒng)計(jì)單元,用于統(tǒng)計(jì)所述計(jì)算單元計(jì)算的所述各個(gè)網(wǎng)頁(yè)中與所述偽原創(chuàng)樣式指紋之間的海明距離大于或等于第一預(yù)設(shè)閾值的網(wǎng)頁(yè)數(shù)量;
[0015]確定單元,用于若所述統(tǒng)計(jì)單元統(tǒng)計(jì)所述網(wǎng)頁(yè)數(shù)量大于或等于第二預(yù)設(shè)閾值,則確定所述網(wǎng)站為偽原創(chuàng)網(wǎng)站。
[0016]本發(fā)明實(shí)施例提供的偽原創(chuàng)網(wǎng)站的識(shí)別方法及裝置,首先提取網(wǎng)站中包含的各個(gè)網(wǎng)頁(yè)和所述各個(gè)網(wǎng)頁(yè)分別對(duì)應(yīng)的樣式指紋,然后分別計(jì)算所述各個(gè)網(wǎng)頁(yè)分別對(duì)應(yīng)的樣式指紋與偽原創(chuàng)樣式指紋之間的海明距離,再統(tǒng)計(jì)所述各個(gè)網(wǎng)頁(yè)中與所述偽原創(chuàng)樣式指紋之間的海明距離大于或等于第一預(yù)設(shè)閾值的網(wǎng)頁(yè)數(shù)量,若所述網(wǎng)頁(yè)數(shù)量大于或等于第二預(yù)設(shè)閾值,則確定所述網(wǎng)站為偽原創(chuàng)網(wǎng)站。與目前基于偽原創(chuàng)特征詞識(shí)別偽原創(chuàng)網(wǎng)站相比,本發(fā)明實(shí)施例通過(guò)網(wǎng)頁(yè)的樣式指紋識(shí)別偽原創(chuàng)網(wǎng)站,可以提高偽原創(chuàng)網(wǎng)站的識(shí)別準(zhǔn)確率。
【附圖說(shuō)明】
[0017]為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其它的附圖。
[0018]圖1為本發(fā)明實(shí)施例提供的一種偽原創(chuàng)網(wǎng)站的識(shí)別方法流程圖;
[0019]圖2為本發(fā)明實(shí)施例提供的另一種偽原創(chuàng)網(wǎng)站的識(shí)別方法流程圖;
[0020]圖3為本發(fā)明實(shí)施例提供的一種偽原創(chuàng)網(wǎng)站的識(shí)別裝置結(jié)構(gòu)示意圖;
[0021]圖4為本發(fā)明實(shí)施例提供的另一種偽原創(chuàng)網(wǎng)站的識(shí)別裝置結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0022]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其它實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0023]為使本發(fā)明技術(shù)方案的優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作詳細(xì)說(shuō)明。
[0024]本發(fā)明實(shí)施例提供一種偽原創(chuàng)網(wǎng)站的識(shí)別方法,如圖1所示,所述方法包括:
[0025]101、提取網(wǎng)站中包含的各個(gè)網(wǎng)頁(yè)和所述各個(gè)網(wǎng)頁(yè)分別對(duì)應(yīng)的樣式指紋。
[0026]其中,每一個(gè)網(wǎng)站下都會(huì)包含有多個(gè)網(wǎng)頁(yè),每一個(gè)網(wǎng)頁(yè)對(duì)應(yīng)的樣式指紋為一種標(biāo)識(shí)該網(wǎng)頁(yè)的64位數(shù)字碼,是基于網(wǎng)頁(yè)html (網(wǎng)頁(yè)超文本標(biāo)記語(yǔ)言)源代碼的dom樹結(jié)構(gòu)中的各個(gè)節(jié)點(diǎn)生成的。
[0027]102、分別計(jì)算所述各個(gè)網(wǎng)頁(yè)分別對(duì)應(yīng)的樣式指紋與偽原創(chuàng)樣式指紋之間的海明距離。
[0028]其中,數(shù)據(jù)庫(kù)中保存有預(yù)先挖掘的大量偽原創(chuàng)樣式指紋。
[0029]具體地,依次比對(duì)網(wǎng)頁(yè)對(duì)應(yīng)的樣式指紋的64位數(shù)字碼與偽原創(chuàng)樣式指紋的64位數(shù)字碼,并且統(tǒng)計(jì)相同位上數(shù)字碼不同的次數(shù),將所述次數(shù)作為網(wǎng)頁(yè)對(duì)應(yīng)的樣式指紋與偽原創(chuàng)樣式指紋之間的海明距離。例如,網(wǎng)頁(yè)對(duì)應(yīng)的樣式指紋與偽原創(chuàng)樣式指紋的第24位、第50位對(duì)應(yīng)的數(shù)字碼不同,則網(wǎng)頁(yè)對(duì)應(yīng)的樣式指紋與偽原創(chuàng)樣式指紋之間的海明距離為2。
[0030]103、統(tǒng)計(jì)所述各個(gè)網(wǎng)頁(yè)中與所述偽原創(chuàng)樣式指紋之間的海明距離大于或等于第一預(yù)設(shè)閾值的網(wǎng)頁(yè)數(shù)量。
[0031]其中,第一預(yù)設(shè)閾值為海明距離上限值,可以為3、5、6等,具體可以根據(jù)實(shí)際需求進(jìn)行配置,本發(fā)明實(shí)施例不做限定。
[0032]104、若所述網(wǎng)頁(yè)數(shù)量大于或等于第二預(yù)設(shè)閾值,則確定所述網(wǎng)站為偽原創(chuàng)網(wǎng)站。
[0033]其中,第二預(yù)設(shè)閾值為網(wǎng)頁(yè)數(shù)量上限值,可以根據(jù)實(shí)際需求進(jìn)行配置,本發(fā)明實(shí)施例不做限定。當(dāng)網(wǎng)頁(yè)數(shù)量大于或等于第二預(yù)設(shè)閾值時(shí),說(shuō)明該網(wǎng)站包含的網(wǎng)頁(yè)中,偽原創(chuàng)網(wǎng)頁(yè)的數(shù)量過(guò)多,從而確定該網(wǎng)站為偽原創(chuàng)網(wǎng)站,提高了偽原創(chuàng)網(wǎng)站的識(shí)別準(zhǔn)確率。
[0034]本發(fā)明實(shí)施例提供的一種偽原創(chuàng)網(wǎng)站的識(shí)別方法,首先提取網(wǎng)站中包含的各個(gè)網(wǎng)頁(yè)和所述各個(gè)網(wǎng)頁(yè)分別對(duì)應(yīng)的樣式指紋,然后分別計(jì)算所述各個(gè)網(wǎng)頁(yè)分別對(duì)應(yīng)的樣式指紋與偽原創(chuàng)樣式指紋之間的海明距離,再統(tǒng)計(jì)所述各個(gè)網(wǎng)頁(yè)中與所述偽原創(chuàng)樣式指紋之間的海明距離大于或等于第一預(yù)設(shè)閾值的網(wǎng)頁(yè)數(shù)量,若所述網(wǎng)頁(yè)數(shù)量大于或等于第二預(yù)設(shè)閾值,則確定所述網(wǎng)站為偽原創(chuàng)網(wǎng)站。與目前基于偽原創(chuàng)特征詞識(shí)別偽原創(chuàng)網(wǎng)站相比,本發(fā)明實(shí)施例通過(guò)網(wǎng)頁(yè)的樣式指紋識(shí)別偽原創(chuàng)網(wǎng)站,可以提高偽原創(chuàng)網(wǎng)站的識(shí)別準(zhǔn)確率。
[0035]本發(fā)明實(shí)施例提供另一種偽原創(chuàng)網(wǎng)站的識(shí)別方法,如圖2所示,所述方法包括:
[0036]201、計(jì)算各個(gè)網(wǎng)站中包含的網(wǎng)頁(yè)對(duì)應(yīng)的樣式指紋,并且建立樣式指紋與網(wǎng)頁(yè)之間的對(duì)應(yīng)關(guān)系。
[0037]其中,通常可以對(duì)用戶近期瀏覽網(wǎng)站中的全部網(wǎng)頁(yè)進(jìn)行樣式指紋的獲取。一個(gè)樣式指紋可以對(duì)應(yīng)一個(gè)或多個(gè)網(wǎng)頁(yè),每一個(gè)網(wǎng)頁(yè)分別對(duì)應(yīng)一個(gè)URL (Uniform ResourceLocator,統(tǒng)一資源定位符),URL用于標(biāo)識(shí)網(wǎng)頁(yè)對(duì)應(yīng)的網(wǎng)站鏈接地址。
[0038]對(duì)于本發(fā)明實(shí)施例,步驟201具體可以包括:首先創(chuàng)建網(wǎng)頁(yè)節(jié)點(diǎn)樣式集合,然后根據(jù)所述各個(gè)節(jié)點(diǎn)分別對(duì)應(yīng)的字符串,生成所述網(wǎng)頁(yè)對(duì)應(yīng)的樣式字符串,最后計(jì)算所述網(wǎng)頁(yè)對(duì)應(yīng)的樣式字符串的simhash (局部敏感哈希)值,并將所述simhash值作為所述網(wǎng)頁(yè)對(duì)應(yīng)的樣式指紋。
[0039]其中,網(wǎng)頁(yè)節(jié)點(diǎn)樣式集合中包含有網(wǎng)頁(yè)的各個(gè)節(jié)點(diǎn)分別對(duì)應(yīng)的字符串,所述各個(gè)節(jié)點(diǎn)用于標(biāo)識(shí)網(wǎng)頁(yè)各個(gè)區(qū)域的顯示方式,所述字符串包括所述各個(gè)節(jié)點(diǎn)分別對(duì)應(yīng)的節(jié)點(diǎn)名稱、節(jié)點(diǎn)樣式屬性、和節(jié)點(diǎn)樣式屬性值。節(jié)點(diǎn)樣式屬性具體可以為顏色、字體大小、顯示范圍等,節(jié)點(diǎn)樣式屬性值為各個(gè)節(jié)點(diǎn)樣式屬性的具體配置,例如,對(duì)于節(jié)點(diǎn)樣式屬性顏色,節(jié)點(diǎn)樣式屬性值可以為紅色、藍(lán)色等;對(duì)于節(jié)點(diǎn)樣式屬性字體大小,節(jié)點(diǎn)樣式屬性值可以為字體大小的具體賦值。
[0040]對(duì)于本發(fā)明實(shí)施例,創(chuàng)建網(wǎng)頁(yè)節(jié)點(diǎn)樣式集合的步驟具體可以包括:首先獲取所述網(wǎng)頁(yè)對(duì)應(yīng)的html源代碼,并根據(jù)所述網(wǎng)頁(yè)對(duì)應(yīng)的html源代碼,構(gòu)建所述網(wǎng)頁(yè)對(duì)應(yīng)的dom樹結(jié)構(gòu),然后提取所述dom樹結(jié)構(gòu)上各個(gè)節(jié)點(diǎn)分別對(duì)應(yīng)的節(jié)點(diǎn)名稱、節(jié)點(diǎn)屬性、和節(jié)點(diǎn)屬性值,最后根據(jù)所述各個(gè)節(jié)點(diǎn)分別對(duì)應(yīng)的節(jié)點(diǎn)名稱、節(jié)點(diǎn)屬性、和節(jié)點(diǎn)屬性值,生成所述各個(gè)節(jié)點(diǎn)分別對(duì)應(yīng)的字符串,并保存在所述網(wǎng)頁(yè)節(jié)點(diǎn)樣式集合中。例如,某一個(gè)節(jié)點(diǎn)的節(jié)點(diǎn)名稱為節(jié)點(diǎn)1,則節(jié)點(diǎn)I對(duì)應(yīng)的字符串的形式可以為(節(jié)點(diǎn)I顏色紅色字體大小小四)。
[0041]對(duì)于本發(fā)明實(shí)施例,根據(jù)網(wǎng)頁(yè)的各個(gè)節(jié)點(diǎn)分別對(duì)應(yīng)的字符串,生成所述網(wǎng)頁(yè)對(duì)應(yīng)的樣式字符串的步驟具體可以包括:首先生成空字符串S,然后判斷所
當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1