亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種欺詐網(wǎng)站的檢測(cè)方法與流程

文檔序號(hào):12465361閱讀:541來(lái)源:國(guó)知局
一種欺詐網(wǎng)站的檢測(cè)方法與流程

本發(fā)明涉及網(wǎng)絡(luò)安全領(lǐng)域,尤其涉及一種含有欺詐信息網(wǎng)站的檢測(cè)方法。



背景技術(shù):

在信息技術(shù)飛速發(fā)展的今天,中國(guó)網(wǎng)民的數(shù)量的逐年增長(zhǎng),但對(duì)于大多數(shù)安全意識(shí)相對(duì)缺乏的網(wǎng)民來(lái)說(shuō),欺詐網(wǎng)站侵害人民財(cái)產(chǎn)安全是一個(gè)嚴(yán)重問(wèn)題。網(wǎng)絡(luò)欺詐,是指通過(guò)聲稱來(lái)自正規(guī)或知名機(jī)構(gòu)等的欺騙性垃圾郵件或者仿照正規(guī)網(wǎng)站頁(yè)面等方式,意圖引誘收件人給出敏感信息(包括但不限于賬號(hào)、密碼、信用卡信息等)的一種攻擊形式。欺詐網(wǎng)站可以是高度模仿真正網(wǎng)站騙取用戶輸入賬號(hào)密碼,也可以是含有中獎(jiǎng)、博彩、虛假?gòu)V告等欺詐信息的危害人民群眾財(cái)產(chǎn)安全的網(wǎng)站。

對(duì)于常見(jiàn)的黑名單過(guò)濾技術(shù)、利用收集欺詐網(wǎng)站作為數(shù)據(jù)庫(kù),然后使用其匹配新網(wǎng)頁(yè)相似度從而判斷欺詐網(wǎng)站的方法,無(wú)法有效辨識(shí)新類型的欺詐網(wǎng)站,同時(shí)又存在系統(tǒng)檢測(cè)時(shí)資源分配不均勻的問(wèn)題。因此,如何能夠有效檢測(cè)出未記錄在黑名單中的欺詐網(wǎng)站,同時(shí)能夠合理分配資源利用,從而達(dá)到避免或減少用戶損失的目的,成為欺詐網(wǎng)站檢測(cè)系統(tǒng)的重點(diǎn)所在。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明所要解決的技術(shù)問(wèn)題就是提供一種欺詐網(wǎng)站的檢測(cè)方法,它能既準(zhǔn)確又快速地識(shí)別未記錄在黑名單中的欺詐網(wǎng)站,還能合理分配系統(tǒng)資源。

本發(fā)明所要解決的技術(shù)問(wèn)題是通過(guò)這樣的技術(shù)方案實(shí)現(xiàn)的,它包括有以下步驟:

步驟1、獲取網(wǎng)站統(tǒng)一資源定位符URL;

步驟2、根據(jù)獲得的網(wǎng)站統(tǒng)一資源定位符URL在系統(tǒng)已有的網(wǎng)站數(shù)據(jù)庫(kù)中匹配,網(wǎng)站URL不存在于數(shù)據(jù)庫(kù)中,則執(zhí)行步驟3;若網(wǎng)站存在于數(shù)據(jù)庫(kù)中,則結(jié)束;

步驟3、檢測(cè)網(wǎng)站流量排名數(shù)值是否大于100萬(wàn),若獲得的網(wǎng)站排名數(shù)值大于100萬(wàn),則執(zhí)行步驟5;否則,則執(zhí)行步驟4;

步驟4、檢測(cè)網(wǎng)站流量排名數(shù)值是否大于10萬(wàn),若獲得的網(wǎng)站排名數(shù)值大于10萬(wàn),則執(zhí)行步驟6;若獲得的網(wǎng)站排名數(shù)值小于10萬(wàn),則執(zhí)行步驟7;

步驟5、通過(guò)獲取的統(tǒng)一資源定位符URL經(jīng)過(guò)檢測(cè)域名是否匹配和檢測(cè)網(wǎng)站標(biāo)題、檢測(cè)網(wǎng)站頁(yè)面內(nèi)容、檢測(cè)網(wǎng)站DOM文檔對(duì)象模型、檢測(cè)頁(yè)面圖片中存在的欺詐信息,計(jì)算安全系數(shù),返回安全系數(shù)的結(jié)果與所設(shè)定排名數(shù)值大于100萬(wàn)的閾值比較,將待檢測(cè)網(wǎng)站分為欺詐網(wǎng)站和可信網(wǎng)站兩類,然后執(zhí)行步驟8;

步驟6、通過(guò)檢測(cè)網(wǎng)站頁(yè)面內(nèi)容、檢測(cè)網(wǎng)站DOM文檔對(duì)象模型,計(jì)算安全系數(shù),返回安全系數(shù)的結(jié)果與所設(shè)定排名數(shù)值10萬(wàn)-100萬(wàn)的閾值比較,將待檢測(cè)網(wǎng)站分為欺詐網(wǎng)站和可信網(wǎng)站兩類,然后執(zhí)行步驟8;

步驟7、通過(guò)檢測(cè)網(wǎng)站頁(yè)面內(nèi)容,計(jì)算安全系數(shù),返回安全系數(shù)與所設(shè)定的排名數(shù)值小于10萬(wàn)的閾值比較,將待檢測(cè)網(wǎng)站分為欺詐網(wǎng)站和可信網(wǎng)站兩類,然后執(zhí)行步驟8;

步驟8、根據(jù)識(shí)別的結(jié)果更新網(wǎng)站數(shù)據(jù)庫(kù)。

本發(fā)明的技術(shù)效果:

本發(fā)明在步驟2利用已建立的網(wǎng)站數(shù)據(jù)庫(kù),并在步驟5、步驟6和步驟7針對(duì)不同流量網(wǎng)站分層次檢測(cè),與現(xiàn)有技術(shù)中單純依賴黑白名單和關(guān)鍵詞匹配的欺詐網(wǎng)站檢測(cè)方法相比,提高了欺詐網(wǎng)站檢測(cè)的準(zhǔn)確性,對(duì)不同可信度的網(wǎng)站分層次檢測(cè),既提高了檢測(cè)速度,又節(jié)省了系統(tǒng)資源。

附圖說(shuō)明

本發(fā)明的附圖說(shuō)明如下:

圖1為本發(fā)明的流程圖;

圖2為本發(fā)明在網(wǎng)站流量排名數(shù)值大于100萬(wàn)的判別流程圖;

圖3為本發(fā)明在網(wǎng)站流量排名數(shù)值100與10萬(wàn)之間的判別流程圖;

圖4為本發(fā)明在網(wǎng)站流量排名數(shù)值小于10萬(wàn)的判別流程圖。

具體實(shí)施方式

下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步說(shuō)明:

如圖1所示,本發(fā)明開(kāi)始于步驟S10,并獲取網(wǎng)站統(tǒng)一資源定位符URL;

當(dāng)訪問(wèn)網(wǎng)站時(shí),系統(tǒng)獲取即將訪問(wèn)的待檢測(cè)URL(Uniform Resource Locator,網(wǎng)站統(tǒng)一資源定位符),例如,當(dāng)用戶訪問(wèn)、下載互聯(lián)網(wǎng)資源時(shí),系統(tǒng)會(huì)獲得即將訪問(wèn)的網(wǎng)絡(luò)地址的值即為待檢測(cè)的URL,URL的值不受本發(fā)明限制。

步驟S101,根據(jù)獲得的網(wǎng)站統(tǒng)一資源定位符URL,在系統(tǒng)已有的網(wǎng)站數(shù)據(jù)庫(kù)中匹配,若獲得的網(wǎng)站URL不存在于數(shù)據(jù)庫(kù)中則執(zhí)行步驟S102;若存在于數(shù)據(jù)庫(kù)中,則跳轉(zhuǎn)至步驟S60退出程序;

所述網(wǎng)站數(shù)據(jù)庫(kù)由系統(tǒng)不斷學(xué)習(xí)增加得到,網(wǎng)站數(shù)據(jù)庫(kù)包含有欺詐網(wǎng)站和可信網(wǎng)站兩類,網(wǎng)站數(shù)據(jù)庫(kù)中的域名數(shù)量等不受本發(fā)明專利限制。通過(guò)獲取待檢測(cè)網(wǎng)站的URL獲取對(duì)應(yīng)域名信息,與欺詐網(wǎng)站中的現(xiàn)有欺詐網(wǎng)站域名進(jìn)行匹配。獲取域名的方法為,通過(guò)正則表達(dá)式做關(guān)鍵詞匹配得到。例如在Linux操作系統(tǒng)中就可以使用grep“.*\{1,15\}\..*\{1,15\}\.[a-z]\{2,8\}”,提取出字符串中的值即為網(wǎng)站域名。

步驟S102,檢測(cè)網(wǎng)站流量排名數(shù)值是否大于100萬(wàn),若獲得的網(wǎng)站排名數(shù)值大于100萬(wàn),則執(zhí)行步驟S20;否則,則執(zhí)行步驟S103;

步驟S103,檢測(cè)網(wǎng)站流量排名數(shù)值是否大于10萬(wàn),若獲得的網(wǎng)站排名數(shù)值大于10萬(wàn),則執(zhí)行步驟S30;若獲得的網(wǎng)站排名數(shù)值小于10萬(wàn),則執(zhí)行步驟S40;

上述步驟S102,S103中網(wǎng)站流量排名數(shù)值是通過(guò)Alexa排名檢測(cè)得到,Alexa排名是指網(wǎng)站的世界排名,是一種較為權(quán)威的網(wǎng)站訪問(wèn)量評(píng)價(jià)指標(biāo),Alexa每三個(gè)月公布一次新的網(wǎng)站綜合排名。此排名的依據(jù)是用戶鏈接數(shù)(Users Reach)和頁(yè)面瀏覽數(shù)(Page Views)三個(gè)月累積的幾何平均值。Alexa排名可以較好的說(shuō)明的網(wǎng)站在互聯(lián)網(wǎng)中的用戶訪問(wèn)情況,對(duì)于網(wǎng)站頁(yè)面內(nèi)容而言訪問(wèn)量可以間接可以體現(xiàn)一個(gè)網(wǎng)站的安全性。

根據(jù)待所提取的網(wǎng)站域名獲取Alexa排名值。提取域名部分,例如,當(dāng)網(wǎng)站的URL為:http://www.boc.cn/fimarkets/fund/201603/t20160322_6581374.html,對(duì)應(yīng)的域名則為 boc.cn ,通過(guò)獲取的Alexa用戶接口API查詢其Alexa排名:http://data.alexa.com/data/+wQ411en8000lAcli=10&dat=snba&ver=7.0&cdt=alx_vw=20&wid=12206&act=00000000000&ss=1680x1050&bw=964&t=0&ttl=35371&vis=1&rq=4&url=TargetURL,使用腳本程序每次檢測(cè)將其中的TargetURL替換為要檢測(cè)的網(wǎng)站域名,例如http://www.boc.cn 根據(jù)其返回值中的<REACH RANK="1957"/>可提取出其全球排名值為1957,如果返回的結(jié)果為空,則表示網(wǎng)站創(chuàng)建時(shí)間較短或未收錄,仍屬于檢測(cè)網(wǎng)站流量排名數(shù)值大于100萬(wàn)的情況;

若待檢測(cè)網(wǎng)站的統(tǒng)一資源定位符URL為IP地址形式,例如103.42.31.55,則同樣認(rèn)為其不安全,也按檢測(cè)網(wǎng)站流量排名數(shù)值大于100萬(wàn)的情況處理。

步驟S20,通過(guò)獲取的統(tǒng)一資源定位符URL經(jīng)過(guò)檢測(cè)域名是否匹配和檢測(cè)網(wǎng)站標(biāo)題、檢測(cè)網(wǎng)站頁(yè)面內(nèi)容、檢測(cè)網(wǎng)站DOM文檔對(duì)象模型、檢測(cè)頁(yè)面圖片中存在的欺詐信息,計(jì)算安全系數(shù),返回安全系數(shù)的結(jié)果與所設(shè)定排名數(shù)值大于100萬(wàn)的閾值比較,將待檢測(cè)網(wǎng)站分為欺詐網(wǎng)站和可信網(wǎng)站兩類,然后執(zhí)行步驟S50;

步驟S30,通過(guò)檢測(cè)網(wǎng)站頁(yè)面內(nèi)容、檢測(cè)網(wǎng)站DOM文檔對(duì)象模型,計(jì)算安全系數(shù),返回安全系數(shù)的結(jié)果與所設(shè)定排名數(shù)值10萬(wàn)-100萬(wàn)的閾值比較,將待檢測(cè)網(wǎng)站分為欺詐網(wǎng)站和可信網(wǎng)站兩類,然后執(zhí)行步驟S50;

步驟S40,通過(guò)檢測(cè)網(wǎng)站頁(yè)面內(nèi)容,計(jì)算安全系數(shù),將返回安全系數(shù)與所設(shè)定的排名數(shù)值小于10萬(wàn)的閾值進(jìn)行比較,將待檢測(cè)網(wǎng)站分為欺詐網(wǎng)站和可信網(wǎng)站兩類,然后執(zhí)行步驟S50;

步驟S50,根據(jù)識(shí)別的結(jié)果更新網(wǎng)站數(shù)據(jù)庫(kù);

步驟S60,程序結(jié)束。

如圖2所示,在步驟S20中,在網(wǎng)站流量排名數(shù)值大于100萬(wàn)的情況下,判斷待檢測(cè)網(wǎng)站的步驟如下:

步驟S201,檢測(cè)網(wǎng)站域名與中網(wǎng)可信網(wǎng)站匹配和檢測(cè)網(wǎng)站標(biāo)題得到第一影響因子I1;

本步驟中,獲取待檢測(cè)網(wǎng)站域名和網(wǎng)站標(biāo)題,針對(duì)網(wǎng)站域名,利用中網(wǎng)可信網(wǎng)站查詢接口查詢?cè)撚蛎鶕?jù)返回結(jié)果與待檢測(cè)網(wǎng)站域名是否對(duì)應(yīng)確定網(wǎng)站是否可信;如果網(wǎng)站域名為網(wǎng)站可信,則將第一影響因子I1暫時(shí)置為0;若返回網(wǎng)站不可信,則將第一影響因子I1暫時(shí)置為1;再檢測(cè)網(wǎng)站標(biāo)題,網(wǎng)站標(biāo)題中若存在敏感關(guān)鍵詞,則將第一影響因子I1置2;若網(wǎng)站標(biāo)題中不含有敏感關(guān)鍵詞,則影響因子I1保持為剛才得到的數(shù)值1或0。

所述中網(wǎng)可信網(wǎng)站查詢接口為http://t.knet.cn所提供網(wǎng)站可信度查詢用戶接口函數(shù),通過(guò)提交所需查詢網(wǎng)站域名,返回網(wǎng)站的備案信息。獲取網(wǎng)頁(yè)源代碼,獲取方法例如在linux下就可以使用curl http://www.xx.com/1.html來(lái)獲得。利用正則表達(dá)式匹配獲取網(wǎng)站源代碼中<title></title>部分中的字符串為網(wǎng)站標(biāo)題,通過(guò)中網(wǎng)可信網(wǎng)站查詢接口來(lái)查詢?cè)揢RL對(duì)應(yīng)域名的可信度。若查詢無(wú)返回結(jié)果,則認(rèn)為該網(wǎng)站可疑,存在虛假詐騙欺詐網(wǎng)站的可能;若返回結(jié)果備案信息為表示為官方網(wǎng)站,則可以認(rèn)為是安全網(wǎng)站。根據(jù)返回的結(jié)果是否為官網(wǎng)且備案將第一影響因子I1暫時(shí)置為1或0;同時(shí)對(duì)網(wǎng)站標(biāo)題做基于敏感關(guān)鍵詞的正則表達(dá)式匹配,若在待檢測(cè)的網(wǎng)站標(biāo)題中存在如“娛樂(lè)城”、“好消息”、“積分兌換”等敏感關(guān)鍵詞,則認(rèn)為該網(wǎng)站頁(yè)面內(nèi)容可能遭惡意篡改,則將影響因子I1置2,若網(wǎng)站標(biāo)題中不含有敏感關(guān)鍵詞,則影響因子I1的值為剛檢測(cè)過(guò)后確定的值1或0。

步驟S202,獲取所述URL對(duì)應(yīng)網(wǎng)站頁(yè)面的內(nèi)容,對(duì)頁(yè)面內(nèi)容做敏感關(guān)鍵詞及含有通配符的混淆敏感關(guān)鍵詞匹配,根據(jù)頁(yè)面含有敏感關(guān)鍵詞和混淆敏感關(guān)鍵詞的數(shù)量,將第二影響因子I2置為2,1或0;

所述敏感關(guān)鍵詞匹配的方法為:獲取頁(yè)面內(nèi)容,對(duì)源代碼中的Unicode編碼為中文字符的通過(guò)正則匹配編碼提取出來(lái),對(duì)提取出的詞匯做分詞處理,所述分詞算法為較為常用的基于字符串匹配的算法,使用其雙向最大匹配法,雙向最大匹配法為正向最大匹配算法和逆向最大匹配算法進(jìn)行綜合得到的;

正向最大匹配算法為:進(jìn)行對(duì)字符由左到右、由右到左兩次掃描取得待切分語(yǔ)句中的最大4個(gè)字符,使用增加欺詐網(wǎng)站敏感關(guān)鍵詞匯的大機(jī)器字典進(jìn)行匹配,若匹配成功則將這個(gè)匹配的到的字符串作為一個(gè)詞匯切分出來(lái),若匹配不成功,則將這個(gè)匹配字符串的前面一個(gè)詞去掉,剩下作為新的字符串繼續(xù)匹配,直到換分出所有的詞為止;逆向最大匹配算法為正向最大匹配的逆向算法,具體方法類似;所述大機(jī)器字典可在各大開(kāi)源社區(qū)獲得,具體的字典內(nèi)容不受本發(fā)明限制;

對(duì)得到分詞后的網(wǎng)頁(yè)分詞字典進(jìn)行字符串匹配,匹配的關(guān)鍵詞為“中獎(jiǎng)”、“贈(zèng)送”、“老虎機(jī)”,“獲獎(jiǎng)”,“積分兌換”等,同時(shí)為了應(yīng)對(duì)欺詐網(wǎng)站中的“中。獎(jiǎng)”、“場(chǎng)外a幸運(yùn)”“觀眾”、“真 人真 錢”等避免關(guān)鍵詞檢測(cè)的情況,在關(guān)鍵詞報(bào)警數(shù)據(jù)庫(kù)中加入“中*獎(jiǎng)”、“賬*號(hào)”等含有通配符形式的字符串,進(jìn)行混淆關(guān)鍵詞匹配。當(dāng)頁(yè)面中的敏感關(guān)鍵詞數(shù)量少于關(guān)鍵詞報(bào)警閾值時(shí),第二影響因子I2置0;當(dāng)頁(yè)面中的敏感關(guān)鍵詞數(shù)量大于關(guān)鍵詞報(bào)警閾值時(shí),則將第二影響因子I2置1;若含有混淆敏感關(guān)鍵詞的數(shù)量大于混淆關(guān)鍵詞報(bào)警閾值,則將第二影響因子I2置2。

步驟S203,獲取網(wǎng)站頁(yè)面訪問(wèn)頁(yè)面的源代碼,利用正則表達(dá)式提取出DOM文檔對(duì)象模型中的所有站外信息,將提取出的非本域名的URL進(jìn)行網(wǎng)站流量排名檢測(cè),當(dāng)排名數(shù)值超過(guò)100萬(wàn)的URL數(shù)量占提取出的總的URL的比例超過(guò)站外URL比例閾值時(shí),將第三影響因子I3置1,否則置0。所謂站外URL是指本頁(yè)面中指向非本頁(yè)面資源的URL;檢測(cè)頁(yè)面中所含有的信息輸入框的數(shù)量及對(duì)應(yīng)的名稱,若含有信息輸入框,同時(shí)信息輸入框的名稱為敏感關(guān)鍵詞,則將第四影響因子I4置1,否則置0;

本步驟中,通過(guò)獲取的網(wǎng)站頁(yè)面的源代碼,提取出頁(yè)面中所有的鏈接信息,以及頁(yè)面中是否含有用戶輸入信息的輸入框及含有的輸入框的數(shù)量和輸入框的名稱。具體為,獲取頁(yè)面中所有的鏈接,使用正則表達(dá)式提取<a href=””></a>中所有的“http://xxx.xxx.xxx”信息,并將獲取的URL使用Alexa排名檢測(cè)模塊查看其全球排名,如果排名大于100萬(wàn)的域名超過(guò)站外URL比例閾值,則將第三影響因子I3置1。同時(shí)獲取頁(yè)面內(nèi)所有的表單信息,提取頁(yè)面中所有的<form></form>代碼,若沒(méi)有<form></form>代碼,則表示不含有用戶輸入信息部分;若含有該部分代碼,則表示網(wǎng)站有需要用戶提交數(shù)據(jù)的區(qū)域,接下來(lái)進(jìn)一步檢測(cè)<form></form>代碼中是否含有敏感關(guān)鍵詞,比如“姓名”、“手機(jī)號(hào)”、“身份證號(hào)”、“銀行卡號(hào)”、“賬號(hào)”、“密碼”等詞,若含有,則表示頁(yè)面需要用戶提交個(gè)人隱私信息,可能含有欺詐風(fēng)險(xiǎn),則將第四影響因子I4置1。

步驟S204,獲取網(wǎng)站頁(yè)面中所有的圖片URL,調(diào)用網(wǎng)易易盾的圖片檢測(cè)接口函數(shù),傳入頁(yè)面中所有圖片的地址,根據(jù)返回?cái)?shù)據(jù)中的分類信息得到頁(yè)面圖片中含有的廣告和欺詐類型圖片的比例,該值與頁(yè)面非法圖片比例閾值相比較,超過(guò)該閾值則將第五影響因子I5置1,否則置0;

所述獲取圖片的URL地址,為使用正則表達(dá)式匹配并提取頁(yè)面中所有含有 .jpg |.bmp|.png等格式的鏈接;所述網(wǎng)易易盾圖片檢測(cè)服務(wù),利用正則表達(dá)式獲取待檢測(cè)網(wǎng)站中的所有圖片的URL,使用網(wǎng)易易盾提供的圖片檢測(cè)服務(wù),接口函數(shù)調(diào)用地址:https://api.aq.163.com/v2/image/check,利用程序在代碼中的imageurl處的“name”及“data”參數(shù)處自動(dòng)添加網(wǎng)頁(yè)中圖片的地址,根據(jù)返回的數(shù)據(jù)中的result參數(shù)中的label分類信息:100:色情,200:廣告,300:暴恐,400:違禁,500:涉政,來(lái)判斷頁(yè)面中的涉及的五種類型的圖片的數(shù)量,涉嫌五種情況的圖片數(shù)量與總圖片數(shù)目的比值,定為欺詐類型圖片的比例。

步驟S205,根據(jù)獲得的五個(gè)影響因子,加權(quán)求和得到安全系數(shù);

步驟S206,將步驟S205計(jì)算得到的安全系數(shù)與排名數(shù)值大于100萬(wàn)安全閾值相比較,把待檢測(cè)網(wǎng)站分為欺詐網(wǎng)站和可信網(wǎng)站兩類。

如圖3所示,在步驟S30中,網(wǎng)站流量排名數(shù)值在10-100萬(wàn)之間的情況下,判斷待檢測(cè)網(wǎng)站的步驟如下:

步驟S301,獲取所述URL對(duì)應(yīng)網(wǎng)站頁(yè)面的內(nèi)容,對(duì)頁(yè)面內(nèi)容做敏感關(guān)鍵詞及含有通配符的混淆敏感關(guān)鍵詞匹配,根據(jù)頁(yè)面含有敏感關(guān)鍵詞和混淆敏感關(guān)鍵詞的數(shù)量,將第二影響因子I2置為2,1或0;

本步驟中與步驟S202相同。

步驟S302,獲取網(wǎng)站頁(yè)面訪問(wèn)頁(yè)面的源代碼,利用正則表達(dá)式提取出DOM文檔對(duì)象模型中的所有站外信息,將提取出的非本域名的URL進(jìn)行網(wǎng)站流量排名檢測(cè),當(dāng)排名數(shù)值超過(guò)100萬(wàn)的URL數(shù)量占提取出的總的URL的比例超過(guò)站外URL比例閾值時(shí),第三影響因子I3置1,否則置0。檢測(cè)頁(yè)面中所含有的信息輸入框的數(shù)量及對(duì)應(yīng)的名稱,若含有信息輸入框,同時(shí)信息輸入框的名稱為敏感關(guān)鍵詞,則將第四影響因子I4置1,否則置0;

本步驟與步驟S203相同。

步驟S303,根據(jù)步驟S301所得的第二影響因子I2和步驟S302所得的第三影響因子I3、第四影響因子I4,加權(quán)求和得到安全系數(shù);

步驟S304,將步驟S303計(jì)算得到的安全系數(shù)與排名數(shù)值10萬(wàn)-100萬(wàn)安全閾值相比較,把待檢測(cè)網(wǎng)站分為欺詐網(wǎng)站和可信網(wǎng)站兩類。

如圖4所示,在步驟S40中,網(wǎng)站流量排名數(shù)值小于10萬(wàn)的情況下,判斷待檢測(cè)網(wǎng)站的步驟如下:

步驟S401,獲取所述URL對(duì)應(yīng)網(wǎng)站頁(yè)面的內(nèi)容,對(duì)頁(yè)面內(nèi)容做敏感關(guān)鍵詞及含有通配符的混淆敏感關(guān)鍵詞匹配,根據(jù)頁(yè)面含有敏感關(guān)鍵詞和混淆敏感關(guān)鍵詞的數(shù)量,將第二影響因子I2置為2,1或0;

本步驟中與步驟S202相同。

步驟S402,將步驟S401計(jì)算得到的第二影響因子I2加權(quán)計(jì)算后作為安全系數(shù);

步驟S403,將步驟S402計(jì)算得到的安全系數(shù)與排名數(shù)值小于10萬(wàn)的安全閾值相比較,把待檢測(cè)網(wǎng)站分為欺詐網(wǎng)站和可信網(wǎng)站兩類。

本發(fā)明中的閾值和權(quán)重由每個(gè)閾值的判定模型決定,它們的具體值需要經(jīng)過(guò)大量欺詐網(wǎng)站和正常網(wǎng)站樣本的統(tǒng)計(jì)獲得:

所述關(guān)鍵詞報(bào)警閾值為,通過(guò)將頁(yè)面的源代碼中的中文字符提取出來(lái),提取原則為匹配Unicode編碼為“\u4e00-\u9fa5”的中文字符,然后對(duì)提取出的字符串做分詞處理,所述分詞算法為較為常用的基于字符串匹配的算法,使用其雙向最大匹配法,進(jìn)行對(duì)字符由左到右、由右到左兩次掃描,得到分詞后的網(wǎng)頁(yè)分詞字典。對(duì)得到的網(wǎng)頁(yè)分詞字典做字符串匹配。本發(fā)明中根據(jù)樣本的計(jì)算結(jié)果將關(guān)鍵詞報(bào)警閾值中的敏感關(guān)鍵詞比例設(shè)定為10%,將混淆敏感關(guān)鍵詞的比例設(shè)定為5%。

所述站外URL比例閾值為,通過(guò)獲取的頁(yè)面源代碼,利用正則表達(dá)式匹配提取出所有的URL鏈接信息,對(duì)所得的URL做提取出其中的域名,并去掉重復(fù)和自身的域名和html代碼頭部的http://www.w3.org,對(duì)所得到的域名做Alexa的網(wǎng)站排名查詢。通過(guò)樣本分析統(tǒng)計(jì),本發(fā)明中將站外URL比例閾值設(shè)為30%。

所述頁(yè)面非法圖片比例閾值為,通過(guò)比較涉嫌欺詐信息的圖片數(shù)目與總的圖片數(shù)目得到的臨界值,通過(guò)樣本分析統(tǒng)計(jì),本發(fā)明中將頁(yè)面非法圖片比例閾值設(shè)為30%。

所述排名數(shù)值大于100萬(wàn)閾值為2,排名數(shù)值10萬(wàn)-100萬(wàn)閾值為2,排名數(shù)值小于10萬(wàn)閾值為1。當(dāng)檢測(cè)過(guò)程返回的安全系數(shù)的結(jié)果大于閾值時(shí),則表明網(wǎng)站可能存在潛在風(fēng)險(xiǎn)。

根據(jù)待檢測(cè)網(wǎng)站的各個(gè)檢測(cè)分支的影響因子,對(duì)待檢測(cè)網(wǎng)站的安全系數(shù)的計(jì)算包括具體包括 :所述第一影響因子I1、第二影響因子I2、第三影響因子I3、第四影響因子I4和第五影響因子I5 分配對(duì)應(yīng)的權(quán)重,獲取第一影響因子I1、第二影響因子I2、第三影響因子I3、第四影響因子I4和第五影響因子I5與對(duì)應(yīng)權(quán)重乘積的累加值;若所述求得累加值大于預(yù)設(shè)欺詐網(wǎng)站判斷閾值,則判定所述待檢測(cè)網(wǎng)站為欺詐網(wǎng)站。

具體地,例如為第一影響因子I1分配第一權(quán)重值 w1、為第二影響因子I2分配第二權(quán)重值 w2、為第三影響因子I3 分配第三權(quán)重值 w3、為第四影響因子I4 分配第四權(quán)重值 w4、為第五影響因子I5分配第五權(quán)重值 w5,則該影響因子的累加值為 w1×I1+w2×I2+w3×I3+w4×I4+ w5×I5。 將該特征累加值與一個(gè)預(yù)設(shè)閾值相比較,若得到的該特征累加值大于預(yù)設(shè)閾值,則判定所述待檢測(cè)網(wǎng)站為可能存在欺詐信息的欺詐網(wǎng)站等,若小于或等于預(yù)設(shè)閾值,則判定所述待檢測(cè)網(wǎng)站不為欺詐網(wǎng)站。

其中,第一權(quán)重值 w1、第二權(quán)重值 w2、第三權(quán)重值 w3、第四權(quán)重值 w4、第五權(quán)重值 w5均大于0且小于等于 1,且第一權(quán)重值w1、第二權(quán)重值 w2、第三權(quán)重值w3、第四權(quán)重值 w4、第五權(quán)重值 w5以及各個(gè)參數(shù)比較所預(yù)設(shè)閾值均由數(shù)值判定模型提供。在本實(shí)施例中,各影響因子的所有權(quán)重定為1。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1