一種欺詐網(wǎng)站的檢測(cè)方法與流程

文檔序號(hào)：12465361閱讀：541來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及網(wǎng)絡(luò)安全領(lǐng)域，尤其涉及一種含有欺詐信息網(wǎng)站的檢測(cè)方法。

背景技術(shù)：

在信息技術(shù)飛速發(fā)展的今天，中國(guó)網(wǎng)民的數(shù)量的逐年增長(zhǎng)，但對(duì)于大多數(shù)安全意識(shí)相對(duì)缺乏的網(wǎng)民來(lái)說(shuō)，欺詐網(wǎng)站侵害人民財(cái)產(chǎn)安全是一個(gè)嚴(yán)重問(wèn)題。網(wǎng)絡(luò)欺詐，是指通過(guò)聲稱來(lái)自正規(guī)或知名機(jī)構(gòu)等的欺騙性垃圾郵件或者仿照正規(guī)網(wǎng)站頁(yè)面等方式，意圖引誘收件人給出敏感信息（包括但不限于賬號(hào)、密碼、信用卡信息等）的一種攻擊形式。欺詐網(wǎng)站可以是高度模仿真正網(wǎng)站騙取用戶輸入賬號(hào)密碼，也可以是含有中獎(jiǎng)、博彩、虛假?gòu)V告等欺詐信息的危害人民群眾財(cái)產(chǎn)安全的網(wǎng)站。

對(duì)于常見(jiàn)的黑名單過(guò)濾技術(shù)、利用收集欺詐網(wǎng)站作為數(shù)據(jù)庫(kù)，然后使用其匹配新網(wǎng)頁(yè)相似度從而判斷欺詐網(wǎng)站的方法，無(wú)法有效辨識(shí)新類型的欺詐網(wǎng)站，同時(shí)又存在系統(tǒng)檢測(cè)時(shí)資源分配不均勻的問(wèn)題。因此，如何能夠有效檢測(cè)出未記錄在黑名單中的欺詐網(wǎng)站，同時(shí)能夠合理分配資源利用，從而達(dá)到避免或減少用戶損失的目的，成為欺詐網(wǎng)站檢測(cè)系統(tǒng)的重點(diǎn)所在。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明所要解決的技術(shù)問(wèn)題就是提供一種欺詐網(wǎng)站的檢測(cè)方法，它能既準(zhǔn)確又快速地識(shí)別未記錄在黑名單中的欺詐網(wǎng)站，還能合理分配系統(tǒng)資源。

本發(fā)明所要解決的技術(shù)問(wèn)題是通過(guò)這樣的技術(shù)方案實(shí)現(xiàn)的，它包括有以下步驟：

步驟1、獲取網(wǎng)站統(tǒng)一資源定位符URL；

步驟2、根據(jù)獲得的網(wǎng)站統(tǒng)一資源定位符URL在系統(tǒng)已有的網(wǎng)站數(shù)據(jù)庫(kù)中匹配，網(wǎng)站URL不存在于數(shù)據(jù)庫(kù)中，則執(zhí)行步驟3；若網(wǎng)站存在于數(shù)據(jù)庫(kù)中，則結(jié)束；

步驟3、檢測(cè)網(wǎng)站流量排名數(shù)值是否大于100萬(wàn)，若獲得的網(wǎng)站排名數(shù)值大于100萬(wàn)，則執(zhí)行步驟5；否則，則執(zhí)行步驟4；

步驟4、檢測(cè)網(wǎng)站流量排名數(shù)值是否大于10萬(wàn)，若獲得的網(wǎng)站排名數(shù)值大于10萬(wàn)，則執(zhí)行步驟6；若獲得的網(wǎng)站排名數(shù)值小于10萬(wàn)，則執(zhí)行步驟7；

步驟5、通過(guò)獲取的統(tǒng)一資源定位符URL經(jīng)過(guò)檢測(cè)域名是否匹配和檢測(cè)網(wǎng)站標(biāo)題、檢測(cè)網(wǎng)站頁(yè)面內(nèi)容、檢測(cè)網(wǎng)站DOM文檔對(duì)象模型、檢測(cè)頁(yè)面圖片中存在的欺詐信息，計(jì)算安全系數(shù)，返回安全系數(shù)的結(jié)果與所設(shè)定排名數(shù)值大于100萬(wàn)的閾值比較，將待檢測(cè)網(wǎng)站分為欺詐網(wǎng)站和可信網(wǎng)站兩類，然后執(zhí)行步驟8；

步驟6、通過(guò)檢測(cè)網(wǎng)站頁(yè)面內(nèi)容、檢測(cè)網(wǎng)站DOM文檔對(duì)象模型，計(jì)算安全系數(shù)，返回安全系數(shù)的結(jié)果與所設(shè)定排名數(shù)值10萬(wàn)-100萬(wàn)的閾值比較，將待檢測(cè)網(wǎng)站分為欺詐網(wǎng)站和可信網(wǎng)站兩類，然后執(zhí)行步驟8；

步驟7、通過(guò)檢測(cè)網(wǎng)站頁(yè)面內(nèi)容，計(jì)算安全系數(shù)，返回安全系數(shù)與所設(shè)定的排名數(shù)值小于10萬(wàn)的閾值比較，將待檢測(cè)網(wǎng)站分為欺詐網(wǎng)站和可信網(wǎng)站兩類，然后執(zhí)行步驟8；

步驟8、根據(jù)識(shí)別的結(jié)果更新網(wǎng)站數(shù)據(jù)庫(kù)。

本發(fā)明的技術(shù)效果：

本發(fā)明在步驟2利用已建立的網(wǎng)站數(shù)據(jù)庫(kù)，并在步驟5、步驟6和步驟7針對(duì)不同流量網(wǎng)站分層次檢測(cè)，與現(xiàn)有技術(shù)中單純依賴黑白名單和關(guān)鍵詞匹配的欺詐網(wǎng)站檢測(cè)方法相比，提高了欺詐網(wǎng)站檢測(cè)的準(zhǔn)確性，對(duì)不同可信度的網(wǎng)站分層次檢測(cè)，既提高了檢測(cè)速度，又節(jié)省了系統(tǒng)資源。

附圖說(shuō)明

本發(fā)明的附圖說(shuō)明如下：

圖1為本發(fā)明的流程圖；

圖2為本發(fā)明在網(wǎng)站流量排名數(shù)值大于100萬(wàn)的判別流程圖；

圖3為本發(fā)明在網(wǎng)站流量排名數(shù)值100與10萬(wàn)之間的判別流程圖；

圖4為本發(fā)明在網(wǎng)站流量排名數(shù)值小于10萬(wàn)的判別流程圖。

具體實(shí)施方式

下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步說(shuō)明：

如圖1所示，本發(fā)明開(kāi)始于步驟S10，并獲取網(wǎng)站統(tǒng)一資源定位符URL；

當(dāng)訪問(wèn)網(wǎng)站時(shí)，系統(tǒng)獲取即將訪問(wèn)的待檢測(cè)URL（Uniform Resource Locator，網(wǎng)站統(tǒng)一資源定位符），例如，當(dāng)用戶訪問(wèn)、下載互聯(lián)網(wǎng)資源時(shí)，系統(tǒng)會(huì)獲得即將訪問(wèn)的網(wǎng)絡(luò)地址的值即為待檢測(cè)的URL，URL的值不受本發(fā)明限制。

步驟S101，根據(jù)獲得的網(wǎng)站統(tǒng)一資源定位符URL，在系統(tǒng)已有的網(wǎng)站數(shù)據(jù)庫(kù)中匹配，若獲得的網(wǎng)站URL不存在于數(shù)據(jù)庫(kù)中則執(zhí)行步驟S102；若存在于數(shù)據(jù)庫(kù)中，則跳轉(zhuǎn)至步驟S60退出程序；

所述網(wǎng)站數(shù)據(jù)庫(kù)由系統(tǒng)不斷學(xué)習(xí)增加得到，網(wǎng)站數(shù)據(jù)庫(kù)包含有欺詐網(wǎng)站和可信網(wǎng)站兩類，網(wǎng)站數(shù)據(jù)庫(kù)中的域名數(shù)量等不受本發(fā)明專利限制。通過(guò)獲取待檢測(cè)網(wǎng)站的URL獲取對(duì)應(yīng)域名信息，與欺詐網(wǎng)站中的現(xiàn)有欺詐網(wǎng)站域名進(jìn)行匹配。獲取域名的方法為，通過(guò)正則表達(dá)式做關(guān)鍵詞匹配得到。例如在Linux操作系統(tǒng)中就可以使用grep“.*\{1,15\}\..*\{1,15\}\.[a-z]\{2,8\}”，提取出字符串中的值即為網(wǎng)站域名。

步驟S102，檢測(cè)網(wǎng)站流量排名數(shù)值是否大于100萬(wàn)，若獲得的網(wǎng)站排名數(shù)值大于100萬(wàn)，則執(zhí)行步驟S20；否則，則執(zhí)行步驟S103；

步驟S103，檢測(cè)網(wǎng)站流量排名數(shù)值是否大于10萬(wàn)，若獲得的網(wǎng)站排名數(shù)值大于10萬(wàn)，則執(zhí)行步驟S30；若獲得的網(wǎng)站排名數(shù)值小于10萬(wàn)，則執(zhí)行步驟S40；

上述步驟S102，S103中網(wǎng)站流量排名數(shù)值是通過(guò)Alexa排名檢測(cè)得到，Alexa排名是指網(wǎng)站的世界排名，是一種較為權(quán)威的網(wǎng)站訪問(wèn)量評(píng)價(jià)指標(biāo)，Alexa每三個(gè)月公布一次新的網(wǎng)站綜合排名。此排名的依據(jù)是用戶鏈接數(shù)（Users Reach）和頁(yè)面瀏覽數(shù)（Page Views）三個(gè)月累積的幾何平均值。Alexa排名可以較好的說(shuō)明的網(wǎng)站在互聯(lián)網(wǎng)中的用戶訪問(wèn)情況，對(duì)于網(wǎng)站頁(yè)面內(nèi)容而言訪問(wèn)量可以間接可以體現(xiàn)一個(gè)網(wǎng)站的安全性。

根據(jù)待所提取的網(wǎng)站域名獲取Alexa排名值。提取域名部分，例如，當(dāng)網(wǎng)站的URL為：http://www.boc.cn/fimarkets/fund/201603/t20160322_6581374.html，對(duì)應(yīng)的域名則為 boc.cn ，通過(guò)獲取的Alexa用戶接口API查詢其Alexa排名：http://data.alexa.com/data/+wQ411en8000lAcli=10&dat=snba&ver=7.0&cdt=alx_vw=20&wid=12206&act=00000000000&ss=1680x1050&bw=964&t=0&ttl=35371&vis=1&rq=4&url=TargetURL，使用腳本程序每次檢測(cè)將其中的TargetURL替換為要檢測(cè)的網(wǎng)站域名，例如http://www.boc.cn 根據(jù)其返回值中的<REACH RANK="1957"/>可提取出其全球排名值為1957，如果返回的結(jié)果為空，則表示網(wǎng)站創(chuàng)建時(shí)間較短或未收錄，仍屬于檢測(cè)網(wǎng)站流量排名數(shù)值大于100萬(wàn)的情況；

若待檢測(cè)網(wǎng)站的統(tǒng)一資源定位符URL為IP地址形式，例如103.42.31.55，則同樣認(rèn)為其不安全，也按檢測(cè)網(wǎng)站流量排名數(shù)值大于100萬(wàn)的情況處理。

步驟S20，通過(guò)獲取的統(tǒng)一資源定位符URL經(jīng)過(guò)檢測(cè)域名是否匹配和檢測(cè)網(wǎng)站標(biāo)題、檢測(cè)網(wǎng)站頁(yè)面內(nèi)容、檢測(cè)網(wǎng)站DOM文檔對(duì)象模型、檢測(cè)頁(yè)面圖片中存在的欺詐信息，計(jì)算安全系數(shù)，返回安全系數(shù)的結(jié)果與所設(shè)定排名數(shù)值大于100萬(wàn)的閾值比較，將待檢測(cè)網(wǎng)站分為欺詐網(wǎng)站和可信網(wǎng)站兩類，然后執(zhí)行步驟S50；

步驟S30，通過(guò)檢測(cè)網(wǎng)站頁(yè)面內(nèi)容、檢測(cè)網(wǎng)站DOM文檔對(duì)象模型，計(jì)算安全系數(shù)，返回安全系數(shù)的結(jié)果與所設(shè)定排名數(shù)值10萬(wàn)-100萬(wàn)的閾值比較，將待檢測(cè)網(wǎng)站分為欺詐網(wǎng)站和可信網(wǎng)站兩類，然后執(zhí)行步驟S50；

步驟S40，通過(guò)檢測(cè)網(wǎng)站頁(yè)面內(nèi)容，計(jì)算安全系數(shù)，將返回安全系數(shù)與所設(shè)定的排名數(shù)值小于10萬(wàn)的閾值進(jìn)行比較，將待檢測(cè)網(wǎng)站分為欺詐網(wǎng)站和可信網(wǎng)站兩類，然后執(zhí)行步驟S50；

步驟S50，根據(jù)識(shí)別的結(jié)果更新網(wǎng)站數(shù)據(jù)庫(kù)；

步驟S60，程序結(jié)束。

如圖2所示，在步驟S20中，在網(wǎng)站流量排名數(shù)值大于100萬(wàn)的情況下，判斷待檢測(cè)網(wǎng)站的步驟如下：

步驟S201，檢測(cè)網(wǎng)站域名與中網(wǎng)可信網(wǎng)站匹配和檢測(cè)網(wǎng)站標(biāo)題得到第一影響因子I1；

本步驟中，獲取待檢測(cè)網(wǎng)站域名和網(wǎng)站標(biāo)題，針對(duì)網(wǎng)站域名，利用中網(wǎng)可信網(wǎng)站查詢接口查詢?cè)撚蛎鶕?jù)返回結(jié)果與待檢測(cè)網(wǎng)站域名是否對(duì)應(yīng)確定網(wǎng)站是否可信；如果網(wǎng)站域名為網(wǎng)站可信，則將第一影響因子I1暫時(shí)置為0；若返回網(wǎng)站不可信，則將第一影響因子I1暫時(shí)置為1；再檢測(cè)網(wǎng)站標(biāo)題，網(wǎng)站標(biāo)題中若存在敏感關(guān)鍵詞，則將第一影響因子I1置2；若網(wǎng)站標(biāo)題中不含有敏感關(guān)鍵詞，則影響因子I1保持為剛才得到的數(shù)值1或0。

所述中網(wǎng)可信網(wǎng)站查詢接口為http://t.knet.cn所提供網(wǎng)站可信度查詢用戶接口函數(shù)，通過(guò)提交所需查詢網(wǎng)站域名，返回網(wǎng)站的備案信息。獲取網(wǎng)頁(yè)源代碼，獲取方法例如在linux下就可以使用curl http://www.xx.com/1.html來(lái)獲得。利用正則表達(dá)式匹配獲取網(wǎng)站源代碼中<title></title>部分中的字符串為網(wǎng)站標(biāo)題，通過(guò)中網(wǎng)可信網(wǎng)站查詢接口來(lái)查詢?cè)揢RL對(duì)應(yīng)域名的可信度。若查詢無(wú)返回結(jié)果,則認(rèn)為該網(wǎng)站可疑，存在虛假詐騙欺詐網(wǎng)站的可能；若返回結(jié)果備案信息為表示為官方網(wǎng)站,則可以認(rèn)為是安全網(wǎng)站。根據(jù)返回的結(jié)果是否為官網(wǎng)且備案將第一影響因子I1暫時(shí)置為1或0；同時(shí)對(duì)網(wǎng)站標(biāo)題做基于敏感關(guān)鍵詞的正則表達(dá)式匹配，若在待檢測(cè)的網(wǎng)站標(biāo)題中存在如“娛樂(lè)城”、“好消息”、“積分兌換”等敏感關(guān)鍵詞，則認(rèn)為該網(wǎng)站頁(yè)面內(nèi)容可能遭惡意篡改，則將影響因子I1置2，若網(wǎng)站標(biāo)題中不含有敏感關(guān)鍵詞，則影響因子I1的值為剛檢測(cè)過(guò)后確定的值1或0。

步驟S202，獲取所述URL對(duì)應(yīng)網(wǎng)站頁(yè)面的內(nèi)容，對(duì)頁(yè)面內(nèi)容做敏感關(guān)鍵詞及含有通配符的混淆敏感關(guān)鍵詞匹配，根據(jù)頁(yè)面含有敏感關(guān)鍵詞和混淆敏感關(guān)鍵詞的數(shù)量，將第二影響因子I2置為2,1或0；

所述敏感關(guān)鍵詞匹配的方法為：獲取頁(yè)面內(nèi)容，對(duì)源代碼中的Unicode編碼為中文字符的通過(guò)正則匹配編碼提取出來(lái)，對(duì)提取出的詞匯做分詞處理，所述分詞算法為較為常用的基于字符串匹配的算法，使用其雙向最大匹配法，雙向最大匹配法為正向最大匹配算法和逆向最大匹配算法進(jìn)行綜合得到的；

正向最大匹配算法為：進(jìn)行對(duì)字符由左到右、由右到左兩次掃描取得待切分語(yǔ)句中的最大4個(gè)字符，使用增加欺詐網(wǎng)站敏感關(guān)鍵詞匯的大機(jī)器字典進(jìn)行匹配，若匹配成功則將這個(gè)匹配的到的字符串作為一個(gè)詞匯切分出來(lái)，若匹配不成功，則將這個(gè)匹配字符串的前面一個(gè)詞去掉，剩下作為新的字符串繼續(xù)匹配，直到換分出所有的詞為止；逆向最大匹配算法為正向最大匹配的逆向算法，具體方法類似；所述大機(jī)器字典可在各大開(kāi)源社區(qū)獲得，具體的字典內(nèi)容不受本發(fā)明限制；

對(duì)得到分詞后的網(wǎng)頁(yè)分詞字典進(jìn)行字符串匹配，匹配的關(guān)鍵詞為“中獎(jiǎng)”、“贈(zèng)送”、“老虎機(jī)”，“獲獎(jiǎng)”，“積分兌換”等，同時(shí)為了應(yīng)對(duì)欺詐網(wǎng)站中的“中。獎(jiǎng)”、“場(chǎng)外a幸運(yùn)”“觀眾”、“真人真錢”等避免關(guān)鍵詞檢測(cè)的情況，在關(guān)鍵詞報(bào)警數(shù)據(jù)庫(kù)中加入“中*獎(jiǎng)”、“賬*號(hào)”等含有通配符形式的字符串，進(jìn)行混淆關(guān)鍵詞匹配。當(dāng)頁(yè)面中的敏感關(guān)鍵詞數(shù)量少于關(guān)鍵詞報(bào)警閾值時(shí)，第二影響因子I2置0；當(dāng)頁(yè)面中的敏感關(guān)鍵詞數(shù)量大于關(guān)鍵詞報(bào)警閾值時(shí)，則將第二影響因子I2置1；若含有混淆敏感關(guān)鍵詞的數(shù)量大于混淆關(guān)鍵詞報(bào)警閾值，則將第二影響因子I2置2。

步驟S203，獲取網(wǎng)站頁(yè)面訪問(wèn)頁(yè)面的源代碼，利用正則表達(dá)式提取出DOM文檔對(duì)象模型中的所有站外信息，將提取出的非本域名的URL進(jìn)行網(wǎng)站流量排名檢測(cè)，當(dāng)排名數(shù)值超過(guò)100萬(wàn)的URL數(shù)量占提取出的總的URL的比例超過(guò)站外URL比例閾值時(shí)，將第三影響因子I3置1，否則置0。所謂站外URL是指本頁(yè)面中指向非本頁(yè)面資源的URL；檢測(cè)頁(yè)面中所含有的信息輸入框的數(shù)量及對(duì)應(yīng)的名稱，若含有信息輸入框，同時(shí)信息輸入框的名稱為敏感關(guān)鍵詞，則將第四影響因子I4置1，否則置0；

本步驟中，通過(guò)獲取的網(wǎng)站頁(yè)面的源代碼，提取出頁(yè)面中所有的鏈接信息，以及頁(yè)面中是否含有用戶輸入信息的輸入框及含有的輸入框的數(shù)量和輸入框的名稱。具體為，獲取頁(yè)面中所有的鏈接，使用正則表達(dá)式提取<a href=””></a>中所有的“http://xxx.xxx.xxx”信息，并將獲取的URL使用Alexa排名檢測(cè)模塊查看其全球排名，如果排名大于100萬(wàn)的域名超過(guò)站外URL比例閾值，則將第三影響因子I3置1。同時(shí)獲取頁(yè)面內(nèi)所有的表單信息，提取頁(yè)面中所有的<form></form>代碼，若沒(méi)有<form></form>代碼，則表示不含有用戶輸入信息部分；若含有該部分代碼，則表示網(wǎng)站有需要用戶提交數(shù)據(jù)的區(qū)域，接下來(lái)進(jìn)一步檢測(cè)<form></form>代碼中是否含有敏感關(guān)鍵詞，比如“姓名”、“手機(jī)號(hào)”、“身份證號(hào)”、“銀行卡號(hào)”、“賬號(hào)”、“密碼”等詞，若含有，則表示頁(yè)面需要用戶提交個(gè)人隱私信息，可能含有欺詐風(fēng)險(xiǎn)，則將第四影響因子I4置1。

步驟S204，獲取網(wǎng)站頁(yè)面中所有的圖片URL，調(diào)用網(wǎng)易易盾的圖片檢測(cè)接口函數(shù)，傳入頁(yè)面中所有圖片的地址，根據(jù)返回?cái)?shù)據(jù)中的分類信息得到頁(yè)面圖片中含有的廣告和欺詐類型圖片的比例，該值與頁(yè)面非法圖片比例閾值相比較，超過(guò)該閾值則將第五影響因子I5置1，否則置0；

所述獲取圖片的URL地址，為使用正則表達(dá)式匹配并提取頁(yè)面中所有含有 .jpg |.bmp|.png等格式的鏈接；所述網(wǎng)易易盾圖片檢測(cè)服務(wù)，利用正則表達(dá)式獲取待檢測(cè)網(wǎng)站中的所有圖片的URL，使用網(wǎng)易易盾提供的圖片檢測(cè)服務(wù)，接口函數(shù)調(diào)用地址：https://api.aq.163.com/v2/image/check，利用程序在代碼中的imageurl處的“name”及“data”參數(shù)處自動(dòng)添加網(wǎng)頁(yè)中圖片的地址，根據(jù)返回的數(shù)據(jù)中的result參數(shù)中的label分類信息：100：色情，200：廣告，300：暴恐，400：違禁，500：涉政，來(lái)判斷頁(yè)面中的涉及的五種類型的圖片的數(shù)量，涉嫌五種情況的圖片數(shù)量與總圖片數(shù)目的比值，定為欺詐類型圖片的比例。

步驟S205，根據(jù)獲得的五個(gè)影響因子，加權(quán)求和得到安全系數(shù)；

步驟S206，將步驟S205計(jì)算得到的安全系數(shù)與排名數(shù)值大于100萬(wàn)安全閾值相比較，把待檢測(cè)網(wǎng)站分為欺詐網(wǎng)站和可信網(wǎng)站兩類。

如圖3所示，在步驟S30中，網(wǎng)站流量排名數(shù)值在10-100萬(wàn)之間的情況下，判斷待檢測(cè)網(wǎng)站的步驟如下：

步驟S301，獲取所述URL對(duì)應(yīng)網(wǎng)站頁(yè)面的內(nèi)容，對(duì)頁(yè)面內(nèi)容做敏感關(guān)鍵詞及含有通配符的混淆敏感關(guān)鍵詞匹配，根據(jù)頁(yè)面含有敏感關(guān)鍵詞和混淆敏感關(guān)鍵詞的數(shù)量，將第二影響因子I2置為2,1或0；

本步驟中與步驟S202相同。

步驟S302，獲取網(wǎng)站頁(yè)面訪問(wèn)頁(yè)面的源代碼，利用正則表達(dá)式提取出DOM文檔對(duì)象模型中的所有站外信息，將提取出的非本域名的URL進(jìn)行網(wǎng)站流量排名檢測(cè)，當(dāng)排名數(shù)值超過(guò)100萬(wàn)的URL數(shù)量占提取出的總的URL的比例超過(guò)站外URL比例閾值時(shí)，第三影響因子I3置1，否則置0。檢測(cè)頁(yè)面中所含有的信息輸入框的數(shù)量及對(duì)應(yīng)的名稱，若含有信息輸入框，同時(shí)信息輸入框的名稱為敏感關(guān)鍵詞，則將第四影響因子I4置1，否則置0；

本步驟與步驟S203相同。

步驟S303，根據(jù)步驟S301所得的第二影響因子I2和步驟S302所得的第三影響因子I3、第四影響因子I4，加權(quán)求和得到安全系數(shù)；

步驟S304，將步驟S303計(jì)算得到的安全系數(shù)與排名數(shù)值10萬(wàn)-100萬(wàn)安全閾值相比較，把待檢測(cè)網(wǎng)站分為欺詐網(wǎng)站和可信網(wǎng)站兩類。

如圖4所示，在步驟S40中，網(wǎng)站流量排名數(shù)值小于10萬(wàn)的情況下，判斷待檢測(cè)網(wǎng)站的步驟如下：

步驟S401，獲取所述URL對(duì)應(yīng)網(wǎng)站頁(yè)面的內(nèi)容，對(duì)頁(yè)面內(nèi)容做敏感關(guān)鍵詞及含有通配符的混淆敏感關(guān)鍵詞匹配，根據(jù)頁(yè)面含有敏感關(guān)鍵詞和混淆敏感關(guān)鍵詞的數(shù)量，將第二影響因子I2置為2,1或0；

本步驟中與步驟S202相同。

步驟S402，將步驟S401計(jì)算得到的第二影響因子I2加權(quán)計(jì)算后作為安全系數(shù)；

步驟S403，將步驟S402計(jì)算得到的安全系數(shù)與排名數(shù)值小于10萬(wàn)的安全閾值相比較，把待檢測(cè)網(wǎng)站分為欺詐網(wǎng)站和可信網(wǎng)站兩類。

本發(fā)明中的閾值和權(quán)重由每個(gè)閾值的判定模型決定，它們的具體值需要經(jīng)過(guò)大量欺詐網(wǎng)站和正常網(wǎng)站樣本的統(tǒng)計(jì)獲得：

所述關(guān)鍵詞報(bào)警閾值為，通過(guò)將頁(yè)面的源代碼中的中文字符提取出來(lái)，提取原則為匹配Unicode編碼為“\u4e00-\u9fa5”的中文字符，然后對(duì)提取出的字符串做分詞處理，所述分詞算法為較為常用的基于字符串匹配的算法，使用其雙向最大匹配法，進(jìn)行對(duì)字符由左到右、由右到左兩次掃描，得到分詞后的網(wǎng)頁(yè)分詞字典。對(duì)得到的網(wǎng)頁(yè)分詞字典做字符串匹配。本發(fā)明中根據(jù)樣本的計(jì)算結(jié)果將關(guān)鍵詞報(bào)警閾值中的敏感關(guān)鍵詞比例設(shè)定為10%，將混淆敏感關(guān)鍵詞的比例設(shè)定為5%。

所述站外URL比例閾值為，通過(guò)獲取的頁(yè)面源代碼，利用正則表達(dá)式匹配提取出所有的URL鏈接信息，對(duì)所得的URL做提取出其中的域名，并去掉重復(fù)和自身的域名和html代碼頭部的http://www.w3.org，對(duì)所得到的域名做Alexa的網(wǎng)站排名查詢。通過(guò)樣本分析統(tǒng)計(jì)，本發(fā)明中將站外URL比例閾值設(shè)為30%。

所述頁(yè)面非法圖片比例閾值為，通過(guò)比較涉嫌欺詐信息的圖片數(shù)目與總的圖片數(shù)目得到的臨界值，通過(guò)樣本分析統(tǒng)計(jì)，本發(fā)明中將頁(yè)面非法圖片比例閾值設(shè)為30%。

所述排名數(shù)值大于100萬(wàn)閾值為2，排名數(shù)值10萬(wàn)-100萬(wàn)閾值為2，排名數(shù)值小于10萬(wàn)閾值為1。當(dāng)檢測(cè)過(guò)程返回的安全系數(shù)的結(jié)果大于閾值時(shí)，則表明網(wǎng)站可能存在潛在風(fēng)險(xiǎn)。

根據(jù)待檢測(cè)網(wǎng)站的各個(gè)檢測(cè)分支的影響因子，對(duì)待檢測(cè)網(wǎng)站的安全系數(shù)的計(jì)算包括具體包括：所述第一影響因子I1、第二影響因子I2、第三影響因子I3、第四影響因子I4和第五影響因子I5 分配對(duì)應(yīng)的權(quán)重，獲取第一影響因子I1、第二影響因子I2、第三影響因子I3、第四影響因子I4和第五影響因子I5與對(duì)應(yīng)權(quán)重乘積的累加值；若所述求得累加值大于預(yù)設(shè)欺詐網(wǎng)站判斷閾值，則判定所述待檢測(cè)網(wǎng)站為欺詐網(wǎng)站。

具體地，例如為第一影響因子I1分配第一權(quán)重值 w1、為第二影響因子I2分配第二權(quán)重值 w2、為第三影響因子I3 分配第三權(quán)重值 w3、為第四影響因子I4 分配第四權(quán)重值 w4、為第五影響因子I5分配第五權(quán)重值 w5，則該影響因子的累加值為 w1×I1+w2×I2+w3×I3+w4×I4+ w5×I5。將該特征累加值與一個(gè)預(yù)設(shè)閾值相比較，若得到的該特征累加值大于預(yù)設(shè)閾值，則判定所述待檢測(cè)網(wǎng)站為可能存在欺詐信息的欺詐網(wǎng)站等，若小于或等于預(yù)設(shè)閾值，則判定所述待檢測(cè)網(wǎng)站不為欺詐網(wǎng)站。

其中，第一權(quán)重值 w1、第二權(quán)重值 w2、第三權(quán)重值 w3、第四權(quán)重值 w4、第五權(quán)重值 w5均大于0且小于等于 1，且第一權(quán)重值w1、第二權(quán)重值 w2、第三權(quán)重值w3、第四權(quán)重值 w4、第五權(quán)重值 w5以及各個(gè)參數(shù)比較所預(yù)設(shè)閾值均由數(shù)值判定模型提供。在本實(shí)施例中，各影響因子的所有權(quán)重定為1。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉岳;劉劍峰;盛杰;尹成語(yǔ);楊吉云
技術(shù)所有人：重慶大學(xué)
我是此專利的發(fā)明人

上一篇：保持力測(cè)量裝置以及保持力測(cè)量方法與流程
上一篇：移動(dòng)終端及垃圾文件搜索方法與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

一種香菇外形檢測(cè)方法相關(guān)技術(shù)

一種呼吸檢測(cè)方法相關(guān)技術(shù)

一種檢測(cè)方法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種欺詐網(wǎng)站的檢測(cè)方法與流程