一種網(wǎng)站分類方法
【專利摘要】本發(fā)明公開(kāi)了一種網(wǎng)站分類方法,包括:獲取網(wǎng)站的多維屬性,利用集合對(duì)多維屬性進(jìn)行表示;針對(duì)表示多維屬性的集合,進(jìn)行自編碼特征學(xué)習(xí);利用自編碼學(xué)習(xí)結(jié)果,進(jìn)行網(wǎng)站聚類學(xué)習(xí),得到用于進(jìn)行網(wǎng)站分類的支持向量機(jī)SVM;步驟S104,對(duì)任意一個(gè)未經(jīng)標(biāo)注的網(wǎng)站進(jìn)行分類時(shí),先進(jìn)行步驟S101和步驟S102,得到與該網(wǎng)站對(duì)應(yīng)的自編碼學(xué)習(xí)結(jié)果;然后將該結(jié)構(gòu)輸入到步驟S103得到的SVM中,進(jìn)行網(wǎng)站分類,得到網(wǎng)站的類別。本發(fā)明的網(wǎng)站分類方法能高效準(zhǔn)確的按照行業(yè)類別對(duì)網(wǎng)站進(jìn)行分類,并且能快速偵測(cè)具有惡意特征的釣魚網(wǎng)頁(yè);采用多維屬性描述的方式,增加系統(tǒng)的便利性與通用性;且系統(tǒng)具有極強(qiáng)的穩(wěn)定性。
【專利說(shuō)明】一種網(wǎng)站分類方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)絡(luò)安全【技術(shù)領(lǐng)域】,特別是涉及一種網(wǎng)站分類方法。
【背景技術(shù)】
[0002]伴隨著互聯(lián)網(wǎng)產(chǎn)業(yè)的蓬勃發(fā)展,釣魚欺詐、木馬暗鏈和隱私泄露等網(wǎng)絡(luò)安全事件頻發(fā),對(duì)網(wǎng)絡(luò)用戶造成了嚴(yán)重的財(cái)產(chǎn)、精神傷害。如何能夠快速智能的識(shí)別釣魚網(wǎng)站,以及針對(duì)不同類型網(wǎng)站給出合適的隱私保護(hù)等級(jí),成為當(dāng)前安全領(lǐng)域研究的熱點(diǎn)。這就需要一種智能準(zhǔn)確的網(wǎng)站分類的技術(shù)來(lái)處理海量互聯(lián)網(wǎng)網(wǎng)站。
[0003]目前,對(duì)于網(wǎng)站分類技術(shù),國(guó)內(nèi)外的研究并不算很廣泛,而且分析中使用的網(wǎng)站特征描述較為單一??傮w而言,主要有如下幾個(gè)研究方向:(I)基于網(wǎng)頁(yè)文本。John Pierre最早提出將整個(gè)網(wǎng)站上網(wǎng)頁(yè)的文字或標(biāo)簽集合為一個(gè)整體構(gòu)造空間向量,利用文本分類的方法進(jìn)行分類,實(shí)驗(yàn)結(jié)果并不理想。(2)基于網(wǎng)站結(jié)構(gòu)。Hans-Peter Kriegel等人利用網(wǎng)站中各類類別網(wǎng)頁(yè)的出現(xiàn)頻率來(lái)進(jìn)行網(wǎng)站分類,Majid Yazdani等人在此基礎(chǔ)上提出了隱馬爾科夫的模型。這類網(wǎng)站分類模型特別適用單個(gè)類別網(wǎng)站的選取和判斷。(3)基于用戶HTTP行為分析。這一方法繞開(kāi)了網(wǎng)頁(yè)本身的處理,利用HTTP協(xié)議的行為來(lái)處理網(wǎng)站分類問(wèn)題。在網(wǎng)站分類的類別劃分上,還沒(méi)有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)。但是,用戶在同一類別網(wǎng)站上的業(yè)務(wù)使用過(guò)程是類似的,而且針對(duì)釣魚網(wǎng)站之間也具有較強(qiáng)相似性。目前,最大的國(guó)際性人工網(wǎng)站分類目錄是Open Directory P roject,其中包含部分中文網(wǎng)站。就英文網(wǎng)站分類目錄而言,Yahoo !Directory和Alexa是比較著名的。
[0004]深度學(xué)習(xí)(Deep Learning)是最近興起的一種新的機(jī)器學(xué)習(xí)模型,其能夠得到更好地表示復(fù)雜數(shù)據(jù)的特征,同時(shí)由于模型的層次、參數(shù)很多,效率足夠,因此,深度學(xué)習(xí)模型有能力表示類型互聯(lián)網(wǎng)網(wǎng)站這樣大規(guī)模數(shù)據(jù),能夠在大規(guī)模訓(xùn)練數(shù)據(jù)上取得更好的效果。此外,從模式識(shí)別特征和分類器的角度,深度學(xué)習(xí)框架將特征選取和分類器結(jié)合到一個(gè)框架中,用數(shù)據(jù)去學(xué)習(xí)特征,在使用中減少了手工選取特征的巨大工作量(這是目前工業(yè)界工程師付出努力最多的方面),因此,不僅僅效果可以更好,而且,使用起來(lái)也有很多方便之處,因此,是十分合適的一套解決方案框架,
[0005]自編碼(AutoEncoder)方法是深度學(xué)習(xí)方法中最常用的一種算法。該算法通過(guò)設(shè)置一個(gè)神經(jīng)網(wǎng)絡(luò)的輸出層矢量等于輸入矢量,并使隱層神經(jīng)元的數(shù)量少于輸入層,然后訓(xùn)練調(diào)整其參數(shù),得到每一層中的權(quán)重。訓(xùn)練好的網(wǎng)絡(luò)在隱層即為輸入特征向量的壓縮表示方法。這些壓縮后的特征在解決分類問(wèn)題時(shí)有較好的效果。
【發(fā)明內(nèi)容】
[0006]本發(fā)明要解決的技術(shù)問(wèn)題是提供一種網(wǎng)站分類方法,用以解決現(xiàn)有技術(shù)中網(wǎng)站分類效果不佳的問(wèn)題。
[0007]為解決上述技術(shù)問(wèn)題,本發(fā)明提供一種網(wǎng)站分類方法,包括:
[0008]步驟S101,獲取網(wǎng)站的多維屬性,利用集合對(duì)多維屬性進(jìn)行表示;[0009]步驟S102,針對(duì)表示多維屬性的集合,進(jìn)行自編碼特征學(xué)習(xí);
[0010]步驟S103,利用自編碼學(xué)習(xí)結(jié)果,進(jìn)行網(wǎng)站聚類學(xué)習(xí),得到用于進(jìn)行網(wǎng)站分類的支持向量機(jī)SVM ;
[0011]步驟S104,對(duì)任意一個(gè)未經(jīng)標(biāo)注的網(wǎng)站進(jìn)行分類時(shí),先進(jìn)行步驟SlOl和步驟S102,得到與該網(wǎng)站對(duì)應(yīng)的自編碼學(xué)習(xí)結(jié)果;然后將與該網(wǎng)站對(duì)應(yīng)的自編碼學(xué)習(xí)結(jié)果輸入至IJ步驟S103得到的用于進(jìn)行網(wǎng)站分類的支持向量機(jī)SVM中,進(jìn)行網(wǎng)站分類,得到網(wǎng)站的類別。
[0012]進(jìn)一步,步驟SlOl具體包括:
[0013]步驟SlOl I,提取網(wǎng)站首頁(yè)超文本標(biāo)記語(yǔ)言HTML標(biāo)題、HTML正文和層疊樣式表CSS主題色彩;
[0014]步驟S1012,對(duì)所述HTML標(biāo)題和HTML正文進(jìn)行分詞處理,得到單詞向量集合B= (W1, W2,..., wj , η 為正整數(shù);
[0015]步驟S1013,對(duì)每一個(gè)在向量B的單詞Wi,統(tǒng)計(jì)其在網(wǎng)頁(yè)HTML的標(biāo)簽<a>、〈hl>-〈h6>、〈title>、〈em>、〈strong>中出現(xiàn)的次數(shù),按出現(xiàn)的次數(shù)加權(quán)后排名,得到排名后新單詞向量集合B’ ={w’ uw,2,...,ψ,J ;其中i=l, 2,......, η邱為正整數(shù),m〈=n ;
[0016]步驟S1014,統(tǒng)計(jì)所述CSS主題色彩中使用最多的3種顏色類別,得到色彩向量描述集合 c, C=Ic1, C2, C3I ;
[0017]步驟S1015,獲取屬性值,建立屬性描述集合S ;其中,屬性值包括下述中的一項(xiàng)或多項(xiàng):網(wǎng)站服務(wù)器類型、Poweredby信息(驅(qū)動(dòng)信息)、腳本語(yǔ)言類型、返回狀態(tài)碼、跳轉(zhuǎn)次數(shù)、網(wǎng)站出處、外域個(gè)數(shù)、內(nèi)域個(gè)數(shù)和頁(yè)面大?。?br>
[0018]步驟S1016,根據(jù)集合B’、C和S,建立網(wǎng)站多維屬性樣本集合V,V=B’ U C U S ;其中U表示并集。
[0019]進(jìn)一步,步驟S102具體包括:
[0020]步驟S1021,構(gòu)建三層神經(jīng)網(wǎng)絡(luò)N,其輸入特征數(shù)量等于輸出數(shù)量,并且輸入特征數(shù)量等于步驟S1016中得到網(wǎng)站多維屬性集合V的特征數(shù)量;
[0021]步驟S1022,用網(wǎng)站多維屬性集合V作為三層神經(jīng)網(wǎng)絡(luò)N的輸入值Input,計(jì)算當(dāng)前三層神經(jīng)網(wǎng)絡(luò)環(huán)境下的輸出值Output ;
[0022]步驟S1023,比較輸入值Input與輸出值Output,計(jì)算二之差是否達(dá)到目標(biāo)閾值;如果是,則轉(zhuǎn)步驟S1025,如果否,則轉(zhuǎn)步驟S1024 ;
[0023]步驟S1024,根據(jù)梯度下降法調(diào)整三層神經(jīng)網(wǎng)絡(luò)N的參數(shù),并返回到步驟S1022 ;
[0024]步驟S1025,完成學(xué)習(xí),中間隱層節(jié)點(diǎn)向量V’即為自編碼學(xué)習(xí)結(jié)果。
[0025]進(jìn)一步,步驟S103具體包括:
[0026]步驟S1031,構(gòu)建支持向量機(jī)SVM,使用向量V’作為輸入;
[0027]步驟S1032,利用開(kāi)源數(shù)據(jù)庫(kù),標(biāo)記設(shè)定數(shù)量的樣本網(wǎng)站的行業(yè)類別,得到已標(biāo)注樣本集L ;
[0028]步驟S1033,利用SVM對(duì)已標(biāo)注樣本集L中的標(biāo)記數(shù)據(jù)樣本進(jìn)行訓(xùn)練與學(xué)習(xí);判斷該SVM的分類結(jié)果是否滿足設(shè)定要求,如果是,則以該SVM作為進(jìn)行分類的SVM ;如果否,則修改SVM的參數(shù),然后對(duì)該SVM繼續(xù)進(jìn)行訓(xùn)練和學(xué)習(xí),通過(guò)迭代訓(xùn)練,直至其分類結(jié)果滿足設(shè)定要求,則以最終得到SVM作為進(jìn)行分類的SVM。[0029]本發(fā)明有益效果如下:
[0030]本發(fā)明的網(wǎng)站分類方法,能高效準(zhǔn)確的按照行業(yè)類別對(duì)網(wǎng)站進(jìn)行分類,并且對(duì)于具有惡意特征的釣魚網(wǎng)頁(yè),能快速偵測(cè)出來(lái);采用多維屬性描述的方式,增加系統(tǒng)的便利性與通用性;采用機(jī)器學(xué)習(xí)的方法,并且采樣的樣本較為廣泛,系統(tǒng)具有極強(qiáng)的穩(wěn)定性。
【專利附圖】
【附圖說(shuō)明】
[0031]圖1是本發(fā)明實(shí)施例中一種網(wǎng)站分類方法的流程圖;
[0032]圖2是本發(fā)明實(shí)施例中三層神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)示意圖;
[0033]圖3是本發(fā)明實(shí)施例中進(jìn)行網(wǎng)站聚類學(xué)習(xí)及網(wǎng)站分類的流程圖;
[0034]圖4是本發(fā)明實(shí)施例中一個(gè)建立網(wǎng)站多維描述與聚集分類的示意圖。
【具體實(shí)施方式】[0035]以下結(jié)合附圖以及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不限定本發(fā)明。
[0036]如圖1所示,本發(fā)明實(shí)施例涉及一種基于自編碼深度學(xué)習(xí)模型的網(wǎng)站分類方法,包括以下步驟:
[0037]步驟S101,獲取網(wǎng)站的多維屬性,利用集合對(duì)多維屬性進(jìn)行表示:
[0038]本步驟具體包括以下步驟:
[0039]步驟S1011,對(duì)網(wǎng)站首頁(yè)進(jìn)行HTML (HyperText Markup Language,超文本標(biāo)記語(yǔ)言)處理,提取出首頁(yè)HTML標(biāo)題、HTML正文和CSS (Cascading Style Sheets,層疊樣式表)主題色彩;
[0040]步驟S1012,對(duì)步驟SlOll獲得的HTML標(biāo)題和HTML正文進(jìn)行分詞處理,按照出現(xiàn)頻率由高到底統(tǒng)計(jì)預(yù)定比例(例如,前50%)的所有名詞,并得到單詞向量B= Iw1, w2,- ,wn},η為正整數(shù);
[0041]步驟S1013,對(duì)每一個(gè)在向量B的單詞Wi,統(tǒng)計(jì)其在網(wǎng)頁(yè)HTML的標(biāo)簽<a>、〈hl>-〈h6>、〈title>、〈em>、〈strong>中出現(xiàn)的次數(shù),按出現(xiàn)的次數(shù)加權(quán)后排名,得到排名后新單詞向量B’ ={w’ !, w’ 2,…,w’ J , m為正整數(shù),m〈=n ;
[0042]步驟S1014,對(duì)步驟SlOll獲得的CSS主題色彩統(tǒng)計(jì)使用最多的3種顏色類別,得到色彩向量描述集合c, C=Ic1, C2, C3I ;
[0043]步驟S1015,收集網(wǎng)站服務(wù)器類型、Poweredby信息(驅(qū)動(dòng)信息)、腳本語(yǔ)言類型、返回狀態(tài)碼、跳轉(zhuǎn)次數(shù)、網(wǎng)站出處、外域個(gè)數(shù)、內(nèi)域個(gè)數(shù)和頁(yè)面大小這些屬性值,建立屬性描述集合S ;
[0044]步驟S1016,綜合步驟S1013、步驟S1014和步驟S1015步得到的向量B,,C,S,建
立網(wǎng)站多維屬性樣本集合V,V=B’ UCU S= Iv1, V2,…,vk},k為正整數(shù);U表示并集。
[0045]步驟S102,針對(duì)表示多維屬性的集合,進(jìn)行自編碼特征學(xué)習(xí)。
[0046]本步驟具體包括以下步驟:
[0047]步驟S1021,構(gòu)建一個(gè)如圖2所示的三層神經(jīng)網(wǎng)絡(luò)N,輸入特征數(shù)量等于輸出數(shù)量,并且輸入特征數(shù)量等于步驟S1016中得到網(wǎng)站多維屬性集合V的特征數(shù)量;
[0048]步驟S1022,用樣本集合V作為三層神經(jīng)網(wǎng)絡(luò)N的輸入值Input,計(jì)算當(dāng)前三層神經(jīng)網(wǎng)絡(luò)環(huán)境下的輸出值Output ;
[0049]步驟S1023,比較輸入值Input與輸出值Output,計(jì)算二之差是否達(dá)到目標(biāo)閾值;如果是,則轉(zhuǎn)步驟S1025,如果否,則轉(zhuǎn)步驟S1024 ;
[0050]步驟S1024,當(dāng)誤差未達(dá)到目標(biāo)閾值時(shí),則根據(jù)梯度下降法調(diào)整三層神經(jīng)網(wǎng)絡(luò)N的參數(shù),并返回到步驟S1022;
[0051]步驟S1025,當(dāng)誤差達(dá)到閾值時(shí),則表示完成學(xué)習(xí),圖2中,中間隱層節(jié)點(diǎn)向量V’即為自編碼學(xué)習(xí)結(jié)果;
[0052]步驟S103,利用自編碼學(xué)習(xí)結(jié)果,進(jìn)行網(wǎng)站聚類學(xué)習(xí),得到用于進(jìn)行網(wǎng)站分類的支持向量機(jī)SVM。
[0053]如圖3所示,本步驟具體包括:
[0054]步驟S1031,構(gòu)建支持向量機(jī)(SVM),使用向量V’作為輸入;
[0055]步驟S1032,利用開(kāi)源數(shù)據(jù)庫(kù),標(biāo)記設(shè)定數(shù)量的樣本網(wǎng)站的行業(yè)類別,得到已標(biāo)注樣本集L ;設(shè)定數(shù)量通常都是少量的樣本網(wǎng)站;
[0056]步驟S1033,利用SVM對(duì)步驟S1032得到已標(biāo)注樣本集L中的標(biāo)記數(shù)據(jù)樣本進(jìn)行訓(xùn)練與學(xué)習(xí);即用SVM進(jìn)行網(wǎng)站分類,如果其分類結(jié)果滿足設(shè)定要求,則以該SVM作為最終進(jìn)行分類的SVM ;如果該SVM的分類結(jié)果不滿足設(shè)定要求,則修改SVM的參數(shù)后,對(duì)該SVM繼續(xù)進(jìn)行訓(xùn)練和學(xué)習(xí),通過(guò)迭代訓(xùn)練,直至其分類結(jié)果滿足設(shè)定要求,則以最終得到SVM作為最終進(jìn)行分類的SVM。經(jīng)過(guò)上述訓(xùn)練和學(xué)習(xí),最終得到的SVM,就具備了進(jìn)行網(wǎng)站分類的功能,其分類結(jié)果也是準(zhǔn)確可信的。
[0057]例如,標(biāo)注樣本集L是100個(gè)網(wǎng)站(預(yù)先已經(jīng)標(biāo)注網(wǎng)站類別),利用構(gòu)建的SVM進(jìn)行分類,用分類結(jié)果與正確的網(wǎng)站類別進(jìn)行比對(duì),如果分類正確的是50個(gè),錯(cuò)誤的是50個(gè),假設(shè)全部分類正確才符合要求,則該SVM的分類結(jié)果不滿足設(shè)定要求,修改SVM的參數(shù)后,對(duì)該SVM繼續(xù)進(jìn)行訓(xùn)練和學(xué)習(xí),此時(shí),可以補(bǔ)充50個(gè)網(wǎng)站的樣本數(shù)據(jù),重新對(duì)100個(gè)網(wǎng)站進(jìn)行分類;也可以只對(duì)上次分錯(cuò)的50個(gè)樣本網(wǎng)站進(jìn)行分類,只是,此種情況下,需要將預(yù)先設(shè)定的符合要求的閾值與本次分類的總樣本數(shù)據(jù)進(jìn)行對(duì)應(yīng)。修改后的SVM再次進(jìn)行分類,然后判斷其分類結(jié)果是否滿足設(shè)定要求,如果不滿足,則繼續(xù)進(jìn)行迭代訓(xùn)練,直至滿足;如果滿足,則以修改后的SVM作為最終進(jìn)行分類的SVM。
[0058]步驟S104,對(duì)任意一個(gè)未經(jīng)標(biāo)注的網(wǎng)站進(jìn)行分類時(shí),先進(jìn)行步驟SlOl和步驟S102,得到與該網(wǎng)站對(duì)應(yīng)的自編碼學(xué)習(xí)結(jié)果V’ ;然后將與該網(wǎng)站對(duì)應(yīng)的自編碼學(xué)習(xí)結(jié)果V’輸入到步驟S103得到的用于進(jìn)行網(wǎng)站分類的支持向量機(jī)SVM中,進(jìn)行網(wǎng)站分類,得到網(wǎng)站的類別。
[0059]下面,如圖4所示,以實(shí)例具體描述如下:
[0060]( I)網(wǎng)站多維屬性集合表不:
[0061](11)對(duì)優(yōu)酷網(wǎng)站首頁(yè)進(jìn)行HTML處理,提取出首頁(yè)HTML標(biāo)題、HTML正文和CSS主題色彩;
[0062](12)對(duì)(11)獲得的HTML標(biāo)題和HTML正文進(jìn)行分詞處理,統(tǒng)計(jì)出現(xiàn)頻率在前50%的所有名詞,并得到單詞向量B={視頻,播放,更新,排行,熱播,F(xiàn)lash};
[0063](13)對(duì)每一個(gè)在向量B的單詞,統(tǒng)計(jì)在網(wǎng)頁(yè)HTML如下標(biāo)簽<a>、<hl>-〈h6>、〈t i 11 e>、〈em>、〈strong>中出現(xiàn)的次數(shù),按出現(xiàn)的次數(shù)加權(quán)后排名,得到排名后新單詞向量B’ ={視頻,F(xiàn)lash,更新,播放,熱播,排行};
[0064](14)對(duì)(11)獲得的CSS主題色彩統(tǒng)計(jì)使用最多的前3中顏色類別,得到色彩向量描述C={白色,藍(lán)色,灰色};
[0065](15)收集網(wǎng)站服務(wù)器類型,Poweredby信息,腳本語(yǔ)言類型,返回狀態(tài)碼,跳轉(zhuǎn)次數(shù),網(wǎng)站出處,外域和內(nèi)域個(gè)數(shù),頁(yè)面大小這些屬性值,建立屬性描述集合S={Linux,優(yōu)酷網(wǎng),Javascript,202,1,10,500};
[0066](16)綜合(13)、(14)和(15)步得到的向量B’,C,S,建立網(wǎng)站多維屬性樣本集合V, V=B,UCU S={視頻,F(xiàn)lash,更新,…,Javascript, 202,1,10,500}。
[0067](2)自編碼特征學(xué)習(xí):
[0068](21)構(gòu)建一個(gè)如圖2所示三層神經(jīng)網(wǎng)絡(luò)N,輸入特征數(shù)量等于輸出數(shù)量,并且輸入特征數(shù)量等于(16)步中得到建立網(wǎng)站多維屬性集合V特征數(shù)量;
[0069](22)用樣本集合V作為神經(jīng)網(wǎng)絡(luò)N的輸入Input,計(jì)算當(dāng)前神經(jīng)網(wǎng)絡(luò)環(huán)境下的輸出值 Output ;
[0070](23)比較的輸入Input與輸出值Output,計(jì)算誤差是否達(dá)到目標(biāo)閾值;
[0071](24)未達(dá)到閾值,則根據(jù)梯度下降法調(diào)整神經(jīng)網(wǎng)絡(luò)N參數(shù),并返回到步驟(22);
[0072](25)達(dá)到閾值,完成學(xué)習(xí),中間隱層節(jié)點(diǎn)向量V’即為自編碼學(xué)習(xí)結(jié)果;
[0073](3)網(wǎng)站聚類學(xué)習(xí) ,如圖3所示過(guò)程:
[0074](31)構(gòu)建支持向量機(jī)(SVM),使用向量V’作為的輸入;
[0075](32)利用開(kāi)源數(shù)據(jù)庫(kù),標(biāo)記少量樣本網(wǎng)站的行業(yè)類別得到已標(biāo)注樣本集L ;
[0076](33)利用SVM對(duì)(32)步得到的少量標(biāo)記數(shù)據(jù)樣本進(jìn)行訓(xùn)練與學(xué)習(xí);
[0077](34)將(16)步得到的未經(jīng)標(biāo)注的樣本加入到訓(xùn)練所得的初始分類器中進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果與某一類別的余弦距離小于閾值,則代表分類取得的置信度越高;
[0078](35)將置信度較高的文本連同其分類標(biāo)注一起加入到對(duì)應(yīng)類別集中,作為新的訓(xùn)練樣本集進(jìn)行再學(xué)習(xí);
[0079](36)迭代訓(xùn)練,直到所有樣本分類完全為止。
[0080](4)對(duì)于需要進(jìn)行分類的網(wǎng)站,先進(jìn)行步驟(1)、(2),將得到學(xué)習(xí)結(jié)果V’輸入到步驟(3)訓(xùn)練得到的SVM中,進(jìn)行分類,得到網(wǎng)站的類型,網(wǎng)站分類結(jié)束。
[0081]本發(fā)明的網(wǎng)站分類方法能高效準(zhǔn)確的按照行業(yè)類別對(duì)網(wǎng)站進(jìn)行分類,并且對(duì)于具有惡意特征的釣魚網(wǎng)頁(yè),能快速偵測(cè)出來(lái);采用多維屬性描述的方式,增加系統(tǒng)的便利性與通用性;采用機(jī)器學(xué)習(xí)的方法,并且采樣的樣本較為廣泛,系統(tǒng)具有極強(qiáng)的穩(wěn)定性。
[0082]盡管為示例目的,已經(jīng)公開(kāi)了本發(fā)明的優(yōu)選實(shí)施例,本領(lǐng)域的技術(shù)人員將意識(shí)到各種改進(jìn)、增加和取代也是可能的,因此,本發(fā)明的范圍應(yīng)當(dāng)不限于上述實(shí)施例。
【權(quán)利要求】
1.一種網(wǎng)站分類方法,其特征在于,包括: 步驟S101,獲取網(wǎng)站的多維屬性,利用集合對(duì)多維屬性進(jìn)行表示; 步驟S102,針對(duì)表示多維屬性的集合,進(jìn)行自編碼特征學(xué)習(xí); 步驟S103,利用自編碼學(xué)習(xí)結(jié)果,進(jìn)行網(wǎng)站聚類學(xué)習(xí),得到用于進(jìn)行網(wǎng)站分類的支持向量機(jī)SVM ; 步驟S104,對(duì)任意一個(gè)未經(jīng)標(biāo)注的網(wǎng)站進(jìn)行分類時(shí),先進(jìn)行步驟SlOl和步驟S102,得到與該網(wǎng)站對(duì)應(yīng)的自編碼學(xué)習(xí)結(jié)果;然后將與該網(wǎng)站對(duì)應(yīng)的自編碼學(xué)習(xí)結(jié)果輸入到步驟S103得到的用于進(jìn)行網(wǎng)站分類的支持向量機(jī)SVM中,進(jìn)行網(wǎng)站分類,得到網(wǎng)站的類別。
2.如權(quán)利要求1所述的網(wǎng)站分類方法,其特征在于,步驟SlOl具體包括: 步驟S1011,提取網(wǎng)站首頁(yè)超文本標(biāo)記語(yǔ)言HTML標(biāo)題、HTML正文和層疊樣式表CSS主題色彩; 步驟S1012,對(duì)所述HTML標(biāo)題和HTML正文進(jìn)行分詞處理,得到單詞向量集合B= (W1, W2,..., wj , η 為正整數(shù); 步驟S1013,對(duì)每一個(gè)在向量B的單詞Wi,統(tǒng)計(jì)其在網(wǎng)頁(yè)HTML的標(biāo)簽<a>、<hl>-〈h6>、〈t i 11 e>、〈em>、〈strong>中出現(xiàn)的次數(shù),按出現(xiàn)的次數(shù)加權(quán)后排名,得到排名后新單詞向量集合 B’ ={w,”w,2,...,w,J ;其中 i=l, 2,......, η 邱為正整數(shù),m〈=n ; 步驟S1014,統(tǒng)計(jì)所述CSS主題色彩中使用最多的3種顏色類別,得到色彩向量描述集合 C,C= (C1, c2, C3I ; 步驟S1015,獲取屬性值,建立屬性描述集合S ;其中,屬性值包括下述中的一項(xiàng)或多項(xiàng):網(wǎng)站服務(wù)器類型、Poweredby信息(驅(qū)動(dòng)信息)、腳本語(yǔ)言類型、返回狀態(tài)碼、跳轉(zhuǎn)次數(shù)、網(wǎng)站出處、外域個(gè)數(shù)、內(nèi)域個(gè)數(shù)和頁(yè)面大??; 步驟S1016,根據(jù)集合B’、C和S,建立網(wǎng)站多維屬性樣本集合V,V=B’ UCU S ;其中U表示并集。
3.如權(quán)利要求2所述的網(wǎng)站分類方法,其特征在于,步驟S102具體包括: 步驟S1021,構(gòu)建三層神經(jīng)網(wǎng)絡(luò)N,其輸入特征數(shù)量等于輸出數(shù)量,并且輸入特征數(shù)量等于步驟S1016中得到網(wǎng)站多維屬性集合V的特征數(shù)量; 步驟S1022,用網(wǎng)站多維屬性集合V作為三層神經(jīng)網(wǎng)絡(luò)N的輸入值Input,計(jì)算當(dāng)前三層神經(jīng)網(wǎng)絡(luò)環(huán)境下的輸出值Output ; 步驟S1023,比較輸入值Input與輸出值Output,計(jì)算二之差是否達(dá)到目標(biāo)閾值;如果是,則轉(zhuǎn)步驟S1025,如果否,則轉(zhuǎn)步驟S1024 ; 步驟S1024,根據(jù)梯度下降法調(diào)整三層神經(jīng)網(wǎng)絡(luò)N的參數(shù),并返回到步驟S1022 ; 步驟S1025,完成學(xué)習(xí),中間隱層節(jié)點(diǎn)向量V’即為自編碼學(xué)習(xí)結(jié)果。
4.如權(quán)利要求3所述的網(wǎng)站分類方法,其特征在于,步驟S103具體包括: 步驟S1031,構(gòu)建支持向量機(jī)SVM,使用向量V’作為輸入; 步驟S1032,利用開(kāi)源數(shù)據(jù)庫(kù),標(biāo)記設(shè)定數(shù)量的樣本網(wǎng)站的行業(yè)類別,得到已標(biāo)注樣本集L ; 步驟S1033,利用SVM對(duì)已標(biāo)注樣本集L中的標(biāo)記數(shù)據(jù)樣本進(jìn)行訓(xùn)練與學(xué)習(xí);判斷該SVM的分類結(jié)果是否滿足設(shè)定要求,如果是,則以該SVM作為進(jìn)行分類的SVM ;如果否,則修改SVM的參數(shù),然后對(duì)該SVM繼續(xù)進(jìn)行訓(xùn)練和學(xué)習(xí),通過(guò)迭代訓(xùn)練,直至其分類結(jié)果滿足設(shè)定要求,則以最終得到SVM作 為進(jìn)行分類的SVM。
【文檔編號(hào)】G06F17/30GK103605794SQ201310651985
【公開(kāi)日】2014年2月26日 申請(qǐng)日期:2013年12月5日 優(yōu)先權(quán)日:2013年12月5日
【發(fā)明者】胡俊, 王明華, 云曉春, 李佳, 賀敏, 紀(jì)玉春, 何能強(qiáng), 高勝, 朱天 申請(qǐng)人:國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心