一種網(wǎng)站分類方法

文檔序號(hào)：6522425閱讀：221來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種網(wǎng)站分類方法
【專利摘要】本發(fā)明公開(kāi)了一種網(wǎng)站分類方法，包括：獲取網(wǎng)站的多維屬性，利用集合對(duì)多維屬性進(jìn)行表示；針對(duì)表示多維屬性的集合，進(jìn)行自編碼特征學(xué)習(xí)；利用自編碼學(xué)習(xí)結(jié)果，進(jìn)行網(wǎng)站聚類學(xué)習(xí)，得到用于進(jìn)行網(wǎng)站分類的支持向量機(jī)SVM；步驟S104，對(duì)任意一個(gè)未經(jīng)標(biāo)注的網(wǎng)站進(jìn)行分類時(shí)，先進(jìn)行步驟S101和步驟S102，得到與該網(wǎng)站對(duì)應(yīng)的自編碼學(xué)習(xí)結(jié)果；然后將該結(jié)構(gòu)輸入到步驟S103得到的SVM中，進(jìn)行網(wǎng)站分類，得到網(wǎng)站的類別。本發(fā)明的網(wǎng)站分類方法能高效準(zhǔn)確的按照行業(yè)類別對(duì)網(wǎng)站進(jìn)行分類，并且能快速偵測(cè)具有惡意特征的釣魚網(wǎng)頁(yè)；采用多維屬性描述的方式，增加系統(tǒng)的便利性與通用性；且系統(tǒng)具有極強(qiáng)的穩(wěn)定性。
【專利說(shuō)明】一種網(wǎng)站分類方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)絡(luò)安全【技術(shù)領(lǐng)域】，特別是涉及一種網(wǎng)站分類方法。
【背景技術(shù)】
[0002]伴隨著互聯(lián)網(wǎng)產(chǎn)業(yè)的蓬勃發(fā)展，釣魚欺詐、木馬暗鏈和隱私泄露等網(wǎng)絡(luò)安全事件頻發(fā)，對(duì)網(wǎng)絡(luò)用戶造成了嚴(yán)重的財(cái)產(chǎn)、精神傷害。如何能夠快速智能的識(shí)別釣魚網(wǎng)站，以及針對(duì)不同類型網(wǎng)站給出合適的隱私保護(hù)等級(jí)，成為當(dāng)前安全領(lǐng)域研究的熱點(diǎn)。這就需要一種智能準(zhǔn)確的網(wǎng)站分類的技術(shù)來(lái)處理海量互聯(lián)網(wǎng)網(wǎng)站。
[0003]目前，對(duì)于網(wǎng)站分類技術(shù)，國(guó)內(nèi)外的研究并不算很廣泛，而且分析中使用的網(wǎng)站特征描述較為單一?？傮w而言，主要有如下幾個(gè)研究方向:(I)基于網(wǎng)頁(yè)文本。John Pierre最早提出將整個(gè)網(wǎng)站上網(wǎng)頁(yè)的文字或標(biāo)簽集合為一個(gè)整體構(gòu)造空間向量，利用文本分類的方法進(jìn)行分類，實(shí)驗(yàn)結(jié)果并不理想。(2)基于網(wǎng)站結(jié)構(gòu)。Hans-Peter Kriegel等人利用網(wǎng)站中各類類別網(wǎng)頁(yè)的出現(xiàn)頻率來(lái)進(jìn)行網(wǎng)站分類，Majid Yazdani等人在此基礎(chǔ)上提出了隱馬爾科夫的模型。這類網(wǎng)站分類模型特別適用單個(gè)類別網(wǎng)站的選取和判斷。(3)基于用戶HTTP行為分析。這一方法繞開(kāi)了網(wǎng)頁(yè)本身的處理，利用HTTP協(xié)議的行為來(lái)處理網(wǎng)站分類問(wèn)題。在網(wǎng)站分類的類別劃分上，還沒(méi)有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)。但是，用戶在同一類別網(wǎng)站上的業(yè)務(wù)使用過(guò)程是類似的，而且針對(duì)釣魚網(wǎng)站之間也具有較強(qiáng)相似性。目前，最大的國(guó)際性人工網(wǎng)站分類目錄是Open Directory P roject,其中包含部分中文網(wǎng)站。就英文網(wǎng)站分類目錄而言，Yahoo !Directory和Alexa是比較著名的。
[0004]深度學(xué)習(xí)(Deep Learning)是最近興起的一種新的機(jī)器學(xué)習(xí)模型,其能夠得到更好地表示復(fù)雜數(shù)據(jù)的特征，同時(shí)由于模型的層次、參數(shù)很多，效率足夠，因此，深度學(xué)習(xí)模型有能力表示類型互聯(lián)網(wǎng)網(wǎng)站這樣大規(guī)模數(shù)據(jù)，能夠在大規(guī)模訓(xùn)練數(shù)據(jù)上取得更好的效果。此外，從模式識(shí)別特征和分類器的角度，深度學(xué)習(xí)框架將特征選取和分類器結(jié)合到一個(gè)框架中，用數(shù)據(jù)去學(xué)習(xí)特征，在使用中減少了手工選取特征的巨大工作量(這是目前工業(yè)界工程師付出努力最多的方面)，因此，不僅僅效果可以更好，而且，使用起來(lái)也有很多方便之處，因此，是十分合適的一套解決方案框架，
[0005]自編碼(AutoEncoder)方法是深度學(xué)習(xí)方法中最常用的一種算法。該算法通過(guò)設(shè)置一個(gè)神經(jīng)網(wǎng)絡(luò)的輸出層矢量等于輸入矢量，并使隱層神經(jīng)元的數(shù)量少于輸入層，然后訓(xùn)練調(diào)整其參數(shù)，得到每一層中的權(quán)重。訓(xùn)練好的網(wǎng)絡(luò)在隱層即為輸入特征向量的壓縮表示方法。這些壓縮后的特征在解決分類問(wèn)題時(shí)有較好的效果。

【發(fā)明內(nèi)容】

[0006]本發(fā)明要解決的技術(shù)問(wèn)題是提供一種網(wǎng)站分類方法，用以解決現(xiàn)有技術(shù)中網(wǎng)站分類效果不佳的問(wèn)題。
[0007]為解決上述技術(shù)問(wèn)題，本發(fā)明提供一種網(wǎng)站分類方法，包括:
[0008]步驟S101，獲取網(wǎng)站的多維屬性，利用集合對(duì)多維屬性進(jìn)行表示；[0009]步驟S102，針對(duì)表示多維屬性的集合，進(jìn)行自編碼特征學(xué)習(xí)；
[0010]步驟S103，利用自編碼學(xué)習(xí)結(jié)果，進(jìn)行網(wǎng)站聚類學(xué)習(xí)，得到用于進(jìn)行網(wǎng)站分類的支持向量機(jī)SVM ；
[0011]步驟S104，對(duì)任意一個(gè)未經(jīng)標(biāo)注的網(wǎng)站進(jìn)行分類時(shí)，先進(jìn)行步驟SlOl和步驟S102，得到與該網(wǎng)站對(duì)應(yīng)的自編碼學(xué)習(xí)結(jié)果；然后將與該網(wǎng)站對(duì)應(yīng)的自編碼學(xué)習(xí)結(jié)果輸入至IJ步驟S103得到的用于進(jìn)行網(wǎng)站分類的支持向量機(jī)SVM中，進(jìn)行網(wǎng)站分類，得到網(wǎng)站的類別。
[0012]進(jìn)一步,步驟SlOl具體包括:
[0013]步驟SlOl I，提取網(wǎng)站首頁(yè)超文本標(biāo)記語(yǔ)言HTML標(biāo)題、HTML正文和層疊樣式表CSS主題色彩；
[0014]步驟S1012，對(duì)所述HTML標(biāo)題和HTML正文進(jìn)行分詞處理，得到單詞向量集合B= (W1, W2,..., wj , η 為正整數(shù)；
[0015]步驟S1013，對(duì)每一個(gè)在向量B的單詞Wi,統(tǒng)計(jì)其在網(wǎng)頁(yè)HTML的標(biāo)簽<a>、〈hl>-〈h6>、〈title>、〈em>、〈strong>中出現(xiàn)的次數(shù),按出現(xiàn)的次數(shù)加權(quán)后排名，得到排名后新單詞向量集合B’ ={w’ uw，2,...,ψ，J ;其中i=l, 2,......, η邱為正整數(shù)，m〈=n ；
[0016]步驟S1014，統(tǒng)計(jì)所述CSS主題色彩中使用最多的3種顏色類別，得到色彩向量描述集合 c, C=Ic1, C2, C3I ;
[0017]步驟S1015，獲取屬性值，建立屬性描述集合S ;其中，屬性值包括下述中的一項(xiàng)或多項(xiàng):網(wǎng)站服務(wù)器類型、Poweredby信息(驅(qū)動(dòng)信息)、腳本語(yǔ)言類型、返回狀態(tài)碼、跳轉(zhuǎn)次數(shù)、網(wǎng)站出處、外域個(gè)數(shù)、內(nèi)域個(gè)數(shù)和頁(yè)面大?。?br> [0018]步驟S1016，根據(jù)集合B’、C和S，建立網(wǎng)站多維屬性樣本集合V，V=B’ U C U S ;其中U表示并集。
[0019]進(jìn)一步,步驟S102具體包括:
[0020]步驟S1021，構(gòu)建三層神經(jīng)網(wǎng)絡(luò)N，其輸入特征數(shù)量等于輸出數(shù)量，并且輸入特征數(shù)量等于步驟S1016中得到網(wǎng)站多維屬性集合V的特征數(shù)量；
[0021]步驟S1022，用網(wǎng)站多維屬性集合V作為三層神經(jīng)網(wǎng)絡(luò)N的輸入值Input，計(jì)算當(dāng)前三層神經(jīng)網(wǎng)絡(luò)環(huán)境下的輸出值Output ；
[0022]步驟S1023，比較輸入值Input與輸出值Output，計(jì)算二之差是否達(dá)到目標(biāo)閾值；如果是，則轉(zhuǎn)步驟S1025，如果否，則轉(zhuǎn)步驟S1024 ；
[0023]步驟S1024，根據(jù)梯度下降法調(diào)整三層神經(jīng)網(wǎng)絡(luò)N的參數(shù)，并返回到步驟S1022 ；
[0024]步驟S1025，完成學(xué)習(xí)，中間隱層節(jié)點(diǎn)向量V’即為自編碼學(xué)習(xí)結(jié)果。
[0025]進(jìn)一步,步驟S103具體包括:
[0026]步驟S1031，構(gòu)建支持向量機(jī)SVM，使用向量V’作為輸入；
[0027]步驟S1032，利用開(kāi)源數(shù)據(jù)庫(kù)，標(biāo)記設(shè)定數(shù)量的樣本網(wǎng)站的行業(yè)類別，得到已標(biāo)注樣本集L ;
[0028]步驟S1033，利用SVM對(duì)已標(biāo)注樣本集L中的標(biāo)記數(shù)據(jù)樣本進(jìn)行訓(xùn)練與學(xué)習(xí)；判斷該SVM的分類結(jié)果是否滿足設(shè)定要求，如果是，則以該SVM作為進(jìn)行分類的SVM ;如果否，則修改SVM的參數(shù)，然后對(duì)該SVM繼續(xù)進(jìn)行訓(xùn)練和學(xué)習(xí)，通過(guò)迭代訓(xùn)練，直至其分類結(jié)果滿足設(shè)定要求，則以最終得到SVM作為進(jìn)行分類的SVM。[0029]本發(fā)明有益效果如下:
[0030]本發(fā)明的網(wǎng)站分類方法，能高效準(zhǔn)確的按照行業(yè)類別對(duì)網(wǎng)站進(jìn)行分類，并且對(duì)于具有惡意特征的釣魚網(wǎng)頁(yè)，能快速偵測(cè)出來(lái)；采用多維屬性描述的方式，增加系統(tǒng)的便利性與通用性；采用機(jī)器學(xué)習(xí)的方法，并且采樣的樣本較為廣泛，系統(tǒng)具有極強(qiáng)的穩(wěn)定性。
【專利附圖】

【附圖說(shuō)明】
[0031]圖1是本發(fā)明實(shí)施例中一種網(wǎng)站分類方法的流程圖；
[0032]圖2是本發(fā)明實(shí)施例中三層神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)示意圖；
[0033]圖3是本發(fā)明實(shí)施例中進(jìn)行網(wǎng)站聚類學(xué)習(xí)及網(wǎng)站分類的流程圖；
[0034]圖4是本發(fā)明實(shí)施例中一個(gè)建立網(wǎng)站多維描述與聚集分類的示意圖。
【具體實(shí)施方式】[0035]以下結(jié)合附圖以及實(shí)施例，對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解，此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明，并不限定本發(fā)明。
[0036]如圖1所示，本發(fā)明實(shí)施例涉及一種基于自編碼深度學(xué)習(xí)模型的網(wǎng)站分類方法，包括以下步驟:
[0037]步驟S101，獲取網(wǎng)站的多維屬性，利用集合對(duì)多維屬性進(jìn)行表示:
[0038]本步驟具體包括以下步驟:
[0039]步驟S1011,對(duì)網(wǎng)站首頁(yè)進(jìn)行HTML (HyperText Markup Language,超文本標(biāo)記語(yǔ)言)處理，提取出首頁(yè)HTML標(biāo)題、HTML正文和CSS (Cascading Style Sheets，層疊樣式表)主題色彩；
[0040]步驟S1012，對(duì)步驟SlOll獲得的HTML標(biāo)題和HTML正文進(jìn)行分詞處理，按照出現(xiàn)頻率由高到底統(tǒng)計(jì)預(yù)定比例(例如，前50%)的所有名詞，并得到單詞向量B= Iw1, w2，- ,wn}，η為正整數(shù)；
[0041]步驟S1013，對(duì)每一個(gè)在向量B的單詞Wi,統(tǒng)計(jì)其在網(wǎng)頁(yè)HTML的標(biāo)簽<a>、〈hl>-〈h6>、〈title>、〈em>、〈strong>中出現(xiàn)的次數(shù),按出現(xiàn)的次數(shù)加權(quán)后排名，得到排名后新單詞向量B’ ={w’ !, w’ 2,…，w’ J , m為正整數(shù)，m〈=n ；
[0042]步驟S1014，對(duì)步驟SlOll獲得的CSS主題色彩統(tǒng)計(jì)使用最多的3種顏色類別，得到色彩向量描述集合c, C=Ic1, C2, C3I ;
[0043]步驟S1015，收集網(wǎng)站服務(wù)器類型、Poweredby信息(驅(qū)動(dòng)信息)、腳本語(yǔ)言類型、返回狀態(tài)碼、跳轉(zhuǎn)次數(shù)、網(wǎng)站出處、外域個(gè)數(shù)、內(nèi)域個(gè)數(shù)和頁(yè)面大小這些屬性值，建立屬性描述集合S ;
[0044]步驟S1016,綜合步驟S1013、步驟S1014和步驟S1015步得到的向量B，，C，S，建
立網(wǎng)站多維屬性樣本集合V，V=B’ UCU S= Iv1, V2，…，vk}，k為正整數(shù)；U表示并集。
[0045]步驟S102，針對(duì)表示多維屬性的集合，進(jìn)行自編碼特征學(xué)習(xí)。
[0046]本步驟具體包括以下步驟:
[0047]步驟S1021，構(gòu)建一個(gè)如圖2所示的三層神經(jīng)網(wǎng)絡(luò)N，輸入特征數(shù)量等于輸出數(shù)量，并且輸入特征數(shù)量等于步驟S1016中得到網(wǎng)站多維屬性集合V的特征數(shù)量；
[0048]步驟S1022，用樣本集合V作為三層神經(jīng)網(wǎng)絡(luò)N的輸入值Input，計(jì)算當(dāng)前三層神經(jīng)網(wǎng)絡(luò)環(huán)境下的輸出值Output ；
[0049]步驟S1023，比較輸入值Input與輸出值Output，計(jì)算二之差是否達(dá)到目標(biāo)閾值；如果是，則轉(zhuǎn)步驟S1025，如果否，則轉(zhuǎn)步驟S1024 ；
[0050]步驟S1024，當(dāng)誤差未達(dá)到目標(biāo)閾值時(shí)，則根據(jù)梯度下降法調(diào)整三層神經(jīng)網(wǎng)絡(luò)N的參數(shù)，并返回到步驟S1022;
[0051]步驟S1025，當(dāng)誤差達(dá)到閾值時(shí)，則表示完成學(xué)習(xí)，圖2中，中間隱層節(jié)點(diǎn)向量V’即為自編碼學(xué)習(xí)結(jié)果；
[0052]步驟S103，利用自編碼學(xué)習(xí)結(jié)果，進(jìn)行網(wǎng)站聚類學(xué)習(xí)，得到用于進(jìn)行網(wǎng)站分類的支持向量機(jī)SVM。
[0053]如圖3所示,本步驟具體包括:
[0054]步驟S1031，構(gòu)建支持向量機(jī)(SVM)，使用向量V’作為輸入；
[0055]步驟S1032，利用開(kāi)源數(shù)據(jù)庫(kù)，標(biāo)記設(shè)定數(shù)量的樣本網(wǎng)站的行業(yè)類別，得到已標(biāo)注樣本集L ;設(shè)定數(shù)量通常都是少量的樣本網(wǎng)站；
[0056]步驟S1033，利用SVM對(duì)步驟S1032得到已標(biāo)注樣本集L中的標(biāo)記數(shù)據(jù)樣本進(jìn)行訓(xùn)練與學(xué)習(xí)；即用SVM進(jìn)行網(wǎng)站分類，如果其分類結(jié)果滿足設(shè)定要求，則以該SVM作為最終進(jìn)行分類的SVM ;如果該SVM的分類結(jié)果不滿足設(shè)定要求，則修改SVM的參數(shù)后，對(duì)該SVM繼續(xù)進(jìn)行訓(xùn)練和學(xué)習(xí)，通過(guò)迭代訓(xùn)練，直至其分類結(jié)果滿足設(shè)定要求，則以最終得到SVM作為最終進(jìn)行分類的SVM。經(jīng)過(guò)上述訓(xùn)練和學(xué)習(xí)，最終得到的SVM，就具備了進(jìn)行網(wǎng)站分類的功能，其分類結(jié)果也是準(zhǔn)確可信的。
[0057]例如，標(biāo)注樣本集L是100個(gè)網(wǎng)站(預(yù)先已經(jīng)標(biāo)注網(wǎng)站類別)，利用構(gòu)建的SVM進(jìn)行分類，用分類結(jié)果與正確的網(wǎng)站類別進(jìn)行比對(duì)，如果分類正確的是50個(gè)，錯(cuò)誤的是50個(gè)，假設(shè)全部分類正確才符合要求，則該SVM的分類結(jié)果不滿足設(shè)定要求，修改SVM的參數(shù)后，對(duì)該SVM繼續(xù)進(jìn)行訓(xùn)練和學(xué)習(xí)，此時(shí)，可以補(bǔ)充50個(gè)網(wǎng)站的樣本數(shù)據(jù)，重新對(duì)100個(gè)網(wǎng)站進(jìn)行分類；也可以只對(duì)上次分錯(cuò)的50個(gè)樣本網(wǎng)站進(jìn)行分類，只是，此種情況下，需要將預(yù)先設(shè)定的符合要求的閾值與本次分類的總樣本數(shù)據(jù)進(jìn)行對(duì)應(yīng)。修改后的SVM再次進(jìn)行分類，然后判斷其分類結(jié)果是否滿足設(shè)定要求，如果不滿足，則繼續(xù)進(jìn)行迭代訓(xùn)練，直至滿足；如果滿足，則以修改后的SVM作為最終進(jìn)行分類的SVM。
[0058]步驟S104，對(duì)任意一個(gè)未經(jīng)標(biāo)注的網(wǎng)站進(jìn)行分類時(shí)，先進(jìn)行步驟SlOl和步驟S102，得到與該網(wǎng)站對(duì)應(yīng)的自編碼學(xué)習(xí)結(jié)果V’ ；然后將與該網(wǎng)站對(duì)應(yīng)的自編碼學(xué)習(xí)結(jié)果V’輸入到步驟S103得到的用于進(jìn)行網(wǎng)站分類的支持向量機(jī)SVM中，進(jìn)行網(wǎng)站分類，得到網(wǎng)站的類別。
[0059]下面，如圖4所示，以實(shí)例具體描述如下:
[0060]( I)網(wǎng)站多維屬性集合表不:
[0061](11)對(duì)優(yōu)酷網(wǎng)站首頁(yè)進(jìn)行HTML處理，提取出首頁(yè)HTML標(biāo)題、HTML正文和CSS主題色彩；
[0062](12)對(duì)(11)獲得的HTML標(biāo)題和HTML正文進(jìn)行分詞處理，統(tǒng)計(jì)出現(xiàn)頻率在前50%的所有名詞，并得到單詞向量B={視頻，播放，更新，排行，熱播，F(xiàn)lash}；
[0063](13)對(duì)每一個(gè)在向量B的單詞，統(tǒng)計(jì)在網(wǎng)頁(yè)HTML如下標(biāo)簽<a>、<hl>-〈h6>、〈t i 11 e>、〈em>、〈strong>中出現(xiàn)的次數(shù),按出現(xiàn)的次數(shù)加權(quán)后排名，得到排名后新單詞向量B’ ={視頻，F(xiàn)lash，更新，播放，熱播，排行}；
[0064](14)對(duì)(11)獲得的CSS主題色彩統(tǒng)計(jì)使用最多的前3中顏色類別，得到色彩向量描述C={白色，藍(lán)色，灰色};
[0065](15)收集網(wǎng)站服務(wù)器類型，Poweredby信息，腳本語(yǔ)言類型，返回狀態(tài)碼，跳轉(zhuǎn)次數(shù)，網(wǎng)站出處，外域和內(nèi)域個(gè)數(shù)，頁(yè)面大小這些屬性值，建立屬性描述集合S={Linux，優(yōu)酷網(wǎng),Javascript,202,1,10,500}；
[0066](16)綜合(13)、(14)和(15)步得到的向量B’，C，S，建立網(wǎng)站多維屬性樣本集合V, V=B，UCU S={視頻，F(xiàn)lash，更新，…，Javascript, 202，1，10，500}。
[0067](2)自編碼特征學(xué)習(xí):
[0068](21)構(gòu)建一個(gè)如圖2所示三層神經(jīng)網(wǎng)絡(luò)N，輸入特征數(shù)量等于輸出數(shù)量，并且輸入特征數(shù)量等于(16)步中得到建立網(wǎng)站多維屬性集合V特征數(shù)量；
[0069](22)用樣本集合V作為神經(jīng)網(wǎng)絡(luò)N的輸入Input，計(jì)算當(dāng)前神經(jīng)網(wǎng)絡(luò)環(huán)境下的輸出值 Output ；
[0070](23)比較的輸入Input與輸出值Output，計(jì)算誤差是否達(dá)到目標(biāo)閾值；
[0071](24)未達(dá)到閾值，則根據(jù)梯度下降法調(diào)整神經(jīng)網(wǎng)絡(luò)N參數(shù)，并返回到步驟(22)；
[0072](25)達(dá)到閾值，完成學(xué)習(xí)，中間隱層節(jié)點(diǎn)向量V’即為自編碼學(xué)習(xí)結(jié)果；
[0073](3)網(wǎng)站聚類學(xué)習(xí) ，如圖3所示過(guò)程:
[0074](31)構(gòu)建支持向量機(jī)(SVM)，使用向量V’作為的輸入；
[0075](32)利用開(kāi)源數(shù)據(jù)庫(kù)，標(biāo)記少量樣本網(wǎng)站的行業(yè)類別得到已標(biāo)注樣本集L ；
[0076](33)利用SVM對(duì)(32)步得到的少量標(biāo)記數(shù)據(jù)樣本進(jìn)行訓(xùn)練與學(xué)習(xí)；
[0077](34)將(16)步得到的未經(jīng)標(biāo)注的樣本加入到訓(xùn)練所得的初始分類器中進(jìn)行預(yù)測(cè)，預(yù)測(cè)結(jié)果與某一類別的余弦距離小于閾值，則代表分類取得的置信度越高；
[0078](35)將置信度較高的文本連同其分類標(biāo)注一起加入到對(duì)應(yīng)類別集中，作為新的訓(xùn)練樣本集進(jìn)行再學(xué)習(xí)；
[0079](36)迭代訓(xùn)練，直到所有樣本分類完全為止。
[0080](4)對(duì)于需要進(jìn)行分類的網(wǎng)站，先進(jìn)行步驟(1)、(2)，將得到學(xué)習(xí)結(jié)果V’輸入到步驟(3)訓(xùn)練得到的SVM中，進(jìn)行分類，得到網(wǎng)站的類型，網(wǎng)站分類結(jié)束。
[0081]本發(fā)明的網(wǎng)站分類方法能高效準(zhǔn)確的按照行業(yè)類別對(duì)網(wǎng)站進(jìn)行分類，并且對(duì)于具有惡意特征的釣魚網(wǎng)頁(yè)，能快速偵測(cè)出來(lái)；采用多維屬性描述的方式，增加系統(tǒng)的便利性與通用性；采用機(jī)器學(xué)習(xí)的方法，并且采樣的樣本較為廣泛，系統(tǒng)具有極強(qiáng)的穩(wěn)定性。
[0082]盡管為示例目的，已經(jīng)公開(kāi)了本發(fā)明的優(yōu)選實(shí)施例，本領(lǐng)域的技術(shù)人員將意識(shí)到各種改進(jìn)、增加和取代也是可能的，因此，本發(fā)明的范圍應(yīng)當(dāng)不限于上述實(shí)施例。
【權(quán)利要求】
1.一種網(wǎng)站分類方法，其特征在于，包括: 步驟S101，獲取網(wǎng)站的多維屬性，利用集合對(duì)多維屬性進(jìn)行表示；步驟S102，針對(duì)表示多維屬性的集合，進(jìn)行自編碼特征學(xué)習(xí)；步驟S103，利用自編碼學(xué)習(xí)結(jié)果，進(jìn)行網(wǎng)站聚類學(xué)習(xí)，得到用于進(jìn)行網(wǎng)站分類的支持向量機(jī)SVM ；步驟S104，對(duì)任意一個(gè)未經(jīng)標(biāo)注的網(wǎng)站進(jìn)行分類時(shí)，先進(jìn)行步驟SlOl和步驟S102，得到與該網(wǎng)站對(duì)應(yīng)的自編碼學(xué)習(xí)結(jié)果；然后將與該網(wǎng)站對(duì)應(yīng)的自編碼學(xué)習(xí)結(jié)果輸入到步驟S103得到的用于進(jìn)行網(wǎng)站分類的支持向量機(jī)SVM中，進(jìn)行網(wǎng)站分類，得到網(wǎng)站的類別。
2.如權(quán)利要求1所述的網(wǎng)站分類方法，其特征在于，步驟SlOl具體包括: 步驟S1011，提取網(wǎng)站首頁(yè)超文本標(biāo)記語(yǔ)言HTML標(biāo)題、HTML正文和層疊樣式表CSS主題色彩；步驟S1012，對(duì)所述HTML標(biāo)題和HTML正文進(jìn)行分詞處理，得到單詞向量集合B= (W1, W2,..., wj , η 為正整數(shù)；步驟S1013，對(duì)每一個(gè)在向量B的單詞Wi,統(tǒng)計(jì)其在網(wǎng)頁(yè)HTML的標(biāo)簽<a>、<hl>-〈h6>、〈t i 11 e>、〈em>、〈strong>中出現(xiàn)的次數(shù),按出現(xiàn)的次數(shù)加權(quán)后排名，得到排名后新單詞向量集合 B’ ={w，”w，2,...，w，J ;其中 i=l, 2,......, η 邱為正整數(shù)，m〈=n ；步驟S1014，統(tǒng)計(jì)所述CSS主題色彩中使用最多的3種顏色類別，得到色彩向量描述集合 C，C= (C1, c2, C3I ; 步驟S1015，獲取屬性值，建立屬性描述集合S ;其中，屬性值包括下述中的一項(xiàng)或多項(xiàng):網(wǎng)站服務(wù)器類型、Poweredby信息(驅(qū)動(dòng)信息)、腳本語(yǔ)言類型、返回狀態(tài)碼、跳轉(zhuǎn)次數(shù)、網(wǎng)站出處、外域個(gè)數(shù)、內(nèi)域個(gè)數(shù)和頁(yè)面大??；步驟S1016，根據(jù)集合B’、C和S，建立網(wǎng)站多維屬性樣本集合V，V=B’ UCU S ;其中U表示并集。
3.如權(quán)利要求2所述的網(wǎng)站分類方法，其特征在于，步驟S102具體包括: 步驟S1021，構(gòu)建三層神經(jīng)網(wǎng)絡(luò)N，其輸入特征數(shù)量等于輸出數(shù)量，并且輸入特征數(shù)量等于步驟S1016中得到網(wǎng)站多維屬性集合V的特征數(shù)量；步驟S1022，用網(wǎng)站多維屬性集合V作為三層神經(jīng)網(wǎng)絡(luò)N的輸入值Input，計(jì)算當(dāng)前三層神經(jīng)網(wǎng)絡(luò)環(huán)境下的輸出值Output ；步驟S1023，比較輸入值Input與輸出值Output，計(jì)算二之差是否達(dá)到目標(biāo)閾值；如果是，則轉(zhuǎn)步驟S1025，如果否，則轉(zhuǎn)步驟S1024 ；步驟S1024，根據(jù)梯度下降法調(diào)整三層神經(jīng)網(wǎng)絡(luò)N的參數(shù)，并返回到步驟S1022 ；步驟S1025，完成學(xué)習(xí)，中間隱層節(jié)點(diǎn)向量V’即為自編碼學(xué)習(xí)結(jié)果。
4.如權(quán)利要求3所述的網(wǎng)站分類方法，其特征在于，步驟S103具體包括: 步驟S1031，構(gòu)建支持向量機(jī)SVM，使用向量V’作為輸入；步驟S1032，利用開(kāi)源數(shù)據(jù)庫(kù)，標(biāo)記設(shè)定數(shù)量的樣本網(wǎng)站的行業(yè)類別，得到已標(biāo)注樣本集L ；步驟S1033，利用SVM對(duì)已標(biāo)注樣本集L中的標(biāo)記數(shù)據(jù)樣本進(jìn)行訓(xùn)練與學(xué)習(xí)；判斷該SVM的分類結(jié)果是否滿足設(shè)定要求，如果是，則以該SVM作為進(jìn)行分類的SVM ;如果否，則修改SVM的參數(shù)，然后對(duì)該SVM繼續(xù)進(jìn)行訓(xùn)練和學(xué)習(xí)，通過(guò)迭代訓(xùn)練，直至其分類結(jié)果滿足設(shè)定要求，則以最終得到SVM作為進(jìn)行分類的SVM。
【文檔編號(hào)】G06F17/30GK103605794SQ201310651985
【公開(kāi)日】2014年2月26日申請(qǐng)日期:2013年12月5日優(yōu)先權(quán)日:2013年12月5日
【發(fā)明者】胡俊, 王明華, 云曉春, 李佳, 賀敏, 紀(jì)玉春, 何能強(qiáng), 高勝, 朱天申請(qǐng)人:國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：胡俊;王明華;云曉春;李佳;賀敏;紀(jì)玉春;何能強(qiáng);高勝;朱天
技術(shù)所有人：國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種網(wǎng)站分類方法