一種基于流行度分類(lèi)特征的托攻擊檢測(cè)算法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息安全領(lǐng)域,具體涉及一種基于流行度分類(lèi)特征的托攻擊檢測(cè)算 法。
【背景技術(shù)】
[0002] 推薦系統(tǒng)是電子商務(wù)領(lǐng)域中為用戶(hù)選擇潛在感興趣項(xiàng)目的重要工具。協(xié)同過(guò)濾是 推薦系統(tǒng)中廣泛應(yīng)用的一種技術(shù),這種方法通過(guò)為目標(biāo)用戶(hù)尋找最相似用戶(hù)作為最近鄰, 利用最近鄰的購(gòu)買(mǎi)信息產(chǎn)生推薦結(jié)果。這種工作模式在實(shí)際中十分有效,但是卻容易受到 托攻擊(Shillingattacks)。托攻擊者通過(guò)注入一定的虛假概貌成為正常用戶(hù)的最近鄰干 擾推薦系統(tǒng)的推薦結(jié)果,從而增加或者減少目標(biāo)項(xiàng)目的推薦頻率,分別稱(chēng)為推攻擊和核攻 擊(PushandNukeAttacks),如何防范和檢測(cè)托攻擊成為當(dāng)前推薦系統(tǒng)研宄領(lǐng)域的熱點(diǎn) 之一。
[0003] 如果把托攻擊檢測(cè)看成對(duì)正常用戶(hù)與虛假用戶(hù)進(jìn)行分類(lèi),那么其中就涉及到分類(lèi) 特征的選擇,即尋找一系列的特征區(qū)分這兩類(lèi)用戶(hù)。當(dāng)前使用的分類(lèi)特征大多是與用戶(hù)對(duì) 項(xiàng)目評(píng)分相關(guān)的,即從正常用戶(hù)與虛假用戶(hù)對(duì)項(xiàng)目評(píng)分的方式不同入手尋找相應(yīng)的檢測(cè)指 標(biāo),這種方式的檢測(cè)手段有兩個(gè)問(wèn)題:(1)某些正常用戶(hù)與虛假用戶(hù)的評(píng)分方式類(lèi)似,容易 造成對(duì)此類(lèi)正常用戶(hù)的誤判;(2)實(shí)際中的攻擊大多是經(jīng)過(guò)混淆的,如對(duì)目標(biāo)項(xiàng)目不評(píng)最 高(低)分而是評(píng)次高(低)分或在原始評(píng)分基礎(chǔ)上加入一個(gè)隨機(jī)數(shù)作為噪音干擾,這樣 當(dāng)前的檢測(cè)指標(biāo)難以勝任托攻擊方式的各種變化。
【發(fā)明內(nèi)容】
[0004] 針對(duì)現(xiàn)有技術(shù)存在的上述問(wèn)題,本發(fā)明的目的是提供一種基于流行度分類(lèi)特征的 托攻擊檢測(cè)算法。
[0005] 為實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:一種基于流行度分類(lèi)特征的托攻擊 檢測(cè)算法,包括如下步驟:
[0006]S1:設(shè)存在一個(gè)具有N個(gè)用戶(hù)的用戶(hù)集,該用戶(hù)集中的元素由正常用戶(hù)和虛假用 戶(hù)兩種類(lèi)別組成,兩類(lèi)用戶(hù)分別使用類(lèi)標(biāo)簽〇和1進(jìn)行標(biāo)注,〇表示正常用戶(hù),1表示虛假用 戶(hù),nu為用戶(hù)集的元素,表示第u個(gè)用戶(hù),u= 1,2, 3,...,N;用戶(hù)集中所有用戶(hù)評(píng)價(jià)過(guò)的項(xiàng) 目的并集構(gòu)成項(xiàng)目集,項(xiàng)目集中共有M個(gè)項(xiàng)目,mi為項(xiàng)目集的元素,i= 1,2, 3,...,M;
[0007] 獲取用戶(hù)集中所有用戶(hù)對(duì)項(xiàng)目集中所有項(xiàng)目的歷史評(píng)分?jǐn)?shù)據(jù),構(gòu)建NXM的用戶(hù) 評(píng)分矩陣B,bui為用戶(hù)評(píng)分矩陣的元素,表示第u個(gè)用戶(hù)對(duì)第i個(gè)項(xiàng)目的評(píng)分,b&的值為評(píng) 分?jǐn)?shù),如果第u個(gè)用戶(hù)對(duì)第i個(gè)項(xiàng)目沒(méi)有評(píng)分,則令匕為0 ;
[0008]S2:統(tǒng)計(jì)項(xiàng)目集中每個(gè)項(xiàng)目被正常用戶(hù)評(píng)價(jià)的次數(shù),采用項(xiàng)目流行度表示,記為 d,屯表示項(xiàng)目m滿(mǎn)項(xiàng)目流行度;
[0009]S3 :根據(jù)步驟S1得到的用戶(hù)評(píng)分矩陣和S2得到的項(xiàng)目流行度,確定用戶(hù)流行度向 量,方法如下:
[0010] 1)設(shè)用戶(hù)nu對(duì)項(xiàng)目mi做出過(guò)評(píng)價(jià),則定義用戶(hù)nu與項(xiàng)目m廣聯(lián)系;
[0011] 2)令u= 1 ;
[0012] 3)i遍歷其取值,所有與用戶(hù)nu有聯(lián)系的項(xiàng)目構(gòu)成聯(lián)系項(xiàng)目集,聯(lián)系項(xiàng)目集中共有 Gu個(gè)元素,guk為聯(lián)系項(xiàng)目集的元素,其表示第k個(gè)與用戶(hù)nu有聯(lián)系的項(xiàng)目;
[0013] 4)設(shè)k=l;
[0014] 5)確定項(xiàng)目集中與項(xiàng)目guk相應(yīng)的項(xiàng)目,然后調(diào)用S2中該項(xiàng)目的項(xiàng)目流行度作為 guk的項(xiàng)目流行度d' k;
[0015] 6)保存與用戶(hù)nu有聯(lián)系的項(xiàng)目guk的項(xiàng)目流行度d' k;
[0016] 7)令k=k+l;
[0017] 8)如果k彡Gu,則返回步驟5),否則執(zhí)行下一步;
[0018] 9)與用戶(hù)nu有聯(lián)系的所有項(xiàng)目的項(xiàng)目流行度形成一個(gè)一維向量Du,記向量Du為 用戶(hù)流行度向量,^
【主權(quán)項(xiàng)】
1. 一種基于流行度分類(lèi)特征的托攻擊檢測(cè)算法,其特征在于:包括如下步驟: 51 :設(shè)存在一個(gè)具有N個(gè)用戶(hù)的用戶(hù)集,該用戶(hù)集中的元素由正常用戶(hù)和虛假用戶(hù)兩 種類(lèi)別組成,兩類(lèi)用戶(hù)分別使用類(lèi)標(biāo)簽0和1進(jìn)行標(biāo)注,0表示正常用戶(hù),1表示虛假用戶(hù), nu為用戶(hù)集的元素,表示第u個(gè)用戶(hù),u= 1,2, 3,. ..,N;用戶(hù)集中所有用戶(hù)評(píng)價(jià)過(guò)的項(xiàng)目 的并集構(gòu)成項(xiàng)目集,項(xiàng)目集中共有M個(gè)項(xiàng)目,mi為項(xiàng)目集的元素,i= 1,2, 3,...,M; 獲取用戶(hù)集中所有用戶(hù)對(duì)項(xiàng)目集中所有項(xiàng)目的歷史評(píng)分?jǐn)?shù)據(jù),構(gòu)建NXM的用戶(hù)評(píng)分 矩陣B,bui為用戶(hù)評(píng)分矩陣的元素,表示第u個(gè)用戶(hù)對(duì)第i個(gè)項(xiàng)目的評(píng)分,bui的值為評(píng)分 數(shù),如果第u個(gè)用戶(hù)對(duì)第i個(gè)項(xiàng)目沒(méi)有評(píng)分,則令buiS0 ; 52 :統(tǒng)計(jì)項(xiàng)目集中每個(gè)項(xiàng)目被正常用戶(hù)評(píng)價(jià)的次數(shù),采用項(xiàng)目流行度表示,記為d,屯表 示項(xiàng)目1^的項(xiàng)目流行度; 53 :根據(jù)步驟S1得到的用戶(hù)評(píng)分矩陣和S2得到的項(xiàng)目流行度,確定用戶(hù)流行度向量, 方法如下: 1) 設(shè)用戶(hù)nu對(duì)項(xiàng)目mi做出過(guò)評(píng)價(jià),則定義用戶(hù)nu與項(xiàng)目m1有聯(lián)系; 2) 令u= 1 ; 3. i遍歷其取值,所有與用戶(hù)nu有聯(lián)系的項(xiàng)目構(gòu)成聯(lián)系項(xiàng)目集,聯(lián)系項(xiàng)目集中共有Gu個(gè) 元素,guk為聯(lián)系項(xiàng)目集的元素,其表示第k個(gè)與用戶(hù)nu有聯(lián)系的項(xiàng)目; 4) 設(shè)k= 1 ; 5) 確定項(xiàng)目集中與項(xiàng)目guk相應(yīng)的項(xiàng)目,然后調(diào)用S2中該項(xiàng)目的項(xiàng)目流行度作為guk 的項(xiàng)目流行度d'k; 6) 保存與用戶(hù)nu有聯(lián)系的項(xiàng)目guk的項(xiàng)目流行度d' k; 7) 令k=k+1 ; 8) 如果k<Gu,則返回步驟5),否則執(zhí)行下一步; 9) 與用戶(hù)nu有聯(lián)系的所有項(xiàng)目的項(xiàng)目流行度形成一個(gè)一維向量Du,記向量Du為用戶(hù) 流行度向量,輸出Du; 10) 令u=u+1 ;
11) 如果u<N,則返回步驟3),否則結(jié)束循環(huán); 54 :計(jì)算基于流行度的分類(lèi)特征值,所述基于流行度的分類(lèi)特征值包括用戶(hù)流行度均 值、用戶(hù)流行度極差和用戶(hù)流行度上分位點(diǎn),方法如下: 1) 根據(jù)公式(3)計(jì)算用戶(hù)流行度均值MUD:
其中,MUDU表示用戶(hù)nu的用戶(hù)流行度均值,d'k表示用戶(hù)nu的用戶(hù)流行度向量Du中的 元素,Gu表示與用戶(hù)nu有聯(lián)系的項(xiàng)目的總數(shù); 2) 根據(jù)公式(4)計(jì)算用戶(hù)流行度極差RUD: RUDU=d,max-d,min,u= 1,2, 3. ??,N(4); 其中,RUDU表示用戶(hù)nu的用戶(hù)流行度極差,d'max表示用戶(hù)nu的用戶(hù)流行度向量Du的 元素中值最大的項(xiàng)目流行度,d'^表示用戶(hù)nu的用戶(hù)流行度向量Du的元素中值最小的項(xiàng) 目流行度; 3)根據(jù)公式(5)計(jì)算用戶(hù)流行度上四分位數(shù)QUD: QUDU=d,k,u= 1,2, 3. ??,N(5); 其中,QUDU表示nu的用戶(hù)流行度上四分位數(shù),d'k表示用戶(hù)nu的用戶(hù)流行度向量Du中 元素按照其值由小到大排序后,處于前四分之一位置處的項(xiàng)目流行度; 55 :根據(jù)用戶(hù)的類(lèi)標(biāo)簽及其相應(yīng)的基于流行度分類(lèi)特征,采用分類(lèi)算法得到分類(lèi)器; 56 :對(duì)任何一個(gè)新用戶(hù),采用步驟S3-S4所述方法計(jì)算該新用戶(hù)基于流行度的分類(lèi)特 征值,然后將該新用戶(hù)的分類(lèi)特征值輸入步驟S5確定的分類(lèi)器中進(jìn)行分類(lèi),判定該新用戶(hù) 的類(lèi)別。
2.如權(quán)利要求1所述的基于流行度分類(lèi)特征的托攻擊檢測(cè)算法,其特征在于:所述步 驟S5中的分類(lèi)算法為決策樹(shù)算法,步驟如下: S2a:由已知正常用戶(hù)和虛假用戶(hù)組成的所述用戶(hù)集記為當(dāng)前用戶(hù)集S,S= {n"n2, ? ? ?,nu, ? ? ?,%},用戶(hù)nu的屬性向量為PU,PU= {alu,a2u, ? ? ?atu, ? ? ?aLN}T,其中L= 3, alu,a2u和a3u分別表不MUDu,RUDU和QUDu; S2b:采用連續(xù)屬性離散化的方法,對(duì)當(dāng)前用戶(hù)集S中所有用戶(hù)的屬性向量中的元素進(jìn) 行處理,經(jīng)過(guò)處理后,所有用戶(hù)的每個(gè)屬性根據(jù)其值被分箱分為V個(gè)子區(qū)間; S2c:以屬性MUD為根節(jié)點(diǎn),根據(jù)當(dāng)前用戶(hù)集S中用戶(hù)的MUD值將用戶(hù)分到V個(gè)子區(qū)間 中,形成V個(gè)當(dāng)前用戶(hù)子集; 以屬性RUD為根節(jié)點(diǎn),根據(jù)當(dāng)前用戶(hù)集S中用戶(hù)的RUD值將用戶(hù)分到V個(gè)子區(qū)間中,形 成V個(gè)當(dāng)前用戶(hù)子集; 以屬性QUD為根節(jié)點(diǎn),根據(jù)當(dāng)前用戶(hù)集S中用戶(hù)的QUD值將用戶(hù)分到V個(gè)子區(qū)間中,形 成V個(gè)當(dāng)前用戶(hù)子集; S2d:根據(jù)公式(6)至(10)計(jì)算當(dāng)前用戶(hù)集S在每個(gè)屬性下的信息增益率:
其中,At,t= 1,2, 3,At表示屬性,GainRatio(S,At)表示當(dāng)前用戶(hù)集S在屬性At下的 分類(lèi)信息增益率,Gain(S,At)表示當(dāng)前用戶(hù)集S在屬性At下的分類(lèi)信息增益,Entropy(S) 表示當(dāng)前用戶(hù)集S的信息j:商,Sv表示第v個(gè)當(dāng)前用戶(hù)子集,Entropy(Sv)表示前用戶(hù)子集Sv 的信息熵,|SV|表示第v個(gè)當(dāng)前用戶(hù)子集\中用戶(hù)的數(shù)量,|S|表示當(dāng)前用戶(hù)集S中用戶(hù) 的數(shù)量,Z表示當(dāng)前用戶(hù)集S中正常用戶(hù)的數(shù)量,J表示當(dāng)前用戶(hù)集S中虛假用戶(hù)的數(shù)量,Zv 表示第v個(gè)當(dāng)前用戶(hù)子集Sv中正常用戶(hù)的數(shù)量,Jv表示第v個(gè)當(dāng)前用戶(hù)子集Sv中虛假用戶(hù) 的數(shù)量; S2f:選擇以信息增益率最大的屬性為根節(jié)點(diǎn)將當(dāng)前用戶(hù)集S分成的V個(gè)當(dāng)前用戶(hù)子 集; S2g:判斷每個(gè)當(dāng)前用戶(hù)子集中用戶(hù)的數(shù)量和類(lèi)別: 如果每個(gè)當(dāng)前用戶(hù)子集中用戶(hù)的數(shù)量等于1或0,或者每個(gè)當(dāng)前用戶(hù)子集中用戶(hù)的類(lèi) 標(biāo)簽相同時(shí),執(zhí)行步驟S2i;否則執(zhí)行下一步; S2h:v遍歷其取值,v= (1,2, 3,. . .,V),v每取一個(gè)值,將第v個(gè)當(dāng)前用戶(hù)子集作為當(dāng) 前用戶(hù)集S,更新當(dāng)前用戶(hù)集S,并執(zhí)行步驟S2c至步驟S2g所述的方法; S2i:分類(lèi)結(jié)束,輸出分類(lèi)器。
【專(zhuān)利摘要】本發(fā)明涉及一種基于流行度分類(lèi)特征的托攻擊檢測(cè)算法,該算法首先統(tǒng)計(jì)用戶(hù)對(duì)項(xiàng)目的評(píng)分,構(gòu)建用戶(hù)評(píng)分矩陣;然后統(tǒng)計(jì)項(xiàng)目的項(xiàng)目流行度;其次確定用戶(hù)流行度向量;再次計(jì)算基于流行度的分類(lèi)特征值MUD,RUD和QUD;然后構(gòu)建分類(lèi)器,最后將新用戶(hù)的用戶(hù)流行度向量中的元素輸入分類(lèi)器中,即可判定該新用戶(hù)為正常用戶(hù)或虛假用戶(hù)。本發(fā)明提供的檢測(cè)算法,對(duì)用戶(hù)類(lèi)別有較好的判定效果,無(wú)論是在單純的隨機(jī)攻擊、評(píng)價(jià)攻擊、流行攻擊或混淆技術(shù)干擾時(shí)的攻擊時(shí)都有非常好的托攻擊檢測(cè)性能,并且計(jì)算代價(jià)低,檢測(cè)時(shí)間更短。
【IPC分類(lèi)】G06F17-30, G06F21-55
【公開(kāi)號(hào)】CN104809393
【申請(qǐng)?zhí)枴緾N201510238156
【發(fā)明人】李文濤, 高旻, 田仁麗, 熊慶宇, 文俊浩, 梁山
【申請(qǐng)人】重慶大學(xué)
【公開(kāi)日】2015年7月29日
【申請(qǐng)日】2015年5月11日