本發(fā)明公開一種利用模糊理論對欺詐網(wǎng)頁進(jìn)行識別的方法,涉及一種不依賴網(wǎng)頁特征的欺詐網(wǎng)頁識別技術(shù),屬于互聯(lián)網(wǎng)安全與服務(wù)
技術(shù)領(lǐng)域:
。
背景技術(shù):
:搜索引擎已經(jīng)成為互聯(lián)網(wǎng)用戶不可或缺的工具,但由于利益的驅(qū)動,欺詐網(wǎng)頁大量混雜于互聯(lián)網(wǎng)中。欺騙者采取非正常手段,針對搜索引擎排序策略對網(wǎng)頁排序進(jìn)行人工干預(yù),以獲得與其地位不相稱的高排名,干擾用戶對信息的獲取,甚至損害用戶利益,這些網(wǎng)頁被稱為欺詐網(wǎng)頁,欺騙者采取的方式可以分為四種:基于內(nèi)容的方式、基于鏈接的方式、基于掩蓋技術(shù)的方式和基于重定向的方式,以往反欺詐研究均針對四種欺騙方式進(jìn)行識別,過度依賴網(wǎng)頁本身,識別結(jié)果短暫有效,尋找不依賴網(wǎng)頁特征的欺詐網(wǎng)頁識別方法是當(dāng)前亟待解決的一個重要問題。技術(shù)實(shí)現(xiàn)要素:本發(fā)明所述的一種利用模糊理論對欺詐網(wǎng)頁識別方法,不依賴網(wǎng)頁特征的欺詐網(wǎng)頁識別方法,解決了以往識別欺詐網(wǎng)頁方法的過度依賴網(wǎng)頁本身、識別結(jié)果短暫有效的問題。本發(fā)明所述的一種利用模糊理論對欺詐網(wǎng)頁識別方法,其技術(shù)方案包括以下步驟:步驟一:用戶瀏覽完網(wǎng)頁,對網(wǎng)頁進(jìn)行評價做出用戶標(biāo)記:分別為“非欺詐網(wǎng)頁F”、“欺詐網(wǎng)頁S”、“模棱兩可B”或“不知道U”;步驟二:每個月末通過搜索引擎將當(dāng)月全部用戶標(biāo)記的數(shù)據(jù)集下載;步驟三:對數(shù)據(jù)集按每個網(wǎng)頁不同用戶標(biāo)記的數(shù)量分成若干的矩陣Mi,其中,i=1,2,...,n;步驟四:對每個矩陣Mi:記作N,轉(zhuǎn)成模糊相似矩陣R,R的每個元素Rij,其中i,j=1,2,...,n,n∈R,計(jì)算公式包括:Rij=1,i=j1-0.1*d(Ni,Nj),i≠j]]>其中,i,j=1,2,...,n;n為N的行數(shù);d(Ni,Nj)=Σk=1m|Nik-Njk|]]>其中,i,j=1,2,...,n;n為N的行數(shù),m為N的列數(shù);步驟五:模糊相似矩陣轉(zhuǎn)成模糊等價矩陣,公式如下:n為自熱數(shù);p為R的行數(shù);直到滿足Rb*Rb!=Rb條件,矩陣達(dá)到收斂;步驟六:將收斂的矩陣選取所有的置信水平值[0,1],計(jì)算截矩陣;步驟七:對于每個截矩陣,聚類產(chǎn)生多個集合,依次從每個集合中選取出第一個站點(diǎn)人工判斷是欺詐網(wǎng)頁還是非欺詐網(wǎng)頁,若是欺詐網(wǎng)頁則認(rèn)為該集合屬于欺詐網(wǎng)頁;若是非欺詐網(wǎng)頁則認(rèn)為該集合屬于非欺詐網(wǎng)頁。本發(fā)明的積極效果在于:利用分工協(xié)作的思維和模糊理論來解決欺詐網(wǎng)頁識別問題,由不同的用戶來決定網(wǎng)頁的質(zhì)量,由計(jì)算機(jī)來分析用戶作出標(biāo)記后的數(shù)據(jù)集,以解決現(xiàn)有欺詐網(wǎng)頁識別方法對網(wǎng)頁的依賴性大的技術(shù)問題。這種技術(shù)方案簡單有效,在未來搜索引擎中具有重要實(shí)用價值。具體實(shí)施方式為了更清楚地說明本發(fā)明技術(shù)方案,下面將根據(jù)技術(shù)描述中所介紹的技術(shù)方案給出三個實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以將該技術(shù)方案運(yùn)用到實(shí)際工程中。實(shí)施例1步驟一:用戶瀏覽完網(wǎng)頁后,按照對網(wǎng)頁的評價,從網(wǎng)頁預(yù)先設(shè)置好的四種標(biāo)記(F,S,B,U)中給出自己的選擇,例如:362FU表示的是id為362的站點(diǎn)有兩個用戶的標(biāo)記分別為F和U。步驟二:為了滿足實(shí)施例的要求,我們使用數(shù)據(jù)集webspam-uk2007(“WebSpamCollections”,http://chato.cl/webspam/datasets/,CrawledbytheLaboratoryofWebAlgorithmics,UniversityofMilan,http://law.di.unimi.it/)來驗(yàn)證聚類的實(shí)驗(yàn)的識別率。步驟三:從數(shù)據(jù)集中選取用戶數(shù)為2的50條數(shù)據(jù),產(chǎn)生50*2的矩陣M。步驟四:對該矩陣根據(jù)公式計(jì)算模糊相似矩陣得到50*50的矩陣R。計(jì)算公式包括:Rij=1,i=j1-0.1*d(Ni,Nj),i≠j]]>其中,i,j=1,2,...,n。n為N的行數(shù);d(Ni,Nj)=Σk=1m|Nik-Njk|]]>其中,i,j=1,2,...,n。n為N的行數(shù),m為N的列數(shù);步驟五:對步驟四所產(chǎn)生的矩陣R,利用公式計(jì)算模糊等價矩陣,計(jì)算結(jié)果是m=8,即R8·R8=R8,這時R依然為50*50的矩陣。公式如下:n為自熱數(shù);p為R的行數(shù);直到滿足Rb*Rb?。絉b條件,矩陣達(dá)到收斂;步驟六:把矩陣中所包含的元素從大到小的順序編排如下:記為λ:1>0.9>0.8。依次取λ=1,0.9,0.8分別計(jì)算其截集矩陣,當(dāng)λ=1時,矩陣中所有小于1的值都替換成0,產(chǎn)生第一個截矩陣;當(dāng)λ=0.9時,矩陣中所有大于等于0.9的值都替換成1,矩陣中所有小于0.9的值都替換成0,產(chǎn)生第二個截矩陣;當(dāng)λ=0.8時,矩陣中所有大于等于0.8的值都替換成1,產(chǎn)生第三個截矩陣。步驟七:當(dāng)λ=1時,聚類產(chǎn)生5個集合,依次從每個集合中選取第一個站點(diǎn)人工判斷是欺詐網(wǎng)頁還是非欺詐網(wǎng)頁,若是欺詐網(wǎng)頁則認(rèn)為該集合屬于欺詐網(wǎng)頁,若是非欺詐網(wǎng)頁則認(rèn)為該集合屬于非欺詐網(wǎng)頁,實(shí)施例結(jié)果如下表:(對于每個集合中每個站點(diǎn)我們根據(jù)數(shù)據(jù)集給出的判定進(jìn)行驗(yàn)證其對應(yīng)的識別率)當(dāng)λ=0.9時,聚類產(chǎn)生4個集合,依次從每個集合中選取第一個站點(diǎn)人工判斷是欺詐網(wǎng)頁還是非欺詐網(wǎng)頁,若是欺詐網(wǎng)頁則認(rèn)為該集合屬于欺詐網(wǎng)頁,若是非欺詐網(wǎng)頁則認(rèn)為該集合屬于非欺詐網(wǎng)頁,實(shí)施例結(jié)果如下表:(對于每個集合中每個站點(diǎn)我們根據(jù)數(shù)據(jù)集給出的判定進(jìn)行驗(yàn)證其對應(yīng)的識別率)當(dāng)λ=0.8時,聚類產(chǎn)生1個集合,實(shí)施例1以此為標(biāo)志完成實(shí)施例1。實(shí)施例2步驟一:用戶瀏覽完網(wǎng)頁后,按照對網(wǎng)頁的評價,從網(wǎng)頁預(yù)先設(shè)置好的四種標(biāo)記(F,S,B,U)中給出自己的選擇,例如:362FU表示的是id為362的站點(diǎn)有兩個用戶的標(biāo)記分別為F和U。步驟二:為了滿足實(shí)施例的要求,我們使用數(shù)據(jù)集webspam-uk2007(“WebSpamCollections”,http://chato.cl/webspam/datasets/,CrawledbytheLaboratoryofWebAlgorithmics,UniversityofMilan,http://law.di.unimi.it/)來驗(yàn)證聚類的實(shí)驗(yàn)的識別率。步驟三:從數(shù)據(jù)集中選取用戶數(shù)為2的100條數(shù)據(jù),產(chǎn)生100*2的矩陣M。步驟四:對該矩陣根據(jù)公式計(jì)算模糊相似矩陣得到100*100的矩陣R。計(jì)算公式包括:Rij=1,i=j1-0.1*d(Ni,Nj),i≠j]]>其中,i,j=1,2,...,n。n為N的行數(shù);d(Ni,Nj)=Σk=1m|Nik-Njk|]]>其中,i,j=1,2,...,n。n為N的行數(shù),m為N的列數(shù);步驟五:對步驟四所產(chǎn)生的矩陣R,利用公式計(jì)算模糊等價矩陣,計(jì)算結(jié)果是m=16,即R16·R16=R16,這時R依然為100*100的矩陣。公式如下:n為自熱數(shù);p為R的行數(shù);直到滿足Rb*Rb!=Rb條件,矩陣達(dá)到收斂;步驟六:把矩陣中所包含的元素從大到小的順序編排如下:記為λ:1>0.9>0.8。依次取λ=1,0.9,0.8分別計(jì)算其截集矩陣,當(dāng)λ=1時,矩陣中所有小于1的值都替換成0,產(chǎn)生第一個截矩陣;當(dāng)λ=0.9時,矩陣中所有大于等于0.9的值都替換成1,矩陣中所有小于0.9的值都替換成0,產(chǎn)生第二個截矩陣;當(dāng)λ=0.8時,矩陣中所有大于等于0.8的值都替換成1,產(chǎn)生第三個截矩陣。步驟七:當(dāng)λ=1時,聚類產(chǎn)生8個集合,依次從每個集合中選取第一個站點(diǎn)人工判斷是欺詐網(wǎng)頁還是非欺詐網(wǎng)頁,若是欺詐網(wǎng)頁則認(rèn)為該集合屬于欺詐網(wǎng)頁,若是非欺詐網(wǎng)頁則認(rèn)為該集合屬于非欺詐網(wǎng)頁,實(shí)施例結(jié)果如下表:(對于每個集合中每個站點(diǎn)我們根據(jù)數(shù)據(jù)集給出的判定進(jìn)行驗(yàn)證其對應(yīng)的識別率)當(dāng)λ=0.9時,聚類產(chǎn)生2個集合,依次從每個集合中選取第一個站點(diǎn)人工判斷是欺詐網(wǎng)頁還是非欺詐網(wǎng)頁,若是欺詐網(wǎng)頁則認(rèn)為該集合屬于欺詐網(wǎng)頁,若是非欺詐網(wǎng)頁則認(rèn)為該集合屬于非欺詐網(wǎng)頁,實(shí)施例結(jié)果如下表:(對于每個集合中每個站點(diǎn)我們根據(jù)數(shù)據(jù)集給出的判定進(jìn)行驗(yàn)證其對應(yīng)的識別率)當(dāng)λ=0.8時,聚類產(chǎn)生1個集合,實(shí)施例2以此為標(biāo)志完成實(shí)施例2。實(shí)施例3步驟一:用戶瀏覽完網(wǎng)頁后,按照對網(wǎng)頁的評價,從網(wǎng)頁預(yù)先設(shè)置好的四種標(biāo)記(F,S,B,U)中給出自己的選擇,例如:362FU表示的是id為362的站點(diǎn)有兩個用戶的標(biāo)記分別為F和U。步驟二:為了滿足實(shí)施例的要求,我們使用數(shù)據(jù)集webspam-uk2007(“WebSpamCollections”,http://chato.cl/webspam/datasets/,CrawledbytheLaboratoryofWebAlgorithmics,UniversityofMilan,http://law.di.unimi.it/)來驗(yàn)證聚類的實(shí)驗(yàn)的識別率。步驟三:從數(shù)據(jù)集中選取用戶數(shù)為2的200條數(shù)據(jù),產(chǎn)生200*2的矩陣M。步驟四:對該矩陣根據(jù)公式計(jì)算模糊相似矩陣得到200*200的矩陣R。計(jì)算公式包括:Rij=1,i=j1-0.1*d(Ni,Nj),i≠j]]>其中,i,j=1,2,...,n。n為N的行數(shù);d(Ni,Nj)=Σk=1m|Nik-Njk|]]>其中,i,j=1,2,...,n。n為N的行數(shù),m為N的列數(shù);步驟五:對步驟四所產(chǎn)生的矩陣R,利用公式計(jì)算模糊等價矩陣,計(jì)算結(jié)果是m=8,即R8·R8=R8,這時R依然為200*200的矩陣。公式如下:n為自熱數(shù);p為R的行數(shù);直到滿足Rb*Rb?。絉b條件,矩陣達(dá)到收斂;步驟六:把矩陣中所包含的元素從大到小的順序編排如下:記為λ:1>0.9>0.8。依次取λ=1,0.9,0.8分別計(jì)算其截集矩陣,當(dāng)λ=1時,矩陣中所有小于1的值都替換成0,產(chǎn)生第一個截矩陣;當(dāng)λ=0.9時,矩陣中所有大于等于0.9的值都替換成1,矩陣中所有小于0.9的值都替換成0,產(chǎn)生第二個截矩陣;當(dāng)λ=0.8時,矩陣中所有大于等于0.8的值都替換成1,產(chǎn)生第三個截矩陣。步驟七:當(dāng)λ=1時,聚類產(chǎn)生9個集合,依次從每個集合中選取第一個站點(diǎn)人工判斷是欺詐網(wǎng)頁還是非欺詐網(wǎng)頁,若是欺詐網(wǎng)頁則認(rèn)為該集合屬于欺詐網(wǎng)頁,若是非欺詐網(wǎng)頁則認(rèn)為該集合屬于非欺詐網(wǎng)頁,實(shí)施例結(jié)果如下表:(對于每個集合中每個站點(diǎn)我們根據(jù)數(shù)據(jù)集給出的判定進(jìn)行驗(yàn)證其對應(yīng)的識別率)當(dāng)λ=0.9時,聚類產(chǎn)生3個集合,依次從每個集合中選取第一個站點(diǎn)人工判斷是欺詐網(wǎng)頁還是非欺詐網(wǎng)頁,若是欺詐網(wǎng)頁則認(rèn)為該集合屬于欺詐網(wǎng)頁,若是非欺詐網(wǎng)頁則認(rèn)為該集合屬于非欺詐網(wǎng)頁,實(shí)施例結(jié)果如下表:(對于每個集合中每個站點(diǎn)我們根據(jù)數(shù)據(jù)集給出的判定進(jìn)行驗(yàn)證其對應(yīng)的識別率)當(dāng)λ=0.8時,聚類產(chǎn)生1個集合,實(shí)施例3以此為標(biāo)志完成實(shí)施例3。當(dāng)前第1頁1 2 3