利用模糊理論對欺詐網(wǎng)頁識別的方法與流程

文檔序號：12748389閱讀：192來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明公開一種利用模糊理論對欺詐網(wǎng)頁進(jìn)行識別的方法，涉及一種不依賴網(wǎng)頁特征的欺詐網(wǎng)頁識別技術(shù)，屬于互聯(lián)網(wǎng)安全與服務(wù)
技術(shù)領(lǐng)域：
。
背景技術(shù)：
：搜索引擎已經(jīng)成為互聯(lián)網(wǎng)用戶不可或缺的工具,但由于利益的驅(qū)動，欺詐網(wǎng)頁大量混雜于互聯(lián)網(wǎng)中。欺騙者采取非正常手段，針對搜索引擎排序策略對網(wǎng)頁排序進(jìn)行人工干預(yù)，以獲得與其地位不相稱的高排名，干擾用戶對信息的獲取，甚至損害用戶利益，這些網(wǎng)頁被稱為欺詐網(wǎng)頁，欺騙者采取的方式可以分為四種：基于內(nèi)容的方式、基于鏈接的方式、基于掩蓋技術(shù)的方式和基于重定向的方式，以往反欺詐研究均針對四種欺騙方式進(jìn)行識別，過度依賴網(wǎng)頁本身，識別結(jié)果短暫有效，尋找不依賴網(wǎng)頁特征的欺詐網(wǎng)頁識別方法是當(dāng)前亟待解決的一個重要問題。技術(shù)實(shí)現(xiàn)要素：本發(fā)明所述的一種利用模糊理論對欺詐網(wǎng)頁識別方法，不依賴網(wǎng)頁特征的欺詐網(wǎng)頁識別方法，解決了以往識別欺詐網(wǎng)頁方法的過度依賴網(wǎng)頁本身、識別結(jié)果短暫有效的問題。本發(fā)明所述的一種利用模糊理論對欺詐網(wǎng)頁識別方法，其技術(shù)方案包括以下步驟：步驟一：用戶瀏覽完網(wǎng)頁，對網(wǎng)頁進(jìn)行評價做出用戶標(biāo)記：分別為“非欺詐網(wǎng)頁F”、“欺詐網(wǎng)頁S”、“模棱兩可B”或“不知道U”；步驟二：每個月末通過搜索引擎將當(dāng)月全部用戶標(biāo)記的數(shù)據(jù)集下載；步驟三：對數(shù)據(jù)集按每個網(wǎng)頁不同用戶標(biāo)記的數(shù)量分成若干的矩陣Mi，其中，i＝1，2，...，n；步驟四：對每個矩陣Mi：記作N，轉(zhuǎn)成模糊相似矩陣R，R的每個元素Rij，其中i，j＝1，2，...，n，n∈R，計(jì)算公式包括：Rij=1,i=j1-0.1*d(Ni,Nj),i≠j]]>其中，i，j＝1，2，...，n；n為N的行數(shù)；d(Ni,Nj)=Σk=1m|Nik-Njk|]]>其中，i，j＝1，2，...，n；n為N的行數(shù)，m為N的列數(shù)；步驟五：模糊相似矩陣轉(zhuǎn)成模糊等價矩陣，公式如下：n為自熱數(shù)；p為R的行數(shù)；直到滿足Rb*Rb！＝Rb條件，矩陣達(dá)到收斂；步驟六：將收斂的矩陣選取所有的置信水平值[0,1]，計(jì)算截矩陣；步驟七：對于每個截矩陣，聚類產(chǎn)生多個集合，依次從每個集合中選取出第一個站點(diǎn)人工判斷是欺詐網(wǎng)頁還是非欺詐網(wǎng)頁，若是欺詐網(wǎng)頁則認(rèn)為該集合屬于欺詐網(wǎng)頁；若是非欺詐網(wǎng)頁則認(rèn)為該集合屬于非欺詐網(wǎng)頁。本發(fā)明的積極效果在于：利用分工協(xié)作的思維和模糊理論來解決欺詐網(wǎng)頁識別問題，由不同的用戶來決定網(wǎng)頁的質(zhì)量，由計(jì)算機(jī)來分析用戶作出標(biāo)記后的數(shù)據(jù)集，以解決現(xiàn)有欺詐網(wǎng)頁識別方法對網(wǎng)頁的依賴性大的技術(shù)問題。這種技術(shù)方案簡單有效，在未來搜索引擎中具有重要實(shí)用價值。具體實(shí)施方式為了更清楚地說明本發(fā)明技術(shù)方案，下面將根據(jù)技術(shù)描述中所介紹的技術(shù)方案給出三個實(shí)施例，對于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動性的前提下，還可以將該技術(shù)方案運(yùn)用到實(shí)際工程中。實(shí)施例1步驟一：用戶瀏覽完網(wǎng)頁后，按照對網(wǎng)頁的評價，從網(wǎng)頁預(yù)先設(shè)置好的四種標(biāo)記(F，S，B，U)中給出自己的選擇，例如：362FU表示的是id為362的站點(diǎn)有兩個用戶的標(biāo)記分別為F和U。步驟二：為了滿足實(shí)施例的要求，我們使用數(shù)據(jù)集webspam-uk2007(“WebSpamCollections”，http://chato.cl/webspam/datasets/，CrawledbytheLaboratoryofWebAlgorithmics，UniversityofMilan，http://law.di.unimi.it/)來驗(yàn)證聚類的實(shí)驗(yàn)的識別率。步驟三：從數(shù)據(jù)集中選取用戶數(shù)為2的50條數(shù)據(jù)，產(chǎn)生50*2的矩陣M。步驟四：對該矩陣根據(jù)公式計(jì)算模糊相似矩陣得到50*50的矩陣R。計(jì)算公式包括：Rij=1,i=j1-0.1*d(Ni,Nj),i≠j]]>其中，i，j＝1，2，...，n。n為N的行數(shù)；d(Ni,Nj)=Σk=1m|Nik-Njk|]]>其中，i，j＝1，2，...，n。n為N的行數(shù)，m為N的列數(shù)；步驟五：對步驟四所產(chǎn)生的矩陣R，利用公式計(jì)算模糊等價矩陣，計(jì)算結(jié)果是m＝8，即R8·R8＝R8，這時R依然為50*50的矩陣。公式如下：n為自熱數(shù)；p為R的行數(shù)；直到滿足Rb*Rb?。絉b條件，矩陣達(dá)到收斂；步驟六：把矩陣中所包含的元素從大到小的順序編排如下:記為λ：1>0.9>0.8。依次取λ＝1，0.9，0.8分別計(jì)算其截集矩陣，當(dāng)λ＝1時，矩陣中所有小于1的值都替換成0，產(chǎn)生第一個截矩陣；當(dāng)λ＝0.9時，矩陣中所有大于等于0.9的值都替換成1，矩陣中所有小于0.9的值都替換成0，產(chǎn)生第二個截矩陣；當(dāng)λ＝0.8時，矩陣中所有大于等于0.8的值都替換成1，產(chǎn)生第三個截矩陣。步驟七：當(dāng)λ＝1時，聚類產(chǎn)生5個集合，依次從每個集合中選取第一個站點(diǎn)人工判斷是欺詐網(wǎng)頁還是非欺詐網(wǎng)頁，若是欺詐網(wǎng)頁則認(rèn)為該集合屬于欺詐網(wǎng)頁，若是非欺詐網(wǎng)頁則認(rèn)為該集合屬于非欺詐網(wǎng)頁，實(shí)施例結(jié)果如下表：(對于每個集合中每個站點(diǎn)我們根據(jù)數(shù)據(jù)集給出的判定進(jìn)行驗(yàn)證其對應(yīng)的識別率)當(dāng)λ＝0.9時，聚類產(chǎn)生4個集合，依次從每個集合中選取第一個站點(diǎn)人工判斷是欺詐網(wǎng)頁還是非欺詐網(wǎng)頁，若是欺詐網(wǎng)頁則認(rèn)為該集合屬于欺詐網(wǎng)頁，若是非欺詐網(wǎng)頁則認(rèn)為該集合屬于非欺詐網(wǎng)頁，實(shí)施例結(jié)果如下表：(對于每個集合中每個站點(diǎn)我們根據(jù)數(shù)據(jù)集給出的判定進(jìn)行驗(yàn)證其對應(yīng)的識別率)當(dāng)λ＝0.8時，聚類產(chǎn)生1個集合，實(shí)施例1以此為標(biāo)志完成實(shí)施例1。實(shí)施例2步驟一：用戶瀏覽完網(wǎng)頁后，按照對網(wǎng)頁的評價，從網(wǎng)頁預(yù)先設(shè)置好的四種標(biāo)記(F，S，B，U)中給出自己的選擇，例如：362FU表示的是id為362的站點(diǎn)有兩個用戶的標(biāo)記分別為F和U。步驟二：為了滿足實(shí)施例的要求，我們使用數(shù)據(jù)集webspam-uk2007(“WebSpamCollections”，http://chato.cl/webspam/datasets/，CrawledbytheLaboratoryofWebAlgorithmics，UniversityofMilan，http://law.di.unimi.it/)來驗(yàn)證聚類的實(shí)驗(yàn)的識別率。步驟三：從數(shù)據(jù)集中選取用戶數(shù)為2的100條數(shù)據(jù)，產(chǎn)生100*2的矩陣M。步驟四：對該矩陣根據(jù)公式計(jì)算模糊相似矩陣得到100*100的矩陣R。計(jì)算公式包括：Rij=1,i=j1-0.1*d(Ni,Nj),i≠j]]>其中，i，j＝1，2，...，n。n為N的行數(shù)；d(Ni,Nj)=Σk=1m|Nik-Njk|]]>其中，i，j＝1，2，...，n。n為N的行數(shù)，m為N的列數(shù)；步驟五：對步驟四所產(chǎn)生的矩陣R，利用公式計(jì)算模糊等價矩陣，計(jì)算結(jié)果是m＝16，即R16·R16＝R16，這時R依然為100*100的矩陣。公式如下：n為自熱數(shù)；p為R的行數(shù)；直到滿足Rb*Rb！＝Rb條件，矩陣達(dá)到收斂；步驟六：把矩陣中所包含的元素從大到小的順序編排如下:記為λ：1>0.9>0.8。依次取λ＝1，0.9，0.8分別計(jì)算其截集矩陣，當(dāng)λ＝1時，矩陣中所有小于1的值都替換成0，產(chǎn)生第一個截矩陣；當(dāng)λ＝0.9時，矩陣中所有大于等于0.9的值都替換成1，矩陣中所有小于0.9的值都替換成0，產(chǎn)生第二個截矩陣；當(dāng)λ＝0.8時，矩陣中所有大于等于0.8的值都替換成1，產(chǎn)生第三個截矩陣。步驟七：當(dāng)λ＝1時，聚類產(chǎn)生8個集合，依次從每個集合中選取第一個站點(diǎn)人工判斷是欺詐網(wǎng)頁還是非欺詐網(wǎng)頁，若是欺詐網(wǎng)頁則認(rèn)為該集合屬于欺詐網(wǎng)頁，若是非欺詐網(wǎng)頁則認(rèn)為該集合屬于非欺詐網(wǎng)頁，實(shí)施例結(jié)果如下表：(對于每個集合中每個站點(diǎn)我們根據(jù)數(shù)據(jù)集給出的判定進(jìn)行驗(yàn)證其對應(yīng)的識別率)當(dāng)λ＝0.9時，聚類產(chǎn)生2個集合，依次從每個集合中選取第一個站點(diǎn)人工判斷是欺詐網(wǎng)頁還是非欺詐網(wǎng)頁，若是欺詐網(wǎng)頁則認(rèn)為該集合屬于欺詐網(wǎng)頁，若是非欺詐網(wǎng)頁則認(rèn)為該集合屬于非欺詐網(wǎng)頁，實(shí)施例結(jié)果如下表：(對于每個集合中每個站點(diǎn)我們根據(jù)數(shù)據(jù)集給出的判定進(jìn)行驗(yàn)證其對應(yīng)的識別率)當(dāng)λ＝0.8時，聚類產(chǎn)生1個集合，實(shí)施例2以此為標(biāo)志完成實(shí)施例2。實(shí)施例3步驟一：用戶瀏覽完網(wǎng)頁后，按照對網(wǎng)頁的評價，從網(wǎng)頁預(yù)先設(shè)置好的四種標(biāo)記(F，S，B，U)中給出自己的選擇，例如：362FU表示的是id為362的站點(diǎn)有兩個用戶的標(biāo)記分別為F和U。步驟二：為了滿足實(shí)施例的要求，我們使用數(shù)據(jù)集webspam-uk2007(“WebSpamCollections”，http://chato.cl/webspam/datasets/，CrawledbytheLaboratoryofWebAlgorithmics，UniversityofMilan，http://law.di.unimi.it/)來驗(yàn)證聚類的實(shí)驗(yàn)的識別率。步驟三：從數(shù)據(jù)集中選取用戶數(shù)為2的200條數(shù)據(jù)，產(chǎn)生200*2的矩陣M。步驟四：對該矩陣根據(jù)公式計(jì)算模糊相似矩陣得到200*200的矩陣R。計(jì)算公式包括：Rij=1,i=j1-0.1*d(Ni,Nj),i≠j]]>其中，i，j＝1，2，...，n。n為N的行數(shù)；d(Ni,Nj)=Σk=1m|Nik-Njk|]]>其中，i，j＝1，2，...，n。n為N的行數(shù)，m為N的列數(shù)；步驟五：對步驟四所產(chǎn)生的矩陣R，利用公式計(jì)算模糊等價矩陣，計(jì)算結(jié)果是m＝8，即R8·R8＝R8，這時R依然為200*200的矩陣。公式如下：n為自熱數(shù)；p為R的行數(shù)；直到滿足Rb*Rb?。絉b條件，矩陣達(dá)到收斂；步驟六：把矩陣中所包含的元素從大到小的順序編排如下:記為λ：1>0.9>0.8。依次取λ＝1，0.9，0.8分別計(jì)算其截集矩陣，當(dāng)λ＝1時，矩陣中所有小于1的值都替換成0，產(chǎn)生第一個截矩陣；當(dāng)λ＝0.9時，矩陣中所有大于等于0.9的值都替換成1，矩陣中所有小于0.9的值都替換成0，產(chǎn)生第二個截矩陣；當(dāng)λ＝0.8時，矩陣中所有大于等于0.8的值都替換成1，產(chǎn)生第三個截矩陣。步驟七：當(dāng)λ＝1時，聚類產(chǎn)生9個集合，依次從每個集合中選取第一個站點(diǎn)人工判斷是欺詐網(wǎng)頁還是非欺詐網(wǎng)頁，若是欺詐網(wǎng)頁則認(rèn)為該集合屬于欺詐網(wǎng)頁，若是非欺詐網(wǎng)頁則認(rèn)為該集合屬于非欺詐網(wǎng)頁，實(shí)施例結(jié)果如下表：(對于每個集合中每個站點(diǎn)我們根據(jù)數(shù)據(jù)集給出的判定進(jìn)行驗(yàn)證其對應(yīng)的識別率)當(dāng)λ＝0.9時，聚類產(chǎn)生3個集合，依次從每個集合中選取第一個站點(diǎn)人工判斷是欺詐網(wǎng)頁還是非欺詐網(wǎng)頁，若是欺詐網(wǎng)頁則認(rèn)為該集合屬于欺詐網(wǎng)頁，若是非欺詐網(wǎng)頁則認(rèn)為該集合屬于非欺詐網(wǎng)頁，實(shí)施例結(jié)果如下表：(對于每個集合中每個站點(diǎn)我們根據(jù)數(shù)據(jù)集給出的判定進(jìn)行驗(yàn)證其對應(yīng)的識別率)當(dāng)λ＝0.8時，聚類產(chǎn)生1個集合，實(shí)施例3以此為標(biāo)志完成實(shí)施例3。當(dāng)前第1頁1 2 3

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：尚靖博;左祥麟;左萬利;王英;
技術(shù)所有人：吉林大學(xué);
我是此專利的發(fā)明人

上一篇：篡改檢測的制作方法與工藝
上一篇：一種基于語法變換的SQL注入攻擊防御系統(tǒng)及防御方法與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

模糊控制理論相關(guān)技術(shù)

模糊集理論相關(guān)技術(shù)

模糊理論相關(guān)技術(shù)

模糊數(shù)學(xué)理論及其應(yīng)用相關(guān)技術(shù)

模糊控制理論與應(yīng)用相關(guān)技術(shù)

模糊集合理論相關(guān)技術(shù)

模糊粗糙集理論與方法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

利用模糊理論對欺詐網(wǎng)頁識別的方法與流程