1.一種利用模糊理論對欺詐網(wǎng)頁識別的方法,包括如下步驟:
步驟一:
用戶瀏覽完網(wǎng)頁,對網(wǎng)頁進(jìn)行評價做出用戶標(biāo)記:分別為“非欺詐網(wǎng)頁F”、“欺詐網(wǎng)頁S”、“模棱兩可B”或“不知道U”;
步驟二:
每個月末通過搜索引擎將當(dāng)月全部用戶標(biāo)記的數(shù)據(jù)集下載;
步驟三:
對數(shù)據(jù)集按每個網(wǎng)頁不同用戶標(biāo)記的數(shù)量分成若干的矩陣Mi,其中,i=1,2,...,n;
步驟四:
對每個矩陣Mi:記作N,轉(zhuǎn)成模糊相似矩陣R,R的每個元素Rij,其中i,j=1,2,...,n,n∈R,計算公式包括:
其中,i,j=1,2,...,n;n為N的行數(shù);
其中,i,j=1,2,...,n;n為N的行數(shù),m為N的列數(shù);
步驟五:
模糊相似矩陣轉(zhuǎn)成模糊等價矩陣,公式如下:
b=1,2,…,n;n為自熱數(shù);p為R的行數(shù);
直到滿足Rb*Rb?。絉b條件,矩陣達(dá)到收斂;
步驟六:
將收斂的矩陣選取所有的置信水平值[0,1],計算截矩陣;
步驟七:
對于每個截矩陣,聚類產(chǎn)生多個集合,依次從每個集合中選取出第一個站點人工判斷是欺詐網(wǎng)頁還是非欺詐網(wǎng)頁,若是欺詐網(wǎng)頁則認(rèn)為該集合屬于欺詐網(wǎng)頁;若是非欺詐網(wǎng)頁則認(rèn)為該集合屬于非欺詐網(wǎng)頁。