專利名稱:一種多視圖網(wǎng)絡(luò)垃圾頁(yè)面檢測(cè)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種多視圖網(wǎng)絡(luò)垃圾頁(yè)面檢測(cè)方法,屬于internet信息檢索領(lǐng)域。
背景技術(shù):
部分網(wǎng)站擁有者為獲取商業(yè)利益,采用不正當(dāng)手段欺騙搜索引擎網(wǎng)站排序算法, 使不重要網(wǎng)站或頁(yè)面排序靠前,破壞引擎搜索結(jié)果。其相關(guān)技術(shù)有搜索引擎優(yōu)化(SEO)及搜索引擎市場(chǎng)(SEM)等,統(tǒng)稱為搜索引擎spam,即ffeb spam(網(wǎng)絡(luò)垃圾頁(yè)面)。目前Web spam已成為各種Web搜索面臨的重要挑戰(zhàn),嚴(yán)重影響信息檢索效果,同時(shí)ffeb spam發(fā)展迅速,新的spamming技術(shù)不斷出現(xiàn)。Web spam主要三種表現(xiàn)形式基于內(nèi)容、鏈接(link)及頁(yè)面隱藏。目前檢測(cè)spam頁(yè)面的方法多采用啟發(fā)式函數(shù),檢測(cè)特定形式的spam頁(yè)面,不能同時(shí)檢測(cè)多種spam頁(yè)面,檢測(cè)時(shí)間復(fù)雜度高,同時(shí)對(duì)訓(xùn)練數(shù)據(jù)的不平衡性敏感。所謂訓(xùn)練數(shù)據(jù)不平衡是指在訓(xùn)練數(shù)據(jù)中正常頁(yè)面的數(shù)量要遠(yuǎn)大于spam頁(yè)面的數(shù)量。Web頁(yè)面數(shù)量為海量數(shù)據(jù),人工標(biāo)注頁(yè)面為正常頁(yè)面還是spam頁(yè)面費(fèi)時(shí)費(fèi)力,只能人工標(biāo)注部分頁(yè)面,用標(biāo)注好的頁(yè)面訓(xùn)練分類器,對(duì)大量的未標(biāo)注頁(yè)面進(jìn)行機(jī)器標(biāo)注,即用學(xué)習(xí)好的分類器將未標(biāo)注的頁(yè)面檢測(cè)為正常頁(yè)面或spam頁(yè)面。檢測(cè)spam頁(yè)面的主要技術(shù)手段有依據(jù)頁(yè)面內(nèi)容的方法、基于link的方法、統(tǒng)計(jì)方法及圖論方法等?;趦?nèi)容的spam檢測(cè)依據(jù)spam頁(yè)面內(nèi)容特征,采用啟發(fā)式函數(shù)對(duì)其檢測(cè),難以形成統(tǒng)一模型。有些方法通過(guò)應(yīng)用統(tǒng)計(jì)技術(shù),分析頁(yè)面關(guān)鍵詞分布檢測(cè)spam頁(yè)面, 可用于解決因重復(fù)關(guān)鍵字、修改頁(yè)面內(nèi)容等對(duì)搜索結(jié)果頁(yè)面排序的改變;基于鏈接的搜索引擎頁(yè)面排序算法如I^ageRank及HITS,由于忽略了頁(yè)面內(nèi)容對(duì)頁(yè)面排序的影響,也可以用來(lái)檢測(cè)基于內(nèi)容的spam頁(yè)面。應(yīng)用機(jī)器學(xué)習(xí)方法在檢測(cè)內(nèi)容spam頁(yè)面時(shí),首先提取頁(yè)面內(nèi)容特征,再使用分類技術(shù)實(shí)現(xiàn)頁(yè)面檢測(cè)?;阪溄拥捻?yè)面排序算法在搜索引擎中得到廣泛應(yīng)用,可用于檢測(cè)基于link的 spam頁(yè)面。啟發(fā)式方法有二分圖方法,依據(jù)link鄰接矩陣中是否存在相關(guān)子圖判斷鏈接是否為link spam。另外,通過(guò)分析統(tǒng)計(jì)上不尋常的鏈接結(jié)構(gòu)及新的頁(yè)面排序算法可檢測(cè) link spam 頁(yè)面。近年來(lái),機(jī)器學(xué)習(xí)技術(shù)在ffeb spam檢測(cè)方面得到應(yīng)用,通過(guò)提取頁(yè)面特征,訓(xùn)練分類器,獲得較好的檢測(cè)性能。但當(dāng)數(shù)據(jù)維數(shù)較大時(shí),都存在如下問(wèn)題對(duì)訓(xùn)練數(shù)據(jù)的不平衡性敏感、不能同時(shí)檢測(cè)多種不同的spam頁(yè)面以及檢測(cè)時(shí)間復(fù)雜度高的問(wèn)題。傳統(tǒng)分類器如決策樹、神經(jīng)網(wǎng)絡(luò)及支持向量機(jī)等都假設(shè)訓(xùn)練數(shù)據(jù)中屬于不同類的數(shù)據(jù)基本平衡,即各類數(shù)據(jù)的數(shù)量差異不大。研究表明,一旦當(dāng)各類數(shù)量差異較大時(shí),尤其對(duì)于兩類問(wèn)題,當(dāng)一類數(shù)據(jù)的數(shù)量遠(yuǎn)多于另一類數(shù)據(jù)的數(shù)量時(shí),通過(guò)學(xué)習(xí)得到的分類器,對(duì)數(shù)量少的那一類(少數(shù)類)的分類準(zhǔn)確度將會(huì)大大降低。提高少數(shù)類的分類準(zhǔn)確度往往意義更大。Spam頁(yè)面數(shù)據(jù)較少,也就是說(shuō),我們收集的頁(yè)面中絕大部分都是正常頁(yè)面,而少數(shù)為spam頁(yè)面,降低訓(xùn)練數(shù)據(jù)不平衡對(duì)分類器的影響對(duì)提高spam頁(yè)面的識(shí)別率特別重要。
發(fā)明內(nèi)容
本發(fā)明的目的就是為了解決上述問(wèn)題,提供一種多視圖web spam檢測(cè)方法,該方法只需依據(jù)訓(xùn)練數(shù)據(jù)學(xué)習(xí)權(quán)重矩陣,不需要訓(xùn)練分類器,所以具有對(duì)訓(xùn)練數(shù)據(jù)不平衡性不敏感特點(diǎn);該方法可同時(shí)檢測(cè)多類spam頁(yè)面,優(yōu)于現(xiàn)有只針對(duì)特定spam頁(yè)面檢測(cè)有效的方法;檢測(cè)過(guò)程簡(jiǎn)單,只需要根據(jù)訓(xùn)練數(shù)據(jù)學(xué)習(xí)到權(quán)重矩陣、計(jì)算范數(shù)的差,依據(jù)范數(shù)差的大小決定新頁(yè)面識(shí)別為正常頁(yè)面還是spam頁(yè)面。為了實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案一種多視圖web spam檢測(cè)方法,該方法包括如下步驟步驟1 首先獲取訓(xùn)練數(shù)據(jù)中所有正常頁(yè)面和spam頁(yè)面的內(nèi)容視圖及鏈接視圖;步驟2 然后獲取待檢測(cè)頁(yè)面的內(nèi)容視圖及鏈接視圖;步驟3 將步驟1中所有正常頁(yè)面的內(nèi)容視圖及鏈接視圖各自構(gòu)造矩陣,得到正常內(nèi)容矩陣和正常鏈接矩陣;步驟4:將步驟1中所有spam頁(yè)面的內(nèi)容視圖及鏈接視圖各自構(gòu)造矩陣,得到 spam內(nèi)容矩陣及spam鏈接矩陣;步驟5 用待檢測(cè)頁(yè)面的內(nèi)容視圖及鏈接視圖各自構(gòu)造矩陣,得到待檢測(cè)內(nèi)容矩陣及待檢測(cè)鏈接矩陣;步驟6 利用正常內(nèi)容矩陣和待檢測(cè)內(nèi)容矩陣求解權(quán)重矩陣W_,利用spam內(nèi)容矩陣及待檢測(cè)內(nèi)容矩陣求解權(quán)重矩陣W+ ;步驟7 利用正常鏈接矩陣及權(quán)重矩陣W_求解近似矩陣B1,利用spam鏈接矩陣及權(quán)重矩陣w+求解近似矩陣化;步驟8 利用步驟7中的近似矩陣B1和待檢測(cè)鏈接矩陣求解正常范數(shù)E1,利用近似矩陣4和待檢測(cè)鏈接矩陣求解spam范數(shù)E+ ;步驟9 比較正常范數(shù)E1與spam范數(shù)E+的大?。蝗粽7稊?shù)小于spam范數(shù),則待檢測(cè)頁(yè)面為正常頁(yè)面;若正常范數(shù)大于spam范數(shù),則待檢測(cè)頁(yè)面為spam頁(yè)面;若兩者相等,則待檢測(cè)頁(yè)面隨機(jī)識(shí)別為正常頁(yè)面或spam頁(yè)面;步驟10 如果待檢測(cè)頁(yè)面被識(shí)別為正常頁(yè)面,就被保留下來(lái),否則將待檢測(cè)頁(yè)面從頁(yè)面庫(kù)中刪除,檢測(cè)結(jié)束。 所述的步驟6中,求解權(quán)重矩陣I的公式如下min| I [AJ-[AJlI I2s. t. IIiII2 = I公式表示在滿足約束條件I |W_| I2 = 1的情況下,求解使得I I [AX]-[AJW_| I2取得最小值的權(quán)重矩陣w_;該最小化表示通過(guò)權(quán)重W-與[A_]構(gòu)造出的內(nèi)容矩陣[A_]W_與待測(cè)頁(yè)面的內(nèi)容矩陣[AJ間的差異性盡可能小。所述的步驟6中,求解權(quán)重矩陣W+的公式如下min| | [Aj-[AjffJ |2s. t. IW +1 12 = 1公式表示在滿足約束條件IffJI2 = I的情況下,求解使得I I [AJ-[AJffJ I2取得最小值的權(quán)重矩陣W+;該最小化表示通過(guò)權(quán)重W+與[AJ構(gòu)造出的內(nèi)容矩陣[AJW+與待測(cè)頁(yè)面P的內(nèi)容矩陣[AJ間的差異性盡可能小。
所述的步驟7中,計(jì)算近似矩陣B1和化的公式如下B1 = [Bjff_ (1)B2 = [B+]ff+ (2)公式(1)通過(guò)變換矩陣W_和[B_]計(jì)算待檢測(cè)頁(yè)面的近似矩陣B1 ;公式( 通過(guò)變換矩陣W+和[BJ計(jì)算待檢測(cè)頁(yè)面的近似矩陣4。所述的步驟8中,求解正常范數(shù)E_和spam范數(shù)E+公式如下E_ = I I [Bj-Bj I2 ;E+ = I I [BJ-B2I I2 ;范數(shù)的大小表示兩個(gè)近似矩陣與待檢測(cè)鏈接矩陣差異性的大小,范數(shù)越大,表示近似矩陣與待檢測(cè)鏈接矩陣差異性越大;反之范數(shù)越小,表示近似矩陣與待檢測(cè)鏈接矩陣差異性越小。本發(fā)明的有益效果本發(fā)明提出了一種多視圖spam頁(yè)面檢測(cè)方法,因其可以同時(shí)檢測(cè)多種類型spam頁(yè)面,從而提高了檢測(cè)的效率;同時(shí)本發(fā)明不需要訓(xùn)練分類器,從而避免了訓(xùn)練數(shù)據(jù)的不平衡對(duì)分類效果的影響,檢測(cè)算法對(duì)數(shù)據(jù)不平衡不敏感。
圖1為訓(xùn)練數(shù)據(jù)的視圖轉(zhuǎn)換成矩陣;圖2為待檢測(cè)頁(yè)面的視圖轉(zhuǎn)換成矩陣;圖3a為求解權(quán)重矩陣I的過(guò)程;
圖北為求解權(quán)重矩陣W+的過(guò)程圖如為近似矩陣B1計(jì)算;圖4b為近似矩陣化計(jì)算;圖5為頁(yè)面檢測(cè)過(guò)程。
具體實(shí)施例方式下面結(jié)合附圖與實(shí)施例對(duì)本發(fā)明作進(jìn)一步說(shuō)明。本發(fā)明的目的在于提供一種面向多種spam頁(yè)面的通用檢測(cè)方法。為實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)解決方案是提出了頁(yè)面特征多視圖表示的方法, 與傳統(tǒng)的頁(yè)面特征表示方法不同。本方法采用兩視圖表示一個(gè)頁(yè)面,所述的兩視圖表示,是指對(duì)同一個(gè)web頁(yè)面,既采用基于內(nèi)容的特征向量表示(稱為內(nèi)容視圖),又采用基于超鏈接的特征向量表示(稱為鏈接視圖),即一個(gè)頁(yè)面對(duì)應(yīng)兩個(gè)視圖,分別稱為內(nèi)容視圖及鏈接視圖。所述的訓(xùn)練數(shù)據(jù)是指已經(jīng)明確標(biāo)記為正常的頁(yè)面數(shù)據(jù)及spam的頁(yè)面數(shù)據(jù)。訓(xùn)練數(shù)據(jù)中標(biāo)記為正常的所有頁(yè)面的內(nèi)容視圖構(gòu)成正常內(nèi)容矩陣,記為[AJ,訓(xùn)練數(shù)據(jù)中標(biāo)記為正常的所有頁(yè)面的鏈接視圖構(gòu)成正常鏈接矩陣,記為[B_];訓(xùn)練數(shù)據(jù)中標(biāo)記為spam的所有頁(yè)面的內(nèi)容視圖構(gòu)成spam內(nèi)容矩陣,記為[A+],訓(xùn)練數(shù)據(jù)中標(biāo)記為spam的所有頁(yè)面的鏈接視圖構(gòu)成spam鏈接矩陣,記為[B+],如圖1所示;每個(gè)待檢測(cè)的頁(yè)面P的內(nèi)容視圖構(gòu)成待檢測(cè)內(nèi)容矩陣,記為[Αχ],每個(gè)待檢測(cè)頁(yè)面P的鏈接視圖構(gòu)成待檢測(cè)鏈接矩陣,記為[Βχ],如圖2所示。通過(guò)[AJ及[AJ視圖通過(guò)矩陣變換的方式,分別構(gòu)建出[Αχ],學(xué)習(xí)得到對(duì)應(yīng)的變換矩陣I和W+,如圖3a和北所示;通過(guò)變換矩陣I及[B_],構(gòu)造出待檢測(cè)頁(yè)面近似矩陣B1,通過(guò)變換矩陣W+及[B+]構(gòu)造出待檢測(cè)頁(yè)面近似矩陣B2,如圖如和4b所示。具體構(gòu)造方法如下詳細(xì)說(shuō)明。然后計(jì)算矩陣&及化與[Bx]差的模,并由兩個(gè)模的大小,決定將待檢測(cè)頁(yè)面P識(shí)別為正常頁(yè)面還是spam頁(yè)面。以下對(duì)本發(fā)明中變換矩陣I和W+的學(xué)習(xí)及近似矩陣的構(gòu)造作進(jìn)一步說(shuō)明。具體包括1 學(xué)習(xí)變換矩陣I和W+通過(guò)下面方法求解變換矩陣W_ min| I [AJ-[AJlI I2 (1)s. t. IIiII2 = I公式(1)表示在滿足約束條件ι III I2 = 1的情況下,求解使得I I [AJ-[AJffJ I2 取得最小值的權(quán)重矩陣I。該最小化表示通過(guò)權(quán)重W_與[AJ構(gòu)造出的內(nèi)容矩陣[幻1_與待測(cè)頁(yè)面P的內(nèi)容矩陣[AJ間的差異性盡可能小。通過(guò)下面方法求解變換矩陣W+min| | [Aj-[AjffJ |2(2)s. t. IW +1 12 = 1公式(2)表示在滿足約束條件I |ff+| I2 = 1的情況下,求解使得I I [AJ-[AJffJ I2 取得最小值的權(quán)重矩陣W+。該最小化表示通過(guò)權(quán)重W+與[A+]構(gòu)造出的內(nèi)容矩陣[A+]W+與待測(cè)頁(yè)面P的內(nèi)容矩陣[AJ間的差異性盡可能小。2:計(jì)算近似矩陣B1和化
通過(guò)下面的方法計(jì)算B1和化B1 = [B_]W_ (3)B2 = [B+]ff+ (4)公式( 通過(guò)變換矩陣I和[B_]計(jì)算待檢測(cè)頁(yè)面P的待檢測(cè)頁(yè)面近似矩陣B1 ;公式(4)通過(guò)變換矩陣W+和[BJ計(jì)算待檢測(cè)頁(yè)面P的待檢測(cè)頁(yè)面近似矩陣化。3 計(jì)算待檢測(cè)頁(yè)面P的待檢測(cè)鏈接矩陣[Bx]與B1和化差矩陣的范數(shù)計(jì)算范數(shù)&= I I [BJ-B1 12及范數(shù)E+= I I [BJ-B2 |2。范數(shù)的大小表示兩個(gè)近似矩陣與待檢測(cè)鏈接矩陣差異性的大小。范數(shù)越大,表示近似矩陣與待檢測(cè)鏈接矩陣差異性越大;反之范數(shù)越小,表示近似矩陣與待檢測(cè)鏈接矩陣差異性越小。4:決定頁(yè)面P的歸類如果E > E+,則將P頁(yè)面識(shí)別為spam頁(yè)面;如果E_ < E+,則將P頁(yè)面識(shí)別為正常頁(yè)面;如果E_ = E+則將P頁(yè)面隨機(jī)識(shí)別為二者之一,如圖5所示。如果頁(yè)面P被識(shí)別為正常頁(yè)面,就被保留下來(lái),否則將P從頁(yè)面庫(kù)中刪除。上述雖然結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式
進(jìn)行了描述,但并非對(duì)本發(fā)明保護(hù)范圍的限制,所屬領(lǐng)域技術(shù)人員應(yīng)該明白,在本發(fā)明的技術(shù)方案的基礎(chǔ)上,本領(lǐng)域技術(shù)人員不需要付出創(chuàng)造性勞動(dòng)即可做出的各種修改或變形仍在本發(fā)明的保護(hù)范圍以內(nèi)。
權(quán)利要求
1.一種多視圖web spam檢測(cè)方法,其特征是,該方法包括如下步驟步驟1 首先獲取訓(xùn)練數(shù)據(jù)中所有正常頁(yè)面和spam頁(yè)面的內(nèi)容視圖及鏈接視圖; 步驟2 然后獲取待檢測(cè)頁(yè)面的內(nèi)容視圖及鏈接視圖;步驟3 將步驟1中所有正常頁(yè)面的內(nèi)容視圖及鏈接視圖各自構(gòu)造矩陣,得到正常內(nèi)容矩陣和正常鏈接矩陣;步驟4 將步驟1中所有spam頁(yè)面的內(nèi)容視圖及鏈接視圖各自構(gòu)造矩陣,得到spam內(nèi)容矩陣及spam鏈接矩陣;步驟5 用待檢測(cè)頁(yè)面的內(nèi)容視圖及鏈接視圖各自構(gòu)造矩陣,得到待檢測(cè)內(nèi)容矩陣及待檢測(cè)鏈接矩陣;步驟6 利用正常內(nèi)容矩陣和待檢測(cè)內(nèi)容矩陣求解權(quán)重矩陣評(píng)_,利用spam內(nèi)容矩陣及待檢測(cè)內(nèi)容矩陣求解權(quán)重矩陣W+ ;步驟7 利用正常鏈接矩陣及權(quán)重矩陣I求解近似矩陣B1,利用spam鏈接矩陣及權(quán)重矩陣W+求解近似矩陣化;步驟8 利用步驟7中的近似矩陣B1和待檢測(cè)鏈接矩陣求解正常范數(shù)E_,利用近似矩陣 B2和待檢測(cè)鏈接矩陣求解spam范數(shù)E+ ;步驟9 比較正常范數(shù)E_與spam范數(shù)E+的大小;若正常范數(shù)小于spam范數(shù),則待檢測(cè)頁(yè)面為正常頁(yè)面;若正常范數(shù)大于spam范數(shù),則待檢測(cè)頁(yè)面為spam頁(yè)面;若兩者相等,則待檢測(cè)頁(yè)面隨機(jī)識(shí)別為正常頁(yè)面或spam頁(yè)面;步驟10 如果待檢測(cè)頁(yè)面被識(shí)別為正常頁(yè)面,就被保留下來(lái),否則將待檢測(cè)頁(yè)面從頁(yè)面庫(kù)中刪除,檢測(cè)結(jié)束。
2.如權(quán)利要求書1所述的一種多視圖webspam檢測(cè)方法,其特征是,所述的步驟6中, 求解權(quán)重矩陣W_的公式如下min| I [AJ-[A_]l I 2 s. t. IIiII2 = I公式表示在滿足約束條件I |w_| I2 = ι的情況下,求解使得11 [Ax]-[A_]w_| I2取得最小值的權(quán)重矩陣w_;該最小化表示通過(guò)權(quán)重W-與[A+]構(gòu)造出的內(nèi)容矩陣[AJ W_與待測(cè)頁(yè)面的內(nèi)容矩陣[AJ間的差異性盡可能小。
3.如權(quán)利要求書1所述的一種多視圖webspam檢測(cè)方法,其特征是,所述的步驟6中, 求解權(quán)重矩陣W+的公式如下min| I [AJ-[AJffJ 2 S. t. ι |w+ I2 = ι公式表示在滿足約束條件I |w+| I2 = ι的情況下,求解使得11 [AX]-[A+]W+| I2取得最小值的權(quán)重矩陣W+;該最小化表示通過(guò)權(quán)重W+與[A+]構(gòu)造出的內(nèi)容矩陣[A+] W+與待測(cè)頁(yè)面的內(nèi)容矩陣[AJ間的差異性盡可能小。
4.如權(quán)利要求書1所述的一種多視圖webspam檢測(cè)方法,其特征是,所述的步驟7中, 計(jì)算近似矩陣B1和化的公式如下B1 = [B_]l (1) B2 = [B+] W+ (2)公式(1)通過(guò)變換矩陣W_和[BJ計(jì)算待檢測(cè)頁(yè)面的近似矩陣B1 ;公式( 通過(guò)變換矩陣W+和[BJ計(jì)算待檢測(cè)頁(yè)面的近似矩陣4。
5.如權(quán)利要求書1所述的一種多視圖web spam檢測(cè)方法,其特征是,所述的步驟8中, 求解正常范數(shù)E_和spam范數(shù)E+公式如下E-= ![BJ-B1M2;E+= I I [BJ-B2I I2;范數(shù)的大小表示兩個(gè)近似矩陣與待檢測(cè)鏈接矩陣差異性的大小,范數(shù)越大,表示近似矩陣與待檢測(cè)鏈接矩陣差異性越大;反之范數(shù)越小,表示近似矩陣與待檢測(cè)鏈接矩陣差異性越小。本發(fā)明公開了提供一種多視圖web spam檢測(cè)方法,該方法包括如下步驟首先獲取訓(xùn)練數(shù)據(jù)中所有正常頁(yè)面和spam頁(yè)面的兩視圖;然后獲取待檢測(cè)頁(yè)面的兩視圖;對(duì)獲得的兩視圖各自構(gòu)造矩陣;求出正常范數(shù)及spam范數(shù);比較正常范數(shù)與spam范數(shù)的大小;若正常范數(shù)小于spam范數(shù),則待檢測(cè)頁(yè)面為正常頁(yè)面;若正常范數(shù)大于spam范數(shù),則待檢測(cè)頁(yè)面為spam頁(yè)面;若兩者相等,則待檢測(cè)頁(yè)面隨機(jī)識(shí)別為正常頁(yè)面或spam頁(yè)面。它具有對(duì)訓(xùn)練數(shù)據(jù)不平衡性不敏感、可同時(shí)檢測(cè)多種spam頁(yè)面及檢測(cè)過(guò)程簡(jiǎn)單等優(yōu)點(diǎn)。
全文摘要
本發(fā)明公開了提供一種多視圖webspam檢測(cè)方法,該方法包括如下步驟首先獲取訓(xùn)練數(shù)據(jù)中所有正常頁(yè)面和spam頁(yè)面的兩視圖;然后獲取待檢測(cè)頁(yè)面的兩視圖;對(duì)獲得的兩視圖各自構(gòu)造矩陣;求出正常范數(shù)及spam范數(shù);比較正常范數(shù)與spam范數(shù)的大?。蝗粽7稊?shù)小于spam范數(shù),則待檢測(cè)頁(yè)面為正常頁(yè)面;若正常范數(shù)大于spam范數(shù),則待檢測(cè)頁(yè)面為spam頁(yè)面;若兩者相等,則待檢測(cè)頁(yè)面隨機(jī)識(shí)別為正常頁(yè)面或spam頁(yè)面。它具有對(duì)訓(xùn)練數(shù)據(jù)不平衡性不敏感、可同時(shí)檢測(cè)多種spam頁(yè)面及檢測(cè)過(guò)程簡(jiǎn)單等優(yōu)點(diǎn)。
文檔編號(hào)G06F17/30GK102521369SQ20111042470
公開日2012年6月27日 申請(qǐng)日期2011年12月16日 優(yōu)先權(quán)日2011年12月16日
發(fā)明者張化祥 申請(qǐng)人:山東師范大學(xué)