專利名稱:一種基于相似性的半監(jiān)督學(xué)習(xí)垃圾網(wǎng)頁檢測方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種搜索引擎垃圾網(wǎng)頁的檢測方法,主要解決了小樣本條件下的垃圾網(wǎng)頁檢測問題,屬于搜索引擎和半監(jiān)督機(jī)器學(xué)習(xí)的領(lǐng)域。
背景技術(shù):
搜索引擎使得用戶能從海量的網(wǎng)頁中找到自己感興趣的、正確的內(nèi)容。但垃圾網(wǎng)頁的盛行損害了搜索引擎的信譽(yù),減弱了其用戶的信任。找到一種有效的降低網(wǎng)頁垃圾影 響,提高搜索引擎網(wǎng)頁排名質(zhì)量的方法,對用戶迅速找到感興趣而且正確的網(wǎng)頁有十分重 要的意義。最初,搜索引擎使用傳統(tǒng)的信息提取算法,如TF-IDF(詞頻-逆文檔頻率)[1], 為提交給搜索引擎的查詢所返回的結(jié)果進(jìn)行排名。為了提高搜索質(zhì)量,現(xiàn)在的網(wǎng)頁重要 性排名大多基于鏈接圖,這個過程稱為鏈接分析。著名的鏈接分析算法包括HITS[2], PageRank(網(wǎng)頁排名)[3,4]以及其它一些算法[5,6,7,8]。此類算法都基于這樣的假設(shè), 如果一個網(wǎng)頁在鏈接圖中有很多重要的網(wǎng)頁鏈向它,那么這個網(wǎng)頁也很可能是重要的。為 了進(jìn)一步提高網(wǎng)頁排名的有效性和準(zhǔn)確性,研究者們又提出了許多改進(jìn)算法。如針對鏈接 工廠的TrustRank(信任排名)[6]算法在計(jì)算網(wǎng)頁重要性時考慮了網(wǎng)頁的可靠性。但是這 些方法都只是針對某種類型的垃圾網(wǎng)頁,對新的垃圾網(wǎng)頁技術(shù)無能為力。機(jī)器學(xué)習(xí)方法是一種從樣本中提取能表征該樣本的特征,根據(jù)特征的差異對樣本 進(jìn)行分類的方法。檢測垃圾網(wǎng)頁的一種重要途徑就是利用機(jī)器學(xué)習(xí)方法對網(wǎng)頁進(jìn)行分類。 這種方法可以適應(yīng)新出現(xiàn)的垃圾網(wǎng)頁類型,并取得了不錯的效果。但是,傳統(tǒng)的機(jī)器學(xué)習(xí)方 法實(shí)際上是利用已標(biāo)簽數(shù)據(jù)訓(xùn)練一個目標(biāo)函數(shù),然后每個未標(biāo)簽的數(shù)據(jù)由訓(xùn)練得到的目標(biāo) 函數(shù)獲得一個函數(shù)值,若這個函數(shù)值大于某個既定閥值則認(rèn)為它是屬于垃圾網(wǎng)頁,否則不 是垃圾網(wǎng)頁。這種方法屬于監(jiān)督學(xué)習(xí)的范圍。然而,數(shù)據(jù)的標(biāo)簽類別通常需要具有相關(guān)知 識的熟練的專家才能確定,因此對數(shù)據(jù)進(jìn)行標(biāo)簽是費(fèi)時的,而且代價也很大。用小量的樣本 訓(xùn)練的分類器通常都是不理想的。應(yīng)該注意的是,未標(biāo)簽數(shù)據(jù)是大量存在的。怎樣有效地 將標(biāo)簽數(shù)據(jù)和未標(biāo)簽數(shù)據(jù)結(jié)合起來進(jìn)行半監(jiān)督學(xué)習(xí)以提高分類效果,現(xiàn)已成為機(jī)器學(xué)習(xí)中 的重要部分。當(dāng)前,在垃圾網(wǎng)頁檢測方面的半監(jiān)督方法主要是利用網(wǎng)頁之間的鏈接關(guān)系,決定 本網(wǎng)頁是否為垃圾網(wǎng)頁時,它的鄰居網(wǎng)頁(包括鏈入網(wǎng)頁和鏈出網(wǎng)頁)的標(biāo)簽也作為考慮 的因素。例如Guang-Gang Geng[7]等人提出的Link training (鏈接訓(xùn)練法),就是基于 鏈接的小樣本學(xué)習(xí)算法。它遵循的原則是相鄰的節(jié)點(diǎn)有相似的屬性。在鏈接訓(xùn)練算法中首 先用少量的標(biāo)簽數(shù)據(jù)訓(xùn)練一個分類器。然后用訓(xùn)練好的分類器對大量的未標(biāo)簽數(shù)據(jù)分類, 從而每個未標(biāo)簽的樣本都會得到一個預(yù)測值PS,表示屬于垃圾網(wǎng)頁的概率。在鏈接學(xué)習(xí)階 段,未標(biāo)簽樣本將根據(jù)它的鄰居計(jì)算LS值,表示在參考其鄰居的類別后該樣本屬于垃圾網(wǎng) 頁的概率。最后,把具有最大LS值的ρ個樣本和最小LS值的η個樣本分布作為垃圾網(wǎng)頁和 非垃圾網(wǎng)頁加入到標(biāo)簽集中。這個訓(xùn)練過程將會進(jìn)行多次,直到迭代次數(shù)到達(dá)預(yù)設(shè)值。這樣最終會得到一個擴(kuò)展的標(biāo)簽數(shù)據(jù)集。最后,利用擴(kuò)展后的標(biāo)簽數(shù)據(jù)集訓(xùn)練最終的分類器。利用網(wǎng)頁鏈接關(guān)系進(jìn)行半監(jiān)督學(xué)習(xí)的方法取得了一定的效果。但是,若在一個垃 圾網(wǎng)頁通過增加對權(quán)威網(wǎng)頁的鏈接來增加自身重要性等的情況下,這種方法就失效了,相 鄰的網(wǎng)頁并沒有相似的屬性。而且這種方法往往需要多次迭代以擴(kuò)展訓(xùn)練集,較為費(fèi)時。本 發(fā)明所涉及到的一種基于調(diào)和函數(shù)的半監(jiān)督學(xué)習(xí)垃圾網(wǎng)頁檢測方法,正是為解決此問題而 開展進(jìn)行的。目的是根據(jù)網(wǎng)頁間相似性,建立一個隱含的“鏈接”關(guān)系圖,在這個隱含的關(guān) 系圖上進(jìn)行半監(jiān)督學(xué)習(xí),提高機(jī)器學(xué)習(xí)檢測垃圾網(wǎng)頁的性能。參考文獻(xiàn)[1]SALT0N, G. . Developments in automatic text retrieval. Science 253, 974-980,1991.[2]J. M. Kleinberg. Authoritative sources in a hyperlinked environment. In SODA,98,pages 668-677,Philadelphia, PA, USA, 1998.[3]S.Brin, L. Page. The anatomy of a large-scale hypertextual Web search engine. Computer Networks and ISDN Systems,30(1-7) :107_117,1998.[4] L. Page, S. Brin, R. Motwani, T. ffinograd. The pagerank citation ranking Bringingorder to the web. Technical report,Stanford Digital Library Technologies Project,1998.[5]P. Boldi, M. Santini, S. Vigna. Pagerank as a function of the damping factor. InffffT 05. ACM, 2005.[6] Z. Gyongyi, H. Garcia-Molina, J. Pedersen. Combating web spam with trustrank. InVLDB' 04,pages 576-587. VLDB Endowment,2004.[7]T. Haveliwala. Effcient computation of pageRank. Technical Report, StanfordUniversity, 1999.[8] Z. Gyongyi, H. Garcia-Molina, J. Pedersen. Combating web spam with trustrank. VLDB' 04, pages 576-587. VLDB Endowment,2004.
發(fā)明內(nèi)容
技術(shù)問題本發(fā)明的目的是設(shè)計(jì)一種基于相似性的半監(jiān)督學(xué)習(xí)垃圾網(wǎng)頁檢測方 法,解決利用網(wǎng)頁鏈接關(guān)系進(jìn)行半監(jiān)督學(xué)習(xí)出現(xiàn)的問題。該方法根據(jù)網(wǎng)頁間的相似性建立 一個隱含的“鏈接”關(guān)系圖。在關(guān)系圖中,網(wǎng)頁間的鏈接根據(jù)相似性賦予權(quán)重,然后建立高 斯隨機(jī)域模型,使用調(diào)和函數(shù)進(jìn)行半監(jiān)督學(xué)習(xí)。技術(shù)方案本發(fā)明提出的一種基于相似性的半監(jiān)督學(xué)習(xí)垃圾網(wǎng)頁檢測方法,根據(jù) 網(wǎng)頁間的相似性建立一個隱含的“鏈接”關(guān)系圖,在關(guān)系圖中,網(wǎng)頁間的鏈接根據(jù)相似性賦 予權(quán)重,然后建立高斯隨機(jī)域模型,使用調(diào)和函數(shù)進(jìn)行半監(jiān)督學(xué)習(xí);所包含的步驟為步驟1 從網(wǎng)頁中提取基于內(nèi)容和鏈接的特征基于內(nèi)容的特征,主要包括以下幾種類型的內(nèi)容特征a.網(wǎng)頁詞的個數(shù)、標(biāo)題詞的個數(shù),詞的平均長度,僅考慮網(wǎng)頁中可視文本的詞,并且這些詞是數(shù)字或字符類型的,b.錨文本的比值錨文本中詞的個數(shù)與網(wǎng)頁全部詞個數(shù)的比值。
c.可視化文本的比值可視化文本中詞的個數(shù)與網(wǎng)頁全部詞個數(shù)的比值,包括 html標(biāo)簽和其它不可視文本,c.壓縮率,壓縮為bzip格式的網(wǎng)頁與未壓縮網(wǎng)頁大小的比值,d.詞庫的精度和召全率找到數(shù)據(jù)集中最常用的k個詞,詞庫的精度為網(wǎng)頁中屬 于k個詞的個數(shù)的比例,詞庫召全率則表示k個詞中出現(xiàn)在該網(wǎng)頁的比例,k= 100,200, 500,1000,e.查詢精度和召全率找到查詢?nèi)罩局凶畛S玫膓個查詢詞,查詢精度和召全率 的定義與詞庫的精度和召全率類似,f.詞三元組的熵網(wǎng)頁壓縮率的另一種度量方法,基于鏈接的特征,主要包括以下幾種類型的鏈接特征g.與度相關(guān)的度量網(wǎng)頁的入度和出度,h.網(wǎng)頁排名本網(wǎng)頁的網(wǎng)頁排名和鏈入網(wǎng)頁的網(wǎng)頁排名,i.信任排名,j.刪減后的網(wǎng)頁排名,k.支持者的個數(shù)若網(wǎng)頁X到網(wǎng)頁y的最短路徑為d,則稱χ為yd距離內(nèi)的支持 者;步驟2)對步驟1)所提取的特征用主成分分析方法進(jìn)行特征提取;步驟3)根據(jù)網(wǎng)頁間的相似性建立隱含的“鏈接”關(guān)系圖;設(shè)有1個已標(biāo)簽樣本(X1,yi),. . .,(X1,Y1)和u個未標(biāo)簽樣本x1+1,. . .,x1+u,其中 y e {0,1}, 1 <<u,令n= 1+u為樣本的總數(shù),定義鏈接圖G= (V, Ε),V表示η個節(jié)點(diǎn), E表示V中節(jié)點(diǎn)之間的邊集;節(jié)點(diǎn)集合L= {1,...,1}代表1個已標(biāo)簽樣本,標(biāo)簽分別為 Y1, ... , y”節(jié)點(diǎn)集合U = {1+1,... , 1+u}代表u個未標(biāo)簽樣本,為節(jié)點(diǎn)U指定標(biāo)簽,設(shè)矩陣W為ηXη的對稱權(quán)重矩陣,
mWij = exp(-Z (xid -Xjd)2)(1)
d=\其中,Xid為樣本Xi的第d個特征,因此,在歐幾里德空間中距離近的節(jié)點(diǎn)直接的邊 具有較大的權(quán)重;步驟4)在“鏈接”關(guān)系圖上建立高斯隨機(jī)域模型,利用調(diào)和函數(shù)進(jìn)行半監(jiān)督學(xué)習(xí),調(diào)和性表示未標(biāo)簽樣本的f值是其鄰居節(jié)點(diǎn)f值的均值f(j) = ^ Σ Wijf(^ j = I+ 1-1 +U(3)
dJ '-J這與之前要求f的特性一致,調(diào)和性用矩陣的形式表示為f = Pf,且P = D^1W,為了通過矩陣操作計(jì)算未標(biāo)簽樣本的f函數(shù)值,將權(quán)重矩陣W劃分為4塊W= W" W'u(4)
W1 Wv 7
__ a!uu _
f矩陣D和P也進(jìn)行類似的劃分,令f=[ ‘' ] fu表示未標(biāo)簽樣本的f值,有調(diào)和性滿
J U
足的兩個性質(zhì),得到
fu = (Duu-Wuu)-1WuA = (I-Puu)-1PuA (5)步驟5)將步驟4)的模型與其它分類器的分類結(jié)果結(jié)合,提高分類效果,在圖G中,每個未標(biāo)簽節(jié)點(diǎn)i鏈接到一個附加節(jié)點(diǎn),附加節(jié)點(diǎn)的標(biāo)簽為hu,節(jié)點(diǎn)i到附加節(jié)點(diǎn)的概率為Π,則到原圖G中所有其它節(jié)點(diǎn)的概率為1-η,記經(jīng)過修改后的關(guān)系 圖為G',然后在G'中推導(dǎo)fu的矩陣計(jì)算表達(dá)式,fu = (ι- (ι- n) PJ ((ι- n) P^f1+ n hu) (6)。有益效果作為一種垃圾網(wǎng)頁檢測方法,基于調(diào)和函數(shù)的半監(jiān)督學(xué)習(xí)可以很好的 解決小樣本訓(xùn)練的分類器性能不高的問題。根據(jù)相似性建立網(wǎng)頁之間的鏈接關(guān)系,而不是 直接利用網(wǎng)頁間的超鏈接,就避免了在垃圾網(wǎng)頁中隨意增加和減少鏈接而影響分類結(jié)果的 問題。本發(fā)明中網(wǎng)頁的相似性綜合考慮了網(wǎng)頁的內(nèi)容、鏈接方面的信息,能較好的表示網(wǎng)頁 間的相似而建立鄰居關(guān)系,而不是片面地根據(jù)網(wǎng)頁間的鏈接關(guān)系,因而通過該相似性能更 好說明網(wǎng)頁的關(guān)系。并且通過調(diào)和函數(shù)性質(zhì)的推導(dǎo)就能得到未標(biāo)簽網(wǎng)頁函數(shù)值與已標(biāo)簽網(wǎng) 頁函數(shù)值間的對應(yīng)關(guān)系,計(jì)算步驟得到簡化,而不需要像利用鏈接關(guān)系進(jìn)行半監(jiān)督學(xué)習(xí)時 要多次迭代來不斷擴(kuò)大已標(biāo)簽數(shù)據(jù)集。
具體實(shí)施例方式一種基于相似性的半監(jiān)督學(xué)習(xí)垃圾網(wǎng)頁檢測方法的具體實(shí)現(xiàn)步驟為(1)從網(wǎng)頁中提取基于內(nèi)容和鏈接的特征。1)基于內(nèi)容的特征,主要包括以下幾種類型的內(nèi)容特征a)網(wǎng)頁詞的個數(shù)、標(biāo)題詞的個數(shù),詞的平均長度。我們僅考慮網(wǎng)頁中可視文本的 詞,并且這些詞是數(shù)字或字符類型的。b)錨文本的比值。錨文本中詞的個數(shù)與網(wǎng)頁全部詞個數(shù)的比值。c)可視化文本的比值??梢暬谋局性~的個數(shù)與網(wǎng)頁全部詞個數(shù)的比值(包括 html標(biāo)簽和其它不可視文本)。d)壓縮率。壓縮為bzip格式的網(wǎng)頁與未壓縮網(wǎng)頁大小的比值。e)詞庫的精度和召全率。找到數(shù)據(jù)集中最常用的k個詞。詞庫的精度為網(wǎng)頁中屬 于k個詞的個數(shù)的比例。詞庫召全率則表示k個詞中出現(xiàn)在該網(wǎng)頁的比例。k=100,200, 500 和 1000。f)查詢精度和召全率。找到查詢?nèi)罩局凶畛S玫膓個查詢詞。查詢精度和召全率 的定義與詞庫的精度和召全率類似。g)詞三元組的熵。網(wǎng)頁壓縮率的另一種度量方法。2)基于鏈接的特征,主要包括以下幾種類型的鏈接特征a)與度相關(guān)的度量。網(wǎng)頁的入度和出度等b)網(wǎng)頁排名。本網(wǎng)頁的網(wǎng)頁排名和鏈入網(wǎng)頁的網(wǎng)頁排名。C)信任排名。d) Truncated PageRank (刪減后的網(wǎng)頁排名)。e)支持者的個數(shù)。若網(wǎng)頁χ到網(wǎng)頁y的最短路徑為d,則稱χ為yd距離內(nèi)的支持
者ο(2)對步驟1)所提取的特征用主成分分析方法進(jìn)行特征提取。
為了使步驟1)所提取的特征更好地表示數(shù)據(jù)集的結(jié)構(gòu)特點(diǎn),我們利用主成分分 析法提取特征。主成分分析法是一種設(shè)法將原來眾多具有一定相關(guān)性的特征,重新組合成 一組新的互相無關(guān)的綜合特征來代替原來的特征。主成分分析將原來的特征空間投影到一 個低維的特征空間,投影得到的特征彼此線性無關(guān),減少了特征的冗余,更好地表示數(shù)據(jù)集 的結(jié)構(gòu)特點(diǎn)。我們使用WEKA軟件中的主成分分析功能進(jìn)行特征提取。TOKA是一個公開的 數(shù)據(jù)挖掘工作平臺,集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對數(shù)據(jù)進(jìn)行預(yù) 處理,分類,回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。(3)根據(jù)網(wǎng)頁間的相似性建立隱含的“鏈接”關(guān)系圖。我們根據(jù)網(wǎng)頁間的相似性來建立網(wǎng)頁間的相鄰關(guān)系,可以解決用鏈接關(guān)系來描述 網(wǎng)頁關(guān)系存在的缺陷,從而相鄰的網(wǎng)頁有相似的屬性。假設(shè)有1個已標(biāo)簽樣本(Xl,yi),. . .,(X1, Y1)和u個未標(biāo)簽樣本x1+1,... , x1+u,其 中ye {0,1}, 1<<11,令11 = 1+11為樣本的總數(shù)。我們定義鏈接圖G= (V, E),V表示η 個節(jié)點(diǎn)。節(jié)點(diǎn)集合L= {1,...,1}代表1個已標(biāo)簽樣本,標(biāo)簽分別為yi,...,yi。節(jié)點(diǎn)集合 U = {1+1,. . .,1+u}代表u個未標(biāo)簽樣本。我們的任務(wù)就是為節(jié)點(diǎn)U指定標(biāo)簽。假設(shè)矩陣 W為nXn的對稱權(quán)重矩陣,<formula>formula see original document page 7</formula>
Xid為樣本Xi的第d個特征。因此,在歐幾里德空間中距離近的節(jié)點(diǎn)直接的邊具有 較大的權(quán)重。(4)在“鏈接”關(guān)系圖上建立高斯隨機(jī)域模型,利用調(diào)和函數(shù)進(jìn)行半監(jiān)督學(xué)習(xí)。我們的策略是希望在步驟3)中得到的關(guān)系圖中尋找一個具有某些利于我們解決 問題的特性的實(shí)值函數(shù)f :V — R,然后根據(jù)函數(shù)f對未標(biāo)簽數(shù)據(jù)指定標(biāo)簽。這些特性包括1)在標(biāo)簽樣本上,f(i) = f\(i)三 i = 1,· · ·,1。2)在未標(biāo)簽樣本中,希望圖G中相鄰的節(jié)點(diǎn)具有相似的標(biāo)簽。由要求的特性可得二次能量函數(shù)
<formula>formula see original document page 7</formula>
在函數(shù)f上定義概率分布,我們得到高斯域&(/) 二一一 β為參數(shù),劃分函數(shù) % 二 ^ ^哳-風(fēng)/);^。容易證明最小能量函數(shù)/二argmin/i/=/i £(/)是調(diào)和的。所謂的調(diào)和性,指定是它 滿足兩個性質(zhì)1)在標(biāo)簽樣本上,f(i) = f\(i)三 i = 1,· · ·,1。2)在未標(biāo)簽樣本上,Af = 0。這里,Δ是拉普拉斯矩陣,且Δ = D-W。其中,D是對角線矩陣,D = Cliag(Cli), dI=Hjw,而W= [Wij]是(3)中的權(quán)重矩陣。調(diào)和性表示未標(biāo)簽樣本的f值是其鄰居節(jié)點(diǎn)f值的均值<formula>formula see original document page 8</formula>這與我們之前要求f的特性一致。調(diào)和性用矩陣的形式表示為f = Pf,且P = D-1W0 由調(diào)和函數(shù)的最大原則得,f是單調(diào)的,且f或者是常數(shù)或者滿足0 < f (j) < 1,j e U。為了通過矩陣操作計(jì)算未標(biāo)簽樣本的f函數(shù)值,我們將權(quán)重矩陣W劃分為4塊
<formula>formula see original document page 8</formula>矩陣D和P也進(jìn)行類似的劃分。令~['/] fu表示未標(biāo)簽樣本的f值。有調(diào)和性 滿足的兩個性質(zhì),得到fu = (Duu-Wuu)-1WuA = (I-Puu)-1PuA (5)(5)將(4)的fu表達(dá)式與其它分類器的分類結(jié)果結(jié)合,提高分類效果。通常有許多現(xiàn)成的分類器可供我們使用,可以用已標(biāo)簽數(shù)據(jù)訓(xùn)練這些分類器。這 一步中我們將說明如何將這些分類器的分類結(jié)果與(4)中的調(diào)和能量最小化函數(shù)結(jié)合起 來。我們使用的分類器為AdaBoost。假設(shè)該分類器對未標(biāo)簽數(shù)據(jù)的標(biāo)注為hu。只要對關(guān)系 圖G作簡單的修改就可以將兩者結(jié)合。在圖G中,每個未標(biāo)簽節(jié)點(diǎn)i鏈接到一個附加節(jié)點(diǎn), 附加節(jié)點(diǎn)的標(biāo)簽為hu。節(jié)點(diǎn)i到附加節(jié)點(diǎn)的概率為η,則到原圖G中所有其它節(jié)點(diǎn)的概率 為1-η。記經(jīng)過修改后的關(guān)系圖為G'。然后在G'中推導(dǎo)fu的矩陣計(jì)算表達(dá)式。fu = (ι- (ι- n) PJ ((ι- n) P^f1+ n hu) (6)步驟(4)和(5)的矩陣計(jì)算用MATLAB編程實(shí)現(xiàn)。
權(quán)利要求
一種基于相似性的半監(jiān)督學(xué)習(xí)垃圾網(wǎng)頁檢測方法,其特征在于根據(jù)網(wǎng)頁間的相似性建立一個隱含的“鏈接”關(guān)系圖,在關(guān)系圖中,網(wǎng)頁間的鏈接根據(jù)相似性賦予權(quán)重,然后建立高斯隨機(jī)域模型,使用調(diào)和函數(shù)進(jìn)行半監(jiān)督學(xué)習(xí);所包含的步驟為步驟1從網(wǎng)頁中提取基于內(nèi)容和鏈接的特征基于內(nèi)容的特征,主要包括以下幾種類型的內(nèi)容特征a.網(wǎng)頁詞的個數(shù)、標(biāo)題詞的個數(shù),詞的平均長度,僅考慮網(wǎng)頁中可視文本的詞,并且這些詞是數(shù)字或字符類型的。b.錨文本的比值錨文本中詞的個數(shù)與網(wǎng)頁全部詞個數(shù)的比值。c.可視化文本的比值可視化文本中詞的個數(shù)與網(wǎng)頁全部詞個數(shù)的比值,包括html標(biāo)簽和其它不可視文本。c.壓縮率,壓縮為bzip格式的網(wǎng)頁與未壓縮網(wǎng)頁大小的比值。d.詞庫的精度和召全率。e.查詢精度和召全率找到查詢?nèi)罩局凶畛S玫牟樵冊~,查詢精度和召全率的定義與詞庫的精度和召全率類似。f.詞三元組的熵網(wǎng)頁壓縮率的另一種度量方法?;阪溄拥奶卣?,主要包括以下幾種類型的鏈接特征g.與度相關(guān)的度量網(wǎng)頁的入度和出度。h.網(wǎng)頁排名本網(wǎng)頁的網(wǎng)頁排名和鏈入網(wǎng)頁的網(wǎng)頁排名。i.信任排名。j.刪減后的網(wǎng)頁排名。k.支持者的個數(shù)。步驟2)對步驟1)所提取的特征用主成分分析方法進(jìn)行特征提??;步驟3)根據(jù)網(wǎng)頁間的相似性建立隱含的“鏈接”關(guān)系圖;步驟4)在“鏈接”關(guān)系圖上建立高斯隨機(jī)域模型,利用調(diào)和函數(shù)進(jìn)行半監(jiān)督學(xué)習(xí);步驟5)將步驟4)的模型與其它分類器的分類結(jié)果結(jié)合,提高分類效果。
全文摘要
本發(fā)明的目的是設(shè)計(jì)基于相似性的半監(jiān)督學(xué)習(xí)垃圾網(wǎng)頁檢測方法,解決利用網(wǎng)頁鏈接關(guān)系進(jìn)行半監(jiān)督學(xué)習(xí)出現(xiàn)的問題。該方法根據(jù)網(wǎng)頁間的相似性建立一個隱含的“鏈接”關(guān)系圖。步驟1從網(wǎng)頁中提取基于內(nèi)容和鏈接的特征步驟2)對步驟1)所提取的特征用主成分分析方法進(jìn)行特征提?。徊襟E3)根據(jù)網(wǎng)頁間的相似性建立隱含的“鏈接”關(guān)系圖;步驟4)在“鏈接”關(guān)系圖上建立高斯隨機(jī)域模型,利用調(diào)和函數(shù)進(jìn)行半監(jiān)督學(xué)習(xí),步驟5)將步驟4)的模型與其它分類器的分類結(jié)果結(jié)合,提高分類效果,在關(guān)系圖中,網(wǎng)頁間的鏈接根據(jù)相似性賦予權(quán)重,然后建立高斯隨機(jī)域模型,使用調(diào)和函數(shù)進(jìn)行半監(jiān)督學(xué)習(xí),提高了半監(jiān)督學(xué)習(xí)的能力。
文檔編號G06F17/30GK101814093SQ20101013992
公開日2010年8月25日 申請日期2010年4月2日 優(yōu)先權(quán)日2010年4月2日
發(fā)明者劉霞, 周國強(qiáng), 張衛(wèi)豐, 張迎周, 朱丹梅, 許碧娣, 陸柳敏 申請人:南京郵電大學(xué)