專利名稱:一種搜索引擎作弊檢測的優(yōu)化方法
技術領域:
本發(fā)明涉及信息檢索和搜索引擎技術領域,尤其涉及一種搜索引 擎作弊檢測的優(yōu)化方法。
背景技術:
互聯(lián)網(wǎng)作為有史以來最大的信息庫,其內容仍在以指數(shù)級增長。
互聯(lián)網(wǎng)搜索已經(jīng)成為人們日常生活的一部分,CNNIC2007年7月發(fā)布 的報告稱網(wǎng)民中每日使用搜索引擎的比例高達61.91%。
N. Eiron等學者使用著名的PageRank算法對1億網(wǎng)頁進行排序, 結果發(fā)現(xiàn)排在最前面的20個網(wǎng)站中有11個是色情網(wǎng)站,這些網(wǎng)站通 過篡改超鏈接以獲取靠前的排名。根據(jù)美國商業(yè)調查局的調查,2006 年,美國的電子商務銷售額達到1141億美元,比2005年的930億美 元增長了 22.7%。而2007年,這一統(tǒng)計的第一個季度就達到了 315億 美元,比2006年同期增長了 18.4%。BernardJ. Jansen禾Q Amanda Spink 的研究結果顯示,大約80%的用戶在使用搜索引擎時只會瀏覽前3頁 的返回結果。
互聯(lián)網(wǎng)上巨大的利潤和搜索引擎的門戶作用,驅使很多網(wǎng)站管理 者和網(wǎng)頁制作者想方設法使其站點和頁面變得有名,以期待用戶在進 行相關內容查詢時,排在結果的前列。搜索引擎作弊(Web Spam), 又叫搜索引擎作弊,是指采用一些迷惑、欺騙搜索引擎的手段,使得 Web頁面在檢索結果中的排名高于實際應得排名的行為,它導致搜索 引擎檢索結果的質量嚴重下降。
互聯(lián)網(wǎng)作弊廣義上可以分為內容作弊、鏈接作弊兩類。內容作弊 指網(wǎng)站利用內容信息欺騙搜索引擎,提高某些頁面的重要性,包含關 鍵詞作弊、針對標題作弊等。鏈接作弊指作弊網(wǎng)站針對PageRank算法 構造出一些網(wǎng)絡鏈接結構,迷惑搜索引擎排序算法,從而提高某些頁面的重要性。
針對以上作弊形式,大量相關應對策略被提了出來。在基于內容
分析的作弊網(wǎng)頁檢測方面,A. Ntoulas等人考察作弊網(wǎng)頁與一般網(wǎng)頁中 平均字長、可顯示部分的比例、內容壓縮比例、錨文本的數(shù)量和流行 詞匯在文本中的比例等,總結出一系列啟發(fā)式特征,把內容作弊網(wǎng)頁 檢測作為二分類問題,訓練決策樹分類器,多數(shù)的內容欺詐網(wǎng)頁可以 被檢測出來。在基于鏈接的作弊檢測方面,最早的有影響力的工作是 Gyongyi等人提出的TmstRank算法,其出發(fā)點是"好的頁面很少指向作 弊頁面"。通過手工挑選信譽好的種子集合,沿網(wǎng)絡圖中的超鏈接進行 信任度傳播。從而獲得各個頁面的信任度,進而把所有頁面分為Spam 和Normal兩種。
搜索引擎和網(wǎng)絡作弊制造者之間的戰(zhàn)爭如同一場軍備競賽,每當 搜索引擎發(fā)現(xiàn)了一個有效的方法并加以使用后,經(jīng)過一段時間作弊者 就找出應對方法,發(fā)明出新的作弊形式。基于機器學習的方法針對新 的作弊形式,通過增加、刪除相應特征,保持系統(tǒng)對作弊檢測的有效 性,而不必修改系統(tǒng)結構。基于機器學習的作弊檢測方法成為近期研 究的熱點。Carlos Castillo等人將以往文獻中提到的大量啟發(fā)式方法作 為檢測特征,形成236維包含了內容和鏈接相關屬性的特征向量,采 用機器學習的方法對作弊行為進行檢測。無論是檢測精度和還是穩(wěn)定 性都遠好于以往的方法。然而Carlos最后又走了前人的老路——基于 檢測置信度,利用圖聚類、鏈接學習和棧圖學習等啟發(fā)式方法優(yōu)化第 一輪檢測的精度。
為了在優(yōu)化檢測性能的同時,最大限度的避免這些啟發(fā)式方法所 帶來的不穩(wěn)定性,我們提出了基于二級特征的作弊檢測優(yōu)化方法。
發(fā)明內容
(一)要解決的技術問題 有鑒于此,本發(fā)明的主要目的在于提供一種搜索引擎作弊檢測的 優(yōu)化方法,以解決現(xiàn)有技術中啟發(fā)式作弊檢測方法的不穩(wěn)定性問題, 并最大程度上優(yōu)化搜索弓I擎作弊檢測的性能。(二)技術方案
為達到上述目的,本發(fā)明提供了一種搜索引擎作弊檢測的優(yōu)化方 法,該方法包括
步驟Sl:預處理所有網(wǎng)頁和超鏈接,進行特征提取,針對提取的 特征進行初步作弊檢測;
步驟S2:在初步作弊檢測結果的基礎上,進行二級特征提取,提 取出聚類特征、傳遞特征和近鄰特征;
步驟S3:在初步作弊檢測結果和二級特征提取結果的基礎上,采
用機器學習算法對作弊進行再檢測,并生成檢測結果。
優(yōu)選地,步驟Sl中所述初步作弊檢測包括
網(wǎng)頁抓取、網(wǎng)頁內容提取、網(wǎng)絡超鏈接圖構建、特征提取、訓練 集生成、測試集生成、學習分類器、檢測訓練集,以及初步檢測結果 的生成與存儲。
優(yōu)選地,所述特征提取,所提取的特征包含頁面內容特征和超鏈 接相關的特征,該超鏈接相關特征進一步包括網(wǎng)頁級鏈接相關特征和 網(wǎng)站級鏈接相關特征。
優(yōu)選地,所述在進行初步檢測結果的生成時,作弊檢測算法采用
模式分類算法SVM、 AdaBoost或C4.5。
優(yōu)選地,所述初步作弊檢測的結果為檢測的置信度,是進行二級 特征提取前提,該初步作弊檢測的結果連同網(wǎng)站級超鏈接圖一起作為 二級特征提取的輸入。
優(yōu)選地,所述網(wǎng)站級鏈接相關特征的計算是基于網(wǎng)站級鏈接圖。
優(yōu)選地,步驟S2中所述聚類特征的提取是基于圖劃分的特征,該 基于圖劃分的聚類方法,包括基于布爾鏈接的圖劃分和基于權重鏈接 的圖劃分,并分別劃分為不同大小的子圖,對特定子圖內的節(jié)點的置 信度計算算數(shù)平均,以生成再次分類所用的聚類特征。
優(yōu)選地,步驟S2中所述傳遞特征的提取,是基于有向圖的置信度 傳遞、基于反向圖的置信度傳遞和基于無向圖的置信度傳遞,以對每 個站點生成三個特征。
優(yōu)選地,步驟S2中所述近鄰特征的提取,是基于一級近鄰關系的特征提取和基于二級近鄰關系的特征提取;針對該一級近鄰關系和二
級近鄰關系,分別就鏈接的方向和反方向節(jié)點的不同組合生成多個特征。
優(yōu)選地,步驟S3中所述采用機器學習算法對作弊進行再檢測所使 用的特征,是由步驟Sl初步作弊檢測的特征和步驟S2 二級特征提取
的特征組合而成的,所述對作弊進行再檢測具體包括
在擴充后的特征空間上對訓練集和測試集進行重新表示,同時使
用初步特征和二次提取特征表示樣本;在訓練集上訓練分類器,分類 器被訓練結束后,使用訓練好的分類器對測試集中的站點樣本進行作 弊檢測,完成對初步檢測的優(yōu)化,生成最終的作弊檢測結果。
優(yōu)選地,所述在訓練集上訓練分類器時,分類器選擇C4.5、Bagging 或Adaboost。
優(yōu)選地,步驟S2中所述二級特征的提取可進一步擴充為多級特征 提取。
(三)有益效果
從上述技術方案可以看出,本發(fā)明提供的基于二級特征的搜索引 擎作弊檢測的優(yōu)化方法,克服了基于機器學習的搜索引擎作弊檢測所 面臨的特征提取難的問題。與啟發(fā)式的方法相比,不僅可以更好的提 高檢測性能,最大程度上優(yōu)化了搜索引擎作弊檢測的性能,而且大大 提高了檢測系統(tǒng)的魯棒性。
圖1是本發(fā)明提供的基于二級特征的搜索引擎作弊檢測的方法流 程圖2是本發(fā)明提供的從預處理到初步檢測的數(shù)據(jù)流程圖3是本發(fā)明提供的二級特征提取的示意圖4是本發(fā)明提供的圖(聚類)劃分的示意圖5是本發(fā)明提供的近鄰關系特征提取的示意圖6是本發(fā)明提供的基于擴展后的特征空間進行作弊檢測的方法流程圖。
具體實施例方式
為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚明白,以下結合具 體實施例,并參照附圖,對本發(fā)明進一步詳細說明。
下面將結合附圖對本發(fā)明加以詳細說明,應指出的是,所描述的 實施例僅旨在便于對本發(fā)明的理解,而對其不起任何限定作用。
為了實現(xiàn)本發(fā)明的方法,考慮到算法要處理海量網(wǎng)頁的超鏈接圖,
如果在單機實現(xiàn),最好保證處理器主頻不小于2GHz,內存不小于2G, 可采用任何常用編程語言編寫。
本發(fā)明提出的基于二級特征的搜索引擎作弊檢測優(yōu)化方法,總體 流程如圖l所示,步驟S1為初步作弊檢測,即預處理所有網(wǎng)頁和超鏈 接,進行特征提取,針對提取的特征進行初步作弊檢測,該步驟為步 驟S2的二級特征提取提供初步檢測的檢測置信度;步驟S2為在初步 作弊檢測結果的基礎上,進行二級特征提取,提取出聚類特征、傳遞 特征和近鄰特征;為了敘述方便,本發(fā)明將步驟S1中的"特征提取" 稱為"一級特征提取",步驟S2中的"特征提取"稱為"二級特征提 取",在這一過程中,將基于超鏈接圖和初步檢測置信度提取三類不同 的特征;步驟S3為在初步作弊檢測結果和二級特征提取結果的基礎上, 采用機器學習算法對作弊進行再檢測,并生成檢測結果。
大量統(tǒng)計表明互聯(lián)網(wǎng)中作弊網(wǎng)頁所在的網(wǎng)站往往就是作弊網(wǎng)站, 該領域的標準數(shù)據(jù)集Webspam-UK2006的制定就是基于這一點,如無 特殊說明,本發(fā)明中的作弊樣本和Spam均表示作弊網(wǎng)站。接下來詳細 敘述各主要步驟。
1、預處理所有網(wǎng)頁和超鏈接,進行特征提取,針對提取的特征進 行初步作弊檢測(步驟S1)。
初步檢測完成的工作如圖2所示,包括網(wǎng)頁抓取(步驟Sll)、網(wǎng) 頁內容提取(步驟S12)、網(wǎng)絡超鏈接圖構建(步驟S13)、特征提取(步 驟S14)、訓練集生成(步驟S15)、測試集生成(步驟S16)、學習分 類器和檢測訓練集(步驟S17),以及初步檢測結果的生成與存儲。網(wǎng)頁抓取、網(wǎng)頁內容提取和網(wǎng)絡超鏈接圖構建已經(jīng)有成熟的方法, 這里就不再贅述。
特征提取部分所提取的特征包含頁面內容相關特征和超鏈接相關 的特征,其中超鏈接相關特征又可以細分為網(wǎng)頁級鏈接相關特征和網(wǎng) 站級特征相關特征。
網(wǎng)頁級鏈接相關特征和頁面內容特征參見[C. Castillo , D. Donato, A. Gionis: Know your Neighbors: Web Spam Detection using the Web Topology. Sigir 2007],網(wǎng)站級鏈接相關特征包括
^鼎、,
<formula>formula see original document page 9</formula>(//) = S"eSw/ ; oWe"D, (//)D/ e (1,2,3,4} 其中,Score(/z) e (T/oW^"A:(/2), 7Vwo^fi 尸agei a"A(/7), 7>W/ a"^:(/7)},艮卩分 別為網(wǎng)站的HostRank , TrucatedPageRank和TrustRank值,和 0威"A:(i/)分別表示網(wǎng)站的入鏈接集和入鏈接集。幼eSw;^o他^d, (//)表
示網(wǎng)站Z/在不同距離A上的支持者,即在不同距離上的鄰居個數(shù)。
步驟S1中進行初步檢測結果的生成時,作弊檢測算法可采用任何 成熟的模式分類算法,比如SVM、 AdaBoost、 C4.5等。所述初步作弊檢測的結果為檢測的置信度,是進行二級特征提取前提,該初步作弊 檢測的結果連同網(wǎng)站級特征相關特征(即網(wǎng)站級鏈接圖) 一起作為二 級特征提取的輸入。
2、在初步作弊檢測結果的基礎上,進行二級特征提取,提取出聚 類特征、傳遞特征和近鄰特征(步驟S2)。
步驟S2是在步驟Sl生成的初步檢測結果(包括檢測置信度)和
網(wǎng)站級互聯(lián)網(wǎng)超鏈接圖的基礎上,提取出一系列新的特征,為機器學 習算法所用,以提高檢測精度和檢測穩(wěn)定性。
圖3中步驟S21、步驟S22、步驟S23分別提取三類不同性質的特 征,即聚類特征、傳遞特征和近鄰特征。下面就這三類特征的提取方 法分別進行論述。
步驟S21所述聚類特征的提取是基于圖劃分的特征,該基于圖劃
分的聚類方法,包括基于布爾鏈接的圖劃分和基于權重鏈接的圖劃分, 并分別劃分為不同大小的子圖,對特定子圖內的節(jié)點的置信度計算算 數(shù)平均,以生成再次分類所用的聚類特征。
考慮到現(xiàn)有的成熟的圖劃分算法大多針對無向圖,同時為了簡化 運算,這里把整個網(wǎng)站級的鏈接圖看作無向圖進行處理。圖4是一個 圖劃分的示意圖。鏈接圖可以形式化的表示為G-(F,E,w),其中r表示 所有站點的集合,w是從KxF到整數(shù)的映射函數(shù),分別取映射函數(shù) w(",力為,w(",v) = fog(w + 1)"">0,咖,"^,'"〉o或w(M,v) = w,其
中W為站點"和v之間的超鏈接數(shù),E是無向圖中邊的集合。聚類圖G使
用METIS圖聚類算法,針對前面三種不同的權重函數(shù),分別將鏈接圖 中包含的站點聚為《個類,通過以下公式1計算站點/Z的聚類特征。
C(//)|
10其中,c/(if)為站點Z/的聚類特征,0(//)表示//所在的聚類集合, ^謹/c/MW為初檢測階段給出的站點A的作弊度,0 <=印flm/c^(/z) 1 , 如果印,/"MW等于0,表示/2為作弊站點,同樣印am/c!XK/z)等于1,表 示/7為非作弊站點。通過調整^的取值,經(jīng)公式(1)可以獲得多個聚 類特征。
步驟S22所述傳遞特征的提取,是基于有向圖的置信度傳遞、基 于反向圖的置信度傳遞和基于無向圖的置信度傳遞,以對每個站點生
成三個特征,計算如公式(2)所示
p/(i/)(') = (1 - ")w謡/"Xy(//) + " Z,(':),、 (2 )
其中#(/0(')為站點//的傳遞特征,^表示迭代次數(shù),實際使用時,
可以認為設定迭代次數(shù),取/7/(/0(<>) = W"冊'c/(K/ ) , ow/Agree(/2)表示A的出 鏈接集合,相應的可以計算/"Agree(/0或同時考慮出入鏈接,這樣可以 至少得到3個傳遞特征,即基于有向圖的置信度傳遞、基于反向圖的 置信度傳遞和基于無向圖的置信度傳遞。"是阻尼因子,取值在0到1 之間。
步驟S23所述近鄰特征的提取,是基于一級近鄰關系的特征提取
和基于二級近鄰關系的特征提取;針對該一級近鄰關系和二級近鄰關 系,分別就鏈接的方向和反方向節(jié)點的不同組合生成多個特征。
實驗表明近鄰特征的提取只需要考慮兩級近鄰關系就可以達到比 較好的效果,即分別為最近鄰(出入節(jié)點,稱作一級近鄰)和最近鄰
的最近鄰(出入節(jié)點的出入節(jié)點,稱作二級近鄰)。如圖5所示,最內 層的白點表示要進行近鄰特征提取的站點Z/,在標有D1的內層大圓上
的灰色節(jié)點表示/z的一級近鄰,最外層大圓上黑色節(jié)點表示//的二級
近鄰。近鄰特征的值通過公式(3)計算
11<formula>formula see original document page 12</formula>其中,"/(//)表示站點//的近鄰特征,^(//)表示//的近鄰集合,
表示權重,權重的取值可以根據(jù)近鄰間鏈接的數(shù)目的確定,v^妙f 取1時不考慮任何權重信息。如果節(jié)點沒有近鄰節(jié)點,則將該節(jié)點的 <(//)值置為0.5,即不確定值。近鄰集合的選擇可以選擇最近鄰,二 級近鄰,以及多級近鄰,圖5給出了四種不同的二級近鄰的示意圖, 箭頭表示超鏈接的方向。實驗證明近鄰特征是很有效的檢測特征。
以上所述近鄰特征、聚類特征和傳遞特征即為提取的二級特征, 連同步驟1中提取的一級特征一起作為步驟S3的輸入,以進行最終的 作弊檢測優(yōu)化。
3、在初步作弊檢測結果和二級特征提取結果的基礎上,采用機器 學習算法對作弊進行再檢測,并生成檢測結果(步驟S3)。
步驟S3中所述采用機器學習算法對作弊進行再檢測所使用的特 征,是由步驟Sl初步作弊檢測的特征和步驟S2 二級特征提取的特征 組合而成的。
所述對作弊進行再檢測具體包括在擴充后的特征空間上對訓練 集和測試集進行重新表示(步驟S31和步驟S32),同時使用初步特征 和二次提取特征表示樣本;步驟S33為在訓練集上訓練分類器,分類 器的選擇可以為任何現(xiàn)有模式分類器,如C4.5、 Bagging、 Adaboost 等,分類器被訓練結束后,使用訓練好的分類器對測試集中的站點樣 本進行作弊檢測,完成對初步檢測的優(yōu)化,生成最終的作弊檢測結果。
以上所述的二級特征的提取可以類似的擴充為多級特征提取,其 他步驟類似,但實驗表明提取多級特征較之提取二級特征不會再次明 顯的提高系統(tǒng)的檢測性能。
以上所述的具體實施例,對本發(fā)明的目的、技術方案和有益效果 進行了進一步詳細說明,所應理解的是,以上所述僅為本發(fā)明的具體實施例而己,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內, 所做的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍 之內。
權利要求
1、一種搜索引擎作弊檢測的優(yōu)化方法,其特征在于,該方法包括步驟S1預處理所有網(wǎng)頁和超鏈接,進行特征提取,針對提取的特征進行初步作弊檢測;步驟S2在初步作弊檢測結果的基礎上,進行二級特征提取,提取出聚類特征、傳遞特征和近鄰特征;步驟S3在初步作弊檢測結果和二級特征提取結果的基礎上,采用機器學習算法對作弊進行再檢測,并生成檢測結果。
2、 根據(jù)權利要求1所述的搜索引擎作弊檢測的優(yōu)化方法,其特征 在于,步驟S1中所述初步作弊檢測包括網(wǎng)頁抓取、網(wǎng)頁內容提取、網(wǎng)絡超鏈接圖構建、特征提取、訓練 集生成、測試集生成、學習分類器、檢測訓練集,以及初步檢測結果 的生成與存儲。
3、 根據(jù)權利要求2所述的搜索引擎作弊檢測的優(yōu)化方法,其特征 在于,所述特征提取,所提取的特征包含頁面內容特征和超鏈接相關 的特征,該超鏈接相關特征進一步包括網(wǎng)頁級鏈接相關特征和網(wǎng)站級 鏈接相關特征。
4、 根據(jù)權利要求2所述的搜索引擎作弊檢測的優(yōu)化方法,其特征 在于,所述在進行初步檢測結果的生成時,作弊檢測算法采用模式分 類算法SVM、 AdaBoost或C4.5。
5、 根據(jù)權利要求l所述的搜索引擎作弊檢測的優(yōu)化方法,其特征 在于,所述初步作弊檢測的結果為檢測的置信度,是進行二級特征提 取前提,該初步作弊檢測的結果連同網(wǎng)站級超鏈接圖一起作為二級特 征提取的輸入。
6、 根據(jù)權利要求3或5所述的搜索引擎作弊檢測的優(yōu)化方法,其 特征在于,所述網(wǎng)站級鏈接相關特征的計算基于網(wǎng)站級鏈接圖。
7、 根據(jù)權利要求l所述的搜索引擎作弊檢測的優(yōu)化方法,其特征 在于,步驟S2中所述聚類特征的提取是基于圖劃分的特征,該基于圖 劃分的聚類方法,包括基于布爾鏈接的圖劃分和基于權重鏈接的圖劃分,并分別劃分為不同大小的子圖,對特定子圖內的節(jié)點的置信度計 算算數(shù)平均,以生成再次分類所用的聚類特征。
8、 根據(jù)權利要求1所述的搜索引擎作弊檢測的優(yōu)化方法,其特征在于,步驟S2中所述傳遞特征的提取,是基于有向圖的置信度傳遞、 基于反向圖的置信度傳遞和基于無向圖的置信度傳遞,以對每個站點 生成三個特征。
9、 根據(jù)權利要求l所述的搜索引擎作弊檢測的優(yōu)化方法,其特征 在于,步驟S2中所述近鄰特征的提取,是基于一級近鄰關系的特征提取和基于二級近鄰關系的特征提??;針對該一級近鄰關系和二級近鄰關系,分別就鏈接的方向和反方向節(jié)點的不同組合生成多個特征。
10、 根據(jù)權利要求1所述的搜索引擎作弊檢測的優(yōu)化方法,其特 征在于,步驟S3中所述采用機器學習算法對作弊進行再檢測所使用的 特征,是由步驟Sl初步作弊檢測的特征和步驟S2 二級特征提取的特征組合而成的,所述對作弊進行再檢測具體包括在擴充后的特征空間上對訓練集和測試集進行重新表示,同時使用初步特征和二次提取特征表示樣本;在訓練集上訓練分類器,分類 器被訓練結束后,使用訓練好的分類器對測試集中的站點樣本進行作 弊檢測,完成對初步檢測的優(yōu)化,生成最終的作弊檢測結果。
11、 根據(jù)權利要求10所述的搜索引擎作弊檢測的優(yōu)化方法,其特 征在于,所述在訓練集上訓練分類器時,分類器選擇C4.5、 Bagging 或Adaboost。
12、 根據(jù)權利要求1所述的搜索引擎作弊檢測的優(yōu)化方法,其特 征在于,步驟S2中所述二級特征的提取可進一步擴充為多級特征提取。
全文摘要
本發(fā)明公開了一種搜索引擎作弊檢測的優(yōu)化方法,該方法包括步驟S1預處理所有網(wǎng)頁和超鏈接,進行特征提取,針對提取的特征進行初步作弊檢測;步驟S2在初步作弊檢測結果的基礎上,進行二級特征提取,提取出聚類特征、傳遞特征和近鄰特征;步驟S3在初步作弊檢測結果和二級特征提取結果的基礎上,采用機器學習算法對作弊進行再檢測,并生成檢測結果。利用本發(fā)明,解決了現(xiàn)有技術中啟發(fā)式作弊檢測方法的不穩(wěn)定性問題,并最大程度上優(yōu)化了搜索引擎作弊檢測的性能。
文檔編號G06F17/30GK101493819SQ20081005672
公開日2009年7月29日 申請日期2008年1月24日 優(yōu)先權日2008年1月24日
發(fā)明者戴汝為, 李秋丹, 王春恒, 耿光剛 申請人:中國科學院自動化研究所