專利名稱:一種結(jié)合差異特征分布與鏈接特征的網(wǎng)頁排序方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種結(jié)合差異特征分布與鏈接特征的網(wǎng)頁排序方法,屬于互聯(lián)網(wǎng)信息檢索領(lǐng)域。
背景技術(shù):
搜索引擎是用戶查找有用信息的主要途徑之一,根據(jù)2009年的一項(xiàng)調(diào)查顯不[CNNIC(China Internet Network Information Center)[R]. the 23rd report indevelopment of Internet in China, 2009 :1-3], 68 的人經(jīng)常使用搜索引擎,84. 5的人把搜索引擎作為獲取新信息的主要方法。據(jù)研究表明[SILVERSTEIN C,MARAIS H,HENZINGER M, MORICZ M. Analysis of a very large Web search engine query log[C].Proceedings of the 22nd Annual International ACM SIGIR Conference on Researchand Development in Information Retrieval, ACM Press, California,1999,33(1) 6-12],在搜索引擎返回結(jié)果中,多數(shù)用戶只查看前三頁,因此排序越靠前的網(wǎng)頁點(diǎn)擊量越高,帶來的利潤越大。為了在搜索引擎結(jié)果中獲得更高排序,網(wǎng)站管理者會努力提高網(wǎng)頁質(zhì)量。而在商業(yè)利益的驅(qū)使下,有些網(wǎng)站采用作弊手段欺騙搜索引擎,提高垃圾網(wǎng)頁排序,嚴(yán)重干擾了用戶獲取有用信息,檢測垃圾網(wǎng)頁是搜索引擎面臨重大挑戰(zhàn)之一 [HENZINGER MR, MOTffANI R, SILVERSTEIN C. Challenges in web search engines[C]. Proceedings ofACM Special Interest Group on Information Retrieval (SIGIR) Forum,2002,36 (2)11-22]。目前,搜索引擎主要依靠內(nèi)容相關(guān)度和網(wǎng)頁重要程度確定網(wǎng)頁排序。內(nèi)容相關(guān)度可以由 TF/IDF算法[BAEZA-YATES,RIBEIR0-NET0B B. Modern information retrieval [M].Addison Wesley Longman 1999]等信息檢索方法計(jì)算,而網(wǎng)頁重要程度由HIST[KLEINBERGJ M.Authoritative sources in a hyperlinked environment [J]. Journal of theACM, 1999, 46 (5) :604-632]、PageRank 算法[BIANCHINI M,GORI M, SCARSELLI F. InsidePageRank[J]. Journal of the ACM, 2005, 5 (I) :92-128]和 TrustRank 算法[GY0NGYI Z,GARCIA-MOLINA H,PEDERSEN J. Combating web spam with TrustRank[C]. Proceedings ofthe 30th VLDB Conference, ACM Press, 2004 :576-587]等基于鏈接分析的算法得出。PageRank算法利用網(wǎng)頁鏈接特征對網(wǎng)頁進(jìn)行排序,網(wǎng)頁重要程度越高,得分越高,排序越靠前。PageRank算法中,網(wǎng)頁p的得分定義為Hp) = a- X 宇^ + (卜a).士⑴
qtq.p)e,,o(g)N其中a為衰減系數(shù),o(q)為網(wǎng)頁q的出鏈接數(shù)量,即網(wǎng)頁q內(nèi)有多少個(gè)超鏈接指向其他網(wǎng)頁。q:(q,P) G e表示指向網(wǎng)頁P(yáng)的任意一個(gè)網(wǎng)頁,(q,P) G e表示網(wǎng)頁q有出鏈接指向網(wǎng)頁P(yáng),£表示所有指向網(wǎng)頁P(yáng)的出鏈接集合,N表示網(wǎng)頁個(gè)數(shù)。網(wǎng)頁p的得分由兩部分組成一部分來源于那些指向網(wǎng)頁P(yáng)的網(wǎng)頁,另一部分是全部網(wǎng)頁對P所做的貢獻(xiàn)。所有網(wǎng)頁的PageRank值計(jì)算為
權(quán)利要求
1.一種結(jié)合差異特征分布與鏈接特征的網(wǎng)頁排序方法,其特征是,首先通過TrustRank算法計(jì)算網(wǎng)頁信任值;分析已標(biāo)記為正常與垃圾網(wǎng)頁的特征分布,選擇正常網(wǎng)頁與垃圾網(wǎng)頁特征分布有明顯差異的特征,稱為差異特征;然后根據(jù)差異特征分布,計(jì)算網(wǎng)頁差異特征信任貢獻(xiàn)值;結(jié)合網(wǎng)頁信任值與網(wǎng)頁內(nèi)容特征值計(jì)算網(wǎng)頁信任度;根據(jù)網(wǎng)頁信任度對網(wǎng)頁排序。
2.如權(quán)利要求I所述的結(jié)合差異特征分布與鏈接特征的網(wǎng)頁排序方法,其特征是,具體步驟如下 步驟I.利用TrustRank算法計(jì)算web圖中每個(gè)網(wǎng)頁的信任值; 步驟2.統(tǒng)計(jì)web圖中已經(jīng)標(biāo)記為正常及垃圾的網(wǎng)頁內(nèi)容特征,根據(jù)統(tǒng)計(jì)信息分析正常網(wǎng)頁特征分布與垃圾網(wǎng)頁特征分布的不同,確定正常網(wǎng)頁與垃圾網(wǎng)頁特征分布有明顯差異的特征,稱為差異特征,同時(shí)確定正常頁面各差異特征的近似分布函數(shù); 步驟3.根據(jù)差異特征分布計(jì)算網(wǎng)頁p差異特征的信任貢獻(xiàn)值; 步驟4.利用步驟I得到的網(wǎng)頁p信任值與步驟3得到的網(wǎng)頁p的差異特征信任貢獻(xiàn)值,計(jì)算web圖中網(wǎng)頁p的信任度; 步驟5.根據(jù)步驟4得到的網(wǎng)頁信任度對web圖中的網(wǎng)頁進(jìn)行排序,信任度大的排序靠前,信任度小的排序靠后;網(wǎng)頁信任度越高表示網(wǎng)頁是正常網(wǎng)頁的概率越大,網(wǎng)頁信任度越小,表示網(wǎng)頁是垃圾網(wǎng)頁的概率越大。
3.權(quán)利要求2所述的結(jié)合差異特征分布與鏈接特征的網(wǎng)頁排序方法,其特征是,所述步驟2中的差異特征選擇為網(wǎng)頁字?jǐn)?shù)、網(wǎng)頁標(biāo)題字?jǐn)?shù)、網(wǎng)頁錨文本字?jǐn)?shù)占網(wǎng)頁內(nèi)容的比例、網(wǎng)頁可視內(nèi)容占網(wǎng)頁內(nèi)容的比例、網(wǎng)頁內(nèi)容的壓縮率。正常頁面上述5種特征基本服從正態(tài)分布,而垃圾網(wǎng)頁上述5種特征的分布沒有較為明顯的分布規(guī)律。所述步驟2中,正常頁面各差異特征的近似分布函數(shù)以正態(tài)分布函數(shù)近似,統(tǒng)計(jì)己標(biāo)記的正常頁面各差異特征的均值及方差,得到各差異特征對應(yīng)的正態(tài)分布函數(shù)。
4.權(quán)利要求2所述的結(jié)合差異特征分布與鏈接特征的網(wǎng)頁排序方法,其特征是,所述步驟3中,網(wǎng)頁p的內(nèi)容特征信任貢獻(xiàn)值計(jì)算公式為
5.權(quán)利要求2所述的結(jié)合差異特征分布與鏈接特征的網(wǎng)頁排序方法,其特征是,所述步驟4,網(wǎng)頁p的信任度計(jì)算為
全文摘要
本發(fā)明涉及一種結(jié)合差異特征分布與鏈接特征的網(wǎng)頁排序方法。首先通過TrustRank算法計(jì)算網(wǎng)頁信任值;分析已標(biāo)記為正常與垃圾網(wǎng)頁的差異特征分布,選擇正常網(wǎng)頁與垃圾網(wǎng)頁差異特征分布有明顯差異的特征,稱為差異特征;根據(jù)網(wǎng)頁差異特征分布,計(jì)算網(wǎng)頁差異特征的信任貢獻(xiàn)值;結(jié)合網(wǎng)頁信任值與網(wǎng)頁差異特征的信任貢獻(xiàn)值計(jì)算網(wǎng)頁信任度;根據(jù)網(wǎng)頁信任度對網(wǎng)頁排序。本發(fā)明利用正常網(wǎng)頁與垃圾網(wǎng)頁在分布上存在差異的內(nèi)容特征,結(jié)合網(wǎng)頁鏈接特征,更好地提高好網(wǎng)頁的排序,降低垃圾網(wǎng)頁的排序。
文檔編號G06F17/30GK102750380SQ201210215860
公開日2012年10月24日 申請日期2012年6月27日 優(yōu)先權(quán)日2012年6月27日
發(fā)明者劉陽, 張化祥, 張悅童 申請人:山東師范大學(xué)