專利名稱:對(duì)網(wǎng)頁(yè)和網(wǎng)站評(píng)級(jí)的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)信息搜索技術(shù)領(lǐng)域:
,特別是涉及根據(jù)網(wǎng)絡(luò)節(jié)點(diǎn)(例如網(wǎng)頁(yè)或者網(wǎng)站)之間的鏈接關(guān)系而對(duì)節(jié)點(diǎn)評(píng)級(jí)的方法,例如在互聯(lián)網(wǎng)搜索引擎中,利用網(wǎng)頁(yè)之間的超文本鏈接,對(duì)所收錄的網(wǎng)頁(yè)和網(wǎng)站的質(zhì)量或者重要性進(jìn)行區(qū)分、衡量并評(píng)級(jí)的方法。
背景技術(shù):
隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,特別是隨著互聯(lián)網(wǎng)應(yīng)用的日益普及,對(duì)網(wǎng)絡(luò)中的信息進(jìn)行有效的搜索成為一項(xiàng)非常重要的日常活動(dòng)和研究課題。當(dāng)前,搜索引擎已經(jīng)成為與電子郵件等類似的使用最為頻繁的互聯(lián)網(wǎng)應(yīng)用之一。因此,提高網(wǎng)絡(luò)信息搜索技術(shù)具有重要的意義和價(jià)值。經(jīng)過近年來持續(xù)不斷的研發(fā)和市場(chǎng)競(jìng)爭(zhēng),互聯(lián)網(wǎng)搜索引擎技術(shù)已經(jīng)有了長(zhǎng)足的發(fā)展,形成了比較成熟的技術(shù)體系和商業(yè)模式。一方面,傳統(tǒng)的文本信息檢索技術(shù)在搜索引擎中獲得了廣泛、深入的應(yīng)用;另一方面,針對(duì)網(wǎng)絡(luò)信息特性的一些新的技術(shù)也被開發(fā)出來,并產(chǎn)生了積極、顯著的效果。
網(wǎng)絡(luò)信息的一大特征是豐富的鏈接關(guān)系信息分布在網(wǎng)絡(luò)的各個(gè)節(jié)點(diǎn)上,節(jié)點(diǎn)之間通過具有特定語(yǔ)義的鏈接而互相關(guān)聯(lián)、互相參照或者互相引用。例如,互聯(lián)網(wǎng)中的萬(wàn)維網(wǎng)(the World-Wide Web)就是一個(gè)通過超文本鏈接(基于超文本傳輸協(xié)議HTTP)而連接起來的一個(gè)巨大的信息節(jié)點(diǎn)網(wǎng)絡(luò),其基本的信息節(jié)點(diǎn)是網(wǎng)頁(yè),其中可以設(shè)置數(shù)量、目標(biāo)和顯示格式等都不受限的超文本鏈接(hypertext links,以下簡(jiǎn)稱為“超鏈接”或“鏈接”);同時(shí),網(wǎng)頁(yè)的分布還具有較高一層的結(jié)構(gòu),即網(wǎng)頁(yè)都是通過網(wǎng)站來訪問的,因而網(wǎng)站又構(gòu)成了萬(wàn)維網(wǎng)的更大一級(jí)的信息節(jié)點(diǎn)。另外,網(wǎng)站中的網(wǎng)頁(yè)還具有中間層次的目錄結(jié)構(gòu),而且網(wǎng)站之間還可通過域名(domain name)形成更高級(jí)別的層次結(jié)構(gòu)。因此,網(wǎng)絡(luò)的信息節(jié)點(diǎn)可包括網(wǎng)頁(yè)、網(wǎng)站以及其它粒度的信息節(jié)點(diǎn),例如域名節(jié)點(diǎn)、某一級(jí)文件目錄節(jié)點(diǎn)等。節(jié)點(diǎn)之間豐富的鏈接關(guān)系和層次化的結(jié)構(gòu)成為網(wǎng)絡(luò)信息區(qū)別于常規(guī)的文本、圖像、音視頻等信息的重要特性。對(duì)這些特性加以充分利用有助于提升網(wǎng)絡(luò)信息搜索的技術(shù)水平。因此,當(dāng)前獲得主流應(yīng)用的互聯(lián)網(wǎng)搜索引擎都普遍使用了網(wǎng)絡(luò)信息的鏈接關(guān)系。這類技術(shù)通常被稱為“鏈接分析(link analysis)”技術(shù)。其目的在于通過網(wǎng)頁(yè)或者網(wǎng)站等信息節(jié)點(diǎn)之間的鏈接關(guān)系,對(duì)信息節(jié)點(diǎn)作內(nèi)容、屬性分析或者評(píng)級(jí)。對(duì)節(jié)點(diǎn)的評(píng)級(jí)即賦予節(jié)點(diǎn)一個(gè)或多個(gè)級(jí)別數(shù)值,以便定量地區(qū)分其質(zhì)量、重要性、權(quán)威性或者受歡迎程度等性質(zhì)。
美國(guó)專利第6,285,999號(hào)(US Patent No.6,285,999.標(biāo)題Method for node ranking in alinked database.發(fā)明人Lawrence Page)公開了一種鏈接分析方法。該方法通常被稱為PageRank,是目前為止獲得最廣泛的關(guān)注和研究、并取得最成功應(yīng)用的一種鏈接分析方法。(它也是Google.com搜索引擎所使用過的專有技術(shù)。)該方法完全基于節(jié)點(diǎn)之間的鏈接關(guān)系并根據(jù)超鏈接的有向性,為各個(gè)節(jié)點(diǎn)賦予一個(gè)級(jí)別分?jǐn)?shù),該分?jǐn)?shù)為鏈接到該節(jié)點(diǎn)的各個(gè)節(jié)點(diǎn)(即鏈出節(jié)點(diǎn))的分?jǐn)?shù)的加權(quán)求和,且鏈出節(jié)點(diǎn)的分?jǐn)?shù)的權(quán)值為該節(jié)點(diǎn)的出度(outdegree,即外出鏈接的總數(shù))的倒數(shù)。由PageRank確定的網(wǎng)頁(yè)級(jí)別是一種整體的、與搜索查詢無關(guān)的網(wǎng)頁(yè)流行程度的描述,它為定量地區(qū)分大量網(wǎng)頁(yè)的質(zhì)量或者重要程度提供了一種間接的度量。這種整體性的評(píng)級(jí)結(jié)果一方面可用作指導(dǎo)網(wǎng)頁(yè)收集的優(yōu)先級(jí)別,以便將重要的網(wǎng)頁(yè)盡快收集或者更新;另一方面,它還可以同常規(guī)的針對(duì)具體查詢關(guān)鍵詞的搜索結(jié)果評(píng)分機(jī)制結(jié)合起來,提升高質(zhì)量網(wǎng)頁(yè)的排名,從而實(shí)現(xiàn)效果更佳的對(duì)搜索結(jié)果的排序。PageRank自1998年提出之后,獲得了產(chǎn)業(yè)界和學(xué)術(shù)界的普遍關(guān)注與研究,并有大量相關(guān)論文發(fā)表。有關(guān)PageRank的詳細(xì)性質(zhì)、算法、參數(shù)調(diào)整和改進(jìn)的一個(gè)綜合性的論述可參見文獻(xiàn)Deeper Inside PageRank(作者A.Langville和C.Meyer.期刊InternetMathematics Vol.1,No.3,p335-380.網(wǎng)址http://www.internetmathematics.org/volumes/1/3/Langville.pdf)。
同時(shí),也可以利用PageRank方法對(duì)網(wǎng)站進(jìn)行評(píng)級(jí)。類似于網(wǎng)頁(yè)的PageRank是該網(wǎng)頁(yè)被某種隨機(jī)瀏覽過程選中的概率,網(wǎng)站的PageRank是該網(wǎng)站被瀏覽者隨機(jī)選中的概率。網(wǎng)站PageRank可以簡(jiǎn)單地定義為其所包含的所有網(wǎng)頁(yè)的PageRank之和,也可以定義為某種專門的網(wǎng)站質(zhì)量或者可信任程度的度量。例如,可以將一少部分高質(zhì)量的網(wǎng)站挑選出來,根據(jù)經(jīng)驗(yàn)值分別賦予較高的質(zhì)量級(jí)別或者信用級(jí)別(或稱為trust rank),然后按照PageRank方法計(jì)算這些高質(zhì)量網(wǎng)站的級(jí)別傳遞到其它各個(gè)網(wǎng)站的結(jié)果,從而比較各個(gè)網(wǎng)站的質(zhì)量或者信用度。網(wǎng)站之間的鏈接關(guān)系可通過網(wǎng)頁(yè)之間的鏈接關(guān)系而構(gòu)造,例如可以簡(jiǎn)單地將網(wǎng)頁(yè)之間的鏈接關(guān)系合并到各個(gè)網(wǎng)站節(jié)點(diǎn)并忽略網(wǎng)站內(nèi)部的鏈接,或者對(duì)網(wǎng)站之間的網(wǎng)頁(yè)鏈接與網(wǎng)站內(nèi)部網(wǎng)頁(yè)之間的鏈接設(shè)置不同的權(quán)重等。所獲得的網(wǎng)站評(píng)級(jí)結(jié)果對(duì)于網(wǎng)頁(yè)搜集調(diào)度、網(wǎng)站分類和反作弊、以及最終的搜索結(jié)果排序都可以提供重要作用。
盡管PageRank方法為互聯(lián)網(wǎng)信息搜索提供了革新性的技術(shù)并在市場(chǎng)應(yīng)用中獲得了巨大的成功,其完全基于鏈接關(guān)系和單向的網(wǎng)頁(yè)級(jí)別傳遞的性質(zhì)也顯現(xiàn)了一些不足的方面。特別是,在PageRank方法被搜索引擎普遍應(yīng)用之后,出現(xiàn)了一種利用PageRank單向傳遞特點(diǎn)的搜索引擎作弊技術(shù),稱為鏈接作弊(link spamming)。作弊者只要不斷地增加包含指向某個(gè)網(wǎng)頁(yè)的鏈接的網(wǎng)頁(yè),所指網(wǎng)頁(yè)的PageRank就能不斷提高。這種作弊行為難以在PageRank的機(jī)制內(nèi)得到判別和處理,而必須花費(fèi)大量人力物力并使用奇特的方法進(jìn)行專門檢查。而這些反鏈接作弊方法通常被當(dāng)作商業(yè)機(jī)密嚴(yán)加保守,不予公開。這也正好顯示出了PageRank算法本身的脆弱性。
總體而言,經(jīng)過近年來的大規(guī)模應(yīng)用和檢驗(yàn),PageRank方法的優(yōu)點(diǎn)與諸多不足之處已經(jīng)較為明確。其主要不足之處包括如下幾個(gè)方面(其中一些方面是鏈接分析本身帶來的問題)■只依靠網(wǎng)頁(yè)的反向鏈接即進(jìn)入鏈接(in-bound links)進(jìn)行評(píng)級(jí),網(wǎng)頁(yè)的級(jí)別總是隨著入鏈的增加而單增,并且不區(qū)分入鏈?zhǔn)欠窬哂邢嚓P(guān)性及其相關(guān)程度,由此導(dǎo)致其網(wǎng)頁(yè)級(jí)別容易受到鏈接交換、鏈接接力堆積等作弊行為的操縱;■直接基于網(wǎng)頁(yè)之間的鏈接關(guān)系,忽略了網(wǎng)頁(yè)在網(wǎng)站一級(jí)和其它層次上的聚集關(guān)系,鏈接關(guān)系的粒度過細(xì),由此導(dǎo)致PageRank計(jì)算量大、更新慢,并且對(duì)于最新出現(xiàn)的網(wǎng)頁(yè)因缺少鏈接關(guān)系而失效;■同一網(wǎng)站內(nèi)的網(wǎng)頁(yè)所包含的鏈接大都為站內(nèi)鏈接,因而難以對(duì)網(wǎng)站作出精確的評(píng)級(jí)。盡管可以對(duì)站內(nèi)鏈接與站間鏈接設(shè)置不同的權(quán)重,但不同網(wǎng)站的權(quán)重值設(shè)定并無確切依據(jù);■有商業(yè)競(jìng)爭(zhēng)關(guān)系的公司網(wǎng)站之間幾乎不會(huì)有任何鏈接關(guān)系,即使它們的內(nèi)容是非常相關(guān)的,這將影響評(píng)級(jí)的精確性。相互競(jìng)爭(zhēng)的網(wǎng)站之間通常會(huì)有比較多的共引用(co-citation)和共指(coreference)等關(guān)系(詳見下文說明),但現(xiàn)有評(píng)級(jí)方法并未對(duì)此加以應(yīng)用;■外出鏈接(out-bound links)或稱為正向鏈接傾向于引起網(wǎng)頁(yè)的級(jí)別及其所在網(wǎng)站的總的級(jí)別下降,這個(gè)性質(zhì)不利于鼓勵(lì)網(wǎng)頁(yè)作者積極創(chuàng)作外出鏈接,特別是鼓勵(lì)設(shè)置指向高質(zhì)量、內(nèi)容更相關(guān)、并無業(yè)務(wù)關(guān)系的網(wǎng)站和網(wǎng)頁(yè)的鏈接;相反地,這通常導(dǎo)致網(wǎng)站之間大量交換或者買賣所謂“互惠鏈接”;■所假定的網(wǎng)頁(yè)之間的均勻隨機(jī)跳躍概率與人們?yōu)g覽網(wǎng)頁(yè)的實(shí)際行為方式相差甚遠(yuǎn)。這個(gè)不足通常可以通過引入一個(gè)“個(gè)性化向量”(作為網(wǎng)頁(yè)瀏覽隨機(jī)過程的外部概率源)來克服,但是如何設(shè)置個(gè)性化向量是一個(gè)更為復(fù)雜、計(jì)算成本極高的問題,因此個(gè)性化向量實(shí)際上并未被廣泛應(yīng)用;■與文本內(nèi)容無關(guān)、完全基于超鏈接關(guān)系,即完全忽略了文檔的內(nèi)容信息,因而不能實(shí)質(zhì)地改善文檔和查詢語(yǔ)義匹配誤差等問題。
由此可見,PageRank還是一種比較簡(jiǎn)單和初級(jí)的鏈接分析方法。對(duì)于PageRank的這些問題,可以進(jìn)行一些針對(duì)性的改進(jìn)。例如對(duì)于PageRank與網(wǎng)頁(yè)文本或查詢?cè)~無關(guān)的不足,可以設(shè)計(jì)相對(duì)一批預(yù)定的查詢主題的擴(kuò)展PageRank(或稱為topic-sensitive PageRank)。但是這類改進(jìn)方法的應(yīng)用領(lǐng)域特定性與實(shí)現(xiàn)的復(fù)雜性都會(huì)引起更大范圍的問題,實(shí)際效果并不明顯。目前已知的改進(jìn)方法大都屬于局部性的調(diào)整或特定場(chǎng)合的變種,其新的技術(shù)效果尚未在大規(guī)模實(shí)際應(yīng)用中得到驗(yàn)證,或者因計(jì)算復(fù)雜性過高而難以實(shí)現(xiàn)。更重要的是,已知的這些改進(jìn)方法都沒有對(duì)PageRank的單向傳遞性質(zhì)作出改進(jìn),因而并不能提供實(shí)質(zhì)性的改進(jìn)效果以及更為有效的抗作弊性能??傊捎诖嬖谥T多方面的簡(jiǎn)化或省略,PageRank方法及其現(xiàn)有的改進(jìn)方法尚未能精確、全面地或更為充分地利用網(wǎng)頁(yè)之間的鏈接關(guān)系對(duì)網(wǎng)頁(yè)和網(wǎng)站做出評(píng)級(jí),并且易于受到人為操縱和鏈接作弊的影響。
因此,有必要研究比現(xiàn)有技術(shù)更全面、更細(xì)致、更穩(wěn)固和抗作弊、并且能被高效實(shí)現(xiàn)的網(wǎng)絡(luò)信息節(jié)點(diǎn)評(píng)級(jí)技術(shù),提供技術(shù)效果更好的對(duì)網(wǎng)頁(yè)和網(wǎng)站評(píng)級(jí)的方法和系統(tǒng)。
發(fā)明內(nèi)容本發(fā)明的一個(gè)目的是提出一種綜合性的網(wǎng)頁(yè)評(píng)級(jí)方法,平衡地利用網(wǎng)頁(yè)之間鏈接關(guān)系的多種特性對(duì)網(wǎng)頁(yè)進(jìn)行更全面和穩(wěn)定的評(píng)級(jí)。所使用的多種特性包括鏈接的雙向關(guān)系、由鏈接導(dǎo)出的共引用關(guān)系和共指關(guān)系,以及這些關(guān)系的頻次、權(quán)重等屬性。
本發(fā)明的另一個(gè)目的是提出一種網(wǎng)站評(píng)級(jí)方法,綜合地利用網(wǎng)站之間鏈接關(guān)系的多種性質(zhì)對(duì)網(wǎng)站進(jìn)行全面、細(xì)致和穩(wěn)定性強(qiáng)的評(píng)級(jí)。
本發(fā)明的再一個(gè)目的是提供一種基于計(jì)算機(jī)的網(wǎng)頁(yè)和網(wǎng)站評(píng)級(jí)系統(tǒng),利用高效率的算法實(shí)現(xiàn)上述網(wǎng)頁(yè)和網(wǎng)站的評(píng)級(jí)方法,并使之能夠應(yīng)用于極大規(guī)模的網(wǎng)頁(yè)集合與網(wǎng)站集合,例如用于對(duì)某一個(gè)地區(qū)內(nèi)的或者全球范圍內(nèi)的萬(wàn)維網(wǎng)中的網(wǎng)頁(yè)和網(wǎng)站進(jìn)行評(píng)級(jí)。
為達(dá)到上述目的,本發(fā)明采取的技術(shù)方案是一種以計(jì)算機(jī)實(shí)現(xiàn)的對(duì)網(wǎng)絡(luò)節(jié)點(diǎn)評(píng)級(jí)的方法,根據(jù)節(jié)點(diǎn)之間的有向鏈接關(guān)系而賦予各個(gè)節(jié)點(diǎn)一個(gè)表示其級(jí)別的數(shù)值,其特征在于包括如下步驟a.設(shè)置至少一種如下所述的權(quán)重對(duì)至少一部分鏈接,各設(shè)置一個(gè)正向權(quán)重;對(duì)至少一部分鏈接,各設(shè)置一個(gè)反向權(quán)重;對(duì)至少一部分節(jié)點(diǎn)的共引用關(guān)系,各設(shè)置一個(gè)權(quán)重;對(duì)至少一部分節(jié)點(diǎn)的共指關(guān)系,各設(shè)置一個(gè)權(quán)重;b.根據(jù)至少一個(gè)如下所列舉的因素確定各個(gè)節(jié)點(diǎn)的級(jí)別鏈接到該網(wǎng)頁(yè)的各個(gè)節(jié)點(diǎn)的級(jí)別,以及這些鏈接的正向權(quán)重;該節(jié)點(diǎn)所鏈接的各個(gè)節(jié)點(diǎn)的級(jí)別,以及這些鏈接的反向權(quán)重;與該節(jié)點(diǎn)有共引用關(guān)系的各個(gè)節(jié)點(diǎn)的級(jí)別,以及這些共引用的權(quán)重;與該節(jié)點(diǎn)有共指關(guān)系的各個(gè)節(jié)點(diǎn)的級(jí)別,以及這些共指的權(quán)重。
其中,所述鏈接的正向權(quán)重、鏈接的反向權(quán)重、共引用的權(quán)重、共指的權(quán)重分別依賴于節(jié)點(diǎn)的出度、節(jié)點(diǎn)的入度、共引用的頻次、共指的頻次。節(jié)點(diǎn)的級(jí)別是其入鏈的正向權(quán)重與入鏈的源節(jié)點(diǎn)的級(jí)別的加權(quán)和,或者是其出鏈的反向權(quán)重與出鏈的目標(biāo)節(jié)點(diǎn)的級(jí)別的加權(quán)和,或者是其共引用關(guān)系的權(quán)重與共引用關(guān)系節(jié)點(diǎn)的級(jí)別的加權(quán)和,或者是其共指關(guān)系的權(quán)重與共指關(guān)系節(jié)點(diǎn)的級(jí)別的加權(quán)和,也可以是這4類加權(quán)和的進(jìn)一步的加權(quán)和。節(jié)點(diǎn)的級(jí)別還可包括一個(gè)表示先驗(yàn)概率分布的常數(shù)級(jí)別。上述網(wǎng)絡(luò)節(jié)點(diǎn)可以是網(wǎng)頁(yè),也可以是網(wǎng)站所對(duì)應(yīng)的超級(jí)網(wǎng)頁(yè),該超級(jí)網(wǎng)頁(yè)代表網(wǎng)站內(nèi)的所有網(wǎng)頁(yè)之間的鏈接關(guān)系。
與現(xiàn)有技術(shù)對(duì)比,本技術(shù)方案具備如下優(yōu)點(diǎn)由于使用了信息節(jié)點(diǎn)鏈接關(guān)系的多種性質(zhì)進(jìn)行評(píng)級(jí),本方法提供的評(píng)級(jí)結(jié)果能夠更為全面和準(zhǔn)確地反映節(jié)點(diǎn)由鏈接關(guān)系而形成的質(zhì)量、重要性與權(quán)威性,并且具有較好的穩(wěn)定性,可加大鏈接作弊的難度、更好地抵抗作弊行為的影響。本方法的評(píng)級(jí)結(jié)果因此能夠?yàn)榫W(wǎng)頁(yè)搜集、網(wǎng)站分類和搜索結(jié)果排序提供更佳的技術(shù)效果。
本說明書包含7個(gè)附圖。
圖1是本發(fā)明所使用的雙向級(jí)別傳遞關(guān)系及其權(quán)重的示意圖。
圖2是本發(fā)明所使用的由鏈接而形成的節(jié)點(diǎn)之間共引用關(guān)系示意圖。
圖3是本發(fā)明所使用的由鏈接而形成的節(jié)點(diǎn)之間共指關(guān)系示意圖。
圖4是本發(fā)明一個(gè)實(shí)施例的對(duì)網(wǎng)頁(yè)評(píng)級(jí)方法的流程圖。
圖5是本發(fā)明的網(wǎng)頁(yè)評(píng)級(jí)方法對(duì)一個(gè)包含3個(gè)網(wǎng)頁(yè)的網(wǎng)絡(luò)的評(píng)級(jí)結(jié)果圖示。
圖6是本發(fā)明的一個(gè)實(shí)施例使用冪乘積方法迭代計(jì)算節(jié)點(diǎn)的級(jí)別向量的流程圖。
圖7是本發(fā)明一個(gè)實(shí)施例的對(duì)網(wǎng)站評(píng)級(jí)方法的流程圖。
具體實(shí)施方式下面結(jié)合附圖和實(shí)施例對(duì)上述技術(shù)方案作進(jìn)一步的說明。在以下部分,首先詳細(xì)說明了本發(fā)明的方法如何用于對(duì)網(wǎng)頁(yè)節(jié)點(diǎn)進(jìn)行評(píng)級(jí);在最后部分則說明了本方法如何按照相同思路,同理地利用網(wǎng)站之間的鏈接關(guān)系對(duì)網(wǎng)站評(píng)級(jí)。
本發(fā)明的實(shí)施例通過一個(gè)互聯(lián)網(wǎng)搜索引擎系統(tǒng)而實(shí)現(xiàn)。該搜索引擎系統(tǒng)為一個(gè)包括公知的軟硬件體系結(jié)構(gòu)的計(jì)算機(jī)系統(tǒng),通過運(yùn)行特定的指令序列(即程序)而完成各種功能。該系統(tǒng)由文檔搜集、文檔索引和查詢處理三個(gè)子系統(tǒng)組成,分別實(shí)現(xiàn)互聯(lián)網(wǎng)服務(wù)器站點(diǎn)上的網(wǎng)頁(yè)(即HTML或XML文檔)及其它數(shù)據(jù)格式文件的發(fā)現(xiàn)和收集、索引文檔庫(kù)中的文檔、對(duì)搜索用戶提交的查詢請(qǐng)求進(jìn)行處理并返回搜索結(jié)果等功能。系統(tǒng)通過提取、分析和整理文檔庫(kù)中各個(gè)網(wǎng)頁(yè)所包含的對(duì)其它網(wǎng)頁(yè)的有向超鏈接而建立起網(wǎng)頁(yè)之間和網(wǎng)站之間的鏈接關(guān)系。這些鏈接關(guān)系通常以有向圖的格式存放在一個(gè)或多個(gè)文件中。系統(tǒng)使用整數(shù)對(duì)網(wǎng)頁(yè)庫(kù)中的各個(gè)網(wǎng)頁(yè)和網(wǎng)站進(jìn)行編號(hào),分別稱為網(wǎng)頁(yè)的文檔標(biāo)識(shí)號(hào)(doc ID)和網(wǎng)站標(biāo)識(shí)號(hào)(site ID)。以下論述中,用G表示網(wǎng)頁(yè)或網(wǎng)站由鏈接關(guān)系構(gòu)成的有向圖;用i、j或did等變量名表示網(wǎng)頁(yè)編號(hào),其取值范圍從1到N(N是網(wǎng)頁(yè)的總數(shù));用I、J或者sid等變量名表示網(wǎng)站編號(hào),其取值范圍從1到Ns(Ns是網(wǎng)站的總數(shù))。如果網(wǎng)頁(yè)i(或網(wǎng)站I)在有向圖G中,則記為i∈G(或I∈G)。如果網(wǎng)頁(yè)i包含指向網(wǎng)頁(yè)j的鏈接,則表示為i→j,并且稱i為鏈接i→j的源網(wǎng)頁(yè),稱j為鏈接i→j的目標(biāo)網(wǎng)頁(yè)。如果G中存在鏈接i→j,則記為i→j∈G。
■基本模型對(duì)網(wǎng)頁(yè)(或網(wǎng)站)評(píng)級(jí),就是通過某種數(shù)值計(jì)算模型對(duì)G中的每個(gè)網(wǎng)頁(yè)i(或網(wǎng)站I)確定一個(gè)數(shù)值R(i)(或R(I)),以此定量地區(qū)分其質(zhì)量、重要性或者權(quán)威性。在以下論述中,用R(i)表示網(wǎng)頁(yè)i的級(jí)別?;阪溄臃治龅脑u(píng)級(jí)是根據(jù)網(wǎng)頁(yè)或網(wǎng)站之間的鏈接關(guān)系而確定其級(jí)別的數(shù)值。這種級(jí)別是一種與用戶查詢?cè)~無關(guān)的全局性級(jí)別。眾所周知的PageRank評(píng)級(jí)方法是利用網(wǎng)頁(yè)之間的超鏈接關(guān)系,將網(wǎng)頁(yè)的初始級(jí)別單向地沿著鏈接傳遞,而最終的網(wǎng)頁(yè)級(jí)別的分布就是這種單向性的級(jí)別值傳遞過程達(dá)到穩(wěn)定狀態(tài)的結(jié)果。在數(shù)學(xué)上這種級(jí)別傳遞過程等價(jià)于N個(gè)節(jié)點(diǎn)上的概率分布P(i)=R(i)的Markov鏈過程,而最后的評(píng)級(jí)結(jié)果就是該Markov鏈到達(dá)平穩(wěn)態(tài)的概率分布。PageRank的主要思想認(rèn)為網(wǎng)頁(yè)之間的超鏈接可作為一種引用與推薦關(guān)系,被很多網(wǎng)頁(yè)推薦的網(wǎng)頁(yè)具有較大的重要性;而且,來自重要網(wǎng)頁(yè)的推薦具有更重要的價(jià)值;各個(gè)網(wǎng)頁(yè)的級(jí)別隨著其所包含的鏈接平均地向外傳遞,而一個(gè)網(wǎng)頁(yè)所得到的級(jí)別就是所有沿著指向它的鏈接所傳遞的級(jí)別的總和。該總和是鏈接到該網(wǎng)頁(yè)的各個(gè)鏈出網(wǎng)頁(yè)的級(jí)別的加權(quán)求和,其中每個(gè)鏈出網(wǎng)頁(yè)的權(quán)值為其外出鏈接的總數(shù)(即出度,outdegree)的倒數(shù)。
如前所述,PageRank的單向傳遞性質(zhì)具有一系列的不足之處,易于受到人為設(shè)置鏈接的操縱,并且未充分利用節(jié)點(diǎn)之間鏈接關(guān)系的多種性質(zhì)。本發(fā)明的評(píng)級(jí)方法通過使用鏈接關(guān)系的多種性質(zhì)進(jìn)行評(píng)級(jí),以便更為全面、客觀和準(zhǔn)確地反映節(jié)點(diǎn)由鏈接關(guān)系而形成的質(zhì)量、重要性或權(quán)威性的差異,并更好地減少鏈接作弊行為的影響。
根據(jù)本發(fā)明的實(shí)施例,能夠影響網(wǎng)頁(yè)級(jí)別的鏈接關(guān)系的性質(zhì)至少包括如下4類■正向的鏈接,以及這些鏈接的正向權(quán)重;■反向的鏈接,以及這些鏈接的反向權(quán)重;■節(jié)點(diǎn)之間的共引用(co-citation)關(guān)系及其屬性;■節(jié)點(diǎn)之間的共指(co-reference)關(guān)系及其屬性。
任一個(gè)網(wǎng)頁(yè)的級(jí)別可以根據(jù)上述4類鏈接關(guān)系性質(zhì)的一部分或全部,由其它網(wǎng)頁(yè)的級(jí)別遞歸地確定。這為定量地利用多種鏈接關(guān)系特性計(jì)算網(wǎng)頁(yè)的級(jí)別提供了可實(shí)現(xiàn)的算法,即網(wǎng)頁(yè)i的級(jí)別R(i)可以由所有與網(wǎng)頁(yè)i有鏈接關(guān)系的其它網(wǎng)頁(yè)j的級(jí)別R(j)的某種線性疊加(加權(quán)和)而確定。具體而言,根據(jù)本發(fā)明實(shí)施例,確定網(wǎng)頁(yè)i的級(jí)別R(i)(i=1,2,...,N)的基本模型為R(i)=c1·Σj→i∈GW+(j,i)·R(j)+c2·Σi→j∈GW-(i,j)·R(j)+---(1)]]>c3·Σj∈GWC(i,j)·R(j)+c4·Σj∈GWR(i,j)·R(j)+D(i),]]>式中所有求和都是對(duì)指標(biāo)j進(jìn)行,并且j≠i(除非有鏈接關(guān)系特別指定了網(wǎng)頁(yè)對(duì)自己的鏈接、共引用或共指)。其中,4個(gè)求和中的函數(shù)W+(j,i)、W-(i,j)、WC(i,j)、WR(i,j)分別是鏈接j→i的正向權(quán)重、i→j的反向鏈接權(quán)重、網(wǎng)頁(yè)i同j的共引用權(quán)重、網(wǎng)頁(yè)i同j的共指權(quán)重;c1,c2,c3,c4是常系數(shù),表示各種鏈接關(guān)系性質(zhì)對(duì)級(jí)別的貢獻(xiàn)比例,其值可根據(jù)實(shí)際使用的模型而確定;D(i)i=1,2,...,N是N個(gè)常數(shù),表示網(wǎng)頁(yè)級(jí)別的某種先驗(yàn)分布(也就是在沒有任何鏈接關(guān)系影響的情況下,即各個(gè)權(quán)重函數(shù)W+=W-=WC=WR=0時(shí),各網(wǎng)頁(yè)的級(jí)別值)。也可以把D(i)改寫為如下形式D(i)=d·E(i),d=Σi∈GD(i),]]>Σi∈GE(i)=1,]]>其中E(i)=D(i)/d是一個(gè)歸一化的向量,可看作是網(wǎng)頁(yè)級(jí)別的先驗(yàn)概率分布。
公式(1)實(shí)際上是對(duì)網(wǎng)頁(yè)級(jí)別的4類鏈接關(guān)系級(jí)別傳遞的加權(quán)和的進(jìn)一步的加權(quán)和,而系數(shù)c1,c2,c3,c4是后一次加權(quán)和的權(quán)重。下面分別對(duì)上述各種鏈接關(guān)系性質(zhì)及其權(quán)重函數(shù)W+(j,i)、W-(i,j)、WC(i,j)、WR(i,j)加以詳細(xì)說明。
如附圖1所示,與任一網(wǎng)頁(yè)i具有直接的鏈接關(guān)系的網(wǎng)頁(yè)可分為兩大類一類是鏈接到網(wǎng)頁(yè)i的網(wǎng)頁(yè)j所組成的集合;另一類是被網(wǎng)頁(yè)i鏈接的網(wǎng)頁(yè)j′所組成的集合。前者所包含的指向網(wǎng)頁(yè)i的鏈接稱為網(wǎng)頁(yè)i的進(jìn)入鏈接(in-bound links),或者簡(jiǎn)稱為“入鏈”(in-links);入鏈的數(shù)目稱為網(wǎng)頁(yè)i的入度,記為函數(shù)形式in-degree(i);而網(wǎng)頁(yè)i所包含的指向其它網(wǎng)頁(yè)的鏈接稱為網(wǎng)頁(yè)i的外出鏈接(out-bound links),或者簡(jiǎn)稱為“出鏈”(out-links);出鏈的數(shù)目稱為網(wǎng)頁(yè)i的出度,記為out-degree(i).
在網(wǎng)頁(yè)評(píng)級(jí)過程中,網(wǎng)頁(yè)的級(jí)別是通過(直接或間接的)鏈接關(guān)系而傳遞的。首先,與網(wǎng)頁(yè)i的入度相關(guān)的各個(gè)網(wǎng)頁(yè)j對(duì)網(wǎng)頁(yè)i的級(jí)別R(i)具有直接的貢獻(xiàn),其中每個(gè)網(wǎng)頁(yè)j的貢獻(xiàn)是其自身級(jí)別R(j)的某個(gè)百分比例。這個(gè)貢獻(xiàn)為網(wǎng)頁(yè)j的級(jí)別R(j)按鏈接j→i對(duì)網(wǎng)頁(yè)i的正向傳遞,所傳遞的比例系數(shù)W+(j,i)稱為鏈接j→i的正向權(quán)重。因此,網(wǎng)頁(yè)i的級(jí)別R(i)首先是其入鏈的正向權(quán)重與入鏈的源網(wǎng)頁(yè)的級(jí)別的加權(quán)和。此即公式(1)的右邊第一項(xiàng)。
因此,根據(jù)本發(fā)明,對(duì)同一網(wǎng)頁(yè)i,來自不同網(wǎng)頁(yè)j的入鏈的重要性是不同的。入鏈的重要程度由鏈接j→i的正向權(quán)重W+(j,i)來表示。按此評(píng)級(jí)原理,來自重要網(wǎng)頁(yè)的重要鏈接的推薦具有更大的重要性。顯然,網(wǎng)頁(yè)j本身所包含的(外出)鏈接越多,其對(duì)被鏈接網(wǎng)頁(yè)的級(jí)別的貢獻(xiàn)就應(yīng)該越小。這個(gè)關(guān)系可以利用網(wǎng)頁(yè)j的出度來表示,可認(rèn)為鏈接j→i的正向權(quán)重W+(j,i)與網(wǎng)頁(yè)j的出度out-degree(j)成反比,即W+(j,i)∝1/out-degree(j).通過引入一個(gè)比例因子w+(j,i),可將此關(guān)系表示為W+(j,i)=w+(j,i)/out-degree(j). (2)比例因子w+(j,i)取決于與鏈接j→i相關(guān)的多種屬性(詳見下面說明)。而在本方法的簡(jiǎn)化應(yīng)用模型中,可以取為w+(j,i)≡1.0,對(duì)所有鏈接j→i;w+(j,i)=0,當(dāng)不存在鏈接j→i. (3)其次,根據(jù)本發(fā)明的評(píng)級(jí)方法,網(wǎng)頁(yè)之間的超鏈接對(duì)網(wǎng)頁(yè)級(jí)別的影響是雙向的。與上述沿鏈接正向傳遞級(jí)別的機(jī)制相對(duì)應(yīng),沿鏈接反方向傳遞級(jí)別也可作為一種有價(jià)值的網(wǎng)絡(luò)節(jié)點(diǎn)評(píng)級(jí)的機(jī)制。本發(fā)明將此機(jī)制集成到評(píng)級(jí)方法中。如附圖1所示,與網(wǎng)頁(yè)i的出度相關(guān)的各個(gè)網(wǎng)頁(yè)j′也會(huì)對(duì)網(wǎng)頁(yè)i的級(jí)別R(i)產(chǎn)生影響。其主要思想在于網(wǎng)頁(yè)中的超鏈接的設(shè)置完全是由網(wǎng)頁(yè)作者任意決定的;雖然網(wǎng)頁(yè)作者不能控制指向其網(wǎng)頁(yè)的鏈接,但他們可以任意選擇被其網(wǎng)頁(yè)鏈接的網(wǎng)站和網(wǎng)頁(yè),而反向的網(wǎng)頁(yè)級(jí)別傳遞可以對(duì)網(wǎng)頁(yè)鏈接設(shè)置的這種自發(fā)行為形成有效的制約和積極的影響,即如果網(wǎng)頁(yè)作者主動(dòng)指向高質(zhì)量的網(wǎng)頁(yè),則作為鼓勵(lì),其網(wǎng)頁(yè)的級(jí)別有可能獲得較大幅度的提高;而如果指向低質(zhì)量的網(wǎng)頁(yè),則其網(wǎng)頁(yè)的級(jí)別只會(huì)有很小的增加,不會(huì)獲得實(shí)質(zhì)性的提升。在某些反作弊技術(shù)中,已存在應(yīng)用類似機(jī)制的方法,例如,對(duì)包含指向已知作弊網(wǎng)站的鏈接的網(wǎng)頁(yè)或網(wǎng)站進(jìn)行一定程度的懲罰(在網(wǎng)頁(yè)搜集、更新和搜索結(jié)果排序方面降低其優(yōu)先級(jí))。
另一方面,從被指向的高質(zhì)量的網(wǎng)頁(yè)所能獲得的級(jí)別提升好處又是與被指網(wǎng)頁(yè)的入度有關(guān)的。如果指向某個(gè)高質(zhì)量的網(wǎng)頁(yè)的鏈接較多,則該網(wǎng)頁(yè)對(duì)主動(dòng)鏈接過來的網(wǎng)頁(yè)的級(jí)別貢獻(xiàn)會(huì)較小。因而本發(fā)明通過在評(píng)級(jí)方法中集成反方向的級(jí)別傳遞機(jī)制,能夠較好地對(duì)各種人為可控的要素加以平衡。
因此,與網(wǎng)頁(yè)i的出度相關(guān)的各個(gè)網(wǎng)頁(yè)j′也會(huì)將其級(jí)別R(j′)的一部分貢獻(xiàn)給網(wǎng)頁(yè)i的級(jí)別R(i).這個(gè)貢獻(xiàn)為網(wǎng)頁(yè)j′的級(jí)別R(j′)按鏈接i→j′對(duì)網(wǎng)頁(yè)i的級(jí)別的反向傳遞,因而其貢獻(xiàn)的比例系數(shù)W-(i,j′)稱為鏈接i→j′的反向權(quán)重。這樣,網(wǎng)頁(yè)i的級(jí)別R(i)還包括其出鏈的反向權(quán)重與出鏈的目標(biāo)網(wǎng)頁(yè)的級(jí)別的加權(quán)和,即公式(1)的右邊第二項(xiàng)。
如上所述,同一網(wǎng)頁(yè)i的不同出鏈的重要性是不同的。出鏈的重要程度由鏈接i→j′的反向權(quán)重W-(i,j′)來表示。按此評(píng)級(jí)原理,設(shè)置指向高質(zhì)量網(wǎng)頁(yè)的高質(zhì)量(大權(quán)重)的鏈接可以在較大程度上提高該網(wǎng)頁(yè)的質(zhì)量,而指向低質(zhì)量網(wǎng)頁(yè)則不會(huì)獲得實(shí)質(zhì)的質(zhì)量提升(即使該鏈接具有較大的反向權(quán)重)。
與正向權(quán)重同理,對(duì)于鏈接i→j′的反向權(quán)重W-(i,j′),網(wǎng)頁(yè)j′所具有的入鏈越多,其對(duì)主動(dòng)鏈接來的網(wǎng)頁(yè)i的級(jí)別的貢獻(xiàn)就應(yīng)該越小??梢杂镁W(wǎng)頁(yè)j′的入度來表示這個(gè)關(guān)系,即鏈接i→j′的反向權(quán)重W-(i,j′)與網(wǎng)頁(yè)j′的入度in-degree(j′)成反比,即W-(i,j′)∝1/in-degree(j′).通過引入一個(gè)比例因子w-(i,j),可將此關(guān)系表示為W-(i,j)=w-(i,j)/in-degree(j). (4)因子w-(i,j)取決于鏈接i→j的多種屬性(詳見下面說明),在簡(jiǎn)化應(yīng)用情形可取為w-(i,j)≡1.0,當(dāng)存在鏈接i→j∈G;w-(i,j)=0,當(dāng)不存在鏈接i→j∈G. (5)綜合上述鏈接的雙向傳遞性質(zhì)和雙向權(quán)重,根據(jù)本發(fā)明實(shí)施例,來自重要網(wǎng)頁(yè)的重要鏈接的推薦(入鏈)、以及指向重要網(wǎng)頁(yè)的重要鏈接的引用(出鏈)都可以對(duì)網(wǎng)頁(yè)的重要性產(chǎn)生較大的影響。這種機(jī)制可以鼓勵(lì)指向高質(zhì)量網(wǎng)頁(yè)的高質(zhì)量(大權(quán)重)的鏈接,提高超鏈接關(guān)系的總體質(zhì)量,并在很大程度上減少對(duì)低質(zhì)量信息的鏈接和鏈接交換。
再次,根據(jù)本發(fā)明的評(píng)級(jí)方法,具有共引用關(guān)系和共指關(guān)系的網(wǎng)頁(yè)或網(wǎng)站之間也存在級(jí)別傳遞關(guān)系,也就是說共引用關(guān)系和共指關(guān)系能夠充當(dāng)網(wǎng)頁(yè)或網(wǎng)站之間的某種間接的“互惠鏈接”關(guān)系,使得彼此之間的級(jí)別數(shù)值能夠互相傳遞、相互增長(zhǎng)。
如附圖2所示,編號(hào)為2和3的網(wǎng)頁(yè)之間沒有任何直接的鏈接關(guān)系,但存在另一個(gè)編號(hào)為1的網(wǎng)頁(yè),包含了同時(shí)指向網(wǎng)頁(yè)2和3的鏈接1→2,1→3.也就是說,網(wǎng)頁(yè)2和3同時(shí)被網(wǎng)頁(yè)1引用,或者說網(wǎng)頁(yè)1包含了對(duì)網(wǎng)頁(yè)2和3的共引用(co-citation)。這樣,網(wǎng)頁(yè)2和3通過網(wǎng)頁(yè)1而形成了一種間接的關(guān)系,此即上述網(wǎng)頁(yè)之間的共引用關(guān)系。顯然,這是一種相互的(即雙向的)間接鏈接關(guān)系。
在附圖3,網(wǎng)頁(yè)2和3之間也沒有任何直接的鏈接關(guān)系,但是二者同時(shí)指向了另一個(gè)編號(hào)為1的網(wǎng)頁(yè)。這樣,網(wǎng)頁(yè)2和3通過直接的鏈接關(guān)系2→1和3→1而形成了另一種間接關(guān)系,即共指(co-reference)關(guān)系。共指關(guān)系的鏈接方向正好與共引用關(guān)系的相反(等價(jià)于“反向的co-citation”)。這也是一種相互的、雙向的關(guān)系(對(duì)應(yīng)雙向的級(jí)別傳遞)。
被很多網(wǎng)頁(yè)共引用的兩個(gè)網(wǎng)頁(yè),以及指向多個(gè)相同網(wǎng)頁(yè)的兩個(gè)網(wǎng)頁(yè),一般具有較大的相關(guān)性,例如相同的領(lǐng)域、主題或?qū)︻愋拖嗨频馁Y源的引用等。通常,有商業(yè)競(jìng)爭(zhēng)關(guān)系的公司網(wǎng)站之間一般不會(huì)有任何鏈接關(guān)系,然而它們的內(nèi)容則具有很強(qiáng)的相關(guān)性。從整體上看,這些相互競(jìng)爭(zhēng)的商業(yè)網(wǎng)站之間會(huì)存在比較多的共引用和共指關(guān)系,即有較多的第三方網(wǎng)頁(yè)會(huì)同時(shí)引用它們,而它們也可能會(huì)指向某些相同的第三方網(wǎng)頁(yè)或者網(wǎng)站。PageRank方法等現(xiàn)有技術(shù)并未對(duì)這種導(dǎo)出性的鏈接關(guān)系特性加以應(yīng)用。本發(fā)明的評(píng)級(jí)方法將上述兩種間接的鏈接關(guān)系集成到評(píng)級(jí)模型中,以此進(jìn)一步提高評(píng)級(jí)結(jié)果的客觀性和穩(wěn)定性。
顯然,這種通過第三方網(wǎng)頁(yè)或網(wǎng)站而間接形成的“互惠鏈接”關(guān)系較為客觀地反映了節(jié)點(diǎn)之間在主題、內(nèi)容或類型方面的聯(lián)系,可以更好地反映網(wǎng)絡(luò)的鏈接結(jié)構(gòu)對(duì)節(jié)點(diǎn)的全局影響;同時(shí)它又遠(yuǎn)比直接的單向超鏈接關(guān)系難以被人為操縱,因而具備極強(qiáng)的抗拒鏈接作弊的性能。依靠網(wǎng)頁(yè)鏈接的共引用和共指關(guān)系進(jìn)行作弊的難度比鏈接堆積、鏈接交換等作弊方式要困難得多。綜合經(jīng)濟(jì)成本、技術(shù)難度、競(jìng)爭(zhēng)等因素,通過人為設(shè)置大量共引用或共指關(guān)系而達(dá)到顯著提升自己的網(wǎng)頁(yè)級(jí)別、同時(shí)不增加競(jìng)爭(zhēng)對(duì)手的網(wǎng)頁(yè)級(jí)別的目的實(shí)際上難以實(shí)現(xiàn)。
根據(jù)本發(fā)明實(shí)施例,與網(wǎng)頁(yè)i有共引用關(guān)系的各個(gè)網(wǎng)頁(yè)j會(huì)將其級(jí)別R(j)的一部分貢獻(xiàn)給網(wǎng)頁(yè)i的級(jí)別R(i),其比例系數(shù)WC(i,j)稱為網(wǎng)頁(yè)i與j的共引用權(quán)重;而與網(wǎng)頁(yè)i有共指關(guān)系的各個(gè)網(wǎng)頁(yè)j會(huì)將其級(jí)別R(j)的一部分貢獻(xiàn)給網(wǎng)頁(yè)i的級(jí)別R(i),其比例系數(shù)WR(i,j)稱為網(wǎng)頁(yè)i與j的共指權(quán)重。這兩方面的貢獻(xiàn)分別構(gòu)成公式(1)右邊的第三項(xiàng)和第四項(xiàng)。
進(jìn)一步地,權(quán)重WC(i,j)和WR(i,j)還可以通過引入兩個(gè)新的函數(shù)coci-degree(i,j)和coref-degree(i,j)來確定,后者分別表示共引用和共指關(guān)系的頻次屬性。對(duì)于存在共引用關(guān)系得網(wǎng)頁(yè)i和網(wǎng)頁(yè)j,如果同時(shí)收錄二者的第三方網(wǎng)頁(yè)越多,則在總體上網(wǎng)頁(yè)i、j被同時(shí)瀏覽的概率就會(huì)增大,表現(xiàn)為這兩個(gè)網(wǎng)頁(yè)之間有較大的躍遷概率。共引用權(quán)重WC(i,j)就是從網(wǎng)頁(yè)j到網(wǎng)頁(yè)i的這種躍遷的概率強(qiáng)度。因此,WC(i,j)是與網(wǎng)頁(yè)i和網(wǎng)頁(yè)j之間的共引用的次數(shù)(或稱為共引用頻次)相關(guān)的一個(gè)函數(shù)。用coci-degree(i,j)表示共引用頻次對(duì)于從網(wǎng)頁(yè)i跳躍到網(wǎng)頁(yè)j的概率的貢獻(xiàn),則共引用權(quán)重WC(i,j)∝coci-degree(i,j).引入一個(gè)比例因子wC(i,j),將此關(guān)系表示為WC(i,j)∝wC(i,j)·coci-degree(i,j). (6)因子wC(i,j)依賴于網(wǎng)頁(yè)i與j的屬性(詳見下面說明),在簡(jiǎn)化應(yīng)用情形可取為wC(i,j)≡1.0,當(dāng)i與j存在共引用;wC(i,j)=0,當(dāng)不存在共引用. (7)相應(yīng)地,可以認(rèn)為共指權(quán)重WR(i,j)是由共指關(guān)系引起的從網(wǎng)頁(yè)j到網(wǎng)頁(yè)i的躍遷概率強(qiáng)度,并且是與網(wǎng)頁(yè)i和網(wǎng)頁(yè)j之間的共指的次數(shù)(或稱為共指頻次)成正比的一個(gè)函數(shù)。用coref-degree(i,j)表示共指頻次對(duì)于從網(wǎng)頁(yè)i跳躍到網(wǎng)頁(yè)j的概率的貢獻(xiàn),引入比例因子wR(i,j),可將WR(i,j)表示為WR(i,j)∝wR(i,j)·coref-degree(i,j). (8)因子wR(i,j)依賴于網(wǎng)頁(yè)i與j的屬性(詳見下面說明),在簡(jiǎn)化應(yīng)用情形可取為wR(i,j)≡1.0,當(dāng)i與j存在共指;wR(i,j)=0,當(dāng)不存在共指. (9)根據(jù)本發(fā)明實(shí)施例,系數(shù)coci-degree(i,j)為網(wǎng)頁(yè)i和網(wǎng)頁(yè)j之間的共引用頻次coci_freq(i,j)的函數(shù),即
coci-degree(i,j)=f(coci_freq(i,j)).
在本發(fā)明優(yōu)選實(shí)施例的系統(tǒng)配置中,coci-degree(i,j)正比于網(wǎng)頁(yè)i和網(wǎng)頁(yè)j之間的共引用頻次,并可定義為coci-degree(i,j)=coci_freq(i,j).當(dāng)i=j(luò),可認(rèn)為coci_freq(i,j)=in-degree(i).即coci-degree(i,j)=coci_freq(i, j),i≠j;coci-degree(i,i)=in-degree(i). (10)本發(fā)明也可以使用其它的函數(shù)形式f實(shí)現(xiàn)coci-degree(i,j),從而分析共引用關(guān)系對(duì)網(wǎng)頁(yè)或網(wǎng)站評(píng)級(jí)的其它方面的技術(shù)效果。例如,f(coci_freq)可以為log(coci_freq)或者(coci_freq)1/2等形式。
類似地,根據(jù)本發(fā)明實(shí)施例,系數(shù)coref-degree(i,j)為網(wǎng)頁(yè)i和網(wǎng)頁(yè)j之間的共指頻次coref_freq(i,j)的函數(shù),即coref-degree(i,j)=g(coref_freq(i,j)).
在優(yōu)選系統(tǒng)配置中,coref-degree(i,j)正比于網(wǎng)頁(yè)i和網(wǎng)頁(yè)j之間的共指頻次,并定義為coref-degree(i,j)=coref_freq(i,j).當(dāng)i=j(luò)時(shí),coref_freq(i,j)=out-degree(i)。即coref-degree(i,j)=coref_freq(i,j),i≠j;coref-degree(i,i)=out-degree(i). (11)本發(fā)明也可以按需要使用其它的函數(shù)形式g,例如log(coref_freq(i,j))或者[coref_freq(i,j)]1/2等形式。
■評(píng)級(jí)算法綜合上述各個(gè)評(píng)級(jí)因素,本發(fā)明實(shí)施例的評(píng)級(jí)流程如附圖4所示。在步驟410,根據(jù)網(wǎng)頁(yè)節(jié)點(diǎn)之間的鏈接關(guān)系,按照上述描述,為節(jié)點(diǎn)之間的每個(gè)鏈接設(shè)置一個(gè)正向權(quán)重W+和一個(gè)反向權(quán)重W-,并為任兩個(gè)節(jié)點(diǎn)之間的每個(gè)共引用設(shè)置一個(gè)權(quán)重WC、為任兩個(gè)節(jié)點(diǎn)之間的每個(gè)共指設(shè)置一個(gè)權(quán)重WR。然后在步驟420,根據(jù)上述公式(1)所描述的評(píng)級(jí)模型以及公式(2)~(11)所述的4類鏈接關(guān)系性質(zhì),按下列因素逐一確定各個(gè)網(wǎng)頁(yè)i的級(jí)別R(i),即鏈接到網(wǎng)頁(yè)i的各個(gè)網(wǎng)頁(yè)j的級(jí)別R(j),以及這些鏈接的正向權(quán)重W+(j,i);網(wǎng)頁(yè)i所鏈接的各個(gè)網(wǎng)頁(yè)j的級(jí)別R(j),以及這些鏈接的反向權(quán)重W-(i,j);與網(wǎng)頁(yè)i有共引用關(guān)系的各個(gè)網(wǎng)頁(yè)j的級(jí)別R(j),以及這些共引用的權(quán)重WC(i,j);與網(wǎng)頁(yè)i有共指關(guān)系的各個(gè)網(wǎng)頁(yè)j的級(jí)別R(j),以及這些共指的權(quán)重WR(i,j)。根據(jù)這些因素,可對(duì)每個(gè)網(wǎng)頁(yè)i的級(jí)別值R(i)作精確求解。
上述評(píng)級(jí)過程包含了一個(gè)具體的算法,該算法可由如下概率轉(zhuǎn)移公式描述。這是一個(gè)由N個(gè)方程組成的N元線性方程組,其中網(wǎng)頁(yè)的級(jí)別R(i)等價(jià)網(wǎng)頁(yè)i被隨機(jī)選中(瀏覽或點(diǎn)擊)的概率R(i)=c1·Σj→i∈Gw+(j,i)out-degree(j)R(j)+c2·Σi→j∈Gw-(i,j)in-degree(j)R(j)+]]>c3·Σj∈G,j≠icoci-degree(i,j)·wC(i,j)α(j)R(j)+---(12)]]>c4·Σj∈G,j≠icoref-degree(i,j)·wR(i,j)β(j)R(j)+d·E(i),]]>
式中α(j)和β(j)為概率矩陣的歸一化因子,而w+、w-、wC和wR分別是上述4類概率躍遷機(jī)制的相應(yīng)的權(quán)重因子。根據(jù)概率轉(zhuǎn)移變換的要求,常數(shù)c1,c2,c3,c4和d滿足如下關(guān)系d=1-(c1+c2+c3+c4). (13)歸一化的向量E(i)滿足條件Σi∈GE(i)=1,]]>其作用為一個(gè)概率外源(external source),d·E(i)表示網(wǎng)頁(yè)瀏覽者不沿著網(wǎng)頁(yè)之間的鏈接關(guān)系、而是在整體上隨機(jī)挑選各個(gè)節(jié)點(diǎn)i的概率,在此稱為“個(gè)性化評(píng)級(jí)向量”。其基本性質(zhì)與PageRank中的個(gè)性化向量相同。在本發(fā)明實(shí)施例優(yōu)選配置中,外部概率源向量E(i)的各個(gè)分量都取為1/N,即取平均的先驗(yàn)概率分布。
由上述算法確定的N個(gè)網(wǎng)頁(yè)的級(jí)別R(i)已是按鏈接關(guān)系瀏覽網(wǎng)頁(yè)的隨機(jī)過程達(dá)到穩(wěn)定狀態(tài)的概率分布,因此滿足如下非負(fù)和歸一條件i,R(i)≥0;Σi=1NR(i)≡1.---(14)]]>將上述N個(gè)網(wǎng)頁(yè)的級(jí)別R(i)組成一個(gè)列向量R,可將上述公式寫為矩陣形式R=M(c1,c2,c3,c4)·R (15)其中矩陣M是多個(gè)矩陣的線性組合M(c1,c2,c3,c4)=c1M++c2M-+c3MC+c4MR+dM0, (16)對(duì)于網(wǎng)頁(yè)i,j,x∈G,右邊各個(gè)矩陣分別定義如下Mi,j+=w+(j,i)out-degree(j),]]>(對(duì)于鏈接j→i) (17)Mi,j-=w-(i,j)in-dergree(j),]]>(對(duì)于鏈接i→j) (18)Mi,jC=coci-degree(i,j)·wC(i,j)α(j),]]>(對(duì)于共引用關(guān)系x→i,x→j) (19)Mi,jR=coref-degree(i,j)·wR(i,j)β(j),]]>(對(duì)于共指關(guān)系i→x,j→x) (20)Mi,j0=E(i),]]>對(duì)于任意網(wǎng)頁(yè)j=1,2,...,N. (21)以上對(duì)矩陣M0的推導(dǎo)利用了級(jí)別向量R的如下非負(fù)和歸一屬性。
上述矩陣M以及M+、M-、MC和MR的每一個(gè)都是一個(gè)Markov鏈的概率轉(zhuǎn)移矩陣,它們都滿足概率轉(zhuǎn)移矩陣的一個(gè)基本屬性對(duì)于G中的任意節(jié)點(diǎn)i,轉(zhuǎn)移矩陣的任意一列的元素之和為1,即
i,Mk∈{M,M+,M-,MC,MR,M0}Σi∈GMi,jk=1.---(22)]]>此性質(zhì)保證向量R的上述非負(fù)和歸一屬性不因概率轉(zhuǎn)移矩陣的變換而改變。由(17)、(18),有如下關(guān)系式Σi∈Gw+(j,i)=out-degree(j),]]>Σi∈Gw-(i,j)=in-degree(j).---(23)]]>而對(duì)于歸一因子α和β,根據(jù)上述概率轉(zhuǎn)移矩陣屬性(19)、(20),二者的定義為α(j)=Σi∈G,i≠jcoci-degree(i,j)·wC(i,j),]]>∃i:wC(i,j)≠0;elseα(j)=1,---(24)]]>β(j)=Σi∈G,i≠jcoref-degree(i,j)·wR(i,j),]]>∃i:wR(i,j)≠0;elseβ(j)=1.---(25)]]>因此,因子α(j)表示網(wǎng)頁(yè)j所參與的共引用關(guān)系的總的頻次(加權(quán)和),而比值coci-degree(i,j)/α(j)則為網(wǎng)頁(yè)j的級(jí)別R(j)由于共引用關(guān)系而分配給網(wǎng)頁(yè)i的比例;β(j)表示網(wǎng)頁(yè)j所參與的共指關(guān)系的總的頻次(加權(quán)和),coref-degree(i,j)/β(j)為網(wǎng)頁(yè)j的級(jí)別R(j)由共指關(guān)系分配給網(wǎng)頁(yè)i的比例。
上述概率轉(zhuǎn)移矩陣M(c1,c2,c3,c4)表示本發(fā)明實(shí)施例的一個(gè)綜合模型,可看作是基于雙向鏈接權(quán)重和雙向的共引用關(guān)系的增強(qiáng)PageRank模型。當(dāng)常數(shù)c1,c2,c3,c4的一部分取值為0時(shí),可由矩陣M(c1,c2,c3,c4)得到不同的簡(jiǎn)化模型。例如,PageRank實(shí)際上就是由矩陣M(1-d,0,0,0)所表示的一種簡(jiǎn)化模型特例,并且其中進(jìn)一步假設(shè)了所有正向鏈接權(quán)重w+(i,j)=1。其它幾種重要的簡(jiǎn)化模型包括R+-=M(c1,c2,0,0)·R+-R+C=M(c1,0,c3,0)·R+CR+R=M(c1,0,0,c4)·R+R以及R+-C=M(c1,c2,c3,0)·R+-CR+-R=M(c1,c2,0,c4)·R+-RR+CR=M(c1,0,c3,c4)·R+CR這些評(píng)級(jí)模型分別利用了一部分評(píng)級(jí)因素,可用于對(duì)同一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)給出多種評(píng)級(jí)結(jié)果。這些結(jié)果可以單獨(dú)或者聯(lián)合地應(yīng)用于不同目的。例如,級(jí)別向量R+-可單獨(dú)地用于對(duì)“主動(dòng)鏈接到高質(zhì)量網(wǎng)頁(yè)”情況的度量,部分地顯示創(chuàng)建高質(zhì)量超鏈接行為的效果。
另外,在保證上述各個(gè)轉(zhuǎn)移矩陣的任意一列元素之和為1的屬性時(shí),還有一個(gè)需要特殊處理的問題,即在實(shí)際的網(wǎng)絡(luò)鏈接結(jié)構(gòu)中,通常都存在出度或者入度為0的節(jié)點(diǎn)。例如,對(duì)于某個(gè)非網(wǎng)頁(yè)的文檔(包括PDF文件、Word DOC文件等)或者尚未/無法成功下載的網(wǎng)頁(yè)j,有out-degree(j)=0;而對(duì)于某些沒有被其它任何網(wǎng)頁(yè)鏈接的網(wǎng)站首頁(yè)k,則in-degree(k)=0.對(duì)于前者,矩陣M+的相應(yīng)列元素都是0,因而將不能滿足上述歸一公式(22)。對(duì)于后者,矩陣M-的相應(yīng)的列元素都是0,不滿足上述公式(22)。而且,這些網(wǎng)頁(yè)的存在還有可能導(dǎo)致矩陣MC和MR存在全部元素為0的列,不能滿足公式(22)。
在相應(yīng)的Markov鏈過程中,這些入度或者出度為0的節(jié)點(diǎn)被稱為“搖擺節(jié)點(diǎn)”(dangling nodes)。本發(fā)明實(shí)施例應(yīng)用一種標(biāo)準(zhǔn)化的數(shù)學(xué)技巧對(duì)這些節(jié)點(diǎn)進(jìn)行特殊處理,即如果網(wǎng)絡(luò)中的節(jié)點(diǎn)總數(shù)為N,則對(duì)于入度為0的節(jié)點(diǎn),其入度被修正為N;而對(duì)于出度為0的節(jié)點(diǎn),其出度被修正為N;而且,對(duì)于這些被修正的節(jié)點(diǎn)所具備的新鏈接(稱為“虛鏈接”virtual links),其正向和反向的鏈接權(quán)重都是1.0,即對(duì)于任何源節(jié)點(diǎn)或者目標(biāo)節(jié)點(diǎn)為被修正的節(jié)點(diǎn)的鏈接,w±=1.0;另外,被修正的節(jié)點(diǎn)不參與共引用頻次和共指頻次的計(jì)算。(其它節(jié)點(diǎn)則不做任何處理。)經(jīng)過這樣處理之后,網(wǎng)絡(luò)中的任何節(jié)點(diǎn)的入度和出度都不會(huì)為0,因而上述矩陣M(c1,c2,c3,c4)對(duì)于任何網(wǎng)絡(luò)鏈接結(jié)構(gòu)都將是合格的概率轉(zhuǎn)移矩陣。
由上述公式(12)或(15)描述的評(píng)級(jí)算法所獲得的結(jié)果實(shí)際上是N維矩陣M(c1,c2,c3,c4)的主特征向量。該算法可以被高效地實(shí)現(xiàn)(詳見后文描述)。
■參數(shù)與權(quán)重因子設(shè)置在上述評(píng)級(jí)方法中,模型參數(shù)c1,c2,c3,c4以及d可按具體應(yīng)用調(diào)整。其中參數(shù)d具有特殊的作用,它一方面表示網(wǎng)頁(yè)瀏覽者不依靠鏈接關(guān)系而是隨機(jī)挑選各個(gè)網(wǎng)頁(yè)節(jié)點(diǎn)的概率強(qiáng)度,另一方面它與評(píng)級(jí)算法的迭代計(jì)算收斂速率有關(guān)d值越大,迭代的收斂越快,但評(píng)級(jí)結(jié)果越偏離實(shí)際的網(wǎng)絡(luò)鏈接結(jié)構(gòu)。數(shù)學(xué)上,引入?yún)?shù)d(即外部概率源)的目的在于加快Markov鏈達(dá)到平穩(wěn)狀態(tài)。
為較小地偏離網(wǎng)絡(luò)結(jié)構(gòu)并較快地收斂,通??扇≈10%,即c1+c2+c3+c4≈90%.而c1,c2,c3,c4的比例又可以按需調(diào)整,由此調(diào)整各種鏈接關(guān)系性質(zhì)對(duì)級(jí)別貢獻(xiàn)的權(quán)重。如果需要強(qiáng)調(diào)直接的鏈接關(guān)系的作用,則可適當(dāng)增大參數(shù)c1和c2;如果需要強(qiáng)調(diào)由第三方網(wǎng)頁(yè)或網(wǎng)站間接形成的“互惠鏈接”關(guān)系的效應(yīng),則可增大c3和c4。而c1和c2以及c3和c4二者之間的相對(duì)比例也可按同理調(diào)整。
上述評(píng)級(jí)算法所涉及的權(quán)重因子w+、w-、wC和wR分別表示網(wǎng)頁(yè)之間的4種鏈接關(guān)系性質(zhì)對(duì)概率轉(zhuǎn)移(即級(jí)別傳遞)的強(qiáng)度系數(shù)(傳遞比例),它們都是具體的網(wǎng)頁(yè)i和j的多種相關(guān)屬性的函數(shù)。
根據(jù)本發(fā)明實(shí)施例,權(quán)重因子w+、w-、wC和wR的一個(gè)或多個(gè)可以取常數(shù)值。在本方法的一個(gè)簡(jiǎn)化應(yīng)用的模型中,w+、w-、wC和wR都為常數(shù),并分別按公式(3)、(5)、(7)、(9)取值,可綜合表示為w+=w-=wC=wR=1.0,當(dāng)存在相應(yīng)的鏈接關(guān)系;=0,當(dāng)無相應(yīng)關(guān)系時(shí). (26)而當(dāng)權(quán)重因子wC和wR取為1時(shí),對(duì)于網(wǎng)頁(yè)i和j之間非空的共引用和共指關(guān)系,由上述定義,歸一因子α和β簡(jiǎn)化為α(j)=Σi∈G,i≠jcoci-degree(i,j),]]>β(j)=Σi∈G,i≠jcoref-degree(i,j).---(27)]]>
即分別為網(wǎng)頁(yè)j所參與的共引用關(guān)系和共指關(guān)系的總的頻次。
作為一個(gè)示例,可將本評(píng)級(jí)方法的上述簡(jiǎn)化模型應(yīng)用到如附圖5所示的網(wǎng)絡(luò),其中包括N=3個(gè)網(wǎng)頁(yè)(或者網(wǎng)站)節(jié)點(diǎn)及4個(gè)鏈接。根據(jù)這些鏈接關(guān)系,有out-degree(1)=2,out-degree(2)=1,out-degree(3)=1;in-degree(1)=1, in-degree(2)=1,in-degree(3)=2;coci-degree(2,3)=coci-degree(3,2)=1;coref-degree(1,2)=coref-degree(2,1)=1;w-(1,2)=w-(1,3)=w-(2,3)=w-(3,1)=1.0,w+(i,j)=0對(duì)其它i,j;w+(2,1)=w+(3,1)=w+(3,2)=w+(1,3)=1.0,w+(i,j)=0對(duì)其它i,j;wC(2,3)=wC(3,2)=1.0,wC(i,j)=0對(duì)其它i,j;wR(1,2)=wR(2,1)=1.0,wR(i,j)=0對(duì)其它i,j;由α和β定義及公式(27)得α(1)=1,α(2)=1,α(3)=1;β(1)=1,β(2)=1,β(3)=1.
將上述各因子以及先驗(yàn)概率分布E(i)=1/3代入評(píng)級(jí)公式(12),得到以下線性方程組R(1)=(c2+c4)·R(2)+(c1+c2/2)·R(3)+d/3,R(2)=(c1/2+c4)·R(1)+(c2/2+c3)·R(3)+d/3,R(3)=(c1/2+c2)·R(1)+(c1+c3)·R(2)+d/3.]]>以及約束條件R(1)+R(2)+R(3)=1.
顯然,R(i)是參數(shù)參數(shù)c1,c2,c3,c4及d的函數(shù)。作為簡(jiǎn)單示例,設(shè)d=0、加權(quán)系數(shù)c1=c2=c3=c4=1/4(即等權(quán)重),則得到評(píng)級(jí)結(jié)果為R(1)=36/121≈0.2975,R(2)=3/11≈0.2727,R(3)=52/121≈0.4298.
當(dāng)應(yīng)用本發(fā)明的方法進(jìn)行更細(xì)致的網(wǎng)頁(yè)評(píng)級(jí)時(shí),權(quán)重因子w+(j,i)、w-(i,j)、wC(i,j)和wR(i,j)可根據(jù)網(wǎng)頁(yè)i和j的具體屬性進(jìn)行定義和調(diào)整,以便更準(zhǔn)確地反映網(wǎng)頁(yè)之間的上述4種鏈接關(guān)系性質(zhì)對(duì)網(wǎng)頁(yè)級(jí)別傳遞的效果。例如,設(shè)函數(shù)A1(i)、A2(j)、A3(i,j)分別表示網(wǎng)頁(yè)i的屬性、網(wǎng)頁(yè)j的屬性、鏈接i→j或j→i的屬性對(duì)權(quán)重因子的作用,則鏈接權(quán)重因子w+或w-可以表示為w+,-(i,j)=A1(i)·A2(j)·A3(i,j),而共引用和共指權(quán)重因子wC、wR可表示為wC(i,j)=A1(i)·A2(j)·∑x∈G[A3(x,i)·A3(x,j)],wR(i,j)=A1(i)·A2(j)·∑x∈G[A3(i,x)·A3(j,x)],其中x是與i、j形成共引用或共指關(guān)系的網(wǎng)頁(yè)。
所述網(wǎng)頁(yè)的屬性包括該網(wǎng)頁(yè)的URL以及該URL的屬性,該網(wǎng)頁(yè)的創(chuàng)建、搜集和/或更新時(shí)間,該網(wǎng)頁(yè)的訪問次數(shù)、訪問頻度,該網(wǎng)頁(yè)的上一次評(píng)級(jí)的結(jié)果等。而網(wǎng)頁(yè)的URL屬性又包括主機(jī)名和域名的屬性(域名注冊(cè)信息、主機(jī)IP地址及其地域等),文件目錄的深度,文件名稱及其長(zhǎng)度等。
鏈接i→j的屬性包括該鏈接在網(wǎng)頁(yè)i中的屬性、網(wǎng)頁(yè)j的屬性。后者如上所述;前者包括鏈接在網(wǎng)頁(yè)i中的位置(是否處于頁(yè)面頂端或中間等),鏈接文字以及鏈接描述文字(包括文字長(zhǎng)度、關(guān)鍵詞的數(shù)量、關(guān)鍵詞的主題類別等),鏈接的排版格式信息(包括字體大小、顏色,鏈接圖形的相對(duì)大小和視覺效果,以及其它HTML標(biāo)簽信息),該鏈接在此網(wǎng)頁(yè)中被點(diǎn)擊的次數(shù)、頻度、以及點(diǎn)擊者的來源等信息。同時(shí),鏈接i→j的屬性還包括網(wǎng)頁(yè)i的屬性與網(wǎng)頁(yè)j的屬性的對(duì)比情況,包括網(wǎng)頁(yè)i的URL與網(wǎng)頁(yè)j的URL的比較屬性(例如二者主機(jī)之間的IP地址距離或?qū)嶋H地理位置距離、二者文件目錄深度的比較等),二者被訪問次數(shù)的差異、訪問者來源的差異,網(wǎng)頁(yè)i、j的文本屬性的差異(包括各自的字符數(shù)長(zhǎng)度、關(guān)鍵詞數(shù)量、關(guān)鍵詞和鏈接的密度,以及二者的文本的相似程度)。
在本發(fā)明方法的實(shí)際應(yīng)用中,可根據(jù)上述屬性的一部分或者全部分別調(diào)整各個(gè)權(quán)重因子。例如,對(duì)于正向鏈接權(quán)重因子w+(j,i),可主要根據(jù)鏈接在源網(wǎng)頁(yè)j中的位置、顯示視覺等屬性,區(qū)分各個(gè)外出鏈接的權(quán)重,從而更準(zhǔn)確地模擬在源網(wǎng)頁(yè)j中的各個(gè)鏈接向外傳遞網(wǎng)頁(yè)j的級(jí)別的比例因子。而對(duì)于反向鏈接權(quán)重因子w-(i,j),可主要考慮網(wǎng)頁(yè)i和j的相關(guān)性(包括標(biāo)題、鏈接描述文字、主要內(nèi)容、URL中的主機(jī)信息等的相關(guān)程度),鏈接i→j及其指向的網(wǎng)頁(yè)j同網(wǎng)頁(yè)i的相關(guān)性越強(qiáng),則網(wǎng)頁(yè)j的級(jí)別對(duì)網(wǎng)頁(yè)i的級(jí)別的貢獻(xiàn)比例即w-(i,j)就越大。
兩個(gè)網(wǎng)頁(yè)i、j的共引用權(quán)重因子wC(i,j)表示某個(gè)與網(wǎng)頁(yè)i具有共引用關(guān)系的某個(gè)網(wǎng)頁(yè)j在所有與網(wǎng)頁(yè)i的具有共引用關(guān)系的網(wǎng)頁(yè)集合中的重要程度。確定該權(quán)重的過程為共引用權(quán)重分析(co-citation weighting)。在簡(jiǎn)單的情況下,所有與網(wǎng)頁(yè)i的具有共引用關(guān)系的網(wǎng)頁(yè)都具有相同的重要性,即wC(i,j)=1,公式(1)中的共引用權(quán)重WC(i,j)只是正比于共引用頻次coci-degree(i,j).而在一般的情況下,權(quán)重因子wC(i,j)通過比較上述網(wǎng)頁(yè)i的屬性、所有與網(wǎng)頁(yè)i具有共引用關(guān)系的網(wǎng)頁(yè)j的各種相關(guān)的屬性而確定,其中還包括了同時(shí)指向網(wǎng)頁(yè)i和j的網(wǎng)頁(yè)x的屬性,以及鏈接x→j、x→j的屬性。通過這些屬性,可確定網(wǎng)頁(yè)i與網(wǎng)頁(yè)j之間的某種距離特征,則與網(wǎng)頁(yè)i的距離較小的網(wǎng)頁(yè)j將具有較大的權(quán)重因子wC(i,j)。
共指權(quán)重因子wR(i,j)表示某個(gè)與網(wǎng)頁(yè)i具有共指關(guān)系的某個(gè)網(wǎng)頁(yè)j在所有與網(wǎng)頁(yè)i的具有共指關(guān)系的網(wǎng)頁(yè)集合中的重要程度。確定該權(quán)重的過程為共指權(quán)重分析(coreferenceweighting)。在簡(jiǎn)單的情況下,所有與網(wǎng)頁(yè)i的具有共指關(guān)系的網(wǎng)頁(yè)具有相同的重要性,即wR(i,j)=1,公式(1)中的共指權(quán)重WR(i,j)只是正比于共指頻次coref-degree(i,j).而在一般的情況下,權(quán)重因子wR(i,j)通過上述各項(xiàng)網(wǎng)頁(yè)屬性和各項(xiàng)鏈接屬性而確定,并反映網(wǎng)頁(yè)i與網(wǎng)頁(yè)j之間的某種距離特征,即如果網(wǎng)頁(yè)i、j的距離較小,則權(quán)重因子wR(i,j)被相應(yīng)地加大。
■評(píng)級(jí)算法的實(shí)現(xiàn)根據(jù)公式(12)或(15)的評(píng)級(jí)算法所獲得的結(jié)果R(i)是N維矩陣M(c1,c2,c3,c4)的主特征向量(即最大的特征值所對(duì)應(yīng)的特征向量)。在本發(fā)明實(shí)施例的上述搜索引擎系統(tǒng)中,該算法的高效率實(shí)現(xiàn)需要使用一批關(guān)鍵的數(shù)據(jù)結(jié)構(gòu),即矩陣M+、M-、MC和MR的存儲(chǔ)信息與格式。算法所涉及的外部概率源向量E(i)則不需特別處理。當(dāng)取等概率分布即E(i)=1/N時(shí),E(i)向量不需要存儲(chǔ),在計(jì)算步驟中直接使用即可;而當(dāng)取E(i)為某個(gè)其它的個(gè)性化向量時(shí),則可以把它存放在文件中,其中E(i)各個(gè)分量按網(wǎng)頁(yè)編號(hào)i的順序存放。
根據(jù)本發(fā)明實(shí)施例,上述4個(gè)矩陣M+、M-、MC和MR的存儲(chǔ)方式各為一個(gè)稀疏矩陣文件,分別稱為Outdegree文件、Indegree文件、Cocitation文件和Coreference文件。公式(12)所述的網(wǎng)頁(yè)節(jié)點(diǎn)級(jí)別的計(jì)算方法可按照如下方式實(shí)現(xiàn)●首先分析網(wǎng)頁(yè),提取其中包含的鏈接,生成一個(gè)Outdegree文件(M+的稀疏矩陣表示),其記錄單位是每個(gè)網(wǎng)頁(yè)的外出鏈接信息,包括被鏈接網(wǎng)頁(yè)的編號(hào)和該出鏈的正向權(quán)重。Outdegree文件中的每個(gè)網(wǎng)頁(yè)記錄的格式為src_didn,(linked_did1,w+1),......,(linked_didn,w+n). (28)其中src_did為鏈出的源網(wǎng)頁(yè)的編號(hào),linked_didj為被鏈接網(wǎng)頁(yè)的編號(hào),w+j為該鏈接的正向權(quán)重w+(src_did,linked_didj),而整數(shù)n即為網(wǎng)頁(yè)src_did的出度out-degree(src_did).
●生成一個(gè)Indegree文件(M-的稀疏矩陣表示),記錄每個(gè)網(wǎng)頁(yè)的所有進(jìn)入鏈接的信息,包括所有入鏈的反向權(quán)重和該入鏈的鏈出網(wǎng)頁(yè)的編號(hào)。Indegree文件中每個(gè)網(wǎng)頁(yè)的記錄格式為lided_didn,(src_did1,w-1),......,(src_didn,w-n). (29)其中l(wèi)inke_did為被鏈接的目標(biāo)網(wǎng)頁(yè)的編號(hào),src_didj為鏈出網(wǎng)頁(yè)的編號(hào),w-j為該鏈接的反向權(quán)重w-(src_didj,linked_did),整數(shù)n為網(wǎng)頁(yè)linked_did的入度in-degree(linked_did).
根據(jù)本發(fā)明的實(shí)施例,Indegree文件可以根據(jù)Outdegree文件來生成,其方法為利用稀疏矩陣的高效轉(zhuǎn)置算法,對(duì)Outdegree文件中由src_did與linked_did張成的矩陣進(jìn)行轉(zhuǎn)置運(yùn)算(行、列互換);再由鏈接src_did→linked_did的各種屬性計(jì)算其反向權(quán)重w-(src_did,linked_did)。
●由Indegree文件生成一個(gè)Cocitation文件(MC的稀疏矩陣表示),記錄每個(gè)網(wǎng)頁(yè)的共引用信息,其記錄格式為didn,(coci_did1,coci_degree1,wc1),......,(coci_didn,coci_degreen,wcn). (30)其中整數(shù)n為后續(xù)三元組的數(shù)目;對(duì)于每個(gè)與網(wǎng)頁(yè)did有共引用關(guān)系的網(wǎng)頁(yè)coci_didi,分別用一個(gè)三元組來記錄該共引用關(guān)系的頻次信息coci_degreei=coci-degree(coci_didi,did)及其權(quán)重wci=wc(coci_didi,did)。由于與did相關(guān)的歸一因子α(did)可以直接按其定義求出,故不必存放在Cocitation文件中。
●由Outdegree文件生成一個(gè)Coreference文件(MR的稀疏矩陣表示),記錄每個(gè)網(wǎng)頁(yè)的共指信息,其記錄格式為didn,(coref_did1,coref_degree1,wR1),......,(coref_didn,coref_degreen,wRn).(31)其中整數(shù)n為后續(xù)三元組的數(shù)目;對(duì)于每個(gè)與網(wǎng)頁(yè)did有共指關(guān)系的網(wǎng)頁(yè)coref_didi,分別用一個(gè)三元組記錄該共指關(guān)系的頻次信息coref_degreei=coref-degree(coref_didi,did),以及權(quán)重wRi=wR(coref_didi,did)。與did相關(guān)的歸一因子β(did)可以直接按其定義求出,不必存放在Coreference文件中。
●生成上述4個(gè)稀疏矩陣文件之后,即可使用冪方法,進(jìn)行迭代計(jì)算R(n+1)=M(c1,c2,c3,c4)·R(n).
本發(fā)明實(shí)施例的網(wǎng)頁(yè)級(jí)別R(包括R+、R-、R0等)是所對(duì)應(yīng)的M矩陣的主特征向量(即最大的特征值所對(duì)應(yīng)的特征向量)。計(jì)算矩陣主特征向量的冪方法(Power Method)適用于這種計(jì)算,它是一種迭代計(jì)算,從一個(gè)任選的非零初始向量R(0)開始,用矩陣M反復(fù)對(duì)R(0)作乘法運(yùn)算R(n+1)=M·R(n)=M2·R(n-1)=......=Mn·R(0), (32)直到下述增量小于某個(gè)指定的誤差值δ||R(n+1)-R(n)||1=∑i|R(n+1)(i)-R(n)(i)|≤δ, (33)根據(jù)冪方法的收斂性質(zhì),迭代計(jì)算R(n+1)=M·R(n)的收斂速率整體上為數(shù)值(1-d)m趨近于0的速率,即limm(1-d)m→0,其中m是迭代次數(shù),而d是公式(12)中的隨機(jī)跳躍概率系數(shù)。由(1-d)m≤δ可得到上述迭代計(jì)算達(dá)到指定誤差δ所需要的迭代次數(shù)為m=log10δ/log10(1-d). (34)根據(jù)本發(fā)明實(shí)施例,誤差δ設(shè)為0.0001,網(wǎng)絡(luò)節(jié)點(diǎn)之間隨機(jī)跳躍系數(shù)d=0.1,則可估計(jì)出所需的迭代計(jì)算次數(shù)至多為m=88.
冪方法的迭代計(jì)算流程如圖6所示。在步驟610,系統(tǒng)打開組成矩陣M(c1,c2,c3,c4)的4個(gè)矩陣M+、M-、MC和MR的各個(gè)稀疏矩陣文件,即上述Outdegree文件、Indegree文件、Cocitation文件和Coreference文件。在步驟620,一個(gè)表示網(wǎng)頁(yè)的初始級(jí)別分布的N維向量R(0)的文件被打開并設(shè)置為順序讀入(該文件中每個(gè)記錄R(0)(i)一般是1,或者是上一次計(jì)算的結(jié)果)。
在步驟630~640,進(jìn)行迭代計(jì)算,其具體步驟如下對(duì)于n=0,1,2,...,m-1,在磁盤文件中存放初始級(jí)別向量R(n)(i),并在內(nèi)存中分配表示級(jí)別向量R(n+1)(i)的數(shù)組;逐行讀取上述4個(gè)矩陣M+、M-、MC和MR的稀疏矩陣文件,并逐個(gè)讀取向量R(n)(i)的各個(gè)分量,按照公式(12),將各個(gè)初始級(jí)別R(n)(i)逐一傳遞給各個(gè)指定的向量R(n+1)(i)中的分量;遍歷完磁盤文件中的向量R(n)(i)的各個(gè)分量之后,將內(nèi)存中的向量R(n+1)(i)寫入該文件(即用R(n+1)(i)各個(gè)分量替代R(n)(i)的各個(gè)分量),然后再以R(n+1)(i)為初始向量,同理計(jì)算新的向量R(n+2)(i);重復(fù)此過程,直到新的向量R(m)(i)滿足預(yù)定的精度。則在步驟650,得到網(wǎng)頁(yè)的評(píng)級(jí)結(jié)果為R(i)=R(m)(i).
在此計(jì)算過程中,為保證浮點(diǎn)數(shù)運(yùn)算的精度,可以將各個(gè)向量分量R(n)(i)乘以常數(shù)N(網(wǎng)頁(yè)總數(shù)),然后在計(jì)算結(jié)束之后再將每個(gè)分量R(n)(i)除以N即為網(wǎng)頁(yè)的實(shí)際級(jí)別R(i)。
另外,在上述計(jì)算步驟,對(duì)于非常大的網(wǎng)頁(yè)集合,向量R(i)的全部分量通常無法存放在單個(gè)計(jì)算機(jī)的內(nèi)存中。根據(jù)本發(fā)明實(shí)施例,可采用如下分段處理的方法計(jì)算超大網(wǎng)頁(yè)集合的級(jí)別向量將網(wǎng)頁(yè)的文檔編號(hào)i=1,2,...,N分成等長(zhǎng)度的s段,使得向量的每一段R(i)(i=1,2...,s;s+1,...,2s;...)可以存放在內(nèi)存中;同時(shí),將上述4個(gè)矩陣M+、M-、MC和MR的稀疏矩陣文件的每一行也按照同樣的文檔號(hào)分段方式劃分,從而將每個(gè)稀疏矩陣文件按其矩陣列號(hào)而分解成為s個(gè)較小的文件;隨后即可按上述迭代算法,由初始級(jí)別向量R(n)(i)文件和各分段的稀疏矩陣文件,依次計(jì)算新的級(jí)別向量R(n+1)(i)的每一段;將算好的R(n+1)(i)的每一段按文檔號(hào)順序?qū)懭氪疟P文件中,從而得到完整的新的級(jí)別向量R(n+1)(i);重復(fù)此過程,直到新的向量R(m)(i)滿足預(yù)定的精度。
根據(jù)本發(fā)明實(shí)施例,上述分段計(jì)算過程還可采用分布式計(jì)算的方法進(jìn)行使用s個(gè)由高速網(wǎng)絡(luò)鏈接的節(jié)點(diǎn)計(jì)算機(jī);將初始級(jí)別向量R(n)(i)文件分配到各個(gè)節(jié)點(diǎn)計(jì)算機(jī),并且將上述4個(gè)矩陣M+、M-、MC和MR的稀疏矩陣的分段劃分文件按照文檔號(hào)分段區(qū)間分配給各個(gè)節(jié)點(diǎn)計(jì)算機(jī);每個(gè)節(jié)點(diǎn)計(jì)算機(jī)分別計(jì)算新的向量R(n+1)(i)的某一段;然后將算好的向量R(n+1)(i)的各段組合成為新的向量R(n+1)(i);再以R(n+1)(i)為初始向量分配給各個(gè)節(jié)點(diǎn)計(jì)算機(jī),按同樣的分段方式分布計(jì)算新的向量R(n+2)(i);重復(fù)此過程,直到由各段組合而成的新的向量R(m)(i)滿足指定的精度。
另一方面,由Outdegree文件生成Coreference文件(MR的稀疏矩陣表示)和由Indegree文件生成Cocitation文件(MC的稀疏矩陣表示)的過程也都可以通過分段與分布式計(jì)算的方式加快處理過程,即將Outdegree文件和Indegree文件每一行按照文檔號(hào)分段方式劃分,然后分配到多個(gè)節(jié)點(diǎn)計(jì)算機(jī)進(jìn)行處理,再將各個(gè)節(jié)點(diǎn)計(jì)算機(jī)生成的部分Coreference文件和部分Cocitation文件的每一行按照矩陣列號(hào)順序合并起來,即分別得到所需要的MR和MC的稀疏矩陣文件。
在上述計(jì)算過程中還可應(yīng)用一些技巧以進(jìn)一步提高計(jì)算效率。在最初計(jì)算時(shí),存放在文件中的初始級(jí)別向量R(0)可以選取為均勻概率分布,即對(duì)于所有網(wǎng)頁(yè)i,取R(i)=1/N(N為網(wǎng)頁(yè)總數(shù))。在之后的更新計(jì)算中,對(duì)于新搜集的網(wǎng)頁(yè)i,取R(i)=1/N,而對(duì)于已存在的網(wǎng)頁(yè)j,可取R(j)為上一次計(jì)算的結(jié)果。在冪方法計(jì)算中,如果適當(dāng)選擇初始向量R(0),使得它能夠與最后所收斂到的向量接近,則可以使迭代次數(shù)大為減少。對(duì)于更新頻度或者程度較小的網(wǎng)頁(yè)集,選擇上一次計(jì)算得到的評(píng)級(jí)結(jié)果作為下一次計(jì)算的初始級(jí)別向量,可以顯著加快計(jì)算過程。另外,矩陣計(jì)算中有關(guān)加快特征向量計(jì)算收斂的其它方法也可以應(yīng)用到上述計(jì)算過程。
本計(jì)算方法還可應(yīng)用于簡(jiǎn)化的評(píng)級(jí)模型中。根據(jù)本發(fā)明實(shí)施例,一種簡(jiǎn)化情形是將公式(12)中的各個(gè)權(quán)重因子w+、w-、wC和wR都取定為常數(shù),例如取w+=w-=wC=wR=1.0(當(dāng)存在相應(yīng)的鏈接關(guān)系),則上述計(jì)算過程在時(shí)/空效率方面可以進(jìn)行相應(yīng)優(yōu)化,包括稀疏矩陣文件可直接按照網(wǎng)頁(yè)之間的鏈接關(guān)系生成,而不需分析這些權(quán)重所涉及的鏈接和網(wǎng)頁(yè)的諸多屬性與元信息記錄;在稀疏矩陣文件中不需存儲(chǔ)這些權(quán)重值,等。
■對(duì)網(wǎng)站的評(píng)級(jí)上述評(píng)級(jí)方法及其算法實(shí)現(xiàn)并不限于對(duì)網(wǎng)頁(yè)的評(píng)級(jí),而是可以直接應(yīng)用于由任何形式的節(jié)點(diǎn)通過任意的有向鏈接關(guān)系而組成的網(wǎng)絡(luò)。上述雙向級(jí)別傳遞性質(zhì)、共引用關(guān)系和共指關(guān)系對(duì)于各種形式的網(wǎng)絡(luò)都是普遍成立的。因此,本發(fā)明的評(píng)級(jí)算法同樣適用于對(duì)網(wǎng)站的評(píng)級(jí),只要事先給定了網(wǎng)站之間任意某種形式的鏈接關(guān)系。通常,網(wǎng)站之間并不存在直接的鏈接關(guān)系,但通過對(duì)網(wǎng)頁(yè)之間的鏈接關(guān)系進(jìn)行某種變換,可導(dǎo)出網(wǎng)站之間的各種鏈接關(guān)系。由網(wǎng)頁(yè)鏈接關(guān)系導(dǎo)出網(wǎng)站鏈接關(guān)系的變換可以有多種形式。由不同變換得到的各種網(wǎng)站鏈接網(wǎng)絡(luò),都可以由本發(fā)明的評(píng)級(jí)方法對(duì)其中的網(wǎng)站節(jié)點(diǎn)進(jìn)行評(píng)級(jí)。
在本發(fā)明實(shí)施例的搜索引擎系統(tǒng)中,各個(gè)網(wǎng)站編號(hào)用整數(shù)編號(hào),作為唯一的網(wǎng)站標(biāo)識(shí)號(hào)(site ID)。下面用I、J或sid等變量名表示網(wǎng)站的編號(hào),用G表示網(wǎng)站鏈接關(guān)系所構(gòu)成的有向圖,用I→J表示網(wǎng)站I到網(wǎng)站J的鏈接。根據(jù)本發(fā)明實(shí)施例,可以用以下方法從網(wǎng)頁(yè)之間的鏈接關(guān)系構(gòu)造出網(wǎng)站之間的鏈接關(guān)系
■首先,為每個(gè)網(wǎng)站構(gòu)造一個(gè)超級(jí)網(wǎng)頁(yè),它代表該網(wǎng)站內(nèi)的所有網(wǎng)頁(yè)。例如,可以簡(jiǎn)單地把一個(gè)網(wǎng)站內(nèi)所有網(wǎng)頁(yè)的內(nèi)容(特別是其中包含的外出鏈接URL)都線性地合并到一個(gè)大網(wǎng)頁(yè)文件中,以此網(wǎng)頁(yè)文件為超級(jí)網(wǎng)頁(yè);或者利用網(wǎng)頁(yè)布局方式,對(duì)網(wǎng)站內(nèi)不同目錄路徑下的網(wǎng)頁(yè)在排版、位置、格式等方面進(jìn)行區(qū)分,由多個(gè)網(wǎng)頁(yè)的內(nèi)容組成超級(jí)網(wǎng)頁(yè)的內(nèi)容。
■然后進(jìn)行鏈接合并,即將網(wǎng)頁(yè)之間的超鏈接關(guān)系轉(zhuǎn)換成為相應(yīng)的超級(jí)網(wǎng)頁(yè)之間的鏈接關(guān)系,以此表示網(wǎng)站之間的鏈接關(guān)系。
將網(wǎng)頁(yè)鏈接關(guān)系合并為超級(jí)網(wǎng)頁(yè)鏈接關(guān)系包括如下不同的處理方式。網(wǎng)頁(yè)之間的鏈接可分為站內(nèi)鏈接和站間鏈接兩類。對(duì)于站間鏈接,即不同網(wǎng)站上的網(wǎng)頁(yè)之間的鏈接,可以把任意兩個(gè)網(wǎng)站之間的站間網(wǎng)頁(yè)鏈接簡(jiǎn)化為對(duì)應(yīng)的兩個(gè)超級(jí)網(wǎng)頁(yè)之間的一個(gè)鏈接,而這又有兩種具體的方式一種是簡(jiǎn)單地將對(duì)應(yīng)的超級(jí)網(wǎng)頁(yè)之間的鏈接的雙向權(quán)重W+和W-都設(shè)置為常數(shù),例如為1.0;另一種是根據(jù)站間之間的網(wǎng)頁(yè)鏈接的數(shù)目對(duì)超級(jí)網(wǎng)頁(yè)之間鏈接的權(quán)重W+和W-進(jìn)行調(diào)整,網(wǎng)頁(yè)之間的鏈接數(shù)越多,對(duì)應(yīng)的超級(jí)網(wǎng)頁(yè)鏈接的權(quán)重越大。
而對(duì)于站內(nèi)鏈接,即同一網(wǎng)站上的網(wǎng)頁(yè)之間的鏈接,也有兩種處理方式一是忽略站內(nèi)鏈接,即同一網(wǎng)站內(nèi)網(wǎng)頁(yè)之間的鏈接對(duì)超級(jí)網(wǎng)頁(yè)之間的鏈接沒有貢獻(xiàn),也不影響超級(jí)網(wǎng)頁(yè)鏈接的權(quán)重;另一種是把站內(nèi)鏈接當(dāng)作是對(duì)應(yīng)的超級(jí)網(wǎng)頁(yè)指向自己的自鏈接(表現(xiàn)為在同一網(wǎng)頁(yè)上的從一處到另一處的超鏈接),并且這些自鏈接同普通的超級(jí)網(wǎng)頁(yè)之間的鏈接一樣具有雙向權(quán)重。當(dāng)保留站內(nèi)鏈接作為網(wǎng)站的超級(jí)網(wǎng)頁(yè)的自鏈接時(shí),這些自鏈接將影響由超級(jí)網(wǎng)頁(yè)入度、出度和雙向鏈接權(quán)重,并且這些自鏈接也具有雙向的鏈接權(quán)重W+和W-。另一方面,超級(jí)網(wǎng)頁(yè)的自鏈接不影響超級(jí)網(wǎng)頁(yè)之間的共引用關(guān)系。
按照上述處理方式構(gòu)造超級(jí)網(wǎng)頁(yè)之間的鏈接關(guān)系之后,即可按上述方法獲得各個(gè)超級(jí)網(wǎng)頁(yè)I的入度in-degree(I)、出度out-degree(I),以及任兩個(gè)超級(jí)網(wǎng)頁(yè)I、J之間的共引用頻次函數(shù)coci-degree(I,J)、共指頻次函數(shù)coref-degree(I,J),并可進(jìn)一步設(shè)置對(duì)應(yīng)的4類超級(jí)網(wǎng)頁(yè)鏈接關(guān)系性質(zhì)的各個(gè)權(quán)重因子w+(J,I)、w-(I,J)、wC(I,J)、wR(I,J)和權(quán)重函數(shù)W+(J,I)、W-(I,J)、WC(I,J)、WR(I,J)。這樣,公式(1)描述的評(píng)級(jí)模型即可直接應(yīng)用于超級(jí)網(wǎng)頁(yè),并且由公式(12)或(15)描述的評(píng)級(jí)算法也可以直接調(diào)用。因此,網(wǎng)站的超級(jí)網(wǎng)頁(yè)級(jí)別向量R(I)的計(jì)算與網(wǎng)頁(yè)級(jí)別向量R(i)的算法同理,只需將超級(jí)網(wǎng)頁(yè)I替代上述網(wǎng)頁(yè)評(píng)級(jí)算法描述中的網(wǎng)頁(yè)i即可。故有如下網(wǎng)站評(píng)級(jí)算法R(I)=c1·ΣJ→I∈Gw+(J,I)out-degree(J)R(J)+c2·ΣI→J∈Gw-(I,J)in-degree(J)R(J)+]]>c3·ΣJ∈Gcoci-degree(I,J)·wC(I,J)α(J)R(J)+---(35)]]>c4·ΣJ∈Gcoref-degree(I,J)·wR(I,J)β(J)R(J)+d·E(I),---(35)]]>該算法在系統(tǒng)中的具體實(shí)現(xiàn)也完全同上述網(wǎng)頁(yè)評(píng)級(jí)算法的高效實(shí)現(xiàn)一樣。相關(guān)的權(quán)重因子w+、w-、wC和wR分別表示超級(jí)網(wǎng)頁(yè)之間的4種鏈接關(guān)系性質(zhì)對(duì)網(wǎng)站之間級(jí)別傳遞的強(qiáng)度系數(shù)(傳遞比例),它們都可按上述網(wǎng)頁(yè)評(píng)級(jí)的情形,根據(jù)具體的超級(jí)網(wǎng)頁(yè)I和J的多種相關(guān)屬性進(jìn)行類似的調(diào)整,以便更準(zhǔn)確地反映超級(jí)網(wǎng)頁(yè)之間的級(jí)別傳遞效果。在簡(jiǎn)化的網(wǎng)站評(píng)級(jí)模型中,w+、w-、wC和wR也可取為如公式(26)所示的常數(shù)值(即取值為1或0)。
綜上所述,本發(fā)明的評(píng)級(jí)方法對(duì)網(wǎng)站的評(píng)級(jí)流程如附圖7所示。在步驟710,按上述方式為每個(gè)網(wǎng)站構(gòu)造一個(gè)超級(jí)網(wǎng)頁(yè),將網(wǎng)頁(yè)之間的超鏈接關(guān)系簡(jiǎn)化、合并為相應(yīng)的超級(jí)網(wǎng)頁(yè)之間的鏈接關(guān)系,從而得到網(wǎng)站之間的有向鏈接圖。然后在步驟720,根據(jù)超級(jí)網(wǎng)頁(yè)節(jié)點(diǎn)之間的鏈接關(guān)系,為節(jié)點(diǎn)之間的每個(gè)鏈接設(shè)置一個(gè)正向權(quán)重W+和一個(gè)反向權(quán)重W-,并為任兩個(gè)節(jié)點(diǎn)之間的每個(gè)共引用設(shè)置一個(gè)權(quán)重WC、為任兩個(gè)節(jié)點(diǎn)之間的每個(gè)共指設(shè)置一個(gè)權(quán)重WR。在步驟730,根據(jù)上述公式(1)所描述的評(píng)級(jí)模型以及公式(2)~(11)所述的4類鏈接關(guān)系性質(zhì),按下列因素逐一確定各個(gè)超級(jí)網(wǎng)頁(yè)i的級(jí)別R(I),即鏈接到超級(jí)網(wǎng)頁(yè)I的各個(gè)超級(jí)網(wǎng)頁(yè)J的級(jí)別R(J),以及這些鏈接的正向權(quán)重W+(J,I);超級(jí)網(wǎng)頁(yè)I所鏈接的各個(gè)超級(jí)網(wǎng)頁(yè)J的級(jí)別R(J),以及這些鏈接的反向權(quán)重W-(I,J);與超級(jí)網(wǎng)頁(yè)I有共引用關(guān)系的各個(gè)超級(jí)網(wǎng)頁(yè)J的級(jí)別R(J),以及這些共引用的權(quán)重WC(I,J);與超級(jí)網(wǎng)頁(yè)I有共指關(guān)系的各個(gè)超級(jí)網(wǎng)頁(yè)J的級(jí)別R(J),以及這些共指的權(quán)重WR(I,J)。按上述評(píng)級(jí)算法,由上述各個(gè)因素迭代計(jì)算超級(jí)網(wǎng)頁(yè)J的級(jí)別向量R(J),直到滿足指定的精度。
另一方面,由于網(wǎng)站數(shù)目遠(yuǎn)小于網(wǎng)頁(yè)數(shù)目,超級(jí)網(wǎng)頁(yè)組成的網(wǎng)絡(luò)的規(guī)模通常比網(wǎng)頁(yè)的網(wǎng)絡(luò)小很多。因此,網(wǎng)站的評(píng)級(jí)計(jì)算要比網(wǎng)頁(yè)評(píng)級(jí)計(jì)算快很多,內(nèi)存與磁盤存儲(chǔ)的開銷也會(huì)小很多。這樣,對(duì)于非常大的網(wǎng)頁(yè)集合,可以用本發(fā)明的網(wǎng)站評(píng)級(jí)方法首先獲得各個(gè)網(wǎng)站的級(jí)別,然后再用近似的方法估計(jì)各個(gè)網(wǎng)站內(nèi)的網(wǎng)頁(yè)的級(jí)別。由網(wǎng)站級(jí)別估計(jì)其中網(wǎng)頁(yè)級(jí)別的方法有多種形式,只要保證站內(nèi)網(wǎng)頁(yè)級(jí)別之和等于網(wǎng)站級(jí)別即可。例如可以按照目錄深度遞減地將網(wǎng)站的級(jí)別分布于各個(gè)目錄下的網(wǎng)頁(yè),或者根據(jù)網(wǎng)頁(yè)的實(shí)際訪問頻次確定分配比例,或者對(duì)于較小的網(wǎng)站可采用簡(jiǎn)單的均勻分布級(jí)別的方式等。這樣獲得的網(wǎng)頁(yè)級(jí)別的精度雖然比前面所述的網(wǎng)頁(yè)級(jí)別較低,但是其計(jì)算復(fù)雜度較小,并且能夠更快地進(jìn)行更新。特別是,如果相關(guān)的權(quán)重因子取值為公式(26)所示的常數(shù),上述網(wǎng)站評(píng)級(jí)算法的時(shí)、空開銷都可保持很低。對(duì)于最新出現(xiàn)的網(wǎng)頁(yè),這種評(píng)級(jí)方法還能夠比直接基于網(wǎng)頁(yè)鏈接關(guān)系的評(píng)級(jí)方法更為有效,后者通常因?yàn)樾戮W(wǎng)頁(yè)缺少鏈接關(guān)系而失效。
本發(fā)明的實(shí)施例使用了特定的算法步驟和數(shù)據(jù)結(jié)構(gòu),并基于特定的應(yīng)用系統(tǒng)實(shí)現(xiàn)。但是,任何熟悉本領(lǐng)域背景技術(shù)的人員都清楚地知道本發(fā)明的適用范圍并不局限于以這樣的算法和系統(tǒng)。本發(fā)明的技術(shù)方案可被應(yīng)用于其它多種不同的具體實(shí)施方式
。所附的權(quán)利要求
書涵蓋了對(duì)該技術(shù)方案的各要素的諸多變形與替換。
權(quán)利要求
1.一種以計(jì)算機(jī)實(shí)現(xiàn)的對(duì)網(wǎng)絡(luò)節(jié)點(diǎn)評(píng)級(jí)的方法,根據(jù)節(jié)點(diǎn)之間的有向鏈接關(guān)系而賦予各個(gè)節(jié)點(diǎn)一個(gè)表示其級(jí)別的數(shù)值,其特征在于包括如下步驟a.設(shè)置至少一種如下所述的權(quán)重(1)對(duì)至少一部分節(jié)點(diǎn)之間的鏈接,為其中的每個(gè)鏈接設(shè)置一個(gè)正向權(quán)重;(2)對(duì)至少一部分節(jié)點(diǎn)之間的鏈接,為其中的每個(gè)鏈接設(shè)置一個(gè)反向權(quán)重;(3)對(duì)至少一部分節(jié)點(diǎn),為其中的任意兩個(gè)節(jié)點(diǎn)的每個(gè)共引用關(guān)系設(shè)置一個(gè)權(quán)重;(4)對(duì)至少一部分節(jié)點(diǎn),為其中的任意兩個(gè)節(jié)點(diǎn)的每個(gè)共指關(guān)系設(shè)置一個(gè)權(quán)重;b.根據(jù)至少一個(gè)如下所列舉的因素確定各個(gè)節(jié)點(diǎn)的級(jí)別(1)鏈接到該網(wǎng)頁(yè)的各個(gè)節(jié)點(diǎn)的級(jí)別,以及這些鏈接的正向權(quán)重;(2)該節(jié)點(diǎn)所鏈接的各個(gè)節(jié)點(diǎn)的級(jí)別,以及這些鏈接的反向權(quán)重;(3)與該節(jié)點(diǎn)有共引用關(guān)系的各個(gè)節(jié)點(diǎn)的級(jí)別,以及這些共引用的權(quán)重;(4)與該節(jié)點(diǎn)有共指關(guān)系的各個(gè)節(jié)點(diǎn)的級(jí)別,以及這些共指的權(quán)重。
2.根據(jù)權(quán)利要求
1所述的網(wǎng)絡(luò)節(jié)點(diǎn)評(píng)級(jí)方法,其特征在于所述鏈接的正向權(quán)重、鏈接的反向權(quán)重、共引用的權(quán)重、共指的權(quán)重分別依賴于節(jié)點(diǎn)的出度、節(jié)點(diǎn)的入度、共引用的頻次、共指的頻次。
3.根據(jù)權(quán)利要求
1所述的網(wǎng)絡(luò)節(jié)點(diǎn)評(píng)級(jí)方法,其特征在于所確定的各個(gè)節(jié)點(diǎn)的級(jí)別是其入鏈的正向權(quán)重與入鏈的源節(jié)點(diǎn)的級(jí)別的加權(quán)和,或者是其出鏈的反向權(quán)重與出鏈的目標(biāo)節(jié)點(diǎn)的級(jí)別的加權(quán)和,或者是其共引用關(guān)系的權(quán)重與共引用關(guān)系節(jié)點(diǎn)的級(jí)別的加權(quán)和,或者是其共指關(guān)系的權(quán)重與共指關(guān)系節(jié)點(diǎn)的級(jí)別的加權(quán)和,或者是這4類加權(quán)和的一部分或全部的進(jìn)一步的加權(quán)和。
4.根據(jù)權(quán)利要求
3所述的網(wǎng)絡(luò)節(jié)點(diǎn)評(píng)級(jí)方法,其特征在于節(jié)點(diǎn)的級(jí)別還包括一個(gè)表示先驗(yàn)概率分布的常數(shù)級(jí)別。
5.根據(jù)權(quán)利要求
1至3之一所述的網(wǎng)絡(luò)節(jié)點(diǎn)評(píng)級(jí)方法,其特征在于所述節(jié)點(diǎn)為網(wǎng)頁(yè)。
6.根據(jù)權(quán)利要求
5所述的網(wǎng)絡(luò)節(jié)點(diǎn)評(píng)級(jí)方法,其特征在于所述鏈接的正向權(quán)重、鏈接的反向權(quán)重、共引用的權(quán)重、共指的權(quán)重還依據(jù)至少一個(gè)如下所列舉的因素被設(shè)置網(wǎng)頁(yè)的屬性,包括該網(wǎng)頁(yè)的URL以及該URL的屬性,該網(wǎng)頁(yè)的創(chuàng)建、搜集或更新時(shí)間,該網(wǎng)頁(yè)的訪問次數(shù)、訪問頻度,或者該網(wǎng)頁(yè)的上一次評(píng)級(jí)的結(jié)果;鏈接的屬性,包括鏈接在網(wǎng)頁(yè)中的位置,鏈接文字以及鏈接描述文字,鏈接的排版格式信息,該鏈接被點(diǎn)擊的次數(shù)、頻度、以及點(diǎn)擊者的來源信息,鏈接的兩個(gè)網(wǎng)頁(yè)之間的距離或者所包含的文本內(nèi)容的對(duì)比屬性。
7.根據(jù)權(quán)利要求
1至3之一所述的網(wǎng)絡(luò)節(jié)點(diǎn)評(píng)級(jí)方法,其特征在于所述節(jié)點(diǎn)為網(wǎng)站所對(duì)應(yīng)的超級(jí)網(wǎng)頁(yè),并且超級(jí)網(wǎng)頁(yè)之間的鏈接關(guān)系根據(jù)網(wǎng)站的網(wǎng)頁(yè)之間的鏈接關(guān)系而獲得。
8.根據(jù)權(quán)利要求
7所述的網(wǎng)絡(luò)節(jié)點(diǎn)評(píng)級(jí)方法,其特征在于網(wǎng)站的超級(jí)網(wǎng)頁(yè)通過合并該網(wǎng)站中的網(wǎng)頁(yè)而構(gòu)造,包括直接聚合網(wǎng)站中各個(gè)網(wǎng)頁(yè)的內(nèi)容,或者將各個(gè)網(wǎng)頁(yè)放置于超級(jí)網(wǎng)頁(yè)中的不同布局位置。
9.根據(jù)權(quán)利要求
7或8所述的網(wǎng)絡(luò)節(jié)點(diǎn)評(píng)級(jí)方法,其特征在于網(wǎng)頁(yè)的級(jí)別由其所在的網(wǎng)站的超級(jí)網(wǎng)頁(yè)的級(jí)別而確定,其方式包括按照文件目錄將超級(jí)網(wǎng)頁(yè)的級(jí)別分布于各個(gè)網(wǎng)頁(yè),或者根據(jù)網(wǎng)頁(yè)的實(shí)際訪問頻次確定分配比例,或者簡(jiǎn)單地將超級(jí)網(wǎng)頁(yè)的級(jí)別平均分配給各個(gè)網(wǎng)頁(yè)。
10.一種計(jì)算機(jī)系統(tǒng),通過運(yùn)行指令序列而根據(jù)節(jié)點(diǎn)之間的有向鏈接關(guān)系賦予各個(gè)節(jié)點(diǎn)一個(gè)表示其級(jí)別的數(shù)值,其特征在于包括實(shí)現(xiàn)如下步驟的指令序列a.設(shè)置至少一種如下所述的權(quán)重的指令序列對(duì)至少一部分鏈接,各設(shè)置一個(gè)正向權(quán)重;對(duì)至少一部分鏈接,各設(shè)置一個(gè)反向權(quán)重;對(duì)至少一部分節(jié)點(diǎn)的共引用關(guān)系,各設(shè)置一個(gè)權(quán)重;對(duì)至少一部分節(jié)點(diǎn)的共指關(guān)系,各設(shè)置一個(gè)權(quán)重;b.根據(jù)至少一個(gè)如下所列舉的因素確定各個(gè)節(jié)點(diǎn)的級(jí)別的指令序列鏈接到該網(wǎng)頁(yè)的各個(gè)節(jié)點(diǎn)的級(jí)別,以及這些鏈接的正向權(quán)重;該節(jié)點(diǎn)所鏈接的各個(gè)節(jié)點(diǎn)的級(jí)別,以及這些鏈接的反向權(quán)重;與該節(jié)點(diǎn)有共引用關(guān)系的各個(gè)節(jié)點(diǎn)的級(jí)別,以及這些共引用的權(quán)重;與該節(jié)點(diǎn)有共指關(guān)系的各個(gè)節(jié)點(diǎn)的級(jí)別,以及這些共指的權(quán)重。
專利摘要
一種對(duì)網(wǎng)絡(luò)節(jié)點(diǎn)評(píng)級(jí)的方法,由節(jié)點(diǎn)之間的多種鏈接關(guān)系性質(zhì)遞歸地確定各個(gè)網(wǎng)頁(yè)的級(jí)別。每個(gè)節(jié)點(diǎn)的級(jí)別是其入鏈的正向權(quán)重與入鏈的源節(jié)點(diǎn)的級(jí)別的加權(quán)和,或者是其出鏈的反向權(quán)重與出鏈的目標(biāo)節(jié)點(diǎn)的級(jí)別的加權(quán)和,或者是其共引用關(guān)系的權(quán)重與共引用關(guān)系節(jié)點(diǎn)的級(jí)別的加權(quán)和,或者是其共指關(guān)系的權(quán)重與共指關(guān)系節(jié)點(diǎn)的級(jí)別的加權(quán)和,或者是這4類加權(quán)和的進(jìn)一步的加權(quán)和。網(wǎng)絡(luò)節(jié)點(diǎn)可以是網(wǎng)頁(yè),也可以是代表網(wǎng)站內(nèi)所有網(wǎng)頁(yè)之間的鏈接關(guān)系的超級(jí)網(wǎng)頁(yè)。本發(fā)明提供的評(píng)級(jí)結(jié)果能夠更為全面、準(zhǔn)確地反映節(jié)點(diǎn)的質(zhì)量、重要性與權(quán)威性,并且具有較好的穩(wěn)定性、更好地抵抗作弊行為的影響。本發(fā)明的評(píng)級(jí)方法能夠?yàn)榫W(wǎng)頁(yè)搜集、網(wǎng)站分類和搜索結(jié)果排序等應(yīng)用提供更佳的技術(shù)效果。
文檔編號(hào)G06F17/30GK1996299SQ200610165801
公開日2007年7月11日 申請(qǐng)日期2006年12月12日
發(fā)明者孫斌 申請(qǐng)人:孫斌導(dǎo)出引文BiBTeX, EndNote, RefMan