專利名稱:一種網(wǎng)頁重要性評價方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及搜索引擎領(lǐng)域,更具體地說,涉及一種網(wǎng)頁重要性評價方法及系統(tǒng)。
背景技術(shù):
隨著計算機和計算機網(wǎng)絡(luò)的日益普及,互聯(lián)網(wǎng)已經(jīng)深入到人們工作、學(xué)習(xí)和生活的各個領(lǐng)域,成為人們發(fā)布和獲取信息的重要途徑,而搜索引擎則成為人們從互聯(lián)網(wǎng)上獲取信息的重要工具。
在搜索引擎中,在其它相關(guān)性因素相近時,通常將重要性、權(quán)威性高的網(wǎng)頁盡量排在搜索結(jié)果的前面,方便用戶盡快找到有價值的網(wǎng)頁信息。網(wǎng)頁的一般重要性是指對網(wǎng)頁重要性的評價,該參數(shù)是搜索引擎對搜索結(jié)果進行排序的重要依據(jù)。因此網(wǎng)頁的一般重要性評價是影響搜索質(zhì)量的重要因素。
一種著名的網(wǎng)頁一般重要性評價方法是頁面等級(PageRank)算法,該算法基于互聯(lián)網(wǎng)上網(wǎng)頁之間的天然鏈接關(guān)系計算網(wǎng)頁的一般重要性。在PageRank算法中,將網(wǎng)頁P到網(wǎng)頁C的鏈接被看作是節(jié)點P對頁面C的支持投票,并根據(jù)投票數(shù)來判斷頁面的重要性,且“重要性”高的頁面所投的票的評價會更高。PageRank算法計算公式為r(C)=d*ΣP∈B(C)r(P)OP+1-dN---(1)]]>其中節(jié)點P是節(jié)點C的父節(jié)點,r(C)是節(jié)點C的等級(Rank)值,B(C)是節(jié)點C的反向鏈接集合,P是屬于B(C)中一個節(jié)點,r(P)是節(jié)點P的一般重要性值,如果,OP是節(jié)點P的出度,N是鏈接地圖中節(jié)點個數(shù),d被稱為衰減因子。從公式(1)可看出,要計算子節(jié)點C的一般重要性值,需要已知父節(jié)點的一般重要性值,但是互聯(lián)網(wǎng)上多數(shù)節(jié)點既作父節(jié)點也作子節(jié)點,計算節(jié)點P的一般重要性值,還需要已知節(jié)點P的父節(jié)點的一般重要性值,因此可知PageRank計算是一個不斷迭代的計算過程,即第n+1次迭代計算r(C)(可記作rn+1(C))時,使用的是第n次迭代計算得到的r(P)(可記作rn(P))。由于衰減因子d的存在,真實互聯(lián)網(wǎng)生成的鏈接地圖進行PageRank計算的過程是收斂的,即迭代一定次數(shù)后每個節(jié)點的Rank值rn+1(C)=rn(C)。
由PageRank的迭代公式可以看出,節(jié)點P根據(jù)其出度OP,將其Rank值非常平均地貢獻給它的“所有”正向鏈接,每個子節(jié)點C,都得到 然而,并不是所有鏈接對應(yīng)的網(wǎng)頁對用戶來說都是有意義的,一個節(jié)點的正向鏈接中所有子節(jié)點之間應(yīng)當(dāng)是不平等的。例如很多網(wǎng)頁中帶有指向廣告頁面的鏈接,按照PageRank算法,將致使廣告網(wǎng)頁的一般重要性值較高,但是廣告網(wǎng)頁對一般用來說價值不高,用戶很少主動去點擊。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題在于,針對上述網(wǎng)頁等級算法在計算網(wǎng)頁一般重要性時所有子節(jié)點都相同地使用父節(jié)點的一般重要性值,從而造成部分無意義的子節(jié)點一般重要性過高的問題,提供一種網(wǎng)頁重要性評價方法及系統(tǒng)。
本發(fā)明解決上述技術(shù)問題的技術(shù)方案是,提供一種網(wǎng)頁重要性評價方法,包括以下步驟(a)生成鏈接地圖,所述鏈接地圖包括多個與網(wǎng)頁對應(yīng)的節(jié)點且每一網(wǎng)頁對應(yīng)一個鏈接;(b)獲取并記錄終端對所述鏈接地圖中節(jié)點的點擊操作;(c)根據(jù)鏈接地圖和節(jié)點被點擊的記錄,迭代計算鏈接地圖中各節(jié)點的一般重要性值。
在本發(fā)明所述的一種網(wǎng)頁重要性評價方法中,所述步驟(b)中,進一步包括(b1)收集終端對每一鏈接的點擊操作;(b2)統(tǒng)計并記錄所有終端對鏈接的點擊操作記錄。
在本發(fā)明所述的一種網(wǎng)頁重要性評價方法中,所述步驟(a)中進一步包括刪除所述操作記錄中的無效點擊記錄。
在本發(fā)明所述的一種網(wǎng)頁重要性評價方法中,所述步驟(c)中計算一般重要性的公式為r′(C)=d*ΣP∈B(C)[r′(P)*s′(P,C)]+1-dN,]]>其中r′(C)是節(jié)點C的一般重要性值,B(C)是節(jié)點C的反向鏈接集合,P是屬于B(C)中一個節(jié)點,r′(P)是節(jié)點P的一般重要性值,s′(P,C)是子節(jié)點C從父節(jié)點P處獲得的一般重要性值的比例,d為衰減因子,N是鏈接地圖中節(jié)點總數(shù)。
在本發(fā)明所述的一種網(wǎng)頁重要性評價方法中,所述步驟(c)中進一步包括(c1)計算子節(jié)點Ci占父節(jié)點P等級的比重s(P,Ci)=b*KP,CiKP+(1-b)*1OP,]]>其中,KP為節(jié)點P中所有正向鏈接被點擊的次數(shù),KP,Ci是子節(jié)點Ci通過網(wǎng)頁P被點擊的次數(shù),OP是網(wǎng)頁P的正向鏈接總數(shù),b為比例系數(shù),且0<b≤1;(c2)將網(wǎng)頁P的一般重要性值完整地分配到其正向鏈接s′(P,Ci)=s(P,Ci)s(P,C1)+s(P,C2)+Λ+s(P,COP).]]>在本發(fā)明所述的一種網(wǎng)頁重要性評價方法中,所述步驟(c)中進一步包括在滿足迭代終止條件時停止迭代計算,所述迭代終止條件包括迭代預(yù)定次數(shù)和/或殘差小于預(yù)定值。
本發(fā)明還提供一種網(wǎng)頁重要性評價系統(tǒng),包括用于生成網(wǎng)頁鏈接地圖的網(wǎng)頁下載單元,所述鏈接地圖包括多個與網(wǎng)頁對應(yīng)的節(jié)點且每一網(wǎng)頁對應(yīng)一個鏈接,還包括點擊記錄單元,用于獲取并記錄終端對鏈接的點擊操作;等級計算單元,用于根據(jù)鏈接地圖以及鏈接被點擊的記錄,迭代計算鏈接地圖中各節(jié)點的一般重要性值。
在本發(fā)明所述的一種網(wǎng)頁重要性評價系統(tǒng)中,所述點擊記錄單元進一步包括位于終端的點擊收集子單元和位于服務(wù)器的點擊統(tǒng)計子單元,其中所述點擊收集子單元,用于收集所在終端對每一鏈接的點擊操作;所述點擊統(tǒng)計子單元,用于統(tǒng)計并記錄所有來自點擊收集子單元的鏈接點擊操作記錄。
在本發(fā)明所述的一種網(wǎng)頁重要性評價系統(tǒng)中,所述點擊記錄單元進一步包括點擊過濾子單元,用于刪除操作記錄中的無效點擊操作記錄。
在本發(fā)明所述的一種網(wǎng)頁重要性評價系統(tǒng)中,所述等級計算單元計算網(wǎng)頁一般重要性的公式為r′(C)=d*ΣP∈B(C)[r′(P)*s′(P,C)]+1-dN,]]>其中r′(C)是節(jié)點C的一般重要性值,B(C)是節(jié)點C的反向鏈接集合,P是屬于B(C)中一個節(jié)點,r′(P)是節(jié)點P的一般重要性值,s′(P,C)是子節(jié)點C從父節(jié)點P處獲得的一般重要性值的比例,d為衰減因子,N是鏈接地圖中節(jié)點總數(shù)。
在本發(fā)明所述的一種網(wǎng)頁重要性評價系統(tǒng)中,所述等級計算單元包括比重計算子單元和歸一處理子單元,其中所述比重計算子單元,用于計算子節(jié)點Ci占父節(jié)點P等級的比重s(P,Ci)=b*KP,CiKP+(1-b)*1OP,]]>其中,KP為節(jié)點P中所有正向鏈接被點擊的次數(shù),KP,Ci是子節(jié)點Ci通過網(wǎng)頁P被點擊的次數(shù),OP是網(wǎng)頁P的正向鏈接總數(shù),b為比例系數(shù),且0<b≤1;所述歸一處理子單元,用于將網(wǎng)頁P的一般重要性值完整地分配到其正向鏈接s′(P,Ci)=s(P,Ci)s(P,C1)+s(P,C2)+Λ+s(P,COP).]]>在本發(fā)明所述的一種網(wǎng)頁重要性評價系統(tǒng)中,所述等級計算單元進一步包括迭代終止子單元,用于使等級計算單元在滿足迭代終止條件時停止迭代計算,所述迭代終止條件包括迭代預(yù)定次數(shù)和/或殘差小于預(yù)定值。
本發(fā)明一種網(wǎng)頁重要性評價方法及系統(tǒng),針對父節(jié)點的正向鏈接中各子節(jié)點之間的不平等性,通過統(tǒng)計終端瀏覽網(wǎng)頁時點擊網(wǎng)頁中正向鏈接的概率,將父節(jié)點的一般重要性值分配到各子節(jié)點的一般重要性值中,從而使網(wǎng)頁的一般重要性值更趨合理。
下面將結(jié)合附圖及實施例對本發(fā)明作進一步說明,附圖中圖1是本發(fā)明一種網(wǎng)頁重要性評價系統(tǒng)第一實施例的結(jié)構(gòu)示意圖;圖2是圖1中點擊記錄單元的詳細結(jié)構(gòu)示意圖;圖3是本發(fā)明一種網(wǎng)頁重要性評價系統(tǒng)第二實施例的結(jié)構(gòu)示意圖;圖4是本發(fā)明一種網(wǎng)頁重要性評價方法實施例的流程圖。
具體實施例方式
針對父節(jié)點的正向鏈接中各子節(jié)點之間的不平等性,本發(fā)明提出一種新的網(wǎng)頁重要性評價系統(tǒng)及方法。本發(fā)明通過統(tǒng)計終端瀏覽網(wǎng)頁時點擊網(wǎng)頁中正向鏈接的概率,將父節(jié)點的一般重要性值分配到各子節(jié)點的一般重要性值中,從而更準確地評價網(wǎng)頁地一般重要性。
如圖1所示,是本發(fā)明一種網(wǎng)頁重要性評價系統(tǒng)第一實施例的結(jié)構(gòu)示意圖。在本實施例中,網(wǎng)頁重要性評價系統(tǒng)包括點擊記錄單元11、網(wǎng)頁下載單元12以及等級計算單元13。
網(wǎng)頁下載單元12用于下載互聯(lián)網(wǎng)中的網(wǎng)頁并根據(jù)下載的網(wǎng)頁之間的鏈接關(guān)系生成鏈接地圖。上述鏈接地圖中包括多個節(jié)點,且節(jié)點與網(wǎng)頁一一對應(yīng),節(jié)點之間的有向邊代表網(wǎng)頁之間的鏈接關(guān)系。在上述鏈接地圖中,若網(wǎng)頁P中包含網(wǎng)頁C對應(yīng)的鏈接,則網(wǎng)頁P為網(wǎng)頁C的父節(jié)點,而網(wǎng)頁C則為網(wǎng)頁P的子節(jié)點;網(wǎng)頁P的反向鏈接是指鏈接地圖中所有存在指向網(wǎng)頁P的鏈接的網(wǎng)頁;網(wǎng)頁P的入度是指網(wǎng)頁P的反向鏈接中網(wǎng)頁個數(shù);網(wǎng)頁P的正向鏈接是指鏈接地圖中網(wǎng)頁P中所有鏈接指向的其他網(wǎng)頁的集合;網(wǎng)頁P的出度是指網(wǎng)頁P的正向鏈接中網(wǎng)頁個數(shù)。在具體實現(xiàn)時,該網(wǎng)頁下載單元12可以是現(xiàn)有的爬蟲系統(tǒng)等。
點擊記錄單元11用于獲取并記錄終端對鏈接的點擊操作,其中每一鏈接被點擊時一個對應(yīng)的網(wǎng)頁將被打開。在具體實現(xiàn)時,該點擊記錄單元11可進一步包括位于終端的點擊收集子單元111和位于服務(wù)器的點擊統(tǒng)計子單元112,如圖2所示。
其中點擊收集子單元111用于收集所在終端對網(wǎng)頁中的每一鏈接的點擊操作,可以是嵌入瀏覽器中的插件。點擊統(tǒng)計子單元112用于統(tǒng)計并記錄所有來自點擊收集子單元111的鏈接點擊操作記錄,即統(tǒng)計所有終端對鏈接的點擊操作。當(dāng)通過終端瀏覽網(wǎng)頁(父網(wǎng)頁)時點擊了一個鏈接進入并瀏覽另一個網(wǎng)頁(子網(wǎng)頁),點擊記錄單元11將該點擊操作記錄下來并發(fā)送給點擊統(tǒng)計子單元112。發(fā)送的時間可以是實時的,也可以是點擊操作積累到一定數(shù)量后批量發(fā)送。
當(dāng)然,對鏈接點擊操作的收集并不限于上述方式,也可以是例如不通過終端而通過其他方式收集的方式,例如直接在網(wǎng)絡(luò)服務(wù)器收集等。
此外,為了避免侵犯用戶的隱私,上述點擊記錄單元11可在收集點擊操作記錄前,使用對話框或窗口進行收集的提示,然后在用戶自愿的前提下收集操作記錄。還可通過獎勵措施,提高用戶提供操作信息的積極性。
等級計算單元13用于根據(jù)鏈接地圖以及鏈接被點擊的記錄,迭代計算鏈接地圖中各節(jié)點的一般重要性值。上述等級計算單元13計算網(wǎng)頁一般重要性的公式例如可以是r′(C)=d*ΣP∈B(C)[r′(P)*s′(P,C)]+1-dN,]]>其中r′(C)即節(jié)點C的一般重要性值;B(C)是節(jié)點C的反向鏈接集合;P是屬于B(C)中一個節(jié)點,即C的父節(jié)點;r′(P)是節(jié)點P的一般重要性值;s′(P,C)是子節(jié)點C從父節(jié)點P處獲得的一般重要性值的比例;N是鏈接地圖中節(jié)點總數(shù);d為衰減因子。
盡管上述公式是收斂的,但是由于數(shù)據(jù)規(guī)模比較龐大,真正完全收斂耗時很高,因此可以通過迭代終止子單元,使等級計算單元13在滿足迭代終止條件時停止迭代計算,上述迭代終止條件例如迭代固定的次數(shù)(n達到某一個值);或者殘差小于某一個預(yù)設(shè)值(殘差的計算公式為Δr′=ΣC∈A|r′n+1(C)-r′n(C)|,]]>其中A是鏈接地圖中所有節(jié)點的集合);或者是上述兩種終止條件綜合使用,其中一條滿足即停止迭代。
在具體實現(xiàn)時,等級計算單元13可通過比重計算子單元和歸一處理子單元計算子節(jié)點C從父節(jié)點P處獲得的一般重要性值,其中比重計算子單元用于計算子節(jié)點Ci占父節(jié)點P一般重要性值的比重s(P,Ci)=b*KP,CiKP+(1-b)*1OP,]]>其中,KP為節(jié)點P中所有正向鏈接被點擊的次數(shù),KP,Ci是子節(jié)點Ci通過網(wǎng)頁P被點擊的次數(shù),OP是網(wǎng)頁P的正向鏈接總數(shù);b為比例系數(shù),且0<b≤1。
上述的b為預(yù)先設(shè)定比例系數(shù),其取值范圍為0<b≤1。通過調(diào)整b,可以調(diào)整網(wǎng)頁Ci從網(wǎng)頁P處獲得一般重要性值中,由天然鏈接關(guān)系決定部分和點擊鏈接概率的比例。上式中,天然鏈接關(guān)系所占的比例為(1-b),點擊鏈接概率情況所占的比例為b。若b=1,則網(wǎng)頁Ci從網(wǎng)頁P處獲得的一般重要性值全部由點擊鏈接概率情況確定;若b=0則網(wǎng)頁Ci從網(wǎng)頁P處獲得的一般重要性值全部由天然鏈接關(guān)系決定,這與現(xiàn)有的網(wǎng)頁等級(PageRank)算法完全相同。
歸一處理子單元用于將網(wǎng)頁P的一般重要性值完整地分配到其正向鏈接s′(P,Ci)=s(P,Ci)s(P,C1)+s(P,C2)+Λ+s(P,COP).]]>在上述系統(tǒng)中,點擊記錄單元11可進一步包括點擊過濾子單元,用于刪除操作記錄中的虛假點擊操作。在點擊收集子單元111發(fā)送點擊操作記錄到點擊統(tǒng)計子單元112時,發(fā)送的內(nèi)容可包括終端ID,父網(wǎng)頁的URL和子網(wǎng)頁的URL。其中上述終端ID可以是由系統(tǒng)分配的唯一終端ID(例如在終端安裝系統(tǒng)客戶端時分配);此外,終端ID也可以是終端本地的IP地址。多個終端的點擊收集子單元111將各自的點擊操作記錄發(fā)送到點擊統(tǒng)計子單元112,點擊過濾子單元對點擊統(tǒng)計子單元112接收的上述點擊操作記錄進行過濾,以避免通過虛假點擊提高某些網(wǎng)頁的一般重要性。
在具體實現(xiàn)時,點擊過濾子單元將以下點擊操作作為虛假點擊操作某一個網(wǎng)頁中的某一個鏈接在某一時間段內(nèi)被頻繁點擊;指向某一個子網(wǎng)頁的鏈接被頻繁點擊,這些鏈接可能在不同的父網(wǎng)頁上;位于網(wǎng)頁黑名單中的網(wǎng)頁被點擊的操作;位于用戶黑名單中的終端的點擊操作。
如圖3所示,是本發(fā)明一種網(wǎng)頁重要性評價系統(tǒng)第二實施例的結(jié)構(gòu)示意圖。與第一實施例類似,本實施例的網(wǎng)頁重要性評價系統(tǒng)包括點擊記錄單元31、網(wǎng)頁下載單元32以及等級計算單元33,此外在本實施例中還包括鏈接地圖索引單元34。
網(wǎng)頁下載單元32在下載網(wǎng)頁生成鏈接地圖時,將每一網(wǎng)頁對應(yīng)的URL轉(zhuǎn)換為一個文檔標識(Doc ID),并將鏈接地圖以文檔標識形式存儲到鏈接地圖索引單元34。在鏈接地圖索引單元34中,節(jié)點為Doc ID,并通過父節(jié)點或子節(jié)點集合表示鏈接關(guān)系。在鏈接地圖索引單元34中,每一節(jié)點(假設(shè)該節(jié)點為Ci)的屬性除了節(jié)點的Doc ID外,還包括KP,Ci,即終端在瀏覽父節(jié)點網(wǎng)頁P時,通過點擊網(wǎng)頁P上的鏈接到達網(wǎng)頁Ci的次數(shù)。點擊記錄單元31同樣將點擊操作涉及的URL轉(zhuǎn)換為Doc ID,并將點擊的次數(shù)作為節(jié)點屬性存儲到鏈接地圖索引單元34。等級計算單元33根據(jù)鏈接地圖索引單元34中的鏈接地圖及點擊操作記錄計算網(wǎng)頁的一般重要性。
上述將URL轉(zhuǎn)換為Doc ID可通過多種方法,例如對URL字符串計算MD5得到一個64位或128位整數(shù),這個數(shù)值可以做DOC ID,也可以在一個URL第一次出現(xiàn)時順序分配一個DOC ID,順序分配時,DOC ID從0開始計數(shù)。
當(dāng)網(wǎng)頁下載單元32在重新下載解析一個之前已下載過的網(wǎng)頁P時,發(fā)現(xiàn)網(wǎng)頁P的正向鏈接集合發(fā)生變化(特別是當(dāng)網(wǎng)頁P是動態(tài)網(wǎng)頁時,這種情況經(jīng)常發(fā)生),此時需要更新鏈接地圖索引單元34中P對應(yīng)的子節(jié)點集合、OP屬性以及KP和KP,Ci值。若刪除一個已有正向鏈接Cj,則從子節(jié)點集合中將Cj及其KP,Cj記錄刪除,取KP=KP-KP,Cj;]]>若增加一個新正向鏈接,記作Cj,則使KP和其他子節(jié)點的KP,Ci保持不變,取KP,Cj=0]]>或者使KP,Cj=0]]>并將KP和其他子節(jié)點的KP,Ci都置為0,所有子節(jié)點的點擊概率都重新統(tǒng)計;若網(wǎng)頁下載單元32發(fā)現(xiàn)原有的一個父節(jié)點P代表的網(wǎng)頁已不存在,則鏈接地圖索引單元32刪除該父節(jié)點的所有屬性,包括OP、KP、子節(jié)點集合和KP,Ci。
如圖4所示,是本發(fā)明一種網(wǎng)頁重要性評價方法實施例的流程圖,其具體包括以下步驟步驟S41生成鏈接地圖,其中鏈接地圖可通過網(wǎng)頁爬蟲系統(tǒng)或類似系統(tǒng)生成,該鏈接地圖中包括多個節(jié)點,且節(jié)點與網(wǎng)頁一一對應(yīng),節(jié)點之間的有向邊代表網(wǎng)頁之間的鏈接關(guān)系。
步驟S42獲取并記錄終端對所述鏈接地圖中節(jié)點的點擊操作。其中每一鏈接被點擊時一個對應(yīng)的網(wǎng)頁將被打開。
在具體實現(xiàn)時,該步驟可進一步包括收集終端對網(wǎng)頁中的每一鏈接的點擊操作;統(tǒng)計并記錄所有來自終端的點擊操作記錄。當(dāng)通過終端瀏覽網(wǎng)頁(父網(wǎng)頁)時點擊了一個鏈接進入并瀏覽另一個網(wǎng)頁(子網(wǎng)頁),終端將該點擊操作記錄下來并發(fā)送給一個服務(wù)器,由服務(wù)器統(tǒng)計點擊操作記錄。發(fā)送的時間可以是實時的,也可以在點擊操作積累到一定數(shù)量后批量發(fā)送。
在該步驟中,為避免通過虛假點擊提高某些網(wǎng)頁的一般重要性,增加刪除操作記錄中的虛假點擊操作的步驟。在具體實現(xiàn)時,可將以下點擊操作作為虛假點擊操作某一個網(wǎng)頁中的某一個鏈接在某一時間段內(nèi)被頻繁點擊;指向某一個子網(wǎng)頁的鏈接被頻繁點擊,這些鏈接可能在不同的父網(wǎng)頁上;位于網(wǎng)頁黑名單中的網(wǎng)頁被點擊的操作;位于用戶黑名單中的終端的點擊操作。
步驟S43根據(jù)鏈接地圖和節(jié)點被點擊的記錄,迭代計算鏈接地圖中各節(jié)點的一般重要性值。
在該步驟中計算一般重要性的公式為r′(C)=d*ΣP∈B(C)[r′(P)*s′(P,C)]+1-dN,]]>其中r′(C)即節(jié)點C的一般重要性值;B(C)是節(jié)點C的反向鏈接集合;P是屬于B(C)中一個節(jié)點,即C的父節(jié)點;r′(P)是節(jié)點P的一般重要性值;s′(P,C)是子節(jié)點C從父節(jié)點P處獲得的一般重要性值的比例;N是鏈接地圖中節(jié)點總數(shù);d為衰減因子。
在使用上述公式計算網(wǎng)頁的一般重要性時,可首先計算子節(jié)點Ci占父節(jié)點P一般重要性值的比重s(P,Ci)=b*KP,CiKP+(1-b)*1OP,]]>其中,KP為節(jié)點P中所有正向鏈接被點擊的次數(shù),KP,Ci是子節(jié)點Ci通過網(wǎng)頁P被點擊的次數(shù),b為比例系數(shù),且0<b≤1,OP是網(wǎng)頁P的正向鏈接總數(shù);然后將網(wǎng)頁P的一般重要性值完整地分配到其正向鏈接s′(P,Ci)=s(P,Ci)s(P,C1)+s(P,C2)+Λ+s(P,COP).]]>在使用上述公式計算網(wǎng)頁一般重要性時,為了減小計算的數(shù)據(jù)規(guī)模,可設(shè)定迭代終止條件,在滿足迭代終止條件時停止迭代計算,迭代終止條件包括迭代預(yù)定次數(shù)和/或殘差小于預(yù)定值。
以上所述,僅為本發(fā)明較佳的具體實施方式
,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應(yīng)該以權(quán)利要求的保護范圍為準。
權(quán)利要求
1.一種網(wǎng)頁重要性評價方法,其特征在于,包括以下步驟(a)生成鏈接地圖,所述鏈接地圖包括多個與網(wǎng)頁對應(yīng)的節(jié)點且每一網(wǎng)頁對應(yīng)一個鏈接;(b)獲取并記錄終端對所述鏈接地圖中節(jié)點的點擊操作;(c)根據(jù)鏈接地圖和節(jié)點被點擊的記錄,迭代計算鏈接地圖中各節(jié)點的一般重要性值。
2.根據(jù)權(quán)利要求1所述的一種網(wǎng)頁重要性評價方法,其特征在于,所述步驟(b)中,進一步包括(b1)收集終端對每一鏈接的點擊操作;(b2)統(tǒng)計并記錄所有終端對鏈接的點擊操作記錄。
3.根據(jù)權(quán)利要求1或2所述的一種網(wǎng)頁重要性評價方法,其特征在于,所述步驟(b)中進一步包括刪除所述操作記錄中的無效點擊記錄。
4.根據(jù)權(quán)利要求1或2所述的一種網(wǎng)頁重要性評價方法,其特征在于,所述步驟(c)中計算一般重要性的公式為r′(C)=d*ΣP∈B(C)[r′(P)*s′(P,C)]+1-dN,]]>其中r′(C)是節(jié)點C的一般重要性值,B(C)是節(jié)點C的反向鏈接集合,P是屬于B(C)中一個節(jié)點,r′(P)是節(jié)點P的一般重要性值,s′(P,C)是子節(jié)點C從父節(jié)點P處獲得的一般重要性值的比例,d為衰減因子,N是鏈接地圖中節(jié)點總數(shù)。
5.根據(jù)權(quán)利要求4所述的一種網(wǎng)頁重要性評價方法,其特征在于,所述步驟(c)中進一步包括(c1)計算子節(jié)點Ci占父節(jié)點P等級的比重s(P,Ci)=b*KP,CiKP+(1-b)*1OP,]]>其中,Kp為節(jié)點P中所有正向鏈接被點擊的次數(shù),KP,Ci是子節(jié)點Ci通過網(wǎng)頁P被點擊的次數(shù),OP是網(wǎng)頁P的正向鏈接總數(shù),b為比例系數(shù),且0<b≤1;(c2)將網(wǎng)頁P的一般重要性值完整地分配到其正向鏈接s′(P,Ci)=s(P,Ci)s(P,C1)+s(P,C2)+Λ+s(P,COP).]]>
6.根據(jù)權(quán)利要求4所述的一種網(wǎng)頁重要性評價方法,其特征在于,所述步驟(c)中進一步包括在滿足迭代終止條件時停止迭代計算,所述迭代終止條件包括迭代預(yù)定次數(shù)和/或殘差小于預(yù)定值。
7.一種網(wǎng)頁重要性評價系統(tǒng),包括用于生成網(wǎng)頁鏈接地圖的網(wǎng)頁下載單元,所述鏈接地圖包括多個與網(wǎng)頁對應(yīng)的節(jié)點且每一網(wǎng)頁對應(yīng)一個鏈接,其特征在于,還包括點擊記錄單元,用于獲取并記錄終端對鏈接的點擊操作;等級計算單元,用于根據(jù)鏈接地圖以及鏈接被點擊的記錄,迭代計算鏈接地圖中各節(jié)點的一般重要性值。
8.根據(jù)權(quán)利要求7所述的一種網(wǎng)頁重要性評價系統(tǒng),其特征在于,所述點擊記錄單元進一步包括位于終端的點擊收集子單元和位于服務(wù)器的點擊統(tǒng)計子單元,其中所述點擊收集子單元,用于收集所在終端對每一鏈接的點擊操作;所述點擊統(tǒng)計子單元,用于統(tǒng)計并記錄所有來自點擊收集子單元的鏈接點擊操作記錄。
9.根據(jù)權(quán)利要求7或8所述的一種網(wǎng)頁重要性評價系統(tǒng),其特征在于,所述點擊記錄單元進一步包括點擊過濾子單元,用于刪除操作記錄中的無效點擊操作記錄。
10.根據(jù)權(quán)利要求7或8所述的一種網(wǎng)頁重要性評價系統(tǒng),其特征在于,所述等級計算單元計算網(wǎng)頁一般重要性的公式為r′(C)=d*ΣP∈B(C)[r′(P)*s′(P,C)]+1-dN,]]>其中r′(C)是節(jié)點C的一般重要性值,B(C)是節(jié)點C的反向鏈接集合,P是屬于B(C)中一個節(jié)點,r′(P)是節(jié)點P的一般重要性值,s′(P,C)是子節(jié)點C從父節(jié)點P處獲得的一般重要性值的比例,d為衰減因子,N是鏈接地圖中節(jié)點總數(shù)。
11.根據(jù)權(quán)利要求10所述的一種網(wǎng)頁重要性評價系統(tǒng),其特征在于,所述等級計算單元包括比重計算子單元和歸一處理子單元,其中所述比重計算子單元,用于計算子節(jié)點Ci占父節(jié)點P等級的比重s(P,Ci)=b*KP,CiKP+(1-b)*1OP,]]>其中,KP為節(jié)點P中所有正向鏈接被點擊的次數(shù),KP,Ci是子節(jié)點Ci通過網(wǎng)頁P被點擊的次數(shù),OP是網(wǎng)頁P的正向鏈接總數(shù),b為比例系數(shù),且0<b≤1;所述歸一處理子單元,用于將網(wǎng)頁P的一般重要性值完整地分配到其正向鏈接s′(P,Ci)=s(P,Ci)s(P,C1)+s(P,C2)+Λ+s(P,COP).]]>
12.根據(jù)權(quán)利要求10所述的一種網(wǎng)頁重要性評價系統(tǒng),其特征在于,所述等級計算單元進一步包括迭代終止子單元,用于使等級計算單元在滿足迭代終止條件時停止迭代計算,所述迭代終止條件包括迭代預(yù)定次數(shù)和/或殘差小于預(yù)定值。
全文摘要
本發(fā)明公開了一種網(wǎng)頁重要性評價方法,包括以下步驟(a)生成鏈接地圖,所述鏈接地圖包括多個與網(wǎng)頁對應(yīng)的節(jié)點且每一網(wǎng)頁對應(yīng)一個鏈接;(b)獲取并記錄終端對所述鏈接地圖中節(jié)點的點擊操作;(c)根據(jù)鏈接地圖和節(jié)點被點擊的記錄,迭代計算鏈接地圖中各節(jié)點的一般重要性值。本發(fā)明還公開了一種網(wǎng)頁重要性評價系統(tǒng)。本發(fā)明通過統(tǒng)計終端瀏覽網(wǎng)頁時點擊網(wǎng)頁中正向鏈接的概率,將父節(jié)點的一般重要性值分配到各子節(jié)點的一般重要性值中,從而使網(wǎng)頁的一般重要性值更趨合理。
文檔編號G06F17/30GK101079062SQ20071007517
公開日2007年11月28日 申請日期2007年6月22日 優(yōu)先權(quán)日2007年6月22日
發(fā)明者劉云峰, 楊海松 申請人:騰訊科技(深圳)有限公司