專利名稱:前瞻文檔排名系統(tǒng)的制作方法
前瞻文檔排名系統(tǒng)
背景
如Google(谷歌)和Yahoo (雅虎)等許多搜索引擎服務(wù)能夠搜索能經(jīng)由因特 網(wǎng)訪問的信息。這些搜索引擎服務(wù)允許用戶搜索用戶可能感興趣的顯示頁(yè)面, 如網(wǎng)頁(yè)。在用戶提交包含搜索項(xiàng)的搜索請(qǐng)求(即,查詢)之后,搜索引擎服務(wù) 標(biāo)識(shí)可能與這些搜索項(xiàng)相關(guān)的網(wǎng)頁(yè)。為快速標(biāo)識(shí)相關(guān)的網(wǎng)頁(yè),搜索引擎服務(wù)可 維護(hù)關(guān)鍵詞到網(wǎng)頁(yè)的映射。該映射可以通過"爬尋(crawl) "web (即,萬(wàn)維網(wǎng)) 來(lái)標(biāo)識(shí)每一網(wǎng)頁(yè)的關(guān)鍵詞來(lái)生成。為爬尋web,搜索引擎服務(wù)可使用根網(wǎng)頁(yè)列 表來(lái)標(biāo)識(shí)能通過這些根網(wǎng)頁(yè)訪問的所有網(wǎng)頁(yè)。任何特定網(wǎng)頁(yè)的關(guān)鍵詞可使用各 種公知信息檢索技術(shù)來(lái)標(biāo)識(shí),如標(biāo)識(shí)標(biāo)題行的文字、在網(wǎng)頁(yè)的元數(shù)據(jù)中提供的 文字、突出顯示的文字等等。搜索引擎服務(wù)基于網(wǎng)頁(yè)的關(guān)鍵詞與查詢的文字匹 配得如何來(lái)標(biāo)識(shí)可能與搜索請(qǐng)求相關(guān)的網(wǎng)頁(yè)。搜索引擎服務(wù)隨后將到所標(biāo)識(shí)的 網(wǎng)頁(yè)的鏈接以基于排名的順序顯示給用戶,該排名可以按照其與查詢的相關(guān) 度、流行度、重要性和/或某一其它度量來(lái)確定。
用于頁(yè)面排名的一種公知技術(shù)是PageRank,其基于網(wǎng)頁(yè)將具有到重要網(wǎng) 頁(yè)的鏈接(即,"引出鏈接")的原理。網(wǎng)頁(yè)重要性基于鏈接到該網(wǎng)頁(yè)(即, "引入鏈接")的其它網(wǎng)頁(yè)的數(shù)量與重要性。PageRank基于訪問web圖(頂 點(diǎn)表示網(wǎng)頁(yè)而鏈接表示超鏈接)的網(wǎng)頁(yè)的隨機(jī)網(wǎng)蟲(surfer)模型,且將網(wǎng)頁(yè) 的重要性表示為訪問此網(wǎng)頁(yè)的固定概率。在隨機(jī)網(wǎng)蟲模型中,訪問當(dāng)前頁(yè)面的 網(wǎng)蟲將通過隨機(jī)選擇當(dāng)前網(wǎng)頁(yè)的鏈接來(lái)訪問下一頁(yè)面。如果當(dāng)前網(wǎng)頁(yè)具有三個(gè) 到目標(biāo)網(wǎng)頁(yè)的引出鏈接,則從當(dāng)前網(wǎng)頁(yè)訪問每一目標(biāo)網(wǎng)頁(yè)的概率是1/3。 PageRank因此基于僅依賴于當(dāng)前網(wǎng)頁(yè)的信息(例如,超鏈接)的馬爾可夫隨 機(jī)游動(dòng)。
web圖可被表示為G=<r,£> ,其中「=卩,2,...,"}是頂點(diǎn)集合而 £ = {</,_/〉|/,./£^是邊集合。網(wǎng)頁(yè)之間的鏈接可以由鄰接矩陣^來(lái)表示,其中
在存在從源網(wǎng)頁(yè)虔j目標(biāo)網(wǎng)頁(yè)j'的引出鏈接時(shí)將4設(shè)為1。網(wǎng)頁(yè)y的重要性分?jǐn)?shù)w,可以如下表示
<formula>formula see original document page 6</formula>(1)
該等式可以通過基于下式的迭代計(jì)算來(lái)求解
<formula>formula see original document page 6</formula>(2)
其中w是網(wǎng)頁(yè)的重要性分?jǐn)?shù)的向量,并且是,的主本征向量。 PageRank還可以將網(wǎng)蟲可以隨機(jī)選擇接下來(lái)訪問未由當(dāng)前網(wǎng)頁(yè)鏈接到的 網(wǎng)頁(yè)計(jì)算在內(nèi)。因此,網(wǎng)蟲可以有"的概率接下來(lái)訪問當(dāng)前網(wǎng)頁(yè)的目標(biāo)網(wǎng)頁(yè), 而有l(wèi)-a的概率接下來(lái)訪問隨機(jī)所選的網(wǎng)頁(yè)。為了將對(duì)網(wǎng)頁(yè)的這種隨機(jī)選 擇計(jì)算在內(nèi),PageRank通過使用其元素之和來(lái)歸一化鄰接矩陣的每一非零行 來(lái)生成初始轉(zhuǎn)移矩陣尸。PageRank隨后將矩陣尸中的零行的每一元素設(shè)置為 1//7來(lái)生成轉(zhuǎn)移概率矩陣7。表示對(duì)目標(biāo)網(wǎng)頁(yè)的鏈接的隨機(jī)選擇和對(duì)網(wǎng)頁(yè)的隨
機(jī)選擇^模型可表示如下
<formula>formula see original document page 6</formula>(3)
其中^是組合轉(zhuǎn)移概率矩陣,而U是其中每--元素被設(shè)置為1/w的統(tǒng)一概 率分布矩陣。PageRank認(rèn)為轉(zhuǎn)移概率矩陣?的固定分布;r = ;r2,…,;rj7表示
每一網(wǎng)頁(yè)的重要性。PageRank可以通過如下表示的迭代過程來(lái)計(jì)算固定分布
<formula>formula see original document page 6</formula> (4)
其中;r(0)—U,...,1)/, ?表示迭代計(jì)數(shù),且迭代過程繼續(xù)直到;r收斂于一解。
PageRank的基礎(chǔ)假設(shè)是用戶隨機(jī)地選擇當(dāng)前網(wǎng)頁(yè)的任何超鏈接。然而, 在用戶具有幫助決定選擇哪個(gè)超鏈接的附加信息可用時(shí),此假設(shè)是不正確的。
用戶可能想要最大化他們的信息收獲,并且因此具有這種附加信息的用戶將可 能選擇將導(dǎo)致最大信息收獲的超鏈接。
概述
提供了用于基于從源文檔到目標(biāo)文檔的轉(zhuǎn)移概率來(lái)計(jì)算文檔的重要性的 方法和系統(tǒng),其中轉(zhuǎn)移概率基于對(duì)源文檔的目標(biāo)文檔的信息內(nèi)容的前瞻。該前 瞻重要性系統(tǒng)基于對(duì)到源文檔的目標(biāo)文檔的鏈接的分析來(lái)生成在任一對(duì)源文 檔和目標(biāo)文檔之間轉(zhuǎn)移的轉(zhuǎn)移概率。該前瞻重要性系統(tǒng)可以基于特定前瞻距離遠(yuǎn)的文檔的內(nèi)容來(lái)計(jì)算從源文檔到直接目標(biāo)文檔的轉(zhuǎn)移概率。該前瞻重要性系 統(tǒng)可以基于相距一前瞻距離的文檔上的鏈接的數(shù)量來(lái)計(jì)算轉(zhuǎn)移概率。在該前瞻 重要性系統(tǒng)從這些轉(zhuǎn)移概率中生成轉(zhuǎn)移概率矩陣之后,它求出訪問每一文檔的 固定概率。文檔的固定概率表示文檔的重要性。
提供本概述是為了以簡(jiǎn)化的形式介紹將在以下詳細(xì)描述中進(jìn)一步描述的 一些概念。該概述不旨在標(biāo)識(shí)所要求保護(hù)的主題的關(guān)鍵特征或必要特征,也不 旨在用于幫助確定所要求保護(hù)的主題的范圍。
附圖簡(jiǎn)述
圖1是示出一個(gè)實(shí)施例中的前瞻重要性系統(tǒng)的組件的框圖。 圖2是示出一個(gè)實(shí)施例中的前瞻重要性系統(tǒng)的計(jì)算前瞻重要性組件的處 理的流程圖。
圖3是示出一實(shí)施例中的前瞻重要性系統(tǒng)的生成初始轉(zhuǎn)移矩陣組件的處 理的流程圖。
圖4是示出一實(shí)施例中的前瞻重要性系統(tǒng)的計(jì)算每頁(yè)面鏈接組件的處理
的流程圖。
圖5是示出一實(shí)施例中的前瞻重要性系統(tǒng)的計(jì)算固定概率組件的處理的 流程圖。
詳細(xì)描述
提供了用于基于從源文檔到目標(biāo)文檔的轉(zhuǎn)移概率來(lái)計(jì)算文檔的重要性的 方法和系統(tǒng),其中轉(zhuǎn)移概率基于對(duì)源文檔的目標(biāo)文檔的信息內(nèi)容的前瞻。在一 個(gè)實(shí)施例中, 一種前瞻重要性系統(tǒng)基于對(duì)到源文檔的目標(biāo)文檔的鏈接的分析來(lái) 生成在任一對(duì)源文檔和目標(biāo)文檔之間轉(zhuǎn)移的轉(zhuǎn)移概率。通過源文檔的鏈接直接 或間接可訪問的文檔是源文檔的目標(biāo)文檔。例如,文檔a可以包含到文檔b、 c、 和d的鏈接,且文檔b可以包含到文檔b'和b"的鏈接。文檔a是直接目標(biāo)文檔 b、 c和d的源文檔,且是間接目標(biāo)文檔b'和b"的源文檔。文檔b是直接目標(biāo)文 檔b'和b"的源文檔。文檔b、 c和d與源文檔a相隔前瞻距離一,而文檔b'和 b"與源文檔a相隔前瞻距離二。該前瞻重要性系統(tǒng)可以基于特定前瞻距離遠(yuǎn)的
7文檔的內(nèi)容來(lái)計(jì)算從源文檔到直接目標(biāo)文檔的轉(zhuǎn)移概率。例如,如果目標(biāo)文檔
b、 c和d各自分別包含2、 3、和4個(gè)鏈接,則基于前瞻距離一的從源文檔a 轉(zhuǎn)移到目標(biāo)文檔b、 c和d的轉(zhuǎn)移概率可以分別是2/9、 3/9、和4/9。因?yàn)槲臋n b、 c和d包含總共9個(gè)鏈接,所以任何目標(biāo)文檔的轉(zhuǎn)移概率是它所包含的鏈接 總數(shù)的分?jǐn)?shù)。因此,該前瞻重要性系統(tǒng)基于相距一前瞻距離的文檔上的鏈接的 數(shù)量來(lái)計(jì)算轉(zhuǎn)移概率。在該前瞻重要性系統(tǒng)從這些轉(zhuǎn)移概率中生成轉(zhuǎn)移概率矩 陣之后,它求出訪問每一文檔的固定概率。文檔的固定概率表示文檔的重要性。 以這種方式,該前瞻重要性系統(tǒng)在將可通過源文檔的不同鏈接獲得的相對(duì)信息 量計(jì)算在內(nèi)的情況下確定文檔的重要性。
用戶可以基于通過選擇一個(gè)鏈接而不選另一個(gè)鏈接所感知到的信息收獲 來(lái)選擇鏈接,而不是隨機(jī)選擇當(dāng)前網(wǎng)頁(yè)的鏈接。幫助用戶作出信息收獲的判定 所需的附加信息可以用各種方式來(lái)提供。例如,可以擴(kuò)充網(wǎng)頁(yè)來(lái)為每一鏈接顯 示可通過此鏈接訪問的相距一前瞻距離的鏈接的百分比。在用戶將指針懸停在 一鏈接上時(shí),該百分比可以顯示在該鏈接旁邊。繼續(xù)具有到文檔b、 c和d的 鏈接的文檔a的示例,在指針懸停于到文檔b的鏈接上時(shí),隨后可以在該鏈接 旁邊顯示22%。作為另一個(gè)示例,在顯示網(wǎng)頁(yè)時(shí),可以顯示web圖(例如,頂 點(diǎn)和邊)中與當(dāng)前網(wǎng)頁(yè)相距一前瞻距離的一部分的圖形。用戶可以評(píng)估web圖 的所顯示的部分來(lái)評(píng)估通過各種鏈接可獲得的信息。
本領(lǐng)域的技術(shù)人員可以理解,可以使用許多不同的技術(shù)來(lái)基于前瞻生成轉(zhuǎn) 移概率。以上描述的技術(shù)將從源網(wǎng)頁(yè)到直接目標(biāo)網(wǎng)頁(yè)的轉(zhuǎn)移概率設(shè)置為通過在 特定前瞻距離處的目標(biāo)網(wǎng)頁(yè)可訪問的鏈接的分?jǐn)?shù)。繼續(xù)具有到文檔b、 c和d 的鏈接的文檔a與具有到文檔b'和b"的鏈接的文檔b的示例,如果前瞻距離是 二且文檔b'和b"分別包含2個(gè)與5個(gè)鏈接,且c的直接目標(biāo)文檔上的鏈接總數(shù) 是14,而d的直接目標(biāo)文檔上的鏈接總數(shù)是21 ,則文檔b的轉(zhuǎn)移概率將是7/42, 文檔c的轉(zhuǎn)移概率將是14/42,以及文檔d的轉(zhuǎn)移概率將是21/42。替換技術(shù)可 以將轉(zhuǎn)移概率設(shè)置為無(wú)前瞻的轉(zhuǎn)移概率和前瞻的轉(zhuǎn)移概率的組合、或前瞻不同 的前瞻距離的轉(zhuǎn)移概率的組合。繼續(xù)此示例,在不前瞻的情況下,對(duì)文檔b、 c 和d來(lái)說轉(zhuǎn)移概率將是1/3,而在前瞻距離為一的情況下,轉(zhuǎn)移概率將是2/9、 3/9、和4/9。進(jìn)行前瞻和不進(jìn)行前瞻的轉(zhuǎn)移概率的線性組合可以是2.5/9 3/9、禾口 3.5/9。
在一個(gè)實(shí)施例中,前瞻重要性系統(tǒng)可以將網(wǎng)頁(yè)之間的轉(zhuǎn)移概率表示如下
(")"(G)
其中/表示源網(wǎng)頁(yè),y'表示直接目標(biāo)網(wǎng)頁(yè),TV-l表示前瞻距離,以及^w一0
表示通過在前瞻距離W-1處的目標(biāo)網(wǎng)頁(yè)/的網(wǎng)頁(yè)上的鏈接的數(shù)量。繼續(xù)上述 示例,目標(biāo)文檔b、 c和d與源文檔a相距前瞻距離一。因此,《(')是3,《2)是 2,《(2>是3,""是4,以及c^)是2,且等式5的分母是這些值的總和。該前
瞻重要性系統(tǒng)可以根據(jù)下式來(lái)生成初始轉(zhuǎn)移矩陣
(6)
其中尸W表示基于前瞻距離iV-l的初始轉(zhuǎn)移矩陣,X表示指示文檔之間 的鏈接的鄰接矩陣,以及DW表示其對(duì)角元素被設(shè)置為"^的對(duì)角矩陣,其 中"(^根據(jù)下式來(lái)計(jì)算 ,)=" (7)
其中= (1,1,..., 1):'。矩陣(Dw)—'是在,)中的相應(yīng)元素為零的任何元
素都為零值的擴(kuò)展逆矩陣。矢量"(w)包含用于每一網(wǎng)頁(yè)的元素,且包含與該 網(wǎng)頁(yè)相距前瞻距離W-l的網(wǎng)頁(yè)上的鏈接總數(shù)。
該前瞻重要性系統(tǒng)隨后將尸W中的零行的每一元素設(shè)置為1—,從而給
出轉(zhuǎn)移概率矩陣7("。該前瞻重要性系統(tǒng)如下表示經(jīng)由鏈接對(duì)直接目標(biāo)網(wǎng)頁(yè)的 隨機(jī)選擇,以及在不選擇鏈接的情況下對(duì)網(wǎng)頁(yè)的隨機(jī)選擇 、,)+(l一豐(8)
其中 'V)是組合轉(zhuǎn)移概率矩陣,而f/是其中每一元素被設(shè)置為1/"的統(tǒng)一
概率分布矩陣。該前瞻重要性系統(tǒng)如下表示固定概率
=(w)、".
尸
,)(9)
其中7r^表示前瞻距離iV-l情況下的固定概率。該前瞻重要性系統(tǒng)可以 使用迭代過程來(lái)計(jì)算固定概率。
圖1是示出一個(gè)實(shí)施例中的前瞻重要性系統(tǒng)的組件的框圖。前瞻重要性系 統(tǒng)IIO可以經(jīng)由通信鏈路130來(lái)連接到網(wǎng)站120。該前瞻重要性系統(tǒng)可以包括
9爬尋網(wǎng)站的網(wǎng)頁(yè)來(lái)生成鄰接矩陣112的爬尋器組件111??勺鳛橄∈杈仃噥?lái)存
儲(chǔ)的該鄰接矩陣指示網(wǎng)頁(yè)之間的鏈接并表示web圖。該前瞻重要性系統(tǒng)還可以
包括搜索引擎組件113,該搜索引擎組件接收搜索請(qǐng)求、標(biāo)識(shí)匹配搜索請(qǐng)求的
網(wǎng)頁(yè)、并至少部分基于前瞻重要性系統(tǒng)生成的重要性分?jǐn)?shù)來(lái)對(duì)匹配網(wǎng)頁(yè)進(jìn)行排 名。該前瞻重要性系統(tǒng)包括計(jì)算前瞻重要性組件115、生成初始轉(zhuǎn)移矩陣(尸)
組件116、計(jì)算固定概率(;r)組件117、以及計(jì)算每頁(yè)面鏈接(^組件118。計(jì)算
前瞻重要性組件調(diào)用生成初始轉(zhuǎn)移矩陣組件來(lái)計(jì)算初始轉(zhuǎn)移矩陣并隨后生成 轉(zhuǎn)移概率矩陣。生成初始轉(zhuǎn)移矩陣組件調(diào)用計(jì)算每頁(yè)面鏈接組件來(lái)為每一源網(wǎng)
頁(yè)生成相距一前瞻距離的網(wǎng)頁(yè)上的鏈接總數(shù)。計(jì)算前瞻重要性組件調(diào)用計(jì)算固 定概率組件來(lái)計(jì)算固定概率并將該固定概率作為重要性分?jǐn)?shù)存儲(chǔ)在重要性存
儲(chǔ)119中。
在其上實(shí)現(xiàn)該前瞻重要性系統(tǒng)的計(jì)算設(shè)備可包括中央處理單元、存儲(chǔ)器、 輸入設(shè)備(例如,鍵盤和定點(diǎn)設(shè)備)、輸出設(shè)備(例如,顯示設(shè)備)和存儲(chǔ)設(shè) 備(例如,盤驅(qū)動(dòng)器)。存儲(chǔ)器和存儲(chǔ)設(shè)備是可以用實(shí)現(xiàn)該前瞻重要性系統(tǒng)的 計(jì)算機(jī)可執(zhí)行指令來(lái)編碼的計(jì)算機(jī)可讀介質(zhì),這意味著包含該指令的計(jì)算機(jī)可 讀介質(zhì)。此外,指令、數(shù)據(jù)結(jié)構(gòu)和消息結(jié)構(gòu)可被存儲(chǔ)或經(jīng)由諸如通信鏈路上的 信號(hào)之類的數(shù)據(jù)傳送介質(zhì)發(fā)送??梢允褂酶鞣N通信鏈路,諸如因特網(wǎng)、局域網(wǎng)、 廣域網(wǎng)、點(diǎn)對(duì)點(diǎn)撥號(hào)連接、蜂窩電話網(wǎng)絡(luò)等。
該系統(tǒng)的實(shí)施例可以在各種操作環(huán)境中實(shí)現(xiàn),這些操作環(huán)境包括個(gè)人計(jì)算 機(jī)、服務(wù)器計(jì)算機(jī)、手持式或膝上型設(shè)備、多處理器系統(tǒng)、基于微處理器的系 統(tǒng)、可編程消費(fèi)電子產(chǎn)品、數(shù)碼相機(jī)、網(wǎng)絡(luò)PC、小型計(jì)算機(jī)、大型計(jì)算機(jī)、 包括任何上述系統(tǒng)或設(shè)備中任一種的計(jì)算環(huán)境等。
該前瞻重要性系統(tǒng)可以在諸如程序模塊等由一個(gè)或多個(gè)計(jì)算機(jī)或其他設(shè) 備執(zhí)行的計(jì)算機(jī)可執(zhí)行指令的通用上下文中描述。 一般而言,程序模塊包括執(zhí) 行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等 等。通常,程序模塊的功能可以在各個(gè)實(shí)施例中按需進(jìn)行組合或分布。例如, 單獨(dú)的計(jì)算系統(tǒng)可以爬尋web并生成鄰接矩陣。同樣,搜索引擎可被主存在單 獨(dú)的計(jì)算系統(tǒng)上。
圖2是示出一個(gè)實(shí)施例中的前瞻重要性系統(tǒng)的計(jì)算前瞻重要性組件的處
10理的流程圖。向該組件傳遞鄰接矩陣的指示和前瞻距離的指示。該組件基于所 傳遞的前瞻距離來(lái)生成轉(zhuǎn)移概率矩陣,并將此轉(zhuǎn)移概率矩陣的固定概率作為網(wǎng) 頁(yè)的重要性來(lái)存儲(chǔ)。在框201,該組件調(diào)用生成初始轉(zhuǎn)移矩陣組件來(lái)生成初始
轉(zhuǎn)移矩陣。在框202,該組件歸一化行中的值并將具有全零元素的任何行的元 素設(shè)為具有相等概率來(lái)生成轉(zhuǎn)移概率矩陣。在框203,該組件生成中間矩陣來(lái) 將使用因子h"加權(quán)的、通過不選擇當(dāng)前網(wǎng)頁(yè)的鏈接來(lái)接著訪問網(wǎng)頁(yè)的概率計(jì) 算在內(nèi)。在框204,該組件生成使用因子"對(duì)轉(zhuǎn)移概率矩陣加權(quán)的中間矩陣。 在框205,該組件組合中間矩陣來(lái)生成前瞻距離為^-l情況下的組合轉(zhuǎn)移概率 矩陣。在框206,該組件調(diào)用計(jì)算固定概率組件來(lái)計(jì)算轉(zhuǎn)移概率矩陣的固定概 率。在框207,該組件將固定概率作為每一網(wǎng)頁(yè)的重要性存儲(chǔ)在重要性存儲(chǔ)中 并隨后完成。
圖3是示出一實(shí)施例中的前瞻重要性系統(tǒng)的生成初始轉(zhuǎn)移矩陣組件的處 理的流程圖。向該組件傳遞前瞻距離的指示且該組件生成初始轉(zhuǎn)移矩陣。在框 301,該組件調(diào)用計(jì)算每頁(yè)面鏈接組件來(lái)生成矢量^^和^w一)。在框302, 該組件將矩陣D('v-')生成為具有對(duì)角元素爿^的對(duì)角矩陣。在框303,該組 件將矩陣D(w)生成為具有對(duì)角元素J(W的對(duì)角矩陣。在框304,該組件通過 將鄰接矩陣^乘以矩陣^w-')來(lái)生成中間矩陣r。在框305,該組件通過將D^ 的逆矩陣乘以中間矩陣r來(lái)生成初始轉(zhuǎn)移矩陣。該組件隨后返回該初始轉(zhuǎn)移矩 陣。
圖4是示出一實(shí)施例中的前瞻重要性系統(tǒng)的計(jì)算每頁(yè)面鏈接組件的處理 的流程圖。向該組件傳遞前瞻距離的指示并且該組件計(jì)算與源網(wǎng)頁(yè)相距該前瞻 距離的目標(biāo)網(wǎng)頁(yè)上的鏈接的計(jì)數(shù)。在框401,該組件初始化矢量t/(0)。在框 402-404,該組件循環(huán)計(jì)算每一網(wǎng)頁(yè)的計(jì)數(shù)。在框402,該組件遞增索引。在判 定框403,如果該索引大于該前瞻距離加一,則該組件返回最近兩個(gè)計(jì)算出的 矢量,否則該組件在框404繼續(xù)。在框404,該組件將鄰接矩陣乘以最近計(jì)算 出的矢量來(lái)給出下一計(jì)算出的矢量并循環(huán)到框401來(lái)遞增該索引。
圖5是示出一實(shí)施例中的前瞻重要性系統(tǒng)的計(jì)算固定概率組件的處理的 流程圖。向該組件傳遞概率轉(zhuǎn)移矩陣并且該組件為每一網(wǎng)頁(yè)計(jì)算相應(yīng)的固定概 率。在框501,該組件初始化迭代變量/。在框502,該組件初始化固定概率。在框503-505,該組件循環(huán)計(jì)算新的固定概率直到滿足了終止條件。在框503, 該組件遞增到下一迭代。在框504,該組件通過將轉(zhuǎn)移概率矩陣的變換乘以上 一次迭代的固定概率來(lái)為當(dāng)前迭代計(jì)算固定概率。在判定框505,如果滿足終 止條件,例如固定概率已經(jīng)收斂于一個(gè)解或已經(jīng)執(zhí)行了特定次數(shù)的迭代,則組 件返回該固定概率,否則該組件循環(huán)至框503來(lái)遞增到下一迭代。
盡管用對(duì)結(jié)構(gòu)特征和/或方法動(dòng)作專用的語(yǔ)言描述了本主題,但可以理解, 所附權(quán)利要求書中定義的主題不必限于上述具體特征或動(dòng)作。相反,上述具體 特征和動(dòng)作是作為實(shí)現(xiàn)權(quán)利要求的示例形式公開的。本領(lǐng)域的技術(shù)人員可以理 解,文檔可以包括任何包含鏈接或以其它方式標(biāo)識(shí)其它內(nèi)容的信息內(nèi)容。例如, 文檔可以是具有到其它網(wǎng)頁(yè)的鏈接的網(wǎng)頁(yè)、具有對(duì)其它學(xué)術(shù)文章的引用的學(xué)術(shù) 文章、具有對(duì)其它司法意見的引用的司法意見、具有對(duì)其它專利的引用的專利 等等。因此,本發(fā)明只由所附權(quán)利要求來(lái)限制。
1權(quán)利要求
1.一種計(jì)算設(shè)備中的用于確定具有文檔之間的鏈接的文檔的重要性的方法,所述方法包括通過對(duì)源文檔的每一目標(biāo)文檔的信息內(nèi)容進(jìn)行前瞻,基于對(duì)通過該目標(biāo)文檔可用的信息的判定,來(lái)生成(116)在各對(duì)源文檔與目標(biāo)文檔之間轉(zhuǎn)移的轉(zhuǎn)移概率;基于所生成的轉(zhuǎn)移概率的固定概率來(lái)計(jì)算(117)文檔的重要性;以及存儲(chǔ)(115)計(jì)算出的文檔的重要性。
2. 如權(quán)利要求1所述的方法,其特征在于,所述轉(zhuǎn)移概率的生成包括將 在不選擇源文檔的鏈接的情況下從源文檔到另一文檔的轉(zhuǎn)移計(jì)算在內(nèi)。
3. 如權(quán)利要求1所述的方法,其特征在于,所述轉(zhuǎn)移概率的生成包括生 成轉(zhuǎn)移概率矩陣。
4. 如權(quán)利要求1所述的方法,其特征在于,根據(jù)下式來(lái)計(jì)算初始轉(zhuǎn)移矩陣其中P^表示基于前瞻距離A^-1的初始轉(zhuǎn)移矩陣,^表示指示文檔之間 的鏈接的鄰接矩陣,以及D^表示具有設(shè)置為"(^的對(duì)角元素的對(duì)角矩陣, 其中"(")根據(jù)下式來(lái)計(jì)算 = ')其中z)"u,...,i);;。
5. 如權(quán)利要求4所述的方法,其特征在于,包括通過使用每一行的元素 的總和歸一化該行的元素來(lái)將所述初始轉(zhuǎn)移矩陣轉(zhuǎn)化為轉(zhuǎn)移概率矩陣。
6. 如權(quán)利要求1所述的方法,其特征在于,所述轉(zhuǎn)移概率是根據(jù)下式來(lái) 計(jì)算的.-y 一 s:("(,剩G)其中/f)表示基于前瞻距離7V-l從文檔/轉(zhuǎn)移到文檔/的轉(zhuǎn)移概率,而4")表示來(lái)自與文檔,'相距前瞻距離1的文檔j'的鏈接的計(jì)數(shù)。
7. 如權(quán)利要求1所述的方法,其特征在于,迭代地執(zhí)行所述重要性的計(jì) 算,直到所述文檔的固定概率收斂于一解。
8. 如權(quán)利要求1所述的方法,其特征在于,所述轉(zhuǎn)移概率被表示為轉(zhuǎn)移 概率矩陣,且所述重要性的計(jì)算是通過標(biāo)識(shí)轉(zhuǎn)移概率矩陣的主本征向量來(lái)執(zhí)行 的。
9. 如權(quán)利要求1所述的方法,其特征在于,包括基于所述計(jì)算出的重要 性對(duì)文檔進(jìn)行排名。
10. 如權(quán)利要求1所述的方法,其特征在于,所述文檔是針對(duì)搜索請(qǐng)求的搜索結(jié)果的網(wǎng)頁(yè),且所述網(wǎng)頁(yè)基于與搜索結(jié)果的相關(guān)性和計(jì)算出的重要性來(lái)排 名。
11. 如權(quán)利要求l所述的方法,其特征在于,在源文檔和目標(biāo)文檔之間轉(zhuǎn) 移的轉(zhuǎn)移概率是基于與所述源文檔相距一前瞻距離的文檔上的鏈接的數(shù)量的。
12. —種用指令編碼的計(jì)算機(jī)可讀介質(zhì),所述指令用于控制計(jì)算設(shè)備通過一種方法來(lái)對(duì)具有到其它網(wǎng)頁(yè)的超鏈接的網(wǎng)頁(yè)進(jìn)行排名,所述方法包括通過對(duì)源網(wǎng)頁(yè)的每一目標(biāo)網(wǎng)頁(yè)的信息內(nèi)容進(jìn)行前瞻,基于通過該目標(biāo)網(wǎng)頁(yè)可用的信息,來(lái)生成(116)在各對(duì)源網(wǎng)頁(yè)與直接目標(biāo)網(wǎng)頁(yè)之間轉(zhuǎn)移的轉(zhuǎn)移概率;基于所生成的轉(zhuǎn)移概率的固定概率來(lái)計(jì)算(117)網(wǎng)頁(yè)的重要性; 搜索(113)要包括在針對(duì)搜索請(qǐng)求的搜索結(jié)果中的網(wǎng)頁(yè);以及 基于計(jì)算出的重要性來(lái)對(duì)搜索結(jié)果的網(wǎng)頁(yè)進(jìn)行排名(113)。
13. 如權(quán)利要求12所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述轉(zhuǎn)移概率的生成包括將在不選擇超鏈接的情況下從一網(wǎng)頁(yè)到另一網(wǎng)頁(yè)的轉(zhuǎn)移計(jì)算在內(nèi)。
14. 如權(quán)利要求12所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述轉(zhuǎn)移概率 的生成包括生成轉(zhuǎn)移概率矩陣。
15. 如權(quán)利要求12所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,迭代地執(zhí)行所 述重要性的計(jì)算,直到所述網(wǎng)頁(yè)的固定概率收斂于一解。
16. 如權(quán)利要求12所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述轉(zhuǎn)移概率 被表示為轉(zhuǎn)移概率矩陣,且所述重要性的計(jì)算通過標(biāo)識(shí)轉(zhuǎn)移概率矩陣的主本征 向量來(lái)執(zhí)行。
17. 如權(quán)利要求12所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述網(wǎng)頁(yè)基于 與搜索結(jié)果的相關(guān)性來(lái)排名。
18. —種用于計(jì)算具有到其它網(wǎng)頁(yè)的超鏈接的網(wǎng)頁(yè)的重要性的計(jì)算設(shè)備, 所述計(jì)算設(shè)備包括通過對(duì)目標(biāo)網(wǎng)頁(yè)的信息內(nèi)容進(jìn)行前瞻來(lái)生成在各對(duì)網(wǎng)頁(yè)之間轉(zhuǎn)移的轉(zhuǎn)移 概率的組件(116);基于所述轉(zhuǎn)移概率的固定概率來(lái)計(jì)算網(wǎng)頁(yè)的重要性的組件(117); 基于計(jì)算出的重要性對(duì)網(wǎng)頁(yè)進(jìn)行排名的組件(113)。
19. 如權(quán)利要求18所述的計(jì)算設(shè)備,其特征在于,所述生成轉(zhuǎn)移概率的組件將在不選擇超鏈接的情況下從一網(wǎng)頁(yè)到另一網(wǎng)頁(yè)的轉(zhuǎn)移計(jì)算在內(nèi)。
20. 如權(quán)利要求18所述的計(jì)算設(shè)備,其特征在于,從源網(wǎng)頁(yè)轉(zhuǎn)移到直接 目標(biāo)網(wǎng)頁(yè)的轉(zhuǎn)移概率通過對(duì)源網(wǎng)頁(yè)的每一直接目標(biāo)網(wǎng)頁(yè)的信息內(nèi)容進(jìn)行前瞻 而基于通過該目標(biāo)網(wǎng)頁(yè)可用的信息。
全文摘要
提供了用于基于從源文檔到目標(biāo)文檔的轉(zhuǎn)移概率來(lái)計(jì)算文檔的重要性的方法和系統(tǒng),其中轉(zhuǎn)移概率基于對(duì)源文檔的目標(biāo)文檔的信息內(nèi)容進(jìn)行前瞻。前瞻重要性系統(tǒng)基于對(duì)到源文檔的目標(biāo)文檔的鏈接的分析來(lái)生成在任一對(duì)源文檔和目標(biāo)文檔之間轉(zhuǎn)移的轉(zhuǎn)移概率。該系統(tǒng)可以基于相隔一前瞻距離的文檔上的鏈接的數(shù)量來(lái)計(jì)算轉(zhuǎn)移概率。該系統(tǒng)隨后求出轉(zhuǎn)移概率的固定概率。該固定概率表示文檔的重要性。
文檔編號(hào)G06F17/21GK101652773SQ200880010756
公開日2010年2月17日 申請(qǐng)日期2008年3月29日 優(yōu)先權(quán)日2007年3月30日
發(fā)明者T-Y·劉 申請(qǐng)人:微軟公司