專利名稱:使用網(wǎng)絡(luò)上的文檔的偏離點(diǎn)擊距離的排序函數(shù)的制作方法
使用網(wǎng)絡(luò)上的文檔的偏離點(diǎn)擊距離的排序函數(shù)
扭旦 冃足
根據(jù)文檔與給定搜索査詢的相關(guān)性來(lái)對(duì)文檔排序的排序函數(shù)是已知的。在本 領(lǐng)域中繼續(xù)努力開(kāi)發(fā)為給定搜索查詢提供比由搜索引擎使用已知排序函數(shù)生成的 搜索結(jié)果更好的搜索結(jié)果的排序函數(shù)。
概述
在此所描述的特別地是用于確定網(wǎng)絡(luò)上的給定文檔的文檔相關(guān)性得分的各種 技術(shù)。文檔相關(guān)性得分經(jīng)由包括一個(gè)或多個(gè)查詢無(wú)關(guān)組件的排序函數(shù)來(lái)生成,其
中至少一個(gè)查詢無(wú)關(guān)組件包括偏離點(diǎn)擊距離(biased click distance)參數(shù),該參數(shù) 考慮了網(wǎng)絡(luò)上的多個(gè)文檔的偏離點(diǎn)擊距離值。排序函數(shù)可以由搜索引擎用來(lái)基于多 個(gè)文檔的文檔相關(guān)性得分按順序(通常是降序)對(duì)多個(gè)文檔排序。
提供本概述一般以簡(jiǎn)化的形式向讀者介紹在"詳細(xì)描述" 一節(jié)中所描述的一 個(gè)或多個(gè)選擇概念。本概述并非旨在標(biāo)識(shí)所要求保護(hù)的主題的關(guān)鍵和/或必需特征。
附圖簡(jiǎn)述
圖1表示示出響應(yīng)于由用戶輸入的搜索查詢產(chǎn)生已排序的搜索結(jié)果的方法的
示例性步驟的示例性邏輯流程圖2是用于實(shí)現(xiàn)在此公開(kāi)的方法和過(guò)程的示例性操作環(huán)境的一些主要組件的
框圖3描述了標(biāo)識(shí)網(wǎng)絡(luò)空間中的文檔、文檔之間的鏈接、具有分配的偏離點(diǎn)擊 距離值的權(quán)威節(jié)點(diǎn)和具有計(jì)算的偏離點(diǎn)擊距離值的非權(quán)威節(jié)點(diǎn)的的示例性網(wǎng)圖4A-4B表示示出為網(wǎng)圖上的節(jié)點(diǎn)分配并生成偏離點(diǎn)擊距離值的方法中的示 例性步驟的邏輯流程圖5A-5B表示示出為網(wǎng)圖上非權(quán)威節(jié)點(diǎn)生成偏離點(diǎn)擊距離值的方法中的示例 性步驟的邏輯流程圖;以及
圖6表示使用包含偏離點(diǎn)擊距離值參數(shù)的排序函數(shù)來(lái)生成排序搜索結(jié)果的方法中的示例性步驟的邏輯流程圖。 詳細(xì)描述為促進(jìn)對(duì)在此所公開(kāi)的方法和過(guò)程的原理的理解,使用以下的具體實(shí)施例的 描述和特定語(yǔ)言來(lái)描述該具體實(shí)施例。然而應(yīng)該理解,并不旨在通過(guò)使用特定語(yǔ)言 來(lái)限制所公開(kāi)的方法和過(guò)程的范圍。所討論的所公開(kāi)的方法和過(guò)程的原理的改變、 進(jìn)一步的修改以及此類進(jìn)一步的應(yīng)用被認(rèn)為通常是所公開(kāi)的方法和過(guò)程所屬的領(lǐng) 域內(nèi)的技術(shù)人員能想到的。公開(kāi)了為網(wǎng)絡(luò)上的文檔確定文檔相關(guān)性得分的方法。使用包含一個(gè)或多個(gè)查 詢相關(guān)分量(例如,依賴于給定搜索査詢或搜索査詢項(xiàng)的細(xì)節(jié)的函數(shù)分量)的以及 一個(gè)或多個(gè)查詢無(wú)關(guān)組件(例如,不依賴于給定搜索查詢或搜索査詢項(xiàng)的函數(shù)分量) 的排序函數(shù)來(lái)計(jì)算每個(gè)文檔相關(guān)性得分。由排序函數(shù)確定的文檔相關(guān)性得分可以被 用來(lái)根據(jù)每一文檔相關(guān)性得分對(duì)網(wǎng)絡(luò)空間(例如,公司的內(nèi)聯(lián)網(wǎng)空間)中的文檔排 序。其中可使用所公開(kāi)的方法的一個(gè)示例性搜索過(guò)程在圖1中被示為示例性過(guò)程10。圖1描述示例性搜索過(guò)程10,它從處理步驟80開(kāi)始,其中用戶輸入搜索查詢。 從步驟80,示例性搜索過(guò)程10前進(jìn)到步驟200,其中搜索引擎搜索網(wǎng)絡(luò)空間中的 所有文檔以得到該搜索査詢的一個(gè)或多個(gè)項(xiàng)。從步驟200,示例性搜索過(guò)程10前 進(jìn)到步驟300,其中搜索引擎的排序函數(shù)基于每個(gè)文檔的相關(guān)性得分對(duì)網(wǎng)絡(luò)空間中 的文檔進(jìn)行排序,該文檔相關(guān)性得分基于一個(gè)或多個(gè)查詢相關(guān)組件和一個(gè)或多個(gè)查 詢無(wú)關(guān)組件。從步驟300,示例性搜索10過(guò)程前進(jìn)到步驟400,其中已排序的搜索 結(jié)果通常以相關(guān)性的降序被呈現(xiàn)給用戶,從而標(biāo)識(shí)了網(wǎng)絡(luò)空間里與搜索查詢最相關(guān) 的文檔。如在下面更詳細(xì)討論的那樣,在確定文檔相關(guān)性得分的某些示例性方法中, 被用來(lái)確定文檔相關(guān)性得分的排序函數(shù)的至少一個(gè)査詢無(wú)關(guān)組件考慮了網(wǎng)絡(luò)空間 里的每個(gè)文檔的"偏離點(diǎn)擊距離"。在此被稱為網(wǎng)絡(luò)中的"權(quán)威文檔(authoritative document)"或網(wǎng)圖上的"權(quán)威節(jié)點(diǎn)"的特定文檔的偏離點(diǎn)擊距離可以被分配一初 始點(diǎn)擊距離值,以便把這些文檔標(biāo)識(shí)為相對(duì)于彼此有不同的重要程度,并且可能是 相對(duì)于網(wǎng)絡(luò)上的其余文檔更高的重要程度。在此被稱為網(wǎng)絡(luò)中的"非權(quán)威文檔"或 網(wǎng)圖上的"非權(quán)威節(jié)點(diǎn)"的其余文檔具有基于這些文檔相對(duì)于網(wǎng)絡(luò)空間中最接近的 權(quán)威節(jié)點(diǎn)(或網(wǎng)圖上最接近的權(quán)威節(jié)點(diǎn))的位置來(lái)計(jì)算的偏離點(diǎn)擊距離值,得到向權(quán)威節(jié)點(diǎn)偏離的點(diǎn)擊距離值。在一個(gè)示例性實(shí)施例中,偏離點(diǎn)擊距離值可以被分配給包括總共N個(gè)文檔的網(wǎng)絡(luò)上的m個(gè)權(quán)威文檔,其中m大于或等于2且小于N。在這一示例性實(shí)施例中, 系統(tǒng)管理員手動(dòng)選擇或搜索系統(tǒng)中的應(yīng)用程序代碼自動(dòng)標(biāo)識(shí)給定網(wǎng)絡(luò)空間里在該 網(wǎng)絡(luò)空間中具有某一重要程度的m個(gè)權(quán)威文檔。例如,m個(gè)權(quán)威文檔的其中之一 可以是網(wǎng)站的主頁(yè)或直接鏈接到網(wǎng)站的主頁(yè)的另一網(wǎng)頁(yè)。在另一示例性實(shí)施例中,分配給m個(gè)權(quán)威文檔的偏離點(diǎn)擊距離值中的至少兩 個(gè)彼此不同。在這一實(shí)施例中,不同數(shù)值可以被分配給m個(gè)權(quán)威文檔中的兩個(gè)或 多個(gè),以便進(jìn)一步量化一個(gè)權(quán)威文檔對(duì)另一權(quán)威文檔的重要性。例如,給定權(quán)威文 檔重要性可以由低偏離點(diǎn)擊距離值來(lái)指示。在這一例子中,具有等于0的偏離點(diǎn)擊 距離值的權(quán)威文檔將被認(rèn)為是比具有大于0的偏離點(diǎn)擊距離值的權(quán)威文檔更重要。所公開(kāi)的確定文檔相關(guān)性得分的方法還可以利用包括至少一個(gè)查詢無(wú)關(guān)組件 的排序函數(shù),其中該査詢無(wú)關(guān)組件包括考慮了被分配給網(wǎng)絡(luò)上的每條邊的邊值的邊 值參數(shù),其中每條邊把在網(wǎng)絡(luò)的超鏈接結(jié)構(gòu)中的一個(gè)文檔連接到另一文檔(或把網(wǎng) 圖上的一個(gè)節(jié)點(diǎn)連接到另一節(jié)點(diǎn))。把邊值分配給將網(wǎng)絡(luò)上的文檔相互連接的一條 或多條邊提供了影響網(wǎng)絡(luò)上的文檔的文檔相關(guān)性得分的進(jìn)一步方法。例如,在其中 較低的偏離點(diǎn)擊距離值指示給定文檔的重要性的上述例子中,增加如第一文檔和鏈 接到該第一文檔的第二文檔等兩個(gè)文檔之間的邊值會(huì)進(jìn)一步減小第二文檔(即被鏈 接的文檔)相對(duì)于第一文檔的重要性。相反,通過(guò)把較低的邊值分配給第一文檔和 第二文檔之間的邊,第二文檔相對(duì)于第一文檔的重要性變大。在一個(gè)示例性實(shí)施例中,鏈接網(wǎng)絡(luò)空間中的文檔的兩條或多條邊可以被分配 彼此不同的邊值。在這一示例性實(shí)施例中,不同的數(shù)值可以被分配給兩條或多條邊, 以便進(jìn)一步量化網(wǎng)絡(luò)空間中一個(gè)文檔對(duì)另一文檔的重要性。在其他示例性實(shí)施例 中,鏈接網(wǎng)絡(luò)空間中的文檔的所有邊都被分配相同的邊值,其中分配的邊值是1 或某一其他正數(shù)。在又一實(shí)施例中,邊值彼此相等且等于或大于最初被分配給一個(gè) 或多個(gè)權(quán)威文檔的最高偏離點(diǎn)擊距離值。在再一示例性實(shí)施例中,所公開(kāi)的確定文檔相關(guān)性得分的方法利用了包括至 少一個(gè)查詢無(wú)關(guān)組件的排序函數(shù),該查詢無(wú)關(guān)組件包括上述偏離點(diǎn)擊距離參數(shù)和上述邊值參數(shù)兩者。文檔相關(guān)性得分可以被用來(lái)對(duì)網(wǎng)絡(luò)空間中的文檔排序。例如,對(duì)網(wǎng)絡(luò)上的文 檔排序的一種方法可以包括以下步驟使用上述方法為網(wǎng)絡(luò)上的每個(gè)文檔確定文檔相關(guān)性得分;以及基于每個(gè)文檔的文檔相關(guān)性得分以所需順序(通常以降序)來(lái)對(duì) 文檔排序。文檔相關(guān)性得分也可以被用來(lái)對(duì)搜索查詢的搜索結(jié)果排序。例如,對(duì)搜索查 詢的搜索結(jié)果排序的一種方法可以包括以下步驟使用上述方法來(lái)為搜索査詢的搜 索結(jié)果中的每個(gè)文檔確定文檔相關(guān)性得分;以及基于每個(gè)文檔的文檔相關(guān)性得分以 所需順序(通常以降序)對(duì)文檔排序。使用在此所公開(kāi)的方法的應(yīng)用程序可以在包括各種硬件組件的各種計(jì)算機(jī)系 統(tǒng)上加載并執(zhí)行。以下描述用于實(shí)施在此所公開(kāi)的方法的示例性計(jì)算機(jī)系統(tǒng)和示例 性操作環(huán)境。示例性操作環(huán)境圖2示出了可在其上實(shí)現(xiàn)此處所公開(kāi)的方法的合適的計(jì)算系統(tǒng)環(huán)境100的一 個(gè)例子。計(jì)算系統(tǒng)環(huán)境100只是合適的計(jì)算環(huán)境的一個(gè)例子,并非旨在對(duì)在此所公 開(kāi)的方法的使用范圍或功能提出任何限制。計(jì)算環(huán)境100也不應(yīng)該被解釋成具有與 在示例性操作環(huán)境100中所示的組件中的任意一個(gè)或其組合有關(guān)的任何依賴性或要求。在此所公開(kāi)的方法可以與多種其他通用或?qū)S糜?jì)算系統(tǒng)環(huán)境或配置一起操 作。適用于在此所公開(kāi)的方法的公知的計(jì)算系統(tǒng)、環(huán)境和/或配置的例子包括但不 限于,個(gè)人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、手持式或膝上型設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、機(jī)頂盒、可編程消費(fèi)性電子產(chǎn)品、網(wǎng)絡(luò)PC、小型機(jī)、大型計(jì)算機(jī)、包括任何上述系統(tǒng)或設(shè)備的分布式計(jì)算環(huán)境等等。此處所公開(kāi)的方法和過(guò)程可以在諸如程序模塊等由計(jì)算機(jī)執(zhí)行的計(jì)算機(jī)可執(zhí) 行指令的一般上下文中描述。通常,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù) 據(jù)類型的例程、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等等。此處所公開(kāi)的方法和過(guò)程也可 以在分布式計(jì)算環(huán)境中實(shí)施,其中由通過(guò)通信網(wǎng)絡(luò)鏈接的遠(yuǎn)程處理設(shè)備來(lái)執(zhí)行任 務(wù)。在分布式計(jì)算環(huán)境中,程序模塊可以位于包括存儲(chǔ)器存儲(chǔ)設(shè)備在內(nèi)的本地和遠(yuǎn) 程計(jì)算機(jī)存儲(chǔ)介質(zhì)中。參見(jiàn)圖2,用于實(shí)現(xiàn)在此所公開(kāi)的方法和過(guò)程的一個(gè)示例性系統(tǒng)包括計(jì)算機(jī) 110形式的通用計(jì)算設(shè)備。計(jì)算機(jī)110的組件可以包括但不限于,處理單元120、 系統(tǒng)存儲(chǔ)器130和將包括但不限于系統(tǒng)存儲(chǔ)器130在內(nèi)的各種系統(tǒng)組件耦合到處理 單元120的系統(tǒng)總線121。系統(tǒng)總線121可以是幾種類型的總線結(jié)構(gòu)中的任一種,包括存儲(chǔ)器總線或存儲(chǔ)器控制器、外圍總線以及使用多種總線體系結(jié)構(gòu)中的任一種 的局部總線。作為例子而非限制,此類體系結(jié)構(gòu)包括工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(ISA)總線、微通道體系結(jié)構(gòu)(MCA)總線、增強(qiáng)型ISA (EISA)總線、視頻電子技術(shù)標(biāo) 準(zhǔn)協(xié)會(huì)(VESA)局部總線以及外圍部件互連(PCI)總線(也稱為背板(Mezzanine)總線)。計(jì)算機(jī)110通常包括各種計(jì)算機(jī)可讀介質(zhì)。計(jì)算機(jī)可讀介質(zhì)可以是能由計(jì)算 機(jī)IIO訪問(wèn)的任何可用介質(zhì),并包括易失性和非易失性介質(zhì)、可移動(dòng)和不可移動(dòng)介 質(zhì)。作為例子而非限制,計(jì)算機(jī)可讀介質(zhì)可以包括計(jì)算機(jī)存儲(chǔ)介質(zhì)和通信介質(zhì)。計(jì) 算機(jī)存儲(chǔ)介質(zhì)包括用存儲(chǔ)如計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其他數(shù)據(jù)等信 息的任何方法或技術(shù)實(shí)現(xiàn)的易失性和非易失性、可移動(dòng)的和不可移動(dòng)的介質(zhì)。計(jì)算 機(jī)存儲(chǔ)介質(zhì)包括但不限于RAM、ROM、EEPROM、閃存或其他存儲(chǔ)技術(shù)、CD-ROM、 數(shù)字多功能盤(pán)(DVD)或其他光盤(pán)存儲(chǔ)、磁帶盒、磁帶、磁盤(pán)存儲(chǔ)或其他磁存儲(chǔ) 設(shè)備、或者可以被用來(lái)存儲(chǔ)所需信息并能被計(jì)算機(jī)110訪問(wèn)的任何其他介質(zhì)。通信 介質(zhì)通常以如載波或其他傳輸機(jī)制等已調(diào)制數(shù)據(jù)信號(hào)的形式來(lái)體現(xiàn)計(jì)算機(jī)可讀指 令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其他數(shù)據(jù),并包括任何信息傳輸介質(zhì)。術(shù)語(yǔ)"已調(diào)制數(shù) 據(jù)信號(hào)"是指以在該信號(hào)中編碼信息的方式來(lái)設(shè)置或改變其一個(gè)或多個(gè)特性的信 號(hào)。作為例子而非限制,通信介質(zhì)包括諸如有線網(wǎng)絡(luò)或有線直接連接等有線介質(zhì), 以及諸如聲學(xué)、射頻、紅外和其他無(wú)線介質(zhì)等無(wú)線介質(zhì)。以上任何一個(gè)的組合也應(yīng) 當(dāng)被包括在如此處所使用的計(jì)算機(jī)可讀介質(zhì)的范圍之內(nèi)。系統(tǒng)存儲(chǔ)器130包括易失性和/或非易失性存儲(chǔ)器形式的計(jì)算機(jī)存儲(chǔ)介質(zhì),諸 如只讀存儲(chǔ)器(ROM) 131和隨機(jī)存取存儲(chǔ)器(RAM) 132?;据斎?輸出系統(tǒng) 133 (BIOS)通常被存儲(chǔ)在ROM 131中,它包含例如在啟動(dòng)過(guò)程中幫助在計(jì)算機(jī) 110內(nèi)的各個(gè)元件之間傳輸信息的基本例程。RAM 132 —般包含可由處理單元120 立即訪問(wèn)和/或當(dāng)前進(jìn)行操作的數(shù)據(jù)和/或程序模塊。作為例子而非限制,圖2 示出了操作系統(tǒng)134、應(yīng)用程序135、其他程序模塊136以及程序數(shù)據(jù)137。計(jì)算機(jī)110也可以包括其他可移動(dòng)/不可移動(dòng)、易失性/非易失性的計(jì)算機(jī)存儲(chǔ) 介質(zhì)。僅僅作為例子,圖2示出了從不可移動(dòng)、非易失性磁介質(zhì)讀取或向其中寫(xiě)入 的硬盤(pán)驅(qū)動(dòng)器140,從可移動(dòng)、非易失性磁盤(pán)152讀取或向其中寫(xiě)入的磁盤(pán)驅(qū)動(dòng)器 151,以及從可移動(dòng)、非易失性光盤(pán)156 (例如,CD ROM或其他光學(xué)介質(zhì))讀取 或向其中寫(xiě)入的光盤(pán)驅(qū)動(dòng)器155??梢杂糜谑纠圆僮鳝h(huán)境的其他可移動(dòng)/不可移 動(dòng)、易失性/非易失性的計(jì)算機(jī)存儲(chǔ)介質(zhì)包括但不限于盒式磁帶、閃存卡、數(shù)字多功能盤(pán)、數(shù)字錄像帶、固態(tài)RAM、固態(tài)ROM等等。硬盤(pán)驅(qū)動(dòng)器141通常通過(guò)不 可移動(dòng)存儲(chǔ)器接口,如接口 140連接到系統(tǒng)總線121,而磁盤(pán)驅(qū)動(dòng)器151和光盤(pán)驅(qū) 動(dòng)器155通常通過(guò)可移動(dòng)存儲(chǔ)器接口,如接口 150連接到系統(tǒng)總線121。以上所討論并在圖2中所示的這些驅(qū)動(dòng)器及其相關(guān)聯(lián)的計(jì)算機(jī)存儲(chǔ)介質(zhì)為計(jì) 算機(jī)110提供計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其他數(shù)據(jù)的存儲(chǔ)。例如,在 圖2中,硬盤(pán)驅(qū)動(dòng)器141被示為存儲(chǔ)操作系統(tǒng)144、應(yīng)用程序145、其他程序模塊 146和程序數(shù)據(jù)147。注意,這些組件可以等同于或不同于操作系統(tǒng)134、應(yīng)用程 序135、其他程序模塊136和程序數(shù)據(jù)137。對(duì)操作系統(tǒng)144、應(yīng)用程序145、其他 程序模塊146和程序數(shù)據(jù)147給予不同的標(biāo)號(hào)以說(shuō)明至少它們是不同的副本。用戶可以通過(guò)輸入設(shè)備,如鍵盤(pán)162和定位設(shè)備161 (通常指鼠標(biāo)、跟蹤球或 觸摸墊)向計(jì)算機(jī)110輸入命令和信息。其他輸入設(shè)備(未示出)可以包括話筒、 操縱桿、游戲墊、圓盤(pán)式衛(wèi)星天線、掃描儀等等。這些和其他輸入設(shè)備通常通過(guò)耦 合至系統(tǒng)總線121的用戶輸入接口 160連接至處理單元120,但是也可以通過(guò)其他 接口和總線結(jié)構(gòu)連接,如并行端口、游戲端口或通用串行總線(USB)。監(jiān)視器 191或其他類型的顯示設(shè)備也通過(guò)接口,如視頻接口 190連接至系統(tǒng)總線121。除 監(jiān)視器191之外,計(jì)算機(jī)也可以包括其他外圍輸出設(shè)備,如揚(yáng)聲器197和打印機(jī) 196,它們可通過(guò)輸出外圍接口 195連接。計(jì)算機(jī)110可以使用到一個(gè)或多個(gè)遠(yuǎn)程計(jì)算機(jī),如遠(yuǎn)程計(jì)算機(jī)180的邏輯連 接在網(wǎng)絡(luò)化環(huán)境中操作。遠(yuǎn)程計(jì)算機(jī)180可以是個(gè)人計(jì)算機(jī)、服務(wù)器、路由器、網(wǎng) 絡(luò)PC、對(duì)等設(shè)備或者其他常見(jiàn)的網(wǎng)絡(luò)節(jié)點(diǎn),并且一般包括許多或所有上面相對(duì)于 計(jì)算機(jī)110所描述的元件,盡管在圖2中只示出了存儲(chǔ)器存儲(chǔ)設(shè)備181。圖2中所 描繪的這些邏輯連接包括局域網(wǎng)(LAN) 171和廣域網(wǎng)(WAN) 173,但也可以包 括其他網(wǎng)絡(luò)。這類網(wǎng)絡(luò)環(huán)境常見(jiàn)于辦公室、企業(yè)范圍計(jì)算機(jī)網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)和因特網(wǎng)。當(dāng)用于LAN網(wǎng)絡(luò)環(huán)境時(shí),計(jì)算機(jī)110通過(guò)網(wǎng)絡(luò)接口或適配器170連接到LAN 171。當(dāng)用于WAN網(wǎng)絡(luò)環(huán)境時(shí),計(jì)算機(jī)110通常包括調(diào)制解調(diào)器172或用于通過(guò) WAN 173,如因特網(wǎng)建立通信的其他裝置??梢詢?nèi)置或者外置的調(diào)制解調(diào)器172 可通過(guò)用戶輸入接口 160或者其他適當(dāng)?shù)臋C(jī)制被連接到系統(tǒng)總線121。在網(wǎng)絡(luò)化環(huán) 境中,相對(duì)于計(jì)算機(jī)110描述的程序模塊或其部分可以被存儲(chǔ)在遠(yuǎn)程存儲(chǔ)器存儲(chǔ)設(shè) 備中。作為例子而非限制,圖2示出遠(yuǎn)程應(yīng)用程序185駐留在存儲(chǔ)器設(shè)備181上。 應(yīng)該明白,所示的網(wǎng)絡(luò)連接是示例性的,并且可以使用在計(jì)算機(jī)之間建立通信鏈路 的其他方式。此處所公開(kāi)的方法和過(guò)程可以使用包括但不限于搜索排序應(yīng)用程序的一個(gè)或 多個(gè)應(yīng)用程序來(lái)實(shí)現(xiàn),其中該搜索排序應(yīng)用程序可以是被指定為示例性系統(tǒng)100中的應(yīng)用程序135、應(yīng)用程序145和遠(yuǎn)程應(yīng)用程序185的多個(gè)應(yīng)用程序的其中之一。 如上所述,本領(lǐng)域的技術(shù)人員應(yīng)明白,所公開(kāi)的為給定文檔生成文檔相關(guān)性 得分的方法可以在其他計(jì)算機(jī)系統(tǒng)配置中實(shí)現(xiàn),包括手持式設(shè)備、多處理器系統(tǒng)、 基于微處理機(jī)的或可編程的消費(fèi)性電子產(chǎn)品、網(wǎng)絡(luò)化個(gè)人計(jì)算機(jī)、小型機(jī)、大型計(jì) 算機(jī)等等。所公開(kāi)的為給定文檔生成文檔相關(guān)性得分的方法也可以在分布式計(jì)算中 環(huán)境實(shí)踐,其中任務(wù)由通過(guò)通信網(wǎng)絡(luò)而被鏈接的遠(yuǎn)程處理設(shè)備執(zhí)行。在分布式計(jì)算 環(huán)境中,程序模塊可以位于本地和遠(yuǎn)程存儲(chǔ)器存儲(chǔ)設(shè)備中。示例性實(shí)施例的實(shí)現(xiàn)如上所討論的,提供了為網(wǎng)絡(luò)上的文檔的文檔相關(guān)性得分的方法。所公開(kāi)的 方法可利用(i)考慮到網(wǎng)絡(luò)上的每個(gè)文檔的偏離點(diǎn)擊距離值的排序函數(shù),(ii)考 慮到被分配給網(wǎng)絡(luò)上的諸文檔之間的邊(或鏈接)的一個(gè)或多個(gè)邊值的排序函數(shù), 或(iii) (i)和(ii)兩者來(lái)對(duì)網(wǎng)絡(luò)上的文檔排序。所公開(kāi)的為網(wǎng)絡(luò)上的文檔確定文檔相關(guān)性得分的方法可以包括若干步驟。在 一個(gè)示例性實(shí)施例中,該為網(wǎng)絡(luò)上的文檔確定文檔相關(guān)性得分的方法包括以下步 驟存儲(chǔ)網(wǎng)絡(luò)上的文檔和關(guān)于文檔的鏈接信息;從文檔和鏈接信息生成網(wǎng)絡(luò)表示, 其中該網(wǎng)絡(luò)表示包括表示文檔的節(jié)點(diǎn)和表示鏈接的邊;把偏離點(diǎn)擊距離值(CZ)》 分配給網(wǎng)絡(luò)上的至少兩個(gè)節(jié)點(diǎn),其中被分配了偏離點(diǎn)擊距離值的節(jié)點(diǎn)是權(quán)威節(jié)點(diǎn); 為該網(wǎng)絡(luò)表示中的每個(gè)非權(quán)威節(jié)點(diǎn)計(jì)算偏離點(diǎn)擊距離,其中給定非權(quán)威節(jié)點(diǎn)的偏離 點(diǎn)擊距離是從給定非權(quán)威節(jié)點(diǎn)到最接近該給定非權(quán)威節(jié)點(diǎn)的權(quán)威節(jié)點(diǎn)來(lái)測(cè)量的,其 中該計(jì)算步驟得到每個(gè)非權(quán)威文檔的計(jì)算的偏離點(diǎn)擊距離值(CDC);以及使用每 個(gè)文檔的偏離點(diǎn)擊距離值(即CZ)力或CDc)來(lái)確定網(wǎng)絡(luò)上的給定文檔的文檔相關(guān)性得分。存儲(chǔ)網(wǎng)絡(luò)上的諸文檔和關(guān)于文檔的鏈接信息的步驟可以由計(jì)算系統(tǒng)上常見(jiàn)的 索引應(yīng)用程序代碼來(lái)執(zhí)行。該索引應(yīng)用程序代碼從文檔和鏈接信息中生成網(wǎng)絡(luò)表 示,其中該網(wǎng)絡(luò)表示包括表示文檔的節(jié)點(diǎn)和表示鏈接的邊。此類網(wǎng)絡(luò)表示通常被稱為"網(wǎng)圖(web graph)"。生成網(wǎng)圖的一個(gè)示例性方法包括使用由一過(guò)程收集的 數(shù)據(jù),在該過(guò)程中,鏈接和定位點(diǎn)文本信息被收集,且被歸因于該定位點(diǎn)的具體目 標(biāo)文檔。這一過(guò)程和定位點(diǎn)文本的概念在于2004年8月30日提交的題為"SYSTEMAND METHOD FOR INCORPORATING ANCHOR TEXT INTO RANKING SEARCH RESULTS (用于將定位點(diǎn)文本結(jié)合到排序搜索結(jié)果中的系統(tǒng)和方法)" 的美國(guó)專利申請(qǐng)第10/955,462號(hào)中更完全地描述,該申請(qǐng)的主題通過(guò)引用而整體結(jié) 合于此。圖3描述了標(biāo)識(shí)網(wǎng)絡(luò)空間中的諸文檔以及諸文檔之間的鏈接的示例性網(wǎng)圖。 如圖3所示,示例性網(wǎng)圖30包括節(jié)點(diǎn)31和邊32,其中節(jié)點(diǎn)31表示給定網(wǎng)絡(luò)空間 (例如,公司的內(nèi)聯(lián)網(wǎng))中的每個(gè)文檔,邊32表示給定網(wǎng)絡(luò)空間中的諸文檔之間 的鏈接。應(yīng)該理解,示例性網(wǎng)圖30是給定網(wǎng)絡(luò)空間的過(guò)度簡(jiǎn)化的表示。通常,給 定網(wǎng)絡(luò)空間可以包括數(shù)百、數(shù)千或數(shù)百萬(wàn)的文檔和數(shù)百、數(shù)千或數(shù)百萬(wàn)的把文檔相 互連接起來(lái)的鏈接。此外,盡管示例性網(wǎng)圖30描述多達(dá)八個(gè)被連接到給定節(jié)點(diǎn)(例 如,中心節(jié)點(diǎn)33)的鏈接,但是應(yīng)該理解,在實(shí)際的網(wǎng)絡(luò)設(shè)置中,給定節(jié)點(diǎn)可以 具有把節(jié)點(diǎn)(例如,文檔)連接到網(wǎng)絡(luò)中的數(shù)百個(gè)其他文檔的數(shù)百個(gè)鏈接(例如, 網(wǎng)絡(luò)的主頁(yè)可以被鏈接到網(wǎng)絡(luò)中的每個(gè)頁(yè)面)。另外,示例性網(wǎng)圖30示出極少的循環(huán)(例如,第一節(jié)點(diǎn)鏈接到第二節(jié)點(diǎn),第 二節(jié)點(diǎn)可以鏈接到另外的節(jié)點(diǎn),其中第二節(jié)點(diǎn)或另外的節(jié)點(diǎn)的其中之一鏈接回到第 一節(jié)點(diǎn))。 一個(gè)此類循環(huán)由圖3中的節(jié)點(diǎn)41和42表示。如果任何結(jié)束節(jié)點(diǎn)40鏈 接回到圖3中所示出的任一其他節(jié)點(diǎn),如中心節(jié)點(diǎn)33,則表示其他循環(huán)。不管給 定網(wǎng)圖簡(jiǎn)單還是復(fù)雜,所公開(kāi)的為給定文檔生成文檔相關(guān)性得分的方法可以在任何 網(wǎng)圖上使用,包括那些包含循環(huán)的網(wǎng)圖。一旦網(wǎng)圖已經(jīng)被生成,可以使用一種或多種技術(shù)來(lái)影響網(wǎng)絡(luò)空間中的由網(wǎng)圖 的節(jié)點(diǎn)表示的一個(gè)或多個(gè)文檔的相對(duì)重要性。如以上和以下所討論的,這些技術(shù)包 括但不限于,(i)把兩個(gè)或多個(gè)節(jié)點(diǎn)指定為權(quán)威節(jié)點(diǎn);(ii)向每一權(quán)威節(jié)點(diǎn)分配 一偏離點(diǎn)擊距離值(CZ)》,(iii)可任選地,分配相互不同的兩個(gè)或多個(gè)偏離點(diǎn) 擊距離值(CD》;(iv)將邊值分配給網(wǎng)圖的每條邊;(v)可任選地,將最小 邊值分配給網(wǎng)圖的每條邊,其中最小邊值大于最大或最高的分配的偏離點(diǎn)擊距離值(CA4,) ; (Vi)可任選地,分配相互不同的兩個(gè)或多個(gè)邊值;(Vii)為每個(gè)非 權(quán)威節(jié)點(diǎn)計(jì)算偏離點(diǎn)擊距離值(CDc);以及(Viii)可任選地,如果使用偏離點(diǎn)擊距離值的測(cè)試查詢生成不相關(guān)的搜索結(jié)果,則在有必要時(shí),降級(jí)偏離點(diǎn)擊距離值(CZ^或CDc)中的任一個(gè)。以上所描述的用于影響由示例性網(wǎng)圖30表示的網(wǎng)絡(luò) 中的一個(gè)或多個(gè)文檔的偏離點(diǎn)擊距離值的示例性技術(shù)中的某一些在圖3中示出。 在示例性網(wǎng)圖30中,具有正方形的節(jié)點(diǎn)31用來(lái)標(biāo)識(shí)網(wǎng)絡(luò)中的權(quán)威節(jié)點(diǎn),而具有圓形的節(jié)點(diǎn)31用來(lái)標(biāo)識(shí)非權(quán)威節(jié)點(diǎn)。應(yīng)該理解,取決于包括但不限于網(wǎng)絡(luò)空 間中的文檔總數(shù)以及網(wǎng)絡(luò)空間中"重要"文檔的數(shù)目的多個(gè)因素,給定網(wǎng)圖中任意數(shù)量的節(jié)點(diǎn)可以被指定為權(quán)威節(jié)點(diǎn)。在示例性網(wǎng)圖30中,104個(gè)節(jié)點(diǎn)中的9個(gè)被 指定為權(quán)威節(jié)點(diǎn)(即,將104個(gè)文檔中的9個(gè)表示為特別重要)。此外,盡管在示例性網(wǎng)圖30上未示出,但每一節(jié)點(diǎn)對(duì)31之間的邊32具有與 其關(guān)聯(lián)的邊權(quán)重。通常,每條邊32具有為1的默認(rèn)邊權(quán)重;然而,如以上所討論 的,除1之外的邊權(quán)重可以被分配給每條邊32。此外,在某些實(shí)施例中,兩個(gè)或 多個(gè)不同的邊權(quán)重可以被分配給同一網(wǎng)圖中的各邊。在圖3中,在示例性網(wǎng)圖30 上示出的字母p、《、r、 s和Z被用來(lái)指示邊32中的某一些的邊值。如以上所討論 的,邊值p、《、r、 s和Z可以具有為1的值、除1之外的值和/或相互不同的值, 以便于進(jìn)一步影響示例性網(wǎng)圖30中的節(jié)點(diǎn)31的偏離點(diǎn)擊距離值。通常,p、《、r、 s和f以及示例性網(wǎng)圖30中的其他邊的邊值為相同的數(shù)字,并通常等于或大于1。 在某些實(shí)施例中,p、《、r、 s和?以及示例性網(wǎng)圖30中的其他邊的邊值是相同的 數(shù)字,并且等于或大于被分配給權(quán)威節(jié)點(diǎn)的最高偏離點(diǎn)擊距離值。用來(lái)修改網(wǎng)圖以便影響網(wǎng)絡(luò)上的文檔的偏離點(diǎn)擊距離的一種或多種技術(shù)可以 由系統(tǒng)管理員手動(dòng)啟動(dòng)并執(zhí)行。系統(tǒng)管理員可以查看給定網(wǎng)圖并根據(jù)需要編譯該網(wǎng) 圖,以如上所述增加或減小網(wǎng)絡(luò)空間中的一個(gè)或多個(gè)文檔的相對(duì)重要性。如能夠進(jìn) 行搜索査詢的計(jì)算系統(tǒng)中的應(yīng)用程序代碼等應(yīng)用程序代碼可以使用上述技術(shù)中的 一種或多種來(lái)自動(dòng)產(chǎn)生網(wǎng)圖中的偏離(例如,為每個(gè)非權(quán)威節(jié)點(diǎn)計(jì)算偏離點(diǎn)擊距離 值(CA:))。圖4A-4B表示一邏輯流程圖,該邏輯流程圖示出為網(wǎng)圖上的節(jié)點(diǎn)分配并生成 偏離點(diǎn)擊距離值的示例性方法中的示例性步驟,隨后是由系統(tǒng)管理員進(jìn)行的可任選 降級(jí)過(guò)程。如圖4A所示,示例性方法401在框402處開(kāi)始并前進(jìn)到步驟403。在 步驟403中,從網(wǎng)絡(luò)空間中總共W個(gè)節(jié)點(diǎn)(或URL)中選擇若干權(quán)威節(jié)點(diǎn)(或URL)。 在示例性方法401中,選擇w個(gè)權(quán)威節(jié)點(diǎn)(或URL),其中m大于或等于2。 一 旦選擇了權(quán)威節(jié)點(diǎn)(或URL),示例性方法401前進(jìn)到判定框404。在判定框404處,由系統(tǒng)管理員做出是否把至少兩個(gè)不同的偏離點(diǎn)擊距離值 (CD》分配給m個(gè)權(quán)威節(jié)點(diǎn)(或URL)中的兩個(gè)或多個(gè)的判斷。如果做出把至 少兩個(gè)不同的偏離點(diǎn)擊距離值(CD》分配給w個(gè)權(quán)威節(jié)點(diǎn)(或URL)中的兩個(gè) 或多個(gè)的判定,則示例性方法401前進(jìn)到步驟405,將至少兩個(gè)不同的偏離點(diǎn)擊距 離值(CD》分配給m個(gè)權(quán)威節(jié)點(diǎn)(或URL)中的兩個(gè)或多個(gè)。例如,參見(jiàn)在圖3中所示的示例性網(wǎng)圖30,可以向權(quán)威節(jié)點(diǎn)33和34分配為0的偏離點(diǎn)擊距離值, 可以向權(quán)威節(jié)點(diǎn)35和36分配為+3的偏離點(diǎn)擊距離值,可以向權(quán)威節(jié)點(diǎn)48分配為 十2的偏離點(diǎn)擊距離值。從步驟405,示例性方法401前進(jìn)到判定框407。返回到判定框404,如果做出不把至少兩個(gè)不同的偏離點(diǎn)擊距離值(CD》分 配給w個(gè)權(quán)威節(jié)點(diǎn)(或URL)中的兩個(gè)或多個(gè)的判定,則示例性方法401前進(jìn)到 步驟406,將相同的偏離點(diǎn)擊距離值(CZX4)分配給m個(gè)權(quán)威節(jié)點(diǎn)(或URL)中 的每一個(gè)。例如,再次參見(jiàn)圖3的示例性網(wǎng)圖30,可以向每個(gè)權(quán)威節(jié)點(diǎn)分配一偏 離點(diǎn)擊距離值,如0、 +2或+5。從步驟406,示例性方法401前進(jìn)到判定框407。在判定框407處,由系統(tǒng)管理員或應(yīng)用程序代碼做出是否把除1之外的邊權(quán) 重分配給網(wǎng)圖的一條或多條邊的判斷。如果做出把除1之外的邊權(quán)重分配給網(wǎng)圖的 一條或多條邊的判定,則示例性方法401前進(jìn)到判定框408。在判定框408處,由 系統(tǒng)管理員做出是否把最小邊值分配給網(wǎng)圖的邊的判斷,其中最小邊值大于最大的 分配的邊偏離點(diǎn)擊距離值(CZ^,)。如果做出把最小邊值分配給網(wǎng)圖的邊的判定, 其中最小邊值大于最大的分配的邊偏離點(diǎn)擊距離值(CDiw),則示例性方法401 前進(jìn)到步驟409,將大于最大的分配的邊偏離點(diǎn)擊距離值(CA^?!返淖钚∵呏捣?配給網(wǎng)圖的每條邊。例如,參見(jiàn)在圖3中所示的示例性網(wǎng)圖30,如果向權(quán)威節(jié)點(diǎn) 33分配最大點(diǎn)擊距離值(CA^w)且CA^^等于+3,則將大于+3的最小邊值分配 給圖3中示出的每條邊32。在某些實(shí)施例中,將大于最大的分配的值偏離點(diǎn)擊距離值(CZ)^?!返淖钚?邊值應(yīng)用于網(wǎng)圖中的每條邊可能有一些好處。在這一實(shí)施例中,這樣的技術(shù)保證每 個(gè)權(quán)威節(jié)點(diǎn)(或文檔或URL)的分配的偏離點(diǎn)擊距離值(CA^)小于網(wǎng)圖中每個(gè)非 權(quán)威節(jié)點(diǎn)(或文檔或URL)的計(jì)算的偏離點(diǎn)擊距離值(CDc)。當(dāng)文檔的重要性 是基于較低的偏離點(diǎn)擊距離值時(shí),這樣的技術(shù)使得所有權(quán)威節(jié)點(diǎn)(或文檔或URL) 能夠被認(rèn)為是比網(wǎng)圖中的非權(quán)威節(jié)點(diǎn)(或文檔或URL)更重要。從步驟409,示例性方法401前進(jìn)到在圖4B中示出并在下面描述的判定框 410。返回到判定框408,如果做出不把最小邊值分配給每條邊的判定,其中最小 邊值大于最大的分配的邊偏離點(diǎn)擊距離值(CA^。》,則示例性方法401直接前進(jìn) 到圖4B中所示并在下面描述的判定框410。在這一實(shí)施例中,對(duì)非權(quán)威節(jié)點(diǎn)來(lái)說(shuō) 可能有小于權(quán)威節(jié)點(diǎn)的偏離點(diǎn)擊距離值(即,被認(rèn)為比權(quán)威節(jié)點(diǎn)更重要,其中文檔 的重要性是基于較低的偏離點(diǎn)擊距離值)。例如,參見(jiàn)圖3的示例性網(wǎng)圖30,如 果向權(quán)威節(jié)點(diǎn)34分配為+3的偏離點(diǎn)擊距離值,向權(quán)威節(jié)點(diǎn)48分配為0的偏離點(diǎn)擊距離值,并且邊值S為+ 1 ,則非權(quán)威節(jié)點(diǎn)39有為+ 1的計(jì)算的偏離點(diǎn)擊距離值(即,最接近的權(quán)威節(jié)點(diǎn)48的分配的偏離點(diǎn)擊距離值、0、和邊值s即+l之和)。在圖4B中所示出的判定框410處,由系統(tǒng)管理員做出是否把至少兩個(gè)不同的 邊值分配給網(wǎng)圖的兩條或多條邊的判斷。如果做出把至少兩個(gè)不同的邊值分配給網(wǎng) 圖的兩條或多條邊的判定,則示例性方法401前進(jìn)到步驟411,其中把至少兩個(gè)不 同邊值分配給網(wǎng)圖的兩條或多條邊。例如,參見(jiàn)在圖3中所示的示例性網(wǎng)圖30, 邊值p、《、r、 s和f中的任何兩個(gè)可以被分配至少兩個(gè)不同的數(shù)字。從步驟411, 示例性方法401前進(jìn)到在下面描述的步驟414。返回到判定框410,如果做出不把至少兩個(gè)不同的邊值分配給網(wǎng)圖的兩條或多 條邊的判定,則示例性方法401前進(jìn)到步驟412,把相同的邊值分配給網(wǎng)圖的每條 邊,且該邊值是除l之外的值。例如,參見(jiàn)在圖3中所示的示例性網(wǎng)圖30,向邊 值p、《、r、 s和?中的每一個(gè)分配相同的數(shù)字和除l之外的數(shù)字。從步驟412,示 例性方法401前進(jìn)到在下面描述的步驟414。返回到在圖4A中所示的判定框407,如果做出不把一邊權(quán)重分配給網(wǎng)圖的一 條或多條邊的判定,則示例性方法401前進(jìn)到步驟413,對(duì)網(wǎng)圖的每條邊使用默認(rèn) 邊值(例如,+1),以使得網(wǎng)圖的邊對(duì)計(jì)算的偏離點(diǎn)擊距離值具有最小的影響。 在這一實(shí)施例中,諸如權(quán)威節(jié)點(diǎn)的個(gè)數(shù)和位置等因素對(duì)計(jì)算的偏離點(diǎn)擊距離值具有 比默認(rèn)邊值更大的影響。從步驟413,示例性方法401前進(jìn)到在圖4B中所示出的 步驟4M。在步驟414,計(jì)算非權(quán)威節(jié)點(diǎn)(或文檔或URL)的偏離點(diǎn)擊距離值(CDc)。 如在下面更詳細(xì)地描述的,直接鏈接到權(quán)威節(jié)點(diǎn)的給定目標(biāo)節(jié)點(diǎn)(即非權(quán)威節(jié)點(diǎn)) 的偏離點(diǎn)擊距離值(CZ)Cto^,)可以使用以下公式來(lái)計(jì)算CIWg" = min(CD^顯(+五(igCg的,其中CD^。^表示最接近目標(biāo)節(jié)點(diǎn)的權(quán)威節(jié)點(diǎn)的分配的偏離點(diǎn)擊距離值;而^/ge,/g似(在此也被稱為五c/ge^/we)表示被分配給將最接近的權(quán)威節(jié)點(diǎn)鏈接到 目標(biāo)節(jié)點(diǎn)的邊的邊權(quán)重。min(x)函數(shù)被用來(lái)指示例如如果給定節(jié)點(diǎn)直接鏈接到兩個(gè) 權(quán)威節(jié)點(diǎn),則對(duì)該給定節(jié)點(diǎn)使用最小的計(jì)算的偏離點(diǎn)擊距離值。除直接鏈接到權(quán)威 節(jié)點(diǎn)的節(jié)點(diǎn)之外的給定目標(biāo)節(jié)點(diǎn)(即非權(quán)威節(jié)點(diǎn))的偏離點(diǎn)擊距離值(CZ)。。^,) 可以使用以下公式來(lái)計(jì)算CDcwge,= min(CDc幽+五咖脂g的, 其中CDo^表示具有最低的計(jì)算的偏離點(diǎn)擊距離值的相鄰節(jié)點(diǎn)的計(jì)算的偏離點(diǎn)擊距離值;而五倉(cāng)e,/gfe表示被分配給將具有最低的計(jì)算的偏離點(diǎn)擊距離值的 相鄰節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)邊鏈接起來(lái)的邊的邊值或邊權(quán)重。從步驟414,示例性方法401 前進(jìn)到步驟415。在步驟415,由系統(tǒng)管理員測(cè)試所得到的偏離點(diǎn)擊距離值,即分配的偏離點(diǎn)擊 距離值(CZ)》和計(jì)算(CDc)的偏離點(diǎn)擊距離值。通常,系統(tǒng)管理員使用所得到 的偏離點(diǎn)擊距離值(分配的(CDA)和計(jì)算的(CDC))通過(guò)執(zhí)行一個(gè)或多個(gè)搜 索査詢來(lái)測(cè)試系統(tǒng)。如果系統(tǒng)管理員注意到明顯不相關(guān)的內(nèi)容返回,則系統(tǒng)管理員 可以使用上述偏離工具/技術(shù)來(lái)降級(jí)生成不相關(guān)內(nèi)容的一個(gè)或多個(gè)站點(diǎn),例如檔案 文檔夾或網(wǎng)站。上述測(cè)試允許系統(tǒng)管理員評(píng)估偏離點(diǎn)擊距離值以發(fā)現(xiàn)(i)網(wǎng)絡(luò)空 間中的給定文檔的實(shí)際重要性和(ii)如由文檔的偏離點(diǎn)擊距離值所指示的其重要 性之間的可能的不一致性。從步驟415,示例性方法401前進(jìn)到判定框416。在判定框416處,由系統(tǒng)管理員做出是否降級(jí)任何偏離點(diǎn)擊距離值以便更接 近地表示網(wǎng)絡(luò)空間中的給定文檔的重要性的判斷。如果做出降級(jí)一個(gè)或多個(gè)偏離點(diǎn) 擊距離值以便更接近地表示網(wǎng)絡(luò)空間中的給定文檔的重要性的判定,則示例性方法 401前進(jìn)到步驟417,正向或負(fù)向地調(diào)整一個(gè)或多個(gè)文檔(或URL)的偏離點(diǎn)擊距 離值。從步驟417,示例性方法401前進(jìn)到步驟418。返回到判定框416,如果做出不降級(jí)一個(gè)或多個(gè)偏離點(diǎn)擊距離值以便更接近地 表示網(wǎng)絡(luò)空間中的給定文檔的重要性的判定,則示例性方法401直接前進(jìn)到步驟 418。在步驟418中,在排序函數(shù)中利用被分配給權(quán)威節(jié)點(diǎn)并為非權(quán)威節(jié)點(diǎn)計(jì)算的 偏離點(diǎn)擊距離值來(lái)為網(wǎng)絡(luò)空間中的每個(gè)文檔確定總體文檔相關(guān)性得分。從步驟 418,示例性方法401前進(jìn)到結(jié)束框419。如上面所討論的,網(wǎng)圖上的非權(quán)威節(jié)點(diǎn)(或URL)的偏離點(diǎn)擊距離值(CZ)C) 是基于也被稱為"目標(biāo)節(jié)點(diǎn)"的給定非權(quán)威節(jié)點(diǎn)(或URL)與最接近的權(quán)威節(jié)點(diǎn) (或URL)之間的最短距離來(lái)計(jì)算的。在圖5A-5B中描述了用于為網(wǎng)絡(luò)空間中的 非權(quán)威URL計(jì)算偏離點(diǎn)擊距離值(C£ c)的一個(gè)示例性過(guò)程。圖5A-5B示出用于為網(wǎng)絡(luò)空間中的非權(quán)威URL計(jì)算偏離點(diǎn)擊距離值(CDc) 的示例性過(guò)程40的邏輯流程圖。示例性過(guò)程40從框4140開(kāi)始并前進(jìn)到步驟4141 , 將包括(i)帶有其分配的偏離點(diǎn)擊距離值(CD》的權(quán)威節(jié)點(diǎn)、(ii)非權(quán)威節(jié)點(diǎn)、 (iii)節(jié)點(diǎn)之間的鏈接、以及(iv)每一鏈接的邊值的網(wǎng)圖從數(shù)據(jù)庫(kù)載入到存儲(chǔ)器 中。(例如,見(jiàn)圖3的示例性網(wǎng)圖30)。該網(wǎng)圖可能先前已經(jīng)使用如上所述的索 引過(guò)程來(lái)生成。從步驟4141,示例性過(guò)程40前進(jìn)到步驟4142。在步驟4142中,非權(quán)威節(jié)點(diǎn)的偏離點(diǎn)擊距離值(CD—被初始化成最大偏離點(diǎn)擊距離值,如無(wú)窮大。將最大偏離點(diǎn)擊距離值,如無(wú)窮大分配給非權(quán)威節(jié)點(diǎn)標(biāo)識(shí)了需要計(jì)算其偏離點(diǎn)擊距離值(CDC)的節(jié)點(diǎn)。 一旦完成最大偏離點(diǎn)擊距離值的初 始化,示例性過(guò)程40前進(jìn)到步驟4143。在步驟4143中,將w個(gè)權(quán)威節(jié)點(diǎn)插入到一隊(duì)列中。插入到隊(duì)列中的m個(gè)權(quán) 威節(jié)點(diǎn)對(duì)應(yīng)于網(wǎng)絡(luò)空間中由系統(tǒng)管理員或某一其他系統(tǒng)決定者預(yù)先確定的m個(gè)最 權(quán)威節(jié)點(diǎn)。一旦m個(gè)權(quán)威節(jié)點(diǎn)被添加到隊(duì)列中,示例性過(guò)程40前進(jìn)到判定框4144。在判定框4144處,由應(yīng)用程序代碼做出隊(duì)列是否為空的判斷??贞?duì)列表示網(wǎng) 圖的所有節(jié)點(diǎn)已經(jīng)(i)獲得分配的偏離點(diǎn)擊距離值(CD》或(ii)計(jì)算了其偏離 點(diǎn)擊距離值(CZ)c)。如果隊(duì)列為空,則示例性過(guò)程40前進(jìn)到結(jié)束框4145,在那 里示例性過(guò)程40結(jié)束。然而,如果隊(duì)列不為空,則示例性過(guò)程40繼續(xù)到步驟4146。在步驟4146中,從隊(duì)列中移除具有最小偏離點(diǎn)擊距離值(即CZ^或CZ)c)的 節(jié)點(diǎn)。這一節(jié)點(diǎn)在此被稱為"當(dāng)前節(jié)點(diǎn)"。在通過(guò)示例性過(guò)程40的第一次迭代期 間,具有最小的分配的偏離點(diǎn)擊距離值(即CA^,")的權(quán)威節(jié)點(diǎn)是當(dāng)前節(jié)點(diǎn)。在通 過(guò)示例性過(guò)程40的后續(xù)的迭代期間,具有最小偏離點(diǎn)擊距離值的節(jié)點(diǎn)可以是權(quán)威 節(jié)點(diǎn)或非權(quán)威節(jié)點(diǎn)。在通過(guò)示例性過(guò)程40的最后一次迭代期間,具有最小的分配 的偏離點(diǎn)擊距離值的節(jié)點(diǎn)將通常是非權(quán)威節(jié)點(diǎn)。一旦從隊(duì)列中移除了具有最小偏離 點(diǎn)擊距離值(即CZ^或CZ)c)的節(jié)點(diǎn),示例性過(guò)程40前進(jìn)到判定框4147。在判定框4147,由應(yīng)用程序代碼做出當(dāng)前節(jié)點(diǎn)是否有任何目標(biāo)節(jié)點(diǎn)的判斷。 在此所使用的術(shù)語(yǔ)"目標(biāo)節(jié)點(diǎn)"或"諸目標(biāo)節(jié)點(diǎn)"是指鏈接到當(dāng)前節(jié)點(diǎn)的一個(gè)或多 個(gè)節(jié)點(diǎn)。如果當(dāng)前節(jié)點(diǎn)沒(méi)有任何目標(biāo)節(jié)點(diǎn),則示例性過(guò)程40返回到判定框4144, 以再次判定隊(duì)列是否為空,然后如上面所討論的那樣前進(jìn)。然而,如果當(dāng)前節(jié)點(diǎn)具 有一個(gè)或多個(gè)目標(biāo)節(jié)點(diǎn),則示例性過(guò)程40前進(jìn)到步驟4148。在步驟4148中,從網(wǎng)圖檢索與當(dāng)前節(jié)點(diǎn)關(guān)聯(lián)的目標(biāo)節(jié)點(diǎn)并對(duì)其進(jìn)行評(píng)估。例 如,參見(jiàn)圖3的示例性網(wǎng)圖30,如果權(quán)威節(jié)點(diǎn)48是當(dāng)前節(jié)點(diǎn)(即具有最小偏離點(diǎn) 擊距離值的節(jié)點(diǎn)),則非權(quán)威節(jié)點(diǎn)39中的任一個(gè)可以是目標(biāo)節(jié)點(diǎn)(即,鏈接到權(quán) 威節(jié)點(diǎn)48并且初始偏離點(diǎn)擊距離值被設(shè)為無(wú)窮大的節(jié)點(diǎn))。 一旦選擇了當(dāng)前節(jié)點(diǎn) 和目標(biāo)節(jié)點(diǎn),示例性過(guò)程40前進(jìn)到判定框4149。在判定框4149處,由應(yīng)用程序代碼做出與目標(biāo)節(jié)點(diǎn)偏離點(diǎn)擊距離值相關(guān)聯(lián)的 點(diǎn)擊距離是否大于當(dāng)前節(jié)點(diǎn)的偏離點(diǎn)擊距離值加上將當(dāng)前節(jié)點(diǎn)連接到目標(biāo)節(jié)點(diǎn)的 邊的邊權(quán)重值的判斷。如果做出目標(biāo)節(jié)點(diǎn)偏離點(diǎn)擊距離值大于當(dāng)前節(jié)點(diǎn)的偏離點(diǎn)擊距離值加上將當(dāng)前節(jié)點(diǎn)連接到目標(biāo)節(jié)點(diǎn)的邊的邊權(quán)重值的判斷,則示例性過(guò)程40前進(jìn)到步驟4150 (在圖5B中示出),將目標(biāo)節(jié)點(diǎn)偏離點(diǎn)擊距離值更新為等于當(dāng)前節(jié)點(diǎn)的偏離點(diǎn)擊距離值加上將當(dāng)前節(jié)點(diǎn)連接到目標(biāo)節(jié)點(diǎn)的邊的邊權(quán)重值。在通過(guò)示例性過(guò)程40的第一次迭代期間,所有目標(biāo)節(jié)點(diǎn)將初始目標(biāo)節(jié)點(diǎn)偏離 點(diǎn)擊距離值設(shè)成無(wú)窮大。結(jié)果,示例性過(guò)程40將前進(jìn)到步驟4150,如上所述地更 新目標(biāo)節(jié)點(diǎn)的偏離點(diǎn)擊距離值。然而,在通過(guò)示例性過(guò)程40的后續(xù)迭代中,所選 擇的目標(biāo)節(jié)點(diǎn)例如可以將初始目標(biāo)節(jié)點(diǎn)偏離點(diǎn)擊距離值設(shè)成無(wú)窮大(示例性過(guò)程 40將前進(jìn)到步驟4150),或者可以具有先前由系統(tǒng)管理員配置的偏離點(diǎn)擊距離值 (例如,目標(biāo)節(jié)點(diǎn)是權(quán)威節(jié)點(diǎn))。從步驟4150,示例性過(guò)程40前進(jìn)到步驟4151。在步驟4151,將當(dāng)前節(jié)點(diǎn)和具有已更新的目標(biāo)節(jié)點(diǎn)偏離點(diǎn)擊距離值的目標(biāo)節(jié) 點(diǎn)兩者添加到隊(duì)列中。從步驟4150,示例性過(guò)程40返回到判定框4146 (在圖5A 中示出)并如上所述地繼續(xù)。返回到判定框4149 (在圖5A中示出),如果做出目標(biāo)節(jié)點(diǎn)偏離點(diǎn)擊距離值 不大于當(dāng)前節(jié)點(diǎn)的偏離點(diǎn)擊距離值加上將當(dāng)前節(jié)點(diǎn)連接到目標(biāo)節(jié)點(diǎn)的邊的邊權(quán)重 值的判斷,則(0目標(biāo)節(jié)點(diǎn)保持其計(jì)算的目標(biāo)節(jié)點(diǎn)偏離點(diǎn)擊距離值,(ii)目標(biāo)節(jié) 點(diǎn)仍保留在隊(duì)列之外,以及(m)示例性過(guò)程40返回到判定框4147 (在圖5A中 示出),做出當(dāng)前節(jié)點(diǎn)具有任何其他目標(biāo)節(jié)點(diǎn)的判斷。如果做出當(dāng)前節(jié)點(diǎn)沒(méi)有另一 目標(biāo)節(jié)點(diǎn)的判斷,則示例性過(guò)程40返回到判定框4144并如上所述地繼續(xù)。如果做 出當(dāng)前節(jié)點(diǎn)具有另一 目標(biāo)節(jié)點(diǎn)的判斷,則示例性過(guò)程40返回到步驟4148并如上所 述地繼續(xù)。當(dāng)示例性過(guò)程40返回到步驟4148時(shí),如上所述地選擇并評(píng)估與當(dāng)前節(jié)點(diǎn)相 關(guān)聯(lián)的另一目標(biāo)節(jié)點(diǎn)。如果所選擇的目標(biāo)節(jié)點(diǎn)在以前沒(méi)有被選擇過(guò),則該目標(biāo)節(jié)點(diǎn) 將偏離點(diǎn)擊距離值設(shè)成無(wú)窮大,且示例性過(guò)程40將如上所述地前進(jìn)到步驟4150。上述將偏離點(diǎn)擊距離值提供給網(wǎng)圖上的所有節(jié)點(diǎn)的示例性方法防止在該偏離 點(diǎn)擊距離值低于當(dāng)前節(jié)點(diǎn)的偏離點(diǎn)擊距離值加上將目標(biāo)節(jié)點(diǎn)鏈接到當(dāng)前節(jié)點(diǎn)的邊 的邊值的情況下給定目標(biāo)節(jié)點(diǎn)的偏離點(diǎn)擊距離值被改變。一旦確定并在需要時(shí)可任選地降級(jí)(或可任選地升級(jí))了給定網(wǎng)圖的所有節(jié) 點(diǎn),則可將每個(gè)文檔的偏離點(diǎn)擊距離值用作排序函數(shù)中的參數(shù),以提供每個(gè)文檔的 文檔相關(guān)性得分。這一文檔相關(guān)性得分可以被用來(lái)對(duì)搜索査詢的搜索結(jié)果排序。使 用包含偏離點(diǎn)擊距離值參數(shù)的排序函數(shù)來(lái)對(duì)搜索結(jié)果排序的示例性方法在圖6中 示出。法20中的示例性步驟的邏輯流程圖,其中示例性方 法20包括使用包含偏離點(diǎn)擊距離值參數(shù)的排序函數(shù)來(lái)對(duì)搜索結(jié)果排序的方法。如圖6所示,示例性方法20在框201處開(kāi)始并前進(jìn)到步驟202。在步驟202中,用 戶通過(guò)輸入搜索查詢來(lái)請(qǐng)求搜索。在步驟202之前,先前已經(jīng)計(jì)算了網(wǎng)絡(luò)上的每個(gè) 文檔的偏離點(diǎn)擊距離值。從步驟202,示例性方法20前進(jìn)到步驟203。在步驟203中,將網(wǎng)絡(luò)上的每個(gè)文檔的偏離點(diǎn)擊距離值與儲(chǔ)存在索引中的每 一文檔的任何其他文檔統(tǒng)計(jì)量(例如,查詢無(wú)關(guān)統(tǒng)計(jì)量)合并。將偏離點(diǎn)擊距離值 與其他文檔統(tǒng)計(jì)量合并允許更快的查詢響應(yīng)時(shí)間,因?yàn)樯婕芭判虻乃行畔⒍急痪?集在一起。因此,在索引中列出的每個(gè)文檔具有合并之后的相關(guān)聯(lián)的偏離點(diǎn)擊距離 值。 一旦完成合并,示例性方法20前進(jìn)到步驟204。在步驟204中,提供包括偏離點(diǎn)擊距離值的給定文檔的查詢無(wú)關(guān)文檔統(tǒng)計(jì)量 作為排序函數(shù)的分量。還為給定文檔提供查詢相關(guān)數(shù)據(jù),通常作為排序函數(shù)的一單 獨(dú)分量。排序函數(shù)的查詢相關(guān)數(shù)據(jù)或內(nèi)容相關(guān)部分依賴于實(shí)際搜索項(xiàng)和給定文檔的 內(nèi)容。在一個(gè)實(shí)施例中,排序函數(shù)包括至少一個(gè)査詢相關(guān)(QD)分量和至少一個(gè)查 詢無(wú)關(guān)(QID)分量之和,例如/享分=QD(文教,產(chǎn)^) +QD分量可以是任何文檔評(píng)分函數(shù)。在一個(gè)實(shí)施例中,QD分量對(duì)應(yīng)于在2004 年3月18日提交的題為"FIELD WEIGHTING IN TEXT DOCUMENT SEARCHING (文本文檔搜索中的字段加權(quán))"的美國(guó)專利申請(qǐng)第10/804,326號(hào)中描述的字段加 權(quán)評(píng)分函數(shù),該申請(qǐng)的主題通過(guò)引用而整體結(jié)合于此。如美國(guó)專利申請(qǐng)第10/804, 326號(hào)中所提供的,可以用作字段加權(quán)平分函數(shù)的表示的一個(gè)方程如下其中wf/表示加權(quán)項(xiàng)頻率或搜索査詢中的給定項(xiàng)的項(xiàng)頻率之和乘以所有字段(例 如,文檔的標(biāo)題、正文等等)上的權(quán)重,并根據(jù)每個(gè)字段的長(zhǎng)度和相應(yīng)的平均長(zhǎng)度 來(lái)歸一化,W表示網(wǎng)絡(luò)上的文檔數(shù)目,"表示包含查詢項(xiàng)的文檔數(shù)目,以及^是可調(diào)整常數(shù)。在美國(guó)專利申請(qǐng)第10/804, 326號(hào)中進(jìn)一步描述了上述項(xiàng)和方程,該申請(qǐng)的主題通過(guò)引用而整體結(jié)合于此。QID分量可以是給定文檔的偏離點(diǎn)擊距離值和其他文檔統(tǒng)計(jì)量(如URL深度) 的任何變換。在一個(gè)實(shí)施例中,QID分量包括如下函數(shù)= -^-其中MW表示查詢無(wú)關(guān)分量,如包含偏離點(diǎn)擊距離參數(shù)的分量的權(quán)重, ZW表示偏離點(diǎn)擊距離相對(duì)于URL深度的的權(quán)重, Zw表示URL深度的權(quán)重,CZ)表示文檔的計(jì)算的點(diǎn)擊距離或分配的偏離點(diǎn)擊距離, 々,表示通過(guò)優(yōu)化排序函數(shù)的精度來(lái)確定的調(diào)整常數(shù),類似于其他調(diào)整參數(shù) (即,^w可以表示當(dāng)所有邊具有相同的邊權(quán)重值時(shí)的邊權(quán)重值,或者^(guò)U可以表示 當(dāng)邊權(quán)重值相互不同時(shí)的平均邊值), t/D表示URL深度,以及 ^/是偏離點(diǎn)擊距離飽和常數(shù)。加權(quán)項(xiàng)(Wd、 Zw和&》協(xié)助定義其每一相關(guān)項(xiàng)(即,分別包含偏離點(diǎn)擊距 離參數(shù)、給定文檔的偏離點(diǎn)擊距離值以及給定文檔的URL深度的分量)的重要性, 并最終定義評(píng)分函數(shù)的結(jié)果。URL深度(UD)是對(duì)上述查詢無(wú)關(guān)組件的可選附加,以平滑偏離點(diǎn)擊距離值 對(duì)評(píng)分函數(shù)的影響。例如,在某些情況中,不是非常重要(即具有大URL深度) 的文檔可能具有短的偏離點(diǎn)擊距離值。URL深度由文檔的URL的斜杠數(shù)目表示。 例如,www.example.com\dl\d2\d3\d4.htm包括四個(gè)斜杠,因此具有為4的URL深 度。然而,該文檔可能具有直接來(lái)自主頁(yè)www.example.com的鏈接,這給予其相 對(duì)低的偏離點(diǎn)擊距離值。在上述函數(shù)中包括URL深度項(xiàng)以及針對(duì)偏離點(diǎn)擊距離值 來(lái)加權(quán)URL深度項(xiàng)補(bǔ)償了相對(duì)高的偏離點(diǎn)擊距離值,以更準(zhǔn)確地反映網(wǎng)絡(luò)中的文 檔的重要性。取決于網(wǎng)絡(luò),為3或更多的URL深度可以被認(rèn)為是深鏈接。在一個(gè)實(shí)施例中,用來(lái)確定給定文檔的文檔相關(guān)性得分的排序函數(shù)包括如下函數(shù)淳分^7、 卞, log(二) + w'其中諸項(xiàng)為如上所描述的。在其他實(shí)施例中,可以從排序函數(shù)中移除URL深度,或者可以向排序函數(shù)添 加其他分量,以改進(jìn)查詢相關(guān)分量、查詢無(wú)關(guān)分量或兩者的準(zhǔn)確度。此外,上述包 含偏離點(diǎn)擊距離參數(shù)的查詢無(wú)關(guān)分量可以被結(jié)合到其他排序函數(shù)(未示出)中,以 改進(jìn)搜索結(jié)果的排序。一旦在步驟204中將給定文檔的文檔統(tǒng)計(jì)量提供給排序函數(shù),示例性方法20 前進(jìn)到步驟205。在步驟205中,對(duì)給定文檔確定文檔相關(guān)性得分、將其存儲(chǔ)在存 儲(chǔ)器中、并將其與該給定文檔相關(guān)聯(lián)。從步驟205,示例性方法20前進(jìn)到判定框 206。在判定框206處,由應(yīng)用程序代碼做出是否已經(jīng)為網(wǎng)絡(luò)中的每個(gè)文檔計(jì)算了 文檔相關(guān)性得分的判斷。如果做出還沒(méi)有為網(wǎng)絡(luò)中的每個(gè)文檔計(jì)算文檔相關(guān)性得分 的判斷,則示例性方法20返回到步驟204并如上所述地繼續(xù)。如果做出已經(jīng)為網(wǎng) 絡(luò)中的每個(gè)文檔計(jì)算了文檔相關(guān)性得分的判斷,則示例性方法20前進(jìn)到步驟207。在步驟207中,根據(jù)其關(guān)聯(lián)的文檔相關(guān)性得分對(duì)包括多個(gè)文檔的査詢的搜索 結(jié)果排序。所得到的文檔相關(guān)性得分考慮了網(wǎng)絡(luò)中的每個(gè)文檔的偏離點(diǎn)擊距離值。 一旦搜索結(jié)果被排序,示例性方法20前進(jìn)到步驟208,將排序的結(jié)果顯示給用戶。 從步驟208,示例性方法20前進(jìn)到步驟209,由用戶選擇并査看最高排序的結(jié)果。 從步驟209,示例性方法20前進(jìn)到步驟210,在那里示例性方法20結(jié)束。除了為網(wǎng)絡(luò)中的文檔生成文檔相關(guān)性得分并使用該文檔相關(guān)性得分來(lái)對(duì)搜索 查詢的搜索結(jié)果排序的上述方法之外,在此也公開(kāi)了其上存儲(chǔ)有用于執(zhí)行上述方法 的計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀介質(zhì)。在此也公開(kāi)了計(jì)算系統(tǒng)。 一個(gè)示例性計(jì)算系統(tǒng)包含可在該計(jì)算系統(tǒng)上使用的 至少一個(gè)應(yīng)用程序模塊,其中該至少一個(gè)應(yīng)用程序模塊包括在其上載入的應(yīng)用程序 代碼,其中該應(yīng)用程序代碼執(zhí)行為網(wǎng)絡(luò)中的文檔生成文檔相關(guān)性得分的方法。該應(yīng) 用程序代碼可以使用上述其上存儲(chǔ)有用于為網(wǎng)絡(luò)中的文檔生成文檔相關(guān)性得分并 使用文檔相關(guān)性得分來(lái)對(duì)搜索查詢的搜索結(jié)果排序的計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī) 可讀介質(zhì)中的任一種被載入到計(jì)算系統(tǒng)中。盡管已經(jīng)相對(duì)于其具體實(shí)施例詳細(xì)描述了本說(shuō)明書(shū),然而應(yīng)該明白,本領(lǐng)域的技術(shù)人員在獲得并理解前述內(nèi)容之后可以容易地想到這些實(shí)施例的改變、變型和 等效方案。因此,所公開(kāi)的方法、計(jì)算機(jī)可讀介質(zhì)和計(jì)算系統(tǒng)的范圍應(yīng)該被認(rèn)為是 所附權(quán)利要求書(shū)及其任何等效技術(shù)方案的范圍。
權(quán)利要求
1.一種其上存儲(chǔ)有用于對(duì)網(wǎng)絡(luò)上的文檔排序的計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀介質(zhì),所述計(jì)算機(jī)可執(zhí)行指令利用包括一個(gè)或多個(gè)查詢無(wú)關(guān)分量的排序函數(shù),其中至少一個(gè)查詢無(wú)關(guān)分量包括偏離點(diǎn)擊距離參數(shù),所述偏離點(diǎn)擊距離參數(shù)考慮了所述網(wǎng)絡(luò)上的每個(gè)文檔的偏離點(diǎn)擊距離值。
2. 如權(quán)利要求1所述的計(jì)算機(jī)可讀介質(zhì),其特征在于, 一偏離點(diǎn)擊距離值被 分配給包括總共W個(gè)文檔的網(wǎng)絡(luò)上的w個(gè)權(quán)威文檔,其中m大于或等于2且小于 7V。
3. 如權(quán)利要求2所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述分配的偏離點(diǎn)擊 距離值中的至少兩個(gè)相互不同。
4. 如權(quán)利要求1所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述排序函數(shù)還包括 至少一個(gè)查詢無(wú)關(guān)分量,所述查詢無(wú)關(guān)分量包括考慮了所述網(wǎng)絡(luò)上的每條邊的邊值 的邊值參數(shù),其中一個(gè)或多個(gè)邊值是除l之外的數(shù)字。
5. 如權(quán)利要求4所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述邊值彼此相等并 等于除l之外的數(shù)字。
6. 如權(quán)利要求4所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述邊值彼此相等且 等于或大于最初被分配給一個(gè)或多個(gè)權(quán)威文檔的最高偏離點(diǎn)擊距離值。
7. 如權(quán)利要求4所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述至少一個(gè)查詢無(wú) 關(guān)分量包括所述偏離點(diǎn)擊距離參數(shù)和所述邊值參數(shù)兩者。
8. 如權(quán)利要求1所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,還包括用于將由所述 排序函數(shù)生成的得分分配給所述網(wǎng)絡(luò)上的每個(gè)文檔的計(jì)算機(jī)可執(zhí)行指令,所述得分 被用來(lái)以升序或降序?qū)ξ臋n排序。
9. 如權(quán)利要求7所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述每個(gè)文檔的得分 是使用以下公式生成的淳分=Z , ,, x log(—) + W"--其中W/表示加權(quán)的項(xiàng)頻率,iV表示所述網(wǎng)絡(luò)上的文檔數(shù)目, "表示包含查詢項(xiàng)的文檔數(shù)目, W^表示查詢無(wú)關(guān)分量的權(quán)重, 6^表示點(diǎn)擊距離的權(quán)重,6^表示URL深度的權(quán)重,CD表示文檔的計(jì)算的點(diǎn)擊距離或分配的偏離點(diǎn)擊距離,^v表示與邊權(quán)重相關(guān)的調(diào)整常數(shù),M)表URL深度,以及Aw和^是常數(shù)。
10. 如權(quán)利要求1所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,還包括用于接受由 用戶輸入的搜索査詢、進(jìn)行對(duì)網(wǎng)絡(luò)上的文檔的搜索以生成包括多個(gè)文檔的搜索結(jié) 果、使用所述排序函數(shù)來(lái)對(duì)所述搜索結(jié)果的多個(gè)文檔排序以生成經(jīng)排序的搜索結(jié) 果、以及將所述經(jīng)排序的搜索結(jié)果顯示給用戶的計(jì)算機(jī)可執(zhí)行指令。
11. 一種計(jì)算系統(tǒng),所述計(jì)算系統(tǒng)包含可在所述計(jì)算系統(tǒng)上使用的至少一個(gè) 應(yīng)用程序模塊,其中所述至少一個(gè)應(yīng)用程序模塊包括從如權(quán)利要求1所述的計(jì)算機(jī) 可讀介質(zhì)載入到其上的應(yīng)用程序代碼。
12. —種為網(wǎng)絡(luò)上的文檔確定文檔相關(guān)性得分的方法,所述方法包括以下步驟儲(chǔ)存網(wǎng)絡(luò)上的文檔以及關(guān)于文檔的鏈接信息;從所述文檔和鏈接信息生成所述網(wǎng)絡(luò)的表示,所述網(wǎng)絡(luò)的表示包括表示所述 文檔的節(jié)點(diǎn)和表示所述鏈接的邊;向所述網(wǎng)絡(luò)上的至少兩個(gè)節(jié)點(diǎn)分配偏離點(diǎn)擊距離值,其中被分配了偏離點(diǎn)擊 距離值的節(jié)點(diǎn)是權(quán)威節(jié)點(diǎn);為所述網(wǎng)絡(luò)表示種的非權(quán)威節(jié)點(diǎn)中的每一個(gè)計(jì)算點(diǎn)擊距離,其中給定非權(quán)威 節(jié)點(diǎn)的所述點(diǎn)擊距離是從所述給定非權(quán)威節(jié)點(diǎn)到最接近所述給定非權(quán)威節(jié)點(diǎn)的權(quán) 威節(jié)點(diǎn)測(cè)量的,所述計(jì)算步驟得到每個(gè)文檔的偏離點(diǎn)擊距離值;以及使用每個(gè)文檔的所述偏離點(diǎn)擊距離值來(lái)確定所述網(wǎng)絡(luò)上的給定文檔的文檔相 關(guān)性得分。
13. 如權(quán)利要求12所述的方法,其特征在于,至少兩個(gè)權(quán)威節(jié)點(diǎn)具有相互不 同的分配的偏離點(diǎn)擊距離值。
14. 如權(quán)利要求12所述的方法,其特征在于,還包括以下步驟將邊值分配所述表示中的每條邊,其中所述邊值等于或大于1。
15. 如權(quán)利要求14所述的方法,其特征在于,每個(gè)邊值大于被分配給所述權(quán) 威節(jié)點(diǎn)中的任一個(gè)的最高偏離點(diǎn)擊距離值。
16. 如權(quán)利要求12所述的方法,其特征在于,所述網(wǎng)絡(luò)上的每個(gè)文檔的文檔相關(guān)性得分是使用以下公式生成的<formula>formula see original document page 4</formula>其中W《表示加權(quán)的項(xiàng)頻率,AA表示網(wǎng)絡(luò)上的文檔數(shù)目,M表示包含查詢項(xiàng)的文檔數(shù)目,w^表示查詢無(wú)關(guān)分量的權(quán)重,6^表示點(diǎn)擊距離的權(quán)重,Z^表示URL深度的權(quán)重,CD表示文檔的計(jì)算的點(diǎn)擊距離或分配的偏離點(diǎn)擊距離, ^^表示與邊權(quán)重相關(guān)的調(diào)整常數(shù), t/D表URL深度,以及 》W和A是常數(shù)。
17. —種對(duì)網(wǎng)絡(luò)上的文檔排序的方法,所述方法包括以下步驟-使用如權(quán)利要求12所述的方法為所述網(wǎng)絡(luò)上的每個(gè)文檔確定文檔相關(guān)性得分;以及基于每個(gè)文檔的所述文檔相關(guān)性得分以降序?qū)λ鑫臋n排序。
18. —種對(duì)搜索查詢的搜索結(jié)果排序的方法,所述方法包括以下步驟 使用如權(quán)利要求12所述的方法來(lái)為所述搜索查詢的搜索結(jié)果中的每個(gè)文檔確定文檔相關(guān)性得分;以及基于每個(gè)文檔的所述文檔相關(guān)性得分以降序?qū)λ鑫臋n排序。
19. 一種其上存儲(chǔ)有用于執(zhí)行如權(quán)利要求12所述的方法的計(jì)算機(jī)可執(zhí)行指令 的計(jì)算機(jī)可讀介質(zhì)。
20. —種計(jì)算系統(tǒng),所述計(jì)算系統(tǒng)包含可在所述計(jì)算系統(tǒng)上使用的至少一個(gè) 應(yīng)用程序模塊,其中所述至少一個(gè)應(yīng)用程序模塊包括用于執(zhí)行一種為網(wǎng)絡(luò)上的文檔確定文檔相關(guān)性得分的方法的應(yīng)用程序代碼,所述方法包括以下步驟將偏離點(diǎn)擊距離值分配給所述網(wǎng)絡(luò)的表示上的至少兩個(gè)節(jié)點(diǎn),其中被分配了偏離點(diǎn)擊距離值的所述節(jié)點(diǎn)是權(quán)威節(jié)點(diǎn);為所述網(wǎng)絡(luò)的表示中的每個(gè)非權(quán)威節(jié)點(diǎn)計(jì)算點(diǎn)擊距離,其中給定非權(quán)威節(jié)點(diǎn)的所述點(diǎn)擊距離是從所述給定非權(quán)威節(jié)點(diǎn)到最接近所述給定非權(quán)威節(jié)點(diǎn)的權(quán)威節(jié)點(diǎn)測(cè)量的,所述計(jì)算步驟得到每個(gè)文檔的偏離點(diǎn)擊距離值;以及使用每個(gè)文檔的所述偏離點(diǎn)擊距離值來(lái)為所述網(wǎng)絡(luò)上的給定文檔確定所述文檔相關(guān)性得分。
全文摘要
公開(kāi)了用于向網(wǎng)絡(luò)上的文檔提供文檔相關(guān)性得分的方法。還公開(kāi)了其上存儲(chǔ)有用于執(zhí)行一種向網(wǎng)絡(luò)上的文檔提供文檔相關(guān)性得分的方法的計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀介質(zhì)。此外還公開(kāi)了包含至少一個(gè)應(yīng)用程序模塊的計(jì)算系統(tǒng),其中該至少一個(gè)應(yīng)用程序模塊包括用于執(zhí)行向網(wǎng)絡(luò)上的文檔提供文檔相關(guān)性得分的方法的應(yīng)用程序代碼。
文檔編號(hào)G06F17/30GK101243435SQ200680029645
公開(kāi)日2008年8月13日 申請(qǐng)日期2006年8月15日 優(yōu)先權(quán)日2005年8月15日
發(fā)明者D·梅耶左, H·扎拉格扎 申請(qǐng)人:微軟公司