專利名稱:基于導航路徑信息的主題相關(guān)網(wǎng)頁過濾方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般地涉及信息獲取或信息提取,尤其是網(wǎng)頁搜索或網(wǎng)頁挖 掘,具體而言,本發(fā)明涉及采用網(wǎng)頁的導航路徑集合作為上下文信息來進 行主題相關(guān)的網(wǎng)頁過濾的方法和系統(tǒng)。
背景技術(shù):
隨著因特網(wǎng)上電子信息的不斷增多,在Web上積累了大量多樣化的信 息,并且這種積累仍在以令人吃驚的速度快速增長。因此,幫助網(wǎng)民從大 量信息中找到有用信息是一項很有挑戰(zhàn)性的任務。信息獲取(information retrieval, IR)是一種在文件集合中搜索信息的 技術(shù),它可被進一步劃分成以下幾類搜索包含在文件中的一段信息;搜 索文件本身;搜索描述文件的元數(shù)據(jù)(metadata);或者在數(shù)據(jù)庫中搜索 文本、聲音、圖像或數(shù)據(jù)。信息提取(information extraction, IE)是IR技 術(shù)中的一種,其目標在于從非結(jié)構(gòu)化的機器可讀文件中自動提取結(jié)構(gòu)化或 半結(jié)構(gòu)化的信息。Web搜索引擎(例如Google和百度)是一種文件獲取 系統(tǒng),其被專門設(shè)計以用于幫助用戶找到存儲在Web上的信息,這允許用 戶尋找滿足特定條件的內(nèi)容(通常是包含給定詞或短語的內(nèi)容)并且得到 匹配這些條件的項目列表。最近, 一種新的Web搜索引擎,即垂直搜索引 擎,在Web上變得越來越流行。其利用某些信息提取或Web挖掘技術(shù)從 高度細化的數(shù)據(jù)庫或網(wǎng)站中提取出關(guān)于特定主題的結(jié)構(gòu)化信息,從而向?qū)?特定領(lǐng)域感興趣的用戶提供更精確和更有價值的信息。在所有這些信息獲取或信息提取技術(shù)中,無論對于一般(或垂直)搜 索引擎還是特定的Web挖掘系統(tǒng),網(wǎng)頁過濾都起著非常重要的作用。從技術(shù)上講,網(wǎng)頁過濾的過程主要分成兩個步驟首先,針對特定過 濾目的,選擇適當并且有效的網(wǎng)頁特征;然后,基于這些所選特征來建模
過濾機制。從所選特征的角度來看,現(xiàn)有的網(wǎng)頁過濾方案被粗略分成四 類,即基于內(nèi)容的過濾、基于網(wǎng)頁類型的過濾、基于鏈接的過濾和基于擴展錨(anchor)的過濾。下面將對這四類過濾方法作簡單介紹?;趦?nèi)容的過濾這種方法是依賴于查詢的算法,即其無論何時提交查詢,都分別給每個Web網(wǎng)頁一個相似性得分。其基本思想是這樣的出現(xiàn)在網(wǎng)頁中的單詞被用于獲取相關(guān)網(wǎng)頁,即給那些在文件中較早出現(xiàn)查詢 項或者以大字體或黑體形式出現(xiàn)查詢項的網(wǎng)頁賦予較高得分。然后,基于向量空間模型(VSM),可以通過計算夾角余弦來計算該網(wǎng)頁和相應查詢 之間的相似性,并根據(jù)相似性得分來實現(xiàn)相關(guān)網(wǎng)頁過濾?;诰W(wǎng)頁類型的過濾考慮到大多數(shù)因特網(wǎng)用戶可以通過査看網(wǎng)頁來識別該網(wǎng)頁所屬的文件類型,因此可以得出這樣的結(jié)論,即人們不僅可以 基于網(wǎng)頁內(nèi)容,還可以基于其各種格式和設(shè)計信息來評價網(wǎng)頁。鑒于此, 網(wǎng)頁的內(nèi)容和其結(jié)構(gòu)化特征被一起提供到基于規(guī)則的分類器以進行網(wǎng)頁類 型分類?;镜慕Y(jié)構(gòu)化特征包括內(nèi)嵌的圖像的大小和數(shù)目、鏈接的種類和數(shù)目、URL串等等?;谙嗨凭W(wǎng)頁的內(nèi)部特征(例如錨文本、關(guān)鍵字、標 題、URL等等),可以采用基于機器學習的方法來進行網(wǎng)頁分類。基于鏈接的過濾由于Web是一個超級鏈接的集合,因此除了各個網(wǎng) 頁的文本內(nèi)容之外,這些集合的鏈接結(jié)構(gòu)也可能包含網(wǎng)頁過濾所需的有用 信息?;谀M網(wǎng)絡瀏覽用戶的隨機瀏覽模型, 一種基于鏈接結(jié)構(gòu)的方法 被用于網(wǎng)頁的重要度排名。其利用Web的鏈接結(jié)構(gòu)來計算每個網(wǎng)頁的質(zhì)量 排名(quality ranking),這種質(zhì)量排名被稱為PageRank得分。由于網(wǎng)頁 的排名得分是根據(jù)網(wǎng)頁在Web的鏈接結(jié)構(gòu)中的位置單獨確定的,因此其與 查詢無關(guān)并且可以在查詢之前被計算出。最后,來自基于內(nèi)容的方法和基 于鏈接的方法的排名值被合并,以得到最終的相似性得分?;跀U展錨的過濾當采用Web的超級鏈接結(jié)構(gòu)進行網(wǎng)頁過濾時,出 現(xiàn)在鏈接上的文本,即錨文本也可以被用于網(wǎng)頁排名。錨文本不僅與鏈接 所在的網(wǎng)頁有關(guān),還與鏈接指向的網(wǎng)頁有關(guān)。尤其針對第二種情況,錨文 本通常比網(wǎng)頁本身提供更精確的網(wǎng)頁描述。而且其有助于搜索非文本信 息,從而將搜索覆蓋擴展到例如圖像、程序和數(shù)據(jù)庫。因此,基于擴展錨
的網(wǎng)頁過濾方法被提出。首先,出現(xiàn)在網(wǎng)頁中并且將Web瀏覽器從主頁導 航到每個目標網(wǎng)頁的所有錨文本都被收集,以建立擴展的錨列表。然后, 出現(xiàn)在擴展錨列表中的關(guān)鍵字被用于目標網(wǎng)頁過濾。但是,現(xiàn)有的網(wǎng)頁過濾方案具有缺陷。首先,基于內(nèi)容、網(wǎng)頁類型和 鏈接方法所采用的信息獲取模型將每個網(wǎng)頁看作一個獨立文件,即基于單 頁執(zhí)行索引和排名,這意味著返回的網(wǎng)頁必須包括查詢中的所有關(guān)鍵字。 它們忽略了網(wǎng)頁的內(nèi)部內(nèi)容通常不是自包含的這一事實。由于這些技術(shù)方 案的索引功能基于網(wǎng)頁的內(nèi)部內(nèi)容來單獨地索引網(wǎng)頁,因此從這種受限的 內(nèi)容中生成的網(wǎng)頁過濾結(jié)果的質(zhì)量往往無法令人滿意。通常,在用戶進行Web導航的過程中,特定網(wǎng)頁的上下文信息(例如 該網(wǎng)頁所在的域(domain)、目錄以及從其它網(wǎng)頁到該網(wǎng)頁的導航超級鏈 接)處于用戶的思維內(nèi)并且提供了關(guān)于網(wǎng)頁內(nèi)容的重要指示。但是,在現(xiàn) 有技術(shù)中,這種上下文信息沒有得到充分利用?;趦?nèi)容的方法將Web作為傳統(tǒng)的文件庫來處理,因此Web和網(wǎng)頁 的特殊特性(例如上下文信息)沒有被用于網(wǎng)頁過濾。網(wǎng)頁的文本內(nèi)容對 于高度精確的網(wǎng)頁過濾而言是不足夠的。對于基于網(wǎng)頁類型的方法,雖然它利用了網(wǎng)頁的某些結(jié)構(gòu)化特性來進 行網(wǎng)頁過濾,但是Web中的超級鏈接信息未被考慮在內(nèi)。由于超級鏈接集 合的鏈接結(jié)構(gòu)通常反映了用戶關(guān)于目標網(wǎng)頁的暗示推薦,因此它應該有助 于提高網(wǎng)頁過濾結(jié)果的質(zhì)量。雖然Web中的超級鏈接信息在基于鏈接和基于擴展錨的方法中有被用 到,但是這種利用并不充分。對于基于鏈接的方法,假設(shè)用戶對鏈接的點 擊是隨機的,但是實際上這種點擊可能不是隨機的。另一方面,用戶可以 利用錨文本來導航它們的Web瀏覽,通常出現(xiàn)在導航路徑中的錨文本能夠 提供關(guān)于目的地網(wǎng)頁的重要指示。但是,在基于擴展錨的方法中,只有錨 文本信息在網(wǎng)頁過濾中被考慮到,網(wǎng)頁標題中的文本、URL文本,甚至網(wǎng) 頁所屬的域都沒有涉及。然而,這些未被涉及的項目通常也提供了關(guān)于網(wǎng) 頁內(nèi)容的重要指示,因此對于網(wǎng)頁過濾也是十分重要的
發(fā)明內(nèi)容
鑒于上述問題,作出了本發(fā)明。本發(fā)明的網(wǎng)頁過濾方法和系統(tǒng)可以解 決現(xiàn)有技術(shù)中存在的技術(shù)問題,提高網(wǎng)頁過濾結(jié)果的質(zhì)量。根據(jù)本發(fā)明的一個方面,提供了一種網(wǎng)頁過濾方法,該方法包括獲 取一個或多個網(wǎng)頁集合中的所有網(wǎng)頁;收集所述所有網(wǎng)頁之間的鏈接關(guān) 系;基于所述鏈接關(guān)系提取出所述獲取的所有網(wǎng)頁的導航路徑集合;以及 基于所述提取出的導航路徑集合對所述所有網(wǎng)頁進行過濾以得到所需網(wǎng) 頁。其中,所述導航路徑是由網(wǎng)頁標題、錨文本、URL的組合、網(wǎng)頁內(nèi)容 以及域名構(gòu)成的列表。在某些實施例中,所述網(wǎng)頁集合可以是域、子域或 目錄。優(yōu)選地,為了實現(xiàn)更加精確而有效的網(wǎng)頁過濾,導航路徑集合可以 僅針對網(wǎng)頁之間的導航鏈接而非所有鏈接來提取,因此在某些實施例中, 在提取導航路徑集合之前或者在其過程中需要對鏈接集合進行過濾以得到 導航鏈接,然后再基于過濾出的導航鏈接獲得所需導航路徑集合。并且優(yōu) 選地,所述網(wǎng)頁過濾可以是基于主題的過濾。根據(jù)本發(fā)明的另一方面,提供了一種網(wǎng)頁過濾系統(tǒng),該系統(tǒng)包括網(wǎng) 頁獲取裝置,用于獲取一個或多個網(wǎng)頁集合中的所有網(wǎng)頁;鏈接關(guān)系收集 裝置,用于收集所述所有網(wǎng)頁之間的鏈接關(guān)系;導航路徑提取裝置,用于 基于所述鏈接關(guān)系提取出所述獲取的所有網(wǎng)頁的導航路徑集合;以及網(wǎng)頁 過濾裝置,用于基于所述提取出的導航路徑集合對所述所有網(wǎng)頁進行過濾 以得到所需網(wǎng)頁。其中,所述導航路徑是由網(wǎng)頁標題、錨文本、URL的組 合、網(wǎng)頁內(nèi)容以及域名構(gòu)成的列表。在某些實施例中,所述網(wǎng)頁集合可以 是域、子域或目錄。優(yōu)選地,為了實現(xiàn)更加精確而有效的網(wǎng)頁過濾,所述 導航路徑提取裝置可以僅針對網(wǎng)頁之間的導航鏈接而非所有鏈接來提取導 航路徑集合,因此在某些實施例中,在提取導航路徑集合之前或者在其過 程中需要對鏈接集合進行過濾以得到導航鏈接,然后再基于過濾出的導航 鏈接獲得所需導航路徑集合。并且優(yōu)選地,所述網(wǎng)頁過濾裝置可以對網(wǎng)頁 組執(zhí)行基于主題的過濾。根據(jù)本發(fā)明,網(wǎng)頁的導航路徑被提取出,作為相應網(wǎng)頁的上下文信 息,并結(jié)合網(wǎng)頁一起被索引來生成索引表。這樣一來,不僅網(wǎng)頁的鏈接結(jié)
構(gòu)還有引導用戶在Web中導航的所有潛在文本都可以被用于高質(zhì)量的網(wǎng)頁 過濾。另外, 一個給定網(wǎng)頁可能具有多條導航路徑,其中每條導航路徑可能 是由不同作者設(shè)計的,用于指向該網(wǎng)頁。如果出現(xiàn)在每條導航路徑中的文 本被看作從一個特定方面關(guān)于目標網(wǎng)頁的內(nèi)容的一種概括或陳述,則可以 通過這些導航路徑的集合反映出來自多個作者或上下文的多個視角,這可 以確保網(wǎng)頁過濾的客觀性。另外,每條導航路徑所涉及的信息不局限于一個網(wǎng)頁,而是包含一組相關(guān)網(wǎng)頁。因此,Web中的超級鏈接直接或間接地暗示出很多陳述,其中 主語是源網(wǎng)頁,謂語是錨文本,賓語是指向的目的地網(wǎng)頁?;诖耍Z義 推斷(semantic inference)功能可被并入到網(wǎng)頁過濾過程中。從下面結(jié)合附圖的詳細描述中,可以看出本發(fā)明的其他特征和優(yōu)點。 注意,本發(fā)明并不限于圖中所示的示例或者任何具體的實施例。
結(jié)合附圖,從下面對本發(fā)明優(yōu)選實施例的詳細描述,將更好地理解本 發(fā)明,附圖中類似的參考標記指示類似的部分,其中圖1是示出根據(jù)本發(fā)明第一實施例的網(wǎng)頁過濾系統(tǒng)100的結(jié)構(gòu)框圖; 圖1A示出一條示例性的網(wǎng)頁導航路徑;圖1B是針對圖1A的網(wǎng)頁結(jié)構(gòu)示出基于導航路徑的方法與現(xiàn)有技術(shù)的 方法的網(wǎng)頁索引的比較圖表;圖1C是示出圖1所示網(wǎng)頁過濾系統(tǒng)100的操作的流程圖;圖2A是示出根據(jù)本發(fā)明第二實施例的網(wǎng)頁過濾系統(tǒng)100a的結(jié)構(gòu)框 圖,其中在提取導航路徑集合之前執(zhí)行鏈接過濾以得到導航鏈接;圖2B是圖2A所示網(wǎng)頁過濾系統(tǒng)的替換方式100b,其在提取導航路 徑集合之前輸入感興趣的主題,并對網(wǎng)頁組執(zhí)行預過濾;圖3A是示出圖2A所示網(wǎng)頁過濾系統(tǒng)100a的操作的流程圖; 圖3B是示出圖2B所示網(wǎng)頁過濾系統(tǒng)100b的操作的流程圖; 圖4是示出根據(jù)本發(fā)明第二實施例的導航鏈接過濾過程的流程圖5是用于說明圖4所示導航鏈接過濾的一個網(wǎng)站結(jié)構(gòu)示例的圖;圖6是示出根據(jù)本發(fā)明第二實施例的導航路徑集合提取過程的流程圖;圖7是示出根據(jù)本發(fā)明第三實施例的網(wǎng)頁過濾系統(tǒng)100c的結(jié)構(gòu)框圖, 其中在提取導航路徑集合的過程中執(zhí)行導航鏈接過濾;圖8是示出根據(jù)本發(fā)明第三實施例的導航路徑集合提取過程的流程圖;圖9是示出根據(jù)本發(fā)明的網(wǎng)頁過濾系統(tǒng)的主題相關(guān)網(wǎng)頁過濾過程的流 程圖;以及圖IO是被用于實現(xiàn)本發(fā)明的計算機系統(tǒng)的示意性框圖。
具體實施例方式
如上文所述,網(wǎng)頁的上下文信息能夠提供關(guān)于網(wǎng)頁內(nèi)容的重要信息, 因此對于網(wǎng)頁過濾具有重要作用。但是,在現(xiàn)有技術(shù)中,對于上下文信息 的利用并不充分。相對照地,本發(fā)明提供了一種利用上下文信息進行網(wǎng)頁 過濾的方法和系統(tǒng),其利用Web中的超級鏈接信息建立關(guān)于網(wǎng)頁的導航 路徑集合,并以此作為上下文信息進行網(wǎng)頁過濾,從而提高網(wǎng)頁過濾的精 確性和客觀性。
這里所述的"導航路徑"被指定作為給定網(wǎng)頁的用于索引的上下文, 其被定義為包括網(wǎng)頁標題、錨文本、URL的組合、網(wǎng)頁內(nèi)容以及域名的 列表。導航路徑可被用于記錄Web用戶在特定網(wǎng)站中導航到目標網(wǎng)頁的 潛在瀏覽路徑。(用戶可以點擊網(wǎng)頁上的鏈接并使用錨文本在網(wǎng)站內(nèi)執(zhí)行 導航以找到感興趣的信息。)導航路徑通常是依賴于網(wǎng)站的,即每個網(wǎng)站 具有其自身的導航路徑集合。指向同一網(wǎng)頁的所有導航路徑提供了關(guān)于該網(wǎng)頁在網(wǎng)站中的上下文的復雜描述。每個導航路徑都與其目的地網(wǎng)頁相關(guān) 聯(lián),并且每個網(wǎng)頁可能具有多個關(guān)聯(lián)的導航路徑。關(guān)于導航路徑的詳細說 明隨后將參考圖3A和3B給出。
這里所述的"導航鏈接"是網(wǎng)頁作者希望網(wǎng)頁讀者通過其被導航到另 一內(nèi)容相關(guān)網(wǎng)頁的鏈接。導航鏈接不包括在目錄結(jié)構(gòu)上由子網(wǎng)頁反指向父
網(wǎng)頁的鏈接,以及被目錄結(jié)構(gòu)上的多個同層網(wǎng)頁所共享的鏈接和被一個網(wǎng)頁上的語義塊(semantic block)中的多個網(wǎng)頁所共享的鏈接。在提取導航 路徑時,為了得到更有效的過濾,可以通過某些啟發(fā)式規(guī)則從網(wǎng)頁的所有 鏈接中過濾掉非導航鏈接,從而僅針對導航鏈接執(zhí)行導航路徑的提取。在 此情況下,導航路徑則可被定義為通過導航鏈接連接的多個網(wǎng)頁的級聯(lián)錨 文本和標題的路徑鏈。其開始于源網(wǎng)頁的標題并終止于目的地網(wǎng)頁的標 題。關(guān)于導航鏈接以及導航鏈接過濾的詳細描述隨后給出。下面參考附圖描述根據(jù)本發(fā)明的示例性實施例。應當意識到,所描述 的實施例僅是用于舉例說明的目的,本發(fā)明并不限于所述具體實施例。圖1是示出根據(jù)本發(fā)明第一實施例的網(wǎng)頁過濾系統(tǒng)100的總體框圖。 如圖所示,網(wǎng)頁過濾系統(tǒng)100主要包括提供本發(fā)明核心功能的路徑排名 (ranking)與網(wǎng)頁過濾模塊10和與之交互的多個數(shù)據(jù)庫,即用于存儲利 用網(wǎng)絡爬蟲等收集的網(wǎng)頁集合的網(wǎng)頁數(shù)據(jù)庫106、用于存儲導航路徑的導 航路徑數(shù)據(jù)庫107、用于存儲索引表的索引表數(shù)據(jù)庫108和用于存儲過濾 結(jié)果網(wǎng)頁的結(jié)果網(wǎng)頁數(shù)據(jù)庫109。多個數(shù)據(jù)庫被存儲在計算機系統(tǒng)中的永 久存儲設(shè)備中,以存儲用于支持網(wǎng)頁過濾模塊10的運行的資源。網(wǎng)頁過 濾模塊IO進一步包括網(wǎng)頁獲取裝置101、鏈接關(guān)系收集裝置102、導航路 徑提取裝置103、索引裝置104和網(wǎng)頁過濾裝置105。這里應該注意,網(wǎng) 頁數(shù)據(jù)庫106中存儲有通過網(wǎng)絡爬蟲&網(wǎng)頁解析模塊(未示出)從網(wǎng)絡上 取得的一個或多個網(wǎng)頁集合的所有網(wǎng)頁,所述網(wǎng)頁集合例如是一個域(網(wǎng) 站)、子域或目錄。下面,首先利用圖1A和1B簡要介紹導航路徑以及基于導航路徑的索 引。圖1A示出一條示例性的網(wǎng)頁導航路徑,圖1B是針對圖1A的網(wǎng)頁結(jié) 構(gòu)示出基于導航路徑的方法與現(xiàn)有技術(shù)的方法的網(wǎng)頁索引的比較圖表。如圖1A所示,該示例包括四個網(wǎng)頁,即網(wǎng)頁尸/、尸入尸3和W。 Al、 A2和A3分別代表包括在網(wǎng)頁P/、尸入W中的錨文本。Ti、 Ui、 Wi (i=l、 2、 3禾n 4)分別代表網(wǎng)頁Pi的標題、URL和文本內(nèi)容。如圖 1B所示,當基于內(nèi)容或基于網(wǎng)頁類型的索引被使用時,網(wǎng)頁尸4的索引被 定義為fT4, W4},當基于鏈接的索引被使用時,網(wǎng)頁尸4的索引被定義為
(U4,T4, W4, A3},當基于擴展錨的索引被使用時,網(wǎng)頁/^的索引被定義 為(A1+A2+A3, T4, W4},而當根據(jù)本發(fā)明的基于導航路徑的索引被使用 時,網(wǎng)頁尸4的索引被定義為(T1+A1+T2+A2+T3+A3+T4, Ul+U2+U3+U4, W4,域名}。由此可見,本發(fā)明所使用的基于導航路徑的方法可以更充分 的利用網(wǎng)頁之間的上下文信息來進行網(wǎng)頁過濾。圖1C是示出圖l所示網(wǎng)頁過濾系統(tǒng)100的操作的流程圖。首先,在 步驟101a中,網(wǎng)頁獲取裝置101從網(wǎng)頁數(shù)據(jù)庫106獲取一個或多個網(wǎng)頁 集合中的所有網(wǎng)頁。前面已經(jīng)提到,所述網(wǎng)頁集合可以是一個域、子域或 目錄。在以下描述中,將以域(即網(wǎng)站)作為示例來描述本發(fā)明。但是, 本領(lǐng)域技術(shù)人員顯而易見,本發(fā)明并不局限于這樣的示例,而是可以針對 其他具有索引頁的網(wǎng)頁集合,例如子域或目錄,來同樣地執(zhí)行。然后,在 步驟102a中,鏈接關(guān)系收集裝置102收集關(guān)于獲取的所有網(wǎng)頁的鏈接關(guān) 系。然后,根據(jù)這些收集的鏈接關(guān)系中,在步驟103a中,導航路徑提取 裝置103可以提取出所有網(wǎng)頁的導航路徑集合。然后在步驟104a中,索 引裝置104基于提取出的導航路徑集合與獲取的網(wǎng)頁一起被索引,并將索 引結(jié)果存儲在索引表數(shù)據(jù)庫108中以備后用。這里所述的索引步驟可以使 用本領(lǐng)域公知的任意索引手段,例如參考文檔索引。具體而言,在索引步 驟中,所獲取的每個網(wǎng)頁與其相對應的一個或多個導航路徑集合被索引以 生成索引表,該索引表的一列存儲網(wǎng)頁id,而另一列存儲對應于該網(wǎng)頁的 導航路徑集合。由于索引技術(shù)是本領(lǐng)域所公知的,因此在以下描述中不再 贅述。然后,在步驟105a中,存儲的索引結(jié)果被應用到網(wǎng)頁過濾裝置 105,該網(wǎng)頁過濾裝置105基于獲取的所有網(wǎng)頁的提取出的導航路徑集合 對所有網(wǎng)頁進行過濾。關(guān)于導航路徑提取過程和網(wǎng)頁過濾過程是本發(fā)明的 關(guān)鍵,隨后會參考附圖作出詳細描述。上面已經(jīng)提到,導航鏈接是網(wǎng)站內(nèi)部所有鏈接關(guān)系的一個子集,其不 包括在目錄結(jié)構(gòu)上由子網(wǎng)頁反指向父網(wǎng)頁的鏈接,以及被目錄結(jié)構(gòu)上的多 個同層網(wǎng)頁所共享的鏈接和被一個網(wǎng)頁上的語義塊中的多個網(wǎng)頁所共享的 鏈接。之所以這樣限定,是為了獲取更有效的網(wǎng)站導航,去除對于導航路 徑提取可能產(chǎn)生不利影響的因素,從而提高網(wǎng)頁過濾的效率和精確性。鑒
于此,可以設(shè)想,為了獲取更準確的導航路徑集合,優(yōu)選地,可以從網(wǎng)頁 的所有鏈接中過濾出所有導航鏈接,并基于導航鏈接來提取每個網(wǎng)頁的導 航路徑集合。根據(jù)實際應用需求,導航鏈接過濾可以在提取導航路徑集合 之前先行進行,也可以在導航路徑集合提取過程中逐步去除非導航鏈接, 從而更有效而且準確地實現(xiàn)導航路徑集合的提取。隨后將針對第二和第三 實施例來詳細描述基于導航鏈接提取導航路徑集合的情況。圖2A是示出根據(jù)本發(fā)明第二實施例的網(wǎng)頁過濾系統(tǒng)100a的結(jié)構(gòu)框圖,其中在提取導航路徑集合之前執(zhí)行鏈接過濾以得到導航鏈接集合。如圖2A所示,相對于圖l所示框圖,除了其它共有組件之外,網(wǎng)頁 過濾系統(tǒng)100a還包括目錄結(jié)構(gòu)收集裝置112、導航鏈接過濾器110和主題 輸入器111。在該實施例中,為了執(zhí)行主題相關(guān)的網(wǎng)頁過濾,主題輸入器 111被耦合到網(wǎng)頁過濾裝置105,用于輸入用戶感興趣的主題。網(wǎng)頁過濾 裝置105進而根據(jù)輸入的主題基于網(wǎng)頁的導航路徑集合對網(wǎng)頁進行過濾。 但是,本發(fā)明并不局限于這里所述的主題相關(guān)的過濾,本領(lǐng)域公知的其他 過濾規(guī)則也可以被采用。圖2B是圖2A所示網(wǎng)頁過濾系統(tǒng)的一種替換方式100b。在此情況 下,取決于實際運行環(huán)境的應用情形不同,主題輸入器111沒有被耦合到 網(wǎng)頁過濾裝置105,而是被耦合到預過濾裝置113。預過濾裝置113被耦 合在網(wǎng)頁獲取裝置101和鏈接關(guān)系收集裝置102之間,用于在收集網(wǎng)頁的 鏈接關(guān)系之前,先行初步地對獲取的網(wǎng)頁進行主題相關(guān)的預過濾。在此情 況下,導航路徑集合的提取僅涉及某些主題相關(guān)的網(wǎng)頁。這意味著在提取 導航路徑之前,己經(jīng)執(zhí)行了一級網(wǎng)頁過濾,而隨后在網(wǎng)頁過濾裝置105處 執(zhí)行的基于導航路徑的過濾應該被視為二級網(wǎng)頁過濾。在所述二級網(wǎng)頁過 濾中,可以應用更加細化的過濾規(guī)則來實現(xiàn)更加精確的過濾。相反,在圖 2A所示的系統(tǒng)中,用戶感興趣的主題通過主題輸入器111被輸入到網(wǎng)頁 過濾裝置105,因此,首先針對所有網(wǎng)頁收集鏈接關(guān)系和目錄結(jié)構(gòu),并且 針對所有網(wǎng)頁提取導航路徑集合,然后網(wǎng)頁過濾裝置105再執(zhí)行相應的主 題相關(guān)的過濾。如果僅有一種主題被涉及,則圖2B所示系統(tǒng)比圖2A的 系統(tǒng)具有更高的性能。但是,當有新主題輸入時,圖2B所示的系統(tǒng)需要
再次執(zhí)行導航路徑的提取。對于圖2A所示的系統(tǒng),由于導航路徑提取裝 置103己經(jīng)提取出涉及所有網(wǎng)頁的導航路徑集合,因此即使改變主題,也 僅需要重新運行網(wǎng)頁過濾的過程即可。因此,在主題經(jīng)常改變的情況下,圖2A所示的系統(tǒng)具有更高的效率。下面將分別對照圖3A和3B來描述圖2A和2B所示系統(tǒng)100a和100b 的操作。其中圖3A是示出圖2A所示網(wǎng)頁過濾系統(tǒng)100a的操作的流程 圖,而圖3B是示出圖2B所示網(wǎng)頁過濾系統(tǒng)100b的操作的流程圖。首先參考圖3A,該過程開始于獲取一個或多個域中的所有網(wǎng)頁(步 驟301a)。然后,在步驟302a中,獲取的網(wǎng)頁之間的鏈接關(guān)系和目錄結(jié) 構(gòu)被收集。這里不同于第一實施例,為了從所有鏈接中過濾出導航鏈接, 除了鏈接關(guān)系之外還有必要收集所有域中的目錄結(jié)構(gòu)以作為過濾的參考。 例如,鏈接關(guān)系的提取可以通過解析每個文件的HTML源代碼來實現(xiàn)。通 常,文件集合的鏈接關(guān)系被表示為一個二元組f源,目標l源和目標在所涉 及的文件集合內(nèi),并且從源到目標存在至少一個超級鏈接}。同時,目錄 結(jié)構(gòu)可以通過檢查Web服務器的分層目錄結(jié)構(gòu)來獲取,所述分層目錄結(jié)構(gòu) 通常用Web文件的URL來體現(xiàn)。提取出的文件集合的目錄結(jié)構(gòu)也可以被 表示為一個二元組{父,子l父和子在所涉及的文件集合內(nèi),并且父在目錄 結(jié)構(gòu)中是子的父}。收集鏈接關(guān)系和目錄結(jié)構(gòu)的方法屬于本領(lǐng)域公知的技 術(shù),因此這里不再對此進行詳述。接下來,在步驟303a,從收集的鏈接中根據(jù)目錄結(jié)構(gòu)過濾出導航鏈 接,并基于導航鏈接的集合提取出每個網(wǎng)頁的導航路徑集合(步驟 304a)。在步驟305a,提取出的導航路徑集合與在步驟301a處獲取的網(wǎng) 頁集合一起被索引,并將索引結(jié)果存儲到索引表數(shù)據(jù)庫中。然后在步驟 306a中,輸入用戶感興趣的主題。在輸入了用戶感興趣的主題之后,在步 驟307a,根據(jù)在步驟303a處提取出的導航路徑集合對獲取的網(wǎng)頁執(zhí)行主 題相關(guān)的過濾。然后,該過程結(jié)束。與圖3A類似,該過程開始于獲取一個或多個域中的所有網(wǎng)頁(步驟 301b)。然后在步驟302b中,通過主題輸入器輸入用戶感興趣的主題。 在步驟303b中,根據(jù)用戶輸入的主題首先對獲取的所有網(wǎng)頁進行預過
濾,以初步過濾掉與主題無關(guān)的某些網(wǎng)頁。然后在步驟304b中,僅針對在步驟303b中預過濾出的網(wǎng)頁收集鏈接關(guān)系和目錄結(jié)構(gòu)信息。隨后與圖 3A所示過程類似,在步驟305b中,根據(jù)目錄結(jié)構(gòu)過濾出導航鏈接。在步 驟306b中,基于導航鏈接的集合提取出經(jīng)預過濾得到的每個網(wǎng)頁的導航 路徑集合。在步驟307b中,提取出的導航路徑集合與獲取的網(wǎng)頁集合一 起被索引,并將索引結(jié)果存儲到索引表數(shù)據(jù)庫中。在步驟308b中,根據(jù) 提取出的導航路徑集合對獲取的網(wǎng)頁執(zhí)行主題相關(guān)的過濾。然后,該過程結(jié)束o下面將參考圖4、 5、 6來詳細描述根據(jù)本發(fā)明第二實施例的導航鏈接 過濾和導航路徑提取過程。其中,圖4是示出根據(jù)本發(fā)明第二實施例的導 航鏈接過濾過程的流程圖;圖5是用于說明圖4所示導航鏈接過濾的一個 網(wǎng)站結(jié)構(gòu)示例的圖;和圖6是示出根據(jù)本發(fā)明第二實施例基于導航鏈接來 提取導航路徑集合的過程的流程圖。參考圖4,導航鏈接的過濾包括三層過濾,即圖4所示的第一過濾步 驟401、第二過濾步驟402和第三過濾步驟403。在步驟401中,首先刪 除目錄結(jié)構(gòu)上由子網(wǎng)頁指向父網(wǎng)頁的反向鏈接。例如,參考圖5,在該網(wǎng) 站結(jié)構(gòu)中,網(wǎng)頁Al是網(wǎng)頁A12的父,網(wǎng)頁A2是網(wǎng)頁A21的父,但是從 子網(wǎng)頁A12存在到父網(wǎng)頁Al的反向鏈接L1,并且從子網(wǎng)頁A21存在到父 網(wǎng)頁A2的反向鏈接L2。因此,在第一過濾步驟中,首先刪除掉目錄結(jié)構(gòu) 中的所有這樣的反向鏈接Ll和L2。然后在步驟402中,刪除目錄結(jié)構(gòu)上 的同一層次上的所有兄弟網(wǎng)頁指向同一網(wǎng)頁的鏈接。例如,參考圖5,網(wǎng) 頁All、 A12、 A21和A22處于一個層次上,并且分別通過鏈接L5、 L6、 L7和L8指向同一網(wǎng)頁A222。在此情況下,在第二過濾步驟中,將刪除掉 這樣的鏈接L5、 L6、 L7和L8。然后在步驟403處,刪除同一語義塊中的 所有網(wǎng)頁指向同一網(wǎng)頁的鏈接。例如,在圖5的情況下,假設(shè)處于同一層 次上的網(wǎng)頁All和A12處于同一語義塊并且分別通過鏈接L3和L4指向 同一網(wǎng)頁Alll。在第三過濾步驟中,則刪除掉這樣的鏈接L3和L4。這樣 一來,經(jīng)過導航鏈接過濾,得到導航鏈接的集合。參考圖6,將描述提取獲取的每個網(wǎng)頁的導航路徑集合的過程。首 先,在步驟601,針對獲取的一個網(wǎng)頁,在步驟602中,找到該網(wǎng)頁所在域(例如網(wǎng)站)的索引頁作為源網(wǎng)頁,并建立針對該域的網(wǎng)頁隊列。然后在步驟603中,從該源網(wǎng)頁開始,對該網(wǎng)頁的所有導航鏈接進行處理。注 意,這里已經(jīng)通過先前的導航鏈接過濾刪除了所有非導航鏈接,因此僅針 對導航鏈接進行處理。假設(shè)針對網(wǎng)頁a的導航鏈接L,在步驟604處,首 先判斷L所指向的網(wǎng)頁與網(wǎng)頁a是否處于同一域內(nèi)。如果是,則在步驟 605處,將L的錨文本和L指向網(wǎng)頁的標題添加到a的導航路徑并將L指 向的網(wǎng)頁添加到該域的網(wǎng)頁隊列。如果確定L所指向的網(wǎng)頁與網(wǎng)頁a不在 同一域內(nèi),則在步驟606,將L的錨文本和L指向網(wǎng)頁的標題添加到a的 導航路徑,但不將L指向的網(wǎng)頁添加到該域的網(wǎng)頁隊列。然后,過程返回 步驟602,以針對該網(wǎng)頁重新找到其所在域的主頁作為源網(wǎng)頁,并建立新 域的網(wǎng)頁隊列。接下來,針對這個找到的新域,重復步驟602以下的過 程。在步驟605之后,判斷針對該網(wǎng)頁是否還存在下一導航鏈接。如果 是,則針對下一導航鏈接(步驟608)重復以上過程。如果不存在下一導 航鏈接,則在步驟609處判斷該域的網(wǎng)頁隊列中是否存在下一待處理的網(wǎng) 頁。如果是,則提取出下一網(wǎng)頁(步驟610)并返回步驟603以對該新獲 取的網(wǎng)頁的所有導航鏈接進行處理。如果不再有剩余網(wǎng)頁,則過程結(jié)束。以上參考附圖描述了本發(fā)明的第二實施例,其中在提取導航路徑集合 之前先行對鏈接集合進行過濾以得到導航鏈接,并基于過濾出的導航鏈接 提取導航路徑集合,從而提高網(wǎng)頁過濾的準確性。下面將參考圖7和8來 描述本發(fā)明的第三實施例。圖7是示出根據(jù)本發(fā)明第三實施例的網(wǎng)頁過濾系統(tǒng)100c的結(jié)構(gòu)框圖。 與圖2A和2B所示第二實施例的情況相比,網(wǎng)頁過濾系統(tǒng)100c的區(qū)別在 于導航鏈接過濾器110被包括在導航路徑提取裝置103中,以在提取導航 路徑的過程中逐歩實現(xiàn)導航鏈接的過濾,而不是像第二實施例那樣,在提 取之前就已經(jīng)先行過濾出導航鏈接。圖7所示系統(tǒng)100c的其他組件與第二 實施例類似,因此這里不再對它們進行詳述。值得注意的是,圖7中示出 主題輸入器111被耦合到網(wǎng)頁過濾裝置105的情況,但是與第二實施例一 樣,主題輸入器111也可以被耦合到并入在網(wǎng)頁獲取裝置101和鏈接關(guān)系
收集裝置102之間的預過濾裝置113,從而實現(xiàn)在提取導航路徑之前對網(wǎng)頁組進行的主題相關(guān)的預過濾,如圖2B所示。圖8是示出圖7所示根據(jù)本發(fā)明第三實施例的系統(tǒng)100c的導航路徑提 取過程的流程圖。這里應該注意,第三實施例中除了導航路徑提取過程之 外的其他步驟類似于第二實施例,因此可以參考圖3A和3B所示過程及其 描述,這里不再贅述。該過程開始于步驟801,其中針對獲取的一個網(wǎng) 頁,在步驟802中,找到該網(wǎng)頁所在域(例如網(wǎng)站)的主頁作為源網(wǎng)頁, 并建立針對該域的網(wǎng)頁隊列。然后在步驟803中,從該源網(wǎng)頁開始,對每 個網(wǎng)頁的所有鏈接進行處理。注意,不同于第一實施例,這里并未對鏈接 進行先行過濾,因此該步驟需要針對每個網(wǎng)頁的所有鏈接進行處理。然 后,針對網(wǎng)頁a的鏈接L,在步驟804處,首先判斷L所指向的網(wǎng)頁與網(wǎng) 頁a是否處于同一域內(nèi)。如果是,過程則前進至步驟805,在該步驟中, 將對鏈接L是否是導航鏈接進行判斷。如果在步驟804處確定L所指向的 網(wǎng)頁與網(wǎng)頁a不在同一域內(nèi),則在步驟806中,將L的錨文本和L指向網(wǎng) 頁的標題添加到a的導航路徑,但不將L指向的網(wǎng)頁添加到該域的網(wǎng)頁隊 列。然后,過程返回步驟802,以針對該網(wǎng)頁重新找到其所在域的主頁作 為源網(wǎng)頁,并建立新域的網(wǎng)頁隊列。接下來,針對這個找到的新域,重復 步驟802以下的過程。當在步驟804處已經(jīng)確定L所指向的網(wǎng)頁與網(wǎng)頁a 處于同一域內(nèi)時,則進一步判斷L所指向的網(wǎng)頁是否已存在于該域的網(wǎng)頁 隊列中(步驟805),即判斷鏈接L所指向的網(wǎng)頁是否已經(jīng)在先前提取出 的導航路徑中出現(xiàn)過。如果是,則認為該鏈接L不是導航鏈接,并且過程 前進到步驟809以針對下一鏈接重復以上過程。如果在步驟805處確定L 指向的網(wǎng)頁尚未出現(xiàn)過,則認定該鏈接是導航鏈接,并且過程前進到步驟 807,其中將L的錨文本和L指向網(wǎng)頁的標題添加到a的導航路徑并將L 指向的網(wǎng)頁添加到該域的網(wǎng)頁隊列。然后,在步驟808,判斷針對該網(wǎng)頁 是否還存在下一鏈接。如果是,則針對下一鏈接(步驟809)重復以上過 程。如果不存在下一鏈接,則在步驟810處判斷該域的網(wǎng)頁隊列中是否存 在下一待處理的網(wǎng)頁。如果是,則提取出下一網(wǎng)頁(步驟811)并返回步 驟803以對該新獲取的網(wǎng)頁的所有鏈接進行處理。如果不再有剩余網(wǎng)頁,則過程結(jié)束。以上已經(jīng)描述了根據(jù)本發(fā)明第二實施例和第三實施例的基于導航鏈接 的導航路徑集合提取過程。由于導航路徑在隨后將描述的網(wǎng)頁過濾中起到 非常重要的作用,因此提取方法需要被仔細地設(shè)計,以保證提取出的導航 路徑集合的質(zhì)量和最后得到的網(wǎng)頁過濾結(jié)果的質(zhì)量。但是,本領(lǐng)域技術(shù)人 員將會理解,過濾導航鏈接以及提取導航路徑的過程并不局限于這里描述 的兩個實施例。可以根據(jù)實際需求設(shè)計和采用其他提取方法。返回參考圖3A或3B,在導航路徑集合被提取出之后,利用獲取的網(wǎng) 頁集合中的網(wǎng)頁對提取出的導航路徑集合進行索引,然后索引結(jié)果被用于主題相關(guān)的網(wǎng)頁過濾。下面將參考圖9描述主題相關(guān)的網(wǎng)頁過濾過程的一如上所述,用戶可以通過主題輸入器111輸入感興趣的主題。通常,對于一個網(wǎng)頁,如果其URL、標題或指向其的錨文本之一包括與主題相關(guān)的關(guān)鍵字,則判定該網(wǎng)頁為明確主題相關(guān)頁。如果確定一個網(wǎng)頁是明確主 題相關(guān)頁,則可以從該明確主題相關(guān)頁導航到的所有網(wǎng)頁都也被認為是可 能的主題相關(guān)網(wǎng)頁。并且,通常沿著導航路徑離明確主題相關(guān)頁越近的網(wǎng) 頁是主題相關(guān)網(wǎng)頁的可能性越高。因此,為了充分利用導航路徑信息,通常應該預先準備好若干與主題相關(guān)的本體(ontology)術(shù)語(與主題相關(guān) 的關(guān)鍵字)。并且為了進一步提高精確性,還可以可選地預先準備與主題 無關(guān)的本體術(shù)語(與主題無關(guān)的關(guān)鍵字)。例如,在一個公司網(wǎng)站內(nèi),假 設(shè)用戶需要獲取與產(chǎn)品(主題)相關(guān)的網(wǎng)頁。則用戶可以預先確定與產(chǎn)品 相關(guān)的本體術(shù)語(關(guān)鍵字)"產(chǎn)品"、"方案"、"服務"等等,同時還 可以確定與產(chǎn)品無關(guān)的本體術(shù)語,例如"新聞"、"論壇"、"支持"等 等。參考圖9,在步驟901,首先通過主題輸入器111輸入用戶感興趣的 主題。然后在步驟902,根據(jù)輸入的主題來選擇預先存儲的相關(guān)本體術(shù)語 和無關(guān)本體術(shù)語。在步驟903,針對獲取的網(wǎng)頁組中的一個網(wǎng)頁a,在步 驟904中,根據(jù)選擇出的本體術(shù)語判斷網(wǎng)頁a是否是明確主題相關(guān)頁或明 確主題無關(guān)頁。這里的判斷方法可以采用本領(lǐng)域已知的相似性測量技術(shù)。
如果在步驟904處確定網(wǎng)頁a是明確主題相關(guān)頁,則保存網(wǎng)頁a (步驟 905)。如果在步驟904處確定網(wǎng)頁a是明確主題無關(guān)頁,則丟棄網(wǎng)頁a (步驟906)。如果在步驟904處無法明確判定網(wǎng)頁a的類型,過程則前 進至步驟907。在步驟907,判斷該網(wǎng)頁a能夠從其他明確主題相關(guān)頁導航 到。如果能,則確定網(wǎng)頁a為候選網(wǎng)頁(步驟908),如果否,則丟棄網(wǎng) 頁a (步驟909)。在確定網(wǎng)頁a為候選網(wǎng)頁之后,在步驟910,進一步判 斷網(wǎng)頁a沿導航路徑與任意明確主題相關(guān)頁之間的最短距離是否小于閾 值。如果是,則確定網(wǎng)頁a為主題相關(guān)網(wǎng)頁并保存網(wǎng)頁a (步驟911),如 果不小于閾值,則在步驟912中將該網(wǎng)頁a視為未決網(wǎng)頁。對于未決網(wǎng) 頁,在步驟913中,進一步判斷該網(wǎng)頁a是否能夠沿導航路徑被任意明確 主題無關(guān)頁導航到。如果能夠被導航到,則刪除該網(wǎng)頁a (步驟914), 如果否,則確定網(wǎng)頁a為主題相關(guān)網(wǎng)頁并保存網(wǎng)頁a (步驟915)。然后, 對獲取的網(wǎng)頁組中的下一網(wǎng)頁(步驟916)重復上述過程,以對其進行過 濾,直到所有網(wǎng)頁都被處理過為止。需要指出的是,圖9所示過程僅僅是根據(jù)本發(fā)明的網(wǎng)頁過濾過程的一 個示例,本發(fā)明并不局限于該示例。本領(lǐng)域技術(shù)人員可以設(shè)想,在其他應 用中,可以根據(jù)實際需求來具體設(shè)計過濾規(guī)則,并且過濾方法也不局限于 主題相關(guān)的網(wǎng)頁過濾。圖IO是被用于實現(xiàn)本發(fā)明的計算機系統(tǒng)IOOO的示意性框圖。如圖所 示,該計算機系統(tǒng)1000包括CPU 1001、用戶接口 1002、外圍設(shè)備1003、 存儲器1005、永久存儲設(shè)備1006以及將它們彼此相連的總線1004。存儲 器1005中包含有路徑排名與網(wǎng)頁過濾模塊、網(wǎng)絡爬蟲&網(wǎng)頁解析模塊、操 作系統(tǒng)(OS)等等。本發(fā)明主要與路徑排名與網(wǎng)頁過濾模塊相關(guān),其例如 是圖1所示的路徑排名與網(wǎng)頁過濾模塊10。網(wǎng)絡爬蟲&網(wǎng)頁解析模塊可被 用于從網(wǎng)絡上獲取網(wǎng)頁,并將其存儲在網(wǎng)頁數(shù)據(jù)庫中。永久存儲設(shè)備1006 存儲了本發(fā)明所涉及的各種數(shù)據(jù)庫,例如網(wǎng)頁數(shù)據(jù)庫106、導航路徑數(shù)據(jù) 庫107、索引表數(shù)據(jù)庫108、結(jié)果網(wǎng)頁數(shù)據(jù)庫109等等。以上分別描述了根據(jù)本發(fā)明第一實施例和第二實施例的基于導航路徑 集合的網(wǎng)頁過濾系統(tǒng)及其操作過程。根據(jù)上述描述可以看出,網(wǎng)頁的導航路徑被提取出,作為相應網(wǎng)頁的上下文信息,并且提取出的導航路徑集合 結(jié)合網(wǎng)頁被索引以生成索引表。這樣一來,不僅網(wǎng)頁的鏈接結(jié)構(gòu)還有引導用戶在Web中導航的所有潛在文本都被用于高質(zhì)量的網(wǎng)頁過濾。另外,一個給定網(wǎng)頁可能具有多條導航路徑,其中每條導航路徑可能是由不同作者 設(shè)計的,用于指向該網(wǎng)頁。如果出現(xiàn)在每條導航路徑中的文本被看作從一 個特定方面關(guān)于目標網(wǎng)頁的內(nèi)容的一種概括或陳述,則可以通過這些導航 路徑的集合反映出來自多個作者或上下文的多個視角,這可以確保網(wǎng)頁過 濾的客觀性。上面已經(jīng)參考附圖描述了根據(jù)本發(fā)明的具體實施例。但是,本發(fā)明并 不限于圖中示出的特定配置和處理。并且,為了簡明起見,這里省略對這 些已知方法技術(shù)的詳細描述。在上述實施例中,描述和示出了若干具體的 歩驟作為示例。但是,本發(fā)明的方法過程并不限于所描述和示出的具體步 驟,本領(lǐng)域的技術(shù)人員可以在領(lǐng)會本發(fā)明的精神之后,作出各種改變、修 改和添加,或者改變步驟之間的順序。本發(fā)明的元素可以實現(xiàn)為硬件、軟件、固件或者它們的組合,并且可 以用在它們的系統(tǒng)、子系統(tǒng)、部件或者子部件中。當以軟件方式實現(xiàn)時, 本發(fā)明的元素是被用于執(zhí)行所需任務的程序或者代碼段。程序或者代碼段 可以存儲在機器可讀介質(zhì)中,或者通過載波中攜帶的數(shù)據(jù)信號在傳輸介質(zhì) 或者通信鏈路上傳送。"機器可讀介質(zhì)"可以包括能夠存儲或傳輸信息的 任何介質(zhì)。機器可讀介質(zhì)的例子包括電子電路、半導體存儲器設(shè)備、ROM、閃存、可擦除ROM (EROM)、軟盤、CD-ROM、光盤、硬盤、 光纖介質(zhì)、射頻(RF)鏈路,等等。代碼段可以經(jīng)由諸如因特網(wǎng)、內(nèi)聯(lián) 網(wǎng)等的計算機網(wǎng)絡被下載。本發(fā)明可以以其他的具體形式實現(xiàn),而不脫離其精神和本質(zhì)特征。例 如,特定實施例中所描述的算法可以被修改,而系統(tǒng)體系結(jié)構(gòu)并不脫離本 發(fā)明的基本精神。因此,當前的實施例在所有方面都被看作是示例性的而 非限定性的,本發(fā)明的范圍由所附權(quán)利要求而非上述描述定義,并且,落 入權(quán)利要求的含義和等同物的范圍內(nèi)的全部改變從而都被包括在本發(fā)明的 范圍之中。
權(quán)利要求
1. 一種網(wǎng)頁過濾方法,該方法包括以下步驟獲取一個或多個網(wǎng)頁集合中的所有網(wǎng)頁;收集所述所有網(wǎng)頁之間的鏈接關(guān)系;基于所述鏈接關(guān)系提取出所述獲取的所有網(wǎng)頁的導航路徑集合;以及基于所述提取出的導航路徑集合對所述所有網(wǎng)頁進行過濾以得到所需網(wǎng)頁。
2. 如權(quán)利要求1所述的網(wǎng)頁過濾方法,還包括在提取出所述導航路徑集合之后,利用所述獲取的每個網(wǎng)頁對所述提 取出的導航路徑集合進行索引;以及基于所述經(jīng)索弓I的導航路徑集合對所述所有網(wǎng)頁進行過濾。
3. 如權(quán)利要求1所述的網(wǎng)頁過濾方法,還包括收集各個所述網(wǎng)頁集合的目錄結(jié)構(gòu);以及根據(jù)所述目錄結(jié)構(gòu)從相應網(wǎng)頁集合的鏈接關(guān)系中刪除掉所有非導航鏈 接以獲得導航鏈接集合,并且基于所述導航鏈接集合提取出每個所述網(wǎng)頁的所述導航路徑集合。
4. 如權(quán)利要求3所述的網(wǎng)頁過濾方法,其中所述非導航鏈接是以下三種鏈接中的至少一種所述目錄結(jié)構(gòu)上由子指向父的鏈接;所述目錄結(jié)構(gòu)上的同一層次上的所有兄弟網(wǎng)頁指向同一網(wǎng)頁的鏈接;以及所述目錄結(jié)構(gòu)上同一語義塊中的所有網(wǎng)頁指向同一網(wǎng)頁的鏈接。
5. 如權(quán)利要求3所述的網(wǎng)頁過濾方法,其中提取所述導航路徑集合包括a. 從所述獲取的所有網(wǎng)頁中選擇一個網(wǎng)頁;b. 建立所述網(wǎng)頁所屬網(wǎng)頁集合的網(wǎng)頁隊列并以該網(wǎng)頁集合的索引頁作 為源網(wǎng)頁;并且c. 從所述源網(wǎng)頁開始,針對該網(wǎng)頁的每條導航鏈接如果該導航鏈接指向的網(wǎng)頁與所述網(wǎng)頁處于同一網(wǎng)頁集合,則將 對應于該導航鏈接的錨文本和該導航鏈接指向的網(wǎng)頁的標題添加到所 述網(wǎng)頁的導航路徑,并將該導航鏈接指向的網(wǎng)頁添加到所述網(wǎng)頁所屬 網(wǎng)頁集合的網(wǎng)頁隊列并返回步驟C考慮所述網(wǎng)頁的下一導航鏈接;否 則如果該導航鏈接指向的網(wǎng)頁與所述網(wǎng)頁處于不同的網(wǎng)頁集合,則 將對應于該導航鏈接的錨文本和該導航鏈接指向的網(wǎng)頁的標題添加到 所述網(wǎng)頁的導航路徑,并且返回步驟b以建立該導航鏈接指向的網(wǎng)頁 所屬網(wǎng)頁集合的網(wǎng)頁隊列并以該網(wǎng)頁集合的索引頁作為源網(wǎng)頁繼續(xù)步 驟C的處理。
6. 如權(quán)利要求1所述的網(wǎng)頁過濾方法,其中提取所述導航路徑集合包括a. 從所述獲取的所有網(wǎng)頁中選擇一個網(wǎng)頁;b. 建立所述網(wǎng)頁所屬網(wǎng)頁集合的網(wǎng)頁隊列并以該網(wǎng)頁集合的索引頁作 為源網(wǎng)頁;并且C.從所述源網(wǎng)頁開始,針對該網(wǎng)頁的每條鏈接如果該鏈接指向的網(wǎng)頁與所述網(wǎng)頁處于同一網(wǎng)頁集合,則判斷該 鏈接指向的網(wǎng)頁是否已存在于該網(wǎng)頁集合的網(wǎng)頁隊列中,如果否,則 將對應于該鏈接的錨文本和該鏈接指向的網(wǎng)頁的標題添加到所述網(wǎng)頁 的導航路徑,并將該鏈接指向的網(wǎng)頁添加到所述網(wǎng)頁所屬網(wǎng)頁集合的網(wǎng)頁隊列,如果是,則返回步驟C考慮所述網(wǎng)頁的下一鏈接;否則如果該鏈接指向的網(wǎng)頁與所述網(wǎng)頁處于不同的網(wǎng)頁集合,則將對 應于該鏈接的錨文本和該鏈接指向的網(wǎng)頁的標題添加到所述網(wǎng)頁的導 航路徑,并且返回步驟b以建立該鏈接指向的網(wǎng)頁所屬網(wǎng)頁集合的網(wǎng) 頁隊列并以該網(wǎng)頁集合的索引頁作為源網(wǎng)頁繼續(xù)步驟C的處理。
7. 如權(quán)利要求1所述的網(wǎng)頁過濾方法,其中所述網(wǎng)頁過濾是主題相關(guān) 的過濾,所述方法還包括在所述提取之后輸入預定主題;并且基于所述導航路徑集合,根據(jù)所述預定主題對所述獲取的所有網(wǎng)頁進行過濾以得到所述所需網(wǎng)頁。
8. 如權(quán)利要求1所述的網(wǎng)頁過濾方法,其中所述網(wǎng)頁過濾是主題相關(guān) 的過濾,所述方法還包括在所述提取之前輸入預定主題;根據(jù)所述預定主題對所述獲取的所有網(wǎng)頁執(zhí)行主題相關(guān)的預過濾; 提取出所述經(jīng)預過濾的網(wǎng)頁的導航路徑集合;并且基于所述導航路徑集合,根據(jù)所述預定主題對所述經(jīng)預過濾的網(wǎng)頁進 行過濾以得到所述所需網(wǎng)頁。
9. 如權(quán)利要求7或8所述的網(wǎng)頁過濾方法,其中執(zhí)行所述主題相關(guān)的過濾包括根據(jù)所述預定主題選擇相關(guān)本體術(shù)語和無關(guān)本體術(shù)語;根據(jù)所述相關(guān)本體術(shù)語和無關(guān)本體術(shù)語來判斷網(wǎng)頁是否是明確主題相關(guān)頁和明確主題無關(guān)頁;保存所述明確主題相關(guān)頁作為所述所需網(wǎng)頁,并且丟棄所述明確主題 無關(guān)頁;并且對于既不屬于所述明確主題相關(guān)頁也不屬于所述明確主題無關(guān)頁的網(wǎng)頁如果該網(wǎng)頁無法經(jīng)由任意導航路徑從任意所述明確主題相關(guān)頁被 導航到,則丟棄該網(wǎng)頁,否則將該網(wǎng)頁視為候選網(wǎng)頁;如果所述候選網(wǎng)頁與任意所述具有明確主題相關(guān)頁之間的距離小 于預定閾值,則保存該網(wǎng)頁作為所述所需網(wǎng)頁,否則將該網(wǎng)頁視為未決 網(wǎng)頁;如果所述未決網(wǎng)頁可以通過任意導航路徑從任意所述明確主題無 關(guān)頁被導航到,則丟棄該網(wǎng)頁,否則保存該網(wǎng)頁作為所述所需網(wǎng)頁。
10. 如權(quán)利要求l所述的網(wǎng)頁過濾方法,其中所述網(wǎng)頁集合是域、子域 或目錄。
11. 一種基于網(wǎng)頁的導航路徑集合的網(wǎng)頁過濾方法,其中所述導航路 徑是由在從頂端網(wǎng)頁到目標網(wǎng)頁的路徑上的網(wǎng)頁的標題、錨文本、URL的 組合構(gòu)成的列表,該方法包括以下步驟 獲取一個或多個網(wǎng)頁集合中的所有網(wǎng)頁; 收集所述所有網(wǎng)頁之間的鏈接關(guān)系;基于所述鏈接關(guān)系提取出所述獲取的所有網(wǎng)頁的導航路徑集合;以及 基于所述提取出的導航路徑集合對所述所有網(wǎng)頁進行過濾以得到所需 網(wǎng)頁。
12,一種網(wǎng)頁過濾系統(tǒng),包括網(wǎng)頁獲取裝置,用于獲取一個或多個網(wǎng)頁集合中的所有網(wǎng)頁; 鏈接關(guān)系收集裝置,用于收集所述所有網(wǎng)頁之間的鏈接關(guān)系; 導航路徑提取裝置,用于基于所述鏈接關(guān)系提取出所述獲取的所有網(wǎng)頁的導航路徑集合;以及網(wǎng)頁過濾裝置,用于基于所述提取出的導航路徑集合對所述所有網(wǎng)頁進行過濾以得到所需網(wǎng)頁。
13. 如權(quán)利要求12所述的網(wǎng)頁過濾系統(tǒng),還包括 耦合在所述導航路徑提取裝置和所述網(wǎng)頁過濾裝置之間的索引裝置,用于利用所述獲取的每個網(wǎng)頁對所述提取出的導航路徑集合進行索引,并 且所述網(wǎng)頁過濾裝置被配置為基于所述經(jīng)索引的導航路徑集合對所述所 有網(wǎng)頁進行過濾以得到所需網(wǎng)頁。
14. 如權(quán)利要求12所述的網(wǎng)頁過濾系統(tǒng),還包括目錄結(jié)構(gòu)收集裝置,用于收集各個所述網(wǎng)頁集合的目錄結(jié)構(gòu);以及 導航鏈接過濾器,用于根據(jù)所述目錄結(jié)構(gòu)從相應網(wǎng)頁集合的鏈接關(guān)系中刪除掉所有非導航鏈接以獲得導航鏈接集合,其中所述導航路徑提取裝置基于所述導航鏈接集合提取出每個所述網(wǎng)頁的所述導航路徑集合。
15. 如權(quán)利要求14所述的網(wǎng)頁過濾系統(tǒng),其中所述非導航鏈接是以下三種鏈接中的至少一種所述目錄結(jié)構(gòu)上由子指向父的鏈接;所述目錄結(jié)構(gòu)上的同一層次上的所有兄弟網(wǎng)頁指向同一網(wǎng)頁的鏈接;以及 所述目錄結(jié)構(gòu)上同一語義塊中的所有網(wǎng)頁指向同一 網(wǎng)頁的鏈接。
16. 如權(quán)利要求14所述的網(wǎng)頁過濾系統(tǒng),其中所述導航路徑提取裝置 被配置為a. 從所述獲取的所有網(wǎng)頁中選擇一個網(wǎng)頁;b. 建立所述網(wǎng)頁所屬網(wǎng)頁集合的網(wǎng)頁隊列并以該網(wǎng)頁集合的索引頁作 為源網(wǎng)頁;并且C.從所述源網(wǎng)頁開始,針對該網(wǎng)頁的每條導航鏈接如果該導航鏈接與所述網(wǎng)頁處于同一網(wǎng)頁集合,則將對應于該導 航鏈接的錨文本和該導航鏈接指向的網(wǎng)頁的標題添加到所述網(wǎng)頁的導 航路徑,并將該導航鏈接指向的網(wǎng)頁添加到所述網(wǎng)頁所屬網(wǎng)頁集合的 網(wǎng)頁隊列并返回步驟C考慮所述網(wǎng)頁的下一導航鏈接;否則如果該導航鏈接與所述網(wǎng)頁處于不同的網(wǎng)頁集合,則將對應于該 導航鏈接的錨文本和該導航鏈接指向的網(wǎng)頁的標題添加到所述網(wǎng)頁的 導航路徑,并且返回步驟b以建立該導航鏈接指向的網(wǎng)頁所屬網(wǎng)頁集 合的網(wǎng)頁隊列并以該網(wǎng)頁集合的索引頁作為源網(wǎng)頁繼續(xù)步驟C的處 理。
17. 如權(quán)利要求12所述的網(wǎng)頁過濾系統(tǒng),其中所述導航路徑提取裝置被配置為a. 從所述獲取的所有網(wǎng)頁中選擇一個網(wǎng)頁;b. 建立所述網(wǎng)頁所屬網(wǎng)頁集合的網(wǎng)頁隊列并以該網(wǎng)頁集合的索引頁作 為源網(wǎng)頁;并且c. 從所述源網(wǎng)頁開始,針對該網(wǎng)頁的每條鏈接如果該鏈接與所述網(wǎng)頁處于同一網(wǎng)頁集合,則判斷該鏈接指向的 網(wǎng)頁是否己存在于該網(wǎng)頁集合的網(wǎng)頁隊列中,如果否,則將對應于該 鏈接的錨文本和該鏈接指向的網(wǎng)頁的標題添加到所述網(wǎng)頁的導航路 徑,并將該鏈接指向的網(wǎng)頁添加到所述網(wǎng)頁所屬網(wǎng)頁集合的網(wǎng)頁隊 歹lj,如果是,則返回步驟C考慮所述網(wǎng)頁的下一鏈接;否則如果該鏈接與所述網(wǎng)頁處于不同的網(wǎng)頁集合,則將對應于該鏈接 的錨文本和該鏈接指向的網(wǎng)頁的標題添加到所述網(wǎng)頁的導航路徑,并 且返回步驟b以建立該鏈接指向的網(wǎng)頁所屬網(wǎng)頁集合的網(wǎng)頁隊列并以 該網(wǎng)頁集合的索引頁作為源網(wǎng)頁繼續(xù)步驟C的處理。
18. 如權(quán)利要求12所述的網(wǎng)頁過濾系統(tǒng),其中所述網(wǎng)頁過濾是主題相 關(guān)的過濾,所述系統(tǒng)還包括耦合到所述網(wǎng)頁過濾裝置的主題輸入器,用于輸入預定主題; 其中所述網(wǎng)頁過濾裝置基于所述導航路徑集合,根據(jù)所述預定主題對 所述獲取的所有網(wǎng)頁進行過濾以得到所述所需網(wǎng)頁。
19. 如權(quán)利要求12所述的網(wǎng)頁過濾系統(tǒng),其中所述網(wǎng)頁過濾是主題相關(guān)的過濾,所述系統(tǒng)還包括耦合在所述網(wǎng)頁獲取裝置和所述鏈接關(guān)系收集裝置之間的預過濾裝 置;以及耦合到所述預過濾裝置的主題輸入器,用于輸入預定主題; 其中所述預過濾裝置根據(jù)通過所述主題輸入器輸入的所述預定主題對 所述獲取的所有網(wǎng)頁執(zhí)行主題相關(guān)的預過濾,所述導航路徑提取裝置提取 出所述經(jīng)預過濾的網(wǎng)頁的導航路徑集合,并且所述網(wǎng)頁過濾裝置基于所述 導航路徑集合,根據(jù)所述預定主題對所述經(jīng)預過濾的網(wǎng)頁進行過濾以得到 所述所需網(wǎng)頁。
20. 如權(quán)利要求18或19所述的網(wǎng)頁過濾系統(tǒng),所述網(wǎng)頁過濾裝置被 配置為根據(jù)所述預定主題選擇相關(guān)本體術(shù)語和無關(guān)本體術(shù)語; 根據(jù)所述相關(guān)本體術(shù)語和無關(guān)本體術(shù)語來判斷網(wǎng)頁是否是明確主題相關(guān)頁和明確主題無關(guān)頁;保存所述明確主題相關(guān)頁作為所述所需網(wǎng)頁,并且丟棄所述明確主題無關(guān)頁;并且對于既不屬于所述明確主題相關(guān)頁也不屬于所述明確主題無關(guān)頁的網(wǎng)頁如果該網(wǎng)頁無法經(jīng)由任意導航路徑從任意所述明確主題相關(guān)頁被 導航到,則丟棄該網(wǎng)頁,否則將該網(wǎng)頁視為候選網(wǎng)頁;如果所述候選網(wǎng)頁與任意所述具有明確主題相關(guān)頁之間的距離小于預定閾值,則保存該網(wǎng)頁作為所述所需網(wǎng)頁,否則將該網(wǎng)頁視為未決網(wǎng)頁;如果所述未決網(wǎng)頁可以通過任意導航路徑從任意所述明確主題無 關(guān)頁被導航到,則丟棄該網(wǎng)頁,否則保存該網(wǎng)頁作為所述所需網(wǎng)頁。
21. 如權(quán)利要求12所述的網(wǎng)頁過濾系統(tǒng),其中所述網(wǎng)頁集合是域、子 域或目錄。
22. —種基于網(wǎng)頁的導航路徑集合的網(wǎng)頁過濾系統(tǒng),其中所述導航路 徑是在從頂端網(wǎng)頁到目標網(wǎng)頁的路徑上的網(wǎng)頁的標題、錨文本、URL的組 合構(gòu)成的列表,所述網(wǎng)頁過濾系統(tǒng)包括網(wǎng)頁獲取裝置,用于獲取一個或多個網(wǎng)頁集合中的所有網(wǎng)頁; 鏈接關(guān)系收集裝置,用于收集所述所有網(wǎng)頁之間的鏈接關(guān)系; 導航路徑提取裝置,用于基于所述鏈接關(guān)系提取出所述獲取的所有網(wǎng)頁的導航路徑集合;以及網(wǎng)頁過濾裝置,用于基于所述提取出的導航路徑集合對所述所有網(wǎng)頁進行過濾以得到所需網(wǎng)頁。
全文摘要
本發(fā)明提供了一種基于導航路徑信息的主題相關(guān)網(wǎng)頁過濾方法和系統(tǒng)。所述方法包括獲取一個或多個網(wǎng)頁集合中的所有網(wǎng)頁;收集所述所有網(wǎng)頁之間的鏈接關(guān)系;基于所述鏈接關(guān)系提取出所述獲取的所有網(wǎng)頁的導航路徑集合;以及基于所述提取出的導航路徑集合對所述所有網(wǎng)頁進行過濾以得到所需網(wǎng)頁。在一些實施例中,導航路徑的提取優(yōu)選地是針對網(wǎng)頁之間的導航鏈接進行的,因此本發(fā)明還可以包括從所有鏈接關(guān)系中刪除掉非導航鏈接的過程。相比現(xiàn)有技術(shù),本發(fā)明可以更充分地利用網(wǎng)頁之間的上下文信息來進行網(wǎng)頁過濾,從而提高網(wǎng)頁過濾的精確性和客觀性。
文檔編號G06F17/30GK101399818SQ20071015186
公開日2009年4月1日 申請日期2007年9月25日 優(yōu)先權(quán)日2007年9月25日
發(fā)明者李建強, 彧 趙 申請人:日電(中國)有限公司