專利名稱:使用傳播的文檔相關(guān)性來訓(xùn)練排名功能的制作方法
使用傳播的文檔相關(guān)性來訓(xùn)練排名功能
背景
如Google(谷歌)和Overture(建議)等許多搜索引擎服務(wù)提供對(duì)能經(jīng)由 因特網(wǎng)訪問的信息的搜索。這些搜索引擎服務(wù)允許用戶搜索用戶可能感興 趣的顯示頁面,如網(wǎng)頁。在用戶提交包含搜索項(xiàng)的搜索請(qǐng)求(即,査詢) 之后,搜索引擎服務(wù)標(biāo)識(shí)可能與這些搜索項(xiàng)相關(guān)的網(wǎng)頁。為快速標(biāo)識(shí)相關(guān) 的網(wǎng)頁,搜索引擎服務(wù)可維護(hù)關(guān)鍵詞到網(wǎng)頁的映射。該映射可以通過"爬 行(crawl) " web (即,萬維網(wǎng))來標(biāo)識(shí)每一網(wǎng)頁的關(guān)鍵詞來生成。為爬 行web,搜索引擎服務(wù)可使用根網(wǎng)頁列表來標(biāo)識(shí)能通過這些根網(wǎng)頁訪問的 所有網(wǎng)頁。任何特定網(wǎng)頁的關(guān)鍵詞可使用各種公知信息檢索技術(shù)來標(biāo)識(shí), 如標(biāo)識(shí)標(biāo)題行的文字、在網(wǎng)頁的元數(shù)據(jù)中提供的文字、突出顯示的文字等 等。搜索引擎服務(wù)基于網(wǎng)頁的關(guān)鍵字與查詢的文字匹配得如何來標(biāo)識(shí)可能 與搜索請(qǐng)求相關(guān)的網(wǎng)頁。搜索引擎服務(wù)隨后將到所標(biāo)識(shí)的網(wǎng)頁的鏈接以基 于可以按照其與查詢的相關(guān)度、流行度、重要性和/或其它度量來確定的排 名的順序顯示給用戶。
用于網(wǎng)頁排名的三種公知技術(shù)是PageRank (頁排名)、HITS ("引起
超鏈接的主題搜索")和DirectHIT (直接HIT) 。 PageRank基于網(wǎng)頁將具
有到重要網(wǎng)頁的鏈接(即,"引出鏈接")的原理。因而,網(wǎng)頁重要性基
于鏈接到該網(wǎng)頁(即,"引入鏈接")的其它網(wǎng)頁的數(shù)量與重要性。用簡 單形式,網(wǎng)頁之間的鏈接可以由鄰接矩陣」表示,其中^表示從網(wǎng)頁/到網(wǎng)
頁y的引出鏈接的數(shù)量。網(wǎng)頁^.的重要性分?jǐn)?shù)y可以由以下等式表示
該等式可以通過基于下面的等式的迭代計(jì)算來求解
二 "W
其中w是網(wǎng)頁的重要性分?jǐn)?shù)的向量,并且是f的主本征向量。
HITS技術(shù)另外基于具有到其它重要網(wǎng)頁的許多鏈接的網(wǎng)頁本身可能是重 要的原理。因而,HITS將網(wǎng)頁的"重要性"分成兩個(gè)相關(guān)屬性"中心(hub)" 和"權(quán)威(authority)"。"中心"是由網(wǎng)頁所鏈接到的網(wǎng)頁的"權(quán)威"分?jǐn)?shù)
來測(cè)量的,而"權(quán)威"是由鏈接到該網(wǎng)頁的網(wǎng)頁的"中心"分?jǐn)?shù)測(cè)量的。與獨(dú)
立于查詢來計(jì)算網(wǎng)頁重要性的PageRank相比,HITS基于結(jié)果的網(wǎng)頁和通過 跟隨引入和引出鏈接而與結(jié)果的網(wǎng)頁相關(guān)的網(wǎng)頁來計(jì)算重要性。HITS向搜索 引擎服務(wù)提交查詢并且使用結(jié)果的網(wǎng)頁作為初始網(wǎng)頁集。HITS向該集合添加 作為引入鏈接的目的地的那些網(wǎng)頁和作為結(jié)果的網(wǎng)頁的引出鏈接的源的那些 網(wǎng)頁。HITS隨后使用迭代算法計(jì)算每一網(wǎng)頁的權(quán)威和中心分?jǐn)?shù)。權(quán)威和中心 分?jǐn)?shù)可以由以下等式來表示
<formula>formula see original document page 6</formula>其中"C^表示網(wǎng)頁p的權(quán)烕分?jǐn)?shù)而A^)表示網(wǎng)頁p的中心分?jǐn)?shù)。HITS使用鄰
接矩陣X來表示這些鏈接。鄰接矩陣由以下等式表示
A 一 ,l如果頁面,具有到頁面y的鏈接
0(/ 一 to其它情況
向量a和A分別對(duì)應(yīng)于該集合中所有網(wǎng)頁的權(quán)威和中心分?jǐn)?shù),并且可以用
以下等式表示
因而,"和/z是矩陣^^4和^^的本征向量。HITS還可被修改來將按訪問數(shù)量
測(cè)量的網(wǎng)頁的流行度計(jì)算在內(nèi)。基于對(duì)點(diǎn)進(jìn)數(shù)據(jù)的分析,每當(dāng)用戶從網(wǎng)頁/移 動(dòng)至網(wǎng)頁/時(shí)就增加鄰接矩陣的6,。
DirectHIT基于過去的具有類似查詢的結(jié)果的用戶歷史對(duì)網(wǎng)頁排名。例如, 如果提交類似査詢的用戶通常首先選擇結(jié)果的第三個(gè)網(wǎng)頁,則該用戶歷史會(huì)是 第三個(gè)網(wǎng)頁的排名應(yīng)更高的指示。作為另一示例,如果提交類似査詢的用戶通 常首先花費(fèi)最多的時(shí)間査看結(jié)果的第四個(gè)網(wǎng)頁,則該用戶歷史會(huì)是第四個(gè)網(wǎng)頁 的排名應(yīng)更高的指示。DirectHIT從點(diǎn)進(jìn)數(shù)據(jù)的分析中導(dǎo)出這些用戶歷史。
某些排名技術(shù)使用機(jī)器學(xué)習(xí)算法從包括查詢、表示頁面的特征向量和對(duì)于 每一査詢的每一頁面排名的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)排名功能。排名功能用作從頁面特 征到其對(duì)于一給定査詢的排名的映射。排名功能的學(xué)習(xí)被某些人認(rèn)為是對(duì)于學(xué) 習(xí)特征向量到已排序數(shù)值排名集合的一個(gè)成員的映射的回歸問題。某些基于回 歸的技術(shù)試圖提供可被用來對(duì)頁面排名的絕對(duì)相關(guān)性分?jǐn)?shù)。然而,排名功能不 必提供絕對(duì)相關(guān)分?jǐn)?shù)而僅僅需要提供頁面的相對(duì)排名。因而,這些基于回歸的 技術(shù)解決比所需更困難的問題。
用于排名功能的機(jī)器學(xué)習(xí)算法使用查詢、特征向量和用戶標(biāo)記的相關(guān) 性分?jǐn)?shù)作為訓(xùn)練數(shù)據(jù)。為生成該訓(xùn)練數(shù)據(jù),可以將査詢提交給生成搜索結(jié) 果的頁面的搜索引擎。算法隨后為這些頁面生成特征向量并從用戶輸入每 一頁面的相關(guān)性分?jǐn)?shù)。這種方法的一個(gè)難點(diǎn)是搜索引擎可以返回上百個(gè)頁 面作為其搜索結(jié)果。用戶標(biāo)記搜索結(jié)果的所有頁面的代價(jià)很高。此外,用 戶準(zhǔn)確評(píng)估這么大數(shù)量的頁面的相關(guān)性是困難的。雖然用戶可以只標(biāo)記頁 面的一小部分,但是基于這一小部分的學(xué)習(xí)可能不能提供準(zhǔn)確的排名功能。
概述
提供了一種用于將己標(biāo)記文檔對(duì)于一査詢的相關(guān)性傳播至未標(biāo)記文檔 的相關(guān)性的方法和系統(tǒng)。傳播系統(tǒng)提供包括查詢、以其對(duì)于這些査詢的相 關(guān)性標(biāo)記的文檔和未標(biāo)記文檔的訓(xùn)練數(shù)據(jù)。傳播系統(tǒng)隨后計(jì)算訓(xùn)練數(shù)據(jù)中 文檔對(duì)之間的相似性。傳播系統(tǒng)隨后將已標(biāo)記文檔的相關(guān)性傳播至類似但 未標(biāo)記的文檔。傳播系統(tǒng)可以迭代地傳播文檔的標(biāo)記,直到其收斂于一解。 具有所傳播的相關(guān)性的訓(xùn)練數(shù)據(jù)隨后可以用于訓(xùn)練排名功能。
提供本概述以便以簡化形式介紹將在以下詳細(xì)描述中進(jìn)一步描述的一 些概念。本概述不旨在標(biāo)識(shí)所要求保護(hù)的主題的關(guān)鍵特征或必要特征,也 不旨在用于幫助確定所要求保護(hù)的主題的范圍。
附圖簡述
圖l是示出文檔圖的一部分的圖。
圖2是示出一實(shí)施例中傳播系統(tǒng)的組件的框圖。
圖3是示出一實(shí)施例中傳播系統(tǒng)的創(chuàng)建排名功能組件的處理的流程圖。
圖4是示出一實(shí)施例中傳播系統(tǒng)的傳播相關(guān)性組件的處理的流程圖。 圖5是示出一實(shí)施例中傳播系統(tǒng)的構(gòu)建圖組件的處理的流程圖。 圖6是示出一實(shí)施例中傳播系統(tǒng)的生成圖權(quán)重組件的處理的流程圖。 圖7是示出一實(shí)施例中傳播系統(tǒng)的歸一化圖權(quán)重組件的處理的流程圖。
圖8是示出一個(gè)實(shí)施例中傳播系統(tǒng)的基于圖傳播相關(guān)性組件的處理的 流程圖。詳細(xì)描述
提供了用于將對(duì)于一查詢的已標(biāo)記文檔的相關(guān)性傳播至未標(biāo)記文檔的 方法和系統(tǒng)。在一實(shí)施例中,該傳播系統(tǒng)提供包括查詢、以其對(duì)這些査詢 的相關(guān)性標(biāo)記的文檔(由特征向量所表示)和未標(biāo)記文檔的訓(xùn)練數(shù)據(jù)。例 如,傳播系統(tǒng)可以向搜索引擎提交查詢并將搜索結(jié)果用作文檔(例如,網(wǎng) 頁)。傳播系統(tǒng)隨后可以提示用戶基于其與査詢的相關(guān)性來標(biāo)記搜索結(jié)果 中的某些文檔。傳播系統(tǒng)隨后計(jì)算訓(xùn)練數(shù)據(jù)中文檔對(duì)之間的相似性。例如, 該傳播系統(tǒng)可以用特征向量表示每一文檔并且可以基于特征空間中的歐幾 里得距離或基于余弦相似性度量來計(jì)算文檔之間的相似性。傳播系統(tǒng)隨后 將已標(biāo)記文檔的相關(guān)性傳播至類似但未標(biāo)記的文檔。傳播系統(tǒng)可以迭代地 傳播文檔的標(biāo)記,直到其收斂于一解。具有所傳播的相關(guān)性的訓(xùn)練數(shù)據(jù)隨 后可以用于訓(xùn)練排名功能。以此方式,傳播系統(tǒng)可以基于文檔之間的相似 性用附加的訓(xùn)練數(shù)據(jù)來自動(dòng)擴(kuò)充訓(xùn)練數(shù)據(jù)。
在一實(shí)施例中,傳播系統(tǒng)使用文檔圖來表示文檔,該圖中的每一節(jié)點(diǎn) 表示一個(gè)文檔且每一邊表示由所連接的節(jié)點(diǎn)表示的文檔之間的相似性。傳 播系統(tǒng)可以將該圖表示為對(duì)每一文檔有一行和一列的方陣,該方陣中每一
非o值指示該行的節(jié)點(diǎn)和該列的節(jié)點(diǎn)之間的一條邊。傳播系統(tǒng)可以使用各
種技術(shù)來圖定義邊。例如,傳播系統(tǒng)可以認(rèn)為圖形是全連接的,在這種情 況下每一節(jié)點(diǎn)具有到所有其它節(jié)點(diǎn)的邊。作為另一示例,傳播系統(tǒng)可以認(rèn) 為節(jié)點(diǎn)通過最小生成樹來連接。在一個(gè)實(shí)施例中,傳播系統(tǒng)認(rèn)為節(jié)點(diǎn)使用k 最近鄰居算法來連接。具體地,傳播系統(tǒng)為每一節(jié)點(diǎn)標(biāo)識(shí)k最近鄰居并添 加從該節(jié)點(diǎn)到其k個(gè)最近鄰居中的每一個(gè)的邊。傳播系統(tǒng)隨后基于由所連 接的邊表示的文檔之間相似性來為這些邊計(jì)算權(quán)重。傳播系統(tǒng)可以使用各 種技術(shù)來確定文檔之間的相似性。在一實(shí)施例中,傳播系統(tǒng)使用特征空間 中的基于文檔的特征向量表示的歐幾里得距離度量。傳播系統(tǒng)將相似性存 儲(chǔ)為方陣的值,從而得到相似性或仿射矩陣。傳播系統(tǒng)還可以歸一化該相
似性矩陣。傳播系統(tǒng)還可以將對(duì)角值設(shè)置為0以防止相關(guān)性傳播期間的自 強(qiáng)化(self-reinforcement) 0
生成相似性矩陣之后,傳播系統(tǒng)使用基于流形排名的傳播算法將已標(biāo)
記文檔的相關(guān)性傳播至未標(biāo)記的文檔。基于流形排名的算法在He, J.,Li, M., Zhang, H丄等人的"Manifold-Ranking Based Image Retrieval", 2004年第12 屆ACM國際會(huì)議多媒體方向(the 12th Annual ACM International Conf. on Multimedia, 2004)會(huì)刊中有描述。傳播系統(tǒng)最初將已標(biāo)記文檔的相關(guān)性設(shè) 置為用戶所提供的相關(guān)性分?jǐn)?shù)并將未標(biāo)記的文檔的相關(guān)性分?jǐn)?shù)設(shè)置為0。傳 播系統(tǒng)隨后將由相似性矩陣所指示的相似性計(jì)算在內(nèi),將已標(biāo)記文檔的相 關(guān)性傳播至其相連的未標(biāo)記文檔。傳播系統(tǒng)迭代地傳播相關(guān)性分?jǐn)?shù),直到 相關(guān)性分?jǐn)?shù)收斂于一解。未標(biāo)記文檔的所得的相關(guān)性分?jǐn)?shù)與其與已標(biāo)記文 檔相同的査詢相關(guān)的概率成比例。與許多具有高相關(guān)性分?jǐn)?shù)的已標(biāo)記文檔
非常相似的未標(biāo)記文檔因而具有高相關(guān)性分?jǐn)?shù)。相反,與任何已標(biāo)記文檔 都不非常相似的未標(biāo)記文檔具有低相關(guān)性分?jǐn)?shù)。
傳播系統(tǒng)可以使用可由如下方程表示的拉普拉斯核來表示相似性 <formula>formula see original document page 9</formula>
其中、'和 分別表示A和^的第1維,^表示特征空間的維數(shù),而 表示反 映相似性計(jì)算中不同維的權(quán)重的正參數(shù)。因而,傳播系統(tǒng)以如下方程表示 邊的權(quán)重
<formula>formula see original document page 9</formula>(2)
其中,^表示文檔z'和7之間的相似性。由于常數(shù)系數(shù)^A對(duì)相似性矩陣^ 的影響會(huì)被矩陣的歸一化所抵消,故傳播系統(tǒng)將其省略。傳播系統(tǒng)如由以 下方程所表示地歸一化相似性矩陣
<formula>formula see original document page 9</formula> (3)
其中,s表示歸一化的相似性矩陣而o表示對(duì)角矩陣,其中(。')等于相似性 矩陣『的第/行的和。該歸一化將相似性歸一化為相關(guān)于所連接的文檔的相似性。
傳播系統(tǒng)可以將每一文檔表示為形成歐幾里得空間中的一點(diǎn)的'維特 征向量x。對(duì)于一個(gè)査詢,傳播系統(tǒng)接收文檔的結(jié)果集
<formula>formula see original document page 9</formula>。前w點(diǎn)(特征空間中)表示用戶標(biāo)記的 文檔,而后"點(diǎn)(特征空間中)表示未標(biāo)記的文檔。傳播系統(tǒng)還接收相對(duì)應(yīng)
的標(biāo)記向量<formula>formula see original document page 10</formula>。后n個(gè)標(biāo)記具有為0的值以表示未
標(biāo)記文檔。傳播系統(tǒng)還可以允許指定負(fù)標(biāo)記,而不僅僅是正標(biāo)記,以表示 負(fù)相關(guān)示例。傳播系統(tǒng)將特征空間中文檔之間的距離表示為^'義x義—口 , 這對(duì)每一對(duì)點(diǎn)A和、分配一距離^^、),并將文檔的排名函數(shù)表示為 —□,這向每一點(diǎn)、分配了排名分?jǐn)?shù)乂。排名功能學(xué)習(xí)問題是從一組
具有特征y—w和標(biāo)記y—"的査詢中學(xué)習(xí)。傳播系統(tǒng)通過如
下方程表示相關(guān)性傳播的限制
<formula>formula see original document page 10</formula>
其中,/'表示相關(guān)性的限制,y表示初始標(biāo)記,而"表示衰減因子。因?yàn)?計(jì)算歸一化的相似性矩陣s的逆在計(jì)算上是困難的,所以傳播系統(tǒng)使用泰勒
級(jí)數(shù)展開來逼近Z 。傳播系統(tǒng)通過如下方程表示該泰勒級(jí)數(shù)展開
<formula>formula see original document page 10</formula>
傳播系統(tǒng)迭代地求解Z,直到其收斂于一解或迭代了固定次數(shù)。
相關(guān)性被傳播之后,傳播標(biāo)記的系統(tǒng)可以使用訓(xùn)練數(shù)據(jù)集(査詢和已 標(biāo)記特征向量)來訓(xùn)練排名功能。排名功能可以被實(shí)現(xiàn)為支持向量機(jī)、自 適應(yīng)增強(qiáng)分類器(boosting classifier)、神經(jīng)網(wǎng)絡(luò)分類器等等。支持向量機(jī) 通過在可能的輸入的空間中尋找超曲面來操作。超曲面嘗試通過將正和負(fù) 示例中最接近的兩個(gè)之間的距離最大化到該超曲面來從負(fù)示例中分出正示 例。這允許相似于但不同于訓(xùn)練數(shù)據(jù)的數(shù)據(jù)的正確的分類??墒褂酶鞣N技 術(shù)來訓(xùn)練支持向量機(jī)。 一種技術(shù)使用將大二次規(guī)劃問題分解成一系列可被 分析上解決的小二次規(guī)劃問題的順序最小優(yōu)化算法。(請(qǐng)參考 http:〃research.microsoft.com/ jplatt/smo.html上的順序最小優(yōu)化。)
自適應(yīng)增強(qiáng)是在訓(xùn)練數(shù)據(jù)的集合上運(yùn)行多次測(cè)試的迭代過程。自適應(yīng) 增強(qiáng)將弱學(xué)習(xí)算法(僅以比偶然性稍好的級(jí)別執(zhí)行的算法)變換成強(qiáng)學(xué)習(xí)
算法(顯示低誤差率的算法)。弱學(xué)習(xí)算法在訓(xùn)練數(shù)據(jù)的不同子集上運(yùn)行。 該算法越來越專注于其前導(dǎo)傾向于顯示錯(cuò)誤的那些示例。該算法校正由早 先的弱學(xué)習(xí)算法所造成的誤差。因?yàn)槠湔{(diào)整其前導(dǎo)的誤差率,因此該算法
是自適應(yīng)的。自適應(yīng)增強(qiáng)組合粗略和適度地不準(zhǔn)確的經(jīng)驗(yàn)法則以創(chuàng)建高性 能算法。自適應(yīng)增強(qiáng)將各獨(dú)立運(yùn)行測(cè)試的結(jié)果組合成單個(gè)、非常準(zhǔn)確的分 類器。
神經(jīng)網(wǎng)絡(luò)模型具有三個(gè)主要組件架構(gòu)、成本函數(shù)和搜索算法。架構(gòu)
定義將輸入和輸出相關(guān)的功能形式(按照網(wǎng)絡(luò)拓?fù)?、單元連通度和激活功 能)。訓(xùn)練過程是在權(quán)重空間中搜索最小化目標(biāo)函數(shù)的一組權(quán)重。神經(jīng)網(wǎng) 絡(luò)模型可以使用徑向基函數(shù)("RBF")網(wǎng)絡(luò)并用標(biāo)準(zhǔn)梯度下降作為其搜 索技術(shù)。
圖1是示出作為查詢的搜索結(jié)果返回的文檔圖的圖示。在該示例中, 子圖100表示搜索結(jié)果中所返回的文檔的一部分。節(jié)點(diǎn)101-112表示搜索 結(jié)果的12個(gè)文檔。節(jié)點(diǎn)101和106表示已標(biāo)記文檔。由節(jié)點(diǎn)101所表示的 文檔用相關(guān)性分?jǐn)?shù).75標(biāo)記,而由節(jié)點(diǎn)106所表示的文檔用相關(guān)性分?jǐn)?shù).6標(biāo) 記。傳播系統(tǒng)使用最近鄰居算法生成節(jié)點(diǎn)之間的邊。在該示例中,節(jié)點(diǎn)102、 103和104是節(jié)點(diǎn)101的k個(gè)最近鄰居中的每一個(gè),但節(jié)點(diǎn)105-112不是k 個(gè)最近鄰居中的一個(gè)。傳播系統(tǒng)隨后使用相似分?jǐn)?shù)算法計(jì)算所連接的節(jié)點(diǎn) 之間的相似性。例如,節(jié)點(diǎn)101以具有指示所連接的節(jié)點(diǎn)之間的相似性的 權(quán)重8的邊連接到節(jié)點(diǎn)102。
圖2是示出一實(shí)施例中的傳播系統(tǒng)的組件的框圖。傳播系統(tǒng)230通過 通信鏈路220 (例如,因特網(wǎng))連接到文檔存儲(chǔ)210 (例如,網(wǎng)站)。傳播 系統(tǒng)包括收集訓(xùn)練數(shù)據(jù)組件231、訓(xùn)練數(shù)據(jù)存儲(chǔ)232和文檔索引233。文檔 索引包含文檔存儲(chǔ)中的文檔(例如,網(wǎng)頁)的索引。該文檔索引可由web 爬行器生成。文檔索引可以包括用以訓(xùn)練排名功能的每一文檔的特征向量。 這些特征向量可以表示文檔的許多不同類型的特征,如逆文檔頻率、關(guān)鍵 字、字體大小等等。收集訓(xùn)練數(shù)據(jù)組件向搜索引擎(未示出)提交查詢, 并接收匹配這些查詢的文檔。搜索引擎可以獨(dú)立于傳播系統(tǒng)。在這種情況 下,傳播系統(tǒng)可以從搜索結(jié)果中動(dòng)態(tài)地生成特征向量。收集訓(xùn)練數(shù)據(jù)組件 可以提示用戶標(biāo)記匹配這些査詢的文檔中的某一些的相關(guān)性。收集訓(xùn)練數(shù) 據(jù)組件將查詢、搜索結(jié)果(例如,特征向量)和標(biāo)記存儲(chǔ)在訓(xùn)練數(shù)據(jù)存儲(chǔ) 中。傳播系統(tǒng)還包括傳播相關(guān)性組件235、構(gòu)建圖組件236、生成圖權(quán)重組
件237、歸一化圖權(quán)重組件238和基于圖傳播相關(guān)性組件239。傳播相關(guān)性 組件將己標(biāo)記文檔的相關(guān)性傳播至存儲(chǔ)于訓(xùn)練數(shù)據(jù)存儲(chǔ)中的未標(biāo)記文檔。 傳播相關(guān)性組件調(diào)用構(gòu)建圖組件以構(gòu)建包括表示搜索結(jié)果的文檔的邊的 圖。傳播相關(guān)性組件隨后調(diào)用生成圖權(quán)重組件來為圖的各邊生成初始權(quán)重。 傳播相關(guān)性組件調(diào)用歸一化圖權(quán)重組件來歸一化所生成的權(quán)重。傳播相關(guān) 性組件隨后調(diào)用基于圖傳播相關(guān)性組件以執(zhí)行從已標(biāo)記文檔到未標(biāo)記文檔 的相關(guān)性的實(shí)際傳播。傳播系統(tǒng)還包括創(chuàng)建排名功能組件241和排名功能 242。創(chuàng)建排名功能使用具有所傳播的相關(guān)性的訓(xùn)練數(shù)據(jù)來創(chuàng)建排名功能。
其上可以實(shí)現(xiàn)傳播系統(tǒng)的計(jì)算設(shè)備可以包括中央處理單元、存儲(chǔ)器、 輸入設(shè)備(例如,鍵盤和定點(diǎn)設(shè)備)、輸出設(shè)備(例如,顯示設(shè)備)和存 儲(chǔ)設(shè)備(例如,盤驅(qū)動(dòng)器)。存儲(chǔ)器和存儲(chǔ)設(shè)備是可以包含實(shí)現(xiàn)傳播系統(tǒng) 的指令的計(jì)算機(jī)可讀介質(zhì)。此外,數(shù)據(jù)結(jié)構(gòu)和消息結(jié)構(gòu)可被存儲(chǔ)或經(jīng)由諸 如通信鏈路上的信號(hào)之類的數(shù)據(jù)傳輸介質(zhì)發(fā)送??梢允褂酶鞣N通信鏈路, 如因特網(wǎng)、局域網(wǎng)、廣域網(wǎng)或點(diǎn)對(duì)點(diǎn)撥號(hào)連接。
傳播系統(tǒng)可以向各種計(jì)算系統(tǒng)或設(shè)備提供服務(wù),包括個(gè)人計(jì)算機(jī)、服 務(wù)器計(jì)算機(jī)、手持式或膝上型設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、 可編程消費(fèi)電子產(chǎn)品、網(wǎng)絡(luò)PC、小型計(jì)算機(jī)、大型計(jì)算機(jī)、包括任一上述 系統(tǒng)或設(shè)備的分布式計(jì)算環(huán)境等等。
傳播系統(tǒng)可以在諸如程序模塊等由一個(gè)或多個(gè)計(jì)算機(jī)或其他設(shè)備執(zhí)行 的計(jì)算機(jī)可執(zhí)行指令的通用上下文中描述。 一般而言,程序模塊包括執(zhí)行
特定的任務(wù)或?qū)崿F(xiàn)特定的抽象數(shù)據(jù)類型的例程、程序、對(duì)象、組件、數(shù)據(jù) 結(jié)構(gòu)等等。通常,程序模塊的功能可以在各個(gè)實(shí)施例中按需進(jìn)行組合或分 布。
圖3是示出一實(shí)施例中傳播系統(tǒng)的創(chuàng)建排名功能組件的處理的流程 圖。創(chuàng)建排名功能組件收集訓(xùn)練數(shù)據(jù),將己標(biāo)記文檔的相關(guān)性傳播至未標(biāo) 記文檔,并隨后訓(xùn)練一排名功能。在框301,該組件收集訓(xùn)練數(shù)據(jù)。在框 302,該組件為訓(xùn)練數(shù)據(jù)的一個(gè)子集輸入標(biāo)記。在框303,該組件調(diào)用傳播 相關(guān)性組件以將已標(biāo)記文檔的相關(guān)性傳播至未標(biāo)記文檔。在框304,該組件 使用該傳播的相關(guān)性來訓(xùn)練排名功能。
圖4是示出一實(shí)施例中傳播系統(tǒng)的傳播相關(guān)性組件的處理的流程圖。 該組件被提供訓(xùn)練數(shù)據(jù)并將已標(biāo)記文檔的相關(guān)性傳播至未標(biāo)記文檔。在框 401,該組件調(diào)用構(gòu)建圖組件以構(gòu)建包括邊的初始圖。在框402,該組件調(diào) 用生成圖權(quán)重組件以生成指示由連接的節(jié)點(diǎn)所表示的文檔之間的相似性的 權(quán)重。在框403,該組件調(diào)用歸一化圖權(quán)重組件以歸一化圖的權(quán)重。在框 404,該組件調(diào)用基于圖傳播相關(guān)性組件以執(zhí)行相關(guān)性的傳播。隨后該組件 完成。
圖5是示出一實(shí)施例中傳播系統(tǒng)的構(gòu)建圖組件的處理的流程圖。該組 件創(chuàng)建每一行和列表示一文檔的方陣。該組件隨后在每一節(jié)點(diǎn)和其k個(gè)最 近鄰居(例如,k=10)之間標(biāo)識(shí)并添加連接。在框501,該組件選擇下一 個(gè)文檔z'。在判定框502,如果已經(jīng)選擇了所有文檔"則該組件返回,否則 該組件繼續(xù)至框503。在框503,該組件選擇下一個(gè)文檔7。在判定框504, 如果已為所選文檔z'選擇了所有的文檔八則該組件繼續(xù)至框506,否則該 組件繼續(xù)至框505。在框505,該組件計(jì)算所選文檔z'和所選文檔y之間的距 離,并隨后循環(huán)至框503以選擇下一文檔7。在框506,該組件選擇具有對(duì) 于文檔z'的最小距離的10個(gè)文檔7 (即,最近的鄰居),并隨后循環(huán)至框 501以選擇下一文檔''。
圖6是示出一實(shí)施例中傳播系統(tǒng)的生成圖權(quán)重組件的處理的流程圖。 該組件基于曼哈頓(Manhattan)度量計(jì)算連接的節(jié)點(diǎn)之間的相似性。在框 601,該組件選擇下一個(gè)文檔''。在判定框602,如果已經(jīng)選擇了所有文檔" 則該組件返回,否則該組件繼續(xù)至框603。在框603,該組件將文檔與其自 身的相似性初始化為0。在框604,該組件選擇對(duì)所選文檔z'的下一最近文 檔7 (例如, 一連接的文檔)。在判定框605,如果已選擇了對(duì)于所選文檔 Z的所有最近文檔人則該組件循環(huán)至框601以選擇下一文檔"否則該組件 繼續(xù)至框606。在框606,該組件將所選文檔Z和所選文檔y之間的相似性初 始化為1。在框607-609,該組件循環(huán)計(jì)算距離度量。在框607,該組件選 擇特征向量的下一維Z。在判定框608,如果己經(jīng)選擇了所有維,則該組件 循環(huán)至框604以選擇下一個(gè)最近文檔7',否則該組件繼續(xù)至框609。在框609, 該組件根據(jù)方程2將所選文檔^和所選文檔7之間的相似性設(shè)置為其當(dāng)前相 似性乘以所選文檔Z'和所選文檔J的所選特征Z之間的差異的函數(shù)。該組件隨 后循環(huán)至框607以選擇下一維。
圖7是示出一個(gè)實(shí)施例中傳播系統(tǒng)的歸一化圖權(quán)重組件的處理的流程 圖。該組件歸一化相似性矩陣的權(quán)重。在框701,該組件選擇相似性矩陣的 下一行z'。在判定框702,如果已選擇了所有行,則該組件繼續(xù)至框706, 否則該組件繼續(xù)至框703。在框703-705,該組件計(jì)算對(duì)角矩陣的所選行 的值。在框703,該組件選擇相似性矩陣的下一列八在判定框704,如果 已經(jīng)選擇了所有列,則該組件循環(huán)至框701以選擇下一行,否則該組件繼 續(xù)至框705。在框705,該組件將所選行z'和所選列y的權(quán)重添加至所選行z'的 對(duì)角元素。該組件隨后循環(huán)至框703以為所選行z'選擇下一列y。在框706, 該組件根據(jù)方程3歸一化相似性矩陣。
圖8是示出一個(gè)實(shí)施例中傳播系統(tǒng)的基于圖傳播相關(guān)性組件的處理的 流程圖。該組件迭代地計(jì)算方程5的泰勒級(jí)數(shù)展開,直到其收斂于一解。 在框801,該組件將索引!'初始化為0。在框802,該組件將解向量初始化為 0。在框803-805,該組件循環(huán)直到其收斂于一解。在框803,該組件基于 前一迭代的值加上泰勒級(jí)數(shù)展開的下一因子計(jì)算下一迭代的值。在判定框 804,如果各值收斂于一解,則該組件返回,否則該組件繼續(xù)至框805。在 框805,該組件將索引遞增至下一迭代,并循環(huán)至框803以執(zhí)行下一迭代。
盡管用對(duì)結(jié)構(gòu)特征和/或方法動(dòng)作專用的語言描述了本主題,但可以理 解,所附權(quán)利要求書中定義的主題不必限于上述具體特征或動(dòng)作。相反, 上述具體特征和動(dòng)作作為實(shí)現(xiàn)權(quán)利要求的示例形式公開的。傳播系統(tǒng)可以 被用來擴(kuò)充搜索結(jié)果。例如,搜索引擎可以基于某一文檔語料庫來生成搜 索結(jié)果。隨后可以使用該傳播系統(tǒng)將搜索結(jié)果的文檔的相關(guān)性傳播至不同 語料庫。具有最高相關(guān)性的不同語料庫的文檔隨后可以被添加至搜索結(jié)果
中。傳播系統(tǒng)可以被用來從以其對(duì)于一查詢的相關(guān)性來標(biāo)記的文檔到未標(biāo) 記文檔來傳播相關(guān)性(査詢內(nèi)傳播),或從以其對(duì)于多個(gè)查詢的相關(guān)性來 標(biāo)記的文檔到未標(biāo)記文檔來傳播相關(guān)性(查詢間傳播)。該傳播組件為每 一查詢用查詢內(nèi)傳播單獨(dú)訓(xùn)練該訓(xùn)練組件并同時(shí)用查詢間傳播為多個(gè)查詢 訓(xùn)練該訓(xùn)練組件。因此,本發(fā)明只由所附權(quán)利要求來限制。
權(quán)利要求
1. 一種用于訓(xùn)練文檔排名組件的系統(tǒng),包括包含訓(xùn)練數(shù)據(jù)的訓(xùn)練數(shù)據(jù)存儲(chǔ)(232),所述訓(xùn)練數(shù)據(jù)包括文檔的表示,以及對(duì)于多個(gè)查詢中的每一查詢,用所述文檔中的某一些對(duì)于所述查詢的相關(guān)性而對(duì)所述文檔進(jìn)行的標(biāo)記;基于文檔之間的相似性將已標(biāo)記文檔的相關(guān)性傳播至未標(biāo)記文檔的傳播相關(guān)性組件(235);以及訓(xùn)練文檔排名組件以基于所述訓(xùn)練數(shù)據(jù)中的所傳播的所述文檔的相關(guān)性來對(duì)文檔對(duì)于查詢的相關(guān)性進(jìn)行排名的訓(xùn)練組件(241)。
2. 如權(quán)利要求l所述的系統(tǒng),其特征在于,所述文檔排名組件實(shí)現(xiàn)選 自由神經(jīng)網(wǎng)絡(luò)算法、自適應(yīng)增強(qiáng)算法和支持向量機(jī)算法所組成的組的分類 算法。
3. 如權(quán)利要求l所述的系統(tǒng),其特征在于,所述文檔排名組件實(shí)現(xiàn)基 于回歸的算法。
4. 如權(quán)利要求1所述的系統(tǒng),其特征在于,所述傳播相關(guān)性組件為每一查詢單獨(dú)傳播相關(guān)性,且所述訓(xùn)練組件使用所述單獨(dú)傳播的相關(guān)性來訓(xùn)練所述文檔排名組件。
5. 如權(quán)利要求1所述的系統(tǒng),其特征在于,所述傳播相關(guān)性組件同時(shí)為多個(gè)查詢傳播相關(guān)性,且所述訓(xùn)練組件使用所述同時(shí)傳播的相關(guān)性來訓(xùn)練所述文檔排名組件。
6. 如權(quán)利要求l所述的系統(tǒng),其特征在于,包括創(chuàng)建其中文檔被表示為由表示文檔之間的相似性的邊所連接的節(jié)點(diǎn)的圖的圖組件。
7. 如權(quán)利要求6所述的系統(tǒng),其特征在于,所述圖組件包括構(gòu)建其中表示相似文檔的節(jié)點(diǎn)通過邊進(jìn)行連接的圖的構(gòu)建圖組件;以及基于由所述連接的節(jié)點(diǎn)所表示的文檔的相似性為所述邊生成權(quán)重的生成權(quán)重組件。
8. 如權(quán)利要求7所述的系統(tǒng),其特征在于,所述構(gòu)建圖組件使用最近鄰居算法在節(jié)點(diǎn)之間建立邊。
9. 如權(quán)利要求l所述的系統(tǒng),其特征在于,所述傳播相關(guān)性組件使用基于流形排名的算法來傳播相關(guān)性。
10. —種包含用于控制計(jì)算機(jī)系統(tǒng)以一種方法來訓(xùn)練文檔排名組件的指令的計(jì)算機(jī)可讀介質(zhì),所述方法包括提供(232)文檔的表示以及對(duì)所述文檔中的某一些的的標(biāo)記,所述標(biāo) 記指示文檔對(duì)于一査詢的相關(guān)性;創(chuàng)建(236)其中文檔被表示為由邊連接的節(jié)點(diǎn)的圖,所述邊表示由所 述連接的節(jié)點(diǎn)表示的文檔之間的相關(guān)性;根據(jù)由所創(chuàng)建的圖形所指示的文檔之間的相似性并根據(jù)基于流形排名 的算法將已標(biāo)記文檔的相關(guān)性傳播(239)至未標(biāo)記文檔;以及訓(xùn)練(241)文檔排名組件以基于所述文檔的所傳播的相關(guān)性來對(duì)文檔 對(duì)于查詢的相關(guān)性排名。
11. 如權(quán)利要求IO所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述文檔排 名組件實(shí)現(xiàn)選自貝葉斯網(wǎng)絡(luò)算法、自適應(yīng)增強(qiáng)算法和支持向量機(jī)算法所組 成的組中的分類算法。
12. 如權(quán)利要求IO所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述文檔排 名組件實(shí)現(xiàn)基于回歸的排名算法。
13. 如權(quán)利要求IO所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述相關(guān)性 的傳播為每一查詢單獨(dú)傳播相關(guān)性,且所述文檔排名組件的訓(xùn)練使用所述 單獨(dú)傳播的相關(guān)性來訓(xùn)練。
14. 如權(quán)利要求IO所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述傳播相 關(guān)性組件傳播相關(guān)性〔查詢間傳播〕。
15. 如權(quán)利要求IO所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,圖的創(chuàng)建包括構(gòu)建其中表示相似文檔的節(jié)點(diǎn)通過邊進(jìn)行連接的圖;以及 基于由所述連接的節(jié)點(diǎn)所表示的文檔的相似性為所述邊生成權(quán)重。
16. —種用于訓(xùn)練文檔排名組件的系統(tǒng),包括提供文檔的表示以及對(duì)所述文檔中的某一些的標(biāo)記的組件(231),所 述標(biāo)記指示所述文檔對(duì)于査詢的相關(guān)性; 創(chuàng)建其中文檔被表示為由邊連接的節(jié)點(diǎn)的圖的組件(236),所述邊表 示由所述連接的節(jié)點(diǎn)表示的文檔之間的相關(guān)性;基于由所創(chuàng)建的圖指示的文檔之間的相似性將已標(biāo)記文檔的相關(guān)性傳 播至未標(biāo)記文檔的組件(239);以及生成基于所述文檔的所傳播的相關(guān)性來對(duì)文檔對(duì)于查詢的相關(guān)性進(jìn)行 排名的文檔排名組件的組件。
17. 如權(quán)利要求16所述的系統(tǒng),其特征在于,所述傳播相關(guān)性的組件根據(jù)基于流形排名的算法來傳播相關(guān)性。
18. 如權(quán)利要求17所述的系統(tǒng),其特征在于,所述傳播相關(guān)性的組件 同時(shí)為多個(gè)查詢傳播相關(guān)性,且所述生成文檔排名組件的組件使用所述同 時(shí)傳播的相關(guān)性來生成所述組件。
19. 如權(quán)利要求16所述的系統(tǒng),其特征在于,所述創(chuàng)建圖的組件構(gòu)建 圖,基于由所述連接的節(jié)點(diǎn)所表示的文檔之間的相似性為所述邊生成權(quán)重。
20. 如權(quán)利要求16所述的系統(tǒng),其特征在于,所述文檔排名組件實(shí)現(xiàn) 基于回歸的排名算法。
全文摘要
提供了一種用于將已標(biāo)記文檔對(duì)于一查詢的相關(guān)性傳播至未標(biāo)記文檔的方法和系統(tǒng)。傳播系統(tǒng)提供包括查詢、以其對(duì)于這些查詢的相關(guān)性標(biāo)記的文檔和未標(biāo)記文檔的訓(xùn)練數(shù)據(jù)。傳播系統(tǒng)隨后計(jì)算訓(xùn)練數(shù)據(jù)中文檔對(duì)之間的相似性。傳播系統(tǒng)隨后將已標(biāo)記文檔的相關(guān)性傳播至類似但未標(biāo)記的文檔。傳播系統(tǒng)可以迭代地傳播文檔的標(biāo)記,直到其收斂于一解。具有所傳播的相關(guān)性的訓(xùn)練數(shù)據(jù)隨后可以被用于訓(xùn)練排名功能。
文檔編號(hào)G06F17/30GK101390096SQ200780006713
公開日2009年3月18日 申請(qǐng)日期2007年2月27日 優(yōu)先權(quán)日2006年2月27日
發(fā)明者李明敬, 李智偉, 玨 王, 馬韋瑩 申請(qǐng)人:微軟公司