專利名稱:確定所關(guān)注的域的相關(guān)信息的制作方法
技術(shù)領(lǐng)域:
以下公開總體涉及確定與所關(guān)注的域有關(guān)的相關(guān)信息,例如與域內(nèi)的主題有關(guān) 和/或與其內(nèi)容關(guān)于這種主題的文檔有關(guān)的信息。
背景技術(shù):
信息的豐富性在來自多種源的許多種話題上對用戶來說是可用的。例如,萬維 網(wǎng)(“網(wǎng)絡(luò)”)的部分與在因特網(wǎng)上分布的文檔和其他數(shù)據(jù)資源的電子圖書館類似,其中 有幾十億個文檔可用。此外,各種其他信息經(jīng)由其他通信介質(zhì)而變得可用。在有豐富的可用信息的情況下,對與用戶的特定關(guān)注相匹配的文檔和其他信息 進行定位可能是困難的。一種嘗試對文檔進行定位的選項涉及使用各種基于網(wǎng)絡(luò)的搜索 引擎來執(zhí)行搜索。典型的網(wǎng)絡(luò)搜索涉及用戶向搜索引擎提供包括一個或多個搜索詞在內(nèi) 的搜索詢問,其中,在一些情形中,搜索詢問還包括均與搜索詞中的一個或多個相關(guān)的 一個或多個邏輯搜索運算符(如“AND”、“OR”、“NOT”、需要特定搜索詞的指示 等等)。在接收到這種搜索詢問之后,搜索引擎典型地識別內(nèi)容與搜索詢問相匹配(例 如,內(nèi)容包括所需搜索詞中的每一個)的至少一些可用文檔,產(chǎn)生包括與所識別的文檔 中的一個或多個的鏈接在內(nèi)的一個或多個網(wǎng)頁,并向用戶提供所產(chǎn)生的網(wǎng)頁中的一個或 多個,作為搜索詢問的搜索結(jié)果。此外,典型地,輸入相同搜索串的不同用戶接收到相 同搜索結(jié)果。搜索引擎使用各種技術(shù)來識別內(nèi)容與特定搜索詞相匹配的文檔。例如,一些搜 索引擎在接收到搜索請求之前進行自動化預(yù)處理,以創(chuàng)建將詞映射至內(nèi)容包括這些詞的 網(wǎng)頁的索引。典型地,這種預(yù)處理使用被稱作爬上網(wǎng)絡(luò)的“網(wǎng)絡(luò)蜘蛛”的自動化程序, 來識別文檔,從而例如通過穿越從已知網(wǎng)頁至新網(wǎng)頁的鏈接來進行索引。此外,一些搜 索引擎使用對文檔的手動歸類,經(jīng)由例如類別和子類別的分集目錄,跟蹤哪些網(wǎng)頁與指 定類別和/或詞相關(guān)。因此,在一些情況下,來自搜索引擎的搜索結(jié)果可以基于來自自 動預(yù)先產(chǎn)生的索引和/或來自手動預(yù)先產(chǎn)生的類別目錄的信息。然而,現(xiàn)有搜索引擎和用于識別所關(guān)注信息的其他技術(shù)遇到各種問題。
圖IA和IB示意了用于確定與所關(guān)注的域有關(guān)的相關(guān)信息的技術(shù)的示例。
圖2A-2L示意了用于確定與所關(guān)注的示例域有關(guān)的相關(guān)信息的技術(shù)的示例。圖3是示意了用于確定與所關(guān)注的域有關(guān)的相關(guān)信息的計算系統(tǒng)的示例的框 圖。圖4示意了域?qū)S孟嚓P(guān)性確定服務(wù)例程的示例實施例的流程圖。圖5示意了域分析管理器例程的示例實施例的流程圖。圖6示意了相關(guān)主題確定管理器例程的示例實施例的流程圖。圖7示意了相關(guān)文檔確定管理器例程的示例實施例的流程圖。
具體實施例方式描述了用于確定和使用與所關(guān)注的話題和題目區(qū)域(這里還稱作所關(guān)注的域)有 關(guān)的相關(guān)信息的技術(shù)。在至少一些實施例中,這些技術(shù)包括自動分析與一個或多個所 關(guān)注的有關(guān)域有關(guān)的文檔和其他內(nèi)容項目,以自動確定與域內(nèi)的相關(guān)主題有關(guān)和/或與 哪些內(nèi)容項目具有關(guān)于這種主題的內(nèi)容有關(guān)的信息。那么,這種自動確定的針對域的相 關(guān)信息可以以各種方式使用,這些方式包括幫助用戶指定所關(guān)注的主題和/或獲得具 有與指定主題相關(guān)的內(nèi)容的內(nèi)容項目。此外,在至少一些實施例中,可以跟蹤與信息如 何被用戶和其他實體使用有關(guān)的信息,并將其用作對學(xué)習(xí)對域內(nèi)的相關(guān)主題和/或相關(guān) 內(nèi)容項目(例如通過使用自動化機器學(xué)習(xí)技術(shù))的改進確定的反饋。此外,在至少一些 情形中,這些技術(shù)可以與計算機實現(xiàn)的域?qū)S孟嚓P(guān)性確定(“DSRD” )服務(wù)的實施例結(jié) 合使用,該計算機實現(xiàn)的域?qū)S孟嚓P(guān)性確定服務(wù)自動確定與所關(guān)注的域有關(guān)的相關(guān)性信 息并提供這種信息以供其他使用,如以下更詳細(xì)地描述。如前所述,在至少一些實施例中,所描述的技術(shù)包括自動分析與所關(guān)注的域 有關(guān)的文檔和其他內(nèi)容項目,以自動確定與與域內(nèi)的相關(guān)主題有關(guān)和/或與哪些內(nèi)容項 目具有關(guān)于這種主題的內(nèi)容有關(guān)的信息(例如通過產(chǎn)生使特定內(nèi)容項目與特定詞和/或 主題相關(guān)的索引)。盡管以上各種討論將內(nèi)容項目稱作“文檔”,但應(yīng)當(dāng)理解,所描述 的技術(shù)可以與許多種類型的內(nèi)容項目一起使用,這些內(nèi)容項目包括例如文本文檔(如網(wǎng) 頁、字處理文檔、幻燈片以及其他演示文稿、電子郵件和其他電子消息等)、圖像、視頻 文件、音頻文件、軟件代碼、固件和其他邏輯、均伴有一個或多個遺傳信息序列的遺傳 密碼、其他生物數(shù)據(jù)等。此外,內(nèi)容項目可以具有一種或多種文件類型或其他數(shù)據(jù)結(jié)構(gòu) (例如流傳輸數(shù)據(jù)),包括文檔片段、或者更大文檔的其他段或部分、或者內(nèi)容項目,并 且,這種內(nèi)容項目的內(nèi)容可以包括文本和/或多種其他類型的數(shù)據(jù)(例如,音頻信息的 二進制編碼;視頻信息的二進制編碼;圖像信息的二進制編碼;數(shù)學(xué)等式和數(shù)學(xué)數(shù)據(jù)結(jié) 構(gòu)、其他類型的字母數(shù)字?jǐn)?shù)據(jù)結(jié)構(gòu)和/或符號數(shù)據(jù)結(jié)構(gòu);加密的數(shù)據(jù)等等)。在至少一些 實施例中,專用于域的多個文檔的組由DSRD服務(wù)的實施例選擇并自動分析。文檔的組 可以例如是包括特定域的所有可用文檔在內(nèi)或包括足以表示該域的文檔在內(nèi)的文集。此 外,要分析的文檔可以是從一個或多個源獲得的,例如,從包括專用于一個或多個域的 廣泛信息在內(nèi)的網(wǎng)站(例如,包括與棒球有關(guān)的廣泛信息在內(nèi)的假設(shè)“all-baseball-now. com”網(wǎng)站、包括與多種體育有關(guān)的各類信息在內(nèi)的“espn.com”網(wǎng)站、包括與大量域有 關(guān)的各類信息在內(nèi)的“Wikipedia.org”維基百科網(wǎng)站、“commons.wikipedia.org”維基百 科共享資源媒體收集網(wǎng)站和“wikinews.org”維基新聞來源網(wǎng)站)獲得。在一些實施例中,文檔中的每一個具有至少部分是已分析的文本信息的內(nèi)容,而在其他實施例中,至 少一些文檔或其他內(nèi)容項目可以包括其他類型的內(nèi)容(例如,圖像、視頻信息、音頻信
息等)ο在至少一些實施例中,對域的文檔的自動化分析可以包括例如通過使用挖掘 技術(shù)或其他技術(shù),分析文檔的內(nèi)容,以確定與域相關(guān)的主題。例如,如果正在分析的文 檔與棒球域相關(guān),則可確定的主題包括專用于特定球員、特定球隊、特定聯(lián)盟(如職業(yè) 棒球大聯(lián)盟、第一級大學(xué)棒球等)、特定事件(如特定年度的全明星比賽或世界職業(yè)棒 球錦標(biāo)賽、類固醇使用爭議等)、特定賽季、特定記錄(如累積的本壘打記錄)等的主 題。在至少一些實施例中,自動化分析包括對文檔進行索引以確定在文檔中的每一個 中存在什么詞,然后分析一些或全部這種詞對文檔的重要性。例如,在至少一些實施例 中,文檔中的每個詞與該文檔的相關(guān)度的初始確定是基于該詞對文檔內(nèi)容的特殊性來進 行的,例如通過使用詞頻率-反文檔頻率(“TF-IDF”,term frequency-inverse document frequency)分析來進行的。此外,貫穿文檔組使用的一個或多個相關(guān)詞的組合可以被選 擇為表示域的主題,例如最相關(guān)的詞的域的主題,并且,主題的一個或多個相關(guān)詞與一 個或多個文檔的所確定的相關(guān)度可以用于確定該一個或多個文檔與該主題的相關(guān)度,如 以下更詳細(xì)地討論。此外,如本文其他位置更詳細(xì)地討論的,在一些實施例中,與文檔 或其他內(nèi)容項目相關(guān)聯(lián)且被分析以確定相關(guān)主題的詞或其他信息可以包括其他類型的信 息,包括未被包括在內(nèi)容項目的內(nèi)容中的信息,例如與內(nèi)容項目相關(guān)聯(lián)的元數(shù)據(jù)和/或 與內(nèi)容項目與之相對應(yīng)的一個或多個用戶相關(guān)聯(lián)的信息。如上所述,在各個實施例中,文檔詞分析信息的產(chǎn)生是可以以各種方式來執(zhí)行 的,在一些實施例中,這種產(chǎn)生使用TF-IDF分析。這種TF-IDF分析使用要分析的文檔 的向量空間表示,其中,每個文檔被視為與“詞袋”類似,而無需考慮詞在該文檔中的 作用(例如,無需考慮語法、語句結(jié)構(gòu)、段落結(jié)構(gòu)、標(biāo)點等)。在這種情形中,文檔表示 可以大部分地或完全地反映詞在文檔中的詞頻率(“TF”),這使得能夠?qū)⑽臋n高效地映 射至數(shù)學(xué)上易懂的高維度向量空間中。此外,當(dāng)確定詞與文檔的相關(guān)性時,可以考慮和 使用特定詞相對于域的各種文檔的特殊性,例如通過考慮特定詞在文集或其他文檔組的 文檔中有多么普遍存在。具體地,在至少一些實施例中,詞i在文檔d中的詞頻率和詞i 在域的文檔上的反文檔頻率(“IDF”)可以如下表達(dá)
Q包含詞/在內(nèi)的文檔、那么,詞和文檔的詞頻率-反文檔頻率(“TF-IDF”或“TF.IDF”)分是可以 通過將該詞和該文檔的TF分和該詞的IDF分相乘來確定的。這種特定詞i和特定詞d的 TF-IDFG, d)分(還示作"TF-IDF1, 或"TRIDF1, )可以用作在描述該文檔在文 集中的指紋的過程中對該詞在向量空間表示中有多么重要的測量,以便例如反映該詞與 該文檔的相關(guān)度。這是對在具體文檔中頻繁出現(xiàn)但在文集這個總體中不常出現(xiàn)的高頻詞 進行分級的度量。以下包括了與分析域的文檔以確定與該域相關(guān)或在多個域上相關(guān)的主 題有關(guān)的附加細(xì)節(jié)。在至少一些實施例中,對域的文檔的自動化分析還可以包括分析文檔的內(nèi)容,以確定哪些文檔具有與域的所確定的主題相關(guān)的內(nèi)容。例如,在至少一些實施例 中,可以執(zhí)行對文檔的相關(guān)性的初始確定,以便例如基于主題內(nèi)的特定詞與特定文檔的 內(nèi)容的相關(guān)性,確定每個文檔與一些或所有主題中的每一個的相關(guān)度,如以下更詳細(xì)地 討論。此外,在一些實施例中,作為文檔相關(guān)性確定而分析的文檔是被分析以確定相關(guān) 主題的相同文檔,而在其他實施例中,一些或全部文檔相關(guān)性確定文檔與主題相關(guān)性確 定文檔不同(例如,如果文檔相關(guān)性確定文檔包括先前主題相關(guān)性確定期間不可用的新 文檔;如果主題相關(guān)性確定文檔是被選擇以用于訓(xùn)練目的的文檔的專用子集,例如由于 要表示域;等等)。此外,在至少一些實施例和情形中,可以將多個相關(guān)文檔的組相對 于一些或全部主題一起進行分析,例如通過將多個相關(guān)文檔視為單個文檔以用于分析目 的,而在其他情形中,可以將特定文檔劃分為多個部分,該多個部分均被視為相對于一 些或全部主題的不同文檔以用于分析目的。以下包括了與分析域的文檔以確定與所確定 的主題有關(guān)的附加細(xì)節(jié)。在由DSRD服務(wù)自動確定了與一個或多個域之內(nèi)或之上的相關(guān)主題有關(guān)和/或與 具有關(guān)于這種主題的內(nèi)容的特定文檔有關(guān)的相關(guān)性信息之后,在各個實施例中,就可以 以各種方式使用這種自動確定的相關(guān)性信息,包括幫助人類用戶和其他實體指定所關(guān) 注的主題和/或或的具有關(guān)于所指定的主題的內(nèi)容的文檔。例如,如以下更詳細(xì)地描述 的,與一個或多個域之內(nèi)或之上的相關(guān)主題有關(guān)的自動確定的相關(guān)性信息可以被DSRD 服務(wù)或其他關(guān)聯(lián)服務(wù)用于幫助DSRD服務(wù)以外的人類用戶或其他實體(如自動化程序)指 定所關(guān)注的一個或多個主題,例如用作搜索詢問的一部分,以便識別用戶的偏好等。在 各個實施例中,可以以各種方式使用自動確定的主題信息,例如從用戶接收一個或多個 詞并向用戶呈現(xiàn)有關(guān)信息(例如,包括所接收的詞、與所接收的詞有關(guān)的其他詞等等在 內(nèi)的主題)、向用戶呈現(xiàn)自動確定的主題的列表以供瀏覽或選擇等等。類似地,如以下 更詳細(xì)地描述的,與域內(nèi)的相關(guān)文檔有關(guān)的自動確定的相關(guān)性信息可以被DSRD服務(wù)或 其他關(guān)聯(lián)服務(wù)用于幫助人類用戶DSRD服務(wù)以外的人類用戶或其他實體(如自動化程序) 獲得與所關(guān)注的一個或多個主題有關(guān)的內(nèi)容,例如響應(yīng)于搜索詢問,以便向用戶推送或 提供未顯式請求的相關(guān)信息(例如,基于先前指定的主題偏好)等。此外,在各個實施 例中,可以以各種方式向用戶顯示與各個詞和/或主題的互相關(guān)性有關(guān)的信息。在于 2008 年 12 月 12 日提交的、名稱為 “Electronic Profile Development,Storage, Use, and Systems Therefor”的美國專利申請No.12/334,389和于2008年12月12日提交的、名稱 為"Advertising Selection and Display Based on Electronic Profile Information” 的美國專禾1J 申請No.12/334,416中可得到與關(guān)于所關(guān)注的域的所確定的相關(guān)信息的可能使用示例有關(guān) 的附加細(xì)節(jié),這兩個申請的全部內(nèi)容以參考的方式并入于此。此外,在至少一些實施例中,以各種方式來跟蹤和使用與用戶或其他實體如何 使用自動確定的主題和/或文檔相關(guān)性信息有關(guān)的信息。例如,在至少一些實施例中, 與自動確定的主題和/或文檔信息的使用有關(guān)的信息可以被DSRD服務(wù)用作與自動確定的 主題和/或文檔相關(guān)性信息有關(guān)的反饋。這種反饋可以用于例如修正可用作所確定的詞 的特定詞和詞組合的相關(guān)性的初始確定,和/或修正特定文檔與所確定的主題的相關(guān)性 的初始確定,并且,該修正后的所確定的相關(guān)性信息就可以被DSRD服務(wù)或其他關(guān)聯(lián)服 務(wù)以與初始確定的相關(guān)性信息類似的方式使用。在這種方式下,連續(xù)或其他重復(fù)反饋回路可以用于重復(fù)改進由DSRD服務(wù)執(zhí)行的自動相關(guān)性確定。如以下更詳細(xì)地描述的,在 一些實施例中,反饋用于學(xué)習(xí)或修正自動確定的主題和/或文檔信息,例如通過使用所 配置的神經(jīng)網(wǎng)絡(luò)或者其他自適應(yīng)模型或系統(tǒng)。此外,在至少一些實施例和情形中,可以 以各種方式將所配置的神經(jīng)網(wǎng)絡(luò)或其他自適應(yīng)系統(tǒng)自動擴展為使用與變?yōu)榭捎玫男挛臋n 和/或所確定的新主題有關(guān)的信息。出于示意目的,以下描述了一些示例和實施例,其中,以特定方式分析特定類 型的信息,以特定方式使用與特定域有關(guān)的所確定的信息。出于示意目的提供了這些示 例,并為了簡明而簡化了這些示例,并且應(yīng)當(dāng)理解,可以在許多種其他情形中使用本發(fā) 明的技術(shù),其中一些情形在以下更詳細(xì)地描述。例如,盡管以下描述了對特定文本文檔 的分析,但可以類似地分析和使用其他形式的信息。此外,盡管將特定算法和技術(shù)示意 為用于確定一個或多個域之內(nèi)或之上的相關(guān)主題、確定與主題相關(guān)的特定文檔、以及基 于使用和其他反饋來學(xué)習(xí)主題和/或文檔的改進相關(guān)性,但也可以以其他方式使用其他 算法和技術(shù)。圖IA和IB示意了使用所描述的技術(shù)確定與所關(guān)注的域有關(guān)的相關(guān)信息并向用 戶或其他實體提供有關(guān)信息和功能的自動化域?qū)S孟嚓P(guān)性確定服務(wù)的示例。具體地,圖 IB示意了 DSRD服務(wù)105的實施例,以及去往和來自DSRD服務(wù)105的示例數(shù)據(jù)流的高 級描述,作為確定和使用相關(guān)域?qū)S眯畔⒌囊徊糠帧T诒臼纠?,DSRD服務(wù)105訪問 并分析與所關(guān)注的一個或多個域有關(guān)的各個文檔160,以確定與域中的每一個有關(guān)的相關(guān) 性信息。本示例中的DSRD服務(wù)105所產(chǎn)生的所確定的相關(guān)性信息包括與一個或多個域 中的每一個之內(nèi)的相關(guān)主題有關(guān)的信息170以及與哪些文檔具有關(guān)于這種主題的內(nèi)容有 關(guān)的信息180,盡管在其他實施例中,僅可以確定一種類型的相關(guān)性信息。在本示例中, DSRD服務(wù)105向各個用戶140提供所確定的相關(guān)主題信息170中的至少一些和/或所確 定的相關(guān)文檔信息180中的至少一些,以供他們使用。盡管這里未示意,但在其他實施 例中,DSRD服務(wù)105可以以一種或多種其他方式(例如經(jīng)由一個或多個中間的其他服務(wù) (例如,從DSRD服務(wù)105獲得相關(guān)域?qū)S眯畔⒉⒁愿鞣N方式使用它的其他服務(wù)))向用 戶140提供所確定的相關(guān)主題信息170和/或所確定的相關(guān)文檔信息180。此外,在本 示例中,DSRD服務(wù)105可以獲得與用戶140對所確定的相關(guān)域?qū)S眯畔?70和/或180 的使用有關(guān)的各種反饋或其他信息190,并可以使用該反饋來改善所確定的相關(guān)域?qū)S眯?息170和/或180。在本文其他位置更詳細(xì)地描述與DSRD服務(wù)105的各個數(shù)據(jù)流和動 作有關(guān)的附加細(xì)節(jié),包括參照圖2A-2L中討論的示例實施例。圖IA示意了與圖IB的DSRD服務(wù)105的一個實施例有關(guān)的附加示例細(xì)節(jié)。具 體地,在圖IA的示例中,由示例DSRD服務(wù)105文檔訪問并分析的文檔可以包括可通過 網(wǎng)絡(luò)100訪問的域文檔160(例如,可從一個或多個網(wǎng)站或其他信息源公開訪問)和/或 DSRD服務(wù)105可專門訪問的可選域文檔135(例如,由服務(wù)105產(chǎn)生或提供的域文檔; 從第三方源可用但不可公開訪問的域文檔,例如,如果可用于付費訪問或者基于服務(wù)105 與第三方源之間的所定義的關(guān)系;等等)。此外,在確定了一個或多個域的相關(guān)性信息 之后,DSRD服務(wù)105還通過網(wǎng)絡(luò)100與各個用戶140和/或一個或多個可選其他服務(wù) 150 (例如,與用戶140進行交互并使用由DSRD服務(wù)105提供的信息的其他管理服務(wù))進 行交互的。
此外,在本示例中,DSRD服務(wù)105包括多個模塊,均提供DSRD服務(wù)105的 一些功能,包括域分析管理器模塊110、相關(guān)文檔確定管理器模塊120和相關(guān)主題確定管 理器模塊130。具體地,域分析管理器模塊110執(zhí)行各種動作以獲得并自動分析域相關(guān)文 檔的內(nèi)容,以便例如使這種所分析的信息可由模塊120和130使用。相關(guān)文檔確定管理 器模塊120使用所分析的文檔信息來確定與特定詞或其他主題相關(guān)的文檔,以便例如產(chǎn) 生圖IB的域文檔相關(guān)性信息180 (圖IA中未示出,但可存儲在圖1中也未示出的一個或 多個存儲設(shè)備上)。類似地,相關(guān)主題確定管理器模塊130使用所分析的文檔信息來確 定與域相關(guān)的主題,以便例如產(chǎn)生IB的域主題相關(guān)性信息170 (圖IA中未示出,但可存 儲在圖1中也未示出的一個或多個存儲設(shè)備上)。在本示意實施例中,模塊120和/或 130從而可以向用戶140或可選其他服務(wù)150提供所產(chǎn)生域?qū)S孟嚓P(guān)性信息,例如經(jīng)由用 戶可交互式地使用的所提供的GUI( “圖形用戶界面”)和/或經(jīng)由軟件程序可借以采用 編程方式進行交互的所提供的API( “應(yīng)用編程接口”)。在其他實施例中,DSRD服務(wù) 105的一個或多個其他模塊(未示出)可以代之以經(jīng)由由DSRD服務(wù)105提供的一個或多 個GUI和/或一個或多個API來與用戶140和/或可選其他服務(wù)150進行交互。盡管未在圖IA和IB中示意,但DSRD服務(wù)105可以以各種方式實現(xiàn),包括利用 在一個或多個計算系統(tǒng)(未示出)上執(zhí)行的一個或多個軟件模塊,并且,DSRD服務(wù)105 可以將各種信息存儲在一個或多個本地或遠(yuǎn)程的存儲設(shè)備(未示出)上。類似地,用戶 140、其他服務(wù)150和域文檔160可以使用計算設(shè)備或系統(tǒng)(未示出)來執(zhí)行各種所描述的 交互和/或存儲各種所描述的信息。此外,盡管在一些實施例中,DSRD服務(wù)105和其 他服務(wù)150可以由非關(guān)聯(lián)實體提供,但在其他實施例中,DSRD服務(wù)105以及一個或多個 其他服務(wù)150可以代之以由單個操作者(例如彼此相結(jié)合地)提供。此外,圖IA所示的 網(wǎng)絡(luò)100可以具有各種形式,例如,各種不同方可能操作的、所鏈接的網(wǎng)絡(luò)(如因特網(wǎng)) 的可公開訪問的網(wǎng)絡(luò)。在一些實施例中,網(wǎng)絡(luò)100可以是專用網(wǎng)絡(luò),例如,對無特權(quán)用 戶來說全部或部分不可訪問的公司或大學(xué)網(wǎng)絡(luò)。在其他實施例中,網(wǎng)絡(luò)100可以包括可 向和/或從因特網(wǎng)訪問的一個或多個專用網(wǎng)絡(luò),并且在至少一些實施例中,網(wǎng)絡(luò)100中的 一些或全部還可以包括寬帶或廣播有線或無線鏈路(例如,蜂窩電話連接;使用Wi-Fi、 Wi-ΜΑΧ,藍(lán)牙、廣播模擬或數(shù)字電視、EVDO、衛(wèi)星或其他無線聯(lián)網(wǎng)或通信協(xié)議的無 線計算機連接;等等)。此外,各個用戶140和其他實體可以以各種方式與DSRD服務(wù)105進行交互,以 發(fā)出請求并指定各種信息。例如,用戶可以注冊或訂閱至DSRD服務(wù)105和/或可選其 他服務(wù)150,以便例如提供可在后續(xù)請求中使用的各種偏好和其他信息。在這些實施例 中,在用戶與要注冊的DSRD服務(wù)105進行交互之后,可以向用戶發(fā)布與用戶相關(guān)聯(lián)且 后續(xù)在發(fā)出其他請求(例如針對指定詢問的搜索結(jié)果的請求)時使用的一個或多個標(biāo)識符 (例如,密鑰、令牌、用戶名等)。此外,在一些實施例中,可選其他服務(wù)150可以注冊 至DSRD服務(wù)105或與DSRD服務(wù)105進行交互,以建立關(guān)聯(lián)關(guān)系,以便例如允許其他 服務(wù)150獲得對由DSRD服務(wù)105產(chǎn)生的至少一些域?qū)S孟嚓P(guān)性信息的訪問。此外,各 種費用可以與DSRD服務(wù)的使用相關(guān)聯(lián),使得DSRD服務(wù)可以對至少一些請求作出響應(yīng) 來交換由請求者支付的費用,以便例如向可選其他服務(wù)150提供域?qū)S孟嚓P(guān)性信息來交 換來自其他服務(wù)150的費用,或者向用戶140提供域?qū)S孟嚓P(guān)性信息來交換來自用戶的費用。在其他實施例中,DSRD服務(wù)105可以以其他方式獲得費用,例如,從域?qū)S梦臋n 和其他內(nèi)容的提供者獲得費用以執(zhí)行與該內(nèi)容有關(guān)的相關(guān)性確定、從諸如廣告商和零售 商(例如,用于向至少一些用戶140提供廣告或其他所指示的內(nèi)容)之類的其他第三方獲
得費用等等。圖2A-2L示意了用于確定與所關(guān)注的示例域有關(guān)的相關(guān)性信息的技術(shù)的示例, 例如,可以由DSRD服務(wù)的實施例自動執(zhí)行。例如,圖2A和2B示意了與作為所關(guān)注的特定示例域的一部分的多個文檔有關(guān) 的概要信息的示例,以及可由與該域又掛內(nèi)的文檔的DSRD服務(wù)的實施例產(chǎn)生的示例詞 分析信息。具體地,如關(guān)于示例概要信息200所指示的,所關(guān)注的示例域與棒球有關(guān), 并且本示例中可用于該域的域?qū)S梦臋n的文集包括1000個文檔(例如,新聞文章、球員 傳記、球隊概要等)。本示例中的信息200包括文集中存在的幾支示例詞的概要,以及這些詞的IDF信 息。具體地,示出了多個詞202a,均具有唯一詞ID 202b、文集中包括該詞在內(nèi)的多個文 檔的指示202c以及該詞和文集文檔的對應(yīng)IDF值202d。還可以產(chǎn)生和存儲各種其他概要 信息,但在本示例中未示出。此外,示例表200中的每一行204反映了不同詞,例如, 行204a與公共詞“the”相對應(yīng),其出現(xiàn)在文集中的1000個文檔中的每一個中,并因此 具有IDF值0。在本示例中,基于IDF值來對行204進行排序,使得后續(xù)詞具有增加的 IDF值,從而反映其在文集的文檔中的出現(xiàn)次數(shù)少于先前詞,因此相對于其存在于的那些 文檔更特殊。本文其他位置包括了與計算IDF值有關(guān)的附加細(xì)節(jié)。此外,在一些實施 例中,可以將一些公共詞或其他所指示的詞(例如,詞“the”)作為文檔詞分析的一部 分進行移除,因此,這些詞可能不在這種概要信息200中示出或可能不用在與相關(guān)性有 關(guān)的信息的后續(xù)確定中。此外,本示例中的詞202a中的一些是包括多個有關(guān)單詞在內(nèi)的 詞組,例如“home run (本壘打)”和“Hank Aaron”,而有時可一起使用的其他詞(例 如,“Barry Bonds”禾Π “Bobby Bonds”)被示作單獨的詞。應(yīng)當(dāng)理解,可以以多種方 式確定這種多單詞的詞,例如,基于其一起重復(fù)使用和缺少單獨使用來自動確定、基于 在域的公共詞的詞典或其他類似信息中包括這種詞來自動確定、基于DSRD服務(wù)的操作 者的輸入來至少部分地以手動方式確定等等。在其他實施例中,每個單詞至少最初可以 被視為單獨的詞,并可選地,可以基于用戶一起重復(fù)使用的詞中的那些詞的互相關(guān)性的 所學(xué)習(xí)的相關(guān)性,將每個單詞后續(xù)分組在一起作為公共主題的一部分,如本文其他位置 更詳細(xì)地討論。圖2A和2B所示的其他示例表210、220、230、240和250均反映了文集中的示 例文檔,并包括與這些文檔中的示例詞有關(guān)的各種信息以及這些詞和這些文檔的對應(yīng)詞 相關(guān)性信息。具體地,詞210與示例文檔1相對應(yīng),在本示例中,示例文檔1是關(guān)于以 下內(nèi)容的新聞文章Barry Bonds在效力于舊金山巨人隊時于2007年創(chuàng)造了職業(yè)生涯本壘 打(“HR” )記錄,超越了之前由HankAaran保持的記錄。盡管Bonds趕超了本壘打記 錄,但在職業(yè)棒球大聯(lián)盟的球員當(dāng)中正在出現(xiàn)與類固醇爭議有關(guān)的重大新聞報導(dǎo),Bonds 后來也被指控與涉嫌使用類固醇有關(guān)。表210中的各個條目214均與1500單詞的文檔1中出現(xiàn)的詞212a的示例子集相 對應(yīng),例如,條目214a中的詞“Bonds”、條目214c中的詞“Hank Aaron”等。還示意了每個詞在文檔1中的出現(xiàn)次數(shù)212b,并示出了對應(yīng)的詞頻率值212c。這里還針對詞 而復(fù)制IDF值212d,IDF值212d與信息200中的相同值202d相對應(yīng)。此外,每個條目 214包括基于詞頻率值212c和IDF值212d的TF-IDF值212e。例如,將條目214a中的詞 "Bonds"指示為在文檔1中出現(xiàn)35次,這使得在文檔的1500個單詞當(dāng)中有2.33%的頻 率。詞"Bonds”的IDF值212d是1.10,與信息200的條目204d的信息202d相對應(yīng), 并且,在本示例中,條目214a中的Bonds的TF-IDF值212e是2.559。在本示例中,以 TF-IDF值的降低值的順序示意了條目214,指示詞“Bonds”是所示的該文檔的最具描 述性的詞,而分別處于條目214i和214j中的其他詞(如“the”和"indictment")不是 該文檔的描述性詞(例如,由于詞“the”出現(xiàn)在文集的所有文檔中從而具有為0的IDF 值,以及由于詞“indictment”未出現(xiàn)在該示例文檔中從而具有為0的詞頻率值212c)。 本文其他位置包括了與計算TF和TF-IDF值有關(guān)的附加細(xì)節(jié)。表220、230、240和250分別包括示例文檔2、3、4和5的類似信息。具體地, 示例文檔2是Barry Bonds的總覽傳記,集中于Bonds的各種成就并包括如各個條目224 中所示的對應(yīng)詞222a。示例文檔3是與Bonds的對可能的與類固醇有關(guān)的濫用的指控相 對應(yīng)的新聞文章,并包括如各個條目234中所示的對應(yīng)詞232a。示例文檔4與在Bonds 的指控之前發(fā)生且發(fā)起了職業(yè)棒球大聯(lián)盟中與類固醇有關(guān)的一些爭議的事件,并具體與 前職業(yè)棒球大聯(lián)盟球員Jose Canseco在與職業(yè)棒球大聯(lián)盟中涉嫌類固醇使用有關(guān)的議會之 前作證相對應(yīng),各個條目224中示出了對應(yīng)詞242a。示例文檔5是2008職業(yè)棒球大聯(lián)盟 賽季中段的新聞文章,并集中于Bonds在2007賽季結(jié)束后停止效力的舊金山巨人隊的當(dāng) 前狀態(tài),各個條目254中示出了對應(yīng)詞252a。如參照圖2C_2L更詳細(xì)地討論的,這些示 例文檔的示例詞信息將用于示意一些所描述的技術(shù),用來確定該示例的與棒球有關(guān)的域 的相關(guān)主題和特定主題的相關(guān)文檔。圖2C和2D示意了由用戶指定的搜索詢問的示例,其中,針對文集的示例文 檔1-5的圖2A和2B所示的示例詞分析信息可以被DSRD服務(wù)用于確定與詢問相關(guān)的 特定信息。具體地,圖2C示意了用戶已指定的詢問,在本示例中,該詢問包括詢問詞 265a “Bonds”和“steroids(類固醇)”。示出了各個信息261a,其指示兩個詢問詞中 的每一個與示例文檔1-5中的每一個的所評估的相關(guān)度,包括針對示例文檔262中的每一 個而產(chǎn)生的歸一化總計文檔相關(guān)性分或數(shù)264x。如以下更詳細(xì)地描述的,可以針對每個 詞264和每個文檔262產(chǎn)生歸一化文檔相關(guān)性數(shù),在本示例中,對文檔的每個詞的歸一 化分求平均,以便基于兩個詢問詞的組合來產(chǎn)生該文檔的文檔相關(guān)性數(shù)264x。具體地, 在本示例中,詞與文檔的相關(guān)性部分地基于該詞和文檔的TF-IDF值,并部分地使用該 詞在文集中的所有文檔上的最大和最小TF-IDF值而進行歸一化。在本示例中,在信息 267a-267d中示出了兩個詢問詞的示例最小和最大TF-IDF值,盡管在至少一些實施例中 可能未向指定了該詢問的用戶示意這種信息267和/或表261a。以下包括與產(chǎn)生示例文 檔相關(guān)性數(shù)有關(guān)的附加細(xì)節(jié)。在本示例中,示例文檔3具有詢問詞的所產(chǎn)生的最高文檔相關(guān)性值,這是由于 與Bonds的關(guān)于類固醇的指控有關(guān)的文檔3的內(nèi)容與兩個詢問詞265a都高度相關(guān)。示例 文檔1和4均與詢問詞265a的組合適度相關(guān),這是基于這些示例文檔中的每一個與詢問 詞之一高度相關(guān),而僅與另一詢問詞稍微相關(guān)(即,示例文檔1與“Bonds”詞高度相關(guān),而僅與“steroids”詞稍微相關(guān),以及,示例文檔4與“steroids”詞高度相關(guān),而僅 與“Bonds”詞稍微相關(guān)),如文檔1的列262a和文檔4的列262d中、信息261a的條目 264a和264b中所示。示例文檔2和5同其他三個示例文檔相比,與詢問詞265a較不相關(guān)。如前所述,在各個實施例中,可以以各種方式執(zhí)行對特定文檔與一個或多個指 定詞(如作為搜索詢問的一部分的詞)(例如作為主題的一部分的多個有關(guān)詞)的相關(guān)性 的確定。作為一個具體示例,可以以各種方式來對指定的詞和文檔中的每一個的TF-IDF 分進行組合,以便例如產(chǎn)生平均值或總和。具體地,在至少一些實施例中,產(chǎn)生各種指 定詞的TF-IDF分的平均值,并且還可以對該平均值進行歸一化(例如,以表示相關(guān)性百 分比或0與1之間的另一個數(shù)),以便產(chǎn)生所指定的詞的歸一化文檔相關(guān)性(“DR” ) 分,以便于在文檔之間進行比較并且便于人理解DR分。在至少一些實施例中,文檔d相 對于一個或多個指定的詞i的組g的DR分可以確定如下
1 曇 TF .IDFi d - min( TF .IDF,)DR(d,g)^---V7-^---
NTerms (g) T (max( TF JDF,) - min( TF JDF,))其中,對g中的詞i中的每一個執(zhí)行求和,NTerms (g)反映了組g中詞i的量, 特定詞i的最小和最大TF-IDF1分分別反映了該詞在域的所有文檔k上的最低和最高分。圖2D示意了可響應(yīng)于圖2C中指示的詢問詞265a “Bonds”禾Π “steroids”而 向用戶顯示或提供的信息260的示例。信息260可以例如是所產(chǎn)生并提供給用戶的客戶 端設(shè)備以供顯示的網(wǎng)頁的一部分,或可以是向用戶呈現(xiàn)的信息屏幕的一部分。具體地,在本示例中,信息260包括所指定的詢問詞265a的視覺指示266,并 且,以所產(chǎn)生的文檔相關(guān)性的順序示出了對應(yīng)的搜索結(jié)果的列表269。此外,在本示例 中,列表269中的條目中的每一個不僅包括對應(yīng)相關(guān)文檔的指示(例如,文檔的名稱或其 他標(biāo)識符,例如可以被顯示為用戶可選擇的鏈接,該鏈接可由用戶選擇以訪問文檔),而 且包括文檔的對應(yīng)的所產(chǎn)生的歸一化文檔相關(guān)性數(shù)的指示,以便例如在評估是否獲得與 特定文檔有關(guān)的其他信息或是否將文檔選擇為與詢問詞265a相關(guān)時,向用戶提供信息。 本示例中所指示的歸一化文檔相關(guān)性數(shù)還均包括對歸一化文檔相關(guān)性數(shù)的相關(guān)度的文本 評估,盡管在其他示例中可以示出歸一化文檔相關(guān)性數(shù)和關(guān)聯(lián)文本評估中的僅一個(或 都不可以示出)。此外,在各個實施例中,可以以各種方式執(zhí)行對特定搜索結(jié)果的選擇和 顯示,包括示出詢問結(jié)果的所指定的量、示出高于所指定的最小文檔相關(guān)性值的一些或 所有詢問結(jié)果等。此外,在本示例中,提供了附加信息和用戶可選擇的控件268以便可能由用戶 選擇,盡管在其他示例中可能未示出這種附加信息。在本示例中,附加信息268問用戶 是否愿意擴大先前指定的搜索詢問以進一步描述域的相關(guān)主題,以便例如通過指定比詢 問詞265a更好地表示用戶興趣的跟具體或不同的主題,來改進搜索結(jié)果的精度。作為一 個可能示例,如之前關(guān)于均與所指定的詢問詞之一高度相關(guān)但僅與另一指定詢問詞適度 相關(guān)的示例文檔1和4而討論的,用戶可能能夠通過弄清楚用戶是主要關(guān)注職業(yè)棒球大聯(lián) 盟中與類固醇有關(guān)的爭議(例如,由于其不僅涉及Bonds,還涉及其他球員),還是主要 關(guān)注與Bonds涉嫌使用類固醇僅稍微相關(guān)的與Bonds有關(guān)的信息(例如,Bonds創(chuàng)造職業(yè) 生涯本壘打記錄),來改進搜索結(jié)果的精度。更一般地,通過識別具體與用戶當(dāng)前所關(guān)注的一個或多個主題相關(guān)的附加詞,所得到的擴大詢問詞可以更好地消除可與初始詢問中 的詞相關(guān)聯(lián)的各種可能主題的歧義。對圖2D的信息268中的用戶可選擇的“是”控件的選擇可以提示DSRD服務(wù)的 各種附加動作,其中,一個這樣的示例是參照圖2E和2F來更詳細(xì)描述的。具體地,圖 2E示意了與可關(guān)于所指定的詢問詞265a "Bonds"和“steroids”的其他詞274有關(guān)的 信息270,其中確定了其他詞與所指定的詢問詞265a的所評估的相關(guān)度的指示。在其他 實施例中,可以以其他方式提示對與主題有關(guān)的詞相關(guān)性信息的使用,例如,在一些或 所有情形中,如果針對一些或所有用戶自動執(zhí)行(例如,以便顯示具有與一個或多個其 他詞的可能相關(guān)性有關(guān)的圖2D的信息260的附加信息,不論是替換還是補充信息268)??梢砸愿鞣N方式使用圖2E中的各個信息270,例如,用作進一步定義特定主 題以用在改善的搜索詢問中的一部分,該改善的搜索詢問部分地基于初始指定的詢問詞 265a。例如,在一些實施例中,可以向指定了詢問詞265a的用戶示意這種信息270中的 一些或全部,盡管在所示的實施例中未向用戶顯示信息270。在本示例中,信息270包 括多個詞條目274a-274f,均與同詢問詞265a的可能組合的候選附加詞相對應(yīng),并且, 文檔列272a-272d指示這些詞與示例文檔1_4的所評估的相關(guān)度。列272e指示每個條目 274中的候選詞相對于詢問詞265a的總計詞相關(guān)性分,以便例如反映候選詞與由詢問詞 265a表示的可能主題的所評估的相關(guān)度。在各個實施例中,可以以各種方式選擇各個示 例文檔272和候選附加詞274。例如,可以通過首先選擇文集中被確定為與詢問詞265a 最相關(guān)(例如基于圖2C所示的歸一化文檔相關(guān)性數(shù)264x)的文檔的子集,來選擇候選附 加詞??梢砸愿鞣N方式選擇最相關(guān)的文檔,例如選擇具有最高文檔相關(guān)性數(shù)的指定量的 文檔、選擇具有最高文檔相關(guān)性數(shù)的指定百分比的文檔、選擇其文檔相關(guān)性數(shù)高于指定 閾值(如預(yù)定義閾值,例如最小文檔相關(guān)性數(shù)閾值;或者動態(tài)確定的閾值,例如如果對 具有類似文檔相關(guān)性數(shù)值的文檔進行分組提供了最相關(guān)文檔的組與其他文檔之間的自然 出現(xiàn)的閾值點)的一些或所有文檔等等。在圖2E的本示例中,如圖2C中的條目264x的 列262e中所指示,基于其低文檔相關(guān)性數(shù)2%,示例文檔5已被選擇為最相關(guān)文檔以進一 步用在本示例中,但是,其他示例文檔1-4已被選擇以用作相關(guān)文檔。在本示例中,一旦針對詢問詞265a選擇了最相關(guān)文檔,就部分地基于這些所選 的文檔,針對詢問詞265a選擇候選附加詞。例如,可以基于所選文檔中的詞而不是對于 這些所選文檔來說最相關(guān)搜索詞265a,來選擇候選附加詞,例如,基于所選文檔的這些 其他詞的TF-IDF值和/或基于所選文檔的這些其他詞的詞頻率值。在本示例中,每個詞 條目274和示例文檔272的信息270中所示的數(shù)反映了該詞和文檔的TF-IDF值。例如, 關(guān)于與詞“home run”相對應(yīng)的條目274a,將示例文檔1的該詞的詞相關(guān)性值272a指示 為TF-IDF至1.333 (如之前在圖2A的信息210的條目214b和列212e中所指示),并將示 例文檔2的條目274a中的詞"home ran,,的詞相關(guān)性值272b指示為TF-IDF值1.125 (如 之前在圖2A的信息220的行224b和列222e中所指示)。此外,在本示例中,然后在所選的文檔上對詞274中的每一個的詞相關(guān)性值進 行合計,例如通過對這些單獨的TF-IDF文檔專用值求平均,其中,在列272e中反映了每 個候選附加詞274的所得到的、所確定的總計詞相關(guān)性分或數(shù)。在本示例中,以詢問詞 265a的所確定的總計相關(guān)性值的減小順序示出了候選詞274,使得條目274a中的候選詞"home ran"被確定為所指定的詢問詞的最相關(guān)候選附加詞,并且使得條目274f中的候 選附加詞‘‘Canseco”被確定為所示的所指定的詢問詞的最不相關(guān)候選附加詞。??梢?以各種方式來識別基于所選文檔的組而選擇以考慮的特定候選附加詞,例如通過使用每 個文檔中或被確定為潛在地最相關(guān)的所有文檔(例如,通過使用TF-IDF值、詞頻率值或 其他單獨文檔詞相關(guān)性值)中其他詞的指定量、通過使用每個文檔中或所有文檔中潛在 地最相關(guān)的其他詞的指定百分比、通過使用至少一個所選文檔或所有所選文檔或最相關(guān) 文檔的一些指定的最小子集的、其TF-IDF值(或其他單獨文檔詞相關(guān)性值)高于指定閾 值(如預(yù)定義閾值,例如最小詞相關(guān)性數(shù)閾值;或者動態(tài)確定的閾值,例如如果對具有 類似詞相關(guān)性數(shù)值的詞進行分組提供了最相關(guān)詞的組與其他詞之間的自然出現(xiàn)的閾值點) 的一些或所有其他詞等等。在其他實施例中,可以以其他方式選擇候選附加詞和/或相 關(guān)文檔,并且可以以其他方式確定單獨詞相關(guān)性值和/或總計詞相關(guān)性值。本文其他位 置包括了與產(chǎn)生示例詞相關(guān)性分或其他值有關(guān)的附加細(xì)節(jié)。圖2F繼續(xù)圖2A-2E的示例,并示意了可向用戶顯示或提供的信息275的示例, 該信息275包括與要選擇并與先前指示的詢問詞265a—起使用的其他可能詞有關(guān)的信 息,該其他可能詞在圖2D中以視覺指示266示出并在圖2F中以視覺指示276示出。如 前所述,可以以各種方式提示對信息275的提供,例如,響應(yīng)于對圖2D中的信息260的 信息268中的“是”用戶可選擇空間的選擇或者以其他方式。此外,以與圖2D的信息 260類似的方式,可以以各種方式向用戶提供所示的信息275,例如,作為所產(chǎn)生并提供 給用戶的客戶端設(shè)備以供顯示的網(wǎng)頁的一部分,或者作為向用戶呈現(xiàn)的信息屏幕的一部 分(例如,作為在用戶的計算設(shè)備上執(zhí)行的軟件應(yīng)用的GUI的一部分,例如由DSRD服 務(wù)的操作者提供的軟件應(yīng)用以與DSRD服務(wù)一起使用,或由第三方提供的軟件應(yīng)用)。本示例中的信息屏幕275包括所指定的詢問詞265a的其他可能有關(guān)詞的列表 279,例如在本示例中,其是基于圖3E的候選附加詞274中的至少一些來產(chǎn)生的。具體 地,示例的有關(guān)其他詞279包括多個條目279a-279e,并且是基于圖2E的總計相關(guān)性分 272e來以減小的所確定的詞相關(guān)性示出的。此外,在本示例中,示出了所包括的其他可 能詞中的每一個的詞相關(guān)性的指示,盡管在其他實施例中可能不包括這種詞相關(guān)性信息 或者可以以其他方式示出這種詞相關(guān)性信息,在本示例中,已經(jīng)將從圖2e的列272e確定 的詞相關(guān)性分轉(zhuǎn)換為從0至10的刻度,其中,被確定為最相關(guān)的其他可能詞具有可能值 10,被確定為最不相關(guān)的其他可能詞具有較低值。盡管這里未示意,但其他可能詞中的 每一個可以是用戶可選擇的鏈接,或可以具有一個或多個關(guān)聯(lián)的用戶可選擇控件,以允 許用戶將該詞選擇或指定為所關(guān)注的,以便例如進行指定以包括該所選詞作為修正后的 詢問的一部分。在其他實施例中,可以以其他方式顯示詞相關(guān)性信息,例如指示從圖2E 實際確定的詞相關(guān)性分272e、顯示這種詞相關(guān)性分的歸一化版本(以與先前參照針對文 檔相關(guān)性分的圖2D描述的方式類似的方式)等等。此外,盡管圖2F中未以與圖2D類 似的方式示出詞相關(guān)性值的文本描述,但在其他實施例中可以示出這種詞相關(guān)性值。圖2G和2H繼續(xù)圖2A-2F的示例,并具體與用戶可指定的兩個備選主題相對 應(yīng),例如通過選擇如圖2F所示的附加有關(guān)詞,或以另一種方式。具體地,圖2G與以 下示例相對應(yīng)用戶已選擇其他附加詞“home run”和“Hank Aaron”以與在先詞
“Bonds”和“steroids” 一起使用,作為擴大的詢問詞265b的組的一部分,例如基于對圖2F中的列表279的條目279a和279c的選擇。圖2G還包括附加信息261b,以與先 前關(guān)于圖2C的信息261a討論的方式類似的方式,指示各個示例文檔1-5與擴大的詢問詞 265b的相關(guān)性??梢砸愿鞣N方式使用圖2G中的各個信息261b,以便例如確定包括文集 中與擴大的詢問詞265b最相關(guān)的文檔在內(nèi)的新搜索結(jié)果,其可以向用戶顯示或提供(例 如,以與圖2D的方式類似的方式)。此外,在一些實施例中,可以向指定了擴大的詢問 詞265b的用戶示意一些或所有這樣的信息261b,盡管在所示的實施例中不向用戶顯示信 息 261b。在本示例中,信息261b包括與圖2C的信息261a相關(guān)的附加條目264c和264d, 其已經(jīng)被添加以與兩個附加詢問詞相對應(yīng)。相應(yīng)地,已經(jīng)關(guān)于圖2C的條目264x的先前 文檔相關(guān)性數(shù)更新條目264y中得到的總計歸一化文檔相關(guān)性數(shù),以反映兩個附加詞的添 加。在本示例中,條目264y中的總計歸一化文檔相關(guān)性信息繼續(xù)基于四個擴大的詢問 詞265b中的每一個的單獨詞相關(guān)性數(shù)的平均值,盡管在其他實施例中,可以以其他方式 (例如,使用加權(quán)的平均值)計算總計歸一化文檔相關(guān)性分。在本示例中,兩個附加搜 索詞的添加已減小示例文檔3的所確定的相關(guān)性,示例文檔3先前被確定為圖2C中初始 詢問詞265a的最相關(guān)文檔。具體地,如信息261b的列262c和條目264y中所示,文檔3 的修正后的文檔相關(guān)性分已經(jīng)從先前值84%減小至當(dāng)前值47%。此外,如信息261b的 列262a和262b中所示,示例文檔1和2的相對相關(guān)性已相對于圖2C中的信息增大,使 得文檔1被確定為擴大的詢問詞265b的最相關(guān)文檔,文檔2被確定為擴大的詢問詞265b 的第二相關(guān)的文檔在本示例中,基于示例文檔的一般話題以及使用擴大的詢問詞265b指定的主 題,可以直觀地理解文檔相關(guān)性數(shù)的改變。具體地,相對于圖2C的兩個初始詢問詞 265a,圖2G的擴大的詢問詞265b顯得與職業(yè)棒球大聯(lián)盟中的一般與類固醇有關(guān)的爭議 不那么相關(guān),而與專用于Barry Bonds及其本壘打記錄成就更加相關(guān)。相應(yīng)地,現(xiàn)在,與 Bonds創(chuàng)造本壘打記錄有關(guān)的示例文檔1新聞文章已經(jīng)變?yōu)榕c擴大的詢問最相關(guān)的文檔, 更一般地,與類固醇爭議有關(guān)的示例文檔4已經(jīng)變得不相關(guān)得多。示例文檔2和3繼續(xù) 與擴大的詢問詞265b至少適度相關(guān),這是由于與Bonds有關(guān)的示例文檔2傳記和與Bonds 的指控有關(guān)的示例文檔3都包括對本壘打記錄的討論,并且示例文檔2提到了前記錄保持 著 Hank Aaron。圖2H示意了圖2G的備選,其中,以不同的方式擴大了圖2C的初始詢問 詞265c,以便指定包括附加詢問詞“indictment(指控)”和“Canseco”以及在先詞
“Bonds”和“steroids”在內(nèi)的擴大的詢問詞265c的組。這種擴大的詢問詞265c可以
例如反映用戶所關(guān)注的主題,該主題相對于圖2G的擴大的詢問265b,與Bond涉嫌類固 醇使用和職業(yè)棒球大聯(lián)盟中的一般與類固醇有關(guān)的爭議更加相關(guān),而與同Bonds涉嫌類 固醇使用無關(guān)、與Bonds有關(guān)的特定信息較不相關(guān)。相應(yīng)地,圖2H的信息261c分別與 圖2C和2G的信息261a和261b類似,但包括與兩個新詢問詞相對應(yīng)的附加條目264g和 264h,新條目264z反映了基于新的擴大的詢問詞265c產(chǎn)生的修正后的文檔相關(guān)性數(shù)。如 直觀期望的,分別與Bonds的關(guān)于類固醇的指控和Canseco的關(guān)于類固醇的作證有關(guān)的示 例文檔3和4是示例文檔當(dāng)中最相關(guān)的文檔,而不專用于類固醇爭議的示例文檔1和2的 相關(guān)性已經(jīng)顯著下降。
在至少一些實施例中,以與圖2G的方式類似的方式,可能不向用戶顯示所示的 信息261c,但可以向用戶顯示與圖2D的信息類似的其他信息,以基于新詢問詞265c來 示意相關(guān)文檔的修正后的列表。此外,在至少一些實施例中,可以以其他方式使用由用 戶通過選擇如圖2G和2H所示的附加詢問詞而提供的反饋,包括作為相對于圖2C的初始 詢問詞265a對特定文檔和/或特定詞的所確定的相關(guān)性進行修改的反饋。此外,在先前討論的示例中,已經(jīng)以相對簡單的方式指定了示例詢問詞 265a-265c,其中,在沒有任何所指示的邏輯組合運算(例如AND、OR等)或相對加權(quán)或 使用的其他指示的情況下列出了詞。在其他實施例中,可以針對這種搜索詢問指定其他 類型的信息,并可以以各種方式使用其他類型的信息。例如,在一些其他實施例中,用 戶可能能夠不僅指示所關(guān)注的詢問詞,而且還可能能夠指示針對特定詢問或主題而關(guān)注 的詢問詞,還可能被允許以各種其他方式修改初始詢問。例如,以與參照圖2E和
意的方式類似的方式,可以確定信息以基于初始詢問詞265a來反映最不相關(guān)的其他詞, 并且,可以類似地向用戶顯示這種最不相關(guān)詞信息,以允許選擇要從擴大的詢問中排除 的詞。在這種情形中,可以以各種方式將所關(guān)注的詞與被指示為要被排除或不關(guān)注的詞 進行組合。例如,關(guān)于圖2C和2D的示例,可以將詢問詞“Bonds”和“steroids”指 示為所關(guān)注的,但可以指定具有被指示為要被排除的詞“Canseco”的擴大的詢問詞。如 圖2H的信息261c的條目264h中所示,詞“Canseco”僅與示例文檔1_5中的文檔4相 關(guān),并在本示例中具體具有文檔4的文檔相關(guān)性數(shù)0.97??梢砸愿鞣N方式將這種信息圖 2C的信息261a進行組合,以基于擴大的詢問詞,將所排除的詞“Canseco”與每個文檔 的相關(guān)性視為文檔的總體文檔相關(guān)性數(shù)減小,例如通過將所排除的詞與文檔的詞相關(guān)性 值視為所包括的詞的詞相關(guān)性值的相反數(shù)(以及將歸一化文檔相關(guān)性數(shù)的可能值的范圍 擴大為從-1至1)。如果這樣,那么在本示例中,通過取“Bonds”和“steroids”的單 獨詞相關(guān)性數(shù)0.04和0.97的平均值以及“Canseco”的負(fù)詞相關(guān)性數(shù)-0.97,可以針對文 檔4產(chǎn)生修正后的文檔相關(guān)性數(shù)0.01。應(yīng)當(dāng)理解,在其他實施例中,可以以其他方式將 與所排除的詞和不關(guān)注的其他詞有關(guān)的相關(guān)性信息同所關(guān)注的詞的相關(guān)性信息一起使用 并進行組合。此外,以與圖2D的方式類似的方式,在一些實施例中,用戶可以被允許指定用 戶認(rèn)為與詢問詞265a特別相關(guān)的一個或多個文檔,以便例如用在確定與詢問詞265a相關(guān) 的其他詞和/或與所指定的文檔相關(guān)的其他文檔(例如,請求與所指定的文檔類似的文 檔)中。備選地,不以圖2F所示的方式列出特定的其他可能詞,而是可以向用戶顯示一 個或多個先前定義的主題,以便可能在識別其他相關(guān)文檔時選擇和使用??梢砸愿鞣N方 式指定這種其他所定義的主題,包括文本標(biāo)簽(例如“Bonds的職業(yè)生涯本壘打記錄”) 和/或使用作為該所定義的主題的一部分的特定詞(例如“Bonds,steroids, home ran, HankAaron")。如果特別定義的主題是基于其與初始詢問詞265a的相關(guān)性來選擇的, 則所定義的主題中的至少一些可以不基于初始指定的詢問詞265a中的至少一個,以便例 如基于諸如“Bonds,home run, Hank Aaron”之類的但沒有“steroids”的詞以及與詢 問265c的主題類似的另一所定義的主題來指示所定義的主題。類似地,在用戶選擇附加 詢問詞以用作擴大的詢問的一部分的情形中,用戶還可以移除在先詢問詞中的一個或多 個(如果這樣期望的話),以便例如移除圖2G的示例中的詞“steroids”或指示應(yīng)當(dāng)如前所討論的那樣排除這種詞。在其他實施例中,可以以多種其他方式類似地使用所確定的 詞相關(guān)性和文檔相關(guān)性信息。作為另一示意性示例,還可以在錯誤拼寫初始指定的詢問詞的情形中或者以非 標(biāo)準(zhǔn)或非典型的方式(例如,基于單數(shù)或復(fù)數(shù)形式、基于動詞處于特定時態(tài)、基于不同 語言等等),適用于上述用于搜索詞擴大的技術(shù)類似的技術(shù)。因此,例如,如果圖2F的 詢問詞276是“bonds”和"staroids"(例如,這是基于用戶輸入這些詞但將‘‘steroids,, 錯誤拼寫為‘‘staroids”并且未使‘‘Bonds”首字母大寫,從而引入不確定性),則可以 將其他候選詞279擴大或修改為包括與在用戶指定的詞中引發(fā)不確定性有關(guān)的附加詞。 關(guān)于‘‘staroids”,例如,最相關(guān)附加詞之一可以是詞‘‘steroids”,用以例如替換或補 充“staroids”。在一些實施例中,可以僅基于在詞典中對未被辨認(rèn)的單詞“staroids” 的查找來識別附加詞“steroids”(例如,可選地,連同其他所建議的替換詞,例如 "asteroids" > "toroids"等),盡管在其他實施例中可以使用先前討論的詞間相關(guān)性技
術(shù),基于詞“staroids”與“steroids”之間先前識別的關(guān)系(例如,如果“staroids”是 用戶對"steroids"共同的錯誤拼寫)和/或基于詞"bonds"與"steroids"之間先前識 別的關(guān)系,將“steroids”識別為替換或補充詞的可能或很可能的候選。以類似的方式, 在努力消除詞“bonds”的歧義時,附加詞可以包括諸如“Barry Bonds”、“stocks”、 “interestrates”、"Bobby Bnods"等選擇,例如基于詞“bonds”與其他附加詞之間先 前識別的關(guān)系。如前所述,在一些實施例中,可以至少部分地基于使用與詞頻率有關(guān)的TF-IDF 值或其他信息,對特定詞與特定文檔和/或其他特定詞的相關(guān)性進行初始確定。在其 他實施例中,可以以其他方式對這種相關(guān)性信息進行確定。作為一個示例,特定詞與一 個或多個文檔的相關(guān)性可以被表示為概率分布或其他分布,并且,可以將兩個或更多個 這種詞的各個分布進行比較,以確定這些分布有多么類似,作為各個詞有多么相關(guān)的度 量。類似地,特定文檔均可以被表示為多個詞的分布,并且類似地,可以將兩個或更多 個這種文檔的各個分布進行比較,以確定這些文檔有多么類似。因此,例如,具有一個 或多個詞和文檔的搜索詢問可以被表示為所期望和所包含的文檔詞的一對概率分布,其 中,針對文集中的一些或所有文檔執(zhí)行對這種概率分布的比較,從而可以確定具有與該 詢問最相關(guān)的統(tǒng)計信息的文檔。作為在兩個分布之間執(zhí)行這種比較的一個示例,才可以 計算Kullback-Leibler發(fā)散統(tǒng)計度量,以提供兩個這種分布之間的相似性的凸度量,而在 其他實施例中,可以使用統(tǒng)計信息熵的差來對兩個這種分布進行比較。以下包括了與執(zhí) 行這種比較的示例有關(guān)的附加細(xì)節(jié),并且,應(yīng)當(dāng)理解,在其他實施例中,可以以其他方 式執(zhí)行這種比較。具體地,在一些實施例中,可以利用兩個與文檔有關(guān)或與詞有關(guān)的分布之 間的Kullback-Leibler發(fā)散來確定這兩個分布之間的相似性。兩個分布P和Q的 Kullback-Leibler發(fā)散可以表達(dá)如下,Dkl^P WQ) = YjPiXogfi-)
i其中,P1和Q1是離散概率分布P和Q的值(例如,用于文檔P的與文檔有關(guān)的 分布,每個P1可以表示文檔中與詞i相匹配的單詞的百分比,可以表示特定詞i與文檔P的相關(guān)度,可以表示詞i是文檔P中的最相關(guān)詞的概率等等)。其他實施例可以使用其他 統(tǒng)計度量來對兩個分布進行比較,例如,兩個統(tǒng)計信息熵度量之差,不論是替換還是補 充例如來自Kullback-Leibler發(fā)散的相似性度量。概率分布的統(tǒng)計熵是對概率分布的差異 性的度量。概率分布P的統(tǒng)計熵可以表達(dá)如下,
權(quán)利要求
1.一種計算機實現(xiàn)的方法,包括在被配置為提供與被確定為對于所識別主題來說相關(guān)的內(nèi)容項目有關(guān)的信息的一個 或多個計算系統(tǒng)的控制下,接收對其內(nèi)容表示所關(guān)注的題目區(qū)域的多個內(nèi)容項目的第一組的一個或多個指示, 以及對其內(nèi)容與所關(guān)注的題目區(qū)域有關(guān)的多個內(nèi)容項目的第二組的一個或多個指示;自動分析第一組的多個內(nèi)容項目以識別與所關(guān)注的題目區(qū)域相對應(yīng)的多個主題,并 自動評估第二組的多個內(nèi)容項目與所識別主題中的第一主題的相關(guān)度;向一個或多個用戶提供與第二組的多個內(nèi)容項目中的至少一些內(nèi)容項目有關(guān)的信 息,并從所述一個或多個用戶接收反饋,其中,所述至少一些內(nèi)容項目被識別為每一個 均與滿足一個或多個所指示準(zhǔn)則的第一所識別主題具有所評估的相關(guān)度,所述反饋反映 了所識別的至少一些內(nèi)容項目與第一所識別主題的、由所述一個或多個用戶評估的相關(guān) 性;至少部分地基于所接收的反饋,自動更新第二組的所述至少一些內(nèi)容項目中的一個 或多個內(nèi)容項目中的每一個與第一所識別主題的所評估的相關(guān)度;以及至少部分地基于與第二組的所述至少一些內(nèi)容項目中的至少一個內(nèi)容項目的更新后 的所評估的相關(guān)度,向一個或多個其他用戶提供與所述至少一個內(nèi)容項目有關(guān)的信息。
2.根據(jù)權(quán)利要求1所述的方法,還包括向用戶重復(fù)提供與第二組的多個內(nèi)容項目中被確定為當(dāng)前與第一所識別主題相關(guān)的 至少一些內(nèi)容項目有關(guān)的附加信息,其中,對當(dāng)前與第一所識別主題相關(guān)的所述至少一 些內(nèi)容項目的確定至少部分地基于在提供附加信息時這些內(nèi)容項目與第一所識別主題的 當(dāng)前更新后的所評估的相關(guān)度;以及在從用戶接收到附加反饋之后,重復(fù)地進一步更新第二組的多個內(nèi)容項目與第一所 識別主題的所評估的相關(guān)度,其中,所述附加反饋反映了第二組的多個內(nèi)容項目與第一 所識別主題的相關(guān)性。
3.根據(jù)權(quán)利要求1所述的方法,其中,所述自動評估第二組的多個內(nèi)容項目的相關(guān)度 的步驟還針對第二組的多個內(nèi)容項目中的至少一些內(nèi)容項目中的每一個以及所識別的主 題中的至少一些其他所識別主題中的每一個而執(zhí)行,并且,所述方法還包括向用戶重復(fù)提供與第二組的多個內(nèi)容條目中被確定為當(dāng)前與所述至少一些其他所識 別主題中的一個或多個相關(guān)的至少一些內(nèi)容項目有關(guān)的附加信息,其中,對第二組中當(dāng) 前與一個或多個其他所識別主題相關(guān)的所述至少一些內(nèi)容項目的確定至少部分地基于在 提供附加信息時這些內(nèi)容項目與這些所識別主題的當(dāng)前更新后的所評估的相關(guān)度;以及在從用戶接收到附加反饋之后,重復(fù)地進一步更新第二組的所述至少一些內(nèi)容項目 與所述至少一些其他所識別主題的所評估的相關(guān)度,其中,所述附加反饋反映了第二組 的所述至少一些內(nèi)容項目與所述至少一些其他所識別主題的相關(guān)性。
4.根據(jù)權(quán)利要求1所述的方法,其中,第二組的多個內(nèi)容項目與第一所識別主題的自 動評估的相關(guān)度反映了對這些相關(guān)度的初始評估,其中,所述方法還包括自動產(chǎn)生自 適應(yīng)模型,所述自適應(yīng)模型表示第二組的多個內(nèi)容項目與第一所識別主題的自動評估的 相關(guān)度,其中,所述產(chǎn)生所述自適應(yīng)模型的步驟被執(zhí)行以使得所產(chǎn)生的自適應(yīng)模型對第 二組的多個內(nèi)容項目與第一所識別主題的相關(guān)度的初始評估進行初始建模;并且,所述至少部分地基于所接收的反饋自動更新第二組的一個或多個內(nèi)容項目中的每一個與第一 所識別主題的所評估的相關(guān)度的步驟包括將所產(chǎn)生的自適應(yīng)模型更新為使得其表示更 新后的所評估的相關(guān)度。
5.根據(jù)權(quán)利要求4所述的方法,還包括向用戶重復(fù)提供與第二組的多個內(nèi)容項目中被確定為當(dāng)前與第一所識別主題相關(guān)的 至少一些內(nèi)容項目有關(guān)的附加信息,其中,對當(dāng)前與第一所識別主題相關(guān)的所述至少一 些內(nèi)容項目的確定至少部分地基于使用在提供附加信息時的更新后的自適應(yīng)模型的當(dāng)前 版本,以確定這些內(nèi)容項目與第一所識別主題的當(dāng)前更新后的所評估的相關(guān)度;以及在從用戶接收到附加反饋之后,重復(fù)地將所產(chǎn)生的自適應(yīng)模型進一步更新為使得其 表示第二組的多個內(nèi)容項目與第一所識別主題的更新后的所評估的相關(guān)度,其中,所述 附加反饋反映了第二組的多個內(nèi)容項目與第一所識別主題的相關(guān)性。
6.根據(jù)權(quán)利要求4所述的方法,其中,所述內(nèi)容項目是文檔,其中,所產(chǎn)生的自適應(yīng) 模型是文檔相關(guān)性神經(jīng)網(wǎng)絡(luò),并且,所述更新所產(chǎn)生的自適應(yīng)模型的步驟是經(jīng)由反向傳 播使用自動化學(xué)習(xí)來執(zhí)行的。
7.根據(jù)權(quán)利要求4所述的方法,其中,第一所識別主題包括一個或多個詞,所述一個 或多個詞是第一組的多個內(nèi)容項目中的一個或多個內(nèi)容項目的內(nèi)容的一部分。
8.根據(jù)權(quán)利要求1所述的方法,其中,所述自動分析第一組的多個內(nèi)容項目以識別多 個主題的步驟包括識別包括在第一組的多個內(nèi)容項目的內(nèi)容中的多個詞;以及確定所 述多個詞中的至少一些詞中的每一個與第一組的多個內(nèi)容項目中的至少一些內(nèi)容項目的 相關(guān)性,其中,第一所識別主題以及所識別主題中的至少一些其他所識別主題每一個均 包括所述多個詞中的至少一個詞,并且,所述自動評估第二組的多個內(nèi)容項目與第一所 識別主題的相關(guān)度的步驟至少部分地基于第一所識別主題的所述至少一個詞與第二組的 多個內(nèi)容項目的內(nèi)容的所確定的相關(guān)性。
9.根據(jù)權(quán)利要求8所述的方法,其中,第一所識別主題包括所述多個詞中被確定為相 關(guān)的多個詞。
10.根據(jù)權(quán)利要求1所述的方法,其中,所述自動分析第一組的多個內(nèi)容項目以識別 多個主題的步驟包括確定關(guān)于所關(guān)注的題目區(qū)域的多個詞中的一個或多個詞中的每一 個與所述多個詞中的一個或多個其他詞中的每一個之間的相關(guān)性,并且,第一所識別主 題包括彼此之間具有超過閾值的所確定的相關(guān)性的多個詞。
11.根據(jù)權(quán)利要求1所述的方法,其中,所述自動分析第一組的多個內(nèi)容項目以識別 多個主題的步驟還包括確定作為第一所識別主題的一部分的至少一個詞與不是第一所 識別主題的一部分的多個其他詞中的每一個之間的相關(guān)性,并且,所述方法還包括向 一個或多個用戶提供與多個其他詞中的至少一個其他詞有關(guān)的信息,所述至少一個其他 詞可能包括作為第一所識別主題的一部分的所述至少一個詞,所述至少一個其他詞中的 每一個均是至少部分地基于第一所識別主題的所述至少一個詞與該其他詞之間的所確定 的相關(guān)性、針對所提供的信息而選擇的。
12.根據(jù)權(quán)利要求1所述的方法,其中,所述自動分析第一組的多個內(nèi)容項目以識別 多個主題的步驟還包括確定作為第一所識別主題的一部分的至少一個詞與不是第一所 識別主題的一部分的多個其他詞中的每一個之間的相關(guān)性,其中,從所述一個或多個用戶接收的反饋還反映了第一所識別主題的所述至少一個詞與多個其他詞中的至少一個其 他詞之間的相關(guān)性,并且,所述方法還包括進行自動確定,以便至少部分地基于所接 收的反饋中還反映的相關(guān)性,將第一所識別主題更新為包括所述至少一個其他詞中的一 個或多個其他詞。
13.根據(jù)權(quán)利要求1所述的方法,其中,所述自動分析第一組的多個內(nèi)容項目以識別 多個主題的步驟包括識別表示第一組的多個內(nèi)容項目的多個詞,其中,第一所識別主 題包括所述多個詞中被確定為彼此相關(guān)的多個詞,并且,第一所識別主題的被確定為彼 此相關(guān)的多個詞中的至少一個詞與第一組的多個內(nèi)容項目中的至少一個內(nèi)容項目的至少 一個屬性相對應(yīng),所述至少一個屬性不是第一組的多個內(nèi)容項目的內(nèi)容的一部分。
14.根據(jù)權(quán)利要求13所述的方法,其中,不是第一組的多個內(nèi)容項目的內(nèi)容的一部分 的所述第一組的至少一個內(nèi)容項目的至少一個屬性包括以下至少一項所述至少一個內(nèi) 容項目的類型;以及所述至少一個內(nèi)容項目的源。
15.根據(jù)權(quán)利要求1所述的方法,其中,所述向所述一個或多個用戶提供信息的步驟 是響應(yīng)于來自所述一個或多個用戶中的至少一個用戶的對第一所識別主題的指示而執(zhí)行 的。
16.根據(jù)權(quán)利要求15所述的方法,其中,第一所識別主題包括表示第一組的多個內(nèi)容 項目中的一個或多個內(nèi)容項目的至少一個詞,并且,來自所述至少一個用戶的對第一所 識別主題的指示包括對所述至少一個詞中的一個或多個詞的指示。
17.根據(jù)權(quán)利要求15所述的方法,其中,所述向所述一個或多個用戶提供信息的步驟 還包括提供與多個所識別主題中的一個或多個所識別主題有關(guān)的附加信息,所述一個 或多個主題包括第一所識別主題,并且,來自所述至少一個用戶的對第一所識別主題的 指示包括所述至少一個用戶從所提供的附加信息中對第一所識別主題的選擇。
18.根據(jù)權(quán)利要求1所述的方法,其中,從所述一個或多個用戶接收的反饋基于所述 一個或多個用戶在選擇所述至少一些內(nèi)容項目中的至少一個以進一步使用時進行的一個 或多個動作,使得從所述一個或多個動作自動推斷出由所述一個或多個用戶評估的、所 識別的至少一些內(nèi)容項目與第一所識別主題的相關(guān)性。
19.根據(jù)權(quán)利要求1所述的方法,其中,從所述一個或多個用戶接收的反饋基于所述 一個或多個用戶中的至少一個用戶對所述至少一些內(nèi)容項目中被確認(rèn)為與第一所識別主 題相關(guān)的至少一個內(nèi)容項目的選擇。
20.根據(jù)權(quán)利要求1所述的方法,其中,所述一個或多個計算系統(tǒng)被配置為提供相關(guān) 性確定系統(tǒng),所述相關(guān)性確定系統(tǒng)執(zhí)行對與具有被確定為對于所識別的主題來說相關(guān)的 內(nèi)容的內(nèi)容項目有關(guān)的信息的提供,并且,所述向所述一個或多個用戶提供信息的步驟 包括向與所述一個或多個用戶進行交互的另一服務(wù)提供該信息,以完成向所述一個或 多個用戶提供該信息。
21.根據(jù)權(quán)利要求1所述的方法,其中,第一組和第二組的內(nèi)容項目中的至少一些內(nèi) 容項目的每一個均是文本文檔,并且,第一所識別主題包括一個或多個單詞,所述一個 或多個單詞包括在第一組的內(nèi)容項目中的至少一個內(nèi)容項目的內(nèi)容中。
22.根據(jù)權(quán)利要求21所述的方法,其中,第一組和第二組的所述至少一些內(nèi)容項目的 每一個均是網(wǎng)頁。
23.根據(jù)權(quán)利要求21所述的方法,其中,第一組和第二組的所述至少一些內(nèi)容項目的 每一個均是電子消息。
24.根據(jù)權(quán)利要求21所述的方法,其中,第一所識別主題包括多個單詞,所述多個單 詞包括一個或多個正確拼寫的單詞和一個或多個錯誤拼寫的單詞,使得錯誤拼寫的單詞 中的每一個與正確拼寫的單詞中的至少一個相對應(yīng)。
25.根據(jù)權(quán)利要求1所述的方法,其中,第一組和第二組的內(nèi)容項目中的至少一些內(nèi) 容項目包括音頻信息、圖像信息、視頻信息和生物信息中的至少一項,并且,第一所識 別主題包括第一組的內(nèi)容項目中的至少一個內(nèi)容項目的一個或多個屬性。
26.根據(jù)權(quán)利要求1所述的方法,其中,第一組和第二組的內(nèi)容項目中的至少一些內(nèi) 容項目包括字母數(shù)字?jǐn)?shù)據(jù)結(jié)構(gòu)、符號數(shù)據(jù)結(jié)構(gòu)和數(shù)學(xué)數(shù)據(jù)結(jié)構(gòu)中的至少一項。
27.根據(jù)權(quán)利要求1所述的方法,其中,第一組和第二組的內(nèi)容項目中的至少一些內(nèi) 容項目的每一個均是文檔的片段。
28.根據(jù)權(quán)利要求1所述的方法,其中,第一組的內(nèi)容項目專用于第一用戶,使得所 述識別多個主題的步驟以專用于第一用戶的方式執(zhí)行。
29.根據(jù)權(quán)利要求28所述的方法,其中,第二組的內(nèi)容項目專用于第一用戶,使得所 述評估第二組的多個內(nèi)容項目的相關(guān)度的步驟以專用于第一用戶的方式執(zhí)行。
30.根據(jù)權(quán)利要求1所述的方法,其中,所識別的多個主題的每一個均與在所關(guān)注的 題目區(qū)域中使用的數(shù)據(jù)的多種備選類型之一相對應(yīng),并且,第二組的所述至少一些內(nèi)容 項目的每一個均被識別為具有與第一所識別主題相對應(yīng)的數(shù)據(jù)的類型。
31.根據(jù)權(quán)利要求1所述的方法,其中,所識別的多個主題的每一個均與第一組的多 個內(nèi)容項目的內(nèi)容的多種備選類別之一相對應(yīng),并且,第二組的所述至少一些內(nèi)容項目 的每一個均被識別為具有與第一所識別主題相對應(yīng)的內(nèi)容的類別。
32.根據(jù)權(quán)利要求1所述的方法,其中,所述提供與具有被確定為對于所識別的主題 來說相關(guān)的內(nèi)容的內(nèi)容項目有關(guān)的信息的步驟是針對一個或多個其他題目區(qū)域中的每一 個而執(zhí)行的,所述一個或多個其他題目區(qū)域的每一個均具有與該題目區(qū)域有關(guān)的多個內(nèi) 容項目,所述多個內(nèi)容項目被分析以識別與該題目區(qū)域相對應(yīng)的其他主題,并且所述多 個內(nèi)容項目與所識別的其他主題中的至少一個的相關(guān)度是自動評估的。
33.根據(jù)權(quán)利要求1所述的方法,其中,第一組的多個內(nèi)容項目與第二組的多個內(nèi)容 項目不同。
34.根據(jù)權(quán)利要求1所述的方法,其中,第二組的多個內(nèi)容項目包括第一組的多個內(nèi) 容項目中的至少一些。
35.—種計算機可讀介質(zhì),其內(nèi)容將計算系統(tǒng)配置為執(zhí)行相關(guān)性確定系統(tǒng),所述相關(guān) 性確定系統(tǒng)通過執(zhí)行包括以下步驟的方法來提供與關(guān)于所識別的主題的所確定的相關(guān)性 有關(guān)的信息自動分析多個有關(guān)的內(nèi)容項目的內(nèi)容,以識別所述內(nèi)容中的多個主題,并評估所述 多個內(nèi)容項目中的至少一個內(nèi)容項目與所識別主題中的至少一個所識別主題的相關(guān)性;接收與提供反饋的一個或多個外部實體的一個或多個動作有關(guān)的信息,所述反饋與 所述多個內(nèi)容項目中的一個或多個內(nèi)容項目與所識別主題中的一個或多個所識別主題的 相關(guān)性有關(guān);至少部分地基于由所接收的信息提供的反饋,自動更新所述至少一個內(nèi)容項目與所 述至少一個所識別主題的所評估的相關(guān)性;以及提供至少部分地基于所述至少一個內(nèi)容項目的更新后的所評估的相關(guān)性的信息。
36.根據(jù)權(quán)利要求35所述的計算機可讀介質(zhì),其中,所述多個內(nèi)容項目包括其內(nèi)容 表示題目區(qū)域的多個文檔的第一組以及其內(nèi)容與題目區(qū)域有關(guān)的多個文檔的第二組;其 中,所述自動分析所述多個內(nèi)容項目的內(nèi)容的操作包括分析第一組的多個文檔以識別 多個主題;以及評估第二組的多個文檔與多個所識別主題中的第一所識別主題的相關(guān) 度;其中,所述接收提供反饋的信息的操作是響應(yīng)于向所述一個或多個外部實體提供與 第二組的多個文檔中的至少一些文檔有關(guān)的信息的操作而進行的,所述至少一些文檔被 識別為每一個均與第一所識別主題具有滿足一個或多個所指示準(zhǔn)則的所評估的相關(guān)度; 其中,其所評估的相關(guān)性被更新的至少一個內(nèi)容項目每一個均是第二組的多個文檔之 一;其中,所述提供至少部分地基于所述至少一個內(nèi)容項目的更新后的所評估的相關(guān)性 的信息的操作包括向與其動作提供反饋的一個或多個實體不同的至少一個其他實體提 供與所述多個內(nèi)容項目中的一個或多個內(nèi)容項目有關(guān)的信息。
37.根據(jù)權(quán)利要求36所述的計算機可讀介質(zhì),其中,所述一個或多個外部實體的每一 個均是與相關(guān)性確定系統(tǒng)沒有關(guān)聯(lián)的人類用戶。
38.根據(jù)權(quán)利要求35所述的計算機可讀介質(zhì),其中,所識別的多個主題中的至少一些 的每一個均包括多個詞;其中,所述自動分析多個內(nèi)容項目的內(nèi)容以識別所述內(nèi)容中的 多個主題的操作包括針對所述至少一些主題中的每一個,自動確定包括在主題中的多 個詞彼此的所評估的相關(guān)性;其中,所接收的信息還提供與包括在所述至少一些主題中 的一個或多個主題中的多個詞彼此的相關(guān)性有關(guān)的反饋;并且,所述方法還包括至少 部分地基于所接收的信息還提供的反饋,自動更新包括在所述一個或多個主題中的每一 個中的多個詞的所評估的相關(guān)性;以及提供至少部分地基于包括在所述一個或多個主題 中的至少一個中的多個詞的更新后的所評估的相關(guān)性的信息。
39.根據(jù)權(quán)利要求35所述的計算機可讀介質(zhì),其中,所述計算機可讀介質(zhì)是以下至少 一項計算系統(tǒng)中存儲所述內(nèi)容的存儲器;以及數(shù)據(jù)傳輸介質(zhì),存儲了包含所述內(nèi)容在 內(nèi)的所產(chǎn)生的信號。
40.根據(jù)權(quán)利要求35所述的計算機可讀介質(zhì),其中,所述內(nèi)容是在被執(zhí)行時使計算系 統(tǒng)執(zhí)行所述方法的指令。
41.一種計算系統(tǒng),被配置為提供與關(guān)于與所識別的主題的所確定的相關(guān)性有關(guān)的信 息,所述計算系統(tǒng)包括一個或多個處理器;以及相關(guān)性確定系統(tǒng),被配置為在由所述一個或多個處理器中的至少一個執(zhí)行時,通 過以下操作來提供與有關(guān)所識別的主題的所確定的相關(guān)性有關(guān)的信息自動分析多個有關(guān)的內(nèi)容項目的內(nèi)容,以識別所述內(nèi)容中的多個主題,其中,所識 別的多個主題中的至少一些的每一個均包括多個詞,所述識別所述至少一些主題中的一 個或多個主題中的每一個的操作包括自動評估包括在主題中的多個詞彼此的相關(guān)性;提供與至少一些所識別主題中的一個或多個有關(guān)的信息,以便于第一用戶指定所關(guān) 注的至少一個主題;以及在接收到對由第一用戶指定的所關(guān)注的至少一個主題的指示之后,提供與所指定的 所關(guān)注的至少一個主題有關(guān)的信息以供第一用戶使用。
42.根據(jù)權(quán)利要求41所述的計算系統(tǒng),其中,所述至少一個主題是由第一用戶基于 第一用戶從所提供的信息所涉及的一個或多所識別主題當(dāng)中的選擇來指定的,其中,所 述多個有關(guān)的內(nèi)容項目包括其內(nèi)容表示題目區(qū)域的多個文檔的第一組以及其內(nèi)容與題目 區(qū)域有關(guān)的多個文檔的第二組;其中,所述自動分析所述多個內(nèi)容項目的內(nèi)容的操作包 括分析第一組的多個文檔以識別多個主題;以及評估第二組的多個文檔中的每一個與 所指定的至少一個主題的相關(guān)度;并且,被提供以由第一用戶使用的、與所指定的所關(guān) 注的至少一個主題有關(guān)的信息包括與第二組的多個文檔中的至少一個文檔有關(guān)的信息, 所述至少一個文檔是至少部分地基于以下內(nèi)容來選擇的所選的至少一個文檔中的每一 個與所指定的至少一個主題的所評估的相關(guān)度。
43.根據(jù)權(quán)利要求42所述的計算系統(tǒng),其中,由相關(guān)性確定系統(tǒng)提供與關(guān)于所識別的 主題的所確定的相關(guān)性有關(guān)的信息的操作還包括接收與提供反饋的一個或多個用戶的一個或多個動作有關(guān)的信息,所述反饋與包括 在所述至少一些主題中的一個或多個主題中的多個詞彼此的相關(guān)性有關(guān);至少部分地基于由所接收的信息提供的反饋,自動更新包括在所述一個或多個主題 中的每一個中的多個詞的所評估的相關(guān)性;以及提供至少部分地基于包括在所述一個或多個主題中的至少一個主題中的多個詞的更 新后的所評估的相關(guān)性的信息。
44.根據(jù)權(quán)利要求43所述的計算系統(tǒng),其中,與所述一個或多個主題有關(guān)的所提供的 信息包含包括在所述一個或多個主題中的多個詞,其中,其動作提供反饋的一個或多 個用戶包括第一用戶,其中,所述一個或多個用戶的一個或多個動作包括第一用戶從所 述一個或多個所識別主題的選擇,第一用戶的選擇包括對包含在所提供的信息中的多個 詞中的一個或多個詞的選擇,并且,所述提供至少部分地基于包括在所述至少一個主題 中的多個詞的更新后的所評估的相關(guān)性的信息的操作包括向與其動作提供反饋的一個 或多個用戶不同的至少一個其他用戶提供與第二組的多個文檔中的一個或多個文檔有關(guān) 的信息。
45.根據(jù)權(quán)利要求41所述的計算系統(tǒng),其中,所述提供與所述一個或多個主題有關(guān)的 信息的操作包括;向第一用戶提供與第一用戶從中選擇指定的所關(guān)注的至少一個主題的 多個主題有關(guān)的信息。
46.根據(jù)權(quán)利要求41所述的計算系統(tǒng),其中,所述自動分析所述多個內(nèi)容項目的內(nèi)容 的操作包括評估所述多個內(nèi)容項目中的至少一個內(nèi)容項目與所識別主題中的至少一個 所識別主題的相關(guān)性,并且,由相關(guān)性確定系統(tǒng)提供與關(guān)于所識別主題的所確定的相關(guān) 性有關(guān)的信息的操作還包括接收提供反饋的信息,所述反饋與所述多個內(nèi)容項目中的 一個或多個內(nèi)容項目與所識別主題中的一個或多個所識別主題的相關(guān)性有關(guān);至少部分 地基于由所接收的信息提供的反饋,自動更新所述一個或多個內(nèi)容項目與所述一個或多 個所識別主題的所評估的相關(guān)性;以及提供至少部分地基于所述一個或多個內(nèi)容項目的 更新后的所評估的相關(guān)性的信息。
47.根據(jù)權(quán)利要求41所述的計算系統(tǒng),其中,所述相關(guān)性確定系統(tǒng)包括由所述至少一個處理器執(zhí)行的軟件指令。
48.根據(jù)權(quán)利要求41所述的計算系統(tǒng),其中,所述相關(guān)性確定系統(tǒng)由以下裝置構(gòu)成, 所述裝置通過執(zhí)行以下操作來提供與關(guān)于所識別的主題的所確定的相關(guān)性有關(guān)的信息自動分析多個有關(guān)的內(nèi)容項目的內(nèi)容,以識別所述內(nèi)容中的多個主題,其中,所識 別的多個主題中的至少一些均包括多個詞,所述識別所述至少一些主題中的一個或多個 主題中的每一個的操作包括自動評估包括在主題中的多個詞彼此的相關(guān)性;提供與至少一些所識別主題中的一個或多個有關(guān)的信息,以便于第一用戶指定所關(guān) 注的至少一個主題;以及在接收到對由第一用戶指定的所關(guān)注的至少一個主題的指示之后,提供與指定的所 關(guān)注的至少一個主題有關(guān)的信息以供第一用戶使用。
49.一種計算機實現(xiàn)的方法,包括在被配置為用于確定和提供與其內(nèi)容與所識別的主題相關(guān)的文檔有關(guān)的信息的提供 相關(guān)性確定服務(wù)的一個或多個計算系統(tǒng)的控制下,自動分析與所關(guān)注的第一域有關(guān)的的多個文檔的內(nèi)容,以識別與所關(guān)注的第一域相 對應(yīng)的多個主題,并評估所述多個文檔中的每一個與所識別主題中的每一個的初始相關(guān) 性,其中,所識別的多個主題中的每一個具有所述多個文檔的內(nèi)容中出現(xiàn)的多個詞中的 一個或多個詞;產(chǎn)生對多個文檔與所識別主題的所評估的相關(guān)性進行建模的文檔相關(guān)性神經(jīng)網(wǎng)絡(luò), 所述文檔相關(guān)性神經(jīng)網(wǎng)絡(luò)對所評估的初始相關(guān)性進行初始建模;以及通過執(zhí)行以下操作來重復(fù)使用和更新由所述文檔相關(guān)性神經(jīng)網(wǎng)絡(luò)建模的所評估的相 關(guān)性響應(yīng)于均由指定所識別主題之一的用戶提供的一個或多個文檔請求中的每一個,向 用戶提供指示多個文檔中的一些文檔的結(jié)果,所述一些文檔是基于由所述文檔相關(guān)性神 經(jīng)網(wǎng)絡(luò)建模的、所選文檔與所指定的主題的所評估的相關(guān)性來選擇的;從針對指定主題的文檔請求而提供的結(jié)果中的一個或多個結(jié)果中的每一個獲得反 饋,所獲得的反饋基于用戶與所提供的結(jié)果的一個或多個交互,所述一個或多個交互使 用戶能夠推斷評估所提供的結(jié)果中指示的所選的一些文檔中的至少一個文檔與所指定的 主題的相關(guān)性;以及使用所獲得的反饋,自動學(xué)習(xí)所述文檔相關(guān)性神經(jīng)網(wǎng)絡(luò)已改進的建模的所評估的相 關(guān)性,從而對多個文檔中的一個或多個文檔中的每一個與所識別主題中的一個或多個的 建模的所評估的相關(guān)性進行更新。
50.根據(jù)權(quán)利要求49所述的方法,其中,所述自動分析所述多個文檔的內(nèi)容的操作包 括評估針對多個有關(guān)詞的多個不同詞組中的每一個的多個詞中的多個彼此的初始相關(guān) 性,其中,所識別的多個主題中的至少一些的每一個均具有詞組之一的多個有關(guān)詞,所 述詞組基于彼此具有超過指定閾值的所評估的初始相關(guān)性的多個有關(guān)詞,并且,所述方 法還包括產(chǎn)生對多個詞組中的每一個的多個有關(guān)詞彼此的所評估的相關(guān)性進行建模的詞相關(guān) 性神經(jīng)網(wǎng)絡(luò),所述詞相關(guān)性神經(jīng)網(wǎng)絡(luò)對多個詞組的多個有關(guān)詞的所評估的初始相關(guān)性進 行初始建模;獲得針對文檔請求而提供給用戶的結(jié)果中的一個或多個結(jié)果中的每一個的附加反 饋,所獲得的附加反饋基于用戶與所提供的結(jié)果的一個或多個交互,所述一個或多個交 互使用戶能夠推斷評估多個詞組中的至少一個的多個有關(guān)詞彼此的相關(guān)性,多個有關(guān)詞 的所推斷評估的相關(guān)性至少部分地基于這些詞與所提供的結(jié)果中指示的所選的一些文檔 中的至少一個文檔的相關(guān)性;使用所獲得的附加反饋,自動學(xué)習(xí)所述詞相關(guān)性神經(jīng)網(wǎng)絡(luò)的已改進的建模的所評估 的相關(guān)性,從而對多個詞組中的一個或多個詞組中的每一個的多個有關(guān)詞彼此的建模的 所評估的相關(guān)性進行更新;以及對所識別的多個主題中的至少一個進行修改,以反映一個或多個詞組中的至少一個 詞組的多個有關(guān)詞彼此的更新后的建模的所評估的相關(guān)性。
51.根據(jù)權(quán)利要求49所述的方法,其中,所述相關(guān)性確定服務(wù)是用戶能夠經(jīng)由一個或 多個關(guān)聯(lián)服務(wù)來訪問的,從而,所述向用戶提供針對文檔請求的至少一些結(jié)果的操作包 括向關(guān)聯(lián)服務(wù)提供這些結(jié)果,所述關(guān)聯(lián)服務(wù)進一步向用戶提供這些結(jié)果;并且,所述 相關(guān)性確定服務(wù)是從關(guān)聯(lián)服務(wù)和/或從結(jié)果被提供給其文檔請求的用戶獲得費用的基 于費用的服務(wù)。
全文摘要
本發(fā)明描述了用于確定和使用與所關(guān)注的域有關(guān)的相關(guān)信息的技術(shù)。在至少一些情形中,該技術(shù)包括自動分析與所關(guān)注的域有關(guān)的文檔、詞和其他信息,以便自動確定與域內(nèi)的相關(guān)主題有關(guān)和/或與哪些文檔具有與這種主題相關(guān)的內(nèi)容有關(guān)的信息。然后,可以以各種方式使用這種自動確定的與域有關(guān)的信息,包括幫助用戶指定所關(guān)注的主題和/或獲得具有與所指定的主題相關(guān)的內(nèi)容的文檔和/或文檔片斷。此外,可以跟蹤與用戶如何使用自動確定的信息有關(guān)的信息,并將該信息用作學(xué)習(xí)對域內(nèi)的先關(guān)主題和相關(guān)文檔的改進確定的反饋,例如通過使用自動化機器學(xué)習(xí)技術(shù)而進行的學(xué)習(xí)的反饋。
文檔編號G06F7/00GK102016787SQ200980114629
公開日2011年4月13日 申請日期2009年2月25日 優(yōu)先權(quán)日2008年2月25日
發(fā)明者克勞迪亞·艾林·布蘭扎恩, 卡塔林·泰奧多·米洛斯, 奧利弗·B·道恩斯, 弗拉德·米爾西亞·依奧凡諾夫, 拉杜·依奧恩·畢斯卡, 索普克·西恩格·卡爾薩, 邁克爾·桑多瓦爾 申請人:阿迪吉歐有限責(zé)任公司