亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

以實體為中心的知識發(fā)現(xiàn)的制作方法

文檔序號:12071240閱讀:293來源:國知局
以實體為中心的知識發(fā)現(xiàn)的制作方法與工藝

本申請要求2014年5月12日提交的美國臨時申請?zhí)?1/996,575以及2014年8月28日提交的美國臨時申請?zhí)?2/070,549的優(yōu)先權(quán),所述美國臨時申請中的每個被特此通過引用整體地結(jié)合。

技術(shù)領(lǐng)域

本公開一般地涉及以實體為中心的知識發(fā)現(xiàn)。



背景技術(shù):

許多信息檢索任務(wù)是以實體為中心的,并且集中在具有公知且強類型的屬性的特定類型的實體上。例如,諸如公司之類的實體可能具有許多雇員、股票代號、營業(yè)地址、季度收入日期以及涉及日期、美元總額、地理位置等的許多其它已知的屬性。類似地,可以通過生日、家庭地址、社交圖等來表征人。從非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)之中搜索關(guān)于實體的新信息要求對實體的描述和響應(yīng)于該描述而檢索的文檔的內(nèi)容兩者的注意。雖然已經(jīng)開發(fā)了諸如折疊樹之類的工具來幫助聚集該類型的信息并對其進行分類,但仍有對用于使用戶發(fā)現(xiàn)數(shù)據(jù)并將數(shù)據(jù)聚集到實體的簡檔中的改進的工具的需要。



技術(shù)實現(xiàn)要素:

以實體為中心的知識發(fā)現(xiàn)系統(tǒng)的用戶接口呈現(xiàn)包括涉及實體的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的混合的實體簡檔。因為用戶基于從各種源聚集的信息來細化實體簡檔,所以可以使用改變的實體簡檔作為基本上連續(xù)地更新的查詢來搜索、檢索和排列具體地與被扼要描述的實體有關(guān)的新的且相關(guān)的信息。本文中描述的平臺提供了用于細化實體描述并搜索附加信息的活動環(huán)路,其中人類輸入和基于機器的算法可以合作以更快速地構(gòu)建對感興趣的實體的綜合描述。

在一個方面中,一種具有體現(xiàn)在非臨時計算機可讀介質(zhì)中的計算機可執(zhí)行代碼的計算機程序產(chǎn)品當在一個或多個計算設(shè)備上執(zhí)行時實行以下步驟:在顯示器中提供第一窗口,其接受包含關(guān)于實體的信息的簡檔的用戶輸入,所述信息包括實體的一個或多個區(qū)別性屬性的一個或多個值;以及在顯示器中提供與第一窗口同時地可見的第二窗口,其中第二窗口示出來自一個或多個源的多個搜索結(jié)果,所述多個搜索結(jié)果用提到實體的預(yù)定可能性來標識每個包含提及的文檔。第二窗口可以按照使用根據(jù)一個或多個預(yù)定準則相對于該多個搜索結(jié)果中的其它搜索結(jié)果優(yōu)先地排列搜索結(jié)果中的至少一個的算法排列的順序來顯示搜索結(jié)果。代碼還可以執(zhí)行將搜索結(jié)果中的一個的內(nèi)容顯示為顯示器中的項目的步驟,其中第一窗口通過將該項目添加到第一窗口而對項目的用戶選擇進行響應(yīng),從而提供簡檔中的改變,并且進一步地,其中第二窗口通過提供經(jīng)更新的搜索結(jié)果而對簡檔中的改變進行響應(yīng)。

實現(xiàn)可以具有以下特征中的一個或多個。區(qū)別性屬性中的一個可以是實體的名稱。提供經(jīng)更新的搜索結(jié)果可以包括在顯示器中呈現(xiàn)經(jīng)更新的搜索結(jié)果、響應(yīng)于用以保存改變的用戶動作而呈現(xiàn)經(jīng)更新的搜索結(jié)果、響應(yīng)于請求經(jīng)更新的搜索結(jié)果的用戶動作而呈現(xiàn)經(jīng)更新的搜索結(jié)果,或者在顯示器中呈現(xiàn)經(jīng)更新的搜索結(jié)果的可用性的指示。代碼還可以執(zhí)行如下步驟:確定實體的類型,該類型具有針對該類型組織包括一個或多個區(qū)別性屬性的多個屬性的預(yù)定概要(schema)。代碼還可以執(zhí)行如下步驟:在顯示器中提供經(jīng)更新的搜索結(jié)果的指示。經(jīng)更新的搜索結(jié)果的指示可以包括第二窗口中的經(jīng)更新的搜索結(jié)果的呈現(xiàn)以及給用戶的經(jīng)更新的搜索結(jié)果可用的通知的呈現(xiàn)中的至少一個。代碼還可以執(zhí)行如下步驟:接收用以顯示經(jīng)更新的搜索結(jié)果的用戶請求并響應(yīng)性地在顯示器中呈現(xiàn)經(jīng)更新的搜索結(jié)果。一個或多個預(yù)定準則可以包括如下中的一個或多個:搜索結(jié)果提到實體的可能性、搜索結(jié)果提供關(guān)于實體的新信息項的可能性以及搜索結(jié)果與實體的相關(guān)性。代碼還可以執(zhí)行如下步驟:使用根據(jù)簡檔的狀態(tài)而變化的排列函數(shù)基于一個或多個預(yù)定準則來排列搜索結(jié)果。簡檔可以包括:一個或多個超鏈接;一個或多個顯式字段;以及純文本。實體可以包括人、公司、組織或化學(xué)組成。數(shù)據(jù)的用戶選擇可以包括項目到第一窗口的拖放。該拖放可以:創(chuàng)建針對簡檔中的改變的引用,其中該引用參考與用戶選擇相關(guān)聯(lián)的搜索結(jié)果中的一個;創(chuàng)建針對簡檔中的改變的維基參考標簽,其中維基參考標簽參考包含用戶選擇的搜索結(jié)果中的一個;和/或在簡檔中創(chuàng)建與項目中的所選文本條目相對應(yīng)的文本條目。代碼還可以執(zhí)行如下步驟:以突出項目中的實體的提及的方式顯示所述項目。代碼還可以執(zhí)行如下步驟:以突出項目中的關(guān)于實體的新信息的方式顯示所述項目。第二窗口可以對從第一窗口進行的信息的用戶選擇進行響應(yīng)以根據(jù)對信息的用戶興趣的推斷指示來更新第二窗口中的搜索結(jié)果。第一窗口可以包括:文本編輯工具、超文本標記語言(HTML)編輯工具;和/或維基編輯工具。簡檔可以包括:半結(jié)構(gòu)化文檔;關(guān)于實體的非結(jié)構(gòu)化數(shù)據(jù);關(guān)于實體的結(jié)構(gòu)化數(shù)據(jù);具有預(yù)定義數(shù)據(jù)模型的數(shù)據(jù);沒有預(yù)定義數(shù)據(jù)模型的數(shù)據(jù);分字段數(shù)據(jù);語義標記數(shù)據(jù);具有在簡檔中并未正式地定義的隱含結(jié)構(gòu)的數(shù)據(jù);和/或包括文本文檔和HTML文檔中的一個或多個的可編輯文檔。代碼還可以執(zhí)行如下步驟:在被配置成顯示從第二窗口選擇的搜索結(jié)果中的一個的第三窗口中顯示所述項目。

在另一方面中,一種設(shè)備包括處理器、網(wǎng)絡(luò)接口以及存儲計算機可執(zhí)行指令的存儲器,該計算機可執(zhí)行指令當在處理器上執(zhí)行時執(zhí)行步驟:在顯示器中提供第一窗口,其接受包含關(guān)于實體的信息的簡檔的用戶輸入,所述信息包括用于實體的一個或多個區(qū)別性屬性的一個或多個值;以及

在顯示器中提供與第一窗口同時地可見的第二窗口,其中第二窗口示出了來自一個或多個源的多個搜索結(jié)果,該搜索結(jié)果用提到實體的預(yù)定可能性來標識每個包含提及的文檔。第二窗口可以按照使用根據(jù)一個或多個預(yù)定準則將搜索結(jié)果中的至少一個相對于所述多個搜索結(jié)果中的其它搜索結(jié)果的優(yōu)先排列的算法排列的順序來顯示搜索結(jié)果。該計算機可執(zhí)行指令還可以將搜索結(jié)果中的一個的內(nèi)容顯示為顯示器中的項目,其中第一窗口通過將該項目添加到第一窗口而對項目的用戶選擇進行響應(yīng),從而提供簡檔中的改變,并且進一步地,其中第二窗口通過提供經(jīng)更新的搜索結(jié)果對簡檔中的改變進行響應(yīng)。

在另一方面中,一種方法包括:在顯示器中提供第一窗口,其接受包含關(guān)于實體的信息的簡檔的用戶輸入,所述信息包括用于實體的一個或多個區(qū)別性屬性的一個或多個值;在顯示器中提供與第一窗口同時地可見的第二窗口,其中第二窗口示出了來自一個或多個源的多個搜索結(jié)果,其用提到實體的預(yù)定可能性來標識每個包含提及的文檔。第二窗口可以按照使用根據(jù)一個或多個預(yù)定準則將搜索結(jié)果中的至少一個相對于所述多個搜索結(jié)果中的其它搜索結(jié)果的優(yōu)先排列的算法排列的順序來顯示搜索結(jié)果。方法還可以包括將搜索結(jié)果中的一個的內(nèi)容顯示為顯示器中的項目,其中第一窗口通過將該項目添加到第一窗口而對項目的用戶選擇進行響應(yīng),從而提供簡檔中的改變,并且進一步地,其中第二窗口通過提供經(jīng)更新的搜索結(jié)果對簡檔中的改變進行響應(yīng)。

在一個方面中,一種包括在非臨時計算機可讀介質(zhì)中體現(xiàn)的計算機可執(zhí)行代碼的計算機程序產(chǎn)品,該計算機可執(zhí)行代碼當在一個或多個計算設(shè)備上執(zhí)行時執(zhí)行步驟:在顯示器中提供第一窗口,其接受包含關(guān)于實體的信息的簡檔的用戶輸入,所述信息包括用于實體的一個或多個區(qū)別性屬性的一個或多個值;以及在顯示器中提供與第一窗口同時地可見的第二窗口,其中第二窗口示出了來自一個或多個源的多個搜索結(jié)果,其用提到實體的預(yù)定可能性來標識每個包含提及的文檔,并且其中第二窗口按照使用根據(jù)一個或多個預(yù)定準則將搜索結(jié)果中的至少一個相對于所述多個搜索結(jié)果中的其它搜索結(jié)果的優(yōu)先排列的算法排列的順序來顯示搜索結(jié)果。代碼還可以執(zhí)行如下步驟:在顯示器中提供與第一和第二窗口同時地可見的第三窗口,所述第三窗口顯示搜索結(jié)果中的一個的內(nèi)容,其中第一窗口被操作耦合到第三窗口以從第三窗口接收所選數(shù)據(jù)的用戶選擇并將所選數(shù)據(jù)放入第一窗口中,從而提供簡檔中的改變,其中所述第二窗口對簡檔中的改變進行響應(yīng)而更新搜索結(jié)果,并且其中第三窗口對第二窗口中的搜索結(jié)果中的所選的一個的選擇進行響應(yīng)而在第三窗口中顯示搜索結(jié)果中的所選的一個的內(nèi)容。

在另一方面中,一種方法包括:將實體簡檔存儲在包含半結(jié)構(gòu)化數(shù)據(jù)的可編輯文檔中,所述半結(jié)構(gòu)化數(shù)據(jù)包括具有預(yù)定義數(shù)據(jù)模型的第一數(shù)據(jù)和不具有預(yù)定義數(shù)據(jù)模型的第二數(shù)據(jù),所述實體簡檔描述了具有一種類型的實體,該類型具有包括實體的一個或多個區(qū)別性屬性以及用于所述一個或多個區(qū)別性屬性中的至少一個的值的預(yù)定概要;在用戶接口中向用戶顯示實體簡檔;檢測導(dǎo)致已修改實體簡檔的對用戶接口中的實體簡檔的用戶修改;響應(yīng)于該用戶修改針對在已修改實體簡檔中指定的實體的提及而自動地執(zhí)行基于實體的搜索,從而檢索一個或多個搜索結(jié)果;以及向用戶顯示一個或多個搜索結(jié)果。

實現(xiàn)可以具有以下特征中的一個或多個。方法還可以包括根據(jù)搜索結(jié)果提到實體的置信度水平將搜索結(jié)果中的一個排列。方法還可以包括根據(jù)搜索結(jié)果提供關(guān)于實體的新信息向的置信度水平而將搜索結(jié)果中的一個排列。實體簡檔可以包括如下中的一個或多個:超鏈接、顯式字段以及純文本。實體可以包括人、公司、組織或化合物。用戶修改可以包括數(shù)據(jù)到可編輯文檔中的拖放。該拖放可以:參考數(shù)據(jù)源來創(chuàng)建用于數(shù)據(jù)的引用;參考數(shù)據(jù)源來創(chuàng)建用于數(shù)據(jù)的維基參考標簽;和/或在實體簡檔中創(chuàng)建對應(yīng)于內(nèi)容源中的所選文本條目的文本條目。一個或多個搜索結(jié)果可以包括突出一個或多個搜索結(jié)果宏的實體的提及和/或突出一個或多個搜索結(jié)果中的新信息項。用戶修改可以包括實體簡檔中的信息的用戶選擇,從而提供對信息的用戶興趣的推斷指示。用戶接口可以包括如下中的一個或多個:用于可編輯文檔的文本編輯工具、用于可編輯文檔的超文本標記語言(HTML)編輯工具以及用于可編輯文檔的維基編輯工具。實體簡檔可以包括:關(guān)于實體的非結(jié)構(gòu)化數(shù)據(jù)、關(guān)于實體的結(jié)構(gòu)化數(shù)據(jù)、分字段數(shù)據(jù)、語義標記數(shù)據(jù)和/或具有在實體見當內(nèi)并未正式定義的隱含結(jié)構(gòu)的數(shù)據(jù)??删庉嬑臋n可以包括文本文檔和HTML文檔中的一個或多個。

在另一方面,一種用于提供實時搜索文檔的計算機程序產(chǎn)品,該計算機程序產(chǎn)品包括在非臨時計算機可讀介質(zhì)中體現(xiàn)的計算機可執(zhí)行代碼,該計算機可執(zhí)行代碼當在一個或多個計算設(shè)備上執(zhí)行時執(zhí)行步驟:將實體簡檔存儲在包含半結(jié)構(gòu)化數(shù)據(jù)的可編輯文檔中,所述半結(jié)構(gòu)化數(shù)據(jù)包括具有預(yù)定義數(shù)據(jù)模型的第一數(shù)據(jù)和不具有預(yù)定義數(shù)據(jù)模型的第二數(shù)據(jù),所述實體簡檔描述了具有一種類型的實體,該類型具有包括實體的一個或多個區(qū)別性屬性以及用于所述一個或多個區(qū)別性屬性中的至少一個的值的預(yù)定概要;在用戶接口中向用戶顯示實體簡檔;檢測導(dǎo)致已修改實體簡檔的對用戶接口中的實體簡檔的用戶修改;響應(yīng)于該用戶修改針對在已修改實體簡檔中指定的實體的提及而自動地執(zhí)行基于實體的搜索,從而檢索一個或多個搜索結(jié)果;以及向用戶顯示一個或多個搜索結(jié)果。

在一個方面中,一種系統(tǒng)包括:存儲器,其存儲用于具有預(yù)定類型的實體的實體簡檔;搜搜引擎,其被配置成執(zhí)行基于實體簡檔在文檔的源中定位實體的可能提及的基于實體的搜索;顯示器,其被配置成向用戶顯示實體簡檔和包含實體的可能提及的一個或多個文檔;以及處理器,其被配置成檢測將實體簡檔修改成已修改實體簡檔的用戶輸入,基于已修改實體簡檔向搜索引擎提出搜索請求,并在顯示器中顯示該搜索請求的結(jié)果。

實現(xiàn)可以具有以下特征中的一個或多個。處理器可以自動地檢測用戶輸入,并且響應(yīng)于用戶輸入而自動地提出搜索請求并顯示結(jié)果。處理器可以從用戶接收人工請求以基于已修改實體簡檔而提出搜索請求。搜索引擎可以被配置成根據(jù)搜索結(jié)果提到實體的置信度水平而將包括在搜索請求的結(jié)果中的搜索結(jié)果排列。搜索引擎可以被配置成根據(jù)搜索結(jié)果提供用于實體的新信息項的置信度水平而將包括在搜索請求的結(jié)果中的搜索結(jié)果排列。實體簡檔可以包括:一個或多個超鏈接、一個或多個顯式字段和/或純文本。實體可以包括人、公司、組織或化合物。用戶輸入可以包括數(shù)據(jù)從一個或多個文檔到實體簡檔中的拖放。該拖放可以:用于已修改實體簡檔的引用,其中該引用參考包含數(shù)據(jù)的一個或多個文檔;創(chuàng)建用于已修改實體簡檔的維基參考標簽,其中維基參考標簽參考包含數(shù)據(jù)的一個或多個文檔;和/或在已修改實體簡檔中創(chuàng)建與從一個或多個文檔選擇的文本條目相對應(yīng)的文本條目。一個或多個文檔可以包括實體的提及的突出和/或關(guān)于實體的新信息項的突出。用戶輸入可以包括實體簡檔內(nèi)的信息的用戶選擇,從而提供對信息的用戶興趣的推斷指示。顯示可以包括文本編輯工具、超文本標記語言(HTML)編輯工具和/或維基編輯工具中的一個或多個。實體簡檔可以包括:半結(jié)構(gòu)化文檔、關(guān)于實體的非結(jié)構(gòu)化數(shù)據(jù)、關(guān)于實體的結(jié)構(gòu)化數(shù)據(jù)、具有預(yù)定義數(shù)據(jù)模型的數(shù)據(jù)、沒有預(yù)定義數(shù)據(jù)模型的數(shù)據(jù)、分字段數(shù)據(jù)、語義標記數(shù)據(jù)、具有在實體簡檔內(nèi)并未正式定義的隱含結(jié)構(gòu)的數(shù)據(jù)和/或包括文本文檔和HTML文檔中的一個或多個的可編輯文檔。

附圖說明

如附圖中圖示的那樣,根據(jù)本文中描述的設(shè)備、系統(tǒng)以及方法的特定實施例的以下描述,所述設(shè)備、系統(tǒng)以及方法的前述及其它目的、特征和優(yōu)點將是顯而易見的。圖不一定按比例,代之以著重于圖示出本文中描述的設(shè)備、系統(tǒng)以及方法的原理。

圖1示出了用于以實體為中心的信息檢索和聚合的聯(lián)網(wǎng)環(huán)境。

圖2圖示出將數(shù)據(jù)從二進制表示反序列化成結(jié)構(gòu)化數(shù)據(jù)。

圖3示出了將信息組織到實體簡檔中。

圖4示出了用于以實體為中心的信息檢索和聚合的接口。

圖5示出了用于以實體為中心的搜索結(jié)果的相關(guān)性和置信度的交換(trading)的接口控制元素。

圖6示出了供在基于實體的搜索中使用的書簽工具。

圖7示出了用于提供用于以實體為中心的信息檢索和聚合的接口的方法。

圖8示出了用于以實體為中心的信息檢索和聚合的方法。

具體實施方式

現(xiàn)在將參考附圖來描述詳細實施例。然而,前述可以用許多不同的形式來體現(xiàn)并且不應(yīng)被解釋為限于在本文中闡述的圖示實施例。

本文中提到的所有文檔被特此通過引用整體地結(jié)合。應(yīng)將單數(shù)的對項目的參考理解成包括復(fù)數(shù)的項目,并且反之亦然,除非另外顯式地聲明或者從文本清楚。語法連接詞意圖表達連結(jié)的子句、句子、單詞等的任何和所有分隔和連接組合,除非另外聲明或者從上下文清楚。因此,應(yīng)將術(shù)語“或”一般地理解成意味著“和/或”等。

本文中的值的范圍的詳述不意圖是限制性的,而是單獨地涉及落在該范圍內(nèi)的任何和所有值,除非在本文中另外指出,并且此類范圍內(nèi)的每個單獨值被結(jié)合到本說明書中,如同其在本文中被單獨地敘述一樣。單詞“大約”、“近似”等當伴隨數(shù)值時要被解釋為指示如由本領(lǐng)域普通技術(shù)人員將領(lǐng)會的為了預(yù)期目的而令人滿意地操作的偏差。值和/或數(shù)值的范圍在本文中僅被提供作為示例,并且不構(gòu)成對所描述的實施例的范圍的限制。在本文中提供的任何和所有示例或示例性語言(“例如”、“諸如”等)的使用僅意圖更好地闡明實施例明并且不對實施例的范圍造成限制。不應(yīng)將本說明書中的語言解釋為將任何未要求保護的元素指示為對實施例的實施而言必不可少的。

在以下描述中,應(yīng)理解諸如“第一”、“第二”、“頂部”、“底部”、“上”、“下”等的術(shù)語是方便性的詞語并且不應(yīng)被解釋為限制性術(shù)語。

圖1示出了用于以實體為中心的信息檢索和聚合的聯(lián)網(wǎng)環(huán)境。一般地,環(huán)境100可以包括以通信關(guān)系將多個參與設(shè)備互連的數(shù)據(jù)網(wǎng)絡(luò)102。參與設(shè)備可以例如包括任何數(shù)目的客戶端設(shè)備104、服務(wù)器106、內(nèi)容源108及其它資源110。

數(shù)據(jù)網(wǎng)絡(luò)102可以是適合于在環(huán)境100中的參與者之間傳送數(shù)據(jù)和信息的任何(一個或多個)網(wǎng)絡(luò)或(一個或多個)互聯(lián)網(wǎng)絡(luò)。這可以包括諸如因特網(wǎng)之類的公共網(wǎng)絡(luò)、私有網(wǎng)絡(luò)、諸如公共交換電話網(wǎng)或使用第三代(例如,3G或IMT-2000)、第四代(例如,LTE(E-UTRA)或高級WiMax(IEEE 802.16m))和/或其它技術(shù)的蜂窩網(wǎng)絡(luò)之類的電信網(wǎng)絡(luò),以及可能用來在環(huán)境100中的參與者之間載送數(shù)據(jù)的多種企業(yè)區(qū)域網(wǎng)或局域網(wǎng)及其它交換機、路由器、集線器、網(wǎng)關(guān)等中的任何。

數(shù)據(jù)網(wǎng)絡(luò)102的每個參與者可以包括適當?shù)木W(wǎng)絡(luò)接口,其包括例如網(wǎng)絡(luò)接口卡,該術(shù)語在本文中被寬泛地用來包括適合于建立和維持有線和/或無線通信的任何硬件(連同用以控制相同操作的軟件、固件等)。網(wǎng)絡(luò)接口卡可以包括而不限于有線以太網(wǎng)接口卡(“NIC”)、無線802.11聯(lián)網(wǎng)卡、無線802.11 USB設(shè)備或用于有線或無線局域聯(lián)網(wǎng)的其它硬件。網(wǎng)絡(luò)接口可以同樣或替代地包括蜂窩網(wǎng)絡(luò)硬件、廣域無線網(wǎng)硬件或用于可能被用來連接到網(wǎng)絡(luò)并載送數(shù)據(jù)的集中式、自組織、端到端或其它無線電通信的任何其它硬件。在另一方面中,網(wǎng)絡(luò)接口可以包括用以直接地連接到諸如臺式計算機之類的本地計算設(shè)備的串行或USB端口,所述本地計算設(shè)備進而提供到數(shù)據(jù)網(wǎng)絡(luò)102的更一般的網(wǎng)絡(luò)連通性。

客戶端設(shè)備104可以包括環(huán)境100內(nèi)的由用戶操作用于實施如在本文中設(shè)想的以實體為中心的信息檢索和聚合技術(shù)的任何設(shè)備。具體地,客戶端設(shè)備104可以包括用于發(fā)起和進行搜索、聚集信息、草擬實體簡檔、執(zhí)行其它研究任務(wù)等以及管理、監(jiān)視在本文中設(shè)想的系統(tǒng)和方法中包括的工具、平臺以及設(shè)備或者以其他方式與所述工具、平臺以及設(shè)備相交互的任何設(shè)備。舉例來說,客戶端設(shè)備104可以包括一個或多個臺式計算機、膝上型計算機、網(wǎng)絡(luò)計算機、平板計算機、移動設(shè)備、便攜式數(shù)字助理、消息傳送設(shè)備、蜂窩電話、智能電話、便攜式媒體或娛樂設(shè)備,或者如本文中設(shè)想的可以參與環(huán)境100的任何其它計算設(shè)備。如上面討論的那樣,客戶端設(shè)備104可以包括可能被用來與聯(lián)網(wǎng)環(huán)境100相交互的任何形式的移動設(shè)備,諸如任何無線、電池供電的設(shè)備。還將領(lǐng)會的是客戶端設(shè)備104中的一個可以在相關(guān)功能(例如,搜索、存儲實體簡檔等)被另一實體(諸如服務(wù)器106、內(nèi)容源108或其它資源110中的一個)執(zhí)行時協(xié)調(diào)所述相關(guān)功能。

每個客戶端設(shè)備104一般地可以提供用戶接口,諸如本文中描述的任何用戶接口。用戶接口可以由在從例如服務(wù)器106和內(nèi)容源108接收關(guān)于實體的數(shù)據(jù)的客戶端設(shè)備104中的一個上的本地執(zhí)行應(yīng)用來維持。在其它實施例中,諸如在服務(wù)器106或其它資源110中的一個包括web服務(wù)器的情況下,所述web服務(wù)器通過可以在客戶端設(shè)備104中的一個上執(zhí)行的web瀏覽器或類似客戶端內(nèi)顯示的一個或多個web頁面等來提供信息,可以遠程地提供并在客戶端設(shè)備104中的一個上呈現(xiàn)用戶接口。用戶接口一般地可以創(chuàng)建用于客戶端設(shè)備104中的一個的顯示設(shè)備上的用戶交互的適當視覺呈現(xiàn),并且提供接收任何適當形式的用戶輸入,包括例如來自鍵盤、鼠標、觸控板、觸摸屏、手勢或(一個或多個)其它用戶輸入設(shè)備的輸入。

服務(wù)器106可以包括數(shù)據(jù)儲存器、網(wǎng)絡(luò)接口以及處理器和/或其它處理電路。在以下描述中,其中描述了服務(wù)器106的功能或配置,這意圖包括服務(wù)器106的處理器的(例如,通過編程的)相應(yīng)功能或配置。一般地,服務(wù)器106(或其處理器)可以執(zhí)行與本文中討論的以實體為中心的信息檢索和聚合技術(shù)相關(guān)的多種處理任務(wù)。例如,服務(wù)器106可以管理從客戶端設(shè)備104中的一個或多個接收到的信息,并且提供相關(guān)支持功能,諸如數(shù)據(jù)的搜索和管理。服務(wù)器106可以同樣或替代地包括對由用戶在客戶端設(shè)備104中的一個或多個處執(zhí)行的動作做出反應(yīng)的后端算法。該后端算法可以同樣或替代地位于環(huán)境100中的別處。

服務(wù)器106還可以包括促進由客戶端設(shè)備104對服務(wù)器106的能力的基于web的訪問的web服務(wù)器或類似前端。服務(wù)器106可以同樣或替代地與內(nèi)容源108及其它資源110通信以便獲得用于通過客戶端設(shè)備104上的用戶接口而提供給用戶的信息。在用戶指定諸如搜索類型、語言過濾器、相關(guān)性準則(例如,用于確定搜索結(jié)果與實體的相關(guān)性)、置信度準則(例如,用于確定結(jié)果是否涉及特定實體)等的搜索準則或者例如通過對在客戶端設(shè)備104上包括的實體簡檔上執(zhí)行的動作而另外指定搜索準則的情況下,此信息可以被服務(wù)器106(和任何關(guān)聯(lián)算法)用來訪問其它資源,諸如內(nèi)容源108或其它資源110,以檢索相關(guān)或新信息并重新排列搜索結(jié)果。在此背景下可以有用地執(zhí)行附加處理,諸如向用戶推薦新的搜索策略或者向用戶推薦潛在地新的信息用于添加到實體簡檔。

服務(wù)器106還可以維持內(nèi)容的數(shù)據(jù)庫112連同用于使用戶在客戶端設(shè)備104處使用本文中提供的任何技術(shù)(例如,自動地通過對實體簡檔執(zhí)行的動作)來執(zhí)行數(shù)據(jù)庫內(nèi)容的搜索和檢索的接口。因此,在一個方面中,服務(wù)器106(或包括服務(wù)器106的任何系統(tǒng))可以包括實體信息的數(shù)據(jù)庫112,并且服務(wù)器106可以充當提供搜索引擎的服務(wù)器,所述搜索引擎用于定位數(shù)據(jù)庫112中的特定屬性并提供支持服務(wù)(諸如被定位的文檔的檢索)。

在另一方面中,服務(wù)器106可以通過周期性地搜索數(shù)據(jù)網(wǎng)絡(luò)102上的遠程位置處的內(nèi)容并為任何得到的內(nèi)容編索引以用于由客戶端104的后續(xù)搜索來支持搜索活動。這可以包括存儲特定文檔的位置或地址信息以及以任何適當方式來解析文檔以標識單詞、圖像、媒體、元數(shù)據(jù)等,以及特征矢量或其它衍生數(shù)據(jù)的創(chuàng)建以幫助類似類型比較、相異比較或其它分析。在一個方面中,可以根據(jù)任何期望標準來人工地管理數(shù)據(jù)庫112。服務(wù)器106可以提供或者以其他方式支持諸如本文中描述的任何接口之類的接口,其可以在客戶端104處被提供給用戶。

服務(wù)器106可以同樣或替代地被配置成諸如通過提供用于管理對內(nèi)容的源的訂閱的接口來跟蹤經(jīng)組織的內(nèi)容等。這可以包括用于搜索現(xiàn)有訂閱、定位或指定新的源、訂閱內(nèi)容的源等的工具。在一個方面中,服務(wù)器106可以管理訂閱并根據(jù)來自用戶的輸入而自動地將新內(nèi)容從這些訂閱引導(dǎo)至客戶端設(shè)備104。因此,雖然設(shè)想客戶端設(shè)備104可以通過網(wǎng)絡(luò)接口來自主地訂閱內(nèi)容的源并直接地從此類源接收新內(nèi)容,但還設(shè)想可以通過諸如服務(wù)器106之類的遠程資源來維持此特征。

內(nèi)容源108可以包括能夠被本文中描述的技術(shù)利用例如用以更新或細化由用戶創(chuàng)建的實體簡檔的以任何結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化格式的數(shù)據(jù)或信息的任何源。例如,內(nèi)容源108可以包括而不限于web頁面(例如,公共或私人頁面)、搜索引擎或搜索服務(wù)、到各種搜索服務(wù)的接口、到遠程數(shù)據(jù)源的應(yīng)用程序接口(API)、本地或遠程數(shù)據(jù)庫(例如,私人數(shù)據(jù)庫、企業(yè)數(shù)據(jù)庫、政府數(shù)據(jù)庫、機構(gòu)數(shù)據(jù)庫、教育數(shù)據(jù)庫等)、庫、其它在線資源、社交網(wǎng)絡(luò)、計算機程序和應(yīng)用、其它實體簡檔等。內(nèi)容源108可以包括各種類型的信息和數(shù)據(jù),其包括而不限于文本信息(例如,出版或未出版的信息,諸如書、刊物、期刊、雜志、報紙、論文、報告、法律文檔、報告者、字典、百科全書、博客、維基等)、圖形信息(例如,圖表、曲線圖、表格等)、圖像或其它視覺數(shù)據(jù)(例如,照片、圖畫、油畫、平面圖、透視圖、模型、草圖、圖解、計算機輔助設(shè)計等)、音頻數(shù)據(jù)、數(shù)值數(shù)據(jù)、地理數(shù)據(jù)、科學(xué)數(shù)據(jù)(例如,化學(xué)組成、科學(xué)配方等)、數(shù)學(xué)數(shù)據(jù)等。

其它資源110可以包括可以在如本文中描述的設(shè)備、系統(tǒng)以及方法中有用地采用的任何源。例如,其它資源110可以包括而不限于其它數(shù)據(jù)網(wǎng)絡(luò)、人類行動者(例如,程序員、研究員、注釋者、編輯等)、傳感器(例如,音頻或視覺傳感器)、文本挖掘工具、web爬行器、知識庫加速(KBA)工具或其它內(nèi)容監(jiān)視工具等。其它資源110可以同樣或替代地包括可以在如本文中設(shè)想的聯(lián)網(wǎng)應(yīng)用中有用地采用的任何其它軟件或硬件資源。例如,其它資源110可以包括用來授權(quán)用于內(nèi)容訂閱、內(nèi)容購買或其它的支付的支付處理服務(wù)器或平臺。作為另一示例,其它資源110可以包括可以例如用來共享實體簡檔或由用戶進行的其它研究或者作為實體信息的附加源的社交聯(lián)網(wǎng)平臺。在另一方面中,其它資源110可以包括用于身份的第三方驗證、內(nèi)容的加密或解密等的證書服務(wù)器或其它安全資源。在另一方面中,其它資源110可以包括與客戶端設(shè)備104中的一個位于同一地點(例如,在與所述客戶端設(shè)備104中的一個相同的局域網(wǎng)上或者通過串行或USB電纜直接地耦合到所述客戶端設(shè)備104中的一個)的臺式計算機等。在此情況下,其它資源110可以為客戶端設(shè)備104提供補充功能。其它資源110還包括諸如掃描儀、相機、打印機等的補充資源。

環(huán)境100可以包括一個或多個web服務(wù)器114,其向和從環(huán)境100中的任何其它參與者提供基于web的訪問。雖然被描繪為單獨的網(wǎng)絡(luò)實體,但將很容易領(lǐng)會的是web服務(wù)器114可以與本文中描述的其它設(shè)備中的一個邏輯上或物理上相關(guān)聯(lián),并且可以例如以允許通過數(shù)據(jù)網(wǎng)絡(luò)102的例如來自客戶端設(shè)備104的用戶交互的方式而包括或提供用于對服務(wù)器106(或被耦合到其的數(shù)據(jù)庫112)中的一個、內(nèi)容源108中的一個或其它資源110中的任何的web訪問的用戶接口。

將理解的是環(huán)境100中的參與者可以包括用以執(zhí)行如本文中描述的各種功能的任何硬件或軟件。例如,客戶端設(shè)備104和服務(wù)器106中的一個或多個可以包括存儲器和處理器。

上面描述的聯(lián)網(wǎng)環(huán)境100的各種組件可以被布置和配置成以多種方式支持本文中描述的技術(shù)。例如,在一個方面中,客戶端設(shè)備104通過數(shù)據(jù)網(wǎng)絡(luò)102連接到服務(wù)器106,所述服務(wù)器106執(zhí)行與以實體為中心的信息檢索和聚合相關(guān)的多種處理任務(wù)。例如,服務(wù)器106可以主控運行以實體為中心的信息檢索和聚合程序的web站點,其中用戶構(gòu)建被用作用于搜索、檢索和排列與實體相關(guān)的信息的查詢的實體簡檔。以此方式,在用戶在客戶端設(shè)備104上顯示的接口上構(gòu)建實體簡檔時,服務(wù)器106可以使用內(nèi)容源108、其它資源110或數(shù)據(jù)庫112來更新針對與實體簡檔相關(guān)的新且相關(guān)的信息的搜索。如下面更詳細地討論的那樣,服務(wù)器106(或環(huán)境100中的另一參與者)可以包括一個或多個算法,其定義搜索并允許服務(wù)器106對已對以實體為中心的信息檢索和聚合程序采取的動作(諸如對實體簡檔做出的修正或信息的選擇)做出反應(yīng)。

圖2圖示出將數(shù)據(jù)從二進制表示反序列化成結(jié)構(gòu)化數(shù)據(jù)。一般地,“數(shù)據(jù)”可以指代在計算機系統(tǒng)中存儲或體現(xiàn)的任何可解釋內(nèi)容?!胺墙Y(jié)構(gòu)化數(shù)據(jù)”可以指代不具有預(yù)定義數(shù)據(jù)模型或者并未以預(yù)定義方式組織的計算機可讀介質(zhì)?!敖Y(jié)構(gòu)化數(shù)據(jù)”可以指代具有指定允許數(shù)據(jù)在沒有人類干預(yù)或其它輔助的情況下被計算機解釋的例如數(shù)據(jù)類型、關(guān)系、枚舉等的數(shù)據(jù)模型的數(shù)據(jù)。“半結(jié)構(gòu)化數(shù)據(jù)”可以指代包含被混合在一起的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)兩者的數(shù)據(jù)。

圖2包括各種數(shù)據(jù)表示(即第一數(shù)據(jù)表示202、第二數(shù)據(jù)表示204、第三數(shù)據(jù)表示206、第四數(shù)據(jù)表示208以及第五數(shù)據(jù)表示226)以及各種工具(即,第一工具210、第二工具212、第三工具214以及第四工具224)。

第一數(shù)據(jù)表示202可以包括以原始數(shù)據(jù)216的形式的非結(jié)構(gòu)化數(shù)據(jù),諸如被布置成尚未被處理或解釋以匯編信息的結(jié)構(gòu)化表示的字節(jié)或數(shù)的陣列的位序列。原始數(shù)據(jù)216可以適合于存儲在諸如文件、盤或可尋址存儲器之類的物理介質(zhì)中。第一數(shù)據(jù)表示202因此可以包括以原始物理形式的在本文中設(shè)想的任何其它數(shù)據(jù)類型。

原始數(shù)據(jù)216可以被讀取成結(jié)構(gòu),諸如可顯示符號(例如,Unicode字符)、可枚舉列表或集合,或者諸如列表和符號的串之間的映射的復(fù)合結(jié)構(gòu)。結(jié)構(gòu)的示例性形式是枚舉或“enum”,其可以為變量提供可能值的預(yù)定且固定的列表。例如,如果特定變量被定義成從包含三個顏色紅色、綠色以及藍色的enum獲取其值,則將數(shù)據(jù)片解釋為表示此變量的計算機程序可以將數(shù)據(jù)變換成這三個顏色中的一個的表示。

如圖中所示,第一工具210可以將原始數(shù)據(jù)216反序列化為過程中的第一步驟以向原始數(shù)據(jù)216提供結(jié)構(gòu)。將理解的是如在此上下文中使用的術(shù)語“工具”意圖指代可能被顯式地或隱式地用來以描述的方式處理數(shù)據(jù)的任何適當?shù)倪^程、可執(zhí)行代碼等。這可以例如包括由用戶進行的顯函數(shù)調(diào)用、操作系統(tǒng)或內(nèi)核層級過程、協(xié)議棧過程或這些的任何組合。一般地,將原始數(shù)據(jù)表示(或否則非結(jié)構(gòu)化數(shù)據(jù)表示)轉(zhuǎn)換成相同信息的結(jié)構(gòu)化表示的過程常常被稱為反序列化、解組或加載(其中反向過程有時被分別地稱為序列化、編組或卸載)??梢酝ㄟ^使用在原始數(shù)據(jù)串與表示相同信息的結(jié)構(gòu)化數(shù)據(jù)對象之間轉(zhuǎn)換的一個或多個工具(例如,第一工具216)來啟用反序列化。反序列化可以自動地(即在沒有人類干預(yù)的情況下)發(fā)生以檢查原始數(shù)據(jù)。一般地,所有原始數(shù)據(jù)216未被結(jié)構(gòu)化直到自動算法等將數(shù)據(jù)的部分反序列化成結(jié)構(gòu)化信息為止。

反序列化的示例包括通過通信介質(zhì)(諸如導(dǎo)線)或作為二進制數(shù)據(jù)的無線電信號發(fā)送的數(shù)據(jù)的反序列化。一般地在傳輸(連同適合于通過介質(zhì)的傳輸?shù)娜魏纹渌幋a)之前將此數(shù)據(jù)進行序列化,并且接收機將數(shù)據(jù)反序列化以便恢復(fù)消息的結(jié)構(gòu)化部分。另一示例是被存儲在盤上的數(shù)據(jù),其一般地在保存之前被序列化成某二進制形式。該數(shù)據(jù)然后被反序列化成例如ASCII代碼或某其它更加結(jié)構(gòu)化的形式。

第一工具210的輸出可以包括第二數(shù)據(jù)表示204。第二數(shù)據(jù)表示204可以包括以非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)的形式的經(jīng)序列化的原始數(shù)據(jù)。如圖中所示,這可以包括文本串218等。第一工具210的輸出可以替代地包括更加結(jié)構(gòu)化的數(shù)據(jù),諸如第三數(shù)據(jù)表示206或第四數(shù)據(jù)表示208中示出的數(shù)據(jù),但是出于例證的目的,單獨地圖示出這些改變程度和結(jié)構(gòu)類型。

如上面討論的那樣,第二數(shù)據(jù)表示204中的文本串218可以是由Unicode字符等的序列組成的非結(jié)構(gòu)化數(shù)據(jù)形式。第二數(shù)據(jù)表示204可以同樣或替代地包括其它非結(jié)構(gòu)化數(shù)據(jù),諸如音頻或視頻媒體、數(shù)字采樣的傳感器數(shù)據(jù)、數(shù)值數(shù)據(jù)等。非結(jié)構(gòu)化數(shù)據(jù)在語言文本或音頻信號(諸如博客帖子、書面報告、電子郵件、視頻記錄以及音頻記錄)方面常常是豐富的。非結(jié)構(gòu)化數(shù)據(jù)可以更一般地包括缺少“概要”(即,結(jié)構(gòu)化數(shù)據(jù)表示的描述)或用以解釋數(shù)據(jù)的其它描述或預(yù)定數(shù)據(jù)模型的任何數(shù)據(jù)。由人類書寫用于其它人類閱讀的文本是非結(jié)構(gòu)化數(shù)據(jù)的常見示例。音頻和視頻記錄一般地也是非結(jié)構(gòu)化的。常常地,人類可以使用其智力來解釋非結(jié)構(gòu)化數(shù)據(jù)和提供其意義的評定。在計算機實現(xiàn)方法(諸如本文中所討論的那些)中,自動化系統(tǒng)嘗試通過應(yīng)用啟發(fā)法和算法來解釋數(shù)據(jù)并推斷人類可能從數(shù)據(jù)導(dǎo)出的結(jié)構(gòu)而再生此評定。例如,自動算法可以嘗試在文本文件中標記與人的名稱、電話號碼等相對應(yīng)的子串。

從原始數(shù)據(jù)216轉(zhuǎn)換的文本串218或其它數(shù)據(jù)可以包括如在本文中所討論的關(guān)于實體的信息。例如,如圖中所示,文本串218可以包括諸如“1961年8月4日出生的Barack Obama是第44任美國總統(tǒng),并且是入主白宮的第一個非洲裔美國人”之類的信息。在本示例中,Barack Obama是實體(具有名稱,“Barack Obama”是實體的名稱或標識符),并且可以將文本串218中的其它信息視為如本文中所討論的屬性值,其全部可以用于構(gòu)建實體簡檔。

第二工具212一般地可以與第一工具210組合或者與之分離。第二工具212可以被配置成向第二數(shù)據(jù)表示204中的例如文本串218的數(shù)據(jù)提供結(jié)構(gòu)。具體地,第二工具210可以被配置成諸如通過文本串218搜索實體標識符、實體提及、實體屬性、屬性值等來識別第二數(shù)據(jù)表示204內(nèi)的結(jié)構(gòu)。第二工具212的輸出可以包括第三數(shù)據(jù)表示206。第三數(shù)據(jù)表示206可以包括半結(jié)構(gòu)化或結(jié)構(gòu)化數(shù)據(jù)。

如圖中所示,第三數(shù)據(jù)表示206可以包括半結(jié)構(gòu)化文本220等,其中第二工具212已識別文本串218內(nèi)的感興趣的信息并應(yīng)用結(jié)構(gòu),其中可以從上下文推斷該結(jié)構(gòu)。具體地,如由第三數(shù)據(jù)表示206中的粗體下劃線文本所示,第二工具212已識別實體的名稱“Barack Obama”、出生日期“1961年8月4日”、職業(yè)“美國總統(tǒng)”和種族“非洲裔美國人”。此信息可以被分字段(fielded)、加標簽或者否則以許多方式賦予鍵入信息及其它元數(shù)據(jù)。此信息可以同樣或替代地被第三工具214進一步處理以將不同類型的信息置于可以存儲信息的層級、數(shù)據(jù)庫等中,例如作為屬性-值對等等。

將注意的是第四數(shù)據(jù)表示208是完全結(jié)構(gòu)化的。即,每個數(shù)據(jù)具有指定例如數(shù)據(jù)為其提供值的屬性、數(shù)據(jù)的類型等的數(shù)據(jù)模型。該類型還可以變化,并且可以指定數(shù)據(jù)的格式(即,整數(shù)、浮點、文本、日期等)或者更多抽象類型信息,諸如電話號碼、郵政編碼等,其隱含特定字母數(shù)字格式并向其值附加意義。

結(jié)構(gòu)化數(shù)據(jù)可以例如包括“被加標簽的數(shù)據(jù)”,其包括非結(jié)構(gòu)化分量和描述非結(jié)構(gòu)化分量的子串的關(guān)聯(lián)的結(jié)構(gòu)化分量。由于非結(jié)構(gòu)化數(shù)據(jù)可以包括字節(jié)或字符的串,因此可以使用串中的數(shù)組索引位置來標識其部分。結(jié)構(gòu)化數(shù)據(jù)分量可以因此提供與非結(jié)構(gòu)化數(shù)據(jù)的一個或多個子串相關(guān)聯(lián)的元數(shù)據(jù)。例如,常見類型的“標簽器”標識標簽器的算法識別為實體(例如,人、組織等)的提及的自然語言文本中的子串。針對由此類加標簽算法選擇的字符或字節(jié)的每個跨度,標簽器軟件可以生成從預(yù)定義的實體類型的固定列表標識實體類型的元數(shù)據(jù)。結(jié)構(gòu)化標簽可以標識子串和實體類型。非結(jié)構(gòu)化數(shù)據(jù)的此類基于偏移的標記有時被稱為平衡(standoff)標簽??梢葬槍ν黄墙Y(jié)構(gòu)化數(shù)據(jù)生成多個平衡標簽。例如,一個標簽器可能標識人的提及,并且另一標簽器可能分析相同文本以將子串標識為對地理位置的引用。在一個方面中,第二工具212可以包括任何前述標簽器或加標簽算法。

還可以將前述加標簽技術(shù)應(yīng)用于音頻、視頻以及半結(jié)構(gòu)化數(shù)據(jù)。例如,超文本標記語言(HTML)文檔除了非結(jié)構(gòu)化分量之外還可以提供格式化和分段。用于此類半結(jié)構(gòu)化文檔的平衡標簽可以首先標識文檔對象模型(DOM)的區(qū)段或其它結(jié)構(gòu)元素并且進一步指定包含在該區(qū)段內(nèi)的非結(jié)構(gòu)化數(shù)據(jù)內(nèi)的平衡標簽。

第三工具214可以被配置成使用第三數(shù)據(jù)表示206中包括的數(shù)據(jù),例如用以向數(shù)據(jù)提供進一步的結(jié)構(gòu)、用以將數(shù)據(jù)結(jié)合到文檔(例如,知識庫或?qū)嶓w簡檔)中或者用以創(chuàng)建“分字段數(shù)據(jù)”。分字段數(shù)據(jù)可以包括被分離成不同分量的結(jié)構(gòu)化數(shù)據(jù)。通常,每個不同分量具有指示機器如何處理和解釋該字段的原始數(shù)據(jù)表示的概要或數(shù)據(jù)類型。

第三工具214可以按數(shù)據(jù)類型將數(shù)據(jù)分離。特定類型的數(shù)據(jù)可以具有相同的概要,其中可以使用該概要來定義用“類型”意味著什么??梢杂迷S多方式來指定概要,包括而不限于在Thrift接口定義語言中指定的接口、可擴展標記語言(HTML)概要、以逗號分隔值(CSV)模式格式化的文本文件上的列名等。舉例來說,如果軟件程序讀取數(shù)據(jù)并解釋該原始數(shù)據(jù)以構(gòu)造存儲器中的或存留到存儲系統(tǒng)的數(shù)據(jù)結(jié)構(gòu),則所述軟件程序可以表示概要。還可以用許多方式(包括文件名擴展)將概要與數(shù)據(jù)相關(guān)聯(lián)。當數(shù)據(jù)被從其概要分離或被修改從而不再允許使用概要的解釋時,數(shù)據(jù)變得較不結(jié)構(gòu)化,并且因此變得半結(jié)構(gòu)化或非結(jié)構(gòu)化。

第三工具214的輸出可以包括第四數(shù)據(jù)表示208,其可以包括以分字段數(shù)據(jù)222的形式的結(jié)構(gòu)化數(shù)據(jù)。

第三工具214可以分析第三數(shù)據(jù)表示206以選擇數(shù)據(jù)來填充第四數(shù)據(jù)表示208中包括的不同數(shù)據(jù)字段。例如,如圖中所示,“名稱”、“DOB”(即,出生日期)、“職業(yè)”和“種族”的數(shù)據(jù)字段已被填充,而“出生地”字段尚未被填充。因此,“出生地”字段包括缺失數(shù)據(jù),其可以被搜索工具(例如,在本文中討論的工具中的一個)用作用于具有填寫此數(shù)據(jù)字段的目標的搜索的準則。

將理解的是如在本文中設(shè)想的實體簡檔可以包括完全結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù)或這些的任何組合,其被共同地稱為“半結(jié)構(gòu)化數(shù)據(jù)”。此半結(jié)構(gòu)化數(shù)據(jù)可以記錄源內(nèi)容的其結(jié)構(gòu)可以被確定的部分以及源內(nèi)容的其結(jié)構(gòu)不能被確定的部分,諸如不能用顯式結(jié)構(gòu)來解析和加標簽的自然語言段落。因此,如本文中使用的術(shù)語半結(jié)構(gòu)化意圖包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的任何組合和數(shù)量??梢允褂迷试S存儲、恢復(fù)以及編輯包含實體簡檔的半結(jié)構(gòu)化數(shù)據(jù)的文件的文檔標識符將包含具有半結(jié)構(gòu)化數(shù)據(jù)的實體簡檔的進行中的文檔存留在諸如文本文檔、超文本文檔、字處理文檔等的文件中。

除了如上面描述的顯式地標識內(nèi)容內(nèi)的結(jié)構(gòu)之外,可以使用技術(shù)來導(dǎo)出以更抽象的形式表征內(nèi)容的元數(shù)據(jù)。因此,例如,第五數(shù)據(jù)表示226可以是自動地由標簽器過程212的半結(jié)構(gòu)化輸出206構(gòu)造的特征矢量或特征集合。特征矢量的目的是以容易地與其它數(shù)據(jù)片比較的形式自動地捕捉非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)片的方面。通過比較兩個特征集合,軟件程序可以量化由特征集合所表示的兩個數(shù)據(jù)片之間的相似性和差異。通過啟用全自動比較,特征矢量形成許多自然語言處理和信息發(fā)現(xiàn)算法的核心部分。

特征矢量通過將半結(jié)構(gòu)化數(shù)據(jù)組織成適合于比較的字段來啟用定量比較。此類字段的常見類型是串計數(shù)矢量,其記錄各種串在文本中出現(xiàn)的次數(shù)??梢詫碜缘谌龜?shù)據(jù)表示206的各種短語等記錄在數(shù)據(jù)的特定類型230的映射227中,諸如實體“提及”、“日期”與其它實體(“CO_PER”)、“稱號”、“國家”等的關(guān)系。針對數(shù)據(jù)的每個此類類型230,映射227可以包括特定串228和串計數(shù)234。出于例證的目的,映射227可以是包含來自針對Barack Obama的維基百科文章的幾個句子的文本的。實際上,文章或其它信息源可以包含更多的單詞和短語,并且第五數(shù)據(jù)表示226中的特征矢量或映射227的圖示示出了針對可能出現(xiàn)在更冗長的源中的單詞的示例計數(shù)。例如,單詞“古巴”可能在關(guān)于Barack Obama的全文中出現(xiàn)兩次。

特征矢量可以包含若干類型的信息,諸如(一個或多個)實體名稱的提及、在該提及附近出現(xiàn)的日期、共同出現(xiàn)的人、稱號或描述、動詞、國或國家、在本文中出現(xiàn)的語言以及更多。此類自動組合常常包括過分簡化,諸如將“非洲裔美國人”標記為“稱號”而不是種族或描述。此類過分簡化發(fā)生在自動地對數(shù)據(jù)施加結(jié)構(gòu)時。在特征矢量中可能出現(xiàn)的另一類型的信息是概率矢量232,其提供用于單值屬性的一組可能值的可能性。例如,性別和實體類型是給定實體具有一個值的屬性。推斷用于此類屬性的值是有挑戰(zhàn)性的算法任務(wù),并且自動系統(tǒng)常常生成可能值中的一個或多個而不是單個分類的概率。

完全結(jié)構(gòu)化表示208可以要求人類干預(yù)以從標簽器輸出提取諸如第三數(shù)據(jù)表示206,即第三工具214可以結(jié)合人類輸入來分辨模糊等。相比之下,將標簽器輸出轉(zhuǎn)換成特征矢量的第四工具優(yōu)選地是全自動化的。如同許多全自動化算法,對特征矢量而言包含錯誤是常見的,所述錯誤諸如將名詞錯誤地標識為動詞。

可以針對任何種類的數(shù)據(jù)來構(gòu)造特征矢量。文本的特征矢量通常捕捉單詞和短語及從文檔中的單詞和短語導(dǎo)出的概念。還可以針對音頻、視頻、圖像、無線電信號、溫度分布、彈道運動軌跡以及可以被記錄用于由自動算法處理的任何其它形式的數(shù)據(jù)構(gòu)造特征矢量。示例提供了用文本來例證這些概念,并且由本領(lǐng)域那些技術(shù)人員將理解的是可以將這些概念類似地應(yīng)用于其它形式的數(shù)據(jù)。

搜索引擎是在本領(lǐng)域中常見的工具。搜索引擎使得用戶能夠輸入信息并響應(yīng)于其輸入而接收信息作為輸出。輸入常常被稱為查詢或請求。輸出常常被稱為“結(jié)果的列表”、“結(jié)果的集合”等??梢詫⑺阉饕嬲f成為用戶“檢索”信息,并且同樣地其是信息檢索工具。搜索引擎常常根據(jù)相關(guān)性算法將結(jié)果排序。輸出對輸入進行響應(yīng)的方式可以取決于搜索引擎內(nèi)的算法。輸入和輸出中的結(jié)構(gòu)的形式和程度也可以取決于特定搜索引擎并且可以在本領(lǐng)域中相當大地變化,從輸入文本以發(fā)現(xiàn)圖像變化到輸入結(jié)構(gòu)化標識符以發(fā)現(xiàn)文本或音樂,以及更多。原則上,可以使用任何種類的信息來搜索任何其它種類的信息,因為僅有的約束可以是搜索引擎內(nèi)部的算法(并且這些可以是通用計算機程序)。搜索引擎內(nèi)部的算法可以判定要顯示哪些結(jié)果和按什么順序顯示結(jié)果。通常,搜索引擎可以訪問比任何用戶能夠消化的數(shù)據(jù)多得多的數(shù)據(jù),因此搜索引擎的排序功能使能用戶在找到有用的信息方面的成功。搜索結(jié)果的排序也常常被稱為“排列”。

推薦引擎或推薦器引擎是搜索引擎的寬泛子類,其可以通過使能更集中在不是搜索結(jié)果本身的用戶活動上的不同種類的用戶體驗而不同于其它搜索引擎。例如,許多搜索引擎接受顯式用戶輸入,諸如關(guān)鍵字搜索框或搜索準則的下拉列表,并且在這些搜索工具中,搜索結(jié)果的列表常常是用戶體驗的主導(dǎo)視覺分量。谷歌的搜索引擎結(jié)果頁面(SERP)是本領(lǐng)域中的事實標準,并且其例證了此類以搜索結(jié)果為中心的體驗。

推薦引擎將用戶體驗的焦點轉(zhuǎn)移到某其它活動,諸如購物和產(chǎn)品的購買??梢栽诖似渌顒优赃叧尸F(xiàn)搜索結(jié)果。雖然內(nèi)部算法可以是相當類似的,但推薦引擎通過其來獲得所述推薦引擎的輸入的機制與傳統(tǒng)的搜索準則輸入方法相比可以更加間接。例如,可以使用用戶已經(jīng)聚集并考慮購買的產(chǎn)品的購物車作為用于檢索搜索結(jié)果的輸入查詢。此類搜索結(jié)果常常被稱為“推薦”,因為用戶的意圖可能不是顯式地請求搜索引擎的輸出。

可以在兩個方面看待本文中設(shè)想的實現(xiàn),即可以將其視為在用戶觀看或編輯進行中的文檔的同時呈現(xiàn)推薦的推薦引擎,并且還可以將其視為對于其而言進行中的文檔是輸入查詢的搜索引擎。一般地,本文中設(shè)想的實現(xiàn)可以不要求用戶完全意識到進行中的文檔是輸入查詢,并且本文中描述的系統(tǒng)可以允許用戶通過在進行中的文檔中放置特殊標記來更直接地操作搜索引擎。例如,如果用戶具體地識到實體的強類型屬性,諸如實體的名稱或相關(guān)實體,則推薦引擎可以通過提供新的或改進的推薦來對簡檔的那些改進做出反應(yīng)。

圖3示出了將信息組織到實體簡檔中。一般地,以實體為中心的知識發(fā)現(xiàn)可以依賴于可以從多個文檔搜索、聚合以及存儲關(guān)于實體的信息,并且圖3圖示出許多此類文檔之間的關(guān)系。在以下描述中,存在從主題轉(zhuǎn)到實體轉(zhuǎn)到副主題的信息的層級。如本文中所使用的那樣,術(shù)語主題指代感興趣的任何主題,并且術(shù)語“實體”指代具有將其與其它實體區(qū)別開的強類型屬性的特定類型的主題。如主題一樣,副主題并不暗示任何特定結(jié)構(gòu)(雖然其可以具有結(jié)構(gòu)),但是其被顯式地預(yù)測關(guān)于實體的本質(zhì)。某些屬性比其它更是有區(qū)別的。例如,人的身高和性別是比那個人在過去兩周中閱讀的書的名稱更強的區(qū)別者。

本文中設(shè)想的工具和技術(shù)集中在以實體為中心的信息發(fā)現(xiàn)上。實體可以是具有諸如名稱(例如,“約翰史密斯”或“氧”)和類型(例如,分別是人或化學(xué)元素)之類的標識符的任何現(xiàn)實世界的東西或物品。實體因此可以是在世界上具有具體存在的一類對象的成員,諸如人、地點、組織、公司、建筑、化合物、基因、計算機惡意軟件、商業(yè)產(chǎn)品、硬件、書、音樂專輯等等。一般地,與主題相反,可以在信息檢索(IR)系統(tǒng)中通過區(qū)別性屬性(諸如出生日期、地理位置等)以及與其它實體的強類型關(guān)系(例如,一個人的母親是另一特定人)來部分地區(qū)別實體。為了清楚起見,不是實體的主題的示例包括東方宗教(雖然宗教的神是一個類型的實體)、比利時政治(雖然比利時國家是實體)、相撲摔跤(即使特定的世界級相撲摔跤選手或特定相撲比賽是實體)、冬季園藝(雖然植物品種是實體且特定植物也是實體)、計算機安全(雖然特定計算機服務(wù)器或特定軟件程序是實體)和烘焙巧克力甜點(雖然特定的糕點廚師或飯店是實體)。

一般地,實體是存在于現(xiàn)實世界中的有形偽像,并且因此實體的基于計算機的表示可以僅是在物理世界中存在的真實實體的描述。作為現(xiàn)實世界的東西,實體有時參與事件。當被給定名稱時,事件可以是一個類型的實體,并且可以由時間屬性來表征。

實體還可以包括特定數(shù)字偽像,諸如電子郵件消息、視頻記錄、計算機系統(tǒng)中的用戶帳戶等。此類數(shù)字實體可能缺少物理實施例,但仍是實體,因為其具有良好定義的類型并且通過強類型屬性而與同類的其它實體區(qū)別開,僅舉幾個例子,所述強類型屬性諸如電子郵件的日期/時間和接收者,或者視頻的位置和時間和相機定向,或者與用戶帳戶相關(guān)聯(lián)的電子郵件地址和電話號碼。

實體還可以包括電子設(shè)備,工具、產(chǎn)品以及器具,諸如特定計算機、相機品牌、僵尸網(wǎng)絡(luò)、惡意軟件的特定版本、相關(guān)惡意軟件的家族等。此類實體可以具有抽象或多個物理實施例,但是仍是實體,因為其具有良好定義的類型并且通過強類型屬性而通過強類型屬性而與該同類的其它實體區(qū)別開,僅舉幾個例子,所述強類型屬性諸如計算機的MAC地址或IP地址、相機品牌的零件號碼、僵尸網(wǎng)絡(luò)的所有者及命令和控制節(jié)點、惡意軟件的MD5散列或者惡意軟件的家族的屬性和散列的集合。

常??梢杂梦臋n來表示實體,在本文中將其稱為“實體簡檔”或者簡單地將其稱為“簡檔”。此簡檔可以包括但不限于具有關(guān)于現(xiàn)實世界實體的各種屬性、值、關(guān)系以及描述的數(shù)據(jù)概要。一般地,可以將簡檔視為關(guān)于實體的文檔。有時將簡檔的集合稱為“知識庫”。簡檔可以同樣或替代地同時描述多個實體。描述多個實體的簡檔可以集中在實體中的一個或另一個上或者各種實體之間的交互上。一般地,簡檔是描述一個或多個實體的文檔。

舉例來說,人的簡檔是知識庫中的常見類型的記錄。例如,維基百科具有關(guān)于活著的人和已故的人的許多文章。并且,LinkedIn、Facebook、Twitter等提供了關(guān)于人的各形式的簡檔;此類社交聯(lián)網(wǎng)站點提供通常由通過簡檔描述的人或公司組織和控制的特定種類的簡檔。在其它系統(tǒng)中,諸如如同SalesForce.Com的聯(lián)系管理器應(yīng)用,用戶可以維持其它實體(通常是人和組織)的簡檔。

描述電子文檔類型實體(諸如照片或電影)的簡檔是簡檔類型的另一示例。例如,在評定奧利匹克運動員的照片時,作者可能描述在拍攝該照片的背景。

作為半結(jié)構(gòu)化文檔,簡檔可以包含結(jié)構(gòu)化和非結(jié)構(gòu)化信息兩者。如許多在線知識庫(諸如Wikipedia、LinkedIn、MusicBrainz等)中所示,可以在簡檔中突出地顯示的“信息框”(或類似物)(其包括關(guān)于實體的基本信息)中呈現(xiàn)系統(tǒng)化的實體屬性??梢杂脤υ次臋n的引用(其通常在知識庫外部)來具體化簡檔的部分。簡檔還可以包括以描述實體的或者從被簡檔描述的實體記錄的自然語言文本或音頻或視頻的形式的非結(jié)構(gòu)化信息。

不需要將簡檔存儲在知識庫中。存儲在知識庫中的簡檔常常鏈接到知識庫中的其它簡檔。無論是否存儲在知識庫中,簡檔都可以鏈接到多個知識庫中的其它簡檔。簡檔可以鏈接到描述相關(guān)實體的簡檔或者鏈接到描述與主題簡檔的實體相同的實體的其它簡檔。此類鏈接可以指示被引用的信息源或與其它實體的關(guān)系。但是簡檔可能更一般地被存儲在文本文檔、HTML文檔或易失性或非易失性儲存器中的可以被用作正在研究實體的用戶的活動的進行中的文檔的任何其它文檔、文件或其它持久性對象中。此簡檔可以包括可以用來共享、拷貝、檢索或者以其他方式處理持久性簡檔的文檔標識符。

以此方式存儲在進行中的文檔中的簡檔可以促進遞歸的前瞻,其中基于對進行中的文檔的改變來更新呈現(xiàn)給用戶的結(jié)果,并且用戶可以從結(jié)果獲得內(nèi)容并將新內(nèi)容放入進行中的文檔中以進一步細化簡檔。細化簡檔可以包括添加新信息、記錄將已在簡檔中的信息具體化的引用、注意關(guān)于實體的矛盾信息、填寫先前遺漏的信息或者以其他方式懂得實體和關(guān)于實體的信息。這些查詢可以是高度結(jié)構(gòu)化的并且可以圍繞著進行中的文檔的顯式或隱式結(jié)構(gòu)以及包含在半結(jié)構(gòu)化的進行中的文檔的非結(jié)構(gòu)化部分中的信息而被執(zhí)行。還應(yīng)注意的是存儲在此進行中的文檔中的簡檔涉及是用戶的查詢的目標的特定實體或主題,并且查詢目標貫穿本文中設(shè)想的迭代細化不改變。雖然系統(tǒng)最初可能不知道簡檔是針對一般主題還是特定實體,但此目標主題或?qū)嶓w在會話期間不改變。如果用戶希望創(chuàng)建用于不同目標實體或主題的簡檔,則這通過創(chuàng)建新的進行中的文檔而被實現(xiàn)。

如本文中所使用的那樣,單詞“活動”還可以指代進行中的文檔,因為該文檔的用戶體驗是其是活動的并隨著用戶(和用戶的合作者)關(guān)于改進和組織文檔中的信息進行工作而改變。

如上面提及的那樣,實體可以具有稱為“實體屬性”或者簡單地稱為“屬性”的特定性質(zhì)。貫穿本公開更詳細地討論了這些屬性。

雖然實體可以是主題,但并非所有主題都是實體。當且僅當其具有類型且通過特定屬性、值、關(guān)系等而與相同類型的其它實例區(qū)別開時,主題才是實體。常常用自然語言文本或半結(jié)構(gòu)化文本的串(諸如關(guān)鍵字查詢、示例性段落或散文描述)來表達主題。主題的半結(jié)構(gòu)化描述可以使用諸如與、或以及非之類的布爾操作符或者諸如Perl兼容的正則表達式(PCRE)之類的正則表達式或者其它模式描述語言或查詢表達語法來限制或擴展或指定與主題相關(guān)的信息。相關(guān)性的概念幫助理解主題的意義。例如,兩個人可能具有對主題的意義的不同主觀解釋,并且這在兩個不同的人查看相對于主題的半結(jié)構(gòu)化數(shù)據(jù)片的方式方面變得明顯。一個人可能判斷非結(jié)構(gòu)化數(shù)據(jù)片是高度主題相關(guān)的或者“切題的”而另一個人可能將其認作“離題的”。因此,主題一般地具有更加主觀且無組織的屬性,其中實體的良好定義的屬性常常消除此類主觀差異。

第一文檔302可以是用來創(chuàng)建實體簡檔的任何源文檔,諸如第二文檔304。如本文中使用的那樣,術(shù)語“文檔”應(yīng)被寬泛地解釋成包括可以被存儲在計算機上并針對與實體相關(guān)的信息(包括而不限于文本文件、電子數(shù)據(jù)表、展示文件、多媒體等)被搜索的任何文件或其它持久性數(shù)據(jù)倉庫。如本文中所討論的那樣,文檔可以是非結(jié)構(gòu)化的、半結(jié)構(gòu)化的或結(jié)構(gòu)化的。文檔一般地可以描述或包含與實體相關(guān)的信息。一般地,文檔可以包含用于定位或提到文檔的文檔標識符,諸如文件名、標題、資源地址或者在網(wǎng)絡(luò)或文件系統(tǒng)中的路徑。文檔還可以包括標識被提到的實體的一個或多個實體標識符。

第一文檔302一般地可以包括涉及由主題標識符310所標識的主題的數(shù)據(jù)。例如,第一文檔302可以包括專注于主題并包括關(guān)于主題的信息的一個或多個段落312。段落312一般地可以包括文檔的任何子分量。在專注于主題時,段落312可以包括多種文本參考,諸如實體標識符314、實體提及316以及引用318。

實體標識符314可以包括用于提到特定實體的任何機制,所述特定實體例如由是包括在第二文檔304中的實體簡檔308的焦點的實體標識符320所標識的實體。實體標識符314可以包括可以被解釋成明白地指定特定實體的數(shù)據(jù)元素,諸如區(qū)別性屬性列表和到擁有此類區(qū)別性屬性列表的數(shù)據(jù)庫中的記錄的指針。例如,URL可以標識實體。實體標識符314還可以是人類可讀標識符,諸如標識特定實體的名稱、稱號或文本描述。

實體提及316或者僅“提及”可以包括提到實體(例如由是包括在第二文檔304中的實體簡檔308的焦點的實體標識符320所標識的實體)的非結(jié)構(gòu)化文檔的子串或結(jié)構(gòu)化文檔中的字段。然而,圍繞實體提及316的上下文可能或者可能不足以明白地標識特定實體。圍繞實體提及316的上下文可以包括實體提及316子串附近的自然語言散文和可以幫助將由實體提及316所提到的實體消除歧義的文檔316的其它更加結(jié)構(gòu)化元素的較大跨度。使用上下文窗口的自動算法常常使用句子邊界檢測算法來選擇圍繞實體提及316的范圍,例如三個至五個句子。圍繞提及的此類段落承載人類將類似地用來學(xué)習(xí)被提及的實體的區(qū)別性屬性的信息。

如果文檔多次提到實體,則可以將那些提及的序列連接以形成稱為“共指鏈”或“coref鏈”的一組提及。鏈中的圍繞每個提及的上下文窗口可以被一起用來提供更加區(qū)別性的信息以用于人類讀者或自動算法將作者意圖引用那個實體消除歧義。一般地,文檔內(nèi)共指鏈接算法考慮來自單個文檔的哪些提及提到了同一實體,而跨文檔共指分辨算法確定來自不同文檔的提及是否正在提到同一實體。

實體提及316不需要顯式地包含預(yù)期實體的名稱。替代地,作者可以使用實體的描述。例如,在段落“三個新聞工作者下飛機,并且然后他們被詢問”中,子串“三個新聞工作者”是被稱為“名詞性詞組”提及的類型的實體提及,因為其僅使用名詞短語來提到實體,而子串“他們”是代名詞提及,即代詞。

引用318可以包括從一個文檔到另一文檔的引用。例如,第一文檔302中所示的引用318可以引用第三文檔306,而第二文檔304中的引用322引用第一文檔302??梢允褂脧谋灰梦臋n獲得或拷貝的數(shù)據(jù)附近或上的超鏈接來實現(xiàn)引用318,或者引用322可以是諸如人類可讀引用,諸如對書、報紙、刊物或其它內(nèi)容源的文本引用。在知識庫的背景下,引用318通常是到在知識庫外部的頁面的鏈接。這為文本或其它數(shù)據(jù)提供了與引用318相關(guān)聯(lián)的證據(jù)。聚集具體化或證實實體簡檔中的信息的引用有價值的文檔對于進行中的文檔的作者而言是常見任務(wù)。

第二文檔304可以包括實體簡檔308,其例如使用從第一文檔302和第三文檔306獲得的數(shù)據(jù)。第二文檔可以是包含描述實體標識符320所標識的實體的半結(jié)構(gòu)化數(shù)據(jù)的進行中的文檔。第二文檔304可以包括可以用來保存、檢索、共享或者以其他方式處理或存留文檔的文檔標識符305。

一般地,第二文檔304可以包括許多屬性324、328和副主題340,用來描述實體。例如,第二文檔304可以包括具有許多值326的第一屬性324和例如對第一屬性324的信息的源的引用322。更一般地,第二文檔304中的屬性可以包括實體的一個或多個性質(zhì)、特點、特性、細節(jié)、特征、關(guān)系等,并且各種概要或大眾分類法可以捕捉實體的表示中的此類屬性324。

在一個方面中,第二屬性328可以包括包含第二實體的第二實體標識符321的關(guān)系連同實體之間的關(guān)系的類型330。實體關(guān)系可以例如包括個體或者公司的子公司或母公司的社交圖。這些關(guān)系可以是非類型化的,或者其可以具有特定類型330,諸如“配偶”或“父親”或“商業(yè)伙伴”。在某些背景下關(guān)系可以替代地涉及副主題。例如,總統(tǒng)Barack Obama與美國的外交策略有關(guān)系,其是一般主題,并且在總統(tǒng)的背景下也是副主題??偨y(tǒng)還與他的女兒有關(guān)系,其中的每個都是實體。與跟其女兒的關(guān)系(其為良好結(jié)構(gòu)化的實體關(guān)系)相反,與美國的外交策略的主題的關(guān)系是復(fù)雜的并且可以用更復(fù)雜的半結(jié)構(gòu)化數(shù)據(jù)來描述。某些屬性324可以隨時間而改變,而其它可以是永久性的,例如只有當在用于屬性324的值的在先記錄中標識到錯誤時才改變。

實體屬性324可以被良好定義,意味著其包括指定特定東西的屬性值326。舉例來說,對于人(實體“類型”)而言,屬性可以包括名、姓、出生日期、出生地、社會保障號、護照號、電子郵件地址、電話號碼、當前地址、雇主、母親、父親及其它親戚的實體標識符、身高、體重、婚姻狀況、配偶的實體標識符以及許多其它結(jié)構(gòu)化或半結(jié)構(gòu)化字段。值326可以包括關(guān)于這些屬性324的信息。例如,一個人的性別屬性可以具有值男性或女性,并且身高屬性可以具有以米或英寸為單位測量的值。其它類型的實體的屬性的其它示例可以包括例如公司的雇員的數(shù)目和總部、化合物的原子質(zhì)量和熔點等。

屬性324的值326因此可以指定特定東西(例如,家庭地址、名稱、職業(yè)、性別、出生日期等),包括特定類型(例如,號碼、日期、時間、文本、文件名、路徑、圖像、音頻等)和/或包括到另一屬性324或?qū)嶓w標識符321的指針。每個值326可以是定義屬性324的信息或數(shù)據(jù)片。例如,如果實體是公司,則屬性324可以包括總部和雇員的數(shù)目,其中用于這些屬性324的值326分別地是公司總部的城市和州及雇員的實際數(shù)目。如果實體是諸如氯化鈉之類的化合物,則屬性324可以包括化合物的化學(xué)式和常見名稱,其中用于這些屬性324的值326分別地是NaCl和鹽。

副主題340可以包括如在本文中設(shè)想的任何半結(jié)構(gòu)化數(shù)據(jù),其類似于任何其它主題,除了每個副主題340被預(yù)測關(guān)于特定實體。因此每個副主題340可以捕捉關(guān)于實體的想法或信息片。這些副主題340一般地意圖捕捉用戶可能收集關(guān)于實體的信息的不精確方式,并且為此其允許累積來自與實體具有特定關(guān)系的多種源的半結(jié)構(gòu)化數(shù)據(jù)。

所命名的實體提供另一有用示例?!八膶嶓w”可以包括通過具有名稱和實體類型而被區(qū)別開的主題的特殊子類。諸如人之類的一個類型的所命名的實體的單獨實例可以具有將其與相同類型的其它個體區(qū)別開的強類型屬性324。例如,一般地,人具有不同的家庭成員和不同的家鄉(xiāng)、出生日期、社會保障號等。在這些屬性324的值326具有特定數(shù)據(jù)類型和特定意義的意義上,這些屬性324是“強類型的”。例如,出生日期具有已知意義——某個人出生的日子——和作為日期的特定數(shù)據(jù)格式。類似地,郵政編碼具有通過到本地郵政區(qū)域的預(yù)定映射而有特定意義的作為五位數(shù)或九位數(shù)表示的特定數(shù)值格式。

當研究實體時,聚集實體的區(qū)別性屬性以便將提到正在討論中的實體的數(shù)據(jù)的語料庫中的哪些提及消除歧義常常是有幫助的。實體類型可以包括由實體的各種觀察者定義的實體的非本質(zhì)性質(zhì)。任何給定觀察者可以將給定實體描述為若干不同實體類型的實例。例如,某些觀察者可以將“領(lǐng)導(dǎo)者”包括為一個類型的實體,并且這些觀察者可能將Barack Obama描述為是人類型實體和領(lǐng)導(dǎo)者類型實體兩者。實體類型的分類可能是相當深奧且復(fù)雜的。例如,武器制造商可以單獨地描繪每個種類的手槍。同時,另一分類可能簡單地將所有槍稱作一個實體類型。因此,實體類型可以是幫助將實體相互區(qū)別開的有用描述。

實體的其它屬性可以是固有的,諸如其在特定時間的質(zhì)量。列出或記錄實體的屬性的原因常常是將實體與可能與所述實體共享某些方面、副主題或?qū)傩缘钠渌鼘嶓w區(qū)別開。實體類型可以在區(qū)別實體中扮演特定角色,因為觀察者常常將區(qū)別性屬性的概要與實體類型相關(guān)聯(lián)。例如,僅舉幾個例子,手槍類型實體的區(qū)別性屬性可以包括其使用的子彈的口徑、其制造商、其型號并且可能包括序列號。相反地,公司類型實體的區(qū)別性性質(zhì)可以包括其名稱、其總部位置、其在哪里組成公司、其高級主管的姓名等。

在一個方面中,第二文檔304是進行中的文檔。即,在文檔正在被改變的時間段期間,可以將文檔視為在變化中或者在進行中。舉例來說,記筆記是在進行中的文檔中記錄觀察結(jié)果的活動。在一個方面中,可以在等待新的信息到達或者變得可用于可以用該新信息來更新或細化文檔的編輯者的同時認為第二文檔304在變化中或進行中。在如本文中設(shè)想的實體簡檔中,第二文檔304中的改變可以更新針對關(guān)于通過實體簡檔描述的實體的信息的搜索。用戶可能聚集關(guān)于感興趣實體的區(qū)別性屬性并將其記錄在進行中的文檔中。

第三文檔306可以是與第一文檔302共指的文檔,即其中第三文檔306中的實體標識符314指代與第一文檔302中的實體標識符314指代的實體相同的實體。檢測到兩個或更多提及提到同一東西的過程被稱為“共指分辨”或簡稱為“coref”。對實體的提及的分辨是“實體coref”。對實體之間的關(guān)系的提及的分辨是“關(guān)系coref”等。

共指分辨不要求簡檔或知識庫。通過傳遞性,提到同一實體的所有提及可以是共指的,其中它們形成等價類。分辨提及是否與實體簡檔共指常常比分辨來自其它類型的文檔的提及是否共指更容易,因為實體簡檔趨向于顯式地提供區(qū)別實體的豐富信息。此信息可以用來將提到簡檔中的實體的來自源文檔的該提及消除歧義。將提及連接到簡檔稱為“實體鏈接”。

優(yōu)選實施例包括利用特定實體類型的已知屬性的以實體為中心的系統(tǒng)和方法。使用此信息,可以構(gòu)造適當?shù)膶嶓w簡檔,并且可以在簡檔內(nèi)隱式地或顯式地標識屬性以幫助區(qū)別實體并找到附加的相關(guān)信息。通過將整個實體簡檔接受為查詢,以實體為中心的搜索引擎可以允許用戶表達他們對哪些實體感興趣和他們當前知道關(guān)于實體的什么兩者。查詢的這兩個方面促進從非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)的目標集合之中標識最相關(guān)且潛在地最有區(qū)別的搜索結(jié)果。

可以使用可以提供如下中的一個或多個的許多技術(shù)來組織或細化查詢結(jié)果:聚集提到目標實體的提及;將看起來承載冗余或等價上下文的實體的提及組在一起;將搜索結(jié)果重新排序或評分(例如,在一組共指提及內(nèi)以偏向于新的或令人驚奇的上下文)。

另一方面,搜索關(guān)于實體的信息引入不同的挑戰(zhàn)。特別地,搜索引擎的用戶通常可以以高置信度說出結(jié)果是否提到其感興趣的實體。正確與錯誤之間的邊界一般地是相當尖銳的,并且因此用戶在用以實體為中心的搜索引擎進行工作中的體驗與一般概念/主題的不清楚領(lǐng)域的情況相比可能對假陽性更敏感。進一步地,在大型數(shù)據(jù)集中將對每個實體的所有提及集中在一起的算法任務(wù)通?;ㄙM相當多的計算能力并顯示出錯誤條件的多樣化范圍,包括:在全集中未能檢測到感興趣的提及;未能將對同一實體的提及的群組組合;未能將對不同實體的提及的群組分離;未能檢測到上下文窗口承載關(guān)于目標實體的新信息;未能檢測到上下文窗口未承載關(guān)于目標實體的新信息;未能發(fā)現(xiàn)關(guān)鍵事實、事件、屬性、關(guān)系、活動、與特定時間的相關(guān)性的模式等。本文中討論的算法可以解決前述錯誤條件中的一個或多個。在一個方面中,可以有用地采用特征矢量來分析文檔和包含在其中的數(shù)據(jù)。

特征矢量可以由關(guān)于主題的數(shù)據(jù)構(gòu)成,諸如整體文本文檔或段落。特征矢量還可以由提到實體的共指鏈中的提及周圍的上下文窗口構(gòu)成。圍繞實體的一個或多個提及構(gòu)造的特征矢量與由整體文檔或段落構(gòu)造的特征矢量的不同之處在于前者具有錨定短語(提及)而后者沒有。這些錨定短語是在共指鏈中提到的名稱提及、名詞提及以及代名詞提及。當使用自動算法來指定用于包括在共指鏈中的提及時,其可能例如由于未能包括提及或者由于將并非對與指定的其它短語相同的實體的提及的短語結(jié)合到鏈中而產(chǎn)生錯誤。單個文檔通常包含對多個實體的提及,并且因此可以從那一個文檔構(gòu)造錨定在實體提及上的多個特征矢量。

具體地圍繞著實體的提及構(gòu)造的特征矢量被稱為提及特征集合或“MFC”。由沒有錨定(anchoring)提及的段落構(gòu)成的特征矢量被稱為主題特征集合或“TFC”。由實體的簡檔(其是集中在特定實體的文檔)構(gòu)成的特征矢量被稱為簡檔特征集合或“PFC”。

給定用于兩個或更多數(shù)據(jù)片的特征矢量,可以計算多個種類的比較。比較的兩個重要類型是:(1)量化兩個特征矢量之間的相同程度的相似性;以及(2)量化兩個特征矢量之間的差異的相異性比較。特征集合的各種組件之間的比較很容易構(gòu)造。例如,針對串計數(shù)矢量,常見的比較是矢量的預(yù)先,其將兩個矢量歸一化成具有相同的單位長度并計算兩個單位矢量之間的點積。由于計數(shù)是正的,所以得到的值范圍在0與1之間,1指示兩個矢量具有完全相同的單詞,該單詞具有相同的計數(shù)值,并且0指示沒有重疊。多種其它比較函數(shù)在本領(lǐng)域中是常見的。例如,計算在兩個特征矢量中出現(xiàn)至少一次的串的數(shù)目。

可以將特征矢量的特定分量單獨地相互比較。例如,可以將兩個MFC的提及部分與余弦相比較,并且還可以與提及部分分開地比較CO_PER部分。可以在加權(quán)和中將得到的值加權(quán)。例如,如果提及比較上的權(quán)值是8且CO_PER比較上的權(quán)值是2,并且用于兩個分量的相似性分別地是0.6和0.3,則加權(quán)和是5.4。

當比較兩個TFC時,相似程度指示段落是否描述相似的主題。當比較MFC或PFC時,相似程度可以指示提及和/或簡檔是否正在描述同一實體,即其是否是共指的。著重強調(diào)前面的句子中的單詞“可以”,因為并非特征矢量的所有分量都對測量共指的可能性有用。給定已被劃分成一組共指集合的一組提及,可以應(yīng)用標準機器學(xué)習(xí)技術(shù)(諸如邏輯回歸或隨機梯度下降)來學(xué)習(xí)圍繞每個提及構(gòu)建的特征矢量的各種分量的相似性比較上的權(quán)值的矢量。此類過程考慮通過分區(qū)而提供的共指和非共指示例之間的觀察到的相似性值,并且計算最佳地預(yù)測那兩個可能狀態(tài)的權(quán)值。當此類模型訓(xùn)練過程正確地工作時,對應(yīng)于區(qū)別性屬性的特征矢量的部分將接收到較高權(quán)值,并且承載并不區(qū)別參考實體的其它上下文信息的部分將趨向于獲得較低權(quán)值。

此類模型訓(xùn)練在自然語言處理領(lǐng)域中和交叉文檔共指分辨(也稱為實體消歧)中是常見的。當將此類模型應(yīng)用于MFC時,常常將其稱為實體提及消歧。當使用此類模型來將MFC和/或PFC與PFC相比較時,常常將其稱為實體鏈指或維基化,因為其將數(shù)據(jù)鏈接到實體簡檔的參考知識庫。模型輸出是描述人類將同意兩個項目是相同實體的可能性的分數(shù)或概率。此類模型常常被稱為成對模型,引起其成對地操作。

給定成對模型,可以通過將特征矢量集合成其中相鄰特征矢量更加相似的嵌套集合來構(gòu)造分級模型。此類嵌套集合可以形成樹。針對層級中的每個集合,可以通過將來自該子集中的特征集合的信息聚合而構(gòu)造概要特征矢量。這些概要矢量可以形成樹形圖的內(nèi)部頂點,其中原始輸入特征集合是葉層級頂點。

成對模型中的常見問題是單詞矢量趨向于是相當稀疏的,使得提到同一實體的MFC常??梢詭缀鯖]有特征重疊。在沒有重疊的情況下,成對模型無法檢測到兩個MFC是共指的。由于共指提及形成等價類,所以適用傳遞性的邏輯性質(zhì),即A等于B且B等于C,則A等于C。傳遞性可以解決稀疏性問題,因為即使A和C沒有重疊,其也可能兩者與B的不同部分重疊,使得B將其聯(lián)系在一起。通過將相似特征矢量集中在一起,分級模型可以是揭示連接具有很少直接重疊的特征矢量的傳遞鏈的高效方式。

相異性測量與相似性測量相比有更多細微差別的,因為村子用于使兩個特征矢量不同的更多性質(zhì)上的不同方式,包括:(1)兩個MFC可以提到不同的實體,(2)兩個MFC可以提到同一實體并在圍繞兩個提及鏈的上下文中承載不同的屬性信息,(3)兩個MFC可以提到同一實體并承載具有相同信息的不同上下文單詞,或者(4)兩個MFC可以提到同一實體且具有本質(zhì)上相同的上下文單詞。這對應(yīng)于(1)不共指,(2)共指且有用的不同信息,(3)共指且在語義上等價,以及(4)共指且在語法上等價、即接近復(fù)制或完全復(fù)制。(1)與(2)之間的邊界是明顯的,并且在(2)、(3)以及(4)之間存在分級。相異性的度量嘗試量化分級。在一個方面中,如在本文中設(shè)想的以實體為中心的知識發(fā)現(xiàn)包括用以學(xué)習(xí)幫助用戶發(fā)現(xiàn)關(guān)于在進行中的文檔中描述的身體的新信息的相異性模型的自動化能力。

圖4示出了用于以實體為中心的信息檢索和聚合的接口400。接口400一般地可以是用于呈現(xiàn)用戶友好的直觀視覺顯示的客戶端設(shè)備的用戶接口(諸如本文中所討論的任何客戶端設(shè)備)和用于使用本文中描述的技術(shù)來構(gòu)建實體簡檔的交互式環(huán)境??梢栽谥T如臺式計算機監(jiān)視器、平板計算機或智能電話觸摸屏或與本文中描述的任何客戶端設(shè)備相關(guān)聯(lián)的任何其它物理顯示設(shè)備等屏幕上顯示接口400。

可以將接口400布置成第一窗口402、第二窗口404以及第三窗口406。雖然可以圍繞著本文中設(shè)想的各種搜索、檢索以及簡檔修正功能有用地組織這三個窗口402、404、406,但本領(lǐng)域的技術(shù)人員將領(lǐng)會在不脫離本公開的精神和范圍的情況下更多或更少的窗口是可能的。例如,三窗口實施例在第二窗口404中顯示抽象化搜索結(jié)果,并且在第三窗口406中顯示搜索結(jié)果中的特定的一個的更詳細的視圖。然而,平臺可以適應(yīng)于直接地從第二窗口404中的摘錄結(jié)果接收用戶輸入,特別是用于第一窗口402中的進行中的文檔的相關(guān)內(nèi)容的選擇,因此使得第三窗口406是不必要的。作為另一示例,可以將第三窗口406劃分成以不同方式再現(xiàn)特定文檔的多個窗口,例如作為多媒體、純文本等。如下面更詳細地解釋的,第一窗口402、第二窗口404以及第三窗口406可以是被相互在功能上耦合的交互式窗口,使得一個窗口中的動作可以根據(jù)本文中設(shè)想的簡檔創(chuàng)建策略而觸發(fā)在另一窗口中或者任何兩個窗口之間的響應(yīng)性動作。

第一窗口402可以包括存儲為進行中的文檔并在用戶接口400中顯示的目標實體的簡檔408(在本文中也稱為“實體簡檔”)。目標實體可以是如本文中描述的任何實體,例如,人、地點、公司等??梢杂靡粋€或多個區(qū)別性屬性412的一個或多個值414將目標實體與相同通過類型的其它實體唯一地區(qū)別開,全部如上所述。例如,簡檔408最初可以僅包含用于目標實體的名稱或類似實體標識符,并且然后進行中的文檔的作者可以通過結(jié)合關(guān)于實體的更多屬性/值、副主題及其它描述性信息來改進此目標實體的描述。實體簡檔408可以采取超文本標記語言(HTML)文檔、可擴展標記語言(XML)概要、純文本文檔、富文本文檔、維基文檔等的形式。

將領(lǐng)會的是進行中的文檔的使用相比于針對基于實體的搜索的本領(lǐng)域中已知的其它技術(shù)而言提供顯著的優(yōu)點。例如,雖然關(guān)鍵字提供不同術(shù)語之間的布爾關(guān)系和屬性值(關(guān)鍵字本身)的良好控制,但其一般地并不以與進行中的文檔相同的方式維持實體描述,其也未提供對實體描述的結(jié)構(gòu)、層級以及內(nèi)容的方便的用戶控制或用以結(jié)合副主題或非結(jié)構(gòu)化數(shù)據(jù)的任何方便方式。即,關(guān)鍵字可以提供隱式布爾值概要和允許控制各種搜索特征的語法,但是關(guān)鍵字搜索一般地未被圖示化或不可圖示化以促進用于實體的各種類型和關(guān)系的數(shù)據(jù)的捕捉。相反地,文件夾技術(shù)(其中文檔和數(shù)據(jù)被人工地分類分量級結(jié)構(gòu))可以對實體提及之間的分級關(guān)系提供良好的控制,但是這些技術(shù)并不容易支持對正在建立的關(guān)系類型或分配給各種實體屬性的特定值的顯式用戶控制。本文中設(shè)想的進行中的文檔提供用于使未經(jīng)訓(xùn)練的用戶以在允許后臺實體搜索任務(wù)的顯著自動化的同時持續(xù)實體描述的方式逐漸地細化實體的描述的直觀且容易訪問的方式。

第一窗口402可以包括許多工具416,諸如用于修正實體簡檔408的工具。一把而言,如在本文中設(shè)想的用戶接口工具可以提供本領(lǐng)域中已知的任何適當?shù)挠脩艚涌诮M件??梢詫⒐ぞ邔崿F(xiàn)為例如文本框、單選按鈕、復(fù)選框、下拉列表、圖標或在圖形用戶接口內(nèi)顯示的其它可操作特征以及其它用戶控件,諸如按鍵、手勢解釋、鼠標點擊和移動等??梢允褂萌魏未祟惞ぞ呋蚩丶韺崿F(xiàn)本文中描述的各種接口工具。

例如,工具416可以包括而不限于文本編輯工具、HTML編輯工具、模板工具(例如,稱號、題目、副標題、核心、編號等)、引用工具、文件/數(shù)據(jù)插入工具(例如用于插入媒體、模板、表格、文本、圖庫、參考文檔、特殊字符等)等。工具416可以同樣或替代地包括用于為用戶提供調(diào)試指令和通知、設(shè)置特征(例如,用于查看的頁面、高級設(shè)置等)、搜索框等的幫助特征。進一步地,工具416可以同樣或替代地包括標簽等以執(zhí)行各種功能,諸如編輯實體建檔的408的各種部分、做筆記、檢索修正歷史或查看歷史等。工具416可以同樣或替代地包括本領(lǐng)域中已知的任何其它特征。

第二窗口404可以與第一窗口402同時地可見,并且可以顯示多個搜索結(jié)果418。可以使用用以遍歷數(shù)據(jù)網(wǎng)絡(luò)或或其它數(shù)據(jù)源的算法420基于第一窗口402中的實體簡檔408來對搜索結(jié)果418進行定位并檢索目標實體。算法420可以根據(jù)搜索結(jié)果418是否提到目標實體410而將搜索結(jié)果418排列,并且可以使用任何適當準則來進一步分類、國女或排列,所述適當準則諸如特定結(jié)果是否提供了用于目標實體410的新信息項??梢杂冒ㄔ谔囟ㄋ阉鹘Y(jié)果418中的相關(guān)信息的預(yù)覽來顯示搜索結(jié)果418,諸如在圍繞文本的窗口內(nèi)突出或另外強調(diào)關(guān)鍵字或其它相關(guān)文本,其中關(guān)鍵字由用戶指定或者由算法420確定。在本領(lǐng)域中已知多種以實體為中心的搜索技術(shù),并且在2014年5月12日提交的美國臨時申請?zhí)?1/996,575和2014年8月28日提交的美國臨時申請?zhí)?2/070,549(其全部內(nèi)容被通過引用結(jié)合到本文中)中以非限制性示例的方式進行描述。

算法420可以使用實體簡檔408作為用于對搜索結(jié)果418進行檢索、排列以及顯示的查詢。實現(xiàn)算法420的一個可能方法是構(gòu)造用于簡檔408的特征矢量,諸如上述PFC。

一般地,通過來自用戶的直接文本輸入或通過如下所述地從其它文檔提取信息,對實體簡檔408的修改允許由算法420進行已更新搜索并在第二窗口404中呈現(xiàn)新的搜索結(jié)果418。舉例來說,可以將對簡檔408的修改表示為對從簡檔408導(dǎo)出的PFC的修改,其可以被用作用于新搜索的基礎(chǔ)。在一個實施例中,當檢測到對進行中的文檔的改變時可以自動地更新搜索結(jié)果。在另一實施例中,接口400尅提供用于用戶根據(jù)當前實體簡檔408來人工地觸發(fā)刷新搜索結(jié)果418的新搜索的工具或控件。因此可以響應(yīng)于從簡檔408去除信息、向簡檔408添加信息、改變簡檔408中的信息、突出簡檔408中的信息(或另外與之相交互)、突出搜索結(jié)果418中的一個中的信息(或另外與之相交互)等。在本文中,可以提供多種工具以用于用戶提供興趣或重點的指示,諸如突出、粗體、彩色編碼、下劃線、斜體等。因此,在一方面,第二窗口404可以對通過根據(jù)用戶興趣的推斷指示而更新第二窗口404中的搜索結(jié)果418來指示用戶興趣的用戶動作或交互(諸如用戶從第一窗口402選擇信息)進行響應(yīng)。

在一個方面中,算法420可以結(jié)合應(yīng)用用戶的動作和交互來改進用于比較特征集合的新模型權(quán)值的主動式機器學(xué)習(xí)。

在另一方面中,第二窗口404可以包括搜索工具426以促進控制算法420和返回的搜索結(jié)果418的數(shù)量和質(zhì)量。例如,這可以包括用于選擇內(nèi)容資源、過濾搜索結(jié)果、選擇搜索算法或搜索引擎、對目標搜索函數(shù)加權(quán)等的工具。雖然搜索結(jié)果418可以包括文檔或被認為相關(guān)的來自文檔的摘錄,但搜索結(jié)果418可以同樣或替代地響應(yīng)于實體簡檔而包括其它數(shù)據(jù)或元數(shù)據(jù)。例如,在使用如上描述的特征矢量的實現(xiàn)中,每個搜索結(jié)果418可以表示從文檔中的提及共指鏈構(gòu)建的特征集合,或者每個搜索結(jié)果418可以表示來自其它實體簡檔的簡檔特征集合。在一個方面中,搜索工具426可以包括用于選擇要顯示的搜索結(jié)果418的類型的工具。

第三窗口406可以與第一窗口402和第二窗口404同時地可見,并且可以顯示搜索結(jié)果418中的一個的內(nèi)容,即用戶選擇搜索結(jié)果418(在圖中被示為第一搜索結(jié)果418,其中粗體框432圍繞搜索結(jié)果418從而指示其被選擇)。一般地,第一窗口402、第二窗口404以及第三窗口406可以在相互之間被操作耦合以便例如更新實體簡檔408、提供經(jīng)更新的搜索結(jié)果418、顯示已更新內(nèi)容等。例如,可以將第一窗口402操作耦合到第三窗口(或者可選地第二窗口404)以從第三窗口406接收所選數(shù)據(jù)424的用戶選擇并將所選數(shù)據(jù)置于第一窗口402中,從而提供簡檔408的改變,并且第二窗口404可以對簡檔408的改變進行響應(yīng)以更新搜索結(jié)果418,并且第三窗口可對第二窗口中的搜索結(jié)果418中的所選的一個的選擇進行響應(yīng)以在第三窗口406中顯示搜索結(jié)果428中的所選的一個的內(nèi)容。以此方式,用戶可以借助于基于實體的搜索算法420來逐漸地并迭代地細化實體簡檔。

第三窗口406可以包括所選搜索結(jié)果428中的目標實體410的提及的突出或其它視覺強調(diào)。第三窗口406可以同樣或替代地包括所選搜索結(jié)果428中的新信息項的突出。

在一個方面中,第一窗口402被操作耦合到第三窗口406以從第三窗口406向第一窗口406中接收數(shù)據(jù)的用戶選擇424,從而提供實體簡檔408中的改變。所選數(shù)據(jù)可以包括源文檔中的文本、超鏈接、數(shù)據(jù)或任何其它類型的數(shù)據(jù),并且可以使用例如拖放、拷貝粘貼或用于將數(shù)據(jù)轉(zhuǎn)移到第一窗口中的任何其它適當用戶接口工具來選擇和移動數(shù)據(jù)。數(shù)據(jù)的此選擇和移動還可以攜帶可以在第一窗口中包括在簡檔中的注釋等。因此,例如,可以在被插入簡檔的文本中自動地包括到源文檔的超鏈接,或者可以創(chuàng)建注腳等,其包括到源文檔的主動或被動鏈接或指針。

第二窗口404可以通過根據(jù)修正實體簡檔來更新搜索結(jié)果418而對實體簡檔408中的改變進行響應(yīng)。這可以是響應(yīng)于實體建黨408的人工編輯或者如上描述的拖放修正等。第三窗口406可以類似地對第二窗口404中的經(jīng)更新的搜索結(jié)果418中的一個的選擇進行響應(yīng)以在第三窗口406中顯示搜索結(jié)果418中的所選的一個的內(nèi)容。

第三窗口406可以例如通過在搜索結(jié)果428內(nèi)再現(xiàn)全文本、嵌入式媒體、富文本、超文本等來更詳細地顯示搜索結(jié)果428中的用戶選擇的一個。在用戶尚未選擇搜索結(jié)果418中的一個的情況下,第三窗口406可以默認為搜素結(jié)果148中的第一或最高排列中的一個的顯示,或者可以不顯示任何東西。接口400的工具可以包括支持拖放功能或其它交互式功能以促進使用容易性的選擇工具436。例如,第三窗口806內(nèi)的用戶選擇數(shù)據(jù)424的選擇可以允許如一般地用箭頭440指示的用戶所選數(shù)據(jù)424從第三窗口406到第一窗口402的拖放。此拖放動作可以自動地創(chuàng)建用于添加到實體簡檔408的參考包含用戶選擇數(shù)據(jù)424的搜索結(jié)果418的信息的引用432。該拖放動作可以同樣或替代地創(chuàng)建維基參考標簽或?qū)υ次臋n的其它計算機可讀或人類可讀參考。在另一方面中,拖放動作可以自動地或者通過具體地鏈接到實體簡檔408中的在該處用戶放置用戶所選數(shù)據(jù)424的位置來標識由內(nèi)容的用戶選擇424證實的實體簡檔408中的副主題或?qū)嶓w屬性。拖放動作可以同樣或替代地在實體簡檔408中創(chuàng)建與來自第三窗口406的內(nèi)容的用戶選擇424或其它參考、注釋等相對應(yīng)的文本條目。

在另一方面中,接口400可以同樣或替代地僅使用兩個窗口(具體地第一窗口402和第二窗口404)來提供上述交互式功能。在這方面,作為將來自第三窗口的全文檔顯示的用戶所選數(shù)據(jù)424結(jié)合,用戶可以直接地從在第二窗口404中顯示的搜索結(jié)果418選擇數(shù)據(jù)。此動作可以類似地創(chuàng)建標識搜索結(jié)果418中的一個所表示的源文檔的引用432。例如,在使用兩個窗口的實現(xiàn)中,用戶所選擇的文本可以是通常在搜索結(jié)果的總表中的自動摘要文本或者此類自動摘要文本的用戶選擇子串。自動摘要文本也常常稱為摘錄文本。

當用戶將來自結(jié)果418的信息結(jié)合到簡檔408中時,該結(jié)果對用戶而言可能不再有用。喲農(nóng)戶可以從列表去除搜索結(jié)果418(例如使用搜索工具426)或者刷新第二窗口404中的搜索結(jié)果418的列表。算法420可以(如果被適當配置的話)去除或反饋此結(jié)果,因為其不包含關(guān)于在實體簡檔408中描述的實體的新信息。如果結(jié)果不是關(guān)于實體的,則用戶可以例如使用搜索工具426將搜索結(jié)果418標記為錯誤或不相關(guān)的。如果搜索結(jié)果418是關(guān)于目標實體的但未提供新信息,則用戶可以將搜索結(jié)果418標記為冗余或“不是新的”。當搜索結(jié)果418或搜索結(jié)果418中的數(shù)據(jù)是關(guān)于簡檔408中的信息(例如,屬性412和值414、副主題415等)是冗余的時,則用戶可以將該結(jié)果418或用戶選擇數(shù)據(jù)424拖放到副主題415中以記錄副主題等價性。下面進一步描述副主題和副主題等價性。

當用戶開始對新的實體簡檔工作時,其通常僅從實體的名稱或者可能實體的另一屬性開始。隨著用戶聚集更多信息,其可以重復(fù)地擴展實體簡檔(諸如圖4中的簡檔408)以包含更多信息。因此,該簡檔一般地可以隨著用戶聚集并組織關(guān)于實體的信息而經(jīng)歷各種成熟或細化階段。為了明了起見,我們在這里提出簡檔的三個階段:

(1)存根(stub)簡檔具有足以標識用戶可能意圖提到的候選但不足以強有力地標識哪個的信息,

(2)概要簡檔包含另一個人可以將其用來容易地對作者正在研究哪個實體消除歧義的足夠區(qū)別性屬性,然而大多數(shù)源簡檔包含尚未在簡檔中的附加信息,以及

(3)深度簡檔具有關(guān)于關(guān)于實體的足夠不同觀點和副主題,使得大多數(shù)源文檔落入在簡檔中表達的副主題中的一個。副主題是出現(xiàn)在實體內(nèi)的特定類型的主題。副主題涉及特定實體并關(guān)于該實體的存在被作為條件或斷言。例如,如果一個人是民間音樂家且是凱爾特人球迷,則那個人的聲明的那兩個方面是不同的副主題。大多數(shù)副主題的描繪是主觀的且潛在地不那么服從作為例如實體共指的自動化分類和管理。那是說實體屬性是一個類型的副主題,并且是強類型的。

在簡檔發(fā)展中的不同階段,搜索引擎可以采用不同的策略以便幫助用戶創(chuàng)建深度簡檔。在一個方面中,的那個簡檔是存根時,搜索引擎可以提供提到具有與在簡檔中可用的屬性共同的某些東西的不同實體的多種不同提及。例如,如果僅提供了名稱,則搜索引擎可能呈現(xiàn)出關(guān)于具有相同或類似名稱的多個不同實體的結(jié)果。

在一個方面中,當文章是概要時,搜索引擎可以呈現(xiàn)出非常有可能是共指的且相互不同的結(jié)果,從而提供多種結(jié)果。多樣性是信息檢索中的標準概念,并且參考特定參考文檔所提供新信息的量。系統(tǒng)將多樣性與實體共指性組合以呈現(xiàn)出關(guān)于實體的主題的結(jié)果,同時還跨實體的不同方面是多樣化的。

在一個方面中,隨著進行中的文檔從概要成熟為深度文檔,簡檔的結(jié)構(gòu)本身代替結(jié)果,因為用戶動作已經(jīng)將結(jié)果消耗成簡檔。來自信息檢索的多樣性的標準概念應(yīng)相應(yīng)地演進:為了實現(xiàn)結(jié)果的多樣性,搜索引擎必須呈現(xiàn)出不僅相互不同而且與在簡檔中已表達的副主題不同的項目。通過將在進行中的文檔中體現(xiàn)的演進簡檔視為新的查詢,改變了信息檢索目標的性質(zhì)。

此改變還使得能夠?qū)崿F(xiàn)新形式的主動式機器學(xué)習(xí)。在一個方面中,被用戶拉入進行中的文檔中的結(jié)果可以針對成對實體共指性模型提供用于學(xué)習(xí)權(quán)值的訓(xùn)練示例。這種方法允許針對具有簡檔的每個實體或者針對沒有簡檔的許多實體學(xué)習(xí)成對共指性模型,當然要求用戶的關(guān)于正在使用的成對實體共指性模型的性質(zhì)或存在的特定知識。在另一方面中,可以使用進行中的文檔的半結(jié)構(gòu)化分量(諸如區(qū)段、副主題以及引用)作為用于針對特定簡檔訓(xùn)練的模型的分類器目標。可以將此類分類器應(yīng)用于很有可能共指的MFC,并且其可以預(yù)測用戶是否將特定結(jié)果視為關(guān)于簡檔的現(xiàn)有部分是冗余的,或者可能將其視為填充知識空隙的新信息并因此添加到簡檔是有用的。由于此結(jié)構(gòu)隨著用戶建立進行中的文檔而浮現(xiàn),所以相關(guān)性的此概念主動地隨著簡檔而演進。

在這里描述現(xiàn)在經(jīng)由飛仙自行示例來提供用于上述用戶接口的特定使用情況。想象作為用戶您對實體總統(tǒng)Barack Obama感興趣。您開始用文檔標識符(諸如http://diffeo.Com/kb/Barack_Obama)來創(chuàng)建文檔并將名稱“Barack”放入文檔中。此名稱是簡檔文章中的第一副主題。實體的名稱是具有概要的副主題,因此其是屬性。在實體的名稱的情況下,概要簡單地是串,并且其使用是用于一件東西的名稱的熟悉意義。實體類型是人,并且這可以可選地也被添加到進行中簡檔的文本。在基于MediaWiki的工具(維基百科)中,實體的名稱進入“稱號”字段并變成URL的一部分。

在這里,由進心中文檔提供給推薦引擎的僅有信息是該名稱,因此推薦引擎可能不具有足以將用戶的預(yù)想實體與也具有該名稱的其它實體完全消除歧義的信息。例如,如果用戶以屬性名稱=“羅伯特史密斯”開始文檔,則系統(tǒng)可能可訪問提到具有該名稱的許多不同人的文檔。此類一組實體被稱為“易混淆的”,因為其共同地共享一個或多個屬性。給定從此類簡檔可用的稀少信息,當系統(tǒng)推薦源文檔以供用戶查看時,其將推薦排列以在前幾個結(jié)果中呈現(xiàn)出多個不同的可能實體。在實體層級的這種多樣性使得用戶能夠快速地發(fā)現(xiàn)他們想要研究的特定實體的提及。例如,如果系統(tǒng)想要呈現(xiàn)按照實體的流行性排列電極結(jié)果,則排在前面的許多許多結(jié)果可能全部提到同一實體,這對于對具有相同名稱的不那么有名的人感興趣的用戶而言不那么有用。通過呈現(xiàn)在前幾個結(jié)果中提及的實體的多樣化選擇,推薦引擎加速了用戶構(gòu)建出初始簡檔的任務(wù)。此初始階段幫助用戶移動超過“存根”文章階段并進入“概要”文章階段。

例如,系統(tǒng)可能推薦提及來自底特律的拳擊手Barack Obama的第一文檔和提及來自芝加哥的社區(qū)組織者Barack Obama的第二文檔和提及美國參議員Barack Obama的第三文檔和提及總統(tǒng)Barack Obama的的第四文檔。在四者的此列表中,的一個是不同實體,并且后續(xù)的桑碰巧是處于生命的不同階段的同一實體。作為用戶,您可以將拳擊手的提及標記為“錯誤”,因為您領(lǐng)會作為提到來自與您想要研究的實體不同的實體的提及。系統(tǒng)與用于其正在編寫的簡檔408的文檔標識符434相關(guān)聯(lián)地存儲此用戶輸入。系統(tǒng)可以在未來使用此信息來進行更好的推薦,例如通過不顯示與提及拳擊手的文檔類似的文檔。

繼續(xù)本示例,用戶可以從文檔獲得關(guān)于來自芝加哥的社團組織者的文本并將該文本添加到簡檔。系統(tǒng)自動地在簡檔中構(gòu)造引用,其記錄用于用戶從其中獲得文本的源文檔的文檔標識符。由于簡檔具有某些描述性文本,系統(tǒng)可以根據(jù)該簡檔來構(gòu)建更豐富的特征矢量并將其用來生成更好的推薦。

系統(tǒng)可以在第一窗口中提供文本編輯器或類似功能,其使得用戶能夠編輯和改變進行中的文檔中的自由文本。使得能夠?qū)崿F(xiàn)自由文本輸入的常見工具是Microsoft Word、Microsoft PowerPoint、Notepad、emacs、Google Docs、Office Live、MediaWiki的VisualEditor以及許多其它文本編輯器。文本編輯器中的標準特征是能夠創(chuàng)建子結(jié)構(gòu),諸如區(qū)段、具有隱藏字幕的圖像、多個列、注腳、粗體、字體改變等。

一旦用戶通過向進行中的文檔中鍵入更多文本或者從搜索結(jié)果獲得文本或在其中創(chuàng)建更多結(jié)構(gòu)來改進該進行中的文檔,則推薦引擎具有可用于生成推薦的更多信息。用簡檔中的更多副主題,系統(tǒng)更有可能能夠分辨易混淆實體之間的共指性模糊。當系統(tǒng)檢測到簡檔具有足以顯式地標識實體的信息時,其將目標函數(shù)切換成使結(jié)果聚焦于發(fā)現(xiàn)關(guān)于該實體的更多提及而不是關(guān)于不同易混淆實體的多樣化結(jié)果。在此概要文章階段中,作為示出關(guān)于許多相關(guān)實體的多樣化結(jié)果的替代,系統(tǒng)集中在如置信度分數(shù)表征的共指性正確性。

推薦引擎何時和如何改變推薦的顯示的設(shè)計可以大大地影響系統(tǒng)的用戶體驗。例如,如果推薦引擎每當用戶將簡檔改變單個字符時將弄亂或突然改變結(jié)果,則顯示可能令人困難且難以使用。因此,系統(tǒng)的一個方面允許用戶判定何時接收已更新結(jié)果。以此方式,用戶可以顯式地點擊簡檔上的“保存”以存儲器最近編輯(或者類似地顯式地執(zhí)行用以存儲器編輯的動作)。替換地,可以將系統(tǒng)配置成在每次小的改變時自動地保存簡檔。推薦改變可以被自動地耦合到簡檔何時被保存,使得其每當用戶改變簡檔時改變,或者其可以與簡檔何時被保存無關(guān)。

在實現(xiàn)中,簡檔可以處于“編輯”模式或“讀取”模式。搜索結(jié)果在兩個模式下都可以出現(xiàn),并且系統(tǒng)可以被配置成當用戶從一個模式切換至另一個時更新推薦。當處于“讀取”模式時,簡檔文本及其它內(nèi)容可以是不可改變的。當處于“編輯”模式時,簡檔文本及其它內(nèi)容可以改變。在兩個模式下,可以認為文章是處于“進行中”,因為用戶可以在其選擇時參與改變簡檔。

當系統(tǒng)檢測到簡檔已改變時,其可以準備新的推薦且在用戶選擇看到該推薦時不向用戶顯示該新推薦。系統(tǒng)可以向用戶指示新的結(jié)果可用,或者可以簡單地向用戶提供文件編制,使得系統(tǒng)常常具有用戶可以通過觸發(fā)對推薦的更新來查看的新結(jié)果。系統(tǒng)可以提供用于刷新推薦的按鈕。在一個方面中,系統(tǒng)直觀地向用戶指示新推薦可用。該新推薦可以對簡檔中的改變或者可用于系統(tǒng)的數(shù)據(jù)源的改變進行響應(yīng)。例如,如果用戶正在編輯關(guān)于Barack Obama的簡檔,并且同時用戶正在查看推薦的同時,Barack Obama發(fā)表產(chǎn)生新內(nèi)容的演說,則系統(tǒng)可以向用戶提供此已更新推薦內(nèi)容。

系統(tǒng)具有新的推薦要提供給用戶的視覺指示可以采取許多形式:顯示給用戶的顯式文本消息、“新”項目的計數(shù)、閃爍以引起用戶的注意的彩色信標、略該改變先前的列表而不以令人迷惑的方式突然地重組織顯示的新結(jié)果的部分顯示等。在一個方面中,系統(tǒng)通過直觀地指示簡檔的哪些部分與新結(jié)果相關(guān)聯(lián)來向用戶提供新的推薦。此視覺指示可以采取在簡檔中或者在關(guān)聯(lián)內(nèi)容附近的在簡檔旁邊的突出的形式。

編寫文章時的一般慣例是將文檔組織成區(qū)段和小節(jié)和段落和將相關(guān)信息在邏輯上分組的其它描繪。此信息中的某些可以被圖示化為結(jié)構(gòu)化屬性,而其它部分可能被較少結(jié)構(gòu)化。我們將用戶在簡檔中創(chuàng)建的各種分組和區(qū)段稱為“副主題”。每個副主題本身在上面定義的一般意義上是主題,并且其還具體地涉及簡檔文檔所描述的實體。隨著作者在文檔中建立此類結(jié)構(gòu),系統(tǒng)使用此結(jié)構(gòu)來改進在第二窗口426中提出的推薦。

例如,用戶可能在關(guān)于Barack Obama的文章中創(chuàng)建三個區(qū)段:一個關(guān)于他的作為社區(qū)組織者的工作,第二是關(guān)于他的作為US參議員的工作,并且第三個關(guān)于他的作為總統(tǒng)的工作。這些區(qū)段進而可以具有小節(jié)及其它結(jié)構(gòu),其使得系統(tǒng)力量能夠標識并向用戶推薦感興趣的源內(nèi)容。當用戶選擇特定區(qū)段或段落中的文本時,系統(tǒng)可以使用該動作用關(guān)于該特定副主題的更多信息進行響應(yīng)。例如,當用戶正在編寫關(guān)于作為總統(tǒng)的Obama的區(qū)段時,系統(tǒng)可能避免關(guān)于他作為參議員的角色的文檔,并且替代地推薦關(guān)于他作為總統(tǒng)的時間的文檔。

使用在簡檔中標識的Fenix,系統(tǒng)可以尋找尚未在簡檔中的新信息。當用戶例如通過點擊“找到新素材”按鈕或?qū)⒒瑝K朝著滑塊的“新素材”末端撥動而指示了對找到關(guān)于實體的新的或“新型信息時,然后系統(tǒng)可以推薦與簡檔中的內(nèi)容不同的內(nèi)容。例如,系統(tǒng)可能推薦Obama在哈弗大學(xué)期間作為法學(xué)學(xué)生的時間的文檔。這填充用戶的進行中的文檔中的知識空隙。

當系統(tǒng)發(fā)現(xiàn)看起來覆蓋與已結(jié)合到文檔中的信息相同的信息的另一文檔時,系統(tǒng)可以將此結(jié)果排列較低或者將其從列表排除,因為其是等價的。用于副主題的源材料的等價性的此概念可以采取多個形式。例如,文檔可以是處于合成層級的另一文檔的副本,或者其可以以不同的表達方式提供相同信息,其中這些中的每個是一個類型的副主題等價性。

隨著簡檔在深度和結(jié)構(gòu)方面增加,系統(tǒng)可以再一次改變被用于搜索的目標函數(shù),并且開始將想關(guān)心支持為對于用戶而言比置信度更加重要。置信度分數(shù)表征推薦是關(guān)于目標實體的可能性。相關(guān)性分數(shù)表征推薦對用戶的當前問題有用的可能性,印證文檔中的現(xiàn)有副主題或發(fā)現(xiàn)要添加到文檔的新副主題。

隨著用戶逐漸地發(fā)現(xiàn)有用信息并改進文章,其遠離作為存根而演進成作為關(guān)于實體的副主題的越來越完整的概要。用戶可能從多個源獲得信息。除在由系統(tǒng)在第二窗口中提供的推薦中找到信息之外,用戶可能使用在本系統(tǒng)外部的任何適當搜索工具來找到數(shù)據(jù),并且通過憑記憶鍵入或者剪切并粘貼或者線簡檔中聚集知識的其它手段來將此補充數(shù)據(jù)插入到簡檔。

圖5示出了用于相關(guān)性和置信度的顯式用戶控制的工具。相關(guān)性意味著一片信息對關(guān)于特定進行中報告而工作的用戶的有用性。什么東西相關(guān)的定義隨著簡檔而演進。通過將簡檔視為查詢,可以顯式地向提供各種搜索工具和算法的自動化系統(tǒng)表達演進相關(guān)性。用于評定內(nèi)容的另一度量是置信度,其指代人類將統(tǒng)一特定實體敘述與簡檔所描述的實體共指的統(tǒng)計可能性。相關(guān)性和置信度是以實體為中心的搜索結(jié)果的不同方面,并且用戶可能希望根據(jù)其特定目標且根據(jù)特定實體簡檔的成熟性而集中在一個或另一個。模型可以針對相對于特定簡檔的特定結(jié)果而向相關(guān)性和置信度中的每個分配單獨分數(shù),并且用于這些值及其它度量的綜合分數(shù)可以隨著實體簡檔發(fā)展通過上面描述的各種成熟階段隨時間推移而演進。

在一個方面中,可以提供用戶控件500以用于對如上描述的相關(guān)性與置信度之間的相互作用的顯式控制。此用戶控件可以例如被實現(xiàn)為上述搜索工具426中的一個或者本文中描述的任何其它用戶接口工具。在一個方面中,用戶控件500可以提供用于與相關(guān)性和置信度相交互的兩個用戶輸入。例如,用戶控件500可以包括二維滑塊502,其中第一軸線504控制用于相關(guān)性分數(shù)的閾值且第二軸線506控制用于置信度分數(shù)的閾值。通過在二維滑塊502內(nèi)選擇特定位置508,用戶可以控制這些閾值。

因此,二維滑塊502可以充當閾值確定工具。通過選擇二維滑塊502中的位置,用戶可以使由搜索算法返回的搜索結(jié)果局限于具有在所選閾值之上的相關(guān)性和置信度分數(shù)的結(jié)果。第一軸線504可以對應(yīng)于相關(guān)性,使得將位置508向上移動將結(jié)果過濾成具有在相應(yīng)閾值之上的相關(guān)性分數(shù)的項目。如果相關(guān)性和置信度分數(shù)在從零至一范圍內(nèi),且位置508被設(shè)置成在到頂部(用于相關(guān)性)或者向右側(cè)(用于置信度)超過半程,則具有小于0.5的分數(shù)的候選結(jié)果將被濾出。在另一方面中,作為過濾結(jié)果的替代,二維滑塊可以提供用于通過使用來自滑塊的值對相關(guān)性和置信度加權(quán)而將相關(guān)性和置信度組合成單個值并基于組合數(shù)而將結(jié)果重新分類的權(quán)值。

類似地,可以提供可視化以圖示出共同性和差異的點。例如,在一個方面中,可以使用突出或其它視覺顯示來向用戶圖示出在進行中簡檔的當前狀態(tài)與推薦引擎所推薦的源文檔之間的共同性和差異的點。

圖6示出了供在基于實體的搜索中使用的書簽工具。一般地,用戶接口600可以提供用于聚集內(nèi)容的附加機制,諸如用于對內(nèi)容加書簽的文件夾樹。書簽工具可以在web瀏覽器中作為當用戶在網(wǎng)絡(luò)(諸如因特網(wǎng)或內(nèi)部網(wǎng)絡(luò))上瀏覽二面時可見的擴展而操作。

一般地,用戶接口600可以包括web瀏覽器窗口602,其顯示來自因特網(wǎng)或內(nèi)部網(wǎng)絡(luò)的web頁面。該web頁面可以是用于出售在用戶接口內(nèi)顯示為內(nèi)容604的各種產(chǎn)品的零售店??梢蕴峁灢寮?06,其中用戶可以從web頁面選擇圖像、文本或其它數(shù)據(jù)并將該內(nèi)容拖放到書簽插件606內(nèi)的文件夾608中??梢酝瑯踊蛱娲赜上到y(tǒng)提供除拖放之外的其它動作以使得用戶能夠?qū)⑺x內(nèi)容604與一個或多個文件夾608相關(guān)聯(lián),例如通過點擊按鈕、復(fù)選框等。在以此方式加書簽之后,用戶所選內(nèi)容604的概要表示610出現(xiàn)在插件606中。這使得用戶能夠選擇用于各種動作的概要表示610,包括點擊圖標612以引導(dǎo)瀏覽器窗口602回到包含書簽內(nèi)容的頁面。插件還可以示出來自推薦引擎的推薦614,其分析被用戶加書簽的文檔并建議類似且可以對用戶有幫助的其它文檔。某些推薦可以是對要查看的文檔的參考,或者其它推薦可以提供其它信息??梢酝ㄟ^分析與文件夾樹中的所選項目相關(guān)的一批文檔并找到那些文檔的共同性質(zhì)(諸如跨文本的共有的長串)來生成推薦616中的一個。在找到此類共同性質(zhì)之后,推薦引擎向用戶呈現(xiàn)推薦616。

如同大多數(shù)文件系統(tǒng)中的目錄樹,插件中的文件夾可以包含其它文件夾,因此創(chuàng)建分級嵌套結(jié)構(gòu),其允許用戶將其書簽組織成適合于他們的需要和思維過程的邏輯結(jié)構(gòu)。我們將文件夾的此層級稱為文件夾樹??梢詫渲械娜魏谓o定文件夾視為子樹的“根”。根文件夾包含在其下面的零個或更多文件夾的樹。用戶將提出的所謂高層級文件夾視為工具中的單獨的樹的根。每個文件夾具有標識文件夾的名串。在高層級下面的文件夾具有父文件夾。共享公共父文件夾的文件夾被給定將其與其兄弟文件夾區(qū)別卡的唯一名稱。用戶可以編輯文件夾的名稱并可以在樹中到處移動文件夾以組織、統(tǒng)籌并管理文件夾樹。

本瀏覽器書簽插件中的文件夾不是本文中描述的意義上的進行中的文檔。相反地,文件夾或子文件夾僅是用戶已選擇的文檔標識符的集合。這些文檔標識符指向用戶可以經(jīng)由進行中報告中的引用而參考的源文檔。來自這些源文檔的信息可以幫助開發(fā)或改進進行中的文檔。文件夾的名稱一般地是短串,并且通常具有最大寬度。該名稱簡單地是串且通常在串內(nèi)不具有子結(jié)構(gòu)。雖然用戶可以在文件系統(tǒng)中修改該名稱,但文件夾名并不意圖是隨時間推移而被修改的需要注意裝置。

因此文件夾樹結(jié)構(gòu)并不是如在本文中設(shè)想的進行中的文檔,至少是因為其并未使得能夠?qū)崿F(xiàn)自由文本輸入或其它形式的自由文本note taking或類似用戶修改。同時,應(yīng)領(lǐng)會的是雖然如本文中描述的存儲在進行中的文檔中的實體簡檔基本上不同于諸如文件夾樹之類的現(xiàn)有技術(shù)的其它搜索技術(shù),但這些其它現(xiàn)有技術(shù)可以被有用地集成到用戶接口中以實現(xiàn)如在本文中設(shè)想的基于實體的搜索。

圖7示出了用于提供用于以實體為中心的信息檢索和聚合的接口的方法。

如在步驟702中所示,方法700可以包括在顯示中提供第一窗口,其接受包含關(guān)于一個或多個實體的信息的簡檔的用戶輸入,所述信息包括用于一個或多個實體的一個或多個區(qū)別性屬性的一個或多個值。這可以例如是本文中描述的窗口、顯示以及簡檔中的任何一個。簡檔可以例如包括類型和與類型相關(guān)聯(lián)的一個或多個區(qū)別性屬性以及包括用于區(qū)別性屬性中的至少一個的值的關(guān)于實體的信息。

可以將簡檔存儲在可編輯文檔中,該可編輯文檔諸如文本文檔、HTML文檔或可以持續(xù)、接收用戶編輯并如上所述用文檔標識符來標識的任何其它文檔。簡檔可以包括各種類型的數(shù)據(jù),其包括而不限于關(guān)于實體的非結(jié)構(gòu)化數(shù)據(jù)、關(guān)于實體的結(jié)構(gòu)化數(shù)據(jù)、具有預(yù)定義數(shù)據(jù)模型的數(shù)據(jù)、沒有預(yù)定義數(shù)據(jù)模型的數(shù)據(jù)、分字段數(shù)據(jù)、語義標記數(shù)據(jù)、具有在簡檔內(nèi)并未正式地定義的隱含結(jié)構(gòu)的數(shù)據(jù)或任何其它類型的數(shù)據(jù)。簡檔可以例如包括超鏈接、顯式字段、純文本或其它類型的數(shù)據(jù)。實體可以是人、公司、組織或者適合于創(chuàng)建實體簡檔的任何其它類型的實體。類似地,實體可以涉及其它主題,諸如化合物、動物、地理區(qū)域等。

第一窗口可以使用多種文檔處理平臺或用戶接口工具中的任何一個來促進用戶對進行中的文檔的修改。例如,第一窗口可以包括:文本編輯工具、超文本標記語言(HTML)編輯工具以及維基編輯工具。

如步驟704中所示,方法700可以包括確定用于實體的類型。用于實體的類型可以具有包括實體的一個或多個區(qū)別性屬性的預(yù)定概要。確定用于實體的類型可以包括提供用于區(qū)別性屬性中的至少一個的值。舉例來說,區(qū)別性屬性中的一個可以包括用于實體的名稱。

在實現(xiàn)中,確定用于實體的類型是完全自動化的過程。確定用于實體的類型可以同樣或替代地包括使用人類輸入(即,用戶輸入),其中人類輸入可以顯式地標識用于實體的類型(或者嘗試標識用于實體的類型)或者可以不這樣。例如,實現(xiàn)可以不要求用戶標識實體類型,而是替代地系統(tǒng)解釋用戶輸入以標識用于實體的類型。舉例來說,用戶不需要將Barack Obama標識為人,而是相反地系統(tǒng)可以解釋信息(例如,名稱“Barack Obama”、職業(yè)、性別等)而確定Barack Obama是人。

在實現(xiàn)中,文檔編輯器的用戶可以向隨之承載實體鍵入信息的文檔的一個或多個類別分配簡檔。例如,在一方面,用戶可以將文檔分配給特定類別(例如,“人”類別)。通過將文檔關(guān)聯(lián)到類別,用戶還可以促使用于向文章添加屬性的窗體工具加載用于該實體類型的屬性概要。舉例來說,語義MediaWiki是提供用于實體屬性和相同類型的實體的類別的此類模板系統(tǒng)的工具。

如步驟706中所示,方法700可以包括在顯示中提供與第一窗口同時地可見的第二窗口。第二窗口可以示出來自標識文檔的一個或多個源的多個搜索結(jié)果。文檔可以每個包含具有提到實體的預(yù)定可能性的提及。第二窗口可以按照使用任何適當?shù)乃惴ㄅ帕械捻樞騺盹@示搜索結(jié)果,所述算法諸如根據(jù)一個或多個預(yù)定準則將搜索結(jié)果中的至少一個相對于其它搜索結(jié)果優(yōu)先排列的算法。可以將多種預(yù)定準則用于搜索,諸如本文中所討論的任何準則。以非限制性示例的方式,預(yù)定準則可以包括搜索結(jié)果提到實體的可能性、搜索結(jié)果提供用于實體的新信息項的可能性或者搜索結(jié)果提到實體的可能性與搜索結(jié)果提供用于實體的新信息項的可能性的組合。該準則可以同樣或替代地包括前述內(nèi)容的任何組合,諸如搜索結(jié)果提到實體的可能性、搜索結(jié)果與實體的相關(guān)性以及搜索結(jié)果提供用于實體的新信息項的可能性。

搜索策略可以隨時間推移而改變,例如使得本方法可以使用根據(jù)簡檔的狀態(tài)(諸如隨著簡檔從存根發(fā)展成深度簡檔的各種點)而改變的排列函數(shù)基于一個或多個預(yù)定準則將搜索結(jié)果排列。第二窗口一般地可以對從第一窗口進行的信息的用戶選擇進行響應(yīng)以根據(jù)信息中的用戶興趣的推斷指示來更新第二窗口中的搜索結(jié)果。

如在步驟708中所示,方法700可以包括接收用以顯示經(jīng)更新的搜索結(jié)果的用戶請求并響應(yīng)性地在顯示器中呈現(xiàn)經(jīng)更新的搜索結(jié)果。

如在步驟710中所示,方法700可以包括將搜索結(jié)果中的一個的內(nèi)容顯示為顯示器中的項目。如上所述,為了促進基于新搜索結(jié)果進行的進行中的文檔的實時編輯,第一窗口可以通過向第一窗口添加項目、從而提供簡檔中的改變而對項目的用戶選擇進行響應(yīng),其中第二窗口通過提供經(jīng)更新的搜索結(jié)果對簡檔中的改變進行響應(yīng)?!昂啓n中的改變”可以是任何改變,諸如文本編輯、拷貝和粘貼或者其它用戶發(fā)起的對簡檔中的改變。因此,雖然用戶可以通過從搜索結(jié)果的窗口拖放內(nèi)容來發(fā)起改變(如在本文中所解釋的),但存在可以同樣或替代地更新簡檔并如本文中設(shè)想的那樣充當用于經(jīng)更新的搜索結(jié)果的基礎(chǔ)的許多其它用戶動作。

提供經(jīng)更新的搜索結(jié)果可以包括在顯示器中呈現(xiàn)經(jīng)更新的搜索結(jié)果。在另一方面中,提供經(jīng)更新的搜索結(jié)果包括響應(yīng)于用以保存改變的用戶動作而呈現(xiàn)經(jīng)更新的搜索結(jié)果。換言之,在實現(xiàn)中,可以只有當用戶保存簡檔中的改變時才向用戶提供或呈現(xiàn)經(jīng)更新的搜索結(jié)果。在另一方面中,提供經(jīng)更新的搜索結(jié)果可以包括響應(yīng)于請求經(jīng)更新的搜索結(jié)果的用戶動作而呈現(xiàn)經(jīng)更新的搜索結(jié)果,或者在顯示器中呈現(xiàn)經(jīng)更新的搜索結(jié)果的可用性的指示。

更新搜索結(jié)果可以包括更新可用搜索結(jié)果,即在位于系統(tǒng)中的搜索結(jié)果被更新且被基于更新而呈現(xiàn)給用戶的情況下。經(jīng)更新的搜索結(jié)果可以包括用于用戶選擇的一個或多個附加項目。在一方面,在第二窗口中顯示經(jīng)更新的搜索結(jié)果。數(shù)據(jù)的用戶選擇可以例如包括項目到第一窗口中的拖放。在此過程中,拖放可以創(chuàng)建參考包含用戶選擇的搜索結(jié)果中的一個的引用。拖放可以同樣或替代地創(chuàng)建用于簡檔中的改變的維基參考標簽,該維基參考標簽參考包含用戶選擇的搜索結(jié)果中的一個,或者拖放可以在簡檔中創(chuàng)建與項目中的所選文本條目相對應(yīng)的文本條目。

顯示項目可以包括用項目中的實體的提及的突出來顯示項目,或者用項目中的關(guān)于實體的新信息的突出來顯示項目。在另一方面中,顯示項目可以包括在第三窗口中顯示項目,該第三窗口被配置成顯示來自第二窗口的搜索結(jié)果中的所選的一個。第三窗口可以與第一窗口和第二窗口同時地可見。

本方法還可以包括在顯示器中提供經(jīng)更新的搜索結(jié)果的指示。在一個方面中,經(jīng)更新的搜索結(jié)果的指示包括第二窗口中的經(jīng)更新的搜索結(jié)果的呈現(xiàn)。經(jīng)更新的搜索結(jié)果的呈現(xiàn)可以同樣或替代地包括向用戶呈現(xiàn)經(jīng)更新的搜索結(jié)果可用的通知。本領(lǐng)域的技術(shù)人員將領(lǐng)會其它指示同樣或替代地是可能的,例如突出或其它視覺顯示或指示或其它警告(例如,音頻警告、消息傳送警告等)。

如在步驟712中所示,窗口可以被相互操作耦合而合作以支持如本文中描述的基于實體的搜索。

圖8示出了用于以實體為中心的信息檢索和聚合的方法。雖然上面描述的方法有用地采用多窗口方法來組織結(jié)果和接收用戶輸入,但用以將實體簡檔構(gòu)建為進行中的文檔的根本方法并被要求信息的此特定布置。因此可以如在以下方法中以示例的方式描述的那樣將該方法有用地廣義化。

如在步驟802中所示,方法800可以從存儲實體簡檔開始??梢詫⒃搶嶓w簡檔存儲在由文檔標識符標識且包含半結(jié)構(gòu)化數(shù)據(jù)的可編輯文檔中,所述半結(jié)構(gòu)化數(shù)據(jù)包括具有預(yù)定義數(shù)據(jù)模型的第一數(shù)據(jù)和沒有預(yù)定義數(shù)據(jù)模型的第二數(shù)據(jù)。編輯簡檔可以例如用具有一個或多個區(qū)別性屬性的類型和用于所述一個或多個區(qū)別性屬性中的至少一個的值來描述實體。

如在步驟804中所示,方法800可以包括在用戶接口(諸如本文中描述的任何用戶接口)中向用戶顯示實體簡檔。用戶接口可以例如包括如下中的一個或多個:用于可編輯文檔的文本編輯工具、用于可編輯文檔的超文本標記語言(HTML)編輯工具或用于可編輯文檔的維基編輯工具。

如在步驟806中所示,方法800可以包括檢測導(dǎo)致已修改實體簡檔的對用戶接口中的實體簡檔的用戶修改。這可以通過用以檢測對可編輯文檔的改變或者暗示對可編輯文檔的改變的用戶交互(例如,經(jīng)由鼠標或鍵盤)中的任一者或兩者的任何適當軟件工具來實現(xiàn)。在一個方面中,用戶修改可以包括數(shù)據(jù)到在用戶接口中顯示的可編輯文檔的拖放。該拖放可以創(chuàng)建參考數(shù)據(jù)的源的用于數(shù)據(jù)的引用或者以其他方式將數(shù)據(jù)格式化以便包括在簡檔中。例如,拖放可以創(chuàng)建參考數(shù)據(jù)的源的用于數(shù)據(jù)的維基參考標簽或者與內(nèi)容源中的所選文本條目相對應(yīng)的實體簡檔中的文本條目。在一個方面中,用戶修改可以包括提供用戶對信息的興趣的推斷指示的實體簡檔中的信息的用戶選擇。

如在步驟808中所示,方法800可以包括響應(yīng)于該用戶修改針對在已修改實體簡檔中指定的實體的提及而自動地執(zhí)行基于實體的搜索,從而檢索一個或多個搜索結(jié)果。此基于實體的搜索可以使用本文中描述的任何算法和搜索策略,包括隨著簡檔從存根發(fā)展成深度簡檔而改變的策略。

如在步驟810中所示,方法800可以包括將搜索結(jié)果中的一個排列。如上所述,可以基于一個或多個準則或其組合而采用各種排列技術(shù)。因此,例如,該排列可以是根據(jù)搜索結(jié)果提到實體的置信度水平或者搜索結(jié)果提供用于實體的新信息項的置信度水平。更一般地,可以使用任何適當準則或準則的組合。應(yīng)注意的是豬豬呢可以根據(jù)適應(yīng)于實體簡檔的成熟性水平的搜索策略而改變,或者準則可以根據(jù)顯式用戶輸入(諸如用于相關(guān)性和置信度的閾值的用戶選擇)而改變。

如在步驟812中所示,方法800可以包括向用戶顯示一個或多個搜索結(jié)果。這可以包括補充的格式化或組織,諸如包括突出一個或多個搜索結(jié)果宏的實體的提及或突出一個或多個搜索結(jié)果中的新信息項。

可以用硬件、軟件或適合于特定應(yīng)用的這些的任何組合來實現(xiàn)上述系統(tǒng)、設(shè)備、方法、過程等。硬件可以包括通用計算機和/或?qū)S糜嬎阍O(shè)備。這包括在一個或多個微處理器、微控制器、嵌入式微控制器、可編程數(shù)字信號處理器或其它可編程設(shè)備或處理電路以及內(nèi)部和/或外部存儲器中實現(xiàn)。這可以同樣或替代地包括一個或多個專用集成電路、可編程門陣列、可編程陣列邏輯組件或可被配置成處理電子信號的任何其它設(shè)備。將進一步領(lǐng)會的是上面描述的過程或設(shè)備的實現(xiàn)可以包括使用結(jié)構(gòu)化編程語言(諸如C)、面向?qū)ο缶幊陶Z言(諸如C++)或可以被存儲、編譯或解釋以在上述設(shè)備中的一個上運行的任何其它高級或低級編程語言(包括匯編語言、硬件描述語言以及數(shù)據(jù)庫編程語言和技術(shù))以及處理器的異構(gòu)組合、處理器架構(gòu)或不同硬件和軟件的組合創(chuàng)建的計算機可執(zhí)行代碼。在另一方面中,可以在執(zhí)行方法的步驟的系統(tǒng)中體現(xiàn)方法,并且可以用許多方式將其跨設(shè)備分布。同時,可以將處理跨設(shè)備(諸如上面描述的各種系統(tǒng))分布,或者可以將所有功能集成到專用的獨立設(shè)備或其它硬件中。在另一方面中,用于執(zhí)行與上述過程相關(guān)聯(lián)的步驟的手段可以包括上面描述的任何硬件和/或軟件。所有此類置換和組合意圖落在本公開的范圍內(nèi)。

本文中公開的實施例可以包括計算機程序產(chǎn)品,其包括當在一個或多個計算設(shè)備上執(zhí)行時執(zhí)行其任何和/或所有步驟的計算機可執(zhí)行代碼或計算機可用代碼。該代碼可以被以非臨時方式存儲在計算機存儲器中,其可以是程序從其開始執(zhí)行的存儲器(諸如與處理器相關(guān)聯(lián)的隨機存取儲器)或者存儲設(shè)備,諸如盤驅(qū)動、閃存或任何其它光學(xué)、電磁、磁性、紅外或其它設(shè)備或設(shè)備組合。在另一方面中,可以用承載計算機可執(zhí)行代碼和/或其任何輸入或輸出的任何適當傳輸或傳播介質(zhì)中體現(xiàn)上面描述的任何系統(tǒng)和方法。

將領(lǐng)會的是上面描述的設(shè)備、系統(tǒng)以及方法是以示例而非限制的方式闡述的。在沒有相反的明確指示的情況下,可以在不脫離本公開的范圍的情況下對公開的步驟進行修改、補充、省略和/或重排列。許多變更、添加、省略及其它修改對于本領(lǐng)域的技術(shù)人員而言將是顯而易見的。另外,以上描述和附圖中的方法步驟的順序或呈現(xiàn)并不意圖要求執(zhí)行所敘述步驟的此順序,除非顯式地要求特定順序或者以其他方式從上下文顯而易見。

根據(jù)以下權(quán)利要求的可專利性,本文中描述的實現(xiàn)的方法步驟意圖包括促使此類方法步驟被執(zhí)行的任何適當方法,除非顯式地提供了不同的意義或者以其他方式從上下文顯而易見。因此例如執(zhí)行X的步驟包括用于促使另一方(諸如遠程用戶、遠程處理資源(例如,服務(wù)器或云計算機)或機器執(zhí)行X的步驟的任何適當方法。類似地,執(zhí)行步驟X、Y和Z可以包括引導(dǎo)或控制此類其它個體或資源的任何組合執(zhí)行步驟X、Y和Z以獲得此類步驟的益處的任何方法。根據(jù)以下權(quán)利要求的可專利性,本文中描述的實現(xiàn)的方法步驟意圖包括促使一個或多個其它參與方或?qū)嶓w執(zhí)行步驟的任何適當方法,除非顯式地提供了不同的意義或者以其他方式從上下文顯而易見。此類各方或?qū)嶓w不需要在任何另一方或?qū)嶓w的指導(dǎo)或控制下,并且不需要位于特定管轄區(qū)域內(nèi)。

應(yīng)進一步領(lǐng)會的是上述方法是以示例的方式提供的。在沒有相反的明確指示的情況下,可以在不脫離本公開的范圍的情況下對公開的步驟進行修改、補充、省略和/或重排列。

將領(lǐng)會的是上述方法和系統(tǒng)是以示例而非限制的方式闡述的。許多變更、添加、省略及其它修改對于本領(lǐng)域的技術(shù)人員而言將是顯而易見的。另外,以上描述和附圖中的方法步驟的順序或呈現(xiàn)并不意圖要求執(zhí)行所敘述步驟的此順序,除非顯式地要求特定順序或者以其他方式從上下文顯而易見。因此,雖然已示出并描述了特定實施例,但對于本領(lǐng)域的技術(shù)人員而言將顯而易見的是在不脫離本公開的精神和范圍的情況下可以進行形式和細節(jié)方面的各種改變和修改,并且其意圖構(gòu)成如將在法律允許的最寬泛意義上解釋的以下權(quán)利要求定義的本發(fā)明的一部分。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1