背景技術(shù):
填充描述實(shí)體與實(shí)體的屬性之間的關(guān)系的事實(shí)數(shù)據(jù)庫(kù)通常要求聚集以高水平的精度聚集很多信息。手動(dòng)地填充大型事實(shí)數(shù)據(jù)庫(kù)是耗時(shí)的、昂貴的并且常常不切實(shí)際的。由于在沒(méi)有人類監(jiān)督的情況下使用不一致的語(yǔ)言、單元和格式從變化的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化信息源以必要的精度提取數(shù)據(jù)中的困難,因而自動(dòng)地填充事實(shí)數(shù)據(jù)庫(kù)也可以是耗時(shí)的。常規(guī)自動(dòng)事實(shí)提取技術(shù)包括模式匹配和自然語(yǔ)言處理。
模式匹配通常地使用手工制作和硬編碼的正則表達(dá)式和/或特定規(guī)則,其依賴于以相同順序使用相同詞語(yǔ)被表達(dá)的信息。在沒(méi)有綜合模式集的情況下,關(guān)系的許多表達(dá)可能被錯(cuò)失。添加更多模式可以降低錯(cuò)失的表達(dá)的數(shù)目,而且可能導(dǎo)致收集無(wú)關(guān)的數(shù)據(jù)。最終,雖然仔細(xì)的模式匹配可能改進(jìn),但是創(chuàng)建模式是耗時(shí)的、昂貴的并且不可擴(kuò)展的。
使用統(tǒng)計(jì)模型的自然語(yǔ)言處理不由特定模式限制,但是建立好的模型要求許多適當(dāng)?shù)刈⑨尩挠?xùn)練數(shù)據(jù)。手動(dòng)地注釋大型數(shù)據(jù)集以建立高精度模型是耗時(shí)的并且昂貴的。相反,使用更小的數(shù)據(jù)集或者更少的監(jiān)督降低時(shí)間和成本,而且增加錯(cuò)失正確關(guān)系或者收集不正確關(guān)系的可能性。
待解決的技術(shù)問(wèn)題涉及在最小人類介入和高精度的情況下自動(dòng)地找到非結(jié)構(gòu)化數(shù)據(jù)中的關(guān)系。關(guān)于這些和其他考慮,已經(jīng)做出本發(fā)明。雖然已經(jīng)討論了相對(duì)特定的問(wèn)題,但是應(yīng)當(dāng)理解,本文所公開(kāi)的方面不應(yīng)當(dāng)限于解決背景技術(shù)中所標(biāo)識(shí)的特定問(wèn)題。
技術(shù)實(shí)現(xiàn)要素:
提供該概述以引入以在詳細(xì)描述章節(jié)中下文進(jìn)一步描述的簡(jiǎn)化形式的概念的選擇。該概述不旨在標(biāo)識(shí)所要求保護(hù)的主題的關(guān)鍵特征或基本特征,其也不旨在用作輔助確定所要求保護(hù)的主題的范圍。
關(guān)系提取器的方面包括將在最小人類介入的情況下使用根據(jù)大型未標(biāo)記的數(shù)據(jù)集建立的統(tǒng)計(jì)實(shí)體類型預(yù)測(cè)和關(guān)系預(yù)測(cè)模型的機(jī)器學(xué)習(xí)方法和基于輕模式的方法交互式地組合,以從非結(jié)構(gòu)化、半結(jié)構(gòu)化和結(jié)構(gòu)化文檔提取關(guān)系。關(guān)系提取器通過(guò)將針對(duì)來(lái)自現(xiàn)有事實(shí)數(shù)據(jù)庫(kù)的已知實(shí)體的真相與描述已知實(shí)體的文檔中的文本相匹配來(lái)從未標(biāo)記的文檔的集合收集訓(xùn)練數(shù)據(jù),并且建立針對(duì)一個(gè)或多個(gè)關(guān)系類型的對(duì)應(yīng)的模型。對(duì)于建模的關(guān)系類型而言,關(guān)系提取器找到文檔中的感興趣的文本數(shù)據(jù)塊。機(jī)器學(xué)習(xí)分類器預(yù)測(cè)文本數(shù)據(jù)塊之一是正被尋找的實(shí)體的概率。組合的機(jī)器學(xué)習(xí)和基于輕模式的方法通過(guò)過(guò)濾提供經(jīng)改進(jìn)的查全率和高精度并且允許所提取的關(guān)系的約束和歸一化。
關(guān)系提取器包括文檔解析器、自然語(yǔ)言處理器和一個(gè)或多個(gè)二元分類器??蛇x的頁(yè)面類型分類器分析文檔并且確定針對(duì)每個(gè)文檔的頁(yè)面類型。頁(yè)面類型可以被用于確定文檔是否描述具有主題類型的主題匹配與正被搜索的關(guān)系類型兼容的主題類型。
文檔解析器讀取文檔的本地格式并且從文檔提取文本以用于處理。文檔的內(nèi)容可以是結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù)。自然語(yǔ)言處理器提供用于檢測(cè)參與在文檔中正被搜索的所選擇的關(guān)系類型的所選擇的對(duì)象類型的對(duì)象的提及的邏輯。一旦提及被檢測(cè)到,自然語(yǔ)言處理器就提取與提及相關(guān)聯(lián)的特征。所提取的特征可以被編譯為作為輸入被供應(yīng)到二元分類器的特征向量。
對(duì)于自動(dòng)地訓(xùn)練預(yù)測(cè)模型而言,自動(dòng)標(biāo)記器使用從現(xiàn)有事實(shí)數(shù)據(jù)庫(kù)所收集的已知事實(shí)來(lái)將提及特征標(biāo)記為肯定訓(xùn)練示例或否定訓(xùn)練示例,并且建立大型訓(xùn)練數(shù)據(jù)集。訓(xùn)練數(shù)據(jù)中的一些或全部被饋送到二元分類器中以建立一個(gè)或多個(gè)預(yù)測(cè)模型,其可以包括關(guān)系預(yù)測(cè)模型和實(shí)體預(yù)測(cè)模型。使用初始預(yù)測(cè)模型做出的預(yù)測(cè)經(jīng)由用戶接口被呈現(xiàn)給用戶以用于驗(yàn)證。該用戶驗(yàn)證使用初始預(yù)測(cè)模型做出的少量的預(yù)測(cè)是正確還是不正確的?;趶挠脩艚邮盏降妮斎?,預(yù)測(cè)模型被重新訓(xùn)練以產(chǎn)生在運(yùn)行時(shí)期間所使用的最終預(yù)測(cè)模型來(lái)處理所選擇的文檔(包括具有一個(gè)或多個(gè)未知關(guān)系的文檔)。該用戶還可以指定被用于建立基于模式的模型的一個(gè)或多個(gè)規(guī)則以自定義關(guān)系提取。
附圖說(shuō)明
本公開(kāi)的進(jìn)一步的特征、方面和優(yōu)點(diǎn)將通過(guò)參考以下附圖變得更好理解,其中元素不按比例以便更清楚地示出細(xì)節(jié),并且其中相同參考數(shù)字貫穿數(shù)個(gè)視圖指代相同元素:
圖1是圖示關(guān)系提取器的方面的系統(tǒng)圖;
圖2是圖示用于以高精度從非結(jié)構(gòu)化文本提取關(guān)系的方法的方面的高層流程圖;
圖3圖示了在數(shù)據(jù)提取操作期間所生成的視圖和模板的方面;
圖4是圖示適于實(shí)踐本發(fā)明的方面的計(jì)算設(shè)備的物理部件的框圖;
圖5a圖示了適于實(shí)踐本發(fā)明的方面的移動(dòng)計(jì)算設(shè)備;
圖5b是圖示適于實(shí)踐本發(fā)明的方面的移動(dòng)計(jì)算設(shè)備的架構(gòu)的框圖;以及
圖6是利用其可以實(shí)踐本發(fā)明的方面的分布式計(jì)算系統(tǒng)的簡(jiǎn)化框圖。
具體實(shí)施方式
下面參考形成本發(fā)明的一部分并且示出本發(fā)明的特定示例性方面的附圖更完全地描述本發(fā)明的方面。然而,本發(fā)明可以以許多不同的形式被實(shí)現(xiàn)并且不應(yīng)當(dāng)被解釋為限于本文所闡述的方面;相反,提供這些方面使得本公開(kāi)將是徹底并且完整的,并且將方面的范圍完全地傳達(dá)給本領(lǐng)域的技術(shù)人員。方面可以被實(shí)踐為方法、系統(tǒng)或者設(shè)備。因此,可以使用硬件、軟件或者硬件和軟件的組合實(shí)踐實(shí)施方式。因此,以下詳細(xì)描述將不以限制性意義理解。
在本文中描述并且在附圖中圖示了關(guān)系提取器的方面和伴隨的方法。關(guān)系提取器將在最小人類介入的情況下使用根據(jù)大型未標(biāo)記的數(shù)據(jù)集建立的統(tǒng)計(jì)實(shí)體類型預(yù)測(cè)和關(guān)系預(yù)測(cè)模型的機(jī)器學(xué)習(xí)方法和基于輕模式的方法交互式地組合,以從非結(jié)構(gòu)化、半結(jié)構(gòu)化和結(jié)構(gòu)化文檔提取關(guān)系。該關(guān)系提取器通過(guò)將針對(duì)來(lái)自現(xiàn)有事實(shí)數(shù)據(jù)庫(kù)的已知實(shí)體的真相與描述已知實(shí)體的文檔中的文本相匹配來(lái)從未標(biāo)記的文檔的集合收集訓(xùn)練數(shù)據(jù),并且建立針對(duì)一個(gè)或多個(gè)關(guān)系類型的對(duì)應(yīng)的模型。對(duì)于建模的關(guān)系類型而言,關(guān)系提取器找到文檔中的感興趣的文本數(shù)據(jù)塊。機(jī)器學(xué)習(xí)分類器預(yù)測(cè)文本數(shù)據(jù)塊之一是正被尋找的實(shí)體的可能性。組合的機(jī)器學(xué)習(xí)方法和基于輕模式的方法通過(guò)過(guò)濾提供經(jīng)改進(jìn)的查全率和高精度并且允許所提取的關(guān)系的約束和歸一化。
圖1是圖示關(guān)系提取器的方面的系統(tǒng)圖。該關(guān)系提取器100包括文檔解析器102、自然語(yǔ)言處理器104和一個(gè)或多個(gè)二元分類器106。該文檔解析器102讀取文檔108的本地格式并且從文檔108提取文本以用于處理。該文檔的內(nèi)容可以是結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)。如本文所使用的,非結(jié)構(gòu)化數(shù)據(jù)寬泛地涵蓋自由文本和半結(jié)構(gòu)化文本(諸如信息框、表和列表)。關(guān)系提取器100可以收集文檔并且將他們存儲(chǔ)為快照以用于處理或者可以收集實(shí)況文檔以用于處理。
文檔108可以被存儲(chǔ)在文檔存儲(chǔ)庫(kù)110中作為文檔集合112的一部分。文檔是包含計(jì)算機(jī)可讀格式的關(guān)系信息的任何電子文件(即,計(jì)算機(jī)可讀文本)。文檔的示例包括但不限于網(wǎng)頁(yè)、文本文件和字處理文件。該文檔可以使用標(biāo)記語(yǔ)言(諸如但不限于超文本標(biāo)記語(yǔ)言(html)或者可擴(kuò)展標(biāo)記語(yǔ)言(xml))被格式化。文檔可以是文檔的靜態(tài)或者動(dòng)態(tài)集合的一部分。文檔集合的示例包括但不限于在線百科全書(例如,維基百科)、新聞資源和文章儲(chǔ)存庫(kù)。針對(duì)html文檔的適合的文檔解析器的一個(gè)示例是但不限于htmlagilitypack。
自然語(yǔ)言處理器104提供用于檢測(cè)參與在文檔中正被搜索的所選擇的關(guān)系類型的所選擇的對(duì)象類型的對(duì)象的提及的邏輯。關(guān)系涵蓋語(yǔ)義地鏈接主題和對(duì)象的主題、對(duì)象和預(yù)測(cè)。關(guān)系類型指代主題與對(duì)象之間的語(yǔ)義鏈接的描述或者分類。該主題可以是實(shí)體,并且對(duì)象可以是實(shí)體或者屬性。
實(shí)體寬泛地涵蓋可以與其他實(shí)體區(qū)分的任何對(duì)象或者事件。為了簡(jiǎn)單起見(jiàn),屬性指代描述實(shí)體的特定特性或者特點(diǎn)(例如,年齡或者出生日期)的值。實(shí)體和屬性可以由對(duì)應(yīng)的類型分類。實(shí)體類型包括但不限于人、組織、位置。屬性類型包括但不限于日期和數(shù)量。例如,tombrokaw是人實(shí)體類型的實(shí)體,nbcnightlynews是組織實(shí)體類型的實(shí)體,newyork是位置實(shí)體類型的實(shí)體,并且電視記者是職業(yè)實(shí)體類型的實(shí)體。如本文所使用的,對(duì)象類型可以指代實(shí)體類型或者屬性類型。提及是對(duì)主題或者對(duì)象(即,實(shí)體或者屬性)的引用。可以通過(guò)由普通名詞或者名詞短語(yǔ)所指示或者通過(guò)代詞所表示的其名稱來(lái)在文本中引用實(shí)體。
自然語(yǔ)言處理器104可以包括以下各項(xiàng)中的一項(xiàng)或多項(xiàng):語(yǔ)法解析器、命名實(shí)體識(shí)別器、詞性標(biāo)記器、鏈接解析器、模式匹配器和用于提及檢測(cè)和特征提取的分詞器。一旦檢測(cè)到提及,自然語(yǔ)言處理器104就提取與提及相關(guān)聯(lián)的特征。所提取的特征可以被編譯為作為輸入被供應(yīng)到二元分類器的特征向量。
對(duì)于自動(dòng)地訓(xùn)練預(yù)測(cè)模型而言,自動(dòng)標(biāo)記器114使用從現(xiàn)有知識(shí)圖116或者其他事實(shí)數(shù)據(jù)庫(kù)收集的已知事實(shí)(即,已知關(guān)系),以將提及特征標(biāo)記為肯定訓(xùn)練示例118(即,匹配對(duì)象類型和已知關(guān)系的值的提及)或者否定訓(xùn)練示例120(即,匹配對(duì)象類型但是不匹配已知關(guān)系的值的提及)來(lái)建立大型數(shù)據(jù)集122。
訓(xùn)練數(shù)據(jù)中的一些或全部被饋送到二元分類器106中以建立一個(gè)或多個(gè)預(yù)測(cè)模型124,其可以包括關(guān)系預(yù)測(cè)模型和實(shí)體預(yù)測(cè)模型。使用自動(dòng)標(biāo)記的訓(xùn)練數(shù)據(jù)建立的預(yù)測(cè)模型124被認(rèn)為是初始預(yù)測(cè)模型。使用初始預(yù)測(cè)模型做出的預(yù)測(cè)經(jīng)由用戶接口128被呈現(xiàn)給用戶126以用于驗(yàn)證。用戶接口128允許通過(guò)各種各樣的輸入和輸出模態(tài)與用戶126交互。用戶126驗(yàn)證使用初始預(yù)測(cè)模型做出的少量的預(yù)測(cè)是正確還是不正確的?;趶挠脩?26接收到的輸入,預(yù)測(cè)模型被重新訓(xùn)練以產(chǎn)生在運(yùn)行時(shí)期間所使用的最終預(yù)測(cè)模型124來(lái)處理所選擇的文檔(包括具有一個(gè)或多個(gè)未知關(guān)系的文檔)。用戶還可以指定被用于建立基于模式的模型130的一個(gè)或多個(gè)規(guī)則以自定義關(guān)系提取。
文檔收集器可以可選地包括頁(yè)面類型分類器132,其分析文檔并且確定針對(duì)每個(gè)文檔的頁(yè)面類型。該頁(yè)面類型可以被用于確定文檔是否描述具有主題類型的主題匹配與正被搜索的關(guān)系類型兼容的主題類型。該頁(yè)面類型分類器可以使用文檔的各種特征來(lái)確定頁(yè)面類型。
文檔收集器可以可選地包括特征散列器134,其用于對(duì)所提取的特征進(jìn)行散列以改進(jìn)關(guān)系提取器的存儲(chǔ)器消耗和處理速度。
關(guān)系提取器100可以被實(shí)現(xiàn)在使用單個(gè)計(jì)算設(shè)備的本地架構(gòu)或者使用一個(gè)或多個(gè)計(jì)算設(shè)備(諸如但不限于與服務(wù)器138通信的客戶端設(shè)備136)的分布式架構(gòu)中。客戶端設(shè)備136和服務(wù)器138可以使用各種計(jì)算設(shè)備被實(shí)現(xiàn),包括但不限于:服務(wù)器或者臺(tái)式計(jì)算機(jī)、膝上型電腦、平板計(jì)算機(jī)、智能電話、智能手表和智能家電。分布式部件可以經(jīng)由網(wǎng)絡(luò)(諸如但不限于局域網(wǎng)、廣域網(wǎng)或因特網(wǎng))進(jìn)行通信。
針對(duì)關(guān)系提取器的兩個(gè)主要成功措施是精度和查全率。精度是表示從由關(guān)系提取器標(biāo)識(shí)的關(guān)系的總數(shù)中正確地標(biāo)識(shí)的關(guān)系的數(shù)目的部分。查全率是表示從在文檔中出現(xiàn)的正確關(guān)系的總數(shù)中正確地標(biāo)識(shí)的關(guān)系的數(shù)目的部分。換句話說(shuō),精度示出了多少不正確的關(guān)系被選擇(假肯定),并且查全率示出了多少正確的關(guān)系被錯(cuò)失(即,假否定)。
如本文所使用的,取決于預(yù)期用途,高精度指代近似地90%或者更大的精度。該關(guān)系提取器能夠?qū)崿F(xiàn)用于在填充事實(shí)數(shù)據(jù)庫(kù)中使用的99%的精度。同時(shí),關(guān)系提取器能夠進(jìn)行高查全率;然而,為了支持精度,可以犧牲查全率。
圖2是圖示用于以高精度從非結(jié)構(gòu)化文本提取關(guān)系的方法的方面的高層流程圖。該方法200包括訓(xùn)練階段200a和運(yùn)行時(shí)階段200b。
快照操作202獲得文檔的快照以用于分析。該快照可以直接地從源被獲得或者從先前獲得的快照重新使用。取得快照降低受歡迎的實(shí)體的數(shù)據(jù)的重復(fù)。由于可以直接地解析原始文檔,因而快照操作202是可選的。
真相收集操作204從現(xiàn)有事實(shí)數(shù)據(jù)庫(kù)、知識(shí)數(shù)據(jù)庫(kù)、知識(shí)圖或者其他實(shí)體關(guān)系數(shù)據(jù)庫(kù)(諸如satori或freebase)收集一個(gè)或多個(gè)已知關(guān)系。真相被用作當(dāng)生成訓(xùn)練數(shù)據(jù)時(shí)自動(dòng)地注釋出現(xiàn)在文檔中的提及的基礎(chǔ)。
頁(yè)面分類操作206確定由文檔所描述的實(shí)體類型,被稱為頁(yè)面類型。頁(yè)面分類允許文檔基于內(nèi)容與正被搜索的關(guān)系類型的相關(guān)性而被評(píng)價(jià)。例如,如果關(guān)系類型是出生日期,則不存在與位置實(shí)體(例如,國(guó)家、山脈或者橋梁)有關(guān)的文檔中搜索日期的值。僅評(píng)價(jià)相關(guān)文檔對(duì)較低的資源利用和較快的搜索時(shí)間有貢獻(xiàn)。此外,僅評(píng)價(jià)相關(guān)頁(yè)面通常改進(jìn)精度,這是因?yàn)槿绻枋鑫恢玫奈臋n未被評(píng)價(jià),則描述位置的文檔中的日期不能不正確地被標(biāo)識(shí)為文檔中的出生日期關(guān)系。頁(yè)面分類操作206是可選的。
頁(yè)面類型分類的方面可以包括基于頁(yè)面類型和參與關(guān)系的主題的實(shí)體或者實(shí)體類型,選擇相關(guān)文檔。在訓(xùn)練階段200a期間,當(dāng)由頁(yè)面所描述的實(shí)體匹配針對(duì)所選擇的真相的主題時(shí),選擇文檔。在運(yùn)行時(shí)階段200b期間,當(dāng)頁(yè)面類型匹配針對(duì)正被搜索的關(guān)系的主題的實(shí)體類型時(shí),可以選擇相關(guān)文檔。
數(shù)據(jù)提取操作208提取文檔的文本(即,內(nèi)容)并且將文本轉(zhuǎn)換為一個(gè)或多個(gè)視圖(即,元素)。例如,可以通過(guò)提取定位在html<text>標(biāo)簽之間的內(nèi)容來(lái)從網(wǎng)頁(yè)解析文本。相關(guān)文檔的文本可以被解析為一個(gè)或多個(gè)視圖,包括但不限于章節(jié)、段落、語(yǔ)句、標(biāo)記化語(yǔ)句、詞性標(biāo)簽、命名實(shí)體識(shí)別跨度、超鏈接跨度、章節(jié)標(biāo)題和文檔題目。視圖可以被轉(zhuǎn)換為模板。
文本可以解析并且轉(zhuǎn)換以創(chuàng)建各種視圖,包括但不限于段落、語(yǔ)句、標(biāo)記化語(yǔ)句、詞性標(biāo)簽、命名實(shí)體識(shí)別跨度、超鏈接跨度和章節(jié)標(biāo)題。當(dāng)計(jì)算特征時(shí),可以使用這些視圖。
提及檢測(cè)操作210定位對(duì)應(yīng)于參與出現(xiàn)在相關(guān)文檔中的關(guān)系的對(duì)象的對(duì)象類型的提及。對(duì)象類型可以是最高級(jí)或者通常對(duì)象類型(例如,人);然而,提及檢測(cè)操作的方面許可對(duì)象類型(例如,女性)中的更多特殊性,這取決于被用于檢測(cè)提及的技術(shù)。檢測(cè)提及的一個(gè)技術(shù)是命名實(shí)體識(shí)別(ner)。使用命名實(shí)體識(shí)別所檢測(cè)的對(duì)象類型對(duì)應(yīng)于有限的一般地接受的對(duì)象類型集,諸如在由語(yǔ)言數(shù)據(jù)聯(lián)盟或者由計(jì)算語(yǔ)言學(xué)協(xié)會(huì)的自然語(yǔ)言學(xué)習(xí)的特殊利益集團(tuán)的自然語(yǔ)言學(xué)習(xí)會(huì)議發(fā)表的自動(dòng)內(nèi)容提取(ace)注釋實(shí)體指南中所識(shí)別的那些對(duì)象類型。更特別地,命名實(shí)體識(shí)別很適于對(duì)象類型(諸如人(per)、組織(org)、位置(loc)和日期(date))的檢測(cè)。
提及通常落在表1中所示的四個(gè)提及類型之一內(nèi)。對(duì)于綜合關(guān)系提取而言,比使用命名實(shí)體識(shí)別可用的需要更多類型的對(duì)象的檢測(cè)。因此,提及檢測(cè)操作210可以采用其他技術(shù),包括但不限于詞典查找、實(shí)體鏈接和模式匹配(例如,使用正則表達(dá)式)。
表1
基于實(shí)體鏈接的提及檢測(cè)將對(duì)文檔中的其他實(shí)體的鏈接的存在用作提及的指示器。在頁(yè)面分類可用的情況下,描述提及的頁(yè)面的實(shí)體類型可以被用于對(duì)提及類型進(jìn)行分類。
詞典存儲(chǔ)與預(yù)測(cè)相關(guān)聯(lián)的對(duì)象名稱集。詞典促進(jìn)通過(guò)將提及值與詞典中的預(yù)測(cè)值匹配檢測(cè)來(lái)自值的閉集的提及??梢酝ㄟ^(guò)指定預(yù)測(cè)名稱和唯一槽類型標(biāo)識(shí)符并且拉下針對(duì)來(lái)自知識(shí)圖的預(yù)測(cè)的已知值來(lái)創(chuàng)建詞典。除了預(yù)測(cè)的典型名稱之外,詞典可以可選地包括針對(duì)預(yù)測(cè)的別名。
模式匹配通過(guò)將提及值與正則表達(dá)式集進(jìn)行比較或者基于規(guī)則來(lái)促進(jìn)標(biāo)量提及的檢測(cè)。例如,正則表達(dá)式可以被用于匹配所選擇的單元中的測(cè)量結(jié)果(諸如距離)。
由于真相值和提及值可以包含不重要的或者非必需的變量,因而提及檢測(cè)操作210可以包含考慮這些變量的方面,諸如但不限于舍入、歸一化、標(biāo)準(zhǔn)化、轉(zhuǎn)換和公差的使用。例如,當(dāng)匹配時(shí),標(biāo)度值可以具有公差或者使用舍入處理精度的差異。對(duì)于可以由于縮略語(yǔ)、縮寫、縮略詞等而變化的匹配值而言,標(biāo)準(zhǔn)化可以被用于展開(kāi)縮略語(yǔ)或者縮略全部字、利用首字母替換字或者利用縮略詞替換名稱。在大小寫敏感性不重要的情況下,值可以被標(biāo)準(zhǔn)化到所選擇的大小寫。在待匹配的值以不同的單位表達(dá)時(shí),一個(gè)或兩個(gè)值可以被轉(zhuǎn)換為相同單位類型。另外,用戶創(chuàng)建的自定義匹配準(zhǔn)則還可以被用于解決表明和歸一化形式的變型。
特征化操作212計(jì)算所檢測(cè)的提及的特征??梢曰谔峒啊峒?即,包含元素)的文檔元素(例如,語(yǔ)句、段落或者章節(jié))或者與提及相關(guān)聯(lián)的視圖,計(jì)算特征。所計(jì)算的特征的示例包括但不限于文檔內(nèi)的提及或者包含元素的位置、章節(jié)標(biāo)題、本地上下文特征(例如,提及的左邊和右邊的字、包含元素的字n元語(yǔ)法、左n元語(yǔ)法、右n元語(yǔ)法)、提及類型、包含元素內(nèi)的提及的位置、包含元素的主題、文檔題目與包含元素之間的重疊、文檔題目與語(yǔ)句的前n字之間的重疊、語(yǔ)句的前n字中的主題代詞的存在、文檔類型和實(shí)體類型。
自動(dòng)訓(xùn)練數(shù)據(jù)生成操作214將每個(gè)提及值與真相值相比較,并且將所計(jì)算的特征添加到被用于訓(xùn)練統(tǒng)計(jì)模型的訓(xùn)練數(shù)據(jù)以用于實(shí)體分類和關(guān)系分類。訓(xùn)練數(shù)據(jù)包括肯定示例集和否定示例集。如果提及值匹配真相值,則所計(jì)算的特征被添加為肯定示例。相反地,如果提及值不匹配真相值,則所計(jì)算的特征被添加為否定示例。
特征散列操作216將唯一標(biāo)識(shí)符與每個(gè)唯一計(jì)算出的特征相關(guān)聯(lián)并且為相同特征提供特征壓縮。唯一標(biāo)識(shí)符可以是具有附加到其的隨機(jī)值的特征名稱的散列。當(dāng)處理大型數(shù)據(jù)集時(shí),特征散列顯著地改進(jìn)存儲(chǔ)器使用和處理(諸如可以使用關(guān)系提取器被生成)。該特征散列操作216是可選的。
針對(duì)對(duì)應(yīng)的文檔,選擇并且測(cè)試足夠數(shù)目的現(xiàn)有事實(shí)關(guān)系以計(jì)算大量的自動(dòng)標(biāo)記的訓(xùn)練數(shù)據(jù)示例(肯定和否定二者)。大量的訓(xùn)練數(shù)據(jù)示例可以被指定為最小數(shù)目(例如,近似地5000、近似地7500、近似地10000、近似地25000或者近似地50000)的總計(jì)示例、肯定示例和/或否定示例。對(duì)于肯定示例和否定示例的最小數(shù)目可以不同或者僅針對(duì)示例的一種類型被約束。例如,假定描述人的典型文檔包括數(shù)個(gè)日期值,其當(dāng)測(cè)試出生日期關(guān)系時(shí),與平均五個(gè)否定示例相比較,僅產(chǎn)生一個(gè)肯定示例。對(duì)于不同的類型的關(guān)系而言,肯定示例和否定示例的數(shù)目可以是更平衡的。大量的訓(xùn)練數(shù)據(jù)示例還可以被指定為待使用在訓(xùn)練中的最小數(shù)目的現(xiàn)有事實(shí)。
模型建立操作218將訓(xùn)練數(shù)據(jù)的一部分饋送到二元分類器中以建立用于預(yù)測(cè)實(shí)體(即,頁(yè)面)類型和關(guān)系滿意度的初始統(tǒng)計(jì)模型。訓(xùn)練數(shù)據(jù)的剩余部分被預(yù)留用于作為結(jié)果的模型。可選地,所有訓(xùn)練數(shù)據(jù)可以被用于建立實(shí)體預(yù)測(cè)和關(guān)系預(yù)測(cè)模型和被用于評(píng)價(jià)模型的其他數(shù)據(jù)。模型建立操作218可以利用數(shù)據(jù)預(yù)處理(諸如根據(jù)實(shí)例歸一化和模型權(quán)重正則化)。根據(jù)實(shí)例歸一化(諸如l2球歸一化),改進(jìn)查全率。模型權(quán)重正則化(諸如l2正則化)被用于避免過(guò)度擬合訓(xùn)練數(shù)據(jù)。除上文所提到的那些技術(shù)之外的歸一化和正則化技術(shù)可以被用于改進(jìn)查全率并且避免過(guò)度擬合訓(xùn)練數(shù)據(jù)。具有高偏置的簡(jiǎn)單線性模型或模型可以被用于過(guò)度擬合訓(xùn)練數(shù)據(jù)。
一旦初始統(tǒng)計(jì)模型被建立,模型評(píng)價(jià)操作220就對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行校正并且基于來(lái)自用戶的輸入來(lái)調(diào)節(jié)針對(duì)適當(dāng)模型的閾值。模型評(píng)價(jià)操作220包括將預(yù)測(cè)模型應(yīng)用到測(cè)試數(shù)據(jù)。預(yù)測(cè)模型基于被提供到模型的特征向量的統(tǒng)計(jì)分析,計(jì)算提及滿足關(guān)系的置信度值(即,概率)。在訓(xùn)練階段200a期間,置信度值被用于使訓(xùn)練過(guò)程偏置。在運(yùn)行時(shí)階段200b期間,分類基于置信度值與閾值的比較,其可以被設(shè)定但不限于默認(rèn)值或者根據(jù)訓(xùn)練和/或測(cè)試結(jié)果所估計(jì)的值。
預(yù)測(cè)的子集被選擇并且被呈現(xiàn)給用戶(例如,開(kāi)發(fā)者、注釋者或者評(píng)價(jià)者)以用于驗(yàn)證。該子集表示由關(guān)系提取器做出的預(yù)測(cè)的數(shù)目的小數(shù)目、肯定示例的數(shù)目、否定示例的數(shù)目或者訓(xùn)練數(shù)據(jù)示例的總數(shù)目。該子集可以被選擇為總計(jì)預(yù)測(cè)的小百分比(例如,不超過(guò)近似10%、5%、3%、2.5%、2%或1%)或者固定數(shù)目(例如,不超過(guò)近似500、250、200、175、150、125、100、75或50)的預(yù)測(cè)。預(yù)測(cè)可以連同源文檔經(jīng)由用戶接口被顯示,以用于由用戶評(píng)價(jià)。用戶可以例如利用是/否答案對(duì)由關(guān)系提取器所生成的確認(rèn)問(wèn)題作出響應(yīng)。確認(rèn)問(wèn)題可以讓用戶判斷由文檔(即,主題)所描述的實(shí)體是否屬于由關(guān)系提取器使用初始預(yù)測(cè)模型所分配的實(shí)體分類。例如,當(dāng)顯示針對(duì)實(shí)體蝙蝠俠的維基百科頁(yè)面時(shí),用戶可能被詢問(wèn)實(shí)體是否適當(dāng)?shù)乇环诸悶樘摌?gòu)宇宙中的人物,其是“人”的更寬的實(shí)體類型的子類型。用戶的響應(yīng)用于標(biāo)記評(píng)價(jià)的預(yù)測(cè)。訓(xùn)練數(shù)據(jù)利用用戶標(biāo)記的預(yù)測(cè)進(jìn)行更新。
子集中的項(xiàng)的數(shù)目是提供足夠的信息以準(zhǔn)確地測(cè)量初始模型的精度所選擇的小數(shù)目。通過(guò)對(duì)每所提取的關(guān)系類型的少量的分類進(jìn)行采樣,用戶參與被最小化??梢允褂媒频?0個(gè)預(yù)測(cè)那么少有效地評(píng)價(jià)該訓(xùn)練模型,并且很少要求超過(guò)近似地200個(gè)預(yù)測(cè)以實(shí)現(xiàn)關(guān)于模型的期望的精度水平。
自定義操作222可以允許用戶定義實(shí)現(xiàn)用于過(guò)濾、歸一化和約束全部文檔上的所提取的關(guān)系的一個(gè)或多個(gè)模式或規(guī)則的基于模式的模型。過(guò)濾器或約束可以被用于限制從針對(duì)給定關(guān)系類型的文檔所選擇的關(guān)系的數(shù)目。在沒(méi)有約束或過(guò)濾器的情況下,選擇其中置信度滿足閾值的所有關(guān)系。對(duì)于一些關(guān)系而言,這是期望的。例如,如果主題類型是國(guó)會(huì)議員并且對(duì)象類型是成員關(guān)系中的人,則可以存在作為具有高置信度水平的文檔中所提到的國(guó)會(huì)議員的成員的多個(gè)人。然而,如果對(duì)象類型是女性,則過(guò)濾器或約束可以被用于限制具有高置信度水平的文檔中所提到的國(guó)會(huì)議員的人成員的提及。
在另一示例中,可以添加指定人不能專業(yè)地進(jìn)行超過(guò)兩個(gè)運(yùn)動(dòng)或必須具有超過(guò)一個(gè)成員的樂(lè)隊(duì)的約束。過(guò)濾器可以基于從其獲得信息的文檔的章節(jié),動(dòng)態(tài)地指定或者修改選擇閾值。例如,可以使用較低的閾值(即,給定較大的置信度)接受題為“個(gè)人生活”的文檔的章節(jié)中所找到的出生日期或者結(jié)婚日期,同時(shí)來(lái)自題為“備忘錄”的章節(jié)的出生日期或者結(jié)婚日期可以要求針對(duì)接受的較高的閾值。類似地,通過(guò)示例,如果在“個(gè)人生活”章節(jié)中找到出生日期,則針對(duì)來(lái)自文檔的其他章節(jié)的出生日期的接受的閾值可以被提高。歸一化可以包括將值轉(zhuǎn)換為由其中所提取的關(guān)系將被存儲(chǔ)的目標(biāo)知識(shí)圖使用的單位或格式(例如,日期或者當(dāng)前格式)的所選擇的系統(tǒng)。這樣的自定義通常導(dǎo)致關(guān)系提取器的查全率的增加。
重新訓(xùn)練操作224使用基于來(lái)自用戶的輸入更新的完全訓(xùn)練數(shù)據(jù)集來(lái)重新訓(xùn)練預(yù)測(cè)模型并且響應(yīng)于來(lái)自用戶的輸入調(diào)節(jié)閾值。可以在重新訓(xùn)練期間調(diào)節(jié)所估計(jì)的閾值。
方法200允許大型訓(xùn)練數(shù)據(jù)集被收集并且以短時(shí)間量和小成本自動(dòng)地注釋。典型地,收集訓(xùn)練數(shù)據(jù),并且具有必需高精度和通常高查全率的模型可以在幾小時(shí)內(nèi)被訓(xùn)練、評(píng)價(jià)和自定義。
跟隨訓(xùn)練階段200a,方法200可以繼續(xù)其中先前地所生成的模型被用于處理文檔的運(yùn)行時(shí)階段200b。與訓(xùn)練階段相反,在運(yùn)行時(shí)期間所處理的文檔不限于描述已知主題的文檔。由在運(yùn)行時(shí)期間所處理的文檔可以是先前尚未處理的新文檔,或者是使用新的或更新的模型正重新處理以提取新的或更新的關(guān)系的現(xiàn)有文檔。
運(yùn)行時(shí)階段200重復(fù)來(lái)自訓(xùn)練階段200a的一些操作,諸如快照生成操作202、頁(yè)面分類操作206、數(shù)據(jù)提取操作208、提及檢測(cè)操作210和特征散列操作216。通常,因?yàn)槌苏幚淼奈臋n之外(即,范圍中的差異),在運(yùn)行時(shí)階段200b與訓(xùn)練階段200a中的重復(fù)的操作之間不存在差異。
關(guān)系提取操作226通過(guò)將在模型建立操作218中先前生成的先前生成模型應(yīng)用到由運(yùn)行時(shí)特征化操作212所產(chǎn)生的特征向量來(lái)提取關(guān)系。后處理操作228將在自定義操作222中先前地所生成的閾值和基于自定義模式的模型(如果有的話)應(yīng)用到文檔以產(chǎn)生最后的所提取的關(guān)系集。關(guān)系存儲(chǔ)230操作將最終的所提取的關(guān)系集提交給已知圖形或者其他儲(chǔ)存庫(kù)以改進(jìn)區(qū)域中的知識(shí)圖,諸如但不限于完整性、數(shù)量、質(zhì)量(即,準(zhǔn)確度)和/或被存儲(chǔ)在知識(shí)圖中的信息的新近度(即,更新性)。
圖3圖示了在數(shù)據(jù)提取操作期間所生成的視圖和模板的方面。表的頂行示出從文檔所解析的文本的章節(jié)所提取的原始語(yǔ)句。
第二行示出從原始語(yǔ)句所解析的標(biāo)記化語(yǔ)句。標(biāo)記的分隔符通常是標(biāo)點(diǎn)符號(hào)和空格字符。標(biāo)記由非定界符字符的每個(gè)鄰近字符串形成。每個(gè)單個(gè)非空格定界符(例如,標(biāo)點(diǎn)符號(hào))字符也形成標(biāo)記。
第三行示出對(duì)應(yīng)于標(biāo)記的詞性標(biāo)簽。標(biāo)簽nn表示單數(shù)或者不可數(shù)名詞,fw表示外來(lái)詞,vbn表示過(guò)去分詞動(dòng)詞,cd表示基數(shù)詞,vbz表示第三人稱單數(shù)現(xiàn)在進(jìn)行時(shí)動(dòng)詞,vbg表示動(dòng)名詞或者過(guò)去分詞動(dòng)詞、dt表示限定詞,jj表示形容詞,rbs表示最高級(jí)副詞、in表示介詞,to表示不定式“to”,并且cc表示并列連詞。
第四行示出命名實(shí)體識(shí)別跨度和相關(guān)聯(lián)的實(shí)體標(biāo)簽。前六個(gè)標(biāo)記(“thomas”+“john”+“\"”+“tom”+“\"”+“brokaw”)形成對(duì)應(yīng)于人的一個(gè)命名實(shí)體跨度。第9到第12個(gè)標(biāo)記(“february”+“6”+“1940”)、第34個(gè)標(biāo)記(“1982”)和第36個(gè)標(biāo)記(“2004”)形成對(duì)應(yīng)于日期(即,屬性)的附加的命名實(shí)體跨度。第30到第32個(gè)標(biāo)記(“nbc”+“nightly”+“news”)形成對(duì)應(yīng)于組織(即,實(shí)體)的另一命名實(shí)體跨度。
第五行示出鏈路跨度、相關(guān)聯(lián)的實(shí)體標(biāo)簽以及相關(guān)聯(lián)的url。第30到第32個(gè)標(biāo)記形成對(duì)應(yīng)于具有重定向到鏈接的html文檔的組織的鏈路跨度。
第六行示出了使用命名實(shí)體從標(biāo)記化語(yǔ)句的變換所生成的模板。前六個(gè)標(biāo)記利用表示人實(shí)體對(duì)象的實(shí)體標(biāo)簽替換。第9到第12、第34和第36個(gè)標(biāo)記利用表示日期的屬性標(biāo)簽替換。第30到第32個(gè)標(biāo)記利用表示組織實(shí)體對(duì)象的實(shí)體標(biāo)簽替換。
如果該實(shí)例被匹配到出生日期關(guān)系的訓(xùn)練期間的事實(shí),則日期對(duì)象將是參與出生日期關(guān)系的候選;然而,僅日期1940年2月6日匹配從現(xiàn)有知識(shí)圖所獲得的tombrokaw的出生日期的已知事實(shí)。因此,使用1940年2月6日構(gòu)建的特征將被添加為肯定訓(xùn)練示例,同時(shí)根據(jù)日期1982和2004構(gòu)建的特征將被用作否定訓(xùn)練示例。例如,使用導(dǎo)出模板構(gòu)建的字二元語(yǔ)法“borndate”將是肯定訓(xùn)練示例,同時(shí)使用導(dǎo)出模板構(gòu)建的字二元語(yǔ)法“fromdate”和“todate”將是否定訓(xùn)練示例。
相反,如果描述tombrokaw的文檔將被分析以在運(yùn)行時(shí)分析期間找到出生日期,則統(tǒng)計(jì)模型將分配短語(yǔ)“bornfebruary6,1940”對(duì)應(yīng)于滿足出生日期關(guān)系的日期的高概率/置信度和短語(yǔ)“from1982”和“to2004”的較低的概率。
本發(fā)明的方面可以被實(shí)踐為系統(tǒng)、設(shè)備和其他制造品或者使用硬件、軟件、計(jì)算機(jī)可讀介質(zhì)或者它們的組合的方法。以下討論和相關(guān)聯(lián)的附圖描述所選擇的系統(tǒng)架構(gòu)和計(jì)算設(shè)備表示可以被用于實(shí)踐本文所描述的本發(fā)明的方面并且不應(yīng)當(dāng)被用于以任何方式限制本發(fā)明的范圍的大量的系統(tǒng)架構(gòu)和計(jì)算設(shè)備。
可以經(jīng)由機(jī)載計(jì)算設(shè)備顯示器或者經(jīng)由與一個(gè)或多個(gè)計(jì)算設(shè)備相關(guān)聯(lián)的遠(yuǎn)程顯示單元來(lái)顯示各種類型的用戶接口和信息。例如,各種類型的用戶接口和信息可以被顯示在各種類型的用戶接口和信息被投影到其上的墻面上并且與其交互。與可以實(shí)踐本發(fā)明所利用的許多計(jì)算設(shè)備的交互可以通過(guò)但不限于擊鍵輸入、觸摸屏輸入、語(yǔ)音或者其他音頻輸入、其中相關(guān)聯(lián)的計(jì)算設(shè)備裝備有用于收集和解譯用于控制計(jì)算設(shè)備的功能的用戶手勢(shì)的檢測(cè)(例如,照相機(jī))功能性的手勢(shì)輸入等而被完成。
圖4是圖示可以實(shí)踐本發(fā)明的方面利用的計(jì)算設(shè)備的架構(gòu)的框圖。計(jì)算設(shè)備400適于實(shí)現(xiàn)被實(shí)施在各種各樣的計(jì)算機(jī)和可編程消費(fèi)者電子設(shè)備中的本發(fā)明的方面,包括但不限于大型計(jì)算機(jī)、小型計(jì)算機(jī)、服務(wù)器、個(gè)人計(jì)算機(jī)(例如,臺(tái)式和膝上型計(jì)算機(jī))、平板計(jì)算機(jī)、上網(wǎng)本、智能電話、智能手表、視頻游戲系統(tǒng)和智能電視和智能消費(fèi)者電子設(shè)備。
在由虛線408所指示的基本配置中,計(jì)算設(shè)備400可以包括至少一個(gè)處理單元402和系統(tǒng)存儲(chǔ)器404。取決于計(jì)算設(shè)備的配置和類型,系統(tǒng)存儲(chǔ)器404可以包括但不限于易失性存儲(chǔ)(例如,隨機(jī)存取存儲(chǔ)器)、非易失性存儲(chǔ)(例如,只讀存儲(chǔ)器)、閃速存儲(chǔ)器或者這樣的存儲(chǔ)器的任何組合。該系統(tǒng)存儲(chǔ)器404可以包括適于控制計(jì)算設(shè)備400的操作的操作系統(tǒng)405和適于運(yùn)行軟件應(yīng)用420(包括實(shí)現(xiàn)本文中所描述的本發(fā)明的軟件)的一個(gè)或多個(gè)程序模塊406。
當(dāng)在處理單元402上執(zhí)行時(shí),軟件應(yīng)用420可以執(zhí)行過(guò)程,包括但不限于方法200的階段中的一個(gè)或多個(gè)。根據(jù)本發(fā)明的示例可以使用的其他程序模塊可以包括電子郵件和聯(lián)系人應(yīng)用、字處理應(yīng)用、電子數(shù)據(jù)表應(yīng)用、數(shù)據(jù)庫(kù)應(yīng)用、幻燈片演示應(yīng)用或者計(jì)算機(jī)輔助繪圖應(yīng)用等。
除基本配置之外,計(jì)算設(shè)備400可以具有附加的特征或者功能。例如,計(jì)算設(shè)備400還可以包括附加的數(shù)據(jù)存儲(chǔ)裝置(可移除和/或不可移除的)(諸如例如磁盤、光盤或者磁帶)。通過(guò)可移除的存儲(chǔ)裝置409和不可移除的存儲(chǔ)裝置410圖示這樣的附加存儲(chǔ)裝置。
計(jì)算設(shè)備400還可以具有一個(gè)或多個(gè)輸入設(shè)備412(諸如鍵盤、鼠標(biāo)、筆、聲音輸入設(shè)備、觸摸輸入設(shè)備等)。還可以包括(一個(gè)或多個(gè))輸出設(shè)備414(諸如顯示器、揚(yáng)聲器、打印機(jī)等)。前述設(shè)備是示例并且可以使用其他示例。計(jì)算設(shè)備400可以包括允許與其他計(jì)算設(shè)備418通信的一個(gè)或多個(gè)通信連接416。適合的通信連接416的示例包括但不限于rf發(fā)射器、接收器和/或收發(fā)器電路、通用串行總線(usb)、并行和/或串行端口。
如在此所使用的術(shù)語(yǔ)計(jì)算機(jī)可讀介質(zhì)可以包括計(jì)算機(jī)存儲(chǔ)介質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì)可以包括以用于信息(諸如計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)或者程序模塊)的存儲(chǔ)的任何方法或者技術(shù)中實(shí)現(xiàn)的易失性和非易失性、可移除和不可移除的介質(zhì)。系統(tǒng)存儲(chǔ)器404、可移除的存儲(chǔ)裝置409和不可移除的存儲(chǔ)裝置410全部是計(jì)算機(jī)存儲(chǔ)介質(zhì)示例(即,存儲(chǔ)器存儲(chǔ))的示例。計(jì)算機(jī)存儲(chǔ)介質(zhì)可以包括隨機(jī)存取存儲(chǔ)器(ram)、只讀存儲(chǔ)器(rom)、電可擦只讀存儲(chǔ)器(eeprom)、閃速存儲(chǔ)器或者其他存儲(chǔ)器技術(shù)、壓縮光盤只讀存儲(chǔ)器(cd-rom)、數(shù)字多用光盤(dvd)或者其他光學(xué)存儲(chǔ)、磁帶盒、磁帶、磁盤存儲(chǔ)或者其他磁性存儲(chǔ)設(shè)備或者可以被用于存儲(chǔ)信息并且可以由計(jì)算設(shè)備400訪問(wèn)的任何其他制造品。任何這樣的計(jì)算機(jī)存儲(chǔ)介質(zhì)可以是計(jì)算設(shè)備400的一部分。
此外,本發(fā)明的示例可以實(shí)踐在包括分離的電子元件的電路、包含邏輯門的封裝或者集成電子芯片、利用微處理器的電路中、或者包含電子元件或微處理器的單個(gè)芯片上。例如,本發(fā)明的方面可以經(jīng)由片上系統(tǒng)(soc)被實(shí)踐,其中所圖示的部件中的每個(gè)或許多部件可以被集成到單個(gè)集成電路上。這樣的soc設(shè)備可以包括一個(gè)或多個(gè)處理單元、圖形單元、通信單元、系統(tǒng)虛擬化單元和全部被集成(或者“被燒制”)到芯片襯底上作為單個(gè)集成電路的各種應(yīng)用功能。當(dāng)經(jīng)由soc操作時(shí),關(guān)于軟件應(yīng)用420在此所描述的功能可以經(jīng)由單個(gè)集成電路(芯片)上的計(jì)算設(shè)備400的其他部件集成的專用邏輯被操作。本發(fā)明的方面還可以使用能夠執(zhí)行邏輯操作(諸如例如and、or和not)的其他技術(shù)實(shí)踐,包括但不限于機(jī)械、光學(xué)、流體和量子技術(shù)。另外,本發(fā)明的方面可以實(shí)踐在通用計(jì)算機(jī)內(nèi)或者在任何其他電路或系統(tǒng)中。
圖5a圖示了適于實(shí)踐本發(fā)明的方面的移動(dòng)計(jì)算設(shè)備500。適合的移動(dòng)計(jì)算設(shè)備的示例包括但不限于移動(dòng)電話、智能電話、平板計(jì)算機(jī)、平面計(jì)算機(jī)和膝上型計(jì)算機(jī)。在基本配置中,移動(dòng)計(jì)算設(shè)備500是具有輸入元件和輸出元件二者的手持式計(jì)算機(jī)。移動(dòng)計(jì)算設(shè)備500通常包括顯示器505和一個(gè)或多個(gè)輸入按鈕510,其允許用戶將信息輸入到移動(dòng)計(jì)算設(shè)備500中。移動(dòng)計(jì)算設(shè)備500的顯示器505還可以用作輸入設(shè)備(例如,觸摸屏顯示器)。如果被包括,可選側(cè)面輸入元件515允許進(jìn)一步的用戶輸入。側(cè)面輸入元件515可以是旋轉(zhuǎn)開(kāi)關(guān)、按鈕或者任何其他類型的手動(dòng)輸入元件。移動(dòng)計(jì)算設(shè)備500可以包含更多或更少的輸入元件。例如,顯示器505不需要是觸摸屏。移動(dòng)計(jì)算設(shè)備500還可以包括可選的小鍵盤535??蛇x的小鍵盤535可以是物理小鍵盤或觸摸屏顯示器上生成的“軟”鍵盤。輸出元件包括用于示出圖形用戶接口的顯示器505、視覺(jué)指示器520(例如,發(fā)光二極管)和/或音頻換能器525(例如,揚(yáng)聲器)。該移動(dòng)計(jì)算設(shè)備500可以包含用于向用戶提供觸覺(jué)反饋的振動(dòng)換能器。移動(dòng)計(jì)算設(shè)備500可以包含輸入和/或輸出端口(諸如音頻輸入(例如,麥克風(fēng)插孔))、音頻輸出(例如,頭戴式耳機(jī)插孔)和用于將信號(hào)發(fā)送到外部設(shè)備或從外部設(shè)備接收信號(hào)的視頻輸出(例如,hdmi端口)。
圖5b是圖示可以實(shí)踐本發(fā)明的方面利用的移動(dòng)計(jì)算設(shè)備的架構(gòu)的框圖。作為示例,移動(dòng)計(jì)算設(shè)備500可以被實(shí)現(xiàn)在系統(tǒng)502,諸如能夠運(yùn)行一個(gè)或多個(gè)應(yīng)用(例如,瀏覽器、電子郵件客戶端、備忘錄、聯(lián)系人管理器、消息客戶端、游戲和媒體客戶端/播放器)的智能電話中。
一個(gè)或多個(gè)應(yīng)用程序565可以被加載到存儲(chǔ)器562中并且在操作系統(tǒng)564上運(yùn)行或者與操作系統(tǒng)564相關(guān)聯(lián)。應(yīng)用程序的示例包括電話撥號(hào)器程序、電子郵件程序、個(gè)人信息管理(pim)程序、字處理程序、電子數(shù)據(jù)表程序、因特網(wǎng)瀏覽器程序、消息程序等。系統(tǒng)502還包括存儲(chǔ)器562內(nèi)的非易失性存儲(chǔ)區(qū)域568。非易失性存儲(chǔ)區(qū)域568可以被用于存儲(chǔ)在系統(tǒng)502斷電的情況下不應(yīng)當(dāng)丟失的持久信息。應(yīng)用程序565可以使用和存儲(chǔ)非易失性存儲(chǔ)區(qū)域568中的信息(諸如電子郵件或由電子郵件應(yīng)用使用的其他消息等)。同步應(yīng)用(未示出)還駐留在系統(tǒng)502上并且被編程為與駐留在主機(jī)計(jì)算機(jī)上的對(duì)應(yīng)的同步應(yīng)用相互作用,以保持存儲(chǔ)在非易失性存儲(chǔ)區(qū)域568中的信息與存儲(chǔ)在主機(jī)計(jì)算機(jī)處的對(duì)應(yīng)的信息同步。如應(yīng)當(dāng)理解,其他應(yīng)用可以被加載到存儲(chǔ)器562中并且被運(yùn)行在移動(dòng)計(jì)算設(shè)備500(包括實(shí)現(xiàn)本文所描述的本發(fā)明的方面的軟件)。
系統(tǒng)502具有電源770,其可以被實(shí)現(xiàn)為一個(gè)或多個(gè)電池。電源570可能還包括外部電源(諸如對(duì)電池補(bǔ)充或者再充電的加電對(duì)接支架)。
系統(tǒng)502還可以包括無(wú)線電572,其執(zhí)行發(fā)射和接收射頻通信的功能。無(wú)線電572經(jīng)由通信載波或者服務(wù)提供商促進(jìn)系統(tǒng)502與外部世界之間的無(wú)線連接。在操作系統(tǒng)564的控制下,進(jìn)行到無(wú)線電572的傳輸和從無(wú)線電572的傳輸。換句話說(shuō),由無(wú)線電572接收的通信可以經(jīng)由操作系統(tǒng)564被傳播到應(yīng)用程序565,并且反之亦然。
視覺(jué)指示器520可以被用于提供視覺(jué)通知,和/或音頻接口574可以被用于經(jīng)由音頻換能器525產(chǎn)生可聽(tīng)通知。如所示出的,視覺(jué)指示器520可以是發(fā)光二極管(led)。這些設(shè)備可以直接耦合到電源570,使得當(dāng)被激活時(shí),即使處理器560和其他部件可能關(guān)閉以用于保存電池電量,其也保持由通知機(jī)制指示的持續(xù)時(shí)間。led可以被編程以保持無(wú)限期直到用戶采取動(dòng)作指示設(shè)備的加電狀態(tài)。音頻接口574被用于將可聽(tīng)信號(hào)提供給用戶和從用戶接收可聽(tīng)信號(hào)。例如,除了被耦合到音頻換能器525之外,音頻接口574還可以被耦合到麥克風(fēng)以接收可聽(tīng)輸入(諸如促進(jìn)電話交談)。麥克風(fēng)還可以用作促進(jìn)通知的控制的音頻傳感器,如下文將描述的。系統(tǒng)502可以還包括視頻接口576,其使得板上照相機(jī)530的操作能夠記錄靜止圖像、視頻流等。
實(shí)現(xiàn)系統(tǒng)502的移動(dòng)計(jì)算設(shè)備500可以具有附加的特征或功能。例如,移動(dòng)計(jì)算設(shè)備500還可以包括附加的數(shù)據(jù)存儲(chǔ)裝置(可移除和/或不可移除的),諸如磁盤、光盤或者磁帶。通過(guò)非易失性存儲(chǔ)區(qū)域568圖示這樣的附加存儲(chǔ)裝置。外圍設(shè)備端口540允許外部設(shè)備被連接到移動(dòng)計(jì)算設(shè)備500。外部設(shè)備可以向移動(dòng)計(jì)算設(shè)備500提供附加特征或者功能和/或允許數(shù)據(jù)被傳遞到移動(dòng)計(jì)算設(shè)備500或者從移動(dòng)計(jì)算設(shè)備500被傳遞。
由移動(dòng)計(jì)算設(shè)備500生成或者收集并且經(jīng)由系統(tǒng)502所存儲(chǔ)的數(shù)據(jù)/信息本地存儲(chǔ)在移動(dòng)計(jì)算設(shè)備500上,如上文所描述的,或者數(shù)據(jù)可以被存儲(chǔ)在經(jīng)由無(wú)線電572或者經(jīng)由移動(dòng)計(jì)算設(shè)備500與關(guān)聯(lián)于移動(dòng)計(jì)算設(shè)備500(例如,分布式計(jì)算網(wǎng)絡(luò)(諸如因特網(wǎng))中的服務(wù)器計(jì)算機(jī))的分離的計(jì)算設(shè)備之間的有線連接可以由設(shè)備訪問(wèn)的任何數(shù)目的存儲(chǔ)介質(zhì)。如應(yīng)當(dāng)理解,可以經(jīng)由移動(dòng)計(jì)算設(shè)備500或者無(wú)線電572或者經(jīng)由分布式計(jì)算網(wǎng)絡(luò)訪問(wèn)這樣的數(shù)據(jù)/信息。類似地,根據(jù)眾所周知的數(shù)據(jù)/信息傳送和存儲(chǔ)裝置(包括電子郵件和協(xié)作數(shù)據(jù)/信息共享系統(tǒng)),這樣的數(shù)據(jù)/信息可以在計(jì)算設(shè)備之間容易地傳送以用于存儲(chǔ)和使用。
圖6是用于實(shí)踐本發(fā)明的方面的分布式計(jì)算系統(tǒng)的簡(jiǎn)化框圖。與軟件應(yīng)用(包括實(shí)現(xiàn)本文所描述的本發(fā)明的方面的軟件)相關(guān)聯(lián)開(kāi)發(fā)、交互或者編輯的內(nèi)容可以被存儲(chǔ)在不同的通信信道或者其他存儲(chǔ)裝置類型中。例如,可以使用目錄服務(wù)622、web門戶624、郵箱服務(wù)626、即時(shí)消息存儲(chǔ)628或社交網(wǎng)絡(luò)站點(diǎn)630存儲(chǔ)各種文檔。軟件應(yīng)用可以使用用于使能數(shù)據(jù)利用的這些類型的系統(tǒng)等中的任一個(gè),如本文所描述的。服務(wù)器620可以向客戶端提供軟件應(yīng)用。作為一個(gè)示例,服務(wù)器620可以是提供網(wǎng)絡(luò)上的軟件應(yīng)用的網(wǎng)絡(luò)服務(wù)器。服務(wù)器620可以通過(guò)網(wǎng)絡(luò)615向客戶端提供網(wǎng)絡(luò)上的軟件應(yīng)用。通過(guò)示例,客戶端設(shè)備可以被實(shí)現(xiàn)為計(jì)算設(shè)備400并且被實(shí)現(xiàn)在個(gè)人計(jì)算機(jī)618a、平板計(jì)算機(jī)618b和/或移動(dòng)計(jì)算設(shè)備(例如,智能電話)618c中。這些客戶端設(shè)備中的任一個(gè)可以從存儲(chǔ)616獲得內(nèi)容。
本申請(qǐng)中所提供的一個(gè)或多個(gè)實(shí)施例的描述和圖示旨在向本領(lǐng)域的技術(shù)人員提供主題的全部范圍的完全徹底并且完整的公開(kāi)內(nèi)容,并且不旨在以任何方式限制或者約束如所要求保護(hù)的本發(fā)明的范圍。本申請(qǐng)中所提供的方面、實(shí)施例、示例和細(xì)節(jié)被認(rèn)為足以傳達(dá)所有權(quán)并且使得本領(lǐng)域的技術(shù)人員能夠?qū)嵺`所要求的本發(fā)明的最佳模式。被認(rèn)為是對(duì)于本領(lǐng)域的技術(shù)人員眾所周知的結(jié)構(gòu)、資源、操作和動(dòng)作的描述可以簡(jiǎn)要或者被省略以避免模糊本申請(qǐng)的主題的較少的已知或者獨(dú)特方面。除非本文明確說(shuō)明,否則所要求保護(hù)的本發(fā)明不應(yīng)當(dāng)被解釋為限于本申請(qǐng)中所提供的任何實(shí)施例、示例或者細(xì)節(jié)。不管是否共同地或分離地示出或描述,各種特征(結(jié)構(gòu)的和方法的二者)旨在選擇性地包括或者省略以產(chǎn)生具有特定特征集的實(shí)施例。進(jìn)一步地,可以以任何順序或者并發(fā)地執(zhí)行所示或所描述的功能和行為的任何或全部。已經(jīng)提供本申請(qǐng)的描述和圖示,本領(lǐng)域的技術(shù)人員可以想到落在被實(shí)現(xiàn)在不脫離的所要求的本發(fā)明的較寬的范圍的本申請(qǐng)中的一般發(fā)明構(gòu)思的較寬的方面的精神內(nèi)的變型、修改和替換。