專利名稱:從非結(jié)構(gòu)化文本提取和顯現(xiàn)圖表結(jié)構(gòu)化關(guān)系的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)處理,更特別地,涉及一種用于從非結(jié)構(gòu)化文本 自動(dòng)提取和顯現(xiàn)表示出關(guān)系的圖表結(jié)構(gòu)化數(shù)據(jù)的方法、系統(tǒng)和計(jì)算 機(jī)程序。
背景技術(shù):
技術(shù)領(lǐng)域
結(jié)構(gòu)化信息可以定義為其預(yù)期意義以數(shù)據(jù)的結(jié)構(gòu)或格式明顯地 表示的信息。結(jié)構(gòu)化信息的典型例子是關(guān)系數(shù)據(jù)庫(kù)。非結(jié)構(gòu)化信息 可以表征為其意義需要解釋以接近和提取預(yù)期意義的信息。例子包 括自然語(yǔ)言文檔、語(yǔ)音、音頻、圖像和視頻。換言之,非結(jié)構(gòu)化數(shù) 據(jù)是無(wú)組織地駐留于數(shù)據(jù)庫(kù)外部的任何數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)可以是 文本、音頻、視頻或圖形。
非結(jié)構(gòu)化信息代表可用于商界或政府的最大、最流行和最快發(fā)展 的信息源。在一些估計(jì)中,非結(jié)構(gòu)化數(shù)據(jù)代表所有共同信息中的
80%。在這些大量數(shù)據(jù)中的高價(jià)值信息是難以發(fā)現(xiàn)的。非結(jié)構(gòu)化信息 不是適于搜索技術(shù)的格式。在非結(jié)構(gòu)化源中搜索信息是不實(shí)際的。 首先,必須分析數(shù)據(jù)以檢測(cè)和定位所關(guān)心的項(xiàng)。然后必須將結(jié)果結(jié) 構(gòu)化為使得強(qiáng)大的搜索引擎和數(shù)據(jù)庫(kù)引擎可以在內(nèi)容被請(qǐng)求時(shí)有效 地找到所請(qǐng)求的內(nèi)容。從非結(jié)構(gòu)化世界到結(jié)構(gòu)化世界的橋梁稱為信 息提取(IE)。
非結(jié)構(gòu)化信息管理(UIM)應(yīng)用通常是軟件系統(tǒng),其分析大量非 結(jié)構(gòu)化信息(文本、音頻、視頻、圖像等)以發(fā)現(xiàn)、組織和傳遞相 關(guān)知識(shí)到客戶端或終端用戶。 一個(gè)例子是處理數(shù)百萬(wàn)醫(yī)學(xué)文檔和報(bào) 告以發(fā)現(xiàn)藥物間關(guān)鍵相互作用、副作用和疾病史的應(yīng)用。另一例子是處理數(shù)百萬(wàn)文檔以發(fā)現(xiàn)表明可能的恐怖分子威脅的關(guān)鍵證據(jù)的應(yīng)用。
非結(jié)構(gòu)化數(shù)據(jù)的管理被認(rèn)為是信息技術(shù)(IT )產(chǎn)業(yè)中主要未解決 問(wèn)題之一,主要原因是可以成功地將結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為商業(yè)情報(bào)和 可用信息的工具和技術(shù)當(dāng)應(yīng)用于非結(jié)構(gòu)化數(shù)據(jù)時(shí)完全不起作用。
非結(jié)構(gòu)化信息管理(UIM)系統(tǒng)對(duì)大量非結(jié)構(gòu)化信息使用信息提 取(IE)技術(shù)以發(fā)現(xiàn)、組織和傳遞相關(guān)知識(shí)到客戶端。
信息提取(IE)是自然語(yǔ)言處理(NLP)的重要未解決問(wèn)題。信 息提取中最重要的問(wèn)題之 一 是從文本文檔中提取實(shí)體以及提取這些 實(shí)體間的關(guān)系。實(shí)體的例子是"民族"、"組織"和"位置"。關(guān) 系的例子是"組織-雇用-執(zhí)行官"、"組織-位置,,等。例如,句子 "John Adams是XYZ公司的首席執(zhí)行官,,包括個(gè)人"John Adams" 和組織"XYZ公司"之間的"組織-雇用-執(zhí)行官"關(guān)系。
已經(jīng)使用各種技術(shù)來(lái)提取相關(guān)實(shí)體間的關(guān)系。
在監(jiān)督方法中,在給出的例子中人力專家人工地識(shí)別實(shí)體和關(guān) 系。針對(duì)這些例子訓(xùn)練分類(lèi)器,該分類(lèi)器用于在以后運(yùn)行時(shí)識(shí)別關(guān) 系和實(shí)體。
.半監(jiān)督方法使用由專家提供的種子樣本并設(shè)法自動(dòng)獲得類(lèi)似于 種子樣本的更多樣本。然后,種子樣本和所獲得的樣本被用于訓(xùn)練 類(lèi)似于監(jiān)督情況中的分類(lèi)器。
非結(jié)構(gòu)化數(shù)據(jù)包括不同于實(shí)體和關(guān)系的其他信息,例如表示不同 實(shí)體間的關(guān)系的社交網(wǎng)絡(luò),其間實(shí)體具有某些關(guān)系的周期,不同實(shí) 體間共享的公共因素,...該復(fù)雜和豐富的信息難以獲取并且非常難
以用信息化方式表示。
HITS ("超文本引導(dǎo)主題選擇")算法是用于對(duì)網(wǎng)頁(yè)進(jìn)行分級(jí) 并因此還進(jìn)行排序的算法。HITS對(duì)每個(gè)頁(yè)面使用兩個(gè)值,"權(quán)威值" 和"中心值"。"權(quán)威值,,和"中心值"在相互遞歸中相互定義。 權(quán)威值計(jì)算為指向該頁(yè)面的定標(biāo)中心值的和。中心值是其指向的頁(yè) 面的定標(biāo)權(quán)威值的和。在一些實(shí)現(xiàn)中也考慮了所鏈接頁(yè)面的關(guān)聯(lián)性。HITS算法得益于以下研究當(dāng)頁(yè)面(中心)鏈接到另一頁(yè)面(權(quán)威) 時(shí),前者對(duì)后者給予授權(quán)。HITS方法在JKleinberg, J.ACM( 1999) 的標(biāo)題為 "Authoritative Sources in a Hyperlinked Environment"(超
鏈接環(huán)境中的權(quán)威源)的出版物中描述。
初始問(wèn)題
對(duì)于 一 些領(lǐng)域,從非結(jié)構(gòu)化數(shù)據(jù)提取知識(shí)是昂貴且不可行的任 務(wù),因?yàn)樾枰珊芏嗍止ひ?guī)則以捕獲各種信息。盡管對(duì)于任何給 定領(lǐng)域提取這種知識(shí)都是非常困難的操作,但以清楚和有用的方式 向用戶呈現(xiàn)和顯現(xiàn)數(shù)據(jù)是更困難的。本發(fā)明處理三個(gè)主要問(wèn)題
-用于在任何領(lǐng)域(應(yīng)用)中從任何非結(jié)構(gòu)化數(shù)據(jù)提取實(shí)體間關(guān) 系的圖案的自動(dòng)發(fā)現(xiàn)
-從非結(jié)構(gòu)化數(shù)據(jù)提取表征每個(gè)實(shí)體和關(guān)系的知識(shí)(例如其間關(guān) 系有效的時(shí)間以及在該時(shí)間該實(shí)體的位置)。
.多層關(guān)系的定義(具有各種約束和條件的關(guān)系,例如在給定時(shí) 間幀中的關(guān)系或者在給定組織中兩個(gè)人之間的關(guān)系,...)
所提取知識(shí)的顯現(xiàn)(以使用戶能夠吸收和消化該知識(shí)的方式呈 現(xiàn)所提取知識(shí))。
現(xiàn)有技術(shù)
本發(fā)明集中于用于從非結(jié)構(gòu)化數(shù)據(jù)提取和呈現(xiàn)信息的三個(gè)關(guān)鍵 問(wèn)題
用于提取實(shí)體間關(guān)系的圖案的自動(dòng)發(fā)現(xiàn); 從非結(jié)構(gòu)化數(shù)據(jù)提取深層知識(shí); 所提取知識(shí)的顯現(xiàn)。
大多數(shù)現(xiàn)有技術(shù)僅集中于第 一個(gè)問(wèn)題,其包括從非結(jié)構(gòu)化文本提 耳又實(shí)體間關(guān)系。出版于"The proceedings of the 1998 International Workshop on the Web and Databases"中的標(biāo)題為"Extracting Pattern and Relations from the World Wide Web"(從萬(wàn)維網(wǎng)中提取圖案和關(guān)系)(SergyBrin,斯坦福大學(xué)計(jì)算機(jī)科學(xué)系)的文章可以找到該領(lǐng) 域中的工作。該出版物公開(kāi)了作者身份信息的提取,如在萬(wàn)維網(wǎng)上 在圖書(shū)描述中找到的那樣。該出版物基于雙重迭代圖案-關(guān)系提取, 其中關(guān)系和圖案集合被迭代地結(jié)構(gòu)化。該方法具有兩個(gè)主要缺陷
(1)使用手工種子樣本以提取更多類(lèi)似于這些手工種子樣本 的樣本。
(2)使用詞典作為用于提取信息的主要來(lái)源。
出版于"Proceedings of the Fifth ACM International Conference on Digital Libraries"2000中的標(biāo)題為"Snowball: Extracting Relation from Large Plain-Text collections"(雪球從大型明文集合中提取關(guān)系) (Eugene Agichtein和Luis Gravano-哥倫比亞大學(xué)計(jì)算機(jī)科學(xué)系, 1214 Amsterdam Avenue NY)的文章公開(kāi)了 一種類(lèi)似于先前工作的 思想,通過(guò)使用種子樣本生成初始圖案以及迭代地獲得更多圖案。 然后使用特殊(ad-hoc)測(cè)量以估計(jì)最近獲得的圖案的相關(guān)性。該方 法的主要缺陷是
.(1 )對(duì)種子樣本的依賴導(dǎo)致有限的概括能力,
(2)使用手工樣本導(dǎo)致領(lǐng)域依賴,以及
.(3)圖案的相關(guān)性的估計(jì)要求特殊測(cè)量的使用。 才示題為 "Visualization of integrated structured data and extracted relational facts from free text"(顯現(xiàn)整合的結(jié)構(gòu)化文本和從自由文本 中提取的關(guān)系事實(shí))(Wakefield等人)的美國(guó)專利申請(qǐng)US 2004/0167907公開(kāi)了一種機(jī)制,用于從非結(jié)構(gòu)化自由文本提取簡(jiǎn)單 關(guān)系。然而,該機(jī)制具有可以概述如下的主要缺陷
-提取關(guān)系的機(jī)制取決于語(yǔ)法分析樹(shù)。這是主要缺陷,因?yàn)椴荒?提取精確關(guān)系。
-取決于人為規(guī)則。機(jī)制設(shè)計(jì)用于某些問(wèn)題,并且必須針對(duì)每個(gè) 問(wèn)題而改變,這是昂貴且困難的。
使用詞典和其他昂貴資源來(lái)提取信息。
.不是通用的并且不能解決不同領(lǐng)域中的不同問(wèn)題。 僅提供簡(jiǎn)單關(guān)系但不能提供高度詳細(xì)的關(guān)系。
不完全自動(dòng)并且需要人為干涉。
標(biāo)題為 "System and method for automatically and iteratively mining related terms in a document through relations and patterns of occurrences"(用于通過(guò)出現(xiàn)關(guān)系和圖案自動(dòng)地和迭代地挖掘文檔中 的相關(guān)項(xiàng)的系統(tǒng)和方法)(Sundaresan等人)的美國(guó)專利US 6,505,197 公開(kāi)了 一種自動(dòng)和迭代數(shù)據(jù)挖掘系統(tǒng),用于使用二元概念識(shí)別萬(wàn)維 網(wǎng)上的一組定義了關(guān)系的相關(guān)信息。具體地,挖掘系統(tǒng)迭代地提煉 以特定方式相關(guān)的項(xiàng)的配對(duì),以及它們?cè)诰W(wǎng)頁(yè)中出現(xiàn)的圖案。自動(dòng) 挖掘系統(tǒng)以迭代方式運(yùn)^f亍,用于連續(xù)地和遞增地#是煉關(guān)系及其相應(yīng) 圖案。在一個(gè)實(shí)施例中,自動(dòng)挖掘系統(tǒng)根據(jù)關(guān)系在網(wǎng)頁(yè)中出現(xiàn)的圖 案來(lái)識(shí)別關(guān)系。自動(dòng)挖掘系統(tǒng)包括導(dǎo)出新關(guān)系的關(guān)系標(biāo)識(shí)器以及導(dǎo) 出新圖案的圖案標(biāo)識(shí)器。最近導(dǎo)出的關(guān)系和圖案存儲(chǔ)在數(shù)據(jù)庫(kù)中, 其最初以關(guān)系和圖案的小種子集合開(kāi)始,其連續(xù)地和迭代地被自動(dòng) 挖掘系統(tǒng)加寬。
然而,該專利受制于多個(gè)缺陷 取決于用于提供種子圖案的人為工作。
所得圖案類(lèi)似于原始種子圖案。
.對(duì)于每個(gè)領(lǐng)域或應(yīng)用,新種子圖案必須由專家提供;這是乏味 且昂貴的過(guò)程。
提取關(guān)系和圖案僅取決于非常有限的詞匯(詞)特征。 標(biāo)題為 "Wrapper induction by hierarchical data analysis" (通過(guò) 層級(jí)數(shù)據(jù)分析來(lái)進(jìn)行封裝包導(dǎo)入)(Muslea等人)的美國(guó)專利US 6,606,625公開(kāi)了一種歸納算法,其基于用戶標(biāo)記的訓(xùn)練樣本生成提 取規(guī)則。問(wèn)題在于對(duì)訓(xùn)練數(shù)據(jù)的標(biāo)記形成了嚴(yán)重的瓶頸。
剩余問(wèn)題
所有先前解決方案都受制于下述缺陷中的一個(gè)或多個(gè) -需要手工規(guī)則或大量人為注解樣本用于組成用于提取關(guān)系的圖案。
是領(lǐng)域?qū)S玫牟⑶以O(shè)計(jì)為解決非常特殊的問(wèn)題。
-取決于種子樣本。所得圖案不是通用的并且非常類(lèi)似于種子樣本。
不是獨(dú)立于語(yǔ)言的。
僅提供簡(jiǎn)單關(guān)系但不能提供高度詳細(xì)的關(guān)系。 .不針對(duì)每個(gè)實(shí)體和關(guān)系提取詳細(xì)的特征。
不能對(duì)所提取信息挖掘復(fù)雜數(shù)據(jù)。
不提供針對(duì)大量數(shù)據(jù)的有效顯現(xiàn)。
發(fā)明內(nèi)容
發(fā)明目的
-本發(fā)明的目的是從非結(jié)構(gòu)化數(shù)據(jù)自動(dòng)提取實(shí)體間關(guān)系,獨(dú)立于 領(lǐng)域和語(yǔ)言,不要求任何種類(lèi)的任何人為干涉,并且不考慮數(shù)據(jù)數(shù) 量如何。
.本發(fā)明的另一目的是提取高度復(fù)雜的關(guān)系和相關(guān)實(shí)體,每個(gè)所 提取實(shí)體和關(guān)系都由非常豐富的信息結(jié)構(gòu)表示。
-本發(fā)明的另 一 目的是提取實(shí)體間多層關(guān)系以及實(shí)現(xiàn)對(duì)所提取信 息的復(fù)雜數(shù)據(jù)挖掘。
.本發(fā)明的另一目的是以清楚和可利用的方式顯現(xiàn)信息,可以幫 助用戶吸收和消化大量非結(jié)構(gòu)化信息。
發(fā)明概要
本發(fā)明公開(kāi)了如獨(dú)立權(quán)利要求中所定義的系統(tǒng)、方法和計(jì)算機(jī)程序。
本發(fā)明公開(kāi)了 一種用于從非結(jié)構(gòu)化文本自動(dòng)提取和挖掘關(guān)系和 相關(guān)實(shí)體的系統(tǒng)、方法和計(jì)算機(jī)程序。更特別地,本發(fā)明涉及一種
方法,用于
從非結(jié)構(gòu)化文本數(shù)據(jù)提取關(guān)系和相關(guān)實(shí)體, 將所提取信息表現(xiàn)為圖表,以及
操縱所得圖表以更加了解其包含的信息。 首先通過(guò)自動(dòng)導(dǎo)入圖案以及其次通過(guò)將這些導(dǎo)入的圖案應(yīng)用于 非結(jié)構(gòu)化文本數(shù)據(jù),執(zhí)行關(guān)系和相關(guān)實(shí)體的提取。對(duì)于每個(gè)關(guān)系和 實(shí)體,提取多個(gè)特征以構(gòu)造圖表,其中節(jié)點(diǎn)表示實(shí)體,并且邊表示 關(guān)系。
本發(fā)明提供如下裝置,其用于開(kāi)發(fā)圖表,并用于導(dǎo)出其他圖表, 這些圖表集中于某些時(shí)間幀內(nèi)的關(guān)系或涉及某些特征。這是分別使 用時(shí)間圖表和基于特征的圖表來(lái)完成的。兩種方法基本上都查詢與 圖表的節(jié)點(diǎn)和邊相關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu)的內(nèi)容。
本發(fā)明提供顯現(xiàn)技術(shù),用于更好地理解圖表中包含的信息。
本發(fā)明提供用于吸收和消化非結(jié)構(gòu)化信息的有效解決方案并實(shí) 現(xiàn)大量文檔的有效顯現(xiàn)。
在所附從屬權(quán)利要求中提供本發(fā)明的其他實(shí)施例。
參照以下描述、權(quán)利要求和附圖可以更好地理解本發(fā)明的前述以 及其他目的、特征和優(yōu)點(diǎn)。
在所附權(quán)利要求中闡述被認(rèn)為是本發(fā)明所特有的新穎和創(chuàng)造'性 特征。然而,當(dāng)結(jié)合附圖閱讀時(shí)通過(guò)參照以下示例性詳細(xì)實(shí)施例的 詳細(xì)描述將最好地理解本發(fā)明本身及其優(yōu)選使用模式、其他目的和
優(yōu)點(diǎn),附圖中
圖1示出根據(jù)本發(fā)明的系統(tǒng)的概略圖。
圖2是根據(jù)本發(fā)明的圖表結(jié)構(gòu)化關(guān)系提取器的詳細(xì)視圖。
圖3是根據(jù)本發(fā)明的導(dǎo)入圖案的步驟的框圖。
圖4是模板、圖案和元組的例子。
圖5示出根據(jù)本發(fā)明用于導(dǎo)入圖案的方法。
圖6是根據(jù)本發(fā)明用于圖案的初始表示的有限狀態(tài)機(jī)(FSM)。
圖7示出根據(jù)HITS算法的圖案和元組的表示。圖8是淺圖表的例子。
圖9是基于特征的圖表的例子。
具體實(shí)施例方式
提供以下描述以使得人們或者本領(lǐng)域普通技術(shù)人員能夠進(jìn)行和 使用本發(fā)明,并且在專利申請(qǐng)及其要求的上下文中提供以下描述。 對(duì)這里描述的優(yōu)選實(shí)施例以及 一 般原則和特征的各種修改對(duì)于本領(lǐng) 域技術(shù)人員而言是顯而易見(jiàn)的。因此,本發(fā)明不旨在受限于所示實(shí) 施例,而是符合與這里描述的原則和特征一致的最寬范圍。
本發(fā)明的主要目的是處理非結(jié)構(gòu)化文本數(shù)據(jù)以提取關(guān)系和相關(guān) 實(shí)體以及對(duì)于二者的特征。結(jié)果是其節(jié)點(diǎn)和邊分別表示實(shí)體和這些 實(shí)體間關(guān)系的圖表。當(dāng)提取大量信息時(shí),系統(tǒng)還提供操縱圖表的能 力,以動(dòng)態(tài)地生成示出關(guān)系和/或?qū)嶓w的不同方面的各種圖表。
圖1示出根據(jù)本發(fā)明的系統(tǒng)的概略圖。
系統(tǒng)接收指定已命名實(shí)體(例如人名、組織名或在任何領(lǐng)域中
的任何其他已命名實(shí)體)的用戶查詢103。該已命名實(shí)體以下將稱為 "主實(shí)體"。
將大量非結(jié)構(gòu)化文本數(shù)據(jù)100 (例如萬(wàn)維網(wǎng))提供到圖表結(jié)構(gòu) 化關(guān)系提取器101,其提取相關(guān)實(shí)體、所述相關(guān)實(shí)體間的關(guān)系以及表 征所述相關(guān)實(shí)體和關(guān)系的各種信息。
.系統(tǒng)構(gòu)造其節(jié)點(diǎn)表示與主實(shí)體最密切相關(guān)的實(shí)體并且邊表示實(shí) 體間關(guān)系的圖表。
將圖表查詢104應(yīng)用到圖表以獲得數(shù)據(jù)的具體視圖。
-由圖表顯現(xiàn)器102生成最終輸出圖表105。該最終輸出圖表105 根據(jù)在應(yīng)用到圖表的查詢中指定的標(biāo)準(zhǔn)來(lái)表示實(shí)體及其關(guān)系。
圖表結(jié)構(gòu)化關(guān)系提取器圖2是根據(jù)本發(fā)明的圖表結(jié)構(gòu)化關(guān)系提取器101的詳細(xì)視圖。系
統(tǒng)操作如下
'將從用戶接收的查詢103傳輸?shù)剿饕骱退阉饕?00用于在 非結(jié)構(gòu)化文本數(shù)據(jù)100中進(jìn)行搜索(例如在Web上)。非結(jié)構(gòu)化文 本數(shù)據(jù)100包括大量文檔(即WEB上的各種文檔,例如網(wǎng)頁(yè))。搜 索引擎200從非結(jié)構(gòu)化文本數(shù)據(jù)IOO檢索包含查詢103中指定的主 實(shí)體的文檔。
-對(duì)包含查詢103中指定的主實(shí)體的文檔應(yīng)用語(yǔ)法和語(yǔ)義標(biāo)簽器 201 (所述文檔由搜索引擎200得到)以提取各種已命名實(shí)體、詞匯 類(lèi)型以及詞的語(yǔ)義。
-相關(guān)實(shí)體和關(guān)系提取器202從先前步驟中標(biāo)記的文檔提取與查 詢103中指定的主實(shí)體強(qiáng)烈相關(guān)的實(shí)體和關(guān)系。
-特征提取器203從由搜索產(chǎn)生的并包含查詢中指定的主實(shí)體的 文檔提取信息,以表征先前在步驟202中提取的每個(gè)實(shí)體和關(guān)系。 例如,對(duì)于特定實(shí)體,可以提取與該實(shí)體密切相關(guān)的接近該實(shí)體的 人、組織、位置、時(shí)間特征、詞...。
圖表擴(kuò)展器204重復(fù)先前步驟,即提取與查詢103中指定的主 實(shí)體特別相關(guān)的關(guān)系和實(shí)體。進(jìn)行該操作以將圖表擴(kuò)展為具有附加 的相關(guān)實(shí)體和關(guān)系。很多實(shí)體與查詢中指定的主實(shí)體相關(guān)。在這些 實(shí)體中, 一些是特別相關(guān)的并且必須添加到圖表。問(wèn)題在于不知道 這些相關(guān)實(shí)體如何彼此相關(guān)以及與其他實(shí)體相關(guān)。這就是圖表擴(kuò)展 器對(duì)非結(jié)構(gòu)化文本(100)(而不是僅僅對(duì)包含主實(shí)體的所選文檔) 重復(fù)先前步驟的原因。
然后,圖表擴(kuò)展器204基于所述提取的實(shí)體和關(guān)系形成圖表。 查詢中指定的主實(shí)體作為圖表的中心點(diǎn),所有其他實(shí)體連接在其周 圍。
-關(guān)系分類(lèi)器205根據(jù)關(guān)系的語(yǔ)義意義根據(jù)一組預(yù)定類(lèi)別來(lái)對(duì)所 得關(guān)系進(jìn)行分類(lèi)。例如,諸如"領(lǐng)導(dǎo)"、"總裁"和"主席"的關(guān) 系被分類(lèi)為"執(zhí)行官"。該步驟是可選的并且不影響系統(tǒng)的輸出。 在圖表中表示所提取實(shí)體和關(guān)系。圖表擴(kuò)展器204從非結(jié)構(gòu)化 文本數(shù)據(jù)收集信息并以與每個(gè)實(shí)體和關(guān)系相關(guān)聯(lián)的結(jié)構(gòu)表示所述信 息。以便于內(nèi)容操縱的方式構(gòu)造圖表。
將圖表傳輸?shù)綀D表顯現(xiàn)器102。該圖表可能會(huì)受到來(lái)自用戶的 指定某一標(biāo)準(zhǔn)的查詢104。響應(yīng)于該查詢,圖表顯現(xiàn)器102在輸出 105中輸出相對(duì)較簡(jiǎn)單的圖表。該輸出圖表105根據(jù)在查詢104中指 定的標(biāo)準(zhǔn)表示實(shí)體及其關(guān)系。
關(guān)系和相關(guān)實(shí)體提取
根據(jù)優(yōu)選實(shí)施例的系統(tǒng)從非結(jié)構(gòu)化文本提取相關(guān)實(shí)體和這些實(shí) 體間的關(guān)系。將各種標(biāo)簽器應(yīng)用到文本以附上不同種類(lèi)的標(biāo)簽(例 如已命名實(shí)體標(biāo)簽器向每個(gè)詞附上表示其已命名實(shí)體類(lèi)別的標(biāo)簽)。 關(guān)系和相關(guān)實(shí)體提取器202提取相關(guān)實(shí)體以及對(duì)所述實(shí)體間關(guān)系的 描述。關(guān)系分類(lèi)器203將所提取關(guān)系分類(lèi)在預(yù)定關(guān)系集合中。
關(guān)系和相關(guān)實(shí)體提取器202自動(dòng)提取相關(guān)實(shí)體以及它們的關(guān)系。 為了提取關(guān)系和相關(guān)實(shí)體,關(guān)系和相關(guān)實(shí)體提取器使用具有相關(guān)聯(lián) 的置信測(cè)量的圖案。導(dǎo)入(自動(dòng)獲取)圖案的過(guò)程被執(zhí)行一次,然 后在系統(tǒng)構(gòu)造期間脫機(jī)。使用通用框架導(dǎo)入圖案,該框架可以用于 任何實(shí)體和相關(guān)類(lèi)型。在運(yùn)行時(shí),將導(dǎo)入的圖案應(yīng)用到非結(jié)構(gòu)化文 本以提取實(shí)體以及與它們相關(guān)聯(lián)的關(guān)系。
圖3是導(dǎo)入圖案的方法的概略圖。將非結(jié)構(gòu)化文本數(shù)據(jù)300提供 到圖案導(dǎo)入器301中,其導(dǎo)入圖案302用于接著提取實(shí)體以及所述 實(shí)體間的關(guān)系(注意非結(jié)構(gòu)化文本數(shù)據(jù)300與非結(jié)構(gòu)化文本數(shù)據(jù) 100相同)。
如上所述,根據(jù)優(yōu)選實(shí)施例的圖案導(dǎo)入器301對(duì)非結(jié)構(gòu)化文本數(shù) 據(jù)進(jìn)行操作以導(dǎo)入圖案。圖4描述圖案結(jié)構(gòu)以及對(duì)非結(jié)構(gòu)化文本執(zhí) 行的處理。例如,輸入文本400 "美國(guó)副總統(tǒng)Al Gore今天說(shuō)..."被 通過(guò)各種標(biāo)簽器(例如詞性(POS)標(biāo)簽器、語(yǔ)義標(biāo)簽器和已命名實(shí) 體標(biāo)簽器)加上標(biāo)簽。換言之,標(biāo)簽與句子中每個(gè)詞相關(guān)聯(lián)。結(jié)果是表示句子400的各種特征的一組多流標(biāo)簽401。 詞美國(guó) 實(shí)體民族 詞性形容詞 語(yǔ)義居民
詞副總統(tǒng) 實(shí)體職業(yè) 詞性名詞短語(yǔ) 語(yǔ)義執(zhí)行官
詞Al Gore
實(shí)體個(gè)人
詞性名詞
語(yǔ)義無(wú)
使用不同類(lèi)型的標(biāo)簽的組合可以形成相同句子的不同表示。在給 定表示中使用的標(biāo)簽類(lèi)型取決于系統(tǒng)將嘗試匹配的圖案。
模板
模板是通用標(biāo)簽的序列。模板402的例子是
民族—居民職業(yè)—名詞短語(yǔ)個(gè)人[2]動(dòng)詞_短語(yǔ)
該模板來(lái)源于401中已命名實(shí)體標(biāo)簽、詞性(POS)標(biāo)簽和語(yǔ)義 標(biāo)簽的表示。所有這些標(biāo)簽被認(rèn)為是單個(gè)標(biāo)簽。這里圖案的選擇僅 用于示意目的,可以使用標(biāo)簽、表示和加標(biāo)簽樣式的任何組合。
圖案
圖案比模板更具體。圖案指定由標(biāo)簽扮演的角色(第一實(shí)體、第 二實(shí)體、或關(guān)系)。如后面說(shuō)明的,圖案從模板獲得。模板的例子表示在403中,其中識(shí)別關(guān)系以及關(guān)系中的每個(gè)實(shí)體。
該圖案表明句子中具有標(biāo)簽民族一居民_形容詞的詞表示關(guān)系中 第二實(shí)體(實(shí)體2),而具有標(biāo)簽個(gè)人[2]的詞表示關(guān)系中第一實(shí)體 (實(shí)體l)。最后,具有標(biāo)簽職業(yè)_執(zhí)行官_名詞短語(yǔ)的詞表示兩個(gè)先 前實(shí)體間的關(guān)系。
元組
"元組"是將圖案應(yīng)用到非結(jié)構(gòu)化文本的結(jié)果。在上述例子中, 將圖案應(yīng)用到原始文本的結(jié)果是以下元組 實(shí)體1: Al Gore 實(shí)體2:美國(guó) 關(guān)系副總統(tǒng)
元組404、 405示出不同元組可以如何與相同圖案匹配。 根據(jù)本發(fā)明的方法包括導(dǎo)入一組包含信息的高置信度的圖案的
步驟。該組圖案在運(yùn)行時(shí)間期間被應(yīng)用于原始文本以正確識(shí)別相關(guān)
實(shí)體以及這些實(shí)體間的關(guān)系。
圖案導(dǎo)入器
圖3中的圖案導(dǎo)入器302進(jìn)一步在圖5中詳細(xì)示出。用于導(dǎo)入圖 案的方法僅在構(gòu)造系統(tǒng)時(shí)執(zhí)行一次。用于導(dǎo)入圖案的方法包括以下 步驟
500:由語(yǔ)法和語(yǔ)義標(biāo)簽器模塊對(duì)非結(jié)構(gòu)化文本數(shù)據(jù)300 (即 大型文本數(shù)據(jù)或WEB數(shù)據(jù))應(yīng)用諸如POS標(biāo)簽器、已命名實(shí)體標(biāo) 簽器和語(yǔ)義標(biāo)簽器的各種標(biāo)簽器。
501:所得數(shù)據(jù)分成兩部分小部分和大部分。該劃分是有用 的,因?yàn)閮H數(shù)據(jù)的小部分需要得到圖案的初始集合,而數(shù)據(jù)的大部 分需要使用以下描述的導(dǎo)入過(guò)程來(lái)排序和檢驗(yàn)這些圖案。
502:數(shù)據(jù)的小部分用于構(gòu)造有限狀態(tài)機(jī)502,類(lèi)似于圖6中 所示有限狀態(tài)機(jī)。-503:初始圖案生成器用于濾出不太可能的模板,其在有限狀 態(tài)機(jī)中具有較低可能性。然后,初始圖案生成器使用初始模板以生 成圖案的初始集合。先前獲得的集合中每個(gè)模板可以通過(guò)將不同角 色附加到模板的不同部分生成多個(gè)圖案。如果現(xiàn)在考慮以下模板
民族名詞一短語(yǔ)個(gè)人個(gè)人位置
則從該模板可以生成以下3個(gè)圖案
.民族實(shí)體1名詞_短語(yǔ)關(guān)系個(gè)人實(shí)體2個(gè)人_實(shí)體2位
置
民族實(shí)體1名詞一短語(yǔ)關(guān)系個(gè)人個(gè)人位置實(shí)體2 民族名詞一短語(yǔ)_關(guān)系個(gè)人實(shí)體1個(gè)人實(shí)體1位置實(shí)
體2
因此,通過(guò)從模板的初始集合中的每個(gè)模板生成所有可能圖案, 構(gòu)造圖案的初始集合。
504:元組匹配器將圖案的初始集合中的每個(gè)圖案應(yīng)用于非結(jié) 構(gòu)化數(shù)據(jù)。結(jié)果包括圖案的配對(duì)(p, t)以及與這些圖案匹配的元組。 注意到,這些配對(duì)中的很多是錯(cuò)誤的,即它們錯(cuò)誤地識(shí)別相關(guān)實(shí)體 和/或關(guān)系。
有限狀態(tài)機(jī)
圖6示出用于所考慮的圖案的有限狀態(tài)機(jī)。 '第一狀態(tài)601表示"民族"已命名實(shí)體, .第二狀態(tài)602表示"名詞—短語(yǔ)",
.第三狀態(tài)603表示"個(gè)人"已命名實(shí)體,其可以由一個(gè)或多個(gè) 名字表示。對(duì)第 一弧線的加權(quán)604表示該狀態(tài)序列的可能性。
HITS圖案導(dǎo)入器
步驟505使用以下研究用于自動(dòng)識(shí)別信息量最大的圖案與很多 元組匹配的圖案傾向于為正確。類(lèi)似地,與^f艮多圖案匹配的元組傾 向于為正確。因此,問(wèn)題可以視為中心(元組)和權(quán)威(圖案)問(wèn)題,其可以使用HITS ("超文本引導(dǎo)主題選擇")算法來(lái)解決?;?于一組相關(guān)"權(quán)威頁(yè)面"和一組"中心頁(yè)面"之間的關(guān)系,HITS是 權(quán)威概念的算法公式。HITS算法原始用于通過(guò)分析WWW(萬(wàn)維網(wǎng)) 的鏈接結(jié)構(gòu)在考慮搜索查詢時(shí)確定最權(quán)威的網(wǎng)頁(yè)。HITS算法受益于 以下研究當(dāng)頁(yè)面(中心)鏈接到另一頁(yè)面(權(quán)威)時(shí),前者對(duì)后 者給予授權(quán)。
HITS圖案導(dǎo)入器操作如下
假設(shè)很大一組數(shù)據(jù)D包括很大一組圖案P ,希望識(shí)別與最正確元 組集合T匹配的圖案集合》。換言之,希望在數(shù)據(jù)中巨大圖案空間 之中選擇信息量最大、置信度最高的圖案,其可以識(shí)別正確元組。 然而,?和T二者是未知的。
應(yīng)用導(dǎo)入過(guò)程如下
P中的每個(gè)圖案g]與數(shù)字的權(quán)威加權(quán)Ap相關(guān)聯(lián),其表示多少元 組與該圖案匹配。類(lèi)似地,T中每個(gè)元組t具有數(shù)字的中心加斥又Ht, 其表示該元組與多少圖案匹配。
加權(quán)被迭代地計(jì)算如下
然后加權(quán)被歸一化,使得
拒絕加權(quán)低于預(yù)定閾值的圖案。
計(jì)算權(quán)威加權(quán)使得在第 一迭代HITS計(jì)算中通過(guò)針對(duì)與圖案匹配 的每個(gè)元組加1來(lái)計(jì)算權(quán)威加權(quán),該總和纟皮進(jìn)一步加權(quán)以有利于得 到更短的圖案。加權(quán)的增量計(jì)算如下
其中&是圖案的基于長(zhǎng)度的加權(quán),MaxLength是最長(zhǎng)圖案的長(zhǎng)度。對(duì)于更短的圖案,該修改得到更好的加權(quán)。
由該最后步驟產(chǎn)生包括信息量最大的圖案的集合,每個(gè)圖案具有
存儲(chǔ)在導(dǎo)入的圖案302數(shù)據(jù)庫(kù)中的權(quán)威加權(quán)。
在運(yùn)行時(shí),如圖2所示,關(guān)系和相關(guān)實(shí)體提取器202對(duì)非結(jié)構(gòu)化 文本數(shù)據(jù)300使用導(dǎo)入的圖案302以提取關(guān)系和相關(guān)實(shí)體。
圖7示出作為雙向圖表的圖案和元組的表示。圖案701和702 連接到多個(gè)元組,類(lèi)似地,元組703連接到兩個(gè)圖案701和702。該 連接導(dǎo)致相互干擾,其增加圖案和元組二者的加權(quán)。另一方面,圖 案704具有單個(gè)連接,因此具有低加權(quán)。
特征提取
如圖2所示,在被關(guān)系和相關(guān)實(shí)體提取器202提取之后,相關(guān)實(shí) 體連同它們的關(guān)系存儲(chǔ)在圖表結(jié)構(gòu)中?;谟脩舨樵?03中指定的 主實(shí)體創(chuàng)建圖表。特征提取器203從非結(jié)構(gòu)化文本數(shù)據(jù)提取用以表 征每個(gè)實(shí)體和關(guān)系的信息。結(jié)果是其節(jié)點(diǎn)表示實(shí)體并且邊表示關(guān)系 的復(fù)雜圖表。圖表是復(fù)雜的,因?yàn)椴皇蔷哂泻?jiǎn)單標(biāo)簽,而是節(jié)點(diǎn)和 邊具有與它們相關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu)。鑒于圖表中包含的信息量,需要 發(fā)明 一種方法,其間接地使得對(duì)節(jié)點(diǎn)和邊數(shù)據(jù)結(jié)構(gòu)的查詢可以動(dòng)態(tài) 地生成原始圖表的變體。
節(jié)點(diǎn)結(jié)構(gòu)
每個(gè)節(jié)點(diǎn)是包括基于從上下文導(dǎo)出的特征的實(shí)體和矢量的結(jié)構(gòu), 在該上下文中實(shí)體在文本中頻繁出現(xiàn)。例如,對(duì)于某個(gè)人,結(jié)構(gòu)看 起來(lái)是這樣的
實(shí)體名個(gè)人1
相關(guān)聯(lián)的個(gè)人
名字1 0.43
名字2 0.21相關(guān)聯(lián)的組織: 組織1 0.71 組織2 0.12
相關(guān)聯(lián)的位置 位置1 0.50 位置2 0.24
相關(guān)聯(lián)的詞包
詞1詞2詞3 0.7
相關(guān)聯(lián)的時(shí)間 時(shí)間1 0.12 時(shí)間2 0.09
對(duì)于實(shí)體,與每個(gè)特征相關(guān)聯(lián)的數(shù)值是當(dāng)考慮該實(shí)體所出現(xiàn)的所 有類(lèi)似特征時(shí)出現(xiàn)該特征的概率。
邊結(jié)構(gòu)
如上所示,關(guān)系提取器202可以識(shí)別原始文本中哪個(gè)詞用作關(guān) 系。提取用于每個(gè)包括以下字段的邊/關(guān)系的結(jié)構(gòu),其中有 關(guān)系類(lèi)(例如管理人),
關(guān)系強(qiáng)度(例如0.85意味著"強(qiáng)烈相關(guān)"), 關(guān)于關(guān)系的時(shí)間信息(例如關(guān)系是在80年代)。時(shí)間信息用 于構(gòu)造考慮了關(guān)系的時(shí)間幀的時(shí)間圖表。所得圖表可以表明在給定 時(shí)間哪些實(shí)體相關(guān)。這種時(shí)間圖表可以示出例如個(gè)人在其一生與不
同組織和個(gè)人的關(guān)系的種類(lèi)。
節(jié)點(diǎn)和邊結(jié)構(gòu)中包含的信息幫助對(duì)圖表執(zhí)行各種操作。圖表擴(kuò)展
為了確定實(shí)體相關(guān)強(qiáng)度如何,系統(tǒng)依靠與節(jié)點(diǎn)配對(duì)相關(guān)聯(lián)的特征
矢量之間的距離。圖表擴(kuò)展器204使用這些距離來(lái)確定是否需要通
過(guò)添加某些實(shí)體來(lái)擴(kuò)展圖表。選擇接近主實(shí)體的實(shí)體來(lái)擴(kuò)展圖表。
通過(guò)對(duì)選擇用于擴(kuò)展的實(shí)體重復(fù)關(guān)系提取和特征提取步驟來(lái)進(jìn) 行圖表擴(kuò)展,所選實(shí)體是到主實(shí)體的距離測(cè)量值為小的實(shí)體。因此, 圖表擴(kuò)展導(dǎo)致多個(gè)子圖表,每個(gè)子圖表集中于被選擇用于擴(kuò)展的實(shí)
體之一。
可以使用各種距離度量,其中有歐幾里德距離和余弦距離。在優(yōu) 選實(shí)施例中,使用兩個(gè)矢量之間的余弦距離。
可選圖表表示
在先前步驟中構(gòu)建的圖表由于存儲(chǔ)在它的節(jié)點(diǎn)和邊中的數(shù)據(jù)而 非常豐富。為此,可行的是提供一些方法用于通過(guò)不同種類(lèi)的圖表 表示底層數(shù)據(jù)。通過(guò)以不同方式查詢節(jié)點(diǎn)和邊數(shù)據(jù)結(jié)構(gòu)的內(nèi)容獲得
這些圖表。圖表顯現(xiàn)器102使用圖表查詢104來(lái)對(duì)復(fù)雜圖表執(zhí)行進(jìn) 一步數(shù)據(jù)挖掘以更加了解數(shù)據(jù)。在更簡(jiǎn)單和更集中的圖表(輸出圖 表105))中針對(duì)某些特征和特性顯現(xiàn)數(shù)據(jù)。
將作為例子討論這些種類(lèi)的圖表中的3個(gè)。其他圖表可以通過(guò)改 變前述查詢而獲得。
淺圖表
對(duì)節(jié)點(diǎn)和邊結(jié)構(gòu)的最簡(jiǎn)單查詢檢索實(shí)體的名字以及由圖表描述 的關(guān)系。這導(dǎo)致非常"淺"的圖表,其僅示出必需的幾條信息。圖8 是這種淺圖表的例子。節(jié)點(diǎn)801表示查詢中指定的主實(shí)體,節(jié)點(diǎn)802 和803表示與主實(shí)體最強(qiáng)烈相關(guān)的實(shí)體。邊804表示節(jié)點(diǎn)實(shí)體801 和803之間的關(guān)系,而邊805表示節(jié)點(diǎn)實(shí)體801和802之間的關(guān)系。 節(jié)點(diǎn)806表示圖表中與主實(shí)體801相關(guān)的很多所得實(shí)體之一。基于特征的圖表
圍繞用戶查詢而構(gòu)造的圖表基于每個(gè)節(jié)點(diǎn)的特征矢量?;谔卣?矢量的不同子集使用其他查詢可能獲得其他圖表。當(dāng)決定2個(gè)實(shí)體 間關(guān)系的強(qiáng)度時(shí),僅考慮所選特征子集,因此名為"基于特征的" 圖表。該種圖表解決了如下問(wèn)題,例如"哪些實(shí)體與和主實(shí)體X相
同的組織集合相關(guān)聯(lián)?"或"哪些人有與主實(shí)體X類(lèi)似的愛(ài)好?"。
因?yàn)榭赡軐⑺x距離度量應(yīng)用到所考慮的較小特征矢量,因此可能 獲得兩個(gè)實(shí)體間針對(duì)所選特征的接近程度。換言之,可以僅針對(duì)某 些特征測(cè)量?jī)蓚€(gè)實(shí)體的接近度以提供對(duì)數(shù)據(jù)的更多關(guān)注。
因?yàn)榧杏谔卣魇噶康淖蛹梢允乖谠紙D表中遠(yuǎn)離的兩個(gè)節(jié) 點(diǎn)更接近,因此可能跨子圖表邊界測(cè)量節(jié)點(diǎn)間的距離。這可以展現(xiàn) 出所關(guān)注的關(guān)系,否貝'j該關(guān)系將難以在原始圖表中被發(fā)現(xiàn)。
圖9示出這種子圖表的例子,其中已從圖8中所示圖表中提取關(guān) 于"中東危機(jī)"的實(shí)體。節(jié)點(diǎn)901表示主查詢,而節(jié)點(diǎn)卯2表示圖 表中的主節(jié)點(diǎn)。節(jié)點(diǎn)903是圖8中滿足用于該子圖表的基于特征的 標(biāo)準(zhǔn)的節(jié)點(diǎn)之一。
時(shí)間圖表
如前所述,每個(gè)關(guān)系的結(jié)構(gòu)包括時(shí)間信息。這打開(kāi)了到另一類(lèi)型 的查詢的大門(mén),該另一類(lèi)型的查詢考慮了關(guān)系的時(shí)間幀。所得圖表 可以表明在給定時(shí)間哪些實(shí)體相關(guān)。通過(guò)改變時(shí)間,圖表可以在兩 方面不同
它們包含的節(jié)點(diǎn)(因?yàn)?個(gè)實(shí)體可能在給定時(shí)間開(kāi)始/停止具 有關(guān)系),以及
邊的加權(quán)(因?yàn)殛P(guān)系的強(qiáng)度可以隨時(shí)間變化)。 這種時(shí)間圖表可以示出例如個(gè)人在其一生與不同組織和個(gè)人的 不同關(guān)系。
顯現(xiàn)圖表顯現(xiàn)器102以下列方式提供圖表的增強(qiáng)可視表示 節(jié)點(diǎn)外形寬度表明某一網(wǎng)絡(luò)中哪個(gè)節(jié)點(diǎn)是中心。
節(jié)點(diǎn)顏色對(duì)節(jié)點(diǎn)的已命名實(shí)體標(biāo)簽(例如個(gè)人,組織)進(jìn)行編 碼。顏色的強(qiáng)度表明該節(jié)點(diǎn)與當(dāng)前選擇的中心節(jié)點(diǎn)相關(guān)的程度(例 如深綠色節(jié)點(diǎn)是與X強(qiáng)烈相關(guān)的組織,淡藍(lán)色節(jié)點(diǎn)是與X不那么相 關(guān)的位置)。
邊顏色反映關(guān)系所屬的分類(lèi)。
邊厚度反映關(guān)系的強(qiáng)度。
-刷涂和鏈接用于顯示基于特征的圖表。在信息顯現(xiàn)中,刷涂和 鏈接用于動(dòng)態(tài)地表明相關(guān)實(shí)體。在多個(gè)顯示以不同形式呈現(xiàn)相同底 層數(shù)據(jù)的情況下,刷涂和鏈接是特別有用的。在這種情況下,在一 個(gè)顯示中"刷涂" 一個(gè)數(shù)據(jù)項(xiàng)造成在所有其他顯示("鏈接的") 中刷涂相同項(xiàng)。在優(yōu)選實(shí)施例中,用戶可以選擇將在構(gòu)造基于特征 的圖表中被考慮的特征。當(dāng)刷涂為激活時(shí),節(jié)點(diǎn)的顏色強(qiáng)度反映其 屬于圖表的程度。例如,如果圖表表示某人并且希望關(guān)注與特定組 織相關(guān)的其他人;所得新圖表是包括僅與該組織相關(guān)的人的子圖表。
時(shí)間滑塊允許用戶在時(shí)間上前后移動(dòng)。作為該移動(dòng)的結(jié)果,創(chuàng) 建時(shí)間圖表。這些時(shí)間圖表反映在特定時(shí)間的關(guān)系和相關(guān)實(shí)體。然 而,這些圖表不針對(duì)每次滑塊移動(dòng)進(jìn)行顯示。實(shí)體的節(jié)點(diǎn)的顏色強(qiáng) 度可以變化以反映在它與主實(shí)體之間的關(guān)系的變化強(qiáng)度。因此,隨 著滑塊移動(dòng),某些節(jié)點(diǎn)變暗淡出并且其他節(jié)點(diǎn)變亮;關(guān)系越遠(yuǎn)離(過(guò) 去或?qū)?lái))當(dāng)前選擇時(shí)間,相關(guān)節(jié)點(diǎn)看起來(lái)越暗。在所選時(shí)間處與 中心實(shí)體相關(guān)的實(shí)體看起來(lái)最亮。
本領(lǐng)域技術(shù)人員將認(rèn)識(shí)到,盡管適于操作本發(fā)明的數(shù)據(jù)處理系統(tǒng) 的完整結(jié)構(gòu)未在此描述,其結(jié)構(gòu)和操作可以符合本領(lǐng)域已知的現(xiàn)有 實(shí)現(xiàn)。特別地,注意到,本方法的步驟可以從通過(guò)任何類(lèi)型計(jì)算機(jī) 網(wǎng)絡(luò)(公共或?qū)S?連接的分布式系統(tǒng)在客戶端-服務(wù)器模式中操作。
盡管已經(jīng)參照優(yōu)選實(shí)施例特別地示出和描述了本發(fā)明。應(yīng)該理 解,在不脫離本發(fā)明的精神和范圍的前提下,可以做出形式和細(xì)節(jié)上的各種改變。
權(quán)利要求
1. 一種用于從非結(jié)構(gòu)化文本自動(dòng)提取和挖掘關(guān)系和相關(guān)實(shí)體的方法,所述方法包括以下步驟·接收指定主實(shí)體的查詢;·從非結(jié)構(gòu)化文本提取與查詢中指定的主實(shí)體相關(guān)的關(guān)系和相關(guān)實(shí)體,所述步驟包括進(jìn)一步的步驟·在非結(jié)構(gòu)化文本中搜索和選擇包含主實(shí)體的文檔,·向所選文檔的每個(gè)詞附加一個(gè)或多個(gè)標(biāo)簽,每個(gè)標(biāo)簽是不同類(lèi)型的;·通過(guò)將圖案應(yīng)用到所述加標(biāo)簽的文檔來(lái)提取關(guān)系和相關(guān)實(shí)體;·從所選文檔提取表征每個(gè)實(shí)體和關(guān)系的特征;·基于所提取特征構(gòu)造圖表,其節(jié)點(diǎn)表示與所指定主實(shí)體相關(guān)的實(shí)體并且其邊表示所述實(shí)體間的關(guān)系。
2. 根據(jù)權(quán)利要求1的方法,包括進(jìn)一步的步驟 .操縱所得圖表以更加了解其包含的信息。
3. 根據(jù)前述權(quán)利要求中任一項(xiàng)的方法,其中向所選文檔的每個(gè)詞 附加一個(gè)或多個(gè)標(biāo)簽,每個(gè)標(biāo)簽是不同類(lèi)型的步驟包括以下步驟 對(duì)所選文檔應(yīng)用語(yǔ)法和語(yǔ)義標(biāo)簽器以提取已命名實(shí)體、詞匯類(lèi) 型以及詞的i吾義。
4. 根據(jù)前述權(quán)利要求中任一項(xiàng)的方法,其中操縱所得圖表以更加 了解其包含的信息的步驟包括進(jìn)一步的步驟 接收?qǐng)D表查詢以根據(jù)特定標(biāo)準(zhǔn)獲得相關(guān)實(shí)體和關(guān)系的特定表示;-響應(yīng)于所述圖表查詢,生成輸出圖表,其根據(jù)圖表查詢中指定 的標(biāo)準(zhǔn)表示實(shí)體以及它們的關(guān)系。
5. 根據(jù)權(quán)利要求4的方法,其中所述標(biāo)準(zhǔn)是時(shí)間標(biāo)準(zhǔn)或者是與一個(gè)或多個(gè)與關(guān)系和相關(guān)實(shí)體相關(guān)聯(lián)的特征相關(guān)的條件或/和約束。
6. 根據(jù)前述權(quán)利要求中任一項(xiàng)的方法,其中基于所提取特征構(gòu)造 圖表的步驟包括進(jìn)一步的步驟-使表示實(shí)體的每個(gè)節(jié)點(diǎn)與基于表征所述關(guān)系和相關(guān)實(shí)體的特征 的值的矢量相關(guān)聯(lián)。
7. 根據(jù)前述權(quán)利要求中任一項(xiàng)的方法,其中從在包含主實(shí)體的所 選文檔內(nèi)頻繁出現(xiàn)某實(shí)體的上下文中導(dǎo)出表征該實(shí)體的一個(gè)或多個(gè) 特征。
8. 根據(jù)前述權(quán)利要求中任一 項(xiàng)的方法,其中與表征實(shí)體的特征相 關(guān)聯(lián)的值基于相關(guān)聯(lián)的實(shí)體出現(xiàn)所述特征的概率。
9.根據(jù)前述權(quán)利要求中任 一 項(xiàng)的方法,其中從所選文檔提取表征 每個(gè)關(guān)系的特征的步驟包括進(jìn)一步的步驟 使每個(gè)關(guān)系與以下內(nèi)容相關(guān)聯(lián) 關(guān)系類(lèi);和/或 關(guān)系強(qiáng)度;和/或 時(shí)間信息;并且其中生成輸出圖表的步驟包括進(jìn)一步的步驟 在圖表上顯現(xiàn) 關(guān)系類(lèi); 關(guān)系強(qiáng)度; 時(shí)間信息。
10.根據(jù)前述權(quán)利要求中任 一 項(xiàng)的方法,其中基于所提取特征構(gòu) 造圖表的步驟包括進(jìn)一步的步驟 根據(jù)關(guān)系的語(yǔ)義意義將關(guān)系分類(lèi)在預(yù)定類(lèi)別中。
11 .根據(jù)前述權(quán)利要求中任一項(xiàng)的方法,其中基于所提取特征構(gòu) 造圖表的步驟包括進(jìn)一步的步驟 基于節(jié)點(diǎn)間的距離擴(kuò)展圖表;所述步驟包括進(jìn)一步的步驟-選擇一個(gè)或多個(gè)擴(kuò)展的實(shí)體,優(yōu)選地是接近主實(shí)體的實(shí)體; 從非結(jié)構(gòu)化文本提取與所述擴(kuò)展的實(shí)體相關(guān)的關(guān)系和相關(guān)實(shí)
12. 根據(jù)前述權(quán)利要求中任一項(xiàng)的方法,包括從非結(jié)構(gòu)化文本導(dǎo) 入圖案的預(yù)備步驟,所述步驟包括進(jìn)一步的步驟 向非結(jié)構(gòu)化文本的每個(gè)詞附加一個(gè)或多個(gè)不同類(lèi)型的標(biāo)簽; -定義一個(gè)或多個(gè)模板,每個(gè)模板基于標(biāo)簽的序列; 從每個(gè)模板生成一個(gè)或多個(gè)圖案,每個(gè)圖案指定用于模板中每 個(gè)標(biāo)簽的角色。
13. 根據(jù)前述權(quán)利要求中任一項(xiàng)的方法,其中標(biāo)簽是語(yǔ)音標(biāo)簽或 已命名實(shí)體標(biāo)簽或語(yǔ)義標(biāo)簽器或任何其他類(lèi)型的標(biāo)簽。
14. 根據(jù)權(quán)利要求12-13中任一項(xiàng)的方法,其中定義基于標(biāo)簽的 序列的一個(gè)或多個(gè)模板的步驟包括進(jìn)一步的步驟 選擇模板的初始集合; 濾出不太可能的模板。
15. 根據(jù)權(quán)利要求12-14中任一項(xiàng)的方法,其中從每個(gè)模板生成 一個(gè)或多個(gè)圖案的步驟包括進(jìn)一步的步驟 從模板的初始集合生成圖案的初始集合; .將圖案的初始集合中包含的每個(gè)圖案應(yīng)用于非結(jié)構(gòu)化文本,以 針對(duì)每個(gè)圖案獲得盡可能多的與所述圖案匹配的元組,元組是應(yīng)用圖案到非結(jié)構(gòu)化文本的結(jié)果; .識(shí)別信息量最大的圖案。
16. 根據(jù)權(quán)利要求15的方法,其中識(shí)別信息量最大的圖案的步驟 包括進(jìn)一步的步驟.運(yùn)行超文本引導(dǎo)主題選擇(HITS)算法。
17. 根據(jù)權(quán)利要求12-16中任一項(xiàng)的方法,其中每個(gè)圖案針對(duì)模 板中的每個(gè)標(biāo)簽指定該標(biāo)簽是第一實(shí)體、第二實(shí)體還是關(guān)系。
18. —種用于執(zhí)行根據(jù)前述權(quán)利要求中任 一 項(xiàng)的方法的步驟的系統(tǒng)。
19. 一種包括指令的計(jì)算機(jī)程序,用于當(dāng)所述計(jì)算機(jī)程序在計(jì)算 機(jī)系統(tǒng)上執(zhí)行時(shí)執(zhí)行根據(jù)權(quán)利要求1-17中任一項(xiàng)的方法。
20. —種包括用于向客戶端系統(tǒng)分發(fā)根據(jù)權(quán)利要求19的計(jì)算機(jī)程序的裝置的服務(wù)器系統(tǒng)。
全文摘要
本發(fā)明公開(kāi)了用于從非結(jié)構(gòu)化文本自動(dòng)提取和挖掘關(guān)系和相關(guān)實(shí)體的系統(tǒng)、方法和計(jì)算機(jī)程序。更特別地,本發(fā)明涉及一種方法,用于從非結(jié)構(gòu)化文本數(shù)據(jù)提取關(guān)系和相關(guān)實(shí)體,將所提取信息表示為圖表,以及操縱所得圖表以更加了解其包含的信息。首先通過(guò)自動(dòng)導(dǎo)入圖案以及其次通過(guò)將這些導(dǎo)入的圖案應(yīng)用于非結(jié)構(gòu)化文本數(shù)據(jù),執(zhí)行關(guān)系和相關(guān)實(shí)體的提取。對(duì)于每個(gè)關(guān)系和實(shí)體,提取多個(gè)特征以構(gòu)造圖表,其中節(jié)點(diǎn)表示實(shí)體,并且邊表示關(guān)系。本發(fā)明提供如下裝置,其用于開(kāi)發(fā)圖表,并用于導(dǎo)出其他圖表,這些圖表集中于某些時(shí)間幀內(nèi)的關(guān)系或涉及某些特征。這是分別使用時(shí)間圖表和基于特征的圖表來(lái)完成的。兩種方法基本上都查詢與圖表的節(jié)點(diǎn)和邊相關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu)的內(nèi)容。
文檔編號(hào)G06F17/30GK101305366SQ200680041525
公開(kāi)日2008年11月12日 申請(qǐng)日期2006年9月18日 優(yōu)先權(quán)日2005年11月29日
發(fā)明者H·哈桑, H·莫索塔費(fèi) 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司