專利名稱:基于文本文檔和用戶問題的語義標(biāo)記的問答系統(tǒng)和方法
技術(shù)領(lǐng)域:
本申請涉及的是基于計算機(jī)的問答系統(tǒng),其中所述系統(tǒng)在文本文檔數(shù)據(jù)庫中執(zhí)行針對用戶使用自然語言表述的問題的確切答案的搜索。
背景技術(shù):
下列美國專利文檔提供了與本申請相關(guān)聯(lián)的技術(shù)的描述1998年8月頒布給 Dahlgren等人的美國專利No. 5,794,050 ;1999年8月頒布給Braden-Harder等人的美國專利No. 5,933,822 ; 1999年10月頒布給Heidorn等人的美國專利No. 5,966,686 ;2001年 6月頒布給Messerly等人的美國專利No. 6,246, 977 ;2001年7月頒布給I^aik等人的美國專利 No. 6,263,335。在基于計算機(jī)的信息檢索系統(tǒng)領(lǐng)域內(nèi)部存在著某些類型的問答OhA)系統(tǒng),這些系統(tǒng)被認(rèn)為是用于提取針對用戶使用自然語言(NL)表述的不同類型的問題的答案的信息系統(tǒng)。這些答案則是從不同的來源(例如文本文檔、百科全書、數(shù)據(jù)庫等等)提取的??紤]到此類查詢,常規(guī)的系統(tǒng)嘗試的是以正式的方式來呈現(xiàn)它們,例如借助于專門的分析。這種嘗試被稱為是NL理解系統(tǒng)。第一種呈現(xiàn)形式是關(guān)鍵字序列,它是由關(guān)鍵字、特定單元等等組成的布爾表達(dá)式。在這種情況下,答案搜索被歸結(jié)成是在文本或是其片段中搜索語句,其中較為理想的是該語句包括來自采用了幾種預(yù)定形式之一的問題的所有關(guān)鍵字。舉個例子,假設(shè)問題"What is the color of octopus blood ?”的答案是借助于模式"the color of octopus blood is"",、‘‘blood of octopus has…color,,等等而從關(guān)于“C0l0r”、“bl00d”和“octopus”的關(guān)鍵字搜索結(jié)果中提取的。然而,這種方法并沒有考慮到該問題的答案有可能存在于句子“!"he octopus blood is blue. ”中,并且這個句子有可能是所有可用來源給出的唯一答案。但在常規(guī)系統(tǒng)中,由于在該句子中缺少關(guān)鍵字“color”,因此不會從該句子中獲取針對初始查詢的答案。通常,如果信息量很大且NL用戶查詢不受限制,那么常規(guī)的關(guān)鍵字搜索處理將會變得非常低效。例如在先前的示例中,如果排除單詞“color”,那么所返回的答案的數(shù)量有可能會大到無法管理,然而包含單詞“color”有可能會導(dǎo)致遺漏非常有用的答案??紤]到此類系統(tǒng)的缺點(diǎn),目前業(yè)已進(jìn)行了進(jìn)一步的調(diào)查研究。計算機(jī)技術(shù)業(yè)已取得了進(jìn)展。它們會對可用信息進(jìn)行預(yù)處理,并且使用包括詞性標(biāo)注、語法分析和語義分析在內(nèi)的語言學(xué)手段來分析用戶問題/文本文檔,由此提供關(guān)于用戶問題/文本文檔的更精確的形式表示。在下文中綜述了涉及此類系統(tǒng)的專利。授予Dahlgren等人的美國專利No. 5,794,050描述的是使用包括素樸(Na'ive)語義詞匯和名詞及動詞短語識別在內(nèi)的NL理解模塊,其中所述模塊接收NL輸入,并且產(chǎn)生一階邏輯(FOL)輸出。授予Braden-Harder等人的美國專利No. 5,933,822以及授予Heidorn等人的美國專利No. 5,966,686描述的是將用戶問題轉(zhuǎn)換成邏輯形式圖(LFG),其中所述邏輯形式圖是邏輯形式三元組的集合。這些專利旨在確定短語中的重要單詞之間的語義關(guān)系(即深層主語、深層賓語等等),然而事實(shí)上,這些LGF方法實(shí)際確定的只是語法上的主語、賓語等等之間的語義關(guān)系,而不是深層主語、深層賓語等等之間的語義關(guān)系。關(guān)于這些方法,應(yīng)該指出的是,在NL處理系統(tǒng)中通常會越來越難添加新的語義規(guī)則。添加新的規(guī)則涉及新的過程邏輯,并且這些過程邏輯有可能與已經(jīng)編制在語義子系統(tǒng)中的過程邏輯相沖突。LFG和FOL的大小及復(fù)雜度使其很難被使用,甚至不能解決很多任務(wù)。然而很明顯,與模擬人類謂語并在文本文檔中搜索答案的算法相結(jié)合的關(guān)于用戶問題 /文本文檔的高級語言學(xué)分析是一種用于構(gòu)建有效的Q-A系統(tǒng)的很有前途的手段。至于語言學(xué)分析的深度,所開發(fā)的這種類型的系統(tǒng)通常只處理這些概念之間的二元關(guān)系。這樣一來,授予Messerly等人的美國專利No. 6,246,977描述的是以邏輯形式“深層主語-動詞-深層賓語”的形式來執(zhí)行文本語義分析,但是,所述及的邏輯形式只是一個語法概念“深層主語”和“深層賓語”只是一個“名詞”,“動詞”則只是一個“本意動詞 (principle verb)”。因此,該專利并未真正表述關(guān)于深層主語、深層賓語等等的確定和分析。授予I^aik等人的美國專利No. 6,263, 355描述了一個與領(lǐng)域無關(guān)并且自動構(gòu)建自己的主題知識庫的信息提取系統(tǒng)。該知識庫的基礎(chǔ)由概念-關(guān)系-概念三元組(CRC)組成, 其中第一概念通常是專有名稱。這種處理是非常簡單且嚴(yán)格定義的深度文本語義分析的一個示例,其依靠的是對那些將概念配對聯(lián)系在一起的二元關(guān)系以及與單個概念相關(guān)聯(lián)的一元關(guān)系所進(jìn)行的識別。該系統(tǒng)通過尋找專用類型的概念和語言暗示而從標(biāo)記了詞性并經(jīng)過語法分析的先前文本中提取語義關(guān)系,其中所述概念和語言暗示包括一些介詞、標(biāo)點(diǎn)或?qū)S枚陶Z。當(dāng)然,在這種情況下,語義分析過程會受到CRC關(guān)系框架的限制。例如,對于因果效應(yīng)關(guān)系的識別有可能僅僅是為那些與某種類型的動詞一起出現(xiàn)的對象執(zhí)行的。盡管如此,這種識別通常需要更廣泛的上下文,并且結(jié)果證明,在通常情況下,該識別應(yīng)該基于一組在文本中自動識別的語義組分,即所謂的“事實(shí)”。舉個例子,此類事實(shí)的組分之一是關(guān)于
7“謂語”的語義概念,這與單純的“動詞”形成了對比。在這種情況下,考慮到所實(shí)施的CRC關(guān)系框架中固有的限制,語義標(biāo)記處理將會需要開發(fā)出大量的模式,而這將會非常耗費(fèi)人力。 最終,這種語義標(biāo)記處理實(shí)際只處理了文本的主題內(nèi)容,而沒有顧及其邏輯內(nèi)容。因此,基于這種語言學(xué)分析的Q-A系統(tǒng)只能回答所謂的事實(shí)類型的問題??偟膩碚f,這樣做會嚴(yán)重限制類似的系統(tǒng)在個人用戶的真實(shí)世界實(shí)踐中的部署。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的方面,在這里提供了一種自動從文本文檔中提取問題答案的問答系統(tǒng)和方法,其中所述問題具有與用戶使用自然語言提出的主題內(nèi)容以及邏輯內(nèi)容相關(guān)聯(lián)的不同特性。所述系統(tǒng)和方法是基于一個語義處理器,其中該語義處理器執(zhí)行文本文檔的預(yù)格式化處理、文本文檔/用戶查詢的基本語言學(xué)分析處理(例如詞匯、詞性、句法和語義分析)以及使用了基本知識類型(例如對象/對象分類,采用因果關(guān)系來反映外部世界/知識領(lǐng)域規(guī)律(regularity)的事實(shí)(fact)和規(guī)則(rule))、其組分和屬性的術(shù)語(例如標(biāo)記)的語義標(biāo)記處理。同時,所述系統(tǒng)和方法可以使用預(yù)先定義的問題類型分類器以及可能的答案組分(用于文本文檔)來為所謂的目標(biāo)單詞執(zhí)行結(jié)合問題類型術(shù)語的語義標(biāo)記處理(由此對人類行為建模)。使用所述及的語義標(biāo)記類型的匹配過程允許發(fā)現(xiàn)針對指定問題的確切答案,并且允許使用語句、片段或是在自然語言中新合成的短語的形式來將其呈現(xiàn)給用戶。與傳統(tǒng)的信息檢索系統(tǒng)相比,該匹配過程的重點(diǎn)轉(zhuǎn)到了對于文本文檔的目標(biāo)語義標(biāo)記處理上。而且, 所述關(guān)于文本文檔/用戶查詢的語義分析允許精確定義答案的語義上下文,并且提供了有效的技術(shù)來開發(fā)關(guān)于文本文檔/用戶查詢的語義標(biāo)記處理所必需的語言學(xué)模式。通過分析用戶信息的必要性以及在文本文檔中表述該信息的語言學(xué)手段,用戶可以在系統(tǒng)分類器中獨(dú)立添加新的問題類型,并且根據(jù)規(guī)定的技術(shù)來開發(fā)必要的語言學(xué)模式。根據(jù)本發(fā)明的一個方面,在這里提供了一種以文本文檔和用戶問題的語義標(biāo)記處理為基礎(chǔ)的問答方法,包括提供與非臨時存儲介質(zhì)相耦合的至少一個計算機(jī)處理器。所述方法還包括采用電子方式接收自然語言文本文檔;采用電子方式接收用自然語言表述的用戶問題;執(zhí)行文本文檔和用戶問題的基本語言學(xué)分析;通過語義分析來執(zhí)行文本文檔的語義標(biāo)記,并且將帶有語義標(biāo)記的文本文檔存儲到帶標(biāo)記文本文檔數(shù)據(jù)庫;通過語義分析來執(zhí)行用戶問題的語義標(biāo)記;在帶標(biāo)記文本文檔數(shù)據(jù)庫中搜索與經(jīng)過語義標(biāo)記的用戶問題有關(guān)的文本片段,其中相關(guān)性是基于與經(jīng)過語義標(biāo)記的用戶問題有關(guān)的文本片段的排序; 以及從相關(guān)的文本片段合成針對用戶問題的答案,并且采用電子方式將合成的答案呈現(xiàn)給用戶。該方法還可以包括將詞性標(biāo)注應(yīng)用于文本文檔和用戶問題,以產(chǎn)生帶標(biāo)注的文本文檔和用戶問題;對帶標(biāo)注的文本文檔和用戶問題進(jìn)行語法分析,以產(chǎn)生經(jīng)過語法分析且?guī)?biāo)注的文本文檔和用戶問題;以及對經(jīng)過語法分析且?guī)?biāo)注的文本文檔和用戶問題進(jìn)行語義分析,以產(chǎn)生經(jīng)過語義分析、語法分析且?guī)?biāo)注的文本文檔和用戶問題。應(yīng)用詞性標(biāo)注是在包含移除了非自然語言符號的文本的預(yù)格式化文本文檔上執(zhí)行的。語義分析可以包括在文本文檔和用戶問題中辨認(rèn)以一個或多個擴(kuò)展的主語-謂
8語-賓語(eSAO)集合的形式的一個或多個事實(shí),其中每一個eSAO集合都具有一個或多個 eSAO組分;以及在文本文檔和用戶問題中辨認(rèn)以eSAO集合中的因果關(guān)系的形式反映外部世界/知識領(lǐng)域的規(guī)律的規(guī)則,其中每一個因果關(guān)系都包括原因eSAO和結(jié)果eSAO。所述一個或多個eSAO組分包括由下列各項(xiàng)組成的群組中的一個或多個元素主語、賓語、謂語、形容詞、介詞、間接賓語以及副詞。所述原因eSAO包括一個或多個eSAO集合中的一個或多個eSAO組分,并且結(jié)果 eSAO包括一個或多個eSAO集合中的一個或多個其他eSAO組分。所述因果關(guān)系包括順序運(yùn)算符,其使用詞法、語法和/或語義的語言學(xué)手段來將原因eSAO的eSAO組分關(guān)聯(lián)于結(jié)果eSAO的其他eSAO組分。在文本文檔和用戶問題中辨認(rèn)一個或多個擴(kuò)展的主語-謂語-賓語(eSAO)集合包括在文本文檔和用戶問題的一個或多個語句中辨認(rèn)一個或多個主語、賓語、謂語、形容詞、介詞、間接賓語以及副詞。在文本文檔和用戶問題中辨認(rèn)一個或多個擴(kuò)展的主語-謂語-賓語(eSAO)集合以及因果關(guān)系包括訪問語言學(xué)知識庫,其具有定義了 eSAO和因果組分的模式的數(shù)據(jù)庫。經(jīng)過語義分析的文本文檔的語義標(biāo)記是基于將經(jīng)過語義分析的文本文檔與基于模式數(shù)據(jù)庫中的語言學(xué)模式的問題分類進(jìn)行匹配,其中所述模式數(shù)據(jù)庫作為語言學(xué)知識庫的一部分。所述方法包括為文本文檔中的文本確定詞性標(biāo)注、句法標(biāo)注、語義標(biāo)記以及 eSAO集合和因果集合;產(chǎn)生eSAO標(biāo)記和因果標(biāo)記;以及將eSAO標(biāo)記和因果標(biāo)記與針對目標(biāo)單詞的問題類型和答案組分的語義標(biāo)記進(jìn)行匹配。經(jīng)過語義分析的用戶問題的語義標(biāo)記是基于將經(jīng)過語義分析的用戶問題與基于模式數(shù)據(jù)庫中的語言學(xué)模式的問題分類進(jìn)行匹配,其中所述模式數(shù)據(jù)庫作為語言學(xué)知識庫的一部分。所述方法包括確定用戶問題中的單詞的詞性標(biāo)注、句法標(biāo)注和語義標(biāo)記,并且從用戶問題的單詞確定eSAO集合和因果集合;從eSAO集合和因果集合中產(chǎn)生eSAO標(biāo)記和因果標(biāo)記;以及將eSAO標(biāo)記和因果標(biāo)記與針對目標(biāo)單詞的問題類型的語義標(biāo)記進(jìn)行匹配。在帶標(biāo)記文本文檔數(shù)據(jù)庫中搜索與經(jīng)過語義標(biāo)記的用戶問題有關(guān)的文本片段是基于將經(jīng)過語義標(biāo)記的用戶問題與來自帶標(biāo)記文本文檔數(shù)據(jù)庫的語句進(jìn)行匹配的。這包括將單詞與語義標(biāo)記進(jìn)行匹配;以及使用相關(guān)度指示來構(gòu)建與用戶問題有關(guān)的語句列表。該方法還可以任選地包括基于每個語句與用戶問題的相關(guān)度來排序來自帶標(biāo)記文本文檔數(shù)據(jù)庫的與用戶問題有關(guān)的語句,其中所述相關(guān)度是根據(jù)用于將來自每個語句的語義信息與來自用戶問題的語義信息進(jìn)行匹配的預(yù)定準(zhǔn)則而確定的。合成答案可以包括以相關(guān)語句的那些原始片段的形式以及新的自然語言短語的形式而執(zhí)行從相關(guān)語句合成針對用戶問題的自然語言答案,其中所述片段在文本文檔的語義標(biāo)記階段被標(biāo)上了答案組分標(biāo)記,所述新的自然語言短語是基于來自根據(jù)eSAO格式的語言學(xué)知識庫的語言學(xué)模式而產(chǎn)生的。根據(jù)本發(fā)明的另一方面,提供一種包含計算機(jī)可讀介質(zhì)的計算機(jī)程序產(chǎn)品,其中所述計算機(jī)可讀介質(zhì)具有其中存儲了計算機(jī)可執(zhí)行的指令,所述指令用于執(zhí)行一種用于基于文本文檔和用戶問題的自動語義標(biāo)記的問答的方法。所述方法包括采用電子方式接收自然語言文本文檔;采用電子方式接收用自然語言表述的用戶問題;執(zhí)行文本文檔和用戶問題的基本語言學(xué)分析;通過語義分析來執(zhí)行文本文檔的語義標(biāo)記,并且將帶有語義標(biāo)記的文本文檔存儲到帶標(biāo)記文本文檔數(shù)據(jù)庫;通過語義分析來執(zhí)行用戶問題的語義標(biāo)記;在帶標(biāo)記文本文檔數(shù)據(jù)庫中搜索與帶語義標(biāo)記的用戶問題有關(guān)的文本片段,其中相關(guān)性是基于與經(jīng)過語義標(biāo)記的用戶問題有關(guān)的文本片段的排序;以及從相關(guān)的文本片段中合成針對用戶問題的答案。所述方法還可以包括采用電子方式來向用戶呈現(xiàn)針對其問題的答案。根據(jù)本發(fā)明的另一方面,提供一種使用了文本文檔和用戶問題的自動語義標(biāo)記的問答系統(tǒng),其中所述文本文檔和用戶問題是用自然語言表述的且采用電子或數(shù)字形式。 所述系統(tǒng)包括語言學(xué)知識庫和語言學(xué)分析器,其產(chǎn)生經(jīng)過語言學(xué)分析的文本文檔和用戶問題,所述語言學(xué)分析器包括語義分析器,所述語義分析器包括擴(kuò)展主語-謂語-賓語 (eSAO)辨認(rèn)器以及因果辨認(rèn)器,其產(chǎn)生經(jīng)過語義分析的文本文檔和用戶問題,這包括基于文本文檔和用戶問題來辨認(rèn)以一個或多個eSAO集的形式的一個或多個事實(shí),其中eSAO和因果辨認(rèn)是基于存儲在語言學(xué)知識庫中的模式的。所述語言學(xué)分析器還可以包括詞性標(biāo)注器,其基于電子或數(shù)字格式的文本文檔和用戶問題來接收預(yù)格式化文本文檔;以及語法分析器,其接收通過詞性標(biāo)注器標(biāo)記的文本文檔和用戶問題并且向語義分析器提供經(jīng)過語法分析的文本文檔和用戶問題,其中所述詞性標(biāo)注器和語法分析器能夠用語言學(xué)知識庫中存儲的數(shù)據(jù)工作。問答系統(tǒng)還可以包括預(yù)格式化器,其接收電子或數(shù)字格式的文本文檔并且產(chǎn)生預(yù)格式化文本文檔;文本文檔標(biāo)記器,其將經(jīng)過語義分析的文本文檔與基于存儲在語言學(xué)知識庫中的語言模式的問題分類進(jìn)行匹配,以及基于經(jīng)過語義分析的文本文檔和所述匹配來產(chǎn)生語義關(guān)系標(biāo)記,由此將經(jīng)過語義標(biāo)記的文本文檔存儲到帶標(biāo)記文本文檔數(shù)據(jù)庫;問題標(biāo)記器,其將經(jīng)過語義分析的用戶問題與基于存儲在語言學(xué)知識庫中的語言模式的問題分類進(jìn)行匹配,并且基于經(jīng)過語義分析的用戶問題以及所述匹配來產(chǎn)生語義關(guān)系標(biāo)記;搜索器,其將經(jīng)過語義標(biāo)記的用戶問題與來自帶標(biāo)記文本文檔數(shù)據(jù)庫的語句進(jìn)行匹配,其中所述搜索器對單詞和語義標(biāo)記進(jìn)行匹配,并且使用相關(guān)度指示來構(gòu)建與用戶問題相關(guān)的語句列表;答案排序器,其對來自帶標(biāo)記文本文檔數(shù)據(jù)庫的與用戶問題相關(guān)的語句進(jìn)行排序, 其中所述排序是根據(jù)每一個語句與用戶問題的相關(guān)度;以及文本合成器,其從相關(guān)的句子中產(chǎn)生針對用戶問題的自然語言答案,并且采用電子方式將其呈現(xiàn)給用戶。預(yù)格式化器被配置成執(zhí)行下列功能中的至少一個移除數(shù)字或電子形式的文本文檔中的不構(gòu)成自然語言文本的一部分的任何符號;檢測并校正文本文檔中的任何錯誤搭配或錯誤;以及將文本劃分成語句和單詞的結(jié)構(gòu)。文本文檔標(biāo)記器被配置成通過匹配單詞、詞性標(biāo)注,句法標(biāo)注、eSAO以及因果集合來將經(jīng)過語義分析的文本文檔與語言學(xué)模式進(jìn)行匹配。文本文檔標(biāo)記器被配置成通過產(chǎn)生eSAO和因果標(biāo)記以及基于與針對目標(biāo)單詞的問題類型和答案組分的語義標(biāo)記的匹配來產(chǎn)生語義關(guān)系標(biāo)記。問題標(biāo)記器被配置成通過匹配單詞、詞性標(biāo)注、句法標(biāo)注、問題單詞標(biāo)記、eSAO以及因果集合來將經(jīng)過語義分析的用戶問題與語言學(xué)模式進(jìn)行匹配。問題標(biāo)記器被配置成通過產(chǎn)生eSAO和因果標(biāo)記以及基于與針對目標(biāo)單詞的問題類型的語義標(biāo)記的匹配來產(chǎn)生語義關(guān)系標(biāo)記。
文本合成器被配置成通過以相關(guān)語句的那些原始片段的形式以及新的自然語言短語的形式產(chǎn)生答案而產(chǎn)生針對用戶問題的自然語言答案,其中所述新的自然語言短語是基于來自根據(jù)eSAO格式的語言學(xué)知識庫的語言學(xué)模式而產(chǎn)生的。所述語義分析器還被配置成從eSAO集合中產(chǎn)生因果關(guān)系,其中每個因果關(guān)系都包括原因eSAO、結(jié)果eSAO以及用于將原因eSAO關(guān)聯(lián)于結(jié)果eSAO的至少一個順序運(yùn)算符。每個eSAO集合都包括eSAO組分,并且原因eSAO包括一個或多個eSAO組分,并且結(jié)果eSAO包括一個或多個eSAO組分,后者不同于原因eSAO的一個或多個eSAO組分。所述一個或多個eSAO組分包括由下列各項(xiàng)組成的群組中的一個或多個元素主語、賓語、謂語、形容詞、介詞、間接賓語以及副詞。
在附圖中舉例描述了優(yōu)選實(shí)施例,但是并未對其進(jìn)行限制。在附圖中,相同的附圖標(biāo)記是指相同或相似的元素。這些附圖未必是按比例繪制的,其重點(diǎn)在于例證本發(fā)明的方面上。圖1是根據(jù)本發(fā)明的方面的在一個或多個計算機(jī)中實(shí)施的以形成問答系統(tǒng)的一組功能模塊或處理器的實(shí)施例的高級架構(gòu)圖。圖2是根據(jù)本發(fā)明的方面的在一個或多個計算機(jī)中實(shí)施的以形成語言學(xué)分析器的一組功能模塊或處理器的實(shí)施例的高級架構(gòu)圖。圖3是根據(jù)本發(fā)明的方面的在一個或多個計算機(jī)中實(shí)施的以形成語義分析器的一組功能模塊的實(shí)施例的高級架構(gòu)圖。圖4A顯示的是根據(jù)本發(fā)明的方面的關(guān)于具體或特定語句的eSAO辨認(rèn)器輸出的實(shí)施例。圖4B示出的是根據(jù)本發(fā)明的方面的關(guān)于另一個具體或特定語句的C-E辨認(rèn)器的輸出示例的實(shí)施例。圖5A和5B示出的是根據(jù)本發(fā)明的方面的基于所描述的語言學(xué)模式獲取的兩個具體或特定問題、其語言學(xué)分析結(jié)果及其形式表示的示例。圖6顯示的是根據(jù)本發(fā)明的方面的計算機(jī)實(shí)施方式的實(shí)施例的架構(gòu)圖,其中在被恰當(dāng)配置時,所述計算機(jī)實(shí)施方式可用于執(zhí)行這里描述的一個或多個功能或方法。圖7是可以實(shí)施本發(fā)明的計算設(shè)備網(wǎng)絡(luò)的實(shí)施例。
具體實(shí)施例方式在下文中將會參考附圖來描述根據(jù)本發(fā)明的說明性實(shí)施例,以對本發(fā)明的方面進(jìn)行描述。雖然描述了這些實(shí)施例,但為了簡明起見,在這里通常會省略關(guān)于眾所周知的項(xiàng)、 功能或配置的詳細(xì)描述。應(yīng)該理解的是,雖然在這里使用了第一、第二等術(shù)語來描述不同部件,但是這些部件不應(yīng)該受到這些術(shù)語的限制。使用這些術(shù)語是為了將一個部件與另一個部件區(qū)分開來, 而不是暗示所需要的部件順序。例如,在不脫離本發(fā)明的范圍的情況下,第一部件可被稱為第二部件,同樣,第二部件也可以被稱為第一部件。這里使用的術(shù)語“和/或”包括所列舉的一個或多個相關(guān)項(xiàng)目的任一或所有組合。
應(yīng)該理解的是,在將某個部件稱為處于另一個部件“之上”或與之“相連”或“耦合”時,該部件既可以直接處于所述另一個部件之上或與之連接或耦合,也可以存在介入其間的部件。與之相反,在將某個部件稱為“直接”處于另一個部件“之上”或者與另一個部件 “直接連接”或“直接耦合”時,這時是不存在介入其間的部件的。用于描述部件之間關(guān)系的其他單詞應(yīng)該以類似的方式來解釋(例如“在……之間”相比于“直接介于……之間”,“鄰接于”相比于“直接鄰接于”等等)。這里使用的術(shù)語只是為了描述特定實(shí)施例,而不是對本發(fā)明進(jìn)行限制。除非在上下文中以別的方式明確指示,否則這里使用的單數(shù)形式“一”、“一個”以及“該”也包括復(fù)數(shù)形式。此外還應(yīng)該理解,這里使用的術(shù)語“包括”、“包含”、“具有”和/或“含有”指示的是存在所聲明的特征、步驟、操作、元素和/或組分,但是并沒有排除存在或者添加一個或多個其他的特征、步驟、操作、元素、組分和/或其群組。本發(fā)明的實(shí)施例涉及一種問答系統(tǒng),其中該系統(tǒng)在文本數(shù)據(jù)庫中執(zhí)行關(guān)于以某種自然語言(NL)表述的用戶查詢的搜索,并且所述系統(tǒng)不但檢索與查詢有關(guān)——也就是包含了針對該問題的確切答案的文本片段(例如語句或是其一部分),而且還檢索以全新的面向問題的最小冗余NL短語的形式合成的答案。本系統(tǒng)的目的是從此類問題類型的預(yù)定集合中檢索針對問題的答案,但是并非嚴(yán)格針對該目的。問題分類是以實(shí)踐Q-A系統(tǒng)的過程中的最常見問題的已知數(shù)據(jù)為基礎(chǔ)的,并且還基于關(guān)于外部世界/學(xué)科領(lǐng)域(subject domain)的三個眾所周知的主要知識類型(事實(shí)上,文本文檔充當(dāng)了這些知識類型的表達(dá)手段)。這些知識類型是在文本DB的索引/標(biāo)記階段辨認(rèn)的,特別地,它們允許對答案的語義上下文進(jìn)行限制。用戶則配備了用于創(chuàng)建和包含其對所述的問題集合呈現(xiàn)出興趣的新問題類型的機(jī)制。舉例來說,該系統(tǒng)對從用戶那里接收的問題以及數(shù)據(jù)庫(DB)中的文本文檔執(zhí)行語言學(xué)分析,并且依照主要知識類型及其組分來對所述問題和文本文檔執(zhí)行語義標(biāo)記處理。同時,該系統(tǒng)還依照問題類型以及可能的答案的組分來為所謂的“目標(biāo)詞法單元”標(biāo)記文本(對于文本文檔而言)。該系統(tǒng)使用了與人類行為相對應(yīng)的文本標(biāo)記模型來執(zhí)行該處理。在這種情況下,匹配過程會使用所述的語義標(biāo)記類型,并且允許發(fā)現(xiàn)針對所提出 (posted)的問題的確切答案。如有必要,所述答案可以基于所辨認(rèn)的知識類型及其組分的語義標(biāo)記并以新的NL短語的形式來合成。在下文中將基于自動語義標(biāo)記處理的問答系統(tǒng)稱為Q-A系統(tǒng)150或系統(tǒng)150,并且在這里可以參考圖1的例示實(shí)施例來了解根據(jù)本發(fā)明的方面的所述系統(tǒng)的一個實(shí)施例。 Q-A系統(tǒng)150對接收到的用戶問題70進(jìn)行處理,在帶標(biāo)記文本文檔數(shù)據(jù)庫50存儲的先前已被處理的文本文檔中對該問題的答案進(jìn)行搜索,以及將其以答案130的形式提供給用戶。 該答案包括來自文本文檔的初始短語,并且在需要時還包括以此為基礎(chǔ)合成的NL短語。在本實(shí)施例中,Q-A系統(tǒng)150包括預(yù)格式化器20 (用于預(yù)格式化初始文本文檔),語言學(xué)分析器30(用于對預(yù)格式化的文本進(jìn)行語言學(xué)分析),文本文檔標(biāo)記器(用于構(gòu)建文本文檔的搜索索引,并且創(chuàng)建帶標(biāo)記文本文檔數(shù)據(jù)庫50),語言學(xué)分析器80 (用于對用戶問題進(jìn)行語言學(xué)分析),問題標(biāo)記器90 (用于構(gòu)建關(guān)于問題的搜索索引),搜索器100 (用于在帶標(biāo)記文本文檔數(shù)據(jù)庫中搜索該問題的答案),答案排序器110 (用于對Q-A系統(tǒng)150檢索到的用戶問題70的答案進(jìn)行排序,所述排序可以基于相關(guān)性),以及文本合成器120(用于以文本文檔的原始片段和合成的NL短語的形式來形成用戶問題70的答案)。Q-A系統(tǒng)150的模塊的功能可以在由至少一個處理器執(zhí)行并且存儲在語言學(xué)知識庫60內(nèi)部的計算機(jī)程序代碼中實(shí)現(xiàn)。作為替換或補(bǔ)充,語義處理功能可以在硬件、固件或是前述各項(xiàng)的組合中實(shí)現(xiàn),這一點(diǎn)對于這里描述的其他功能模塊或處理器來說也是成立的。語言學(xué)知識庫60可以包括不同的數(shù)據(jù)庫,例如詞典、分類器、統(tǒng)計數(shù)據(jù)等等,以及對用于文本-單詞拆分的語言學(xué)模式或語言學(xué)模式進(jìn)行辨認(rèn),并且辨認(rèn)名詞和動詞短語、主語、 賓語、謂語及其屬性、辨認(rèn)因果關(guān)系等等的數(shù)據(jù)庫。預(yù)格式化器20執(zhí)行的文本預(yù)格式化處理優(yōu)選是依照美國專利7,251,781中描述的技術(shù)執(zhí)行的,在本文中,預(yù)格式化文本的處理包括從文本中移除非自然語言符號,例如標(biāo)點(diǎn)。圖2示出的是可以包含語言學(xué)分析器30的模塊的一個實(shí)施例。語言學(xué)分析器30 對來自預(yù)格式化器20的預(yù)格式化文本進(jìn)行處理,以產(chǎn)生經(jīng)過語義分析的文本16。預(yù)格式化文本12由詞性標(biāo)注器32接收,所述詞性標(biāo)注器32確定詞性標(biāo)注并且將其應(yīng)用于預(yù)格式化文本12。然后,語法分析器34對經(jīng)過POS標(biāo)記的文本進(jìn)行語法分析,以供語義分析器300 進(jìn)行處理。在本實(shí)施例中,POS標(biāo)注器32和語法分析器34執(zhí)行的功能優(yōu)選是依照美國專利7,251,781中描述的技術(shù)執(zhí)行的。圖3示出的是可以包括語義分析器300的模塊的一個實(shí)施例。語義分析器300接收經(jīng)過語法分析的文本14,并且產(chǎn)生經(jīng)過語義分析的文本16。該語義分析器300具有一個 eSAO辨認(rèn)器310和C-E辨認(rèn)器320,其中eSAO辨認(rèn)器執(zhí)行的是擴(kuò)展的主語-謂語-賓語 (eSAO)語義關(guān)系(或關(guān)聯(lián))辨認(rèn),并且發(fā)現(xiàn)以eSAO集合形式的eSAO,而C-E識別器320則在eSAO內(nèi)和/或其之間執(zhí)行因果語義關(guān)系(或關(guān)聯(lián))辨認(rèn)。eSAO類型的語義關(guān)系是主語 (S)-謂語(A)-賓語(0)類型的關(guān)系,其中包括諸如這些組分的介詞、間接賓語、形容詞和副詞之類的屬性。圖4A示出的是由eSAO辨認(rèn)器310在文本中為以下句子執(zhí)行的辨認(rèn)eSAO類型的語義關(guān)系的示例The maximum value of χ is dependent of the ionic radius of the lanthanide element。應(yīng)該指出的是,在一般情況下,主語、賓語和間接賓語具有與語義關(guān)系相對應(yīng)的內(nèi)在結(jié)構(gòu)(組分本身及其屬性)參數(shù),整體-部分等等。在本文中,eSAO關(guān)系辨認(rèn)優(yōu)選是根據(jù)美國專利7,251,781執(zhí)行的。根據(jù)本實(shí)施例來確定因果關(guān)系的處理包括將作為原因的一個或多個eSAO(完整和不完整的)與作為結(jié)果的一個或多個eSAO(同樣是完整和不完整的)配對。應(yīng)該指出的是,單個eSAO有可能同時產(chǎn)生原因eSAO和結(jié)果eSAO。此外,從知識工程和自然語言特殊性的角度來看,因果關(guān)系是可以在單獨(dú)的eSAO中被發(fā)現(xiàn)的。C-E辨認(rèn)器320使用了來自語言學(xué)知識庫60的語言學(xué)模式來檢測處于單個eSAO 內(nèi)部以及介于不同eSAO之間的文本語句中的因果關(guān)系。 圖4B示出的是C-E辨認(rèn)器320依照語言學(xué)知識庫60中給出的語言學(xué)模式而在輸入語句的兩個eSAO中辨認(rèn)的因果關(guān)系。 The register contains the proper bit pattern to begin its shift-out operation.
優(yōu)選地,在本文中,因果關(guān)系辨認(rèn)是根據(jù)美國專利申請No. 20060041424中描述的技術(shù)執(zhí)行的。語言學(xué)分析器30在語義分析階段中在輸入文本中設(shè)置的語義標(biāo)記(主語I賓語間接賓語、eSA0、C-E)與外部世界/學(xué)科領(lǐng)域的知識的三個主要類型(即對象,事實(shí)以及
反映了外部世界/知識領(lǐng)域規(guī)律的規(guī)則)相對應(yīng),其與詞法、語法和句法標(biāo)注一起實(shí)際覆蓋了輸入文本的所有詞法單位,并且提供了基于計算機(jī)的有效技術(shù)來根據(jù)用途開發(fā)出用于未來的文本語義標(biāo)記處理的語言學(xué)模式,其中所述用途針對的是目標(biāo)語義標(biāo)記處理。該技術(shù)的思想在于語言學(xué)分析器30由此為專家提供了在不依靠語言和知識領(lǐng)域的情況下將新標(biāo)記的語義關(guān)系的特定示例與不同語言學(xué)分析等級的標(biāo)記“纏繞(wrap) ”在一起的能力,其中所述語言學(xué)分析等級可以是詞法、語法、句法和語義。用戶可以通過在計算機(jī)屏幕上高亮顯示文本片段中的相應(yīng)單詞來規(guī)定組合這個新標(biāo)記的語義關(guān)系。這樣一來,由于語言學(xué)分析器可以訪問語言學(xué)模式使用的文本分析等級,因此,語言學(xué)分析器30給予了概括出用于辨認(rèn)文本中的語義關(guān)系的語言學(xué)模式的能力,并且另一方面還能在功能上支持基于所創(chuàng)建的模式而在文本中辨認(rèn)語義關(guān)系的處理,因?yàn)檎Z言學(xué)分析器可以訪問由語言學(xué)模式使用的文本分析的級別。可以對話題內(nèi)容以及邏輯內(nèi)容進(jìn)行這種辨認(rèn)。所描述的語義標(biāo)記方法以及創(chuàng)建所需要的語言學(xué)模式的技術(shù)由文本文檔標(biāo)記器 40使用,以創(chuàng)建有效的文本文檔搜索索引。在這里可以預(yù)先為Q-A系統(tǒng)150供應(yīng)作為目標(biāo)問題的主問題類型的分類器62,其中該分類器代表的是語言學(xué)知識庫60中的組分之一。以此為基礎(chǔ)并且考慮到了對于問題的確切答案的檢索通常需要對用戶查詢(或問題)/文本文檔進(jìn)行語言學(xué)以及語義方面的分析,并且還需要用于對其進(jìn)行匹配的過程,該過程的策略重點(diǎn)部分轉(zhuǎn)移到了文本文檔的目標(biāo)語義標(biāo)記處理階段。在這個階段,在文本中將會基于語言學(xué)模式來辨認(rèn)所謂的目標(biāo)單詞。對于目標(biāo)單詞來說,人們可以為這種單詞提出具有來自所定義的分類的類型的問題。這種單詞被指定了相應(yīng)問題類型的標(biāo)記及其上下文的某些組分的標(biāo)記。這種組分存在針對這些問題的潛在的回答。由于目標(biāo)單詞以及給出其上下文的單詞是eSAO和因果類型的語義關(guān)系的組分(并且具有相應(yīng)的語義標(biāo)記),因此,創(chuàng)建所需要的語言學(xué)模式的處理是根據(jù)上述有效方法執(zhí)行的。同時,如果目標(biāo)單詞屬于某個語義分類,那么還會考慮目標(biāo)單詞有可能會回答關(guān)于該單詞的直接問題,由此在沒有辨認(rèn)其意義或是辨認(rèn)了其意義的情況下將其作為所述及的語義關(guān)系的組分。此后,答案的語義上下文將被設(shè)置的非常嚴(yán)格。由于eSAO格式非常嚴(yán)格,因此,用于以NL短語的形式來正確合成問題答案的所有先決條件都是存在的。由此,經(jīng)過語言學(xué)分析的文本文檔將會前進(jìn)至文本文檔標(biāo)記器40,其中該標(biāo)記器首先注冊其詞法、語法和語義標(biāo)注以及語義標(biāo)記,然后則基于語言學(xué)知識庫60中設(shè)置的問題分類以及相應(yīng)的語言學(xué)模式來執(zhí)行其目標(biāo)語義標(biāo)記處理。舉個例子,假設(shè)系統(tǒng)150處理的文本文檔10中的一個句子是Da Vinci was 51 years old when he painted Mona Lisa.在由預(yù)格式化器20以及語言學(xué)分析器30處理之后,這時將會獲得如下陳述(為了簡單起見,主語和賓語的內(nèi)部結(jié)構(gòu)中的標(biāo)記“主/屬性”將被省略)
權(quán)利要求
1.一種基于文本文檔和用戶問題的自動語義標(biāo)記的問答方法,所述方法包括提供與非臨時存儲介質(zhì)相耦合的至少一個計算機(jī)處理器,所述至少一個計算機(jī)處理器執(zhí)行所述方法,包括采用電子方式接收自然語言文本文檔; 采用電子方式接收用自然語言表述的用戶問題; 執(zhí)行文本文檔和用戶問題的基本語言學(xué)分析;通過語義分析來執(zhí)行文本文檔的語義標(biāo)記,并且將帶有語義標(biāo)記的文本文檔存儲到帶標(biāo)記文本文檔數(shù)據(jù)庫;通過語義分析來執(zhí)行用戶問題的語義標(biāo)記;在帶標(biāo)記文本文檔數(shù)據(jù)庫中搜索與經(jīng)過語義標(biāo)記的用戶問題有關(guān)的文本片段,其中相關(guān)性是基于與經(jīng)過語義標(biāo)記的用戶問題有關(guān)的文本片段的排序;以及從相關(guān)的文本片段合成針對用戶問題的答案,并且采用電子方式將合成的答案呈現(xiàn)給用戶。
2.根據(jù)權(quán)利要求1所述的方法,還包括將詞性標(biāo)注應(yīng)用于文本文檔和用戶問題,以產(chǎn)生帶標(biāo)注的文本文檔和用戶問題; 對帶標(biāo)注的文本文檔和用戶問題進(jìn)行語法分析,以產(chǎn)生經(jīng)過語法分析且?guī)?biāo)注的文本文檔和用戶問題;以及對經(jīng)過語法分析且?guī)?biāo)注的文本文檔和用戶問題進(jìn)行語義分析,以產(chǎn)生經(jīng)過語義分析、語法分析且?guī)?biāo)注的文本文檔和用戶問題。
3.根據(jù)權(quán)利要求2所述的方法,其中應(yīng)用詞性標(biāo)注是在包含移除了非自然語言符號的文本的預(yù)格式化文本文檔上執(zhí)行的。
4.根據(jù)權(quán)利要求2所述的方法,其中語義分析包括在文本文檔和用戶問題中辨認(rèn)以一個或多個擴(kuò)展的主語-謂語-賓語(eSAO)集合的形式的一個或多個事實(shí),其中每一個eSAO集合都具有一個或多個eSAO組分;以及在文本文檔和用戶問題中辨認(rèn)以eSAO集合中的因果關(guān)系的形式反映外部世界/知識領(lǐng)域的規(guī)律的規(guī)則,其中每一個因果關(guān)系都包括原因eSAO和結(jié)果eSAO。
5.根據(jù)權(quán)利要求4所述的方法,其中所述一個或多個eSAO組分包括由下列各項(xiàng)組成的群組中的一個或多個元素主語、賓語、謂語、形容詞、介詞、間接賓語以及副詞。
6.根據(jù)權(quán)利要求4所述的方法,其中所述原因eSAO包括一個或多個eSAO集合中的一個或多個eSAO組分,并且結(jié)果eSAO包括一個或多個eSAO集合中的一個或多個其他eSAO 組分。
7.根據(jù)權(quán)利要求6所述的方法,其中所述因果關(guān)系包括順序運(yùn)算符,其使用詞法、語法和/或語義的語言學(xué)手段來將原因eSAO的eSAO組分關(guān)聯(lián)于結(jié)果eSAO的其他eSAO組分。
8.根據(jù)權(quán)利要求4所述的方法,其中在文本文檔和用戶問題中辨認(rèn)一個或多個擴(kuò)展的主語-謂語-賓語(eSAO)集合包括在文本文檔和用戶問題的一個或多個語句中辨認(rèn)一個或多個主語、賓語、謂語、形容詞、介詞、間接賓語以及副詞。
9.根據(jù)權(quán)利要求4所述的方法,其中在文本文檔和用戶問題中辨認(rèn)一個或多個擴(kuò)展的主語-謂語-賓語(eSAO)集合以及因果關(guān)系包括訪問語言學(xué)知識庫,其具有定義了 eSAO 和因果組分的模式的數(shù)據(jù)庫。
10.根據(jù)權(quán)利要求1所述的方法,其中經(jīng)過語義分析的文本文檔的語義標(biāo)記是基于將經(jīng)過語義分析的文本文檔與基于模式數(shù)據(jù)庫中的語言學(xué)模式的問題分類進(jìn)行匹配,其中所述模式數(shù)據(jù)庫作為語言學(xué)知識庫的一部分,所述方法包括為文本文檔中的文本確定詞性標(biāo)注、句法標(biāo)注、語義標(biāo)記以及eSAO集合和因果集合; 產(chǎn)生eSAO標(biāo)記和因果標(biāo)記;以及將eSAO標(biāo)記和因果標(biāo)記與針對目標(biāo)單詞的問題類型和答案組分的語義標(biāo)記進(jìn)行匹配。
11.根據(jù)權(quán)利要求1所述的方法,其中經(jīng)過語義分析的用戶問題的語義標(biāo)記是基于將經(jīng)過語義分析的用戶問題與基于模式數(shù)據(jù)庫中的語言學(xué)模式的問題分類進(jìn)行匹配,其中所述模式數(shù)據(jù)庫作為語言學(xué)知識庫的一部分,所述方法包括確定用戶問題中的單詞的詞性標(biāo)注、句法標(biāo)注和語義標(biāo)記,并且從用戶問題的單詞確 SeSAO集合和因果集合;從eSAO集合和因果集合中產(chǎn)生eSAO標(biāo)記和因果標(biāo)記;以及將eSAO標(biāo)記和因果標(biāo)記與針對目標(biāo)單詞的問題類型的語義標(biāo)記進(jìn)行匹配。
12.根據(jù)權(quán)利要求1所述的方法,其中在帶標(biāo)記文本文檔數(shù)據(jù)庫中搜索與經(jīng)過語義標(biāo)記的用戶問題有關(guān)的文本片段是基于將經(jīng)過語義標(biāo)記的用戶問題與來自帶標(biāo)記文本文檔數(shù)據(jù)庫的語句進(jìn)行匹配的,包括將單詞與語義標(biāo)記進(jìn)行匹配;以及使用相關(guān)度指示來構(gòu)建與用戶問題有關(guān)的語句列表。
13.根據(jù)權(quán)利要求1的方法,還包括基于每個語句與用戶問題的相關(guān)度來排序來自帶標(biāo)記文本文檔數(shù)據(jù)庫的與用戶問題有關(guān)的語句,其中所述相關(guān)度是根據(jù)用于將來自每個語句的語義信息與來自用戶問題的語義信息進(jìn)行匹配的預(yù)定準(zhǔn)則而確定的。
14.根據(jù)權(quán)利要求1所述的方法,其中合成答案包括以相關(guān)語句的那些原始片段的形式以及新的自然語言短語的形式而執(zhí)行從相關(guān)語句合成針對用戶問題的自然語言答案,其中所述片段在文本文檔的語義標(biāo)記階段被標(biāo)上了答案組分標(biāo)記,所述新的自然語言短語是基于來自根據(jù)eSAO格式的語言學(xué)知識庫的語言學(xué)模式而產(chǎn)生的。
15.—種包含計算機(jī)可讀介質(zhì)的計算機(jī)程序產(chǎn)品,其中所述計算機(jī)可讀介質(zhì)具有其中存儲了計算機(jī)可執(zhí)行的指令,所述指令用于執(zhí)行一種用于基于文本文檔和用戶問題的自動語義標(biāo)記的問答的方法,所述方法包括采用電子方式接收自然語言文本文檔; 采用電子方式接收用自然語言表述的用戶問題; 執(zhí)行文本文檔和用戶問題的基本語言學(xué)分析;通過語義分析來執(zhí)行文本文檔的語義標(biāo)記,并且將帶有語義標(biāo)記的文本文檔存儲到帶標(biāo)記文本文檔數(shù)據(jù)庫;通過語義分析來執(zhí)行用戶問題的語義標(biāo)記;在帶標(biāo)記文本文檔數(shù)據(jù)庫中搜索與帶語義標(biāo)記的用戶問題有關(guān)的文本片段,其中相關(guān)性是基于與經(jīng)過語義標(biāo)記的用戶問題有關(guān)的文本片段的排序;以及從相關(guān)的文本片段中合成針對用戶問題的答案。
16.權(quán)利要求15所述的計算機(jī)程序產(chǎn)品,其中所述方法還包括采用電子方式來向用戶呈現(xiàn)針對其問題的答案。
17.一種使用了文本文檔和用戶問題的自動語義標(biāo)記的問答系統(tǒng),其中所述文本文檔和用戶問題是用自然語言表述的且采用電子或數(shù)字形式,所述系統(tǒng)包括語言學(xué)知識庫和語言學(xué)分析器,其產(chǎn)生經(jīng)過語言學(xué)分析的文本文檔和用戶問題,所述語言學(xué)分析器包括語義分析器,所述語義分析器包括擴(kuò)展主語-謂語-賓語(eSAO)辨認(rèn)器以及因果辨認(rèn)器,其產(chǎn)生經(jīng)過語義分析的文本文檔和用戶問題,這包括基于文本文檔和用戶問題來辨認(rèn)以一個或多個eSAO集的形式的一個或多個事實(shí),其中eSAO和因果辨認(rèn)是基于存儲在語言學(xué)知識庫中的模式的。
18.根據(jù)權(quán)利要求17所述的問答系統(tǒng),其中所述語言學(xué)分析器還包括詞性標(biāo)注器,其基于電子或數(shù)字格式的文本文檔和用戶問題來接收預(yù)格式化文本文檔;以及語法分析器,其接收通過詞性標(biāo)注器標(biāo)記的文本文檔和用戶問題并且向語義分析器提供經(jīng)過語法分析的文本文檔和用戶問題,其中所述詞性標(biāo)注器和語法分析器能夠用語言學(xué)知識庫中存儲的數(shù)據(jù)工作。
19.根據(jù)權(quán)利要求18所述的問答系統(tǒng),還包括預(yù)格式化器,其接收電子或數(shù)字格式的文本文檔并且產(chǎn)生預(yù)格式化文本文檔; 文本文檔標(biāo)記器,其將經(jīng)過語義分析的文本文檔與基于存儲在語言學(xué)知識庫中的語言模式的問題分類進(jìn)行匹配,以及基于經(jīng)過語義分析的文本文檔和所述匹配來產(chǎn)生語義關(guān)系標(biāo)記,由此將經(jīng)過語義標(biāo)記的文本文檔存儲到帶標(biāo)記文本文檔數(shù)據(jù)庫;問題標(biāo)記器,其將經(jīng)過語義分析的用戶問題與基于存儲在語言學(xué)知識庫中的語言模式的問題分類進(jìn)行匹配,并且基于經(jīng)過語義分析的用戶問題以及所述匹配來產(chǎn)生語義關(guān)系標(biāo)記;搜索器,其將經(jīng)過語義標(biāo)記的用戶問題與來自帶標(biāo)記文本文檔數(shù)據(jù)庫的語句進(jìn)行匹配,其中所述搜索器對單詞和語義標(biāo)記進(jìn)行匹配,并且使用相關(guān)度指示來構(gòu)建與用戶問題相關(guān)的語句列表;答案排序器,其對來自帶標(biāo)記文本文檔數(shù)據(jù)庫的與用戶問題相關(guān)的語句進(jìn)行排序,其中所述排序是根據(jù)每一個語句與用戶問題的相關(guān)度;以及文本合成器,其從相關(guān)的句子中產(chǎn)生針對用戶問題的自然語言答案,并且采用電子方式將其呈現(xiàn)給用戶。
20.根據(jù)權(quán)利要求19所述的問答系統(tǒng),其中預(yù)格式化器被配置成執(zhí)行下列功能中的至少一個移除數(shù)字或電子形式的文本文檔中的不構(gòu)成自然語言文本的一部分的任何符號; 檢測并校正文本文檔中的任何錯誤搭配或錯誤;以及將文本劃分成語句和單詞的結(jié)構(gòu)。
21.根據(jù)權(quán)利要求19所述的問答系統(tǒng),其中文本文檔標(biāo)記器被配置成通過匹配單詞、 詞性標(biāo)注,句法標(biāo)注、eSAO以及因果集合來將經(jīng)過語義分析的文本文檔與語言學(xué)模式進(jìn)行匹配。
22.根據(jù)權(quán)利要求19所述的問答系統(tǒng),其中文本文檔標(biāo)記器被配置成通過產(chǎn)生eSAO和因果標(biāo)記以及基于與針對目標(biāo)單詞的問題類型和答案組分的語義標(biāo)記的匹配來產(chǎn)生語義關(guān)系標(biāo)記。
23.根據(jù)權(quán)利要求19所述的問答系統(tǒng),其中問題標(biāo)記器被配置成通過匹配單詞、詞性標(biāo)注、句法標(biāo)注、問題單詞標(biāo)記、eSAO以及因果集合來將經(jīng)過語義分析的用戶問題與語言學(xué)模式進(jìn)行匹配。
24.根據(jù)權(quán)利要求19所述的問答系統(tǒng),其中問題標(biāo)記器被配置成通過產(chǎn)生eSAO和因果標(biāo)記以及基于與針對目標(biāo)單詞的問題類型的語義標(biāo)記的匹配來產(chǎn)生語義關(guān)系標(biāo)記。
25.根據(jù)權(quán)利要求19所述的問答系統(tǒng),其中文本合成器被配置成,通過以相關(guān)語句的那些原始片段的形式以及新的自然語言短語的形式產(chǎn)生答案而產(chǎn)生針對用戶問題的自然語言答案,其中所述新的自然語言短語是基于來自根據(jù)eSAO格式的語言學(xué)知識庫的語言學(xué)模式而產(chǎn)生的。
26.根據(jù)權(quán)利要求17所述的問答系統(tǒng),其中所述語義分析器還被配置成從eSAO集合中產(chǎn)生因果關(guān)系,其中每個因果關(guān)系都包括原因eSAO、結(jié)果eSAO以及用于將原因eSAO關(guān)聯(lián)于結(jié)果eSAO的至少一個順序運(yùn)算符。
27.根據(jù)權(quán)利要求沈所述的問答系統(tǒng),其中每個eSAO集合都包括eSAO組分,并且原因 eSAO包括一個或多個eSAO組分,并且結(jié)果eSAO包括一個或多個eSAO組分,后者不同于原因eSAO的一個或多個eSAO組分。
28.根據(jù)權(quán)利要求27所述的問答系統(tǒng),其中所述一個或多個eSAO組分包括由下列各項(xiàng)組成的群組中的一個或多個元素主語、賓語、謂語、形容詞、介詞、間接賓語以及副詞。
全文摘要
一種基于文本文檔和用戶問題的語義標(biāo)記處理而在以電子或數(shù)字形式提供的文本文檔中搜索針對用戶以自然語言表述的問題的確切答案的問答系統(tǒng)。該系統(tǒng)依照具有基本知識類型的標(biāo)記、其組分和屬性、依照來自預(yù)定分類器且關(guān)于目標(biāo)單詞的問題類型以及依照可能的答案的組分來執(zhí)行語義標(biāo)記處理。匹配過程使用了所述及的語義標(biāo)記類型來確定問題的確切答案,并且以語句片段或是在自然語言中新合成的短語的形式將其呈現(xiàn)給用戶。用戶可以獨(dú)立地向系統(tǒng)分類器中添加新的問題類型,并且為系統(tǒng)語言學(xué)知識庫開發(fā)出所需要的語言學(xué)模式。
文檔編號G06F17/21GK102439595SQ201080020564
公開日2012年5月2日 申請日期2010年3月12日 優(yōu)先權(quán)日2009年3月13日
發(fā)明者D·帕斯塔諾豪, I·索夫佩爾, J·托德亨特 申請人:發(fā)明機(jī)器公司