專利名稱:具有知識生成能力的文檔語義分析/選擇的制作方法
本申請要求1998年9月9日申請的美國臨時申請No.60/099,641的利益。
本發(fā)明涉及用于在語義上分析、選擇和總結(jié)包含特定內(nèi)容或主題的候選文檔的基于計算機的設(shè)備和方法。
已知有基于計算機的文檔搜索處理器用于對因特網(wǎng)和萬維網(wǎng)上的出版物執(zhí)行關(guān)鍵詞搜索?,F(xiàn)在,信息所有者和服務(wù)提供者正使他們的數(shù)據(jù)庫適應(yīng)個人口味和需求。例如,Boston based Agents,Inc.在網(wǎng)絡(luò)上為音樂迷提供個人化的業(yè)務(wù)通訊,從而阻止古典音樂愛好者接收Rap音樂廣告,反之亦然。香港的KD,Inc.已經(jīng)開發(fā)出一個在搜索網(wǎng)絡(luò)的同時考慮在感覺上類似的詞的系統(tǒng)?,F(xiàn)在,用戶可以通過輸入詞“Screen”從網(wǎng)絡(luò)下載10,000個報紙。由KD,Inc.設(shè)計的搜索系統(tǒng)詢問用戶是否他/她正在尋找關(guān)于計算機屏幕、電視屏幕或視窗屏幕的報紙。在這種情況下,無關(guān)報紙的數(shù)目將被徹底減少。
基于軟件的搜索處理器能夠記錄單個用戶的請求并在網(wǎng)絡(luò)上進行個人化的不間斷搜索。因此,當(dāng)用戶在早晨醒來時,他/她發(fā)現(xiàn)與他/她所感興趣的領(lǐng)域有關(guān)的幾個新網(wǎng)絡(luò)報紙的索引和摘要。在1997年,在實際上,所有基礎(chǔ)技術(shù)出版物、期刊、雜志以及所有工業(yè)國家的專利都變得可在網(wǎng)絡(luò)上得到,即可以以電子形式得到。
雖然以關(guān)鍵詞搜索網(wǎng)絡(luò)給用戶提供很大的價值,但它也已經(jīng)產(chǎn)生并且將繼續(xù)產(chǎn)生不利地影響這個價值的實質(zhì)問題-具體地說,因為在網(wǎng)上可用信息的巨大數(shù)量,所以關(guān)鍵詞搜索處理器產(chǎn)生太多的下載信息,而其絕大多數(shù)是與用戶所想要的信息無關(guān)的或不重要的。在響應(yīng)于用戶所考慮的對僅與一特定請求相關(guān)的那幾篇文章的請求而給出幾百篇文章時,許多用戶在失敗中放棄。
這個問題在科學(xué)和工程的技術(shù)領(lǐng)域也存在,特別是因為有越來越多的圖書館、政府專利局、大學(xué)、政府研究中心以及其他用于網(wǎng)絡(luò)訪問的大量技術(shù)和科學(xué)信息的增加。工程師、科學(xué)家和學(xué)者被太多的文章、報紙、專利以及關(guān)于他們所感興趣的主題的一般信息所淹沒。另外,用戶在檢查下載文章以確定其與用戶方案的相關(guān)性時目前只有兩個選擇。他/她可以讀取作者摘要和/或瀏覽全文的各段以確定是否保存或打印出該特定文檔。由于作者摘要不全面,所以它常常省略對用戶所感興趣的特定主題的引用或以不全面的方式論述該主題。因此,瀏覽摘要和瀏覽全文可能幾乎沒有價值并需要用戶花費過多的時間。
已經(jīng)有各種嘗試想要提高選擇的查全率和準確度,例如這里作為參考的美國專利No.5,774,833和5,794,050,但這些方法僅僅依賴于利用基于關(guān)鍵詞的變化或原文短語的所稱理解的各種選擇技術(shù)進行的關(guān)鍵詞或短語搜索。這些現(xiàn)有技術(shù)可能提高了查全率,但仍然需要太多的體力和精神努力和時間來確定為什么選擇該文檔以及相關(guān)部分是什么。這是從在沒有概要或概念產(chǎn)生的情況下而展示的摘要的整個文檔產(chǎn)生的。
依據(jù)本發(fā)明原理的基于計算機的軟件系統(tǒng)和方法解決了上述問題,具有的能力是,以關(guān)鍵詞執(zhí)行對萬維網(wǎng)上或其他網(wǎng)絡(luò)上所有數(shù)據(jù)庫的不間斷搜索以及在語義上為特定技術(shù)功能和特定物理效果處理候選文檔,使得只有滿足搜索條件的非常少的優(yōu)先或一單個文章被展示或識別給用戶。
進一步地,依據(jù)本發(fā)明原理的基于計算機的軟件系統(tǒng)捕獲這些非常少的高度相關(guān)的文檔,并生成由搜索條件指定的精確技術(shù)物理方面的一個壓縮的簡短概述。
本發(fā)明的另一個方面包括使用所選擇文檔的語義分析結(jié)果來生成知識概念的新思想。系統(tǒng)通過分析文檔中所提到的主語、動作和賓語并將這些表示重新組織成這些要素的新的和/或不同的簡檔(profile)來完成這一點。如同下面將要進一步說明的,這些重新組織的在這些要素之間的關(guān)系的一些集合可能包括以前任何人從未想到過的新概念。
依據(jù)本發(fā)明的一個方面,所述方法和設(shè)備開始于用戶輸入與用戶希望獲取出版物或文檔的任務(wù)或概念相關(guān)的自然語言文本。系統(tǒng)分析這個請求文本,并自動以表明詞本身的類型的代碼對每個詞進行標記。一旦該請求中的所有詞都被標記,則系統(tǒng)執(zhí)行一個語義分析,在一個例子中,該語義分析包括確定和存儲在請求的第一句中的動詞組,然后確定和存儲在請求的該句中的名詞組。對請求中的所有句子重復(fù)這個過程。
接著,系統(tǒng)以一個分層算法將每個請求句子語法分析成一個充分表明句子含義的編碼框架。該系統(tǒng)包括各種類型的數(shù)據(jù)庫,以幫助產(chǎn)生編碼框架,例如文法規(guī)則、語法分析規(guī)則、詞典同義詞等等。一旦存儲了語法分析過的句子代碼,系統(tǒng)就識別并存儲每個句子內(nèi)的主語-動作-賓語(SAO)提取。一個句子可以具有一個、兩個或多個SAO提取,下面將會詳細描述。通過根據(jù)下述的特定規(guī)則來處理提取,將每個提取標準化成一個SAO結(jié)構(gòu)。因此,在該請求文本上執(zhí)行的語義分析例程的結(jié)果是表明該請求的內(nèi)容的一系列SAO結(jié)構(gòu)。這些請求SAO結(jié)構(gòu)被應(yīng)用到(1)下述的用于比較候選文檔的SAO結(jié)構(gòu)的比較模塊以及(2)識別關(guān)鍵詞和關(guān)鍵詞組合及其同義詞以便為候選文檔搜索因特網(wǎng)、內(nèi)部網(wǎng)和本地數(shù)據(jù)庫的搜索請求和關(guān)鍵詞發(fā)生器。任何合適的搜索引擎、例如Alta Vista可以用于基于所產(chǎn)生的關(guān)鍵詞來識別、選擇和下載候選文檔。
應(yīng)該理解,如上所述,關(guān)鍵詞搜索產(chǎn)生過多的候選文檔。然而,依據(jù)本發(fā)明的原理,系統(tǒng)在每個候選文檔上執(zhí)行與在用戶輸入搜索請求上執(zhí)行的實質(zhì)相同的語義分析。也就是說,系統(tǒng)為每個候選文檔的每個句子產(chǎn)生一個SAO結(jié)構(gòu),并將其傳送到比較單元,在比較單元,將請求SAO結(jié)構(gòu)與候選文檔SAO結(jié)構(gòu)進行比較。將那些具有與請求SAO結(jié)構(gòu)簡檔大致匹配的SAO結(jié)構(gòu)的少量候選文檔放進一個檢索文檔單元,在該單元中將文檔按相關(guān)性排序。系統(tǒng)然后通過合成與請求SAO結(jié)構(gòu)匹配的文檔的這些SAO結(jié)構(gòu)來概括每個檢索文檔的本質(zhì)(essence),并存儲這個概要,以供用戶顯示或打印。用戶可以在以后讀取該概要并決定顯示或打印或刪除整個檢索文檔及其SAO。
如上所述,將每個恢復(fù)文檔的每個句子的SAO結(jié)構(gòu)存儲在依據(jù)本發(fā)明的系統(tǒng)中。依據(jù)本發(fā)明的知識生成方面,系統(tǒng)分析所有這些存儲的結(jié)構(gòu),識別公共或等效主語和賓語所在的地方,并重新組織、產(chǎn)生、合成新的SAO結(jié)構(gòu)或新的SAO結(jié)構(gòu)串以供用戶考慮。這些新的結(jié)構(gòu)或結(jié)構(gòu)串中的一些可能是唯一的,并且包括對與用戶所請求的主體有關(guān)的問題的新的解決方案。例如,如果存儲了兩個結(jié)構(gòu)S1-A1-O1和S2-A2-O2,并且本系統(tǒng)認識到S2與O1等效或同義或具有其他一些相關(guān)性,則系統(tǒng)將產(chǎn)生并存儲一個概要S1-A1-S2-A2-O2,以供用戶訪問。如果系統(tǒng)存儲了在S1和A2之間的一個關(guān)聯(lián),它可以產(chǎn)生S1-A1/A2-O1來建議O1向所希望結(jié)果的改進。
根據(jù)下面結(jié)合附圖進行的詳細說明,其他和進一步的優(yōu)點和益處將變得更加明顯,其中
圖1是依據(jù)本發(fā)明原理的系統(tǒng)的一個例示實施例的圖示表示。
圖2是依據(jù)本發(fā)明的系統(tǒng)的主要結(jié)構(gòu)部件的示意圖。
圖3是依據(jù)本發(fā)明原理的方法的示意圖。
圖4是圖2的單元16的示意圖。
圖5是圖2的單元20的示意圖。
圖6是圖2的單元22的示意圖。
圖7是用戶輸入的用戶請求文本的典型示例。
圖8是圖7的文本的標記和編碼表示形式。
圖9是圖8的文本的動詞組的識別。
圖10是圖8的編碼文本的名詞組的識別。
圖11是圖8的語法分析的分層編碼文本的表示。
圖12是圖7的文本的SAO提取的表示。
圖13是圖12的提取的SAO結(jié)構(gòu)的表示。
依據(jù)本發(fā)明原理的語義處理系統(tǒng)的一個例示實施例包括CPU12,可以包括帶有標準用戶輸入和輸出驅(qū)動器、例如鍵盤14、鼠標16、掃描儀19、CD閱讀器17及打印機18的通用個人計算機或聯(lián)網(wǎng)服務(wù)器或微型計算機。系統(tǒng)10還包括到LAN、WAN和/或公用或?qū)S媒粨Q網(wǎng)絡(luò)到萬維網(wǎng)的標準通信端口21。
參考圖1-6,語義隊列系統(tǒng)10包括一個臨時存儲器或數(shù)據(jù)庫12,用于接收和存儲從萬維網(wǎng)或局域網(wǎng)上下載的或作為用戶請求文本用鍵盤14或其他一種輸入設(shè)備產(chǎn)生的文檔。用戶可以鍵入請求(下面公開了示例)或輸入全部文檔到DB12中,并將該文檔指定為用戶請求。系統(tǒng)10進一步包括用于接收每個文檔的整個文本的語義處理器14,還包括用一個代碼類型(例如馬爾科夫鏈理論代碼)對每個句子的每個詞進行標記的主語-動作-賓語(SOA)分析器單元16。單元16則識別每個句子內(nèi)的每個動詞組和名詞組(下面將說明),并將每個句子進行語法分析和標準化,使之成為表示句子含義的SAO結(jié)構(gòu)。單元16將其輸出加到SAO結(jié)構(gòu)的DB18。SAO處理器單元20存儲請求SAO結(jié)構(gòu),并接收存儲在單元18中的每個文檔的每個句子的SAO結(jié)構(gòu)。單元20將文檔SAO與請求SAO進行比較,并刪除不匹配的那些文檔。將匹配文檔的SAO結(jié)構(gòu)存儲回單元18或其他一些存儲裝置中。另外,單元20分析在一單個文檔中的SAO結(jié)構(gòu)或用一個或多個其他相關(guān)文檔中的SAO結(jié)構(gòu)來分析SAO結(jié)構(gòu),搜索在S-A-O之間的關(guān)系,并產(chǎn)生新的SAO結(jié)構(gòu)以供用戶考慮。將這些新結(jié)構(gòu)存儲在單元18或系統(tǒng)中的其他一些存儲裝置中。
單元14進一步包括自然語言單元22,用于以表格形式接收SAO結(jié)構(gòu),并將結(jié)構(gòu)合成為自然語言形式、即句子。
單元14還包括鍵盤單元24,用于接收SAO結(jié)構(gòu)并從其中提取關(guān)鍵詞和短語,并獲得它們的同義詞,作為附加關(guān)鍵詞/短語使用。
如圖所示,數(shù)據(jù)庫單元26、28和30從單元14接收輸出,存儲如下所述的所選擇SAO結(jié)構(gòu)的自然語言概要和形成通過端口21發(fā)送到搜索引擎的用戶請求的關(guān)鍵詞/短語。
單元16包括文檔預(yù)格式器32,用于從單元12接收文檔的全文本,并將文本和其他內(nèi)容轉(zhuǎn)換到一個標準純文本格式。文本編碼器34分析文本的每個句子的每個詞,并將一個代碼標記到每個詞上,該代碼指定詞類型,參看圖8。在圖4中指定為44的各種數(shù)據(jù)庫可用于幫助單元16的各個單元。在進行標記之后,識別器單元36識別每個句子的動詞組(圖9)和名詞組(圖10)。句子語法分析器38然后將每個句子語法分析成一個表示句子含義的分層編碼形式。在圖11中,S-A-O提取器40將每個句子的SAO組織成提取表格式(圖12)。然后,標準化器42將該提取標準化為如上所述的SAO結(jié)構(gòu)(圖13)。
SAO處理器20包括三個主要單元。比較單元46從數(shù)據(jù)庫18接收SAO結(jié)構(gòu)。這些結(jié)構(gòu)中的一組來自上述的用戶請求文本,其他組來自候選文檔。單元46然后比較這兩組,以尋找這兩組SAO結(jié)構(gòu)之間的匹配。如果未產(chǎn)生匹配,則刪除候選文檔和相關(guān)SAO。如果識別出一個匹配,則將該文檔標記為相關(guān)的,進行排序,并存儲在單元12中,將其SAO結(jié)構(gòu)存儲在單元18中。單元46然后按順序以上述相同方式比較所有候選文檔。
單元20還包括SAO結(jié)構(gòu)重新組織單元48,用于從涉及同一主題的不同文檔合成新的SAO結(jié)構(gòu),如上所述將其合并成新結(jié)構(gòu),并將其加到單元18。
過濾單元50分析每個文檔的每個SAO結(jié)構(gòu),并阻擋或刪除那些與請求的SAO結(jié)構(gòu)不相關(guān)的SAO結(jié)構(gòu)。
標號52標明一些可用于幫助單元20的子單元的數(shù)據(jù)庫。
SAO合成器單元22(圖6)包括一個用于檢測每個所接收SAO結(jié)構(gòu)的主語的內(nèi)容的主語檢測器54。如果檢測到S,則將SAO送到單元56,在這里,采用文法、語義、語言模式和同義詞規(guī)則數(shù)據(jù)庫66將動詞組的樹結(jié)構(gòu)恢復(fù)成自然語言。合成器58對主語名詞組進行同樣的操作,合成器60對賓語名詞組進行同樣的操作。組合器68然后將這些組組織并組合成一個自然語言句子。
如果單元54未檢測到S,則由合成器62處理SAO結(jié)構(gòu),以恢復(fù)被動形式的動詞組。合成器64為一個被動句子處理賓語名詞組,組合器70將這些組組織并組合成一個自然語言句子。
如果由單元54接收的SAO結(jié)構(gòu)帶有新結(jié)構(gòu)標志,則組合器68和70將其輸出加到單元28,如果它們被標記為現(xiàn)有SAO結(jié)構(gòu),則單元68、70將其輸出加到單元26。參看圖3。
依據(jù)本發(fā)明原理的方法的重要步驟如圖3所示,其中,括號中的標號指的是顯示處理步驟的圖2中的單元。對話開始于用戶輸入一個國家語言請求,該請求可以用鍵盤來定制,或者可以是通過圖1所示的一個輸入設(shè)備輸入的國家語言文檔。一個典型用戶產(chǎn)生如圖7所示的定制請求,系統(tǒng)10的單元14首先用一個類型代碼對每個詞進行標記(參見圖8),然后識別每個句子的動詞組(圖9)和每個句子的名詞組(圖10),然后將每個句子處理成一個分層樹(圖11),以及,然后提取出SAO提取,其中,所有提取出的詞是該請求的原形(圖12)。然后,該方法將這些詞標準化(修改),將每個動作變?yōu)槠洳欢ㄊ健<?,將圖12中的“is isolated”變?yōu)椤癐SOLATE”,詞“to”被省略(圖13)。應(yīng)該理解,不是圖11中出現(xiàn)的主語、動作和賓語的所有屬性都在圖12和13中顯示,但系統(tǒng)知道與SAO要素相聯(lián)系的所有屬性,這些屬性是SAO結(jié)構(gòu)的一部分。并且,如圖13所示,對于最后一個動作沒有列出主語,因為這可以根據(jù)計劃規(guī)則所表明。這個缺少不影響整個方法的可靠性,因為候選文檔中包括A-O isolate-slides的所有句子將被認為是與主語無關(guān)的事情。標準化的SAO在這里被稱為SAO結(jié)構(gòu)。這些用戶請求SAO結(jié)構(gòu)被存儲,并在下列兩個步驟運用(ⅰ)合成用戶請求的關(guān)鍵詞/短語;(ⅱ)比較分析每個候選文檔的每個句子的SAO結(jié)構(gòu),下面將會說明。
將請求SAO結(jié)構(gòu)關(guān)鍵詞/短語存儲和發(fā)送到一個標準搜索引擎,以搜索本地數(shù)據(jù)庫、LAN和/或萬維網(wǎng)中的候選文檔??梢允褂肁ltaVistaTM、YahooTM或其他典型的搜索引擎。采用請求SAO結(jié)構(gòu)關(guān)鍵詞/短語的搜索引擎識別候選文檔,并存儲它們(全文本)以供系統(tǒng)10分析。接著,為每個候選文檔的每個句子重復(fù)如上所述對搜索請求的SAO分析,使得SAO結(jié)構(gòu)被產(chǎn)生并存儲,如圖3所示。另外,每個文檔的SAO結(jié)構(gòu)用在比較步驟中,將請求SAO結(jié)構(gòu)與候選文檔SAO結(jié)構(gòu)進行比較。如果未得到匹配,則從系統(tǒng)刪除文檔和相關(guān)的SAO結(jié)構(gòu)。如果找到一個或多個匹配,則將該文檔和相關(guān)結(jié)構(gòu)標記為相關(guān)的,將其相關(guān)性例如標記為在1.0到10.0的范圍內(nèi)。將全相關(guān)文檔文本永久存儲(即使它以后可以由用戶在需要時刪除),以供用戶根據(jù)需要顯示或打印。相關(guān)SAO結(jié)構(gòu)也被標記為相關(guān)的,并永久存儲。
接著,系統(tǒng)10濾出最不相關(guān)的SAO結(jié)構(gòu),并使用每個相關(guān)文檔的匹配SAO結(jié)構(gòu)來將匹配SAO結(jié)構(gòu)和出現(xiàn)與匹配SAO結(jié)構(gòu)相聯(lián)系的完整句子的頁號合成為自然語言概要句子。這個概要被存儲,并可根據(jù)需要用于用戶顯示或打印。
分析過濾后的相關(guān)文檔的相關(guān)SAO結(jié)構(gòu),以識別所有相關(guān)結(jié)構(gòu)中的主語、動作和賓語之間的關(guān)系。然后,處理SAO結(jié)構(gòu),將其重新組織成新的SAO結(jié)構(gòu)以供存儲,并合成為自然語言新句子。新句子中的一些可以并且可能表達或概述新思想、概念和想法以供用戶考慮。將新句子進行存儲以供用戶顯示或打印。
例如,如果S1-A1-O1S2-A2-O2S3-A3-O3并且S1與O3相同或是O3的同義詞,則將S3-A3-S1-A1-O1合成為一個新句子并存儲。
因此,依據(jù)本發(fā)明的方法和設(shè)備向用戶自動提供直接涉及用戶所請求的感興趣領(lǐng)域的一組新思想,其中一些思想可能是新的并建議對用戶所考慮問題的可能的新解決方案,以及/或者向用戶自動提供與用戶請求直接相關(guān)的特定文檔和特定文檔的相關(guān)部分的概要。
雖然這里已經(jīng)描述了本發(fā)明系統(tǒng)和方法在工程、科學(xué)和醫(yī)學(xué)領(lǐng)域的應(yīng)用,將其應(yīng)用并不限于這些。本發(fā)明可以應(yīng)用到歷史、哲學(xué)、神學(xué)、詩歌、藝術(shù)或使用書寫語言的任何領(lǐng)域。
應(yīng)該理解,在不偏離本發(fā)明的精神和范圍的情況下,可以對這里所公開的例示實施例作出各種提高和改變。
權(quán)利要求
1.一種自然語言文檔分析和選擇系統(tǒng),包括通用計算機,具有監(jiān)視器、中央處理單元(CPU)、用于產(chǎn)生表示一個自然語言請求的請求數(shù)據(jù)的用戶輸入設(shè)備、以及用于與本地和遠程自然語言文檔數(shù)據(jù)庫進行通信的通信設(shè)備,所述CPU包括(ⅰ)用于存儲請求數(shù)據(jù)的第一存儲裝置,(ⅱ)響應(yīng)于接收到請求數(shù)據(jù)而產(chǎn)生請求主語-動作-賓語(SAO)提取的語義處理器,以及(ⅲ)用于存儲請求SAO提取的表示的SAO存儲裝置。
2.如權(quán)利要求1所述的系統(tǒng),其中,所述通信設(shè)備將候選文檔數(shù)據(jù)傳送到所述CPU,以便存儲在所述第一存儲裝置中,候選文檔數(shù)據(jù)表示自然語言文檔文本,所述語義處理器響應(yīng)于接收到候選文檔數(shù)據(jù)而產(chǎn)生候選文檔SAO提取,以及所述SAO存儲裝置還存儲候選文檔SAO提取的表示。
3.如權(quán)利要求2所述的系統(tǒng),其中,所述語義處理器識別在所述請求SAO提取與所述候選文檔SAO提取的所述表示之間的匹配。
4.如權(quán)利要求3所述的系統(tǒng),其中,所述語義處理器包括用于標記相關(guān)候選文檔數(shù)據(jù)的裝置,所述相關(guān)候選文檔數(shù)據(jù)包括與至少一個請求SAO提取的表示相匹配的至少一個候選文檔SAO提取的表示。
5.如權(quán)利要求4所述的系統(tǒng),其中,所述語義處理器包括用于刪除對于不具有與請求SAO提取的表示相匹配的候選文檔SAO提取的表示的那些文檔的所存儲的候選文檔數(shù)據(jù)和所存儲的候選文檔SAO提取的表示的裝置。
6.如權(quán)利要求3所述的系統(tǒng),其中,所述語義處理器包括SAO文本分析器,所述SAO文本分析器具有多個存儲文本格式化規(guī)則、編碼規(guī)則、字標記規(guī)則、SAO識別規(guī)則、語法分析規(guī)則、SAO提取規(guī)則和標準化規(guī)則,將這些規(guī)則應(yīng)用到請求數(shù)據(jù)和候選文檔數(shù)據(jù)上,使得候選文檔SAO提取和請求SAO提取的所述表示分別包括候選文檔和請求SAO結(jié)構(gòu)。
7.如權(quán)利要求6所述的系統(tǒng),進一步包括第二存儲裝置,用于存儲請求SAO結(jié)構(gòu),以及用于將SAO結(jié)構(gòu)作為關(guān)鍵詞/短語加到所述通信設(shè)備上,以便應(yīng)用到萬維網(wǎng)或本地數(shù)據(jù)庫上的文檔搜索引擎,從而將候選文檔數(shù)據(jù)下載到系統(tǒng)。
8.如權(quán)利要求6所述的系統(tǒng),進一步包括SAO合成器,用于響應(yīng)于接收到文檔SAO結(jié)構(gòu)來產(chǎn)生并存儲標記文檔的自然語言概要以供在所述監(jiān)視器上顯示。
9.如權(quán)利要求6所述的系統(tǒng),進一步包括SAO合成器,用于分析在相關(guān)和存儲的SAO結(jié)構(gòu)中的主語、動作和賓語之間的關(guān)系,并處理那些與至少一個其他SAO結(jié)構(gòu)有關(guān)系的SAO結(jié)構(gòu),以產(chǎn)生一個不同SAO結(jié)構(gòu),并存儲所述不同SAO結(jié)構(gòu),以供向用戶顯示。
10.如權(quán)利要求9所述的系統(tǒng),其中,所述關(guān)系包括S1-A1-O1S2-A2-O2其中,S1與O2是同義詞則S2-A2-S1-A1-O1
11.在一個包括萬維網(wǎng)和通用計算機的數(shù)字數(shù)據(jù)處理系統(tǒng)中,其中所述通用計算機具有監(jiān)視器、中央處理單元(CPU)、用戶輸入設(shè)備、以及用于與本地和遠程自然語言文檔數(shù)據(jù)庫進行通信的通信設(shè)備,一種用于分析和選擇自然語言文檔的方法,包括產(chǎn)生表示一個自然語言請求的請求數(shù)據(jù),存儲所述請求數(shù)據(jù),在語義上處理所述請求數(shù)據(jù)以產(chǎn)生請求主語-動作-賓語(SAO)提取,以及存儲所述請求SAO提取的表示。
12.如權(quán)利要求11所述的方法,其中,所述通信設(shè)備將候選文檔數(shù)據(jù)傳送到所述CPU,候選文檔數(shù)據(jù)表示自然語言文檔文本,存儲候選文檔數(shù)據(jù),所述在語義上的處理包括產(chǎn)生與候選文檔數(shù)據(jù)相關(guān)的候選文檔SAO提取,以及存儲候選文檔SAO提取的表示。
13.如權(quán)利要求12所述的方法,其中,所述在語義上的處理包括識別在所述請求SAO提取與所述候選文檔SAO提取的所述表示之間的匹配。
14.如權(quán)利要求13所述的方法,其中,所述在語義上的處理包括標記相關(guān)候選文檔數(shù)據(jù),相關(guān)候選文檔數(shù)據(jù)包括與至少一個請求SAO提取的表示相匹配的至少一個候選文檔SAO提取的表示。
15.如權(quán)利要求14所述的方法,其中,所述在語義上的處理包括刪除對于不具有與請求SAO提取的表示相匹配的候選文檔SAO提取的表示的那些文檔的所存儲的候選文檔數(shù)據(jù)和所存儲的候選文檔SAO提取的表示的訪問。
16.如權(quán)利要求13所述的方法,其中,所述在語義上的處理包括將多個存儲的文本格式化規(guī)則、名詞和動詞識別規(guī)則、編碼規(guī)則、字標記規(guī)則、SAO識別規(guī)則、語法分析規(guī)則、SAO提取規(guī)則和標準化規(guī)則應(yīng)用到請求數(shù)據(jù)和候選文檔數(shù)據(jù)上,使得候選文檔SAO提取的所述表示和請求SAO提取的所述表示分別包括候選文檔和請求SAO結(jié)構(gòu)。
17.如權(quán)利要求16所述的方法,進一步包括存儲請求SAO結(jié)構(gòu),并將SAO結(jié)構(gòu)作為關(guān)鍵詞/短語應(yīng)用到萬維網(wǎng)或本地數(shù)據(jù)庫上的文檔搜索引擎,以便向CPU下載候選文檔數(shù)據(jù)。
18.如權(quán)利要求16所述的方法,進一步包括產(chǎn)生并存儲并在所述監(jiān)視器上顯示與相關(guān)文檔SAO結(jié)構(gòu)有關(guān)的所標記相關(guān)文檔的自然語言概要。
19.如權(quán)利要求16所述的方法,進一步包括分析在相關(guān)和存儲的SAO結(jié)構(gòu)中的主語、動作和賓語之間的關(guān)系,進一步處理那些與至少一個其他相關(guān)的所存儲SAO結(jié)構(gòu)有關(guān)系的SAO結(jié)構(gòu),并根據(jù)所述關(guān)系產(chǎn)生一個不同SAO結(jié)構(gòu),以及存儲所述不同SAO結(jié)構(gòu),并向用戶顯示所述不同SAO結(jié)構(gòu)。
20.如權(quán)利要求19所述的方法,其中,所述關(guān)系包括S1-A1-O1包括一個相關(guān)和存儲的SAO結(jié)構(gòu)S2-A2-O2包括第二個相關(guān)和存儲的SAO結(jié)構(gòu)其中,所述關(guān)系包括S1與O2是同義詞,所述不同SAO結(jié)構(gòu)是S2-A2-S1-A1-O1。
21.如權(quán)利要求19所述的方法,其中,所述關(guān)系包括S1-A1-O1包括一個相關(guān)和存儲的SAO結(jié)構(gòu)S2-A2-O2包括第二個相關(guān)和存儲的SAO結(jié)構(gòu)其中,所述關(guān)系在S1與A2之間,以及,所述不同SAO結(jié)構(gòu)是S1-A1/A2-O2,其中“/”的意思是可替換。
全文摘要
一種基于計算機的軟件系統(tǒng)和方法,用于在語義上處理用戶輸入的自然語言請求,以識別(16)和存儲(18)語言的主語-動作-賓語(SAO)結(jié)構(gòu),采用這個結(jié)構(gòu)作為關(guān)鍵詞/短語(24)來搜索(30)本地和基于萬維網(wǎng)的數(shù)據(jù)庫,以便下載(12)候選自然語言文檔,將候選文檔文本在語義上處理為候選文檔SAO結(jié)構(gòu),并只選擇和存儲其SAO結(jié)構(gòu)包括與所存儲的請求SAO結(jié)構(gòu)的匹配的相關(guān)文檔。進一步的特征包括分析在相關(guān)文檔SAO結(jié)構(gòu)之間的關(guān)系,并根據(jù)這種關(guān)系生成可以產(chǎn)生新的知識概念和思想以供顯示給用戶的新的SAO結(jié)構(gòu)(20),并根據(jù)相關(guān)文檔SAO結(jié)構(gòu)產(chǎn)生和顯示自然語言概要(22,26)。
文檔編號G06F17/27GK1325513SQ99813079
公開日2001年12月5日 申請日期1999年8月31日 優(yōu)先權(quán)日1998年9月9日
發(fā)明者瓦萊里M·楚里科夫, 利奧尼德S·巴奇洛, 伊戈爾V·索夫佩爾 申請人:發(fā)明機器公司