專利名稱:確認(rèn)技術(shù)文檔內(nèi)容的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種通過(guò)信息提取然后將所提取出的信息與一組規(guī)則相比較從而對(duì)文檔特別是技術(shù)文檔的內(nèi)容進(jìn)行確認(rèn)的方法和系統(tǒng)。
背景技術(shù):
當(dāng)前,大多數(shù)信息是以電子文檔或文件的形式從一個(gè)人轉(zhuǎn)移到另一個(gè)人或者是從一個(gè)地方轉(zhuǎn)移到另一個(gè)地方的,這些信息主要以文本的形式表示出來(lái)。文本型電子文檔的形式非常多。其包括較短格式的電子郵件、布告信息、新聞、法律文檔、科學(xué)研究論文、完整的新聞雜志或期刊、以及整整的書集或百科全書。在這些文檔中,我們能定義其中一類并將其歸類于技術(shù)文檔。
技術(shù)文檔在這里被定義為那些符合一組通常可接受的規(guī)則或者甚至是有關(guān)特定形式規(guī)則的文檔。簡(jiǎn)單地說(shuō),這類規(guī)則可將技術(shù)文檔的內(nèi)容按照“who(誰(shuí))”“what(什么)”“when(何時(shí))”“where(何地)”“how(如何)”進(jìn)行說(shuō)明。即,這些規(guī)則會(huì)提出如下的問(wèn)題●“文檔中希望表達(dá)的實(shí)體是什么?”●“實(shí)體的有效印刷表示形式是什么?”●“如果有的話,文檔的邏輯部分是什么?”●“實(shí)體與文檔的哪一部分相關(guān)聯(lián)?”●“如果可行的話,實(shí)體在文檔中按什么順序表示出來(lái)?”●“文檔中不同實(shí)體之間的關(guān)系如何?”盡管所有的文檔均可適用于這些規(guī)則,但對(duì)于技術(shù)文檔來(lái)說(shuō)相對(duì)于這種規(guī)則總存在著兩個(gè)事實(shí),而這兩個(gè)事實(shí)對(duì)于非技術(shù)文檔來(lái)說(shuō)并不總是成立。這兩個(gè)事實(shí)是●技術(shù)文檔不滿足至少一個(gè)這些規(guī)則的即表明該文檔對(duì)于熟悉該文檔主題的人員來(lái)說(shuō)是不完整的或者是無(wú)效的;以及●技術(shù)文檔能滿足所有這些規(guī)則的即表明該文檔對(duì)于熟悉該文檔主題的人員來(lái)說(shuō)是完整并且完全有效的。
換句話說(shuō),只有技術(shù)文檔才具有完全清晰的文法結(jié)構(gòu),從而在形式上完全符合一組有限的規(guī)則或者是確認(rèn)說(shuō)明,并且確保有唯一的一組規(guī)則適用于屬于某一特定主題的所有技術(shù)文檔。
這些技術(shù)文檔例如可包括●用來(lái)制造食品的原料表;●一公司客戶產(chǎn)品的用戶手冊(cè);●程序語(yǔ)言中的各種計(jì)算機(jī)程序的程序指令;●用來(lái)在互聯(lián)網(wǎng)上生成網(wǎng)頁(yè)的超文本結(jié)構(gòu)語(yǔ)言;●列明化學(xué)產(chǎn)品的化學(xué)及物理特性的化學(xué)數(shù)據(jù)表;●餐館的菜單;●公司產(chǎn)品線如計(jì)算機(jī)、汽車甚至是房子的銷售冊(cè)子。
在許多工業(yè)領(lǐng)域中,技術(shù)文檔通常都表示一種通用及方便的方法,通過(guò)該方法,一類產(chǎn)品的不同生產(chǎn)商能讓客戶將他們的產(chǎn)品與其它生產(chǎn)商的產(chǎn)品進(jìn)行對(duì)比。
此外,在已經(jīng)建立起的大中型工業(yè)中,通常有一個(gè)或多個(gè)管理組織,其作用(其中之一)是在其工業(yè)領(lǐng)域中在所有的產(chǎn)品上建立并盡可能地推行某些標(biāo)準(zhǔn)。這些標(biāo)準(zhǔn)可以是有關(guān)產(chǎn)品質(zhì)量的標(biāo)準(zhǔn),也可以是工作地點(diǎn)安全的標(biāo)準(zhǔn)等。在存在管理組織的情況下,技術(shù)文檔被用來(lái)確定一件產(chǎn)品是否符合這些標(biāo)準(zhǔn)的相關(guān)規(guī)定。
通常的情況是,符合要求包括技術(shù)文檔內(nèi)容的完整性以及該文檔中所述的產(chǎn)品符合標(biāo)準(zhǔn)的程度。這是因?yàn)橹挥挟?dāng)與該產(chǎn)品相關(guān)的信息(即技術(shù)文檔的內(nèi)容)是完整準(zhǔn)確的,才能判斷一產(chǎn)品是否符合規(guī)定。
確定是否符合的任務(wù)最終要落到該管理組織中的一個(gè)或多個(gè)人員上,其必須讓專家經(jīng)培訓(xùn)后知道這組規(guī)則從而確定是否符合(或不符合)一技術(shù)文檔以及其所描述的產(chǎn)品。實(shí)際上,通常需要用到專家的知識(shí)才能掌握一產(chǎn)品的相關(guān)技術(shù)信息,這一點(diǎn)限制了消費(fèi)者使其不能完整地評(píng)估出一產(chǎn)品的質(zhì)量。
由此,確保一產(chǎn)品信息的完整性以及確保一產(chǎn)品符合標(biāo)準(zhǔn)的任務(wù)就從非專業(yè)的消費(fèi)者轉(zhuǎn)移到管理組織中經(jīng)過(guò)訓(xùn)練(即專業(yè))的人員。
然而,這里還存在一個(gè)問(wèn)題就是專家,由于他們具有非常專業(yè)的知識(shí),因此其數(shù)量有限。在人員上,不可能有一群專家來(lái)評(píng)估每一市場(chǎng)段中所有信息的質(zhì)量,這里,產(chǎn)品的品種數(shù)以百萬(wàn),而且還有許多新的產(chǎn)品不斷加入。
因此,唯一一種切實(shí)可行的對(duì)技術(shù)文檔進(jìn)行確認(rèn)的方法就是采用對(duì)總體采樣的方法。也就是說(shuō),監(jiān)控當(dāng)局的官員僅核對(duì)現(xiàn)有所有技術(shù)文檔中的一個(gè)隨機(jī)(至少是半隨機(jī))部分。這就意味著大多數(shù)進(jìn)入市場(chǎng)段的技術(shù)文檔在到達(dá)產(chǎn)品用戶之前未經(jīng)確認(rèn),其中有相當(dāng)一部分會(huì)包含錯(cuò)誤或者是不完整的信息從而有可能導(dǎo)致產(chǎn)品的用戶處于危險(xiǎn)的狀態(tài)。
技術(shù)文檔的確認(rèn)絕對(duì)是一個(gè)適于自動(dòng)處理的問(wèn)題?,F(xiàn)有的用來(lái)自動(dòng)解決這一問(wèn)題的方法是由專家來(lái)進(jìn)行,其通常以規(guī)則的形式來(lái)將他們的知識(shí)“編碼”成一個(gè)專門的計(jì)算機(jī)程序,然后再由該程序“模擬”專家的分析過(guò)程來(lái)試圖解決一個(gè)問(wèn)題或者是回答一個(gè)問(wèn)題(如,“本文檔中的這個(gè)信息是否正確和完整?”),事實(shí)上,專家系統(tǒng)僅表示一個(gè)專門的計(jì)算機(jī)程序,這種程序現(xiàn)在已有許多應(yīng)用?,F(xiàn)有專家系統(tǒng)包括
公開(kāi)日為2000年4月11日的、Jacobs等人的、名稱為“System for screening of medical decision making incorporatinga knowledge base”的美國(guó)專利文獻(xiàn)US6,049,794;
公開(kāi)日為1996年12月10日的、McIlroy等人的、名稱為“Health care management system for managingmedical treatments and comparing user proposed and recommended resourcesfor treatment”的美國(guó)專利文獻(xiàn)US5,583,758;
公開(kāi)日為1989年2月7日的、Hardy等人的、名稱為“Basic expert system tool”的美國(guó)專利文獻(xiàn)US4,803,641;以及
公開(kāi)日為1997年4月8日的、Puckett的、名稱為“Diagnostic expert system for hierarchically decomposed knowledge domains”的美國(guó)專利文獻(xiàn)US5,619,621。
然而,純粹的專家系統(tǒng),如上述的專家系統(tǒng),需要以一種完全一致的并且結(jié)構(gòu)化的格式來(lái)輸入數(shù)據(jù)。它們通常被實(shí)施為問(wèn)題回答系統(tǒng)以便一個(gè)(非專業(yè)的)用戶輸入需要核實(shí)或確認(rèn)的信息。換句話說(shuō),在對(duì)文檔內(nèi)容進(jìn)行確認(rèn)的領(lǐng)域中,用戶必須作為一個(gè)“有學(xué)問(wèn)的人”,其能夠提取出具有不同布局或者是不同格式結(jié)構(gòu)的不同電子文檔中的對(duì)應(yīng)實(shí)體,然后將所提取出來(lái)的數(shù)據(jù)以統(tǒng)一的格式提交給專家系統(tǒng)以便評(píng)估。
這樣的專家系統(tǒng)僅能解決一部分問(wèn)題。對(duì)于其它的問(wèn)題,即那些需要大量煩雜人工勞動(dòng)來(lái)將文檔的內(nèi)容轉(zhuǎn)錄給專家系統(tǒng)的問(wèn)題來(lái)說(shuō),自然語(yǔ)言處理(natural language processing,NLP)提供了一種解決方案。特別是信息提取系統(tǒng)形式的NLP系統(tǒng),其能學(xué)習(xí)從而識(shí)別出一特定領(lǐng)域中有意義的實(shí)體,然后將這類實(shí)體從其前面沒(méi)有遇到的文檔的相同領(lǐng)域中提取出來(lái)。
信息提取領(lǐng)域中的現(xiàn)有技術(shù)包括
公開(kāi)日為2001年7月17日的、Paik等人的、名稱為“Information extraction system and method usingconcept-relation-concept(CRC)triples”的美國(guó)專利文獻(xiàn)US6,263,335;
公開(kāi)日為1998年11月24日的、Huffman的、名稱為“Method for learning localsyntactic relationships for use in example-based information-extraction-patternlearning”的美國(guó)專利文獻(xiàn)US5,841,895;
公開(kāi)日為2001年4月3日的、Boguraev的、名稱為“Method for extracting knowledge from onlinedocumentation and creating a glossary,index,help database or the like”的美國(guó)專利文獻(xiàn)US6,212,494;以及
公開(kāi)日為2001年2月15日的、發(fā)明人為紐約Columbia University的Trustees的、名稱為“System and method forlanguage extraction and encoding”的國(guó)際專利申請(qǐng)文獻(xiàn)WO01/11,492。
一個(gè)純粹的信息提取系統(tǒng),如上述的信息提取系統(tǒng),自己不會(huì)提取一種用來(lái)解決文檔內(nèi)容確認(rèn)問(wèn)題的方案。這是因?yàn)檫@類系統(tǒng)不能判斷出每一實(shí)體語(yǔ)意的正確性。因此該任務(wù)仍需要由一專家系統(tǒng)來(lái)實(shí)現(xiàn)。
然而,如果僅將一專家系統(tǒng)與一信息提取系統(tǒng)簡(jiǎn)單地組合起來(lái)那也不行——專家系統(tǒng)還有其它的特性,這些特性使得這些專家系統(tǒng)不適于解決文檔內(nèi)容自動(dòng)確認(rèn)的問(wèn)題。
專家系統(tǒng)中的一個(gè)使其無(wú)法直接適用于該問(wèn)題領(lǐng)域的限制條件是,專家系統(tǒng)在本質(zhì)上是通過(guò)一種類似于錯(cuò)誤診斷的漸進(jìn)過(guò)程來(lái)工作的,其中要用系統(tǒng)和用戶之間一系列的問(wèn)題和回答來(lái)“逐層分析”有待揭示的特定毛病。也就是說(shuō),用戶在開(kāi)始可以不知道專家系統(tǒng)進(jìn)行診斷所需要的所有信息。這就使該系統(tǒng)僅能以中間問(wèn)題的形式提供一種部分解決方案從而從用戶引出后面的信息。如此重復(fù)這個(gè)過(guò)程直到最后系統(tǒng)消除所有可能存在的毛病。
專家系統(tǒng)這種處理過(guò)程的主要問(wèn)題是假定毛病均已被檢查出來(lái)(但還沒(méi)識(shí)別出來(lái)),但是在所描述的問(wèn)題領(lǐng)域所需的系統(tǒng)中,毛病檢測(cè)本身就是系統(tǒng)的第一件任務(wù)。
除了專家系統(tǒng)和信息提取系統(tǒng)之外,在1999年11月16日公開(kāi)的、Crockett等人的、名稱為“Automated document checking tool for checkingsufficiency of documentation of program instructions”的美國(guó)專利文獻(xiàn)US5,987,251中還公開(kāi)一種方法。該方法試圖克服上述限制。然而,該方法意味著僅能以一次一類程序指令的方式進(jìn)行內(nèi)容確認(rèn)。所有的程序語(yǔ)言共享相同的屬性,因此它們的語(yǔ)法和句法被準(zhǔn)確地定義下來(lái)。由此,從一程序代碼提取出各個(gè)語(yǔ)法標(biāo)記,所有這些每次都需要一種復(fù)雜的手工剖析器來(lái)從所有代碼完整正確地提取所有的信息。相比而言,本發(fā)明所要解決的問(wèn)題并無(wú)法假定出一種準(zhǔn)確的語(yǔ)法和句法,因?yàn)檫@是人類語(yǔ)言的本性。
因此,現(xiàn)有的技術(shù)不能滿足上述問(wèn)題的需要,這里需要更為復(fù)雜的技術(shù)才能進(jìn)行文檔內(nèi)容的自動(dòng)確認(rèn)從而滿足上述問(wèn)題領(lǐng)域分析的要求。
發(fā)明內(nèi)容
本發(fā)明的一個(gè)方面是提供一種用來(lái)在一自由文本文檔上進(jìn)行內(nèi)容確認(rèn)的方法。該方法從自由文本文檔中提取出多個(gè)半結(jié)構(gòu)化的表述。該方法將一邏輯推理機(jī)應(yīng)用于該半結(jié)構(gòu)化表述上。該方法對(duì)該邏輯推理機(jī)的輸出進(jìn)行翻譯以便用于后續(xù)的操作。
本發(fā)明的另一個(gè)方面是提供一種用來(lái)在一自由文本文檔上進(jìn)行內(nèi)容確認(rèn)的系統(tǒng)。該系統(tǒng)包括提取裝置、應(yīng)用裝置以及翻譯裝置。其中提取裝置在操作上從自由文本文檔中提取出多個(gè)半結(jié)構(gòu)化的表述。其中的應(yīng)用裝置在操作上將一邏輯推理機(jī)應(yīng)用于該半結(jié)構(gòu)化表述上。其中的翻譯裝置在操作上對(duì)該邏輯推理機(jī)的輸出進(jìn)行翻譯以便用于后續(xù)的操作。
本發(fā)明的另一個(gè)方面是提供一種文檔自動(dòng)確認(rèn)系統(tǒng),其經(jīng)訓(xùn)練能夠提取出特定領(lǐng)域的實(shí)體以及與它們文字關(guān)聯(lián)的物理特性、抽象特性或者是關(guān)系特性,這一點(diǎn)如電子文檔中所描述的那樣。系統(tǒng)的訓(xùn)練可通過(guò)一組示例文檔來(lái)實(shí)現(xiàn),這些文檔表示了該領(lǐng)域并由一領(lǐng)域?qū)<乙阅撤N方式手工標(biāo)出從而識(shí)別出各種類型的實(shí)體以及與它們關(guān)聯(lián)的一組可記錄的特性。帶著一專門領(lǐng)域詞匯(如詞典),該訓(xùn)練后的系統(tǒng)就能自動(dòng)處理屬于同一領(lǐng)域的新的文檔,并能在任意數(shù)目的內(nèi)容條件規(guī)則上測(cè)試所提取出的信息,這些規(guī)則必須由該領(lǐng)域?qū)<抑付◤亩_認(rèn)出新文檔的完整性和有效性。
本發(fā)明能夠提供一種方法和系統(tǒng)以便將該領(lǐng)域?qū)<宜峁┑拇笮瓦壿?、關(guān)系或者是定量規(guī)則庫(kù)應(yīng)用于無(wú)結(jié)構(gòu)或者半結(jié)構(gòu)化的技術(shù)文檔,作為選擇可帶有一個(gè)或多個(gè)大型的外部知識(shí)庫(kù),從而分析出所述文檔內(nèi)容的正確性。正確性的評(píng)估是以是否符合預(yù)定組規(guī)則的形式以及所述文檔中的內(nèi)容是否存在矛盾或不一致來(lái)進(jìn)行的。
現(xiàn)在參考附圖以非限定性示例的形式來(lái)描述本發(fā)明的實(shí)施例,其中圖1是本發(fā)明一實(shí)施例的文檔內(nèi)容確認(rèn)系統(tǒng)的示意圖;圖2是圖1系統(tǒng)操作的流程圖;圖3是由一組確認(rèn)規(guī)則生成的邏輯網(wǎng)絡(luò)的示意圖;
圖4由特定一組確認(rèn)規(guī)則生成的一特定邏輯網(wǎng)絡(luò)的特定示例;圖5更為詳細(xì)地展示了圖2方法中信息提取部分示例的示意圖;圖6展示了圖4的邏輯網(wǎng)絡(luò)在圖5中提取出的信息上的操作;以及圖7為圖2整個(gè)流程圖中一部分的流程圖。
具體實(shí)施例方式
本文描述了一種用來(lái)確認(rèn)技術(shù)文檔內(nèi)容的方法、裝置和計(jì)算機(jī)程序產(chǎn)品。然而本領(lǐng)域技術(shù)人員都知道本發(fā)明也可在缺少其中一部分細(xì)節(jié)的情況下實(shí)施。在某些情況下,公知的特征并未詳細(xì)描述從而使本發(fā)明更加清楚。
這里所描述的是一種用來(lái)對(duì)各種格式的電子的自由文本文檔進(jìn)行自動(dòng)內(nèi)容確認(rèn)的方法和系統(tǒng),其指定出文檔中所引用的實(shí)體的定性屬性、定量屬性、關(guān)系屬性或者是邏輯屬性。該系統(tǒng)和方法從該文檔中識(shí)別并提取出多個(gè)半結(jié)構(gòu)化表述,例如,一文檔中所引用的專門領(lǐng)域的實(shí)體以及該文檔中與這些實(shí)體相關(guān)聯(lián)的屬性。由該領(lǐng)域?qū)<疑傻娜斯ひ?guī)則應(yīng)用到這些實(shí)體上以及從每一文檔提出來(lái)的與它們語(yǔ)言相關(guān)聯(lián)的涵義上。基于規(guī)則對(duì)實(shí)體涵義和關(guān)系的正確性進(jìn)行評(píng)估。
本發(fā)明的一個(gè)實(shí)施例帶有一個(gè)信息提取(information extraction-----IE)機(jī),其能識(shí)別出給定問(wèn)題領(lǐng)域中所出現(xiàn)的專門領(lǐng)域的實(shí)體,以及一文檔中與這些實(shí)體相關(guān)的定性屬性、定量屬性、關(guān)系屬性或邏輯屬性。還可提供一規(guī)則庫(kù)。該規(guī)則庫(kù)表示成一個(gè)簡(jiǎn)單的條件-操作條款的列表,并且在從這個(gè)領(lǐng)域人工確認(rèn)一文檔的內(nèi)容時(shí)其表示一專家的邏輯“檢驗(yàn)表”。
一實(shí)體的“定性”屬性通常表示一名詞實(shí)體旁邊的修飾性的或描述性的短語(yǔ)。例如,在短語(yǔ)“一種高燃料效率的發(fā)動(dòng)機(jī)”中,短語(yǔ)“高燃料效率”用作實(shí)體“發(fā)動(dòng)機(jī)”的定性屬性。同時(shí)在短語(yǔ)“低拖拽系數(shù)”中,術(shù)語(yǔ)“低”表示實(shí)體“拖拽系數(shù)”的定性屬性。
一實(shí)體的“定量”屬性通常表示與一名詞實(shí)體相關(guān)聯(lián)的某一測(cè)量單位的某一數(shù)目,其自身可表示另一實(shí)體的某種可測(cè)量的性質(zhì)。例如,在短語(yǔ)“沸點(diǎn)100攝氏度”中,短語(yǔ)“100攝氏度”表示實(shí)體“沸點(diǎn)”的定量屬性,其自身應(yīng)與另外某一實(shí)體相關(guān)聯(lián)。同樣,在短語(yǔ)“糖2到3勺”中,術(shù)語(yǔ)“2到3勺”表示實(shí)體“糖”的定量屬性。
一實(shí)體的“關(guān)系”屬性通常表示某種比較性的或者是位置性的術(shù)語(yǔ)/短語(yǔ),從而在一實(shí)體與另一個(gè)或另幾個(gè)實(shí)體之間形成一種關(guān)系。例如,在短語(yǔ)“緊急情況的優(yōu)先級(jí)高于非緊急情況”中,短語(yǔ)“優(yōu)先級(jí)高于”表示實(shí)體“緊急情況”相對(duì)于實(shí)體“非緊急情況”的對(duì)比關(guān)系屬性。同時(shí),在短語(yǔ)“部件X與部件Y相連”中,術(shù)語(yǔ)“與……相連”表示實(shí)體“部件X”和實(shí)體“部件Y”之間的位置關(guān)系屬性。
一實(shí)體的“邏輯”屬性通常表示某一實(shí)體可能處于的兩位狀態(tài),其中之一為真,另一為假。例如,在短語(yǔ)“水未檢測(cè)出”中,短語(yǔ)“未檢測(cè)出”表示實(shí)體“水”邏輯屬性。
附圖中相同的附圖標(biāo)記表示相同的特性或步驟。
參見(jiàn)圖1,所示為本發(fā)明一實(shí)施例中文檔內(nèi)容確認(rèn)系統(tǒng)10的示意圖。該文檔內(nèi)容確認(rèn)系統(tǒng)10包括一個(gè)信息提取模塊12、一規(guī)則翻譯模塊14、其包含一推理機(jī)16、一提取出的元數(shù)據(jù)存儲(chǔ)單元18、一確認(rèn)報(bào)告和標(biāo)準(zhǔn)化元數(shù)據(jù)存儲(chǔ)單元20以及一用戶接口22。
文檔內(nèi)容確認(rèn)系統(tǒng)10從一自由文本文檔24(其包含有文本、一個(gè)或多個(gè)圖像、聲音、視頻或者是它們的組合)并以一組確認(rèn)規(guī)則26的形式接收輸入。文檔24是一個(gè)其內(nèi)容需要進(jìn)行確認(rèn)的文檔。該組確認(rèn)規(guī)則26由該領(lǐng)域一專家提供,或者是通過(guò)某種自動(dòng)或半自動(dòng)的處理獲得。規(guī)則翻譯模塊14中的推理機(jī)16、邏輯網(wǎng)絡(luò)則基于該組確認(rèn)規(guī)則26自動(dòng)構(gòu)造。
提取出的元數(shù)據(jù)存儲(chǔ)單元18保存有中間形成的元數(shù)據(jù),其表示的是從所處理的文檔24提取出的信息。信息提取模塊12從自由文本的電子文檔24提取出半結(jié)構(gòu)化的信息或者是元數(shù)據(jù)。所提取出來(lái)的信息臨時(shí)保存在提取出的元數(shù)據(jù)存儲(chǔ)單元18,以便由規(guī)則翻譯模塊14進(jìn)行進(jìn)一步的處理。該規(guī)則翻譯模塊14從提取出的元數(shù)據(jù)存儲(chǔ)單元18接收提取出來(lái)的信息,然后將所提取出來(lái)的元數(shù)據(jù)傳送通過(guò)推理機(jī)16,其是確認(rèn)規(guī)則26組的內(nèi)部表示。保存在確認(rèn)報(bào)告中以及標(biāo)準(zhǔn)化元數(shù)據(jù)存儲(chǔ)單元20中的確認(rèn)報(bào)告和標(biāo)準(zhǔn)化的元數(shù)據(jù)表示的是規(guī)則翻譯模塊14對(duì)所提取的元數(shù)據(jù)18進(jìn)行評(píng)估的評(píng)估結(jié)果。
盡管我們可將圖1所示系統(tǒng)中的各個(gè)模塊嵌入到硬件中,但圖1中的文檔內(nèi)容確認(rèn)系統(tǒng)10是嵌在計(jì)算機(jī)上的,這里的進(jìn)程由一處理器來(lái)控制,在本申請(qǐng)中該處理器為中央處理單元(CPU)27。各個(gè)模塊之間通過(guò)一總線28進(jìn)行通訊。文檔24和確認(rèn)規(guī)則通過(guò)一進(jìn)/出端口29輸入進(jìn)來(lái),并輸?shù)娇偩€28上,并由此分別輸入到信息提取模塊12和規(guī)則翻譯模塊14。所提取的元數(shù)據(jù)18以及確認(rèn)報(bào)告和標(biāo)準(zhǔn)化的元數(shù)據(jù)20保存在計(jì)算機(jī)存儲(chǔ)器上,其可是易失存存儲(chǔ)器也可是非易失存存儲(chǔ)器。用戶接口通常是一個(gè)帶有鍵盤的屏幕。
信息提取模塊12包括一個(gè)本領(lǐng)域公知的信息提取機(jī),例如前面提到的在先公開(kāi)的專利文獻(xiàn)US6,263,335、US5,841,895、US6,212,494或者是WO01/11,492,其也可是其它具有類似功能的系統(tǒng)。該信息提取模塊12采用NLP技術(shù),其中將一種含糊的人類語(yǔ)法(例如)教給計(jì)算機(jī)系統(tǒng)。
該信息提取模塊12負(fù)責(zé)從所輸入的電子文檔24提取出半結(jié)構(gòu)化表述,如文本實(shí)體以及與它們文字關(guān)聯(lián)的屬性。該信息提取(IE)機(jī)通過(guò)教導(dǎo)能夠識(shí)別出一給定問(wèn)題領(lǐng)域中出現(xiàn)的特定領(lǐng)域的實(shí)體,以及這些實(shí)體的定性屬性、定量屬性、關(guān)系屬性或者是邏輯屬性。
該規(guī)則翻譯模塊包括一個(gè)規(guī)則機(jī),其負(fù)責(zé)由外部規(guī)則組26構(gòu)造出推理機(jī)16。該推理機(jī)16對(duì)從一文檔提取出的每一個(gè)實(shí)體進(jìn)行評(píng)估,并直接或間接亮顯那些不能滿足規(guī)則組中一個(gè)或多個(gè)規(guī)則的實(shí)體,同時(shí)為每一個(gè)失敗點(diǎn)引用觸發(fā)規(guī)則。
確認(rèn)規(guī)則26組中的每一條規(guī)則都可與一條容易理解的說(shuō)明相關(guān)聯(lián)從而使用戶能夠理解下面這些要求失敗的規(guī)則以及對(duì)文檔內(nèi)容所進(jìn)行的必要更正從而避免未來(lái)該規(guī)則后續(xù)的失敗。
該系統(tǒng)既可以交互的方式工作也可以非交互的方式工作,以便對(duì)單個(gè)的文檔進(jìn)行確認(rèn)或者是以批處理的方式對(duì)多個(gè)文檔進(jìn)行確認(rèn)。對(duì)于交互方式來(lái)說(shuō),一操作員通過(guò)一用戶接口來(lái)控制系統(tǒng),將電子文檔送入系統(tǒng)以便確認(rèn)。其可一次送入一個(gè)文檔,也可自動(dòng)的送入多個(gè)文檔,其間只需在一文檔失敗需要更正時(shí)才參與進(jìn)來(lái)。該系統(tǒng)對(duì)一文檔進(jìn)行處理并通過(guò)用戶接口將該文檔確認(rèn)檢查的結(jié)果提交給操作員。然后,該操作員對(duì)該文檔的內(nèi)容進(jìn)行適當(dāng)?shù)母僮鳎⑵湓俅瓮ㄟ^(guò)該系統(tǒng)從而確認(rèn)所有的錯(cuò)誤已被更正,并且其中沒(méi)有引入新的錯(cuò)誤。在當(dāng)前這個(gè)文檔通過(guò)確認(rèn)檢查之后,將下一個(gè)文檔通過(guò)系統(tǒng)并重復(fù)上面的工作流程。在批處理的情況下,可將多個(gè)電子文檔作為一列表提交給系統(tǒng),系統(tǒng)將在沒(méi)有操作員幫助的情況下一個(gè)一個(gè)地進(jìn)行確認(rèn)。對(duì)于其中發(fā)現(xiàn)有確認(rèn)錯(cuò)誤的每一個(gè)文檔來(lái)說(shuō),系統(tǒng)會(huì)在列表中亮顯該文檔,并為該文檔生成一個(gè)對(duì)應(yīng)的確認(rèn)錯(cuò)誤的日志。
圖2為圖1中文檔內(nèi)容確認(rèn)系統(tǒng)10所進(jìn)行的文檔內(nèi)容確認(rèn)處理S30的流程,以及一些準(zhǔn)備操作。
在本實(shí)施例中,準(zhǔn)備操作包括客戶化信息提取模塊12(步驟S32),生成并輸入確認(rèn)規(guī)則26組(步驟S34),對(duì)確認(rèn)規(guī)則26組進(jìn)行解析并構(gòu)造推理機(jī)16(步驟S36)。這些準(zhǔn)備操作在這里以一種特定的序列顯示出來(lái),其中客戶化信息提取模塊12(步驟S32)也可與其它兩個(gè)操作步驟同時(shí)進(jìn)行,或者是安排在這兩個(gè)操作步驟之間或之后。當(dāng)然,確認(rèn)規(guī)則26需要在其被解析(步驟S36)之前生成。此外,盡管這些準(zhǔn)備操作在這里所示均處于文檔內(nèi)容確認(rèn)系統(tǒng)10的操作S30之外,但在其它實(shí)施例中,這些準(zhǔn)備操作中的一個(gè)或多個(gè)步驟也可在操作S30之中。
如圖2所示,在本實(shí)施例中文檔內(nèi)容的確認(rèn)處理程序S30涉及其它的操作步驟。最初是輸入一個(gè)或多個(gè)文檔24(步驟38)。然后確定是否還有文檔需要確認(rèn)(步驟40)。如果沒(méi)有,處理S30結(jié)束。否則,提取下一個(gè)文檔來(lái)進(jìn)行確認(rèn)(步驟S42),其中第一個(gè)通過(guò)的文檔就是第一文檔。從下一個(gè)文檔提取出信息(步驟S44)并保存下來(lái)(步驟S46)。所(保存的)提取出來(lái)的信息通過(guò)推理機(jī)16中的邏輯網(wǎng)絡(luò)(步驟48)從而編輯生成確認(rèn)結(jié)果(步驟50)。然后對(duì)當(dāng)前的文檔進(jìn)行處理(步驟S52),其可能涉及當(dāng)前文檔的修整或者是當(dāng)前文檔的修訂以及將修訂后的文檔設(shè)置成下一個(gè)文檔。處理程序返回到步驟S40。
步驟32是一個(gè)構(gòu)造階段,其中系統(tǒng)為一個(gè)特寫問(wèn)題領(lǐng)域進(jìn)行半自動(dòng)地初始化。該信息提取機(jī)12客戶化成一領(lǐng)域的詞匯,從而能理解或識(shí)別出專門領(lǐng)域的實(shí)體以及它們的邏輯屬性、關(guān)系屬性或定量屬性和這些屬性可能采用的數(shù)值或形式。這種客戶化可采用某一領(lǐng)域?qū)<业男问绞谷斯?biāo)記的文檔帶上該領(lǐng)域的內(nèi)容特征,或者使語(yǔ)法規(guī)則直接編到信息提取機(jī)中,或者是其它可能的操作。例如,在一化工領(lǐng)域中,對(duì)于一個(gè)基本的詞匯模塊來(lái)說(shuō)可能有多個(gè)其不知道的復(fù)雜的化學(xué)名稱。
同樣,該領(lǐng)域?qū)<业膮⑴c還可用來(lái)在步驟S34中生成或創(chuàng)造出確認(rèn)規(guī)則26組,該確認(rèn)規(guī)則26組用來(lái)對(duì)本發(fā)明所處理的電子文檔進(jìn)行確認(rèn)。作為選擇,這些規(guī)則可取自于其它的權(quán)威資源如一本書中。這些規(guī)則均涉及相同的領(lǐng)域,其中信息提取機(jī)12在步驟S32中客戶化到該領(lǐng)域上。這些規(guī)則可采用“如果-前提成立-然后-結(jié)果”(即條件式)條款的形式,其中“前提”表示與一個(gè)或多個(gè)實(shí)體關(guān)聯(lián)的錯(cuò)誤的物理描述、抽象描述或關(guān)系描述列表中的一個(gè),“結(jié)果”表示在“前提”條件滿足時(shí)與一個(gè)或多個(gè)實(shí)體關(guān)聯(lián)的錯(cuò)誤語(yǔ)句或確認(rèn)結(jié)論列表中的一個(gè)。確認(rèn)規(guī)則26組按照一種嚴(yán)格的英語(yǔ)語(yǔ)法來(lái)撰寫,其通常表示為“IF-THEN”語(yǔ)句,這一點(diǎn)將在后面參照?qǐng)D3進(jìn)行說(shuō)明。這些確認(rèn)規(guī)則也在步驟S34中輸入到文檔內(nèi)容確認(rèn)系統(tǒng)10,并由系統(tǒng)的規(guī)則翻譯模塊14載入。
盡管在本實(shí)施例中確認(rèn)規(guī)則26組如上所述寫成“IF-THEN”的語(yǔ)句,但也可寫成其它方式,只要是處于同一數(shù)學(xué)邏輯水平上這些方式都是等同的。其中一個(gè)例子就是采用狀態(tài)表,其中系統(tǒng)可能遇到的每一個(gè)數(shù)據(jù)狀態(tài)均列舉出來(lái),其中還包括系統(tǒng)可能輸出的每一個(gè)結(jié)果。例如將所有的輸入狀態(tài)沿著垂直邊布置同時(shí)將所有的輸出狀態(tài)沿著水平邊布置從而形成一表。所選擇行和列相交的部分標(biāo)為“開(kāi)”,以此來(lái)表示由某一輸入狀態(tài)所得到的輸出狀態(tài)。
在步驟S36中,系統(tǒng)中的規(guī)則翻譯模塊14解析確認(rèn)規(guī)則26組并形成一個(gè)等同的內(nèi)部邏輯網(wǎng)絡(luò),從而構(gòu)造出推理機(jī)16。
在準(zhǔn)備操作S32到S36完成后(無(wú)論其是與后面的操作同時(shí)完成、分別完成,還是提前完成),系統(tǒng)就處于一種不需要人為干預(yù)就重復(fù)進(jìn)行內(nèi)容確認(rèn)的狀態(tài)中。如步驟S34中所指定的規(guī)則一樣,涉及同一問(wèn)題領(lǐng)域的新文檔,甚至以它們?cè)嫉男问?即,沒(méi)有經(jīng)過(guò)預(yù)處理以符合某種標(biāo)準(zhǔn)布置/模板結(jié)構(gòu))送到系統(tǒng)。對(duì)于每一個(gè)文檔來(lái)說(shuō),系統(tǒng)都要進(jìn)行信息的提取,并將提取出的實(shí)體的相關(guān)涵義通過(guò)其規(guī)則庫(kù)。對(duì)于那些觸發(fā)了被提取文檔內(nèi)容上的錯(cuò)誤的所有規(guī)則來(lái)說(shuō),系統(tǒng)會(huì)通過(guò)用戶接口顯示出一個(gè)相關(guān)聯(lián)的錯(cuò)誤信息,同時(shí)或者是作為選擇,將該錯(cuò)誤信息附加到一個(gè)日志文件上以便由操作人員熟悉。
因此,(在步驟38)就有一個(gè)或多個(gè)文檔以電子形式輸入到文檔內(nèi)容確認(rèn)系統(tǒng)10中,由此就能讀取它們的內(nèi)容。一旦確定這里有需要確認(rèn)的文檔(在步驟40),就繼續(xù)文檔內(nèi)容確認(rèn)系統(tǒng)10的標(biāo)準(zhǔn)處理程序,(在步驟42)從所保存的文檔中提取出下一個(gè)需要確認(rèn)的文檔(第一個(gè)通過(guò)的文檔就是第一個(gè)文檔)。將領(lǐng)域客戶化后的信息提取模塊12應(yīng)用于本文本文檔,與相關(guān)的信息一起(在步驟S44)提取出實(shí)體以及這些實(shí)體的相關(guān)屬性。信息的提取會(huì)形成該文檔的一個(gè)內(nèi)部提取的元數(shù)據(jù)表述,其保存在提取出的元數(shù)據(jù)存儲(chǔ)單元18中(在步驟46)。
在步驟44中由信息提取模塊12提取出來(lái)的元數(shù)據(jù)18(在步驟48)經(jīng)過(guò)規(guī)則翻譯模塊14在步驟36所構(gòu)造的邏輯網(wǎng)絡(luò)16。在步驟48中一旦所提取出來(lái)的元數(shù)據(jù)內(nèi)容18完全通過(guò)了邏輯網(wǎng)絡(luò)18,就會(huì)在邏輯網(wǎng)絡(luò)16的各個(gè)推理節(jié)點(diǎn)中生成最終的狀態(tài)。這些推理節(jié)點(diǎn)的狀態(tài)經(jīng)研究從而編輯出一組確認(rèn)結(jié)果,其包含有元數(shù)據(jù)組和失敗確認(rèn)規(guī)則的一對(duì)列表(如果有的話)(步驟50)。
最后,基于該組確認(rèn)結(jié)果來(lái)處理當(dāng)前的文檔(在步驟S52)。如果所有的確認(rèn)規(guī)則都成功進(jìn)行,那么就記入日志并結(jié)束當(dāng)前的文檔。否則,可對(duì)該文檔進(jìn)行修改從而克服那些能夠?qū)е乱粋€(gè)或多個(gè)確認(rèn)規(guī)則失敗的錯(cuò)誤或信息缺損,或者是將失敗記錄下來(lái)將該文檔放在一邊以便以后再修改。如果在該系統(tǒng)中對(duì)該文檔進(jìn)行修改,那么修改后的文檔就作為下一個(gè)文檔。在步驟S52之后,處理程序回到步驟S40,從而確定是否還是文檔需要確認(rèn)。如果有,那么就在步驟S42中提取下一個(gè)文檔。如果該文檔被修改過(guò),那么所述的下一個(gè)文檔就是前面經(jīng)過(guò)處理并經(jīng)過(guò)修改然后指定為下一個(gè)文檔的文檔。否則,所提取的文檔就是一個(gè)新文檔。
圖3的示意圖所示為一確認(rèn)規(guī)則組26以及由該確認(rèn)規(guī)則組26生成的一邏輯網(wǎng)絡(luò)60的一例通用結(jié)構(gòu)。該示例的通用性在于各個(gè)編了號(hào)的術(shù)語(yǔ)和條件均沒(méi)有定義,其特征在于該編了號(hào)的術(shù)語(yǔ)與條件的特定組合會(huì)給出特定的結(jié)果狀態(tài)。該例中的邏輯網(wǎng)絡(luò)60是圖1的文檔內(nèi)容確認(rèn)系統(tǒng)10中規(guī)則翻譯模塊14所構(gòu)造的推理機(jī)16的一個(gè)實(shí)施例。所示的邏輯網(wǎng)絡(luò)60是一個(gè)簡(jiǎn)化了的三層神經(jīng)元網(wǎng)絡(luò),其具有(1)一個(gè)輸入節(jié)點(diǎn)層L1,其包含多個(gè)輸入節(jié)點(diǎn)62,用來(lái)表示信息提取模塊12從所確認(rèn)文檔24提取出的各個(gè)元數(shù)據(jù);(2)一個(gè)輸出節(jié)點(diǎn)層L2,其包含多個(gè)輸出節(jié)點(diǎn)62,用來(lái)表示每個(gè)規(guī)則的推理關(guān)系;(3)一個(gè)中間或隱藏節(jié)點(diǎn)層LH,其包含多個(gè)中間節(jié)點(diǎn),用來(lái)表示多個(gè)輸入節(jié)點(diǎn)之間的復(fù)合邏輯操作;(4)邊緣或通道58,其經(jīng)中間節(jié)點(diǎn)66將所有的輸入和輸出節(jié)點(diǎn)62、64連接起來(lái),并遵循確認(rèn)規(guī)則組26中規(guī)則所描述的邏輯。
對(duì)于每一個(gè)需要確認(rèn)的文檔24來(lái)說(shuō),該邏輯網(wǎng)絡(luò)60首先被初始化,這樣三層LI、LH、LO中的任何一層都沒(méi)有有效節(jié)點(diǎn)。這表示的是一個(gè)初始狀態(tài),在該狀態(tài)下,在確認(rèn)之前不知道有確認(rèn)錯(cuò)誤存在。
所提取出的元數(shù)據(jù)以實(shí)體-屬性組的形式存在,其中每一個(gè)實(shí)體-屬性組都與邏輯網(wǎng)絡(luò)60的輸入節(jié)點(diǎn)層LI中的一個(gè)唯一的輸入節(jié)點(diǎn)62直接關(guān)聯(lián),確認(rèn)規(guī)則組26中所提到的所有實(shí)體均是這樣。由此,元數(shù)據(jù)的屬性值就表示當(dāng)前文檔內(nèi)容的當(dāng)前狀態(tài)或是激活值。這樣,這些活化值就從輸入節(jié)點(diǎn)層LI送到輸出節(jié)點(diǎn)層LO,作為選擇該傳送過(guò)程可通過(guò)中間節(jié)點(diǎn)層LH中的某些中間節(jié)點(diǎn)66。當(dāng)所有的元數(shù)據(jù)都輸送通過(guò)網(wǎng)絡(luò)時(shí),那些處于邏輯網(wǎng)絡(luò)60中輸出節(jié)點(diǎn)層LO頂級(jí)并被激活的節(jié)點(diǎn)表示的是已經(jīng)觸發(fā)的規(guī)則結(jié)果。
在一個(gè)或多個(gè)輸出節(jié)點(diǎn)LO被激活的地方,規(guī)則翻譯模塊14可對(duì)貢獻(xiàn)的激活信號(hào)追蹤回到相應(yīng)的輸入節(jié)點(diǎn)62從而對(duì)涉及這些節(jié)點(diǎn)的信息進(jìn)行比較,由此(例如給操作人員)提供一個(gè)確認(rèn)報(bào)告20,其中包含所有失敗的確認(rèn)規(guī)則的詳細(xì)說(shuō)明。提取出的元數(shù)據(jù)和確認(rèn)結(jié)果可由用戶接口22獲得,由此就使操作人員能夠?yàn)g覽規(guī)則翻譯模塊14所生成的確認(rèn)報(bào)告并基于這些結(jié)果確定出需要對(duì)輸入文檔24進(jìn)行更正;以及,如果需要,返回到信息提取階段(圖2中的步驟44)從而判斷出信息提取模塊12所提取信息的完整性和正確性。
該確認(rèn)規(guī)則組26表示的是這樣一組規(guī)則的一個(gè)實(shí)施例的抽象例,其采用一種嚴(yán)格的格式化的語(yǔ)法。在圖3的該例確認(rèn)規(guī)則組26中,術(shù)語(yǔ)T1、T2和T3表示那些由信息提取模塊12識(shí)別并提取出來(lái)的具體的實(shí)體,以及它們給定的狀態(tài)或者是文檔中相關(guān)數(shù)值。條件C1到C5表示在術(shù)語(yǔ)T1到T3中特定一個(gè)術(shù)語(yǔ)所進(jìn)行的條件測(cè)試,其通常涉及所提取出的這些實(shí)體的屬性(定性屬性、定量屬性、關(guān)系屬性或者邏輯屬性)。這種測(cè)試可包括核對(duì)術(shù)語(yǔ)本身或者是相關(guān)的屬性是否存在;核對(duì)一術(shù)語(yǔ)相關(guān)屬性的數(shù)值范圍;核對(duì)與一術(shù)語(yǔ)相關(guān)聯(lián)的匹配字符串的形式或者是相關(guān)的特性等。結(jié)果E1到E5是與一特定規(guī)則失敗相關(guān)聯(lián)的結(jié)果,對(duì)于每一個(gè)激活的結(jié)果E1到E5來(lái)說(shuō),其可簡(jiǎn)化為一錯(cuò)誤聲明到一日志文件或一視頻顯示的輸出。在某一個(gè)規(guī)則中,如果術(shù)語(yǔ)和條件組得到滿足則必然會(huì)激活一結(jié)果。
在圖3的示例中,通用的確認(rèn)規(guī)則組26如前所述采用一系列“IF-THEN”的語(yǔ)句,其表示如下(1)IF術(shù)語(yǔ)T1具有條件C1,THEN結(jié)果就是E1;(2)IF術(shù)語(yǔ)T1具有條件C1AND術(shù)語(yǔ)T2具有條件C1,THEN結(jié)果就是E2;(3)IF術(shù)語(yǔ)T1具有條件C2AND術(shù)語(yǔ)T2具有條件C3OR術(shù)語(yǔ)T3具有條件C2,THEN結(jié)果就是E3;(4)IF術(shù)語(yǔ)T2具有條件C2OR術(shù)語(yǔ)T3具有條件C4,THEN結(jié)果就是E4;以及(5)IF術(shù)語(yǔ)T3具有條件C5,THEN結(jié)果就是E5。
當(dāng)然,它們也可是其它的組合以及其它的“IF-THEN”語(yǔ)句,這取決于頂級(jí)規(guī)則以及確認(rèn)系統(tǒng)的需要。
盡管在圖3的實(shí)施例沒(méi)有展示,但邏輯網(wǎng)絡(luò)60也可包括從結(jié)果節(jié)點(diǎn)到它們觸發(fā)的術(shù)語(yǔ)-條件節(jié)點(diǎn)的向后指針,從而能夠?qū)τ|發(fā)結(jié)果的術(shù)語(yǔ)-條件組向后追蹤并進(jìn)行報(bào)告。
規(guī)則陳述的清晰性通過(guò)附加的語(yǔ)法術(shù)語(yǔ)“AND”、“OR”和“NOT”來(lái)加強(qiáng),其能組合形成不同的術(shù)語(yǔ)條件組從而表達(dá)出一個(gè)更為復(fù)雜的完整術(shù)語(yǔ)。語(yǔ)法標(biāo)識(shí)“AND”、“OR”和“NOT”的邏輯涵義與這些術(shù)語(yǔ)在通常邏輯語(yǔ)句和英語(yǔ)語(yǔ)法中的涵義相同。
圖4表示由特定一組確認(rèn)規(guī)則生成的一特定邏輯網(wǎng)絡(luò)的特定示例。該特定組的規(guī)則并非圖3中的那例通用的規(guī)則組,其有所不同。該邏輯網(wǎng)絡(luò)是一例可由步驟S36生成的邏輯網(wǎng)絡(luò)。
盡管圖4的邏輯網(wǎng)絡(luò)部分60仍顯示的是術(shù)語(yǔ)T1、T2、T3和T4以及條件C1、C2、C3、C4、C5、C6和C7的抽象表示,但事實(shí)上,它們均與實(shí)際的術(shù)語(yǔ)和條件相關(guān)聯(lián),如那些通常出現(xiàn)在實(shí)際化學(xué)數(shù)據(jù)表中的實(shí)際術(shù)語(yǔ)和條件。同樣,結(jié)果E1、E2、E3和E4的抽象表示也與那些通常在規(guī)則失敗時(shí)生成的錯(cuò)誤消息相關(guān)聯(lián)。
本例的實(shí)際術(shù)語(yǔ)如下T1{化學(xué)名稱};T2{重要提示};T3{閃點(diǎn)};以及T4{工程控制}。
本例的實(shí)際條件如下C1{不存在};C2{苯};C3{未提及癌癥};C4{小于0℃};
C5{未提及防爆};C6{提及癌癥};以及C7{未提及局部排氣通風(fēng)}。
本例中的實(shí)際結(jié)果如下E1{“化學(xué)名稱沒(méi)有提到”};E2{“苯的致癌性沒(méi)有提到”};E3{“沒(méi)有給低閃點(diǎn)化合物專門設(shè)置防爆措施”};以及E4{“在工程控制中沒(méi)有給致癌物質(zhì)設(shè)置專門的局部排氣通風(fēng)”}。
在圖4所示的示例中,特定組的確認(rèn)規(guī)則26采用一系列“IF-THEN”語(yǔ)句,其具體如下(1)IF T1{化學(xué)名稱}C1{不存在},THEN E1{“化學(xué)名稱沒(méi)有提到”};(2)IF T1{化學(xué)名稱}C2{苯}AND T2{重要提示}C3{未提及癌癥},THEN E2{“苯的致癌性沒(méi)有提到”};(3)IF T3{閃點(diǎn)}C4{小于0℃}AND T4{工程控制}C5{未提及防爆},THEN E3{“沒(méi)有給低閃點(diǎn)化合物專門設(shè)置防爆措施”}以及;(4)IF T1{化學(xué)名稱}C2{苯}OR T2{重要提示}C6{提及癌癥}AND IF T4{工程控制}C7{未提及局部排氣通風(fēng)},THEN E4{“在工程控制中沒(méi)有給致癌物質(zhì)設(shè)置專門的局部排氣通風(fēng)”}。
圖5更為詳細(xì)地展示了圖2方法中信息提取部分示例的示意圖。
在圖5中,文檔24表示所要確認(rèn)文檔的原始形式和內(nèi)容。該內(nèi)容很有可能是被一個(gè)或多個(gè)與文檔確認(rèn)系統(tǒng)領(lǐng)域不相干的人創(chuàng)作出來(lái)。這樣,就不可能假定這些不同文檔的不同作者使這些屬于相同領(lǐng)域的所有文檔均采用完全相同的格式習(xí)慣。將信息提取模塊12應(yīng)用于規(guī)則翻譯模塊14,那么不管這些文檔的作者是否采用的是不同的排版和句法,均可為每一個(gè)被文檔內(nèi)容確認(rèn)系統(tǒng)10處理的文檔獲得一個(gè)一致的內(nèi)部提取出的元數(shù)據(jù)表述18。
在本例中,被確認(rèn)的文檔如下“化學(xué)名稱苯重要提示極度易燃性液體,可引致血液異常。如果吞食會(huì)有害或致命。會(huì)引致眼睛和皮膚刺激。誘導(dǎo)有機(jī)突變的物質(zhì)。
工程控制使用防爆的排氣通風(fēng)設(shè)備。儲(chǔ)存或利用該物質(zhì)的設(shè)施應(yīng)付設(shè)有洗眼裝置和安全淋浴器。只能在化學(xué)通風(fēng)柜內(nèi)使用。
物理和化學(xué)性質(zhì)蒸氣壓74.3mm Hg@20℃;蒸氣密度2.7(空氣=1);沸點(diǎn)80℃;閃點(diǎn)-11℃(12.20);分子式C6H6;分子量78.042吸入立即接受醫(yī)療救護(hù)。立即移至新鮮空氣處。如有呼吸困難,應(yīng)使用氧氣救護(hù)?!庇纱颂崛〉脑獢?shù)據(jù)信息組如下T1{化學(xué)名稱}=″苯″;T2{重要提示}=″極度易燃性液體,可引致血液異常。如果吞食會(huì)有害或致命。會(huì)引致眼睛和皮膚刺激。誘導(dǎo)有機(jī)突變的物質(zhì)″;T3{閃點(diǎn)}=″-11℃(12.20)″;以及T4{工程控制}=″使用防爆的排氣通風(fēng)設(shè)備。儲(chǔ)存或利用該物質(zhì)的設(shè)施應(yīng)付設(shè)有洗眼裝置和安全淋浴器。只能在化學(xué)通風(fēng)柜內(nèi)使用″。
第一信息組并未提取成T1{化學(xué)名稱}=″化學(xué)名稱苯″,這是因?yàn)樾枰獙⑺袠?biāo)記的不同實(shí)例標(biāo)準(zhǔn)化成一種形式(在這里就是″化學(xué)名稱″的形式),對(duì)此要留意系統(tǒng)的信息提取部分。
在當(dāng)前所構(gòu)造出的推理機(jī)16中,僅有四個(gè)實(shí)體術(shù)語(yǔ)T1-T4。圖5和6還展示了一個(gè)TN,其可能是所需的任一數(shù)字。
圖6展示了圖4的邏輯網(wǎng)絡(luò)在圖5中提取出的元數(shù)據(jù)上的操作,其對(duì)應(yīng)于圖2中處理程序的步驟S48。在步驟S44中由信息提取模塊12生成的提取出的元數(shù)據(jù)18經(jīng)過(guò)規(guī)則翻譯模塊14在步驟S36構(gòu)造的推理機(jī)16。由圖5中文檔提取出來(lái)數(shù)據(jù)與圖4的邏輯網(wǎng)絡(luò)60一起提供了一個(gè)環(huán)節(jié),這里只有術(shù)語(yǔ)-條件組T1/C2[{化學(xué)名稱}{是苯}]、T2/C3[{重要提示}{未提及癌癥}]、T3/C4[{閃點(diǎn)}{小于0℃}]和T4/C7[{工程控制}{未提及局部排氣通風(fēng)}]被激活。這是因?yàn)槲臋n24(在這里是一個(gè)化學(xué)數(shù)據(jù)表)只提到化學(xué)名稱是苯,而沒(méi)有提到的苯的致癌屬性,只給出該化學(xué)物質(zhì)的閃點(diǎn)為11℃,而沒(méi)有指出使用局部的排氣通風(fēng),因此分別滿足條件C2、C3、C4和C7。
反之,如果出現(xiàn)了化學(xué)名稱,提到了需要防爆通風(fēng),同時(shí)沒(méi)有提到化學(xué)物質(zhì)的致癌性,那么條件C1、C5和C6則不能得到滿足。條件C6事實(shí)上是條件C3的補(bǔ)充。結(jié)果,術(shù)語(yǔ)-條件組T1/C1[{化學(xué)名稱}{不存在}]、T2/C6[{重要提示}{提及癌癥}]和T4/C5[{工程控制}{未提及防爆}]就不被激活。
從圖6的邏輯網(wǎng)絡(luò)50可以看出如果沒(méi)有激活確認(rèn)規(guī)則組26中規(guī)則(1)的唯一條件組就意味著結(jié)果E1未被觸發(fā)。然而,激活確認(rèn)規(guī)則組26中規(guī)則(2)的所有術(shù)語(yǔ)-條件組就意味著結(jié)果E2肯定被觸發(fā)了。與之相反,僅激活規(guī)則(3)的T3/C4而不激活另一個(gè)的術(shù)語(yǔ)-條件組T4/C5就意味著E3未被觸發(fā),這是因?yàn)閮蓚€(gè)術(shù)語(yǔ)-條件組的要求必須同時(shí)滿足。最后,可以看出規(guī)則(4)的結(jié)果E4均被觸發(fā),而不管T2/C6是否被激活。這是因?yàn)門1/C2和T/C6之間的OR(或)關(guān)系意味著只要有一個(gè)激活的組就足以將一激活前置以便與T4/C7的信號(hào)組合(AND)從而觸發(fā)結(jié)果E4。
提取出的元數(shù)據(jù)內(nèi)容18一旦完全通過(guò)邏輯網(wǎng)絡(luò)16,下一步S50包括簡(jiǎn)單地瀏覽所有的結(jié)果節(jié)點(diǎn)從而確定到底激活哪一個(gè)。對(duì)于每一個(gè)激活的結(jié)果節(jié)點(diǎn)來(lái)說(shuō),那些關(guān)聯(lián)的失敗的術(shù)語(yǔ)-條件組也也追蹤回去并記錄下來(lái)。
圖7為圖2整個(gè)流程圖中步驟S52的流程圖。其中基于某一觸發(fā)結(jié)果來(lái)采取合適的操作。該處理包括考慮本系統(tǒng)是否以交互的方式運(yùn)行(即操作人員是否需用手操作)。這種考慮可用來(lái)提供其它的變化形式來(lái)報(bào)告確認(rèn)失敗。
基于那些被觸發(fā)的結(jié)果,就能確定是否有確認(rèn)規(guī)則出現(xiàn)失敗(在步驟S72),即邏輯網(wǎng)絡(luò)50中結(jié)果E1-E4是否有被觸發(fā)的。如果當(dāng)前文檔沒(méi)有確診規(guī)則失敗,那么就將一數(shù)據(jù)表“確認(rèn)通過(guò)”的信息附加到該文檔的日志文件(在步驟S74)。然后處理程序確定系統(tǒng)是否處于交互模式(在步驟S76)。如果系統(tǒng)不處于交互模式,那么就將當(dāng)前的文檔從當(dāng)前的文檔堆棧中去掉(在步驟S78)并使處理程序回退到圖2所示處理程序的步驟S40,這里文檔確認(rèn)系統(tǒng)準(zhǔn)備對(duì)下一個(gè)文檔進(jìn)行確認(rèn),對(duì)于其它所需處理的那些文檔同樣如此。如果系統(tǒng)處于交互模式,也要將一數(shù)據(jù)表“確認(rèn)通過(guò)”的信息顯示到用戶的圖形接口上(在步驟S80),然后處理程序繼續(xù)前進(jìn)到步驟S78,這里該當(dāng)前文檔要從當(dāng)前的文檔堆棧中去掉,然后處理程序回到圖2所示處理程序的步驟S40。
如果在步驟S72確定有一個(gè)或多個(gè)規(guī)則失敗,那么就要將無(wú)效的元數(shù)據(jù)組和它們失敗的確認(rèn)規(guī)則的一介成對(duì)的列表附加到該當(dāng)前文檔的日志文件(在步驟S82)。同樣,處理程序要確定該系統(tǒng)是否處于交互模式中(在步驟S84)。如果系統(tǒng)并不處于交互模式中,那么就將當(dāng)前文檔從當(dāng)前的文檔堆棧中去掉(在步驟S78),然后處理程序回到圖2所示處理程序的步驟S40。如果系統(tǒng)處于交互模式中,那么就將所提取的元數(shù)據(jù)給操作人員顯示到用戶圖形接口的一個(gè)標(biāo)準(zhǔn)模板上,同時(shí)顯示的還有那些關(guān)聯(lián)規(guī)則出現(xiàn)失敗的數(shù)據(jù)的錯(cuò)誤聲明(在步驟S86)。
操作人員優(yōu)選為對(duì)該領(lǐng)域相當(dāng)熟悉并能翻譯出與每一觸發(fā)結(jié)果相關(guān)聯(lián)的錯(cuò)誤信息。他確定其是否能或者是是否會(huì)進(jìn)行適當(dāng)?shù)母蛘呃缤瑫r(shí)對(duì)文檔做出一些修改,由此該文檔就能通過(guò)確認(rèn)(在步驟S88)。如果沒(méi)做出任何修改,那么處理程序就前進(jìn)到步驟S78從而將當(dāng)前的文檔從當(dāng)前的文檔堆棧中去掉。否則,如果做出了修改,那么操作人員就對(duì)文檔進(jìn)行這些修改,從而滿足所有的失敗確認(rèn)規(guī)則(在步驟S90)。然后將修訂后的文檔放置在當(dāng)前的文檔堆棧的頂部(在步驟S92)以便再次提交給確認(rèn)機(jī),然后處理程序就回到圖2所示的處理程序的步驟S40。
在圖7所示的處理程序中,將系統(tǒng)是否為交互式的結(jié)果寫入日志中。在另一實(shí)施例中,日志僅寫有非交互模式的結(jié)果。
在圖7所示的處理程序中,當(dāng)系統(tǒng)處于交互模式時(shí)每次文檔在一個(gè)規(guī)則失敗時(shí)確認(rèn)程序均會(huì)停下來(lái)。在另一實(shí)施例中,當(dāng)系統(tǒng)處于交互模式時(shí)即使文檔在一個(gè)規(guī)則失敗時(shí)系統(tǒng)也會(huì)移到下一個(gè)文檔上。由此,當(dāng)操作人員已經(jīng)對(duì)文檔進(jìn)行了更正時(shí),該文檔會(huì)切入成為下一個(gè)文檔,而不是阻止住剩下的文檔。
在上面的實(shí)施例中,規(guī)則庫(kù)26和結(jié)果推理機(jī)16是固定不變的。然而,這里也可帶有一個(gè)或多個(gè)格式化的特定領(lǐng)域的外部事實(shí)知識(shí)庫(kù),專家推理庫(kù)的邏輯推理通過(guò)該外部事實(shí)知識(shí)庫(kù)可以擴(kuò)展從而包括該領(lǐng)域中所引入的新的實(shí)體。
在上述實(shí)施例中,推理機(jī)中的處理程序被表示為一個(gè)決策樹。本發(fā)明的實(shí)施例并不限于如此表示或者是僅能如此表示的推理機(jī)。例如,它們也可用其它的確定狀態(tài)轉(zhuǎn)移圖來(lái)表示。
在上面的示例中,每一個(gè)實(shí)體都處于一個(gè)級(jí)別上。本發(fā)明還可用在下面的場(chǎng)合,即一個(gè)或多個(gè)實(shí)體可具有多個(gè)級(jí)別一較高的級(jí)別,其屬性是一個(gè)處于下一級(jí)的實(shí)體(這個(gè)處于下一級(jí)的實(shí)體的屬性自身可能是一個(gè)處于另外一個(gè)下一級(jí)的屬性等)。較低的級(jí)別提供較高級(jí)別的更多特性。隨著較高級(jí)別的不同,下一級(jí)的數(shù)值也可能不同。
例如,在另一示例中,需要確認(rèn)的文檔是一張不同生產(chǎn)地區(qū)的商品報(bào)價(jià)表。其沿著表的垂直邊緣有一個(gè)地區(qū)列表,沿著水平邊緣有三個(gè)列標(biāo)題“農(nóng)產(chǎn)品”、“蓄產(chǎn)品”、“礦物”(高級(jí)別的實(shí)體)。在“農(nóng)產(chǎn)品”下面有兩個(gè)子標(biāo)題“蔬菜”和“水果”;在“蓄產(chǎn)品”下面有“雞”、“魚”和“?!?;以此類推(較低級(jí)別的實(shí)體)。在該表中,最高級(jí)經(jīng)抽象就是下面的屬性-數(shù)值組“商品”=“農(nóng)產(chǎn)品”或者是“蓄產(chǎn)品”或者是“礦物”。下一級(jí)經(jīng)抽象則是如下的屬性-數(shù)值組“農(nóng)產(chǎn)品”=“蔬菜”或“水果”;“蓄產(chǎn)品”=“雞”或“魚”或“?!?;等(對(duì)于這些組來(lái)說(shuō),“農(nóng)產(chǎn)品”也是上一級(jí)實(shí)體的一員并且“蔬菜”或“水果”是其下一級(jí)的實(shí)體)。在抽象出的另一級(jí)別中有如下屬性-數(shù)值組“雞”=“$xxx”,“魚”=“$xxx”,“牛”=“$xxx”,等。
這就意味著,在抽象的頂級(jí)中,實(shí)體“農(nóng)產(chǎn)品”、“蓄產(chǎn)品”和“礦物”描述的是所謂“商品”的實(shí)體。然而,“農(nóng)產(chǎn)品”也意味著所謂“蔬菜”或“水果”的實(shí)體。這樣,在對(duì)這種表格進(jìn)行確認(rèn)時(shí),就存在這樣的一個(gè)規(guī)則,其要求將商品分類到“農(nóng)產(chǎn)品”、“蓄產(chǎn)品”和“礦物”中,因?yàn)閷?duì)于所有的農(nóng)產(chǎn)品或者是蓄產(chǎn)品或者是礦物來(lái)說(shuō)都有通用的確認(rèn)規(guī)則。然而,這其中也有一些更為專業(yè)的規(guī)則/條件,例如,“If”商品“=”魚“then…”。該規(guī)則仍舊是完全合適的,因?yàn)椤棒~”最終還是一個(gè)用來(lái)描述“商品”的實(shí)體,即使表格中沒(méi)有直接指明這樣的一個(gè)組,其也是這樣。
在上面的說(shuō)明中,系統(tǒng)的組成均被描述為模塊。一模塊,特別是其功能可以硬件或軟件的形式來(lái)實(shí)現(xiàn)。如果是軟件,一模塊就是一項(xiàng)處理程序、軟件程序或者是它們的一個(gè)部分,其通常用來(lái)實(shí)現(xiàn)一個(gè)特定的功能或者是相關(guān)的功能。如果是硬件,一模塊就是一功能硬件單元,其在設(shè)計(jì)上與其它部件模塊一起使用。例如,一模塊可用具體的電子元件來(lái)實(shí)現(xiàn),也可做成一個(gè)完整電子電路的一個(gè)部分如特定用途的集成電路(ASIC)。當(dāng)然還可能有其它的形式。本領(lǐng)域技術(shù)人員都清楚該系統(tǒng)也可做成硬件軟件模塊的組合形式。
本發(fā)明的實(shí)施例可應(yīng)用于許多的領(lǐng)域,其中的產(chǎn)品需要有清晰的類別從而使某種有價(jià)值的、特定物品的文件與該類中每一件物品相關(guān)聯(lián)。
這種領(lǐng)域例如可以是制藥業(yè)以及食品包裝業(yè),由此可以規(guī)定完整并準(zhǔn)確的產(chǎn)品標(biāo)簽。將本發(fā)明的實(shí)施例應(yīng)用于這兩個(gè)領(lǐng)域的一個(gè)優(yōu)點(diǎn)是能夠以統(tǒng)一的方式應(yīng)用最新的知識(shí)以便評(píng)估該領(lǐng)域的所有產(chǎn)品。例如,如果新科學(xué)研究表明一種特定的食品添加劑可能有害,此時(shí)很容易就能用一個(gè)相關(guān)的實(shí)施例來(lái)對(duì)現(xiàn)有的產(chǎn)品重新進(jìn)行評(píng)估,現(xiàn)有的許多產(chǎn)品有可能已經(jīng)由于先前的評(píng)估而改變了它們的成分。
在另一個(gè)示例中,衛(wèi)生保健領(lǐng)域是一個(gè)可由本發(fā)明實(shí)施例獲得好處的領(lǐng)域。在此領(lǐng)域中,用藥事實(shí)表可表示一組需要分析的數(shù)據(jù),而病人記錄則表明另一組。在交叉確認(rèn)的過(guò)程中,可將一個(gè)合適的實(shí)施例應(yīng)用于任意一組的用藥事實(shí)表和病人記錄上,從而自動(dòng)提醒保健工作者可能存在的過(guò)敏反應(yīng)。
還可將本發(fā)明的一個(gè)合適的實(shí)施例應(yīng)用到金融分析領(lǐng)域中,這里其能比通常的信息過(guò)濾裝置提供更為準(zhǔn)確的信息捕捉。這是因?yàn)楹笳咧荒芡伙@那些提到了用戶感興趣主題的新聞?lì)愇恼?如一特定公司的股票或者是一特定國(guó)家的經(jīng)濟(jì)),其不能提供該主題更為詳細(xì)的內(nèi)容(如,特定公司的股票價(jià)格已升到一定的水平,某國(guó)的經(jīng)濟(jì)增長(zhǎng)預(yù)期已下降到1%),其仍需用戶詳細(xì)審查已過(guò)濾的新聞?lì)愇恼聫亩_定出細(xì)節(jié)。假定相關(guān)的主題可能會(huì)出現(xiàn)許多不同的上下文中,這就意味著用戶仍有信息負(fù)擔(dān)過(guò)大的危險(xiǎn)。如果選用本發(fā)明一個(gè)合適的實(shí)施例來(lái)分析金融新聞,用戶就能過(guò)濾出許多與它們感興趣主題關(guān)系不大的文章,其甚至能給那些提及了特定數(shù)量的事件提供警示。
在另一示例中,在確認(rèn)材料安全數(shù)據(jù)表(material safety datasheet----MSDS)的領(lǐng)域中,本發(fā)明一合適的實(shí)施例可具有特定的適用性(如圖4到6所示的那樣)。MSDS是一些與化學(xué)工業(yè)中生產(chǎn)商生產(chǎn)的每一種化學(xué)產(chǎn)品相關(guān)聯(lián)的數(shù)據(jù)表。它們包含有例如下面這些信息一化學(xué)物的組成、其物理及化學(xué)性質(zhì)、安全處理所需的保護(hù)設(shè)備、在爆炸時(shí)的應(yīng)急措施、運(yùn)輸上的要求等。在許多國(guó)家中有關(guān)存放安全及衛(wèi)生的規(guī)定都要求所有的MSDS在內(nèi)容以及內(nèi)容如何更新上均需滿足一定級(jí)別的正確性和完整性。然而,那些頻繁發(fā)布的大量的新的或修訂的MSDS使得數(shù)量有限的具有所需專業(yè)知識(shí)的存放衛(wèi)生官員不能核查每一個(gè)數(shù)據(jù)表。因此,這些官員現(xiàn)在必須依賴于采樣,這樣許多不符合質(zhì)量要求的MSDS就發(fā)布給化學(xué)工業(yè)的工人。如果采用本發(fā)明合適的實(shí)施例,在MSDS確認(rèn)領(lǐng)域中信息負(fù)擔(dān)過(guò)大以及專家資源不足的問(wèn)題就都能被克服,至少是得到緩減。
上述的實(shí)施例針對(duì)的是文檔特別是技術(shù)文檔內(nèi)容的確認(rèn)。本發(fā)明的實(shí)施例在實(shí)施中能夠以多種變化形式來(lái)實(shí)現(xiàn),顯然,對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說(shuō)在本發(fā)明的構(gòu)思和范圍之內(nèi)還有許多變更/變化。此外,在本發(fā)明的構(gòu)思和范圍之內(nèi),這里所定義的一般原理可應(yīng)用到其它的實(shí)施例和應(yīng)用中。因此,本發(fā)明并不限于所示的實(shí)施例,其應(yīng)當(dāng)根據(jù)這里所公開(kāi)的原理和特征的最寬范圍來(lái)理解。
盡管本發(fā)明已經(jīng)結(jié)合目前最為實(shí)際并優(yōu)選的實(shí)施例進(jìn)行了描述,但可以理解的是本發(fā)明并不限于所公開(kāi)的實(shí)施例,相反,本發(fā)明的各種變更和等同方式均包含在后面權(quán)利要求的構(gòu)思和范圍中。
權(quán)利要求
1.一種應(yīng)用于自由文本文檔上進(jìn)行內(nèi)容確認(rèn)的方法,該方法包括a)從該自由文本文檔中提取出多個(gè)半結(jié)構(gòu)化的表述;b)將一邏輯推理機(jī)應(yīng)用于該半結(jié)構(gòu)化表述上;以及c)對(duì)該邏輯推理機(jī)的輸出進(jìn)行翻譯以便用于后續(xù)的操作。
2.如權(quán)利要求1的方法,其中的文檔為技術(shù)文檔。
3.如權(quán)利要求1或2的方法,其中的后續(xù)操作涉及下面的一個(gè)或多個(gè)操作i)提供一個(gè)指示,其表明該文檔的內(nèi)容是有效的;ii)將任何失敗了的確認(rèn)規(guī)則關(guān)聯(lián)起來(lái);以及iii)基于任何失敗了的確認(rèn)規(guī)則來(lái)對(duì)文檔的內(nèi)容進(jìn)行修訂。
4.如權(quán)利要求3的方法,其中將那些失敗了的確認(rèn)規(guī)則關(guān)聯(lián)起來(lái)的操作包括將那些失敗了的確認(rèn)規(guī)則關(guān)聯(lián)并突顯給操作人員。
5.如權(quán)利要求3或4的方法,其中將那些失敗了的確認(rèn)規(guī)則關(guān)聯(lián)起來(lái)的操作進(jìn)一步包括將所關(guān)聯(lián)的半結(jié)構(gòu)化表述關(guān)聯(lián)起來(lái)或者是與文檔的原始內(nèi)容相對(duì)應(yīng)。
6.如權(quán)利要求3至5之一的方法,其中對(duì)文檔的內(nèi)容進(jìn)行修訂的操作進(jìn)一步基于對(duì)應(yīng)的文檔原始內(nèi)容進(jìn)行的。
7.如前述任一權(quán)利要求的方法,其中的半結(jié)構(gòu)化表述包括具體的實(shí)體以及它們的屬性。
8.如權(quán)利要求7的方法,其中具體實(shí)體的屬性包括定性屬性、定量屬性或者是邏輯屬性,或者是它們與其它實(shí)體的關(guān)系。
9.如權(quán)利要求7或8的方法,其中一個(gè)或多個(gè)所述實(shí)體直接對(duì)應(yīng)于的一個(gè)用文字語(yǔ)言定義的物理或抽象概念。
10.如權(quán)利要求7到9之一的方法,其中一個(gè)或多個(gè)所述實(shí)體包括高級(jí)別的實(shí)體,其屬性表示低級(jí)別的實(shí)體,提供與它們對(duì)應(yīng)的高一級(jí)實(shí)體有關(guān)的更為詳細(xì)的特性。
11.如前述任一權(quán)利要求的方法,其中的邏輯推理機(jī)由一結(jié)構(gòu)化的確認(rèn)規(guī)則列表構(gòu)造出來(lái)。
12.如權(quán)利要求11的方法,其進(jìn)一步包括由該結(jié)構(gòu)化的確認(rèn)規(guī)則列表構(gòu)造出這個(gè)邏輯推理機(jī)。
13.如權(quán)利要求11或12的方法,其中結(jié)構(gòu)化的確認(rèn)規(guī)則由該文檔領(lǐng)域中的一個(gè)權(quán)威規(guī)定。
14.如權(quán)利要求13的方法,其中該領(lǐng)域的權(quán)威包括由下面各項(xiàng)所構(gòu)成的組中的一個(gè)或多個(gè)專家、書、以及其它權(quán)威性的信息源。
15.如前述任一權(quán)利要求的方法,其中的邏輯推理機(jī)包括一推理網(wǎng)絡(luò)。
16.如前述任一權(quán)利要求的方法,其中的邏輯推理機(jī)包括一個(gè)處理程序,其表示為一個(gè)決策樹,或者是另一種確定狀態(tài)轉(zhuǎn)移圖表。
17.如前述任一權(quán)利要求的方法,其中的自由文本文檔包括由下面各項(xiàng)所構(gòu)成組中的一個(gè)或多個(gè)文本、圖像、音頻和視頻。
18.如前述任一權(quán)利要求的方法,其中結(jié)構(gòu)化確認(rèn)規(guī)則列表包括一個(gè)由一種正式的陳述性語(yǔ)言撰寫的條件語(yǔ)句列表。
19.如權(quán)利要求18的方法,其中的每一個(gè)條件語(yǔ)句均包括一前提部分和一結(jié)果部分。
20.如權(quán)利要求19的方法,其中的前提部分包括一個(gè)由多個(gè)獨(dú)立的條件檢驗(yàn)段構(gòu)成的列表,其在邏輯上通過(guò)“AND”、“OR”或“NOT”這樣的邏輯算符序列組合起來(lái)。
21.如權(quán)利要求20的方法,其中每一個(gè)條件檢驗(yàn)段均包括一個(gè)用于該領(lǐng)域中相關(guān)實(shí)體的邏輯限制、關(guān)系限制或定性限制。
22.如權(quán)利要求19到21之一的方法,其中的結(jié)果部分包括由下面各項(xiàng)構(gòu)成的組中的一個(gè)或多個(gè)一組被突顯的實(shí)體、一個(gè)被顯示的錯(cuò)誤信息以及一個(gè)更正操作。
23.如前述任一權(quán)利要求的方法,其進(jìn)一步包括顯示由下面各項(xiàng)構(gòu)成的組中的一個(gè)或多個(gè)半結(jié)構(gòu)化的表述,確認(rèn)規(guī)則列表,半結(jié)構(gòu)化表述與確認(rèn)規(guī)則之間的關(guān)系,以及半結(jié)構(gòu)化表述或文本文檔的原始內(nèi)容以及任一失敗的確認(rèn)規(guī)則之間的突顯部分。
24.如前述任一權(quán)利要求的方法,其進(jìn)一步包括獲取用戶指令,其形式為下面各項(xiàng)所構(gòu)成的組中的任意一個(gè)或多個(gè)新的確認(rèn)規(guī)則、修改后的確認(rèn)規(guī)則以及修改后的文檔內(nèi)容。
25.一種應(yīng)用于自由文本文檔上進(jìn)行內(nèi)容確認(rèn)的系統(tǒng),該系統(tǒng)包括一裝置,其用來(lái)從自由文本文檔中提取出多個(gè)半結(jié)構(gòu)化的表述;一裝置,其用來(lái)將一邏輯推理機(jī)應(yīng)用于該半結(jié)構(gòu)化表述上;以及一裝置,其用來(lái)對(duì)該邏輯推理機(jī)的輸出進(jìn)行翻譯以便用于后續(xù)的操作。
26.如權(quán)利要求25的系統(tǒng),其進(jìn)一步包括一裝置,作為一種結(jié)果操作,該裝置用來(lái)提供一個(gè)指示,該指示表明該文檔的內(nèi)容是有效的。
27.如權(quán)利要求25或26的系統(tǒng),其進(jìn)一步包括一裝置,作為一種結(jié)果操作,該裝置將任何失敗了的確認(rèn)規(guī)則關(guān)聯(lián)起來(lái)。
28.如權(quán)利要求25到27之一的系統(tǒng),其進(jìn)一步包括一裝置,作為一種結(jié)果操作,該裝置基于任何失敗了的確認(rèn)規(guī)則來(lái)對(duì)文檔的內(nèi)容進(jìn)行修訂。
29.如權(quán)利要求25到28之一的系統(tǒng),其中的半結(jié)構(gòu)化表述包括具體的實(shí)體以及它們的屬性。
30.如權(quán)利要求29的系統(tǒng),其中具體實(shí)體的屬性包括定性屬性、定量屬性或者是邏輯屬性,或者是它們與其它實(shí)體的關(guān)系。
31.如權(quán)利要求29或30的系統(tǒng),其中每一個(gè)具體的實(shí)體直接對(duì)應(yīng)于的一個(gè)用文字語(yǔ)言定義的物理或抽象概念。
32.如權(quán)利要求29到31之一的系統(tǒng),其中一個(gè)或多個(gè)所述實(shí)體包括高級(jí)別的實(shí)體,其屬性表示低級(jí)別的實(shí)體,提供與它們對(duì)應(yīng)的高一級(jí)實(shí)體有關(guān)的更為詳細(xì)的特性。
33.如權(quán)利要求25到32之一的系統(tǒng),其進(jìn)一步包括邏輯推理機(jī)。
34.如權(quán)利要求33的系統(tǒng),其中的邏輯推理機(jī)由一結(jié)構(gòu)化的確認(rèn)規(guī)則列表構(gòu)造出來(lái)。
35.如權(quán)利要求33或34的系統(tǒng),其進(jìn)一步包括一裝置,該裝置用來(lái)從該結(jié)構(gòu)化的確認(rèn)規(guī)則列表構(gòu)造出這個(gè)邏輯推理機(jī)。
36.如權(quán)利要求25到35之一的系統(tǒng),其中的邏輯推理機(jī)包括一個(gè)推理網(wǎng)絡(luò)。
37.如權(quán)利要求25至36之一的系統(tǒng),其中的邏輯推理機(jī)包括一個(gè)處理程序,其表示為一個(gè)決策樹,或者是另一種確定狀態(tài)轉(zhuǎn)移圖表。
38.如權(quán)利要求25至37之一的系統(tǒng),其中的自由文本文檔包括由下面各項(xiàng)所構(gòu)成組中的一個(gè)或多個(gè)文本、圖像、音頻和視頻。
39.如權(quán)利要求25至38之一的系統(tǒng),其中結(jié)構(gòu)化確認(rèn)規(guī)則列表包括一個(gè)由一種正式的陳述性語(yǔ)言撰寫的條件語(yǔ)句列表。
40.如權(quán)利要求39的系統(tǒng),其中的每一個(gè)條件語(yǔ)句均包括一前提部分和一結(jié)果部分。
41.如權(quán)利要求40的系統(tǒng),其中的前提部分包括一個(gè)由多個(gè)獨(dú)立的條件檢驗(yàn)段構(gòu)成的列表,其在邏輯上通過(guò)“AND”、“OR”或“NOT”這樣的邏輯算符序列組合起來(lái)。
42.如權(quán)利要求41的系統(tǒng),其中每一個(gè)條件檢驗(yàn)段均包括一個(gè)用于該領(lǐng)域中相關(guān)實(shí)體的邏輯限制、關(guān)系限制或定性限制。
43.如權(quán)利要求40到42之一的系統(tǒng),其中的結(jié)果部分包括由下面各項(xiàng)構(gòu)成的組中的一個(gè)或多個(gè)一組被突顯的實(shí)體、一個(gè)被顯示的錯(cuò)誤信息以及一個(gè)更正操作。
44.如權(quán)利要求40到43之一的系統(tǒng),其進(jìn)一步包括存儲(chǔ)裝置,以便存儲(chǔ)半結(jié)構(gòu)化表述。
45.如權(quán)利要求40到44之一的系統(tǒng),其進(jìn)一步包括一用戶接口。
46.如權(quán)利要求45的系統(tǒng),其中的用戶接口在操作上用來(lái)給操作人員顯示數(shù)據(jù)。
47.如權(quán)利要求45或46的系統(tǒng),其中的用戶接口在操作上以下面的形式輸入用戶指令新的確認(rèn)規(guī)則、修改后的確認(rèn)規(guī)則以及修改后的文檔內(nèi)容。
48.一種對(duì)自由文本文檔進(jìn)行內(nèi)容確認(rèn)的方法,其基本如附圖所示并參照附圖描述的那樣。
49.一種如權(quán)利要求25到47之一的系統(tǒng),其按照權(quán)利要求1到24以及48之一的方法進(jìn)行操作。
50.一種對(duì)自由文本文檔進(jìn)行內(nèi)容確認(rèn)的方法,其構(gòu)成和布置基本如附圖所示并參照附圖描述的那樣。
51.一種計(jì)算機(jī)程序產(chǎn)品,其具有一計(jì)算機(jī)可用媒介,該媒介具有一計(jì)算機(jī)可讀程序代碼裝置,其嵌入在其中以便對(duì)一自由文本文檔進(jìn)行內(nèi)容確認(rèn),該計(jì)算機(jī)程序代碼包括計(jì)算機(jī)可讀程序代碼裝置,其按照權(quán)利要求1到24以及48之一的方法進(jìn)行操作。
52.一種計(jì)算機(jī)程序產(chǎn)品,其具有一計(jì)算機(jī)可用媒介,該媒介具有一計(jì)算機(jī)可讀程序代碼裝置,其嵌入在其中以便對(duì)一自由文本文檔進(jìn)行內(nèi)容確認(rèn),該計(jì)算機(jī)程序代碼包括計(jì)算機(jī)可讀程序代碼裝置,其在下載到一計(jì)算機(jī)讀取器時(shí)使計(jì)算機(jī)成為一種如權(quán)利要求25到47、49和50之一的系統(tǒng)。
全文摘要
一種文檔自動(dòng)確認(rèn)系統(tǒng),其經(jīng)訓(xùn)練能夠提取出特定領(lǐng)域的實(shí)體以及與它們文字關(guān)聯(lián)的物理特性、抽象特性或者是關(guān)系特性,這一點(diǎn)如電子文檔中所描述的那樣。系統(tǒng)的訓(xùn)練可通過(guò)一組示例文檔來(lái)實(shí)現(xiàn),這些文檔表示了該領(lǐng)域并由一領(lǐng)域?qū)<乙阅撤N方式手工標(biāo)出從而識(shí)別出各種類型的實(shí)體以及與它們關(guān)聯(lián)的一組可記錄的特性。帶著一專門領(lǐng)域詞匯(如詞典),該訓(xùn)練后的系統(tǒng)就能自動(dòng)處理屬于同一領(lǐng)域的新的文檔,并能在任意數(shù)目的內(nèi)容條件規(guī)則上測(cè)試所提取出的信息,這些規(guī)則必須由該領(lǐng)域?qū)<抑付◤亩_認(rèn)出新文檔的完整性和有效性。
文檔編號(hào)G06F17/28GK1906608SQ200480040794
公開(kāi)日2007年1月31日 申請(qǐng)日期2004年11月19日 優(yōu)先權(quán)日2003年11月21日
發(fā)明者賴?guó)欦? 陳亞輝 申請(qǐng)人:新加坡科技研究局