專利名稱:文件寫作與翻譯綜合系統(tǒng)的制作方法
本申請(qǐng)是1993年9月4日提交的題為“文件寫作與翻譯綜合系統(tǒng)”的第93116753.1號(hào)中國發(fā)明專利申請(qǐng)的分案申請(qǐng)。
本發(fā)明一般涉及以計(jì)算機(jī)為基礎(chǔ)的文件創(chuàng)作與翻譯系統(tǒng),尤其涉及一套用約束語言寫作文本將其翻譯成外語而無須作譯前或譯后編輯的系統(tǒng)。
凡在日常運(yùn)作中需要以各種文件形式制作大量信息的組織機(jī)構(gòu),都必須設(shè)法保證這些文件清晰易懂。在理想的情況下,這類文件應(yīng)當(dāng)用具備一切必要表達(dá)特性的、簡明而直接的語言書寫,以取得最佳的交流效果。這種語言應(yīng)該始終一致,以便通過其獨(dú)特而穩(wěn)定的語言風(fēng)格就能識(shí)別出該機(jī)構(gòu)。這種語言應(yīng)當(dāng)沒有歧義性。
為了追求這種書寫上的優(yōu)點(diǎn),人們運(yùn)用了各種各樣的規(guī)范,試圖控制文本寫作過程。然而作者的能力與背景千差萬別,要他們自如地去適應(yīng)一個(gè)統(tǒng)一的技術(shù)標(biāo)準(zhǔn)是不可能做到的。而且書寫指南、規(guī)則和書寫標(biāo)準(zhǔn)等也都不盡明確——難以確定與執(zhí)行。為了使書寫標(biāo)準(zhǔn)化和提高書寫質(zhì)量所作的努力,往往產(chǎn)生利弊參半的結(jié)果。無論采取什么手段,結(jié)果多么成功,終究還是增加了文件寫作工作的費(fèi)用。
近來試圖讓作者利用計(jì)算機(jī)軟件環(huán)境來提高寫作產(chǎn)量和質(zhì)量的種種嘗試,唯一成功的只是提供了檢查拼寫的程序。其他用于寫作的軟件,至今仍不能產(chǎn)生令人滿意的功效。
當(dāng)傳達(dá)信息的需要必須跨越語言上的疆界才能滿足時(shí),難題就更多了。凡需要使自己的信息流通渠道暢通無阻的各類機(jī)構(gòu),都要在很大程度上—即使不是完全—依賴于翻譯。
將文本從一種語言翻譯到另一種語言的工作已經(jīng)做了好幾百年。在計(jì)算機(jī)問世之前,這種翻譯工作是由一些被稱作翻譯者的專家完全用人工完成的。翻譯者需要通曉原文(源文本)的語言和譯文(目標(biāo)文本)的語言。在典型的情況下,目標(biāo)語言最好是翻譯者本來就精通的母語,而源語言則可以是后來學(xué)會(huì)的。據(jù)認(rèn)為這樣產(chǎn)生的翻譯最準(zhǔn)確,工作效率也最高。
即使是最內(nèi)行的翻譯者,翻譯一頁文本也要花費(fèi)相當(dāng)多的時(shí)間。譬如說,據(jù)估計(jì),一位內(nèi)行的翻譯者將技術(shù)性文本從英語翻譯成日語,每小時(shí)只能翻譯約300個(gè)字(約一頁)。由此可見,翻譯一份文件,尤其是技術(shù)性資料,是需要花費(fèi)大量時(shí)間與精力的。
最近一百年來,工商企業(yè)界和國際貿(mào)易對(duì)翻譯的需求持續(xù)增長。這是由幾個(gè)因素促成的。一個(gè)因素是涉及國際商業(yè)活動(dòng)的文本迅速增多。另一個(gè)因素是,一家公司要開展國際貿(mào)易就必須將此類文本翻譯成很多種語言。第三個(gè)因素是商業(yè)的發(fā)展步伐迅速,導(dǎo)致各種文件需要經(jīng)常修改,因而也需要翻譯修改后的新版本。
許多機(jī)構(gòu)都負(fù)有以多種語言制作和發(fā)行信息資料的職責(zé)。在國際市場,制造商要將產(chǎn)品銷往其他國家,就必須保證廣泛提供以這些國家的主要語言發(fā)行的產(chǎn)品說明書等。用人工將文件翻譯成外語,費(fèi)錢費(fèi)時(shí),效率也不高。由于翻譯者不一定都十分精通文件中所用的專用語言,不同翻譯者對(duì)原文的翻譯也就因人而異,往往造成譯文的不一致,鑒于這些問題,實(shí)際翻譯的說明書并未達(dá)到理想的數(shù)量。
在研究與開發(fā)的領(lǐng)域,本世紀(jì)出現(xiàn)的知識(shí)爆炸也極大地增加了對(duì)文件翻譯的需求。在任何一個(gè)特定的研究與開發(fā)領(lǐng)域中,只以一種主導(dǎo)語言寫作文件的現(xiàn)象已不復(fù)存在。在典型的情況下,此類研究與開發(fā)活動(dòng)主要是在幾個(gè)發(fā)達(dá)的工業(yè)國家開展,例如美、英、法、德、日等國。但是不少其他語言中也經(jīng)常含有涉及特定研究與開發(fā)領(lǐng)域的重要文件。技術(shù)的進(jìn)步,特別是電子技術(shù)與計(jì)算機(jī)的發(fā)展,進(jìn)一步加速了以各種語言制作的文本的產(chǎn)生。
制作文本的能力是與所用技術(shù)的效能成正比的。譬如說,在文件不得不用手寫的時(shí)代,作者在每一單位的時(shí)間里只能寫出一定的字?jǐn)?shù)。然而,隨著打字機(jī)、油印機(jī)和機(jī)動(dòng)印刷機(jī)等機(jī)械裝置的問世,寫作速度就大大提高了。而電子技術(shù)、計(jì)算機(jī)技術(shù)及光學(xué)技術(shù)的誕生,則更進(jìn)一步提高了作者的能力。今天,一般的作者在某一單位時(shí)間里所能制作的文本,要遠(yuǎn)遠(yuǎn)多于過去任何作者使用手寫方法所能制作的文本。
這種文本數(shù)量的迅速增多,加上技術(shù)的迅猛發(fā)展,促使從源語言到一種或多種目標(biāo)語言的文本翻譯問題得到了高度的重視。一些大學(xué)以及私人與政府機(jī)構(gòu)的實(shí)驗(yàn)室都對(duì)此進(jìn)行了大量的研究,以探索不需要人類翻譯者的介入就能完成翻譯工作的方法。
他們研制出了一些以計(jì)算機(jī)為基礎(chǔ)的試圖進(jìn)行機(jī)器翻譯(MT)的系統(tǒng)。此類計(jì)算機(jī)系統(tǒng)的程序設(shè)計(jì)目的,就是要將作為輸入的源文本自動(dòng)翻譯成作為輸出的目標(biāo)文本。然而研究人員發(fā)現(xiàn),運(yùn)用現(xiàn)有的技術(shù)一理論知識(shí),還不可能應(yīng)用這種計(jì)算機(jī)系統(tǒng)來進(jìn)行自動(dòng)的機(jī)器翻譯。至今問世的所有系統(tǒng),都必須有內(nèi)行的編輯/翻譯人員進(jìn)行某種編輯加工,才可以完成從一種自然源語言到一種自然目標(biāo)語言的機(jī)器翻譯。下面討論其中的一種方法。
在一個(gè)被稱作譯前編輯的過程中,首先由一名源編輯者對(duì)源文本進(jìn)行加工。該源編輯者的任務(wù)是修改源文本,使之符合所謂用機(jī)器翻譯系統(tǒng)進(jìn)行翻譯的最佳狀態(tài)。至于符合最佳狀態(tài)的標(biāo)準(zhǔn),則是源編輯者通過試錯(cuò)法來確定的。
上述譯前編輯過程可能還要由其他一些源編輯者反復(fù)進(jìn)行,每一道編輯工序都由一名水平更高的源編輯者來完成。經(jīng)過這樣編輯加工的源文本才交由機(jī)器翻譯系統(tǒng)處理。系統(tǒng)輸出的是目標(biāo)語言文本,這個(gè)文本是否需要作譯后編輯,則視譯文的用途或用戶對(duì)譯文質(zhì)量的要求而定。
如果要求譯文的質(zhì)量必須與出自翻譯行家之手的譯文質(zhì)量相當(dāng),那么機(jī)器翻譯的產(chǎn)品很可能需要由一名勝任的翻譯者進(jìn)行譯后編輯。這是因?yàn)槿祟愓Z言的復(fù)雜性,以及利用現(xiàn)有技術(shù)(同時(shí)也受到時(shí)間與人力物力的自然局限,并需要滿足成本效益方面的合理要求)所能研制的機(jī)器翻譯系統(tǒng)的能力比較平凡。事實(shí)上,現(xiàn)在研制的這種能力平凡的系統(tǒng)多數(shù)都需要進(jìn)行譯后編輯,以便通過任何可能的途徑使譯文接近純粹人工翻譯的譯文質(zhì)量水平。
卡內(nèi)基梅隆大學(xué)(Carnegie Mellon University)機(jī)器翻譯中心設(shè)計(jì)的KBMT-89就是這樣的一套系統(tǒng),專門進(jìn)行英日與日英翻譯。該系統(tǒng)運(yùn)用一種基于知識(shí)的域模型來輔助對(duì)話式單義化處理(也就是對(duì)文件進(jìn)行編輯處理,使之沒有歧義)。但是,這個(gè)對(duì)話式單義化過程不是典型地與作者交互完成的。每當(dāng)系統(tǒng)遇到一個(gè)它無法進(jìn)行單義化處理的有歧義的句子時(shí),它必須停止這一過程,通過向作者/翻譯者提出一系列多重選擇問題的方式來解決歧義性。此外,由于KBMT-89系統(tǒng)未使用定義明確的受控制的輸入語言,因此這種所謂的翻譯者輔助的對(duì)話式單義化作用所產(chǎn)生的文本需要作譯后編輯。
綜上所述,要發(fā)揮機(jī)器翻譯的優(yōu)勢,必須研制一種無須作譯前和譯后編輯的翻譯系統(tǒng)。
本發(fā)明是一個(gè)以計(jì)算機(jī)為基礎(chǔ)的用于編制單一語言文件和翻譯成多語言的綜合處理系統(tǒng)。由計(jì)算機(jī)化的對(duì)話式文本編輯程序,對(duì)作者創(chuàng)作文件時(shí)使用的自然語言子集施行詞匯約束和語法約束,并支持作者對(duì)文本進(jìn)行單義化處理,以保證其可譯性。由此產(chǎn)生的可譯的源文本經(jīng)機(jī)器翻譯為一組目標(biāo)語言中的任何一種語言,譯成的文本無須作任何譯后編輯。
圖1(a)和1(b)是本發(fā)明系統(tǒng)構(gòu)造的高級(jí)方框圖。
圖2是本發(fā)明的高級(jí)作業(yè)流程圖。
圖3是MT 120信息流(information flow)與構(gòu)造的高級(jí)方框圖。
圖4顯示一個(gè)信息元(information element)的例子。
圖5是域模型(domain model)的方框圖。
圖6是語言編輯程序(language editor)130的高級(jí)作業(yè)流程圖。
圖7是詞匯檢查程序(vocabulary checker)610的作業(yè)流程圖。
圖8是單義化程序塊(disambiguation block)630的高級(jí)流程圖。
圖9 MT 120的信息流與構(gòu)造方框圖。
本發(fā)明的以計(jì)算機(jī)為基礎(chǔ)的系統(tǒng)提供以下功能合成1)一個(gè)用于編制文件的寫作環(huán)境,以及2)一個(gè)無須作譯前或譯后編輯準(zhǔn)確翻譯成多種語言的機(jī)器翻譯模塊。在多種語言的文件制作中運(yùn)用這一技術(shù),用戶不論是要進(jìn)行少量還是大量的翻譯,都可確保翻譯的準(zhǔn)確一致,節(jié)省時(shí)間,以較低的成本取得較高的效益,而且可以做到實(shí)際上同時(shí)以源語言和需要譯成各種目標(biāo)語言一起釋放信息。
我們決定將源語言寫作功能與翻譯功能連接起來,是基于以下兩個(gè)原則1)在一個(gè)多民族、多語言的商業(yè)環(huán)境中,如果不能以用戶的各種不同語言發(fā)送信息資料,該信息資料則不能算是完全制作成功。
2)將文件寫作與翻譯過程結(jié)合于一個(gè)統(tǒng)一的構(gòu)架,可達(dá)到以其他方式不可能達(dá)到的效率。
圖1(a)顯示的是文件寫作與翻譯綜合系統(tǒng)(Integrated Authoring andTranslation System-IATS)105的高級(jí)方框圖。IATS 105系統(tǒng)提供一個(gè)特殊的計(jì)算環(huán)境,專門用于支持各機(jī)構(gòu)團(tuán)體用一種語言寫作文件并將文件翻譯成各種其他語言。這兩個(gè)截然不同的功能是由一組綜合的程序支持,方法如下1)寫作——一組程序子群提供一個(gè)計(jì)算機(jī)化的對(duì)話式文本編輯程序(TE)140,使作者可以在受到詞匯約束與語法約束的自然語言子集的有限域內(nèi)創(chuàng)作單一語言文本,該自然語言子集被命名為約束源語言(Constrained SourceLanguage-CSL)。此外,TE 140還能幫助作者對(duì)文本作進(jìn)一步的翻譯準(zhǔn)備處理,即引導(dǎo)作者通過文本單義化處理過程,使文本無須作譯前編輯即達(dá)到可譯程度。
2)翻譯——另一組程序子群提供機(jī)器翻譯(MT)120功能,能夠?qū)SL翻譯成多種目標(biāo)語言—在生成程序模塊中編好程序能生成多少種語言,就能翻譯成多少種語言。所生成的譯文無須作譯后編輯。
作為一套以翻譯為中心組成部分的系統(tǒng),本發(fā)明將寫作與翻譯功能結(jié)合于一個(gè)統(tǒng)一構(gòu)架的方法,是迄今研制成功的無須作譯前和譯后編輯的唯一方法。
文本編輯程序(TE)140是一套支持作者和編輯者用CSL創(chuàng)作文件的工具。這套工具可以幫助作者用適當(dāng)?shù)腃SL詞匯和語法來編寫文件。TE 140直接與作者160通信(反之亦然)。
參見圖1(b),IATS 105被分成四個(gè)主要部分來完成寫作與翻譯的功能(1)約束源語言(CSL)133,(2)文本編輯程序(TE)140,(3)機(jī)器翻譯程序(MT)120,(4)域模型(DM)137。文本編輯程序140包括語言編輯程序(LE)130和圖形編輯程序(GE)150。此外還有一個(gè)用以控制所有處理過程的文件管理系統(tǒng)(FMS)110。
CSL 133是一個(gè)源語言子集,子集中的語法與詞匯覆蓋了需要翻譯的作者文件的領(lǐng)域。CSL 133以所允許的詞匯和語法結(jié)構(gòu)的規(guī)格定義,以便達(dá)到翻譯過程不必借助于譯前和譯后編輯的目的。
TE 140是一套支持作者和編輯者用CSL創(chuàng)作文件的工具。這套工具可以幫助作者用適當(dāng)?shù)腃SL詞匯和語法來編寫文件。語言編輯程序(LE)130通過文本編輯程序140與作者160通信(反之亦然)。作者通過連線162與文本編輯程序140進(jìn)行雙向通信。LE130告訴作者160所用的詞和詞組是否屬于CSL。如果所用的詞與該文件所屬的信息域有關(guān),但不屬于CSL,LE 130能夠建議作者用CSL中的同義詞替代。此外,LE130也會(huì)告訴作者160某一文本是否符合CSL的語法約束,并且協(xié)助作者對(duì)某些可能句法正確,但是在語義上有歧義的句子進(jìn)行單義化處理。
MT 120分成兩部分MT分析程序127和MT生成程序123。MT分析程序127有兩個(gè)作用分析文件以保證文件單義地符合CSL,和產(chǎn)生中間語(Interlingua)文本。然后,分析過的經(jīng)CSL認(rèn)可的文本就被翻譯成所選定的外國(目標(biāo))語言180。MT120采用以中間語為基礎(chǔ)的翻譯方法,不是直接將文件翻譯成另一種外語,而是由MT生成程序123將文件轉(zhuǎn)換成一種獨(dú)立于任何語言的、計(jì)算機(jī)可讀的形式,稱作中間語(Interlingua),然后從中間語文本生成譯文。這樣完成的翻譯文件無須作譯后編輯。每種不同的語言都需要制作不同的MT 120版本,其主要內(nèi)容是一套為引導(dǎo)從中間語文本到外語文本的翻譯過程而設(shè)計(jì)的知識(shí)源。尤其是必須為每一種新的目標(biāo)語言單獨(dú)開發(fā)一個(gè)新的MT生成程序123。
在完全發(fā)揮功能的情況下,如果遇到符合CSL的語法約束,但是意思并不清楚的句子,LE 130有時(shí)會(huì)要求作者160從對(duì)這些句子的幾種可能的解釋中作出選擇。這個(gè)過程稱作單義化處理(disambiguation)。當(dāng)LE 130確定了文本的某一部分只使用CSL詞匯,并且符合所有的CSL語法約束之后,該文本就被標(biāo)為經(jīng)CSL認(rèn)可(CSL-approved),接下去便進(jìn)行前面所說的單義化處理。由以下說明可以看到,單義化處理不會(huì)要求對(duì)文本中作者明顯可見的內(nèi)容作任何改動(dòng)。文本經(jīng)單義化處理之后,便可以翻譯成目標(biāo)語言180了。
實(shí)際上,LE 130設(shè)置成文本編輯程序140的延伸。文本編輯程序140提供作者與編輯者制作文本與表格所需要的基本文字處理功能。圖形編輯程序150用于制作圖形。圖形編輯程序150還提供通過文本編輯程序140存取圖形上的文本標(biāo)記的途徑,從而使這些文本標(biāo)記也可以得到CSL認(rèn)可。
LE 130(經(jīng)由文本編輯程序140)與MT分析程序127通信,并且通過MT分析程序127在單義化處理過程中經(jīng)由插座到插座(socket-socket)的雙向連線與域模型(DM)137連接。在本發(fā)明的較佳實(shí)施例中,DM是饋給MT分析程序127的知識(shí)庫之一。DM 137的作用是關(guān)于MT分析程序127和LE 130所用的CSL詞匯的說明性知識(shí)的符號(hào)表示。
圖2顯示的是IATS 105的高級(jí)作業(yè)流程圖。MT 120、LE130、文本編輯程序140和圖形編輯程序150都受到FMS 110的控制。控制線111-113為IATS 105的正常操作提供必要的控制信息。
首先由作者160用FMS 110選擇一個(gè)需要編輯的文件,F(xiàn)MS 110便啟動(dòng)文本編輯程序140,顯示該文件的檔案。如方框160和220所示,作者使用文本編輯程序140把可能是未經(jīng)約束的、有歧義的文本輸入到IATS 105。作者160用標(biāo)準(zhǔn)的編輯命令創(chuàng)作與修改文件,直至文件達(dá)到可以接受是否符合CSL的檢查階段。要注意的是,我們預(yù)期多數(shù)作者在輸入文本時(shí)會(huì)在相當(dāng)程度上考慮到文件需要接受CSL的約束。然后該文本由作者依據(jù)系統(tǒng)顯示是否違反預(yù)定的詞匯和語法約束的反饋而加以修改,以便符合CSL。這樣的方法當(dāng)然要比一開始輸入完全不受約束的文本效率高得多。不過,即使一開始輸入的是完全不受約束的文本,系統(tǒng)也會(huì)正常運(yùn)轉(zhuǎn)。
作者與LE 130的通信是以按動(dòng)鼠標(biāo)器或打鍵盤命令進(jìn)行的。然而,應(yīng)注意其他的輸入形式也可以使用,諸如(但不限于)使用記錄筆、聲音等等,而無須改變本發(fā)明的范圍或功能。一個(gè)輸入的例子是發(fā)出命令要求作CSL檢查,或要求尋找某個(gè)詞或詞組的定義及用法舉例。
如方框230所示,要分析可能含有殘余歧義或文體問題的CSL文本,是否與CSL相符,并檢查是否遵守知識(shí)庫中所含有的語法規(guī)則。作者通過反饋線215得到反饋信息,由此改正文本中的任何錯(cuò)誤。具體說來,是由LE 130向作者160提供關(guān)于非CSL的詞、詞組和句子的信息。最后,要檢查文本中是否有歧義的句子。LE提示作者選擇對(duì)句子意思的合適解釋。這個(gè)過程要反復(fù)進(jìn)行,直至文本完全消除歧義。
當(dāng)作者對(duì)文本作了所有必要的修正,并完成了分析階段230之后,經(jīng)過單義化處理的/受約束的文本240便到達(dá)MT分析程序和翻譯程序250。翻譯程序與分析程序的句法部分一起常駐于MT分析程序127,并將經(jīng)過單義化處理的/受約束的文本240翻譯成中間語260,再由生成程序塊270將中間語260翻譯成目標(biāo)文本280。如圖3所示,中間語260的形式足以能被翻譯成多種語言(306-310)。
通過要求并允許作者創(chuàng)作符合特定詞匯和語法約束的文件,才有可能將約束語言文本準(zhǔn)確地翻譯成外語,而無須作譯后編輯。之所以無須作譯后編輯,是因?yàn)長E詞匯檢查程序塊217和分析程序塊230在翻譯之前已經(jīng)讓作者對(duì)文件中所有可能有歧義的句子和所有不可譯的詞作了修改和/或單義化處理。
在一個(gè)較佳的實(shí)施例中,每個(gè)作者都可單獨(dú)使用一個(gè)帶32兆R(shí)AM、400-兆字節(jié)磁盤機(jī)和19英寸彩色顯示器的DEC工作站(DECstation)。每個(gè)工作站的局部磁盤將配置有至少100兆的調(diào)換盤。除了作者的工作站之外,每兩個(gè)寫作組可使用一個(gè)DEC伺服機(jī)作為文件伺服機(jī),每個(gè)文件伺服機(jī)不超過45個(gè)用戶。而且,寫作工作站將常駐于一個(gè)Ethernet局部網(wǎng)絡(luò)。系統(tǒng)使用Unix操作系統(tǒng)[用Berkeley Standard Distribution(BSD)的派生型要比SystemV(SYSV)的派生型更好]。還可以配備C程序設(shè)計(jì)語言和OSF/Motif程序庫。LE將在一個(gè)Motif視窗式管理程序中運(yùn)行。應(yīng)該注意,本發(fā)明并不局限于上述硬件與軟件裝置,其他裝置也在本發(fā)明的構(gòu)思范圍內(nèi)。
A.文本編輯程序本發(fā)明的較佳實(shí)施例提供一個(gè)文本編輯程序140,它允許作者輸入將要被分析并最后翻譯成外語的信息。市場上可買到的任何文字處理軟件都可與本發(fā)明連用。一個(gè)較佳的實(shí)施例是用ArborText公司提供的SGML文本編輯程序140。SGML文本編輯程序140提供作者與編輯者所需要的基本文字處理功能,并且可與InterCap公司的軟件連用制作圖形。
本發(fā)明使用SGML文本編輯程序140,因?yàn)樗怯脴?biāo)準(zhǔn)通用化標(biāo)記語言(Standard Generalized Markup Language-SGML)的標(biāo)識(shí)符來制作文本的。SGML是用于一個(gè)描述電子文件結(jié)構(gòu)的國際標(biāo)準(zhǔn)標(biāo)記語言。這種語言是為滿足多種不同的文件處理與互換作業(yè)的要求而設(shè)計(jì)的。運(yùn)用SGML標(biāo)識(shí)符,可以根據(jù)文件的內(nèi)容(文字、圖像等)和邏輯結(jié)構(gòu)(章、段、圖表、表格等)來描述文件。如果是更大、更復(fù)雜的電子文件,它還可以分成幾個(gè)檔案來記述一個(gè)文件的實(shí)體組織。SGML設(shè)計(jì)成讓任何種類的文件,無論簡單或復(fù)雜,短的或長的,都能以獨(dú)立于系統(tǒng)與應(yīng)用的方式描述。這種獨(dú)立性使文件能在不同的系統(tǒng)之間互換,以適合不同的應(yīng)用,而不會(huì)造成誤解,也不會(huì)失去數(shù)據(jù)。
SGML是一種標(biāo)記語言,即一種利用編碼信息來“標(biāo)記”或注釋文本的語言,該編碼信息加到由一件文本所傳達(dá)的傳統(tǒng)的正文信息中。在多數(shù)情況下,它是在電子文件中不同的地方以序列的形式出現(xiàn)。每個(gè)序列都可以通過表示該序列開始和結(jié)束的特殊字符與周圍的正文區(qū)分。如有請(qǐng)求,軟件可以檢查SGML標(biāo)識(shí)符,以核定正文中插入的標(biāo)記是否正確。這種標(biāo)記不是專為某一特定系統(tǒng)或任務(wù)設(shè)計(jì)的,在這個(gè)意義上它是通用的。有關(guān)SGML標(biāo)識(shí)符更深入的探討,請(qǐng)參見International Standard(ISO)8879,Information processing-Text andoffice systems-Standard Generalized markup Language(SGML),Ref.No.ISO8879-1986(E)。
使用SGML標(biāo)識(shí)符可產(chǎn)生以下功能(1)將文件分為片斷或可譯單位。文本編輯程序140軟件同時(shí)用標(biāo)點(diǎn)符號(hào)和SGML標(biāo)識(shí)符來識(shí)別源輸入文本的可譯單位(識(shí)別分節(jié)標(biāo)題必須用SGML標(biāo)識(shí)符);(2)屏蔽(隔絕)不需翻譯的單位。雖然系統(tǒng)的設(shè)計(jì)是基于這樣一個(gè)前提所有的詞和句子都將屬于無法事先預(yù)見的約束語言(例如姓名和地址),或者無法(很容易地)詳盡分類的詞匯類別(例如部件編號(hào),機(jī)器發(fā)出的錯(cuò)誤信息),但是可以在這些項(xiàng)目的周圍加上SGML標(biāo)識(shí)符,告訴系統(tǒng)這些內(nèi)容無須檢查;(3)鑒別上述第(2)條討論的內(nèi)容(如部件編號(hào));(4)允許翻譯句子的局部(如醒目排列的項(xiàng)目);(5)通過鑒別文本結(jié)構(gòu)輔助表格翻譯(一次翻譯一單元)。這個(gè)功能與第(1)條所述相似;(6)通過(2)、(3)、(4)、(5)的功能輔助語法分析過程(詳見下述);(7)輔助單義化處理,即提供在源文本中插入看不見的標(biāo)識(shí)符的手段,表示某一歧義句子的正確解釋;(8)通過識(shí)別需要特別處理的特定文本類別輔助貨幣與數(shù)學(xué)單位的翻譯;(9)提供將部分文本標(biāo)明可譯的手段,換言之,證明某文本部分已通過了下面概述的過程,因此該文本部分已是可以翻譯而無須作譯后編輯的單義性約束文本。
過去,作者(借助于文本編輯程序140)制作的電子文件(只是文字,沒有圖形)代表一本完整的“書”。這意味著所有的工作都是由一位作者完成的,所制作的信息不容易重復(fù)使用。然而,本發(fā)明使用一組較小的片斷或信息元來編(或著)書(說明書、文件資料等),這意味著編著工作可以由多位作者分擔(dān)。本發(fā)明的結(jié)果是信息較易重復(fù)使用。信息元定義為有關(guān)某一專門域中最小獨(dú)立單位的服務(wù)信息。不過應(yīng)當(dāng)注意,雖然一個(gè)較佳的實(shí)施例利用了信息元,但是本發(fā)明也可以不用信息元而產(chǎn)生準(zhǔn)確的、沒有歧義的翻譯文件。
圖4所示是一個(gè)信息元410的實(shí)例,該信息元包括“獨(dú)用”標(biāo)題415、“獨(dú)用”文字塊420,“分用”圖形430,“分用”表格435,和“分用”文字塊425。
“獨(dú)用”(unique)信息是指只在該信息中適用的信息。這意味著“獨(dú)用”信息是作為信息元450的一部分存檔的。
“分用”(shared)項(xiàng)目(圖形、表格或文字塊)是在信息元中“供參考”的信息?!胺钟谩表?xiàng)目的內(nèi)容會(huì)在寫作工具中顯示,但是只在存檔的信息元450中“被指示”。
“分用”項(xiàng)目與信息元的區(qū)別在于前者不是獨(dú)立的(也就是說,它們本身并不傳遞足夠的信息以形成獨(dú)立的信息)。如方框450所示,每個(gè)“分用”項(xiàng)目本身是一個(gè)分隔的存檔文件。
信息元是“獨(dú)用”信息塊(文字和/或表格)與一個(gè)或多個(gè)“分用”項(xiàng)目組成。注意,“獨(dú)用”標(biāo)題415和“獨(dú)用”文字塊420,與“分用”圖形430、“分用”表格435及“分用”文字塊425結(jié)合在一起。一個(gè)或多個(gè)信息元組成的集合構(gòu)成一份完整的文件(書)。
“分用”項(xiàng)目貯存在“分用”信息庫中。信息庫的種類包括“分用”圖形庫460a,“分用”表格庫460b,“分用”文字庫460c,“分用”音響庫460d,和“分用”視像庫460e。一個(gè)分用項(xiàng)目只貯存一次。當(dāng)用于個(gè)別信息元時(shí),只將表示原始分用項(xiàng)目的“指針”放在信息分用檔案450中。這樣可以使所需的磁盤空間達(dá)到最小。假如更改了原來的分用項(xiàng)目,所有“指向”該項(xiàng)目的信息元也自動(dòng)更改。任何類型的出版物都可以使用分用項(xiàng)目。
“分用信息元”是用于不止一份文件的信息元。例如,釋放信息庫470中的同樣四個(gè)信息元被用來創(chuàng)作文件480和485的部分內(nèi)容。
作者與LE 130之間的一切通信,都經(jīng)過LE用戶接口(LE UserInterface-UI)傳達(dá)。用戶接口或者以標(biāo)準(zhǔn)的SGML編輯設(shè)施的擴(kuò)展,如菜單選擇項(xiàng)的形式實(shí)現(xiàn),或者用另外一個(gè)視窗實(shí)現(xiàn)。用戶接口提供并管理進(jìn)入各個(gè)CSL檢查程序和CSL詞匯查找設(shè)施的入口及其控制,并且也是讓用戶與CSL LE進(jìn)行對(duì)話的主要工具。雖然“用戶接口”一般泛指至整套軟件系統(tǒng)的接口,但是此處只限于表示至各個(gè)CSL檢查程序、詞匯查找設(shè)施及單義化處理設(shè)施的接口。
除其他任務(wù)以外,UI必須提供以下幾方面的明確信息(a)LE正在執(zhí)行的活動(dòng),(b)這些活動(dòng)的結(jié)果,(c)任何接著發(fā)生的活動(dòng)。例如,每當(dāng)通過UI開始執(zhí)行的活動(dòng)超過極短暫的實(shí)時(shí)暫停時(shí),UI便應(yīng)該以簡潔的信息告訴作者可能會(huì)出現(xiàn)延遲。
作者可以通過在文本編輯程序140的卷簾式菜單上選擇一個(gè)項(xiàng)目的方式來啟動(dòng)LE的功能??晒┻x擇的項(xiàng)目允許作者啟動(dòng)并閱讀CSL檢查(包括詞匯與語法檢查)及詞匯查找功能發(fā)出的反饋。作者可以要求在當(dāng)前顯示的文件中開始檢查,或者要求對(duì)某一特定的詞或詞組進(jìn)行詞匯查找。
UI會(huì)清楚地表明在文件中找到的每一個(gè)非CSL語言事例。表明非CSL語言的可能方法包括在SGML編輯視窗使用顏色和改變字體類型或尺寸。UI會(huì)顯示關(guān)于每個(gè)非CSL詞的所有已知的信息。例如,在適合的情形中,UI會(huì)顯示一個(gè)信息,說明這個(gè)詞不屬于CSL,但是有CSL的同義詞,并且列出這些同義詞。
如果詞匯檢查報(bào)告中列出一些可以替代該非CSL詞的形式(如其他拼寫形式或CSL同義詞),作者可以在其中任選一個(gè),并要求在文件中自動(dòng)替代。在某些情況下,作者可能需要對(duì)所選的替代內(nèi)容略做修改(即增加合適的詞尾),以保證其形式正確。
當(dāng)作者要求有關(guān)詞匯的信息時(shí),UI會(huì)顯示出該詞匯的可替代拼寫形式、同義詞、定義和/或用法舉例。
作者可在UI中快速簡便地在檢查程序信息與詞匯查找信息之間來回轉(zhuǎn)換。這使作者可以在改變文件以去除非CSL語言的過程中同時(shí)進(jìn)行信息搜索(如查找同義詞)。
在多數(shù)情況下,UI會(huì)自動(dòng)用CSL詞匯替代非CSL詞匯,不需要用戶修改CSL詞以保證其形式正確。然而有的時(shí)候,對(duì)文件不作語法分析的詞匯檢查程序(如下所述)會(huì)無法鑒定應(yīng)該提供的正確形式。請(qǐng)看下面這條圖片說明,其中的動(dòng)詞“view”不屬于CSL,但是有CSL同義詞“see”Direction of Crankshaft Rotation(when viewed from flywheel end)詞匯檢查程序不知道應(yīng)該為“viewed”提供的同義詞究竟是“saw”還是“seen”。當(dāng)然,在這種情形中,合理的做法也許是兩個(gè)可能形式都提供,讓作者去選擇一個(gè)合適的。由于不能保證每一種情況都允許作者作出直接替代的指令,LE 130會(huì)盡可能列出一批正確形式的替代選擇項(xiàng)。不過有的時(shí)候作者會(huì)發(fā)現(xiàn),必須先對(duì)程序提出的CSL詞或詞組進(jìn)行編輯,然后才能要求將它置入文件。
最后,LE UI也能支持對(duì)句子意思進(jìn)行單義化處理,做法是為作者列出一些可能的選擇解釋,讓作者去選擇一個(gè)合適的解釋,并給這個(gè)句子加上標(biāo)記,以表明這是作者的選擇。
B.文件管理系統(tǒng)文件管理系統(tǒng)(FMS)110充當(dāng)作者與信息元(IE)釋放庫470和SGML文本編輯程序140之間的接口。典型的例子是,作者如要選擇一個(gè)IE進(jìn)行編輯,就在FMS接口指明該IE的檔案。然后,F(xiàn)MS 110會(huì)啟動(dòng)并管理該IE的SGML編輯會(huì)話。完成的文件將通過FMS控制的設(shè)施傳送給一個(gè)人類編輯者或信息綜合裝置。
C.約束源語言(CSL)以當(dāng)今科技文獻(xiàn)的復(fù)雜性而論,要對(duì)無約束的自然語言文本進(jìn)行高質(zhì)量的機(jī)器翻譯實(shí)際上是不可能的。主要的障礙是屬于語言學(xué)性質(zhì)的。翻譯源文本的關(guān)鍵環(huán)節(jié)是要用目標(biāo)語言準(zhǔn)確表達(dá)原文的意思。由于意思隱含于正文信號(hào)的外表之下,因而必須對(duì)這種公開的信號(hào)進(jìn)行分析。在生成目標(biāo)語言信號(hào)的過程中就是采用這種分析得出的意思。某些最令人頭痛的翻譯難題,便是由語言中那些難以分析與生成的內(nèi)在特征所造成的。
下面舉出幾個(gè)這樣的特征1.有些詞在上下文不明的情況下會(huì)有不止一個(gè)意思例如Make it with light material。[“l(fā)ight”一詞是指“發(fā)亮的”,還是指“輕的”?]2.有些詞的構(gòu)成具有歧義性例如德語詞“Arbeiterinformation”既可以是“information forworkers”[Arbeiter +Information],也可以是“formation of femaleworkers”[Arbeiterin+Formation]。
3.有些詞具有不止一個(gè)句法功能Round一詞可以作名詞(N),動(dòng)詞(V)或形容詞(A)(N)Liston was knocked out in the first round。
(V)Round off the figures before tabulating them。
(A)Do not place the cube in a round box。
4.有些詞的不同組合可以各有不止一個(gè)句法功能例如British Left Waffles on Falklands。[如果Left Waffles被讀成V+N,這條標(biāo)題是關(guān)于the British的]5.有些詞的組合造成結(jié)構(gòu)的歧義性例如Visiting relatives can be boring。例如Lift the head with the lifting eye。6.代詞的指代不明確例如The monkey ate the banana because it was…[“it”指的是“the monkey”還是“the banana”?]上述語言特征,再加上生成過程中的難題,增加了機(jī)器翻譯的總難度。
通過縮小語言所表現(xiàn)的語言學(xué)現(xiàn)象的范圍,可以大大減少翻譯的難題。子語言(sublanguage)可以將詞語的所指對(duì)象、作用及關(guān)系限定在一個(gè)有限的界域內(nèi)。但是,雖然子語言的詞匯可能有限,在語法能力方面卻不一定有限。在有控制的情形下,便于機(jī)器翻譯的一個(gè)辦法,是同時(shí)約束子語言的詞匯和語法。
詞匯約束可以限制詞匯量,方法是避免同義詞,并盡可能使每一個(gè)詞匯單元專門表達(dá)一個(gè)意思,從而控制詞的歧義性。這些約束如何避免上述第1、2、4例中的問題,是不難想象的。語法約束可以簡單地排除代詞指代功能(上述第6例)之類的語法作用,或者要求通過加詞、或者重復(fù)在正常情況下屬于多余的信息,或通過改寫等方式,使所要表達(dá)的意思更為明確。以下例子說明這一要求的應(yīng)用方法未約束的歧義性英語語言(可以有下面A、B1或B2三種解釋)Clean the connecting rod and main bearings。
單義的英語寫法AClean the connecting rod bearings and the main bearings。
單義的英語寫法B1Clean the main bearings and the connecting rod。
單義的英語寫法B2Clean the main bearings and the connecting rods。
根據(jù)約束子語言的不同設(shè)計(jì)目的,詞匯與語法約束的數(shù)量及類別可能大不一樣。
綜上所述,本發(fā)明就是將文件寫作限定在一種約束語言的范圍內(nèi)。約束語言就是從源語言中發(fā)展出來的一種用于特定的用戶應(yīng)用域的子語言(如美國英語)。有關(guān)約束語言或控制語言有一般討論,請(qǐng)參閱Adriaens等人的FromCOGRAM to ALCOGRAMToward a centrolled English Grammar Checker一文,發(fā)表于Proc.of Coling-92,Nantes(Aug.23-28,1992),其中有本文參照采用的資料。在機(jī)器翻譯中使用約束語言有以下兩個(gè)目的1.便于源文件的寫作具有一致性,鼓勵(lì)明暢直接的寫作風(fēng)格;2.為源文本提供一個(gè)有原則的構(gòu)架,以允許對(duì)用戶文件進(jìn)行快速、準(zhǔn)確、高質(zhì)量的機(jī)器翻譯。
作者在寫作時(shí)必須遵循一套規(guī)則,以保證所寫文字的語法符合CSL,這套規(guī)則我們稱之為CSL語法約束。在機(jī)器翻譯部分用CSL語法約束來分析CSL文本的計(jì)算執(zhí)行功能,我們稱之為CSL功能語法,這個(gè)命名是依據(jù)由Martin kay提出,后來由R.Kaplan和J.Bresnan修改的著名形式主義理論[參見Kay,M.的“Parsing in Functional Unification Grammar,”一文,發(fā)表于由D.Dowty,L.Karttunen和A.Zwicky(編輯的),Natural LanguageparsingPsychological,computational,and TheoreticalPerspectives,Cambridge,Mass.Cambridge University Press,pgs.251-278(1985),和Kaplan R.和J.Bresnan的Lexical.Functional GrammarAFormal System for GrammaticalRepresentation,”一文,發(fā)表于由J.Bresnan編輯的The Mental Representation of GrammaticalRelations,Cambridge,Mass.MIT Press,pgs.172-281(1982),兩篇文章都有本文參照采用的資料。]在本文后面部分,我們經(jīng)常提到某個(gè)詞或詞組可能“屬于CSL”或“不屬于CSL”這樣一個(gè)概念。下面我們將描述關(guān)于CSL所實(shí)施的詞匯約束類別的設(shè)想,并說明“屬于CSL”這個(gè)詞語的用法。
英語中同一個(gè)詞或詞組可以有許多不同的意思,例如一本通用的詞典可能會(huì)為“l(fā)eak”這個(gè)詞作出下列定義(1)動(dòng)詞漏,滲漏(東西從缺口或縫隙中滴下、透出或掉出);(2)動(dòng)詞泄漏(未經(jīng)正式同意或批準(zhǔn)而透露消息);(3)名詞漏洞,漏隙(讓東西出入容器或管道的縫隙或口子)。
每一個(gè)這種不同的意思我們稱之為詞或詞組的“含義”(sense)。一個(gè)單詞或詞組的多種含義會(huì)給機(jī)器翻譯系統(tǒng)造成麻煩,因?yàn)闄C(jī)器翻譯系統(tǒng)不具備人用來從幾種可能的含義中鑒別在某一句子中要表達(dá)的究竟是哪一個(gè)含義的全部知識(shí)。有不少詞,機(jī)器翻譯系統(tǒng)可以通過識(shí)別該詞用于某一句子中的詞類(名詞、動(dòng)詞、形容詞等)來消除一定程度的歧義性。因?yàn)橐粋€(gè)詞的每一個(gè)定義都是該詞用作某一特定詞類時(shí)所特有的,例如前面所舉的“l(fā)eak”,因此這種識(shí)別是可能做到的。
然而,為了避免MT 120不能排除的那幾種歧義性,CSL所定的規(guī)格是盡量要求每個(gè)詞類的詞或詞組只能表達(dá)單獨(dú)一個(gè)含義。因此,當(dāng)一個(gè)詞或詞組“屬于CSL”時(shí),它就可以在CSL中用來表達(dá)至少一個(gè)可能的含義。例如,用CSL寫作的作者可以使用上述“l(fā)eak”一詞的含義(1)和(3),但不能用含義(2)。當(dāng)我們說一個(gè)詞或詞組“屬于CSL”時(shí),這并不意味著該詞或詞組的所有可能的用法都可以翻譯。
如果一個(gè)詞或詞組屬于CSL,那么該詞或詞組可以表達(dá)其CSL含義的所有形式也都屬于CSL。在前面所舉的例子中,作者不但可以使用動(dòng)詞的“l(fā)eak”,也可以使用相關(guān)的動(dòng)詞形式“l(fā)eaked”、“l(fā)eaking”t“l(fā)eaks”。如果一個(gè)詞或詞組的名詞含義屬于CSL,其單數(shù)與復(fù)數(shù)形式都可使用。不過要注意,詞組用作不止一個(gè)詞類功能的情況并不常見。因此,這種類推法對(duì)于有歧義的詞組就不太相關(guān)了。
詞匯就是在某一語言或子語言中所用的詞和詞組的總匯。如果用有限的詞匯來傳達(dá)或表示有關(guān)某個(gè)有限的經(jīng)驗(yàn)領(lǐng)域的信息,這樣就可以設(shè)定一個(gè)有限的域。舉例說,一個(gè)有限的域可能是農(nóng)業(yè),其中有限的詞匯將包括關(guān)于農(nóng)業(yè)設(shè)備和活動(dòng)的詞語。MT組件可操縱不止一種的詞匯。用于機(jī)器翻譯的詞和詞組將貯存在MT詞庫中。詞匯可分為不同的類別(1)功能詞語;(2)一般內(nèi)容詞語;以及(3)技術(shù)術(shù)語。
英語中的功能詞語是主要用來連接句子中概念的單詞和詞的組合。幾乎任何種類的英語書面信息交流都需要用到這種功能詞語。這個(gè)類別包括介詞(to,from,with,in front of 等),連詞(and,but,or,if,when,because,since,while等),限定詞(the,a,your,mostof),代詞(it,something,anybody等),某些副詞(no,never,always,not,slowly等),以及助動(dòng)詞(should,may,ought,must等)。
一般內(nèi)容詞語被大量用來描繪我們所處的世界,其主要用途是反映人類的日常普通經(jīng)驗(yàn)。在典型的情況下,文件資料著重反映人類經(jīng)驗(yàn)中非常專門的一部份(如機(jī)器及其保養(yǎng)維修)。就此而論,機(jī)器翻譯涉及的一般性詞匯相對(duì)有限。
技術(shù)術(shù)語包括含有技術(shù)性內(nèi)容的詞和詞組,以及用戶應(yīng)用的專用詞匯。技術(shù)性詞語是專用于某一特定活動(dòng)領(lǐng)域或范疇的詞和詞組。多數(shù)技術(shù)性詞語是名詞,用于給諸如部件、組件、機(jī)器、材料等物品命名。不過也可能包括其他類別的詞,比如動(dòng)詞、形容詞和副詞。顯而易見,這些詞在普通的日常會(huì)話中并不使用,所以它們與一般內(nèi)容的語詞形成對(duì)比。
技術(shù)性詞組是由前面所述各個(gè)類別構(gòu)成的多詞序列。這種詞組是技術(shù)文獻(xiàn)詞匯最具特色的形式。用戶應(yīng)用的專用詞匯是含有為用戶應(yīng)用的專門用途而生造的單詞和復(fù)合詞語的那部分術(shù)語,包括以下各類產(chǎn)品名稱,文件題目,用戶使用的字首組合詞,表格編號(hào)等。
編集一套有用而且完整的詞匯,對(duì)于任何文件編制工作都是很重要的。在隨后對(duì)所編制的文件進(jìn)行翻譯時(shí),這套詞匯便成了翻譯工作的重要資源。MT120是設(shè)計(jì)成可以處理英語中多數(shù)功能詞語的,只有那些人稱代詞(I,me,my等),或有性別之分的(hers,she等),或其他代詞(it,them等)除外。這種指代用法需要從英語的一般詞匯中作一些技術(shù)“借用”(如“truck”或“l(fā)ength”等)。由此可見,約束語言詞匯中的絕大多數(shù)是由一個(gè)或多個(gè)單詞組成的“專門”(如技術(shù))詞語,用來表達(dá)這個(gè)專門領(lǐng)域的物體和作用。如果一套詞匯達(dá)到能夠表達(dá)某一專門域的一切觀念的程度,我們便說這套詞匯是完整的。
設(shè)計(jì)一套精練的、但又是完整的詞匯可以大大有助于IATS系統(tǒng)105的成功。這種約束語言可以通過鑒別詞匯的用法恰當(dāng)與不恰當(dāng),來保證文件的編制方法有利于快速、準(zhǔn)確、高質(zhì)量的機(jī)器翻譯。
每個(gè)詞語都應(yīng)當(dāng)表達(dá)明確的概念,并且適合目標(biāo)語言的讀者閱讀。應(yīng)該避免歧視女性的、口語化的、習(xí)語的、過于復(fù)雜或過去于技術(shù)性的、語義含混的、或者以其他形式妨礙交流的詞語。這些及其他一些普遍公認(rèn)的文體規(guī)則,雖然在面向機(jī)器翻譯的處理中不一定非要遵守不可,但卻是一般文件制作的重要準(zhǔn)則。
應(yīng)當(dāng)注意,雖然本文關(guān)于約束語言和/或一般語言的大部份討論是圍繞美國英語進(jìn)行的,但是在涉及任何其他語言時(shí)可以由此類推。本文所描述的系統(tǒng)100并沒有任何內(nèi)在的因素要求必須以美國英語為源語言。事實(shí)上,系統(tǒng)100并不是被設(shè)計(jì)成以美國英語為唯一源語言工作的。不過,與LE 130和MT 120交互作用的數(shù)據(jù)庫(如域模型),必須根據(jù)對(duì)特定源語言的約束而修改。
標(biāo)準(zhǔn)美國英語正字法的準(zhǔn)則必須遵守。應(yīng)避免不規(guī)范的拼寫,例如將“through”拼成“thru”,“molding”拼成“moulding”,“odometer”拼成“hodometer”等。大寫的詞(如On-Off,Value Planned Repair)應(yīng)當(dāng)只用于表示特殊的詞語意思。這類詞語必須列入用戶應(yīng)用詞匯中。不規(guī)范的大寫用法(BrakeSaver)也是如此。同樣,如果使用縮略語,(ROPS,API,PIN),也必須將它們列入用戶應(yīng)用詞匯。數(shù)字、度量衡單位和日期等的格式,必須始終一致。
約束語言的恢復(fù)項(xiàng)目(recovery items)也應(yīng)當(dāng)根據(jù)其在約束語言中的意思使用。這樣作者可以保證MT在翻譯一個(gè)詞的時(shí)候,始終使用該詞在約束語言中的合適含義。有些英語詞也可以屬于不止一個(gè)句法類型。在約束語言中,所有在句法上有歧義的詞都應(yīng)當(dāng)用在能使它們變成單義的結(jié)構(gòu)中。
在某些專業(yè)領(lǐng)域,從域的特殊性質(zhì)產(chǎn)生的一個(gè)難題是頻繁使用較長的復(fù)合名詞。此類復(fù)合名詞內(nèi)含的修飾關(guān)系,在不同的語言中表達(dá)方式不同。由于從源文本中恢復(fù)這些關(guān)系并在目標(biāo)語言中表達(dá)出來并不總是可行,因此具有以下特征的復(fù)雜的復(fù)合名詞可列入MT詞庫。
·出自用戶應(yīng)用專用詞匯的技術(shù)術(shù)語;和·由超過一個(gè)詞組成的復(fù)合詞語。
復(fù)雜的名詞與名詞的復(fù)合構(gòu)成應(yīng)盡可能避免。然而,只要在詞庫中列入某些條目,MT便能夠處理這個(gè)文件編寫的重要特點(diǎn)。要注意的是,名詞與名詞的復(fù)合構(gòu)成是英語中十分常見的一種構(gòu)詞特征,卻不一定是其他語言的常見特征,因此,設(shè)計(jì)約束語言所依據(jù)的約束方法,隨所使用的特定源語言而有所不同。
英語中有很多動(dòng)詞與虛詞的組合結(jié)構(gòu),也就是動(dòng)詞與介詞、副詞或其他詞類組合成動(dòng)詞短語。由于虛詞與動(dòng)詞通??梢员毁e語或其他詞組隔開,這就在MT對(duì)輸入文本的處理過程中造成了復(fù)雜性和歧義性。因此,動(dòng)詞與虛詞的組合結(jié)構(gòu)也應(yīng)盡可能予以改寫。通常是可以用一個(gè)單詞的動(dòng)詞來替代的。例如,用·“must”或“need”替代“have to”;·“consult”替代“refer to”;·“start the motor”替代“turn the motor on”。
應(yīng)盡可能使用充分的詞語和概念。這在容易引起誤解的場合尤其重要。例如“Use a monkey wrench to loosen the bolt…”此句中的Wrench一詞絕不可省略。雖然省掉這個(gè)詞,多數(shù)內(nèi)行的技術(shù)人員也能懂得這句話的意思,但是在翻譯過程中必須明確地表達(dá)出來。CTE文本所用的詞匯必須盡可能明確表達(dá);縮略語或縮寫詞語都應(yīng)改寫為構(gòu)詞完整的表達(dá)形式。
試看另一個(gè)例子“If the electrolyte density indicates that…”此處如能充分表達(dá)概念,意思就會(huì)更明確、完整“If measurement of the electrolyte density indicates that…”最后,下列句子中有的詞或詞組本來是沒有的,現(xiàn)在我們加上劃線的詞,使意思表達(dá)得更為明確Turn the start switch key to OFF and remove the key.
Pull the backrest(l)up,and move the backrest to the desiredposition。
Jump startingmake sure the machines do not touch each other.填補(bǔ)了此類“空缺”之后,句子的概念就更完整,用IATS 105系統(tǒng)進(jìn)行符合原意的翻譯也就更有把握了。機(jī)器翻譯之所以需要譯后編輯的一個(gè)常見原因,就是由空缺造成的翻譯錯(cuò)誤。因此不允許此類空缺存在。
口語化的英語通常偏愛使用非常泛義的詞,有時(shí)可能導(dǎo)致一定程度的意思含混,在翻譯過程中必須消除這種含混。例如,conditions,remove,facilities,procedure,go,do,is formake,get等都是正確的詞,但是并不精確。
在下面這個(gè)句子中When the temperature reaches 32 °F,you must take specialprecautions。
“recahes”(到達(dá))一詞并未表明溫度到底是dropping(下降)還是rising(上升);此處用“drops”或“rises”意思會(huì)更確切,讀起來也一樣通順。
有些語言中明確區(qū)分的詞義,在英語中并不總是區(qū)分。例如,我們說oil(油),既可指一種潤滑液,也可指用作燃料的油,而不管是不是(diesel(燃料油),我們都說fuel(燃料)。同樣,當(dāng)door(門)這個(gè)詞單獨(dú)使用時(shí),有時(shí)就不可能分辨所指的究竟是什么樣的門。汽車門?大樓門?車廂門或機(jī)艙門?這些詞義在其他語言中可能需要作出區(qū)分。在英語中應(yīng)盡可能使用充分達(dá)意的詞語。
D.域模型基于知識(shí)的機(jī)器翻譯(Knowledge-based Machine Translation-KBMT)有賴于人類對(duì)世界的認(rèn)識(shí),以及關(guān)于詞匯單元及其組合的語言學(xué)語義知識(shí)的支持。KBMT的知識(shí)庫必須不僅能夠表現(xiàn)一般性的物類分類學(xué)域。諸如“car is akind of vehicle/汽車是一種交通工具”,“a door handle is a part of a door/門把是門的一部分”,“artifacts are characterized by(among otherproperties)the property‘made-by’/人工制品的主要特點(diǎn)在于(除其他性質(zhì)之外)其‘被制作’的性質(zhì)”等,而且還必須能夠表現(xiàn)關(guān)于物類在特殊情況下的知識(shí)(如“IBM”就可以在域模制中作為“公司”物類的標(biāo)志事例),以及關(guān)于各種(具有潛在復(fù)雜性的)事件類別的標(biāo)志事例的知識(shí)(如“theelection of George Bush as president of the United States/選喬治·布什為美國總統(tǒng)”就是“to-elect”這個(gè)復(fù)雜行為的標(biāo)志事例)。這個(gè)知識(shí)庫的本體論部分采用的是通過分類構(gòu)筑連接詞(taxonomy-building links),諸如is-a,part-of等等,連接起來的多層次概念的形式。我們稱所得的結(jié)構(gòu)為多層次結(jié)構(gòu),因?yàn)楦拍畹拿總€(gè)連接類別都允許有多個(gè)“母體”。
域模型或概念詞庫含有一個(gè)本體論模型,它為在描述各個(gè)特定域中作為結(jié)構(gòu)單元的基本類別(例如物體類、事件類、關(guān)系類、性質(zhì)類、情節(jié)類等)提供統(tǒng)一的定義。這個(gè)“世界”模型是相對(duì)靜態(tài)的,是由復(fù)合相連的本體論概念網(wǎng)絡(luò)組成。這種應(yīng)用(子)世界本體論是一般發(fā)展,在本專業(yè)領(lǐng)域是為人熟知的??蓞㈤喯铝匈Y料如Brachaman和Schmolze的An Overview of the KL-ONEKnowledge Representation System一文發(fā)表于CognitiveScience,vol.9,1985;Lenat等人的CycUsing Common Sense Knowledge toOvercome Brittleness and Knowledge Acquisition Bottlenecks一文發(fā)表于AI Magazine,VI65-g5,1985;Hobbs的Overview of the Tacitus Project一文發(fā)表于Computational Linguistics,123,1986;以及Nirenburg等人的Acquisition of Very Large Knowledge BasesMethodology,Tools andApplications一文發(fā)表于Center for Machine Translation,Carnegie MellonUniversity(1988),以上都是本文參照采用的資料。
本體論是某一子世界(例如重型設(shè)備的故障排除與修理,或者個(gè)人計(jì)算機(jī)與用戶之間的對(duì)話作用等)獨(dú)立于語言的概念表示。它能提供在子語言中解析源文本以轉(zhuǎn)換為中間語文本,并且從中間語文本生成目標(biāo)文本所必需的語義信息。域模型必須足夠詳盡,才能提供在解析過程中消除歧義的足夠語義限制。本體論模型必須為作為結(jié)構(gòu)單元描述各個(gè)特定域的基本本體論類別提供統(tǒng)一的定義。
在世界模型中,本體論概念可以首先分為物體、事件、力量(用以表示無意圖的媒介作用)和性質(zhì)各類。性質(zhì)又可以再分為關(guān)系與屬性兩類。關(guān)系將被定義為概念之間的映射(比如“belongs to/屬于”是一個(gè)關(guān)系,因?yàn)樗鼘⒁粋€(gè)物體映射入{*human/人*organization/組織}集合之中),而屬性將被定義為概念映射入專門定義的價(jià)值集合之中(比如“temperature/溫度”是一個(gè)屬性,將有形的物體映射入
半開放的標(biāo)尺,表現(xiàn)為開氏溫標(biāo)上的粒狀度數(shù))。概念好比框架,在系統(tǒng)中詳盡定義的性質(zhì)就是這些框架的槽。
域模型不單只是基于知識(shí)的機(jī)器翻譯的組成部分,而且是任何基于知識(shí)的系統(tǒng)都不能缺少的。域模型是發(fā)生在翻譯域中有關(guān)概念的語義等級(jí)。譬如說,我們可以將物體*O-VEHICLE(交通工具)定義為包括*O-WHEELED-VEHICLE(有輪子的交通工具)和*O-TRACKED-VEHICLE(有軌的交通工具),前者可以包括*O-TRUCK(卡車),*O-WHEELED-TRACTOR(有輪子的拖拉機(jī)),等等。在這個(gè)等級(jí)的底部是與CSL中的術(shù)語相對(duì)應(yīng)的特定概念。我們稱這個(gè)最低部分為K/DM。為了翻譯準(zhǔn)確,我們必須對(duì)各個(gè)不同的概念所起的作用施加語義約束。例如,E-DRIVE(駕駛)這個(gè)行為所起的媒介作用必須由人來完成,這就是對(duì)*O-VEHICLE施加的語義約束,而且所有種類的交通工具都自動(dòng)繼承了這個(gè)約束(這樣可以省去給每個(gè)實(shí)例進(jìn)行人工編碼的重復(fù)工作)。域模型的寫作部分為K/DM擴(kuò)充不屬于CSL的同義詞以及其他信息,以便在作者編寫每個(gè)信息元的過程中為他(她)提供有用的反饋。
圖5從概念的角度說明了本發(fā)明所用的域模型(DM)。DM 500是MT 120和LE 130使用有關(guān)CSL詞匯的說明性知識(shí)的表示。DM 500由以下三個(gè)截然不同的部份組成1.一個(gè)核心域模型(Kernel Domain Model-K/DM)510,含有MT分析程序127和LE 130所需要的全部詞匯信息;具體說來,核心包括了所有的CSL詞項(xiàng)(詞和詞組),以及與這些詞和詞組相關(guān)的語義概念、詞類、詞形信息,等等。
2.一個(gè)機(jī)器翻譯域模型(MT/DM)520,含有僅為MT分析程序127所需的信息。MT域模型是在翻譯時(shí)用于單義映射和語義檢驗(yàn)的概念等級(jí)。它包括了對(duì)概念的可選擇限制和概念的等級(jí)分類。
3.一個(gè)語言編輯域模型(LE/DM)530,含有僅為LE 130所需的信息。這類信息包括CSL詞語的非CSL同義詞,CSL語詞的字典定義,以及CSL詞語的用法舉例。
Kernel/DM 510內(nèi)每個(gè)CSL詞項(xiàng)(詞或詞組)只有一個(gè)詞條。(一個(gè)“詞條”包含一個(gè)詞項(xiàng)—詞或詞組—及其最低限度的相關(guān)語義概念和詞類,例如,如果“l(fā)eak”一詞同時(shí)作為名詞與動(dòng)詞收入CSL,它就有兩個(gè)詞條。)每個(gè)詞項(xiàng)都將以LE 130和/或MT 120所需的附加信息得到更新,諸如定義和不規(guī)則的詞形變體等。
分用的K/DM 510可以加速CSL的提煉與延伸,省去文件寫作和翻譯組件的重復(fù)勞動(dòng),并提供一個(gè)便于維持與延伸的人可讀結(jié)構(gòu)。
K/DM 510是一個(gè)含有關(guān)于約束語言文本中詞語(詞和詞組)的句法信息及語義信息的詞典。它是自動(dòng)化的機(jī)器翻譯(MT)過程分析部分的中心詞匯知識(shí)源。K/DM510也充當(dāng)LE/DM的基礎(chǔ)。
K/DM 510為每一個(gè)句法類別的每一個(gè)詞語收入一個(gè)單獨(dú)的條目。(如“truck”一詞,既是名詞又是動(dòng)詞,因此有兩個(gè)條目)。K/DM條目含有以下信息·詞根(如“truck”);·詞類(如N);·內(nèi)容詞的概念或意思(如,O-TRUCK);·詞形信息(如不規(guī)則的詞形變化);·句法信息(如名詞是可數(shù)名詞,或是物質(zhì)名詞);·定義信息記錄名詞的不同含義與用法的簡短定義和文本中的實(shí)例,以及該詞用于約束語言中含義的規(guī)格。
DM 500用三個(gè)外存人可讀檔案集定義,這些檔案集可以在需要用到它們的(各)處理過程中閱讀。由于MT 120和LE 130是在分開的處理過程中運(yùn)行,因此模型中的信息以兩種形式作內(nèi)部表示一種供MT 120所需要的DM部分使用,另一種供LE 130所需要的那部分使用。因此,K/DM 510是用一個(gè)可同時(shí)以兩種形式表示的檔案集來定義;LE/DM 530只是以LE 130使用的形式表示;MT/DM 520只是以MT 120使用的形式表示。以下所述是外存檔案格式,DM各部分內(nèi)容,以及LE 130所用信息的內(nèi)部表示。
再說一遍,K/DM含有MT 120和LE 130所需的全部信息,包括一個(gè)CSL詞項(xiàng)——基本詞、詞組或引述詞語,和一個(gè)語義概念——與該詞項(xiàng)有關(guān)的語義概念,以“概念名稱”列為一個(gè)詞條。它還包括一個(gè)詞類——一個(gè)固定詞類組中的一個(gè)類別(如動(dòng)詞、形容詞,等等);一個(gè)定義——普通詞匯的粗略定義,以澄清CSL詞項(xiàng)可能有幾個(gè)含義中的哪一個(gè);以及不規(guī)則的詞形變體——列出各種不規(guī)則的詞形和每個(gè)形式的詞形變化的名稱。舉例說,動(dòng)詞的詞性變化的名稱是“過去式”,“單數(shù)第三人稱現(xiàn)在式”,“過去分詞”,“現(xiàn)在分詞”等。以“drive”一詞為例,這個(gè)詞形變化領(lǐng)域的值將是((過去式drove)(過去分詞driven)),表明這兩個(gè)動(dòng)詞形式是不規(guī)則的,而所有其他形式都是規(guī)則的。最后,K/DM還包括排印方面的約束——例如,該詞項(xiàng)必須全部大寫,第一個(gè)字母大寫,等等。
MT/DM 520含有只為MT 120所需的信息,包括概念方面的選擇性約束,以及用于組織和繼承選擇性約束的概念等級(jí)分類。
LE/DM 530將含有非CSL的同義詞,以幫助作者選擇合法的CSL詞項(xiàng)。核心域模型與LE/DM合在一起,便含有為CSL詞典提供區(qū)別性特征以支持LE詞匯檢查程序(見下述)所需的全部信息與全部約束。LE/DM還含有只為LE詞匯檢查程序所需要的附加信息。這包括字典定義——LE向作者提供的詞或詞組的定義,非CSL的同義詞——作者在編寫文件時(shí)可能會(huì)使用的CSL詞項(xiàng)的同義詞,和用法實(shí)例——詞或詞組在CSL句子中的用法舉例,由LE提供給作者。
在LE/DM中包含這類信息的目的,是幫助作者保證所寫文書用的都是合法的CSL詞與詞組。字典定義和用法舉例可幫助作者保證所用的某個(gè)詞類的詞或詞組的意思是CSL所允許的。不過,并不是每一個(gè)CSL詞項(xiàng)都需要字典定義或用法舉例。實(shí)際上,只有一小部分作者難以立刻明白其CSL意思的有歧義的或意義含混的詞語,才需要有字典定義和用法舉例。這部分詞語可能不到DM中的詞項(xiàng)的半數(shù)。例如,象“for”和“the”等功能詞,就不需要字典定義或用法舉例’許多技術(shù)性詞語,尤其是那些非常專門的技術(shù)性詞語,可能也不需要字典定義或用法舉例。
LE/DM中的非CSL同義詞可幫助作者選擇一個(gè)同義的或相關(guān)的CSL詞或詞組,來替代在編寫過程中所用的非CSL的詞或詞組。在理想的情況下,詞匯檢查程序不僅應(yīng)該提供與非CSI詞詞類相同的同義詞的信息,而且應(yīng)該提供可能有助于作者改寫句子的相關(guān)詞的有關(guān)信息。如果含有后者,除了必要內(nèi)容之外,LE/DM還必須含有關(guān)于這類相關(guān)詞的信息。
E.語言編輯程序參見圖1(b),約束語言編輯程序(LE)130是支持作者和編輯者在CSL范圍內(nèi)創(chuàng)作文件的一組工具。這些工具可幫助作者使用適當(dāng)?shù)腃SL詞匯和語法來編寫實(shí)用性的文獻(xiàn)資料。LE 130是作為SGML文本編輯程序140的“延伸”而設(shè)置的。雖然LE 130與SGML文本編輯程序140使用相同的通信信道,兩者的功能卻是互相排斥的。不過,用戶用以LE 130對(duì)話的接口是SGML文本編輯程序140接口的一個(gè)“無縫延伸”。
作者160在SGML文本編輯程序140中創(chuàng)作文件,并調(diào)用LE130。LE 130告訴作者文件中的個(gè)別詞是否非CSL詞,并能夠提示用CSL中的同義詞來替代與用戶應(yīng)用信息域有關(guān),但不屬于CSL的詞。此外,LE 130還會(huì)告訴作者檔案中的文字是否符合CSL的句法約束。
LE 130軟件包括一個(gè)詞匯檢查程序,一個(gè)語法檢查程序(包括一個(gè)通過MT句法分析程序的接口,提供核心的語法檢查功能),和一個(gè)用戶接口(UI)。此外,CSL LE所用的CSL詞匯信息會(huì)在K/DM和LE/DM中表示。
LE 130可保證文件中所有詞匯和句子結(jié)構(gòu)都符合CSL的規(guī)格。LE 130在文件上標(biāo)志SGML標(biāo)識(shí)符,以表示經(jīng)CSL認(rèn)可。文件中所有文字都要檢查,包括句子,標(biāo)題,清單項(xiàng)目,圖片說明,圖形中的大字,和表格中的信息。
由于本發(fā)明的設(shè)計(jì)前提是,作者在CSL檢查過程中應(yīng)當(dāng)盡可能多產(chǎn),而且作者應(yīng)該不必同時(shí)書寫多份文件,因此不宜采用分批式作業(yè)。分批式作業(yè)要求用戶提交一份文件進(jìn)行處理,然后要等到整個(gè)文件處理完畢才能得到反饋。LE130為詞匯檢查、語法檢查和對(duì)話式單義化處理提供對(duì)話方式作業(yè)。
圖6是LE 130作業(yè)的高級(jí)流程圖。LE 130接收作為輸入的文本605,該文本可能是有歧義的,未經(jīng)約束的。這個(gè)具有潛在歧義性的未約束的輸入文本605首先由詞匯檢查程序610予以檢查,詞匯檢查程序在拼寫檢查程序615輔助下(如下所述)工作。(在該實(shí)施例中,拼寫檢查程序的作業(yè)正好由主程度TE140常規(guī)具備的拼寫檢查程序來實(shí)施。)當(dāng)詞匯檢查程序610檢查完畢,并且作了一切必要的修改之后(由作者輔助完成),經(jīng)過詞匯約束的文本617便交由語法檢查程序620處理。語法檢查程序620產(chǎn)生句法正確的CSL文本625。然后,如方框630所示,這個(gè)經(jīng)過約束的、句法正確的文本625便進(jìn)行單義化處理。單義化處理后所得的結(jié)果是消除歧義的可譯約束文本635。可譯文本635無須作譯前編輯就可以被翻譯成外國語言。由于翻譯成品準(zhǔn)確,因而也無須作譯后編輯。
1.詞匯檢查程序圖7所示是詞匯檢查程序610的作業(yè)流程圖。詞匯檢查程序610鑒別CSL不認(rèn)識(shí)的詞,同時(shí)鑒別在在作者文本中出現(xiàn)的非CSL詞例,并幫助作者尋找合法的CSL詞去替代非CSL詞。它識(shí)別文件中用詞的邊界,并將每個(gè)CSL不認(rèn)識(shí)的詞項(xiàng)鑒別出來。
如方框706所示,選擇某個(gè)單元中的第一個(gè)詞語作檢查。然后如方框710所示,對(duì)照包含所有CSL詞語的CSL詞匯數(shù)據(jù)庫(即字典)檢查該詞語。如果在CSL字典中找不到詞語,則如方框722所示,將該詞語對(duì)照標(biāo)準(zhǔn)字典進(jìn)行拼寫檢查。如果詞的拼寫有錯(cuò)誤,則如方框726所示,程序會(huì)為作者提供改正拼寫錯(cuò)誤的方法(即詞匯檢查程序610顯示出其他拼寫方式)。
如方框734所示,接著檢查該詞項(xiàng)以確定它是否屬于CSL詞匯。如果該詞項(xiàng)屬于CSL詞匯,則可直接進(jìn)入方框718的步序。但是,如果該詞項(xiàng)不屬于CSL詞匯,則如方框736所示,系統(tǒng)會(huì)檢查LE/DM中是否含有該所檢查的詞項(xiàng)的同義詞。如果在LE/DM中至少有一個(gè)同義詞,系統(tǒng)就會(huì)顯示這個(gè)(些)屬于CSL詞匯一部分的同義詞,并允許作者作出選擇(如方框738所示)。然而,如果在LE/DM中沒有被檢查詞項(xiàng)的同義詞,則如方框740所示,作者會(huì)有機(jī)會(huì)修改輸入內(nèi)容。修改后的結(jié)果回到方框710。當(dāng)作者作出合法的選擇后,程序700便進(jìn)入方框718。
當(dāng)鑒別出一個(gè)非CSL的詞時(shí),作者可以作出下列選擇可以選擇一個(gè)替換詞去替代文件中的那個(gè)詞,或者可以輸入一個(gè)新的詞項(xiàng)去替代文件中的那個(gè)詞。典型的情況是,作者選擇其中一個(gè)同義詞去替代那些非CSL詞項(xiàng)。如果作者決定逃避問題而不予解決,結(jié)果將使文本不會(huì)被CSL認(rèn)可。
方框718檢查該單位中是否還有其他詞語。如果沒有其他詞語,程序700便告中止。否則如方框714所示,再選定下一個(gè)詞語,程序700從方框710重新開始。
具體而言,詞匯檢查程序610鑒別文件中每次出現(xiàn)CSL不認(rèn)識(shí)的詞項(xiàng)。每有一個(gè)這樣的詞,詞匯檢查程序610便決定該詞適合以下所述的哪種情況,并向用戶接口報(bào)告如下輔助信息·非CSL詞,但有已知的CSL同義詞;在這種情形下,詞匯檢查程序610會(huì)鑒定這些同義詞。比如說,假定“l(fā)et”是個(gè)非CSL詞——檢查時(shí)的作者輸入Open the valve and let more nitrogen go to theaccumulator.
VC(詞匯檢查程序)信息本詞語是非CSL,但是有相關(guān)的CSL替換詞。
CSL替換詞allow,allowed,enable,enabled,permit,permitted,leave,left編輯后的CSL句子Open the valve and allow more nitrogen to go tothe accumulator.
·可能只作為詞組的一部分出現(xiàn)在CSL的詞,但是在目前的上下文中并未用于CSL的詞組;在這種情形下,詞匯檢查程序610會(huì)報(bào)告只含有該詞的可接受的CSL詞組——檢查時(shí)的作者輸入The first time the valve lash is checked,theinjector timing should be checked.
VC信息本詞語用在非CSL的上下文中。
CSL替換詞advance signal timing,advance timing groove,timinggear,timing mechanism.
編輯后的CSL句子The first time the valve lash is checked,theinjector timing mechanism should be checked.
·在CSL中必須置于雙引號(hào)內(nèi)的詞或詞組,但是在目前的上下文中沒有用引號(hào);在這種情形下,詞匯檢查程序610會(huì)報(bào)告該詞語應(yīng)該用引號(hào)——檢查時(shí)的作者輸入For more details,read the Testing and Adjustingarticle in the next section.
VC信息本詞語通常置于引號(hào)內(nèi)。
CSL替換詞無編輯后的CSL句子For more details,read the“Testing andAdjusting”article in the next section。
·一個(gè)在CSL中必須按專門規(guī)定的方式大寫的詞或詞組,但是在目前的上下文中沒有用大寫(例如字首組合詞用小寫);在這種情形下,詞匯檢查程序610會(huì)報(bào)告正確的CSL形式——檢查時(shí)的作者輸入Turn the screw until the pressure gauge reads 0kpa(0 psi).
VC信息本詞語大寫有誤。
CSL替換詞kPa編輯后的CSL句子Turn the screw until the pressure gauge reads 0kPa(0 psi).
·一個(gè)非詞結(jié)構(gòu)(亦即一組字母代表一個(gè)有拼寫錯(cuò)誤的詞),有已知的拼寫替換形式;在這種情形下,詞匯檢查程序610會(huì)鑒別出拼寫替換式,不管結(jié)果是否屬于CSL(用戶應(yīng)將所選的替換形式再提交作進(jìn)一步檢查)——檢查時(shí)的作者輸入When it is necesary to raise the boom,the boom musthave correct support.
VC信息本詞語是非CSL詞匯。
CSL替換詞necessary編輯后的CSL句子When it is necessary to raise the boom,the boommust have correct support.
·一個(gè)不屬于CSL,而且系統(tǒng)對(duì)此一無所知的詞。一個(gè)不認(rèn)識(shí)的詞或詞組的信息可使作者有機(jī)會(huì)視情形所需,或者完全更改用詞,或者屏蔽不合法的表達(dá)法免于檢查。在下面這個(gè)例子中,作者用SGML標(biāo)識(shí)符告訴系統(tǒng)不必檢查這個(gè)違反規(guī)則的詞語,讓它保持原樣——檢查時(shí)的作者輸入Put approximately 0.9 L(1 quart)of SAE10Whydraulic oil in the nitrogen end of the accumulator.
VC信息不認(rèn)識(shí)本詞語。
CSL替換詞無編輯后的CSL句子Put approximately 0.9 L(1 quart)of<sic>SAE10W</sic>hydraulic oil in the nitrogen end of the accumulator.
·一個(gè)標(biāo)點(diǎn)符號(hào)或特殊符號(hào),在任何上下文中都是CSL不允許的。
如果一個(gè)非CSL詞沒有直接的CSL同義詞(亦即可在文件中直接替代該詞的CSL詞),系統(tǒng)能鑒別出相關(guān)的CSL詞或詞組,作者可選用該詞或詞組來表達(dá)所要表達(dá)的意思。這一功能為作者只用CSL詞匯更改某一句子的用詞提供了更進(jìn)一步的支持。但是,用這些相關(guān)詞所作的更改,不能只用提供同義詞的自動(dòng)替換設(shè)施來完成,因?yàn)檫@類更改往往需要對(duì)句子的結(jié)構(gòu)作某些修改。譬如說,假設(shè)“can”是CSL詞,而“capable”不是,作者如果寫了以下句子The system is capable of being programmed for several customer-specified parameters.
系統(tǒng)就會(huì)告訴作者“capable”[[capable]]不是CSL詞。雖然“can”[[can]]是CSL詞,但是“capable”一詞或詞組“is capable of”[[“iscapable of”]]都不能直接被“can”取代,還必須改動(dòng)句子結(jié)構(gòu)。
2.語法檢查程序語法檢查程序的目的是要鑒別作者文本中不符合CSL語法約束的地方,并且引起作者集中注意這些地方。語法檢查程序620的功能由MT系統(tǒng)120的分析模塊127提供,延伸至允許系統(tǒng)報(bào)告句法歧義和語義歧義的實(shí)例。語法檢查程序接口使作者可以對(duì)話形式答復(fù)對(duì)澄清歧義性的要求。有可能一個(gè)句子屬于約束語言,但是具有不止一個(gè)解釋。語法檢查程序接口會(huì)作出某種顯示,向作者指出該句子可能含有的兩個(gè)或兩個(gè)以上的意思,并要求予以澄清。試舉一個(gè)歧義性句子的例子“Check the cylinders on the inside.”究竟是汽缸裝在里面,還是應(yīng)該檢查汽缸的里面?可能的歧義有以下兩種詞匯歧義當(dāng)一個(gè)詞在約束語言中具有不止一個(gè)意思時(shí),就會(huì)出現(xiàn)詞匯歧義。雖然在理想的情況下,約束語言中每個(gè)詞的每個(gè)詞類都應(yīng)該只有一個(gè)意思,但有些詞還是會(huì)有不止一個(gè)意思。例如,“gas”這個(gè)詞就可能有“naturalgas(天然氣)”或“gasoline(汽油)”這兩個(gè)不同的意思。
在詞匯級(jí)也可能出現(xiàn)由于一個(gè)詞可以在CSL中用于兩個(gè)不同的句法作用而造成的問題。試以“fuel”一詞為例,它在CSL中可以是名詞,也可以是動(dòng)詞。當(dāng)作者輸入一個(gè)句法作用不清楚的句子時(shí),語法檢查程序(GC)620可能會(huì)向作者作出如下提示
檢查時(shí)的作者輸入The sensor is attached to fuel rack.
GC信息本詞語可用作名詞或動(dòng)詞。
這時(shí),作者可以選擇不要系統(tǒng)的幫助,自己編輯這個(gè)句子(只需要改寫之后再提交檢查程序處理)。如果作者選擇要求系統(tǒng)幫助,系統(tǒng)可能會(huì)提供解決同類問題的具體指示。在這個(gè)例子中,系統(tǒng)提供的幫助是具體的Help!(幫助!)GC信息若是名詞,你可以在詞前用一個(gè)限定詞。若是動(dòng)詞,或許可在詞后加限定詞?例The ship sinks(名詞前加限定詞)和Ship the sinks(動(dòng)詞后加限定詞)。
作者可根據(jù)上述指示編輯句子,并重新提交語法檢查程序620處理。
結(jié)構(gòu)歧義當(dāng)一個(gè)句子中的詞有可能以不止一種方式組合時(shí),就會(huì)出現(xiàn)結(jié)構(gòu)歧義。例如在“Remove the valve with the lever”這個(gè)句子中,詞組“with the lever”是與詞組“the valve”構(gòu)成一個(gè)句法單元,還是與動(dòng)詞“remove”構(gòu)成一個(gè)句法單元?換言之,這句話到底是講帶有一個(gè)杠桿的閥,還是講用杠桿拆掉一個(gè)閥?在IATS 105中,為回答這類問題而設(shè)計(jì)的組件是域模型137,其構(gòu)造功能就是要盡量減少此類歧義的出現(xiàn)。
如圖5所示,專門支持機(jī)器翻譯過程的DM/MT 520含有兩類信息。在一方面,語義信息(A)支持鑒別概念之間的關(guān)系。在另一方面,上下文信息(B)指定某一動(dòng)詞的所謂深層變格或此動(dòng)詞可依據(jù)的理由。在上面討論的這個(gè)例子中,我們首先來看看語義信息(A)和上下文信息(B)如何協(xié)助分析程序127確定“Remove the valve with the lever”這一句子的語法結(jié)構(gòu)。
在多種語義關(guān)系中,有一種表示“is a part of”(“是……的一部分”)的所屬關(guān)系,例如,在概念“hat”(“帽子”)與概念“costume”(“服裝”)之間就存在這種關(guān)系,即“hat”“is a part of”the“costume”(帽子是服裝的一部分)。同樣的關(guān)系也在“sole”(鞋底)與“shoe”(鞋子),“heel”(鞋跟)與“shoe”(鞋子)等等概念之間成立。DM/MT 520中所存的語義信息(A)可以鑒別這種關(guān)系,以及域內(nèi)各概念之間的其他語義關(guān)系。
當(dāng)MT分析程序127的處理過程到DM/MT 520去檢索有關(guān)“valve”概念與“l(fā)ever”概念之間關(guān)系的語義信息時(shí),DM 137中的信息無法讓MT分析程序127辨別“l(fā)ever”是否“valve”的一部分——系統(tǒng)中根本沒有關(guān)于這種關(guān)系的知識(shí)。因此MT分析程序127仍然不知道詞組“with the lever”是否應(yīng)該與“valve”這個(gè)詞相連接。
但是當(dāng)MT分析程序127檢索上下信息(B)時(shí),它發(fā)現(xiàn)動(dòng)詞“remove”可以有三個(gè)格主格(NOM),賓格(ACC),和工具格(INS)(這是比我們以前讀書時(shí)所學(xué)的拉丁語法要更深一層的分析)。也就是說,“remove”一詞適合如下格式______VERB(NOM,ACC,INS)______動(dòng)詞(主格,賓格,工具格)根據(jù)這個(gè)抽象形式,我們可以造成以下句子NOM VRBINS ACCINS主格 動(dòng)詞賓格 工具格The workman removed the sand with a shovel工匠 搬走 沙子 用鏟子Peterhas removed the box with the nail彼得 拆掉了盒子 用釘子等等既然DM/MT含有關(guān)于介詞“with”與名詞的組合具有[+INSTRUMENT](+工具)這一語義特征的信息此種組合構(gòu)成工具格詞組。這個(gè)信息使分析程序能夠決定a)由于“l(fā)ever”是[+INSTRUMENT],“with the lever”是工具格;b)由于“remove”可以帶工具格,詞組“with the lever”是附屬于“remove”,與“remove”相配,并被解釋為修飾這個(gè)動(dòng)詞。
然而,DM 137只能有我們設(shè)置的豐富程度。如果語義信息沒有發(fā)展到盡可能充足的程序,域中的詞條也許不能支持MT分析程度127執(zhí)行單義化處理過程。
試看“Peter has removed the box with the nail”這句中的“nail”一詞。如果DM 137含有關(guān)于nails是木框之一部分的信息,而沒有列入nails是[+INSTRUMENT]的信息,MT分析程序127便不可能決定“with”是否與“nail”組合而構(gòu)成工具格詞組。只要分析程序不能解決結(jié)構(gòu)歧義,它就會(huì)要求作者來解決。在作者提交的文本接受語法檢查時(shí),會(huì)發(fā)生如下對(duì)話檢查時(shí)的作者輸入Peter has removed the box with the nail.
語法檢查程序620信息句子意思含糊。
1.nail是否工具?2.是否“box”上有一個(gè)“nail”?當(dāng)作者選定一個(gè)解釋之后,該檢查程序便給句子加上一個(gè)看不見的SGML標(biāo)識(shí)符,告訴系統(tǒng)應(yīng)該如何翻譯這個(gè)句子。
如上所述,MT分析程序127被語法檢查程序調(diào)用,以便檢查輸入文本或某個(gè)信息元(或其中一部分)是否符合CSL語法和語義約束。在這方面,較佳的實(shí)施例是為每個(gè)句子發(fā)出嚴(yán)格的“綠燈,紅燈”信息,后者表示作者必須通過寫作環(huán)境來改正被標(biāo)記出的句子結(jié)構(gòu)。當(dāng)整個(gè)輸入文本或信息元被證明為服從CSL之后,可以將它貯存起來,也可以立刻送交翻譯。
現(xiàn)在我們來看圖8,這是語法檢查程序620(句法分析)和單義化檢查程序630(語義分析)的高級(jí)流程圖。以下所用的“句子”一詞是指通過或未通過分析模塊127檢查的文本單位。被檢查的文本單位實(shí)際上可能是一個(gè)并不構(gòu)成句子的文本部分,例如標(biāo)題、題目、或列表元、圖片說明、圖形中的其他文字等。語法檢查程序620可在經(jīng)過SGML標(biāo)記的文本中識(shí)別句子的界限和SGML元素的界限。它鑒別出每個(gè)不符合CSL規(guī)格的句子。這包括每個(gè)MT分析模塊127不能成功地解析的句子。解析失敗可能包括(但不限于)下列原因·句子含有分析模塊127不作解析的語法結(jié)構(gòu)。例如,當(dāng)句子含有一個(gè)縮減的關(guān)系從句時(shí),分析模塊就不作解析。在“Don’t change the values that areprogrammed into the unit”這樣的句子中,省略關(guān)系代詞“that”和動(dòng)詞“be”,便造成了縮減。
檢查時(shí)的作者輸入Don’t change the values programmed into theunit.
語法檢查程序信息本句難以解析。請(qǐng)檢查是否屬于下述問題之一然后,語法檢查程序620開始列出由于使用CSL指令系統(tǒng)中沒有的語法結(jié)構(gòu)而造成難以(即使不是不能)解析的最常見的典型情形。
·句子中的標(biāo)點(diǎn)符號(hào)用法不符合CSL約束。如前面所述,在任何上下文中都不屬于CSL的標(biāo)點(diǎn)符號(hào)和特殊字符,會(huì)被詞匯檢查程序610標(biāo)記出來。但是詞匯檢查程序610并不解析輸入內(nèi)容,因此如果這種元素在CSL中存在,只是被用于不當(dāng)?shù)纳舷挛闹?,該檢查程序就不會(huì)作出報(bào)告。這樣的事例會(huì)觸發(fā)語法檢查程序620作出“fail”(不及格)的反應(yīng)。
·一個(gè)屬于CSL詞匯的詞,用在CSL不認(rèn)識(shí)的句法形式中。詞匯檢查程序610會(huì)標(biāo)記出某些這樣的事例。舉例說,如果在CSL中只有該詞的名詞檢測,而沒有動(dòng)詞檢測,詞匯檢查程序就會(huì)報(bào)告所檢測的動(dòng)詞過去式不是CSL。但是,詞匯檢查程序610會(huì)允許動(dòng)詞現(xiàn)在式通過檢測,因?yàn)檫@個(gè)形式與CSL名詞檢測的復(fù)數(shù)形式完全相同。這種事例會(huì)觸發(fā)語法檢查程序620作出“fail”的反應(yīng)。
語法檢查程序620用MT分析模塊127(和域模型137)來鑒別不符合CSL語法約束的句子,這個(gè)過程稱作句法分析,如方框805顯示。每出現(xiàn)這樣的句子,語法檢查程序620就會(huì)報(bào)告該句子不是CSL。有時(shí)也可能出現(xiàn)一個(gè)句子屬于CSL,但是具有歧義的情況。因此,本發(fā)明還提供如方框710所示的語義分析。如果所檢查的句子在語義上沒有歧義,單義化檢查程序630會(huì)作出某種顯示,向作者指出該句子的兩種或兩種以上的可能意思,并要求予以澄清(如方框815和825所示)。在一個(gè)較佳實(shí)施例中,當(dāng)一個(gè)句子不能通過語法檢查程序620和/或單義化檢查程序630時(shí),作者可有以下選擇編輯文件,如果句子有歧義性的讀解,對(duì)句子進(jìn)行單義化處理,重新檢查同一個(gè)輸入,或者不作編輯繼續(xù)檢查。
請(qǐng)注意,本發(fā)明實(shí)施絕對(duì)服從詞匯和語法約束,而不是僅僅提出文體不當(dāng)?shù)木?,或進(jìn)行簡單的錯(cuò)誤檢測(如主謂語一致等)。
如果句子在語義上沒有歧義性,它就被翻譯中間語(如方框820所示)。當(dāng)文件通過語法檢查程序620的檢驗(yàn)時(shí),便可以在文件中插入表示經(jīng)CSL認(rèn)可的SGML標(biāo)識(shí)符。
在一個(gè)較佳實(shí)施例中,語法檢查程序620向作者160提供“pass/fail(通過/不通過)”的反饋。然而,也可以實(shí)現(xiàn)比“通過/不通過”更為具體的反饋。
有關(guān)語法檢查(包括單義化處理)的更深入的討論,參見Tomita,M.的“Sentence Disambiguation by Asking,”一文,發(fā)表于Computers andTranslation,139-51(1986)以及Carbonell,J.和M.Tomita的“Knowledge-Based Machine Translation,the CMU Approach,”一文,由S.Nirenburg編輯,發(fā)表于Machine TranslationTheoretical and MethodologicalIssues,CambridgeCambridge University press,pgs.68-89(1987),其中都有本文參照采用的資料。
F.機(jī)器翻譯MT 120是一種中間語型的機(jī)器翻譯系統(tǒng)。在這樣的系統(tǒng)中,約束源語言(CSL)與目標(biāo)語言從來不發(fā)生直接接觸。這類系統(tǒng)的處理過程通常分兩個(gè)階段進(jìn)行。第一,以一種獨(dú)立于任何語言的形式語言(稱作中間語)來表示CSL文本的意思;第二,用目標(biāo)語言的詞匯單元和句法結(jié)構(gòu)來表示這個(gè)意思。
中間語MT系統(tǒng),以及其他類型的MT系統(tǒng),在本專業(yè)領(lǐng)域中已為人熟知。有關(guān)機(jī)器翻譯的這些不同方法的詳細(xì)描述,可參閱Hutchins的MachineTranslationPast,Present,F(xiàn)uture,EllisHorwood,Ltd.,Chichester,UK,1986和Zarechnak的The History of MachineTranslation一文,由Henisz-Dostert,McDonald,Zarechnak,編輯,發(fā)表于Machine Translation.Trends in LinguisticsStudies andMonographs,Vol.11,The Hague,Mouton,1979,兩書全文都是本文參照采用的資料。
CSL文本305的意思是以稱作中間語(在本專業(yè)領(lǐng)域?yàn)槿耸熘?的這種專門設(shè)計(jì)的知識(shí)表示體系來表示。中間語繼而轉(zhuǎn)換為一種框架表示法(framenotation),因而可以被視為一種語義網(wǎng)絡(luò)。與其他人造語言或形式語言一樣,中間語也有自己的詞典和句法。詞典所依據(jù)的是譯文所屬的域(如計(jì)算機(jī)維修,宇航探險(xiǎn)等)。因此,中間語的“名詞”是本體論中的“物體概念”,中間語的動(dòng)詞大致相當(dāng)于本體論中的“事件”,中間語的形容詞和副詞則是本體論中定義的各種“性質(zhì)”。本體論構(gòu)成各種不同概念之間緊密相連的網(wǎng)絡(luò),稱作域模型。
由圖3和圖9可見,IATS 105系統(tǒng)中機(jī)器翻譯(MT)組件120含有兩個(gè)主要部分。第一個(gè)部分是CSL分析程序127,其功能是執(zhí)行以中間語表示CSL文本的第一個(gè)處理階段。第二個(gè)主要部分是目標(biāo)語言生成程序123,它將中間語表示的“經(jīng)CSL認(rèn)可的”文本翻譯成目標(biāo)語言(如法語、日語、西班牙語)。在執(zhí)行這兩個(gè)任務(wù)時(shí),MT組件120以一個(gè)或多個(gè)獨(dú)立的伺服模塊運(yùn)行,接受由一個(gè)人類翻譯控制者(圖中未示)提出的翻譯要求。在目標(biāo)語言的生成過程中,目標(biāo)語言生成程序123將中間語文本260映射至適當(dāng)?shù)哪繕?biāo)語言句法單元,產(chǎn)生出不需要譯后編輯的高質(zhì)量的輸出文本950。
當(dāng)MT分析模塊127產(chǎn)生經(jīng)證明符合CSL信息元的中間語文本260后,該中間語文本可以儲(chǔ)存起來,或者傳遞出去,或者立即由生成程序123轉(zhuǎn)換成一個(gè)目標(biāo)語言的信息元,或分別轉(zhuǎn)換成幾種目標(biāo)語言的信息元[生成程序123包括一個(gè)語義與句法映射程序和一個(gè)生成配套(參見Tomita M.和E.Nyberg,的The Generation Kit and Transformation Version 3.2 User’s Manual,一文,發(fā)表于Technical Memo(1988)——可向美國賓夕法尼亞州匹茲堡的Carnegie Mellon大學(xué)的機(jī)器翻譯中心索取)]。MT分析程序127和MT生成程序123是以兩種方式交互作用。首先,前者的輸出就是后者的輸入,其次,它們共用某些外部知識(shí)源,特別是域模型137。
如圖9所示,MT系統(tǒng)120還可細(xì)分。分析包括解析程序910和翻譯程序920。MT 120的另一半可分成映射程序930和生成程序940。圖9中的橢圓代表主要軟件模塊間產(chǎn)生和通過的數(shù)據(jù)。
DM 137(具體說來是MT/DM 520)在翻譯過程中有三種不同的用法(1)解析程序910用DM 137來約束可能的附件(在句法解析過程中對(duì)中項(xiàng)和修飾成分使用嚴(yán)格的進(jìn)一步分類);(2)翻譯程序920在翻譯過程中用DM 137來例示適當(dāng)?shù)挠蚋拍睿?3)映射程序930用DM 137來為每一個(gè)中間語概念選擇適當(dāng)?shù)哪繕?biāo)實(shí)現(xiàn)。
MT 120可以作一個(gè)或多個(gè)伺服機(jī)處理運(yùn)作。每一個(gè)這樣的MT處理接受來自FMS 110的翻譯要求,并送回結(jié)果。要求含有SGML標(biāo)識(shí)符的CSL文本,結(jié)果含有SGML標(biāo)識(shí)符的目標(biāo)語譯文。由于有可能同時(shí)翻譯成不止一種語言,翻譯要求中還包括要譯入的目標(biāo)語言。既然MT伺服機(jī)處理按目標(biāo)語言而專門化,因此要用到路徑選擇功能。路徑選擇功能由FMS 110自動(dòng)執(zhí)行。在某一特定時(shí)間運(yùn)行準(zhǔn)確的MT處理集及其在各機(jī)器間的運(yùn)行分派,由FMS 110決定。FMS110根據(jù)在任何特定時(shí)間一批翻譯工作中尚需完成的部分而修改工作的分派。
由圖9可見,CSL分析程序127含有兩個(gè)互連的組件句法解析程序910和語義翻譯程序920。語義翻譯程序920在本專業(yè)領(lǐng)域中也被稱作“映射規(guī)則翻譯程序”(“mapping rule interpreter”)。句法解析程序910獲得輸入的CSL文本305后,產(chǎn)生出該文本的句法結(jié)構(gòu)。句法解析程序910使用詞匯功能語法(Lexical Functional Grammar-LFG)。LFG是一種在機(jī)器翻譯領(lǐng)域?yàn)槿耸熘恼?guī)化語法。因此,最后產(chǎn)生的句法結(jié)構(gòu)是LFG的f-結(jié)構(gòu)(f-structure)960。在CSL句子的f-結(jié)構(gòu)960建立之后,語義翻譯程序920立刻開始應(yīng)用映射規(guī)則,以中間語譯文來替換源語言的詞匯單元和句法結(jié)構(gòu)。詞匯單元映射進(jìn)域概念中的實(shí)例(例如,“data”一詞映射到中間語的“information”),句法結(jié)構(gòu)則映射進(jìn)概念關(guān)系(例如,句子的主語通常映射到中間語中的“agent”關(guān)系)。請(qǐng)參閱Mitamura的The HierarchicalOrganization of Predicate Frames for Interpretive Mapping in NaturalLanguage Processing一文,由Carnegie Mellon大學(xué)的機(jī)器翻譯中心于1990年5月發(fā)表,其中有本文參照采用的資料。
MT分析程序127在分析知識(shí)(數(shù)據(jù)文件)的引導(dǎo)下,將輸入CSL文本305的源語言句子轉(zhuǎn)換成該句子意思的語義框架表示。在分析階段發(fā)生作用的知識(shí)結(jié)構(gòu)是分析語法、映射規(guī)則和概念詞典。
分析的第一個(gè)部份是由輸入句子的句法分析所驅(qū)動(dòng)的解析過程。解析程序910用概念詞典(域模型)中配備的語義約束,來引導(dǎo)分析輸入時(shí)對(duì)句法歧義的處理。映射規(guī)則在句法分析語法和概念詞典兩者之間起中介作用。
這個(gè)分析階段的輸出是含有一切適用的語義信息的句法f-結(jié)構(gòu)。這個(gè)結(jié)構(gòu)可進(jìn)一步由MT分析程序127的第二部分處理,以在解析句子過程中從概念詞典得出的相關(guān)概念的例示形式,產(chǎn)生出按語義組織的框架表示。MT分析程序127通過檢索f-結(jié)構(gòu)的語義特征來達(dá)到這個(gè)形式;這些特征含有一切相關(guān)的語義信息。
本發(fā)明所用的句法解析程序910在本專業(yè)領(lǐng)域是為人熟知的,詳細(xì)的描述可參見Tomita和Carbonell的The Universal Parser Architecature forKnowledge-Based Machine Translation一文,1987年5月發(fā)表于CarnegieMellon大學(xué)的機(jī)器翻譯中心的技術(shù)報(bào)告,和Tomita(編輯)等人的TheGeneralized LR Parser/Compiler Version 8.1User’s Guide一文,1988年4月發(fā)表于Carnegie Mellon大學(xué)的機(jī)器翻譯中心的技術(shù)備忘錄,其中有本文參照采用的資料。
中間語機(jī)器翻譯系統(tǒng)勝于其他類型的MT系統(tǒng)的優(yōu)點(diǎn)之一是,中間語260是獨(dú)立于任何語言的,也就是說,源語言與目標(biāo)語言從來不發(fā)生直接接觸。這個(gè)特點(diǎn)使得機(jī)器翻譯系統(tǒng)的構(gòu)造可以做到只需要對(duì)計(jì)算結(jié)構(gòu)作最小的改動(dòng),就有可能選擇任何源語言和目標(biāo)語言進(jìn)行翻譯。顯而易見,任何這樣的系統(tǒng)都必須能夠解析許多種源語言。因此需要一個(gè)通用解析程序,可以將一種語言的語法作為輸入接受,而不是將語法設(shè)置在翻譯程序本身。這樣有更大的靈活性和通用性。
換言之,在處理多種語言的過程中,語言結(jié)構(gòu)已不再是可以在所有應(yīng)用中傳用的通用不變量(如純英語解析程序),而是另一維的參數(shù)化與可延伸性。但是,語義信息可以在所有語言保持不變(雖然不能在所有的域都保持不變)。所以,把語義知識(shí)源和句法知識(shí)源分開是關(guān)鍵,這樣一來,如果增加了新的語言信息,它就可適用于所有語義域,如果增加了新的語義信息,它就可適用于所有相關(guān)的語言。通用解析程序試圖在不對(duì)運(yùn)行時(shí)間效率或語義準(zhǔn)確性作出很大讓步的情況下,實(shí)現(xiàn)這種分解。
解析程序910以三種知識(shí)源作為特點(diǎn)。一種知識(shí)源含有不同語言的句法規(guī)則,另一種含有不同域的語義知識(shí)庫,第三種則含有支配句法形式(詞和詞組)映射到語義知識(shí)結(jié)構(gòu)的規(guī)則集。每一種語言的句法規(guī)則都完全獨(dú)立于任何特定的域;同樣,每一個(gè)語義知識(shí)庫都獨(dú)立于任何特定的域;同樣,每一個(gè)語義知識(shí)庫也都獨(dú)立于任何特定的語言。
而且,映射規(guī)則既獨(dú)立于語言,也獨(dú)立于域,因此每一個(gè)語言與域的組合都需要設(shè)立一套不同的映射規(guī)則。句法規(guī)則、域知識(shí)庫和映射規(guī)則都用極為抽象的人可讀形式寫成。這樣設(shè)置可使它們易于延伸或修改,不過有可能在解析程序運(yùn)行時(shí)造成機(jī)器效率不高。
映射規(guī)則翻譯程序920的功能是生成并操縱某一解析的句法和語義結(jié)構(gòu),而且同時(shí)生成這兩種結(jié)構(gòu)。
通用解析程序910產(chǎn)生所有能從被解析的句子衍生的可能的、亦即合法的f-結(jié)構(gòu)。這些句法f-結(jié)構(gòu)都各有其語義特征,根據(jù)FLG理論,這些特征是與其他句法f-結(jié)構(gòu)在同一時(shí)間產(chǎn)生。因此語義成分可被視為f-結(jié)構(gòu)的附加特征。
因而,語義成分是句法解析的一個(gè)“可見”部分。這種同時(shí)產(chǎn)生句法結(jié)構(gòu)和語義結(jié)構(gòu)的方法,產(chǎn)生出一個(gè)能夠在完成某些“無意義的”局部解析之前就將它們排除的系統(tǒng)。語義結(jié)構(gòu)是在進(jìn)入詞典查找一個(gè)詞的定義時(shí)加到句法結(jié)構(gòu)上的。一個(gè)詞的另一部分定義是結(jié)構(gòu)的映射規(guī)則集。這些映射規(guī)則是在語法規(guī)則中的句法等式為句法結(jié)構(gòu)增添信息的時(shí)候使用。
目標(biāo)語言生成程序組件123接受作為其輸入的中間語文本260,并產(chǎn)生作為其輸出的目標(biāo)語文本950。目標(biāo)語言生成程序123是由兩個(gè)主要模塊組成,一個(gè)是語義模塊,一個(gè)是句法模塊。語義模塊執(zhí)行的功能是目標(biāo)語言的詞匯選擇和目標(biāo)語言的句法結(jié)構(gòu)選擇;它在執(zhí)行這兩個(gè)功能時(shí)分別得到生成詞典和生成結(jié)構(gòu)映射規(guī)則的輔助。這個(gè)模塊的輸出就是將由系統(tǒng)輸出的目標(biāo)語句子的f-結(jié)構(gòu)。
生成模塊的目的是要從由CSL分析程序127產(chǎn)生的中間語文本260的框架產(chǎn)生出目標(biāo)語句子。生成過程有以下三個(gè)主要步驟1.詞匯選擇。
必須為中間語中的每一個(gè)概念選擇一個(gè)最合適的詞項(xiàng)。
2.建立f-結(jié)構(gòu)。
必須從中間語文本的框架產(chǎn)生出一個(gè)確定目標(biāo)語表達(dá)的語法結(jié)構(gòu)的句法功能結(jié)構(gòu)。
3.句法生成。
句法功能結(jié)構(gòu)由生成語法處理而產(chǎn)生目標(biāo)語句子。
生成模塊940的設(shè)計(jì),結(jié)合使用了詞匯選擇領(lǐng)域的最新研究與以前翻譯系統(tǒng)使用的映射與生成范例。
有關(guān)機(jī)器翻譯和上述各模塊具體設(shè)計(jì)與操作的更詳細(xì)討論,請(qǐng)參閱Nirenburg等人的Machine Translationa knowledge-Based Approach一文,由Morgan Kaufmann Publishers,公司(1992)發(fā)表;Sommers &Hutchins的Introductionto Machine Translation 一文,發(fā)表于 AcademicPress,London(October 1991);Mitamura等人的An Efficient InterlinguaTranslation System for Multi-lingual Document Production一文,發(fā)表于Proceedings of Machine Translation Summit III,Washinton D.C.(July2-4,1991);Nirenburg,S.的“World Knowledge and Text Meaning,”一文,發(fā)表于由K.Goodman和S.Nirenburg編輯的The KBMT ProjectA Case Studyin Knowledge-Based Machine Translation,San Mateo,Calif.MorganKaufmann,KBMT-89 Project Report,可向Carnegie Mellon大學(xué)的機(jī)器翻譯中心索取;S.Nirenburg編輯的Machine TranslationTheoretical andMethodological Issues,劍橋大學(xué)出版社,pgs 68-89(1987),和Carbonell等人的Steps Toward Knowledge-Based Machine Translation,一文,發(fā)表于IEEE Transaction on Pattern Analysis and MachineIntelligence,Vol.PAMI-3,No.4(Julyl981),以上都有本文參照采用的資料。
雖然我們在前面根據(jù)部分較佳的實(shí)施例具體介紹了本發(fā)明,但是本專業(yè)領(lǐng)域的內(nèi)行人應(yīng)能理解,其形式與細(xì)節(jié)方面的改動(dòng)并不脫離本發(fā)明的精神與范圍。
權(quán)利要求
1.一種以計(jì)算機(jī)為基礎(chǔ)的用于編制單一語言文件的方法,其特征在于包括如下步驟用源語言將文本輸入文本編輯程序;對(duì)照詞匯源語言約束檢查所述輸入文本;查閱一域模型,包括有關(guān)詞匯單元及其組合的域知識(shí)和語言語義知識(shí);檢查是否存在非約束源語言;向作者反饋是否檢查到非約束源語言;通過查閱所述域模型檢查所述輸入文本中的句法語法錯(cuò)誤和語義歧義;向作者反饋所述輸入文本中的有關(guān)句法語法錯(cuò)誤和語義歧義;以及在完成向作者反饋所述輸入文本中的有關(guān)句法語法錯(cuò)誤和語義歧義之后,產(chǎn)生單義性約束文本。
2.一種以計(jì)算機(jī)為基礎(chǔ)的用于從語言上分析文本的方法,所述文本包含至少一個(gè)標(biāo)識(shí)符,表示所述文本中一個(gè)部分的特征,其特征在于,所述方法包括如下步驟從語法上分析該文本;在分析該文本的同時(shí),將該標(biāo)識(shí)符認(rèn)可為多種標(biāo)識(shí)符類型之一;解釋所述一種標(biāo)識(shí)符類型,并有響應(yīng)地確定該文本所述部分的特征;以及依靠所述特征從語言上分析所述文本。
3.如權(quán)利要求2所述的方法,其特征在于所述特征將所述文本部分識(shí)別為數(shù)值和數(shù)學(xué)單位。
4.如權(quán)利要求2所述的方法,其特征在于所述標(biāo)識(shí)符為SGML標(biāo)識(shí)符。
5.如權(quán)利要求2所述的方法,其特征在于所述特征將所述文本部分識(shí)別為貨幣符。
6.如權(quán)利要求2所述的方法,其特征在于所述標(biāo)識(shí)符對(duì)用戶是無形的。
7.如權(quán)利要求2所述的方法,其特征在于包括利用所述特征輔助對(duì)所述文本的翻譯。
8.如權(quán)利要求7所述的方法,其特征在于所述特征將所述文本部分識(shí)別為需要翻譯。
9.如權(quán)利要求7所述的方法,其特征在于所述特征將所述文本部分識(shí)別為可譯的。
10.如權(quán)利要求7所述的方法,其特征在于所述特征將所述文本部分識(shí)別為不可譯的。
11.如權(quán)利要求7所述的方法,其特征在于所述特征將所述文本部分識(shí)別為無需翻譯。
12.如權(quán)利要求2所述的方法,其特征在于所述特征將所述文本部分識(shí)別為無需分析。
13.如權(quán)利要求2所述的方法,其特征在于所述特征將所述文本部分識(shí)別為已經(jīng)作了分析。
14.如權(quán)利要求2所述的方法,其特征在于所述特征將所述文本部分識(shí)別為已經(jīng)成功地作了分析。
15.如權(quán)利要求2所述的方法,其特征在于所述特征將所述文本部分識(shí)別為具有特定的內(nèi)容。
16.如權(quán)利要求2所述的方法,其特征在于所述特征識(shí)別所述文本部分的可容許的語言上的上下文。
17.如權(quán)利要求2所述的方法,其特征在于所述特征將所述文本部分識(shí)別為具有特定的語言上的內(nèi)容。
18.如權(quán)利要求2所述的方法,其特征在于所述特征將所述文本部分識(shí)別為具有特定的文本結(jié)構(gòu)類型。
19.如權(quán)利要求18所述的方法,其特征在于所述特定的文本結(jié)構(gòu)類型包括核心條目;表格;表格單元;標(biāo)題;名稱;或與圖示有關(guān)的標(biāo)記。
20.如權(quán)利要求2所述的方法,其特征在于所述標(biāo)識(shí)符由用戶交互式分配。
21.一種以計(jì)算機(jī)為基礎(chǔ)的用于編制單一語言文件的系統(tǒng),其特征在于包括適合于交互式接受作者輸入文本的文本編輯程序,該輸入文本為自然源語言的子集;所述文本編輯程序包括用以對(duì)照一域模型中存儲(chǔ)的一組預(yù)定的約束檢查所述輸入文本的語言編輯程序,該域模型提供有關(guān)詞匯單元及其組合的預(yù)定的域知識(shí)和語言語義知識(shí),以產(chǎn)生單義性的約束文本,所述一組預(yù)定的約束包括與詞匯和語法有關(guān)的一組源子語言規(guī)則,其中,所述域模型為三重域模型核心,含有所述語言編輯程序和機(jī)器翻譯系統(tǒng)所需的詞匯信息,其中,所述詞匯信息包含所述一組預(yù)定約束內(nèi)的詞匯條目連同相關(guān)的語義概念、語音部分以及詞法信息,語言編輯域模型,含有僅為所述語言編輯程序所需的信息,其中,所述信息至少包含不滿足于所述一組預(yù)定約束的條目的一個(gè)同義詞子集、定義所述詞匯條目的詞典以及使用所述詞匯條目的一組實(shí)例這三者之一,以及機(jī)器翻譯域模型,含有僅為所述機(jī)器翻譯系統(tǒng)所需的信息,所述機(jī)器翻譯域模型包含翻譯中用以單義映射和語義驗(yàn)證的概念層次;以及機(jī)器翻譯系統(tǒng),響應(yīng)于所述語言編輯程序,結(jié)構(gòu)成將所述單義性約束文本翻譯成外語。
22.如權(quán)利要求21所述的系統(tǒng),其特征在于所述語言編輯程序在完成所述檢查后向作者提供與所述輸入文本有關(guān)的反饋,所述反饋表明所述一組預(yù)定的約束是否得到滿足。
23.如權(quán)利要求22所述的系統(tǒng),其特征在于所述一組預(yù)定的約束包含與詞匯和語法有關(guān)的一組源子語言規(guī)則,其中,所述反饋用以使所述輸入文本與所述一組源子語言規(guī)則相符,以消除歧義。
24.如權(quán)利要求21所述的系統(tǒng),其特征在于所述語言編輯程序進(jìn)一步包含語法檢查程序,包括用以交互式澄清的手段。
25.如權(quán)利要求21所述的系統(tǒng),其特征在于所述語言編輯程序包含詞匯檢查程序,用以對(duì)照允許的詞典檢查所述輸入文本,并提供二者擇一的文本。
全文摘要
本發(fā)明是一個(gè)用于編制單一語言信息與翻譯成多語言的綜合計(jì)算機(jī)系統(tǒng)。對(duì)話式文本編輯程序?qū)ψ髡咴趧?chuàng)作文本時(shí)使用的自然語言子集施行詞匯和語法約束,在作者的輔助下對(duì)文本作單義化處理,從而保證文本的可譯性。所得到的可譯源語文本經(jīng)機(jī)器翻譯成一套目標(biāo)語言中的任何一種語言,而翻譯文本無須作任何譯后編輯。
文檔編號(hào)G06F17/24GK1350250SQ0012190
公開日2002年5月22日 申請(qǐng)日期2000年7月14日 優(yōu)先權(quán)日1992年9月4日
發(fā)明者海梅·G·卡沃內(nèi)利, 沙倫·L·蓋洛普, 蒂莫西·J·哈里斯, 詹姆斯·W·希格登, 丹尼斯·A·希爾, 戴維·C·赫德森, 戴維(Nmi)納斯吉萊蒂, 默文·L·倫尼克, 佩吉·M·安德森, 邁克爾·M·鮑爾, 羅伊·F·巴斯迪克Iii, 菲利普·J·海斯, 艾莉森·K·休特納, 布魯斯·M·麥克拉倫, 艾琳(Nmi)尼倫伯格, 埃里克·H·里伯林, 琳達(dá)·M·施曼特, 約翰·F·斯威特, 凱思琳·L·貝克, 尼古拉斯·D·布朗洛, 亞歷山大·M·弗朗斯, 蘇珊·E·霍爾姆, 約翰·羅伯特·拉塞爾·萊維特, 德里爾·W·朗斯代爾, 三田村旭子, 埃里克·H·尼貝里三世 申請(qǐng)人:履帶拖拉機(jī)股份有限公司