亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

處理兩種文字對照的數(shù)據(jù)庫的方法與裝置的制作方法

文檔序號:6408231閱讀:311來源:國知局
專利名稱:處理兩種文字對照的數(shù)據(jù)庫的方法與裝置的制作方法
技術領域
本發(fā)明涉及處理包括對準的語料庫的兩種或多種文字對照的數(shù)據(jù)庫的方法與裝置,用這種數(shù)據(jù)庫自動翻譯的方法與裝置。
背景技術
對準的語料庫為分成對準的部分的兩種(或以上)正文體,使第一種語言語料庫中的各部分映射到第二種語言語料庫的對應部分上。各部分通??砂ㄒ粋€單句或短語,但也可包括一個字或者甚至整個段。對準的語料庫可用作自動翻譯系統(tǒng)中的一個數(shù)據(jù)庫,其中給定了第一種語言中的一個字、短語或句子時,如果它與已經存在在數(shù)據(jù)庫中的一個部分匹配或以某種方式相似時,便能自動地得出第二種語言中的對應譯文。這一原理可擴展到使兩種以上的語料庫對準,以便翻譯成多種語言。
在五六十年代,普遍認為在不久的將來研制通用翻譯系統(tǒng)是可能的。但由于需要大量背景信息與“智能”,所以稍后便意識到這種系統(tǒng)是甚為遙遠的甚至有可能是根本不能實現(xiàn)的。但也意識到對準的語料庫可用于小型專業(yè)化領域內的自動翻譯。這是因為具有許多不同意義的“問題字”在一個專業(yè)化的活動領域的范圍內,會趨于具有十分有限的意義范圍。
然而,在建立這種專業(yè)化翻譯系統(tǒng)中,尤其是假定為一種活動領域生成的數(shù)據(jù)庫是理想地依據(jù)大量以前翻譯的文件而可能不適用于另一領域的應用時,生成高質量的對準的語料庫的問題仍然是第一位的。首先,要求工作在各領域中的用戶生成他們自己的數(shù)據(jù)庫,而這傾向于否定這種自動化系統(tǒng)的使用,從而仍然依賴于人類翻譯人員。例如,美國專利5,140,522描述了一種機器翻譯系統(tǒng),其中在使用過程中建立起一個以前翻譯過的句子的數(shù)據(jù)庫,但并未公開不用人類翻譯人員的初始努力而得到這一數(shù)據(jù)庫的任何方法。
為了論述上述問題,現(xiàn)在作為GB-A-2272091公布的共同未決英國專利申請描述了生成對準的語料庫的一種自動化系統(tǒng)。在這里引入GB-A-2272091的內容。該自動化系統(tǒng)響應字處理裝置在大多數(shù)文件中插入的格式碼,諸如指明新的一章的標題或表中的新項。對于包含諸如電子裝置的使用說明書等在內的各種文本,這些格式碼之間的正文部分小到足以用作對準語料庫中的對準部分。從而,在上述申請中所描述的系統(tǒng)比較簡單,這在于無需判斷字的意義,也無需將正文剖析成句子或更小的單元。另一方面,由于種種原因,得到的對準是不完美的,使得數(shù)據(jù)庫中包含不正確的對準的形式的“噪聲”。
在計算語言學會第29次年會(Berkeley,Caliqornia)會報中,諸如W A Gale與K W Church在“兩種文字對照的語料庫中對準句子的程序”,以及P.F.Brown等人在“在并行語料庫中對準句子”中已經描述了自動化生成對準的語料庫的替代方法。Brown等人提出的系統(tǒng)在歐洲專利申請EP A-0525470中有更全面的描述。在這些系統(tǒng)中,所使用的部分對應于句子,并且對準是通過比較句子的長度,或者以字數(shù)(Brown等人)或者以字符數(shù)(Gale與Chureh)來進行的。當然,用這些方法得出的對準語料庫也會包含錯誤的對準,根據(jù)文獻,至少達到百分之幾的水平。
Brown等人的文獻描述了在自動生成的對準語料庫的一個小的抽樣(一百萬對句子中的一千對)上人工進行的一次隨機檢驗。這一工作揭示存在著一定觀察到的概率的錯誤,但是在假定人工檢驗整個數(shù)據(jù)庫是不現(xiàn)實的情況下,并未提出檢測與糾正任何明顯的錯誤部分的任何可實行的方法。再者,由于“錨定點”的一次比較揭示了節(jié)之間的不匹配,已經丟棄了大量的節(jié)(大約語料庫的10%)。由于Gale與Church提出的自動對準方法是基于句子長度的或然相關性的,所以這兩位作者建議只需簡單地略去最小可能性的對準便能消除許多錯誤的對準。這種取舍可能是有價值的,但數(shù)據(jù)庫的質量仍然受到句子長度的相互關聯(lián)是對準的唯一關鍵這一假設的限制。
Brown等人的翻譯系統(tǒng)(EP-A-0525470)利用在其間進行翻譯的源與目標語言的相對地復雜的統(tǒng)計模型,使得數(shù)據(jù)庫中低程度的“噪聲”是能夠容忍的。然而,對于在US 5,140,522及GB-A-2272091中所描述的那種較簡單的基于存儲器的系統(tǒng),對于一個給定的句子中的各種不正確對準可以導致輸出完全不正確的譯文。發(fā)明的公開本發(fā)明采用統(tǒng)計技術來檢測對準正文部分中可能存在的錯誤??稍谑褂们坝糜谙龜?shù)據(jù)庫中的錯誤對準,與/或應用一個“有噪聲的”數(shù)據(jù)庫或某種其它方法來排除已得出的錯誤譯文。在特定的實施例中,本發(fā)明能夠推導出一個評分來測定兩種文字對照的字對的相互關聯(lián)。然后可將字對的評分綜合以推導出對準部分的任何提出的對的評分。這些部分可以是從外部接收的,或者是來自數(shù)據(jù)庫本身的對準部分。與作為一個整體的數(shù)據(jù)庫的統(tǒng)計數(shù)字相比,可以從數(shù)據(jù)庫中消除呈現(xiàn)為錯誤的對準。
因此,本發(fā)明能以最少的人工干預及處理要求改進包含對準的語料庫的數(shù)據(jù)庫。特別是,即使所實現(xiàn)的處理是基于統(tǒng)計的,并且處理器對語料庫的語義與語法保持不注意的情況,在實踐中也發(fā)現(xiàn)能用相對廉價的處理設備快捷地進行高質量的對準語料庫的生成。
因為不論用什么技術從前面翻譯的文件生成對準語料庫時都能獨立地實現(xiàn)本技術,它便能用于改進現(xiàn)存的數(shù)據(jù)庫,及檢測出執(zhí)行原始對準的裝置不能提示的錯誤。
注意到EP-A-0499366(英國與外國圣經協(xié)會)描述了一種檢驗由翻譯生成的兩種文字對照的語料庫的過程。這一過程計算字對的評分,并通過一個重復的過程,建立一個翻譯“字典”。然后用它來突出某些字的翻譯中的可能不符合性。
本發(fā)明還提供翻譯方法與裝置、經過處理的數(shù)據(jù)庫之類,如從屬權利要求中所提出的。
下面參照附圖用實例的方法描述本發(fā)明的實施例,附圖中

圖1示出體現(xiàn)本發(fā)明的一種翻譯系統(tǒng)的硬件;圖2示出圖1的系統(tǒng)的操作結構;圖3示出包括一對對準的語料庫的數(shù)據(jù)庫結構;圖4示出用于圖3的數(shù)據(jù)庫的字頻表;圖5示出用于圖3的數(shù)據(jù)庫的配對頻率表;圖6為該系統(tǒng)的統(tǒng)計分析程序的操作的示意性流程圖;圖7為該系統(tǒng)中的一個估計模塊的部分操作的流程圖;圖8為該估計模塊的另一部分操作的流程圖;
圖9為使用該估計模塊的數(shù)據(jù)庫的改型的流程圖;圖10為使用該改型后的數(shù)據(jù)庫翻譯一個正文的流程圖;以及圖11為一個示例數(shù)據(jù)庫中的對準評分的直方圖。
具有部分A至G的附錄提出英文與荷蘭文的對準語料庫的一個實例,以及分析程序與估計模塊對該實例的操作結果。
在圖1的系統(tǒng)中,用戶的人機對話是用鍵盤10與顯示屏12進行的,處理器單元14包括全都是傳統(tǒng)構造的一個中央處理器(CPU)、半導體存儲器(RAM與ROM)與接口電路。一個磁與/或光盤存儲器16為存儲多種文字對照的數(shù)據(jù)庫、要翻譯的正文及用于控制整個系統(tǒng)的操作的程序的大容量存儲器。設置了一個可裝卸的盤存儲器18用于與系統(tǒng)進行新的數(shù)據(jù)與程序的通信。
本實施例的一個優(yōu)點是該系統(tǒng)的上述硬件是可以從個人計算機或工作站型計算機購買的。圖2示出圖1的系統(tǒng)的操作結構。該系統(tǒng)存儲有包含已經存在的兩種或兩種以上語言的一篇或多篇參照正文的源數(shù)據(jù)。例如,圖2中200所示的一篇正文REFTEXT1E為存儲在202的一個注文文件REFTEXT1F的一篇英文譯文。提供了一個對準模塊204,它能讀取這種正文對并生成對應的對準的語料庫對,如圖2中206所示。對準的語料庫206構成一個供翻譯新文件用的兩種文字對照數(shù)據(jù)庫的主要部分。
提供了一個為對準語料庫206生成一個統(tǒng)計數(shù)據(jù)庫210的分析程序模塊208。提供了一個用統(tǒng)計數(shù)據(jù)庫210中的信息來測定對準語料庫或其它正文中的對準質量的估計模塊212。提供了一個讀取一個輸入正文(例如通過磁盤驅動器18)來生成一個輸出正文文件218的翻譯模塊214。對于任何模塊,與一位操作人員的人機對話是可能的,例如,使翻譯模塊214能夠咨詢一位熟練的人類翻譯家。
應當理解,在實踐中各種結構都是可能的,例如,翻譯模塊及分析與估計模塊204、208與212可設置在分立的裝置中,而數(shù)據(jù)庫信息206與/或210則生成在一個裝置中并與翻譯用的一個第二裝置進行通信。這在實踐中的用處在于可在中心生成與估計及維護對準的語料庫,然后將要翻譯的文件分配給想要用個人計算機之類在他們家中或小型辦公室中用諸如翻譯模塊214遠程地工作的熟練的翻譯家與編輯。
如上所述,對準語料庫發(fā)生器204可具有已知的設計,諸如前面的申請GB-A-2272091或者在Gale與Church或Brown等人的論文中所描述的。再者,生成原始對準語料庫的方法與對本發(fā)明的理解無關,因此不再詳述。圖3示意性地示出在包含一對對準語料庫的情況下的兩種文字對照的數(shù)據(jù)庫206的結構。圖3的例子是小的并且只是示意性地提出的,但是一個小而全的實例將參照附錄在以下描述。
在圖3中,一個英文語料庫CORPE包括正文的多個部分,它們是可用數(shù)字尋址的并稱作“塊”CORPE [I],其中I=1,2,3等。取決于生成對準語料庫的方法,各塊可大致上對應于一個原始源文件的一個句子,或正文的一個或長或短部分。兩種情況中,各塊CORPE[I]包括用CORPE[I][J]參照的可變數(shù)量的較小基元。在本例中,這些較小的基元為英文正文中的單字。從而,諸如塊CORPE[1]包括兩個字CORPE[1][1]為“Good”而CORPE[1][2]為“day”。CORPE[3][1]為字“No”,而CORPE [6][1]為字“Yes”。字CORPE[5][2]與CORPE[4][3]在圖中加上了標號供進一步示例。
在圖3的另一側為一個第二(法語)語料庫CORPF,它包含相等數(shù)目的塊CORPF[I],每一個對應于英文語料庫中的相同編號的塊CORPE[I]。特別是,一個關系REL至少在某種名義的意義上,確定各英文塊CORPE[I]為對應的法文塊CORPF[I]的一種譯文。雖然各塊是與對方語料庫中正好一塊對準的,但對準的塊內的字數(shù)則不必要相等。例如,法文語料庫中第一塊包括單字“Bonjour”但英文語料庫中第一塊則包括兩個字“Good”與“Day”,如所示。對比文件中還描述了包括一個句子的一個部分與包含兩個句子的一個部分對準的實例。
應能理解,在對準的語料庫CORPE與CORPF中的塊的對準僅此而已。這些對準尚未經過一位熟練的翻譯人員逐條核對,并且只是對比文件中所描述的那種自動化比較的“推測”。很清楚,這種對準并不表明兩個塊互為譯文,甚至并不開始表示對準的塊中的單個字之間的任何特定關系。因此,在數(shù)據(jù)庫中并不意味字“Yes”與“Oui”互為譯文,只是它們兩者碰巧作為第一個字出現(xiàn)在對準的語料庫中的對應塊中。
圖4與5示出統(tǒng)計分析程序208的輸出,在本實施例中它們生成下述頻率表。表FREQE(圖4)為英文語料庫CORPE的字頻表。表FREQE中一項的索引為來自英文語料庫中的一個單字。而在這一字下存儲的項則是該字在語料庫中出現(xiàn)的次數(shù)。已知有若干種傳統(tǒng)的程序設計語言提供這種所謂的“關聯(lián)尋址”。這些語言中包括Lisp、POP-11、PERL、AWK。當然,在不提供關聯(lián)尋址的環(huán)境中,可以由系統(tǒng)設計員明確地實現(xiàn)。
第二字頻表FREQF中包含法文語料庫CORPF的字頻。這些表在本實施例中并不是大小寫敏感的,因此“Yes”與“yes”作為同一個字對待。這里用“大括號”即波形括號{}表示關聯(lián)尋址。
第三表PAIRFREQ(圖5)存儲對準語料庫的字對頻率。這是一張概念上的二維表,其各項可用一個字對關聯(lián)尋址一個字來自英文語料庫CORPE而另一個字來自法文語料庫CORPF。對于一個給定的字對,諸如“good”與“bonjour”,表項PAIRFREQ{good,boujour}存儲這兩個字出現(xiàn)在對準的語料庫的對應塊中的次數(shù)。
圖5中加影線的框表示對應于圖3的示例語料庫中所示的少數(shù)字的項。由于這兩個字出現(xiàn)在對準的塊CORPE[1]與CORPF[1]的第一對中,因此項PAIRFREQ{good,bonjour}中包含一個至少為1的值。類似地,由于這一字對也出現(xiàn)在第一對對準的塊中,因此PAIRFREQ{day,bonjour}中包括至少為1的一個值。
對于各語料庫,存儲了字的總數(shù),它等于本例中表FREQE或FREQF的所有項的和。類似地,記錄了所有字對的總數(shù),它自然是二維對頻率表PAIRFREQ中的所有項之和。
熟悉本技術的人員會理解,為了將表PAIRFREQ真正地實現(xiàn)為一個二維表會得出一個非常稀疏的數(shù)組??刹捎酶行У膶崿F(xiàn)方法,其中該表為相似于數(shù)組FREQE與FREQF的一個一維關聯(lián)數(shù)組。這可以通過將一對中的字連接成一個單一的串來檢索該表而容易地做到。因而,例如不將“good”與“bonjour”作為一個二維地址{good,bonjonr}的獨立成分,而將整個串“good-bonjour”作為用于關聯(lián)尋址表PAIRFREQ的對應項的一個單一的一維項對待。
圖6示意性地示出在統(tǒng)計,分析程序208從對準語料庫CORPE與CORPF中生成統(tǒng)計數(shù)據(jù)庫210時的操作的流程圖。在一個初始化步驟600中,為對頻率表PAIRFREQ保留空間,并歸零其所有項。類似地為字頻表FREQE與FREQF保留空間,并且也將它們的項歸零。建立一個對計數(shù)變量PAIRTOTAL并將其設置為0,同樣建立和歸零字計數(shù)變量ETOTAL與FTOTAL。
進程的其余部分包括一系列嵌套的循環(huán)。為每一對對準的塊CORPE[1]與CORPF[1]執(zhí)行一次主循環(huán)602,其中I每通過該循環(huán)一次便從1向上增加1,直到考慮了每一對對準的塊為止。在主循環(huán)602內一個深層循環(huán)604為英文語料庫的當前塊內的各字CORPE[I][J]執(zhí)行一次。在循環(huán)604內,一個更深層的循環(huán)606為法文語料庫CORPF中的對應塊的各字CORPF[I][K]執(zhí)行一次。在這一內循環(huán)606中,將對應于對頻率表PAIRFREQ中的當前字對的一個項增加1。如上面所指出的,數(shù)組PAIRFREQ是可以通過參照一個英文-法文字對關聯(lián)地尋址的。還在循環(huán)606內,將計數(shù)器變量PAIRTOTAL增加1。
在循環(huán)604與606之外,但仍在主循環(huán)602之內,為英文語料庫的當前塊中每一個字CORPE[I][J]執(zhí)行一次另一個循環(huán)608。將字頻表FREQE中的一個項增加1,并同時將英文語料庫的總的字計數(shù)ETOTAL增加1,完成循環(huán)608之后,為法文語料庫內的每一個字CORPF[I][K]執(zhí)行一次主循環(huán)602內的另一個循環(huán)610。在這一循環(huán)中,將字頻表FREQF中的項增加1來記錄字CORPF[I][K]的出現(xiàn),并同時將法文語料庫的總的字計數(shù)FTOTAL增加1。
因此,一旦為對準的語料庫CORPE與CORPF中每一對對準的塊執(zhí)行過主循環(huán)602之后,表PAIRFREQ中包含對準的塊中每一個唯一的字對的出現(xiàn)次數(shù)的記錄,表FREQE記錄了英文語料庫中各唯一的字的出現(xiàn)次數(shù),而表FREQF則記錄了法文語料庫中各唯一的字的出現(xiàn)次數(shù)。同時,字對的總數(shù)則記錄在變量PAIRTOTAL中,英文語料庫中的字的總數(shù)記錄在變量ETOTAL中而法文語料庫CORPF中的字的總數(shù)則記錄在變量FTOTAL中。
圖7與8示出圖1中所示的估計模塊212的操作,具體地,圖7示出了各字對的相互關聯(lián)測定值或“評分”的計算,而圖8則示出使用包含在塊中的字對的對評分,計算對準的各塊對的評分。
在圖7中,操作從步驟700開始,在其中接收到一對字WORDE與WORDF。在步驟702中,使用統(tǒng)計數(shù)據(jù)庫210的表計算三個概率值。通過將記錄在對頻表(圖5)中的一個字對頻率PAIRFREQ{WORDE,WORDF}除以該表中所記錄的字對的總數(shù)PAIRTOTAL為該字對計算一個對概率值PAIRPROB。從而,PAIRPROB測定所接收的字對出現(xiàn)在數(shù)據(jù)庫的對準的語料庫中任何兩個對準的塊中的觀測到的概率。
通過將英文語料庫中單獨的英文字WORDE的出現(xiàn)頻率除以英文語料庫中的總字數(shù)而計算一個值EPROB。這便是,將表項FREQE{WORDE}除以值ETOTAL。從而,值EPROB測定接收的對的英文字單獨出現(xiàn)在英文語料庫中的概率。類似地通過將表項FREQF{WORDF}除以法文語料庫中的字的總數(shù)FTOTAL,而為所接收的字對的法文字WORDF計算概率值FPROB。值FPROB根據(jù)法文語料庫CORPF的內容測定字WORDF的出現(xiàn)概率。
最終,在步驟704中,通過將對概率值PAIRPROB除以各個字概率值EPROB與FPROB而為所接收字對WORDE,WORDF計算一個估計值PAIRSCORE。等于1的值PAIRSCORE表示這一字對出現(xiàn)在對準的塊中的頻率不大于根據(jù)單個的字出現(xiàn)在它們各自的語料庫中觀測概率的隨機概率所期望的頻率。反之,大于1的值PAIRSCORE表示這對字的出現(xiàn)頻率大于從單個字頻所期望的。從而,對評分是對中的兩個字之間的相互關系的一種度量。
參見圖8,統(tǒng)計數(shù)據(jù)庫與圖7的對評分方法可用于測定各包括對應的語言(諸如英文與法文)中的一個或多個字的兩塊正文的對準質量,圖8的操作從步驟800開始,其中為模塊212接收兩塊正文CHUNKE與CHUNKF以估計它們的對準評分。在初始化步驟802中,將評分變量S設置成1,并將計數(shù)變量N設置成0。
一旦為S與N建立了初始值,這些變量便由一對嵌套的循環(huán)804與806修改。外循環(huán)804為在步驟800中所接收的正文的英語塊中的每一個字CHUNKE[J]執(zhí)行一次內循環(huán)806為在步驟800中所接收的法語塊中的第一個字CHUNKF[K]執(zhí)行一次。因此,在嵌套的循環(huán)806與804內,將英文塊中的第一個字與法文塊中的每一個字一起考慮。將值S乘以各個考慮的字對的對評分PAIRSCORE(CHUNKE[J],CHUNKF[K])。這一對評分是用圖7的步驟計算的。此時,將計數(shù)變量N增加1,以維護組合在變量S中的評分的數(shù)目的計數(shù)。
考慮了兩個接收塊中的各字對并將其對評分組合進乘積S之后,在步驟808中通過求乘積S的N次根計算對準評分ALSCORE。用數(shù)學語言講,對準評分ALSCORE為所接收的塊中的全體字對的對評分PAIRSCORE的“幾何平均”值。從而,一對正文塊的對準評分ALSCORE是組合這兩塊中的所有可能的字對的對評分的一個“似然”測定。由于在步驟808中求出了幾何平均值,便用類似于對評分的方法正規(guī)化值ALSCORE,使得為1的值ALSCORE,根據(jù)記錄在統(tǒng)計數(shù)據(jù)庫210中的字頻與字對頻率,表示在800中接收的兩塊只是從單個字概率所期望的那樣可能對應。反之,大于1的對準評分提示在兩塊的字之間存在著平均上大于隨機概率與觀測到的單獨字頻所提示的相互關聯(lián)程度。
乘積S可能達到很大的值,并且在一個自動處理裝置中計算許多乘法與除法通常是煩瑣的。在實踐中,對于步驟808中的幾何平均值的計算,用對評分的對數(shù)的算術平均值來計算可能是有利的??捎脤?shù)的加減來實現(xiàn)乘除。可將S的對數(shù)除以N來計算S的N次根的對數(shù)。
應當注意,雖然統(tǒng)計數(shù)據(jù)庫210的頻率表與計數(shù)值是從源語料庫200與202以及表示它們之間的對準中推導出的,但在步驟700中接收的字對及在步驟800中接收的塊對可以從它們本身的對準語料庫,或者從正在估計其對準的任何正文對中推算出。從而,所接收的塊CHUNKE可以是諸如一位翻譯所接收的CHUNKF的翻譯人員的成果,并用對準評分ALSCORE將其與現(xiàn)存的對準語料庫CORPE與CORPF的統(tǒng)計數(shù)據(jù)庫相比較。大于1的一個值表示翻譯人員廣泛地與現(xiàn)存的對準語料庫相符,而一個比1小得多的評分則表示不符合,例如,由于語料庫的對準中的錯誤,翻譯人員的錯誤、或者只是在現(xiàn)存的數(shù)據(jù)庫與翻譯人員頭腦中所考慮的主題的兩種領域中的差別。存在著估計模塊212的許多應用,圖6、7與8的技術將作為下述實例示出。
圖9示出利用估計模塊212來改進或“過濾”現(xiàn)存的數(shù)據(jù)庫,即對準的語料庫206與統(tǒng)計數(shù)據(jù)庫210的一種方法。這一進程表示一種反鎖方式,并用圖2中的虛線箭頭230與232指示。在步驟900中,為了與對準評分值進行比較而設置一個閾值,有許多種選擇該閾值的方法,如下所述。對于現(xiàn)在的描述,簡單地將閾值設定為1便足夠了,但是一般地說,最佳的閾值是取決于實際數(shù)據(jù)的,進程接著執(zhí)行一個循環(huán)902,對于在法文語料庫中存在著一個對準的塊CORPF[I]的英文語料庫中的每一個塊CORPE[I]執(zhí)行一次。在循環(huán)902中,步驟904讀取對準的塊CORPF[I],并在步驟904中利用圖8的過程為當前的塊對估計對準評分ALSCORE(CORPE[I],CORPF[I]。
在步驟908中,將這一對準評分每步驟900中設定的閾值進行比較。如果這一對準評分超過閾值,控制便進行到912,在其中為下一個I值執(zhí)行循環(huán)902,即對準的語料庫206中的下一對對準的塊。如果在步驟908中,對準評分低于閾值,控制進行到步驟910,并從對準的語料庫中刪除對準的塊的當前對,或者至少作上可疑的標記供以后刪除。后一種選擇在一種給定的實現(xiàn)中可能是方便的,并且在采取最后的決定之前,可允許與一位翻譯人員對話。
完成步驟910之后,控制再一次進入點912,在其中將I增加1并為下一對塊執(zhí)行循環(huán)902。當在循環(huán)902中考慮過對準的語料庫206中所有的對準塊之后,控制進入步驟914,在其中計入步驟910中執(zhí)行的刪除(如果有的話)來更新統(tǒng)計數(shù)據(jù)庫210。
注意,圖9的方法可以在數(shù)據(jù)庫上重復任意次數(shù),逐步過濾掉存在在某些快上的不精確對準中的“噪聲”。噪聲源是多種多樣的,但通常是實現(xiàn)在模塊204中用來生成對準的語料庫206的自動進程對它正在處理的語言缺少知識,以及在選擇正文中哪些塊該對準時不注意語法與語義這些事實的后果。并且,即使對于正確地對準的塊,原始譯文也不總是嚴格的譯文,并且毫無疑問,即使將一個短的句子翻譯成一種給定的語言,也有若干種譯法。
在從諸如照相復印機與傳真機等電子設備的操作手冊中導出的語料庫的情況中,通常存在著完全不對應的部分,這是因為不同國家中的法律要求提供不同的安全信息。另一種常見的噪聲源在于各語料庫的一部分是按字母表次序排列的項目的一張表時。在兩種不同的語言中,這些項目的次序將不相同,即使項目的數(shù)目及其總的外觀對于對準模塊204可能是難區(qū)分的。
然而,假定這些問題局限于源文件的相對地小的部分,則已經發(fā)現(xiàn)統(tǒng)計數(shù)據(jù)庫是仍然有用的,并且由估計模塊212生成的對準評分將會成功地標識出有問題的區(qū)。
除了過濾對準的語料庫之外,在利用對準的語料庫翻譯一個新的正文時,也能使用一對塊的對準評分,如圖10中所示。
在圖10中步驟1000上接收到要由翻譯模塊214從英文譯成法文的一個新的正文ETEXT(圖2中216)。步驟1002中標識英文正文的第一塊ECHUNK,并在步驟1004中搜索現(xiàn)存的英文語料庫CORPE是否出現(xiàn)這一塊。如果發(fā)現(xiàn)對于某一值I,英文對準的語料庫中的塊CORPE[I]等于接收的塊ECHUNK,控制進入在步驟1006,讀取法文語料庫中的對應塊CORPF[I]。在步驟1010中,保存該塊作為所需要的法文譯文(輸出正文218)的一個對應的塊FCHUNK。
如果在步驟1004中未找到當前塊ECHUNK的等價物,則控制進入一個用戶對話步驟1008。在此要求一位翻譯人員提供英文塊ECHUNK的譯文,并在步驟1010中作為譯文FCHUNK保存之。在步驟1012中,在接收的正文ETEXT中標識下一個英語塊,并將控制返回到搜索步驟1004。當翻譯完整個輸入正文ETEXT時,便在步驟1014中將在步驟1010中保存的所有塊FCHUNK連接在一起作為經過翻譯的法語正文FTEXT輸出。
注意,用戶在步驟1008中提供的譯文也可用來擴大現(xiàn)存的數(shù)據(jù)庫,這是通過將不熟悉的英語塊CHUNKE與用戶提供的法文譯文加入對準的語料庫206中而實現(xiàn)的。這種性能在諸如US 5,140,522中有所描述,在這一階段還可以更新統(tǒng)計數(shù)據(jù)庫210,同時注意,作為在執(zhí)行圖10的方法中的“現(xiàn)場”用戶對話的一種替代,也可簡單地在輸出文件FTEXT中加入某些問題,供翻譯人員以后去考慮。此外,在保存翻譯后的塊FCHUNK的步驟1010中可包含諸如為塊ECHUNK與FCHUNK估計一個對準評分的一個步驟,以便確認這的確是一個可能的譯文。如果對準評分下降到一個預定的閾值以下,可以“現(xiàn)場”進入用戶對話或者在輸出文件FTEXT中加入適當?shù)膯栴}。這可起到校正未被圖9中的過濾進程消除的錯誤對準的作用。
熟悉本技術的讀者能夠在上述實施例上發(fā)現(xiàn)許多變型,以及本公開中所建議的分析與估計裝置的許多其它應用。
適用于大型數(shù)據(jù)庫(尤其是塊中包括相對大數(shù)量的字時)的一種變型通過考慮比所有可能的字對少的字對而限制處理工作量。這可用若干方法做到,但一種簡單的步驟便是限制圖6的流程圖中最內層循環(huán)606的范圍K,例如對于某一整數(shù)d,使K從J-d變化到J+d。
然后,不是計數(shù)每一個與當前英文字CORPE[I][J]成對的法文塊的字,而是只考慮與計數(shù)字CORPF[I][K]的一個有限的“窗口”。當當前的英文字下標J隨每次外循環(huán)604的重復而前進時,法文字的“窗口”也隨之前進。當然這一實現(xiàn)最適用于典型句子中的字的次序服從類似規(guī)則的一對語言。對于對準部分中的字數(shù)明顯地不同的語言,可以用適當速率來安排窗口(K值的范圍)的前進,使其相對于K的最大值的位置粗略地與相對于J的最大值的J值匹配。
另一種減少所考慮的對的數(shù)目的技術為省略諸如“the”、“and”等極為常用的字。低頻度的字假定為攜帶較大量的信息。作為一個例子,英文句子“The man killed a big dog”可縮減為“mankilled big dog”而損失很少的含義。
為了在圖6的流程圖中實現(xiàn)這一變化,在字對頻率表(PAIRFREQ,步驟602、604、606)之前生成兩個語料庫的字頻表(FREQE、FREQF步驟602、608、610)是較為方便的。然后,便能用這兩個字頻表來標識要在生成對頻率表中省略的最常用的字。作為替代,可以利用對相同的語料庫或對整個相關語言的事先存在的字頻表。
如果愿意,可以將這兩種(及其它)變化組合在一起。對應的技術可實現(xiàn)在圖8的內循環(huán)806中,以減少組合字對評分去得到一對正文塊的對準評分的工作量。
下面用對附錄的討論來結束本說明,在部分A至G中提出了兩個相對地小的對準的語料庫的一個實例,并且其估計是由上述系統(tǒng)執(zhí)行的。附錄中的語料庫包括一種傳真裝置的操作手冊的內容清單,第一是英語的,而第二則是荷蘭語的。這兩個語料庫分別提出在附錄的A與B中,行號1至30表示兩個語料庫中對準的塊對1至30。在行30中出現(xiàn)一個不正確的對準,其中“sending documents”不是荷蘭短語“problemen oplossen”的英文譯文。通常是這樣的,對準語料庫中別處包含字“problemen”與“oplossen”的全部都是正確對準的,即“troubleshooting”(塊對23與27)。
在附錄的C中,提供了英文語料庫的字頻??梢钥闯觯缱帧皊ending”出現(xiàn)7次而字“confidential”只出現(xiàn)一次。英文語料庫中的總字數(shù)為118 。因此,英文語料庫中字“sending”的出現(xiàn)概率為7除以118或0.059322。
在附錄的D中,提供了荷蘭文語料庫的字頻表。在荷蘭文語料庫中總共有106個字。從而,諸如字“problemen”,具有106個字中4個的頻率,即觀測概率0.037736。注意,在示例系統(tǒng)中,統(tǒng)計數(shù)據(jù)庫不是對大小寫敏感的。這便是,在語料庫的塊23中的“Problemen”與塊6中的“problemen”之間沒有差別。
在附錄中E-1至E-4處,提供了對準的語料庫的字對頻率表,其中總共有427個唯一的字對。所有字對頻率的總數(shù)為510。注意,在正常情況中采用較大詞匯表的語料庫中,出現(xiàn)的字對的數(shù)目會驚人地上升。
附錄D的字對頻率表示出的例子如有4對塊,其中英文塊中包含字“part”而對應的荷蘭文塊中則包含字“en”。對兩個語料庫(附錄中的A與B)的一次快速檢視發(fā)現(xiàn)這一對字出現(xiàn)在對準的塊2、3、5與6中。但是注意,數(shù)據(jù)庫并不表示字“part”與“en”互為譯文。這兩個字只是偶然同時出現(xiàn)在它們各自的語料庫中,因此,存在著在任何一對塊中的純粹隨機出現(xiàn)兩個字的合理的概率。
在附錄中F-1至F-4處,為該示例性語料庫中的427個不同的字對計算與示出了測定兩個字之間的相互關聯(lián)的字對評分。而在附錄的部分D中,字對是按對頻率的次序排列的,在部分E中。它們是按對評分的降序排列的。與頻率表進行比較,便可注意到對于實際上互為譯文的字有十分大的趨勢得到高的評分。評分從24.525490下降到0.383211。然而,并無利用來自附錄的部分A的單個字對的評分來檢驗任何逐字翻譯的精確性的可能性。
反之,在附錄中的G-1至G-2處,獨立地提供了對準的塊以及各塊的對準評分。這些塊對準評分是以圖8的方法通過累計各塊對中的所有字對的對評分而得到的。塊1具有10.071629的評分,表示與整個數(shù)據(jù)庫的統(tǒng)計相比,看起來這兩個對準的塊作為互為譯文是真正有用的。能夠看出,所有的對準的塊對,除了最后一個以外,都具有顯著地超過1的評分。反之,讀者已知其為錯誤的塊對號30只有0.819339的評分。從而,即使在包含至少一個不正確對準的塊對的這一非常小的數(shù)據(jù)庫中,這里所提出的估計技術與裝置也已提供了對不正確譯文的清楚的突出指示。
圖11為用圖形示出該示例性語料庫的30個塊的對準評分的分布的直方圖。垂直軸標出頻率,而水平軸則為了方便而標出對準評分的對數(shù)(以2為底)。例如,對準評分的對數(shù)中的3至4的范圍(水平軸)對應于對準評分本身8至16的范圍。垂直虛線1100表示以對準評分的對數(shù)表示的閾值0,它對應于上面提到的對準評分本身的閾值1(log 1=0)。在閾值線1100的右方,頻率分布的主體清楚地與閾值左方的一個較小的峰值1102分開,這一峰值標示塊對號30的低對準評分。
熟悉本技術的人會理解,取決于統(tǒng)計數(shù)據(jù)庫的內容,其它的閾值可能是理想的甚至是必要的。在許多情況中,如在本實例中,有可能區(qū)分出對準語料庫中的一個對準評分的分布主體及起因于錯誤的對準的一個次要分布。如果這兩種密度明顯地分離,如在本例中那樣,在兩者之間設置閾值便是一件簡單的工作。
在其它情況中,可能有必要采用更精細的方法來設定閾值。這種方法之一為設定一個百分比的閾值,例如,通過選擇最少可能性的5個百分點的對準加以拒絕。然后,相應地設定對準評分閾值,或者可以簡單地蘊含在刪除最壞的5個百分點的對準的操作中。
在某些情況中。甚至希望完全不設置一個硬性的閾值,而采用與一位翻譯人員的對話來決定哪些對準是正確的。然后,系統(tǒng)通過向翻譯人員提出從具有最底的對準評分的塊開始的對準的塊對來進行操作。通常,提出的第一對將是容易地作為錯誤的而加以拒絕的。然后,當提出的塊的對準評分達到較高的值時,便開始向翻譯人員提出雖然正確但碰巧具有相對地低的對準評分的對(例如附錄中G處的例子中的對號2)。
在這一過程中繼續(xù)下去,提出給用戶的大多數(shù)對將是正確的,而這是系統(tǒng)設計員與/或操作員的一種選擇,在哪一點上作出切割,并認為其余的對準是正確的。在任何情況下,利用本發(fā)明,實際上由一位翻譯人員檢驗的數(shù)據(jù)庫的比例已經減少到容易處理的一小部分,而檢驗整個數(shù)據(jù)庫則是不現(xiàn)實地昂貴與費時的。
對于剩下的那些錯誤,使用修正后的語料庫及一個更新后的統(tǒng)計數(shù)據(jù)庫的另一次迭代可能比為少數(shù)剩下的錯誤而強制操作員在搜索中去檢驗多得多的對來消除它們更有效。此外,在消除了少數(shù)錯誤并更新了統(tǒng)計數(shù)據(jù)庫之后,正確但起先評分低的對的對準評分,可在隨后的迭代中改進,因為這時的統(tǒng)計數(shù)據(jù)庫本身是一個較少噪聲的數(shù)據(jù)庫的產物。從而,在第二次迭代上,較少可能向翻譯人員提出實際上正確地對準的對。
再者,上述實現(xiàn)上的許多變型是在熟悉本技術的人員的能力與想象力范圍內的。例如,作為體現(xiàn)在圖6與7中用于獲得字對評分的方法的一種替代,可采用諸如EP-A-0499366所用的方法來得到類似的效果。取決于用來得到字對評分的實際方法,還可能需要適用的組合字對評分以得出對準的句子的評分的方法,例如上述涉及對數(shù)的方法。類似地,在統(tǒng)計學或詞法知識的基礎上,標識具有共同“詞干”的字的預處理技術也可采用,如各種對比文獻中所描述的。上述實例僅供例示之用。[附錄如下]
APPENDIX ATHE ENGLISH CORPUS1 Part 1 Before Starting2 Part 2 Sending and Receiving Documents3 Part 3 Using the Telephone and Copying Features4 Part 4 Using the Memory and Network Features5 Part 5 Reports and User Switches6 Part 6 Maintenance and Troubleshooting7 Installing Your FAX8 A Look at the FAX-260E9 Identifying the Documents You Send10 Before Sending Documents11 Sending Documents12 Receiving Documents13 Different Ways of Dialling14 Using the Telephone with the FAX-260E15 Sending at a Preset Time16 Sending through a Relay Unit17 Sending Confidential Documents18 Polling (Requesting documents from other units)19 Printing Reports and Registration Lists20 Setting the Operating Guidelines21 Caring for Your Fax22 Error Messages and Codes23 Troubleshooting24 Specifications25 Index26 Error Messages and Codes27 Troubleshooting28 Index29 Setting the Operating Guidelines30 Sending DocumentsAPPENDIX B THE DUTCH CORPUS1 Deel 1 Voordat u begint2 Deel 2 Verzenden en ontvangen3 Deel 3 De FAX-260E gebruiken als telefoonkiezer en copier4 Deel 4 FAX-functies5 Deel 5 Rapporten en gebruikersschakelaars6 Deel 6 Onderhoud en problemen oplossen7 Installatie van uw FAX-260E8 De onderdelen van uw FAX-260E9 Identificatie van uw verzonden documenten10 Originelen11 Verzenden12 Ontvangen13 Snel en eenvoudig kiezen14 Gebruik van de FAX-260E als telefoonkiezer15 Verzenden op ingesteld tijdstip16 Verzenden via transit fax-apparaat17 Vertrouweijk verzenden18 Polling(op verzoek documenten van andere fax-apparaten ontvangen)19 Afdrukken van rapporten en lijsten20 Instellen van gebruikersschakelaars21 Onderhoud22 Foutmeldingen en codes23 Problemen oplossen24 Technische gegevens25 Trefwoordenlijst26 Foutmeldingen en codes27 Problemen oplossen28 Trefwoordenlijst29 Vastleggen van gebruikersinstellingen30 Problemen oplossenAPPENDIX C ENGLISH WORD FREQUENCIES8 and8 documents8 the(TOTAL=1l8)7 sending6 part3 a3 troubleshooting3 using2 at2 before2 codes2 error2 fax2 fax-260e2 features2 guidelines2 index2 messages2 operating2 receiving2 reports2 setting2 telephone2 your1 11 21 31 41 51 61 caring1 confidential1 copying1 dialling1 different1 for1 from1 identifying1 installing1 lists1 look1 maintenance1 memory1 network1 of1 other1 polling1 preset1 printing1 registration1 relay1 requesting1 send1 specifications1 starting1 switches1 through1 time1 unit1 units1 user1 ways1 with1 youAPPENDIX D DUTCH WORD FREQUENCIES8 en8 van6 deel (TOTAL=106)5 verzenden4 fax-260e4 oplossen4 problemen3 de3 ontvangen3 uw2 als2 codes2 documenten2 foutmeldingen2 gebruikersschakelaars2 onderhoud2 op2 rapporten2 telefoonkiezer2 trefwoordenlijst1 11 21 31 41 51 61 afdrukken1 andere1 begint1 copier1 eenvoudig1 fax-apparaat1 fax-apparaten1 fax-functies1 gebruik1 gebruiken1 gebruikersinstellingen1 gegevens1 identificatie1 ingesteld1 installatie1 instellen1 kiezen1 lijsten1 onderdelen1 originelen1 polling1 snel1 technische1 tijdstip1 transit1 u1 vastleggen1 vertrouweijk1 verzoek1 verzonden1 via1 voordatAPPENDIX E-WORD PAIR FREQUENCIES7 and en6 part deel(TOTAL=510)6 the van5 and deel5 sending verzenden4 part en4 the de4 the fax-260e3 documents ontvangen3 documents verzenden3 the als3 the telefoonkiezer3 troubleshooting oplossen3 troubleshooting problemen2 a verzenden2 and codes2 and foutmeldingen2 and rapporten2 codes codes2 codes en2 codes foutmeldingen2 documents documenten2 documents van2 error codes2 error en2 error foutmeldingen2 fax-260e de2 fax-260e fax-260e2 fax-260e van2 features deel2 guidelines van2 index trefwoordenlijst2 messages codes2 messages en2 messages foutmeldingen2 operating van2 receiving ontvangen2 reports en2 reports rapporten2 setting van2 telephone als2 telephone de2 telephone fax-260e2 telephone telefoonkiezer2 the deel2 the gebruik2 the uw2 using als2 using de2 using deel2 using fax-260e2 using telefoonkiezer1 1 11 1 begint1 1 deel1 1 u1 1 voordat1 2 21 2 deel1 2 en1 2 ontvangen1 2 verzenden1 3 31 3 als1 3 copier1 3 de1 3 deel1 3 en1 3 fax-260e1 3 gebruiken1 3 telefoonkiezer1 4 41 4 deel1 4 fax-functies1 5 51 5 deel1 5 en1 5 gebruikersschakelaars1 5 rapporten1 6 61 6 deel1 6 en1 6 onderhoud1 6 oplossen1 6 problemen1 a de1 a fax-260e1 a fax-apparaat1 a ingesteld1 a onderdelen1 a op1 a tijdstip1 a transit1 a uw1 a van1 a via1 and 21 and 31 and 41 and 51 and 61 and afdrukken1 and als1 and copier1 and de1 and fax-260e1 and fax-functies1 and gebruiken1 and gebruikersschakelaars1 and lijsten1 and onderhoud1 and ontvangen1 and oplossen1 and problemen1 and telefoonkiezer1 and van1 and verzenden1 at de1 at fax-260e1 at ingesteld1 at onderdelen1 at op1 at tijdstip1 at uw1 at van1 at verzenden1 before 11 before begint1 before deel1 before originelen1 before u1 before voordat1 caring onderhoud1 confidential vertrouweijk1 confidential verzenden1 copying 31 copying als1 copying copier1 copying de1 copying deel1 copying en1 copying fax-260e1 copying gebruiken1 copying telefoonkiezer1 dialling eenvoudig1 dialling en1 dialling kiezen1 dialling snel1 different eenvoudig1 different en1 different kiezen1 different sneli documents 21 documents andere1 documents deel1 documents en1 documents fax-apparaten1 documents identificatie1 documents op1 documents oplossen1 documents originelen1 documents pollingi documents problemen1 documents uw1 documents vertrouweijk1 documents verzoek1 documents verzonden1 fax fax-260e1 fax installatie1 fax onderhoud1 fax uw1 fax van1 fax-260e als1 fax-260e gebruik1 fax-260e onderdelen1 fax-260e telefoonkiezer1 fax-260e uw1 features 31 features 41 features als1 features copier1 features de1 features en1 features fax-260e1 features fax-functies1 features gebruiken1 features telefoonkiezer1 for onderhoud1 from andere1 from documenten1 from fax-apparaten1 from ontvangen1 from op1 from polling1 from van1 from verzoek1 guidelines gebruikersinstellingen1 guidelines gebruikersschakelaars1 guidelines instellen1 guidelines vastleggen1 identifying documenten1 identifying identificatie1 identifying uw1 identifying van1 identifying verzonden1 installing fax-260e1 installing installatie1 installing uw1 installing van1 lists a fdrukken1 1ists en1 lists lijsten1 lists rapporten1 lists van1 look de1 look fax-260e1 look onderdelen1 look uw1 look van1 maintenance 61 maintenance deel1 maintenance en1 maintenance onderhoud1 maintenance oplossen1 maintenance problemen1 memory 41 memory deel1 memory fax-functies1 network 41 network deel1 network fax-functies1 of eenvoudig1 of en1 of kiezen1 of snel1 operating gebruikersinstellingen1 operating gebruikersschakelaars1 operating instellen1 operating vastleggen1 other andere1 other documenten1 other fax-apparaten1 other ontvangen1 other op1 other polling1 other van1 other verzoek1 part 11 part 21 part 31 part 41 part 51 part 61 part als1 part begint1 part copier1 part de1 part fax-260e1 part fax-functies1 part gebruiken1 part gebruikersschakelaars1 part onderhoud1 part ontvangen1 part oplossen1 part problemen1 part rapporten1 part telefoonkiezer1 part u1 part verzenden1 part voordat1 polling andere1 polling documenten1 polling fax-apparaten1 polling ontvangen1 polling op1 polling polling1 polling van1 polling verzoek1 preset ingesteld1 preset op1 preset tijdstip1 preset verzenden1 printing afdrukken1 printing en1 printing lijsten1 printing rapporten1 printing van1 receiving 21 receiving deel1 receiving en1 receiving verzenden1 registration afdrukken1 registration en1 registration lijsten1 registration rapporten1 registration van1 relay fax-apparaat1 relay transit1 relay verzenden1 relay via1 reports 51 reports afdrukken1 reports deel1 reports gebruikersschakelaars1 reports lijsten1 reports van1 requesting andere1 requesting documenten1 requesting fax-apparaten1 requesting ontvangen1 requesting op1 requesting polling1 requesting van1 requesting verzoek1 send documenten1 send identificatie1 send uw1 send van1 send verzonden1 sending 21 sending deel1 sending en1 sending fax-apparaat1 sending ingesteld1 sending ontvangen1 sending op1 sending oplossen1 sending originelen1 sending problemen1 sending tijdstip1 sending transit1 sending vertrouweijk1 sending via1 setting gebruikersinstellingen1 setting gebruikersschakelaars1 setting instellen1 setting vastleggen1 specifications gegevens1 specifications technische1 starting 11 starting begint1 starting deel1 starting u1 starting voordat1 switches 51 switches deel1 switches en1 switches gebruikersschakelaars1 switches rapporten1 telephone 31 telephone copier1 telephone deel1 telephone en1 telephone gebruik1 telephone gebruiken1 telephone van1 the 31 the 41 the copier1 the documenten1 the en1 the fax-functies1 the gebruiken1 the gebruikersinstellingen1 the gebruikersschakelaars1 the identificatie1 the instellen1 the onderdelen1 the vastleggen1 the verzonden1 through fax-apparaat1 through transit1 through verzenden1 through via1 time ingesteld1 time op1 time tijdstip1 time verzenden1 troubleshooting 61 troubleshooting deel1 troubleshooting en1 troubleshooting onderhoud1 unit fax-apparaat1 unit transit1 unit verzenden1 unit via1 units andere1 units documenten1 units fax-apparaten1 units ontvangen1 units op1 units polling1 units van1 units verzoek1 user 51 user deel1 user en1 user gebruikersschakelaars1 user rapporten1 using 31 using 41 using copier1 using en1 using fax-functies1 using gebruik1 using gebruiken1 using van1 ways eenvoudig1 ways en1 ways kiezen1 ways snel1 with als1 with de1 with fax-260e1 with gebruik1 with telefoonkiezer1 with van1 you documenten1 you identificatie1 you uw1 you van1 you verzonden1 your fax-260e1 your installatie1 your onderhoud1 your uw1 your vanAPPENDIX F-WORD PAIR CORRELATION SCORES24.525490 1 124.525490 1 begint24.525490 1 u24.525490 1 voordat24.525490 2 224.525490 3 324.525490 3 copier24.525490 3 gebruiken24.525490 4 424.525490 4 fax-functies24.525490 5 524.525490 6 624.525490 confidential vertrouweijk24.525490 copying 324.525490 copying copier24.525490 copying gebruiken24.525490 dialling eenvoudig24.525490 dialling kiezen24.525490 dialling snel24.525490 different eenvoudig24.525490 different kiezen24.525490 different snel24.525490 from andere24.525490 from fax-apparaten24.525490 from polling24.525490 from verzoek24.525490 identifying identificatie24.525490 identifying verzonden24.525490 installing installatie24.525490 lists afdrukken24.525490 lists lijsten24.525490 look onderdelen24.525490 maintenance 624.525490 memory 424.525490 memory fax-functies24.525490 network 424.525490 network fax-functies24.525490 of eenvoudig24.525490 of kiezen24.525490 of snel24.525490 other andere24.525490 other fax-apparaten24.525490 other polling24.525490 other verzoek24.525490 polling andere24.525490 polling fax-apparaten24.525490 polling polling24.525490 polling verzoek24.525490 preset ingesteld24.525490 preset tijdstip24.525490 printing afdrukken24.525490 printing lijsten24.525490 registration afdrukken24.525490 registration lijsten24.525490 relay fax-apparaat24.525490 relay transit24.525490 relay via24.525490 requesting andere24.525490 requesting fax-apparaten24.525490 requesting polling24.525490 requesting verzoek24.525490 send identificatie24.525490 send verzonden24.525490 specifications gegevens24.525490 specifications technische24.525490 starting 124.525490 starting begint24.525490 starting u24.525490 starting voordat24.525490 switches 524.525490 through fax-apparaat24.525490 through transit24.525490 through via24.525490 time ingesteld24.525490 time tijdstip24.525490 unit fax-apparaat24.525490 unit transit24.525490 unit via24.525490 units andere24.525490 units fax-apparaten24.525490 units polling24.525490 units verzoek24.525490 user 524.525490 ways eenvoudig24.525490 ways kiezen24.525490 ways snel24.525490 with gebruik24.525490 you identificatie24.525490 you verzonden12.262745 3 als12.262745 3 telefoonkiezer12.262745 5 gebruikersschakelaars12.262745 5 rapporten12.262745 6 onderhoud12.262745 at ingesteld12.262745 at onderdelen12.262745 at tijdstip12.262745 before 112.262745 before begint12.262745 before originelen12.262745 before u12.262745 before voordat12.262745 caring onderhoud12.262745 codes codes12.262745 codes foutmeldingen12.262745 copying als12.262745 copying telefoonkiezer12.262745 error codes12.262745 error foutmeldingen12.262745 fax installatie12.262745 fax-260e gebruik12.262745 fax-260e onderdelen12.262745 features 312.262745 features 412.262745 features copier12.262745 features fax-functies12.262745 features gebruiken12.262745 for onderhoud12.262745 from documenten12.262745 from op12.262745 guidelines gebruikersinstellingen12.262745 guidelines instellen12.262745 guidelines vastleggen12.262745 identifying documenten12.262745 index trefwoordenlijst12.262745 lists rapporten12.262745 maintenance onderhoud12.262745 messages codes12.262745 messages foutmeldingen12.262745 operating gebruikersinstellingen12.262745 operating instellen12.262745 operating vastleggen12.262745 other documenten12.262745 other op12.262745 polling documenten12.262745 polling op12.262745 preset op12.262745 printing rapporten12.262745 receiving 212.262745 registration rapporten12.262745 reports 512.262745 reports afdrukken12.262745 reports lijsten12.262745 reports rapporten12.262745 requesting documenten12.262745 requesting op12.262745 send documenten12.262745 setting gebruikersinstellingen12.262745 setting instellen12.262745 setting vastleggen12.262745 switches gebruikersschakelaars12.262745 switches rapporten12.262745 telephone 312.262745 telephone als12.262745 telephone copier12.262745 telephone gebruik12.262745 telephone gebruiken12.262745 telephone telefoonkiezer12.262745 time op12.262745 units documenten12.262745 units op12.262745 user gebruikersschakelaars12.262745 user rapporten12.262745 with als12.262745 with telefoonkiezer12.262745 you documenten12.262745 your installatie8.175163 2 ontvangen8.175163 3 de8.175163 a fax-apparaat8.175163 a ingesteld8.175163 a onderdelen8.175163 a tijdstip8.175163 a transit8.175163 a via8.175163 copying de8.175163 fax-260e de8.175163 from ontvangen8.175163 identifying uw8.175163 installing uw8.175163 look de8.175163 look uw8.175163 other ontvangen8.175163 polling ontvangen8.175163 receiving ontvangen8.175163 requesting ontvangen8.175163 send uw8.175163 telephone de8.175163 troubleshooting 68.175163 units ontvangen8.175163 using 38.175163 using 48.175163 using als8.175163 using copier8.175163 using fax-functies8.175163 using gebruik8.175163 using gebruiken8.175163 using telefoonkiezer8.175163 with de8.175163 you uw6.131373 3 fax-260e6.131373 6 oplossen6.131373 6 problemen6.131373 at op6.131373 copying fax-260e6.131373 fax onderhoud6.131373 fax-260e als6.131373 fax-260e fax-260e6.131373 fax-260e telefoonkiezer6.131373 features als6.131373 features telefoonkiezer6.131373 guidelines gebruikersschakelaars6.131373 installing fax-260e6.131373 look fax-260e6.131373 maintenance oplossen6.131373 maintenance problemen6.131373 operating gebruikersschakelaars6.131373 reports gebruikersschakelaars6.131373 setting gebruikersschakelaars6.131373 telephone fax-260e6.131373 the gebruik6.131373 troubleshooting oplossen6.131373 troubleshooting problemen6.131373 with fax-260e6.131373 your onderhoud5.450109 using de4.905098 2 verzenden4.905098 confidential verzenden4.905098 preset verzenden4.905098 relay verzenden4.905098 through verzenden4.905098 time verzenden4.905098 unit verzenden4.598529 the als4.598529 the telefoonkiezer4.087582 1 deel4.087582 2 deel4.087582 3 deel4.087582 4 deel4.087582 5 deel4.087582 6 deel4.087582 a op4.087582 at de4.087582 at uw4.087582 copying deel4.087582 fax uw4.087582 fax-260e uw4.087582 features de4.087582 features deel4.087582 maintenance deel4.087582 memory deel4.087582 network deel4.087582 part 14.087582 part 24.087582 part 34.087582 part 44.097582 part 54.087582 part 64.087582 part begint4.087582 part copier4.087582 part deel4.087582 part fax-functies4.087582 part gebruiken4.087582 part u4.087582 part voordat4.087582 starting deel4.087582 switches deel4.087582 the de4.087582 troupleshooting onderhoud4.087582 user deel4.087582 usinp fax-260e4.097582 your uw3.503641 sending 23.503641 sending fax-apparaat3.503641 sending ingesteld3.503641 sending originelen3.503641 sending tijdstip3.503641 sending transit3.503641 sending vertrouweijk3.503641 sending verzenden3.503641 sending via3.270065 a verzenden3.065686 2 en3.065686 3 en3.065686 5 en3.065686 6 en3.065686 and 23.065686 and 33.065686 and 43.065686 and 53.065686 and 63.065686 and afdrukken3.065686 and codes3.065686 and copier3.065686 and fax-functies3.065686 and foutmeldingen3.065686 and gebruiken3.065686 and lijsten3.065686 and rapporten3.065686 at fax-260e3.065686 codes en3.065686 copying en3.065686 dialling en3.065686 different en3.065686 documents 23.065686 documents andere3.065686 documents documenten3.065686 documents fax-apparaten3.065686 documents identificatie3.065686 documents ontvangen3.065686 documents originelen3.065686 documents polling3.065686 documents vertrouweijk3.065686 documents verzoek3.065686 documents verzonden3.065686 error en3.065686 fax fax-260e3.065686 fax-260e van3.065686 features fax-260e3.065686 from van3.065686 guidelines van3.065686 identifying van3.065686 installing van3.065686 litsts en3.065686 lists van3.065686 look van3.065686 maintenance en3.065686 messages en3.065686 of en3.065686 operating van3.065686 other van3.065686 polling van3.065686 printing en3.065686 printing van3.065686 registration en3.065686 registration van3.065686 reports en3.065686 requesting van3.065686 send van3.065686 setting van3.065686 switches en3.065686 the 33.065686 the 43.065686 the copier3.065686 the fax-260e3.065686 the fax-functies3.065686 the gebruiken3.065686 the gebruikersinstellingen3.065686 the identificatie3.065686 the instellen3.065686 the onderdelen3.065686 the vastleggen3.065686 the verzonden3.065686 units van3.065686 user en3.065686 ways en3.065686 with van3.065686 you van3.065686 your fax-260e2.725054 a de2.725054 a uw2.725054 using deel2.682475 and en2.554739 and deel2.452549 at verzenden2.452549 receiving verzenden2.299265 the van2.043791 a fax-260e2.043791 before deel2.043791 part als2.043791 part en2.043791 part gebruikersschakelaars2.043791 part onderhoud2.043791 part rapporten2.043791 part telefoonkiezer2.043791 receiving deel2.04379l reports deel2.043791 telephone deel2.043791 the uw1.839412 documents verzenden1.751821 sending op1.532843 and als1.532843 and gebruikersschakelaars1.532843 and onderhoud1.532843 and telefoonkiezer1.532843 at van1.532843 documents op1.532843 fax van1.532843 features en1.532843 receiving en1.532843 reports van1.532843 telephone en1.532843 telephone van1.532843 the documenten1.532843 the gebruikersschakelaars1.532843 your van1.362527 part de1.362527 part ontvangen1.362527 troubleshooting deel1.167880 sending ontvangen1.021895 a van1.021895 and de1.021895 and ontvangen1.021895 documents uw1.021895 part fax-260e1.021895 part oplossen1.021895 part problemen1.021895 the deel1.021895 troubleshooting en1.021895 using en1.021895 using van0.875910 sending oplossen0.875910 sending problemen0.817516 part verzenden0.766422 and fax-260e0.766422 and oplossen0.766422 and problemen0.766422 documents oplossen0.766422 documents problemen0.766422 documents van0.613137 and verzenden0.583940 sending deel0.510948 documents deel0.437955 sending en0.383211 and van0.383211 documents en0.383211 the enAPPENDIX G-1 SCORES FOR ALIGNED CHUNKSPart 1 Before StartingDeel 1 Voordat u begintscore=10.071629Part 2 Sending and Receiving DocumentsDeel 2 Verzenden en ontvangenscore=2.285732Part 3 Using the Telephone and Copying FeaturesDeel 3 De FAX-260E gebruiken als telefoonkiezer en copierscore=4.727727Part 4 Using the Memory and Network FeaturesDeel 4 FAX-functiesscore=6.443163Part 5 Reports and User SwitchesDeel 5 Rapporten en gebruikersschakelaarsscore=5.372271Part 6 Maintenance and TroubleshootingDeel 6 Onderhoud en problemen oplossenscore=3.598853Installing Your FAXInstallatie van uw FAX-260Escore=4.935864A Look at the FAX-260EDe onderdelen van uw FAX-260Escore=4.253443Identifying the Documents You SendIdentificatie van uw verzonden documentenscore=5.746231Before Sending DocumentsOriginelenscore=5.087975Sending DocumentsVerzendenscore=2.538629Receiving DocumentsOntvangenscore=5.006244Different Ways of DiallingSnel en eenvoudig kiezenscore=14.582943Using the Telephone with the FAX-260EGebruik van de FAX-260E als telefoonkiezerscore=5.621435Sending at a Preset TimeVerzenden op ingesteld tijdstipscore=7.327703Sending through a Relay UnitVerzenden via transit fax-apparaatscore=10.009936APPENDIX G-2Sending Confidential DocumentsVertrouweijk verzendenscore=4.502135Polling(Requesting documents from other units)Polling(op verzoek documenten van andere fax-apparaten ontvangen)score=10.322900Printing Reports and Registration ListsAfdrukken van rapporten en lijstenscore=6.270169Setting the Operating GuidelinesInstellen van gebruikersschakelaarsscore=4.751194Caring for Your FaxOnderhoudscore=8.671070Error Messages and CodesFoutmeldingen en codesscore=6.063523TroubleshootingProblemen oplossenscore=6.131373SpecificationsTechnische gegevensscore=24.525490IndexTrefwoordenlijstscore=12.262745Error Messages and CodesFoutmeldingen en codesscore=6.063523TroubleshootingProblemen oplossenscore=6.131373IndexTrefwoordenlijstscore=12.262745Setting the Operating GuidelinesVastleggen van gebruikersinstellingenscore=5.986130Sending DocumentsProblemen oplossenscore=0.819339
權利要求
1.一種操作用于處理一個兩種文字對照的數(shù)據(jù)庫的處理裝置的方法,包括下述步驟在該裝置中存儲一個包括第一與第二對準的語料庫(正文信息本體)的數(shù)據(jù)庫,各語料庫是分成多個部分的,使得第一語料庫的部分的至少一個子集是用與第二語料庫的對應部分的一種對應關系標識的,各部分是進一步分成一個或多個基元部分(“字”)的;以及分析對準的語料庫以得出一個統(tǒng)計數(shù)據(jù)庫;其特征在于使用該統(tǒng)計數(shù)據(jù)庫,為選自對準的語料庫的對準部分估計一個相互關聯(lián)測定值從對準的部分的相互關聯(lián)測定值中,標識未必可信的對準的事例;以及通過修正對準的語料庫來至少消除最不可信的對準,而糾正所標識的不正確對準。
2.權利要求1中提出的一種方法,還包括按照對準的語料庫的修正,更新統(tǒng)計數(shù)據(jù)庫。
3.一種處理一個兩種文字對照的數(shù)據(jù)庫的方法,包括用根據(jù)權利要求2的一種方法修正對準的語料庫,以及重復該方法至少一次,用更新后的統(tǒng)計數(shù)據(jù)庫再一次修正經過修正的語料庫。
4.權利要求1、2或3中提出的一種方法,其中的修正步驟包括與一位翻譯人員的交互對話,來檢驗標識的未必可信的對準是不正確的。
5.前面任何一項權利要求中所提出的一種方法,還包括接收正文的更多的對準的部分對,并擴大對準的語料庫與統(tǒng)計數(shù)據(jù)庫,將接收的部分包括進來。
6.權利要求5中提出的一種方法,其中為各更多的部分對估計所述相互關聯(lián)的測定值,并且取決于所述估計的結果,有條件地擴大對準的語料庫。
7.前面任何一項權利要求中所提出的一種方法,其中所述估計步驟包括利用統(tǒng)計數(shù)據(jù)庫,為從每一個語料庫中選取一個字的一個字對推算出觀測到的相互關聯(lián)的一個測定值;以及通過組合包含在該部分對中的字對的推算出的相互關聯(lián)測定值,估計這兩個部分的相互關聯(lián)的所述測定值。
8.權利要求7中提出的一種方法,其中所述字對相互關聯(lián)測定值是在不推算該對中的任一個字是另一個的真實譯文的概率的情況下推算的。
9.權利要求7或8中提出的一種方法,其中字對的相互關聯(lián)測定值的組合是不考慮一對中的字在它們各自的部分中的位置而執(zhí)行的。
10.權利要求7或8中提出的一種方法,其中字對的相互關聯(lián)測定值的組合是限制在出現(xiàn)在它們各自的正文部分中的大致上對應的位置上的字對的。
11.權利要求7、8、9或10中提出的一種方法,其中為了字對相互關聯(lián)測定值的組合,標識及略去了某些常用字。
12.權利要求7至11中任何一項所提出的一種方法,其中推算字對相互關聯(lián)測定值的步驟包括為一對中的各字推算在其各自的語料庫中找到該字的觀測概率的測定值;為各選擇的字對推算在語料庫的對準部分中找到該字對的觀測概率的測定值;以及用單個字的概率組合對的概率,以推算對中的字之間的相互關聯(lián)的所述測定值。
13.前面的任何權利要求中所提出的一種方法,其中該統(tǒng)計數(shù)據(jù)庫包括用于各語料庫的一張字頻表用于作為一個整體的對準的語料庫的一張字對頻率表,計數(shù)一個給定的字對(各語料庫一個字)出現(xiàn)在語料庫的對準部分中的次數(shù)。
14.權利要求13中提出的一種方法,其中所述字對頻率是不考慮各部分中字的位置,而對各對正文部分的所有字對計數(shù)的。
15.權利要求13中提出的一種方法,其中的字對的計數(shù)是限制在出現(xiàn)在語料庫的它們各自的對準部分中的大致上對應的位置上的那些字對的。
16.權利要求13、14或15中提出的一種方法,其中為了字對的計數(shù),而標識與略去某些常用字。
17.一種操作一個處理裝置將一篇源正文從一種源語言自動翻譯成一種目標語言的方法,包括在該裝置中存儲一個包括源與目標語言的對準的語料庫的兩種文字對照的數(shù)據(jù)庫用根據(jù)權利要求1-16中任何一項的的一種方法修正對準的語料庫;將源正文劃分成部分;在源語言的對準的語料庫中搜索與源正文部分匹配的部分;以及(i)對于找到匹配的源正文部分,輸出目標語言語料庫中的對應部分,作為供包含進一個輸出正文中的譯文;以及(ii)對于找不到匹配的部分,輸出一則查詢報文,表示未進行翻譯。
18.一種操作用于處理一個兩種文字對照的數(shù)據(jù)庫的處理裝置的方法,包括下述步驟在該裝置中存儲一個包括第一與第二對準的語料庫(正文信息本體)的數(shù)據(jù)庫,各語料庫是分成部分的,使得第一語料庫的部分的至少一個子集被與第二語料庫的對應部分的一種對應關系所標識,各部分是進一步分成一個或多個基元部分(“字”)的;分析對準的語料庫以得到一個統(tǒng)計數(shù)據(jù)庫以及利用該統(tǒng)計數(shù)據(jù)庫,為從各語料庫中選出一個字的一個字對,推算觀測的相互關聯(lián)的一個測定值,其特征在于該方法還包括通過組合包含在各部分對中的字對的推算出的相互關系測定值,為一個給定的正文部分對(兩種自然語言中每種一個部分)估計部分的相互關聯(lián)的一個測定值。
19.權利要求18中提出的一種方法,其中所述字對相互關聯(lián)測定值是在不推算一對中的任一字真實地是另一個字的譯文的概率的情況中推算的。
20.權利要求18或19中提出的一種方法,其中的字對相互關聯(lián)測定值的組合是在不考慮一對中的字在它們各自的部分中的位置的情況中執(zhí)行的。
21.權利要求18或19中提出的一種方法,其中的字對相互關聯(lián)測定值的組合是限制在出現(xiàn)在它們各自的正文部分中大致上對應的位置上的那些字對的。
22.權利要求18至21中任何一項中提出的一種方法,其中為了組合字對相互關聯(lián)的測定值,標識與略去了某些常用字。
23.權利要求18至22中任何一項中提出的一種方法,其中的推算字對相互關聯(lián)測定值的步驟包括為一對中的各字推算在其各自語料庫中找到該字的觀測到的概率的一個測定值;為各選擇的字對,推算在語料庫的對準部分中找到該字對的觀測到的概率的一個測定值;以及用單個字的概率組合對的概率,以推算對中的字之間的相互關聯(lián)的所述測定值。
24.權利要求18至23中任何一項中提出的一種方法,其中的統(tǒng)計數(shù)據(jù)庫包括各語料庫的一張字頻表;作為一個整體的對準語料庫的一張字對頻率表,計數(shù)一個給定的字對(每一個語料庫一個字)出現(xiàn)在語料庫的對準部分中的次數(shù)。
25.權利要求24中提出的一種方法,其中所述字對頻率是在不考慮各部分內的字的位置的情況中,為各正文部分對的所有字對計數(shù)的。
26.權利要求24中提出的一種方法,其中的字對計數(shù)是限制在出現(xiàn)在它們各自的語料庫的對準部分中大致上對應的位置上的字對的。
27.權利要求24、25或26中提出的一種方法,其中為了字對的計數(shù),標識與略去了某些常用字。
28.一種操作一個處理裝置將一個源正文從一種源語言自動翻譯成一種目標語言的方法,包括在該裝置中存儲包含源與目標語言的對準的語料庫的兩種文字對照的數(shù)據(jù)庫;將源正文劃分成部分;得出一個候選目標語言部分形式的各源正文部分的候選譯文;通過用按照權利要求18至27中任何一項的方法,為源語言部分與候選目標語言部分估計一個相互關聯(lián)測定值,而檢驗該譯文;輸出經過檢驗的候選部分,供包含進一個目標正文中。
29.權利要求28中提出的一種方法,其中的檢驗步驟包含將一個閾值作用在一個候選部分的相互關聯(lián)測定值上。
30.權利要求28或29中提出的一種方法,還包括輸出一則表示并未為源語言部分作出經過檢驗的譯文的查詢報文。
31.權利要求17、28、29或30中提出的一種方法,其中翻譯部分與查詢報文(如果有的話)是作為一個單一的輸出正文的一部分連接與一起輸出的,以供其它裝置定稿。
32.一種處理裝置,包括用于實現(xiàn)按照前面的任何一項權利要求的一種方法的步驟的裝置。
33.一種存儲設備,其中存儲了經過按照權利要求1至16中任何一項所提出的操作的一種處理裝置修正過的一個兩種文字對照的數(shù)據(jù)庫。
34.一種自動化翻譯系統(tǒng),包括權利要求32中所提出的一種裝置。
35.一種自動化翻譯系統(tǒng),其中存儲了經過按照權利要求1至16中任何一項操作的一個裝置修正過的數(shù)據(jù)庫。
全文摘要
生成或從外部源接收對準的語料庫(206,CORPE,CORPF)。各語料庫包括與另一語料庫的相應部分對準的部分,它們是兩種自然語言的互為譯文。編制一個統(tǒng)計數(shù)據(jù)庫(210),估計模塊(212)為從各語料庫中選出一個字的字對計算相互關聯(lián)評分。給定一個正文部分對(每一種語言中一個部分),估計模塊(212)組合字對相互關聯(lián)評分以得出該正文部分的對準評分。這些對準評分可用于檢驗一個譯文(230)與/或修正對準的語料庫(206)以消除不可信的對準。
文檔編號G06F17/28GK1110882SQ9419039
公開日1995年10月25日 申請日期1994年6月17日 優(yōu)先權日1993年6月18日
發(fā)明者T·F·奧唐諾休 申請人:歐洲佳能研究中心有限公司, 歐洲佳能有限公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1