專利名稱::翻譯系統(tǒng)中用于匹配雙語文本和增加準(zhǔn)確性的方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及機(jī)器翻譯領(lǐng)域并且構(gòu)建了一種翻譯系統(tǒng)中用于匹配雙語文本和增加準(zhǔn)確性的方法。
背景技術(shù):
:用于將一種自然語言翻譯成另一種語言的自動翻譯(機(jī)器翻譯,MT)的許多技術(shù)基于使用現(xiàn)有的雙語文本庫,也就是文本和由人翻譯到一種或多種其它語言的翻譯,它們自動從這些文本和其翻譯學(xué)習(xí)或歸納翻譯規(guī)則,例如靜態(tài)MT(SMT)的方法所做的,或者將這些文本和其翻譯作為適當(dāng)?shù)膶嵗⒖梢越M合到新的翻譯之中的片段(基于實例的MT或EBMT)。一種EBMT的方法通過首先找到單個的最佳-匹配的雙語實例來組合翻譯,如在[美國專利申請20060004560,基于現(xiàn)有翻譯庫進(jìn)行翻譯的方法和設(shè)備(Methodandapparatusfortranslationbasedonarepositoryofexistingtranslations)]和[Sumita,2003,基于實例的機(jī)器翻譯的最新發(fā)展(RecentAdvancesinExample-BasedMachineTranslation),M.Carl和A.Way(eds.),KluwerAcademic]中所述。將輸入的句子與實例近似匹配.該匹配的結(jié)果是在輸入和實例之間的對齊(alignment),所述對齊包括在相同的語段(stretch)(匹配的語段)之間的子對齊和在不相同的語段(不匹配的語段)之間的子對齊.隨后可以用輸入中的不匹配的語段的翻譯替代實例的目標(biāo)方中不匹配的語段的翻譯,該實例作為模板,該模板是結(jié)構(gòu)良好(well-formed)和消除歧義的并且可以用作構(gòu)造翻譯的其余部分的基本基礎(chǔ).但是,該技術(shù)的成功依賴于能夠在所述現(xiàn)有翻譯庫中找到源方與輸入很相似的實例,當(dāng)前技術(shù)假定相似性能夠單獨根據(jù)源語言充分定義,但是存在很多在源語言中相似的表達(dá)翻譯為另一種語言很不相同的實例。開放文學(xué)作品包含EBMT系統(tǒng)的許多實例,該EBMT系統(tǒng)采用辭典信息來確定輸入句子和所存實例的相似性。[Su邁ita,2003,op.cit]示出當(dāng)匹配輸入和實例的時候,即使源方句法和語意上接近,單語辭典也可能不夠用.這是因為它們的翻譯可能在目標(biāo)語言方面顯著不同,他的解決方案是改善辭典或增加實例,但是,他的辭典仍然基本上是單語的,并且是依照數(shù)據(jù)庫中的特定實例進(jìn)行的改善,而不是基于目標(biāo)語言單詞的相似性進(jìn)行的改善.已經(jīng)找到最佳匹配之后,Sumita的方法依賴于具有明確的單個單詞翻譯的雙語辭典以便替換不匹配的部分.它不能消除字典條目的歧義,也不允許包含若千單詞或搭配的條目.希望通過檢測輸入文本和所存翻譯的源方中的那些盡管表面相似但是具有不同的翻譯的元素來改進(jìn)輸入文本和現(xiàn)有翻譯庫的匹配.還希望使用所述實例的目標(biāo)方中不匹配的語段的翻譯來輔助確定輸入中的不匹配的語段的翻譯的范圍和意義。
發(fā)明內(nèi)容依照本發(fā)明的第一方面,提供了一種機(jī)器翻譯的方法,該方法使用包括多個雙語文本的庫將采用源語言的輸入文本翻譯成采用目標(biāo)語言的輸出文本,所述多個雙語文本每一個包括的源語言文本與其目標(biāo)語言的翻譯成對,該方法包括(a)使用雙語資源分析雙語文本庫以將來自雙語資源的信息與所述庫中至少一些雙語文本的相應(yīng)源語言方相關(guān)聯(lián),或至少使用已經(jīng)用這樣的方式預(yù)先分析過的雙語文本庫;(b)使用雙語資源分析輸入文本以便將來自雙語資源的信息與該輸入文本相關(guān)聯(lián);(c)從所述庫中選擇要用作確定輸入文本的翻譯的基礎(chǔ)的雙語文本;(d)使用與輸入文本相關(guān)聯(lián)的信息和與在步驟(c)中所選擇的雙語文本的源方相關(guān)聯(lián)的信息,識別在步驟(c)中所選擇的雙語文本的源方的與對應(yīng)的輸入文本的相應(yīng)部分不同的部分,將那些部分指定為不匹配部分;(e)識別在步猓(c)中所選擇的雙語文本的目標(biāo)方中作為該雙語文本的源方的所述不匹配部分的相應(yīng)翻譯的那些部分;(f)確定輸入文本的所述不匹配部分的相應(yīng)翻譯;(g)用在步驟(f)中確定的翻譯替換在步艱(e)中所識別的雙語文本的目標(biāo)方的所述部分;和(h)使用步驟(g)的結(jié)果作為輸入文本的翻譯,或者至少作為其基礎(chǔ).依照本發(fā)明的第二方面,提供了一種選擇雙語文本作為機(jī)器翻譯的基礎(chǔ)的方法,該機(jī)器翻譯使用包括多個雙語文本的庫將采用源語言的輸入文本翻譯成采用目標(biāo)語言的輸出文本,所述多個雙語文本每一個包括的源語言文本與其目標(biāo)語言的翻譯成對,該方法包括(a)使用雙語資源分析雙語文本庫以將來自雙語資源的信息與該庫中至少一些雙語文本的相應(yīng)源語言方相關(guān)聯(lián),或者至少使用已經(jīng)以這樣的方式分析過的雙語文本庫;(b)使用雙語資源分析輸入文本以便將來自雙語資源的信息與輸入文本相關(guān)聯(lián);(c)依賴于與輸入文本相關(guān)聯(lián)的信息和與相應(yīng)雙語文本的源方相關(guān)聯(lián)的信息,從該庫中選擇將要用作確定該輸入文本的翻譯的基礎(chǔ)的雙語文本.依照本發(fā)明的第三方面,提供了一種用于使用包括多個雙語文本的庫將采用源語言的輸入文本翻譯成采用目標(biāo)語言的輸出文本的設(shè)備,所述多個雙語文本每一個包括的源語言文本與其目標(biāo)語言的翻譯成對,該設(shè)備包括(a)用于使用雙語資源分析雙語文本庫以將來自雙語資源的信息與所述庫中至少一些雙語文本的相應(yīng)源語言方相關(guān)聯(lián)或至少使用已經(jīng)用這樣的方式預(yù)先分析過的雙語文本庫的裝置;(b)用于使用雙語資源分析輸入文本以便將來自雙語資源的信息與該輸入文本相關(guān)聯(lián)的裝置;(c)用于從所述庫中選擇要用作確定輸入文本的翻譯的基礎(chǔ)的雙語文本的裝置;(d)用于使用與輸入文本相關(guān)聯(lián)的信息和與通過裝置(c)選擇的雙語文本的源方相關(guān)聯(lián)的信息識別通過裝置(c)選擇的雙語文本的源方的與對應(yīng)的輸入文本的相應(yīng)部分不同的部分的裝置,將那些部分指定為不匹配部分;(e)用于識別通過裝置(c)選擇的雙語文本的目標(biāo)方中作為該雙語文本的源方的所述不匹配部分的相應(yīng)翻譯的那些部分的裝置;(f)用于確定輸入文本的所述不匹配部分的相應(yīng)翻譯的裝置;(g)用于用通過裝置(f)確定的翻譯替換通過裝置(e)識別的雙語文本的目標(biāo)方的所述部分的裝置;和(h)用于使用裝置(g)的結(jié)果作為輸入文本的翻譯或者至少作為其基礎(chǔ)的裝置。依照本發(fā)明的第四方面,提供了一種用于選擇雙語文本作為機(jī)器翻譯的基礎(chǔ)的設(shè)備,該機(jī)器翻譯使用包括多個雙語文本的庫將采用源語言的輸入文本翻譯成采用目標(biāo)語言的輸出文本,所述多個雙語文本每一個包括的源語言文本與其目標(biāo)語言的翻譯成對,該設(shè)備包括(a)用于使用雙語資源分析雙語文本庫以將來自雙語資源的信息與該庫中至少一些雙語文本的相應(yīng)源語言方相關(guān)聯(lián)或者至少使用已經(jīng)以這樣的方式分析過的雙語文本庫的裝置;(b)用于使用雙語資源分析輸入文本以便將來自雙語資源的信息與輸入文本相關(guān)聯(lián)的裝置;(c)用于依賴于與輸入文本相關(guān)聯(lián)的信息和與相應(yīng)雙語文本的源方相關(guān)聯(lián)的信息從該庫中選擇將要用作確定該輸入文本的翻譯的基礎(chǔ)的雙語文本的裝置.在所附權(quán)利要求中闡述了本發(fā)明的優(yōu)選實施例.依照本發(fā)明的第五方面,提供了用于控制設(shè)備以執(zhí)行依照本發(fā)明的第一或第二方面的方法的程序,或者當(dāng)加栽到設(shè)備中時使設(shè)備變成依照本發(fā)明的第三或第四方面的設(shè)備的程序,該程序可以裝栽在栽體介質(zhì)上.該栽體介質(zhì)可以是存儲介質(zhì).該栽體介質(zhì)可以是傳輸介質(zhì)。依照本發(fā)明的第六方面,提供了由依照本發(fā)明的第五方面的程序編程的設(shè)備。依照本發(fā)明的第七方面,提供了包含依照本發(fā)明的笫五方面的程序的存儲介質(zhì).本發(fā)明的實施例使得可以更準(zhǔn)確地確定在輸入和所存翻譯的源方之間的相似性,并且同時可以更精確地確定匹配的語段和不匹配的語段的范圍,這將改進(jìn)翻譯的準(zhǔn)確度。另外,本發(fā)明的實施例使得可以確定關(guān)于在匹配的所存實例的源方?jīng)]有出現(xiàn)的輸入中的表達(dá)的意思的信息,并且從而改進(jìn)該表達(dá)的翻譯。圖l是示出體現(xiàn)本發(fā)明的翻譯設(shè)備的模塊結(jié)構(gòu)的示意圖.圖2是示出由這個實施例中的翻譯設(shè)備執(zhí)行的步驟的流程圖.圖3示出用于本發(fā)明的實施例中的算法.圖4是示出體現(xiàn)本發(fā)明的翻譯設(shè)備的模塊結(jié)構(gòu)的示意圖。具體實施例方式現(xiàn)在將參考圖1描述體現(xiàn)本發(fā)明的用于將源語言的輸入句子翻譯為目標(biāo)語言的輸出句子的設(shè)備.雙語文本的集合(Sl)經(jīng)歷由雙文本(bitext)注解器(S2)參考雙語資源(S3)進(jìn)行的處理,后者聯(lián)合在字典或辭典中找到的表示特性的信息。所述信息包括多個字典條目,每個條目指定在兩種語言的每一種中的一個或多個單詞之間的翻譯關(guān)系,該辭典信息是代碼.所述代碼使得任何代碼對能夠被比較以提供所述代碼的相似性的數(shù)字測量。字典條目中的至少一些單詞與一個或多個辭典代碼相關(guān)聯(lián),相同代碼可以與一方上的一個單詞和另一方上的一個單詞相關(guān)聯(lián)。這樣的字典條目的解釋是該代碼表示該單詞在每種語言中的意思,并且當(dāng)該單詞的使用在所述語言之一中具有該意思的時候由該條目給出的翻譯是合適的;相反,如果單詞的實例在特定上下文中被以那種方式翻譯,則它具有該意思.所述雙語文本的集合假定劃分為多個片段(fragment),每個片段包括兩種語言的每一種中的一個句子或少量句子。為了簡便,我們將為包括每種語言的單個句子的片段描述系統(tǒng)的操作.在雙文本注解器(S2)對包括源句子和目標(biāo)句子的雙語實例的處理過程中,字典條目位于雙語資源(S3)中,使得在該條目的源方的所有單詞到。然后使用與這個字典條目相關(guān)聯(lián)的辭典代碼來標(biāo)注一個或多個源語言單詞.在雙語句子對中的源語言句子中的一個或多個單詞與其在目標(biāo)語言句子中的等價的一個或多個單詞的關(guān)系稱為對齊(alignment)。處理的結(jié)果是注解的雙語庫(S4),其中每個雙語句子中的單詞用辭典代碼標(biāo)注并且與它們的翻譯對齊或用它們的翻譯標(biāo)注.在單詞和它們的翻譯之間的對齊包括關(guān)于所述單詞在兩個字符串中的位置的信息。當(dāng)要翻譯的輸入句子通過輸入設(shè)備(S5)進(jìn)入系統(tǒng)時,它面臨源語言注解器(S6)的處理。在這種情況下,不是總能夠確定輸入中單詞的意思.但是假定匹配輸入中多個項目的單個字典條目比匹配更少項目的字典條目更可能正確.因而可以通過一種優(yōu)先權(quán)方案選擇匹配輸入的字典條目的子集,該方案諸如[美國專利5978798,訪問數(shù)據(jù)庫的設(shè)備和方法(ApparatusforandMethodofAccessingaDatabase)]中所公開的。但是不必在與輸入中相同數(shù)目的項目匹配的多個條目之間選擇.這個階段的結(jié)果是用代碼和相應(yīng)的可能翻譯的子集來注解的輸入句子,輸入句子被傳遞到比較器(S7),比較器將之與注解的雙語庫(S4)中的實例的源方進(jìn)行比較,通過只有當(dāng)實例與輸入共享一些數(shù)目的單詞時才從庫中檢索實例的標(biāo)準(zhǔn)信息檢索階段,只需要考慮小的實例子集來比較.比較器將輸入和與其進(jìn)行比較的實例傳遞給不匹配的源部分檢測器(S8),該檢測器確定一系列交織的匹配的和不匹配的語段.匹配的語段包括在輸入和實例的源方相同的那些單詞;另外,每個所標(biāo)注的辭典代碼和翻譯必須具有非空的交集.例如,假設(shè)英語-日語雙語庫包括片段...learninghowtoplaythepianoopianowohikukotowobenkyousite...雙文本注解器用這個上下文中的其日語翻譯hiku(照字面意思,topluck)注解英語單詞play?,F(xiàn)在考慮包括下面片段的輸入...learninghowtoplaytheflute表面來看,該雙語片段的源方出現(xiàn)好的匹配,只在單個單詞flute和piano上不同。但是,源語言注解器定位翻譯playtheflute所需的字典條目,其在日語中需要不同的動詞fuku(照字面意思,toblow)。因為英語中play的兩個實例用不同的翻譯標(biāo)注,因此它們必須被分配給不匹配的語段,而不是匹配的語段,并且該匹配的總的優(yōu)度必須相應(yīng)調(diào)節(jié).不匹配的語段是那些在輸入和SSE之間不同的語段。在不匹配的語段的項目之間建立關(guān)系(稱為對應(yīng))。例如,如果不匹配的語段在每一方包括單個單詞,則把這些單詞放入對應(yīng);如果不匹配的語段包括單個成分(constituent),那么在每個成分中有唯一的項目,稱為頭(head),頭是依照句法確定的,并且頭也被放入對應(yīng)。對于對應(yīng)中的兩個項目,將與該兩個項目關(guān)聯(lián)的辭典代碼的交叉積提交給相似性計算.最相似的一個或多個對的相似性值被傳遞回比較器(S7),以便在相似性的全局計算中使用,比較器基于匹配的和不匹配的語段的長度和不匹配的語段中的對應(yīng)項目的辭典代碼的相似性,確定最相似的實例(MSE)。另外,不匹配的輸入語段中的單詞的可能翻譯被限制到那些與具有最大相似性的一個或多個代碼相關(guān)的翻譯,例如,假定日語-英語雙語庫包含文本reizoukonisuzukiwohozonsitekudasai0pleaseputsomeseabassintherefrigerator曰語單詞suzuki在表示人的名字(具有辭典代碼1220)和魚的類型(具有辭典代碼1430(食物)和1564(動物))之間是意思含糊的,雙文本注解器將suzuki與英文單詞seabass(海鱸魚)對齊,消除了人解釋.現(xiàn)在假定輸入是日語句子rejzoukonitumamiwohozonsitekudasai曰語單詞tumami在英語snack(快餐)(具有辭典代碼H30(食物))和英語knob(圓形把手)(具有辭典代碼l4543,把手類型)之間是意思含糊的.在兩方不匹配的語段中具有最大相似性的代碼是1430。這樣,確定輸入單詞tumami的翻譯應(yīng)該是snack(s)而不是knob(s)。比較器和不匹配的源部分檢測器的輸出隨后被傳遞到兩個另外的模塊。對齊的實例目標(biāo)部分確定器(S9)確定所述MSE的目標(biāo)方中哪些單詞位置與該MSE的源方中的不匹配的語段中的單詞對齊.不匹配的輸入源部分翻譯器(S10)隨后依照目標(biāo)語言的一些語法和模型將與不匹配的輸入源部分相關(guān)聯(lián)的剩余翻譯組合.替換器(Sll)用由不匹配的輸入源部分翻譯器計算的翻譯替代由對齊的實例目標(biāo)部分確定器所確定的MSE的目標(biāo)方的位置中的單詞.圖2是概述在具體實現(xiàn)本發(fā)明的方法中執(zhí)行的步驟的流程圖。在該方法的步驟X中,以源語言接收輸入文本,其將被使用包括多個雙語文本的庫機(jī)器翻譯成采用目標(biāo)語言的輸出文本,每個雙語文本包括與其目標(biāo)語言翻譯成對的源語言文本。在步猓A,使用雙語資源分析雙語文本庫以將來自雙語資源的信息與該庫中至少一些雙語文本的相應(yīng)源語言方相關(guān)聯(lián).或者,使用已經(jīng)以這種方式被預(yù)先分析過的雙語文本庫。在步驟B,使用雙語資源分析輸入文本以將來自雙語資源的信息與輸入文本相關(guān)聯(lián)。在步驟C中,從所述庫中選擇雙語文本以用作確定輸入文本的翻譯的基礎(chǔ)。在步驟D中,使用與輸入文本相關(guān)聯(lián)的信息和與在步猓C中選擇的雙語文本的源方相關(guān)聯(lián)的信息,識別在步驟C中選擇的雙語文本的源方的與輸入文本的對應(yīng)的相應(yīng)部分不同的部分,將那些部分指定為不匹配部分,在步驟E中,識別步驟C中所選擇的雙語文本的目標(biāo)方中是該雙語文本的源方的所述不匹配部分的相應(yīng)翻譯的那些部分。在步驟F中,確定輸入文本的所述不匹配部分的相應(yīng)翻譯,在步驟G中,用在步驟F中確定的翻譯替換在步驟E中所識別的雙語文本的目標(biāo)方的所述部分。在步驟H中,使用步驟G的結(jié)果作為輸入文本的翻譯,或者至少作為其基礎(chǔ)。應(yīng)當(dāng)理解,步驟A到C依照其自己的權(quán)利是有用的;例如一個設(shè)備可以執(zhí)行步驟A到C,而另一設(shè)備可以使用步驟A到C的結(jié)果執(zhí)行下面描述的步驟D到H.在這種情況下,在步驟C中,應(yīng)當(dāng)理解,根據(jù)與輸入文本相關(guān)聯(lián)的信息和與相應(yīng)雙語文本的源方相關(guān)聯(lián)的信息進(jìn)行選擇'圖3描繪了一種作為翻譯算法的算法。圖3中所示的該算法呈現(xiàn)為偽碼,該過程將輸入文本、雙語庫和雙語資源作為參數(shù)。前兩個步驟用必需的雙語數(shù)據(jù)注解輸入文本和雙語庫。在存在歧義的時候,注解輸入文本的過程確定最合適的注解,這對與庫一起使用的注解不太必要,因為已經(jīng)確定了翻譯。最佳注解可以使用[美國專利5978798,用于訪問數(shù)據(jù)庫的設(shè)備和方法(ApparatusforandMethodofAccessingaDatabase)]所述的區(qū)分優(yōu)先次序的鋪瓦(prioritisedtiling)類型。下一節(jié)找到與輸入文本最相似的實例文本.在該算法中,搜索整個庫,在實踐中,首先使用在文字信息檢索中通用的技術(shù)[信息檢索(InformationRetrieval),VanRijsbergen,Butterworth,1979]預(yù)取最可能的候選者,可能使用n-gram技術(shù)和語意接近.也可以通過包括來自此后描述的不匹配部分的信息計算分?jǐn)?shù).該相似性計算也可以使用在近似字符串匹配和生物信息學(xué)領(lǐng)域通用的動態(tài)編程過程。我們接下來提取或計算輸入文本中與實例不匹配的那些部分和因為不匹配而需要替代的example-target-parts。我們通過翻譯unmatched-input_part,使用inner—translate來確定應(yīng)該用什么替代example-target-parts。我們可以使用來自實例本身的額外知識幫助確定翻譯,諸如已經(jīng)正確翻譯的其它單詞來幫助確定正確的意思。我們還可以使用example-target-parts幫助確定對翻譯的單詞的合適選擇和表達(dá)。雙語資源已經(jīng)被包括作為參數(shù),但是可以在實例和輸入文本的注解過程中已經(jīng)包括所有必要的信息,我們接下來通過為先前的實例目標(biāo)部分替換新的translated-source-parts,從所述實例建立輸出文本,應(yīng)該強(qiáng)調(diào),在用翻譯的源部分中的多個語段替代的實例目標(biāo)部分中可以有多個語段.實際上,如果用雙語資源注解的源文本已經(jīng)完全消除歧義,那么這個最后的翻譯階段可以只是提取該注解的亊.如果我們還想對替換之后的輸出文本進(jìn)行進(jìn)一步的表面改善,諸如保證在翻譯的源部分的邊界中的單詞與實例的剩余部分一致。我們可能還想改變文本格式以便與例如輸入文本的格式一致。這樣的改變可以用improve函數(shù)來進(jìn)行.然后返回該操作的結(jié)果,即input-text的翻譯。應(yīng)理解,一個或多個上述或下述部件的操作可以由在所述裝置或設(shè)備上運行的程序控制。這樣的操作程序可以存儲在計算機(jī)可讀的介質(zhì)上,或者例如,可以在諸如從因特網(wǎng)站點提供的可下栽的數(shù)據(jù)信號的信號中實現(xiàn).所附權(quán)利要求可以解釋為覆蓋操作程序本身,或栽體上的記錄、信號或任何其它形式。更詳細(xì)地說,翻譯設(shè)備的每個塊可以由硬件邏輯電路構(gòu)成,或者如下所述可以由利用中央處理單元(CPU)的軟件構(gòu)成.也就是說,該翻譯設(shè)備具有(i)用于執(zhí)行實現(xiàn)多種功能的控制程序的指令的CPU(中央處理單元);(ii)存儲所述程序的ROM(只讀存儲器);(Ui)用于擴(kuò)展所述程序的RAM(隨機(jī)存取存儲器);(iv)存儲所述程序和各種數(shù)據(jù)的存儲裝置(存儲介質(zhì)),例如存儲器;和(v)等等。本發(fā)明的目的還可以通過以下步驟來實現(xiàn)(i)為翻譯設(shè)備提供以計算機(jī)可讀方式存儲用于本系統(tǒng)的控制程序的程序代碼(可執(zhí)行程序;中間代碼;源程序)的存儲介質(zhì),以及(ii)使計算機(jī)(CPU或MPU)讀取并執(zhí)行存儲在存儲介質(zhì)中的程序代碼,該程序代碼是實現(xiàn)前述功能的軟件。存儲介質(zhì)的實例是U)帶,諸如磁帶和盒式帶;(ii)磁盤,諸如軟盤和硬盤;(iii)光盤,諸如致密盤只讀存儲器(CD-ROM),磁光盤(MO),迷你盤(MD),數(shù)字視頻盤(DVD),可改寫的CD(CD-R);(iv)卡,諸如IC卡(包括存儲卡)和光學(xué)卡;和(v)半導(dǎo)體存儲器,諸如掩模ROM,EPROM(電可編程只讀存儲器),EEPROM(電可擦除可編程只讀存儲器),快閃ROM.另外,翻譯設(shè)備可連接到通信網(wǎng)絡(luò),通過該通信網(wǎng)絡(luò)可以提供程序代碼。該通信網(wǎng)絡(luò)沒有被特別限定。其具體實例是因特網(wǎng),內(nèi)聯(lián)網(wǎng),以太網(wǎng),LAN(局域網(wǎng)),ISDN(綜合業(yè)務(wù)數(shù)字網(wǎng)絡(luò)),VAN(增值網(wǎng)),CATV(電纜TV)通信網(wǎng)絡(luò),虛擬專用網(wǎng)絡(luò),電話網(wǎng)絡(luò),移動通信網(wǎng)絡(luò),衛(wèi)星通信網(wǎng)絡(luò),等等,另外,構(gòu)成通信網(wǎng)絡(luò)的傳輸介質(zhì)沒有被特別限定,其具體實例是(i)使用IEEE1394的有線通道,USB(通用串行總線)、功率線通信,電纜TV線,電話線,ADSL線,等等;或者(ii)使用下述的無線通信IrDA,用于遠(yuǎn)程控制器的紅外線,Bluetooth,IBEE802.11HDR(高數(shù)據(jù)速率),移動電話網(wǎng)絡(luò),衛(wèi)星連接,地球數(shù)字網(wǎng)絡(luò),等等。注意,本發(fā)明可以通過下述實現(xiàn)(i)由程序代碼的電子傳送實現(xiàn)的栽波,或者(ii)一系列數(shù)據(jù)信號形式.下面的附錄以文章的形式呈現(xiàn),并且提供本發(fā)明的實施例的替代描述。附錄基于實例的翻譯系統(tǒng)摘要在該文章中,我們描述了一種機(jī)器翻譯的混合方法,其采用利用來自基于規(guī)則的MT的資源和技術(shù)擴(kuò)充的實例翻譯的語言資料庫(corpus).我們的主要目的是為一些具有好的時間和空間特性的子域?qū)崿F(xiàn)合理的準(zhǔn)確性.我們的結(jié)構(gòu)相對確定并且因此在其計算資源的消耗上相當(dāng)合適.同時,由在字符串編輯方面的翻譯觀點啟發(fā)的算法允許我們采用一些所述語言資料庫中可用的信息以在其它模型中可能較困難的方式改善準(zhǔn)確性。我們描述該系統(tǒng),說明它如何采用句法和語意分析來改善匹配和消除多義性,并且分析我們的竟?fàn)幮越Y(jié)果。1.引言該文章描述了用于基本的旅行會話的日語-英語系統(tǒng)。我們已經(jīng)追蹤MT方面的研究和發(fā)展超過二十年,盡管主要是英語翻譯為日語的方向。主要為了可用的結(jié)果而不是理論純度,我們已經(jīng)廣泛使用了我們在這段時期積累的資源。盡管如此,我們的方法不能滿足在我們認(rèn)為可能有更廣興趣的領(lǐng)域上的一些新穎觀點。這些包括在實例匹配和含義不確定的解決方案采用可能的明確實例的過程中辭典和字典信息的相互影響。我們近來的工作集中在適用于嵌入在用于英語-日語雙向會話的類似PDA的設(shè)備中的相對輕量級的MT系統(tǒng)上。在這個公式化的領(lǐng)域(formulaicdomain)中,我們將現(xiàn)有的翻譯實例視為大的、不連續(xù)的、口語的和通常特殊的模式的無價資源。我們的方法將Nagao(1984)的工作作為開始點,該工作大致'特征在于'通過類推翻譯(translationbyanalogy),,并且沿著Sumita(2003)追求的線繼續(xù)。我們認(rèn)為這條研究線是"基于編輯的翻譯"。我們確定源編輯抄本(一組替換、插入和刪除),其將實例庫(base)中的實例的源方轉(zhuǎn)換為輸入字符串(查詢(query))。我們隨后翻譯這個編輯抄本的輸入和輸出,以給出目標(biāo)語言的相似抄本,并且將這個目標(biāo)編輯抄本應(yīng)用到該實例的目標(biāo)方。所迷編輯抄本的輸入中的源項目的翻譯只是在所述實例(如離線確定的)中它們;故與之對齊的那些目標(biāo)語言項目(單詞加位置)。該編輯抄本的輸出的翻譯基于雙語字典和輕量級依賴性解析。我們以典型的基于規(guī)則的方式使用這些資源分析整個查詢,但是使用最佳匹配實例輔助消除歧義。我們隨后提取表示目標(biāo)編輯抄本的輸出的子部分。我們選擇通過利用語意相似性強(qiáng)化的編輯距離函數(shù)確定的單個最相似實例。該方法與組合的較大消耗(extravagant)的方法形成對比,所述組合的較大消耗的方法諸如在SMT(Brown等人,1990)和EBMT(Brown,1996)中找到的那些方法,在這些方法中翻譯由片段匯編(assemble)。圖4示出了我們的系統(tǒng)的主要模塊結(jié)構(gòu)。所述系統(tǒng)將采用源語言的字符串作為輸入,并且從實例庫獲取一組候選實例,我們將所述字符串稱為查詢。下一個階段,對應(yīng)(correspondence),為該查詢和每個候選實例計算源編輯抄本,并且使用該抄本按照相似性對實例排序(節(jié)2)。還由基于^L則的翻譯系統(tǒng)分析該查詢,并且最佳匹配實例可以用于在這個階段幫助解決歧義(節(jié)3)。最佳匹配實例的目標(biāo)方(基礎(chǔ))和所述查詢的翻譯被傳送給替代階段(replacementphase),該替代階段計算目標(biāo)編輯抄本的精確范圍并且將之應(yīng)用到所述基礎(chǔ)(節(jié)4)。在該文章的剩余部分,我們提供了每個模塊的更詳細(xì)的描述,并且做出關(guān)于我們的竟?fàn)幮越Y(jié)果的描述和討論。2.對應(yīng)所迷源編輯抄本在我們稱為對應(yīng)的階段確定,該階段執(zhí)行源語言中兩個字符串的有序?qū)R。通過使用標(biāo)準(zhǔn)向量-空間檢索技術(shù)(Rijsbergen,1979)從實例庫獲取用于與查詢對應(yīng)的候選字符串。對應(yīng)計算匹配的和不匹配的語段交替的序列并且基于這些的長度確定分?jǐn)?shù)。每個不匹配的語段包括實例方(UXS)和查詢方(UQS),實例方是源編輯的輸入,查詢方是源編輯的輸出。因而編輯抄本是形式為UXS=>lfQS的操作集合??盏腢XS表示插入,空的UQS表示刪除。作為典型的EBMT系統(tǒng),所述分?jǐn)?shù)還包括基于樹結(jié)構(gòu)的辭典的用于語意相似度的分量。單詞可以與一個或多個語意代碼相關(guān)聯(lián);兩個單詞的代碼越相似,用一個單詞替代另一個的代價就越小。例如,給定輸入二(T)階k:喫茶店力《fcO法卞力、。(i)thisfloorNIcoffeeshopGAbePOLQ和兩個存儲的實例二(D階0只卜,:/力Sfol9主卞力、。(2)Istherearestaurantonthisfloor二co階t二子供服力Sfc19玄卞力、。(3)Isthisthefloorforchildren'sclothes由于"喫茶店"(coffeeshop(咖啡店))和"k只卜,y,,(restaurant(飯店))的語意相似性,這些實例中的第一個將是優(yōu)選的,給出結(jié)果Isthereacoffeeshoponthisfloor另一方面,給定諸如下述的輸入二(Z)階t:i3—卜力sfci9主十力、。(4)其與先前的輸入不同之處在于單個單詞"^一卜"(coat或court(外套或球場)),我們優(yōu)選第二個,給出輸出Isthisthefloorforcoats(下文我們將看到翻譯coat如何選擇和變詞形。)3.基于規(guī)則的翻譯我們已經(jīng)研究了幾種方式來實現(xiàn)不匹配的查詢語段的翻譯。例如,表現(xiàn)為Sharp,sPowerEJTranslationPackage的一部分的系統(tǒng)版本使用對齊的實例庫本身。但是,該策略需要更大的實例庫,并且在該系統(tǒng)的竟?fàn)幇姹局校g基于獨立的雙語字典。我們使用的字典從各種資源收集,盡管我們可以通過將字典應(yīng)用到我們的實例庫的對齊而采用自動導(dǎo)出的翻譯頻率,大部分資源最終是手編碼的。我們使用輕量級依賴性解析器分析輸入;所述字典條目可以涉及依賴性結(jié)構(gòu)和項目線性順序的任何組合。雙語字典條目也利用辭典代碼標(biāo)注。我們確定可以應(yīng)用到所述查詢的任何部分的所有字典條目。我們?yōu)槭裁床粚⒆约合拗频街豢紤]不匹配的語段(US)的原因是,單個字典條目可能用于翻譯橫跨匹配/不匹配邊界的材料。因為我們通過單個最不頻繁項目鑒別字典條目,并且因為條目可以包含變量,使用us中的材料的條目的關(guān)鍵可以位于該us之外。實際上,我們需要擴(kuò)展該us以便包括與其一起翻譯的任何內(nèi)容。例如,給定輸入和實例彼3時〖C戻19法十。(5)HeTOP3o'clockNIreturnPOL彼〖j;月曜日C戻《9求卞。(6)He'llbebackonMonday我們需要認(rèn)識到輸入將使用字典條目十clocktimeI:atPREP十clocktime(7)并且將不匹配的語段擴(kuò)展到包括虛詞^,從而得到正確的翻譯(8)而不是(9):He'llbebackat3o'clock.(8)*He,llbebackon3o'clock.(9)因而我們依照在Poznanski等(1998)中使用的區(qū)分優(yōu)先次序的鋪瓦(tiling)機(jī)制計算詞匯條目的子集。覆蓋更多源語言項目的條目得到優(yōu)選權(quán)。可以使用翻譯頻率作為連接斷路器(tiebreaker)。與試圖孤立確定正確的詞匯條目的情況不同,在語意歧義的情況下匹配實例的存在可以起幫助作用。例如,在上述的(4)中,我們可以為有歧義的"〕一卜"優(yōu)選翻譯coat(外套),因為我們的辭典告訴我們,coat(外套)比(網(wǎng)球)court(球場)更像孩子的衣服(另外,記住所述兩個相似的實例(2)和(3),coat像孩子的衣服的程度要大于(網(wǎng)球)court(球場)像飯店的程度)。為了完成翻譯模塊的操作,我們可以組合區(qū)分了優(yōu)先順序的詞匯條目的目標(biāo)方,反映源的依賴性結(jié)構(gòu),然后線性化目標(biāo)結(jié)構(gòu)并且提取不匹配的語段的翻譯。實際上,因為接下來的階段可以調(diào)節(jié)不匹配的語段的精確范圍,我們將所述詞匯條目的組合推遲到這個階段之后。4.替代在這個階段,我們應(yīng)用我們已經(jīng)計算的目標(biāo)語言編輯抄本,通過UQS的翻譯替代與UXS對齊的目標(biāo)項目。我們的實例庫是使用我們的字典離線對齊的單詞-對-單詞。順便提及,這允許我們很大程度上確定在所述實例中使用的不確定的單詞的意思。該對齊通常不是全部一如果該不匹配的語段不對齊,我們可能在基于這個實例的計劃上失敗并且使用下一個最高分?jǐn)?shù)的實例。該模塊也使用輕量級依賴性解析,允許我們確定在任何語段(在兩種語言中)的單詞中的頭一內(nèi)部頭,和在句子的剩余部分中該語段所附著到的一外部頭。從實例刪除是最容易處理的編輯。刪除的材料的對齊被從實例的目標(biāo)方(基礎(chǔ))刪除。如果刪除的是名詞短語的頭,那么還刪除相關(guān)的語法元素,諸如前置限定詞和介詞。替換可以更復(fù)雜。對于每個UXS,我們在基礎(chǔ)中找到在該UXS中的所有項目的對齊之下的圖像。在基礎(chǔ)中這些可以是不連續(xù)的,但是如杲它們只由普通單詞隔開,則將這些語段合并。如杲剩余多個語段,則我們查明每個的頭,計算與源方中該uxs的頭的反向?qū)R,并且試圖找到在該輸入(或查詢)不匹配的語段(UQS)中的對應(yīng)項目。例如,當(dāng)句子<formula>formulaseeoriginaldocumentpage21</formula>(10)與實例<formula>formulaseeoriginaldocumentpage21</formula>(11)Willtherebeabaseballgameheretonight,匹配時,不匹配的實例語段(在[內(nèi)指明)與目標(biāo)中的不連續(xù)的語段對齊(由共同下標(biāo)所示)。使用語意近似,我們能夠檢測到在明日(tomorrow)和今夜(tonight)之間的(子)對應(yīng),并且正確的放置翻譯,得到Willtherebeafootballgameheretomorrow(12)如果沒有發(fā)現(xiàn)語意近似元素,我們可以使用句法相似性作為語段分裂的依靠策略。最后,在編輯中插入最難解決。這是因為我們不知道在哪放置UQS的翻譯。我們根據(jù)輸入的材料是副詞(renyou)還是形容名詞(rentai)而以兩種不同的方式對待插入。副詞插入再次分為兩種情況。感嘆詞、主題和相似物放置在基礎(chǔ)的開始位置,其它副詞放置在結(jié)尾。在形容名詞的插入的情況下,將它們的外部頭推入US,將插入轉(zhuǎn)化為替代并且給予我們用于翻譯的材料的位置。實際上,將外部頭推入US的策略用于解決另一個問題。日語一律是中心語后置(head-final),而英語名詞短語具有混合的中心語特性(headedness)(anopendoor,但adooropentoall)。形容名詞的替換可能導(dǎo)致諸如下述的問題次W電車B二。水一厶T合oT。實卞力、。(13)nexttrainTOPthisplatformDEberight口乂K乂行豸0電車d:二0本一A合oi:。實卞力、。IsthistherightplatformforthetraintoLondon(14)給定輸入(13)和所存儲的實例(14),我們獲得翻譯(15):*Isthistherightplatformforthetrainnext(15)將頭名詞推入US意味著我們將它與它的修飾成分一起翻譯,并且允許得到的翻譯按照英語的規(guī)則正確排序。即使頭是含義模糊的,重新翻譯也不是問題,因為這個單詞已經(jīng)具有與查詢和實例源中相同的語意代碼,這將導(dǎo)致我們選擇相同的翻譯?,F(xiàn)在已經(jīng)確定每個編輯操作的確切范圍,我們計算在該基礎(chǔ)中將插入/替換的目標(biāo)字符串。應(yīng)用到(可能是擴(kuò)展的)UQS中的任何項目的詞匯條目的目標(biāo)方通過反映該源的依賴性關(guān)系被組合,然后依照英語生成語法被線性化。當(dāng)它們被放置到實例的目標(biāo)方的位置中,采取各步驟以便'在裂縫上糊紙(paperoverthecracks,2)。這些包括進(jìn)行替換,移除代名詞前的多個前置詞、限定詞等,產(chǎn)生變化的比較級和最高級等。這個最后的表達(dá)階段的一個特別有趣的方面是從被替代的東西向替代的東西拷貝特征。例如,如果被替代的語段以名詞起頭,但是該替代已經(jīng)翻譯為以動詞作為頭,我們使用關(guān)于英語的單語言的信息名詞化該動詞。例如,給定輸入U6)和實例對(17):二(D電車f立定刻{:出発O予定"C寸力、。(16)thistrainTOPon-timedepartureNOplanbeQ二o便a定刻Ki到著0予定"e卞力、。(i7)Willthisflightarriveontime我們獲得翻譯的計劃,其可以表示為Willthist(電車)t(出発)ontime(18)出発(departure)在日語句子里顯然是名詞(其后跟隨名詞性后綴0)。我們認(rèn)識到該翻譯被替換為基礎(chǔ)中的動詞,并且根據(jù)單語字典獲得departure的等價動詞,得到Willthistraindepartontime(19)除了主要的類別變化,我們還可以拷貝句法特征,這就是在上文討論的Isthisthefloorforcoats中我們?nèi)绾蔚玫椒gcoats的.這可以與標(biāo)準(zhǔn)SMT系統(tǒng)形成對照,在標(biāo)準(zhǔn)SMT系統(tǒng)中這些語句的部分替代被植入翻譯模型并且目標(biāo)語言模型將在正確的一個上建立。但是因為這樣的翻譯模型包含詞匯的和語句的部分替代的交叉積(cross-product),顯然其尺寸和搜索空間的時間比我們的系統(tǒng)中所要求的單語言規(guī)則的數(shù)目增加得快.5.結(jié)果我們的EBMT系統(tǒng)只有在它的實例庫包含充分緊密匹配的實例的時候才能夠翻譯輸入.當(dāng)情況并非如此時我們使用另一個系統(tǒng)來翻譯。盡管正在發(fā)展來使用EBMT系統(tǒng)自己的基于規(guī)則的翻譯系統(tǒng),為了本文章的目的,我們使用完全獨立的系統(tǒng),我們稱其為黑盒系統(tǒng)(BBS)。表1示出了我們的系統(tǒng)在不同配置下在不同測試集上的結(jié)果。我們在第一列給出BBS的結(jié)果,然后是用于兩個實例庫配置中每一個的三列我們自己的實例庫(歐洲敏銳實驗室(SharpLaboratoriesofEurope)或SLE),有11,913個實例(為該文章的目的提供的訓(xùn)練集,有相同內(nèi)容的175,000日語字符和380,000英語單詞,其是關(guān)于IWSLT2006Evaluation運動的竟?fàn)?;并且該實例庫與竟?fàn)幱?xùn)練集組合,給出總共56,531個實例(1.7m日語字符,1.93邁英文單詞)。標(biāo)題為'BBMTOnly'的列給出了EBMT系統(tǒng)試圖翻譯的輸入的子集的分?jǐn)?shù),在下一列給出了總輸入的百分比。最后一列給出了使用BBS來翻譯我們的系統(tǒng)沒有能夠為其找到足夠相似的實例的那些句子的結(jié)果.考慮質(zhì)量,結(jié)果落入兩類中,在devset2(IWSLT2004)和devset3(IWLST2005)上的結(jié)果很大程度上好于在devset4(IWSLT2006)和測試集上的結(jié)果.這個差別可能部分由于基準(zhǔn)翻譯的數(shù)目U6對7)并且部分由于整體難度.后面的結(jié)果在參與者中位于中間,但是devset3的結(jié)果好于在實際2005竟?fàn)?Eck和Hori2005)中實現(xiàn)的任何結(jié)果.我們將這樣的結(jié)果歸因于當(dāng)前的SMT(在2005中)中不能找到的兩個因素。第一是在翻譯模型中有效作為大的不連續(xù)的元素的實例的使用.但是,SMT中最近的工作已經(jīng)開始直接解決該問題,egChiang(2005)。第二是將被替代的目標(biāo)語言語段有可能影響將替代它們的翻譯,這種因果關(guān)系的交互在SMT中沒有對應(yīng)物.<table>tableseeoriginaldocumentpage24</column></row><table>表1BLEU[NIST]具有兩個實例庫配置的基于規(guī)則的系統(tǒng)(RBS)和EBMT的分?jǐn)?shù)我們的系統(tǒng)配置適合于具有更小存儲器的更低功率的機(jī)器.對于小的實例庫,總的數(shù)據(jù)大小在10Mb以下,對于包括100,000條目詞匯的大的實例庫,總的數(shù)據(jù)大小在17Mb以下。在具有12MbRAM的500MHz處理器上翻譯速度大約每個句子一秒。Brown,P.F.,Cocke,J"DeliaPietra,S.A.,DeliaPietra,V.J.,Jelinek,F(xiàn),,Lafferty,J.D.,Mercer,ILL.,Roossin,P.S.機(jī)器翻譯的統(tǒng)計學(xué)方法(Astatisticalapproachtomachinetranslation),計算語言學(xué)(ComputationLinguistics)第16巻,第2期(1996年6月),MITPressCambridge,MA,USA,pp.79-85,1990'Brown,R.D."Pangloss系統(tǒng)中的基于實例的機(jī)器翻譯(Example-BasedMachineTranslationinthePanglossSystem)",Proceedingsofthe16thColing,Copenhagen,1996。Chiang,D."用于統(tǒng)計學(xué)機(jī)器翻譯的分層的基于短語的模型(Ahierarchicalphrase—basemodelforstatisticalMachineTranslation)",Proceedingsofthe43rdAnnualMeetingoftheACL,2005。Eck,M.和C.Hori"IWSLT2005演化運動的概覽(OverviewoftheIWSLT2005EvaluationCampaign)",Carnegie-MelIonUniversity,Pittsburgh,2005。Lepage,Y和E.Denoual"建立的最純粹的EBMT系統(tǒng)沒有變量,沒有模板,沒有訓(xùn)練實例,只有實例,僅僅有實例(ThepurestEBMTsystemeverbuilt:novariables,notemplates,notraining,examples,justexamples,onlyexamples)",inProceedingsofthe2ndWorkshoponExample—BasedMachineTranslation,Phuket2005。Nagao,M"根據(jù)相似原則的在日語和英語之間的機(jī)器翻譯的框架(AFrameworkofaMechanicalTranslationbetweenJapaneseandEnglishbyAnalogyPrinciple)"InA,ElithornandR.Banerji(eds.)人工和人類智能(ArtificialandHumanIntelligence),Amsterdam:NorthHolland,pp.173-180.1980,Nirenburg,S.,C.Domashnev和D.J,Grannes"在基于實例的機(jī)器翻譯中的兩種匹配方法(Twoapproachestomatchinginexample-basedmachinetranslation)",in5tbTMI,Kyoto,1993,Poznanski,V,,P.Whitelock,J.Ijdens,S.Corl'ey"通過區(qū)分優(yōu)先次序的鋪瓦的實際注釋(PracticalGlossingbyPrioritisedTi1ing)",Proceedingsofthe17thCOLING,Montreal,1998。Rijsbergen,C.J."信息檢索(InformationRetrieval)",London:Butterworths,1979。S測ita,E."使用單詞序列之間的DP匹配的EBMT(EBMTUsingDP-MatchingBetweenWordsSequences)",inAece/7fJf/Ka/ce51//j,a歷//e-6asef/他c力/z7e7",a/3s/"/肌Carl,M.andWay,A.(eds).KluwerAcademicPublishers,Dordrecht,pp.189-209,2003。AsopposedtothepureanalogicaltranslationapproachofLepageandDenouval(1995)The'boundaryfriction'ofNirenburgetal.(1993)權(quán)利要求1.一種機(jī)器翻譯的方法,該方法使用包括多個雙語文本的庫將采用源語言的輸入文本翻譯成采用目標(biāo)語言的輸出文本,所述多個雙語文本每一個包括的源語言文本與其目標(biāo)語言的翻譯成對,該方法包括(a)使用雙語資源分析雙語文本庫以將來自雙語資源的信息與所述庫中至少一些雙語文本的相應(yīng)源語言方相關(guān)聯(lián),或至少使用已經(jīng)用這樣的方式預(yù)先分析過的雙語文本庫;(b)使用雙語資源分析輸入文本以便將來自雙語資源的信息與該輸入文本相關(guān)聯(lián);(c)從所述庫中選擇要用作確定輸入文本的翻譯的基礎(chǔ)的雙語文本;(d)使用與輸入文本相關(guān)聯(lián)的信息和與在步驟(c)中所選擇的雙語文本的源方相關(guān)聯(lián)的信息,識別在步驟(c)中所選擇的雙語文本的源方的與對應(yīng)的輸入文本的相應(yīng)部分不同的部分,將那些部分指定為不匹配部分;(e)識別在步驟(c)中所選擇的雙語文本的目標(biāo)方中作為該雙語文本的源方的所述不匹配部分的相應(yīng)翻譯的那些部分;(f)確定輸入文本的所述不匹配部分的相應(yīng)翻譯;(g)用在步驟(f)中確定的翻譯替換在步驟(e)中所識別的雙語文本的目標(biāo)方的所述部分;以及(h)使用步驟(g)的結(jié)果作為輸入文本的翻譯,或者至少作為其基礎(chǔ)。2.如權(quán)利要求1所述的方法,其中步驟(c)包括依賴于與輸入中選擇雙語文本,3.如權(quán)利要求2所述的方法,包括(i)使用與輸入文本相關(guān)聯(lián)的信息和與相應(yīng)雙語文本的源方相關(guān)聯(lián)的信息,為庫中的至少一些雙語文本確定分?jǐn)?shù);并且其中步驟(c)包括依賴于步驟(i)中所確定的分?jǐn)?shù)從庫中選擇雙語文本。4.如權(quán)利要求3所述的方法,其中步驟(i)包括比較與輸入文本相關(guān)聯(lián)的信息和與相應(yīng)雙語文本的源方相關(guān)聯(lián)的信息.5.如權(quán)利要求3所述的方法,包括在步驟(i)中為存在關(guān)聯(lián)信息的庫中的每個雙語文本確定分?jǐn)?shù).6.如權(quán)利要求3所述的方法,其中步驟(c)包括選擇具有步驟(i)中所確定的最高分?jǐn)?shù)的雙語文本.7.如權(quán)利要求1所述的方法,其中步猓(c)包括依賴于步驟(d)的結(jié)果從庫中選擇雙語文本,8.如權(quán)利要求7所述的方法,包括(i)使用與輸入文本相關(guān)聯(lián)的信息和與相應(yīng)雙語文本的源方相關(guān)聯(lián)的信息,為庫中的至少一些雙語文本確定分?jǐn)?shù);其中步驟(c)包括依賴于步驟(i)中所確定的分?jǐn)?shù)從庫中選擇雙語文本;并且依賴于步驟(d)的結(jié)果確定步取(i)中的至少一些分?jǐn)?shù).9.如權(quán)利要求l所述的方法,包括使用與在步驟(c)中選擇的雙語文本相關(guān)的信息來執(zhí)行步驟(f)。10.如權(quán)利要求l所述的方法,包括使用與在步驟(c)中所選擇的雙語文本的匹配部分相關(guān)的信息來執(zhí)行步驟(f)以提供將要翻譯不匹配的輸入部分的上下文.11.如權(quán)利要求l所述的方法,包括使用與在步驟(c)中選擇的雙語文本的不匹配的目標(biāo)部分相關(guān)的信息來執(zhí)行步驟(f)以影響不匹配的輸入部分的翻譯。12.如權(quán)利要求l所述的方法,包括使用來自雙語資源的信息執(zhí)行步驟(f)以實現(xiàn)所述翻譯。13.如權(quán)利要求l所述的方法,在步驟(a)中使用的雙語資源與在步驟(b)中使用的雙語資源相同或相似.14.如權(quán)利要求l所述的方法,其中與步驟(a)中的該至少一些雙語文本的每一個相關(guān)聯(lián)的信息和與步驟(b)中的輸入文本相關(guān)聯(lián)的信息是相同類型的或相似性質(zhì)的.15.如權(quán)利要求1所述的方法,其中與雙語文本的源方相關(guān)聯(lián)的信息包括該雙語文本中的單詞的翻譯,并且與輸入文本相關(guān)聯(lián)的信息包括該輸入文本中的項目的一個或多個可能的翻譯.16.如權(quán)利要求1所述的方法,其中與雙語文本的源方相關(guān)聯(lián)的信息包括表示該雙語文本中的單詞的可能意思的一個或多個代碼,并且與輸入文本相關(guān)聯(lián)的信息包括表示該輸入文本中的單詞的可能意思的一個或多個代碼.17.如權(quán)利要求16所述的方法,包括(i)使用與輸入文本相關(guān)聯(lián)的信息和與相應(yīng)雙語文本的源方相關(guān)聯(lián)的信息,為庫中的至少一些雙語文本確定分?jǐn)?shù);并且其中步驟(c)包括依賴于步驟(i)中所確定的分?jǐn)?shù)從庫中選擇雙語文本;并且確定步跺(i)中的分?jǐn)?shù)以反映表示輸入文本和所述雙語文本的源方中的單詞的意思的最相似代碼的相似性。18.如權(quán)利要求16所述的方法,包括當(dāng)單詞具有與和在步驟(c)中所選擇的雙語文本的源方中的單詞相關(guān)聯(lián)的一個或多個代碼最相似的代碼時,確定步驟(f)中的所述翻譯是那些合適的翻譯.19.如權(quán)利要求16所述的方法,包括基于雙語文本的源方的那些部分被認(rèn)為是不同的來執(zhí)行步猓(d),所述那些部分的翻譯或其代碼之一不是與輸入文本的部分相關(guān)聯(lián)的翻譯或代碼之一。20.如權(quán)利要求1所述的方法,其中每個文本包括多個數(shù)據(jù)項目并且源和目標(biāo)語言是所述數(shù)據(jù)項目的源和目標(biāo)數(shù)據(jù)格式,從而提供一種使用包括多個源格式的實例序列的儲存器來將源格式的數(shù)據(jù)項目的輸入序列機(jī)器翻譯為目標(biāo)格式的數(shù)據(jù)項目的輸出序列的方法,所述多個源格式的實例序列每一個與其第二格式的翻譯成對,21.—種選擇雙語文本作為機(jī)器翻譯的基礎(chǔ)的方法,該機(jī)器翻譯使用包括多個雙語文本的庫將采用源語言的輸入文本翻譯成采用目標(biāo)語言的輸出文本,所述多個雙語文本每一個包括的源語言文本與其目標(biāo)語言的翻譯成對,該方法包括(a)使用雙語資源分析雙語文本庫以將來自雙語資源的信息與該庫中至少一些雙語文本的相應(yīng)源語言方相關(guān)聯(lián),或者至少使用已經(jīng)以這樣的方式分析過的雙語文本庫;(b)使用雙語資源分析輸入文本以便將來自雙語資源的信息與輸入文本相關(guān)聯(lián);(c)依賴于與輸入文本相關(guān)聯(lián)的信息和與相應(yīng)雙語文本的源方相關(guān)聯(lián)的信息,從該庫中選擇將要用作確定該輸入文本的翻譯的基礎(chǔ)的雙語文本。22.—種用于使用包括多個雙語文本的庫將采用源語言的輸入文本翻譯成采用目標(biāo)語言的輸出文本的設(shè)備,所述多個雙語文本每一個包括的源語言文本與其目標(biāo)語言的翻譯成對,該設(shè)備包括(a)用于使用雙語資源分析雙語文本庫以將來自雙語資源的信息與所述庫中至少一些雙語文本的相應(yīng)源語言方相關(guān)聯(lián)或至少使用已經(jīng)用這樣的方式預(yù)先分析過的雙語文本庫的裝置;(b)用于使用雙語資源分析輸入文本以便將來自雙語資源的信息與該輸入文本相關(guān)聯(lián)的裝置;(c)用于從所述庫中選擇要用作確定輸入文本的翻譯的基礎(chǔ)的雙語文本的裝置;(d)用于使用與輸入文本相關(guān)聯(lián)的信息和與通過裝置(c)選擇的雙語文本的源方相關(guān)聯(lián)的信息識別通過裝置(c)選擇的雙語文本的源方的與對應(yīng)的輸入文本的相應(yīng)部分不同的部分的裝置,將那些部分指定為不匹配部分;(e)用于識別通過裝置(c)選擇的雙語文本的目標(biāo)方中作為該雙語文本的源方的所述不匹配部分的相應(yīng)翻譯的那些部分的裝置;(f)用于確定輸入文本的所述不匹配部分的相應(yīng)翻譯的裝置;(g)用于用通過裝置(f)確定的翻譯替換通過裝置(e)識別的雙語文本的目標(biāo)方的所述部分的裝置;和(h)用于使用裝置(g)的結(jié)果作為輸入文本的翻譯或者至少作為其基礎(chǔ)的裝置。23.—種用于選擇雙語文本作為機(jī)器翻譯的基礎(chǔ)的設(shè)備,該機(jī)器翻譯使用包括多個雙語文本的庫將采用源語言的輸入文本翻譯成采用目標(biāo)語言的輸出文本,所述多個雙語文本每一個包括的源語言文本與其目標(biāo)語言的翻譯成對,該設(shè)備包括(a)用于使用雙語資源分析雙語文本庫以將來自雙語資源的信息與該庫中至少一些雙語文本的相應(yīng)源語言方相關(guān)聯(lián)或者至少使用已經(jīng)以這樣的方式分析過的雙語文本庫的裝置;(b)用于使用雙語資源分析輸入文本以便將來自雙語資源的信息與輸入文本相關(guān)聯(lián)的裝置;(c)用于依賴于與輸入文本相關(guān)聯(lián)的信息和與相應(yīng)雙語文本的源方相關(guān)聯(lián)的信息從該庫中選擇將要用作確定該輸入文本的翻譯的基礎(chǔ)的雙語文本的裝置。24.—種用于控制設(shè)備執(zhí)行如權(quán)利要求l或21所述的方法6^序。25.—種包含如權(quán)利要求24所述的程序的存儲介質(zhì)全文摘要本發(fā)明涉及翻譯系統(tǒng)中用于匹配雙語文本和增加準(zhǔn)確性的方法。公開了一種使用包括多個源語言的實例句子的儲存器將源語言的輸入句子翻譯為目標(biāo)語言的輸出句子的方法,所述多個源語言的實例句子與其目標(biāo)語言的翻譯成對。該方法通過使用組合雙語字典和辭典的各方面的雙語資源來分析儲存器中的句子和輸入句子以便確定輸入句子和實例中的單詞的意思和翻譯,改善了輸入文本和儲存器的實例句子的匹配。文檔編號G06F17/28GK101187923SQ20071016932公開日2008年5月28日申請日期2007年11月22日優(yōu)先權(quán)日2006年11月23日發(fā)明者P·J·懷特洛克,V·波南斯基申請人:夏普株式會社