專利名稱:機器翻譯技術(shù)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算語言,特別涉及機器翻譯技術(shù)。更確切地說,本申請描述了完成將源文本段解碼成目標文本段并將樹形結(jié)構(gòu)從第一語言空間改寫成另一語言空間的技術(shù)。
背景和內(nèi)容機器翻譯(MT)是自動的翻譯,比如,使用計算機系統(tǒng),將從第一語言(比如,法語)譯成另一語言(比如,英語)。完成MT技術(shù)的系統(tǒng)描述成將源語言“解碼”成目標語言。從終端用戶的角度來說,MT過程是相對直接的。如圖1A所示,MT102以接收源句子100比如法語(例如,“ce ne est pas juste”)作為輸入,在處理輸入句子之后,再以目標語言輸出——在本例中為英語(″it is not fair″(那不公平))——等效的解碼句子。
一種常規(guī)的MT解碼器是諸如在題為“用于自然語言翻譯的方法和系統(tǒng)”的美國專利第5,477,451號(Brown等人)中描述的“堆棧解碼器”。在堆棧解碼器中,可能的翻譯全域被組織成圖形結(jié)構(gòu)并隨后盡全力地尋找直到發(fā)現(xiàn)最佳的解決途徑(翻譯)。雖然堆棧解碼器可以產(chǎn)生好的結(jié)果,但它們在完成的同時卻要化去巨大的成本,也就是說,維護并搜索諸如被堆棧解碼器使用的巨大的有可能解決的空間是昂貴的,既是計算上的又是空間上的(比如,從計算機存儲器的角度來看)。因此,本發(fā)明人意識到,一種迭代式的增量解碼技術(shù)可以在產(chǎn)生最佳的或接近最佳結(jié)果的同時顯著地減少對計算和空間的要求。這種解碼器在這里被稱為“貪心”解碼器,或者等效地被稱為“快速解碼器”。術(shù)語“貪心”是指根據(jù)近視優(yōu)化產(chǎn)生解決方案的技術(shù)—也就是說,給定一部分解決方案,產(chǎn)生可以最大限度改進目標的新方案作為下一估算值。換言之,貪心算法通常用近視的解決方案開始,并隨后嘗試逐步地改進它,直到達到了滿意的解決方案。
貪心解碼器的實施可包括多種以下特征的組合。
在一個方面,機器翻譯(MT)解碼包括接收在要被翻譯成目標語言的源語言中的文本段(比如,從句、句子、段落或論文)作為輸入,產(chǎn)生初始的翻譯(比如,詞對詞或短語對短語的注釋)作為當前的目標語言翻譯,對當前的目標語言翻譯應用一個或多個改進操作符以產(chǎn)生一個或多個改進的目標語言翻譯,確定一個或多個改進的目標語言翻譯與當前的目標語言翻譯相比是否表示改進的翻譯,將改進的目標語言設(shè)置為當前的目標語言翻譯,以及重復這些步驟直到出現(xiàn)結(jié)束條件為止。
應用一個或多個改進操作符可包括改變當前目標語言翻譯中的一個或兩個單詞的翻譯。另外,或者附加,應用一個或多個改進操作符可包括(i)改變當前目標語言翻譯中一個單詞的翻譯和同時(ii)在源語言文本段和當前目標語言翻譯之間產(chǎn)生最高概率對齊的位置上插入另一單詞。插入的該單詞具有高的零值多樣性(zero-value fertility)概率。
應用一個或多個改進操作符可包括從當前的目標語言翻譯刪除一個具有零值多樣性的單詞;和/或通過交換當前目標語言翻譯中的非重疊目標語言翻譯單詞段來改進源語言文本段和當前目標語言翻譯之間的對齊;和/或通過(i)從當前目標語言翻譯中除去目標語言單詞并(ii)連接源語言文本段中的單詞來改進源語言文本段和當前目標語言翻譯之間的對齊。
在不同的實施例中,應用改進的操作符可包括應用以下多項中的兩項或多項(i)改變當前目標語言翻譯中一個或兩個單詞的翻譯;(ii)改變當前目標語言翻譯中單詞的翻譯并同時在源語言文本段和當前目標語言翻譯之間產(chǎn)生最高概率對齊的位置插入另一單詞,插入的該單詞具有高的零值多樣性概率;(iii)從當前的目標語言翻譯中刪除一個具有零值多樣性的單詞;(iv)通過交換在當前目標語言翻譯中的非重疊目標語言單詞段來改進在源語言文本段和當前目標語言翻譯之間的對齊;和/或(v)通過從當前的目標語言翻譯除去一目標語言單詞并連接源語言文本段中的單詞來改進源語言文本段和當前目標語言翻譯之間的對齊。
確定一個或多個改進的目標語言翻譯與當前的目標語言翻譯相比是否表示改進的翻譯可包括,計算每個改進的目標語言翻譯的準確性概率。
結(jié)束條件可包括確定,改進的目標語言翻譯的準確性概率不大于當前目標語言翻譯的準確性概率。結(jié)束條件可以是出現(xiàn)了完成預定次數(shù)的迭代和/或流逝了預定量的時間。
在另一方面,計算機-應用的機器翻譯解碼方法可以,比如,應用反復改進源語言文本段(比如,從句、句子、段落或論文)的目標語言翻譯直到出現(xiàn)結(jié)束條件(比如,迭代預定次數(shù)的完成,預定時間的流逝,和/或確定改進翻譯的準確性概率不大于先前翻譯的準確性概率)的貪心解碼算法。
MT解碼方法可用近似的目標語言翻譯開始并隨著每個連續(xù)的迭代來反復改進翻譯。近似目標語言翻譯可以是,比如,單詞對單詞或短語對短語的注釋,或者近似目標語言翻譯可以是從多個預定翻譯中選擇的預定翻譯。
反復地改進翻譯可以包括用每個迭代法逐步改進翻譯,比如,通過在翻譯上應用一個或多個改進操作。
該一個或多個改進操作包含以下操作中的一項或多項(i)改變翻譯中的一個或兩單詞;(ii)改變一個單詞的翻譯并同時在源語言文本段和翻譯之間產(chǎn)生最高概率對齊的位置上插入另一單詞,該插入的單詞具有高的零值多樣性概率;(iii)從翻譯中刪除具有零值多樣性的單詞;(iv)通過交換翻譯中的非重疊目標語言單詞段來改進源語言文本段和翻譯之間的對齊;以及(v)通過從翻譯中刪除目標語言單詞并連接源語言文本段中的單詞來改進源語言文本段和翻譯之間的對齊。
在另一方面,機器翻譯解碼器可包括包含一個或多個被應用到當前目標語言翻譯的改進操作符從而產(chǎn)生一個或多個改進目標語言翻譯的解碼引擎;以及反復使用一個或多個改進操作符來改進當前目標語言翻譯的循環(huán)過程。該循環(huán)過程可在出現(xiàn)結(jié)束條件時終止。該循環(huán)過程可控制解碼引起以逐步用每個迭代法來提高當前的目標語言翻譯。
MT解碼器還可包括用于確定翻譯的準確性概率的模塊(包括,比如語言模型和翻譯模型)。
該循環(huán)過程可在一旦確定了改進翻譯的準確性概率不大于先前翻譯的準確性概率,和/或一旦完成了預定次數(shù)的迭代;和/或在流逝預定時間之后而終止。
可由此處所描述的貪心解碼器提供一個或多個以下的優(yōu)點。此處描述的技術(shù)和方法可得到用高準確度、高速度和相對較低的計算和空間成本來完成的MT解碼器。貪心解碼器可根據(jù)需要進行改進以完成完整句子組或它的任何分組的改進操作。這便向系統(tǒng)設(shè)計者和/或端用戶提供了對解碼器速度、準確度和/或其它性能特征進行調(diào)整的充分靈活性,從而匹配所需的目標或約束條件。對一系列基本改進操作的使用(其中每個操作都可用作獨立的操作符或與其它操作符結(jié)合使用)將進一步提高它的靈活性。另外,將獨立單獨的操作符用作解碼引擎的要素使得解碼器可延伸并可縮放。也就是說,可使用不同或附件的改進操作符以匹配系統(tǒng)設(shè)計者和/或端用戶的目標或約束條件。
研究人員已結(jié)合計算語言中的MT研究和相關(guān)領(lǐng)域進行了發(fā)展,而且他們經(jīng)常使用不同類型的樹形結(jié)構(gòu)來用圖形表示文本段(比如,從句、句子、段落或整個論文)的結(jié)構(gòu)。兩種基本樹的類型包括(1)語法樹,它可被用于用圖形表示文本段成分之間的語法關(guān)系,和(2)修辭樹(等同于修辭結(jié)構(gòu)樹(RST)或論述樹),它可被用于圖解文本段成分之間的關(guān)系。修辭結(jié)構(gòu)樹(也被稱為論述樹)在William C.Mann和Sandra A.Thompson的“Rhetorical structure theoryToward a functionaltheory of text organization(修辭結(jié)構(gòu)理論面向文本組織的功能性理論)”的本文8(3)243-281(1988)中進行了詳細討論。
圖6中所示的例子展示了可能會出現(xiàn)在文本碎片的修辭結(jié)構(gòu)樹中的結(jié)構(gòu)類型。樹的葉子對應于基本的論述單元(“edus”),內(nèi)部節(jié)點對應于鄰近的文本跨度。修辭結(jié)構(gòu)樹中的每個節(jié)點都由“狀態(tài)”(即,“核心”或“附屬”)和“修辭關(guān)系”來表示其特征,該修辭關(guān)系是處于兩個非重疊文本跨度之間的關(guān)系。在圖6中,核心由直線表示,附屬由弧表示。
本發(fā)明人意識到,不同語言(比如,日文和英文)中文本翻譯的修辭結(jié)構(gòu)之間出現(xiàn)了顯著差異。因此,為了改進MT的質(zhì)量,并作為大MT系統(tǒng)的部件,本發(fā)明人發(fā)展了用于自動將修辭結(jié)構(gòu)從一種語言改寫(比如,使用計算機系統(tǒng))成另一種語言,例如,將日語文本段的修辭樹改寫成英語對應文本段的修辭結(jié)構(gòu)的技術(shù)。
所披露的對樹形改寫技術(shù)的實現(xiàn)可包括以下特征的多種組合。
在一方面,自動產(chǎn)生樹(比如,語法樹或論述樹)包括接收對應于源語言文本段的樹作為輸入,以及對所接收的輸入應用一個或多個判決規(guī)則以產(chǎn)生對應于目標語言文本段的樹。
在另一方面,計算機-實現(xiàn)的樹的產(chǎn)生方法可包括接收對應于源語言文本段(比如,從句、句子、段落或論文)的樹作為輸入,以及接收到的輸入應用一個或多個判決規(guī)則(比如,共同表示轉(zhuǎn)換函數(shù)的判決規(guī)則序列)以產(chǎn)生對應于目標語言文本段的樹,該文本段可能是不同于文本段的類型。
產(chǎn)生樹的方法還可包括根據(jù)訓練組,比如,多個輸入-輸出樹對和每個輸入-輸出樹對之間的映射,來確定一個或多個判決規(guī)則。每個輸入-輸出樹對之間的映射可以是輸入樹的葉子和該對中輸出樹的葉子之間的映射。輸入-輸出樹對葉子之間的映射可以是一個對一個、一個對多個、多個對一個或者多個對多個。
自動確定一個或多個判決規(guī)則可包括確定操作序列,該操作序列當被應用于同一對中的輸入樹時產(chǎn)生輸出樹。確定操作序列可包括使用多個預先定義的操作,該操作可足夠?qū)⑷魏蔚妮斎霕渥g成該輸入樹同一對中的輸出樹。多個預先定義的操作包含一個或多個以下的操作將基本的論述樹(edt)從輸入列表轉(zhuǎn)入到堆棧中的移位操作;從堆棧頂部彈出兩個edt并將彈出的兩個edt結(jié)合進新樹隨后將新樹壓入到堆棧頂部的減少操作;將一edt分解為預定量單元的分解操作;創(chuàng)建與源語言樹無關(guān)的目標語言論述要素的創(chuàng)建-下一個的操作;將在堆棧頂部的一個edt熔入前一edt的熔合操作;交換輸入列表中edt位置的交換操作;以及指定一個或多個以下類型edt的指定類型操作單元、多重單元、句子、段落、多重段落以及文本。
多個預先定義的操作可表示包括移位操作、減少操作、分解操作、創(chuàng)建-下一個的操作、熔合操作、交換操作以及指定類型操作的閉合組。
確定序列操作可產(chǎn)生多種學習情況,一種學習情況對應一輸入-輸出樹對。在該情況中,產(chǎn)生樹的方法還可包括根據(jù)上下文將一個或多個特征與多個學習情況結(jié)合。結(jié)合的特征可包括以下一個或多個特征操作的和論述特征,基于對應的特征和詞匯特征。
產(chǎn)生樹的方法還可包括對多種學習情況應用學習程序(比如,C4.5)從而產(chǎn)生一個或多個判決規(guī)則。
在另一方面,產(chǎn)生計算機實現(xiàn)的樹的模塊可包括預定系列的判決規(guī)則,這些規(guī)則當被應用于與源語言文本段對應的樹(比如,語法或論述)時,產(chǎn)生與目標語言文本段對應的樹。預定系列的判決規(guī)則可限定源語言樹和目標語言樹組件的轉(zhuǎn)換函數(shù)。
在另一方面,確定不同類型樹(比如,語法或論述)之間的轉(zhuǎn)換函數(shù)可包括產(chǎn)生包含多個樹對的訓練組和在每個樹對之間的映射,每個樹對包含源樹和對應的目標樹,并通過確定產(chǎn)生多個學習情況,對于每個樹對,有當被應用于源樹時產(chǎn)生目標樹的序列操作;并通過向多種學習情況應用學習算法來產(chǎn)生多個判決規(guī)則。
確定不同類型樹之間的轉(zhuǎn)換函數(shù)可包括,在產(chǎn)生多個判決規(guī)則之前根據(jù)上下文將一個或多個特征與每種學習情況結(jié)合。
在另一方面,基于計算機實現(xiàn)的論述的機器翻譯系統(tǒng)可包括論述語法分析程序,該語法分析程序?qū)υ凑Z言文本段的論述結(jié)構(gòu)進行語法分析并產(chǎn)生文本段的源語言論述樹;論述結(jié)構(gòu)轉(zhuǎn)換模塊,該模塊接收源語言論述樹作為輸入并產(chǎn)生目標語言論述樹作為輸出;以及映射模塊,該模塊將目標語言論述樹映射為目標文本段。論述結(jié)構(gòu)轉(zhuǎn)換模塊可包括多個從源語言-目標語言樹對的訓練組產(chǎn)生的判決規(guī)則。
可如這里所述的由樹改寫提供以下一個或多個優(yōu)點。這里所述的技術(shù)和方法可產(chǎn)生樹改寫能力,這種能力使用戶(比如,諸如語言研究者之類的人的端用戶或諸如MT系統(tǒng)之類的計算機處理)自動在改寫或被翻譯成被譯成目標語言文本段樹的源語言中具有文本段的樹。這種功能作為單獨的形式和作為大系統(tǒng),諸如基于論述的機器翻譯系統(tǒng)的部件都是有用的。另外,因為這里描述的樹改寫器自動學習該怎樣將樹從一種語言改寫成另一種,所以該系統(tǒng)使用起來是容易且方便的。
用于訓練樹改寫器的映射配置還提供了幾個優(yōu)點。例如,通過允許源樹和目標樹中葉子之間的任何任意的分組(比如,一個對一個,一個對多個,多個對一個,多個對一個),提高了所得到映射的靈活性、豐富性和穩(wěn)定性。
提高的用于訓練樹改寫器的移位減少操作還提供了幾個優(yōu)點。比如,總的來說足夠?qū)⑷魏屋斎霕渥g成其成對的輸出樹的一系列基本操作提供了改寫樹形結(jié)構(gòu)的強大但緊湊的工具。
參考附圖和以下的描述對一個或多個實施例作詳細的闡述。本發(fā)明的其它特征、目的和優(yōu)點將從描述、附圖和權(quán)利要求變得更加明顯。
現(xiàn)在,將參考附圖詳細描述本發(fā)明的這些和其它方面,其中圖1A從用戶角度示出了機器翻譯的框圖。
圖1B示出了單詞級對齊的例子。
圖2示出了貪心解碼器一個實施例的操作流程圖。
圖3示出了完成法語句子的英語翻譯的貪心解碼器的一個例子。
圖4示出了在貪心解碼器完成法語句子的英語翻譯時用戶看到的輸出的例子。
圖5是示出使用三字母組語言模式的不同解碼器之間比較的表。
圖6示出了修辭結(jié)構(gòu)樹的一個例子。
圖7是日語源句子的一個例子。
圖8是圖7中日語源句子的論述結(jié)構(gòu)。
圖9是從圖11的日語源句子翻譯成的英語目標句子的論述結(jié)構(gòu)。
圖10示出了樹改寫器的框圖。
圖11示出了樹改寫器如何被用作大系統(tǒng)的子系統(tǒng)的框圖。
圖12示出了帶樹改寫器作為子系統(tǒng)的基于論述的機器翻譯系統(tǒng)的框圖。
圖13是創(chuàng)建樹改寫器程序的流程圖。
圖14示出了增長的樹形重建的例子。
圖15是用于關(guān)系減少分級機的學習曲線的圖表。
詳細描述貪心解碼器將比如,法語句子翻譯成英語的統(tǒng)計MT系統(tǒng),可被分成三部分(1)向任何英語字符串分配概率P(e)的語言模型(LM),(2)向任何英語法語字符串對分配概率P(f|e)的翻譯模型(TM),以及(3)解碼器。解碼器獲取先前未看到的句子f并嘗試尋找將P(f|e)最大化或等效地最大化P(e).P(f|e)的e。
Brown等人的1993年19(2)的計算語言中的″The mathematics of statisticalmachine translationParameter estimation(統(tǒng)計機器翻譯的數(shù)學參數(shù)預測)″中引入了一系列根據(jù)單詞替換單詞并重新排序的TM,但并未包括解碼算法。如果約束源語言和目標語言具有相同的單詞順序(通過選擇或經(jīng)過合適的預處理),則線性維特比(Viterbi)算法可如Tillmann等人在1997年In Proc.ACL中的″A DP-based search using monotone alignments in statistical translation(一種在統(tǒng)計翻譯中使用單調(diào)對齊的基于DP的搜索″中所描述的那樣使用。如果重新排序限制于二進制樹中節(jié)點周圍的旋轉(zhuǎn),則可通過多項式算法(Wu,″A polynomial-timealgorithm for statistical machine translation(統(tǒng)計機器翻譯的多項時間算法″,In Proc.ACL,1996)進行優(yōu)化解碼。對于任意的單詞排序,解碼問題是NP完成的(不確定多項時間完成)(Knight,″Decoding complexity in word-replacementtranslation models(單詞替換翻譯模式中的解碼復雜性)″,計算語言,25(4),1999)。
一種策略(Brown等人,″Method and system for natural languagetranslation(用于自然語言翻譯的方法和系統(tǒng))″,美國專利5,477,451,1995年;Wang等人,″Decoding algorithm in statistical machine translation(統(tǒng)計機器翻譯中的解碼算法)″,In Proc.ACL,1997年)是檢查一個可能的解碼的大子集并從中選擇合適的。當然,這種方法可能會遺漏好的翻譯。
因此,雖然解碼是明確優(yōu)化的任務,其中每個問題例子都有正確的回答,但很難迅速得出好的回答。以下詳細闡述了快速的貪心解碼器并將其性能與傳統(tǒng)的堆棧解碼器進行了比較。
在發(fā)展貪心解碼器的過程中,使用了IBM型號4,它在一對句子上的單詞對齊的概念附近環(huán)繞(見圖1B)。單詞對齊為每個法語單詞分配一個單獨的原址(英語字符串位置)。如果兩個法語單詞分配到同一個英語單詞,則就說該英語單詞具有兩個多樣性。類似地,如果一個英語單詞保持未分配,則它就具有零多樣性。圖1B中的單詞對齊對于假設(shè)的隨機過程是不夠的,通過該假設(shè)的隨機過程英語字符串被轉(zhuǎn)換成法語字符串。制定了幾組判定。
首先,每個英語單詞被分配一個多樣性。這些分配是根據(jù)表n(φ|ei)隨機制定的。任何具有零多樣性的單詞都將從字符串中刪除,任何具有兩個多樣性的單詞都被復制,等。如果一個單詞具有大于一個的多樣性,它就被稱為非常多樣。
在字符串中的每個英語單詞之后,增加了帶概率p1(通常為0.02)的不可見英語NULL元素的多樣性。NULL元素最終間產(chǎn)生″spurious″法語單詞。
接下來,根據(jù)表t(fj|ei)完成用法語單詞對英語單詞(包括NULL)的單詞對單詞的替換。
最后,改變法語單詞的排列。在改變中,IBM型號4在字頭(從特定英語單詞產(chǎn)生的最左邊的法語單詞)、非字頭(非最左邊的,只由非常多產(chǎn)的英語單詞產(chǎn)生的)和產(chǎn)生NULL的法語單詞之間是有區(qū)別的。
字頭根據(jù)分配給前一英語單詞的位置給英語單詞的字頭分配法語字符串位置。如果英語單詞Ee-1在法語位置j翻譯成某個意思,則ei的法語字頭被隨機地設(shè)置在失真概率為d1(k-j|class(ei-1),class(fk))的法語位置k上,其中″class″是指法語和英語詞匯項自動確定的單詞類別。該相對偏移k-j促使鄰近的英語單詞被譯成鄰近的法語單詞。如果ei-1是不多產(chǎn)的,則j取自ej-2,等。如果ei-1是非常多產(chǎn)的,則j是其法語翻譯位置的平均值。
非字頭如果英語單詞ei的字頭被設(shè)置在法語位置j上,則其第一個非字頭根據(jù)另一個表d>1(k-j|class(fk))被設(shè)置在法語位置k(>j)上。下一個非字頭被設(shè)置在概率為d>1(q-k|class(fq))的位置q上,等等。
產(chǎn)生NULL的單詞在設(shè)置了字頭和非字頭之后,產(chǎn)生NULL的單詞被隨機地插入剩余的空隙中。如果有φ0個產(chǎn)生NULL的單詞,則選擇任何概率為1/φ0!的設(shè)置方法。
這些起始于e的隨機判決產(chǎn)生了不同選擇的f和帶e的f的對齊。e被映射到帶以下概率的特定<a,f>對P(a,f|e)=Πi=1ln(φi|ei)xΠi=1lΠk=1φit(τik|ei)x]]>Πi=1,φi>0ld1(πil-cpi|class(epi),class(τil))x]]>Πi=1lΠk=2φid>1(πik-πi(k-1)|class(τik))x]]>m-φ0φ0p1θ0(1-p1)m-2θ0x]]>Πk=1φ0t(τ0k|NULL)]]>其中,由x符號分離的因數(shù)表示多樣性、翻譯、字頭排列、非字頭排列、零多樣性以及零翻譯概率。在該公式中的符號是l(e的長度)、m(f的長度)、ei(e中第i個英語單詞)、E0(NULL單詞)、φi(ei的多樣性)、φ0(NULL單詞的多樣性)、τik(由a中的ei產(chǎn)生的第k個法語單詞)、πik(f中的τik位置)、ρI(a中ei左邊第一個多樣性單詞的位置)、cρI(如果ρi不確定時ρi所有πik平均值的上限或0)。
以下述的角度看,給定新的句子f,則優(yōu)化的解碼器將搜索使P(e|f)≈P(e).P(f|e)最大的e。這里,P(f|e)是所有可能對齊a上P(a,f|e)的總和。因為該總和包含大量的計算,所以它通常被代替的對將P(e,a|f)≈P(e).P(a,f|e)最大化的(e,a)對的搜索所消除。假設(shè)語言模式P(e)是流利英語的n-gram模型。
圖2是完成MT的貪心解碼器的一個實施例的操作流程圖。如其中所示,第一步200是接收要翻譯的輸入句子。雖然在本例中,要翻譯的文本段是句子,但實際上可使用任何其它的文本段,比如,從句、段落或完整的論文。
在步驟202中,作為翻譯的第一近似,貪心解碼器產(chǎn)生輸入句子的“注釋”,實質(zhì)上是單詞對單詞的翻譯。該注釋通過將每個法語單詞fj與它最可能的英語翻譯efj(efj=argmaxet(e|fj)對齊來構(gòu)成。例如,在翻譯法語句子“Bienentendu,il parle de une belle victoire”中,貪心解碼器最初假設(shè)好的翻譯是“Well heard,it talking a beautiful victory”,因為“bien”的最佳翻譯是“well”,“entendu”的最佳翻譯是heard”,依此類推。對應于該翻譯的對齊在圖3的頂部示出。
在步驟204中,解碼器預測當前翻譯的準確性概率P(c)。
在步驟202中產(chǎn)生初始對齊之后,貪心解碼器在步驟206中試圖改進該對齊。也就是說,貪心解碼器試圖通過應用一個或多個句子改進操作符來尋找更可能的對齊(隱含地說,就是翻譯),如下文所述。為該特定的實施例選擇以下所描述的單詞級對齊和特定操作符的使用。但是,使用不同統(tǒng)計模式的可替換實施例可從不同或附加的操作中受益。
以下的操作符共同構(gòu)成了解碼器的翻譯引擎并包括以下
translateOneOrTwoWords(j1,e1,j2,e2)(翻譯一個或兩個單詞)該操作將位于位置j1和j2的一個或兩個法語單詞的翻譯從efj1和efj2改成e1和e2。如果efj是多樣性為1的單詞且ek是NULL,則從翻譯中刪除efj。如果efj是NULL單詞,則在翻譯中產(chǎn)生最高概率對齊的位置上插入單詞ek。如果efj1=e1或者efj2=e2,則該操作相當于改變單個單詞的翻譯。
translateAndInsert(j,e1,e2)(翻譯并插入)該操作將位于位置j上的法語單詞翻譯從efj變成e1,并同時在產(chǎn)生最大概率對齊的位置上插入單詞e2。單詞e2選自自動得到的多樣性為0的最高概率的1024個單詞的列表。當efj=e1,該操作相當于向?qū)R中插入多樣性為0的單詞。
removeWordOfFertilityO(i)(去除多樣性為0的單詞)該操作除去了在當前對齊中位置i上多樣性為0的單詞。
swapSegments(i1,i2,j1,j2)(交換段)該操作通過交換非重疊英語單詞段[i1,i2]和[j1,j2]從舊的對齊創(chuàng)建了新的對齊。在交換操作中,保留了所有在英語和法語單詞之間出現(xiàn)的連接。該段可與單詞一樣小或與|e|-1個單詞一樣長,其中|e|是英語句子的長度。
joinWords(i1,i2)(連接單詞)該操作在位置i1(或i2)上從對齊刪除英語單詞并連接由ei1(或ei2)到ei2(或ei1)產(chǎn)生的法語單詞。
在步驟208,解碼器為每個句子改進操作的結(jié)果預測準確性概率,P(M1)…P(Mn)。也就是說,確定每個新得到翻譯的概率。
在步驟210,解碼器通過比較它們各自的準確性概率來確定是否有新的翻譯好于當前的翻譯。如果有任何新的翻譯(即,準確性概率最高的翻譯方法)表示比當前翻譯好的結(jié)果,則在步驟214將最好的新翻譯設(shè)置成當前的翻譯,而且解碼過程返回到步驟206以便在新的當前翻譯方法上完成一個或多個句子改進操作。
重復步驟206、208、210和214直到改進操作停止(如在步驟210確定的),從而產(chǎn)生具有較高準確性概率的翻譯結(jié)果,在這點上,在步驟212解碼過程停止,并輸出當前的翻譯作為最終的解碼結(jié)果。另外,解碼器可以在預定次數(shù)的選擇迭代法之后停止,比如,將解碼器用作翻譯引擎的人類端用戶或應用程序。
因此,通過逐步增加的方式,從初始的注釋開始,貪心解碼器使用循環(huán)過程(比如,圖2所示的步驟206、208、210和214)在所有與考慮中的對齊相隔一個操作的對齊上盡全力地迭代。在每一步,解碼器都選擇最高概率的對齊,直到當前的對齊再也不能被改進為止。當它從法語句子“Bien entendu,ilparle de une belle victoire”的注釋開始時,比如,貪心解碼器如圖3所示地逐步改變初始的對齊,最終產(chǎn)生了“Quite naturally,he talks about agreat victory”的翻譯。在過程中,解碼器總共搜尋了77421次不同的對齊/翻譯,在其中,“Quite naturally,he talks about a great victory”具有最高的概率。
在解碼過程的步驟206中,可根據(jù)系統(tǒng)設(shè)計者和/或端用戶的喜好,使用所有五個句子改進的操作或者使用它們的任何子集以排除其它。例如,解碼器中最消耗時間的操作是swapSegments,translateOneOrTwoWords和translateAndInsert。SwapSegment對能夠在長度|e|的序列上創(chuàng)建的所有可能的非重疊跨度對進行迭代。TranslateOneOrTwoWords在|f|2×|t|2對齊上迭代,其中|f|是法語句子的大小,|t|是與每個單詞相關(guān)的翻譯數(shù)(在該實現(xiàn)中,這個數(shù)限制于最多10個翻譯)。TranslateAndInsert在|f|×|t|×|z|對齊上迭代,其中|z|是高概率具有多樣性為0的單詞的列表的大小(在該實現(xiàn)中為1024個單詞)。因此,可以設(shè)計解碼器省略一個或多個這些較慢的操作從而提高解碼的速度,但可能會以準確性為代價。另外,或者附加地,可設(shè)計解碼器根據(jù)系統(tǒng)設(shè)計者和/或端用戶來使用不同或附加的句子改進操作。
貪心解碼器的一個優(yōu)點就是它的速度。如上述試驗所展示的,貪心解碼器可產(chǎn)生快于任何其它解碼器的翻譯。貪心解碼器是“任一時間算法”——它運行得越長,就能找到更好的翻譯。貪心解碼器的一個可能的折衷與它搜索的結(jié)果空間的大小有關(guān),該空間相對較小。好的翻譯離初始的注釋越遠,貪心解碼器就越不可能找到它。
圖4示出了在工作中的貪心解碼器的另一個例子,其中用四個迭代完成可接受的結(jié)果。如其中所示,要翻譯的輸入句子是“ce ne est pas juste”。解碼器使用初始注釋“that not is not fair”并根據(jù)2.98457e-14的語言模式的概率(LMprob)以及3.79156e-09的翻譯模式的概率(TMprob)來確定該翻譯結(jié)果(迭代1)具有1.13162e-22的準確性概率(“Aprob”-LMprob和TMprob的乘積)。
在第二次迭代中,解碼器通過應用TranslateOneOrTwoWords操作將翻譯中的單詞“not”改為“is”的第一種情況,得到了新的翻譯結(jié)果“that is is not fair”,它具有如圖4中迭代2所示的概率。在第三次迭代中,解碼器應用了removeWordOfFertility0操作并省略了翻譯中單詞“is”的一種情況,得到“thatis not fair”的新的翻譯結(jié)果,它具有圖4中迭代3所示的概率。在第四次也是最后一次迭代中,解碼器再次應用了TranslateOneOrTwoWords操作從而將翻譯中的單詞“that”改為“it”,得到“it is not fair”的最終翻譯結(jié)果,它具有圖4中迭代4的概率。
為了確定貪心解碼器的性能,進行了一系列的試驗。在所有的試驗中,如在訓練中所確定的,只使用一個單詞的最多10次翻譯以及同樣自動從測試全集中抽取的多樣性為0的1024個單詞的列表來完成解碼。
在確定準確性和將所述貪心解碼器與傳統(tǒng)堆棧解碼器(諸如Brown等人在美國專利第5,477,451中所描述的)進行速度比較的試驗中,使用了505個句子的測試合集,這些句子沿著長度6、8、10、15和20均勻分布。用(1)速度和(2)翻譯準確性來評估解碼器。
通過使用三字母組語言模型的解碼器獲得的在圖5所示表中的結(jié)果顯示,貪心解碼算法是傳統(tǒng)堆棧解碼算法的有利替換。甚至當貪心解碼器使用速度優(yōu)化的操作系列(即,上述五個句子改進操作的總集的子集),在其中,一次最多翻譯、移動或插入一個單詞—它在圖5中標上“(greedy*)貪心*”—翻譯準確性也只受輕微的影響。相反,翻譯速度卻增長至少一個數(shù)量級。根據(jù)應用的情況,可以選擇使用提供優(yōu)化結(jié)果的慢速解碼器,或者提供非優(yōu)化但可以接受的結(jié)果的快速貪心解碼器。
可以有貪心解碼器的可替換實施例。比如,貪心解碼器可以從多個不同的初始翻譯開始(例如,在用于圖2中步驟202的注釋上的不同變化)并隨后并行地在每個不同的初始翻譯上運行貪心解碼器算法(也就是,圖2中的步驟204-214)。比如,貪心解碼器可以從選自多個存儲在存儲器中的翻譯短語的初始且近似的翻譯開始。最后,可選擇最佳的翻譯。該不同初始結(jié)果的并行翻譯可帶來更多的準確翻譯。
樹改寫器幾乎所有的傳統(tǒng)MT系統(tǒng)都一次處理文本一個句子。因為這個限制的集中,MT系統(tǒng)基本上不能對輸入文本的從句和句子進行重組和重新排序從而在目標翻譯中達到最自然的翻譯。然而,就算在如英語和法語般接近的語言之間,在一些句子中仍有10%的不匹配—在一種語言中在兩個句子中所述的內(nèi)容在另一種語言中只用了一個句子或三個句子(Gale等人,″A program for aligningsentences in bilingual corpora(一種在兩國語言全集中對齊句子的程序)″,計算語言,19(1)75-102頁,1993年)。對于差得很遠的一對語言,諸如日語和英語,差異就更加明顯了。
設(shè)想,比如,圖7中所示的日語句子(“文本(1)”)。以下的(“文本(2)”)是文本(1)的單詞對單詞的“注釋”(2)[The Ministry of Health and Welfare last year revealed1(衛(wèi)生福利部門去年披露)][population of future estimate according to2(根據(jù)…預測未來人口)][in future 1.499 persons as the lowest3(將來,1.499的人被認為是最低的)][that after *SAB* rising to turn that(那-以后[SAB]上升)4][*they* estimate but(他們預測,但是)5][already the estimate missesa point(雖然該預測遺漏了一點)6][prediction became(預測成為).7]相反,由職業(yè)翻譯完成的兩個句子的日語翻譯(“文本(3)”)如下(3)[In its future population estimates(對于其未來人口的預測)1][madepublic last year(去年公開作出的),2][the Ministry of Health and Welfarepredicted that the SAB would drop to a new low of 1.499 in the future,(健康福利部分預測,SAB在未來將降至1.499的新低)3][but would make acomeback after that,(但在那以后會有反彈)4][increasing once again(將再次增長).5][However,it looks as if that prediction will be quicklyshattered(但是,看上去好像預測將很快被粉碎).6]文本所標的跨度表示基本的論述單元(edus),也就是具有明確論述功能的最小文本跨度(Mann等人,″Rhetorical structure theoryToward afunctional theory of text organizaion(修辭結(jié)構(gòu)理論針對文本組織的功能理論)″本文,8(3)243-281,1988年)。如果仔細分析文本碎片,則會發(fā)現(xiàn),在翻譯的文本(1)中,職業(yè)的翻譯選擇首先實現(xiàn)日語單元2中的信息(文本(1)中的單元2一般來說對應文本(3)中的單元1);隨后實現(xiàn)日語單元1中的某些信息(文本(1)中的部分單元1對應文本(3)中的單元2);接下來不受理文本(1)中單元1、3和5給出的信息并將它如單元3一般以英語實現(xiàn);依此類推。同樣,翻譯選擇將原始日語句子中的信息重新組合成兩個英語句子。
在基本單元的級別,文本(1)中日語句子和文本(3)中其英語翻譯之間的對應關(guān)系可如以下映射(4)中地進行表示,其中,je表示,單元j的語義內(nèi)容完全在單元e中實現(xiàn);je表示單元e的語義內(nèi)容完全在單j中實現(xiàn);j=e表示,單元j和e在語義上是一樣的;以及 表示,在單元j和e之間有語義的重疊,但既不是正常的包含也不是正常的等同。(4)j1⊃e2;j1≅e3;]]>j2=e1;j3e3;j4≅e4;j4≅e5;]]>j5≅e3;]]>j6e6;j7e6;因此,(4)中的映射提供了一種清楚的表示方法,當信息從日語翻譯成英語的時候被重新排序并重新組合。但是,當翻譯文本的時候,也會有修辭翻譯發(fā)生變化的情況。使用CONTRAST(相反)關(guān)系在日語中實現(xiàn)的意思可使用,比如COMPARISON(比較)或CONCESSION(讓步)關(guān)系在英語中實現(xiàn)。
圖8和圖9以Mann和Supra的形式呈現(xiàn)了以上文本碎片(1)和(3)的論述結(jié)構(gòu)。每個論述結(jié)構(gòu)是其葉子對應鄰近文本跨度的樹。每個節(jié)點由狀態(tài)(核心或附屬)以及修辭關(guān)系表述特征,修辭關(guān)系是在兩個非重疊文本跨度之間的關(guān)系。核心和附屬的差異來自于經(jīng)驗的觀察,核心表示對作者的意圖來說比附屬更加必要的東西;而且修辭關(guān)系的核心是獨立于附屬就可以理解的,但反過來不是這樣的。當跨度是同等重要的時候,關(guān)系就是多核心的;比如,在單元[3]和圖8和圖9的英語文本的修辭結(jié)構(gòu)之間的跨度[4,5]之間的CONTRAST(相反)關(guān)系就是多核心的。以后綴“-e”結(jié)尾的修辭關(guān)系表示對應于嵌入的語法成分的關(guān)系。比如,在英語文本結(jié)構(gòu)中單元2和1之間的ELABORATION-OBJECT-ATTRIBUTE-E(確立賓語屬性)關(guān)系就對應于限制性的關(guān)系。
如果知道了在edu級別的映射,則也就能夠確定在跨度(論述成分)級別的映射。比如,在(4)中使用基本的映射,可以確定日語跨度[1,2]對應于英語跨度[1,2],日語單元[4]對應于英語跨度[4,5],日語跨度[6,7]對應于英語單元[6],日語跨度[1,5]對應于英語跨度[1,5],依此類推。如圖8和圖9所示,在日語樹中的跨度[1,5]和[6,7]之間的CONCESSION(讓步)關(guān)系對應于英語樹中的跨度[1,5]和單元[6]之間的類似關(guān)系(按模數(shù)計算,在日語中關(guān)系為句子碎片之間的,而在英語中卻為完整句子之間的)。但是,在日語樹中的單元[3]和[4]之間的TEMPORAL-AFTER(時間-以后)關(guān)系卻是以英語樹中的單元[3]和跨度[4,5]之間的CONTRAST(相反)關(guān)系實現(xiàn)的。并且因為日語單元[6]和[7]被熔入到英語中的單元[6]中,關(guān)系ELABORATION-OBJECT-ATTRIBUTE-E(確立賓語屬性)在英語文本中不再明確。
圖8和圖9中兩個論述樹之間的某些差異已傳統(tǒng)地在語法級別上被用于MT系統(tǒng)上。比如,可只用語法模型來處理單元1和單元2的重新排序。但是,如以上所述地,關(guān)于信息不僅在句子級別,在段落和文本級別也被修辭地組合并組織的方式,在日語和英語之間有巨大的差異。更加特別地,當人們將日語翻譯成英語的時候,他們對日語文本的從句、句子和段落重新排序,他們將信息重新組合成不是原始日語單元中一一映射的從句、句子和段落,而且他們修辭地重新組織被翻譯文本的結(jié)構(gòu)從而反映對于英語特定的修辭約束。如果一種翻譯系統(tǒng)產(chǎn)生既文法清晰有連貫的文本,則它必須保證,目標文本的論述結(jié)構(gòu)是反映目標語言的自然翻譯,而不是源語言的自然翻譯。
在以下的試驗部分中,經(jīng)驗顯示,在日語文本和其對應的英語翻譯的修辭結(jié)構(gòu)之間有巨大的差異。這些差異進一步說明了發(fā)展論述結(jié)構(gòu)改寫的計算模型的需要和愿望。
試驗為了評定論述結(jié)構(gòu)在MT中的動作,手工為40個日語文本和他們對應的翻譯創(chuàng)建了論述樹的全集。該文本從ARPA全集中隨機地選取(White等人,″Evalution in the ARPA machine-translat ion program1993 methodology(在ARPA機器翻譯程序中的計算1993方法″,在ARPA Human Language TechnologyWorkshop(ARPA人類語言技術(shù)工作會議)的會議記錄中135-140頁,1994年,華盛頓)。平均每個文本具有大約460個單詞。日語文本總共具有335個段落和773個句子。英語文本總共具有337個段落和827個句子。
沿著Marcu等人在馬里蘭(1999)的ACL’99 Workshop on Standards andTools for Discourse Tagging(對論述標記的標準和工具的ACL的99工作會議)的會議記錄第48-57頁的″Experiments in constructing a corpus ofdiscourse trees(構(gòu)建論述樹的全集的試驗)″的線索發(fā)展了一種論述注解協(xié)議。使用Marcu的論述注解工具(1999)從而手工地構(gòu)建了全集中所有日語和英語文本的論述結(jié)構(gòu)。日語和英語文本中的百分之十用兩個注解進行修辭標注。該工具和注解協(xié)議可在以下獲得http//www.isi.edu/~marcu/software/該注解協(xié)議在2641個日語edus和2363個英語edus的整個全集上產(chǎn)生。
表1標記的可靠性注解的可靠性是使用Marcu等人(1999)的用于在分級結(jié)構(gòu)計算kappa統(tǒng)計(Siegel等人,Non-parametric Statistics for the Behavioral Sciences(行為科學的非參數(shù)統(tǒng)計),McGraw-Hill,第二版,1988年)的方法。以上的表1顯示了反映基本論述單元ku、分級論述跨度ks、分級核心分配kn以及分級修辭關(guān)系分配kr的注解可靠性的平均kappa統(tǒng)計。高于0.8的Kappa數(shù)對應好的一致性;高于0.6的kappa數(shù)對應可接受的一致性。所有的kappa統(tǒng)計在高于α=0.01的級別上都是統(tǒng)計上有意義的。除了kappa統(tǒng)計,表1還在括號內(nèi)顯示了每個文件的數(shù)據(jù)指針的平均個數(shù),在該數(shù)上計算kappa統(tǒng)計。
對于每對日語-英語論述結(jié)構(gòu),還手工創(chuàng)建了對齊文件,該文件在第一頁上討論的注解中規(guī)定了日語文本的edus和英語翻譯的edus之間的對應關(guān)系。
使用標號的再調(diào)用和反映日語和英語論述結(jié)構(gòu)類似處的精確數(shù)字,參考它們的edu范圍、分級跨度、核心以及修辭關(guān)系的分配來計算英語和日語論述樹之間的相似性。
因為從一種語言到另一種語言,所比較的樹在基本單元的數(shù)目上、這些單元的順序上以及單元遞歸地組成論述跨度的方式上都是不同的,所以要計算兩種類型的再調(diào)用和查準數(shù)。在計算Position-Dependent(P-D)(位置獨立)的再調(diào)用和查準數(shù)中,當日語跨度包含對應于英語跨度中edus的所有日語跨度時,而且當日語和英語跨度對于總體結(jié)構(gòu)出現(xiàn)在同一位置中時,日語跨度被認為是匹配英語跨度的。例如,圖8和圖9中的英語樹由10個子句的跨度表示[1]、[2]、[3]、[4]、[5]、[6]、[1,2]、[4,5]、[3,5]和[1,5]。(跨度[1,6]包含了兩個句子,所以它不是子句。)日語論述樹只有4個可在同一位置中與英語跨度匹配的跨度,它們是跨度[1,2]、[4]、[5]和[1,5]。因此,對于日語樹和英語樹在句子級別下的論述,它們之間的相似性有4/10的再調(diào)用和4/11的查準數(shù)(在圖8和圖9中有11個子句日語跨度)。
在計算位置獨立(P-I)的再調(diào)用和查準數(shù)的過程中,甚至當日語跨度在翻譯中“浮動”到英語樹中的一個位置時,P-I再調(diào)用和查準數(shù)也不會受影響。位置獨立的數(shù)反映了兩棵樹t1和t2是否都有子樹t的直觀,以及如果它們不共享一棵樹它們是否比原來更加相似的直觀。在句子級別,假設(shè)比如,適當翻譯了關(guān)系從句的語法結(jié)構(gòu)(雖然它未被恰當?shù)剡B接),這就要好于錯誤地翻譯該從句。位置獨立的數(shù)為比較論述樹提供了更加優(yōu)化的度量。它們比位置不獨立的數(shù)跨越更加寬的范圍值,從而使在日語和英語論述結(jié)構(gòu)之間有更好的差異特征。當取得一優(yōu)化位置的時候,對于表1中樹的子句上的跨度,再調(diào)用是6/10,查準是6/11,因為除了跨度[1,2]、[4]、[5]和[1,5],也可以用日語跨度[1]匹配英語跨度[2],用日語跨度[2]匹配日語跨度[1]。
為了提供對兩棵樹有多接近的較佳預測,對位置不獨立和獨立的再調(diào)用和查準數(shù)在句子級別(其中,單元由edus給定,跨度由單元組或單獨的句子給定);段落級別(其中,單元由句子給定,跨度由句子組或單獨的段落給定);以及文本級別(其中,單元由段落給定,跨度由段落組給定)進行計算。這些數(shù)從句子到文本提供了論述結(jié)構(gòu)和關(guān)系是怎樣在所有論述級別上從一種語言映射到另一種語言的詳細情況。句子級別上的差異可由日語和英語語法結(jié)構(gòu)之間的差異來解釋。在段落和文本級別上的差異具有純修辭的解釋。
當對于核心和關(guān)系分配隨再調(diào)用和查證數(shù)進行計算時,標上每對跨度的狀態(tài)和修辭關(guān)系也是其中的因素。
表2日語和英語論述樹結(jié)構(gòu)的相似性以上的表2總結(jié)了每個級別(句子、段落和文本)的結(jié)果(P-D和P-I再調(diào)用(R)以及(P)查準數(shù))?!凹訖?quán)平均值”行的數(shù)報告了根據(jù)每個級別的單元數(shù)加權(quán)的句子、段落和文本規(guī)定數(shù)的平均值。在“全部”行的數(shù)目反映了在整個樹計算的再調(diào)用和查準數(shù),并不考慮句子和段落的范圍。
假設(shè)日語和英語有非常不同的語法結(jié)構(gòu),則再調(diào)用和查準結(jié)果低,反映了句子級別以下創(chuàng)建的論述樹之間的相似性。但是,如表2所示,這些是段落級別和文本級別的論述樹之間的巨大差異。例如,位置獨立的數(shù)顯示,只有大約62%的句子和大約53%的分級跨度創(chuàng)建的句子可在兩個全集之間匹配。當看著狀態(tài)和與在段落級別的句子上創(chuàng)建的跨度相關(guān)的修辭關(guān)系時,P-I再調(diào)用和查準數(shù)分別下降大約43%和35%。
再調(diào)用和查準數(shù)中的差異,都用在信息以兩種語言被組織成段落的方式的差異,以及信息在段落級別內(nèi)和附近修辭地構(gòu)成方式中的差異進行解釋。
這些結(jié)果明顯說明,如果試圖逐句逐句地將日語翻譯成英語,則得到的文本從論述的角度看可能會不自然。例如,如果使用CONTRAST(相反)關(guān)系翻譯的某些日語信息是使用英語中的ELABORATION(確立)關(guān)系翻譯的,則它在英語翻譯中使用論述標記像“but”就不太合適了,雖然那樣可以與日語論述結(jié)構(gòu)相一致。
對日語和英語之間的修辭映射的檢查反映了,某些日語修辭翻譯一貫地映射到英語中的一個或幾個較佳翻譯。例如,日語中115個中的34個CONTRAST(相反)關(guān)系映射到英語中的CONTRAST(相反)關(guān)系;27個成為諸如ANTITHESIS(對立)和CONCESSION(讓步)之類關(guān)系的核心,14個被翻譯COMPARISON(比較)關(guān)系,6個被翻譯成CONCESSION(讓步)關(guān)系的附屬,5個被翻譯成LIST(列表)關(guān)系,等。
基于論述的轉(zhuǎn)移模型圖10是樹改寫器在被訓練過程中的框圖。如圖所示,樹改寫器700將兩種不同類型的樹作為輸入,比如,一種A型樹和另一種B型樹,并自動學習該怎樣將A型樹改寫成B型樹。樹改寫器700產(chǎn)生將A型樹改寫成B型樹的轉(zhuǎn)換函數(shù)H(A→B)作為輸出。因此,假設(shè)A型對應于日語的樹,B型對應于英語的樹,H(A→B)使用戶(比如,人的端用戶或者調(diào)用樹改寫器的軟件應用)能夠?qū)⑷魏斡⒄Z的樹形結(jié)構(gòu)轉(zhuǎn)換成日語中對應的部分。
樹改寫器對語法樹、修辭樹以及幾乎任何其它類型用于計算語言的樹形結(jié)構(gòu)進行動作。樹改寫器不僅在機器翻譯上有應用,在概述、論述分析、語法分析、信息檢索、自動測試記分和其它產(chǎn)生或使用樹的場合都有應用。例如在機器翻譯中,可使用樹改寫器將一種語言特定的語法/修辭樹改寫成另一種語言的語法/修辭樹。總的來說,可使用樹改寫器將長文本或句子的論述/語法結(jié)構(gòu)改寫成短文本或句子的論述/語法結(jié)構(gòu)。
在圖11中示出了這種高度的總應用性,其中的樹改寫器801,在其被訓練以學習轉(zhuǎn)換函數(shù)H(樹→樹’)之后,可接受一棵樹作為產(chǎn)生樹作為輸出的任何應用800的輸入。在輸出端,可將樹改寫器的輸出(樹’—輸入樹的改寫版本)用作使用樹作為輸入的任何應用的輸入。
圖12示出了作為較大系統(tǒng)-即基于論述的機器翻譯系統(tǒng)一部分的樹改寫器的特定應用的框圖。不像傳統(tǒng)的MT系統(tǒng)那樣在實行中對翻譯采用“平鋪”的方法,比如,通過單獨翻譯較大工作量(比如,一篇論文)的各個句子那樣,圖12的基于論述的MT系統(tǒng)完整地翻譯整個文本,可能會產(chǎn)生與原始相比的不同數(shù)目和/或排列的句子,但可以更好地捕捉原始文本的重點的論述或修辭。
如圖12所示,基于論述的MT系統(tǒng)910接收源語言文本900作為輸入并產(chǎn)生目標語言文本908作為輸出,該系統(tǒng)是基于論述對源語言文本900進行的翻譯。系統(tǒng)910包括三個基本部分—論述分析器902、論述結(jié)構(gòu)轉(zhuǎn)換模塊904(即,已被訓練成使用轉(zhuǎn)換函數(shù)H(樹→樹’)改寫樹的樹改寫器的特定例子)以及目標語言樹-文本映射器906。
論述分析器902初始地得到源語言文本的論述結(jié)構(gòu)并產(chǎn)生對應的論述樹作為其輸出。在Daniel Marcu,″A Decision-Based Approach to RhetoricalParsing(基于判決的修辭分析方法)″,ACL的99(1999)的會議記錄中,詳細闡述了可被用作論述分析器902的論述分析器,將其結(jié)合于本文中。目標語言樹-文本映射器906是將輸入文本映射為使用翻譯的目標語言的統(tǒng)計模塊以及加入論述特定特征的語言模型,該論述指定特征從論述分析器902和論述結(jié)構(gòu)轉(zhuǎn)換模塊904的輸出提取。Ulrich Germann、Michael Jahr、Kevin Knight、DanielMarcu和Kenji Yamada的″Fast Decoding and Optimal Decoding for MachineTranslation(用于機器翻譯的快速解碼和優(yōu)化解碼)″,計算語言協(xié)會第39屆年會的會議記錄,7月6日到11日,2001年,對合適的映射器906作了詳細的闡述,將其結(jié)合于本文中。
如上所提到的,論述結(jié)構(gòu)轉(zhuǎn)換模塊904是已被訓練成將需要輸入類型的樹改寫成需要輸出類型的樹改寫器的特定例子。更確切地說,論述結(jié)構(gòu)轉(zhuǎn)換模塊904改寫輸入文本的論述結(jié)構(gòu),從而反映對目標文本自然的論述翻譯。
圖13是描繪過程1300的流程圖,可使用該過程訓練樹改寫器自動學習兩種不同類型樹形結(jié)構(gòu),比如A型樹和B型樹之間的轉(zhuǎn)換函數(shù)。
如圖13所示,第一步1301是產(chǎn)生輸入-輸出樹對[Ts,Tt]和每個輸入-輸出樹對的葉子之間的映射C的訓練組。輸出樹對是需要轉(zhuǎn)換的類型,換言之,是源樹類型Ts。輸出樹對是轉(zhuǎn)換后的類型,換言之,是目標樹類型Tt。
輸入樹和其成對的輸出樹的葉子之間的映射C確定了源文本段和其對應的目標語言翻譯之間的對應關(guān)系。這些映射既可如以下所述地手工產(chǎn)生,也可以自動產(chǎn)生,就如Kevin Knight和Daniel Marcu的“Statistics—BasedSummarization Conference On Artificial Intelligence”(在人工智能的第17屆國家會議(AAAI--2000)第703到710頁)中所描述的,將其結(jié)合于本文。
在以上的等式(4)中示出了可使用的日語-英語輸入-輸出對的葉子之間映射的可提供類型,其中j是指日語文本段,e是指該文本段的英語翻譯。需要注意的是,由等式(4)所示表示的映射并非限制于一一映射,而可以是任何任一的映射—也就是說,不僅是一一對應,也有一對多,多對一和多對多。
這種在映射中的靈活性顯著地提高了確定輸入和輸出樹之間關(guān)系時的豐富性,并進一步提高了自動得到的轉(zhuǎn)換函數(shù)H[]的靈活性。
在產(chǎn)生了訓練組(輸入-輸出樹對和它們之間的映射)之后,訓練過程接下來在步驟1303確定操作的組和順序,該操作以其成對的輸入樹起始產(chǎn)生給定的輸出樹。這個步驟基于以下的七個基本操作完成,它們被共同稱為“延伸的移位-減少”操作—移位、減少、分解、創(chuàng)建下一個、熔合、交換以及分配類型—這在以下用“基于論述的轉(zhuǎn)換模型”為段標題的段落中作詳細的描述。這七步操作足夠?qū)⑷魏谓o定的輸入樹改寫成其成對的輸出樹。
步驟1303的輸出是一組學習的情況—一個學習情況對應訓練組中的每個輸入-輸出樹對。實質(zhì)上,每種學習情況都是延伸的移位-減少操作的預定組,當被應用于輸入樹的時候,將產(chǎn)生其成對的輸出樹。
接下來,在步驟1305,樹改寫器訓練過程1300將特征(比如,操作性和論述的特征,基于對應的特征以及詞匯的特征)與學習情況結(jié)合以反映在其中完成操作的上下文。在下面以“學習論述-轉(zhuǎn)換模型的參數(shù)”為標題的段落中對1305步驟作詳細描述。
接著,在步驟1307,樹改寫器訓練過程1300應用學習算法,例如,如J.RossQuinlan,在Morgan Kaufmann出版社(1993)出版的″C4.5Programs forMachine Learning(機器學習的程序)″中描述的C4.5算法,以從學習情況學習判決規(guī)則組。在下面以“學習論述轉(zhuǎn)換模型的參數(shù)”為標題的段落中對步驟1307作詳細的描述。該判決規(guī)則組共同構(gòu)成了轉(zhuǎn)換函數(shù)H(Ts→Tt),用于將任何類型樹Ts改寫成Tt類型樹。該轉(zhuǎn)換函數(shù)可隨后被用戶、應用或其它將前不可見類型樹Ts改寫成Tt類型樹的自動過程所用。
以下是對訓練樹改寫器的更詳細討論。
為了學習怎樣改寫論述結(jié)構(gòu)樹,討論以下在以下定義3.1中定義的相關(guān)問題。
定義3.1 給定兩棵樹Ts和Tt以及在葉子級別以術(shù)語=,,和 反動作在Ts和Tt之間定義的對應關(guān)系表C,尋找將樹Ts改寫成Tt的一系列動作。
如果對于任何元組(Ts,Tt,C),都能得到這樣的一系列動作,則就可以使用(Ts,Tt,C)元組的全集從而自動學習以從與樹Ts具有相同結(jié)構(gòu)特性的不可見樹Tsi獲得與樹Tt具有類似結(jié)構(gòu)特性的樹Ttj。
解決定義3.1中的問題包括,部分地延伸由Mangerman的″Statisticaldecision-tree models for parsing(用于分析的統(tǒng)計判決-樹模型)″ACL95的會議記錄276-283頁,劍橋,Massachusetts(1995);Hermjakob等人的″Learning parse and translation decisions from examples with richcontext(從上下文豐富的例子學習分析和翻譯判定)″ACL97的會議記錄482-489頁,馬德里,西班牙(1997);以及Marcu″A decision-based approach torhetorical parsing(基于判決的修辭分析的方法)″ACL99的會議記錄365-372頁,Maryland(1999)中應用的分析模式。在該延伸的模式中,轉(zhuǎn)換過程從空的堆棧和包含一系列基本論述樹edt的輸入列表開始,其中一個edt對應作為輸入給出的樹Ts中的每個edu。與每個edt相關(guān)的狀態(tài)和修辭關(guān)系未作定義。在每一步,轉(zhuǎn)換模塊應用旨在從Ts中的單元創(chuàng)建論述樹Tt的操作。在論述轉(zhuǎn)換模塊的范圍內(nèi),實現(xiàn)了7種類型的操作·SHIFT(移位)操作,將第一edt從輸入列表轉(zhuǎn)移到堆棧;·REDUCE(減少)操作,將位于堆棧頂部的兩個論述樹彈出;將它們結(jié)合到新的樹中,該 新的樹更新包括在該操作中樹的狀態(tài)和修辭關(guān)系名稱;并將新的樹推入到堆棧頂部。使用這些操作來創(chuàng)建目標語言中論述樹的結(jié)構(gòu)。
·BREAK(分解)操作,使用該操作從而將輸入列表開頭的edt分解為預定數(shù)量的單元。使用這些操作來保證,得到的數(shù)具有與Tt相同數(shù)目的edt。例如,當任何時候,日語edu映射為多個英語單元,使用BREAK操作。
·CREATE-NEXT(創(chuàng)建下一個)操作,比如,使用該操作從而創(chuàng)建與日語(源語言)樹無關(guān)的英語(目標語言)論述成分。
·FUSE(熔合)操作,使用該操作從而將在堆棧頂部的edt熔合到隨即先于它的樹之中。比如,當任何時候多個日語edu映射到一個英語edu,使用該操作。
·SWAP(交換)操作,該操作將在輸入列表開頭的edt與在尋找到的一個或多個位置右邊的edt進行交換。這些操作是用于對論述成分的重新排序。
·ASSIGHNTYPE(分配類型)操作,該操作將一個或多個以下類型分配給堆棧頂部的樹t;單元、多單元、句子、段落、多段落以及文本。使用這些操作以保證對于目標語言特定的句子和段落范圍。
例如,圖9中英語樹的第一個句子可通過后跟動作(5)的序列而從原始的日語序列獲得,在圖14中示出了以下動作(5)的效果。為了緊湊,圖14未示出ASSIGNTYPE動作的效果。為了同樣的目的,某些線對應超過一個的動作。(5)分解2;交換2;移位;分配單元類型;移位;減少-NS-確立賓語樹形-E;分配多單元類型;移位;分配單元類型;移位;分配單元類型;熔合;分配單元類型;交換2;移位;分配單元類型;熔合;分解2;移位;分配單元類型;移位;分配單元類型;減少-NS-確立附加;分配多單元類型;
減少-NS-相反;分配多單元類型;減少-SN-背景;分配句子類型。
對于使用的全集,為了使基于論述的轉(zhuǎn)換模塊從任何日語論述樹開始獲得任何英語論述樹,要充分實現(xiàn)·一次SHIFT(移位)操作;·3×2×85次REDUCE(減少)操作;(對于核心分配的三種可能對,NUCLEUS-SATELLITE(NS)(核心-附加),SATELLITE-NUCLEUS(SN)(附加-核心)和NUCLEUS-NUCLEUS(NN)(核心-核心),有兩種方式減少兩棵鄰近的樹(一棵是得到的二進制樹,另一棵得到的是非二進制樹(Marcu,″A decision-basedapproach to rhetorical parsing(基于判決進行修辭分析的方法)″,在ACL99的會議記錄365-372頁,Maryland(1999))和85個關(guān)系名稱。);·三種類型的BREAK(分解)操作;(在使用的全集中,將日語單元分解為兩個、三個或最多四個單元。);·一種類型的CREAT-NEXT(創(chuàng)建下一個)操作;·一種類型的FUSE(熔合)操作;·十一種類型的SWAP(交換)操作;(在全集中,日語單元與它們在英語特定翻譯中的位置至多相隔11個位置。)·七種類型的ASSIGNTYPE(分配類型)操作單元、多單元、句子、多句子、段落、多段落和文本。
這些動作對于將任何樹Ts改寫成任何樹Tt來說是足夠了,其中Tt可具有不同數(shù)目的edus,Tt的edus可具有不同于Tsedus的排序,而且兩棵樹的分級結(jié)構(gòu)也可以不同。
學習論述轉(zhuǎn)換模型的參數(shù)轉(zhuǎn)換模型的每一種結(jié)構(gòu)都與學習情況有關(guān)。學習情況通過使用手工構(gòu)建的基本單元級別上的對應關(guān)系由程序產(chǎn)生,該程序從將全集中的日語樹映射到英語兄弟樹的動作序列自動得到??偟膩碚f,40對日語和英語論述樹產(chǎn)生了14108種情況。
來自于以下類別的特征組結(jié)合到每種學習情況操作和論述特征反映了堆棧和輸入列表中樹的數(shù)量以及上五個操作的類型。它們對附屬于部分樹類型的信息進行編碼,該部分樹被創(chuàng)建成某個時間和處于這些樹之間的修辭關(guān)系。
基于對應關(guān)系的特征反映了核心和修辭的關(guān)系,以及對應于被創(chuàng)建成給定時間的類似英語的部分樹的日語樹的類型。
詞匯特征規(guī)定了,對應于被創(chuàng)建成給定時間的結(jié)構(gòu)的日語跨度是否使用可能的論述標記,諸如dakara(because因為)和no ni(although雖然)。
論述轉(zhuǎn)換模塊使用了C4.5程序(Quinlan,C4.5機器學習的程序,MorganKaufmann出版社(1993))從而學習規(guī)定日語論述樹應怎樣映射為類似英語樹的判決樹和規(guī)則。分級機的十倍交叉驗證計算得到70.2%(±0.21)的準確性。
為了更好地理解分級機的優(yōu)勢和劣勢,將問題分解為更小的部分。因此,代替一次學習所有的動作,它先確定改寫工序是否應選擇SHIFT(移位)、REDUCE(減少)、FUSE(熔合)、SWAP(交換)或ASSIGNTYPE(分配類型)操作(表3中的“主動作類型”分級機),而且只有通過確定完成什么類型減少操作、要將日語單元分解成多少個單元、與SWAP(交換)的單元距離多大以及應該完成什么類型ASSIGNMENT(分配類型)操作才能定義該決定。以下的表3示出了如使用十倍交叉驗證工序確定的每個數(shù)據(jù)組的大小和每個這些分級機的性能。為了比較,每個分級機與一主要的基線配對。
表3分級機的性能表3中的結(jié)果顯示,要學習的最難的子任務是確定日語單元應該被分解的單元數(shù)以及確定到要交換的單元的距離。使用的特征不能提煉這些動作類型的基線分級機。用于“主要動作類型”(見表4)分級機的含混矩陣顯示,系統(tǒng)主要在識別BREAK(分解)和CREATE-NEXT(創(chuàng)建下一個)的動作上有麻煩。系統(tǒng)在學習偏向何種類型核心排序(“核心-減少”分級機)以及為類似英語的結(jié)構(gòu)選擇何種關(guān)系(“關(guān)系-減少”分級機)上有困難。
表4用于主要動作類型分級機的含混矩陣圖15顯示了典型的學習曲線,該曲線對應于“減少關(guān)系”的分級機。該學習曲線揭示了,更多的訓練數(shù)據(jù)可改進性能。但是,它們也揭示了,為了顯著地提高性能需要更好的特征。
以下的表5顯示了某些學習規(guī)則。第一條規(guī)則說明了修辭映射,其中,ATTRIBUTION(屬性)關(guān)系的核心和附屬順序,當從日語翻譯成英語時被改變了。學習第二條規(guī)則是為了將EXAMPLE(例子)的日語附屬映射為證據(jù)的英語附屬。
if rhetRelOfStack-1InJapTree=ATTRIBUTIONthen rhetlOfTopStackInEngTree←ATTRIBUTIONif rhetoRelOfTopStackInJapTree=EXAMPLE∧isSentenceTheLastUnitinJapTreeOfTopStack=false
then rhetReOfTopStackInEngTree←EVIDENCE表5關(guān)系-減少分級機的規(guī)則例基于論述的轉(zhuǎn)換模塊的估算通過應用總的分級機或其它六個連續(xù)的分級機,可以將任何日語論述樹映射為其結(jié)構(gòu)接近于英語自然翻譯的樹。為了估算基于論述的轉(zhuǎn)換模塊,完成了十倍交叉驗證的試驗。也就是說,分級機以36對手工創(chuàng)建并對齊的論述結(jié)構(gòu)進行訓練,并隨后使用該學習的分級機從而將4棵不可見日語論述樹映射為類似英語的樹。所得樹和手工創(chuàng)建的英語樹的相似性使用上述的度量進行測量。該工序被重復10次,每次都訓練并測試不同子集的樹對。
表2中報告的結(jié)果作為模型的基線。該基線對應于不應用論述的知識。以下的表6顯示了當使用總的分級機以將日語樹映射為像英語一樣的樹的時候,再調(diào)用和查準數(shù)中獲得的絕對改進(百分點)??偟姆旨墮C產(chǎn)生最佳的結(jié)果。表6中的結(jié)果是十倍交叉驗證試驗的平均值。
表6相對于表2中數(shù)字,對基于論述的轉(zhuǎn)換模塊的相對估算表6中的結(jié)果顯示,本文描述的模型,在創(chuàng)建句子的類似英語的論述結(jié)構(gòu)方面做得比基線好,但在創(chuàng)建段落和文本級別的類似英語的結(jié)構(gòu)方面沒有基線做得好。該模型的一個可能缺點看來來自于其在分配段落范圍時的低性能。因為分級機不能正確學習哪些跨度要考慮段落,哪些不要,所以再調(diào)用和查準在段落和文本級別的結(jié)果受到不利的影響。段落和文本級別的較差結(jié)果也可由誤差來解釋,這些誤差的影響在樹的逐步重建工序中積累;也可由這樣的事實解釋,即對于這些級別,從中學習了較少的數(shù)據(jù)。
但是,如果忽略了句子和段落的范圍并總體地估算了論述結(jié)構(gòu),則會發(fā)現(xiàn),該模型根據(jù)位置不獨立的計算無論如何都比基線做得好;在根據(jù)位置獨立估算的對基本單元、分級跨度以及核心狀態(tài)的分配方面比基線做得好,而只是在根據(jù)位置獨立估算的修辭關(guān)系分配方面稍微做得沒有基線好。更加復雜的論述特征,諸如那些通過Maynard討論的Principle of Japanese Discourse(日語論述的原理)劍橋大學出版社(1998)的手冊,并且與兩種語言的詞匯語法的更緊密結(jié)合可產(chǎn)生學習基于論述的翻譯模型的更好提示。
樹改寫器可以有可替換的實施例。比如,可將概率加入到樹改寫工序中。另外,或者附加地,可并行地重寫多棵樹并最終選擇最佳的樹。在當前的實施例中,在一系列不帶遞歸和分支的確定性步驟中產(chǎn)生了目標樹Tt。另外,可以在每個單獨的步驟結(jié)合概率并通過在同一時間搜索多個可替換的來重建目標樹Tt。目標樹Tt的概率由產(chǎn)生該樹的所有步驟的概率的乘積給定。在這種情況下,將目標樹Tt當作最終的概率最大的樹。這種方法的優(yōu)點是可以學習概率的轉(zhuǎn)換函數(shù)H[]。
雖然以上只詳細描述了幾個實施例,但那些技術(shù)熟練人士將肯定能理解,在不脫離本發(fā)明宗旨的前提下對較佳實施例作出許多修改。所有這樣的修改都包含在以下的權(quán)利要求中。
權(quán)利要求
1.一種機器翻譯解碼的方法,包括接收在要被翻譯成目標語言的源語言中的文本段作為輸入;產(chǎn)生初始的翻譯作為當前的目標語言翻譯;對當前的目標語言翻譯應用一個或多個改進操作符以產(chǎn)生一個或多個改進的目標語言翻譯;確定一個或多個改進的目標語言翻譯,與當前的目標語言翻譯相比,是否代表改進的翻譯;將改進的目標語言翻譯設(shè)置為當前的目標語言翻譯;以及重復所述的應用、所述的確定和所述的設(shè)置,直到出現(xiàn)結(jié)束條件為止。
2.如權(quán)利要求1所述的方法,其特征在于,該文本段包含從句、句子、段落或論文。
3.如權(quán)利要求1所述的方法,其特征在于,產(chǎn)生初始翻譯包含產(chǎn)生注釋。
4.如權(quán)利要求3所述的方法,其特征在于,該注釋為單詞對單詞的注釋或短語對短語的注釋。
5.如權(quán)利要求1所述的方法,其特征在于,應用一個或多個改進操作符,包含改變在當前目標語言翻譯中的一個或兩個單詞的翻譯。
6.如權(quán)利要求1所述的方法,其特征在于,應用一個或多個改進操作符,包含(i)改變在當前目標語言翻譯中單詞的翻譯,以及同時(ii)在源語言文本段和當前目標語言翻譯之間產(chǎn)生最高概率對齊的位置上插入另一個單詞,插入的其它單詞具有高的零值多樣性概率。
7.如權(quán)利要求1所述的方法,其特征在于,應用一個或多個改進操作符,包含從當前的目標語言翻譯中刪除具有零值多樣性的單詞。
8.如權(quán)利要求1所述的方法,其特征在于,應用一個或多個改進操作符,包含通過交換當前目標語言翻譯中的非重疊目標語言單詞段來改進在源語言文本段和當前目標語言翻譯之間的對齊。
9.如權(quán)利要求1所述的方法,其特征在于,應用一個或多個改進操作符,包含通過(i)從當前目標語言翻譯中刪除目標語言單詞并(ii)連接源語言文本段中的單詞來改進在源語言文本段和當前目標語言翻譯之間的對齊。
10.如權(quán)利要求1所述的方法,其特征在于,應用一個或多個改進操作符,包含應用兩項或多項以下的操作(i)改變當前目標語言翻譯中的一個或兩個單詞的翻譯;(ii)改變在當前目標語言翻譯中單詞的翻譯并同時在源語言文本段和當前目標語言翻譯之間產(chǎn)生最高概率對齊的位置上插入另一個單詞,插入的該單詞具有高概率的零值多樣性;(iii)從當前的目標語言翻譯中刪除具有零值多樣性的單詞。(vi)通過交換當前目標語言翻譯中的非重疊目標語言單詞段來改進在源語言文本段和當前目標語言翻譯之間的對齊;以及(v)通過從當前目標語言翻譯中刪除目標語言單詞并連接源語言文本段中的單詞來改進在源語言文本段和當前目標語言翻譯之間的對齊。
11.如權(quán)利要求1所述的方法,其特征在于,確定一個或多個改進的目標語言翻譯與當前的目標語言翻譯相比是否代表改進翻譯,包含計算每個改進目標語言翻譯的準確性概率。
12.如權(quán)利要求1所述的方法,其特征在于,該結(jié)束條件包含,確定改進的目標語言翻譯的準確性概率不大于當前目標語言翻譯的準確性概率。
13.如權(quán)利要求1所述的方法,其特征在于,該結(jié)束條件包含預定數(shù)目迭代的完成。
14.如權(quán)利要求1所述的方法,其特征在于,該結(jié)束條件包含預定量時間的流逝。
15.一種計算機實現(xiàn)的機器翻譯解碼方法,包括反復改進源語言文本段的目標語言翻譯,直到出現(xiàn)結(jié)束條件。
16.如權(quán)利要求15所述的方法,其特征在于,該結(jié)束條件包含,確定改進翻譯的準確性概率不大于前一翻譯的準確性概率。
17.如權(quán)利要求15所述的方法,其特征在于,該結(jié)束條件包含預定數(shù)目迭代的完成。
18.如權(quán)利要求15所述的方法,其特征在于,該源語言文本段包含從句、句子、段落或論文。
19.如權(quán)利要求15所述的方法,其特征在于,該方法起始于近似的目標語言翻譯并用每個連續(xù)的迭代反復改進翻譯。
20.如權(quán)利要求19所述的方法,其特征在于,該近似的目標語言翻譯包含注釋。
21.如權(quán)利要求20所述的方法,其特征在于,該注釋包含單詞對單詞的注釋或短語對短語的注釋。
22.如權(quán)利要求19所述的方法,其特征在于,該近似的目標語言翻譯包含從多個預定翻譯中選擇的預定翻譯。
23.如權(quán)利要求15所述的方法,其特征在于,該方法實現(xiàn)了貪心算法。
24.如權(quán)利要求15所述的方法,其特征在于,反復改進翻譯包含用每次迭代逐步改進翻譯。
25.如權(quán)利要求15所述的方法,其特征在于,反復改進翻譯包含每次迭代在翻譯上完成一次或多次的改進操作。
26.如權(quán)利要求25所述的方法,其特征在于,一個或多個改進操作包含一項或多項以下的操作(i)改變翻譯中的一個或兩個單詞;(ii)改變單詞的翻譯并同時在源語言文本段和翻譯之間產(chǎn)生最高概率對齊的位置上插入另一個單詞,插入的該單詞具有高的零值多樣性概率;(iii)從翻譯中刪除具有零值多樣性的單詞。(vi)通過交換翻譯中的非重疊目標語言單詞段來改進在源語言文本段和翻譯之間的對齊;以及(v)通過從翻譯中刪除目標語言單詞并連接源語言文本段中的單詞來改進在源語言文本段和翻譯之間的對齊。
27.一種機器翻譯解碼器,包括解碼引擎,它包含一個或多個改進操作符,該操作符被應用到當前的目標語言翻譯以產(chǎn)生一個或多個改進的目標語言翻譯;以及循環(huán)過程,該過程使用一個或多個改進操作符來反復改進當前的目標語言翻譯,循環(huán)過程一旦出現(xiàn)結(jié)束條件就終止。
28.如權(quán)利要求27所述的解碼器,其特征在于,該循環(huán)過程控制解碼引擎從而利用每次的迭代逐步改進當前的目標語言翻譯。
29.如權(quán)利要求27所述的解碼器,其特征在于,還包含確定翻譯的準確性概率的模塊。
30.如權(quán)利要求29所述的解碼器,其特征在于,該確定翻譯的準確性概率的模塊包含語言模塊和翻譯模塊。
31.如權(quán)利要求29所述的解碼器,其特征在于,該循環(huán)過程一旦確定改進翻譯的準確性概率不大于前一翻譯的準確性概率時就終止。
32.如權(quán)利要求27所述的解碼器,其特征在于,該循環(huán)過程一旦完成了預定數(shù)目的迭代后就終止。
33.如權(quán)利要求27所述的解碼器,其特征在于,一個或多個改進操作符包含以下中的一項或多項(i)操作符,它改變當前目標語言翻譯中的一個或兩個單詞的翻譯;(ii)操作符,它改變在當前目標語言翻譯中單詞的翻譯并同時在源語言文本段和當前目標語言翻譯之間產(chǎn)生最高概率對齊的位置上插入另一個單詞,插入的該單詞具有高的零值多樣性概率;(iii)操作符,它從當前的目標語言翻譯中刪除具有零值多樣性的單詞。(vi)操作符,它通過交換當前目標語言翻譯中的非重疊目標語言單詞段來改進在源語言文本段和當前目標語言翻譯之間的對齊;以及(v)操作符,它通過從當前目標語言翻譯中刪除目標語言單詞并連接源語言文本段中的單詞來改進在源語言文本段和當前目標語言翻譯之間的對齊。
34.一種計算機實現(xiàn)的樹產(chǎn)生方法,包括接收對應于源語言文本段的樹作為輸入;以及對接收的輸入應用一個或多個判決規(guī)則以產(chǎn)生對應于目標語言文本段的樹。
35.如權(quán)利要求34所述的方法,其特征在于,該一個或多個判決規(guī)則包含判決規(guī)則序列。
36.如權(quán)利要求34所述的方法,其特征在于,該一個或多個判決規(guī)則共同表示轉(zhuǎn)換函數(shù)。
37.如權(quán)利要求34所述的方法,其特征在于,還包含自動根據(jù)訓練組確定一個或多個判決規(guī)則。
38.如權(quán)利要求37所述的方法,其特征在于,該訓練組包含多個輸入-輸出樹對和在每個輸入-輸出樹對之間的映射。
39.如權(quán)利要求38所述的方法,其特征在于,在每個輸入-輸出樹對之間的映射包含在輸入樹的葉子和其成對的輸出樹葉子之間的映射。
40.如權(quán)利要求39所述的方法,其特征在于,在成對的輸入-輸出樹的葉子之間的映射可以是一對一、一對多、多對一或多對多。
41.如權(quán)利要求38所述的方法,其特征在于,自動確定一個或多個判決規(guī)則,包含確定當被應用于其成對的輸入樹時產(chǎn)生輸出樹的操作序列。
42.如權(quán)利要求41所述的方法,其特征在于,確定操作序列包含,使用多個預定的操作,這些預定的操作總體上足夠?qū)⑷魏屋斎霕渥g成該輸入樹的成對輸出樹。
43.如權(quán)利要求42所述的方法,其特征在于,多個預定的操作包含以下中的一項或多項移位操作,將基本的論述樹(edt)從輸入列表轉(zhuǎn)移到堆棧中;減少操作,從堆棧的頂部彈出兩個edt,將彈出的兩個edt結(jié)合到新的樹中,并將新的樹推入到堆棧的頂部;分解操作,將一個edt分解為預定數(shù)的單元;創(chuàng)建下一個的操作,創(chuàng)建與源語言數(shù)無關(guān)的目標語言論述成分;熔合操作,將在堆棧頂部的edt熔合到前一edt中;交換操作,交換輸入列表中edt的位置;以及分配類型操作,為edt分配一個或多個以下的類型單元、多單元、句子、段落、多段落以及文本。
44.如權(quán)利要求43所述的方法,其特征在于,多個預定的操作包含,包括移位操作、減少操作、分解操作、創(chuàng)建下一個的操作、熔合操作、交換操作以及分配類型操作的閉合組。
45.如權(quán)利要求41所述的方法,其特征在于,確定操作序列產(chǎn)生了多種學習情況,一種學習情況對應每個輸入-輸出樹對。
46.如權(quán)利要求45所述的方法,其特征在于,還包含根據(jù)上下文將一個或多個特征與多種學習情況中的每一種進行結(jié)合。
47.如權(quán)利要求46所述的方法,其特征在于,結(jié)合的特征包含以下中的一項或多項操作和論述特征、基于對應關(guān)系的特征以及詞匯特征。
48.如權(quán)利要求45所述的方法,其特征在于,還包含對多種學習情況應用學習程序以產(chǎn)生一個或多個判決規(guī)則。
49.如權(quán)利要求48所述的方法,其特征在于,該學習程序包含C4.5。
50.如權(quán)利要求34所述的方法,其特征在于,該源語言文本段包含從句、句子、段落或論文。
51.如權(quán)利要求34所述的方法,其特征在于,該目標語言文本段包含從句、句子、段落或論文。
52.如權(quán)利要求34所述的方法,其特征在于,該源語言文本段和目標語言文本段是不同類型的文本段。
53.如權(quán)利要求34所述的方法,其特征在于,每個源語言樹和目標語言樹都包含語法樹。
54.如權(quán)利要求34所述的方法,其特征在于,每個源語言樹和目標語言樹都包含論述樹。
55.一種計算機實現(xiàn)的樹產(chǎn)生模塊包括,當被應用于對應源語言文本段的樹時產(chǎn)生對應目標語言文本段的判決規(guī)則預定組。
56.如權(quán)利要求55所述的模塊,其特征在于,該源語言文本段包含從句、句子、段落或論文。
57.如權(quán)利要求55所述的模塊,其特征在于,該目標語言文本段包含從句、句子、段落或論文。
58.如權(quán)利要求55所述的模塊,其特征在于,該源語言文本段和目標語言文本段是不同類型的文本段。
59.如權(quán)利要求55所述的模塊,其特征在于,每個源語言樹和目標語言樹都包含語法樹。
60.如權(quán)利要求55所述的模塊,其特征在于,每個源語言樹和目標語言樹都包含論述樹。
61.如權(quán)利要求55所述的模塊,其特征在于,判決規(guī)則的預定組定義了源語言樹和目標語言樹之間的轉(zhuǎn)換函數(shù)。
62.一種確定不同類型樹之間轉(zhuǎn)換函數(shù)的方法,該方法包括產(chǎn)生包含多個樹對和每個樹對之間映射的訓練組,每個樹對包含源樹和對應的目標樹;通過為每對樹確定當被應用于源樹時產(chǎn)生的操作序列來產(chǎn)生多種學習情況;以及通過將學習算法應用于多種學習情況來產(chǎn)生多個判決規(guī)則。
63.如權(quán)利要求62所述的方法,其特征在于,還包含,在產(chǎn)生多個判決規(guī)則以前,根據(jù)上下文將一個或多個特征與每種學習情況進行結(jié)合。
64.一種計算機實現(xiàn)的基于論述的機器翻譯系統(tǒng),包括論述分析器,它分析源語言文本段的論述結(jié)構(gòu)并為文本段產(chǎn)生源語言論述樹;論述結(jié)構(gòu)的轉(zhuǎn)換模塊,它接受源語言論述樹作為輸入并產(chǎn)生目標語言論述樹作為輸出;以及映射模塊,它將目標語言論述樹映射為目標文本段。
65.如權(quán)利要求64所述的系統(tǒng),其特征在于,該論述結(jié)構(gòu)的轉(zhuǎn)換模塊,包含多個從源語言-目標語言樹對的訓練組產(chǎn)生的判決規(guī)則。
全文摘要
機器翻譯解碼的完成是通過以下步驟來完成的,即接收在要被翻譯成目標語言的源語言中的文本段作為輸入,產(chǎn)生初始的翻譯作為當前的目標語言翻譯,對當前的目標語言翻譯應用一個或多個改進操作符以產(chǎn)生一個或多個改進的目標語言翻譯,確定一個或多個改進的目標語言翻譯與當前的目標語言翻譯相比是否代表改進的翻譯,將改進的目標語言翻譯設(shè)置為當前的目標語言翻譯,以及重復所述的應用、所述的確定和所述的設(shè)置直到出現(xiàn)結(jié)束條件為止。自動產(chǎn)生樹可通過以下步驟來完成,即接收對應于源語言文本段的樹作為輸入,并對接收到的輸入應用一個或多個判決規(guī)則以產(chǎn)生對應目標語言文本段的樹。
文檔編號G06F17/20GK1465018SQ01812317
公開日2003年12月31日 申請日期2001年5月11日 優(yōu)先權(quán)日2000年5月11日
發(fā)明者D·馬庫 申請人:南加利福尼亞大學