專利名稱:單語翻譯機的制作方法
背景技術:
本發(fā)明涉及學習單詞間的關系。更明確地,本發(fā)明涉及使用雙語文本訓練機器翻譯機的方法。
機器翻譯是利用計算機軟件和組件將文本從一種語言諸如德語、法語或日語,翻譯成第二語言,諸如英語、西班牙語或阿拉伯語的過程。機器翻譯決不是直接的過程。機器翻譯不只是簡單地將一個單詞替換另一個,而是基于了解組成給定文本的所有單詞以及文本中的一個單詞如何影響文本中的其它單詞。但是,人類語言是復雜的,并包括若干特征,諸如詞法、語法或句子結構、語義學、歧義性或不規(guī)則性。為了在兩種語言之間翻譯,機器翻譯機必須考慮每種語言的語法結構。而且,必須使用規(guī)則和假設來將第一語言的語法結構(源)轉換成第二語言(目標)。
然而,已知語言中所涉及的復雜性,機器翻譯機趨向只有30%到65%之間的準確度。許多短語和口語用詞不容易翻譯。在不應翻譯時作了翻譯地名、人名和科學用語等的嘗試??墒冀K應用為某些語法特性進行硬編碼(hard-code)的規(guī)則,即使存在這些規(guī)則的許多例外,因為為所有例外編寫代碼將是長期的任務,會導致緩慢的翻譯過程。因此由當前機器翻譯技術翻譯的文檔對于用戶可能是可理解的,或者甚至可能是不可理解的;更糟的是,文檔的一些重要元素可能被錯誤翻譯。
機器翻譯機只是和用于訓練系統(tǒng)的訓練數(shù)據(jù)一樣好。機器翻譯機通常通過使用人類創(chuàng)作的翻譯來訓練。通過識別各種相關詞對的訓練結構供給這些翻譯。這些詞對常常是文本中一些詞的翻譯,但有時這些詞不是相關單詞的準確翻譯。其它機器翻譯機使用來自雙語字典的數(shù)據(jù)來訓練。但是,從這些類型的翻譯來訓練不總是訓練機器翻譯機的最佳方式,因為這些翻譯可能導致翻譯機在給定環(huán)境中選擇錯誤的單詞。
使用人類創(chuàng)作的翻譯來訓練機器翻譯機的一個問題是翻譯常常不是單詞真正意義上的翻譯,而更象文本的解釋。例如,在加拿大,議會辯論記錄文件提供了人類創(chuàng)作翻譯數(shù)據(jù)的現(xiàn)成原始資料,可用來訓練機器翻譯機。但是,這些翻譯常常不是真正的翻譯。因此它們不為機器翻譯機提供生成達到準確翻譯所必需的水平的訓練數(shù)據(jù)。
機器翻譯的準確性問題可由一個簡單例子說明。使用目前可用的機器翻譯,如果用戶要把一個句子從英語翻譯到法語,就將涉及某種程度的不準確性。在用機器翻譯將這個句子翻譯回英語時,放大了原來的翻譯不準確性,并且句子在大多數(shù)例子中將不同于原來的英語句子。以下列來自加拿大辨論的語句作為例子。
Mr.HermansonOn a point of order,Mr.Speaker,I think you will findunanimous consent to allow the leader of the Reform Party,the hon.memberfor Calgary Southwest,to lead off this debate,and the hon.member for RedDeer would then speak in his normal turn in the rotation.(赫曼生先生在次序這一點上,議長先生,我想你將發(fā)現(xiàn)一致同意改革黨的領導者,卡爾加里西南的榮譽議員,來開始這次辯論,并且紅鹿的榮譽議員將接著按著他的正常輪轉次序演講。)它由人類翻譯者翻成法語為M.HermansonJ’invoque le Reglement,monsieur le President.Je pense quevous trouverez qu’il y a consentement unanime pour que le chef du Partireformiste,le depute d e Calgary-Sud-Quest,engage ce debat et que le deputede Red Deer prenne ensuite la parole quand ce sera son tour.
它再翻回英語為I call upon the requirement,Mr.President.I think that you will find thatthere is a unamimous consent to the proposition that the head of the reformistparty,the member from Calgary-Southwest start this debate,and that the meberfrom Red Deer makes his statement when it is his turn.(我提個請求,主席先生。我想你將發(fā)現(xiàn)一致同意這個建議,即由改革黨的領袖,來自卡爾加里-西南的議員開始這個辯論,以及來自紅鹿的議員在輪到他的時候進行他的陳述。)然而,當使用機器翻譯機翻回英語時它變成I call upon the Payment,Mr.President President.I think that you will find that there is unamimous assentso that the chief of the Party reformist,the deputy of Calgary-South-West,engages this debate and that the deputy of Red Deer speaks then when it isits turn.(我請求付款,主席主席先生。我想你將發(fā)現(xiàn),有一致贊成,因此改革者黨的首領,卡爾加里-西-南的代表,著手這個辯論,并且紅鹿的代表在輪到它時接著演講。)正如可從以上例子中看出的,機器翻譯的質量距離所期望的尚遠。在學習單詞間關系時,依靠人類創(chuàng)作的翻譯傾向于使機器翻譯機更依賴于解釋而與翻譯相反。而且只有有限數(shù)量的材料,可用于用作為訓練數(shù)據(jù)。(例如,圣經,在雙語或多語組織處的辯論,以及以雙語格式特別創(chuàng)建的其它文檔。)此外,生成更多的用來訓練機器翻譯機的翻譯文檔是個昂貴的過程,它仍不提供足夠的準確性來有效地訓練機器翻譯機。因此,期望以最小成本用大量的翻譯數(shù)據(jù)來訓練機器翻譯機,同時保持或提高機器翻譯機的準確性。
發(fā)明概述本發(fā)明針對機器翻譯機,它是由其它機器翻譯機生成的文本輸入來訓練的。第一語言的文本輸入由用戶或其它來源提供。這個文本輸入隨后由機器翻譯機翻譯,以第二語言生成該文本輸入的翻譯版本。用于這種翻譯的機器翻譯機是一種現(xiàn)有技術類型的機器翻譯機,它使用人類創(chuàng)作的對齊的雙語文集訓練,使用雙語字典訓練,或者使用兩者訓練。
文本輸入和文本的翻譯版本兩者都提供給對齊組件(aligning component)。這個對齊組件可以是訓練結構的一部分或者可以是單獨的組件。對齊組件使文本輸入中的單詞或短語與文本輸入的翻譯版本中的單詞和短語配對。這些配對隨后被轉換成邏輯形式。跟在文本輸入配對的生成之后,由訓練結構處理配對。來自機器翻譯機的文本輸入可與來自人類著作源或雙語字典的數(shù)據(jù)一起補充。
訓練結構配置成通過使用對即使有缺陷的輸入給出合理邏輯形式的強化的分析程序,向由機器翻譯機生成的不完美翻譯學習。訓練結構構造了一個轉換映射數(shù)據(jù)庫,包含將源語言中的邏輯形式或其部分鏈接到第二語言的邏輯形式或其部分的轉換映射。一旦創(chuàng)建了轉換映射數(shù)據(jù)庫,就將結果提供給第二機器翻譯機。
第二機器翻譯機配置成使用由訓練結構開發(fā)的轉換映射將文本輸入從第一語言翻譯為第二語言。在翻譯過程中,文本輸入以源語言提供給第二機器翻譯機。第二機器翻譯機接收該文本輸入并使用分析組件為文本輸入中每個單詞生成源邏輯形式。
在源邏輯形式的生成之后,第二機器翻譯機中的匹配組件匹配源邏輯形式與轉換映射數(shù)據(jù)庫中的邏輯形式。隨后在源邏輯形式的節(jié)點到相應目標邏輯形式段的拷貝上創(chuàng)建鏈接。目標邏輯形式隨后通過執(zhí)行鏈接的邏輯形式的自頂向下的遍歷而創(chuàng)建。將源邏輯形式節(jié)點上的鏈接所指向的目標邏輯形式段組合起來。在映射過程之后,目標邏輯形式被映射到目標句子,且文本輸入的翻譯以目標語言生成并從第二機器翻譯機輸出。
圖1是一方框圖,示出本發(fā)明可實現(xiàn)的環(huán)境。
圖2A是一方框圖,示出本發(fā)明的訓練結構。
圖2B是一流程圖,示出訓練過程中執(zhí)行的步驟。
圖3是一方框圖,示出按照本發(fā)明的一個實施例的訓練結構。
圖4是一方框圖,更詳細地示出圖2A中示出的機器翻譯機。
圖5是一流程圖,示出當提供文本輸入進行翻譯時由機器翻譯機執(zhí)行的步驟。
示例性實施例的詳細說明圖1示出了在其上可實現(xiàn)本發(fā)明的合適計算系統(tǒng)環(huán)境100的例子。計算系統(tǒng)環(huán)境100只是合適的計算環(huán)境的一個例子,并且不打算提出對任何關于本發(fā)明使用或功能的范圍作限制。計算環(huán)境100也不應解釋為對在示例操作環(huán)境100中所示的任何一種組件或其組合有任何依賴性或者要求。
本發(fā)明可操作于大量其它通用或專用計算系統(tǒng)環(huán)境或者配置??蛇m合用于本發(fā)明的眾所周知的計算系統(tǒng)、環(huán)境和/或配置的例子包括,但不限于,個人計算機、服務器、手持或膝上型設備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、機頂盒、可變程日用電子裝置、網絡PC、小型機、主機、包括任何上述系統(tǒng)或設備的分布式計算環(huán)境等等。
本發(fā)明可在由計算機執(zhí)行的計算機可執(zhí)行指令諸如程序模塊的通用環(huán)境中描述。通常,程序模塊包括執(zhí)行特定任務或實現(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對象、組件、數(shù)據(jù)結構等。本發(fā)明還可在其中任務由通過通信網絡連接的遠程處理設備執(zhí)行的分布式計算環(huán)境中實現(xiàn)。在分布式計算環(huán)境中,程序模塊可位于本地和遠程計算機存儲介質中,包括存儲器設備。
參考圖1,實現(xiàn)本發(fā)明的示例系統(tǒng)包括以計算機110形式的通用計算設備。計算機110的組件可包括,但不限于,處理單元120、系統(tǒng)存儲器130及連接包括系統(tǒng)存儲器到處理單元120的各種組件的系統(tǒng)總線121。系統(tǒng)總線121可以是幾種類型的總線結構的任何一種,包括存儲總線或存儲控制器、外圍設備總線以及使用各種總線結構任意一種的本地總線。作為例子,而非限制,這樣的結構包括工業(yè)標準結構(ISA)總線、微通道結構(MCA)總線、增強ISA(EISA)總線、視頻電子標準協(xié)會(VESA)本地總線以及也稱為夾層總線的外設組件互連(PCI)總線。
計算機110一般包括多種多樣的計算機可讀介質。計算機可讀介質可以是任何可由計算機110訪問的可用介質,并包括易失性和非易失性介質、可拆卸和不可拆卸介質兩者。作為例子,而非限制,計算機可讀介質可包括計算機存儲介質和通信介質。計算機存儲介質包括易失性和非易失性、可拆卸和不可拆卸介質兩者,它們是以任何存儲諸如計算機可讀指令、數(shù)據(jù)結構、程序模塊或其它數(shù)據(jù)的信息的方法或技術的實現(xiàn)的。計算機存儲介質包括,但不限于,RAM、ROM、EEPROM、閃存或其它存儲技術、CD-ROM、數(shù)字通用盤(DVD)或其它光盤存儲器、磁盒、磁帶、磁盤存儲器或其它磁存儲設備,或者能用于存儲想要的信息和能由計算機110存取的任何其它介質。通信介質一般包含在調制的數(shù)據(jù)信號諸如載波或其它傳輸機制中的計算機可讀指令、數(shù)據(jù)結構、程序模塊或其它數(shù)據(jù),并且包括任何信息傳輸設備。術語“調制的數(shù)據(jù)信號”指具有以這樣一種對信號中信息編碼的方式設置或改變的一或多個特征的信號。作為例子,而非限制,通信介質包括有線的介質,諸如有線的網絡或直接線連接、以及無線的介質,諸如聲音的、RF(射頻)、紅外線和其它無線介質。上述各項的任意組合也包括在計算機可讀介質的范圍之內。
系統(tǒng)存儲器130包括以易失性和/或非易失性的存儲器形式的計算機存儲介質,諸如只讀存儲器(ROM)131和隨機存取存儲器(RAM)132?;据斎?輸出系統(tǒng)133(BIOS),包含幫助計算機110內組件之間諸如在起動期間傳送信息的基本例程,它一般被存儲在ROM131中。RAM132一般包含由處理單元120可直接存取和/或目前操作的數(shù)據(jù)和/或程序模塊。作為例子,而非限制,圖1示出操作系統(tǒng)134、應用程序135、其它程序模塊136和程序數(shù)據(jù)137。
計算機110還可包括其它可移動的/不可移動的、易失性/非易失性計算機存儲介質。只是作為例子,圖1示出了讀寫不可移動的、非易失性的磁介質的硬盤驅動器141,讀寫可移動的、非易失性的磁盤152的磁盤驅動器151,和讀寫可移動的、非易失性的光盤156諸如CD ROM或其它光介質的光盤驅動器155。能用于所示例操作環(huán)境的其它可移動的/不可移動的、易失性/非易失性的計算機存儲介質包括,但不限于,磁帶盒、閃存卡、數(shù)字通用盤、數(shù)字視頻帶、固態(tài)RAM、固態(tài)ROM等等。硬盤驅動器141一般通過不可移動的存儲器接口諸如接口140連接至系統(tǒng)總線121,以及磁盤驅動器151和光盤驅動器155一般由可移動的存儲器接口諸如接口150連接至系統(tǒng)總線121。
上面所討論的并示于圖1中的驅動器及其關聯(lián)的計算機存儲介質,為計算機110提供計算機可讀指令、數(shù)據(jù)結構、程序模塊和其它數(shù)據(jù)的存儲。在圖1中,例如,硬盤驅動器141被示為存儲操作系統(tǒng)144、應用程序145、其它程序模塊146和程序數(shù)據(jù)147。注意這些組件可以與操作系統(tǒng)134、應用程序135、其它程序模塊136和程序數(shù)據(jù)137或者相同,或者不同。操作系統(tǒng)144、應用程序145、其它程序模塊146和程序數(shù)據(jù)147在這里給出不同的數(shù)字,以說明在最低程度上它們是不同的復制品。
用戶可通過輸入設備,諸如鍵盤162、話筒163、以及諸如鼠標、軌跡球或觸摸墊的定點設備161,將命令和信息輸入到計算機110中。其它輸入設備(未示出)可包括操縱桿、游戲墊、衛(wèi)星天線、掃描儀等等。這些和其它輸入設備常常通過耦合到系統(tǒng)總線的用戶輸入接口160連接至處理單元120,但是也可以通過其它接口和總線結構連接,諸如并行端口、游戲端口或通用串行總線(USB)。監(jiān)視器191或其它類型的顯示設備也通過一個接口諸如視頻接口190連接至系統(tǒng)總線121。除監(jiān)視器之外,計算機還可包括其它外部輸出設備諸如揚聲器197和打印機196,它們可通過輸出外部接口195連接。
計算機110可在一個使用邏輯連接至一或多個遠程計算機諸如遠程計算機180的網絡化環(huán)境中運行。遠程計算機180可以是個人計算機、手持設備、服務器、路由器、網絡PC、對等設備或其它普通網絡節(jié)點,并且一般包括上面相對于計算機110所述的組件的許多或全部。圖1中所示的邏輯連接包括局域網(LAN)171和廣域網(WAN)173,但也可包括其它網絡。這樣的網絡環(huán)境在辦公室、企業(yè)級計算機網絡、內聯(lián)網和因特網中是很普通的。
當在LAN網絡環(huán)境中使用時,計算機110通過網絡接口或適配器170連接至LAN171。當在WAN網絡環(huán)境中使用時,計算機110一般包括調制解調器172或用于在WAN173諸如因特網上建立通信的其它工具。調制解調器172,可以是內置的或外置的,可通過用戶輸入接口160或其它適當?shù)臋C制連接至系統(tǒng)總線121。在網絡化環(huán)境中,相對于計算機110所述的程序模塊,或其部分,可存儲在遠程存儲器設備中。作為例子,而非限制,圖1示出了遠程應用程序185為駐留在遠程計算機180上。將意識到所示的網絡連接是示例性的,并且可使用在計算機之間建立通信鏈路的其它方法。
盡管邏輯形式對于本發(fā)明不是必需,但參考圖2所示的機器翻譯結構討論它們。因此,在更詳細地討論那個結構之前,邏輯形式的簡要討論是有幫助的。邏輯形式以及生成它們的系統(tǒng)和方法的全面而詳細的討論可在1999年10月12日發(fā)布的、題為“從語法樹計算語義邏輯形式的方法與系統(tǒng)”(METHOD AND SYSTEM FOR COMPUTING SEMANTICLOGICAL FORMS FROM SYNTAX TREES)的Heidorn等人的美國專利No.5,966,686中找到。不過,簡而言之,通過執(zhí)行輸入文本上的詞法分析產生用語法關系增強的傳統(tǒng)短語結構分析來生成邏輯形式。語法分析經歷進一步的處理,以便導出邏輯形式,它們是描述文本輸入中實義詞之間標注的相關性的圖形結構。邏輯形式標準化了某些語法變換(例如主動語態(tài)/被動語態(tài))并同時解決了句內重復和長距離的相關性。
具體地說,邏輯關系由定向關系類型連接的兩個單詞組成(例如,部分(Part)、時間(Time)、超義詞(Hypernym)、邏輯主題(LogicalSubject)、從句(Clause)、域(Domain)、位置(Location)、方式(Manner)、材料(Material)、手段(Means)、修飾語(Modifier)、所有人(Possessor)、目的(Purpose)、準超義詞(Quasihypernym)、同義字(Synonym)、邏輯對象(LogicalObject)和用戶(User))。邏輯形式是表示單一文本輸入諸如一個句子的連接邏輯關系圖。它最低限度由一個邏輯關系組成。邏輯形式描繪結構化關系(即,語法和語義關系),特別是輸入串中重要的單詞之間的宗詞(argument)和/或附加語(adjunct)關系。
在機器翻譯結構的一個說明性實施例中,跨機器翻譯系統(tǒng)操作的各種源和目標語言,共享從語法分析構造邏輯形式的特定編碼。共享的結構大大簡化了對齊來自不同語言的邏輯形式段的任務,因為兩種語言中表面的不同結構常常疊并到類似或同樣的邏輯形式表示法上。
圖2A示出了按照本發(fā)明的一個實施例的訓練機器翻譯機的示例性結構。圖2B是示出在訓練過程中執(zhí)行的步驟的流程圖。圖2A和圖2B將一起討論。訓練系統(tǒng)200包括輸入文本210、第一機器翻譯機220、翻譯對230、訓練結構240及第二機器翻譯機250。可選地,訓練系統(tǒng)200能夠包括附加的機器翻譯機222和224,人類創(chuàng)作的雙語文集270和雙語字典260。機器翻譯機250類似于第一機器翻譯機220,只不過機器翻譯機250是使用來自其它機器翻譯機的訓練數(shù)據(jù)訓練的,而第一機器翻譯機220是使用傳統(tǒng)的背景技術的訓練方法訓練的。機器翻譯機250的運行將參考圖4和5更詳細地討論。
一個實施例中的第一機器翻譯機220可以是任何當前存在的機器翻譯機。但其它機器翻譯機也可用作第一機器翻譯機220。第一機器翻譯機220以第一語言(或源語言)接收文本輸入210。這在步驟290示出。這個文本輸入210按照機器翻譯機220的內部編程結構從源語言翻譯為目標語言(例如德語到英語或西班牙語到英語)。這在方框291示出。在方框292,文本輸入210的翻譯版本從機器翻譯機220作為譯出文本輸出。在文本輸入210由第一機器翻譯機220翻譯之后,將文本輸入210和輸出221彼此結合以生成文本輸入的翻譯對230。這在方框293示出。方框293處生成翻譯對230的方法的說明性例子在下面描述。但也可使用生成翻譯對230的其它方法。而且,在一個實施例中,翻譯對230的生成是訓練結構240的一個組件。但是,取決于訓練結構的安排和編程,翻譯對230的生成可通過獨立于訓練結構240的組件完成。
例示性地,翻譯對230在一個實施例中從對齊的雙語文集中生成。雙語文集包括來自文本210和221的對齊譯出句子(例如,源或目標語言諸如英語的句子,對齊它們在其它源或目標語言諸如德語中的翻譯)。在配對期間,從對齊的雙語文集將句子供給到訓練結構240中,象來自文本輸入210的源句子一樣(要翻譯的句子),并象來自譯出文本221的目標句子一樣(源句子的翻譯)。
將對齊的文集分析成它的組成單詞(例如,如上討論的詞條,但它可能還是維持在表面形式中)。將對齊的文集分析成源和目標邏輯形式。但是,不是將本發(fā)明限制于對解析成邏輯形式的文本輸入的操作,而是代之以僅僅需要將對齊的文集分析成它的實義詞。另外,可以識別某些復合詞,好象它們是單一的個體。如果將這樣的多詞表達放進了詞典,因為它們有特定的意思或用途,或者因為它們是許多通用類別之一個,諸如固有名稱、地名、時間表達、日期、度量表達等,所以將它們識別為多詞。
接下來為在對齊的、分析過的雙語文集中的各個詞對計算單詞關聯(lián)分數(shù)??墒褂萌魏螁卧~關聯(lián)度量,它提供表示訓練文集中詞對之間統(tǒng)計單詞關聯(lián)的分數(shù)。例如,可使用“計算語言學”(Computational Linguistics)雜志,19卷第(1)期第61-74頁(1993))中由登寧在其所著的“用于統(tǒng)計意外和巧合的準確方法”(Accurate Methodsfor the Statistics of Surprise and Coincidence)文章中所討論的對數(shù)似然率(log-likelihood-ratio)統(tǒng)計。
用于計算關聯(lián)分數(shù)的詞對列表也可刪改。換句話說,計算單詞關聯(lián)分數(shù)的過程為大的訓練文集生成大量詞對(或詞條對)的關聯(lián)分數(shù)。因此,在一個說明性實施例中,刪改詞對集以限制對那些詞對的進一步處理,所述詞對至少具有某些被看作為翻譯詞對230的可能性。一個說明性試探法設置這個閾限為詞對或詞條對的關聯(lián)程度,它們具有一個同時出現(xiàn)(co-occurrence),加上一個各自另外出現(xiàn)。
接下來假設在訓練數(shù)據(jù)中復合詞的出現(xiàn),并用單權標(single token)替代它們。為重寫過的輸入文本(即,復合詞及任何剩余的單個單詞)重新計算并重寫關聯(lián)分數(shù)。
然后再重新計算關聯(lián)分數(shù)。但是,這次,在對齊的句子中沒有相同強或更強的其它關聯(lián)時,只考慮同時出現(xiàn)。換句話說,假設需要翻譯的所有復合詞都已正確識別,并在訓練數(shù)據(jù)中被重新表述為單個項,訓練數(shù)據(jù)可視為好象所有的翻譯都是1對1。因此,選擇分等級的翻譯對的最終集合是基于這個假設,即真正的翻譯對將是在給定對齊的句子對中最強地相互關聯(lián)的。最終的關聯(lián)集隨后按照關聯(lián)的強度以降序排序。
最后,在最終列表中具有超過閾限的關聯(lián)分數(shù)的詞對和/或復合詞對被識別為彼此的翻譯??梢砸越涷灋橹鞯剡x擇閾限,或可以根據(jù)在最后的配對列表中所提供結果的語言分析來選擇,或者可用另一種所希望的技術來選擇。
回過來參考圖2A和2B,在文本輸入210的翻譯對230的生成之后,由訓練結構240處理配對。這在方框294示出。在一個實施例中,通過使用從甚至是錯漏的輸入給出合理的邏輯形式的加強化的分析程序,訓練結構240能夠從由機器翻譯機220生成的不完美的翻譯中學習。訓練結構240構造包含轉換映射的轉換映射數(shù)據(jù)庫,所述轉換映射本質上將一種語言的邏輯形式或其部分鏈接到第二語言的邏輯形式或其部分。
一旦創(chuàng)建了轉換映射數(shù)據(jù)庫,在方框295將結果提供給機器翻譯機250。下面提供并參考圖3描述一種示例性訓練結構240的簡述,它能用來訓練機器翻譯機250。但是,也可使用其它訓練機器翻譯機250的方法。
圖3是按照本發(fā)明的一個示例性實施例的訓練結構240的方框圖。訓練結構240包括分析組件304和306、統(tǒng)計的單詞關聯(lián)學習組件308、邏輯形式對齊組件310、詞法知識庫建立組件312、雙語字典314、字典合并部件316、轉換映射數(shù)據(jù)庫318和更新后的雙語字典320。
如上所討論的,雙語文集用來訓練系統(tǒng)。雙語文集包括對齊翻譯句(例如源或目標語言的句子,諸如英語,對齊其在另一個源或目標語言中的翻譯,諸如西班牙語或法語等)。在訓練期間,句子從對齊的雙語文集作為源句330(要翻譯的句子)并作為目標句332(源句的翻譯)供給到訓練結構240中。分析組件304和306分析來自對齊的雙語文集的句子以產生源邏輯形式334和目標邏輯形式336。在分析期間,句子中的單詞轉換成標準化的單詞形式(詞條)。這里所用的術語“詞條(lemma)”指實義詞的詞干或根單詞。例如,“sleep”是用于表面形式“sleep”、“sleeping”和“slept”的詞條。應該注意,可以將訓練結構應用于表面形式代替實義詞詞條,但性能會有所影響。無論如何,然后將詞條供給到統(tǒng)計的單詞關聯(lián)學習組件308中。由學習組件308反復地假設并評分單個單詞或多個單詞關聯(lián)兩者,直到獲得每個關聯(lián)的可靠集合。統(tǒng)計的單詞關聯(lián)學習組件308輸出學到的單個單詞翻譯對338以及多個單詞對340。
將多個單詞對340提供給字典合并部件316,使用字典合并部件316來將附加條目加進雙語字典314以形成更新后的雙語字典320。新條目表示多個單詞對340。
單個單詞對338,連同源邏輯形式334和目標邏輯形式336一起,被提供給邏輯形式對齊組件310。組件310首先分別建立源和目標邏輯形式330和336中節(jié)點間的試探性詞法對應關系。這是使用來自從統(tǒng)計的單詞關聯(lián)學習組件308增加了單詞翻譯對338的雙語詞典(或雙語字典)314的翻譯對來完成的。在建立可能的對應關系后,對齊組件310按照詞法和結構的特征對齊邏輯形式節(jié)點,并創(chuàng)建邏輯形式轉換映射342。
基本上,對齊組件310使用雙語字典信息314和單個詞對338描繪了邏輯形式間的鏈接。轉換映射根據(jù)在源和目標邏輯形式334和336中找到它們的頻度篩選,并提供給詞法知識庫建立組件312。
在一個例子中,如果轉換映射未在訓練數(shù)據(jù)中看到至少兩次,它就不用來構造轉換映射數(shù)據(jù)庫318,盡管任何其它期望的頻度也能用作篩選器。還應該注意,其它篩選技術也可以使用,除了出現(xiàn)的頻度之外。例如,轉換映射可根據(jù)它們是否組成輸入句的完整短語及根據(jù)用來創(chuàng)建轉換映射的邏輯形式是否完全對齊來篩選。
組件312構造轉換映射數(shù)據(jù)庫318,它包含本質上將一種語言中的邏輯形式或其部分鏈接到第二語言中的邏輯形式或其部分的轉換映射。
在可供選擇的實施例中,附加的翻譯對230可通過使用附加的機器翻譯機來創(chuàng)建。回過來參考圖2A,機器翻譯機222和224代表這些附加的機器翻譯機。機器翻譯機222和224是不同于第一機器翻譯機220的機器翻譯機。文本輸入212和214分別提供給機器翻譯機222和224。文本輸入212和214可相同于文本輸入210,或者它們可以不同于文本輸入210。使用同一文本輸入用于每個機器翻譯機220、222和224,允許訓練結構240學習單詞的正確翻譯。
機器翻譯機222和224生成文本輸入212和214的翻譯。這些翻譯在方框223和225處表示。由于機器翻譯機222和224不同于機器翻譯機220,對相同的文本輸入會得到不同的翻譯結果。翻譯中的這種不同常常歸因于每個機器翻譯機所接收的訓練。通常生成一機器翻譯機來處理一特定主題的文本,所述主題是另外的機器翻譯機未設計處理的。
還有當訓練結構240用來訓練可選的機器翻譯機250時,附加的翻譯數(shù)據(jù)資源可提供給訓練結構。這些附加的數(shù)據(jù)塊可包括人類創(chuàng)作的雙語文集260和雙語字典270。人類創(chuàng)作的雙語文集是用來訓練機器翻譯機的常用方法。文集通常是諸如議會辯論記錄文件或者合同這樣的事務的翻譯版本,但也可是任何翻譯文本。雙語字典270通常是列出源和目標語言中同義單詞(例如,德語中的“Fenster”是英語中的“Window”)的字典。當這些附加的數(shù)據(jù)塊存在時,訓練結構評定由雙語文集260和雙語字典270所提供的信息,并使用用于為文本輸入210生成翻譯對230的相同過程來訓練機器翻譯機。
在通過訓練結構240的機器翻譯機250的訓練之后,翻譯映射可由可選的后訓練編輯組件275來編輯。后訓練編輯組件275可通過刪除詞法知識庫中的無效詞法信息或鏈接來編輯映射。
圖4示出了組成圖2中所示的機器翻譯機250的組件。機器翻譯機250包括分析組件410、匹配組件420、轉換組件430和生成組件440。當機器翻譯正在翻譯文本輸入時要調用這些組件。
分析組件410配置成接收源句406并根據(jù)源句輸入創(chuàng)建源邏輯形式412。這個源邏輯形式412提供給匹配組件420。
匹配組件420配置成將源邏輯形式412匹配到圖3的轉換映射數(shù)據(jù)庫318中的邏輯形式。有了轉換映射數(shù)據(jù)庫318中匹配的信息,匹配組件420獲得對源邏輯形式412的鏈接的邏輯形式422。多個轉換映射可匹配源邏輯形式412的各部分。匹配組件420查找數(shù)據(jù)庫318中具有匹配詞條、語音部分及其它特征信息的匹配轉換映射的最佳集。與較小的(更通用的)轉換映射相比,較大的(更特定的)轉換映射可能例示性地是較佳的。在相同大小的映射中,匹配組件420可能例示性地更傾向于較高頻率映射。映射還可匹配所提供源邏輯形式412的重疊部分,它們不以任何方式沖突。
匹配組件420還配置成,在源邏輯形式412中的節(jié)點上創(chuàng)建到由轉換映射接收的相應的目標邏輯形式段的拷貝的鏈接,以生成鏈接的邏輯形式422。
轉換組件430配置成從匹配組件420接收鏈接的邏輯形式422。轉換組件430還配置成創(chuàng)建構成目標翻譯基礎的目標邏輯形式432。這是通過執(zhí)行鏈接邏輯形式422的自頂而下的遍歷完成的,其中將源邏輯形式412節(jié)點上的鏈接所指向的目標邏輯形式段組合起來。當將邏輯形式段結合在一起用于可能復雜的多個單詞映射時,由匹配組件420設置的各個節(jié)點間的子鏈接用來確定修飾詞的正確附著點等。如果需要,使用默認的附著點。
在沒有找到可應用的轉換映射的情況下,將源邏輯形式412中的節(jié)點及其關系簡單地拷貝到目標邏輯形式432。對于這些節(jié)點,默認的單個單詞翻譯仍可在轉換映射數(shù)據(jù)庫318中找到,并插入在目標邏輯形式432中。但是,如果沒有找到,翻譯可例示性地從在對齊期間使用的更新后的雙語字典320獲取。
生成組件440例示性地是一基于規(guī)則的、應用無關的生成組件,它從目標邏輯形式432映射到目標串(或輸出目標句)。生成組件440例示性地可能沒有關于輸入邏輯形式的源語言的信息,并且專有地對由轉換組件430傳遞給它的信息操作。生成組件440還例示性地結合單語(例如,用于目標語言的)字典使用這個信息來產生目標句446。一個普通的生成組件440因而對每種語言都是足夠的。
圖5是一流程圖,示出當為翻譯提供文本輸入時由機器翻譯機250執(zhí)行的步驟。圖5將參考圖4中的組件討論。
將文本輸入406提供給系統(tǒng)250。文本輸入406是用戶期望從源語言翻譯到目標語言的文檔或其它文本的書面版本。例如,文本輸入406可以是“Para obtener masinformation acerca de WSH,consulte Windows Script Host”。對機器翻譯系統(tǒng)250的文本輸入的這種提供在方框510示出。
在方框520,機器翻譯機250接收文本輸入406并準備將文本輸入406從西班牙語翻譯到英語。但是其它語言也可用于翻譯。接下來由分析組件410對文本輸入406中每個單詞生成源邏輯形式。這在方框530示出。
在源邏輯形式的生成之后,匹配組件將源邏輯形式與轉換映射數(shù)據(jù)庫中的邏輯形式匹配。這在方框540示出。在源邏輯形式的節(jié)點上創(chuàng)建到相應目標邏輯形式段的拷貝的鏈接。這在方框550示出。目標邏輯形式通過執(zhí)行鏈接的邏輯形式的自頂向下的遍歷來創(chuàng)建。將源邏輯形式節(jié)點上的鏈接所指向的目標邏輯形式段組合起來。這在方框560示出。如果沒有找到轉換映射,機器翻譯機從雙語字典得到翻譯。這在方框570示出。
例如,在上例文本輸入的處理期間,單詞“para obtener”鏈接為“to obtain”。然而在現(xiàn)有技術機器翻譯機中,單詞“para”鏈接為“in order”而“obtener”鏈接為“toobtain”。而且,單詞“informacion”在本發(fā)明中鏈接到“information”,而在現(xiàn)有技術中鏈接到“data”。在兩種機器翻譯機之間單詞鏈接和映射的這種不同歸因于每種機器翻譯機的訓練方法不同。
在映射過程之后,目標邏輯形式映射到目標句446。因此,我們的例句將由機器翻譯機250翻譯成“To obtain more information about WSH,consult Windows ScriptHost”,而不是從現(xiàn)有技術機器翻譯機獲得的翻譯“In order to obtain more dataabout WSH,it consults Windows Script Host”。這個翻譯示于方框580。翻譯在步驟590輸出給用戶。
盡管已參考特定實施例描述本發(fā)明,本領域熟練技術人員將認識到,可在不脫離本發(fā)明精神和范圍的情況下,在形式和細節(jié)中作出修改。
權利要求
1.一種訓練機器翻譯機的方法,其特征在于,所述方法包括下列步驟以第一語言提供第一文本輸入;使用第一輸入機器翻譯機將所述第一文本輸入翻譯為第二語言,所述第一語言的第一文本輸入和所述第二語言的第一文本輸入的翻譯組成第一翻譯集;以及使用所述第一翻譯集訓練機器翻譯機。
2.如權利要求1所述的方法,其特征在于,所述方法還包括在所述訓練步驟之前,提供所述第一翻譯集給訓練組件。
3.如權利要求1所述的方法,其特征在于,所述方法還包括使用配對組件對齊所述第一翻譯集中的單詞或短語。
4.如權利要求1所述的方法,其特征在于,所述方法還包括在所述機器翻譯機上執(zhí)行后訓練編輯。
5.如權利要求4所述的方法,其特征在于,所述執(zhí)行后訓練編輯包括,從所述訓練中刪除無效詞法信息。
6.如權利要求1所述的方法,其特征在于,所述方法還包括輸出所述訓練結果作為所述機器翻譯機的組件。
7.如權利要求6所述的方法,其特征在于,輸出結果輸出雙語字典。
8.如權利要求6所述的方法,其特征在于,輸出結果輸出轉換映射組件。
9.如權利要求1所述的方法,其特征在于,所述訓練機器翻譯機還包括提供人類創(chuàng)作的雙語文集;使用所述第一翻譯集和所述人類創(chuàng)作的雙語文集訓練所述機器翻譯機。
10.如權利要求1所述的方法,其特征在于,所述訓練機器翻譯機還包括提供雙語字典;使用所述第一翻譯集和所述雙語字典訓練所述機器翻譯機。
11.如權利要求1所述的方法,其特征在于,所述方法還包括以第一語言提供第二文本輸入;使用第二輸入機器翻譯機將所述第二文本輸入翻譯為第二語言,所述第一語言的第二文本輸入和所述第二語言的第二文本輸入的翻譯組成第二翻譯集;以及使用所述第一和第二翻譯集訓練所述機器翻譯機。
12.如權利要求1所述的方法,其特征在于,所述訓練機器翻譯機還包括按詞法分析所述第一文本輸入以獲得表示數(shù)據(jù)結構的從屬結構。
13.一個將文本輸入從第一語言翻譯到第二語言的系統(tǒng),其特征在于,所述系統(tǒng)包括訓練組件,配置成接收第一語言的訓練文本輸入及第二語言的訓練文本輸入的翻譯版本,所述訓練組件還配置成根據(jù)訓練文本輸入創(chuàng)建雙語字典組件和轉換映射組件;以及機器翻譯組件,配置成接收所述第一語言的文本輸入并根據(jù)由所述雙語字典組件和轉換映射組件提供的信息輸出所述第二語言的文本輸入的翻譯;其中,所述第二語言的訓練文本輸入的翻譯版本由外部機器翻譯機生成。
14.如權利要求13所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括雙語字典,包括與所述第二語言的單詞相關聯(lián)的第一語言的單詞,雙語字典配置成與所述訓練組件通信。
15.如權利要求13所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括對齊組件,配置成將所述訓練文本輸入中的單詞或短語與所述譯出的訓練文本輸入中的單詞或短語配對。
16.如權利要求15所述的系統(tǒng),其特征在于,所述對齊組件通過使用邏輯形式配對單詞。
17.如權利要求13所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括后訓練編輯組件,配置成使由所述訓練組件創(chuàng)建的詞法信息無效。
18.如權利要求13所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括人類創(chuàng)作的雙語文本,具有所述第二語言的文本的人類翻譯版本,配置成與所述訓練組件通信。
19.如權利要求13所述的系統(tǒng),其特征在于,所述訓練組件配置成從多個外部機器翻譯機接收所述訓練文本輸入的翻譯版本。
20.如權利要求13所述的系統(tǒng),其特征在于,所述機器翻譯機組件還配置成為所述文本輸入的單詞和短語生成邏輯形式。
21.一種訓練機器翻譯機的系統(tǒng),其特征在于,所述系統(tǒng)包括第一機器翻譯機,配置成翻譯訓練輸入;訓練結構,配置成接收所述訓練輸入的翻譯版本和訓練輸入,并且配置成生成可由機器翻譯機使用的組件;以及其中,所述訓練輸入及訓練輸入的翻譯版本組成第一翻譯集。
22.如權利要求21所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括對齊組件,配置成對齊所述第一翻譯集中的單詞和短語,所述對齊組件配置成為所述訓練結構提供所述對齊的單詞或短語。
23.如權利要求21所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括雙語字典組件;人類創(chuàng)作的雙語文集;以及其中,所述訓練結構還配置成根據(jù)所述第一翻譯集、所述雙語字典和所述人類創(chuàng)作的雙語文集生成所述組件。
24.如權利要求21所述的系統(tǒng),其特征在于,所述第一機器翻譯機包括多個機器翻譯機,所述多個機器翻譯機的每一個都為所述訓練結構提供所述訓練輸入的獨立的翻譯版本。
全文摘要
揭示了用其它機器翻譯機生成的文本輸入來訓練的機器翻譯機。第一語言的文本輸入是由用戶或其它來源提供的。這個文本輸入隨后由第一機器翻譯機翻譯,生成第二語言的所述文本輸入的翻譯版本。文本輸入和翻譯版本被分析并經過訓練結構來開發(fā)轉換映射和雙語字典。這些組件隨后由第二機器翻譯機在翻譯其它文本輸入時使用。
文檔編號G06F17/28GK1573740SQ20041004744
公開日2005年2月2日 申請日期2004年5月27日 優(yōu)先權日2003年5月27日
發(fā)明者J·平克哈姆 申請人:微軟公司