專利名稱:用于訓(xùn)練機(jī)器翻譯機(jī)的系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及學(xué)習(xí)單詞間的關(guān)系。更明確地,本發(fā)明涉及使用雙語(yǔ)文本訓(xùn)練機(jī)器翻譯機(jī)的方法。
背景技術(shù):
機(jī)器翻譯是利用計(jì)算機(jī)軟件和組件將文本從一種語(yǔ)言諸如德語(yǔ)、法語(yǔ)或曰語(yǔ),翻譯成第二語(yǔ)言,諸如英語(yǔ)、西班牙語(yǔ)或阿拉伯語(yǔ)的過(guò)程。機(jī)器翻譯決不是直接的過(guò)程。機(jī)器翻譯不只是簡(jiǎn)單地將一個(gè)單詞替換另一個(gè),而是基于了解組成給定文本的所有單詞以及文本中的一個(gè)單詞如何影響文本中的其它單詞。但是,人類語(yǔ)言是復(fù)雜的,并包括若干特征,諸如詞法、語(yǔ)法或句子結(jié)構(gòu)、語(yǔ)義學(xué)、歧義性或不規(guī)則性。為了在兩種語(yǔ)言之間翻譯,機(jī)器翻譯機(jī)必須考慮每種語(yǔ)言的語(yǔ)法結(jié)構(gòu)。而且,必須使用規(guī)則和假設(shè)來(lái)將第一語(yǔ)言的語(yǔ)法結(jié)構(gòu)(源)轉(zhuǎn)換成第二語(yǔ)言(目標(biāo))。
然而,己知語(yǔ)言中所涉及的復(fù)雜性,機(jī)器翻譯機(jī)趨向只有30%到65%之間的準(zhǔn)確度。許多短語(yǔ)和口語(yǔ)用詞不容易翻譯。在不應(yīng)翻譯時(shí)作了翻譯地名、人名和科學(xué)用語(yǔ)等的嘗試??墒冀K應(yīng)用為某些語(yǔ)法特性進(jìn)行硬編碼(hard-code)的
規(guī)則,即使存在這些規(guī)則的許多例外,因?yàn)闉樗欣饩帉懘a將是長(zhǎng)期的任務(wù),會(huì)導(dǎo)致緩慢的翻譯過(guò)程。因此由當(dāng)前機(jī)器翻譯技術(shù)翻譯的文檔對(duì)于用戶可能是可理解的,或者甚至可能是不可理解的;更糟的是,文檔的一些重要元素可能被錯(cuò)誤翻譯。
機(jī)器翻譯機(jī)只是和用于訓(xùn)練系統(tǒng)的訓(xùn)練數(shù)據(jù)一樣好。機(jī)器翻譯機(jī)通常通過(guò)使用人類創(chuàng)作的翻譯來(lái)訓(xùn)練。通過(guò)識(shí)別各種相關(guān)詞對(duì)的訓(xùn)練結(jié)構(gòu)供給這些翻譯。這些詞對(duì)常常是文本中一些詞的翻譯,但有時(shí)這些詞不是相關(guān)單詞的準(zhǔn)確翻譯。其它機(jī)器翻譯機(jī)使用來(lái)自雙語(yǔ)字典的數(shù)據(jù)來(lái)訓(xùn)練。但是,從這些類型的翻譯來(lái)訓(xùn)練不總是訓(xùn)練機(jī)器翻譯機(jī)的最佳方式,因?yàn)檫@些翻譯可能導(dǎo)致翻譯機(jī)在給定環(huán)境中選擇錯(cuò)誤的單詞。
使用人類創(chuàng)作的翻譯來(lái)訓(xùn)練機(jī)器翻譯機(jī)的一個(gè)問(wèn)題是翻譯常常不是單詞真正意義上的翻譯,而更象文本的解釋。例如,在加拿大,議會(huì)辯論記錄文件提供了人類創(chuàng)作翻譯數(shù)據(jù)的現(xiàn)成原始資料,可用來(lái)訓(xùn)練機(jī)器翻譯機(jī)。但是,這些翻譯常常不是真正的翻譯。因此它們不為機(jī)器翻譯機(jī)提供生成達(dá)到準(zhǔn)確翻譯所必需的水平的訓(xùn)練數(shù)據(jù)。
機(jī)器翻譯的準(zhǔn)確性問(wèn)題可由一個(gè)簡(jiǎn)單例子說(shuō)明。使用目前可用的機(jī)器翻譯,如果用戶要把一個(gè)句子從英語(yǔ)翻譯到法語(yǔ),就將涉及某種程度的不準(zhǔn)確性。在用機(jī)器翻譯將這個(gè)句子翻譯回英語(yǔ)時(shí),放大了原來(lái)的翻譯不準(zhǔn)確性,并且句子在大多數(shù)例子中將不同于原來(lái)的英語(yǔ)句子。以下列來(lái)自加拿大辨論的語(yǔ)句作為例子。
Mr.Hermanson: On a point of order, Mr.Speaker, I think you will findunanimous consent to allow the leader of the Reform Party, the hon. member forCalgary Southwest, to lead off this debate, and the hon. member for Red Deerwould then speak in his normal turn in the rotation.(赫曼生先生在7欠序這—點(diǎn)、上,議長(zhǎng)先生,我想你將發(fā)現(xiàn)一致同意改革黨的領(lǐng)導(dǎo)者,卡爾加里西南的榮譽(yù)議員,來(lái)開始這次辯論,并且紅鹿的榮譽(yù)議員將接著按著他的正常輪轉(zhuǎn)次序演講。)
它由人類翻譯者翻成法語(yǔ)為
M. Hermanson: J'invoque le Reglement, monsieur le President. Je pense quevous trouverez qu'il y a consentement unanime pour que le chef du Parti reformiste,le depute d e Calgary-Sud-Quest, engage ce debat et que le depute de Red Deerpre皿e ensuite la parole quand ce sera son tour.
它再翻回英語(yǔ)為
I call upon the requirement, Mr. President. I think that you will find that thereis a unamimous consent to the proposition that the head of the reformist party, themember from Calgary-Southwest start this debate, and that the meber from Red Deer makes his statement when it is his turn.(我提個(gè)i青求,主席先生。我^K爾4每 發(fā)現(xiàn)一致同意這個(gè)建議,即由改革黨的領(lǐng)袖,來(lái)自卡爾加里-西南的議員開始這 個(gè)辯論,以及來(lái)自紅鹿的議員在輪到他的時(shí)候進(jìn)行他的陳述。)
然而,當(dāng)使用機(jī)器翻譯機(jī)翻回英語(yǔ)時(shí)它變成I call叩on the Payment, Mr. President President. I think that you will find that there is unamimous assent so that the chief of the Party reformist, the deputy of Calgary-South-West, engages this debate and that the deputy of Red Deer speaks then when it is its turn.(我請(qǐng)求付 款,主席主席先生。我想你將發(fā)現(xiàn),有一致贊成,因此改革者黨的首領(lǐng),卡爾 加里-西-南的代表,著手這個(gè)辯論,并且紅鹿的代表在輪到它時(shí)接著演講。)
正如可從以上例子中看出的,機(jī)器翻譯的質(zhì)量距離所期望的尚遠(yuǎn)。在學(xué)習(xí) 單詞間關(guān)系時(shí),依靠人類創(chuàng)作的翻譯傾向于使機(jī)器翻譯機(jī)更依賴于解釋而與翻 譯相反。而且只有有限數(shù)量的材料,可用于用作為訓(xùn)練數(shù)據(jù)。(例如,圣經(jīng), 在雙語(yǔ)或多語(yǔ)組織處的辯論,以及以雙語(yǔ)格式特別創(chuàng)建的其它文檔。)此外, 生成更多的用來(lái)訓(xùn)練機(jī)器翻譯機(jī)的翻譯文檔是個(gè)昂貴的過(guò)程,它仍不提供足夠 的準(zhǔn)確性來(lái)有效地訓(xùn)練機(jī)器翻譯機(jī)。因此,期望以最小成本用大量的翻譯數(shù)據(jù) 來(lái)訓(xùn)練機(jī)器翻譯機(jī),同時(shí)保持或提高機(jī)器翻譯機(jī)的準(zhǔn)確性。
發(fā)明內(nèi)容
本發(fā)明針對(duì)機(jī)器翻譯機(jī),它是由其它機(jī)器翻譯機(jī)生成的文本輸入來(lái)訓(xùn)練 的。第一語(yǔ)言的文本輸入由用戶或其它來(lái)源提供。這個(gè)文本輸入隨后由機(jī)器翻 譯機(jī)翻譯,以第二語(yǔ)言生成該文本輸入的翻譯版本。用于這種翻譯的機(jī)器翻譯 機(jī)是一種現(xiàn)有技術(shù)類型的機(jī)器翻譯機(jī),它使用人類創(chuàng)作的對(duì)齊的雙語(yǔ)文集訓(xùn) 練,使用雙語(yǔ)字典訓(xùn)練,或者使用兩者訓(xùn)練。
文本輸入和文本的翻譯版本兩者都提供給對(duì)齊組件(aligning component)。
這個(gè)對(duì)齊組件可以是訓(xùn)練結(jié)構(gòu)的一部分或者可以是單獨(dú)的組件。對(duì)齊組件使文 本輸入中的單詞或短語(yǔ)與文本輸入的翻譯版本中的單詞和短語(yǔ)配對(duì)。這些配對(duì) 隨后被轉(zhuǎn)換成邏輯形式。跟在文本輸入配對(duì)的生成之后,由訓(xùn)練結(jié)構(gòu)處理配對(duì)。 來(lái)自機(jī)器翻譯機(jī)的文本輸入可與來(lái)自人類著作源或雙語(yǔ)字典的數(shù)據(jù)一起補(bǔ)充。訓(xùn)練結(jié)構(gòu)配置成通過(guò)使用對(duì)即使有缺陷的輸入給出合理邏輯形式的強(qiáng)化 的分析程序,向由機(jī)器翻譯機(jī)生成的不完美翻譯學(xué)習(xí)。訓(xùn)練結(jié)構(gòu)構(gòu)造了一個(gè)轉(zhuǎn) 換映射數(shù)據(jù)庫(kù),包含將源語(yǔ)言中的邏輯形式或其部分鏈接到第二語(yǔ)言的邏輯形 式或其部分的轉(zhuǎn)換映射。 一旦創(chuàng)建了轉(zhuǎn)換映射數(shù)據(jù)庫(kù),就將結(jié)果提供給第二機(jī) 器翻譯機(jī)。
第二機(jī)器翻譯機(jī)配置成使用由訓(xùn)練結(jié)構(gòu)開發(fā)的轉(zhuǎn)換映射將文本輸入從第 一語(yǔ)言翻譯為第二語(yǔ)言。在翻譯過(guò)程中,文本輸入以源語(yǔ)言提供給第二機(jī)器翻 譯機(jī)。第二機(jī)器翻譯機(jī)接收該文本輸入并使用分析組件為文本輸入中每個(gè)單詞 生成源邏輯形式。
在源邏輯形式的生成之后,第二機(jī)器翻譯機(jī)中的匹配組件匹配源邏輯形式 與轉(zhuǎn)換映射數(shù)據(jù)庫(kù)中的邏輯形式。隨后在源邏輯形式的節(jié)點(diǎn)到相應(yīng)目標(biāo)邏輯形 式段的拷貝上創(chuàng)建鏈接。目標(biāo)邏輯形式隨后通過(guò)執(zhí)行鏈接的邏輯形式的自頂向 下的遍歷而創(chuàng)建。將源邏輯形式節(jié)點(diǎn)上的鏈接所指向的目標(biāo)邏輯形式段組合起 來(lái)。在映射過(guò)程之后,目標(biāo)邏輯形式被映射到目標(biāo)句子,且文本輸入的翻譯以 目標(biāo)語(yǔ)言生成并從第二機(jī)器翻譯機(jī)輸出。
圖l是一方框圖,示出本發(fā)明可實(shí)現(xiàn)的環(huán)境。
圖2A是一方框圖,示出本發(fā)明的訓(xùn)練結(jié)構(gòu)。
圖2B是一流程圖,示出訓(xùn)練過(guò)程中執(zhí)行的步驟。
圖3是一方框圖,示出按照本發(fā)明的一個(gè)實(shí)施例的訓(xùn)練結(jié)構(gòu)。
圖4是一方框圖,更詳細(xì)地示出圖2A中示出的機(jī)器翻譯機(jī)。
圖5是一流程圖,示出當(dāng)提供文本輸入進(jìn)行翻譯時(shí)由機(jī)器翻譯機(jī)執(zhí)行的步驟。
具體實(shí)施例方式
圖1示出了在其上可實(shí)現(xiàn)本發(fā)明的合適計(jì)算系統(tǒng)環(huán)境100的例子。計(jì)算系 統(tǒng)環(huán)境100只是合適的計(jì)算環(huán)境的一個(gè)例子,并且不打算提出對(duì)任何關(guān)于本發(fā) 明使用或功能的范圍作限制。計(jì)算環(huán)境100也不應(yīng)解釋為對(duì)在示例操作環(huán)境100
9中所示的任何一種組件或其組合有任何依賴性或者要求。
本發(fā)明可操作于大量其它通用或?qū)S糜?jì)算系統(tǒng)環(huán)境或者配置。可適合用于 本發(fā)明的眾所周知的計(jì)算系統(tǒng)、環(huán)境和/或配置的例子包括,但不限于,個(gè)人計(jì) 算機(jī)、服務(wù)器、手持或膝上型設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、機(jī)
頂盒、可變程日用電子裝置、網(wǎng)絡(luò)PC、小型機(jī)、主機(jī)、包括任何上述系統(tǒng)或設(shè)
備的分布式計(jì)算環(huán)境等等。
本發(fā)明可在由計(jì)算機(jī)執(zhí)行的計(jì)算機(jī)可執(zhí)行指令諸如程序模塊的通用環(huán)境 中描述。通常,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、 程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等。本發(fā)明還可在其中任務(wù)由通過(guò)通信網(wǎng)絡(luò)連接 的遠(yuǎn)程處理設(shè)備執(zhí)行的分布式計(jì)算環(huán)境中實(shí)現(xiàn)。在分布式計(jì)算環(huán)境中,程序模 塊可位于本地和遠(yuǎn)程計(jì)算機(jī)存儲(chǔ)介質(zhì)中,包括存儲(chǔ)器設(shè)備。
參考圖1,實(shí)現(xiàn)本發(fā)明的示例系統(tǒng)包括以計(jì)算機(jī)uo形式的通用計(jì)算設(shè)備。
計(jì)算機(jī)110的組件可包括,但不限于,處理單元120、系統(tǒng)存儲(chǔ)器130及連接 包括系統(tǒng)存儲(chǔ)器到處理單元120的各種組件的系統(tǒng)總線121。系統(tǒng)總線121可 以是幾種類型的總線結(jié)構(gòu)的任何一種,包括存儲(chǔ)總線或存儲(chǔ)控制器、外圍設(shè)備 總線以及使用各種總線結(jié)構(gòu)任意一種的本地總線。作為例子,而非限制,這樣 的結(jié)構(gòu)包括工業(yè)標(biāo)準(zhǔn)結(jié)構(gòu)(ISA)總線、微通道結(jié)構(gòu)(MCA)總線、增強(qiáng)ISA (EISA)總線、視頻電子標(biāo)準(zhǔn)協(xié)會(huì)(VESA)本地總線以及也稱為夾層總線的 外設(shè)組件互連(PCI)總線。
計(jì)算機(jī)110—般包括多種多樣的計(jì)算機(jī)可讀介質(zhì)。計(jì)算機(jī)可讀介質(zhì)可以是 任何可由計(jì)算機(jī)110訪問(wèn)的可用介質(zhì),并包括易失性和非易失性介質(zhì)、可拆卸 和不可拆卸介質(zhì)兩者。作為例子,而非限制,計(jì)算機(jī)可讀介質(zhì)可包括計(jì)算機(jī)存 儲(chǔ)介質(zhì)和通信介質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括易失性和非易失性、可拆卸和不可拆 卸介質(zhì)兩者,它們是以任何存儲(chǔ)諸如計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或 其它數(shù)據(jù)的信息的方法或技術(shù)的實(shí)現(xiàn)的。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括,但不限于, RAM、 ROM、 EEPROM、閃存或其它存儲(chǔ)技術(shù)、CD-ROM、數(shù)字通用盤(DVD) 或其它光盤存儲(chǔ)器、磁盒、磁帶、磁盤存儲(chǔ)器或其它磁存儲(chǔ)設(shè)備,或者能用于 存儲(chǔ)想要的信息和能由計(jì)算機(jī)110存取的任何其它介質(zhì)。通信介質(zhì)一般包含在 調(diào)制的數(shù)據(jù)信號(hào)諸如載波或其它傳輸機(jī)制中的計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù),并且包括任何信息傳輸設(shè)備。術(shù)語(yǔ)"調(diào)制的數(shù)據(jù)信號(hào)"指具 有以這樣一種對(duì)信號(hào)中信息編碼的方式設(shè)置或改變的一或多個(gè)特征的信號(hào)。作 為例子,而非限制,通信介質(zhì)包括有線的介質(zhì),諸如有線的網(wǎng)絡(luò)或直接線連接、
以及無(wú)線的介質(zhì),諸如聲音的、RF(射頻)、紅外線和其它無(wú)線介質(zhì)。上述各項(xiàng)
的任意組合也包括在計(jì)算機(jī)可讀介質(zhì)的范圍之內(nèi)。
系統(tǒng)存儲(chǔ)器130包括以易失性和/或非易失性的存儲(chǔ)器形式的計(jì)算機(jī)存儲(chǔ) 介質(zhì),諸如只讀存儲(chǔ)器(ROM) 131和隨機(jī)存取存儲(chǔ)器(RAM) 132。基本輸 入/輸出系統(tǒng)133 (BIOS),包含幫助計(jì)算機(jī)110內(nèi)組件之間諸如在起動(dòng)期間傳 送信息的基本例程,它一般被存儲(chǔ)在ROM131中。RAM132—般包含由處理單 元120可直接存取和/或目前操作的數(shù)據(jù)和/或程序模塊。作為例子,而非限制, 圖1示出操作系統(tǒng)134、應(yīng)用程序135、其它程序模塊136和程序數(shù)據(jù)137。
計(jì)算機(jī)110還可包括其它可拆卸的/不可拆卸的、易失性/非易失性計(jì)算機(jī) 存儲(chǔ)介質(zhì)。只是作為例子,圖1示出了讀寫不可拆卸的、非易失性的磁介質(zhì)的 硬盤驅(qū)動(dòng)器141,讀寫可拆卸的、非易失性的磁盤152的磁盤驅(qū)動(dòng)器151,和 讀寫可拆卸的、非易失性的光盤156諸如CD ROM或其它光介質(zhì)的光盤驅(qū)動(dòng)器 155。能用于所示例操作環(huán)境的其它可拆卸的/不可拆卸的、易失性/非易失性的 計(jì)算機(jī)存儲(chǔ)介質(zhì)包括,但不限于,磁帶盒、閃存卡、數(shù)字通用盤、數(shù)字視頻帶、 固態(tài)RAM、固態(tài)ROM等等。硬盤驅(qū)動(dòng)器141 一般通過(guò)不可拆卸的存儲(chǔ)器接口 諸如接口 140連接至系統(tǒng)總線121,以及磁盤驅(qū)動(dòng)器151和光盤驅(qū)動(dòng)器155 — 般由可拆卸的存儲(chǔ)器接口諸如接口 150連接至系統(tǒng)總線121。
上面所討論的并示于圖1中的驅(qū)動(dòng)器及其關(guān)聯(lián)的計(jì)算機(jī)存儲(chǔ)介質(zhì),為計(jì)算 機(jī)110提供計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其它數(shù)據(jù)的存儲(chǔ)。在圖1 中,例如,硬盤驅(qū)動(dòng)器141被示為存儲(chǔ)操作系統(tǒng)144、應(yīng)用程序145、其它程 序模塊146和程序數(shù)據(jù)147。注意這些組件可以與操作系統(tǒng)134、應(yīng)用程序135、 其它程序模塊136和程序數(shù)據(jù)137或者相同,或者不同。操作系統(tǒng)144、應(yīng)用 程序145、其它程序模塊146和程序數(shù)據(jù)147在這里給出不同的數(shù)字,以說(shuō)明 在最低程度上它們是不同的復(fù)制品。
用戶可通過(guò)輸入設(shè)備,諸如鍵盤162、話筒163、以及諸如鼠標(biāo)、軌跡球 或觸摸墊的定點(diǎn)設(shè)備161,將命令和信息輸入到計(jì)算機(jī)110中。其它輸入設(shè)備(未示出)可包括操縱桿、游戲墊、衛(wèi)星天線、掃描儀等等。這些和其它輸入 設(shè)備常常通過(guò)耦合到系統(tǒng)總線的用戶輸入接口 160連接至處理單元120,但是 也可以通過(guò)其它接口和總線結(jié)構(gòu)連接,諸如并行端口、游戲端口或通用串行總 線(USB)。監(jiān)視器191或其它類型的顯示設(shè)備也通過(guò)一個(gè)接口諸如視頻接口 190連接至系統(tǒng)總線121。除監(jiān)視器之外,計(jì)算機(jī)還可包括其它外部輸出設(shè)備 諸如揚(yáng)聲器197和打印機(jī)196,它們可通過(guò)輸出外部接口 195連接。
計(jì)算機(jī)110可在一個(gè)使用邏輯連接至一或多個(gè)遠(yuǎn)程計(jì)算機(jī)諸如遠(yuǎn)程計(jì)算機(jī) 180的網(wǎng)絡(luò)化環(huán)境中運(yùn)行。遠(yuǎn)程計(jì)算機(jī)180可以是個(gè)人計(jì)算機(jī)、手持設(shè)備、服 務(wù)器、路由器、網(wǎng)絡(luò)PC、對(duì)等設(shè)備或其它普通網(wǎng)絡(luò)節(jié)點(diǎn),并且一般包括上面相 對(duì)于計(jì)算機(jī)IIO所述的組件的許多或全部。圖1中所示的邏輯連接包括局域網(wǎng) (LAN) 171和廣域網(wǎng)(WAN) 173,但也可包括其它網(wǎng)絡(luò)。這樣的網(wǎng)絡(luò)環(huán)境 在辦公室、企業(yè)級(jí)計(jì)算機(jī)網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)和因特網(wǎng)中是很普通的。
當(dāng)在LAN網(wǎng)絡(luò)環(huán)境中使用時(shí),計(jì)算機(jī)IIO通過(guò)網(wǎng)絡(luò)接口或適配器170連 接至LAN171。當(dāng)在WAN網(wǎng)絡(luò)環(huán)境中使用時(shí),計(jì)算機(jī)110—般包括調(diào)制解調(diào) 器172或用于在WAN173諸如因特網(wǎng)上建立通信的其它工具。調(diào)制解調(diào)器172, 可以是內(nèi)置的或外置的,可通過(guò)用戶輸入接口 160或其它適當(dāng)?shù)臋C(jī)制連接至系 統(tǒng)總線121。在網(wǎng)絡(luò)化環(huán)境中,相對(duì)于計(jì)算機(jī)IIO所述的程序模塊,或其部分, 可存儲(chǔ)在遠(yuǎn)程存儲(chǔ)器設(shè)備中。作為例子,而非限制,圖l示出了遠(yuǎn)程應(yīng)用程序 185為駐留在遠(yuǎn)程計(jì)算機(jī)180上。將意識(shí)到所示的網(wǎng)絡(luò)連接是示例性的,并且 可使用在計(jì)算機(jī)之間建立通信鏈路的其它方法。
盡管邏輯形式對(duì)于本發(fā)明不是必需,但參考圖2所示的機(jī)器翻譯結(jié)構(gòu)討論 它們。因此,在更詳細(xì)地討論那個(gè)結(jié)構(gòu)之前,邏輯形式的簡(jiǎn)要討論是有幫助的。 邏輯形式以及生成它們的系統(tǒng)和方法的全面而詳細(xì)的討論可在1999年10月12 日發(fā)布的、題為"從語(yǔ)法樹計(jì)算語(yǔ)義邏輯形式的方法與系統(tǒng)"(METHOD AND SYSTEM FOR COMPUTING SEMANTIC LOGICAL FORMS FROM SYNTAX TREES)的Heidorn等人的美國(guó)專利No.5,966,686中找到。不過(guò),簡(jiǎn)而言之, 通過(guò)執(zhí)行輸入文本上的詞法分析產(chǎn)生用語(yǔ)法關(guān)系增強(qiáng)的傳統(tǒng)短語(yǔ)結(jié)構(gòu)分析來(lái) 生成邏輯形式。語(yǔ)法分析經(jīng)歷進(jìn)一步的處理,以便導(dǎo)出邏輯形式,它們是描述 文本輸入中實(shí)義詞之間標(biāo)注的相關(guān)性的圖形結(jié)構(gòu)。邏輯形式標(biāo)準(zhǔn)化了某些語(yǔ)法變換(例如主動(dòng)語(yǔ)態(tài)/被動(dòng)語(yǔ)態(tài))并同時(shí)解決了句內(nèi)重復(fù)和長(zhǎng)距離的相關(guān)性。
具體地說(shuō),邏輯關(guān)系由定向關(guān)系類型連接的兩個(gè)單詞組成(例如,部分 (Part)、時(shí)間(Time)、超義詞(Hypernym)、邏輯主題(LogicalSubject)、從句 (Clause)、域(Domain)、位置(Location)、方式(Manner)、材料(Material)、 手段 (Means)、修飾語(yǔ)(Modifier)、所有人(Possessor)、目的(Purpose)、準(zhǔn)超義詞 (Quasihypernym)、同義字(Synonym)、邏輯對(duì)象(LogicalObject)和用戶(User))。 邏輯形式是表示單一文本輸入諸如一個(gè)句子的連接邏輯關(guān)系圖。它最低限度由 一個(gè)邏輯關(guān)系組成。邏輯形式描繪結(jié)構(gòu)化關(guān)系(即,語(yǔ)法和語(yǔ)義關(guān)系),特別 是輸入串中重要的單詞之間的宗詞(argument)和/或附加語(yǔ)(adjunct)關(guān)系。
在機(jī)器翻譯結(jié)構(gòu)的一個(gè)說(shuō)明性實(shí)施例中,跨機(jī)器翻譯系統(tǒng)操作的各種源和 目標(biāo)語(yǔ)言,共享從語(yǔ)法分析構(gòu)造邏輯形式的特定編碼。共享的結(jié)構(gòu)大大簡(jiǎn)化了 對(duì)齊來(lái)自不同語(yǔ)言的邏輯形式段的任務(wù),因?yàn)閮煞N語(yǔ)言中表面的不同結(jié)構(gòu)常常 疊并到類似或同樣的邏輯形式表示法上。
圖2A示出了按照本發(fā)明的一個(gè)實(shí)施例的訓(xùn)練機(jī)器翻譯機(jī)的示例性結(jié)構(gòu)。 圖2B是示出在訓(xùn)練過(guò)程中執(zhí)行的步驟的流程圖。圖2A和圖2B將一起討論。 訓(xùn)練系統(tǒng)200包括輸入文本210、第一機(jī)器翻譯機(jī)220、翻譯對(duì)230、訓(xùn)練結(jié)構(gòu) 240及第二機(jī)器翻譯機(jī)250。可選地,訓(xùn)練系統(tǒng)200能夠包括附加的機(jī)器翻譯 機(jī)222和224,人類創(chuàng)作的雙語(yǔ)文集270和雙語(yǔ)字典260。機(jī)器翻譯機(jī)250類 似于第一機(jī)器翻譯機(jī)220,只不過(guò)機(jī)器翻譯機(jī)250是使用來(lái)自其它機(jī)器翻譯機(jī) 的訓(xùn)練數(shù)據(jù)訓(xùn)練的,而第一機(jī)器翻譯機(jī)220是使用傳統(tǒng)的背景技術(shù)的訓(xùn)練方法 訓(xùn)練的。機(jī)器翻譯機(jī)250的運(yùn)行將參考圖4和5更詳細(xì)地討論。
一個(gè)實(shí)施例中的第一機(jī)器翻譯機(jī)220可以是任何當(dāng)前存在的機(jī)器翻譯機(jī)。 但其它機(jī)器翻譯機(jī)也可用作第一機(jī)器翻譯機(jī)220。第一機(jī)器翻譯機(jī)220以第一 語(yǔ)言(或源語(yǔ)言)接收文本輸入210。這在步驟290示出。這個(gè)文本輸入210 按照機(jī)器翻譯機(jī)220的內(nèi)部編程結(jié)構(gòu)從源語(yǔ)言翻譯為目標(biāo)語(yǔ)言(例如德語(yǔ)到英 語(yǔ)或西班牙語(yǔ)到英語(yǔ))。這在方框291示出。在方框292,文本輸入210的翻 譯版本從機(jī)器翻譯機(jī)220作為譯出文本輸出。在文本輸入210由第一機(jī)器翻譯 機(jī)220翻譯之后,將文本輸入210和輸出221彼此結(jié)合以生成文本輸入的翻譯 對(duì)230。這在方框293示出。方框293處生成翻譯對(duì)230的方法的說(shuō)明性例子
13在下面描述。但也可使用生成翻譯對(duì)230的其它方法。而且,在一個(gè)實(shí)施例中, 翻譯對(duì)230的生成是訓(xùn)練結(jié)構(gòu)240的一個(gè)組件。但是,取決于訓(xùn)練結(jié)構(gòu)的安排 和編程,翻譯對(duì)230的生成可通過(guò)獨(dú)立于訓(xùn)練結(jié)構(gòu)240的組件完成。
例示性地,翻譯對(duì)230在一個(gè)實(shí)施例中從對(duì)齊的雙語(yǔ)文集中生成。雙語(yǔ)文 集包括來(lái)自文本210和221的對(duì)齊譯出句子(例如,源或目標(biāo)語(yǔ)言諸如英語(yǔ)的 句子,對(duì)齊它們?cè)谄渌椿蚰繕?biāo)語(yǔ)言諸如德語(yǔ)中的翻譯)。在配對(duì)期間,從對(duì) 齊的雙語(yǔ)文集將句子供給到訓(xùn)練結(jié)構(gòu)240中,象來(lái)自文本輸入210的源句子一 樣(要翻譯的句子),并象來(lái)自譯出文本221的目標(biāo)句子一樣(源句子的翻譯)。
將對(duì)齊的文集分析成它的組成單詞(例如,如上討論的詞條,但它可能還 是維持在表面形式中)。將對(duì)齊的文集分析成源和目標(biāo)邏輯形式。但是,不是 將本發(fā)明限制于對(duì)解析成邏輯形式的文本輸入的操作,而是代之以僅僅需要將 對(duì)齊的文集分析成它的實(shí)義詞。另外,可以識(shí)別某些復(fù)合詞,好象它們是單一 的個(gè)體。如果將這樣的多詞表達(dá)放進(jìn)了詞典,因?yàn)樗鼈冇刑囟ǖ囊馑蓟蛴猛荆?或者因?yàn)樗鼈兪窃S多通用類別之一個(gè),諸如固有名稱、地名、時(shí)間表達(dá)、日期、 度量表達(dá)等,所以將它們識(shí)別為多詞。
接下來(lái)為在對(duì)齊的、分析過(guò)的雙語(yǔ)文集中的各個(gè)詞對(duì)計(jì)算單詞關(guān)聯(lián)分?jǐn)?shù)。 可使用任何單詞關(guān)聯(lián)度量,它提供表示訓(xùn)練文集中詞對(duì)之間統(tǒng)計(jì)單詞關(guān)聯(lián)的分 數(shù)。例如,可使用"計(jì)算語(yǔ)言學(xué)"(Computational Linguistics)雜志,19巻第(l)期: 第61-74頁(yè)(1993))中由登寧在其所著的"用于統(tǒng)計(jì)意外和巧合的準(zhǔn)確方法" (Accurate Methods for the Statistics of Surprise and Coincidence)文章中所討論 的對(duì)數(shù)似然率(log-likelihood-ratio)統(tǒng)計(jì)。
用于計(jì)算關(guān)聯(lián)分?jǐn)?shù)的詞對(duì)列表也可刪改。換句話說(shuō),計(jì)算單詞關(guān)聯(lián)分?jǐn)?shù)的 過(guò)程為大的訓(xùn)練文集生成大量詞對(duì)(或詞條對(duì))的關(guān)聯(lián)分?jǐn)?shù)。因此,在一個(gè)說(shuō) 明性實(shí)施例中,刪改詞對(duì)集以限制對(duì)那些詞對(duì)的進(jìn)一步處理,所述詞對(duì)至少具 有某些被看作為翻譯詞對(duì)230的可能性。 一個(gè)說(shuō)明性試探法設(shè)置這個(gè)閾限為詞 對(duì)或詞條對(duì)的關(guān)聯(lián)程度,它們具有一個(gè)同時(shí)出現(xiàn)(co-occurrence),加上一個(gè)各自 另外出現(xiàn)。
接下來(lái)假設(shè)在訓(xùn)練數(shù)據(jù)中復(fù)合詞的出現(xiàn),并用單權(quán)標(biāo)(single token)替代它 們。為重寫過(guò)的輸入文本(即,復(fù)合詞及任何剩余的單個(gè)單詞)重新計(jì)算并重寫關(guān)聯(lián)分?jǐn)?shù)。
然后再重新計(jì)算關(guān)聯(lián)分?jǐn)?shù)。但是,這次,在對(duì)齊的句子中沒(méi)有相同強(qiáng)或更 強(qiáng)的其它關(guān)聯(lián)時(shí),只考慮同時(shí)出現(xiàn)。換句話說(shuō),假設(shè)需要翻譯的所有復(fù)合詞都 己正確識(shí)別,并在訓(xùn)練數(shù)據(jù)中被重新表述為單個(gè)項(xiàng),訓(xùn)練數(shù)據(jù)可視為好象所有 的翻譯都是l對(duì)l。因此,選擇分等級(jí)的翻譯對(duì)的最終集合是基于這個(gè)假設(shè), 即真正的翻譯對(duì)將是在給定對(duì)齊的句子對(duì)中最強(qiáng)地相互關(guān)聯(lián)的。最終的關(guān)聯(lián)集 隨后按照關(guān)聯(lián)的強(qiáng)度以降序排序。
最后,在最終列表中具有超過(guò)閾限的關(guān)聯(lián)分?jǐn)?shù)的詞對(duì)和/或復(fù)合詞對(duì)被識(shí)別 為彼此的翻譯??梢砸越?jīng)驗(yàn)為主地選擇閾限,或可以根據(jù)在最后的配對(duì)列表中 所提供結(jié)果的語(yǔ)言分析來(lái)選擇,或者可用另一種所希望的技術(shù)來(lái)選擇。
回過(guò)來(lái)參考圖2A和2B,在文本輸入210的翻譯對(duì)230的生成之后,由訓(xùn) 練結(jié)構(gòu)240處理配對(duì)。這在方框294示出。在一個(gè)實(shí)施例中,通過(guò)使用從甚至 是錯(cuò)漏的輸入給出合理的邏輯形式的加強(qiáng)化的分析程序,訓(xùn)練結(jié)構(gòu)240能夠從 由機(jī)器翻譯機(jī)220生成的不完美的翻譯中學(xué)習(xí)。訓(xùn)練結(jié)構(gòu)240構(gòu)造包含轉(zhuǎn)換映 射的轉(zhuǎn)換映射數(shù)據(jù)庫(kù),所述轉(zhuǎn)換映射本質(zhì)上將一種語(yǔ)言的邏輯形式或其部分鏈 接到第二語(yǔ)言的邏輯形式或其部分。
一旦創(chuàng)建了轉(zhuǎn)換映射數(shù)據(jù)庫(kù),在方框295將結(jié)果提供給機(jī)器翻譯機(jī)250。 下面提供并參考圖3描述一種示例性訓(xùn)練結(jié)構(gòu)240的簡(jiǎn)述,它能用來(lái)訓(xùn)練機(jī)器 翻譯機(jī)250。但是,也可使用其它訓(xùn)練機(jī)器翻譯機(jī)250的方法。
圖3是按照本發(fā)明的一個(gè)示例性實(shí)施例的訓(xùn)練結(jié)構(gòu)240的方框圖。訓(xùn)練結(jié) 構(gòu)240包括分析組件304和306、統(tǒng)計(jì)的單詞關(guān)聯(lián)學(xué)習(xí)組件308、邏輯形式對(duì) 齊組件310、詞法知識(shí)庫(kù)建立組件312、雙語(yǔ)字典314、字典合并部件316、轉(zhuǎn) 換映射數(shù)據(jù)庫(kù)318和更新后的雙語(yǔ)字典320。
如上所討論的,雙語(yǔ)文集用來(lái)訓(xùn)練系統(tǒng)。雙語(yǔ)文集包括對(duì)齊翻譯句(例如 源或目標(biāo)語(yǔ)言的句子,諸如英語(yǔ),對(duì)齊其在另一個(gè)源或目標(biāo)語(yǔ)言中的翻譯,諸 如西班牙語(yǔ)或法語(yǔ)等)。在訓(xùn)練期間,句子從對(duì)齊的雙語(yǔ)文集作為源句330 (要 翻譯的句子)并作為目標(biāo)句332 (源句的翻譯)供給到訓(xùn)練結(jié)構(gòu)240中。分析 組件304和306分析來(lái)自對(duì)齊的雙語(yǔ)文集的句子以產(chǎn)生源邏輯形式334和目標(biāo) 邏輯形式336。在分析期間,句子中的單詞轉(zhuǎn)換成標(biāo)準(zhǔn)化的單詞形式(詞條)。這里所用的術(shù)語(yǔ)"詞條(lemma)"指實(shí)義詞的詞干或根單詞。例如,"sleep"是用于 表面形式"sleep"、 "sleeping"和"slept"的詞條。應(yīng)該注意,可以將訓(xùn)練結(jié)構(gòu)應(yīng)用 于表面形式代替實(shí)義詞詞條,但性能會(huì)有所影響。無(wú)論如何,然后將詞條供給 到統(tǒng)計(jì)的單詞關(guān)聯(lián)學(xué)習(xí)組件308中。由學(xué)習(xí)組件308反復(fù)地假設(shè)并評(píng)分單個(gè)單 詞或多個(gè)單詞關(guān)聯(lián)兩者,直到獲得每個(gè)關(guān)聯(lián)的可靠集合。統(tǒng)計(jì)的單詞關(guān)聯(lián)學(xué)習(xí) 組件308輸出學(xué)到的單個(gè)單詞翻譯對(duì)338以及多個(gè)單詞對(duì)340。
將多個(gè)單詞對(duì)340提供給字典合并部件316,使用字典合并部件316來(lái)將 附加條目加進(jìn)雙語(yǔ)字典314以形成更新后的雙語(yǔ)字典320。新條目表示多個(gè)單 詞對(duì)340。
單個(gè)單詞對(duì)338,連同源邏輯形式334和目標(biāo)邏輯形式336 —起,被提供 給邏輯形式對(duì)齊組件310。組件310首先分別建立源和目標(biāo)邏輯形式330和336 中節(jié)點(diǎn)間的試探性詞法對(duì)應(yīng)關(guān)系。這是使用來(lái)自從統(tǒng)計(jì)的單詞關(guān)聯(lián)學(xué)習(xí)組件 308增加了單詞翻譯對(duì)338的雙語(yǔ)詞典(或雙語(yǔ)字典)314的翻譯對(duì)來(lái)完成的。 在建立可能的對(duì)應(yīng)關(guān)系后,對(duì)齊組件310按照詞法和結(jié)構(gòu)的特征對(duì)齊邏輯形式 節(jié)點(diǎn),并創(chuàng)建邏輯形式轉(zhuǎn)換映射342。
基本上,對(duì)齊組件310使用雙語(yǔ)字典信息314和單個(gè)詞對(duì)338描繪了邏輯 形式間的鏈接。轉(zhuǎn)換映射根據(jù)在源和目標(biāo)邏輯形式334和336中找到它們的頻 度篩選,并提供給詞法知識(shí)庫(kù)建立組件312。
在一個(gè)例子中,如果轉(zhuǎn)換映射未在訓(xùn)練數(shù)據(jù)中看到至少兩次,它就不用來(lái) 構(gòu)造轉(zhuǎn)換映射數(shù)據(jù)庫(kù)318,盡管任何其它期望的頻度也能用作篩選器。還應(yīng)該 注意,其它篩選技術(shù)也可以使用,除了出現(xiàn)的頻度之外。例如,轉(zhuǎn)換映射可根 據(jù)它們是否組成輸入句的完整短語(yǔ)及根據(jù)用來(lái)創(chuàng)建轉(zhuǎn)換映射的邏輯形式是否 完全對(duì)齊來(lái)篩選。
組件312構(gòu)造轉(zhuǎn)換映射數(shù)據(jù)庫(kù)318,它包含本質(zhì)上將一種語(yǔ)言中的邏輯形 式或其部分鏈接到第二語(yǔ)言中的邏輯形式或其部分的轉(zhuǎn)換映射。
在可供選擇的實(shí)施例中,附加的翻譯對(duì)230可通過(guò)使用附加的機(jī)器翻譯機(jī) 來(lái)創(chuàng)建。回過(guò)來(lái)參考圖2A,機(jī)器翻譯機(jī)222和224代表這些附加的機(jī)器翻譯機(jī)。 機(jī)器翻譯機(jī)222和224是不同于第一機(jī)器翻譯機(jī)220的機(jī)器翻譯機(jī)。文本輸入 212和214分別提供給機(jī)器翻譯機(jī)222和224。文本輸入212和214可相同于文本輸入210,或者它們可以不同于文本輸入210。使用同一文本輸入用于每 個(gè)機(jī)器翻譯機(jī)220、 222和224,允許訓(xùn)練結(jié)構(gòu)240學(xué)習(xí)單詞的正確翻譯。
機(jī)器翻譯機(jī)222和224生成文本輸入212和214的翻譯。這些翻譯在方框 223和225處表示。由于機(jī)器翻譯機(jī)222和224不同于機(jī)器翻譯機(jī)220,對(duì)相 同的文本輸入會(huì)得到不同的翻譯結(jié)果。翻譯中的這種不同常常歸因于每個(gè)機(jī)器 翻譯機(jī)所接收的訓(xùn)練。通常生成一機(jī)器翻譯機(jī)來(lái)處理一特定主題的文本,所述 主題是另外的機(jī)器翻譯機(jī)未設(shè)計(jì)處理的。
還有當(dāng)訓(xùn)練結(jié)構(gòu)240用來(lái)訓(xùn)練可選的機(jī)器翻譯機(jī)250時(shí),附加的翻譯數(shù)據(jù) 資源可提供給訓(xùn)練結(jié)構(gòu)。這些附加的數(shù)據(jù)塊可包括人類創(chuàng)作的雙語(yǔ)文集260和 雙語(yǔ)字典270。人類創(chuàng)作的雙語(yǔ)文集是用來(lái)訓(xùn)練機(jī)器翻譯機(jī)的常用方法。文集 通常是諸如議會(huì)辯論記錄文件或者合同這樣的事務(wù)的翻譯版本,但也可是任何 翻譯文本。雙語(yǔ)字典270通常是列出源和目標(biāo)語(yǔ)言中同義單詞(例如,德語(yǔ)中 的"Fenster"是英語(yǔ)中的"Window")的字典。當(dāng)這些附加的數(shù)據(jù)塊存在時(shí),訓(xùn)練 結(jié)構(gòu)評(píng)定由雙語(yǔ)文集260和雙語(yǔ)字典270所提供的信息,并使用用于為文本輸 入210生成翻譯對(duì)230的相同過(guò)程來(lái)訓(xùn)練機(jī)器翻譯機(jī)。
在通過(guò)訓(xùn)練結(jié)構(gòu)240的機(jī)器翻譯機(jī)250的訓(xùn)練之后,翻譯映射可由可選的 后訓(xùn)練編輯組件275來(lái)編輯。后訓(xùn)練編輯組件275可通過(guò)刪除詞法知識(shí)庫(kù)中的 無(wú)效詞法信息或鏈接來(lái)編輯映射。
圖4示出了組成圖2中所示的機(jī)器翻譯機(jī)250的組件。機(jī)器翻譯機(jī)250包 括分析組件410、匹配組件420、轉(zhuǎn)換組件430和生成組件440。當(dāng)機(jī)器翻譯正 在翻譯文本輸入時(shí)要調(diào)用這些組件。
分析組件410配置成接收源句406并根據(jù)源句輸入創(chuàng)建源邏輯形式412。 這個(gè)源邏輯形式412提供給匹配組件420。
匹配組件420配置成將源邏輯形式412匹配到圖3的轉(zhuǎn)換映射數(shù)據(jù)庫(kù)318 中的邏輯形式。有了轉(zhuǎn)換映射數(shù)據(jù)庫(kù)318中匹配的信息,匹配組件420獲得對(duì) 源邏輯形式412的鏈接的邏輯形式422。多個(gè)轉(zhuǎn)換映射可匹配源邏輯形式412 的各部分。匹配組件420查找數(shù)據(jù)庫(kù)318中具有匹配詞條、語(yǔ)音部分及其它特 征信息的匹配轉(zhuǎn)換映射的最佳集。與較小的(更通用的)轉(zhuǎn)換 射相比,較大 的(更特定的)轉(zhuǎn)換映射可能例示性地是較佳的。在相同大小的映射中,匹配組件420可能例示性地更傾向于較高頻率映射。映射還可匹配所提供源邏輯形 式412的重疊部分,它們不以任何方式?jīng)_突。
匹配組件420還配置成,在源邏輯形式412中的節(jié)點(diǎn)上創(chuàng)建到由轉(zhuǎn)換映射 接收的相應(yīng)的目標(biāo)邏輯形式段的拷貝的鏈接,以生成鏈接的邏輯形式422。
轉(zhuǎn)換組件430配置成從匹配組件420接收鏈接的邏輯形式422。轉(zhuǎn)換組件 430還配置成創(chuàng)建構(gòu)成目標(biāo)翻譯基礎(chǔ)的目標(biāo)邏輯形式432。這是通過(guò)執(zhí)行鏈接 邏輯形式422的自頂而下的遍歷完成的,其中將源邏輯形式412節(jié)點(diǎn)上的鏈接 所指向的目標(biāo)邏輯形式段組合起來(lái)。當(dāng)將邏輯形式段結(jié)合在一起用于可能復(fù)雜 的多個(gè)單詞映射時(shí),由匹配組件420設(shè)置的各個(gè)節(jié)點(diǎn)間的子鏈接用來(lái)確定修飾 詞的正確附著點(diǎn)等。如果需要,使用默認(rèn)的附著點(diǎn)。
在沒(méi)有找到可應(yīng)用的轉(zhuǎn)換映射的情況下,將源邏輯形式412中的節(jié)點(diǎn)及其 關(guān)系簡(jiǎn)單地拷貝到目標(biāo)邏輯形式432。對(duì)于這些節(jié)點(diǎn),默認(rèn)的單個(gè)單詞翻譯仍 可在轉(zhuǎn)換映射數(shù)據(jù)庫(kù)318中找到,并插入在目標(biāo)邏輯形式432中。但是,如果 沒(méi)有找到,翻譯可例示性地從在對(duì)齊期間使用的更新后的雙語(yǔ)字典320獲取。
生成組件440例示性地是一基于規(guī)則的、應(yīng)用無(wú)關(guān)的生成組件,它從目標(biāo) 邏輯形式432映射到目標(biāo)串(或輸出目標(biāo)句)。生成組件440例示性地可能沒(méi) 有關(guān)于輸入邏輯形式的源語(yǔ)言的信息,并且專有地對(duì)由轉(zhuǎn)換組件430傳遞給它 的信息操作。生成組件440還例示性地結(jié)合單語(yǔ)(例如,用于目標(biāo)語(yǔ)言的)字 典使用這個(gè)信息來(lái)產(chǎn)生目標(biāo)句446。 一個(gè)普通的生成組件440因而對(duì)每種語(yǔ)言 都是足夠的。
圖5是一流程圖,示出當(dāng)為翻譯提供文本輸入時(shí)由機(jī)器翻譯機(jī)250執(zhí)行的 步驟。圖5將參考圖4中的組件討論。
將文本輸入406提供給系統(tǒng)250。文本輸入406是用戶期望從源語(yǔ)言翻譯 到目標(biāo)語(yǔ)言的文檔或其它文本的書面版本。例如,文本輸入406可以是"Para obtener mas information acerca de WSH, consulte Windows Script Host"。對(duì)機(jī)器 翻譯系統(tǒng)250的文本輸入的這種提供在方框510示出。
在方框520,機(jī)器翻譯機(jī)250接收文本輸入406并準(zhǔn)備將文本輸入406從 西班牙語(yǔ)翻譯到英語(yǔ)。但是其它語(yǔ)言也可用于翻譯。接下來(lái)由分析組件410對(duì) 文本輸入406中每個(gè)單詞生成源邏輯形式。這在方框530示出。在源邏輯形式的生成之后,匹配組件將源邏輯形式與轉(zhuǎn)換映射數(shù)據(jù)庫(kù)中的 邏輯形式匹配。這在方框540示出。在源邏輯形式的節(jié)點(diǎn)上創(chuàng)建到相應(yīng)目標(biāo)邏 輯形式段的拷貝的鏈接。這在方框550示出。目標(biāo)邏輯形式通過(guò)執(zhí)行鏈接的邏 輯形式的自頂向下的遍歷來(lái)創(chuàng)建。將源邏輯形式節(jié)點(diǎn)上的鏈接所指向的目標(biāo)邏 輯形式段組合起來(lái)。這在方框560示出。如果沒(méi)有找到轉(zhuǎn)換映射,機(jī)器翻譯機(jī) 從雙語(yǔ)字典得到翻譯。這在方框570示出。
例如,在上例文本輸入的處理期間,單詞"para obtener"鏈接為"to obtain"。 然而在現(xiàn)有技術(shù)機(jī)器翻譯機(jī)中,單詞"para"鏈接為"in order"而"obtener"鏈接為 "toobtain"。而且,單詞"informacion"在本發(fā)明中鏈接至U"information",而在現(xiàn) 有技術(shù)中鏈接到"data"。在兩種機(jī)器翻譯機(jī)之間單詞鏈接和映射的這種不同歸 因于每種機(jī)器翻譯機(jī)的訓(xùn)練方法不同。
在映射過(guò)程之后,目標(biāo)邏輯形式映射到目標(biāo)句446。因此,我們的例句將 由機(jī)器翻譯機(jī)250翻譯成"To obtain more information about WSH, consult Windows Script Host",而不是從現(xiàn)有技術(shù)機(jī)器翻譯機(jī)獲得的翻譯"In order to obtain more data about WSH, it consults Windows Script Host"。這個(gè)翻譯示于方 框580。翻譯在步驟590輸出給用戶。
盡管已參考特定實(shí)施例描述本發(fā)明,本領(lǐng)域熟練技術(shù)人員將認(rèn)識(shí)到,可在 不脫離本發(fā)明精神和范圍的情況下,在形式和細(xì)節(jié)中作出修改。
19
權(quán)利要求
1.一種訓(xùn)練機(jī)器翻譯機(jī)的方法,其特征在于,所述方法包括下列步驟以第一語(yǔ)言提供第一文本輸入;使用第一輸入機(jī)器翻譯機(jī)將所述第一文本輸入翻譯為第二語(yǔ)言,所述第一語(yǔ)言的第一文本輸入和所述第二語(yǔ)言的第一文本輸入的翻譯組成第一翻譯集;以及使用所述第一翻譯集訓(xùn)練機(jī)器翻譯機(jī)。
2. 如權(quán)利要求1所述的方法,其特征在于,所述方法還包括在所述訓(xùn)練步驟之前,提供所述第一翻譯集給訓(xùn)練組件。
3. 如權(quán)利要求1所述的方法,其特征在于,所述方法還包括使用配對(duì)組件對(duì)齊所述第一翻譯集中的單詞或短語(yǔ)。
4. 如權(quán)利要求1所述的方法,其特征在于,所述方法還包括在所述機(jī)器翻譯機(jī)上執(zhí)行后訓(xùn)練編輯。
5. 如權(quán)利要求4所述的方法,其特征在于,所述執(zhí)行后訓(xùn)練編輯包括,從所述訓(xùn)練中刪除無(wú)效詞法信息。
6. 如權(quán)利要求1所述的方法,其特征在于,所述方法還包括輸出所述訓(xùn)練結(jié)果作為所述機(jī)器翻譯機(jī)的組件。
7. 如權(quán)利要求6所述的方法,其特征在于,輸出結(jié)果輸出雙語(yǔ)字典。
8. 如權(quán)利要求6所述的方法,其特征在于,輸出結(jié)果輸出轉(zhuǎn)換映射組件。
9. 如權(quán)利要求1所述的方法,其特征在于,所述訓(xùn)練機(jī)器翻譯機(jī)還包括提供人類創(chuàng)作的雙語(yǔ)文集;使用所述第一翻譯集和所述人類創(chuàng)作的雙語(yǔ)文集訓(xùn)練所述機(jī)器翻譯機(jī)。
10. 如權(quán)利要求1所述的方法,其特征在于,所述訓(xùn)練機(jī)器翻譯機(jī)還包括提供雙語(yǔ)字典;使用所述第一翻譯集和所述雙語(yǔ)字典訓(xùn)練所述機(jī)器翻譯機(jī)。
11. 如權(quán)利要求l所述的方法,其特征在于,所述方法還包括以第一語(yǔ)言提供第二文本輸入;使用第二輸入機(jī)器翻譯機(jī)將所述第二文本輸入翻譯為第二語(yǔ)言,所述第一語(yǔ)言的第二文本輸入和所述第二語(yǔ)言的第二文本輸入的翻譯組成第二翻譯集;以及使用所述第一和第二翻譯集訓(xùn)練所述機(jī)器翻譯機(jī)。
12. 如權(quán)利要求1所述的方法,其特征在于,所述訓(xùn)練機(jī)器翻譯機(jī)還包括-按詞法分析所述第一文本輸入以獲得表示數(shù)據(jù)結(jié)構(gòu)的從屬結(jié)構(gòu)。
13. —個(gè)將文本輸入從第一語(yǔ)言翻譯到第二語(yǔ)言的系統(tǒng),其特征在于,所述系統(tǒng)包括訓(xùn)練組件,配置成接收第一語(yǔ)言的訓(xùn)練文本輸入及第二語(yǔ)言的訓(xùn)練文本輸入的翻譯版本,所述訓(xùn)練組件還配置成根據(jù)訓(xùn)練文本輸入創(chuàng)建雙語(yǔ)字典組件和轉(zhuǎn)換映射組件;以及機(jī)器翻譯組件,配置成接收所述第一語(yǔ)言的文本輸入并根據(jù)由所述雙語(yǔ)字典組件和轉(zhuǎn)換映射組件提供的信息輸出所述第二語(yǔ)言的文本輸入的翻譯;其中,所述第二語(yǔ)言的訓(xùn)練文本輸入的翻譯版本由外部機(jī)器翻譯機(jī)生成。
14. 如權(quán)利要求13所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括雙語(yǔ)字典,包括與所述第二語(yǔ)言的單詞相關(guān)聯(lián)的第一語(yǔ)言的單詞,雙語(yǔ)字典配置成與所述訓(xùn)練組件通信。
15. 如權(quán)利要求13所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括對(duì)齊組件,配置成將所述訓(xùn)練文本輸入中的單詞或短語(yǔ)與所述譯出的訓(xùn)練文本輸入中的單詞或短語(yǔ)配對(duì)。
16. 如權(quán)利要求15所述的系統(tǒng),其特征在于,所述對(duì)齊組件通過(guò)使用邏輯形式配對(duì)單詞。
17. 如權(quán)利要求13所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括后訓(xùn)練編輯組件,配置成使由所述訓(xùn)練組件創(chuàng)建的詞法信息無(wú)效。
18. 如權(quán)利要求13所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括人類創(chuàng)作的雙語(yǔ)文本,具有所述第二語(yǔ)言的文本的人類翻譯版本,配置成與所述訓(xùn)練組件通信。
19. 如權(quán)利要求13所述的系統(tǒng),其特征在于,所述訓(xùn)練組件配置成從多個(gè)外部機(jī)器翻譯機(jī)接收所述訓(xùn)練文本輸入的翻譯版本。
20. 如權(quán)利要求13所述的系統(tǒng),其特征在于,所述機(jī)器翻譯機(jī)組件還配置成為所述文本輸入的單詞和短語(yǔ)生成邏輯形式。
21. —種訓(xùn)練機(jī)器翻譯機(jī)的系統(tǒng),其特征在于,所述系統(tǒng)包括第一機(jī)器翻譯機(jī),配置成翻譯訓(xùn)練輸入;訓(xùn)練結(jié)構(gòu),配置成接收所述訓(xùn)練輸入的翻譯版本和訓(xùn)練輸入,并且配置成生成可由機(jī)器翻譯機(jī)使用的組件;以及其中,所述訓(xùn)練輸入及訓(xùn)練輸入的翻譯版本組成第一翻譯集。
22. 如權(quán)利要求21所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括對(duì)齊組件,配置成對(duì)齊所述第一翻譯集中的單詞和短語(yǔ),所述對(duì)齊組件配置成為所述訓(xùn)練結(jié)構(gòu)提供所述對(duì)齊的單詞或短語(yǔ)。
23.如權(quán)利要求21所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括雙語(yǔ)字典組件;人類創(chuàng)作的雙語(yǔ)文集;以及其中,所述訓(xùn)練結(jié)構(gòu)還配置成根據(jù)所述第一翻譯集、所述雙語(yǔ)字典和所述人類創(chuàng)作的雙語(yǔ)文集生成所述組件。
24.如權(quán)利要求21所述的系統(tǒng),其特征在于,所述第一機(jī)器翻譯機(jī)包括多個(gè)機(jī)器翻譯機(jī),所述多個(gè)機(jī)器翻譯機(jī)的每一個(gè)都為所述訓(xùn)練結(jié)構(gòu)提供所述訓(xùn)練輸入的獨(dú)立的翻譯版本。
全文摘要
揭示了用其它機(jī)器翻譯機(jī)生成的文本輸入來(lái)訓(xùn)練的機(jī)器翻譯機(jī)。第一語(yǔ)言的文本輸入是由用戶或其它來(lái)源提供的。這個(gè)文本輸入隨后由第一機(jī)器翻譯機(jī)翻譯,生成第二語(yǔ)言的所述文本輸入的翻譯版本。文本輸入和翻譯版本被分析并經(jīng)過(guò)訓(xùn)練結(jié)構(gòu)來(lái)開發(fā)轉(zhuǎn)換映射和雙語(yǔ)字典。這些組件隨后由第二機(jī)器翻譯機(jī)在翻譯其它文本輸入時(shí)使用。
文檔編號(hào)G06F17/28GK101673260SQ200910146158
公開日2010年3月17日 申請(qǐng)日期2004年5月27日 優(yōu)先權(quán)日2003年5月27日
發(fā)明者J·平克哈姆 申請(qǐng)人:微軟公司