本發(fā)明涉及一種基于拼接再混合的多源神經網絡譯后編輯系統(tǒng)及方法,屬于計算機應用、自然語言處理及機器翻譯技術領域。
技術背景
近年來,隨著全球化浪潮的推進,國際交流日益頻繁,各行各業(yè)對翻譯服務的需求都更加迫切。盡管機器翻譯具有更加高效便捷的優(yōu)勢,然而,其譯文相對于人工譯文仍有不小的差距。因此,對機器翻譯結果進行自動化的譯后編輯以提高譯文質量具有重要實用價值。
神經網絡自動譯后編輯系統(tǒng)是對傳統(tǒng)自動譯后編輯的改進,它善于生成流暢度較高的語句,可以改善機器翻譯譯文的語序問題。現(xiàn)有的神經網絡自動譯后編輯系統(tǒng)大多單純將初步翻譯結果作為輸入的源語言,基本實現(xiàn)了語言流暢度方面的提高,但并不能完全還原翻譯原文的信息量,經常出現(xiàn)較為嚴重的漏譯問題,降低了整體的翻譯質量。
技術實現(xiàn)要素:
本發(fā)明的目的是為了解決現(xiàn)有神經網絡譯后編輯過程中出現(xiàn)的大量漏譯問題,提出一種基于拼接再混合的多源神經網絡譯后編輯系統(tǒng)及方法。
一種基于拼接再混合的多源神經網絡譯后編輯系統(tǒng)及方法包括一種基于拼接再混合的多源神經網絡譯后編輯系統(tǒng),稱為本系統(tǒng),及一種基于拼接再混合的多源神經網絡譯后編輯方法,簡稱為本方法;
其中,多源指譯后編輯的輸入可以來自于多種不同的源語言,包括機器翻譯譯文與翻譯原文;
本系統(tǒng)能夠使得翻譯原文與初步翻譯結果在譯后編輯過程中相互影響,交叉驗證,提高翻譯忠實度,進而提高譯后編輯結果的整體質量;
本系統(tǒng)包括訓練模塊與解碼模塊;
各模塊的功能如下:
訓練模塊的功能是訓練基于拼接再混合方式的多源神經網絡自動譯后編輯系統(tǒng),輸出已訓練模型;此已訓練模型又稱為譯后編輯系統(tǒng)模型;
解碼模塊的功能是利用訓練模塊輸出的譯后編輯系統(tǒng)模型進行解碼;
各模塊之間的連接關系如下:
訓練模塊與解碼模塊相連,具體通過訓練模塊輸出的已訓練模型,即譯后編輯系統(tǒng)模型相連。
為實現(xiàn)上述目的,本發(fā)明所采用的技術方案如下:
定義1:設置一個初步機器翻譯系統(tǒng),稱為machinetranslation,即mt系統(tǒng);
定義2:設置一個常數(shù)n,代表本方法中用于訓練模塊的訓練原文和參考譯文的語料都假設有n句;
定義3:設置一個常數(shù)m,代表本方法中用于解碼模塊的翻譯原文假設有m句;
在上述定義的基礎之上,本方法包括訓練模塊的訓練過程及解碼模塊的解碼過程兩部分,其中訓練模塊完成對基于拼接再混合方式的多源神經網絡自動譯后編輯系統(tǒng)的訓練,輸出已訓練模型;解碼過程利用訓練過程輸出的已訓練模型進行解碼;
訓練模塊的訓練過程,具體為:
步驟一、搜集本系統(tǒng)訓練過程所需要的各語料,并對其中的訓練原文語料經mt系統(tǒng)進行初步翻譯,得出初步翻譯結果語料;
其中,各語料主要包括訓練原文語料和參考譯文語料;其中,訓練原文語料和參考譯文語料為雙語平行語料;
訓練原文語料,記為:{source1,source2,…,sourcen},
訓練譯文語料,記為{ref1,ref2,…,refn},
訓練原文語料的初步翻譯結果語料,記為:
{mt-outs1,mt-outs2,…,mt-outsn};
步驟二、對步驟一的語料進行拼接組合,輸出源前譯后語料;
源前譯后語料,記為:
{sourcemt-outs1,sourcemt-outs2,…,sourcemt-outsn},每一句話按照訓練原文在前,其對應的初步翻譯結果在后的順序依次進行拼接;
步驟三、對步驟一的語料進行拼接組合,輸出源后譯前語料;
源后譯前的語料,記為:
{mt-outsssource1,mt-outssource2,…,mt-outssourcen},每一句話按照訓練原文在后,及其對應的初步翻譯結果在前的順序依次進行拼接;
步驟四、對步驟二及步驟三輸出的源前譯后語料和源后譯前語料整體再次進行混合,得出混合語料,作為訓練過程的源語料;
其中,步驟二、步驟三以及步驟四中的拼接與混合過程均為構造多源翻譯語料的過程,即是指翻譯原文與初步翻譯結果共同形成了譯后編輯系統(tǒng)的源語料;
混合語料,記為:{sourcemt-outs1,sourcemt-outs2,…,sourcemt-outsn,mt-outsssource1,mt-outssource2,…,mt-outssourcen},作為訓練模塊的源語料;
步驟五、對步驟一的訓練譯文語料整體翻倍,生成訓練過程的目標語料;
其中,對訓練譯文語料進行整體翻倍,其輸出記為:
{ref1,ref2,…,refn,ref1,ref2,…,refn},作為訓練模塊的目標語料;
步驟六、用步驟四得到的源語料與步驟五得到的目標語料基于神經網絡翻譯模型訓練本系統(tǒng),輸出譯后編輯系統(tǒng)模型;
至此,從步驟一到步驟六,完成了本方法中訓練模塊的訓練過程;
步驟七、設置本系統(tǒng)的解碼步驟中需要的各語料;
其中,解碼步驟中需要的各語料主要包括翻譯原文語料和初步翻譯結果語料,初步翻譯結果語料由翻譯原文語料經mt系統(tǒng)翻譯得到;
翻譯原文語料,記為:{src1,src2,…,srcm},
初步翻譯結果語料,記為:{mt1,mt2,…,mtm};
步驟八、對步驟七的語料進行拼接組合,輸出解碼過程需要的源前譯后語料;
源前譯后語料,記為:{srcmt1,srcmt2,…,srcmtm};
每一句話按照翻譯原文在前,對應的初步翻譯結果在后的順序依次進行拼接;
步驟九、對步驟七的語料進行拼接組合,輸出解碼過程需要的源后譯前語料;
源后譯前語料,記為:{mtsrc1,mtsrc2,…,mtsrcm};
每一句話按照翻譯原文在后,對應的初步翻譯結果在前的順序依次進行拼接;
步驟十、將步驟八和步驟九輸出的源前譯后語料與源后譯前語料兩者任選其一,輸入到步驟六輸出的譯后編輯系統(tǒng)模型,輸出譯后編輯譯文;
至此,從步驟八到步驟十,完成了本方法中解碼模塊的解碼過程。
有益效果
本發(fā)明是一種基于多源方式的神經網絡自動譯后編輯系統(tǒng)及方法,對比現(xiàn)有技術,具有如下有益效果:
1.本發(fā)明直接將翻譯原文加入神經網絡譯后編輯過程,為神經網絡譯后編輯系統(tǒng)的訓練提供了完整的語義支持,并通過拼接的方式,與未加入翻譯原文的方法相比,能夠以極低的代價提高機器翻譯的流暢度;
2.本發(fā)明對翻譯原文與初步翻譯結果采用在語句拼接基礎上再次進行整體混合的方法,與僅進行了拼接的多源譯后編輯方法相比,神經網絡能夠同時學習到翻譯原文與初步翻譯結果兩種源語言到譯文的翻譯過程,兩種源語言在譯后編輯過程中有效地相互影響,交叉驗證,同時提高譯文的忠實度與流暢度,從而提高了整體翻譯質量。
附圖說明
圖1為本發(fā)明一種基于拼接再混合的多源神經網絡譯后編輯系統(tǒng)及方法的訓練過程與解碼過程。
具體實施方式
本發(fā)明所提出的模型和方法基于神經網絡機器翻譯模型,下面結合附圖及實施例對本發(fā)明做進一步說明。
實施例1
本實施例結合附圖1,敘述了本發(fā)明一種基于拼接再混合的多源神經網絡譯后編輯系統(tǒng)及方法的詳細組成及訓練與解碼流程。
從圖1可以看出訓練模塊與解碼模塊相連。
訓練模塊的訓練過程包含以下步驟:
步驟a:搜集本系統(tǒng)訓練過程所需要的各語料;
其中,各語料主要包括訓練原文語料和參考譯文語料;其中,訓練原文語料和參考譯文語料為平行語料;假定n=600000,即訓練原文有60000句;
訓練原文語料,記為:{source1,source2,…,source600000},
訓練譯文語料,記為{ref1,ref2,…,ref600000},
訓練原文語料的初步翻譯結果語料,記為:
{mt-outs1,mt-outs2,…,mt-outs600000};
其中,初步翻譯結果是由訓練原文經過moses翻譯系統(tǒng)翻譯得到的;
步驟b:對步驟a的語料進行不同順序的拼接組合,可以按照每一句話的訓練原文在前,其對應的初步翻譯結果在后的順序依次進行拼接,輸出源前譯后語料,也可以按照每一句話的訓練原文在后,及其對應的初步翻譯結果在前的順序依次進行拼接,輸出源后譯前語料;
其中,源前譯后語料,記為:
{sourcemt-outs1,sourcemt-outs2,…,sourcemt-outs600000},
源后譯前的語料,記為:
{mt-outsssource1,mt-outssource2,…,mt-outssource600000};
步驟c:對步驟b輸出的源前譯后語料和源后譯前語料整體再次進行混合,構建混合語料,作為訓練過程的源語料;
其中,混合語料,記為:
{sourcemt-outs1,sourcemt-outs2,…,sourcemt-outsn,
mt-outsssource1,mt-outssource2,…,mt-outssource600000};
步驟d:對步驟a的參考譯文語料整體翻倍,生成訓練過程的目標語料;
其中,對訓練譯文語料進行整體翻倍,其輸出記為:
{ref1,ref2,…,ref600000,ref1,ref2,…,ref600000};
步驟e:利用源語料與目標語料基于神經網絡翻譯模型訓練本系統(tǒng),輸出譯后編輯系統(tǒng)模型;
解碼模塊與訓練模塊之間以基于拼接再混合方式的多源神經網絡譯后編輯系統(tǒng)相連,解碼過程包含以下步驟:
步驟f:設置本系統(tǒng)的解碼步驟中需要的各語料,假定m=1597,即解碼過程中的翻譯原文有1597句;
其中,解碼步驟中需要的各語料主要包括翻譯原文語料和初步翻譯結果語料,初步翻譯結果語料由翻譯原文語料經moses翻譯系統(tǒng)翻譯得到;
翻譯原文語料,記為:{src1,src2,…,src1597},
初步翻譯結果語料,記為:{mt1,mt2,…,mt1597};
步驟g:對步驟f的語料進行不同順序的拼接組合,可以按照每一句話的翻譯原文在前,其對應的初步翻譯結果在后的順序依次進行拼接,輸出源前譯后語料,也可以按照每一句話的翻譯原文在后,及其對應的初步翻譯結果在前的順序依次進行拼接,輸出源后譯前語料;
其中,源前譯后語料,記為:
{srcmt1,srcmt2,…,srcmt1597};
其中,源后譯前語料,記為:
{mtsrc1,mtsrc2,…,mtsrc1597};
步驟h:選擇步驟g中任意一種拼接方式生成的源前譯后語料或源后譯前語料輸入步驟e輸出的譯后編輯系統(tǒng),輸出即為經過譯后編輯處理的譯文。
實施例2
本實施例以具體句子為例,闡述了本系統(tǒng)及方法的效果。
在具體實例中,翻譯質量在直觀上以忠實度和流暢度體現(xiàn),其中,忠實度的提高細化到選詞準確性的提高上。
假定翻譯原文為“不過,過去的挑戰(zhàn),不止于資助公共房屋方面,私營房屋也充滿重大考驗?!币痪?。
初步機器翻譯系統(tǒng)使用moses統(tǒng)計機器翻譯系統(tǒng),翻譯結果為“however,thepastchallenge,notinthefundingofpublichousing,privatehousingisfullofchallenge.”,在本句中,翻譯原文的關鍵詞“資助”被翻譯成了“funding”,意思為“為……提供資金”,缺少了幫助層面的含義,不夠準確,同時,翻譯原文的句式“不止于”被翻譯成“not……”,整體語言流暢性欠佳。
經過本發(fā)明的基于拼接再混合方式的多源神經網絡自動譯后編輯系統(tǒng)校正后,譯文為“however,thechallengesinthepastwerenotlimitedtosubsidizingpublichousing,andprivatehouseswerealsoamajorchallenge.”。
無論是在關鍵詞“資助”的選詞準確性上,還是整體語句流暢度上,都更接近正確的參考譯文“nevertheless,pastchallengesarenotlimitedtosubsidizedpublichousing.privatehousingisalsofullofseriousordeals.”,質量遠高于初步翻譯結果,達到了翻譯原文與初步翻譯結果互相影響,交叉驗證,使得譯后編輯譯文質量更高。
實施例3
本實施例在統(tǒng)計意義上闡述了本系統(tǒng)及方法相對于未加入翻譯原文,直接利用初步翻譯結果作為源語言訓練的單源神經網絡自動譯后編輯系統(tǒng)與只做了拼接而未混合方式多源神經網絡自動譯后編輯系統(tǒng)在整體翻譯質量上的優(yōu)勢。
假定用于訓練模塊的訓練原文與參考譯文數(shù)據(jù)集有600000句,用于測試模塊的翻譯原文數(shù)據(jù)集有1597句,初步機器翻譯系統(tǒng)采用moses統(tǒng)計機器翻譯系統(tǒng),評分采用multi-bleu腳本,bleu值代表整體翻譯質量,一元至四元打分分別是忠實度與流暢度的量化指標,具體得分如下表1所述:
表1:初步翻譯系統(tǒng)、單源譯后編輯系統(tǒng)、基于拼接方式的多源譯后編輯系統(tǒng)與基于拼接再混合方式的多源譯后編輯系統(tǒng)對翻譯原文處理效果在統(tǒng)計意義上的對比
從表1中可以看出,在整體翻譯質量(bleu)方面,基于拼接再混合方式的多源譯后編輯系統(tǒng)無論對源前譯后還是源后譯前兩種拼接方法形成語料的翻譯質量都遠遠高于其他系統(tǒng),并且一元打分與四元打分都是所有系統(tǒng)中最高的,這說明譯文在忠實度和流暢度方面都得到了提高。
以上所述為本發(fā)明的較佳實施例而已,本發(fā)明不應該局限于該實施例和附圖所公開的內容。凡是不脫離本發(fā)明所公開的精神下完成的等效或修改,都落入本發(fā)明保護的范圍。