一種漢英雙語翻譯語料的對齊方法
【技術領域】
[0001]本發(fā)明涉及翻譯技術領域,更具體地,是涉及一種漢英雙語翻譯語料的對齊方法。
【背景技術】
[0002]隨著科技技術的不斷進步,國際交流越來越頻繁,世界經(jīng)濟的越來越開放,全球化越來越深入,各種語言文件材料之間的翻譯也越來越多,尤其是英、漢之間。翻譯文件涉及到生活的方方面面:貿(mào)易、法律、電子、通訊、計算機、機械、化工、石油、醫(yī)藥、食品等各個領域。
[0003]翻譯屬于服務業(yè),服務業(yè)要始終以客戶為導向。在翻譯量越來越大、文件字數(shù)越來越多的今天,怎樣提高翻譯速度,滿足客戶的需求十分重要。CAT技術的流行使得翻譯速度大大提高?,F(xiàn)有的翻譯的文件的拆分和分配方法在一定程度上可避免對相同的段落進行多次翻譯,以提高翻譯效率。但是,其僅僅對同一篇文件中的重復段落進行剔除,畢竟在一篇文件中重復的段落不多,不能真正的有效的提高翻譯效率。且現(xiàn)有的翻譯文件越來越多,重復的語段也越來越多,怎樣做到已有翻譯文件的重復利用以提高翻譯速度十分重要。
【發(fā)明內(nèi)容】
[0004]本發(fā)明為了解決上述技術問題提供一種漢英雙語翻譯語料的對齊方法,其可實現(xiàn)已有翻譯文件的重復利用,提高翻譯效率。
[0005]本發(fā)明解決上述問題所采用的技術方案是:
一種漢英雙語翻譯語料的對齊方法,其特征在于,包括:
步驟I,獲取原文件和對應的翻譯文件;
步驟2,對原文件和翻譯文件按段分別進行拆分;
步驟3,對原文件的任一段和翻譯文件的對應段按句進行拆分,將拆分語句進行規(guī)則對齊并建立關聯(lián);
步驟4,遍歷該段,若該段中原文件與翻譯文件的句數(shù)一致,直接跳轉(zhuǎn)到步驟6 ;若該段中原文件與翻譯文件的句數(shù)不一致,直接跳轉(zhuǎn)到步驟5 ;
步驟5,對原文件或/和翻譯文件中的某些句子進行合并;
步驟6,再次選取原文件的任一未拆分段和翻譯文件的對應段,按照步驟3至步驟5的方法,對該段進行操作;
步驟7,按照步驟6的方法,直至將所有段落處理完畢;
步驟8,導出對齊文件。
[0006]本發(fā)明在現(xiàn)有已完成的翻譯文件的基礎上對文檔進行分析、拆分,對原始的原文件和翻譯文件進行按規(guī)則輸出,生成標準的語料文檔,以解決語料內(nèi)容重復利用的問題,已提高翻譯速度,大大加快了制作過程,縮短了語料文件生成時間,提高了效率。原文件和其對應的翻譯文件經(jīng)分段、分句后生成對應的關聯(lián)語句,并按規(guī)則輸出,便于后續(xù)翻譯多次利用。在漢-英翻譯過程中,存在一對二或二對一的情況,在語句關聯(lián)時,要對這種句式進行合并,使其滿足翻譯要求,增強語句關聯(lián)關系,提高翻譯質(zhì)量。本發(fā)明的方法將生料轉(zhuǎn)換為熟料,即將原文件和對應的翻譯文件轉(zhuǎn)換為可直接利用的TMX文件。翻譯過程中的最小單位為句,而不是段。處理語料的過程中,最好將其處理為句,以便于以后直接重復利用或者重復利用時僅做簡單修改。
[0007]作為優(yōu)選,在漢-英過程中,翻譯語句存在二對一的情況,為了對這種情況進行排查,步驟5包括:查找原文件和翻譯文件,找出原文件和翻譯文件中“二對一”的對應句,合并原文件中的該兩句對應句,原文件中合并處以后的已拆分語句依次上移并調(diào)整關聯(lián)關系O
[0008]作為優(yōu)選,在漢-英過程中,翻譯語句存在一對二的情況,為了對這種情況進行排查,步驟5包括:查找原文件和翻譯文件,找出原文件和翻譯文件中“一對二”的對應句,合并翻譯文件中的該兩句對應句,翻譯文件中合并處以后的已拆分語句依次上移并調(diào)整關聯(lián)關系O
[0009]作為優(yōu)選,步驟4中還包括:遍歷整段,查找特定詞匯并檢查特定詞匯的翻譯詞匯,檢查翻譯詞匯是否為特定翻譯詞匯,若不是,則將其替換為特定翻譯詞匯。
[0010]綜上,本發(fā)明的有益效果是:
本發(fā)明的方法將在現(xiàn)有已完成的翻譯文件的基礎上將原文件和對應的翻譯文件轉(zhuǎn)換為可直接利用的TMX文件按規(guī)則輸出,生成標準的語料文檔,以解決語料內(nèi)容重復利用的問題,已提高翻譯速度,大大加快了制作過程,縮短了語料文件生成時間,提高了效率。
【具體實施方式】
[0011]下面結合實施例,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
實施例
[0012]一種漢英雙語翻譯語料的對齊方法,包括:
步驟I,獲取原文件和對應的翻譯文件;
步驟2,對原文件和翻譯文件按段分別進行拆分;
步驟3,對原文件的任一段和翻譯文件的對應段按句進行拆分,將拆分語句進行規(guī)則對齊并建立關聯(lián);
步驟4,遍歷該段,若該段中原文件與翻譯文件的句數(shù)一致,直接跳轉(zhuǎn)到步驟6 ;若該段中原文件與翻譯文件的句數(shù)不一致,直接跳轉(zhuǎn)到步驟5 ;
步驟5,對原文件或/和翻譯文件中的某些句子進行合并;
步驟6,再次選取原文件的任一未拆分段和翻譯文件的對應段,按照步驟3至步驟5的方法,對該段進行操作;
步驟7,按照步驟6的方法,直至將所有段落處理完畢;
步驟8,導出對齊文件。
[0013]步驟5包括:查找原文件和翻譯文件,找出原文件和翻譯文件中“二對一”的對應句,合并原文件中的該兩句對應句,原文件中合并處以后的已拆分語句依次上移并調(diào)整關耳關關系O
[0014]步驟5包括:查找原文件和翻譯文件,找出原文件和翻譯文件中“一對二”的對應句,合并翻譯文件中的該兩句對應句,翻譯文件中合并處以后的已拆分語句依次上移并調(diào)整關耳關關系O
[0015]步驟4中還包括:遍歷整段,查找特定詞匯并檢查特定詞匯的翻譯詞匯,檢查翻譯詞匯是否為特定翻譯詞匯,若不是,則將其替換為特定翻譯詞匯。
[0016]下面我們再以上基礎上以具體的例子進行舉例說明。
[0017]漢文的原文件為:
我喜歡做家務,特別愛洗碗。但是,有一次我把碗摔碎了。
[0018]我在清理碎渣時,不小心割傷了手指。
[0019]英文的翻譯文件為:
I like to do housework, especially love to wash dishes.But once I broke mybowl.When I was in cleaning up crumbs, accidentally cut my finger.對齊過程中,先根據(jù)原文件和翻譯文件的段落關系將其分段,原文件被分為兩段,第一段為:我喜歡做家務,特別愛洗碗。但是,有一次我把碗摔碎了。其所對應的翻譯文件的第一段為:I like to do housework, especially love to wash dishes.But once I brokemy bowl.原文件的第二段為:我在清理碎渣時,不小心割傷了手指。其所對應的翻譯文件的第二段為:ffhen I was in cleaning up crumbs, accidentally cut my finger.現(xiàn)以第一段為例,對原文件和翻譯文件的第一段進行分句并建立關聯(lián),原文件中“我喜歡做家務,特別愛洗碗。”對應的翻譯語句為:“I like to do housework, especiallylove to wash dishes.”“但是,有一次我把碗摔碎了?!睂姆g語句為:“But once Ibroke my bowl.”檢查其句子的對應關系,該段不存在一對二或二對一的情況,貝>J直接處理第二段。最后,對齊的語料導出即可。
[0020]將翻譯完成的文件進行語料對齊,在翻譯過程中,僅需對待翻譯語句進行相關度檢索,便于對對齊語料進行調(diào)用,提高翻譯效率。譬如,待譯語句為:我喜歡做家務,特別愛洗碗。在翻譯過程中,直接對對齊語料庫進行檢索以搜索匹配度,當搜索道對齊語料庫中有完全匹配的“我喜歡做家務,特別愛洗碗。”,直接對其翻譯語句進行調(diào)用即可,大大縮短翻譯周期。
[0021 ] 在步驟3至步驟7中,可不按照隨機的方式對段落進行拆分對齊處理,也可按照按段依次對段落進行拆分對齊處理,即按第一段、第二段、第三段直至最后一段的處理方式。
[0022] 如上所述,可較好的實現(xiàn)本發(fā)明。
【主權項】
1.一種漢英雙語翻譯語料的對齊方法,其特征在于,包括: 步驟I,獲取原文件和對應的翻譯文件; 步驟2,對原文件和翻譯文件按段分別進行拆分; 步驟3,對原文件的任一段和翻譯文件的對應段按句進行拆分,將拆分語句進行規(guī)則對齊并建立關聯(lián); 步驟4,遍歷該段,若該段中原文件與翻譯文件的句數(shù)一致,直接跳轉(zhuǎn)到步驟6 ;若該段中原文件與翻譯文件的句數(shù)不一致,直接跳轉(zhuǎn)到步驟5 ; 步驟5,對原文件或/和翻譯文件中的某些句子進行合并; 步驟6,再次選取原文件的任一未拆分段和翻譯文件的對應段,按照步驟3至步驟5的方法,對該段進行操作; 步驟7,按照步驟6的方法,直至將所有段落處理完畢; 步驟8,導出對齊文件。2.根據(jù)權利要求1所述的一種漢英雙語翻譯語料的對齊方法,其特征在于:步驟5包括:查找原文件和翻譯文件,找出原文件和翻譯文件中“二對一”的對應句,合并原文件中的該兩句對應句,原文件中合并處以后的已拆分語句依次上移并調(diào)整關聯(lián)關系。3.根據(jù)權利要求1所述的一種漢英雙語翻譯語料的對齊方法,其特征在于:步驟5包括:查找原文件和翻譯文件,找出原文件和翻譯文件中“一對二”的對應句,合并翻譯文件中的該兩句對應句,翻譯文件中合并處以后的已拆分語句依次上移并調(diào)整關聯(lián)關系。4.根據(jù)權利要求1所述的一種漢英雙語翻譯語料的對齊方法,其特征在于:步驟4中還包括:遍歷整段,查找特定詞匯并檢查特定詞匯的翻譯詞匯,檢查翻譯詞匯是否為特定翻譯詞匯,若不是,則將其替換為特定翻譯詞匯。
【專利摘要】本發(fā)明公開了一種漢英雙語翻譯語料的對齊方法,步驟1,獲取原文件和對應的翻譯文件;步驟2,對原文件和翻譯文件按段分別進行拆分;步驟3,對原文件的任一段和翻譯文件的對應段按句進行拆分,將拆分語句進行規(guī)則對齊并建立關聯(lián);步驟4,遍歷該段,若該段中原文件與翻譯文件的句數(shù)一致,直接跳轉(zhuǎn)到步驟6;若該段中原文件與翻譯文件的句數(shù)不一致,直接跳轉(zhuǎn)到步驟5;步驟5,對原文件或/和翻譯文件中的某些句子進行合并;步驟6,再次選取原文件的任一未拆分段和翻譯文件的對應段,按照步驟3至步驟5的方法,對該段進行操作;步驟7,按照步驟6的方法,直至將所有段落處理完畢;步驟8,導出對齊文件,其可實現(xiàn)已有翻譯文件的重復利用。
【IPC分類】G06F17/30, G06F17/28
【公開號】CN105183722
【申請?zhí)枴緾N201510592410
【發(fā)明人】郝瑞, 張馬成, 王興強
【申請人】成都優(yōu)譯信息技術有限公司
【公開日】2015年12月23日
【申請日】2015年9月17日