平行語料對齊的方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及翻譯技術(shù)領(lǐng)域,具體涉及一種平行語料對齊的方法和裝置。
【背景技術(shù)】
[0002] 平行語料庫在機器翻譯、輔助翻譯、語義消岐和詞典編撰等眾多領(lǐng)域都起著基礎(chǔ) 性的作用。平行語料庫的對齊是指,將原文和譯文按不同的分割粒度進行對應(yīng),形成規(guī)范的 語對。語料對齊的單位從大到小有篇章、段落、句子、詞等不同的粒度,粒度越小的平行語 料,其提供的語言信息就越豐富,應(yīng)用價值也越大。
[0003] -般而言,語料如果是按篇章或段落對齊,可以將原文和譯文按照順序進行對齊 即可。但在段落內(nèi)將原文和譯文按句或更小粒度進行對齊則無法這樣簡單處理,由于源語 言風(fēng)格、目標語言風(fēng)格、翻譯文風(fēng)、內(nèi)容調(diào)整等各種原因,段落內(nèi)的原文語句和譯文語句若 是簡單的按順序來進行對齊往往會造成大量錯配的情況。所以這種粒度小于句子的原譯文 對齊工作往往需要人工來處理,既費時費力,效率也很低。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明實施例的目的在于克服現(xiàn)有技術(shù)的上述不足,提供一種平行語料對齊的方 法,該方法基于實義詞的相似度,解決了原文和譯文對齊的問題。
[0005] 本發(fā)明實施例的另一目的在于克服現(xiàn)有技術(shù)的上述不足,提供一種平行語料對齊 的裝置,該裝置基于實義詞的相似度,解決了原文和譯文對齊的問題。
[0006] 為了實現(xiàn)上述發(fā)明目的,本發(fā)明實施例的技術(shù)方案如下:
[0007] -種平行語料對齊的方法,包括:將原文中的所有原文語句和譯文中的所有譯文 語句轉(zhuǎn)換為相同編碼方式的字符;對轉(zhuǎn)換后的所述原文中的所有所述原文語句分詞,去除 其中的停用詞,獲得實義詞;獲取所述原文語句的每個實義詞的所有譯項;將每個所述原文 語句的每個實義詞的所有譯項在轉(zhuǎn)換后的所述譯文中的所有所述譯文語句中進行匹配,獲 得每個所述原文語句的每個實義詞和所述譯文語句的相似度;根據(jù)每個所述原文語句的所 有實義詞和所述譯文語句的相似度,將每個所述原文語句和所述譯文語句進行匹配,獲得 每個所述原文語句和所述譯文語句的相似度;將與所述原文語句相似度最高的所述譯文語 句和所述原文語句匹配并對齊。
[0008] 進一步,所述將每個所述原文語句的每個實義詞的所有譯項在所有所述譯文語句 中進行匹配,獲得每個所述原文語句的每個實義詞和所述譯文語句的相似度的過程包括: 根據(jù)8;[111(購1,11^歷 10 = 17((1丨8(購1,11^斷)+0獲得原文語句01?的第」個實義詞的第1個譯 項n w j i與第i個譯文語句T R i的第r個實義詞T R i n w r的相似度;根據(jù)
獲得所述原文語句0R的第j個實義詞的第1個 譯項nWjl與所述譯文語句TRi的相似度;根據(jù)
獲得 所述原文語句0R的第j個實義詞η%和第i個所述譯文語句TRi的相似度;其中,所述原文語句 OR具有m個實義詞,所述譯文中共有η個所述譯文語句,所述譯文語句TRi具有p個實義詞,第 j個實義詞具有k個譯項,L表示調(diào)節(jié)參數(shù),dis(nwji,TRmwr)表示所述原文語句OR的第j個實 義詞的第1個譯項nw^和第i個所述譯文語句TRi的第r個實義詞TRm Wr在詞典中的代碼的距 離,i = l,2,.",n,j = l,2,.",m,l = l,2,.",k,r = l,2,.",p0
[0009] 進一步,所述根據(jù)每個所述原文語句的所有實義詞和所述譯文語句的相似度,將 每個所述原文語句和所述譯文語句進行匹配,獲得每個所述原文語句和所述譯文語句的相 似度的過程包括:根S
獲得所述原文語句0R與所述譯 文語句TRi的相似度。
[0010] 進一步,所述將與所述原文語句相似度最高的所述譯文語句和所述原文語句匹配 并對齊的過程包括:根據(jù)'
K得與所 述原文語句0R的相似度最高的所述譯文語句;將與所述原文語句0R的相似度最高的所述譯 文語句和所述原文語句0R匹配,并對齊所述原文語句0R和所述譯文語句。
[0011] 進一步,還包括:對轉(zhuǎn)換后的所述原文中的所述原文語句按順序進行編號;對轉(zhuǎn)換 后的所述譯文中的所述譯文語句按順序進行編號;如果同一所述譯文語句和多個所述原文 語句的相似度均為最高,則獲取多個所述原文語句在所述原文中的所述編號,以及所述譯 文語句在所述譯文中的所述編號;如果多個所述原文語句中的一個所述原文語句在所述原 文中的所述編號和所述譯文語句在所述譯文中的所述編號最接近,則將該一個所述原文語 句與所述譯文語句匹配并對齊;如果多個所述原文語句中的兩個所述原文語句在所述原文 中的所述編號和所述譯文語句在所述譯文中的所述編號均為最接近,則將所述編號較小的 所述原文語句與所述譯文語句匹配并對齊;比較兩個所述原文語句中所述編號較大的所述 原文語句與剩余所述譯文語句的相似度的高低,將剩余所述譯文語句中與所述編號較大的 所述原文語句的相似度最高的所述譯文語句和所述編號較大的所述原文語句匹配并對齊; 重復(fù)上述過程,直到每個所述原文語句均與每個所述譯文語句匹配并對齊。
[0012] 進一步:所述詞典為按樹形結(jié)構(gòu)編碼的同義詞分類詞典,所述按樹形結(jié)構(gòu)編碼的 同義詞分類詞典的每個節(jié)點具有唯一的所述代碼。
[0013] 進一步:所述調(diào)節(jié)參數(shù)L為所述按所述樹形結(jié)構(gòu)編碼的同義詞分類詞典的層數(shù)。
[0014] 進一步,所述將原文中的所有原文語句和譯文中的所有譯文語句轉(zhuǎn)換為相同編碼 方式的字符的過程包括:根據(jù)所述原文中的所有所述原文語句的字符的編碼方式讀取所述 原文語句中的字符或者字符串,以及根據(jù)所述譯文中的所有所述譯文語句的字符的編碼方 式讀取所述譯文語句中的字符或者字符串;根據(jù)相同目標編碼方式分別將讀取的所述原文 語句和所述譯文語句中的字符或者字符串轉(zhuǎn)換成目標編碼字符或者字符串。
[0015] 進一步,所述實義詞包括:名詞、動詞、形容詞和副詞。
[0016] 以及,一種平行語料對齊的裝置,包括:第一單元,用于將原文中的所有原文語句 和譯文中的所有譯文語句轉(zhuǎn)換為相同編碼方式的字符;第二單元,用于對轉(zhuǎn)換后的所述原 文中的所有所述原文語句分詞,去除其中的停用詞,獲得實義詞;第三單元,用于獲取所述 原文語句的每個實義詞的所有譯項;第四單元,用于將每個所述原文語句的每個實義詞的 所有譯項在標記后的所述譯文中的所有所述譯文語句中進行匹配,獲得每個所述原文語句 的每個實義詞和所述譯文語句的相似度;第五單元,用于根據(jù)每個所述原文語句的所有實 義詞和所述譯文語句的相似度,將每個所述原文語句和所述譯文語句進行匹配,獲得每個 所述原文語句和所述譯文語句的相似度;第六單元,用于將與所述原文語句相似度最高的 所述譯文語句和所述原文語句匹配并對齊。
[0017] 本發(fā)明實施例的有益效果如下:
[0018] 1、本發(fā)明實施例的平行語料對齊的方法,基于實義詞的相似度,解決了譯后處理 的原譯文對齊問題。
[0019] 2、本發(fā)明實施例的平行語料對齊的方法,不需要通過人工處理,節(jié)省了時間,提高 了效率。
[0020] 3、本發(fā)明實施例的平行語料對齊的方法,通過將原文語句和譯文語句轉(zhuǎn)換成相同 編碼的字符,解決由于不同編碼方式產(chǎn)生亂碼的問題,以及通過統(tǒng)一原文和譯文的字符的 編碼方式,便于對齊原文和譯文。
[0021] 4、本發(fā)明實施例的平行語料對齊的裝置,基于實義詞的相似度,解決了譯后處理 的原譯文對齊問題。
[0022] 5、本發(fā)明實施例的平行語料對齊的裝置,實現(xiàn)了自動化,節(jié)省了時間,提高了效 率。
[0023] 6、本發(fā)明實施例的平行語料對齊的裝置,通過將原文語句和譯文語句轉(zhuǎn)換成相同 編碼的字符,解決由于不同編碼方式產(chǎn)生亂碼的問題,以及通過統(tǒng)一原文和譯文的字符的 編碼方式,便于對齊原文和譯文。
【附圖說明】
[0024] 圖1是本發(fā)明實施例的平行語料對齊的方法的流程圖;
[0025]圖2是本發(fā)明實施例的平行語料對齊的裝置的流程圖。
【具體實施方式】
[0026] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖和實施例,對 本發(fā)明進行進一步詳細說明。應(yīng)當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并 不用于限定本發(fā)明。
[0027] 本發(fā)明實施例提供了一種平行語料對齊的方法。如圖1所示,為本發(fā)明實施例的平 行語料