動(dòng)態(tài)生成多語言行業(yè)標(biāo)準(zhǔn)格式的海量語言資產(chǎn)的方法
【專利摘要】本發(fā)明為一種動(dòng)態(tài)生成多語言行業(yè)標(biāo)準(zhǔn)格式的海量語言資產(chǎn)的方法,包括:通過開發(fā)解析器將TMX、TBX等基于XML的標(biāo)準(zhǔn)格式的語料庫、術(shù)語庫中的內(nèi)容讀取出并導(dǎo)入到指定的數(shù)據(jù)庫中;在導(dǎo)入的同時(shí),將自動(dòng)匹配和放置相同內(nèi)容不同語言對(duì)的數(shù)據(jù)庫表,自動(dòng)生成一句源文,多句匹配的目標(biāo)語言的多語言數(shù)據(jù)庫;在用戶使用時(shí),根據(jù)用戶指定的語言對(duì),自動(dòng)將搜索到的結(jié)果以翻譯記憶的形式反饋給用戶,以特定的格式呈現(xiàn)給最終用戶進(jìn)行重用;當(dāng)增加、更新多語言數(shù)據(jù)庫時(shí),將自動(dòng)更新多語言的相關(guān)內(nèi)容,從而保證語言資產(chǎn)在動(dòng)態(tài)更新之后,可以繼續(xù)讓用戶獲取更新后的翻譯記憶內(nèi)容。直接重用文本數(shù)據(jù)庫格式保存的語言資產(chǎn),數(shù)據(jù)不易損壞丟失,提升了資產(chǎn)安全性。
【專利說明】動(dòng)態(tài)生成多語言行業(yè)標(biāo)準(zhǔn)格式的海量語言資產(chǎn)的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種動(dòng)態(tài)生成多語言行業(yè)標(biāo)準(zhǔn)格式的海量語言資產(chǎn)的方法,用于CAT軟件或者多語言翻譯系統(tǒng)中的TM模塊的開發(fā)和應(yīng)用,屬多語言機(jī)器翻譯【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]TM (Translation Memory翻譯記憶)是計(jì)算機(jī)輔助翻譯(CAT)領(lǐng)域廣泛采用的技術(shù)之一,借助TM技術(shù)可以顯著提高翻譯效率,保證內(nèi)容一致性。由于采用TM技術(shù)開發(fā)的CAT軟件種類繁多,TM內(nèi)容的存儲(chǔ)格式千差萬別,為了便于翻譯機(jī)構(gòu)以及CAT工具之間的TM數(shù)據(jù)交換,一種稱為TMX(Translation Memory eXchange)的開放標(biāo)準(zhǔn)已經(jīng)成功應(yīng)用到本地化和翻譯行業(yè)。
[0003]在軟件和網(wǎng)站本地化翻譯的過程中,需要處理的數(shù)據(jù)文件內(nèi)容重復(fù)性比較大,另外由于內(nèi)容更新頻繁,且都是基于上一版本的更新,只是增加了少量新內(nèi)容或者對(duì)原來的內(nèi)容進(jìn)行了少量修正,所以很有必要充分利用以前版本已經(jīng)翻譯的內(nèi)容,而不需要重新翻譯。
[0004]TM技術(shù)有效地重復(fù)利用這些已經(jīng)翻譯的內(nèi)容,它采用片斷(Segment)和TM庫的方式提高翻譯的效率,翻譯數(shù)據(jù)庫以“翻譯單元(Translation Unit) ”為數(shù)據(jù)單位,將源語言的各個(gè)句子與目標(biāo)語言的句子建立對(duì)應(yīng)鏈接關(guān)系。翻譯人員采用TM的CAT工具翻譯內(nèi)容時(shí),CAT工具不斷將最新翻譯的內(nèi)容存儲(chǔ)到TM庫,對(duì)于要翻譯的內(nèi)容(如單詞、短語、句子、段落),它先在TM庫中搜索該內(nèi)容是否有匹配的內(nèi)容,并且自動(dòng)提供最接近的譯法,翻譯人員可方便地插入最匹配的譯文。
[0005]隨著翻譯內(nèi)容的不斷豐富,TM庫的容量不斷增加,翻譯人員不必為相同內(nèi)容的再次重新翻譯而苦惱,只需要專注于需要翻譯的新內(nèi)容即可,而且TM的準(zhǔn)確性也能保證相同內(nèi)容翻譯的一致性。這是采用TM技術(shù)追求的目標(biāo)。
[0006]然而,隨著經(jīng)濟(jì)全球化的不斷深入,軟件/網(wǎng)站的本地化和全球化行業(yè)迅速發(fā)展,與此相呼應(yīng),各個(gè)采用T M技術(shù)開發(fā)的本地化工具和TM工具越來越多,但是這些工具是不同的廠家開發(fā)的,每家都有各自的文件數(shù)據(jù)存儲(chǔ)格式。另外,對(duì)于一個(gè)本地化服務(wù)機(jī)構(gòu)來說,經(jīng)常為不同客戶或相同客戶的不同項(xiàng)目提供本地化翻譯服務(wù),由于不同客戶和不同項(xiàng)目需要使用不同的本地化工具,經(jīng)常由于各個(gè)本地化工具文件數(shù)據(jù)缺乏可以交換的標(biāo)準(zhǔn)格式,因此,很難重復(fù)使用以前積累的TM庫資源。顯然,TM庫的標(biāo)準(zhǔn)格式亟待統(tǒng)一。
[0007]綜上所述,隨著經(jīng)濟(jì)全球化的不斷深入,軟件/網(wǎng)站的本地化和全球化行業(yè)迅速發(fā)展,除了對(duì)現(xiàn)有存儲(chǔ)的TMX及TBX格式的語言資產(chǎn)(TM與術(shù)語資源)進(jìn)行重用有助于提升產(chǎn)出與質(zhì)量,降低成本。通常TMX或者TBX都是以一個(gè)語言對(duì)形式出現(xiàn),如英文到中文,英文到德文等。然而,業(yè)界的技術(shù)還是停留在單一語言對(duì)格式進(jìn)行支持的情況,還沒有從現(xiàn)有的單一語言對(duì)里的相同內(nèi)容自動(dòng)生成多語言語言對(duì)的技術(shù)。
[0008]現(xiàn)有技術(shù)的缺點(diǎn):1)現(xiàn)有的語言資產(chǎn)存儲(chǔ)架構(gòu)是二維的、單向的,源語種與各個(gè)目標(biāo)語種間的對(duì)應(yīng)關(guān)系無法打通;2)無法從海量單一語言TMX或TBX文件中相同內(nèi)容自動(dòng)獲取多語言(多維度)、多向的語言對(duì),造成資源的極大浪費(fèi),如需獲取,勢必造成巨大人工成本。
【發(fā)明內(nèi)容】
[0009]為解決上述問題,本發(fā)明旨在提供一種動(dòng)態(tài)生成多語言行業(yè)標(biāo)準(zhǔn)格式的海量語言資產(chǎn)的方法。本發(fā)明的技術(shù)方案如下:
[0010]一種動(dòng)態(tài)生成多語言行業(yè)標(biāo)準(zhǔn)格式的海量語言資產(chǎn)的方法,包括以下步驟:
[0011]1、通過開發(fā)解析器將TMX、TBX等基于XML的標(biāo)準(zhǔn)格式的語料庫、術(shù)語庫中的內(nèi)容讀取出并導(dǎo)入到指定的數(shù)據(jù)庫中;
[0012]2、在導(dǎo)入的同時(shí),將自動(dòng)匹配和放置相同內(nèi)容不同語言對(duì)的數(shù)據(jù)庫表,自動(dòng)生成一句源文,多句匹配的目標(biāo)語言的多語言數(shù)據(jù)庫;
[0013]3、在用戶使用時(shí),根據(jù)用戶指定的語言對(duì),自動(dòng)將搜索到的結(jié)果以翻譯記憶的形式反饋給用戶,以特定的格式呈現(xiàn)給最終用戶進(jìn)行重用;
[0014]4、當(dāng)增加、更新多語言數(shù)據(jù)庫時(shí),將自動(dòng)更新多語言的相關(guān)內(nèi)容,保證語言資產(chǎn)在動(dòng)態(tài)更新之后,可以繼續(xù)讓用戶獲取更新后的翻譯記憶內(nèi)容。
[0015]以上所述的動(dòng)態(tài)生成多語言行業(yè)標(biāo)準(zhǔn)格式的海量語言資產(chǎn)的方法,作為優(yōu)選方案:還包括:
[0016]采用λ語料解析模塊,提供行業(yè)標(biāo)準(zhǔn)格式TMX和TBX的解析,將語料信息(包括源語言、目標(biāo)語言等)讀入內(nèi)存,轉(zhuǎn)換為二進(jìn)制對(duì)象;
[0017]采用λ語料適配模塊,提供對(duì)中間語言語料的匹配功能,并將相應(yīng)目標(biāo)語言語料存儲(chǔ)到多語言語料矩陣正確位置;
[0018]采用λ語料生成模塊,提供讀取多語言語料矩陣內(nèi)語料信息,并將其按照行業(yè)標(biāo)準(zhǔn)輸出為TMX或TBX格式文件,方便歸檔備份語料或供其他兼容TMX或TBX的工具使用。
[0019]本發(fā)明的動(dòng)態(tài)生成多語言行業(yè)標(biāo)準(zhǔn)格式的海量語言資產(chǎn)的方法,其有益效果是:以多語言數(shù)據(jù)庫形式存在的語言資產(chǎn)是物理上獨(dú)立于以TMX和TBX格式存在的語言資產(chǎn)的,即使多語言數(shù)據(jù)庫被刪除,也不會(huì)影響到原始的語言資產(chǎn),從而保證了資產(chǎn)的安全性;而且,資產(chǎn)是以文本形式的XML (TMX與TBX均基于XML)保存在存儲(chǔ)介質(zhì)上,不同于被CAT工具頻繁讀取存儲(chǔ)的二進(jìn)制數(shù)據(jù)庫文件,其安全性可以得到保障,不會(huì)意外丟失。
[0020]直接對(duì)TMX與TBX兩種行業(yè)標(biāo)準(zhǔn)格式的處理,可帶來以下有益效果:
[0021]I)直接重用文本數(shù)據(jù)庫格式保存的語言資產(chǎn),數(shù)據(jù)不易損壞丟失,提升了資產(chǎn)安全性。
[0022]2)無需手動(dòng)轉(zhuǎn)換格式,自動(dòng)導(dǎo)入行業(yè)標(biāo)準(zhǔn)格式,實(shí)現(xiàn)語言資產(chǎn)的重用。
[0023]3)自動(dòng)獲取多語言多維度的語言對(duì)和術(shù)語對(duì),比如原來有3個(gè)語言對(duì)的語料,通過應(yīng)該用發(fā)明,可實(shí)現(xiàn)資產(chǎn)的額外增值,額外獲得9個(gè)語言對(duì)的語料,從而發(fā)揮語言資產(chǎn)的最大效能,對(duì)企業(yè)的產(chǎn)品全球化和國際化,保持了全球化過程中語言表達(dá)的一致性,直接帶來效率和質(zhì)量的提升,節(jié)約巨大的多語言生產(chǎn)成本,縮短企業(yè)產(chǎn)品全球化布局的時(shí)間周期。
[0024]4)支持對(duì)海量多語言資產(chǎn)的高速查詢/重用。
【專利附圖】
【附圖說明】[0025]圖1.動(dòng)態(tài)生成多語言行業(yè)標(biāo)準(zhǔn)格式的海量語言資產(chǎn)的方法的系統(tǒng)框圖。
具體實(shí)施方案
[0026]縮略語和關(guān)鍵術(shù)語定義:
[0027]MTMM Multilingual Translation Memory Matrix 多語翻譯記憶矩陣技術(shù)
[0028]TM Translation Memory翻譯記憶
[0029]TU Translation Unit翻譯單兀
[0030]TMX Translation Memory eXchange翻譯記憶交換格式
[0031]TBX Term Base eXchange術(shù)語庫交換格式
[0032]CAT Computer Aided Translation計(jì)算機(jī)輔助翻譯
[0033]LISA Localization Industry Standards Association 本地化行業(yè)標(biāo)準(zhǔn)協(xié)會(huì)
[0034]OSCAR Open Standards for Container/Content Allowing Re-use 可重用容器/內(nèi)容開放標(biāo)準(zhǔn)
[0035]具體實(shí)施例如下:
[0036]動(dòng)態(tài)生成多語言行業(yè)標(biāo)準(zhǔn)格式的海量語言資產(chǎn)的方法,包括以下步驟:
[0037]I)通過開發(fā)解析器將TMX、TBX等基于XML的標(biāo)準(zhǔn)格式的語料庫、術(shù)語庫中的內(nèi)容讀取出并導(dǎo)入到指定的數(shù)據(jù)庫中;
[0038]2)在導(dǎo)入的同時(shí),將自動(dòng)匹配和放置相同內(nèi)容不同語言對(duì)的數(shù)據(jù)庫表,自動(dòng)生成一句源文,多句匹配的目標(biāo)語言的多語言數(shù)據(jù)庫;
[0039]3)在用戶使用時(shí),根據(jù)用戶指定的語言對(duì),自動(dòng)將搜索到的結(jié)果以翻譯記憶的形式反饋給用戶,以特定的格式呈現(xiàn)給最終用戶進(jìn)行重用;
[0040]4)當(dāng)增加、更新多語言數(shù)據(jù)庫時(shí),將自動(dòng)更新多語言的相關(guān)內(nèi)容,從而保證語言資產(chǎn)在動(dòng)態(tài)更新之后,可以繼續(xù)讓用戶獲取更新后的翻譯記憶內(nèi)容。
[0041]動(dòng)態(tài)生成多語言行業(yè)標(biāo)準(zhǔn)格式的海量語言資產(chǎn)的方法,具體還包括:
[0042]采用λ語料解析模塊,提供行業(yè)標(biāo)準(zhǔn)格式TMX和TBX的解析,將語料信息(包括源語言、目標(biāo)語言等)讀入內(nèi)存,轉(zhuǎn)換為二進(jìn)制對(duì)象;
[0043]采用λ語料適配模塊,提供對(duì)中間語言語料的匹配功能,并將相應(yīng)目標(biāo)語言語料存儲(chǔ)到多語言語料矩陣正確位置;
[0044]采用λ語料生成模塊,提供讀取多語言語料矩陣內(nèi)語料信息,并將其按照行業(yè)標(biāo)準(zhǔn)輸出為TMX或TBX格式文件,方便歸檔備份語料或供其他兼容TMX或TBX的工具使用。
[0045]以多語言數(shù)據(jù)庫形式存在的語言資產(chǎn)是物理上獨(dú)立于以TMX和TBX格式存在的語言資產(chǎn)的,即使多語言數(shù)據(jù)庫被刪除,也不會(huì)影響到原始的語言資產(chǎn),從而保證了資產(chǎn)的安全性;而且,資產(chǎn)是以文本形式的XML (TMX與TBX均基于XML)保存在存儲(chǔ)介質(zhì)上,不同于被CAT工具頻繁讀取存儲(chǔ)的二進(jìn)制數(shù)據(jù)庫文件,其安全性可以得到保障,不會(huì)意外丟失。
[0046]本發(fā)明的概念例句:
[0047]Α.對(duì)翻譯記憶(TMX)的概念例如說明:
[0048]普通情況下的單語言對(duì)二維TM內(nèi)容舉例:
[0049]英文 en-us:People’ s Republic of China is a permanent member of theUnited Nations Organization[0050]中文zh-cn:中華人民共和國是聯(lián)合國組織的常任理事國
[0051]英文 en-us:People’ s Republic of China is a permanent member of theUnited Nations Organization
[0052]法 文 fr-fr:Republique populaire de Chine est membre permanent deI’ Organisation des Nations Unies
[0053]英文 en-us:People’ s Republic of China is a permanent member of theUnited Nations Organization
[0054]德文de_de:Der Volksrepublik China ist standiges Mitglied derOrganisation der Vereinten Nationen
[0055]通過本發(fā)明技術(shù),將自動(dòng)獲取任意匹配的多語言多維度語言對(duì)TM,如:
[0056]中文zh-cn:中華人民共和國是聯(lián)合國組織的常任理事國
[0057]法 文 fr-fr:Republique populaire de Chine est membre permanent deI’ Organisation des Nations Unies
[0058]中文zh-cn:中華人民共和國是聯(lián)合國組織的常任理事國
[0059]德文de_de:Der Volksrepublik China ist standiges Mitglied derOrganisation der Vereinten Nationen
[0060]法 文 fr-fr:Republique populaire de Chine est membre permanent deI’ Organisation des Nations Unies
[0061]德文de_de:Der Volksrepubl ik China ist standiges Mitglied derOrganisation der Vereinten Nationen
[0062]B.對(duì)術(shù)語庫(TBX)的概念例如說明:
[0063]普通情況下的單語言二維術(shù)語內(nèi)容:
[0064]英文 en-us:Computer-assisted translation
[0065]中文zh-cn:計(jì)算機(jī)輔助翻譯
[0066]英文 en-us:Computer-assisted translation
[0067]法文 fr-fr:Traduction assistee par ordinateur
[0068]英文 en-us:Computer-assisted translation
[0069]德文 de_de:Computerunterstiitzte Obersetzung
[0070]通過本發(fā)明技術(shù),將自動(dòng)獲取任意匹配的多語言多維度語言對(duì)術(shù)語:
[0071]中文zh-cn:計(jì)算機(jī)輔助翻譯
[0072]法文 fr-fr:Traduction assistee par ordinateur
[0073]中文zh-cn:計(jì)算機(jī)輔助翻譯
[0074]德文 de_de:Computerunterstiitzte Ubersetzung
[0075]法文 fr-fr:Traduction assistee par ordinateur
[0076]德文 de_de:Computerunterstiitzte Obersetzung
[0077]直接對(duì)TMX與TBX兩種行業(yè)標(biāo)準(zhǔn)格式的處理,可帶來以下有益效果:
[0078]I)直接重用文本數(shù)據(jù)庫格式保存的語言資產(chǎn),數(shù)據(jù)不易損壞丟失,提升了資產(chǎn)安全性。
[0079]2)無需手動(dòng)轉(zhuǎn)換格式,自動(dòng)導(dǎo)入行業(yè)標(biāo)準(zhǔn)格式,實(shí)現(xiàn)語言資產(chǎn)的重用。[0080]3)自動(dòng)獲取多語言多維度的語言對(duì)和術(shù)語對(duì),比如原來有3個(gè)語言對(duì)的語料,通過應(yīng)該用發(fā)明,可實(shí)現(xiàn)資產(chǎn)的額外增值,額外獲得9個(gè)語言對(duì)的語料,從而發(fā)揮語言資產(chǎn)的最大效能,對(duì)企業(yè)的產(chǎn)品全球化和國際化,保持了全球化過程中語言表達(dá)的一致性,直接帶來效率和質(zhì)量的提升,節(jié)約巨大的多語言生產(chǎn)成本,縮短企業(yè)產(chǎn)品全球化布局的時(shí)間周期。
[0081]4)支持對(duì)海量多語言資產(chǎn)的高速查詢/重用。
[0082]每個(gè)廠商都希望用戶對(duì)自身的CAT產(chǎn)品依賴性更大,但從用戶的角度考慮,一種支持海量語言資產(chǎn)的從單一語言對(duì)的相同內(nèi)容自動(dòng)生成多語言對(duì)的方法,保證資產(chǎn)安全性,實(shí)現(xiàn)資源的最大化應(yīng)用,將是相當(dāng)可貴。采用本發(fā)明的技術(shù)方案,可得到有益結(jié)果:除了保證原單語言句對(duì)的重用和資產(chǎn)安全性,同時(shí)自動(dòng)為用戶獲取多語言多維度的語言對(duì),實(shí)現(xiàn)了資產(chǎn)的額外增值,發(fā)揮語言資產(chǎn)的最大效能。
[0083]以上所述,僅為本發(fā)明的較佳實(shí)施例而已,本【技術(shù)領(lǐng)域】的技術(shù)人員圍繞該精神所做的任何非創(chuàng)造性改進(jìn),皆屬于本發(fā)明的保護(hù)范圍。
【權(quán)利要求】
1.動(dòng)態(tài)生成多語言行業(yè)標(biāo)準(zhǔn)格式的海量語言資產(chǎn)的方法,其特征在于:包括以下步驟:(I)通過開發(fā)解析器將TMX、TBX等基于XML的標(biāo)準(zhǔn)格式的語料庫、術(shù)語庫中的內(nèi)容讀取出并導(dǎo)入到指定的數(shù)據(jù)庫中;(2)在導(dǎo)入的同時(shí),將自動(dòng)匹配和放置相同內(nèi)容不同語言對(duì)的數(shù)據(jù)庫表,自動(dòng)生成一句源文,多句匹配的目標(biāo)語言的多語言數(shù)據(jù)庫;(3)在用戶使用時(shí),根據(jù)用戶指定的語言對(duì),自動(dòng)將搜索到的結(jié)果以翻譯記憶的形式反饋給用戶,以特定的格式呈現(xiàn)給最終用戶進(jìn)行重用;(4)當(dāng)增加、更新多語言數(shù)據(jù)庫時(shí),將自動(dòng)更新多語言的相關(guān)內(nèi)容,保證語言資產(chǎn)在動(dòng)態(tài)更新之后,可以繼續(xù)讓用戶獲取更新后的翻譯記憶內(nèi)容。
2.根據(jù)權(quán)利要求1所述的動(dòng)態(tài)生成多語言行業(yè)標(biāo)準(zhǔn)格式的海量語言資產(chǎn)的方法,其特征在于:還包括以下步驟:采用λ語料解析模塊,提供行業(yè)標(biāo)準(zhǔn)格式TMX和TBX的解析,將語料信息(包括源語言、目標(biāo)語言等)讀入內(nèi)存,轉(zhuǎn)換為二進(jìn)制對(duì)象;采用λ語料適配模塊,提供對(duì)中間語言語料的匹配功能,并將相應(yīng)目標(biāo)語言語料存儲(chǔ)到多語言語料矩陣正確位置;采用λ語料生成模塊,提供讀取多語言語料矩陣內(nèi)語料信息,并將其按照行業(yè)標(biāo)準(zhǔn)輸出為TMX或TBX格式文件,方便歸檔備份語料或供其他兼容TMX或TBX的工具使用。
【文檔編號(hào)】G06F17/30GK103729346SQ201210383201
【公開日】2014年4月16日 申請(qǐng)日期:2012年10月11日 優(yōu)先權(quán)日:2012年10月11日
【發(fā)明者】杜金林, 朱懿, 杜勇 申請(qǐng)人:上海勇金懿信息科技有限公司