一種快速翻譯裝置及方法
【專利摘要】一種快速翻譯方法,包括預先將待翻譯文件分配為待翻譯單句的步驟,還包括將待翻譯單句與歷史記憶庫中的單句比較的步驟;首次篩選步驟:判斷該待翻譯單句是否在待翻譯文件中首次出現(xiàn);恢復步驟,在翻譯完成后,將歷史記憶庫和首次篩選庫中的全部單句的譯文按照對應關系恢復到待翻譯文件的對應位置。一種快速翻譯裝置,包括歷史記憶庫、輸入分配模塊、首次判斷模塊、對比模塊、首次篩選庫、標識模塊、恢復模塊和顯示裝置,所述對比模塊與歷史記憶庫連接,比對庫中單句與輸入分配模塊分配得到的每一待翻譯單句;所述首次判斷模塊判斷輸入分配模塊分配得到的每一待翻譯單句。本發(fā)明所述快速翻譯裝置及方法,減少了翻譯文字數(shù)量并保證了譯文翻譯質(zhì)量。
【專利說明】一種快速翻譯裝置及方法
【技術領域】
[0001]本發(fā)明屬于軟件領域,涉及一種語言翻譯軟件,特別是一種快速翻譯裝置及方法。【背景技術】
[0002]從上世紀80年代中期開始,基于語料和多引擎機譯方法的廣泛運用,翻譯軟件的性能和效率有了明顯提高,各式各樣的翻譯軟件如雨后春筍般問世。采用預先編寫的軟件程序翻譯,極大提高了文本翻譯的速度。
[0003]由于語言表達的特殊性,翻譯軟件的翻譯質(zhì)量一直屢遭詬病,翻譯軟件的原理是將兩種語言的語義一一對應的存儲,翻譯時機械調(diào)用替換,由于語言表達的多樣性,每個字或單詞往往對應不止一個意思,完全使用軟件翻譯所得到的譯文通常不能正確表達原文含義,因此人工翻譯仍然是獲得高翻譯質(zhì)量的保證。
[0004]人工翻譯的固有缺點仍然是翻譯速度過慢,譯員翻譯時首先需要將詞翻譯,再組合形成符合目標語言表達習慣的句式,時間較長且不能由翻譯軟件替代。
【發(fā)明內(nèi)容】
[0005]為克服翻譯軟件翻譯質(zhì)量差,人工翻譯翻譯速度慢的缺陷,本發(fā)明公開了一種快速翻譯裝置及方法。
[0006]本發(fā)明所述一種快速翻譯裝置,包括歷史記憶庫、輸入分配模塊、首次判斷模塊、對比模塊、首次篩選庫、標識模塊、恢復模塊和顯示裝置;
待翻譯文件輸入所述輸入分配模塊,并以整句為單位分配;
所述首次判斷模塊判斷輸入分配模塊分配得到的每一待翻譯單句,判斷該待翻譯單句是否在待翻譯文件中首次出現(xiàn),是則存入首次篩選庫,否則指示標識模塊將該句做出表示不翻譯的標識;
所述對比模塊與歷史記憶庫連接,比對庫中單句與輸入分配模塊分配得到的每一待翻譯單句,如完全相同,則指示標識模塊將該待翻譯單句做出表示不翻譯的標識;
顯示裝置顯示做出全部不翻譯標識的待翻譯文件;
所述恢復模塊用于在翻譯完成后,將歷史記憶庫和首次篩選庫中的全部單句的譯文按照對應關系恢復到待翻譯文件的對應位置。
[0007]優(yōu)選的,所述輸入分配模塊還將待翻譯文件中的字母縮寫識別為單句。
[0008]具體的,所述標識模塊做出的不翻譯標識為色彩顯示異于正常顯示,且為不可編輯狀態(tài)。
[0009]本發(fā)明還公開了一種快速翻譯方法,包括預先將待翻譯文件分配為待翻譯單句的步驟,還包括:
Il將待翻譯單句與歷史記憶庫中的單句比較的步驟:比對庫中單句與輸入分配模塊分配得到的每一待翻譯單句,如完全相同,則指示標識模塊將該待翻譯單句做出表示不翻譯的標識;做出不翻譯標識的單句不再進入12步驟; 12首次篩選步驟:判斷該待翻譯單句是否在待翻譯文件中首次出現(xiàn),是則存入首次篩選庫,否則指示標識模塊將該句做出表示不翻譯的標識;
13恢復步驟:在翻譯完成后,將歷史記憶庫和首次篩選庫中的全部單句的譯文按照對應關系恢復到待翻譯文件的對應位置。
[0010]優(yōu)選的,設置一匹配數(shù)組D,對每一單句,若D中沒有存儲與之相同的單句,則將該單句存儲在D中,否則將該單句作出不翻譯標識。
[0011]具體的,所述預先將待翻譯文件分配為待翻譯單句的步驟包括待翻譯文件中的字母縮寫識別為單句。
[0012]采用本發(fā)明所述的快速翻譯裝置及方法,對待翻譯文件利用歷史文件庫進行預先篩選,結(jié)合自身對比進行重復過濾,減少了翻譯文字數(shù)量,以句為單位對比保證譯文的翻譯質(zhì)量,經(jīng)過實際測試,本發(fā)明可以減少翻譯工作量30%以上。
【專利附圖】
【附圖說明】
[0013]圖1為本發(fā)明所述快速翻譯裝置的一種【具體實施方式】結(jié)構(gòu)示意圖;
圖2為本發(fā)明所述快速翻譯方法的一種【具體實施方式】結(jié)構(gòu)示意圖。
【具體實施方式】
[0014]下面結(jié)合附圖,對本發(fā)明的【具體實施方式】作進一步的詳細說明。
[0015]本發(fā)明所述快速翻譯裝置,包括歷史記憶庫、輸入分配模塊、首次判斷模塊、對比模塊、首次篩選庫、標識模塊、恢復模塊和顯示裝置;
待翻譯文件輸入所述輸入分配模塊,并以整句為單位分配;
所述首次判斷模塊判斷輸入分配模塊分配得到的每一待翻譯單句,判斷該待翻譯單句是否在待翻譯文件中首次出現(xiàn),是則存入首次篩選庫,否則指示標識模塊將該句做出表示不翻譯的標識;
所述對比模塊與歷史記憶庫連接,比對庫中單句與輸入分配模塊分配得到的每一待翻譯單句,如完全相同,則指示標識模塊將該待翻譯單句做出表示不翻譯的標識;
顯示裝置顯示做出全部不翻譯標識的待翻譯文件;
所述恢復模塊用于在翻譯完成后,將歷史記憶庫和首次篩選庫中的全部單句的譯文按照對應關系恢復到待翻譯文件的對應位置。
[0016]應用本發(fā)明時,首先將待翻譯文件輸入至輸入分配模塊,輸入分配模塊按照一定規(guī)則將待翻譯文件分為單句,通常的處理方式為以標點符號,例如句號、問號、省略號等作為單句分割標識符劃分出單句。
[0017]歷史記憶庫將待翻譯文件劃分出的單句與歷史記憶庫中預先存儲的單句進行比對,比對原則是完全一致,即單句中每一單詞及全部單詞的前后排列順序完全一致,符合完全一致的單句做出不翻譯標識。
[0018]在識別單句的過程中,本發(fā)明優(yōu)選的將擁有公知含義的字母縮寫作為單句單獨劃分出來,而不考慮該字母縮寫是否被標點符號分隔,例如WTO (世界貿(mào)易組織),USA (美利堅合眾國)等,通常字母縮寫位于一個句子內(nèi),則首先對比縮寫,再對比該縮寫所在的句子。
[0019]以最常見的英譯漢為例,歷史記憶庫是根據(jù)以往積累或公開英漢對照文獻所積累的單句或能表達完整意思的短語為單位存儲的數(shù)據(jù)文件庫,包括一一對應的英語原文和漢語譯文,眾所周知,在英語中每一單詞可能存在多個意思表示,但在每一特定的句子中,該單詞的意思通常固定不變,單句和約定俗成的短語的意思即使在不同的上下文語境中,意思表述也基本一致。
[0020]使用對比模塊對比歷史記憶庫中單句文件與待翻譯文件中被分割的單句單位,按照完全相同的比對原則進行篩選,篩選出的完全相同的單句在待譯文件中做出不翻譯標識。做出不翻譯標識的單句不再進行后續(xù)的首次出現(xiàn)判斷。
[0021]歷史記憶庫對比完成后,繼續(xù)對剩余單句進行首次出現(xiàn)判斷,即該單句是否在該待翻譯文件中首次出現(xiàn),首次判斷模塊利用待翻譯文件自身進行篩選,將重復出現(xiàn)的句式過濾,同一篇文章之中,由于是同一作者撰寫的同一主題的描述,有相當多單句或短語可能多次出現(xiàn),首次判斷模塊依次判斷每一單句在待翻譯文件中是否首次出現(xiàn),只要不是首次出現(xiàn),則做出不翻譯標識,是首次出現(xiàn)則存儲在首次篩選庫中。
[0022]歷史記憶庫對比應該早于首次判斷對比,可以減少判斷計算量,例如某句話在文中第一次出現(xiàn),如果該句話還出現(xiàn)在歷史記憶庫中,則只需要進行歷史記憶對比即可做出不翻譯標識。如果首先進行首次判斷對比,則還需要進行歷史記憶判斷才可得到結(jié)果,對于一篇文章來說,一般情況下,重復出現(xiàn)的單句數(shù)量總是少于只出現(xiàn)一次的單句數(shù)量,并且由于歷史記憶庫的單句積累量巨大,出現(xiàn)在歷史記憶庫中的單句往往數(shù)量上大于重復出現(xiàn)的單句,因此應該將首次判斷置后。
[0023]在系統(tǒng)內(nèi)部被作出不翻譯標識的單句,在顯示模塊的顯示狀態(tài)應該異于其他單句,例如色彩顯示異于正常顯示,為防止翻譯人員自行翻譯或誤動作,將不翻譯的單句可以設定為不可編輯狀態(tài)。翻譯人員只需要操作和翻譯顯示模塊顯示出的待翻譯文件中需要翻譯的單句,以及首次判斷模塊中存儲的在待翻譯文件中多次出現(xiàn)的單句。
[0024]翻譯完成后,得到的是包含若干空缺的譯文,空缺處是作出不翻譯標識的單句對應位置,系統(tǒng)根據(jù)歷史記憶庫中存儲的譯文和首次判斷模塊中的單句譯文,按照對應關系將這些作出不翻譯標識的單句的譯文回填到譯文的空缺處,得到完整譯文。
[0025]如圖2給出采用循環(huán)嵌套算法批量實時處理待翻譯文件的一種【具體實施方式】, 系統(tǒng)一次讀入N篇待翻譯文件,對每一篇待翻譯文件采取本發(fā)明所述的翻譯方法,即
首先將全文斷句,得到C個單句,對每一單句,依次進行判斷識別,判斷識別采用循環(huán)累加方式,即對第J句,首先判斷是否出現(xiàn)在歷史記憶庫中,若是,則做出不翻譯標識后,繼續(xù)進行第J+1句的判斷,若不是,則繼續(xù)判斷是否首次出現(xiàn)。
[0026]首次判斷步驟在本實施例中的【具體實施方式】為:設立一個自定義的匹配數(shù)組D,初始時該數(shù)組為空,對每一單句,若第一次出現(xiàn),則存儲在匹配數(shù)組D中,隨后進行第J+1句判斷,當該單句第二次出現(xiàn)時,則對該單句做出不翻譯標識,隨后進行第J+1句判斷,由此匹配數(shù)組D最終存儲了待翻譯文件中不重復的全部單句,翻譯人員實際翻譯完該匹配數(shù)組D中的全部單句,結(jié)合歷史記憶庫中存儲的歷史譯文,即完成了待翻譯文件的全部翻譯工作。采用設置匹配數(shù)組的方式,數(shù)據(jù)處理邏輯簡單,程序運行消耗資源少。
[0027]本發(fā)明中所公開的實施例描述的方法或算法的步驟可以直接用硬件、處理器執(zhí)行的軟件模塊,或者二者的結(jié)合來實施。軟件模塊可以置于隨機存儲器(RAM)、內(nèi)存、只讀存儲器(ROM)、電可編程ROM、電可擦除可編程ROM、寄存器、硬盤、可移動磁盤、CD-ROM、或【技術領域】內(nèi)所公知的任意其它形式的存儲介質(zhì)中。
[0028]前文所述的為本發(fā)明的各個優(yōu)選實施例,各個優(yōu)選實施例中的優(yōu)選實施方式如果不是明顯自相矛盾或以某一優(yōu)選實施方式為前提,各個優(yōu)選實施方式都可以任意疊加組合使用,所述實施例以及實施例中的具體參數(shù)僅是為了清楚表述發(fā)明人的發(fā)明驗證過程,并非用以限制本發(fā)明的專利保護范圍,本發(fā)明的專利保護范圍仍然以其權利要求書為準,凡是運用本發(fā)明的說明書及附圖內(nèi)容所作的等同結(jié)構(gòu)變化,同理均應包含在本發(fā)明的保護范圍內(nèi)。
【權利要求】
1.一種快速翻譯裝置,其特征在于,包括歷史記憶庫、輸入分配模塊、首次判斷模塊、對比模塊、首次篩選庫、標識模塊、恢復模塊和顯示裝置; 待翻譯文件輸入所述輸入分配模塊,并以整句為單位分配; 所述首次判斷模塊判斷輸入分配模塊分配得到的每一待翻譯單句,判斷該待翻譯單句是否在待翻譯文件中首次出現(xiàn),是則存入首次篩選庫,否則指示標識模塊將該句做出表示不翻譯的標識; 所述對比模塊與歷史記憶庫連接,比對庫中單句與輸入分配模塊分配得到的每一待翻譯單句,如完全相同,則指示標識模塊將該待翻譯單句做出表示不翻譯的標識; 顯示裝置顯示做出全部不翻譯標識的待翻譯文件; 所述恢復模塊用于在翻譯完成后,將歷史記憶庫和首次篩選庫中的全部單句的譯文按照對應關系恢復到待翻譯文件的對應位置。
2.如權利要求1所述的一種快速翻譯裝置,其特征在于,所述輸入分配模塊還將待翻譯文件中的字母縮寫識別為單句。
3.如權利要求1所述的一種快速翻譯裝置,其特征在于,所述標識模塊做出的不翻譯標識為色彩顯示異于正常顯示,且為不可編輯狀態(tài)。
4.一種快速翻譯方法,包括預先將待翻譯文件分配為待翻譯單句的步驟,其特征在于,還包括: Il將待翻譯單句與歷史記憶庫中的單句比較的步驟:比對庫中單句與輸入分配模塊分配得到的每一待翻譯單句,如完全相同,則指示標識模塊將該待翻譯單句做出表示不翻譯的標識;做出不翻譯標識的單句不再進入12步驟; 12首次篩選步驟:判斷該待翻譯單句是否在待翻譯文件中首次出現(xiàn),是則存入首次篩選庫,否則指示標識模塊將該句做出表示不翻譯的標識; 13恢復步驟:在翻譯完成后,將歷史記憶庫和首次篩選庫中的全部單句的譯文按照對應關系恢復到待翻譯文件的對應位置。
5.如權利要求4所述的一種快速翻譯方法,其特征在于,所述首次篩選步驟為:設置一匹配數(shù)組D,對每一單句,若D中沒有存儲與之相同的單句,則將該單句存儲在D中,否則將該單句作出不翻譯標識。
6.如權利要求4所述的一種快速翻譯方法,其特征在于,所述預先將待翻譯文件分配為待翻譯單句的步驟包括待翻譯文件中的字母縮寫識別為單句。
【文檔編號】G06F17/28GK103885942SQ201410100000
【公開日】2014年6月25日 申請日期:2014年3月18日 優(yōu)先權日:2014年3月18日
【發(fā)明者】張馬成, 王興強, 楊明 申請人:成都優(yōu)譯信息技術有限公司