對大文本中術(shù)語自動翻譯的方法
【專利摘要】本發(fā)明公開了對大文本中術(shù)語自動翻譯的方法,包括:提取文本中不重復(fù)的語素,并記錄每個語素在所述文本中出現(xiàn)的位置;在多種語言的術(shù)語庫中匹配所述提取的語素,將匹配成功的語素或語素的組合標(biāo)注為術(shù)語;在所述術(shù)語庫中找到相應(yīng)的術(shù)語,按照預(yù)先確定的翻譯方向,找到并顯示該術(shù)語的目標(biāo)語言。本發(fā)明采用一種反向思路,以文本集合中的語素為模式串在術(shù)語庫中進行字符串匹配,極大的減少了相同字符重復(fù)進行匹配的次數(shù),同時由于術(shù)語庫是個有序空間,在其中使用二分法進行查詢匹配可以大量減少查詢操作。
【專利說明】對大文本中術(shù)語自動翻譯的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種計算機技術(shù),具體而言,涉及對大文本中術(shù)語自動翻譯的方法。
【背景技術(shù)】
[0002]通常對于大量待翻譯的技術(shù)文檔和專業(yè)文檔中的術(shù)語要進行查找、標(biāo)注并翻譯的方法,是用術(shù)語為模式串在待譯文本中進行字符串模式匹配。由于待譯文本或文本集合是一種未排序的散亂文本空間,用這種方式進行模式匹配,需要用術(shù)語為模式串同待譯文本或文本集合中的每個字符順序進行字符串模式匹配,整個匹配過程要對其中相同的字(或單詞)反復(fù)進行字符串匹配,計算大量重復(fù),耗費了大量的時間和計算資源,整體時間復(fù)雜度非常巨大。
[0003]這種方法時間耗費大、速度很慢,無法滿足計算機輔助翻譯對于術(shù)語查找、標(biāo)注和翻譯的要求。特別是對于在大文本或文本集合來說來說,要在其中對術(shù)語進行快速查找、標(biāo)注和翻譯,目前仍然沒有一種快速有效的解決方法。
【發(fā)明內(nèi)容】
[0004]本發(fā)明旨在提供對大文本中術(shù)語自動翻譯的方法,以解決上述現(xiàn)有技術(shù)中匹配的時間耗費大、速度慢的問題。
[0005]本發(fā)明公開了一種對文本中術(shù)語自動翻譯的方法,包括:
[0006]提取文本中不重復(fù)的語素,并記錄每個語素在所述文本中出現(xiàn)的位置;
[0007]在多種語言的術(shù)語庫中匹配所述提取的語素,將匹配成功的語素或語素的組合標(biāo)注為術(shù)語;
[0008]在所述術(shù)語庫中找到相應(yīng)的術(shù)語,按照預(yù)先確定的翻譯方向,找到并顯示該術(shù)語的目標(biāo)語言。
[0009]優(yōu)選地,還包括:
[0010]按照所述預(yù)先確定的翻譯方向,確定作為源語言的所述提取的語素的語種;
[0011]將所述術(shù)語庫中的術(shù)語,按照所述確定的語種的字符順序排序。
[0012]優(yōu)選地,還包括:
[0013]根據(jù)所述提取的語素、及其出現(xiàn)的位置建立一個索引表;
[0014]該表中包括:所述提取的語素、語素所屬的文本編號和語素在每篇文本中出現(xiàn)的位置。
[0015]優(yōu)選地,還包括:
[0016]按照所述索引表中的語素的順序,采用二分法與所述術(shù)語庫中的術(shù)語執(zhí)行所述匹配操作。
[0017]優(yōu)選地,所述在多種語言的術(shù)語庫中匹配所述提取的語素的過程包括:
[0018]將所述索引表中的每個語素與所述術(shù)語庫中的每個術(shù)語的首個語素進行字符串模式匹配,將匹配成功的語素定義為疑是術(shù)語字頭。[0019]優(yōu)選地,還包括:
[0020]判斷所述術(shù)語庫中與所述疑是術(shù)語字頭的匹配成功的術(shù)語的長度;
[0021]術(shù)語的長度為一個語素,將該疑是術(shù)語字頭標(biāo)注為術(shù)語,并顯示該術(shù)語的目標(biāo)語言;
[0022]術(shù)語的長度大于一個語素,進行二次匹配,將匹配成功的語素組合標(biāo)注為術(shù)語,并顯示該術(shù)語的目標(biāo)語言。
[0023]優(yōu)選地,所述二次匹配的過程包括:
[0024]計算術(shù)語的長度,設(shè)定該術(shù)語的長度為TermLen□,且TermLen[]為大于I的整數(shù);
[0025]根據(jù)所述索引表,取與該術(shù)語匹配成功的疑是術(shù)語字頭在相應(yīng)文本中各個位置的后TermLen[]-1個語素,分別于所述術(shù)語中的后TermLen[]-1個語素進行逐個匹配;
[0026]匹配成功的,將從該疑是術(shù)語字頭至其后第TermLenD-l個語素的所有語素的組合標(biāo)注為術(shù)語,并顯示該術(shù)語的目標(biāo)語言。
[0027]本發(fā)明中的對大文本中術(shù)語自動翻譯的方法,具有以下優(yōu)點:
[0028]1、采用一種反向思路,以文本集合中的語素為模式串在術(shù)語庫中進行字符串匹配,極大的減少了相同字符重復(fù)進行匹配的次數(shù),同時由于術(shù)語庫是個有序空間,在其中使用二分法進行查詢匹配可以大量減少查詢操作;
[0029]2、通過對文本集合的所有語素建立一個索引表,文本集合中的同一個語素在術(shù)語庫中只進行一次搜索匹配操作,節(jié)省了大量重復(fù)的字符串模式匹配操作;
[0030]3、通過索引表,可以查找到在文本集合中的每個語素的位置信息,及字與字的位置關(guān)系,可以方便實現(xiàn)術(shù)語庫中術(shù)語的每個語素和文本集合中的相關(guān)語素的匹配,而不用將術(shù)語和文本集合中不相關(guān)的語素進行匹配操作。
[0031]4、本方法特別適用于大文本或文本集合的術(shù)語查找、標(biāo)注和翻譯,文本的容量越大本方法的效率值越高,與多語術(shù)語庫相結(jié)合,可以顯著的提高輔助翻譯效率。
【專利附圖】
【附圖說明】
[0032]此處所說明的附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
[0033]圖1示出了實施例1的流程圖;
[0034]圖2示出了實施例2的流程圖;
[0035]圖3示出了實施例3的流程圖。
【具體實施方式】
[0036]下面將參考附圖并結(jié)合實施例,來詳細說明本發(fā)明。
[0037]待譯文本中的字根據(jù)其語種的不同,可以分為有字形結(jié)構(gòu)的字或字母組成的單詞;為了方便表述以下將一個字或一個單詞統(tǒng)稱為語素;
[0038]同理,術(shù)語庫中的術(shù)語,為一個或多個的單個字或單個單詞組成,為了方便表述以下將術(shù)語的首字或首單詞統(tǒng)稱為術(shù)語的首個語素,多個語素稱為語素組合。
[0039]如圖1所示,本發(fā)明提供了一個實施例,公開了對大文本中術(shù)語自動翻譯的方法,包括:
[0040]S11、提取文本中不重復(fù)的語素,并記錄每個語素在所述文本中出現(xiàn)的位置;
[0041]S12、在多種語言的術(shù)語庫中匹配所述提取的語素,將匹配成功的語素或語素的組合標(biāo)注為術(shù)語;
[0042]S13、在所述術(shù)語庫中找到相應(yīng)的術(shù)語,按照預(yù)先確定的翻譯方向,找到并顯示該術(shù)語的目標(biāo)語言。
[0043]進一步的,在步驟Sll前,還包括:
[0044]提取文本集合中的每篇文本,并對所述每篇文本按照單個語素進行拆分,對其中相同的語素進行去重處理,得到文本集合中所有不重復(fù)的語素;
[0045]進一步的,在步驟S12前,還包括:
[0046]按照所述預(yù)先確定的翻譯方向,確定作為源語言的所述提取的語素的語種;
[0047]將所述術(shù)語庫中的術(shù)語,按照所述確定的語種的字符順序排序索引。
[0048]進一步的,在多種語言的術(shù)語庫中匹配所述提取的語素前,還包括: [0049]對所述每篇文本進行編號;
[0050]記錄每個語素在每篇 文本中的位置;
[0051]根據(jù)所述提取的語素、及其出現(xiàn)的位置建立一個索引表,該表如下:
【權(quán)利要求】
1.對大文本中術(shù)語自動翻譯的方法,其特征在于,包括: 提取文本中不重復(fù)的語素,并記錄每個語素在所述文本中出現(xiàn)的位置; 在多種語言的術(shù)語庫中匹配所述提取的語素,將匹配成功的語素或語素的組合標(biāo)注為術(shù)語; 在所述術(shù)語庫中找到相應(yīng)的術(shù)語,按照預(yù)先確定的翻譯方向,找到并顯示該術(shù)語的目標(biāo)語目。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括: 按照所述預(yù)先確定的翻譯方向,確定作為源語言的所述提取的語素的語種; 將所述術(shù)語庫中的術(shù)語,按照所述確定的語種的字符順序排序。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,還包括: 根據(jù)所述提取的語素、及其出現(xiàn)的位置建立一個索引表; 該表中包括:所述提取的語素、語素所屬的文本編號和語素在每篇文本中出現(xiàn)的位置。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,按照所述索引表中的語素的順序,采用二分法與所述術(shù)語庫中的術(shù)語執(zhí)行所述匹配操作。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述在多種語言的術(shù)語庫中匹配所述提取的語素的過程包括: 將所述索引表中的每個語素與所述術(shù)語庫中的每個術(shù)語的首個語素進行字符串模式匹配,將匹配成功的語素定義為疑是術(shù)語字頭。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,還包括: 判斷所述術(shù)語庫中與所述疑是術(shù)語字頭的匹配成功的術(shù)語的長度; 術(shù)語的長度為一個語素,將該疑是術(shù)語字頭標(biāo)注為術(shù)語,并顯示該術(shù)語的目標(biāo)語言;術(shù)語的長度大于一個語素,進行二次匹配,將匹配成功的語素組合標(biāo)注為術(shù)語,并顯示該術(shù)語的目標(biāo)語言。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述二次匹配的過程包括: 計算術(shù)語的長度,設(shè)定該術(shù)語的長度為TermLen □,且TermLen []為大于I的整數(shù); 根據(jù)所述索引表,取與該術(shù)語匹配成功的疑是術(shù)語字頭在相應(yīng)文本中各個位置的后TermLen[]-1個語素,分別與所述術(shù)語中的后TermLen[]-1個語素進行逐個匹配; 匹配成功的,將從該疑是術(shù)語字頭至其后第TermLenD-l個語素的所有語素的組合標(biāo)注為術(shù)語,并顯示該術(shù)語的目標(biāo)語言。
【文檔編號】G06F17/30GK103488628SQ201310407069
【公開日】2014年1月1日 申請日期:2013年9月9日 優(yōu)先權(quán)日:2013年9月9日
【發(fā)明者】江潮 申請人:武漢傳神信息技術(shù)有限公司