本發(fā)明主要涉及技術領域為人工智能,具體涉及一種翻譯文檔存儲與檢索的方法。
背景技術:
譯員將文檔翻譯完成后,需要對翻譯文檔進行存儲,傳統(tǒng)存儲方法是將文件按不同目錄結構進行存儲,通過目錄結構對文檔進行分門別類,當翻譯文檔增大、行業(yè)類別增多時,目錄結構將變得極其復雜,存儲時很不方便,也很難立即馬上定位到合適的存儲目錄;當需要檢索某個翻譯文檔時,需要耗費很大時間和人力去尋找,并且找到翻譯文檔后,還需要閱讀文檔內容,以人工的方式在文檔尋找其中的常用句子、術語、語料,然后提供給翻譯人員參考和應用;這種傳統(tǒng)的方式存儲效率低,存儲結構復雜,不利于機器進行存儲和檢索,并且檢索時需要大量的人力花費大量的時間進行參與,才能獲取有限的常用句子、術語和語料。
技術實現(xiàn)要素:
為解決上述技術問題,本發(fā)明提供了一種對已完成的翻譯文檔進行文本分析,對句子、術語、語料進行對齊,然后按譯員、語種、行業(yè)進行分類,將句子對、術語對、語料對進行存儲;當有待翻譯的文檔時,將待翻譯的文檔、待翻譯文檔所屬行業(yè)、翻譯語種要求輸入系統(tǒng),首先對待翻譯文檔進行斷句處理,然后以句子方式去系統(tǒng)中檢索,能很快檢索出翻譯過該行業(yè)和翻譯語種要求的有經驗譯員信息,以及該譯員的相關翻譯文檔,翻譯過的句子、術語、語料會根據(jù)翻譯語種的要求,以句子對、術語對、語料對的方式返回給用戶。
本發(fā)明提供了一種翻譯文檔存儲與檢索的方法,其特征是包括以下步驟:
獲取譯稿庫,所述譯稿庫包括若干語料和與語料對應的特征標簽,所述語料包括原文、與原文對應的譯文,所述特征標簽包括譯員信息、語種、行業(yè);
對譯稿庫中的原文和譯文進行斷句處理,形成句子列表,所述句子列表包括若干個句子單元;
對句子列表中的句子單元進行語料對齊;
按照特征標簽,對語料進行分類存儲;
獲取待譯稿,輸入查詢標簽,所述查詢標簽包括語種、行業(yè);
對待譯稿進行斷句處理,形成句子列表;
對待譯稿設置檢索參數(shù),所述檢索參數(shù)包括句子列表、查詢標簽,用待譯稿的檢索參數(shù)在譯稿庫中進行語料檢索,及語料匹配;
所述匹配包括完全匹配和模糊匹配;
記錄語料的完全匹配次數(shù);
記錄語料的模糊匹配次數(shù);
設置完全匹配次數(shù)的加權系數(shù)與模糊匹配次數(shù)的加權系數(shù),將完全匹配次數(shù)與模糊匹配次數(shù)進行加權計算;
其中,所述完全匹配次數(shù)的加權系數(shù)與模糊匹配次數(shù)的加權系數(shù)的和等于1,所述完全匹配次數(shù)的加權系數(shù)大于模糊匹配次數(shù)的加權系數(shù);
獲取檢索匹配到的結果,所述檢索結果包括匹配到的譯員信息、譯員信息對應的譯稿庫中的原文和譯文的句子列表及匹配度,按照匹配度顯示。
進一步,所述對譯稿庫中的原文和譯文進行斷句處理,是將原文和譯文轉換成純文本信息,并做段落對齊,將對齊后的段落進行斷句處理。
進一步,所述對待譯稿進行斷句處理,是將待譯稿轉換成純文本信息,并做段落對齊,將對齊后的段落進行斷句處理。
進一步,所述模糊匹配是:將待譯稿的句子列表做分詞處理,去掉停用詞和無意義的連接詞、介詞,然后把待譯稿的句子列表的分詞內容與譯稿庫中譯文的句子單元做模糊匹配,統(tǒng)計相似度大于50%的句子個數(shù)。
進一步,所述設置完全匹配次數(shù)的加權系數(shù)與模糊匹配次數(shù)的加權系數(shù),是根據(jù)經驗值進行設置。
進一步,所述完全匹配次數(shù)的加權系數(shù)的經驗值是70%,所述模糊匹配次數(shù)的加權系數(shù)的經驗值是30%。
本發(fā)明的有益效果是:
1、對翻譯文檔的分類存儲,提供了存儲效率,便于文檔存儲定位;
2、對翻譯文檔的原文和譯文進行文本分析,做句子對齊處理,一個句子對作為一個存儲單元,有利于按句子檢索;
3、系統(tǒng)存儲方式減少了人力參與,節(jié)約了人力成本和時間成本;
4、提交待翻譯文檔進行檢索,能夠快速返回有相關經驗的譯員信息,便于譯員的定位,減少通過人力來找尋譯員的成本;
5、返回譯員已翻譯過的參考文檔,便于提交給該譯員進行參考,提高譯員的翻譯效率;
6、返回完全匹配的句子對、術語對、語料對,便于提交給該譯員進行參考,提高譯員的翻譯效率;
7、返回模糊匹配的句子對、術語對、語料對,便于提交給該譯員進行參考,提高譯員的翻譯效率。
本發(fā)明對已完成的翻譯文檔提供了文本分析,按譯員、語種、行業(yè)分類,以及語種對的存儲方式;對待翻譯文檔進行系統(tǒng)匹配,有利于快速定位有翻譯經驗的翻譯譯員,并且返回該譯員的翻譯參考文檔,并且將以前翻譯的過句子、術語、語料以語種對的方式返回給譯員,便于譯員參考,提高譯員的翻譯效率。
附圖說明
此處所說明的附圖用來提供對本發(fā)明的進一步理解,構成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構成對本發(fā)明的不當限定,在附圖中:
圖1為本發(fā)明的示意圖。
具體實施方式
下面結合附圖和具體實施方式對本發(fā)明的技術方案作進一步具體說明。
如圖1所示,本發(fā)明提供一種翻譯文檔存儲與檢索的方法,包括如下步驟:
(1)獲取譯稿庫,所述譯稿庫包括若干語料和與語料對應的特征標簽,所述語料包括原文、與原文對應的譯文,所述特征標簽包括譯員信息、語種、行業(yè);
具體步驟是:
a)上傳已完成的翻譯文檔,包括已完成翻譯文檔的原文和譯文;
b)輸入已完成的翻譯文檔的譯員信息,翻譯語種要求,所屬行業(yè)信息。
(2)對譯稿庫中的原文和譯文段落對齊,將對其后的段落進行斷句處理,形成句子列表,所述句子列表包括若干個句子單元;對句子列表中的句子單元進行語料對齊;
具體步驟是:
a)將已完成翻譯文檔的原文和譯文轉換成純文本信息;
首先進行原文和譯文的段落對齊,對段落斷句處理,形成句子列表;
b)然后將句子列表中的句子單元進行句子、術語、語料對齊。
(3)按照特征標簽,對語料進行分類存儲;
具體步驟是:對已完成翻譯文檔按譯員、語種、行業(yè)等進行分類存儲。
(4)獲取待譯稿,輸入查詢標簽,所述查詢標簽包括語種、行業(yè);
具體步驟是:
a)上傳待翻譯的文檔;
b)輸入待翻譯文檔的譯員信息、翻譯語種要求、所屬行業(yè)信息。
(5)對待譯稿進行斷句處理,形成句子列表;具體步驟是:
a)將待譯稿轉換成純文本信息;
首先將待譯稿的段落對齊,對對齊后的段落進行斷句處理,形成句子列表;
b)然后將句子列表中的句子單元進行句子、術語、語料對齊。
(6)對待譯稿設置檢索參數(shù),所述檢索參數(shù)包括句子列表、查詢標簽,用待譯稿的檢索參數(shù)在譯稿庫中進行語料檢索,及語料匹配。
(7)記錄并計算匹配度
所述匹配包括完全匹配和模糊匹配;
記錄語料的完全匹配次數(shù);
記錄語料的模糊匹配次數(shù);
設置完全匹配次數(shù)的加權系數(shù)與模糊匹配次數(shù)的加權系數(shù),將完全匹配次數(shù)與模糊匹配次數(shù)進行加權計算;
其中,所述完全匹配次數(shù)的加權系數(shù)與模糊匹配次數(shù)的加權系數(shù)的和等于1,所述完全匹配次數(shù)的加權系數(shù)大于模糊匹配次數(shù)的加權系數(shù);
具體步驟是:
a)獲取該譯員的在該語種要求和所屬行業(yè)的已完成翻譯文檔列表,該文檔列表按文檔的匹配度進行排序,文檔的匹配度越高文檔排名越靠前;
b)文檔的匹配度的計算包括句子的完全匹配次數(shù)和模糊匹配次數(shù)兩個部分的統(tǒng)計;
c)記錄句子的完全匹配次數(shù):待翻譯文檔的句子在已完成翻譯文檔的原文中一模一樣出現(xiàn)一次,完全匹配次數(shù)就加1;
d)記錄句子的模糊匹配次數(shù):將待翻譯文檔的句子做分詞處理,去掉停用詞和無意義的連接詞、介詞,然后把該句子的分詞和已完成翻譯文檔的句子列表一個一個地做模糊匹配,統(tǒng)計相似度大于50%的句子個數(shù);
e)計算文檔的匹配度得分:將句子的完全匹配次數(shù)和模糊匹配次數(shù)加權統(tǒng)計得出,完全匹配次數(shù)的加權系數(shù)按照經驗值設置為70%,模糊匹配次數(shù)的加權系數(shù)按照經驗值設置為30%;
f)將文檔的匹配度作為文檔的參數(shù)返回。
(8)獲取檢索匹配到的結果,所述檢索結果包括匹配到的譯員信息、譯員信息對應的譯稿庫中的原文和譯文的句子列表及匹配度,按照匹配度顯示;
具體步驟是:
a)獲取完全匹配的句子對、術語對、語料對,返回給譯員;
b)獲取模糊匹配的句子對、術語對、語料對,返回給譯員。
最后所應說明的是,以上具體實施方式僅用以說明本發(fā)明的技術方案而非限制,盡管參照較佳實施例對本發(fā)明進行了詳細說明,本領域的普通技術人員應當理解,可以對本發(fā)明的技術方案進行修改或者等同替換,而不脫離本發(fā)明技術方案的精神和范圍,其均應涵蓋在本發(fā)明的權利要求范圍當中。