人工智能機器翻譯技術領域,具體來說,涉及一種多語言智能預處理實時統(tǒng)計機器翻譯系統(tǒng)的后處理模塊。
背景技術:
機器翻譯是利用計算機對人類自然語言進行自動翻譯的技術,是利用計算機把一種自然語言轉換成另一種自然語言的過程,而且兩種自然語言在意義上應該是等價的。
目前,一種比較成熟而且主流的機器翻譯方法是基于統(tǒng)計的方法,該方法的優(yōu)點在于幾乎不需要人工撰寫翻譯規(guī)則,所有的翻譯信息都是自動地從語料中學習而獲得,因此該方法最大程度地發(fā)揮了計算機高速運算的特點,極大地降低了人工成本。
基于統(tǒng)計模型的機器翻譯技術從平行語料庫中學習從一種語言a到另一種語言b的短語翻譯。在翻譯新的句子時,把輸入語言a的句子分解成若干短語,根據(jù)學習來的短語(a語言)-短語(b語言)的共現(xiàn)概率,把語言a的句子翻譯成語言b的句子。整個學習、翻譯過程完全根據(jù)統(tǒng)計模型。
目前基于統(tǒng)計模型的機器翻譯技術的后處理模塊功能弱小,大多數(shù)都是將機器翻譯的結果直接作為最終的結果輸出,因此,會造成輸出結果不準確、西文作為翻譯目標語言時輸出格式有問題等。
技術實現(xiàn)要素:
針對相關技術中的上述技術問題,本發(fā)明提出一種多語言智能預處理實時統(tǒng)計機器翻譯系統(tǒng)的后處理模塊,能夠克服現(xiàn)有技術的上述不足。
為實現(xiàn)上述技術目的,本發(fā)明的技術方案是這樣實現(xiàn)的:
一種多語言智能預處理實時統(tǒng)計機器翻譯系統(tǒng)的后處理模塊,所述后處理模塊包括單詞標點規(guī)范化模塊、大小寫轉換模塊和格式轉換模塊;所述單詞標點規(guī)范化模塊用于將翻譯結果中的單詞和標點規(guī)范化為目標語言的表現(xiàn)形式,所述大小寫轉換模塊用于對翻譯結果中的大小寫進行轉換。
進一步的,待翻譯語言為英語,翻譯目標語言為中文時,單詞標點規(guī)范化模塊將翻譯結果里中文單詞間的空格去掉。
進一步的,翻譯目標語言是西語時,單詞標點規(guī)范化模塊將翻譯結果里標點符號與其前面一個單詞間的空格去掉。
進一步的,翻譯目標語言是西語時,大小寫轉換模塊將翻譯結果里英文句子的首字母及專有名詞的字母轉化為大寫字母。
進一步的,所述格式轉換模塊用于對翻譯結果格式進行轉換,使輸出語言的格式與輸入語言的格式一致。
本發(fā)明的有益效果:本發(fā)明機器翻譯的后處理模塊能夠對機器翻譯的翻譯結果進行單詞標點規(guī)范化、大小寫轉換及格式轉換等基本操作,使最終的輸出結果格式與輸入的格式一致,并且輸出結果符合翻譯目標語言的常用表現(xiàn)形式。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是根據(jù)本發(fā)明實施例所述的一種多語言智能預處理實時統(tǒng)計機器翻譯系統(tǒng)的后處理模塊的流程圖。
具體實施方式
下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
如圖1所示,根據(jù)本發(fā)明實施例所述的一種多語言智能預處理實時統(tǒng)計機器翻譯系統(tǒng)的后處理模塊,所述后處理模塊包括單詞標點規(guī)范化模塊、大小寫轉換模塊和格式轉換模塊;所述單詞標點規(guī)范化模塊用于將翻譯結果中的單詞和標點規(guī)范化為目標語言的表現(xiàn)形式,所述大小寫轉換模塊用于對翻譯結果中的大小寫進行轉換。
在一具體實施例中,待翻譯語言為英語,翻譯目標語言為中文時,單詞標點規(guī)范化模塊將翻譯結果里中文單詞間的空格去掉。
在一具體實施例中,翻譯目標語言是西語時,單詞標點規(guī)范化模塊將翻譯結果里標點符號與其前面一個單詞間的空格去掉。
在一具體實施例中,翻譯目標語言是西語時,大小寫轉換模塊將翻譯結果里英文句子的首字母及專有名詞的字母轉化為大寫字母,其中,所述的標點符號包括句號、逗號、問號、分號、感嘆號和括號等。
在一具體實施例中,所述格式轉換模塊用于對翻譯結果格式進行轉換,使輸出語言的格式與輸入語言的格式一致。
為了方便理解本發(fā)明的上述技術方案,以下通過具體使用方式上對本發(fā)明的上述技術方案進行詳細說明。
在具體使用時,本發(fā)明的后處理模塊用于對翻譯結果做進一步處理,使其更加接近目標語言的表達習慣,并作為最終結果輸出,如附圖中圖1所示:后處理模塊主要包括d.1單詞標點規(guī)范化模塊,d.1單詞標點規(guī)范化模塊把機器翻譯結果中的單詞和標點規(guī)范化為翻譯目標語言的常用表現(xiàn)形式,例如,將英-中翻譯的翻譯結果中中文單詞間的空格去掉,將西語翻譯結果句號與其前面一個單詞間的空格,逗號與其前面一個單詞間的空格去掉等;d.2大小寫轉換模塊主要適用于西語作為目標語言的翻譯,例如英文句子的首字母要大寫,一些專用名詞的字母,例如usa也要大寫,該d.2大小寫轉換模塊把翻譯結果中相應的小寫字母轉換成大寫字母;d.3格式轉換即保證輸出與輸入的格式一致,將輸出結果的格式轉化為輸入一致的格式,例如輸入的語言文本是圖片格式,則格式轉換模塊也將輸出結果轉換為圖片格式輸出。
綜上所述,本發(fā)明機器翻譯的后處理模塊能夠對機器翻譯的翻譯結果進行單詞標點規(guī)范化、大小寫轉換及格式轉換等基本操作,使最終的輸出結果格式與輸入的格式一致,并且輸出結果符合翻譯目標語言的常用表現(xiàn)形式。
以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內。