亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于偽反饋的個性化機器翻譯系統及方法

文檔序號:6628001閱讀:269來源:國知局
基于偽反饋的個性化機器翻譯系統及方法
【專利摘要】本發(fā)明涉及一種基于偽反饋的個性化機器翻譯系統及方法?,F有傳統的機器翻譯方法無法獲得高質量的個性化翻譯系統,造成不能滿足用戶各種翻譯需求的問題。本發(fā)明翻譯系統包括:用短語表過濾模塊、輸入模塊、初步翻譯模塊、偽反饋檢索模塊、短語表分類模塊和解碼器模塊?;趥畏答伒膫€性化機器翻譯方法包括:輸入過程:用戶將翻譯任務S輸入;初步翻譯過程:利用初步翻譯模塊得到翻譯任務的初步機器翻譯結果T′;偽反饋檢索過程:利用偽反饋檢索模塊檢索得到相似翻譯實例的初步翻譯結果和標準翻譯譯文R;短語表分類過程:使訓練后的通用后編輯模型變成個性化后編輯模型,再過濾得到優(yōu)化的個性化后編輯模型;解碼器模塊解碼過程:以優(yōu)化的個性化后編輯模型對翻譯任務的初步機器翻譯結果T′進行解碼,得到佳化的最終翻譯結果。本發(fā)明用于機器翻譯領域。
【專利說明】基于偽反饋的個性化機器翻譯系統及方法

【技術領域】
[0001]本發(fā)明涉及一種個性化機器翻譯系統及方法,屬于機器翻譯領域。

【背景技術】
[0002]近年來隨著機器翻譯技術的迅速發(fā)展,其翻譯的質量已經有了很大程度上的提升,目前一些通用的在線翻譯服務已經能夠幫助人們突破語言的障礙去閱讀和理解一些常用的跨語言的文本。然而進一步提升機器翻譯的質量卻遇到了很大的困難。一方面,因為現有的統計機器翻譯技術主要缺點是,如果要完成個性化翻譯,需要大量的用戶反饋信息,并在這些數據上進行統計訓練建模,實現一個個性化的機器翻譯模型。而這些訓練所需的用戶反饋信息的獲得是十分困難的,并且現有方法無法有效利用這些反饋信息,從而無法獲得高質量的個性化翻譯系統。雖然通過傳統的后編輯能夠利用用戶反饋信息,但是由于可使用用戶數據較少,導致統計后編輯模型的優(yōu)勢難以發(fā)揮出來。另一方面,傳統的機器翻譯方法的優(yōu)化目標通常是基于開放式領域的,而不是針對于特定的翻譯任務進行的。盡管存在針對領域自適應問題的研究,但仍屬于針對專業(yè)群體,而面對廣泛又多樣的機器翻譯用戶尤其是互聯網在線用戶而言,無法滿足用戶各種翻譯需求。所以進一步提高機器翻譯的質量是我們要亟待解決的一個技術問題。


【發(fā)明內容】

[0003]本發(fā)明的目的是為了解決傳統的機器翻譯方法無法獲得高質量的個性化翻譯系統,造成不能滿足用戶各種翻譯需求的問題,而提出一種能夠提高機器翻譯質量的基于偽反饋的個性化機器翻譯系統和翻譯方法。
[0004]一種基于偽反饋的個性化機器翻譯系統,所述翻譯系統包括:
[0005]用于對開發(fā)集數據的每個通用后編輯模型短語表進行過濾的短語表過濾模塊;
[0006]用于獲得用戶輸入的翻譯任務S的輸入模塊;
[0007]用于對用戶輸入翻譯任務S之后進行翻譯而得到翻譯任務的初步機器翻譯結果T',對本地系統提供的翻譯實例庫的源語言句子進行翻譯得到翻譯實例初步翻譯句子T的初步翻譯模塊;
[0008]用于在本地系統詞對齊形式的翻譯實例庫中,檢索得到相似翻譯實例的初步翻譯結果和標準翻譯譯文R的偽反饋檢索模塊;
[0009]用于對訓練后的后編輯模型的短語表進行分類而得到個性化后編輯模型的短語表分類模塊;
[0010]用于對偽反饋檢索模塊檢索得到的初步機器翻譯結果進行解碼,而得到最終的翻譯結果的解碼器模塊。
[0011]一種基于偽反饋的個性化機器翻譯方法,在用戶輸入翻譯任務S之前,利用翻譯記憶中的翻譯實例的初步機器翻譯句子T和標準翻譯譯文R采用統計方法訓練通用后編輯模型,完成通用后編輯模型的訓練過程;所述個性化機器翻譯方法通過以下步驟實現:
[0012]步驟一,短語表過濾模過程:利用短語表過濾模塊對開發(fā)集數據的每個通用后編輯模型短語表進行過濾;
[0013]利用過濾后的結果采用默認權重對開發(fā)集數據中每個句子Di進行解碼,產生n-best翻譯結果;然后,將n-best翻譯結果進行結合;最后,使用MERT工具對結合后的n-best翻譯結果整體調參,還能夠實現特征參數優(yōu)化過程;
[0014]步驟二,輸入過程:用戶將翻譯任務S輸入至輸入模塊;
[0015]步驟三,初步翻譯過程:所述初步翻譯過程包括用戶輸入翻譯任務S之前和用戶輸入翻譯任務S之后兩部分;
[0016]在用戶輸入翻譯任務S之前,利用本地系統的機器翻譯系統搭建的翻譯平臺,將本地系統提供的翻譯實例庫的源語言句子進行初步翻譯,得到翻譯實例初步翻譯句子T ;
[0017]同時,通過輸入模塊獲得用戶輸入的翻譯任務S之后,利用初步翻譯模塊翻譯得到翻譯任務的初步機器翻譯結果T';
[0018]步驟四,偽反饋檢索過程:根據步驟三中得到的翻譯實例初步機器翻譯句子T,在本地詞對齊形式的翻譯實例庫中,利用偽反饋檢索模塊以源語言詞袋模型進行余弦相似度的檢索,得到相似翻譯實例的初步翻譯結果和標準翻譯譯文R,并從相似翻譯實例的初步翻譯結果和標準翻譯譯文R的檢索結果中選擇最相似的前900-1100個;
[0019]其中,所述余弦相似度CS按照以源語言詞袋模型為單元的向量空間模型計算,所述余弦相似度CS的計算方法為:

【權利要求】
1.一種基于偽反饋的個性化機器翻譯系統,其特征在于,所述翻譯系統包括: 用于對開發(fā)集數據的每個通用后編輯模型短語表進行過濾的短語表過濾模塊; 用于獲得用戶輸入的翻譯任務S的輸入模塊; 用于對用戶輸入翻譯任務S之后進行翻譯而得到翻譯任務的初步機器翻譯結果T',對本地系統提供的翻譯實例庫的源語言句子進行翻譯得到翻譯實例初步翻譯句子T的初步翻譯模塊; 用于在本地系統詞對齊形式的翻譯實例庫中,檢索得到相似翻譯實例的初步翻譯結果和標準翻譯譯文R的偽反饋檢索模塊; 用于對訓練后的后編輯模型的短語表進行分類而得到個性化后編輯模型的短語表分類模塊; 用于對偽反饋檢索模塊檢索得到的初步機器翻譯結果進行解碼,而得到最終的翻譯結果的解碼器模塊。
2.根據權利要求1所述基于偽反饋的個性化機器翻譯系統,其特征在于,所述短語表過濾模塊包含于所述短語表分類模塊內。
3.一種基于上述偽反饋的個性化機器翻譯系統的個性化機器翻譯方法,其特征在于:在用戶輸入翻譯任務S之前,利用翻譯記憶中的翻譯實例的初步機器翻譯句子T和標準翻譯譯文R采用統計方法訓練通用后編輯模型,完成通用后編輯模型的訓練過程;所述個性化機器翻譯方法通過以下步驟實現: 步驟一,短語表過濾過程:利用短語表過濾模塊對開發(fā)集數據的每個通用后編輯模型短語表進行過濾; 利用過濾后的結果采用默認權重對開發(fā)集數據中每個句子Di進行解碼,產生n-best翻譯結果;然后,將n-best翻譯結果進行結合;最后,使用MERT工具對結合后的n-best翻譯結果整體調參,還能夠實現特征參數優(yōu)化過程; 步驟二,輸入過程:用戶將翻譯任務S輸入至輸入模塊; 步驟三,初步翻譯過程:所述初步翻譯過程包括用戶輸入翻譯任務S之前和用戶輸入翻譯任務S之后兩部分; 在用戶輸入翻譯任務S之前,利用本地系統的機器翻譯系統搭建的翻譯平臺,將本地系統提供的翻譯實例庫的源語言句子進行初步翻譯,得到翻譯實例初步翻譯句子T ; 同時,通過輸入模塊獲得用戶輸入的翻譯任務S之后,利用初步翻譯模塊翻譯得到翻譯任務的初步機器翻譯結果T'; 步驟四,偽反饋檢索過程:根據步驟三中得到的翻譯實例初步機器翻譯句子T,在本地詞對齊形式的翻譯實例庫中,利用偽反饋檢索模塊以源語言詞袋模型進行余弦相似度的檢索,得到相似翻譯實例的初步翻譯結果和標準翻譯譯文R,并從相似翻譯實例的初步翻譯結果和標準翻譯譯文R的檢索結果中選擇最相似的前900-1100個; 其中,所述余弦相似度CS按照以源語言詞袋模型為單元的向量空間模型計算,所述余弦相似度CS的計算方法為:
其中,Vec (Sexample)為翻譯實例的源語言句子向量,Vec (Sinput)為翻譯任務向量,Vec (Sinput).Vec (Sexample)是兩個向量的內積,I I.I I是向量的范數; 步驟五,短語表分類過程:根據步驟四選擇的最相似的前900-1100個相似翻譯實例的初步翻譯結果和標準翻譯譯文R,利用短語表分類模塊將訓練后的通用后編輯模型的短語表分類為有助于提升翻譯質量的積極短語和對最終翻譯結果融入噪音的消極短語,使訓練后的通用后編輯模型變成個性化后編輯模型,再將個性化后編輯模型中的積極短語和消極短語與步驟四中偽反饋檢索過程檢索出的相似翻譯實例的初步翻譯結果和標準翻譯譯文R對比,將所述消極短語從個性化后編輯模型短語表中過濾掉,從而得到一個優(yōu)化的個性化后編輯模型; 步驟六,解碼器模塊解碼過程:以步驟五中優(yōu)化的個性化后編輯模型作為翻譯模型,利用解碼器使用傳統的機器翻譯解碼方法對步驟三獲得的翻譯任務的初步機器翻譯結果T'進行解碼,得到佳化的最終翻譯結果。
4.根據權利要求3所述基于偽反饋的個性化機器翻譯方法,其特征在于:步驟六所述解碼過程利用公式:T處理翻譯任務的初步機器翻譯


T ei?結果T'得到佳化的最終翻譯結果;式中,Ρ(Τ" |τ')為通用后編輯模型的翻譯概率,p(s|t",τ')為在通用后編輯模型中利用短語對(τ",τ')對給定輸入的翻譯任務s的翻譯任務的初步機器翻譯句子T'進行后編輯模型的概率,定義其概率值為I或0,然后通過以下兩種方法得到p(s|t",τ')的值: D當優(yōu)化的個性化后編輯模型中的短語對(pt,pk)中的兩個短語分別與翻譯任務的初步機器翻譯結果T'和標準翻譯譯文R中有至少一個短語相匹配時,P(S|T",T')的概率值取1,否則取O ; 2)當優(yōu)化的個性化后編輯模型中的短語對(PT,PK)中的短語Pk與標準翻譯譯文R中有至少一個短語相匹配時,P(S|T",T')的概率值取1,否則取O。
5.根據權利要求3或4所述基于偽反饋的個性化機器翻譯方法,其特征在于:進行步驟四所述偽反饋檢索過程時,從相似翻譯實例的初步翻譯結果和標準翻譯譯文R的檢索結果中選擇最相似的前1000個。
【文檔編號】G06F17/28GK104199813SQ201410491100
【公開日】2014年12月10日 申請日期:2014年9月24日 優(yōu)先權日:2014年9月24日
【發(fā)明者】楊沐昀, 朱俊國, 趙鐵軍, 李生, 徐冰, 曹海龍, 朱聰慧, 鄭德權 申請人:哈爾濱工業(yè)大學
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1