專利名稱:一種個性化的機器翻譯系統(tǒng)、方法及訓(xùn)練翻譯模型的方法
一種個性化的機器翻譯系統(tǒng)、方法及訓(xùn)練翻譯模型的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及機器翻譯領(lǐng)域,特別涉及一種個性化的機器翻譯系統(tǒng)、方法及訓(xùn)練翻譯模型的方法。
背景技術(shù):
機器翻譯系統(tǒng)可劃分為基于規(guī)則(Rule-Based)和基于語料庫(Corpus-Based)兩大類。前者由人工整理的詞典和規(guī)則庫構(gòu)成知識源,后者由語料庫構(gòu)成知識源,既不需要詞典也不需要規(guī)則,以統(tǒng)計規(guī)律為主。在基于語料庫的機器翻譯中,又主要分為基于實例的機器翻譯與基于統(tǒng)計的機器翻譯,其中基于統(tǒng)計的機器翻譯以其優(yōu)異的性能已經(jīng)成為機器翻譯領(lǐng)域的研究熱點。
基于統(tǒng)計的機器翻譯方法把機器翻譯看成是一個信息傳輸?shù)倪^程,用一種信道模型對機器翻譯進行解釋。這種思想認(rèn)為,源語言句子到目標(biāo)語言句子的翻譯是一個概率問題,任何一個目標(biāo)語言句子都有可能是任何一個源語言句子的譯文,只是概率不同,機器翻譯的任務(wù)就是找到概率最大的句子。具體方法是將翻譯看作對原文通過模型轉(zhuǎn)換為譯文的解碼過程。因此統(tǒng)計機器翻譯又可以分為以下幾個問題模型問題、訓(xùn)練問題、解碼問題。所謂模型問題,就是為機器翻譯建立概率模型,也就是要定義源語言句子到目標(biāo)語言句子的翻譯概率的計算方法。而訓(xùn)練問題,是要利用語料庫來得到這個模型的所有參數(shù)。所謂解碼問題,則是在已知模型和參數(shù)的基礎(chǔ)上,對于任何一個輸入的源語言句子,去查找概率最大的譯文。但是現(xiàn)有的基于統(tǒng)計的機器翻譯系統(tǒng),均不考慮用戶的個人需求,也就是說,無論任何人使用這個系統(tǒng),只要輸入的句子相同,就會得到相同的翻譯結(jié)果。請參見圖1,圖I為在現(xiàn)有技術(shù)的機器翻譯系統(tǒng)下,不同用戶進行翻譯時的示意圖。從圖I可以看出,對相同的待翻譯信息,系統(tǒng)針對不同用戶的翻譯結(jié)果都是相同的,這是因為現(xiàn)有技術(shù)的機器翻譯系統(tǒng)中使用的翻譯模型是相同的,模型的訓(xùn)練過程中使用的語料,不能體現(xiàn)出不同用戶的不同偏好,因此訓(xùn)練好的翻譯模型,也就不能反映用戶的個人需求,從而導(dǎo)致整個機器翻譯系統(tǒng)不能實現(xiàn)針對不同的用戶輸入的句子,生成符合該用戶偏好的翻譯結(jié)果這樣的功能。以下面的句子為例“nearly 500people dead in floods”,假如有的用戶希望得到比較口語化的翻譯結(jié)果“將近500人被洪水淹死了”,而另外一些用戶希望得到比較書面化的翻譯結(jié)果“洪水造成近500人喪生”,在現(xiàn)有的翻譯系統(tǒng)下,是無法實現(xiàn)的。
發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問題是提供一種個性化的機器翻譯系統(tǒng),以解決現(xiàn)有機器翻譯系統(tǒng)不能針對不同用戶輸入的相同待翻譯信息,給出符合用戶翻譯偏好的翻譯結(jié)果的缺陷。本發(fā)明為解決技術(shù)問題而采用的技術(shù)方案是提供一種個性化的機器翻譯系統(tǒng),包括第一輸入模塊,用于從所述系統(tǒng)外部獲取第一雙語語料,其中所述第一雙語語料為大規(guī)模雙語語料,所述雙語語料包括由具有互譯關(guān)系的源語言句子和目標(biāo)語言句子組成的雙語句對;第一訓(xùn)練模塊,用于根據(jù)所述第一雙語語料,訓(xùn)練通用翻譯模型;所述通用翻譯模型,用于描述無用戶翻譯偏好的源語言句子到目標(biāo)語言句子的翻譯概率;第二輸入模塊,用于從所述系統(tǒng)外部獲取第二雙語語料,所述第二雙語語料為用戶提交的雙語語料;第二訓(xùn)練模塊,用于根據(jù)所述第二雙語語料,訓(xùn)練用戶翻譯模型;所述用戶翻譯模型,用于描述有用戶翻譯偏好的源語言句子到目標(biāo)語言句子的翻譯概率;用戶識別模塊,用于獲取當(dāng)前用戶信息,并根據(jù)所述當(dāng)前用戶信息獲取所述當(dāng)前用戶和所述用戶翻譯模型之間的關(guān)聯(lián)關(guān)系,并通過所述關(guān)聯(lián)關(guān)系選擇與所述當(dāng)前用戶匹配的用戶翻譯模型;第三輸入模塊,用于從所述系統(tǒng)外部獲取所述當(dāng)前用戶輸入的待翻譯信息;翻譯模塊,用于使用所述通用翻譯模型和所述匹配的用戶翻譯模型對所述待翻譯信息進行翻譯,以得到翻譯結(jié)果。根據(jù)本發(fā)明之一優(yōu)選實施例,所述第一訓(xùn)練模塊進一步包括第一短語抽取單元,用于從所述第一雙語語料中抽取具有互譯關(guān)系的短語對,所述短語對包括源語言短語及目標(biāo)語言短語;第一計算單元,用于計算所述短語對的特征值;第一添加單元,用于將所述短語對及所述短語對的特征值添加進所述通用翻譯模型。 根據(jù)本發(fā)明之一優(yōu)選實施例,如果所述第一雙語語料中的雙語句對沒有詞對齊信息,所述第一短語抽取單元進一步包括第一詞對齊單元,用于在抽取所述短語對前對所述雙語句對進行詞對齊。根據(jù)本發(fā)明之一優(yōu)選實施例,所述第一計算單元進一步包括統(tǒng)計單元,用于統(tǒng)計所述短語對的相關(guān)頻次,所述相關(guān)頻次包括所述源語言短語與所述目標(biāo)語言短語在所述第一雙語語料中分別出現(xiàn)的次數(shù)及互譯出現(xiàn)的次數(shù)。根據(jù)本發(fā)明之一優(yōu)選實施例,所述第二訓(xùn)練模塊進一步包括第二短語抽取單元,用于從所述第二雙語語料中抽取具有互譯關(guān)系的短語對,所述短語對包括源語言短語及目標(biāo)語言短語;第二計算單元,用于計算所述短語對的相關(guān)頻次及特征值,所述相關(guān)頻次包括所述源語言短語與所述目標(biāo)語言短語在所述第二雙語語料中分別出現(xiàn)的次數(shù)及互譯出現(xiàn)的次數(shù);第二添加單元,用于將所述短語對及所述短語對的相關(guān)頻次及所述短語對的特征值添加進所述用戶翻譯模型。根據(jù)本發(fā)明之一優(yōu)選實施例,如果所述第二雙語語料中的雙語句對沒有詞對齊信息,所述第二短語抽取單元進一步包括第二詞對齊單元,用于在抽取所述短語對前對所述雙語句對進行詞對齊。根據(jù)本發(fā)明之一優(yōu)選實施例,所述用戶識別模塊進一步包括注冊單元,用于獲取用戶提交的注冊信息并在所述系統(tǒng)中保存為用戶信息;登錄單元,用于獲取當(dāng)前用戶提交的登錄信息,并將所述登錄信息與所述系統(tǒng)中保存的用戶信息進行匹配驗證,以得到當(dāng)前用戶信息;選擇單元,用于根據(jù)所述當(dāng)前用戶信息確定所述當(dāng)前用戶和所述用戶翻譯模型之間的關(guān)聯(lián)關(guān)系,并根據(jù)所述關(guān)聯(lián)關(guān)系選擇與所述當(dāng)前用戶匹配的用戶翻譯模型。根據(jù)本發(fā)明之一優(yōu)選實施例,所述翻譯模塊進一步包括預(yù)處理單元,用于從所述待翻譯信息中抽取出可以作為獨立翻譯單元的源語言短語;查找單元,用于根據(jù)預(yù)置策略,在所述通用翻譯模型和所述匹配的用戶翻譯模型中查找與所述源語言短語匹配的多個翻譯候選;譯文生成單元,用于根據(jù)所述翻譯候選的特征值計算譯文的得分,并選擇得分最高的譯文為所述待翻譯信息的翻譯結(jié)果。
根據(jù)本發(fā)明之一優(yōu)選實施例,所述預(yù)置策略至少包括以下一種A.首先從所述通用翻譯模型查找所述翻譯候選,如果沒有找到再從所述匹配的用戶翻譯模型查找所述翻譯候選首先從所述匹配的用戶翻譯模型查找所述翻譯候選,如果沒有找到再從所述通用翻譯模型查找所述翻譯候選;C.同時在所述通用翻譯模型和所述匹配的用戶翻譯模型中查找所述翻譯候選,然后再以預(yù)置的權(quán)重調(diào)整包含相同短語對的翻譯候選的特征值;D.同時在所述通用翻譯模型和所述匹配的用戶翻譯模型中查找所述翻譯候選,然后把包含相同短語對的翻譯候選在所述兩個翻譯模型中的特征值都作為單獨的特征值。根據(jù)本發(fā)明之一優(yōu)選實施例,如果所述通用翻譯模型與所述匹配的用戶翻譯模型中都保留了源語言短語及目標(biāo)語言短語的頻次信息,所述預(yù)置策略進一步包括同時在所述通用翻譯模型和所述匹配的用戶翻譯模型中查找所述翻譯候選,然后將包含相同短語對的翻譯候選在所述兩個翻譯模型中的頻次累加后計算特征值。根據(jù)本發(fā)明之一優(yōu)選實施例,所述系統(tǒng)進一步包括用戶配置模塊,用于獲取所述當(dāng)前用戶對系統(tǒng)配置的選擇,并根據(jù)所述選擇建立所述當(dāng)前用戶與所述用戶翻譯模型之間·的關(guān)聯(lián)關(guān)系。根據(jù)本發(fā)明之一優(yōu)選實施例,所述系統(tǒng)進一步包括用戶反饋模塊,用于獲取所述當(dāng)前用戶對所述翻譯結(jié)果的修改,并根據(jù)所述修改對所述匹配的用戶翻譯模型進行調(diào)整。根據(jù)本發(fā)明之一優(yōu)選實施例,所述系統(tǒng)進一步包括用戶翻譯模型評價模塊,用于對所述用戶翻譯模型中的雙語資源進行評價,以得到高質(zhì)量的雙語資源,并通過所述高質(zhì)量的雙語資源影響所述通用翻譯模型。根據(jù)本發(fā)明之一優(yōu)選實施例,所述影響的方式包括將只在所述用戶翻譯模型中出現(xiàn)的所述高質(zhì)量的雙語資源添加到所述通用翻譯模型或根據(jù)所述用戶翻譯模型中出現(xiàn)的所述高質(zhì)量的雙語資源,調(diào)整所述通用翻譯模型中雙語資源的特征值。本發(fā)明還提供了一種個性化的機器翻譯方法,包括a.獲取當(dāng)前用戶信息,并根據(jù)所述當(dāng)前用戶信息獲取所述當(dāng)前用戶和用戶翻譯模型之間的關(guān)聯(lián)關(guān)系,并通過所述關(guān)聯(lián)關(guān)系選擇與所述當(dāng)前用戶匹配的用戶翻譯模型,所述用戶翻譯模型通過用戶提交的雙語語料訓(xùn)練得來,用于描述有用戶翻譯偏好的源語言句子到目標(biāo)語言句子的翻譯概率;b.獲取所述當(dāng)前用戶輸入的待翻譯信息;c.使用通用翻譯模型和所述匹配的用戶翻譯模型對所述待翻譯信息進行翻譯,以得到翻譯結(jié)果,所述通用翻譯模型通過大規(guī)模雙語語料訓(xùn)練得來,用于描述無用戶翻譯偏好的源語言句子到目標(biāo)語言句子的翻譯概率。根據(jù)本發(fā)明之一優(yōu)選實施例,所述步驟c進一步包括cl.從所述待翻譯信息中抽取出可以作為獨立翻譯單元的源語言短語;c2.根據(jù)預(yù)置策略,在所述通用翻譯模型和所述匹配的用戶翻譯模型中查找與源語言短語匹配的多個翻譯候選;c3.根據(jù)所述翻譯候選的特征值計算譯文的得分,并選擇得分最高的譯文為所述待翻譯信息的翻譯結(jié)果。根據(jù)本發(fā)明之一優(yōu)選實施例,所述預(yù)置策略至少包括以下一種A.首先從所述通用翻譯模型查找所述翻譯候選,如果沒有找到再從所述匹配的用戶翻譯模型查找所述翻譯候選首先從所述匹配的用戶翻譯模型查找所述翻譯候選,如果沒有找到再從所述通用翻譯模型查找所述翻譯候選;C.同時在所述通用翻譯模型和所述匹配的用戶翻譯模型中查找所述翻譯候選,然后再以預(yù)置的權(quán)重調(diào)整包含相同短語對的翻譯候選的特征值;D.同時在所述通用翻譯模型和所述匹配的用戶翻譯模型中查找所述翻譯候選,然后把包含相同短語對的翻譯候選在所述兩個翻譯模型中的特征值都作為單獨的特征值。根據(jù)本發(fā)明之一優(yōu)選實施例,如果所述通用翻譯模型與所述匹配的用戶翻譯模型中都保留了源語言短語及目標(biāo)語言短語的頻次信息,所述預(yù)置策略進一步包括同時在所述通用翻譯模型和所述匹配的用戶翻譯模型中查找所述翻譯候選,然后將包含相同短語對的翻譯候選在所述兩個翻譯模型中的頻次累加后計算特征值。根據(jù)本發(fā)明之一優(yōu)選實施例,所述方法進一步包括d.接收所述當(dāng)前用戶對所述翻譯結(jié)果的修改,并根據(jù)所述修改對所述匹配的用戶翻譯模型進行調(diào)整。本發(fā)明還提供了一種訓(xùn)練翻譯模型的方法,包括a.從雙語語料的雙語句對中抽取具有互譯關(guān)系的短語對,所述短語對包括源語言短語及目標(biāo)語言短語;b.統(tǒng)計所述短語對的相關(guān)頻次,所述相關(guān)頻次包括源語言短語及目標(biāo)語言短語在雙語語料中分別出現(xiàn)的次數(shù)、互譯出現(xiàn)的次數(shù);c.將所述短語對與所述短語對的相關(guān)頻次添加進所述翻譯模型。
根據(jù)本發(fā)明之一優(yōu)選實施例,如果所述雙語語料中的雙語句對沒有詞對齊信息,所述方法在所述步驟a前進一步包括對所述雙語語料中的雙語句對進行詞對齊。根據(jù)本發(fā)明之一優(yōu)選實施例,所述方法進一步包括d.在多個所述翻譯模型中,利用第一翻譯模型影響第二翻譯模型。根據(jù)本發(fā)明之一優(yōu)選實施例,所述影響的方式包括將只在所述第一翻譯模型中出現(xiàn)的雙語資源添加到所述第二翻譯模型或根據(jù)所述第一翻譯模型中的雙語資源,調(diào)整所述第二翻譯模型中雙語資源的特征值。由以上技術(shù)方案可以看出,通過將通用翻譯模型與用戶翻譯模型結(jié)合后對用戶的輸入信息進行翻譯,可以很好地達到翻譯系統(tǒng)針對不同用戶輸入的相同信息,給出符合用戶翻譯偏好的翻譯結(jié)果的技術(shù)效果,請參考圖2,圖2為在本發(fā)明的個性化的機器翻譯系統(tǒng)下,不同用戶進行翻譯時的示意圖。同時,由于機器翻譯系統(tǒng)提供了一個與用戶進行交互的窗口,通過用戶提供的訓(xùn)練語料不斷對機器翻譯系統(tǒng)進行訓(xùn)練,可以不斷改善機器翻譯系統(tǒng)的翻譯質(zhì)量。
圖I為在現(xiàn)有技術(shù)的機器翻譯系統(tǒng)下,不同用戶進行翻譯時的示意圖;圖2為在本發(fā)明的個性化的機器翻譯系統(tǒng)下,不同用戶進行翻譯時的示意圖;圖3為本發(fā)明實施例中個性化的機器翻譯系統(tǒng)的實施例一的結(jié)構(gòu)示意框圖;圖4為本發(fā)明實施例中第一訓(xùn)練模塊的實施例的結(jié)構(gòu)示意框圖;圖5為本發(fā)明實施例中詞對齊后的雙語句對示意圖;圖6為本發(fā)明實施例中第二訓(xùn)練模塊的實施例一的結(jié)構(gòu)示意框圖;圖7為本發(fā)明實施例中第二訓(xùn)練模塊的優(yōu)選實施例的結(jié)構(gòu)示意框圖;圖8為本發(fā)明實施例中為用戶翻譯模型建立索引的方法的實施例的流程示意圖;圖9為本發(fā)明實施例中用戶識別模塊的實施例的結(jié)構(gòu)示意框圖;圖10為本發(fā)明實施例中翻譯模塊的實施例的結(jié)構(gòu)示意框圖;圖11為本發(fā)明實施例中個性化的機器翻譯系統(tǒng)的實施例二的結(jié)構(gòu)示意框圖;圖12為本發(fā)明實施例中個性化的機器翻譯方法的實施例一的流程示意圖;圖13為本發(fā)明實施例中使用通用翻譯模型和與當(dāng)前用戶匹配的用戶翻譯模型對待翻譯信息進行翻譯的實施例的流程示意圖;圖14為本發(fā)明實施例中個性化的機器翻譯方法的實施例二的流程示意圖;圖15為本發(fā)明實施例中訓(xùn)練翻譯模型的方法實施例的流程示意圖。
具體實施方式為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面結(jié)合附圖和具體實施例對本發(fā)明進行詳細描述。目前主要的統(tǒng)計機器翻譯方法大致可分為以下三種基于詞的統(tǒng)計翻譯方法、基于短語的統(tǒng)計翻譯方法和基于句法的統(tǒng)計翻譯方法,為了方便起見,以下說明的實施例均以基于短語的統(tǒng)計翻譯方法為例,但是本發(fā)明的思想也同樣適用于其他統(tǒng)計翻譯方法,下面不再重復(fù)說明。請參考圖3,圖3為本發(fā)明實施例中個性化的機器翻譯系統(tǒng)的實施例一的結(jié)構(gòu)示意框圖。所謂的個性化的機器翻譯系統(tǒng)指的是針對用戶輸入的待翻譯信息,會給出符合用戶翻譯偏好的翻譯結(jié)果的系統(tǒng)。如圖3所示,個性化的機器翻譯系統(tǒng)包括第一輸入模塊101,第一訓(xùn)練模塊102,通用翻譯模型103,第二輸入模塊104,第二訓(xùn)練模塊105,用戶翻譯模型106,用戶識別模塊107,第三輸入模塊108,翻譯模塊109。其中用戶翻譯模型106可有多個。第一輸入模塊101,用于從系統(tǒng)外部獲取大規(guī)模雙語語料,作為系統(tǒng)進一步處理的基礎(chǔ)。雙語語料,指的是由源語言句子f 和目標(biāo)語言句子e組合而成的雙語句對(f,e),其中f■和e互為翻譯,比如(你必須用日元支付,You must pay in Japanese yen)。
第一訓(xùn)練模塊102,用于根據(jù)大規(guī)模雙語語料,訓(xùn)練通用翻譯模型103。通用翻譯模型103,用于描述無用戶翻譯偏好的源語言句子到目標(biāo)語言句子的翻譯概率。根據(jù)參考文獻Franz Josef Och, Hermann Ney, The Alignment TemplateApproach to Statistical Machine Translation, Computational Linguistics, Volume30,Number 4(下文稱為參考文獻I),源語言句子到目標(biāo)語言句子的翻譯概率可由最大熵模型來描述,即
Me = arg max{exp[^ XJim (e, /)]}(j)
em-\其中S用來表示最佳的翻譯結(jié)果。從式⑴可以看出,句子之間的翻譯概率P(e|f)被分解為多個特征h(e, f)和特征的權(quán)重\,根據(jù)參考文獻Philipp Koehn, Franz JosefOch,Daniel Marcu,Statistical Phrase-Based Translation,Proceedings of HLT-NAACL2003Main Papers, pp. 48-54 (下文稱為參考文獻2),常用的特征包括I、短語雙向翻譯模型描述短語互相翻譯的概率;2、詞的雙向翻譯模型描述短語內(nèi)詞互相翻譯的概率。因此,訓(xùn)練好的通用翻譯模型103中包含源語言短語、目標(biāo)語言短語及各個特征值。請參考圖4,圖4為本發(fā)明實施例中第一訓(xùn)練模塊的實施例的結(jié)構(gòu)示意框圖。如圖4所示,第一訓(xùn)練模塊102進一步包含短語抽取單元1021、計算單元1022、添加單元1023。
短語抽取單元1021,用于從雙語語料中抽取具有互譯關(guān)系的短語對,所述短語對包括源語言短語及目標(biāo)語言短語。在本發(fā)明中,對短語抽取的方法不做限定,可以采用本領(lǐng)域技術(shù)人員公知的任何短語抽取方法獲取短語對,具體方法可見參考文獻=PhilippKoehn, 2004, Training manual of Pharaoh, Technical report,MIT CSAIL(下文稱為參考文獻3)。如果雙語語料中的雙語句對沒有詞對齊信息,短語抽取單元1021進一步還包括詞對齊單元10211,用于在抽取短語對前對雙語句對進行詞對齊。所謂的詞對齊,指的是將雙語句對中可以互譯的詞進行配對。請參考圖5,圖5為詞對齊后的雙語句對示意圖。同樣的,在本發(fā)明中,對詞對齊的方法不做限定,可以采用本領(lǐng)域技術(shù)人員公知的任何詞對齊方法獲取詞與詞的對齊關(guān)系,例如通過大規(guī)模雙語語料中的部分語料訓(xùn)練一個詞對齊模型,再利用這個詞對齊模型進行詞對齊,具體方法可見參考文獻Peter F. Brown, StephenA. Della Pietra,Vincent J. Della Pietra,and Robert L. Mercer,1993,The mathematicsof statistical machine translation Parameter estimation, ComputationalLinguistics, 19 (2) :263-311 (下文稱為參考文獻 4)。
以圖5所示的雙語句對為例,可以抽取出下面的短語對(人們將來的,people’ sfuture) > (人們將來,people’ s future)、(將來的發(fā)展,future development)等等。計算單元1022,用于計算短語對的特征值。在本實施例中,所述特征值包括短語互相翻譯概率與短語內(nèi)詞互相翻譯概率。計算單元1022進一步還包括統(tǒng)計單元10221,用于統(tǒng)計短語對的相關(guān)頻次,包括源語言短語與目標(biāo)語言短語在雙語語料中分別出現(xiàn)的次數(shù)、互譯出現(xiàn)的次數(shù)。例如,“您要”在雙語語料中作為源語言短語出現(xiàn)了 70次,“you want”在雙語語料中作為目標(biāo)語言短語出現(xiàn)了 90次,“您要”與“you want”作為互譯短語出現(xiàn)了 20次,則將“您要”翻譯為“you want”的短語翻譯概率Prob (you want您要)= 20/70,將“you want”反向翻譯為“您要”的短語翻譯概率Prob (您要|y0U want) = 20/90?!澳痹陔p語語料中作為源語言詞語出現(xiàn)了 100次,“you”在雙語語料中作為目標(biāo)語言詞語出現(xiàn)了 120次,“您”與“you”互譯時出現(xiàn)了 50次,“要”在雙語語料中作為源語言詞語出現(xiàn)了 90次,“want”在雙語語料中作為目標(biāo)語言詞語出現(xiàn)了 150次,“要”和“want”互譯時出現(xiàn)了 30次,則將“您要”翻譯為“youwant”的短語內(nèi)詞翻譯概率Lex (you want您要)=Prob (you I 您)*Prob (want | 要)=(50/100) * (30/90),將 “you want” 反向翻譯為“您要”的短語內(nèi)詞翻譯概率Lex (您要|you want) = Prob (您|you)*Prob(要|want)=(50/120)*(30/150)。添加單元1023,用于將短語對及短語對的特征值添加進通用翻譯模型103。將雙語語料中的短語對及短語對的特征值添加進通用翻譯模型103的過程中需要建立索引,索引的形式可以描述為(key,value)的鍵值對,其中key為短語,value為與短語相關(guān)的值。在通用翻譯模型103中只建立源語言索引,因此key為源語言短語,value為與源語言短語對應(yīng)的目標(biāo)語言短語及相應(yīng)的各個特征值(本實施例中為短語互相翻譯概率、短語內(nèi)詞互相翻譯概率)。此外,由于通用翻譯模型103 —旦訓(xùn)練好后就可以穩(wěn)定地使用,所以建立的索引可以為靜態(tài)索引結(jié)構(gòu),即索引建立之后,如果不再用新的大規(guī)模雙語語料重新對通用翻譯模型103進行訓(xùn)練,則索引的(key,value)對就不會再增加。
第二輸入模塊104,用于從系統(tǒng)外部獲取用戶提交的雙語語料。用戶提交的雙語語料與第一輸入模塊101中的大規(guī)模雙語語料類似,也包括源語言與目標(biāo)語言的雙語句對,它可能是用戶自己的歷史翻譯記錄,或者是符合用戶翻譯偏好的翻譯資源,除此之外,用戶提交的雙語語料還可以包括符合用戶翻譯偏好的雙語詞典。第二訓(xùn)練模塊105,用于根據(jù)用戶提交的雙語語料,訓(xùn)練用戶翻譯模型106。用戶翻譯模型106,用于描述有用戶翻譯偏好的源語言句子到目標(biāo)語言句子的翻譯概率,該翻譯概率同樣可以采用式(I)的方式來描述。與通用翻譯模型103不同的是,用戶翻譯模型106的更新頻率要遠遠大于通用翻譯模型103,系統(tǒng)在每一次接收到用戶提交的訓(xùn)練語料后,都需要對用戶翻譯模型106進行更新。訓(xùn)練用戶翻譯模型106的過程與訓(xùn)練通用翻譯模型103的過程類似,因此在下面 的說明中,適當(dāng)?shù)厥÷粤伺c訓(xùn)練通用翻譯模型103相同的部分。請參考圖6,圖6為本發(fā)明實施例中第二訓(xùn)練模塊的實施例一的結(jié)構(gòu)示意框圖。如圖6所示,第二訓(xùn)練模塊105包括合并單元1051、短語抽取單元1052、計算單元1053和添加單元1054。其中的合并單元1051,用于將用戶當(dāng)次提交的訓(xùn)練語料與歷史提交的訓(xùn)練語料合并,而短語抽取單元1052、計算單元1053和添加單元1054的處理過程均與第一訓(xùn)練模塊102中的短語抽取單元1021、計算單元1022和添加單元1023類似。值得注意的是,在短語抽取單元1052中進行詞對齊時,由于用戶提交的雙語語料資源有限,會造成訓(xùn)練語料的數(shù)據(jù)比較稀疏,如果僅采用用戶提交的語料來訓(xùn)練詞對齊模型,會影響模型的置信度,因此,在短語抽取單元1052中進行詞對齊時,仍然使用與第一訓(xùn)練模塊102中相同的大規(guī)模雙語語料訓(xùn)練得到的詞對齊模型。而計算單元1053與計算單元1022 —樣,用于計算短語對的特征值,在本實施例中將分別計算短語互相翻譯概率與短語內(nèi)詞互相翻譯概率。但是考慮到用戶提交的雙語語料資源較少,在計算單元1053中計算短語內(nèi)詞互相翻譯概率時,詞出現(xiàn)的次數(shù)指的并不是在用戶提交的雙語語料中出現(xiàn)的次數(shù),而是用了與計算單元1022中相同的大規(guī)模雙語語料中的統(tǒng)計次數(shù)。例如計算用戶的雙語語料中出現(xiàn)的“您要”翻譯為“you want”的短語內(nèi)詞翻譯概率Lex (you want 您要)=Prob (you | 您)*Prob (want | 要)=(“您,,與 “you”在大規(guī)模雙語語料中互譯出現(xiàn)的次數(shù)/ “您”在大規(guī)模雙語語料中出現(xiàn)的次數(shù))*( “要”與“want”在大規(guī)模雙語語料中互譯出現(xiàn)的次數(shù)/ “要”在大規(guī)模雙語語料中出現(xiàn)的次數(shù))。添加單元1054,用于將短語對及短語對的特征值添加進用戶翻譯模型106,其技術(shù)手段與添加單元1023類似,在此不再贅述。與第二訓(xùn)練模塊105的實施例一對應(yīng)的用戶翻譯模型106包含源語言短語、目標(biāo)語言短語及各個特征值。在上述第二訓(xùn)練模塊105的實施例一中存在一個問題,即當(dāng)用戶歷史訓(xùn)練語料較多,而當(dāng)次提交的訓(xùn)練語料很少時,系統(tǒng)仍然需要進行全部語料的訓(xùn)練過程,這樣非常浪費時間和系統(tǒng)資源,因此在下面將介紹第二訓(xùn)練模塊105的一個優(yōu)選實施例。請參考圖7,圖7為本發(fā)明實施例中第二訓(xùn)練模塊的優(yōu)選實施例的結(jié)構(gòu)示意框圖。如圖7所示,第二訓(xùn)練模塊105包括短語抽取單元105a、計算單元105b和添加單元105c。其中短語抽取單元105a與上述第二訓(xùn)練模塊105的實施例一中的相應(yīng)單元類似,不同之處是處理的對象僅為用戶當(dāng)次提交的訓(xùn)練語料。
在本實施例中,計算單元105b中統(tǒng)計短語對的相關(guān)頻次,包括源語言短語與目標(biāo)語言短語在雙語語料中分別出現(xiàn)的次數(shù)、互譯出現(xiàn)的次數(shù),并計算短語的詞互相翻譯概率,計算方法與第二訓(xùn)練模塊105的實施例一中相同,在此不再贅述。添加單元105c,用于將短語對及其相關(guān)頻次與短語對的特征值添加進用戶翻譯模型,所述相關(guān)頻次包括源語言短語與目標(biāo)語言短語在雙語語料中分別出現(xiàn)的次數(shù)、互譯出現(xiàn)的次數(shù)。在這種方式下,短語互相翻譯概率不以一個具體的概率值體現(xiàn),而是以計算該概率值的統(tǒng)計頻次體現(xiàn)(源語言短語與目標(biāo)語言短語分別出現(xiàn)的次數(shù)、互譯出現(xiàn)的次數(shù))。在添加單元105c中建立索引的過程也與添加單元1054不同,因為源語言短語及目標(biāo)語言短語在用戶翻譯模型106中的統(tǒng)計頻次是隨著每次訓(xùn)練改變的,所以在添加單元105c中建立的索引為動態(tài)索引結(jié)構(gòu),即索引結(jié)構(gòu)建立后,可以通過插入新的(key,value),增加索引里面的鍵值對。索引的結(jié)構(gòu)方式可以有很多種,只要能支持動態(tài)加入新鍵值即可,t匕如,二分,哈希,Trie樹,紅黑樹,B+樹等等。此外,與添加單元1054只需要建立源語言 短語索引不同,在本實施例中,由于目標(biāo)語言短語的頻次也會更新,所以除了需要對源語言短語建立索引,還需要對目標(biāo)語言短語建立索引。假設(shè)索引A為源語言短語索引,則A的一種實現(xiàn)方式是key為源語言短語,value為對應(yīng)的目標(biāo)語言短語及源語言短語出現(xiàn)次數(shù)、短語對互譯出現(xiàn)次數(shù)、短語對的特征值;假設(shè)索引B為目標(biāo)語言短語,則B的一種實現(xiàn)方式是key為目標(biāo)語言短語,value為目標(biāo)語言短語出現(xiàn)次數(shù)。請參考圖8,圖8為本發(fā)明實施例中為用戶翻譯模型建立索引的方法的實施例的流程示意圖。如圖8所示,A、B分別為源語言短語和目標(biāo)語言短語的索引,(S,T)為從用戶提交的訓(xùn)練語料中抽取出來的雙語短語對,其中S表示的是源語言短語,T表示的是目標(biāo)語言短語。在建立索引時,首先從源語言短語索引A中查找S是否已經(jīng)存在于A中,如果沒有則將S與T分別加入到索引A中,否則查找T是否存在于A中,如果沒有則將T加入到索引A中,否則分別更新S與T在索引A中的相關(guān)頻次(S出現(xiàn)的次數(shù)、S與T互譯出現(xiàn)的次數(shù)),然后再從目標(biāo)語言短語索引B中查找T是否已經(jīng)存在于B,如果沒有則將T加入到B中,否則更新T在索引B中的相關(guān)頻次(T出現(xiàn)的次數(shù))。在第二訓(xùn)練模塊105的優(yōu)選實施方式下,系統(tǒng)每次接收到用戶提交的新的訓(xùn)練語料后,第二訓(xùn)練模塊105只需要針對新的訓(xùn)練語料進行增量式訓(xùn)練,并將從新的訓(xùn)練語料中得到的源語言短語與目標(biāo)語言短語的相關(guān)統(tǒng)計頻次信息,更新至用戶翻譯模型106,而短語互相翻譯概率可以在每次翻譯時實時進行計算,這樣就可以很好地避免第二訓(xùn)練模塊105在每次接收到用戶提交的新的訓(xùn)練語料時,對歷史語料也需要重復(fù)訓(xùn)練的問題。與第二訓(xùn)練模塊105的優(yōu)選實施例對應(yīng)的用戶翻譯模型106包含源語言短語、目標(biāo)語言短語及短語對的相關(guān)頻次和特征值。用戶識別模塊107,用于獲取當(dāng)前用戶信息,并根據(jù)當(dāng)前用戶信息獲取當(dāng)前用戶和用戶翻譯模型之間的關(guān)聯(lián)關(guān)系,并通過所述關(guān)聯(lián)關(guān)系選擇與當(dāng)前用戶匹配的用戶翻譯模型。請參考圖9,圖9為用戶識別模塊的實施例的結(jié)構(gòu)示意框圖。如圖9所示,用戶識別模塊107進一步包括注冊單元1071、登錄單元1072、選擇單元1073。其中注冊單元1071,用于獲取用戶提交的注冊信息并在系統(tǒng)中保存為用戶信息。通過用戶注冊界面即可接收用戶提交的注冊信息,這與現(xiàn)有技術(shù)中的其他任何系統(tǒng)類似,在此不再贅述。登錄單元1072,用于獲取當(dāng)前用戶提交的登錄信息,并將登錄信息與系統(tǒng)中保存的用戶信息進行匹配驗證,以得到當(dāng)前用戶信息,這也與現(xiàn)有技術(shù)中其他任何系統(tǒng)類似,在此不再贅述。選擇單元1073,用于根據(jù)當(dāng)前用戶信息確定當(dāng)前用戶和用戶翻譯模型之間的關(guān)聯(lián)關(guān)系,并根據(jù)所述關(guān)聯(lián)關(guān)系選擇與當(dāng)前用戶匹配的用戶翻譯模型。假如當(dāng)前用戶是首次登錄,選擇單元1073確定當(dāng)前用戶與用戶翻譯模型間沒有關(guān)聯(lián)關(guān)系,因此將為該用戶選擇一個新的用戶翻譯模型,按照預(yù)置策略,這個新的用戶翻譯模型包括系統(tǒng)默認(rèn)的通用翻譯模型或其他已有的用戶翻譯模型,如果當(dāng)前用戶不提供訓(xùn)練語料對這個新的用戶翻譯模型進行訓(xùn)練,則會直接在當(dāng)前用戶和這個新的用戶翻譯模型之間建立關(guān)聯(lián)關(guān)系;如果當(dāng)前用戶提供訓(xùn)練語料對這個新的用戶翻譯模型進行訓(xùn)練,則會生成一個與用戶提交的訓(xùn)練語料相關(guān)的用戶翻譯模型并在這個用戶翻譯模型與當(dāng)前用戶之 間建立關(guān)聯(lián)關(guān)系。假如當(dāng)前用戶非首次登錄,選擇單元1073確定當(dāng)前用戶與用戶翻譯模型之間有關(guān)聯(lián)關(guān)系,因此將根據(jù)當(dāng)前用戶與用戶翻譯模型之間的關(guān)聯(lián)關(guān)系為當(dāng)前用戶選擇與其匹配的用戶翻譯模型。第三輸入模塊108,用于從系統(tǒng)外部獲取當(dāng)前用戶輸入的待翻譯信息。待翻譯信息包括源語言詞語或短語或句子或短文。翻譯模塊109,用于使用通用翻譯模型103和與當(dāng)前用戶匹配的用戶翻譯模型106對待翻譯信息進行翻譯,以得到翻譯結(jié)果。請參考圖10,圖10為本發(fā)明實施例中翻譯模塊實施例的結(jié)構(gòu)示意框圖。如圖10所示,翻譯模塊109進一步包括預(yù)處理單元1091、查找單元1092、譯文生成單元1093。其中預(yù)處理單元1091,用于從待翻譯信息中抽取出可以作為獨立翻譯單元的源語言短語。如果待翻譯信息是詞語或短語,則不需要再進行抽取,如果待翻譯信息是短文,則先將短文劃分為句子,再采用窮舉策略從源語言句子中窮舉所有的子短語,具體內(nèi)容可參見參考文獻Philipp Koehn, 2004, Pharaoh :a Beam Search Decoder for Phrase-basedStatistical Machine Translation Models (下文稱為參考文獻 5)。查找單元1092,用于根據(jù)預(yù)置策略,在通用翻譯模型103和與當(dāng)前用戶匹配的用戶翻譯模型106中查找與源語言短語匹配的多個翻譯候選。所述的預(yù)置策略至少包括以下一種I、首先從通用翻譯模型103查找翻譯候選,如果沒有找到再從與當(dāng)前用戶匹配的用戶翻譯模型106查找翻譯候選。在這種策略下,最終的翻譯結(jié)果中用戶的翻譯偏好體現(xiàn)較少。以源語言短語“您要”為例,先去通用翻譯模型103里查找翻譯候選,如果找到翻譯候選,例如“you want 0. 7/0. 9/0. 6/0. 2” (數(shù)字代表特征值),則按照這些翻譯候選進行翻譯,如果沒有找到,則去與當(dāng)前用戶匹配的用戶翻譯模型106里面嘗試查找,以在與當(dāng)前用戶匹配的用戶翻譯模型106里找到的翻譯候選進行翻譯。2、首先從與當(dāng)前用戶匹配的用戶翻譯模型106查找翻譯候選,如果沒有找到再從通用翻譯模型103查找翻譯候選。在這種策略下,最終的翻譯結(jié)果中用戶的翻譯偏好體現(xiàn)較多。該策略與策略I類似,只是順序不同。3、同時在通用翻譯模型103和與當(dāng)前用戶匹配的用戶翻譯模型106中查找翻譯候選,然后再以預(yù)置的權(quán)重調(diào)整包含相同短語對的翻譯候選的特征值。仍以源語言短語“您要”為例,先在通用翻譯模型103中查找,找到翻譯候選tl “you want 0. 7/0. 9/0. 6/0. 2”,然后在與當(dāng)前用戶匹配的用戶翻譯模型106中查找,找到另一個翻譯候選t2 :“you want 0. 8/0. 6/0. 7/0. 2”。根據(jù)tl和t2的特征值,以一定的權(quán)重結(jié)合,例如按照 0. 5 0. 5 的比例插值,得至Ij t3 :“you want 0. 75/0. 75/0. 65/0. 2”。4、同時在通用翻譯模型103和與當(dāng)前用戶匹配的用戶翻譯模型106中查找翻譯候選,然后把包含相同短語對的翻譯候選在兩個翻譯模型中的特征值都作為單獨的特征值。仍以源語言短語“您要”為例,先在通用翻譯模型103中查找,找到翻譯候選tl “you want 0. 7/0. 9/0. 6/0. 2”,然后在與當(dāng)前用戶匹配的用戶翻譯模型106找到另一個翻 譯候選t2:“you want 0. 8/0. 6/0. 7/0. 2”。將tl和t2的特征值都作為單獨的特征值,得到 t3 :“you want 0. 7/0. 9/0. 6/0. 2/0. 8/0. 6/0. 7/0. 2”。值得注意的是,如果通用翻譯模型103中保存的是特征值,而與當(dāng)前用戶匹配的用戶翻譯模型106中保存的是源語言短語及目標(biāo)語言短語的頻次信息,則還需要按照計算單元1022中介紹的方法,將與當(dāng)前用戶匹配的用戶翻譯模型106中的頻次信息轉(zhuǎn)化為相應(yīng)的特征值,再使用上述的預(yù)置策略得到翻譯候選。在另一個實施例中,第一訓(xùn)練模塊102也可以采用與第二訓(xùn)練模塊105的優(yōu)選實施例類似的方法訓(xùn)練通用翻譯模型103,此時通用翻譯模型103中也將保留源語言短語及目標(biāo)語言短語的頻次信息,在這種情況下,預(yù)置策略還包括同時在通用翻譯模型103和與當(dāng)前用戶匹配的用戶翻譯模型106中查找翻譯候選,然后將包含相同短語對的翻譯候選在兩個翻譯模型中的頻次累加后計算特征值。仍以源語言短語“您要”為例,先在通用翻譯模型中103查找,找到翻譯候選tl “you want 50/100/20”(數(shù)字代表源語言短語出現(xiàn)次數(shù)、目標(biāo)語言短語出現(xiàn)次數(shù)、源語言短語與目標(biāo)語言短語互譯出現(xiàn)次數(shù)),然后去與當(dāng)前用戶匹配的用戶翻譯模型106找到另一個翻譯候選t2 :“you want 30/60/20”。將相應(yīng)的頻次累加得到t3 :“you want80/160/40”,再根據(jù)t3中的頻次信息采用計算單元1022中介紹的方法計算相應(yīng)特征值。譯文生成單元1093,用于根據(jù)翻譯候選的特征值計算譯文的得分,并選擇得分最高的譯文為待翻譯信息的翻譯結(jié)果。譯文的得分根據(jù)式(I)進行計算,具體的計算過程可參見參考文獻5。請參考圖11,圖11為本發(fā)明實施例中個性化的機器翻譯系統(tǒng)的實施例二的結(jié)構(gòu)示意框圖。如圖11所示,在本實施例中,個性化的機器翻譯系統(tǒng)在實施例一的基礎(chǔ)上進一步包括用戶配置模塊110或用戶反饋模塊111或用戶翻譯模型評價模塊112或以上三個模塊的任意組合。其中,用戶配置模塊110用于獲取當(dāng)前用戶對系統(tǒng)配置的選擇,并根據(jù)所述選擇建立當(dāng)前用戶與用戶翻譯模型之間的關(guān)聯(lián)關(guān)系。本發(fā)明中,除了可以為每個用戶單獨提供一個專有的用戶翻譯模型,還可以以組為單位,為用戶提供共享的用戶翻譯模型。在用戶配置模塊中,系統(tǒng)可以提供各種翻譯小組供用戶選擇,例如基于經(jīng)濟類的、基于政治類的、基于英語水平Level X級以上的等等,每個翻譯小組的成員將共享同一個用戶翻譯模型。當(dāng)用戶配置模塊110獲取到用戶對系統(tǒng)配置的選擇后,就會在該用戶與其選擇的用戶翻譯模型之間建立關(guān)聯(lián)關(guān)系。此時,同一個翻譯小組的成員提供的訓(xùn)練語料將對同一個用戶翻譯模型產(chǎn)生影響,并且同一個翻譯小組的成員在翻譯時,會得到相同的翻譯結(jié)果。用戶反饋模塊111,用于獲取當(dāng)前用戶對翻譯結(jié)果的修改,并根據(jù)所述修改對與當(dāng)前用戶匹配的用戶翻譯模型進行調(diào)整。當(dāng)前用戶通過翻譯模塊109得到翻譯結(jié)果后,有可能對翻譯結(jié)果感到不滿意,例如給定一個源語言句子我想要一個建議。系統(tǒng)給出的翻譯結(jié)果為I want a suggestion.當(dāng)前用戶對翻譯結(jié)果不夠滿意,將翻譯結(jié)果修改為Iwant a piece of advice.這樣用戶反饋模塊111將獲取當(dāng)前用戶對翻譯結(jié)果做出的修改,并根據(jù)這種修改對與當(dāng)前用戶匹配的用戶翻譯模型進行調(diào)整,這種調(diào)整包括增加源語言-目標(biāo)語言短語對或調(diào)整已有短語對的特征值或調(diào)整已有短語對的頻次。
用戶翻譯模型評價模塊112,用于對用戶翻譯模型106中的雙語資源進行評價,以得到高質(zhì)量的雙語資源,并通過高質(zhì)量的雙語資源影響通用翻譯模型103。機器翻譯的效果很大程度上取決于用于訓(xùn)練機器翻譯的雙語資源的質(zhì)量,通過本發(fā)明,機器翻譯在現(xiàn)有技術(shù)的基礎(chǔ)上提供了一個與用戶進行交互的窗口,即可以通過用戶提交的雙語資源實現(xiàn)用戶對機器翻譯質(zhì)量的影響。利用用戶不斷提交的雙語資源,機器翻譯系統(tǒng)的質(zhì)量也可以不斷改進。但是用戶提交的雙語資源也有可能是低質(zhì)量的資源,或者是由于某些特別的原因(如人為破壞等)導(dǎo)致的錯誤資源,因此,用戶翻譯模型評價模塊112可通過以下策略對用戶翻譯模型106中高質(zhì)量的雙語資源進行判斷I、如果用戶提交的是詞條資源,則通過提交該資源的用戶數(shù)目來判斷該資源的優(yōu)劣,即提交該詞條資源的用戶數(shù)目越多,說明該詞條資源的質(zhì)量越好。2、如果用戶提交的是句對資源,則可以通過通用翻譯模型103進行翻譯概率的計算,當(dāng)該句對的互譯概率大于某個閾值時,說明該句對資源的質(zhì)量較好。此外還可以采用機器加人工的方式對用戶翻譯模型中的雙語資源進行評價,即先由機器挑選出一些通過通用翻譯模型103計算得到的互譯概率不高的雙語資源,再由一些具有高級翻譯技能的人員對這些雙語資源進行評估和篩選。用戶翻譯模型中的高質(zhì)量的雙語資源可進一步地影響通用翻譯模型103,具體方式包括將只在用戶翻譯模型106中出現(xiàn)的資源添加到通用翻譯模型,或根據(jù)用戶翻譯模型106中出現(xiàn)的資源,調(diào)整通用翻譯模型中雙語資源的特征值。請參考圖12,圖12為本發(fā)明實施例中個性化的機器翻譯方法的實施例一的流程示意圖。如圖12所示,個性化的機器翻譯方法包括步驟201 :獲取當(dāng)前用戶信息,并根據(jù)所述當(dāng)前用戶信息獲取所述當(dāng)前用戶和用戶翻譯模型之間的關(guān)聯(lián)關(guān)系,并通過所述關(guān)聯(lián)關(guān)系選擇與所述當(dāng)前用戶匹配的用戶翻譯模型。所述用戶翻譯模型通過用戶提交的雙語語料訓(xùn)練得來,用于描述有用戶翻譯偏好的源語言句子到目標(biāo)語言句子的翻譯概率。當(dāng)前用戶信息通過用戶身份的匹配驗證得到,通過當(dāng)前用戶信息可以知道當(dāng)前用戶與用戶翻譯模型之間的關(guān)聯(lián)關(guān)系,從而可以根據(jù)所述的關(guān)聯(lián)關(guān)系選擇與用戶匹配的用戶翻譯模型。
如果當(dāng)前用戶是首次登錄,當(dāng)前用戶與用戶翻譯模型間沒有關(guān)聯(lián)關(guān)系,因此將為該用戶選擇一個新的用戶翻譯模型,按照預(yù)置策略,這個新的用戶翻譯模型包括系統(tǒng)默認(rèn)的通用翻譯模型或其他已有的用戶翻譯模型,如果當(dāng)前用戶不提供訓(xùn)練語料對這個新的用戶翻譯模型進行訓(xùn)練,則會直接在當(dāng)前用戶和這個新的用戶翻譯模型之間建立關(guān)聯(lián)關(guān)系;如果當(dāng)前用戶提供訓(xùn)練語料對這個新的用戶翻譯模型進行訓(xùn)練,則會生成一個與用戶提交的訓(xùn)練語料相關(guān)的用戶翻譯模型并在這個用戶翻譯模型與當(dāng)前用戶之間建立關(guān)聯(lián)關(guān)系。如果當(dāng)前用戶非首次登錄,當(dāng)前用戶與用戶翻譯模型間有關(guān)聯(lián)關(guān)系,因此將根據(jù)當(dāng)前用戶與用戶翻譯模型之間的關(guān)聯(lián)關(guān)系為當(dāng)前用戶選擇與其匹配的用戶翻譯模型。此外,在本發(fā)明中,除了可以為每個用戶單獨提供一個專有的用戶翻譯模型,還可以以組為單位,為用戶提供共享的用戶翻譯模型。屬于一個組的用戶,將與同一個用戶翻譯豐旲型建立關(guān)聯(lián)關(guān)系。步驟202 :獲取當(dāng)前用戶輸入的待翻譯信息。待翻譯信息包括源語言詞語或短語或句子或短文。
步驟203 :使用通用翻譯模型和與當(dāng)前用戶匹配的用戶翻譯模型對待翻譯信息進行翻譯,以得到翻譯結(jié)果,所述通用翻譯模型通過大規(guī)模雙語語料訓(xùn)練得來,用于描述無用戶翻譯偏好的源語言句子到目標(biāo)語言句子的翻譯概率。請參考圖13,圖13為本發(fā)明實施例中使用通用翻譯模型和與當(dāng)前用戶匹配的用戶翻譯模型對待翻譯信息進行翻譯的實施例的流程示意圖。如圖13所示,步驟203進一步包括步驟2031 :從待翻譯信息中抽取出可以作為獨立翻譯單元的源語言短語。如果待翻譯信息是詞語或短語,則不需要再進行抽取,如果待翻譯信息是短文,則先將短文劃分為句子,再采用窮舉策略從源語言句子中窮舉所有的子短語,具體內(nèi)容可參見參考文獻5。步驟2032 :根據(jù)預(yù)置策略,在通用翻譯模型和與當(dāng)前用戶匹配的用戶翻譯模型中查找與源語言短語匹配的多個翻譯候選。所述的預(yù)置策略包括I、首先從通用翻譯模型查找翻譯候選,如果沒有找到再從與當(dāng)前用戶匹配的用戶翻譯模型查找翻譯候選。在這種策略下,最終的翻譯結(jié)果中用戶的翻譯偏好體現(xiàn)較少。以源語言短語“您要”為例,先去通用翻譯模型里查找翻譯候選,如果找到翻譯候選,例如“you want O. 7/0. 9/0. 6/0. 2” (數(shù)字代表特征值),則按照這些翻譯候選進行翻譯,如果沒有找到,則去與當(dāng)前用戶匹配的用戶翻譯模型里面嘗試查找,以在與當(dāng)前用戶匹配的用戶翻譯模型里找到的翻譯候選進行翻譯。2、首先從與當(dāng)前用戶匹配的用戶翻譯模型查找翻譯候選,如果沒有找到再從通用翻譯模型查找翻譯候選。在這種策略下,最終的翻譯結(jié)果中用戶的翻譯偏好體現(xiàn)較多。該策略與策略I類似,只是順序不同。3、同時在通用翻譯模型和與當(dāng)前用戶匹配的用戶翻譯模型中查找翻譯候選,然后再以預(yù)置的權(quán)重調(diào)整包含相同短語對的翻譯候選的特征值。仍以源語言短語“您要”為例,先在通用翻譯模型中查找,找到翻譯候選tl :“youwant O. 7/0. 9/0. 6/0. 2”,然后在與當(dāng)前用戶匹配的用戶翻譯模型中查找,找到另一個翻譯候選t2 :“you want O. 8/0. 6/0. 7/0. 2”。根據(jù)tl和t2的特征值,以一定的權(quán)重結(jié)合,例如按照 O. 5 O. 5 的比例插值,得至Ij t3 :“you wantO. 75/0. 75/0. 65/0. 2”。4、同時在通用翻譯模型和與當(dāng)前用戶匹配的用戶翻譯模型中查找翻譯候選,然后把包含相同短語對的翻譯候選在兩個模型中的特征值都作為單獨的特征值。仍以源語言短語“您要”為例,先在通用翻譯模型中查找,找到翻譯候選tl :“youwant O. 7/0. 9/0. 6/0. 2”,然后在與當(dāng)前用戶匹配的用戶翻譯模型找到另一個翻譯候選t2 “you want O. 8/0. 6/0. 7/0. 2”。將tl和t2的特征值都作為單獨的特征值,得到t3 :“youwant O. 7/0. 9/0. 6/0. 2/0. 8/0. 6/0. 7/0. 2”。如果通用翻譯模型和與當(dāng)前用戶匹配的用戶翻譯模型中均保留源語言短語及目標(biāo)語言短語的頻次信息,則預(yù)置策略還包括同時在通用翻譯模型和與當(dāng)前用戶匹配的用戶翻譯模型中查找翻譯候選,然后將包含相同短語對的翻譯候選在兩個翻譯模型中的頻次累加后計算特征值。仍以源語言短語“您要”為例,先在通用翻譯模型中查找,找到翻譯候選tl :“youwant 50/100/20”(數(shù)字代表源語言短語出現(xiàn)次數(shù)、目標(biāo)語言短語出現(xiàn)次數(shù)、源語言短語與目標(biāo)語言短語互譯出現(xiàn)次數(shù)),然后去與當(dāng)前用戶匹配的用戶翻譯模型找到另一個翻譯候選 t2:“you want 30/60/20”。將相應(yīng)的頻次累加得到 t3 :“you want 80/160/40”,再根據(jù) t3中的頻次信息計算相應(yīng)特征值。步驟2033 :根據(jù)翻譯候選的特征值計算譯文的得分,并選擇得分最高的譯文為待翻譯信息的翻譯結(jié)果。譯文的得分根據(jù)式(I)進行計算,具體的計算過程可參見參考文獻5。請參考圖14,圖14為本發(fā)明實施例中個性化的機器翻譯方法的實施例二的流程示意圖。如圖14所示,在本實施例中,個性化的機器翻譯方法在實施例一的基礎(chǔ)上進一步包括步驟204 :接收當(dāng)前用戶對翻譯結(jié)果的修改,并根據(jù)所述修改對與當(dāng)前用戶匹配的用戶翻譯模型進行調(diào)整。當(dāng)前用戶得到翻譯結(jié)果后,有可能對翻譯結(jié)果感到不滿意,例如給定一個源語言句子我想要一個建議。所述方法給出的翻譯結(jié)果為I want a suggestion.當(dāng)前用戶對翻譯結(jié)果不夠滿意,將翻譯結(jié)果修改為I want a piece of advice.這時所述方法進一步包括接收當(dāng)前用戶做出的這種修改,并根據(jù)這種修改對與當(dāng)前用戶匹配的用戶翻譯模型進行調(diào)整,這種調(diào)整包括增加源語言-目標(biāo)語言短語對或調(diào)整已有短語對的特征值或調(diào)整已有短語對的頻次。請參考圖15,圖15為本發(fā)明實施例中訓(xùn)練翻譯模型的方法實施例的流程示意圖。如圖15所示,訓(xùn)練翻譯模型的方法包括步驟301 :從雙語語料的雙語句對中抽取具有互譯關(guān)系的短語對,所述短語對包括源語言短語及目標(biāo)語言短語。在本發(fā)明中,對短語抽取的方法不做限定,可以采用本領(lǐng)域技術(shù)人員公知的任何短語抽取方法獲取短語對,具體方法可見參考文獻3。如果雙語語料中的雙語句對沒有詞對齊信息,則步驟301進一步還包括在抽取短語對前對雙語句對進行詞對齊。在本發(fā)明中,對詞對齊的方法不做限定,可以采用本領(lǐng)域技術(shù)人員公知的任何詞對齊方法獲取詞與詞的對齊關(guān)系,例如通過大規(guī)模雙語語料中的部分語料訓(xùn)練一個詞對齊模型,再利用這個詞對齊模型進行詞對齊,具體方法可見參考文獻4。步驟302 :計算短語對的相關(guān)頻次,所述相關(guān)頻次包括源語言短語及目標(biāo)語言短語在雙語語料中分別出現(xiàn)的次數(shù)、互譯出現(xiàn)的次數(shù)。例如,“您要”在雙語語料中作為源語言短語出現(xiàn)了 70次,“you want”在雙語語料中作為目標(biāo)語言短語出現(xiàn)了 90次,“您要”與“you want”作為互譯短語出現(xiàn)了 20次,等等。步驟303 :將短語對與短語對的相關(guān)頻次添加進翻譯模型。步驟303中需要為翻譯模型建立索引,其具體的方法請參考圖8,圖8為本發(fā)明實施例中為用戶翻譯模型建立索引的方法的實施例的流程示意圖。如圖8所示,A、B分別為源語言短語和目標(biāo)語言短語的索引,(S,T)為從用戶提交的訓(xùn)練語料中抽取出來的雙語短語對,其中S表示的是源語言短語,T表示的是目標(biāo)語言短語。在建立索引時,首先從源語言短語索引A中查找S是否已經(jīng)存在于A中,如果沒有則將S與T分別加入到索引A中,否則查找T是否存在于A中,如果沒有則將T加入到索引A中,否則分別更新S與T在索引A中的相關(guān)頻次(S出現(xiàn)的次數(shù)、S與T互譯出現(xiàn)的次數(shù)),然后再從目標(biāo)語言短語索引B中查找T是否已經(jīng)存在于B,如果沒有則將T加入到B中,否則更新T在索引B中的相關(guān)頻次(T出現(xiàn)的次數(shù))。
在訓(xùn)練翻譯模型的方法的另一個實施例中,所述方法進一步包括在多個翻譯模型中,利用其中的第一翻譯模型影響第二翻譯模型,影響的方式包括將只在第一翻譯模型中出現(xiàn)的雙語資源添加到第二翻譯模型中或根據(jù)第一翻譯模型中的雙語資源,調(diào)整第二翻譯模型中雙語資源的特征值。優(yōu)選地,在本發(fā)明之一實施例中,第一翻譯模型為用戶翻譯模型,第二翻譯模型為通用翻譯模型。需要特別說明的是,本發(fā)明的所有實施例都是根據(jù)本發(fā)明實施例中選取的特征(短語互相翻譯概率、短語內(nèi)詞互相翻譯概率)進行說明的,但是由于特征的選取不是唯一的,由于選取不同特征而導(dǎo)致實施方式的不同,例如由于選取了短語調(diào)序概率作為特征而導(dǎo)致特征值的計算方式有所不同或相關(guān)頻次的計算有所不同,都不超過本發(fā)明的思想范圍。以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明保護的范圍之內(nèi)。
權(quán)利要求
1.一種個性化的機器翻譯系統(tǒng),其特征在于,所述系統(tǒng)包括 第一輸入模塊,用于從所述系統(tǒng)外部獲取第一雙語語料,其中所述第一雙語語料為大規(guī)模雙語語料,所述雙語語料包括由具有互譯關(guān)系的源語言句子和目標(biāo)語言句子組成的雙語句對; 第一訓(xùn)練模塊,用于根據(jù)所述第一雙語語料,訓(xùn)練通用翻譯模型; 所述通用翻譯模型,用于描述無用戶翻譯偏好的源語言句子到目標(biāo)語言句子的翻譯概率; 第二輸入模塊,用于從所述系統(tǒng)外部獲取第二雙語語料,所述第二雙語語料為用戶提交的雙語語料; 第二訓(xùn)練模塊,用于根據(jù)所述第二雙語語料,訓(xùn)練用戶翻譯模型; 所述用戶翻譯模型,用于描述有用戶翻譯偏好的源語言句子到目標(biāo)語言句子的翻譯概率; 用戶識別模塊,用于獲取當(dāng)前用戶信息,并根據(jù)所述當(dāng)前用戶信息獲取所述當(dāng)前用戶和所述用戶翻譯模型之間的關(guān)聯(lián)關(guān)系,并通過所述關(guān)聯(lián)關(guān)系選擇與所述當(dāng)前用戶匹配的用戶翻譯模型; 第三輸入模塊,用于從所述系統(tǒng)外部獲取所述當(dāng)前用戶輸入的待翻譯信息; 翻譯模塊,用于使用所述通用翻譯模型和所述匹配的用戶翻譯模型對所述待翻譯信息進行翻譯,以得到翻譯結(jié)果。
2.根據(jù)權(quán)利要求I所述的系統(tǒng),其特征在于,所述第一訓(xùn)練模塊進一步包括 第一短語抽取單元,用于從所述第一雙語語料中抽取具有互譯關(guān)系的短語對,所述短語對包括源語言短語及目標(biāo)語言短語; 第一計算單元,用于計算所述短語對的特征值; 第一添加單元,用于將所述短語對及所述短語對的特征值添加進所述通用翻譯模型。
3.根據(jù)權(quán)利要求2所述的系統(tǒng),其特征在于,如果所述第一雙語語料中的雙語句對沒有詞對齊信息,所述第一短語抽取單元進一步包括第一詞對齊單元,用于在抽取所述短語對前對所述雙語句對進行詞對齊。
4.根據(jù)權(quán)利要求2所述的系統(tǒng),其特征在于,所述第一計算單元進一步包括統(tǒng)計單元,用于統(tǒng)計所述短語對的相關(guān)頻次,所述相關(guān)頻次包括所述源語言短語與所述目標(biāo)語言短語在所述第一雙語語料中分別出現(xiàn)的次數(shù)及互譯出現(xiàn)的次數(shù)。
5.根據(jù)權(quán)利要求I所述的系統(tǒng),其特征在于,所述第二訓(xùn)練模塊進一步包括 第二短語抽取單元,用于從所述第二雙語語料中抽取具有互譯關(guān)系的短語對,所述短語對包括源語言短語及目標(biāo)語言短語; 第二計算單元,用于計算所述短語對的相關(guān)頻次及特征值,所述相關(guān)頻次包括所述源語言短語與所述目標(biāo)語言短語在所述第二雙語語料中分別出現(xiàn)的次數(shù)及互譯出現(xiàn)的次數(shù); 第二添加單元,用于將所述短語對及所述短語對的相關(guān)頻次及所述短語對的特征值添加進所述用戶翻譯模型。
6.根據(jù)權(quán)利要求5所述的系統(tǒng),其特征在于,如果所述第二雙語語料中的雙語句對沒有詞對齊信息,所述第二短語抽取單元進一步包括第二詞對齊單元,用于在抽取所述短語對前對所述雙語句對進行詞對齊。
7.根據(jù)權(quán)利要求I所述的系統(tǒng),其特征在于,所述用戶識別模塊進一步包括 注冊單元,用于獲取用戶提交的注冊信息并在所述系統(tǒng)中保存為用戶信息; 登錄單元,用于獲取當(dāng)前用戶提交的登錄信息,并將所述登錄信息與所述系統(tǒng)中保存的用戶信息進行匹配驗證,以得到當(dāng)前用戶信息; 選擇單元,用于根據(jù)所述當(dāng)前用戶信息確定所述當(dāng)前用戶和所述用戶翻譯模型之間的關(guān)聯(lián)關(guān)系,并根據(jù)所述關(guān)聯(lián)關(guān)系選擇與所述當(dāng)前用戶匹配的用戶翻譯模型。
8.根據(jù)權(quán)利要求I所述的系統(tǒng),其特征在于,所述翻譯模塊進一步包括 預(yù)處理單元,用于從所述待翻譯信息中抽取出可以作為獨立翻譯單元的源語言短語; 查找單元,用于根據(jù)預(yù)置策略,在所述通用翻譯模型和所述匹配的用戶翻譯模型中查找與所述源語言短語匹配的多個翻譯候選; 譯文生成單元,用于根據(jù)所述翻譯候選的特征值計算譯文的得分,并選擇得分最高的譯文為所述待翻譯信息的翻譯結(jié)果。
9.根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,所述預(yù)置策略至少包括以下一種 A.首先從所述通用翻譯模型查找所述翻譯候選,如果沒有找到再從所述匹配的用戶翻譯模型查找所述翻譯候選; B.首先從所述匹配的用戶翻譯模型查找所述翻譯候選,如果沒有找到再從所述通用翻譯模型查找所述翻譯候選; C.同時在所述通用翻譯模型和所述匹配的用戶翻譯模型中查找所述翻譯候選,然后再以預(yù)置的權(quán)重調(diào)整包含相同短語對的翻譯候選的特征值; D.同時在所述通用翻譯模型和所述匹配的用戶翻譯模型中查找所述翻譯候選,然后把包含相同短語對的翻譯候選在所述兩個翻譯模型中的特征值都作為單獨的特征值。
10.根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,如果所述通用翻譯模型與所述匹配的用戶翻譯模型中都保留了源語言短語及目標(biāo)語言短語的頻次信息,所述預(yù)置策略進一步包括同時在所述通用翻譯模型和所述匹配的用戶翻譯模型中查找所述翻譯候選,然后將包含相同短語對的翻譯候選在所述兩個翻譯模型中的頻次累加后計算特征值。
11.根據(jù)權(quán)利要求I所述的系統(tǒng),其特征在于,所述系統(tǒng)進一步包括 用戶配置模塊,用于獲取所述當(dāng)前用戶對系統(tǒng)配置的選擇,并根據(jù)所述選擇建立所述當(dāng)前用戶與所述用戶翻譯模型之間的關(guān)聯(lián)關(guān)系。
12.根據(jù)權(quán)利要求I所述的系統(tǒng),其特征在于,所述系統(tǒng)進一步包括 用戶反饋模塊,用于獲取所述當(dāng)前用戶對所述翻譯結(jié)果的修改,并根據(jù)所述修改對所述匹配的用戶翻譯模型進行調(diào)整。
13.根據(jù)權(quán)利要求I所述的系統(tǒng),其特征在于,所述系統(tǒng)進一步包括 用戶翻譯模型評價模塊,用于對所述用戶翻譯模型中的雙語資源進行評價,以得到高質(zhì)量的雙語資源,并通過所述高質(zhì)量的雙語資源影響所述通用翻譯模型。
14.根據(jù)權(quán)利要求13所述的系統(tǒng),其特征在于,所述影響的方式包括將只在所述用戶翻譯模型中出現(xiàn)的所述高質(zhì)量的雙語資源添加到所述通用翻譯模型或根據(jù)所述用戶翻譯模型中出現(xiàn)的所述高質(zhì)量的雙語資源,調(diào)整所述通用翻譯模型中雙語資源的特征值。
15.一種個性化的機器翻譯方法,其特征在于,所述方法包括a.獲取當(dāng)前用戶信息,并根據(jù)所述當(dāng)前用戶信息獲取所述當(dāng)前用戶和用戶翻譯模型之間的關(guān)聯(lián)關(guān)系,并通過所述關(guān)聯(lián)關(guān)系選擇與所述當(dāng)前用戶匹配的用戶翻譯模型,所述用戶翻譯模型通過用戶提交的雙語語料訓(xùn)練得來,用于描述有用戶翻譯偏好的源語言句子到目標(biāo)語言句子的翻譯概率; b.獲取所述當(dāng)前用戶輸入的待翻譯信息; c.使用通用翻譯模型和所述匹配的用戶翻譯模型對所述待翻譯信息進行翻譯,以得到翻譯結(jié)果,所述通用翻譯模型通過大規(guī)模雙語語料訓(xùn)練得來,用于描述無用戶翻譯偏好的源語言句子到目標(biāo)語言句子的翻譯概率。
16.根據(jù)權(quán)利要求15所述的方法,其特征在于,所述步驟c進一步包括 Cl.從所述待翻譯信息中抽取出可以作為獨立翻譯單元的源語言短語; c2.根據(jù)預(yù)置策略,在所述通用翻譯模型和所述匹配的用戶翻譯模型中查找與源語言短語匹配的多個翻譯候選; c3.根據(jù)所述翻譯候選的特征值計算譯文的得分,并選擇得分最高的譯文為所述待翻譯信息的翻譯結(jié)果。
17.根據(jù)權(quán)利要求16所述的方法,其特征在于,所述預(yù)置策略至少包括以下一種 A.首先從所述通用翻譯模型查找所述翻譯候選,如果沒有找到再從所述匹配的用戶翻譯模型查找所述翻譯候選; B.首先從所述匹配的用戶翻譯模型查找所述翻譯候選,如果沒有找到再從所述通用翻譯模型查找所述翻譯候選; C.同時在所述通用翻譯模型和所述匹配的用戶翻譯模型中查找所述翻譯候選,然后再以預(yù)置的權(quán)重調(diào)整包含相同短語對的翻譯候選的特征值; D.同時在所述通用翻譯模型和所述匹配的用戶翻譯模型中查找所述翻譯候選,然后把包含相同短語對的翻譯候選在所述兩個翻譯模型中的特征值都作為單獨的特征值。
18.根據(jù)權(quán)利要求16所述的方法,其特征在于,如果所述通用翻譯模型與所述匹配的用戶翻譯模型中都保留了源語言短語及目標(biāo)語言短語的頻次信息,所述預(yù)置策略進一步包括同時在所述通用翻譯模型和所述匹配的用戶翻譯模型中查找所述翻譯候選,然后將包含相同短語對的翻譯候選在所述兩個翻譯模型中的頻次累加后計算特征值。
19.根據(jù)權(quán)利要求17所述的方法,其特征在于,所述方法進一步包括 d.接收所述當(dāng)前用戶對所述翻譯結(jié)果的修改,并根據(jù)所述修改對所述匹配的用戶翻譯模型進行調(diào)整。
20.一種訓(xùn)練翻譯模型的方法,其特征在于,所述方法包括 a.從雙語語料的雙語句對中抽取具有互譯關(guān)系的短語對,所述短語對包括源語言短語及目標(biāo)語言短語; b.統(tǒng)計所述短語對的相關(guān)頻次,所述相關(guān)頻次包括源語言短語及目標(biāo)語言短語在雙語語料中分別出現(xiàn)的次數(shù)、互譯出現(xiàn)的次數(shù); c.將所述短語對與所述短語對的相關(guān)頻次添加進所述翻譯模型。
21.根據(jù)權(quán)利要求20所述的方法,其特征在于,如果所述雙語語料中的雙語句對沒有詞對齊信息,所述方法在所述步驟a前進一步包括對所述雙語語料中的雙語句對進行詞對齊。
22.根據(jù)權(quán)利要求20所述的方法,其特征在于,所述方法進一步包括d.在多個所述翻譯模型中,利用第一翻譯模型影響第二翻譯模型。
23.根據(jù)權(quán)利要求22所述的方法,其特征在于,所述影響的方式包括將只在所述第一翻譯模型中出現(xiàn)的雙語資源添加到所述第二翻譯模型或根據(jù)所述第一翻譯模型中的雙語資源,調(diào)整所述第二翻譯模型中雙語資源的特征值。
全文摘要
本發(fā)明提供了一種個性化的機器翻譯系統(tǒng)、方法及訓(xùn)練翻譯模型的方法,所述系統(tǒng)包括第一輸入模塊;第一訓(xùn)練模塊;通用翻譯模型,用于描述無用戶翻譯偏好的源語言句子到目標(biāo)語言句子的翻譯概率;第二輸入模塊;第二訓(xùn)練模塊;用戶翻譯模型,用于描述有用戶翻譯偏好的源語言句子到目標(biāo)語言句子的翻譯概率;用戶識別模塊;第三輸入模塊;翻譯模塊,用于使用所述通用翻譯模型和所述匹配的用戶翻譯模型對所述待翻譯信息進行翻譯,以得到翻譯結(jié)果。上述機器翻譯系統(tǒng),可以很好地針對不同用戶輸入的相同信息,給出符合用戶翻譯偏好的翻譯結(jié)果。
文檔編號G06F17/28GK102789451SQ20111012641
公開日2012年11月21日 申請日期2011年5月16日 優(yōu)先權(quán)日2011年5月16日
發(fā)明者吳華, 胡曉光 申請人:北京百度網(wǎng)訊科技有限公司