本發(fā)明屬于計(jì)算機(jī)統(tǒng)計(jì)機(jī)器翻譯和機(jī)器翻譯質(zhì)量評價(jià)領(lǐng)域,涉及一種自動(dòng)探索更多參考譯文信息的機(jī)器翻譯優(yōu)化方法。
背景技術(shù):
:機(jī)器翻譯的背景可以追溯到60多年前,且從上世紀(jì)90年代以來統(tǒng)計(jì)機(jī)器翻譯自發(fā)展十分迅速,取得了很大的進(jìn)步,逐漸成為機(jī)器翻譯領(lǐng)域中的研究熱點(diǎn)。完成機(jī)器翻譯本身并不是目的,而是希望知道機(jī)器譯文在多大程度上能夠幫助人們實(shí)現(xiàn)某個(gè)任務(wù),從而我們需要對機(jī)器翻譯輸出的譯文進(jìn)行評測。機(jī)器翻譯評測目前是一個(gè)非?;钴S的研究領(lǐng)域和討論的熱點(diǎn)話題。機(jī)器翻譯質(zhì)量評價(jià)分為人工評價(jià)和自動(dòng)評價(jià)兩個(gè)方面,人工評價(jià)由于其耗時(shí)費(fèi)力、代價(jià)昂貴、結(jié)果不可重現(xiàn)且不同的人會有不同的評價(jià)結(jié)果,現(xiàn)已被自動(dòng)評價(jià)方法部分取代,近年來,該領(lǐng)域的研究已經(jīng)取得了很大的進(jìn)步,機(jī)器翻譯研究者已經(jīng)信任自動(dòng)評測指標(biāo),并能夠根據(jù)自動(dòng)評測打分結(jié)果的高低來調(diào)整系統(tǒng)設(shè)計(jì)。目前所有的自動(dòng)評測指標(biāo)使用的都是相同的策略:將每一個(gè)機(jī)器翻譯譯文與一個(gè)或者多個(gè)參考譯文進(jìn)行比較,按其相似性來評測譯文的質(zhì)量。常用的自動(dòng)評價(jià)方法有翻譯錯(cuò)誤率ter(translationerrorrate)、雙語評測指標(biāo)bleu(bilingualevaluationunderstudy)以及使用了單語資源的meteor。翻譯錯(cuò)誤率使用了levenshtein距離(編輯距離),即將兩個(gè)字符串序列匹配時(shí)需要進(jìn)行編輯操作(插入、刪除和替換)的最少次數(shù),由于在實(shí)際情況下,機(jī)器翻譯譯文的語序與參考譯文的語序存在不同的情況,ter中加入了shift操作,可調(diào)整句子的語序;雙語評測指標(biāo)bleu是目前使用最廣泛的自動(dòng)評測指標(biāo),將機(jī)器翻譯譯文與參考譯文進(jìn)行n元文法匹配,同時(shí)會對丟失單詞的現(xiàn)象進(jìn)行懲罰,如果譯文句子過短就會被扣分。meteor則強(qiáng)調(diào)召回率,希望譯文的意思完整性更好,同時(shí)還添加了詞根還原和同義詞的使用。由于詞匯的選取、表達(dá)方式的不同,源語言存在多個(gè)正確的翻譯結(jié)果。對于上述依賴于參考譯文的方法,有限的參考譯文數(shù)量使得評價(jià)結(jié)果會存在不公平現(xiàn)在。本發(fā)明提出的探索參考譯文多樣性的機(jī)器翻譯質(zhì)量評價(jià)方法對已有的參考譯文信息進(jìn)行了拓展,緩解了多樣性造成的質(zhì)量評價(jià)偏差,不會因?yàn)橛邢薜膮⒖甲g文將機(jī)器翻譯譯文中本應(yīng)正確的部分判定為錯(cuò)誤翻譯。技術(shù)實(shí)現(xiàn)要素:發(fā)明目的:本發(fā)明所要解決的技術(shù)問題是針對現(xiàn)有的機(jī)器翻譯質(zhì)量評價(jià)方法在參考譯文有限的情況下由于語義、表達(dá)多樣性而造成的評價(jià)偏差這一問題,提出了一種擴(kuò)展獨(dú)立的參考譯文為一個(gè)參考譯文圖的機(jī)器翻譯質(zhì)量優(yōu)化方法,對于機(jī)器翻譯譯文中不同的詞語選擇,不同的表達(dá)方式能夠更加公平合理的作出評價(jià)。為了解決上述技術(shù)問題,本發(fā)明公開了一種機(jī)器翻譯質(zhì)量評價(jià)方法,該方法所有的步驟均運(yùn)行與windows平臺,分別對數(shù)據(jù)集為多個(gè)參考譯文和單個(gè)參考譯文的情況進(jìn)行了譯文多樣性拓展。所述探索參考譯文多樣性的機(jī)器翻譯質(zhì)量評價(jià)方法中拓展多個(gè)參考譯文的步驟如下:包括如下步驟:步驟1,構(gòu)建參考譯文圖;步驟2,準(zhǔn)備語言模型,翻譯模型,選取開發(fā)集,利用最小化錯(cuò)誤率訓(xùn)練方法在開發(fā)集上進(jìn)行機(jī)器翻譯系統(tǒng)的參數(shù)優(yōu)化,改進(jìn)已有的評價(jià)方法bleu;步驟3,對于開發(fā)集中的參考譯文,獲取與機(jī)器翻譯譯文最接近的路徑,利用該路徑代替原先的參考譯文,進(jìn)行n元文法匹配,獲得優(yōu)化后的翻譯評價(jià)結(jié)果。本發(fā)明步驟1包括如下步驟:步驟1-1,利用詞對齊工具giza++獲取源端(可以是中午)到參考譯文(可以是英文)之間的詞對齊結(jié)果;根據(jù)任意兩個(gè)短語對之間不存在交叉規(guī)則和最小閉包規(guī)則,將源端和參考譯文分割成一個(gè)以上的短語塊;步驟1-2,根據(jù)源端的語序?qū)⒉襟E1-1得到的短語塊組合成一個(gè)參考譯文子圖,參考譯文子圖中的節(jié)點(diǎn)為每個(gè)短語塊中的譯文和對應(yīng)的源端短語在句子中的詞序,用數(shù)字表示;參考譯文子圖中的邊為有向邊,其方向表示句子順序;若存在兩個(gè)以上參考譯文,則得到兩個(gè)以上參考譯文子圖,執(zhí)行步驟1-3;若只存在一個(gè)參考譯文,則得到一個(gè)參考譯文子圖,執(zhí)行步驟1-4;步驟1-3,將得到的參考譯文子圖按照節(jié)點(diǎn)內(nèi)容是否相同進(jìn)行增量合并,若參考譯文和源端詞序均相同,則合并兩個(gè)節(jié)點(diǎn)為一個(gè)節(jié)點(diǎn);若只有源端詞序相同,而參考譯文不同,則保留這兩個(gè)節(jié)點(diǎn)a、b,同時(shí)添加節(jié)點(diǎn)a的前一個(gè)節(jié)點(diǎn)到b的邊以及a到b的后一個(gè)節(jié)點(diǎn)的邊,對節(jié)點(diǎn)b執(zhí)行相同的加邊操作,添加節(jié)點(diǎn)b的前一個(gè)節(jié)點(diǎn)到a的邊以及b到節(jié)點(diǎn)a的后一個(gè)節(jié)點(diǎn)之間的邊。最終得到能夠表示兩個(gè)以上參考譯文的參考譯文圖,執(zhí)行步驟1-5;步驟1-4,利用意譯表對得到的參考譯文子圖進(jìn)行拓展,得到最終的參考譯文圖;步驟1-5,從參考譯文圖中選取出一條與機(jī)器翻譯譯文最接近的路徑作為最終的參考譯文。本發(fā)明步驟1-4包括以下步驟:步驟1-4-1,意譯表中存在5種不同關(guān)系的短語對:“相等”、“正向包含”、“反向包含”、“其他關(guān)系”和“相互獨(dú)立”,為了減少噪聲的引入,該發(fā)明中只選用了對等關(guān)系的短語對,“相等”關(guān)系表示兩個(gè)短語描述的意思完全一致。過濾意譯表,只保留相等關(guān)系的短語對,同時(shí)去掉不相關(guān)的信息,所述不相關(guān)的信息包括概率值、得分,句法信息;步驟1-4-2,擴(kuò)展參考譯文子圖中的每一個(gè)節(jié)點(diǎn)或連續(xù)的兩個(gè)以上的節(jié)點(diǎn),若當(dāng)前參考譯文子圖中的一條路徑存在一個(gè)與其相等的短語,則添加一個(gè)新的節(jié)點(diǎn),節(jié)點(diǎn)內(nèi)容為新的短語和路徑所覆蓋的源端詞序,同時(shí)添加對應(yīng)的邊,一條邊是當(dāng)前路徑首節(jié)點(diǎn)的前一個(gè)節(jié)點(diǎn)指向新節(jié)點(diǎn),另一條邊是新節(jié)點(diǎn)指向當(dāng)前路徑尾節(jié)點(diǎn)的下一個(gè)節(jié)點(diǎn)。本發(fā)明步驟1-5包括以下步驟:步驟1-5-1,利用詞對齊工具giza++獲取源端到機(jī)器翻譯譯文之間的詞對齊結(jié)果或是直接利用翻譯系統(tǒng)生成源端到機(jī)器翻譯譯文之間的詞對齊結(jié)果;根據(jù)任意兩個(gè)短語對之間不存在交叉規(guī)則和最小閉包規(guī)則,將源端和機(jī)器翻譯譯文分割成一個(gè)以上的短語塊,根據(jù)源端的語序?qū)⒌玫降亩陶Z塊組合成一個(gè)機(jī)器翻譯譯文子圖,機(jī)器翻譯譯文子圖中的節(jié)點(diǎn)為每個(gè)短語塊中的譯文和對應(yīng)的源端短語在句子中的詞序,用數(shù)字表示;機(jī)器翻譯譯文子圖中的邊為有向邊,其方向表示句子順序,得到最終的機(jī)器翻譯譯文圖;步驟1-5-2,根據(jù)步驟1得到的參考譯文圖,對機(jī)器翻譯譯文圖中的每一個(gè)節(jié)點(diǎn)找出參考譯文圖中與其對應(yīng)的最短路徑;步驟1-5-3,若當(dāng)前節(jié)點(diǎn)所覆蓋的源端短語在參考譯文圖中無對應(yīng)路徑,根據(jù)機(jī)器翻譯譯文圖和參考譯文圖中的節(jié)點(diǎn)或是路徑需覆蓋相同的源端這一規(guī)則,向后拓展當(dāng)前節(jié)點(diǎn)為機(jī)器翻譯譯文圖中的一條路徑進(jìn)行路徑匹配;步驟1-5-4,若已找到當(dāng)前路徑在參考譯文圖中對應(yīng)的最短路徑,記錄下最短路徑,同時(shí)從下一個(gè)節(jié)點(diǎn)重復(fù)步驟1-5-2和步驟1-5-3直至句子結(jié)尾。自動(dòng)評測指標(biāo)bleu,考慮了機(jī)器翻譯譯文與參考譯文中較長n元文法的匹配情況,并計(jì)算出匹配個(gè)數(shù)。給定n元文法匹配,能夠計(jì)算出n元文法的準(zhǔn)確率,即特定階數(shù)n的正確的n元文法個(gè)數(shù)占生產(chǎn)的該階n元文法總數(shù)的比例。本發(fā)明步驟2中所述bleu的指標(biāo)定義為:其中,brevity_penalty為長度懲罰因子,對丟失單詞的情況進(jìn)行懲罰。如果譯文過短,最終的bleu值就會被懲罰扣分。presicioni是n元文法匹配準(zhǔn)確率,n元文法是指n個(gè)連續(xù)的單詞,i是文法階數(shù)的索引,n表示n元文法的最大階數(shù),通常情況下,n元文法的最大階數(shù)n被設(shè)為4,因此該指標(biāo)又被稱為bleu-4。λi為i階文法匹配準(zhǔn)確率的權(quán)重,其大小為output_length是機(jī)器翻譯譯文的長度,reference_length是參考譯文的長度,因此,bleu的計(jì)算公式簡化為:在傳統(tǒng)的機(jī)器翻譯訓(xùn)練方法中,常使用最小錯(cuò)誤率訓(xùn)練方法進(jìn)行系統(tǒng)的參數(shù)學(xué)習(xí),該方法使用的是多特征思想,其優(yōu)化目標(biāo)是使得翻譯結(jié)果的錯(cuò)誤率最小。又因?yàn)閎leu表示的是機(jī)器翻譯譯文的正確性,因此本發(fā)明步驟2中,針對bleu的最小化錯(cuò)誤率訓(xùn)練方法,是最大化整個(gè)數(shù)據(jù)集上的bleu值,因此其最小錯(cuò)誤率訓(xùn)練的優(yōu)化目標(biāo)表示為:其中,是使得整個(gè)開發(fā)集上bleu值最高的一組參數(shù),m表示參數(shù)個(gè)數(shù),s表示開發(fā)集上的句子數(shù)目,i和m均為索引,i是句子索引,m是特征索引,fi是第i句源端句子,ri是第i句對應(yīng)的參考譯文譯文,λm為第m個(gè)特征的權(quán)重,hm為模型使用的特征,主要包括語言模型、正向翻譯概率、反向翻譯概率、句子長度、膠水規(guī)則等,e是源語言fi的機(jī)器翻譯譯文。調(diào)整對數(shù)線性模型的權(quán)重,調(diào)整方向?yàn)槭乖谡麄€(gè)開發(fā)集上的bleu值最高,具體的調(diào)整過程是,在調(diào)整第i個(gè)參數(shù)時(shí),固定其他參數(shù)不變,優(yōu)化第i個(gè)參數(shù),依次調(diào)整所有m個(gè)權(quán)重。本發(fā)明步驟3包括如下步驟:步驟3-1,如果開發(fā)集中含有兩個(gè)以上的參考譯文,利用詞對齊工具giza++獲取源端到參考譯文之間的詞對齊結(jié)果;根據(jù)任意兩個(gè)短語對之間不存在交叉規(guī)則和最小閉包規(guī)則,將源端和參考譯文分割成一個(gè)以上的短語塊;將得到的短語塊組合成兩個(gè)以上的參考譯文子圖,參考譯文子圖中的節(jié)點(diǎn)為每個(gè)短語塊中的譯文和對應(yīng)的源端短語在句子中的詞序,用數(shù)字表示;參考譯文子圖中的邊為有向邊,其方向表示句子順序;將得到的參考譯文子圖按照節(jié)點(diǎn)內(nèi)容是否相同進(jìn)行增量合并,若參考譯文和源端詞序均相同,則合并兩個(gè)節(jié)點(diǎn)為一個(gè)節(jié)點(diǎn);若只有源端詞序相同,而參考譯文不同,則保留這兩個(gè)節(jié)點(diǎn)a、b,同時(shí)添加節(jié)點(diǎn)a的前一個(gè)節(jié)點(diǎn)到b的邊以及a到b的后一個(gè)節(jié)點(diǎn)的邊,對節(jié)點(diǎn)b執(zhí)行相同的加邊操作,添加節(jié)點(diǎn)b的前一個(gè)節(jié)點(diǎn)到a的邊以及b到節(jié)點(diǎn)a的后一個(gè)節(jié)點(diǎn)之間的邊。最終得到能夠表示兩個(gè)以上參考譯文的參考譯文圖,從參考譯文圖中選取出一條與機(jī)器翻譯譯文最接近的路徑作為最終的參考譯文,利用該最接近的路徑代替原先的兩個(gè)以上的參考譯文,進(jìn)行n元文法匹配;步驟3-2,如果開發(fā)集中只有一個(gè)參考譯文,利用詞對齊工具giza++獲取源端到參考譯文之間的詞對齊結(jié)果;根據(jù)任意兩個(gè)短語對之間不存在交叉規(guī)則和最小閉包規(guī)則,將源端和參考譯文分割成一個(gè)以上的短語塊;根據(jù)源端的語序?qū)⒌玫降亩陶Z塊組合成一個(gè)參考譯文子圖,參考譯文子圖中的節(jié)點(diǎn)為每個(gè)短語塊中的譯文和對應(yīng)的源端短語在句子中的詞序,用數(shù)字表示;參考譯文子圖中的邊為有向邊,其方向表示句子順序;利用意譯表對得到的參考譯文子圖進(jìn)行拓展,得到最終的參考譯文圖:過濾意譯表,只保留相等關(guān)系的短語對,同時(shí)去掉不相關(guān)的信息,所述不相關(guān)的信息包括概率值、得分,句法信息;擴(kuò)展參考譯文子圖中的每一個(gè)節(jié)點(diǎn)或連續(xù)的兩個(gè)以上的節(jié)點(diǎn),若當(dāng)前參考譯文子圖中的一條路徑存在一個(gè)與其相等的短語,則添加一個(gè)新的節(jié)點(diǎn),節(jié)點(diǎn)內(nèi)容為新的短語和路徑所覆蓋的源端詞序,同時(shí)添加對應(yīng)的邊,一條邊是當(dāng)前路徑首節(jié)點(diǎn)的前一個(gè)節(jié)點(diǎn)指向新節(jié)點(diǎn),另一條邊是新節(jié)點(diǎn)指向當(dāng)前路徑尾節(jié)點(diǎn)的下一個(gè)節(jié)點(diǎn);從最終的參考譯文圖中選取出一條與機(jī)器翻譯譯文最接近的路徑作為最終的參考譯文,利用該最接近的路徑代替原先的參考譯文,進(jìn)行n元文法匹配。步驟3-3,如果機(jī)器翻譯譯文中的一個(gè)n元文法在任何一個(gè)參考譯文中得到匹配,則判定該n元文法是正確的。本發(fā)明利用參考譯文圖提高bleu幫助系統(tǒng)進(jìn)行參數(shù)學(xué)習(xí)的能力,使系統(tǒng)能夠或得一組更優(yōu)的權(quán)重。在參數(shù)學(xué)習(xí)方面,基于圖的方法有效的幫助了系統(tǒng)的訓(xùn)練過程,提高了系統(tǒng)翻譯結(jié)果的質(zhì)量;同時(shí),在利用人工相關(guān)度來評價(jià)該方法時(shí),其人工相關(guān)度相較于未使用圖的方法,有較明顯的提高。該方法能夠?qū)⒖甲g文數(shù)量有明顯的擴(kuò)充,緩解在參考譯文有限的情況下,由于語義表達(dá)多樣性而造成的不公平評價(jià)現(xiàn)象。有益效果:本發(fā)明利用一個(gè)參考譯文圖對數(shù)據(jù)集的參考譯文信息進(jìn)行了拓展,獲得了更多的參考信息,相比于在原始的參考譯文上能夠處理更多的語義多樣性和表達(dá)多樣性問題,盡可能多的保留機(jī)器翻譯譯文中翻譯正確的內(nèi)容,緩解了在參考譯文有限的情況下由于語義、表達(dá)多樣性而造成的評價(jià)偏差問題,更好的幫助傳統(tǒng)的機(jī)器翻譯系統(tǒng)進(jìn)行參數(shù)學(xué)習(xí),能夠有效的提高系統(tǒng)最終的翻譯結(jié)果質(zhì)量。同時(shí)將雙語評價(jià)指標(biāo)bleu與參考譯文圖相結(jié)合,顯著提高了雙語評價(jià)方法bleu的人工評價(jià)相關(guān)度。附圖說明下面結(jié)合附圖和具體實(shí)施方式對本發(fā)明做更進(jìn)一步的具體說明,本發(fā)明的上述或其他方面的優(yōu)點(diǎn)將會變得更加清楚。圖1是本發(fā)明的流程圖。具體實(shí)施方式下面結(jié)合附圖及實(shí)施例對本發(fā)明做進(jìn)一步說明。本發(fā)明提出了一種利用圖表示參考譯文的方法,在參考譯文信息有限的情況下,對譯文信息進(jìn)行拓展,或利用自身信息,或利用外部單語語料對已有的單詞或是短語拓展,以生成更多樣且正確的翻譯結(jié)果,在進(jìn)行機(jī)器譯文的評價(jià)時(shí),能夠盡可能的對其正確的部分作出準(zhǔn)確的評價(jià)。如圖1所示,本發(fā)明公開了一種自動(dòng)探索參考譯文多樣性的機(jī)器翻譯質(zhì)量評價(jià)方法,分別對存在多個(gè)參考譯文和存在單個(gè)參考譯文的情況作出了信息拓展。本發(fā)明所述自動(dòng)探索參考譯文多樣性的機(jī)器翻譯質(zhì)量評價(jià)方法中多個(gè)參考譯文的步驟如下:步驟11,利用詞對齊工具giza++獲取源端(中文)到參考譯文(英文)之間的詞對齊結(jié)果;根據(jù)任意兩個(gè)短語對之間不存在交叉規(guī)則和最小閉包規(guī)則,將源端和參考譯文分割成若干個(gè)短語塊。步驟12,根據(jù)源端的語序?qū)⒉襟E11得到的若干短語塊組合成一個(gè)子圖,圖中的節(jié)點(diǎn)為每個(gè)短語塊中的譯文和對應(yīng)的源端短語在句子中的詞序,用數(shù)字表示;圖中的邊為有向邊,其方向表示句子順序。步驟13,若存在多個(gè)參考譯文,按照步驟12得到的幾個(gè)子圖按照節(jié)點(diǎn)內(nèi)容是否相同進(jìn)行增量合并,若譯文和源端詞序均相同,則合并兩個(gè)節(jié)點(diǎn)為一個(gè)節(jié)點(diǎn);若只有源端詞序相同,而譯文不同,則保留這兩個(gè)節(jié)點(diǎn)a,b,同時(shí)添加a的前一個(gè)節(jié)點(diǎn)到b的邊以及a到b的后一個(gè)節(jié)點(diǎn)的邊,對節(jié)點(diǎn)b執(zhí)行相同的加邊操作,添加節(jié)點(diǎn)b的前一個(gè)節(jié)點(diǎn)到a的邊以及b到節(jié)點(diǎn)a的后一個(gè)節(jié)點(diǎn)之間的邊。最終得到能夠表示多個(gè)參考譯文且包含有更多信息的譯文圖。步驟14,從圖中選取出一條與機(jī)器翻譯譯文最接近的路徑作為最終的參考譯文。本發(fā)明步驟15包括以下步驟:步驟21,根據(jù)步驟11和步驟12構(gòu)造機(jī)器翻譯譯文的圖。步驟22,根據(jù)步驟21得到的機(jī)器翻譯譯文圖和步驟13得到的參考譯文圖,對機(jī)器翻譯譯文圖中的每一個(gè)節(jié)點(diǎn)找出參考譯文圖中與其對應(yīng)的最短路徑。步驟23,若當(dāng)前節(jié)點(diǎn)所覆蓋的源端短語在參考譯文圖中無對應(yīng)路徑(兩者覆蓋相同的源端),則向后拓展當(dāng)前節(jié)點(diǎn)為機(jī)器翻譯譯文圖中的一條路徑進(jìn)行路徑匹配。步驟24,若已找到當(dāng)前路徑在參考譯文圖中對應(yīng)的最短路徑,記錄下最短路徑,同時(shí)從下一個(gè)節(jié)點(diǎn)重復(fù)步驟23和步驟24直至句子結(jié)尾。所述利用參考譯文圖改進(jìn)評價(jià)方法bleu使其更好的進(jìn)行參數(shù)學(xué)習(xí)步驟如下:自動(dòng)評測指標(biāo)bleu,考慮了機(jī)器翻譯譯文與參考譯文中較長n元文法的匹配情況,并計(jì)算出匹配個(gè)數(shù)。給定n元文法匹配,能夠計(jì)算出n元文法的準(zhǔn)確率,即特定階數(shù)n的正確的n元文法個(gè)數(shù)占生產(chǎn)的該階n元文法總數(shù)的比例。bleu指標(biāo)定義為:其中,brevity_penalty為長度懲罰因子,對丟失單詞的情況進(jìn)行懲罰。如果譯文過短,最終的bleu值就會被懲罰扣分。presicioni是n元文法匹配準(zhǔn)確率,n元文法是指n個(gè)連續(xù)的單詞,i是文法階數(shù)的索引,通常情況下,n元文法的最大階數(shù)n被設(shè)為4,因此該指標(biāo)又被稱為bleu-4。公式(1)中的λi為i階文法匹配準(zhǔn)確率的權(quán)重,其大小為output_length是機(jī)器翻譯譯文的長度,reference_length是參考譯文的長度,因此,bleu的計(jì)算公式可以簡化為:在含有多個(gè)參考譯文的情況下,如果機(jī)器翻譯譯文中的一個(gè)n元文法在任何一個(gè)參考譯文中得到匹配,則認(rèn)為該n元文法是正確的。在傳統(tǒng)的機(jī)器翻譯訓(xùn)練方法中,常使用最小錯(cuò)誤率訓(xùn)練方法進(jìn)行系統(tǒng)的參數(shù)學(xué)習(xí),該方法使用的是多特征思想,其優(yōu)化目標(biāo)是使得翻譯結(jié)果的錯(cuò)誤率最小。又因?yàn)閎leu表示的是機(jī)器翻譯譯文的正確性,所以針對bleu的最小化錯(cuò)誤率訓(xùn)練方法,則是最大化整個(gè)數(shù)據(jù)集上的bleu值,因此其最小錯(cuò)誤率訓(xùn)練的優(yōu)化目標(biāo)可以表示為:其中,是使得整個(gè)開發(fā)集上bleu值最高的一組參數(shù),m表示參數(shù)個(gè)數(shù),s表示開發(fā)集上的句子數(shù)目,i和m均為索引,i是句子索引,m是特征索引,fi是第i句源端句子,ri是第i句對應(yīng)的參考譯文,λm為第m個(gè)特征的權(quán)重,hm為模型使用的特征,主要包括語言模型、正向翻譯概率、反向翻譯概率、句子長度、膠水規(guī)則等,e是源語言fi的機(jī)器翻譯譯文。調(diào)整對數(shù)線性模型的權(quán)重,調(diào)整方向?yàn)槭乖谡麄€(gè)開發(fā)集上的bleu值最高,具體的調(diào)整過程是,在調(diào)整第i個(gè)參數(shù)時(shí),固定其他參數(shù)不變,優(yōu)化第i個(gè)參數(shù),依次調(diào)整所有m個(gè)權(quán)重,使得系統(tǒng)在訓(xùn)練使用的開發(fā)集上總體bleu值最高,該發(fā)明利用參考譯文圖提高bleu幫助系統(tǒng)進(jìn)行參數(shù)學(xué)習(xí)的能力,使系統(tǒng)能夠或得一組更優(yōu)的權(quán)重。步驟31,準(zhǔn)備語言模型,翻譯模型,選取開發(fā)集,利用最小化錯(cuò)誤率訓(xùn)練方法進(jìn)行機(jī)器翻譯系統(tǒng)的參數(shù)訓(xùn)練。步驟32,如果開發(fā)集中含有多個(gè)參考譯文,通過步驟13構(gòu)建參考譯文圖,按照步驟14獲取與機(jī)器翻譯譯文最接近的路徑,利用該路徑代替原先的多個(gè)參考譯文,進(jìn)行n元文法匹配。所述基于圖的機(jī)器翻譯質(zhì)量評價(jià)方法中單個(gè)參考譯文的步驟如下:步驟41,利用詞對齊工具giza++獲取源端(中文)到單個(gè)參考譯文(英文)之間的詞對齊結(jié)果;根據(jù)任意兩個(gè)短語對之間不存在交叉規(guī)則和最小閉包規(guī)則,將源端和參考譯文分割成若干個(gè)短語塊。步驟42,根據(jù)源端的語序?qū)⒉襟E41得到的若干短語塊組合成一個(gè)子圖,圖中的節(jié)點(diǎn)為每個(gè)短語塊中的譯文和對應(yīng)的源端短語在句子中的詞序,用數(shù)字表示;圖中的邊為有向邊,其方向表示句子順序。步驟43,利用意譯表對該單個(gè)子圖進(jìn)行拓展,以擴(kuò)展其參考譯文的多樣性。步驟44,從圖中選取出一條與機(jī)器翻譯譯文最接近的路徑作為最終的參考譯文。本發(fā)明步驟43包括以下步驟:意譯表中存在5種不同關(guān)系的短語對:“相等”、“正向包含”、“反向包含”、“其他關(guān)系”和“相互獨(dú)立”,為了減少噪聲的引入,該發(fā)明中只選用了對等關(guān)系的短語對,“相等”關(guān)系表示兩個(gè)短語描述的意思完全一致。步驟51,過濾意譯表,只保留“相等”關(guān)系的短語對,同時(shí)去掉不相關(guān)的信息,如概率值、得分,句法等等信息。步驟52,擴(kuò)展圖中的每一個(gè)節(jié)點(diǎn)或連續(xù)的幾個(gè)節(jié)點(diǎn),若當(dāng)前參考譯文子圖中的某一條路徑存在一個(gè)與其“相等”的短語,則添加一個(gè)新的節(jié)點(diǎn),節(jié)點(diǎn)內(nèi)容為新的短語和路徑所覆蓋的源端詞序,同時(shí)需添加對應(yīng)的邊,一條邊是當(dāng)前路徑首節(jié)點(diǎn)的前一個(gè)節(jié)點(diǎn)指向新節(jié)點(diǎn),另一條邊是新節(jié)點(diǎn)指向當(dāng)前路徑尾節(jié)點(diǎn)的下一個(gè)節(jié)點(diǎn)。本發(fā)明步驟44包括以下步驟:步驟61,根據(jù)步驟41和步驟42構(gòu)造機(jī)器翻譯譯文的圖。步驟62,根據(jù)步驟61得到的機(jī)器翻譯譯文圖和步驟43得到的參考譯文圖,對機(jī)器翻譯譯文圖中的每一個(gè)節(jié)點(diǎn)找出參考譯文圖中與其對應(yīng)的最短路徑。步驟63,若當(dāng)前節(jié)點(diǎn)所覆蓋的源端短語在參考譯文圖中無對應(yīng)路徑(兩者覆蓋相同的源端),則向后拓展當(dāng)前節(jié)點(diǎn)為機(jī)器翻譯譯文圖中的一條路徑進(jìn)行路徑匹配。步驟64,若已找到當(dāng)前路徑在參考譯文圖中對應(yīng)的最短路徑,記錄下最短路徑,同時(shí)從下一個(gè)節(jié)點(diǎn)重復(fù)步驟63和步驟64直至句子結(jié)尾。所述利用參考譯文圖改進(jìn)評價(jià)方法bleu使其更好的進(jìn)行參數(shù)學(xué)習(xí)步驟如下:自動(dòng)評測指標(biāo)bleu,考慮了機(jī)器翻譯譯文與參考譯文中較長n元文法的匹配情況,并計(jì)算出匹配個(gè)數(shù)。給定n元文法匹配,能夠計(jì)算出n元文法的準(zhǔn)確率,即特定階數(shù)n的正確的n元文法個(gè)數(shù)占生產(chǎn)的該階n元文法總數(shù)的比例。bleu指標(biāo)定義為:其中,brevity_penalty為長度懲罰因子,對丟失單詞的情況進(jìn)行懲罰。如果譯文過短,最終的bleu值就會被懲罰扣分。presicioni是n元文法匹配準(zhǔn)確率,n元文法是指n個(gè)連續(xù)的單詞,i是文法階數(shù)的索引,通常情況下,n元文法的最大階數(shù)n被設(shè)為4,因此該指標(biāo)又被稱為bleu-4。公式(1)中的λi為i階文法匹配準(zhǔn)確率的權(quán)重,其大小為output_length是機(jī)器翻譯譯文的長度,reference_length是參考譯文的長度,因此,bleu的計(jì)算公式可以簡化為:在只存在單個(gè)參考譯文時(shí),將機(jī)器翻譯譯文與該參考譯文進(jìn)行n元文法匹配。在傳統(tǒng)的機(jī)器翻譯訓(xùn)練方法中,常使用最小錯(cuò)誤率訓(xùn)練方法進(jìn)行系統(tǒng)的參數(shù)學(xué)習(xí),該方法使用的是多特征思想,其優(yōu)化目標(biāo)是使得翻譯結(jié)果的錯(cuò)誤率最小。又因?yàn)閎leu表示的是機(jī)器翻譯譯文的正確性,所以針對bleu的最小化錯(cuò)誤率訓(xùn)練方法,則是最大化整個(gè)數(shù)據(jù)集上的bleu值,因此其最小錯(cuò)誤率訓(xùn)練的優(yōu)化目標(biāo)可以表示為:其中,是使得整個(gè)開發(fā)集上bleu值最高的一組參數(shù),m表示參數(shù)個(gè)數(shù),s表示開發(fā)集上的句子數(shù)目,i和m均為索引,i是句子索引,m是特征索引,fi是第i句源端句子,ri是第i句對應(yīng)的參考譯文,λm為第m個(gè)特征的權(quán)重,hm為模型使用的特征,主要包括語言模型、正向翻譯概率、反向翻譯概率、句子長度、膠水規(guī)則等,e是源語言fi的機(jī)器翻譯譯文。調(diào)整對數(shù)線性模型的權(quán)重,調(diào)整方向?yàn)槭乖谡麄€(gè)開發(fā)集上的bleu值最高,具體的調(diào)整過程是,在調(diào)整第i個(gè)參數(shù)時(shí),固定其他參數(shù)不變,優(yōu)化第i個(gè)參數(shù),依次調(diào)整所有m個(gè)權(quán)重,使得系統(tǒng)在訓(xùn)練使用的開發(fā)集上總體bleu值最高,該發(fā)明利用參考譯文圖提高bleu幫助系統(tǒng)進(jìn)行參數(shù)學(xué)習(xí)的能力,使系統(tǒng)能夠或得一組更優(yōu)的權(quán)重。步驟71,準(zhǔn)備語言模型,翻譯模型,選取開發(fā)集,利用最小化錯(cuò)誤率訓(xùn)練方法進(jìn)行機(jī)器翻譯系統(tǒng)的參數(shù)訓(xùn)練。步驟73,通過步驟42構(gòu)建參考譯文子圖,按照步驟43對該子圖進(jìn)行拓展,得到一個(gè)含有更加多樣化信息的參考譯文圖,最后參照步驟44獲取與機(jī)器翻譯譯文最接近的路徑,利用該路徑代替原先的參考譯文,進(jìn)行n元文法匹配。實(shí)施例本發(fā)明所用的算法全部由c#語言編寫實(shí)現(xiàn)。實(shí)驗(yàn)配置為intelxeone7750處理器,主頻為2.0ghz,內(nèi)存為176g。實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備如下:8396924句對中英文平行語料,訓(xùn)練得到短語表和規(guī)則表兩個(gè)文件作為翻譯模型使用,翻譯模型即為源端(詞或短語)翻譯成目標(biāo)端的概率;14684074句對英文單語語料,訓(xùn)練得到目標(biāo)端語言模型,語言模型統(tǒng)計(jì)的是某個(gè)詞序列出現(xiàn)的概率;919句中英數(shù)據(jù)集mt03作為開發(fā)集,在參數(shù)訓(xùn)練時(shí),幫助優(yōu)化各參數(shù)使用,即通過這些參數(shù)選擇出來的機(jī)器翻譯譯文要使得翻譯系統(tǒng)在mt03上達(dá)到bleu值最大,測試集3個(gè):mt02、mt04、mt05,分別含有878句、1788句、1082句。意譯表中則含有4551746對短語。實(shí)施例1本實(shí)施例在多個(gè)參考譯文下的評價(jià)實(shí)驗(yàn)如下:11.輸入源端語言文件和對應(yīng)的多個(gè)參考譯文的文件,通過giza++獲取源端與參考譯文之間的詞對齊信息。12.利用步驟11得到的結(jié)果以及dev集(含有多個(gè)參考譯文)作為輸入,對dev集中的參考譯文信息進(jìn)行拓展,進(jìn)行機(jī)器翻譯系統(tǒng)的參數(shù)訓(xùn)練實(shí)驗(yàn),輸出為dev集的翻譯結(jié)果。13.訓(xùn)練結(jié)束之后,在測試集mt02,mt04,mt05上進(jìn)行測試,輸出為對應(yīng)的數(shù)據(jù)集的翻譯結(jié)果。實(shí)施例2本實(shí)施例在單個(gè)參考譯文下的評價(jià)實(shí)驗(yàn)如下:11.輸入源端語言文件和對應(yīng)的單個(gè)參考譯文的文件,通過giza++獲取源端與參考譯文之間的詞對齊信息。12.利用步驟11得到的結(jié)果、意譯表以及dev集(含有單個(gè)參考譯文)作為輸入,對dev集中的參考譯文信息進(jìn)行拓展,進(jìn)行機(jī)器翻譯系統(tǒng)的參數(shù)訓(xùn)練實(shí)驗(yàn),輸出為dev集的翻譯結(jié)果。13.訓(xùn)練結(jié)束之后,在測試集mt02,mt04,mt05上進(jìn)行測試,輸出為對應(yīng)的數(shù)據(jù)集的翻譯結(jié)果。實(shí)施例3本實(shí)施例對利用參考譯文圖的bleu方法進(jìn)行人工相關(guān)度評價(jià):11.輸入源端語言文件和對應(yīng)的參考譯文的文件,通過giza++獲取源端與參考譯文之間的詞對齊信息。12.對對應(yīng)的含有人工評價(jià)結(jié)果的不同系統(tǒng)的譯文進(jìn)行排序。13.對于來自不同系統(tǒng)的翻譯結(jié)果按照未使用參考譯文圖的原始方法進(jìn)行打分,同時(shí)按照進(jìn)行排序,將該排序結(jié)果與人工評價(jià)的排序結(jié)果利用kendall’stau進(jìn)行人工相關(guān)度評價(jià)。13.利用步驟11的結(jié)果構(gòu)造參考譯文圖,對于來自不同系統(tǒng)的翻譯結(jié)果,按照擴(kuò)展后的方法進(jìn)行打分,同時(shí)對打分結(jié)果進(jìn)行排序,并將該排序結(jié)果與人工評價(jià)的排序結(jié)果進(jìn)行人工相關(guān)度評價(jià)。本發(fā)明的目的是為了通過對參考譯文語義和表達(dá)多樣性信息的拓展,獲得了更多數(shù)量的參考譯文,緩解已有的自動(dòng)評價(jià)方法由于作為參考的人工譯文有限,對不同的機(jī)器翻譯譯文的評價(jià)偏差。同時(shí),該方法能夠幫助機(jī)器翻譯系統(tǒng)進(jìn)行更優(yōu)的參數(shù)學(xué)習(xí)。為了驗(yàn)證本發(fā)明的有效性,本發(fā)明與未進(jìn)行參考譯文信息拓展的系統(tǒng)進(jìn)行了對比。表1是多個(gè)參考譯文在兩個(gè)系統(tǒng)上的翻譯結(jié)果對比:可以看出本發(fā)明在對多個(gè)參考譯文進(jìn)行多樣性拓展之后,系統(tǒng)的翻譯效果有明顯提高,翻譯結(jié)果質(zhì)量在各個(gè)指標(biāo)上均有提高。表2是單個(gè)參考譯文在兩個(gè)系統(tǒng)上的翻譯結(jié)果對比:可以看出本發(fā)明在對單個(gè)參考譯文進(jìn)行多樣性拓展之后,系統(tǒng)的翻譯效果有明顯提高,翻譯結(jié)果質(zhì)量在除meteor指標(biāo)上均有提高。表3是未進(jìn)行參考譯文多樣性拓展的自動(dòng)評價(jià)方法與拓展以后的方法的人工評價(jià)相關(guān)度對比:conditionsbleutermeteor4-refs0.46640.50660.4865rgraph0.47390.52670.4876可以看出本發(fā)明在對參考譯文的多樣性信息進(jìn)行拓展之后,取得了與人工評價(jià)相關(guān)度更高的效果。本發(fā)明利用圖擴(kuò)展獨(dú)立的參考譯文的信息,獲得了更加豐富的譯文信息,在參考譯文有限的情況下,對由于語義、表達(dá)多樣性而造成的評價(jià)偏差進(jìn)行糾正,對機(jī)器翻譯得到的譯文進(jìn)行更充分的評價(jià)。同時(shí)在利用不同的評價(jià)方法參與訓(xùn)練過程時(shí),幫助系統(tǒng)更好的進(jìn)行參數(shù)學(xué)習(xí);此外,利用了參考譯文圖的評價(jià)方法比原始方法獲得了更高的人工相關(guān)度,說明該種打分標(biāo)準(zhǔn)更加準(zhǔn)確。本發(fā)明適用于在參考譯文數(shù)量有限的情況下,對譯文的多樣性信息進(jìn)行拓展,幫助各評價(jià)方法更加公平合理的評價(jià)機(jī)器翻譯譯文。本發(fā)明提供了一種自動(dòng)探索更多參考譯文信息的機(jī)器翻譯優(yōu)化方法,具體實(shí)現(xiàn)該技術(shù)方案的方法和途徑很多,以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對于本
技術(shù)領(lǐng)域:
的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。本實(shí)施例中未明確的各組成部分均可用現(xiàn)有技術(shù)加以實(shí)現(xiàn)。當(dāng)前第1頁12