專(zhuān)利名稱(chēng):機(jī)器翻譯測(cè)評(píng)裝置和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種機(jī)器翻譯測(cè)評(píng)裝置和方法,屬于機(jī)器翻譯結(jié)果的自動(dòng)測(cè)評(píng)的自然 語(yǔ)言處理技術(shù)領(lǐng)域。
背景技術(shù):
目前,機(jī)器翻譯系統(tǒng)的譯文評(píng)測(cè)標(biāo)準(zhǔn)有兩種一種是主觀評(píng)測(cè)標(biāo)準(zhǔn),即由人工主觀 判斷譯文質(zhì)量打分;另一種是客觀評(píng)測(cè)標(biāo)準(zhǔn),即依據(jù)一定的評(píng)價(jià)模型計(jì)算打分。主觀評(píng)測(cè)依 據(jù)人工給出參考譯文對(duì)翻譯系統(tǒng)譯文的流暢性和充分性進(jìn)行評(píng)分??陀^測(cè)評(píng)定量地計(jì)算系 統(tǒng)譯文與參考譯文之間的接近程度。
日本專(zhuān)利文獻(xiàn)特開(kāi)2007-241910公開(kāi)了一種機(jī)器翻譯評(píng)價(jià)裝置和方法。然而,其 需要給出參考譯文,即源語(yǔ)言翻譯句子的目標(biāo)語(yǔ)言的正確翻譯結(jié)果。但是,一般而言,對(duì)實(shí) 際應(yīng)用中的機(jī)器翻譯系統(tǒng)而言,由于語(yǔ)言的多樣性,對(duì)絕大多數(shù)的源語(yǔ)言句子而言,很難對(duì) 被翻譯的句子給出正確的翻譯結(jié)果。盡管通常的機(jī)器翻譯評(píng)測(cè)活動(dòng)中測(cè)試集都包括許許多 多的正確譯文。
對(duì)于普通用戶(hù)而言,這種花銷(xiāo)顯得不必要、不現(xiàn)實(shí)、不實(shí)用、且不能給用戶(hù)提供具 有實(shí)際參考價(jià)值上的意義和便利,因?yàn)閷?duì)于普通用戶(hù)而言,通常的需求往往是在沒(méi)有參考 譯文的條件下想知道翻譯結(jié)果的可信度,或者比較多個(gè)系統(tǒng)譯文的評(píng)分來(lái)選擇評(píng)分更高的 譯文供自己使用。
因此,在不存在參考譯文或標(biāo)準(zhǔn)翻譯結(jié)果的情況下,無(wú)法對(duì)源語(yǔ)言的翻譯結(jié)果給 出評(píng)測(cè)結(jié)果,在實(shí)際的機(jī)器翻譯系統(tǒng)中,往往造成用戶(hù)對(duì)翻譯結(jié)果的可信度或信賴(lài)度一無(wú) 所知或無(wú)法了解的狀況,這一問(wèn)題成為機(jī)器翻譯系統(tǒng)推廣使用過(guò)程中的巨大障礙,同時(shí)給 用戶(hù)帶來(lái)了很多的不便。發(fā)明內(nèi)容
本發(fā)明的目的是提供一種機(jī)器翻譯測(cè)評(píng)裝置和方法,其可使得機(jī)器翻譯系統(tǒng)在不 存在參考譯文或標(biāo)準(zhǔn)翻譯結(jié)果的情況下,對(duì)機(jī)器翻譯系統(tǒng)的翻譯結(jié)果進(jìn)行合理的評(píng)價(jià),為 機(jī)器翻譯用戶(hù)提供機(jī)器翻譯信賴(lài)度的合理評(píng)價(jià)方法。
為此,根據(jù)本發(fā)明的一個(gè)方面,提供了一種機(jī)器翻譯測(cè)評(píng)裝置,其特征在于,包括 第一翻譯單元,用于對(duì)輸入的源語(yǔ)言進(jìn)行機(jī)器翻譯,并生成目標(biāo)語(yǔ)言;第二翻譯單元,用于 把所述目標(biāo)語(yǔ)言逆向翻譯成源語(yǔ)言;源語(yǔ)言語(yǔ)言模型,對(duì)輸入的源語(yǔ)言和第二翻譯單元的 逆向翻譯結(jié)果分別進(jìn)行評(píng)分;以及評(píng)價(jià)單元,用于根據(jù)所述源語(yǔ)言語(yǔ)言模型的評(píng)分比較所 述輸入的源語(yǔ)言和第二翻譯單元的逆向翻譯結(jié)果之間的相似度,對(duì)所述機(jī)器翻譯進(jìn)行評(píng) 價(jià)。
優(yōu)選地,還包括源語(yǔ)言輸入單元,用于接收所述輸入的源語(yǔ)言;以及目標(biāo)語(yǔ)言輸 出單元,將所述目標(biāo)語(yǔ)言輸出給所述第二翻譯單元。
優(yōu)選地,所述源語(yǔ)言語(yǔ)言模型通過(guò)計(jì)算句子的概率來(lái)提供評(píng)分。
優(yōu)選地,所述源語(yǔ)言語(yǔ)言模型是詞、詞類(lèi)、語(yǔ)義屬性中的任意的一種或組合,或是N 元語(yǔ)法模型,根據(jù)對(duì)輸入的源語(yǔ)言的評(píng)分和對(duì)第二翻譯單元的逆向翻譯結(jié)果的評(píng)分之間的 和、差、積、商、對(duì)數(shù)、指數(shù)中的任意一種或組合,所述評(píng)價(jià)單元對(duì)所述機(jī)器翻譯進(jìn)行評(píng)價(jià)。
優(yōu)選地,所述第一翻譯單元采用的機(jī)器翻譯方法是直接翻譯方法、基于轉(zhuǎn)換的機(jī) 器翻譯方法、基于中間語(yǔ)言的機(jī)器翻譯方法、基于語(yǔ)言學(xué)的機(jī)器翻譯方法、基于知識(shí)的機(jī)器 翻譯方法、基于平行語(yǔ)法的機(jī)器翻譯方法、基于實(shí)例的機(jī)器翻譯方法、基于統(tǒng)計(jì)的機(jī)器翻譯 方法中的其中之一或者組合;或者,所述第二翻譯單元采用的逆向翻譯方法是直接翻譯方 法、基于轉(zhuǎn)換的機(jī)器翻譯方法、基于中間語(yǔ)言的機(jī)器翻譯方法、基于語(yǔ)言學(xué)的機(jī)器翻譯方 法、基于知識(shí)的機(jī)器翻譯方法、基于平行語(yǔ)法的機(jī)器翻譯方法、基于實(shí)例的機(jī)器翻譯方法、 基于統(tǒng)計(jì)的機(jī)器翻譯方法中的其中之一或者組合。
根據(jù)本發(fā)明的另外一個(gè)方面,提供了一種機(jī)器翻譯測(cè)評(píng)方法,其特征在于,包括下 列步驟對(duì)輸入的源語(yǔ)言進(jìn)行機(jī)器翻譯,并生成目標(biāo)語(yǔ)言;將所述目標(biāo)語(yǔ)言逆向翻譯成源 語(yǔ)言;根據(jù)源語(yǔ)言語(yǔ)言模型對(duì)輸入的源語(yǔ)言和逆向翻譯的結(jié)果分別進(jìn)行評(píng)分;根據(jù)所述源 語(yǔ)言語(yǔ)言模型的評(píng)分比較所述輸入的源語(yǔ)言和逆向翻譯結(jié)果之間的相似度,對(duì)所述機(jī)器翻 譯進(jìn)行評(píng)價(jià)。
優(yōu)選地,采用源語(yǔ)言輸入單元接收所述輸入的源語(yǔ)言;以及采用目標(biāo)語(yǔ)言輸出單 元啟動(dòng)逆向翻譯。
優(yōu)選地,所述源語(yǔ)言語(yǔ)言模型通過(guò)計(jì)算句子的概率來(lái)提供評(píng)分。
優(yōu)選地,所述源語(yǔ)言語(yǔ)言模型是詞、詞類(lèi)、語(yǔ)義屬性中的任意的一種或組合,或是 N元語(yǔ)法模型,根據(jù)對(duì)輸入的源語(yǔ)言的評(píng)分和逆向翻譯結(jié)果的評(píng)分之間的和、差、積、商、對(duì) 數(shù)、指數(shù)中的任意一種或組合,所述評(píng)價(jià)單元對(duì)所述機(jī)器翻譯進(jìn)行評(píng)價(jià)。
優(yōu)選地,所述機(jī)器翻譯方法是直接翻譯方法、基于轉(zhuǎn)換的機(jī)器翻譯方法、基于中間 語(yǔ)言的機(jī)器翻譯方法、基于語(yǔ)言學(xué)的機(jī)器翻譯方法、基于知識(shí)的機(jī)器翻譯方法、基于平行語(yǔ) 法的機(jī)器翻譯方法、基于實(shí)例的機(jī)器翻譯方法、基于統(tǒng)計(jì)的機(jī)器翻譯方法中的其中之一或 者組合;或者,所述逆向翻譯方法是直接翻譯方法、基于轉(zhuǎn)換的機(jī)器翻譯方法、基于中間語(yǔ)言 的機(jī)器翻譯方法、基于語(yǔ)言學(xué)的機(jī)器翻譯方法、基于知識(shí)的機(jī)器翻譯方法、基于平行語(yǔ)法的機(jī) 器翻譯方法、基于實(shí)例的機(jī)器翻譯方法、基于統(tǒng)計(jì)的機(jī)器翻譯方法中的其中之一或者組合。
根據(jù)本發(fā)明,在不存在參考譯文或標(biāo)準(zhǔn)翻譯結(jié)果的情況下,可以實(shí)現(xiàn)對(duì)翻譯結(jié)果 的信賴(lài)度進(jìn)行評(píng)價(jià),尤其對(duì)統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的翻譯結(jié)果的信賴(lài)度評(píng)價(jià)具有很好的評(píng)價(jià)效 果。具體來(lái)講,通過(guò)使用機(jī)器翻譯單元B (第二翻譯單元)把輸入的源語(yǔ)言經(jīng)機(jī)器翻譯單元 A(第一翻譯單元)的翻譯結(jié)果進(jìn)行還原,然后,使用翻譯結(jié)果評(píng)分單元來(lái)計(jì)算輸入的源語(yǔ) 言和被還原的翻譯結(jié)果之間的相似度,從而對(duì)機(jī)器翻譯系統(tǒng)的翻譯結(jié)果進(jìn)行評(píng)分計(jì)算,或 使用源語(yǔ)言模型計(jì)算輸入給系統(tǒng)的源語(yǔ)言句子和被還原的翻譯結(jié)果的句子之間的相似度, 對(duì)機(jī)器翻譯系統(tǒng)的翻譯結(jié)果進(jìn)行評(píng)分計(jì)算和信賴(lài)度估值,為用戶(hù)提供機(jī)器翻譯結(jié)果的信賴(lài) 度,從而基本解決機(jī)器翻譯系統(tǒng)在實(shí)用層面上的翻譯結(jié)果評(píng)價(jià)困難的問(wèn)題,為包括語(yǔ)音自 動(dòng)翻譯在內(nèi)的機(jī)器翻譯系統(tǒng)提供高效可信的機(jī)器翻譯結(jié)果的評(píng)價(jià)裝置和方法。
下面結(jié)合附圖,對(duì)本發(fā)明的實(shí)施例進(jìn)行說(shuō)明,應(yīng)該理解,這些實(shí)施例適用于說(shuō)明本發(fā)明,而不是對(duì)本發(fā)明進(jìn)行限定,其中
圖1是根據(jù)本發(fā)明的第一實(shí)施例的機(jī)器翻譯測(cè)評(píng)裝置的方框圖。
圖2是根據(jù)本發(fā)明的第二實(shí)施例的機(jī)器翻譯測(cè)評(píng)裝置的方框圖。
圖3是根據(jù)本發(fā)明的第一實(shí)施例的機(jī)器翻譯測(cè)評(píng)方法的流程圖。
具體實(shí)施方式
以下對(duì)照附圖并結(jié)合具體實(shí)施方式
對(duì)本發(fā)明進(jìn)行進(jìn)一步的詳細(xì)說(shuō)明。在接下來(lái)的 部分中,將利用一些具體的例子如英語(yǔ)、漢語(yǔ)等等來(lái)解釋本發(fā)明。然而,毋庸諱言,本發(fā)明所 述的機(jī)器翻譯測(cè)評(píng)裝置和方法,并不僅僅限于英語(yǔ)或漢語(yǔ),對(duì)其他任何語(yǔ)言都是可以接受 的。
根據(jù)本發(fā)明提供的機(jī)器翻譯測(cè)評(píng)裝置和方法,可以在不存在參考譯文或標(biāo)準(zhǔn)翻譯 結(jié)果的情況下,對(duì)翻譯結(jié)果進(jìn)行評(píng)分和估值,可以為廣大普通用戶(hù)提供機(jī)器翻譯結(jié)果的信 賴(lài)度,從而基本解決機(jī)器翻譯系統(tǒng)在實(shí)用層面上的翻譯結(jié)果評(píng)價(jià)困難的問(wèn)題,為包括語(yǔ)音 自動(dòng)翻譯在內(nèi)的機(jī)器翻譯系統(tǒng)提供高效可信的機(jī)器翻譯結(jié)果的評(píng)價(jià)裝置和方法,為用戶(hù)帶 來(lái)便利。
如圖1所示,機(jī)器翻譯測(cè)評(píng)裝置包括源語(yǔ)言輸入單元100 ;機(jī)器翻譯單元AllO ; 目標(biāo)語(yǔ)言輸出單元120 ;機(jī)器翻譯單元B130 ;翻譯結(jié)果評(píng)分單元140 ;輸出單元150。接下 來(lái)將詳細(xì)解釋每個(gè)構(gòu)成模塊的功能、性質(zhì)、原理及實(shí)現(xiàn)方法。
源語(yǔ)言輸入單元100接收用戶(hù)提供的源語(yǔ)言輸入語(yǔ)句,并把輸入的語(yǔ)句發(fā)送給機(jī) 器翻譯單元AllO和源語(yǔ)言評(píng)分單元140。為了輸入源語(yǔ)言輸入語(yǔ)句,可以使用任何輸入 設(shè)備,如鍵盤(pán)、手寫(xiě)識(shí)別、語(yǔ)音識(shí)別裝置,或者從已存盤(pán)的文件中讀取,這些方法都是可接受 的。源語(yǔ)言輸入單元100可以使用任何方法,只要能夠執(zhí)行處理最終源語(yǔ)言輸入語(yǔ)句即可。 例如,如下設(shè)置是可接受的源語(yǔ)言輸入單元100接收用戶(hù)鍵盤(pán)上的輸入,并將輸入的字符 串結(jié)果作為源語(yǔ)言輸入語(yǔ)句。
機(jī)器翻譯單元AllO的功能是接收源語(yǔ)言輸入單元100提供的源語(yǔ)言語(yǔ)句,并將源 語(yǔ)言輸入語(yǔ)句翻譯為目標(biāo)語(yǔ)言,然后,把翻譯結(jié)果輸出到目標(biāo)語(yǔ)言輸出單元120。機(jī)器翻譯 單元AllO的翻譯方法可以多種多樣,可以使用直接翻譯方法、基于轉(zhuǎn)換的機(jī)器翻譯方法、 基于中間語(yǔ)言的機(jī)器翻譯方法、基于語(yǔ)言學(xué)的機(jī)器翻譯方法、基于知識(shí)的機(jī)器翻譯方法、基 于平行語(yǔ)法的機(jī)器翻譯方法、基于實(shí)例的機(jī)器翻譯方法、基于統(tǒng)計(jì)的機(jī)器方法等等。既可 以使用單一形式的機(jī)器翻譯方法,也可以使用多種機(jī)器翻譯方法組成的多引擎機(jī)器翻譯方 法。
目標(biāo)語(yǔ)言輸出單元120接收源語(yǔ)言輸入語(yǔ)句經(jīng)過(guò)機(jī)器翻譯單元110得到的目標(biāo)語(yǔ) 言的翻譯結(jié)果,并把翻譯結(jié)果輸出給機(jī)器翻譯單元B130。目標(biāo)語(yǔ)言輸出單元120還輸出機(jī) 器翻譯單元110的翻譯結(jié)果給用戶(hù),輸出的形式多種多樣,可以是文件輸出,也可以是顯示 器輸出,還可以進(jìn)行語(yǔ)音合成以語(yǔ)音形式輸出等等。
機(jī)器翻譯單元B130的功能是將目標(biāo)語(yǔ)言輸出單元120提供的源語(yǔ)言輸入語(yǔ)句的 翻譯結(jié)果進(jìn)行逆向翻譯,即將前述的機(jī)器翻譯單元AllO的翻譯結(jié)果翻譯成輸入的源語(yǔ)言。 機(jī)器翻譯單元B130的翻譯方法、原理及其系統(tǒng)構(gòu)建方面可以與機(jī)器翻譯單元AllO完全相 同,也可以不同。甚至機(jī)器翻譯單元B130的翻譯方法還可以采用機(jī)器輔助翻譯和人工翻譯的方法。
翻譯結(jié)果評(píng)分單元140,接收機(jī)器翻譯單元B130的輸出結(jié)果的句子和源語(yǔ)言輸入 單元100讀入內(nèi)存中的源語(yǔ)言輸入語(yǔ)句,并通過(guò)計(jì)算兩個(gè)句子之間的相似度對(duì)機(jī)器翻譯單 元AllO的翻譯結(jié)果進(jìn)行評(píng)分,然后,把評(píng)分輸出到輸出單元150。翻譯結(jié)果評(píng)分單元150 的句子間的相似度計(jì)算方法多種多樣,常用的相似度算法如余弦定理、內(nèi)積相似度、Dice 系數(shù)、皮爾森系數(shù)、Jaccard系數(shù)、調(diào)整余弦相似性、Kullback-Leible距離(即KL距離)、 Minkowski距離等等均可以采用,當(dāng)然采用其他方法計(jì)算相似度也是可行的。也可以把源 語(yǔ)言輸入單元100的輸入語(yǔ)句當(dāng)作標(biāo)準(zhǔn)答案,使用BLEU值和NIST值、以及mWER、mPER、GMT 和METEOR等計(jì)算方法對(duì)翻譯結(jié)果進(jìn)行評(píng)價(jià);
輸出單元150接收翻譯結(jié)果評(píng)價(jià)單元140的輸出結(jié)果,并把結(jié)果進(jìn)行輸出處理,輸 出的形式多種多樣,可以是文件輸出,也可以是顯示器輸出,還可以進(jìn)行語(yǔ)音合成以語(yǔ)音形 式輸出等等。同時(shí),輸出結(jié)果還可以根據(jù)需要向源語(yǔ)言用戶(hù)、目標(biāo)語(yǔ)言用戶(hù)中的一方進(jìn)行輸 出或同時(shí)進(jìn)行輸出。
下面,結(jié)合圖3對(duì)本發(fā)明的第一實(shí)施例的處理方法和步驟做詳細(xì)說(shuō)明。
步驟源語(yǔ)言輸入SOl表示源語(yǔ)言句子的輸入,把輸入的句子讀入內(nèi)存,同時(shí)把內(nèi) 存中的句子輸出給步驟機(jī)器翻譯AS02和步驟翻譯結(jié)果評(píng)分S05。以把日語(yǔ)翻譯成漢語(yǔ)的機(jī) 器翻譯系統(tǒng)為例,當(dāng)輸入源語(yǔ)言為“彼ii亀山T t ”時(shí),步驟源語(yǔ)言輸入SOl把該語(yǔ)句讀入 內(nèi)存并輸出給步驟機(jī)器翻譯AS02和步驟翻譯結(jié)果評(píng)分S05。
步驟機(jī)器翻譯AS02接收步驟源語(yǔ)言輸入SOl的輸出,并把讀入的句子翻譯成目標(biāo) 語(yǔ)言。然后,把翻譯結(jié)果輸出給步驟目標(biāo)語(yǔ)言輸出S03。如上所述,以日漢機(jī)器翻譯系統(tǒng)為 例,當(dāng)輸入源語(yǔ)言為“彼ii亀山T t ”時(shí),步驟機(jī)器翻譯AS02接收步驟源語(yǔ)言輸入SOl輸出 的“彼ii亀山T t ”,并把該句子翻譯成漢語(yǔ),如翻譯結(jié)果為“他龜山”時(shí),步驟機(jī)器翻譯AS02 把“他龜山”輸出給步驟目標(biāo)語(yǔ)言輸出S03。
步驟機(jī)器翻譯AS02的翻譯方法多種多樣,可以使用直接翻譯方法、基于轉(zhuǎn)換的機(jī) 器翻譯方法、基于中間語(yǔ)言的機(jī)器翻譯方法、基于語(yǔ)言學(xué)的機(jī)器翻譯方法、基于知識(shí)的機(jī)器 翻譯方法、基于平行語(yǔ)法的機(jī)器翻譯方法、基于實(shí)例的機(jī)器翻譯方法、基于統(tǒng)計(jì)的機(jī)器方法 等等。既可以使用單一形式的機(jī)器翻譯方法,也可以使用多種機(jī)器翻譯方法組成的多引擎 機(jī)器翻譯方法。
步驟目標(biāo)語(yǔ)言輸出S03接收步驟機(jī)器翻譯AS02的輸出,即源語(yǔ)言的目標(biāo)語(yǔ)言翻譯 結(jié)果,并把翻譯結(jié)果輸出到步驟機(jī)器翻譯BS04,同時(shí),步驟目標(biāo)語(yǔ)言輸出S03還可以對(duì)步驟 機(jī)器翻譯AS02的翻譯結(jié)果輸出給用戶(hù),可以以文件輸出,也可以以顯示器輸出,還可以進(jìn) 行語(yǔ)音合成以語(yǔ)音形式輸出等。如上所述,以日漢機(jī)器翻譯系統(tǒng)為例,當(dāng)輸入源語(yǔ)言為“彼 ii亀山T t ”時(shí),步驟目標(biāo)語(yǔ)言輸出S03接收步驟機(jī)器翻譯AS02輸出“他龜山”,即源語(yǔ)言 的目標(biāo)語(yǔ)言翻譯結(jié)果,并把該翻譯結(jié)果輸出到步驟機(jī)器翻譯BS04,同時(shí),步驟目標(biāo)語(yǔ)言輸出 S03還可以把“他龜山,,進(jìn)行輸出。
步驟機(jī)器翻譯BS04接收步驟目標(biāo)語(yǔ)言輸出S03輸出的步驟機(jī)器翻譯AS02的翻譯 結(jié)果,并把讀入的句子翻譯成源語(yǔ)言,然后,把翻譯結(jié)果輸出給步驟翻譯結(jié)果評(píng)分S06。步 驟機(jī)器翻譯BS04的翻譯方法也可以多種多樣,可以和機(jī)器翻譯步驟AS02的機(jī)器翻譯方法 相同,也可以不同。如上所述,以日漢機(jī)器翻譯系統(tǒng)為例,當(dāng)輸入源語(yǔ)言為“彼ii亀山T t ”7時(shí),步驟機(jī)器翻譯BS04接收步驟目標(biāo)語(yǔ)言輸出S03輸出的“他龜山”這一翻譯結(jié)果,然后, 把該句子翻譯成源語(yǔ)言,如該步驟的翻譯結(jié)果為“彼ii亀山”時(shí),然后,把“彼ii亀山,,輸出 給步驟翻譯結(jié)果評(píng)分S06。
步驟翻譯結(jié)果評(píng)分S05接收步驟機(jī)器翻譯BS04的輸出結(jié)果,同時(shí),接受步驟源語(yǔ) 言輸入SOl輸出的源語(yǔ)言句子,然后,計(jì)算兩個(gè)句子之間的相似度,并把計(jì)算得到的相似度 輸出給步驟輸出S06。常用的相似度算法如余弦定理、內(nèi)積相似度、Dice系數(shù)、皮爾森系數(shù)、 Jaccard系數(shù)、調(diào)整余弦相似性、Kullback-Leible距離(即KL距離)、Minkowski距離等 等均可以采用,當(dāng)然采用其他方法計(jì)算相似度也是可行的。此時(shí),為了實(shí)現(xiàn)對(duì)翻譯結(jié)果的定 性分析,可以事先根據(jù)相似度對(duì)翻譯結(jié)果進(jìn)行級(jí)別評(píng)定,如相似度為1時(shí),翻譯結(jié)果的評(píng)級(jí) 可以定位為A級(jí),而把其他評(píng)價(jià)結(jié)果定位不完全正確的B級(jí),或根據(jù)適當(dāng)?shù)南嗨贫鹊拈撝蛋?評(píng)分結(jié)果為正確、基本正確和不正確等三個(gè)級(jí)別等等,當(dāng)然還可以有其他的分級(jí)方式,本方 法都是可以接受的。如上所述,以日漢機(jī)器翻譯系統(tǒng)為例,當(dāng)輸入源語(yǔ)言為“彼ii亀山T t ” 時(shí),步驟翻譯結(jié)果評(píng)分S05接收步驟機(jī)器翻譯BS04的輸出結(jié)果“彼ii亀山”,然后,步驟翻譯 結(jié)果評(píng)分S05通過(guò)計(jì)算句子“彼ii亀山”,以及源語(yǔ)言輸入語(yǔ)句“彼ii亀山T t”之間的相似 度,當(dāng)使用余弦定理進(jìn)行相似度技術(shù)時(shí)可得到如下結(jié)果
余弦定理公式的描述如下
π (S) = (WijW2,. . .WJ...............................................(1)
其中S表示句子,W1為句子中的單詞。
Sims(SljS2) = 2 * Γ ( ji (S1) Π Ji (S2)) / (Len (S1) +Len (S2)) .............(2)
其中Π表示集合的求交運(yùn)算。Γ運(yùn)算符表示求集合中的元素個(gè)數(shù),Len表示句子 的長(zhǎng)度,即句子中含有的單詞數(shù)。計(jì)算源語(yǔ)言輸入語(yǔ)句“彼ii亀山τ t ”和步驟機(jī)器翻譯 BS04的翻譯結(jié)果“彼ii亀山”之間的相似度時(shí),可以得到如下結(jié)果
首先,對(duì)兩個(gè)句子分詞得到結(jié)果
彼/ii/亀山/Tt
彼/ii/亀山
通過(guò)計(jì)算,句子“彼ii亀山T t”和“彼ii亀山”時(shí)的相似度為
Sims (S1, S2) = 2 * 3/7 = 0. 8571428571
步驟輸出S06接收步驟翻譯結(jié)果評(píng)分S05的輸出結(jié)果,并將結(jié)果輸出,其形式多種 多樣,可以是文件、顯示器輸出、合成語(yǔ)音等形式。同時(shí),輸出結(jié)果還可以根據(jù)需要向源語(yǔ)言 用戶(hù)、目標(biāo)語(yǔ)言用戶(hù)中的一方進(jìn)行輸出或同時(shí)進(jìn)行輸出。例如向用戶(hù)輸入目標(biāo)語(yǔ)言輸出S03 的輸出結(jié)果“他龜山”,同時(shí)向用戶(hù)輸出可信度為85. 7%。
同理,當(dāng)輸入語(yǔ)句為“彼ii教師T t ”時(shí),經(jīng)過(guò)步驟機(jī)器翻譯AS02的翻譯結(jié)果為 “他是教師”,然后,經(jīng)過(guò)步驟機(jī)器翻譯BS04的翻譯處理,結(jié)果為“彼ii教師T t ”時(shí),兩個(gè)句 子之間的相似度
Sims (S1, S2) = 2 6/12 = 1
步驟輸出S06向用戶(hù)輸出目標(biāo)語(yǔ)言輸出S03所得到的目標(biāo)語(yǔ)言,并同時(shí)輸出句子 可信度為100%。
如上所述,針對(duì)當(dāng)前的機(jī)器翻譯系統(tǒng)而言,該方法具有非??捎^的效果(在沒(méi)有 參考翻譯結(jié)果的情況下,系統(tǒng)可以自動(dòng)地為用戶(hù)提供翻譯結(jié)果的信賴(lài)度指標(biāo)),特別是針對(duì)8當(dāng)前的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)而言,效果更為顯著。
下面結(jié)合圖2對(duì)本發(fā)明的第二實(shí)施例的機(jī)器翻譯測(cè)評(píng)裝置進(jìn)行詳細(xì)說(shuō)明。
如圖2所示,機(jī)器翻譯測(cè)評(píng)裝置包括源語(yǔ)言輸入單元100 ;機(jī)器翻譯單元AllO ; 目標(biāo)語(yǔ)言輸出單元120 ;機(jī)器翻譯單元B130 ;翻譯結(jié)果評(píng)分單元140 ;輸出單元150 ;源語(yǔ)言 語(yǔ)言模型1010。
本實(shí)施例和第一實(shí)施例的不同點(diǎn)在于增加了源語(yǔ)言語(yǔ)言模型1010,其他的構(gòu)成要 素和單元都是一樣的。
源語(yǔ)言語(yǔ)言模型1010的功能是為翻譯結(jié)果評(píng)分單元140提供對(duì)輸入的源語(yǔ)言語(yǔ) 句和機(jī)器翻譯單元B130的翻譯結(jié)果進(jìn)行評(píng)分計(jì)算的語(yǔ)言模型。源語(yǔ)言語(yǔ)言模型可以多種 多樣,只要能夠?qū)崿F(xiàn)對(duì)輸入的源語(yǔ)言句子和機(jī)器翻譯單元B130的翻譯結(jié)果進(jìn)行評(píng)分即可。 評(píng)分的算法也可以根據(jù)具體的語(yǔ)言模型的結(jié)構(gòu)和形式采用相應(yīng)的計(jì)算方法。如使用N元模 型、決策樹(shù)模型等等均可。
當(dāng)使用源語(yǔ)言語(yǔ)言模型1010時(shí),翻譯結(jié)果評(píng)分單元可以分別使用言語(yǔ)模型,對(duì)源 語(yǔ)言輸入單元100輸入的源語(yǔ)言語(yǔ)句和機(jī)器翻譯單元B130的翻譯結(jié)果分別根據(jù)源語(yǔ)言語(yǔ) 言模型1010中的模型分別對(duì)句子進(jìn)行計(jì)算和打分。然后,再計(jì)算兩個(gè)句子的權(quán)重的和、差、 積、商、對(duì)數(shù)運(yùn)算或指數(shù)運(yùn)算中的任意一種、或一種以上的計(jì)算方法,對(duì)翻譯結(jié)果進(jìn)行評(píng)價(jià)。
如以使用源語(yǔ)言語(yǔ)言模型1010的源語(yǔ)言模型為N元語(yǔ)法模型(n-grammodel) 時(shí),可以根據(jù)N元模型計(jì)算句子的概率,其基本思想為將語(yǔ)言模型構(gòu)建為字符串 s的概率分布p(s),這里P(S)反映的是字符串s作為一個(gè)句子出現(xiàn)的概率。假定 s 由多個(gè)詞組成,即 s = W1 W2 W3 W1. . . W1,貝丨J P(S)=P(W1)POv2 \wj)p(w3ιyv2)...p(wi \wj...Wi.j)=YI p(Wi \wj...wi.j)。通常一個(gè)詞的出現(xiàn)僅與前 n-1 個(gè)詞有關(guān)Z=I系,將這樣的語(yǔ)言模型稱(chēng)為η元語(yǔ)法模型,即一個(gè)詞出現(xiàn)的概率只依賴(lài)于它前面的n-1個(gè)詞,同時(shí),在句子開(kāi)頭加上句首標(biāo)記<B0S>,在句子結(jié)尾加上句尾標(biāo)記<E0S>,那么則 / /+1有/^>=Π的…約(乂κ丄)。計(jì)算(,、時(shí)采用最大似然估計(jì),即 ;=I;=IPywi IP{W'lW'-"+l)~^c(w +1) °實(shí)際計(jì)算中會(huì)出現(xiàn)某個(gè) .為ο階清況,從胃導(dǎo).P (s)= ‘Piwi IK-L1)0。而事實(shí)上某個(gè)字符串s總有出現(xiàn)的可能,其概率應(yīng)該大于0,因而必須采用平滑技術(shù),D(w !ν'-1 )= l + c(Wi_lWi) = l + cjw^w,) 使P (s)的概率不為0,例如加1法,于是風(fēng)叫1 U “ ^[l + c^iv,.)] ~\V\ +Xc(^1Ivi) °其它一些主要的數(shù)據(jù)平滑方法包括加法平滑法、Good-Turing估計(jì)法、Katz平滑法、 Jelinek-Mercer 平滑法、Witten-Bell 平滑法等。
為解釋源語(yǔ)言評(píng)分單元過(guò)程,將假定源語(yǔ)言輸入語(yǔ)句為英語(yǔ),在此基礎(chǔ)上結(jié)合平 滑技術(shù)建立η元語(yǔ)法模型。例如,假設(shè)訓(xùn)練語(yǔ)料由以下3個(gè)句子構(gòu)成
"John read the Moby Dick,,,
"Mary read a different book",
"She read a book by Cher"
當(dāng)輸入語(yǔ)句為“ John read the book”時(shí),建立3元語(yǔ)法模型,使用加1平滑法進(jìn) 行數(shù)據(jù)平滑,計(jì)算語(yǔ)句在源語(yǔ)言模型中的概率
權(quán)利要求
1.一種機(jī)器翻譯測(cè)評(píng)裝置,其特征在于,包括第一翻譯單元,用于對(duì)輸入的源語(yǔ)言進(jìn)行機(jī)器翻譯,并生成目標(biāo)語(yǔ)言;第二翻譯單元,用于把所述目標(biāo)語(yǔ)言逆向翻譯成源語(yǔ)言;源語(yǔ)言語(yǔ)言模型,對(duì)輸入的源語(yǔ)言和第二翻譯單元的逆向翻譯結(jié)果分別進(jìn)行評(píng)分;以及評(píng)價(jià)單元,用于根據(jù)所述源語(yǔ)言語(yǔ)言模型的評(píng)分比較所述輸入的源語(yǔ)言和第二翻譯單 元的逆向翻譯結(jié)果之間的相似度,對(duì)所述機(jī)器翻譯進(jìn)行評(píng)價(jià)。
2.根據(jù)權(quán)利要求1所述的機(jī)器翻譯測(cè)評(píng)裝置,其特征在于,還包括源語(yǔ)言輸入單元, 用于接收所述輸入的源語(yǔ)言;以及目標(biāo)語(yǔ)言輸出單元,將所述目標(biāo)語(yǔ)言輸出給所述第二翻 譯單元。
3.根據(jù)權(quán)利要求1所述的機(jī)器翻譯測(cè)評(píng)裝置,其特征在于,所述源語(yǔ)言語(yǔ)言模型通過(guò) 計(jì)算句子的概率來(lái)提供評(píng)分。
4.根據(jù)權(quán)利要求1所述的機(jī)器翻譯測(cè)評(píng)裝置,其特征在于,所述源語(yǔ)言語(yǔ)言模型是詞、 詞類(lèi)、語(yǔ)義屬性中的任意的一種或組合,或是N元語(yǔ)法模型;根據(jù)對(duì)輸入的源語(yǔ)言的評(píng)分和 對(duì)第二翻譯單元的逆向翻譯結(jié)果的評(píng)分之間的和、差、積、商、對(duì)數(shù)、指數(shù)中的任意一種或組 合,所述評(píng)價(jià)單元對(duì)所述機(jī)器翻譯進(jìn)行評(píng)價(jià)。
5.根據(jù)權(quán)利要求1-4其中之一所述的機(jī)器翻譯測(cè)評(píng)裝置,其特征在于所述第一翻譯 單元采用的機(jī)器翻譯方法是直接翻譯方法、基于轉(zhuǎn)換的機(jī)器翻譯方法、基于中間語(yǔ)言的機(jī) 器翻譯方法、基于語(yǔ)言學(xué)的機(jī)器翻譯方法、基于知識(shí)的機(jī)器翻譯方法、基于平行語(yǔ)法的機(jī)器 翻譯方法、基于實(shí)例的機(jī)器翻譯方法、基于統(tǒng)計(jì)的機(jī)器翻譯方法中的其中之一或者組合;所 述第二翻譯單元采用的逆向翻譯方法是直接翻譯方法、基于轉(zhuǎn)換的機(jī)器翻譯方法、基于中 間語(yǔ)言的機(jī)器翻譯方法、基于語(yǔ)言學(xué)的機(jī)器翻譯方法、基于知識(shí)的機(jī)器翻譯方法、基于平行 語(yǔ)法的機(jī)器翻譯方法、基于實(shí)例的機(jī)器翻譯方法、基于統(tǒng)計(jì)的機(jī)器翻譯方法中的其中之一 或者組合。
6.一種機(jī)器翻譯測(cè)評(píng)方法,其特征在于,包括下列步驟對(duì)輸入的源語(yǔ)言進(jìn)行機(jī)器翻譯,并生成目標(biāo)語(yǔ)言;將所述目標(biāo)語(yǔ)言逆向翻譯成源語(yǔ)言;根據(jù)源語(yǔ)言語(yǔ)言模型對(duì)輸入的源語(yǔ)言和逆向翻譯結(jié)果分別進(jìn)行評(píng)分;根據(jù)所述源語(yǔ)言語(yǔ)言模型的評(píng)分比較所述輸入的源語(yǔ)言和逆向翻譯結(jié)果之間的相似 度,對(duì)所述機(jī)器翻譯進(jìn)行評(píng)價(jià)。
7.根據(jù)權(quán)利要求6所述的機(jī)器翻譯測(cè)評(píng)方法,其特征在于,采用源語(yǔ)言輸入單元接收 所述輸入的源語(yǔ)言;以及采用目標(biāo)語(yǔ)言輸出單元啟動(dòng)逆向翻譯。
8.根據(jù)權(quán)利要求6所述的機(jī)器翻譯測(cè)評(píng)方法,其特征在于,所述源語(yǔ)言語(yǔ)言模型通過(guò) 計(jì)算句子的概率來(lái)提供評(píng)分。
9.根據(jù)權(quán)利要求6所述的機(jī)器翻譯測(cè)評(píng)方法,其特征在于,所述源語(yǔ)言語(yǔ)言模型是詞、 詞類(lèi)、語(yǔ)義屬性中的任意的一種或組合,或是N元語(yǔ)法模型;根據(jù)對(duì)輸入的源語(yǔ)言的評(píng)分和 逆向翻譯結(jié)果的評(píng)分之間的和、差、積、商、對(duì)數(shù)、指數(shù)中的任意一種或組合,所述評(píng)價(jià)單元 對(duì)所述機(jī)器翻譯進(jìn)行評(píng)價(jià)。
10.根據(jù)權(quán)利要求6-9其中之一所述的機(jī)器翻譯測(cè)評(píng)方法,其特征在于所述機(jī)器翻譯方法是直接翻譯方法、基于轉(zhuǎn)換的機(jī)器翻譯方法、基于中間語(yǔ)言的機(jī)器翻譯方法、基于語(yǔ)言 學(xué)的機(jī)器翻譯方法、基于知識(shí)的機(jī)器翻譯方法、基于平行語(yǔ)法的機(jī)器翻譯方法、基于實(shí)例的 機(jī)器翻譯方法、基于統(tǒng)計(jì)的機(jī)器翻譯方法中的其中之一或者組合;所述逆向翻譯方法是直 接翻譯方法、基于轉(zhuǎn)換的機(jī)器翻譯方法、基于中間語(yǔ)言的機(jī)器翻譯方法、基于語(yǔ)言學(xué)的機(jī)器 翻譯方法、基于知識(shí)的機(jī)器翻譯方法、基于平行語(yǔ)法的機(jī)器翻譯方法、基于實(shí)例的機(jī)器翻譯 方法、基于統(tǒng)計(jì)的機(jī)器翻譯方法中的其中之一或者組合。
全文摘要
一種機(jī)器翻譯測(cè)評(píng)裝置,包括第一翻譯單元,用于對(duì)輸入的源語(yǔ)言進(jìn)行機(jī)器翻譯,并生成目標(biāo)語(yǔ)言;第二翻譯單元,用于把所述目標(biāo)語(yǔ)言逆向翻譯成源語(yǔ)言;源語(yǔ)言語(yǔ)言模型,對(duì)輸入的源語(yǔ)言和第二翻譯單元逆向翻譯的結(jié)果分別進(jìn)行評(píng)分;以及評(píng)價(jià)單元,用于根據(jù)所述源語(yǔ)言語(yǔ)言模型的評(píng)分比較所述輸入的源語(yǔ)言和第二翻譯單元的逆向翻譯結(jié)果之間的相似度,對(duì)所述機(jī)器翻譯進(jìn)行評(píng)價(jià)。根據(jù)本發(fā)明,可以在不存在參考譯文或標(biāo)準(zhǔn)翻譯結(jié)果的情況下,對(duì)翻譯結(jié)果進(jìn)行評(píng)分,提供機(jī)器翻譯結(jié)果的信賴(lài)度,在實(shí)用層面上解決了翻譯結(jié)果評(píng)價(jià)困難的問(wèn)題,為包括語(yǔ)音自動(dòng)翻譯在內(nèi)的機(jī)器翻譯系統(tǒng)提供高效可信的機(jī)器翻譯結(jié)果。
文檔編號(hào)G06F17/28GK102043774SQ20111000619
公開(kāi)日2011年5月4日 申請(qǐng)日期2011年1月13日 優(yōu)先權(quán)日2011年1月13日
發(fā)明者徐金安, 陳亮 申請(qǐng)人:北京交通大學(xué)