專(zhuān)利名稱(chēng):一種機(jī)器翻譯方法
技術(shù)領(lǐng)域:
本發(fā)明屬于自然語(yǔ)言處理技術(shù)領(lǐng)域,具體地說(shuō),本發(fā)明涉及一種基于 樹(shù)的統(tǒng)計(jì)機(jī)器翻譯技術(shù)領(lǐng)域。
背景技術(shù):
基于句法的統(tǒng)計(jì)機(jī)器翻譯模型已經(jīng)成為當(dāng)前主流的翻譯方法,按照輸 入的不同,可以分為基于串的模型和基于樹(shù)的模型(基于樹(shù)的模型可參考 Yang Liu, Qun Liu, and Shouxun Lin, 2006. Tree-tostring alignment template for statistical machinetranslation. In Proceedings of COLING-ACL, pages 609^616, Sydney, Australia, July. 禾口 Liang H uang, Kevin Knight, and Aravind Joshi. 2006.Statistical syntax-directed translation with extended domain of locality. In Proceedings of AMTA. )。與基于串的模型相比,基于樹(shù)的模型以 句法樹(shù)作為輸入,優(yōu)點(diǎn)是解碼速度快、模型簡(jiǎn)潔、不需要二叉化;然而 該模型有一個(gè)缺陷只使用單棵句法樹(shù)來(lái)指導(dǎo)翻譯,由于基于句法的模型 對(duì)句法分析性能很敏感,導(dǎo)致句法分析錯(cuò)誤會(huì)引入錯(cuò)誤的翻譯。 一種簡(jiǎn)單 的方法是使用N-best樹(shù),對(duì)每棵樹(shù)都解碼,最后輸出概率最高的翻譯結(jié)果, 但這種方法搜索空間有限,并且不能共享不同樹(shù)相同的節(jié)點(diǎn),導(dǎo)致許多節(jié) 點(diǎn)要重復(fù)解碼,既浪費(fèi)空間又消耗時(shí)間。同時(shí),這種基于樹(shù)的統(tǒng)計(jì)機(jī)器翻 譯系統(tǒng)由于只使用單棵句法樹(shù)指導(dǎo)翻譯,往往會(huì)出現(xiàn)翻譯錯(cuò)誤率過(guò)高的問(wèn) 題。發(fā)明內(nèi)容本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足,結(jié)合共享壓縮森林技術(shù),提出 一種能夠提高翻譯性能,降低翻譯時(shí)間和存儲(chǔ)空間消耗的機(jī)器翻譯方法。 為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明提供的機(jī)器翻譯方法,包括以下步驟 步驟l)分析源語(yǔ)言串,得到源語(yǔ)言串的共享壓縮句法森林; 步驟2)根據(jù)已知的源語(yǔ)言與目標(biāo)語(yǔ)言之間的翻i奪規(guī)則集合,對(duì)句法 森林進(jìn)行匹配,得到共享壓縮翻譯森林;所述共享壓縮翻譯森林是一個(gè)圖 G-(節(jié)點(diǎn)集合V,翻譯超邊集合E)。其中,節(jié)點(diǎn)是具有句法意義的節(jié)點(diǎn);
翻譯超邊是一個(gè)三元組(翻譯規(guī)則,頭節(jié)點(diǎn),尾節(jié)點(diǎn)集合),翻譯規(guī)則描述了源語(yǔ)言與目標(biāo)語(yǔ)言對(duì)齊關(guān)系。共享壓縮翻譯森林表示了源語(yǔ)言到目標(biāo)語(yǔ) 言的推導(dǎo)過(guò)程。步驟3)利用搜索算法遍歷所述翻譯森林生成最終翻譯結(jié)果。 上述技術(shù)方案中,所述步驟1)中,還包括對(duì)所述共享壓縮句法森林進(jìn)行剪枝處理;所述步驟2)中,進(jìn)行匹配的所述句法森林是經(jīng)過(guò)剪枝處理后的共享壓縮句法森林。上述技術(shù)方案中,所述剪枝處理的方法是對(duì)于共享壓縮句法森林中的每個(gè)節(jié)點(diǎn)v,計(jì)算Viterbi向內(nèi)概率負(fù)對(duì)數(shù)(3 (v)、向外概率負(fù)對(duì)數(shù)oc(v);對(duì)于每個(gè)句法超邊ep依次計(jì)算5( )"(TOP)如果"e》小于預(yù)先設(shè)定的閾值t,則保留超邊ep,否則刪除;其中Head(ep)表示超邊ep的頭節(jié)點(diǎn),Tails (ep)表示超邊e。的尾節(jié)點(diǎn)集合,風(fēng)TOP)為l-best句法樹(shù)概率之負(fù)對(duì)數(shù)值。上述技術(shù)方案中,所述步驟1)中,通過(guò)句法分析器對(duì)源語(yǔ)言串進(jìn)行分析,所述句法分析器是Charniak parser、Bikel Parser、 Stanford parser、Collins Parser或MuskCpars句法分析器。上述技術(shù)方案中,所述步驟2)中,所述源語(yǔ)言與目標(biāo)語(yǔ)言之間的翻譯規(guī)則集合中的翻譯規(guī)則從包含三元組的語(yǔ)料庫(kù)中抽取得出,所述三元組是源語(yǔ)言樹(shù)或串,目標(biāo)語(yǔ)言串或樹(shù)以及源語(yǔ)言與目標(biāo)語(yǔ)言間的詞語(yǔ)對(duì)齊方式。 上述技術(shù)方案中,所述翻譯規(guī)則采用GHKM算法進(jìn)行抽取。 上述技術(shù)方案中,所述步驟3)中,遍歷句法分析森林中的每個(gè)節(jié)點(diǎn),使用枚舉的方式對(duì)翻譯規(guī)則集合和句法森林進(jìn)行匹配,得到每個(gè)節(jié)點(diǎn)的翻譯超邊和與其相應(yīng)的首尾節(jié)點(diǎn),從而組成翻譯森林。本發(fā)明具有如下技術(shù)效果本發(fā)明利用共享壓縮森林來(lái)指導(dǎo)翻譯,能夠從大量的樹(shù)中搜索翻譯結(jié) 果,遠(yuǎn)遠(yuǎn)超過(guò)了單獨(dú)使用N-best樹(shù)的搜索空間。在223萬(wàn)平行雙語(yǔ)語(yǔ)料數(shù) 據(jù)集上,與使用30-best樹(shù)解碼的模型相比,本發(fā)明的翻譯速度快1.4倍、
翻譯性能高1.7個(gè)BLEU點(diǎn)。
以下,結(jié)合附圖來(lái)詳細(xì)說(shuō)明本發(fā)明的實(shí)施例,其中 圖1為本發(fā)明提供的基于共享壓縮森林機(jī)器翻譯方法總體技術(shù)方案的 實(shí)現(xiàn)流程圖;圖2為三元組實(shí)例;三元組包括源語(yǔ)言樹(shù),目標(biāo)語(yǔ)言串,源語(yǔ)言與目 標(biāo)語(yǔ)言間的詞語(yǔ)對(duì)齊; 圖3為翻譯規(guī)則實(shí)例; 圖4為共享壓縮句法森林實(shí)例; 圖5為共享壓縮翻譯森林實(shí)例。
具體實(shí)施方式
如圖1所示,圖1為本發(fā)明提供的基于共享壓縮森林的機(jī)器翻譯解碼方 法總體技術(shù)方案的實(shí)現(xiàn)流程圖,該方法包括以下步驟步驟101 )、利用句法分析器分析源語(yǔ)言串并輸出共享壓縮句法森林; 句法分析的主要任務(wù)是將輸入的源語(yǔ)言串分析出相應(yīng)的句法樹(shù)??捎玫?短語(yǔ)樹(shù)句法分析器Charniak parser、 Bikel Parser、 Stanford parser、 Collins Parser、 MuskCpars;句法分析器不^義要輸出l-best樹(shù),而且要輸 出整個(gè)共享壓縮森林,即最終生成根節(jié)點(diǎn)的所有可能的句法分析樹(shù)組成的 共享壓縮森林。本實(shí)施例中,采用的是MuskCpar分析器可參考Deyi xi。n&Shuanglong Li, Qun Liu, Shouxun Lin, Yueliang Qian.2005. Parsing the Penn Chinese Treebank with Semantic Knowledge.In Proceedings of IJCNLP05, Jeju Island, Korea 。 圖4給出了一個(gè)句法森 林實(shí)例節(jié)點(diǎn)IP。,6表示該節(jié)點(diǎn)標(biāo)記為IP,跨度為0到6;超邊e^表示一個(gè) 語(yǔ)法規(guī)則IP。,6(NPBM VPlJ;對(duì)于每個(gè)超邊,用Head(epl)表示頭節(jié)點(diǎn) Head(epl)=IP。,6, Tails (ej表示尾節(jié)點(diǎn)集合:Tails (epl)-{跳山VPM}。 一 個(gè)或多個(gè)相互連接的超邊形成句法分析子樹(shù)片段。句法分析器要輸出共享句 法分析森林,具體實(shí)施方案從根節(jié)點(diǎn)開(kāi)始遞歸輸出所有節(jié)點(diǎn)和相應(yīng)的句法 分析超邊。這些節(jié)點(diǎn)與超邊組成共享壓縮句法森林。步驟102)、利用剪枝算法生成剪枝后共享壓縮句法森林;步驟101輸出的整個(gè)共享壓縮森林含有大量概率很低的垃圾超邊和節(jié)
點(diǎn),需利用剪枝算法進(jìn)行縮減,具體剪枝算法如下首先,對(duì)于共享壓縮句法森林中的每個(gè)節(jié)點(diǎn)v,計(jì)算Viterbi向內(nèi)概率 負(fù)對(duì)數(shù)P(v)、向外概率負(fù)對(duì)數(shù)a(v);再對(duì)于每個(gè)句法超邊ep依次計(jì)算<formula>formula see original document page 7</formula>
其中風(fēng)TOP)為1-best句法樹(shù)概率之負(fù)對(duì)數(shù)值,如果5(e》小于預(yù)先"i殳定 的閾值t,則保留超邊ep,否則刪除。最終將留下的超邊和與之相關(guān)的節(jié)點(diǎn) 組成剪枝后的共享壓縮句法森林。該方法的特點(diǎn)是對(duì)每一條句法超邊進(jìn)行 Viterbi向內(nèi)向外概率計(jì)算,而不是對(duì)每一個(gè)節(jié)點(diǎn)進(jìn)行計(jì)算,這樣能剪掉更 多的垃圾超邊,使得剪枝處理更加有效。本步驟中向內(nèi)概率負(fù)對(duì)數(shù)P (v)、 向外概率負(fù)對(duì)數(shù)a (v)的計(jì)算方法可參考 Charniak, Eugene. 1993. Statistical Language Learning, MIT Press. Cambridge, Massachusetts.步驟103)、根據(jù)源語(yǔ)言與目標(biāo)語(yǔ)言之間的翻譯規(guī)則集合,對(duì)句法森林 進(jìn)行匹配,得到共享壓縮翻譯森林。以共享壓縮句法森林與翻譯規(guī)則集合沢作為輸入,利用轉(zhuǎn)換算法生成翻 譯森林。其中,共享壓縮句法森林為步驟102)的輸出;翻譯規(guī)則集合5R可 通過(guò)以下現(xiàn)有技術(shù)得到主要是從三元組(源語(yǔ)言樹(shù)或串,目標(biāo)語(yǔ)言串或樹(shù), 源語(yǔ)言與目標(biāo)語(yǔ)言的詞語(yǔ)對(duì)齊)中抽取相應(yīng)的翻譯規(guī)則,使用GHKM算法抽耳又。GHKM算'法可參考Michel Galley, Mark Hopkins, Kevin Knight, and Daniel Marcu. 2004. What's in a translation rule In Proceedings of the Human Language Technology Conference/North American Chapter of the Association forComputational Linguistics (HLT/NAACL).圖2給出了 一個(gè)實(shí)例(源語(yǔ)言為漢語(yǔ)、目標(biāo)語(yǔ)言為英語(yǔ)),利用GHKM算 法可以抽出翻譯規(guī)則。表l中是部分抽出的翻i爭(zhēng)譯規(guī)則 r產(chǎn)VPB(VV(juxing) AS(le) x。NPB)+held a x。翻譯譯規(guī)rl的左部LHS(rl)為一個(gè)樹(shù)結(jié)構(gòu),如圖3所示,規(guī)則尾節(jié)點(diǎn)集 合Tails(rl): {NPB};表示當(dāng)源語(yǔ)言端樹(shù)結(jié)構(gòu)為VPB(VV(juxing) AS(le) NPB),且NPB節(jié)點(diǎn)的翻譯結(jié)果為"meeting"時(shí),VPB覆蓋部分的翻譯結(jié)果 held a meeting。表l
Tmnslation rule ~~VPB(VV(/fe勿g) AS(fe) a :NPB) 4 held a an r2 NPB麵:NR) ~> $1r3 服(她帥~ Bushr4 CC(一詢(xún)4銜ith本實(shí)施例中,通過(guò)枚舉的方式對(duì)翻譯規(guī)則集合和句法森林進(jìn)行匹配。 具體方法如下按照先續(xù)順序遍歷句法分析森林中的每個(gè)節(jié)點(diǎn)v,在對(duì)每一個(gè)以v為根節(jié)點(diǎn)的句法分析超邊e進(jìn)行如下操作1、 在翻"i奪規(guī)則集合W中,查找所有以v的句法標(biāo)記為根節(jié)點(diǎn)且能 夠覆蓋e表示的語(yǔ)法規(guī)則的翻譯規(guī)則re5R,即'.e表示的語(yǔ)法規(guī)則為 LHS(r)的子樹(shù)片段(子樹(shù)片段是指森林或樹(shù)中連續(xù)節(jié)點(diǎn)、邊組成的子 圖);2、 對(duì)每一個(gè)翻譯規(guī)則r的LHS(r),按照先續(xù)遍歷LHS(r)每個(gè)節(jié) 點(diǎn)并從v節(jié)點(diǎn)開(kāi)始匹配,先查看LHS(r)的#^節(jié)點(diǎn)是否與v節(jié)點(diǎn)一致, 再查看孩子節(jié)點(diǎn)是否一致,如果一致則繼續(xù)匹配下一個(gè)孩子節(jié)點(diǎn),直 到LHS(r)被遍歷完,如果不一致,則返回匹配失敗信息。如果匹配成 功則生成一個(gè)翻譯超邊e;翻譯超邊是一個(gè)三元組(翻譯規(guī)則,頭節(jié) 點(diǎn),尾節(jié)點(diǎn)集合)。例當(dāng)搜索到圖4中的IP。,6節(jié)點(diǎn)時(shí),翻譯規(guī)則r5: IP(Xl:NPB x2: VP)+x,X2與子樹(shù)片段IP。,6 (NPB。,, VPJ完全匹配,即 所有規(guī)則左部樹(shù)結(jié)構(gòu)(IP(NPB VP))與子樹(shù)片段(IP(NPB VP))樹(shù)結(jié)構(gòu)及 對(duì)應(yīng)節(jié)點(diǎn)句法標(biāo)記都相同,貝'j生成翻i爭(zhēng)超邊e產(chǎn)(r5, IP。,6, (NPB(u,VPj)。翻譯超邊與翻譯規(guī)則對(duì)應(yīng)關(guān)系可參考表2。3、 如果2中所有匹配都失敗,將根據(jù)以v為根節(jié)點(diǎn)的所有句法超 邊生成相應(yīng)的缺省翻譯超邊。如如果VPBw沒(méi)有可用翻譯規(guī)則,則 根據(jù)句法超邊ep2=P3.6(VV3,4 AS4,5 NPBs,6)生成相應(yīng)的翻譯超邊etl=(P3,6VVM x2: AS4,5 x3: NPB5,6) —Xlx2x3, IP3,6, {VV3,4 AS4,5 NPB5,6}),即我們認(rèn) 為該翻譯超邊進(jìn)行順序翻譯。 遍歷句法分析森林中的每個(gè)節(jié)點(diǎn)后,得到每個(gè)節(jié)點(diǎn)的翻譯超邊和與其相 應(yīng)的首尾節(jié)點(diǎn),從而組成翻譯森林(如圖5所示)。表2traasla.tion hyperedge_translation rule_^ ^ IP(a^:NPB x2:W) — :r2e2 f 6 IP":NP a:2:WB5 x2e3 'r 9W(PP(P〔詢(xún)& :NPB) VPB(W(/^wg;) AS(fe) x2:NPB)) — held :r2 w池.ne5 rs NP(uNPBCCW);r2:NPB)—si and;r2e6 '7、 VPB(W(/她g) AS(ie) a、 :NPB) — held a a、步驟104)、利用柱狀解碼算法遍歷壓縮森林并生成最終翻譯結(jié)果。 以步驟103輸出的共享壓縮翻譯森林作為輸入,利用搜索算法生成最終的翻譯結(jié)果,具體過(guò)程如下按照后續(xù)遍歷順序,自底向上對(duì)于共享壓縮翻譯森林中的每個(gè)節(jié)點(diǎn)v, 對(duì)所有的Head(eJ-v的翻譯超邊et,生成相應(yīng)的翻譯假設(shè),再根據(jù)柱狀圖, 按照預(yù)先設(shè)定的閾值剪枝,即與最高翻譯假設(shè)得分差值超過(guò)某一個(gè)設(shè)定值 則會(huì)被剪掉。最終輸出翻譯假設(shè)得分最高的翻譯結(jié)果。柱狀圖解碼算法以及該解碼算法中涉及到的翻譯假設(shè)得分和柱狀圖等概念可以參考Philipp Koehn. 2004. Pharaoh: a beam search decoder for phrase-based statistical machine translation models. In Proceedings of AMTA, pages 115—124.最后所應(yīng)說(shuō)明的是,以上僅用以說(shuō)明本發(fā)明理論原理和技術(shù)方案而非限 制。本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,對(duì)本發(fā)明的技術(shù)方案進(jìn)行修改或者等 同替換,都不脫離本發(fā)明技術(shù)方案的精神和范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán) 利要求范圍當(dāng)中。
權(quán)利要求
1. 一種機(jī)器翻譯方法,包括以下步驟步驟1)分析源語(yǔ)言串,得到源語(yǔ)言串的共享壓縮句法森林;步驟2)根據(jù)已知的源語(yǔ)言與目標(biāo)語(yǔ)言之間的翻譯規(guī)則集合,對(duì)句法森林進(jìn)行匹配,得到共享壓縮翻譯森林;步驟3)利用搜索算法遍歷所述翻譯森林生成最終翻譯結(jié)果。
2. 根據(jù)權(quán)利要求1所述的機(jī)器翻譯方法,其特征在于,所述步驟l) 中,還包括對(duì)所述共享壓縮句法森林進(jìn)行剪枝處理;所述步驟2)中,進(jìn) 行匹配的所述句法森林是經(jīng)過(guò)剪枝處理后的共享壓縮句法森林。
3. 根據(jù)權(quán)利要求2所述的機(jī)器翻譯方法,其特征在于,所述剪枝處理 的方法是對(duì)于共享壓縮句法森林中的每個(gè)節(jié)點(diǎn)v,計(jì)算Viterbi向內(nèi)概率 負(fù)對(duì)數(shù)(3(v)、向外概率負(fù)對(duì)數(shù)a(v);對(duì)于每個(gè)句法超邊e。依次計(jì)算 》="(/W(^))+Z 則 M )二"/ ( )-風(fēng)TOP)如果5( )小于預(yù)先設(shè)定的閾值t,則保留超邊ep,否則刪除; 其中Head(e》表示超邊ep的頭節(jié)點(diǎn),TaiIs (ep)表示超邊ep的尾節(jié)點(diǎn)集 合,風(fēng)TOP)為I-best句法樹(shù)概率之負(fù)對(duì)數(shù)值。
4. 根據(jù)權(quán)利要求1所述的機(jī)器翻譯方法,其特征在于,所述步驟l) 中,通過(guò)句法分析器對(duì)源語(yǔ)言串進(jìn)行分析,所述句法分析器是Charniak parser、 Bikel Parser、 Stanford parser、 Collins Parser或MuskCpars 句法分析器。
5. 根據(jù)權(quán)利要求1所述的機(jī)器翻譯方法,其特征在于,所述步驟2) 中,所述源語(yǔ)言與目標(biāo)語(yǔ)言之間的翻譯規(guī)則集合中的翻譯規(guī)則從包含三元 組的語(yǔ)料庫(kù)中抽取得出,所述三元組是源語(yǔ)言樹(shù)或串,目標(biāo)語(yǔ)言串或樹(shù)以及 源語(yǔ)言與目標(biāo)i吾言間的詞語(yǔ)對(duì)齊方式。
6. 根據(jù)權(quán)利要求5所述的機(jī)器翻譯方法,其特征在于,所述翻譯規(guī) 則釆用GHKM算法進(jìn)行抽取。
7. 根據(jù)權(quán)利要求5所述的機(jī)器翻譯方法,其特征在于,所述步驟3) 中,遍歷句法分析森林中的每個(gè)節(jié)點(diǎn),使用枚舉的方式對(duì)翻譯規(guī)則集合和句法森林進(jìn)行匹配,得到每個(gè)節(jié)點(diǎn)的翻譯超邊和與其相應(yīng)的首尾節(jié)點(diǎn),從而 組成翻if森4木。
8.根據(jù)權(quán)利要求1所述的機(jī)器翻譯方法,其特征在于,所述步驟2) 中,所述共享壓縮翻譯森林是一個(gè)圖G二(節(jié)點(diǎn)集合V,翻譯超邊集合E), 其中,所述節(jié)點(diǎn)是具有句法意義的節(jié)點(diǎn);所述翻"^超邊是一個(gè)三元組翻 譯規(guī)則,頭節(jié)點(diǎn),尾節(jié)點(diǎn)集合;翻譯規(guī)則描述了源語(yǔ)言與目標(biāo)語(yǔ)言對(duì)齊關(guān)系。
全文摘要
本發(fā)明提供一種機(jī)器翻譯方法,包括以下步驟步驟1)分析源語(yǔ)言串,得到源語(yǔ)言串的共享壓縮句法森林;步驟2)根據(jù)已知的源語(yǔ)言與目標(biāo)語(yǔ)言之間的翻譯規(guī)則集合,對(duì)句法森林進(jìn)行匹配,得到共享壓縮翻譯森林;步驟3)利用搜索算法遍歷所述翻譯森林生成最終翻譯結(jié)果。本發(fā)明利用共享壓縮森林來(lái)指導(dǎo)翻譯,能夠從大量的樹(shù)中搜索翻譯結(jié)果,遠(yuǎn)遠(yuǎn)超過(guò)了單獨(dú)使用N-best樹(shù)的搜索空間。在223萬(wàn)平行雙語(yǔ)語(yǔ)料數(shù)據(jù)集上,與使用30-best樹(shù)解碼的模型相比,本發(fā)明的翻譯速度快1.4倍、翻譯性能高1.7個(gè)BLEU點(diǎn)。
文檔編號(hào)G06F17/28GK101398815SQ200810114949
公開(kāi)日2009年4月1日 申請(qǐng)日期2008年6月13日 優(yōu)先權(quán)日2008年6月13日
發(fā)明者群 劉, 米海濤, 亮 黃 申請(qǐng)人:中國(guó)科學(xué)院計(jì)算技術(shù)研究所