專利名稱:一種基于模糊樹到精確樹的統(tǒng)計(jì)機(jī)器翻譯方法
技術(shù)領(lǐng)域:
本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,是一種新穎的基于模糊樹到精確樹的統(tǒng)計(jì)機(jī) 器翻譯方法。
背景技術(shù):
統(tǒng)計(jì)機(jī)器翻譯就是一種利用統(tǒng)計(jì)的方法從平行的雙語語料庫中自動(dòng)學(xué)習(xí)出翻譯 規(guī)則,并有效利用這些規(guī)則對測試語句進(jìn)行自動(dòng)翻譯的技術(shù)。在統(tǒng)計(jì)機(jī)器翻譯經(jīng)歷了基于 詞的、基于短語的翻譯模型后,基于句法結(jié)構(gòu)的翻譯模型成為當(dāng)前的研究熱點(diǎn),其中基于串 到樹模型(源語言端是串,目標(biāo)語言端是句法樹)的翻譯系統(tǒng)在2009年國際機(jī)器翻譯評測 中取得了最好的成績,并顯著超越了非常流行的基于短語的翻譯系統(tǒng)?;诖綐涞姆g 模型是當(dāng)前最好的統(tǒng)計(jì)機(jī)器翻譯模型之一。圖1示出一個(gè)基于串到樹翻譯模型的例子,例 子中所使用的9條規(guī)則rl-r9如下所示每條規(guī)則中箭頭的左部表示源語言的單詞串或者 變量序列,箭頭表示翻譯方向,箭頭右部表示目標(biāo)語言的單詞串或者變量序列以及單詞串 或變量序列所對應(yīng)的句法標(biāo)記。標(biāo)記NP表示名詞短語,標(biāo)記CC表示連詞,標(biāo)記IN表示介 詞,標(biāo)記VP表示動(dòng)詞短語,標(biāo)記PP表示介詞短語,標(biāo)記S表示一個(gè)句子。rl表示中文單詞 “海珊”翻譯成英文名詞短語“hessein” ;r2表示中文單詞“和”翻譯成英文的連詞“and” ; r3表示中文單詞“和”翻譯成英文的介詞“with” ;r4表示中文的詞串“恐怖組織網(wǎng)”翻譯 成英文的名詞短語“terrorist networks” ;r5表示中文的詞串“建立了聯(lián)系”翻譯成英文 的動(dòng)詞短語“established relations”;r6-r9表示合并規(guī)則,r6表示如果在翻譯過程中我 們已經(jīng)利用三條規(guī)則(譬如rl,r2和r4)分別將源語言相鄰的三個(gè)詞串翻譯成了目標(biāo)語言 的名詞短語(xO :NP)、連詞(xl =CC)以及名詞短語(x2 :NP),現(xiàn)在可以利用規(guī)則r6將這三 個(gè)獨(dú)立的翻譯合并成一個(gè)目標(biāo)譯文,并且這個(gè)目標(biāo)譯文的句法標(biāo)記為名詞短語NP ;r7表示 在翻譯過程中如果源語言端連續(xù)的兩個(gè)詞串翻譯成目標(biāo)語言的名詞短語(xO =NP)和動(dòng)詞 短語(xl :VP),r7便可順序合并這個(gè)相鄰詞串的翻譯得到目標(biāo)譯文,并且這個(gè)目標(biāo)譯文的 句法標(biāo)記是句子S ;r8與r7類似都是順序合并兩個(gè)相鄰詞串的翻譯;r9表示在翻譯過程中 源語言端的第一個(gè)詞串xl翻譯成了目標(biāo)語言的介詞短語(xl :PP),第二個(gè)詞串xO翻譯成 了目標(biāo)語言的動(dòng)詞短語(xO :VP), r9便在合并這兩個(gè)相鄰詞串的翻譯時(shí)交換目標(biāo)譯文的位 置,也即將表示介詞短語的目標(biāo)譯文移至表示動(dòng)詞短語的目標(biāo)譯文后面。規(guī)則集rl海珊一NP (hessein) r2 和一CC (and)r3 和—IN(with)r4 恐怖組織網(wǎng)一NP(terrorist networks)r5 :^5:7 ^ VP (established relations)r6 :x0 xl x2 — NP (xO :NP xl :CC x2 :NP)r7 :x0 xl — S(x0 :NP xl :VP)r8 :x0 xl — PP (xO :IN xl :NP)r9 :xl xO — VP (xO :VP xl :PP)
測試語句海珊和恐怖組織網(wǎng)建立了聯(lián)系,串到樹翻譯系統(tǒng)首先利用規(guī)則rl,r2,r4與r5將源語言的串轉(zhuǎn)換為目標(biāo)語言的句 法節(jié)點(diǎn)NP,CC, NP與VP ;然后利用規(guī)則r6將前三個(gè)句法節(jié)點(diǎn)合并成一個(gè)句法節(jié)點(diǎn)NP,最 后利用規(guī)則r7將最新得到的NP節(jié)點(diǎn)與前面的VP節(jié)點(diǎn)合并得到一顆完整的目標(biāo)語言句法 樹。我們將獲得的目標(biāo)語言句法樹中的表示終結(jié)符的葉節(jié)點(diǎn)拼接起來,便得到最終的目標(biāo) 番羽譯:hessein and terrorist networks established relations。由于串到樹模型在翻譯過程中以建立目標(biāo)語言句法樹為目標(biāo),因此得到的目標(biāo)翻 譯串非常符合目標(biāo)語言的句法結(jié)構(gòu),使得目標(biāo)語言顯得比較通順流暢。然而,該翻譯模型沒有利用任何源語言端的句法知識,導(dǎo)致該系統(tǒng)在翻譯中無法 處理一些歧義性規(guī)則。譬如在上面的規(guī)則集中,r2將中文的“和”翻譯成目標(biāo)語言的連詞 "and";而r3將“和”翻譯成目標(biāo)語言的介詞“with”。從我們的訓(xùn)練語料抽取的規(guī)則中,我 們發(fā)現(xiàn)r2的出現(xiàn)頻率要遠(yuǎn)遠(yuǎn)高于r3,這就導(dǎo)致串到樹模型在翻譯過程中更偏向使用r2將 “和”翻譯為連詞“and”。雖然,在上面給出的測試?yán)又?,“和”在中文端是介詞,翻譯為目 標(biāo)端的介詞更合適。如果有效利用“和”是介詞這個(gè)信息,當(dāng)重新翻譯測試用例時(shí),我們應(yīng)該 使用規(guī)則rl,r3,r4與r5將源語言的串轉(zhuǎn)換為目標(biāo)語言的句法節(jié)點(diǎn)NP,IN,NP與VP ;然后 利用規(guī)則r8將節(jié)點(diǎn)IN與其后面的NP合并為PP節(jié)點(diǎn),我們再利用規(guī)則r9將PP節(jié)點(diǎn)與VP 節(jié)點(diǎn)合并為一個(gè)新的VP節(jié)點(diǎn),最后采用規(guī)則r7形成最終的目標(biāo)語言句法樹。利用這一組 規(guī)則,我們便能得到更準(zhǔn)確的目標(biāo)翻譯hessein established relations with terrorist networks。因此,我們看到在充分利用目標(biāo)語言句法樹的基礎(chǔ)上,若能恰當(dāng)且有效地利用 源語言端的句法知識,基于句法結(jié)構(gòu)的統(tǒng)計(jì)機(jī)器翻譯的譯文質(zhì)量必然將會(huì)有更進(jìn)一步的提 尚ο近幾年來,許多研究者對如何利用雙語語言的句法樹知識進(jìn)行翻譯建模做了大量 的研究。有學(xué)者曾提出樹到樹的翻譯模型Jason Eisner, 2003. Learning non-isomorphic tree mappings for machinetranslation. In Proc. of ACL 2003, pages 205-208. J i亥方 法從雙語的句法樹中抽取出對齊的子樹對,測試時(shí)在源語言端的句法樹中自頂向下地尋 找匹配的規(guī)則,然后對目標(biāo)端子樹進(jìn)行拼接,形成最終的目標(biāo)翻譯?;跇涞綐淠P偷膶?shí) 驗(yàn)證明,該方法甚至無法達(dá)到基于短語翻譯模型的效果Brooke Cowan, Ivona Kucerova and Michael Collins,2006. A discriminative model for tree-to-tree translation. In Proc. ofEMNLP, pages 232-241.于是有學(xué)者認(rèn)識到樹到樹翻譯模型表現(xiàn)不好的原 因之一是源語言端與目標(biāo)語言端都采用的是Ι-best句法分析樹,導(dǎo)致數(shù)據(jù)稀疏問題非 常嚴(yán)重,便提出基于樹序列到樹序列的翻譯模型Minaiang,Hongfei Jiang, Aiti Aw, Haizhou Li, Chew Lim Tan and ShengLi,2008. A Tree Sequence Alignment-based Tree-to-TreeTranslation Model. In Proc. of ACL 2008,pages 559—567.以及基于壓縮 森林的樹到樹翻譯模型(源端與目標(biāo)短都采用一個(gè)句法共享森林代替Ι-best句法分析樹) [Yang Liu, Yajuan Lv and Qun Liu,2009. Improving tree-to-tree translation with packed forests. In Proc. of ACL-IJCNLP 2009,pages 558-566.雖然改進(jìn)后的樹到樹翻 譯模型相對于原先模型有了明顯的提高,但是即使利用了兩端的句法森林,該翻譯模型仍 然無法顯著地超越基于短語的翻譯模型,更無法與源端沒有利用任何句法信息的串到樹模 型相比。有學(xué)者提出樹到樹模型表現(xiàn)不好的最大原因是在規(guī)則抽取和利用規(guī)則解碼階段對雙語兩端都要求精確句法樹的約束太嚴(yán)格,容易導(dǎo)致在規(guī)則抽取時(shí)忽略了大量非常有用的 規(guī)則以及在解碼時(shí)無法找到匹配規(guī)則的情形。因此,如何在串到樹翻譯模型的基礎(chǔ)上,恰當(dāng) 地利用源語言端的句法知識進(jìn)一步提高翻譯質(zhì)量是一個(gè)富有挑戰(zhàn)但非常有意義的任務(wù)。
發(fā)明內(nèi)容
針對如何有效利用雙語句法知識提高翻譯質(zhì)量的難題,本發(fā)明的目的是提出一種 模糊樹到精確樹的翻譯模型,使得在完全利用目標(biāo)語言句法樹的基礎(chǔ)上充分挖掘并有效利 用源語言端的句法知識,從而進(jìn)一步提高當(dāng)前統(tǒng)計(jì)機(jī)器翻譯的最佳性能。為了實(shí)現(xiàn)所述目的,本發(fā)明提供一種基于模糊樹到精確樹的統(tǒng)計(jì)機(jī)器翻譯方法, 所述方法的實(shí)現(xiàn)步驟如下步驟1 對雙語句對進(jìn)行分詞、自動(dòng)詞對齊和句法分析;步驟2 從詞對齊的雙語句法分析樹中自動(dòng)抽取出模糊樹到精確樹翻譯規(guī)則。步驟3 對抽取出模糊樹到精確樹翻譯規(guī)則進(jìn)行概率估計(jì),并訓(xùn)練目標(biāo)端的語言 模型;步驟4 設(shè)計(jì)源語言端句法結(jié)構(gòu)與模糊樹到精確樹翻譯規(guī)則的匹配準(zhǔn)則,并估計(jì) 其匹配概率;步驟5 設(shè)計(jì)翻譯模型的優(yōu)化目標(biāo),并利用模糊樹到精確樹翻譯規(guī)則以及目標(biāo)端 語言模型搜索測試語句的目標(biāo)翻譯。本發(fā)明的有益效果由于句法結(jié)構(gòu)是對語言中超越字串層面的更深層的理解,在 高效利用目標(biāo)語言端句法結(jié)構(gòu)的串到樹模型達(dá)到當(dāng)前統(tǒng)計(jì)機(jī)器翻譯的最好水平的基礎(chǔ)上 恰當(dāng)?shù)乩迷凑Z言端的句法結(jié)構(gòu)必能進(jìn)一步提高統(tǒng)計(jì)機(jī)器翻譯的最高水平。本發(fā)明能夠利 用源語言端的句法結(jié)構(gòu)與模糊樹到精確樹翻譯規(guī)則的模糊匹配使得翻譯過程偏向于在符 合目標(biāo)語言端句法結(jié)構(gòu)的同時(shí)使用更尊重源語言端句法結(jié)構(gòu)的規(guī)則。我們在國際機(jī)器翻譯 評測(NIST MT Evaluation)中英任務(wù)上進(jìn)行了實(shí)驗(yàn)。利用本發(fā)明中的任何一種模糊匹配 算法,我們的翻譯系統(tǒng)都統(tǒng)計(jì)顯著地超越了當(dāng)前最好的串到樹翻譯系統(tǒng)。尤其是采用句法 結(jié)構(gòu)相似度匹配的算法相比于串到樹模型的翻譯系統(tǒng)平均提高了 1.05個(gè)BLUE值。這充分 證明了基于模糊樹到精確樹模型的翻譯系統(tǒng)的有效性和優(yōu)越性。
圖1是串到樹模型與本發(fā)明的模糊樹到精確樹模型的一個(gè)對比翻譯實(shí)例;圖2a、圖2b和圖2c是模糊樹到精確樹翻譯規(guī)則與串到樹翻譯規(guī)則以及樹到樹翻 譯規(guī)則的相互關(guān)系的一個(gè)實(shí)例;圖3是串到樹翻譯規(guī)則抽取以及本發(fā)明的模糊樹到精確樹翻譯規(guī)則抽取的一個(gè) 實(shí)例;圖4是本發(fā)明的模糊樹到精確樹翻譯系統(tǒng)的整體的實(shí)現(xiàn)流程。
具體實(shí)施例方式下面結(jié)合附圖對本發(fā)明作具體說明。應(yīng)該指出,所描述的實(shí)例僅僅視為說明的目 的,而不是對本發(fā)明的限制。
本發(fā)明所有代碼實(shí)現(xiàn)都是用C++編程語言完成,開發(fā)平臺是Wxmtu Linux 8. 04。 由于所寫程序沒有用到任何平臺相關(guān)的代碼,因此所述的系統(tǒng)實(shí)現(xiàn)也可以運(yùn)行于Windows 操作系統(tǒng)上。本發(fā)明的基本思想是恰當(dāng)?shù)乩迷凑Z言端的句法知識,提出一種基于模糊樹到精 確樹的翻譯模型,以提高統(tǒng)計(jì)機(jī)器翻譯的譯文質(zhì)量。例如,圖1給出了串到樹翻譯模型與本 發(fā)明的模糊樹到精確樹翻譯模型的一個(gè)對比翻譯實(shí)例(圖1中上端的源語言中文端是串, 下端的目標(biāo)語言英文端是樹)實(shí)線箭頭表示了串到樹模型的翻譯過程,虛線箭頭表示了 模糊樹到精確樹的翻譯過程。由于串到樹模型沒有利用任何源語言端的句法信息,而規(guī)則r2在訓(xùn)練語料中出 現(xiàn)的次數(shù)要遠(yuǎn)大于規(guī)則r3在訓(xùn)練語料中出現(xiàn)的次數(shù),因此在絕大多數(shù)情形下不管源語言 端的“和”是介詞還是連詞,串到樹模型都偏向于選擇規(guī)則r2將“和”翻譯為連詞,導(dǎo)致實(shí) 線所示的翻譯過程得到了不理想的目標(biāo)翻譯結(jié)果。若我們能夠恰當(dāng)?shù)乩迷凑Z言端的句法 信息,知道在該測試語句中,“和”是介詞,通過將這種句法知識轉(zhuǎn)化為概率,使得我們在翻 譯時(shí)偏向于選擇規(guī)則r3將表示介詞的“和”翻譯為目標(biāo)端的介詞“with”,從而得到理想的 翻譯結(jié)果。一種直接利用方式就是要求源語言端也是精確的句法結(jié)構(gòu)樹,然后在翻譯源語 言句子時(shí),首先得到句法分析樹,然后以自頂向下的方式在句法分析樹中查找與句法子樹 完全匹配的樹到樹的規(guī)則,我們稱之為硬性匹配。多項(xiàng)研究工作表明這種方式既不能提高 串到樹翻譯模型的性能,而且都無法超越基于短語的翻譯模型。因此,我們不能直接利用源 語言端的句法結(jié)構(gòu)進(jìn)行硬性匹配,而應(yīng)該尋找一種更恰當(dāng)更有效地方式利用源語言端的句 法知識。本發(fā)明提出基于模糊樹到精確樹模型的翻譯方法。本發(fā)明方法的框架結(jié)構(gòu)如圖4 所示。下面我們以漢-英平行句對作為實(shí)施例來詳細(xì)闡述本發(fā)明的原理與實(shí)現(xiàn)方法。1.對雙語句對進(jìn)行自動(dòng)分詞、自動(dòng)詞對齊與自動(dòng)句法分析。
具體實(shí)施方式
如下對雙語句對中的源語言和目標(biāo)語言句子進(jìn)行自動(dòng)分詞,得到源語言端和目標(biāo)語言 端的分詞結(jié)果。如果源語言或目標(biāo)語言中不包含漢語,則不需要進(jìn)行分詞。如果源語言或 目標(biāo)語言中包含漢語,則需要用對漢語進(jìn)行分詞。對漢語進(jìn)行分詞的方法有很多種。在本 發(fā)明的實(shí)施例中我們以開源的中文分詞工具ICTCLAS對漢語進(jìn)行分詞。ICTCLAS中文分詞 工具一個(gè)常用的開源中文分詞工具。ICTCLAS中文分詞工具可以在以下網(wǎng)址免費(fèi)下載http //ictclas. org/ictclas download, asp得到所述的源語言端和目標(biāo)語言端的分詞結(jié)果之后,需要對雙語句對自動(dòng)進(jìn)行詞 對齊。自動(dòng)進(jìn)行詞對齊的方法有多種。在本發(fā)明的實(shí)施例中我們使用GIZA++工具對漢-英 句對進(jìn)行詞對齊,得到漢-英自動(dòng)詞對齊結(jié)果。GIZA++是一個(gè)常用的開源詞對齊工具。 GIZA++可以在以下網(wǎng)址免費(fèi)下載http //f ioch. com/GIZA++. html。在使用GIZA++時(shí)要選 擇某個(gè)啟發(fā)式策略來得到對稱的詞對齊結(jié)果,我們選擇了 grow-diag-final策略,因?yàn)樵?啟發(fā)式策略被許多研究工作證明在中英翻譯中是最有效的啟發(fā)式規(guī)則。得到所述的源語言端與目標(biāo)語言端的分詞結(jié)果之后,我們需要對雙語句子進(jìn)行句 法分析。自動(dòng)句法分析的方法有多種。在本發(fā)明的實(shí)施例中我們使用Berkeley句法分析 器對雙語句子進(jìn)行句法分析。Berkeley句法分析器是一種常用的開源句法分析工具,而且 是當(dāng)前最好的句法分析器之一。Berkeley句法分析器可以從以下的網(wǎng)址免費(fèi)下載
7
http//code. ROORle. com/p/berkeleyparser/02.針對所述步驟1中得到的詞對齊的雙語句法分析樹對,自動(dòng)從中抽取出模糊樹 到精確樹翻譯規(guī)則;具體實(shí)施方式
如下如圖4所示是本發(fā)明的模糊樹到精確樹翻譯系統(tǒng)的整體的實(shí)現(xiàn)流程,針對所述步 驟1中所得到的詞對齊的雙語句法樹對,我們需要設(shè)計(jì)算法從中抽取出模糊樹到精確樹翻 譯規(guī)則。 圖加,圖2b和圖2c是模糊樹到精確樹翻譯規(guī)則與串到樹翻譯規(guī)則以及樹到樹翻 譯規(guī)則的相互關(guān)系的一個(gè)實(shí)例。如圖2b對應(yīng)模糊樹到精確樹翻譯規(guī)則和{P,CC} — IN(with)這個(gè)規(guī)則表示不管源語言端中文單詞“和”分析成介詞P還是連詞CC,我們在翻譯 中都可以使用這條規(guī)則將“和”翻譯為英文的介詞“with”;但是我們的方法會(huì)對“和”的不 同分析結(jié)果(介詞P或者連詞CC)時(shí)使用這條規(guī)則賦予一個(gè)匹配概率,可能介詞P的匹配
概率要更大一些。圖加對應(yīng)樹到樹翻譯規(guī)則
P (和)—/TV 從) CC(和)4/TV(W/溈)第一條規(guī)則表示只有在中文單詞“和”分析成介詞P時(shí),才能使用這條規(guī)則將“和” 翻譯為英文的介詞“with”,若“和”分析成連詞或其他則不能使用該規(guī)則;第二條規(guī)則表 示只有在中文單詞“和”分析成連詞CC時(shí),才能使用這條規(guī)則將“和”翻譯為英文的介詞 “with”,其他情形都不能使用該規(guī)則。圖2c對應(yīng)串到樹翻譯規(guī)則和一IN (with)這條規(guī)則表示中文單詞“和”在任何情形下都可使用該規(guī)則將“和”翻譯為英文介 詞“with”,所以不管“和”分析成什么樣的句法結(jié)果,都等同對待,雖然在直覺上,當(dāng)“和”為 介詞P時(shí)這條規(guī)則的使用概率應(yīng)該更高。如上所述,一方面,模糊樹到精確樹翻譯規(guī)則可以看作樹到樹翻譯規(guī)則的退化,也 即所有只是源語言端句法標(biāo)記不同的樹到樹翻譯規(guī)則合并成為一條模糊樹到精確樹翻譯 規(guī)則,譬如將圖2b中的兩條規(guī)則的源語言端“和”的句法標(biāo)記P和CC合并,便得到圖加中 的模糊樹到精確樹翻譯規(guī)則;另一方面,模糊樹到精確樹翻譯規(guī)則也可以看作串到樹翻譯 規(guī)則的句法加強(qiáng)形式,也即在串到樹翻譯規(guī)則的源語言端添加上相應(yīng)的句法結(jié)構(gòu)信息,譬 如給圖2c中的源語言端“和”加上它在訓(xùn)練數(shù)據(jù)中出現(xiàn)過的句法標(biāo)記P和CC,便可得到圖 2a中的模糊樹到精確樹翻譯規(guī)則。在本發(fā)明中,我們采用第二種路線,即由串到樹翻譯規(guī)則 轉(zhuǎn)換成模糊樹到精確樹翻譯規(guī)則。因此在該步驟中,我們需要子步驟的操作步驟21 在詞對齊的雙語句法樹對中抽取串到樹翻譯規(guī)則;步驟22 利用范疇語法(categorial grammar)的形式為每一條抽取出的串到樹 翻譯規(guī)則的源語言端從源語言句法樹中計(jì)算并生成一個(gè)相應(yīng)的句法結(jié)構(gòu)表示;
步驟23 將計(jì)算出的句法結(jié)構(gòu)表示賦予串到樹翻譯規(guī)則的源語言端,從而形成一 個(gè)模糊樹到精確樹翻譯規(guī)則。針對子步驟1,本發(fā)明根據(jù)文獻(xiàn)Michel Gaily, Jonathan 6raehl, Kevin Knight, Daniel Marcu, Steve DeNeefe, Wei Wang and IgnacioThayer,2006.Scalable inference and training of context-richsyntactic translation models. In Proc. of ACL-C0LIN62006.U&Daniel Marcu, Wei Wang, Abdessamad Echihabi and Kevin Knight,2006. SPMT !Statistical machine translation with syntactifiedtarget language phrases. In Proc. of EMNLP 2006, pages 44-52.所描述的算法,我們實(shí)現(xiàn)了串 到樹翻譯規(guī)則的抽取模塊。所述的串到樹翻譯規(guī)則抽取模塊以源語言句子f,目標(biāo)語言句 法樹%以及詞對齊a作為輸入,輸出串到樹翻譯規(guī)則集合。所述串到樹翻譯規(guī)則的抽取首 先計(jì)算目標(biāo)語言句法樹中每個(gè)節(jié)點(diǎn)η的對齊跨度Span(Ii)以及互補(bǔ)對齊跨度COmplement_ span (η)。對齊跨度span (η)就是與節(jié)點(diǎn)η所管轄的目標(biāo)語言詞串對齊的源語言詞集合在 源語言中的范圍,譬如span (η) = (1,3) 0互補(bǔ)對齊跨度complementjpan (η)就是目標(biāo)語 言句法樹中除節(jié)點(diǎn)η以及其子孫節(jié)點(diǎn)、祖先節(jié)點(diǎn)外的所有節(jié)點(diǎn)的對齊跨度的并集。若節(jié)點(diǎn) η滿足以下的約束,則稱節(jié)點(diǎn)η為邊界節(jié)點(diǎn)(frontier)span (η) Π complement_span (η) = Φ圖3是串到樹翻譯規(guī)則抽取以及本發(fā)明的模糊樹到精確樹翻譯規(guī)則抽取的一個(gè)實(shí)例。所述句法樹對中的中文句子是“我樂意和他們討論此事”,所述中文句子中每個(gè)詞 語的詞性分別為(我,PN),(樂意,AD),(和,P),(他們,PN),(討論,VV)與(此事,NN)。 (討論,W)的上層節(jié)點(diǎn)為VP形成句法結(jié)構(gòu)VP(VVG^W);(此事,NN)上層節(jié)點(diǎn)為NP形 成句法結(jié)構(gòu)NP (NN (此事));句法結(jié)構(gòu)VP (VV (討論))與句法結(jié)構(gòu)NP (NN (此事))的上層節(jié) 點(diǎn)為VP并形成句法子樹VP(VP(VV(討論)),ΝΡ(ΝΝ(此事)))。(他們,PN)的上層節(jié)點(diǎn)是 NP形成句法結(jié)構(gòu)NP (PN(他們));句法結(jié)構(gòu)(和,P)與句法結(jié)構(gòu)NP (PN(他們))的上層節(jié)點(diǎn) 為PP并成型句法子樹ΡΡ(Ρ(和),ΝΡ(ΡΝ(他們)))。(樂意,AD)的上層節(jié)點(diǎn)是ADJP形成 句法結(jié)構(gòu)ADJP (AD (樂意));三個(gè)句法結(jié)構(gòu)ADJP (AD (樂意)),PP (P (和),NP (PN (他們))) 與VP (VP (VV (討論)),NP (NN (此事)))的上層節(jié)點(diǎn)是VP并形成句法子樹VP (ADJP (AD (樂 意)),PP(P(和),NP(PN(他們))),VP(VP(VV(討論)),NP(NN(此事))))。(我,PN)的上 層節(jié)點(diǎn)是NP形成句法結(jié)構(gòu)NP(PN(我));兩個(gè)句法結(jié)構(gòu)NP(PN(我))與VP (AD JP (AD (樂 意)),PP(P(和),NP(PN(他們))),VP(VP(VV(討論)),NP(NN(此事))))的上層點(diǎn)點(diǎn)是 IP 形成整棵中文端句法樹。所述句法樹對中的英文句子是“i am happy to discuss the matterwith them” ;所述英文句子中每個(gè)單詞的詞性分別為(i,F(xiàn)W),(am,VBP),(happy, JJ), (to, TO), (discuss, VB), (the, DT), (matter, NN), (with, IN)與(them, NP) 。 (with, IN)與(them, NP)的上層節(jié)點(diǎn)是 PP 并形成句法子樹 PP (IN (with),NP (them))。(the, DT)與(matter, NN) 的上層節(jié)點(diǎn)是NP并形成句法子樹NP (DT (the),NN(matter))。三個(gè)句法結(jié)構(gòu)(diSCuSS,VB), NP (DT (the), NN (matter))與PP (IN (with),NP (them))的上層句法節(jié)點(diǎn)是VP并形成句法子 樹 VP (VB (discuss),NP (DT (the),NN(matter)),PP (IN(with),NP (them)))。兩個(gè)句法結(jié)構(gòu) (to, TO)與 VP (VB (discuss),NP (DT (the),NN(matter)), PP (IN(with),NP (them)))的上層句法節(jié)點(diǎn)是 VP 并形成句法子樹 VP (TO (to),VP (VB (discuss), NP (DT (the), NN (matter)), PP (IN (with), NP (them)))) 0 兩個(gè)句法結(jié)構(gòu)(happy, JJ)與 VP (TO (to),VP (VB (discuss), NP(DT(the),NN(matter)),PP(IN(with),NP(them))))的上層句法節(jié)點(diǎn)是 ADJP 并形成 句法子樹 ADJP(JJ (happy),VP(TO (to),VP(VB (di scuss),NP(DT(the),NN(matter)), PP (IN (with), NP (them)))))。兩個(gè)句法結(jié)構(gòu)(am, VBP)與 ADJP (JJ (happy),VP (TO (to), VP (VB (di scuss),NP (DT (the),NN(matt er)), PP (IN(with), NP (them)))))的上層句法 節(jié)點(diǎn)是 VP 并形成句法子樹 VP (VBP (am),ADJP (JJ(happy),VP (TO(to),VP (VB (discuss), NP (DT (the),NN (matter)),PP (IN (with),NP (them) )))))。(i, Fff)的上層節(jié)點(diǎn)是 NP 并 形成句法子樹 NP (Fff (i));兩個(gè)句法結(jié)構(gòu) NP (Fff (i))與 VP (VBP (am),ADJP (JJ (happy), VP (TO (to), VP (VB (discuss), NP (DT (the), NN (matter)), PP (IN (with), NP (them))))))的 上層節(jié)點(diǎn)是S并形成整棵英文端句法樹。所述詞語對齊包括(我,i),(樂意,happy),(和,with),(他們,them),(討論, discuss),(此事,the)與(此事,matter)。圖3所示的目標(biāo)語言(英文)的句法樹中帶斜體黑體的節(jié)點(diǎn)都是邊界節(jié)點(diǎn)。所述 串到樹翻譯規(guī)則的抽取從目標(biāo)語言句法樹的根節(jié)點(diǎn)開始深度優(yōu)先遍歷,當(dāng)遇到每一個(gè)邊界 節(jié)點(diǎn)時(shí),以該邊界節(jié)點(diǎn)為根節(jié)點(diǎn),遍歷其子樹使得其子樹的每個(gè)葉節(jié)點(diǎn)要么是邊界節(jié)點(diǎn)要 么是目標(biāo)語言詞語,以該子樹為目標(biāo)語言端,以跟其對齊的源語言端的詞串與變量作為源 語言端構(gòu)成一條串到樹翻譯規(guī)則。因此,每個(gè)邊界節(jié)點(diǎn)都會(huì)對應(yīng)一條串到樹翻譯規(guī)則,這樣 的規(guī)則稱為最小規(guī)則,如下所示的ra到ri都是最小規(guī)則。ra:我—FW(i)rb 樂意一JJ(happy)rc 和一IN(with)rd 他們一NP (them)re 討論一VB (discuss)rf 此事一NP (DT (the) NN (matter))rg :x0 X1 — PP (x0 :IN X1 :NP)rh :x2 X0 X1 — VP (x0 :VB X1 :NP X2 :PP)Γ :x0 — VP (TO (to) X0 :VP)我們根據(jù)文獻(xiàn)Daniel Marcu, Wei Wang, Abdessamad Echihabi andKevin Knight,2006. SPMT !Statistical machine translation withsyntactified target language phrases. In Proc. of EMNLP 2006, pages 44-52. J 中的算由取出最/j、規(guī)貝Iji^ 有覆蓋到的短語翻譯規(guī)則。然后,任何兩個(gè)最小規(guī)則若其中的一條規(guī)則的根節(jié)點(diǎn)是另一條 規(guī)則的葉節(jié)點(diǎn),那么我們可以合并這兩條最小規(guī)則成為一條復(fù)合規(guī)則。三條最小規(guī)則若滿 足以上所述條件也可以合并為一條復(fù)合規(guī)則。如下所示規(guī)則η就是規(guī)則r。與1^合并而成 的一條復(fù)合規(guī)則。rj 和 & — PP (IN(with) X0 :NP)針對子步驟2,我們利用范疇語法(categorial grammar)的形式為每一條串到樹 翻譯規(guī)則在源語言句法樹中計(jì)算一個(gè)句法結(jié)構(gòu),具體實(shí)施方式
如下針對子步驟1中抽取出的某條串到樹翻譯規(guī)則,其源語言端可能沒有相應(yīng)的句法結(jié)構(gòu)與之對應(yīng),因此,用傳統(tǒng)的句法約束就會(huì)丟失大量有用的規(guī)則。譬如圖3所示, “discuss…them”在目標(biāo)語言端對應(yīng)句法節(jié)點(diǎn)VP,而與之對應(yīng)的源語言串“和他們討論此 事”沒有正好被某個(gè)句法節(jié)點(diǎn)所覆蓋,若要求源語言端有某個(gè)傳統(tǒng)的句法節(jié)點(diǎn)對之對應(yīng),那 么這條揭示調(diào)序信息的串到樹翻譯規(guī)則就會(huì)被遺憾地排除掉。因此,我們不采用傳統(tǒng) 的句法約束,而借鑒文獻(xiàn)Yehoshua Bar-Hillel, 1953. A quasi-arithmetical notation for syntactic description. Language, 29 (1). pages 47—58 J以及文獻(xiàn)Andreas Zollmann andAshish Venugopal,2006. Syntax augmented machine translation viachart parsing. In Proc. of Workshop on Statistical MachineTranslation 2006, pages 138-141中所介紹的范疇語法(categorialgrammar)的形式為串到樹翻譯規(guī)則的源語言 端計(jì)算一個(gè)句法結(jié)構(gòu)。具體實(shí)施方法如下(1)若源語言端的串正好被某個(gè)句法節(jié)點(diǎn)C所覆蓋,那么我們用句法節(jié)點(diǎn)C表示源 語言端的句法結(jié)構(gòu)信息;(2)否則,我們按順序計(jì)算源語言端的串是否可以由如下的三種虛擬句法節(jié)點(diǎn)之 一表示C1*C2,C1/C2,C2\C1。C1*C2說明源語言端的串可以由相鄰的兩個(gè)句法節(jié)點(diǎn)的聯(lián) 合表示;C1/C2說明源語言端的串可以由句法節(jié)點(diǎn)Cl去除其最右端的孩子節(jié)點(diǎn)C2表示; C2\C1說明源語言端的串可以由句法節(jié)點(diǎn)Cl去除其最左端的孩子節(jié)點(diǎn)C2表示。(3)若O)失敗,我們按順序計(jì)算源語言端的串是否可以由如下的兩種虛擬句法 節(jié)點(diǎn)之一表示C1*C2*C3,Cl. . C2。C1*C2*C3說明源語言端的串可以由相鄰的三個(gè)句法節(jié) 點(diǎn)的聯(lián)合表示;Cl. . C2說明源語言端的串可以由最左邊的句法節(jié)點(diǎn)Cl和最右邊的句法節(jié) 點(diǎn)C2近似表示。(4)若C3)仍然失敗,我們采用默認(rèn)的虛擬句法節(jié)點(diǎn)X表示源語言端串的句法信 肩、ο我們發(fā)現(xiàn)利用規(guī)則⑴到(3)基本能解決所有的源語言端串的句法信息的計(jì)算。 當(dāng)我們將每條串到樹翻譯規(guī)則的源語言端賦予一個(gè)句法結(jié)構(gòu)后,串到樹翻譯規(guī)則就自動(dòng)轉(zhuǎn) 換成了我們所要求的模糊樹到精確樹翻譯規(guī)則。如下所示的規(guī)則Α到r0都是模糊樹到精 確樹翻譯規(guī)則。!^我妒吣一^^土),rx 樂意{AD} — JJ (happy),rm 和{P} — IN(with),rn :x2 X0 X1 {PP*VP} — VP (χ。:VB X1 :NP X2 :PP),r0 :x0 {PP*VP} — VP (TO (to) X0 :VP)。應(yīng)該注意,不同的雙語句法樹對可能產(chǎn)生這樣的兩條規(guī)則除源語言端的句法結(jié) 構(gòu)信息外,其他完全一樣,譬如規(guī)則和{CCI — IN(With)和規(guī)則和{P} — IN(With)。此時(shí), 我們這樣的規(guī)則進(jìn)行合并,并記錄源語言端不同的句法結(jié)構(gòu)出現(xiàn)的次數(shù),譬如抽取完整個(gè) 訓(xùn)練語料后,我們得到如下的模糊樹到精確樹翻譯規(guī)則和{P6,CC 4} — IN(with)說明和 {P} — IN (with)出現(xiàn)了 6 次而和{CC} — IN (with)出現(xiàn)了 4 次。3.將抽取出的模糊樹到精確樹翻譯規(guī)則進(jìn)行概率估計(jì),并訓(xùn)練目標(biāo)端的語言模 型,具體實(shí)施方式
如下對步驟2抽取出的所有模糊樹到精確樹翻譯規(guī)則,我們采用最大似然估計(jì)的方法計(jì)算,翻譯模型優(yōu)化目標(biāo)采用對數(shù)線性模型,利用對數(shù)線性模型組合的特征有
1)模糊樹到精確樹翻譯規(guī)則具有五個(gè)翻譯特征(1)模糊樹到精確樹翻譯規(guī)則相對于根節(jié)點(diǎn)的條件概率,(2)模糊樹到精確樹翻譯規(guī)則相
權(quán)利要求
1.基于模糊樹到精確樹的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于,所述方法包括步驟如下步驟1 對雙語句對進(jìn)行分詞、自動(dòng)詞對齊和句法分析;步驟2 從詞對齊的雙語句法分析樹中自動(dòng)抽取出模糊樹到精確樹翻譯規(guī)則;步驟3 對抽取出模糊樹到精確樹翻譯規(guī)則進(jìn)行概率估計(jì),并訓(xùn)練目標(biāo)端的語言模型;步驟4 設(shè)計(jì)源語言端句法結(jié)構(gòu)與模糊樹到精確樹翻譯規(guī)則的匹配準(zhǔn)則,并估計(jì)其匹 配概率;步驟5 設(shè)計(jì)翻譯模型優(yōu)化目標(biāo),并利用模糊樹到精確樹翻譯規(guī)則以及目標(biāo)端語言模 型搜索測試語句的目標(biāo)翻譯。
2.根據(jù)權(quán)利要求1所述的基于模糊樹到精確樹的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于所 述模糊樹到精確樹翻譯規(guī)則的抽取步驟如下步驟21 首先從詞對齊的雙語句法樹對中抽取出串到樹翻譯規(guī)則;步驟22 利用范疇語法(categorial grammar)的形式為每一條抽取出的串到樹翻譯 規(guī)則的源語言端從源語言句法樹中計(jì)算并生成一個(gè)相應(yīng)的句法結(jié)構(gòu)表示;步驟23 將計(jì)算出的句法結(jié)構(gòu)表示賦予串到樹翻譯規(guī)則的源語言端,形成模糊樹到精 確樹翻譯規(guī)則。
3.根據(jù)權(quán)利要求1所述的基于模糊樹到精確樹的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于所 述源語言端句法結(jié)構(gòu)與模糊樹到精確樹翻譯規(guī)則的匹配準(zhǔn)則包括1)0-1匹配準(zhǔn)則;2)似 然度匹配準(zhǔn)則;3)句法結(jié)構(gòu)相似度匹配準(zhǔn)則。
4.根據(jù)權(quán)利要求3所述的基于模糊樹到精確樹的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于所 述0-1匹配準(zhǔn)則是對抽取出的模糊樹到精確樹翻譯規(guī)則進(jìn)行轉(zhuǎn)換,保留模糊樹到精確樹翻譯規(guī)則中源語 言端最可靠的句法結(jié)構(gòu),最可靠的句法結(jié)構(gòu)是似然度最大的句法結(jié)構(gòu);當(dāng)翻譯源語言句子 時(shí),考察源語言串對應(yīng)的句法結(jié)構(gòu)與模糊樹到精確樹翻譯規(guī)則的匹配情況,若與模糊樹到 精確樹翻譯規(guī)則中源語言端的句法結(jié)構(gòu)完全匹配,就對使用所述的模糊樹到精確樹翻譯規(guī) 則賦予獎(jiǎng)勵(lì)表明所述的模糊樹到精確樹翻譯規(guī)則的使用遵循了源語言端的句法結(jié)構(gòu)信息, 否則便對使用所述的模糊樹到精確樹翻譯規(guī)則給予懲罰表明所述的模糊樹到精確樹翻譯 規(guī)則的使用違反了源語言端的句法結(jié)構(gòu)信息。
5.根據(jù)權(quán)利要求3所述的基于模糊樹到精確樹的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于所 述似然度匹配準(zhǔn)則是當(dāng)翻譯源語言句子時(shí),考察源語言串對應(yīng)的句法結(jié)構(gòu)與模糊樹到精確樹翻譯規(guī)則的匹 配情況,若與模糊樹到精確樹翻譯規(guī)則中源語言端句法結(jié)構(gòu)集合中的某個(gè)句法結(jié)構(gòu)相同, 便用所述的某個(gè)句法結(jié)構(gòu)對應(yīng)的似然度表示匹配概率;否則便賦予一個(gè)平滑概率表示匹配 概率。
6.根據(jù)權(quán)利要求3所述的基于模糊樹到精確樹的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于所 述句法結(jié)構(gòu)相似度匹配是利用淺層變量模型(latent variable model)將每個(gè)源語言端的句法結(jié)構(gòu)映射到唯一 的一個(gè)m維實(shí)數(shù)向量;對模糊樹到精確樹翻譯規(guī)則的源端的句法結(jié)構(gòu)集合利用似然度進(jìn)行 加權(quán)得到唯一的一個(gè)實(shí)數(shù)向量表示所述模糊樹到精確樹翻譯規(guī)則源端的句法結(jié)構(gòu),當(dāng)翻譯 源語言句子時(shí),考察源語言串對應(yīng)的句法結(jié)構(gòu),并利用淺層變量模型將該結(jié)構(gòu)映射至一個(gè)實(shí)數(shù)向量,最后利用點(diǎn)積(dot-product)計(jì)算該句法結(jié)構(gòu)與某規(guī)則的相似度,并利用該相 似度表示匹配概率。
7.根據(jù)權(quán)利要求1所述的基于模糊樹到精確樹的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于所 述翻譯模型優(yōu)化目標(biāo)采用對數(shù)線性模型,利用對數(shù)線性模型組合的特征有1)模糊樹到精確樹翻譯規(guī)則具有五個(gè)翻譯特征(1)模糊樹到精確樹翻譯規(guī)則相對于 根節(jié)點(diǎn)的條件概率,(2)模糊樹到精確樹翻譯規(guī)則相對于源語言端的條件概率,(3)模糊樹 到精確樹翻譯規(guī)則相對于目標(biāo)語言端的條件概率,(4)源語言端相對于目標(biāo)語言端的詞匯 化翻譯概率,(5)目標(biāo)語言端相對于源語言端的詞匯化翻譯概率;2)語言模型概率;3)對譯文長度的懲罰特征;4)控制使用規(guī)則數(shù)量的特征;5)使用規(guī)則是否為復(fù)合規(guī)則的二值特征;6)源語言端句法結(jié)構(gòu)與模糊樹到精確樹翻譯規(guī)則的模糊匹配概率特征。
全文摘要
本發(fā)明是一種基于模糊樹到精確樹的統(tǒng)計(jì)機(jī)器翻譯方法,本發(fā)明是一種在串到樹翻譯模型的基礎(chǔ)上充分且恰當(dāng)?shù)乩迷凑Z言端句法結(jié)構(gòu)知識提高統(tǒng)計(jì)機(jī)器翻譯譯文質(zhì)量的方法,步驟1對雙語句對進(jìn)行分詞、自動(dòng)詞對齊和句法分析;步驟2從詞對齊的雙語句法分析樹中自動(dòng)抽取出模糊樹到精確樹翻譯規(guī)則。步驟3對抽取出的翻譯規(guī)則進(jìn)行概率估計(jì),并訓(xùn)練目標(biāo)端的語言模型;步驟4設(shè)計(jì)源語言端句法結(jié)構(gòu)與模糊樹到精確樹翻譯規(guī)則的匹配準(zhǔn)則,并估計(jì)其匹配概率;步驟5設(shè)計(jì)翻譯模型的優(yōu)化目標(biāo),并利用模糊樹到精確樹翻譯規(guī)則以及目標(biāo)端語言模型搜索測試語句的目標(biāo)翻譯。在國際機(jī)器翻譯評測中文到英文的翻譯任務(wù)上驗(yàn)證了本發(fā)明的有效性。
文檔編號G06F17/27GK102117270SQ20111007728
公開日2011年7月6日 申請日期2011年3月29日 優(yōu)先權(quán)日2011年3月29日
發(fā)明者宗成慶, 張家俊 申請人:中國科學(xué)院自動(dòng)化研究所