專利名稱:使用依存叢林的統(tǒng)計(jì)機(jī)器翻譯方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種使用依存叢林(dependency forest)的統(tǒng)計(jì)機(jī)器翻譯方法,尤其涉及一種使用依存叢林的統(tǒng)計(jì)機(jī)器翻譯方法,其通過(guò)以下操作可以提高翻譯能力:針對(duì)雙語(yǔ)語(yǔ)料庫(kù)進(jìn)行依存性分析以生成多個(gè)依存樹,組合所生成的多個(gè)依存樹以生成依存叢林,使用該依存叢林來(lái)生成翻譯規(guī)則和依存語(yǔ)言模型,然后在將源語(yǔ)言文本轉(zhuǎn)換為目標(biāo)語(yǔ)言文本時(shí),應(yīng)用所生成的翻譯規(guī)則和依存語(yǔ)言模型。
背景技術(shù):
圖1不出了一句英文“He saw a boy with a telescope”的依存樹。如圖1所示,箭頭從子節(jié)點(diǎn)指向父節(jié)點(diǎn)。父節(jié)點(diǎn)常常代表子節(jié)點(diǎn)的頭。例如,圖1中“saw”是“he”的頭。由于依存樹不需要句子的短語(yǔ)結(jié)構(gòu)分析,所以依存樹與短語(yǔ)結(jié)構(gòu)分析相比,復(fù)雜度相對(duì)較低。2008年沈(Shen)等人提出了一種串到依存性(string-to-dependency)的翻譯模型,將串轉(zhuǎn)換為依存樹。該串到依存性的翻譯模型將源語(yǔ)言串轉(zhuǎn)換為目標(biāo)語(yǔ)言的依存樹,它有兩個(gè)重要特征。第一個(gè)特 征是,串到依存性翻譯模型規(guī)則應(yīng)當(dāng)在目標(biāo)語(yǔ)言側(cè)具有合式(well-formed)依存結(jié)構(gòu)。該合式的依存結(jié)構(gòu)允許有效的動(dòng)態(tài)編程,并且保持了很多有用的非組成性規(guī)則。該合式的依存結(jié)構(gòu)可包括固定結(jié)構(gòu)或浮動(dòng)結(jié)構(gòu)。在固定結(jié)構(gòu)中,所有子節(jié)點(diǎn)構(gòu)成完整的依存樹。浮動(dòng)結(jié)構(gòu)由具有公共頭的同級(jí)節(jié)點(diǎn)構(gòu)成,而頭本身是非特定的,或者是浮動(dòng)的。例如,圖2的(a)和(b)示出了兩個(gè)固定結(jié)構(gòu),圖2的(C)示出了浮動(dòng)結(jié)構(gòu)。圖1例示了訓(xùn)練實(shí)例,其包括英文依存樹、中文翻譯和詞排布(wordarrangement)。給出了一句英文,以方便地辨識(shí)英文詞和中文詞之間的對(duì)應(yīng)關(guān)系。從一對(duì)對(duì)齊的串依存性(string-dependency)中提取串依存性規(guī)則,類似于提取SCFG,僅僅目標(biāo)語(yǔ)言側(cè)是合式的結(jié)構(gòu)。例如,可能如下所述的提取與詞對(duì)齊相對(duì)應(yīng)的串依存性規(guī)則。with ((a)telescope) — dai wangyuanjing de進(jìn)一步地,通過(guò)將更小的規(guī)則“(a) telescope — wangyuanjing”替換為如下的非終止符,可以獲得具有一個(gè)非終止符的規(guī)則:with (X1) — dai X1 de這里,“X”表示非終止符,下標(biāo)“I”表示源語(yǔ)言和目標(biāo)語(yǔ)言的非終止符之間的對(duì)應(yīng)關(guān)系。2008年沈等人介紹了一種依存性語(yǔ)言模型。借助該依存性語(yǔ)言模型,很好地描述了目標(biāo)句子的生成,因?yàn)樵撘来嫘哉Z(yǔ)言模型直接建模了一句話的語(yǔ)義結(jié)構(gòu)。與現(xiàn)有技術(shù)中的元語(yǔ)法(n-gram)語(yǔ)言模型相比,反映了依存性的語(yǔ)言模型更擅長(zhǎng)捕獲詞(例如,圖1中的“saw”……“with”)之間的非本地的依存性。當(dāng)給出依存樹時(shí),依存性語(yǔ)言模型概率成為定義在頭詞與其依存詞之間的三個(gè)子模型的乘積。例如,圖1中的樹概率可以如下計(jì)算:概率=Pt(saw)X Pl (he | saw-as-head)
X Pe (boy | saw-as-head)X Pe (with I boy, saw-as-head)X Pl (a I boy-as-head)X Pe (telescope | with-as-head)X Pl (a Itelescope-as-head)這里,PT(X)表示作為依存樹的根節(jié)點(diǎn)的詞X的概率。Pl和Pk分別表示右邊和左邊分別的生成概率。最近的一種依存性剖析器(parser)具有很高的性能(英文91%,中文87% ),但是這種依存性剖析器對(duì)于統(tǒng)計(jì)機(jī)器翻譯來(lái)說(shuō)還不夠。因?yàn)榇綐?string-to-tree)系統(tǒng)要依靠最好的樹來(lái)進(jìn)行參數(shù)評(píng)估,所以規(guī)則表和依存性語(yǔ)言模型的質(zhì)量會(huì)受到剖析出錯(cuò)的影響,從而出現(xiàn)翻譯錯(cuò)誤。
發(fā)明內(nèi)容
技術(shù)問(wèn)題提出本發(fā)明是用來(lái)解決上述問(wèn)題,并試圖通過(guò)利用一個(gè)全新的依存叢林的概念來(lái)提高規(guī)則表和依存性語(yǔ)言模型的質(zhì)量,其中依存叢林是通過(guò)組合多個(gè)依存樹,而非一個(gè)最佳依存樹而生成的。另外,本發(fā)明試圖通過(guò)應(yīng)用利用依存叢林而生成的規(guī)則表和依存性語(yǔ)言模型來(lái)提高翻譯能力。技術(shù)方案依照本發(fā)明的第一方面,一種生成翻譯規(guī)則的方法包括利用通過(guò)組合多個(gè)依存樹而生成的依存叢林來(lái)提取翻譯規(guī)則。依照本發(fā)明的第二方面,一種生成翻譯規(guī)則的方法包括以下步驟:對(duì)于雙語(yǔ)語(yǔ)料庫(kù)進(jìn)行依存性分析;通過(guò)該依存性分析生成依存樹,并且通過(guò)組合多個(gè)依存樹來(lái)生成依存叢林;針對(duì)該依存叢林內(nèi)的每個(gè)節(jié)點(diǎn)搜索多個(gè)合式結(jié)構(gòu);以及當(dāng)所述多個(gè)合式結(jié)構(gòu)中的依存結(jié)構(gòu)對(duì)應(yīng)于詞對(duì)齊時(shí),提取翻譯規(guī)則。依照本發(fā)明的第三方面,一種統(tǒng)計(jì)機(jī)器翻譯方法包括利用翻譯規(guī)則和依存性語(yǔ)言模型來(lái)翻譯源語(yǔ)言,該翻譯規(guī)則和依存性語(yǔ)言模型是從通過(guò)組合多個(gè)依存樹而生成的依存叢林生成的。依照本發(fā)明的第四方面,一種用于生成翻譯規(guī)則的設(shè)備包括:通過(guò)對(duì)雙語(yǔ)語(yǔ)料庫(kù)進(jìn)行依存性分析來(lái)生成依存樹,并且通過(guò)組合多個(gè)依存樹來(lái)生成依存叢林的裝置;針對(duì)依存叢林中的每個(gè)節(jié)點(diǎn)搜索多個(gè)合式結(jié)構(gòu)的裝置;以及當(dāng)所述多個(gè)合式結(jié)構(gòu)內(nèi)的依存結(jié)構(gòu)對(duì)應(yīng)于詞對(duì)齊時(shí),提取翻譯規(guī)則的裝置。依照本發(fā)明的第五方面,一種統(tǒng)計(jì)機(jī)器翻譯設(shè)備包括:依存性剖析器,其通過(guò)對(duì)雙語(yǔ)語(yǔ)料庫(kù)的的源句和目標(biāo)句進(jìn)行依存性分析來(lái)生成依存樹,并且通過(guò)組合多個(gè)依存樹來(lái)生成該源句和目標(biāo)句的依存叢林;翻譯規(guī)則提取器,其利用依存叢林來(lái)提取翻譯規(guī)則;語(yǔ)言模型訓(xùn)練器,其利用目標(biāo)句的依存叢林來(lái)生成依存性語(yǔ)言模型;以及解碼器,其通過(guò)應(yīng)用翻譯規(guī)則和依存性語(yǔ)言模型,將源句文本轉(zhuǎn)換為目標(biāo)句文本。有益效果
因此,本發(fā)明的效果在于,通過(guò)根據(jù)依存叢林來(lái)生成規(guī)則表和依存性語(yǔ)言模型并利用該規(guī)則表和依存性語(yǔ)言模型來(lái)進(jìn)行翻譯,相比于使用一個(gè)最佳依存樹的翻譯方法而言,大大提高了串依存性翻譯的能力,而所述依存叢林是通過(guò)組合多個(gè)依存樹而生成的。
圖1例示了訓(xùn)練示例,該示例包括英文句、中文翻譯和詞對(duì)齊的依存樹。圖2例示了合式依存結(jié)構(gòu)中的固定結(jié)構(gòu)和浮動(dòng)結(jié)構(gòu)。圖3例示了英文句中的兩個(gè)依存樹。圖4例示了緊密示出兩個(gè)依存樹的依存叢林。圖5例示了依據(jù)本發(fā)明的統(tǒng)計(jì)機(jī)器翻譯設(shè)備。
具體實(shí)施例方式以下將參照附圖,詳細(xì)描述本發(fā)明的示例性實(shí)施方式。通過(guò)以下的詳細(xì)描述,將清楚地理解本發(fā)明的配置及其可操作性的影響。在詳細(xì)介紹本發(fā)明之前,應(yīng)當(dāng)注意,附圖中任何可能位置上的相同的參考數(shù)字對(duì)應(yīng)于相同的部件,并且當(dāng)所知曉的配置可能使得本發(fā)明主旨引起不必要歧義時(shí),詳細(xì)描述將被忽略。本發(fā)明在基于樹形結(jié)構(gòu)的統(tǒng)計(jì)機(jī)器翻譯構(gòu)架中的訓(xùn)練步驟期間,使用源句串和對(duì)應(yīng)目標(biāo)句的多個(gè)依存樹。本發(fā)明建議了一種壓縮形式的依存樹,也被稱為依存叢林,以便有效地處理多個(gè)依存樹。該依存叢林具有超圖結(jié)構(gòu),就像一打包的叢林?;诔瑘D的依存叢林被安排在源句串中。通過(guò)檢查一個(gè)目標(biāo)短語(yǔ)是否是來(lái)自串到叢林(string-to-forest)對(duì)齊語(yǔ)料庫(kù)的合式結(jié)構(gòu),來(lái)提取多個(gè)翻譯規(guī)則。在依存叢林中,每個(gè)節(jié)點(diǎn)都是一個(gè)詞。為每個(gè)節(jié)點(diǎn)添加一個(gè)區(qū)間(span)以區(qū)分該節(jié)點(diǎn)。這些節(jié)點(diǎn)在依存叢林中通過(guò)超邊(hyperedge)而連接起來(lái)。在依存樹中,一條邊從依存節(jié)點(diǎn)(dependant)指向該依存節(jié)點(diǎn)的頭,但是超邊將所有具有公共頭的依存節(jié)點(diǎn)進(jìn)行打包。規(guī)則提取算法以從下向上(bottom-up)的方式搜索每個(gè)節(jié)點(diǎn)的合式結(jié)構(gòu)。該算法保持了每個(gè)節(jié)點(diǎn)的k個(gè)最佳(k-best)合式結(jié)構(gòu)。頭的合式結(jié)構(gòu)可從該頭的依存節(jié)點(diǎn)配置得來(lái)。在依存叢林中,每個(gè)節(jié)點(diǎn)的k個(gè)最佳固定和浮動(dòng)結(jié)構(gòu)可通過(guò)操作其依存節(jié)點(diǎn)的固定結(jié)構(gòu)來(lái)獲得。然后,當(dāng)依存結(jié)構(gòu)對(duì)應(yīng)于詞安排時(shí),串依存性對(duì)應(yīng)規(guī)則被提取。依存從林圖3的(a)和(b)例示了圖1的英文句示例的兩個(gè)依存樹。介詞短語(yǔ)“with atelescope”可依賴于“saw”或“boy”。圖4例示了一個(gè)依存叢林,其中通過(guò)共享公共節(jié)點(diǎn)和邊而緊密顯示了兩個(gè)依存樹。在該依存叢林中,每個(gè)節(jié)點(diǎn)是一個(gè)詞。為了區(qū)分節(jié)點(diǎn),為每個(gè)節(jié)點(diǎn)添加了區(qū)間。例如,“a”的區(qū)間是(2,2)。因?yàn)椤癮”是該句中的第三個(gè)詞。由于第四個(gè)詞“boy”控制了節(jié)點(diǎn)a2,2,所以第四個(gè)詞“boy”可以由boy2,3表示。這里應(yīng)當(dāng)注意,要考慮“boy”的位置。類似地,圖3的(b)中的詞“boy”可以表示為boy2,6。在該依存叢林中,節(jié)點(diǎn)通過(guò)超邊而連接起來(lái)。在依存樹中,邊緣僅僅從依存節(jié)點(diǎn)朝向依存節(jié)點(diǎn)的頭,但是超邊將所有具有公共頭的依存節(jié)點(diǎn)打包。例如,圖4中的超邊el意味著,heQ,Q, boy2,3,和with4,6是sawQ,6的從左邊到右邊的依存節(jié)點(diǎn)。el:< (he。,。,boy2,3, with4j6),saw0j6>依存叢林形式上可由<V,E>對(duì)來(lái)表示。這里,V表示節(jié)點(diǎn)集合,E表示超邊集合。每個(gè)節(jié)點(diǎn)屬于V(v e V),在包含η個(gè)詞的句子w0:n-l = wO…wn_l中,以Wy的形式表示。Wi,j指示了對(duì)應(yīng)于的節(jié)點(diǎn)控制了除其本身以外的從位置i到位置j的子字符串。每個(gè)超邊屬于 E (e e E),由〈tail (e), head(e) > 對(duì)來(lái)表示。head(e)屬于 V,如 head (head (e) e V),而tail (e)也屬于V,如head (tail (e) e V)的依存節(jié)點(diǎn)。依存叢林具有一個(gè)超圖結(jié)構(gòu),就像打包的叢林。然而,打包的叢林將對(duì)應(yīng)于每個(gè)超邊的PCFG規(guī)則概率當(dāng)做權(quán)重,依存叢林具有應(yīng)用了該權(quán)重的超圖。這是因?yàn)橐来嫘云饰銎鳛橐来鏄涞拿總€(gè)邊而不是依存叢林的超邊,輸出一個(gè)正或負(fù)分。例如,圖3的(a)中,邊he — saw, boy — saw,和 with — saw 的分?jǐn)?shù)分別是 13,22 和-12。為了給每個(gè)超邊分配概率,可以利用對(duì)應(yīng)邊的分?jǐn)?shù)來(lái)首先獲取超邊的正數(shù)。
權(quán)利要求
1.一種生成翻譯規(guī)則的方法,該方法包括以下步驟: 利用依存叢林來(lái)提取翻譯規(guī)則,所述依存叢林是通過(guò)組合多個(gè)依存樹而生成的。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述依存叢林的各個(gè)節(jié)點(diǎn)通過(guò)超邊連接,所述超邊將所有具有公共頭的依存節(jié)點(diǎn)進(jìn)行打包。
3.根據(jù)權(quán)利要求2所述的方法,其中,所述節(jié)點(diǎn)通過(guò)區(qū)間來(lái)區(qū)分。
4.根據(jù)權(quán)利要求1所述的方法,其中,所述依存叢林與源句串對(duì)齊,并且從串到叢林對(duì)齊的語(yǔ)料庫(kù)中提取翻譯規(guī)則。
5.根據(jù)權(quán)利要求2所述的方法,其中,通過(guò)搜索每個(gè)節(jié)點(diǎn)的合式結(jié)構(gòu),來(lái)維持該節(jié)點(diǎn)的多個(gè)最佳合式結(jié)構(gòu)。
6.根據(jù)權(quán)利要求5所述的方法,其中,通過(guò)連接所述節(jié)點(diǎn)的依存節(jié)點(diǎn)的固定結(jié)構(gòu),來(lái)獲得所述多個(gè)最佳合式結(jié)構(gòu)。
7.根據(jù)權(quán)利要求6所述的方法,其中,當(dāng)所述合式結(jié)構(gòu)內(nèi)的依存結(jié)構(gòu)對(duì)應(yīng)于詞對(duì)齊時(shí),提取翻譯規(guī)則。
8.—種生成翻譯規(guī)則的方法,該方法包括以下步驟: 對(duì)雙語(yǔ)語(yǔ)料庫(kù)進(jìn)行依存性分析; 通過(guò)所述依存性分析來(lái)生成依存樹,并且通過(guò)組合多個(gè)依存樹來(lái)生成依存叢林; 針對(duì)所述依存叢林內(nèi)的每個(gè)節(jié)點(diǎn)搜索多個(gè)合式結(jié)構(gòu);以及 當(dāng)所述多個(gè)合 結(jié)構(gòu)內(nèi)的依存結(jié)構(gòu)對(duì)應(yīng)于詞對(duì)齊時(shí),提取翻譯規(guī)則。
9.根據(jù)權(quán)利要求8所述的方法,其中,所述多個(gè)合式結(jié)構(gòu)是k個(gè)最佳固定和浮動(dòng)結(jié)構(gòu),并且是通過(guò)對(duì)所述節(jié)點(diǎn)的依存節(jié)點(diǎn)的固定結(jié)構(gòu)進(jìn)行操作而獲得的。
10.一種統(tǒng)計(jì)機(jī)器翻譯方法,該統(tǒng)計(jì)機(jī)器翻譯方法包括以下步驟: 利用根據(jù)依存叢林生成的翻譯規(guī)則和依存性語(yǔ)言模型來(lái)翻譯源語(yǔ)言,所述依存叢林是通過(guò)組合多個(gè)依存樹而生成的。
11.根據(jù)權(quán)利要求10所述的統(tǒng)計(jì)機(jī)器翻譯方法,其中,所述依存叢林的各個(gè)節(jié)點(diǎn)通過(guò)超邊連接,所述超邊將所有具有公共頭的依存節(jié)點(diǎn)進(jìn)行打包。
12.根據(jù)權(quán)利要求11所述的統(tǒng)計(jì)機(jī)器翻譯方法,其中,通過(guò)列出所述依存叢林的所有超邊來(lái)收集所有的頭及其依存節(jié)點(diǎn),并且根據(jù)所收集的信息來(lái)生成所述依存性語(yǔ)言模型。
13.—種生成翻譯規(guī)則的設(shè)備,該設(shè)備包括: 生成裝置,其通過(guò)對(duì)雙語(yǔ)語(yǔ)料庫(kù)進(jìn)行依存性分析來(lái)生成依存樹,并且通過(guò)組合多個(gè)依存樹來(lái)生成依存叢林; 搜索裝置,其針對(duì)所述依存叢林中的每個(gè)節(jié)點(diǎn)搜索多個(gè)合式結(jié)構(gòu);以及 提取裝置,其在所述多個(gè)合式結(jié)構(gòu)中的依存結(jié)構(gòu)對(duì)應(yīng)于詞對(duì)齊時(shí)提取翻譯規(guī)則。
14.根據(jù)權(quán)利要求13所述的設(shè)備,其中,所述多個(gè)合式結(jié)構(gòu)是k個(gè)最佳固定和浮動(dòng)結(jié)構(gòu),并且是通過(guò)對(duì)所述節(jié)點(diǎn)的依存節(jié)點(diǎn)的固定結(jié)構(gòu)進(jìn)行操作而獲得的。
15.一種統(tǒng)計(jì)機(jī)器翻譯設(shè)備,該統(tǒng)計(jì)機(jī)器翻譯設(shè)備包括: 依存性剖析器,其通過(guò)對(duì)雙語(yǔ)語(yǔ)料庫(kù)的源句和目標(biāo)句進(jìn)行依存性分析來(lái)生成依存樹,并且通過(guò)組合多個(gè)依存樹來(lái)生成所述源句和所述目標(biāo)句的依存叢林; 翻譯規(guī)則提取器,其利用所述依存叢林來(lái)提取翻譯規(guī)則; 語(yǔ)言模型訓(xùn)練器,其利用所述目標(biāo)句的依存叢林來(lái)生成依存性語(yǔ)言模型;以及解碼器,其通過(guò)應(yīng)用所述翻譯規(guī)則和所述依存性語(yǔ)言模型將源句文本轉(zhuǎn)換為目標(biāo)句文本。
16.根據(jù)權(quán)利要求15所述的統(tǒng)計(jì)機(jī)器翻譯設(shè)備,其中,所述依存性剖析器通過(guò)用超邊來(lái)連接形成多個(gè)依存樹的節(jié)點(diǎn)而生成所述依存叢林,并且所述超邊將所有具有公共頭的依存節(jié)點(diǎn)進(jìn)行打包。
17.根據(jù)權(quán)利要求16所述的統(tǒng)計(jì)機(jī)器翻譯設(shè)備,其中,所述翻譯規(guī)則提取器針對(duì)所述依存叢林內(nèi)的每個(gè)節(jié)點(diǎn)搜索多個(gè)合式結(jié)構(gòu),并且當(dāng)所述多個(gè)合式結(jié)構(gòu)中的依存結(jié)構(gòu)對(duì)應(yīng)于詞對(duì)齊時(shí)提取翻譯規(guī)則。
18.根據(jù)權(quán)利要求16所述的統(tǒng)計(jì)機(jī)器翻譯設(shè)備,其中,所述語(yǔ)言模型訓(xùn)練器通過(guò)列出所述依存叢林的所有超邊來(lái)收集所有的頭及其依存節(jié)點(diǎn),并根據(jù)所收集的信息來(lái)生成所述依存性語(yǔ)言模型。
19.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),該計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有用于執(zhí)行權(quán)利要求1至12之一的方法的 程序。
全文摘要
本發(fā)明涉及有效處理多個(gè)依存樹的依存叢林,該依存叢林使用多個(gè)依存樹來(lái)進(jìn)行基于樹的統(tǒng)計(jì)機(jī)器翻譯。本發(fā)明的方法使用依存叢林來(lái)生成翻譯規(guī)則和依存性語(yǔ)言模型,并且在將源語(yǔ)言文本轉(zhuǎn)換為目標(biāo)語(yǔ)言文本時(shí)應(yīng)用所生成的翻譯規(guī)則和依存性語(yǔ)言模型,從而提高翻譯能力。
文檔編號(hào)G06F17/26GK103154939SQ201180040952
公開日2013年6月12日 申請(qǐng)日期2011年5月31日 優(yōu)先權(quán)日2010年8月23日
發(fā)明者黃永淑, 金尚范, 林守勛, 涂兆鵬, 劉洋, 劉群, 尹昌浩 申請(qǐng)人:Sk普蘭尼特有限公司