亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于依存樹的統(tǒng)計機(jī)器翻譯方法及系統(tǒng)的制作方法

文檔序號:6622966閱讀:245來源:國知局
基于依存樹的統(tǒng)計機(jī)器翻譯方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種基于依存邊轉(zhuǎn)換的統(tǒng)計機(jī)器翻譯方法,根據(jù)從雙語語料庫中抽取的轉(zhuǎn)換規(guī)則,將源語言句子的依存樹中每條依存邊轉(zhuǎn)換為對應(yīng)的目標(biāo)語言短語依存邊,并對所得到的目標(biāo)語言短語依存邊進(jìn)行拼接,以生成目標(biāo)語言端譯文。該方法結(jié)合依存句法模型的優(yōu)勢,但采用分析-轉(zhuǎn)換-生成的模式將翻譯過程拆解成了三個階段,可以對三個過程分別獨立建模,使得對目標(biāo)語言端句子的生成過程進(jìn)行更為精確的控制成為可能。該采用基于依存邊的轉(zhuǎn)換保留了更多的知識,可以容忍更高程度的句法非同構(gòu)現(xiàn)象,而且取得超過當(dāng)前主流的基于短語模型翻譯的方法的性能。
【專利說明】基于依存樹的統(tǒng)計機(jī)器翻譯方法及系統(tǒng)

【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于自然語言處理【技術(shù)領(lǐng)域】,尤其涉及基于依存樹的統(tǒng)計機(jī)器翻譯方法。

【背景技術(shù)】
[0002]統(tǒng)計機(jī)器翻譯是近年來的熱點。伴隨其發(fā)展歷程,大致可以分為三大類:基于詞的翻譯、基于短語的翻譯和基于句法的翻譯。雖然當(dāng)前主流的翻譯系統(tǒng)大部分仍采用基于短語的翻譯模型,但是基于句法的翻譯模型近年來受到越來越多的關(guān)注。相比基于詞或短語的翻譯模型,基于句法的翻譯模型兼具語法和語義信息,表現(xiàn)出了較好的長距離調(diào)序的能力,并且可用更好的泛化能力對語言的層次化結(jié)構(gòu)進(jìn)行建模。但大多數(shù)基于句法的翻譯模型(例如,依存句法分析模型)使用同步過程直接對兩個語言間的結(jié)構(gòu)對應(yīng)進(jìn)行建模。例如,現(xiàn)有的依存樹的統(tǒng)計機(jī)器翻譯方法通常先將源語言端句子進(jìn)行依存句法分析得到源語言句子的依存樹;接著遍歷源語言依存樹的各個節(jié)點,在遍歷的同時基于從雙語語料度抽取的翻譯規(guī)則進(jìn)行翻譯,當(dāng)遍歷完源語言句子依存樹時即得到對應(yīng)的目標(biāo)語言端句子?;诙鄠€可選的翻譯規(guī)則可得到多個不同的目標(biāo)語言端句子,選取具有最高分?jǐn)?shù)的目標(biāo)語言端句子作為源語言端句子對應(yīng)的最終譯文。這類方法直接將源語言依存樹映射到目標(biāo)語言串,不能對所生成的目標(biāo)語言端句子的各個片段進(jìn)行重新調(diào)序。與基于短語的翻譯模型相t匕,其翻譯的準(zhǔn)確率以及靈活性仍有待提高。


【發(fā)明內(nèi)容】

[0003]因此,本發(fā)明的一個目的在于提供一種新的基于依存樹的轉(zhuǎn)換規(guī)則抽取方法。
[0004]本發(fā)明的另一個目的在于提供一種新的基于依存樹的統(tǒng)計機(jī)器翻譯方法及系統(tǒng)。
[0005]本發(fā)明的目的是通過以下技術(shù)方案實現(xiàn)的:
[0006]—方面,本發(fā)明提供了一種基于依存樹的轉(zhuǎn)換規(guī)則抽取方法,包括:
[0007]步驟1,對于由源語言依存樹、目標(biāo)語言串和源語言與目標(biāo)語言之間的詞語對齊關(guān)系構(gòu)成的三元組中所述源語言依存樹的每個節(jié)點,利用所述對齊關(guān)系標(biāo)記該節(jié)點的節(jié)點域和子樹域,其中所述節(jié)點域是與該節(jié)點對齊的所有目標(biāo)詞在所述目標(biāo)語言串中的位置的集合,所述子樹域是指以該節(jié)點為根的依存子樹中所有節(jié)點的節(jié)點域的并集;
[0008]步驟2,從所述源語言依存樹中提取可接受的依存邊,并從每條可接受的依存邊抽取轉(zhuǎn)換規(guī)則;
[0009]其中,所述可接受的依存邊是指滿足下列條件的依存邊:(i)該依存邊的頭節(jié)點的節(jié)點域和該依存邊的依存節(jié)點的子樹域沒有交集;(ii)該依存邊的頭節(jié)點的節(jié)點域與所述源語言依存樹中任何其他節(jié)點的節(jié)點域沒有交集;(iii)該依存邊的依存節(jié)點的子樹域與所述源語言依存樹中在以該依存節(jié)點為根的子樹之外的任何其他節(jié)點的節(jié)點域沒有交集;以及
[0010]所述轉(zhuǎn)換規(guī)則包括源端依存邊和目標(biāo)端短語依存邊,所述源端依存邊為一條可接受的依存邊,所述目標(biāo)端短語依存邊包括與所述源端依存邊的頭結(jié)點對應(yīng)的目標(biāo)語言短語片、以所述源端依存邊的依存結(jié)點為根節(jié)點的依存子樹對應(yīng)的目標(biāo)語言短語片以及這兩個目標(biāo)語言短語片在所述目標(biāo)語言串中的左右位置關(guān)系和是否相鄰的位置關(guān)系。
[0011]上述抽取方法中,所述步驟I還可以包括為所述源語言依存樹中每個節(jié)點標(biāo)記對應(yīng)詞的詞性。
[0012]上述抽取方法中,還可以包括對所抽取的轉(zhuǎn)換規(guī)則進(jìn)行泛化,以獲取泛化后的轉(zhuǎn)換規(guī)則。
[0013]上述抽取方法中,所述轉(zhuǎn)換規(guī)則的目標(biāo)端的兩個目標(biāo)語言短語片在目標(biāo)語言串中的左右位置關(guān)系和是否相鄰的位置關(guān)系是基于所述轉(zhuǎn)化規(guī)則的源端依存邊的頭結(jié)點的節(jié)點域和其依存節(jié)點的子樹域來獲取的。
[0014]上述抽取方法中,如果所述轉(zhuǎn)化規(guī)則的源端依存邊的頭結(jié)點的節(jié)點域的開始位置大于其依存節(jié)點的子樹域的結(jié)束位置,則該依存邊的頭結(jié)點對應(yīng)的目標(biāo)語言短語片在以該依存邊的依存結(jié)點為根節(jié)點的依存子樹對應(yīng)的目標(biāo)語言短語片的左邊位置,反之則在右邊;
[0015]如果所述轉(zhuǎn)化規(guī)則的源端依存邊的頭結(jié)點的節(jié)點域的開始位置或結(jié)束位置中的一個與其依存節(jié)點的子樹域的開始位置或結(jié)束位置的其中一個相鄰,則該依存邊的頭結(jié)點對應(yīng)的目標(biāo)語言短語片與以該依存邊的依存結(jié)點為根節(jié)點的依存子樹對應(yīng)的目標(biāo)語言短語片是相鄰的,反之則不相鄰。
[0016]上述抽取方法中,在所述步驟2,對于每條可接受的依存邊可以執(zhí)行下列操作:
[0017](a)以該可接受的依存邊構(gòu)成轉(zhuǎn)換規(guī)則的源端依存邊;
[0018](b)獲取該可接受的依存邊的頭結(jié)點對應(yīng)的目標(biāo)語言片和以該可接受的依存邊的依存結(jié)點為根節(jié)點的依存子樹對應(yīng)的目標(biāo)語言短語片,并且根據(jù)該可接受的依存邊的頭結(jié)點的節(jié)點域和依存節(jié)點的子樹域,獲取這兩個目標(biāo)短語片在目標(biāo)語言串中的左右位置關(guān)系和是否相鄰的位置關(guān)系,以此構(gòu)成轉(zhuǎn)換規(guī)則的目標(biāo)端短語依存邊。
[0019]另一方面,本發(fā)明提供了一種基于依存樹的統(tǒng)計機(jī)器翻譯方法,所述方法包括:
[0020]步驟I)獲取待翻譯的源語言句子的依存樹;
[0021]步驟2)基于根據(jù)上文的基于依存樹的轉(zhuǎn)換規(guī)則抽取方法從雙語語料庫中抽取的轉(zhuǎn)換規(guī)則,獲取所述依存樹中每條依存邊對應(yīng)的目標(biāo)端短語依存邊,并對所得到的目標(biāo)端短語依存邊進(jìn)行拼接,以生成與源語言句子對應(yīng)的一個或多個候選譯文;
[0022]步驟3)對每個候選譯文進(jìn)行評分,選取最高分?jǐn)?shù)的候選譯文作為與源語言句子對應(yīng)的最終譯文。
[0023]上述翻譯方法中,所述步驟2)可以包括:后序遍歷所述源語言句子的依存樹的每個節(jié)點并在每個節(jié)點處執(zhí)行下列操作,直到根節(jié)點為止:
[0024]步驟2-1)獲取該節(jié)點與該節(jié)點的每個依存節(jié)點之間的依存邊;
[0025]步驟2-2)對于每條依存邊,從所抽取的轉(zhuǎn)換規(guī)則中查找其源端依存邊與該依存邊相同的一個或多個轉(zhuǎn)換規(guī)則,并基于每個匹配的轉(zhuǎn)換規(guī)則,獲取該依存邊對應(yīng)的目標(biāo)端短語依存邊;
[0026]步驟2-3)將所得到的目標(biāo)端短語依存邊進(jìn)行拼接,以獲取該節(jié)點覆蓋的依存子樹對應(yīng)的譯文片段。
[0027]上述翻譯方法中,所述步驟2-2)還可以包括對于每條依存邊,將該依存邊的頭結(jié)點或依存節(jié)點替換成變量和該節(jié)點對應(yīng)詞的詞性標(biāo)記,從所抽取的轉(zhuǎn)換規(guī)則中選擇其源端依存邊與該經(jīng)修改后的依存邊相同的轉(zhuǎn)換規(guī)則。
[0028]上述翻譯方法中,所述步驟2-3)可以包括:
[0029]a)選取其中包含相鄰位置關(guān)系的目標(biāo)端短語依存邊作為擴(kuò)展點;
[0030]b)基于所有目標(biāo)端短語依存邊包含的位置關(guān)系,在該擴(kuò)展點對應(yīng)的譯文片段的左右方向枚舉所有可能與其余各個目標(biāo)端短語依存邊對應(yīng)譯文片段。
[0031]又一方面,本發(fā)明提供了一種基于依存樹的統(tǒng)計機(jī)器翻譯系統(tǒng),包括:
[0032]分析模塊,用于獲取待翻譯的源語言句子的依存樹;
[0033]轉(zhuǎn)換模塊,用于基于根據(jù)上文的基于依存樹的轉(zhuǎn)換規(guī)則抽取方法從雙語語料庫中抽取的轉(zhuǎn)換規(guī)則,獲取所述依存樹中每條依存邊對應(yīng)的目標(biāo)端短語依存邊,并對所得到的目標(biāo)端短語依存邊進(jìn)行拼接,以生成與源語言句子對應(yīng)的一個或多個候選譯文;
[0034]輸出模塊,用于對每個候選譯文進(jìn)行評分,選取最高分?jǐn)?shù)的候選譯文作為與源語言句子對應(yīng)的最終譯文。
[0035]與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點在于:
[0036]結(jié)合依存句法模型并采用分析-轉(zhuǎn)換-生成的模式將翻譯過程拆解成了三個階段,可以對三個過程分別獨立建模,使得對目標(biāo)語言端句子的生成過程進(jìn)行更為精確的控制成為可能。基于依存邊的轉(zhuǎn)換保留了更多的知識,并且可以容忍更高程度的句法非同構(gòu)現(xiàn)象。而且,通過在125萬平行雙語語料數(shù)據(jù)集上進(jìn)行實驗,根據(jù)本發(fā)明實施例的翻譯方法的性能較主流的基于短語的翻譯方法提高1.34個BLEU點。

【專利附圖】

【附圖說明】
[0037]以下參照附圖對本發(fā)明實施例作進(jìn)一步說明,其中:
[0038]圖1為根據(jù)本發(fā)明實施例的標(biāo)記節(jié)點域和子樹域的源語言依存樹的示意圖;
[0039]圖2為根據(jù)本發(fā)明實施例的轉(zhuǎn)換規(guī)則的示意圖;
[0040]圖3為根據(jù)本發(fā)明實施例的泛化轉(zhuǎn)換規(guī)則的過程示意圖;
[0041]圖4為根據(jù)本發(fā)明實施例的基于依存樹的統(tǒng)計機(jī)器翻譯方法的流程圖;
[0042]圖5為根據(jù)本發(fā)明實施例的基于依存樹的統(tǒng)計機(jī)器翻譯方法操作過程示意圖。

【具體實施方式】
[0043]為了使本發(fā)明的目的,技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖通過具體實施例對本發(fā)明進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0044]為了更好地理解本發(fā)明,首先簡單介紹一下依存樹及現(xiàn)有的基于依存樹的統(tǒng)計機(jī)器翻譯方法的基本過程。一個句子的依存樹中的每個節(jié)點對應(yīng)于句子中的一個單詞,依存樹中的每條有向邊代表一對單詞之間的關(guān)系,方向是從中心節(jié)點(也可稱為頭節(jié)點)指向修飾節(jié)點(也可稱為依存節(jié)點)。除了根節(jié)點之外,每個節(jié)點有且只有一條有向邊指向它。依存樹中每個節(jié)點的左右孩子節(jié)點可表示修飾詞與中心詞之間的左右位置關(guān)系?,F(xiàn)有的基于依存樹的統(tǒng)計機(jī)器翻譯方法通常先將要翻譯的源語言端句子進(jìn)行依存句法分析得到源語言句子依存樹;接著遍歷該依存樹的各個節(jié)點,在遍歷的同時按照一定的規(guī)則及對齊關(guān)系進(jìn)行翻譯,當(dāng)遍歷完源語言句子的依存樹時就會得到對應(yīng)的目標(biāo)語言端句子?;诙鄠€可選的規(guī)則可得到多個不同的翻譯候選譯文,通常利用對數(shù)線性模型,對每個翻譯候選譯文選取翻譯特征進(jìn)行評分和排序,取分?jǐn)?shù)最高的翻譯候選譯文作為最終譯文。其中所述規(guī)則是從包含三元組的雙語語料庫中抽取的,所述三元組為源語言依存句法樹(也可以稱為依存樹),目標(biāo)語言串,以及源語言與目標(biāo)語言之間的詞語對齊關(guān)系,即(源語言依存樹,目標(biāo)語言串,對齊)。現(xiàn)有的基于依存樹的規(guī)則抽取方法是以依存子樹為單位進(jìn)行抽取的,每個依存子樹代表的是短語或句子片段。將依存子樹實際上是一組依存邊的集合,因為其依存邊較多,發(fā)生對齊錯誤的可能性也很高,而在抽取翻譯規(guī)則時一旦發(fā)現(xiàn)對齊錯誤,就放棄對整棵依存子樹所對應(yīng)的翻譯規(guī)則的抽取,所以損失了很多信息和學(xué)習(xí)機(jī)會。
[0045]在本發(fā)明的一個實施例中,提供了一種基于依存邊的轉(zhuǎn)換規(guī)則抽取方法。該方法用于從雙語語料庫中抽取轉(zhuǎn)換規(guī)則(也可以稱為翻譯規(guī)則)。對于雙語語料庫中每對源語言句子和目標(biāo)語言句子,都可以利用現(xiàn)有的依存句法分析器以及對齊工具得到相應(yīng)的三元組,其中每個三元組包括源語言依存句法樹,目標(biāo)語言串,以及源語言與目標(biāo)語言之間的詞語對齊關(guān)系,可記為(源語言依存樹,目標(biāo)語言串,對齊關(guān)系)。該方法對于每個三元組執(zhí)行下列操作:
[0046]I)對于源語言依存句法樹中每個節(jié)點n,利用對齊關(guān)系標(biāo)記該節(jié)點η的節(jié)點域和子樹域。其中所述節(jié)點域是與η對齊的所有目標(biāo)詞在所述目標(biāo)語言串中的位置的集合,所述子樹域是指以η為根的依存子樹中所有節(jié)點的節(jié)點域的并集。此外,還可以為每個節(jié)點η標(biāo)記對應(yīng)詞的詞性。
[0047]以圖1所示的源語言依存句法樹為例,其代表的源語言句子為“奧巴馬今天將發(fā)布安全戰(zhàn)略聲明”,其對應(yīng)的目標(biāo)語言句子為“obama today will issue a statementof security strategy”,由此可確定每個目標(biāo)詞在該目標(biāo)語言句子中的位置序號。例如“obama”的位置為l,“iSSue”的位置為4,以此類推。為了便于下文中對規(guī)則抽取方法的說明,對圖1中的依存樹的每個節(jié)點標(biāo)記了對應(yīng)詞的詞性。采用的詞性標(biāo)記為美國賓州大學(xué)中文語言處理計劃定義的標(biāo)記(可參見Fei Xia.2000.The Part-of-Speech TaggingGuidelines for the Penn Chinese Treebank(3.0).http://www.cis.upenn.edu/ ?chinese/posguide.3rd.ch.pdf.)。例如,節(jié)點“發(fā)布/VV”指“發(fā)布”的詞性為動詞將/AD”指“將”的詞性為副詞,“聲明/NN”指“聲明”的詞性為名詞,等等。如圖1所示,對于該源語言依存句法樹中每個節(jié)點,分別利用對齊關(guān)系標(biāo)記該節(jié)點的節(jié)點域和子樹域。例如,以節(jié)點“戰(zhàn)略”為例,其對齊到目標(biāo)語言句子中的第9個詞“strategy”上,因此其節(jié)點域為{9},開始和結(jié)束位置都為9,也可以記為{9-9},由于該節(jié)點為葉子節(jié)點,不包括孩子節(jié)點,因此,其子樹域與該節(jié)點的節(jié)點域相同,為{9-9}。以節(jié)點“安全”為例,其與“of security”對齊,即對齊到目標(biāo)語言句子的第7和8個詞上,因此其節(jié)點域為{7,8},也可以記為{7-8},該節(jié)點也是葉子節(jié)點,其子樹域也為{7-8}。又以節(jié)點“聲明”為例,其對齊到目標(biāo)語言句子的“a statement of ”上,這三個詞分別為第5、6、7個詞,因此其節(jié)點域為{5,67},開始位置為5,結(jié)束位置為7,也可以將節(jié)點域記為{5-7};以節(jié)點“聲明”為根的子樹中所有節(jié)點的節(jié)點域的并集為{5,6,7,8,9},因此該節(jié)點的子樹域為{5,6,7,8,9},也可記為{5-9},該節(jié)點覆蓋的整個子樹的所有節(jié)點域恰好可以組成一個連續(xù)的句子片段或短語片“a statement ofsecurity strategy,,。
[0048]2)遍歷源語言依存樹的除根結(jié)點之外的各個節(jié)點,在當(dāng)前節(jié)點與其父節(jié)點之間的邊中,抽取可接受的依存邊。從上文對依存樹的介紹可知,當(dāng)前節(jié)點與其父節(jié)點之間的邊是單向的修飾關(guān)系,每條依存邊包括頭節(jié)點和依存節(jié)點。對于當(dāng)前節(jié)點與其父節(jié)點之間的邊而言,當(dāng)前節(jié)點可稱為這條邊的修飾節(jié)點或依存節(jié)點,而其父節(jié)點可稱為這條邊的頭節(jié)點。如果一條依存邊滿足下列條件時,可稱為可接受的依存邊:
[0049](i)頭節(jié)點的節(jié)點域和依存節(jié)點的子樹域沒有交集;
[0050](ii)頭節(jié)點的節(jié)點域與依存樹任何其他節(jié)點的節(jié)點域沒有交集;
[0051](iii)依存節(jié)點的子樹域與依存樹中在以依存節(jié)點為根的子樹之外的任何其他節(jié)點的節(jié)點域沒有交集。
[0052]仍以圖1為例,節(jié)點“安全”和“聲明”之間的依存邊不是一條可接受的依存邊,這是因為“聲明”的節(jié)點域{5,6,7}和“安全”的子樹域{7,8}有交集,從圖1可以看出“安全”和“聲明”同時對齊到位置7。而圖1中的其他邊都是可接受的依存邊。
[0053]步驟3)從每條可接受的依存邊中抽取轉(zhuǎn)換規(guī)則
[0054]所述轉(zhuǎn)換規(guī)則包括源語言端(也可簡稱為源端)和目標(biāo)語言端(也可簡稱為目標(biāo)端)兩個部分,源語言端為源語言依存樹中一條可接受的依存邊,源語言端的依存邊(也可簡稱為源端依存邊)包含下列信息:該邊的頭結(jié)點、該邊的依存節(jié)點、頭結(jié)點與依存節(jié)點的左右位置關(guān)系和/或頭結(jié)點與依存節(jié)點的語法依存關(guān)系。在基于句法的統(tǒng)計翻譯方法中,頭結(jié)點與依存節(jié)點的語法依存關(guān)系通??梢圆捎谩皀n、punct、nsubj、conj、dobj、advmod、prep、pobj、neg、comod、amod、tmod”等來進(jìn)行標(biāo)記。所述轉(zhuǎn)換規(guī)則的目標(biāo)語言端是一條短語依存邊,該目標(biāo)語言端的短語依存邊(也可簡稱為目標(biāo)端依存邊)的頭結(jié)點為源端依存邊的頭結(jié)點對應(yīng)的目標(biāo)語言短語片、該短語依存邊的依存結(jié)點為以源端依存邊的依存結(jié)點為根節(jié)點的依存子樹對應(yīng)的目標(biāo)語言短語片以及這兩個目標(biāo)短語片在目標(biāo)語言串中的位置關(guān)系。其中這兩個目標(biāo)短語片在目標(biāo)語言串中的位置關(guān)系包括二者在所述目標(biāo)語言串中所處的左右位置關(guān)系以及是否相鄰的位置關(guān)系。短語片實際上也可以理解為一個連續(xù)的句子片段。圖2給出了根據(jù)本發(fā)明實施例的部分轉(zhuǎn)換規(guī)則的示意圖。以圖2中編號為①的轉(zhuǎn)換規(guī)則為例:上半部分是源語言端的一條依存邊,包括該邊的頭結(jié)點“發(fā)布”、該邊的依存節(jié)點“奧巴馬”、“奧巴馬”在“發(fā)布”的左邊,并且可以將這條邊標(biāo)記為nsubj來表示頭結(jié)點與依存節(jié)點的語法依存關(guān)系,表示依存節(jié)點為修改頭結(jié)點的名詞性主語;下半部分是該轉(zhuǎn)換規(guī)則的目標(biāo)語言端的短語依存邊,其包括頭結(jié)點“發(fā)布”對應(yīng)的目標(biāo)語言片“issue”、以依存節(jié)點“奧巴馬”為根的依存子樹對應(yīng)的目標(biāo)語言片“obama”、“obama”在“issue”的左邊且“ issue” 與 “obama” 不相鄰,在圖 2 中標(biāo)記為 “non-adjacent”。
[0055]在一個實施例中,從每條可接受的依存邊中抽取轉(zhuǎn)換規(guī)則可包括以下步驟:
[0056](a)由可接受的依存邊構(gòu)成轉(zhuǎn)換規(guī)則的源語言端。
[0057](b)獲取可接受的依存邊的頭結(jié)點對應(yīng)的目標(biāo)語言片和以該依存邊的依存結(jié)點為根節(jié)點的依存子樹對應(yīng)的目標(biāo)語言短語片,并且根據(jù)該可接受的依存邊的頭結(jié)點的節(jié)點域和依存節(jié)點的子樹域,獲取這兩個目標(biāo)語言短語片的位置關(guān)系,包括是否相鄰,左右位置關(guān)系,以此構(gòu)成轉(zhuǎn)換規(guī)則的目標(biāo)端。如果該可接受的依存邊的頭結(jié)點的節(jié)點域的開始位置大于依存節(jié)點的子樹域的結(jié)束位置,則該依存邊的頭結(jié)點對應(yīng)的目標(biāo)語言片在以該依存邊的依存結(jié)點為根節(jié)點的依存子樹對應(yīng)的目標(biāo)語言短語片的左邊位置,反之則在右邊。如果該可接受的依存邊的頭結(jié)點的節(jié)點域的開始位置或結(jié)束位置中的一個與依存節(jié)點的子樹域的開始位置或結(jié)束位置的其中一個相鄰,則該依存邊的頭結(jié)點對應(yīng)的目標(biāo)語言片與以該依存邊的依存結(jié)點為根節(jié)點的依存子樹對應(yīng)的目標(biāo)語言短語片是相鄰的,反之則不相鄰。
[0058]例如,以圖1中“發(fā)布”和“聲明”之間的依存邊為例,所抽取的轉(zhuǎn)換規(guī)則的源語言端為“發(fā)布”和“聲明”之間的依存邊,“發(fā)布”對應(yīng)的目標(biāo)語言片為“issue”,“聲明”對應(yīng)的整棵子樹所覆蓋的目標(biāo)語言片為“a statement of security strategy”。然后基于該可接受的依存邊的頭結(jié)點的節(jié)點域{4}和依存節(jié)點的子樹域{5-7}可知,“a statement ofsecurity strategy”在“issue”的右邊,且與“issue”相鄰,該依存邊標(biāo)記為“adjacent”。這些信息組成所抽取的轉(zhuǎn)換規(guī)則的目標(biāo)語言端。
[0059]又例如以圖2中編號為⑤的轉(zhuǎn)換規(guī)則為例:上半部分是源語言端的一條邊,包括該邊的頭結(jié)點“聲明”,該邊的依存節(jié)點“戰(zhàn)略”,“戰(zhàn)略”在“聲明”的左邊;下半部分是該轉(zhuǎn)換規(guī)則的目標(biāo)語言端,其包括頭結(jié)點“聲明”對應(yīng)的目標(biāo)語言片“a statement of”,以依存節(jié)點“戰(zhàn)略”為根的依存字?jǐn)?shù)對應(yīng)的目標(biāo)語言片“strategy”,基于該可接受的依存邊的頭結(jié)點的節(jié)點域{5-7}和依存節(jié)點的子樹域{9}可知,“strategy”在“a statement of”的右邊(圖 2 中 “strategy” 為 “a statement of” 的右孩子節(jié)點),且 “a statement of”與“strategy”不相鄰,因此該依存邊標(biāo)記為“non-adjacent”。
[0060]在又一個實施例中,在抽取規(guī)則時,如果可接受的依存邊的頭節(jié)點或依存節(jié)點是內(nèi)部節(jié)點,可以將其標(biāo)記為一個變量,表示該節(jié)點是可替換的。例如圖2中編號為④的轉(zhuǎn)換規(guī)則,“聲明”是內(nèi)部節(jié)點,可以對其進(jìn)行標(biāo)記,例如記為“*:聲明”,并且將在該轉(zhuǎn)換規(guī)則的目標(biāo)語言端的短語依存邊的依存節(jié)點相應(yīng)地設(shè)置為一個變量,例如以表示。其中,內(nèi)部節(jié)點指源語言依存樹中除葉節(jié)點和根結(jié)點之外的所有節(jié)點。
[0061]在又一個實施例中,還可以對所抽取的轉(zhuǎn)換規(guī)則進(jìn)行泛化,得到泛化后的非詞匯化的轉(zhuǎn)換規(guī)則。例如,可以將轉(zhuǎn)換規(guī)則的源端依存邊的頭結(jié)點替換成為一個變量和詞性標(biāo)記限定,并將轉(zhuǎn)換規(guī)則的目標(biāo)端依存邊的頭節(jié)點也設(shè)置為變量,例如標(biāo)記為*?;蛘?,可以將轉(zhuǎn)換規(guī)則的源端依存邊的依存節(jié)點替換成為一個變量和詞性標(biāo)記限定,并將轉(zhuǎn)換規(guī)則的目標(biāo)端依存邊的依存節(jié)點也設(shè)置為變量,例如標(biāo)記為*。但不能同時替換頭結(jié)點和依存節(jié)點。圖3給出了根據(jù)本發(fā)明一個示例的泛化轉(zhuǎn)換規(guī)則的示意圖。如圖3所示,可以將頭結(jié)點“發(fā)布”替換成一個變量,同時標(biāo)記為“W”,表示一個動詞性的詞都可以替換到這里。也可以將依存節(jié)點“奧巴馬”替換成一個變量,同時標(biāo)記為“NN”,表示一個名詞都可以替換到這里。這樣,從“發(fā)布”與“奧巴馬”之間的依存邊又可以抽取出兩條轉(zhuǎn)換規(guī)則??梢?,通過對所抽取的規(guī)則進(jìn)行泛化,可以獲取更多的語義信息,而且還可以盡量避免在雙語語料受限的情況下,抽取的轉(zhuǎn)換規(guī)則過于稀疏的情況。
[0062]與現(xiàn)有的基于依存樹的翻譯規(guī)則抽取方法相比,根據(jù)本發(fā)明實施例的基于依存邊的轉(zhuǎn)換規(guī)則抽取方法,在抽取形式上極為簡單,是以每條依存邊為單位來抽取轉(zhuǎn)換規(guī)則,其對源語言知識的表達(dá)形式上更為靈活,它能夠精確的刻劃一條依存邊中的頭結(jié)點和依存節(jié)點之間的關(guān)系,并且可以提取到詞與詞、詞語與短語之間的左右位置關(guān)系及相鄰與否的位置關(guān)系。這樣抽取的轉(zhuǎn)換規(guī)則可以給后續(xù)的翻譯準(zhǔn)確性以及目標(biāo)譯文的重新調(diào)序提供了有力的支持。而且,由于本發(fā)明以依存邊為單位來抽取轉(zhuǎn)換規(guī)則,相比以依存子樹為單位抽取規(guī)則的方法,能夠找到更多滿足抽取要求的依存邊,能更多地抽取并學(xué)習(xí)到轉(zhuǎn)換規(guī)則,因而,對翻譯過程中所用到的知識學(xué)習(xí)的更為充分。
[0063]圖4給出了根據(jù)本發(fā)明一個實施例的基于依存邊轉(zhuǎn)換的統(tǒng)計機(jī)器翻譯方法的流程圖。該方法主要包括獲取待翻譯的源語言句子的依存句法樹(也可簡稱為源語言依存樹);基于采用上文所討論的抽取方法從雙語語料庫中抽取的轉(zhuǎn)換規(guī)則,獲取該源語言依存樹中每條依存邊對應(yīng)的目標(biāo)端依存邊,并對所得到的目標(biāo)端依存邊進(jìn)行拼接,以生成候選的目標(biāo)語言譯文;以及對每個候選譯文進(jìn)行評分,選取最高分?jǐn)?shù)的候選譯文作為翻譯結(jié)果O
[0064]更具體地,首先,可以利用現(xiàn)有的各種句法分析器對待翻譯的源語言句子或源語言串進(jìn)行句法分析,以獲取其對應(yīng)的依存句法樹。例如,可以采用如MSTParser、MaltParser等的依存句法分析器分析源語言句子,以得到依存句法樹。又例如,也可以采用成分句法分析器 Stanford parser (可參見 Dan Klein and Christopher D.Manning.2003.AccurateUnlexicalized Parsing.Proceedings of the 41st Meeting of the Associat1n forComputat1nal Linguistics, pp.423-430)。Stanford parser 工具包中已經(jīng)集成相應(yīng)的轉(zhuǎn)換工具,通過在輸入命令中設(shè)置-outputFormat選項的值為typedDependencies,可以直接得到所輸入的源語言串的依存句法樹。
[0065]為了說明的方便,源語言句子仍以中文句子“奧巴馬今天將發(fā)表安全戰(zhàn)略聲明”為例進(jìn)行說明,經(jīng)過依存句法分析得到依存句法樹(如圖1所示)。
[0066]在得到待翻譯的源語言句子的依存樹之后,可以后序遍歷該依存樹的每個節(jié)點并執(zhí)行下列操作,直到根節(jié)點為止:
[0067](I)抽取該節(jié)點與該節(jié)點的每個依存節(jié)點之間的依存邊。
[0068](2)對于每條依存邊,將其作為源語言端依存邊,從如上文抽取到的轉(zhuǎn)換規(guī)則中查找與該依存邊匹配的一個或多個轉(zhuǎn)換規(guī)則。其中,在匹配的過程中,如果該依存邊與某個轉(zhuǎn)換規(guī)則的源端依存邊完全相同,則可以將該轉(zhuǎn)換規(guī)則確定為與該依存邊匹配的轉(zhuǎn)換規(guī)則。在又一個實施例中,還可以按照上述所述的對轉(zhuǎn)換規(guī)則進(jìn)行泛化的方法,對該依存邊進(jìn)行泛化,可以將該依存邊的頭結(jié)點或依存節(jié)點替換成一個變量,同時為其標(biāo)記詞性,表示一個相同詞性的詞都可以替換到這里。這樣,將泛化后的依存邊作為源語言端依存邊,將其與上文從語料庫中抽取到的轉(zhuǎn)換規(guī)則進(jìn)行匹配,以找到與該依存邊匹配的、泛化后的轉(zhuǎn)換規(guī)則。
[0069](3)基于每個匹配的轉(zhuǎn)換規(guī)則,獲取該依存邊對應(yīng)的目標(biāo)端依存邊。其中,對于每個泛化后的轉(zhuǎn)換規(guī)則,在獲取目標(biāo)端依存邊時,要補齊泛化的變量,也就是選擇與該變量具有相同詞性的目標(biāo)詞來代替該變量。
[0070](4)將所得到的目標(biāo)端依存邊進(jìn)行拼接,以獲取當(dāng)前節(jié)點覆蓋的依存子樹的譯文片段。例如,首先選取其中包含相鄰位置關(guān)系的目標(biāo)端依存邊作為擴(kuò)展點;接著根據(jù)所有目標(biāo)端依存邊包含的位置關(guān)系,在該擴(kuò)展點對應(yīng)的譯文片段的左右方向枚舉所有可能與其余的各個目標(biāo)端依存邊對應(yīng)的譯文片段。
[0071]例如,參考圖5,后序遍歷源語言依存句法樹,在圖5中假設(shè)當(dāng)前已經(jīng)訪問到根節(jié)點“發(fā)布”,其他各內(nèi)部節(jié)點都已經(jīng)訪問完畢且翻譯完成,其中“聲明”所對應(yīng)的子樹已經(jīng)被翻譯(該子樹對應(yīng)的譯文片段可以有多個,暫時都以表示)。這時,抽取“發(fā)布”和其對應(yīng)的四個依存節(jié)點之間的四條依存邊。假設(shè)從上文抽取的轉(zhuǎn)換規(guī)則中與這四條依存邊匹配的轉(zhuǎn)換規(guī)則為如圖2所示的前四個轉(zhuǎn)換規(guī)則,則基于這些轉(zhuǎn)換規(guī)則可以獲得每個依存邊對應(yīng)的目標(biāo)端依存邊。然后對這些目標(biāo)端依存邊進(jìn)行拼接。
[0072]如圖5最下方的框所示,在進(jìn)行拼接時,首先可以選取一個其位置關(guān)系被標(biāo)記為“相鄰(adjacent) ”的目標(biāo)端依存邊作為擴(kuò)展點。例如,在圖5中選擇了“issue”和“will”之間的邊。接著,基于所有目標(biāo)端依存邊包含的位置關(guān)系來向左右進(jìn)行擴(kuò)展。如圖5所示,向左擴(kuò)展時,根據(jù)目標(biāo)端依存邊的位置關(guān)系,“Obama”與“issue”之間的依存邊和“today”與“issue”之間的依存邊的位置關(guān)系中指示這兩個依存節(jié)點“Obama”和“today”在“issue”的左邊,并且與“issue”不相鄰,因而,可基于這兩個目標(biāo)詞與“issue”的位置關(guān)系進(jìn)行枚舉,得到譯文“obama today will issue”和“today Obama will issue”。向右擴(kuò)展時,將所有目標(biāo)端依存邊依照其本身攜帶的位置信息向右擴(kuò)展,并進(jìn)行枚舉。如圖5所示,向右擴(kuò)展時遇到一個已經(jīng)翻譯好的內(nèi)部節(jié)點,該內(nèi)部節(jié)點的所對應(yīng)的其中一個譯文片段為“a statementof security strategy”,將其拼接到前面兩個已經(jīng)生成的句子片段上,這樣就得到了兩個番羽譯候選譯文“obama today will issue a statement of security strategy”和“todayobama will issue a statement of security strategy”,也就是得到節(jié)點“發(fā)布”所覆蓋的整棵子樹的譯文。由于一個源端依存邊可能會匹配多個目標(biāo)端依存邊,每個翻譯好的內(nèi)部節(jié)點也可能會有多個候選譯文片段,因此需要全部進(jìn)行枚舉,最終會得到多個候選譯文。當(dāng)然,上述枚舉的過程可能會增加時間復(fù)雜度,為了降低其時間復(fù)雜度,還可以采用很多現(xiàn)有的改進(jìn)的枚舉算法,例如Beam-search算法來進(jìn)行枚舉。
[0073]其中,對于多個候選譯文進(jìn)行評分并排序,當(dāng)翻譯完成時,選取最高分?jǐn)?shù)的候選譯文作為最終的翻譯結(jié)果。對于多個候選譯文的評分和排序的方法,與現(xiàn)有的統(tǒng)計機(jī)器翻譯方法一樣,采用對數(shù)線性模型框架提供的13個特征進(jìn)行評分,這些特征包括轉(zhuǎn)換規(guī)則正向和反向翻譯概率、正向和反向詞匯化翻譯概率、fixed結(jié)構(gòu)雙語短語正向和反向翻譯概率及其正向和反向詞匯化翻譯概率、規(guī)則懲罰、雙語短語規(guī)則懲罰、偽翻譯規(guī)則懲罰、目標(biāo)端詞數(shù)懲罰和語言模型。
[0074]現(xiàn)有的基于依存樹的翻譯方法通常基于上下文無關(guān)同步文法,其翻譯規(guī)則形式上表現(xiàn)為源端和目標(biāo)端同步結(jié)構(gòu)。這種同步結(jié)構(gòu)制約其在翻譯過程中不能夠?qū)δ繕?biāo)語言句子的生成進(jìn)行獨立建模,而必須依賴并同步于源端的同步文法分析過程。對于從依存樹到目標(biāo)端依存樹的模型,同步文法甚至還會由于源端的依存樹與目標(biāo)端的依存樹結(jié)構(gòu)差異較大,導(dǎo)致非同構(gòu)問題難以解決。而根據(jù)本發(fā)明實施例的方法打破了同步文法的約束,采用了分析-轉(zhuǎn)換-生成的模式將翻譯過程拆解為三個階段,先對源語言端的句子進(jìn)行依存句法分析,接著基于上文所討論的抽取的轉(zhuǎn)換規(guī)則,以依存邊為單位,投射到目標(biāo)語言端短語依存邊,并再進(jìn)行目標(biāo)語言端句子的生成。這種方法對翻譯過程的三個階段可以獨立建模,使得對目標(biāo)語言端句子的生成過程進(jìn)行更為精確的控制成為可能。而且,由于上文規(guī)則抽取方法,以依存邊為單位,能從語料庫中抽取并學(xué)習(xí)到更多的轉(zhuǎn)換規(guī)則,對翻譯的準(zhǔn)確性提供了有力的支持。
[0075]在本發(fā)明的又一個實施例中,還提供了一種基于依存樹的統(tǒng)計機(jī)器翻譯系統(tǒng),所述系統(tǒng)包括分析模塊、轉(zhuǎn)換模塊、輸出模塊。其中,分析模塊,用于獲取待翻譯的源語言句子的依存樹。轉(zhuǎn)換模塊用于基于上文所述的抽取方法從雙語語料庫中抽取的轉(zhuǎn)換規(guī)則,獲取所述依存樹中每條依存邊對應(yīng)的目標(biāo)端短語依存邊,并對所得到的目標(biāo)端短語依存邊進(jìn)行拼接,以生成與源語言句子對應(yīng)的一個或多個候選譯文。輸出模塊用于對每個候選譯文進(jìn)行評分,選取最高分?jǐn)?shù)的候選譯文作為與源語言句子對應(yīng)的最終譯文。所述系統(tǒng)還可以包括抽取模塊,其用于基于上文所述的抽取方法從雙語語料庫中抽取轉(zhuǎn)換規(guī)則。
[0076]為了更好地說明本發(fā)明的效果,發(fā)明人采用最常用的機(jī)器翻譯自動評測指標(biāo)BLEU,在125萬平行雙語語料數(shù)據(jù)集上,對根據(jù)本發(fā)明實施例的統(tǒng)計機(jī)器翻譯方法和主流的基于短語的翻譯方法的性能進(jìn)行了對比。根據(jù)實驗結(jié)果,本發(fā)明實施例中的翻譯方法與當(dāng)前主流的基于短語的翻譯方法相比,在性能上提高1.34個BLEU點。
[0077]雖然本發(fā)明已經(jīng)通過優(yōu)選實施例進(jìn)行了描述,然而本發(fā)明并非局限于這里所描述的實施例,在不脫離本發(fā)明范圍的情況下還包括所作出的各種改變以及變化。
【權(quán)利要求】
1.一種基于依存樹的轉(zhuǎn)換規(guī)則抽取方法,該方法包括: 步驟1,對于由源語言依存樹、目標(biāo)語言串和源語言與目標(biāo)語言之間的詞語對齊關(guān)系構(gòu)成的三元組中所述源語言依存樹的每個節(jié)點,利用所述對齊關(guān)系標(biāo)記該節(jié)點的節(jié)點域和子樹域,其中所述節(jié)點域是與該節(jié)點對齊的所有目標(biāo)詞在所述目標(biāo)語言串中的位置的集合,所述子樹域是指以該節(jié)點為根的依存子樹中所有節(jié)點的節(jié)點域的并集; 步驟2,從所述源語言依存樹中提取可接受的依存邊,并從每條可接受的依存邊抽取轉(zhuǎn)換規(guī)則; 其中,所述可接受的依存邊是指滿足下列條件的依存邊:(i)該依存邊的頭節(jié)點的節(jié)點域和該依存邊的依存節(jié)點的子樹域沒有交集;(ii)該依存邊的頭節(jié)點的節(jié)點域與所述源語言依存樹中任何其他節(jié)點的節(jié)點域沒有交集;(iii)該依存邊的依存節(jié)點的子樹域與所述源語言依存樹中在以該依存節(jié)點為根的子樹之外的任何其他節(jié)點的節(jié)點域沒有交集;以及 所述轉(zhuǎn)換規(guī)則包括源端依存邊和目標(biāo)端短語依存邊,所述源端依存邊為一條可接受的依存邊,所述目標(biāo)端短語依存邊包括與所述源端依存邊的頭結(jié)點對應(yīng)的目標(biāo)語言短語片、以所述源端依存邊的依存結(jié)點為根節(jié)點的依存子樹對應(yīng)的目標(biāo)語言短語片以及這兩個目標(biāo)語言短語片在所述目標(biāo)語言串中的左右位置關(guān)系和是否相鄰的位置關(guān)系。
2.根據(jù)權(quán)利要求1所述的方法,所述步驟I還包括為所述源語言依存樹中每個節(jié)點標(biāo)記對應(yīng)詞的詞性。
3.根據(jù)權(quán)利要求2所述的方法,還包括對所抽取的轉(zhuǎn)換規(guī)則進(jìn)行泛化,以獲取泛化后的轉(zhuǎn)換規(guī)則。
4.根據(jù)權(quán)利要求1所述的方法,其中,所述轉(zhuǎn)換規(guī)則的目標(biāo)端的兩個目標(biāo)語言短語片在目標(biāo)語言串中的左右位置關(guān)系和是否相鄰的位置關(guān)系是基于所述轉(zhuǎn)化規(guī)則的源端依存邊的頭結(jié)點的節(jié)點域和其依存節(jié)點的子樹域來獲取的。
5.根據(jù)權(quán)利要求4所述的方法,其中,如果所述轉(zhuǎn)化規(guī)則的源端依存邊的頭結(jié)點的節(jié)點域的開始位置大于其依存節(jié)點的子樹域的結(jié)束位置,則該依存邊的頭結(jié)點對應(yīng)的目標(biāo)語言短語片在以該依存邊的依存結(jié)點為根節(jié)點的依存子樹對應(yīng)的目標(biāo)語言短語片的左邊位置,反之則在右邊; 如果所述轉(zhuǎn)化規(guī)則的源端依存邊的頭結(jié)點的節(jié)點域的開始位置或結(jié)束位置中的一個與其依存節(jié)點的子樹域的開始位置或結(jié)束位置的其中一個相鄰,則該依存邊的頭結(jié)點對應(yīng)的目標(biāo)語言短語片與以該依存邊的依存結(jié)點為根節(jié)點的依存子樹對應(yīng)的目標(biāo)語言短語片是相鄰的,反之則不相鄰。
6.根據(jù)權(quán)利要求1-5之一所述的方法,在所述步驟2,對于每條可接受的依存邊執(zhí)行下列操作: (a)以該可接受的依存邊構(gòu)成轉(zhuǎn)換規(guī)則的源端依存邊; (b)獲取該可接受的依存邊的頭結(jié)點對應(yīng)的目標(biāo)語言片和以該可接受的依存邊的依存結(jié)點為根節(jié)點的依存子樹對應(yīng)的目標(biāo)語言短語片,并且根據(jù)該可接受的依存邊的頭結(jié)點的節(jié)點域和依存節(jié)點的子樹域,獲取這兩個目標(biāo)短語片在目標(biāo)語言串中的左右位置關(guān)系和是否相鄰的位置關(guān)系,以此構(gòu)成轉(zhuǎn)換規(guī)則的目標(biāo)端短語依存邊。
7.一種基于依存樹的統(tǒng)計機(jī)器翻譯方法,所述方法包括: 步驟I)獲取待翻譯的源語言句子的依存樹; 步驟2)基于根據(jù)權(quán)利要求1-6之一所述的方法從雙語語料庫中抽取的轉(zhuǎn)換規(guī)則,獲取所述依存樹中每條依存邊對應(yīng)的目標(biāo)端短語依存邊,并對所得到的目標(biāo)端短語依存邊進(jìn)行拼接,以生成與源語言句子對應(yīng)的一個或多個候選譯文; 步驟3)對每個候選譯文進(jìn)行評分,選取最高分?jǐn)?shù)的候選譯文作為與源語言句子對應(yīng)的最終譯文。
8.根據(jù)權(quán)利要求7所述的方法,所述步驟2)包括:后序遍歷所述源語言句子的依存樹的每個節(jié)點并在每個節(jié)點處執(zhí)行下列操作,直到根節(jié)點為止: 步驟2-1)獲取該節(jié)點與該節(jié)點的每個依存節(jié)點之間的依存邊; 步驟2-2)對于每條依存邊,從所抽取的轉(zhuǎn)換規(guī)則中查找其源端依存邊與該依存邊相同的一個或多個轉(zhuǎn)換規(guī)則,并基于每個匹配的轉(zhuǎn)換規(guī)則,獲取該依存邊對應(yīng)的目標(biāo)端短語依存邊; 步驟2-3)將所得到的目標(biāo)端短語依存邊進(jìn)行拼接,以獲取該節(jié)點覆蓋的依存子樹對應(yīng)的譯文片段。
9.根據(jù)權(quán)利要求8所述的方法,所述步驟2-2)還包括對于每條依存邊,將該依存邊的頭結(jié)點或依存節(jié)點替換成變量和該節(jié)點對應(yīng)詞的詞性標(biāo)記,從所抽取的轉(zhuǎn)換規(guī)則中選擇其源端依存邊與該經(jīng)修改后的依存邊相同的轉(zhuǎn)換規(guī)則。
10.根據(jù)權(quán)利要求8所述的方法,所述步驟2-3)包括: a)選取其中包含相鄰位置關(guān)系的目標(biāo)端短語依存邊作為擴(kuò)展點; b)基于所有目標(biāo)端短語依存邊包含的位置關(guān)系,在該擴(kuò)展點對應(yīng)的譯文片段的左右方向枚舉所有可能與其余各個目標(biāo)端短語依存邊對應(yīng)譯文片段。
11.一種基于依存樹的統(tǒng)計機(jī)器翻譯系統(tǒng),所述系統(tǒng)包括: 分析模塊,用于獲取待翻譯的源語言句子的依存樹; 轉(zhuǎn)換模塊,用于基于根據(jù)權(quán)利要求1-6之一所述的方法從雙語語料庫中抽取的轉(zhuǎn)換規(guī)貝U,獲取所述依存樹中每條依存邊對應(yīng)的目標(biāo)端短語依存邊,并對所得到的目標(biāo)端短語依存邊進(jìn)行拼接,以生成與源語言句子對應(yīng)的一個或多個候選譯文; 輸出模塊,用于對每個候選譯文進(jìn)行評分,選取最高分?jǐn)?shù)的候選譯文作為與源語言句子對應(yīng)的最終譯文。
【文檔編號】G06F17/28GK104239290SQ201410389422
【公開日】2014年12月24日 申請日期:2014年8月8日 優(yōu)先權(quán)日:2014年8月8日
【發(fā)明者】陳宏申, 謝軍, 孟凡東, 姜文斌, 劉群 申請人:中國科學(xué)院計算技術(shù)研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1