基于依存樹的統(tǒng)計機(jī)器翻譯方法及系統(tǒng)的制作方法

文檔序號：6622966閱讀：245來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于依存樹的統(tǒng)計機(jī)器翻譯方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種基于依存邊轉(zhuǎn)換的統(tǒng)計機(jī)器翻譯方法，根據(jù)從雙語語料庫中抽取的轉(zhuǎn)換規(guī)則，將源語言句子的依存樹中每條依存邊轉(zhuǎn)換為對應(yīng)的目標(biāo)語言短語依存邊，并對所得到的目標(biāo)語言短語依存邊進(jìn)行拼接，以生成目標(biāo)語言端譯文。該方法結(jié)合依存句法模型的優(yōu)勢，但采用分析-轉(zhuǎn)換-生成的模式將翻譯過程拆解成了三個階段，可以對三個過程分別獨立建模，使得對目標(biāo)語言端句子的生成過程進(jìn)行更為精確的控制成為可能。該采用基于依存邊的轉(zhuǎn)換保留了更多的知識，可以容忍更高程度的句法非同構(gòu)現(xiàn)象，而且取得超過當(dāng)前主流的基于短語模型翻譯的方法的性能。
【專利說明】基于依存樹的統(tǒng)計機(jī)器翻譯方法及系統(tǒng)

【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于自然語言處理【技術(shù)領(lǐng)域】，尤其涉及基于依存樹的統(tǒng)計機(jī)器翻譯方法。

【背景技術(shù)】
[0002]統(tǒng)計機(jī)器翻譯是近年來的熱點。伴隨其發(fā)展歷程，大致可以分為三大類:基于詞的翻譯、基于短語的翻譯和基于句法的翻譯。雖然當(dāng)前主流的翻譯系統(tǒng)大部分仍采用基于短語的翻譯模型，但是基于句法的翻譯模型近年來受到越來越多的關(guān)注。相比基于詞或短語的翻譯模型，基于句法的翻譯模型兼具語法和語義信息，表現(xiàn)出了較好的長距離調(diào)序的能力，并且可用更好的泛化能力對語言的層次化結(jié)構(gòu)進(jìn)行建模。但大多數(shù)基于句法的翻譯模型(例如，依存句法分析模型)使用同步過程直接對兩個語言間的結(jié)構(gòu)對應(yīng)進(jìn)行建模。例如，現(xiàn)有的依存樹的統(tǒng)計機(jī)器翻譯方法通常先將源語言端句子進(jìn)行依存句法分析得到源語言句子的依存樹；接著遍歷源語言依存樹的各個節(jié)點，在遍歷的同時基于從雙語語料度抽取的翻譯規(guī)則進(jìn)行翻譯，當(dāng)遍歷完源語言句子依存樹時即得到對應(yīng)的目標(biāo)語言端句子?；诙鄠€可選的翻譯規(guī)則可得到多個不同的目標(biāo)語言端句子，選取具有最高分?jǐn)?shù)的目標(biāo)語言端句子作為源語言端句子對應(yīng)的最終譯文。這類方法直接將源語言依存樹映射到目標(biāo)語言串，不能對所生成的目標(biāo)語言端句子的各個片段進(jìn)行重新調(diào)序。與基于短語的翻譯模型相t匕，其翻譯的準(zhǔn)確率以及靈活性仍有待提高。

【發(fā)明內(nèi)容】

[0003]因此，本發(fā)明的一個目的在于提供一種新的基于依存樹的轉(zhuǎn)換規(guī)則抽取方法。
[0004]本發(fā)明的另一個目的在于提供一種新的基于依存樹的統(tǒng)計機(jī)器翻譯方法及系統(tǒng)。
[0005]本發(fā)明的目的是通過以下技術(shù)方案實現(xiàn)的:
[0006]—方面，本發(fā)明提供了一種基于依存樹的轉(zhuǎn)換規(guī)則抽取方法，包括:
[0007]步驟1，對于由源語言依存樹、目標(biāo)語言串和源語言與目標(biāo)語言之間的詞語對齊關(guān)系構(gòu)成的三元組中所述源語言依存樹的每個節(jié)點，利用所述對齊關(guān)系標(biāo)記該節(jié)點的節(jié)點域和子樹域，其中所述節(jié)點域是與該節(jié)點對齊的所有目標(biāo)詞在所述目標(biāo)語言串中的位置的集合，所述子樹域是指以該節(jié)點為根的依存子樹中所有節(jié)點的節(jié)點域的并集；
[0008]步驟2，從所述源語言依存樹中提取可接受的依存邊，并從每條可接受的依存邊抽取轉(zhuǎn)換規(guī)則；
[0009]其中，所述可接受的依存邊是指滿足下列條件的依存邊:(i)該依存邊的頭節(jié)點的節(jié)點域和該依存邊的依存節(jié)點的子樹域沒有交集；(ii)該依存邊的頭節(jié)點的節(jié)點域與所述源語言依存樹中任何其他節(jié)點的節(jié)點域沒有交集；(iii)該依存邊的依存節(jié)點的子樹域與所述源語言依存樹中在以該依存節(jié)點為根的子樹之外的任何其他節(jié)點的節(jié)點域沒有交集；以及
[0010]所述轉(zhuǎn)換規(guī)則包括源端依存邊和目標(biāo)端短語依存邊，所述源端依存邊為一條可接受的依存邊，所述目標(biāo)端短語依存邊包括與所述源端依存邊的頭結(jié)點對應(yīng)的目標(biāo)語言短語片、以所述源端依存邊的依存結(jié)點為根節(jié)點的依存子樹對應(yīng)的目標(biāo)語言短語片以及這兩個目標(biāo)語言短語片在所述目標(biāo)語言串中的左右位置關(guān)系和是否相鄰的位置關(guān)系。
[0011]上述抽取方法中，所述步驟I還可以包括為所述源語言依存樹中每個節(jié)點標(biāo)記對應(yīng)詞的詞性。
[0012]上述抽取方法中，還可以包括對所抽取的轉(zhuǎn)換規(guī)則進(jìn)行泛化，以獲取泛化后的轉(zhuǎn)換規(guī)則。
[0013]上述抽取方法中，所述轉(zhuǎn)換規(guī)則的目標(biāo)端的兩個目標(biāo)語言短語片在目標(biāo)語言串中的左右位置關(guān)系和是否相鄰的位置關(guān)系是基于所述轉(zhuǎn)化規(guī)則的源端依存邊的頭結(jié)點的節(jié)點域和其依存節(jié)點的子樹域來獲取的。
[0014]上述抽取方法中，如果所述轉(zhuǎn)化規(guī)則的源端依存邊的頭結(jié)點的節(jié)點域的開始位置大于其依存節(jié)點的子樹域的結(jié)束位置，則該依存邊的頭結(jié)點對應(yīng)的目標(biāo)語言短語片在以該依存邊的依存結(jié)點為根節(jié)點的依存子樹對應(yīng)的目標(biāo)語言短語片的左邊位置，反之則在右邊；
[0015]如果所述轉(zhuǎn)化規(guī)則的源端依存邊的頭結(jié)點的節(jié)點域的開始位置或結(jié)束位置中的一個與其依存節(jié)點的子樹域的開始位置或結(jié)束位置的其中一個相鄰，則該依存邊的頭結(jié)點對應(yīng)的目標(biāo)語言短語片與以該依存邊的依存結(jié)點為根節(jié)點的依存子樹對應(yīng)的目標(biāo)語言短語片是相鄰的，反之則不相鄰。
[0016]上述抽取方法中，在所述步驟2，對于每條可接受的依存邊可以執(zhí)行下列操作:
[0017](a)以該可接受的依存邊構(gòu)成轉(zhuǎn)換規(guī)則的源端依存邊；
[0018](b)獲取該可接受的依存邊的頭結(jié)點對應(yīng)的目標(biāo)語言片和以該可接受的依存邊的依存結(jié)點為根節(jié)點的依存子樹對應(yīng)的目標(biāo)語言短語片，并且根據(jù)該可接受的依存邊的頭結(jié)點的節(jié)點域和依存節(jié)點的子樹域，獲取這兩個目標(biāo)短語片在目標(biāo)語言串中的左右位置關(guān)系和是否相鄰的位置關(guān)系，以此構(gòu)成轉(zhuǎn)換規(guī)則的目標(biāo)端短語依存邊。
[0019]另一方面，本發(fā)明提供了一種基于依存樹的統(tǒng)計機(jī)器翻譯方法，所述方法包括:
[0020]步驟I)獲取待翻譯的源語言句子的依存樹；
[0021]步驟2)基于根據(jù)上文的基于依存樹的轉(zhuǎn)換規(guī)則抽取方法從雙語語料庫中抽取的轉(zhuǎn)換規(guī)則，獲取所述依存樹中每條依存邊對應(yīng)的目標(biāo)端短語依存邊，并對所得到的目標(biāo)端短語依存邊進(jìn)行拼接，以生成與源語言句子對應(yīng)的一個或多個候選譯文；
[0022]步驟3)對每個候選譯文進(jìn)行評分，選取最高分?jǐn)?shù)的候選譯文作為與源語言句子對應(yīng)的最終譯文。
[0023]上述翻譯方法中，所述步驟2)可以包括:后序遍歷所述源語言句子的依存樹的每個節(jié)點并在每個節(jié)點處執(zhí)行下列操作，直到根節(jié)點為止:
[0024]步驟2-1)獲取該節(jié)點與該節(jié)點的每個依存節(jié)點之間的依存邊；
[0025]步驟2-2)對于每條依存邊，從所抽取的轉(zhuǎn)換規(guī)則中查找其源端依存邊與該依存邊相同的一個或多個轉(zhuǎn)換規(guī)則，并基于每個匹配的轉(zhuǎn)換規(guī)則，獲取該依存邊對應(yīng)的目標(biāo)端短語依存邊；
[0026]步驟2-3)將所得到的目標(biāo)端短語依存邊進(jìn)行拼接，以獲取該節(jié)點覆蓋的依存子樹對應(yīng)的譯文片段。
[0027]上述翻譯方法中，所述步驟2-2)還可以包括對于每條依存邊，將該依存邊的頭結(jié)點或依存節(jié)點替換成變量和該節(jié)點對應(yīng)詞的詞性標(biāo)記，從所抽取的轉(zhuǎn)換規(guī)則中選擇其源端依存邊與該經(jīng)修改后的依存邊相同的轉(zhuǎn)換規(guī)則。
[0028]上述翻譯方法中，所述步驟2-3)可以包括:
[0029]a)選取其中包含相鄰位置關(guān)系的目標(biāo)端短語依存邊作為擴(kuò)展點；
[0030]b)基于所有目標(biāo)端短語依存邊包含的位置關(guān)系，在該擴(kuò)展點對應(yīng)的譯文片段的左右方向枚舉所有可能與其余各個目標(biāo)端短語依存邊對應(yīng)譯文片段。
[0031]又一方面，本發(fā)明提供了一種基于依存樹的統(tǒng)計機(jī)器翻譯系統(tǒng)，包括:
[0032]分析模塊，用于獲取待翻譯的源語言句子的依存樹；
[0033]轉(zhuǎn)換模塊，用于基于根據(jù)上文的基于依存樹的轉(zhuǎn)換規(guī)則抽取方法從雙語語料庫中抽取的轉(zhuǎn)換規(guī)則，獲取所述依存樹中每條依存邊對應(yīng)的目標(biāo)端短語依存邊，并對所得到的目標(biāo)端短語依存邊進(jìn)行拼接，以生成與源語言句子對應(yīng)的一個或多個候選譯文；
[0034]輸出模塊，用于對每個候選譯文進(jìn)行評分，選取最高分?jǐn)?shù)的候選譯文作為與源語言句子對應(yīng)的最終譯文。
[0035]與現(xiàn)有技術(shù)相比，本發(fā)明的優(yōu)點在于:
[0036]結(jié)合依存句法模型并采用分析-轉(zhuǎn)換-生成的模式將翻譯過程拆解成了三個階段，可以對三個過程分別獨立建模，使得對目標(biāo)語言端句子的生成過程進(jìn)行更為精確的控制成為可能。基于依存邊的轉(zhuǎn)換保留了更多的知識，并且可以容忍更高程度的句法非同構(gòu)現(xiàn)象。而且，通過在125萬平行雙語語料數(shù)據(jù)集上進(jìn)行實驗，根據(jù)本發(fā)明實施例的翻譯方法的性能較主流的基于短語的翻譯方法提高1.34個BLEU點。

【專利附圖】

【附圖說明】
[0037]以下參照附圖對本發(fā)明實施例作進(jìn)一步說明，其中:
[0038]圖1為根據(jù)本發(fā)明實施例的標(biāo)記節(jié)點域和子樹域的源語言依存樹的示意圖；
[0039]圖2為根據(jù)本發(fā)明實施例的轉(zhuǎn)換規(guī)則的示意圖；
[0040]圖3為根據(jù)本發(fā)明實施例的泛化轉(zhuǎn)換規(guī)則的過程示意圖；
[0041]圖4為根據(jù)本發(fā)明實施例的基于依存樹的統(tǒng)計機(jī)器翻譯方法的流程圖；
[0042]圖5為根據(jù)本發(fā)明實施例的基于依存樹的統(tǒng)計機(jī)器翻譯方法操作過程示意圖。

【具體實施方式】
[0043]為了使本發(fā)明的目的，技術(shù)方案及優(yōu)點更加清楚明白，以下結(jié)合附圖通過具體實施例對本發(fā)明進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解，此處所描述的具體實施例僅僅用以解釋本發(fā)明，并不用于限定本發(fā)明。
[0044]為了更好地理解本發(fā)明，首先簡單介紹一下依存樹及現(xiàn)有的基于依存樹的統(tǒng)計機(jī)器翻譯方法的基本過程。一個句子的依存樹中的每個節(jié)點對應(yīng)于句子中的一個單詞，依存樹中的每條有向邊代表一對單詞之間的關(guān)系，方向是從中心節(jié)點(也可稱為頭節(jié)點)指向修飾節(jié)點(也可稱為依存節(jié)點)。除了根節(jié)點之外，每個節(jié)點有且只有一條有向邊指向它。依存樹中每個節(jié)點的左右孩子節(jié)點可表示修飾詞與中心詞之間的左右位置關(guān)系?，F(xiàn)有的基于依存樹的統(tǒng)計機(jī)器翻譯方法通常先將要翻譯的源語言端句子進(jìn)行依存句法分析得到源語言句子依存樹；接著遍歷該依存樹的各個節(jié)點，在遍歷的同時按照一定的規(guī)則及對齊關(guān)系進(jìn)行翻譯，當(dāng)遍歷完源語言句子的依存樹時就會得到對應(yīng)的目標(biāo)語言端句子?；诙鄠€可選的規(guī)則可得到多個不同的翻譯候選譯文，通常利用對數(shù)線性模型，對每個翻譯候選譯文選取翻譯特征進(jìn)行評分和排序，取分?jǐn)?shù)最高的翻譯候選譯文作為最終譯文。其中所述規(guī)則是從包含三元組的雙語語料庫中抽取的，所述三元組為源語言依存句法樹(也可以稱為依存樹)，目標(biāo)語言串，以及源語言與目標(biāo)語言之間的詞語對齊關(guān)系，即(源語言依存樹，目標(biāo)語言串，對齊)。現(xiàn)有的基于依存樹的規(guī)則抽取方法是以依存子樹為單位進(jìn)行抽取的，每個依存子樹代表的是短語或句子片段。將依存子樹實際上是一組依存邊的集合，因為其依存邊較多，發(fā)生對齊錯誤的可能性也很高，而在抽取翻譯規(guī)則時一旦發(fā)現(xiàn)對齊錯誤，就放棄對整棵依存子樹所對應(yīng)的翻譯規(guī)則的抽取，所以損失了很多信息和學(xué)習(xí)機(jī)會。
[0045]在本發(fā)明的一個實施例中，提供了一種基于依存邊的轉(zhuǎn)換規(guī)則抽取方法。該方法用于從雙語語料庫中抽取轉(zhuǎn)換規(guī)則(也可以稱為翻譯規(guī)則)。對于雙語語料庫中每對源語言句子和目標(biāo)語言句子，都可以利用現(xiàn)有的依存句法分析器以及對齊工具得到相應(yīng)的三元組，其中每個三元組包括源語言依存句法樹，目標(biāo)語言串，以及源語言與目標(biāo)語言之間的詞語對齊關(guān)系，可記為(源語言依存樹，目標(biāo)語言串，對齊關(guān)系)。該方法對于每個三元組執(zhí)行下列操作:
[0046]I)對于源語言依存句法樹中每個節(jié)點n，利用對齊關(guān)系標(biāo)記該節(jié)點η的節(jié)點域和子樹域。其中所述節(jié)點域是與η對齊的所有目標(biāo)詞在所述目標(biāo)語言串中的位置的集合，所述子樹域是指以η為根的依存子樹中所有節(jié)點的節(jié)點域的并集。此外，還可以為每個節(jié)點η標(biāo)記對應(yīng)詞的詞性。
[0047]以圖1所示的源語言依存句法樹為例，其代表的源語言句子為“奧巴馬今天將發(fā)布安全戰(zhàn)略聲明”，其對應(yīng)的目標(biāo)語言句子為“obama today will issue a statementof security strategy”,由此可確定每個目標(biāo)詞在該目標(biāo)語言句子中的位置序號。例如“obama”的位置為l，“iSSue”的位置為4，以此類推。為了便于下文中對規(guī)則抽取方法的說明，對圖1中的依存樹的每個節(jié)點標(biāo)記了對應(yīng)詞的詞性。采用的詞性標(biāo)記為美國賓州大學(xué)中文語言處理計劃定義的標(biāo)記(可參見Fei Xia.2000.The Part-of-Speech TaggingGuidelines for the Penn Chinese Treebank(3.0).http://www.cis.upenn.edu/ ?chinese/posguide.3rd.ch.pdf.)。例如，節(jié)點“發(fā)布/VV”指“發(fā)布”的詞性為動詞將/AD”指“將”的詞性為副詞，“聲明/NN”指“聲明”的詞性為名詞，等等。如圖1所示，對于該源語言依存句法樹中每個節(jié)點，分別利用對齊關(guān)系標(biāo)記該節(jié)點的節(jié)點域和子樹域。例如，以節(jié)點“戰(zhàn)略”為例，其對齊到目標(biāo)語言句子中的第9個詞“strategy”上，因此其節(jié)點域為{9}，開始和結(jié)束位置都為9，也可以記為{9-9}，由于該節(jié)點為葉子節(jié)點，不包括孩子節(jié)點，因此，其子樹域與該節(jié)點的節(jié)點域相同，為{9-9}。以節(jié)點“安全”為例，其與“of security”對齊，即對齊到目標(biāo)語言句子的第7和8個詞上，因此其節(jié)點域為{7，8}，也可以記為{7-8}，該節(jié)點也是葉子節(jié)點，其子樹域也為{7-8}。又以節(jié)點“聲明”為例，其對齊到目標(biāo)語言句子的“a statement of ”上，這三個詞分別為第5、6、7個詞，因此其節(jié)點域為{5，67}，開始位置為5，結(jié)束位置為7，也可以將節(jié)點域記為{5-7};以節(jié)點“聲明”為根的子樹中所有節(jié)點的節(jié)點域的并集為{5，6，7，8，9}，因此該節(jié)點的子樹域為{5，6，7，8，9}，也可記為{5-9}，該節(jié)點覆蓋的整個子樹的所有節(jié)點域恰好可以組成一個連續(xù)的句子片段或短語片“a statement ofsecurity strategy，，。
[0048]2)遍歷源語言依存樹的除根結(jié)點之外的各個節(jié)點，在當(dāng)前節(jié)點與其父節(jié)點之間的邊中，抽取可接受的依存邊。從上文對依存樹的介紹可知，當(dāng)前節(jié)點與其父節(jié)點之間的邊是單向的修飾關(guān)系，每條依存邊包括頭節(jié)點和依存節(jié)點。對于當(dāng)前節(jié)點與其父節(jié)點之間的邊而言，當(dāng)前節(jié)點可稱為這條邊的修飾節(jié)點或依存節(jié)點，而其父節(jié)點可稱為這條邊的頭節(jié)點。如果一條依存邊滿足下列條件時，可稱為可接受的依存邊:
[0049](i)頭節(jié)點的節(jié)點域和依存節(jié)點的子樹域沒有交集；
[0050](ii)頭節(jié)點的節(jié)點域與依存樹任何其他節(jié)點的節(jié)點域沒有交集；
[0051](iii)依存節(jié)點的子樹域與依存樹中在以依存節(jié)點為根的子樹之外的任何其他節(jié)點的節(jié)點域沒有交集。
[0052]仍以圖1為例，節(jié)點“安全”和“聲明”之間的依存邊不是一條可接受的依存邊，這是因為“聲明”的節(jié)點域{5，6，7}和“安全”的子樹域{7，8}有交集，從圖1可以看出“安全”和“聲明”同時對齊到位置7。而圖1中的其他邊都是可接受的依存邊。
[0053]步驟3)從每條可接受的依存邊中抽取轉(zhuǎn)換規(guī)則
[0054]所述轉(zhuǎn)換規(guī)則包括源語言端(也可簡稱為源端)和目標(biāo)語言端(也可簡稱為目標(biāo)端)兩個部分，源語言端為源語言依存樹中一條可接受的依存邊，源語言端的依存邊(也可簡稱為源端依存邊)包含下列信息:該邊的頭結(jié)點、該邊的依存節(jié)點、頭結(jié)點與依存節(jié)點的左右位置關(guān)系和/或頭結(jié)點與依存節(jié)點的語法依存關(guān)系。在基于句法的統(tǒng)計翻譯方法中，頭結(jié)點與依存節(jié)點的語法依存關(guān)系通?？梢圆捎谩皀n、punct、nsubj、conj、dobj、advmod、prep、pobj、neg、comod、amod、tmod”等來進(jìn)行標(biāo)記。所述轉(zhuǎn)換規(guī)則的目標(biāo)語言端是一條短語依存邊，該目標(biāo)語言端的短語依存邊(也可簡稱為目標(biāo)端依存邊)的頭結(jié)點為源端依存邊的頭結(jié)點對應(yīng)的目標(biāo)語言短語片、該短語依存邊的依存結(jié)點為以源端依存邊的依存結(jié)點為根節(jié)點的依存子樹對應(yīng)的目標(biāo)語言短語片以及這兩個目標(biāo)短語片在目標(biāo)語言串中的位置關(guān)系。其中這兩個目標(biāo)短語片在目標(biāo)語言串中的位置關(guān)系包括二者在所述目標(biāo)語言串中所處的左右位置關(guān)系以及是否相鄰的位置關(guān)系。短語片實際上也可以理解為一個連續(xù)的句子片段。圖2給出了根據(jù)本發(fā)明實施例的部分轉(zhuǎn)換規(guī)則的示意圖。以圖2中編號為①的轉(zhuǎn)換規(guī)則為例:上半部分是源語言端的一條依存邊，包括該邊的頭結(jié)點“發(fā)布”、該邊的依存節(jié)點“奧巴馬”、“奧巴馬”在“發(fā)布”的左邊，并且可以將這條邊標(biāo)記為nsubj來表示頭結(jié)點與依存節(jié)點的語法依存關(guān)系，表示依存節(jié)點為修改頭結(jié)點的名詞性主語；下半部分是該轉(zhuǎn)換規(guī)則的目標(biāo)語言端的短語依存邊，其包括頭結(jié)點“發(fā)布”對應(yīng)的目標(biāo)語言片“issue”、以依存節(jié)點“奧巴馬”為根的依存子樹對應(yīng)的目標(biāo)語言片“obama”、“obama”在“issue”的左邊且“ issue” 與 “obama” 不相鄰，在圖 2 中標(biāo)記為 “non-adjacent”。
[0055]在一個實施例中，從每條可接受的依存邊中抽取轉(zhuǎn)換規(guī)則可包括以下步驟:
[0056](a)由可接受的依存邊構(gòu)成轉(zhuǎn)換規(guī)則的源語言端。
[0057](b)獲取可接受的依存邊的頭結(jié)點對應(yīng)的目標(biāo)語言片和以該依存邊的依存結(jié)點為根節(jié)點的依存子樹對應(yīng)的目標(biāo)語言短語片，并且根據(jù)該可接受的依存邊的頭結(jié)點的節(jié)點域和依存節(jié)點的子樹域，獲取這兩個目標(biāo)語言短語片的位置關(guān)系，包括是否相鄰，左右位置關(guān)系，以此構(gòu)成轉(zhuǎn)換規(guī)則的目標(biāo)端。如果該可接受的依存邊的頭結(jié)點的節(jié)點域的開始位置大于依存節(jié)點的子樹域的結(jié)束位置，則該依存邊的頭結(jié)點對應(yīng)的目標(biāo)語言片在以該依存邊的依存結(jié)點為根節(jié)點的依存子樹對應(yīng)的目標(biāo)語言短語片的左邊位置，反之則在右邊。如果該可接受的依存邊的頭結(jié)點的節(jié)點域的開始位置或結(jié)束位置中的一個與依存節(jié)點的子樹域的開始位置或結(jié)束位置的其中一個相鄰，則該依存邊的頭結(jié)點對應(yīng)的目標(biāo)語言片與以該依存邊的依存結(jié)點為根節(jié)點的依存子樹對應(yīng)的目標(biāo)語言短語片是相鄰的，反之則不相鄰。
[0058]例如，以圖1中“發(fā)布”和“聲明”之間的依存邊為例，所抽取的轉(zhuǎn)換規(guī)則的源語言端為“發(fā)布”和“聲明”之間的依存邊，“發(fā)布”對應(yīng)的目標(biāo)語言片為“issue”，“聲明”對應(yīng)的整棵子樹所覆蓋的目標(biāo)語言片為“a statement of security strategy”。然后基于該可接受的依存邊的頭結(jié)點的節(jié)點域{4}和依存節(jié)點的子樹域{5-7}可知，“a statement ofsecurity strategy”在“issue”的右邊,且與“issue”相鄰，該依存邊標(biāo)記為“adjacent”。這些信息組成所抽取的轉(zhuǎn)換規(guī)則的目標(biāo)語言端。
[0059]又例如以圖2中編號為⑤的轉(zhuǎn)換規(guī)則為例:上半部分是源語言端的一條邊，包括該邊的頭結(jié)點“聲明”，該邊的依存節(jié)點“戰(zhàn)略”，“戰(zhàn)略”在“聲明”的左邊；下半部分是該轉(zhuǎn)換規(guī)則的目標(biāo)語言端，其包括頭結(jié)點“聲明”對應(yīng)的目標(biāo)語言片“a statement of”，以依存節(jié)點“戰(zhàn)略”為根的依存字?jǐn)?shù)對應(yīng)的目標(biāo)語言片“strategy”，基于該可接受的依存邊的頭結(jié)點的節(jié)點域{5-7}和依存節(jié)點的子樹域{9}可知，“strategy”在“a statement of”的右邊(圖 2 中 “strategy” 為 “a statement of” 的右孩子節(jié)點)，且 “a statement of”與“strategy”不相鄰，因此該依存邊標(biāo)記為“non-adjacent”。
[0060]在又一個實施例中，在抽取規(guī)則時，如果可接受的依存邊的頭節(jié)點或依存節(jié)點是內(nèi)部節(jié)點，可以將其標(biāo)記為一個變量，表示該節(jié)點是可替換的。例如圖2中編號為④的轉(zhuǎn)換規(guī)則，“聲明”是內(nèi)部節(jié)點，可以對其進(jìn)行標(biāo)記，例如記為“*:聲明”，并且將在該轉(zhuǎn)換規(guī)則的目標(biāo)語言端的短語依存邊的依存節(jié)點相應(yīng)地設(shè)置為一個變量，例如以表示。其中，內(nèi)部節(jié)點指源語言依存樹中除葉節(jié)點和根結(jié)點之外的所有節(jié)點。
[0061]在又一個實施例中，還可以對所抽取的轉(zhuǎn)換規(guī)則進(jìn)行泛化，得到泛化后的非詞匯化的轉(zhuǎn)換規(guī)則。例如，可以將轉(zhuǎn)換規(guī)則的源端依存邊的頭結(jié)點替換成為一個變量和詞性標(biāo)記限定，并將轉(zhuǎn)換規(guī)則的目標(biāo)端依存邊的頭節(jié)點也設(shè)置為變量，例如標(biāo)記為*?；蛘?，可以將轉(zhuǎn)換規(guī)則的源端依存邊的依存節(jié)點替換成為一個變量和詞性標(biāo)記限定，并將轉(zhuǎn)換規(guī)則的目標(biāo)端依存邊的依存節(jié)點也設(shè)置為變量，例如標(biāo)記為*。但不能同時替換頭結(jié)點和依存節(jié)點。圖3給出了根據(jù)本發(fā)明一個示例的泛化轉(zhuǎn)換規(guī)則的示意圖。如圖3所示，可以將頭結(jié)點“發(fā)布”替換成一個變量，同時標(biāo)記為“W”，表示一個動詞性的詞都可以替換到這里。也可以將依存節(jié)點“奧巴馬”替換成一個變量，同時標(biāo)記為“NN”，表示一個名詞都可以替換到這里。這樣，從“發(fā)布”與“奧巴馬”之間的依存邊又可以抽取出兩條轉(zhuǎn)換規(guī)則?？梢?，通過對所抽取的規(guī)則進(jìn)行泛化，可以獲取更多的語義信息，而且還可以盡量避免在雙語語料受限的情況下，抽取的轉(zhuǎn)換規(guī)則過于稀疏的情況。
[0062]與現(xiàn)有的基于依存樹的翻譯規(guī)則抽取方法相比，根據(jù)本發(fā)明實施例的基于依存邊的轉(zhuǎn)換規(guī)則抽取方法，在抽取形式上極為簡單，是以每條依存邊為單位來抽取轉(zhuǎn)換規(guī)則，其對源語言知識的表達(dá)形式上更為靈活，它能夠精確的刻劃一條依存邊中的頭結(jié)點和依存節(jié)點之間的關(guān)系，并且可以提取到詞與詞、詞語與短語之間的左右位置關(guān)系及相鄰與否的位置關(guān)系。這樣抽取的轉(zhuǎn)換規(guī)則可以給后續(xù)的翻譯準(zhǔn)確性以及目標(biāo)譯文的重新調(diào)序提供了有力的支持。而且，由于本發(fā)明以依存邊為單位來抽取轉(zhuǎn)換規(guī)則，相比以依存子樹為單位抽取規(guī)則的方法，能夠找到更多滿足抽取要求的依存邊，能更多地抽取并學(xué)習(xí)到轉(zhuǎn)換規(guī)則，因而，對翻譯過程中所用到的知識學(xué)習(xí)的更為充分。
[0063]圖4給出了根據(jù)本發(fā)明一個實施例的基于依存邊轉(zhuǎn)換的統(tǒng)計機(jī)器翻譯方法的流程圖。該方法主要包括獲取待翻譯的源語言句子的依存句法樹(也可簡稱為源語言依存樹)；基于采用上文所討論的抽取方法從雙語語料庫中抽取的轉(zhuǎn)換規(guī)則，獲取該源語言依存樹中每條依存邊對應(yīng)的目標(biāo)端依存邊，并對所得到的目標(biāo)端依存邊進(jìn)行拼接，以生成候選的目標(biāo)語言譯文；以及對每個候選譯文進(jìn)行評分，選取最高分?jǐn)?shù)的候選譯文作為翻譯結(jié)果O
[0064]更具體地，首先，可以利用現(xiàn)有的各種句法分析器對待翻譯的源語言句子或源語言串進(jìn)行句法分析，以獲取其對應(yīng)的依存句法樹。例如，可以采用如MSTParser、MaltParser等的依存句法分析器分析源語言句子，以得到依存句法樹。又例如，也可以采用成分句法分析器 Stanford parser (可參見 Dan Klein and Christopher D.Manning.2003.AccurateUnlexicalized Parsing.Proceedings of the 41st Meeting of the Associat1n forComputat1nal Linguistics, pp.423-430)。Stanford parser 工具包中已經(jīng)集成相應(yīng)的轉(zhuǎn)換工具，通過在輸入命令中設(shè)置-outputFormat選項的值為typedDependencies,可以直接得到所輸入的源語言串的依存句法樹。
[0065]為了說明的方便，源語言句子仍以中文句子“奧巴馬今天將發(fā)表安全戰(zhàn)略聲明”為例進(jìn)行說明，經(jīng)過依存句法分析得到依存句法樹(如圖1所示)。
[0066]在得到待翻譯的源語言句子的依存樹之后，可以后序遍歷該依存樹的每個節(jié)點并執(zhí)行下列操作，直到根節(jié)點為止:
[0067](I)抽取該節(jié)點與該節(jié)點的每個依存節(jié)點之間的依存邊。
[0068](2)對于每條依存邊，將其作為源語言端依存邊，從如上文抽取到的轉(zhuǎn)換規(guī)則中查找與該依存邊匹配的一個或多個轉(zhuǎn)換規(guī)則。其中，在匹配的過程中，如果該依存邊與某個轉(zhuǎn)換規(guī)則的源端依存邊完全相同，則可以將該轉(zhuǎn)換規(guī)則確定為與該依存邊匹配的轉(zhuǎn)換規(guī)則。在又一個實施例中，還可以按照上述所述的對轉(zhuǎn)換規(guī)則進(jìn)行泛化的方法，對該依存邊進(jìn)行泛化，可以將該依存邊的頭結(jié)點或依存節(jié)點替換成一個變量，同時為其標(biāo)記詞性，表示一個相同詞性的詞都可以替換到這里。這樣，將泛化后的依存邊作為源語言端依存邊，將其與上文從語料庫中抽取到的轉(zhuǎn)換規(guī)則進(jìn)行匹配，以找到與該依存邊匹配的、泛化后的轉(zhuǎn)換規(guī)則。
[0069](3)基于每個匹配的轉(zhuǎn)換規(guī)則，獲取該依存邊對應(yīng)的目標(biāo)端依存邊。其中，對于每個泛化后的轉(zhuǎn)換規(guī)則，在獲取目標(biāo)端依存邊時，要補齊泛化的變量，也就是選擇與該變量具有相同詞性的目標(biāo)詞來代替該變量。
[0070](4)將所得到的目標(biāo)端依存邊進(jìn)行拼接，以獲取當(dāng)前節(jié)點覆蓋的依存子樹的譯文片段。例如，首先選取其中包含相鄰位置關(guān)系的目標(biāo)端依存邊作為擴(kuò)展點；接著根據(jù)所有目標(biāo)端依存邊包含的位置關(guān)系，在該擴(kuò)展點對應(yīng)的譯文片段的左右方向枚舉所有可能與其余的各個目標(biāo)端依存邊對應(yīng)的譯文片段。
[0071]例如，參考圖5，后序遍歷源語言依存句法樹，在圖5中假設(shè)當(dāng)前已經(jīng)訪問到根節(jié)點“發(fā)布”，其他各內(nèi)部節(jié)點都已經(jīng)訪問完畢且翻譯完成，其中“聲明”所對應(yīng)的子樹已經(jīng)被翻譯(該子樹對應(yīng)的譯文片段可以有多個，暫時都以表示)。這時，抽取“發(fā)布”和其對應(yīng)的四個依存節(jié)點之間的四條依存邊。假設(shè)從上文抽取的轉(zhuǎn)換規(guī)則中與這四條依存邊匹配的轉(zhuǎn)換規(guī)則為如圖2所示的前四個轉(zhuǎn)換規(guī)則，則基于這些轉(zhuǎn)換規(guī)則可以獲得每個依存邊對應(yīng)的目標(biāo)端依存邊。然后對這些目標(biāo)端依存邊進(jìn)行拼接。
[0072]如圖5最下方的框所示，在進(jìn)行拼接時，首先可以選取一個其位置關(guān)系被標(biāo)記為“相鄰(adjacent) ”的目標(biāo)端依存邊作為擴(kuò)展點。例如，在圖5中選擇了“issue”和“will”之間的邊。接著，基于所有目標(biāo)端依存邊包含的位置關(guān)系來向左右進(jìn)行擴(kuò)展。如圖5所示，向左擴(kuò)展時，根據(jù)目標(biāo)端依存邊的位置關(guān)系，“Obama”與“issue”之間的依存邊和“today”與“issue”之間的依存邊的位置關(guān)系中指示這兩個依存節(jié)點“Obama”和“today”在“issue”的左邊，并且與“issue”不相鄰，因而，可基于這兩個目標(biāo)詞與“issue”的位置關(guān)系進(jìn)行枚舉，得到譯文“obama today will issue”和“today Obama will issue”。向右擴(kuò)展時,將所有目標(biāo)端依存邊依照其本身攜帶的位置信息向右擴(kuò)展，并進(jìn)行枚舉。如圖5所示，向右擴(kuò)展時遇到一個已經(jīng)翻譯好的內(nèi)部節(jié)點，該內(nèi)部節(jié)點的所對應(yīng)的其中一個譯文片段為“a statementof security strategy”，將其拼接到前面兩個已經(jīng)生成的句子片段上，這樣就得到了兩個番羽譯候選譯文“obama today will issue a statement of security strategy”和“todayobama will issue a statement of security strategy”,也就是得到節(jié)點“發(fā)布”所覆蓋的整棵子樹的譯文。由于一個源端依存邊可能會匹配多個目標(biāo)端依存邊，每個翻譯好的內(nèi)部節(jié)點也可能會有多個候選譯文片段，因此需要全部進(jìn)行枚舉，最終會得到多個候選譯文。當(dāng)然，上述枚舉的過程可能會增加時間復(fù)雜度，為了降低其時間復(fù)雜度，還可以采用很多現(xiàn)有的改進(jìn)的枚舉算法，例如Beam-search算法來進(jìn)行枚舉。
[0073]其中，對于多個候選譯文進(jìn)行評分并排序，當(dāng)翻譯完成時，選取最高分?jǐn)?shù)的候選譯文作為最終的翻譯結(jié)果。對于多個候選譯文的評分和排序的方法，與現(xiàn)有的統(tǒng)計機(jī)器翻譯方法一樣，采用對數(shù)線性模型框架提供的13個特征進(jìn)行評分，這些特征包括轉(zhuǎn)換規(guī)則正向和反向翻譯概率、正向和反向詞匯化翻譯概率、fixed結(jié)構(gòu)雙語短語正向和反向翻譯概率及其正向和反向詞匯化翻譯概率、規(guī)則懲罰、雙語短語規(guī)則懲罰、偽翻譯規(guī)則懲罰、目標(biāo)端詞數(shù)懲罰和語言模型。
[0074]現(xiàn)有的基于依存樹的翻譯方法通常基于上下文無關(guān)同步文法，其翻譯規(guī)則形式上表現(xiàn)為源端和目標(biāo)端同步結(jié)構(gòu)。這種同步結(jié)構(gòu)制約其在翻譯過程中不能夠?qū)δ繕?biāo)語言句子的生成進(jìn)行獨立建模，而必須依賴并同步于源端的同步文法分析過程。對于從依存樹到目標(biāo)端依存樹的模型，同步文法甚至還會由于源端的依存樹與目標(biāo)端的依存樹結(jié)構(gòu)差異較大，導(dǎo)致非同構(gòu)問題難以解決。而根據(jù)本發(fā)明實施例的方法打破了同步文法的約束，采用了分析-轉(zhuǎn)換-生成的模式將翻譯過程拆解為三個階段，先對源語言端的句子進(jìn)行依存句法分析，接著基于上文所討論的抽取的轉(zhuǎn)換規(guī)則，以依存邊為單位，投射到目標(biāo)語言端短語依存邊，并再進(jìn)行目標(biāo)語言端句子的生成。這種方法對翻譯過程的三個階段可以獨立建模，使得對目標(biāo)語言端句子的生成過程進(jìn)行更為精確的控制成為可能。而且，由于上文規(guī)則抽取方法，以依存邊為單位，能從語料庫中抽取并學(xué)習(xí)到更多的轉(zhuǎn)換規(guī)則，對翻譯的準(zhǔn)確性提供了有力的支持。
[0075]在本發(fā)明的又一個實施例中，還提供了一種基于依存樹的統(tǒng)計機(jī)器翻譯系統(tǒng)，所述系統(tǒng)包括分析模塊、轉(zhuǎn)換模塊、輸出模塊。其中，分析模塊，用于獲取待翻譯的源語言句子的依存樹。轉(zhuǎn)換模塊用于基于上文所述的抽取方法從雙語語料庫中抽取的轉(zhuǎn)換規(guī)則，獲取所述依存樹中每條依存邊對應(yīng)的目標(biāo)端短語依存邊，并對所得到的目標(biāo)端短語依存邊進(jìn)行拼接，以生成與源語言句子對應(yīng)的一個或多個候選譯文。輸出模塊用于對每個候選譯文進(jìn)行評分，選取最高分?jǐn)?shù)的候選譯文作為與源語言句子對應(yīng)的最終譯文。所述系統(tǒng)還可以包括抽取模塊，其用于基于上文所述的抽取方法從雙語語料庫中抽取轉(zhuǎn)換規(guī)則。
[0076]為了更好地說明本發(fā)明的效果，發(fā)明人采用最常用的機(jī)器翻譯自動評測指標(biāo)BLEU，在125萬平行雙語語料數(shù)據(jù)集上，對根據(jù)本發(fā)明實施例的統(tǒng)計機(jī)器翻譯方法和主流的基于短語的翻譯方法的性能進(jìn)行了對比。根據(jù)實驗結(jié)果，本發(fā)明實施例中的翻譯方法與當(dāng)前主流的基于短語的翻譯方法相比，在性能上提高1.34個BLEU點。
[0077]雖然本發(fā)明已經(jīng)通過優(yōu)選實施例進(jìn)行了描述，然而本發(fā)明并非局限于這里所描述的實施例，在不脫離本發(fā)明范圍的情況下還包括所作出的各種改變以及變化。
【權(quán)利要求】
1.一種基于依存樹的轉(zhuǎn)換規(guī)則抽取方法，該方法包括: 步驟1，對于由源語言依存樹、目標(biāo)語言串和源語言與目標(biāo)語言之間的詞語對齊關(guān)系構(gòu)成的三元組中所述源語言依存樹的每個節(jié)點，利用所述對齊關(guān)系標(biāo)記該節(jié)點的節(jié)點域和子樹域，其中所述節(jié)點域是與該節(jié)點對齊的所有目標(biāo)詞在所述目標(biāo)語言串中的位置的集合，所述子樹域是指以該節(jié)點為根的依存子樹中所有節(jié)點的節(jié)點域的并集；步驟2，從所述源語言依存樹中提取可接受的依存邊，并從每條可接受的依存邊抽取轉(zhuǎn)換規(guī)則；其中，所述可接受的依存邊是指滿足下列條件的依存邊:(i)該依存邊的頭節(jié)點的節(jié)點域和該依存邊的依存節(jié)點的子樹域沒有交集；(ii)該依存邊的頭節(jié)點的節(jié)點域與所述源語言依存樹中任何其他節(jié)點的節(jié)點域沒有交集；(iii)該依存邊的依存節(jié)點的子樹域與所述源語言依存樹中在以該依存節(jié)點為根的子樹之外的任何其他節(jié)點的節(jié)點域沒有交集；以及所述轉(zhuǎn)換規(guī)則包括源端依存邊和目標(biāo)端短語依存邊，所述源端依存邊為一條可接受的依存邊，所述目標(biāo)端短語依存邊包括與所述源端依存邊的頭結(jié)點對應(yīng)的目標(biāo)語言短語片、以所述源端依存邊的依存結(jié)點為根節(jié)點的依存子樹對應(yīng)的目標(biāo)語言短語片以及這兩個目標(biāo)語言短語片在所述目標(biāo)語言串中的左右位置關(guān)系和是否相鄰的位置關(guān)系。
2.根據(jù)權(quán)利要求1所述的方法，所述步驟I還包括為所述源語言依存樹中每個節(jié)點標(biāo)記對應(yīng)詞的詞性。
3.根據(jù)權(quán)利要求2所述的方法，還包括對所抽取的轉(zhuǎn)換規(guī)則進(jìn)行泛化，以獲取泛化后的轉(zhuǎn)換規(guī)則。
4.根據(jù)權(quán)利要求1所述的方法，其中，所述轉(zhuǎn)換規(guī)則的目標(biāo)端的兩個目標(biāo)語言短語片在目標(biāo)語言串中的左右位置關(guān)系和是否相鄰的位置關(guān)系是基于所述轉(zhuǎn)化規(guī)則的源端依存邊的頭結(jié)點的節(jié)點域和其依存節(jié)點的子樹域來獲取的。
5.根據(jù)權(quán)利要求4所述的方法，其中，如果所述轉(zhuǎn)化規(guī)則的源端依存邊的頭結(jié)點的節(jié)點域的開始位置大于其依存節(jié)點的子樹域的結(jié)束位置，則該依存邊的頭結(jié)點對應(yīng)的目標(biāo)語言短語片在以該依存邊的依存結(jié)點為根節(jié)點的依存子樹對應(yīng)的目標(biāo)語言短語片的左邊位置，反之則在右邊；如果所述轉(zhuǎn)化規(guī)則的源端依存邊的頭結(jié)點的節(jié)點域的開始位置或結(jié)束位置中的一個與其依存節(jié)點的子樹域的開始位置或結(jié)束位置的其中一個相鄰，則該依存邊的頭結(jié)點對應(yīng)的目標(biāo)語言短語片與以該依存邊的依存結(jié)點為根節(jié)點的依存子樹對應(yīng)的目標(biāo)語言短語片是相鄰的，反之則不相鄰。
6.根據(jù)權(quán)利要求1-5之一所述的方法，在所述步驟2，對于每條可接受的依存邊執(zhí)行下列操作: (a)以該可接受的依存邊構(gòu)成轉(zhuǎn)換規(guī)則的源端依存邊； (b)獲取該可接受的依存邊的頭結(jié)點對應(yīng)的目標(biāo)語言片和以該可接受的依存邊的依存結(jié)點為根節(jié)點的依存子樹對應(yīng)的目標(biāo)語言短語片，并且根據(jù)該可接受的依存邊的頭結(jié)點的節(jié)點域和依存節(jié)點的子樹域，獲取這兩個目標(biāo)短語片在目標(biāo)語言串中的左右位置關(guān)系和是否相鄰的位置關(guān)系，以此構(gòu)成轉(zhuǎn)換規(guī)則的目標(biāo)端短語依存邊。
7.一種基于依存樹的統(tǒng)計機(jī)器翻譯方法，所述方法包括: 步驟I)獲取待翻譯的源語言句子的依存樹；步驟2)基于根據(jù)權(quán)利要求1-6之一所述的方法從雙語語料庫中抽取的轉(zhuǎn)換規(guī)則，獲取所述依存樹中每條依存邊對應(yīng)的目標(biāo)端短語依存邊，并對所得到的目標(biāo)端短語依存邊進(jìn)行拼接，以生成與源語言句子對應(yīng)的一個或多個候選譯文；步驟3)對每個候選譯文進(jìn)行評分，選取最高分?jǐn)?shù)的候選譯文作為與源語言句子對應(yīng)的最終譯文。
8.根據(jù)權(quán)利要求7所述的方法，所述步驟2)包括:后序遍歷所述源語言句子的依存樹的每個節(jié)點并在每個節(jié)點處執(zhí)行下列操作，直到根節(jié)點為止: 步驟2-1)獲取該節(jié)點與該節(jié)點的每個依存節(jié)點之間的依存邊；步驟2-2)對于每條依存邊，從所抽取的轉(zhuǎn)換規(guī)則中查找其源端依存邊與該依存邊相同的一個或多個轉(zhuǎn)換規(guī)則，并基于每個匹配的轉(zhuǎn)換規(guī)則，獲取該依存邊對應(yīng)的目標(biāo)端短語依存邊；步驟2-3)將所得到的目標(biāo)端短語依存邊進(jìn)行拼接，以獲取該節(jié)點覆蓋的依存子樹對應(yīng)的譯文片段。
9.根據(jù)權(quán)利要求8所述的方法，所述步驟2-2)還包括對于每條依存邊，將該依存邊的頭結(jié)點或依存節(jié)點替換成變量和該節(jié)點對應(yīng)詞的詞性標(biāo)記，從所抽取的轉(zhuǎn)換規(guī)則中選擇其源端依存邊與該經(jīng)修改后的依存邊相同的轉(zhuǎn)換規(guī)則。
10.根據(jù)權(quán)利要求8所述的方法，所述步驟2-3)包括: a)選取其中包含相鄰位置關(guān)系的目標(biāo)端短語依存邊作為擴(kuò)展點； b)基于所有目標(biāo)端短語依存邊包含的位置關(guān)系，在該擴(kuò)展點對應(yīng)的譯文片段的左右方向枚舉所有可能與其余各個目標(biāo)端短語依存邊對應(yīng)譯文片段。
11.一種基于依存樹的統(tǒng)計機(jī)器翻譯系統(tǒng)，所述系統(tǒng)包括: 分析模塊，用于獲取待翻譯的源語言句子的依存樹；轉(zhuǎn)換模塊，用于基于根據(jù)權(quán)利要求1-6之一所述的方法從雙語語料庫中抽取的轉(zhuǎn)換規(guī)貝U，獲取所述依存樹中每條依存邊對應(yīng)的目標(biāo)端短語依存邊，并對所得到的目標(biāo)端短語依存邊進(jìn)行拼接，以生成與源語言句子對應(yīng)的一個或多個候選譯文；輸出模塊，用于對每個候選譯文進(jìn)行評分，選取最高分?jǐn)?shù)的候選譯文作為與源語言句子對應(yīng)的最終譯文。
【文檔編號】G06F17/28GK104239290SQ201410389422
【公開日】2014年12月24日申請日期:2014年8月8日優(yōu)先權(quán)日:2014年8月8日
【發(fā)明者】陳宏申, 謝軍, 孟凡東, 姜文斌, 劉群申請人:中國科學(xué)院計算技術(shù)研究所

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳宏申;謝軍;孟凡東;姜文斌;劉群
技術(shù)所有人：中國科學(xué)院計算技術(shù)研究所
我是此專利的發(fā)明人

上一篇：一種程序執(zhí)行方法
上一篇：實時交互的增強現(xiàn)實系統(tǒng)以及方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

統(tǒng)計機(jī)器翻譯相關(guān)技術(shù)

基于統(tǒng)計的機(jī)器翻譯相關(guān)技術(shù)

統(tǒng)計機(jī)器翻譯模型相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于依存樹的統(tǒng)計機(jī)器翻譯方法及系統(tǒng)的制作方法