專利名稱::機(jī)器翻譯中抽取調(diào)序模板的方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及機(jī)器翻譯領(lǐng)域,尤其涉及機(jī)器翻譯中抽取調(diào)序模板的方法及系統(tǒng)。
背景技術(shù):
:翻譯模板是機(jī)器翻譯中常用的指導(dǎo)翻譯的知識(shí)表示形式,描述從源語(yǔ)言翻譯到目標(biāo)語(yǔ)言時(shí)所需遵循的對(duì)應(yīng)關(guān)系。翻譯模板為源語(yǔ)言端和目標(biāo)語(yǔ)言端的常量和變量組成的字符串,而且源語(yǔ)言和目標(biāo)語(yǔ)言字符串的各部分一一對(duì)應(yīng)。—個(gè)漢語(yǔ)_英語(yǔ)的簡(jiǎn)單翻譯模板舉例今天X。Xtoday.模板中的常量即指語(yǔ)言片段,也稱終結(jié)符,如上例中的"今天",對(duì)應(yīng)"today";"。"對(duì)應(yīng)"."。變量即指用"X"代表的部分,也稱非終結(jié)符。非終結(jié)符為在抽取過(guò)程中對(duì)終結(jié)符序列進(jìn)行替換得到。由于源語(yǔ)言和目標(biāo)語(yǔ)言的順序通常不一致,翻譯模板又分為順序模板和調(diào)序模板兩類。順序模板中的所有對(duì)應(yīng)部分在源語(yǔ)言和目標(biāo)語(yǔ)言中順序一致,而調(diào)序模板則描述了源語(yǔ)言和目標(biāo)語(yǔ)言翻譯對(duì)順序不一致的情況。翻譯模板可以由手工構(gòu)建,也可以從雙語(yǔ)語(yǔ)料中自動(dòng)抽取。由于手工構(gòu)建的模板成本較高,而且匹配時(shí)容易發(fā)生沖突,在現(xiàn)有技術(shù)的機(jī)器翻譯系統(tǒng)中一般使用從雙語(yǔ)語(yǔ)料中自動(dòng)抽取方法抽取翻譯模板。盡管自動(dòng)抽取翻譯模板成本低,容易在機(jī)器翻譯系統(tǒng)中使用,但是由于翻譯模板的非終結(jié)符通過(guò)替換多種終結(jié)符序列得到,造成自動(dòng)抽取模板的數(shù)量巨大,現(xiàn)有技術(shù)中為了保證機(jī)器翻譯系統(tǒng)的效率,通常對(duì)抽取翻譯模板具有多種限制,例如,對(duì)抽取翻譯模板的句子部分的長(zhǎng)度限制,對(duì)翻譯模板源語(yǔ)言端和目標(biāo)語(yǔ)言端長(zhǎng)度的限制等。在機(jī)器翻譯中,調(diào)序問(wèn)題是指由于源語(yǔ)言和目標(biāo)語(yǔ)言詞序通常不一致,需要在翻譯過(guò)程中對(duì)目標(biāo)語(yǔ)言進(jìn)行重排序的問(wèn)題。它是機(jī)器翻譯的核心問(wèn)題之一,因?yàn)楹玫臋C(jī)器翻譯結(jié)果必須具有正確的目標(biāo)語(yǔ)言順序。在使用自動(dòng)抽取模板的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中,調(diào)序通常通過(guò)匹配調(diào)序模板實(shí)現(xiàn)。但是,現(xiàn)有技術(shù)中機(jī)器翻譯系統(tǒng)中使用的翻譯模板由于抽取過(guò)程的種種限制,不能準(zhǔn)確,完整地描述重排序現(xiàn)象;在機(jī)器翻譯過(guò)程中,由于計(jì)算翻譯模板調(diào)序代價(jià)巨大,在沒(méi)有合適的翻譯模板使用時(shí),默認(rèn)按照順序方式翻譯,從而造成錯(cuò)誤調(diào)序。所以,現(xiàn)有的調(diào)序模板自動(dòng)抽取方法存在調(diào)序模板對(duì)于翻譯中調(diào)序現(xiàn)象覆蓋低的問(wèn)題。
發(fā)明內(nèi)容為解決上述問(wèn)題,本發(fā)明提供了機(jī)器翻譯中抽取調(diào)序模板的方法及系統(tǒng),能夠消除現(xiàn)有技術(shù)中對(duì)抽取翻譯模板的限制,并能夠提取出多種調(diào)序模板以增加調(diào)序模板對(duì)于翻譯中調(diào)序現(xiàn)象的覆蓋率。本發(fā)明公開(kāi)了一種機(jī)器翻譯中抽取調(diào)序模板的方法,包括步驟l,輸入雙語(yǔ)對(duì)齊語(yǔ)料,對(duì)所述雙語(yǔ)對(duì)齊語(yǔ)料中的源語(yǔ)言部分進(jìn)行分詞和詞性標(biāo)注;步驟2,對(duì)雙語(yǔ)對(duì)齊語(yǔ)料中每一個(gè)雙語(yǔ)句對(duì),進(jìn)行調(diào)序分析,抽取出調(diào)序?qū)嵗?;步驟3,對(duì)于每個(gè)所述調(diào)序?qū)嵗鶕?jù)所述調(diào)序?qū)嵗械脑~對(duì)在源語(yǔ)言和目標(biāo)語(yǔ)言中位置,將所述調(diào)序?qū)嵗齽澐譃閮刹糠郑瑢?duì)于每個(gè)部分,根據(jù)詞性標(biāo)注確定變量部分,將所述變量部分替換為變量。所述步驟2進(jìn)一步為,步驟21,對(duì)每一個(gè)雙語(yǔ)句對(duì),將所述雙語(yǔ)句對(duì)中滿足條件的句塊對(duì)抽取為調(diào)序?qū)嵗?;所述條件為所述句塊對(duì)滿足詞語(yǔ)對(duì)齊一致性,所述句塊對(duì)包括兩個(gè)相鄰的子句塊對(duì),并且所述兩個(gè)子句塊對(duì)的源語(yǔ)言部分在所述句塊對(duì)的源語(yǔ)言語(yǔ)言部分的順序與所述兩個(gè)子句塊對(duì)的目標(biāo)語(yǔ)言部分在所述句塊對(duì)的目標(biāo)語(yǔ)言部分的順序相反,且不能通過(guò)延伸所述兩個(gè)子句塊對(duì)中的任一子句塊對(duì)得到滿足詞語(yǔ)對(duì)齊一致性的新子句塊對(duì)。所述步驟3進(jìn)一步為,步驟31,對(duì)于每個(gè)所述調(diào)序?qū)嵗?,根?jù)調(diào)序?qū)嵗性~對(duì)在源語(yǔ)言和目標(biāo)語(yǔ)言中的位置確定調(diào)序的分界,從所述分界處將所述調(diào)序?qū)嵗齽澐譃閮刹糠?;步驟32,對(duì)于每個(gè)部分,根據(jù)詞性標(biāo)注在所述部分的源語(yǔ)言部分中查找滿足條件的句段,選擇滿足條件的句段中最長(zhǎng)的句段作為所述部分的源語(yǔ)言部分的變量部分,以所述句段根據(jù)詞對(duì)齊確定的在目標(biāo)語(yǔ)言部分中對(duì)應(yīng)的句段為所述部分的目標(biāo)語(yǔ)言部分的變量部分,將源語(yǔ)言部分和目標(biāo)語(yǔ)言部分的變量部分替換為變量,以形成調(diào)序模板;所述條件為句段的第一個(gè)詞和最后一個(gè)詞為實(shí)詞,并且所述句段和所述句段在所述部分的目標(biāo)語(yǔ)言部分中的對(duì)應(yīng)句段滿足詞語(yǔ)對(duì)齊一致性。所述步驟21還包括,步驟41,對(duì)每一個(gè)雙語(yǔ)句對(duì),根據(jù)雙語(yǔ)句對(duì)的調(diào)序?qū)嵗g的包含關(guān)系,將所述調(diào)序?qū)嵗M成樹(shù)狀結(jié)構(gòu)。所述步驟3后還包括,步驟51,如果變量部分包含調(diào)序?qū)嵗?,將所述變量部分替換為所述變量實(shí)例對(duì)應(yīng)的調(diào)序模板。所述步驟3后還包括步驟61,對(duì)雙語(yǔ)對(duì)齊語(yǔ)料應(yīng)用最大似然估計(jì)法,計(jì)算每個(gè)詞對(duì)的翻譯概率,根據(jù)所述詞對(duì)的翻譯概率計(jì)算所述調(diào)序模板的詞匯化概率。所述步驟3后還包括步驟71,對(duì)每個(gè)所述調(diào)序模板,在所述雙語(yǔ)對(duì)齊語(yǔ)料中匹配所述調(diào)序模板的源語(yǔ)言部分和目標(biāo)語(yǔ)言部分,獲得匹配次數(shù)和完全匹配次數(shù);步驟72,根據(jù)所述匹配次數(shù)和完全匹配次數(shù)計(jì)算所述調(diào)序模板從目標(biāo)語(yǔ)言到源語(yǔ)言的翻譯概率和從源語(yǔ)言到目標(biāo)語(yǔ)言的翻譯概率。本發(fā)明還公開(kāi)了一種機(jī)器翻譯中抽取調(diào)序模板的系統(tǒng),包括語(yǔ)料處理模塊,用于輸入雙語(yǔ)對(duì)齊語(yǔ)料,對(duì)所述雙語(yǔ)對(duì)齊語(yǔ)料中的源語(yǔ)言部分進(jìn)行分詞和詞性標(biāo)注;調(diào)序?qū)嵗槿∧K,用于對(duì)雙語(yǔ)對(duì)齊語(yǔ)料中每一個(gè)雙語(yǔ)句對(duì),進(jìn)行調(diào)序分析,抽取出調(diào)序?qū)嵗?;調(diào)序模板生成模塊,用于對(duì)于每個(gè)所述調(diào)序?qū)嵗鶕?jù)所述調(diào)序?qū)嵗械脑~對(duì)在源語(yǔ)言和目標(biāo)語(yǔ)言中位置,將所述調(diào)序?qū)嵗齽澐譃閮刹糠?,?duì)于每個(gè)部分,根據(jù)詞性標(biāo)注確定變量部分,將所述變量部分替換為變量。所述調(diào)序?qū)嵗槿∧K進(jìn)一步用于對(duì)每一個(gè)雙語(yǔ)句對(duì),將所述雙語(yǔ)句對(duì)中滿足條件的句塊對(duì)抽取為調(diào)序?qū)嵗?;所述條件為所述句塊對(duì)滿足詞語(yǔ)對(duì)齊一致性,所述句塊對(duì)包括兩個(gè)相鄰的子句塊對(duì),并且所述兩個(gè)子句塊對(duì)的源語(yǔ)言部分在所述句塊對(duì)的源語(yǔ)言語(yǔ)言部分的順序與所述兩個(gè)子句塊對(duì)的目標(biāo)語(yǔ)言部分在所述句塊對(duì)的目標(biāo)語(yǔ)言部分的順序相反,且不能通過(guò)延伸所述兩個(gè)子句塊對(duì)中的任一子句塊對(duì)得到滿足詞語(yǔ)對(duì)齊一致性的新子句塊對(duì)。所述調(diào)序模板生成模塊進(jìn)一步用于對(duì)于每個(gè)所述調(diào)序?qū)嵗?,根?jù)調(diào)序?qū)嵗性~對(duì)在源語(yǔ)言和目標(biāo)語(yǔ)言中的位置確定調(diào)序的分界,從所述分界處將所述調(diào)序?qū)嵗齽澐譃閮刹糠?;?duì)于每個(gè)部分,根據(jù)詞性標(biāo)注在所述部分的源語(yǔ)言部分中查找滿足條件的句段,選擇滿足條件的句段中最長(zhǎng)的句段作為所述部分的源語(yǔ)言部分的變量部分,以所述句段根據(jù)詞對(duì)齊確定的在目標(biāo)語(yǔ)言部分中對(duì)應(yīng)的句段為所述部分的目標(biāo)語(yǔ)言部分的變量部分,將源語(yǔ)言部分和目標(biāo)語(yǔ)言部分的變量部分替換為變量,以形成調(diào)序模板;所述條件為句段的第一個(gè)詞和最后一個(gè)詞為實(shí)詞,并且所述句段和所述句段在所述部分的目標(biāo)語(yǔ)言部分中的對(duì)應(yīng)句段滿足詞語(yǔ)對(duì)齊一致性。所述調(diào)序?qū)嵗槿∧K還用于對(duì)每一個(gè)雙語(yǔ)句對(duì),根據(jù)雙語(yǔ)句對(duì)的調(diào)序?qū)嵗g的包含關(guān)系,將所述調(diào)序?qū)嵗M成樹(shù)狀結(jié)構(gòu)。所述調(diào)序模板生成模塊還用于在變量部分包含調(diào)序?qū)嵗龝r(shí),將所述變量部分替換為所述變量實(shí)例對(duì)應(yīng)的調(diào)序模板。所述系統(tǒng)還包括概率生成模塊,用于對(duì)雙語(yǔ)對(duì)齊語(yǔ)料應(yīng)用最大似然估計(jì)法,計(jì)算每個(gè)詞對(duì)的翻譯概率,根據(jù)所述詞對(duì)的翻譯概率計(jì)算所述調(diào)序模板的詞匯化概率。所述系統(tǒng)還包括概率生成模塊,用于對(duì)每個(gè)所述調(diào)序模板,在所述雙語(yǔ)對(duì)齊語(yǔ)料中匹配所述調(diào)序模板的源語(yǔ)言部分和目標(biāo)語(yǔ)言部分,獲得匹配次數(shù)和完全匹配次數(shù);根據(jù)所述匹配次數(shù)和完全匹配次數(shù)計(jì)算所述調(diào)序模板從目標(biāo)語(yǔ)言到源語(yǔ)言的翻譯概率和從源語(yǔ)言到目標(biāo)語(yǔ)言的翻譯概率。本發(fā)明的有益效果在于,在調(diào)序模板抽取時(shí)沒(méi)有長(zhǎng)度限制,同時(shí)只抽取具有調(diào)序作用的模板,保證了抽取的效率;調(diào)序模板抽取允許調(diào)序模板的源語(yǔ)言部分含有兩個(gè)以上的變量或連續(xù)變量,相比于現(xiàn)有技術(shù)的模板抽取,減少了限制,增加了調(diào)序模板的可泛化程度。圖1是本發(fā)明抽取調(diào)序模板的方法的流程圖2是本發(fā)明抽取調(diào)序模板的方法具體實(shí)施方式的流程圖;圖3是本發(fā)明抽取調(diào)序模板的系統(tǒng)的結(jié)構(gòu)圖。具體實(shí)施例方式下面結(jié)合附圖,對(duì)本發(fā)明做進(jìn)一步的詳細(xì)描述。—種機(jī)器翻譯中抽取調(diào)序模板的方法的流程如圖1所示。步驟S100,輸入雙語(yǔ)對(duì)齊語(yǔ)料,對(duì)雙語(yǔ)對(duì)齊語(yǔ)料中的源語(yǔ)言部分進(jìn)行分詞和詞性標(biāo)注。雙語(yǔ)對(duì)齊語(yǔ)料為已經(jīng)經(jīng)過(guò)自動(dòng)對(duì)齊的雙語(yǔ)語(yǔ)料。步驟S200,對(duì)每一個(gè)雙語(yǔ)句對(duì),進(jìn)行調(diào)序分析,抽取出調(diào)序?qū)嵗?。調(diào)序?qū)嵗窃凑Z(yǔ)言和目標(biāo)語(yǔ)言順序不一致的句塊對(duì),并且調(diào)序?qū)嵗凉M足詞語(yǔ)對(duì)齊一致性。詞語(yǔ)對(duì)齊一致性是指句塊對(duì)中源語(yǔ)言部分的每個(gè)詞對(duì)應(yīng)的目標(biāo)語(yǔ)言的詞都在句塊對(duì)的目標(biāo)語(yǔ)言部分中,目標(biāo)語(yǔ)言部分的每個(gè)詞對(duì)應(yīng)的源語(yǔ)言的詞都在句塊對(duì)的源語(yǔ)言部分,并且目標(biāo)語(yǔ)言部分中未包含的目標(biāo)語(yǔ)言的詞對(duì)應(yīng)的源語(yǔ)言的詞沒(méi)有在源語(yǔ)言部分中出現(xiàn),源語(yǔ)言部分中未包含的源語(yǔ)言的詞對(duì)應(yīng)的目標(biāo)語(yǔ)言的詞沒(méi)有在目標(biāo)語(yǔ)言部分中出現(xiàn)。步驟S300,對(duì)于每個(gè)調(diào)序?qū)嵗?,根?jù)詞對(duì)在源語(yǔ)言和目標(biāo)語(yǔ)言中位置,將該調(diào)序?qū)嵗齽澐譃閮刹糠?,?duì)于每個(gè)部分,根據(jù)詞性標(biāo)注確定變量部分,將所述變量部分替換為變量,以獲得調(diào)序模板?!^佳的方法中,所述步驟S200進(jìn)一步為,步驟S210,對(duì)每一個(gè)雙語(yǔ)句對(duì),將該雙語(yǔ)句對(duì)中滿足條件的句塊對(duì)抽取為調(diào)序?qū)嵗?。所述條件為句塊對(duì)滿足詞語(yǔ)對(duì)齊一致性,并且句塊對(duì)包括兩個(gè)相鄰的子句塊對(duì),所述兩個(gè)子句塊對(duì)滿足詞語(yǔ)對(duì)齊一致性,并且它們的源語(yǔ)言部分在句塊對(duì)的源語(yǔ)言部分的順序與所述兩個(gè)子句塊對(duì)的目標(biāo)語(yǔ)言部分在句塊對(duì)的目標(biāo)語(yǔ)言部分的順序相反,且不能通過(guò)延伸所述兩個(gè)子句塊對(duì)中的任一子句塊對(duì)得到滿足詞語(yǔ)對(duì)齊一致性的新子句塊對(duì)。句塊對(duì)源語(yǔ)言部分的兩個(gè)子部分和該子部分按詞對(duì)齊確定的句塊對(duì)目標(biāo)語(yǔ)言部分的對(duì)應(yīng)的子部分組成子句塊對(duì)。所述延伸兩個(gè)子句塊為將子句塊對(duì)中的源語(yǔ)言部分在所述雙語(yǔ)句對(duì)中的源語(yǔ)言部分中延伸,由于延伸的源語(yǔ)言部分有按詞對(duì)齊確定的目標(biāo)語(yǔ)言部分,子句塊對(duì)的目標(biāo)語(yǔ)言部分也要延伸上述的目標(biāo)語(yǔ)言部分。例如,圖2中雙語(yǔ)句對(duì)"和談后確定邦交的政策"禾P"decidepolicyofdiplomaticrelationshipafternegotiation"中,句塊對(duì)"邦交的政策,,禾口"policyofdiplomaticrelationship",該句塊對(duì)的對(duì)應(yīng)一個(gè)子句塊對(duì)為"邦交"禾口"diplomaticrelationship",將該子句塊對(duì)延伸,"邦交"延伸為"確定邦交",由于"確定"對(duì)應(yīng)的目標(biāo)語(yǔ)言部分是,,decide,,,"diplomaticrelationship"對(duì)應(yīng)延伸為"decide..diplomaticrelationship,,。由于,,decide,,禾口,,diplomaticrelationship,,之間有其他的目標(biāo)語(yǔ)言部分,不能得到滿足詞語(yǔ)對(duì)齊一致性的新子句塊對(duì)。詞對(duì)齊為按源語(yǔ)言和目的語(yǔ)言單詞間的詞義確定的對(duì)應(yīng)關(guān)系。一較佳的方法中,所述步驟S300進(jìn)一步為,步驟S310,對(duì)于每個(gè)調(diào)序?qū)嵗?,根?jù)詞對(duì)在源語(yǔ)言和目標(biāo)語(yǔ)言中的對(duì)齊位置確定調(diào)序的分界,從分界處將調(diào)序?qū)嵗齽澐譃閮刹糠?。步驟S320,對(duì)于每個(gè)部分,根據(jù)詞性標(biāo)注在源語(yǔ)言部分中查找滿足條件的句段,選擇滿足條件的句段中最長(zhǎng)的句段作為該部分的源語(yǔ)言部分的變量部分,該句段根據(jù)詞對(duì)齊確定的在該部分的目標(biāo)語(yǔ)言部分中對(duì)應(yīng)的句段為該部分的目標(biāo)語(yǔ)言部分的變量部分,將源語(yǔ)言部分和目標(biāo)語(yǔ)言部分的變量部分替換為變量,以形成調(diào)序模板。所述條件為句段的第一個(gè)詞和最后一個(gè)詞為實(shí)詞,并且該句段和該句段對(duì)應(yīng)的目標(biāo)語(yǔ)言部分的句段滿足詞語(yǔ)對(duì)齊一致性?!^佳的方法中,所述步驟S210還包括,步驟S211,對(duì)每一個(gè)雙語(yǔ)句對(duì),根據(jù)雙語(yǔ)句對(duì)的調(diào)序?qū)嵗g的包含關(guān)系,將一個(gè)雙語(yǔ)句對(duì)的調(diào)序?qū)嵗M成樹(shù)狀結(jié)構(gòu)?!^佳的方法中,所述步驟S300還包括,步驟S310,如果變量部分包含調(diào)序?qū)嵗?,將該變量部分替換為所述變量實(shí)例對(duì)應(yīng)的調(diào)序模板,以形成一個(gè)新增的調(diào)序模板?!^佳的方法中,所述步驟S300后還包括,步驟S400,對(duì)雙語(yǔ)對(duì)齊語(yǔ)料應(yīng)用最大似然估計(jì)法,計(jì)算每個(gè)詞對(duì)的翻譯概率,根據(jù)該詞對(duì)的翻譯概率計(jì)算每個(gè)調(diào)序模板的詞匯化概率?!^佳的方法中,所述步驟S300后還包括,步驟S500,對(duì)每個(gè)調(diào)序模板,在雙語(yǔ)對(duì)齊語(yǔ)料中匹配該調(diào)序模板的源語(yǔ)言部分和目標(biāo)語(yǔ)言部分,獲得匹配次數(shù)和完全匹配次數(shù);根據(jù)所述匹配次數(shù)和完全匹配次數(shù)計(jì)算該調(diào)序模板從目標(biāo)語(yǔ)言到源語(yǔ)言的翻譯概率和從源語(yǔ)言到目標(biāo)語(yǔ)言的翻譯概率。本發(fā)明抽取調(diào)序模板的方法具體實(shí)施方式的流程如下所述。步驟S601,輸入雙語(yǔ)對(duì)齊語(yǔ)料,對(duì)雙語(yǔ)對(duì)齊語(yǔ)料中的源語(yǔ)言部分進(jìn)行分詞和詞性標(biāo)注。本具體實(shí)施方式中用自動(dòng)對(duì)齊方法對(duì)雙語(yǔ)平行語(yǔ)料進(jìn)行詞語(yǔ)對(duì)齊,并且用源語(yǔ)言的詞性標(biāo)注器對(duì)雙語(yǔ)對(duì)齊語(yǔ)料中源語(yǔ)言的語(yǔ)句進(jìn)行詞性標(biāo)注。對(duì)源語(yǔ)言進(jìn)行分詞,詞性標(biāo)注可以在分詞之后進(jìn)行,也可以和分詞過(guò)程同時(shí)進(jìn)行。本具體實(shí)施方式抽取出的模板中,源語(yǔ)言部分的詞帶有詞性標(biāo)注的結(jié)果。步驟S602,對(duì)每一個(gè)雙語(yǔ)句對(duì),將該雙語(yǔ)句對(duì)中滿足條件的部分抽取為調(diào)序?qū)嵗K鰲l件為所述步驟S210中條件。本實(shí)施方式中為所述部分在源語(yǔ)言中包括兩個(gè)相鄰的子部分,每一子部分在目標(biāo)語(yǔ)言中的順序與在源語(yǔ)言中的順序相反,并且不能通過(guò)延伸所述的兩子部分中的任一部分增長(zhǎng)所述部分。對(duì)每一個(gè)符合條件的調(diào)序?qū)嵗M(jìn)行分析,由于調(diào)序?qū)嵗赡苡兄丿B,可以將其表示為樹(shù)狀結(jié)構(gòu)。從最短的調(diào)序?qū)嵗_(kāi)始,到最長(zhǎng)的調(diào)序?qū)嵗?,依次抽取有調(diào)序作用的模板,然后抽取反映層次信息的模板。步驟S603,對(duì)于每個(gè)調(diào)序?qū)嵗?,根?jù)詞對(duì)在源語(yǔ)言和目標(biāo)語(yǔ)言中的位置確定調(diào)序的分界,從分界處將調(diào)序?qū)嵗齽澐譃閮刹糠帧2襟ES604,對(duì)于每個(gè)部分,根據(jù)詞性標(biāo)注在源語(yǔ)言部分中查找滿足條件源語(yǔ)言部分的句段,選擇滿足條件的句段中最長(zhǎng)的句段作為該部分的源語(yǔ)言部分的變量部分,該句段在該部分的目標(biāo)語(yǔ)言部分中對(duì)應(yīng)的句段為該部分的目標(biāo)語(yǔ)言部分的變量部分,將源語(yǔ)言部分和目標(biāo)語(yǔ)言部分的變量部分替換為變量,以形成調(diào)序模板。所述條件為句段源語(yǔ)言部分的第一個(gè)詞和最后一個(gè)詞為實(shí)詞,并且該句段它和該句段它對(duì)應(yīng)的目標(biāo)語(yǔ)言部分的句段滿足詞語(yǔ)對(duì)齊一致性。在賓州樹(shù)庫(kù)的中文標(biāo)記集中,本具體實(shí)施方式中定義{NN,JJ,VV,NR,CD,DT,PN}作為實(shí)詞標(biāo)記集,它們代表的是語(yǔ)言中有實(shí)際意義的詞;其他標(biāo)記被定義為功能詞集,它們代表的是語(yǔ)言中用于連接等句法作用的詞。NN為名詞,JJ為形容詞,VV為動(dòng)詞,NR為專有名詞,CD為數(shù)詞,DT為冠詞,PN為代詞。在模板抽取中,以多個(gè)詞組成的短語(yǔ)中的首詞和尾詞作為邊界詞。該些詞有語(yǔ)言學(xué)上的意義,多種機(jī)器翻譯系統(tǒng)用于決定重排序的特征。在本具體實(shí)施方式中,根據(jù)語(yǔ)言學(xué)的特征,限定邊界詞必須有特定的詞性標(biāo)記,能夠使抽取出的模板在語(yǔ)言學(xué)上有意義。抽取調(diào)序模板時(shí)規(guī)定變量部分首尾詞的詞性標(biāo)記必須屬于實(shí)詞標(biāo)記,為一種啟發(fā)式規(guī)則,它的目的是使抽取的模板盡量符合句法的限制,減少無(wú)意義模板的數(shù)量。同時(shí),本具體實(shí)施方式中對(duì)于每個(gè)調(diào)序?qū)嵗?,根?jù)其調(diào)序情況將其分成兩部分,對(duì)每個(gè)部分的源語(yǔ)言部分,根據(jù)詞性標(biāo)記和詞語(yǔ)對(duì)齊情況,找出可以泛化的最長(zhǎng)部分,將其泛化為一個(gè)變量。步驟S605,對(duì)于每個(gè)調(diào)序模板,如果該調(diào)序模板的變量部分對(duì)應(yīng)包含調(diào)序?qū)嵗?,將該變量部分替換為所述變量實(shí)例對(duì)應(yīng)的調(diào)序模板,以形成一個(gè)新增的調(diào)序模板。如果翻譯模板中的一個(gè)變量部分中含有調(diào)序?qū)嵗?,可以抽取表達(dá)語(yǔ)言層次信息的模板。通過(guò)替換方式,可以用較短調(diào)序?qū)嵗槿〕龅恼{(diào)序模板替換較長(zhǎng)調(diào)序?qū)嵗槿〉恼{(diào)序模板的一部分,得到新的調(diào)序模板。新的調(diào)序模板包含更多的上下文信息,是一種更準(zhǔn)確的調(diào)序模板。步驟S606,對(duì)雙語(yǔ)對(duì)齊語(yǔ)料應(yīng)用最大似然估計(jì)法,計(jì)算每個(gè)詞對(duì)的翻譯概率,根據(jù)該詞對(duì)的翻譯概率計(jì)算每個(gè)調(diào)序模板的詞匯化概率。根據(jù)雙語(yǔ)對(duì)齊語(yǔ)料,用最大似然估計(jì)法可以估計(jì)出每個(gè)詞對(duì)的翻譯概率P(fjIei),根據(jù)基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯中現(xiàn)有的公式一,計(jì)算目標(biāo)語(yǔ)言翻譯到源語(yǔ)言的概率<formula>formulaseeoriginaldocumentpage10</formula>公式一計(jì)算出調(diào)序模板的從目標(biāo)語(yǔ)言到源語(yǔ)言的詞化概率,其中a表示詞語(yǔ)對(duì)齊,i,j表示詞在模板中的位置,非終結(jié)符對(duì)的翻譯概率pklxl=1。將公式一中的f和e調(diào)換,i和j調(diào)換,得到調(diào)序模板的源語(yǔ)言翻譯到目標(biāo)語(yǔ)言的詞匯化概率。步驟S607,對(duì)每個(gè)調(diào)序模板,在雙語(yǔ)對(duì)齊語(yǔ)料中匹配該調(diào)序模板的源語(yǔ)言部分和目標(biāo)語(yǔ)言部分,獲得匹配次數(shù)和完全匹配次數(shù);根據(jù)該匹配次數(shù)和完全匹配次數(shù)計(jì)算該調(diào)序模板從目標(biāo)語(yǔ)言到源語(yǔ)言的翻譯概率和從源語(yǔ)言到目標(biāo)語(yǔ)言的翻譯概率。從目標(biāo)語(yǔ)言翻譯到源語(yǔ)言的翻譯概率根據(jù)現(xiàn)有技術(shù)中的最大似然估計(jì)法來(lái)計(jì)算外"71"—2>0柳"/',6)公式二/,Count(f,e)表示源語(yǔ)言部分為f,目標(biāo)語(yǔ)言部分為e的共現(xiàn)次數(shù)。共現(xiàn)次數(shù)指在雙語(yǔ)對(duì)齊語(yǔ)料中,該源語(yǔ)言部分和目標(biāo)語(yǔ)言部分互為翻譯的次數(shù)。f'指目標(biāo)語(yǔ)言部分為e時(shí),源語(yǔ)言部分的變量。公式二中分母部分的求和是求所有目標(biāo)語(yǔ)言部分為e,源語(yǔ)言部分為任意翻譯的出現(xiàn)次數(shù)。由于本具體實(shí)施方式中只抽取了調(diào)序模板,公式二中所有目標(biāo)語(yǔ)言部分為e的調(diào)序模板出現(xiàn)次數(shù)Z②"""",e)無(wú)法計(jì)算。不需要抽取所有的調(diào)序模板來(lái)取得該統(tǒng)計(jì)值,只需要計(jì)算抽取出的調(diào)序模板的翻譯概率,只需獲得該些調(diào)序模板的源語(yǔ)言部分和目標(biāo)語(yǔ)言部分的出現(xiàn)次數(shù),就可以計(jì)算該些調(diào)序模板的翻譯概率。翻譯模板的兩個(gè)方向的翻譯概率和詞匯化概率是基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的重要特征。抽取出的翻譯模板以及它的四個(gè)概率可以應(yīng)用在基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)上。由于本發(fā)明中抽取出的模板的變量部分帶有首尾詞詞性標(biāo)注信息,在統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中進(jìn)行應(yīng)用時(shí)可以通過(guò)匹配詞性標(biāo)注來(lái)進(jìn)行應(yīng)用。本發(fā)明抽取出的模板可以應(yīng)用在基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)上,特別適用于基于層次短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)。本發(fā)明機(jī)器翻譯中抽取調(diào)序模板的方法的實(shí)施例如下所述。—個(gè)有調(diào)序現(xiàn)象的雙語(yǔ)平行句,源語(yǔ)言為漢語(yǔ),目的語(yǔ)言為英語(yǔ),"和談后確定邦交的政策,,對(duì)應(yīng)"decidethepolicyofdiplomaticrelationshipafternegotiation,,。步驟S701,輸入雙語(yǔ)對(duì)齊語(yǔ)料,對(duì)雙語(yǔ)對(duì)齊語(yǔ)料中的源語(yǔ)言部分進(jìn)行分詞和詞性標(biāo)注,獲得雙語(yǔ)句對(duì)如圖2所示。其中,漢語(yǔ)部分為源語(yǔ)言部分,英語(yǔ)部分為目標(biāo)語(yǔ)言部分,漢語(yǔ)部分每個(gè)詞'7"后的部分為詞性標(biāo)注符號(hào)。連線代表詞語(yǔ)對(duì)齊的結(jié)果。步驟S701,對(duì)調(diào)序現(xiàn)象的分析,抽取出調(diào)序模板。在該雙語(yǔ)句對(duì)中,存在調(diào)序現(xiàn)象,表現(xiàn)在詞語(yǔ)對(duì)齊結(jié)果上是連線有交叉的部分。調(diào)序?qū)嵗窃凑Z(yǔ)言和目標(biāo)語(yǔ)言順序不一致的塊,取最長(zhǎng)的部分。在該雙語(yǔ)句對(duì)中,調(diào)序?qū)嵗秊檎{(diào)序?qū)嵗?{和談后}(及其翻譯afternegotiation)和{確定邦交的政策}(及其番羽譯decidethepolicyofdiplomaticrelationship)調(diào)序?qū)嵗?{邦交}(及其翻譯diplomaticrelationship)和{的政策}(及其翻譯thepolicyof)其中調(diào)序?qū)嵗?是調(diào)序?qū)嵗?的一個(gè)部分,即調(diào)序?qū)嵗?和調(diào)序?qū)嵗?重疊。從最短的調(diào)序?qū)嵗_(kāi)始抽取調(diào)序模板,在該實(shí)施例中同調(diào)序?qū)嵗?開(kāi)始抽取。由于"邦交"和"政策"都是首尾詞有實(shí)詞標(biāo)注的源語(yǔ)言塊,可以將該兩部分分別用變量代替,同時(shí)將相應(yīng)的翻譯用變量代替,抽取出調(diào)序模板"X1的X2",翻譯到"X2ofXl"。同樣,從調(diào)序?qū)嵗?中抽取出調(diào)序模板"X1后X2",翻譯到"X2afterXl"。由于該調(diào)序模板"X1后X2"所在調(diào)序?qū)嵗淖兞坎糠种邪{(diào)序?qū)嵗?,所以用調(diào)序?qū)嵗?的調(diào)序模板替換調(diào)序?qū)嵗?的調(diào)序模板的對(duì)應(yīng)變量部分,得到反映層次信息的調(diào)序模板"X1后確定X2的X3"及其翻譯"decideX3ofX2afterXl"。抽取出的調(diào)序模板按抽取順序排列如下<table>tableseeoriginaldocumentpage12</column></row><table>步驟S703,計(jì)算調(diào)序模板的詞匯化概率和翻譯概率。抽取出調(diào)序模板后,根據(jù)每個(gè)調(diào)序模板的詞對(duì)齊情況,計(jì)算詞匯化概率。由公式一計(jì)算,利用每個(gè)詞及其翻譯對(duì)的目標(biāo)語(yǔ)言端到源語(yǔ)言端的概率計(jì)算出調(diào)序模板目標(biāo)語(yǔ)言端到源語(yǔ)言端的概率,利用每個(gè)詞及其翻譯對(duì)的源語(yǔ)言端到目標(biāo)語(yǔ)言端的概率計(jì)算出調(diào)序模板目標(biāo)語(yǔ)言端到源語(yǔ)言端的概率。例如模板"X1的X2"及其翻譯"X2ofXl"中,"的"對(duì)齊到"of",設(shè)p(的|of)=0.4,p(X|X)=l,則該模板目標(biāo)語(yǔ)言端到源語(yǔ)言端的詞匯化概率就是p(XlX)Xp(的of)Xp味)=0.4。對(duì)每個(gè)抽取的模板,在雙語(yǔ)平行語(yǔ)料中分別匹配它的源語(yǔ)言端和目標(biāo)語(yǔ)言端,計(jì)算出現(xiàn)次數(shù),由此計(jì)算兩個(gè)方向的翻譯概率。由公式二計(jì)算,用模板在語(yǔ)料中出現(xiàn)次數(shù)除以源語(yǔ)言端在語(yǔ)料中出現(xiàn)次數(shù)得到模板從源語(yǔ)言翻譯到目標(biāo)語(yǔ)言的翻譯概率,用模板在語(yǔ)料中出現(xiàn)次數(shù)除以目標(biāo)語(yǔ)言端在語(yǔ)料中出現(xiàn)次數(shù)得到模板從目標(biāo)語(yǔ)言翻譯到源語(yǔ)言的翻譯概率。例如"X1的X2"在語(yǔ)料中出現(xiàn)5次,模板"X1的X2"及其翻譯"X2ofXl"在語(yǔ)料中共同出現(xiàn)(在同一個(gè)句子中互為翻譯)的次數(shù)是2次,則該模板("XI的X2"和"X2ofXI")的從源語(yǔ)言翻譯到目標(biāo)語(yǔ)言的翻譯概率是2/5。這些抽取出的調(diào)序模板及其四個(gè)概率,以及變量部分的首尾詞詞性限制,可以應(yīng)用在使用翻譯模板的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中。上面是對(duì)本發(fā)明的具有調(diào)序作用模板的抽取過(guò)程及其可能應(yīng)用的具體說(shuō)明。利用FBIS,F(xiàn)BIS為一個(gè)包含新聞?wù)Z料的數(shù)據(jù)集,大約23萬(wàn)平行句對(duì);數(shù)據(jù)集作為抽取調(diào)序模板的雙語(yǔ)平行語(yǔ)料,在NIST(美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究院舉辦的機(jī)器翻譯評(píng)測(cè))各測(cè)試集上的實(shí)驗(yàn)結(jié)果表明,加入該些具有調(diào)序作用的模板提高了機(jī)器翻譯結(jié)果中單詞順序的準(zhǔn)確性,利用統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)通用評(píng)價(jià)標(biāo)準(zhǔn)BLEU(—種基于詞匹配準(zhǔn)確度的評(píng)價(jià)標(biāo)準(zhǔn))值做評(píng)價(jià),在各測(cè)試集上機(jī)器翻譯的質(zhì)量都有提高,在NIST05上從28.02提高到28.48,在NIST08上從19.75提高到20.44,比不加入這些調(diào)序模板的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)有提高,而且是統(tǒng)計(jì)意義上顯著的提高。本發(fā)明機(jī)器翻譯中抽取調(diào)序模板的系統(tǒng),包括語(yǔ)料處理模塊100,用于輸入雙語(yǔ)對(duì)齊語(yǔ)料,對(duì)所述雙語(yǔ)對(duì)齊語(yǔ)料中的源語(yǔ)言部分進(jìn)行分詞和詞性標(biāo)注。調(diào)序?qū)嵗槿∧K200,用于對(duì)雙語(yǔ)對(duì)齊語(yǔ)料中每一個(gè)雙語(yǔ)句對(duì),進(jìn)行調(diào)序分析,抽取出調(diào)序?qū)嵗U{(diào)序模板生成模塊300,用于對(duì)于每個(gè)所述調(diào)序?qū)嵗?,根?jù)所述調(diào)序?qū)嵗械脑~對(duì)在源語(yǔ)言和目標(biāo)語(yǔ)言中位置,將所述調(diào)序?qū)嵗齽澐譃閮刹糠郑瑢?duì)于每個(gè)部分,根據(jù)詞性標(biāo)注確定變量部分,將所述變量部分替換為變量。較佳的,所述調(diào)序?qū)嵗槿∧K200進(jìn)一步用于對(duì)每一個(gè)雙語(yǔ)句對(duì),將所述雙語(yǔ)句對(duì)中滿足條件的句塊對(duì)抽取為調(diào)序?qū)嵗K鰲l件為所述句塊對(duì)滿足詞語(yǔ)對(duì)齊一致性,所述句塊對(duì)包括兩個(gè)相鄰的子句塊對(duì),并且所述兩個(gè)子句塊對(duì)的源語(yǔ)言部分在所述句塊對(duì)的源語(yǔ)言語(yǔ)言部分的順序與所述兩個(gè)子句塊對(duì)的目標(biāo)語(yǔ)言部分在所述句塊對(duì)的目標(biāo)語(yǔ)言部分的順序相反,且不能通過(guò)延伸所述兩個(gè)子句塊對(duì)中的任一子句塊對(duì)得到滿足詞語(yǔ)對(duì)齊一致性的新子句塊對(duì)。較佳的,所述調(diào)序模板生成模塊300進(jìn)一步用于對(duì)于每個(gè)所述調(diào)序?qū)嵗?,根?jù)調(diào)序?qū)嵗性~對(duì)在源語(yǔ)言和目標(biāo)語(yǔ)言中的位置確定調(diào)序的分界,從所述分界處將所述調(diào)序?qū)嵗齽澐譃閮刹糠郑粚?duì)于每個(gè)部分,根據(jù)詞性標(biāo)注在所述部分的源語(yǔ)言部分中查找滿足條件的句段,選擇滿足條件的句段中最長(zhǎng)的句段作為所述部分的源語(yǔ)言部分的變量部分,以所述句段根據(jù)詞對(duì)齊確定的在目標(biāo)語(yǔ)言部分中對(duì)應(yīng)的句段為所述部分的目標(biāo)語(yǔ)言部分的變量部分,將源語(yǔ)言部分和目標(biāo)語(yǔ)言部分的變量部分替換為變量,以形成調(diào)序模板。所述條件為句段的第一個(gè)詞和最后一個(gè)詞為實(shí)詞,并且所述句段和所述句段在所述部分的目標(biāo)語(yǔ)言部分中的對(duì)應(yīng)句段滿足詞語(yǔ)對(duì)齊一致性。較佳的,所述調(diào)序?qū)嵗槿∧K200還用于對(duì)每一個(gè)雙語(yǔ)句對(duì),根據(jù)雙語(yǔ)句對(duì)的調(diào)序?qū)嵗g的包含關(guān)系,將所述調(diào)序?qū)嵗M成樹(shù)狀結(jié)構(gòu)。較佳的,所述調(diào)序模板生成模塊300還用于在變量部分包含調(diào)序?qū)嵗龝r(shí),將所述變量部分替換為所述變量實(shí)例對(duì)應(yīng)的調(diào)序模板。較佳的,所述系統(tǒng)還包括概率生成模塊,用于對(duì)雙語(yǔ)對(duì)齊語(yǔ)料應(yīng)用最大似然估計(jì)法,計(jì)算每個(gè)詞對(duì)的翻譯概率,根據(jù)所述詞對(duì)的翻譯概率計(jì)算所述調(diào)序模板的詞匯化概率。較佳的,所述系統(tǒng)還包括概率生成模塊,用于對(duì)每個(gè)所述調(diào)序模板,在所述雙語(yǔ)對(duì)齊語(yǔ)料中匹配所述調(diào)序模板的源語(yǔ)言部分和目標(biāo)語(yǔ)言部分,獲得匹配次數(shù)和完全匹配次數(shù);根據(jù)所述匹配次數(shù)和完全匹配次數(shù)計(jì)算所述調(diào)序模板從目標(biāo)語(yǔ)言到源語(yǔ)言的翻譯概率和從源語(yǔ)言到目標(biāo)語(yǔ)言的翻譯概率。本領(lǐng)域的技術(shù)人員在不脫離權(quán)利要求書(shū)確定的本發(fā)明的精神和范圍的條件下,還可以對(duì)以上內(nèi)容進(jìn)行各種各樣的修改。因此本發(fā)明的范圍并不僅限于以上的說(shuō)明,而是由權(quán)利要求書(shū)的范圍來(lái)確定的。1權(quán)利要求一種機(jī)器翻譯中抽取調(diào)序模板的方法,其特征在于,包括步驟1,輸入雙語(yǔ)對(duì)齊語(yǔ)料,對(duì)所述雙語(yǔ)對(duì)齊語(yǔ)料中的源語(yǔ)言部分進(jìn)行分詞和詞性標(biāo)注;步驟2,對(duì)雙語(yǔ)對(duì)齊語(yǔ)料中每一個(gè)雙語(yǔ)句對(duì),進(jìn)行調(diào)序分析,抽取出調(diào)序?qū)嵗?;步驟3,對(duì)于每個(gè)所述調(diào)序?qū)嵗鶕?jù)所述調(diào)序?qū)嵗械脑~對(duì)在源語(yǔ)言和目標(biāo)語(yǔ)言中位置,將所述調(diào)序?qū)嵗齽澐譃閮刹糠?,?duì)于每個(gè)部分,根據(jù)詞性標(biāo)注確定變量部分,將所述變量部分替換為變量。2.如權(quán)利要求1所述的機(jī)器翻譯中抽取調(diào)序模板的方法,其特征在于,所述步驟2進(jìn)一步為,步驟21,對(duì)每一個(gè)雙語(yǔ)句對(duì),將所述雙語(yǔ)句對(duì)中滿足條件的句塊對(duì)抽取為調(diào)序?qū)嵗凰鰲l件為所述句塊對(duì)滿足詞語(yǔ)對(duì)齊一致性,所述句塊對(duì)包括兩個(gè)相鄰的子句塊對(duì),并且所述兩個(gè)子句塊對(duì)的源語(yǔ)言部分在所述句塊對(duì)的源語(yǔ)言語(yǔ)言部分的順序與所述兩個(gè)子句塊對(duì)的目標(biāo)語(yǔ)言部分在所述句塊對(duì)的目標(biāo)語(yǔ)言部分的順序相反,且不能通過(guò)延伸所述兩個(gè)子句塊對(duì)中的任一子句塊對(duì)得到滿足詞語(yǔ)對(duì)齊一致性的新子句塊對(duì)。3.如權(quán)利要求2所述的機(jī)器翻譯中抽取調(diào)序模板的方法,其特征在于,所述步驟3進(jìn)一步為,步驟31,對(duì)于每個(gè)所述調(diào)序?qū)嵗?,根?jù)調(diào)序?qū)嵗性~對(duì)在源語(yǔ)言和目標(biāo)語(yǔ)言中的位置確定調(diào)序的分界,從所述分界處將所述調(diào)序?qū)嵗齽澐譃閮刹糠?;步驟32,對(duì)于每個(gè)部分,根據(jù)詞性標(biāo)注在所述部分的源語(yǔ)言部分中查找滿足條件的句段,選擇滿足條件的句段中最長(zhǎng)的句段作為所述部分的源語(yǔ)言部分的變量部分,以所述句段根據(jù)詞對(duì)齊確定的在目標(biāo)語(yǔ)言部分中對(duì)應(yīng)的句段為所述部分的目標(biāo)語(yǔ)言部分的變量部分,將源語(yǔ)言部分和目標(biāo)語(yǔ)言部分的變量部分替換為變量,以形成調(diào)序模板;所述條件為句段的第一個(gè)詞和最后一個(gè)詞為實(shí)詞,并且所述句段和所述句段在所述部分的目標(biāo)語(yǔ)言部分中的對(duì)應(yīng)句段滿足詞語(yǔ)對(duì)齊一致性。4.如權(quán)利要求2所述的機(jī)器翻譯中抽取調(diào)序模板的方法,其特征在于,所述步驟21還包括,步驟41,對(duì)每一個(gè)雙語(yǔ)句對(duì),根據(jù)雙語(yǔ)句對(duì)的調(diào)序?qū)嵗g的包含關(guān)系,將所述調(diào)序?qū)嵗M成樹(shù)狀結(jié)構(gòu)。5.如權(quán)利要求4所述的機(jī)器翻譯中抽取調(diào)序模板的方法,其特征在于,所述步驟3后還包括,步驟51,如果變量部分包含調(diào)序?qū)嵗?,將所述變量部分替換為所述變量實(shí)例對(duì)應(yīng)的調(diào)序模板。6.如權(quán)利要求1所述的機(jī)器翻譯中抽取調(diào)序模板的方法,其特征在于,所述步驟3后還包括步驟61,對(duì)雙語(yǔ)對(duì)齊語(yǔ)料應(yīng)用最大似然估計(jì)法,計(jì)算每個(gè)詞對(duì)的翻譯概率,根據(jù)所述詞對(duì)的翻譯概率計(jì)算所述調(diào)序模板的詞匯化概率。7.如權(quán)利要求1所述的機(jī)器翻譯中抽取調(diào)序模板的方法,其特征在于,所述步驟3后還包括步驟71,對(duì)每個(gè)所述調(diào)序模板,在所述雙語(yǔ)對(duì)齊語(yǔ)料中匹配所述調(diào)序模板的源語(yǔ)言部分和目標(biāo)語(yǔ)言部分,獲得匹配次數(shù)和完全匹配次數(shù);步驟72,根據(jù)所述匹配次數(shù)和完全匹配次數(shù)計(jì)算所述調(diào)序模板從目標(biāo)語(yǔ)言到源語(yǔ)言的翻譯概率和從源語(yǔ)言到目標(biāo)語(yǔ)言的翻譯概率。8.—種機(jī)器翻譯中抽取調(diào)序模板的系統(tǒng),其特征在于,包括語(yǔ)料處理模塊,用于輸入雙語(yǔ)對(duì)齊語(yǔ)料,對(duì)所述雙語(yǔ)對(duì)齊語(yǔ)料中的源語(yǔ)言部分進(jìn)行分詞和詞性標(biāo)注;調(diào)序?qū)嵗槿∧K,用于對(duì)雙語(yǔ)對(duì)齊語(yǔ)料中每一個(gè)雙語(yǔ)句對(duì),進(jìn)行調(diào)序分析,抽取出調(diào)序?qū)嵗徽{(diào)序模板生成模塊,用于對(duì)于每個(gè)所述調(diào)序?qū)嵗?,根?jù)所述調(diào)序?qū)嵗械脑~對(duì)在源語(yǔ)言和目標(biāo)語(yǔ)言中位置,將所述調(diào)序?qū)嵗齽澐譃閮刹糠郑瑢?duì)于每個(gè)部分,根據(jù)詞性標(biāo)注確定變量部分,將所述變量部分替換為變量。9.如權(quán)利要求8所述的機(jī)器翻譯中抽取調(diào)序模板的系統(tǒng),其特征在于,所述調(diào)序?qū)嵗槿∧K進(jìn)一步用于對(duì)每一個(gè)雙語(yǔ)句對(duì),將所述雙語(yǔ)句對(duì)中滿足條件的句塊對(duì)抽取為調(diào)序?qū)嵗?;所述條件為所述句塊對(duì)滿足詞語(yǔ)對(duì)齊一致性,所述句塊對(duì)包括兩個(gè)相鄰的子句塊對(duì),并且所述兩個(gè)子句塊對(duì)的源語(yǔ)言部分在所述句塊對(duì)的源語(yǔ)言語(yǔ)言部分的順序與所述兩個(gè)子句塊對(duì)的目標(biāo)語(yǔ)言部分在所述句塊對(duì)的目標(biāo)語(yǔ)言部分的順序相反,且不能通過(guò)延伸所述兩個(gè)子句塊對(duì)中的任一子句塊對(duì)得到滿足詞語(yǔ)對(duì)齊一致性的新子句塊對(duì)。10.如權(quán)利要求9所述的機(jī)器翻譯中抽取調(diào)序模板的系統(tǒng),其特征在于,所述調(diào)序模板生成模塊進(jìn)一步用于對(duì)于每個(gè)所述調(diào)序?qū)嵗?,根?jù)調(diào)序?qū)嵗性~對(duì)在源語(yǔ)言和目標(biāo)語(yǔ)言中的位置確定調(diào)序的分界,從所述分界處將所述調(diào)序?qū)嵗齽澐譃閮刹糠?;?duì)于每個(gè)部分,根據(jù)詞性標(biāo)注在所述部分的源語(yǔ)言部分中查找滿足條件的句段,選擇滿足條件的句段中最長(zhǎng)的句段作為所述部分的源語(yǔ)言部分的變量部分,以所述句段根據(jù)詞對(duì)齊確定的在目標(biāo)語(yǔ)言部分中對(duì)應(yīng)的句段為所述部分的目標(biāo)語(yǔ)言部分的變量部分,將源語(yǔ)言部分和目標(biāo)語(yǔ)言部分的變量部分替換為變量,以形成調(diào)序模板;所述條件為句段的第一個(gè)詞和最后一個(gè)詞為實(shí)詞,并且所述句段和所述句段在所述部分的目標(biāo)語(yǔ)言部分中的對(duì)應(yīng)句段滿足詞語(yǔ)對(duì)齊一致性。11.如權(quán)利要求9所述的機(jī)器翻譯中抽取調(diào)序模板的系統(tǒng),其特征在于,所述調(diào)序?qū)嵗槿∧K還用于對(duì)每一個(gè)雙語(yǔ)句對(duì),根據(jù)雙語(yǔ)句對(duì)的調(diào)序?qū)嵗g的包含關(guān)系,將所述調(diào)序?qū)嵗M成樹(shù)狀結(jié)構(gòu)。12.如權(quán)利要求11所述的機(jī)器翻譯中抽取調(diào)序模板的系統(tǒng),其特征在于,所述調(diào)序模板生成模塊還用于在變量部分包含調(diào)序?qū)嵗龝r(shí),將所述變量部分替換為所述變量實(shí)例對(duì)應(yīng)的調(diào)序模板。13.如權(quán)利要求8所述的機(jī)器翻譯中抽取調(diào)序模板的系統(tǒng),其特征在于所述系統(tǒng)還包括概率生成模塊,用于對(duì)雙語(yǔ)對(duì)齊語(yǔ)料應(yīng)用最大似然估計(jì)法,計(jì)算每個(gè)詞對(duì)的翻譯概率,根據(jù)所述詞對(duì)的翻譯概率計(jì)算所述調(diào)序模板的詞匯化概率。14.如權(quán)利要求8所述的機(jī)器翻譯中抽取調(diào)序模板的系統(tǒng),其特征在于,所述系統(tǒng)還包括概率生成模塊,用于對(duì)每個(gè)所述調(diào)序模板,在所述雙語(yǔ)對(duì)齊語(yǔ)料中匹配所述調(diào)序模板的源語(yǔ)言部分和目標(biāo)語(yǔ)言部分,獲得匹配次數(shù)和完全匹配次數(shù);根據(jù)所述匹配次數(shù)和完全匹配次數(shù)計(jì)算所述調(diào)序模板從目標(biāo)語(yǔ)言到源語(yǔ)言的翻譯概率和從源語(yǔ)言到目標(biāo)語(yǔ)言的翻譯概率。全文摘要本發(fā)明涉及機(jī)器翻譯中抽取調(diào)序模板的方法及系統(tǒng),方法包括步驟1,輸入雙語(yǔ)對(duì)齊語(yǔ)料,對(duì)所述雙語(yǔ)對(duì)齊語(yǔ)料中的源語(yǔ)言部分進(jìn)行分詞和詞性標(biāo)注;步驟2,對(duì)雙語(yǔ)對(duì)齊語(yǔ)料中每一個(gè)雙語(yǔ)句對(duì),進(jìn)行調(diào)序分析,抽取出調(diào)序?qū)嵗?;步驟3,對(duì)于每個(gè)所述調(diào)序?qū)嵗?,根?jù)所述調(diào)序?qū)嵗械脑~對(duì)在源語(yǔ)言和目標(biāo)語(yǔ)言中位置,將所述調(diào)序?qū)嵗齽澐譃閮刹糠?,?duì)于每個(gè)部分,根據(jù)詞性標(biāo)注確定變量部分,將所述變量部分替換為變量。本發(fā)明能夠消除現(xiàn)有技術(shù)中對(duì)抽取翻譯模板的限制,并能夠提取出多種調(diào)序模板以增加調(diào)序模板對(duì)于翻譯中調(diào)序現(xiàn)象的覆蓋率。文檔編號(hào)G06F17/28GK101706777SQ200910237390公開(kāi)日2010年5月12日申請(qǐng)日期2009年11月10日優(yōu)先權(quán)日2009年11月10日發(fā)明者蔡舒申請(qǐng)人:中國(guó)科學(xué)院計(jì)算技術(shù)研究所