亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

目標(biāo)語言單詞變形的方法及裝置的制作方法

文檔序號:6614283閱讀:198來源:國知局

專利名稱::目標(biāo)語言單詞變形的方法及裝置的制作方法
技術(shù)領(lǐng)域
:本發(fā)明涉及基于語料庫的自動機器翻譯技術(shù)中的目標(biāo)語言單詞變形,具體地,涉及基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形模型的方法及裝置、目標(biāo)語言單詞變形方法及裝置、以及將源語言文本翻譯為目標(biāo)語言文本的翻譯方法及翻譯系統(tǒng)。
背景技術(shù)
:在很多語言中都存在單詞變形的情況,例如,在英語語言中,動詞有時態(tài)的變化,名詞有數(shù)量的變化。這樣,根據(jù)單詞變形,可以獲得時間、數(shù)量、情感等信息,而這些信息可用于準確理解該語言的句子。目前,自動機器翻譯有兩種主要的技術(shù)基于規(guī)則的方法和基于語料庫的方法。基于規(guī)則的方法利用翻譯規(guī)則訓(xùn)練并建立翻譯模型,然后利用訓(xùn)練好的翻譯模型進行翻譯;而基于語料庫的方法是利用雙語語料庫訓(xùn)練并建立翻譯纟莫型。在基于規(guī)則的方法中,通過翻譯規(guī)則可以生成目標(biāo)語言單詞的變形,然而,翻譯規(guī)則通常由手工編寫,這需要花費較多的時間。并且,翻譯規(guī)則必須使用深層的句法分析信息,而對于口語翻譯來說,句子的結(jié)構(gòu)非常靈活,m^獲得準確的句子分析結(jié)果。在基于語料庫的方法中,目標(biāo)語言單詞的變形來源于雙語語料庫,只有雙語語料庫包含某個目標(biāo)語言單詞的變形,基于該雙語語料庫的翻譯模型才會輸出該目標(biāo)語言單詞的變形。因此,雙語語料庫的大小在很大程度上會影響譯文的精度。關(guān)于上述的基于規(guī)則的方法和基于語料庫的方法,已經(jīng)在由趙鐵軍等編著的"機器翻譯原理"(哈爾濱工業(yè)大學(xué)出版社,2001年5月)、D.J.Arnold,LornaBalkan,SietyMeijer,R.LeeHumphreys和LouisaSadler所著的"MachineTranslation:anIntroductoryGuide"(Blackwells國NCC,1994)、和JohnHutchins所著的"MachineTranslationoverFiftyYears"(發(fā)表于Histoire,Epistemologies,Language,TomeXXII,pp.7國31,2001)中進行了詳細描述。
發(fā)明內(nèi)容本發(fā)明正是基于上述技術(shù)問題而提出的,其目的在于提供一種基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形模型的方法及裝置、目標(biāo)語言單詞變形方法及裝置、以及將源語言文本翻譯為目標(biāo)語言文本的翻譯方法及翻譯系統(tǒng)。根據(jù)本發(fā)明的第一個方面,提供一種基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形模型的方法,其中上述雙語語料庫包括多對進行了對齊的源語言語料和目標(biāo)語言語料,所述方法包括建立初始的目標(biāo)語言單詞變形模型;預(yù)處理上述雙語語料庫中的源語言語料和目標(biāo)語言語料;基于上述預(yù)處理后的源語言語料和目標(biāo)語言語料,抽取包含目標(biāo)語言單詞變形信息的模板;以及利用上述模板,訓(xùn)練上述目標(biāo)語言單詞變形模型。根據(jù)本發(fā)明的第二個方面,提供一種目標(biāo)語言單詞變形方法,其中,源語言文本纟皮翻譯為初始目標(biāo)語言譯文,并且上述源語言文#預(yù)處理為使得其所包含的源語言單詞為原形并標(biāo)有詞性,上述方法包括利用上述的基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形模型的方法,訓(xùn)練目標(biāo)語言單詞變形模型;以及利用上述目標(biāo)語言單詞變形模型,對上述目標(biāo)語言譯文中的目標(biāo)語言單詞進行變形。根據(jù)本發(fā)明的第三個方面,提供一種將源語言文本翻譯為目標(biāo)語言譯文的翻譯方法,包括預(yù)處理上述源語言文本,以獲得上述源語言文本的源語言單詞序列,其中上述源語言單詞序列中的源語言單詞被還原為原形并標(biāo)有詞性;利用基于語料庫的翻譯模型,將上述預(yù)處理后的源語言文本翻譯為初始目標(biāo)語言譯文;以及利用上述的目標(biāo)語言單詞變形方法,編輯上述初始目標(biāo)語言譯文,以獲得最終的目標(biāo)語言譯文。根據(jù)本發(fā)明的第四個方面,提供一種基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形模型的裝置,其中上述雙語語料庫包括多對進行了對齊的源語言語料和目標(biāo)語言語料,所述裝置包括初始模型建立單元,用于建立初始的目標(biāo)語言單詞變形模型;語料預(yù)處理單元,用于預(yù)處理上述雙語語料庫中的源語言語料和目標(biāo)語言語料;模板抽取單元,用于基于上述預(yù)處理后的源語言語料和目標(biāo)語言語料,抽取包含目標(biāo)語言單詞變形信息的^^板;以及訓(xùn)練單元,用于利用上述模板,訓(xùn)練上述目標(biāo)語言單詞變形模型。根據(jù)本發(fā)明的第五個方面,提供一種目標(biāo)語言單詞變形裝置,其中,源語言文本被翻譯為目標(biāo)語言譯文,并且上述源語言文本被預(yù)處理為使得其所包含的源語言單詞為原形并標(biāo)有詞性,上述裝置包括目標(biāo)語言單詞變形模型,其是利用上述的基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形模型的裝置訓(xùn)練的;以及單詞變形單元,用于利用上述目標(biāo)語言單詞變形模型,對上述目標(biāo)語言譯文中的目標(biāo)語言單詞進行變形。根據(jù)本發(fā)明的第六個方面,提供一種將源語言文本翻譯為目標(biāo)語言譯文的翻譯系統(tǒng),包括文本預(yù)處理裝置,用于預(yù)處理上述源語言文本,以獲得上述源語言文本的源語言單詞序列,其中上述源語言單詞序列中的源語言單詞被還原為原形并標(biāo)有詞性;基于語料庫的翻譯模型,用于將上述預(yù)處理后的源語言文本翻譯為初始目標(biāo)語言譯文;以及上述的目標(biāo)語言單詞變形裝置,用于編輯上述初始目標(biāo)語言譯文,以獲得最終的目標(biāo)語言譯文。圖1是根據(jù)本發(fā)明的一個實施例的基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形模型的方法的流程圖2是圖1所示的實施例中的抽^f莫板步驟的流程圖3是根據(jù)本發(fā)明的一個實施例的目標(biāo)語言單詞變形方法的流程圖4是圖3所示的實施例中的單詞變形步驟的流程ii圖5是根據(jù)本發(fā)明的一個實施例的將源語言文本翻譯為目標(biāo)語言譯文的翻譯方法的流禾呈圖6是根據(jù)本發(fā)明的一個實施例的基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形模型的裝置的示意性方框圖7是圖6的實施例中的模板抽取單元的示意性方框圖8是根據(jù)本發(fā)明的一個實施例的目標(biāo)語言單詞變形裝置的示意性方框圖9是圖8的實施例中的單詞變形單元的示意性方框圖;圖10是根據(jù)本發(fā)明的一個實施例的將源語言文本翻譯為目標(biāo)語言譯文的翻譯系統(tǒng)的示意性方框圖。具體實施例方式相信通過以下結(jié)合附圖對本發(fā)明的最佳實施例的詳細描述,本發(fā)明的上述和其它目的、特征和優(yōu)點會變得更加明顯。圖1是根據(jù)本發(fā)明的一個實施例的基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形模型的方法的流程圖。下面結(jié)合附圖,對本實施例進行詳細描述。利用本實施例的方法訓(xùn)練的目標(biāo)語言單詞變形(TargetLanguageWordInflection,簡稱TLWI)模型將被用于結(jié)合下面實施例描述的目標(biāo)語言單詞變形方法和將源語言文本翻譯為目標(biāo)語言譯文的翻譯方法。在本實施例中,雙語語料庫包括多對進行了對齊的源語言語料和目標(biāo)語言語料,并且這些語料可以是短語、句子或段落的形式。為了便于說明,在本實施例和后面的實施例中,假定語料是句子的形式,即雙語語料庫是雙語例句庫,那么雙語例句庫中的源語言句子和目標(biāo)語言句子是句子對齊的。如圖l所示,首先在步驟101,建立初始的目標(biāo)語言單詞變形模型。在本實施例中,TLWI模型可以是直接的概率模型,例如采用P(actionlcondition)形式的概率模型,也可以是模式識別模型,例如基于支持向量機(SVM)的模式識別模型、基于決策樹的模式識別模型等。接著,在步驟105,對雙語例句庫中的源語言句子和目標(biāo)語言句子進行預(yù)處理。具體地,對于雙語例句庫中的多對進行了對齊的源語言句子和目標(biāo)語言句子的每一對,對源語言句子進行預(yù)處理,以使預(yù)處理后的源語言句子中的源語言單詞為原形并標(biāo)有詞性,同時,對目標(biāo)語言句子進行預(yù)處理,以使預(yù)處理后的目標(biāo)語言句子中的目標(biāo)語言單詞為原形并標(biāo)有詞性。下面以源語言是漢語,目標(biāo)語言是英語為例,具體說明該步驟105。首先,漢語句子被切分成漢語詞序列,并標(biāo)出該漢語詞序列中的每個漢語詞的詞性。切分漢語句子的技術(shù),對于本領(lǐng)域的普通技術(shù)人員是已知的,此處省略說明。然后,將英語句子中的每個英語單詞還原成原形,并標(biāo)注其詞性。接著,在步驟110,基于經(jīng)過步驟105的預(yù)處理后的每一對進行了對齊的源語言句子和目標(biāo)語言句子,抽取包含目標(biāo)語言單詞變形信息的模板。圖2示出了抽取模板步驟110的流程圖。如圖2所示,首先在步驟1101,將預(yù)處理后的源語言句子中的源語言單詞和預(yù)處理后的目標(biāo)語言句子中的目標(biāo)語言單詞進行對齊,從而獲得詞對齊信息。在該步驟中,可以使用現(xiàn)有或未來的任何一種對齊技術(shù)來執(zhí)行詞對齊。然后,在步驟1105,搜索在原始的目標(biāo)語言句子和對應(yīng)的預(yù)處理后的目標(biāo)語言句子中不一致的目標(biāo)語言單詞,即,在目標(biāo)語言句子中搜索出發(fā)生了變形的目標(biāo)語言單詞。在步驟1110,根據(jù)在步驟1101中獲得的詞對齊信息,在預(yù)處理后的源語言句子中獲取與在步驟1105中搜索出的不一致的目標(biāo)語言單詞對齊的源語言單詞。然后,在步驟1115,根據(jù)在步驟1105中搜索出的不一致的目標(biāo)語言單詞、在步驟1110中獲取的與不一致的目標(biāo)語言單詞對齊的源語言單詞以及該對齊的源語言單詞在原始的源語言句子中的上下文信息,生成包含目標(biāo)語言單詞變形信息的模板。在本實施例中,目標(biāo)語言單詞變形信息包括源語言單詞的詞性;該源語言單詞的上下文信息的組合,作為條件;以及與該源語言單詞對齊的為,作為動作。也就是說,所生成的才莫板由詞性部分、條件部分和動作部分組成。進一步地,在模板的條件部分中的源語言單詞的上下文信息的組合可以是預(yù)先定義的,例如,包括a)前一個源語言單詞;b)前一個源語言單詞與后一個源語言單詞;c)前面相隔一個源語言單詞;d)后面相隔一個源語言單詞。例如,漢語句子由7個漢語詞組成,即"d/PtC2/P2C3/P3C4/P4C5/P5C6/P6C7/P7",其中Q代表漢語詞,Pi代表詞性。假設(shè)"C4/P4"是與變化的英語單詞"W4/P4"對齊的漢語詞,如果采用上面的例子作為上下文信息的組合,則所生成的模板的條件是a)-1C3;b)-1C3+1Cs;c)-2C2;d)+2C6。當(dāng)然,本領(lǐng)域的普通技術(shù)人員可以理解,上下文信息的組合不限于上述的組合形式,還可以包括其它組合形式。返回圖1,在抽取了包含目標(biāo)語言單詞變形信息的模板之后,在步驟115,利用這些模板,訓(xùn)練目標(biāo)語言單詞變形模型。具體地,根據(jù)目標(biāo)語言單詞變形模型所采用的模型,采用相應(yīng)的訓(xùn)練算法。這些訓(xùn)練算法對于本領(lǐng)域的普通技術(shù)人員是已知的,此處省略說明。下面結(jié)合一個具體的例子,說明本實施例的基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形模型的方法。假設(shè)漢英雙語例句庫中的一對進行了對齊的漢語句子和英語句子為Chs:那個女孩剛洗過這些蘋果。Eng:Thegirljustwashedtheseapples.對這兩個句子進4亍預(yù)處理,得到預(yù)處理后的漢語句子和英語句子分別為Chs:那個/pron女孩/n剛/adv過/u這些/pron蘋果/n。/wEng:The/artgirl/njust/advwash/vthese/pronapple/n./w表1示出了預(yù)處理后的漢語句子表l單詞詞性14<table>tableseeoriginaldocumentpage15</column></row><table><table>tableseeoriginaldocumentpage16</column></row><table>然后,在預(yù)處理后的英語句子中搜索與原始的英語句子中的英語單詞不一致的英語單詞,通過比較,獲得2個不一致的英語單詞,即<table>tableseeoriginaldocumentpage16</column></row><table>那么,在漢語句子中與這兩個不一致的英語單詞對齊的漢語單詞分別是"洗"和"蘋果"。利用兩個不一致的英語單詞、對齊的漢語單詞及其在原始的漢語句子中的上下文信息,生成包含英語單詞變形信息的^t板,如表4所示。表4<table>tableseeoriginaldocumentpage16</column></row><table>如表4所示,模板Pl是根據(jù)"washIwashed"的變形生成的,其表示在漢語句子中,對于詞性是v(動詞)的漢語單詞,如果該漢語單詞的前一個漢語單詞是"剛"而后一個漢語單詞是"過",那么與該漢語單詞對齊的英語單詞的變形是詞尾加上"ed"。模板P2是根據(jù)"apple|a卯les"的變形生成的,其表示在漢語句子中,對于詞性是n(動詞)的漢語單詞,如果該漢語單詞的前一個漢語單詞是"這些",那么與該漢語單詞對齊的英語單詞的變形是詞尾加上"s"。最后,在基于漢英雙語例句庫抽取了所有的模板之后,利用這些模板,訓(xùn)練TLWI模型。通過以上描述可以看出,本實施例的基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形模型的方法在預(yù)處理后的雙語語料庫的基礎(chǔ)上對TLWI模型進行訓(xùn)練,僅使用語料的淺層的分析信息而無需精確的深層分析信息,并且訓(xùn)練好的TLWI模型適用于口語翻譯系統(tǒng)和其它基于語料庫的翻譯系統(tǒng),可以提高譯文質(zhì)量。在同一個發(fā)明構(gòu)思下,圖3S^艮據(jù)本發(fā)明的一個實施例的目標(biāo)語言單詞變形方法的流程圖。下面結(jié)合附圖,對本實施例進行詳細描述。對于那些與前面實施例相同的部分,適當(dāng)省略其說明。本實施例的目標(biāo)語言單詞變形方法是對目標(biāo)語言譯文的進一步改進。在本實施例中,目標(biāo)語言譯文是利用基于語料庫的翻譯模型對源語言文本翻譯得到的,并且源語言文預(yù)處理為使得其所包含的源語言單詞為原形并標(biāo)有詞性。上述的基于語料庫的翻譯模型可以是現(xiàn)有或未來的任何一種基于語料庫的翻譯才莫型,例如統(tǒng)計機器翻譯(StatisticalMachineTranslation,簡稱SMT)模型等。如圖3所示,在步驟301,利用前面的實施例描述的基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形模型的方法,訓(xùn)練TLWI模型。接著,在步驟310,利用所訓(xùn)練的TLWI模型,對目標(biāo)語言譯文中的目標(biāo)語言單詞進行變形。圖4示出了單詞變形步驟310的流程圖。如圖4所示,首先在步驟3101,根據(jù)源語言文本中的每一個源語言單詞的詞性和TLWI模型,確定是否存在對應(yīng)的才莫板。如果存在對應(yīng)的模板,則在步驟3105,驗證該源語言單詞的上下文信息是否滿足該模板中的條件。如果滿足該模板中的條件,則在步驟3110,對目標(biāo)語言譯文中與該源語言單詞對齊的目標(biāo)語言單詞執(zhí)行該模板中的變形動作。如果不滿足,則對下一個源語言單詞執(zhí)行步驟3101。如果在步驟3101中確定該源語言單詞沒有對應(yīng)的才莫板,則繼續(xù)對下一個源語言單詞執(zhí)行步驟3101。通過以上步驟,可以找到目標(biāo)語言譯文中需要變形的目標(biāo)語言單詞并進行變形。進一步地,當(dāng)步驟3105的g結(jié)果是該源語言單詞滿足多個對應(yīng)的才莫板的條件時,則在步驟3110中,對與該源語言單詞對齊的目標(biāo)語言單詞分別執(zhí)行多個對應(yīng)的模板中的變形動作,從而得到多個候選目標(biāo)語言譯文。然后,在步驟3115,對于多個候選目標(biāo)語言譯文的每一個,根據(jù)目標(biāo)語言的語言模型,計算該候選目標(biāo)語言譯文的流利度得分,并在步驟3120,根據(jù)TLWI模型,計算獲得該候選目標(biāo)語言譯文所使用的模板的得分。然后,在步驟3125,將該流利度得分和模板的得分進行組合并獲得該組合的得分,該組合例如是乘積、加權(quán)和等。這樣,該組合的得分就是該候選目標(biāo)語言譯文的得分。最后,在步驟3130,選擇所有候選目標(biāo)語言譯文的得分中的最高得分所對應(yīng)的候選目標(biāo)語言譯文,作為最終的目標(biāo)語言譯文。以上所描述的從多個候選目標(biāo)語言譯文中選擇最終的目標(biāo)語言譯文的步驟可以通過下式表示e=argmax(PLM(e)fTLWI(e)}其中,e表示4選目標(biāo)語言譯文,PLM("表示目標(biāo)語言的語言模型,frLwi("表示TLWI模型,argmax("表示取最大值,;表示最終的目標(biāo)語言譯文。通過以上描述可以看出,本實施例的目標(biāo)語言單詞變形方法利用所訓(xùn)練的TLWI模型,對目標(biāo)語言譯文中的目標(biāo)語言單詞進行變形,從而提高譯文的質(zhì)量,并且對于多個候選目標(biāo)語言譯文,通過結(jié)合語言模型和TLWI模型,選擇最佳的單詞變形,從而獲得最佳的目標(biāo)語言譯文。在同一發(fā)明構(gòu)思下,圖5是根據(jù)本發(fā)明的一個實施例的將源語言文本翻譯為目標(biāo)語言譯文的翻譯方法的流程圖。下面結(jié)合附圖,對本實施例進4亍詳細描述。對于那些與前面實施例相同的部分,適當(dāng)省略其說明。如圖5所示,首先在步驟501,對輸入的源語言文本進行預(yù)處理,以獲得該源語言文本的源語言單詞序列,其中源語言單詞序列中的源語言單詞凈皮還原為原形并標(biāo)有詞性。例如,如果源語言文本是漢語句子,那么在步驟501中,將漢語句子切分為漢語詞序列,然后對該漢語詞序列中的每個'漢語詞;f示注詞'性。接著,在步驟505,利用基于語料庫的翻譯模型,將預(yù)處理后的源語言文本翻譯為初始目標(biāo)語言譯文。如前所述,該基于語料庫的翻譯模型可以是SMT模型等。然后,在步驟510,利用前面實施例所描述的目標(biāo)語言單詞變形方法,編輯在步驟505中得到的初始目標(biāo)語言譯文,以獲得最終的目標(biāo)語言譯文。下面結(jié)合一個例子,說明本實施例的翻譯方法,其中,源語言是漢語,目的語言是英語,基于語料庫的翻譯模型是SMT模型。輸入的句子是"這些男孩子剛看過電視",首先對該句子進行預(yù)處理,得到預(yù)處理后的句子為"這些/pron男孩子/n剛/adv看/v過/u電視/n。/w"。然后,利用SMT模型,得到初始英語譯文是"These/pronboy/njust/advwatch/vTV/n./w"。接著,利用TLWI模型編輯初始英語譯文,即,將"boy"變形為"boys",將"watch"變形為"watched",從而得到最終的英語譯文是"TheseboysjustwatchedTV."。通過以上描述可以看出,本實施例的將源語言文本翻譯為目標(biāo)語言譯文的翻譯方法使用基于語料庫的翻譯模型進行翻譯,并進一步利用TLWI模型,對目標(biāo)語言譯文中的目標(biāo)語言單詞進行變形,從而得到更準確的譯文。在同一發(fā)明構(gòu)思下,圖6是根據(jù)本發(fā)明的一個實施例的基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形^^型的裝置的示意性方框圖。下面結(jié)合附圖,對本實施例進行詳細描述。利用本實施例的裝置訓(xùn)練的目標(biāo)語言單詞變形TLWI模型將被用于結(jié)合下面實施例描述的目標(biāo)語言單詞變形裝置和將源語言文本翻譯為目標(biāo)語言譯文的翻譯系統(tǒng)。如前所述,雙語語料庫包括多對進行了對齊的源語言語料和目標(biāo)語言語料,其中語料可以是短語、句子和段落中的任何一種。通常,雙語語料庫采用句子形式,即雙語例句庫。如圖6所示,本實施例的基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形模型的裝置600包括初始模型建立單元601,其建立初始的TLWI模型;語料預(yù)處理單元602,其預(yù)處理雙語語料庫中的源語言語料和目標(biāo)語言語料;模板抽取單元603,其基于通過語料預(yù)處理單元602得到的預(yù)處理后的源語言語料和目標(biāo)語言語料,抽取包含目標(biāo)語言單詞變形信息的模板;以及訓(xùn)練單元604,其利用由模板抽取單元603抽取的模板,訓(xùn)練TLWI模型。如前所述,TLWI模型可以采用概率模型、模式識別模型等,并且訓(xùn)練單元604使用相應(yīng)的訓(xùn)練算法對TLWI模型進行訓(xùn)練。在語料預(yù)處理單元602中,由源語言語料預(yù)處理單元對雙語語料庫中的源語言語料進行預(yù)處理,以使預(yù)處理后的源語言語料中的源語言單詞為原形并標(biāo)有詞性,同時,由目標(biāo)語言語料預(yù)處理單元對目標(biāo)語言語料進行預(yù)處理,以使預(yù)處理后的目標(biāo)語言語料中的目標(biāo)語言單詞為原形并標(biāo)有詞性。例如,當(dāng)源語言語料是漢語句子,目標(biāo)語言語料是英語句子時,在源語言語料預(yù)處理單元中,首先由切分單元將漢語句子切分為漢語單詞序列,然后由詞性標(biāo)注單元對該漢語單詞序列中的每個漢語單詞標(biāo)明詞性。在目標(biāo)語言語料處理單元中,將英語句子中的每個英語單詞還原為原形,并對每個英語單詞表明詞性。圖7示出了才莫板抽取單元603的示意性方框圖。如圖7所示,模板抽取單元603包括對齊單元6031,其對于上述預(yù)處理后的多對進行了對齊的源語言語料和目標(biāo)語言語料的每一對,對預(yù)處理后的源語言語料和預(yù)處理后的目標(biāo)語言語料中的單詞進行對齊,以獲得詞對齊信息;搜索單元6032,其搜索在原始的目標(biāo)語言語料和預(yù)處理后的目標(biāo)語言語料中不一致的目標(biāo)語言單詞;獲取單元6033,用于根據(jù)通過對齊單元6031獲得的詞對齊信息,獲得與搜索單元6032所搜索的不一致的目標(biāo)語言單詞對齊的源語言單詞;以及模板生成單元6034,用于才艮據(jù)不一致的目標(biāo)語言單詞、對信息,生成包含目標(biāo)單詞變形信息的模板。這樣,對于雙語語料庫中的每一對源語言語料和目標(biāo)語言語料,都生成相應(yīng)的才莫板。所有這些模板被存儲在模板存儲單元6035中,用于訓(xùn)練TLWI模型。如前所述,目標(biāo)語言單詞變形信息包括源語言單詞的詞性;該源語言單詞的上下文信息的組合,作為條件;以及與該源語言單詞對齊的目標(biāo)語言單詞的變形行為,作為動作。源語言單詞的上下文信息的組合可以預(yù)先確定,例如,可以包括該源語言單詞的前一個源語言單詞;該源語言單詞的前一個源語言單詞與后一個源語言單詞;該源語言單詞的前面相隔一個源語言單詞;該源語言單詞的后面相隔一個源語言單詞。當(dāng)然,上下文信息的組合并不局限于此,還可以采用其它的組合形式。應(yīng)當(dāng)指出,本實施例中的基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形模型的裝置600及其各個組成部分可以用專用的電路或芯片構(gòu)成,也可以通過計算機(處理器)執(zhí)行相應(yīng)的程序來實現(xiàn)。并且,本實施例的基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形模型的裝置600在操作上可以實現(xiàn)圖1和圖2所示的實施例的基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形模型的方法。在同一發(fā)明構(gòu)思下,圖8是根據(jù)本發(fā)明的一個實施例的目標(biāo)語言單詞變形裝置的示意性方框圖。下面結(jié)合附圖,對本實施例進行詳細描述。對于那些與前面實施例相同的部分,適當(dāng)省略其說明。在本實施例中,通過基于語料庫的翻譯模型,源語言文本被翻譯為目標(biāo)語言譯文,并且源語言文本被預(yù)處理為使得其所包含的源語言單詞為原形并標(biāo)有詞性,預(yù)處理后的源語言文本凈皮存儲在相關(guān)的存儲單元中。如圖8所示,本實施例的目標(biāo)語言單詞變形裝置800包括TLWI模型801,其是利用前面實施例所描述的基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形模型的裝置600訓(xùn)練的;以及單詞變形單元802,其利用TLWI模型801,對目標(biāo)語言譯文中的目標(biāo)語言單詞進行變形。圖9示出了單詞變形單元802的示意性方框圖。如圖9所示,當(dāng)對目標(biāo)語言單詞進行變形時,在單詞變形單元802中,首先,模板確定單元8021根據(jù)預(yù)處理后的源語言文本中的每一個源語言單詞的詞性和TLWI模型801,確定是否存在對應(yīng)的模板。接著,在;^板確定單元8021的確定結(jié)果是存在對應(yīng)的模板時,^NHE單元8022發(fā)汪該源語言單詞的上下文信息是否滿足該對應(yīng)的模板中的條件。然后,在a發(fā)汪單元8022的驗證結(jié)果是滿足對應(yīng)的模板中的條件時,動作執(zhí)行單元8023對與該源語言單詞對齊的目標(biāo)語言單詞執(zhí)行該對應(yīng)的模板中的變形動作,從而得到最終的目標(biāo)語言譯文。進一步地,在M驗證單元8022的驗證結(jié)果是該源語言單詞滿足多個對應(yīng)的模板的條件時,動作執(zhí)行單元8023對與該源語言單詞對齊的目標(biāo)語言單詞分別執(zhí)行多個對應(yīng)的模板中的變形動作,以得到多個候選目標(biāo)語言譯文,并將這些候選目標(biāo)語言譯文存儲在一個存儲單元中。然后,對于多個候選目標(biāo)語言譯文的每一個,在流利度計算單元中,根據(jù)目標(biāo)語言的語言模型,計算該候選目標(biāo)語言譯文的流利度得分,并在模板得分計算單元中,根據(jù)TWLI模型801,計算獲得該候選目標(biāo)語言譯文所使用的模板的得分。然后,由組合得分獲得單元獲得該流利度得分與該模板的得分的組合的得分,作為該候選目標(biāo)語言譯文的得分。該組合例如可以是乘積、加權(quán)和等。最后,選擇單元選擇多個候選目標(biāo)語言譯文的得分中的最高得分所對應(yīng)的候選目標(biāo)語言譯文,作為最終的目標(biāo)語言譯文。應(yīng)當(dāng)指出,本實施例中的目標(biāo)語言單詞變形裝置800及其各個組成部分可以用專用的電路或芯片構(gòu)成,也可以通過計算機(處理器)執(zhí)行相應(yīng)的程序來實現(xiàn)。并且,本實施例的目標(biāo)語言單詞變形裝置800在操作上可以實現(xiàn)圖3和圖4所示的實施例的目標(biāo)語言單詞變形方法。在同一發(fā)明構(gòu)思下,圖IO是根據(jù)本發(fā)明的一個實施例的將源語言文本翻譯為目標(biāo)語言譯文的翻譯系統(tǒng)的流程圖。下面結(jié)合附圖,對本實施例進行詳細描述。對于那些與前面實施例相同的部分,適當(dāng)省略其說明。如圖10所示,本實施例的將源語言文本翻譯為目標(biāo)語言譯文的翻譯系統(tǒng)1000包括文本預(yù)處理裝置1001,其預(yù)處理輸入的源語言文本,以獲得源語言文本的源語言單詞序列,其中該源語言單詞序列中的源語言單詞被還原為原形并標(biāo)有詞性;基于語料庫的翻譯模型1002,其將經(jīng)過文本預(yù)處理裝置1001預(yù)處理后的源語言文本翻譯為初始目標(biāo)語言譯文;以及目標(biāo)語言單詞變形裝置,其可以是前面實施例所描述的目標(biāo)語言單詞變形裝置800,用于對初始目標(biāo)語言譯文進行編輯,以獲得最終的目標(biāo)語言譯文。例如,如果源語言文本是漢語句子,則在文本預(yù)處理裝置1001中,將漢語句子切分成漢語單詞序列,然后對該漢語單詞序列中的每個漢語單詞才示注詞小生。如前所述,基于語料庫的翻譯模型可以是現(xiàn)有的或未來的任何一種基于語料庫的翻譯模型,例如SMT模型。應(yīng)當(dāng)指出,本實施例中的將源語言文本翻譯為目標(biāo)語言譯文的翻譯系統(tǒng)1000及其各個組成部分可以用專用的電路或芯片構(gòu)成,也可以通過計算機(處理器)執(zhí)行相應(yīng)的程序來實現(xiàn)。并且,本實施例的翻譯系統(tǒng)1000在操作上可以實現(xiàn)圖5所示的實施例的將源語言文本翻譯為目標(biāo)語言譯文的翻譯方法。以上雖然通過一些示例性的實施例詳細描述了本發(fā)明的基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形才莫型的方法和裝置、目標(biāo)語言單詞變形方法和裝置、以及將源語言文本翻譯為目標(biāo)語言譯文的翻譯方法和翻譯系統(tǒng),但是以上這些實施例并不是窮舉的,本領(lǐng)域技術(shù)人員可以在本發(fā)明的精神和范圍內(nèi)實現(xiàn)各種變化和修改。因此,本發(fā)明并不限于這些實施例,本發(fā)明的范圍僅由所附的權(quán)利要求限定。2權(quán)利要求1.一種基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形模型的方法,其中上述雙語語料庫包括多對進行了對齊的源語言語料和目標(biāo)語言語料,所述方法包括建立初始的目標(biāo)語言單詞變形模型;預(yù)處理上述雙語語料庫中的源語言語料和目標(biāo)語言語料;基于上述預(yù)處理后的源語言語料和目標(biāo)語言語料,抽取包含目標(biāo)語言單詞變形信息的模板;以及利用上述模板,訓(xùn)練上述目標(biāo)語言單詞變形模型。2.根據(jù)權(quán)利要求1所述的基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形模型的方法,其中,上述預(yù)處理上述雙語語料庫中的源語言語料和目標(biāo)語言語料的步驟包括對于上述多對進行了對齊的源語言語料和目標(biāo)語言語料的每一對,預(yù)處理上述源語言語料,以使預(yù)處理后的源語言語料中的源語言單詞為原形并標(biāo)有詞性;以及預(yù)處理上述目標(biāo)語言語料,以使預(yù)處理后的目標(biāo)語言語料中的目標(biāo)語言單詞為原形并標(biāo)有詞性。3.根據(jù)權(quán)利要求1或2所述的基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形模型的方法,其中,上述抽取包含目標(biāo)語言單詞變形信息的模板的步驟包括對于上述預(yù)處理后的多對進行了對齊的源語言語料和目標(biāo)語言語料的每一對,對齊上述預(yù)處理后的源語言語料和上述預(yù)處理后的目標(biāo)語言語料中的單詞,以獲得詞對齊信息;搜索在原始的上述目標(biāo)語言語料和上述預(yù)處理后的目標(biāo)語言語料中不一致的目標(biāo)語言單詞;根據(jù)上述詞對齊信息,獲得與上述不一致的目標(biāo)語言單詞對齊的源語言單詞;以及根據(jù)上述不一致的目標(biāo)語言單詞、對齊的源語言單詞以及對齊的源語言單詞在原始的上述源語言語料中的上下文信息,生成上述才莫板。4.根據(jù)權(quán)利要求1至3任意一項所述的基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形模型的方法,其中,上述目標(biāo)語言單詞變形信息包括源語言單詞的詞性;作為條件的上述源語言單詞的上下文信息的組合;以及作為動作的與上述源語言單詞對齊的目標(biāo)語言單詞的變形行為。5.根據(jù)權(quán)利要求4所述的基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形模型的方法,其中,上述上下文信息的組合包括前一個單詞;前一個單詞與后一個單詞;前面相隔一個單詞;后面相隔一個單詞。6.根據(jù)權(quán)利要求1至5任意一項所述的基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形才莫型的方法,其中,上述源語言是漢語,上述目標(biāo)語言是英語。7.根據(jù)權(quán)利要求6所述的基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形模型的方法,其中,上述預(yù)處理上述源語言語料的步驟包括將上述源語言語料切分為源語言單詞序列;以及對上述源語言單詞序列中的每個源語言單詞標(biāo)明詞性。8.根據(jù)權(quán)利要求1至7任意一項所述的基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形模型的方法,其中,上述語料是句子、短語、段落中的至少一個。9.根據(jù)權(quán)利要求1至8任意一項所述的基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形模型的方法,其中,上述目標(biāo)語言單詞變形模型是概率模型。10.根據(jù)權(quán)利要求1至8任意一項所述的基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形模型的方法,其中,上述目標(biāo)語言單詞變形模型是模式識別模型。11.一種目標(biāo)語言單詞變形方法,其中,源語言文本4皮翻譯為目標(biāo)語言譯文,并且上述源語言文本被預(yù)處理為使得其所包含的源語言單詞為原形并標(biāo)有詞性,上述方法包括利用權(quán)利要求1至10任意一項所述的基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形模型的方法,訓(xùn)練目標(biāo)語言單詞變形模型;以及利用上述目標(biāo)語言單詞變形模型,對上述目標(biāo)語言譯文中的目標(biāo)語言單詞進行變形。12.根據(jù)權(quán)利要求11所述的目標(biāo)語言單詞變形方法,其中,上述對上述目標(biāo)語言譯文中的目標(biāo)語言單詞進行變形的步驟包括根據(jù)每一個上述源語言單詞的詞性和上述目標(biāo)語言單詞變形模型,確定是否存在對應(yīng)的模板;以及如果存在上M應(yīng)的模板,則mt該源語言單詞的上下文信息是否滿足上述對應(yīng)的模板中的條件;如果滿足上述條件,則對上述目標(biāo)語言譯文中與該源語言單詞對齊的目標(biāo)語言單詞執(zhí)行上述對應(yīng)的模板中的動作。13.根據(jù)權(quán)利要求12所述的目標(biāo)語言單詞變形方法,其中,在上述驗證步驟中的驗證結(jié)果是該源語言單詞滿足多個上述對應(yīng)的模板的條件時,對與該源語言單詞對齊的目標(biāo)語言單詞分別執(zhí)行上述多個對應(yīng)的;^板中的動作,以得到多個候選目標(biāo)語言譯文;上述方法還包括對于上述多個候選目標(biāo)語言譯文的每一個,根據(jù)目標(biāo)語言的語言模型,計算該候選目標(biāo)語言譯文的流利度得分;根據(jù)上述目標(biāo)語言單詞變形模型,計算獲得該候選目標(biāo)語言譯文所使用的模板的得分;獲得上述流利度得分與上述模板的得分的組合的得分,作為該候選目標(biāo)語言譯文的得分;選擇上述多個候選目標(biāo)語言譯文的得分中的最高得分所對應(yīng)的候選目標(biāo)語言譯文,作為最終的目標(biāo)語言譯文。14.一種將源語言文本翻譯為目標(biāo)語言譯文的翻譯方法,包括預(yù)處理上述源語言文本,以獲得上述源語言文本的源語言單詞序列,其中上述源語言單詞序列中的源語言單詞被還原為原形并標(biāo)有詞性;利用基于語料庫的翻譯模型,將上述預(yù)處理后的源語言文本翻譯為初始目標(biāo)語言譯文;以及利用權(quán)利要求11至13任意一項所述的目標(biāo)語言單詞變形方法,編輯上述初始目標(biāo)語言譯文,以獲得最終的目標(biāo)語言譯文。15.—種基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形^=莫型的裝置,其中上述雙語語料庫包括多對進行了對齊的源語言語料和目標(biāo)語言語料,所述裝置包括初始模型建立單元,用于建立初始的目標(biāo)語言單詞變形模型;語料預(yù)處理單元,用于預(yù)處理上述雙語語料庫中的源語言語料和目標(biāo)語言語料;模板抽取單元,用于基于上述預(yù)處理后的源語言語料和目標(biāo)語言語料,抽取包含目標(biāo)語言單詞變形信息的模板;以及訓(xùn)練單元,用于利用上述模板,訓(xùn)練上述目標(biāo)語言單詞變形模型。16.根據(jù)權(quán)利要求15所述的基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形模型的裝置,其中,上述語料預(yù)處理單元包括源語言語料預(yù)處理單元,用于預(yù)處理上述源語言語料,以使預(yù)處理后的源語言語料中的源語言單詞為原形并標(biāo)有詞性;以及目標(biāo)語言語料預(yù)處理單元,用于預(yù)處理上述目標(biāo)語言語料,以使預(yù)處理后的目標(biāo)語言語料中的目標(biāo)語言單詞為原形并標(biāo)有詞性。17.根據(jù)權(quán)利要求15或16所述的基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形模型的裝置,其中,上ii^板抽取單元包括對齊單元,用于對于上述預(yù)處理后的多對進行了對齊的源語言語料和目標(biāo)語言語料的每一對,對齊上述預(yù)處理后的源語言語料和上述預(yù)處理后的目標(biāo)語言語料中的單詞,以獲得詞對齊信息;搜索單元,用于搜索在原始的上述目標(biāo)語言語料和上述預(yù)處理后的目標(biāo)語言語料中不一致的目標(biāo)語言單詞;獲取單元,用于根據(jù)上述詞對齊信息,獲得與上述不一致的目標(biāo)語言單詞對齊的源語言單詞;以及模板生成單元,用于根據(jù)上述不一致的目標(biāo)語言單詞、對齊的源語言單詞以及對齊的源語言單詞在原始的上述源語言語料中的上下文信息,生成上述模板。18.根據(jù)權(quán)利要求15至17任意一項所述的基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形模型的裝置,其中,上述目標(biāo)語言單詞變形信息包括源語言單詞的詞性;作為條件的上述源語言單詞的上下文信息的組合;以及作為動作的與上述源語言單詞對齊的目標(biāo)語言單詞的變形行為。19.根據(jù)權(quán)利要求18所述的基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形模型的裝置,其中,上述上下文信息的組合包括前一個源語言單詞;前一個源語言單詞與后一個源語言單詞;前面相隔一個源語言單詞;后面相隔一個源語言單詞。20.根據(jù)權(quán)利要求15至19任意一項所述的基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形才莫型的裝置,其中,上述源語言是漢語,上述目標(biāo)語言是英語。21.根據(jù)權(quán)利要求20所述的基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形模型的裝置,其中,上述源語言語料預(yù)處理單元包括切分單元,用于將上述源語言語料切分為源語言單詞序列;以及詞性標(biāo)注單元,用于對上述源語言單詞序列中的每個源語言單詞標(biāo)明詞性。22.根據(jù)權(quán)利要求15至21任意一項所述的基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形模型的裝置,其中,上述語料是句子、短語、段落中的至少一個。23.根據(jù)權(quán)利要求15至22任意一項所述的基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形模型的裝置,其中,上述目標(biāo)語言單詞變形模型是概率模型。24.根據(jù)權(quán)利要求15至22任意一項所述的基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形模型的裝置,其中,上述目標(biāo)語言單詞變形模型是模式識別模型。25.—種目標(biāo)語言單詞變形裝置,其中,源語言文本,皮翻譯為目標(biāo)語言譯文,并且上述源語言文本被預(yù)處理為使得其所包含的源語言單詞為原形并標(biāo)有詞性,上述裝置包括目標(biāo)語言單詞變形模型,其是利用權(quán)利要求15至24任意一項所述的基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形模型的裝置訓(xùn)練的;以及單詞變形單元,用于利用上述目標(biāo)語言單詞變形模型,對上述目標(biāo)語言譯文中的目標(biāo)語言單詞進行變形。26.根據(jù)權(quán)利要求25所述的目標(biāo)語言單詞變形裝置,其中,上述單詞變形單元包括模板確定單元,用于根據(jù)每一個上述源語言單詞的詞性和上述目標(biāo)語言單詞變形模型,確定是否存在對應(yīng)的模板;以及條件驗逸單元,用于在上述模板確定單元的結(jié)果是存在上述對應(yīng)的模板時,驗證該源語言單詞的上下文信息是否滿足上述對應(yīng)的模板中的條件;以及動作執(zhí)行單元,用于在上述M驗證單元的驗證結(jié)果是上述對應(yīng)的模板中的條件滿足時,對與該源語言單詞對齊的目標(biāo)語言單詞執(zhí)行上述對應(yīng)的模板中的動作。27.根據(jù)權(quán)利要求26所述的目標(biāo)語言單詞變形裝置,其中,在上述條件驗證單元的驗證結(jié)果是該源語言單詞滿足多個上述對應(yīng)的模板的條件時,上述動作執(zhí)行單元對與該源語言單詞對齊的目標(biāo)語言單詞分別執(zhí)行上述多個對應(yīng)的模板中的動作,以得到多個候選目標(biāo)語言譯文;上述裝置還包括流利度計算單元,用于對于上述多個候選目標(biāo)語言譯文的每一個,根據(jù)目標(biāo)語言的語言模型,計算該候選目標(biāo)語言譯文的流利度得分;模板得分計算單元,用于根據(jù)上述目標(biāo)語言單詞變形模型,計算獲得該候選目標(biāo)語言譯文所使用的模板的得分;組合得分獲得單元,用于獲得上述流利度得分與上述模板的得分的組合的得分,作為該候選目標(biāo)語言譯文的得分;選擇單元,用于選擇上述多個候選目標(biāo)語言譯文的得分中的最高得分所對應(yīng)的候選目標(biāo)語言譯文,作為最終的目標(biāo)語言譯文。28.—種將源語言文本翻譯為目標(biāo)語言譯文的翻譯系統(tǒng),包括文本預(yù)處理裝置,用于預(yù)處理上述源語言文本,以獲得上述源語言文本的源語言單詞序列,其中上述源語言單詞序列中的源語言單詞被還原為原形并標(biāo)有詞性;基于語料庫的翻譯模型,用于將上述預(yù)處理后的源語言文本翻譯為初始目標(biāo)語言譯文;以及權(quán)利要求25至27任意一項所述的目標(biāo)語言單詞變形裝置,用于編輯上述初始目標(biāo)語言譯文,以獲得最終的目標(biāo)語言譯文。全文摘要本發(fā)明提供一種基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形模型的方法及裝置、目標(biāo)語言單詞變形方法及裝置、以及將源語言文本翻譯為目標(biāo)語言譯文的翻譯方法及翻譯系統(tǒng)。在該基于雙語語料庫訓(xùn)練目標(biāo)語言單詞變形模型的方法中,雙語語料庫包括多對進行了對齊的源語言語料和目標(biāo)語言語料,所述方法包括建立初始的目標(biāo)語言單詞變形模型;預(yù)處理上述雙語語料庫中的源語言語料和目標(biāo)語言語料;基于上述預(yù)處理后的源語言語料和目標(biāo)語言語料,抽取包含目標(biāo)語言單詞變形信息的模板;以及利用上述模板,訓(xùn)練上述目標(biāo)語言單詞變形模型。文檔編號G06F17/28GK101452446SQ20071018654公開日2009年6月10日申請日期2007年12月7日優(yōu)先權(quán)日2007年12月7日發(fā)明者劉占一,華吳,王海峰申請人:株式會社東芝
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1