專利名稱:訓(xùn)練基于短語的翻譯模型的方法、機(jī)器翻譯方法及其裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息處理技術(shù),具體地涉及統(tǒng)計(jì)機(jī)器翻譯技術(shù),更具體地涉及通過使
用命名實(shí)體知識來改進(jìn)基于短語的統(tǒng)計(jì)機(jī)器翻譯的質(zhì)量的技術(shù)。
背景技術(shù):
機(jī)器翻譯技術(shù)主要分為基于規(guī)則的機(jī)器翻譯和基于語料庫的機(jī)器翻譯。
在基于語料庫的機(jī)器翻譯中,主要的翻譯資源來源于語料庫?;谡Z料庫的機(jī)器 翻譯又分為基于實(shí)例的機(jī)器翻譯和基于統(tǒng)計(jì)的機(jī)器翻譯。對于基于統(tǒng)計(jì)的機(jī)器翻譯,基于 短語的統(tǒng)計(jì)機(jī)器翻譯方法是目前最主要的自動翻譯方法之一。 基于短語的統(tǒng)計(jì)機(jī)器翻譯方法的基本翻譯單元是短語,其所應(yīng)用的翻譯知識包括 翻譯模型和語言模型。翻譯模型利用雙語語料庫中的平行雙語語料獲得,由平行雙語語料 中互為翻譯的雙語短語對及其互相翻譯的概率組成。在此,短語的定義是由一個或多個連 續(xù)的詞組成的片段。語言模型利用目標(biāo)語言的單語語料庫獲得,其用從目標(biāo)語言的單語語 料庫中統(tǒng)計(jì)出來的概率來描述生成譯文的流利程度。翻譯的性能隨著語料庫的規(guī)模的增加 而提高。 常規(guī)的基于短語的統(tǒng)計(jì)機(jī)器翻譯的過程主要包括首先,對于待翻譯的句子,使用 匹配方法搜索翻譯模型,查找與該句子對應(yīng)的、所有匹配的雙語短語對;然后,基于這些雙 語短語對以及語言模型,采用統(tǒng)計(jì)方法選出該句子的目標(biāo)語言譯文片段的組合中得分最高 的那一個,作為待翻譯的句子的正確目標(biāo)語言譯文。 圖1示出了實(shí)現(xiàn)上述過程的常規(guī)的基于短語的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的方框圖。如圖 1所示,該系統(tǒng)100主要包括輸入單元101、查找單元102、譯文生成單元103、輸出單元104、 翻譯模型30以及語言模型40等。 在系統(tǒng)100中,輸入單元101是該系統(tǒng)100與外部的接口,該系統(tǒng)IOO通過輸入單 元101從外部獲得待翻譯的句子。 查找單元102進(jìn)行短語的匹配。具體地,查找單元102對通過輸入單元101獲得 的待翻譯的句子,使用匹配算法在通過使用雙語語料庫10統(tǒng)計(jì)分析獲得的翻譯模型30中 查找與該輸入句子對應(yīng)的、匹配的雙語短語對。 譯文生成單元103生成該輸入句子的正確目標(biāo)語言譯文。具體地,譯文生成單元 103基于查找單元102所查找的雙語短語對以及通過使用單語語料庫20統(tǒng)計(jì)分析獲得的語 言模型40,利用統(tǒng)計(jì)方法選出該輸入句子的、可能的目標(biāo)語言譯文中得分最高的那一個,作 為該輸入句子的正確目標(biāo)語言譯文。 由譯文生成單元103生成的該目標(biāo)語言譯文通過輸出單元104輸出。
圖2示出了采用圖1的上述系統(tǒng)進(jìn)行的機(jī)器翻譯示例。在該示例中,對于輸入句 子"美國總統(tǒng)布什4月將訪問日本",圖1的系統(tǒng)100的查找單元102利用短語的匹配技 術(shù),在翻譯模型30中找到與該輸入句子對應(yīng)的五個匹配的雙語短語對(Pl)美國總統(tǒng)〈= >The US president ; (P2)布什〈=〉Bush ; (P3)4月〈=>in April ; (P4)將訪問〈=>willvisit ; (P5)日本〈=〉J即an。并且,根據(jù)這五個雙語短語對,系統(tǒng)100的譯文生成單元103 使用語言模型40得到最終的譯文"The US president will visit J即an inApril"。
從上面可以看出,在常規(guī)的基于短語的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中,對于待翻譯的輸入 句子,只有雙語短語對中的源語言短語和輸入句子中的短語精確匹配時,該短語對才可以 用于翻譯。對于輸入句子中的那些包含命名實(shí)體的短語,由于命名實(shí)體在語料庫中出現(xiàn)的 次數(shù)較少,通常很難直接匹配上,因此需要切分成多個比較短的短語才能匹配。如圖2所示 的示例中,輸入句子中的"美國總統(tǒng)布什"由于沒有作為一個整體在語料庫中出現(xiàn),需要進(jìn) 一步切分為"美國總統(tǒng)"和"布什"后才能用短語對匹配。此外,輸入句子中的"4月將訪問 日本"由于沒有作為一個整體在語料庫中出現(xiàn),需要進(jìn)一步切分為"4月"、"將訪問"和"日 本"后才能用短語對匹配。 輸入句子切分的短語越短,則由于缺少上下文,短語的歧義越多;同時,由于目標(biāo) 短語的數(shù)量越多,其排列出正確的譯文的難度越大。此外,一些命名實(shí)體,例如人名、地名、 組織機(jī)構(gòu)名稱、商品名稱、時間、金錢、數(shù)字和其它專有名詞,因?yàn)槠湓谡Z料庫中出現(xiàn)的次數(shù) 很少而很難用統(tǒng)計(jì)的方法翻譯。
發(fā)明內(nèi)容
本發(fā)明正是鑒于上述現(xiàn)有技術(shù)中的問題而提出的,其目的在于提供訓(xùn)練基于短語 的翻譯模型的方法、訓(xùn)練基于短語的翻譯模型的裝置、基于短語的機(jī)器翻譯方法和基于短 語的機(jī)器翻譯裝置,以便能夠通過使用命名實(shí)體知識,將命名實(shí)體的翻譯從統(tǒng)計(jì)機(jī)器翻譯 中分離出來,來改善統(tǒng)計(jì)機(jī)器翻譯的質(zhì)量。 本發(fā)明通過將命名實(shí)體替換為命名實(shí)體的類型,可以改善利用統(tǒng)計(jì)方法獲得的詞 對齊質(zhì)量,從而抽取出質(zhì)量更高的雙語短語對。因?yàn)閹麑?shí)體的類別的短語對能夠匹配 更長的短語,所以更容易排列出正確的譯文。同時,命名實(shí)體的翻譯可以使用額外的知識, 使得對命名實(shí)體的翻譯更加準(zhǔn)確。最終,可以生成更好的譯文。 根據(jù)本發(fā)明的一個方面,提供了一種訓(xùn)練基于短語的翻譯模型的方法,包括以下 步驟識別雙語語料庫中的例句對中的命名實(shí)體,上述雙語語料庫包括多對相對應(yīng)的源語 言和目標(biāo)語言的例句;將上述例句對中的識別出的上述命名實(shí)體替換為上述命名實(shí)體的類 別;從替換后的上述例句對中抽取短語對;以及將抽取出的上述短語對加入上述基于短語 的翻譯模型。 根據(jù)本發(fā)明的另一個方面,提供了一種訓(xùn)練基于短語的翻譯模型的裝置,包括識 別單元,其識別雙語語料庫中的例句對中的命名實(shí)體,上述雙語語料庫包括多對相對應(yīng)的
源語言和目標(biāo)語言的例句;替換單元,其將上述例句對中的上述識別單元識別出的上述命 名實(shí)體替換為上述命名實(shí)體的類別;抽取單元,其從上述替換單元替換后的上述例句對中 抽取短語對;以及添加單元,其將上述抽取單元抽取出的上述短語對加入上述基于短語的 翻譯模型。 根據(jù)本發(fā)明的另一個方面,提供了一種基于短語的機(jī)器翻譯方法,包括以下步驟 識別待翻譯的源語言的句子中的命名實(shí)體;將上述待翻譯的源語言的句子中的識別出的上 述命名實(shí)體替換為上述命名實(shí)體的類別;在基于短語的翻譯模型中,查找與替換后的上述 待翻譯的源語言的句子相匹配的多個短語對;以及利用上述多個短語對和上述命名實(shí)體的譯文生成上述待翻譯的源語言的句子的譯文。 根據(jù)本發(fā)明的另一個方面,提供了一種基于短語的機(jī)器翻譯裝置,包括第一識別 單元,其識別待翻譯的源語言的句子中的命名實(shí)體;第一替換單元,其將上述待翻譯的源語 言的句子中的上述第一識別單元識別出的上述命名實(shí)體替換為上述命名實(shí)體的類別;查找 單元,其在基于短語的翻譯模型中,查找與上述第一替換單元替換后的上述待翻譯的源語 言的句子相匹配的多個短語對;以及譯文生成單元,其利用上述多個短語對和上述命名實(shí) 體的譯文生成上述待翻譯的源語言的句子的譯文。
相信通過以下結(jié)合附圖對本發(fā)明具體實(shí)施方式
的說明,能夠使人們更好地了解本 發(fā)明上述的特點(diǎn)、優(yōu)點(diǎn)和目的。
圖1示出了常規(guī)的基于短語的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的方框圖; 圖2示出了采用圖1的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)進(jìn)行機(jī)器翻譯的一個實(shí)例; 圖3是根據(jù)本發(fā)明的一個實(shí)施例的訓(xùn)練基于短語的翻譯模型的方法的流程圖; 圖4示出了抽取短語對的詳細(xì)過程的一個實(shí)例; 圖5是根據(jù)本發(fā)明的另一個實(shí)施例的訓(xùn)練基于短語的翻譯模型的裝置的方框圖;
圖6是根據(jù)本發(fā)明的另一個實(shí)施例的基于短語的機(jī)器翻譯方法的流程圖;
圖7示出了采用圖6的基于短語的機(jī)器翻譯方法進(jìn)行機(jī)器翻譯的一個實(shí)例;以及
圖8是根據(jù)本發(fā)明的另一個實(shí)施例的基于短語的機(jī)器翻譯裝置的方框圖。
具體實(shí)施例方式
下面就結(jié)合附圖對本發(fā)明的各個優(yōu)選實(shí)施例進(jìn)行詳細(xì)的說明。
訓(xùn)練某于短i吾的翻譯樽型的方法 圖3是根據(jù)本發(fā)明的一個實(shí)施例的訓(xùn)練基于短語的翻譯模型的方法的流程圖。下 面就結(jié)合該圖,對本實(shí)施例進(jìn)行描述。 如圖3所示,首先,在步驟301,利用命名實(shí)體識別技術(shù)識別雙語語料庫10中的例
句對中的命名實(shí)體。在本實(shí)施例中,雙語語料庫io包括多對相對應(yīng)的源語言和目標(biāo)語言的
例句,其可以是本領(lǐng)域的普通技術(shù)人員公知的任何雙語語料庫,例如英語_漢語語料庫,英 語-德語語料庫,日語-漢語語料庫等等。此外,本實(shí)施例的雙語語料庫可以是進(jìn)行了對齊 的雙語語料庫,也可以是未進(jìn)行對齊的雙語語料庫,本發(fā)明對本實(shí)施例的雙語語料庫10沒 有任何限制。 在步驟301中,對于雙語語料庫10中的一對平行的雙語語料,即一對相對應(yīng)的源 語言和目標(biāo)語言的例句,利用本領(lǐng)域的技術(shù)人員公知的任何命名實(shí)體識別技術(shù),對該例句 對中的命名實(shí)體進(jìn)行識別。 在本實(shí)施例中,可以使用本領(lǐng)域的技術(shù)人員公知的任何命名實(shí)體識別技術(shù),有關(guān)
命名實(shí)體識別技術(shù)的具體細(xì)節(jié),可以參考以下文獻(xiàn),本發(fā)明對此沒有任何限制。 1. Sun Jian, Ming Zhou禾口 Jianfeng Gao 的 文 獻(xiàn)"Chinese named
entityidentification using class-based language model ,,,2003,
International Journal of Computational Linguistics and Chinese Language (在下文
7中稱為文獻(xiàn)1),在此通過參考引入其整個內(nèi)容; 2. Borthwick, A. 的博士論文"A maximum entropy approach tonamed entity recognition", New York University, 1999 (在下文中稱為文獻(xiàn)2),在此通過參考引入其整 個內(nèi)容; 3.Wu Y. , Zhao J.禾口 Xu B. 的 文獻(xiàn)"Chinese named entity recognitioncombining a statistical model with human knowledge,,, In Proceedings ofthe ACL 2003Workshop on Multilingual and Mixed-language NamedEntity Recognition, Sa卯oro, J即an, 2003, 65-72 (在下文中稱為文獻(xiàn)3),在此通過參考引入其整 個內(nèi)容;以及 4. Jianfeng Gao, Mu Li, Andi Wu禾口 Chang-Ning Huang的文獻(xiàn)"Chinese Word Segmentation and Named Entity Recognition :A PragmaticApproach",2005, Computational Linguistics, 31 (4) :531-574 (在下文中稱為文獻(xiàn)4),在此通過參考引入 其整個內(nèi)容。 接著,在步驟305,將上述例句對中的識別出的命名實(shí)體替換為該命名實(shí)體的類
別。具體地,命名實(shí)體的類別包括人名、地名、組織機(jī)構(gòu)名稱、商品名稱、時間、金錢、數(shù)字和
其它專有名詞。這個定義來自于MET-2會議,可參考htto: 〃acl. ldc. uoenn. edu/muc7/。 接著,在步驟310,從替換后的帶有命名實(shí)體類別的例句對中抽取短語對。在本實(shí)
施例中,可以使用本領(lǐng)域的技術(shù)人員公知的任何抽取短語對的方法,本發(fā)明對此沒有任何
限制,只要能從替換后的帶有命名實(shí)體類別的例句對中抽取出短語對即可。 在本實(shí)施例中,如果上述雙語語料庫10為進(jìn)行了對齊的雙語語料庫,其包括每對
例句之間的對齊信息,則在步驟310,基于該對齊信息從替換后的帶有命名實(shí)體類別的例句
對中抽取短語對。 此外,如果上述雙語語料庫10為未進(jìn)行對齊的雙語語料庫,則在步驟310抽 取短語對之前,對上述例句對進(jìn)行詞對齊,然后從對齊后的帶有命名實(shí)體類別的例 句對中抽取短語對。在本實(shí)施例中,可以使用本領(lǐng)域的技術(shù)人員公知的任何詞對齊 方法對上述例句對進(jìn)行詞對齊,本發(fā)明對此沒有任何限制。詞對齊方法的具體細(xì)節(jié) 例如可以參見Brown, P. F. , Pietra, S. A. D. , Pietra, V. J. D. , and Mercer, R. L , "The Mathematics ofStatistical Machine Translation :Parameter Estimation", ComputationalLinguistics, 1993, 19(2) :263-313 (在下文中稱為文獻(xiàn)5),在此通過參考 引入其整個內(nèi)容。 下面參考圖4詳細(xì)描述抽取短語對的一個實(shí)例。圖4示出了抽取短語對的詳細(xì)過 程的一個實(shí)例。 在圖4中,假定英語為源語言,德語為目標(biāo)語言,黑色方塊表示對齊,則輸入為 (〈nr〉did not slap ;〈nr〉no daba ;0-01-12-13-2),其中〈nr〉指人名,S卩命名實(shí)體的類別為 人名。 然后,可以用大的矩形方框來框住多個方塊,每個矩形方框可以對應(yīng)一個短語對。 例如,圖4(a)中的虛線方框?qū)?yīng)的短語對為〈nr〉did not〈 = Xnr〉no。
在本實(shí)施例中,可以抽取作為互譯短語對的條件為
1.方框內(nèi)必須有至少一塊黑色的方塊;以及
8
2.方框的上,下,左,右都沒有黑色的方塊。 根據(jù)以上條件,圖4(a)中的虛線方框可抽取為互譯短語對;圖4(b)和4(c)中的 虛線方框不能抽取為互譯短語對,因?yàn)樗鼈兊南路接衅渌暮谏綁K。 之所以要滿足以上條件,是要求短語對中的源語言短語和目標(biāo)語言短語必須是完
整互譯的。例如,在圖4(a)中,將〈nr〉did not翻譯為〈nr〉no是合適的。然而,在圖4(b)中,〈nr〉did不能翻譯為〈nr〉no,因?yàn)槿鄙賜ot。在圖4(c)中,
〈nr〉did not也不能翻譯為〈nr〉no daba,因?yàn)槎嗌闪?daba。 所以,給定以上輸入,可以抽取出來的所有短語對如下 〈nrX = Xnr> 〈nr>did not〈 = Xnr>no 〈nr>did not sl即〈=Xnr>no daba did not〈 = >no did not sl即〈=>no daba sl即〈=>dab£i 應(yīng)該理解,本發(fā)明并不限于圖4所示的抽取方法,可以使用本領(lǐng)域的技術(shù)人員公 知的任何抽取短語對的方法。 此外,可選地,在步驟310中從替換后的例句對中抽取出短語對之后,可以基于抽 取出的短語對在雙語語料庫10中出現(xiàn)的次數(shù)計(jì)算短語對的翻譯概率。此外,也可以利用本 領(lǐng)域的技術(shù)人員公知的任何方法計(jì)算抽取出的短語對的翻譯概率,本發(fā)明對此沒有任何限 制。 返回圖3,接著,在步驟315,將在步驟310中抽取出的短語對加入基于短語的翻譯 模型50。此外,也可以將抽取出的短語對的翻譯概率也加入基于短語的翻譯模型50。
在本實(shí)施例中,可以對雙語語料庫10中的所有例句對進(jìn)行訓(xùn)練,也可以對雙語語 料庫10中的一部分例句對進(jìn)行訓(xùn)練,將訓(xùn)練出的短語對加入基于短語的翻譯模型50。此 外,也可以給基于短語的翻譯模型50的尺寸設(shè)定一個閾值,在基于短語的翻譯模型50中的 短語對的數(shù)量達(dá)到該閾值時,停止訓(xùn)練。此外,也可以在以后使用中對基于短語的翻譯模型 50進(jìn)行完善。 通過本實(shí)施例的訓(xùn)練基于短語的翻譯模型的方法,能夠通過使用命名實(shí)體知識, 將命名實(shí)體替換為命名實(shí)體的類型,可以改善利用統(tǒng)計(jì)方法獲得的詞對齊質(zhì)量,抽取出質(zhì) 量更高的雙語短語對,從而獲得質(zhì)量更高的基于短語的翻譯模型。 此外,如果將使用本實(shí)施例的方法訓(xùn)練出的基于短語的翻譯模型用于統(tǒng)計(jì)機(jī)器翻 譯,則因?yàn)閹麑?shí)體的類別的短語對能夠匹配更長的短語,所以更容易排列出正確的譯 文。同時,命名實(shí)體的翻譯可以使用額外的知識,使得對命名實(shí)體的翻譯更加準(zhǔn)確。最終, 可以生成更好的譯文。訓(xùn)練某于短i吾的翻譯樽型的裝置 在同一發(fā)明構(gòu)思下,圖5是根據(jù)本發(fā)明的另一個實(shí)施例的訓(xùn)練基于短語的翻譯模 型的裝置的方框圖。下面就結(jié)合該圖,對本實(shí)施例進(jìn)行描述。對于那些與前面實(shí)施例相同 的部分,適當(dāng)省略其說明。 如圖5所示,本實(shí)施例的訓(xùn)練基于短語的翻譯模型的裝置500包括識別單元
9501,其識別雙語語料庫10中的例句對中的命名實(shí)體,上述雙語語料庫10包括多對相對應(yīng) 的源語言和目標(biāo)語言的例句;替換單元505,其將上述例句對中的上述識別單元501識別出 的上述命名實(shí)體替換為上述命名實(shí)體的類別;抽取單元510,其從上述替換單元505替換后 的上述例句對中抽取短語對;以及添加單元515,其將上述抽取單元抽取出的上述短語對 加入上述基于短語的翻譯模型50。 在本實(shí)施例中,識別單元501利用命名實(shí)體識別技術(shù)識別雙語語料庫10中的例句 對中的命名實(shí)體。在本實(shí)施例中,雙語語料庫io包括多對相對應(yīng)的源語言和目標(biāo)語言的 例句,其可以是本領(lǐng)域的普通技術(shù)人員公知的任何雙語語料庫,例如英語-漢語語料庫,英 語-德語語料庫,日語-漢語語料庫等等。此外,本實(shí)施例的雙語語料庫可以是進(jìn)行了對齊 的雙語語料庫,也可以是未進(jìn)行對齊的雙語語料庫,本發(fā)明對本實(shí)施例的雙語語料庫10沒 有任何限制。 在本實(shí)施例中,識別單元501對于雙語語料庫10中的一對平行的雙語語料,即一 對相對應(yīng)的源語言和目標(biāo)語言的例句,利用本領(lǐng)域的技術(shù)人員公知的任何命名實(shí)體識別技 術(shù),對該例句對中的命名實(shí)體進(jìn)行識別。 在本實(shí)施例中,可以使用本領(lǐng)域的技術(shù)人員公知的任何命名實(shí)體識別技術(shù),有關(guān) 命名實(shí)體識別技術(shù)的具體細(xì)節(jié),可以參考上述文獻(xiàn)l-4,本發(fā)明對此沒有任何限制。
在本實(shí)施例中,替換單元505將上述例句對中的識別出的命名實(shí)體替換為該命名 實(shí)體的類別。具體地,命名實(shí)體的類別包括人名、地名、組織機(jī)構(gòu)名稱、商品名稱、時間、金 錢、數(shù)字和其它專有名詞。這個定義來自于MET-2會議,可參考http:〃ac1. ldc upenn. edu/muc7/。 在本實(shí)施例中,抽取單元510從替換單元505替換后的帶有命名實(shí)體類別的例句 對中抽取短語對。在本實(shí)施例中,抽取單元510可以使用本領(lǐng)域的技術(shù)人員公知的任何抽 取短語對的方法,本發(fā)明對此沒有任何限制,只要能從替換后的帶有命名實(shí)體類別的例句 對中抽取出短語對即可。 在本實(shí)施例中,如果上述雙語語料庫10為進(jìn)行了對齊的雙語語料庫,其包括每對 例句之間的對齊信息,則抽取單元510基于該對齊信息從替換后的帶有命名實(shí)體類別的例 句對中抽取短語對。 此外,如果上述雙語語料庫10為未進(jìn)行對齊的雙語語料庫,則訓(xùn)練基于短語的翻 譯模型的裝置500還可以包括對齊單元,其在抽取單元510抽取短語對之前,對上述例句對 進(jìn)行詞對齊。在本實(shí)施例中,可以使用本領(lǐng)域的技術(shù)人員公知的任何詞對齊方法對上述例 句對進(jìn)行詞對齊,本發(fā)明對此沒有任何限制。詞對齊方法的具體細(xì)節(jié)例如可以參見上述文 獻(xiàn)5,在此通過參考引入其整個內(nèi)容。 本實(shí)施例的抽取單元510抽取短語對的詳細(xì)過程與上述參考圖4詳細(xì)描述的抽取 過程類似,在此不再贅述。 應(yīng)該理解,本發(fā)明的抽取單元510并不限于使用圖4所示的抽取方法,可以使用本 領(lǐng)域的技術(shù)人員公知的任何抽取短語對的方法。 此外,可選地,本實(shí)施例的訓(xùn)練基于短語的翻譯模型的裝置500還可以包括計(jì)算 單元,其可以基于抽取單元510抽取出的短語對在雙語語料庫10中出現(xiàn)的次數(shù)計(jì)算短語對 的翻譯概率。此外,計(jì)算單元也可以利用本領(lǐng)域的技術(shù)人員公知的任何方法計(jì)算抽取出的
10短語對的翻譯概率,本發(fā)明對此沒有任何限制。 返回圖5,在本實(shí)施例中,添加單元515將抽取單元510抽取出的短語對加入基于 短語的翻譯模型50。此外,也可以將計(jì)算單元計(jì)算出的短語對的翻譯概率也加入基于短語 的翻譯模型50。 在本實(shí)施例中,可以對雙語語料庫10中的所有例句對進(jìn)行訓(xùn)練,也可以對雙語語 料庫10中的一部分例句對進(jìn)行訓(xùn)練,將訓(xùn)練出的短語對加入基于短語的翻譯模型50。此 外,也可以給基于短語的翻譯模型50的尺寸設(shè)定一個閾值,在基于短語的翻譯模型50中的 短語對的數(shù)量達(dá)到該閾值時,停止訓(xùn)練。此外,也可以在以后使用中對基于短語的翻譯模型 50進(jìn)行完善。 通過本實(shí)施例的訓(xùn)練基于短語的翻譯模型的裝置,能夠通過使用命名實(shí)體知識, 將命名實(shí)體替換為命名實(shí)體的類型,可以改善利用統(tǒng)計(jì)方法獲得的詞對齊質(zhì)量,抽取出質(zhì) 量更高的雙語短語對,從而獲得質(zhì)量更高的基于短語的翻譯模型。 此外,如果將使用本實(shí)施例的裝置500訓(xùn)練出的基于短語的翻譯模型用于統(tǒng)計(jì)機(jī)
器翻譯,則因?yàn)閹麑?shí)體的類別的短語對能夠匹配更長的短語,所以更容易排列出正確
的譯文。同時,命名實(shí)體的翻譯可以使用額外的知識,使得對命名實(shí)體的翻譯更加準(zhǔn)確。最
終,可以生成更好的譯文。 針飢吾白勺和遍i圣誠 在同一發(fā)明構(gòu)思下,圖6是根據(jù)本發(fā)明的另一個實(shí)施例的基于短語的機(jī)器翻譯方 法的流程圖。下面就結(jié)合該圖,對本實(shí)施例進(jìn)行描述。對于那些與前面實(shí)施例相同的部分, 適當(dāng)省略其說明。 如圖6所示,在步驟601,識別待翻譯的源語言的句子中的命名實(shí)體。在本實(shí)施例 中,可以使用本領(lǐng)域的技術(shù)人員公知的任何命名實(shí)體識別技術(shù),有關(guān)命名實(shí)體識別技術(shù)的 具體細(xì)節(jié),可以參考上述文獻(xiàn)l-4,本發(fā)明對此沒有任何限制。 接著,在步驟605,將待翻譯的源語言的句子中的識別出的命名實(shí)體替換為該命名 實(shí)體的類別。具體地,命名實(shí)體的類別包括人名、地名、組織機(jī)構(gòu)名稱、商品名稱、時間、金 錢、數(shù)字和其它專有名詞。這個定義來自于MET-2會議,可參考htW/acl. ldc.卿nn. edu/muc7/。 接著,在步驟610,在基于短語的翻譯模型中,查找與替換后的待翻譯的源語言的 句子相匹配的多個短語對。在此,優(yōu)選,基于短語的翻譯模型可以是利用上述參考圖3描述 的訓(xùn)練方法或參考圖5描述的訓(xùn)練裝置500訓(xùn)練得到的基于短語的翻譯模型50。
在本實(shí)施例中,可以使用本領(lǐng)域的技術(shù)人員公知的任何匹配方法在基于短語的翻 譯模型中查找與待翻譯的句子相匹配的短語對,本發(fā)明對此沒有任何限制。匹配方法其實(shí) 是一個根據(jù)給定源語言短語如何快速從翻譯模型中找到對應(yīng)的目標(biāo)語言短語及其翻譯概 率的方法??梢杂泻芏喾N不同的實(shí)現(xiàn)方式,最簡單的方法可以使用順序查找,復(fù)雜一點(diǎn)的方 法可以使用二分查找,樹,哈希等方法。通常,匹配方法會先對翻譯模型以源語言短語為鍵 值建立索引,可以使用前綴樹索弓I 。 匹配方法的具體細(xì)節(jié)例如可以參見A. Apostolico and Z. Galil, editors. Pattern m atching algorith ms. Oxford University Press, 1997 (在下文中禾爾為文獻(xiàn)6), 在此通過參考引入其整個內(nèi)容。
11
接著,在步驟615,利用在步驟610中查找出的多個短語對和上述命名實(shí)體的譯文 生成待翻譯的源語言的句子的譯文。在本實(shí)施例中,利用語言模型40和命名實(shí)體知識60 生成待翻譯的源語言的句子的譯文。 在本實(shí)施例中,語言模型40是用來描述句子流利程度的模型,其可以從該語言的 單語語料庫訓(xùn)練得到。例如,對于給定的一個句子S,語言模型能夠計(jì)算出該句子出現(xiàn)的概 率P(S)。 P(S)越大,則說明生成該句子的概率越大,即S是合法句子的可能性越大。也就 是說,根據(jù)訓(xùn)練得到的模型,越容易生成句子S。 通常當(dāng)前使用的語言模型基本是基于馬爾科夫過程的條件概率模型,該模型假設(shè) 出現(xiàn)下一個詞的概率,只和前面的第(n-l)個詞有關(guān)。 例如,在n = 2的時候,下一個詞出現(xiàn)的概率只和前一個詞有關(guān)P(wilwO. . . wi-l) =P (wi | wi_l)。 例如,對于句子"我喜歡吃蘋果"出現(xiàn)的概率可以計(jì)算為P("我喜歡吃蘋果") 二P(我)* P(喜歡I我)* P(吃I喜歡)* P(蘋果I吃) 其中,等式右邊的概率可以從語料庫中訓(xùn)練得到,根據(jù)這些概率,可以判斷出"我 喜歡吃蘋果"比"我喜歡吃籃球"更通順,因?yàn)?,語料庫中不會出現(xiàn)"吃籃球"這種搭 配,即P(籃球|吃)=0。 有關(guān)語言模型的更多具體的細(xì)節(jié)可以參見Stolcke Andreas于2002年發(fā) 表 的"SRIUI-an extensible language modeling toolkit", InProceedings of the International Conference on Spoken LangimgeProcessing, volume 2, pages 901—904, Denver, CO.(在下文中稱為文獻(xiàn)7),在此通過參考引入其整個內(nèi)容。 在本實(shí)施例中,命名實(shí)體知識60可以包括規(guī)則和雙語詞典。對于時間、金錢、數(shù)字 等規(guī)律性很強(qiáng)的命名實(shí)體,可以采用本領(lǐng)域的技術(shù)人員公知的任何規(guī)則進(jìn)行翻譯。對于人 名、地名、組織機(jī)構(gòu)名稱、商品名稱等命名實(shí)體,可以采用命名實(shí)體雙語詞典進(jìn)行翻譯。
此外,在本實(shí)施例中,命名實(shí)體知識60也可以通過以下方法訓(xùn)練獲得。
首先,識別雙語語料庫中的例句對的源語言的例句中的命名實(shí)體,上述雙語語料 庫包括多對相對應(yīng)的源語言和目標(biāo)語言的例句;接著,抽取上述例句對的目標(biāo)語言的例句 中的與上述命名實(shí)體相對應(yīng)的譯文;最后,將上述命名實(shí)體和上述譯文加入上述命名實(shí)體 知識。 應(yīng)該理解,本發(fā)明可以使用本領(lǐng)域的技術(shù)人員公知的任何命名實(shí)體知識,只要能
夠?qū)Υg的句子中的命名實(shí)體進(jìn)行翻譯即可,本發(fā)明對此沒有任何限制。 在步驟615中,可以首先利用命名實(shí)體知識60將上述多個短語對的目標(biāo)語言的短
語中的上述命名實(shí)體的類別替換為上述命名實(shí)體的譯文。然后,利用語言模型40,計(jì)算由替
換后的上述目標(biāo)語言的短語構(gòu)成的句子的得分,其中,將得分最高的句子作為上述待翻譯
的源語言的句子的譯文。 可選地,也可以首先利用基于命名實(shí)體的類別的語言模型,計(jì)算由上述多個短語 對的目標(biāo)語言的短語構(gòu)成的句子的得分。然后,將計(jì)算出的得分最高的句子中的上述命名 實(shí)體的類別替換為上述命名實(shí)體的譯文,其中,將替換后的上述得分最高的句子作為上述 待翻譯的源語言的句子的譯文。 下面參考圖7對本實(shí)施例的基于短語的機(jī)器翻譯方法進(jìn)行詳細(xì)描述。圖7示出了采用圖6的基于短語的機(jī)器翻譯方法進(jìn)行機(jī)器翻譯的一個實(shí)例。 如圖7所示,對于輸入句子"美國總統(tǒng)布什4月將訪問日本",本實(shí)施例的機(jī)器翻譯 方法在步驟601首先識別其中的命名實(shí)體,從而識別出"美國"、"布什"、"4月"和"日本"分 別為地名、人名、時間和地名。然后,在步驟605,將這些命名實(shí)體分別替換為其類別,即進(jìn) 行如下替換美國一〈ns〉、布什一〈nr〉、4月一〈nd〉、日本一〈ns〉。從而得到替換后的句子 為"〈ns〉總統(tǒng)〈nrXnd〉將訪問〈ns〉"。 然后,在步驟610 ,在基于短語的翻譯模型5 0中查找與替換后的句子相匹 配的短語對,結(jié)果得到如圖7中的705所示的兩個短語對(Pl) 〈ns〉總統(tǒng)〈nrX = >The〈ns>president〈nr> ;(P2)〈nd〉將訪問〈nsX = >will visit〈ns>in〈nd>。
然后,利用語言模型40和命名實(shí)體知識60得到710所示的譯文The US president will visit Japan in April。 由此可見,通過使用本實(shí)施例的基于短語的機(jī)器翻譯方法,可以將與待翻譯的句 子相匹配的短語對的數(shù)量從圖2所示的現(xiàn)有技術(shù)的5個降低到2個,從而可以提高機(jī)器翻 譯的效率和準(zhǔn)確率。 通過本實(shí)施例的基于短語的機(jī)器翻譯方法,能夠通過使用命名實(shí)體知識,將命名 實(shí)體替換為命名實(shí)體的類型,可以改善利用統(tǒng)計(jì)方法獲得的詞對齊質(zhì)量,抽取出質(zhì)量更高 的雙語短語對,從而獲得質(zhì)量更高的基于短語的翻譯模型。 此外,通過使用本實(shí)施例的基于短語的機(jī)器翻譯方法,因?yàn)閹麑?shí)體的類別的 短語對能夠匹配更長的短語,所以更容易排列出正確的譯文。同時,命名實(shí)體的翻譯可以使 用額外的知識,使得對命名實(shí)體的翻譯更加準(zhǔn)確。最終,可以生成更好的譯文。
基于短語的機(jī)器翻譯裝置 在同一發(fā)明構(gòu)思下,圖8是根據(jù)本發(fā)明的另一個實(shí)施例的基于短語的機(jī)器翻譯裝 置的方框圖。下面就結(jié)合該圖,對本實(shí)施例進(jìn)行描述。對于那些與前面實(shí)施例相同的部分, 適當(dāng)省略其說明。 如圖8所示,本實(shí)施例的基于短語的機(jī)器翻譯裝置800,包括第一識別單元801, 其識別待翻譯的源語言的句子中的命名實(shí)體;第一替換單元805,其將上述待翻譯的源語 言的句子中的上述第一識別單元801識別出的上述命名實(shí)體替換為上述命名實(shí)體的類別; 查找單元810,其在基于短語的翻譯模型中,查找與上述第一替換單元805替換后的上述待 翻譯的源語言的句子相匹配的多個短語對;以及譯文生成單元815,其利用上述多個短語 對和上述命名實(shí)體的譯文生成上述待翻譯的源語言的句子的譯文。 在本實(shí)施例中,第一識別單元801識別待翻譯的源語言的句子中的命名實(shí)體。在
本實(shí)施例中,可以使用本領(lǐng)域的技術(shù)人員公知的任何命名實(shí)體識別技術(shù),有關(guān)命名實(shí)體識
別技術(shù)的具體細(xì)節(jié),可以參考上述文獻(xiàn)l-4,本發(fā)明對此沒有任何限制。 替換單元805將待翻譯的源語言的句子中的識別出的命名實(shí)體替換為該命名實(shí)
體的類別。具體地,命名實(shí)體的類別包括人名、地名、組織機(jī)構(gòu)名稱、商品名稱、時間、金錢、
數(shù)字和其它專有名詞。這個定義來自于MET-2會議,可參考htW/acl. ldc.卯enn. edu/
muc7/。 查找單元810在基于短語的翻譯模型中,查找與替換后的待翻譯的源語言的句子 相匹配的多個短語對。在此,優(yōu)選,基于短語的翻譯模型可以是利用上述參考圖3描述的訓(xùn)
13練方法或參考圖5描述的訓(xùn)練裝置500訓(xùn)練得到的基于短語的翻譯模型50。 在本實(shí)施例中,查找單元810可以使用本領(lǐng)域的技術(shù)人員公知的任何匹配方法在
基于短語的翻譯模型中查找與待翻譯的句子相匹配的短語對,本發(fā)明對此沒有任何限制。
匹配方法其實(shí)是一個根據(jù)給定源語言短語如何快速從翻譯模型中找到對應(yīng)的目標(biāo)語言短
語及其翻譯概率的方法??梢杂泻芏喾N不同的實(shí)現(xiàn)方式,最簡單的方法可以使用順序查找,
復(fù)雜一點(diǎn)的方法可以使用二分查找,樹,哈希等方法。通常,匹配方法會先對翻譯模型以源
語言短語為鍵值建立索引,可以使用前綴樹索引。匹配方法的具體細(xì)節(jié)例如可以參見上述
文獻(xiàn)6 ,在此通過參考引入其整個內(nèi)容。 譯文生成單元815利用在查找單元810查找出的多個短語對和上述命名實(shí)體的譯 文生成待翻譯的源語言的句子的譯文。在本實(shí)施例中,譯文生成單元815利用語言模型40 和命名實(shí)體知識60生成待翻譯的源語言的句子的譯文。 在本實(shí)施例中,語言模型40是用來描述句子流利程度的模型,其可以從該語言的 單語語料庫訓(xùn)練得到。例如,對于給定的一個句子S,語言模型能夠計(jì)算出該句子出現(xiàn)的概 率P(S)。 P(S)越大,則說明生成該句子的概率越大,即S是合法句子的可能性越大。也就 是說,根據(jù)訓(xùn)練得到的模型,越容易生成句子S。 通常當(dāng)前使用的語言模型基本是基于馬爾科夫過程的條件概率模型,該模型假設(shè) 出現(xiàn)下一個詞的概率,只和前面的第(n-l)個詞有關(guān)。 例如,在n = 2的時候,下一個詞出現(xiàn)的概率只和前一個詞有關(guān)P(wilwO. . .wi-l) =P (wi | wi_l)。 例如,對于句子"我喜歡吃蘋果"出現(xiàn)的概率可以計(jì)算為P("我喜歡吃蘋果") 二P(我)* P(喜歡I我)* P(吃I喜歡)* P(蘋果I吃) 其中,等式右邊的概率可以從語料庫中訓(xùn)練得到,根據(jù)這些概率,可以判斷出"我 喜歡吃蘋果"比"我喜歡吃籃球"更通順,因?yàn)?,語料庫中不會出現(xiàn)"吃籃球"這種搭配, 即P(籃球|吃)=0。 有關(guān)語言模型的更多具體的細(xì)節(jié)可以參見上述文獻(xiàn)7,在此通過參考引入其整個 內(nèi)容。 在本實(shí)施例中,命名實(shí)體知識60可以包括規(guī)則和雙語詞典。對于時間、金錢、數(shù)字 等規(guī)律性很強(qiáng)的命名實(shí)體,可以采用本領(lǐng)域的技術(shù)人員公知的任何規(guī)則進(jìn)行翻譯。對于人 名、地名、組織機(jī)構(gòu)名稱、商品名稱等命名實(shí)體,可以采用命名實(shí)體雙語詞典進(jìn)行翻譯。
此外,在本實(shí)施例中,命名實(shí)體知識60也可以通過以下方法訓(xùn)練獲得。
首先,識別雙語語料庫中的例句對的源語言的例句中的命名實(shí)體,上述雙語語料 庫包括多對相對應(yīng)的源語言和目標(biāo)語言的例句;接著,抽取上述例句對的目標(biāo)語言的例句 中的與上述命名實(shí)體相對應(yīng)的譯文;最后,將上述命名實(shí)體和上述譯文加入上述命名實(shí)體 知識。 應(yīng)該理解,本發(fā)明可以使用本領(lǐng)域的技術(shù)人員公知的任何命名實(shí)體知識,只要能
夠?qū)Υg的句子中的命名實(shí)體進(jìn)行翻譯即可,本發(fā)明對此沒有任何限制。 在本實(shí)施例中,譯文生成單元815包括第二替換單元,其可以利用命名實(shí)體知識
60將上述多個短語對的目標(biāo)語言的短語中的上述命名實(shí)體的類別替換為上述命名實(shí)體的
譯文;以及計(jì)算單元,其利用語言模型40,計(jì)算由第二替換單元替換后的上述目標(biāo)語言的短語構(gòu)成的句子的得分,其中,將得分最高的句子作為上述待翻譯的源語言的句子的譯文。 可選地,譯文生成單元815的計(jì)算單元也可以首先利用基于命名實(shí)體的類別的語
言模型,計(jì)算由上述多個短語對的目標(biāo)語言的短語構(gòu)成的句子的得分。然后,譯文生成單元
815的第二替換單元將計(jì)算單元計(jì)算出的得分最高的句子中的上述命名實(shí)體的類別替換為
上述命名實(shí)體的譯文,其中,將替換后的上述得分最高的句子作為上述待翻譯的源語言的
句子的譯文。 本實(shí)施例的基于短語的機(jī)器翻譯裝置800的翻譯過程與上述參考圖7詳細(xì)描述的 翻譯過程類似,在此不再贅述。 通過本實(shí)施例的基于短語的機(jī)器翻譯裝置800,能夠通過使用命名實(shí)體知識,將命 名實(shí)體替換為命名實(shí)體的類型,可以改善利用統(tǒng)計(jì)方法獲得的詞對齊質(zhì)量,抽取出質(zhì)量更 高的雙語短語對,從而獲得質(zhì)量更高的基于短語的翻譯模型。 此外,通過使用本實(shí)施例的基于短語的機(jī)器翻譯裝置800,因?yàn)閹麑?shí)體的類別
的短語對能夠匹配更長的短語,所以更容易排列出正確的譯文。同時,命名實(shí)體的翻譯可以
使用額外的知識,使得對命名實(shí)體的翻譯更加準(zhǔn)確。最終,可以生成更好的譯文。 以上雖然通過一些示例性的實(shí)施例對本發(fā)明的訓(xùn)練基于短語的翻譯模型的方法、
訓(xùn)練基于短語的翻譯模型的裝置、基于短語的機(jī)器翻譯方法和基于短語的機(jī)器翻譯裝置進(jìn)
行了詳細(xì)的描述,但是以上這些實(shí)施例并不是窮舉的,本領(lǐng)域技術(shù)人員可以在本發(fā)明的精
神和范圍內(nèi)實(shí)現(xiàn)各種變化和修改。因此,本發(fā)明并不限于這些實(shí)施例,本發(fā)明的范圍僅由所
附權(quán)利要求為準(zhǔn)。
權(quán)利要求
一種訓(xùn)練基于短語的翻譯模型的方法,包括以下步驟識別雙語語料庫中的例句對中的命名實(shí)體,上述雙語語料庫包括多對相對應(yīng)的源語言和目標(biāo)語言的例句;將上述例句對中的識別出的上述命名實(shí)體替換為上述命名實(shí)體的類別;從替換后的上述例句對中抽取短語對;以及將抽取出的上述短語對加入上述基于短語的翻譯模型。
2. 根據(jù)權(quán)利要求1所述的訓(xùn)練基于短語的翻譯模型的方法,還包括 在上述從替換后的上述例句對中抽取短語對的步驟之后,計(jì)算上述短語對的翻譯概率的步驟。
3. 根據(jù)權(quán)利要求2所述的訓(xùn)練基于短語的翻譯模型的方法,其中,基于上述短語對在 上述雙語語料庫中出現(xiàn)的次數(shù)計(jì)算上述翻譯概率。
4. 根據(jù)權(quán)利要求2或3所述的訓(xùn)練基于短語的翻譯模型的方法,其中,上述將抽取出的 上述短語對加入上述基于短語的翻譯模型的步驟包括將上述短語對和上述翻譯概率加入 上述基于短語的翻譯模型。
5. 根據(jù)權(quán)利要求1所述的訓(xùn)練基于短語的翻譯模型的方法,其中,上述雙語語料庫包 括進(jìn)行了對齊的雙語語料庫,上述進(jìn)行了對齊的雙語語料庫包括上述多對例句中每對例句 之間的對齊信息。
6. 根據(jù)權(quán)利要求5所述的訓(xùn)練基于短語的翻譯模型的方法,其中,基于上述對齊信息 進(jìn)行上述從替換后的上述例句對中抽取短語對的步驟。
7. 根據(jù)權(quán)利要求1所述的訓(xùn)練基于短語的翻譯模型的方法,還包括 在上述從替換后的上述例句對中抽取短語對的步驟之前,對上述例句對進(jìn)行對齊的步驟。
8. 根據(jù)權(quán)利要求1所述的訓(xùn)練基于短語的翻譯模型的方法,其中,上述命名實(shí)體的類 別包括人名、地名、組織機(jī)構(gòu)名稱、商品名稱、時間、金錢和數(shù)字中的至少一種。
9. 一種訓(xùn)練基于短語的翻譯模型的裝置,包括識別單元,其識別雙語語料庫中的例句對中的命名實(shí)體,上述雙語語料庫包括多對相對應(yīng)的源語言和目標(biāo)語言的例句;替換單元,其將上述例句對中的上述識別單元識別出的上述命名實(shí)體替換為上述命名實(shí)體的類別;抽取單元,其從上述替換單元替換后的上述例句對中抽取短語對;以及 添加單元,其將上述抽取單元抽取出的上述短語對加入上述基于短語的翻譯模型。
10. 根據(jù)權(quán)利要求9所述的訓(xùn)練基于短語的翻譯模型的裝置,還包括 計(jì)算單元,其在上述抽取單元從上述替換單元替換后的上述例句對中抽取短語對之后,計(jì)算上述短語對的翻譯概率。
11. 根據(jù)權(quán)利要求10所述的訓(xùn)練基于短語的翻譯模型的裝置,其中,上述計(jì)算單元基 于上述短語對在上述雙語語料庫中出現(xiàn)的次數(shù)計(jì)算上述翻譯概率。
12. 根據(jù)權(quán)利要求10或11所述的訓(xùn)練基于短語的翻譯模型的裝置,其中,上述添加單 元將上述短語對和上述翻譯概率加入上述基于短語的翻譯模型。
13. 根據(jù)權(quán)利要求9所述的訓(xùn)練基于短語的翻譯模型的裝置,其中,上述雙語語料庫包括進(jìn)行了對齊的雙語語料庫,上述進(jìn)行了對齊的雙語語料庫包括上述多對例句中每對例句 之間的對齊信息。
14. 根據(jù)權(quán)利要求13所述的訓(xùn)練基于短語的翻譯模型的裝置,其中,上述抽取單元基 于上述對齊信息從上述替換單元替換后的上述例句對中抽取短語對。
15. 根據(jù)權(quán)利要求9所述的訓(xùn)練基于短語的翻譯模型的裝置,還包括 對齊單元,其在上述抽取單元從上述替換單元替換后的上述例句對中抽取短語對之前,對上述例句對進(jìn)行對齊。
16. 根據(jù)權(quán)利要求9所述的訓(xùn)練基于短語的翻譯模型的裝置,其中,上述命名實(shí)體的類 別包括人名、地名、組織機(jī)構(gòu)名稱、商品名稱、時間、金錢和數(shù)字中的至少一種。
17. —種基于短語的機(jī)器翻譯方法,包括以下步驟 識別待翻譯的源語言的句子中的命名實(shí)體;將上述待翻譯的源語言的句子中的識別出的上述命名實(shí)體替換為上述命名實(shí)體的類別;在基于短語的翻譯模型中,查找與替換后的上述待翻譯的源語言的句子相匹配的多個 短語對;以及利用上述多個短語對和上述命名實(shí)體的譯文生成上述待翻譯的源語言的句子的譯文。
18. 根據(jù)權(quán)利要求17所述的基于短語的機(jī)器翻譯方法,其中,上述基于短語的翻譯模 型包括利用根據(jù)權(quán)利要求1-8中任何一項(xiàng)所述的方法或者根據(jù)權(quán)利要求9-16中任何一項(xiàng) 所述的裝置訓(xùn)練得到的基于短語的翻譯模型。
19. 根據(jù)權(quán)利要求17所述的基于短語的機(jī)器翻譯方法,其中,上述利用上述多個短語 對和上述命名實(shí)體的譯文生成上述待翻譯的源語言的句子的譯文的步驟包括以下步驟將上述多個短語對的目標(biāo)語言的短語中的上述命名實(shí)體的類別替換為上述命名實(shí)體 的譯文;以及利用語言模型,計(jì)算由替換后的上述目標(biāo)語言的短語構(gòu)成的句子的得分,其中,將得分 最高的句子作為上述待翻譯的源語言的句子的譯文。
20. 根據(jù)權(quán)利要求17所述的基于短語的機(jī)器翻譯方法,其中,上述利用上述多個短語 對和上述命名實(shí)體的譯文生成上述待翻譯的源語言的句子的譯文的步驟包括以下步驟利用基于命名實(shí)體的類別的語言模型,計(jì)算由上述多個短語對的目標(biāo)語言的短語構(gòu)成 的句子的得分;以及將計(jì)算出的得分最高的句子中的上述命名實(shí)體的類別替換為上述命名實(shí)體的譯文,其 中,將替換后的上述得分最高的句子作為上述待翻譯的源語言的句子的譯文。
21. 根據(jù)權(quán)利要求17-20中任何一項(xiàng)所述的基于短語的機(jī)器翻譯方法,其中,上述利用 上述多個短語對和上述命名實(shí)體的譯文生成上述待翻譯的源語言的句子的譯文的步驟包 括利用命名實(shí)體知識生成上述命名實(shí)體的譯文的步驟。
22. 根據(jù)權(quán)利要求21所述的基于短語的機(jī)器翻譯方法,其中,上述命名實(shí)體知識通過 以下步驟訓(xùn)練獲得識別雙語語料庫中的例句對的源語言的例句中的命名實(shí)體,上述雙語語料庫包括多對 相對應(yīng)的源語言和目標(biāo)語言的例句;抽取上述例句對的目標(biāo)語言的例句中的與上述命名實(shí)體相對應(yīng)的譯文;以及 將上述命名實(shí)體和上述譯文加入上述命名實(shí)體知識。
23. 根據(jù)權(quán)利要求21所述的基于短語的機(jī)器翻譯方法,其中,上述命名實(shí)體知識包括 規(guī)則和雙語詞典。
24. —種基于短語的機(jī)器翻譯裝置,包括 第一識別單元,其識別待翻譯的源語言的句子中的命名實(shí)體;第一替換單元,其將上述待翻譯的源語言的句子中的上述第一識別單元識別出的上述 命名實(shí)體替換為上述命名實(shí)體的類別;查找單元,其在基于短語的翻譯模型中,查找與上述第一替換單元替換后的上述待翻譯的源語言的句子相匹配的多個短語對;以及譯文生成單元,其利用上述多個短語對和上述命名實(shí)體的譯文生成上述待翻譯的源語 言的句子的譯文。
25. 根據(jù)權(quán)利要求24所述的基于短語的機(jī)器翻譯裝置,其中,上述基于短語的翻譯模 型包括利用根據(jù)權(quán)利要求1-8中任何一項(xiàng)所述的方法或者根據(jù)權(quán)利要求9-16中任何一項(xiàng) 所述的裝置訓(xùn)練得到的基于短語的翻譯模型。
26. 根據(jù)權(quán)利要求24所述的基于短語的機(jī)器翻譯裝置,其中,上述譯文生成單元包括 第二替換單元,其將上述多個短語對的目標(biāo)語言的短語中的上述命名實(shí)體的類別替換為上述命名實(shí)體的譯文;以及計(jì)算單元,其利用語言模型,計(jì)算由上述第二替換單元替換后的上述目標(biāo)語言的短語構(gòu)成的句子的得分,其中,將得分最高的句子作為上述待翻譯的源語言的句子的譯文。
27. 根據(jù)權(quán)利要求24所述的基于短語的機(jī)器翻譯方法,其中,上述譯文生成單元包括 計(jì)算單元,其利用基于命名實(shí)體的類別的語言模型,計(jì)算由上述多個短語對的目標(biāo)語言的短語構(gòu)成的句子的得分;第二替換單元,其將上述計(jì)算單元計(jì)算出的得分最高的句子中的上述命名實(shí)體的類別 替換為上述命名實(shí)體的譯文,其中,將上述第二替換單元替換后的上述得分最高的句子作 為上述待翻譯的源語言的句子的譯文。
28. 根據(jù)權(quán)利要求24-27中任何一項(xiàng)所述的基于短語的機(jī)器翻譯裝置,其中,上述譯文 生成單元還用于利用命名實(shí)體知識生成上述命名實(shí)體的譯文。
29. 根據(jù)權(quán)利要求28所述的基于短語的機(jī)器翻譯裝置,其中,上述命名實(shí)體知識通過 以下單元訓(xùn)練獲得第二識別單元,其識別雙語語料庫中的例句對的源語言的例句中的命名實(shí)體,上述雙 語語料庫包括多對相對應(yīng)的源語言和目標(biāo)語言的例句;抽取單元,其抽取上述例句對的目標(biāo)語言的例句中的與上述命名實(shí)體相對應(yīng)的譯文;以及添加單元,其將上述命名實(shí)體和上述譯文加入上述命名實(shí)體知識。
30. 根據(jù)權(quán)利要求28所述的基于短語的機(jī)器翻譯裝置,其中,上述命名實(shí)體知識包括 規(guī)則和雙語詞典。
全文摘要
本發(fā)明提供了訓(xùn)練基于短語的翻譯模型的方法、訓(xùn)練基于短語的翻譯模型的裝置、基于短語的機(jī)器翻譯方法和基于短語的機(jī)器翻譯裝置。根據(jù)本發(fā)明的一個方面,提供了一種訓(xùn)練基于短語的翻譯模型的方法,包括以下步驟識別雙語語料庫中的例句對中的命名實(shí)體,上述雙語語料庫包括多對相對應(yīng)的源語言和目標(biāo)語言的例句;將上述例句對中的識別出的上述命名實(shí)體替換為上述命名實(shí)體的類別;從替換后的上述例句對中抽取短語對;以及將抽取出的上述短語對加入上述基于短語的翻譯模型。
文檔編號G06F17/28GK101763344SQ200810190509
公開日2010年6月30日 申請日期2008年12月25日 優(yōu)先權(quán)日2008年12月25日
發(fā)明者吳華, 王海峰, 胡曉光 申請人:株式會社東芝