訓(xùn)練翻譯模型的方法和裝置制造方法
【專利摘要】本發(fā)明提出一種訓(xùn)練翻譯模型的方法和裝置,其中,該方法包括:根據(jù)第一類雙語語料建立第一類語言詞語與第一類關(guān)聯(lián)語句之間的第一對(duì)應(yīng)關(guān)系,其中,第一類關(guān)聯(lián)語句包括第一樞軸詞語和與第一樞軸詞語相關(guān)的第一關(guān)聯(lián)字符;根據(jù)第二類雙語語料建立第二類語言詞語與第二類關(guān)聯(lián)語句之間的第二對(duì)應(yīng)關(guān)系,其中,第二類關(guān)聯(lián)語句包括第二樞軸詞語和與第二樞軸詞語相關(guān)聯(lián)的第二關(guān)聯(lián)字符;根據(jù)第一樞軸詞語、第二樞軸詞語、第一關(guān)聯(lián)字符、第二關(guān)聯(lián)字符、第一對(duì)應(yīng)關(guān)系和第二對(duì)應(yīng)關(guān)系建立第一類語言詞語與第二類語言詞語之間的第三對(duì)應(yīng)關(guān)系,并根據(jù)第三對(duì)應(yīng)關(guān)系訓(xùn)練預(yù)設(shè)的翻譯模型。上述方法在有效地降低模型規(guī)模的同時(shí)提高了翻譯質(zhì)量。
【專利說明】訓(xùn)練翻譯模型的方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及機(jī)器翻譯領(lǐng)域,特別涉及一種訓(xùn)練翻譯模型的方法和裝置。
【背景技術(shù)】
[0002]統(tǒng)計(jì)機(jī)器翻譯已經(jīng)逐漸成為一種主流的機(jī)器翻譯方法。統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的翻譯質(zhì)量主要依賴于雙語語料的數(shù)量和質(zhì)量,如果雙語語料數(shù)量越多、噪聲信息越小,則統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的翻譯質(zhì)量越高。但是,在雙語語料資源比較稀缺的情況下,需要使用基于Pivot Language (樞軸語言)的翻譯方法構(gòu)建雙語翻譯模型。以中日翻譯為例,由于中日雙語語料資源比較少,因此可將英語作為樞軸語言,并通過中英、英日的翻譯模型導(dǎo)出中日的翻譯模型,例如,可通過英語“good weather”,建立起中文“天氣好”和日文“天気# ^ P”之間的對(duì)應(yīng)關(guān)系。
[0003]但是,大多語言中的詞語都可能有多個(gè)釋義,這使得樞軸語言中的一個(gè)詞語在雙語中分別對(duì)應(yīng)m和η個(gè)詞語,則根據(jù)樞軸語言確定的雙語對(duì)應(yīng)關(guān)系則有mXn個(gè)。例如,對(duì)于英語“bank”在中文中對(duì)應(yīng)“岸”和“銀行”,在日文中對(duì)應(yīng)“邊”和“銀行”,因此,可得到如下對(duì)應(yīng)關(guān)系:
[0004]表1現(xiàn)有技術(shù)基于樞軸語言構(gòu)造的雙語詞語對(duì)應(yīng)關(guān)系表
[0005]
【權(quán)利要求】
1.一種訓(xùn)練翻譯模型的方法,其特征在于,包括以下步驟: 根據(jù)第一類雙語語料建立第一類語言詞語與第一類關(guān)聯(lián)語句之間的第一對(duì)應(yīng)關(guān)系,其中,所述第一類關(guān)聯(lián)語句包括第一樞軸詞語和與所述第一樞軸詞語相關(guān)的第一關(guān)聯(lián)字符; 根據(jù)第二類雙語語料建立第二類語言詞語與第二類關(guān)聯(lián)語句之間的第二對(duì)應(yīng)關(guān)系,其中,所述第二類關(guān)聯(lián)語句包括所述第二樞軸詞語和與所述第二樞軸詞語相關(guān)聯(lián)的第二關(guān)聯(lián)字符; 根據(jù)所述第一樞軸詞語、所述第二樞軸詞語、所述第一關(guān)聯(lián)字符、所述第二關(guān)聯(lián)字符、所述第一對(duì)應(yīng)關(guān)系和所述第二對(duì)應(yīng)關(guān)系建立所述第一類語言詞語與所述第二類語言詞語之間的第三對(duì)應(yīng)關(guān)系;以及 根據(jù)所述第三對(duì)應(yīng)關(guān)系訓(xùn)練預(yù)設(shè)的翻譯模型。
2.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)第一類雙語語料建立第一類語言詞語與第一類關(guān)聯(lián)語句之間的第一對(duì)應(yīng)關(guān)系,具體包括: 在所述第一類雙語語料中提取所述第一類語言詞語; 在所述第一類雙語語料中提取與所述第一類語言詞語具有互譯關(guān)系的所述第一樞軸詞語,并進(jìn)一步提取與所述第一樞軸詞語相關(guān)聯(lián)的第一關(guān)聯(lián)字符;以及 根據(jù)所述第一樞軸詞語和所述第一關(guān)聯(lián)字符生成所述第一類關(guān)聯(lián)語句,并建立所述第一類語言詞語與所述第一類關(guān)聯(lián)語句之間的第一對(duì)應(yīng)關(guān)系。
3.如權(quán)利要求2所述的方法,其特征在于,所述在第一類雙語語料中提取與所述第一樞軸詞語相關(guān)聯(lián)的第一關(guān)聯(lián)字符,具體包括: 在所述第一類雙語語料中獲 取在所述第一樞軸詞語之前m個(gè)字符,以及在所述第一樞軸詞語之后η個(gè)字符,并將所述m個(gè)字符和所述η個(gè)字符作為所述第一關(guān)聯(lián)字符,其中,m,η為自然數(shù),且m+n > O。
4.如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)第二類雙語語料建立第二類語言詞語與第二類關(guān)聯(lián)語句之間的第二對(duì)應(yīng)關(guān)系,具體包括: 在所述第二類雙語語料中提取所述第二類語言詞語; 在所述第二類雙語語料中提取與所述第二類語言詞語具有互譯關(guān)系的所述第二樞軸詞語,并進(jìn)一步提取與所述第二樞軸詞語相關(guān)聯(lián)的第二關(guān)聯(lián)字符;以及 根據(jù)所述第二樞軸詞語和所述第二關(guān)聯(lián)字符生成所述第二類關(guān)聯(lián)語句,并建立所述第二類語言詞語與所述第二類關(guān)聯(lián)語句之間的第二對(duì)應(yīng)關(guān)系。
5.如權(quán)利要求4所述的方法,其特征在于,所述在第二類雙語語料中提取與所述第二樞軸詞語相關(guān)聯(lián)的第二關(guān)聯(lián)字符,具體包括: 在所述第二類雙語語料中獲取在所述第二樞軸詞語之前P個(gè)字符,以及在所述第二樞軸詞語之后q個(gè)字符,并將所述P個(gè)字符和所述q個(gè)字符作為所述第二關(guān)聯(lián)字符,其中,P,q為自然數(shù),且P+q > O。
6.如權(quán)利要求1-5任一項(xiàng)所述的方法,其特征在于,所述根據(jù)第一樞軸詞語、所述第二樞軸詞語、所述第一關(guān)聯(lián)字符、所述第二關(guān)聯(lián)字符、所述第一對(duì)應(yīng)關(guān)系和所述第二對(duì)應(yīng)關(guān)系建立所述第一類語言詞語與所述第二類語言詞語之間的第三對(duì)應(yīng)關(guān)系,具體包括: 根據(jù)所述第一對(duì)應(yīng)關(guān)系獲取所述第一類語言詞語對(duì)應(yīng)的第一類關(guān)聯(lián)語句,并獲取所述第一類關(guān)聯(lián)語句包括的所述第一樞軸詞語和所述第一關(guān)聯(lián)字符;根據(jù)所述第二對(duì)應(yīng)關(guān)系獲取與所述第一類關(guān)聯(lián)語句一致的第二類關(guān)聯(lián)語句對(duì)應(yīng)的至少一個(gè)第二類語言詞語;以及 如果存在第二類語言詞語對(duì)應(yīng)的第二類關(guān)聯(lián)語句中的所述第二樞軸詞語與所述第一樞軸詞語一致,且第二類關(guān)聯(lián)語句中的第二關(guān)聯(lián)字符與所述第一關(guān)聯(lián)字符一致,則建立所述第二類語言詞語和所述第一類語言詞語之間的第三關(guān)系。
7.一種訓(xùn)練翻譯模型的裝置,其特征在于,包括: 第一建立模塊,用于根據(jù)第一類雙語語料建立第一類語言詞語與第一類關(guān)聯(lián)語句之間的第一對(duì)應(yīng)關(guān)系,其中,所述第一類關(guān)聯(lián)語句包括第一樞軸詞語和與所述第一樞軸詞語相關(guān)的第一關(guān)聯(lián)字符; 第二建立模塊,用于根據(jù)第二類雙語語料建立第二類語言詞語與第二類關(guān)聯(lián)語句之間的第二對(duì)應(yīng)關(guān)系,其中,所述第二類關(guān)聯(lián)語句包括所述第二樞軸詞語和與所述第二樞軸詞語相關(guān)聯(lián)的第二關(guān)聯(lián)字符; 第三建立模塊,用于根據(jù)所述第一樞軸詞語、所述第二樞軸詞語、所述第一關(guān)聯(lián)字符、所述第二關(guān)聯(lián)字符、所述第一對(duì)應(yīng)關(guān)系和所述第二對(duì)應(yīng)關(guān)系建立所述第一類語言詞語與所述第二類語言詞語之間的第三對(duì)應(yīng)關(guān)系;以及 訓(xùn)練模塊,用于根據(jù)所述第三對(duì)應(yīng)關(guān)系訓(xùn)練預(yù)設(shè)的翻譯模型。
8.如權(quán)利要求7所述的裝置,其特征在于,所述第一建立模塊具體包括: 第一提取單元,用于在所述第一類雙語語料中提取所述第一類語言詞語; 第二提取單元,用于在所述第一類雙語語料中提取與所述第一類語言詞語具有互譯關(guān)系的所述第一樞軸詞語,并進(jìn)一步提取與所述第一樞軸詞語相關(guān)聯(lián)的第一關(guān)聯(lián)字符; 第一生成單元,用于根據(jù)所 述第一樞軸詞語和所述第一關(guān)聯(lián)字符生成所述第一類關(guān)聯(lián)語句;以及 第一建立單元,用于建立所述第一類語言詞語與所述第一類關(guān)聯(lián)語句之間的第一對(duì)應(yīng)關(guān)系。
9.如權(quán)利要求8所述的裝置,其特征在于, 所述第二提取單元具體用于在所述第一類雙語語料中獲取在所述第一樞軸詞語之前m個(gè)字符,以及在所述第一樞軸詞語之后η個(gè)字符,并將所述m個(gè)字符和所述η個(gè)字符作為所述關(guān)聯(lián)字符,其中,m, η為自然數(shù),且m+n > O。
10.如權(quán)利要求8所述的裝置,其特征在于,所述第二建立模塊具體包括: 第三提取單元,用于在所述第二類雙語語料中提取所述第二類語言詞語; 第四提取單元,用于在所述第二類雙語語料中提取與所述第二類語言詞語具有互譯關(guān)系的所述第二樞軸詞語,并進(jìn)一步提取與所述第二樞軸詞語相關(guān)聯(lián)的第二關(guān)聯(lián)字符; 第二生成單元,用于根據(jù)所述第二樞軸詞語和所述第二關(guān)聯(lián)字符生成所述第二類關(guān)聯(lián)語句;以及 第二建立單元,用于建立所述第二類語言詞語與所述第二類關(guān)聯(lián)語句之間的第二對(duì)應(yīng)關(guān)系。
11.如權(quán)利要求10所述的裝置,其特征在于, 所述第四提取單元具體用于在所述第二類雙語語料中獲取在所述第二樞軸詞語之前P個(gè)字符,以及在所述第二樞軸詞語之后q個(gè)字符,并將所述P個(gè)字符和所述q個(gè)字符作為所述關(guān)聯(lián)字符,其中,p,q為自然數(shù),且p+q > O。
12.如權(quán)利要求7-11任一項(xiàng)所述的裝置,其特征在于,所述第三建立模塊具體包括:第一獲取單元,用于根據(jù)所述第一對(duì)應(yīng)關(guān)系獲取所述第一類語言詞語對(duì)應(yīng)的第一類關(guān)聯(lián)語句,并獲取所述第一類關(guān)聯(lián)語句包括的所述第一樞軸詞語和所述第一關(guān)聯(lián)字符; 第二獲取單元,用于根據(jù)所述第二對(duì)應(yīng)關(guān)系獲取與所述第一類關(guān)聯(lián)語句一致的第二類關(guān)聯(lián)語句對(duì)應(yīng)的至少一個(gè)第二類語言詞語;以及 第三建立單元,用于在存在第二類語言詞語對(duì)應(yīng)的第二類關(guān)聯(lián)語句中的所述第二樞軸詞語與所述第一樞軸詞語一致,且第二類關(guān)聯(lián)語句中的第二關(guān)聯(lián)字符與所述第一關(guān)聯(lián)字符一致時(shí),建立所述第二類語言詞語和所述第一類語言詞語之間的第三關(guān)系。
【文檔編號(hào)】G06F17/28GK103544147SQ201310544762
【公開日】2014年1月29日 申請日期:2013年11月6日 優(yōu)先權(quán)日:2013年11月6日
【發(fā)明者】何中軍, 朱曉寧, 吳華, 王海峰 申請人:北京百度網(wǎng)訊科技有限公司