1.一種用于統(tǒng)計機器翻譯的解碼方法,其特征在于,包括:
根據(jù)源語言句子包含的詞序列,初始化由對應各跨度詞序列的節(jié)點組成的解碼空間;
拓展所述解碼空間中的每個節(jié)點,以生成每個節(jié)點的翻譯結(jié)果集合;
從覆蓋整個源語言句子的節(jié)點的翻譯結(jié)果集合中選擇翻譯分數(shù)處于前N位的翻譯候選,并構(gòu)建所述源語言句子的翻譯結(jié)果;
其中,所述拓展所述解碼空間中的每個節(jié)點包括:從生成當前節(jié)點的各種組合方式中選取翻譯分數(shù)處于高序位的翻譯候選,添加到當前節(jié)點的翻譯結(jié)果集合中,直至所選翻譯候選的數(shù)目不小于預設閾值K;所述翻譯候選的翻譯分數(shù)是根據(jù)預先生成的用于統(tǒng)計機器翻譯的模型計算得到的。
2.根據(jù)權利要求1所述的用于統(tǒng)計機器翻譯的解碼方法,其特征在于,所述從生成當前節(jié)點的各種組合方式中選取翻譯分數(shù)處于高序位的翻譯候選,添加到當前節(jié)點的翻譯結(jié)果集合中,直至所選翻譯候選的數(shù)目不小于預設閾值K,包括:
構(gòu)建根據(jù)其他節(jié)點生成當前節(jié)點的各種組合方式;
將每一種組合方式下的優(yōu)選子翻譯組合對應的翻譯候選添加到優(yōu)先級隊列中,所述優(yōu)選子翻譯組合是指生成所述組合方式的各節(jié)點在其翻譯結(jié)果集合中處于高序位的子翻譯候選的組合;
從所述優(yōu)先級隊列中選取翻譯分數(shù)處于高序位的翻譯候選,添加到當前節(jié)點按照翻譯分數(shù)排序的翻譯結(jié)果集合中;
選擇所選翻譯候選對應的子翻譯組合的鄰居,并將所述鄰居對應的翻譯候選添加到優(yōu)先級隊列中;
判斷當前節(jié)點從優(yōu)先級隊列中選取的翻譯候選的數(shù)目是否小于K,若是,轉(zhuǎn)到所述從所述優(yōu)先級隊列中選取翻譯分數(shù)處于高序位的翻譯候選的步驟執(zhí)行。
3.根據(jù)權利要求2所述的用于統(tǒng)計機器翻譯的解碼方法,其特征在于,所述子翻譯組合的鄰居是以下成員的組合:子翻譯組合中的一個子翻譯候選,在另一子翻譯候選所在翻譯結(jié)果集合中與所述另一子翻譯候選相鄰且處于低序位的子翻譯候選。
4.根據(jù)權利要求1所述的用于統(tǒng)計機器翻譯的解碼方法,其特征在于,所 述初始化由對應各跨度詞序列的節(jié)點組成的解碼空間,包括:
構(gòu)建由對應各跨度詞序列的節(jié)點組成的解碼空間;
根據(jù)翻譯模型生成所述源語言句子所包含各短語的翻譯候選,并將所述各短語的翻譯候選添加到所述解碼空間中相應節(jié)點的翻譯結(jié)果集合中。
5.根據(jù)權利要求4所述的用于統(tǒng)計機器翻譯的解碼方法,其特征在于,處理所述解碼空間中的每個節(jié)點時,在判斷出針對當前節(jié)點所選翻譯候選的數(shù)目不小于預設閾值K之后,在處理下一個節(jié)點之前,執(zhí)行下述操作:
將處于當前節(jié)點翻譯結(jié)果集合中的翻譯候選按照翻譯分數(shù)從高到低排序;
選擇序位處于高位的K個翻譯候選作為當前節(jié)點的翻譯結(jié)果集合。
6.根據(jù)權利要求1所述的用于統(tǒng)計機器翻譯的解碼方法,其特征在于,在所述從生成當前節(jié)點的各種組合方式中選取翻譯分數(shù)處于高序位的翻譯候選之后,執(zhí)行下述操作:
記錄所述翻譯候選與生成所述翻譯候選的各節(jié)點中的相應子翻譯候選的對應關系;
所述構(gòu)建所述源語言句子的翻譯結(jié)果包括:根據(jù)已記錄的所述對應關系逐層查找生成所述翻譯候選的各層子翻譯候選,并依據(jù)找到的子翻譯候選生成所述源語言句子的翻譯結(jié)果。
7.根據(jù)權利要求1-6任一項所述的用于統(tǒng)計機器翻譯的解碼方法,其特征在于,所述預先生成的用于統(tǒng)計機器翻譯的模型包括翻譯模型、調(diào)序模型、和語言模型。
8.根據(jù)權利要求7所述的用于統(tǒng)計機器翻譯的解碼方法,其特征在于,所述調(diào)序模型包括:最大熵調(diào)序模型。
9.一種用于統(tǒng)計機器翻譯的解碼裝置,其特征在于,包括:
初始化單元,用于根據(jù)源語言句子包含的詞序列,初始化由對應各跨度詞序列的節(jié)點組成的解碼空間;
拓展解碼單元,用于拓展所述解碼空間中的每個節(jié)點,以生成每個節(jié)點的翻譯結(jié)果集合;
翻譯結(jié)果構(gòu)建單元,用于從覆蓋整個源語言句子的節(jié)點的翻譯結(jié)果集合中選擇翻譯分數(shù)處于前N位的翻譯候選,并反向構(gòu)建所述源語言句子的翻譯結(jié)果;
其中,所述拓展解碼單元包括:
解碼控制子單元,用于選擇所述解碼空間中的每個節(jié)點,并針對每個節(jié)點觸發(fā)節(jié)點拓展子單元工作;
節(jié)點拓展子單元,用于從生成當前節(jié)點的各種組合方式中選取翻譯分數(shù)處于高序位的翻譯候選,添加到當前節(jié)點的翻譯結(jié)果集合中,直至所選翻譯候選的數(shù)目不小于預設閾值K。
10.根據(jù)權利要求9所述的用于統(tǒng)計機器翻譯的解碼裝置,其特征在于,所述節(jié)點拓展子單元,包括:
組合方式構(gòu)建子單元,用于構(gòu)建根據(jù)其他節(jié)點生成當前節(jié)點的各種組合方式;
優(yōu)先級隊列初始化子單元,用于將每一種組合方式下的優(yōu)選子翻譯組合對應的翻譯候選添加到優(yōu)先級隊列中,所述優(yōu)選子翻譯組合是指生成所述組合方式的各節(jié)點在其翻譯結(jié)果集合中處于高序位的子翻譯候選的組合;
翻譯候選選取子單元,用于從所述優(yōu)先級隊列中選取翻譯分數(shù)處于高序位的翻譯候選,添加到當前節(jié)點按照翻譯分數(shù)排序的翻譯結(jié)果集合中;
鄰居添加子單元,用于選擇所選翻譯候選對應的子翻譯組合的鄰居,并將所述鄰居對應的翻譯候選添加到優(yōu)先級隊列中;
拓展判斷子單元,用于判斷當前節(jié)點從優(yōu)先級隊列中選取的翻譯候選的數(shù)目是否小于K,若是,觸發(fā)所述翻譯候選選取子單元工作。
11.根據(jù)權利要求9所述的用于統(tǒng)計機器翻譯的解碼裝置,其特征在于,所述初始化單元包括:
解碼空間構(gòu)建子單元,用于構(gòu)建由對應各跨度詞序列的節(jié)點組成的解碼空間;
短語翻譯候選初始化子單元,用于根據(jù)翻譯模型生成所述源語言句子所包含各短語的翻譯候選,并將所述各短語的翻譯候選添加到所述解碼空間中相應節(jié)點的翻譯結(jié)果集合中。
12.根據(jù)權利要求11所述的用于統(tǒng)計機器翻譯的解碼裝置,其特征在于,所述節(jié)點拓展子單元包括:
選擇子單元,用于從生成當前節(jié)點的各種組合方式中選取翻譯分數(shù)處于高 序位的翻譯候選,添加到當前節(jié)點的翻譯結(jié)果集合中;
數(shù)目判斷子單元,用于判斷所述翻譯候選的數(shù)目是否不小于預設閾值K,并在小于時觸發(fā)選擇子單元工作;
所述節(jié)點拓展子單元還包括:
翻譯候選排序子單元,用于在所述數(shù)目判斷子單元的輸出為是時,將處于當前節(jié)點翻譯結(jié)果集合中的翻譯候選按照翻譯分數(shù)從高到低排序;
翻譯候選篩選子單元,用于從所述翻譯候選排序子單元排好序的翻譯候選中,選擇序位處于高位的K個翻譯候選作為當前節(jié)點的翻譯結(jié)果集合。
13.根據(jù)權利要求9所述的用于統(tǒng)計機器翻譯的解碼裝置,其特征在于,所述節(jié)點拓展子單元包括:
選擇子單元,用于從生成當前節(jié)點的各種組合方式中選取翻譯分數(shù)處于高序位的翻譯候選,添加到當前節(jié)點的翻譯結(jié)果集合中;
數(shù)目判斷子單元,用于判斷所述翻譯候選的數(shù)目是否不小于預設閾值K,并在小于時觸發(fā)選擇子單元工作;
所述節(jié)點拓展子單元還包括:
對應關系記錄子單元,用于在所述選擇子單元選取翻譯分數(shù)處于高序位的翻譯候選后,記錄所述翻譯候選與生成所述翻譯候選的各節(jié)點中的相應子翻譯候選的對應關系;
所述翻譯結(jié)果構(gòu)建單元具體用于,從覆蓋整個源語言句子的節(jié)點的翻譯結(jié)果集合中選擇翻譯分數(shù)處于前N位的翻譯候選,根據(jù)已記錄的所述對應關系逐層查找生成所述翻譯候選的各層子翻譯候選,并依據(jù)找到的子翻譯候選生成所述源語言句子的翻譯結(jié)果。
14.一種統(tǒng)計機器翻譯方法,其特征在于,包括:
訓練用于統(tǒng)計機器翻譯的翻譯模型、調(diào)序模型和語言模型;
對待翻譯原文進行預處理,獲取由詞序列組成的源語言句子;
利用所述翻譯模型、調(diào)序模型和語言模型,采用如權利要求1所述的解碼方法,對所述源語言句子進行解碼,獲得對應于源語言句子的目標語言句子;
對所述目標語言句子進行后處理,獲取對應于待翻譯原文的目標譯文。
15.根據(jù)權利要求14所述的統(tǒng)計機器翻譯方法,其特征在于,所述訓練用 于統(tǒng)計機器翻譯的翻譯模型、調(diào)序模型和語言模型,采用如下方式實現(xiàn):
利用針對源語言和目標語言的雙語語料庫訓練翻譯模型和調(diào)序模型,利用針對目標語言的單語語料庫訓練語言模型。
16.根據(jù)權利要求14所述的統(tǒng)計機器翻譯方法,其特征在于,所述對待翻譯原文進行預處理,獲取由詞序列組成的源語言句子包括:
通過分句操作,將待翻譯原文切割為獨立的源語言句子;
通過分詞操作,將所述源語言句子轉(zhuǎn)換為由詞組成的序列。
17.根據(jù)權利要求14所述的統(tǒng)計機器翻譯方法,其特征在于,所述對所述目標語言句子進行后處理,獲取對應于待翻譯原文的目標譯文,包括:
將所述目標語言句子組合為對應于待翻譯原文的目標譯文。
18.一種統(tǒng)計機器翻譯裝置,其特征在于,包括:
模型訓練單元,用于訓練用于統(tǒng)計機器翻譯的翻譯模型、調(diào)序模型和語言模型;
預處理單元,用于對待翻譯原文進行預處理,獲取由詞序列組成的源語言句子;
解碼單元,用于利用所述翻譯模型、調(diào)序模型和語言模型,采用如權利要求10所述的用于統(tǒng)計機器翻譯的解碼裝置,對所述源語言句子進行解碼,獲得對應于源語言句子的目標語言句子;
后處理單元,用于對所述目標語言句子進行后處理,獲取對應于待翻譯原文的目標譯文。
19.根據(jù)權利要求18所述的統(tǒng)計機器翻譯方法,其特征在于,所述模型訓練單元具體用于,利用針對源語言和目標語言的雙語語料庫訓練翻譯模型和調(diào)序模型,利用針對目標語言的單語語料庫訓練語言模型。
20.根據(jù)權利要求18所述的統(tǒng)計機器翻譯方法,其特征在于,所述預處理單元包括:
分句子單元,用于通過分句操作將待翻譯原文切割為獨立的源語言句子;
分詞子單元,用于通過分詞操作將所述源語言句子轉(zhuǎn)換為由詞組成的序列。
21.根據(jù)權利要求18所述的統(tǒng)計機器翻譯方法,其特征在于,所述后處理單元具體用于,將所述目標語言句子組合為對應于待翻譯原文的目標譯文。