翻譯裝置、學(xué)習(xí)裝置、翻譯方法以及存儲介質(zhì)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及翻譯裝置等。
【背景技術(shù)】
[0002] 例如統(tǒng)計機(jī)器翻譯等以往的翻譯裝置是通過組合了多個特征的線性模型來實現(xiàn) 的,并被程式化為如下問題,即搜索使該線性模型的分?jǐn)?shù)最高的翻譯。在這種模型化中,盡 管翻譯裝置的改進(jìn)是被當(dāng)作開發(fā)出對翻譯做出貢獻(xiàn)的特征的問題來理解的,但是,評價翻 譯好壞的評價函數(shù)與翻譯裝置中所使用的特征之間不一定能夠通過線性關(guān)系表現(xiàn)出來。因 此,即使重新向線性模型中添加特征,新的特征也未必會對翻譯裝置的改進(jìn)做出貢獻(xiàn)。另 外,基于線性模型的制約,即使開發(fā)出更好的特征,有可能對翻譯裝置的改進(jìn)所做出的貢獻(xiàn) 也是有限的。
[0003] 因此,以往在統(tǒng)計機(jī)器翻譯領(lǐng)域中,不拘泥于線性模型,而提出了非線性模型(參 照非專利文獻(xiàn)1~5)。在非專利文獻(xiàn)1、2中,根據(jù)Boosting算法實現(xiàn)了一種非線性翻譯模 型,并將其用于對從翻譯裝置輸出的多個候選翻譯進(jìn)行的重排序。
[0004] 另外,在非專利文獻(xiàn)3中,將神經(jīng)網(wǎng)絡(luò)導(dǎo)入到表現(xiàn)為轉(zhuǎn)換機(jī)(Transducer)的翻譯 模型中。
[0005] 在非專利文獻(xiàn)4、5中,按照短語對和規(guī)則對等翻譯知識的基本單位,基于神經(jīng)網(wǎng) 絡(luò)構(gòu)建了模型,并將其作為重排序和短語對單位的特征導(dǎo)入。
[0006] 在先技術(shù)文獻(xiàn)
[0007] 非專利文獻(xiàn)
[0008] 非專利文獻(xiàn) I :Kevin Duh and Katrin Kirchhoff. 2008. Beyond log-linear models:Boosted minimum error rate training for n-best re-ranking. In Proceedings of ACL_08:HLT,Short Papers,pages 37-40, Columbus,Ohio, June. Association for Computational Linguistics.
[0009] 非專利文獻(xiàn) 2 :A. Sokolov,G. Wisniewski,and F. Yvon. 2012. Non-linear n-best list reranking with few features. In AMTAjSan DiegojUSA.
[0010] 非專利文南犬 3 :M. Asuncion Castano,Francisco Casacubertaj and Enrique Vidal. 1997. Machine translation using neural networks and finite-state models. In TMI,pages 160-167.
[0011] 非專利文獻(xiàn) 4 :Le Hai Son,Alexandre Allauzen,and Francois Yvon. 2012. Continuous space translation models with neural networks. In Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies, NAACL HLTi 12, pages 39-48,Stroudsburg, PA, USA. Association for Computational Linguistics.
[0012] 非專利文獻(xiàn) 5 :Holger Schwenk. 2〇l2· Continuous space translation models for phrase-based statistical machine translation. In Proceedings of the 24th International Conference on Computational Linguistics, COLING' 12, Mumbai, India. Association for Computational Linguistics.
【發(fā)明內(nèi)容】
[0013] 發(fā)明所要解決的技術(shù)問題
[0014] 然而,在以往的翻譯裝置中,當(dāng)利用對特征進(jìn)行非線性結(jié)合的神經(jīng)網(wǎng)絡(luò)時,在檢索 過程中需要重新計算候選翻譯的分?jǐn)?shù),負(fù)荷較大。
[0015] 進(jìn)一步,非專利文獻(xiàn)1、2、4等的非線性模型實現(xiàn)為一種重排序模型,該重排序模 型從由現(xiàn)有的翻譯裝置輸出的多個候選翻譯中選擇正確的翻譯。在這種重排序模型中,由 于其候選翻譯中未必包含正確的翻譯,因此,使用重排序模型的效果是有限的。
[0016] 另外,如非專利文獻(xiàn)3所述,提出了將非線性模型適用在機(jī)器翻譯裝置自身的技 術(shù)方案,但是,在非專利文獻(xiàn)3中,是作為加權(quán)有限狀態(tài)轉(zhuǎn)換機(jī)而實現(xiàn)的,并未考慮排列順 序,僅僅適用于英語與法語等比較接近的語言對。
[0017] 在非專利文獻(xiàn)3、5中,按照各短語對和規(guī)則對單位構(gòu)建了非線性模型,關(guān)于組合 該短語對和規(guī)則對從而生成的語句單位的翻譯,無法進(jìn)行最優(yōu)化。尤其是n-gram語言模型 等,關(guān)于短語對和規(guī)則對組合了無法進(jìn)行局部計算的特征時,在非專利文獻(xiàn)3、5中無法實 現(xiàn)最優(yōu)化。
[0018] 進(jìn)一步,使用圖9中示出的規(guī)則,對現(xiàn)有技術(shù)的問題點進(jìn)行具體說明。圖9中的 規(guī)則ι?"Χ-<友好合作;friendly cooperation >",規(guī)則r 2為"乂 一<多年來的X ;X over the last year >',〇
[0019] 在由這樣的規(guī)則構(gòu)成的部分翻譯的示例中,假定各個規(guī)則的特征向量為以下的數(shù) 學(xué)式1。在數(shù)學(xué)式1中,h()為特征函數(shù)。
[0020] [數(shù)學(xué)式1]
[0022] 在這種情況下,該部分翻譯的特征向量為以下的數(shù)學(xué)式2。
[0023] [數(shù)學(xué)式2]
[0025] 在部分翻譯的評分中使用以下的數(shù)學(xué)式3的線性模型,并假定權(quán)重向量W為數(shù)學(xué) 式4。此外,在數(shù)學(xué)式3中,f為源語言句,e為目標(biāo)語言句,d為導(dǎo)出。另外,d包括兩個以 上的部分對信息。部分對信息是指如下信息,即具有用于構(gòu)成源語言句部分的源語言部分 信息以及用于構(gòu)成目標(biāo)語言句部分的目標(biāo)語言部分信息。部分對信息例如為短語對、規(guī)則 對、單詞對等。另外,在數(shù)學(xué)式3、數(shù)學(xué)式4中,W為權(quán)重向量。另外,e a ( a存在于e的正 上方)為目標(biāo)語言句,d a ( a存在于d的正上方)為構(gòu)成目標(biāo)語言句的部分對信息(例 如短語對、規(guī)則對等)。
[0026] [數(shù)學(xué)式3] CN 105190609 A 說明書 3/15 頁
[0028][數(shù)學(xué)式4]
[0030] 在這種情況下,該部分翻譯(f,e,d)的分?jǐn)?shù)為 "0· 3X1. 3+0. 5X0. 21+0.1 X (-0· 6) = 0· 435"。
[0031] 而且,在線性模型的情況下,通過動態(tài)規(guī)劃法能夠按照短語對單位或者規(guī)則對單 位進(jìn)行該計算并求出合計值,例如,能夠以數(shù)學(xué)式5的方式進(jìn)行計算。
[0032] [數(shù)學(xué)式5]
[0034] 另外,在非線性模型的情況下,例如,假定如以下數(shù)學(xué)式6所示的一層神經(jīng)網(wǎng)絡(luò)。 在數(shù)學(xué)式6中,M為權(quán)重矩陣,B是u維的作為偏置(Bias)的向量。此外,權(quán)重矩陣M是 uXK維的。另外,在數(shù)學(xué)式6中,M、B如以下的數(shù)學(xué)式7所示。另外,〇為各要素單位的 sigmoid函數(shù)(參照數(shù)學(xué)式8)。
[0035] [數(shù)學(xué)式6]
[0037][數(shù)學(xué)式7]
[0039][數(shù)學(xué)式8]
[0041] 此時,部分翻譯的分?jǐn)?shù)如以下數(shù)學(xué)式9所示。
[0042] [數(shù)學(xué)式9]
[0044] 在與線性模型同樣地以短語對或者規(guī)則對為單位進(jìn)行計算的情況下,當(dāng)將通過函 數(shù)S表示其分?jǐn)?shù)時,則為如下數(shù)學(xué)式10。
[0045] [數(shù)學(xué)式 10]
CN 105190609 A 說明書 4/15 頁
[0048] 這樣,當(dāng)對各個要素單位進(jìn)行計算并根據(jù)其合計求出部分翻譯的分?jǐn)?shù)時,結(jié)果為 0. 957,即使考慮化整誤差,也與0. 522之間存在大幅差異。因此,在非線性模型中,無法直 接使用基于動態(tài)規(guī)劃法的檢索方法。
[0049] 鑒于這種問題,本發(fā)明的目的在于提供一種翻譯裝置,該翻譯裝置關(guān)于非局部特 征函數(shù)導(dǎo)入線性模型,并且關(guān)于局部特征函數(shù)導(dǎo)入非線性模型,從而能夠有效地計算候選 翻譯的分?jǐn)?shù)。
[0050] 用于解決技術(shù)問題的方案
[0051] 本申請的第一項發(fā)明的翻譯裝置具備:參數(shù)存儲部,能夠存儲適用于非局部特征 函數(shù)的權(quán)重向量即第一權(quán)重向量、以及適用于局部特征函數(shù)的權(quán)重向量即第二權(quán)重向量; 特征函數(shù)信息存儲部,能夠存儲與非局部特征函數(shù)相關(guān)的信息即第一特征函數(shù)信息、以及 與局部特征函數(shù)相關(guān)的信息即第二特征函數(shù)信息;部分對信息存儲部,能夠存儲兩個以上 的部分對信息,所述部分對信息具有用于構(gòu)成源語言句部分的源語言部分信息和用于構(gòu)成 目標(biāo)語言句部分的目標(biāo)語言部分信息;接受部,用于接受源語言句;向量取得部,將接受部 接受的源語言句和存儲在部分對信息存儲部中的一個以上的部分對信息適用在由第一特 征函數(shù)信息表示的非局部特征函數(shù),從而取得第一向量,并且,將構(gòu)成接受部接受的源語言 句的一個以上的用語和存儲在部分對信息存儲部中的一個以上的部分對信息適用在由第 二特征函數(shù)信息表示的局部特征函數(shù),從而取得第二向量;分?jǐn)?shù)取得部,使用向量取得部 取得的第一向量以及第一權(quán)重向量計算出非局部的分?jǐn)?shù)即非局部分?jǐn)?shù),并使用向量取得部 取得的第二向量以及第二權(quán)重向量計算出局部的分?jǐn)?shù)即局部分?jǐn)?shù),再使用非局部分?jǐn)?shù)和局 部分?jǐn)?shù)取得與接受部接受的源語言句對應(yīng)的兩個以上目標(biāo)語言句的分?jǐn)?shù);目標(biāo)語言句取得 部,取得分?jǐn)?shù)取得部取得的分?jǐn)?shù)最大的目標(biāo)語言句;以及輸出部,用于輸出目標(biāo)語言句取得 部取得的目標(biāo)語言句。
[0052] 根據(jù)該結(jié)構(gòu),在機(jī)器翻譯過程中,能夠高效地計算候選翻譯的分?jǐn)?shù)。
[0053] 另外,與第一項發(fā)明相對地,本申請的第二項發(fā)明的翻譯裝置為,參數(shù)存儲部還存 儲有在計算局部分?jǐn)?shù)時所使用的參數(shù),該參數(shù)包括權(quán)重矩陣M(uXK維)以及u維的作為 偏置的向量B;第一特征函數(shù)信息是表示"h(f,e,d)"的信息,其中,f為源語言句,e為目 標(biāo)語言句,d為導(dǎo)出,h為K維的特征函數(shù);第二特征函數(shù)信息是表示"h'(r)"的信息,其 中,r為導(dǎo)出d中包含的一個要素,h'為K維的特征函數(shù);分?jǐn)?shù)取得部使用第一特征函數(shù)信 息h(f,e,d)和第一權(quán)重向量W,通過數(shù)學(xué)式"WT*h(f,e,d)"計算出非局部分?jǐn)?shù),并使用 第二特征函數(shù)信息W'和第二權(quán)重向量h'(r),以導(dǎo)出d的各個要素 r為單位,通過數(shù)學(xué)式 "W'T· σ (M*h'(r)+B)"計算出局部分?jǐn)?shù),并通過數(shù)學(xué)式11取得兩個以上的目標(biāo)語言句各 自的分?jǐn)?shù),其中,σ是u個各要素單位的sigmoid函數(shù)。
[0054] [數(shù)學(xué)式 11]
[0056] 根據(jù)該結(jié)構(gòu),在機(jī)器翻譯過程中,能夠高效地計算候選翻譯的分?jǐn)?shù)。進(jìn)一步具體而 言,根據(jù)該結(jié)構(gòu),通過以短語對或規(guī)則對等為單位導(dǎo)入非線性模型,并且將非線性模型限定 于對短語對或規(guī)則對封閉的特性,從而能夠?qū)崿F(xiàn)與線性模型同樣的高速檢索。
[0057] 另外,本申請的第三項發(fā)明的學(xué)習(xí)裝置具備:參數(shù)存儲部,能夠存儲適用于非局部 特征函數(shù)的權(quán)重向量即第一權(quán)重向量W、適用于局部特征函數(shù)的權(quán)重向量即第二權(quán)重向量 W'、計算局部分?jǐn)?shù)時所使用的權(quán)重矩陣M(uXK維)以及u維的作為偏置的向量B ;目標(biāo)函 數(shù)信息存儲部,能夠存儲目標(biāo)函數(shù)信息,所述目標(biāo)函數(shù)信息是與為了