機器翻譯裝置、方法及程序的制作方法
【專利摘要】本發(fā)明提供機器翻譯裝置、方法及程序。機器翻譯裝置包括:翻譯部,將第1語言的原文翻譯為第2語言的譯文;譯詞候選取得部,對于與譯文中的第1譯詞對應(yīng)的原文中的原詞,取得作為該原詞的翻譯的不同于該第1譯詞的一個以上的第2譯詞,將該第1譯詞及該第2譯詞作為譯詞候選;流暢度計算部,按譯詞候選計算表示在譯文中的第1譯詞的插入位置插入譯詞候選時生成自然譯文的合適度的流暢度;逆向翻譯部,按譯詞候選獲得譯詞候選向第1語言的逆向翻譯結(jié)果即一個以上的逆向翻譯詞;類似度計算部,按逆向翻譯詞計算原詞和逆向翻譯詞在第1語言中的意思的類似度;和譯詞選擇部,根據(jù)類似度和流暢度,從譯詞候選選擇用于置換第1譯詞的校正譯詞。
【專利說明】機器翻譯裝置、方法及程序
【技術(shù)領(lǐng)域】
[0001]本發(fā)明的實施方式涉及將第I語言翻譯為第2語言的機器翻譯裝置、方法及程序。【背景技術(shù)】
[0002]近年,伴隨計算機的高性能化、寬帶基礎(chǔ)設(shè)施的迅速普及,將第I語言的原文翻譯為第2語言的譯文的大量機器翻譯裝置及機器翻譯業(yè)務(wù)得到普及。一般地說,機器翻譯中,按第I語言的單詞及第I原詞的節(jié)單位保持多個第2語言的譯詞候選。這樣的機器翻譯中,根據(jù)輸入的原文,考慮原文側(cè)的語句和譯文側(cè)的語句的意思同一性和譯文流暢性來選擇適當(dāng)?shù)淖g詞是重要的。
[0003]作為選擇適當(dāng)?shù)淖g詞的方法,有統(tǒng)計庫翻譯方式,但是必須準(zhǔn)備大規(guī)模的對譯語料庫。作為不需要這樣的大規(guī)模對譯語料庫而考慮意思的同一性的方法,例如有采用原文側(cè)的語句和譯文側(cè)的語句的各自的共現(xiàn)(co-occurrence)詞的方法。
[0004]專利文獻1:日本特開2002-351872號公報
【發(fā)明內(nèi)容】
[0005]但是,上述方法中,必須準(zhǔn)備原文及譯文的雙方的共現(xiàn)詞列表,而且僅僅以共現(xiàn)為線索,因此未考慮全文的流暢性,無法選擇流暢性高的譯詞。
[0006]本發(fā)明為了解決上述的問題而提出,目的是提供可生成流暢性高的譯文的機器翻譯裝置、方法及程序。
[0007]本實施方式的機器翻譯裝置包括翻譯部、譯詞候選取得部、流暢度計算部、逆向翻譯部、類似度計算部及譯詞選擇部。翻譯部將第I語言的字符串即原文翻譯為第2語言的字符串即譯文。譯詞候選取得部對于與上述譯文中的第I譯詞對應(yīng)的上述原文中的原詞,取得作為該原詞的翻譯的不同于該第I譯詞的一個以上的第2譯詞,將該第I譯詞及該第2譯詞作為譯詞候選。流暢度計算部按每個譯詞候選,計算表示在上述譯文中的上述第I譯詞的插入位置插入上述譯詞候選時生成自然譯文的合適度的流暢度。逆向翻譯部按每個譯詞候選,獲得上述譯詞候選向上述第I語言的逆向翻譯結(jié)果即一個以上的逆向翻譯詞。類似度計算部按每個逆向翻譯詞,計算上述原詞和上述逆向翻譯詞在上述第I語言中的意思的類似度。譯詞選擇部根據(jù)上述類似度和上述流暢度,從上述譯詞候選選擇用于置換上述第I譯詞的校正譯詞。
【專利附圖】
【附圖說明】
[0008]圖1是第I實施方式的機器翻譯裝置的方框圖。
[0009]圖2是在翻譯詞典數(shù)據(jù)庫存儲的表的一例的示圖。
[0010]圖3是在流暢度數(shù)據(jù)庫存儲的一例的示圖。
[0011]圖4是機器翻譯裝置的工作的流程圖。
[0012]圖5是機器翻譯裝置的譯詞選擇處理的流程圖。[0013]圖6是取得部取得的原文的一例的示圖。
[0014]圖7是翻譯部生成的譯文的一例的示圖。
[0015]圖8是譯詞候選取得部中的譯詞候選的提取結(jié)果的一例的示圖。
[0016]圖9是第I實施方式中的流暢度計算部的流暢度的計算結(jié)果的一例示圖。
[0017]圖10是第I實施方式中的逆向翻譯部的逆向翻譯結(jié)果的一例示圖。
[0018]圖11是第I實施方式中的類似度計算部的類似度的計算結(jié)果的一例示圖。
[0019]圖12是第I實施方式中的譯詞選擇部的判定得分的一例示圖。
[0020]圖13是第2實施方式的機器翻譯裝置的方框圖。
[0021]圖14是第2實施方式中的流暢度計算部的流暢度的計算結(jié)果的一例示圖。
[0022]圖15是第2實施方式中的逆向翻譯部的逆向翻譯結(jié)果的一例示圖。
[0023]圖16是第2實施方式中的類似度計算部的類似度的計算結(jié)果的一例示圖。
[0024]圖17是第2實施方式中的譯詞選擇部的判定得分的一例示圖。
[0025]標(biāo)號說明:
[0026]100,1300…機器翻譯裝置,101…取得部,102…翻譯部,103…譯詞候選取得部,104…流暢度計算部,105…逆向翻譯部,106…類似度計算部,107…譯詞選擇部,108...輸出部,109…翻譯詞典數(shù)據(jù)庫,110…流暢度數(shù)據(jù)庫,111…類似度數(shù)據(jù)庫,200…翻譯詞典,201 …原詞,201...原文,202...譯詞,300,800,900,1000,1100,1200…表,301...前出字,302…后出字,303…譯詞,304,901…流暢度,801…譯詞候選,1001…逆向翻譯詞,1101…類似度,1201…判定得分,1301…譯詞候選取得部。
【具體實施方式】
[0027]以下,參照附圖,詳細(xì)說明本實施方式的機器翻譯裝置、方法及程序。另外,以下的實施方式中,附上同一參照符號的部分進行同樣的工作,重復(fù)的說明適宜省略。
[0028]本實施方式中,以作為原文的第I語言是英語,作為譯文的第2語言是日語的場合為例進行說明,但是,翻譯處理的對象語言不限于這2種語言,可以以全部語言為對象。另外,以下,將從第2語言到第I原詞的翻譯稱為逆向翻譯。
[0029](第I實施方式)
[0030]參照圖1說明第I實施方式的機器翻譯裝置。
[0031]第I實施方式的機器翻譯裝置100包括取得部101、翻譯部102、譯詞候選取得部103、流暢度計算部104、逆向翻譯部105、類似度計算部106、譯詞選擇部107、輸出部108、翻譯詞典數(shù)據(jù)庫109、流暢度數(shù)據(jù)庫110及類似度數(shù)據(jù)庫111。
[0032]取得部101從外部取得作為翻譯對象的第I語言的原文。原文的取得可以采用接收鍵盤、指示器裝置、手寫文字識別、OCR、聲音識別等一般采用的來自用戶的輸入的各種方法?;?,也可以不管用戶的輸入,設(shè)定成從外部依次取得原文。
[0033]翻譯部102從取得部101接收原文,參照在后述的翻譯詞典數(shù)據(jù)庫109存儲的翻譯詞典,將原文翻譯為第2語言的字符串,獲得譯文。翻譯處理采用轉(zhuǎn)換(transfer)方式、例句庫方式、統(tǒng)計庫方式、中間語言方式等一般方法即可,因此這里的說明省略。
[0034]譯詞候選取得部1`03從翻譯部102接收譯文,向翻譯部102詢問譯文中的處理對象的譯詞。然后,取得與譯詞對應(yīng)的第I語言的語句(以下稱為原詞)的翻譯,即與處理對象的譯詞不同的一個以上的第2語言的譯詞,與處理對象的譯詞一起作為譯詞候選。
[0035]流暢度計算部104從譯詞候選取得部103接收一個以上的譯詞候選,參照后述的流暢度數(shù)據(jù)庫110,按每個譯詞候選計算流暢度。流暢度表示作為第2語言而生成的自然譯文的合適度。
[0036]本實施方式中的流暢度的計算說明了流暢度計算部104從流暢度數(shù)據(jù)庫110取得預(yù)先計算的值的例,但是,例如,也可以對包含前后譯詞的例句的頻率進行計數(shù),除以其總數(shù)來計算概率。另外,也可以采用N-gram (N元)語言模型、PLSA (Probabilistic LatentSemantic Analysis,概率潛在語義分析)、LDA(Latent Dirichlet Allocation,隱含狄利克雷分布)等的一般公知的方法來計算流暢度。另外,也可以不預(yù)先計算流暢度,而準(zhǔn)備第2語言的例句語料庫,在每次有計算請求時進行計算。
[0037]逆向翻譯部105從譯詞候選取得部103接收譯詞候選、原詞及譯文。逆向翻譯部105將各譯詞候選逆向翻譯為第I語言,將逆向翻譯結(jié)果作為一個以上的逆向翻譯詞獲得。作為逆向翻譯處理,也可以應(yīng)用采用逆向翻譯詞典的方法,或者采用翻譯部102所用的翻譯詞典,將某譯詞候選在譯詞列表中持有的詞典條目用作逆向翻譯結(jié)果的方法。另外,也可以利用將第2語言翻譯為第I語言的外部的翻譯引擎,獲得逆向翻譯結(jié)果,將逆向翻譯結(jié)果向逆向翻譯詞追加。另外,不限于這些方法,也可以采用其他方法。
[0038]類似度計算部106從逆向翻譯部105接收一個以上的逆向翻譯詞、原詞及譯文,參照后述的類似度數(shù)據(jù)庫111,按每個逆向翻譯詞,算出原詞和逆向翻譯詞的第I語言的意思的類似度。類似度的計算可以采用計算余弦類似度,或者采用同義詞詞典(thesaurus),或者采用語境類似度計算或聚類等的方法。
[0039]譯詞選擇部107從流暢度計算部104接收譯詞候選、對應(yīng)的流暢度及譯文,從類似度計算部106接收逆向翻譯詞和對應(yīng)的類似度。譯詞選擇部107根據(jù)流暢度和類似度,算出判定得分,從譯詞候選中選擇用于置換處理對象的譯詞的譯詞即校正譯詞。校正譯詞的選擇例如將具有最大的判定得分的譯詞`選擇為校正譯詞即可。
[0040]輸出部108從譯詞選擇部107接收譯文及校正譯詞,向外部輸出將譯文中的譯詞置換為校正譯詞后的校正譯文。另外,說明了輸出部108從譯詞選擇部107接收譯文的例,但是也可以從翻譯部102接收譯文。
[0041]翻譯詞典數(shù)據(jù)庫109存儲第I語言的語句(原詞)和作為第I語言的對譯的第2語言的語句(譯詞)的翻譯詞典。翻譯詞典將參照圖2后述。
[0042]流暢度數(shù)據(jù)庫110對應(yīng)存儲可在2個單詞間插入的第2語言的語句和插入語句時句子的流暢度。流暢度數(shù)據(jù)庫110將參照圖3后述。
[0043]類似度數(shù)據(jù)庫111存儲第I語言的語句和其他第I語言的語句的類似度。
[0044]另外,翻譯詞典數(shù)據(jù)庫109、流暢度數(shù)據(jù)庫110及類似度數(shù)據(jù)庫111可以包含在機器翻譯裝置100中,也可以參照外部的數(shù)據(jù)庫。
[0045]接著,參照圖2說明翻譯詞典數(shù)據(jù)庫109存儲的翻譯詞典的一例。
[0046]圖2所示翻譯詞典200對應(yīng)存儲原詞201和譯詞202。原詞201表示第I語言的字符串,譯詞202表不成為原詞201的對譯的第2語言的譯詞。另外,對一個原詞201,存在一個以上的譯詞202。這里,原文201 “suggest”與譯詞202 “示唆L.^ ”、“提案L.r ”、“勧的T ”及“暗示? ”這樣的譯詞對應(yīng)。[0047]接著,參照圖3說明流暢度數(shù)據(jù)庫110存儲的表的一例。
[0048]前出字301、后出字302、譯詞303及流暢度304分別對應(yīng)存儲在圖3所示表300。
[0049]前出字301是緊跟在處理對象的譯詞前出現(xiàn)的詞。后出字302是緊跟在處理對象后出現(xiàn)的詞。譯詞303表示可在前出字301和后出字302之間的位置插入的譯詞。流暢度304表示譯詞303插入時前出字301、譯詞303及后出字302的譯文的流暢度,與譯詞303
--對應(yīng)。
[0050]具體地說,在對于前出字301“ > 7卜9 > f ”、后出字302“ ? 6 λ ”可插入的譯詞中,譯詞303 “探( ”與流暢度304 “0.84”對應(yīng),譯詞303 “教λ ? ”與流暢度304 “0.73”對應(yīng),譯詞303 “経営與流暢度304 “0.64”等對應(yīng)。即,作為譯文,表示“ > > 卜9 >全教無? 6無”的譯文的流暢度為“0.73”,“ 7卜9 > f経営? 6無”的譯文的流暢度為“0.64”。
[0051]接著,參照圖4的流程圖說明本實施方式的機器翻譯裝置100的工作。
[0052]步驟S401中,取得部101取得原文S。
[0053]步驟S402中,翻譯部102將原文S翻譯為第2語言,生成譯文Τ。
[0054]步驟S403中,對譯文T進行譯詞選擇處理。譯詞選擇處理的詳細(xì)情況將參照圖5后述。
[0055]步驟S404中,輸出部108輸出校正譯文Μ。以上,機器翻譯裝置100的工作結(jié)束。
[0056]接著,參照圖5說明步驟S403的譯詞選擇處理。
[0057]步驟S501中,譯詞候選取得部103對于處理對象的譯詞W,詢問譯詞候選W和對應(yīng)的原詞e,通過參照翻譯詞典,取得原詞e和全部的譯詞候選W。作為處理對象的譯詞w的選擇方法,例如,預(yù)先按每個譯詞計算譯文T的流暢度,將流暢度為閾值以下的譯詞作為處理對象的譯詞提取即可。
[0058]步驟S502中,譯詞候選取得部103判定譯詞候選W是否為多個。譯詞候選W存在多個時,進入步驟S503及步驟S504,譯詞候選W不存在多個即譯詞僅僅一個時處理結(jié)束。
[0059]步驟S503中,流暢度計算部104按每個譯詞候選,計算譯詞候選W的流暢度F。
[0060]步驟S504中,逆向翻譯部105按每個譯詞候選,將譯詞候選W逆向翻譯,取得逆向翻譯結(jié)果即一個以上的逆向翻譯詞K。
[0061]步驟S505中,類似度計算部106計算一個以上的逆向翻譯詞K和原詞e的類似度R0
[0062]步驟S506中,譯詞選擇部107用流暢度F和類似度R計算判定得分S。本實施方式中,將流暢度F和類似度R的積設(shè)為判定得分,但是也可以采用其他計算方法。
[0063]步驟S507中,譯詞選擇部107將判定得分S最高的譯詞候選W中的譯詞W’選擇為校正譯詞。以上,譯詞選擇處理結(jié)束。
[0064]另外,對一個譯詞進行置換后,再度計算全體譯文的流暢度,如果是流暢度在閾值以下的譯詞,則可以對閾值以下的譯詞同樣反復(fù)進行步驟S501到步驟S507為止的處理。這樣,可以提高全體譯文的流暢度,獲得更自然譯文。
[0065]接著,參照圖6到圖12說明譯詞選擇處理的工作的具體例。
[0066]圖6表示取得部101取得的原文。這里,輸入“Could you suggest a restaurantwith a nice view ? ”作為原文。[0067]圖7表示由翻譯部102翻譯原文后的翻譯結(jié)果即譯文。即,將原文“Could yousuggest a restaurant with a nice view ?,,翻譯為第 2 語言,獲得“ =t P / 眺的 Θ / >7卜/示唆分? ”的譯文。這里,“/”表示譯詞意思的統(tǒng)一分隔,從用“/”分隔的字符串中選擇處理對象的譯詞。
[0068]這里,假定處理對象的譯詞為“示唆L.r ”的情況。譯詞候選取得部103參照翻譯詞典數(shù)據(jù)庫109,將譯詞“示唆? ”的原文即“suggest”的其他譯詞即“提案? ”及“勧A ?”作為譯詞候選獲得。
[0069]接著,譯詞候選取得部103的譯詞候選的提取結(jié)果如圖8所示。
[0070]如圖8的表800所示,作為原詞201 “suggest”的譯詞候選801,可以獲得“示唆L.^ ”、“提案? ”及“勧* ? ”的3個。
[0071]接著,流暢度計算部104對圖8所示3個譯詞候選計算流暢度后的計算結(jié)果如圖9所示。
[0072]圖9所示表900對應(yīng)存儲譯詞候選801和流暢度901。例如,譯詞候選801 “示唆 與流暢度901 “0.13”對應(yīng)。這里,譯詞候選的流暢度的計算直接利用在流暢度數(shù)據(jù)
庫110存儲的流暢度的值,但是也可以采用進行加權(quán)等的其他計算算出。
[0073]接著,逆向翻譯部105將譯詞候選逆向翻譯后的逆向翻譯結(jié)果如圖10所示。
[0074]圖10所示表1000對應(yīng)存儲譯詞候選801和逆向翻譯詞1001。例如,譯詞候選801為“示唆的場合,作為逆向翻譯詞1001,與“indicatWsuggest”及“hint”對應(yīng)。另外,這里,作為逆向翻譯詞1001,按每個譯詞候選801獲得3個第I語言的單詞,但是也可以存儲任意數(shù)的第I語言的單詞。
[0075]接著,類似度計算部106計算原詞即“suggest”和逆向翻譯詞的類似度的計算結(jié)果如圖11所示。
[0076]圖11所示表1100分別對應(yīng)存儲譯詞候選801、逆向翻譯詞1001及類似度1101。例如,對于譯詞候選801 “示唆?”,分別與逆向翻譯詞1001 “indicate”及類似度1101 “0.43”對應(yīng),與逆向翻譯詞1001 “suggest”及類似度1101 “ 1.0”對應(yīng),與逆向翻譯詞1001 “hint”及類似度1101 “0.41”對應(yīng)。另外,逆向翻譯詞1001的“suggest”與原詞“ suggest ”相同,因此類似度成為“1.0”。
[0077]類似度的計算例如從文本語料庫的集合計算TF-1DF等的尺度,以一定的順序排列,生成式(I)那樣的單詞矢量。
[0078]【式I】
[0079]
【權(quán)利要求】
1.一種機器翻譯裝置,其特征在于,具備: 翻譯部,其將第I語言的字符串即原文翻譯為第2語言的字符串即譯文; 譯詞候選取得部,其對于與上述譯文中的第I譯詞對應(yīng)的上述原文中的原詞,取得作為該原詞的翻譯的不同于該第I譯詞的一個以上的第2譯詞,將該第I譯詞及該第2譯詞作為譯詞候選; 流暢度計算部,其按每個譯詞候選,計算表示在上述譯文中的上述第I譯詞的插入位置插入上述譯詞候選時生成自然譯文的合適度的流暢度; 逆向翻譯部,其按每個譯詞候選,獲得上述譯詞候選向上述第I語言的逆向翻譯結(jié)果即一個以上的逆向翻譯詞; 類似度計算部,其按每個逆向翻譯詞,計算上述原詞和上述逆向翻譯詞在上述第I語言中的意思的類似度;和 譯詞選擇部,其根據(jù)上述類似度和上述流暢度,從上述譯詞候選選擇用于置換上述第I譯詞的校正譯詞。
2.根據(jù)權(quán)利要求1所述的機器翻譯裝置,其特征在于, 上述譯詞候選取得部將上述第2語言的詞插入上述譯文的上述第I譯詞的位置時的流暢度為閾值以上的詞,追加為新譯詞候選。
3.根據(jù)權(quán)利要求1或2所述的機器翻譯裝置,其特征在于, 上述流暢度計算部采用N-gram語言模型計算上述流暢度。
4.根據(jù)權(quán)利要求1到3的任一項所述的機器翻譯裝置,其特征在于, 上述逆向翻譯部按每個上述譯詞候選,提取一個以上作為該譯詞候選的詞的對譯而包含的第I語言的單詞,將提取的一個以上的第I語言的單詞作為逆向翻譯詞而獲得。
5.根據(jù)權(quán)利要求1到4的任一項所述的機器翻譯裝置,其特征在于, 上述逆向翻譯部從外部取得將上述譯詞候選翻譯為上述第I語言的單詞的翻譯結(jié)果,將該翻譯結(jié)果向上述逆向翻譯詞追加。
6.一種機器翻譯方法,其特征在于,包括以下步驟: 將第I語言的字符串即原文翻譯為第2語言的字符串即譯文; 對于與上述譯文中的第I譯詞對應(yīng)的上述原文中的原詞,取得作為該原詞的翻譯的不同于該第I譯詞的一個以上的第2譯詞,將該第I譯詞及該第2譯詞作為譯詞候選; 按每個譯詞候選,計算表示在上述譯文中的上述第I譯詞的插入位置插入上述譯詞候選時生成自然譯文的合適度的流暢度; 按每個譯詞候選,獲得上述譯詞候選向上述第I語言的逆向翻譯結(jié)果即一個以上的逆向翻譯詞; 按每個逆向翻譯詞,計算上述原詞和上述逆向翻譯詞在上述第I語言中的意思的類似度;和 根據(jù)上述類似度和上述流暢度,從上述譯詞候選選擇用于置換上述第I譯詞的校正譯
ο
7.一種機器翻譯程序,使計算機起到以下單元的功能: 翻譯部,其將第I語言的字符串即原文翻譯為第2語言的字符串即譯文; 譯詞候選取得單元,其對于與上述譯文中的第I譯詞對應(yīng)的上述原文中的原詞,取得作為該原詞的翻譯的不同于該第I譯詞的一個以上的第2譯詞,將該第I譯詞及該第2譯詞作為譯詞候選; 流暢度計算單元,其按每個譯詞候選,計算表示在上述譯文中的上述第I譯詞的插入位置插入上述譯詞候選時生成自然譯文的合適度的流暢度; 逆向翻譯單元,其按每個譯詞候選,獲得上述譯詞候選向上述第I語言的逆向翻譯結(jié)果即一個以上的逆向翻譯詞; 類似度計算單元,其按每個逆向翻譯詞,計算上述原詞和上述逆向翻譯詞在上述第I語言中的意思的類似度;和 譯詞選擇單元, 其根據(jù)上述類似度和上述流暢度,從上述譯詞候選選擇用于置換上述第I譯詞的校正譯詞。
【文檔編號】G06F17/28GK103729347SQ201310463708
【公開日】2014年4月16日 申請日期:2013年10月8日 優(yōu)先權(quán)日:2012年10月10日
【發(fā)明者】田中浩之 申請人:株式會社 東芝