面向計(jì)算機(jī)輔助翻譯的輸入方法與裝置制造方法
【專(zhuān)利摘要】本發(fā)明是一種面向計(jì)算機(jī)輔助翻譯的輸入方法,包括步驟S1:對(duì)源語(yǔ)言句子進(jìn)行分詞;步驟S2:獲得分詞后的源語(yǔ)言句子對(duì)應(yīng)的機(jī)器翻譯譯文候選列表和最優(yōu)機(jī)器翻譯譯義候選;獲得多元文法提示短語(yǔ);步驟S3:響應(yīng)按鍵選擇多元文法提示短語(yǔ)或者接收輸入按鍵序列,獲得輸入法短語(yǔ)候選;步驟S4:響應(yīng)用戶(hù)按鍵選擇多元文法提示短語(yǔ)或者輸入法短語(yǔ)候選后,獲得多元文法提示短語(yǔ),重復(fù)步驟S3,直到用戶(hù)完成錄入源語(yǔ)言句子的譯文。本發(fā)明還提供面向計(jì)算機(jī)輔助翻譯的輸入裝置,該裝置包括:分詞模塊、翻譯模塊、第一生成模塊、第二生成模塊、輸入裝置界面。本發(fā)明充分利用機(jī)器翻譯知識(shí),能使按鍵節(jié)省率至少上升11.04%,大幅提升人工翻譯的效率。
【專(zhuān)利說(shuō)明】面向計(jì)算機(jī)輔助翻譯的輸入方法與裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及自然語(yǔ)言處理【技術(shù)領(lǐng)域】,更具體地,涉及一種面向計(jì)算機(jī)輔助翻譯的 輸入方法與裝置。
【背景技術(shù)】
[0002] 機(jī)器翻譯就是用計(jì)算機(jī)來(lái)實(shí)現(xiàn)不同語(yǔ)言之間的轉(zhuǎn)換。被翻譯的語(yǔ)言通常稱(chēng)為源語(yǔ) 言,翻譯成的結(jié)果語(yǔ)言稱(chēng)為目標(biāo)語(yǔ)言。機(jī)器翻譯就是實(shí)現(xiàn)從源語(yǔ)言到目標(biāo)語(yǔ)言轉(zhuǎn)換的過(guò)程。
[0003] 計(jì)算機(jī)輔助翻譯就是充分運(yùn)用大量重復(fù)或相似的句子和片斷來(lái)提高翻譯人員的 工作效率。它不同于機(jī)器翻譯,不依賴(lài)于計(jì)算機(jī)的自動(dòng)翻譯,而是在人的參與下完成整個(gè)翻 譯過(guò)程。計(jì)算機(jī)輔助翻譯使得繁重的手工翻譯流程自動(dòng)化,并大幅度提高了翻譯效率和翻 譯質(zhì)量。
[0004] 近幾年來(lái),許多研究者嘗試通過(guò)機(jī)器翻譯知識(shí)來(lái)進(jìn)一步提高計(jì)算機(jī)輔助翻譯的效 率。目前研究的熱點(diǎn)是譯后編輯,即對(duì)機(jī)器翻譯系統(tǒng)的譯文進(jìn)行編輯操作以生成高質(zhì)量的 譯文。但由于目前的機(jī)器翻譯難以產(chǎn)生讓人相對(duì)滿(mǎn)意的譯文,直接導(dǎo)致譯員沒(méi)有動(dòng)力仔細(xì) 修改機(jī)器翻譯的譯文,所以譯后編輯并未被廣泛采用。另外,有學(xué)者曾提出基于交互式機(jī)器 翻譯方法的輔助翻譯(例如參見(jiàn) Sergio Barrachinaetc. ,"Statistical Approaches to Computer-Assisted Translation,',Computational Linguistics, 35 (I), p3_28, 2009),以 犧牲全自動(dòng)的翻譯要求而獲取較高質(zhì)量譯文的一種翻譯方法,基本思想就是在當(dāng)前翻譯系 統(tǒng)翻譯結(jié)果上,用戶(hù)指出一些錯(cuò)誤并提供正確翻譯,然后提交給翻譯系統(tǒng)重新解碼翻譯,迭 代多次后滿(mǎn)足用戶(hù)要求為止。但交互式翻譯方法嚴(yán)重干擾了人工翻譯流程,并且同樣耗時(shí) 費(fèi)力,因此這類(lèi)系統(tǒng)主要應(yīng)用在用戶(hù)對(duì)目標(biāo)語(yǔ)言的知識(shí)有限或者對(duì)目標(biāo)語(yǔ)言知之甚少的情 況下。而計(jì)算機(jī)輔助翻譯的主要用戶(hù)是專(zhuān)業(yè)譯員,所以交互式翻譯方法幾乎從未被商業(yè)翻 譯系統(tǒng)采用。Guy Lapalme和Philippe Langlais于1997-2005年間基于交互式翻譯框架 實(shí)現(xiàn)了 TransType翻譯系統(tǒng),在用戶(hù)輸入過(guò)程中實(shí)時(shí)給出后續(xù)翻譯的提示。但這要求譯員 必須從左至右開(kāi)始翻譯,機(jī)器翻譯根據(jù)已經(jīng)輸入的部分更新翻譯結(jié)果以給出盡可能準(zhǔn)確的 提示。升級(jí)后的TransTypd實(shí)現(xiàn)了三種語(yǔ)言對(duì)的翻譯,即英語(yǔ)一西班牙語(yǔ)、英語(yǔ)一法語(yǔ)、英 語(yǔ)一德語(yǔ),但因難于結(jié)合人工翻譯的流程,TransTypd這種交互方式并沒(méi)有被其他系統(tǒng)采 用。因此,研究如何結(jié)合機(jī)器翻譯知識(shí)以進(jìn)一步提高翻譯效率和翻譯質(zhì)量是迫切需要解決 的一個(gè)難題。
【發(fā)明內(nèi)容】
[0005] 針對(duì)上述技術(shù)問(wèn)題,本發(fā)明的主要目的在于提出一種面向計(jì)算機(jī)輔助翻譯的輸入 方法與裝置,以在輸入過(guò)程中能夠充分利用機(jī)器翻譯知識(shí)來(lái)提高翻譯效率和翻譯質(zhì)量。
[0006] 為了實(shí)現(xiàn)所述目的,作為本發(fā)明的一個(gè)方面,本發(fā)明提供了一種面向計(jì)算機(jī)輔助 翻譯的輸入方法,包括如下步驟:
[0007] 步驟Sl :對(duì)源語(yǔ)言句子進(jìn)行分詞;
[0008] 步驟S2 :利用機(jī)器翻譯引擎,得到分詞后的所述源語(yǔ)言句子對(duì)應(yīng)的機(jī)器翻譯譯文 候選列表,并將其中打分最高的機(jī)器翻譯譯文候選作為最優(yōu)機(jī)器翻譯譯文輸出到輸入裝置 界面;利用所述最優(yōu)機(jī)器翻譯譯文的前N個(gè)詞生成N個(gè)多元文法提示短語(yǔ),并輸出到輸入裝 置界面,等待用戶(hù)按鍵選擇;
[0009] 步驟S3 :對(duì)用戶(hù)按鍵選擇的多元文法提示短語(yǔ)進(jìn)行響應(yīng),或者接收用戶(hù)的輸入按 鍵序列;利用對(duì)數(shù)線(xiàn)性模型,對(duì)所述機(jī)器翻譯譯文候選列表和輸入按鍵序列計(jì)算,生成M個(gè) 輸入法短語(yǔ)候選并輸出到輸入裝置界面,等待用戶(hù)按鍵選擇;
[0010] 步驟S4 :對(duì)用戶(hù)按鍵選擇的所述輸入法短語(yǔ)候選進(jìn)行響應(yīng),或者接收用戶(hù)的輸入 按鍵序列,判斷用戶(hù)是否已經(jīng)完成錄入源語(yǔ)言句子的譯文,如果是則結(jié)束,如果否則利用已 錄入譯文部分和所述機(jī)器翻譯譯文候選列表生成N個(gè)多元文法提示短語(yǔ),輸出到輸入裝置 界面,等待用戶(hù)按鍵選擇,并跳轉(zhuǎn)到步驟S3 ;
[0011] 其中,N、M為正整數(shù)。
[0012] 其中,所述多元文法提示短語(yǔ)包括:第一個(gè)提示短語(yǔ)為一元文法,只包含一個(gè)詞; 第二個(gè)提示短語(yǔ)為二元文法,包含兩個(gè)詞,所述兩個(gè)詞含有第一個(gè)提示短語(yǔ)的詞和第二個(gè) 提示詞,且第一個(gè)提示短語(yǔ)的詞是第二個(gè)提示短語(yǔ)的前綴;以此類(lèi)推,第N-I個(gè)提示短語(yǔ)的 所有詞是第N個(gè)提示短語(yǔ)的前綴,第N個(gè)提示短語(yǔ)為N元文法包含N個(gè)詞,其中N為預(yù)先設(shè) 定的大于零的正整數(shù),缺省值為4。
[0013] 在步驟S3中還包括下列步驟:
[0014] 步驟S31 :對(duì)輸入按鍵序列進(jìn)行分字,得到分字后的輸入按鍵序列;所述分字后的 輸入按鍵序列由分字符隔開(kāi)的編碼單元組成,每個(gè)編碼單元是對(duì)應(yīng)字的文字輸入法編碼的 全部或者文字輸入法編碼的前綴;
[0015] 步驟S32 :將輸入法短語(yǔ)候選列表初始化為空,對(duì)所述分字后的輸入按鍵序列中 每一個(gè)編碼單元依次進(jìn)行如下計(jì)算:
[0016] 根據(jù)文字輸入法編碼規(guī)則,對(duì)所述編碼單元計(jì)算得到目標(biāo)字候選集合;
[0017] 利用解碼算法對(duì)所述目標(biāo)字候選集合、輸入法短語(yǔ)候選列表和機(jī)器翻譯譯文候選 列表計(jì)算,得到新的輸入法短語(yǔ)候選列表;
[0018] 利用對(duì)數(shù)線(xiàn)性模型對(duì)所述新的輸入法短語(yǔ)候選列表中的每一個(gè)輸入法短語(yǔ)候選 進(jìn)行打分并按降序排列;如果所述新的輸入法短語(yǔ)候選列表的長(zhǎng)度超過(guò)設(shè)定的閾值M時(shí), 僅保留前M個(gè)打分最高的輸入法短語(yǔ)候選;每個(gè)輸入法短語(yǔ)候選包含的目標(biāo)字候選的數(shù)目 等于已解碼的編碼單元數(shù)目,每個(gè)輸入法短語(yǔ)候選包含的目標(biāo)字有效候選的順序與已解碼 的編碼單元順序一致;
[0019] 用所述新的輸入法短語(yǔ)候選列表替代所述輸入法短語(yǔ)候選列表。
[0020] 其中,所述對(duì)數(shù)線(xiàn)性模型使用的特征包括:
[0021] (1)打字模型概率;
[0022] (2)語(yǔ)言模型概率;
[0023] (3)輸入法短語(yǔ)候選中的詞的出現(xiàn)概率;
[0024] (4)輸入法短語(yǔ)候選出現(xiàn)概率;
[0025] (5)輸入法短語(yǔ)候選中的詞是否在機(jī)器翻譯譯文候選中的二值特征;
[0026] (6)輸入法短語(yǔ)候選是否在機(jī)器翻譯譯文候選中的二值特征;
[0027] (7)輸入法短語(yǔ)候選是否在用戶(hù)術(shù)語(yǔ)庫(kù)中的二值特征。
[0028] 步驟S33 :完成所述分字后的輸入按鍵序列中所有編碼單元的計(jì)算之后,所述輸 入法短語(yǔ)候選列表的長(zhǎng)度為M,并按打分降序排列,其中M為預(yù)先設(shè)定的大于零的正整數(shù), 缺省值為5。
[0029] 在步驟S4中還包括下列步驟:
[0030] 步驟S41 :響應(yīng)用戶(hù)按鍵選擇多元文法提示短語(yǔ)或者輸入法短語(yǔ)候選后,對(duì)已錄 入譯文部分進(jìn)行分詞得到分詞后的已錄入譯文部分;
[0031] 步驟S42 :如果所述最優(yōu)機(jī)器翻譯譯文包含分詞后的已錄入譯文部分的最后一個(gè) 詞,則利用最大前綴匹配算法,對(duì)最優(yōu)機(jī)器翻譯譯文候選和分詞后的已錄入譯文部分計(jì)算, 生成N個(gè)多元文法提示短語(yǔ);
[0032] 步驟S43 :如果所述最優(yōu)機(jī)器翻譯譯文不包含分詞后的已錄入譯文部分的最后一 個(gè)詞,則在機(jī)器翻譯譯文候選列表中選擇所有包含分詞后的已錄入譯文部分的最后一個(gè)詞 的機(jī)器翻譯譯文候選,得到次優(yōu)機(jī)器翻譯譯文候選列表,并將其中打分最高的機(jī)器翻譯譯 文候選作為次優(yōu)機(jī)器翻譯譯文;利用前綴匹配算法,對(duì)次優(yōu)機(jī)器翻譯譯文候選和分詞后的 已錄入譯文部分計(jì)算,生成N個(gè)多元文法提示短語(yǔ)。
[0033] 作為本發(fā)明的另一個(gè)方面,本發(fā)明還提出了一種面向計(jì)算機(jī)輔助翻譯的輸入裝 置,該裝置包括:分詞模塊、翻譯模塊、第一生成模塊、第二生成模塊、輸入裝置界面,其中: [0034] 分詞模塊,用于將源語(yǔ)言句子和已錄入譯文部分生成并輸出分詞后的源語(yǔ)言句子 和分詞后的已錄入譯文部分;
[0035] 翻譯模塊與分詞模塊連接,利用機(jī)器翻譯引擎,得到分詞后的所述源語(yǔ)言句子對(duì) 應(yīng)的機(jī)器翻譯譯文候選列表,并將其中打分最高的機(jī)器翻譯譯文候選作為最優(yōu)機(jī)器翻譯譯 文輸出到輸入裝置界面的模塊;
[0036] 第一生成模塊與翻譯模塊、輸入裝置界面連接,用于對(duì)機(jī)器翻譯譯文候選列表和 輸入按鍵序列計(jì)算,利用對(duì)數(shù)線(xiàn)性模型,生成M個(gè)輸入法短語(yǔ)候選并輸出到輸入裝置界面;
[0037] 第二生成模塊與翻譯模塊、輸入裝置界面連接,用于對(duì)已錄入譯文部分和機(jī)器翻 譯譯文候選列表計(jì)算,生成N個(gè)多元文法提示短語(yǔ)并輸出到輸入裝置界面;
[0038] 輸入裝置界面,用于顯示最優(yōu)機(jī)器翻譯譯文、輸入法短語(yǔ)候選和多元文法提示短 語(yǔ),并接收用戶(hù)按鍵選擇命令和輸入按鍵序列,錄入源語(yǔ)言句子的譯文。
[0039] 作為本發(fā)明的再一個(gè)方面,本發(fā)明還提出了一種面向計(jì)算機(jī)輔助翻譯的輸入裝 置,包括:
[0040] 對(duì)源語(yǔ)言句子進(jìn)行分詞的裝置;
[0041] 利用機(jī)器翻譯引擎,得到分詞后的所述源語(yǔ)言句子對(duì)應(yīng)的目標(biāo)語(yǔ)言機(jī)器翻譯譯文 候選列表,將其中打分最高的機(jī)器翻譯譯文候選生成短語(yǔ)候選列表,并輸出到輸入裝置界 面的裝置;
[0042] 接收到用戶(hù)輸入的按鍵序列之后,利用對(duì)數(shù)線(xiàn)性模型,結(jié)合機(jī)器翻譯譯文候選列 表,實(shí)時(shí)動(dòng)態(tài)調(diào)整所述短語(yǔ)候選列表并輸出到所述輸入裝置界面的裝置;
[0043] 響應(yīng)用戶(hù)按鍵選擇,直到用戶(hù)完成源語(yǔ)言句子翻譯的裝置。
[0044] 其中,所述輸入裝置還包括:
[0045] 當(dāng)用戶(hù)錄入一個(gè)短語(yǔ)后結(jié)合機(jī)器翻譯候選列表得到N元文法提示的裝置;以及
[0046] 在輸入法界面顯示所述N元文法提示,供用戶(hù)選擇的裝置。
[0047] 通過(guò)上述技術(shù)方案可知,本發(fā)明的方法和裝置具有如下的積極效果:
[0048] (1)由于輸入法直接影響到翻譯效率,將機(jī)器翻譯知識(shí)和面向計(jì)算機(jī)輔助翻譯的 輸入方法融入到文字輸入法中,能夠順利突破現(xiàn)有交互方式(如譯后編輯、交互式機(jī)器翻 譯)的局限性,從而在不影響用戶(hù)體驗(yàn)的前提下,更快捷的輸入方法必能進(jìn)一步提高譯員 的翻譯效率和翻譯質(zhì)量;
[0049] (2)本發(fā)明能夠有效利用機(jī)器翻譯知識(shí),在使用含有機(jī)器翻譯的計(jì)算機(jī)輔助翻譯 工具過(guò)程中,在不干擾正常翻譯流程的前提下,自動(dòng)有效減少敲鍵數(shù)。通過(guò)英中政治新聞翻 譯實(shí)驗(yàn),結(jié)果表明,相對(duì)于谷歌拼音輸入法,單就容易量化的敲鍵數(shù)這一指標(biāo),本發(fā)明至少 使按鍵節(jié)省率上升了 11. 04%,相當(dāng)于工作效率至少提高了 11.04%。如果將機(jī)器翻譯譯文 幫助譯員更快的組織最終譯文的作用計(jì)算在內(nèi),效率提升則更為明顯。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0050] 圖1是本發(fā)明的面向計(jì)算機(jī)輔助翻譯的輸入方法和裝置的整體框架圖;
[0051] 圖2是本發(fā)明的面向計(jì)算機(jī)輔助翻譯的輸入方法和裝置細(xì)化后的整體框架圖;
[0052] 圖3是本發(fā)明方法和裝置嵌入到計(jì)算機(jī)輔助翻譯平臺(tái)后的示意圖;
[0053] 圖4是禁用多元文法提示短語(yǔ)與啟用多元文法提示短語(yǔ)兩種情況的輸入按鍵序 列對(duì)比示意圖;
[0054] 圖5是本發(fā)明結(jié)合機(jī)器翻譯知識(shí)后對(duì)輸入按鍵序列解碼的一個(gè)實(shí)例;
【具體實(shí)施方式】
[0055] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照 附圖,對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說(shuō)明。
[0056] 本發(fā)明所有代碼實(shí)現(xiàn)都是用Java和Apache Flex編程語(yǔ)目完成,后臺(tái)為Java編程 語(yǔ)言,容器為T(mén)omcat,輸入法前臺(tái)用Apache Flex編程語(yǔ)言完成,開(kāi)發(fā)平臺(tái)為Ubuntu 12. 04 和Windows 7,但不限于此,這些并不是對(duì)本發(fā)明的限制;由于所寫(xiě)程序沒(méi)有用到任何平臺(tái) 相關(guān)的代碼,因此所述的系統(tǒng)實(shí)現(xiàn)也可以運(yùn)行于其他版本的操作系統(tǒng)上。本輸入方法為面 向計(jì)算機(jī)輔助翻譯,與文字輸入法融合的輸入方法、非通用文字輸入法。具體的計(jì)算機(jī)輔助 翻譯軟件、機(jī)器翻譯引擎、文字輸入法均不受限。所述文字輸入法可以是五筆輸入法、拼音 輸入法等各種文字輸入法。
[0057] 本發(fā)明的基本思想是恰當(dāng)?shù)乩脵C(jī)器翻譯知識(shí),提出一種面向計(jì)算機(jī)輔助翻譯的 輸入方法,以提高譯員的翻譯質(zhì)量和翻譯效率。本發(fā)明的系統(tǒng)框架圖如圖1所示。圖1中: 分詞模塊接收源語(yǔ)言句子,輸出分詞后的源語(yǔ)言句子到翻譯模塊;分詞模塊接收人工譯文 已錄入部分,輸出分詞后的人工譯文已錄入部分到第二生成模塊;翻譯模塊與分詞模塊、 第二生成模塊連接,輸出分詞后的源語(yǔ)言句子對(duì)應(yīng)的機(jī)器翻譯譯文候選列表到第一生成模 塊;第一生成模塊與翻譯模塊、輸入裝置界面連接,接收用戶(hù)的輸入按鍵序列、機(jī)器翻譯譯 文候選列表,生成并輸出輸入法短語(yǔ)候選到輸入裝置界面;第二生成模塊與分詞模塊、翻譯 模塊連接,接收分詞后的人工譯文已錄入部分和機(jī)器翻譯譯文候選列表,生成并輸出多元 文法提示短語(yǔ)到輸入裝置界面;輸入裝置界面直接與用戶(hù)交互,用于顯示最優(yōu)機(jī)器翻譯譯 文、輸入法短語(yǔ)候選和多元文法提示短語(yǔ),并接收用戶(hù)按鍵選擇命令和輸入按鍵序列,錄入 源語(yǔ)言句子的譯文。
[0058] 圖3給出了本發(fā)明的一個(gè)實(shí)例(假定文字輸入法為拼音輸入法)嵌入計(jì)算機(jī)輔助 軟件后的示意圖。圖3主要分為A、B左右兩塊區(qū)域。A區(qū)域?yàn)闄C(jī)器翻譯譯文候選列表供用 戶(hù)參考,用戶(hù)可以設(shè)置顯示機(jī)器翻譯譯文候選的個(gè)數(shù)。B區(qū)域?yàn)楸景l(fā)明主要作用區(qū)域。當(dāng)用 戶(hù)剛開(kāi)始錄入譯文或者有多元文法提示短語(yǔ)可用時(shí),用戶(hù)可以通過(guò)回車(chē)鍵或者數(shù)字鍵5到 8選擇對(duì)應(yīng)的提示,如區(qū)域Bl所示。在區(qū)域B2中,當(dāng)沒(méi)有多元文法提示短語(yǔ)可用時(shí),機(jī)器翻 譯仍然能通過(guò)本發(fā)明幫助用戶(hù)提高效率:優(yōu)先將機(jī)器翻譯譯文候選列表中的詞賦予較高的 分值,如"fl"對(duì)應(yīng)的"福利"直接排首位,避免了選詞的麻煩。因此,本發(fā)明不僅可以顯式地 通過(guò)多元文法提示短語(yǔ)加快翻譯效率,還可以隱式地通過(guò)實(shí)時(shí)調(diào)整輸入法候選短語(yǔ)的排列 順序來(lái)加快翻譯效率。與其他機(jī)器翻譯交互方法不同的是,如果把A區(qū)域的機(jī)器翻譯設(shè)置 為不可見(jiàn)狀態(tài),即用戶(hù)完全不用理會(huì)機(jī)器翻譯結(jié)果,本發(fā)明依然能幫助用戶(hù)提高翻譯效率。
[0059] 本發(fā)明提出了一種面向計(jì)算機(jī)輔助翻譯的輸入方法。下面我們以拼音輸入法替代 所述文字輸入法,以英語(yǔ)到漢語(yǔ)翻譯任務(wù)作為實(shí)施例,并結(jié)合如下示例來(lái)詳細(xì)闡述本發(fā)明 的原理與實(shí)現(xiàn)方法。
[0060] 假設(shè)源語(yǔ)言句子S :
[0061] China mulls change to officials' welfare system
[0062] 機(jī)器翻譯譯文候選之一 MT :
[0063] 中國(guó)考慮改變才能官員福利制度
[0064] 對(duì)應(yīng)的人工譯文HT :
[0065] 中國(guó)考慮改革公務(wù)員福利制度
[0066] 1、對(duì)源語(yǔ)言句子和已錄入譯文部分進(jìn)行分詞?!揪唧w實(shí)施方式】如下:
[0067] 在本例中,對(duì)英語(yǔ)和漢語(yǔ)進(jìn)行分詞的方法有很多種。在本發(fā)明的實(shí)施例中我們以 開(kāi)源的分詞工具Urheen對(duì)英語(yǔ)和漢語(yǔ)進(jìn)行分詞。所述Urheen也可以對(duì)其它語(yǔ)言進(jìn)行分詞, 如日語(yǔ)等,可以在以下網(wǎng)址免費(fèi)下載:
[0068] http ://www.openpr.org.cn/index. php/zh/NLP-Toolkit-For-Natural-Langua ge-Processing/68-Urheen-A-Chinese/English-Lexical-Analysis-Toolkit/View-d etails. html
[0069] 在示例中,機(jī)器翻譯譯文候選和人工譯文均已自動(dòng)分詞,并用空格隔開(kāi)相鄰詞。
[0070] 2、利用機(jī)器翻譯引擎,得到分詞后的所述源語(yǔ)言句子對(duì)應(yīng)的機(jī)器翻譯譯文候選列 表,并將其中打分最高的機(jī)器翻譯譯文候選作為最優(yōu)機(jī)器翻譯譯文輸出到輸入裝置界面; 利用所述最優(yōu)機(jī)器翻譯譯文的前N個(gè)詞生成N個(gè)多元文法提示短語(yǔ),并輸出到輸入裝置界 面,等待用戶(hù)按鍵選擇。
[0071] (1)得到機(jī)器翻譯譯文候選列表。
[0072] 從所述步驟1得到分詞后的源語(yǔ)言句子之后,就可以通過(guò)機(jī)器翻譯引擎得到機(jī)器 翻譯譯文候選列表,即n-best列表。將n-best列表中打分最高的機(jī)器翻譯譯文候選作為 最優(yōu)機(jī)器翻譯譯文并輸出到輸入裝置界面,供用戶(hù)參考,等待用戶(hù)錄入人工翻譯譯文。這里 的機(jī)器翻譯引擎可以是任何翻譯引擎,如著名的開(kāi)源翻譯引擎Moses,可以在以下網(wǎng)址免費(fèi) 下載:
[0073] http ://www. statmt. org/moses/ ? n = Moses. Releases
[0074] 所述Moses擁有比較完善的文檔,根據(jù)這些文檔可以輕松地部署翻譯服務(wù)器。
[0075] (2)利用所述最優(yōu)機(jī)器翻譯譯文的前N個(gè)詞生成N個(gè)多元文法提示短語(yǔ)。
[0076] 所述N個(gè)多元文法提示短語(yǔ)由連續(xù)多個(gè)詞組成,所述多元文法提示短語(yǔ)包括:第 一個(gè)提示短語(yǔ)為一元文法,只包含一個(gè)詞;第二個(gè)提示短語(yǔ)為二元文法,包含兩個(gè)詞,所述 兩個(gè)詞含有第一個(gè)提示短語(yǔ)的詞和第二個(gè)提示詞,且第一個(gè)提示短語(yǔ)是第二個(gè)提示短語(yǔ)的 前綴;以此類(lèi)推,第N-I個(gè)提示短語(yǔ)的所有詞是第N個(gè)提示短語(yǔ)的前綴,第N個(gè)提示短語(yǔ)為N 元文法包含N個(gè)詞,其中N為預(yù)先設(shè)定的大于零的正整數(shù)。實(shí)施例中N的缺省值為4,可自 定義。示例中,利用所述最優(yōu)機(jī)器翻譯譯文的前N個(gè)詞生成4個(gè)多元文法提示短語(yǔ)為:"中 國(guó)"、"中國(guó)考慮"、"中國(guó)考慮改變"、"中國(guó)考慮改變才能"。將所述4個(gè)多元文法提示短語(yǔ)輸 出到輸入裝置界面后,4個(gè)多元文法提示短語(yǔ)及其序號(hào)為:5.中國(guó)、6.中國(guó)考慮、7.中國(guó)考 慮改變、8.中國(guó)考慮改變才能。用戶(hù)可以通過(guò)與序號(hào)對(duì)應(yīng)的數(shù)字鍵按鍵選擇相應(yīng)的多元文 法提示短語(yǔ),如按數(shù)字鍵"6"選擇"中國(guó)考慮"。
[0077] 3、響應(yīng)用戶(hù)按鍵選擇對(duì)應(yīng)的多元文法提示短語(yǔ),或者接收用戶(hù)的輸入按鍵序列; 利用對(duì)數(shù)線(xiàn)性模型,對(duì)所述機(jī)器翻譯譯文候選列表和輸入按鍵序列計(jì)算,生成M個(gè)輸入法 短語(yǔ)候選并輸出到輸入裝置界面,等待用戶(hù)按鍵選擇。
[0078] 在本例中,由于所用文字輸入法為拼音輸入法,則所述輸入按鍵序列指用戶(hù)輸入 的文字輸入法編碼即漢語(yǔ)拼音串,如"中國(guó)考慮"對(duì)應(yīng)的"zhongguokaolv"。
[0079] 步驟S31 :對(duì)輸入按鍵序列進(jìn)行分字,得到分字后的輸入按鍵序列;所述分字后的 輸入按鍵序列由分字符隔開(kāi)的編碼單元組成,每個(gè)編碼單元是對(duì)應(yīng)字的文字輸入法編碼的 全部或者文字輸入法編碼的前綴。
[0080] 把拼音字符串按漢字字符,以" "為分字符切開(kāi)。如把拼音串"zhongguokaolv" 切成"叾1101^'8110'1?10'1¥",把拼音串"281^1"切成"2'8'1^1"。分字算法采用基于1:1^6樹(shù) 的最大前綴匹配算法(詳細(xì)描述見(jiàn)文獻(xiàn)D.E.Knuth,"The art of Computer Programming", vol. I, pp.295-304 "'Sorting and Searching",F(xiàn)undamental Algorithms, vol.Ill, pp. 481-505, Addison-Wesley Reading Mass,1973)。
[0081] 步驟S32 :將輸入法短語(yǔ)候選列表初始化為空,對(duì)所述分字后的輸入按鍵序列中 每一個(gè)編碼單元依次進(jìn)行如下計(jì)算:
[0082] 步驟S321 :根據(jù)文字輸入法編碼規(guī)則,對(duì)所述編碼單元計(jì)算得到目標(biāo)字候選集 合。如拼音串"z'g'k'l"中,"z"對(duì)應(yīng)漢字即目標(biāo)字候選集合"在、這、再、中、著、最、做、字、 早、造、者……","g"對(duì)應(yīng)目標(biāo)字候選集合"過(guò)、該、給、個(gè)、更、高、跟、剛、各、干、國(guó)……","k" 對(duì)應(yīng)目標(biāo)字候選集合"可、看、快、開(kāi)、卡、考、空、快、客……","1"對(duì)應(yīng)目標(biāo)字候選集合"來(lái)、 了、李、里、老、慮、啦、路、類(lèi)、林……"。
[0083] 步驟S322 :利用解碼算法對(duì)所述目標(biāo)字候選集合、輸入法短語(yǔ)候選列表和機(jī)器翻 譯譯文候選列表計(jì)算,得到新的輸入法短語(yǔ)候選列表。
[0084] 對(duì)于本實(shí)施例而言,解碼是指將分字后的輸入按鍵序列(如"中國(guó)考慮"對(duì)應(yīng)的 "zhong'guo'kao'lv")轉(zhuǎn)換成對(duì)應(yīng)的輸入法短語(yǔ)候選的過(guò)程。這里的輸入按鍵序列可以是 全拼,也可以是簡(jiǎn)拼或者雙拼。本發(fā)明的目的之一是將"zhong' guo' kao' lv"這種比較長(zhǎng)的 按鍵序列盡可能縮至最短的"z' g'k' 1",這是提交本專(zhuān)利時(shí)文字輸入法無(wú)法做到的。
[0085] 由于每個(gè)編碼單元的目標(biāo)字候選集合搜索空間非常大,各編碼單元組合之后的 輸入法短語(yǔ)候選數(shù)目呈指數(shù)級(jí)上升,需要利用解碼算法(如柱搜索解碼算法,詳細(xì)描述 見(jiàn)文獻(xiàn) Och,F(xiàn)ranz Josef, Nicola Ueffing, and Hermann Ney,"An EfficientA^Search Algorithm for Statistical Machine Translation",vol. I, pp. 295-304 "'Sorting and Searching,',Proceedings ofthe workshop on Data-driven methods in machine transIation-Volume 14. Association for Computational Linguistics, 2001)來(lái)快速搜 索各個(gè)編碼單元的目標(biāo)字候選集合并擴(kuò)展輸入法短語(yǔ)候選。
[0086] 步驟S323 :利用對(duì)數(shù)線(xiàn)性模型對(duì)所述新的輸入法短語(yǔ)候選列表中的每一個(gè)輸入 法短語(yǔ)候選進(jìn)行打分并按降序排列;如果所述新的輸入法短語(yǔ)候選列表的長(zhǎng)度超過(guò)設(shè)定的 閾值M時(shí),僅保留前M個(gè)打分最高的輸入法短語(yǔ)候選;每個(gè)輸入法短語(yǔ)候選包含的目標(biāo)字候 選的數(shù)目等于已解碼的編碼單元數(shù)目,每個(gè)輸入法短語(yǔ)候選包含的目標(biāo)字有效候選的順序 與已解碼的編碼單元順序一致。
[0087] 在用解碼算法快速搜索各個(gè)編碼單元的目標(biāo)字候選集合并擴(kuò)展輸入法短語(yǔ)候選 過(guò)程中,由于輸入法短語(yǔ)候選列表的長(zhǎng)度呈指數(shù)級(jí)上升,因此有必要對(duì)其剪枝,以將其長(zhǎng)度 限制在一定范圍以?xún)?nèi)。剪枝過(guò)程中,利用對(duì)數(shù)線(xiàn)性模型(詳細(xì)描述見(jiàn)文獻(xiàn)Knoke,David,and Peter J. Burke,eds,"Log_linear Models",vol. 20, Sage,1980)對(duì)所述新的輸入法短語(yǔ)候 選列表中的每一個(gè)輸入法短語(yǔ)候選進(jìn)行打分并按降序排列。用所述新的輸入法短語(yǔ)候選列 表替代所述輸入法短語(yǔ)候選列表。
[0088] 假設(shè)分字后的輸入按鍵序列為yi = ...yn,對(duì)應(yīng)輸入法短語(yǔ)候選集合為H, 其中概率最大的輸入法短語(yǔ)候選為= Fnh2 ...hn,。本發(fā)明對(duì)應(yīng)的對(duì)數(shù)線(xiàn)性模型為:
【權(quán)利要求】
1. 一種面向計(jì)算機(jī)輔助翻譯的輸入方法,包括w下步驟: 步驟S1 ;對(duì)源語(yǔ)言句子進(jìn)行分詞; 步驟S2 ;利用機(jī)器翻譯引擎,得到分詞后的所述源語(yǔ)言句子對(duì)應(yīng)的機(jī)器翻譯譯文候選 列表,并將其中打分最高的機(jī)器翻譯譯文候選作為最優(yōu)機(jī)器翻譯譯文輸出到輸入裝置界 面;利用所述最優(yōu)機(jī)器翻譯譯文的前N個(gè)詞生成N個(gè)多元文法提示短語(yǔ),并輸出到輸入裝置 界面,等待用戶(hù)按鍵選擇; 步驟S3 ;對(duì)用戶(hù)按鍵選擇的多元文法提示短語(yǔ)進(jìn)行響應(yīng),或者接收用戶(hù)的輸入按鍵序 列;利用對(duì)數(shù)線(xiàn)性模型,對(duì)所述機(jī)器翻譯譯文候選列表和輸入按鍵序列計(jì)算,生成M個(gè)輸入 法短語(yǔ)候選并輸出到輸入裝置界面,等待用戶(hù)按鍵選擇; 步驟S4 ;對(duì)用戶(hù)按鍵選擇的所述輸入法短語(yǔ)候選進(jìn)行響應(yīng),或者接收用戶(hù)的輸入按鍵 序列,判斷用戶(hù)是否已經(jīng)完成錄入源語(yǔ)言句子的譯文,如果是則結(jié)束,如果否則利用已錄入 譯文部分和所述機(jī)器翻譯譯文候選列表生成N個(gè)多元文法提示短語(yǔ),輸出到輸入裝置界 面,等待用戶(hù)按鍵選擇,并跳轉(zhuǎn)到步驟S3 ; 其中,N、M為正整數(shù)。
2. 根據(jù)權(quán)利要求1所述的面向計(jì)算機(jī)輔助翻譯的輸入方法,其特征在于,所述N個(gè)多元 文法提示短語(yǔ)是連續(xù)多個(gè)詞組成的提示短語(yǔ),所述提示短語(yǔ)包括:第一個(gè)提示短語(yǔ)為一元 文法,只包含一個(gè)詞;第二個(gè)提示短語(yǔ)為二元文法,包含兩個(gè)詞,所述兩個(gè)詞含有第一個(gè)提 示短語(yǔ)的詞和第二個(gè)提示詞,且第一個(gè)提示短語(yǔ)的詞是第二個(gè)提示短語(yǔ)的前綴;W此類(lèi)推, 第N-1個(gè)提示短語(yǔ)的所有詞是第N個(gè)提示短語(yǔ)的前綴,第N個(gè)提示短語(yǔ)為N元文法包含N 個(gè)詞,其中N為預(yù)先設(shè)定的大于零的正整數(shù)。
3. 根據(jù)權(quán)利要求1所述的面向計(jì)算機(jī)輔助翻譯的輸入方法,其特征在于,所述利用對(duì) 數(shù)線(xiàn)性模型,對(duì)機(jī)器翻譯譯文候選列表和輸入按鍵序列計(jì)算,生成M個(gè)輸入法短語(yǔ)候選,包 括W下步驟: 步驟S31 ;對(duì)輸入按鍵序列進(jìn)行分字,得到分字后的輸入按鍵序列;所述分字后的輸入 按鍵序列由分字符隔開(kāi)的編碼單元組成,每個(gè)編碼單元是對(duì)應(yīng)字的文字輸入法編碼的全部 或者文字輸入法編碼的前綴; 步驟S32 ;將輸入法短語(yǔ)候選列表初始化為空,對(duì)所述分字后的輸入按鍵序列中每一 個(gè)編碼單元依次進(jìn)行如下計(jì)算: 根據(jù)文字輸入法編碼規(guī)則,對(duì)所述編碼單元計(jì)算得到目標(biāo)字候選集合; 利用解碼算法對(duì)所述目標(biāo)字候選集合、輸入法短語(yǔ)候選列表和機(jī)器翻譯譯文候選列表 計(jì)算,得到新的輸入法短語(yǔ)候選列表; 利用對(duì)數(shù)線(xiàn)性模型對(duì)所述新的輸入法短語(yǔ)候選列表中的每一個(gè)輸入法短語(yǔ)候選進(jìn)行 打分并按降序排列;如果所述新的輸入法短語(yǔ)候選列表的長(zhǎng)度超過(guò)設(shè)定的闊值M時(shí),僅保 留前M個(gè)打分最高的輸入法短語(yǔ)候選;每個(gè)輸入法短語(yǔ)候選包含的目標(biāo)字候選的數(shù)目等于 已解碼的編碼單元數(shù)目,每個(gè)輸入法短語(yǔ)候選包含的目標(biāo)字有效候選的順序與已解碼的編 碼單元順序一致; 用所述新的輸入法短語(yǔ)候選列表替代所述輸入法短語(yǔ)候選列表; 步驟S33;完成所述分字后的輸入按鍵序列中所有編碼單元的計(jì)算之后,所述輸入法 短語(yǔ)候選列表的長(zhǎng)度為M,并按打分降序排列,其中M為預(yù)先設(shè)定的大于零的正整數(shù)。
4. 根據(jù)權(quán)利要求3所述的面向計(jì)算機(jī)輔助翻譯的輸入方法,其特征在于,所述對(duì)數(shù)線(xiàn) 性模型使用的特征包括: (1) 打字模型概率; (2) 語(yǔ)言模型概率; (3) 輸入法短語(yǔ)候選中的詞的出現(xiàn)概率; (4) 輸入法短語(yǔ)候選出現(xiàn)概率; (5) 輸入法短語(yǔ)候選中的詞是否在機(jī)器翻譯譯文候選中的二值特征; (6) 輸入法短語(yǔ)候選是否在機(jī)器翻譯譯文候選中的二值特征; (7) 輸入法短語(yǔ)候選是否在用戶(hù)術(shù)語(yǔ)庫(kù)中的二值特征。
5. 根據(jù)權(quán)利要求1所述的面向計(jì)算機(jī)輔助翻譯的輸入方法,其特征在于,所述利用已 錄入譯文部分和所述機(jī)器翻譯譯文候選列表生成N個(gè)多元文法提示短語(yǔ),包括W下步驟: 步驟S41 ;響應(yīng)用戶(hù)按鍵選擇多元文法提示短語(yǔ)或者輸入法短語(yǔ)候選后,對(duì)已錄入譯 文部分進(jìn)行分詞得到分詞后的已錄入譯文部分; 步驟S42 ;如果所述最優(yōu)機(jī)器翻譯譯文包含分詞后的已錄入譯文部分的最后一個(gè)詞, 則利用最大前綴匹配算法,對(duì)最優(yōu)機(jī)器翻譯譯文候選和分詞后的已錄入譯文部分計(jì)算,生 成N個(gè)多元文法提示短語(yǔ); 步驟S43 ;如果所述最優(yōu)機(jī)器翻譯譯文不包含分詞后的已錄入譯文部分的最后一個(gè) 詞,則在機(jī)器翻譯譯文候選列表中選擇所有包含分詞后的已錄入譯文部分的最后一個(gè)詞的 機(jī)器翻譯譯文候選,得到次優(yōu)機(jī)器翻譯譯文候選列表,并將其中打分最高的機(jī)器翻譯譯文 候選作為次優(yōu)機(jī)器翻譯譯文;利用前綴匹配算法,對(duì)次優(yōu)機(jī)器翻譯譯文候選和分詞后的已 錄入譯文部分計(jì)算,生成N個(gè)多元文法提示短語(yǔ)。
6. -種使用權(quán)利要求1所述的面向計(jì)算機(jī)輔助翻譯的輸入方法的面向計(jì)算機(jī)輔助翻 譯的輸入裝置,其特征在于,該裝置包括:分詞模塊、翻譯模塊、第一生成模塊、第二生成模 塊、輸入裝置界面,其中: 分詞模塊,用于將源語(yǔ)言句子和已錄入譯文部分生成并輸出分詞后的源語(yǔ)言句子和分 詞后的已錄入譯文部分; 翻譯模塊與分詞模塊連接,利用機(jī)器翻譯引擎,得到分詞后的所述源語(yǔ)言句子對(duì)應(yīng)的 機(jī)器翻譯譯文候選列表,并將其中打分最高的機(jī)器翻譯譯文候選作為最優(yōu)機(jī)器翻譯譯文輸 出到輸入裝置界面的模塊; 第一生成模塊與翻譯模塊、輸入裝置界面連接,用于對(duì)機(jī)器翻譯譯文候選列表和輸入 按鍵序列計(jì)算,利用對(duì)數(shù)線(xiàn)性模型,生成M個(gè)輸入法短語(yǔ)候選并輸出到輸入裝置界面; 第二生成模塊與翻譯模塊、輸入裝置界面連接,用于對(duì)已錄入譯文部分和機(jī)器翻譯譯 文候選列表計(jì)算,生成N個(gè)多元文法提示短語(yǔ)并輸出到輸入裝置界面; 輸入裝置界面,用于顯示最優(yōu)機(jī)器翻譯譯文、輸入法短語(yǔ)候選和多元文法提示短語(yǔ),并 接收用戶(hù)按鍵選擇命令和輸入按鍵序列,錄入源語(yǔ)言句子的譯文。
7. -種面向計(jì)算機(jī)輔助翻譯的輸入裝置,包括: 對(duì)源語(yǔ)言句子進(jìn)行分詞的裝置; 利用機(jī)器翻譯引擎,得到分詞后的所述源語(yǔ)言句子對(duì)應(yīng)的目標(biāo)語(yǔ)言機(jī)器翻譯譯文候選 列表,將其中打分最高的機(jī)器翻譯譯文候選生成短語(yǔ)候選列表,并輸出到輸入裝置界面的 裝置; 接收到用戶(hù)輸入的按鍵序列之后,利用對(duì)數(shù)線(xiàn)性模型,結(jié)合機(jī)器翻譯譯文候選列表,實(shí) 時(shí)動(dòng)態(tài)調(diào)整所述短語(yǔ)候選列表并輸出到所述輸入裝置界面的裝置; 響應(yīng)用戶(hù)按鍵選擇,直到用戶(hù)完成源語(yǔ)言句子翻譯的裝置。
8.根據(jù)權(quán)利要求7所述的面向計(jì)算機(jī)輔助翻譯的輸入裝置,所述輸入裝置還包括: 當(dāng)用戶(hù)錄入一個(gè)短語(yǔ)后結(jié)合機(jī)器翻譯候選列表得到N元文法提示的裝置;W及 在輸入法界面顯示所述N元文法提示,供用戶(hù)選擇的裝置。
【文檔編號(hào)】G06F3/023GK104462072SQ201410678005
【公開(kāi)日】2015年3月25日 申請(qǐng)日期:2014年11月21日 優(yōu)先權(quán)日:2014年11月21日
【發(fā)明者】宗成慶, 黃國(guó)平 申請(qǐng)人:中國(guó)科學(xué)院自動(dòng)化研究所