面向計(jì)算機(jī)輔助翻譯的輸入方法與裝置制造方法

文檔序號(hào)：6635441閱讀：180來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

面向計(jì)算機(jī)輔助翻譯的輸入方法與裝置制造方法
【專(zhuān)利摘要】本發(fā)明是一種面向計(jì)算機(jī)輔助翻譯的輸入方法，包括步驟S1：對(duì)源語(yǔ)言句子進(jìn)行分詞；步驟S2：獲得分詞后的源語(yǔ)言句子對(duì)應(yīng)的機(jī)器翻譯譯文候選列表和最優(yōu)機(jī)器翻譯譯義候選；獲得多元文法提示短語(yǔ)；步驟S3：響應(yīng)按鍵選擇多元文法提示短語(yǔ)或者接收輸入按鍵序列，獲得輸入法短語(yǔ)候選；步驟S4：響應(yīng)用戶(hù)按鍵選擇多元文法提示短語(yǔ)或者輸入法短語(yǔ)候選后，獲得多元文法提示短語(yǔ)，重復(fù)步驟S3，直到用戶(hù)完成錄入源語(yǔ)言句子的譯文。本發(fā)明還提供面向計(jì)算機(jī)輔助翻譯的輸入裝置，該裝置包括：分詞模塊、翻譯模塊、第一生成模塊、第二生成模塊、輸入裝置界面。本發(fā)明充分利用機(jī)器翻譯知識(shí)，能使按鍵節(jié)省率至少上升11.04％，大幅提升人工翻譯的效率。
【專(zhuān)利說(shuō)明】面向計(jì)算機(jī)輔助翻譯的輸入方法與裝置

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及自然語(yǔ)言處理【技術(shù)領(lǐng)域】，更具體地，涉及一種面向計(jì)算機(jī)輔助翻譯的輸入方法與裝置。

【背景技術(shù)】
[0002] 機(jī)器翻譯就是用計(jì)算機(jī)來(lái)實(shí)現(xiàn)不同語(yǔ)言之間的轉(zhuǎn)換。被翻譯的語(yǔ)言通常稱(chēng)為源語(yǔ) 言，翻譯成的結(jié)果語(yǔ)言稱(chēng)為目標(biāo)語(yǔ)言。機(jī)器翻譯就是實(shí)現(xiàn)從源語(yǔ)言到目標(biāo)語(yǔ)言轉(zhuǎn)換的過(guò)程。
[0003] 計(jì)算機(jī)輔助翻譯就是充分運(yùn)用大量重復(fù)或相似的句子和片斷來(lái)提高翻譯人員的工作效率。它不同于機(jī)器翻譯，不依賴(lài)于計(jì)算機(jī)的自動(dòng)翻譯，而是在人的參與下完成整個(gè)翻譯過(guò)程。計(jì)算機(jī)輔助翻譯使得繁重的手工翻譯流程自動(dòng)化，并大幅度提高了翻譯效率和翻譯質(zhì)量。
[0004] 近幾年來(lái)，許多研究者嘗試通過(guò)機(jī)器翻譯知識(shí)來(lái)進(jìn)一步提高計(jì)算機(jī)輔助翻譯的效率。目前研究的熱點(diǎn)是譯后編輯，即對(duì)機(jī)器翻譯系統(tǒng)的譯文進(jìn)行編輯操作以生成高質(zhì)量的譯文。但由于目前的機(jī)器翻譯難以產(chǎn)生讓人相對(duì)滿(mǎn)意的譯文，直接導(dǎo)致譯員沒(méi)有動(dòng)力仔細(xì) 修改機(jī)器翻譯的譯文，所以譯后編輯并未被廣泛采用。另外，有學(xué)者曾提出基于交互式機(jī)器翻譯方法的輔助翻譯（例如參見(jiàn) Sergio Barrachinaetc. ,"Statistical Approaches to Computer-Assisted Translation，'，Computational Linguistics, 35 (I), p3_28, 2009),以犧牲全自動(dòng)的翻譯要求而獲取較高質(zhì)量譯文的一種翻譯方法，基本思想就是在當(dāng)前翻譯系統(tǒng)翻譯結(jié)果上，用戶(hù)指出一些錯(cuò)誤并提供正確翻譯，然后提交給翻譯系統(tǒng)重新解碼翻譯，迭代多次后滿(mǎn)足用戶(hù)要求為止。但交互式翻譯方法嚴(yán)重干擾了人工翻譯流程，并且同樣耗時(shí) 費(fèi)力，因此這類(lèi)系統(tǒng)主要應(yīng)用在用戶(hù)對(duì)目標(biāo)語(yǔ)言的知識(shí)有限或者對(duì)目標(biāo)語(yǔ)言知之甚少的情況下。而計(jì)算機(jī)輔助翻譯的主要用戶(hù)是專(zhuān)業(yè)譯員，所以交互式翻譯方法幾乎從未被商業(yè)翻譯系統(tǒng)采用。Guy Lapalme和Philippe Langlais于1997-2005年間基于交互式翻譯框架實(shí)現(xiàn)了 TransType翻譯系統(tǒng)，在用戶(hù)輸入過(guò)程中實(shí)時(shí)給出后續(xù)翻譯的提示。但這要求譯員必須從左至右開(kāi)始翻譯，機(jī)器翻譯根據(jù)已經(jīng)輸入的部分更新翻譯結(jié)果以給出盡可能準(zhǔn)確的提示。升級(jí)后的TransTypd實(shí)現(xiàn)了三種語(yǔ)言對(duì)的翻譯，即英語(yǔ)一西班牙語(yǔ)、英語(yǔ)一法語(yǔ)、英語(yǔ)一德語(yǔ)，但因難于結(jié)合人工翻譯的流程，TransTypd這種交互方式并沒(méi)有被其他系統(tǒng)采用。因此，研究如何結(jié)合機(jī)器翻譯知識(shí)以進(jìn)一步提高翻譯效率和翻譯質(zhì)量是迫切需要解決的一個(gè)難題。

【發(fā)明內(nèi)容】

[0005] 針對(duì)上述技術(shù)問(wèn)題，本發(fā)明的主要目的在于提出一種面向計(jì)算機(jī)輔助翻譯的輸入方法與裝置，以在輸入過(guò)程中能夠充分利用機(jī)器翻譯知識(shí)來(lái)提高翻譯效率和翻譯質(zhì)量。
[0006] 為了實(shí)現(xiàn)所述目的，作為本發(fā)明的一個(gè)方面，本發(fā)明提供了一種面向計(jì)算機(jī)輔助翻譯的輸入方法，包括如下步驟：
[0007] 步驟Sl :對(duì)源語(yǔ)言句子進(jìn)行分詞；
[0008] 步驟S2 :利用機(jī)器翻譯引擎，得到分詞后的所述源語(yǔ)言句子對(duì)應(yīng)的機(jī)器翻譯譯文候選列表，并將其中打分最高的機(jī)器翻譯譯文候選作為最優(yōu)機(jī)器翻譯譯文輸出到輸入裝置界面；利用所述最優(yōu)機(jī)器翻譯譯文的前N個(gè)詞生成N個(gè)多元文法提示短語(yǔ)，并輸出到輸入裝置界面，等待用戶(hù)按鍵選擇；
[0009] 步驟S3 :對(duì)用戶(hù)按鍵選擇的多元文法提示短語(yǔ)進(jìn)行響應(yīng)，或者接收用戶(hù)的輸入按鍵序列；利用對(duì)數(shù)線(xiàn)性模型，對(duì)所述機(jī)器翻譯譯文候選列表和輸入按鍵序列計(jì)算，生成M個(gè) 輸入法短語(yǔ)候選并輸出到輸入裝置界面，等待用戶(hù)按鍵選擇；
[0010] 步驟S4 :對(duì)用戶(hù)按鍵選擇的所述輸入法短語(yǔ)候選進(jìn)行響應(yīng)，或者接收用戶(hù)的輸入按鍵序列，判斷用戶(hù)是否已經(jīng)完成錄入源語(yǔ)言句子的譯文，如果是則結(jié)束，如果否則利用已錄入譯文部分和所述機(jī)器翻譯譯文候選列表生成N個(gè)多元文法提示短語(yǔ)，輸出到輸入裝置界面，等待用戶(hù)按鍵選擇，并跳轉(zhuǎn)到步驟S3 ;
[0011] 其中，N、M為正整數(shù)。
[0012] 其中，所述多元文法提示短語(yǔ)包括：第一個(gè)提示短語(yǔ)為一元文法，只包含一個(gè)詞；第二個(gè)提示短語(yǔ)為二元文法，包含兩個(gè)詞，所述兩個(gè)詞含有第一個(gè)提示短語(yǔ)的詞和第二個(gè) 提示詞，且第一個(gè)提示短語(yǔ)的詞是第二個(gè)提示短語(yǔ)的前綴；以此類(lèi)推，第N-I個(gè)提示短語(yǔ)的所有詞是第N個(gè)提示短語(yǔ)的前綴，第N個(gè)提示短語(yǔ)為N元文法包含N個(gè)詞，其中N為預(yù)先設(shè) 定的大于零的正整數(shù)，缺省值為4。
[0013] 在步驟S3中還包括下列步驟：
[0014] 步驟S31 :對(duì)輸入按鍵序列進(jìn)行分字，得到分字后的輸入按鍵序列；所述分字后的輸入按鍵序列由分字符隔開(kāi)的編碼單元組成，每個(gè)編碼單元是對(duì)應(yīng)字的文字輸入法編碼的全部或者文字輸入法編碼的前綴；
[0015] 步驟S32 :將輸入法短語(yǔ)候選列表初始化為空，對(duì)所述分字后的輸入按鍵序列中每一個(gè)編碼單元依次進(jìn)行如下計(jì)算：
[0016] 根據(jù)文字輸入法編碼規(guī)則，對(duì)所述編碼單元計(jì)算得到目標(biāo)字候選集合；
[0017] 利用解碼算法對(duì)所述目標(biāo)字候選集合、輸入法短語(yǔ)候選列表和機(jī)器翻譯譯文候選列表計(jì)算，得到新的輸入法短語(yǔ)候選列表；
[0018] 利用對(duì)數(shù)線(xiàn)性模型對(duì)所述新的輸入法短語(yǔ)候選列表中的每一個(gè)輸入法短語(yǔ)候選進(jìn)行打分并按降序排列；如果所述新的輸入法短語(yǔ)候選列表的長(zhǎng)度超過(guò)設(shè)定的閾值M時(shí)，僅保留前M個(gè)打分最高的輸入法短語(yǔ)候選；每個(gè)輸入法短語(yǔ)候選包含的目標(biāo)字候選的數(shù)目等于已解碼的編碼單元數(shù)目，每個(gè)輸入法短語(yǔ)候選包含的目標(biāo)字有效候選的順序與已解碼的編碼單元順序一致；
[0019] 用所述新的輸入法短語(yǔ)候選列表替代所述輸入法短語(yǔ)候選列表。
[0020] 其中，所述對(duì)數(shù)線(xiàn)性模型使用的特征包括：
[0021] (1)打字模型概率；
[0022] (2)語(yǔ)言模型概率；
[0023] (3)輸入法短語(yǔ)候選中的詞的出現(xiàn)概率；
[0024] (4)輸入法短語(yǔ)候選出現(xiàn)概率；
[0025] (5)輸入法短語(yǔ)候選中的詞是否在機(jī)器翻譯譯文候選中的二值特征；
[0026] (6)輸入法短語(yǔ)候選是否在機(jī)器翻譯譯文候選中的二值特征；
[0027] (7)輸入法短語(yǔ)候選是否在用戶(hù)術(shù)語(yǔ)庫(kù)中的二值特征。
[0028] 步驟S33 :完成所述分字后的輸入按鍵序列中所有編碼單元的計(jì)算之后，所述輸入法短語(yǔ)候選列表的長(zhǎng)度為M，并按打分降序排列，其中M為預(yù)先設(shè)定的大于零的正整數(shù)，缺省值為5。
[0029] 在步驟S4中還包括下列步驟：
[0030] 步驟S41 :響應(yīng)用戶(hù)按鍵選擇多元文法提示短語(yǔ)或者輸入法短語(yǔ)候選后，對(duì)已錄入譯文部分進(jìn)行分詞得到分詞后的已錄入譯文部分；
[0031] 步驟S42 :如果所述最優(yōu)機(jī)器翻譯譯文包含分詞后的已錄入譯文部分的最后一個(gè) 詞，則利用最大前綴匹配算法，對(duì)最優(yōu)機(jī)器翻譯譯文候選和分詞后的已錄入譯文部分計(jì)算，生成N個(gè)多元文法提示短語(yǔ)；
[0032] 步驟S43 :如果所述最優(yōu)機(jī)器翻譯譯文不包含分詞后的已錄入譯文部分的最后一個(gè)詞，則在機(jī)器翻譯譯文候選列表中選擇所有包含分詞后的已錄入譯文部分的最后一個(gè)詞的機(jī)器翻譯譯文候選，得到次優(yōu)機(jī)器翻譯譯文候選列表，并將其中打分最高的機(jī)器翻譯譯文候選作為次優(yōu)機(jī)器翻譯譯文；利用前綴匹配算法，對(duì)次優(yōu)機(jī)器翻譯譯文候選和分詞后的已錄入譯文部分計(jì)算，生成N個(gè)多元文法提示短語(yǔ)。
[0033] 作為本發(fā)明的另一個(gè)方面，本發(fā)明還提出了一種面向計(jì)算機(jī)輔助翻譯的輸入裝置，該裝置包括：分詞模塊、翻譯模塊、第一生成模塊、第二生成模塊、輸入裝置界面，其中： [0034] 分詞模塊，用于將源語(yǔ)言句子和已錄入譯文部分生成并輸出分詞后的源語(yǔ)言句子和分詞后的已錄入譯文部分；
[0035] 翻譯模塊與分詞模塊連接，利用機(jī)器翻譯引擎，得到分詞后的所述源語(yǔ)言句子對(duì) 應(yīng)的機(jī)器翻譯譯文候選列表，并將其中打分最高的機(jī)器翻譯譯文候選作為最優(yōu)機(jī)器翻譯譯文輸出到輸入裝置界面的模塊；
[0036] 第一生成模塊與翻譯模塊、輸入裝置界面連接，用于對(duì)機(jī)器翻譯譯文候選列表和輸入按鍵序列計(jì)算，利用對(duì)數(shù)線(xiàn)性模型，生成M個(gè)輸入法短語(yǔ)候選并輸出到輸入裝置界面；
[0037] 第二生成模塊與翻譯模塊、輸入裝置界面連接，用于對(duì)已錄入譯文部分和機(jī)器翻譯譯文候選列表計(jì)算，生成N個(gè)多元文法提示短語(yǔ)并輸出到輸入裝置界面；
[0038] 輸入裝置界面，用于顯示最優(yōu)機(jī)器翻譯譯文、輸入法短語(yǔ)候選和多元文法提示短語(yǔ)，并接收用戶(hù)按鍵選擇命令和輸入按鍵序列，錄入源語(yǔ)言句子的譯文。
[0039] 作為本發(fā)明的再一個(gè)方面，本發(fā)明還提出了一種面向計(jì)算機(jī)輔助翻譯的輸入裝置，包括：
[0040] 對(duì)源語(yǔ)言句子進(jìn)行分詞的裝置；
[0041] 利用機(jī)器翻譯引擎，得到分詞后的所述源語(yǔ)言句子對(duì)應(yīng)的目標(biāo)語(yǔ)言機(jī)器翻譯譯文候選列表，將其中打分最高的機(jī)器翻譯譯文候選生成短語(yǔ)候選列表，并輸出到輸入裝置界面的裝置；
[0042] 接收到用戶(hù)輸入的按鍵序列之后，利用對(duì)數(shù)線(xiàn)性模型，結(jié)合機(jī)器翻譯譯文候選列表，實(shí)時(shí)動(dòng)態(tài)調(diào)整所述短語(yǔ)候選列表并輸出到所述輸入裝置界面的裝置；
[0043] 響應(yīng)用戶(hù)按鍵選擇，直到用戶(hù)完成源語(yǔ)言句子翻譯的裝置。
[0044] 其中，所述輸入裝置還包括：
[0045] 當(dāng)用戶(hù)錄入一個(gè)短語(yǔ)后結(jié)合機(jī)器翻譯候選列表得到N元文法提示的裝置；以及
[0046] 在輸入法界面顯示所述N元文法提示，供用戶(hù)選擇的裝置。
[0047] 通過(guò)上述技術(shù)方案可知，本發(fā)明的方法和裝置具有如下的積極效果：
[0048] (1)由于輸入法直接影響到翻譯效率，將機(jī)器翻譯知識(shí)和面向計(jì)算機(jī)輔助翻譯的輸入方法融入到文字輸入法中，能夠順利突破現(xiàn)有交互方式（如譯后編輯、交互式機(jī)器翻譯）的局限性，從而在不影響用戶(hù)體驗(yàn)的前提下，更快捷的輸入方法必能進(jìn)一步提高譯員的翻譯效率和翻譯質(zhì)量；
[0049] (2)本發(fā)明能夠有效利用機(jī)器翻譯知識(shí)，在使用含有機(jī)器翻譯的計(jì)算機(jī)輔助翻譯工具過(guò)程中，在不干擾正常翻譯流程的前提下，自動(dòng)有效減少敲鍵數(shù)。通過(guò)英中政治新聞翻譯實(shí)驗(yàn)，結(jié)果表明，相對(duì)于谷歌拼音輸入法，單就容易量化的敲鍵數(shù)這一指標(biāo)，本發(fā)明至少使按鍵節(jié)省率上升了 11. 04%，相當(dāng)于工作效率至少提高了 11.04%。如果將機(jī)器翻譯譯文幫助譯員更快的組織最終譯文的作用計(jì)算在內(nèi)，效率提升則更為明顯。

【專(zhuān)利附圖】

【附圖說(shuō)明】
[0050] 圖1是本發(fā)明的面向計(jì)算機(jī)輔助翻譯的輸入方法和裝置的整體框架圖；
[0051] 圖2是本發(fā)明的面向計(jì)算機(jī)輔助翻譯的輸入方法和裝置細(xì)化后的整體框架圖；
[0052] 圖3是本發(fā)明方法和裝置嵌入到計(jì)算機(jī)輔助翻譯平臺(tái)后的示意圖；
[0053] 圖4是禁用多元文法提示短語(yǔ)與啟用多元文法提示短語(yǔ)兩種情況的輸入按鍵序列對(duì)比示意圖；
[0054] 圖5是本發(fā)明結(jié)合機(jī)器翻譯知識(shí)后對(duì)輸入按鍵序列解碼的一個(gè)實(shí)例；

【具體實(shí)施方式】
[0055] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白，以下結(jié)合具體實(shí)施例，并參照附圖，對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說(shuō)明。
[0056] 本發(fā)明所有代碼實(shí)現(xiàn)都是用Java和Apache Flex編程語(yǔ)目完成，后臺(tái)為Java編程語(yǔ)言，容器為T(mén)omcat,輸入法前臺(tái)用Apache Flex編程語(yǔ)言完成，開(kāi)發(fā)平臺(tái)為Ubuntu 12. 04 和Windows 7,但不限于此，這些并不是對(duì)本發(fā)明的限制；由于所寫(xiě)程序沒(méi)有用到任何平臺(tái) 相關(guān)的代碼，因此所述的系統(tǒng)實(shí)現(xiàn)也可以運(yùn)行于其他版本的操作系統(tǒng)上。本輸入方法為面向計(jì)算機(jī)輔助翻譯，與文字輸入法融合的輸入方法、非通用文字輸入法。具體的計(jì)算機(jī)輔助翻譯軟件、機(jī)器翻譯引擎、文字輸入法均不受限。所述文字輸入法可以是五筆輸入法、拼音輸入法等各種文字輸入法。
[0057] 本發(fā)明的基本思想是恰當(dāng)?shù)乩脵C(jī)器翻譯知識(shí)，提出一種面向計(jì)算機(jī)輔助翻譯的輸入方法，以提高譯員的翻譯質(zhì)量和翻譯效率。本發(fā)明的系統(tǒng)框架圖如圖1所示。圖1中：分詞模塊接收源語(yǔ)言句子，輸出分詞后的源語(yǔ)言句子到翻譯模塊；分詞模塊接收人工譯文已錄入部分，輸出分詞后的人工譯文已錄入部分到第二生成模塊；翻譯模塊與分詞模塊、第二生成模塊連接，輸出分詞后的源語(yǔ)言句子對(duì)應(yīng)的機(jī)器翻譯譯文候選列表到第一生成模塊；第一生成模塊與翻譯模塊、輸入裝置界面連接，接收用戶(hù)的輸入按鍵序列、機(jī)器翻譯譯文候選列表，生成并輸出輸入法短語(yǔ)候選到輸入裝置界面；第二生成模塊與分詞模塊、翻譯模塊連接，接收分詞后的人工譯文已錄入部分和機(jī)器翻譯譯文候選列表，生成并輸出多元文法提示短語(yǔ)到輸入裝置界面；輸入裝置界面直接與用戶(hù)交互，用于顯示最優(yōu)機(jī)器翻譯譯文、輸入法短語(yǔ)候選和多元文法提示短語(yǔ)，并接收用戶(hù)按鍵選擇命令和輸入按鍵序列，錄入源語(yǔ)言句子的譯文。
[0058] 圖3給出了本發(fā)明的一個(gè)實(shí)例（假定文字輸入法為拼音輸入法）嵌入計(jì)算機(jī)輔助軟件后的示意圖。圖3主要分為A、B左右兩塊區(qū)域。A區(qū)域?yàn)闄C(jī)器翻譯譯文候選列表供用戶(hù)參考，用戶(hù)可以設(shè)置顯示機(jī)器翻譯譯文候選的個(gè)數(shù)。B區(qū)域?yàn)楸景l(fā)明主要作用區(qū)域。當(dāng)用戶(hù)剛開(kāi)始錄入譯文或者有多元文法提示短語(yǔ)可用時(shí)，用戶(hù)可以通過(guò)回車(chē)鍵或者數(shù)字鍵5到 8選擇對(duì)應(yīng)的提示，如區(qū)域Bl所示。在區(qū)域B2中，當(dāng)沒(méi)有多元文法提示短語(yǔ)可用時(shí)，機(jī)器翻譯仍然能通過(guò)本發(fā)明幫助用戶(hù)提高效率：優(yōu)先將機(jī)器翻譯譯文候選列表中的詞賦予較高的分值，如"fl"對(duì)應(yīng)的"福利"直接排首位，避免了選詞的麻煩。因此，本發(fā)明不僅可以顯式地通過(guò)多元文法提示短語(yǔ)加快翻譯效率，還可以隱式地通過(guò)實(shí)時(shí)調(diào)整輸入法候選短語(yǔ)的排列順序來(lái)加快翻譯效率。與其他機(jī)器翻譯交互方法不同的是，如果把A區(qū)域的機(jī)器翻譯設(shè)置為不可見(jiàn)狀態(tài)，即用戶(hù)完全不用理會(huì)機(jī)器翻譯結(jié)果，本發(fā)明依然能幫助用戶(hù)提高翻譯效率。
[0059] 本發(fā)明提出了一種面向計(jì)算機(jī)輔助翻譯的輸入方法。下面我們以拼音輸入法替代所述文字輸入法，以英語(yǔ)到漢語(yǔ)翻譯任務(wù)作為實(shí)施例，并結(jié)合如下示例來(lái)詳細(xì)闡述本發(fā)明的原理與實(shí)現(xiàn)方法。
[0060] 假設(shè)源語(yǔ)言句子S :
[0061] China mulls change to officials' welfare system
[0062] 機(jī)器翻譯譯文候選之一 MT :
[0063] 中國(guó)考慮改變才能官員福利制度
[0064] 對(duì)應(yīng)的人工譯文HT :
[0065] 中國(guó)考慮改革公務(wù)員福利制度
[0066] 1、對(duì)源語(yǔ)言句子和已錄入譯文部分進(jìn)行分詞?！揪唧w實(shí)施方式】如下：
[0067] 在本例中，對(duì)英語(yǔ)和漢語(yǔ)進(jìn)行分詞的方法有很多種。在本發(fā)明的實(shí)施例中我們以開(kāi)源的分詞工具Urheen對(duì)英語(yǔ)和漢語(yǔ)進(jìn)行分詞。所述Urheen也可以對(duì)其它語(yǔ)言進(jìn)行分詞，如日語(yǔ)等，可以在以下網(wǎng)址免費(fèi)下載：
[0068] http ：//www.openpr.org.cn/index. php/zh/NLP-Toolkit-For-Natural-Langua ge-Processing/68-Urheen-A-Chinese/English-Lexical-Analysis-Toolkit/View-d etails. html
[0069] 在示例中，機(jī)器翻譯譯文候選和人工譯文均已自動(dòng)分詞，并用空格隔開(kāi)相鄰詞。
[0070] 2、利用機(jī)器翻譯引擎，得到分詞后的所述源語(yǔ)言句子對(duì)應(yīng)的機(jī)器翻譯譯文候選列表，并將其中打分最高的機(jī)器翻譯譯文候選作為最優(yōu)機(jī)器翻譯譯文輸出到輸入裝置界面；利用所述最優(yōu)機(jī)器翻譯譯文的前N個(gè)詞生成N個(gè)多元文法提示短語(yǔ)，并輸出到輸入裝置界面，等待用戶(hù)按鍵選擇。
[0071] (1)得到機(jī)器翻譯譯文候選列表。
[0072] 從所述步驟1得到分詞后的源語(yǔ)言句子之后，就可以通過(guò)機(jī)器翻譯引擎得到機(jī)器翻譯譯文候選列表，即n-best列表。將n-best列表中打分最高的機(jī)器翻譯譯文候選作為最優(yōu)機(jī)器翻譯譯文并輸出到輸入裝置界面，供用戶(hù)參考，等待用戶(hù)錄入人工翻譯譯文。這里的機(jī)器翻譯引擎可以是任何翻譯引擎，如著名的開(kāi)源翻譯引擎Moses，可以在以下網(wǎng)址免費(fèi) 下載：
[0073] http ：//www. statmt. org/moses/ ? n = Moses. Releases
[0074] 所述Moses擁有比較完善的文檔，根據(jù)這些文檔可以輕松地部署翻譯服務(wù)器。
[0075] (2)利用所述最優(yōu)機(jī)器翻譯譯文的前N個(gè)詞生成N個(gè)多元文法提示短語(yǔ)。
[0076] 所述N個(gè)多元文法提示短語(yǔ)由連續(xù)多個(gè)詞組成，所述多元文法提示短語(yǔ)包括：第一個(gè)提示短語(yǔ)為一元文法，只包含一個(gè)詞；第二個(gè)提示短語(yǔ)為二元文法，包含兩個(gè)詞，所述兩個(gè)詞含有第一個(gè)提示短語(yǔ)的詞和第二個(gè)提示詞，且第一個(gè)提示短語(yǔ)是第二個(gè)提示短語(yǔ)的前綴；以此類(lèi)推，第N-I個(gè)提示短語(yǔ)的所有詞是第N個(gè)提示短語(yǔ)的前綴，第N個(gè)提示短語(yǔ)為N 元文法包含N個(gè)詞，其中N為預(yù)先設(shè)定的大于零的正整數(shù)。實(shí)施例中N的缺省值為4,可自定義。示例中，利用所述最優(yōu)機(jī)器翻譯譯文的前N個(gè)詞生成4個(gè)多元文法提示短語(yǔ)為："中國(guó)"、"中國(guó)考慮"、"中國(guó)考慮改變"、"中國(guó)考慮改變才能"。將所述4個(gè)多元文法提示短語(yǔ)輸出到輸入裝置界面后，4個(gè)多元文法提示短語(yǔ)及其序號(hào)為：5.中國(guó)、6.中國(guó)考慮、7.中國(guó)考慮改變、8.中國(guó)考慮改變才能。用戶(hù)可以通過(guò)與序號(hào)對(duì)應(yīng)的數(shù)字鍵按鍵選擇相應(yīng)的多元文法提示短語(yǔ)，如按數(shù)字鍵"6"選擇"中國(guó)考慮"。
[0077] 3、響應(yīng)用戶(hù)按鍵選擇對(duì)應(yīng)的多元文法提示短語(yǔ)，或者接收用戶(hù)的輸入按鍵序列；利用對(duì)數(shù)線(xiàn)性模型，對(duì)所述機(jī)器翻譯譯文候選列表和輸入按鍵序列計(jì)算，生成M個(gè)輸入法短語(yǔ)候選并輸出到輸入裝置界面，等待用戶(hù)按鍵選擇。
[0078] 在本例中，由于所用文字輸入法為拼音輸入法，則所述輸入按鍵序列指用戶(hù)輸入的文字輸入法編碼即漢語(yǔ)拼音串，如"中國(guó)考慮"對(duì)應(yīng)的"zhongguokaolv"。
[0079] 步驟S31 :對(duì)輸入按鍵序列進(jìn)行分字，得到分字后的輸入按鍵序列；所述分字后的輸入按鍵序列由分字符隔開(kāi)的編碼單元組成，每個(gè)編碼單元是對(duì)應(yīng)字的文字輸入法編碼的全部或者文字輸入法編碼的前綴。
[0080] 把拼音字符串按漢字字符，以" "為分字符切開(kāi)。如把拼音串"zhongguokaolv" 切成"叾1101^'8110'1?10'1￥"，把拼音串"281^1"切成"2'8'1^1"。分字算法采用基于1：1^6樹(shù) 的最大前綴匹配算法（詳細(xì)描述見(jiàn)文獻(xiàn)D.E.Knuth，"The art of Computer Programming"， vol. I, pp.295-304 "'Sorting and Searching"，F(xiàn)undamental Algorithms, vol.Ill, pp. 481-505, Addison-Wesley Reading Mass,1973)。
[0081] 步驟S32 :將輸入法短語(yǔ)候選列表初始化為空，對(duì)所述分字后的輸入按鍵序列中每一個(gè)編碼單元依次進(jìn)行如下計(jì)算：
[0082] 步驟S321 :根據(jù)文字輸入法編碼規(guī)則，對(duì)所述編碼單元計(jì)算得到目標(biāo)字候選集合。如拼音串"z'g'k'l"中，"z"對(duì)應(yīng)漢字即目標(biāo)字候選集合"在、這、再、中、著、最、做、字、早、造、者……"，"g"對(duì)應(yīng)目標(biāo)字候選集合"過(guò)、該、給、個(gè)、更、高、跟、剛、各、干、國(guó)……"，"k" 對(duì)應(yīng)目標(biāo)字候選集合"可、看、快、開(kāi)、卡、考、空、快、客……"，"1"對(duì)應(yīng)目標(biāo)字候選集合"來(lái)、了、李、里、老、慮、啦、路、類(lèi)、林……"。
[0083] 步驟S322 :利用解碼算法對(duì)所述目標(biāo)字候選集合、輸入法短語(yǔ)候選列表和機(jī)器翻譯譯文候選列表計(jì)算，得到新的輸入法短語(yǔ)候選列表。
[0084] 對(duì)于本實(shí)施例而言，解碼是指將分字后的輸入按鍵序列（如"中國(guó)考慮"對(duì)應(yīng)的 "zhong'guo'kao'lv"）轉(zhuǎn)換成對(duì)應(yīng)的輸入法短語(yǔ)候選的過(guò)程。這里的輸入按鍵序列可以是全拼，也可以是簡(jiǎn)拼或者雙拼。本發(fā)明的目的之一是將"zhong' guo' kao' lv"這種比較長(zhǎng)的按鍵序列盡可能縮至最短的"z' g'k' 1"，這是提交本專(zhuān)利時(shí)文字輸入法無(wú)法做到的。
[0085] 由于每個(gè)編碼單元的目標(biāo)字候選集合搜索空間非常大，各編碼單元組合之后的輸入法短語(yǔ)候選數(shù)目呈指數(shù)級(jí)上升，需要利用解碼算法（如柱搜索解碼算法，詳細(xì)描述見(jiàn)文獻(xiàn) Och，F(xiàn)ranz Josef, Nicola Ueffing, and Hermann Ney，"An EfficientA^Search Algorithm for Statistical Machine Translation"，vol. I, pp. 295-304 "'Sorting and Searching，'，Proceedings ofthe workshop on Data-driven methods in machine transIation-Volume 14. Association for Computational Linguistics, 2001)來(lái)快速搜索各個(gè)編碼單元的目標(biāo)字候選集合并擴(kuò)展輸入法短語(yǔ)候選。
[0086] 步驟S323 :利用對(duì)數(shù)線(xiàn)性模型對(duì)所述新的輸入法短語(yǔ)候選列表中的每一個(gè)輸入法短語(yǔ)候選進(jìn)行打分并按降序排列；如果所述新的輸入法短語(yǔ)候選列表的長(zhǎng)度超過(guò)設(shè)定的閾值M時(shí)，僅保留前M個(gè)打分最高的輸入法短語(yǔ)候選；每個(gè)輸入法短語(yǔ)候選包含的目標(biāo)字候選的數(shù)目等于已解碼的編碼單元數(shù)目，每個(gè)輸入法短語(yǔ)候選包含的目標(biāo)字有效候選的順序與已解碼的編碼單元順序一致。
[0087] 在用解碼算法快速搜索各個(gè)編碼單元的目標(biāo)字候選集合并擴(kuò)展輸入法短語(yǔ)候選過(guò)程中，由于輸入法短語(yǔ)候選列表的長(zhǎng)度呈指數(shù)級(jí)上升，因此有必要對(duì)其剪枝，以將其長(zhǎng)度限制在一定范圍以?xún)?nèi)。剪枝過(guò)程中，利用對(duì)數(shù)線(xiàn)性模型（詳細(xì)描述見(jiàn)文獻(xiàn)Knoke，David，and Peter J. Burke，eds，"Log_linear Models"，vol. 20, Sage，1980)對(duì)所述新的輸入法短語(yǔ)候選列表中的每一個(gè)輸入法短語(yǔ)候選進(jìn)行打分并按降序排列。用所述新的輸入法短語(yǔ)候選列表替代所述輸入法短語(yǔ)候選列表。
[0088] 假設(shè)分字后的輸入按鍵序列為yi = ...yn，對(duì)應(yīng)輸入法短語(yǔ)候選集合為H，其中概率最大的輸入法短語(yǔ)候選為= Fnh2 ...hn,。本發(fā)明對(duì)應(yīng)的對(duì)數(shù)線(xiàn)性模型為：

【權(quán)利要求】
1. 一種面向計(jì)算機(jī)輔助翻譯的輸入方法，包括w下步驟：步驟S1 ;對(duì)源語(yǔ)言句子進(jìn)行分詞；步驟S2 ;利用機(jī)器翻譯引擎，得到分詞后的所述源語(yǔ)言句子對(duì)應(yīng)的機(jī)器翻譯譯文候選列表，并將其中打分最高的機(jī)器翻譯譯文候選作為最優(yōu)機(jī)器翻譯譯文輸出到輸入裝置界面；利用所述最優(yōu)機(jī)器翻譯譯文的前N個(gè)詞生成N個(gè)多元文法提示短語(yǔ)，并輸出到輸入裝置界面，等待用戶(hù)按鍵選擇；步驟S3 ;對(duì)用戶(hù)按鍵選擇的多元文法提示短語(yǔ)進(jìn)行響應(yīng)，或者接收用戶(hù)的輸入按鍵序列；利用對(duì)數(shù)線(xiàn)性模型，對(duì)所述機(jī)器翻譯譯文候選列表和輸入按鍵序列計(jì)算，生成M個(gè)輸入法短語(yǔ)候選并輸出到輸入裝置界面，等待用戶(hù)按鍵選擇；步驟S4 ;對(duì)用戶(hù)按鍵選擇的所述輸入法短語(yǔ)候選進(jìn)行響應(yīng)，或者接收用戶(hù)的輸入按鍵序列，判斷用戶(hù)是否已經(jīng)完成錄入源語(yǔ)言句子的譯文，如果是則結(jié)束，如果否則利用已錄入譯文部分和所述機(jī)器翻譯譯文候選列表生成N個(gè)多元文法提示短語(yǔ)，輸出到輸入裝置界面，等待用戶(hù)按鍵選擇，并跳轉(zhuǎn)到步驟S3 ; 其中，N、M為正整數(shù)。
2. 根據(jù)權(quán)利要求1所述的面向計(jì)算機(jī)輔助翻譯的輸入方法，其特征在于，所述N個(gè)多元文法提示短語(yǔ)是連續(xù)多個(gè)詞組成的提示短語(yǔ)，所述提示短語(yǔ)包括：第一個(gè)提示短語(yǔ)為一元文法，只包含一個(gè)詞；第二個(gè)提示短語(yǔ)為二元文法，包含兩個(gè)詞，所述兩個(gè)詞含有第一個(gè)提示短語(yǔ)的詞和第二個(gè)提示詞，且第一個(gè)提示短語(yǔ)的詞是第二個(gè)提示短語(yǔ)的前綴；W此類(lèi)推，第N-1個(gè)提示短語(yǔ)的所有詞是第N個(gè)提示短語(yǔ)的前綴，第N個(gè)提示短語(yǔ)為N元文法包含N 個(gè)詞，其中N為預(yù)先設(shè)定的大于零的正整數(shù)。
3. 根據(jù)權(quán)利要求1所述的面向計(jì)算機(jī)輔助翻譯的輸入方法，其特征在于，所述利用對(duì) 數(shù)線(xiàn)性模型，對(duì)機(jī)器翻譯譯文候選列表和輸入按鍵序列計(jì)算，生成M個(gè)輸入法短語(yǔ)候選，包括W下步驟：步驟S31 ;對(duì)輸入按鍵序列進(jìn)行分字，得到分字后的輸入按鍵序列；所述分字后的輸入按鍵序列由分字符隔開(kāi)的編碼單元組成，每個(gè)編碼單元是對(duì)應(yīng)字的文字輸入法編碼的全部或者文字輸入法編碼的前綴；步驟S32 ;將輸入法短語(yǔ)候選列表初始化為空，對(duì)所述分字后的輸入按鍵序列中每一個(gè)編碼單元依次進(jìn)行如下計(jì)算：根據(jù)文字輸入法編碼規(guī)則，對(duì)所述編碼單元計(jì)算得到目標(biāo)字候選集合；利用解碼算法對(duì)所述目標(biāo)字候選集合、輸入法短語(yǔ)候選列表和機(jī)器翻譯譯文候選列表計(jì)算，得到新的輸入法短語(yǔ)候選列表；利用對(duì)數(shù)線(xiàn)性模型對(duì)所述新的輸入法短語(yǔ)候選列表中的每一個(gè)輸入法短語(yǔ)候選進(jìn)行打分并按降序排列；如果所述新的輸入法短語(yǔ)候選列表的長(zhǎng)度超過(guò)設(shè)定的闊值M時(shí)，僅保留前M個(gè)打分最高的輸入法短語(yǔ)候選；每個(gè)輸入法短語(yǔ)候選包含的目標(biāo)字候選的數(shù)目等于已解碼的編碼單元數(shù)目，每個(gè)輸入法短語(yǔ)候選包含的目標(biāo)字有效候選的順序與已解碼的編碼單元順序一致；用所述新的輸入法短語(yǔ)候選列表替代所述輸入法短語(yǔ)候選列表；步驟S33;完成所述分字后的輸入按鍵序列中所有編碼單元的計(jì)算之后，所述輸入法短語(yǔ)候選列表的長(zhǎng)度為M，并按打分降序排列，其中M為預(yù)先設(shè)定的大于零的正整數(shù)。
4. 根據(jù)權(quán)利要求3所述的面向計(jì)算機(jī)輔助翻譯的輸入方法，其特征在于，所述對(duì)數(shù)線(xiàn) 性模型使用的特征包括： (1) 打字模型概率； (2) 語(yǔ)言模型概率； (3) 輸入法短語(yǔ)候選中的詞的出現(xiàn)概率； (4) 輸入法短語(yǔ)候選出現(xiàn)概率； (5) 輸入法短語(yǔ)候選中的詞是否在機(jī)器翻譯譯文候選中的二值特征； (6) 輸入法短語(yǔ)候選是否在機(jī)器翻譯譯文候選中的二值特征； (7) 輸入法短語(yǔ)候選是否在用戶(hù)術(shù)語(yǔ)庫(kù)中的二值特征。
5. 根據(jù)權(quán)利要求1所述的面向計(jì)算機(jī)輔助翻譯的輸入方法，其特征在于，所述利用已錄入譯文部分和所述機(jī)器翻譯譯文候選列表生成N個(gè)多元文法提示短語(yǔ)，包括W下步驟：步驟S41 ;響應(yīng)用戶(hù)按鍵選擇多元文法提示短語(yǔ)或者輸入法短語(yǔ)候選后，對(duì)已錄入譯文部分進(jìn)行分詞得到分詞后的已錄入譯文部分；步驟S42 ;如果所述最優(yōu)機(jī)器翻譯譯文包含分詞后的已錄入譯文部分的最后一個(gè)詞，則利用最大前綴匹配算法，對(duì)最優(yōu)機(jī)器翻譯譯文候選和分詞后的已錄入譯文部分計(jì)算，生成N個(gè)多元文法提示短語(yǔ)；步驟S43 ;如果所述最優(yōu)機(jī)器翻譯譯文不包含分詞后的已錄入譯文部分的最后一個(gè) 詞，則在機(jī)器翻譯譯文候選列表中選擇所有包含分詞后的已錄入譯文部分的最后一個(gè)詞的機(jī)器翻譯譯文候選，得到次優(yōu)機(jī)器翻譯譯文候選列表，并將其中打分最高的機(jī)器翻譯譯文候選作為次優(yōu)機(jī)器翻譯譯文；利用前綴匹配算法，對(duì)次優(yōu)機(jī)器翻譯譯文候選和分詞后的已錄入譯文部分計(jì)算，生成N個(gè)多元文法提示短語(yǔ)。
6. -種使用權(quán)利要求1所述的面向計(jì)算機(jī)輔助翻譯的輸入方法的面向計(jì)算機(jī)輔助翻譯的輸入裝置，其特征在于，該裝置包括：分詞模塊、翻譯模塊、第一生成模塊、第二生成模塊、輸入裝置界面，其中：分詞模塊，用于將源語(yǔ)言句子和已錄入譯文部分生成并輸出分詞后的源語(yǔ)言句子和分詞后的已錄入譯文部分；翻譯模塊與分詞模塊連接，利用機(jī)器翻譯引擎，得到分詞后的所述源語(yǔ)言句子對(duì)應(yīng)的機(jī)器翻譯譯文候選列表，并將其中打分最高的機(jī)器翻譯譯文候選作為最優(yōu)機(jī)器翻譯譯文輸出到輸入裝置界面的模塊；第一生成模塊與翻譯模塊、輸入裝置界面連接，用于對(duì)機(jī)器翻譯譯文候選列表和輸入按鍵序列計(jì)算，利用對(duì)數(shù)線(xiàn)性模型，生成M個(gè)輸入法短語(yǔ)候選并輸出到輸入裝置界面；第二生成模塊與翻譯模塊、輸入裝置界面連接，用于對(duì)已錄入譯文部分和機(jī)器翻譯譯文候選列表計(jì)算，生成N個(gè)多元文法提示短語(yǔ)并輸出到輸入裝置界面；輸入裝置界面，用于顯示最優(yōu)機(jī)器翻譯譯文、輸入法短語(yǔ)候選和多元文法提示短語(yǔ)，并接收用戶(hù)按鍵選擇命令和輸入按鍵序列，錄入源語(yǔ)言句子的譯文。
7. -種面向計(jì)算機(jī)輔助翻譯的輸入裝置，包括：對(duì)源語(yǔ)言句子進(jìn)行分詞的裝置；利用機(jī)器翻譯引擎，得到分詞后的所述源語(yǔ)言句子對(duì)應(yīng)的目標(biāo)語(yǔ)言機(jī)器翻譯譯文候選列表，將其中打分最高的機(jī)器翻譯譯文候選生成短語(yǔ)候選列表，并輸出到輸入裝置界面的裝置；接收到用戶(hù)輸入的按鍵序列之后，利用對(duì)數(shù)線(xiàn)性模型，結(jié)合機(jī)器翻譯譯文候選列表，實(shí) 時(shí)動(dòng)態(tài)調(diào)整所述短語(yǔ)候選列表并輸出到所述輸入裝置界面的裝置；響應(yīng)用戶(hù)按鍵選擇，直到用戶(hù)完成源語(yǔ)言句子翻譯的裝置。
8.根據(jù)權(quán)利要求7所述的面向計(jì)算機(jī)輔助翻譯的輸入裝置，所述輸入裝置還包括：當(dāng)用戶(hù)錄入一個(gè)短語(yǔ)后結(jié)合機(jī)器翻譯候選列表得到N元文法提示的裝置；W及在輸入法界面顯示所述N元文法提示，供用戶(hù)選擇的裝置。
【文檔編號(hào)】G06F3/023GK104462072SQ201410678005
【公開(kāi)日】2015年3月25日申請(qǐng)日期:2014年11月21日優(yōu)先權(quán)日:2014年11月21日
【發(fā)明者】宗成慶, 黃國(guó)平申請(qǐng)人:中國(guó)科學(xué)院自動(dòng)化研究所

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：宗成慶;黃國(guó)平;
技術(shù)所有人：中國(guó)科學(xué)院自動(dòng)化研究所;
我是此專(zhuān)利的發(fā)明人

上一篇：通過(guò)識(shí)別全屏模式控制窗口彈出的方法及裝置制造方法
上一篇：一種裝置操作事件的判別方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

面向計(jì)算機(jī)輔助翻譯的輸入方法與裝置制造方法