亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種交互式預測輸入法

文檔序號:9349934閱讀:816來源:國知局
一種交互式預測輸入法
【技術領域】
[0001] 本發(fā)明涉及語言翻譯技術領域,特別涉及一種交互式預測輸入法。
【背景技術】
[0002] 當前,機器翻譯已經(jīng)成熟的應用在教學、科研和商業(yè)領域。其中在語言服務行業(yè) 中機器翻譯已經(jīng)應用在后編譯(post-edit)技術中,在該技術中機器翻譯首先把原文翻 譯出一個結果,然后譯員根據(jù)譯文再次進行修改。如今機器翻譯跟計算機輔助翻譯系統(tǒng) (Computer Aided Translation)的結合是大勢所趨,許多廠商,諸如 Google Toolkit、SDL Trados、MemoQ、Lingotek、Matecat、yeekit等都把機器翻譯作為提高譯員翻譯效率的輔助 工具。
[0003] 機器翻譯跟翻譯行業(yè)結合最早是源自交互式機器翻譯技術。交互式機器翻 譯(Interactive Machine Translation)起源于 1973 年 Kay 的 MIND 項目,發(fā)展壯大于 Langlais等科研工作者21世紀初期構建的TransType和TransType2項目。最近幾年,傳 統(tǒng)的檢索模型(searching model)又被擴展到各種模型上,諸如Gonzdlez-Rubio的SCFG模 型、Alabau的結構預測和黃國平的對數(shù)線性模型??梢哉f交互式機器翻譯從上世紀初至今, 很多科研工作者提出各種方法去提高交互式機器翻譯的質量,目標是借助于后編譯技術提 高譯員的翻譯效率。然而,實踐中證明實際譯員并不愿意在粗糙的機器翻譯譯文上"大動手 腳"。究其原因就是當前機器翻譯理論和技術的限制導致機器翻譯的譯文偏離實際意義很 大甚至"風馬牛不相及"。雖然科研工作者從科研的角度證明交互式機器翻譯可以提高譯員 的翻譯效率,但是這類方法并不被實際中的專業(yè)譯員所采用,因為被證明同樣耗時費力,而 且交互式機器翻譯的動態(tài)解碼(dynamic decoding)過程非常的耗時,明顯的延遲感讓商業(yè) 系統(tǒng)至今不愿接納。
[0004] 從稍微正式的公式來描述,傳統(tǒng)的交互式機器翻譯(后編譯技術)要考慮譯員 已經(jīng)輸入的信息,叫做前綴(prefix),用t p表示,系統(tǒng)會根據(jù)這些前綴生成最相關的后綴 (suffix)信息供譯員參考選擇,用ts表示。以上描述可以表示成如下公式:
[0007] 該公式從公式(2)中變形而來,其中tpts=t,在首輪迭代中,系統(tǒng)將會根據(jù)原文信 息產(chǎn)生所有可能的候選翻譯,這些候選翻譯構成了巨大的單詞圖(word-graph)。譯員每一 次的編輯修改都會從這些巨大的單詞圖中搜索有用的信息,并對后綴信息進行重新計算。
[0008] 從以上描述中可見,傳統(tǒng)的后編譯其實檢索空間非常大,2014年的時候科研工作 者Koehn認識到該問題,并提出把前綴限定在譯員輸入的最后一個詞上再進行計算。該方 法被證明可以大大的減少交互處理時間。2015年的時候黃國平等提出一種對數(shù)線性模型, 并開發(fā)出一款類似Google和搜狗拼音的面向計算機輔助翻譯系統(tǒng)的輸入法。然而兩者的 共同點都是在譯員的輸入中還將不斷的與機器翻譯進行交互,并不斷的根據(jù)譯員的輸入而 不斷更改修正提示的內(nèi)容,實時的產(chǎn)生新的提示內(nèi)容雖好,但是帶給專業(yè)譯員的延遲感將 會降低其實用性。

【發(fā)明內(nèi)容】

[0009] 本發(fā)明要解決的是現(xiàn)有交互式機器翻譯具有延遲,實用性低的技術問題。
[0010] 為了解決上述問題,本發(fā)明提供了一種交互式預測輸入法,其特征在于,包括:調(diào) 用機器翻譯接口把用戶輸入的源語言分成M個片段;根據(jù)分片信息,把每個片段進行翻譯 并返回N個最佳候選列表;正式翻譯的過程中,自動從M*N的候選列表中進行檢索,并給出 與原文相關的翻譯提醒。
[0011] 更優(yōu)地,所述把源語言分成M個片段中的片段為短語片段。
[0012] 更優(yōu)地,其特征在于,把每一個譯文的每個單詞位置進行標示,根據(jù)自動對齊獲取 到原文和譯文的單詞對應翻譯關系,得到源語言的短語片段。
[0013] 更優(yōu)地,所述根據(jù)分片信息,把每個片段進行翻譯并返回N個最佳候選列表;將所 述最佳候選列表存放在緩存中。
[0014] 更優(yōu)地,所述輸入法僅與用戶的輸入前綴有關,不會再次調(diào)用機器翻譯去修改后 綴候選列表;所述輸入前綴為已經(jīng)輸入的信息。
[0015] 通過以上技術方案可知,本發(fā)明提供一種交互式預測輸入法,具有以下優(yōu)點:
[0016] (1)翻譯的過程中,能快速響應,沒有延遲感;
[0017] (2)不需要更改譯員的翻譯輸入習慣,不需要安裝,有需要的翻譯就提示,沒有相 關內(nèi)容就不提醒,不干擾原來的輸入法,不產(chǎn)生額外的計算操作,有效的減少譯員的輸入次 數(shù);
[0018] (3)有效避免了實時的跟機器翻譯交互中涉及的大量計算問題。
【附圖說明】
[0019] 圖1 一種交互式預測輸入法示意圖;
[0020] 圖2實際產(chǎn)品中交互式輸入法的效果。
【具體實施方式】
[0021] 下面將結合附圖及實施例對本發(fā)明的技術方案進行更詳細的說明。
[0022] 需要說明的是,如果不沖突,本發(fā)明實施例以及實施例中的各個特征可以相互結 合,均在本發(fā)明的保護范圍之內(nèi)。
[0023] 實施例一,一種交互式預測輸入法,如圖1、圖2所示,包括:調(diào)用機器翻譯接口把 用戶輸入的源語言分成M個片段;根據(jù)分片信息,把每個片段進行翻譯并返回N個最佳候選 列表;正式翻譯的過程中,自動從M*N的候選列表中進行檢索,并給出與原文相關的翻譯提 醒。
[0024] 本發(fā)明提出一種交互式預測輸入法,也稱預測輸入法。其中,根據(jù)譯員的反饋得出 以下三個事實:
[0025] (1)專業(yè)譯員首先會快速的掃描原文文本信息,這個過程會持續(xù)兩秒以上的時間, 之后才會開始進行翻譯;
[0026] (2)絕大部分譯員有個人習慣常用的輸入法,個人電腦上會有安裝,而且并不愿意 安裝過多輸入法;
[0027] (3)希望給出有用的提示,減少輸入,而且只要在翻譯的過程中,希望提示速度越 快越好。
[0028] 事實⑴指明有至少兩秒的準備時間處理原文句子,在這段時間內(nèi)可以把有效的 預測給譯員準備好;事實(2)要求盡可能的把預測輸入法集成到輔助翻譯系統(tǒng)中,而不是 做成一個獨立的安裝包;事實(3)說明要從技術上快速的為譯員提供有效的提示,有提示 就提示,沒有相關提示就可以隱藏,不得干擾其原有輸入法。
[0029] 基于此,本發(fā)明提出了一種交互式預測輸入法:
[0030] 根據(jù)機器翻譯對齊信息,把源語言句子分成m個若干片段(segment);
[0031] 把每個片段進行調(diào)用機器翻譯,并把機器翻譯的n個最好的候選結果返回;
[0032] 為減少搜索空間,從mXn個候選結果中,給出譯員提示。
[0033] 本發(fā)明所述的方法就是借助機器翻譯讓譯員在翻譯的時候既給出輸入提示又考 慮原文信息。交互式預測輸入法不再盲目的給出一大堆無用的提示,而是給出與原文相關 的文本。
[0034] 為了更加實用的服務專業(yè)譯員,本發(fā)明提出以下三個步驟的交互式預測法,其中 把"交互式"集中體現(xiàn)在兩個方面:(1)譯員拿到原文進行思考的過程,該過程是原文跟機 器翻譯交互的過程;(2)譯員思考完畢,正式翻譯的過程,該過程是譯員跟機器翻譯產(chǎn)生的 候選列表進行交互的過程,且該提示均與原文信息相關。
[0035] 一種交互式預測輸入法,具體為:
[0036] (1)首先調(diào)用機器翻譯接口把源語言分成M個片段。
[0037] 其中機器翻譯為特定研發(fā)的混合機器翻譯系統(tǒng),機器翻譯結果中包含了對齊信 息,該對齊信息能夠指明目標翻譯的文本的每個片段來自原文信息的哪個部分。如圖1所 示,給定源語言"交互式輸入法可以加快譯員的翻譯速度。",根據(jù)機器翻譯結果能夠把源語 言分成6個短語片段:[交互式,輸入法,可以加快,譯員的,翻譯,速度。]這個分法有別于 傳統(tǒng)的分詞,按照傳統(tǒng)的分詞,源語言將會被分成類似的9個結果片段:[交互式,輸入法, 可以,加快,譯員,的,翻譯,速度,。]。
[0038] 其中,上述6個短語片段產(chǎn)生的過程如下:首先系統(tǒng)把每一個譯文的每個單詞位 置進行標示,程序采用src-start,src-end、tgt-start和tgt-end作為標識符。然后通過 高勤的MGIZA自動對齊獲取到原文和譯文的單詞對應翻譯關系。最后得到原文的片段。其 中標識符的意思如下:
[0039] i. src-start:源語言分詞后的開始單詞位置,從0開始
[0040] ii. src-end:源語言短語結束的位置,包含該單詞
[0041] iii. tgt-start:傳統(tǒng)分詞后的目標語言中,短語開始的位置,從0開始
[0042] iv. tgt-end:傳統(tǒng)分詞后的目標語言中的短語結束位置,包括該單詞
[0043] 如以圖1所示,其中源語言的機器翻譯結果為'Interactive input method can speed up the interpreter's translation speed."根據(jù)這個譯文以及對齊信息,可以把 原文拆分成6個片段,其中每個片段會給出對齊信息,見表1的描述。以片段3為例,對齊 信息指明,從源語言的單詞位置2到單詞位置3,對齊到目標譯文的單詞位置3到單詞位置 6,即源語言的單詞"可以" "加快"對齊到單詞"can" "speed" "up" "the"。以此類推最終 得到源語言的6個片段:[交互式,輸入法,可以加快,譯員的,翻譯,速度。]。
[0046] 表1 :機器翻譯給出的對齊信息
[0047] (2)根據(jù)上一步的分片信息,再次調(diào)用機器翻譯,把每個片段進行翻譯并返回N個 最佳候選列表。
當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1