評(píng)價(jià)術(shù)語領(lǐng)域翻譯一致性的方法及統(tǒng)計(jì)機(jī)器翻譯方法
【專利摘要】本發(fā)明提供一種評(píng)價(jià)術(shù)語領(lǐng)域翻譯一致性的方法,該方法以雙語平行語料庫(kù)的文檔-主題分布信息作為術(shù)語翻譯的領(lǐng)域信息,構(gòu)建雙語術(shù)語庫(kù),并計(jì)算每個(gè)源語言術(shù)語的翻譯一致性強(qiáng)度來客觀地評(píng)價(jià)在領(lǐng)域內(nèi)術(shù)語翻譯的一致性。該方法充分利用領(lǐng)域信息,在術(shù)語翻譯中保持源語言術(shù)語的譯文在相同或相近領(lǐng)域內(nèi)一致。而且該方法可以嵌入到統(tǒng)計(jì)機(jī)器翻譯中,改進(jìn)源語言術(shù)語所在的句子、篇章文檔的整體翻譯質(zhì)量。
【專利說明】評(píng)價(jià)術(shù)語領(lǐng)域翻譯一致性的方法及統(tǒng)計(jì)機(jī)器翻譯方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及自然語言處理及機(jī)器翻譯,尤其涉及統(tǒng)計(jì)機(jī)器翻譯中的術(shù)語翻譯方 法。
【背景技術(shù)】
[0002] 術(shù)語是語言中用于定義概念的一種語言學(xué)表達(dá)(ISO 1087)。因此,術(shù)語在不 同語言之間具有傳遞概念的作用。在翻譯中,術(shù)語的翻譯也是非常重要的。術(shù)語的翻譯 受術(shù)語所屬領(lǐng)域及其所處的上下文的影響(Muriel Vasconcellos, Brian Avey, Claudia Gdaniec, Laurie Gerber, Marjorie Le' on, and Teruko Mitamura. 2001. Terminology and machine translation. Handbook of Terminology Management, 2:697 - 723.) 〇 同一術(shù)語 在不同的領(lǐng)域和上下文環(huán)境中,其翻譯是不同的,而在相同或相近的領(lǐng)域內(nèi),術(shù)語的翻譯應(yīng) 該具有一致性。但是當(dāng)前的主流的統(tǒng)計(jì)機(jī)器翻譯模型,例如基于短語的模型、基于層次短語 的模型、基于語言學(xué)句法的模型等,都沒有針對(duì)術(shù)語在相同或者相似領(lǐng)域內(nèi)的一致性翻譯 的解決方案。目前都是通過人工的方式對(duì)譯文中的術(shù)語進(jìn)行調(diào)整,這無疑降低了翻譯工作 的效率,而且依賴于譯者對(duì)文本所述領(lǐng)域及上下文的理解,缺乏對(duì)術(shù)語翻譯的領(lǐng)域一致性 客觀衡量,難以保證翻譯質(zhì)量的穩(wěn)定性。
【發(fā)明內(nèi)容】
[0003] 因此,本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的缺陷,提供一種可以嵌入統(tǒng)計(jì)機(jī)器 翻譯中的術(shù)語領(lǐng)域一致性翻譯方法。
[0004] 本發(fā)明的目的是通過以下技術(shù)方案實(shí)現(xiàn)的:
[0005] -方面,本發(fā)明提供了一種衡量術(shù)語領(lǐng)域翻譯一致性的方法,所述方法包括:
[0006] 步驟1),基于雙語平行語料庫(kù)來建立雙語術(shù)語庫(kù);其中,所述雙語術(shù)語庫(kù)包括從 雙語平行語料庫(kù)中抽取的源語言術(shù)語的集合以及與所述源語言術(shù)語集合中每個(gè)源語言術(shù) 語滿足對(duì)齊一致性且互為翻譯的目標(biāo)語言術(shù)語構(gòu)成的集合;
[0007] 步驟2)將雙語平行語料庫(kù)中的源語言語料和目標(biāo)語言語料分別按照相同的方式 劃分為多個(gè)文檔,基于為雙語平行語料庫(kù)設(shè)定的多個(gè)主題來獲取每個(gè)文檔的文檔-主題分 布信息,每個(gè)文檔的文檔-主題分布信息包括該文檔屬于所述多個(gè)主題中各個(gè)主題的概 率;
[0008] 步驟3)對(duì)于雙語術(shù)語庫(kù)中每個(gè)源語言術(shù)語,通過下面的公式計(jì)算其與所述多個(gè) 主題中每個(gè)主題相關(guān)的翻譯一致性強(qiáng)度為:
[0009]
【權(quán)利要求】
1. 一種衡量術(shù)語領(lǐng)域翻譯一致性的方法,所述方法包括: 步驟1),基于雙語平行語料庫(kù)來建立雙語術(shù)語庫(kù);其中,所述雙語術(shù)語庫(kù)包括從雙語 平行語料庫(kù)中抽取的源語言術(shù)語的集合以及與所述源語言術(shù)語集合中每個(gè)源語言術(shù)語滿 足對(duì)齊一致性且互為翻譯的目標(biāo)語言術(shù)語構(gòu)成的集合; 步驟2)將雙語平行語料庫(kù)中的源語言語料和目標(biāo)語言語料分別按照相同的方式劃分 為多個(gè)文檔,基于為雙語平行語料庫(kù)設(shè)定的多個(gè)主題來獲取每個(gè)文檔的文檔-主題分布信 息,每個(gè)文檔的文檔-主題分布信息包括該文檔屬于所述多個(gè)主題中各個(gè)主題的概率; 步驟3)對(duì)于雙語術(shù)語庫(kù)中每個(gè)源語言術(shù)語,通過下面的公式計(jì)算其與所述多個(gè)主題 中每個(gè)主題相關(guān)的翻譯一致性強(qiáng)度為: :.f 滅m ^ M ?m Y Y 翁 ?Ε?:;:其中 = V I ^難?,Γ〇 ^ · fsasl 其中,cons (t,k)表示源語言術(shù)語t與所述多個(gè)主題中第k個(gè)主題相關(guān)的翻譯一致性強(qiáng) 度,Μ表示在其中出現(xiàn)源語言術(shù)語t的源語言文檔的數(shù)目;Nm表示源語言術(shù)語t在第m個(gè)目 標(biāo)語言文檔中的不同譯文的數(shù)目;q mn表示在第m個(gè)目標(biāo)語言文檔中,源語言術(shù)語的第η個(gè) 譯文出現(xiàn)的次數(shù);P (k | m)表示第m個(gè)源語言文檔屬于第k個(gè)主題的概率;Qk表示歸一化因 子,以確保cons (t,k)的值在0到1之間,其中所述源語言術(shù)語t的譯文都屬于所述雙語術(shù) 語庫(kù)中與該源語言術(shù)語t互為翻譯的目標(biāo)語言術(shù)語的集合。
2. 根據(jù)權(quán)利要求1所述的方法,所述步驟1)包括: 步驟11)分別從雙語平行語料庫(kù)的源語言和目標(biāo)語言集合抽取源語言術(shù)語和目標(biāo)語 言術(shù)語,構(gòu)建源語言術(shù)語庫(kù)和目標(biāo)語言術(shù)語庫(kù); 步驟12)對(duì)于雙語平行語料庫(kù)中的每個(gè)源語言句子: 基于所述源語言術(shù)語庫(kù)識(shí)別該源語言句子中的所有源語言術(shù)語;以及 對(duì)于所識(shí)別的每個(gè)源語言術(shù)語,根據(jù)雙語平行語料庫(kù)中源語言和目標(biāo)語言的詞語對(duì)齊 關(guān)系,從與該源語言句子對(duì)應(yīng)的目標(biāo)語言句子中找到與該源語言術(shù)語滿足對(duì)齊一致性的目 標(biāo)語言詞串,如果該目標(biāo)語言詞串為所述目標(biāo)語言術(shù)語庫(kù)中的術(shù)語,則將該源語言術(shù)語與 該目標(biāo)語言詞串添加到雙語術(shù)語庫(kù)中。
3. 根據(jù)權(quán)利要求1所述的方法,在所述步驟2)中利用基于概率的隱含語義分析工具或 者利用潛在狄利克雷分配工具來獲取每個(gè)文檔的文檔-主題分布信息。
4. 一種用于統(tǒng)計(jì)機(jī)器翻譯中評(píng)價(jià)術(shù)語翻譯一致性的方法,所述方法包括: 步驟A,將待翻譯文本劃分為多個(gè)文檔,并基于設(shè)定的多個(gè)主題來計(jì)算每個(gè)文檔的文 檔-主題分布信息;其中每個(gè)文檔是該待翻譯文本中一段連續(xù)的句子的集合,在每個(gè)文檔 的內(nèi)部,每個(gè)句子占一行;所述每個(gè)文檔的文檔-主題分布信息包括該文檔屬于所述多個(gè) 主題中的各個(gè)主題的概率; 步驟B,對(duì)待翻譯文本中每一個(gè)句子執(zhí)行下列操作: 基于雙語術(shù)語庫(kù)識(shí)別出該句子中所有的源語言術(shù)語;以及 計(jì)算該句子中所有識(shí)別出的每個(gè)源語言術(shù)語的翻譯一致性強(qiáng)度; 其中,所述雙語術(shù)語庫(kù)包括從雙語平行語料庫(kù)中抽取的源語言術(shù)語集合、與所述源語 言術(shù)語集合中每個(gè)源語言術(shù)語滿足對(duì)齊一致性且互為翻譯的目標(biāo)語言術(shù)語構(gòu)成的集合; 其中,每個(gè)源語言術(shù)語的翻譯一致性強(qiáng)度以下面的公式來計(jì)算: 麗' Sftjll = Y :€:,3ξ$φΗ: - p(Mm · ? 其中,S (ti ID)表示該句子中所識(shí)別出的第i個(gè)源語言術(shù)語ti的翻譯一致性強(qiáng)度,D表 示該句子所在的文檔,P(k |D)表示文檔D屬于第k個(gè)主題的概率,cons (ti,k)表示根據(jù)權(quán) 利要求1-3中任一權(quán)利要求所述的方法計(jì)算的雙語術(shù)語庫(kù)中源語言術(shù)語ti與所述多個(gè)主 題中第k個(gè)主題相關(guān)的翻譯一致性強(qiáng)度;K表示所述多個(gè)主題的數(shù)量,i、k均為正整數(shù),且 1 < k < K。
5. 根據(jù)權(quán)利要求4所述的方法,還包括以取對(duì)數(shù)的方式將所述每個(gè)源語言術(shù)語的翻譯 一致性強(qiáng)度進(jìn)行歸一化的步驟。
6. -種統(tǒng)計(jì)機(jī)器翻譯方法,所述方法中將術(shù)語翻譯一致性強(qiáng)度特征作為用于為源語言 短語選擇相應(yīng)目標(biāo)譯文的特征之一,所述方法包括: 對(duì)于待翻譯文本中每個(gè)源語言句子中每個(gè)短語及其對(duì)應(yīng)的每個(gè)候選目標(biāo)譯文,判斷該 短語是否在雙語術(shù)語庫(kù)的源語言術(shù)語集合中并且該候選目標(biāo)譯文屬于所述雙語術(shù)語庫(kù)中 與該短語對(duì)齊一致且互為翻譯的目標(biāo)術(shù)語集合;如果是,則將該候選譯文對(duì)應(yīng)的術(shù)語翻譯 一致性強(qiáng)度特征的值設(shè)置為該短語的翻譯一致性強(qiáng)度; 其中,所述雙語術(shù)語庫(kù)包括從雙語平行語料庫(kù)中抽取的源語言術(shù)語集合、與所述源語 言術(shù)語集合中每個(gè)源語言術(shù)語滿足對(duì)齊一致性且互為翻譯的目標(biāo)語言術(shù)語構(gòu)成的集合; 所述該短語的翻譯一致性強(qiáng)度采用如權(quán)利要求4或5所述的方法來計(jì)算。
7. -種用于統(tǒng)計(jì)機(jī)器翻譯中評(píng)價(jià)術(shù)語翻譯一致性的裝置,所述裝置包括: 主題分布信息獲取模塊,用于將待翻譯文本劃分為多個(gè)文檔,并基于設(shè)定的多個(gè)主題 來計(jì)算每個(gè)文檔的文檔-主題分布信息;其中每個(gè)文檔是該待翻譯文本中一段連續(xù)的句子 的集合,在每個(gè)文檔的內(nèi)部,每個(gè)句子占一行;所述每個(gè)文檔的文檔-主題分布信息包括該 文檔屬于所述多個(gè)主題中的每個(gè)主題的概率; 術(shù)語翻譯一致性計(jì)算模塊,用于對(duì)待翻譯文本中每一個(gè)句子執(zhí)行下列操作: 基于雙語術(shù)語庫(kù)識(shí)別出該句子中所有的源語言術(shù)語;以及 計(jì)算該句子中所有識(shí)別出的每個(gè)源語言術(shù)語的翻譯一致性強(qiáng)度; 其中,所述雙語術(shù)語庫(kù)包括從雙語平行語料庫(kù)中抽取的源語言術(shù)語集合、與所述源語 言術(shù)語集合中每個(gè)源語言術(shù)語滿足對(duì)齊一致性且互為翻譯的目標(biāo)語言術(shù)語構(gòu)成的集合; 其中,每個(gè)源語言術(shù)語的翻譯一致性強(qiáng)度以下面的公式來計(jì)算: X S(tjl| = V €〇nsliilf:K; - 其中,S (h ID)表示該句子中所識(shí)別出的第i個(gè)源語言術(shù)語h的翻譯一致性強(qiáng)度,D表 示該句子所在的文檔,P(k |D)表示文檔D屬于第k個(gè)主題的概率,cons (ti,k)表示根據(jù)權(quán) 利要求1-3中任一權(quán)利要求所述的方法計(jì)算的雙語術(shù)語庫(kù)中源語言術(shù)語^與所述多個(gè)主 題中第k個(gè)主題相關(guān)的翻譯一致性強(qiáng)度;K表示所述多個(gè)主題的數(shù)量,i、k均為正整數(shù),且 1 < k < K。
8. 根據(jù)權(quán)利要求7所述的裝置,術(shù)語翻譯一致性計(jì)算模塊還包括用于以取對(duì)數(shù)的方式 將所述每個(gè)源語言術(shù)語的翻譯一致性強(qiáng)度進(jìn)行歸一化的模塊。
9. 一種統(tǒng)計(jì)機(jī)器翻譯系統(tǒng),所述系統(tǒng)中將術(shù)語翻譯一致性強(qiáng)度特征作為為源語言短語 選擇相應(yīng)目標(biāo)譯文的特征之一,所述系統(tǒng)包括: 術(shù)語翻譯一致性計(jì)算模塊,用于對(duì)于待翻譯文本中每個(gè)源語言句子中每個(gè)短語及其對(duì) 應(yīng)的每個(gè)候選目標(biāo)譯文,判斷該短語是否在雙語術(shù)語庫(kù)的源語言術(shù)語集合中并且該候選目 標(biāo)譯文屬于所述雙語術(shù)語庫(kù)中與該短語對(duì)齊一致且互為翻譯的目標(biāo)術(shù)語集合;如果是,則 將該候選譯文對(duì)應(yīng)的術(shù)語翻譯一致性強(qiáng)度特征的值設(shè)置為該短語的翻譯一致性強(qiáng)度; 其中,所述雙語術(shù)語庫(kù)包括從雙語平行語料庫(kù)中抽取的源語言術(shù)語集合、與所述源語 言術(shù)語集合中每個(gè)源語言術(shù)語滿足對(duì)齊一致性且互為翻譯的目標(biāo)語言術(shù)語構(gòu)成的集合; 所述該短語的翻譯一致性強(qiáng)度采用如權(quán)利要求4或5所述的方法來計(jì)算。
【文檔編號(hào)】G06F17/27GK104298663SQ201410520322
【公開日】2015年1月21日 申請(qǐng)日期:2014年9月30日 優(yōu)先權(quán)日:2014年9月30日
【發(fā)明者】孟凡東, 熊德意, 姜文斌, 劉群 申請(qǐng)人:中國(guó)科學(xué)院計(jì)算技術(shù)研究所