評(píng)價(jià)術(shù)語領(lǐng)域翻譯一致性的方法及統(tǒng)計(jì)機(jī)器翻譯方法

文檔序號(hào)：6629169閱讀：969來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

評(píng)價(jià)術(shù)語領(lǐng)域翻譯一致性的方法及統(tǒng)計(jì)機(jī)器翻譯方法
【專利摘要】本發(fā)明提供一種評(píng)價(jià)術(shù)語領(lǐng)域翻譯一致性的方法，該方法以雙語平行語料庫(kù)的文檔-主題分布信息作為術(shù)語翻譯的領(lǐng)域信息，構(gòu)建雙語術(shù)語庫(kù)，并計(jì)算每個(gè)源語言術(shù)語的翻譯一致性強(qiáng)度來客觀地評(píng)價(jià)在領(lǐng)域內(nèi)術(shù)語翻譯的一致性。該方法充分利用領(lǐng)域信息，在術(shù)語翻譯中保持源語言術(shù)語的譯文在相同或相近領(lǐng)域內(nèi)一致。而且該方法可以嵌入到統(tǒng)計(jì)機(jī)器翻譯中，改進(jìn)源語言術(shù)語所在的句子、篇章文檔的整體翻譯質(zhì)量。
【專利說明】評(píng)價(jià)術(shù)語領(lǐng)域翻譯一致性的方法及統(tǒng)計(jì)機(jī)器翻譯方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及自然語言處理及機(jī)器翻譯，尤其涉及統(tǒng)計(jì)機(jī)器翻譯中的術(shù)語翻譯方法。

【背景技術(shù)】
[0002] 術(shù)語是語言中用于定義概念的一種語言學(xué)表達(dá)（ISO 1087)。因此，術(shù)語在不同語言之間具有傳遞概念的作用。在翻譯中，術(shù)語的翻譯也是非常重要的。術(shù)語的翻譯受術(shù)語所屬領(lǐng)域及其所處的上下文的影響（Muriel Vasconcellos, Brian Avey, Claudia Gdaniec, Laurie Gerber, Marjorie Le' on, and Teruko Mitamura. 2001. Terminology and machine translation. Handbook of Terminology Management, 2:697 - 723.) 〇同一術(shù)語在不同的領(lǐng)域和上下文環(huán)境中，其翻譯是不同的，而在相同或相近的領(lǐng)域內(nèi)，術(shù)語的翻譯應(yīng) 該具有一致性。但是當(dāng)前的主流的統(tǒng)計(jì)機(jī)器翻譯模型，例如基于短語的模型、基于層次短語的模型、基于語言學(xué)句法的模型等，都沒有針對(duì)術(shù)語在相同或者相似領(lǐng)域內(nèi)的一致性翻譯的解決方案。目前都是通過人工的方式對(duì)譯文中的術(shù)語進(jìn)行調(diào)整，這無疑降低了翻譯工作的效率，而且依賴于譯者對(duì)文本所述領(lǐng)域及上下文的理解，缺乏對(duì)術(shù)語翻譯的領(lǐng)域一致性客觀衡量，難以保證翻譯質(zhì)量的穩(wěn)定性。

【發(fā)明內(nèi)容】

[0003] 因此，本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的缺陷，提供一種可以嵌入統(tǒng)計(jì)機(jī)器翻譯中的術(shù)語領(lǐng)域一致性翻譯方法。
[0004] 本發(fā)明的目的是通過以下技術(shù)方案實(shí)現(xiàn)的：
[0005] -方面，本發(fā)明提供了一種衡量術(shù)語領(lǐng)域翻譯一致性的方法，所述方法包括：
[0006] 步驟1)，基于雙語平行語料庫(kù)來建立雙語術(shù)語庫(kù)；其中，所述雙語術(shù)語庫(kù)包括從雙語平行語料庫(kù)中抽取的源語言術(shù)語的集合以及與所述源語言術(shù)語集合中每個(gè)源語言術(shù) 語滿足對(duì)齊一致性且互為翻譯的目標(biāo)語言術(shù)語構(gòu)成的集合；
[0007] 步驟2)將雙語平行語料庫(kù)中的源語言語料和目標(biāo)語言語料分別按照相同的方式劃分為多個(gè)文檔，基于為雙語平行語料庫(kù)設(shè)定的多個(gè)主題來獲取每個(gè)文檔的文檔-主題分布信息，每個(gè)文檔的文檔-主題分布信息包括該文檔屬于所述多個(gè)主題中各個(gè)主題的概率；
[0008] 步驟3)對(duì)于雙語術(shù)語庫(kù)中每個(gè)源語言術(shù)語，通過下面的公式計(jì)算其與所述多個(gè) 主題中每個(gè)主題相關(guān)的翻譯一致性強(qiáng)度為：
[0009]

【權(quán)利要求】
1. 一種衡量術(shù)語領(lǐng)域翻譯一致性的方法，所述方法包括：步驟1)，基于雙語平行語料庫(kù)來建立雙語術(shù)語庫(kù)；其中，所述雙語術(shù)語庫(kù)包括從雙語平行語料庫(kù)中抽取的源語言術(shù)語的集合以及與所述源語言術(shù)語集合中每個(gè)源語言術(shù)語滿足對(duì)齊一致性且互為翻譯的目標(biāo)語言術(shù)語構(gòu)成的集合；步驟2)將雙語平行語料庫(kù)中的源語言語料和目標(biāo)語言語料分別按照相同的方式劃分為多個(gè)文檔，基于為雙語平行語料庫(kù)設(shè)定的多個(gè)主題來獲取每個(gè)文檔的文檔-主題分布信息，每個(gè)文檔的文檔-主題分布信息包括該文檔屬于所述多個(gè)主題中各個(gè)主題的概率；步驟3)對(duì)于雙語術(shù)語庫(kù)中每個(gè)源語言術(shù)語，通過下面的公式計(jì)算其與所述多個(gè)主題中每個(gè)主題相關(guān)的翻譯一致性強(qiáng)度為： :.f 滅m ^ M ?m Y Y 翁 ?Ε?:;:其中 = V I ^難?，Γ〇 ^ · fsasl 其中，cons (t，k)表示源語言術(shù)語t與所述多個(gè)主題中第k個(gè)主題相關(guān)的翻譯一致性強(qiáng) 度，Μ表示在其中出現(xiàn)源語言術(shù)語t的源語言文檔的數(shù)目；Nm表示源語言術(shù)語t在第m個(gè)目標(biāo)語言文檔中的不同譯文的數(shù)目；q mn表示在第m個(gè)目標(biāo)語言文檔中，源語言術(shù)語的第η個(gè) 譯文出現(xiàn)的次數(shù)；P (k | m)表示第m個(gè)源語言文檔屬于第k個(gè)主題的概率；Qk表示歸一化因子，以確保cons (t，k)的值在0到1之間，其中所述源語言術(shù)語t的譯文都屬于所述雙語術(shù) 語庫(kù)中與該源語言術(shù)語t互為翻譯的目標(biāo)語言術(shù)語的集合。
2. 根據(jù)權(quán)利要求1所述的方法，所述步驟1)包括：步驟11)分別從雙語平行語料庫(kù)的源語言和目標(biāo)語言集合抽取源語言術(shù)語和目標(biāo)語言術(shù)語，構(gòu)建源語言術(shù)語庫(kù)和目標(biāo)語言術(shù)語庫(kù)；步驟12)對(duì)于雙語平行語料庫(kù)中的每個(gè)源語言句子：基于所述源語言術(shù)語庫(kù)識(shí)別該源語言句子中的所有源語言術(shù)語；以及對(duì)于所識(shí)別的每個(gè)源語言術(shù)語，根據(jù)雙語平行語料庫(kù)中源語言和目標(biāo)語言的詞語對(duì)齊關(guān)系，從與該源語言句子對(duì)應(yīng)的目標(biāo)語言句子中找到與該源語言術(shù)語滿足對(duì)齊一致性的目標(biāo)語言詞串，如果該目標(biāo)語言詞串為所述目標(biāo)語言術(shù)語庫(kù)中的術(shù)語，則將該源語言術(shù)語與該目標(biāo)語言詞串添加到雙語術(shù)語庫(kù)中。
3. 根據(jù)權(quán)利要求1所述的方法，在所述步驟2)中利用基于概率的隱含語義分析工具或者利用潛在狄利克雷分配工具來獲取每個(gè)文檔的文檔-主題分布信息。
4. 一種用于統(tǒng)計(jì)機(jī)器翻譯中評(píng)價(jià)術(shù)語翻譯一致性的方法，所述方法包括：步驟A，將待翻譯文本劃分為多個(gè)文檔，并基于設(shè)定的多個(gè)主題來計(jì)算每個(gè)文檔的文檔-主題分布信息；其中每個(gè)文檔是該待翻譯文本中一段連續(xù)的句子的集合，在每個(gè)文檔的內(nèi)部，每個(gè)句子占一行；所述每個(gè)文檔的文檔-主題分布信息包括該文檔屬于所述多個(gè) 主題中的各個(gè)主題的概率；步驟B，對(duì)待翻譯文本中每一個(gè)句子執(zhí)行下列操作：基于雙語術(shù)語庫(kù)識(shí)別出該句子中所有的源語言術(shù)語；以及計(jì)算該句子中所有識(shí)別出的每個(gè)源語言術(shù)語的翻譯一致性強(qiáng)度；其中，所述雙語術(shù)語庫(kù)包括從雙語平行語料庫(kù)中抽取的源語言術(shù)語集合、與所述源語言術(shù)語集合中每個(gè)源語言術(shù)語滿足對(duì)齊一致性且互為翻譯的目標(biāo)語言術(shù)語構(gòu)成的集合；其中，每個(gè)源語言術(shù)語的翻譯一致性強(qiáng)度以下面的公式來計(jì)算：麗' Sftjll = Y ：€：,3ξ$φΗ： - p(Mm · ? 其中，S (ti ID)表示該句子中所識(shí)別出的第i個(gè)源語言術(shù)語ti的翻譯一致性強(qiáng)度，D表示該句子所在的文檔，P(k |D)表示文檔D屬于第k個(gè)主題的概率，cons (ti，k)表示根據(jù)權(quán) 利要求1-3中任一權(quán)利要求所述的方法計(jì)算的雙語術(shù)語庫(kù)中源語言術(shù)語ti與所述多個(gè)主題中第k個(gè)主題相關(guān)的翻譯一致性強(qiáng)度；K表示所述多個(gè)主題的數(shù)量，i、k均為正整數(shù)，且 1 < k < K。
5. 根據(jù)權(quán)利要求4所述的方法，還包括以取對(duì)數(shù)的方式將所述每個(gè)源語言術(shù)語的翻譯一致性強(qiáng)度進(jìn)行歸一化的步驟。
6. -種統(tǒng)計(jì)機(jī)器翻譯方法，所述方法中將術(shù)語翻譯一致性強(qiáng)度特征作為用于為源語言短語選擇相應(yīng)目標(biāo)譯文的特征之一，所述方法包括：對(duì)于待翻譯文本中每個(gè)源語言句子中每個(gè)短語及其對(duì)應(yīng)的每個(gè)候選目標(biāo)譯文，判斷該短語是否在雙語術(shù)語庫(kù)的源語言術(shù)語集合中并且該候選目標(biāo)譯文屬于所述雙語術(shù)語庫(kù)中與該短語對(duì)齊一致且互為翻譯的目標(biāo)術(shù)語集合；如果是，則將該候選譯文對(duì)應(yīng)的術(shù)語翻譯一致性強(qiáng)度特征的值設(shè)置為該短語的翻譯一致性強(qiáng)度；其中，所述雙語術(shù)語庫(kù)包括從雙語平行語料庫(kù)中抽取的源語言術(shù)語集合、與所述源語言術(shù)語集合中每個(gè)源語言術(shù)語滿足對(duì)齊一致性且互為翻譯的目標(biāo)語言術(shù)語構(gòu)成的集合；所述該短語的翻譯一致性強(qiáng)度采用如權(quán)利要求4或5所述的方法來計(jì)算。
7. -種用于統(tǒng)計(jì)機(jī)器翻譯中評(píng)價(jià)術(shù)語翻譯一致性的裝置，所述裝置包括：主題分布信息獲取模塊，用于將待翻譯文本劃分為多個(gè)文檔，并基于設(shè)定的多個(gè)主題來計(jì)算每個(gè)文檔的文檔-主題分布信息；其中每個(gè)文檔是該待翻譯文本中一段連續(xù)的句子的集合，在每個(gè)文檔的內(nèi)部，每個(gè)句子占一行；所述每個(gè)文檔的文檔-主題分布信息包括該文檔屬于所述多個(gè)主題中的每個(gè)主題的概率；術(shù)語翻譯一致性計(jì)算模塊，用于對(duì)待翻譯文本中每一個(gè)句子執(zhí)行下列操作：基于雙語術(shù)語庫(kù)識(shí)別出該句子中所有的源語言術(shù)語；以及計(jì)算該句子中所有識(shí)別出的每個(gè)源語言術(shù)語的翻譯一致性強(qiáng)度；其中，所述雙語術(shù)語庫(kù)包括從雙語平行語料庫(kù)中抽取的源語言術(shù)語集合、與所述源語言術(shù)語集合中每個(gè)源語言術(shù)語滿足對(duì)齊一致性且互為翻譯的目標(biāo)語言術(shù)語構(gòu)成的集合；其中，每個(gè)源語言術(shù)語的翻譯一致性強(qiáng)度以下面的公式來計(jì)算： X S(tjl| = V €〇nsliilf：K； - 其中，S (h ID)表示該句子中所識(shí)別出的第i個(gè)源語言術(shù)語h的翻譯一致性強(qiáng)度，D表示該句子所在的文檔，P(k |D)表示文檔D屬于第k個(gè)主題的概率，cons (ti，k)表示根據(jù)權(quán) 利要求1-3中任一權(quán)利要求所述的方法計(jì)算的雙語術(shù)語庫(kù)中源語言術(shù)語^與所述多個(gè)主題中第k個(gè)主題相關(guān)的翻譯一致性強(qiáng)度；K表示所述多個(gè)主題的數(shù)量，i、k均為正整數(shù)，且 1 < k < K。
8. 根據(jù)權(quán)利要求7所述的裝置，術(shù)語翻譯一致性計(jì)算模塊還包括用于以取對(duì)數(shù)的方式將所述每個(gè)源語言術(shù)語的翻譯一致性強(qiáng)度進(jìn)行歸一化的模塊。
9. 一種統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)，所述系統(tǒng)中將術(shù)語翻譯一致性強(qiáng)度特征作為為源語言短語選擇相應(yīng)目標(biāo)譯文的特征之一，所述系統(tǒng)包括：術(shù)語翻譯一致性計(jì)算模塊，用于對(duì)于待翻譯文本中每個(gè)源語言句子中每個(gè)短語及其對(duì) 應(yīng)的每個(gè)候選目標(biāo)譯文，判斷該短語是否在雙語術(shù)語庫(kù)的源語言術(shù)語集合中并且該候選目標(biāo)譯文屬于所述雙語術(shù)語庫(kù)中與該短語對(duì)齊一致且互為翻譯的目標(biāo)術(shù)語集合；如果是，則將該候選譯文對(duì)應(yīng)的術(shù)語翻譯一致性強(qiáng)度特征的值設(shè)置為該短語的翻譯一致性強(qiáng)度；其中，所述雙語術(shù)語庫(kù)包括從雙語平行語料庫(kù)中抽取的源語言術(shù)語集合、與所述源語言術(shù)語集合中每個(gè)源語言術(shù)語滿足對(duì)齊一致性且互為翻譯的目標(biāo)語言術(shù)語構(gòu)成的集合；所述該短語的翻譯一致性強(qiáng)度采用如權(quán)利要求4或5所述的方法來計(jì)算。
【文檔編號(hào)】G06F17/27GK104298663SQ201410520322
【公開日】2015年1月21日申請(qǐng)日期:2014年9月30日優(yōu)先權(quán)日:2014年9月30日
【發(fā)明者】孟凡東, 熊德意, 姜文斌, 劉群申請(qǐng)人:中國(guó)科學(xué)院計(jì)算技術(shù)研究所

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：孟凡東;熊德意;姜文斌;劉群
技術(shù)所有人：中國(guó)科學(xué)院計(jì)算技術(shù)研究所
我是此專利的發(fā)明人

上一篇：軟件產(chǎn)品數(shù)據(jù)庫(kù)的更新方法
上一篇：基于圖像離散余弦變換的三維網(wǎng)格模型盲水印方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

統(tǒng)計(jì)量的一致性相關(guān)技術(shù)

統(tǒng)計(jì)機(jī)器翻譯相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

評(píng)價(jià)術(shù)語領(lǐng)域翻譯一致性的方法及統(tǒng)計(jì)機(jī)器翻譯方法