技術總結
本發(fā)明涉及一種基于錨點的增長式實時雙語詞對齊的對齊方法及對齊系統(tǒng),所述對齊方法包括:對一對源語言句子和目標語言句子進行分詞處理,獲得源語言詞組和目標語言詞組;根據源語言詞組和目標語言詞組確定探測錨點集合;根據探測錨點集合,進行雙語短語切分,得到雙語短語切分候選集合;根據雙語短語切分候選集合和詞對齊模型,確定源語言詞組和目標語言詞組的對齊雙語詞;將源語言詞組、目標語言詞組及對齊雙語詞添加到批處理訓練集中,判斷當前的批處理訓練集的大小是否超過設定閾值,如果是則根據當前的批處理訓練集更新詞對齊模型;否則重復上述步驟。本發(fā)明對齊方法可有效降低新詞和長句的雙語詞對齊的錯誤率,提高最終的機器翻譯譯文質量。
技術研發(fā)人員:張家俊;黃國平;周玉;宗成慶
受保護的技術使用者:中國科學院自動化研究所
文檔號碼:201611169586
技術研發(fā)日:2016.12.16
技術公布日:2017.06.13