一種詞語對(duì)齊方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種詞語對(duì)齊方法及裝置,涉及機(jī)器翻譯【技術(shù)領(lǐng)域】;解決了詞語對(duì)齊的技術(shù)問題;該技術(shù)方案包括:將需要對(duì)齊的兩種語言的句子切分成一個(gè)個(gè)單詞或短語,進(jìn)行詞語分組,在所述詞語分組中查詢匹配,進(jìn)行互譯對(duì)的對(duì)齊;用于在機(jī)器翻譯過程中準(zhǔn)確、完整的短語表的構(gòu)建。
【專利說明】一種詞語對(duì)齊方法及裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及機(jī)器翻譯【技術(shù)領(lǐng)域】,尤其涉及一種詞語對(duì)齊方法及裝置。
【背景技術(shù)】
[0002] 詞語對(duì)齊是自然語言處理領(lǐng)域的一個(gè)基本的問題,許多基于雙語語料庫的應(yīng)用 (如統(tǒng)計(jì)機(jī)器翻譯(SMT)、基于實(shí)例的機(jī)器翻譯(EBMT)、詞義消歧(WSD)、詞典編撰等)都需要 詞匯級(jí)別的對(duì)齊。一般來講,對(duì)齊有篇章(section)、段落(paragraph)、句子(sentence)、 短語(phrase)、詞語(word)等不同級(jí)別的對(duì)齊,其目的就是從雙語互譯的文本中找出互譯 的片段。其中篇章、段落、句子的對(duì)齊技術(shù)主要用于語料庫的整理,而短語和詞語對(duì)齊,就是 要找出相互翻譯的文本中對(duì)應(yīng)的詞與詞、詞與短語、短語和短語之間的相互翻譯對(duì)?,F(xiàn)今的 基于短語的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中,很大一部分程度依賴于詞語對(duì)齊,詞語對(duì)齊對(duì)統(tǒng)計(jì)機(jī)器 翻譯中的短語抽取起到了很大的作用?,F(xiàn)在使用最多的詞語對(duì)齊方法就是使用雙語語料庫 來抽取詞語對(duì)齊,其中典型的對(duì)齊軟件就是GIZA++ [0ch,2000;0ch et al.,2003]。612八++ 實(shí)現(xiàn)了 IBM公司提出的5個(gè)模型[Brown et al.,1993]和隱馬爾科夫模型(HMM) [Och et al.,2003],其主要思想是利用EM算法對(duì)雙語語料庫進(jìn)行迭代訓(xùn)練,由句子對(duì)齊得到詞語 對(duì)齊。表1是從GIZA++對(duì)齊文件中取出的一個(gè)稍加改進(jìn)的例子。其中z是目標(biāo)語言句子、 是源語言句子、a是對(duì)齊結(jié)果,比如"3-2"的意思就是說中文句子的第二個(gè)單詞"在"對(duì)齊 到英文的第四個(gè)單詞"in"(英文句子從0開始標(biāo)注)。
[0003] 表1.詞語對(duì)齊示例
【權(quán)利要求】
1. 一種詞語對(duì)齊方法,其特征在于,該方法包括: 將需要對(duì)齊的句子切分成一個(gè)個(gè)單詞或短語,進(jìn)行詞語分組;在所述的詞語分組中查 詢匹配,進(jìn)行互譯對(duì)的對(duì)齊。
2. 如權(quán)利要求1所述的方法,其特征在于,所述進(jìn)行詞語分組前先構(gòu)建短語詞典,所述 短語為語言學(xué)意義上的短語;盡可能的用所述短語詞典內(nèi)的最長的短語來匹配句子中的字 符串。
3. 如權(quán)利要求2所述的方法,其特征在于,所述詞語分組,在分組過程中要同時(shí)查詢到 每個(gè)單詞或者短語對(duì)應(yīng)的譯文解釋;由每個(gè)單詞或者短語及其對(duì)應(yīng)的譯文解釋構(gòu)成基本詞 典。
4. 如權(quán)利要求3所述的方法,其特征在于,在雙語對(duì)齊的時(shí)候,可以利用一種語言的單 詞或短語的譯文信息對(duì)另一種語言的句子切分結(jié)果進(jìn)行校正。
5. 如權(quán)利要求2所述的方法,其特征在于,所述詞語分組的過程如下: (1) 待切分的字符串^,已經(jīng)切分分組的字符串七; (2) 如果是&是空串,則轉(zhuǎn)到(6); (3) 從5^的左邊復(fù)制一個(gè)字符串ff,長度不以A; (4) 如果在所述短語詞典中找到這個(gè)子字符串#或者#最后是一個(gè)單個(gè)單詞,那么把r 和一個(gè)分隔符放到_s2中; (5) 去掉r中右邊的一個(gè)單詞,繼續(xù)轉(zhuǎn)到(4)進(jìn)行處理; (6) 分組結(jié)束。
6. 如權(quán)利要求3所述的方法,其特征在于,根據(jù)構(gòu)建的基本詞典來查詢一種語言的單 詞或短語是否在另一種語言的句子中的單詞或短語對(duì)應(yīng)的譯文解釋中,如果在的話那就直 接找到這個(gè)對(duì)齊對(duì)。
7. 如權(quán)利要求6所述的方法,其特征在于,對(duì)于不在另一種語言的句子中的單詞或短 語對(duì)應(yīng)的譯文解釋中的單詞或短語,可以在所述構(gòu)建的另一種語言的基本詞典中,根據(jù)相 似度的匹配經(jīng)過第一次相似度計(jì)算來找到可能的對(duì)齊對(duì)。
8. 如權(quán)利要求7所述的方法,其特征在于,把經(jīng)過第一次相似度計(jì)算仍然未對(duì)齊的單 詞或短語與GIZA++生成的短語對(duì)齊概率表中釋義進(jìn)行第二次相似度的計(jì)算,找出可能的 對(duì)齊對(duì)。
9. 如權(quán)利要求1所述的方法,其特征在于,對(duì)于句子中含有兩個(gè)以上的相同單詞或短 語,可以使用不同的詞性來處理;或者,如果詞性相同,對(duì)于含有兩個(gè)以上的相同數(shù)字對(duì)齊 的情況,可以簡單的把一種語言詞語前面的對(duì)齊到另一種語言的句子中前面的詞語,后面 的詞語對(duì)齊到后面的詞語;或者,對(duì)于數(shù)字不相同的,按照對(duì)齊后的數(shù)字要連續(xù)遞增的規(guī) 律,去除小于前面的數(shù)字,構(gòu)成連續(xù)遞增序列; 其中,數(shù)字代表詞語的位置。
10. 如權(quán)利要求1所述的方法,其特征在于,當(dāng)一種語言A的單詞或短語可以對(duì)應(yīng)多個(gè) 另一種語言B的單詞或短語概率比較大時(shí),關(guān)于該兩種語言的對(duì)齊,采用單向?qū)R的方法, 就是把語言B單詞或短語對(duì)齊到語言A單詞或短語上,一個(gè)或者多個(gè)語言B單詞或短語可 以對(duì)齊到一個(gè)語言A單詞或短語上去。
11. 一種詞語對(duì)齊裝置,其特征在于,該裝置包括: 切分單元,用于將需要對(duì)齊的句子切分成一個(gè)個(gè)單詞或短語,進(jìn)行詞語分組; 比較單元,用于在所述的詞語分組中查詢匹配,進(jìn)行互譯對(duì)的對(duì)齊。
12. 如權(quán)利要求11所述的裝置,其特征在于,所述切分單元,用于進(jìn)行詞語分組前先構(gòu) 建短語詞典,所述短語為語言學(xué)意義上的短語;盡可能的用所述短語詞典內(nèi)的最長的短語 來匹配句子中的字符串。
13. 如權(quán)利要求12所述的裝置,其特征在于,所述切分單元用于所述詞語分組,在分組 過程中要同時(shí)查詢到每個(gè)單詞或者短語對(duì)應(yīng)的譯文解釋;由每個(gè)單詞或者短語及其對(duì)應(yīng)的 譯文解釋構(gòu)成基本詞典。
14. 如權(quán)利要求13所述的裝置,其特征在于,所述切分單元用于在雙語對(duì)齊的時(shí)候,可 以利用一種語言的單詞或短語的譯文信息對(duì)另一種語言的句子切分結(jié)果進(jìn)行校正。
15. 如權(quán)利要求12所述的裝置,其特征在于,所述切分單元用于所述詞語分組的過程 如下: (1) 待切分的字符串^,已經(jīng)切分分組的字符串七; (2) 如果是&是空串,則轉(zhuǎn)到(6); (3) 從5^的左邊復(fù)制一個(gè)字符串ff,長度不以A; (4) 如果在所述短語詞典中找到這個(gè)子字符串#或者#最后是一個(gè)單個(gè)單詞,那么把r 和一個(gè)分隔符放到_s2中; (5) 去掉r中右邊的一個(gè)單詞,繼續(xù)轉(zhuǎn)到(4)進(jìn)行處理; (6) 分組結(jié)束。
16. 如權(quán)利要求13所述的裝置,其特征在于,所述比較單元,用于根據(jù)構(gòu)建的基本詞典 來查詢一種語言的單詞或短語是否在另一種語言的句子中的單詞或短語對(duì)應(yīng)的譯文解釋 中,如果在的話那就直接找到這個(gè)對(duì)齊對(duì)。
17. 如權(quán)利要求16所述的裝置,其特征在于,所述比較單元,用于對(duì)于不在另一種語言 的句子中的單詞或短語對(duì)應(yīng)的譯文解釋中的單詞或短語,可以在所述構(gòu)建的另一種語言的 基本詞典中,根據(jù)相似度的匹配經(jīng)過第一次相似度計(jì)算來找到可能的對(duì)齊對(duì)。
18. 如權(quán)利要求17所述的裝置,其特征在于,所述比較單元,用于把經(jīng)過第一次相似度 計(jì)算仍然未對(duì)齊的單詞或短語與GIZA++生成的短語對(duì)齊概率表中釋義進(jìn)行第二次相似度 的計(jì)算,找出可能的對(duì)齊對(duì)。
19. 如權(quán)利要求11所述的方法,其特征在于,所述比較單元,用于對(duì)于句子中含有兩個(gè) 以上的相同單詞或短語,可以使用不同的詞性來處理;或者,如果詞性相同,對(duì)于含有兩個(gè) 以上的相同數(shù)字對(duì)齊的情況,可以簡單的把一種語言詞語前面的對(duì)齊到另一種語言的句子 中前面的詞語,后面的詞語對(duì)齊到后面的詞語;或者,對(duì)于數(shù)字不相同的,按照對(duì)齊后的數(shù) 字要連續(xù)遞增的規(guī)律,去除小于前面的數(shù)字,構(gòu)成連續(xù)遞增序列; 其中,數(shù)字代表詞語的位置。
20. 如權(quán)利要求11所述的裝置,其特征在于,所述比較單元,用于當(dāng)一種語言A的單詞 或短語可以對(duì)應(yīng)多個(gè)另一種語言B的單詞或短語概率比較大時(shí),關(guān)于該兩種語言的對(duì)齊, 采用單向?qū)R的方法,就是把語言B單詞或短語對(duì)齊到語言A單詞或短語上,一個(gè)或者多個(gè) 語言B單詞或短語可以對(duì)齊到一個(gè)語言A單詞或短語上去。
21. -種機(jī)器翻譯系統(tǒng),其特征在于,該系統(tǒng)包括詞語對(duì)齊裝置, 用于將需要對(duì)齊的句子切分成一個(gè)個(gè)單詞或短語,進(jìn)行詞語分組;在所述的詞語分組 中查詢匹配,進(jìn)行互譯對(duì)的對(duì)齊; 進(jìn)行詞語分組前先構(gòu)建短語詞典,所述短語為語言學(xué)意義上的短語;盡可能的用所述 短語詞典內(nèi)的最長的短語來匹配句子中的字符串; 所述詞語分組,在分組過程中要同時(shí)查詢到每個(gè)單詞或者短語對(duì)應(yīng)的譯文解釋;由每 個(gè)單詞或者短語及其對(duì)應(yīng)的譯文解釋構(gòu)成基本詞典; 根據(jù)構(gòu)建的基本詞典來查詢一種語言的單詞或短語是否在另一種語言的句子中的單 詞或短語對(duì)應(yīng)的譯文解釋中,如果在的話那就直接找到這個(gè)對(duì)齊對(duì)。
【文檔編號(hào)】G06F17/30GK104375988SQ201410611053
【公開日】2015年2月25日 申請(qǐng)日期:2014年11月4日 優(yōu)先權(quán)日:2014年11月4日
【發(fā)明者】魏子杭 申請(qǐng)人:北京第二外國語學(xué)院