專利名稱:基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息處理技術(shù),具體地,涉及基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯方 法和系統(tǒng)。
背景技術(shù):
機(jī)器翻譯技術(shù)主要分為基于規(guī)則的機(jī)器翻譯、基于語(yǔ)料庫(kù)的機(jī)器翻譯。在基于語(yǔ)料庫(kù)的機(jī)器翻譯中,主要的翻譯資源來(lái)源于語(yǔ)料庫(kù)。基于語(yǔ) 料庫(kù)的機(jī)器翻譯又分為基于實(shí)例的機(jī)器翻譯、基于統(tǒng)計(jì)的機(jī)器翻譯。在 基于統(tǒng)計(jì)的機(jī)器翻譯中,基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯方法是目前最主要的自 動(dòng)翻譯方法之一?;诙陶Z(yǔ)的統(tǒng)計(jì)機(jī)器翻譯方法的基本翻譯單元是短語(yǔ),且所應(yīng)用的翻 譯知識(shí)是從語(yǔ)料庫(kù)中的平行雙語(yǔ)語(yǔ)料獲得的短語(yǔ)表和語(yǔ)言模型,短語(yǔ)表由 平行雙語(yǔ)語(yǔ)料中互為翻譯的雙語(yǔ)短語(yǔ)對(duì)組成。在此,短語(yǔ)的定義是連續(xù)的 詞片段。常規(guī)的基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯的過(guò)程主要包括首先,對(duì)于待翻譯 的輸入句子,使用精確匹配方法搜索短語(yǔ)表,找到與該輸入句子對(duì)應(yīng)的、 所有完全匹配的雙語(yǔ)短語(yǔ)對(duì);然后,基于這些雙語(yǔ)短語(yǔ)對(duì)以及語(yǔ)言模型,釆用統(tǒng)計(jì)思想選出該輸入句子的目標(biāo)語(yǔ)言譯文片段的組合中得分最高的那 一個(gè),作為輸入句子的正確目標(biāo)語(yǔ)言譯文。圖1示出了實(shí)現(xiàn)上述過(guò)程的常規(guī)的基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的方框圖。如圖l所示,該系統(tǒng)10主要包括輸入單元11、查找單元12、譯 文生成單元13、輸出單元14、短語(yǔ)表存儲(chǔ)單元15以及語(yǔ)言模型存儲(chǔ)單元16等。其中,輸入單元11是該系統(tǒng)10與外部的接口,該系統(tǒng)10通過(guò)輸入 單元11從外部獲得待翻譯的輸入句子。查找單元12進(jìn)行短語(yǔ)的精確匹配。具體地,其對(duì)通過(guò)輸入單元11獲 得的待翻譯的輸入句子,使用精確匹配算法在短語(yǔ)表存儲(chǔ)單元15所存儲(chǔ)的 短語(yǔ)表中查找與該輸入句子對(duì)應(yīng)的、完全匹配的雙語(yǔ)短語(yǔ)對(duì)。并且,譯文生成單元13生成輸入句子的正確目標(biāo)語(yǔ)言譯文。具體地, 其基于查找單元12所查找的雙語(yǔ)短語(yǔ)對(duì)以及語(yǔ)言才莫型存儲(chǔ)單元16中所存 儲(chǔ)的語(yǔ)言模型,利用統(tǒng)計(jì)模型選出該輸入句子的、可能的目標(biāo)語(yǔ)言譯文中 得分最高的那一個(gè),作為該輸入句子的正確目標(biāo)語(yǔ)言譯文。由譯文生成單元13生成的該目標(biāo)語(yǔ)言譯文通過(guò)輸出單元14輸出。 圖2示出了采用圖1的上述系統(tǒng)進(jìn)行的機(jī)器翻譯示例。在該示例中, 對(duì)于輸入句子"我覺(jué)得她那故事的結(jié)尾很激動(dòng)人心",圖l的系統(tǒng)利用短 語(yǔ)的精確匹配技術(shù),在短語(yǔ)表中找到與該輸入句子對(duì)應(yīng)的、四個(gè)完全匹配 的雙語(yǔ)短語(yǔ)對(duì)(Pl)我覺(jué)得oI found; (P2)她oher; (P3)那故事的結(jié)尾 <-〉the end of the story; (P4)4艮激動(dòng)人心〈畫〉very exciting。并且,才艮據(jù)這四 個(gè)雙語(yǔ)短語(yǔ)對(duì),系統(tǒng)使用統(tǒng)計(jì)模型得到最終的譯文"I found her the end of the story very exciting"。從上面可以看出,在常規(guī)的基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中,對(duì)于待 翻譯的輸入句子,使用精確匹配方法在短語(yǔ)表中搜索完全匹配的雙語(yǔ)短語(yǔ) 對(duì)來(lái)得到輸入句子的譯文。精確匹配方法要求兩個(gè)待匹配的短語(yǔ)必須完全 一致。但是,通常情況下,預(yù)先建立的語(yǔ)料庫(kù)中的平行雙語(yǔ)語(yǔ)料都是非常 有限的,可能不會(huì)覆蓋較長(zhǎng)的短語(yǔ)。這樣,對(duì)于待翻譯的輸入句子中較長(zhǎng) 的短語(yǔ),精確匹配方法很難在短語(yǔ)表中找到完全匹配的雙語(yǔ)短語(yǔ)對(duì)。這樣,在翻譯過(guò)程中,只能將較長(zhǎng)的短語(yǔ)切分成幾個(gè)較短的短語(yǔ)來(lái)--進(jìn)行匹配。但是,由于較長(zhǎng)的短語(yǔ)相對(duì)于較短的短語(yǔ)來(lái)說(shuō)包含有更多的上下文信息, i T入句子利用較短的短il利用較長(zhǎng)的短語(yǔ)的匹配所得到的目標(biāo)語(yǔ)言譯文。6發(fā)明內(nèi)容本發(fā)明正是鑒于上述現(xiàn)有技術(shù)中的問(wèn)題而提出的,其目的在于提供一 種基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯方法和系統(tǒng),以便能夠通過(guò)短語(yǔ)的模糊匹配, 為輸入句子中較長(zhǎng)的短語(yǔ)生成高質(zhì)量的譯文,從而基于較長(zhǎng)的短語(yǔ)來(lái)進(jìn)行 輸入句子的翻譯,來(lái)有效地提高機(jī)器翻譯系統(tǒng)的譯文質(zhì)量。根據(jù)本發(fā)明的一個(gè)方面,提供一種基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯方法,包括在預(yù)先設(shè)定的短語(yǔ)表中,為輸入句子中的短語(yǔ)進(jìn)行模糊匹配。根據(jù)本發(fā)明的另 一個(gè)方面,提供一種基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng), 包括短語(yǔ)模糊匹配單元,用于在預(yù)先設(shè)定的短語(yǔ)表中,為輸入句子中的 短語(yǔ)進(jìn)行模糊匹配。
相信通過(guò)以下結(jié)合附圖對(duì)本發(fā)明具體實(shí)施方式
的說(shuō)明,能夠使人們更 好地了解本發(fā)明上述的特點(diǎn)、優(yōu)點(diǎn)和目的。圖l是常規(guī)的基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的方框圖; 圖2示出了采用圖l的系統(tǒng)的機(jī)器翻譯示例; 圖3是根據(jù)本發(fā)明實(shí)施例的基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯方法的流程圖; 圖4是根據(jù)本發(fā)明一個(gè)實(shí)施例的、圖3的方法中短語(yǔ)的模糊匹配過(guò)程 的詳細(xì)流程圖;圖5示出了采用圖3、 4的方法的機(jī)器翻譯示例;圖6是根據(jù)本發(fā)明實(shí)施例的基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的方框圖;以及圖7是根據(jù)本發(fā)明一個(gè)實(shí)施例的、圖6的系統(tǒng)中短語(yǔ)模糊匹配單元的方框圖。
具體實(shí)施方式
下面就結(jié)合附圖對(duì)本發(fā)明的各個(gè)優(yōu)選實(shí)施例進(jìn)行詳細(xì)說(shuō)明。圖3是根據(jù)本發(fā)明實(shí)施例的基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯方法的流程圖。 如圖3所示,首先在步驟305,獲得待翻譯的輸入句子。 在步驟310,進(jìn)行短語(yǔ)的模糊匹配。具體地,在該步驟中,對(duì)于上述輸入句子,使用短語(yǔ)的模糊匹配方法 在預(yù)先設(shè)定的短語(yǔ)表中為該輸入句子中的各短語(yǔ)查找相同的或最相似的雙 語(yǔ)短語(yǔ)對(duì),進(jìn)而修改最相似的雙語(yǔ)短語(yǔ)對(duì),從而得到各短語(yǔ)的正確譯文。在步驟315,生成輸入句子的目標(biāo)語(yǔ)言譯文。具體地,基于在步驟310獲得的雙語(yǔ)短語(yǔ)對(duì)以及預(yù)先設(shè)定的語(yǔ)言模型, 利用統(tǒng)計(jì)模型選出上述輸入句子的、可能的目標(biāo)語(yǔ)言譯文中得分最高的那 一個(gè),作為該輸入句子的正確目標(biāo)語(yǔ)言譯文。在步驟320,輸出所生成的上述目標(biāo)語(yǔ)言譯文。下面詳細(xì)描述上面的步驟310的過(guò)程。圖4是才艮據(jù)本發(fā)明一個(gè)實(shí)施例 的、該步驟310的短語(yǔ)的模糊匹配過(guò)程的詳細(xì)流程圖。圖5是采用圖3、 4 的方法進(jìn)行的機(jī)器翻譯示例。在本實(shí)施例中,短語(yǔ)的模糊匹配的過(guò)程是根據(jù)基于實(shí)例的機(jī)器翻譯 (Example-Based Machine Translation, EBMT)思想來(lái)實(shí)現(xiàn)的?;趯?shí) 例的機(jī)器翻譯方法的主要過(guò)程是首先,搜索例句庫(kù),查找與輸入句子相 似的例句;然后,識(shí)別出相似例句與輸入句子之間的不同之處;最后,根 據(jù)翻譯模型消除相似例句中的不同,從而生成輸入句子的譯文。關(guān)于基于實(shí)例的機(jī)器翻譯方法的詳細(xì)信息,可以參考Harold Somers在1999年發(fā)表 的 "Review Article: Example-based Machine Translation" , Machine Translation, 14(2): 113-157。如圖4所示,本實(shí)施例的短語(yǔ)的模糊匹配過(guò)程首先在步驟405,為上 述輸入句子中的各短語(yǔ),從預(yù)先設(shè)定的短語(yǔ)表中查找相同的或最相似的雙 語(yǔ)短語(yǔ)對(duì)。例如,參照?qǐng)D5,假設(shè)輸入句子仍是"我覺(jué)得她那故事的結(jié)尾很激動(dòng) 人心",則在為該輸入句子中的各短語(yǔ)從短語(yǔ)表中查找相同的或最相似的 雙語(yǔ)短語(yǔ)對(duì)的過(guò)程中,對(duì)于短語(yǔ)"我覺(jué)得",找到了完全匹配的雙語(yǔ)短語(yǔ)那故事的結(jié)尾",找到了最相 似的雙語(yǔ)短語(yǔ)對(duì)"(S3)那故事的結(jié)尾othe end of the story";對(duì)于短語(yǔ)"很 激動(dòng)人心",找到了完全匹配的雙語(yǔ)短語(yǔ)對(duì)"(P4)很激動(dòng)人心overy exciting"。其中,對(duì)于上述"她那故事的結(jié)尾,,這樣在短語(yǔ)表中沒(méi)有完全匹配的 雙語(yǔ)短語(yǔ)對(duì)的較長(zhǎng)的短語(yǔ),查找其最相似的雙語(yǔ)短語(yǔ)對(duì)的過(guò)程是首先, 從短語(yǔ)表中找出包含與該短語(yǔ)中相同的詞匯最多的多個(gè)相似的候選雙語(yǔ)短 語(yǔ)對(duì);然后,依次計(jì)算這多個(gè)相似的候選雙語(yǔ)短語(yǔ)對(duì)與該短語(yǔ)之間的編輯 距離,其中編輯距離是從相似的候選雙語(yǔ)短語(yǔ)對(duì)中的源語(yǔ)言短語(yǔ)轉(zhuǎn)換到該 短語(yǔ)所需要的插入、刪除和替換操作的數(shù)目;最后,選出與該短語(yǔ)之間的 編輯距離最小的那一個(gè)相似的候選雙語(yǔ)短語(yǔ)對(duì),作為該短語(yǔ)的最相似的雙 語(yǔ)短語(yǔ)對(duì)。例如,參照?qǐng)D5,對(duì)于短語(yǔ)"她那故事的結(jié)尾,,,在短語(yǔ)表中找到了 多個(gè)相似的候選雙語(yǔ)短語(yǔ)對(duì)"(Sl)故事的情節(jié)othe plot of the story" 、 "(S2) 電影的結(jié)尾otheendofthefilm"和"(S3)那故事的結(jié)尾othe end of the story"。在此情況下,對(duì)于上述候選雙語(yǔ)短語(yǔ)對(duì)(S1)、 (S2)和(S3),分別計(jì)算其 與上述短語(yǔ)"她那故事的結(jié)尾"之間的編輯距離,從而得到(Sl)與該短 語(yǔ)之間的編輯距離是2,即需要在(S1)的源語(yǔ)言短語(yǔ)中進(jìn)行"她那"的插入 以及"情節(jié),,與"結(jié)尾"的替換兩項(xiàng)操作;(S2)與該短語(yǔ)之間的編輯距離 也是2,即需要在(S2)的源語(yǔ)言短語(yǔ)中進(jìn)行"她那"的插入以及"電影"與 "故事"的替換兩項(xiàng)操作;(S3)與該短語(yǔ)之間的編輯距離是l,即僅需要在 (S3)的源語(yǔ)言短語(yǔ)中進(jìn)行"她"的插入一項(xiàng)操作。從而,可以得到與該短語(yǔ)"她那故事的結(jié)尾"之間的編輯距離最小的 雙語(yǔ)短語(yǔ)對(duì)"(S3)那故事的結(jié)尾othe end of the story",作為該短語(yǔ)的最 相似的雙語(yǔ)短語(yǔ)對(duì)。 410,對(duì)于上述輸入句子中未查找到完全匹配的雙語(yǔ)短語(yǔ)對(duì)、 而是查找到最相似的雙語(yǔ)短語(yǔ)對(duì)的短語(yǔ)的每一個(gè),識(shí)別出為其查找到的最相似的雙語(yǔ)短語(yǔ)對(duì)與該短語(yǔ)之間的差異。也就是說(shuō),識(shí)別出該最相似的雙 語(yǔ)短語(yǔ)對(duì)中的源語(yǔ)言短語(yǔ)與該短語(yǔ)之間不同的詞匯。
具體地,在本步驟中,可以才艮據(jù)具體情況采用以下方法中的一種來(lái)判
斷上述最相似的雙語(yǔ)短語(yǔ)對(duì)中的源語(yǔ)言短語(yǔ)與該短語(yǔ)中的詞匯是否相同
1 )直接原樣比較上述最相似的雙語(yǔ)短語(yǔ)對(duì)中的源語(yǔ)言短語(yǔ)與上述短語(yǔ) 之間的各詞匯是否一致。
2 )如果上述短語(yǔ)是英文,則比較上述最相似的雙語(yǔ)短語(yǔ)對(duì)中的源語(yǔ)言 短語(yǔ)與該短語(yǔ)之間的各詞匯的原形是否 一致。
3 )利用同義詞詞典,檢查上述最相似的雙語(yǔ)短語(yǔ)對(duì)中的源語(yǔ)言短語(yǔ)與 上述短語(yǔ)之間的不同的詞匯是否表達(dá)了相同的意思。
例如,如果圖5的示例中為上述短語(yǔ)"她那故事的結(jié)尾,,找到的最相 似的雙語(yǔ)短語(yǔ)對(duì)是"那小說(shuō)的結(jié)尾othe end of the novel",則雖然從字 面來(lái)看其中的"小說(shuō)"與該較長(zhǎng)的短語(yǔ)中的"故事"是不同的詞匯,但如 果同義詞詞典中定義"小說(shuō)"與"故事"屬于同義詞,則它們就表達(dá)了相 同的意思,這樣,可以認(rèn)為"小說(shuō)"和"故事,,屬于意思相同的詞匯,而 不認(rèn)為它們是不同的部分。
4)利用翻譯詞典,檢查上述最相似的雙語(yǔ)短語(yǔ)對(duì)中的源語(yǔ)言短語(yǔ)與上 述短語(yǔ)之間的不同的詞匯是否表達(dá)了相同的意思。
同樣,如果圖5的示例中為上迷短語(yǔ)"她那故事的結(jié)尾"找到的最相 似的雙語(yǔ)短語(yǔ)對(duì)是"那小說(shuō)的結(jié)尾othe end of the novel",則如果能夠 在翻譯詞典中查找到"故事"可以翻譯為"story"或"novel","小說(shuō)" 可以翻譯為"novel",則可以認(rèn)為"小說(shuō)"和"故事"屬于意思相同的詞 匯,而不認(rèn)為它們是不同的部分。
在步驟415,對(duì)于上述輸入句子中未查找到完全匹配的雙語(yǔ)短語(yǔ)對(duì)、 而是查找到最相似的雙語(yǔ)短語(yǔ)對(duì)的短語(yǔ)的每一個(gè),修改其最相似的雙語(yǔ)短 語(yǔ)對(duì)中與該短語(yǔ)之間的差異,以得到該短語(yǔ)的目標(biāo)語(yǔ)言譯文。
也就是說(shuō),修改該最相似的雙語(yǔ)短語(yǔ)對(duì)中與該短語(yǔ)之間不同的詞匯。 具體地,首先j奮改該最相似的雙語(yǔ)短語(yǔ)對(duì)中的源語(yǔ)言短語(yǔ)中與該短語(yǔ)意思不同的詞匯,使得修改后的該源語(yǔ)言短語(yǔ)與該短語(yǔ)一致,然后修改該最相 似的雙語(yǔ)短語(yǔ)對(duì)中的目標(biāo)語(yǔ)言短語(yǔ)中的相應(yīng)詞匯,從而得到該短語(yǔ)的目標(biāo) 語(yǔ)言譯文。
例如,對(duì)于圖5的示例中為短語(yǔ)"她那故事的結(jié)尾"找到的最相似的 雙語(yǔ)短語(yǔ)對(duì)"(S3)那故事的結(jié)尾othe end of the story"而言,由于其與該 短語(yǔ)之間的不同部分是缺少詞匯"她",所以首先在(S3)的源語(yǔ)言短語(yǔ)中 的"那"之前插入"她",使得修改后的該源語(yǔ)言短語(yǔ)與上述短語(yǔ)一致, 然后通過(guò)查找詞典得到"她)her",并以此根據(jù)源語(yǔ)言短語(yǔ)修改(S3)的目 標(biāo)語(yǔ)言短語(yǔ)中的相應(yīng)詞匯,即用"her"替換目標(biāo)語(yǔ)言短語(yǔ)中的第二個(gè)"the,,, 從而得到上述短語(yǔ)的正確目標(biāo)語(yǔ)言譯文"the end of her story"。
從而,參照?qǐng)D5,對(duì)于輸入句子"我覺(jué)得她那故事的結(jié)尾很激動(dòng)人心,,, 根據(jù)通過(guò)短語(yǔ)的模糊匹配所獲得的各雙語(yǔ)短語(yǔ)對(duì)(Pl)我覺(jué)得ol found; (P5)"她那故事的結(jié)尾"<->the end of her story; (P4)很激動(dòng)人心overy exciting,使用統(tǒng)計(jì)模型能夠得到該輸入句子的得分最高的最終目標(biāo)語(yǔ)言譯 文"I found the end of her story very exciting"。
以上就是對(duì)本實(shí)施例的基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯方法的詳細(xì)描述。在 本實(shí)施例中,通過(guò)對(duì)短語(yǔ)進(jìn)行模糊匹配,能夠?yàn)檩斎刖渥又休^長(zhǎng)的短語(yǔ)生 成高質(zhì)量的譯文,從而能夠基于較長(zhǎng)的短語(yǔ)來(lái)實(shí)現(xiàn)輸入句子的翻譯,相對(duì) 于基于短語(yǔ)的精確匹配的翻譯系統(tǒng)來(lái)說(shuō),能夠有效地提高譯文質(zhì)量。并且, 比較圖2的示例中基于短語(yǔ)的精確匹配而得到的譯文與圖5中根據(jù)本實(shí)施 例基于短語(yǔ)的模糊匹配而得到的譯文也可以看出,基于短語(yǔ)的模糊匹配而 得到的譯文明顯好于基于短語(yǔ)的精確匹配而得到的譯文。
此外,需要說(shuō)明的是,雖然在圖4的過(guò)程中利用基于實(shí)例的機(jī)器翻譯 方法來(lái)實(shí)現(xiàn)圖3的步驟310的短語(yǔ)的模糊匹配過(guò)程,但是,并不限于此, 在其他實(shí)施例中,可以采用任何現(xiàn)在已知或?qū)?lái)可知的翻譯思想來(lái)實(shí)現(xiàn)短 語(yǔ)的模糊匹配。
此外,還需要說(shuō)明的是,雖然在圖4的過(guò)程中所說(shuō)明的是為輸入句子 中在短語(yǔ)表中沒(méi)有完全匹配的雙語(yǔ)短語(yǔ)對(duì)的短語(yǔ),從多個(gè)相似的候選雙語(yǔ)
ii短語(yǔ)對(duì)中選出 一個(gè)編輯距離最小的最相似的雙語(yǔ)短語(yǔ)對(duì),并# 據(jù)該最相似 的雙語(yǔ)短語(yǔ)對(duì)得到該短語(yǔ)的目標(biāo)語(yǔ)言譯文的情況,但是,這僅是示例性的,
在實(shí)際實(shí)現(xiàn)中,可以是為該短語(yǔ)從多個(gè)相似的候選雙語(yǔ)短語(yǔ)對(duì)中選出前N (大于等于2)個(gè)編輯距離較小的相似雙語(yǔ)短語(yǔ)對(duì),并在根據(jù)編輯距離最 小的最相似的雙語(yǔ)短語(yǔ)對(duì)不能獲得該短語(yǔ)的正確譯文時(shí),向下使用次相似 的雙語(yǔ)短語(yǔ)對(duì),等等。
在同 一發(fā)明構(gòu)思下,本發(fā)明提供一種基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)。 下面結(jié)合附圖對(duì)其進(jìn)行描述。
圖6是根據(jù)本發(fā)明實(shí)施例的基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的方框圖。 如圖6所示,本實(shí)施例的基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)60包括輸入單元 61、短語(yǔ)模糊匹配單元62、譯文生成單元63、輸出單元64、短語(yǔ)表存儲(chǔ) 單元65以及語(yǔ)言模型存儲(chǔ)單元66。
輸入單元61是該系統(tǒng)60與外部的接口 ,該系統(tǒng)60通過(guò)輸入單元61 從外部獲得待翻譯的輸入句子。
短語(yǔ)模糊匹配單元62在預(yù)先設(shè)定的、存儲(chǔ)在短語(yǔ)表存儲(chǔ)單元65中的 短語(yǔ)表中,為上述輸入句子中的短語(yǔ)進(jìn)行模糊匹配,以找到各短語(yǔ)的目標(biāo) 語(yǔ)言譯文。
譯文生成單元63根據(jù)短語(yǔ)模糊匹配單元62的匹配結(jié)果以及預(yù)先設(shè)定 的、存儲(chǔ)在語(yǔ)言^^莫型存儲(chǔ)單元66中的語(yǔ)言模型,利用統(tǒng)計(jì)模型選出該輸入 句子的、可能的目標(biāo)語(yǔ)言譯文中得分最高的那一個(gè),作為該輸入句子的正 確目標(biāo)語(yǔ)言譯文。
并且,由譯文生成單元63生成的該目標(biāo)語(yǔ)言譯文通過(guò)輸出單元64輸出。
下面詳細(xì)描述上述短語(yǔ)模糊匹配單元62。圖7是根據(jù)本發(fā)明一個(gè)實(shí)施 例的上述短語(yǔ)模糊匹配單元的方框圖。本實(shí)施例的短語(yǔ)模糊匹配單元62 是根據(jù)基于實(shí)例的機(jī)器翻譯方法實(shí)現(xiàn)的。
具體地,如圖7所示,本實(shí)施例的短語(yǔ)模糊匹配單元62包括相同/ 相似雙語(yǔ)短語(yǔ)查找單元621、差異識(shí)別單元622以及修改單元623。相同/相似雙語(yǔ)短語(yǔ)查找單元621為上述輸入句子中的各短語(yǔ),從短語(yǔ) 表存儲(chǔ)單元65所存儲(chǔ)的短語(yǔ)表中查找相同的或最相似的雙語(yǔ)短語(yǔ)對(duì)。
具體地,相同/相似雙語(yǔ)短語(yǔ)查找單元621對(duì)于上述輸入句子中的各短 語(yǔ)從上述短語(yǔ)表中為該短語(yǔ)找出包含與該短語(yǔ)中相同的詞匯最多的多個(gè) 相似的候選雙語(yǔ)短語(yǔ)對(duì);依次計(jì)算這多個(gè)相似的候選雙語(yǔ)短語(yǔ)對(duì)與上述短 語(yǔ)之間的編輯距離,其中該編輯距離是從相似的候選雙語(yǔ)短語(yǔ)對(duì)中的源語(yǔ) 言短語(yǔ)轉(zhuǎn)換到該短語(yǔ)所需要的插入、刪除和替換操作的數(shù)目;以及從上述 多個(gè)相似的候選雙語(yǔ)短語(yǔ)對(duì)中選出與上述短語(yǔ)之間的編輯距離最小的那一 個(gè),作為該短語(yǔ)的最相似的雙語(yǔ)短語(yǔ)對(duì)。
差異識(shí)別單元622對(duì)于上述輸入句子的短語(yǔ)中被查找到最相似的雙語(yǔ) 短語(yǔ)對(duì)的短語(yǔ)的每一個(gè),識(shí)別出其最相似的雙語(yǔ)短語(yǔ)對(duì)與該短語(yǔ)之間的差 異。也就是說(shuō),識(shí)別出該最相似的雙語(yǔ)短語(yǔ)對(duì)中的源語(yǔ)言短語(yǔ)與該短語(yǔ)之 間意思不同的詞匯。
具體地,差異識(shí)別單元622對(duì)于上述輸入句子的短語(yǔ)中^f皮查找到最相 似的雙語(yǔ)短語(yǔ)對(duì)的短語(yǔ)的每一個(gè),直接地或利用同義詞詞典/翻譯詞典,識(shí) 別出其最相似的雙語(yǔ)短語(yǔ)對(duì)中的源語(yǔ)言短語(yǔ)與該短語(yǔ)之間意思不同的詞 匯。
修改單元623對(duì)于上述輸入句子的短語(yǔ)中被查找到最相似的雙語(yǔ)短語(yǔ) 對(duì)的短語(yǔ)的每一個(gè),修改其最相似的雙語(yǔ)短語(yǔ)對(duì)中與該短語(yǔ)之間的差異, 以得到該短語(yǔ)的目標(biāo)語(yǔ)言譯文。
具體地,修改單元623對(duì)于上述輸入句子的短語(yǔ)中被查找到最相似的 雙語(yǔ)短語(yǔ)對(duì)的短語(yǔ)的每一個(gè),修改其最相似的雙語(yǔ)短語(yǔ)對(duì)中的源語(yǔ)言短語(yǔ) 中與上述短語(yǔ)意思不同的詞匯,使得修改后的該源語(yǔ)言短語(yǔ)與該短語(yǔ)一致; 然后根據(jù)修改后的源語(yǔ)言短語(yǔ),修改該最相似的雙語(yǔ)短語(yǔ)對(duì)中的目標(biāo)語(yǔ)言 短語(yǔ)中的相應(yīng)詞匯。
需要說(shuō)明的是,雖然在本實(shí)施例中根據(jù)基于實(shí)例的機(jī)器翻譯方法來(lái)實(shí) 現(xiàn)短語(yǔ)模糊匹配單元62,但是,并不限于此,在其他實(shí)施例中,可以采用 任何現(xiàn)在已知或?qū)?lái)可知的翻譯思想來(lái)實(shí)現(xiàn)該短語(yǔ)模糊匹配單元。以上就是對(duì)本實(shí)施例的基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的詳細(xì)描述。
本實(shí)施例的基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)60及其各個(gè)組成部分,可以 由專用的電路或芯片構(gòu)成,也可以通過(guò)計(jì)算機(jī)(處理器)執(zhí)行相應(yīng)的程序 來(lái)實(shí)現(xiàn)。
以上雖然通過(guò)一些示例性的實(shí)施例對(duì)本發(fā)明的基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻 譯方法和系統(tǒng)進(jìn)行了詳細(xì)的描述,但是以上這些實(shí)施例并不是窮舉的,本 領(lǐng)域技術(shù)人員可以在本發(fā)明的精神和范圍內(nèi)實(shí)現(xiàn)各種變化和修改。因此, 本發(fā)明并不限于這些實(shí)施例,本發(fā)明的范圍僅以所附權(quán)利要求為準(zhǔn)。
權(quán)利要求
1.一種基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯方法,包括在預(yù)先設(shè)定的短語(yǔ)表中,為輸入句子中的短語(yǔ)進(jìn)行模糊匹配。
2. 根據(jù)權(quán)利要求l所述的方法,其中上述在預(yù)先設(shè)定的短語(yǔ)表中,為 輸入句子中的短語(yǔ)進(jìn)行才莫糊匹配的步驟進(jìn)一步包括在上述短語(yǔ)表中,利用基于實(shí)例的機(jī)器翻譯方法,為上述輸入句子中 的短語(yǔ)進(jìn)行模糊匹配。
3. 根據(jù)權(quán)利要求1或2所述的方法,其中上述在預(yù)先設(shè)定的短語(yǔ)表中, 為輸入句子中的短語(yǔ)進(jìn)行模糊匹配的步驟進(jìn)一步包括為上述輸入句子中的各短語(yǔ),從上述短語(yǔ)表中查找相同的或最相似的 雙語(yǔ)短i吾對(duì);對(duì)于上述輸入句子的短語(yǔ)中被查找到最相似的雙語(yǔ)短語(yǔ)對(duì)的短語(yǔ)的每 一個(gè),識(shí)別出其最相似的雙語(yǔ)短語(yǔ)對(duì)與該短語(yǔ)之間的差異;以及對(duì)于上述輸入句子的短語(yǔ)中被查找到最相似的雙語(yǔ)短語(yǔ)對(duì)的短語(yǔ)的每 一個(gè),^修改其最相似的雙語(yǔ)短語(yǔ)對(duì)中與該短語(yǔ)之間的差異,以得到該短語(yǔ) 的目標(biāo)語(yǔ)言譯文。
4. 根據(jù)權(quán)利要求3所述的方法,其中為上述輸入句子中的各短語(yǔ),從上述短語(yǔ)表中查找相同的或最相似的雙語(yǔ)短語(yǔ)對(duì)的步驟進(jìn)一步包括對(duì)于上述輸入句子的短語(yǔ)中未被查找到相同的雙語(yǔ)短語(yǔ)對(duì)的短語(yǔ)的每 —個(gè)從上述短語(yǔ)表中為該短語(yǔ)找出多個(gè)相似的候選雙語(yǔ)短語(yǔ)對(duì); 依次計(jì)算上述多個(gè)相似的候選雙語(yǔ)短語(yǔ)對(duì)與該短語(yǔ)之間的編輯距離,其中該編輯距離是從相似的候選雙語(yǔ)短語(yǔ)對(duì)中的源語(yǔ)言短語(yǔ)轉(zhuǎn)換到該短語(yǔ)所需要的插入、刪除和替換操作的數(shù)目;以及從上述多個(gè)相似的候選雙語(yǔ)短語(yǔ)對(duì)中選出與上述短語(yǔ)之間的編輯距離最小的相似的候選雙語(yǔ)短語(yǔ)對(duì),作為該短語(yǔ)的最相似的雙語(yǔ)短語(yǔ)對(duì)。
5. 根據(jù)權(quán)利要求3所述的方法,其中對(duì)于上述輸入句子的短語(yǔ)中被查找到最相似的雙語(yǔ)短語(yǔ)對(duì)的短語(yǔ)的每一個(gè),識(shí)別出其最相似的雙語(yǔ)短語(yǔ)對(duì)與該短語(yǔ)之間的差異的步驟進(jìn)一步包括直接地或利用同義詞詞典/翻譯詞典,識(shí)別出該最相似的雙語(yǔ)短語(yǔ)對(duì)中 的源語(yǔ)言短語(yǔ)與該短語(yǔ)之間意思不同的詞匯。
6. 根據(jù)權(quán)利要求5所述的方法,其中對(duì)于上述輸入句子的短語(yǔ)中被查 我到最相似的雙語(yǔ)短語(yǔ)對(duì)的短語(yǔ)的每一個(gè),修改其最相似的雙語(yǔ)短語(yǔ)對(duì)中 與該短語(yǔ)之間的差異的步驟進(jìn)一步包括^修改該最相似的雙語(yǔ)短語(yǔ)對(duì)中的源語(yǔ)言短語(yǔ)中與上述短語(yǔ)之間意思不 同的詞匯,使得修改后的該源語(yǔ)言短語(yǔ)與該短語(yǔ)一致;以及根據(jù)上述修改后的源語(yǔ)言短語(yǔ),修改上述最相似的雙語(yǔ)短語(yǔ)對(duì)中的目 標(biāo)語(yǔ)言短語(yǔ)中的相應(yīng)詞匯。
7. 根據(jù)權(quán)利要求l所述的方法,還包括根據(jù)上述輸入句子中的短語(yǔ)的模糊匹配的結(jié)果以及預(yù)先設(shè)定的語(yǔ)言模 型,利用統(tǒng)計(jì)模型獲得該輸入句子的、得分最高的目標(biāo)語(yǔ)言譯文。
8. —種基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng),包括短語(yǔ)模糊匹配單元,用于在預(yù)先設(shè)定的短語(yǔ)表中,為輸入句子中的短 語(yǔ)進(jìn)行模糊匹配。
9. 根據(jù)權(quán)利要求8所述的系統(tǒng),其中上述短語(yǔ)模糊匹配單元是根據(jù)基 于實(shí)例的機(jī)器翻譯方法實(shí)現(xiàn)的。
10. 根據(jù)權(quán)利要求8或9所述的系統(tǒng),其中上迷短語(yǔ)模糊匹配單元進(jìn) 一步包括相同/相似雙語(yǔ)短語(yǔ)查找單元,用于為上述輸入句子中的各短語(yǔ),從上 述短語(yǔ)表中查找相同的或最相似的雙語(yǔ)短語(yǔ)對(duì);差異識(shí)別單元,用于對(duì)于上述輸入句子的短語(yǔ)中被查找到最相似的雙 語(yǔ)短語(yǔ)對(duì)的短語(yǔ)的每一個(gè),識(shí)別出其最相似的雙語(yǔ)短語(yǔ)對(duì)與該短語(yǔ)之間的 差異;以及修改單元,用于對(duì)于上述輸入句子的短語(yǔ)中被查找到最相似的雙語(yǔ)短 語(yǔ)對(duì)的短語(yǔ)的每一個(gè),修改其最相似的雙語(yǔ)短語(yǔ)對(duì)中與該短語(yǔ)之間的差異,以得到該短語(yǔ)的目標(biāo)語(yǔ)言譯文。
11. 根據(jù)權(quán)利要求10所述的系統(tǒng),其中上述相同/相似雙語(yǔ)短語(yǔ)查找單元對(duì)于上述輸入句子的短語(yǔ)中未被查找到相同的雙語(yǔ)短語(yǔ)對(duì)的短語(yǔ)的每一個(gè)從上述短語(yǔ)表中為該短語(yǔ)找出多個(gè)相似的候選雙語(yǔ)短語(yǔ)對(duì); 依次計(jì)算上述多個(gè)相似的候選雙語(yǔ)短語(yǔ)對(duì)與該短語(yǔ)之間的編輯距離, 其中該編輯距離是從相似的候選雙語(yǔ)短語(yǔ)對(duì)中的源語(yǔ)言短語(yǔ)轉(zhuǎn)換到該短語(yǔ)所需要的插入、刪除和替換操作的數(shù)目;以及從上述多個(gè)相似的候選雙語(yǔ)短語(yǔ)對(duì)中選出與上述短語(yǔ)之間的編輯距離 最小的相似的候選雙語(yǔ)短語(yǔ)對(duì),作為該短語(yǔ)的最相似的雙語(yǔ)短語(yǔ)對(duì)。
12. 根據(jù)權(quán)利要求10所述的系統(tǒng),其中上述差異識(shí)別單元對(duì)于上述輸 入句子的短語(yǔ)中被查找到最相似的雙語(yǔ)短語(yǔ)對(duì)的短語(yǔ)的每一個(gè),直接地或 利用同義詞詞典/翻譯詞典,識(shí)別出其最相似的雙語(yǔ)短語(yǔ)對(duì)中的源語(yǔ)言短語(yǔ) 與該短語(yǔ)之間意思不同的詞匯。
13. 根據(jù)權(quán)利要求12所述的系統(tǒng),其中上述修改單元對(duì)于上述輸入句 子的短語(yǔ)中被查找到最相似的雙語(yǔ)短語(yǔ)對(duì)的短語(yǔ)的每一個(gè),修改其最相似 的雙語(yǔ)短語(yǔ)對(duì)中的源語(yǔ)言短語(yǔ)中與該短語(yǔ)之間意思不同的詞匯,使得修改 后的該源語(yǔ)言短語(yǔ)與該短語(yǔ)一致,并根據(jù)修改后的源語(yǔ)言短語(yǔ),修改該最 相似的雙語(yǔ)短語(yǔ)對(duì)中的目標(biāo)語(yǔ)言短語(yǔ)中的相應(yīng)詞匯。
14. 根據(jù)權(quán)利要求8所述的系統(tǒng),還包括譯文生成單元,用于根據(jù)上述短語(yǔ)模糊匹配單元的匹配結(jié)果以及預(yù)先 設(shè)定的語(yǔ)言模型,利用統(tǒng)計(jì)模型為上述輸入句子生成得分最高的目標(biāo)語(yǔ)言 譯文。
全文摘要
本發(fā)明提供一種基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯方法和系統(tǒng)。該方法包括在預(yù)先設(shè)定的短語(yǔ)表中,為輸入句子中的短語(yǔ)進(jìn)行模糊匹配。在本發(fā)明中,通過(guò)對(duì)短語(yǔ)進(jìn)行模糊匹配,能夠?yàn)檩斎刖渥又休^長(zhǎng)的短語(yǔ)生成高質(zhì)量的譯文,從而相對(duì)于基于短語(yǔ)的精確匹配的機(jī)器翻譯系統(tǒng)來(lái)說(shuō),能夠有效地提高譯文質(zhì)量。
文檔編號(hào)G06F17/28GK101667176SQ20081021466
公開(kāi)日2010年3月10日 申請(qǐng)日期2008年9月1日 優(yōu)先權(quán)日2008年9月1日
發(fā)明者劉占一, 王海峰 申請(qǐng)人:株式會(huì)社東芝