專利名稱:單詞對齊裝置、例句對譯詞典及單詞對齊方法
技術領域:
本發(fā)明涉及對譯例句自動單詞對齊(Alignment)裝置,尤其涉及單 詞對齊例句對譯詞典的學習裝置和基于例句的機器翻譯裝置中的譯詞提 取。
背景技術:
機器翻譯是利用計算機從某一語言轉換為其他語言,這樣的研究開
發(fā)在世界范圍進行了半個世紀。機器翻譯方式可大致分為1)基于解析
的機器翻譯方式,2)基于統(tǒng)計的機器翻譯方式,3)基于例句的機器翻
譯方式。
基于解析的機器翻譯方式是進行第l語言的解析(形態(tài)素解析、語法
/意思解析等),將解析的結果轉換成第2語言,并生成第2語言的譯文的 技術。自然語言的解析技術還是不成熟的技術,因此基于解析的機器翻 譯方式的實用化受到限制。而且,由于不能學習,因此存在難以改善/改 良翻譯引擎的缺點。
基于統(tǒng)計的機器翻譯方式,是用語言模型和統(tǒng)計模型構筑翻譯模型 的技術。該方式由于受限于各模型的構成所必要的學習數(shù)據(jù)(語料庫), 實用化受到限制。
基于例句的機器翻譯方式模仿人類學習外語的機制,參考已經(jīng)學習 的翻譯例句來翻譯新文件。在1980年代提出了該翻譯方式,隨后,其研 究開發(fā)盛行。在基于例句的機器翻譯技術中,有根據(jù)所參照的對譯例句 句型(pattern)的定義及類似例句的參照方法,采用翻譯記憶翻譯技術、 附帶單詞對齊的對譯例句的翻譯技術和采用句子的句型的翻譯技術等。
圖l是表示基于例句的機器翻譯方式所涉及的機器翻譯系統(tǒng)的整體 結構例的圖。機器翻譯系統(tǒng)10構成為從較簡單的翻譯轉移到較復雜的翻
7譯,實現(xiàn)翻譯的高速化。另外,機器翻譯系統(tǒng)io具有自動地回收不能翻
譯的部分并賦予正確的對譯的學習功能。
機器翻譯系統(tǒng)10具有翻譯記憶翻譯裝置14,其翻譯從原語言文本 句子輸入部12輸入的句單位的句子;基于例句句型的翻譯裝置16,其輸 入翻譯記憶翻譯裝置14中無法對照的輸入句子即不適當?shù)妮斎刖渥樱?對將其進行了形態(tài)素解析后的輸入句子的單詞串進行翻譯;單詞直譯翻 譯裝置18,其將基于例句句型的翻譯裝置16無法翻譯的輸入句子作為不
適當?shù)木渥?,輸入其形態(tài)素解析的結果單詞串,并翻譯該單詞串;以及
目標語言文本輸出部20,其根據(jù)上述的翻譯裝置適當翻譯的結果,作成
目標語言的文本句子并將其輸出。
而且,機器翻譯系統(tǒng)10具有翻譯不適當句子自動回收部22,其將 基于例句句型的翻譯裝置16無法翻譯的句子回收,作成適合于所回收的 句子的翻譯;學習裝置24,其對翻譯不適當句子自動回收部22作成的翻 譯進行校對和修正;以及翻譯詞典26。翻譯詞典26包含存儲第l語言的 單詞和作為其對譯的第2語言的單詞的單詞對譯詞典26a;存儲第l語言的 例句和作為其對譯的第2語言的例句的例句對譯詞典26b;以及存儲第l語 言的例句句型和作為其對譯的第2語言的例句句型的例句句型對譯詞典 26c。翻譯詞典26在翻譯記憶翻譯裝置14、基于例句句型的翻譯裝置16以 及單詞直譯翻譯裝置18中使用。另外,圖l的機器翻譯系統(tǒng)是一個構成例, 還有包含其他翻譯引擎的例子。
圖2是說明圖1所示的基于例句句型的翻譯裝置16的圖,這里,表示 了采用單詞對齊例句對譯詞典的基于例句的翻譯裝置。該基于例句的翻 譯裝置采用單詞對齊例句對譯詞典進行翻譯,以髙精度翻譯與輸入句子 非常相似的例句為特征。如該圖所示,中文的輸入句子被進行形態(tài)素解 析,從單詞對齊例句對譯詞典檢索類似例句。然后,算出輸入句子與例 句的差異、對應關系,用單詞對譯詞典生成日文的譯文。
報告了幾個與這樣的翻譯相關的文獻。專利文獻1公開了從第2語言 的文章中根據(jù)發(fā)音的類似度提取與第1語言的表現(xiàn)對應的第2語言的譯詞 的技術。專利文獻2涉及從對譯文本語料庫提取譯詞對的譯詞對提取裝置,該譯詞對提取裝置推定第l語言、第2語言的單詞的音韻,將兩者的
音韻一致的單詞作為單詞對輸出。非專利文獻l報告了如下的技術對于 由第1語言的例句和該例句的第2語言的譯文組成的例句對,分別對例句 和譯文進行形態(tài)素解析,分別提取構成例句和譯文的單詞,從單詞對譯 詞典提取構成例句的單詞的譯詞,將所提取的譯詞與譯文的單詞進行對
照。非專利文獻2采用由第1語言的例句和該例句的第2語言的譯文所組成
的例句對的集合所構成的單詞和譯詞間的統(tǒng)計模型,來進行對齊。例如,
統(tǒng)計模型是DICE系數(shù)、X2、相互信息量、T-score等。
專利文獻3公開了可進行調(diào)用率高且精度良好的單詞對齊的單詞對 齊例句對譯詞典學習裝置及譯詞提取裝置。日本特開平10-143514號公報日本特開2005-258637號公報日本特開2007-199793號公報 Jin畫Xia Huang, Key-Sun Choi. 2000. Using Bilingual Semantic Information in Chinese-Korean Word Alignment. Pacfic Asia Conference on Language, Information and Computation. PACLIC14, ppl21-130. Melamed, Dan. "A Word-to-Word Model of Translational Equivalence". In Procs. of the ACL97. pp490-497. Madrid Spain, 1997.
在上述的基于例句的翻譯裝置中,要求在第l語言的例句和該例句的 第2語言的譯文間自動地提取單詞和其譯詞間的對應關系(對齊)并賦予 該對應關系的功能。
圖3是說明例句和譯文中包含的單詞間的對齊的圖,該圖(a)表示 了中文和作為其譯文的日文的輸入例句對,該圖(b)表示對這些輸入例 句對進行形態(tài)素解析而獲得的中文單詞和日文單詞間的理想對齊。在所 有的例句和譯文的關系中,通過人的手動操作設定該圖(b)所示的正確 單詞間的對齊需要大量的時間和人工,是不現(xiàn)實的。另一方面,為了自 動生成單詞間的對齊,要求高調(diào)用率(Recall)率和高精度。所謂調(diào)用率是指從例句和譯文應提取的單詞的對數(shù)和實際提取的單詞的對數(shù)之比, 所謂精度是指實際提取的單詞的對數(shù)和正確的單詞的對數(shù)之比,表示成 下式。
調(diào)用率=實際提取的單詞的對數(shù)/應提取的單詞的對數(shù) 精度=正確的單詞的對數(shù)/實際提取的單詞的對數(shù)
關于單詞對齊,專利文獻3應用二分圖最佳匹配法。圖4是基于二分 圖最佳匹配的單詞對齊裝置的整體結構。單詞對齊裝置100具有輸入例 句和其譯文的對譯例句對的輸入部102;輸出對齊的結果的輸出部104; 將例句及譯文進行形態(tài)素解析,分別提取它們所包含的單詞和詞類并賦 予編號的預處理部106;存儲例句和其譯文對的例句對譯詞典108;對從
例句對譯詞典108輸入的例句及譯文對分別提取例句和譯文的單詞和詞
類,構筑可高速檢索的語料庫索引的語料庫預處理部110;存儲單詞和其 對譯的單詞對譯詞典112;用單詞對譯詞典進行單詞對齊的類似度計算部 U4;存儲由語料庫預處理部110構筑的單詞的索引表的單詞索引表116; 用單詞索引表的語料庫統(tǒng)計信息求出單詞和譯詞間的相關度的相關度計 算部118;通過二分圖匹配方法消除確認度低的對齊候補和多對應的對齊 問題,實現(xiàn)單詞間的對齊的優(yōu)化的基于二分圖的對齊部120。
如圖5 (a)所示,類似度計算部114及相關度計算部118,從上段的 第1語言的單詞與下段的第2語言的單詞間的詞典類似度、單詞間的意思 上的類似度、單詞間的形狀類似度、詞類類似度、單詞與譯詞間的相關 度等計算信用性,用該計算值進行各分支的加權?;诙謭D的對齊部 120通過對該權重進行二分圖匹配,如圖5 (b)所示,求出優(yōu)化為l對l的 單詞對齊。
但是,這樣的單詞對齊方法存在以下3個問題。
1)在圖4所示單詞對譯詞典112不存在正確譯詞時,有時用單詞的解 釋譯文來作為譯詞。圖6 (a)由于沒有與中文的單詞相關的正確日文譯 詞,因此將日文的解釋譯文作為對譯。圖6 (b)則相反,由于沒有與日 文的單詞相關的正確中文譯詞,所以將中文的解釋譯文作為對譯。若釆 用這樣的單詞對譯詞典112,則對圖4所示的類似度計算部114中釆用詞典類似度SimD的對齊方法的覆蓋率產(chǎn)生惡劣影響。
2) 機器翻譯系統(tǒng)中的單詞的切分裝置,尤其是中文的單詞切分裝置
(形態(tài)素解析等),為了提高翻譯的精度,有取大的單詞單位(字符串
的長度)的傾向。增大單詞單位雖然提高了翻譯的精度,但是在單詞對 譯詞典的單詞和單詞切分裝置所獲得的單詞間產(chǎn)生不匹配性。例如,單
詞切分裝置獲得的單詞包含"W1W2"的字符串時,在單詞對譯詞典中雖然
不存在包含"W1W2"的字符串的單詞,但是取而代之,分別存在"W1"和
"W2"這樣2個單詞。
3) 釆用基于二分圖的最大最小加權的匹配對齊方法在l對l的單詞對 齊中非常有效,但是在多對多的單詞對齊中未必是有效的方法。
發(fā)明內(nèi)容
本發(fā)明用于解決這樣的傳統(tǒng)的課題,目的是提供一種改良了傳統(tǒng)的 單詞對齊技術,具備1對多、多對l、多對多的單詞對齊功能并提高了調(diào) 用率及精度的單詞對齊裝置、基于例句的翻譯裝置及單詞對齊方法。
而且,本發(fā)明的目的是提供一種可用于生成單詞對齊例句對譯詞典 和單詞對譯詞典并利用這些詞典的翻譯裝置、翻譯支援系統(tǒng)的單詞對齊 裝置、基于例句的翻譯裝置及單詞對齊方法。
本發(fā)明所涉及的單詞對齊裝置是進行第l語言的例句和作為該例句 的對譯的第2語言的例句中分別包含的單詞間的對齊的單詞對齊裝置,該 單詞對齊裝置具有單詞對譯詞典,其存儲第l語言的單詞與作為其對譯 的第2語言的單詞、關于第1語言的單詞的第2語言的譯詞以及關于第2語 言的單詞的第l語言的譯詞的對應關系;輸入單元,其輸入第l語言的例 句和作為該例句的對譯的第2語言的例句;單詞提取單元,其從上述所輸 入的第1語言及第2語言的例句中分別提取第1語言及第2語言的單詞;第l 對齊單元,其在上述提取的第1語言的單詞和上述提取的第2語言的單詞 的對應關系包含于上述單詞對譯詞典中時,使上述提取的第l語言的單詞 與上述提取的第2語言的單詞對齊;以及第2對齊單元,其對于未被上述 第l對齊單元對齊的第l語言的單詞,在該第1語言的單詞與第2語言的譯詞的對應關系包含于上述單詞對譯詞典中時,使第1語言的單詞與和第2 語言的譯詞共同的上述提取的第2語言的多個單詞對齊。
優(yōu)選的是,單詞對齊裝置還具有第3對齊單元,該第3對齊單元對于 未被第2對齊單元對齊的第1語言的單詞,將該第l語言的單詞進行分割, 在所分割的單詞與第2語言的譯詞的對應關系包含于上述單詞對譯詞典 中時,將所分割的單詞與和第2語言的譯詞共同的上述提取的第2語言的 多個單詞對齊。
優(yōu)選的是,單詞對齊裝置還具有第4對齊單元,該第4對齊單元對于 未被第3對齊單元對齊的第1語言的單詞,在該第l語言的單詞與上述提取 的第2語言的單詞的表記一致時,使該第1語言的單詞與上述提取的第2語 言的單詞對齊。例如,表記的一致是第1語言的單詞與第2語言的單詞的 各個漢字的一致。
優(yōu)選的是,第1及第4對齊單元進行從第1語言的一個單詞到第2語言 的多個連續(xù)單詞的對齊,或者從第2語言的一個單詞到第1語言的多個連 續(xù)單詞的對齊。
而且,本發(fā)明所涉及的單詞對齊裝置是進行第l語言的例句和作為該 例句的對譯的第2語言的例句中分別包含的單詞間的對齊的單詞對齊裝 置,該單詞對齊裝置具有存儲單元,其存儲詞類連接表,該詞類連接 表采用對于第1語言的單詞和第2語言的單詞預先賦予了對齊的信息,表 示連續(xù)的2個單詞的詞類的連接關系;輸入單元,其輸入第l語言的例句 和作為該例句的對譯的第2語言的例句;單詞提取單元,其從上述所輸入
的第1語言及第2語言的例句中分別提取第1語言及第2語言的單詞;以及
對齊單元,其在上述提取的第1語言的單詞與上述提取的第2語言的連續(xù) 的多個單詞的一部分對齊且剩余單詞未被對齊時,在該連續(xù)的多個單詞 包含于上述詞類連接表中的情況下,使上述提取的第1語言的單詞與第2 語言的連續(xù)的多個單詞對齊。
優(yōu)選的是,上述對齊單元在上述提取的連續(xù)的多個單詞的一部分與 上述提取的第2語言的單詞對齊且剩余單詞未被對齊時,在上述連續(xù)的多 個單詞包含于上述詞類連接表中的情況下,使上述提取的連續(xù)的第l語言
12的單詞與第2語言的單詞對齊。
優(yōu)選的是,上述詞類連接表采用賦予了單詞對齊的語料庫,根據(jù)語
料庫所包含的所有連續(xù)的2個單詞的數(shù)和在語料庫中對齊的連續(xù)的2個單 詞的數(shù)的比例,規(guī)定具有一定的出現(xiàn)頻度的詞類的連接。
而且,本發(fā)明所涉及的單詞對齊裝置是進行第l語言的例句和作為該 例句的對譯的第2語言的例句中分別包含的單詞間的對齊的單詞對齊裝
置,該單詞對齊裝置具有輸入單元,其輸入第l語言的例句和作為該例 句的對譯的第2語言的例句;單詞提取單元,其從上述所輸入的第l語言 及第2語言的例句中分別提取第1語言及第2語言的單詞;對齊詞典,其存 儲第1語言的一個單詞與作為其譯詞的第2語言的非連續(xù)的多個單詞的對 應關系;以及對齊單元,其在上述提取的第l語言的單詞包含于上述對齊 詞典中且作為該第1語言的單詞的對譯的第2語言的非連續(xù)的多個單詞包 含于第2語言的例句中時,使上述提取的第1語言的單詞與第2語言的上述 非連續(xù)的多個單詞對齊。
而且,本發(fā)明所涉及的單詞對齊裝置是進行第l語言的例句和作為該 例句的對譯的第2語言的例句中分別包含的單詞間的對齊的單詞對齊裝
置,該單詞對齊裝置具有輸入單元,其輸入第l語言的例句和作為該例
句的對譯的第2語言的例句;單詞提取單元,其從上述輸入的第l語言及 第2語言的例句中分別提取第1語言及第2語言的單詞;以及對齊單元,其
從存儲有第1語言的例句和作為其對譯的第2語言的譯文的例句對譯詞典
中,選擇包含上述提取的第l語言的連續(xù)的多個單詞的例句和作為其對譯 的組,提取所選擇的例句對譯組相互間的共同部分的組,計算上述提取 的共同部分對于上述連續(xù)的多個單詞的支持度,根據(jù)所算出的支持度使
上述連續(xù)的多個單詞與作為第2語言的共同部分的多個單詞對齊。
優(yōu)選的是,上述支持度的計算包含在各組的共同部分相對于上述
連續(xù)的多個單詞具有規(guī)定的一致程度時,將第2語言的對應譯文的共同部
分作為對齊候補來選出的單元;和將上述選出的對齊候補的出現(xiàn)次數(shù)作
為表示其支持度的數(shù)來進行計數(shù)的單元。
優(yōu)選的是,在出現(xiàn)次數(shù)最多的對齊候補的該出現(xiàn)次數(shù)超過第1閾值,或該出現(xiàn)次數(shù)在第l閾值以下且該出現(xiàn)次數(shù)與后續(xù)出現(xiàn)次數(shù)多的譯文候
補的該出現(xiàn)次數(shù)之差超過第2閾值,或該出現(xiàn)次數(shù)在第l閾值以下且該出 現(xiàn)次數(shù)與后續(xù)出現(xiàn)次數(shù)多的譯文候補的該出現(xiàn)次數(shù)之比超過第3閾值的 任意一個情況下,將該出現(xiàn)次數(shù)最多的對齊候補與上述連續(xù)的多個單詞 對齊。
本發(fā)明所涉及的基于例句的翻譯裝置具有上述的單詞對齊裝置; 存儲第1語言的例句和作為其對譯的第2語言的例句的例句對譯詞典;以
及參照上述例句對譯詞典,生成所輸入的第1語言的例句的第2語言的譯
詞的譯文生成單元,上述譯文生成單元利用上述單詞對齊裝置的對齊結 果生成譯文。
本發(fā)明所涉及的單詞對齊方法是進行第l語言的例句和作為該例句
的對譯的第2語言的例句中分別包含的單詞間的對齊的單詞對齊裝置所 執(zhí)行的單詞對齊方法,該單詞對齊方法具有輸入第l語言的例句和作為 該例句的對譯的第2語言的例句的步驟;從所輸入的第1語言及第2語言的 例句中分別提取第1語言及第2語言的單詞的步驟;在上述提取的第l語言
的單詞和上述提取的第2語言的單詞的對應關系包含于單詞對譯詞典中
時,使上述提取的第1語言的單詞與上述提取的第2語言的單詞對齊的第1
對齊步驟;對于未被第l對齊步驟對齊的第l語言的單詞,在該第l語言的 單詞與第2語言的譯詞的對應關系包含于單詞對譯詞典中時,使第l語言
的單詞與和第2語言的譯詞共同的上述提取的第2語言的多個單詞對齊的 第2對齊步驟;以及對于未被第2對齊步驟對齊的第1語言的單詞,將該第 l語言的單詞迸行分割,在所分割的單詞與第2語言的譯詞的對應關系包 含于單詞對譯詞典中時,將所分割的單詞與和第2語言的譯詞共同的上述 提取的第2語言的多個單詞對齊的第3對齊步驟。
而且,本發(fā)明所涉及的單詞對齊方法是進行第l語言的例句和作為該 例句的對譯的第2語言的例句中分別包含的單詞間的對齊的單詞對齊裝 置所執(zhí)行的單詞對齊方法,該單詞對齊方法具有輸入第l語言的例句和 作為該例句的對譯的第2語言的例句的步驟;從上述輸入的第1語言及第2 語言的例句中分別提取第1語言及第2語言的單詞的步驟;以及上述提取的第1語言的單詞與上述提取的第2語言的連續(xù)的多個單詞的一部分對齊
且剩余單詞未被對齊時,在該連續(xù)的多個單詞包含于預先準備的表示連
續(xù)的2個單詞的詞類的連接關系的詞類連接表中的情況下,使上述提取的 第H吾言的單詞與第2語言的連續(xù)的多個單詞對齊的步驟。
根據(jù)本發(fā)明,在第1語言的單詞和第2語言的單詞間可進行1對多、多 對l或多對多的對齊,因此與傳統(tǒng)相比,可以改善調(diào)用率及精度。另外, 即使在單詞對譯詞典不包含正確的對譯而包含解釋譯詞的情況下,也可 以提高覆蓋率。而且,對于未被對齊的單詞,通過將其進行分割,可以 提高單詞對譯詞典的覆蓋率。
根據(jù)本發(fā)明,可以期待高性能的單詞對齊方法,通過語言信息、類 似信息、統(tǒng)計信息的應用及二分圖間的最佳匹配方法,可實現(xiàn)高調(diào)用率 和高精度的單詞對齊例句對譯詞典學習引擎。
而且根據(jù)本發(fā)明,可以提高研究開發(fā)的效率性。例如,由于可以從 例句對譯詞典中自動地生成單詞對齊例句對譯詞典和單詞對譯詞典,因 此,可以提高翻譯系統(tǒng)所必要的對譯詞典構筑的效率性。從而,可以實 現(xiàn)對譯詞典構筑的成本的降低、構筑時間的縮短、構筑的自動化等。
圖l是表示基于例句的機器翻譯方式所涉及的機器翻譯系統(tǒng)的整體 結構例的圖。
圖2是說明圖l所示的基于例句句型的翻譯裝置的圖。
圖3是說明例句和譯文所包含的單詞間的對齊的圖,圖3 (a)表示中
文和作為其譯文的日文的輸入例句對,圖3 (b)表示中文的單詞和日文 的單詞間的理想的對齊。
圖4是基于二分圖最佳匹配的單詞對齊裝置的整體結構。
圖5是說明二分圖匹配的圖。
圖6是表示單詞對譯詞典所存儲的單詞和單詞的解釋譯文的例子的 示圖。
圖7是表示本發(fā)明實施例所涉及的單詞對齊裝置的結構的圖。圖8是表示中文及日文的形態(tài)素解析的例子的圖。
圖9是表示圖7所示的預處理部的動作流程的圖。
圖10是表示圖7所示的多對多對齊部的內(nèi)部結構的框圖。
圖ll是表示l-n連續(xù)型對齊的例子的圖。
圖12是表示m-l連續(xù)型對齊的例子的圖。
圖13是表示多對多對齊詞典MMADic的樣本的圖。
圖14是表示m-n連續(xù)型對齊部的處理流程的圖。
圖15是表示由m-n連續(xù)型對齊部進行的從中文翻譯到日文的具體例 的圖。
圖16是表示計算在圖15中提取的例句對譯對的共同部分中的支持度 的具體例的圖。
圖17是表示在圖15中求出的支持度的合計結果的圖。
圖18是表示從支持度的合計結果確定為最終的對齊結果的例子的圖。
圖19是表示本實施例的單詞對齊裝置中的實驗結果的圖。
圖20是表示單詞對齊裝置的一個硬件結構的框圖。
10:機器翻譯系統(tǒng)12:原語言文本句子輸入部
14:翻譯記憶裝置16:基于例句句型的翻譯裝置
18:單詞直譯翻譯裝置20:目標語言文本輸出部
22:翻譯不適當句子自動回收部24:學習裝置
26a:單詞對譯詞典26b:例句對譯詞典
26c:例句句型對譯詞典200:單詞對齊裝置
202:輸入部204:形態(tài)素解析部
206:預處理部208:單詞對譯詞典
210:基于詞典的對齊部212:中文簡繁文字轉換部
214:基于單詞表記的對齊部216:存儲部
218:多對多對齊部220:基于BGM的對齊部
222:輸出部700:輸入裝置702:顯示裝置 706:存儲裝置 710:總線
704:主存儲裝置
708:中央處理裝置(CPU)
具體實施例方式
參照附圖所示的實施例說明用于實施本發(fā)明的最佳方式。 本實施方式的單詞對齊裝置的特征如下。
1) 即使單詞對譯詞典將單詞的解釋譯文用作譯詞,也可進行采用詞
典類似度SimD的單詞對齊。
2) 即使單詞切分裝置(例如形態(tài)素解析裝置)獲得的單詞不存在于 單詞對譯詞典中,也可進行采用詞典類似度SimD的單詞對齊。
3) 可進行多對多的單詞對齊。 多對多的單詞對齊的種類分類成如下6個種類。
S-CSoJS表示一個對譯例句對。這里,CS是第1語言的例句,JS是 CS的第2語言的譯文。CS=<C1, C2,…,Cm>, JS=<J1, J2, ..., Jn>。 這里,Ch和Jk是單詞。
1) l-n連續(xù)型Ch與Jh, Jh+1, Jh+2,...的n個連續(xù)單詞對齊。
2) m-l連續(xù)型Ch, Ch+1, Ch+2,...的m個連續(xù)單詞與Jy對齊。
3) m-n連續(xù)型Ch, Ch+1, Ch+2,…的m個連續(xù)單詞與Jh, Jh+1, Jh+2,...的n個連續(xù)單詞對齊。
4) l-n非連續(xù)型Ch與Jh, Jx, Jy,...的n個非連續(xù)單詞對齊。
5) m-l非連續(xù)型Ch, Cs, Ct,...的m個非連續(xù)單詞與Jy對齊。
6) m-n非連續(xù)型Ch, Cs, Ct,...的m個非連續(xù)單詞與Jh, Jx, Jy,... 的n個非連續(xù)單詞對齊。
本實施例中,第6個m-n非連續(xù)型的對齊除外。因為該類型的例子非 常少。在以下的實施例中,說明中文和日文的單詞對齊的例子。 [實施例]
圖7是表示本實施例的單詞對齊裝置的結構的框圖。本實施例的單詞 對齊翻譯裝置200包括輸入第1語言的例句和作為其譯文的第2語言的例句的輸入部202;對輸入的例句進行形態(tài)素解析的形態(tài)素解析部204;對
進行了形態(tài)素解析的字符串或單詞進行預處理的預處理部206;存儲第l 語言的單詞和作為其譯詞的第2語言的單詞的對應關系、第2語言的單詞
和作為其譯詞的第l語言的單詞的對應關系、以及關于第l語言的單詞的
第2語言的解釋譯文、關于第2語言的單詞的第1語言的解釋譯文的對應關 系的單詞對譯詞典208;參照單詞對譯詞典208進行第1語言的單詞和第2 語言的單詞間的對齊的基于詞典的對齊部210;進行中文的簡繁文字轉換 的中文簡繁文字轉換部212;利用中文簡繁文字轉換部212的轉換結果進
行單詞表記的對齊的基于單詞表記的對齊部214;存儲與后述的各種對齊
有關的信息的存儲部(存儲器)216;利用存儲部216存儲的對齊信息進
行多對多的單詞對齊的多對多對齊部218;進行基于二分圖的對齊的基于
BGMWM的對齊部220;以及輸出單詞間的對齊結果的輸出部222。
本實施例的單詞對齊裝置200優(yōu)選包含于圖1所示的基于例句的翻譯 裝置16中。將在圖1所示的翻譯記憶翻譯裝置14中無法適當翻譯的例句, 輸入基于例句的翻譯裝置16。如圖2所示,所輸入的例句與單詞對齊例句 對譯詞典比較,提取例句句型,該例句句型使與例句類似的例句和其譯 詞成對。優(yōu)選將這樣的例句對譯句型輸入到輸入部202。
形態(tài)素解析部204通過對所輸入的例句句型進行形態(tài)素解析,將構成 例句及譯文的單詞切分,并賦予單詞的詞類。形態(tài)素解析的技術廣為人 知,但是,例如,若是日文的形態(tài)素解析技術,可以采用Chasen,若是 中文的形態(tài)素解析技術,可以采用清華大學的Seg and POS工具和中國東 北大學的CiPosSDK工具。圖8是表示中文的形態(tài)素解析的例子和日文的 形態(tài)素解析的例子。
圖9表示預處理部的動作流程。預處理部206接收由形態(tài)素解析部204 切分的單詞及詞類ID等(參照圖8)(步驟SIOO ,從中提取數(shù)值部分(步 驟S102)。然后,切分成數(shù)值部分和非數(shù)值部分,將數(shù)值部分用漢字表 現(xiàn)(步驟S103, S104),并合成用漢字表現(xiàn)的數(shù)值部分和非數(shù)值部分(步 驟S105)。從而,字母和數(shù)字轉換成漢字表現(xiàn)。
接著,說明基于詞典的對齊部。S-CSOJS表示一個對譯例句對。這里,CS是第1語言的例句,JS是CS的第2語言的譯文。因此,表示成CS-〈C1 C2...Cm>, JS=<J1 J2 ... Jn>, Ch和Jk是單詞。
基于詞典的對齊部210參照單詞對譯詞典208,執(zhí)行以下的算法。
1) DBA1算法對于SimD (Cx, Jy) =1的所有單詞對(Cx, Jy), 使單詞Cx和Jy對齊。
2) DBA2算法對于未對齊的單詞Ch,將存在于單詞對譯詞典208 中的Ch的全部譯詞的集合設為Dict (Ch) ={Jhl, Jh2, ..., Jhx}。如果存 在滿足如下條件l和條件2的JS的部分字符串〈Jk, Jk+1, ..., Jk+y>,則使 單詞Ch和JS的部分字符串〈Jk, Jk+1, ..., Jk+y〉對齊。
條件l 3A,y:
< A,A+1,A ,力w >£a少20a/t +少S": HA ,厶+7 >e跑(cj a
< ^,A+1,A ,力,!£)/"(^)/\ < A-,人,A ,人">g Z)/"(c力) 條件2 Jk, Jk+1, ..., Jk+y未被對齊
3) DBA3算法對于未被對齊的單詞Ch,在單詞對譯詞典208中的 Ch的譯詞不存在的情況下,用單詞對譯詞典208的第1語言的單詞集合 BiWordSetl來分割單詞Ch。將分割的結果設為Ch-〈Chl, Ch2, Chz>。 將單詞對譯詞典208的Chi的所有譯詞集合設為Dict(Chi)^Jhil, Jhi2,..., Jhix}。如果存在滿足如下條件l和條件2的JS的單詞Jk,則使單詞Ch和JS 的單詞Jk對齊。
條件i: 3厶A c W:厶e
條件2: Jk未被對齊
接著,說明基于單詞表記的對齊部。SK:sojs表示一個對譯例句對。
CS是第1語言的例句,JS是CS的第2語言的譯文。表示成CS^C1, C2, ...Cm>, JS=<J1, J2, ...Jn>, Ch和Jk是單詞。
基于單詞表記的對齊部214參照通過中文簡繁文字轉換部212所得的 中文的簡體字,對于所有未對齊的單詞Ch,在形狀類似度SimM(Ch, Jy)-l且單詞Jy未被對齊的情況下,使單詞CX和Jy對齊。SimM (Ch, Jy) =1 表示漢字為相同形狀時,例如"中國"和"中國"。
接著,說明多對多對齊部。如圖10所示,多對多對齊部218包含l-n 連續(xù)型和m-l連續(xù)型對齊部230、 l-n非連續(xù)型和m-l非連續(xù)型對齊部232以 及m-n連續(xù)型對齊部234 (n、 m是2以上的自然數(shù))。
n連續(xù)型和m-l連續(xù)型對齊部230進行一個單詞和連續(xù)n個單詞的對 齊,或者進行連續(xù)m個單詞和一個單詞的對齊。
n連續(xù)型和m-l連續(xù)型對齊部230事先采用單詞對齊語料庫,對于l-n 連續(xù)型和m-l連續(xù)型的對齊,構筑連續(xù)的2個單詞的詞類連接表CPPS (Concomitance POS Pair Set)。例如,單詞C1與連續(xù)的單詞J1、 J2、 J3 對齊的情況下,以J1和J2、 J2和J3間的詞類連接作為計算的對象。相反, 連續(xù)的單詞C1、 C2、 C3與單詞J1對齊的情況下,以C1和C2, C2和C3間 的詞類連接作為計算的對象。CPPS可以通過下式求出。這里,CPPS的分 母是語料庫中全部的2個連續(xù)的詞類的數(shù),分子是語料庫中對齊的詞類的
數(shù)。另外,e是閾值,o<0<i。
C尸尸S = {(pas,」 : 一,) I-=~~~>《}
c。mw/—a/妙(/ a , — /, / ay, 一 ,)
3c丄/,乂'一r:
=coM""(ptw, _ /, pas, _ I 屈gwmeW(c) = {/」,《/ 一 : )
尸a c/—/) = pas, _/ a戶ayc/—/ )=p叫—r
cozmZ一a〃Cpas, 一/,jms, 一r)
=co wrf((; ay, 一 /, pcw, 一 r) | < / J, 一 r >c cor/7w5: )
尸OS(/」)=p叫一/ a戶OS(y—/ ) = pos, —/
l-n連續(xù)型和m-l連續(xù)型對齊部230用詞類連接表來進行如下的對齊。 S^CSoJS表示一個對譯例句對。這里,CS是第1語言的例句,JS是 CS的第2語言的譯文。CS=<C1, C2, ..., Cm>, JS=<J1, J2, ..., Jn>,Ch和Jk是單詞。
對于所有對齊的單詞Jk,
情況h在單詞Ch與Jk對齊且Jk+l未被對齊時,如果(POS (Jk), POS Gk+1) ) eCPPS,則使Ch與Jk+l對齊。
情況2:在單詞Ch與Jk對齊且Jk-l未被對齊時,如果(POS (Jk-1), POS (Jk) ) ECPPS,則使Ch與Jk-l對齊。圖ll (a) 、 (b)例示了情 況1和情況2。
對于所有對齊的單詞Ch,
情況l:在Ch與Jk對齊且Ch+l未被對齊時,如果(POS (Ch) , POS (Ch+1) ) eCPPS,則使Ch+l與Jk)^t齊。
情況2:在Ch與Jk對齊且Ch-l未被對齊時,如果(POS (Ch-1) , POS (Ch) ) eCPPS,則使Ch-l與Jk對齊。圖12 (a) 、 (b)例示了情況l 和情況2。
接著,說明l-n非連續(xù)型和m-l非連續(xù)型對齊部232。對于l-n非連續(xù)型 和m-l非連續(xù)型的對齊,與l對應的單詞的大部分是連結詞、前置詞、助 詞,因此,事先提取這些l-n非連續(xù)型和m-l非連續(xù)型的對齊并進行詞典 化。將其稱為多對多對齊詞典MMADic,其樣本如圖13所示,這里,表 示了中文的一個單詞和與其對應的日文的非連續(xù)的多個單詞以及相反的 日文的一個單詞和與其對應的中文的非連續(xù)的多個單詞的例子。
這里,S:CS^JS表示一個對譯例句對。這里,CS是第1語言的例句, JS是CS的第2語言的譯文。CS=<C1, C2,…,Cm>, JS=<J1 , J2,..., Jn>, Ch和Jk是單詞。
對于所有對齊的單詞Ch,如果滿足
1) Ch存在于多對多對齊詞典MMADic中,
2) Ch對應的譯詞集合Jk, Js,...是JS的單詞,
3) 譯詞集合Jk, Js,...未被對齊, 則使單詞Ch與Jk, Js,...對齊。 對于所有對齊的單詞Jk,如果滿足
1) Jk存在于多對多對齊詞典MMADic中,2) J謝應的譯詞集合Ch, Cs,...是CS的單詞,
3) 譯詞集合Ch, Cs,...未對齊, 則使單詞Ch, Cs,...與Jk對齊。
接著,說明m-n連續(xù)型對齊部234。 S-CS〈-〉JS表示一個對譯例句對。 這里,CS是第1語言的例句,JS是CS的第2語言的譯文。CS=<C1, C2,..., Cm>, JS=<J1, J2,…,Jn〉, Ch和Jk是單詞。
對于所有對齊的連續(xù)的2個單詞Ch和Ch+l,采用P-〈Ch, Ch+1>; MN-Alignment (P, Alignment (P)),求出P的對齊結果。如果Alignment (P)=<Jk, Jk+P且Jk和Jk+l還沒有被對齊,則使〈Ch, Ch+l〉與《k, Jk+1> 對齊。
對于所有對齊的連續(xù)的2個單詞Jk和Jk+l,采用P-4, Jk+1〉; MN-Alignment (P, Alignment (P)),求出P的對齊結果。如果Alignment (P) =<Ch, Ch+l〉且Ch和Ch+l還沒有被對齊,則使〈Ch, Ch+l〉與〈Jk, Jk+1〉對齊。
定義將例句和其譯文分別用CS和JS表示。將例句對譯對用 S-CSOJS表示,將對譯例句對的候補用BS表示。例句和其譯文用字母 的帶順序的字符串表現(xiàn)。g卩,CS、 JS、 S通過式(1) 、 (2) 、 (3)表達。
GS 2, ■■, > (1) ^-<乂,力,(2)
S = GS <->=< q,c2,…,cm >< <義,A,…,人> (3)
另外,連續(xù)的多個單詞用P表示。P也用字母的帶順序的字符串表現(xiàn), 通過式(4)表達。
戶""A,…,&〉 (4)
接著,說明例句譯文對(組)的共同部分的定義。例句譯文對Sk、 Sh包含于對譯例句對的候補BS中,這些共同部分通過式(5) 、 (6)表 達。& A+1,..,、 >0勺"+1廣.,厶、> (5)
& o爲=<^,"—,s 〉ou+"…,乂;瑪> (6)
例句譯文對Sk、 Sh的共同部分的求出方法通過式(7) 、 (8) 、 (9)、 (10) 、 ( 11)進行。這里,CWSTOP表示語言1的禁止用文字集合,JWSTOP 表示語言2的禁止用文字集合。例如,作為文件中以高頻度出現(xiàn)的文字, 符合的有中文的"的"、"地"、"得"等以及日文的"i"、"力、'"、""等。
(7)
GS^門GS^ = argmax
=argmax 〈 ,c^,… z >
"a + ;c《/z + wA
(9-1) (10-1)
(ii-i)
(8-1)
JSAn/5; = argmax 〈j、,y、w,"',y^^ >
"'A,Ai+i'…,乂AC
=argmax |< A,,",…,">
化一!+l,…,^+^
(8-2)
(9-2)
/^W《"+ (10-2)
(11-2)
接著,說明P的語言是語言1的情況下的處理。如果Sh和Sk的共同部 分為下式(12-1),則Sh和Sh表現(xiàn)為強支持PoTg,該情況下,Tg成為P 的對齊候補。
^n^-pe7;^戶^^ _/…,人> (12—1)
1.2 唯
如果在例句對譯候補BS中,x個例句對支持P0Tg,則Tg成為P的對齊候補的支持度被定義為x,表現(xiàn)為SV (P<->Tg) =x。然后,將支持度 SV (P<->Tg)最大的Tg作為P的對齊結果,表達成式(13-1)。
<formula>formula see original document page 24</formula>
如果例句對譯對Sh和Sk的共同部分為式(14-1),則Sh和Sh表現(xiàn)為 弱支持PoTg,該情況下,Tg也是P的對齊候補。
<formula>formula see original document page 24</formula>
另一方面,P的語言是語言2的情況下,如果Sh和Sk的共同部分為下 式(12-2),則Sh和Sh表現(xiàn)為強支持P〈-〉Tg,該情況下,Tg成為P的對齊 候補。
<formula>formula see original document page 24</formula>
如果在例句對譯候補BS中,x個例句對支持PoTg,則Tg成為P的對 齊候補的支持度被定義為x,表現(xiàn)為SV (P<->Tg) =x。然后,將支持度 SV (P<->Tg)最大的Tg作為P的對齊結果,表達成式(13-2)。
<formula>formula see original document page 24</formula>
如果例句對譯對Sh和Sk的共同部分為式(14-2),則Sh和Sh表現(xiàn)為 弱支持PoTg,該情況下,Tg也是P的對齊候補。
<formula>formula see original document page 24</formula>
接著,說明m-n連續(xù)型對齊部的處理過程。圖14是表示m-n連續(xù)型對 齊部的處理流程的圖。m-n連續(xù)型對齊部234訪問例句對譯詞典26b,從中 求出例如包含連續(xù)的多個單詞P的多個例句對譯對的候補BS(步驟S201)。 所求出的例句對譯對候補BS存儲在存儲部216中,然后,提取這些各例句 對譯組相互間的共同部分的組,算出它們的所有的對候補的支持度(步 驟S202)。然后,將支持度高的候補選擇為對齊候補(步驟S203)。
對齊候補的選擇,例如如下進行。
這里,將2個對齊候補設為T1和T2,將它們的支持度設為x, y(其中, x>y)。艮P,設<formula>formula see original document page 24</formula>如果x〈ei,則認為適當?shù)暮蜓a不存在,對齊失敗。
如果x^ei,且x-y〉e2,則將T1作為對齊結果輸出。 如果X^ei且x/y〉03,則將T1作為對齊結果輸出。
其中,ei、 e2、 e3是非負的實數(shù)。
按照上述基準判定對齊結果是否存在(步驟S204),在對齊結果存 在時,輸出其結果(步驟S205)。在這里的對齊結果不存在時,進行后 續(xù)處理,例如進行由基于二分圖的對齊部220執(zhí)行的處理。
圖15表示由m-n連續(xù)型對齊部執(zhí)行的從中文翻譯到日文的具體例。連 續(xù)的多個單詞P被輸入,對其進行響應,從例句對譯詞典26b中提取包含 輸入P的例句??梢悦靼?,Sl, S2, ..., S5是被提取的例句對譯對,中文 的例句C1, C2,…C4包含連續(xù)的多個單詞P。
計算由圖15所提取的例句對譯對的全部的支持度。圖16示出了計算 由圖15所提取的例句對譯對的共同部分中的支持度的具體例。判斷各例 句對譯對相互的共同部分中的支持度,作為其結果,加上對應譯文的支 持度。
圖17將圖15求出的支持度的合計結果作為表組進行表示。由此可以 明白對各譯文候補的支持度。
在圖18中,從支持度的合計結果提取支持度高的2個譯文候補,最終 判斷T1超過規(guī)定的基準,確定為最終的對齊結果。
接著,返回圖7,在未通過多對多對齊部218對齊時,通過基于 BGMWM的對齊部220進行對齊。這里的對齊,采用所有未對齊的CS的單 詞集合和JS的單詞集合,作成加權二分圖,采用圖4、圖5所示的基于二 分圖的對齊部進行對齊。
圖19表示了在本實施例的單詞對齊裝置中,領域采用體育新聞報道, 采用存儲了15,405的例句對譯的例句對譯詞典,用100例句對的測試集合 (Opentest)進行實驗時的結果。F-Score用F- (R+P) *2/ (R+F)定義。 從實驗結果可以明白,本實施例的自動單詞對齊裝置執(zhí)行各種算法時, 與傳統(tǒng)的手法比較,提高了調(diào)用率、精度、F-Score。
圖20是表示單詞對齊裝置的一個硬件結構的框圖。翻譯記憶翻譯裝置優(yōu)選包括輸入裝置700;顯示裝置702;主存儲裝置704;存儲裝置706;
中央處理裝置(CPU) 708;以及連接它們的總線710。
輸入裝置700包含通過按鍵操作輸入信息的鍵盤;光學讀取原稿記 載的文件等的掃描儀;以及輸入來自外部裝置和外部存儲器等的數(shù)據(jù)的 輸入接口等。顯示裝置702包括顯示用戶的輸入及翻譯結果等的顯示器 等。主存儲裝置704包括ROM或RAM,存儲用于控制圖7所示的各部的動 作的程序和運算處理的數(shù)據(jù)等。存儲裝置706包含例如硬盤等的大容量存 儲裝置,存儲例句對譯詞典等各種詞典26、 124等的數(shù)據(jù)。中央處理裝置 708按照主存儲裝置704中存儲的程序來控制各部。
以上,詳述了本發(fā)明的優(yōu)選實施方式,但是本發(fā)明不限于特定的實 施方式,在權利要求書所記載的本發(fā)明的要旨的范圍內(nèi),可以進行各種 變形和變更。
例如,上述實施例中,示出了選擇權重為非零的置換為一個的例句 候補來生成譯文的示例,但是不限于此,權重為非零的置換也可以是2個、 3個或更多。另外,脫落的數(shù)也可以大于l。如置換和脫落的數(shù)增加,則 翻譯精度有可能相應地降低,但是可以在充分考慮后用于翻譯系統(tǒng)。
本發(fā)明所涉及的翻譯記憶翻譯裝置用于機器翻譯系統(tǒng)和翻譯支援系 統(tǒng)中。
權利要求
1.一種單詞對齊裝置,是進行第1語言的例句和作為該例句的對譯的第2語言的例句中分別包含的單詞間的對齊的單詞對齊裝置,其特征在于,該單詞對齊裝置具有單詞對譯詞典,其存儲第1語言的單詞與作為其對譯的第2語言的單詞、關于第1語言的單詞的第2語言的譯詞、以及關于第2語言的單詞的第1語言的譯詞的對應關系;輸入單元,其輸入第1語言的例句和作為該例句的對譯的第2語言的例句;單詞提取單元,其從上述所輸入的第1語言及第2語言的例句中分別提取第1語言及第2語言的單詞;第1對齊單元,其在上述提取的第1語言的單詞和上述提取的第2語言的單詞的對應關系包含于上述單詞對譯詞典中時,使上述提取的第1語言的單詞與上述提取的第2語言的單詞對齊;以及第2對齊單元,其對于未被上述第1對齊單元對齊的第1語言的單詞,在該第1語言的單詞與第2語言的譯詞的對應關系包含于上述單詞對譯詞典中時,使第1語言的單詞與和第2語言的譯詞共同的上述提取的第2語言的多個單詞對齊。
2. 根據(jù)權利要求l所述的單詞對齊裝置,其特征在于, 單詞對齊裝置還具有第3對齊單元,該第3對齊單元對于未被第2對齊單元對齊的第H吾言的單詞,將該第l語言的單詞進行分割,在所分割的 單詞與第2語言的譯詞的對應關系包含于上述單詞對譯詞典中時,將所分 割的單詞與和第2語言的譯詞共同的上述提取的第2語言的多個單詞對 齊。
3. 根據(jù)權利要求2所述的單詞對齊裝置,其特征在于, 單詞對齊裝置還具有第4對齊單元,該第4對齊單元對于未被第3對齊單元對齊的第l語言的單詞,在該第1語言的單詞與上述提取的第2語言的 單詞的表記一致時,使該第1語言的單詞與上述提取的第2語言的單詞對齊。
4. 根據(jù)權利要求3所述的單詞對齊裝置,其特征在于, 上述表記的一致是第1語言的單詞與第2語言的單詞的各個漢字一致。
5. 根據(jù)權利要求1至4的任意一項所述的單詞對齊裝置,其特征在于, 第1及第4對齊單元進行從第1語言的一個單詞到第2語言的多個連續(xù)單詞的對齊,或者從第2語言的一個單詞到第1語言的多個連續(xù)單詞的對 齊。
6. —種單詞對齊裝置,是進行第l語言的例句和作為該例句的對譯的 第2語言的例句中分別包含的單詞間的對齊的單詞對齊裝置,其特征在 于,該單詞對齊裝置具有存儲單元,其存儲詞類連接表,該詞類連接表釆用對于第l語言的單 詞和第2語言的單詞預先賦予了對齊的信息,表示連續(xù)的2個單詞的詞類 的連接關系;輸入單元,其輸入第1語言的例句和作為該例句的對譯的第2語言的 例句;單詞提取單元,其從上述所輸入的第1語言及第2語言的例句中分別 提取第1語言及第2語言的單詞;以及對齊單元,其在上述提取的第1語言的單詞與上述提取的第2語言的 連續(xù)的多個單詞的一部分對齊且剩余單詞未被對齊時,在該連續(xù)的多個 單詞包含于上述詞類連接表中的情況下,使上述提取的第l語言的單詞與 第2語言的連續(xù)的多個單詞對齊。
7. 根據(jù)權利要求6所述的單詞對齊裝置,其特征在于, 上述對齊單元在上述提取的連續(xù)的多個單詞的一部分與上述提取的第2語言的單詞對齊且剩余單詞未被對齊時,在上述連續(xù)的多個單詞包含于上述詞類連接表中的情況下,使上述提取的連續(xù)的第l語言的單詞與第 2語言的單詞對齊。
8. 根據(jù)權利要求6或7所述的單詞對齊裝置,其特征在于, 上述詞類連接表采用被賦予了單詞對齊的語料庫,根據(jù)語料庫所包含的所有連續(xù)的2個單詞的數(shù)和語料庫中對齊的連續(xù)的2個單詞的數(shù)的比 例,規(guī)定具有一定的出現(xiàn)頻度的詞類的連接。
9. 一種單詞對齊裝置,是進行第l語言的例句和作為該例句的對譯的 第2語言的例句中分別包含的單詞間的對齊的單詞對齊裝置,其特征在 于,該單詞對齊裝置具有輸入單元,其輸入第1語言的例句和作為該例句的對譯的第2語言的 例句;單詞提取單元,其從上述所輸入的第1語言及第2語言的例句分別提 取第1語言及第2語言的單詞;對齊詞典,其存儲第1語言的一個單詞與作為其譯詞的第2語言的非 連續(xù)的多個單詞的對應關系;以及對齊單元,其在上述提取的第l語言的單詞包含于上述對齊詞典中且 作為該第1語言的單詞的對譯的第2語言的非連續(xù)的多個單詞包含于第2 語言的例句中時,使上述提取的第1語言的單詞與第2語言的上述非連續(xù) 的多個單詞對齊。
10. —種單詞對齊裝置,是進行第l語言的例句和作為該例句的對譯 的第2語言的例句中分別包含的單詞間的對齊的單詞對齊裝置,其特征在 于,該單詞對齊裝置具有輸入單元,其輸入第1語言的例句和作為該例句的對譯的第2語言的 例句;單詞提取單元,其從上述所輸入的第1語言及第2語言的例句中分別 提取第1語言及第2語言的單詞;以及對齊單元,其從存儲有第1語言的例句和作為其對譯的第2語言的譯 文的例句對譯詞典中,選擇包含上述提取的第l語言的連續(xù)的多個單詞的 例句和作為其對譯的組,提取所選擇的例句對譯組相互間的共同部分的 組,算出上述提取的共同部分對于上述連續(xù)的多個單詞的支持度,根據(jù) 所算出的支持度使上述連續(xù)的多個單詞與作為第2語言的共同部分的多 個單詞對齊。
11. 根據(jù)權利要求10所述的單詞對齊裝置,其特征在于,上述支持度的計算包含在各組的共同部分相對于上述連續(xù)的多個 單詞具有規(guī)定的一致程度時,將第2語言的對應譯文的共同部分作為對齊 候補而選出的單元;和將上述選出的對齊候補的出現(xiàn)次數(shù)作為表示其支 持度的數(shù)來進行計數(shù)的單元。
12. 根據(jù)權利要求ll所述的單詞對齊裝置,其特征在于, 在出現(xiàn)次數(shù)最多的對齊候補的該出現(xiàn)次數(shù)超過第l閾值,或該出現(xiàn)次數(shù)在第l閾值以下且該出現(xiàn)次數(shù)與后續(xù)出現(xiàn)次數(shù)多的譯文候補的該出現(xiàn) 次數(shù)之差超過第2閾值,或該出現(xiàn)次數(shù)在第l閾值以下且該出現(xiàn)次數(shù)與后 續(xù)出現(xiàn)次數(shù)多的譯文候補的該出現(xiàn)次數(shù)之比超過第3閾值的任意一個情 況下,將該出現(xiàn)次數(shù)最多的對齊候補與上述連續(xù)的多個單詞對齊。
13. —種基于例句的翻譯裝置,其特征在于,該基于例句的翻譯裝置 具有權利要求1至12任意一項所述的單詞對齊裝置;存儲第l語言的例 句和作為其對譯的第2語言的例句的例句對譯詞典;以及參照上述例句對譯詞典,生成所輸入的第1語言的例句的第2語言的譯詞的譯文生成單元,上述譯文生成單元利用上述單詞對齊裝置的對齊結果生成譯文。
14. 一種單詞對齊方法,是進行第l語言的例句和作為該例句的對譯 的第2語言的例句中分別包含的單詞間的對齊的單詞對齊裝置所執(zhí)行的單詞對齊方法,其特征在于,該單詞對齊方法具有輸入第1語言的例句和作為該例句的對譯的第2語言的例句的步驟;從所輸入的第H吾言及第2語言的例句中分別提取第1語言及第2語言 的單詞的步驟;在上述提取的第1語言的單詞和上述提取的第2語言的單詞的對應關 系包含于單詞對譯詞典中時,使上述提取的第l語言的單詞與上述提取的第2語言的單詞對齊的第1對齊步驟;對于未被第l對齊步驟對齊的第l語言的單詞,在該第l語言的單詞與第2語言的譯詞的對應關系包含于單詞對譯詞典中時,使第l語言的單詞 與和第2語言的譯詞共同的上述提取的第2語言的多個單詞對齊的第2對 齊步驟;以及對于未被第2對齊步驟對齊的第1語言的單詞,將該第l語言的單詞進行分割,在所分割的單詞與第2語言的譯詞的對應關系包含于單詞對譯詞典中時,將所分割的單詞與和第2語言的譯詞共同的上述提取的第2語言的多個單詞對齊的第3對齊步驟。
15. —種單詞對齊方法,是進行第l語言的例句和作為該例句的對譯的第2語言的例句中分別包含的單詞間的對齊的單詞對齊裝置所執(zhí)行的單詞對齊方法,其特征在于,該單詞對齊方法具有輸入第1語言的例句和作為該例句的對譯的第2語言的例句的步驟; 從上述所輸入的第1語言及第2語言的例句中分別提取第1語言及第2語言的單詞的步驟;以及在上述提取的第1語言的單詞與上述提取的第2語言的連續(xù)的多個單 詞的一部分對齊且剩余單詞未被對齊時,在該連續(xù)的多個單詞包含于預 先準備的表示連續(xù)的2個單詞的詞類的連接關系的詞類連接表中的情況 下,使上述提取的第1語言的單詞與第2語言的連續(xù)的多個單詞對齊的步驟。
全文摘要
本發(fā)明提供一種單詞對齊裝置、例句對譯詞典及單詞對齊方法,提高了調(diào)用率及精度。該單詞對齊裝置(200)包括存儲單詞與其對譯、單詞與其解釋譯詞的單詞對譯詞典(208);輸入例句和作為其對譯的例句對譯對的輸入部(202);對所輸入的例句對譯對進行形態(tài)素解析的形態(tài)素解析部(204);根據(jù)單詞對譯詞典,將通過形態(tài)素解析而提取的例句對譯對的單詞對齊的基于詞典的對齊部(210);對于未被基于詞典的對齊部(210)對齊的單詞進行對齊的基于單詞表記的對齊部(214);多對多對齊部(218);基于二分圖的對齊部(220);以及輸出單詞間的對齊結果的輸出部(222)。
文檔編號G06F17/28GK101630313SQ20081013396
公開日2010年1月20日 申請日期2008年7月18日 優(yōu)先權日2008年7月18日
發(fā)明者劉紹明, 吳宏林, 宋國龍, 藤原久美 申請人:富士施樂株式會社