本發(fā)明屬于的統(tǒng)計(jì)機(jī)器翻譯
技術(shù)領(lǐng)域:
,具體地說(shuō),涉及一種實(shí)現(xiàn)領(lǐng)域自適應(yīng)的統(tǒng)計(jì)機(jī)器翻譯方法。
背景技術(shù):
:統(tǒng)計(jì)機(jī)器翻譯是當(dāng)今使用的最流行的機(jī)器翻譯。它的工作方式是使用非常龐大的平行文本以及單語(yǔ)語(yǔ)料庫(kù)訓(xùn)練翻譯引擎。系統(tǒng)會(huì)尋找源文本和譯文之間的統(tǒng)計(jì)相關(guān)性。然后對(duì)源語(yǔ)言句子,去查找概率最大的譯文。翻譯引擎本身沒(méi)有規(guī)則或語(yǔ)法概念。統(tǒng)計(jì)機(jī)器翻譯的主要缺點(diǎn)是,如果在翻譯訓(xùn)練語(yǔ)料庫(kù)中沒(méi)有相似的資料的文本時(shí),得出的譯文不行。例如,一個(gè)使用技術(shù)文本訓(xùn)練的翻譯引擎,在翻譯口語(yǔ)化的文本時(shí)效果會(huì)很差。因此,需要持續(xù)使用與待翻譯材料相似的文本來(lái)訓(xùn)練引擎。但即使有龐大合適的訓(xùn)練語(yǔ)料,統(tǒng)計(jì)機(jī)器翻譯通常也不能生成出版質(zhì)量的文本。統(tǒng)計(jì)機(jī)器翻譯經(jīng)常是在不管上下文的情況下翻譯原文,缺乏對(duì)上下文語(yǔ)境及專業(yè)領(lǐng)域的相關(guān)性。統(tǒng)計(jì)機(jī)器翻譯的難點(diǎn)在于領(lǐng)域遷移和自適應(yīng)。訓(xùn)練機(jī)器翻譯系統(tǒng)的原始數(shù)據(jù)可能來(lái)自寬泛的各個(gè)領(lǐng)域,遇見(jiàn)某個(gè)具體領(lǐng)域生僻的詞語(yǔ)、句型時(shí),如何快速遷移,以得到高水平的翻譯頗為不易,因?yàn)檫@些領(lǐng)域的語(yǔ)料庫(kù)掌握得少,遷移時(shí)知識(shí)不足。目前幾家著名的在線翻譯系統(tǒng),新聞翻譯尚可勝任(因?yàn)樾侣務(wù)Z料最多),但對(duì)銀行、法律這些語(yǔ)料稀缺的領(lǐng)域,自適應(yīng)能力則薄弱許多。技術(shù)實(shí)現(xiàn)要素:針對(duì)現(xiàn)有技術(shù)中上述的不足,本發(fā)明提供一種實(shí)現(xiàn)領(lǐng)域自適應(yīng)的統(tǒng)計(jì)機(jī)器翻譯方法,本翻譯方法通過(guò)上下文知識(shí)樹(shù)計(jì)算出相關(guān)的領(lǐng)域,從而為每個(gè)名詞選擇相應(yīng)領(lǐng)域的對(duì)應(yīng)譯法,增強(qiáng)翻譯方法的自適應(yīng)能力,提高翻譯準(zhǔn)確性。為了達(dá)到上述目的,本發(fā)明采用的解決方案是:一種實(shí)現(xiàn)領(lǐng)域自適應(yīng)的統(tǒng)計(jì)機(jī)器翻譯方法,包括以下步驟,a、將所有的中英對(duì)照的名詞及名詞短語(yǔ)依照現(xiàn)有的知識(shí)體系,建立電腦可識(shí)別的知識(shí)體系樹(shù)狀結(jié)構(gòu)圖,所述的知識(shí)體系樹(shù)狀結(jié)構(gòu)圖包括若干依次排列且逐層細(xì)分的層級(jí),層級(jí)的標(biāo)號(hào)從1開(kāi)始直至n;所述的中英對(duì)照的名詞及名詞短語(yǔ)分為通用名詞和行業(yè)名詞,通用名詞屬于第1層,行業(yè)名詞從第2層開(kāi)始按領(lǐng)域逐層細(xì)分;所述的知識(shí)體系樹(shù)狀結(jié)構(gòu)圖包括所有的由大及小的領(lǐng)域名稱以及該領(lǐng)域內(nèi)的名詞及名詞短語(yǔ),該領(lǐng)域內(nèi)的名詞及名詞短語(yǔ)設(shè)置在該領(lǐng)域名稱的下屬層級(jí)內(nèi),領(lǐng)域名稱形成領(lǐng)域位置點(diǎn);由此得到所有的中英對(duì)照的名詞及名詞短語(yǔ)具有它對(duì)應(yīng)的知識(shí)樹(shù)層級(jí);b、建立電腦可識(shí)別的中英對(duì)照的名詞及名詞短語(yǔ)數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)如下:中文英文知識(shí)樹(shù)層級(jí)(level)領(lǐng)域影響權(quán)重(weight):nn+k由此得到所有的中英對(duì)照的名詞及名詞短語(yǔ)具有它對(duì)應(yīng)的領(lǐng)域影響權(quán)重;c、計(jì)算每個(gè)領(lǐng)域位置點(diǎn)的領(lǐng)域影響權(quán)重之和;d、比較各個(gè)領(lǐng)域位置點(diǎn)的領(lǐng)域影響權(quán)重之和,得出最高領(lǐng)域影響權(quán)重之和的領(lǐng)域位置點(diǎn),即該段文字所相關(guān)的知識(shí)領(lǐng)域;e、在該知識(shí)領(lǐng)域內(nèi),根據(jù)名詞詞典,確定對(duì)應(yīng)的翻譯詞匯。優(yōu)選地,在步驟b中,針對(duì)一詞多義的名詞,則將該名詞分布在不同意義所針對(duì)的領(lǐng)域位置點(diǎn)上,且該名詞在每個(gè)領(lǐng)域位置點(diǎn)的領(lǐng)域影響權(quán)重為(n+k)/x,x為該名詞涉及的領(lǐng)域數(shù)量。優(yōu)選地,k=-0.5。本發(fā)明的有益效果是,本統(tǒng)計(jì)機(jī)器翻譯方法通過(guò)模擬人腦知識(shí)架構(gòu)體系,讓計(jì)算機(jī)可以學(xué)習(xí)人類閱讀文字分析相關(guān)領(lǐng)域的方法,從而實(shí)現(xiàn)計(jì)算機(jī)對(duì)文字知識(shí)進(jìn)行領(lǐng)域識(shí)別,從而實(shí)現(xiàn)機(jī)器翻譯的領(lǐng)域自適應(yīng)功能,從而提高翻譯準(zhǔn)確性。具體實(shí)施方式以下對(duì)本發(fā)明作進(jìn)一步描述:本發(fā)明提供一種實(shí)現(xiàn)領(lǐng)域自適應(yīng)的統(tǒng)計(jì)機(jī)器翻譯方法,包括以下步驟,a、將所有的中英對(duì)照的名詞及名詞短語(yǔ)依照現(xiàn)有的知識(shí)體系,建立電腦可識(shí)別的知識(shí)體系樹(shù)狀結(jié)構(gòu)圖,所述的知識(shí)體系樹(shù)狀結(jié)構(gòu)圖包括若干依次排列且逐層細(xì)分的層級(jí),層級(jí)的標(biāo)號(hào)從1開(kāi)始直至n;所述的中英對(duì)照的名詞及名詞短語(yǔ)分為通用名詞和行業(yè)名詞,通用名詞屬于第1層,行業(yè)名詞從第2層開(kāi)始按領(lǐng)域逐層細(xì)分;通用性名詞通常不影響上下文領(lǐng)域,而細(xì)分的行業(yè)名詞對(duì)領(lǐng)域有較高影響,更加細(xì)分的行業(yè)領(lǐng)域的詞匯,對(duì)上下文領(lǐng)域有更高的影響度;所述的知識(shí)體系樹(shù)狀結(jié)構(gòu)圖包括所有的由大及小的領(lǐng)域名稱以及該領(lǐng)域內(nèi)的名詞及名詞短語(yǔ),該領(lǐng)域內(nèi)的名詞及名詞短語(yǔ)設(shè)置在該領(lǐng)域名稱的下屬層級(jí)內(nèi),領(lǐng)域名稱形成領(lǐng)域位置點(diǎn);由此得到所有的中英對(duì)照的名詞及名詞短語(yǔ)具有它對(duì)應(yīng)的知識(shí)樹(shù)層級(jí);b、建立電腦可識(shí)別的中英對(duì)照的名詞及名詞短語(yǔ)數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)如下:中文英文知識(shí)樹(shù)層級(jí)(level)領(lǐng)域影響權(quán)重(weight):nn+k由此得到所有的中英對(duì)照的名詞及名詞短語(yǔ)具有它對(duì)應(yīng)的領(lǐng)域影響權(quán)重;針對(duì)一詞多義的名詞,則將該名詞分布在不同意義所針對(duì)的領(lǐng)域位置點(diǎn)上,且該名詞在每個(gè)領(lǐng)域位置點(diǎn)的領(lǐng)域影響權(quán)重為(n+k)/x,x為該名詞涉及的領(lǐng)域數(shù)量,k=-0.5;c、計(jì)算每個(gè)領(lǐng)域位置點(diǎn)的領(lǐng)域影響權(quán)重之和;d、比較各個(gè)領(lǐng)域位置點(diǎn)的領(lǐng)域影響權(quán)重之和,得出最高領(lǐng)域影響權(quán)重之和的領(lǐng)域位置點(diǎn),即該段文字所相關(guān)的知識(shí)領(lǐng)域;e、在該知識(shí)領(lǐng)域內(nèi),根據(jù)名詞詞典,確定對(duì)應(yīng)的翻譯詞匯。本統(tǒng)計(jì)機(jī)器翻譯方法通過(guò)模擬人腦知識(shí)架構(gòu)體系,讓計(jì)算機(jī)可以學(xué)習(xí)人類閱讀文字分析相關(guān)領(lǐng)域的方法,從而實(shí)現(xiàn)計(jì)算機(jī)對(duì)文字知識(shí)進(jìn)行領(lǐng)域識(shí)別,從而實(shí)現(xiàn)機(jī)器翻譯的領(lǐng)域自適應(yīng)功能,從而提高翻譯準(zhǔn)確性。當(dāng)前第1頁(yè)1 2 3