專利名稱:基于實(shí)例的甲骨文釋文機(jī)器翻譯方法
技術(shù)領(lǐng)域:
本發(fā)明涉及ー種自然語言處理技術(shù),特別涉及基于實(shí)例的甲骨文機(jī)器翻譯方法。
背景技術(shù):
甲骨文研究面臨的首要問題是如何利用現(xiàn)代漢語理解和讀懂甲骨文語句,國(guó)內(nèi)外甲骨文專家紛紛指出將甲骨文用白話文釋讀很有意義。但是從事甲骨文研究的門檻很高,培養(yǎng)一名甲骨文專家需要一二十年甚至更長(zhǎng)的時(shí)間,而且專家對(duì)甲骨文的辨識(shí)和翻譯依靠長(zhǎng)期的學(xué)術(shù)鉆研和經(jīng)驗(yàn)積累,這種經(jīng)驗(yàn)知識(shí)僅存儲(chǔ)在專家的頭腦中,并不能實(shí)現(xiàn)知識(shí)的有效共享。如果能利用計(jì)算機(jī)技術(shù)和信息技術(shù)實(shí)現(xiàn)甲骨文白話釋讀,則可以有效共享和重用甲骨文專家的知識(shí),減輕他們的負(fù)擔(dān),降低甲骨文的研究門檻,為甲骨文的研究和推廣、提高甲骨文數(shù)字化展示等起到重要的推動(dòng)作用。利用計(jì)算機(jī)實(shí)現(xiàn)甲骨文的白話釋讀屬于機(jī)器翻譯的范疇。機(jī)器翻譯研究主要有三種基于規(guī)則的機(jī)器翻譯(Rule-Based Machine Translation, RBMT)、基于實(shí)例的機(jī)器翻譯(Example-Based Machine Translation,EBMT)和統(tǒng)計(jì)機(jī)器翻譯(Statistical MachineTranslation, SMT)。RBMT是依賴規(guī)則的,其“瓶頸”在于通過人工編寫的方式獲得大規(guī)模的語言規(guī)則成本太高,在研究上難以取得更大突破,而且甲骨文是迄今為止最早的成系統(tǒng)語言,很多文法規(guī)律還處于不確定狀態(tài),因此深層次的甲骨文規(guī)則的獲取和維護(hù)比較困難;SMT方法需要大規(guī)模的雙語平行語料庫作為訓(xùn)練各種概率參數(shù)的基礎(chǔ),但目前收集的甲骨文資料的規(guī)模還遠(yuǎn)遠(yuǎn)不夠,而且,一片甲骨上的文字最多百余字,最少的只有ー個(gè)字,數(shù)據(jù)稀疏問題嚴(yán)重。而EBMT具有無需編寫規(guī)則、系統(tǒng)維護(hù)容易、產(chǎn)生的譯文質(zhì)量較高、需要的語言知識(shí)較少等優(yōu)點(diǎn),是ー個(gè)很好的選擇。而且,甲骨文學(xué)習(xí)者都是通過已經(jīng)存在的翻譯實(shí)例作為知識(shí)源,來進(jìn)行類比翻譯和學(xué)習(xí)的,這與EBMT當(dāng)初的設(shè)計(jì)思想十分吻合。由于甲骨文原文是沒有句讀的,且甲骨字很多都是異體字,而甲骨文釋文是經(jīng)專家考釋過的與原文對(duì)應(yīng)的簡(jiǎn)體或繁體中文(沒有考釋出來的甲骨字仍然以原始形態(tài)出現(xiàn))。釋文已經(jīng)添加了句讀符號(hào),統(tǒng)ー了異體字的表示形式,并且對(duì)一些殘缺的或錯(cuò)刻的甲骨文字進(jìn)行了補(bǔ)充,而且,在甲骨文信息處理過程中,主要研究對(duì)象為釋文,因此本發(fā)明選擇甲骨文釋文作為機(jī)器翻譯的源語言,現(xiàn)代漢語為目標(biāo)語言。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)中存在的不足,本發(fā)明的目的在于提供ー種利用計(jì)算機(jī)的存儲(chǔ)和查詢優(yōu)勢(shì)的基于實(shí)例的甲骨文釋文機(jī)器翻譯方法,減輕甲骨文專家的負(fù)擔(dān),降低甲骨文的研究門檻。本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的基于實(shí)例的甲骨文釋文機(jī)器翻譯方法,包括如下步驟(a)構(gòu)建完成甲骨文釋文-現(xiàn)代漢語的雙語語料庫;(b)完成雙語語料的句對(duì)齊、短語對(duì)齊和詞對(duì)齊,建立翻譯實(shí)例庫;
(c)輸入待翻譯甲骨文釋文;(d)基于步驟(b)中建立的翻譯實(shí)例庫,對(duì)輸入的待翻譯甲骨文釋文進(jìn)行全實(shí)例匹配或部分實(shí)例匹配的檢索;若待翻譯甲骨文釋文存在于翻譯實(shí)例庫中,采用全實(shí)例匹配方式,直接輸出待翻譯甲骨文釋文的現(xiàn)代漢語翻譯句;若翻譯實(shí)例庫中沒有待翻譯甲骨文釋文,采用部分實(shí)例匹配方式,計(jì)算待翻譯甲骨文釋文句子和檢索到的實(shí)例句的相似度,并選擇相似度最大的實(shí)例句,對(duì)相似度最大的實(shí)例句對(duì)應(yīng)的現(xiàn)代漢語翻譯句進(jìn)行替換和調(diào)整; (e)將最終的翻譯結(jié)果通過顯示器顯示給用戶;(f)評(píng)價(jià)翻譯結(jié)果,將滿足釋譯要求的待翻譯甲骨文釋文句子和與之對(duì)應(yīng)的現(xiàn)代漢語組成的雙語句對(duì)添加至翻譯實(shí)例庫中。上述基于實(shí)例的甲骨文釋文機(jī)器翻譯方法,步驟(d)中相似度計(jì)算公式如式(I)所示
權(quán)利要求
1.基于實(shí)例的甲骨文釋文機(jī)器翻譯方法,其特征在于,包括如下步驟 (a)構(gòu)建完成甲骨文釋文-現(xiàn)代漢語的雙語語料庫; (b)完成雙語語料的句對(duì)齊、短語對(duì)齊和詞對(duì)齊,建立翻譯實(shí)例庫; (C)輸入待翻譯甲骨文釋文; (d)基于步驟(b)中建立的翻譯實(shí)例庫,對(duì)輸入的待翻譯甲骨文釋文進(jìn) 行全實(shí)例匹配或部分實(shí)例匹配的檢索;若待翻譯甲骨文釋文存在于翻譯實(shí)例庫中,采用全實(shí)例匹配方式,直接輸出待翻譯甲骨文釋文的現(xiàn)代漢語翻譯句;若翻譯實(shí)例庫中沒有待翻譯甲骨文釋文,采用部分實(shí)例匹配方式,計(jì)算待翻譯甲骨文釋文句子和檢索到的實(shí)例句的相似度,并選擇相似度最大的實(shí)例句,對(duì)相似度最大的實(shí)例句對(duì)應(yīng)的現(xiàn)代漢語翻譯句進(jìn)行替換和調(diào)整; (e)將最終的翻譯結(jié)果通過顯示器顯示給用戶; (f)評(píng)價(jià)翻譯結(jié)果,將滿足釋譯要求的待翻譯甲骨文釋文句子和與之對(duì)應(yīng)的現(xiàn)代漢語組成的雙語句對(duì)添加至翻譯實(shí)例庫中。
2.如權(quán)利要求I所述的基于實(shí)例的甲骨文釋文機(jī)器翻譯方法,其特征在于步驟(d)中相似度計(jì)算公式如式(I)所示
3.如權(quán)利要求2所述的基于實(shí)例的甲骨文釋文機(jī)器翻譯方法,其特征在干步驟(d)中,對(duì)輸入的待翻譯甲骨文釋文進(jìn)行全實(shí)例匹配或部分實(shí)例匹配的檢索步驟如下 第一歩將輸入的待翻譯甲骨文釋文句子S。進(jìn)行分詞,按照式(2)所示計(jì)算待翻譯甲骨文釋文中各詞的信息熵,高頻詞有著較低的信息熵,設(shè)定信息熵最小閾值為D,信息熵低于D的詞將不再參與檢索,剔除信息熵小于閾值D的詞,得到詞集合W ; H(ch) = Ig (M/m)式⑵; ch表示一個(gè)詞,M表示雙語語料庫中的甲骨文釋文句子總數(shù),m表示甲骨文釋文中出現(xiàn)ch的句子數(shù); 第二步對(duì)每個(gè)詞& e W,通過詞的倒排索引檢索出所有包含Wi的實(shí)例句,得到句子集合Si ; 第三步求Si的并集得到句子集合S ; 第四部對(duì)每個(gè)句子Si e S,利用公式⑴求出Sim(S。,Si)并按降序排列; 第五步取Sim(S。,Si)值最大的句子Si作為目標(biāo)句。
4.如權(quán)利要求1-3任一所述的基于實(shí)例的甲骨文釋文機(jī)器翻譯方法,其特征在于步驟(a)中的甲骨文釋文是經(jīng)考釋過的與甲骨文原文對(duì)應(yīng)的簡(jiǎn)體中文或繁體中文,沒有考釋出來的甲骨文原文仍然以原始形態(tài)出現(xiàn);甲骨文釋文已經(jīng)添加了句讀符號(hào),統(tǒng)ー了異體字的表示形式,并且對(duì)一些殘缺的或錯(cuò)刻的甲骨文原文文字進(jìn)行了補(bǔ)充;甲骨文釋文-現(xiàn)代漢語的雙語語料均收集來自甲骨文文獻(xiàn)的甲骨文釋文及其對(duì)應(yīng)的現(xiàn)代漢語翻譯句對(duì);雙語語料均為考釋過的、不存在學(xué)術(shù)爭(zhēng)議的且能進(jìn)行通讀的甲骨文釋文及其對(duì)應(yīng)的現(xiàn)代漢語翻譯句;在雙語語料庫預(yù)處理階段,已經(jīng)篩除了殘缺較多、未考釋字較多或僅有ー兩字等影響通讀的句子。
5.如權(quán)利要求4所述的基于實(shí)例的甲骨文釋文機(jī)器翻譯方法,其特征在干步驟(b)中的雙語句對(duì)齊為人工實(shí)現(xiàn),詞對(duì)齊和短語對(duì)齊以自動(dòng)實(shí)現(xiàn)為主,輔以人工校對(duì);翻譯實(shí)例庫包含了這三級(jí)對(duì)齊信息并建立了索引 ;詞對(duì)齊及短語對(duì)齊的自動(dòng)實(shí)現(xiàn)基礎(chǔ)為甲骨文分詞技術(shù)。
6.如權(quán)利要求4所述的基于實(shí)例的甲骨文釋文機(jī)器翻譯方法,其特征在于翻譯實(shí)例庫最終存儲(chǔ)形式為關(guān)系數(shù)據(jù)庫,建立索引的目的是為實(shí)例捜索提供基礎(chǔ),包括按句子排序的索引和按詞排序的索引;在生成的翻譯實(shí)例庫索引中,包含了實(shí)例句的源句子、目標(biāo)句子和對(duì)齊信息。
7.如權(quán)利要求5所述的甲骨文分詞技術(shù),其特征在干甲骨文分詞采用基于詞典、句法規(guī)則和句法分析相結(jié)合的辦法,首先通過甲骨文詞典獲得初歩的分詞結(jié)果,然后根據(jù)甲骨文句法規(guī)則和句法分析對(duì)初步結(jié)果進(jìn)行再次劃分,劃分的結(jié)果通過句法分析排歧后再進(jìn)行分詞序列優(yōu)化,得到最終的分詞結(jié)果;通過未登錄詞識(shí)別規(guī)則進(jìn)行檢查,將滿足未登錄詞條件的新詞加入詞庫。
8.如權(quán)利要求4所述的基于實(shí)例的甲骨文釋文機(jī)器翻譯方法,其特征在干步驟(d)中的句子相似度計(jì)算,主要考慮匹配組塊和編輯距離兩個(gè)方面。
9.如權(quán)利要求4所述的基于實(shí)例的甲骨文釋文機(jī)器翻譯方法,其特征在于所述步驟(f)中的翻譯結(jié)果評(píng)價(jià),主要采用人エ評(píng)價(jià)方法,可通過查閱甲骨文文獻(xiàn)資料和咨詢甲骨文專家兩種方式實(shí)現(xiàn)。
全文摘要
本發(fā)明基于實(shí)例的甲骨文釋文機(jī)器翻譯方法,包括如下步驟(a)構(gòu)建完成甲骨文釋文-現(xiàn)代漢語的雙語語料庫;(b)完成雙語語料的句對(duì)齊、短語對(duì)齊和詞對(duì)齊,建立翻譯實(shí)例庫;(c)輸入待翻譯甲骨文釋文;(d)基于步驟(b)中建立的翻譯實(shí)例庫,對(duì)輸入的待翻譯甲骨文釋文進(jìn)行全實(shí)例匹配或部分實(shí)例匹配的檢索;(e)將最終的翻譯結(jié)果通過顯示器顯示給用戶;(f)評(píng)價(jià)翻譯結(jié)果,將滿足釋譯要求的雙語句對(duì)添加至翻譯實(shí)例庫中。本發(fā)明利用計(jì)算機(jī)的存儲(chǔ)和查詢優(yōu)勢(shì)的基于實(shí)例的甲骨文釋文機(jī)器翻譯方法,減輕甲骨文專家的負(fù)擔(dān),降低甲骨文的研究門檻。
文檔編號(hào)G06F17/28GK102693222SQ201210165360
公開日2012年9月26日 申請(qǐng)日期2012年5月25日 優(yōu)先權(quán)日2012年5月25日
發(fā)明者孫華, 熊晶, 王愛民, 王繼鵬, 葛彥強(qiáng), 郭濤, 馬輝 申請(qǐng)人:孫華, 熊晶, 王愛民, 郭濤, 馬輝