基于句長懲罰因子的富含信息量句子的選擇方法
【專利摘要】本發(fā)明公開了一種基于句長懲罰因子的富含信息量句子的選擇方法,步驟包括:步驟1、構(gòu)建初始的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng);步驟2、構(gòu)建信息量化單元集合X及進(jìn)行信息量計(jì)算;步驟3、進(jìn)行專業(yè)翻譯,得到平行語料句對(duì)集合;步驟4、對(duì)語料庫進(jìn)行更新;步驟5、對(duì)統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)重新訓(xùn)練;步驟6、進(jìn)行過程迭代及算法評(píng)價(jià)。本發(fā)明的帶句長懲罰因子的富含信息量句子選擇方法可以有效地對(duì)源語言單語言句子進(jìn)行信息量計(jì)算,平衡所選擇句子絕對(duì)信息量與句長的關(guān)系,實(shí)現(xiàn)對(duì)信息量最大句子的選擇準(zhǔn)確率,從而使得人工翻譯價(jià)值最大化和有限數(shù)據(jù)效能的最大化。
【專利說明】基于句長懲罰因子的富含信息量句子的選擇方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于計(jì)算語言學(xué)/統(tǒng)計(jì)機(jī)器翻譯【技術(shù)領(lǐng)域】,涉及一種基于句長懲罰因子的富含信息量句子的選擇方法。
【背景技術(shù)】
[0002]基于統(tǒng)計(jì)方法或語料庫方法的機(jī)器翻譯技術(shù)本質(zhì)上是基于數(shù)據(jù)驅(qū)動(dòng)的翻譯方法,因此,數(shù)據(jù)規(guī)模的大小和數(shù)據(jù)本身的好壞對(duì)翻譯性能有著至關(guān)重要的影響。要獲得一個(gè)高質(zhì)量的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng),通常需要大規(guī)模的雙語平行語料,而目前這對(duì)很多語言來說是無法實(shí)現(xiàn)的。目前已經(jīng)有很多方法可以緩解這類問題,比如使用復(fù)述技術(shù)或者用可比較語料等。但對(duì)于資源缺乏的語言來說,數(shù)據(jù)規(guī)模是統(tǒng)計(jì)機(jī)器翻譯技術(shù)研究的瓶頸問題,也是亟待解決的核心問題之一。
[0003]在現(xiàn)今眾多語系中,還有多數(shù)是屬于“低密度”語言,使用這種語言的人并不多,SP便有數(shù)以百萬的人講這種語言,但是可用的數(shù)字化的平行語料庫還是十分匱乏。例如,我國少數(shù)民族眾多,隨著經(jīng)濟(jì)的發(fā)展,少數(shù)民族語言及信息處理研究與應(yīng)用成為振興地區(qū)經(jīng)濟(jì)、推動(dòng)地區(qū)發(fā)展和促進(jìn)文化交流的重要手段之一。在這種背景下,對(duì)“低密度”語言的高質(zhì)量統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的需求就顯得尤為迫切。總體來講,兩種方案可以有效緩解這種需求:(I)構(gòu)建大規(guī)模雙語平行語料庫;(2)以現(xiàn)有的一定規(guī)模雙語平行語料庫為基礎(chǔ),構(gòu)建大規(guī)模單語語料庫,采用高效的方法從單語語料中生成雙語數(shù)據(jù),擴(kuò)展數(shù)據(jù)的效能。
[0004]事實(shí)上,大規(guī)模雙語平行語料庫的構(gòu)建是一個(gè)系統(tǒng)工程,需要大量的人力、物力和財(cái)力投入,尤其是高質(zhì)量的語料庫,需要相當(dāng)長的時(shí)間才能完善。而信息技術(shù)的發(fā)展瞬息萬變,新詞和新知識(shí)層出不窮,如何提出可行的方法,有效利用當(dāng)前已經(jīng)構(gòu)建的雙語平行語料和單語語料庫以適應(yīng)新的知識(shí),提高面向資源缺乏語言的統(tǒng)計(jì)機(jī)器翻譯質(zhì)量,在當(dāng)前顯得尤為重要和迫切。
[0005]現(xiàn)有的富含信息量句子一般性的選擇算法存在的主要問題是:當(dāng)大規(guī)模單語語料庫中句子長度差別較大時(shí),現(xiàn)存的方法會(huì)傾向于選擇句長較短的句子,從而造成所挑選的句子使得所生成的雙語語料無論在對(duì)測試集的覆蓋率還是對(duì)翻譯引擎短語表的概率估計(jì)上都表現(xiàn)不好,造成使用選擇算法所生成的雙語語料的機(jī)器翻譯系統(tǒng)的翻譯性能低于使用隨機(jī)方法產(chǎn)生的雙語語料的機(jī)器翻譯系統(tǒng)性能,從而造成富含信息量句子的挑選沒有任何意義。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的目的是提供一種基于句長懲罰因子的富含信息量句子的選擇方法,解決了現(xiàn)有技術(shù)中,傾向于選擇句長較短的句子,從而造成所挑選的句子使得所生成的雙語語料無論在對(duì)測試集的覆蓋率還是在對(duì)翻譯引擎短語表的概率估計(jì)上都表現(xiàn)不好,影響機(jī)器翻譯系統(tǒng)性能的問題。
[0007]本發(fā)明所采用的技術(shù)方案是,一種基于句長懲罰因子的富含信息量句子的選擇方法,按照以下步驟具體實(shí)施:
[0008]步驟1、構(gòu)建初始的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)
[0009]使用初始雙語平行語料L = Kfi, e,)}來訓(xùn)練統(tǒng)計(jì)機(jī)器翻譯系統(tǒng),其中L表示初始雙語平行語料庫,fi,e,分別表示L中第i個(gè)平行句對(duì),即第i個(gè)漢語句子和第i個(gè)英文句子,{i=l,...N};
[0010]步驟2、構(gòu)建信息量化單元集合X及進(jìn)行信息量計(jì)算
[0011]根據(jù)所定義的信息表示單元X,從大規(guī)模單語語料U = {fj}中挑選句子集合仏,帶
句長懲罰因子的富含信息量句子選擇算法如下:
[0012]
【權(quán)利要求】
1.一種基于句長懲罰因子的富含信息量句子的選擇方法,其特征在于,按照以下步驟具體實(shí)施: 步驟1、構(gòu)建初始的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng) 使用初始雙語平行語料L= KfiWiM來訓(xùn)練統(tǒng)計(jì)機(jī)器翻譯系統(tǒng),其中L表示初始雙語平行語料庫,fi,e,分別表示L中第i個(gè)平行句對(duì),即第i個(gè)漢語句子和第i個(gè)英文句子,{i=l,…N}; 步驟2、構(gòu)建信息量化單元集合X及進(jìn)行信息量計(jì)算 根據(jù)所定義的信息表示單元X,從大規(guī)模單語語料U = {fj}中挑選句子集合un,帶句長懲罰因子的富含信息量句子選擇算法如下:
2.根據(jù)權(quán)利要求1所述的基于句長懲罰因子的富含信息量句子的選擇方法,其特征在于,所述的步驟6中,進(jìn)行25次迭代后停止;計(jì)算25次迭代BLEU得分的均值,與隨機(jī)方法的均值進(jìn)行比較,衡量 句子選擇算法的性能,均值越大則說明算法越好。
【文檔編號(hào)】G06F17/28GK103955456SQ201410168282
【公開日】2014年7月30日 申請(qǐng)日期:2014年4月23日 優(yōu)先權(quán)日:2014年4月23日
【發(fā)明者】杜金華, 張萌 申請(qǐng)人:西安理工大學(xué)