面向統(tǒng)計(jì)機(jī)器翻譯的訓(xùn)練語(yǔ)料質(zhì)量評(píng)價(jià)及選取方法

文檔序號(hào)：6617063閱讀：392來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：面向統(tǒng)計(jì)機(jī)器翻譯的訓(xùn)練語(yǔ)料質(zhì)量評(píng)價(jià)及選取方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種統(tǒng)計(jì)機(jī)器翻譯技術(shù)，具體的說(shuō)是一種面向統(tǒng)計(jì)機(jī)器翻譯的訓(xùn)練語(yǔ)料質(zhì)量評(píng)價(jià)及選取方法。
背景技術(shù)：
統(tǒng)計(jì)機(jī)器翻譯(Statistical Machine Translation, SMT)系統(tǒng)的訓(xùn)練需要大規(guī)模的雙語(yǔ)平行語(yǔ)料的支持，語(yǔ)料的質(zhì)量和數(shù)量會(huì)對(duì)機(jī)器翻譯系統(tǒng)的性能帶來(lái)很大的影響。一般來(lái)說(shuō)，訓(xùn)練語(yǔ)料規(guī)模的增加有助于獲得穩(wěn)定的模型參數(shù)并提高SMT系統(tǒng)的翻譯性能。但是語(yǔ)料規(guī)模越大，系統(tǒng)的執(zhí)行代價(jià)就越高，訓(xùn)練和解碼需要的時(shí)間也越長(zhǎng)。另外，更大規(guī)模的語(yǔ)料也就意味著可能存在更多的噪聲數(shù)據(jù)，會(huì)在一定程度上影響到系統(tǒng)訓(xùn)練的可靠性。
姚樹杰等人(2010)曾提出了一種基于句對(duì)質(zhì)量和覆蓋度的統(tǒng)計(jì)機(jī)器翻譯訓(xùn)練語(yǔ)料選取的方法，他們通過(guò)綜合考慮覆蓋度和句對(duì)質(zhì)量?jī)煞矫娴囊蛩?，從已有的平行語(yǔ)料中獲取高質(zhì)量小規(guī)模訓(xùn)練子集，以達(dá)到同使用全部訓(xùn)練語(yǔ)料相當(dāng)?shù)姆g性能。在姚樹杰等人提出的模型中，有五個(gè)質(zhì)量評(píng)價(jià)特征，各個(gè)特征的權(quán)重采用人工設(shè)定經(jīng)驗(yàn)值的方法得到。人工的方法需要大量的實(shí)驗(yàn)支撐，耗時(shí)耗力，并且在特征數(shù)量增加的時(shí)候，變得非常不可用。

發(fā)明內(nèi)容
針對(duì)基于句對(duì)質(zhì)量和覆蓋度的統(tǒng)計(jì)機(jī)器翻譯技術(shù)中的質(zhì)量評(píng)價(jià)特征采用人工設(shè)定經(jīng)驗(yàn)值的方法得到，耗時(shí)耗力，并且在特征數(shù)量增加時(shí)變得非常不可用等不足之處，本發(fā)明要解決的技術(shù)問(wèn)題是提供一種可自動(dòng)生成特征權(quán)重，能夠提供更豐富的句對(duì)質(zhì)量評(píng)價(jià)特征的面向統(tǒng)計(jì)機(jī)器翻譯的訓(xùn)練語(yǔ)料質(zhì)量評(píng)價(jià)及選取方法。為解決上述技術(shù)問(wèn)題，本發(fā)明采用的技術(shù)方案是本發(fā)明面向統(tǒng)計(jì)機(jī)器翻譯的訓(xùn)練語(yǔ)料質(zhì)量評(píng)價(jià)及選取方法包括以下步驟權(quán)重自動(dòng)獲取采用小規(guī)模語(yǔ)料對(duì)權(quán)重自動(dòng)獲取模型進(jìn)行訓(xùn)練，以得到特征的權(quán)重和分類臨界值；句對(duì)質(zhì)量評(píng)價(jià)將上述權(quán)重和分類臨界值與原始大規(guī)模平行語(yǔ)料一起做為輸入，由句對(duì)質(zhì)量評(píng)價(jià)線性模型對(duì)大規(guī)模平行語(yǔ)料進(jìn)行分類，生成各個(gè)語(yǔ)料子集；高質(zhì)量語(yǔ)料子集選取在上述各個(gè)語(yǔ)料子集的基礎(chǔ)上，考慮覆蓋度的影響，選取高質(zhì)量語(yǔ)料做為統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的訓(xùn)練數(shù)據(jù)。所述句對(duì)質(zhì)量評(píng)價(jià)線性模型為
權(quán)利要求
1.一種面向統(tǒng)計(jì)機(jī)器翻譯的訓(xùn)練語(yǔ)料質(zhì)量評(píng)價(jià)及選取方法，其特征在于包括以下步驟權(quán)重自動(dòng)獲取采用小規(guī)模語(yǔ)料對(duì)權(quán)重自動(dòng)獲取模型進(jìn)行訓(xùn)練，以得到特征的權(quán)重和分類臨界值；句對(duì)質(zhì)量評(píng)價(jià)將上述權(quán)重和分類臨界值與原始大規(guī)模平行語(yǔ)料一起做為輸入，由句對(duì)質(zhì)量評(píng)價(jià)線性模型對(duì)大規(guī)模平行語(yǔ)料進(jìn)行分類，生成各個(gè)語(yǔ)料子集；高質(zhì)量語(yǔ)料子集選取在上述各個(gè)語(yǔ)料子集的基礎(chǔ)上，考慮覆蓋度的影響，選取高質(zhì)量語(yǔ)料做為統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的訓(xùn)練數(shù)據(jù)。
2.按權(quán)利要求I所述的面向統(tǒng)計(jì)機(jī)器翻譯的訓(xùn)練語(yǔ)料質(zhì)量評(píng)價(jià)及選取方法，其特征在于所述句對(duì)質(zhì)量評(píng)價(jià)線性模型為
3.按權(quán)利要求I所述的面向統(tǒng)計(jì)機(jī)器翻譯的訓(xùn)練語(yǔ)料質(zhì)量評(píng)價(jià)及選取方法，其特征在于所述高質(zhì)量句對(duì)為句對(duì)中源語(yǔ)句和目標(biāo)語(yǔ)句都是流暢的句子，且源語(yǔ)句和目標(biāo)語(yǔ)句的互譯程度高。
4.按權(quán)利要求I所述的面向統(tǒng)計(jì)機(jī)器翻譯的訓(xùn)練語(yǔ)料質(zhì)量評(píng)價(jià)及選取方法，其特征在于句對(duì)質(zhì)量評(píng)價(jià)特征包括高質(zhì)量翻譯短語(yǔ)特征和基于實(shí)詞的質(zhì)量評(píng)價(jià)特征，其中高質(zhì)量翻譯短語(yǔ) 在高質(zhì)量短語(yǔ)翻譯表中，查找提取的短語(yǔ)對(duì)是否存在，其特征公式如下
5.按權(quán)利要求4所述的面向統(tǒng)計(jì)機(jī)器翻譯的訓(xùn)練語(yǔ)料質(zhì)量評(píng)價(jià)及選取方法，其特征在于所述句對(duì)質(zhì)量評(píng)價(jià)特征還包括基于IBM model I的翻譯概率的質(zhì)量評(píng)價(jià)特征、基于IBM model I的最大化翻譯概率(MTP)的質(zhì)量評(píng)價(jià)特征、基于詞匯化翻譯概率(LexicalWeighting，LW)的質(zhì)量評(píng)價(jià)特征、基于詞典的質(zhì)量評(píng)價(jià)特征、基于短語(yǔ)表染色機(jī)制的質(zhì)量評(píng)價(jià)特征和基于語(yǔ)言模型的質(zhì)量評(píng)價(jià)特征，其中基于IBM model I的最大化翻譯概率(MTP)的質(zhì)量評(píng)價(jià)特征通過(guò)以下公式實(shí)現(xiàn)
6.按權(quán)利要求5所述的面向統(tǒng)計(jì)機(jī)器翻譯的訓(xùn)練語(yǔ)料質(zhì)量評(píng)價(jià)及選取方法，其特征在于詞Wi在N元語(yǔ)言模型下的概率P (Wi I &__，...， <)通過(guò)以下公式得到
7.按權(quán)利要求I所述的面向統(tǒng)計(jì)機(jī)器翻譯的訓(xùn)練語(yǔ)料質(zhì)量評(píng)價(jià)及選取方法，其特征在于在權(quán)重自動(dòng)獲取步驟中，采用小規(guī)模語(yǔ)料對(duì)權(quán)重自動(dòng)獲取模型進(jìn)行訓(xùn)練通過(guò)Pranking算法實(shí)現(xiàn)，通過(guò)訓(xùn)練數(shù)據(jù)自動(dòng)調(diào)整各個(gè)特征的權(quán)重，訓(xùn)練集中的每組數(shù)據(jù)執(zhí)行調(diào)整過(guò)程后，得到新的權(quán)重向量與臨界值向量，做為下一組數(shù)據(jù)計(jì)算的初始值；當(dāng)多組訓(xùn)練數(shù)據(jù)全部執(zhí)行完成后，所得的權(quán)重向量與臨界值向量即為最終結(jié)果。
8.按權(quán)利要求I所述的面向統(tǒng)計(jì)機(jī)器翻譯的訓(xùn)練語(yǔ)料質(zhì)量評(píng)價(jià)及選取方法，其特征在于所述考慮基于句對(duì)質(zhì)量和覆蓋度的語(yǔ)料選取包括以下步驟使用句對(duì)質(zhì)量評(píng)價(jià)模型將訓(xùn)練語(yǔ)料分為質(zhì)量高低不同的k個(gè)等級(jí)，k為Pranking算法訓(xùn)練數(shù)據(jù)標(biāo)注的等級(jí)數(shù)；采用翻譯短語(yǔ)對(duì)作為覆蓋度的度量標(biāo)準(zhǔn)，一個(gè)句子對(duì)覆蓋度的貢獻(xiàn)，是其中包含的不同的未知翻譯短語(yǔ)對(duì)的個(gè)數(shù)；選取數(shù)據(jù)首先從質(zhì)量等級(jí)最高的數(shù)據(jù)中選取句對(duì)，當(dāng)全部剩余句對(duì)已經(jīng)無(wú)法增加訓(xùn)練子集的覆蓋度時(shí)，再?gòu)馁|(zhì)量次之的等級(jí)中選??；當(dāng)高質(zhì)量句對(duì)的覆蓋度貢獻(xiàn)值小于設(shè)定的閾值a時(shí)，優(yōu)先考慮從質(zhì)量較低集合中選取覆蓋度貢獻(xiàn)大的句對(duì)，同時(shí)，將高質(zhì)量的未被選取句對(duì)的覆蓋度加上一個(gè)常數(shù)b，與質(zhì)量較低的數(shù)據(jù)一同參選；在選取數(shù)據(jù)時(shí)，從包含詞對(duì)齊信息的句對(duì)中抽取出翻譯短語(yǔ)對(duì)，以句子包含的翻譯短語(yǔ)對(duì)的數(shù)量作為各個(gè)句子的初始覆蓋度貢獻(xiàn)值；訓(xùn)練語(yǔ)料子集對(duì)應(yīng)的短語(yǔ)對(duì)集合每增加一個(gè)新的短語(yǔ)對(duì)，則相應(yīng)的所有包含該短語(yǔ)對(duì)的句子的覆蓋度貢獻(xiàn)減I ; 每次從語(yǔ)料中選取覆蓋度貢獻(xiàn)最大的句子加入語(yǔ)料子集中，然后更新所有未被選取的句子的覆蓋度貢獻(xiàn)值；迭代進(jìn)行此過(guò)程，直至選取的子集達(dá)到目標(biāo)規(guī)模。
9.按權(quán)利要求8所述的面向統(tǒng)計(jì)機(jī)器翻譯的訓(xùn)練語(yǔ)料質(zhì)量評(píng)價(jià)及選取方法，其特征在于所述考慮覆蓋度的影響選取高質(zhì)量語(yǔ)料還包括特征評(píng)價(jià)結(jié)果縮放步驟對(duì)基于IBM model I的最大化翻譯概率的質(zhì)量評(píng)價(jià)特征fMTP、基于IBMmodel I翻譯概率的質(zhì)量評(píng)價(jià)特征,BM、基于語(yǔ)言模型的質(zhì)量評(píng)價(jià)特征φ!Λ!以及基于語(yǔ)言模型的質(zhì)量評(píng)價(jià)特征fLW的結(jié)果進(jìn)行縮放，采用公式(14)將[O，-⑴]區(qū)間縮放至[O，I]區(qū)間
全文摘要
本發(fā)明涉及一種面向統(tǒng)計(jì)機(jī)器翻譯的訓(xùn)練語(yǔ)料質(zhì)量評(píng)價(jià)及選取方法，步驟為權(quán)重自動(dòng)獲取采用小規(guī)模語(yǔ)料對(duì)權(quán)重自動(dòng)獲取模型進(jìn)行訓(xùn)練，以得到特征的權(quán)重和分類臨界值；句對(duì)質(zhì)量評(píng)價(jià)將上述權(quán)重和分類臨界值與原始大規(guī)模平行語(yǔ)料一起做為輸入，由句對(duì)質(zhì)量評(píng)價(jià)線性模型對(duì)大規(guī)模平行語(yǔ)料進(jìn)行分類，生成各個(gè)語(yǔ)料子集；高質(zhì)量語(yǔ)料子集選取在上述各個(gè)語(yǔ)料子集的基礎(chǔ)上，考慮覆蓋度的影響，選取高質(zhì)量語(yǔ)料做為統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的訓(xùn)練數(shù)據(jù)。本發(fā)明提出更豐富的句對(duì)質(zhì)量評(píng)價(jià)特征，實(shí)現(xiàn)了特征權(quán)重的自動(dòng)學(xué)習(xí)，當(dāng)子集規(guī)模達(dá)到30%時(shí)性能可能夠達(dá)到100%甚至更好；可以對(duì)任意輸入的句對(duì)劃分其所屬的等級(jí)，可以為高質(zhì)量語(yǔ)料數(shù)據(jù)選取等任務(wù)提供幫助。
文檔編號(hào)G06F17/28GK102945232SQ20121046917
公開日2013年2月27日申請(qǐng)日期2012年11月16日優(yōu)先權(quán)日2012年11月16日
發(fā)明者朱靖波, 張浩, 肖桐, 李強(qiáng) 申請(qǐng)人:沈陽(yáng)雅譯網(wǎng)絡(luò)技術(shù)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：朱靖波;張浩;肖桐;李強(qiáng)
技術(shù)所有人：沈陽(yáng)雅譯網(wǎng)絡(luò)技術(shù)有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

機(jī)器翻譯相關(guān)技術(shù)

百度機(jī)器翻譯相關(guān)技術(shù)

神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯相關(guān)技術(shù)

神經(jīng)機(jī)器翻譯相關(guān)技術(shù)

陽(yáng)光藏漢機(jī)器翻譯相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

面向統(tǒng)計(jì)機(jī)器翻譯的訓(xùn)練語(yǔ)料質(zhì)量評(píng)價(jià)及選取方法