一種漢英短語(yǔ)翻譯對(duì)自動(dòng)抽取與過(guò)濾方法

文檔序號(hào)：6460072閱讀：185來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：：一種漢英短語(yǔ)翻譯對(duì)自動(dòng)抽取與過(guò)濾方法
技術(shù)領(lǐng)域：
：本發(fā)明屬于自然語(yǔ)言處理領(lǐng)域，特別涉及統(tǒng)計(jì)機(jī)器翻譯、跨語(yǔ)言信息檢索和雙語(yǔ)短語(yǔ)自動(dòng)抽取與過(guò)濾的方法。
背景技術(shù)：
：隨著全球化信息時(shí)代的到來(lái)，如何克服語(yǔ)言障礙顯得越來(lái)越嚴(yán)重，利用計(jì)算機(jī)實(shí)現(xiàn)不同語(yǔ)言之間的自動(dòng)翻譯，成為全人類面臨的共同問(wèn)題。目前在機(jī)器翻譯研究中統(tǒng)計(jì)方法占據(jù)著主導(dǎo)地位，而統(tǒng)計(jì)方法中又以基于短語(yǔ)的翻譯模型較為成熟?；诙陶Z(yǔ)統(tǒng)計(jì)機(jī)器翻譯方法的基本思想就是以短語(yǔ)作為翻譯的基本單元。因?yàn)槎陶Z(yǔ)內(nèi)部隱含了譯文詞語(yǔ)的選擇和詞序的調(diào)整信息，所以能夠較好的解決局部上下文依賴問(wèn)題，在近期的機(jī)器翻譯評(píng)測(cè)中基于短語(yǔ)的翻譯模型屢次獲得領(lǐng)先成績(jī)，這標(biāo)志著該模型已成為統(tǒng)計(jì)機(jī)器翻譯的主流。無(wú)疑短語(yǔ)抽取是基于短語(yǔ)的翻譯系統(tǒng)最核心的模塊，短語(yǔ)對(duì)質(zhì)量的好壞決定了最后機(jī)器翻譯質(zhì)量。目前國(guó)際上現(xiàn)有的短語(yǔ)抽取方法很多，最成熟流行的方法就是奧赫(Och)的抽取方法以及后來(lái)蔣偉(DavidChiang)在奧赫(Och)思想上的提出的改進(jìn)分層短語(yǔ)方法，該方法簡(jiǎn)單可行，僅僅只需要利用詞對(duì)齊，所以后來(lái)得到了廣泛的應(yīng)用，也取得了不錯(cuò)的效果。但是，無(wú)論是奧赫的方法還是蔣偉的方法都只能抽取出與詞對(duì)齊完全相容的源短語(yǔ)和目標(biāo)短語(yǔ)。實(shí)際上，要求短語(yǔ)對(duì)完全與詞對(duì)齊相容的抽取條件過(guò)于苛刻，而且會(huì)導(dǎo)致詞對(duì)齊錯(cuò)誤的蔓延。而且該方法存在的另一個(gè)很棘手的問(wèn)題就是隨著語(yǔ)料規(guī)模的擴(kuò)大，抽取的短語(yǔ)對(duì)會(huì)劇增，這樣無(wú)疑為后面的解碼帶來(lái)太大的負(fù)擔(dān)，而且本身短語(yǔ)的存儲(chǔ)空間太大也是一個(gè)問(wèn)題。所以，短語(yǔ)的過(guò)濾成了一個(gè)亟需解決的問(wèn)題，目前的方法也就是通過(guò)引入句法知識(shí)來(lái)對(duì)其進(jìn)行一定的約束從而控制其數(shù)量的暴增。而我們很清楚的知道，首先句法樹(shù)生成本身的正確率就是個(gè)問(wèn)題，其次句法樹(shù)的約束過(guò)于嚴(yán)格從而無(wú)法滿足召回率的要求，所以在絕大多數(shù)句法系統(tǒng)中，實(shí)際上保留了所有的短語(yǔ)對(duì)，僅僅利用句法知識(shí)來(lái)提供重排序(reordering)的信息。
發(fā)明內(nèi)容為了解決現(xiàn)有技術(shù)處理上述短語(yǔ)抽取存在的問(wèn)題，本發(fā)明提出一種簡(jiǎn)單有效的漢英短語(yǔ)翻譯對(duì)自動(dòng)抽取與過(guò)濾方法。本發(fā)明的目的是通過(guò)對(duì)當(dāng)前漢英句對(duì)進(jìn)行語(yǔ)塊劃分，通過(guò)語(yǔ)塊內(nèi)部的短語(yǔ)抽取來(lái)取代現(xiàn)有方法的整句短語(yǔ)抽取，從而抑制現(xiàn)有方法無(wú)限制擴(kuò)展空詞的弱點(diǎn)，并且該發(fā)明能夠根據(jù)當(dāng)前句對(duì)的詞對(duì)齊生成多層次短語(yǔ)，打破傳統(tǒng)的根據(jù)固定詞對(duì)齊只可能生成該種詞對(duì)齊下固定模式的一種短語(yǔ)對(duì)，同時(shí)本發(fā)明不需要利用句法知識(shí)來(lái)對(duì)生成的短語(yǔ)對(duì)進(jìn)行過(guò)濾，而是利用簡(jiǎn)單的單語(yǔ)候選短語(yǔ)出現(xiàn)頻率來(lái)進(jìn)行啟發(fā)過(guò)濾。為了實(shí)現(xiàn)所述的目的，本發(fā)明提供的漢英短語(yǔ)翻譯對(duì)自動(dòng)抽取與過(guò)濾方法，其自動(dòng)抽取與過(guò)濾的步驟包括步驟l:對(duì)原始漢、英雙語(yǔ)句對(duì)提取劃分語(yǔ)塊和對(duì)候選短語(yǔ)進(jìn)行過(guò)濾的特征信息；步驟2:根據(jù)不同的特征信息確定劃分語(yǔ)塊錨點(diǎn)，將原始漢、英句對(duì)劃分為多個(gè)單語(yǔ)語(yǔ)塊；步驟3:利用原始漢、英雙語(yǔ)句對(duì)的詞對(duì)齊信息在語(yǔ)塊內(nèi)進(jìn)行候選短語(yǔ)的抽??；步驟4:利用候選短語(yǔ)的出現(xiàn)頻率的特征信息來(lái)對(duì)生成的候選短語(yǔ)進(jìn)一步過(guò)濾，生成需要的短語(yǔ)對(duì)；根據(jù)本發(fā)明的實(shí)施例，步驟1所述提取多個(gè)劃分語(yǔ)塊的特征，是兩個(gè)相鄰單語(yǔ)單詞間的互信息特征、雙語(yǔ)單詞間的互信息特征、t-檢驗(yàn)(t-test)特征、/檢驗(yàn)特征、Dice系數(shù)特征；并提取過(guò)濾候選短語(yǔ)的特征，這些特征是單語(yǔ)候選短語(yǔ)本身包含信息的出現(xiàn)頻率特征，或是雙語(yǔ)候選短語(yǔ)本身包含信息的聯(lián)合出現(xiàn)概率；這些特征包括單語(yǔ)候選短語(yǔ)的出現(xiàn)頻率特征，雙語(yǔ)候選短語(yǔ)的聯(lián)合出現(xiàn)概率特征、單語(yǔ)候選短語(yǔ)詞性出現(xiàn)系列頻率特征、單語(yǔ)候選短語(yǔ)詞類出現(xiàn)系列頻率特征、雙語(yǔ)候選短語(yǔ)詞性系列的聯(lián)合出現(xiàn)概率特征、雙語(yǔ)候選短語(yǔ)詞類系列的聯(lián)合出現(xiàn)概率特征。根據(jù)本發(fā)明的實(shí)施例，步驟2所述確定劃分錨點(diǎn)信息的步驟包括步驟21:分別利用相鄰兩個(gè)漢語(yǔ)或英語(yǔ)單詞之間的互信息來(lái)分別對(duì)漢、英句子進(jìn)行單語(yǔ)語(yǔ)塊的劃分；相鄰單詞間的互信息比較了這兩個(gè)單詞的聯(lián)合概率與這兩個(gè)單詞的獨(dú)立概率如果兩個(gè)單詞間存在較強(qiáng)的鄰接關(guān)系，其聯(lián)合概率將遠(yuǎn)遠(yuǎn)大于獨(dú)立概率，從而互信息遠(yuǎn)遠(yuǎn)大于0;如果不存在較強(qiáng)的鄰接這種關(guān)系，則兩個(gè)單詞的聯(lián)合概率和兩個(gè)單詞的獨(dú)立概率基本相等，即互信息約等于0;如果以互補(bǔ)出現(xiàn)，則互信息遠(yuǎn)遠(yuǎn)小于0，利用兩個(gè)單詞之間的互信息在一定程度上反映這兩個(gè)單詞的聯(lián)系緊密性，選擇相鄰詞的互信息來(lái)作為劃分錨點(diǎn)的依據(jù)；步驟22:確定劃分錨點(diǎn)首先計(jì)算出當(dāng)前漢英句子所有單語(yǔ)相鄰兩個(gè)單詞間的互信息，然后找到那些互信息為負(fù)數(shù)的點(diǎn)的個(gè)數(shù)；如果互信息為負(fù)數(shù)的點(diǎn)的個(gè)數(shù)大于設(shè)定的閾值，則利用互信息為負(fù)數(shù)的點(diǎn)的位置作為初始劃分錨點(diǎn)，并給出該點(diǎn)的標(biāo)記，否則選擇最小的幾個(gè)點(diǎn)作為劃分錨點(diǎn)，這最小的幾個(gè)點(diǎn)的個(gè)數(shù)就是設(shè)定的閾值；設(shè)定閾值為句子長(zhǎng)度除以最大短語(yǔ)長(zhǎng)度；步驟23:所述最大短語(yǔ)長(zhǎng)度是與用奧赫(Och)方法抽取短語(yǔ)的最大短語(yǔ)長(zhǎng)度保持一致，用于與奧赫抽取方法進(jìn)行對(duì)比的公正性，設(shè)定相同的最大短語(yǔ)長(zhǎng)度。根據(jù)本發(fā)明的實(shí)施例，步驟3所述根據(jù)詞對(duì)齊信息在語(yǔ)塊內(nèi)進(jìn)行候選短語(yǔ)的抽取的步驟包括步驟31:針對(duì)當(dāng)前漢英句對(duì)，結(jié)合漢英句對(duì)在012八++工具包下生成的詞對(duì)齊，利用生成的劃分錨點(diǎn)信息確定劃分點(diǎn)，然后利用劃分點(diǎn)作為抽取候選短語(yǔ)的初始或終止點(diǎn)，具體操作是找到第一個(gè)劃分錨點(diǎn)的位置，確定漢語(yǔ)或英語(yǔ)第一個(gè)語(yǔ)塊，遍歷漢語(yǔ)或英語(yǔ)的第一個(gè)語(yǔ)塊下所有的候選短語(yǔ)，結(jié)合詞對(duì)齊信息，根據(jù)奧赫短語(yǔ)抽取方法進(jìn)行遍歷該語(yǔ)塊內(nèi)部的所有候選短語(yǔ)對(duì)抽??；步驟32:執(zhí)行完第一個(gè)語(yǔ)塊后，重復(fù)步驟31執(zhí)行下一個(gè)語(yǔ)塊的候選短語(yǔ)對(duì)的抽取，直至處理完原始句子包含的所有劃分語(yǔ)塊；步驟33:最后組合所有語(yǔ)塊的候選短語(yǔ)，生成該原始句對(duì)的所有候選短語(yǔ)對(duì)。根據(jù)本發(fā)明的實(shí)施例，步驟3所述根據(jù)詞對(duì)齊信息在語(yǔ)塊內(nèi)進(jìn)行候選短語(yǔ)的抽取的步驟還包括根據(jù)不同方向的限制條件生成三組不同的短語(yǔ)為漢語(yǔ)方向在語(yǔ)塊內(nèi)遍歷短語(yǔ)、英語(yǔ)方向在語(yǔ)塊內(nèi)遍歷短語(yǔ)和雙方向都只能在語(yǔ)塊內(nèi)遍歷短語(yǔ)；三組不同的短語(yǔ)呈現(xiàn)互補(bǔ)趨勢(shì)，對(duì)產(chǎn)生的短語(yǔ)對(duì)以更高的權(quán)重，用于計(jì)算短語(yǔ)對(duì)概率打分時(shí)給予權(quán)重高的短語(yǔ)以更高的概率打分，在解碼的時(shí)提高此類短語(yǔ)的位置，用于得到更好的翻譯結(jié)果。根據(jù)本發(fā)明的實(shí)施例，步驟4所述根據(jù)利用額外的特征對(duì)生成的候選短語(yǔ)進(jìn)行過(guò)濾的步驟包括步驟41:利用額外的特征對(duì)生成的候選短語(yǔ)進(jìn)行進(jìn)一步的過(guò)濾，利用單語(yǔ)候選短語(yǔ)的出現(xiàn)頻率進(jìn)行約束，或利用更多的特征來(lái)進(jìn)行約束過(guò)濾；步驟42:利用單語(yǔ)候選短語(yǔ)的出現(xiàn)頻率來(lái)進(jìn)一步過(guò)濾時(shí)采用的啟發(fā)函數(shù)，或逐步加入更細(xì)化的特征信息來(lái)設(shè)計(jì)啟發(fā)函數(shù)；利用候選短語(yǔ)的出現(xiàn)次數(shù)來(lái)啟發(fā)就是如果候選短語(yǔ)的出現(xiàn)次數(shù)大于設(shè)定的閾值也就是短語(yǔ)最少出現(xiàn)次數(shù)，則舍棄不用；如果是新聞?lì)I(lǐng)域，對(duì)那些出現(xiàn)次數(shù)為1的單個(gè)詞短語(yǔ)進(jìn)行了召回，用于新聞?lì)I(lǐng)域語(yǔ)料的多變性及新詞系列。根據(jù)本發(fā)明的實(shí)施例，所述通過(guò)限制三個(gè)方向的候選短語(yǔ)出現(xiàn)頻率而生成三組不同的短語(yǔ)對(duì)，只對(duì)漢語(yǔ)單語(yǔ)方向的短語(yǔ)對(duì)抽取進(jìn)行約束過(guò)濾，只對(duì)英語(yǔ)單語(yǔ)方向的短語(yǔ)對(duì)抽取進(jìn)行過(guò)濾和同時(shí)對(duì)漢英雙向進(jìn)行約束過(guò)濾，最后同時(shí)組合生成的這三組短語(yǔ)作為最終的短語(yǔ)列表。本發(fā)明的積極效果本發(fā)明最大短語(yǔ)長(zhǎng)度與用奧赫方法抽取短語(yǔ)的最大短語(yǔ)長(zhǎng)度保持一致，目的是為了更大可能的保存長(zhǎng)短語(yǔ)信息的情況下還不浪費(fèi)存儲(chǔ)空間，而且對(duì)比平等。本發(fā)明組合所有語(yǔ)塊的候選短語(yǔ)，生成該原始句對(duì)的所有候選短語(yǔ)對(duì)，這樣做的好處就是利用遍歷語(yǔ)塊內(nèi)的源語(yǔ)言短語(yǔ)抽取來(lái)取代奧赫方法遍歷整句源語(yǔ)言進(jìn)行抽取短語(yǔ)的方法，從而大大減少了噪音短語(yǔ)的出現(xiàn)幾率，由于對(duì)于空詞的無(wú)限制擴(kuò)展很有用，從而有效的解決了目前短語(yǔ)抽取量過(guò)大對(duì)于存儲(chǔ)空間的要求。對(duì)于現(xiàn)有技術(shù)公開(kāi)的抽取短語(yǔ)方法，對(duì)于同一種詞對(duì)齊利用同種抽取方法只可能生成一組短語(yǔ)，因?yàn)楝F(xiàn)有技術(shù)的方法對(duì)于漢英兩個(gè)方向生成的短語(yǔ)集合是完全一致的，而本發(fā)明可以根據(jù)不同方向的限制條件生成三組不同的短語(yǔ)，即分別限制漢語(yǔ)方向在語(yǔ)塊內(nèi)遍歷短語(yǔ)、英語(yǔ)方向在語(yǔ)塊內(nèi)遍歷短語(yǔ)和雙方向都只能在語(yǔ)塊內(nèi)遍歷短語(yǔ)。這三組不同的短語(yǔ)不僅能夠呈現(xiàn)互補(bǔ)趨勢(shì)，更重要的是能夠給予那些在三種情況下都能產(chǎn)生的短語(yǔ)對(duì)以更高的權(quán)重，從而在計(jì)算短語(yǔ)對(duì)概率打分的時(shí)候給予那些更好的短語(yǔ)以更高的概率打分，從而讓解碼的時(shí)候能夠更突出的提高此類短語(yǔ)的位置，從而得到更好的翻譯效果。本發(fā)明可以利用額外的特征對(duì)生成的候選短語(yǔ)進(jìn)行進(jìn)一步的過(guò)濾，這里我們只利用了單語(yǔ)候選短語(yǔ)的出現(xiàn)頻率進(jìn)行約束，當(dāng)然我們也可以利用更多的特征來(lái)進(jìn)行約束過(guò)濾，是否利用更多的特征依賴于當(dāng)前的訓(xùn)練語(yǔ)料的性質(zhì)，也就是說(shuō)要根據(jù)具體的訓(xùn)練語(yǔ)料的不同來(lái)進(jìn)行不同特征的選擇和調(diào)整。本發(fā)明僅僅利用候選短語(yǔ)的出現(xiàn)次數(shù)來(lái)啟發(fā)，也就是如果候選短語(yǔ)的出現(xiàn)次數(shù)大于設(shè)定的閾值(也就是短語(yǔ)最少出現(xiàn)次數(shù))，則就舍棄不用，考慮到新聞?lì)I(lǐng)域語(yǔ)料的多變性，可能新詞系列更多一些，為了考慮數(shù)據(jù)稀疏問(wèn)題，同時(shí)為了兼顧新詞，我們對(duì)那些出現(xiàn)次數(shù)為1的單個(gè)詞短語(yǔ)進(jìn)行了召回。這樣我們就在進(jìn)一步強(qiáng)化了短語(yǔ)生成條件，從而更有效的對(duì)短語(yǔ)對(duì)進(jìn)行了過(guò)濾，大大減少了短語(yǔ)對(duì)的存儲(chǔ)空間。本發(fā)明通過(guò)限制三個(gè)方向的候選短語(yǔ)出現(xiàn)頻率而生成三組不同的短語(yǔ)對(duì)，組合生成的這三組短語(yǔ)作為我們最終的短語(yǔ)列表，這樣做的積極效果是給予更準(zhǔn)確的短語(yǔ)對(duì)以更高的權(quán)重，從而給予更好的短語(yǔ)對(duì)以更高的概率打分用于解碼，可以得到更好的翻譯效果。圖1本發(fā)明一個(gè)改善短語(yǔ)抽取與過(guò)濾的例子；圖2本發(fā)明一個(gè)雙語(yǔ)句對(duì)相鄰兩個(gè)單詞之間的互信息值及錨點(diǎn)確定的例子；圖3本發(fā)明一個(gè)雙語(yǔ)句對(duì)詞對(duì)齊的例子；圖4本發(fā)明一個(gè)經(jīng)過(guò)第一層利用錨點(diǎn)劃分語(yǔ)塊前后抽取的短語(yǔ)對(duì)比例子；圖5本發(fā)明一個(gè)利用候選短語(yǔ)出現(xiàn)頻率進(jìn)行過(guò)濾的例子；圖6本發(fā)明一個(gè)經(jīng)過(guò)第二層利用候選短語(yǔ)出現(xiàn)頻率進(jìn)行過(guò)濾前后的短語(yǔ)對(duì)比例子；具體實(shí)施例方式下面結(jié)合附圖詳細(xì)說(shuō)明本發(fā)明技術(shù)方案中所涉及的各個(gè)細(xì)節(jié)問(wèn)題。應(yīng)指出的是，所描述的實(shí)施例僅旨在便于對(duì)本發(fā)明的理解，而對(duì)其不起任何限定作用。本發(fā)明所有算法代碼都是在0++語(yǔ)言下完成，所采用的機(jī)型的配置如下Pentium4處理器，CPU主頻為2.0GHZ，內(nèi)存為8G。而且本發(fā)明中使用的GIZA+十工具包必須在LINUX操作系統(tǒng)下完成。本發(fā)明的提供一種短語(yǔ)抽取與過(guò)濾算法，對(duì)現(xiàn)有的短語(yǔ)抽取方法進(jìn)行改善提高，獲得高精度的短語(yǔ)對(duì)。這里的基本思想就是對(duì)于當(dāng)前句對(duì)，本發(fā)明結(jié)合其GIZA+十生成的詞對(duì)齊，并利用一些錨點(diǎn)信息將雙語(yǔ)句對(duì)分割成一系列的語(yǔ)塊，然后直接針對(duì)該語(yǔ)塊內(nèi)部詞對(duì)齊信息進(jìn)行短語(yǔ)的抽取。該方法最大的一個(gè)優(yōu)點(diǎn)就是利用遍歷語(yǔ)塊內(nèi)的源語(yǔ)言短語(yǔ)抽取來(lái)取代奧赫方法遍歷整句源語(yǔ)言進(jìn)行抽取短語(yǔ)的方法。如圖1所示。圖1是奧赫方法和本發(fā)明的方法抽取短語(yǔ)對(duì)比圖，圖l(a)和圖1(b)表示該漢語(yǔ)句子是由c,，c3,q,q，&這6個(gè)漢語(yǔ)單詞組成。其中圖l(a)表示遍歷該漢語(yǔ)句子所有源語(yǔ)言短語(yǔ)，圖l(b)表示遍歷組成該漢語(yǔ)句子的每個(gè)語(yǔ)塊內(nèi)所有源語(yǔ)言短語(yǔ)。由圖1我們可以很清楚的看出，對(duì)于一個(gè)長(zhǎng)度為6的源語(yǔ)言句子，如果我們遍歷該源語(yǔ)言句子，抽取其所有可能的源語(yǔ)言短語(yǔ)，則一共需要抽21個(gè)短語(yǔ)對(duì)，圖中一條弧線代表一個(gè)源語(yǔ)言短語(yǔ)，見(jiàn)圖l(a)。也就是說(shuō)，對(duì)于一個(gè)源語(yǔ)言長(zhǎng)度為J的句子，如果遍歷抽取的話，需要抽取JC7+l)/2個(gè)短語(yǔ)。而如果我們根據(jù)錨點(diǎn)(圖中用實(shí)心矩形表示的)將原始句子化為兩個(gè)語(yǔ)塊后，則只需要在每個(gè)語(yǔ)塊內(nèi)部遍歷源語(yǔ)言短語(yǔ)，則如圖l(b)所示，只需抽取2><(2+1)/2+4><(4+1)/2=3+10=13個(gè)短語(yǔ)，如該圖弧線所示。也就是說(shuō)，對(duì)于劃分后的句子，只需抽取J，"+l)/2+…+々(^+l)/2個(gè)語(yǔ)塊，無(wú)疑大大減少了抽取短語(yǔ)的數(shù)量，這里J,，…,^分別表示將原始句子劃分為P個(gè)語(yǔ)塊的每個(gè)語(yǔ)塊的長(zhǎng)度。這里可能大家會(huì)疑惑，這樣會(huì)不會(huì)損失很多短語(yǔ)，而這些短語(yǔ)對(duì)中可能包含很多有用的信息。我們知道對(duì)于奧赫的方法，從兩個(gè)方向遍歷抽取的短語(yǔ)是一樣的，原因就在于該方法是在整句中嚴(yán)格按照詞對(duì)齊進(jìn)行抽取的，所以無(wú)論把那個(gè)語(yǔ)種作為源語(yǔ)言結(jié)果抽取的短語(yǔ)對(duì)是不變的。而這里我們可以從奧赫的方法衍生出三組短語(yǔ)，即1)只對(duì)漢語(yǔ)進(jìn)行分割，限制漢語(yǔ)在語(yǔ)塊內(nèi)遍歷抽取而不限制英語(yǔ)對(duì)應(yīng)短語(yǔ)的范圍，也就是漢語(yǔ)短語(yǔ)控制在語(yǔ)塊內(nèi)遍歷，而英語(yǔ)還是在整句范圍內(nèi)尋找；2)只對(duì)英語(yǔ)進(jìn)行語(yǔ)塊內(nèi)遍歷；3)雙向都進(jìn)行限制遍歷抽取。這樣無(wú)疑就會(huì)將那些真正有用的短語(yǔ)抽取出來(lái)而過(guò)濾掉那些噪音短語(yǔ)。這里所謂的噪音短語(yǔ)有兩種一種是因?yàn)樵~對(duì)齊錯(cuò)誤生成的短語(yǔ)，另一種雖然詞對(duì)齊正確，但因?yàn)闆](méi)有正確擴(kuò)展空詞生成的短語(yǔ)。無(wú)疑這種方法對(duì)于抑制后一種錯(cuò)誤即解決短語(yǔ)的擴(kuò)空詞問(wèn)題尤其有效。我們知道，對(duì)于由詞對(duì)齊抽取出來(lái)的短語(yǔ)，如果短語(yǔ)邊界還有很多空詞的話，為了提高召回率，我們會(huì)遍歷擴(kuò)展每一個(gè)空詞生成新的短語(yǔ)對(duì)，而擴(kuò)空詞是沒(méi)有任何約束的，這樣無(wú)疑就大大增加了短語(yǔ)對(duì)的數(shù)量，因?yàn)榭赵~在詞對(duì)齊中是大量普遍存在的。所以我們?nèi)绻紫葎澖纾蜁?huì)抑制這種無(wú)限制擴(kuò)空情況而只讓更可能存在的短語(yǔ)對(duì)抽取出來(lái)。奧赫的抽取方法的主要思想就是對(duì)于當(dāng)前源語(yǔ)言短語(yǔ)，根據(jù)詞對(duì)齊結(jié)果確定該源語(yǔ)言短語(yǔ)對(duì)應(yīng)的英語(yǔ)翻譯的詞的最小和最大位置邊界來(lái)抽取。也就是說(shuō)，針對(duì)每個(gè)源短語(yǔ)找到該短語(yǔ)對(duì)應(yīng)的目標(biāo)詞集合，確定其目標(biāo)詞集合的最小和最大邊界，然后，逆向判斷介于這兩個(gè)邊界之間的目標(biāo)詞是否也都對(duì)應(yīng)到了該源短語(yǔ)，如果是，則抽取出來(lái)，否則，就抽不出目標(biāo)短語(yǔ)，同時(shí)源短語(yǔ)的信息也丟失了。該方法抽取的短語(yǔ)可以用公式(l)表示(/，3)"尸<=>扁、"(乂，。)"4/￡/其中(/,e—)組成一個(gè)基本短語(yǔ)bp。這里我們借用奧赫抽取方法的短語(yǔ)表示方法來(lái)表示我們的短語(yǔ)對(duì)，假設(shè)原始漢英句對(duì)(《，^)通過(guò)切割錨點(diǎn)的劃分可以將該句對(duì)分別劃分為尸個(gè)漢語(yǔ)句塊和2個(gè)英語(yǔ)語(yǔ)塊，即《JSC,,...5Cp，...,JBCp，^J^...^^'...^^,則根據(jù)上面的分析，我們可以得到三種形式的短語(yǔ)對(duì)漢語(yǔ)只能在語(yǔ)塊內(nèi)遍歷短語(yǔ)；英語(yǔ)只能在語(yǔ)塊內(nèi)遍歷短語(yǔ)；漢英語(yǔ)都只能限制在語(yǔ)塊內(nèi)遍歷。從這里我們也可以看出，實(shí)際上第三種形式的短語(yǔ)對(duì)是第一種和第二種短語(yǔ)對(duì)的一個(gè)交集。這三種形式的短語(yǔ)分別見(jiàn)公式(2)、(3)和(4):(/，e—)=U《,e~)"P<=>爿M)W,e-:a,e,)e爿—乂e力(2)扁力e^(/,e-)=。(M)"P<=>JM)Ve,e勺a,。)e(3)v4M)g。^風(fēng)(尸,e)V乂e力a,e》"—。"？JiVZ)Ve^:C/;,e乂)e」~>乂e入(4)扁/-Cp，ds。g眠參錨點(diǎn)的確定這里我們利用單語(yǔ)兩個(gè)詞之間的互信息來(lái)確定劃分錨點(diǎn)從而對(duì)句子進(jìn)行語(yǔ)塊劃分。這里的語(yǔ)塊也就是一系列的連續(xù)的詞序列，我們姑且認(rèn)為是一個(gè)或多個(gè)短語(yǔ)候選的集合。眾所周知，利用互信息可以發(fā)現(xiàn)常用詞搭配。這里主要是借用了信息論中的概念，即對(duì)于兩個(gè)隨機(jī)事件x，y來(lái)說(shuō)，它們的互信息可以用公式(5)來(lái)表示M/(x,力=l0g2=bg2，=l0g2，(5)那么，對(duì)于兩個(gè)單詞w，，^來(lái)說(shuō)，它們的互信息表示如下，見(jiàn)公式(6):M/(w,，w2)=log2(〈")=log2〃w、w、=l。g2、'2(6)pOi)P(w2)cWxc(w2)c(w,)xc—2)其中c(M^w》表示單詞M;,w2(有序)同現(xiàn)的次數(shù)，c(w，)表示單詞w,出現(xiàn)的次數(shù)，C(Hg表示單詞A出現(xiàn)的次數(shù)。iV表示語(yǔ)料庫(kù)的規(guī)模，即所有單詞的個(gè)數(shù)。對(duì)于兩個(gè)單詞—p^)而言，互信息比較了這兩個(gè)單詞的聯(lián)合概率與這兩個(gè)單詞的獨(dú)立概率。也就是說(shuō)，如果單詞w,與單詞w間存在較強(qiáng)的鄰接關(guān)系，那么聯(lián)合概率/—,，2)將遠(yuǎn)遠(yuǎn)大于；~,)/7(^)，從而M/(wpw2)>>0;如果單詞w,與單詞w2之間不存在這種關(guān)系，貝U/7(w,，Mgap(w,);(Mg，從而M/(M,MgaO;如果單詞w,與單詞w分別互補(bǔ)出現(xiàn)，則p(w,，w2)將遠(yuǎn)遠(yuǎn)的小于p(w,)/)(w2)，從而M/(w,，w2)《0。因此，單詞w，與單詞^之間的互信息M/(w,，Mg在一定程度上可以反映這兩個(gè)單詞的聯(lián)系緊密性。我們利用計(jì)算兩個(gè)單詞的互信息公式(6)，首先計(jì)算出當(dāng)前漢英語(yǔ)句子所有單語(yǔ)兩個(gè)單詞間的互信息，然后找到那些互信息為負(fù)數(shù)的點(diǎn)的個(gè)數(shù)；如果互信息為負(fù)數(shù)的點(diǎn)的個(gè)數(shù)大于我們?cè)O(shè)定的閾值，則我們利用互信息為負(fù)數(shù)的點(diǎn)的位置作為初始劃分錨點(diǎn)，并給出該點(diǎn)的標(biāo)記。這里我們?cè)O(shè)定閾值為句子長(zhǎng)度除以最大短語(yǔ)長(zhǎng)度，最大短語(yǔ)長(zhǎng)度是跟用奧赫方法抽取短語(yǔ)的最大短語(yǔ)長(zhǎng)度保持一致，目的是為了更大可能的保存大粒度的短語(yǔ)對(duì)信息的情況下不浪費(fèi)存儲(chǔ)空間，而且對(duì)比平等。實(shí)驗(yàn)中我們?cè)O(shè)定最大短語(yǔ)長(zhǎng)度為8，利用該劃分錨點(diǎn)標(biāo)記作為抽取短語(yǔ)的起始和終止點(diǎn)，然后利用奧赫或者蔣偉的方法在每個(gè)語(yǔ)塊內(nèi)進(jìn)行短語(yǔ)或分層短語(yǔ)的抽取，最后組合所有語(yǔ)塊的候選短語(yǔ)，生成該原始句對(duì)的所有候選短語(yǔ)對(duì)。這樣做的好處就是利用遍歷語(yǔ)塊內(nèi)的源語(yǔ)言短語(yǔ)抽取來(lái)取代奧赫和蔣偉方法整句遍歷源語(yǔ)言進(jìn)行抽取短語(yǔ)的方法，從而大大減少了噪音短語(yǔ)的出現(xiàn)幾率，由于對(duì)于空詞的無(wú)限制擴(kuò)展很有用，從而有效的解決了目前短語(yǔ)抽取量過(guò)大對(duì)于存儲(chǔ)空間的要求。分別利用短語(yǔ)表示公式(2)、(3)和(4)來(lái)抽取當(dāng)前語(yǔ)料的三組短語(yǔ)對(duì)。對(duì)于以前公開(kāi)的抽取短語(yǔ)方法，對(duì)于同一種詞對(duì)齊利用同種抽取方法只可能生成一組短語(yǔ)，因?yàn)橐郧暗姆椒▽?duì)于漢英兩個(gè)方向生成的短語(yǔ)集合是完全一致的，而我們這里卻可以根據(jù)不同方向的限制條件生成三組不同的短語(yǔ)，即分別限制漢語(yǔ)方向在語(yǔ)塊內(nèi)遍歷短語(yǔ)、英語(yǔ)方向在語(yǔ)塊內(nèi)遍歷短語(yǔ)和雙方向都只能在語(yǔ)塊內(nèi)遍歷短語(yǔ)。這三組不同的短語(yǔ)不僅能夠呈現(xiàn)互補(bǔ)趨勢(shì)，更重要的是能夠給予那些在三種情況下都能產(chǎn)生的短語(yǔ)對(duì)以更高的權(quán)重，從而在計(jì)算短語(yǔ)對(duì)概率打分的時(shí)候給予那些更好的短語(yǔ)以更高的概率打分，從而讓解碼的時(shí)候能夠更突出的提高此類短語(yǔ)的位置，從而得到更好的翻譯效果。這里給出一個(gè)具體的實(shí)例來(lái)說(shuō)明我們錨點(diǎn)的選擇以及根據(jù)錨點(diǎn)對(duì)漢英語(yǔ)句子進(jìn)行語(yǔ)塊分割之后結(jié)合詞對(duì)齊抽取的短語(yǔ)跟奧赫方法抽取短語(yǔ)的對(duì)比。圖2是用來(lái)說(shuō)明利用單語(yǔ)詞間的互信息進(jìn)行漢英錨點(diǎn)的選擇，其中圖2(a)表示漢語(yǔ)句子劃分錨點(diǎn)的選擇，圖2(a)給出了該漢語(yǔ)句子每?jī)蓚€(gè)相鄰漢語(yǔ)單詞間的互信息值，并利用其中互信息值為負(fù)數(shù)的點(diǎn)作為漢語(yǔ)句子分割語(yǔ)塊的錨點(diǎn)；圖2(b)表示英語(yǔ)句子劃分語(yǔ)塊錨點(diǎn)的選擇，圖2(b)給出了該英語(yǔ)句子每?jī)蓚€(gè)相鄰英語(yǔ)單詞間的互信息值，并利用其中互信息值為負(fù)數(shù)的點(diǎn)作為英語(yǔ)句子分割語(yǔ)塊的錨點(diǎn)。如圖2所示，對(duì)于漢語(yǔ)句子，我們一共找到了5個(gè)互信息的值小于零，所以我們就利用這五個(gè)點(diǎn)作為劃分漢語(yǔ)句子的錨點(diǎn)，見(jiàn)圖中黑色實(shí)型矩形圖表示。同理，英語(yǔ)一共獲得四個(gè)錨點(diǎn)來(lái)劃分英語(yǔ)句子。圖3給出了該漢英句對(duì)根據(jù)012八++工具包訓(xùn)練出來(lái)的詞對(duì)齊，其中第三行中的數(shù)字分表代表漢英單詞在漢英句子中的詞的位置，例如2:6就表示漢語(yǔ)句子中的第2個(gè)漢語(yǔ)單詞"/7^'跟英語(yǔ)句子中的第6個(gè)英語(yǔ)單詞'7^//"對(duì)齊，以此可類推出漢語(yǔ)句子中的所有位置的漢語(yǔ)單詞與英語(yǔ)句子中的所有位置的英語(yǔ)單詞的一個(gè)詞對(duì)齊。圖4給出了奧赫方法和本發(fā)明改進(jìn)后的方法抽取的短語(yǔ)列表對(duì)比，也就是我們的第一層過(guò)濾后的短語(yǔ)跟奧赫方法短語(yǔ)的對(duì)比，其中圖4(a)是奧赫方法抽取出來(lái)的短語(yǔ)，圖4(b)是經(jīng)過(guò)我們方法進(jìn)行第一次過(guò)濾后生成的短語(yǔ)。因?yàn)樵摑h英句對(duì)根據(jù)奧赫方法一共可以抽取出113條短語(yǔ)對(duì)，經(jīng)過(guò)限制漢語(yǔ)方向遍歷短語(yǔ)后可以得到66條短語(yǔ)對(duì)，經(jīng)過(guò)限制英語(yǔ)方向可以得到59條短語(yǔ)對(duì)，經(jīng)過(guò)雙向限制可以得到46條短語(yǔ)對(duì)，合并新生成的短語(yǔ)對(duì)一共可以得到171條短語(yǔ)對(duì)，所以這里無(wú)法完全列出，我們只選擇部分過(guò)濾掉的短語(yǔ)對(duì)列出來(lái)作為參照。對(duì)比圖4(a)和(b)我們可以發(fā)現(xiàn)，經(jīng)過(guò)錨點(diǎn)切分以后，我們單個(gè)方向的短語(yǔ)數(shù)量大大減少了。由圖中可知，有很多短語(yǔ)對(duì)都被過(guò)濾掉了，是因?yàn)槲覀儸F(xiàn)在是遍歷語(yǔ)塊內(nèi)抽取而不是遍歷整個(gè)句子進(jìn)行抽取。例如，由圖2(a)可知，在"在7,。"的"。"后面有一個(gè)分割錨點(diǎn)，所以就不可能抽取出同時(shí)包含"。"和"。"后面的"戎"這兩個(gè)單詞的短語(yǔ)，因?yàn)檫@兩個(gè)單詞不同屬于一個(gè)語(yǔ)塊，所以不可能同時(shí)出現(xiàn)在短語(yǔ)中，這樣圖4(a)中同時(shí)包括這兩個(gè)單詞的短語(yǔ)全部被過(guò)濾掉了，以此類推就可以過(guò)濾掉圖4(a)中包含而圖4(b)中不包含的短語(yǔ)對(duì)。*利用候選短語(yǔ)頻率進(jìn)行二次過(guò)濾由圖4所示，我們發(fā)現(xiàn)確實(shí)經(jīng)過(guò)劃分錨點(diǎn)以后，該層很大程度的對(duì)短語(yǔ)的抽取做了前端的過(guò)濾，但是實(shí)驗(yàn)中我們發(fā)現(xiàn)，即便這樣，可能生成的短語(yǔ)數(shù)量還是很多，而且很多也屬于噪音短語(yǔ)范圍內(nèi)。所以我們希望利用更多的特征來(lái)約束短語(yǔ)的抽取，這些特征可以是單語(yǔ)候選短語(yǔ)本身包含信息的出現(xiàn)頻率特征，也可以是雙語(yǔ)候選短語(yǔ)本身包含信息的聯(lián)合出現(xiàn)概率。這些特征包括單語(yǔ)候選短語(yǔ)的出現(xiàn)頻率特征，雙語(yǔ)候選短語(yǔ)的聯(lián)合出現(xiàn)概率特征、單語(yǔ)候選短語(yǔ)詞性出現(xiàn)系列頻率特征、單語(yǔ)候選短語(yǔ)詞類出現(xiàn)系列頻率特征、雙語(yǔ)候選短語(yǔ)詞性系列的聯(lián)合出現(xiàn)概率特征、雙語(yǔ)候選短語(yǔ)詞類系列的聯(lián)合出現(xiàn)概率特征等。這里我們利用單語(yǔ)語(yǔ)塊的出現(xiàn)頻率來(lái)進(jìn)一步的約束，當(dāng)然我們也可以利用更多的特征來(lái)進(jìn)行約束過(guò)濾。圖5給出了利用單語(yǔ)語(yǔ)塊頻率進(jìn)一步限制短語(yǔ)生成的示例圖。由圖5我們可知，該漢語(yǔ)句子由cp^c"q,q，c^6個(gè)漢語(yǔ)單詞組成，在經(jīng)過(guò)上層語(yǔ)塊劃分后可以得到13個(gè)遍歷短語(yǔ)，如果我們?cè)偌尤胍粋€(gè)對(duì)于短語(yǔ)語(yǔ)塊頻率的限制，即，如果當(dāng)前的源語(yǔ)言短語(yǔ)出現(xiàn)次數(shù)少于我們?cè)O(shè)定的閾值(假設(shè)為5)，則我們就不進(jìn)行當(dāng)前短語(yǔ)對(duì)的抽取，如圖中虛線所示，虛線所示的那些候選短語(yǔ)的出現(xiàn)次數(shù)都小于5，所以我們對(duì)虛線表示的候選短語(yǔ)都不進(jìn)行抽取或者說(shuō)對(duì)這些短語(yǔ)都過(guò)濾掉，則我們就將以前不進(jìn)行過(guò)濾的13個(gè)短語(yǔ)對(duì)減少為11個(gè)短語(yǔ)對(duì)，這樣我們就進(jìn)一步降低了短語(yǔ)的抽取數(shù)量。我們這樣做的出發(fā)點(diǎn)是基于這樣的想法如果一個(gè)短語(yǔ)在語(yǔ)料中出現(xiàn)的次數(shù)很少，這樣的短語(yǔ)除了命名實(shí)體以外，還有兩種情況可能存在一種情況就是可能這些短語(yǔ)真正屬于噪音短語(yǔ)，也就是說(shuō)只是將很多沒(méi)有關(guān)系的詞組合在一起，而大部分這種短語(yǔ)很難找到對(duì)應(yīng)的翻譯，更多抽取出來(lái)的翻譯短語(yǔ)都是可能其中只有極少的詞跟該短語(yǔ)對(duì)應(yīng)上，而更多的都是空詞；另外一種情況是，可能是正確的短語(yǔ)翻譯，但是分析該類短語(yǔ)，我們可以發(fā)現(xiàn)，這種短語(yǔ)的詞對(duì)齊往往很準(zhǔn)確，空詞很少，所以即便這類因?yàn)槌霈F(xiàn)次數(shù)少被過(guò)濾掉，可是因?yàn)樵~對(duì)齊很準(zhǔn)確，所以在解碼的時(shí)候也往往能夠根據(jù)概率從更小的出現(xiàn)次數(shù)多的小短語(yǔ)(為該類短語(yǔ)詞集合的一個(gè)子集)中挑選出來(lái)，然后再重組生成該類比較長(zhǎng)一些的短語(yǔ)。對(duì)于命名實(shí)體而言，如果該命名實(shí)體在語(yǔ)料中出現(xiàn)的次數(shù)很少，利用012入++生成詞對(duì)齊的時(shí)候，也很難給該命名實(shí)體以正確的對(duì)齊，所以即便利用最原始的奧赫短語(yǔ)抽取方法可能也抽取不出來(lái)。正是基于這樣的考慮，我們才提出這個(gè)設(shè)想。二次過(guò)濾短語(yǔ)表示對(duì)應(yīng)的，我們這里的短語(yǔ)表示也可以在公式(2)、(3)和(4)上進(jìn)一步加上限制條件來(lái)進(jìn)行修正，則對(duì)應(yīng)的三種短語(yǔ)表示如公式(7)、(8)和(9)所示(/,e~)=U(le~)e5/5<=>爿M)Ve,e-:a,e》e爿4/ei;(7)力M)力e(/,e-)=0(M)"P<=>爿M)V。"《a,e》e廁DgG(p,e)(J(")"戶<=>扁v^e;:c/;,—，夂^5Cp(9)這里的iWnCo"W就是我們?cè)O(shè)定的最小出現(xiàn)次數(shù)，我們就是利用這個(gè)單語(yǔ)候選短語(yǔ)的出現(xiàn)次數(shù)來(lái)作為我們進(jìn)一步過(guò)濾時(shí)采用的啟發(fā)函數(shù)，如果加入了更多的特征來(lái)過(guò)濾，則啟發(fā)函數(shù)的設(shè)計(jì)需要根據(jù)使用的不同特征來(lái)做相應(yīng)的改進(jìn)或調(diào)整。對(duì)于口語(yǔ)語(yǔ)料(例如IWSLT評(píng)測(cè)語(yǔ)料)我們?cè)O(shè)定M/"Co"w為5，而對(duì)于新聞?wù)Z料(例如SSMT07評(píng)測(cè)語(yǔ)料)，我們?cè)O(shè)定M77Co"",為2?？紤]到新聞?lì)I(lǐng)域語(yǔ)料的多變性，可能新詞系列更多一些，為了考慮數(shù)據(jù)稀疏問(wèn)題，我們不但設(shè)的閾值要小一些，而且同時(shí)為了兼顧新詞，也召回了那些出現(xiàn)次數(shù)雖然為1但是是單個(gè)詞的那些短語(yǔ)，目的是考慮到更多的噪音短語(yǔ)在于(8)長(zhǎng)詞系列組合且出現(xiàn)次數(shù)少的短語(yǔ)。這樣我們就在進(jìn)一步強(qiáng)化了短語(yǔ)生成條件，從而更有效的對(duì)短語(yǔ)對(duì)進(jìn)行了過(guò)濾，大大減少了短語(yǔ)對(duì)的存儲(chǔ)空間。同樣我們通過(guò)限制三個(gè)方向的候選短語(yǔ)出現(xiàn)頻率而生成三組不同的短語(yǔ)對(duì)，即只對(duì)漢語(yǔ)單語(yǔ)方向的短語(yǔ)對(duì)抽取進(jìn)行約束過(guò)濾，只對(duì)英語(yǔ)單語(yǔ)方向的短語(yǔ)對(duì)抽取進(jìn)行過(guò)濾和同時(shí)對(duì)漢英語(yǔ)雙向進(jìn)行約束過(guò)濾。最后同時(shí)組合生成的這三組短語(yǔ)作為我們最終的短語(yǔ)列表。這里我們所列舉的例子是口語(yǔ)語(yǔ)料的例子，目的是口語(yǔ)語(yǔ)料句子短小，對(duì)比方便，而新聞?wù)Z料句子太長(zhǎng)，不太直觀。圖6給出了經(jīng)過(guò)這次即第二層過(guò)濾后抽取的短語(yǔ)對(duì)比。圖6(a)是經(jīng)過(guò)第一層過(guò)濾后生成的短語(yǔ)，圖6(b)是經(jīng)過(guò)第二層過(guò)濾后生成的短語(yǔ)。對(duì)比圖6(a)和(b)我們可以發(fā)現(xiàn)，經(jīng)過(guò)第二層過(guò)濾后短語(yǔ)數(shù)目又減少了很多。這里我們主要是根據(jù)漢語(yǔ)單語(yǔ)候選短語(yǔ)的出現(xiàn)次數(shù)少于設(shè)置的閾值5來(lái)進(jìn)行過(guò)濾的。也就是說(shuō)圖6(a)中包含但圖6(b)中不包含的短語(yǔ)都是因?yàn)楸贿^(guò)濾掉的那些短語(yǔ)的出現(xiàn)次數(shù)少于5次。由圖6我們可以發(fā)現(xiàn)，經(jīng)過(guò)第二次利用候選短語(yǔ)出現(xiàn)頻率進(jìn)行過(guò)濾后，短語(yǔ)對(duì)又減少了很多?？赡芎芏嗳藭?huì)疑惑這里明顯(a)中很多短語(yǔ)都是對(duì)的，過(guò)濾掉后會(huì)不會(huì)影響召回率，實(shí)際上這類情況就屬于我們上面分析的第二類，就是該類短語(yǔ)確實(shí)是準(zhǔn)確的短語(yǔ)，但是因?yàn)槠涑霈F(xiàn)頻率小，我們給過(guò)濾掉了，實(shí)際上我們測(cè)試的時(shí)候，會(huì)發(fā)現(xiàn)因?yàn)檫@類短語(yǔ)詞對(duì)齊很準(zhǔn)確，我們完全可以把這種長(zhǎng)的出現(xiàn)次數(shù)少的大粒度短語(yǔ)拆分為幾個(gè)短小的出現(xiàn)次數(shù)多的小粒度短語(yǔ)組合起來(lái)從而生成該類大粒度短語(yǔ)的翻譯選項(xiàng)。*實(shí)驗(yàn)結(jié)果這里我們利用IWSLT07評(píng)測(cè)發(fā)布的所有公開(kāi)語(yǔ)料經(jīng)過(guò)預(yù)處理之后作為我們的訓(xùn)練語(yǔ)料，IWSLT07發(fā)布的測(cè)試語(yǔ)料作為我們的測(cè)試語(yǔ)料。表1列出了該訓(xùn)練和測(cè)試語(yǔ)料的統(tǒng)計(jì)量。表1IWSLT07訓(xùn)練和測(cè)試語(yǔ)料統(tǒng)計(jì)量<table>tableseeoriginaldocumentpage20</column></row><table>表2給出了Och方法抽取短語(yǔ)和我們方法的對(duì)比，這里同時(shí)也給出了抽取短語(yǔ)數(shù)量上的對(duì)比。表2對(duì)比Och方法和我們抽取方法<table>tableseeoriginaldocumentpage20</column></row><table>由表2我們可以看出，無(wú)論是利用第一層的互信息劃分切割錨點(diǎn)還是第二層利用候選短語(yǔ)出現(xiàn)頻率(這里我們?cè)O(shè)定閾值為5)，對(duì)于沒(méi)有根據(jù)測(cè)試語(yǔ)料過(guò)濾過(guò)的短語(yǔ)都能取到很好的過(guò)濾作用，特別是經(jīng)過(guò)兩次過(guò)濾以后，我們抽取的三組短語(yǔ)的總和也比初始沒(méi)有過(guò)濾的短語(yǔ)少了67M。對(duì)于根據(jù)測(cè)試語(yǔ)料過(guò)濾后的短語(yǔ)，這里的結(jié)果好像不是那么突出，盡管也有一定程度的減少。分析原因是因?yàn)檫@里我們用的是IWSLT07的口語(yǔ)領(lǐng)域語(yǔ)料，句子平均長(zhǎng)度很短，漢語(yǔ)只有6.2個(gè)平均長(zhǎng)度，英語(yǔ)也只有6.7個(gè)平均長(zhǎng)度，所以在利用第一層根據(jù)互信息來(lái)劃分句子的切割錨點(diǎn)時(shí)，錨點(diǎn)數(shù)量很少，從而導(dǎo)致過(guò)濾短語(yǔ)的能力減弱，但如果用于新聞?lì)I(lǐng)域語(yǔ)料則效果很突出。而其實(shí)我們也希望看到這樣的結(jié)果，就是經(jīng)過(guò)二層過(guò)濾后，我們希望得到根據(jù)測(cè)試語(yǔ)料過(guò)濾前更少的高準(zhǔn)確率的短語(yǔ)對(duì)和根據(jù)測(cè)試語(yǔ)料過(guò)濾后的在一定的準(zhǔn)確率下高召回率的短語(yǔ)對(duì)。根據(jù)表2我們可以看到，我們實(shí)現(xiàn)了這樣的結(jié)果，即根據(jù)測(cè)試語(yǔ)料過(guò)濾前，我們的短語(yǔ)對(duì)減少了約1/4的存儲(chǔ)量，從以前的275M到現(xiàn)在的208M;而根據(jù)測(cè)試語(yǔ)料過(guò)濾后，我們有用的短語(yǔ)對(duì)增加了一倍，從以前的69M到現(xiàn)在的121M。同時(shí)，從表2中可以發(fā)現(xiàn)，經(jīng)過(guò)兩個(gè)層次進(jìn)行過(guò)濾生成的三組短語(yǔ)重組之后，有用的短語(yǔ)對(duì)減少了近1/4的存儲(chǔ)空間，由以前的275M減少到現(xiàn)在的208M，而機(jī)器翻譯BLEU打分卻有了很明顯的提高，BLEU打分絕對(duì)值提高了1個(gè)百分點(diǎn)還多，而相對(duì)值也提高了3%。分析其根本原因就在于我們的方法通過(guò)修正奧赫的抽取方法，能夠在給定詞對(duì)齊下獲得三種模式的短語(yǔ)，而無(wú)疑這三種模式的短語(yǔ)組合以后就會(huì)對(duì)短語(yǔ)列表的概率打分有一個(gè)很好的修正，如果在三種模式下都能抽取出來(lái)的短語(yǔ)對(duì)，應(yīng)該給予這樣的短語(yǔ)對(duì)以更高的概率，這就修正了以往的方法對(duì)于所有抽取出來(lái)的短語(yǔ)對(duì)都一視同仁的做法。更準(zhǔn)確的說(shuō)，這就相當(dāng)于在解碼前已經(jīng)對(duì)短語(yǔ)有了一個(gè)初步的過(guò)濾和排序，將那些更準(zhǔn)確的短語(yǔ)對(duì)以更高的概率用于解碼，從而導(dǎo)致解碼能夠更準(zhǔn)確的對(duì)源短語(yǔ)進(jìn)行目標(biāo)短語(yǔ)的選擇，從而生成更好的翻譯結(jié)果。權(quán)利要求1、一種漢英短語(yǔ)翻譯對(duì)自動(dòng)抽取與過(guò)濾方法，其特征在于，自動(dòng)抽取與過(guò)濾的步驟包括步驟1對(duì)原始漢、英雙語(yǔ)句對(duì)提取劃分語(yǔ)塊和對(duì)候選短語(yǔ)進(jìn)行過(guò)濾的特征信息；步驟2根據(jù)不同的特征信息確定劃分語(yǔ)塊錨點(diǎn)，將原始漢、英句對(duì)劃分為多個(gè)單語(yǔ)語(yǔ)塊；步驟3利用原始漢、英雙語(yǔ)句對(duì)的詞對(duì)齊信息在語(yǔ)塊內(nèi)進(jìn)行候選短語(yǔ)的抽?。徊襟E4利用候選短語(yǔ)的出現(xiàn)頻率的特征信息來(lái)對(duì)生成的候選短語(yǔ)進(jìn)一步過(guò)濾，生成需要的短語(yǔ)對(duì)。2、根據(jù)權(quán)利要求1所述的漢英短語(yǔ)翻譯對(duì)自動(dòng)抽取與過(guò)濾方法，其特征在于，步驟1所述提取多個(gè)劃分語(yǔ)塊的特征，是兩個(gè)相鄰單語(yǔ)單詞間的互信息特征、雙語(yǔ)單詞間的互信息特征、t-檢驗(yàn)(t-test)特征、/檢驗(yàn)特征、Dice系數(shù)特征；并提取過(guò)濾候選短語(yǔ)的特征，這些特征是單語(yǔ)候選短語(yǔ)本身包含信息的出現(xiàn)頻率特征，或是雙語(yǔ)候選短語(yǔ)本身包含信息的聯(lián)合出現(xiàn)概率；這些特征包括單語(yǔ)候選短語(yǔ)的出現(xiàn)頻率特征，雙語(yǔ)候選短語(yǔ)的聯(lián)合出現(xiàn)概率特征、單語(yǔ)候選短語(yǔ)詞性出現(xiàn)系列頻率特征、單語(yǔ)候選短語(yǔ)詞類出現(xiàn)系列頻率特征、雙語(yǔ)候選短語(yǔ)詞性系列的聯(lián)合出現(xiàn)概率特征、雙語(yǔ)候選短語(yǔ)詞類系列的聯(lián)合出現(xiàn)概率特征。3、根據(jù)權(quán)利要求1所述的漢英短語(yǔ)翻譯對(duì)自動(dòng)抽取與過(guò)濾方法，其特征在于，步驟2所述確定劃分錨點(diǎn)信息的步驟包括步驟21:分別利用相鄰兩個(gè)漢語(yǔ)或英語(yǔ)單詞之間的互信息來(lái)分別對(duì)漢、英句子進(jìn)行單語(yǔ)語(yǔ)塊的劃分；相鄰單詞間的互信息比較了這兩個(gè)單詞的聯(lián)合概率與這兩個(gè)單詞的獨(dú)立概率如果兩個(gè)單詞間存在較強(qiáng)的鄰接關(guān)系，其聯(lián)合概率將遠(yuǎn)遠(yuǎn)大于獨(dú)立概率，從而互信息遠(yuǎn)遠(yuǎn)大于0;如果不存在較強(qiáng)的鄰接這種關(guān)系，則兩個(gè)單詞的聯(lián)合概率和兩個(gè)單詞的獨(dú)立概率基本相等，即互信息約等于0;如果以互補(bǔ)出現(xiàn)，則互信息遠(yuǎn)遠(yuǎn)小于0，利用兩個(gè)單詞之間的互信息在一定程度上反映這兩個(gè)單詞的聯(lián)系緊密性，選擇相鄰詞的互信息來(lái)作為劃分錨點(diǎn)的依據(jù)；步驟22:確定劃分錨點(diǎn)首先計(jì)算出當(dāng)前漢英句子所有單語(yǔ)相鄰兩個(gè)單詞間的互信息，然后找到那些互信息為負(fù)數(shù)的點(diǎn)的個(gè)數(shù)；如果互信息為負(fù)數(shù)的點(diǎn)的個(gè)數(shù)大于設(shè)定的閾值，則利用互信息為負(fù)數(shù)的點(diǎn)的位置作為初始劃分錨點(diǎn)，并給出該點(diǎn)的標(biāo)記，否則選擇最小的幾個(gè)點(diǎn)作為劃分錨點(diǎn)，這最小的幾個(gè)點(diǎn)的個(gè)數(shù)就是設(shè)定的閾值；設(shè)定閾值為句子長(zhǎng)度除以最大短語(yǔ)長(zhǎng)度；步驟23:所述最大短語(yǔ)長(zhǎng)度是與用奧赫(Och)方法抽取短語(yǔ)的最大短語(yǔ)長(zhǎng)度保持一致，用于與奧赫抽取方法進(jìn)行對(duì)比的公正性，設(shè)定相同的最大短語(yǔ)長(zhǎng)度。4、根據(jù)權(quán)利要求1所述的漢英短語(yǔ)翻譯對(duì)自動(dòng)抽取與過(guò)濾方法，其特征在于，步驟3所述根據(jù)詞對(duì)齊信息在語(yǔ)塊內(nèi)進(jìn)行候選短語(yǔ)的抽取的步驟包括步驟31:針對(duì)當(dāng)前漢英句對(duì)，結(jié)合漢英句對(duì)在012八++工具包下生成的詞對(duì)齊，利用生成的劃分錨點(diǎn)信息確定劃分點(diǎn)，然后利用劃分點(diǎn)作為抽取候選短語(yǔ)的初始或終止點(diǎn)，具體操作是找到第一個(gè)劃分錨點(diǎn)的位置，確定漢語(yǔ)或英語(yǔ)第一個(gè)語(yǔ)塊，遍歷漢語(yǔ)或英語(yǔ)的第一個(gè)語(yǔ)塊下所有的候選短語(yǔ)，結(jié)合詞對(duì)齊信息，根據(jù)奧赫短語(yǔ)抽取方法進(jìn)行遍歷該語(yǔ)塊內(nèi)部的所有候選短語(yǔ)對(duì)抽??；步驟32:執(zhí)行完第一個(gè)語(yǔ)塊后，重復(fù)步驟31執(zhí)行下一個(gè)語(yǔ)塊的候選短語(yǔ)對(duì)的抽取，直至處理完原始句子包含的所有劃分語(yǔ)塊；步驟33:最后組合所有語(yǔ)塊的候選短語(yǔ)，生成該原始句對(duì)的所有候選短語(yǔ)對(duì)。5、根據(jù)權(quán)利要求1所述的漢英短語(yǔ)翻譯對(duì)自動(dòng)抽取與過(guò)濾方法，其特征在于，步驟3所述根據(jù)詞對(duì)齊信息在語(yǔ)塊內(nèi)進(jìn)行候選短語(yǔ)的抽取的步驟還包括根據(jù)不同方向的限制條件生成三組不同的短語(yǔ)為漢語(yǔ)方向在語(yǔ)塊內(nèi)遍歷短語(yǔ)、英語(yǔ)方向在語(yǔ)塊內(nèi)遍歷短語(yǔ)和雙方向都只能在語(yǔ)塊內(nèi)遍歷短語(yǔ)；三組不同的短語(yǔ)呈現(xiàn)互補(bǔ)趨勢(shì)，對(duì)產(chǎn)生的短語(yǔ)對(duì)以更高的權(quán)重，用于計(jì)算短語(yǔ)對(duì)概率打分時(shí)給予權(quán)重高的短語(yǔ)以更高的概率打分，在解碼的時(shí)提高此類短語(yǔ)的位置，用于得到更好的翻譯結(jié)果。6、根據(jù)權(quán)利要求1所述的漢英短語(yǔ)翻譯對(duì)自動(dòng)抽取與過(guò)濾方法，其特征在于，步驟4所述根據(jù)利用額外的特征對(duì)生成的候選短語(yǔ)進(jìn)行過(guò)濾的步驟包括步驟41:利用額外的特征對(duì)生成的候選短語(yǔ)進(jìn)行進(jìn)一步的過(guò)濾，利用單語(yǔ)候選短語(yǔ)的出現(xiàn)頻率進(jìn)行約束，或利用更多的特征來(lái)進(jìn)行約束過(guò)濾；步驟42:利用單語(yǔ)候選短語(yǔ)的出現(xiàn)頻率來(lái)進(jìn)一步過(guò)濾時(shí)采用的啟發(fā)函數(shù)，或逐步加入更細(xì)化的特征信息來(lái)設(shè)計(jì)啟發(fā)函數(shù)；利用候選短語(yǔ)的出現(xiàn)次數(shù)來(lái)啟發(fā)就是如果候選短語(yǔ)的出現(xiàn)次數(shù)大于設(shè)定的閾值也就是短語(yǔ)最少出現(xiàn)次數(shù)，則舍棄不用；如果是新聞?lì)I(lǐng)域，則對(duì)那些出現(xiàn)次數(shù)為1的單個(gè)詞短語(yǔ)進(jìn)行了召回，用于新聞?lì)I(lǐng)域語(yǔ)料的多變性及新詞系列。7、根據(jù)權(quán)利要求5所述的漢英短語(yǔ)翻譯對(duì)自動(dòng)抽取與過(guò)濾方法，其特征在于，所述通過(guò)限制三個(gè)方向的候選短語(yǔ)出現(xiàn)頻率而生成三組不同的短語(yǔ)對(duì)，只對(duì)漢語(yǔ)單語(yǔ)方向的短語(yǔ)對(duì)抽取進(jìn)行約束過(guò)濾，只對(duì)英語(yǔ)單語(yǔ)方向的短語(yǔ)對(duì)抽取進(jìn)行過(guò)濾和同時(shí)對(duì)漢英雙向進(jìn)行約束過(guò)濾，最后同時(shí)組合生成的這三組短語(yǔ)作為最終的短語(yǔ)列表。全文摘要本發(fā)明漢英短語(yǔ)翻譯對(duì)自動(dòng)抽取與過(guò)濾方法，是對(duì)原始漢、英雙語(yǔ)句對(duì)提取劃分語(yǔ)塊和對(duì)候選短語(yǔ)進(jìn)行過(guò)濾的特征信息；根據(jù)不同的特征信息確定劃分語(yǔ)塊錨點(diǎn)，將原始漢、英句對(duì)劃分為多個(gè)單語(yǔ)語(yǔ)塊；利用原始漢、英雙語(yǔ)句對(duì)的詞對(duì)齊信息在語(yǔ)塊內(nèi)進(jìn)行候選短語(yǔ)的抽??；利用候選短語(yǔ)的出現(xiàn)頻率的特征信息來(lái)對(duì)生成的候選短語(yǔ)過(guò)濾，生成需要的短語(yǔ)對(duì)。本發(fā)明采用遍歷語(yǔ)塊內(nèi)的短語(yǔ)抽取來(lái)取代現(xiàn)有遍歷整句進(jìn)行抽取的方法，對(duì)于空詞的無(wú)限制擴(kuò)展尤其有用，從而有效的解決了目前短語(yǔ)抽取量過(guò)大對(duì)于存儲(chǔ)空間的要求，并且有效的過(guò)濾掉了很多噪音短語(yǔ)。本發(fā)明能夠直接根據(jù)當(dāng)前句對(duì)的固定詞對(duì)齊生成多組短語(yǔ)，從而在滿足精度的前提下提高了短語(yǔ)對(duì)的召回率。文檔編號(hào)G06F17/27GK101482860SQ20081005578公開(kāi)日2009年7月15日申請(qǐng)日期2008年1月9日優(yōu)先權(quán)日2008年1月9日發(fā)明者玉周,宗成慶申請(qǐng)人:中國(guó)科學(xué)院自動(dòng)化研究所

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：宗成慶;周玉
技術(shù)所有人：宗成慶;周玉
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種漢英短語(yǔ)翻譯對(duì)自動(dòng)抽取與過(guò)濾方法