專利名稱::一種漢英短語(yǔ)翻譯對(duì)自動(dòng)抽取與過(guò)濾方法
技術(shù)領(lǐng)域:
:本發(fā)明屬于自然語(yǔ)言處理領(lǐng)域,特別涉及統(tǒng)計(jì)機(jī)器翻譯、跨語(yǔ)言信息檢索和雙語(yǔ)短語(yǔ)自動(dòng)抽取與過(guò)濾的方法。
背景技術(shù):
:隨著全球化信息時(shí)代的到來(lái),如何克服語(yǔ)言障礙顯得越來(lái)越嚴(yán)重,利用計(jì)算機(jī)實(shí)現(xiàn)不同語(yǔ)言之間的自動(dòng)翻譯,成為全人類面臨的共同問(wèn)題。目前在機(jī)器翻譯研究中統(tǒng)計(jì)方法占據(jù)著主導(dǎo)地位,而統(tǒng)計(jì)方法中又以基于短語(yǔ)的翻譯模型較為成熟?;诙陶Z(yǔ)統(tǒng)計(jì)機(jī)器翻譯方法的基本思想就是以短語(yǔ)作為翻譯的基本單元。因?yàn)槎陶Z(yǔ)內(nèi)部隱含了譯文詞語(yǔ)的選擇和詞序的調(diào)整信息,所以能夠較好的解決局部上下文依賴問(wèn)題,在近期的機(jī)器翻譯評(píng)測(cè)中基于短語(yǔ)的翻譯模型屢次獲得領(lǐng)先成績(jī),這標(biāo)志著該模型已成為統(tǒng)計(jì)機(jī)器翻譯的主流。無(wú)疑短語(yǔ)抽取是基于短語(yǔ)的翻譯系統(tǒng)最核心的模塊,短語(yǔ)對(duì)質(zhì)量的好壞決定了最后機(jī)器翻譯質(zhì)量。目前國(guó)際上現(xiàn)有的短語(yǔ)抽取方法很多,最成熟流行的方法就是奧赫(Och)的抽取方法以及后來(lái)蔣偉(DavidChiang)在奧赫(Och)思想上的提出的改進(jìn)分層短語(yǔ)方法,該方法簡(jiǎn)單可行,僅僅只需要利用詞對(duì)齊,所以后來(lái)得到了廣泛的應(yīng)用,也取得了不錯(cuò)的效果。但是,無(wú)論是奧赫的方法還是蔣偉的方法都只能抽取出與詞對(duì)齊完全相容的源短語(yǔ)和目標(biāo)短語(yǔ)。實(shí)際上,要求短語(yǔ)對(duì)完全與詞對(duì)齊相容的抽取條件過(guò)于苛刻,而且會(huì)導(dǎo)致詞對(duì)齊錯(cuò)誤的蔓延。而且該方法存在的另一個(gè)很棘手的問(wèn)題就是隨著語(yǔ)料規(guī)模的擴(kuò)大,抽取的短語(yǔ)對(duì)會(huì)劇增,這樣無(wú)疑為后面的解碼帶來(lái)太大的負(fù)擔(dān),而且本身短語(yǔ)的存儲(chǔ)空間太大也是一個(gè)問(wèn)題。所以,短語(yǔ)的過(guò)濾成了一個(gè)亟需解決的問(wèn)題,目前的方法也就是通過(guò)引入句法知識(shí)來(lái)對(duì)其進(jìn)行一定的約束從而控制其數(shù)量的暴增。而我們很清楚的知道,首先句法樹(shù)生成本身的正確率就是個(gè)問(wèn)題,其次句法樹(shù)的約束過(guò)于嚴(yán)格從而無(wú)法滿足召回率的要求,所以在絕大多數(shù)句法系統(tǒng)中,實(shí)際上保留了所有的短語(yǔ)對(duì),僅僅利用句法知識(shí)來(lái)提供重排序(reordering)的信息。
發(fā)明內(nèi)容為了解決現(xiàn)有技術(shù)處理上述短語(yǔ)抽取存在的問(wèn)題,本發(fā)明提出一種簡(jiǎn)單有效的漢英短語(yǔ)翻譯對(duì)自動(dòng)抽取與過(guò)濾方法。本發(fā)明的目的是通過(guò)對(duì)當(dāng)前漢英句對(duì)進(jìn)行語(yǔ)塊劃分,通過(guò)語(yǔ)塊內(nèi)部的短語(yǔ)抽取來(lái)取代現(xiàn)有方法的整句短語(yǔ)抽取,從而抑制現(xiàn)有方法無(wú)限制擴(kuò)展空詞的弱點(diǎn),并且該發(fā)明能夠根據(jù)當(dāng)前句對(duì)的詞對(duì)齊生成多層次短語(yǔ),打破傳統(tǒng)的根據(jù)固定詞對(duì)齊只可能生成該種詞對(duì)齊下固定模式的一種短語(yǔ)對(duì),同時(shí)本發(fā)明不需要利用句法知識(shí)來(lái)對(duì)生成的短語(yǔ)對(duì)進(jìn)行過(guò)濾,而是利用簡(jiǎn)單的單語(yǔ)候選短語(yǔ)出現(xiàn)頻率來(lái)進(jìn)行啟發(fā)過(guò)濾。為了實(shí)現(xiàn)所述的目的,本發(fā)明提供的漢英短語(yǔ)翻譯對(duì)自動(dòng)抽取與過(guò)濾方法,其自動(dòng)抽取與過(guò)濾的步驟包括步驟l:對(duì)原始漢、英雙語(yǔ)句對(duì)提取劃分語(yǔ)塊和對(duì)候選短語(yǔ)進(jìn)行過(guò)濾的特征信息;步驟2:根據(jù)不同的特征信息確定劃分語(yǔ)塊錨點(diǎn),將原始漢、英句對(duì)劃分為多個(gè)單語(yǔ)語(yǔ)塊;步驟3:利用原始漢、英雙語(yǔ)句對(duì)的詞對(duì)齊信息在語(yǔ)塊內(nèi)進(jìn)行候選短語(yǔ)的抽??;步驟4:利用候選短語(yǔ)的出現(xiàn)頻率的特征信息來(lái)對(duì)生成的候選短語(yǔ)進(jìn)一步過(guò)濾,生成需要的短語(yǔ)對(duì);根據(jù)本發(fā)明的實(shí)施例,步驟1所述提取多個(gè)劃分語(yǔ)塊的特征,是兩個(gè)相鄰單語(yǔ)單詞間的互信息特征、雙語(yǔ)單詞間的互信息特征、t-檢驗(yàn)(t-test)特征、/檢驗(yàn)特征、Dice系數(shù)特征;并提取過(guò)濾候選短語(yǔ)的特征,這些特征是單語(yǔ)候選短語(yǔ)本身包含信息的出現(xiàn)頻率特征,或是雙語(yǔ)候選短語(yǔ)本身包含信息的聯(lián)合出現(xiàn)概率;這些特征包括單語(yǔ)候選短語(yǔ)的出現(xiàn)頻率特征,雙語(yǔ)候選短語(yǔ)的聯(lián)合出現(xiàn)概率特征、單語(yǔ)候選短語(yǔ)詞性出現(xiàn)系列頻率特征、單語(yǔ)候選短語(yǔ)詞類出現(xiàn)系列頻率特征、雙語(yǔ)候選短語(yǔ)詞性系列的聯(lián)合出現(xiàn)概率特征、雙語(yǔ)候選短語(yǔ)詞類系列的聯(lián)合出現(xiàn)概率特征。根據(jù)本發(fā)明的實(shí)施例,步驟2所述確定劃分錨點(diǎn)信息的步驟包括步驟21:分別利用相鄰兩個(gè)漢語(yǔ)或英語(yǔ)單詞之間的互信息來(lái)分別對(duì)漢、英句子進(jìn)行單語(yǔ)語(yǔ)塊的劃分;相鄰單詞間的互信息比較了這兩個(gè)單詞的聯(lián)合概率與這兩個(gè)單詞的獨(dú)立概率如果兩個(gè)單詞間存在較強(qiáng)的鄰接關(guān)系,其聯(lián)合概率將遠(yuǎn)遠(yuǎn)大于獨(dú)立概率,從而互信息遠(yuǎn)遠(yuǎn)大于0;如果不存在較強(qiáng)的鄰接這種關(guān)系,則兩個(gè)單詞的聯(lián)合概率和兩個(gè)單詞的獨(dú)立概率基本相等,即互信息約等于0;如果以互補(bǔ)出現(xiàn),則互信息遠(yuǎn)遠(yuǎn)小于0,利用兩個(gè)單詞之間的互信息在一定程度上反映這兩個(gè)單詞的聯(lián)系緊密性,選擇相鄰詞的互信息來(lái)作為劃分錨點(diǎn)的依據(jù);步驟22:確定劃分錨點(diǎn)首先計(jì)算出當(dāng)前漢英句子所有單語(yǔ)相鄰兩個(gè)單詞間的互信息,然后找到那些互信息為負(fù)數(shù)的點(diǎn)的個(gè)數(shù);如果互信息為負(fù)數(shù)的點(diǎn)的個(gè)數(shù)大于設(shè)定的閾值,則利用互信息為負(fù)數(shù)的點(diǎn)的位置作為初始劃分錨點(diǎn),并給出該點(diǎn)的標(biāo)記,否則選擇最小的幾個(gè)點(diǎn)作為劃分錨點(diǎn),這最小的幾個(gè)點(diǎn)的個(gè)數(shù)就是設(shè)定的閾值;設(shè)定閾值為句子長(zhǎng)度除以最大短語(yǔ)長(zhǎng)度;步驟23:所述最大短語(yǔ)長(zhǎng)度是與用奧赫(Och)方法抽取短語(yǔ)的最大短語(yǔ)長(zhǎng)度保持一致,用于與奧赫抽取方法進(jìn)行對(duì)比的公正性,設(shè)定相同的最大短語(yǔ)長(zhǎng)度。根據(jù)本發(fā)明的實(shí)施例,步驟3所述根據(jù)詞對(duì)齊信息在語(yǔ)塊內(nèi)進(jìn)行候選短語(yǔ)的抽取的步驟包括步驟31:針對(duì)當(dāng)前漢英句對(duì),結(jié)合漢英句對(duì)在012八++工具包下生成的詞對(duì)齊,利用生成的劃分錨點(diǎn)信息確定劃分點(diǎn),然后利用劃分點(diǎn)作為抽取候選短語(yǔ)的初始或終止點(diǎn),具體操作是找到第一個(gè)劃分錨點(diǎn)的位置,確定漢語(yǔ)或英語(yǔ)第一個(gè)語(yǔ)塊,遍歷漢語(yǔ)或英語(yǔ)的第一個(gè)語(yǔ)塊下所有的候選短語(yǔ),結(jié)合詞對(duì)齊信息,根據(jù)奧赫短語(yǔ)抽取方法進(jìn)行遍歷該語(yǔ)塊內(nèi)部的所有候選短語(yǔ)對(duì)抽??;步驟32:執(zhí)行完第一個(gè)語(yǔ)塊后,重復(fù)步驟31執(zhí)行下一個(gè)語(yǔ)塊的候選短語(yǔ)對(duì)的抽取,直至處理完原始句子包含的所有劃分語(yǔ)塊;步驟33:最后組合所有語(yǔ)塊的候選短語(yǔ),生成該原始句對(duì)的所有候選短語(yǔ)對(duì)。根據(jù)本發(fā)明的實(shí)施例,步驟3所述根據(jù)詞對(duì)齊信息在語(yǔ)塊內(nèi)進(jìn)行候選短語(yǔ)的抽取的步驟還包括根據(jù)不同方向的限制條件生成三組不同的短語(yǔ)為漢語(yǔ)方向在語(yǔ)塊內(nèi)遍歷短語(yǔ)、英語(yǔ)方向在語(yǔ)塊內(nèi)遍歷短語(yǔ)和雙方向都只能在語(yǔ)塊內(nèi)遍歷短語(yǔ);三組不同的短語(yǔ)呈現(xiàn)互補(bǔ)趨勢(shì),對(duì)產(chǎn)生的短語(yǔ)對(duì)以更高的權(quán)重,用于計(jì)算短語(yǔ)對(duì)概率打分時(shí)給予權(quán)重高的短語(yǔ)以更高的概率打分,在解碼的時(shí)提高此類短語(yǔ)的位置,用于得到更好的翻譯結(jié)果。根據(jù)本發(fā)明的實(shí)施例,步驟4所述根據(jù)利用額外的特征對(duì)生成的候選短語(yǔ)進(jìn)行過(guò)濾的步驟包括步驟41:利用額外的特征對(duì)生成的候選短語(yǔ)進(jìn)行進(jìn)一步的過(guò)濾,利用單語(yǔ)候選短語(yǔ)的出現(xiàn)頻率進(jìn)行約束,或利用更多的特征來(lái)進(jìn)行約束過(guò)濾;步驟42:利用單語(yǔ)候選短語(yǔ)的出現(xiàn)頻率來(lái)進(jìn)一步過(guò)濾時(shí)采用的啟發(fā)函數(shù),或逐步加入更細(xì)化的特征信息來(lái)設(shè)計(jì)啟發(fā)函數(shù);利用候選短語(yǔ)的出現(xiàn)次數(shù)來(lái)啟發(fā)就是如果候選短語(yǔ)的出現(xiàn)次數(shù)大于設(shè)定的閾值也就是短語(yǔ)最少出現(xiàn)次數(shù),則舍棄不用;如果是新聞?lì)I(lǐng)域,對(duì)那些出現(xiàn)次數(shù)為1的單個(gè)詞短語(yǔ)進(jìn)行了召回,用于新聞?lì)I(lǐng)域語(yǔ)料的多變性及新詞系列。根據(jù)本發(fā)明的實(shí)施例,所述通過(guò)限制三個(gè)方向的候選短語(yǔ)出現(xiàn)頻率而生成三組不同的短語(yǔ)對(duì),只對(duì)漢語(yǔ)單語(yǔ)方向的短語(yǔ)對(duì)抽取進(jìn)行約束過(guò)濾,只對(duì)英語(yǔ)單語(yǔ)方向的短語(yǔ)對(duì)抽取進(jìn)行過(guò)濾和同時(shí)對(duì)漢英雙向進(jìn)行約束過(guò)濾,最后同時(shí)組合生成的這三組短語(yǔ)作為最終的短語(yǔ)列表。本發(fā)明的積極效果本發(fā)明最大短語(yǔ)長(zhǎng)度與用奧赫方法抽取短語(yǔ)的最大短語(yǔ)長(zhǎng)度保持一致,目的是為了更大可能的保存長(zhǎng)短語(yǔ)信息的情況下還不浪費(fèi)存儲(chǔ)空間,而且對(duì)比平等。本發(fā)明組合所有語(yǔ)塊的候選短語(yǔ),生成該原始句對(duì)的所有候選短語(yǔ)對(duì),這樣做的好處就是利用遍歷語(yǔ)塊內(nèi)的源語(yǔ)言短語(yǔ)抽取來(lái)取代奧赫方法遍歷整句源語(yǔ)言進(jìn)行抽取短語(yǔ)的方法,從而大大減少了噪音短語(yǔ)的出現(xiàn)幾率,由于對(duì)于空詞的無(wú)限制擴(kuò)展很有用,從而有效的解決了目前短語(yǔ)抽取量過(guò)大對(duì)于存儲(chǔ)空間的要求。對(duì)于現(xiàn)有技術(shù)公開(kāi)的抽取短語(yǔ)方法,對(duì)于同一種詞對(duì)齊利用同種抽取方法只可能生成一組短語(yǔ),因?yàn)楝F(xiàn)有技術(shù)的方法對(duì)于漢英兩個(gè)方向生成的短語(yǔ)集合是完全一致的,而本發(fā)明可以根據(jù)不同方向的限制條件生成三組不同的短語(yǔ),即分別限制漢語(yǔ)方向在語(yǔ)塊內(nèi)遍歷短語(yǔ)、英語(yǔ)方向在語(yǔ)塊內(nèi)遍歷短語(yǔ)和雙方向都只能在語(yǔ)塊內(nèi)遍歷短語(yǔ)。這三組不同的短語(yǔ)不僅能夠呈現(xiàn)互補(bǔ)趨勢(shì),更重要的是能夠給予那些在三種情況下都能產(chǎn)生的短語(yǔ)對(duì)以更高的權(quán)重,從而在計(jì)算短語(yǔ)對(duì)概率打分的時(shí)候給予那些更好的短語(yǔ)以更高的概率打分,從而讓解碼的時(shí)候能夠更突出的提高此類短語(yǔ)的位置,從而得到更好的翻譯效果。本發(fā)明可以利用額外的特征對(duì)生成的候選短語(yǔ)進(jìn)行進(jìn)一步的過(guò)濾,這里我們只利用了單語(yǔ)候選短語(yǔ)的出現(xiàn)頻率進(jìn)行約束,當(dāng)然我們也可以利用更多的特征來(lái)進(jìn)行約束過(guò)濾,是否利用更多的特征依賴于當(dāng)前的訓(xùn)練語(yǔ)料的性質(zhì),也就是說(shuō)要根據(jù)具體的訓(xùn)練語(yǔ)料的不同來(lái)進(jìn)行不同特征的選擇和調(diào)整。本發(fā)明僅僅利用候選短語(yǔ)的出現(xiàn)次數(shù)來(lái)啟發(fā),也就是如果候選短語(yǔ)的出現(xiàn)次數(shù)大于設(shè)定的閾值(也就是短語(yǔ)最少出現(xiàn)次數(shù)),則就舍棄不用,考慮到新聞?lì)I(lǐng)域語(yǔ)料的多變性,可能新詞系列更多一些,為了考慮數(shù)據(jù)稀疏問(wèn)題,同時(shí)為了兼顧新詞,我們對(duì)那些出現(xiàn)次數(shù)為1的單個(gè)詞短語(yǔ)進(jìn)行了召回。這樣我們就在進(jìn)一步強(qiáng)化了短語(yǔ)生成條件,從而更有效的對(duì)短語(yǔ)對(duì)進(jìn)行了過(guò)濾,大大減少了短語(yǔ)對(duì)的存儲(chǔ)空間。本發(fā)明通過(guò)限制三個(gè)方向的候選短語(yǔ)出現(xiàn)頻率而生成三組不同的短語(yǔ)對(duì),組合生成的這三組短語(yǔ)作為我們最終的短語(yǔ)列表,這樣做的積極效果是給予更準(zhǔn)確的短語(yǔ)對(duì)以更高的權(quán)重,從而給予更好的短語(yǔ)對(duì)以更高的概率打分用于解碼,可以得到更好的翻譯效果。圖1本發(fā)明一個(gè)改善短語(yǔ)抽取與過(guò)濾的例子;圖2本發(fā)明一個(gè)雙語(yǔ)句對(duì)相鄰兩個(gè)單詞之間的互信息值及錨點(diǎn)確定的例子;圖3本發(fā)明一個(gè)雙語(yǔ)句對(duì)詞對(duì)齊的例子;圖4本發(fā)明一個(gè)經(jīng)過(guò)第一層利用錨點(diǎn)劃分語(yǔ)塊前后抽取的短語(yǔ)對(duì)比例子;圖5本發(fā)明一個(gè)利用候選短語(yǔ)出現(xiàn)頻率進(jìn)行過(guò)濾的例子;圖6本發(fā)明一個(gè)經(jīng)過(guò)第二層利用候選短語(yǔ)出現(xiàn)頻率進(jìn)行過(guò)濾前后的短語(yǔ)對(duì)比例子;具體實(shí)施例方式下面結(jié)合附圖詳細(xì)說(shuō)明本發(fā)明技術(shù)方案中所涉及的各個(gè)細(xì)節(jié)問(wèn)題。應(yīng)指出的是,所描述的實(shí)施例僅旨在便于對(duì)本發(fā)明的理解,而對(duì)其不起任何限定作用。本發(fā)明所有算法代碼都是在0++語(yǔ)言下完成,所采用的機(jī)型的配置如下Pentium4處理器,CPU主頻為2.0GHZ,內(nèi)存為8G。而且本發(fā)明中使用的GIZA+十工具包必須在LINUX操作系統(tǒng)下完成。本發(fā)明的提供一種短語(yǔ)抽取與過(guò)濾算法,對(duì)現(xiàn)有的短語(yǔ)抽取方法進(jìn)行改善提高,獲得高精度的短語(yǔ)對(duì)。這里的基本思想就是對(duì)于當(dāng)前句對(duì),本發(fā)明結(jié)合其GIZA+十生成的詞對(duì)齊,并利用一些錨點(diǎn)信息將雙語(yǔ)句對(duì)分割成一系列的語(yǔ)塊,然后直接針對(duì)該語(yǔ)塊內(nèi)部詞對(duì)齊信息進(jìn)行短語(yǔ)的抽取。該方法最大的一個(gè)優(yōu)點(diǎn)就是利用遍歷語(yǔ)塊內(nèi)的源語(yǔ)言短語(yǔ)抽取來(lái)取代奧赫方法遍歷整句源語(yǔ)言進(jìn)行抽取短語(yǔ)的方法。如圖1所示。圖1是奧赫方法和本發(fā)明的方法抽取短語(yǔ)對(duì)比圖,圖l(a)和圖1(b)表示該漢語(yǔ)句子是由c,,c3,q,q,&這6個(gè)漢語(yǔ)單詞組成。其中圖l(a)表示遍歷該漢語(yǔ)句子所有源語(yǔ)言短語(yǔ),圖l(b)表示遍歷組成該漢語(yǔ)句子的每個(gè)語(yǔ)塊內(nèi)所有源語(yǔ)言短語(yǔ)。由圖1我們可以很清楚的看出,對(duì)于一個(gè)長(zhǎng)度為6的源語(yǔ)言句子,如果我們遍歷該源語(yǔ)言句子,抽取其所有可能的源語(yǔ)言短語(yǔ),則一共需要抽21個(gè)短語(yǔ)對(duì),圖中一條弧線代表一個(gè)源語(yǔ)言短語(yǔ),見(jiàn)圖l(a)。也就是說(shuō),對(duì)于一個(gè)源語(yǔ)言長(zhǎng)度為J的句子,如果遍歷抽取的話,需要抽取JC7+l)/2個(gè)短語(yǔ)。而如果我們根據(jù)錨點(diǎn)(圖中用實(shí)心矩形表示的)將原始句子化為兩個(gè)語(yǔ)塊后,則只需要在每個(gè)語(yǔ)塊內(nèi)部遍歷源語(yǔ)言短語(yǔ),則如圖l(b)所示,只需抽取2><(2+1)/2+4><(4+1)/2=3+10=13個(gè)短語(yǔ),如該圖弧線所示。也就是說(shuō),對(duì)于劃分后的句子,只需抽取J,"+l)/2+…+々(^+l)/2個(gè)語(yǔ)塊,無(wú)疑大大減少了抽取短語(yǔ)的數(shù)量,這里J,,…,^分別表示將原始句子劃分為P個(gè)語(yǔ)塊的每個(gè)語(yǔ)塊的長(zhǎng)度。這里可能大家會(huì)疑惑,這樣會(huì)不會(huì)損失很多短語(yǔ),而這些短語(yǔ)對(duì)中可能包含很多有用的信息。我們知道對(duì)于奧赫的方法,從兩個(gè)方向遍歷抽取的短語(yǔ)是一樣的,原因就在于該方法是在整句中嚴(yán)格按照詞對(duì)齊進(jìn)行抽取的,所以無(wú)論把那個(gè)語(yǔ)種作為源語(yǔ)言結(jié)果抽取的短語(yǔ)對(duì)是不變的。而這里我們可以從奧赫的方法衍生出三組短語(yǔ),即1)只對(duì)漢語(yǔ)進(jìn)行分割,限制漢語(yǔ)在語(yǔ)塊內(nèi)遍歷抽取而不限制英語(yǔ)對(duì)應(yīng)短語(yǔ)的范圍,也就是漢語(yǔ)短語(yǔ)控制在語(yǔ)塊內(nèi)遍歷,而英語(yǔ)還是在整句范圍內(nèi)尋找;2)只對(duì)英語(yǔ)進(jìn)行語(yǔ)塊內(nèi)遍歷;3)雙向都進(jìn)行限制遍歷抽取。這樣無(wú)疑就會(huì)將那些真正有用的短語(yǔ)抽取出來(lái)而過(guò)濾掉那些噪音短語(yǔ)。這里所謂的噪音短語(yǔ)有兩種一種是因?yàn)樵~對(duì)齊錯(cuò)誤生成的短語(yǔ),另一種雖然詞對(duì)齊正確,但因?yàn)闆](méi)有正確擴(kuò)展空詞生成的短語(yǔ)。無(wú)疑這種方法對(duì)于抑制后一種錯(cuò)誤即解決短語(yǔ)的擴(kuò)空詞問(wèn)題尤其有效。我們知道,對(duì)于由詞對(duì)齊抽取出來(lái)的短語(yǔ),如果短語(yǔ)邊界還有很多空詞的話,為了提高召回率,我們會(huì)遍歷擴(kuò)展每一個(gè)空詞生成新的短語(yǔ)對(duì),而擴(kuò)空詞是沒(méi)有任何約束的,這樣無(wú)疑就大大增加了短語(yǔ)對(duì)的數(shù)量,因?yàn)榭赵~在詞對(duì)齊中是大量普遍存在的。所以我們?nèi)绻紫葎澖纾蜁?huì)抑制這種無(wú)限制擴(kuò)空情況而只讓更可能存在的短語(yǔ)對(duì)抽取出來(lái)。奧赫的抽取方法的主要思想就是對(duì)于當(dāng)前源語(yǔ)言短語(yǔ),根據(jù)詞對(duì)齊結(jié)果確定該源語(yǔ)言短語(yǔ)對(duì)應(yīng)的英語(yǔ)翻譯的詞的最小和最大位置邊界來(lái)抽取。也就是說(shuō),針對(duì)每個(gè)源短語(yǔ)找到該短語(yǔ)對(duì)應(yīng)的目標(biāo)詞集合,確定其目標(biāo)詞集合的最小和最大邊界,然后,逆向判斷介于這兩個(gè)邊界之間的目標(biāo)詞是否也都對(duì)應(yīng)到了該源短語(yǔ),如果是,則抽取出來(lái),否則,就抽不出目標(biāo)短語(yǔ),同時(shí)源短語(yǔ)的信息也丟失了。該方法抽取的短語(yǔ)可以用公式(l)表示(/,3)"尸<=>扁、"(乂,。)"4/£/其中(/,e—)組成一個(gè)基本短語(yǔ)bp。這里我們借用奧赫抽取方法的短語(yǔ)表示方法來(lái)表示我們的短語(yǔ)對(duì),假設(shè)原始漢英句對(duì)(《,^)通過(guò)切割錨點(diǎn)的劃分可以將該句對(duì)分別劃分為尸個(gè)漢語(yǔ)句塊和2個(gè)英語(yǔ)語(yǔ)塊,即《JSC,,...5Cp,...,JBCp,^J^...^^'...^^,則根據(jù)上面的分析,我們可以得到三種形式的短語(yǔ)對(duì)漢語(yǔ)只能在語(yǔ)塊內(nèi)遍歷短語(yǔ);英語(yǔ)只能在語(yǔ)塊內(nèi)遍歷短語(yǔ);漢英語(yǔ)都只能限制在語(yǔ)塊內(nèi)遍歷。從這里我們也可以看出,實(shí)際上第三種形式的短語(yǔ)對(duì)是第一種和第二種短語(yǔ)對(duì)的一個(gè)交集。這三種形式的短語(yǔ)分別見(jiàn)公式(2)、(3)和(4):(/,e—)=U《,e~)"P<=>爿M)W,e-:a,e,)e爿—乂e力(2)扁力e^(/,e-)=。(M)"P<=>JM)Ve,e勺a,。)e(3)v4M)g。^風(fēng)(尸,e)V乂e力a,e》"—。"?JiVZ)Ve^:C/;,e乂)e」~>乂e入(4)扁/-Cp,ds。g眠參錨點(diǎn)的確定這里我們利用單語(yǔ)兩個(gè)詞之間的互信息來(lái)確定劃分錨點(diǎn)從而對(duì)句子進(jìn)行語(yǔ)塊劃分。這里的語(yǔ)塊也就是一系列的連續(xù)的詞序列,我們姑且認(rèn)為是一個(gè)或多個(gè)短語(yǔ)候選的集合。眾所周知,利用互信息可以發(fā)現(xiàn)常用詞搭配。這里主要是借用了信息論中的概念,即對(duì)于兩個(gè)隨機(jī)事件x,y來(lái)說(shuō),它們的互信息可以用公式(5)來(lái)表示M/(x,力=l0g2=bg2,=l0g2,(5)那么,對(duì)于兩個(gè)單詞w,,^來(lái)說(shuō),它們的互信息表示如下,見(jiàn)公式(6):M/(w,,w2)=log2(〈")=log2〃w、w、=l。g2、'2(6)pOi)P(w2)cWxc(w2)c(w,)xc—2)其中c(M^w》表示單詞M;,w2(有序)同現(xiàn)的次數(shù),c(w,)表示單詞w,出現(xiàn)的次數(shù),C(Hg表示單詞A出現(xiàn)的次數(shù)。iV表示語(yǔ)料庫(kù)的規(guī)模,即所有單詞的個(gè)數(shù)。對(duì)于兩個(gè)單詞—p^)而言,互信息比較了這兩個(gè)單詞的聯(lián)合概率與這兩個(gè)單詞的獨(dú)立概率。也就是說(shuō),如果單詞w,與單詞w間存在較強(qiáng)的鄰接關(guān)系,那么聯(lián)合概率/—,,2)將遠(yuǎn)遠(yuǎn)大于;~,)/7(^),從而M/(wpw2)>>0;如果單詞w,與單詞w2之間不存在這種關(guān)系,貝U/7(w,,Mgap(w,);(Mg,從而M/(M,MgaO;如果單詞w,與單詞w分別互補(bǔ)出現(xiàn),則p(w,,w2)將遠(yuǎn)遠(yuǎn)的小于p(w,)/)(w2),從而M/(w,,w2)《0。因此,單詞w,與單詞^之間的互信息M/(w,,Mg在一定程度上可以反映這兩個(gè)單詞的聯(lián)系緊密性。我們利用計(jì)算兩個(gè)單詞的互信息公式(6),首先計(jì)算出當(dāng)前漢英語(yǔ)句子所有單語(yǔ)兩個(gè)單詞間的互信息,然后找到那些互信息為負(fù)數(shù)的點(diǎn)的個(gè)數(shù);如果互信息為負(fù)數(shù)的點(diǎn)的個(gè)數(shù)大于我們?cè)O(shè)定的閾值,則我們利用互信息為負(fù)數(shù)的點(diǎn)的位置作為初始劃分錨點(diǎn),并給出該點(diǎn)的標(biāo)記。這里我們?cè)O(shè)定閾值為句子長(zhǎng)度除以最大短語(yǔ)長(zhǎng)度,最大短語(yǔ)長(zhǎng)度是跟用奧赫方法抽取短語(yǔ)的最大短語(yǔ)長(zhǎng)度保持一致,目的是為了更大可能的保存大粒度的短語(yǔ)對(duì)信息的情況下不浪費(fèi)存儲(chǔ)空間,而且對(duì)比平等。實(shí)驗(yàn)中我們?cè)O(shè)定最大短語(yǔ)長(zhǎng)度為8,利用該劃分錨點(diǎn)標(biāo)記作為抽取短語(yǔ)的起始和終止點(diǎn),然后利用奧赫或者蔣偉的方法在每個(gè)語(yǔ)塊內(nèi)進(jìn)行短語(yǔ)或分層短語(yǔ)的抽取,最后組合所有語(yǔ)塊的候選短語(yǔ),生成該原始句對(duì)的所有候選短語(yǔ)對(duì)。這樣做的好處就是利用遍歷語(yǔ)塊內(nèi)的源語(yǔ)言短語(yǔ)抽取來(lái)取代奧赫和蔣偉方法整句遍歷源語(yǔ)言進(jìn)行抽取短語(yǔ)的方法,從而大大減少了噪音短語(yǔ)的出現(xiàn)幾率,由于對(duì)于空詞的無(wú)限制擴(kuò)展很有用,從而有效的解決了目前短語(yǔ)抽取量過(guò)大對(duì)于存儲(chǔ)空間的要求。分別利用短語(yǔ)表示公式(2)、(3)和(4)來(lái)抽取當(dāng)前語(yǔ)料的三組短語(yǔ)對(duì)。對(duì)于以前公開(kāi)的抽取短語(yǔ)方法,對(duì)于同一種詞對(duì)齊利用同種抽取方法只可能生成一組短語(yǔ),因?yàn)橐郧暗姆椒▽?duì)于漢英兩個(gè)方向生成的短語(yǔ)集合是完全一致的,而我們這里卻可以根據(jù)不同方向的限制條件生成三組不同的短語(yǔ),即分別限制漢語(yǔ)方向在語(yǔ)塊內(nèi)遍歷短語(yǔ)、英語(yǔ)方向在語(yǔ)塊內(nèi)遍歷短語(yǔ)和雙方向都只能在語(yǔ)塊內(nèi)遍歷短語(yǔ)。這三組不同的短語(yǔ)不僅能夠呈現(xiàn)互補(bǔ)趨勢(shì),更重要的是能夠給予那些在三種情況下都能產(chǎn)生的短語(yǔ)對(duì)以更高的權(quán)重,從而在計(jì)算短語(yǔ)對(duì)概率打分的時(shí)候給予那些更好的短語(yǔ)以更高的概率打分,從而讓解碼的時(shí)候能夠更突出的提高此類短語(yǔ)的位置,從而得到更好的翻譯效果。這里給出一個(gè)具體的實(shí)例來(lái)說(shuō)明我們錨點(diǎn)的選擇以及根據(jù)錨點(diǎn)對(duì)漢英語(yǔ)句子進(jìn)行語(yǔ)塊分割之后結(jié)合詞對(duì)齊抽取的短語(yǔ)跟奧赫方法抽取短語(yǔ)的對(duì)比。圖2是用來(lái)說(shuō)明利用單語(yǔ)詞間的互信息進(jìn)行漢英錨點(diǎn)的選擇,其中圖2(a)表示漢語(yǔ)句子劃分錨點(diǎn)的選擇,圖2(a)給出了該漢語(yǔ)句子每?jī)蓚€(gè)相鄰漢語(yǔ)單詞間的互信息值,并利用其中互信息值為負(fù)數(shù)的點(diǎn)作為漢語(yǔ)句子分割語(yǔ)塊的錨點(diǎn);圖2(b)表示英語(yǔ)句子劃分語(yǔ)塊錨點(diǎn)的選擇,圖2(b)給出了該英語(yǔ)句子每?jī)蓚€(gè)相鄰英語(yǔ)單詞間的互信息值,并利用其中互信息值為負(fù)數(shù)的點(diǎn)作為英語(yǔ)句子分割語(yǔ)塊的錨點(diǎn)。如圖2所示,對(duì)于漢語(yǔ)句子,我們一共找到了5個(gè)互信息的值小于零,所以我們就利用這五個(gè)點(diǎn)作為劃分漢語(yǔ)句子的錨點(diǎn),見(jiàn)圖中黑色實(shí)型矩形圖表示。同理,英語(yǔ)一共獲得四個(gè)錨點(diǎn)來(lái)劃分英語(yǔ)句子。圖3給出了該漢英句對(duì)根據(jù)012八++工具包訓(xùn)練出來(lái)的詞對(duì)齊,其中第三行中的數(shù)字分表代表漢英單詞在漢英句子中的詞的位置,例如2:6就表示漢語(yǔ)句子中的第2個(gè)漢語(yǔ)單詞"/7^'跟英語(yǔ)句子中的第6個(gè)英語(yǔ)單詞'7^//"對(duì)齊,以此可類推出漢語(yǔ)句子中的所有位置的漢語(yǔ)單詞與英語(yǔ)句子中的所有位置的英語(yǔ)單詞的一個(gè)詞對(duì)齊。圖4給出了奧赫方法和本發(fā)明改進(jìn)后的方法抽取的短語(yǔ)列表對(duì)比,也就是我們的第一層過(guò)濾后的短語(yǔ)跟奧赫方法短語(yǔ)的對(duì)比,其中圖4(a)是奧赫方法抽取出來(lái)的短語(yǔ),圖4(b)是經(jīng)過(guò)我們方法進(jìn)行第一次過(guò)濾后生成的短語(yǔ)。因?yàn)樵摑h英句對(duì)根據(jù)奧赫方法一共可以抽取出113條短語(yǔ)對(duì),經(jīng)過(guò)限制漢語(yǔ)方向遍歷短語(yǔ)后可以得到66條短語(yǔ)對(duì),經(jīng)過(guò)限制英語(yǔ)方向可以得到59條短語(yǔ)對(duì),經(jīng)過(guò)雙向限制可以得到46條短語(yǔ)對(duì),合并新生成的短語(yǔ)對(duì)一共可以得到171條短語(yǔ)對(duì),所以這里無(wú)法完全列出,我們只選擇部分過(guò)濾掉的短語(yǔ)對(duì)列出來(lái)作為參照。對(duì)比圖4(a)和(b)我們可以發(fā)現(xiàn),經(jīng)過(guò)錨點(diǎn)切分以后,我們單個(gè)方向的短語(yǔ)數(shù)量大大減少了。由圖中可知,有很多短語(yǔ)對(duì)都被過(guò)濾掉了,是因?yàn)槲覀儸F(xiàn)在是遍歷語(yǔ)塊內(nèi)抽取而不是遍歷整個(gè)句子進(jìn)行抽取。例如,由圖2(a)可知,在"在7,。"的"。"后面有一個(gè)分割錨點(diǎn),所以就不可能抽取出同時(shí)包含"。"和"。"后面的"戎"這兩個(gè)單詞的短語(yǔ),因?yàn)檫@兩個(gè)單詞不同屬于一個(gè)語(yǔ)塊,所以不可能同時(shí)出現(xiàn)在短語(yǔ)中,這樣圖4(a)中同時(shí)包括這兩個(gè)單詞的短語(yǔ)全部被過(guò)濾掉了,以此類推就可以過(guò)濾掉圖4(a)中包含而圖4(b)中不包含的短語(yǔ)對(duì)。*利用候選短語(yǔ)頻率進(jìn)行二次過(guò)濾由圖4所示,我們發(fā)現(xiàn)確實(shí)經(jīng)過(guò)劃分錨點(diǎn)以后,該層很大程度的對(duì)短語(yǔ)的抽取做了前端的過(guò)濾,但是實(shí)驗(yàn)中我們發(fā)現(xiàn),即便這樣,可能生成的短語(yǔ)數(shù)量還是很多,而且很多也屬于噪音短語(yǔ)范圍內(nèi)。所以我們希望利用更多的特征來(lái)約束短語(yǔ)的抽取,這些特征可以是單語(yǔ)候選短語(yǔ)本身包含信息的出現(xiàn)頻率特征,也可以是雙語(yǔ)候選短語(yǔ)本身包含信息的聯(lián)合出現(xiàn)概率。這些特征包括單語(yǔ)候選短語(yǔ)的出現(xiàn)頻率特征,雙語(yǔ)候選短語(yǔ)的聯(lián)合出現(xiàn)概率特征、單語(yǔ)候選短語(yǔ)詞性出現(xiàn)系列頻率特征、單語(yǔ)候選短語(yǔ)詞類出現(xiàn)系列頻率特征、雙語(yǔ)候選短語(yǔ)詞性系列的聯(lián)合出現(xiàn)概率特征、雙語(yǔ)候選短語(yǔ)詞類系列的聯(lián)合出現(xiàn)概率特征等。這里我們利用單語(yǔ)語(yǔ)塊的出現(xiàn)頻率來(lái)進(jìn)一步的約束,當(dāng)然我們也可以利用更多的特征來(lái)進(jìn)行約束過(guò)濾。圖5給出了利用單語(yǔ)語(yǔ)塊頻率進(jìn)一步限制短語(yǔ)生成的示例圖。由圖5我們可知,該漢語(yǔ)句子由cp^c"q,q,c^6個(gè)漢語(yǔ)單詞組成,在經(jīng)過(guò)上層語(yǔ)塊劃分后可以得到13個(gè)遍歷短語(yǔ),如果我們?cè)偌尤胍粋€(gè)對(duì)于短語(yǔ)語(yǔ)塊頻率的限制,即,如果當(dāng)前的源語(yǔ)言短語(yǔ)出現(xiàn)次數(shù)少于我們?cè)O(shè)定的閾值(假設(shè)為5),則我們就不進(jìn)行當(dāng)前短語(yǔ)對(duì)的抽取,如圖中虛線所示,虛線所示的那些候選短語(yǔ)的出現(xiàn)次數(shù)都小于5,所以我們對(duì)虛線表示的候選短語(yǔ)都不進(jìn)行抽取或者說(shuō)對(duì)這些短語(yǔ)都過(guò)濾掉,則我們就將以前不進(jìn)行過(guò)濾的13個(gè)短語(yǔ)對(duì)減少為11個(gè)短語(yǔ)對(duì),這樣我們就進(jìn)一步降低了短語(yǔ)的抽取數(shù)量。我們這樣做的出發(fā)點(diǎn)是基于這樣的想法如果一個(gè)短語(yǔ)在語(yǔ)料中出現(xiàn)的次數(shù)很少,這樣的短語(yǔ)除了命名實(shí)體以外,還有兩種情況可能存在一種情況就是可能這些短語(yǔ)真正屬于噪音短語(yǔ),也就是說(shuō)只是將很多沒(méi)有關(guān)系的詞組合在一起,而大部分這種短語(yǔ)很難找到對(duì)應(yīng)的翻譯,更多抽取出來(lái)的翻譯短語(yǔ)都是可能其中只有極少的詞跟該短語(yǔ)對(duì)應(yīng)上,而更多的都是空詞;另外一種情況是,可能是正確的短語(yǔ)翻譯,但是分析該類短語(yǔ),我們可以發(fā)現(xiàn),這種短語(yǔ)的詞對(duì)齊往往很準(zhǔn)確,空詞很少,所以即便這類因?yàn)槌霈F(xiàn)次數(shù)少被過(guò)濾掉,可是因?yàn)樵~對(duì)齊很準(zhǔn)確,所以在解碼的時(shí)候也往往能夠根據(jù)概率從更小的出現(xiàn)次數(shù)多的小短語(yǔ)(為該類短語(yǔ)詞集合的一個(gè)子集)中挑選出來(lái),然后再重組生成該類比較長(zhǎng)一些的短語(yǔ)。對(duì)于命名實(shí)體而言,如果該命名實(shí)體在語(yǔ)料中出現(xiàn)的次數(shù)很少,利用012入++生成詞對(duì)齊的時(shí)候,也很難給該命名實(shí)體以正確的對(duì)齊,所以即便利用最原始的奧赫短語(yǔ)抽取方法可能也抽取不出來(lái)。正是基于這樣的考慮,我們才提出這個(gè)設(shè)想。二次過(guò)濾短語(yǔ)表示對(duì)應(yīng)的,我們這里的短語(yǔ)表示也可以在公式(2)、(3)和(4)上進(jìn)一步加上限制條件來(lái)進(jìn)行修正,則對(duì)應(yīng)的三種短語(yǔ)表示如公式(7)、(8)和(9)所示(/,e~)=U(le~)e5/5<=>爿M)Ve,e-:a,e》e爿4/ei;(7)力M)力e(/,e-)=0(M)"P<=>爿M)V。"《a,e》e廁DgG(p,e)(J(")"戶<=>扁v^e;:c/;,—,夂^5Cp(9)這里的iWnCo"W就是我們?cè)O(shè)定的最小出現(xiàn)次數(shù),我們就是利用這個(gè)單語(yǔ)候選短語(yǔ)的出現(xiàn)次數(shù)來(lái)作為我們進(jìn)一步過(guò)濾時(shí)采用的啟發(fā)函數(shù),如果加入了更多的特征來(lái)過(guò)濾,則啟發(fā)函數(shù)的設(shè)計(jì)需要根據(jù)使用的不同特征來(lái)做相應(yīng)的改進(jìn)或調(diào)整。對(duì)于口語(yǔ)語(yǔ)料(例如IWSLT評(píng)測(cè)語(yǔ)料)我們?cè)O(shè)定M/"Co"w為5,而對(duì)于新聞?wù)Z料(例如SSMT07評(píng)測(cè)語(yǔ)料),我們?cè)O(shè)定M77Co"",為2??紤]到新聞?lì)I(lǐng)域語(yǔ)料的多變性,可能新詞系列更多一些,為了考慮數(shù)據(jù)稀疏問(wèn)題,我們不但設(shè)的閾值要小一些,而且同時(shí)為了兼顧新詞,也召回了那些出現(xiàn)次數(shù)雖然為1但是是單個(gè)詞的那些短語(yǔ),目的是考慮到更多的噪音短語(yǔ)在于(8)長(zhǎng)詞系列組合且出現(xiàn)次數(shù)少的短語(yǔ)。這樣我們就在進(jìn)一步強(qiáng)化了短語(yǔ)生成條件,從而更有效的對(duì)短語(yǔ)對(duì)進(jìn)行了過(guò)濾,大大減少了短語(yǔ)對(duì)的存儲(chǔ)空間。同樣我們通過(guò)限制三個(gè)方向的候選短語(yǔ)出現(xiàn)頻率而生成三組不同的短語(yǔ)對(duì),即只對(duì)漢語(yǔ)單語(yǔ)方向的短語(yǔ)對(duì)抽取進(jìn)行約束過(guò)濾,只對(duì)英語(yǔ)單語(yǔ)方向的短語(yǔ)對(duì)抽取進(jìn)行過(guò)濾和同時(shí)對(duì)漢英語(yǔ)雙向進(jìn)行約束過(guò)濾。最后同時(shí)組合生成的這三組短語(yǔ)作為我們最終的短語(yǔ)列表。這里我們所列舉的例子是口語(yǔ)語(yǔ)料的例子,目的是口語(yǔ)語(yǔ)料句子短小,對(duì)比方便,而新聞?wù)Z料句子太長(zhǎng),不太直觀。圖6給出了經(jīng)過(guò)這次即第二層過(guò)濾后抽取的短語(yǔ)對(duì)比。圖6(a)是經(jīng)過(guò)第一層過(guò)濾后生成的短語(yǔ),圖6(b)是經(jīng)過(guò)第二層過(guò)濾后生成的短語(yǔ)。對(duì)比圖6(a)和(b)我們可以發(fā)現(xiàn),經(jīng)過(guò)第二層過(guò)濾后短語(yǔ)數(shù)目又減少了很多。這里我們主要是根據(jù)漢語(yǔ)單語(yǔ)候選短語(yǔ)的出現(xiàn)次數(shù)少于設(shè)置的閾值5來(lái)進(jìn)行過(guò)濾的。也就是說(shuō)圖6(a)中包含但圖6(b)中不包含的短語(yǔ)都是因?yàn)楸贿^(guò)濾掉的那些短語(yǔ)的出現(xiàn)次數(shù)少于5次。由圖6我們可以發(fā)現(xiàn),經(jīng)過(guò)第二次利用候選短語(yǔ)出現(xiàn)頻率進(jìn)行過(guò)濾后,短語(yǔ)對(duì)又減少了很多??赡芎芏嗳藭?huì)疑惑這里明顯(a)中很多短語(yǔ)都是對(duì)的,過(guò)濾掉后會(huì)不會(huì)影響召回率,實(shí)際上這類情況就屬于我們上面分析的第二類,就是該類短語(yǔ)確實(shí)是準(zhǔn)確的短語(yǔ),但是因?yàn)槠涑霈F(xiàn)頻率小,我們給過(guò)濾掉了,實(shí)際上我們測(cè)試的時(shí)候,會(huì)發(fā)現(xiàn)因?yàn)檫@類短語(yǔ)詞對(duì)齊很準(zhǔn)確,我們完全可以把這種長(zhǎng)的出現(xiàn)次數(shù)少的大粒度短語(yǔ)拆分為幾個(gè)短小的出現(xiàn)次數(shù)多的小粒度短語(yǔ)組合起來(lái)從而生成該類大粒度短語(yǔ)的翻譯選項(xiàng)。*實(shí)驗(yàn)結(jié)果這里我們利用IWSLT07評(píng)測(cè)發(fā)布的所有公開(kāi)語(yǔ)料經(jīng)過(guò)預(yù)處理之后作為我們的訓(xùn)練語(yǔ)料,IWSLT07發(fā)布的測(cè)試語(yǔ)料作為我們的測(cè)試語(yǔ)料。表1列出了該訓(xùn)練和測(cè)試語(yǔ)料的統(tǒng)計(jì)量。表1IWSLT07訓(xùn)練和測(cè)試語(yǔ)料統(tǒng)計(jì)量<table>tableseeoriginaldocumentpage20</column></row><table>表2給出了Och方法抽取短語(yǔ)和我們方法的對(duì)比,這里同時(shí)也給出了抽取短語(yǔ)數(shù)量上的對(duì)比。表2對(duì)比Och方法和我們抽取方法<table>tableseeoriginaldocumentpage20</column></row><table>由表2我們可以看出,無(wú)論是利用第一層的互信息劃分切割錨點(diǎn)還是第二層利用候選短語(yǔ)出現(xiàn)頻率(這里我們?cè)O(shè)定閾值為5),對(duì)于沒(méi)有根據(jù)測(cè)試語(yǔ)料過(guò)濾過(guò)的短語(yǔ)都能取到很好的過(guò)濾作用,特別是經(jīng)過(guò)兩次過(guò)濾以后,我們抽取的三組短語(yǔ)的總和也比初始沒(méi)有過(guò)濾的短語(yǔ)少了67M。對(duì)于根據(jù)測(cè)試語(yǔ)料過(guò)濾后的短語(yǔ),這里的結(jié)果好像不是那么突出,盡管也有一定程度的減少。分析原因是因?yàn)檫@里我們用的是IWSLT07的口語(yǔ)領(lǐng)域語(yǔ)料,句子平均長(zhǎng)度很短,漢語(yǔ)只有6.2個(gè)平均長(zhǎng)度,英語(yǔ)也只有6.7個(gè)平均長(zhǎng)度,所以在利用第一層根據(jù)互信息來(lái)劃分句子的切割錨點(diǎn)時(shí),錨點(diǎn)數(shù)量很少,從而導(dǎo)致過(guò)濾短語(yǔ)的能力減弱,但如果用于新聞?lì)I(lǐng)域語(yǔ)料則效果很突出。而其實(shí)我們也希望看到這樣的結(jié)果,就是經(jīng)過(guò)二層過(guò)濾后,我們希望得到根據(jù)測(cè)試語(yǔ)料過(guò)濾前更少的高準(zhǔn)確率的短語(yǔ)對(duì)和根據(jù)測(cè)試語(yǔ)料過(guò)濾后的在一定的準(zhǔn)確率下高召回率的短語(yǔ)對(duì)。根據(jù)表2我們可以看到,我們實(shí)現(xiàn)了這樣的結(jié)果,即根據(jù)測(cè)試語(yǔ)料過(guò)濾前,我們的短語(yǔ)對(duì)減少了約1/4的存儲(chǔ)量,從以前的275M到現(xiàn)在的208M;而根據(jù)測(cè)試語(yǔ)料過(guò)濾后,我們有用的短語(yǔ)對(duì)增加了一倍,從以前的69M到現(xiàn)在的121M。同時(shí),從表2中可以發(fā)現(xiàn),經(jīng)過(guò)兩個(gè)層次進(jìn)行過(guò)濾生成的三組短語(yǔ)重組之后,有用的短語(yǔ)對(duì)減少了近1/4的存儲(chǔ)空間,由以前的275M減少到現(xiàn)在的208M,而機(jī)器翻譯BLEU打分卻有了很明顯的提高,BLEU打分絕對(duì)值提高了1個(gè)百分點(diǎn)還多,而相對(duì)值也提高了3%。分析其根本原因就在于我們的方法通過(guò)修正奧赫的抽取方法,能夠在給定詞對(duì)齊下獲得三種模式的短語(yǔ),而無(wú)疑這三種模式的短語(yǔ)組合以后就會(huì)對(duì)短語(yǔ)列表的概率打分有一個(gè)很好的修正,如果在三種模式下都能抽取出來(lái)的短語(yǔ)對(duì),應(yīng)該給予這樣的短語(yǔ)對(duì)以更高的概率,這就修正了以往的方法對(duì)于所有抽取出來(lái)的短語(yǔ)對(duì)都一視同仁的做法。更準(zhǔn)確的說(shuō),這就相當(dāng)于在解碼前已經(jīng)對(duì)短語(yǔ)有了一個(gè)初步的過(guò)濾和排序,將那些更準(zhǔn)確的短語(yǔ)對(duì)以更高的概率用于解碼,從而導(dǎo)致解碼能夠更準(zhǔn)確的對(duì)源短語(yǔ)進(jìn)行目標(biāo)短語(yǔ)的選擇,從而生成更好的翻譯結(jié)果。權(quán)利要求1、一種漢英短語(yǔ)翻譯對(duì)自動(dòng)抽取與過(guò)濾方法,其特征在于,自動(dòng)抽取與過(guò)濾的步驟包括步驟1對(duì)原始漢、英雙語(yǔ)句對(duì)提取劃分語(yǔ)塊和對(duì)候選短語(yǔ)進(jìn)行過(guò)濾的特征信息;步驟2根據(jù)不同的特征信息確定劃分語(yǔ)塊錨點(diǎn),將原始漢、英句對(duì)劃分為多個(gè)單語(yǔ)語(yǔ)塊;步驟3利用原始漢、英雙語(yǔ)句對(duì)的詞對(duì)齊信息在語(yǔ)塊內(nèi)進(jìn)行候選短語(yǔ)的抽?。徊襟E4利用候選短語(yǔ)的出現(xiàn)頻率的特征信息來(lái)對(duì)生成的候選短語(yǔ)進(jìn)一步過(guò)濾,生成需要的短語(yǔ)對(duì)。2、根據(jù)權(quán)利要求1所述的漢英短語(yǔ)翻譯對(duì)自動(dòng)抽取與過(guò)濾方法,其特征在于,步驟1所述提取多個(gè)劃分語(yǔ)塊的特征,是兩個(gè)相鄰單語(yǔ)單詞間的互信息特征、雙語(yǔ)單詞間的互信息特征、t-檢驗(yàn)(t-test)特征、/檢驗(yàn)特征、Dice系數(shù)特征;并提取過(guò)濾候選短語(yǔ)的特征,這些特征是單語(yǔ)候選短語(yǔ)本身包含信息的出現(xiàn)頻率特征,或是雙語(yǔ)候選短語(yǔ)本身包含信息的聯(lián)合出現(xiàn)概率;這些特征包括單語(yǔ)候選短語(yǔ)的出現(xiàn)頻率特征,雙語(yǔ)候選短語(yǔ)的聯(lián)合出現(xiàn)概率特征、單語(yǔ)候選短語(yǔ)詞性出現(xiàn)系列頻率特征、單語(yǔ)候選短語(yǔ)詞類出現(xiàn)系列頻率特征、雙語(yǔ)候選短語(yǔ)詞性系列的聯(lián)合出現(xiàn)概率特征、雙語(yǔ)候選短語(yǔ)詞類系列的聯(lián)合出現(xiàn)概率特征。3、根據(jù)權(quán)利要求1所述的漢英短語(yǔ)翻譯對(duì)自動(dòng)抽取與過(guò)濾方法,其特征在于,步驟2所述確定劃分錨點(diǎn)信息的步驟包括步驟21:分別利用相鄰兩個(gè)漢語(yǔ)或英語(yǔ)單詞之間的互信息來(lái)分別對(duì)漢、英句子進(jìn)行單語(yǔ)語(yǔ)塊的劃分;相鄰單詞間的互信息比較了這兩個(gè)單詞的聯(lián)合概率與這兩個(gè)單詞的獨(dú)立概率如果兩個(gè)單詞間存在較強(qiáng)的鄰接關(guān)系,其聯(lián)合概率將遠(yuǎn)遠(yuǎn)大于獨(dú)立概率,從而互信息遠(yuǎn)遠(yuǎn)大于0;如果不存在較強(qiáng)的鄰接這種關(guān)系,則兩個(gè)單詞的聯(lián)合概率和兩個(gè)單詞的獨(dú)立概率基本相等,即互信息約等于0;如果以互補(bǔ)出現(xiàn),則互信息遠(yuǎn)遠(yuǎn)小于0,利用兩個(gè)單詞之間的互信息在一定程度上反映這兩個(gè)單詞的聯(lián)系緊密性,選擇相鄰詞的互信息來(lái)作為劃分錨點(diǎn)的依據(jù);步驟22:確定劃分錨點(diǎn)首先計(jì)算出當(dāng)前漢英句子所有單語(yǔ)相鄰兩個(gè)單詞間的互信息,然后找到那些互信息為負(fù)數(shù)的點(diǎn)的個(gè)數(shù);如果互信息為負(fù)數(shù)的點(diǎn)的個(gè)數(shù)大于設(shè)定的閾值,則利用互信息為負(fù)數(shù)的點(diǎn)的位置作為初始劃分錨點(diǎn),并給出該點(diǎn)的標(biāo)記,否則選擇最小的幾個(gè)點(diǎn)作為劃分錨點(diǎn),這最小的幾個(gè)點(diǎn)的個(gè)數(shù)就是設(shè)定的閾值;設(shè)定閾值為句子長(zhǎng)度除以最大短語(yǔ)長(zhǎng)度;步驟23:所述最大短語(yǔ)長(zhǎng)度是與用奧赫(Och)方法抽取短語(yǔ)的最大短語(yǔ)長(zhǎng)度保持一致,用于與奧赫抽取方法進(jìn)行對(duì)比的公正性,設(shè)定相同的最大短語(yǔ)長(zhǎng)度。4、根據(jù)權(quán)利要求1所述的漢英短語(yǔ)翻譯對(duì)自動(dòng)抽取與過(guò)濾方法,其特征在于,步驟3所述根據(jù)詞對(duì)齊信息在語(yǔ)塊內(nèi)進(jìn)行候選短語(yǔ)的抽取的步驟包括步驟31:針對(duì)當(dāng)前漢英句對(duì),結(jié)合漢英句對(duì)在012八++工具包下生成的詞對(duì)齊,利用生成的劃分錨點(diǎn)信息確定劃分點(diǎn),然后利用劃分點(diǎn)作為抽取候選短語(yǔ)的初始或終止點(diǎn),具體操作是找到第一個(gè)劃分錨點(diǎn)的位置,確定漢語(yǔ)或英語(yǔ)第一個(gè)語(yǔ)塊,遍歷漢語(yǔ)或英語(yǔ)的第一個(gè)語(yǔ)塊下所有的候選短語(yǔ),結(jié)合詞對(duì)齊信息,根據(jù)奧赫短語(yǔ)抽取方法進(jìn)行遍歷該語(yǔ)塊內(nèi)部的所有候選短語(yǔ)對(duì)抽??;步驟32:執(zhí)行完第一個(gè)語(yǔ)塊后,重復(fù)步驟31執(zhí)行下一個(gè)語(yǔ)塊的候選短語(yǔ)對(duì)的抽取,直至處理完原始句子包含的所有劃分語(yǔ)塊;步驟33:最后組合所有語(yǔ)塊的候選短語(yǔ),生成該原始句對(duì)的所有候選短語(yǔ)對(duì)。5、根據(jù)權(quán)利要求1所述的漢英短語(yǔ)翻譯對(duì)自動(dòng)抽取與過(guò)濾方法,其特征在于,步驟3所述根據(jù)詞對(duì)齊信息在語(yǔ)塊內(nèi)進(jìn)行候選短語(yǔ)的抽取的步驟還包括根據(jù)不同方向的限制條件生成三組不同的短語(yǔ)為漢語(yǔ)方向在語(yǔ)塊內(nèi)遍歷短語(yǔ)、英語(yǔ)方向在語(yǔ)塊內(nèi)遍歷短語(yǔ)和雙方向都只能在語(yǔ)塊內(nèi)遍歷短語(yǔ);三組不同的短語(yǔ)呈現(xiàn)互補(bǔ)趨勢(shì),對(duì)產(chǎn)生的短語(yǔ)對(duì)以更高的權(quán)重,用于計(jì)算短語(yǔ)對(duì)概率打分時(shí)給予權(quán)重高的短語(yǔ)以更高的概率打分,在解碼的時(shí)提高此類短語(yǔ)的位置,用于得到更好的翻譯結(jié)果。6、根據(jù)權(quán)利要求1所述的漢英短語(yǔ)翻譯對(duì)自動(dòng)抽取與過(guò)濾方法,其特征在于,步驟4所述根據(jù)利用額外的特征對(duì)生成的候選短語(yǔ)進(jìn)行過(guò)濾的步驟包括步驟41:利用額外的特征對(duì)生成的候選短語(yǔ)進(jìn)行進(jìn)一步的過(guò)濾,利用單語(yǔ)候選短語(yǔ)的出現(xiàn)頻率進(jìn)行約束,或利用更多的特征來(lái)進(jìn)行約束過(guò)濾;步驟42:利用單語(yǔ)候選短語(yǔ)的出現(xiàn)頻率來(lái)進(jìn)一步過(guò)濾時(shí)采用的啟發(fā)函數(shù),或逐步加入更細(xì)化的特征信息來(lái)設(shè)計(jì)啟發(fā)函數(shù);利用候選短語(yǔ)的出現(xiàn)次數(shù)來(lái)啟發(fā)就是如果候選短語(yǔ)的出現(xiàn)次數(shù)大于設(shè)定的閾值也就是短語(yǔ)最少出現(xiàn)次數(shù),則舍棄不用;如果是新聞?lì)I(lǐng)域,則對(duì)那些出現(xiàn)次數(shù)為1的單個(gè)詞短語(yǔ)進(jìn)行了召回,用于新聞?lì)I(lǐng)域語(yǔ)料的多變性及新詞系列。7、根據(jù)權(quán)利要求5所述的漢英短語(yǔ)翻譯對(duì)自動(dòng)抽取與過(guò)濾方法,其特征在于,所述通過(guò)限制三個(gè)方向的候選短語(yǔ)出現(xiàn)頻率而生成三組不同的短語(yǔ)對(duì),只對(duì)漢語(yǔ)單語(yǔ)方向的短語(yǔ)對(duì)抽取進(jìn)行約束過(guò)濾,只對(duì)英語(yǔ)單語(yǔ)方向的短語(yǔ)對(duì)抽取進(jìn)行過(guò)濾和同時(shí)對(duì)漢英雙向進(jìn)行約束過(guò)濾,最后同時(shí)組合生成的這三組短語(yǔ)作為最終的短語(yǔ)列表。全文摘要本發(fā)明漢英短語(yǔ)翻譯對(duì)自動(dòng)抽取與過(guò)濾方法,是對(duì)原始漢、英雙語(yǔ)句對(duì)提取劃分語(yǔ)塊和對(duì)候選短語(yǔ)進(jìn)行過(guò)濾的特征信息;根據(jù)不同的特征信息確定劃分語(yǔ)塊錨點(diǎn),將原始漢、英句對(duì)劃分為多個(gè)單語(yǔ)語(yǔ)塊;利用原始漢、英雙語(yǔ)句對(duì)的詞對(duì)齊信息在語(yǔ)塊內(nèi)進(jìn)行候選短語(yǔ)的抽??;利用候選短語(yǔ)的出現(xiàn)頻率的特征信息來(lái)對(duì)生成的候選短語(yǔ)過(guò)濾,生成需要的短語(yǔ)對(duì)。本發(fā)明采用遍歷語(yǔ)塊內(nèi)的短語(yǔ)抽取來(lái)取代現(xiàn)有遍歷整句進(jìn)行抽取的方法,對(duì)于空詞的無(wú)限制擴(kuò)展尤其有用,從而有效的解決了目前短語(yǔ)抽取量過(guò)大對(duì)于存儲(chǔ)空間的要求,并且有效的過(guò)濾掉了很多噪音短語(yǔ)。本發(fā)明能夠直接根據(jù)當(dāng)前句對(duì)的固定詞對(duì)齊生成多組短語(yǔ),從而在滿足精度的前提下提高了短語(yǔ)對(duì)的召回率。文檔編號(hào)G06F17/27GK101482860SQ20081005578公開(kāi)日2009年7月15日申請(qǐng)日期2008年1月9日優(yōu)先權(quán)日2008年1月9日發(fā)明者玉周,宗成慶申請(qǐng)人:中國(guó)科學(xué)院自動(dòng)化研究所