專利名稱:一種從雙語(yǔ)語(yǔ)料庫(kù)中自動(dòng)抽取多詞翻譯等價(jià)單元的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)自然語(yǔ)言處理技術(shù),特別涉及一種從雙語(yǔ)句子對(duì)齊語(yǔ)料庫(kù)中自動(dòng)抽取雙語(yǔ)多詞翻譯等價(jià)單元的技術(shù)。
背景技術(shù):
多詞單元(Multi-Word Unit,MWU)是在語(yǔ)法上合理,具有一定語(yǔ)義,搭配較為緊密,由多個(gè)詞語(yǔ)構(gòu)成的語(yǔ)法結(jié)構(gòu);包括多詞短語(yǔ)、多詞固定搭配、多詞習(xí)語(yǔ)和多詞術(shù)語(yǔ)等;從屬性上可以分為名詞多詞單元、動(dòng)詞多詞單元、形容詞多詞單元、副詞多詞單元等等。多詞翻譯等價(jià)單元是指源語(yǔ)言和目標(biāo)語(yǔ)言均為多詞單元,而且源語(yǔ)言和目標(biāo)語(yǔ)言部分具有對(duì)等關(guān)系的翻譯等價(jià)對(duì)。多詞翻譯等價(jià)單元能夠應(yīng)用于機(jī)器翻譯、機(jī)器輔助翻譯、雙語(yǔ)詞典編纂、術(shù)語(yǔ)學(xué)、信息抽取、自然語(yǔ)言生成等自然語(yǔ)言處理技術(shù)以及應(yīng)用于第二語(yǔ)言教學(xué)等等。
從上個(gè)世紀(jì)90年代以來(lái),雙語(yǔ)多詞單元的自動(dòng)抽取技術(shù)就一直受到很多研究人員的關(guān)注,該技術(shù)傳統(tǒng)的方法也是應(yīng)用最多的方法由兩部分技術(shù)組成單語(yǔ)多詞單元的抽取和雙語(yǔ)等價(jià)單元的對(duì)齊。國(guó)內(nèi)外相關(guān)的工作很多,典型技術(shù)流程可以總結(jié)如下
首先,用某個(gè)關(guān)聯(lián)度度量標(biāo)準(zhǔn),如互信息(mutual information)[Church et al.,1990]等等,計(jì)算文本中所有詞對(duì)(Bi-gram)之間的關(guān)聯(lián)度,并標(biāo)記出所有關(guān)聯(lián)度大于某個(gè)預(yù)設(shè)閾值的詞對(duì);然后,遞歸調(diào)用算法,進(jìn)一步標(biāo)記出長(zhǎng)度大于2個(gè)詞的多詞單元;第三步,從對(duì)齊語(yǔ)料中列出所有可能的雙語(yǔ)翻譯等價(jià)單元并計(jì)算出它們之間的關(guān)聯(lián)度;最后,抽取關(guān)聯(lián)度大于某個(gè)預(yù)設(shè)閾值的雙語(yǔ)多詞單元。
這些方法由于主要算法流程相似,所以它們都有一些共同的不足之處(a)預(yù)設(shè)閾值為全局閾值,高頻多詞單元和低頻多詞單元的關(guān)聯(lián)度的大小存在較大差異,該閾值不能兼顧,這就導(dǎo)致低頻多詞單元無(wú)法正確抽取,如在[Smadja et al.,1996]的實(shí)驗(yàn)中抽取的是出現(xiàn)頻次大于10的多詞單元,而且閾值會(huì)隨著語(yǔ)言種類的改變、語(yǔ)料的多少以及所選取的關(guān)聯(lián)值的不同而發(fā)生改變;(b)抽取結(jié)果很大程度上依靠于算法中循環(huán)開(kāi)始時(shí)合適的詞對(duì)(Bi-gram)的確定[Dias et al.,2000a];(c)這種方法有多處需要計(jì)算兩個(gè)對(duì)象之間的關(guān)聯(lián)度,而最后結(jié)果的正確率依賴于這多處應(yīng)用關(guān)聯(lián)度所得正確率的乘積,因此,如果當(dāng)應(yīng)用一次關(guān)聯(lián)度和閾值所得到結(jié)果的正確率不高的話,那么這些錯(cuò)誤就會(huì)累計(jì),導(dǎo)致最后結(jié)果的正確率迅速下降。同時(shí)需要很大的計(jì)算量。
發(fā)明內(nèi)容
為了提高抽取雙語(yǔ)翻譯等價(jià)單元的正確率和降低計(jì)算復(fù)雜度,本發(fā)明提供一種計(jì)算方法,該方法應(yīng)具有以下特點(diǎn)(1)摒棄了利用關(guān)聯(lián)度參數(shù)反復(fù)統(tǒng)計(jì)詞對(duì)(Bi-gram)來(lái)獲取多詞單元的算法,而是利用關(guān)聯(lián)度的平均值和歸一化差值構(gòu)建抽取模型;(2)把首先識(shí)別單語(yǔ)多詞單元,然后對(duì)齊的算法流程改成在對(duì)齊的過(guò)程中同時(shí)識(shí)別多詞單元;(3)把滿足全局閾值改成局部最優(yōu)算法。
為達(dá)到上述目的,本發(fā)明的技術(shù)解決方法是提供一個(gè)從雙語(yǔ)語(yǔ)料庫(kù)中抽取雙語(yǔ)多詞翻譯等價(jià)單元的方法,其采用平均關(guān)聯(lián)度和關(guān)聯(lián)度的歸一化差值作為雙語(yǔ)多詞翻譯等價(jià)單元的關(guān)聯(lián)衡量標(biāo)準(zhǔn);在對(duì)齊的過(guò)程中同時(shí)識(shí)別多詞單元。
所述的方法,其分為以下幾步(1)語(yǔ)料預(yù)處理,包括英文的斷詞、詞形變換和中文分詞將英文標(biāo)點(diǎn)符號(hào)和單詞分開(kāi),詞形變換,包括將動(dòng)詞的單數(shù)形式、分詞形式、過(guò)去式和過(guò)去分詞形式變換成動(dòng)詞原形,以及名詞的復(fù)數(shù)形式變換成名詞原形;將中文進(jìn)行分詞;(2)通過(guò)統(tǒng)計(jì)共現(xiàn)頻率估計(jì)共現(xiàn)概率統(tǒng)計(jì)出所有詞對(duì)的共現(xiàn)頻次和每個(gè)詞匯的出現(xiàn)頻次后,以公式計(jì)算出它們的概率;(3)計(jì)算單個(gè)源語(yǔ)言詞匯和單個(gè)目標(biāo)語(yǔ)言詞匯的關(guān)聯(lián)度用公式
MI(X,Y)=logPr(X,Y)Pr(X)Pr(Y)]]>計(jì)算每個(gè)詞對(duì)的關(guān)聯(lián)度互信息MI(S,T);其中Pr(X,Y)為X和Y的共現(xiàn)概率,Pr(X)和Pr(Y)分別為這兩個(gè)變量的出現(xiàn)概率;(4)計(jì)算每個(gè)源語(yǔ)言詞匯和與其共現(xiàn)的目標(biāo)語(yǔ)言的詞串之間的平均關(guān)聯(lián)度運(yùn)用公式AMI(S,C)=1nΣi=1nMI(S,Wi)]]>計(jì)算單個(gè)源語(yǔ)言詞匯和目標(biāo)語(yǔ)言多詞單元之間的平均關(guān)聯(lián)度;(5)計(jì)算每個(gè)目標(biāo)語(yǔ)言的詞串和與其共現(xiàn)的源語(yǔ)言的詞串之間的關(guān)聯(lián)值運(yùn)用公式ASAMI(H,C)=1mΣi=1mAMI(Si,C)]]>和NDAMI(H,C)=1m×ASAMI(H,C)Σi=1m|ASAMI(H,C)-AMI(Si,C)|]]>計(jì)算源語(yǔ)言多詞單元和目標(biāo)語(yǔ)言多詞單元之間的平均關(guān)聯(lián)度和歸一化關(guān)聯(lián)度差值;(6)應(yīng)用局部最優(yōu)算法針對(duì)每個(gè)源語(yǔ)言詞串利用局部最優(yōu)算法將其非局部最優(yōu)的候選目標(biāo)語(yǔ)言多詞單元排除掉,針對(duì)每個(gè)目標(biāo)語(yǔ)言詞串也運(yùn)用局部最優(yōu)算法做同樣的過(guò)濾;
(7)關(guān)聯(lián)值最優(yōu)過(guò)濾將剩下的候選多詞單元取其中關(guān)聯(lián)值最大的一項(xiàng)作為可能的目標(biāo)語(yǔ)言翻譯出來(lái)。
所述的方法,其第(3)步所述的互信息MI(X,Y),表示的是兩個(gè)變量獨(dú)立的情況下,這兩個(gè)變量均出現(xiàn)1的事件的聯(lián)合概率的對(duì)數(shù)似然比。
所述的方法,其第(6)步所述的局部最優(yōu)算法可以表述如下x∈Ωn-1,y∈Ωn+1如果(length(C)=2and S(C)>S(y))或者(length(C)>2and S(x)<=S(C)and S(C)>S(y))則詞串C是一個(gè)短語(yǔ);其中l(wèi)ength(C)表示詞串C所包含的詞語(yǔ)的個(gè)數(shù);其中,用Ωn-1表示所有(n-1)詞串的集合,Ωn+1表示所有(n+1)詞串的集合。
本發(fā)明的這些改進(jìn)使得算法能有效地同時(shí)抽取高頻和低頻雙語(yǔ)多詞翻譯等價(jià)單元,能提高抽取的正確率和降低計(jì)算復(fù)雜度。
具體實(shí)施例方式
本發(fā)明先建立一個(gè)數(shù)學(xué)模型,再歸納出實(shí)施的方法。
一、數(shù)學(xué)模型從信息論的角度,兩個(gè)隨機(jī)變量之間的互信息的定義是I(X,Y)=Σx∈(0,1)Σy∈(0,1)p(X=x,Y=y)logp(X=x,Y=y)p(X=x)p(Y=y).--(1)]]>
但是,在自然語(yǔ)言處理領(lǐng)域中,大多數(shù)情況下,互信息只用到了上面公式中的一部分,也就是當(dāng)X=1,Y=1的情況,在這里我們用MI(X,Y)表示,見(jiàn)公式(2)。I(X,Y)表示的是通信前后,平均不確定度的消除,也就是X包含在Y中的信息。而計(jì)算語(yǔ)言學(xué)意義上的互信息MI(X,Y)表示的是兩個(gè)變量獨(dú)立的情況下,這兩個(gè)變量均出現(xiàn)1的事件的聯(lián)合概率的對(duì)數(shù)似然比。
MI(X,Y)=logPr(X,Y)Pr(X)Pr(Y).--(2)]]>其中Pr(X,Y)為X和Y的共現(xiàn)概率,Pr(X)和Pr(Y)分別為這兩個(gè)變量的出現(xiàn)概率?;バ畔⒖梢詾檎?,也可以為負(fù),當(dāng)它為正時(shí),說(shuō)明這兩個(gè)變量是相互關(guān)聯(lián)的,而且互信息越大,表示兩個(gè)變量的關(guān)聯(lián)度也越大。當(dāng)互信息為0時(shí),說(shuō)明這兩個(gè)變量無(wú)關(guān),而當(dāng)它為負(fù)時(shí),說(shuō)明這兩個(gè)變量的出現(xiàn)為相互排斥事件。如果把一個(gè)中文機(jī)譯單元的出現(xiàn)和一個(gè)英文機(jī)譯單元的出現(xiàn)分別看作兩個(gè)事件,那么就可以通過(guò)統(tǒng)計(jì)它們?cè)谡麄€(gè)語(yǔ)料庫(kù)中的出現(xiàn)概率以及共現(xiàn)概率來(lái)計(jì)算它們的關(guān)聯(lián)度。
假設(shè)一個(gè)目標(biāo)語(yǔ)言詞串C(Chunk)用下面的符號(hào)表示C=W1W2...Wi...Wn。 (3)則互信息平均值A(chǔ)MI(Average Mutual Information)、互信息歸一化差值NMID(Normalized Mutual Information Difference)的計(jì)算公式分別如下
AMI(S,C)=1nΣi=1nMI(S,Wi),--(4)]]>NMID(S,C)=1n×AMI(S,C)Σi=1n|MI(S,Wi)-AMI(S,C)|.--(5)]]>其中S為源語(yǔ)言詞匯。
假設(shè)輸入端為一個(gè)源語(yǔ)言詞匯,N個(gè)輸出端分別為N個(gè)獨(dú)立的目標(biāo)語(yǔ)言詞匯,那么單元源語(yǔ)言詞匯和目標(biāo)語(yǔ)多詞單元中每個(gè)詞語(yǔ)之間得互信息的算術(shù)平均值指的是輸入端和所有輸出端均為1的事件(假設(shè)該事件叫做E1)的概率對(duì)數(shù)似然比的歸一化值。
互信息歸一化差值是度量將詞串C中的N個(gè)詞匯分別與源語(yǔ)言詞匯共現(xiàn)這N個(gè)事件各自的概率對(duì)數(shù)似然比與事件E1的概率對(duì)數(shù)似然比之間的偏離程度。當(dāng)這個(gè)偏離程度較小的時(shí)候,說(shuō)明當(dāng)源語(yǔ)言詞匯出現(xiàn)時(shí),詞串C中的N個(gè)詞匯也出現(xiàn)的可能性較大,說(shuō)明詞串C是一個(gè)固定多詞單元的可能性同時(shí)也增大,所以能用關(guān)聯(lián)度的歸一化差值來(lái)提取多詞單元。
假設(shè)一個(gè)源語(yǔ)言詞串H(Chunk)用下面的符號(hào)表示H=S1S2...Si...Sm。
(6)那么每個(gè)目標(biāo)語(yǔ)言的詞串(n-gram)和與其共現(xiàn)的源語(yǔ)言的詞串(n-gram)之間的統(tǒng)計(jì)關(guān)聯(lián)度平均互信息的平均值A(chǔ)SAMI(Average Score ofAverage Mutual Information)與平均互信息的歸一化差值NDAMI(Normalized Difference of Average Mutual Information)的計(jì)算公式如下ASAMI(H,C)=1mΣi=1mAMI(Si,C),--(7)]]>NDAMI(H,C)=1m×ASAMI(H,C)Σi=1m|ASAMI(H,C)-AMI(Si,C)|.--(8)]]>同理,當(dāng)平均互信息的歸一化差值NDAMI較小的時(shí)候,說(shuō)明詞串H中的每個(gè)詞匯出現(xiàn),同時(shí)詞串C中的每個(gè)詞匯也出現(xiàn)的可能性較大。也就是,詞串H是一個(gè)固定多詞單元的可能性同時(shí)也增大。
二、算法描述本發(fā)明提取雙語(yǔ)多詞等價(jià)翻譯單元的方法分為以下幾步(1)語(yǔ)料預(yù)處理,包括英文的斷詞、詞形變換和中文分詞所謂英文的斷詞(tokenization)主要是指將標(biāo)點(diǎn)符號(hào)和單詞分開(kāi),詞形變換(lemmatization)主要包括將動(dòng)詞的單數(shù)形式、分詞形式、過(guò)去式和過(guò)去分詞形式變換成動(dòng)詞原形,以及名詞的復(fù)數(shù)形式變換成名詞原形等等。因?yàn)橹形臎](méi)有詞邊界,而該方法是以詞語(yǔ)為處理對(duì)象,所以必須進(jìn)行分詞。
(2)通過(guò)統(tǒng)計(jì)共現(xiàn)頻率估計(jì)共現(xiàn)概率統(tǒng)計(jì)出所有詞對(duì)的共現(xiàn)頻次和每個(gè)詞匯的出現(xiàn)頻次后可以估計(jì)出它們的概率,計(jì)算公式如(9)、(10)、(11)。
Pr(S)=freq(S)N,---(9)]]>Pr(T)=freq(T)N,---(10)]]>Pr(S,T)=freq(S,T)N.---(11)]]>其中N是語(yǔ)料庫(kù)中所有句子對(duì)(共現(xiàn)模型)的總數(shù)。freq(.)表示的是源語(yǔ)言詞匯S、目標(biāo)語(yǔ)言詞匯T出現(xiàn)的頻次或者S和T共現(xiàn)的頻次。Pr(.)表示的是概率。
(3)計(jì)算單個(gè)源語(yǔ)言詞匯和單個(gè)目標(biāo)語(yǔ)言詞匯的關(guān)聯(lián)度用公式(2)計(jì)算每個(gè)詞對(duì)的關(guān)聯(lián)度互信息MI(S,T)。
(4)計(jì)算每個(gè)源語(yǔ)言詞匯和與其共現(xiàn)的目標(biāo)語(yǔ)言的詞串(n-gram)之間的平均關(guān)聯(lián)度運(yùn)用公式(4)計(jì)算單個(gè)源語(yǔ)言詞匯和目標(biāo)語(yǔ)言多詞單元之間的平均關(guān)聯(lián)度。
(5)計(jì)算每個(gè)目標(biāo)語(yǔ)言的詞串(n-gram)和與其共現(xiàn)的源語(yǔ)言的詞串(n-gram)之間的關(guān)聯(lián)值運(yùn)用公式(7)和(8)計(jì)算源語(yǔ)言多詞單元和目標(biāo)語(yǔ)言多詞單元之間的平均關(guān)聯(lián)度和歸一化關(guān)聯(lián)度差值。
(6)應(yīng)用局部最優(yōu)算法針對(duì)每個(gè)源語(yǔ)言詞串(n-gram)利用局部最優(yōu)算法將其非局部最優(yōu)的候選目標(biāo)語(yǔ)言多詞單元排除掉,針對(duì)每個(gè)目標(biāo)語(yǔ)言詞串(n-gram)也運(yùn)用局部最優(yōu)算法做同樣的過(guò)濾。
從局部最大算法改進(jìn)得到的局部最優(yōu)算法提供了一個(gè)魯棒性更強(qiáng)、適用范圍更廣、更為靈活的提取短語(yǔ)的手段。如果每一個(gè)詞串(n-gram)是一個(gè)短語(yǔ),那么會(huì)有著更強(qiáng)的內(nèi)在關(guān)聯(lián),同時(shí)它的關(guān)聯(lián)值肯定也會(huì)更高,并且一個(gè)短語(yǔ)是一個(gè)局部的結(jié)構(gòu),在一個(gè)局部能表現(xiàn)出最優(yōu)的關(guān)聯(lián)程度,而在全局范圍內(nèi)可能會(huì)因?yàn)樗霈F(xiàn)的頻率太低等原因而表現(xiàn)不出在全局范圍內(nèi)有優(yōu)勢(shì)的關(guān)聯(lián)值來(lái),所以當(dāng)一個(gè)詞串的關(guān)聯(lián)值在一個(gè)局部表現(xiàn)出最優(yōu),那么可以認(rèn)為該詞串就是一個(gè)短語(yǔ)。例如,對(duì)于詞對(duì)(Bi-gram)<ice,cream>,在詞語(yǔ)“ice”和“cream”之間有很強(qiáng)的內(nèi)在關(guān)聯(lián),但是對(duì)于詞對(duì)(Bi-gram)<the,in>,不能說(shuō)詞語(yǔ)“the”和“in”之間有很強(qiáng)的內(nèi)在關(guān)聯(lián)。假設(shè)函數(shù)S(.)可以衡量這種內(nèi)在關(guān)聯(lián)的大小。
假設(shè)一個(gè)詞串(n-gram)C(Chunk)包含的所有(n-1)-gram的集合用Ωn-1表示,而所有包含該詞串(n-gram) C的(n+1)-gram的集合用Ωn+1表示,假設(shè)關(guān)聯(lián)值S(.)越大,結(jié)果就越優(yōu),則局部最優(yōu)算法可以表述如下算法2.1局部最優(yōu)算法x∈Ωn-1,y∈Ωn+1如果(length=2 and S>S(y))或者(length>2 and S(x)<=Sand S>S(y))則詞串C是一個(gè)短語(yǔ)。
其中l(wèi)ength表示詞串C所包含的詞語(yǔ)的個(gè)數(shù)。
(7)關(guān)聯(lián)值最優(yōu)過(guò)濾將剩下的候選多詞單元取其中關(guān)聯(lián)值最大的1項(xiàng)作為可能的目標(biāo)語(yǔ)言翻譯。
實(shí)施例以抽取“meat packing肉類/加工廠”為例來(lái)說(shuō)明整個(gè)算法的過(guò)程,選擇該雙語(yǔ)多詞單元的原因是它在語(yǔ)料庫(kù)中出現(xiàn)的頻率較低,只有一次,其他算法很容易漏掉。
(a)There is meat packing a big industry in your country?(b)在 你們 國(guó)家 肉類 加工廠 是否 算一門 大型 工業(yè)?該句對(duì)中各個(gè)詞語(yǔ)在語(yǔ)料庫(kù)中出現(xiàn)的頻次以及各個(gè)源語(yǔ)言詞匯和各個(gè)目標(biāo)語(yǔ)言詞匯在語(yǔ)料庫(kù)中共現(xiàn)的頻次如表1所示。
表1. 例句句對(duì)中各詞匯的頻次以及共現(xiàn)頻次
其中第二行是中文各詞匯在語(yǔ)料庫(kù)中出現(xiàn)的頻次,第二列是各英文單詞在語(yǔ)料庫(kù)中出現(xiàn)的頻次。
用公式(2)計(jì)算的每個(gè)源語(yǔ)言詞匯與它所有共現(xiàn)的單個(gè)目標(biāo)語(yǔ)言詞匯的互信息MI(S,T)如表2所示。S為源語(yǔ)言詞匯,T為目標(biāo)語(yǔ)言詞匯。
表2.“meat、packing、肉類、加工廠”四個(gè)詞語(yǔ)與其他詞語(yǔ)的共現(xiàn)概率
以“meat”和“packing”為源語(yǔ)言詞匯,所有可能由上面例句(a)和(b)所產(chǎn)生的中文多詞單元為目標(biāo)語(yǔ)言,其采用公式(4)計(jì)算得到的互信息的平均值為表3所示(為了節(jié)省篇幅,僅列出與“肉類/加工廠”有關(guān)的若干條記錄)。
表3.與“meat、packing”共現(xiàn)的目標(biāo)語(yǔ)言多詞單元的互信息平均值
以與“肉類/加工廠meat packing”有關(guān)的雙語(yǔ)詞串(n-gram)為例,其采用公式(7)和(8)計(jì)算得到的平均互信息的平均值A(chǔ)SAMI和平均互信息的歸一化差值NDAMI為表4所示。
表4雙語(yǔ)詞串(n-gram)的ASAMI和NDAMI
在基于該例句對(duì)生成的1980個(gè)雙語(yǔ)詞串(n-gram)中,平均互信息的平均值A(chǔ)SAMI和平均互信息的歸一化差值NDAMI同時(shí)滿足局部最優(yōu)算法的記錄如表5所示。
表5 ASAMI和NDAMI同時(shí)滿足局部最優(yōu)的雙語(yǔ)詞串(n-gram)
關(guān)聯(lián)度最優(yōu)過(guò)濾所得結(jié)果如表5中黑體字所示。
權(quán)利要求
1.種從雙語(yǔ)語(yǔ)料庫(kù)中抽取雙語(yǔ)多詞翻譯等價(jià)單元的方法,其特征在于,采用平均關(guān)聯(lián)度和關(guān)聯(lián)度的歸一化差值作為雙語(yǔ)多詞翻譯等價(jià)單元的關(guān)聯(lián)衡量標(biāo)準(zhǔn);在對(duì)齊的過(guò)程中同時(shí)識(shí)別多詞單元。
2.如權(quán)利要求1所述的方法,其特征在于,該方法分為以下幾步a)語(yǔ)料預(yù)處理,包括英文的斷詞、詞形變換和中文分詞將英文標(biāo)點(diǎn)符號(hào)和單詞分開(kāi),詞形變換,包括將動(dòng)詞的單數(shù)形式、分詞形式、過(guò)去式和過(guò)去分詞形式變換成動(dòng)詞原形,以及名詞的復(fù)數(shù)形式變換成名詞原形;將中文進(jìn)行分詞;b)通過(guò)統(tǒng)計(jì)共現(xiàn)頻率估計(jì)共現(xiàn)概率統(tǒng)計(jì)出所有詞對(duì)的共現(xiàn)頻次和每個(gè)詞匯的出現(xiàn)頻次后,以公式計(jì)算出它們的概率;c)計(jì)算單個(gè)源語(yǔ)言詞匯和單個(gè)目標(biāo)語(yǔ)言詞匯的關(guān)聯(lián)度用公式MI(X,Y)=logPr(X,Y)Pr(X)Pr(Y)]]>計(jì)算每個(gè)詞對(duì)的關(guān)聯(lián)度互信息MI(S,T);其中Pr(X,Y)為X和Y的共現(xiàn)概率,Pr(X)和Pr(Y)分別為這兩個(gè)變量的出現(xiàn)概率;d)計(jì)算每個(gè)源語(yǔ)言詞匯和與其共現(xiàn)的目標(biāo)語(yǔ)言的詞串之間的平均關(guān)聯(lián)度運(yùn)用公式AMI(S,C)=1nΣi=1nMI(S,Wi)]]>計(jì)算單個(gè)源語(yǔ)言詞匯和目標(biāo)語(yǔ)言多詞單元之間的平均關(guān)聯(lián)度;e)計(jì)算每個(gè)目標(biāo)語(yǔ)言的詞串和與其共現(xiàn)的源語(yǔ)言的詞串之間的關(guān)聯(lián)值運(yùn)用公式ASAMI(H,C)=1mΣi=1mAMI(Si,C)]]>和NDAMI(H,C)=1m×ASAMI(H,C)Σi=1m|ASAMI(H,C)-AMI(Si,C)|]]>計(jì)算源語(yǔ)言多詞單元和目標(biāo)語(yǔ)言多詞單元之間的平均關(guān)聯(lián)度和歸一化關(guān)聯(lián)度差值;(6)應(yīng)用局部最優(yōu)算法針對(duì)每個(gè)源語(yǔ)言詞串利用局部最優(yōu)算法將其非局部最優(yōu)的候選目標(biāo)語(yǔ)言多詞單元排除掉,針對(duì)每個(gè)目標(biāo)語(yǔ)言詞串也運(yùn)用局部最優(yōu)算法做同樣的過(guò)濾;(7)關(guān)聯(lián)值最優(yōu)過(guò)濾將剩下的候選多詞單元取其中關(guān)聯(lián)值最大的一項(xiàng)作為可能的目標(biāo)語(yǔ)言翻譯出來(lái)。
3.如權(quán)利要求2所述的方法,其特征在于,第(3)步所述的互信息MI(X,Y),表示的是兩個(gè)變量獨(dú)立的情況下,這兩個(gè)變量均出現(xiàn)1的事件的聯(lián)合概率的對(duì)數(shù)似然比。
4.如權(quán)利要求2所述的方法,其特征在于,第(6)步所述的局部最優(yōu)算法可以表述如下x∈Ωn-1,y∈Ωn+1如果(length(C)=2 and S(C)>S(y))或者(length(C)>2 and S(x)<=S(C)and S(C)>S(y))則詞串C是一個(gè)短語(yǔ);其中l(wèi)ength(C)表示詞串C所包含的詞語(yǔ)的個(gè)數(shù);其中,用Ωn-1表示所有(n-1)詞串的集合,Ωn+1表示所有(n+1)詞串的集合。
全文摘要
本發(fā)明涉及計(jì)算機(jī)自然語(yǔ)言處理技術(shù),特別涉及一種從雙語(yǔ)句子對(duì)齊語(yǔ)料庫(kù)中自動(dòng)抽取雙語(yǔ)多詞翻譯等價(jià)單元的技術(shù)。本發(fā)明方法采用平均關(guān)聯(lián)度和關(guān)聯(lián)度的歸一化差值作為雙語(yǔ)多詞翻譯等價(jià)單元的關(guān)聯(lián)衡量標(biāo)準(zhǔn);在對(duì)齊的過(guò)程中同時(shí)識(shí)別多詞單元。本發(fā)明方法的改進(jìn)使得算法能有效地同時(shí)抽取高頻和低頻雙語(yǔ)多詞翻譯等價(jià)單元,提高抽取的正確率和降低計(jì)算復(fù)雜度。
文檔編號(hào)G06F17/28GK1567297SQ03148989
公開(kāi)日2005年1月19日 申請(qǐng)日期2003年7月3日 優(yōu)先權(quán)日2003年7月3日
發(fā)明者杜利民, 陳博興 申請(qǐng)人:中國(guó)科學(xué)院聲學(xué)研究所