一種從雙語(yǔ)語(yǔ)料庫(kù)中自動(dòng)抽取多詞翻譯等價(jià)單元的方法

文檔序號(hào)：6340589閱讀：244來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種從雙語(yǔ)語(yǔ)料庫(kù)中自動(dòng)抽取多詞翻譯等價(jià)單元的方法
技術(shù)領(lǐng)域：
本發(fā)明涉及計(jì)算機(jī)自然語(yǔ)言處理技術(shù)，特別涉及一種從雙語(yǔ)句子對(duì)齊語(yǔ)料庫(kù)中自動(dòng)抽取雙語(yǔ)多詞翻譯等價(jià)單元的技術(shù)。
背景技術(shù)：
多詞單元(Multi-Word Unit，MWU)是在語(yǔ)法上合理，具有一定語(yǔ)義，搭配較為緊密，由多個(gè)詞語(yǔ)構(gòu)成的語(yǔ)法結(jié)構(gòu)；包括多詞短語(yǔ)、多詞固定搭配、多詞習(xí)語(yǔ)和多詞術(shù)語(yǔ)等；從屬性上可以分為名詞多詞單元、動(dòng)詞多詞單元、形容詞多詞單元、副詞多詞單元等等。多詞翻譯等價(jià)單元是指源語(yǔ)言和目標(biāo)語(yǔ)言均為多詞單元，而且源語(yǔ)言和目標(biāo)語(yǔ)言部分具有對(duì)等關(guān)系的翻譯等價(jià)對(duì)。多詞翻譯等價(jià)單元能夠應(yīng)用于機(jī)器翻譯、機(jī)器輔助翻譯、雙語(yǔ)詞典編纂、術(shù)語(yǔ)學(xué)、信息抽取、自然語(yǔ)言生成等自然語(yǔ)言處理技術(shù)以及應(yīng)用于第二語(yǔ)言教學(xué)等等。
從上個(gè)世紀(jì)90年代以來(lái)，雙語(yǔ)多詞單元的自動(dòng)抽取技術(shù)就一直受到很多研究人員的關(guān)注，該技術(shù)傳統(tǒng)的方法也是應(yīng)用最多的方法由兩部分技術(shù)組成單語(yǔ)多詞單元的抽取和雙語(yǔ)等價(jià)單元的對(duì)齊。國(guó)內(nèi)外相關(guān)的工作很多，典型技術(shù)流程可以總結(jié)如下
首先，用某個(gè)關(guān)聯(lián)度度量標(biāo)準(zhǔn)，如互信息(mutual information)[Church et al.，1990]等等，計(jì)算文本中所有詞對(duì)(Bi-gram)之間的關(guān)聯(lián)度，并標(biāo)記出所有關(guān)聯(lián)度大于某個(gè)預(yù)設(shè)閾值的詞對(duì)；然后，遞歸調(diào)用算法，進(jìn)一步標(biāo)記出長(zhǎng)度大于2個(gè)詞的多詞單元；第三步，從對(duì)齊語(yǔ)料中列出所有可能的雙語(yǔ)翻譯等價(jià)單元并計(jì)算出它們之間的關(guān)聯(lián)度；最后，抽取關(guān)聯(lián)度大于某個(gè)預(yù)設(shè)閾值的雙語(yǔ)多詞單元。
這些方法由于主要算法流程相似，所以它們都有一些共同的不足之處(a)預(yù)設(shè)閾值為全局閾值，高頻多詞單元和低頻多詞單元的關(guān)聯(lián)度的大小存在較大差異，該閾值不能兼顧，這就導(dǎo)致低頻多詞單元無(wú)法正確抽取，如在[Smadja et al.，1996]的實(shí)驗(yàn)中抽取的是出現(xiàn)頻次大于10的多詞單元，而且閾值會(huì)隨著語(yǔ)言種類的改變、語(yǔ)料的多少以及所選取的關(guān)聯(lián)值的不同而發(fā)生改變；(b)抽取結(jié)果很大程度上依靠于算法中循環(huán)開(kāi)始時(shí)合適的詞對(duì)(Bi-gram)的確定[Dias et al.，2000a]；(c)這種方法有多處需要計(jì)算兩個(gè)對(duì)象之間的關(guān)聯(lián)度，而最后結(jié)果的正確率依賴于這多處應(yīng)用關(guān)聯(lián)度所得正確率的乘積，因此，如果當(dāng)應(yīng)用一次關(guān)聯(lián)度和閾值所得到結(jié)果的正確率不高的話，那么這些錯(cuò)誤就會(huì)累計(jì)，導(dǎo)致最后結(jié)果的正確率迅速下降。同時(shí)需要很大的計(jì)算量。

發(fā)明內(nèi)容
為了提高抽取雙語(yǔ)翻譯等價(jià)單元的正確率和降低計(jì)算復(fù)雜度，本發(fā)明提供一種計(jì)算方法，該方法應(yīng)具有以下特點(diǎn)(1)摒棄了利用關(guān)聯(lián)度參數(shù)反復(fù)統(tǒng)計(jì)詞對(duì)(Bi-gram)來(lái)獲取多詞單元的算法，而是利用關(guān)聯(lián)度的平均值和歸一化差值構(gòu)建抽取模型；(2)把首先識(shí)別單語(yǔ)多詞單元，然后對(duì)齊的算法流程改成在對(duì)齊的過(guò)程中同時(shí)識(shí)別多詞單元；(3)把滿足全局閾值改成局部最優(yōu)算法。
為達(dá)到上述目的，本發(fā)明的技術(shù)解決方法是提供一個(gè)從雙語(yǔ)語(yǔ)料庫(kù)中抽取雙語(yǔ)多詞翻譯等價(jià)單元的方法，其采用平均關(guān)聯(lián)度和關(guān)聯(lián)度的歸一化差值作為雙語(yǔ)多詞翻譯等價(jià)單元的關(guān)聯(lián)衡量標(biāo)準(zhǔn)；在對(duì)齊的過(guò)程中同時(shí)識(shí)別多詞單元。
所述的方法，其分為以下幾步(1)語(yǔ)料預(yù)處理，包括英文的斷詞、詞形變換和中文分詞將英文標(biāo)點(diǎn)符號(hào)和單詞分開(kāi)，詞形變換，包括將動(dòng)詞的單數(shù)形式、分詞形式、過(guò)去式和過(guò)去分詞形式變換成動(dòng)詞原形，以及名詞的復(fù)數(shù)形式變換成名詞原形；將中文進(jìn)行分詞；(2)通過(guò)統(tǒng)計(jì)共現(xiàn)頻率估計(jì)共現(xiàn)概率統(tǒng)計(jì)出所有詞對(duì)的共現(xiàn)頻次和每個(gè)詞匯的出現(xiàn)頻次后，以公式計(jì)算出它們的概率；(3)計(jì)算單個(gè)源語(yǔ)言詞匯和單個(gè)目標(biāo)語(yǔ)言詞匯的關(guān)聯(lián)度用公式
MI(X,Y)=logPr(X,Y)Pr(X)Pr(Y)]]>計(jì)算每個(gè)詞對(duì)的關(guān)聯(lián)度互信息MI(S，T)；其中Pr(X，Y)為X和Y的共現(xiàn)概率，Pr(X)和Pr(Y)分別為這兩個(gè)變量的出現(xiàn)概率；(4)計(jì)算每個(gè)源語(yǔ)言詞匯和與其共現(xiàn)的目標(biāo)語(yǔ)言的詞串之間的平均關(guān)聯(lián)度運(yùn)用公式AMI(S,C)=1nΣi=1nMI(S,Wi)]]>計(jì)算單個(gè)源語(yǔ)言詞匯和目標(biāo)語(yǔ)言多詞單元之間的平均關(guān)聯(lián)度；(5)計(jì)算每個(gè)目標(biāo)語(yǔ)言的詞串和與其共現(xiàn)的源語(yǔ)言的詞串之間的關(guān)聯(lián)值運(yùn)用公式ASAMI(H,C)=1mΣi=1mAMI(Si,C)]]>和NDAMI(H,C)=1m×ASAMI(H,C)Σi=1m|ASAMI(H,C)-AMI(Si,C)|]]>計(jì)算源語(yǔ)言多詞單元和目標(biāo)語(yǔ)言多詞單元之間的平均關(guān)聯(lián)度和歸一化關(guān)聯(lián)度差值；(6)應(yīng)用局部最優(yōu)算法針對(duì)每個(gè)源語(yǔ)言詞串利用局部最優(yōu)算法將其非局部最優(yōu)的候選目標(biāo)語(yǔ)言多詞單元排除掉，針對(duì)每個(gè)目標(biāo)語(yǔ)言詞串也運(yùn)用局部最優(yōu)算法做同樣的過(guò)濾；
(7)關(guān)聯(lián)值最優(yōu)過(guò)濾將剩下的候選多詞單元取其中關(guān)聯(lián)值最大的一項(xiàng)作為可能的目標(biāo)語(yǔ)言翻譯出來(lái)。
所述的方法，其第(3)步所述的互信息MI(X，Y)，表示的是兩個(gè)變量獨(dú)立的情況下，這兩個(gè)變量均出現(xiàn)1的事件的聯(lián)合概率的對(duì)數(shù)似然比。
所述的方法，其第(6)步所述的局部最優(yōu)算法可以表述如下x∈Ωn-1，y∈Ωn+1如果(length(C)＝2and S(C)＞S(y))或者(length(C)＞2and S(x)＜＝S(C)and S(C)＞S(y))則詞串C是一個(gè)短語(yǔ)；其中l(wèi)ength(C)表示詞串C所包含的詞語(yǔ)的個(gè)數(shù)；其中，用Ωn-1表示所有(n-1)詞串的集合，Ωn+1表示所有(n+1)詞串的集合。
本發(fā)明的這些改進(jìn)使得算法能有效地同時(shí)抽取高頻和低頻雙語(yǔ)多詞翻譯等價(jià)單元，能提高抽取的正確率和降低計(jì)算復(fù)雜度。
具體實(shí)施例方式
本發(fā)明先建立一個(gè)數(shù)學(xué)模型，再歸納出實(shí)施的方法。
一、數(shù)學(xué)模型從信息論的角度，兩個(gè)隨機(jī)變量之間的互信息的定義是I(X,Y)=Σx&Element;(0,1)Σy&Element;(0,1)p(X=x,Y=y)logp(X=x,Y=y)p(X=x)p(Y=y).--(1)]]>
但是，在自然語(yǔ)言處理領(lǐng)域中，大多數(shù)情況下，互信息只用到了上面公式中的一部分，也就是當(dāng)X＝1，Y＝1的情況，在這里我們用MI(X，Y)表示，見(jiàn)公式(2)。I(X，Y)表示的是通信前后，平均不確定度的消除，也就是X包含在Y中的信息。而計(jì)算語(yǔ)言學(xué)意義上的互信息MI(X，Y)表示的是兩個(gè)變量獨(dú)立的情況下，這兩個(gè)變量均出現(xiàn)1的事件的聯(lián)合概率的對(duì)數(shù)似然比。
MI(X,Y)=logPr(X,Y)Pr(X)Pr(Y).--(2)]]>其中Pr(X，Y)為X和Y的共現(xiàn)概率，Pr(X)和Pr(Y)分別為這兩個(gè)變量的出現(xiàn)概率?；バ畔⒖梢詾檎?，也可以為負(fù)，當(dāng)它為正時(shí)，說(shuō)明這兩個(gè)變量是相互關(guān)聯(lián)的，而且互信息越大，表示兩個(gè)變量的關(guān)聯(lián)度也越大。當(dāng)互信息為0時(shí)，說(shuō)明這兩個(gè)變量無(wú)關(guān)，而當(dāng)它為負(fù)時(shí)，說(shuō)明這兩個(gè)變量的出現(xiàn)為相互排斥事件。如果把一個(gè)中文機(jī)譯單元的出現(xiàn)和一個(gè)英文機(jī)譯單元的出現(xiàn)分別看作兩個(gè)事件，那么就可以通過(guò)統(tǒng)計(jì)它們?cè)谡麄€(gè)語(yǔ)料庫(kù)中的出現(xiàn)概率以及共現(xiàn)概率來(lái)計(jì)算它們的關(guān)聯(lián)度。
假設(shè)一個(gè)目標(biāo)語(yǔ)言詞串C(Chunk)用下面的符號(hào)表示C＝W1W2...Wi...Wn。 (3)則互信息平均值A(chǔ)MI(Average Mutual Information)、互信息歸一化差值NMID(Normalized Mutual Information Difference)的計(jì)算公式分別如下
AMI(S,C)=1nΣi=1nMI(S,Wi),--(4)]]>NMID(S,C)=1n×AMI(S,C)Σi=1n|MI(S,Wi)-AMI(S,C)|.--(5)]]>其中S為源語(yǔ)言詞匯。
假設(shè)輸入端為一個(gè)源語(yǔ)言詞匯，N個(gè)輸出端分別為N個(gè)獨(dú)立的目標(biāo)語(yǔ)言詞匯，那么單元源語(yǔ)言詞匯和目標(biāo)語(yǔ)多詞單元中每個(gè)詞語(yǔ)之間得互信息的算術(shù)平均值指的是輸入端和所有輸出端均為1的事件(假設(shè)該事件叫做E1)的概率對(duì)數(shù)似然比的歸一化值。
互信息歸一化差值是度量將詞串C中的N個(gè)詞匯分別與源語(yǔ)言詞匯共現(xiàn)這N個(gè)事件各自的概率對(duì)數(shù)似然比與事件E1的概率對(duì)數(shù)似然比之間的偏離程度。當(dāng)這個(gè)偏離程度較小的時(shí)候，說(shuō)明當(dāng)源語(yǔ)言詞匯出現(xiàn)時(shí)，詞串C中的N個(gè)詞匯也出現(xiàn)的可能性較大，說(shuō)明詞串C是一個(gè)固定多詞單元的可能性同時(shí)也增大，所以能用關(guān)聯(lián)度的歸一化差值來(lái)提取多詞單元。
假設(shè)一個(gè)源語(yǔ)言詞串H(Chunk)用下面的符號(hào)表示H＝S1S2...Si...Sm。
(6)那么每個(gè)目標(biāo)語(yǔ)言的詞串(n-gram)和與其共現(xiàn)的源語(yǔ)言的詞串(n-gram)之間的統(tǒng)計(jì)關(guān)聯(lián)度平均互信息的平均值A(chǔ)SAMI(Average Score ofAverage Mutual Information)與平均互信息的歸一化差值NDAMI(Normalized Difference of Average Mutual Information)的計(jì)算公式如下ASAMI(H,C)=1mΣi=1mAMI(Si,C),--(7)]]>NDAMI(H,C)=1m×ASAMI(H,C)Σi=1m|ASAMI(H,C)-AMI(Si,C)|.--(8)]]>同理，當(dāng)平均互信息的歸一化差值NDAMI較小的時(shí)候，說(shuō)明詞串H中的每個(gè)詞匯出現(xiàn)，同時(shí)詞串C中的每個(gè)詞匯也出現(xiàn)的可能性較大。也就是，詞串H是一個(gè)固定多詞單元的可能性同時(shí)也增大。
二、算法描述本發(fā)明提取雙語(yǔ)多詞等價(jià)翻譯單元的方法分為以下幾步(1)語(yǔ)料預(yù)處理，包括英文的斷詞、詞形變換和中文分詞所謂英文的斷詞(tokenization)主要是指將標(biāo)點(diǎn)符號(hào)和單詞分開(kāi)，詞形變換(lemmatization)主要包括將動(dòng)詞的單數(shù)形式、分詞形式、過(guò)去式和過(guò)去分詞形式變換成動(dòng)詞原形，以及名詞的復(fù)數(shù)形式變換成名詞原形等等。因?yàn)橹形臎](méi)有詞邊界，而該方法是以詞語(yǔ)為處理對(duì)象，所以必須進(jìn)行分詞。
(2)通過(guò)統(tǒng)計(jì)共現(xiàn)頻率估計(jì)共現(xiàn)概率統(tǒng)計(jì)出所有詞對(duì)的共現(xiàn)頻次和每個(gè)詞匯的出現(xiàn)頻次后可以估計(jì)出它們的概率，計(jì)算公式如(9)、(10)、(11)。
Pr(S)=freq(S)N,---(9)]]>Pr(T)=freq(T)N,---(10)]]>Pr(S,T)=freq(S,T)N.---(11)]]>其中N是語(yǔ)料庫(kù)中所有句子對(duì)(共現(xiàn)模型)的總數(shù)。freq(.)表示的是源語(yǔ)言詞匯S、目標(biāo)語(yǔ)言詞匯T出現(xiàn)的頻次或者S和T共現(xiàn)的頻次。Pr(.)表示的是概率。
(3)計(jì)算單個(gè)源語(yǔ)言詞匯和單個(gè)目標(biāo)語(yǔ)言詞匯的關(guān)聯(lián)度用公式(2)計(jì)算每個(gè)詞對(duì)的關(guān)聯(lián)度互信息MI(S，T)。
(4)計(jì)算每個(gè)源語(yǔ)言詞匯和與其共現(xiàn)的目標(biāo)語(yǔ)言的詞串(n-gram)之間的平均關(guān)聯(lián)度運(yùn)用公式(4)計(jì)算單個(gè)源語(yǔ)言詞匯和目標(biāo)語(yǔ)言多詞單元之間的平均關(guān)聯(lián)度。
(5)計(jì)算每個(gè)目標(biāo)語(yǔ)言的詞串(n-gram)和與其共現(xiàn)的源語(yǔ)言的詞串(n-gram)之間的關(guān)聯(lián)值運(yùn)用公式(7)和(8)計(jì)算源語(yǔ)言多詞單元和目標(biāo)語(yǔ)言多詞單元之間的平均關(guān)聯(lián)度和歸一化關(guān)聯(lián)度差值。
(6)應(yīng)用局部最優(yōu)算法針對(duì)每個(gè)源語(yǔ)言詞串(n-gram)利用局部最優(yōu)算法將其非局部最優(yōu)的候選目標(biāo)語(yǔ)言多詞單元排除掉，針對(duì)每個(gè)目標(biāo)語(yǔ)言詞串(n-gram)也運(yùn)用局部最優(yōu)算法做同樣的過(guò)濾。
從局部最大算法改進(jìn)得到的局部最優(yōu)算法提供了一個(gè)魯棒性更強(qiáng)、適用范圍更廣、更為靈活的提取短語(yǔ)的手段。如果每一個(gè)詞串(n-gram)是一個(gè)短語(yǔ)，那么會(huì)有著更強(qiáng)的內(nèi)在關(guān)聯(lián)，同時(shí)它的關(guān)聯(lián)值肯定也會(huì)更高，并且一個(gè)短語(yǔ)是一個(gè)局部的結(jié)構(gòu)，在一個(gè)局部能表現(xiàn)出最優(yōu)的關(guān)聯(lián)程度，而在全局范圍內(nèi)可能會(huì)因?yàn)樗霈F(xiàn)的頻率太低等原因而表現(xiàn)不出在全局范圍內(nèi)有優(yōu)勢(shì)的關(guān)聯(lián)值來(lái)，所以當(dāng)一個(gè)詞串的關(guān)聯(lián)值在一個(gè)局部表現(xiàn)出最優(yōu)，那么可以認(rèn)為該詞串就是一個(gè)短語(yǔ)。例如，對(duì)于詞對(duì)(Bi-gram)<ice，cream>，在詞語(yǔ)“ice”和“cream”之間有很強(qiáng)的內(nèi)在關(guān)聯(lián)，但是對(duì)于詞對(duì)(Bi-gram)<the，in>，不能說(shuō)詞語(yǔ)“the”和“in”之間有很強(qiáng)的內(nèi)在關(guān)聯(lián)。假設(shè)函數(shù)S(.)可以衡量這種內(nèi)在關(guān)聯(lián)的大小。
假設(shè)一個(gè)詞串(n-gram)C(Chunk)包含的所有(n-1)-gram的集合用Ωn-1表示，而所有包含該詞串(n-gram) C的(n+1)-gram的集合用Ωn+1表示，假設(shè)關(guān)聯(lián)值S(.)越大，結(jié)果就越優(yōu)，則局部最優(yōu)算法可以表述如下算法2.1局部最優(yōu)算法x∈Ωn-1，y∈Ωn+1如果(length＝2 and S＞S(y))或者(length＞2 and S(x)＜＝Sand S＞S(y))則詞串C是一個(gè)短語(yǔ)。
其中l(wèi)ength表示詞串C所包含的詞語(yǔ)的個(gè)數(shù)。
(7)關(guān)聯(lián)值最優(yōu)過(guò)濾將剩下的候選多詞單元取其中關(guān)聯(lián)值最大的1項(xiàng)作為可能的目標(biāo)語(yǔ)言翻譯。
實(shí)施例以抽取“meat packing肉類/加工廠”為例來(lái)說(shuō)明整個(gè)算法的過(guò)程，選擇該雙語(yǔ)多詞單元的原因是它在語(yǔ)料庫(kù)中出現(xiàn)的頻率較低，只有一次，其他算法很容易漏掉。
(a)There is meat packing a big industry in your country？(b)在你們國(guó)家肉類加工廠是否算一門大型工業(yè)？該句對(duì)中各個(gè)詞語(yǔ)在語(yǔ)料庫(kù)中出現(xiàn)的頻次以及各個(gè)源語(yǔ)言詞匯和各個(gè)目標(biāo)語(yǔ)言詞匯在語(yǔ)料庫(kù)中共現(xiàn)的頻次如表1所示。
表1. 例句句對(duì)中各詞匯的頻次以及共現(xiàn)頻次

其中第二行是中文各詞匯在語(yǔ)料庫(kù)中出現(xiàn)的頻次，第二列是各英文單詞在語(yǔ)料庫(kù)中出現(xiàn)的頻次。
用公式(2)計(jì)算的每個(gè)源語(yǔ)言詞匯與它所有共現(xiàn)的單個(gè)目標(biāo)語(yǔ)言詞匯的互信息MI(S，T)如表2所示。S為源語(yǔ)言詞匯，T為目標(biāo)語(yǔ)言詞匯。
表2.“meat、packing、肉類、加工廠”四個(gè)詞語(yǔ)與其他詞語(yǔ)的共現(xiàn)概率

以“meat”和“packing”為源語(yǔ)言詞匯，所有可能由上面例句(a)和(b)所產(chǎn)生的中文多詞單元為目標(biāo)語(yǔ)言，其采用公式(4)計(jì)算得到的互信息的平均值為表3所示(為了節(jié)省篇幅，僅列出與“肉類/加工廠”有關(guān)的若干條記錄)。
表3.與“meat、packing”共現(xiàn)的目標(biāo)語(yǔ)言多詞單元的互信息平均值

以與“肉類/加工廠meat packing”有關(guān)的雙語(yǔ)詞串(n-gram)為例，其采用公式(7)和(8)計(jì)算得到的平均互信息的平均值A(chǔ)SAMI和平均互信息的歸一化差值NDAMI為表4所示。
表4雙語(yǔ)詞串(n-gram)的ASAMI和NDAMI

在基于該例句對(duì)生成的1980個(gè)雙語(yǔ)詞串(n-gram)中，平均互信息的平均值A(chǔ)SAMI和平均互信息的歸一化差值NDAMI同時(shí)滿足局部最優(yōu)算法的記錄如表5所示。
表5 ASAMI和NDAMI同時(shí)滿足局部最優(yōu)的雙語(yǔ)詞串(n-gram)

關(guān)聯(lián)度最優(yōu)過(guò)濾所得結(jié)果如表5中黑體字所示。
權(quán)利要求
1.種從雙語(yǔ)語(yǔ)料庫(kù)中抽取雙語(yǔ)多詞翻譯等價(jià)單元的方法，其特征在于，采用平均關(guān)聯(lián)度和關(guān)聯(lián)度的歸一化差值作為雙語(yǔ)多詞翻譯等價(jià)單元的關(guān)聯(lián)衡量標(biāo)準(zhǔn)；在對(duì)齊的過(guò)程中同時(shí)識(shí)別多詞單元。
2.如權(quán)利要求1所述的方法，其特征在于，該方法分為以下幾步a)語(yǔ)料預(yù)處理，包括英文的斷詞、詞形變換和中文分詞將英文標(biāo)點(diǎn)符號(hào)和單詞分開(kāi)，詞形變換，包括將動(dòng)詞的單數(shù)形式、分詞形式、過(guò)去式和過(guò)去分詞形式變換成動(dòng)詞原形，以及名詞的復(fù)數(shù)形式變換成名詞原形；將中文進(jìn)行分詞；b)通過(guò)統(tǒng)計(jì)共現(xiàn)頻率估計(jì)共現(xiàn)概率統(tǒng)計(jì)出所有詞對(duì)的共現(xiàn)頻次和每個(gè)詞匯的出現(xiàn)頻次后，以公式計(jì)算出它們的概率；c)計(jì)算單個(gè)源語(yǔ)言詞匯和單個(gè)目標(biāo)語(yǔ)言詞匯的關(guān)聯(lián)度用公式MI(X,Y)=logPr(X,Y)Pr(X)Pr(Y)]]>計(jì)算每個(gè)詞對(duì)的關(guān)聯(lián)度互信息MI(S，T)；其中Pr(X，Y)為X和Y的共現(xiàn)概率，Pr(X)和Pr(Y)分別為這兩個(gè)變量的出現(xiàn)概率；d)計(jì)算每個(gè)源語(yǔ)言詞匯和與其共現(xiàn)的目標(biāo)語(yǔ)言的詞串之間的平均關(guān)聯(lián)度運(yùn)用公式AMI(S,C)=1nΣi=1nMI(S,Wi)]]>計(jì)算單個(gè)源語(yǔ)言詞匯和目標(biāo)語(yǔ)言多詞單元之間的平均關(guān)聯(lián)度；e)計(jì)算每個(gè)目標(biāo)語(yǔ)言的詞串和與其共現(xiàn)的源語(yǔ)言的詞串之間的關(guān)聯(lián)值運(yùn)用公式ASAMI(H,C)=1mΣi=1mAMI(Si,C)]]>和NDAMI(H,C)=1m×ASAMI(H,C)Σi=1m|ASAMI(H,C)-AMI(Si,C)|]]>計(jì)算源語(yǔ)言多詞單元和目標(biāo)語(yǔ)言多詞單元之間的平均關(guān)聯(lián)度和歸一化關(guān)聯(lián)度差值；(6)應(yīng)用局部最優(yōu)算法針對(duì)每個(gè)源語(yǔ)言詞串利用局部最優(yōu)算法將其非局部最優(yōu)的候選目標(biāo)語(yǔ)言多詞單元排除掉，針對(duì)每個(gè)目標(biāo)語(yǔ)言詞串也運(yùn)用局部最優(yōu)算法做同樣的過(guò)濾；(7)關(guān)聯(lián)值最優(yōu)過(guò)濾將剩下的候選多詞單元取其中關(guān)聯(lián)值最大的一項(xiàng)作為可能的目標(biāo)語(yǔ)言翻譯出來(lái)。
3.如權(quán)利要求2所述的方法，其特征在于，第(3)步所述的互信息MI(X，Y)，表示的是兩個(gè)變量獨(dú)立的情況下，這兩個(gè)變量均出現(xiàn)1的事件的聯(lián)合概率的對(duì)數(shù)似然比。
4.如權(quán)利要求2所述的方法，其特征在于，第(6)步所述的局部最優(yōu)算法可以表述如下x∈Ωn-1，y∈Ωn+1如果(length(C)＝2 and S(C)＞S(y))或者(length(C)＞2 and S(x)＜＝S(C)and S(C)＞S(y))則詞串C是一個(gè)短語(yǔ)；其中l(wèi)ength(C)表示詞串C所包含的詞語(yǔ)的個(gè)數(shù)；其中，用Ωn-1表示所有(n-1)詞串的集合，Ωn+1表示所有(n+1)詞串的集合。
全文摘要
本發(fā)明涉及計(jì)算機(jī)自然語(yǔ)言處理技術(shù)，特別涉及一種從雙語(yǔ)句子對(duì)齊語(yǔ)料庫(kù)中自動(dòng)抽取雙語(yǔ)多詞翻譯等價(jià)單元的技術(shù)。本發(fā)明方法采用平均關(guān)聯(lián)度和關(guān)聯(lián)度的歸一化差值作為雙語(yǔ)多詞翻譯等價(jià)單元的關(guān)聯(lián)衡量標(biāo)準(zhǔn)；在對(duì)齊的過(guò)程中同時(shí)識(shí)別多詞單元。本發(fā)明方法的改進(jìn)使得算法能有效地同時(shí)抽取高頻和低頻雙語(yǔ)多詞翻譯等價(jià)單元，提高抽取的正確率和降低計(jì)算復(fù)雜度。
文檔編號(hào)G06F17/28GK1567297SQ03148989
公開(kāi)日2005年1月19日申請(qǐng)日期2003年7月3日優(yōu)先權(quán)日2003年7月3日
發(fā)明者杜利民, 陳博興申請(qǐng)人:中國(guó)科學(xué)院聲學(xué)研究所

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：杜利民、陳博興
技術(shù)所有人：中國(guó)科學(xué)院聲學(xué)研究所
我是此專利的發(fā)明人

上一篇：居住者用服務(wù)器、信息終端、管理中心及建筑物管理方法
上一篇：基于計(jì)算機(jī)的便攜式裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

英漢雙語(yǔ)平行語(yǔ)料庫(kù)相關(guān)技術(shù)

雙語(yǔ)平行語(yǔ)料庫(kù)相關(guān)技術(shù)

英漢雙語(yǔ)語(yǔ)料庫(kù)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種從雙語(yǔ)語(yǔ)料庫(kù)中自動(dòng)抽取多詞翻譯等價(jià)單元的方法