本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,更具體地,涉及一種基于錨點的增長式實時雙語詞對齊的對齊方法及對齊系統(tǒng)。
背景技術(shù):
機器翻譯是用計算機來實現(xiàn)不同語言之間的轉(zhuǎn)換。被翻譯的語言通常稱為源語言,翻譯成的結(jié)果語言稱為目標語言。機器翻譯就是實現(xiàn)從源語言到目標語言轉(zhuǎn)換的過程。詞對齊是統(tǒng)計機器翻譯的一項核心任務(wù),它從雙語平行語料中發(fā)掘互為翻譯的語言片斷,是翻譯知識的主要來源。簡而言之,詞對齊就是源語言句子中某個詞是由目標語言中哪個詞翻譯而來的。如圖1所示,一個詞可以被翻譯為一個或多個詞,甚至不被翻譯。在實踐中,一部分錯誤的翻譯規(guī)則因詞對齊錯誤而觸發(fā),因而進一步影響最終機器翻譯譯文質(zhì)量。
在實踐中,經(jīng)典的詞對齊方法包括IBM模型1到5和隱馬爾可夫詞對齊方法,可參見文獻(Brown,Peter F.,Stephen A.Della Pietra,Vincent J.Della Pietra,and Robert L.Mercer.1993.The mathematics of statistical machine translation:Parameter estimation.Computational Linguistics,19(2):263–311.;Vogel,S.,Ney,H.,Tillmann,C..1996.HMM-based word alignment in statistical translation.In:Proceedings of the 16th conference on Computational linguistics.vol.2,pp.836–841)。經(jīng)典的詞對齊方法在離線訓(xùn)練場景中的性能比較優(yōu)越,已得到很多工具的支持,如廣泛使用的GIZA++等。
在人工翻譯場景中,專業(yè)譯員不斷地產(chǎn)生新的雙語平行句對,而且要求統(tǒng)計機器翻譯系統(tǒng)能實時地學(xué)習(xí)新的翻譯知識,所以必然要求詞對齊模型也能盡快學(xué)習(xí)到新的詞語翻譯知識,從而不斷降低詞對齊錯誤率。由于傳統(tǒng)的詞對齊方法用于大規(guī)模語料的離線訓(xùn)練周期較長,不利于統(tǒng)計機器翻譯系統(tǒng)實時學(xué)習(xí)翻譯知識。
然而,當前的增長式雙語詞對齊性能并沒有達到能直接用于統(tǒng)計機器翻譯實時學(xué)習(xí)新翻譯知識的水平。其主要原因為如下三點:(1)對新詞處理能力較弱;(2)長句子詞對齊錯誤率較高;(3)大規(guī)模語料的訓(xùn)練周期仍然較長;(4)未充分利用置信度較高的先驗知識。如果直接將先驗知識作為詞對齊的約束,并不能帶來性能的提升,還需要改進現(xiàn)有增長式雙語詞對齊算法。因此,研究如何利用先驗知識,大幅減少增長式雙語詞對齊的訓(xùn)練時間,同時明顯降低新詞和長句的雙語詞對齊的錯誤率,并提高最終的機器翻譯譯文質(zhì)量是迫切需要解決的一個難題。
技術(shù)實現(xiàn)要素:
為了解決現(xiàn)有技術(shù)中的上述問題,即為了解決降低新詞和長句的雙語詞對齊的錯誤率,并提高最終的機器翻譯譯文質(zhì)量的問題,本發(fā)明提供了一種基于錨點的增長式實時雙語詞對齊的對齊方法。
實現(xiàn)上述目的,本發(fā)明提供了如下方案:
一種基于錨點的增長式實時雙語詞對齊的對齊方法,所述對齊方法包括:
對一對源語言句子和目標語言句子進行分詞處理,獲得源語言詞組和目標語言詞組;
根據(jù)所述源語言詞組和目標語言詞組確定探測錨點集合;
根據(jù)所述探測錨點集合,對源語言詞組和目標語言詞組進行雙語短語切分,得到雙語短語切分候選集合;
根據(jù)所述雙語短語切分候選集合和詞對齊模型,確定所述源語言詞組和目標語言詞組的對齊雙語詞;
將所述源語言詞組、目標語言詞組及對齊雙語詞添加到批處理訓(xùn)練集中,判斷當前的批處理訓(xùn)練集的大小是否超過設(shè)定閾值,如果是則根據(jù)當前的批處理訓(xùn)練集更新詞對齊模型;否則重復(fù)上述步驟,直至完成全部源語言句子和目標語言句子的處理。
可選的,所述確定探測錨點集合的方法包括:
步驟S21:根據(jù)所述源語言詞組、目標語言詞組計算任意源語言詞與目標語言詞之間的互信息;
步驟S22:將最大互信息值對應(yīng)的源語言詞和目標語言詞或者根據(jù)先驗知識確定的源語言詞和目標語言詞標為錨點,多個錨點形成對齊描點集合;
步驟S23:標記所述錨點對應(yīng)的源語言句子詞的下標為橫坐標,將橫坐標所在行的所有互信息替換為最小互信息值;標記所述錨點對應(yīng)的目標語言句子詞的下標為縱坐標,將縱坐標對應(yīng)列的所有互信息替換為最小互信息值;
步驟S24:從所述對齊描點集合中篩選出相鄰錨點的橫坐標或者縱坐標之間的最大距離未超過距離閾值的錨點為啟用錨點,多個啟用錨點形成探測錨點集合,超過距離閾值的錨點為禁用錨點。
可選的,在步驟S22之前,所述確定探測錨點集合的方法還包括:
初始化對齊描點集合,使得所述對齊描點集合為空集。
可選的,所述先驗知識包括領(lǐng)域詞典、領(lǐng)域術(shù)語庫及專家總結(jié)的雙語詞對齊規(guī)則中至少一者。
可選的,所述對源語言詞組和目標語言詞組進行雙語短語切分的方法包括:
逐一遍歷所述探測錨點集合中的每個啟用錨點,以設(shè)定位置的啟用錨點為中心,在滿足雙語短語擴展的約束條件下,從源語言句子端和目標語言句子端分別向左右兩邊擴展,獲得多個雙語短語切分候選,形成雙語短語切分候選集合。
可選的,所述雙語短語擴展的約束條件為在擴展時當前雙語短語不能跨越啟用錨點,能跨越禁用錨點;且源語言句子端和目標語言句子端均不能超過距離閾值。
可選的,所述確定所述源語言詞組和目標語言詞組的對齊雙語詞的方法包括:
采用動態(tài)規(guī)劃算法搜索最佳的雙語短語切分候選,并通過詞對齊模型搜索雙語短語切分候選內(nèi)部對齊得到對齊雙語詞。
可選的,所述根據(jù)當前的批處理訓(xùn)練集更新詞對齊模型的方法包括:
隨機抽樣一批對齊雙語詞作為初始化訓(xùn)練數(shù)據(jù),并訓(xùn)練得到雙語短語翻譯對當前的詞對齊模型的狀態(tài)跳轉(zhuǎn)概率和詞翻譯概率;
更新共現(xiàn)次數(shù)小于設(shè)定次數(shù)的源語言詞和目標語言詞的翻譯概率。
根據(jù)本發(fā)明的實施例,本發(fā)明公開了以下技術(shù)效果:
本發(fā)明基于錨點的增長式實時雙語詞對齊的對齊方法通過對源語言句子和目標語言句子分詞、確定探測錨點集合,進而根據(jù)探測錨點集合確定雙語短語切分候選集合,通過引入雙語短語切分候選可有效降低新詞的詞對齊錯誤率,從而提高翻譯規(guī)則抽取的準確率,最終提高機器翻譯譯文質(zhì)量。
為了解決現(xiàn)有技術(shù)中的上述問題,即為了解決降低新詞和長句的雙語詞對齊的錯誤率,并提高最終的機器翻譯譯文質(zhì)量的問題,本發(fā)明提供了一種基于錨點的增長式實時雙語詞對齊的對齊系統(tǒng)。
實現(xiàn)上述目的,本發(fā)明提供了如下方案:
一種基于錨點的增長式實時雙語詞對齊的對齊系統(tǒng),所述對齊系統(tǒng)包括:
分詞模塊,用于對一對源語言句子和目標語言句子進行分詞處理,獲得源語言詞組和目標語言詞組;
集合確定模塊,用于根據(jù)所述源語言詞組和目標語言詞組確定探測錨點集合;
短語切分模塊,用于根據(jù)所述探測錨點集合,對所述源語言詞組和目標語言詞組進行雙語短語切分,得到雙語短語切分候選集合;
對齊模塊,用于根據(jù)所述雙語短語切分候選集合和詞對齊模型,確定所述源語言詞組和目標語言詞組的對齊雙語詞;
判斷模塊,分別所述對齊模塊和分詞模塊連接,用于將所述源語言詞組、目標語言詞組及對齊雙語詞添加到批處理訓(xùn)練集中,判斷當前的批處理訓(xùn)練集的大小是否超過設(shè)定閾值;
更新模塊,用于在所述判斷模塊的判斷結(jié)果為是時,根據(jù)當前的批處理訓(xùn)練集更新詞對齊模型;所述分詞模塊還用于在所述判斷模塊的判斷結(jié)果為否時,對其他對的源語言句子和目標語言句子進行分詞處理。
可選的,所述集合確定模塊包括:
計算單元,用于根據(jù)所述源語言詞組、目標語言詞組計算任意源語言詞與目標語言詞之間的互信息;
對齊描點集合確定單元,用于將最大互信息值對應(yīng)的源語言詞和目標語言詞或者先驗知識確定的源語言詞和目標語言詞標為錨點,多個錨點形成對齊描點集合;
標記單元,用于標記所述錨點對應(yīng)的源語言句子詞的下標為橫坐標,標記所述錨點對應(yīng)的目標語言句子詞的下標為縱坐標;
替換單元,用于將橫坐標所在行的所有互信息替換為最小互信息值,將縱坐標對應(yīng)列的所有互信息替換為最小互信息值;
篩選單元,用于從所述對齊描點集合中篩選出相鄰錨點的橫坐標或者縱坐標之間的最大距離未超過距離閾值的錨點為啟用錨點,多個啟用錨點形成探測錨點集合,超過距離閾值的錨點為禁用錨點。
根據(jù)本發(fā)明的實施例,本發(fā)明公開了以下技術(shù)效果:
本發(fā)明基于錨點的增長式實時雙語詞對齊的對齊裝置通過設(shè)置分詞模塊對對源語言句子和目標語言句子分詞處理,設(shè)置集合確定模塊確定探測錨點集合,進而通過設(shè)置短語切分模塊根據(jù)探測錨點集合確定雙語短語切分候選集合,通過引入雙語短語切分候選可有效降低新詞的詞對齊錯誤率,從而提高翻譯規(guī)則抽取的準確率,最終提高機器翻譯譯文質(zhì)量。
附圖說明
圖1是詞對齊的一個實例示意圖;
圖2是本發(fā)明基于錨點的增長式實時雙語詞對齊的對齊方法的流程圖;
圖3是本發(fā)明中的獲得對齊錨點集合的示意圖;
圖4是本發(fā)明中進行雙語短語切分和詞對齊的示意圖;
圖5是本發(fā)明基于錨點的增長式實時雙語詞對齊的對齊系統(tǒng)的結(jié)構(gòu)示意圖。
符號說明:
分詞模塊—1,集合確定模塊—2,短語切分模塊—3,對齊模塊—4,判斷模塊—5,更新模塊—6。
具體實施方式
下面參照附圖來描述本發(fā)明的優(yōu)選實施方式。本領(lǐng)域技術(shù)人員應(yīng)當理解的是,這些實施方式僅僅用于解釋本發(fā)明的技術(shù)原理,并非旨在限制本發(fā)明的保護范圍。
如圖2所示,本發(fā)明基于錨點的增長式實時雙語詞對齊的對齊方法包括:
步驟100:對一對源語言句子和目標語言句子進行分詞處理,獲得源語言詞組和目標語言詞組;
步驟200:根據(jù)所述源語言詞組和目標語言詞組確定探測錨點集合;
步驟300:根據(jù)所述探測錨點集合,對源語言詞組和目標語言詞組進行雙語短語切分,得到雙語短語切分候選集合;
步驟400:根據(jù)所述雙語短語切分候選集合和詞對齊模型,確定所述源語言詞組和目標語言詞組的對齊雙語詞;
步驟500:將所述源語言詞組、目標語言詞組及對齊雙語詞添加到批處理訓(xùn)練集中;
步驟600:判斷當前的批處理訓(xùn)練集的大小是否超過設(shè)定閾值,如果是則執(zhí)行步驟700;否則重復(fù)上述步驟,直至完成全部源語言句子和目標語言句子的處理;
步驟700:根據(jù)當前的批處理訓(xùn)練集更新詞對齊模型。
通過上述步驟得到:
源語言句子其中J為源語言句子的詞數(shù),sj為源語言句子的第j個詞;
目標語言句子其中I為目標語言句子的詞數(shù),ti為目標語言句子的第i個詞;
原始錨點集合其中hm=(j,i)表示源語言第j個詞與目標語言第i個詞構(gòu)成的第m個對齊錨點,共M個錨點;
探測錨點集合通過禁用部分錨點得到,是原始錨點集合的真子集,一次探測中,共N個錨點;
雙語句子短語切分D=d1d2...dN,dn=(s.start,s.end,t.start,t.end,pan)指第n個雙語短語,s.start,s.end,t.start,t.end分別指源短語的起始下標、源短語的終止下標、目標短語的起始下標和目標短語的終止下標,pan為短語內(nèi)雙語詞對齊;
雙語短語詞對齊pa=a1a2...alen(pa),aj={i|a(j)=i},其中a(j)=i指源語言短語第j個詞與目標語言短語的第i個詞對應(yīng),i可能有多個不同的值;
雙語句子詞對齊A=pa1pa2...paN,其中N指短語切分的數(shù)量;
最終雙語句子詞對齊A*,最終錨點集合H*和最終短語劃分D*。
利用上述符號,本發(fā)明的核心思想可形式化為如下模型:
由公式(1)可知,本發(fā)明將錨點探測、雙語短語切分和短語內(nèi)部詞對齊融合在一起同時執(zhí)行,在理論上避免了已有方法結(jié)合先驗知識、長句對齊和新詞處理存在錯誤相互傳遞的缺點。因為已有方法一般是獨立進行先驗知識的融合、長句切分成子句和新詞處理,考慮到每個環(huán)節(jié)均可能引入錯誤而且會傳遞到下一階段,最后造成詞對齊性能明顯下降。在公式(1)中,P(dn.s,dn.pa|dn.t)為雙語短語詞對齊模型。
例如,假設(shè)源語言句子S:
The Netherlands agrees with the commission that domestic violence affects women disproportionately.
目標語言句子t:
荷蘭同意平等待遇委員會的看法,即家庭暴力對婦女影響特別大。
通過分詞處理,通過空格隔開相鄰詞:
其中,在步驟200中所述確定探測錨點集合的方法包括:
步驟210:根據(jù)所述源語言詞組、目標語言詞組計算任意源語言詞與目標語言詞之間的互信息。
具體的,源語言詞組s與目標語言詞組t之間的互信息可由下述公式計算得到:
其中,P(s,t)指源語言詞與目標語言詞的共現(xiàn)頻率:
count(.)表示出現(xiàn)次數(shù),P(s)和P(t)分別表示源語言詞和目標語言詞出現(xiàn)頻率。
本實施例中,詞之間的互信息計算結(jié)果如圖3所示?;バ畔⒖梢院饬績蓚€變量之間相互依賴的強度。因此,一些互為翻譯之間的詞的互信息值相對較大,單元格的互信息值越大,對應(yīng)詞之間互為翻譯的可能性也越大。如果源語言詞和目標語言詞都是首次出現(xiàn),則相關(guān)互信息值則會明顯超過周圍單元格的值。
步驟220:將最大互信息值對應(yīng)的源語言詞和目標語言詞或者根據(jù)先驗知識確定的源語言詞和目標語言詞標為錨點h=(j,i),多個錨點形成對齊描點集合H。
優(yōu)選地,在確定錨點之前,初始化對齊描點集合,使得所述對齊描點集合為空集,即H={}。
在所述錨點h=(j,i)添加到到所述對齊描點集合后,所述對齊描點集合為其中hm=(j,i)表示源語言第j個詞與目標語言第i個詞構(gòu)成的第m個對齊錨點,共M個錨點。
本實施例中,最大的互信息值MI(“netherlands”,“荷蘭”)=8,則可以將“netherlands”與“荷蘭”作為對齊錨點。
所述先驗知識包括:(1)領(lǐng)域詞典;(2)領(lǐng)域術(shù)語庫;(3)專家總結(jié)的雙語詞對齊規(guī)則中至少一者。例如,可以根據(jù)詞典查詢到第一次出現(xiàn)的英語單詞“disproportionately”的中文詞為“特別大”,則可以將“disproportionately”和“特別”或者“大”作為詞對齊錨點,則將MI(“disproportionately”,“特別”)或者MI(“disproportionately”,“大”)設(shè)置為8。
步驟230:標記所述錨點對應(yīng)的源語言句子詞的下標為橫坐標,將橫坐標所在行的所有互信息替換為最小互信息值;標記所述錨點對應(yīng)的目標語言句子詞的下標為縱坐標,將縱坐標對應(yīng)列的所有互信息替換為最小互信息值。
在本實施例中,如步驟220所示,“netherlands”與“荷蘭”被確定為錨點后,源語言句子詞“netherlands”的下標為2,目標語言句子詞“荷蘭”的下標為1,因此第一個錨點為h1=(2,1),然后將其添加到到錨點集合H中。
在實施例中,最小的互信息值MI(“commission”,“家庭”)=-3,因此將h1添加到錨點集合后,令所有MI(“netherlands”,*)和MI(*,“荷蘭”)的值為-3。
步驟S240:從所述對齊描點集合中篩選出相鄰錨點的橫坐標或者縱坐標之間的最大距離未超過距離閾值的錨點為啟用錨點,多個啟用錨點形成探測錨點集合,超過距離閾值的錨點為禁用錨點。
探測錨點集合通過禁用部分錨點得到,是對齊錨點集合的真子集,一次探測中,共N個錨點。
本實施例中,最大距離域值為7,因此最終可以確定6個錨點,分別為:(“netherlands”,“荷蘭”)、(“agrees”,“同意”)、(“violence”,“暴力”)、(“affects”,“影響”)、(“women”,“婦女”)和(“commission”,“委員會”)。
可選的,在步驟300中,所述對源語言詞組和目標語言詞組進行雙語短語切分的方法包括:
逐一遍歷所述探測錨點集合中的每個啟用錨點,以設(shè)定位置的啟用錨點為中心,在滿足雙語短語擴展的約束條件下,從源語言句子端和目標語言句子端分別向左右兩邊擴展,獲得多個雙語短語切分候選,形成雙語短語切分候選集合。
其中,所述雙語短語擴展的約束條件為在擴展時當前雙語短語不能跨越啟用錨點,能跨越禁用錨點;且源語言句子端和目標語言句子端均不能超過距離閾值。
在本實施例中,如圖4所示,具體執(zhí)行步驟為:逐一遍歷探測錨點集合中的每個啟用錨點,如H2={9,11},則以該啟用錨點為中心,在滿足雙語短語擴展約束的條件下,從源語言句子端和目標語言句子端分別向左右兩邊擴展,形成一個雙語短語切分候選d3=(8,9,9,11,pa3)。如圖4中從左上角到右下角首尾連接的框,表示當前短語切分集合D包含四個雙語短語切分候選:D={(1,2,1,1,pa1),(3,7,2,8,pa2),(8,9,9,11,pa3),(10,12,12,16,pa4)}。
短語擴展時,為了避免因錨點錯誤造成的錯誤傳遞,在探測過程中,每個錨點有啟用(如圖4中的雙星號)和禁用(如圖4中的錯號)兩種狀態(tài)。在相鄰兩個錨點之間的距離小于距離閾值時,該錨點可以被禁用。在一次探測過程中,被啟用的錨點組成探測錨點集合
本實施例中的距離閾值為7,根據(jù)雙語短語擴展的約束條件,如圖4中的A區(qū)域所示為可以跨越已被禁用的錨點,短語擴展時,跨越了被禁用的錨點(3,2)。
進一步地,在步驟400中,所述確定所述源語言詞組和目標語言詞組的對齊雙語詞的方法包括:
采用動態(tài)規(guī)劃算法搜索最佳的雙語短語切分候選,并通過詞對齊模型搜索雙語短語切分候選內(nèi)部對齊得到對齊雙語詞。
在本實施例中,所述基本詞對齊模型采用隱馬爾可夫詞對齊模型,模型細節(jié)參見文獻(Vogel,S.,Ney,H.,Tillmann,C.:HMM-based word alignment in statistical translation.In:Proceedings of the 16th conference on Computational linguistics.vol.2,pp.836–841(1996))。隱馬爾可夫詞對齊模型假設(shè):就短語內(nèi)的詞對齊而言,對于源語言短語位置j,對位aj的概率對它前一個詞的對位aj-1具有一定的依賴性,即存在概率P(aj|aj-1,I)。因此,短語內(nèi)部原始的隱馬爾可夫詞對齊模型可以表示為:
其中,I′和J′分別表示目標語言短語和源語言短語的長度。
原始馬爾可夫模型的初始狀態(tài)為a0=0,即源語言短語起始符對位目標語言短語起始符。
本發(fā)明與原始馬爾可夫詞對齊模型的不同之處在于,起始狀態(tài)為詞對齊錨點,如圖4的(A)中的錨點“commission”與“委員會”對應(yīng)的(6,5)。因此,本發(fā)明涉及的隱馬爾可夫模型如圖4的(B)中所示:豎排的空心圓點表示隱馬爾可夫模型的內(nèi)部狀態(tài)序列,即中文短語對齊位置;實心點表示錨點,也是初始狀態(tài),即英文短語第4個詞與中文短語第4個詞,而錨點兩邊的詞對齊直接依賴于短語切分中心的對齊錨點。
本發(fā)明的隱馬爾可夫詞對齊模型可以表示為:
圖4中(A)部分對應(yīng)的短語詞對齊結(jié)果為:(已簡化記號)
A={荷蘭{netherlands}同意{agrees}平等{}委員會{commission}的{}看法{with},{that}即{}家庭{domestic}暴力{violence}對{}婦女{women}影響{affects}特別{disproportionately}大{disproportionately}};
D={(the netherlands,荷蘭{2}),(agrees with the commission that,同意{1}平等{}待遇{}委員會{4}的{}看法{2},{5}),(domestic violence,即{}家庭{1}暴力{2}),(affects women disproportionately,對{}婦女{2}影響{1}特別{3}大{3})}。
本實施例中,最終對齊結(jié)果為:(已簡化記號)
A*={荷蘭{netherlands}同意{agrees}平等{}委員會{commission}的{}看法{with},{that}即{that}家庭{domestic}暴力{violence}對{}婦女{women}影響{affects}特別{disproportionately}大{disproportionately}};
H*={(2,1),(6,5),(9,11),(11,13)};
D*={(the netherlands,荷蘭{2}),(agrees with the commission,同意{1}平等{}待遇{}委員會{4}的{}看法{2},{5}),(that domestic violence,,{1}即{1}家庭{2}暴力{3}),(affects women disproportionately,對{}婦女{2}影響{1}特別{3}大{3})}。
所述根據(jù)當前的批處理訓(xùn)練集更新詞對齊模型的方法包括:
隨機抽樣一批對齊雙語詞作為初始化訓(xùn)練數(shù)據(jù),并訓(xùn)練得到雙語短語翻譯對當前的詞對齊模型的狀態(tài)跳轉(zhuǎn)概率和詞翻譯概率;
更新共現(xiàn)次數(shù)小于設(shè)定次數(shù)的源語言詞和目標語言詞的翻譯概率。
以更新隱馬爾可夫模型為例,具體步驟包括:
(1)初始化:利用現(xiàn)有詞對齊模型的跳轉(zhuǎn)概率aij和發(fā)射概率bj(k):
其中,N為隱馬爾可夫模型中狀態(tài)的數(shù)目(本實施例中取值為8),M為每個狀態(tài)可能輸出的不同符號的數(shù)目,即源語言詞的數(shù)目。
(2)迭代計算:
(2.1)由下列公式分別計算期望值ξt(i,j)和γt(i)。
給定隱馬爾可夫模型的參數(shù)μ和觀察序列O=O1O2...OT,在時間t位置狀態(tài)si的概率ξt(i,j)=P(qt=si,qt+1=sj|O,μ)(1≤t≤T,1≤i,j≤N)可以由下面的公式計算獲得:
給定隱馬爾可夫模型的參數(shù)μ和觀察序列O=O1O2...OT,在時間t位于狀態(tài)si的概率γt(i)可以由下面的公式計算獲得:
其中,αt(i)是在時間t,隱馬爾可夫模型輸出了序列O=O1O2...Ot,并且位于狀態(tài)si的概率:
αt(i)=P(O1O2...Ot,qt=si|μ) (10);
βt(i)是在時間t狀態(tài)為si的條件下,隱馬爾可夫模型輸出序列O=Ot+1Ot+2...OT的概率:
βt(i)=P(Ot+1Ot+2…OT|qt=si,μ) (11);
(2.2)根據(jù)步驟(2.1)得到的期望值,根據(jù)下列公式重新估計參數(shù)aij和bj(k):
其中,υk表示輸出第k個符號即源語言單詞,δ(x,y)為克羅奈克函數(shù),當x=y(tǒng)時,δ(x,y)=1,否則δ(x,y)=0。
(3)循環(huán)計算,令i=i+1。重復(fù)執(zhí)行(2),直到aij和bj(k)收斂。
進一步地,隨機抽樣一批雙語句對(本實例中為500000句)作為初始化訓(xùn)練數(shù)據(jù),并訓(xùn)練得到雙語短語翻譯對當前的詞對齊模型(例如,內(nèi)部的隱馬爾可夫模型)的狀態(tài)跳轉(zhuǎn)概率和詞翻譯概率;在后續(xù)增量詞對齊模型時,不再更新狀態(tài)跳轉(zhuǎn)概率,同時不再更新源語言詞和目標詞出現(xiàn)次數(shù)共同出現(xiàn)次數(shù)超過次數(shù)閾值次的詞翻譯概率,即僅更新共現(xiàn)次數(shù)小于次數(shù)閾值的源語言詞和目標語言詞的翻譯概率。在本實施例中,所述次數(shù)閾值為30。
通過上述技術(shù)方案可知,本發(fā)明基于錨點的增長式實時雙語詞對齊的對齊方法具有如下的積極效果:
(1)由于新增加的平行句對中可能出現(xiàn)新詞,因此利用互信息、領(lǐng)域詞典等先驗知識作為雙語詞對齊的起點,有利于降低新詞的詞對齊錯誤率。從而提高翻譯規(guī)則抽取的準確率,最終提高機器翻譯譯文質(zhì)量;
(2)通過先進行雙語短語切分,再搜索短語內(nèi)部詞對齊,有效降低長句的雙語詞對齊錯誤率;
(3)在一次批處理更新周期內(nèi),僅更新出現(xiàn)次數(shù)小于詞更新閾值的源語言詞和目標語言詞的翻譯概率,有利于大幅降低訓(xùn)練周期,滿足增長式實時雙語詞對齊的要求。
本發(fā)明也能夠利用先驗知識生成詞對齊錨點,有效降低新詞和長句的詞對齊錯誤率,同時降低了增量式詞對齊的時間復(fù)雜度,有效提升了增長式實時詞對齊的可用性。通過英中軟件本地化翻譯實驗,結(jié)果表明,相對于已有的詞對齊方法,本發(fā)明在詞對齊F值的提高多于4.1個百分點;整體翻譯質(zhì)量方面,絕對TER值降低1.53個百分點。效果提升較為明顯。
其中,F(xiàn)值一個統(tǒng)計學(xué)概念,F(xiàn)值=2×(準確率×召回率)/(準確率+召回率);TER是一個雙語評測替代指標。
此外,本發(fā)明還提供一種基于錨點的增長式實時雙語詞對齊的對齊系統(tǒng)如圖5所示,本發(fā)明基于錨點的增長式實時雙語詞對齊的對齊系統(tǒng)包括分詞模塊1、集合確定模塊2、短語切分模塊3、對齊模塊4、判斷模塊5及更新模塊6。
其中,所述分詞模塊1用于對一對源語言句子和目標語言句子進行分詞處理,獲得源語言詞組和目標語言詞組;所述集合確定模塊2,用于根據(jù)所述源語言詞組和目標語言詞組確定探測錨點集合;所述短語切分模塊3用于根據(jù)所述探測錨點集合,對所述源語言詞組和目標語言詞組進行雙語短語切分,得到雙語短語切分候選集合;所述對齊模塊4用于根據(jù)所述雙語短語切分候選集合和詞對齊模型,確定所述源語言詞組和目標語言詞組的對齊雙語詞;所述判斷模塊5分別所述對齊模塊和分詞模塊連接,用于將所述源語言詞組、目標語言詞組及對齊雙語詞添加到批處理訓(xùn)練集中,判斷當前的批處理訓(xùn)練集的大小是否超過設(shè)定閾值;所述更新模塊6用于在所述判斷模塊的判斷結(jié)果為是時,根據(jù)當前的批處理訓(xùn)練集更新詞對齊模型。
進一步地,所述分詞模塊1還用于在所述判斷模塊的判斷結(jié)果為否時,對其他對的源語言句子和目標語言句子進行分詞處理。
優(yōu)選地,所述集合確定模塊2包括計算單元、對齊描點集合確定單元、標記單元、替換單元及篩選單元。
其中,所述計算單元用于根據(jù)所述源語言詞組、目標語言詞組計算任意源語言詞與目標語言詞之間的互信息;所述對齊描點集合確定單元,用于將最大互信息值對應(yīng)的源語言詞和目標語言詞或者先驗知識確定的源語言詞和目標語言詞標為錨點,多個錨點形成對齊描點集合;所述標記單元用于標記所述錨點對應(yīng)的源語言句子詞的下標為橫坐標,標記所述錨點對應(yīng)的目標語言句子詞的下標為縱坐標;所述替換單元用于將橫坐標所在行的所有互信息替換為最小互信息值,將縱坐標對應(yīng)列的所有互信息替換為最小互信息值;所述篩選單元,用于從所述對齊描點集合中篩選出相鄰錨點的橫坐標或者縱坐標之間的最大距離未超過距離閾值的錨點為啟用錨點,多個啟用錨點形成探測錨點集合,超過距離閾值的錨點為禁用錨點。
其中,所述先驗知識包括領(lǐng)域詞典、領(lǐng)域術(shù)語庫及專家總結(jié)的雙語詞對齊規(guī)則中至少一者。
所述短語切分模塊3對所述源語言詞組和目標語言詞組進行雙語短語切分具體包括逐一遍歷所述探測錨點集合中的每個啟用錨點,以設(shè)定位置的啟用錨點為中心,在滿足雙語短語擴展的約束條件下,從源語言句子端和目標語言句子端分別向左右兩邊擴展,獲得多個雙語短語切分候選,形成雙語短語切分候選集合。
所述雙語短語擴展的約束條件為在擴展時當前雙語短語不能跨越啟用錨點,能跨越禁用錨點;且源語言句子端和目標語言句子端均不能超過距離閾值。
所述對齊單元4確定所述源語言詞組和目標語言詞組的對齊雙語詞的方法包括:采用動態(tài)規(guī)劃算法搜索最佳的雙語短語切分候選,并通過詞對齊模型搜索雙語短語切分候選內(nèi)部對齊得到對齊雙語詞。
相對于現(xiàn)有技術(shù),本發(fā)明基于錨點的增長式實時雙語詞對齊的對齊系統(tǒng)與上述基于錨點的增長式實時雙語詞對齊的對齊方法的有益效果相同,在此不再贅述。
至此,已經(jīng)結(jié)合附圖所示的優(yōu)選實施方式描述了本發(fā)明的技術(shù)方案,但是,本領(lǐng)域技術(shù)人員容易理解的是,本發(fā)明的保護范圍顯然不局限于這些具體實施方式。在不偏離本發(fā)明的原理的前提下,本領(lǐng)域技術(shù)人員可以對相關(guān)技術(shù)特征作出等同的更改或替換,這些更改或替換之后的技術(shù)方案都將落入本發(fā)明的保護范圍之內(nèi)。