亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

人機交互翻譯模型的更新方法及更新系統(tǒng)與流程

文檔序號:11519622閱讀:330來源:國知局
人機交互翻譯模型的更新方法及更新系統(tǒng)與流程

本發(fā)明涉及自然語言處理技術領域,更具體地,涉及一種人機交互翻譯模型的更新方法及更新系統(tǒng)。



背景技術:

機器翻譯是用計算機來實現(xiàn)不同語言之間的轉換。被翻譯的語言通常稱為源語言,翻譯成的結果語言稱為目標語言。機器翻譯就是實現(xiàn)從源語言到目標語言轉換的過程。近年來,統(tǒng)計機器翻譯的研究發(fā)展迅速,翻譯性能不斷提高,在某些特定領域和環(huán)境下已經開始投入實際應用。但是,基于翻譯記憶的計算機輔助翻譯軟件仍然獨霸專業(yè)翻譯市場,最多只是簡單地把統(tǒng)計機器翻譯結果加到輔助翻譯軟件界面提供參考。這是因為在特定領域中,如果待翻譯文本與記憶庫中的文本匹配程度很高時,翻譯記憶實時更新且譯文質量明顯優(yōu)于統(tǒng)計機器翻譯的譯文,而統(tǒng)計機器翻譯一直重復相同錯誤。很多時候,專業(yè)譯員甚至不想花費時間閱讀自動譯文。在這種情況下,統(tǒng)計機器翻譯的作用極其有限。

如圖1所示,某些短語會被機器翻譯錯誤地翻譯,如果不及時糾正,在將來會重復出現(xiàn)相同的錯誤。如何避免機器翻譯重復相同錯誤是統(tǒng)計機器翻譯的一個重要問題,因而實時更新人機交互翻譯模型是統(tǒng)計機器翻譯的一項核心任務,它從用戶反饋的人工翻譯句子中發(fā)掘新的翻譯知識,并實時更新翻譯模型,最終得到質量更好的自動譯文。簡而言之,實時更新人機交互翻譯模型就是利用人工翻譯句子實時改進后續(xù)自動譯文以盡可能避免重復相同錯誤。

然而,當前實時更新人機交互翻譯模型的方向并沒有達到能直接用于生產環(huán)境的水平。傳統(tǒng)基于緩存即外掛動態(tài)短語翻譯表的方法隨著反饋數(shù)據(jù)的增加,因難以與原有模型數(shù)據(jù)融合而出現(xiàn)較大偏差。其主要原因為如下兩點:(1)傳統(tǒng)翻譯模型(如圖2所示,第1列為源語言短語,第2列為目標語言短語,第3列分別是正向短語翻譯概率、反向短語翻譯概率、正向詞匯化翻譯概率、反正詞匯化翻譯概率;第4列為詞對齊信息)一般基于生成式方法,各類翻譯概率均為全局參數(shù),局部更新的代價較高;(2)用戶反饋的人工翻譯句子會引入噪聲數(shù)據(jù),傳統(tǒng)方法對抗噪聲的能力較弱,因不能及時移除噪聲數(shù)據(jù)而降低糾錯效果。所以,如果直接將抽取出的翻譯知識加入翻譯模型的外掛動態(tài)短語翻譯表的方法,并不能帶來性能的提升。因此,研究如何將人工翻譯句子中的翻譯知識實時更新至人機交互翻譯模型,并改善后續(xù)機器翻譯譯文質量是迫切需要解決的一個難題。



技術實現(xiàn)要素:

為了解決現(xiàn)有技術中的上述問題,即為了解決人工翻譯句子中的翻譯知識實時更新至人機交互翻譯模型,并改善后續(xù)機器翻譯譯文質量的問題,本發(fā)明提供了一種人機交互翻譯模型的更新方法。

為實現(xiàn)上述目的,本發(fā)明提供了如下方案:

一種人機交互翻譯模型的更新方法,所述更新方法包括:

接收根據(jù)源語言句子進行人工翻譯得到的目標語言句子;

分別對目標語言句子及所述源語言句子進行分詞處理,獲得目標語言詞組及源語言詞組;

根據(jù)所述目標語言詞組及源語言詞組獲得雙語詞對齊信息;

從所述雙語詞對齊信息中抽取短語翻譯知識;

根據(jù)短語翻譯知識,逐對更新源語言短語對應的翻譯模型隨機森林。

可選的,所述抽取短語翻譯知識的方法包括:

在所述目標語言詞組中,確定所有的對齊點;

遍歷所述目標語言詞組中所有可能的目標語言短語,搜索分別與各所述目標語言短語中相匹配的源語言短語;

找出對應的最短的源語言短語。

可選的,所述逐對更新源語言短語對應的翻譯模型隨機森林的方法包括:

步驟s51:根據(jù)所述短語翻譯對中的源語言短語構建所述源語言短語對應的隨機森林中的一棵決策樹;

步驟s52:根據(jù)所述決策樹獨立生成重復采樣次數(shù);

步驟s53:判斷所述重復采樣次數(shù)是否為零,如果是則執(zhí)行步驟s58;否則執(zhí)行步驟s54;

步驟s54:根據(jù)所述上下文特征信息找到需要更新的所述決策樹的葉節(jié)點,結合所述重復采樣次數(shù),計算所述葉節(jié)點累計的樣本數(shù)量和信息增益;

步驟s55:判斷所述樣本數(shù)量是否超過最小樣本數(shù)閾值,并且所述信息增益是否超過最大信息增益閾值;如果是則執(zhí)行步驟s56,否則執(zhí)行步驟s57;

步驟s56:計算最佳劃分,根據(jù)所述最佳劃分將所述決策樹葉節(jié)點擴展為中間節(jié)點,同時生成左、右孩子節(jié)點,以更新所述決策樹的葉節(jié);

步驟s57:將所述短語翻譯對及對應的上下文特征信息存入對應的所述決策樹葉節(jié)點,以更新所述源語言短語對應的決策樹;

步驟s58:將所述決策樹的信息添加至所述決策樹的測試集,對決策樹的測試集進行錯誤率測試,以更新由決策樹構成的隨機森林。

可選的,所述對決策樹進行錯誤率測試的方法包括:

判斷所述決策樹的錯誤率是否大于隨機數(shù)且所述決策樹的樣本數(shù)量是否超過所述最小樣本數(shù)閾值;如果是,則從對應的隨機森林中移除所述決策樹。

可選的,所述最佳劃分為使信息增益達到最大值的劃分函數(shù)和劃分閾值對。

根據(jù)本發(fā)明的實施例,本發(fā)明公開了以下技術效果:

本發(fā)明人機交互翻譯模型的更新方法通過引入用戶反饋的人工翻譯譯文,通過對目標語言句子及所述源語言句子進行分詞處理、對齊、抽取短語翻譯知識以實時更新基于在線隨機森林的機器翻譯模型,緩解重復出現(xiàn)相同的翻譯錯誤。

為了解決現(xiàn)有技術中的上述問題,即為了解決人工翻譯句子中的翻譯知識實時更新至人機交互翻譯模型,并改善后續(xù)機器翻譯譯文質量的問題,本發(fā)明提供了一種人機交互翻譯模型的更新系統(tǒng)。

為實現(xiàn)上述目的,本發(fā)明提供了如下方案:

一種人機交互翻譯模型的更新系統(tǒng),所述更新系統(tǒng)包括:

接收模塊,用于接收根據(jù)源語言句子進行人工翻譯得到的目標語言句子;

分詞模塊,用于分別所述目標語言句子及所述源語言句子進行分詞處理,獲得目標語言詞組及源語言詞組;

對齊模塊,用于根據(jù)所述目標語言詞組及源語言詞組獲得雙語詞對齊信息;

抽取模塊,用于從所述雙語詞對齊信息中抽取短語翻譯知識;

更新模塊,用于根據(jù)短語翻譯知識,逐對更新源語言短語對應的翻譯模型隨機森林。

可選的,所述短語翻譯知識包括短語翻譯對及對應的上下文特征信息。

可選的,所述更新模塊包括:

構建單元,用于根據(jù)所述短語翻譯對中的源語言短語構建所述源語言短語對應的隨機森林中的一棵決策樹;

生成單元,用于根據(jù)所述決策樹獨立生成重復采樣次數(shù);

第一判斷單元,用于判斷所述重復采樣次數(shù)是否為零;

測試單元,用于在所述第一判斷單元的判斷結果為是時,將所述決策樹的信息添加至所述決策樹的測試集,對決策樹的測試集進行錯誤率測試,以更新由決策樹構成的隨機森林;

計算單元,用于在所述第一判斷單元的判斷結果為否時,根據(jù)所述上下文特征信息找到需要更新的所述決策樹的葉節(jié)點,結合所述重復采樣次數(shù),計算所述葉節(jié)點累計的樣本數(shù)量和信息增益;

第二判斷單元,用于判斷所述樣本數(shù)量是否超過最小樣本數(shù)閾值,并且所述信息增益是否超過最大信息增益閾值;

第一節(jié)點更新單元,用于在所述第二判斷單元的判斷結果為是時,計算最佳劃分,根據(jù)所述最佳劃分將所述決策樹葉節(jié)點擴展為中間節(jié)點,同時生成左、右孩子節(jié)點,更新所述決策樹的葉節(jié),以更新所述決策樹的葉節(jié);

第二節(jié)點更新單元,用于在所述第二判斷單元的判斷結果為否時,將所述短語翻譯對及對應的上下文特征信息存入對應的所述決策樹葉節(jié)點,以更新所述源語言短語對應的決策樹。

根據(jù)本發(fā)明的實施例,本發(fā)明公開了以下技術效果:

本發(fā)明人機交互翻譯模型的更新系統(tǒng)通過設置接收模塊引入用戶反饋的人工翻譯譯文,并通過分詞模塊、對齊模塊、抽取模塊的設置,依次對目標語言句子及所述源語言句子進行分詞處理、對齊、抽取短語翻譯知識,以實時更新基于在線隨機森林的機器翻譯模型,緩解重復出現(xiàn)相同的翻譯錯誤。

附圖說明

圖1是人工翻譯句子實時更新人機交互翻譯模型的一個實例示意圖;

圖2是傳統(tǒng)翻譯模型的一個實例示意圖;

圖3是本發(fā)明人機交互翻譯模型的更新方法的流程圖;

圖4a~圖4d是本發(fā)明的決策樹構建過程的一個示例示意圖;

圖5是本發(fā)明中逐對更新源語言短語對應的翻譯模型隨機森林的流程圖;

圖6為本發(fā)明人機交互翻譯模型的更新系統(tǒng)的模塊結構圖。

符號說明:

接收模塊—1,分詞模塊—2,對齊模塊—3,抽取模塊—4,更新模塊—5。

具體實施方式

下面參照附圖來描述本發(fā)明的優(yōu)選實施方式。本領域技術人員應當理解的是,這些實施方式僅僅用于解釋本發(fā)明的技術原理,并非旨在限制本發(fā)明的保護范圍。

如圖3所示,本發(fā)明人機交互翻譯模型的更新方法包括:

步驟100:接收根據(jù)源語言句子進行人工翻譯得到的目標語言句子;

步驟200:分別對目標語言句子及所述源語言句子進行分詞處理,獲得目標語言詞組及源語言詞組;

步驟300:根據(jù)所述目標語言詞組及源語言詞組獲得雙語詞對齊信息;

步驟400:從所述雙語詞對齊信息中抽取短語翻譯知識;

步驟500:根據(jù)短語翻譯知識,逐對更新源語言短語對應的翻譯模型隨機森林。

在執(zhí)行步驟500后,根據(jù)其他的源語言句子重復執(zhí)行上述步驟,直至翻譯結束,從而實現(xiàn)翻譯模型的實時更新。

其中,在步驟100中,用戶錄入目標語言句子時,可以自主選擇在機器翻譯自動譯文的基礎上修改完成翻譯或者直接忽略機器翻譯譯文。

在步驟200中,所有源語言詞的集合所有目標語言詞的集合

源語言句子其中j為源語言句子的詞數(shù),sj為源語言句子的第j個詞;

源語言短語其中為源語言短語的詞數(shù),為源語言句子的第個詞;

目標語言句子其中i為目標語言句子的詞數(shù),ti為目標語言句子的第i個詞;

目標語言短語其中為目標語言句子的詞數(shù),為目標語言句子的第個詞。

例如,源語言句子:thepublicationchairisresponsiblefortheentireproductionprocess;目標語言句子:出版主席負責監(jiān)督整個生產過程。

用空格隔開相鄰詞:

在步驟300中,詞對齊a=a1a2...aj,其中指源語言句子第個詞與目標語言句子的第個詞對應,可能有多個不同的值。

在步驟400中,所述短語翻譯知識包括短語翻譯對及對應的上下文特征信息。進一步地,所述上下文特征信息包括:

a、短語翻譯對中,源語言短語之前的六個詞;

b、短語翻譯對中,源語言短語之后的六個詞;

c、短語翻譯對中,源語言短語第一個詞;

d、短語翻譯對中,源語言短語最后一個詞;

e、短語翻譯對中,目標語言短語第一個詞;

f、短語翻譯對中,目標語言短語最后一個詞;

g、短語翻譯對中,目標語言短語之前的一個詞;

h、短語翻譯對中,目標語言短語之后的一個詞;

i、源短語與目標短語的正向和反向詞匯化翻譯概率;

j、該短語翻譯對是否被譯后編輯采用;

k、短語翻譯對中,源語言短語和目標語言短語的長度。

其中,所述抽取短語翻譯知識的方法包括:

步驟410:在所述目標語言詞組中,確定所有的對齊點;

步驟420:遍歷所述目標語言詞組中所有可能的目標語言短語,搜索分別與各所述目標語言短語中相匹配的源語言短語;

步驟430:找出對應的最短的源語言短語。

匹配時,需要考慮以下情況:

(1)如果目標語言短語僅僅包含對空的詞,就不能在源語言端找到與之對應的短語。

(2)如果與目標語言短語匹配的最小源語言短語中存在超出目標語言短語之外的對齊點,就不能抽取該短語對。實際上該目標短語而言,無法抽取出短語對。

(3)除了與目標語言短語匹配的最小源語言短語以外,其他的源語言短語也可能與目標語言短語一致。如果源語言短語的邊緣是對空的詞,它就可以向這些詞擴展。擴展之后的源語言短語也可以看成目標語言短語的一種翻譯。

抽取短語時,對齊點的一個作用是可將其看成短語抽取時的約束。對齊點越少,抽取的短語越多(但當沒有對齊點時,就無法抽取短語對)。

在本實施例中,“thepublicationchairisresponsiblefortheentireproductionprocess.”;“出版主席負責監(jiān)督整個生產過程。”。設定最長短語詞數(shù)為7,則根據(jù)詞對齊信息“null{1,4,7}出版{2}主席{3}負責{5,6}監(jiān)督{}整個{8}生產{9}過程{10}。{11}”抽取出的短語翻譯對如下:

publication|||出版

thepublication|||出版

chair|||主席

chairis|||主席

publicationchair|||出版主席

publicationchairis|||出版主席

thepublicationchair|||出版主席

thepublicationchairis|||出版主席

responsiblefor|||負責

isresponsiblefor|||負責

thepublicationchairisresponsiblefor|||出版主席負責

thepublicationchairisresponsiblefor|||出版主席負責監(jiān)督

entire|||整個

production|||生產

process|||過程

entireproduction|||整個生產

productionprocess|||生產過程

entireproductionprocess|||整個生產過程

theentireproductionprocess|||整個生產過程

responsiblefortheentireproductionprocess|||負責監(jiān)督整個生產過程

以從“null{1,4,7}出版{2}主席{3}負責{5,6}監(jiān)督{}整個{8}生產{9}過程{10}。{11}”抽取出的短語翻譯對“chair|||主席”為例,所述十一類特征分別為:

a、源語言短語之前的六個詞分別為:

wst-6=sent_before_begin、wst-5=sent_before_begin、w5t-4=sent_before_begin、wst-3=sent_begin、wst-2=the、wst-1=publication。其中,sent_begin表示句子開始符,sent_before_begin表示句子開始之前的空白占位符。

b、短語翻譯對中,源語言短語之后的六個詞分別為:wst+1=is、wst+2=responsible、wst+3=for、wst+4=the、wst+5=entire、wst+6=production。

c、源語言短語第一個詞:wsls=chair。

d、源語言短語最后一個詞:wsrs=chair。

e、目標語言短語第一個詞:wtls=主席。

f、目標語言短語最后一個詞:wtrs=主席。

g、目標語言短語之前的一個詞:wtlt-1=出版。

h、目標語言短語之后的一個詞:wtrt+1=負責

i、源短語與目標短語的正向和反向詞匯化翻譯概率:pw(t|s)=0.45892387和pw(s|t)=0.6623509。

j、該短語翻譯對是否被譯后編輯采用:ps=y(tǒng)es。

k源語言短語和目標語言短語的長度:lens=1和lent=1。

在步驟500中,如圖5所示,所述逐對更新源語言短語對應的翻譯模型隨機森林的方法包括:

步驟510:根據(jù)所述短語翻譯對中的源語言短語構建所述源語言短語對應的隨機森林中的一棵決策樹。

步驟520:根據(jù)所述決策樹獨立生成重復采樣次數(shù)。

步驟530:判斷所述重復采樣次數(shù)是否為零,如果是則執(zhí)行步驟580;否則執(zhí)行步驟540;

步驟540:根據(jù)所述上下文特征信息找到需要更新的所述決策樹的葉節(jié)點,結合所述重復采樣次數(shù),計算所述葉節(jié)點累計的樣本數(shù)量和信息增益;

步驟550:判斷所述樣本數(shù)量是否超過最小樣本數(shù)閾值,并且所述信息增益是否超過最大信息增益閾值;如果是則執(zhí)行步驟560,否則執(zhí)行步驟570;

步驟560:計算最佳劃分,根據(jù)所述最佳劃分將所述決策樹葉節(jié)點擴展為中間節(jié)點,同時生成左、右孩子節(jié)點,以更新所述決策樹的葉節(jié);

步驟570:將所述短語翻譯對及對應的上下文特征信息存入對應的所述決策樹葉節(jié)點,以更新所述源語言短語對應的決策樹;

步驟580:將所述決策樹的信息添加至所述決策樹的測試集,對決策樹的測試集進行錯誤率測試,以更新由決策樹構成的隨機森林。

進一步地,所述對決策樹進行錯誤率測試的方法包括:

判斷所述決策樹的錯誤率是否大于隨機數(shù)且所述決策樹的樣本數(shù)量是否超過所述最小樣本數(shù)閾值;如果是,則從對應的隨機森林中移除所述決策樹。

下面以“chair”為例介紹翻譯模型隨機森林過程。

在決策樹構建過程中,源短語對應的隨機森林中共有m棵塊策樹,每棵塊策樹覆蓋的特征是不一樣的,第m棵塊策樹表示為其中,θm表示該塊策樹的參數(shù)向量。給定源語言短語則目標短語的翻譯概率為:

由公式(1),隨機森林中的每棵決策樹是相互獨立的:獨立構建,獨立測試。在訓練階段,每棵決策樹接收到不同的,從原始訓練集放回抽樣的自舉訓練集,然后利用自舉訓練集分別構建決策樹。

現(xiàn)結合圖4a~圖4d,以覆蓋特征{wst-2,wst-1}的決策樹為示例說明隨著雙語平行句對增加的構建過程。隨機森林中其他決策樹按照相同過程平行獨立構建,此為隨機森林的優(yōu)勢之一。

此過程使用的6條平行句對如下:

a.themansatdowninthechairbythefireandputhisgunaway.

那人在爐火邊的椅子里坐下,把槍收了起來。

b.amanwouldpulloutthewoman′schairinarestaurant.

在餐廳里,男人會細心地為女人拉開椅子。

c.he,onhischair,scarcelylooksatherandsmokesceaselessly.

他坐在椅子上,不怎么看她,只是不停地抽煙。

d.prof.jonesholdsthechairofphonetics.

瓊斯教授擔任語音學講座。

e.thepublicationchairisresponsiblefortheentireproductionprocess.

出版主席負責監(jiān)督整個生產過程。

圖4a部分表示初始狀態(tài),{wst-2,wst-1}決策樹只有根結點。經過a、b和c共三條平行句對之后,按照在線隨機森林學習算法,通過重采樣的短語翻譯對“chair|||椅子”,該決策樹學習到“chair”可以翻譯為“椅子”且劃分點特征為wst-2,如圖4b部分所示。圖4c部分表示經過d平行句對訓練后,得到如果“chair”之前的第二個詞為“holds”時應翻譯為“講座”的決策樹。圖4d部分表示經過反饋的人工翻譯句子e訓練后,得到如果“chair”之前的第一個詞為“publication”時應翻譯為“主席”的決策樹。

(2)決策樹更新步驟

以步驟400中抽取出的短語翻譯對“chair|||主席”更新至“chair”對應的隨機森林為例,輸入為x:“chair”,“主席”,wst-6=sent_before_begin,wst-5=sent_before_begin,wst-4=sent_before_begin,wst-3=sent_begin,wst-2=the,wst-1=publication,wst+1=is,wst+2=responsible,wst+3=for,wst+4=the,wst+5=entire,wst+6=production,wsls=chair,wsrs=chair,wtlt-1=出版,wtrt+1=負責,pw(t|s)=0.45892387,pw(s|t)=0.6623509,ps=y(tǒng)es,lens=1,lent=1。

對源語言短語對應的隨機森林中的每棵決策樹,如{wst-2,wst-1}決策樹,獨立生成重復采樣次數(shù)

在本實施例中,采用泊松分布,采樣次數(shù)的可能取值范圍為大于或者等于零的整數(shù)。其中,λ為泊松分布的參數(shù),也是泊松分布的期望和方差,本實施例中等概率從1到20中的整數(shù)中隨機挑選一個整數(shù)值生成該參數(shù)的值。

判斷所述采樣次數(shù)是否等于零,則將所述決策樹的信息添加至所述決策樹的測試集,對決策樹的測試集進行錯誤率測試,以更新由決策樹構成的隨機森林,否則執(zhí)行下一步。

根據(jù)所述上下文特征信息找到需要更新的決策樹的葉節(jié)點結合隨機重復采樣次數(shù)計算所述葉節(jié)點累計的訓練樣本數(shù)量和信息增益

訓練集的熵的計算公式如下:

其中,表示目標短語在節(jié)點處的比例,為訓練集中目標短語的數(shù)量。

在更新過程中,決策樹中每個節(jié)點的劃分函數(shù)g(x)和劃分閾值θ都是從事先生成的集合中隨機選擇的。劃分函數(shù)可以是形如ax+b的線性函數(shù)或者更復雜的高階函數(shù)。確定劃分函數(shù)和劃分閾值的依據(jù)是訓練集的信息增益。信息增益越大,表明選定的劃分函數(shù)和劃分閾值越優(yōu)。隨機選擇一個劃分后(g′(x),θ′)后,訓練集中的樣本將被分成兩個集合使g(x)≥θ成立的樣本將被放入集合中,否則將被放入集合中。則信息增益可由下式計算得到:

步驟560中:如果所述樣本數(shù)量超過最小樣本數(shù)閾值并且所述信息增益超過最大信息增益閾值β,則確定最佳劃分(g(x),θ),否則將短語翻譯對的源語言短語、目標語言短語和短語翻譯對對應的上下文特征信息存入所述決策樹葉節(jié)點即添加至訓練集

最佳劃分(g(x),θ)即是使信息增益達到最大值的劃分函數(shù)和劃分閾值對。本實施例中,最小樣本數(shù)閾值為30,最大信息增益閾值β為0.1。

根據(jù)所述最佳劃分(g(x),θ),將所述決策樹葉節(jié)點擴展為中間節(jié)點,同時生成左、右孩子節(jié)點。集合中的元素將被繼承至左孩子節(jié)點,集合中的元素將被繼承至右孩子節(jié)點。

進一步地,錯誤率oobe指測試集中,目標短語被該決策樹上錯誤分類的比例。

如果一棵決策樹的錯誤率oobe大于隨機數(shù)(編程語言的隨機函數(shù)rand()生成0到1之間的小數(shù))且該決策樹的樣本數(shù)量age超過最小樣本數(shù)則從對應的隨機森林中移除該決策樹。本實施例中最小樣本數(shù)的取值為50,即γ=0.02。

本發(fā)明人機交互翻譯模型的更新方法具有如下的積極效果:

(1)利用用戶反饋的人工翻譯譯文實時更新基于在線隨機森林的機器翻譯模型,緩解重復出現(xiàn)相同的翻譯錯誤,從而隨著用戶反饋的人工翻譯譯文的增加,持續(xù)提升機器翻譯自動譯文質量。實驗證明在線實時更新的機器翻譯自動譯文質量與完全離線訓練的機器翻譯系統(tǒng)的譯文質量相差僅0.2個ter(ter是一個雙語評測替代指標,取值范圍為0到1之間的數(shù),其值越低表示譯文質量越好)值。

(2)由于基于隨機森林的翻譯模型是基于判別式的方法,相對于傳統(tǒng)基于生成式方法且獨立于上下文的翻譯模型,可以融合更多的上下文特征信息。因此,基于隨機森林的翻譯模型能大幅提升機器翻譯自動譯文質量。實驗證明基于隨機森林的翻譯模型的機器翻譯自動譯文質量顯著優(yōu)于傳統(tǒng)翻譯模型的機器翻譯自動譯文質量約1個ter值。

(3)根據(jù)錯誤率測試結果動態(tài)移除翻譯模型隨機森林的決策樹的方法,大幅增強人機交互翻譯模型的抗噪能力。

此外,本發(fā)明還提供一種人機交互翻譯模型的更新系統(tǒng)。如圖6所示,本發(fā)明人機交互翻譯模型的更新系統(tǒng)包括:接收模塊1、分詞模塊2、對齊模塊3、抽取模塊4及更新模塊5。

其中,所述接收模塊1用于接收根據(jù)源語言句子進行人工翻譯得到的目標語言句子;所述分詞模塊2用于分別所述目標語言句子及所述源語言句子進行分詞處理,獲得目標語言詞組及源語言詞組;所述對齊模塊3用于根據(jù)所述目標語言詞組及源語言詞組獲得雙語詞對齊信息;所述抽取模塊4用于從所述雙語詞對齊信息中抽取短語翻譯知識;所述更新模塊5用于根據(jù)短語翻譯知識,逐對更新源語言短語對應的翻譯模型隨機森林。其中,在接收用戶錄入目標語言句子時,用戶可以自主選擇在機器翻譯自動譯文的基礎上修改完成翻譯或者直接忽略機器翻譯譯文。

其中,所述短語翻譯知識包括短語翻譯對及對應的上下文特征信息。進一步地,所述上下文特征信息包括:

a、短語翻譯對中,源語言短語之前的六個詞;

b、短語翻譯對中,源語言短語之后的六個詞;

c、短語翻譯對中,源語言短語第一個詞;

d、短語翻譯對中,源語言短語最后一個詞;

e、短語翻譯對中,目標語言短語第一個詞;

f、短語翻譯對中,目標語言短語最后一個詞;

g、短語翻譯對中,目標語言短語之前的一個詞;

h、短語翻譯對中,目標語言短語之后的一個詞;

i、源短語與目標短語的正向和反向詞匯化翻譯概率;

j、該短語翻譯對是否被譯后編輯采用;

k、短語翻譯對中,源語言短語和目標語言短語的長度。

優(yōu)選方案,所述更新模塊5包括構建單元、生成單元、第一判斷單元、計算單元、第二判斷單元、第一節(jié)點更新單元、第二節(jié)點更新單元、測試單元。

其中,所述構建單元用于根據(jù)所述短語翻譯對中的源語言短語構建所述源語言短語對應的隨機森林中的一棵決策樹;所述生成單元用于根據(jù)所述決策樹獨立生成重復采樣次數(shù);所述第一判斷單元用于判斷所述重復采樣次數(shù)是否為零;所述計算單元用于在所述第一判斷單元的判斷結果為否時,根據(jù)所述上下文特征信息找到需要更新的所述決策樹的葉節(jié)點,結合所述重復采樣次數(shù),計算所述葉節(jié)點累計的樣本數(shù)量和信息增益;所述第二判斷單元用于判斷所述樣本數(shù)量是否超過最小樣本數(shù)閾值,并且所述信息增益是否超過最大信息增益閾值;所述第一節(jié)點更新單元,用于在所述第二判斷單元的判斷結果為是時,計算最佳劃分,根據(jù)所述最佳劃分將所述決策樹葉節(jié)點擴展為中間節(jié)點,同時生成左、右孩子節(jié)點,更新所述決策樹的葉節(jié),以更新所述決策樹的葉節(jié);所述第二節(jié)點更新單元,用于在所述第二判斷單元的判斷結果為否時,將所述短語翻譯對及對應的上下文特征信息存入對應的所述決策樹葉節(jié)點,以更新所述源語言短語對應的決策樹;所述測試單元,用于在所述第一判斷單元的判斷結果為是時,將所述決策樹的信息添加至所述決策樹的測試集,對決策樹的測試集進行錯誤率測試,以更新由決策樹構成的隨機森林。

進一步地,所述測試單元對決策樹的測試集進行錯誤率測試包括:判斷所述決策樹的錯誤率是否大于隨機數(shù)且所述決策樹的樣本數(shù)量是否超過所述最小樣本數(shù)閾值;如果是,則從對應的隨機森林中移除所述決策樹。

相較于現(xiàn)有技術,本發(fā)明人機交互翻譯模型的更新系統(tǒng)與上述人機交互翻譯模型的更新的方法的有益效果相同,在此不再贅述。

至此,已經結合附圖所示的優(yōu)選實施方式描述了本發(fā)明的技術方案,但是,本領域技術人員容易理解的是,本發(fā)明的保護范圍顯然不局限于這些具體實施方式。在不偏離本發(fā)明的原理的前提下,本領域技術人員可以對相關技術特征作出等同的更改或替換,這些更改或替換之后的技術方案都將落入本發(fā)明的保護范圍之內。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1