基于樣本重要性的自動(dòng)機(jī)器翻譯領(lǐng)域自適應(yīng)方法

文檔序號(hào)：9787381閱讀：585來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于樣本重要性的自動(dòng)機(jī)器翻譯領(lǐng)域自適應(yīng)方法
【技術(shù)領(lǐng)域】
[0001 ]本發(fā)明涉及語言翻譯領(lǐng)域，具體涉及一種自動(dòng)機(jī)器翻譯領(lǐng)域的自適應(yīng)方法。
【背景技術(shù)】
[0002] 隨著全球化時(shí)代的到來，機(jī)器翻譯在促進(jìn)國際政治、經(jīng)濟(jì)、文化、科技交流等方面具有重大的實(shí)用價(jià)值和戰(zhàn)略意義。自動(dòng)機(jī)器翻譯方法通過在大規(guī)模高質(zhì)量的雙語對(duì)齊語料集上使用機(jī)器學(xué)習(xí)的方法來訓(xùn)練翻譯系統(tǒng)。自動(dòng)機(jī)器翻譯系統(tǒng)是一種機(jī)器學(xué)習(xí)模型，機(jī)器學(xué)習(xí) （Machine Learning)的相關(guān)研究已經(jīng)證明：訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的分布差異越大，機(jī) 器學(xué)習(xí)模型的泛化誤差也就會(huì)越大。對(duì)于自動(dòng)機(jī)器翻譯系統(tǒng)，當(dāng)訓(xùn)練語料與翻譯任務(wù)來自不同的領(lǐng)域，即訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)來自于不同的分布，那么翻譯系統(tǒng)的性能就會(huì)下降。由于大規(guī)模特定領(lǐng)域的雙語平行語料不易獲取，現(xiàn)實(shí)中使用的訓(xùn)練集往往為由來自多個(gè)領(lǐng)域的語料組成的混合語料集，例如由議會(huì)記錄、法律文本、日常對(duì)話以及新聞報(bào)道等組成的混合訓(xùn)練語料集。使用基于混合語料集的翻譯系統(tǒng)完成特定領(lǐng)域的翻譯任務(wù)時(shí)，翻譯結(jié)果往往不能達(dá)到人們的期望。在訓(xùn)練語料為混合語料的前提下，為提高翻譯系統(tǒng)在特定領(lǐng)域的翻譯性能，需要提高翻譯系統(tǒng)的領(lǐng)域自適應(yīng)能力。
[0003] 在現(xiàn)有自動(dòng)機(jī)器翻譯方法上，為進(jìn)一步提高翻譯系統(tǒng)的翻譯性能和實(shí)用性，需要提高翻譯系統(tǒng)的領(lǐng)域自適應(yīng)能力。目前，針對(duì)如何提高翻譯系統(tǒng)領(lǐng)域自適應(yīng)能力的問題，主要有以下幾種解決方法：
[0004] (1)基于信息檢索（Information Retrieval)和數(shù)據(jù)選擇(Data Selection)的領(lǐng) 域自適應(yīng)方法:這是一種簡單直接的方法，通過檢索的方式選擇和目標(biāo)領(lǐng)域最相關(guān)的語料作為訓(xùn)練數(shù)據(jù)，提高翻譯系統(tǒng)與目標(biāo)領(lǐng)域的匹配程度從而提高翻譯質(zhì)量。訓(xùn)練數(shù)據(jù)和目標(biāo) 領(lǐng)域的相似性對(duì)于自動(dòng)機(jī)器翻譯系統(tǒng)的性能是至關(guān)重要的，此方法通過提高這種相似性能有效地提升翻譯系統(tǒng)的性能。這種方法實(shí)現(xiàn)簡單，適用于目標(biāo)領(lǐng)域單一而且預(yù)先確定的情況，但是難以應(yīng)對(duì)目標(biāo)領(lǐng)域多樣或未知的環(huán)境。
[0005] (2)基于訓(xùn)練實(shí)例加權(quán)（Instance Weighting)的領(lǐng)域自適應(yīng)方法:這種方法可以看作是檢索方法的柔性改進(jìn)。加權(quán)法根據(jù)訓(xùn)練實(shí)例與目標(biāo)領(lǐng)域的相關(guān)性，或者根據(jù)實(shí)例的可靠性，用連續(xù)的實(shí)數(shù)表示實(shí)例的權(quán)重，并依據(jù)實(shí)例權(quán)重訓(xùn)練翻譯系統(tǒng)。實(shí)例的粒度可以有多種級(jí)別，例如語料庫級(jí)別、篇章級(jí)別、句子級(jí)別、短語級(jí)別以及翻譯規(guī)則級(jí)別。在自動(dòng)機(jī)器翻譯系統(tǒng)的訓(xùn)練階段，適當(dāng)提高與目標(biāo)領(lǐng)域相匹配的實(shí)例的權(quán)重能有效提高翻譯系統(tǒng)在目標(biāo)領(lǐng)域的翻譯性能。
[0006] (3)基于混合模型(Mixture Model)的領(lǐng)域自適應(yīng)方法:這類方法把上面的加權(quán)法從實(shí)例延伸到了模型，預(yù)先在多個(gè)不同領(lǐng)域的數(shù)據(jù)集上分別訓(xùn)練相應(yīng)的翻譯模型，然后根據(jù)目標(biāo)領(lǐng)域的特性來調(diào)整各個(gè)翻譯模型的重要性。該方法是一種粗粒度的領(lǐng)域自適應(yīng)方法，能有效提高翻譯系統(tǒng)的領(lǐng)域自適應(yīng)性，但不能充分利用訓(xùn)練語料中的領(lǐng)域信息。

【發(fā)明內(nèi)容】

[0007] 本發(fā)明為了解決現(xiàn)有的翻譯系統(tǒng)的自適應(yīng)方法不能充分利用訓(xùn)練語料中的領(lǐng)域十目息的問題。
[0008] 基于樣本重要性的自動(dòng)機(jī)器翻譯領(lǐng)域自適應(yīng)方法，包括以下步驟：
[0009] 步驟1、訓(xùn)練集為雙語言對(duì)齊的句對(duì)集合，一個(gè)雙語言對(duì)齊的句對(duì)中包括一個(gè)源語言句子A、一個(gè)目標(biāo)語言句子ei;每個(gè)句對(duì)稱作一個(gè)訓(xùn)練樣本，
[0010] 為訓(xùn)練集中的每個(gè)訓(xùn)練樣本設(shè)置樣本權(quán)重M，i = l，2,3，···，!!，其中，η為訓(xùn)練樣本的個(gè)數(shù)；
[0011] 設(shè)置樣本權(quán)重向量λ= ... ,Ai, ...，λη}，樣本權(quán)重向量是一個(gè)η維的向量，每一維與訓(xùn)練集中的一個(gè)訓(xùn)練樣本相對(duì)應(yīng)；
[0012] 步驟2、統(tǒng)計(jì)訓(xùn)練樣本源語言句子的一元詞頻分布：
[0013] 依據(jù)步驟1中設(shè)置的樣本權(quán)重向量，通過統(tǒng)計(jì)的方法得到訓(xùn)練樣本源語言句子的一元詞頻分布，此分布為樣本權(quán)重向量的非線性表示，如下所示：
[0014] p(w) = Ψ (λ)⑴
[0015] 其中，w為訓(xùn)練樣本源語言句子中的詞語，p(w)為其概率值；Ψ(λ)為樣本權(quán)重向量 λ的非線性表示，是源語言詞語概率與樣本權(quán)重向量之間的非線性關(guān)系；
[0016] 步驟3、使用訓(xùn)練樣本源語言句子的一元詞頻分布計(jì)算目標(biāo)領(lǐng)域文本的句子概率；依據(jù)目標(biāo)領(lǐng)域文本的句子概率建立訓(xùn)練樣本與目標(biāo)領(lǐng)域之間的聯(lián)系；
[0017] 步驟4、依據(jù)目標(biāo)領(lǐng)域文本的句子概率建立樣本權(quán)重向量的似然函數(shù)以入）；
[0018] 步驟5、優(yōu)化樣本權(quán)重向量的似然函數(shù)，求解最優(yōu)樣本權(quán)重向量，確定目標(biāo)領(lǐng)域文本所屬的領(lǐng)域；
[0019] 步驟6、計(jì)算短語對(duì)的翻譯概率，依據(jù)短語對(duì)及其翻譯概率生成基于樣本權(quán)重向量的翻譯規(guī)則，依據(jù)基于樣本權(quán)重向量的翻譯規(guī)則，提高翻譯系統(tǒng)領(lǐng)域適應(yīng)性。
[0020] 本發(fā)明具有以下有益效果：
[0021] 基于樣本重要性的機(jī)器翻譯領(lǐng)域自適應(yīng)方法使用源語言句子的一元詞頻分布相似性來衡量文本的領(lǐng)域相似性，能夠處理目標(biāo)領(lǐng)域未知或多領(lǐng)域混合的領(lǐng)域適應(yīng)問題;通過訓(xùn)練樣本權(quán)重，能夠訓(xùn)練得到具有領(lǐng)域自適應(yīng)的翻譯系統(tǒng)。在大規(guī)模中英翻譯任務(wù)上實(shí) 驗(yàn)檢驗(yàn)發(fā)現(xiàn)，通過添加訓(xùn)練樣本權(quán)重，領(lǐng)域自適應(yīng)翻譯系統(tǒng)在未知目標(biāo)領(lǐng)域翻譯任務(wù)上的翻譯性能得到了提高，翻譯系統(tǒng)BLEU值相對(duì)于未使用領(lǐng)域適應(yīng)方法的翻譯系統(tǒng)提高了0.75 個(gè)百分點(diǎn)。
【附圖說明】
[0022]圖1為本發(fā)明流程示意圖。
【具體實(shí)施方式】
【具體實(shí)施方式】 [0023] 一:結(jié)合圖1說明本實(shí)施方式，
[0024] 基于樣本重要性的自動(dòng)機(jī)器翻譯領(lǐng)域自適應(yīng)方法，包括以下步驟：
[0025] 步驟1、訓(xùn)練集為雙語言對(duì)齊的句對(duì)集合，一個(gè)雙語言對(duì)齊的句對(duì)中包括一個(gè)源語言句子A、一個(gè)目標(biāo)語言句子ei;每個(gè)句對(duì)稱作一個(gè)訓(xùn)練樣本，
[0026] 為訓(xùn)練集中的每個(gè)訓(xùn)練樣本設(shè)置樣本權(quán)重M，i = l，2，3，···，η，其中，η為訓(xùn)練樣本的個(gè)數(shù)；
[0027] 設(shè)置樣本權(quán)重向量λ= {λχ,λ?，. . .，Ai, . . .，λη}，樣本權(quán)重向量是一個(gè)η維的向量，每一維與訓(xùn)練集中的一個(gè)訓(xùn)練樣本相對(duì)應(yīng)；
[0028] 步驟2、統(tǒng)計(jì)訓(xùn)練樣本源語言句子的一元詞頻分布：
[0029] 依據(jù)步驟1中設(shè)置的樣本權(quán)重向量，通過統(tǒng)計(jì)的方法得到訓(xùn)練樣本源語言句子的一元詞頻分布，此分布為樣本權(quán)重向量的非線性表示，如下所示：
[0030] p(w) = Ψ (λ)⑴
[0031] 其中，w為訓(xùn)練樣本源語言句子中的詞語，p(w)為其概率值；Ψ(λ)為樣本權(quán)重向量 λ的非線性表示，是源語言詞語概率與樣本權(quán)重向量之間的非線性關(guān)系；
[0032]步驟3、使用訓(xùn)練樣本源語言句子的一元詞頻分布計(jì)算目標(biāo)領(lǐng)域文本的句子概率；依據(jù)目標(biāo)領(lǐng)域文本的句子概率建立訓(xùn)練樣本與目標(biāo)領(lǐng)域之間的聯(lián)系；
[0033]步驟4、依據(jù)目標(biāo)領(lǐng)域文本的句子概率建立樣本權(quán)重向量的似然函數(shù)以入）；
[0034]訓(xùn)練樣本源語言的一元詞頻分布與目標(biāo)領(lǐng)域文本的一元詞頻越相似時(shí)，兩者的領(lǐng) 域相似性也就越高；由于訓(xùn)練樣本源語言的一元詞頻分布為樣本權(quán)重向量的非線性函數(shù)，因此通過樣本權(quán)重向量調(diào)整訓(xùn)練樣本源語言句子的一元詞頻分布，修改訓(xùn)練集與目標(biāo)領(lǐng)域文本的領(lǐng)域相似性;不同的樣本權(quán)重向量使得訓(xùn)練集與目標(biāo)領(lǐng)域文本之間具有不同的領(lǐng)域相似性，由此可知，存在一個(gè)最優(yōu)樣本權(quán)重向量使得訓(xùn)練集和目標(biāo)領(lǐng)域文本的領(lǐng)域相似性最高;本發(fā)明的樣本權(quán)重模型即是尋找一個(gè)這樣的樣本權(quán)重向量，依據(jù)目標(biāo)領(lǐng)域文本的句子概率建立樣本權(quán)重向量的似然函數(shù)，通過求解此似然函數(shù)得到所需要的最優(yōu)樣本權(quán)重向量；
[0035] 步驟5、優(yōu)化樣本權(quán)重向量的似然函數(shù)，求解最優(yōu)樣本權(quán)重向量，確定目標(biāo)領(lǐng)域文本所屬的領(lǐng)域；
[0036] 在樣本權(quán)重向量的似然函數(shù)取得最大值時(shí)，訓(xùn)練樣本源語言句子與目標(biāo)領(lǐng)域文本的一元詞頻分布相似性最高，此時(shí)兩者的領(lǐng)域相似性也最高；由于樣本權(quán)重向量維度過高，似然函數(shù)所涉及變量較多，似然函數(shù)最優(yōu)值很難求解;在求解過程中本發(fā)明方法通過求解似然函數(shù)的極大值代替求解最大值，將似然函數(shù)取極大值時(shí)的樣本權(quán)重向量作為最優(yōu)樣本權(quán)重向量；
[0037] 步驟6、計(jì)算短語對(duì)的翻譯概率，依據(jù)短語對(duì)及其翻譯概率生成基于樣本權(quán)重向量的翻譯規(guī)則，依據(jù)基于樣本權(quán)重向量的翻譯規(guī)則，提高翻譯系統(tǒng)領(lǐng)域適應(yīng)性。
[0038] 本發(fā)明提出的是機(jī)器翻譯領(lǐng)域自適應(yīng)方法;現(xiàn)實(shí)中，同一詞語在不同領(lǐng)域下可能具有不同的翻譯結(jié)果，如："粉絲"一詞在食物領(lǐng)域中應(yīng)當(dāng)翻譯為"vermicelIi"，而在娛樂新聞?lì)I(lǐng)域常翻譯為"fans"，這種情況就要求翻譯系統(tǒng)針對(duì)相同的詞語在不同的領(lǐng)域下能夠使用不同的翻譯規(guī)則;在訓(xùn)練翻譯系統(tǒng)時(shí)，本發(fā)明將求得的樣本權(quán)重向量應(yīng)用在翻譯規(guī)則的抽取過程中，通過樣本權(quán)重向量修改生成的翻譯規(guī)則，使翻譯系統(tǒng)具有領(lǐng)域適應(yīng)性。
[0039]【具體實(shí)施方式】二：
[0040]本實(shí)施方式步驟2的具體實(shí)施步驟如下：
[0041 ] 訓(xùn)練集CTrain的表示如下：
[0042] CTrain= {(f 1, Θ1 ),( f 2 , Θ2 ),...,( f i , θ? ),...,(f η , θη) }
[0043] 其中，（Le1)表示訓(xùn)練集中第i個(gè)訓(xùn)練樣本；
[0044] 設(shè)訓(xùn)練集CTrain中所有訓(xùn)練樣本源語言句子的詞語集合如下：
[0045] W= {wi ,W2 , . . . ,Wr , . . . ,Wk}
[0046] 其中，Wr表示所有訓(xùn)練樣本源語言句子的詞語集中第r個(gè)詞語，k表示詞語的個(gè)數(shù)；由于為每個(gè)訓(xùn)練樣本設(shè)置了樣本權(quán)重，在此基礎(chǔ)之上通過統(tǒng)計(jì)的方法得到訓(xùn)練樣本源語言句子的基于樣本權(quán)重的一元詞頻分布，對(duì)每一個(gè)詞語《，其一元詞頻概率如下：
[0048] 其中，O(^f1)表示在第i個(gè)訓(xùn)練樣本源語言句子^中詞語w出現(xiàn)的次數(shù)，當(dāng)詞語在句子中未出現(xiàn)時(shí)函數(shù)值為〇 ;Wr指訓(xùn)練樣本源語句子的詞語集中第r個(gè)詞語A1表示第i個(gè)訓(xùn) 練樣本的樣本權(quán)重。
[0049] 其他步驟和參數(shù)與【具體實(shí)施方式】一相同。
[0050]【具體實(shí)施方式】三：
[0051 ]本實(shí)施方式步驟3的具體實(shí)施步驟如下：

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：曹海龍;周鑫鵬;趙鐵軍;楊沐昀;鄭德權(quán);
技術(shù)所有人：哈爾濱工業(yè)大學(xué);
我是此專利的發(fā)明人

上一篇：惡意賬戶識(shí)別方法及裝置的制造方法
上一篇：文本校正方法和裝置的制造方法

該領(lǐng)域下的技術(shù)專家

如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。

1、李老師：1.計(jì)算力學(xué) 2.無損檢測

2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制

3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)

4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)

5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用

如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

文本校正方法和裝置的制造方法
一種垂直搜索引擎的查詢信息糾...
一種中文分詞方法及裝置的制造...
一種基于字符長度識(shí)別興趣點(diǎn)名...
一種確定對(duì)象的概念詞的方法和...
一種基于agent社會(huì)圈子網(wǎng)...
獲取正極性漢字的方法和裝置的...
可將網(wǎng)頁文章導(dǎo)入網(wǎng)頁文本編輯...
一種圖表生成方法和裝置的制造...
一種適用于云平臺(tái)資源監(jiān)控的數(shù)...

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

1

精彩留言，會(huì)給你點(diǎn)贊！

領(lǐng)域自適應(yīng)相關(guān)技術(shù)
自適應(yīng)無輻射熒光燈節(jié)能鎮(zhèn)流器的制作方法
自適應(yīng)門機(jī)承重輪組的制作方法
一種自適應(yīng)云計(jì)算環(huán)境虛擬安全域訪問控制方法和系統(tǒng)的制作方法
自適應(yīng)半球的制作方法
一種自適應(yīng)時(shí)空域累積濾波和色調(diào)映射的視頻增強(qiáng)方法
圖像壓縮裝置及方法
用于多個(gè)設(shè)備域的自適應(yīng)數(shù)字權(quán)限管理系統(tǒng)的制作方法
自適應(yīng)電力線載波通信裝置的制作方法
一種自適應(yīng)的時(shí)空域視頻圖像降噪方法
一種視頻監(jiān)控領(lǐng)域?qū)崿F(xiàn)波特率和協(xié)議自適應(yīng)的方法及裝置的制作方法
機(jī)器人自適應(yīng)控制相關(guān)技術(shù)
一種適應(yīng)多磚型的碼磚機(jī)器人新型手爪的制作方法
一種兩輪自平衡機(jī)器人滑模自適應(yīng)控制系統(tǒng)的制作方法
一種髖關(guān)節(jié)康復(fù)機(jī)器人軌跡與速度跟蹤的自適應(yīng)控制方法
一種識(shí)別語音需求的模糊自適應(yīng)機(jī)器人系統(tǒng)及其工作方法
機(jī)器人自適應(yīng)轉(zhuǎn)向單神經(jīng)元pid控制方法
一種兩輪自平衡機(jī)器人滑模自適應(yīng)控制方法
空程傳動(dòng)柔性件耦合自適應(yīng)機(jī)器人手指裝置的制造方法
具有自適應(yīng)能力的手術(shù)機(jī)器人操作臂的制作方法
偏心輪擺桿滑槽式耦合自適應(yīng)機(jī)器人手指裝置的制造方法
按患者運(yùn)動(dòng)所需輔助的下肢康復(fù)機(jī)器人自適應(yīng)控制方法
自適應(yīng)系統(tǒng)與機(jī)器智能相關(guān)技術(shù)
一種智能自適應(yīng)沙發(fā)的制作方法
一種基于產(chǎn)量的自適應(yīng)智能生產(chǎn)方法
一種高速智能自適應(yīng)無線聲學(xué)數(shù)字傳聲器的制造方法
一種用于智能設(shè)備的自適應(yīng)電源及智能設(shè)備的制造方法
基于廣電ipqam的網(wǎng)絡(luò)自適應(yīng)智能加速系統(tǒng)及方法
一種具有自適應(yīng)保護(hù)的智能電表的制作方法
自適應(yīng)智能拖地機(jī)的制作方法
一種自適應(yīng)智能孕婦鞋的制作方法
智能多角度掌心自適應(yīng)鼠標(biāo)的制作方法
智能自適應(yīng)會(huì)議室燈具的制作方法
自適應(yīng)控制理論機(jī)器人相關(guān)技術(shù)
帶有安全防護(hù)曲面自適應(yīng)爬壁機(jī)器人的制作方法
負(fù)壓輔助桿簇自適應(yīng)機(jī)器人手裝置的制造方法
一種用于機(jī)器人的自適應(yīng)可變形行走裝置及機(jī)器人的制作方法
一種自適應(yīng)管道內(nèi)徑的機(jī)器人底盤結(jié)構(gòu)的制作方法
一種自適應(yīng)機(jī)器人雙手爪的制作方法
桿輪復(fù)合式耦合自適應(yīng)欠驅(qū)動(dòng)機(jī)器人手指裝置的制造方法
多指緊箍彈性變位桿簇自適應(yīng)機(jī)器人手裝置的制造方法
腱繩式側(cè)向鎖定聯(lián)動(dòng)自適應(yīng)機(jī)器人手指裝置的制造方法
競速流體式間接聯(lián)動(dòng)自適應(yīng)機(jī)器人手指裝置的制造方法
一種高度方位自適應(yīng)的服務(wù)機(jī)器人及適應(yīng)方法

使用協(xié)議| 關(guān)于我們| 聯(lián)系X技術(shù)

? 2008-2024 【X技術(shù)】版權(quán)所有，并保留所有權(quán)利。津ICP備16005673號(hào)-2

感谢您访问我们的网站，您可能还对以下资源感兴趣：
亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于樣本重要性的自動(dòng)機(jī)器翻譯領(lǐng)域自適應(yīng)方法