背景技術(shù):
1、由神經(jīng)機(jī)器翻譯模型產(chǎn)生的翻譯的質(zhì)量可受到用于訓(xùn)練模型的數(shù)據(jù)的數(shù)量和質(zhì)量的影響。不幸的是,雖然可以使用各種自動(dòng)方法來(lái)收集大量訓(xùn)練數(shù)據(jù),但確保此類數(shù)據(jù)的質(zhì)量可為困難的,通常需要人工監(jiān)督。例如,系統(tǒng)可以被配置為爬取(crawl)互聯(lián)網(wǎng)以識(shí)別以多種語(yǔ)言發(fā)布的頁(yè)面集合(例如,來(lái)自域en.website.com和es.website.com的頁(yè)面可以具有分別以英語(yǔ)和西班牙語(yǔ)發(fā)布的相同內(nèi)容)并分離可以從中生成訓(xùn)練樣例的對(duì)應(yīng)文本序列。然而,來(lái)自一些網(wǎng)站或網(wǎng)頁(yè)的訓(xùn)練樣例可能質(zhì)量相對(duì)較高或較低,這取決于各種因素,例如,翻譯是否由人類翻譯者創(chuàng)建或監(jiān)督,翻譯是更簡(jiǎn)潔還是更冗長(zhǎng)等。同樣,來(lái)自一些網(wǎng)站或網(wǎng)頁(yè)的訓(xùn)練樣例可能使用特定的行話,這使得它們對(duì)于訓(xùn)練給定的翻譯模型更期望或更不期望(例如,針對(duì)某些地區(qū)的網(wǎng)頁(yè)可能使用地區(qū)特定的方言,針對(duì)科學(xué)或法律內(nèi)容的網(wǎng)頁(yè)可能使用在非科學(xué)或非法律上下文中具有不同含義的術(shù)語(yǔ)等)。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)涉及用于使用源增強(qiáng)的訓(xùn)練樣例來(lái)訓(xùn)練翻譯模型以使得模型可以學(xué)習(xí)將特定的翻譯風(fēng)格與每個(gè)樣例的源相關(guān)聯(lián)的系統(tǒng)和方法。例如,在該技術(shù)的一些方面中,可以基于呈第一語(yǔ)言的第一文本序列、呈不同于第一語(yǔ)言的第二語(yǔ)言的第二文本序列、以及基于第二文本序列的源的標(biāo)簽來(lái)訓(xùn)練翻譯模型。在一些方面,標(biāo)簽可以包括與第二文本序列的源相關(guān)的互聯(lián)網(wǎng)域、互聯(lián)網(wǎng)子域、統(tǒng)一資源定位符(“url”)、網(wǎng)站名或ip地址。同樣,在一些方面,標(biāo)簽還可以指示第一文本序列的源。此外,在該技術(shù)的一些方面中,可以通過(guò)以下來(lái)自動(dòng)生成多個(gè)訓(xùn)練樣例中的每個(gè)給定訓(xùn)練樣例:從給定互聯(lián)網(wǎng)域的第一頁(yè)面采樣第一文本序列,從給定互聯(lián)網(wǎng)域的第二頁(yè)面采樣第二文本序列,以及基于第二文本序列和/或第一文本序列的源(例如,第一和/或第二頁(yè)面的url、互聯(lián)網(wǎng)域、互聯(lián)網(wǎng)子域、網(wǎng)站名稱或ip地址中的全部或部分)生成標(biāo)簽。
2、本技術(shù)可以因此產(chǎn)生翻譯模型,所述翻譯模型可以在推斷期間被提示以通過(guò)僅包括特定高質(zhì)量或以其他方式期望的源的標(biāo)簽以及輸入文本序列來(lái)模仿該源的翻譯??梢栽谟?xùn)練之后通過(guò)使用不同的標(biāo)簽向經(jīng)訓(xùn)練的翻譯模型反復(fù)饋送樣例的驗(yàn)證集合并(例如,使用自動(dòng)質(zhì)量指標(biāo)、人類評(píng)分員或它們的組合)比較所產(chǎn)生的翻譯的質(zhì)量來(lái)識(shí)別這些高質(zhì)量或期望的源。通過(guò)這種方式,本技術(shù)可以減少或消除給定訓(xùn)練數(shù)據(jù)集合所需的過(guò)濾量,因此使得能夠使用自動(dòng)收集、生成和/或過(guò)濾的大的合成訓(xùn)練樣例數(shù)據(jù)集合來(lái)訓(xùn)練翻譯模型。同樣,本技術(shù)可用于生成翻譯模型,可以通過(guò)簡(jiǎn)單地改變?cè)谕茢嗥陂g使用哪些源標(biāo)簽來(lái)靈活且有效率地“調(diào)整”所述翻譯模型以模仿不同的翻譯質(zhì)量和/或風(fēng)格。本技術(shù)因此可以解決以下技術(shù)問(wèn)題:如何控制在多個(gè)源或領(lǐng)域上訓(xùn)練的翻譯模型的輸出以便基于感興趣的特定源或領(lǐng)域的特性來(lái)生成翻譯。此外,在各種示例實(shí)現(xiàn)方式中,這可以通過(guò)僅訓(xùn)練單個(gè)模型(而不是每個(gè)感興趣的領(lǐng)域訓(xùn)練一個(gè)或多個(gè)模型)來(lái)實(shí)現(xiàn),因此降低技術(shù)復(fù)雜性和計(jì)算成本。
3、在一個(gè)方面,本公開描述了一種計(jì)算機(jī)實(shí)現(xiàn)的方法,包括訓(xùn)練翻譯模型,其中所述訓(xùn)練包括:(1)對(duì)于多個(gè)訓(xùn)練樣例中的每個(gè)給定第一訓(xùn)練樣例,該給定訓(xùn)練樣例包括呈第一語(yǔ)言的第一文本序列、呈與第一語(yǔ)言不同的第二語(yǔ)言的第二文本序列、以及基于第二文本序列的源的標(biāo)簽:使用翻譯模型,至少部分地基于給定訓(xùn)練樣例的第一文本序列和標(biāo)簽來(lái)生成預(yù)測(cè)的文本序列;以及使用處理系統(tǒng)的一個(gè)或多個(gè)處理器,將該預(yù)測(cè)的文本序列與第二文本序列進(jìn)行比較,以為給定訓(xùn)練樣例生成損失值;以及(2)使用一個(gè)或多個(gè)處理器,至少部分地基于為多個(gè)訓(xùn)練樣例中的每個(gè)訓(xùn)練樣例生成的損失值來(lái)修改翻譯模型的一個(gè)或多個(gè)參數(shù)。在一些方面,標(biāo)簽包括互聯(lián)網(wǎng)域。在一些方面,標(biāo)簽包括互聯(lián)網(wǎng)子域。在一些方面,標(biāo)簽包括統(tǒng)一資源定位符。在一些方面,標(biāo)簽包括網(wǎng)站名稱。在一些方面,標(biāo)簽包括ip地址。在一些方面,標(biāo)簽還指示第一文本序列的源。在一些方面,第一文本序列的源在給定互聯(lián)網(wǎng)域的第一子域中,并且第二文本序列的源在給定互聯(lián)網(wǎng)域的第二子域中。在一些方面,該方法還包括使用一個(gè)或多個(gè)處理器通過(guò)以下來(lái)生成多個(gè)訓(xùn)練樣例中的每個(gè)給定訓(xùn)練樣例:從給定互聯(lián)網(wǎng)域的第一頁(yè)面采樣第一文本序列;從給定互聯(lián)網(wǎng)域的第二頁(yè)面采樣第二文本序列;以及基于第二頁(yè)面的統(tǒng)一資源定位符的全部或部分來(lái)生成標(biāo)簽。在一些方面,該方法還包括使用一個(gè)或多個(gè)處理器通過(guò)以下來(lái)生成多個(gè)訓(xùn)練樣例中的每個(gè)給定訓(xùn)練樣例:從給定互聯(lián)網(wǎng)域的第一頁(yè)面采樣第一文本序列;從給定互聯(lián)網(wǎng)域的第二頁(yè)面采樣第二文本序列;以及基于第二頁(yè)面的ip地址的全部或部分來(lái)生成標(biāo)簽。
4、在另一個(gè)方面,本公開描述了一種包括計(jì)算機(jī)可讀指令的計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)可讀指令在由處理系統(tǒng)執(zhí)行時(shí)使該處理系統(tǒng)執(zhí)行前述段落中描述的方法中的任一方法。
5、在另一個(gè)方面,本公開描述了一種處理系統(tǒng),包括:(1)存儲(chǔ)翻譯模型的存儲(chǔ)器;以及(2)一個(gè)或多個(gè)處理器,其耦合到存儲(chǔ)器并被配置為根據(jù)訓(xùn)練方法來(lái)訓(xùn)練翻譯模型,該訓(xùn)練方法包括:(a)對(duì)于多個(gè)訓(xùn)練樣例中的每個(gè)給定訓(xùn)練樣例,該給定訓(xùn)練樣例包括呈第一語(yǔ)言的第一文本序列、呈與第一語(yǔ)言不同的第二語(yǔ)言的第二文本序列、以及基于第二文本序列的源的標(biāo)簽:使用翻譯模型,至少部分地基于給定訓(xùn)練樣例的第一文本序列和標(biāo)簽來(lái)生成預(yù)測(cè)的文本序列;以及將該預(yù)測(cè)的文本序列與第二文本序列進(jìn)行比較,以為給定訓(xùn)練樣例生成損失值;以及(b)至少部分地基于為多個(gè)訓(xùn)練樣例中的每個(gè)訓(xùn)練樣例生成的損失值來(lái)修改翻譯模型的一個(gè)或多個(gè)參數(shù)。在一些方面,一個(gè)或多個(gè)處理器被配置為根據(jù)訓(xùn)練方法來(lái)訓(xùn)練翻譯模型,其中每個(gè)給定訓(xùn)練樣例包括標(biāo)簽,該標(biāo)簽包括互聯(lián)網(wǎng)域。在一些方面,一個(gè)或多個(gè)處理器被配置為根據(jù)訓(xùn)練方法來(lái)訓(xùn)練翻譯模型,其中每個(gè)給定訓(xùn)練樣例包括標(biāo)簽,該標(biāo)簽包括互聯(lián)網(wǎng)子域。在一些方面,一個(gè)或多個(gè)處理器被配置為根據(jù)訓(xùn)練方法來(lái)訓(xùn)練翻譯模型,其中每個(gè)給定訓(xùn)練樣例包括標(biāo)簽,該標(biāo)簽包括統(tǒng)一資源定位符。在一些方面,一個(gè)或多個(gè)處理器被配置為根據(jù)訓(xùn)練方法來(lái)訓(xùn)練翻譯模型,其中每個(gè)給定訓(xùn)練樣例包括標(biāo)簽,該標(biāo)簽包括網(wǎng)站名稱。在一些方面,一個(gè)或多個(gè)處理器被配置為根據(jù)訓(xùn)練方法來(lái)訓(xùn)練翻譯模型,其中每個(gè)給定訓(xùn)練樣例包括標(biāo)簽,該標(biāo)簽包括ip地址。在一些方面,一個(gè)或多個(gè)處理器被配置為根據(jù)訓(xùn)練方法訓(xùn)練翻譯模型,其中每個(gè)給定訓(xùn)練樣例包括指示第一文本序列的源和第二文本序列的源的標(biāo)簽。在一些方面,一個(gè)或多個(gè)處理器被進(jìn)一步配置為通過(guò)以下來(lái)生成多個(gè)訓(xùn)練樣例中的每個(gè)給定訓(xùn)練樣例:從給定互聯(lián)網(wǎng)域的第一頁(yè)面采樣第一文本序列;從給定互聯(lián)網(wǎng)域的第二頁(yè)面采樣第二文本序列;以及基于第二頁(yè)面的統(tǒng)一資源定位符的全部或部分來(lái)生成標(biāo)簽。在一些方面,一個(gè)或多個(gè)處理器被進(jìn)一步配置為通過(guò)以下來(lái)生成多個(gè)訓(xùn)練樣例中的每個(gè)給定訓(xùn)練樣例:從給定互聯(lián)網(wǎng)域的第一頁(yè)面采樣第一文本序列;從給定互聯(lián)網(wǎng)域的第二頁(yè)面采樣第二文本序列;以及基于第二頁(yè)面的ip地址的全部或部分來(lái)生成標(biāo)簽。
6、在另一個(gè)方面,本公開描述了一種處理系統(tǒng),包括:(1)存儲(chǔ)翻譯模型的存儲(chǔ)器;以及(2)一個(gè)或多個(gè)處理器,其耦合到存儲(chǔ)器并被配置為使用翻譯模型基于輸入文本序列和標(biāo)簽來(lái)生成輸入文本序列的預(yù)測(cè)的翻譯,其中翻譯模塊已經(jīng)根據(jù)訓(xùn)練方法被訓(xùn)練以生成該預(yù)測(cè)的翻譯,該訓(xùn)練方法包括:(a)對(duì)于多個(gè)訓(xùn)練樣例中的每個(gè)給定訓(xùn)練樣例,該給定訓(xùn)練樣例包括呈第一語(yǔ)言的第一文本序列、呈與第一語(yǔ)言不同的第二語(yǔ)言的第二文本序列、以及基于第二文本序列的源的標(biāo)簽:使用翻譯模型,至少部分地基于給定訓(xùn)練樣例的第一文本序列和標(biāo)簽來(lái)生成預(yù)測(cè)的文本序列;以及將該預(yù)測(cè)的文本序列與第二文本序列進(jìn)行比較,以為給定訓(xùn)練樣例生成損失值;以及(b)至少部分地基于為多個(gè)訓(xùn)練樣例中的每個(gè)訓(xùn)練樣例生成的損失值來(lái)修改翻譯模型的一個(gè)或多個(gè)參數(shù)。