亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

文檔翻譯方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)與流程

文檔序號(hào):40373299發(fā)布日期:2024-12-20 11:55閱讀:6來源:國知局
文檔翻譯方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)與流程

本發(fā)明涉及自然語言處理,尤其涉及一種文檔翻譯方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)。


背景技術(shù):

1、自然語言處理?(natural?language?processing,nlp)?即利用機(jī)器學(xué)習(xí)來剖析文本的結(jié)構(gòu)和含義,而自然語言處理中通常涉及機(jī)器翻譯,即使用人工智能自動(dòng)將文本從一種語言翻譯成另一種語言的流程。

2、現(xiàn)有的機(jī)器翻譯系統(tǒng)主要是基于句子級(jí)別的翻譯模型,這種方法存在以下局限:1)翻譯一致性無法保證:由于句子之間的上下文信息無法有效利用,翻譯結(jié)果往往缺乏連貫性,尤其在長(zhǎng)篇文檔中,不同句子之間的翻譯可能存在不一致的情況;2)不能參考上文信息:傳統(tǒng)的句子級(jí)翻譯模型在處理每個(gè)句子時(shí)無法參考前文信息。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明提供一種文檔翻譯方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì),用以解決現(xiàn)有技術(shù)中句子級(jí)別的翻譯模型存在翻譯一致性無法保證,以及不能參考上文信息,降低了文檔翻譯的準(zhǔn)確率的缺陷。

2、本發(fā)明提供一種文檔翻譯方法,包括如下步驟:

3、獲取待翻譯文檔;

4、在所述待翻譯文檔的當(dāng)前句非第一句的情況下,將所述當(dāng)前句之前的所有句和所述當(dāng)前句之前的所有句的對(duì)應(yīng)譯文作為上文信息序列對(duì),并基于所述上文信息序列對(duì)進(jìn)行所述待翻譯文檔中當(dāng)前句的逐句翻譯,直至所述待翻譯文檔全部翻譯結(jié)束,得到所述待翻譯文檔的候選文檔譯文;

5、對(duì)所述候選文檔譯文進(jìn)行檢查和修改,得到所述待翻譯文檔的目標(biāo)文檔譯文。

6、根據(jù)本發(fā)明提供的一種文檔翻譯方法,所述基于所述上文信息序列對(duì)進(jìn)行所述待翻譯文檔中當(dāng)前句的逐句翻譯,直至所述待翻譯文檔全部翻譯結(jié)束,得到所述待翻譯文檔的候選文檔譯文,包括:

7、基于文檔翻譯模型,以及所述上文信息序列對(duì)進(jìn)行所述待翻譯文檔中當(dāng)前句的逐句翻譯,直至所述待翻譯文檔全部翻譯結(jié)束,得到所述候選文檔譯文;

8、所述文檔翻譯模型的訓(xùn)練步驟,包括:

9、獲取句子級(jí)別的平行語料對(duì),并確定初始大型語言模型;

10、基于所述平行語料對(duì),對(duì)所述初始大型語言模型進(jìn)行訓(xùn)練,得到所述大型語言模型;

11、基于文檔語料對(duì),對(duì)所述大型語言模型進(jìn)行訓(xùn)練,得到所述文檔翻譯模型。

12、根據(jù)本發(fā)明提供的一種文檔翻譯方法,所述基于文檔語料對(duì),對(duì)所述大型語言模型進(jìn)行訓(xùn)練,得到所述文檔翻譯模型,包括:

13、獲取所述文檔語料對(duì)中的樣本文檔和所述樣本文檔對(duì)應(yīng)的樣本標(biāo)簽譯文;

14、在所述樣本文檔的樣本當(dāng)前句非第一句的情況下,將所述樣本當(dāng)前句之前的所有句和所述樣本當(dāng)前句之前的所有句的對(duì)應(yīng)譯文作為樣本上文信息序列對(duì),并將所述樣本上文信息序列對(duì)輸入所述大型語言模型中進(jìn)行所述樣本文檔中樣本當(dāng)前句的逐句翻譯,得到所述樣本當(dāng)前句的樣本預(yù)測(cè)譯文;

15、基于所述樣本預(yù)測(cè)譯文和所述樣本預(yù)測(cè)譯文對(duì)應(yīng)的樣本標(biāo)簽譯文之間的差異,對(duì)所述大型語言模型進(jìn)行參數(shù)迭代,得到所述文檔翻譯模型。

16、根據(jù)本發(fā)明提供的一種文檔翻譯方法,所述基于所述平行語料對(duì),對(duì)所述初始大型語言模型進(jìn)行訓(xùn)練,得到所述大型語言模型,包括:

17、獲取所述平行語料對(duì)中的樣本語句和所述樣本語句的標(biāo)簽譯文,并確定初始大型語言模型;

18、將所述樣本語句輸入至所述初始大型語言模型中,得到所述初始大型語言模型輸出的預(yù)測(cè)譯文,基于所述預(yù)測(cè)譯文和所述標(biāo)簽譯文之間的差異,對(duì)所述初始大型語言模型進(jìn)行參數(shù)迭代,得到所述大型語言模型。

19、根據(jù)本發(fā)明提供的一種文檔翻譯方法,所述對(duì)所述候選文檔譯文進(jìn)行檢查和修改,得到所述待翻譯文檔的目標(biāo)文檔譯文,包括:

20、基于大型語言模型和第一提示文本,對(duì)所述候選文檔譯文進(jìn)行一致性檢查,得到修改建議;

21、基于所述修改建議,對(duì)候選文檔譯文進(jìn)行修正,得到所述目標(biāo)文檔譯文。

22、根據(jù)本發(fā)明提供的一種文檔翻譯方法,所述基于所述修改建議,對(duì)候選文檔譯文進(jìn)行修正,得到所述目標(biāo)文檔譯文,包括:

23、基于所述大型語言模型和第二提示文本,以及所述修改建議,對(duì)所述候選文檔譯文進(jìn)行修正,得到所述目標(biāo)文檔譯文。

24、本發(fā)明還提供一種文檔翻譯系統(tǒng),包括如下模塊:

25、獲取單元,用于獲取待翻譯文檔;

26、確定候選文檔譯文單元,用于在所述待翻譯文檔的當(dāng)前句非第一句的情況下,將所述當(dāng)前句之前的所有句和所述當(dāng)前句之前的所有句的對(duì)應(yīng)譯文作為上文信息序列對(duì),并基于所述上文信息序列對(duì)進(jìn)行所述待翻譯文檔中當(dāng)前句的逐句翻譯,直至所述待翻譯文檔全部翻譯結(jié)束,得到所述待翻譯文檔的候選文檔譯文;

27、確定目標(biāo)文檔譯文單元,用于對(duì)所述候選文檔譯文進(jìn)行檢查和修改,得到所述待翻譯文檔的目標(biāo)文檔譯文。

28、本發(fā)明還提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上述任一種所述文檔翻譯方法。

29、本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述文檔翻譯方法。

30、本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述文檔翻譯方法。

31、本發(fā)明提供的文檔翻譯方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì),獲取待翻譯文檔;在待翻譯文檔的當(dāng)前句非第一句的情況下,將當(dāng)前句之前的所有句和當(dāng)前句之前的所有句的對(duì)應(yīng)譯文作為上文信息序列對(duì),并基于上文信息序列對(duì)進(jìn)行待翻譯文檔中當(dāng)前句的逐句翻譯,直至待翻譯文檔全部翻譯結(jié)束,得到待翻譯文檔的候選文檔譯文,最后,對(duì)候選文檔譯文進(jìn)行檢查和修改,得到待翻譯文檔的目標(biāo)文檔譯文。此過程將上文信息序列對(duì)引入到當(dāng)前翻譯,使得翻譯當(dāng)前句子時(shí)能夠參考到上文信息,克服了傳統(tǒng)句子級(jí)翻譯模型的局限性,顯著提升了文檔級(jí)別翻譯的質(zhì)量,提高了文檔翻譯的準(zhǔn)確性。



技術(shù)特征:

1.一種文檔翻譯方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的文檔翻譯方法,其特征在于,所述基于所述上文信息序列對(duì)進(jìn)行所述待翻譯文檔中當(dāng)前句的逐句翻譯,直至所述待翻譯文檔全部翻譯結(jié)束,得到所述待翻譯文檔的候選文檔譯文,包括:

3.根據(jù)權(quán)利要求2所述的文檔翻譯方法,其特征在于,所述基于文檔語料對(duì),對(duì)所述大型語言模型進(jìn)行訓(xùn)練,得到所述文檔翻譯模型,包括:

4.根據(jù)權(quán)利要求3所述的文檔翻譯方法,其特征在于,所述基于所述平行語料對(duì),對(duì)所述初始大型語言模型進(jìn)行訓(xùn)練,得到所述大型語言模型,包括:

5.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的文檔翻譯方法,其特征在于,所述對(duì)所述候選文檔譯文進(jìn)行檢查和修改,得到所述待翻譯文檔的目標(biāo)文檔譯文,包括:

6.根據(jù)權(quán)利要求5所述的文檔翻譯方法,其特征在于,所述基于所述修改建議,對(duì)候選文檔譯文進(jìn)行修正,得到所述目標(biāo)文檔譯文,包括:

7.一種文檔翻譯系統(tǒng),其特征在于,包括:

8.一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述文檔翻譯方法。

9.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述文檔翻譯方法。

10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述文檔翻譯方法。


技術(shù)總結(jié)
本發(fā)明提供一種文檔翻譯方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì),其中方法包括:獲取待翻譯文檔;在所述待翻譯文檔的當(dāng)前句非第一句的情況下,將所述當(dāng)前句之前的所有句和所述當(dāng)前句之前的所有句的對(duì)應(yīng)譯文作為上文信息序列對(duì),并基于所述上文信息序列對(duì)進(jìn)行所述待翻譯文檔中當(dāng)前句的逐句翻譯,直至所述待翻譯文檔全部翻譯結(jié)束,得到所述待翻譯文檔的候選文檔譯文;對(duì)所述候選文檔譯文進(jìn)行檢查和修改,得到所述待翻譯文檔的目標(biāo)文檔譯文。此過程將上文信息序列對(duì)引入到當(dāng)前翻譯,使得翻譯當(dāng)前句子時(shí)能夠參考到上文信息,克服了傳統(tǒng)句子級(jí)翻譯模型的局限性,顯著提升了文檔級(jí)別翻譯的質(zhì)量,提高了文檔翻譯的準(zhǔn)確性。

技術(shù)研發(fā)人員:鄧喬波
受保護(hù)的技術(shù)使用者:語聯(lián)網(wǎng)(武漢)信息技術(shù)有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/19
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1