一種基于解糾纏表示的對(duì)比文本風(fēng)格遷移方法

文檔序號(hào)：40393860發(fā)布日期：2024-12-20 12:17閱讀：5來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及自然語(yǔ)言處理技術(shù)，特別涉及文本風(fēng)格遷移方法。

背景技術(shù)：

1、文本風(fēng)格遷移旨在將一種風(fēng)格的文本轉(zhuǎn)換為另一種風(fēng)格的文本，同時(shí)保持文本內(nèi)容的原意不變。隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展，文本風(fēng)格遷移技術(shù)得到了廣泛的關(guān)注和應(yīng)用。目前，文本風(fēng)格遷移技術(shù)已經(jīng)取得了顯著的進(jìn)展，并在多個(gè)領(lǐng)域得到了應(yīng)用。例如，在文學(xué)創(chuàng)作領(lǐng)域，可以利用文本風(fēng)格遷移技術(shù)將現(xiàn)代小說(shuō)轉(zhuǎn)換為古典風(fēng)格，為文學(xué)創(chuàng)作提供新的靈感和表達(dá)方式。在社交媒體領(lǐng)域，可以利用文本風(fēng)格遷移技術(shù)將正式文本轉(zhuǎn)換為口語(yǔ)化風(fēng)格，提高文本的可讀性和親和力。

2、傳統(tǒng)的文本風(fēng)格遷移方法主要依賴于規(guī)則或模板，通過(guò)手動(dòng)定義風(fēng)格轉(zhuǎn)換的規(guī)則來(lái)實(shí)現(xiàn)風(fēng)格遷移。然而，這種方法受限于規(guī)則的設(shè)計(jì)和模板的泛化能力，往往難以處理復(fù)雜的文本風(fēng)格和多樣的轉(zhuǎn)換需求。近年來(lái)，深度學(xué)習(xí)技術(shù)的興起為文本風(fēng)格遷移提供了新的解決思路?；谏疃葘W(xué)習(xí)的文本風(fēng)格遷移方法利用注意力機(jī)制等技術(shù)來(lái)捕捉文本的關(guān)鍵信息。該類(lèi)方法大多是建立在編碼器-解碼器架構(gòu)的，但也有另一類(lèi)基于生成對(duì)抗網(wǎng)絡(luò)的方法被用來(lái)解決風(fēng)格遷移問(wèn)題。用于風(fēng)格轉(zhuǎn)換的編碼器-解碼器架構(gòu)通常利用編碼器來(lái)創(chuàng)建輸入句子的潛在表示，利用解碼器以潛在表示為條件生成輸出句子，而分類(lèi)器確定輸出句子的風(fēng)格標(biāo)簽?；谏蓪?duì)抗網(wǎng)絡(luò)的風(fēng)格遷移模型，其編碼器對(duì)應(yīng)為生成器，分類(lèi)器對(duì)應(yīng)為鑒別器。

3、但上述兩類(lèi)方法面臨著挑戰(zhàn)，即很難從一個(gè)句子的語(yǔ)義中完全剝離出風(fēng)格信息。此外，基于遞歸神經(jīng)網(wǎng)絡(luò)的編碼器和解碼器，在隱表征的介入下，不能很好地處理長(zhǎng)期依賴問(wèn)題，導(dǎo)致非風(fēng)格語(yǔ)義內(nèi)容的保存較差。總的來(lái)說(shuō)，現(xiàn)有方法不足以使模型獲取到精確的表示。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明為解決現(xiàn)有技術(shù)中風(fēng)格和內(nèi)容信息難以剝離以及非風(fēng)格語(yǔ)義內(nèi)容信息保留較差，從而導(dǎo)致模型不足以獲得精確的表示問(wèn)題，提供一種基于解糾纏表示和對(duì)比學(xué)習(xí)的文本風(fēng)格遷移方法。

2、本發(fā)明為解決上述技術(shù)問(wèn)題所采用的技術(shù)方案是，一種基于解糾纏表示的對(duì)比文本風(fēng)格遷移方法，包括步驟：

3、1.解糾纏表示模型預(yù)訓(xùn)練步驟：

4、1.1獲取訓(xùn)練語(yǔ)料，并對(duì)訓(xùn)練語(yǔ)料進(jìn)行預(yù)處理；如選取廣泛使用的styleptb數(shù)據(jù)集為訓(xùn)練語(yǔ)料；

5、1.2將訓(xùn)練語(yǔ)料中的輸入樣本輸入解糾纏表示模型中的解析器進(jìn)行解糾纏；解析器由一個(gè)風(fēng)格編碼器和一個(gè)內(nèi)容編碼器組成，用于將文本表示分解為風(fēng)格表示和內(nèi)容表示；

6、1.3根據(jù)風(fēng)格表示和內(nèi)容表示構(gòu)造正負(fù)樣本對(duì)；內(nèi)容需要保留，因此源句和目標(biāo)句的內(nèi)容表示構(gòu)造為正樣本對(duì)；其余的風(fēng)格表示和內(nèi)容表示兩兩構(gòu)造為一個(gè)負(fù)樣本對(duì)；

7、1.4利用解糾纏表示模型中的解碼器將解糾纏的風(fēng)格表示和內(nèi)容表示復(fù)原文本表示并輸出至對(duì)比文本風(fēng)格遷移模型；

8、1.5利用構(gòu)造的正負(fù)樣本對(duì)來(lái)計(jì)算解糾纏損失，并計(jì)算正負(fù)樣本與解碼器復(fù)原的文本表示之間的逆解糾纏損失來(lái)引導(dǎo)解糾纏表示模型學(xué)習(xí)，使得解糾纏表示模型具有正確解離風(fēng)格表示和內(nèi)容表示的能力，從而獲得更精準(zhǔn)的文本表示；

9、2.基于解糾纏表示的對(duì)比文本風(fēng)格遷移模型訓(xùn)練步驟：

10、2.1對(duì)比文本風(fēng)格遷移模型接收文本表示；

11、2.2對(duì)比文本風(fēng)格遷移模型通過(guò)集束搜索算法輸出自動(dòng)生成的候選樣本，并將候選樣本引入同一批次對(duì)比樣本集合，通過(guò)增強(qiáng)的方式擴(kuò)大對(duì)比樣本集合；

12、2.3選擇n-pairs損失做為對(duì)比損失來(lái)引導(dǎo)對(duì)比文本風(fēng)格遷移模型學(xué)習(xí)輸出候選樣本的風(fēng)格遷移為目標(biāo)風(fēng)格；通過(guò)解碼損失來(lái)引導(dǎo)對(duì)比文本風(fēng)格遷移模型學(xué)習(xí)輸出候選樣本的相對(duì)于輸入的文本表示的內(nèi)容保持不變；

13、3.測(cè)試步驟：

14、確定目標(biāo)風(fēng)格，將源文本輸入解糾纏表示模型，解糾纏表示模型輸出文本表示至對(duì)比文本風(fēng)格遷移模型，解糾纏表示模型輸出內(nèi)容保持不變，風(fēng)格遷移為目標(biāo)風(fēng)格的文本。

15、本發(fā)明的有益效果是：

16、通過(guò)利用解糾纏表示學(xué)習(xí)，正確的分離風(fēng)格表示和內(nèi)容表示，從而使得模型能獲取更精確的文本表示，解決了現(xiàn)有方法中風(fēng)格和內(nèi)容難以分離以及非風(fēng)格信息難以保留等問(wèn)題。

17、同時(shí)，基于解糾纏的表示，引入對(duì)比學(xué)習(xí)，為其生成符合預(yù)期目標(biāo)風(fēng)格的文本，一定程度上緩解了由于訓(xùn)練和測(cè)試過(guò)程中數(shù)據(jù)不一致導(dǎo)致的曝光偏差問(wèn)題，并實(shí)現(xiàn)了文本風(fēng)格遷移的最終目標(biāo)。

18、本發(fā)明的有益效果是，文本風(fēng)格遷移更加高效便捷的同時(shí)，風(fēng)格遷移效果也得到了保證。

技術(shù)特征：

1.一種基于解糾纏表示的對(duì)比文本風(fēng)格遷移方法，其特征在于，包括步驟：

2.如權(quán)利要求1所述方法，其特征在于，預(yù)訓(xùn)練語(yǔ)料為基準(zhǔn)數(shù)據(jù)集styleptb。

3.如權(quán)利要求1所述方法，其特征在于，預(yù)訓(xùn)練語(yǔ)料的預(yù)處理具體方法為：

4.如權(quán)利要求3所述方法，其特征在于，風(fēng)格編碼器和內(nèi)容編碼器都由12層transformer的編碼器encoder堆疊形成，中間層的編碼器通過(guò)注意力機(jī)制來(lái)增強(qiáng)模型的語(yǔ)義表示能力；

5.如權(quán)利要求1所述方法，其特征在于，源句和目標(biāo)句的內(nèi)容表示構(gòu)造為正樣本對(duì)表示為{xc,yc}；

6.一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序/指令，其特征在于，該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1所述方法的步驟。

技術(shù)總結(jié)
本發(fā)明涉及文本風(fēng)格遷移技術(shù)，提供一種基于解糾纏表示的對(duì)比文本風(fēng)格遷移方法，旨在于解決現(xiàn)有的文本風(fēng)格遷移不足以精確表示風(fēng)格遷移中的風(fēng)格特征以及由學(xué)習(xí)的隱表示生成具有目標(biāo)風(fēng)格文本困難等問(wèn)題。本發(fā)明主要包括：預(yù)訓(xùn)練解糾纏表示模型，通過(guò)將特征表示解離為風(fēng)格表示和內(nèi)容表示，以獲得更精確的文本表示方法；基于解糾纏表示的對(duì)比文本風(fēng)格遷移方法，基于上述模塊得到更精確地表示后，通過(guò)引入自生成的增強(qiáng)數(shù)據(jù)樣本作為新的樣本來(lái)構(gòu)造對(duì)比樣本，并選擇合適的對(duì)比損失和對(duì)比訓(xùn)練策略來(lái)引導(dǎo)風(fēng)格遷移模型的學(xué)習(xí)使得最終模型學(xué)習(xí)到了將輸入文本現(xiàn)有風(fēng)格遷移到目標(biāo)風(fēng)格的能力。

技術(shù)研發(fā)人員：許毅,王勇,詹思瑜,余瀲驊,李云灝,韋子龍
受保護(hù)的技術(shù)使用者：電子科技大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/19

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：許毅,王勇,詹思瑜,余瀲驊,李云灝,韋子龍
技術(shù)所有人：電子科技大學(xué)
我是此專(zhuān)利的發(fā)明人

上一篇：一種用于高鐵餐車(chē)的滑軌的制作方法
上一篇：銅金屬壓塊裝置的制作方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于解糾纏表示的對(duì)比文本風(fēng)格遷移方法