多模態(tài)生成模型訓(xùn)練方法及裝置、文本生成方法及裝置與流程

文檔序號(hào)：40373279發(fā)布日期：2024-12-20 11:55閱讀：6來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本公開涉及人工智能，尤其涉及多模態(tài)生成模型的訓(xùn)練方法及訓(xùn)練裝置、文本生成方法及生成裝置。

背景技術(shù)：

1、隨著多模態(tài)大規(guī)模語言模型(multi-modal?large?language?model,mllm)等技術(shù)的興起，對(duì)不同模態(tài)和格式數(shù)據(jù)的統(tǒng)一處理成為時(shí)下研究與應(yīng)用重點(diǎn)。在醫(yī)學(xué)診療過程中，會(huì)產(chǎn)生大量文本信息及醫(yī)療影像數(shù)據(jù)信息，需要使用多模態(tài)生成模型根據(jù)用戶輸入的文本和醫(yī)療影像數(shù)據(jù)生成對(duì)應(yīng)的文本內(nèi)容，例如，根據(jù)用戶的b超圖像和相關(guān)的病情描述生成對(duì)b超圖像的文字描述。但現(xiàn)有的多模態(tài)生成模型均是面向通用場(chǎng)景設(shè)計(jì)的，由于醫(yī)療場(chǎng)景的高質(zhì)量圖像數(shù)據(jù)、文本語料相對(duì)匱乏，難以支持大規(guī)模模型訓(xùn)練，因此，現(xiàn)有的方法訓(xùn)練得到的多模態(tài)生成模型無法滿足醫(yī)療場(chǎng)景下對(duì)生成內(nèi)容的嚴(yán)謹(jǐn)性要求。這導(dǎo)致在醫(yī)學(xué)診療場(chǎng)景中，多模態(tài)生成模型容易導(dǎo)致模型幻覺，例如用戶輸入眼球彩超圖像和對(duì)應(yīng)的文字描述，模型最終生成“可見x光圖像，眼底未見黃斑區(qū)域”，若在醫(yī)學(xué)診療場(chǎng)景出現(xiàn)模型幻覺，這可能導(dǎo)致造成對(duì)患者病情的嚴(yán)重誤判。

技術(shù)實(shí)現(xiàn)思路

1、本公開提供了一種多模態(tài)生成模型訓(xùn)練方法、多模態(tài)生成模型訓(xùn)練裝置、文本生成方法、文本生成裝置、電子設(shè)備以及存儲(chǔ)介質(zhì)。

2、根據(jù)本公開的第一方面，提供了一種多模態(tài)生成模型訓(xùn)練方法，包括：

3、獲取第一訓(xùn)練樣本；

4、對(duì)所述第一訓(xùn)練樣本進(jìn)行劣化處理，得到第二訓(xùn)練樣本；

5、將所述第一訓(xùn)練樣本和所述第二訓(xùn)練樣本輸入初始生成模型，對(duì)所述初始生成模型進(jìn)行偏好對(duì)齊訓(xùn)練得到多模態(tài)生成模型。。

6、根據(jù)本公開的第二方面，提供了一種文本生成方法，包括：

7、獲取用戶輸入的圖像數(shù)據(jù)和文本數(shù)據(jù)；

8、將所述圖像數(shù)據(jù)和所述文本數(shù)據(jù)輸入上述技術(shù)方案中任意一項(xiàng)所述的多模態(tài)生成模型中；

9、通過所述多模態(tài)生成模型生成對(duì)應(yīng)的答復(fù)文本。

10、根據(jù)本公開的第三方面，提供了一種多模態(tài)生成模型訓(xùn)練裝置，包括：

11、第一獲取模塊，被配置為獲取第一訓(xùn)練樣本；

12、劣化模塊，被配置為對(duì)所述第一訓(xùn)練樣本進(jìn)行劣化處理，得到第二訓(xùn)練樣本；

13、訓(xùn)練模塊，被配置為將所述第一訓(xùn)練樣本和所述第二訓(xùn)練樣本輸入初始生成模型，對(duì)所述初始生成模型進(jìn)行偏好對(duì)齊訓(xùn)練得到多模態(tài)生成模型。

14、根據(jù)本公開的第四方面，一種文本生成裝置，包括：

15、第二獲取模塊，被配置為獲取用戶輸入的圖像數(shù)據(jù)和文本數(shù)據(jù)；

16、輸入模塊，被配置為將所述圖像數(shù)據(jù)和所述文本數(shù)據(jù)輸入上述技術(shù)方案中任意一項(xiàng)所述的多模態(tài)生成模型中；

17、生成模塊，被配置為通過所述多模態(tài)生成模型生成對(duì)應(yīng)的答復(fù)文本。

18、根據(jù)本公開的第五方面，提供了一種電子設(shè)備，包括：

19、至少一個(gè)處理器；以及

20、與所述至少一個(gè)處理器通信連接的存儲(chǔ)器；其中，

21、所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的指令，所述指令被所述至少一個(gè)處理器執(zhí)行，以使所述至少一個(gè)處理器能夠執(zhí)行上述技術(shù)方案中任一項(xiàng)所述的方法。

22、根據(jù)本公開的第六方面，提供了一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其中，所述計(jì)算機(jī)指令用于使所述計(jì)算機(jī)執(zhí)行上述技術(shù)方案中任一項(xiàng)所述的方法。

23、根據(jù)本公開的第七方面，提供了一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述技術(shù)方案中任一項(xiàng)所述的方法。

24、根據(jù)本公開的第八方面，提供了一種醫(yī)療影像知識(shí)問答系統(tǒng)，包括上述技術(shù)方案中任意一項(xiàng)所述的多模態(tài)生成模型。

25、應(yīng)當(dāng)理解，本部分所描述的內(nèi)容并非旨在標(biāo)識(shí)本公開的實(shí)施例的關(guān)鍵或重要特征，也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。

技術(shù)特征：

1.一種多模態(tài)生成模型訓(xùn)練方法，包括：

2.根據(jù)權(quán)利要求1所述的方法，其中，所述獲取第一訓(xùn)練樣本包括：

3.根據(jù)權(quán)利要求2所述的方法，其中，所述對(duì)所述第一訓(xùn)練樣本進(jìn)行劣化處理，得到第二訓(xùn)練樣本包括：

4.根據(jù)權(quán)利要求3所述的方法，其中，所述對(duì)所述目標(biāo)圖像進(jìn)行劣化處理，得到劣化圖像包括：

5.根據(jù)權(quán)利要求4所述的方法，其中，所述對(duì)所述目標(biāo)圖像中的整體結(jié)構(gòu)進(jìn)行劣化處理包括扭曲、變形、疊加偽色處理中的至少一項(xiàng)。

6.根據(jù)權(quán)利要求3所述的方法，其中，所述對(duì)所述目標(biāo)圖像進(jìn)行劣化處理，得到劣化圖像包括：

7.根據(jù)權(quán)利要求6所述的方法，其中，所述通過圖像分割得到所述目標(biāo)圖像中的關(guān)鍵結(jié)構(gòu)，對(duì)所述關(guān)鍵結(jié)構(gòu)進(jìn)行劣化處理包括摳取、擦除、替換、幾何變換、顏色變換處理中的至少一項(xiàng)。

8.根據(jù)權(quán)利要求3所述的方法，其中，所述對(duì)所述目標(biāo)文本進(jìn)行劣化處理，得到劣化文本包括：

9.根據(jù)權(quán)利要求8所述的方法，其中，所述通過所述大語言模型根據(jù)所述改寫指令對(duì)所述目標(biāo)文本進(jìn)行改寫，輸出對(duì)應(yīng)的所述劣化文本包括：

10.根據(jù)權(quán)利要求1-9中任意一項(xiàng)所述的方法，其中，所述將所述第一訓(xùn)練樣本和所述第二訓(xùn)練樣本輸入初始生成模型，對(duì)所述初始生成模型進(jìn)行偏好對(duì)齊訓(xùn)練得到多模態(tài)生成模型包括：

11.一種文本生成方法，包括：

12.一種多模態(tài)生成模型訓(xùn)練裝置，包括：

13.根據(jù)權(quán)利要求12所述的裝置，其中，所述第一獲取模塊獲取第一訓(xùn)練樣本包括：

14.根據(jù)權(quán)利要求13所述的裝置，其中，所述劣化模塊包括：

15.根據(jù)權(quán)利要求14所述的裝置，其中，所述圖像劣化單元對(duì)所述目標(biāo)圖像進(jìn)行劣化處理，得到劣化圖像包括：

16.根據(jù)權(quán)利要求15所述的裝置，其中，所述圖像劣化單元對(duì)所述目標(biāo)圖像中的整體結(jié)構(gòu)進(jìn)行劣化處理包括扭曲、變形、疊加偽色處理中的至少一項(xiàng)。

17.根據(jù)權(quán)利要求14所述的裝置，其中，所述圖像劣化單元對(duì)所述目標(biāo)圖像進(jìn)行劣化處理，得到劣化圖像包括：

18.根據(jù)權(quán)利要求17所述的裝置，其中，所述圖像劣化單元通過圖像分割得到所述目標(biāo)圖像中的關(guān)鍵結(jié)構(gòu)，對(duì)所述關(guān)鍵結(jié)構(gòu)進(jìn)行劣化處理包括摳取、擦除、替換、幾何變換、顏色變換處理中的至少一項(xiàng)。

19.根據(jù)權(quán)利要求14所述的裝置，其中，所述文本劣化單元對(duì)所述目標(biāo)文本進(jìn)行劣化處理，得到劣化文本包括：

20.根據(jù)權(quán)利要求19所述的裝置，其中，所述文本劣化單元通過所述大語言模型根據(jù)所述改寫指令對(duì)所述目標(biāo)文本進(jìn)行改寫，輸出對(duì)應(yīng)的所述劣化文本包括：

21.根據(jù)權(quán)利要求12-20中任意一項(xiàng)所述的裝置，其中，所述訓(xùn)練模塊包括：

22.一種文本生成裝置，包括：

23.一種電子設(shè)備，包括：

24.一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其中，所述計(jì)算機(jī)指令用于使所述計(jì)算機(jī)執(zhí)行根據(jù)權(quán)利要求1-11中任一項(xiàng)所述的方法。

25.一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)權(quán)利要求1-11中任一項(xiàng)所述的方法。

26.一種醫(yī)療影像知識(shí)問答系統(tǒng)，包括權(quán)利要求1-10中任意一項(xiàng)所述的多模態(tài)生成模型。

技術(shù)總結(jié)
本公開涉及人工智能技術(shù)領(lǐng)域，尤其涉及多模態(tài)生成模型的訓(xùn)練方法及訓(xùn)練裝置、文本生成方法及生成裝置。具體實(shí)現(xiàn)方案為：獲取第一訓(xùn)練樣本；對(duì)第一訓(xùn)練樣本進(jìn)行劣化處理，得到第二訓(xùn)練樣本；將第一訓(xùn)練樣本和第二訓(xùn)練樣本輸入初始生成模型，對(duì)初始生成模型進(jìn)行偏好對(duì)齊訓(xùn)練得到多模態(tài)生成模型。本公開可以對(duì)高質(zhì)量圖文數(shù)據(jù)進(jìn)行劣化處理得到非偏好數(shù)據(jù)，對(duì)初始生成模型進(jìn)行偏好對(duì)齊優(yōu)化，通過將大模型幻覺與或不嚴(yán)謹(jǐn)輸出內(nèi)容視為偏好對(duì)齊優(yōu)化訓(xùn)練中的負(fù)樣本，減少多模態(tài)生成模型的幻覺，有效提升醫(yī)學(xué)場(chǎng)景下多模態(tài)生成模型輸出內(nèi)容的嚴(yán)謹(jǐn)性。

技術(shù)研發(fā)人員：尚方信,陳俊,黃海峰
受保護(hù)的技術(shù)使用者：北京百度網(wǎng)訊科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/19

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：尚方信,陳俊,黃海峰
技術(shù)所有人：北京百度網(wǎng)訊科技有限公司
我是此專利的發(fā)明人

上一篇：一種網(wǎng)絡(luò)地板的制作方法
上一篇：一種組裝式配電柜的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

多模態(tài)生成模型訓(xùn)練方法及裝置、文本生成方法及裝置與流程

多模態(tài)生成模型訓(xùn)練方法及裝置、文本生成方法及裝置與流程