一種基于圖文全局信息的圖文模型訓(xùn)練方法及系統(tǒng)

文檔序號(hào)：40403096發(fā)布日期：2024-12-20 12:26閱讀：5來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及多模態(tài)大模型，尤其涉及一種基于圖文全局信息的圖文模型訓(xùn)練方法及系統(tǒng)。

背景技術(shù)：

1、圖像和句子匹配是視覺(jué)和語(yǔ)言領(lǐng)域的基本任務(wù)之一。這種跨模態(tài)匹配任務(wù)的目標(biāo)是準(zhǔn)確測(cè)量圖像和句子之間的視覺(jué)語(yǔ)義相似性。盡管近年來(lái)取得了重大進(jìn)展,但它仍然是一個(gè)具有挑戰(zhàn)性的問(wèn)題,因?yàn)樗枰斫庹Z(yǔ)言語(yǔ)義、視覺(jué)內(nèi)容以及跨模態(tài)關(guān)系和對(duì)齊。在深度學(xué)習(xí)成功的推動(dòng)下,主流已經(jīng)轉(zhuǎn)變?yōu)槟B(tài)特定的深度特征學(xué)習(xí),例如,學(xué)習(xí)圖像的卷積神經(jīng)網(wǎng)絡(luò)和句子的循環(huán)神經(jīng)網(wǎng)絡(luò)。對(duì)于視覺(jué)文本內(nèi)容理解,發(fā)展了許多成熟的深度主干模型,例如vgg、resnet、bert,這將各種任務(wù)的性能提高到了顯著水平?，F(xiàn)有大多數(shù)成功的圖文匹配模型,根據(jù)模態(tài)表示的粒度可以分為兩類:全局嵌入的方法和局部推理的方法。前者首先將整個(gè)圖像和句子嵌入到聯(lián)合嵌入空間中,然后計(jì)算視覺(jué)語(yǔ)義相似度。然而,僅使用全局對(duì)齊的方法始終表現(xiàn)出有限的性能,因?yàn)槲谋久枋鐾ǔ０嗉?xì)粒度的圖像細(xì)節(jié),這很容易被全局對(duì)齊平滑,導(dǎo)致對(duì)細(xì)粒度的建模不夠。后一種方法首先提取局部特征片段(例如,視覺(jué)區(qū)域和詞語(yǔ))的更加細(xì)粒度的表示,然后聚合局部相似性以推斷圖像文本對(duì)齊。大多數(shù)現(xiàn)有方法通過(guò)將共享語(yǔ)義表示為所有特征片段(圖像區(qū)域或文本單詞)的加權(quán)組合來(lái)實(shí)現(xiàn)這一目標(biāo),其中與共享語(yǔ)義相關(guān)的特征片段獲得更多關(guān)注,否則獲得更少關(guān)注。然而,盡管相關(guān)因素對(duì)共享語(yǔ)義的貢獻(xiàn)更大,但不相關(guān)因素或多或少會(huì)于擾共享語(yǔ)義,從而導(dǎo)致相關(guān)階段的語(yǔ)義錯(cuò)位。

2、在現(xiàn)有技術(shù)中，圖片信息單獨(dú)編碼，缺乏圖像間的信息交互，導(dǎo)致編碼特征中的關(guān)鍵信息缺失，如圖像間的對(duì)比關(guān)系、圖像間的發(fā)展趨勢(shì)、視頻中不同幀的聯(lián)系；無(wú)法準(zhǔn)確根據(jù)輸入的文本指令進(jìn)行冗余信息過(guò)濾，導(dǎo)致因關(guān)注點(diǎn)偏移而無(wú)法正確回答問(wèn)題，或無(wú)法實(shí)現(xiàn)準(zhǔn)確合理的推理路徑。通過(guò)lora訓(xùn)練技術(shù)，專門訓(xùn)練針對(duì)圖像模態(tài)的額外參數(shù)，圖文模態(tài)依然存在壁壘，無(wú)法實(shí)現(xiàn)深入?yún)f(xié)同理解；當(dāng)前模型的訓(xùn)練高度依賴圖文對(duì)齊數(shù)據(jù)，需要在數(shù)據(jù)上花大量人力和時(shí)間。圖文大模型的訓(xùn)練無(wú)法像語(yǔ)言模型一樣，利用海量已有數(shù)據(jù)，無(wú)需大量人工處理，即可進(jìn)行模型訓(xùn)練。如“下一個(gè)字預(yù)測(cè)”的語(yǔ)言模型訓(xùn)練范式，可以無(wú)需人工標(biāo)注直接進(jìn)行訓(xùn)練，而圖文模型需要依賴人工標(biāo)注的“圖文對(duì)”訓(xùn)練數(shù)據(jù)。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明提供一種基于圖文全局信息的圖文模型訓(xùn)練方法及系統(tǒng)，用以解決現(xiàn)有圖文模態(tài)之間存在數(shù)據(jù)壁壘，難以深入?yún)f(xié)同理解處理的問(wèn)題。

2、本發(fā)明提供一種基于圖文全局信息的圖文模型訓(xùn)練方法，包括：

3、獲取原始的文本信息、多圖范式和圖像信息；

4、將所述圖像信息輸入至預(yù)設(shè)的圖文模型中的多圖范式編碼器生成多個(gè)圖像的關(guān)聯(lián)特征；

5、將所述多圖范式和圖像信息輸入至預(yù)設(shè)的圖文模型中的圖文語(yǔ)義轉(zhuǎn)換器獲取轉(zhuǎn)換后的圖像特征；

6、將所述文本信息、所述多個(gè)圖像的關(guān)聯(lián)特征和轉(zhuǎn)換后的圖像特征輸入至預(yù)設(shè)的圖文模型中的大語(yǔ)言模型，對(duì)所述大語(yǔ)言模型進(jìn)行訓(xùn)練，完成多圖與視頻圖文之間的關(guān)聯(lián)識(shí)別，得到訓(xùn)練后的多模態(tài)圖文模型。

7、根據(jù)本發(fā)明提供的一種基于圖文全局信息的圖文模型訓(xùn)練方法，所述將所述圖像信息輸入至預(yù)設(shè)的圖文模型中的多圖范式編碼器生成多個(gè)圖像的關(guān)聯(lián)特征，具體包括：

8、所述多圖范式編碼器捕獲圖片間的關(guān)聯(lián)、對(duì)比關(guān)系和遞進(jìn)關(guān)系；

9、對(duì)所述多圖范式編碼器的參數(shù)進(jìn)行初始化，通過(guò)多圖范式編碼器生成多個(gè)圖像的關(guān)聯(lián)特征。

10、根據(jù)本發(fā)明提供的一種基于圖文全局信息的圖文模型訓(xùn)練方法，所述預(yù)設(shè)的圖文模型基于原始文本信息和圖像信息經(jīng)過(guò)第一次前向傳播獲取圖文全局語(yǔ)義向量。

11、根據(jù)本發(fā)明提供的一種基于圖文全局信息的圖文模型訓(xùn)練方法，所述經(jīng)過(guò)第一次前向傳播獲取圖文全局語(yǔ)義向量之后，還包括：

12、基于所述圖文全局語(yǔ)義向量，所述圖文模型進(jìn)行第二次前向傳播，對(duì)原始輸入的文本信息和圖像信息去除冗余信息。

13、根據(jù)本發(fā)明提供的一種基于圖文全局信息的圖文模型訓(xùn)練方法，所述將所述文本信息、所述多個(gè)圖像的關(guān)聯(lián)特征和轉(zhuǎn)換后的圖像特征輸入至預(yù)設(shè)的圖文模型中的大語(yǔ)言模型，對(duì)所述大語(yǔ)言模型進(jìn)行訓(xùn)練，完成多圖與視頻圖文之間的關(guān)聯(lián)識(shí)別，得到訓(xùn)練后的多模態(tài)圖文模型，具體包括：

14、基于輸入的文本信息、所述多個(gè)圖像的關(guān)聯(lián)特征和轉(zhuǎn)換后的圖像特征采用多種方式分別刪除不同模態(tài)的輸入數(shù)據(jù)；

15、基于刪除不同模態(tài)的輸入數(shù)據(jù)強(qiáng)制圖文模型從圖文全局語(yǔ)義向量和多個(gè)圖像的關(guān)聯(lián)特征中提取任務(wù)所需的關(guān)鍵信息。

16、根據(jù)本發(fā)明提供的一種基于圖文全局信息的圖文模型訓(xùn)練方法，所述基于輸入的文本信息、所述多個(gè)圖像的關(guān)聯(lián)特征和轉(zhuǎn)換后的圖像特征采用多種方式分別刪除不同模態(tài)的輸入數(shù)據(jù)，具體包括：

17、設(shè)置刪除文本信息的訓(xùn)練目標(biāo)，強(qiáng)化圖文模型對(duì)文本指令的理解，使得圖文模型從圖文全局語(yǔ)義向量中挖掘文本指令信息，需要構(gòu)造無(wú)文本指令的訓(xùn)練數(shù)據(jù)；

18、設(shè)置刪除圖像信息的訓(xùn)練目標(biāo)，強(qiáng)化圖文模型對(duì)圖像信息的記憶，使得圖文模型從圖文全局語(yǔ)義向量和多個(gè)圖像的關(guān)聯(lián)特征中挖掘圖像指令信息，需要構(gòu)造無(wú)圖像輸入的訓(xùn)練數(shù)據(jù)；

19、設(shè)置刪除多圖關(guān)聯(lián)信息的訓(xùn)練目標(biāo)，強(qiáng)化圖文模型對(duì)多圖關(guān)聯(lián)特征的抽取能力，使得圖文模型從圖文全局語(yǔ)義向量中挖掘多圖關(guān)聯(lián)信息，無(wú)需生成額外數(shù)據(jù)。

20、本發(fā)明還提供一種基于圖文全局信息的圖文模型訓(xùn)練系統(tǒng)，所述系統(tǒng)包括：

21、數(shù)據(jù)獲取模塊，用于獲取原始的文本信息、多圖范式和圖像信息；

22、關(guān)聯(lián)特征生成模塊，用于將所述圖像信息輸入至預(yù)設(shè)的圖文模型中的多圖范式編碼器生成多個(gè)圖像的關(guān)聯(lián)特征；

23、特征轉(zhuǎn)換模塊，用于將所述多圖范式和圖像信息輸入至預(yù)設(shè)的圖文模型中的圖文語(yǔ)義轉(zhuǎn)換器獲取轉(zhuǎn)換后的圖像特征；

24、模型訓(xùn)練模塊，用于將所述文本信息、所述多個(gè)圖像的關(guān)聯(lián)特征和轉(zhuǎn)換后的圖像特征輸入至預(yù)設(shè)的圖文模型中的大語(yǔ)言模型，對(duì)所述大語(yǔ)言模型進(jìn)行訓(xùn)練，完成多圖與視頻圖文之間的關(guān)聯(lián)識(shí)別，得到訓(xùn)練后的多模態(tài)圖文模型。

25、本發(fā)明還提供一種電子設(shè)備，包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序，所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上述任一種所述基于圖文全局信息的圖文模型訓(xùn)練方法。

26、本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述基于圖文全局信息的圖文模型訓(xùn)練方法。

27、本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述基于圖文全局信息的圖文模型訓(xùn)練方法。

28、本發(fā)明提供的一種基于圖文全局信息的圖文模型訓(xùn)練方法及系統(tǒng)，通過(guò)基于圖文全局信息和圖像間特征范式學(xué)習(xí)的圖文模型結(jié)構(gòu)，設(shè)計(jì)針對(duì)圖文全局信息和圖像間特征范式學(xué)習(xí)的訓(xùn)練策略。該策略包含與圖像描述生成的目標(biāo)不同的新型預(yù)訓(xùn)練目標(biāo)，以及任務(wù)微調(diào)訓(xùn)練目標(biāo)；通過(guò)自動(dòng)化數(shù)據(jù)批量生成方法，收集已有的“圖文對(duì)”數(shù)據(jù)，包含“文本-圖像”?數(shù)據(jù)對(duì)和“視頻-圖像”數(shù)據(jù)對(duì)兩種形式。基于已有“圖文對(duì)”數(shù)據(jù)，無(wú)需人工標(biāo)注，自動(dòng)生成大量圖文交錯(cuò)形式數(shù)據(jù)，最終基于這些數(shù)據(jù)進(jìn)行模型預(yù)訓(xùn)練和任務(wù)微調(diào)，打破圖文模態(tài)之間存在數(shù)據(jù)壁壘，實(shí)現(xiàn)深入?yún)f(xié)同理解處理。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉洋,孫茂松,李鵬,王梓玥,陳馳,朱奕祺,羅富文,嚴(yán)明,張佶,黃非
技術(shù)所有人：清華大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于圖文全局信息的圖文模型訓(xùn)練方法及系統(tǒng)