本發(fā)明涉及多模態(tài)大模型,尤其涉及一種基于圖文全局信息的圖文模型訓(xùn)練方法及系統(tǒng)。
背景技術(shù):
1、圖像和句子匹配是視覺(jué)和語(yǔ)言領(lǐng)域的基本任務(wù)之一。這種跨模態(tài)匹配任務(wù)的目標(biāo)是準(zhǔn)確測(cè)量圖像和句子之間的視覺(jué)語(yǔ)義相似性。盡管近年來(lái)取得了重大進(jìn)展,但它仍然是一個(gè)具有挑戰(zhàn)性的問(wèn)題,因?yàn)樗枰斫庹Z(yǔ)言語(yǔ)義、視覺(jué)內(nèi)容以及跨模態(tài)關(guān)系和對(duì)齊。在深度學(xué)習(xí)成功的推動(dòng)下,主流已經(jīng)轉(zhuǎn)變?yōu)槟B(tài)特定的深度特征學(xué)習(xí),例如,學(xué)習(xí)圖像的卷積神經(jīng)網(wǎng)絡(luò)和句子的循環(huán)神經(jīng)網(wǎng)絡(luò)。對(duì)于視覺(jué)文本內(nèi)容理解,發(fā)展了許多成熟的深度主干模型,例如vgg、resnet、bert,這將各種任務(wù)的性能提高到了顯著水平?,F(xiàn)有大多數(shù)成功的圖文匹配模型,根據(jù)模態(tài)表示的粒度可以分為兩類:全局嵌入的方法和局部推理的方法。前者首先將整個(gè)圖像和句子嵌入到聯(lián)合嵌入空間中,然后計(jì)算視覺(jué)語(yǔ)義相似度。然而,僅使用全局對(duì)齊的方法始終表現(xiàn)出有限的性能,因?yàn)槲谋久枋鐾ǔ0嗉?xì)粒度的圖像細(xì)節(jié),這很容易被全局對(duì)齊平滑,導(dǎo)致對(duì)細(xì)粒度的建模不夠。后一種方法首先提取局部特征片段(例如,視覺(jué)區(qū)域和詞語(yǔ))的更加細(xì)粒度的表示,然后聚合局部相似性以推斷圖像文本對(duì)齊。大多數(shù)現(xiàn)有方法通過(guò)將共享語(yǔ)義表示為所有特征片段(圖像區(qū)域或文本單詞)的加權(quán)組合來(lái)實(shí)現(xiàn)這一目標(biāo),其中與共享語(yǔ)義相關(guān)的特征片段獲得更多關(guān)注,否則獲得更少關(guān)注。然而,盡管相關(guān)因素對(duì)共享語(yǔ)義的貢獻(xiàn)更大,但不相關(guān)因素或多或少會(huì)于擾共享語(yǔ)義,從而導(dǎo)致相關(guān)階段的語(yǔ)義錯(cuò)位。
2、在現(xiàn)有技術(shù)中,圖片信息單獨(dú)編碼,缺乏圖像間的信息交互,導(dǎo)致編碼特征中的關(guān)鍵信息缺失,如圖像間的對(duì)比關(guān)系、圖像間的發(fā)展趨勢(shì)、視頻中不同幀的聯(lián)系;無(wú)法準(zhǔn)確根據(jù)輸入的文本指令進(jìn)行冗余信息過(guò)濾,導(dǎo)致因關(guān)注點(diǎn)偏移而無(wú)法正確回答問(wèn)題,或無(wú)法實(shí)現(xiàn)準(zhǔn)確合理的推理路徑。通過(guò)lora訓(xùn)練技術(shù),專門訓(xùn)練針對(duì)圖像模態(tài)的額外參數(shù),圖文模態(tài)依然存在壁壘,無(wú)法實(shí)現(xiàn)深入?yún)f(xié)同理解;當(dāng)前模型的訓(xùn)練高度依賴圖文對(duì)齊數(shù)據(jù),需要在數(shù)據(jù)上花大量人力和時(shí)間。圖文大模型的訓(xùn)練無(wú)法像語(yǔ)言模型一樣,利用海量已有數(shù)據(jù),無(wú)需大量人工處理,即可進(jìn)行模型訓(xùn)練。如“下一個(gè)字預(yù)測(cè)”的語(yǔ)言模型訓(xùn)練范式,可以無(wú)需人工標(biāo)注直接進(jìn)行訓(xùn)練,而圖文模型需要依賴人工標(biāo)注的“圖文對(duì)”訓(xùn)練數(shù)據(jù)。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種基于圖文全局信息的圖文模型訓(xùn)練方法及系統(tǒng),用以解決現(xiàn)有圖文模態(tài)之間存在數(shù)據(jù)壁壘,難以深入?yún)f(xié)同理解處理的問(wèn)題。
2、本發(fā)明提供一種基于圖文全局信息的圖文模型訓(xùn)練方法,包括:
3、獲取原始的文本信息、多圖范式和圖像信息;
4、將所述圖像信息輸入至預(yù)設(shè)的圖文模型中的多圖范式編碼器生成多個(gè)圖像的關(guān)聯(lián)特征;
5、將所述多圖范式和圖像信息輸入至預(yù)設(shè)的圖文模型中的圖文語(yǔ)義轉(zhuǎn)換器獲取轉(zhuǎn)換后的圖像特征;
6、將所述文本信息、所述多個(gè)圖像的關(guān)聯(lián)特征和轉(zhuǎn)換后的圖像特征輸入至預(yù)設(shè)的圖文模型中的大語(yǔ)言模型,對(duì)所述大語(yǔ)言模型進(jìn)行訓(xùn)練,完成多圖與視頻圖文之間的關(guān)聯(lián)識(shí)別,得到訓(xùn)練后的多模態(tài)圖文模型。
7、根據(jù)本發(fā)明提供的一種基于圖文全局信息的圖文模型訓(xùn)練方法,所述將所述圖像信息輸入至預(yù)設(shè)的圖文模型中的多圖范式編碼器生成多個(gè)圖像的關(guān)聯(lián)特征,具體包括:
8、所述多圖范式編碼器捕獲圖片間的關(guān)聯(lián)、對(duì)比關(guān)系和遞進(jìn)關(guān)系;
9、對(duì)所述多圖范式編碼器的參數(shù)進(jìn)行初始化,通過(guò)多圖范式編碼器生成多個(gè)圖像的關(guān)聯(lián)特征。
10、根據(jù)本發(fā)明提供的一種基于圖文全局信息的圖文模型訓(xùn)練方法,所述預(yù)設(shè)的圖文模型基于原始文本信息和圖像信息經(jīng)過(guò)第一次前向傳播獲取圖文全局語(yǔ)義向量。
11、根據(jù)本發(fā)明提供的一種基于圖文全局信息的圖文模型訓(xùn)練方法,所述經(jīng)過(guò)第一次前向傳播獲取圖文全局語(yǔ)義向量之后,還包括:
12、基于所述圖文全局語(yǔ)義向量,所述圖文模型進(jìn)行第二次前向傳播,對(duì)原始輸入的文本信息和圖像信息去除冗余信息。
13、根據(jù)本發(fā)明提供的一種基于圖文全局信息的圖文模型訓(xùn)練方法,所述將所述文本信息、所述多個(gè)圖像的關(guān)聯(lián)特征和轉(zhuǎn)換后的圖像特征輸入至預(yù)設(shè)的圖文模型中的大語(yǔ)言模型,對(duì)所述大語(yǔ)言模型進(jìn)行訓(xùn)練,完成多圖與視頻圖文之間的關(guān)聯(lián)識(shí)別,得到訓(xùn)練后的多模態(tài)圖文模型,具體包括:
14、基于輸入的文本信息、所述多個(gè)圖像的關(guān)聯(lián)特征和轉(zhuǎn)換后的圖像特征采用多種方式分別刪除不同模態(tài)的輸入數(shù)據(jù);
15、基于刪除不同模態(tài)的輸入數(shù)據(jù)強(qiáng)制圖文模型從圖文全局語(yǔ)義向量和多個(gè)圖像的關(guān)聯(lián)特征中提取任務(wù)所需的關(guān)鍵信息。
16、根據(jù)本發(fā)明提供的一種基于圖文全局信息的圖文模型訓(xùn)練方法,所述基于輸入的文本信息、所述多個(gè)圖像的關(guān)聯(lián)特征和轉(zhuǎn)換后的圖像特征采用多種方式分別刪除不同模態(tài)的輸入數(shù)據(jù),具體包括:
17、設(shè)置刪除文本信息的訓(xùn)練目標(biāo),強(qiáng)化圖文模型對(duì)文本指令的理解,使得圖文模型從圖文全局語(yǔ)義向量中挖掘文本指令信息,需要構(gòu)造無(wú)文本指令的訓(xùn)練數(shù)據(jù);
18、設(shè)置刪除圖像信息的訓(xùn)練目標(biāo),強(qiáng)化圖文模型對(duì)圖像信息的記憶,使得圖文模型從圖文全局語(yǔ)義向量和多個(gè)圖像的關(guān)聯(lián)特征中挖掘圖像指令信息,需要構(gòu)造無(wú)圖像輸入的訓(xùn)練數(shù)據(jù);
19、設(shè)置刪除多圖關(guān)聯(lián)信息的訓(xùn)練目標(biāo),強(qiáng)化圖文模型對(duì)多圖關(guān)聯(lián)特征的抽取能力,使得圖文模型從圖文全局語(yǔ)義向量中挖掘多圖關(guān)聯(lián)信息,無(wú)需生成額外數(shù)據(jù)。
20、本發(fā)明還提供一種基于圖文全局信息的圖文模型訓(xùn)練系統(tǒng),所述系統(tǒng)包括:
21、數(shù)據(jù)獲取模塊,用于獲取原始的文本信息、多圖范式和圖像信息;
22、關(guān)聯(lián)特征生成模塊,用于將所述圖像信息輸入至預(yù)設(shè)的圖文模型中的多圖范式編碼器生成多個(gè)圖像的關(guān)聯(lián)特征;
23、特征轉(zhuǎn)換模塊,用于將所述多圖范式和圖像信息輸入至預(yù)設(shè)的圖文模型中的圖文語(yǔ)義轉(zhuǎn)換器獲取轉(zhuǎn)換后的圖像特征;
24、模型訓(xùn)練模塊,用于將所述文本信息、所述多個(gè)圖像的關(guān)聯(lián)特征和轉(zhuǎn)換后的圖像特征輸入至預(yù)設(shè)的圖文模型中的大語(yǔ)言模型,對(duì)所述大語(yǔ)言模型進(jìn)行訓(xùn)練,完成多圖與視頻圖文之間的關(guān)聯(lián)識(shí)別,得到訓(xùn)練后的多模態(tài)圖文模型。
25、本發(fā)明還提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上述任一種所述基于圖文全局信息的圖文模型訓(xùn)練方法。
26、本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述基于圖文全局信息的圖文模型訓(xùn)練方法。
27、本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述基于圖文全局信息的圖文模型訓(xùn)練方法。
28、本發(fā)明提供的一種基于圖文全局信息的圖文模型訓(xùn)練方法及系統(tǒng),通過(guò)基于圖文全局信息和圖像間特征范式學(xué)習(xí)的圖文模型結(jié)構(gòu),設(shè)計(jì)針對(duì)圖文全局信息和圖像間特征范式學(xué)習(xí)的訓(xùn)練策略。該策略包含與圖像描述生成的目標(biāo)不同的新型預(yù)訓(xùn)練目標(biāo),以及任務(wù)微調(diào)訓(xùn)練目標(biāo);通過(guò)自動(dòng)化數(shù)據(jù)批量生成方法,收集已有的“圖文對(duì)”數(shù)據(jù),包含“文本-圖像”?數(shù)據(jù)對(duì)和“視頻-圖像”數(shù)據(jù)對(duì)兩種形式。基于已有“圖文對(duì)”數(shù)據(jù),無(wú)需人工標(biāo)注,自動(dòng)生成大量圖文交錯(cuò)形式數(shù)據(jù),最終基于這些數(shù)據(jù)進(jìn)行模型預(yù)訓(xùn)練和任務(wù)微調(diào),打破圖文模態(tài)之間存在數(shù)據(jù)壁壘,實(shí)現(xiàn)深入?yún)f(xié)同理解處理。