本技術(shù)涉及神經(jīng)網(wǎng)絡(luò)技術(shù),特別涉及多模態(tài)大模型的訓(xùn)練方法、存儲(chǔ)介質(zhì)和電子設(shè)備。
背景技術(shù):
1、多模態(tài)大模型(lmm)的訓(xùn)練需要使用到多模態(tài)的指令問答數(shù)據(jù),形式上為“圖像-指令-答案”的三元組。為了使多模態(tài)大模型能夠獲得通用能力,多模態(tài)訓(xùn)練數(shù)據(jù)一般具有較大規(guī)模的數(shù)據(jù)量,需要滿足多樣性和高質(zhì)量兩個(gè)要求。
2、多模態(tài)訓(xùn)練數(shù)據(jù)的來源包括:互聯(lián)網(wǎng)公開的多模態(tài)訓(xùn)練數(shù)據(jù)集、合成或改造的單一模態(tài)訓(xùn)練數(shù)據(jù)集、強(qiáng)能力lmm的生成數(shù)據(jù)、人工標(biāo)定等,并以不同的數(shù)據(jù)集形式存在。雖然這些多模態(tài)訓(xùn)練數(shù)據(jù)集來源多樣,但是如果不加篩選,直接混合這些數(shù)據(jù)集用于lmm的訓(xùn)練,就會(huì)存在以下問題:1.?圖像多樣性差:因?yàn)椴煌臄?shù)據(jù)集會(huì)高頻使用某些特定場景的圖像,如日常畫面、特寫鏡頭;2.?指令多樣性差:不同的數(shù)據(jù)集存在指令的偏好,而這些數(shù)據(jù)集的數(shù)據(jù)量是存在差異的,直接混合數(shù)據(jù)集會(huì)導(dǎo)致大數(shù)據(jù)量的數(shù)據(jù)集出現(xiàn)的指令類型占據(jù)了總數(shù)據(jù)中更大的比例,導(dǎo)致多樣性的失衡。所以,對各種來源收集到的多模態(tài)數(shù)據(jù)集進(jìn)行進(jìn)一步的處理篩選非常有必要,對未經(jīng)過篩選的數(shù)據(jù)稱之為原始多模態(tài)訓(xùn)練數(shù)據(jù),用來區(qū)別篩選后實(shí)際用于訓(xùn)練的數(shù)據(jù)?,F(xiàn)有的對原始多模態(tài)訓(xùn)練數(shù)據(jù)進(jìn)行篩選的方式,將篩選得到的訓(xùn)練數(shù)據(jù)用于lmm的訓(xùn)練后發(fā)現(xiàn),會(huì)導(dǎo)致lmm的模型性能受到影響,使模型性能變差。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)提供一種多模態(tài)大模型的訓(xùn)練方法、裝置、存儲(chǔ)介質(zhì)和電子設(shè)備,能夠利用篩選后的訓(xùn)練數(shù)據(jù)進(jìn)行多模態(tài)大模型訓(xùn)練,并有效保證多模態(tài)大模型的性能。
2、為實(shí)現(xiàn)上述目的,本技術(shù)采用如下技術(shù)方案:
3、一種多模態(tài)大模型的訓(xùn)練方法,包括:
4、利用預(yù)先訓(xùn)練的用于進(jìn)行標(biāo)簽標(biāo)注的標(biāo)簽專家多模態(tài)大模型lmm,對原始多模態(tài)訓(xùn)練數(shù)據(jù)預(yù)測標(biāo)簽;其中,所述標(biāo)簽包括用于標(biāo)記圖像類別的圖像標(biāo)簽、用于標(biāo)記指令類別的指令標(biāo)簽和用于標(biāo)記答案質(zhì)量的答案評級標(biāo)簽;
5、基于答案評級標(biāo)簽對所述原始多模態(tài)訓(xùn)練數(shù)據(jù)進(jìn)行過濾,得到過濾數(shù)據(jù)集;
6、基于過濾數(shù)據(jù)集中的所有數(shù)據(jù)樣本的圖像標(biāo)簽和指令標(biāo)簽,從所述過濾數(shù)據(jù)集中選擇數(shù)據(jù)樣本作為采樣數(shù)據(jù),使基于所有采樣數(shù)據(jù)的圖像標(biāo)簽和指令標(biāo)簽確定的標(biāo)簽熵最大化;
7、將所述采樣數(shù)據(jù)作為訓(xùn)練樣本進(jìn)行多模態(tài)大模型的訓(xùn)練。
8、較佳地,該方法進(jìn)一步包括:預(yù)先基于通用lmm,利用基于所述原始多模態(tài)數(shù)據(jù)確定的圖像標(biāo)簽種子訓(xùn)練數(shù)據(jù)、指令標(biāo)簽種子訓(xùn)練數(shù)據(jù)和答案評級標(biāo)簽種子訓(xùn)練數(shù)據(jù),訓(xùn)練生成所述標(biāo)簽專家lmm;
9、其中,所述圖像標(biāo)簽種子訓(xùn)練數(shù)據(jù)包括從所述原始多模態(tài)訓(xùn)練數(shù)據(jù)中選擇出的圖片、用于指示對所述圖片進(jìn)行圖像標(biāo)簽預(yù)測的指令和用于記錄圖像標(biāo)簽的答案;
10、所述指令標(biāo)簽種子訓(xùn)練數(shù)據(jù)包括從原始多模態(tài)訓(xùn)練數(shù)據(jù)中選擇出的指令、與選擇出的指令對應(yīng)的圖片和用于記錄指令標(biāo)簽的答案;
11、所述答案評級標(biāo)簽種子訓(xùn)練數(shù)據(jù)包括從所述原始多模態(tài)訓(xùn)練數(shù)據(jù)中基于答案選擇出的數(shù)據(jù)樣本中的圖片、用于指示進(jìn)行答案評級的指令,以及用于記錄標(biāo)簽評級的答案,所述標(biāo)簽評級為所述選擇出的數(shù)據(jù)樣本中的答案所屬的答案標(biāo)簽對應(yīng)的評級結(jié)果。
12、較佳地,所述標(biāo)簽評級為所述選擇出的數(shù)據(jù)樣本中答案所屬的各個(gè)標(biāo)簽的標(biāo)簽分級,該方法進(jìn)一步包括:基于所述各個(gè)標(biāo)簽的標(biāo)簽分級確定綜合標(biāo)簽分級;或者,所述答案評級標(biāo)簽包括基于所述選擇出的數(shù)據(jù)樣本中答案所屬的各個(gè)標(biāo)簽的標(biāo)簽分級確定的綜合標(biāo)簽分級;
13、所述基于答案評級標(biāo)簽對所述原始多模態(tài)數(shù)據(jù)進(jìn)行過濾,包括:將所述綜合標(biāo)簽分級不符合設(shè)定要求的數(shù)據(jù)樣本過濾掉。
14、較佳地,所述從所述過濾數(shù)據(jù)集中選擇數(shù)據(jù)樣本作為采樣數(shù)據(jù),包括:
15、a、將所述過濾數(shù)據(jù)集作為當(dāng)前過濾數(shù)據(jù)集,將當(dāng)前采樣數(shù)據(jù)集設(shè)置為空集;
16、b、在當(dāng)前過濾數(shù)據(jù)集中,對于每個(gè)當(dāng)前數(shù)據(jù)樣本,將該當(dāng)前數(shù)據(jù)樣本與當(dāng)前采樣數(shù)據(jù)集中的所有數(shù)據(jù)樣本聯(lián)合計(jì)算標(biāo)簽熵作為所述當(dāng)前數(shù)據(jù)樣本對應(yīng)的熵;
17、c、確定各個(gè)數(shù)據(jù)樣本對應(yīng)的熵的最大值,將所述熵的最大值對應(yīng)的數(shù)據(jù)樣本加入當(dāng)前采樣數(shù)據(jù)集,并從所述當(dāng)前過濾數(shù)據(jù)集中刪除相應(yīng)的當(dāng)前數(shù)據(jù)樣本,返回步驟b直到當(dāng)前采樣數(shù)據(jù)集中的樣本數(shù)滿足要求。
18、較佳地,所述從所述過濾數(shù)據(jù)集中選擇數(shù)據(jù)樣本作為采樣數(shù)據(jù),包括:
19、a、將當(dāng)前采樣數(shù)據(jù)集設(shè)置為空集;
20、b、從所述過濾數(shù)據(jù)集中未經(jīng)遍歷的數(shù)據(jù)樣本中選擇n個(gè)數(shù)據(jù)樣本作為當(dāng)前過濾數(shù)據(jù)集;n為預(yù)設(shè)的小于過濾數(shù)據(jù)集中數(shù)據(jù)樣本總數(shù)、且大于1的正整數(shù);
21、c、在當(dāng)前過濾數(shù)據(jù)集中,遍歷每個(gè)當(dāng)前數(shù)據(jù)樣本,將該當(dāng)前數(shù)據(jù)樣本與當(dāng)前采樣數(shù)據(jù)集中的所有數(shù)據(jù)樣本聯(lián)合計(jì)算標(biāo)簽熵作為所述當(dāng)前數(shù)據(jù)樣本對應(yīng)的熵;確定當(dāng)前過濾數(shù)據(jù)集中各個(gè)數(shù)據(jù)樣本對應(yīng)的熵的最大值,若該最大值大于當(dāng)前采樣數(shù)據(jù)集中所有數(shù)據(jù)樣本聯(lián)合計(jì)算的標(biāo)簽熵,則將所述熵的最大值對應(yīng)的當(dāng)前數(shù)據(jù)樣本加入當(dāng)前采樣數(shù)據(jù)集,返回步驟b直到當(dāng)前采樣數(shù)據(jù)集中的樣本數(shù)滿足要求;否則,直接返回步驟b直到當(dāng)前采樣數(shù)據(jù)集中的樣本數(shù)滿足要求。
22、較佳地,所述從所述過濾數(shù)據(jù)集中選擇數(shù)據(jù)樣本作為采樣數(shù)據(jù),包括:
23、a、將當(dāng)前采樣數(shù)據(jù)集設(shè)置為空集;
24、b、在所述過濾數(shù)據(jù)集中,依次選擇一個(gè)當(dāng)前數(shù)據(jù)樣本,將該當(dāng)前數(shù)據(jù)樣本與當(dāng)前采樣數(shù)據(jù)集中的所有數(shù)據(jù)樣本聯(lián)合計(jì)算標(biāo)簽熵作為所述當(dāng)前數(shù)據(jù)樣本對應(yīng)的熵;若所述當(dāng)前數(shù)據(jù)樣本對應(yīng)的熵大于當(dāng)前采樣數(shù)據(jù)集中所有數(shù)據(jù)樣本聯(lián)合計(jì)算的標(biāo)簽熵,則將所述當(dāng)前數(shù)據(jù)樣本加入當(dāng)前采樣數(shù)據(jù)集,并處理下一個(gè)被選擇的數(shù)據(jù)樣本,直到當(dāng)前采樣數(shù)據(jù)集中的樣本數(shù)滿足要求;若所述當(dāng)前數(shù)據(jù)樣本對應(yīng)的熵不大于當(dāng)前采樣數(shù)據(jù)集中所有數(shù)據(jù)樣本聯(lián)合計(jì)算的標(biāo)簽熵,則直接處理下一個(gè)被選擇的數(shù)據(jù)樣本,直到當(dāng)前采樣數(shù)據(jù)集中的樣本數(shù)滿足要求。
25、較佳地,該方法進(jìn)一步包括:利用訓(xùn)練好的多模態(tài)模型,進(jìn)一步訓(xùn)練所述標(biāo)簽專家lmm;和/或,
26、將所述標(biāo)簽專家lmm對原始多模態(tài)數(shù)據(jù)中的數(shù)據(jù)樣本預(yù)測得到的標(biāo)簽和相應(yīng)的數(shù)據(jù)樣本作為訓(xùn)練數(shù)據(jù),用于進(jìn)一步訓(xùn)練所述標(biāo)簽專家lmm。
27、一種多模態(tài)模型的訓(xùn)練裝置,該裝置包括:標(biāo)簽預(yù)測單元、數(shù)據(jù)過濾單元、數(shù)據(jù)采樣單元和多模態(tài)模型訓(xùn)練單元;
28、所述標(biāo)簽預(yù)測單元,用于利用預(yù)先訓(xùn)練的用于進(jìn)行標(biāo)簽標(biāo)注的標(biāo)簽專家多模態(tài)大模型lmm,對原始多模態(tài)數(shù)據(jù)中的每個(gè)數(shù)據(jù)樣本預(yù)測標(biāo)簽;其中,所述標(biāo)簽包括用于標(biāo)記圖像類別的圖像標(biāo)簽、用于標(biāo)記指令類別的指令標(biāo)簽和用于標(biāo)記答案質(zhì)量的答案評級標(biāo)簽;
29、所述數(shù)據(jù)過濾單元,用于基于答案評級標(biāo)簽對所述原始多模態(tài)數(shù)據(jù)進(jìn)行過濾,得到過濾數(shù)據(jù)集;
30、所述數(shù)據(jù)采樣單元,用于基于過濾數(shù)據(jù)集中的所有數(shù)據(jù)樣本的圖像標(biāo)簽和指令標(biāo)簽,從所述過濾數(shù)據(jù)集中選擇數(shù)據(jù)樣本作為采樣數(shù)據(jù),使基于所有采樣數(shù)據(jù)的圖像標(biāo)簽和指令標(biāo)簽確定的標(biāo)簽熵最大化;
31、所述多模態(tài)模型訓(xùn)練單元,用于將所述采樣數(shù)據(jù)作為訓(xùn)練樣本進(jìn)行多模態(tài)模型的訓(xùn)練。
32、較佳地,該裝置進(jìn)一步包括標(biāo)簽專家訓(xùn)練單元,用于預(yù)先基于通用lmm,利用基于所述原始多模態(tài)數(shù)據(jù)確定的圖像標(biāo)簽種子訓(xùn)練數(shù)據(jù)、指令標(biāo)簽種子訓(xùn)練數(shù)據(jù)和答案評級標(biāo)簽種子訓(xùn)練數(shù)據(jù),訓(xùn)練生成所述標(biāo)簽專家lmm;
33、其中,所述圖像標(biāo)簽種子訓(xùn)練數(shù)據(jù)包括從所述原始多模態(tài)數(shù)據(jù)中選擇出的圖片、用于指示對所述圖片進(jìn)行圖像標(biāo)簽預(yù)測的指令和用于記錄圖像標(biāo)簽的答案;
34、所述指令標(biāo)簽種子訓(xùn)練數(shù)據(jù)包括從原始多模態(tài)數(shù)據(jù)中選擇出的指令、與選擇出的指令對應(yīng)的圖片和用于記錄指令標(biāo)簽的答案;
35、所述答案評級標(biāo)簽種子訓(xùn)練數(shù)據(jù)包括從所述原始多模態(tài)數(shù)據(jù)中基于答案選擇出的數(shù)據(jù)樣本中的圖片和指令,以及用于記錄標(biāo)簽評級的答案,所述標(biāo)簽評級為所述選擇出的數(shù)據(jù)樣本中的答案所屬的答案標(biāo)簽對應(yīng)的評級結(jié)果。
36、較佳地,所述標(biāo)簽評級為所述選擇出的數(shù)據(jù)樣本中答案所屬的各個(gè)標(biāo)簽的標(biāo)簽分級,所述標(biāo)簽專家訓(xùn)練單元,進(jìn)一步用于基于所述各個(gè)標(biāo)簽的標(biāo)簽分級確定綜合標(biāo)簽分級;或者,所述答案評級標(biāo)簽為基于所述選擇出的數(shù)據(jù)樣本中答案所屬的各個(gè)標(biāo)簽的標(biāo)簽分級確定的綜合標(biāo)簽分級;
37、所述數(shù)據(jù)過濾單元,用于將所述綜合標(biāo)簽分級不符合設(shè)定要求的數(shù)據(jù)樣本過濾掉。
38、較佳地,在所述數(shù)據(jù)采樣單元中,所述從所述過濾數(shù)據(jù)集中選擇數(shù)據(jù)樣本作為采樣數(shù)據(jù),包括:
39、a、將所述過濾數(shù)據(jù)集作為當(dāng)前過濾數(shù)據(jù)集,將當(dāng)前采樣數(shù)據(jù)集設(shè)置為空集;
40、b、在當(dāng)前過濾數(shù)據(jù)集中,對于每個(gè)當(dāng)前數(shù)據(jù)樣本,將該當(dāng)前數(shù)據(jù)樣本與當(dāng)前采樣數(shù)據(jù)集中的所有數(shù)據(jù)樣本聯(lián)合計(jì)算標(biāo)簽熵作為所述當(dāng)前數(shù)據(jù)樣本對應(yīng)的熵;
41、c、確定各個(gè)數(shù)據(jù)樣本對應(yīng)的熵的最大值,將所述熵的最大值對應(yīng)的數(shù)據(jù)樣本加入當(dāng)前采樣數(shù)據(jù)集,并從所述當(dāng)前過濾數(shù)據(jù)集中刪除相應(yīng)的當(dāng)前數(shù)據(jù)樣本,返回步驟b直到當(dāng)前采樣數(shù)據(jù)集中的樣本數(shù)滿足要求。
42、較佳地,在所述數(shù)據(jù)采樣單元中,所述從所述過濾數(shù)據(jù)集中選擇數(shù)據(jù)樣本作為采樣數(shù)據(jù),包括:
43、a、將當(dāng)前采樣數(shù)據(jù)集設(shè)置為空集;
44、b、從所述過濾數(shù)據(jù)集中未經(jīng)遍歷的數(shù)據(jù)樣本中選擇n個(gè)數(shù)據(jù)樣本作為當(dāng)前過濾數(shù)據(jù)集;
45、c、在當(dāng)前過濾數(shù)據(jù)集中,遍歷每個(gè)當(dāng)前數(shù)據(jù)樣本,將該當(dāng)前數(shù)據(jù)樣本與當(dāng)前采樣數(shù)據(jù)集中的所有數(shù)據(jù)樣本聯(lián)合計(jì)算標(biāo)簽熵作為所述當(dāng)前數(shù)據(jù)樣本對應(yīng)的熵;確定當(dāng)前過濾數(shù)據(jù)集中各個(gè)數(shù)據(jù)樣本對應(yīng)的熵的最大值,若該最大值大于當(dāng)前采樣數(shù)據(jù)集中所有數(shù)據(jù)樣本聯(lián)合計(jì)算的標(biāo)簽熵,則將所述熵的最大值對應(yīng)的當(dāng)前數(shù)據(jù)樣本加入當(dāng)前采樣數(shù)據(jù)集,返回步驟b直到當(dāng)前采樣數(shù)據(jù)集中的樣本數(shù)滿足要求;否則,直接返回步驟b直到當(dāng)前采樣數(shù)據(jù)集中的樣本數(shù)滿足要求。
46、較佳地,在所述數(shù)據(jù)采樣單元中,所述從所述過濾數(shù)據(jù)集中選擇數(shù)據(jù)樣本作為采樣數(shù)據(jù),包括:
47、a、將當(dāng)前采樣數(shù)據(jù)集設(shè)置為空集;
48、b、在所述過濾數(shù)據(jù)集中,依次選擇一個(gè)當(dāng)前數(shù)據(jù)樣本,將該當(dāng)前數(shù)據(jù)樣本與當(dāng)前采樣數(shù)據(jù)集中的所有數(shù)據(jù)樣本聯(lián)合計(jì)算標(biāo)簽熵作為所述當(dāng)前數(shù)據(jù)樣本對應(yīng)的熵;若所述當(dāng)前數(shù)據(jù)樣本對應(yīng)的熵大于當(dāng)前采樣數(shù)據(jù)集中所有數(shù)據(jù)樣本聯(lián)合計(jì)算的標(biāo)簽熵,則將所述當(dāng)前數(shù)據(jù)樣本加入當(dāng)前采樣數(shù)據(jù)集,并處理下一個(gè)被選擇的數(shù)據(jù)樣本,直到當(dāng)前采樣數(shù)據(jù)集中的樣本數(shù)滿足要求;若所述當(dāng)前數(shù)據(jù)樣本對應(yīng)的熵不大于當(dāng)前采樣數(shù)據(jù)集中所有數(shù)據(jù)樣本聯(lián)合計(jì)算的標(biāo)簽熵,則直接處理下一個(gè)被選擇的數(shù)據(jù)樣本,直到當(dāng)前采樣數(shù)據(jù)集中的樣本數(shù)滿足要求。
49、較佳地,所述標(biāo)簽專家訓(xùn)練單元,用于利用訓(xùn)練好的多模態(tài)模型,進(jìn)一步訓(xùn)練所述標(biāo)簽專家lmm;和/或,
50、所述標(biāo)簽專家訓(xùn)練單元,用于將所述標(biāo)簽專家lmm對原始多模態(tài)數(shù)據(jù)中的數(shù)據(jù)樣本預(yù)測得到的標(biāo)簽和相應(yīng)的數(shù)據(jù)樣本作為訓(xùn)練數(shù)據(jù),用于進(jìn)一步訓(xùn)練所述標(biāo)簽專家lmm。
51、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)指令,所述指令被處理器執(zhí)行時(shí)可實(shí)現(xiàn)上述任一項(xiàng)所述的多模態(tài)模型訓(xùn)練方法。
52、一種電子設(shè)備,該電子設(shè)備至少包括計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),還包括處理器;
53、所述處理器,用于從所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中讀取可執(zhí)行指令,并執(zhí)行所述指令以實(shí)現(xiàn)上述任一項(xiàng)所述的多模態(tài)模型訓(xùn)練方法。
54、由上述技術(shù)方案可見,本技術(shù)中,首先利用預(yù)先訓(xùn)練的用于進(jìn)行標(biāo)簽標(biāo)注的標(biāo)簽專家lmm,對原始多模態(tài)訓(xùn)練數(shù)據(jù)中的每個(gè)數(shù)據(jù)樣本預(yù)測標(biāo)簽,得到圖像標(biāo)簽、指令標(biāo)簽和答案評級標(biāo)簽,從而為每個(gè)數(shù)據(jù)樣本增加三個(gè)新的維度的信息,分別用來表征數(shù)據(jù)樣本的圖像類別、指令類別和答案質(zhì)量;接下來,基于各數(shù)據(jù)樣本的答案評級標(biāo)簽對原始多模態(tài)數(shù)據(jù)進(jìn)行過濾,得到過濾數(shù)據(jù)集,這一處理中由于答案評級標(biāo)簽?zāi)軌虮碚鲾?shù)據(jù)樣本的答案質(zhì)量,因此相應(yīng)的過濾處理可以將原始多模態(tài)訓(xùn)練數(shù)據(jù)中質(zhì)量不符合要求的數(shù)據(jù)樣本過濾掉,從而提高多模態(tài)模型的訓(xùn)練數(shù)據(jù)的質(zhì)量,進(jìn)而改善訓(xùn)練得到的多模態(tài)模型的性能;接下來,基于過濾數(shù)據(jù)集中的所有數(shù)據(jù)樣本的圖像標(biāo)簽和指令標(biāo)簽,從過濾數(shù)據(jù)集中選擇數(shù)據(jù)樣本作為采樣數(shù)據(jù),數(shù)據(jù)選擇的原則是使基于所有采樣數(shù)據(jù)的圖像標(biāo)簽和指令標(biāo)簽確定的標(biāo)簽熵最大化,由于圖像標(biāo)簽和指令標(biāo)簽分別表征數(shù)據(jù)樣本的圖像類別和指令類別,因此基于標(biāo)簽熵最大化的原則可以實(shí)現(xiàn)采樣數(shù)據(jù)的多樣性;最后,利用采樣數(shù)據(jù)進(jìn)行多模態(tài)大模型的訓(xùn)練。由于一方面通過答案評級標(biāo)簽過濾了低質(zhì)量訓(xùn)練數(shù)據(jù),另一方面通過圖像標(biāo)簽和指令標(biāo)簽選擇更具多樣性的數(shù)據(jù)用于模型訓(xùn)練,因此,用于進(jìn)行多模態(tài)大模型訓(xùn)練的數(shù)據(jù)能夠同時(shí)滿足多樣性和高質(zhì)量的要求,基于這樣的數(shù)據(jù)進(jìn)行訓(xùn)練能夠有效保證多模態(tài)大模型的性能。