本發(fā)明涉及人工智能,更具體的說是涉及一種多模態(tài)大模型自動(dòng)糾錯(cuò)方法及系統(tǒng)。
背景技術(shù):
1、在現(xiàn)代技術(shù)應(yīng)用中特別是在人工智能領(lǐng)域,多模態(tài)大模型已經(jīng)成為了一種重要的發(fā)展趨勢。這些模型結(jié)合了文本、圖像、語音等多種數(shù)據(jù)類型,提供了更為全面和精準(zhǔn)的服務(wù)能力。然而,盡管多模態(tài)大模型在數(shù)據(jù)處理和認(rèn)知功能上取得了顯著的進(jìn)展,它們在確保輸出結(jié)果的準(zhǔn)確性和可靠性方面仍面臨一些挑戰(zhàn)。
2、當(dāng)前,多模態(tài)大模型的一個(gè)主要問題是各模態(tài)間協(xié)調(diào)不足,如信息融合不充分,導(dǎo)致處理結(jié)果不盡人意。例如,當(dāng)模型同時(shí)處理文本和圖像數(shù)據(jù)時(shí),如果不能準(zhǔn)確地將兩種類型的信息融合起來,可能會(huì)導(dǎo)致誤解或錯(cuò)誤的結(jié)論。此外,盡管現(xiàn)有的大模型可以采用一定的糾錯(cuò)措施,但這些措施往往局限于單一模態(tài),難以在跨模態(tài)的錯(cuò)誤識(shí)別和修正中發(fā)揮作用。例如,基于語言模型的文本糾錯(cuò)方法可能無法糾正由于圖像數(shù)據(jù)解析錯(cuò)誤而導(dǎo)致的文本生成錯(cuò)誤。
3、多數(shù)現(xiàn)有系統(tǒng)的糾錯(cuò)過程也缺乏靈活性和自適應(yīng)能力,不能根據(jù)不同類型的錯(cuò)誤動(dòng)態(tài)調(diào)整糾錯(cuò)策略。這限制了模型在復(fù)雜應(yīng)用場景下的實(shí)用性和可靠性。
4、因此,如何克服上述問題,使模型能夠?qū)崿F(xiàn)跨模態(tài)的自動(dòng)糾錯(cuò)是本領(lǐng)域技術(shù)人員急需解決的問題。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本發(fā)明提供了一種多模態(tài)大模型自動(dòng)糾錯(cuò)方法及系統(tǒng),旨在整合不同模態(tài)的數(shù)據(jù)處理能力,通過精確的信息融合和高效的糾錯(cuò)機(jī)制,顯著提升系統(tǒng)輸出的準(zhǔn)確性和可靠性。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
3、一方面,本申請公開了一種多模態(tài)大模型自動(dòng)糾錯(cuò)方法,包括:
4、將待輸入信息轉(zhuǎn)換成特征向量,拼接一占位符特征向量后,輸入至多模態(tài)大模型,所述多模態(tài)大模型被配置為根據(jù)輸入向量輸出對(duì)應(yīng)的答復(fù)向量與占位符向量;所述占位符向量為包含多模態(tài)大模型輸入信息和答復(fù)信息的融合向量;
5、對(duì)占位符向量進(jìn)行解碼,若結(jié)果為正確,直接輸出所述答復(fù)向量對(duì)應(yīng)的答復(fù)文本;若結(jié)果為錯(cuò)誤,將占位符向量替換占位符特征向量后,重新輸入至多模態(tài)大模型,直至解碼結(jié)果正確或達(dá)到預(yù)設(shè)糾錯(cuò)次數(shù)。
6、進(jìn)一步地,所述輸入信息包括文字或圖片;
7、所述文字通過分詞器轉(zhuǎn)換為文本特征向量;
8、所述圖片通過圖像編碼器轉(zhuǎn)換為圖像特征向量。
9、優(yōu)選地,輸入信息還包括音頻數(shù)據(jù),所述音頻數(shù)據(jù)通過asr模型轉(zhuǎn)換成文本后,進(jìn)一步通過分詞器轉(zhuǎn)換為文本特征向量。
10、進(jìn)一步地,所述分詞器包括與占位符對(duì)應(yīng)的字符表,用于將占位符映射為可學(xué)習(xí)的特征向量。
11、進(jìn)一步地,所述圖片通過圖像編碼器轉(zhuǎn)換為圖像特征向量,還包括:
12、將圖像編碼器的轉(zhuǎn)換結(jié)果通過投影層映射至共同的嵌入空間,以使圖像和描述性文本對(duì)應(yīng)的特征向量在同一維度空間內(nèi)進(jìn)行組合,得到圖像特征向量。
13、進(jìn)一步地,所述答復(fù)向量通過softmax函數(shù)轉(zhuǎn)換為概率向量,將所述概率向量作為最終的答復(fù)向量,所述占位符向量保持不變。
14、進(jìn)一步地,通過解碼器對(duì)占位符向量進(jìn)行解碼,輸出結(jié)果為正確或錯(cuò)誤。
15、進(jìn)一步地,所述解碼器為transformer網(wǎng)絡(luò)模型或擴(kuò)散模型。
16、另一方面,本申請公開了一種多模態(tài)大模型自動(dòng)糾錯(cuò)系統(tǒng),該系統(tǒng)應(yīng)用如上所述的多模態(tài)大模型自動(dòng)糾錯(cuò)方法,且系統(tǒng)包括編碼模塊、多模態(tài)大模型、解碼模塊以及判斷模塊;其中,
17、編碼模塊,用于將待輸入信息及占位符轉(zhuǎn)換成特征向量后進(jìn)行拼接,并輸入至多模態(tài)大模型中;
18、多模態(tài)大模型,用于根據(jù)輸入向量輸出對(duì)應(yīng)的答復(fù)向量與占位符向量;
19、解碼模塊,用于對(duì)答復(fù)向量進(jìn)行解碼得到答復(fù)文本,以及對(duì)占位符向量進(jìn)行解碼得到正確或錯(cuò)誤的判斷結(jié)果;
20、判斷模塊,用于在判斷結(jié)果為正確時(shí),直接輸出答復(fù)文本;在判斷結(jié)果為錯(cuò)誤時(shí),用占位符向量替換編碼模塊所得占位符特征向量后,重新輸入至多模態(tài)大模型,直至解碼結(jié)果為正確。
21、進(jìn)一步地,所述編碼模塊包括第一分詞器和圖像編碼器,第一分詞器用于將文本及信息占位符轉(zhuǎn)換為對(duì)應(yīng)的特征向量,圖像編碼器用于將圖像轉(zhuǎn)換為圖像特征向量;
22、所述解碼模塊包括第二分詞器和解碼器,第二分析器用于將答復(fù)向量轉(zhuǎn)換為答復(fù)文本,解碼器用于將占位符向量解碼為判斷結(jié)果。
23、進(jìn)一步地,構(gòu)造訓(xùn)練數(shù)據(jù),對(duì)所述多模態(tài)大模型自動(dòng)糾錯(cuò)系統(tǒng)進(jìn)行訓(xùn)練,訓(xùn)練步驟包括:
24、構(gòu)造有確定性答復(fù)的問答對(duì),對(duì)多模態(tài)大模型自動(dòng)糾錯(cuò)系統(tǒng)進(jìn)行初步訓(xùn)練,
25、構(gòu)造無確定性答復(fù)的問答對(duì),基于有確定性答復(fù)的問答對(duì)和無確定性答復(fù)的問答對(duì),對(duì)初步訓(xùn)練的多模態(tài)大模型自動(dòng)糾錯(cuò)系統(tǒng)進(jìn)行再次訓(xùn)練。
26、經(jīng)由上述的技術(shù)方案可知,本發(fā)明公開提供了一種多模態(tài)大模型自動(dòng)糾錯(cuò)方法及系統(tǒng),本發(fā)明與現(xiàn)有技術(shù)的主要區(qū)別在于其能夠動(dòng)態(tài)調(diào)用多個(gè)模態(tài)能力,相互配合進(jìn)行糾錯(cuò),從而有效提高多模態(tài)大模型的整體性能和輸出質(zhì)量。
27、總體來說,本發(fā)明創(chuàng)造不僅解決了現(xiàn)有技術(shù)中的不足,還提供了一個(gè)能夠動(dòng)態(tài)調(diào)整糾錯(cuò)策略的高效多模態(tài)大模型方法,顯著提高了多模態(tài)數(shù)據(jù)處理的準(zhǔn)確性和可靠性。這對(duì)于推動(dòng)多模態(tài)大模型技術(shù)的進(jìn)步和應(yīng)用具有重要意義。
1.一種多模態(tài)大模型自動(dòng)糾錯(cuò)方法,其特征在于,
2.根據(jù)權(quán)利要求1所述的一種多模態(tài)大模型自動(dòng)糾錯(cuò)方法,其特征在于,所述輸入信息包括文字或圖片;
3.根據(jù)權(quán)利要求2所述的一種多模態(tài)大模型自動(dòng)糾錯(cuò)方法,其特征在于,所述分詞器包括與占位符對(duì)應(yīng)的字符表,用于將占位符映射為可學(xué)習(xí)的特征向量。
4.根據(jù)權(quán)利要求2所述的一種多模態(tài)大模型自動(dòng)糾錯(cuò)方法,其特征在于,所述圖片通過圖像編碼器轉(zhuǎn)換為圖像特征向量,還包括:
5.根據(jù)權(quán)利要求1所述的一種多模態(tài)大模型自動(dòng)糾錯(cuò)方法,其特征在于,所述答復(fù)向量通過softmax函數(shù)轉(zhuǎn)換為概率向量,將所述概率向量作為最終的答復(fù)向量,所述占位符向量保持不變。
6.根據(jù)權(quán)利要求1所述的一種多模態(tài)大模型自動(dòng)糾錯(cuò)方法,其特征在于,通過解碼器對(duì)占位符向量進(jìn)行解碼,輸出結(jié)果為正確或錯(cuò)誤。
7.根據(jù)權(quán)利要求6所述的一種多模態(tài)大模型自動(dòng)糾錯(cuò)方法,其特征在于,所述解碼器為transformer網(wǎng)絡(luò)模型或擴(kuò)散模型。
8.一種多模態(tài)大模型自動(dòng)糾錯(cuò)系統(tǒng),其特征在于,應(yīng)用權(quán)利要求1-7任一所述的多模態(tài)大模型自動(dòng)糾錯(cuò)方法,包括編碼模塊、多模態(tài)大模型、解碼模塊以及判斷模塊;
9.根據(jù)權(quán)利要求8所述的一種多模態(tài)大模型自動(dòng)糾錯(cuò)系統(tǒng),其特征在于,所述編碼模塊包括第一分詞器和圖像編碼器,第一分詞器用于將文本及信息占位符轉(zhuǎn)換為對(duì)應(yīng)的特征向量,圖像編碼器用于將圖像轉(zhuǎn)換為圖像特征向量;
10.根據(jù)權(quán)利要求8所述的一種多模態(tài)大模型自動(dòng)糾錯(cuò)系統(tǒng),其特征在于,構(gòu)造訓(xùn)練數(shù)據(jù),對(duì)所述多模態(tài)大模型自動(dòng)糾錯(cuò)系統(tǒng)進(jìn)行訓(xùn)練,訓(xùn)練步驟包括: