亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種多模態(tài)大模型自動(dòng)糾錯(cuò)方法及系統(tǒng)與流程

文檔序號(hào):40388940發(fā)布日期:2024-12-20 12:11閱讀:5來源:國知局
一種多模態(tài)大模型自動(dòng)糾錯(cuò)方法及系統(tǒng)與流程

本發(fā)明涉及人工智能,更具體的說是涉及一種多模態(tài)大模型自動(dòng)糾錯(cuò)方法及系統(tǒng)。


背景技術(shù):

1、在現(xiàn)代技術(shù)應(yīng)用中特別是在人工智能領(lǐng)域,多模態(tài)大模型已經(jīng)成為了一種重要的發(fā)展趨勢。這些模型結(jié)合了文本、圖像、語音等多種數(shù)據(jù)類型,提供了更為全面和精準(zhǔn)的服務(wù)能力。然而,盡管多模態(tài)大模型在數(shù)據(jù)處理和認(rèn)知功能上取得了顯著的進(jìn)展,它們在確保輸出結(jié)果的準(zhǔn)確性和可靠性方面仍面臨一些挑戰(zhàn)。

2、當(dāng)前,多模態(tài)大模型的一個(gè)主要問題是各模態(tài)間協(xié)調(diào)不足,如信息融合不充分,導(dǎo)致處理結(jié)果不盡人意。例如,當(dāng)模型同時(shí)處理文本和圖像數(shù)據(jù)時(shí),如果不能準(zhǔn)確地將兩種類型的信息融合起來,可能會(huì)導(dǎo)致誤解或錯(cuò)誤的結(jié)論。此外,盡管現(xiàn)有的大模型可以采用一定的糾錯(cuò)措施,但這些措施往往局限于單一模態(tài),難以在跨模態(tài)的錯(cuò)誤識(shí)別和修正中發(fā)揮作用。例如,基于語言模型的文本糾錯(cuò)方法可能無法糾正由于圖像數(shù)據(jù)解析錯(cuò)誤而導(dǎo)致的文本生成錯(cuò)誤。

3、多數(shù)現(xiàn)有系統(tǒng)的糾錯(cuò)過程也缺乏靈活性和自適應(yīng)能力,不能根據(jù)不同類型的錯(cuò)誤動(dòng)態(tài)調(diào)整糾錯(cuò)策略。這限制了模型在復(fù)雜應(yīng)用場景下的實(shí)用性和可靠性。

4、因此,如何克服上述問題,使模型能夠?qū)崿F(xiàn)跨模態(tài)的自動(dòng)糾錯(cuò)是本領(lǐng)域技術(shù)人員急需解決的問題。


技術(shù)實(shí)現(xiàn)思路

1、有鑒于此,本發(fā)明提供了一種多模態(tài)大模型自動(dòng)糾錯(cuò)方法及系統(tǒng),旨在整合不同模態(tài)的數(shù)據(jù)處理能力,通過精確的信息融合和高效的糾錯(cuò)機(jī)制,顯著提升系統(tǒng)輸出的準(zhǔn)確性和可靠性。

2、為了實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:

3、一方面,本申請公開了一種多模態(tài)大模型自動(dòng)糾錯(cuò)方法,包括:

4、將待輸入信息轉(zhuǎn)換成特征向量,拼接一占位符特征向量后,輸入至多模態(tài)大模型,所述多模態(tài)大模型被配置為根據(jù)輸入向量輸出對(duì)應(yīng)的答復(fù)向量與占位符向量;所述占位符向量為包含多模態(tài)大模型輸入信息和答復(fù)信息的融合向量;

5、對(duì)占位符向量進(jìn)行解碼,若結(jié)果為正確,直接輸出所述答復(fù)向量對(duì)應(yīng)的答復(fù)文本;若結(jié)果為錯(cuò)誤,將占位符向量替換占位符特征向量后,重新輸入至多模態(tài)大模型,直至解碼結(jié)果正確或達(dá)到預(yù)設(shè)糾錯(cuò)次數(shù)。

6、進(jìn)一步地,所述輸入信息包括文字或圖片;

7、所述文字通過分詞器轉(zhuǎn)換為文本特征向量;

8、所述圖片通過圖像編碼器轉(zhuǎn)換為圖像特征向量。

9、優(yōu)選地,輸入信息還包括音頻數(shù)據(jù),所述音頻數(shù)據(jù)通過asr模型轉(zhuǎn)換成文本后,進(jìn)一步通過分詞器轉(zhuǎn)換為文本特征向量。

10、進(jìn)一步地,所述分詞器包括與占位符對(duì)應(yīng)的字符表,用于將占位符映射為可學(xué)習(xí)的特征向量。

11、進(jìn)一步地,所述圖片通過圖像編碼器轉(zhuǎn)換為圖像特征向量,還包括:

12、將圖像編碼器的轉(zhuǎn)換結(jié)果通過投影層映射至共同的嵌入空間,以使圖像和描述性文本對(duì)應(yīng)的特征向量在同一維度空間內(nèi)進(jìn)行組合,得到圖像特征向量。

13、進(jìn)一步地,所述答復(fù)向量通過softmax函數(shù)轉(zhuǎn)換為概率向量,將所述概率向量作為最終的答復(fù)向量,所述占位符向量保持不變。

14、進(jìn)一步地,通過解碼器對(duì)占位符向量進(jìn)行解碼,輸出結(jié)果為正確或錯(cuò)誤。

15、進(jìn)一步地,所述解碼器為transformer網(wǎng)絡(luò)模型或擴(kuò)散模型。

16、另一方面,本申請公開了一種多模態(tài)大模型自動(dòng)糾錯(cuò)系統(tǒng),該系統(tǒng)應(yīng)用如上所述的多模態(tài)大模型自動(dòng)糾錯(cuò)方法,且系統(tǒng)包括編碼模塊、多模態(tài)大模型、解碼模塊以及判斷模塊;其中,

17、編碼模塊,用于將待輸入信息及占位符轉(zhuǎn)換成特征向量后進(jìn)行拼接,并輸入至多模態(tài)大模型中;

18、多模態(tài)大模型,用于根據(jù)輸入向量輸出對(duì)應(yīng)的答復(fù)向量與占位符向量;

19、解碼模塊,用于對(duì)答復(fù)向量進(jìn)行解碼得到答復(fù)文本,以及對(duì)占位符向量進(jìn)行解碼得到正確或錯(cuò)誤的判斷結(jié)果;

20、判斷模塊,用于在判斷結(jié)果為正確時(shí),直接輸出答復(fù)文本;在判斷結(jié)果為錯(cuò)誤時(shí),用占位符向量替換編碼模塊所得占位符特征向量后,重新輸入至多模態(tài)大模型,直至解碼結(jié)果為正確。

21、進(jìn)一步地,所述編碼模塊包括第一分詞器和圖像編碼器,第一分詞器用于將文本及信息占位符轉(zhuǎn)換為對(duì)應(yīng)的特征向量,圖像編碼器用于將圖像轉(zhuǎn)換為圖像特征向量;

22、所述解碼模塊包括第二分詞器和解碼器,第二分析器用于將答復(fù)向量轉(zhuǎn)換為答復(fù)文本,解碼器用于將占位符向量解碼為判斷結(jié)果。

23、進(jìn)一步地,構(gòu)造訓(xùn)練數(shù)據(jù),對(duì)所述多模態(tài)大模型自動(dòng)糾錯(cuò)系統(tǒng)進(jìn)行訓(xùn)練,訓(xùn)練步驟包括:

24、構(gòu)造有確定性答復(fù)的問答對(duì),對(duì)多模態(tài)大模型自動(dòng)糾錯(cuò)系統(tǒng)進(jìn)行初步訓(xùn)練,

25、構(gòu)造無確定性答復(fù)的問答對(duì),基于有確定性答復(fù)的問答對(duì)和無確定性答復(fù)的問答對(duì),對(duì)初步訓(xùn)練的多模態(tài)大模型自動(dòng)糾錯(cuò)系統(tǒng)進(jìn)行再次訓(xùn)練。

26、經(jīng)由上述的技術(shù)方案可知,本發(fā)明公開提供了一種多模態(tài)大模型自動(dòng)糾錯(cuò)方法及系統(tǒng),本發(fā)明與現(xiàn)有技術(shù)的主要區(qū)別在于其能夠動(dòng)態(tài)調(diào)用多個(gè)模態(tài)能力,相互配合進(jìn)行糾錯(cuò),從而有效提高多模態(tài)大模型的整體性能和輸出質(zhì)量。

27、總體來說,本發(fā)明創(chuàng)造不僅解決了現(xiàn)有技術(shù)中的不足,還提供了一個(gè)能夠動(dòng)態(tài)調(diào)整糾錯(cuò)策略的高效多模態(tài)大模型方法,顯著提高了多模態(tài)數(shù)據(jù)處理的準(zhǔn)確性和可靠性。這對(duì)于推動(dòng)多模態(tài)大模型技術(shù)的進(jìn)步和應(yīng)用具有重要意義。



技術(shù)特征:

1.一種多模態(tài)大模型自動(dòng)糾錯(cuò)方法,其特征在于,

2.根據(jù)權(quán)利要求1所述的一種多模態(tài)大模型自動(dòng)糾錯(cuò)方法,其特征在于,所述輸入信息包括文字或圖片;

3.根據(jù)權(quán)利要求2所述的一種多模態(tài)大模型自動(dòng)糾錯(cuò)方法,其特征在于,所述分詞器包括與占位符對(duì)應(yīng)的字符表,用于將占位符映射為可學(xué)習(xí)的特征向量。

4.根據(jù)權(quán)利要求2所述的一種多模態(tài)大模型自動(dòng)糾錯(cuò)方法,其特征在于,所述圖片通過圖像編碼器轉(zhuǎn)換為圖像特征向量,還包括:

5.根據(jù)權(quán)利要求1所述的一種多模態(tài)大模型自動(dòng)糾錯(cuò)方法,其特征在于,所述答復(fù)向量通過softmax函數(shù)轉(zhuǎn)換為概率向量,將所述概率向量作為最終的答復(fù)向量,所述占位符向量保持不變。

6.根據(jù)權(quán)利要求1所述的一種多模態(tài)大模型自動(dòng)糾錯(cuò)方法,其特征在于,通過解碼器對(duì)占位符向量進(jìn)行解碼,輸出結(jié)果為正確或錯(cuò)誤。

7.根據(jù)權(quán)利要求6所述的一種多模態(tài)大模型自動(dòng)糾錯(cuò)方法,其特征在于,所述解碼器為transformer網(wǎng)絡(luò)模型或擴(kuò)散模型。

8.一種多模態(tài)大模型自動(dòng)糾錯(cuò)系統(tǒng),其特征在于,應(yīng)用權(quán)利要求1-7任一所述的多模態(tài)大模型自動(dòng)糾錯(cuò)方法,包括編碼模塊、多模態(tài)大模型、解碼模塊以及判斷模塊;

9.根據(jù)權(quán)利要求8所述的一種多模態(tài)大模型自動(dòng)糾錯(cuò)系統(tǒng),其特征在于,所述編碼模塊包括第一分詞器和圖像編碼器,第一分詞器用于將文本及信息占位符轉(zhuǎn)換為對(duì)應(yīng)的特征向量,圖像編碼器用于將圖像轉(zhuǎn)換為圖像特征向量;

10.根據(jù)權(quán)利要求8所述的一種多模態(tài)大模型自動(dòng)糾錯(cuò)系統(tǒng),其特征在于,構(gòu)造訓(xùn)練數(shù)據(jù),對(duì)所述多模態(tài)大模型自動(dòng)糾錯(cuò)系統(tǒng)進(jìn)行訓(xùn)練,訓(xùn)練步驟包括:


技術(shù)總結(jié)
本發(fā)明公開了一種多模態(tài)大模型自動(dòng)糾錯(cuò)方法及系統(tǒng)。方法包括:將待輸入信息轉(zhuǎn)換成特征向量,拼接一占位符特征向量后,輸入至多模態(tài)大模型,所述多模態(tài)大模型被配置為根據(jù)輸入向量輸出對(duì)應(yīng)的答復(fù)向量與占位符向量;進(jìn)一步對(duì)占位符向量進(jìn)行解碼,若結(jié)果為正確,直接輸出所述答復(fù)向量對(duì)應(yīng)的答復(fù)文本;若結(jié)果為錯(cuò)誤,將占位符向量替換占位符特征向量后,重新輸入至多模態(tài)大模型,直至解碼結(jié)果正確或達(dá)到預(yù)設(shè)糾錯(cuò)次數(shù)。本發(fā)明提供的自動(dòng)糾錯(cuò)方法能夠動(dòng)態(tài)調(diào)用多個(gè)模態(tài)能力,相互配合進(jìn)行糾錯(cuò),從而有效提高多模態(tài)大模型的整體性能和輸出質(zhì)量。

技術(shù)研發(fā)人員:陳靖涵,張鵬飛,蘇江
受保護(hù)的技術(shù)使用者:暗物質(zhì)(北京)智能科技有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/19
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1