一種多模態(tài)大模型自動(dòng)糾錯(cuò)方法及系統(tǒng)與流程

文檔序號(hào)：40388940發(fā)布日期：2024-12-20 12:11閱讀：5來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種多模態(tài)大模型自動(dòng)糾錯(cuò)方法及系統(tǒng)與流程

本發(fā)明涉及人工智能，更具體的說是涉及一種多模態(tài)大模型自動(dòng)糾錯(cuò)方法及系統(tǒng)。

背景技術(shù)：

1、在現(xiàn)代技術(shù)應(yīng)用中特別是在人工智能領(lǐng)域，多模態(tài)大模型已經(jīng)成為了一種重要的發(fā)展趨勢。這些模型結(jié)合了文本、圖像、語音等多種數(shù)據(jù)類型，提供了更為全面和精準(zhǔn)的服務(wù)能力。然而，盡管多模態(tài)大模型在數(shù)據(jù)處理和認(rèn)知功能上取得了顯著的進(jìn)展，它們在確保輸出結(jié)果的準(zhǔn)確性和可靠性方面仍面臨一些挑戰(zhàn)。

2、當(dāng)前，多模態(tài)大模型的一個(gè)主要問題是各模態(tài)間協(xié)調(diào)不足，如信息融合不充分，導(dǎo)致處理結(jié)果不盡人意。例如，當(dāng)模型同時(shí)處理文本和圖像數(shù)據(jù)時(shí)，如果不能準(zhǔn)確地將兩種類型的信息融合起來，可能會(huì)導(dǎo)致誤解或錯(cuò)誤的結(jié)論。此外，盡管現(xiàn)有的大模型可以采用一定的糾錯(cuò)措施，但這些措施往往局限于單一模態(tài)，難以在跨模態(tài)的錯(cuò)誤識(shí)別和修正中發(fā)揮作用。例如，基于語言模型的文本糾錯(cuò)方法可能無法糾正由于圖像數(shù)據(jù)解析錯(cuò)誤而導(dǎo)致的文本生成錯(cuò)誤。

3、多數(shù)現(xiàn)有系統(tǒng)的糾錯(cuò)過程也缺乏靈活性和自適應(yīng)能力，不能根據(jù)不同類型的錯(cuò)誤動(dòng)態(tài)調(diào)整糾錯(cuò)策略。這限制了模型在復(fù)雜應(yīng)用場景下的實(shí)用性和可靠性。

4、因此，如何克服上述問題，使模型能夠?qū)崿F(xiàn)跨模態(tài)的自動(dòng)糾錯(cuò)是本領(lǐng)域技術(shù)人員急需解決的問題。

技術(shù)實(shí)現(xiàn)思路

1、有鑒于此，本發(fā)明提供了一種多模態(tài)大模型自動(dòng)糾錯(cuò)方法及系統(tǒng)，旨在整合不同模態(tài)的數(shù)據(jù)處理能力，通過精確的信息融合和高效的糾錯(cuò)機(jī)制，顯著提升系統(tǒng)輸出的準(zhǔn)確性和可靠性。

2、為了實(shí)現(xiàn)上述目的，本發(fā)明采用如下技術(shù)方案：

3、一方面，本申請公開了一種多模態(tài)大模型自動(dòng)糾錯(cuò)方法，包括：

4、將待輸入信息轉(zhuǎn)換成特征向量，拼接一占位符特征向量后，輸入至多模態(tài)大模型，所述多模態(tài)大模型被配置為根據(jù)輸入向量輸出對(duì)應(yīng)的答復(fù)向量與占位符向量；所述占位符向量為包含多模態(tài)大模型輸入信息和答復(fù)信息的融合向量；

5、對(duì)占位符向量進(jìn)行解碼，若結(jié)果為正確，直接輸出所述答復(fù)向量對(duì)應(yīng)的答復(fù)文本；若結(jié)果為錯(cuò)誤，將占位符向量替換占位符特征向量后，重新輸入至多模態(tài)大模型，直至解碼結(jié)果正確或達(dá)到預(yù)設(shè)糾錯(cuò)次數(shù)。

6、進(jìn)一步地，所述輸入信息包括文字或圖片；

7、所述文字通過分詞器轉(zhuǎn)換為文本特征向量；

8、所述圖片通過圖像編碼器轉(zhuǎn)換為圖像特征向量。

9、優(yōu)選地，輸入信息還包括音頻數(shù)據(jù)，所述音頻數(shù)據(jù)通過asr模型轉(zhuǎn)換成文本后，進(jìn)一步通過分詞器轉(zhuǎn)換為文本特征向量。

10、進(jìn)一步地，所述分詞器包括與占位符對(duì)應(yīng)的字符表，用于將占位符映射為可學(xué)習(xí)的特征向量。

11、進(jìn)一步地，所述圖片通過圖像編碼器轉(zhuǎn)換為圖像特征向量，還包括：

12、將圖像編碼器的轉(zhuǎn)換結(jié)果通過投影層映射至共同的嵌入空間，以使圖像和描述性文本對(duì)應(yīng)的特征向量在同一維度空間內(nèi)進(jìn)行組合，得到圖像特征向量。

13、進(jìn)一步地，所述答復(fù)向量通過softmax函數(shù)轉(zhuǎn)換為概率向量，將所述概率向量作為最終的答復(fù)向量，所述占位符向量保持不變。

14、進(jìn)一步地，通過解碼器對(duì)占位符向量進(jìn)行解碼，輸出結(jié)果為正確或錯(cuò)誤。

15、進(jìn)一步地，所述解碼器為transformer網(wǎng)絡(luò)模型或擴(kuò)散模型。

16、另一方面，本申請公開了一種多模態(tài)大模型自動(dòng)糾錯(cuò)系統(tǒng)，該系統(tǒng)應(yīng)用如上所述的多模態(tài)大模型自動(dòng)糾錯(cuò)方法，且系統(tǒng)包括編碼模塊、多模態(tài)大模型、解碼模塊以及判斷模塊；其中，

17、編碼模塊，用于將待輸入信息及占位符轉(zhuǎn)換成特征向量后進(jìn)行拼接，并輸入至多模態(tài)大模型中；

18、多模態(tài)大模型，用于根據(jù)輸入向量輸出對(duì)應(yīng)的答復(fù)向量與占位符向量；

19、解碼模塊，用于對(duì)答復(fù)向量進(jìn)行解碼得到答復(fù)文本，以及對(duì)占位符向量進(jìn)行解碼得到正確或錯(cuò)誤的判斷結(jié)果；

20、判斷模塊，用于在判斷結(jié)果為正確時(shí)，直接輸出答復(fù)文本；在判斷結(jié)果為錯(cuò)誤時(shí)，用占位符向量替換編碼模塊所得占位符特征向量后，重新輸入至多模態(tài)大模型，直至解碼結(jié)果為正確。

21、進(jìn)一步地，所述編碼模塊包括第一分詞器和圖像編碼器，第一分詞器用于將文本及信息占位符轉(zhuǎn)換為對(duì)應(yīng)的特征向量，圖像編碼器用于將圖像轉(zhuǎn)換為圖像特征向量；

22、所述解碼模塊包括第二分詞器和解碼器，第二分析器用于將答復(fù)向量轉(zhuǎn)換為答復(fù)文本，解碼器用于將占位符向量解碼為判斷結(jié)果。

23、進(jìn)一步地，構(gòu)造訓(xùn)練數(shù)據(jù)，對(duì)所述多模態(tài)大模型自動(dòng)糾錯(cuò)系統(tǒng)進(jìn)行訓(xùn)練，訓(xùn)練步驟包括：

24、構(gòu)造有確定性答復(fù)的問答對(duì)，對(duì)多模態(tài)大模型自動(dòng)糾錯(cuò)系統(tǒng)進(jìn)行初步訓(xùn)練，

25、構(gòu)造無確定性答復(fù)的問答對(duì)，基于有確定性答復(fù)的問答對(duì)和無確定性答復(fù)的問答對(duì)，對(duì)初步訓(xùn)練的多模態(tài)大模型自動(dòng)糾錯(cuò)系統(tǒng)進(jìn)行再次訓(xùn)練。

26、經(jīng)由上述的技術(shù)方案可知，本發(fā)明公開提供了一種多模態(tài)大模型自動(dòng)糾錯(cuò)方法及系統(tǒng)，本發(fā)明與現(xiàn)有技術(shù)的主要區(qū)別在于其能夠動(dòng)態(tài)調(diào)用多個(gè)模態(tài)能力，相互配合進(jìn)行糾錯(cuò)，從而有效提高多模態(tài)大模型的整體性能和輸出質(zhì)量。

27、總體來說，本發(fā)明創(chuàng)造不僅解決了現(xiàn)有技術(shù)中的不足，還提供了一個(gè)能夠動(dòng)態(tài)調(diào)整糾錯(cuò)策略的高效多模態(tài)大模型方法，顯著提高了多模態(tài)數(shù)據(jù)處理的準(zhǔn)確性和可靠性。這對(duì)于推動(dòng)多模態(tài)大模型技術(shù)的進(jìn)步和應(yīng)用具有重要意義。

技術(shù)特征：

1.一種多模態(tài)大模型自動(dòng)糾錯(cuò)方法，其特征在于，

2.根據(jù)權(quán)利要求1所述的一種多模態(tài)大模型自動(dòng)糾錯(cuò)方法，其特征在于，所述輸入信息包括文字或圖片；

3.根據(jù)權(quán)利要求2所述的一種多模態(tài)大模型自動(dòng)糾錯(cuò)方法，其特征在于，所述分詞器包括與占位符對(duì)應(yīng)的字符表，用于將占位符映射為可學(xué)習(xí)的特征向量。

4.根據(jù)權(quán)利要求2所述的一種多模態(tài)大模型自動(dòng)糾錯(cuò)方法，其特征在于，所述圖片通過圖像編碼器轉(zhuǎn)換為圖像特征向量，還包括：

5.根據(jù)權(quán)利要求1所述的一種多模態(tài)大模型自動(dòng)糾錯(cuò)方法，其特征在于，所述答復(fù)向量通過softmax函數(shù)轉(zhuǎn)換為概率向量，將所述概率向量作為最終的答復(fù)向量，所述占位符向量保持不變。

6.根據(jù)權(quán)利要求1所述的一種多模態(tài)大模型自動(dòng)糾錯(cuò)方法，其特征在于，通過解碼器對(duì)占位符向量進(jìn)行解碼，輸出結(jié)果為正確或錯(cuò)誤。

7.根據(jù)權(quán)利要求6所述的一種多模態(tài)大模型自動(dòng)糾錯(cuò)方法，其特征在于，所述解碼器為transformer網(wǎng)絡(luò)模型或擴(kuò)散模型。

8.一種多模態(tài)大模型自動(dòng)糾錯(cuò)系統(tǒng)，其特征在于，應(yīng)用權(quán)利要求1-7任一所述的多模態(tài)大模型自動(dòng)糾錯(cuò)方法，包括編碼模塊、多模態(tài)大模型、解碼模塊以及判斷模塊；

9.根據(jù)權(quán)利要求8所述的一種多模態(tài)大模型自動(dòng)糾錯(cuò)系統(tǒng)，其特征在于，所述編碼模塊包括第一分詞器和圖像編碼器，第一分詞器用于將文本及信息占位符轉(zhuǎn)換為對(duì)應(yīng)的特征向量，圖像編碼器用于將圖像轉(zhuǎn)換為圖像特征向量；

10.根據(jù)權(quán)利要求8所述的一種多模態(tài)大模型自動(dòng)糾錯(cuò)系統(tǒng)，其特征在于，構(gòu)造訓(xùn)練數(shù)據(jù)，對(duì)所述多模態(tài)大模型自動(dòng)糾錯(cuò)系統(tǒng)進(jìn)行訓(xùn)練，訓(xùn)練步驟包括：

技術(shù)總結(jié)
本發(fā)明公開了一種多模態(tài)大模型自動(dòng)糾錯(cuò)方法及系統(tǒng)。方法包括：將待輸入信息轉(zhuǎn)換成特征向量，拼接一占位符特征向量后，輸入至多模態(tài)大模型，所述多模態(tài)大模型被配置為根據(jù)輸入向量輸出對(duì)應(yīng)的答復(fù)向量與占位符向量；進(jìn)一步對(duì)占位符向量進(jìn)行解碼，若結(jié)果為正確，直接輸出所述答復(fù)向量對(duì)應(yīng)的答復(fù)文本；若結(jié)果為錯(cuò)誤，將占位符向量替換占位符特征向量后，重新輸入至多模態(tài)大模型，直至解碼結(jié)果正確或達(dá)到預(yù)設(shè)糾錯(cuò)次數(shù)。本發(fā)明提供的自動(dòng)糾錯(cuò)方法能夠動(dòng)態(tài)調(diào)用多個(gè)模態(tài)能力，相互配合進(jìn)行糾錯(cuò)，從而有效提高多模態(tài)大模型的整體性能和輸出質(zhì)量。

技術(shù)研發(fā)人員：陳靖涵,張鵬飛,蘇江
受保護(hù)的技術(shù)使用者：暗物質(zhì)（北京）智能科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/19

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳靖涵,張鵬飛,蘇江
技術(shù)所有人：暗物質(zhì)（北京）智能科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種多模態(tài)大模型自動(dòng)糾錯(cuò)方法及系統(tǒng)與流程