亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

大模型幻覺緩解方法、裝置、存儲介質(zhì)

文檔序號:40443424發(fā)布日期:2024-12-24 15:17閱讀:9來源:國知局
大模型幻覺緩解方法、裝置、存儲介質(zhì)

本發(fā)明屬于視覺語言大模型領域,具體涉及一種大模型幻覺緩解方法、裝置、存儲介質(zhì)。


背景技術:

1、近年來,大規(guī)模語言模型(llm)給人工智能領域帶來了巨大的影響。其訓練數(shù)據(jù)規(guī)模達到數(shù)千億參數(shù),釋放出了強大的涌現(xiàn)能力,并得到了廣泛關注和應用。遵循這一趨勢,通過預訓練視覺語言對齊,大規(guī)模視覺語言模型(lvlms)擴展了llm以理解視覺輸入并處理多模態(tài)的任務。這些工作推動了多模態(tài)通用人工智能的發(fā)展,尤其是在零樣本任務上展示了令人驚喜的能力。

2、目前l(fā)vlms也與llm一樣面臨一些新的挑戰(zhàn),其中一個嚴重的問題就是模型有產(chǎn)生幻覺的傾向。在語言模型中,幻覺被定義為模型產(chǎn)生的不準確或誤導性的事實信息,這些幻覺大多源于從訓練數(shù)據(jù)中學習到了不正確的知識。已有的一些工作都利用外部知識庫輔助生成來緩解幻覺。而對于視覺語言模型,幻覺表現(xiàn)為輸出的響應對于輸入的圖像來說有錯誤的引用或描述。在抽象的視覺編碼中準確地表達出視覺信息是一項更大的挑戰(zhàn)。在解決這類問題時,多模態(tài)幻覺往往更難自動檢測出來,需要花費較昂貴的人工監(jiān)督成本。現(xiàn)有的工作通常會探索基于指令調(diào)優(yōu)或基于解碼約束的解決方案。lrv-instruction采用了一種較為直觀的方法,通過指令限制數(shù)據(jù)的文本長度來減少幻覺,但顯然這會使模型無法生成非常詳細的描述。vigc則采用多步生成方案,通過犧牲微調(diào)的成本和效率來緩解幻覺。opera在解碼過程中懲罰特定的詞匯以減輕幻覺,但只適用于一些特殊的標記,并且也會使生成的文本明顯縮短。這些基于指令調(diào)優(yōu)模型和解碼約束方法通常都需要人類提供大量的數(shù)據(jù)和計算資源。

3、因此,如何低成本、高效率地緩解大規(guī)模視覺語言模型產(chǎn)生的幻覺,以提高其在現(xiàn)實世界應用中的準確性和可靠性,還是一個亟待解決的問題。


技術實現(xiàn)思路

1、針對現(xiàn)有技術的不足,本發(fā)明提出一種大模型幻覺緩解方法、裝置、存儲介質(zhì),其基于矛盾點定位和問答修正,能夠有效緩解大規(guī)模視覺語言模型產(chǎn)生的幻覺,提升大模型生成的效果。

2、為了實現(xiàn)上述目的,本發(fā)明一方面提供一種大模型幻覺緩解方法,包含:

3、接收給定的圖像和提示文本作為輸入,通過一大規(guī)模視覺語言模型生成多個文本樣本;

4、對比該多個文本樣本中的不一致性,搜索出矛盾點,確定幻覺因素;

5、生成針對該幻覺因素的問題;

6、根據(jù)該問題進行問答,利用一視覺問答模型分析該圖像內(nèi)容,輸出針對該問題的答案,且利用該答案修正該提示文本;

7、利用修正后的提示文本,重新生成優(yōu)化后的文本樣本。

8、在一實施例中,針對該多個文本樣本,對比識別出該多個文本樣本中內(nèi)容不一致的矛盾點,該些矛盾點代表在生成預測中具有平坦概率分布的詞匯,作為幻覺因素。

9、在一實施例中,使用蒸餾學習方法,訓練一小規(guī)模問題生成模型,生成針對該幻覺因素的問題。

10、在一實施例中,該小規(guī)模問題生成模型通過以下步驟訓練:

11、使用一生成式預訓練模型生成大量指定形式的訓練數(shù)據(jù);

12、利用該訓練數(shù)據(jù),對該小規(guī)模問題生成模型進行微調(diào)訓練;

13、以該多個文本樣本作為輸入,由該小規(guī)模問題生成模型學習從該多個文本樣本中生成針對幻覺因素的問題。

14、在一實施例中,采取多種不同采樣方式獲取該多個文本樣本。

15、在一實施例中,還包含:

16、對優(yōu)化后的文本樣本進行評估,以驗證幻覺緩解的效果。

17、本發(fā)明另一方面還提供一種大模型幻覺緩解裝置,該裝置采取上述的大模型幻覺緩解方法,該裝置至少包含:

18、生成采樣模塊,用以接收給定的圖像和提示文本作為輸入,通過一大規(guī)模視覺語言模型生成多個文本樣本;

19、幻覺定位模塊,用以對比該多個文本樣本中的不一致性,搜索出矛盾點,確定幻覺因素;

20、問題生成模塊,用以生成針對該幻覺因素的問題;

21、修正模塊,根據(jù)該問題進行問答,利用一視覺問答模型分析該圖像內(nèi)容,輸出針對該問題的答案,且利用該答案修正該提示文本;以及

22、利用修正后的提示文本,重新生成優(yōu)化后的文本樣本。

23、在一實施例中,該幻覺定位模塊還用以:

24、針對該多個文本樣本,對比識別出該多個文本樣本中內(nèi)容不一致的矛盾點,該些矛盾點代表在生成預測過程中具有平坦概率分布的詞匯,作為幻覺因素。

25、在一實施例中,該問題生成模塊還用以:

26、使用蒸餾學習方法,訓練一小規(guī)模問題生成模型,生成針對該幻覺因素的問題,包含:

27、使用一生成式預訓練模型生成大量指定形式的訓練數(shù)據(jù);

28、利用該訓練數(shù)據(jù),對該小規(guī)模問題生成模型進行微調(diào)訓練;

29、以該多個文本樣本作為輸入,由該小規(guī)模問題生成模型學習從該多個文本樣本中生成針對幻覺因素的問題。

30、本發(fā)明再一方面還提供一種計算機可讀存儲介質(zhì),存儲有計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)上述大模型幻覺緩解方法的步驟。

31、由以上方案可知,本發(fā)明的優(yōu)點在于:

32、本發(fā)明揭示的大模型幻覺緩解方法,其基于矛盾點定位和問答修正,方法能夠?qū)δP蜕蛇^程中不確定的信息進行對比檢測、主動提問和回答修正等操作,從而實現(xiàn)不依賴于額外的人工標注數(shù)據(jù)和指令微調(diào)訓練即可有效地優(yōu)化大模型的生成效果。



技術特征:

1.一種大模型幻覺緩解方法,其特征在于,包含:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,

3.根據(jù)權(quán)利要求1所述的方法,其特征在于,

4.根據(jù)權(quán)利要求3所述的方法,其特征在于,該小規(guī)模問題生成模型通過以下步驟訓練:

5.根據(jù)權(quán)利要求1所述的方法,其特征在于,

6.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包含:

7.一種大模型幻覺緩解裝置,其特征在于,包含:

8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,該幻覺定位模塊還用以:

9.根據(jù)權(quán)利要求7所述的裝置,其特征在于,該問題生成模塊還用以:

10.一種計算機可讀存儲介質(zhì),其特征在于,存儲有計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1-6任一項所述大模型幻覺緩解方法的步驟。


技術總結(jié)
本發(fā)明提出一種大模型幻覺緩解方法、裝置、存儲介質(zhì),該方法包含:接收給定的圖像和提示文本作為輸入,通過一大規(guī)模視覺語言模型生成多個文本樣本;對比該多個文本樣本中的不一致性,搜索出矛盾點,確定幻覺因素;生成針對該幻覺因素的問題;根據(jù)該問題進行問答,利用一視覺問答模型分析該圖像內(nèi)容,輸出針對該問題的答案,且利用該答案修正該提示文本;利用修正后的提示文本,重新生成優(yōu)化后的文本樣本。該方法能夠有效緩解大規(guī)模視覺語言模型產(chǎn)生的幻覺,提升大模型生成的效果。

技術研發(fā)人員:王樹徽,畢超,黃慶明
受保護的技術使用者:中國科學院計算技術研究所
技術研發(fā)日:
技術公布日:2024/12/23
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1