本發(fā)明涉及計算模型和人工智能,尤其涉及一種基于自由文本的常識知識的編輯方法、裝置和電子設(shè)備。
背景技術(shù):
1、大語言模型(llms)在各種自然語言處理任務(wù)中表現(xiàn)出了卓越的性能。然而,在llms中,錯誤或過時的知識是不可避免的。因此,需要對大語言模型進行知識更新。知識編輯技術(shù)是更新llms知識的經(jīng)濟且有效的方法。
2、目前,知識編輯方法主要集中在編輯基于三元組的事實知識。這些方法通常利用涉及神經(jīng)元定位和編輯的策略,假設(shè)事實三元組中的實體和短語存儲在有限的一組神經(jīng)元中。通過操縱這些選定的神經(jīng)元,可以完成知識編輯。比如,將過時的三元組(如<小明,就讀于,初中>)糾正為準確的三元組(如<小明,就讀于,高中>)。
3、但是,對于基于自由文本的常識知識,上述方法存在如下的一些缺陷:
4、首先,對于事實知識的編輯方法中,知識定位(例如因果追蹤)通常使用編輯目標的概率值作為知識存儲位置的響應(yīng)值。這種方法的成功基于這樣一個事實,即編輯目標是單個令牌或?qū)嶓w。然而,基于自由文本編輯的常識知識的編輯目標具有多個標記。
5、其次,對于事實知識的編輯方法通常假設(shè)事實知識存儲在單個或少數(shù)神經(jīng)元上,知識編輯可以通過對少數(shù)神經(jīng)元的操作來實現(xiàn)。然而,實驗表明,基于自由文本的常識知識不符合這一假設(shè)?;谧杂晌谋镜某WR知識具有廣泛的存儲位置,更加分散,不易本地化。因此,現(xiàn)有的對于事實知識的編輯方法不足以處理基于自由文本的常識知識的編輯。
技術(shù)實現(xiàn)思路
1、為了解決現(xiàn)有技術(shù)中存在的問題,本發(fā)明提供了如下技術(shù)方案。
2、本發(fā)明第一方面提供了一種基于自由文本的常識知識的編輯方法,包括:
3、將文本輸入至待編輯的模型中,通過計算收集文本的第一隱藏狀態(tài);
4、為第一隱藏狀態(tài)添加噪聲,得到第二隱藏狀態(tài);
5、基于第二隱藏狀態(tài),在模型中計算得到損壞的第三隱藏狀態(tài);
6、基于第三隱藏狀態(tài),利用hook函數(shù)控制模型計算得到干凈的第四隱藏狀態(tài);
7、利用第一隱藏狀態(tài)和第四隱藏狀態(tài)計算恢復目標輸出的概率值,并將該概率值作為隱藏層對常識知識的貢獻;
8、選擇對常識知識貢獻最大的隱藏層作為編輯層進行常識知識的編輯。
9、優(yōu)選地,所述編輯層為多層感知機層和注意力層。
10、優(yōu)選地,所述利用第一隱藏狀態(tài)和第四隱藏狀態(tài)計算恢復目標輸出的概率值包括:利用第一隱藏狀態(tài)和第四隱藏狀態(tài)之間的差異計算得到編輯層的協(xié)方差矩陣,并轉(zhuǎn)換成恢復目標輸出的概率值。
11、優(yōu)選地,所述選擇對常識知識貢獻最大的隱藏層作為編輯層進行常識知識的編輯包括:采用pmet編輯方法。
12、本發(fā)明第二方面提供了一種基于自由文本的常識知識的編輯裝置,包括:
13、第一計算模塊,用于將文本輸入至待編輯的模型中,通過計算收集文本的第一隱藏狀態(tài);
14、噪聲添加模塊,用于為第一隱藏狀態(tài)添加噪聲,得到第二隱藏狀態(tài);
15、第二計算模塊,用于基于第二隱藏狀態(tài),在模型中計算得到損壞的第三隱藏狀態(tài);
16、第三計算模塊,用于基于第三隱藏狀態(tài),利用hook函數(shù)控制模型計算得到干凈的第四隱藏狀態(tài);
17、第四計算模塊,用于利用第一隱藏狀態(tài)和第四隱藏狀態(tài)計算恢復目標輸出的概率值,并將該概率值作為隱藏層對常識知識的貢獻;
18、知識編輯模塊,用于選擇對常識知識貢獻最大的隱藏層作為編輯層進行常識知識的編輯。
19、優(yōu)選地,在所述知識編輯模塊中,所述編輯層為多層感知機層和注意力層。
20、優(yōu)選地,在所述第四計算模塊中,所述利用第一隱藏狀態(tài)和第四隱藏狀態(tài)計算恢復目標輸出的概率值包括:利用第一隱藏狀態(tài)和第四隱藏狀態(tài)之間的差異計算得到編輯層的協(xié)方差矩陣,并轉(zhuǎn)換成恢復目標輸出的概率值。
21、優(yōu)選地,在所述知識編輯模塊中,所述選擇對常識知識貢獻最大的隱藏層作為編輯層進行常識知識的編輯包括:采用pmet編輯方法。
22、本發(fā)明第三方面提供了一種存儲器,存儲有多條指令,所述指令用于實現(xiàn)如第一方面所述的基于自由文本的常識知識的編輯方法。
23、本發(fā)明第四方面提供了一種電子設(shè)備,包括處理器和與所述處理器連接的存儲器,所述存儲器存儲有多條指令,所述指令可被所述處理器加載并執(zhí)行,以使所述處理器能夠執(zhí)行如第一方面所述的基于自由文本的常識知識的編輯方法。
24、本發(fā)明的有益效果是:本發(fā)明提供的基于自由文本的常識知識的編輯方法、裝置和電子設(shè)備,該方法通過為第一隱藏狀態(tài)添加噪聲,得到第二隱藏狀態(tài);然后基于第二隱藏狀態(tài),在模型中計算得到損壞的第三隱藏狀態(tài);之后基于第三隱藏狀態(tài),利用hook函數(shù)控制模型計算得到干凈的第四隱藏狀態(tài);最后利用第一隱藏狀態(tài)和第四隱藏狀態(tài)計算恢復目標輸出的概率值,并將該概率值作為隱藏層對常識知識的貢獻;并選擇對常識知識貢獻最大的隱藏層作為編輯層進行常識知識的編輯。該方法通過實時檢測常識知識的存儲位置,并選擇對知識貢獻最大的層作為編輯層。隨后,對貢獻最大的編輯層進行有針對性的知識編輯,實現(xiàn)了對常識知識的編輯,而且實驗表明該方法的性能達到了工業(yè)界可以實際使用的程度。
1.一種基于自由文本的常識知識的編輯方法,其特征在于,包括:
2.如權(quán)利要求1所述的基于自由文本的常識知識的編輯方法,其特征在于,所述編輯層為多層感知機層和注意力層。
3.如權(quán)利要求1所述的基于自由文本的常識知識的編輯方法,其特征在于,所述利用第一隱藏狀態(tài)和第四隱藏狀態(tài)計算恢復目標輸出的概率值包括:利用第一隱藏狀態(tài)和第四隱藏狀態(tài)之間的差異計算得到編輯層的協(xié)方差矩陣,并轉(zhuǎn)換成恢復目標輸出的概率值。
4.如權(quán)利要求1所述的基于自由文本的常識知識的編輯方法,其特征在于,所述選擇對常識知識貢獻最大的隱藏層作為編輯層進行常識知識的編輯包括:采用pmet編輯方法。
5.一種基于自由文本的常識知識的編輯裝置,其特征在于,包括:
6.如權(quán)利要求5所述的基于自由文本的常識知識的編輯裝置,其特征在于,在所述知識編輯模塊中,所述編輯層為多層感知機層和注意力層。
7.如權(quán)利要求5所述的基于自由文本的常識知識的編輯裝置,其特征在于,在所述第四計算模塊中,所述利用第一隱藏狀態(tài)和第四隱藏狀態(tài)計算恢復目標輸出的概率值包括:利用第一隱藏狀態(tài)和第四隱藏狀態(tài)之間的差異計算得到編輯層的協(xié)方差矩陣,并轉(zhuǎn)換成恢復目標輸出的概率值。
8.如權(quán)利要求5所述的基于自由文本的常識知識的編輯裝置,其特征在于,在所述知識編輯模塊中,所述選擇對常識知識貢獻最大的隱藏層作為編輯層進行常識知識的編輯包括:采用pmet編輯方法。
9.一種存儲器,其特征在于,存儲有多條指令,所述指令用于實現(xiàn)如權(quán)利要求1-4任一項所述的基于自由文本的常識知識的編輯方法。
10.一種電子設(shè)備,其特征在于,包括處理器和與所述處理器連接的存儲器,所述存儲器存儲有多條指令,所述指令可被所述處理器加載并執(zhí)行,以使所述處理器能夠執(zhí)行如權(quán)利要求1-4任一項所述的基于自由文本的常識知識的編輯方法。