本公開涉及數(shù)據(jù)處理,特別涉及一種知識圖譜構(gòu)建方法、裝置、設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、知識圖譜也即是由多個三元組構(gòu)成的圖譜,一個三元組中包括主體、謂語和客體這三個部分,其中主體和客體都屬于實體,謂語屬于關(guān)系。因此,在構(gòu)建知識圖譜時,需要準確地獲取多個三元組,從而構(gòu)建出完善的知識圖譜。
2、相關(guān)技術(shù)中,知識圖譜構(gòu)建方法包括:獲取多個實體,采用llm(large?languagemodel,大型語言模型)抽取多個實體中的兩個實體之間的關(guān)系,從而得到多個三元組,基于多個三元組構(gòu)建知識圖譜。
3、然而,llm是大體量的大語言模型,這種大體量的大語言模型在低資源的環(huán)境下難以使用。
技術(shù)實現(xiàn)思路
1、本公開提供了一種知識圖譜構(gòu)建方法、裝置、設(shè)備及存儲介質(zhì),能夠在低資源的環(huán)境下實現(xiàn)基于大語言模型構(gòu)建知識圖譜。所述技術(shù)方案至少包括如下方案:
2、第一方面,提供了一種知識圖譜構(gòu)建方法,包括:獲取第一謂語集合,所述第一謂語集合中包括目標領(lǐng)域中的多個謂語,所述謂語為知識圖譜的三元組中的謂語,所述三元組包括主體、謂語、客體;基于所述第一謂語集合,訓(xùn)練教師大語言模型,所述教師大語言模型用于從目標領(lǐng)域知識文本中提取多個三元組,且所述教師大模型提取出的任一個三元組中的謂語均在所述第一謂語集合中;基于所述教師大語言模型,對學(xué)生大語言模型進行知識蒸餾;基于知識蒸餾后的所述學(xué)生大語言模型,構(gòu)建目標領(lǐng)域知識圖譜。
3、可選地,所述基于所述第一謂語集合,訓(xùn)練教師大語言模型,包括:獲取第一微調(diào)指令,所述第一微調(diào)指令中包括第一目標領(lǐng)域知識文本和標簽,所述第一微調(diào)指令用于控制所述教師大語言模型從所述第一目標領(lǐng)域知識文本中按照所述標簽所指示的格式提取多個三元組,且所述教師大語言模型從所述第一目標領(lǐng)域知識文本中提取出的任一個三元組中的謂語均在所述第一謂語集合中;基于所述第一微調(diào)指令,采用低階自適應(yīng)的方式對所述教師大語言模型進行微調(diào)。
4、可選地,所述基于所述第一微調(diào)指令,采用低階自適應(yīng)的方式對所述教師大語言模型進行微調(diào),包括:對所述第一微調(diào)指令進行預(yù)處理,所述預(yù)處理包括獲取所述第一微調(diào)指令的詞序列、注意力掩碼和所述標簽;將所述第一微調(diào)指令的詞序列、注意力掩碼和標簽輸入至所述教師大語言模型,以對所述教師大語言模型進行微調(diào)。
5、可選地,所述基于所述教師大語言模型,對學(xué)生大語言模型進行知識蒸餾,包括:
6、采用如下公式作為損失函數(shù),以對所述學(xué)生大語言模型進行知識蒸餾:
7、
8、其中,為所述損失函數(shù)的損失值,為所述教師大語言模型輸出的概率分布,為所述學(xué)生大語言模型輸出的概率分布,表示對所述教師大語言模型的輸出和所述學(xué)生大語言模型的輸出進行逆kullback-leibler散度變換,表示在為訓(xùn)練集中的任一個樣本,為所述學(xué)生大語言模型輸出的概率分布生成的樣本的情況下,和的聯(lián)合期望。
9、可選地,所述方法還包括:獲取所述學(xué)生大語言模型的評估指標,所述評估指標包括準確度、召回率和f1分數(shù);基于所述評估指標,評估所述學(xué)生大語言模型的性能。
10、第二方面,還提供了一種知識圖譜構(gòu)建裝置,包括:獲取模塊,用于獲取第一謂語集合,所述第一謂語集合中包括目標領(lǐng)域中的多個謂語,所述謂語為知識圖譜的三元組中的謂語,所述三元組包括主體、謂語、客體;訓(xùn)練模塊,用于基于所述第一謂語集合,訓(xùn)練教師大語言模型,所述教師大語言模型用于從目標領(lǐng)域知識文本中提取多個三元組,且所述教師大模型提取出的任一個三元組中的謂語均在所述第一謂語集合中;知識蒸餾模塊,用于基于所述教師大語言模型,對學(xué)生大語言模型進行知識蒸餾;知識圖譜構(gòu)建模塊,用于基于知識蒸餾后的所述學(xué)生大語言模型,構(gòu)建目標領(lǐng)域知識圖譜。
11、可選地,所述訓(xùn)練模塊還用于獲取第一微調(diào)指令,所述第一微調(diào)指令中包括第一目標領(lǐng)域知識文本和標簽,所述第一微調(diào)指令用于控制所述教師大語言模型從所述第一目標領(lǐng)域知識文本中按照所述標簽所指示的格式提取多個三元組,且所述教師大語言模型從所述第一目標領(lǐng)域知識文本中提取出的任一個三元組中的謂語均在所述第一謂語集合中;基于所述第一微調(diào)指令,采用低階自適應(yīng)的方式對所述教師大語言模型進行微調(diào)。
12、可選地,所述訓(xùn)練模塊還用于對所述第一微調(diào)指令進行預(yù)處理,所述預(yù)處理包括獲取所述第一微調(diào)指令的詞序列、注意力掩碼和所述標簽;將所述第一微調(diào)指令的詞序列、注意力掩碼和標簽輸入至所述教師大語言模型,以對所述教師大語言模型進行微調(diào)。
13、可選地,所述知識蒸餾模塊還用于采用如下公式作為損失函數(shù),以對所述學(xué)生大語言模型進行知識蒸餾:
14、
15、其中,為所述損失函數(shù)的損失值,為所述教師大語言模型輸出的概率分布,為所述學(xué)生大語言模型輸出的概率分布,表示對所述教師大語言模型的輸出和所述學(xué)生大語言模型的輸出進行逆kullback-leibler散度變換,表示在為訓(xùn)練集中的任一個樣本,為所述學(xué)生大語言模型輸出的概率分布生成的樣本的情況下,和的聯(lián)合期望。
16、可選地,該裝置還包括:評估模塊,所述評估模塊用于獲取所述學(xué)生大語言模型的評估指標,所述評估指標包括準確度、召回率和f1分數(shù);基于所述評估指標,評估所述學(xué)生大語言模型的性能。
17、第三方面,還提供了一種計算機設(shè)備,包括:存儲器和處理器,所述存儲器中存儲有至少一條計算機程序,所述至少一條計算機程序由所述處理器加載并執(zhí)行,從而執(zhí)行上述實施例中所述的知識圖譜構(gòu)建方法。
18、第四方面,還提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)中存儲有至少一條計算機程序,所述至少一條計算機程序由處理器加載并執(zhí)行,從而執(zhí)行上述實施例中所述的知識圖譜構(gòu)建方法。
19、第五方面,提供了一種計算機程序產(chǎn)品,包括計算機程序/指令,所述計算機程序/指令被處理器執(zhí)行時實現(xiàn)第一方面所述的方法。
20、本公開實施例提供的技術(shù)方案帶來的有益效果至少包括:
21、在本公開實施例中,通過第一謂語集合訓(xùn)練教師大語言模型,使得訓(xùn)練完成的教師大語言模型可以較為準確地從目標領(lǐng)域知識文本中提取出目標領(lǐng)域知識圖譜所需多個三元組;而通過教師大語言模型對學(xué)生大語言模型進行知識蒸餾,可以將教師大語言模型的知識遷移到學(xué)生大語言模型中。學(xué)生大語言模型通常為小體積的大語言模型,而小體積的大語言模型在低資源的環(huán)境下就可以運行,故最終得到的知識蒸餾后的學(xué)生大語言模型可以在低資源的環(huán)境下實現(xiàn)構(gòu)建目標領(lǐng)域知識圖譜。
1.一種知識圖譜構(gòu)建方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述第一謂語集合,訓(xùn)練教師大語言模型,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述基于所述第一微調(diào)指令,采用低階自適應(yīng)的方式對所述教師大語言模型進行微調(diào),包括:
4.根據(jù)權(quán)利要求1至3任一項所述的方法,其特征在于,所述基于所述教師大語言模型,對學(xué)生大語言模型進行知識蒸餾,包括:
5.根據(jù)權(quán)利要求1至3任一項所述的方法,其特征在于,所述方法還包括:
6.一種知識圖譜構(gòu)建裝置,其特征在于,所述裝置包括:
7.一種計算機設(shè)備,其特征在于,所述計算機設(shè)備包括:存儲器和處理器,所述存儲器中存儲有至少一條計算機程序,所述至少一條計算機程序由所述處理器加載并執(zhí)行,以實現(xiàn)權(quán)利要求1至5任一項所述的方法。
8.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)中存儲有至少一條計算機程序,所述至少一條計算機程序由處理器加載并執(zhí)行,以實現(xiàn)權(quán)利要求1至5任一項所述的方法。
9.一種計算機程序產(chǎn)品,包括計算機程序/指令,其特征在于,所述計算機程序/指令被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至5任一項所述的方法。