本發(fā)明涉及智慧教育,具體涉及一種基于通用大語言模型與知識圖譜的個性化問答方法。
背景技術(shù):
1、通用大語言模型是一種基于人工智能的語言處理工具,通過大量的文本數(shù)據(jù)學(xué)習(xí),能夠模擬人類的語言理解和生成能力。在智慧教育領(lǐng)域,通常使用通用大語言模型來擔(dān)當(dāng)學(xué)生的教學(xué)助手,為學(xué)生進行答疑解惑。這種實時性的教學(xué)方式,不僅可以提高學(xué)生的學(xué)習(xí)效率,還能夠激發(fā)他們的學(xué)習(xí)興趣,使教育更加智慧化。
2、然而,使用通用大語言模型直接作為問答方法,在智慧教育領(lǐng)域仍存在不足。通用大語言模型本質(zhì)上是一個黑盒,存在不可解釋性,且其推理過程缺乏透明性。此外,通用大模型無論理解用戶的需求與否,都會進行輸出操作,這便會導(dǎo)致模型生成的答案看似合理,實際上可能具有誤導(dǎo)性或者錯誤。由于學(xué)生一般很難具有評估模型生成信息正確與否的能力,因此通用大語言模型在與學(xué)生進行問答的過程中很有可能對學(xué)生產(chǎn)生誤導(dǎo),進而影響到他們的學(xué)習(xí)效率與知識體系構(gòu)建。
3、作為學(xué)生的教學(xué)助手,在于學(xué)生進行問答的過程中,需要盡可能的保證回答問題的準(zhǔn)確性與可解釋性。由于通用大語言模型在與學(xué)生對話時,僅僅能夠利用訓(xùn)練過程中所吸收的各類隱式信息。因此,為了提高模型回答學(xué)生問題的準(zhǔn)確性與可解釋性,可以考慮為其增添額外的推理信息。
4、知識圖譜是一種結(jié)構(gòu)化的知識表達形式,其以圖的形式表達現(xiàn)實世界中的實體之間的關(guān)系,進而形成一種復(fù)雜的網(wǎng)絡(luò)化知識結(jié)構(gòu)。知識圖譜具有結(jié)構(gòu)化與可解釋性,通過提供豐富的、精準(zhǔn)的背景知識,可以為人工智能等領(lǐng)域進行知識支持。因此,可以選擇知識圖譜作為通用大語言模型的補充,幫助其更好地理解和生成文本,提高回答的準(zhǔn)確性與可解釋性,同時為處理更加復(fù)雜的需求提供可能。
5、將知識圖譜融入到大語言模型的方式目前主要有兩種。一種是將知識圖譜作為語料供大語言模型進行訓(xùn)練。但是由于知識圖譜信息會被大量的其他語料所吞沒,因此很難針對性的發(fā)揮知識圖譜的強大作用。另一種方式是在大語言模型訓(xùn)練好后,將知識圖譜轉(zhuǎn)換為提示詞,供大語言模型理解學(xué)習(xí)。這種方式能夠針對性地利用知識圖譜,進而發(fā)揮出知識圖譜的強大作用。然而,知識圖譜作為一種特殊形式的數(shù)據(jù),直接將表示知識圖譜的三元組輸入模型,往往很難使大語言模型理解知識圖譜所表示的知識結(jié)構(gòu)。
6、智慧教育的核心之一是個性化教學(xué),它強調(diào)根據(jù)每個學(xué)生的學(xué)習(xí)風(fēng)格、知識背景和興趣愛好提供定制化的教學(xué)方案,以提高學(xué)習(xí)效率和興趣,促進學(xué)生全面發(fā)展。在將通用大語言模型與知識圖譜相結(jié)合,作為學(xué)生的問答助手后,還應(yīng)該保證問答的個性化。例如,當(dāng)學(xué)生對各類知識點掌握程度不同時,由大語言模型推薦的學(xué)生學(xué)習(xí)路徑應(yīng)該有所不同。因此,有必要將學(xué)生學(xué)習(xí)情況等個人信息有效的融入進通用大語言模型,使得模型能夠進一步的理解學(xué)生需求,為學(xué)生提供多元化、個性化的問答建議。
7、現(xiàn)有技術(shù)中的技術(shù)方案,在面對智慧教育這一特殊領(lǐng)域時,往往直接將通用大語言模型作為問答助手,這種問答方法缺乏準(zhǔn)確性和可解釋性。為了解決這一問題,可以使用知識圖譜進行輔助推理。然而,如何使大語言模型理解知識圖譜的知識結(jié)構(gòu),并在此過程中融入學(xué)生個體特征,實現(xiàn)個性化問答,仍然是一項具有挑戰(zhàn)的任務(wù)。
技術(shù)實現(xiàn)思路
1、為解決上述技術(shù)問題,本發(fā)明提供一種基于通用大語言模型與知識圖譜的個性化問答方法,將通用大語言模型的隱式知識與知識圖譜的顯式知識相結(jié)合,進而實現(xiàn)透明和可靠的協(xié)同推理;在結(jié)合過程中,有效融入學(xué)生個體特征,實現(xiàn)個性化問答。
2、為解決上述技術(shù)問題,本發(fā)明采用如下技術(shù)方案:
3、一種基于通用大語言模型與知識圖譜的個性化問答方法,包括以下步驟:
4、步驟一,利用大語言模型對獲取的學(xué)生的問題q進行實體識別,識別出問題q中的命名實體,構(gòu)建命名實體集;利用實體匹配算法,將命名實體集與知識圖譜中的知識實體進行匹配,將匹配到的知識實體構(gòu)建為關(guān)聯(lián)性實體集r;
5、步驟二,將關(guān)聯(lián)性實體集r中的每一個知識實體r分別作為核心實體,以核心實體為中心對所述知識圖譜搜索,并對搜索過程中滿足保存條件的知識實體以及知識實體之間的關(guān)系進行保存,將知識實體r、符合保存條件的知識實體以及知識實體之間的關(guān)系構(gòu)成知識子圖,并以三元組的形式進行存儲,得到知識子圖集合;
6、步驟三,將知識子圖集合中所有用于表示知識子圖的三元組放置在一起,構(gòu)成知識子圖的聚合圖b;利用大語言模型對所述聚合圖進行優(yōu)化,將優(yōu)化后的結(jié)果作為知識圖;
7、步驟四,在提示大語言模型學(xué)習(xí)與的結(jié)構(gòu)后,要求大語言模型結(jié)合自身的多輪對話能力、自身已有知識與從外部的知識圖譜獲取的知識,回答學(xué)生問題并提供推理過程。
8、進一步地,步驟一具體包括命名實體識別與實體匹配;
9、命名實體識別包括:針對學(xué)生的問題q構(gòu)建提示詞一,在提示詞一中為大語言模型設(shè)置教師的身份,并讓大語言模型在尋找問題q中的命名實體時增加對知識點的關(guān)注,進而獲得所述命名實體集;其中為大語言模型識別出的第n個命名實體;
10、實體匹配包括:知識圖譜的知識實體集,其中為知識圖譜中的第m個知識實體,m為知識圖譜中知識實體的總數(shù);
11、使用bert編碼器將命名實體集c中的各命名實體編碼為命名實體向量、將知識實體集中的知識實體編碼為知識實體向量;計算與各個的余弦相似度:
12、;
13、其中,為與的內(nèi)積,與分別為和的長度;
14、如果余弦相似度大于設(shè)定的閾值,則將對應(yīng)的知識實體e放置于集合t中;
15、將集合t進行去重操作后獲得所述關(guān)聯(lián)性實體集,為中的第個知識實體,為關(guān)聯(lián)性實體集中的知識實體總數(shù)。
16、進一步地,所述針對學(xué)生的問題q構(gòu)建提示詞一,在提示詞一中為大語言模型設(shè)置教師的身份,具體包括:
17、;
18、其中,smooth表示使用語句進行拼接的操作,表示為大語言模型設(shè)置教師身份,表示提示詞一。
19、進一步地,步驟二具體包括:
20、針對每一個知識實體r,搜索過程中執(zhí)行兩種搜索策略,包括進行局部信息挖掘的鄰居搜索與進行長距離依賴捕獲的路徑搜索;將進行鄰居搜索獲得的鄰居知識子圖集合和進行路徑搜索獲得的路徑知識子圖集合進行合并操作,得到所述知識子圖集合;
21、進行鄰居搜索時,搜索的路徑長度恒為1,即只搜索與核心實體直接相連的鄰居知識實體;核心實體的鄰居知識實體能否保存,取決于鄰居知識實體與知識實體r的概念相關(guān)性以及學(xué)生個體特征:
22、通過計算鄰居知識實體與知識實體r的向量之間的余弦相似度,來判斷鄰居知識實體與知識實體r的概念相關(guān)性;如果鄰居知識實體與知識實體r的向量之間的余弦相似度大于閾值,則鄰居知識實體與知識實體r之間概念相關(guān),對應(yīng)的鄰居知識實體符合條件一;
23、所述學(xué)生個體特征包括學(xué)生的學(xué)力和學(xué)生的興趣;
24、根據(jù)學(xué)習(xí)情況將學(xué)生的學(xué)力分成不同的學(xué)力等級,將知識點分為不同的難度等級,如果學(xué)生st的學(xué)力等級大于或者等于知識點的難度等級,則核心實體的與所述知識點對應(yīng)的鄰居知識實體,符合條件二;
25、對知識圖譜中的學(xué)生st存在興趣的知識實體進行統(tǒng)計,如果鄰居知識實體屬于學(xué)生st存在興趣的知識實體,則鄰居知識實體符合條件三;
26、如果鄰居知識實體在滿足條件一的前提下,能夠符合條件二與條件三的任意一個,則滿足所述的保存條件,保存鄰居知識實體、知識實體r以及知識實體r和鄰居知識實體之間的關(guān)系,構(gòu)成以三元組形式存儲的鄰居知識子圖g;
27、對關(guān)聯(lián)性實體集r中的每一個知識實體進行鄰居搜索,得到鄰居知識子圖集合,為中的第個鄰居知識子圖,為關(guān)聯(lián)性實體集r中的知識實體r總數(shù);
28、路徑搜索與鄰居搜索的區(qū)別僅在于:進行路徑搜索時,根據(jù)學(xué)生st的學(xué)力等級設(shè)置不同的搜索路徑長度,學(xué)力等級越高則搜索路徑長度越長,如果搜索過程中遇到不符合所述保存條件的實體,則結(jié)束當(dāng)前搜索路徑,將符合所述保存條件的鄰居知識實體、知識實體r以及知識實體r和鄰居知識實體之間的關(guān)系,構(gòu)成以三元組形式存儲的路徑知識子圖p;
29、對關(guān)聯(lián)性實體集r中的每一個知識實體進行路徑搜索,得到路徑知識子圖集合;為中的第個路徑知識子圖;
30、將鄰居知識子圖集合g與路徑知識子圖集合p進行合并操作,獲得最終的知識子圖集合。
31、進一步地,步驟三具體包括:
32、將知識子圖集合中所有的用于表示知識子圖的三元組放置在一起,構(gòu)成知識子圖的聚合圖b;構(gòu)建提示詞二,并在提示詞二中為大語言模型設(shè)置知識圖譜研究專家的身份,來提示大語言模型對所述聚合圖b進行優(yōu)化,得到知識圖。
33、進一步地,所述構(gòu)建提示詞二,并在提示詞二中為大語言模型設(shè)置知識圖譜研究專家的身份,具體包括:
34、;
35、其中,smooth表示使用語句進行拼接的操作,表示為大語言模型設(shè)置知識圖譜研究專家身份。
36、進一步地,步驟四具體包括:
37、針對問題q,使用langchain工具設(shè)置三輪對話來引導(dǎo)大語言模型;使用langchain工具的過程中,基于教育場景來設(shè)置系統(tǒng)消息,并根據(jù)以下內(nèi)容設(shè)計三輪對話的用戶消息,來對大語言模型進行引導(dǎo):
38、第一輪對話的用戶消息構(gòu)建方式:提示大語言模型使用自然語言描述知識子圖集合a中的每一個知識子圖的結(jié)構(gòu);
39、第二輪對話的用戶消息構(gòu)建方式:提示大語言模型用自然語言描述知識圖,并要求大語言模型生成知識圖中的節(jié)點到節(jié)點之間的推理路徑;
40、第三輪對話的用戶消息構(gòu)建方式:將學(xué)生的問題送入大語言模型,同時提示大語言模型結(jié)合自身已有知識與從外部的知識圖譜獲取的知識進行思考,回答學(xué)生的問題并返回推理過程;
41、將第三輪對話中大語言模型的回答返回給學(xué)生,作為所述問題q的答案并向?qū)W生提供推理過程。
42、與現(xiàn)有技術(shù)相比,本發(fā)明的有益技術(shù)效果是:
43、本發(fā)明有效結(jié)合了通用大語言模型的隱式知識與知識圖譜的顯式知識,從而實現(xiàn)了透明可靠的協(xié)同推理。這種結(jié)合方式既利用了大語言模型的強大語言理解和生成能力,又利用了知識圖譜的結(jié)構(gòu)化知識,使得問題回答更加準(zhǔn)確和深入。同時,本發(fā)明在構(gòu)建知識子圖的過程中,有效融入了學(xué)生的個體特征,為問答的個性化提供了可能。最后,本發(fā)明在回答問題的過程中,不僅提供了答案,還提供了推理過程,有助于學(xué)生的理解和記憶,能夠有效提高學(xué)生的學(xué)習(xí)效果。