本發(fā)明涉及教育類知識圖譜自動生成,更具體地說,本發(fā)明涉及一種多模態(tài)標準化知識圖譜自動化生成方法及系統(tǒng)。
背景技術:
1、多模態(tài)標準化知識圖譜是一種將不同模態(tài)(如文本、圖像、音頻、視頻等)的信息整合到統(tǒng)一的知識結(jié)構(gòu)中的技術,旨在通過跨模態(tài)數(shù)據(jù)的關聯(lián)、融合和分析來提升知識的呈現(xiàn)和理解,在教育領域,學生學習資源通常以多種形式呈現(xiàn),如課本中的文字解釋、視頻講解、互動式圖表等,單一模態(tài)的信息往往難以滿足不同學習需求,通過多模態(tài)知識圖譜的生成,系統(tǒng)能夠自動整合和呈現(xiàn)不同模態(tài)的教育資源,使學生在學習過程中獲得更全面的知識結(jié)構(gòu),增強學習效果。
2、現(xiàn)有技術存在的不足:在處理知識點抽象層次和模態(tài)間層次對應方面存在不足,知識點的抽象層次分類往往依賴于單一模態(tài)(如文本)的分析,缺乏對圖像、視頻、音頻等其他模態(tài)的深度理解,導致對多模態(tài)信息的抽象層次劃分不夠精準,無法全面反映知識點在不同模態(tài)下的復雜性與抽象性,其次,模態(tài)間的層次對應關系生成存在局限性,現(xiàn)有的跨模態(tài)映射算法大多基于簡單的語義相似度計算,難以捕捉各模態(tài)中知識點層次的細微差別,導致模態(tài)對齊不夠精確,在檢測和處理模態(tài)間層次沖突時,缺乏有效的機制來解決層次間的差異,容易導致學習路徑中的層次不一致,使得學生在不同模態(tài)下獲取到的信息層次不統(tǒng)一,進而影響知識的連貫性和深度理解。
技術實現(xiàn)思路
1、為了克服現(xiàn)有技術的上述缺陷,本發(fā)明提供一種多模態(tài)標準化知識圖譜自動化生成方法及系統(tǒng),以解決上述背景技術中知識圖譜生成不準確的問題。
2、為實現(xiàn)上述目的,本發(fā)明提供如下技術方案:
3、一種多模態(tài)標準化知識圖譜自動化生成方法,包括如下步驟:
4、從文本模態(tài)、視頻模態(tài)和圖像模態(tài)的數(shù)據(jù)源中采集與知識點相關的多模態(tài)數(shù)據(jù),并對所采集的數(shù)據(jù)進行預處理;
5、對各模態(tài)數(shù)據(jù)進行特征選擇,通過信息增益確定關鍵特征,并對文本、視頻、圖像的特征向量進行歸一化處理,統(tǒng)一特征的數(shù)值范圍;
6、根據(jù)模態(tài)信度函數(shù)計算不同模態(tài)的信度值,并根據(jù)信度值分配模態(tài)權(quán)重,對各模態(tài)的特征進行融合,生成統(tǒng)一的特征向量表示;
7、根據(jù)融合后的特征向量進行知識點層次劃分,生成對應的層次標簽,并進行模態(tài)間的一致性處理,生成多模態(tài)標準化知識圖譜并進行自動化更新。
8、在一個優(yōu)選的實施方式中,從文本模態(tài)、視頻模態(tài)和圖像模態(tài)的數(shù)據(jù)源中采集與知識點相關的多模態(tài)數(shù)據(jù),并對所采集的數(shù)據(jù)進行預處理,具體過程如下:
9、文本模態(tài)從電子教材、文檔、在線課程材料中提取段落、章節(jié);視頻模態(tài)從視頻講解或課堂錄制中提取片段;圖像模態(tài)從教學圖表、示意圖或演示圖像中提?。?/p>
10、對各模態(tài)數(shù)據(jù)進行知識點關聯(lián),建立模態(tài)間的統(tǒng)一知識點映射表;
11、文本數(shù)據(jù)進行分詞、去停用詞、詞干化處理,生成清理后的文本,獲取視頻中的幀序列,并對幀圖像進行過濾、去噪聲和增強,對圖像進行灰度化、邊緣檢測和圖像增強處理,并提取文本、視頻、圖像數(shù)據(jù)特征。
12、在一個優(yōu)選的實施方式中,對各模態(tài)數(shù)據(jù)進行特征選擇,通過信息增益確定關鍵特征,并對文本、視頻、圖像的特征向量進行歸一化處理,統(tǒng)一特征的數(shù)值范圍,具體過程如下:
13、對文本、視頻、圖像特征,使用信息增益來確定特征對知識點分類的貢獻度,并根據(jù)信息增益篩選各模態(tài)特征;
14、將每個模態(tài)的特征按信息增益進行排序,根據(jù)排序獲得前列特征,并形成新的特征向量;
15、對文本、視頻和圖像的特征向量進行最大最小歸一化處理生成文本、視頻、圖像特征向量。
16、在一個優(yōu)選的實施方式中,根據(jù)模態(tài)信度函數(shù)計算不同模態(tài)的信度值,并根據(jù)信度值分配模態(tài)權(quán)重,對各模態(tài)的特征進行融合,生成統(tǒng)一的特征向量表示,具體過程如下:
17、歷史信息數(shù)據(jù)集的構(gòu)建涉及從多個數(shù)據(jù)源中提取不同維度的信息,并構(gòu)建聯(lián)合數(shù)據(jù)集;
18、根據(jù)模態(tài)信度值函數(shù)的結(jié)果,計算每個模態(tài)的權(quán)重因子,并對文本、視頻、圖像模態(tài)進行融合得到融合特征向量;
19、對融合特征向量進行抽象層次的測度,根據(jù)知識點的抽象度函數(shù)得到抽象度,并根據(jù)到抽象度區(qū)分基礎知識和高度抽象。
20、在一個優(yōu)選的實施方式中,根據(jù)融合后的特征向量進行知識點層次劃分,生成對應的層次標簽,并進行模態(tài)間的一致性處理,生成多模態(tài)標準化知識圖譜并進行自動化更新,具體過程如下:
21、進行知識點層次劃分與標簽生成,將知識點劃分為基礎層次、中間層次和高級層次,并定義層次劃分閾值,根據(jù)層次劃分閾值將知識點生成層次標簽;
22、在劃分層次后,通過模態(tài)一致性驗證確定不同模態(tài)的知識點層次匹配情況;
23、若一致性驗證函數(shù)小于等于一致性驗證閾值,則視為一致,否則重新調(diào)整模態(tài)間層次表達。
24、在一個優(yōu)選的實施方式中,生成多模態(tài)標準化知識圖譜并進行自動化更新,具體過程如下:
25、進行模態(tài)特征分布映射,將各模態(tài)的特征映射到統(tǒng)一的層次空間,將不同模態(tài)下的特征在同一空間中進行對比和對應;
26、對于每個模態(tài)的特征定義映射函數(shù)并映射到多維層次空間,基于歐幾里得距離定義模態(tài)間層次的相似度函數(shù),并根據(jù)相似度函數(shù)測量不同模態(tài)下知識點層次的相似性;
27、定義相似度閾值,生成模態(tài)間的層次對應關系,若相似度函數(shù)大于等于相似度閾值,則不同模態(tài)的層次一致,并為知識點生成統(tǒng)一的層次標簽;若相似度函數(shù)小于相似度閾值,則對模態(tài)間層次進行調(diào)整;
28、在完成了模態(tài)間層次對應關系生成后,進行多模態(tài)標準化知識圖譜自動化生成。
29、在一個優(yōu)選的實施方式中,若相似度函數(shù)小于相似度閾值,則對模態(tài)間層次進行調(diào)整,具體步驟如下:
30、當模態(tài)間的相似度函數(shù)小于相似度閾值時,通過插值函數(shù)進行調(diào)整,根據(jù)模態(tài)間的層次差異程度,自動生成過渡層次調(diào)整模態(tài)特征;
31、在層次調(diào)整完成后,根據(jù)插值后的層次使用最小化模態(tài)層次重新擬合模態(tài)層次標簽;
32、在生成最終的統(tǒng)一層次標簽后,基于層次間的平方差進行模態(tài)層次一致性驗證與反饋。
33、在一個優(yōu)選的實施方式中,在完成了模態(tài)間層次對應關系生成后,進行多模態(tài)標準化知識圖譜自動化生成,具體步驟如下:
34、根據(jù)知識點特征將知識點映射為知識圖譜中的節(jié)點,并確定節(jié)點間的關聯(lián)關系;
35、根據(jù)關聯(lián)相似度函數(shù),為每對知識點的關聯(lián)關系賦予邊權(quán)重;
36、根據(jù)生成的節(jié)點和生成的邊權(quán)重,構(gòu)建知識圖譜。
37、一種多模態(tài)標準化知識圖譜自動化生成系統(tǒng),用于實現(xiàn)上述一種多模態(tài)標準化知識圖譜自動化生成方法,包括:
38、模態(tài)數(shù)據(jù)處理模塊,用于從文本模態(tài)、視頻模態(tài)和圖像模態(tài)的數(shù)據(jù)源中采集與知識點相關的多模態(tài)數(shù)據(jù),并對所采集的數(shù)據(jù)進行預處理;
39、特征融合模塊,用于對各模態(tài)數(shù)據(jù)進行特征選擇,通過信息增益確定關鍵特征,并對文本、視頻、圖像的特征向量進行歸一化處理,統(tǒng)一特征的數(shù)值范圍,根據(jù)模態(tài)信度函數(shù)計算不同模態(tài)的信度值,并根據(jù)信度值分配模態(tài)權(quán)重,對各模態(tài)的特征進行融合,生成統(tǒng)一的特征向量表示;
40、圖譜生成模塊,用于根據(jù)融合后的特征向量進行知識點層次劃分,生成對應的層次標簽,并進行模態(tài)間的一致性處理,生成多模態(tài)標準化知識圖譜并進行自動化更新。
41、本發(fā)明的技術效果和優(yōu)點:
42、本發(fā)明通過對多模態(tài)數(shù)據(jù)的預處理與特征選擇,通過特定的預處理方法,如文本分詞、視頻關鍵幀提取、圖像灰度化等,使得不同模態(tài)數(shù)據(jù)在統(tǒng)一的處理框架下進行特征提取,消除了模態(tài)間的差異,特征選擇步驟通過信息增益的計算篩選出各模態(tài)的關鍵特征,再結(jié)合歸一化處理使得不同模態(tài)特征向量的數(shù)值范圍統(tǒng)一,保證了后續(xù)特征融合的準確性和一致性;
43、通過模態(tài)信度函數(shù)計算各模態(tài)的信度值,并根據(jù)信度值分配權(quán)重,使得在多模態(tài)特征融合過程中,權(quán)重更高的模態(tài)能夠?qū)μ卣飨蛄康纳善鸬礁笞饔?,從而提升知識點的表示效果,融合后的統(tǒng)一特征向量用于知識點的層次劃分,不僅保證了知識點層次表達的精準性,還通過模態(tài)間一致性處理,避免了不同模態(tài)之間的層次沖突,能夠隨著多模態(tài)數(shù)據(jù)的變化動態(tài)調(diào)整知識點及其層次,實現(xiàn)了更為智能化和動態(tài)化的知識圖譜管理。