1.一種基于數(shù)據(jù)驅(qū)動的知識點掌握狀態(tài)的預(yù)測系統(tǒng),其特征在于:包括測試題目的生成和屬性標注模塊、訓(xùn)練數(shù)據(jù)采集模塊、基于測試數(shù)據(jù)的多維度特征提取模塊、數(shù)據(jù)驅(qū)動的預(yù)測模型建立模塊,其中:
測試題目的生成和屬性標注模塊:根據(jù)課程標準按照所屬學科及知識點之間的父子關(guān)系進行整理,對每個學科形成N層知識點結(jié)構(gòu);同時,根據(jù)學習者進行相應(yīng)學科的認知活動能力和心理調(diào)節(jié)能力,將學科能力進行分級;根據(jù)所述的N層知識點結(jié)構(gòu)和學科能力分級,生成所需測試題目;對于所述生成的所有測試題目,進行水平等級劃分,將測試題目劃分為多個等級;對于需測試題目的每個第N層知識點,也就是每個最底層知識點,生成的測試題目數(shù)量需滿足最少題目要求;
訓(xùn)練數(shù)據(jù)采集模塊:基于測試題目的生成和屬性標注模塊生成的測試題目,組織學習者進行測試,測試可以采用線上系統(tǒng)電子化測試或者線下試卷測試;學習者應(yīng)涵蓋同一年齡各層次水平的人群;測試過程應(yīng)在獨立且無干擾的條件下進行;訓(xùn)練數(shù)據(jù)可以分多次、不同時段進行收集,但是不可以在同一學習者上進行反復(fù)測試;同時,如果單一學習者的訓(xùn)練數(shù)據(jù)不完整或者有明顯抄襲、重復(fù)答案等特征,應(yīng)該從訓(xùn)練數(shù)據(jù)集中移除,最終得到有效的訓(xùn)練數(shù)據(jù);
基于訓(xùn)練數(shù)據(jù)的多維度特征提取模塊:對訓(xùn)練數(shù)據(jù)采集模塊得到的每位學習者的數(shù)據(jù),首先進行基本特征的逐級特征提取,對測試所涉及的每個第N層知識點,分別計算得分率,所有得分率作為第N層知識點基本特征向量VN;對于每個第N-1層知識點,如果其下轄的所有第N層知識點均有得分率,則稱為已知知識點,計算已知知識點所下轄的所有知識點的平均得分率作為該N-1層知識點的基本特征值;如果該N-1層知識點下轄知識點的得分率部分缺失或者全部缺失,則該第N-1層知識點稱為未知知識點;未知知識點的基本特征值為空;對所有第N-1層已知知識點,得到其基本特征向量VN-1;同理,能夠得到各層已知知識點的基本特征向量VN-2,VN-3,…,V1;同時,將學習者的性別、年齡個人特征作為補充特征向量G,從而完成訓(xùn)練數(shù)據(jù)的多維度特征提取,多維度特征包括各層已知知識點的基本特征向量VN-2,VN-3,…,V1和補充特征向量G;標注訓(xùn)練數(shù)據(jù)中已知知識點掌握程度YA,標注根據(jù)各項得分率結(jié)合經(jīng)驗規(guī)則進行,標注的知識點掌握程度可以分為多個等級;
數(shù)據(jù)驅(qū)動的預(yù)測模型建立模塊:對于標注的已知知識點掌握程度YA,根據(jù)各層已知知識點的基本特征向量VN-2,VN-3,…,V1及補充特征向量G,建立多元分類算法的單一預(yù)測模型,預(yù)測出知識點A的掌握程度YA;所述單一預(yù)測模型是指基于單個預(yù)測模型,包括人工神經(jīng)網(wǎng)絡(luò)、隨機森林或邏輯回歸的經(jīng)典模型,先對所述各個預(yù)測模型進行準確度評估,根據(jù)評估結(jié)果,最終決定其中一種模型作為預(yù)測模型。
2.根據(jù)權(quán)利要求1所述的一種基于數(shù)據(jù)驅(qū)動的知識點掌握狀態(tài)的預(yù)測系統(tǒng),其特征在于:所述標注已知知識點掌握程度YA的多個等級包括卓越、優(yōu)秀、良好、合格以及不合格。
3.根據(jù)權(quán)利要求1所述的一種基于數(shù)據(jù)驅(qū)動的知識點掌握狀態(tài)的預(yù)測系統(tǒng),其特征在于:所述數(shù)據(jù)驅(qū)動的預(yù)測模型建立模塊實現(xiàn)如下:
步驟(1)基于所述的測試數(shù)據(jù)的多維度特征和訓(xùn)練所用的知識點掌握程度,生成訓(xùn)練數(shù)據(jù),訓(xùn)練數(shù)據(jù)的輸出為任一給定知識點A的掌握程度;分別利用多個不同的經(jīng)典模型進行訓(xùn)練,包括單層或者多層結(jié)構(gòu)人工神經(jīng)網(wǎng)絡(luò)模型(Artificial Neural Network)、隨機森林(Random Forest)模型以及邏輯回歸(Logistic Regression)模型,其中對于單層神經(jīng)網(wǎng)絡(luò)模型,訓(xùn)練算法采用反向傳播算法(Backpropagation);
步驟(2)通過獨立訓(xùn)練得到m個不同的模型后,利用K次交叉驗證方法,計算所得模型的準確率A1,A2,…Am,取準確率最高的模型為最終預(yù)測模型Ω;最終預(yù)測模型Ω的輸出為{P(j)|j=1,2,3……},其中P(j)是最終預(yù)測模型對知識點第j級掌握程度的預(yù)測概率,最后取P(j)中預(yù)測概率數(shù)值最大者所對應(yīng)的等級為該知識點的預(yù)測掌握程度。
4.一種基于數(shù)據(jù)驅(qū)動的知識點掌握狀態(tài)的預(yù)測方法,其特征在于:包括測試題目的生成和屬性標注步驟、訓(xùn)練數(shù)據(jù)采集步驟、基于測試數(shù)據(jù)的多維度特征提取步驟、數(shù)據(jù)驅(qū)動的預(yù)測模型建立步驟,其中:
測試題目的生成和屬性標注步驟:根據(jù)課程標準按照所屬學科及知識點之間的父子關(guān)系進行整理,對每個學科形成N層知識點結(jié)構(gòu);同時,根據(jù)學習者進行相應(yīng)學科的認知活動能力和心理調(diào)節(jié)能力,將學科能力進行分級;根據(jù)所述的N層知識點結(jié)構(gòu)和學科能力分級,生成所需測試題目;對于所述生成的所有測試題目,進行水平等級劃分,將測試題目劃分為多個等級;對于需測試題目的每個第N層知識點,也就是每個最底層知識點,生成的測試題目數(shù)量需滿足最少題目要求;
訓(xùn)練數(shù)據(jù)采集步驟:基于測試題目的生成和屬性標注步驟生成的測試題目,組織學習者進行測試,測試可以采用線上系統(tǒng)電子化測試或者線下試卷測試;學習者應(yīng)涵蓋同一年齡各層次水平的人群;測試過程應(yīng)在獨立且無干擾的條件下進行;訓(xùn)練數(shù)據(jù)可以分多次、不同時段進行收集,但是不可以在同一學習者上進行反復(fù)測試;同時,如果單一學習者的訓(xùn)練數(shù)據(jù)不完整或者有明顯抄襲、重復(fù)答案特征,應(yīng)該從訓(xùn)練數(shù)據(jù)集中移除,最終得到有效的訓(xùn)練數(shù)據(jù);
基于訓(xùn)練數(shù)據(jù)的多維度特征提取步驟:對訓(xùn)練數(shù)據(jù)采集步驟得到的每位學習者的數(shù)據(jù),首先進行基本特征的逐級特征提取,對測試所涉及的每個第N層知識點,分別計算得分率,所有得分率作為第N層知識點基本特征向量VN;對于每個第N-1層知識點,如果其下轄的所有第N層知識點均有得分率,則稱為已知知識點,計算已知知識點所下轄的所有知識點的平均得分率作為該N-1層知識點的基本特征值;如果該N-1層知識點下轄知識點的得分率部分缺失或者全部缺失,則該第N-1層知識點稱為未知知識點;未知知識點的基本特征值為空;對所有第N-1層已知知識點,得到其基本特征向量VN-1;同理,能夠得到各層已知知識點的基本特征向量VN-2,VN-3,…,V1;同時,將學習者的性別、年齡個人特征作為補充特征向量G,從而完成測試數(shù)據(jù)的多維度特征提取,多維度特征包括各層已知知識點的基本特征向量VN-2,VN-3,…,V1和補充特征向量G;標注訓(xùn)練數(shù)據(jù)中已知知識點掌握程度YA,標注根據(jù)各項得分率結(jié)合經(jīng)驗規(guī)則進行,標注的知識點掌握程度可以分為多個等級;
數(shù)據(jù)驅(qū)動的預(yù)測模型建立步驟:根據(jù)各層已知知識點的基本特征向量VN-2,VN-3,…,V1及補充特征向量G,建立多元分類算法的單一預(yù)測模型,預(yù)測出知識點A的掌握程度YA。所述單一預(yù)測模型是指基于單個預(yù)測模型,包括人工神經(jīng)網(wǎng)絡(luò)、隨機森林或邏輯回歸的經(jīng)典模型;先對各個預(yù)測模型進行準確度評估,根據(jù)評估結(jié)果,最終決定其中一種模型作為預(yù)測模型。