本發(fā)明涉及一種基于多模型數(shù)據(jù)驅(qū)動(dòng)的知識(shí)點(diǎn)掌握狀態(tài)的預(yù)測(cè)系統(tǒng)及方法,屬于數(shù)據(jù)挖掘技術(shù),特別是涉及教育領(lǐng)域的數(shù)據(jù)挖掘。
背景技術(shù):
數(shù)據(jù)挖據(jù)是一種基于大量數(shù)據(jù)進(jìn)行信息提取和知識(shí)發(fā)現(xiàn)的方法,已經(jīng)被廣泛應(yīng)用于互聯(lián)網(wǎng)、工業(yè)制造、交通等各個(gè)領(lǐng)域。數(shù)據(jù)挖掘在教育領(lǐng)域的應(yīng)用相對(duì)比較新穎,主要涉及概率統(tǒng)計(jì)、機(jī)器學(xué)習(xí)與自然語(yǔ)言等學(xué)科,主要的方法包括聚類、關(guān)聯(lián)規(guī)則學(xué)習(xí)、相關(guān)性分析、回歸性分析以及分類等,常用的模型包括貝葉斯模型、決策樹、隱形馬爾可夫模型等。復(fù)合預(yù)測(cè)模型主要基于以上所述的各類常用模型,在相同的訓(xùn)練數(shù)據(jù)集上進(jìn)行分別建模,然后綜合各個(gè)模型的輸出,得到最終復(fù)合預(yù)測(cè)模型的預(yù)測(cè)結(jié)果。在教育領(lǐng)域,數(shù)據(jù)挖據(jù)的應(yīng)用目前主要用來支持教育決策、對(duì)學(xué)生進(jìn)行信息和課程的推薦等。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明要解決的問題是:克服現(xiàn)有技術(shù)的不足,提供一種基于多模型數(shù)據(jù)驅(qū)動(dòng)的知識(shí)點(diǎn)掌握狀態(tài)的預(yù)測(cè)系統(tǒng)及方法,對(duì)學(xué)習(xí)者知識(shí)點(diǎn)掌握狀態(tài)進(jìn)行預(yù)測(cè)和估計(jì),從而為學(xué)習(xí)者提供個(gè)性化的教學(xué)服務(wù),提高學(xué)習(xí)針對(duì)性和學(xué)習(xí)效率。
本發(fā)明解決其問題所采用的方案是:一種基于多模型數(shù)據(jù)驅(qū)動(dòng)的知識(shí)點(diǎn)掌握狀態(tài)的預(yù)測(cè)系統(tǒng),包括測(cè)試題目的生成和屬性標(biāo)注模塊、訓(xùn)練數(shù)據(jù)采集模塊、基于測(cè)試數(shù)據(jù)的多維度特征提取模塊、多模型數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)模型建立模塊,其中:
測(cè)試題目的生成和屬性標(biāo)注模塊:根據(jù)課程標(biāo)準(zhǔn)按照所屬學(xué)科及知識(shí)點(diǎn)之間的父子關(guān)系進(jìn)行整理,對(duì)每個(gè)學(xué)科形成N層知識(shí)點(diǎn)結(jié)構(gòu);同時(shí),根據(jù)學(xué)習(xí)者進(jìn)行相應(yīng)學(xué)科的認(rèn)知活動(dòng)能力和心理調(diào)節(jié)能力,將學(xué)科能力進(jìn)行分級(jí);根據(jù)所述的N層知識(shí)點(diǎn)結(jié)構(gòu)和學(xué)科能力分級(jí),生成所需測(cè)試題目;對(duì)于所述生成的所有測(cè)試題目,進(jìn)行水平等級(jí)劃分,將測(cè)試題目劃分為多個(gè)等級(jí);對(duì)于需測(cè)試題目的每個(gè)第N層知識(shí)點(diǎn),也就是每個(gè)最底層知識(shí)點(diǎn),生成的測(cè)試題目數(shù)量需滿足最少題目要求;
訓(xùn)練數(shù)據(jù)采集模塊:基于測(cè)試題目的生成和屬性標(biāo)注模塊生成的測(cè)試題目,組織學(xué)習(xí)者進(jìn)行測(cè)試,測(cè)試可以采用線上系統(tǒng)電子化測(cè)試或者線下試卷測(cè)試;學(xué)習(xí)者應(yīng)涵蓋同一年齡各層次水平的人群;測(cè)試過程應(yīng)在獨(dú)立且無干擾的條件下進(jìn)行;訓(xùn)練數(shù)據(jù)可以分多次、不同時(shí)段進(jìn)行收集,但是不可以在同一學(xué)習(xí)者上進(jìn)行反復(fù)測(cè)試;同時(shí),如果單一學(xué)習(xí)者的訓(xùn)練數(shù)據(jù)不完整或者有明顯抄襲、重復(fù)答案等特征,應(yīng)該從訓(xùn)練數(shù)據(jù)集中移除,最終得到有效的訓(xùn)練數(shù)據(jù);
基于訓(xùn)練數(shù)據(jù)的多維度特征提取模塊:對(duì)訓(xùn)練數(shù)據(jù)采集模塊得到的每位學(xué)習(xí)者的數(shù)據(jù),首先進(jìn)行基本特征的逐級(jí)特征提取,對(duì)測(cè)試所涉及的每個(gè)第N層知識(shí)點(diǎn),分別計(jì)算得分率,所有得分率作為第N層知識(shí)點(diǎn)基本特征向量VN;對(duì)于每個(gè)第N-1層知識(shí)點(diǎn),如果其下轄的所有第N層知識(shí)點(diǎn)均有得分率,則稱為已知知識(shí)點(diǎn),計(jì)算已知知識(shí)點(diǎn)所下轄的所有知識(shí)點(diǎn)的平均得分率作為該N-1層知識(shí)點(diǎn)的基本特征值;如果該N-1層知識(shí)點(diǎn)下轄知識(shí)點(diǎn)的得分率部分缺失或者全部缺失,則該第N-1層知識(shí)點(diǎn)稱為未知知識(shí)點(diǎn);未知知識(shí)點(diǎn)的基本特征值為空;對(duì)所有第N-1層已知知識(shí)點(diǎn),得到其基本特征向量VN-1;同理,能夠得到各層已知知識(shí)點(diǎn)的基本特征向量VN-2,VN-3,…,V1;同時(shí),將學(xué)習(xí)者的性別、年齡個(gè)人特征作為補(bǔ)充特征向量G,從而完成訓(xùn)練數(shù)據(jù)的多維度特征提取,多維度特征包括各層已知知識(shí)點(diǎn)的基本特征向量VN-2,VN-3,…,V1和補(bǔ)充特征向量G;
多模型數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)模型建立模塊:標(biāo)注訓(xùn)練數(shù)據(jù)中已知知識(shí)點(diǎn)掌握程度YA,標(biāo)注根據(jù)各項(xiàng)得分率結(jié)合經(jīng)驗(yàn)規(guī)則進(jìn)行,標(biāo)注的知識(shí)點(diǎn)掌握程度可以分為多個(gè)等級(jí);對(duì)于標(biāo)注的已知知識(shí)點(diǎn)掌握程度YA,根據(jù)各層已知知識(shí)點(diǎn)的基本特征向量VN-2,VN-3,…,V1及補(bǔ)充特征向量G,建立多元分類算法的復(fù)合模型,預(yù)測(cè)出知識(shí)點(diǎn)A的掌握程度YA,所述復(fù)合模型是指不是基于單一分類模型,而是用多種分類模型進(jìn)行并行預(yù)測(cè),最后綜合各個(gè)分類模型預(yù)測(cè)的結(jié)果,最終給出該知識(shí)點(diǎn)掌握程度的預(yù)測(cè)。
所述標(biāo)注已知知識(shí)點(diǎn)掌握程度YA的多個(gè)等級(jí)包括卓越、優(yōu)秀、良好、合格以及不合格。
所述多模型數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)模型建立模塊的實(shí)現(xiàn)如下:
步驟(1)基于所述的測(cè)試數(shù)據(jù)的多維度特征和訓(xùn)練所用的知識(shí)點(diǎn)掌握程度,生成訓(xùn)練數(shù)據(jù),訓(xùn)練數(shù)據(jù)的輸出為任一給定知識(shí)點(diǎn)A的掌握程度,模型的建立采用復(fù)合模型,也就是同時(shí)建立多個(gè)訓(xùn)練模型,包括單層或者多層結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)模型(Artificial Neural Network)、K-近鄰模型(K-Nearest Neighbors)、隨機(jī)森林(Random Forest)模型以及邏輯回歸(Logistic Regression)模型;
步驟(2)通過獨(dú)立訓(xùn)練,得到m個(gè)不同的模型后,利用復(fù)合模型進(jìn)行預(yù)測(cè);所述復(fù)合模型的基本形式為:其中P(k,i)是第i個(gè)預(yù)測(cè)模型對(duì)該知識(shí)點(diǎn)第k級(jí)掌握程度的預(yù)測(cè)概率,Wi是第i個(gè)預(yù)測(cè)模型在復(fù)合模型中的權(quán)重;P(k)是復(fù)合模型最終對(duì)該知識(shí)點(diǎn)第k級(jí)掌握程度的預(yù)測(cè)概率;
步驟(3)對(duì)給定知識(shí)點(diǎn)A有K個(gè)等級(jí)的掌握程度,上述復(fù)合模型會(huì)給出K個(gè)預(yù)測(cè)的概率數(shù)值,也就是P(1),P(2),….,P(K),取概率數(shù)值最大的等級(jí)為所預(yù)測(cè)的該知識(shí)點(diǎn)的掌握程度。其中K一般大于等于5。
一種基于多模型數(shù)據(jù)驅(qū)動(dòng)的知識(shí)點(diǎn)掌握狀態(tài)的預(yù)測(cè)方法,包括測(cè)試題目的生成和屬性標(biāo)注步驟、訓(xùn)練數(shù)據(jù)采集步驟、基于訓(xùn)練數(shù)據(jù)的多維度特征提取步驟、多模型數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)模型建立步驟,其中:
測(cè)試題目的生成和屬性標(biāo)注步驟:根據(jù)課程標(biāo)準(zhǔn)按照所屬學(xué)科及知識(shí)點(diǎn)之間的父子關(guān)系進(jìn)行整理,對(duì)每個(gè)學(xué)科形成N層知識(shí)點(diǎn)結(jié)構(gòu);同時(shí),根據(jù)學(xué)習(xí)者進(jìn)行相應(yīng)學(xué)科的認(rèn)知活動(dòng)能力和心理調(diào)節(jié)能力,將學(xué)科能力進(jìn)行分級(jí);根據(jù)所述的N層知識(shí)點(diǎn)結(jié)構(gòu)和學(xué)科能力分級(jí),生成所需測(cè)試題目;對(duì)于所述生成的所有測(cè)試題目,進(jìn)行水平等級(jí)劃分,將測(cè)試題目劃分為多個(gè)等級(jí);對(duì)于需測(cè)試題目的每個(gè)第N層知識(shí)點(diǎn),也就是每個(gè)最底層知識(shí)點(diǎn),生成的測(cè)試題目數(shù)量需滿足最少題目要求;
訓(xùn)練數(shù)據(jù)采集步驟:基于測(cè)試題目的生成和屬性標(biāo)注步驟生成的測(cè)試題目,組織學(xué)習(xí)者進(jìn)行測(cè)試,測(cè)試可以采用線上系統(tǒng)電子化測(cè)試或者線下試卷測(cè)試;學(xué)習(xí)者應(yīng)涵蓋同一年齡各層次水平的人群;測(cè)試過程應(yīng)在獨(dú)立且無干擾的條件下進(jìn)行;訓(xùn)練數(shù)據(jù)可以分多次、不同時(shí)段進(jìn)行收集,但是不可以在同一學(xué)習(xí)者上進(jìn)行反復(fù)測(cè)試;同時(shí),如果單一學(xué)習(xí)者的訓(xùn)練數(shù)據(jù)不完整或者有明顯抄襲、重復(fù)答案特征,應(yīng)該從訓(xùn)練數(shù)據(jù)集中移除,最終得到有效的訓(xùn)練數(shù)據(jù);
基于訓(xùn)練數(shù)據(jù)的多維度特征提取步驟:對(duì)訓(xùn)練數(shù)據(jù)采集步驟得到的每位學(xué)習(xí)者的數(shù)據(jù),首先進(jìn)行基本特征的逐級(jí)特征提取,對(duì)測(cè)試所涉及的每個(gè)第N層知識(shí)點(diǎn),分別計(jì)算得分率,所有得分率作為第N層知識(shí)點(diǎn)基本特征向量VN;對(duì)于每個(gè)第N-1層知識(shí)點(diǎn),如果其下轄的所有第N層知識(shí)點(diǎn)均有得分率,則稱為已知知識(shí)點(diǎn),計(jì)算已知知識(shí)點(diǎn)所下轄的所有知識(shí)點(diǎn)的平均得分率作為該N-1層知識(shí)點(diǎn)的基本特征值;如果該N-1層知識(shí)點(diǎn)下轄知識(shí)點(diǎn)的得分率部分缺失或者全部缺失,則該第N-1層知識(shí)點(diǎn)稱為未知知識(shí)點(diǎn);未知知識(shí)點(diǎn)的基本特征值為空;對(duì)所有第N-1層已知知識(shí)點(diǎn),得到其基本特征向量VN-1;同理,能夠得到各層已知知識(shí)點(diǎn)的基本特征向量VN-2,VN-3,…,V1;同時(shí),將學(xué)習(xí)者的性別、年齡個(gè)人特征作為補(bǔ)充特征向量G,從而完成測(cè)試數(shù)據(jù)的多維度特征提取,多維度特征包括各層已知知識(shí)點(diǎn)的基本特征向量VN-2,VN-3,…,V1和補(bǔ)充特征向量G;
多模型數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)模型建立步驟:標(biāo)注訓(xùn)練數(shù)據(jù)中已知知識(shí)點(diǎn)掌握程度YA,標(biāo)注根據(jù)各項(xiàng)得分率結(jié)合經(jīng)驗(yàn)規(guī)則進(jìn)行,標(biāo)注的知識(shí)點(diǎn)掌握程度可以分為多個(gè)等級(jí);根據(jù)各層已知知識(shí)點(diǎn)的基本特征向量VN-2,VN-3,…,V1及補(bǔ)充特征向量G,建立多元分類算法的復(fù)合模型,預(yù)測(cè)出知識(shí)點(diǎn)A的掌握程度YA,所述復(fù)合模型是指不是基于單一分類模型,而是用多種分類模型進(jìn)行并行預(yù)測(cè),最后綜合各個(gè)分類模型預(yù)測(cè)的結(jié)果,最終給出該知識(shí)點(diǎn)掌握程度的預(yù)測(cè)。
本發(fā)明與現(xiàn)有方法相比的有益效果為:
(1)本發(fā)明可以解決對(duì)學(xué)習(xí)者知識(shí)掌握程度的預(yù)測(cè),為學(xué)習(xí)者提供個(gè)性化的教學(xué)服務(wù),提高了學(xué)習(xí)針對(duì)性和學(xué)習(xí)效率。
(2)本發(fā)明方法針對(duì)學(xué)習(xí)者的知識(shí)點(diǎn)掌握狀態(tài)預(yù)測(cè)問題,提出了利用測(cè)試數(shù)據(jù)結(jié)合知識(shí)點(diǎn)結(jié)構(gòu)進(jìn)行多維特征提取,然后,建立多個(gè)預(yù)測(cè)模型進(jìn)行并行多元分類,最終建立復(fù)合模型,給出知識(shí)點(diǎn)掌握程度的預(yù)測(cè)結(jié)果,預(yù)測(cè)準(zhǔn)確,適用于一般在線學(xué)習(xí)平臺(tái)和系統(tǒng),也可以應(yīng)用于實(shí)際教學(xué)評(píng)估和診斷中。
(3)本發(fā)明建立的復(fù)合模型,建立在各個(gè)常用的多元分類模型的基礎(chǔ)上,綜合各個(gè)訓(xùn)練算法的輸出,從而有效避免了單一模型可能產(chǎn)生的偏差和缺陷,提高預(yù)測(cè)模型的可靠性與準(zhǔn)確率。
附圖說明
圖1為本發(fā)明一種基于多模型數(shù)據(jù)驅(qū)動(dòng)的知識(shí)點(diǎn)掌握狀態(tài)的預(yù)測(cè)系統(tǒng)的結(jié)構(gòu)圖;
圖2為本發(fā)明的測(cè)試題目的屬性標(biāo)注;
圖3為本發(fā)明的已知知識(shí)點(diǎn)掌握狀態(tài)的計(jì)算實(shí)現(xiàn)流程;
圖4為本發(fā)明的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型的建立流程。
圖5為本發(fā)明的預(yù)測(cè)模型的使用流程。
具體實(shí)施方式
下面結(jié)合附圖及具體實(shí)施方式詳細(xì)介紹本發(fā)明。
如圖1所示,本發(fā)明為一種基于多模型數(shù)據(jù)驅(qū)動(dòng)的知識(shí)點(diǎn)掌握狀態(tài)的預(yù)測(cè)系統(tǒng),測(cè)試題目的生成和屬性標(biāo)注模塊、訓(xùn)練數(shù)據(jù)采集模塊、基于測(cè)試數(shù)據(jù)的多維度特征提取模塊、多模型數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)模型建立模塊。
如圖2所示,本發(fā)明中對(duì)測(cè)試題目的屬性標(biāo)注模塊具體實(shí)現(xiàn)如下:測(cè)試題目生成后,根據(jù)課程標(biāo)準(zhǔn)按照所屬學(xué)科、所屬年級(jí)、知識(shí)點(diǎn)名稱、知識(shí)點(diǎn)之間的父子關(guān)系四個(gè)要素進(jìn)行知識(shí)點(diǎn)梳理。根據(jù)具體測(cè)試題目的內(nèi)容,確定該題目在樹形結(jié)構(gòu)中的節(jié)點(diǎn)位置,然后標(biāo)記給測(cè)試題目。例如題目一被標(biāo)記為BIK020103,即為生物學(xué)科(BIK),第一層級(jí)的第二主題知識(shí)點(diǎn)(02)下,第二層級(jí)的第一子知識(shí)點(diǎn)(01)下,第三層級(jí)的第三子知識(shí)點(diǎn)(03);同時(shí),根據(jù)課程標(biāo)準(zhǔn)和專家經(jīng)驗(yàn),對(duì)所給測(cè)試題目所考察的能力水平進(jìn)行分級(jí),例如題目一的水平能力可以標(biāo)記為合格、良好、優(yōu)秀或者卓越。對(duì)于每個(gè)最底層知識(shí)點(diǎn),此處為第三層知識(shí)點(diǎn),生成的測(cè)試題目的數(shù)量需不少于最少題目要求。一般情況下,最少題目在5到10題,根據(jù)不同學(xué)科和主題進(jìn)行確定。
測(cè)試題目生成及屬性標(biāo)注完成后,進(jìn)行訓(xùn)練數(shù)據(jù)的采集,具體實(shí)現(xiàn)如下:組織學(xué)習(xí)者進(jìn)行測(cè)試,測(cè)試可以采用線上系統(tǒng)電子化測(cè)試或者線下試卷測(cè)試;學(xué)習(xí)者應(yīng)涵蓋同一年齡各層次水平的人群。例如,可以是同一年級(jí)所有的在籍學(xué)生;測(cè)試過程應(yīng)在獨(dú)立且無干擾的條件下進(jìn)行;訓(xùn)練數(shù)據(jù)可以分多次、不同時(shí)段進(jìn)行收集,但是不可以在同一學(xué)習(xí)者上進(jìn)行反復(fù)測(cè)試和收集;同時(shí),如果單一學(xué)習(xí)者的訓(xùn)練數(shù)據(jù)不完整或者有明顯抄襲、重復(fù)答案等特征,應(yīng)該從訓(xùn)練數(shù)據(jù)集中移除,最終得到有效的訓(xùn)練數(shù)據(jù)集;對(duì)于每個(gè)學(xué)科,訓(xùn)練數(shù)據(jù)的規(guī)模應(yīng)保持在一定規(guī)模以上,例如300個(gè)學(xué)習(xí)者對(duì)于生物學(xué)科10個(gè)第三層知識(shí)點(diǎn)的獨(dú)立測(cè)試結(jié)果。
基于所收集的訓(xùn)練數(shù)據(jù),進(jìn)行多維度特征提取,其具體實(shí)現(xiàn)如下:對(duì)訓(xùn)練數(shù)據(jù)采集模塊得到的每位學(xué)習(xí)者的數(shù)據(jù),首先進(jìn)行基本特征的逐級(jí)特征提取,對(duì)測(cè)試所涉及的每個(gè)第N層知識(shí)點(diǎn),分別計(jì)算得分率,所有得分率作為第N層知識(shí)點(diǎn)基本特征向量VN;對(duì)于每個(gè)第N-1層知識(shí)點(diǎn),如果其下轄的所有第N層知識(shí)點(diǎn)均有得分率,則稱為已知知識(shí)點(diǎn),計(jì)算已知知識(shí)點(diǎn)所下轄的所有知識(shí)點(diǎn)的平均得分率作為該N-1層知識(shí)點(diǎn)的基本特征值;如果該N-1層知識(shí)點(diǎn)下轄知識(shí)點(diǎn)的得分率部分缺失或者全部缺失,則該第N-1層知識(shí)點(diǎn)稱為未知知識(shí)點(diǎn);未知知識(shí)點(diǎn)的基本特征值為空;對(duì)所有第N-1層已知知識(shí)點(diǎn),得到其基本特征向量VN-1;同理,能夠得到各層已知知識(shí)點(diǎn)的基本特征向量VN-2,VN-3,…,V1;同時(shí),將學(xué)習(xí)者的性別、年齡個(gè)人特征作為補(bǔ)充特征向量G,從而完成訓(xùn)練數(shù)據(jù)的多維度特征提取,多維度特征包括各層已知知識(shí)點(diǎn)的基本特征向量VN-2,VN-3,…,V1和補(bǔ)充特征向量G。
由于預(yù)測(cè)模型基于監(jiān)督式學(xué)習(xí)算法,因此需要標(biāo)注訓(xùn)練數(shù)據(jù)中已知知識(shí)點(diǎn)掌握程度YA。如圖3所示,已知知識(shí)點(diǎn)掌握程度YA的計(jì)算具體實(shí)現(xiàn)如下:測(cè)試數(shù)據(jù)收集后,根據(jù)測(cè)試題目所標(biāo)記的能力水平等級(jí)和已知知識(shí)點(diǎn)的分布情況,可以根據(jù)設(shè)計(jì)的判定規(guī)則計(jì)算已知知識(shí)點(diǎn)的掌握狀態(tài)。例如,對(duì)于生物學(xué)科第一層級(jí)的第二主題知識(shí)點(diǎn)BIK02,如果其下轄的第二層級(jí)和第三層級(jí)的所有知識(shí)點(diǎn)均有測(cè)試數(shù)據(jù),并且被標(biāo)注有卓越和優(yōu)秀的題目的得分率均在50%以上,則可以根據(jù)設(shè)定的判定規(guī)則判斷該學(xué)習(xí)者在BIK02知識(shí)點(diǎn)的掌握程度為卓越。最終標(biāo)注的知識(shí)點(diǎn)掌握程度可以分為多個(gè)等級(jí),例如卓越、良好、合格、不合格等。
基于已經(jīng)標(biāo)注知識(shí)點(diǎn)掌握程度的訓(xùn)練數(shù)據(jù),建立數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)模型,其具體實(shí)現(xiàn)如下:對(duì)于標(biāo)注的已知知識(shí)點(diǎn)掌握程度YA,根據(jù)各層已知知識(shí)點(diǎn)的基本特征向量VN-2,VN-3,…,V1及補(bǔ)充特征向量G,首先分別建立四種不同的經(jīng)典預(yù)測(cè)模型,包括神經(jīng)網(wǎng)絡(luò)模型、隨機(jī)森林模型以及邏輯回歸模型,上述四種模型的輸出(目標(biāo))都是給定需預(yù)測(cè)的知識(shí)點(diǎn)的掌握程度,輸入是其余已知知識(shí)點(diǎn)的基本特征向量VN,VN-1,…,V1和學(xué)習(xí)者補(bǔ)充特征向量G。例如給定需知識(shí)點(diǎn)BIK02,預(yù)測(cè)模型的輸出(目標(biāo))是該知識(shí)點(diǎn)的掌握程度Y,輸入是除知識(shí)點(diǎn)BIK02外的其它已知知識(shí)點(diǎn)的基本特征向量和學(xué)習(xí)者補(bǔ)充特征向量。
四種模型訓(xùn)練的過程依據(jù)各自的經(jīng)典算法進(jìn)行,屬于本領(lǐng)域公知技術(shù),以下僅簡(jiǎn)要敘述各自原理:
單層神經(jīng)網(wǎng)絡(luò)模型,對(duì)于每一組特征向量和標(biāo)注的知識(shí)點(diǎn)掌握程度,利用神經(jīng)網(wǎng)絡(luò)的反向傳播算法自動(dòng)更新一遍網(wǎng)絡(luò)內(nèi)的權(quán)值矩陣,其過程可以概括為兩個(gè)階段:第一階段為激勵(lì)傳播,也就是將訓(xùn)練輸入送入網(wǎng)絡(luò)以獲得激勵(lì)相應(yīng),然后將激勵(lì)相應(yīng)同訓(xùn)練輸入對(duì)應(yīng)的目標(biāo)輸出求差,從而獲得隱層和輸出層的相應(yīng)誤差;第二階段為權(quán)值更新階段,將輸入激勵(lì)和相應(yīng)誤差相乘,從而獲得權(quán)重的梯度,將該梯度乘上訓(xùn)練因子并且取反后加到原始權(quán)重上。經(jīng)過足夠的訓(xùn)練數(shù)據(jù)和訓(xùn)練回合后,得到所需神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型。上述的基本過程如圖4所示。
K-近鄰模型的基本思想是如果一個(gè)樣本在特征空間中的KN個(gè)最相鄰的樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別,并具有這個(gè)類別上樣本的特性。其基本的計(jì)算過程是:設(shè)定參數(shù)KN后(一般選取小于20的整數(shù)),設(shè)立一個(gè)大小為KN的按距離由大到小的優(yōu)先級(jí)隊(duì)列,用于存儲(chǔ)最近鄰訓(xùn)練樣本組;隨機(jī)從訓(xùn)練樣本集中選取KN個(gè)樣本作為初始的最近鄰樣本組,分別計(jì)算要預(yù)測(cè)實(shí)例到這KN個(gè)初始樣本的距離,將KN個(gè)初始樣本的標(biāo)號(hào)和距離存入優(yōu)先級(jí)隊(duì)列;遍歷所有訓(xùn)練樣本,計(jì)算當(dāng)前訓(xùn)練樣本與要預(yù)測(cè)實(shí)例的距離,將所得距離L與優(yōu)先級(jí)隊(duì)列中的最大距離Lmax進(jìn)行比較。若L>=Lmax,則舍棄該訓(xùn)練樣本,遍歷下一個(gè)訓(xùn)練樣本。若L<Lmax,刪除優(yōu)先級(jí)隊(duì)列中最大距離的樣本,將當(dāng)前訓(xùn)練樣本存入優(yōu)先級(jí)隊(duì)列。遍歷完畢,計(jì)算優(yōu)先級(jí)隊(duì)列中KN個(gè)樣本的多數(shù)類,并將其作為要預(yù)測(cè)實(shí)例的類別。
隨機(jī)森林模型是一個(gè)包含多個(gè)決策樹的分類器,其輸出的類別是由所含樹的輸出的類別的眾數(shù)而定。其中每棵樹的基本建造過程是:用Y來表示訓(xùn)練樣本的個(gè)數(shù),Z表示特征數(shù)目;輸入特征數(shù)目z,用于確定決策樹上一個(gè)節(jié)點(diǎn)的決策結(jié)果,其中z應(yīng)遠(yuǎn)小于Z。從Y個(gè)訓(xùn)練樣本中以有放回抽樣的方式,取樣Y次,形成一個(gè)訓(xùn)練集(即bootstrap取樣),并用未抽到的樣本作預(yù)測(cè),評(píng)估其誤差;對(duì)于每一個(gè)節(jié)點(diǎn),隨機(jī)選擇z個(gè)特征,決策樹上每個(gè)節(jié)點(diǎn)的決定都是基于這些特征確定的。根據(jù)這z個(gè)特征,計(jì)算其最佳的分裂方式;每棵樹都會(huì)完整成長(zhǎng)而不會(huì)剪枝。決策樹的生成可以采用經(jīng)典分類決策樹的算法。
邏輯回歸模型主要針對(duì)多元分類問題,其基本方法是:訓(xùn)練多個(gè)基本二元分類邏輯回歸模型,每個(gè)模型均對(duì)應(yīng)一種需要預(yù)測(cè)的類別,也即是模型可以給出該類別相應(yīng)的預(yù)測(cè)概率以及非該類別的預(yù)測(cè)概率。對(duì)于一個(gè)新學(xué)習(xí)者的特征數(shù)據(jù),用上述多個(gè)模型分別得到各個(gè)類別的預(yù)測(cè)概率,取概率值大的類別為本發(fā)明中邏輯回歸模型的最終預(yù)測(cè)結(jié)果?;径诸愡壿嫽貧w模型可以采用經(jīng)典的邏輯函數(shù)和梯度下降法進(jìn)行構(gòu)建。
神經(jīng)網(wǎng)絡(luò)的反向傳播算法、K-近鄰、隨機(jī)森林和邏輯回歸模型的訓(xùn)練算法是本領(lǐng)域公知技術(shù),本申請(qǐng)對(duì)此不作限制。
經(jīng)過訓(xùn)練,分別得到四種訓(xùn)練模型后,開始建立復(fù)合模型,從而最終預(yù)測(cè)知識(shí)點(diǎn)A的掌握程度YA。所述復(fù)合模型的基本思想是用多種分類模型進(jìn)行并行預(yù)測(cè),最后綜合各個(gè)分類模型預(yù)測(cè)的結(jié)果,最終給出該知識(shí)點(diǎn)掌握程度的預(yù)測(cè),其具體實(shí)現(xiàn)如下:
1)復(fù)合模型的輸出為其中P(k)是復(fù)合模型對(duì)第k級(jí)掌握程度(例如卓越)的預(yù)測(cè)概率,P(k,i)是第i個(gè)預(yù)測(cè)模型對(duì)第k級(jí)掌握程度的預(yù)測(cè)概率,Wi是不同預(yù)測(cè)模型所占的權(quán)重值,m為單個(gè)預(yù)測(cè)模型的個(gè)數(shù)(此處為4)。
2)權(quán)值Wi可以根據(jù)單個(gè)預(yù)測(cè)模型的準(zhǔn)確率的比例進(jìn)行確定。例如,四個(gè)模型單獨(dú)預(yù)測(cè)的準(zhǔn)確率分別為A1,A2,A3和A4,則權(quán)值Wi可以用如下原則確定其具體數(shù)值:
3)單個(gè)預(yù)測(cè)模型準(zhǔn)確率的計(jì)算一般利用K次交叉驗(yàn)證方法得到,其中K一般大于等于5。
所得到的預(yù)測(cè)模型,可以用來對(duì)新學(xué)習(xí)者的知識(shí)掌握狀態(tài)進(jìn)行預(yù)測(cè),其具體實(shí)現(xiàn)如下:如圖5所示,基于已經(jīng)生成的測(cè)試題目,對(duì)于新學(xué)習(xí)者進(jìn)行相應(yīng)測(cè)試并收集和過濾數(shù)據(jù)。對(duì)新收集的數(shù)據(jù)進(jìn)行如前所述的多維度特征提取,將提取的特征向量作為預(yù)測(cè)模型的輸入。運(yùn)行已經(jīng)訓(xùn)練好的復(fù)合預(yù)測(cè)模型,模型輸出新學(xué)習(xí)者的知識(shí)點(diǎn)掌握程度的預(yù)測(cè)結(jié)果。
本發(fā)明未詳細(xì)闡述的部分屬于本領(lǐng)域公知技術(shù)。