文本類教育資源知識(shí)點(diǎn)預(yù)測(cè)模型獲得方法及模型應(yīng)用方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及文本類教育資源知識(shí)點(diǎn)預(yù)測(cè)模型獲得方法及模型應(yīng)用方法,屬于智能知識(shí)點(diǎn)預(yù)測(cè)應(yīng)用技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002]在在線學(xué)習(xí)的互聯(lián)網(wǎng)應(yīng)用中,題庫部分是資源核心部分,在線題庫中文本類教育資源所包含的知識(shí)點(diǎn)是串通整個(gè)在線學(xué)習(xí)系統(tǒng)的基本單元,然而對(duì)題庫中知識(shí)點(diǎn)的標(biāo)注,需要比較高的知識(shí)門檻,需要專業(yè)的人員進(jìn)行相關(guān)的培訓(xùn)才能完成,非常耗時(shí),而且在準(zhǔn)確性上經(jīng)常出現(xiàn)問題,影響用戶體驗(yàn),在題庫的收集、錄入和使用中成為了很大的技術(shù)屏障。而且現(xiàn)有技術(shù),沒有針對(duì)題庫類型文檔進(jìn)行制定化分析,并且現(xiàn)有成熟解決方案對(duì)該類型數(shù)據(jù)表現(xiàn)不佳,沒有將公式和文字以及文字與文字之間的關(guān)系處理完全整合到系統(tǒng)中。
【發(fā)明內(nèi)容】
[0003]針對(duì)上述技術(shù)問題,本發(fā)明所要解決的技術(shù)問題是提供一種文本類教育資源知識(shí)點(diǎn)預(yù)測(cè)模型獲得方法,基于大數(shù)據(jù)分析方法,設(shè)計(jì)全新特征工程,能夠獲得穩(wěn)定、有效的文本類教育資源知識(shí)點(diǎn)預(yù)測(cè)模型。
[0004]本發(fā)明為了解決上述技術(shù)問題采用以下技術(shù)方案:本發(fā)明設(shè)計(jì)了一種文本類教育資源知識(shí)點(diǎn)預(yù)測(cè)模型獲得方法,基于針對(duì)數(shù)據(jù)庫中文本類教育資源的分析,獲得知識(shí)點(diǎn)預(yù)測(cè)模型,包括如下步驟:
[0005]步驟001.將數(shù)據(jù)庫中的各個(gè)文本類教育資源按照知識(shí)點(diǎn)進(jìn)行分類,并將按知識(shí)點(diǎn)分類的各個(gè)文本類教育資源,分別導(dǎo)出為預(yù)設(shè)格式文本類教育資源,按知識(shí)點(diǎn)分類構(gòu)成語料庫;
[0006]步驟002.針對(duì)語料庫中的各個(gè)預(yù)設(shè)格式文本類教育資源,分別提取各個(gè)預(yù)設(shè)格式文本類教育資源中的信息元,由分別對(duì)應(yīng)于各個(gè)預(yù)設(shè)格式文本類教育資源的各個(gè)信息元,分別構(gòu)成對(duì)應(yīng)于各個(gè)預(yù)設(shè)格式文本類教育資源的詞料,并且由分別對(duì)應(yīng)于各個(gè)預(yù)設(shè)格式文本類教育資源的詞料構(gòu)成詞料庫;
[0007]步驟003.針對(duì)語料庫中各個(gè)預(yù)設(shè)格式文本類教育資源,進(jìn)行知識(shí)點(diǎn)分布統(tǒng)計(jì),格式校驗(yàn),合理度檢驗(yàn),更新語料庫,并按語料庫,針對(duì)詞料庫進(jìn)行相應(yīng)更新;
[0008]步驟004.根據(jù)預(yù)設(shè)的特定文本判別規(guī)則,獲得詞料庫中的公式特定文本,并根據(jù)預(yù)設(shè)的公式字典和特殊詞字典,針對(duì)詞料庫中的公式特定文本進(jìn)行文字內(nèi)容轉(zhuǎn)換,更新詞料庫;
[0009]步驟005.根據(jù)預(yù)設(shè)分詞分析法,針對(duì)詞料庫中的詞料進(jìn)行分詞處理,獲得分詞結(jié)果,包括各個(gè)分詞單元,以及分別對(duì)應(yīng)于各個(gè)分詞單元的分詞數(shù)量,并針對(duì)分詞結(jié)果進(jìn)行存儲(chǔ);
[0010]步驟006.根據(jù)人為預(yù)設(shè)的中文停用詞表,針對(duì)分詞結(jié)果進(jìn)行過濾,更新分詞結(jié)果;
[0011]步驟007.根據(jù)預(yù)設(shè)加權(quán)統(tǒng)計(jì)算法,獲得分詞結(jié)果中各個(gè)分詞分別對(duì)應(yīng)的加權(quán)統(tǒng)計(jì)值,并按照加權(quán)統(tǒng)計(jì)值由高到低的順序,針對(duì)分詞結(jié)果中的分詞進(jìn)行排序,獲得分詞結(jié)果加權(quán)統(tǒng)計(jì)排序;
[0012]步驟008.根據(jù)預(yù)設(shè)的加權(quán)統(tǒng)計(jì)值閾值,獲得分詞結(jié)果加權(quán)統(tǒng)計(jì)排序中大于該加權(quán)統(tǒng)計(jì)值閾值的各個(gè)分詞,構(gòu)成待處理分詞集;
[0013]步驟009.根據(jù)預(yù)設(shè)的聚類獲取方法,獲得待處理分詞集中的各個(gè)聚類,根據(jù)預(yù)設(shè)聚類分析方法獲得各個(gè)聚類的統(tǒng)計(jì)值,將各個(gè)聚類按其對(duì)應(yīng)統(tǒng)計(jì)值由高到低順序進(jìn)行排序,并通過預(yù)設(shè)的統(tǒng)計(jì)值閾值,獲得大于該統(tǒng)計(jì)值閾值的各個(gè)聚類,構(gòu)成待處理聚類集;
[0014]步驟010.分別獲得待處理聚類集中各個(gè)聚類中對(duì)應(yīng)加權(quán)統(tǒng)計(jì)值最小的分詞,構(gòu)成刪減分詞集,針對(duì)待處理分詞集,刪除其中屬于刪減分詞集的分詞,獲得篩檢分詞集;
[0015]步驟011.根據(jù)預(yù)設(shè)的知識(shí)點(diǎn)分層結(jié)構(gòu)和預(yù)設(shè)級(jí)數(shù)的數(shù)據(jù)層級(jí)整理規(guī)則,針對(duì)篩檢分詞集中各個(gè)分詞所對(duì)應(yīng)的知識(shí)點(diǎn),進(jìn)行分層級(jí)數(shù)據(jù)整理,獲得預(yù)設(shè)級(jí)數(shù)的層級(jí)知識(shí)點(diǎn)數(shù)據(jù);
[0016]步驟012.根據(jù)預(yù)設(shè)嵌套特征選擇方法,分別針對(duì)各級(jí)知識(shí)點(diǎn)數(shù)據(jù)進(jìn)行特征選取,分別獲得各級(jí)知識(shí)點(diǎn)數(shù)據(jù)的特征結(jié)果,并分別通過預(yù)設(shè)的分類器組裝進(jìn)行機(jī)器學(xué)習(xí),分別建立獲得各級(jí)知識(shí)點(diǎn)數(shù)據(jù)的知識(shí)點(diǎn)預(yù)測(cè)模型;
[0017]步驟013.針對(duì)各級(jí)知識(shí)點(diǎn)數(shù)據(jù)的知識(shí)點(diǎn)預(yù)測(cè)模型,分別進(jìn)行模型評(píng)估,并根據(jù)預(yù)設(shè)嵌套特征選擇方法調(diào)整建模過程中的加權(quán)統(tǒng)計(jì)值閾值和統(tǒng)計(jì)值閾值,直到達(dá)到預(yù)設(shè)的最優(yōu)表現(xiàn)值,存儲(chǔ)該最優(yōu)表現(xiàn)值所對(duì)應(yīng)的知識(shí)點(diǎn)預(yù)測(cè)模型,更新獲得各級(jí)知識(shí)點(diǎn)數(shù)據(jù)的知識(shí)點(diǎn)預(yù)測(cè)模型。
[0018]作為本發(fā)明的一種優(yōu)選技術(shù)方案:所述步驟001、步驟002和步驟003中,所述預(yù)設(shè)格式文本類教育資源為JSON格式文本類教育資源。
[0019]作為本發(fā)明的一種優(yōu)選技術(shù)方案:所述步驟005中,所述預(yù)設(shè)分詞分析法為NGRAM分詞分析法。
[0020]作為本發(fā)明的一種優(yōu)選技術(shù)方案:所述步驟007中,將針對(duì)分詞結(jié)果中詞料長(zhǎng)度的正則處理,作為詞頻參數(shù)引入預(yù)設(shè)加權(quán)統(tǒng)計(jì)算法中之后,同時(shí)將反文檔頻率的光滑處理引入預(yù)設(shè)加權(quán)統(tǒng)計(jì)算法中,構(gòu)成改進(jìn)型加權(quán)統(tǒng)計(jì)算法;根據(jù)改進(jìn)型加權(quán)統(tǒng)計(jì)算法,獲得分詞結(jié)果中各個(gè)分詞分別對(duì)應(yīng)的加權(quán)統(tǒng)計(jì)值,并按照加權(quán)統(tǒng)計(jì)值由高到低的順序,針對(duì)分詞結(jié)果中的分詞進(jìn)行排序,獲得分詞結(jié)果加權(quán)統(tǒng)計(jì)排序。
[0021]作為本發(fā)明的一種優(yōu)選技術(shù)方案:所述步驟007、步驟008和步驟013中,所述預(yù)設(shè)加權(quán)統(tǒng)計(jì)算法為TF-1DF算法,所述改進(jìn)型加權(quán)統(tǒng)計(jì)算法為改進(jìn)型TF-1DF算法,所述加權(quán)統(tǒng)計(jì)值為TF-1DF值,所述分詞結(jié)果加權(quán)統(tǒng)計(jì)排序?yàn)榉衷~結(jié)果TF-1DF排序,所述加權(quán)統(tǒng)計(jì)值閾值為TF-1DF值閾值。
[0022]作為本發(fā)明的一種優(yōu)選技術(shù)方案:所述步驟009中,根據(jù)兩兩聚類方法,獲得待處理分詞集中的各個(gè)聚類,根據(jù)PMI聚類分析方法獲得各個(gè)聚類的PMI值,將各個(gè)聚類按其對(duì)應(yīng)統(tǒng)計(jì)值由高到低順序進(jìn)行排序,并通過預(yù)設(shè)的PMI值閾值,獲得大于該P(yáng)MI值閾值的各個(gè)聚類,構(gòu)成待處理聚類集;
[0023]所述步驟010中,分別獲得待處理聚類集中各個(gè)聚類中對(duì)應(yīng)加權(quán)統(tǒng)計(jì)值最小的分詞,構(gòu)成刪減分詞集,針對(duì)待處理分詞集,刪除其中屬于刪減分詞集的分詞,獲得篩檢分詞集;
[0024]所述步驟013中,針對(duì)各級(jí)知識(shí)點(diǎn)數(shù)據(jù)的知識(shí)點(diǎn)預(yù)測(cè)模型,分別進(jìn)行模型評(píng)估,并根據(jù)預(yù)設(shè)嵌套特征選擇方法調(diào)整建模過程中的加權(quán)統(tǒng)計(jì)值閾值和PMI閾值,直到達(dá)到預(yù)設(shè)的最優(yōu)表現(xiàn)值,存儲(chǔ)該最優(yōu)表現(xiàn)值所對(duì)應(yīng)的知識(shí)點(diǎn)預(yù)測(cè)模型,更新獲得各級(jí)知識(shí)點(diǎn)數(shù)據(jù)的知識(shí)點(diǎn)預(yù)測(cè)模型。
[0025]作為本發(fā)明的一種優(yōu)選技術(shù)方案:所述步驟011中,根據(jù)預(yù)設(shè)的知識(shí)點(diǎn)分層結(jié)構(gòu)和預(yù)設(shè)的數(shù)據(jù)四級(jí)整理規(guī)則,針對(duì)篩檢分詞集中各個(gè)分詞所對(duì)應(yīng)的知識(shí)點(diǎn),進(jìn)行分層級(jí)數(shù)據(jù)整理,獲得四級(jí)知識(shí)點(diǎn)數(shù)據(jù)。
[0026]作為本發(fā)明的一種優(yōu)選技術(shù)方案:所述步驟012和步驟013中,所述預(yù)設(shè)嵌套特征選擇方法為Bagging嵌套特征選擇方法。
[0027]本發(fā)明所述文本類教育資源知識(shí)點(diǎn)預(yù)測(cè)模型獲得方法采用以上技術(shù)方案與現(xiàn)有技術(shù)相比,具有以下技術(shù)效果:本發(fā)明設(shè)計(jì)的文本類教育資源知識(shí)點(diǎn)預(yù)測(cè)模型獲得方法,基于大數(shù)據(jù)分析方法,設(shè)計(jì)全新特征工程,在收集了足夠數(shù)量的文本類教育資源后,針對(duì)文本類教育資源內(nèi)容和關(guān)聯(lián)的知識(shí)點(diǎn)進(jìn)行分析,形成學(xué)習(xí)模型,逐漸優(yōu)化,完善預(yù)測(cè),對(duì)于特征的選取和優(yōu)化流程進(jìn)行了新的定義,并整合了針對(duì)特定公式和相關(guān)內(nèi)容間的轉(zhuǎn)化,使得最終獲得的文本類教育資源知識(shí)點(diǎn)預(yù)測(cè)模型;不僅如此,NGRAM分詞分析法和改進(jìn)型TF-1DF算法的引入,能夠大大有效提高文本類教育資源知識(shí)點(diǎn)預(yù)測(cè)模型的預(yù)測(cè)準(zhǔn)確率,還有采用Bagging嵌套特征選擇方法,對(duì)樣本進(jìn)行小采樣聚合,結(jié)合特征選取以及分類器對(duì)文本類教育資源數(shù)據(jù)的機(jī)器學(xué)習(xí),在嘗試了其他若干方法之后,證明該方法表現(xiàn)最佳。
[0028]與此相應(yīng),針對(duì)上述技術(shù)問題,本發(fā)明所要解決的技術(shù)問題是提供文本類教育資源知識(shí)點(diǎn)預(yù)測(cè)模型應(yīng)用方法,基于本發(fā)明設(shè)計(jì)的文本類教育資源知識(shí)點(diǎn)預(yù)測(cè)模型,能夠針對(duì)待預(yù)測(cè)文本類教育資源進(jìn)行所屬知識(shí)點(diǎn)的預(yù)測(cè),并且預(yù)測(cè)過程穩(wěn)定、有效,預(yù)測(cè)結(jié)果準(zhǔn)確性高。
[0029]本發(fā)明為了解決上述技術(shù)問題采用以下技術(shù)方案:本發(fā)明設(shè)計(jì)了文本類教育資源知識(shí)點(diǎn)預(yù)測(cè)模型應(yīng)用方法,包括如下步驟:
[0030]步驟a.根據(jù)預(yù)設(shè)分詞分析法,針對(duì)待預(yù)測(cè)文本類教育資源進(jìn)行分詞處理,獲得待預(yù)測(cè)文本類教育資源分詞結(jié)果;
[0031