文本類教育資源知識(shí)點(diǎn)預(yù)測(cè)模型獲得方法及模型應(yīng)用方法

文檔序號(hào)：8498732閱讀：423來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

文本類教育資源知識(shí)點(diǎn)預(yù)測(cè)模型獲得方法及模型應(yīng)用方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及文本類教育資源知識(shí)點(diǎn)預(yù)測(cè)模型獲得方法及模型應(yīng)用方法，屬于智能知識(shí)點(diǎn)預(yù)測(cè)應(yīng)用技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002]在在線學(xué)習(xí)的互聯(lián)網(wǎng)應(yīng)用中，題庫部分是資源核心部分，在線題庫中文本類教育資源所包含的知識(shí)點(diǎn)是串通整個(gè)在線學(xué)習(xí)系統(tǒng)的基本單元，然而對(duì)題庫中知識(shí)點(diǎn)的標(biāo)注，需要比較高的知識(shí)門檻，需要專業(yè)的人員進(jìn)行相關(guān)的培訓(xùn)才能完成，非常耗時(shí)，而且在準(zhǔn)確性上經(jīng)常出現(xiàn)問題，影響用戶體驗(yàn)，在題庫的收集、錄入和使用中成為了很大的技術(shù)屏障。而且現(xiàn)有技術(shù)，沒有針對(duì)題庫類型文檔進(jìn)行制定化分析，并且現(xiàn)有成熟解決方案對(duì)該類型數(shù)據(jù)表現(xiàn)不佳，沒有將公式和文字以及文字與文字之間的關(guān)系處理完全整合到系統(tǒng)中。

【發(fā)明內(nèi)容】

[0003]針對(duì)上述技術(shù)問題，本發(fā)明所要解決的技術(shù)問題是提供一種文本類教育資源知識(shí)點(diǎn)預(yù)測(cè)模型獲得方法，基于大數(shù)據(jù)分析方法，設(shè)計(jì)全新特征工程，能夠獲得穩(wěn)定、有效的文本類教育資源知識(shí)點(diǎn)預(yù)測(cè)模型。
[0004]本發(fā)明為了解決上述技術(shù)問題采用以下技術(shù)方案:本發(fā)明設(shè)計(jì)了一種文本類教育資源知識(shí)點(diǎn)預(yù)測(cè)模型獲得方法，基于針對(duì)數(shù)據(jù)庫中文本類教育資源的分析，獲得知識(shí)點(diǎn)預(yù)測(cè)模型，包括如下步驟:
[0005]步驟001.將數(shù)據(jù)庫中的各個(gè)文本類教育資源按照知識(shí)點(diǎn)進(jìn)行分類，并將按知識(shí)點(diǎn)分類的各個(gè)文本類教育資源，分別導(dǎo)出為預(yù)設(shè)格式文本類教育資源，按知識(shí)點(diǎn)分類構(gòu)成語料庫；
[0006]步驟002.針對(duì)語料庫中的各個(gè)預(yù)設(shè)格式文本類教育資源，分別提取各個(gè)預(yù)設(shè)格式文本類教育資源中的信息元，由分別對(duì)應(yīng)于各個(gè)預(yù)設(shè)格式文本類教育資源的各個(gè)信息元，分別構(gòu)成對(duì)應(yīng)于各個(gè)預(yù)設(shè)格式文本類教育資源的詞料，并且由分別對(duì)應(yīng)于各個(gè)預(yù)設(shè)格式文本類教育資源的詞料構(gòu)成詞料庫；
[0007]步驟003.針對(duì)語料庫中各個(gè)預(yù)設(shè)格式文本類教育資源，進(jìn)行知識(shí)點(diǎn)分布統(tǒng)計(jì)，格式校驗(yàn)，合理度檢驗(yàn)，更新語料庫，并按語料庫，針對(duì)詞料庫進(jìn)行相應(yīng)更新；
[0008]步驟004.根據(jù)預(yù)設(shè)的特定文本判別規(guī)則，獲得詞料庫中的公式特定文本，并根據(jù)預(yù)設(shè)的公式字典和特殊詞字典，針對(duì)詞料庫中的公式特定文本進(jìn)行文字內(nèi)容轉(zhuǎn)換，更新詞料庫；
[0009]步驟005.根據(jù)預(yù)設(shè)分詞分析法，針對(duì)詞料庫中的詞料進(jìn)行分詞處理，獲得分詞結(jié)果，包括各個(gè)分詞單元，以及分別對(duì)應(yīng)于各個(gè)分詞單元的分詞數(shù)量，并針對(duì)分詞結(jié)果進(jìn)行存儲(chǔ)；
[0010]步驟006.根據(jù)人為預(yù)設(shè)的中文停用詞表，針對(duì)分詞結(jié)果進(jìn)行過濾，更新分詞結(jié)果；
[0011]步驟007.根據(jù)預(yù)設(shè)加權(quán)統(tǒng)計(jì)算法，獲得分詞結(jié)果中各個(gè)分詞分別對(duì)應(yīng)的加權(quán)統(tǒng)計(jì)值，并按照加權(quán)統(tǒng)計(jì)值由高到低的順序，針對(duì)分詞結(jié)果中的分詞進(jìn)行排序，獲得分詞結(jié)果加權(quán)統(tǒng)計(jì)排序；
[0012]步驟008.根據(jù)預(yù)設(shè)的加權(quán)統(tǒng)計(jì)值閾值，獲得分詞結(jié)果加權(quán)統(tǒng)計(jì)排序中大于該加權(quán)統(tǒng)計(jì)值閾值的各個(gè)分詞，構(gòu)成待處理分詞集；
[0013]步驟009.根據(jù)預(yù)設(shè)的聚類獲取方法，獲得待處理分詞集中的各個(gè)聚類，根據(jù)預(yù)設(shè)聚類分析方法獲得各個(gè)聚類的統(tǒng)計(jì)值，將各個(gè)聚類按其對(duì)應(yīng)統(tǒng)計(jì)值由高到低順序進(jìn)行排序，并通過預(yù)設(shè)的統(tǒng)計(jì)值閾值，獲得大于該統(tǒng)計(jì)值閾值的各個(gè)聚類，構(gòu)成待處理聚類集；
[0014]步驟010.分別獲得待處理聚類集中各個(gè)聚類中對(duì)應(yīng)加權(quán)統(tǒng)計(jì)值最小的分詞，構(gòu)成刪減分詞集，針對(duì)待處理分詞集，刪除其中屬于刪減分詞集的分詞，獲得篩檢分詞集；
[0015]步驟011.根據(jù)預(yù)設(shè)的知識(shí)點(diǎn)分層結(jié)構(gòu)和預(yù)設(shè)級(jí)數(shù)的數(shù)據(jù)層級(jí)整理規(guī)則，針對(duì)篩檢分詞集中各個(gè)分詞所對(duì)應(yīng)的知識(shí)點(diǎn)，進(jìn)行分層級(jí)數(shù)據(jù)整理，獲得預(yù)設(shè)級(jí)數(shù)的層級(jí)知識(shí)點(diǎn)數(shù)據(jù)；
[0016]步驟012.根據(jù)預(yù)設(shè)嵌套特征選擇方法，分別針對(duì)各級(jí)知識(shí)點(diǎn)數(shù)據(jù)進(jìn)行特征選取，分別獲得各級(jí)知識(shí)點(diǎn)數(shù)據(jù)的特征結(jié)果，并分別通過預(yù)設(shè)的分類器組裝進(jìn)行機(jī)器學(xué)習(xí)，分別建立獲得各級(jí)知識(shí)點(diǎn)數(shù)據(jù)的知識(shí)點(diǎn)預(yù)測(cè)模型；
[0017]步驟013.針對(duì)各級(jí)知識(shí)點(diǎn)數(shù)據(jù)的知識(shí)點(diǎn)預(yù)測(cè)模型，分別進(jìn)行模型評(píng)估，并根據(jù)預(yù)設(shè)嵌套特征選擇方法調(diào)整建模過程中的加權(quán)統(tǒng)計(jì)值閾值和統(tǒng)計(jì)值閾值，直到達(dá)到預(yù)設(shè)的最優(yōu)表現(xiàn)值，存儲(chǔ)該最優(yōu)表現(xiàn)值所對(duì)應(yīng)的知識(shí)點(diǎn)預(yù)測(cè)模型，更新獲得各級(jí)知識(shí)點(diǎn)數(shù)據(jù)的知識(shí)點(diǎn)預(yù)測(cè)模型。
[0018]作為本發(fā)明的一種優(yōu)選技術(shù)方案:所述步驟001、步驟002和步驟003中，所述預(yù)設(shè)格式文本類教育資源為JSON格式文本類教育資源。
[0019]作為本發(fā)明的一種優(yōu)選技術(shù)方案:所述步驟005中，所述預(yù)設(shè)分詞分析法為NGRAM分詞分析法。
[0020]作為本發(fā)明的一種優(yōu)選技術(shù)方案:所述步驟007中，將針對(duì)分詞結(jié)果中詞料長(zhǎng)度的正則處理，作為詞頻參數(shù)引入預(yù)設(shè)加權(quán)統(tǒng)計(jì)算法中之后，同時(shí)將反文檔頻率的光滑處理引入預(yù)設(shè)加權(quán)統(tǒng)計(jì)算法中，構(gòu)成改進(jìn)型加權(quán)統(tǒng)計(jì)算法；根據(jù)改進(jìn)型加權(quán)統(tǒng)計(jì)算法，獲得分詞結(jié)果中各個(gè)分詞分別對(duì)應(yīng)的加權(quán)統(tǒng)計(jì)值，并按照加權(quán)統(tǒng)計(jì)值由高到低的順序，針對(duì)分詞結(jié)果中的分詞進(jìn)行排序，獲得分詞結(jié)果加權(quán)統(tǒng)計(jì)排序。
[0021]作為本發(fā)明的一種優(yōu)選技術(shù)方案:所述步驟007、步驟008和步驟013中，所述預(yù)設(shè)加權(quán)統(tǒng)計(jì)算法為TF-1DF算法，所述改進(jìn)型加權(quán)統(tǒng)計(jì)算法為改進(jìn)型TF-1DF算法，所述加權(quán)統(tǒng)計(jì)值為TF-1DF值，所述分詞結(jié)果加權(quán)統(tǒng)計(jì)排序?yàn)榉衷~結(jié)果TF-1DF排序，所述加權(quán)統(tǒng)計(jì)值閾值為TF-1DF值閾值。
[0022]作為本發(fā)明的一種優(yōu)選技術(shù)方案:所述步驟009中，根據(jù)兩兩聚類方法，獲得待處理分詞集中的各個(gè)聚類，根據(jù)PMI聚類分析方法獲得各個(gè)聚類的PMI值，將各個(gè)聚類按其對(duì)應(yīng)統(tǒng)計(jì)值由高到低順序進(jìn)行排序，并通過預(yù)設(shè)的PMI值閾值，獲得大于該P(yáng)MI值閾值的各個(gè)聚類，構(gòu)成待處理聚類集；
[0023]所述步驟010中，分別獲得待處理聚類集中各個(gè)聚類中對(duì)應(yīng)加權(quán)統(tǒng)計(jì)值最小的分詞，構(gòu)成刪減分詞集，針對(duì)待處理分詞集，刪除其中屬于刪減分詞集的分詞，獲得篩檢分詞集;
[0024]所述步驟013中，針對(duì)各級(jí)知識(shí)點(diǎn)數(shù)據(jù)的知識(shí)點(diǎn)預(yù)測(cè)模型，分別進(jìn)行模型評(píng)估，并根據(jù)預(yù)設(shè)嵌套特征選擇方法調(diào)整建模過程中的加權(quán)統(tǒng)計(jì)值閾值和PMI閾值，直到達(dá)到預(yù)設(shè)的最優(yōu)表現(xiàn)值，存儲(chǔ)該最優(yōu)表現(xiàn)值所對(duì)應(yīng)的知識(shí)點(diǎn)預(yù)測(cè)模型，更新獲得各級(jí)知識(shí)點(diǎn)數(shù)據(jù)的知識(shí)點(diǎn)預(yù)測(cè)模型。
[0025]作為本發(fā)明的一種優(yōu)選技術(shù)方案:所述步驟011中，根據(jù)預(yù)設(shè)的知識(shí)點(diǎn)分層結(jié)構(gòu)和預(yù)設(shè)的數(shù)據(jù)四級(jí)整理規(guī)則，針對(duì)篩檢分詞集中各個(gè)分詞所對(duì)應(yīng)的知識(shí)點(diǎn)，進(jìn)行分層級(jí)數(shù)據(jù)整理，獲得四級(jí)知識(shí)點(diǎn)數(shù)據(jù)。
[0026]作為本發(fā)明的一種優(yōu)選技術(shù)方案:所述步驟012和步驟013中，所述預(yù)設(shè)嵌套特征選擇方法為Bagging嵌套特征選擇方法。
[0027]本發(fā)明所述文本類教育資源知識(shí)點(diǎn)預(yù)測(cè)模型獲得方法采用以上技術(shù)方案與現(xiàn)有技術(shù)相比，具有以下技術(shù)效果:本發(fā)明設(shè)計(jì)的文本類教育資源知識(shí)點(diǎn)預(yù)測(cè)模型獲得方法，基于大數(shù)據(jù)分析方法，設(shè)計(jì)全新特征工程，在收集了足夠數(shù)量的文本類教育資源后，針對(duì)文本類教育資源內(nèi)容和關(guān)聯(lián)的知識(shí)點(diǎn)進(jìn)行分析，形成學(xué)習(xí)模型，逐漸優(yōu)化，完善預(yù)測(cè)，對(duì)于特征的選取和優(yōu)化流程進(jìn)行了新的定義，并整合了針對(duì)特定公式和相關(guān)內(nèi)容間的轉(zhuǎn)化，使得最終獲得的文本類教育資源知識(shí)點(diǎn)預(yù)測(cè)模型；不僅如此，NGRAM分詞分析法和改進(jìn)型TF-1DF算法的引入，能夠大大有效提高文本類教育資源知識(shí)點(diǎn)預(yù)測(cè)模型的預(yù)測(cè)準(zhǔn)確率，還有采用Bagging嵌套特征選擇方法，對(duì)樣本進(jìn)行小采樣聚合，結(jié)合特征選取以及分類器對(duì)文本類教育資源數(shù)據(jù)的機(jī)器學(xué)習(xí)，在嘗試了其他若干方法之后，證明該方法表現(xiàn)最佳。
[0028]與此相應(yīng)，針對(duì)上述技術(shù)問題，本發(fā)明所要解決的技術(shù)問題是提供文本類教育資源知識(shí)點(diǎn)預(yù)測(cè)模型應(yīng)用方法，基于本發(fā)明設(shè)計(jì)的文本類教育資源知識(shí)點(diǎn)預(yù)測(cè)模型，能夠針對(duì)待預(yù)測(cè)文本類教育資源進(jìn)行所屬知識(shí)點(diǎn)的預(yù)測(cè)，并且預(yù)測(cè)過程穩(wěn)定、有效，預(yù)測(cè)結(jié)果準(zhǔn)確性高。
[0029]本發(fā)明為了解決上述技術(shù)問題采用以下技術(shù)方案:本發(fā)明設(shè)計(jì)了文本類教育資源知識(shí)點(diǎn)預(yù)測(cè)模型應(yīng)用方法，包括如下步驟:
[0030]步驟a.根據(jù)預(yù)設(shè)分詞分析法，針對(duì)待預(yù)測(cè)文本類教育資源進(jìn)行分詞處理，獲得待預(yù)測(cè)文本類教育資源分詞結(jié)果；
[0031

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：沙龍;洪鵬宇;余海濤;
技術(shù)所有人：藍(lán)艦信息科技南京有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

人力資源需求預(yù)測(cè)模型相關(guān)技術(shù)

文本表示模型相關(guān)技術(shù)

短文本主題模型相關(guān)技術(shù)

文本主題模型相關(guān)技術(shù)

文本分類模型相關(guān)技術(shù)

文本向量空間模型相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

文本類教育資源知識(shí)點(diǎn)預(yù)測(cè)模型獲得方法及模型應(yīng)用方法