一種篩查題庫(kù)中重復(fù)試題的方法及裝置的制造方法

文檔序號(hào)：9616313閱讀：322來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種篩查題庫(kù)中重復(fù)試題的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及篩查題庫(kù)中重復(fù)試題的技術(shù)領(lǐng)域，尤其涉及一種篩查題庫(kù)中重復(fù)試題的方法及裝置。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)時(shí)代浪潮到來(lái)，傳統(tǒng)教育行業(yè)慢慢被顛覆，在線教育產(chǎn)品隨著這個(gè)趨勢(shì)井噴式的爆發(fā)出來(lái)，在這些產(chǎn)品之中最為突出的產(chǎn)品類(lèi)型當(dāng)屬題庫(kù)類(lèi)和拍照答疑類(lèi)，為了解決現(xiàn)在學(xué)生作業(yè)多，作業(yè)中遇到難題無(wú)法及時(shí)尋求幫助等的問(wèn)題，題庫(kù)類(lèi)和拍照答疑類(lèi)產(chǎn)品必須保證后臺(tái)題庫(kù)量大，盡量使得學(xué)生能夠從題庫(kù)中搜索他們想要的題目和答案解析，然而，題庫(kù)的質(zhì)量對(duì)學(xué)生能否快速搜索到他們想要的答案解析和用戶(hù)體驗(yàn)有著重要影響，甚至決定了該產(chǎn)品是否能夠成功。
[0003] 此類(lèi)產(chǎn)品中，由于數(shù)學(xué)題目中含有較多的圖形、公式、字母符號(hào)，受目前圖像識(shí)別技術(shù)的限制等原因，導(dǎo)致題庫(kù)中數(shù)學(xué)題目有大量的重復(fù)試題，造成了以下三種情況：
[0004] 1、服務(wù)器壓力大，題庫(kù)維護(hù)成本高；
[0005] 2、搜索耗時(shí)增加，用戶(hù)體驗(yàn)差；
[0006] 3、推送給學(xué)生用戶(hù)的內(nèi)容有太多重復(fù)內(nèi)容，用戶(hù)體驗(yàn)差；
[0007] 4、題庫(kù)解析是人工解答，答題成本增加。

【發(fā)明內(nèi)容】

[0008] 本發(fā)明提供一種篩查題庫(kù)中重復(fù)試題的方法及裝置，解決了現(xiàn)有篩查題庫(kù)中重復(fù) 試題的方法優(yōu)化效果差，準(zhǔn)確度不高的技術(shù)問(wèn)題，保證題庫(kù)的質(zhì)量，降低題庫(kù)維護(hù)成本，大大提高了產(chǎn)品的用戶(hù)體驗(yàn)。
[0009] 本發(fā)明采用以下技術(shù)方案：
[0010] 第一方面，本發(fā)明提供一種篩查題庫(kù)中重復(fù)試題的方法，包括：
[0011] 按照預(yù)設(shè)規(guī)則從題庫(kù)中提取試題得到待查重試題；
[0012] 針對(duì)所述待查重試題從所述題庫(kù)中篩選出與所述待查重試題相似度較高的試題集合，得到相似試題集合；
[0013] 分別提取所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征，按順序?qū)⑺鱿嗨圃囶}集合中試題的數(shù)據(jù)特征分別與所述待查重試題的數(shù)據(jù)特征輸入預(yù)設(shè) 決策樹(shù)模型中使用對(duì)應(yīng)的相似度算法計(jì)算相似度，得到與所述待查重試題重復(fù)的試題。
[0014] 進(jìn)一步地，所述方法還包括：
[0015] 從所述題庫(kù)中刪除所述與待查重試題重復(fù)的試題。
[0016] 進(jìn)一步地，所述針對(duì)所述待查重試題從所述題庫(kù)中篩選出與所述待查重試題相似度較高的試題集合，得到相似試題集合，具體為：
[0017] 采用布爾模型和余弦定理分別計(jì)算出所述題庫(kù)中其他試題與所述待查重試題的第一相似度值，如果所述第一相似度值大于預(yù)設(shè)第一相似度值，則該試題與所述待查重試題相似度較高，得到相似試題集合。
[0018] 進(jìn)一步地，所述題庫(kù)為數(shù)學(xué)題庫(kù)；所述數(shù)據(jù)特征包括數(shù)字、字母、漢字和漢字的長(zhǎng) 度。
[0019] 進(jìn)一步地，所述分別提取所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中每個(gè) 試題的數(shù)據(jù)特征，按順序?qū)⑺鱿嗨圃囶}集合中試題的數(shù)據(jù)特征分別與所述待查重試題的數(shù)據(jù)特征輸入預(yù)設(shè)決策樹(shù)模型中使用對(duì)應(yīng)的相似度算法計(jì)算相似度，得到與所述待查重試題重復(fù)的試題，包括：
[0020] 如果所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征不包含數(shù)字和字母，使用JaroDistance算法判斷所述相似試題集合中試題是否與所述待查重試題重復(fù)，得到與所述待查重試題重復(fù)的試題；
[0021] 如果所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征不包含數(shù)字，包含字母，使用Dice系數(shù)判斷所述相似試題集合中試題是否與所述待查重試題重復(fù)，得到與所述待查重試題重復(fù)的試題；
[0022] 如果所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征包含數(shù) 字和漢字，且漢字的長(zhǎng)度小于預(yù)設(shè)長(zhǎng)度，提取所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征中的數(shù)字，使用最大公共子序列計(jì)算二者的第二相似度值，并且采用布爾模型和余弦定理計(jì)算二者的第三相似度值，根據(jù)所述第二相似度值和所述第三相似度值，得到與所述待查重試題重復(fù)的試題；
[0023] 如果所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征包含數(shù) 字、漢字和大寫(xiě)字母，同時(shí)漢字的長(zhǎng)度大于或等于所述預(yù)設(shè)長(zhǎng)度，且大寫(xiě)字母小于預(yù)設(shè)個(gè) 數(shù)，提取所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征中的數(shù)字，使用最大公共子序列計(jì)算二者的第四相似度值，并且采用Dice系數(shù)計(jì)算第五相似度值，根據(jù) 所述第四相似度值和所述第五相似度值，得到與所述待查重試題重復(fù)的試題；
[0024] 如果所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征包含數(shù) 字、漢字和大寫(xiě)字母，同時(shí)漢字的長(zhǎng)度大于或等于所述預(yù)設(shè)長(zhǎng)度，且大寫(xiě)字母大于或等于預(yù)設(shè)個(gè)數(shù)，提取所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征中的數(shù) 字，使用最大公共子序列計(jì)算二者的第六相似度值，根據(jù)所述第六相似度值，得到與所述待查重試題重復(fù)的試題。
[0025] 進(jìn)一步地，所述第一預(yù)設(shè)相似度值等于0. 7 ;所述第二預(yù)設(shè)相似度值、第三預(yù)設(shè)相似度值、第四預(yù)設(shè)相似度值和第六預(yù)設(shè)相似度值均等于〇. 9 ;所述第五預(yù)設(shè)相似度值等于 1〇
[0026] 第二方面，本發(fā)明提供一種篩查題庫(kù)中重復(fù)試題的裝置，包括：
[0027] 待查重試題提取單元，用于按照預(yù)設(shè)規(guī)則從題庫(kù)中提取試題得到待查重試題；
[0028] 相似試題集合獲取單元，用于針對(duì)所述待查重試題從所述題庫(kù)中篩選出與所述待查重試題相似度較高的試題集合，得到相似試題集合；
[0029] 重復(fù)試題獲得單元，用于分別提取所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征，按順序?qū)⑺鱿嗨圃囶}集合中試題的數(shù)據(jù)特征分別與所述待查重試題的數(shù)據(jù)特征輸入預(yù)設(shè)決策樹(shù)模型中使用對(duì)應(yīng)的相似度算法計(jì)算相似度，得到與所述待查重試題重復(fù)的試題。
[0030] 進(jìn)一步地，還包括：重復(fù)試題刪除單元，用于從所述題庫(kù)中刪除所述與待查重試題重復(fù)的試題。
[0031] 進(jìn)一步地，所述相似試題集合獲取單元，具體用于采用布爾模型和余弦定理分別計(jì)算出所述題庫(kù)中其他試題與所述待查重試題的第一相似度值，如果所述第一相似度值大于預(yù)設(shè)第一相似度值，則該試題與所述待查重試題相似度較高，得到相似試題集合。
[0032] 進(jìn)一步地，所述數(shù)據(jù)特征包括數(shù)字、字母、漢字和漢字的長(zhǎng)度。
[0033] 進(jìn)一步地，所述重復(fù)試題獲得單元，具體用于如果所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征不包含數(shù)字和字母，使用JaroDistance算法判斷所述相似試題集合中試題是否與所述待查重試題重復(fù)，得到與所述待查重試題重復(fù)的試題；如果所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征不包含數(shù)字，包含字母，使用Dice系數(shù)判斷所述相似試題集合中試題是否與所述待查重試題重復(fù)，得到與所述待查重試題重復(fù)的試題；如果所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征包含數(shù)字和漢字，且漢字的長(zhǎng)度小于預(yù)設(shè)長(zhǎng)度，提取所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征中的數(shù)字，使用最大公共子序列計(jì)算二者的第二相似度值，并且采用布爾模型和余弦定理計(jì)算二者的第三相似度值，根據(jù)所述第二相似度值和所述第三相似度值，得到與所述待查重試題重復(fù)的試題；如果所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征包含數(shù)字、漢字和大寫(xiě)字母，同時(shí)漢字的長(zhǎng)度大于或等于所述預(yù)設(shè)長(zhǎng)度，且大寫(xiě)字母小于預(yù)設(shè)個(gè)數(shù)，提取所述

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3 4

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：周忠杰;
技術(shù)所有人：廣東小天才科技有限公司;
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種篩查題庫(kù)中重復(fù)試題的方法及裝置的制造方法