一種篩查題庫(kù)中重復(fù)試題的方法及裝置的制造方法_2

文檔序號(hào)：9616313閱讀：來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>一種篩查題庫(kù)中重復(fù)試題的方法及裝置的制造方法

待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征中的數(shù)字，使用最大公共子序列計(jì)算二者的第四相似度值，并且采用Dice系數(shù)計(jì)算第五相似度值，根據(jù)所述第四相似度值和所述第五相似度值，得到與所述待查重試題重復(fù)的試題；如果所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征包含數(shù)字、漢字和大寫字母，同時(shí)漢字的長(zhǎng)度大于或等于所述預(yù)設(shè)長(zhǎng)度，且大寫字母大于或等于預(yù)設(shè)個(gè)數(shù)，提取所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征中的數(shù)字，使用最大公共子序列計(jì)算二者的第六相似度值，根據(jù)所述第六相似度值，得到與所述待查重試題重復(fù)的試題。
[0034] 本發(fā)明提供的技術(shù)方案帶來如下有益效果：
[0035] 首先篩選出與待查重試題相似度較高的相似試題集合，然后將所述相似試題集合中試題的數(shù)據(jù)特征分別與所述待查重試題的數(shù)據(jù)特征輸入預(yù)設(shè)決策樹模型中使用對(duì)應(yīng)的相似度算法計(jì)算相似度，得到與所述待查重試題重復(fù)的試題，針對(duì)不同的數(shù)據(jù)特征利用不同相似度算法來計(jì)算相似度，大大提高了重復(fù)試題查詢的準(zhǔn)確度，保證題庫(kù)的質(zhì)量，降低題庫(kù)維護(hù)成本，也減少了用戶使用題庫(kù)查詢?cè)囶}的時(shí)間，提高了學(xué)習(xí)效率，大大提高了產(chǎn)品的用戶體驗(yàn)。
【附圖說明】
[0036] 為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案，下面將對(duì)本發(fā)明實(shí)施例描述中所需要使用的附圖作簡(jiǎn)單的介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可以根據(jù)本發(fā)明實(shí)施例的內(nèi)容和這些附圖獲得其他的附圖。
[0037] 圖1是本發(fā)明實(shí)施例提供的篩查題庫(kù)中重復(fù)試題的方法第一個(gè)實(shí)施例的方法流程圖。
[0038]圖2是本發(fā)明實(shí)施例提供的預(yù)設(shè)決策樹模型實(shí)施例的方法流程圖。
[0039] 圖3是本發(fā)明實(shí)施例提供的篩查題庫(kù)中重復(fù)試題的方法第二個(gè)實(shí)施例的方法流程圖。
[0040] 圖4是本發(fā)明實(shí)施例提供的篩查題庫(kù)中重復(fù)試題的裝置的結(jié)構(gòu)方框圖。
【具體實(shí)施方式】
[0041] 為使本發(fā)明解決的技術(shù)問題、采用的技術(shù)方案和達(dá)到的技術(shù)效果更加清楚，下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施例的技術(shù)方案作進(jìn)一步的詳細(xì)描述，顯然，所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例，本領(lǐng)域技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。
[0042]圖1是本發(fā)明實(shí)施例提供的篩查題庫(kù)中重復(fù)試題的方法第一個(gè)實(shí)施例的方法流程圖。參考圖1所示，該篩查題庫(kù)中重復(fù)試題的方法包括：
[0043] S101、按照預(yù)設(shè)規(guī)則從題庫(kù)中提取試題得到待查重試題。
[0044] 所述預(yù)設(shè)規(guī)則包括遍歷算法，S卩：將題庫(kù)中序數(shù)為1的試題先和序數(shù)為2的試題相比較，判斷完成后繼續(xù)循環(huán)遍歷下去逐個(gè)比較。
[0045] 本實(shí)施例中，所述題庫(kù)為數(shù)學(xué)題庫(kù)；當(dāng)然，在其他一些實(shí)施例中，題庫(kù)也可以為化學(xué)題庫(kù)或者物理題庫(kù)，區(qū)分不同題庫(kù)有利于題庫(kù)數(shù)據(jù)特征的提取，提高用戶搜索的效率，便于題庫(kù)的維護(hù)。
[0046] S102、針對(duì)所述待查重試題從所述題庫(kù)中篩選出與所述待查重試題相似度較高的試題集合，得到相似試題集合。
[0047] 本實(shí)施例中，采用布爾模型和余弦定理分別計(jì)算出所述題庫(kù)中其他試題與所述待查重試題的第一相似度值，如果所述第一相似度值大于預(yù)設(shè)第一相似度值，則該試題與所述待查重試題相似度較高，得到相似試題集合。預(yù)設(shè)第一相似度值優(yōu)選為0.7。當(dāng)然，在其他一些實(shí)施例中，也可以采用其他的聚類算法得到相似試題集合。采用布爾模型和余弦定理計(jì)算相似度的原理詳情請(qǐng)查看Apachelucene，代碼開源，此處不再詳述。
[0048]S103、分別提取所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征，按順序?qū)⑺鱿嗨圃囶}集合中試題的數(shù)據(jù)特征分別與所述待查重試題的數(shù)據(jù)特征輸入預(yù)設(shè)決策樹模型中使用對(duì)應(yīng)的相似度算法計(jì)算相似度，得到與所述待查重試題重復(fù)的試題。
[0049] 當(dāng)題庫(kù)為數(shù)學(xué)題庫(kù)時(shí)，所述數(shù)據(jù)特征包括數(shù)字、字母、漢字和漢字的長(zhǎng)度。不同類型題庫(kù)的數(shù)據(jù)特征選取不同，本實(shí)施例以數(shù)學(xué)題庫(kù)為例說明。
[0050] 預(yù)設(shè)決策樹模型針對(duì)不同的數(shù)據(jù)特征選用不同的相似度算法，以提高查重的準(zhǔn)確度。
[0051]圖2是本發(fā)明實(shí)施例提供的預(yù)設(shè)決策樹模型實(shí)施例的方法流程圖。參考圖2所示，
[0052] 本實(shí)施例中，使用預(yù)設(shè)決策樹模型進(jìn)行查重具體為：
[0053]S1030、如果所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征不包含數(shù)字和字母，使用JaroDistance算法判斷所述相似試題集合中試題是否與所述待查重試題重復(fù)，得到與所述待查重試題重復(fù)的試題。
[0054] JaroDistance算法為：
[0055]
其中，S1、S2為待比較相似度的字符串；m為匹配的字符數(shù)；t是換位的數(shù)目。
[0056] 如果S1和S2的編輯距離相差不超j
那我們就認(rèn)為這兩個(gè)字符串相同。
[0057] JaroDistance算法的詳細(xì)內(nèi)容可以參考相關(guān)資料，此處不再詳述。
[0058] S1031、如果所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征不包含數(shù)字，包含字母，使用Dice系數(shù)判斷所述相似試題集合中試題是否與所述待查重試題重復(fù)，得到與所述待查重試題重復(fù)的試題。
[0059] Dice系數(shù)可以計(jì)算兩個(gè)字符串的相似度：
[0060] Dice(Sl,S2) = 2*comm(Sl,S2)/(leng(Sl)+leng(S2))；
[0061] 其中，C〇mm(Sl，S2)是Sl、S2中相同字符的個(gè)數(shù)，leng(Sl)，leng(S2)是字符串 S1、S2的長(zhǎng)度。
[0062] S1032、如果所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征包含數(shù)字和漢字，且漢字的長(zhǎng)度小于預(yù)設(shè)長(zhǎng)度，提取所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征中的數(shù)字，使用最大公共子序列計(jì)算二者的第二相似度值，并且采用布爾模型和余弦定理計(jì)算二者的第三相似度值，根據(jù)所述第二相似度值和所述第三相似度值，得到與所述待查重試題重復(fù)的試題。
[0063] 具體地，如果所述第二相似度值大于預(yù)設(shè)第二相似度值，且所述第三相似度值大于預(yù)設(shè)第三相似度值，則得到與所述待查重試題重復(fù)的試題。
[0064] 預(yù)設(shè)第二相似度值和預(yù)設(shè)第三相似度值均優(yōu)選為0. 9。
[0065] S1033、如果所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征包含數(shù)字、漢字和大寫字母，同時(shí)漢字的長(zhǎng)度大于或等于所述預(yù)設(shè)長(zhǎng)度，且大寫字母小于預(yù)設(shè)個(gè)數(shù)，提取所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征中的數(shù) 字，使用最大公共子序列計(jì)算二者的第四相似度值，并且采用Dice系數(shù)計(jì)算第五相似度值，根據(jù)所述第四相似度值和所述第五相似度值，得到與所述待查重試題重復(fù)的試題。
[0066] 具體地，如果所述第四相似度值大于預(yù)設(shè)第四相似度值，且所述第五相似度值等于預(yù)設(shè)第五相似度值，則得到與所述待查重試題重復(fù)的試題。
[0067] 預(yù)設(shè)第四相似度值優(yōu)選為0. 9 ;預(yù)設(shè)第五相似度值為1。
[0068] S1034、如果所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征包含數(shù)字、漢字和大寫字母，同時(shí)漢字的長(zhǎng)度大于或等于所述預(yù)設(shè)長(zhǎng)度，且大寫字母大于或等于預(yù)設(shè)

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁1 2 3 4

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種篩查題庫(kù)中重復(fù)試題的方法及裝置的制造方法_2