待查重試題的數(shù)據(jù)特征和所 述相似試題集合中試題的數(shù)據(jù)特征中的數(shù)字,使用最大公共子序列計(jì)算二者的第四相似度 值,并且采用Dice系數(shù)計(jì)算第五相似度值,根據(jù)所述第四相似度值和所述第五相似度值, 得到與所述待查重試題重復(fù)的試題;如果所述待查重試題的數(shù)據(jù)特征和所述相似試題集合 中試題的數(shù)據(jù)特征包含數(shù)字、漢字和大寫字母,同時(shí)漢字的長(zhǎng)度大于或等于所述預(yù)設(shè)長(zhǎng)度, 且大寫字母大于或等于預(yù)設(shè)個(gè)數(shù),提取所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中 試題的數(shù)據(jù)特征中的數(shù)字,使用最大公共子序列計(jì)算二者的第六相似度值,根據(jù)所述第六 相似度值,得到與所述待查重試題重復(fù)的試題。
[0034] 本發(fā)明提供的技術(shù)方案帶來如下有益效果:
[0035] 首先篩選出與待查重試題相似度較高的相似試題集合,然后將所述相似試題集合 中試題的數(shù)據(jù)特征分別與所述待查重試題的數(shù)據(jù)特征輸入預(yù)設(shè)決策樹模型中使用對(duì)應(yīng)的 相似度算法計(jì)算相似度,得到與所述待查重試題重復(fù)的試題,針對(duì)不同的數(shù)據(jù)特征利用不 同相似度算法來計(jì)算相似度,大大提高了重復(fù)試題查詢的準(zhǔn)確度,保證題庫(kù)的質(zhì)量,降低題 庫(kù)維護(hù)成本,也減少了用戶使用題庫(kù)查詢?cè)囶}的時(shí)間,提高了學(xué)習(xí)效率,大大提高了產(chǎn)品的 用戶體驗(yàn)。
【附圖說明】
[0036] 為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)本發(fā)明實(shí)施例描述中所 需要使用的附圖作簡(jiǎn)單的介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施 例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)本發(fā)明實(shí)施 例的內(nèi)容和這些附圖獲得其他的附圖。
[0037] 圖1是本發(fā)明實(shí)施例提供的篩查題庫(kù)中重復(fù)試題的方法第一個(gè)實(shí)施例的方法流 程圖。
[0038]圖2是本發(fā)明實(shí)施例提供的預(yù)設(shè)決策樹模型實(shí)施例的方法流程圖。
[0039] 圖3是本發(fā)明實(shí)施例提供的篩查題庫(kù)中重復(fù)試題的方法第二個(gè)實(shí)施例的方法流 程圖。
[0040] 圖4是本發(fā)明實(shí)施例提供的篩查題庫(kù)中重復(fù)試題的裝置的結(jié)構(gòu)方框圖。
【具體實(shí)施方式】
[0041] 為使本發(fā)明解決的技術(shù)問題、采用的技術(shù)方案和達(dá)到的技術(shù)效果更加清楚,下面 將結(jié)合附圖對(duì)本發(fā)明實(shí)施例的技術(shù)方案作進(jìn)一步的詳細(xì)描述,顯然,所描述的實(shí)施例僅僅 是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域技術(shù)人員在 沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0042]圖1是本發(fā)明實(shí)施例提供的篩查題庫(kù)中重復(fù)試題的方法第一個(gè)實(shí)施例的方法流 程圖。參考圖1所示,該篩查題庫(kù)中重復(fù)試題的方法包括:
[0043] S101、按照預(yù)設(shè)規(guī)則從題庫(kù)中提取試題得到待查重試題。
[0044] 所述預(yù)設(shè)規(guī)則包括遍歷算法,S卩:將題庫(kù)中序數(shù)為1的試題先和序數(shù)為2的試題相 比較,判斷完成后繼續(xù)循環(huán)遍歷下去逐個(gè)比較。
[0045] 本實(shí)施例中,所述題庫(kù)為數(shù)學(xué)題庫(kù);當(dāng)然,在其他一些實(shí)施例中,題庫(kù)也可以為化 學(xué)題庫(kù)或者物理題庫(kù),區(qū)分不同題庫(kù)有利于題庫(kù)數(shù)據(jù)特征的提取,提高用戶搜索的效率,便 于題庫(kù)的維護(hù)。
[0046] S102、針對(duì)所述待查重試題從所述題庫(kù)中篩選出與所述待查重試題相似度較高的 試題集合,得到相似試題集合。
[0047] 本實(shí)施例中,采用布爾模型和余弦定理分別計(jì)算出所述題庫(kù)中其他試題與所述待 查重試題的第一相似度值,如果所述第一相似度值大于預(yù)設(shè)第一相似度值,則該試題與所 述待查重試題相似度較高,得到相似試題集合。預(yù)設(shè)第一相似度值優(yōu)選為0.7。當(dāng)然,在其 他一些實(shí)施例中,也可以采用其他的聚類算法得到相似試題集合。采用布爾模型和余弦定 理計(jì)算相似度的原理詳情請(qǐng)查看Apachelucene,代碼開源,此處不再詳述。
[0048]S103、分別提取所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特 征,按順序?qū)⑺鱿嗨圃囶}集合中試題的數(shù)據(jù)特征分別與所述待查重試題的數(shù)據(jù)特征輸入 預(yù)設(shè)決策樹模型中使用對(duì)應(yīng)的相似度算法計(jì)算相似度,得到與所述待查重試題重復(fù)的試 題。
[0049] 當(dāng)題庫(kù)為數(shù)學(xué)題庫(kù)時(shí),所述數(shù)據(jù)特征包括數(shù)字、字母、漢字和漢字的長(zhǎng)度。不同類 型題庫(kù)的數(shù)據(jù)特征選取不同,本實(shí)施例以數(shù)學(xué)題庫(kù)為例說明。
[0050] 預(yù)設(shè)決策樹模型針對(duì)不同的數(shù)據(jù)特征選用不同的相似度算法,以提高查重的準(zhǔn)確 度。
[0051]圖2是本發(fā)明實(shí)施例提供的預(yù)設(shè)決策樹模型實(shí)施例的方法流程圖。參考圖2所示,
[0052] 本實(shí)施例中,使用預(yù)設(shè)決策樹模型進(jìn)行查重具體為:
[0053]S1030、如果所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征 不包含數(shù)字和字母,使用JaroDistance算法判斷所述相似試題集合中試題是否與所述待 查重試題重復(fù),得到與所述待查重試題重復(fù)的試題。
[0054] JaroDistance算法為:
[0055]
其中,S1、S2為待比較相似度的字符串;m為匹 配的字符數(shù);t是換位的數(shù)目。
[0056] 如果S1和S2的編輯距離相差不超j
那我們就認(rèn)為這兩個(gè)字 符串相同。
[0057] JaroDistance算法的詳細(xì)內(nèi)容可以參考相關(guān)資料,此處不再詳述。
[0058] S1031、如果所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征 不包含數(shù)字,包含字母,使用Dice系數(shù)判斷所述相似試題集合中試題是否與所述待查重試 題重復(fù),得到與所述待查重試題重復(fù)的試題。
[0059] Dice系數(shù)可以計(jì)算兩個(gè)字符串的相似度:
[0060] Dice(Sl,S2) = 2*comm(Sl,S2)/(leng(Sl)+leng(S2));
[0061] 其中,C〇mm(Sl,S2)是Sl、S2中相同字符的個(gè)數(shù),leng(Sl),leng(S2)是字符串 S1、S2的長(zhǎng)度。
[0062] S1032、如果所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征 包含數(shù)字和漢字,且漢字的長(zhǎng)度小于預(yù)設(shè)長(zhǎng)度,提取所述待查重試題的數(shù)據(jù)特征和所述相 似試題集合中試題的數(shù)據(jù)特征中的數(shù)字,使用最大公共子序列計(jì)算二者的第二相似度值, 并且采用布爾模型和余弦定理計(jì)算二者的第三相似度值,根據(jù)所述第二相似度值和所述第 三相似度值,得到與所述待查重試題重復(fù)的試題。
[0063] 具體地,如果所述第二相似度值大于預(yù)設(shè)第二相似度值,且所述第三相似度值大 于預(yù)設(shè)第三相似度值,則得到與所述待查重試題重復(fù)的試題。
[0064] 預(yù)設(shè)第二相似度值和預(yù)設(shè)第三相似度值均優(yōu)選為0. 9。
[0065] S1033、如果所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征 包含數(shù)字、漢字和大寫字母,同時(shí)漢字的長(zhǎng)度大于或等于所述預(yù)設(shè)長(zhǎng)度,且大寫字母小于 預(yù)設(shè)個(gè)數(shù),提取所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征中的數(shù) 字,使用最大公共子序列計(jì)算二者的第四相似度值,并且采用Dice系數(shù)計(jì)算第五相似度 值,根據(jù)所述第四相似度值和所述第五相似度值,得到與所述待查重試題重復(fù)的試題。
[0066] 具體地,如果所述第四相似度值大于預(yù)設(shè)第四相似度值,且所述第五相似度值等 于預(yù)設(shè)第五相似度值,則得到與所述待查重試題重復(fù)的試題。
[0067] 預(yù)設(shè)第四相似度值優(yōu)選為0. 9 ;預(yù)設(shè)第五相似度值為1。
[0068] S1034、如果所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征 包含數(shù)字、漢字和大寫字母,同時(shí)漢字的長(zhǎng)度大于或等于所述預(yù)設(shè)長(zhǎng)度,且大寫字母大于或 等于預(yù)設(shè)