一種篩查題庫(kù)中重復(fù)試題的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及篩查題庫(kù)中重復(fù)試題的技術(shù)領(lǐng)域,尤其涉及一種篩查題庫(kù)中重復(fù)試題 的方法及裝置。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)時(shí)代浪潮到來(lái),傳統(tǒng)教育行業(yè)慢慢被顛覆,在線教育產(chǎn)品隨著這個(gè)趨 勢(shì)井噴式的爆發(fā)出來(lái),在這些產(chǎn)品之中最為突出的產(chǎn)品類(lèi)型當(dāng)屬題庫(kù)類(lèi)和拍照答疑類(lèi),為 了解決現(xiàn)在學(xué)生作業(yè)多,作業(yè)中遇到難題無(wú)法及時(shí)尋求幫助等的問(wèn)題,題庫(kù)類(lèi)和拍照答疑 類(lèi)產(chǎn)品必須保證后臺(tái)題庫(kù)量大,盡量使得學(xué)生能夠從題庫(kù)中搜索他們想要的題目和答案解 析,然而,題庫(kù)的質(zhì)量對(duì)學(xué)生能否快速搜索到他們想要的答案解析和用戶(hù)體驗(yàn)有著重要影 響,甚至決定了該產(chǎn)品是否能夠成功。
[0003] 此類(lèi)產(chǎn)品中,由于數(shù)學(xué)題目中含有較多的圖形、公式、字母符號(hào),受目前圖像識(shí)別 技術(shù)的限制等原因,導(dǎo)致題庫(kù)中數(shù)學(xué)題目有大量的重復(fù)試題,造成了以下三種情況:
[0004] 1、服務(wù)器壓力大,題庫(kù)維護(hù)成本高;
[0005] 2、搜索耗時(shí)增加,用戶(hù)體驗(yàn)差;
[0006] 3、推送給學(xué)生用戶(hù)的內(nèi)容有太多重復(fù)內(nèi)容,用戶(hù)體驗(yàn)差;
[0007] 4、題庫(kù)解析是人工解答,答題成本增加。
【發(fā)明內(nèi)容】
[0008] 本發(fā)明提供一種篩查題庫(kù)中重復(fù)試題的方法及裝置,解決了現(xiàn)有篩查題庫(kù)中重復(fù) 試題的方法優(yōu)化效果差,準(zhǔn)確度不高的技術(shù)問(wèn)題,保證題庫(kù)的質(zhì)量,降低題庫(kù)維護(hù)成本,大 大提高了產(chǎn)品的用戶(hù)體驗(yàn)。
[0009] 本發(fā)明采用以下技術(shù)方案:
[0010] 第一方面,本發(fā)明提供一種篩查題庫(kù)中重復(fù)試題的方法,包括:
[0011] 按照預(yù)設(shè)規(guī)則從題庫(kù)中提取試題得到待查重試題;
[0012] 針對(duì)所述待查重試題從所述題庫(kù)中篩選出與所述待查重試題相似度較高的試題 集合,得到相似試題集合;
[0013] 分別提取所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征,按 順序?qū)⑺鱿嗨圃囶}集合中試題的數(shù)據(jù)特征分別與所述待查重試題的數(shù)據(jù)特征輸入預(yù)設(shè) 決策樹(shù)模型中使用對(duì)應(yīng)的相似度算法計(jì)算相似度,得到與所述待查重試題重復(fù)的試題。
[0014] 進(jìn)一步地,所述方法還包括:
[0015] 從所述題庫(kù)中刪除所述與待查重試題重復(fù)的試題。
[0016] 進(jìn)一步地,所述針對(duì)所述待查重試題從所述題庫(kù)中篩選出與所述待查重試題相似 度較高的試題集合,得到相似試題集合,具體為:
[0017] 采用布爾模型和余弦定理分別計(jì)算出所述題庫(kù)中其他試題與所述待查重試題的 第一相似度值,如果所述第一相似度值大于預(yù)設(shè)第一相似度值,則該試題與所述待查重試 題相似度較高,得到相似試題集合。
[0018] 進(jìn)一步地,所述題庫(kù)為數(shù)學(xué)題庫(kù);所述數(shù)據(jù)特征包括數(shù)字、字母、漢字和漢字的長(zhǎng) 度。
[0019] 進(jìn)一步地,所述分別提取所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中每個(gè) 試題的數(shù)據(jù)特征,按順序?qū)⑺鱿嗨圃囶}集合中試題的數(shù)據(jù)特征分別與所述待查重試題的 數(shù)據(jù)特征輸入預(yù)設(shè)決策樹(shù)模型中使用對(duì)應(yīng)的相似度算法計(jì)算相似度,得到與所述待查重試 題重復(fù)的試題,包括:
[0020] 如果所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征不包含 數(shù)字和字母,使用JaroDistance算法判斷所述相似試題集合中試題是否與所述待查重試 題重復(fù),得到與所述待查重試題重復(fù)的試題;
[0021] 如果所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征不包含 數(shù)字,包含字母,使用Dice系數(shù)判斷所述相似試題集合中試題是否與所述待查重試題重 復(fù),得到與所述待查重試題重復(fù)的試題;
[0022] 如果所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征包含數(shù) 字和漢字,且漢字的長(zhǎng)度小于預(yù)設(shè)長(zhǎng)度,提取所述待查重試題的數(shù)據(jù)特征和所述相似試題 集合中試題的數(shù)據(jù)特征中的數(shù)字,使用最大公共子序列計(jì)算二者的第二相似度值,并且采 用布爾模型和余弦定理計(jì)算二者的第三相似度值,根據(jù)所述第二相似度值和所述第三相似 度值,得到與所述待查重試題重復(fù)的試題;
[0023] 如果所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征包含數(shù) 字、漢字和大寫(xiě)字母,同時(shí)漢字的長(zhǎng)度大于或等于所述預(yù)設(shè)長(zhǎng)度,且大寫(xiě)字母小于預(yù)設(shè)個(gè) 數(shù),提取所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征中的數(shù)字,使 用最大公共子序列計(jì)算二者的第四相似度值,并且采用Dice系數(shù)計(jì)算第五相似度值,根據(jù) 所述第四相似度值和所述第五相似度值,得到與所述待查重試題重復(fù)的試題;
[0024] 如果所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征包含數(shù) 字、漢字和大寫(xiě)字母,同時(shí)漢字的長(zhǎng)度大于或等于所述預(yù)設(shè)長(zhǎng)度,且大寫(xiě)字母大于或等于 預(yù)設(shè)個(gè)數(shù),提取所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征中的數(shù) 字,使用最大公共子序列計(jì)算二者的第六相似度值,根據(jù)所述第六相似度值,得到與所述待 查重試題重復(fù)的試題。
[0025] 進(jìn)一步地,所述第一預(yù)設(shè)相似度值等于0. 7 ;所述第二預(yù)設(shè)相似度值、第三預(yù)設(shè)相 似度值、第四預(yù)設(shè)相似度值和第六預(yù)設(shè)相似度值均等于〇. 9 ;所述第五預(yù)設(shè)相似度值等于 1〇
[0026] 第二方面,本發(fā)明提供一種篩查題庫(kù)中重復(fù)試題的裝置,包括:
[0027] 待查重試題提取單元,用于按照預(yù)設(shè)規(guī)則從題庫(kù)中提取試題得到待查重試題;
[0028] 相似試題集合獲取單元,用于針對(duì)所述待查重試題從所述題庫(kù)中篩選出與所述待 查重試題相似度較高的試題集合,得到相似試題集合;
[0029] 重復(fù)試題獲得單元,用于分別提取所述待查重試題的數(shù)據(jù)特征和所述相似試題集 合中試題的數(shù)據(jù)特征,按順序?qū)⑺鱿嗨圃囶}集合中試題的數(shù)據(jù)特征分別與所述待查重試 題的數(shù)據(jù)特征輸入預(yù)設(shè)決策樹(shù)模型中使用對(duì)應(yīng)的相似度算法計(jì)算相似度,得到與所述待查 重試題重復(fù)的試題。
[0030] 進(jìn)一步地,還包括:重復(fù)試題刪除單元,用于從所述題庫(kù)中刪除所述與待查重試題 重復(fù)的試題。
[0031] 進(jìn)一步地,所述相似試題集合獲取單元,具體用于采用布爾模型和余弦定理分別 計(jì)算出所述題庫(kù)中其他試題與所述待查重試題的第一相似度值,如果所述第一相似度值大 于預(yù)設(shè)第一相似度值,則該試題與所述待查重試題相似度較高,得到相似試題集合。
[0032] 進(jìn)一步地,所述數(shù)據(jù)特征包括數(shù)字、字母、漢字和漢字的長(zhǎng)度。
[0033] 進(jìn)一步地,所述重復(fù)試題獲得單元,具體用于如果所述待查重試題的數(shù)據(jù)特征和 所述相似試題集合中試題的數(shù)據(jù)特征不包含數(shù)字和字母,使用JaroDistance算法判斷所 述相似試題集合中試題是否與所述待查重試題重復(fù),得到與所述待查重試題重復(fù)的試題; 如果所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征不包含數(shù)字,包含 字母,使用Dice系數(shù)判斷所述相似試題集合中試題是否與所述待查重試題重復(fù),得到與所 述待查重試題重復(fù)的試題;如果所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的 數(shù)據(jù)特征包含數(shù)字和漢字,且漢字的長(zhǎng)度小于預(yù)設(shè)長(zhǎng)度,提取所述待查重試題的數(shù)據(jù)特征 和所述相似試題集合中試題的數(shù)據(jù)特征中的數(shù)字,使用最大公共子序列計(jì)算二者的第二相 似度值,并且采用布爾模型和余弦定理計(jì)算二者的第三相似度值,根據(jù)所述第二相似度值 和所述第三相似度值,得到與所述待查重試題重復(fù)的試題;如果所述待查重試題的數(shù)據(jù)特 征和所述相似試題集合中試題的數(shù)據(jù)特征包含數(shù)字、漢字和大寫(xiě)字母,同時(shí)漢字的長(zhǎng)度大 于或等于所述預(yù)設(shè)長(zhǎng)度,且大寫(xiě)字母小于預(yù)設(shè)個(gè)數(shù),提取所述