基于段落抄襲檢測(cè)的電子作業(yè)反抄襲系統(tǒng)和方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)一種基于段落抄襲檢測(cè)的電子作業(yè)反抄襲系統(tǒng)和方法。其包含:電子作業(yè)提交裝置、電子作業(yè)接收裝置、抄襲檢測(cè)隊(duì)列裝置、電子作業(yè)解析裝置、抄襲檢測(cè)裝置和電子作業(yè)存儲(chǔ)裝置。具體步驟為:電子作業(yè)接收裝置接收通過(guò)電子作業(yè)提交裝置所提交的電子作業(yè)后,將其入隊(duì)抄襲檢測(cè)隊(duì)列裝置;電子作業(yè)解析裝置出隊(duì)電子作業(yè),對(duì)其進(jìn)行文本解析、段落分解、存儲(chǔ)結(jié)果,并啟動(dòng)抄襲檢測(cè)裝置;抄襲檢測(cè)裝置以段落為檢測(cè)單位,融合有效段落判定,實(shí)現(xiàn)抄襲行為檢測(cè)。本申請(qǐng)以段落為單位,融合隊(duì)列機(jī)制進(jìn)行抄襲檢測(cè)的方法,在滿(mǎn)足判定電子作業(yè)抄襲多篇電子作業(yè)的抄襲行為的情況下,提高了系統(tǒng)效率和穩(wěn)定性,并能判定原創(chuàng)作業(yè)的歸屬問(wèn)題,進(jìn)而實(shí)現(xiàn)反抄襲。
【專(zhuān)利說(shuō)明】基于段落抄襲檢測(cè)的電子作業(yè)反抄襲系統(tǒng)和方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及智能信息處理和計(jì)算機(jī)【技術(shù)領(lǐng)域】,具體地說(shuō)是一種利用計(jì)算機(jī)系統(tǒng)進(jìn)行抄襲檢測(cè)的電子作業(yè)反抄襲系統(tǒng)和方法。
【背景技術(shù)】
[0002]隨著計(jì)算機(jī)應(yīng)用技術(shù)在教學(xué)中的廣泛應(yīng)用和電子文檔技術(shù)的進(jìn)步,越來(lái)越多的作業(yè)以電子文檔的方式提交,即電子作業(yè)。電子作業(yè)使得作業(yè)整潔、易讀、美觀、易保存;因此,在越來(lái)越多的課程中,尤其是計(jì)算機(jī)課程,幾乎所有的作業(yè)都以電子作業(yè)的形式提交、審閱。然而,電子作業(yè)的可復(fù)制性和易修改性,使得其抄襲變得更為簡(jiǎn)單。在沒(méi)有任何反抄襲措施的情況下,學(xué)生們更愿意使用簡(jiǎn)單的復(fù)制粘貼等手段來(lái)完成其作業(yè)。目前,該現(xiàn)象在全國(guó)范圍內(nèi)已愈演愈烈。它不但降低了學(xué)生學(xué)習(xí)的主動(dòng)性,對(duì)學(xué)習(xí)效果產(chǎn)生了巨大的負(fù)面效果;同時(shí),也對(duì)整個(gè)社會(huì)造成了極大的不良影響。因此,如何防止電子作業(yè)抄襲行為已經(jīng)成為了教育教學(xué)等行業(yè)亟需解決的一個(gè)重要問(wèn)題。如果能夠找到一種簡(jiǎn)單實(shí)用的電子作業(yè)反抄襲方法,較少、杜絕抄襲行為,將能極大提高教育教學(xué)質(zhì)量,具有重大的意義。
[0003]通常情況下,某次電子作業(yè)都是圍繞某個(gè)題目展開(kāi)的。它通常允許學(xué)生通過(guò)查閱大量的互聯(lián)網(wǎng)資料、學(xué)術(shù)文獻(xiàn)資料等完成。不可避免地,其文章中或多或少的存在一些允許范圍內(nèi)的引用。因此,電子作業(yè)中存在句子的相同,不能作為抄襲依據(jù);而長(zhǎng)段落的抄襲則可以作為抄襲憑證。此外,電子作業(yè)的抄襲主要集中在學(xué)生電子作業(yè)間的相互抄襲,這些抄襲行為包括一篇電子作業(yè)全部或部分抄襲另一篇電子作業(yè)或融合多篇電子作業(yè)等。根據(jù)本發(fā)明人多年教學(xué)經(jīng)驗(yàn)的統(tǒng)計(jì),絕大部分的抄襲者其抄襲行為大多是對(duì)一篇電子作業(yè)的部分擇取或多篇(一般不超過(guò)3篇)電子作業(yè)的簡(jiǎn)單融合,也即將多篇電子作業(yè)的不同段落進(jìn)行重新組合。
[0004]針對(duì)電子文檔抄襲,全球范圍內(nèi)已經(jīng)有了許多電子文檔抄襲的算法和系統(tǒng)。審理中專(zhuān)利《中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)與方法》(楊純青,2012,申請(qǐng)?zhí)?01210258516.7)通過(guò)將文章拆解成句子群,并將所獲取的句子群逐句上傳至搜索引擎,獲取與搜索引擎所搜尋出的與拆解字句雷同的網(wǎng)頁(yè)或文章,并對(duì)抄襲的句子進(jìn)行標(biāo)注。該專(zhuān)利一定程度上能識(shí)別電子作業(yè)哪些句子雷同于網(wǎng)絡(luò)文章;但,它卻未能解決電子作業(yè)間相互抄襲的問(wèn)題,而這也是電子作業(yè)最常見(jiàn)的現(xiàn)象;同時(shí),它也無(wú)法給出定量的抄襲程度指標(biāo),即它無(wú)法智能判斷該電子作業(yè)是否有抄襲行為。
[0005]溫州大學(xué)已授權(quán)專(zhuān)利《基于近似串匹配距離德電子文本文檔抄襲識(shí)別方法》(胡明曉,2008,專(zhuān)利號(hào)200810162245.9)采用近似串匹配距離來(lái)識(shí)別文檔A是否抄襲文檔B,它能檢測(cè)兩個(gè)文檔之間是否有相互抄襲行為,但卻不能解決一個(gè)文檔融合抄襲多個(gè)文檔的現(xiàn)象。美國(guó)專(zhuān)利《Method for detecting plagiarism)) (Kelly, V.Adam, 2001, N0.6976170)通過(guò)使用公式計(jì)算文檔中的每個(gè)句子的特征值,通過(guò)對(duì)比兩個(gè)文檔各句子的特征值,來(lái)判定是否有抄襲行為。西安交通大學(xué)已授權(quán)專(zhuān)利《一種基于小波變換的半結(jié)構(gòu)化文本結(jié)構(gòu)復(fù)制檢測(cè)的方法》(鮑軍鵬蘇杰,2011,申請(qǐng)?zhí)?01110316054.5)通過(guò)小波變換獲取板結(jié)構(gòu)化文本結(jié)構(gòu)特征,計(jì)算結(jié)構(gòu)相似性,判定結(jié)構(gòu)是否雷同等步驟來(lái)判定本結(jié)構(gòu)化文本是否有復(fù)制行為。北方工業(yè)大學(xué)審理中專(zhuān)利《一種電子作業(yè)抄襲檢測(cè)方法》(張師林,2011,申請(qǐng)?zhí)?01110235711.3)根據(jù)常用詞詞頻和實(shí)詞語(yǔ)義相似度分別計(jì)算作業(yè)之間的相似程度,最后融合兩方面的相似度并根據(jù)閾值判斷兩篇文檔間是否存在抄襲。因此,由于這些方法都是以文檔為單位,進(jìn)行文檔間的相似度計(jì)算,進(jìn)而判定兩個(gè)文檔之間是否有抄襲行為,因此,都無(wú)法檢測(cè)抄襲多個(gè)電子作業(yè)融合抄襲的行為。此外,當(dāng)兩個(gè)文檔存在相似性的情況下,其未能解決誰(shuí)是原創(chuàng)文檔、誰(shuí)是抄襲文檔的問(wèn)題。
[0006]許多的文獻(xiàn)也闡述了電子文檔的抄襲檢測(cè)方法。文獻(xiàn)《CHECK:Adocumentplagiarism detection system》(Si A., Leong Η.V, Lau R.ff.H.,1997, Processings ofthel997ACM Symposium on Applied Computing)通過(guò)提取結(jié)構(gòu)化信息和關(guān)鍵詞來(lái)判定文檔相似性。然而,該方法主要應(yīng)用于英文知識(shí)領(lǐng)域,且不能判定多文檔抄襲問(wèn)題。文獻(xiàn)《網(wǎng)絡(luò)環(huán)境與機(jī)房環(huán)境下電子作業(yè)反抄襲策略》(付兵謝本貴,2013.3,實(shí)驗(yàn)室研究與探索)采用信息隱藏技術(shù)對(duì)原創(chuàng)信息進(jìn)行加密,利用高嵌入率的水印算法將秘密信息隱藏到電子作業(yè)的字符格式之中,達(dá)到偵測(cè)抄襲嫌疑的目的。該方法需要對(duì)電子作業(yè)進(jìn)行水印處理,包含許多復(fù)雜的運(yùn)算步驟,效率較低,影響文章比對(duì)速度,且加大了抄襲檢測(cè)對(duì)服務(wù)器的負(fù)荷。本
【發(fā)明者】在文獻(xiàn)《基于VSM的電子作業(yè)反抄襲系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)》(周小平王佳馬曉軒,2013.4,實(shí)驗(yàn)室研究與探索)通過(guò)采用TF-1DF、VSM等算法來(lái)規(guī)避電子作業(yè)抄襲行為。該方法采用TF-1DF模型,雖然解決了一篇文檔抄襲多篇文檔的行為;但由于每次對(duì)新電子作業(yè)得抄襲檢測(cè)都需要重新計(jì)算TF和IDF值;因此,其效率較低,抄襲檢測(cè)速度較慢。
[0007]本發(fā)明所使用的向量空間模型(VSM:Vector Space Model)由Salton等人于20世紀(jì)70年代提出,并成功地應(yīng)用于著名的SMART文本檢索系統(tǒng)。VSM把對(duì)文本內(nèi)容的處理簡(jiǎn)化為向量空間中的向量運(yùn)算,并且它以空間上的相似度表達(dá)語(yǔ)義的相似度,直觀易懂。當(dāng)文檔被表示為文檔空間的向量,就可以通過(guò)計(jì)算向量之間的相似性來(lái)度量文檔間的相似性。若有采用VSM模型建立的兩個(gè)向量A和B,通常采用余弦公式計(jì)算相似度,即向量A和B的相似度計(jì)算公式為:
【權(quán)利要求】
1.一種基于段落抄襲檢測(cè)的電子作業(yè)反抄襲系統(tǒng)和方法,其特征在于,所述系統(tǒng)包括如下裝置:電子作業(yè)提交裝置,用于提交電子作業(yè);電子作業(yè)接收裝置,用于接收、存儲(chǔ)通過(guò)電子作業(yè)提交裝置所提交的電子作業(yè),并將電子作業(yè)入隊(duì)抄襲檢測(cè)隊(duì)列裝置;抄襲檢測(cè)隊(duì)列裝置,用于以隊(duì)列方式標(biāo)記待抄襲檢測(cè)的電子作業(yè),以待有序檢測(cè)所提交的電子作業(yè)的抄襲行為;電子作業(yè)解析裝置,用于將電子作業(yè)解析成文本,進(jìn)行段落分解,存儲(chǔ)分解后的文本段落,并啟動(dòng)抄襲檢測(cè)裝置進(jìn)行抄襲檢測(cè);抄襲檢測(cè)裝置,用于識(shí)別所提交的電子作業(yè)是否有抄襲行為;電子作業(yè)存儲(chǔ)裝置,用于存儲(chǔ)電子作業(yè)、電子作業(yè)解析后的文本段落、文本段落關(guān)鍵詞及其詞頻權(quán)重、電子作業(yè)抄襲狀態(tài)和賬號(hào)信息;所述方法包括如下步驟:通過(guò)電子作業(yè)提交裝置提交電子作業(yè);電子作業(yè)接收裝置接收學(xué)生提交的電子作業(yè)后,將電子作業(yè)入隊(duì)抄襲檢測(cè)隊(duì)列裝置,等待抄襲檢測(cè);電子作業(yè)解析裝置從抄襲檢測(cè)隊(duì)列裝置中出隊(duì)待檢測(cè)的電子作業(yè),然后,對(duì)其進(jìn)行文本解析、段落分解,并存儲(chǔ)解析后的文本段落,啟動(dòng)抄襲檢測(cè)裝置進(jìn)行抄襲檢測(cè);抄襲檢測(cè)裝置獲取待檢測(cè)的電子作業(yè)各文本段落,計(jì)算其同已存儲(chǔ)的原創(chuàng)段落之間的相似度,融合通過(guò)檢測(cè)的文本段落數(shù)檢驗(yàn),判斷是否有抄襲行為,并存儲(chǔ)抄襲檢測(cè)結(jié)果將。
2.如權(quán)利要求1所述的電子作業(yè)接收裝置,其特征在于,其能同時(shí)接收來(lái)自多個(gè)如權(quán)利要求1所述的電子作業(yè)提交裝置的作業(yè)提交請(qǐng)求,并將接收到的完整的電子作業(yè)存儲(chǔ)于如權(quán)利要求1所述的電子作業(yè)存儲(chǔ)裝置;同時(shí),根據(jù)電子作業(yè)的提交時(shí)間先后順序?qū)㈦娮幼鳂I(yè)入隊(duì)如權(quán)利要求1所述的抄襲檢測(cè)隊(duì)列裝置。
3.如權(quán)利要求1所述的抄襲檢測(cè)隊(duì)列裝置,其特征在于,采用“先進(jìn)先出”的隊(duì)列結(jié)構(gòu),其內(nèi)按時(shí)間先后隊(duì)列待檢測(cè)電子作業(yè)的索引值。
4.如權(quán)利要求1所述的電子作業(yè)解析裝置,其特征在于,其在完成電子作業(yè)解析后,將啟動(dòng)抄襲檢測(cè)裝置進(jìn)行抄襲檢測(cè),其進(jìn)行電子作業(yè)解析包含如下步驟:I、從抄襲檢測(cè)隊(duì)列裝置獲取待檢測(cè)電子作業(yè)的索引值,并通過(guò)索引值獲取電子作業(yè)完整內(nèi)容;II、根據(jù)電子作業(yè)的文件擴(kuò)展名判斷電子作業(yè)的文件格式;如若為pdf,則采用pdf規(guī)范格式解析并抽取其文本;如果為doc或docx,則采用word api解析并抽取其文本;如果為txt格式,則直接提取文本;III、根據(jù)所抽取的電子作業(yè)文本,以字符\η進(jìn)行分段處理;IV、將分段后所得的各文本段落按順序存儲(chǔ)于電子作業(yè)存儲(chǔ)裝置中。
5.如權(quán)利要求1所述的抄襲檢測(cè)裝置,其特征在于,按待檢測(cè)電子作業(yè)文本段落先后順序逐段檢測(cè)各段抄襲行為,其抄襲檢測(cè)包括如下步驟:I、初始化抄襲檢測(cè)參數(shù),包括當(dāng)前待檢測(cè)文本段落序號(hào)x=l,已通過(guò)檢測(cè)文本段落總數(shù)d = 0 ;I1、若X大于待檢測(cè)電子作業(yè)總文本段落數(shù),則轉(zhuǎn)向執(zhí)行步驟IX;否則,從如權(quán)利要求1所述的電子作業(yè)存儲(chǔ)裝置提取待檢測(cè)電子作業(yè)第X個(gè)文本段落,標(biāo)記為px ;II1、對(duì)文本段落Px進(jìn)行中文分詞,并依據(jù)標(biāo)記各詞語(yǔ)詞性,根據(jù)詞性,保留有實(shí)質(zhì)意義的名詞、動(dòng)詞、方位詞、住所詞和時(shí)間詞并統(tǒng)計(jì)其詞頻,得到文本段落Px的關(guān)鍵詞及關(guān)鍵詞的詞頻權(quán)重,采用VSM模型標(biāo)記SX,SX可表示為:SX={ (wxi,叫),(wx2, nx2), (wxj, nxj)}其中,wx為文本段落Px的關(guān)鍵詞,i為關(guān)鍵詞個(gè)數(shù),nx為該關(guān)鍵詞的詞頻權(quán)重,其計(jì)算公式為:
【文檔編號(hào)】G06F17/30GK103678528SQ201310631663
【公開(kāi)日】2014年3月26日 申請(qǐng)日期:2013年12月3日 優(yōu)先權(quán)日:2013年12月3日
【發(fā)明者】周小平 申請(qǐng)人:北京建筑大學(xué)