基于段落抄襲檢測(cè)的電子作業(yè)反抄襲系統(tǒng)和方法

文檔序號(hào)：6521576閱讀：615來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于段落抄襲檢測(cè)的電子作業(yè)反抄襲系統(tǒng)和方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)一種基于段落抄襲檢測(cè)的電子作業(yè)反抄襲系統(tǒng)和方法。其包含：電子作業(yè)提交裝置、電子作業(yè)接收裝置、抄襲檢測(cè)隊(duì)列裝置、電子作業(yè)解析裝置、抄襲檢測(cè)裝置和電子作業(yè)存儲(chǔ)裝置。具體步驟為：電子作業(yè)接收裝置接收通過(guò)電子作業(yè)提交裝置所提交的電子作業(yè)后，將其入隊(duì)抄襲檢測(cè)隊(duì)列裝置；電子作業(yè)解析裝置出隊(duì)電子作業(yè)，對(duì)其進(jìn)行文本解析、段落分解、存儲(chǔ)結(jié)果，并啟動(dòng)抄襲檢測(cè)裝置；抄襲檢測(cè)裝置以段落為檢測(cè)單位，融合有效段落判定，實(shí)現(xiàn)抄襲行為檢測(cè)。本申請(qǐng)以段落為單位，融合隊(duì)列機(jī)制進(jìn)行抄襲檢測(cè)的方法，在滿(mǎn)足判定電子作業(yè)抄襲多篇電子作業(yè)的抄襲行為的情況下，提高了系統(tǒng)效率和穩(wěn)定性，并能判定原創(chuàng)作業(yè)的歸屬問(wèn)題，進(jìn)而實(shí)現(xiàn)反抄襲。
【專(zhuān)利說(shuō)明】基于段落抄襲檢測(cè)的電子作業(yè)反抄襲系統(tǒng)和方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及智能信息處理和計(jì)算機(jī)【技術(shù)領(lǐng)域】，具體地說(shuō)是一種利用計(jì)算機(jī)系統(tǒng)進(jìn)行抄襲檢測(cè)的電子作業(yè)反抄襲系統(tǒng)和方法。
【背景技術(shù)】
[0002]隨著計(jì)算機(jī)應(yīng)用技術(shù)在教學(xué)中的廣泛應(yīng)用和電子文檔技術(shù)的進(jìn)步，越來(lái)越多的作業(yè)以電子文檔的方式提交，即電子作業(yè)。電子作業(yè)使得作業(yè)整潔、易讀、美觀、易保存；因此，在越來(lái)越多的課程中，尤其是計(jì)算機(jī)課程，幾乎所有的作業(yè)都以電子作業(yè)的形式提交、審閱。然而，電子作業(yè)的可復(fù)制性和易修改性，使得其抄襲變得更為簡(jiǎn)單。在沒(méi)有任何反抄襲措施的情況下，學(xué)生們更愿意使用簡(jiǎn)單的復(fù)制粘貼等手段來(lái)完成其作業(yè)。目前，該現(xiàn)象在全國(guó)范圍內(nèi)已愈演愈烈。它不但降低了學(xué)生學(xué)習(xí)的主動(dòng)性，對(duì)學(xué)習(xí)效果產(chǎn)生了巨大的負(fù)面效果；同時(shí)，也對(duì)整個(gè)社會(huì)造成了極大的不良影響。因此，如何防止電子作業(yè)抄襲行為已經(jīng)成為了教育教學(xué)等行業(yè)亟需解決的一個(gè)重要問(wèn)題。如果能夠找到一種簡(jiǎn)單實(shí)用的電子作業(yè)反抄襲方法，較少、杜絕抄襲行為，將能極大提高教育教學(xué)質(zhì)量，具有重大的意義。
[0003]通常情況下，某次電子作業(yè)都是圍繞某個(gè)題目展開(kāi)的。它通常允許學(xué)生通過(guò)查閱大量的互聯(lián)網(wǎng)資料、學(xué)術(shù)文獻(xiàn)資料等完成。不可避免地，其文章中或多或少的存在一些允許范圍內(nèi)的引用。因此，電子作業(yè)中存在句子的相同，不能作為抄襲依據(jù)；而長(zhǎng)段落的抄襲則可以作為抄襲憑證。此外，電子作業(yè)的抄襲主要集中在學(xué)生電子作業(yè)間的相互抄襲,這些抄襲行為包括一篇電子作業(yè)全部或部分抄襲另一篇電子作業(yè)或融合多篇電子作業(yè)等。根據(jù)本發(fā)明人多年教學(xué)經(jīng)驗(yàn)的統(tǒng)計(jì)，絕大部分的抄襲者其抄襲行為大多是對(duì)一篇電子作業(yè)的部分擇取或多篇(一般不超過(guò)3篇)電子作業(yè)的簡(jiǎn)單融合，也即將多篇電子作業(yè)的不同段落進(jìn)行重新組合。
[0004]針對(duì)電子文檔抄襲，全球范圍內(nèi)已經(jīng)有了許多電子文檔抄襲的算法和系統(tǒng)。審理中專(zhuān)利《中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)與方法》(楊純青，2012，申請(qǐng)?zhí)?01210258516.7)通過(guò)將文章拆解成句子群，并將所獲取的句子群逐句上傳至搜索引擎，獲取與搜索引擎所搜尋出的與拆解字句雷同的網(wǎng)頁(yè)或文章，并對(duì)抄襲的句子進(jìn)行標(biāo)注。該專(zhuān)利一定程度上能識(shí)別電子作業(yè)哪些句子雷同于網(wǎng)絡(luò)文章；但，它卻未能解決電子作業(yè)間相互抄襲的問(wèn)題，而這也是電子作業(yè)最常見(jiàn)的現(xiàn)象；同時(shí)，它也無(wú)法給出定量的抄襲程度指標(biāo)，即它無(wú)法智能判斷該電子作業(yè)是否有抄襲行為。
[0005]溫州大學(xué)已授權(quán)專(zhuān)利《基于近似串匹配距離德電子文本文檔抄襲識(shí)別方法》(胡明曉，2008，專(zhuān)利號(hào)200810162245.9)采用近似串匹配距離來(lái)識(shí)別文檔A是否抄襲文檔B，它能檢測(cè)兩個(gè)文檔之間是否有相互抄襲行為，但卻不能解決一個(gè)文檔融合抄襲多個(gè)文檔的現(xiàn)象。美國(guó)專(zhuān)利《Method for detecting plagiarism)) (Kelly, V.Adam, 2001, N0.6976170)通過(guò)使用公式計(jì)算文檔中的每個(gè)句子的特征值，通過(guò)對(duì)比兩個(gè)文檔各句子的特征值，來(lái)判定是否有抄襲行為。西安交通大學(xué)已授權(quán)專(zhuān)利《一種基于小波變換的半結(jié)構(gòu)化文本結(jié)構(gòu)復(fù)制檢測(cè)的方法》(鮑軍鵬蘇杰，2011，申請(qǐng)?zhí)?01110316054.5)通過(guò)小波變換獲取板結(jié)構(gòu)化文本結(jié)構(gòu)特征，計(jì)算結(jié)構(gòu)相似性，判定結(jié)構(gòu)是否雷同等步驟來(lái)判定本結(jié)構(gòu)化文本是否有復(fù)制行為。北方工業(yè)大學(xué)審理中專(zhuān)利《一種電子作業(yè)抄襲檢測(cè)方法》(張師林，2011，申請(qǐng)?zhí)?01110235711.3)根據(jù)常用詞詞頻和實(shí)詞語(yǔ)義相似度分別計(jì)算作業(yè)之間的相似程度，最后融合兩方面的相似度并根據(jù)閾值判斷兩篇文檔間是否存在抄襲。因此，由于這些方法都是以文檔為單位，進(jìn)行文檔間的相似度計(jì)算，進(jìn)而判定兩個(gè)文檔之間是否有抄襲行為，因此，都無(wú)法檢測(cè)抄襲多個(gè)電子作業(yè)融合抄襲的行為。此外，當(dāng)兩個(gè)文檔存在相似性的情況下，其未能解決誰(shuí)是原創(chuàng)文檔、誰(shuí)是抄襲文檔的問(wèn)題。
[0006]許多的文獻(xiàn)也闡述了電子文檔的抄襲檢測(cè)方法。文獻(xiàn)《CHECK:Adocumentplagiarism detection system》(Si A., Leong Η.V, Lau R.ff.H.,1997, Processings ofthel997ACM Symposium on Applied Computing)通過(guò)提取結(jié)構(gòu)化信息和關(guān)鍵詞來(lái)判定文檔相似性。然而，該方法主要應(yīng)用于英文知識(shí)領(lǐng)域，且不能判定多文檔抄襲問(wèn)題。文獻(xiàn)《網(wǎng)絡(luò)環(huán)境與機(jī)房環(huán)境下電子作業(yè)反抄襲策略》(付兵謝本貴，2013.3，實(shí)驗(yàn)室研究與探索)采用信息隱藏技術(shù)對(duì)原創(chuàng)信息進(jìn)行加密，利用高嵌入率的水印算法將秘密信息隱藏到電子作業(yè)的字符格式之中，達(dá)到偵測(cè)抄襲嫌疑的目的。該方法需要對(duì)電子作業(yè)進(jìn)行水印處理，包含許多復(fù)雜的運(yùn)算步驟，效率較低，影響文章比對(duì)速度，且加大了抄襲檢測(cè)對(duì)服務(wù)器的負(fù)荷。本
【發(fā)明者】在文獻(xiàn)《基于VSM的電子作業(yè)反抄襲系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)》(周小平王佳馬曉軒，2013.4，實(shí)驗(yàn)室研究與探索)通過(guò)采用TF-1DF、VSM等算法來(lái)規(guī)避電子作業(yè)抄襲行為。該方法采用TF-1DF模型，雖然解決了一篇文檔抄襲多篇文檔的行為；但由于每次對(duì)新電子作業(yè)得抄襲檢測(cè)都需要重新計(jì)算TF和IDF值；因此，其效率較低，抄襲檢測(cè)速度較慢。
[0007]本發(fā)明所使用的向量空間模型(VSM:Vector Space Model)由Salton等人于20世紀(jì)70年代提出，并成功地應(yīng)用于著名的SMART文本檢索系統(tǒng)。VSM把對(duì)文本內(nèi)容的處理簡(jiǎn)化為向量空間中的向量運(yùn)算，并且它以空間上的相似度表達(dá)語(yǔ)義的相似度，直觀易懂。當(dāng)文檔被表示為文檔空間的向量，就可以通過(guò)計(jì)算向量之間的相似性來(lái)度量文檔間的相似性。若有采用VSM模型建立的兩個(gè)向量A和B，通常采用余弦公式計(jì)算相似度，即向量A和B的相似度計(jì)算公式為:
【權(quán)利要求】
1.一種基于段落抄襲檢測(cè)的電子作業(yè)反抄襲系統(tǒng)和方法，其特征在于，所述系統(tǒng)包括如下裝置:電子作業(yè)提交裝置，用于提交電子作業(yè)；電子作業(yè)接收裝置，用于接收、存儲(chǔ)通過(guò)電子作業(yè)提交裝置所提交的電子作業(yè)，并將電子作業(yè)入隊(duì)抄襲檢測(cè)隊(duì)列裝置；抄襲檢測(cè)隊(duì)列裝置，用于以隊(duì)列方式標(biāo)記待抄襲檢測(cè)的電子作業(yè)，以待有序檢測(cè)所提交的電子作業(yè)的抄襲行為；電子作業(yè)解析裝置，用于將電子作業(yè)解析成文本，進(jìn)行段落分解，存儲(chǔ)分解后的文本段落，并啟動(dòng)抄襲檢測(cè)裝置進(jìn)行抄襲檢測(cè)；抄襲檢測(cè)裝置，用于識(shí)別所提交的電子作業(yè)是否有抄襲行為；電子作業(yè)存儲(chǔ)裝置，用于存儲(chǔ)電子作業(yè)、電子作業(yè)解析后的文本段落、文本段落關(guān)鍵詞及其詞頻權(quán)重、電子作業(yè)抄襲狀態(tài)和賬號(hào)信息；所述方法包括如下步驟:通過(guò)電子作業(yè)提交裝置提交電子作業(yè)；電子作業(yè)接收裝置接收學(xué)生提交的電子作業(yè)后，將電子作業(yè)入隊(duì)抄襲檢測(cè)隊(duì)列裝置，等待抄襲檢測(cè)；電子作業(yè)解析裝置從抄襲檢測(cè)隊(duì)列裝置中出隊(duì)待檢測(cè)的電子作業(yè)，然后，對(duì)其進(jìn)行文本解析、段落分解，并存儲(chǔ)解析后的文本段落，啟動(dòng)抄襲檢測(cè)裝置進(jìn)行抄襲檢測(cè)；抄襲檢測(cè)裝置獲取待檢測(cè)的電子作業(yè)各文本段落，計(jì)算其同已存儲(chǔ)的原創(chuàng)段落之間的相似度，融合通過(guò)檢測(cè)的文本段落數(shù)檢驗(yàn)，判斷是否有抄襲行為，并存儲(chǔ)抄襲檢測(cè)結(jié)果將。
2.如權(quán)利要求1所述的電子作業(yè)接收裝置，其特征在于，其能同時(shí)接收來(lái)自多個(gè)如權(quán)利要求1所述的電子作業(yè)提交裝置的作業(yè)提交請(qǐng)求，并將接收到的完整的電子作業(yè)存儲(chǔ)于如權(quán)利要求1所述的電子作業(yè)存儲(chǔ)裝置；同時(shí)，根據(jù)電子作業(yè)的提交時(shí)間先后順序?qū)㈦娮幼鳂I(yè)入隊(duì)如權(quán)利要求1所述的抄襲檢測(cè)隊(duì)列裝置。
3.如權(quán)利要求1所述的抄襲檢測(cè)隊(duì)列裝置，其特征在于，采用“先進(jìn)先出”的隊(duì)列結(jié)構(gòu)，其內(nèi)按時(shí)間先后隊(duì)列待檢測(cè)電子作業(yè)的索引值。
4.如權(quán)利要求1所述的電子作業(yè)解析裝置，其特征在于，其在完成電子作業(yè)解析后，將啟動(dòng)抄襲檢測(cè)裝置進(jìn)行抄襲檢測(cè)，其進(jìn)行電子作業(yè)解析包含如下步驟:I、從抄襲檢測(cè)隊(duì)列裝置獲取待檢測(cè)電子作業(yè)的索引值，并通過(guò)索引值獲取電子作業(yè)完整內(nèi)容；II、根據(jù)電子作業(yè)的文件擴(kuò)展名判斷電子作業(yè)的文件格式；如若為pdf，則采用pdf規(guī)范格式解析并抽取其文本；如果為doc或docx,則采用word api解析并抽取其文本；如果為txt格式，則直接提取文本；III、根據(jù)所抽取的電子作業(yè)文本，以字符\η進(jìn)行分段處理；IV、將分段后所得的各文本段落按順序存儲(chǔ)于電子作業(yè)存儲(chǔ)裝置中。
5.如權(quán)利要求1所述的抄襲檢測(cè)裝置，其特征在于，按待檢測(cè)電子作業(yè)文本段落先后順序逐段檢測(cè)各段抄襲行為，其抄襲檢測(cè)包括如下步驟:I、初始化抄襲檢測(cè)參數(shù)，包括當(dāng)前待檢測(cè)文本段落序號(hào)x=l，已通過(guò)檢測(cè)文本段落總數(shù)d = 0 ；I1、若X大于待檢測(cè)電子作業(yè)總文本段落數(shù)，則轉(zhuǎn)向執(zhí)行步驟IX;否則，從如權(quán)利要求1所述的電子作業(yè)存儲(chǔ)裝置提取待檢測(cè)電子作業(yè)第X個(gè)文本段落，標(biāo)記為px ；II1、對(duì)文本段落Px進(jìn)行中文分詞，并依據(jù)標(biāo)記各詞語(yǔ)詞性，根據(jù)詞性，保留有實(shí)質(zhì)意義的名詞、動(dòng)詞、方位詞、住所詞和時(shí)間詞并統(tǒng)計(jì)其詞頻，得到文本段落Px的關(guān)鍵詞及關(guān)鍵詞的詞頻權(quán)重，采用VSM模型標(biāo)記SX，SX可表示為:SX={ (wxi,叫)，(wx2, nx2), (wxj, nxj)}其中，wx為文本段落Px的關(guān)鍵詞，i為關(guān)鍵詞個(gè)數(shù)，nx為該關(guān)鍵詞的詞頻權(quán)重，其計(jì)算公式為:
【文檔編號(hào)】G06F17/30GK103678528SQ201310631663
【公開(kāi)日】2014年3月26日申請(qǐng)日期:2013年12月3日優(yōu)先權(quán)日:2013年12月3日
【發(fā)明者】周小平申請(qǐng)人:北京建筑大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：周小平
技術(shù)所有人：北京建筑大學(xué)
我是此專(zhuān)利的發(fā)明人

上一篇：閃存更新方法以及閃存控制器的制造方法
上一篇：一種客戶(hù)端軟件的備份方法、還原方法和裝置制造方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于段落抄襲檢測(cè)的電子作業(yè)反抄襲系統(tǒng)和方法