本發(fā)明涉及一種基于圖文識別的論文重查系統(tǒng)及其方法。
背景技術(shù):
目前,大學(xué)畢業(yè)生的畢業(yè)論文只有通過了論文查重才能提交答辯。有許多網(wǎng)站提供查重功能,要求將論文通過拷貝文字段落的方式或者上傳word文檔的形式來提交待查重的論文。這些網(wǎng)站的查重只關(guān)注文字信息的查重,而對圖像、圖片的重復(fù)是不處理的。這種查文不查圖的方式存在一個明顯的缺陷,即可以通過將文字信息轉(zhuǎn)化為圖片格式來規(guī)避查重。為此,提出了一種基于圖文識別的論文重查系統(tǒng)及其方法。
技術(shù)實現(xiàn)要素:
本發(fā)明針對現(xiàn)有技術(shù)的不足,提供一種基于圖文識別的論文重查系統(tǒng)及其方法;其能將論文的圖像信息進(jìn)行特征提取并進(jìn)行特征匹配識別,從而提高了論文查重的準(zhǔn)確率。
為了達(dá)到上述目的,本發(fā)明一種基于圖文識別的論文重查系統(tǒng),主要包括:
論文結(jié)構(gòu)識別模塊,所述論文結(jié)構(gòu)識別模塊主要用于將論文的信息識別成文本信息和圖像信息,并將文本信息和圖片信息分別保存起來;
文本查重模塊,所述文本查重模塊主要用于將論文結(jié)構(gòu)識別模塊識別并保存的文本信息與文本信息數(shù)據(jù)庫中的文本信息進(jìn)行匹配分析;
圖像重查模塊,所述圖像重查模塊主要用于將論文結(jié)構(gòu)識別模塊識別并保存的圖像信息進(jìn)行分析提取出文字信息和圖像特征信息,并將提取出的圖像特征信息與圖庫中的圖像特征進(jìn)行匹配分析;
查重報告模塊,所述查重報告模塊主要用于將文本重查模塊和圖像重查模塊匹配分析出的結(jié)果生成查重報告,以反饋給用戶;
所述論文結(jié)構(gòu)查重模塊、文本查重模塊、圖像重查模塊和查重報告模塊相互通信連接。
所述文本信息數(shù)據(jù)庫包括本地文本信息數(shù)據(jù)庫,Google、百度等搜索引擎中的數(shù)據(jù)庫,以及CNKI、萬方等數(shù)據(jù)庫。
一種基于圖文識別的論文重查方法,主要包括以下步驟:
第一步,論文結(jié)構(gòu)識別模塊將論文的信息識別成文本信息和圖像信息,并將文本信息和圖片信息分別保存起來;
第二步,圖像重查模塊將論文結(jié)構(gòu)識別模塊識別并保存的圖像信息進(jìn)行分析提取出文字信息和圖像特征信息;
第三步,圖像重查模塊將圖像信息進(jìn)行分析提取出的文字信息發(fā)送給文本查重模塊;
第四步,圖像重查模塊將圖像信息進(jìn)行分析提取出的圖像特征信息與圖庫中的圖像特征進(jìn)行匹配分析;
第五步,文本查重模塊將論文結(jié)構(gòu)識別模塊識別并保存的文本信息以及來自于圖像重查模塊提取的文字信息分別與文本信息數(shù)據(jù)庫中的文本信息進(jìn)行匹配分析;
第六步,查重報告模塊將文本重查模塊和圖像重查模塊匹配分析出的結(jié)果生成查重報告反饋給用戶。值得說明一下,這一種簡單的查重報告方式是:該查重報告可以以文本信息、圖像重查模塊提取的文字信息和圖像特征信息這三方面的重復(fù)率的方式生成反饋給用戶。
優(yōu)選地,所述圖像重查模塊是采用OCR分析方式將圖像信息中的文字信息提取出來。
優(yōu)選地,所述圖像特征信息是指顏色特征信息、紋理特征信息和形狀特征信息進(jìn)行綜合加權(quán)形成的圖形綜合信息。
作為較佳方案,所述顏色特征信息、紋理特征信息和形狀特征信息權(quán)重之和為1。上述綜合加權(quán)為分別對顏色特征信息、紋理特征信息和形狀特征信息賦予不同的權(quán)重,權(quán)重之和為1。
作為較佳方案,所述顏色特征信息為采用RGB顏色空間的顏色直方圖特征信息。
作為較佳方案,所述紋理特征信息為采用Gabor濾波器提取出來的圖像紋理特征信息。
作為較佳方案,所述形狀特征信息為采用Fourier描述出來提取的形狀特征信息。
優(yōu)選地,所述圖像重查模塊將圖像信息進(jìn)行分析提取出的圖像特征信息與圖庫中的圖像特征進(jìn)行匹配分析的方式為采用基于歐幾里得距離進(jìn)行比較的方式。
本發(fā)明不但能匹配識別出論文的文本信息,而且能將論文的圖像信息進(jìn)行特征提取并進(jìn)行特征匹配識別并生成查重報告;從而提高了論文查重的準(zhǔn)確率,其簡單方便,實用性強(qiáng),易于推廣普及。
附圖說明
圖1為本發(fā)明的系統(tǒng)示意圖。
其中,1為論文結(jié)構(gòu)識別模塊,2為文本查重模塊,3為圖像重查模塊,4為查重報告模塊。
具體實施方式
下面結(jié)合附圖對本發(fā)明的優(yōu)選實施例進(jìn)行詳細(xì)闡述,以使本發(fā)明的優(yōu)點和特征能更易于被本領(lǐng)域技術(shù)人員理解,從而對本發(fā)明的保護(hù)范圍做出更為清楚明確的界定。
參照圖1,本發(fā)明實施例一種基于圖文識別的論文重查系統(tǒng)及其方法;其能將論文的圖像信息進(jìn)行特征提取并進(jìn)行特征匹配識別,從而提高了論文查重的準(zhǔn)確率。
為了達(dá)到上述目的,本發(fā)明一種基于圖文識別的論文重查系統(tǒng),主要包括:
論文結(jié)構(gòu)識別模塊1,所述論文結(jié)構(gòu)識別模塊1主要用于將論文的信息識別成文本信息和圖像信息,并將文本信息和圖片信息分別保存起來;
文本查重模塊2,所述文本查重模塊主要用于將論文結(jié)構(gòu)識別模塊1識別并保存的文本信息與文本信息數(shù)據(jù)庫中的文本信息進(jìn)行匹配分析;
圖像重查模塊3,所述圖像重查模塊3主要用于將論文結(jié)構(gòu)識別模塊1識別并保存的圖像信息進(jìn)行分析提取出文字信息和圖像特征信息,并將提取出的圖像特征信息與圖庫中的圖像特征進(jìn)行匹配分析;
查重報告模塊4,所述查重報告模塊4主要用于將文本重查模塊2和圖像重查模塊3匹配分析出的結(jié)果生成查重報告,以反饋給用戶;
所述論文結(jié)構(gòu)查重模塊1、文本查重模塊2、圖像重查模塊3和查重報告模塊4相互通信連接。
所述文本信息數(shù)據(jù)庫包括本地文本信息數(shù)據(jù)庫,Google、百度等搜索引擎中的數(shù)據(jù)庫,以及CNKI、萬方等數(shù)據(jù)庫。
參照圖1,一種基于圖文識別的論文重查方法,主要包括以下步驟:
第一步,論文結(jié)構(gòu)識別模塊1將論文的信息識別成文本信息和圖像信息,并將文本信息和圖片信息分別保存起來;
第二步,圖像重查模塊3將論文結(jié)構(gòu)識別模塊1識別并保存的圖像信息進(jìn)行分析提取出文字信息和圖像特征信息;
第三步,圖像重查模塊3將圖像信息進(jìn)行分析提取出的文字信息發(fā)送給文本查重模塊2;
第四步,圖像重查模塊3將圖像信息進(jìn)行分析提取出的圖像特征信息與圖庫中的圖像特征進(jìn)行匹配分析;
第五步,文本查重模塊2將論文結(jié)構(gòu)識別模塊1識別并保存的文本信息以及來自于圖像重查模塊3提取的文字信息分別與文本信息數(shù)據(jù)庫中的文本信息進(jìn)行匹配分析;
第六步,查重報告模塊4將文本重查模塊2和圖像重查模塊3匹配分析出的結(jié)果生成查重報告反饋給用戶。值得說明一下,這一種簡單的查重報告方式是:該查重報告可以以文本信息、圖像重查模塊提取的文字信息和圖像特征信息這三方面的重復(fù)率的方式生成反饋給用戶。
優(yōu)選地,所述圖像重查模塊是采用OCR分析方式將圖像信息中的文字信息提取出來。
優(yōu)選地,所述圖像特征信息是指顏色特征信息、紋理特征信息和形狀特征信息進(jìn)行綜合加權(quán)形成的圖形綜合信息。
作為較佳方案,所述顏色特征信息、紋理特征信息和形狀特征信息權(quán)重之和為1。上述綜合加權(quán)為分別對顏色特征信息、紋理特征信息和形狀特征信息賦予不同的權(quán)重,權(quán)重之和為1。
作為較佳方案,所述顏色特征信息為采用RGB顏色空間的顏色直方圖特征信息。
作為較佳方案,所述紋理特征信息為采用Gabor濾波器提取出來的圖像紋理特征信息。
作為較佳方案,所述形狀特征信息為采用Fourier描述出來提取的形狀特征信息。
優(yōu)選地,所述圖像重查模塊將圖像信息進(jìn)行分析提取出的圖像特征信息與圖庫中的圖像特征進(jìn)行匹配分析的方式為采用基于歐幾里得距離進(jìn)行比較的方式。
本發(fā)明不但能匹配識別出論文的文本信息,而且能將論文的圖像信息進(jìn)行特征提取并進(jìn)行特征匹配識別并生成查重報告;從而提高了論文查重的準(zhǔn)確率,其簡單方便,實用性強(qiáng),易于推廣普及。
以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的權(quán)利要求范圍之內(nèi)。