本發(fā)明屬于圖像處理,尤其涉及一種基于圖像識別的作業(yè)批改方法及裝置。
背景技術(shù):
1、目前作業(yè)批改方式中,一般是學(xué)生提交的作業(yè)需要教師手工進(jìn)行批改,這樣手工批改作業(yè),會給教師帶來了比較大的工作量,給教師的教學(xué)工作帶來負(fù)擔(dān);尤其是當(dāng)班級上的學(xué)生較多時,需要教師額外抽出大量的時間來手工批改作業(yè),效率非常低下。
2、相關(guān)技術(shù)中,隨著人工智能的快速發(fā)展,也有部分研究人員采用圖像識別的技術(shù),來識別學(xué)生的作業(yè)內(nèi)容,以供教師采用計算機(jī)進(jìn)行作業(yè)批改;這種方式本質(zhì)上是對學(xué)生上傳的作業(yè)圖像進(jìn)行文本識別,生成一份線上的作業(yè)文本,教師在線上對該文本進(jìn)行批改。
3、然而,在實際的場景中,學(xué)生的作業(yè)本由于作業(yè)本紙張的形變,以及學(xué)生用手機(jī)等終端拍攝作業(yè)本圖像的拍攝場景的干擾及拍攝角度不理想導(dǎo)致的透視失真,導(dǎo)致針對學(xué)生上傳的作業(yè)圖像進(jìn)行文本識別受到很大挑戰(zhàn)。
技術(shù)實現(xiàn)思路
1、本發(fā)明實施例的目的在于提供一種基于圖像識別的作業(yè)批改方法及裝置,旨在解決上述背景技術(shù)中所提出的技術(shù)問題。
2、為實現(xiàn)上述目的,本發(fā)明提供了如下的技術(shù)方案。
3、本發(fā)明一實施例提供了一種基于圖像識別的作業(yè)批改方法,包括以下步驟:
4、獲取來自學(xué)生端的學(xué)生作業(yè)圖像,對學(xué)生作業(yè)圖像進(jìn)行預(yù)處理,得到多個目標(biāo)區(qū)域圖像,其中,所述目標(biāo)區(qū)域圖像包括標(biāo)識信息,標(biāo)識信息用于表征與該目標(biāo)區(qū)域圖像對應(yīng)的題目信息,利用標(biāo)識信息調(diào)取所述題目信息的預(yù)設(shè)答案內(nèi)容;
5、構(gòu)建圖像文本識別模型,所述圖像文本識別模型包括編碼器和解碼器,所述編碼器中融合有非對稱卷積殘差塊和空洞卷積殘差塊,非對稱卷積殘差塊用于提取特征,空洞卷積殘差塊用于增加感受野;所述解碼器采用基于transformer網(wǎng)絡(luò)模型的結(jié)構(gòu),該結(jié)構(gòu)采用多頭注意力層和前饋神經(jīng)網(wǎng)絡(luò)fnn堆疊而成;
6、依次將多個目標(biāo)區(qū)域圖像作為圖像文本識別模型的輸入,利用圖像文本識別模型對多個目標(biāo)區(qū)域圖像進(jìn)行文本檢測識別,輸出各個目標(biāo)區(qū)域圖像的識別信息,將識別信息作為該目標(biāo)區(qū)域圖像的作答內(nèi)容;
7、將目標(biāo)區(qū)域圖像的作答內(nèi)容與利用該目標(biāo)區(qū)域圖像標(biāo)識信息所調(diào)取的預(yù)設(shè)答案內(nèi)容進(jìn)行比較,對比較結(jié)果中的差異部分進(jìn)行標(biāo)注,將帶有標(biāo)注信息的作答內(nèi)容在教師端進(jìn)行輸出。
8、進(jìn)一步的,所述對學(xué)生作業(yè)圖像進(jìn)行預(yù)處理的步驟,包括:
9、對學(xué)生作業(yè)圖像進(jìn)行區(qū)域分割處理,得到多個區(qū)域圖像,多個區(qū)域圖像中包含題目區(qū)域以及與所述題目區(qū)域一一對應(yīng)的作答區(qū)域;
10、對作答區(qū)域的區(qū)域圖像進(jìn)行校正處理,得到多個目標(biāo)區(qū)域圖像。
11、進(jìn)一步的,所述對作答區(qū)域的區(qū)域圖像進(jìn)行校正處理,得到多個目標(biāo)區(qū)域圖像的步驟,包括:
12、利用區(qū)域圖像中給定的四個頂點(diǎn)坐標(biāo)和目標(biāo)坐標(biāo)計算得到透視變換矩陣,表示為:;式中,(x,y)表示為區(qū)域圖像的坐標(biāo)點(diǎn);a表示透視變換矩陣的元素;
13、變換的目標(biāo)坐標(biāo)為展開表示為:
14、;通過文本行的頂點(diǎn)得到變換后的目標(biāo)坐標(biāo)點(diǎn),其中,先對文本行進(jìn)行傾斜角度的計算:
15、;式中,θ表示傾斜角度,、分別表示文本行的左上和右上頂點(diǎn)坐標(biāo);然后,根據(jù)得到的傾斜角度θ變換至水平位置的目標(biāo)坐標(biāo)點(diǎn),利用變換前后的八個坐標(biāo)點(diǎn)計算得到變換矩陣,通過矩陣對文本行變換至水平方向,得到校正處理的目標(biāo)區(qū)域圖像。
16、進(jìn)一步的,在所述非對稱卷積殘差塊中,輸入特征通過兩個通道的卷積結(jié)果相加得到輸出特征,其中,一個通道為7×5的非對稱下采樣卷積層和3×3卷積層,另一個通道為7×5的非對稱下采樣卷積層;
17、在所述空洞卷積殘差塊中,空洞卷積殘差塊的感受野的計算式表示為:
18、;;式中,表示第l層空洞卷積殘差塊的感受野值;表示第l-1層空洞卷積殘差塊的感受野值;l表示層數(shù),且l≥2;表示第l-1層空洞卷積殘差塊的步長;表示第l層空洞卷積殘差塊的卷積核尺寸;為2d表示的感受野值;和分別表示橫向感受野值和縱向感受野值。
19、進(jìn)一步的,所述解碼器的結(jié)構(gòu)還包括對編碼器的輸出數(shù)據(jù)進(jìn)行處理的位置編碼和詞嵌入層結(jié)構(gòu),對來自編碼器的輸出數(shù)據(jù)進(jìn)行處理;以及還包括對解碼器的待輸出數(shù)據(jù)進(jìn)行處理的線性化層和softmax層,對解碼之后的特征向量經(jīng)過softmax激活函數(shù)的全連接層之后,輸出目標(biāo)區(qū)域圖像的識別信息。
20、進(jìn)一步的,在基于transformer網(wǎng)絡(luò)模型的解碼器結(jié)構(gòu)中,采用多頭注意力層的輸入包括查詢向量q、鍵向量k和數(shù)值向量v,,,d=512,d表示維度,表示q的個數(shù);,,,t是鍵向量k和數(shù)值向量v的個數(shù);t表示向量的轉(zhuǎn)置操作;r表示實數(shù)集;多頭注意力表示為:;式中,,,,α表示注意力權(quán)重;
21、對多頭注意力機(jī)制的多次點(diǎn)積注意力結(jié)果進(jìn)行拼接,然后在進(jìn)行線性變換得到的值作為多頭注意力層的輸出,表示為:
22、;;式中,表示多頭注意力操作;表示拼接操作;其中,參數(shù),,,;d表示維度,h表示頭數(shù);表示將多個頭的注意力結(jié)果拼接后進(jìn)行線性變換的權(quán)重矩陣;表示多頭注意力機(jī)制中第i個頭的查詢向量q的線性變換權(quán)重矩陣;表示多頭注意力機(jī)制中第i個頭的鍵向量k的線性變換權(quán)重矩陣;表示多頭注意力機(jī)制中第i個頭的數(shù)值向量v的線性變換權(quán)重矩陣。
23、進(jìn)一步的,所述前饋神經(jīng)網(wǎng)絡(luò)fnn包括兩個線性變換,表示為:
24、;其中,第一個線性變換表示為:;
25、表示relu激活函數(shù),用于將第一個線性變換的輸出中所有負(fù)值置為0;
26、第二個線性變換表示為:;
27、式中,表示第一個線性變換的權(quán)重矩陣;表示第二個線性變換的權(quán)重矩陣,表示第一個線性變換的偏置;表示第二個線性變換的偏置;x表示輸入向量。
28、進(jìn)一步的,所述基于圖像識別的作?業(yè)批改方法的步驟,還包括以下步驟:
29、獲取教師端對帶有標(biāo)注信息的作答內(nèi)容的批改結(jié)果,所述批改結(jié)果包括批改信息和批改標(biāo)記;
30、根據(jù)所述批改信息進(jìn)行數(shù)據(jù)統(tǒng)計得到對應(yīng)的統(tǒng)計結(jié)果,并將所述統(tǒng)計結(jié)果和所述批改標(biāo)記在教師端的可視化界面進(jìn)行展示;
31、響應(yīng)于教師端的推送指令,將所述統(tǒng)計結(jié)果和所述批改標(biāo)記推送至所述學(xué)生端中進(jìn)行顯示。
32、本發(fā)明另一實施例提供了一種基于圖像識別的作業(yè)批改裝置,包括以下模塊:
33、圖像處理模塊,用于獲取來自學(xué)生端的學(xué)生作業(yè)圖像,對學(xué)生作業(yè)圖像進(jìn)行預(yù)處理,得到多個目標(biāo)區(qū)域圖像,其中,所述目標(biāo)區(qū)域圖像包括標(biāo)識信息,標(biāo)識信息用于表征與該目標(biāo)區(qū)域圖像對應(yīng)的題目信息,利用標(biāo)識信息調(diào)取所述題目信息的預(yù)設(shè)答案內(nèi)容;
34、模型構(gòu)建模塊,用于構(gòu)建圖像文本識別模型,所述圖像文本識別模型包括編碼器和解碼器,所述編碼器中融合有非對稱卷積殘差塊和空洞卷積殘差塊,非對稱卷積殘差塊用于提取特征,空洞卷積殘差塊用于增加感受野;所述解碼器采用基于transformer網(wǎng)絡(luò)模型的結(jié)構(gòu),該結(jié)構(gòu)采用多頭注意力層和前饋神經(jīng)網(wǎng)絡(luò)fnn堆疊而成;
35、圖像識別模塊,用于依次將多個目標(biāo)區(qū)域圖像作為圖像文本識別模型的輸入,利用圖像文本識別模型對多個目標(biāo)區(qū)域圖像進(jìn)行文本檢測識別,輸出各個目標(biāo)區(qū)域圖像的識別信息,將識別信息作為該目標(biāo)區(qū)域圖像的作答內(nèi)容;
36、作業(yè)批改模塊,用于將目標(biāo)區(qū)域圖像的作答內(nèi)容與利用該目標(biāo)區(qū)域圖像標(biāo)識信息所調(diào)取的預(yù)設(shè)答案內(nèi)容進(jìn)行比較,對比較結(jié)果中的差異部分進(jìn)行標(biāo)注,將帶有標(biāo)注信息的作答內(nèi)容在教師端進(jìn)行輸出。
37、與現(xiàn)有技術(shù)相比,本發(fā)明基于圖像識別的作業(yè)批改方法及裝置的有益效果是:
38、第一,本發(fā)明利用圖像文本識別模型對學(xué)生作業(yè)圖像中的作答區(qū)域進(jìn)行識別,能夠得到學(xué)生作業(yè)的作答內(nèi)容,將目標(biāo)區(qū)域圖像的作答內(nèi)容與利用該目標(biāo)區(qū)域圖像標(biāo)識信息所調(diào)取的預(yù)設(shè)答案內(nèi)容進(jìn)行比較,對比較結(jié)果中的差異部分進(jìn)行標(biāo)注,將帶有標(biāo)注信息的作答內(nèi)容在教師端進(jìn)行輸出,差異標(biāo)注幫助教師快速定位學(xué)生的錯誤,便于教師進(jìn)行作業(yè)批改,可以減少教師的工作量,提高批改效率;
39、第二,本發(fā)明構(gòu)建的圖像文本識別模型中,結(jié)合了非對稱卷積殘差塊和空洞卷積殘差塊,可以提取圖像中的特征,非對稱卷積能夠捕獲圖像中的方向性信息,解決了圖像方向和形狀的變化導(dǎo)致文本識別準(zhǔn)確性低的問題;空洞卷積殘差塊通過增加感受野,可以捕捉到圖像中更大范圍的特征,有助于識別圖像中的文本;
40、第三,本發(fā)明圖像文本識別模型解碼器基于transformer網(wǎng)絡(luò)模型構(gòu)建,通過多頭注意力層和前饋神經(jīng)網(wǎng)絡(luò)fnn的結(jié)構(gòu),能夠在圖像文本識別中,更好地理解文本的上下文關(guān)系,提高識別的準(zhǔn)確性。