本技術(shù)涉及人工智能及金融,尤其涉及一種文檔圖像分類方法和裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、文檔圖像是指通過(guò)掃描、拍攝或數(shù)字化處理等方式,將紙質(zhì)文檔或電子文檔轉(zhuǎn)換成圖像格式的文件,保留了原文檔的內(nèi)容和布局,方便用戶進(jìn)行查看、存儲(chǔ)和傳輸。文檔圖像分類是一種人工智能技術(shù),可以應(yīng)用于多種場(chǎng)景,例如可以應(yīng)用于金融領(lǐng)域場(chǎng)景中,對(duì)財(cái)務(wù)報(bào)表、合同、票據(jù)等文檔圖像進(jìn)行分類,提高數(shù)據(jù)處理效率。
2、目前,主要采用多模態(tài)分類模型結(jié)合圖像和文本雙模態(tài)對(duì)文檔圖像進(jìn)行分類,然而在實(shí)際應(yīng)用場(chǎng)景中,由于需要對(duì)文檔圖像進(jìn)行文本識(shí)別,增加了多模態(tài)分類模型的復(fù)雜度,從而影響文檔圖像分類的效率。
3、因此,如何提高文檔圖像分類的效率,成為了亟待解決的技術(shù)問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例的主要目的在于提出一種文檔圖像分類方法和裝置、電子設(shè)備及存儲(chǔ)介質(zhì),旨在提高文檔圖像分類的效率。
2、為實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例的第一方面提出了一種文檔圖像分類方法,所述方法包括:
3、獲取文檔圖像樣本;其中,所述文檔圖像樣本包括樣本圖像和樣本圖像標(biāo)簽,所述樣本圖像標(biāo)簽用于表征所述樣本圖像的圖像類別;
4、通過(guò)預(yù)設(shè)的原始文檔圖像編碼模型對(duì)所述樣本圖像進(jìn)行編碼處理,得到樣本圖像編碼數(shù)據(jù);
5、通過(guò)預(yù)設(shè)的原始文檔圖像分類模型對(duì)所述樣本圖像編碼數(shù)據(jù)進(jìn)行圖像分類,得到樣本圖像類別;
6、基于所述樣本圖像類別和所述樣本圖像標(biāo)簽對(duì)所述原始文檔圖像分類模型進(jìn)行模型優(yōu)化,得到目標(biāo)文檔圖像分類模型;
7、對(duì)所述原始文檔圖像編碼模型進(jìn)行重聚焦變換,得到目標(biāo)文檔圖像編碼模型;
8、通過(guò)所述目標(biāo)文檔圖像編碼模型對(duì)預(yù)先獲取的原始文檔圖像進(jìn)行編碼處理,得到目標(biāo)圖像編碼數(shù)據(jù);
9、通過(guò)所述目標(biāo)文檔圖像分類模型對(duì)所述目標(biāo)圖像編碼數(shù)據(jù)進(jìn)行圖像分類。
10、在一些實(shí)施例,所述對(duì)所述原始文檔圖像編碼模型進(jìn)行重聚焦變換,得到目標(biāo)文檔圖像編碼模型,包括:
11、獲取所述原始文檔圖像編碼模型的原始模型參數(shù);
12、對(duì)預(yù)設(shè)的重聚焦變換權(quán)重和所述原始模型參數(shù)進(jìn)行聚合處理,得到重聚焦模型參數(shù);
13、基于所述重聚焦模型參數(shù)對(duì)所述原始文檔圖像編碼模型進(jìn)行重參化處理,得到所述目標(biāo)文檔圖像編碼模型。
14、在一些實(shí)施例,所述對(duì)預(yù)設(shè)的重聚焦變換權(quán)重和所述原始模型參數(shù)進(jìn)行聚合處理,得到重聚焦模型參數(shù),包括:
15、對(duì)所述原始模型參數(shù)和所述重聚焦變換權(quán)重進(jìn)行乘積運(yùn)算,得到重聚焦變換參數(shù);
16、對(duì)所述重聚焦變換參數(shù)和所述原始模型參數(shù)進(jìn)行加法運(yùn)算,得到所述重聚焦模型參數(shù)。
17、在一些實(shí)施例,所述目標(biāo)文檔圖像編碼模型包括文檔圖像嵌入層和文檔圖像提取層;所述通過(guò)所述目標(biāo)文檔圖像編碼模型對(duì)預(yù)先獲取的原始文檔圖像進(jìn)行編碼處理,得到目標(biāo)圖像編碼數(shù)據(jù),包括:
18、對(duì)所述原始文檔圖像進(jìn)行圖像清晰度檢測(cè),得到清晰文檔圖像數(shù)據(jù);
19、對(duì)所述清晰文檔圖像數(shù)據(jù)進(jìn)行尺寸變換,得到初始文檔圖像數(shù)據(jù);
20、通過(guò)所述文檔圖像嵌入層對(duì)所述初始文檔圖像數(shù)據(jù)進(jìn)行特征轉(zhuǎn)換,得到初始圖像嵌入數(shù)據(jù);
21、通過(guò)所述文檔圖像提取層對(duì)所述初始圖像嵌入數(shù)據(jù)進(jìn)行特征提取,得到所述目標(biāo)圖像編碼數(shù)據(jù)。
22、在一些實(shí)施例,所述通過(guò)所述文檔圖像提取層對(duì)所述初始圖像嵌入數(shù)據(jù)進(jìn)行特征提取,得到所述目標(biāo)圖像編碼數(shù)據(jù),包括:
23、通過(guò)所述文檔圖像提取層對(duì)所述初始圖像嵌入數(shù)據(jù)進(jìn)行注意力計(jì)算,得到圖像注意力嵌入數(shù)據(jù);
24、對(duì)所述圖像注意力嵌入數(shù)據(jù)進(jìn)行殘差計(jì)算,得到圖像殘差嵌入數(shù)據(jù);
25、對(duì)所述圖像殘差嵌入數(shù)據(jù)進(jìn)行歸一化處理,得到圖像標(biāo)準(zhǔn)化嵌入數(shù)據(jù);
26、對(duì)所述圖像標(biāo)準(zhǔn)化嵌入數(shù)據(jù)進(jìn)行非線性變換,得到所述目標(biāo)圖像編碼數(shù)據(jù)。
27、在一些實(shí)施例,所述通過(guò)所述文檔圖像提取層對(duì)所述初始圖像嵌入數(shù)據(jù)進(jìn)行注意力計(jì)算,得到圖像注意力嵌入數(shù)據(jù),包括:
28、通過(guò)所述文檔圖像提取層對(duì)所述初始圖像嵌入數(shù)據(jù)進(jìn)行矩陣變換,得到圖像映射矩陣;其中,所述圖像映射矩陣包括查詢變換矩陣、鍵變換矩陣和值變換矩陣;
29、對(duì)所述查詢變換矩陣和所述鍵變換矩陣進(jìn)行注意力圖計(jì)算,得到注意力特征圖;
30、對(duì)所述值變換矩陣和所述注意力特征圖進(jìn)行加權(quán)計(jì)算,得到所述圖像注意力嵌入數(shù)據(jù)。
31、在一些實(shí)施例,通過(guò)所述目標(biāo)文檔圖像分類模型所述對(duì)所述目標(biāo)圖像編碼數(shù)據(jù)進(jìn)行圖像分類,包括:
32、通過(guò)所述目標(biāo)文檔圖像分類模型對(duì)所述目標(biāo)圖像編碼數(shù)據(jù)進(jìn)行線性變換,得到初始線性圖像嵌入數(shù)據(jù);
33、對(duì)所述初始線性圖像嵌入數(shù)據(jù)進(jìn)行偏置計(jì)算,得到偏置圖像嵌入數(shù)據(jù);
34、對(duì)所述偏置圖像嵌入數(shù)據(jù)進(jìn)行非線性變換,得到激活圖像嵌入數(shù)據(jù);
35、對(duì)所述激活圖像嵌入數(shù)據(jù)進(jìn)行線性變換,得到目標(biāo)線性圖像嵌入數(shù)據(jù);
36、對(duì)所述目標(biāo)線性圖像嵌入數(shù)據(jù)進(jìn)行類別概率計(jì)算,得到目標(biāo)類別概率數(shù)據(jù);
37、基于所述目標(biāo)類別概率數(shù)據(jù)確定所述原始文檔圖像的圖像類別。
38、為實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例的第二方面提出了一種文檔圖像分類裝置,所述裝置包括:
39、樣本數(shù)據(jù)獲取模塊,用于獲取文檔圖像樣本;其中,所述文檔圖像樣本包括樣本圖像和樣本圖像標(biāo)簽,所述樣本圖像標(biāo)簽用于表征所述樣本圖像的圖像類別;
40、樣本圖像編碼模塊,用于通過(guò)預(yù)設(shè)的原始文檔圖像編碼模型對(duì)所述樣本圖像進(jìn)行編碼處理,得到樣本圖像編碼數(shù)據(jù);
41、樣本圖像分類模塊,用于通過(guò)預(yù)設(shè)的原始文檔圖像分類模型對(duì)所述樣本圖像編碼數(shù)據(jù)進(jìn)行圖像分類,得到樣本圖像類別;
42、分類模型優(yōu)化模塊,用于基于所述樣本圖像類別和所述樣本圖像標(biāo)簽對(duì)所述原始文檔圖像分類模型進(jìn)行模型優(yōu)化,得到目標(biāo)文檔圖像分類模型;
43、重聚焦處理模塊,用于對(duì)所述原始文檔圖像編碼模型進(jìn)行重聚焦變換,得到目標(biāo)文檔圖像編碼模型;
44、目標(biāo)圖像編碼模塊,用于通過(guò)所述目標(biāo)文檔圖像編碼模型對(duì)預(yù)先獲取的原始文檔圖像進(jìn)行編碼處理,得到目標(biāo)圖像編碼數(shù)據(jù);
45、目標(biāo)圖像分類模塊,用于通過(guò)所述目標(biāo)文檔圖像分類模型對(duì)所述目標(biāo)圖像編碼數(shù)據(jù)進(jìn)行圖像分類。
46、為實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例的第三方面提出了一種電子設(shè)備,所述電子設(shè)備包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述第一方面所述的方法。
47、為實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例的第四方面提出了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述第一方面所述的方法。
48、本技術(shù)提出的文檔圖像分類方法和裝置、電子設(shè)備及存儲(chǔ)介質(zhì),其通過(guò)獲取文檔圖像樣本;其中,文檔圖像樣本包括樣本圖像和樣本圖像標(biāo)簽,樣本圖像標(biāo)簽用于表征樣本圖像的圖像類別;通過(guò)預(yù)設(shè)的原始文檔圖像編碼模型對(duì)樣本圖像進(jìn)行編碼處理,得到樣本圖像編碼數(shù)據(jù);通過(guò)預(yù)設(shè)的原始文檔圖像分類模型對(duì)樣本圖像編碼數(shù)據(jù)進(jìn)行圖像分類,得到樣本圖像類別;基于樣本圖像類別和樣本圖像標(biāo)簽對(duì)原始文檔圖像分類模型進(jìn)行模型優(yōu)化,得到目標(biāo)文檔圖像分類模型;對(duì)原始文檔圖像編碼模型進(jìn)行重聚焦變換,得到目標(biāo)文檔圖像編碼模型;通過(guò)目標(biāo)文檔圖像編碼模型對(duì)預(yù)先獲取的原始文檔圖像進(jìn)行編碼處理,得到目標(biāo)圖像編碼數(shù)據(jù);通過(guò)目標(biāo)文檔圖像分類模型對(duì)目標(biāo)圖像編碼數(shù)據(jù)進(jìn)行圖像分類,通過(guò)重聚焦變換增強(qiáng)模型對(duì)圖像的學(xué)習(xí)能力,能夠準(zhǔn)確提取圖像的特征,進(jìn)而提高了文檔圖像分類的效率和準(zhǔn)確性。