文檔圖像分類方法和裝置、電子設(shè)備及存儲(chǔ)介質(zhì)與流程

文檔序號(hào)：40389803發(fā)布日期：2024-12-20 12:12閱讀：5來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本技術(shù)涉及人工智能及金融，尤其涉及一種文檔圖像分類方法和裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。

背景技術(shù)：

1、文檔圖像是指通過(guò)掃描、拍攝或數(shù)字化處理等方式，將紙質(zhì)文檔或電子文檔轉(zhuǎn)換成圖像格式的文件，保留了原文檔的內(nèi)容和布局，方便用戶進(jìn)行查看、存儲(chǔ)和傳輸。文檔圖像分類是一種人工智能技術(shù)，可以應(yīng)用于多種場(chǎng)景，例如可以應(yīng)用于金融領(lǐng)域場(chǎng)景中，對(duì)財(cái)務(wù)報(bào)表、合同、票據(jù)等文檔圖像進(jìn)行分類，提高數(shù)據(jù)處理效率。

2、目前，主要采用多模態(tài)分類模型結(jié)合圖像和文本雙模態(tài)對(duì)文檔圖像進(jìn)行分類，然而在實(shí)際應(yīng)用場(chǎng)景中，由于需要對(duì)文檔圖像進(jìn)行文本識(shí)別，增加了多模態(tài)分類模型的復(fù)雜度，從而影響文檔圖像分類的效率。

3、因此，如何提高文檔圖像分類的效率，成為了亟待解決的技術(shù)問(wèn)題。

技術(shù)實(shí)現(xiàn)思路

1、本技術(shù)實(shí)施例的主要目的在于提出一種文檔圖像分類方法和裝置、電子設(shè)備及存儲(chǔ)介質(zhì)，旨在提高文檔圖像分類的效率。

2、為實(shí)現(xiàn)上述目的，本技術(shù)實(shí)施例的第一方面提出了一種文檔圖像分類方法，所述方法包括：

3、獲取文檔圖像樣本；其中，所述文檔圖像樣本包括樣本圖像和樣本圖像標(biāo)簽，所述樣本圖像標(biāo)簽用于表征所述樣本圖像的圖像類別；

4、通過(guò)預(yù)設(shè)的原始文檔圖像編碼模型對(duì)所述樣本圖像進(jìn)行編碼處理，得到樣本圖像編碼數(shù)據(jù)；

5、通過(guò)預(yù)設(shè)的原始文檔圖像分類模型對(duì)所述樣本圖像編碼數(shù)據(jù)進(jìn)行圖像分類，得到樣本圖像類別；

6、基于所述樣本圖像類別和所述樣本圖像標(biāo)簽對(duì)所述原始文檔圖像分類模型進(jìn)行模型優(yōu)化，得到目標(biāo)文檔圖像分類模型；

7、對(duì)所述原始文檔圖像編碼模型進(jìn)行重聚焦變換，得到目標(biāo)文檔圖像編碼模型；

8、通過(guò)所述目標(biāo)文檔圖像編碼模型對(duì)預(yù)先獲取的原始文檔圖像進(jìn)行編碼處理，得到目標(biāo)圖像編碼數(shù)據(jù)；

9、通過(guò)所述目標(biāo)文檔圖像分類模型對(duì)所述目標(biāo)圖像編碼數(shù)據(jù)進(jìn)行圖像分類。

10、在一些實(shí)施例，所述對(duì)所述原始文檔圖像編碼模型進(jìn)行重聚焦變換，得到目標(biāo)文檔圖像編碼模型，包括：

11、獲取所述原始文檔圖像編碼模型的原始模型參數(shù)；

12、對(duì)預(yù)設(shè)的重聚焦變換權(quán)重和所述原始模型參數(shù)進(jìn)行聚合處理，得到重聚焦模型參數(shù)；

13、基于所述重聚焦模型參數(shù)對(duì)所述原始文檔圖像編碼模型進(jìn)行重參化處理，得到所述目標(biāo)文檔圖像編碼模型。

14、在一些實(shí)施例，所述對(duì)預(yù)設(shè)的重聚焦變換權(quán)重和所述原始模型參數(shù)進(jìn)行聚合處理，得到重聚焦模型參數(shù)，包括：

15、對(duì)所述原始模型參數(shù)和所述重聚焦變換權(quán)重進(jìn)行乘積運(yùn)算，得到重聚焦變換參數(shù)；

16、對(duì)所述重聚焦變換參數(shù)和所述原始模型參數(shù)進(jìn)行加法運(yùn)算，得到所述重聚焦模型參數(shù)。

17、在一些實(shí)施例，所述目標(biāo)文檔圖像編碼模型包括文檔圖像嵌入層和文檔圖像提取層；所述通過(guò)所述目標(biāo)文檔圖像編碼模型對(duì)預(yù)先獲取的原始文檔圖像進(jìn)行編碼處理，得到目標(biāo)圖像編碼數(shù)據(jù)，包括：

18、對(duì)所述原始文檔圖像進(jìn)行圖像清晰度檢測(cè)，得到清晰文檔圖像數(shù)據(jù)；

19、對(duì)所述清晰文檔圖像數(shù)據(jù)進(jìn)行尺寸變換，得到初始文檔圖像數(shù)據(jù)；

20、通過(guò)所述文檔圖像嵌入層對(duì)所述初始文檔圖像數(shù)據(jù)進(jìn)行特征轉(zhuǎn)換，得到初始圖像嵌入數(shù)據(jù)；

21、通過(guò)所述文檔圖像提取層對(duì)所述初始圖像嵌入數(shù)據(jù)進(jìn)行特征提取，得到所述目標(biāo)圖像編碼數(shù)據(jù)。

22、在一些實(shí)施例，所述通過(guò)所述文檔圖像提取層對(duì)所述初始圖像嵌入數(shù)據(jù)進(jìn)行特征提取，得到所述目標(biāo)圖像編碼數(shù)據(jù)，包括：

23、通過(guò)所述文檔圖像提取層對(duì)所述初始圖像嵌入數(shù)據(jù)進(jìn)行注意力計(jì)算，得到圖像注意力嵌入數(shù)據(jù)；

24、對(duì)所述圖像注意力嵌入數(shù)據(jù)進(jìn)行殘差計(jì)算，得到圖像殘差嵌入數(shù)據(jù)；

25、對(duì)所述圖像殘差嵌入數(shù)據(jù)進(jìn)行歸一化處理，得到圖像標(biāo)準(zhǔn)化嵌入數(shù)據(jù)；

26、對(duì)所述圖像標(biāo)準(zhǔn)化嵌入數(shù)據(jù)進(jìn)行非線性變換，得到所述目標(biāo)圖像編碼數(shù)據(jù)。

27、在一些實(shí)施例，所述通過(guò)所述文檔圖像提取層對(duì)所述初始圖像嵌入數(shù)據(jù)進(jìn)行注意力計(jì)算，得到圖像注意力嵌入數(shù)據(jù)，包括：

28、通過(guò)所述文檔圖像提取層對(duì)所述初始圖像嵌入數(shù)據(jù)進(jìn)行矩陣變換，得到圖像映射矩陣；其中，所述圖像映射矩陣包括查詢變換矩陣、鍵變換矩陣和值變換矩陣；

29、對(duì)所述查詢變換矩陣和所述鍵變換矩陣進(jìn)行注意力圖計(jì)算，得到注意力特征圖；

30、對(duì)所述值變換矩陣和所述注意力特征圖進(jìn)行加權(quán)計(jì)算，得到所述圖像注意力嵌入數(shù)據(jù)。

31、在一些實(shí)施例，通過(guò)所述目標(biāo)文檔圖像分類模型所述對(duì)所述目標(biāo)圖像編碼數(shù)據(jù)進(jìn)行圖像分類，包括：

32、通過(guò)所述目標(biāo)文檔圖像分類模型對(duì)所述目標(biāo)圖像編碼數(shù)據(jù)進(jìn)行線性變換，得到初始線性圖像嵌入數(shù)據(jù)；

33、對(duì)所述初始線性圖像嵌入數(shù)據(jù)進(jìn)行偏置計(jì)算，得到偏置圖像嵌入數(shù)據(jù)；

34、對(duì)所述偏置圖像嵌入數(shù)據(jù)進(jìn)行非線性變換，得到激活圖像嵌入數(shù)據(jù)；

35、對(duì)所述激活圖像嵌入數(shù)據(jù)進(jìn)行線性變換，得到目標(biāo)線性圖像嵌入數(shù)據(jù)；

36、對(duì)所述目標(biāo)線性圖像嵌入數(shù)據(jù)進(jìn)行類別概率計(jì)算，得到目標(biāo)類別概率數(shù)據(jù)；

37、基于所述目標(biāo)類別概率數(shù)據(jù)確定所述原始文檔圖像的圖像類別。

38、為實(shí)現(xiàn)上述目的，本技術(shù)實(shí)施例的第二方面提出了一種文檔圖像分類裝置，所述裝置包括：

39、樣本數(shù)據(jù)獲取模塊，用于獲取文檔圖像樣本；其中，所述文檔圖像樣本包括樣本圖像和樣本圖像標(biāo)簽，所述樣本圖像標(biāo)簽用于表征所述樣本圖像的圖像類別；

40、樣本圖像編碼模塊，用于通過(guò)預(yù)設(shè)的原始文檔圖像編碼模型對(duì)所述樣本圖像進(jìn)行編碼處理，得到樣本圖像編碼數(shù)據(jù)；

41、樣本圖像分類模塊，用于通過(guò)預(yù)設(shè)的原始文檔圖像分類模型對(duì)所述樣本圖像編碼數(shù)據(jù)進(jìn)行圖像分類，得到樣本圖像類別；

42、分類模型優(yōu)化模塊，用于基于所述樣本圖像類別和所述樣本圖像標(biāo)簽對(duì)所述原始文檔圖像分類模型進(jìn)行模型優(yōu)化，得到目標(biāo)文檔圖像分類模型；

43、重聚焦處理模塊，用于對(duì)所述原始文檔圖像編碼模型進(jìn)行重聚焦變換，得到目標(biāo)文檔圖像編碼模型；

44、目標(biāo)圖像編碼模塊，用于通過(guò)所述目標(biāo)文檔圖像編碼模型對(duì)預(yù)先獲取的原始文檔圖像進(jìn)行編碼處理，得到目標(biāo)圖像編碼數(shù)據(jù)；

45、目標(biāo)圖像分類模塊，用于通過(guò)所述目標(biāo)文檔圖像分類模型對(duì)所述目標(biāo)圖像編碼數(shù)據(jù)進(jìn)行圖像分類。

46、為實(shí)現(xiàn)上述目的，本技術(shù)實(shí)施例的第三方面提出了一種電子設(shè)備，所述電子設(shè)備包括存儲(chǔ)器和處理器，所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述第一方面所述的方法。

47、為實(shí)現(xiàn)上述目的，本技術(shù)實(shí)施例的第四方面提出了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述第一方面所述的方法。

48、本技術(shù)提出的文檔圖像分類方法和裝置、電子設(shè)備及存儲(chǔ)介質(zhì),其通過(guò)獲取文檔圖像樣本；其中，文檔圖像樣本包括樣本圖像和樣本圖像標(biāo)簽，樣本圖像標(biāo)簽用于表征樣本圖像的圖像類別；通過(guò)預(yù)設(shè)的原始文檔圖像編碼模型對(duì)樣本圖像進(jìn)行編碼處理，得到樣本圖像編碼數(shù)據(jù)；通過(guò)預(yù)設(shè)的原始文檔圖像分類模型對(duì)樣本圖像編碼數(shù)據(jù)進(jìn)行圖像分類，得到樣本圖像類別；基于樣本圖像類別和樣本圖像標(biāo)簽對(duì)原始文檔圖像分類模型進(jìn)行模型優(yōu)化，得到目標(biāo)文檔圖像分類模型；對(duì)原始文檔圖像編碼模型進(jìn)行重聚焦變換，得到目標(biāo)文檔圖像編碼模型；通過(guò)目標(biāo)文檔圖像編碼模型對(duì)預(yù)先獲取的原始文檔圖像進(jìn)行編碼處理，得到目標(biāo)圖像編碼數(shù)據(jù)；通過(guò)目標(biāo)文檔圖像分類模型對(duì)目標(biāo)圖像編碼數(shù)據(jù)進(jìn)行圖像分類，通過(guò)重聚焦變換增強(qiáng)模型對(duì)圖像的學(xué)習(xí)能力，能夠準(zhǔn)確提取圖像的特征，進(jìn)而提高了文檔圖像分類的效率和準(zhǔn)確性。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：蘇沁寧,吳思遠(yuǎn)
技術(shù)所有人：平安銀行股份有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

文檔圖像分類方法和裝置、電子設(shè)備及存儲(chǔ)介質(zhì)與流程