本技術(shù)涉及圖像處理,尤其涉及一種圖像信息抽取方法、裝置以及電子設(shè)備。
背景技術(shù):
1、在實(shí)際應(yīng)用中,信息往往以圖像形式存在,例如掃描的文檔、票據(jù)、表單、身份證、駕駛證等。這些圖像中包含了大量的結(jié)構(gòu)化信息。但是,手動提取這些結(jié)構(gòu)化信息不僅耗時費(fèi)力,而且容易出錯。
2、隨著深度學(xué)習(xí)和計(jì)算機(jī)視覺技術(shù)的發(fā)展,基于深度學(xué)習(xí)的圖像信息抽取方法逐漸成為研究熱點(diǎn)。例如,許多研究者開始研究智能結(jié)構(gòu)化圖像信息抽取模型,實(shí)現(xiàn)盡可能快的速度來幫助用戶完成圖像信息抽取,如圖像中的關(guān)鍵文本、表格信息等。
3、然而,一些圖像中常存在一個關(guān)鍵信息鍵對應(yīng)多個關(guān)鍵信息值的情況。但是,現(xiàn)有的圖像信息抽取模型大都不能準(zhǔn)確的抽取出所有的關(guān)鍵信息值,導(dǎo)致抽取結(jié)果準(zhǔn)確性較低。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)提供一種圖像信息抽取方法、裝置以及電子設(shè)備,用以解決現(xiàn)有技術(shù)中抽取結(jié)果準(zhǔn)確性低的技術(shù)問題,通過抽取出關(guān)鍵信息鍵對應(yīng)的所有關(guān)鍵信息值,實(shí)現(xiàn)提高圖像信息抽取結(jié)果的準(zhǔn)確性。
2、第一方面,本技術(shù)提供一種圖像信息抽取方法,包括:
3、獲取待處理文本圖像的圖像文本信息;所述圖像文本信息包括所述待處理文本圖像以及所述待處理文本圖像中包含的至少一組文本信息;任一組文本信息包括文本內(nèi)容信息以及所述文本內(nèi)容信息對應(yīng)的文本位置信息;
4、采用訓(xùn)練完成的信息抽取模型對所述圖像文本信息進(jìn)行信息抽取,得到所述待處理文本圖像的信息抽取結(jié)果;所述信息抽取結(jié)果包括所述待處理文本圖像中的至少一個關(guān)鍵信息鍵和各所述關(guān)鍵信息鍵分別對應(yīng)的至少一個關(guān)鍵信息值;
5、其中,所述信息抽取模型包括編碼模塊、第一解碼模塊和第二解碼模塊;所述編碼模塊用于根據(jù)所述圖像文本信息的信息編碼結(jié)果,得到多模態(tài)融合向量;所述第一解碼模塊用于根據(jù)所述多模態(tài)融合向量實(shí)現(xiàn)信息鍵抽取,得到所述關(guān)鍵信息鍵;所述第二解碼模塊用于根據(jù)所述多模態(tài)融合向量和所述關(guān)鍵信息鍵實(shí)現(xiàn)信息值抽取,得到所述關(guān)鍵信息值。
6、在一種可選實(shí)施方式中,根據(jù)所述多模態(tài)融合向量實(shí)現(xiàn)信息鍵抽取,得到所述關(guān)鍵信息鍵,包括:
7、根據(jù)所述多模態(tài)融合向量和預(yù)設(shè)的抽取提示詞,重復(fù)執(zhí)行多輪次的關(guān)鍵信息鍵的抽取操作,直至滿足抽取停止條件時停止抽取,將抽取到的所有關(guān)鍵信息鍵確定為所述待處理文本圖像中的至少一個關(guān)鍵信息鍵;其中,
8、若當(dāng)前輪次為首次抽取,則所述抽取提示詞為所述文本內(nèi)容信息對應(yīng)的分詞結(jié)果中的起始標(biāo)記詞;若當(dāng)前輪次為非首次抽取,則所述抽取提示詞為之前輪次抽取到的所有關(guān)鍵信息鍵的拼接結(jié)果;
9、所述抽取停止條件包括:抽取的關(guān)鍵信息鍵為預(yù)設(shè)的抽取結(jié)束詞,或者,所有關(guān)鍵信息鍵的預(yù)測數(shù)量滿足預(yù)設(shè)閾值;
10、任一輪次的抽取操作過程包括:
11、對所述抽取提示詞進(jìn)行低維向量轉(zhuǎn)換處理,得到對應(yīng)的提示詞向量;
12、根據(jù)所述提示詞向量和所述多模態(tài)融合向量,得到用于表征當(dāng)前輪次中待確定關(guān)鍵信息鍵的信息鍵預(yù)測向量;
13、確定所述信息鍵預(yù)測向量的第一概率分布,根據(jù)所述第一概率分布確定當(dāng)前輪次的關(guān)鍵信息鍵。
14、在一種可選實(shí)施方式中,確定所述信息鍵預(yù)測向量的第一概率分布,根據(jù)所述第一概率分布確定當(dāng)前輪次的關(guān)鍵信息鍵,包括:
15、根據(jù)預(yù)設(shè)的自注意力權(quán)重矩陣對所述信息鍵預(yù)測向量進(jìn)行處理,得到處理后的信息鍵預(yù)測向量;
16、對所述處理后的信息鍵預(yù)測向量進(jìn)行歸一化處理,得到所述處理后的信息鍵預(yù)測向量對應(yīng)的概率矩陣;
17、根據(jù)所述概率矩陣以及所述文本內(nèi)容信息對應(yīng)的分詞結(jié)果,確定當(dāng)前輪次的關(guān)鍵信息鍵。
18、在一種可選實(shí)施方式中,根據(jù)所述多模態(tài)融合向量和所述關(guān)鍵信息鍵實(shí)現(xiàn)信息值抽取,得到所述關(guān)鍵信息值,包括:
19、根據(jù)所述多模態(tài)融合向量和各所述關(guān)鍵信息鍵,重復(fù)執(zhí)行多輪次的關(guān)鍵信息值的抽取操作,直至滿足抽取停止條件時停止抽取,將抽取到的所有關(guān)鍵信息值確定為各所述關(guān)鍵信息鍵對應(yīng)的至少一個關(guān)鍵信息值;其中,
20、所述抽取停止條件包括:抽取的關(guān)鍵信息值為預(yù)設(shè)的抽取結(jié)束詞,或者,所有關(guān)鍵信息值的預(yù)測數(shù)量滿足預(yù)設(shè)閾值;
21、任一輪次的抽取操作過程包括:
22、確定所述關(guān)鍵信息鍵所在圖像區(qū)域的圖像位置,并對所述圖像位置進(jìn)行低維向量轉(zhuǎn)換,得到對應(yīng)的圖像位置向量;
23、根據(jù)所述圖像位置向量,確定各所述關(guān)鍵信息鍵的拼接結(jié)果對應(yīng)的信息鍵自注意力向量;
24、根據(jù)所述多模態(tài)融合向量和所述信息鍵自注意力向量,得到用于表征當(dāng)前輪次中待確定關(guān)鍵信息值的信息值預(yù)測向量;
25、根據(jù)所述信息值預(yù)測向量的概率分布,確定當(dāng)前輪次的關(guān)鍵信息值。
26、在一種可選實(shí)施方式中,根據(jù)所述信息值預(yù)測向量的概率分布,確定當(dāng)前輪次的關(guān)鍵信息值,包括:
27、確定所述信息值預(yù)測向量的第二概率分布,以及,所述信息值預(yù)測向量和所述文本內(nèi)容信息對應(yīng)的詞向量兩者乘積的第三概率分布;
28、根據(jù)所述多模態(tài)融合向量和所述信息值預(yù)測向量確定所述第二概率分布和所述第三概率分布分別對應(yīng)的第一權(quán)重和第二權(quán)重;
29、根據(jù)所述第一權(quán)重和所述第二概率分布的加權(quán)結(jié)果,以及,所述第二權(quán)重和所述第三概率分布的加權(quán)結(jié)果,確定當(dāng)前輪次的關(guān)鍵信息值。
30、在一種可選實(shí)施方式中,所述信息編碼結(jié)果包括圖像向量、文本詞向量和文本位置向量;
31、根據(jù)所述圖像文本信息的信息編碼結(jié)果,得到多模態(tài)融合向量,包括:
32、確定所述圖像向量對應(yīng)的圖像自注意力向量、所述文本詞向量對應(yīng)的文本詞自注意力向量,以及,所述文本位置向量對應(yīng)的文本位置自注意力向量;
33、根據(jù)所述圖像自注意力向量、所述文本詞自注意力向量以及所述文本位置自注意力向量,確定所述待處理文本圖像對應(yīng)的多模態(tài)融合向量。
34、在一種可選實(shí)施方式中,在根據(jù)所述圖像文本信息的信息編碼結(jié)果,得到多模態(tài)融合向量之前,所述方法還包括:
35、對所述待處理文本圖像進(jìn)行低維向量轉(zhuǎn)換處理,得到對應(yīng)的圖像特征向量;
36、對所述待處理文本圖像中各像素點(diǎn)進(jìn)行位置編碼處理,得到對應(yīng)的圖像位置向量;
37、根據(jù)所述圖像特征向量和所述圖像位置向量,得到所述待處理文本圖像對應(yīng)的圖像向量。
38、在一種可選實(shí)施方式中,在根據(jù)所述圖像文本信息的信息編碼結(jié)果,得到多模態(tài)融合向量之前,所述方法還包括:
39、對于任一組文本信息,對所述文本內(nèi)容信息進(jìn)行分詞處理,得到多個詞組;
40、對于任一詞組,對所述詞組進(jìn)行低維向量轉(zhuǎn)換處理得到對應(yīng)的詞向量,并對所述詞向量進(jìn)行位置編碼處理,得到對應(yīng)的詞位置向量;
41、根據(jù)各所述文本信息中各所述詞組分別對應(yīng)的所述詞向量和所述詞位置向量,得到各所述文本信息對應(yīng)的文本詞向量;
42、根據(jù)各所述文本位置信息,確定所述至少一組文本信息中各所述詞組對應(yīng)的詞位置信息;
43、對各所述詞位置信息進(jìn)行低維向量轉(zhuǎn)換處理,得到各所述文本信息對應(yīng)的文本位置向量。
44、第二方面,本技術(shù)提供一種圖像信息抽取裝置,包括:
45、信息獲取模塊,用于獲取待處理文本圖像的圖像文本信息;所述圖像文本信息包括所述待處理文本圖像以及所述待處理文本圖像中包含的至少一組文本信息;任一組文本信息包括文本內(nèi)容信息以及所述文本內(nèi)容信息對應(yīng)的文本位置信息;
46、信息抽取模塊,用于采用訓(xùn)練完成的信息抽取模型對所述圖像文本信息進(jìn)行信息抽取,得到所述待處理文本圖像的信息抽取結(jié)果;所述信息抽取結(jié)果包括所述待處理文本圖像中的至少一個關(guān)鍵信息鍵和各所述關(guān)鍵信息鍵分別對應(yīng)的至少一個關(guān)鍵信息值;
47、其中,所述信息抽取模型包括編碼模塊、第一解碼模塊和第二解碼模塊;所述編碼模塊用于根據(jù)所述圖像文本信息的信息編碼結(jié)果,得到多模態(tài)融合向量;所述第一解碼模塊用于根據(jù)所述多模態(tài)融合向量實(shí)現(xiàn)信息鍵抽取,得到所述關(guān)鍵信息鍵;所述第二解碼模塊用于根據(jù)所述多模態(tài)融合向量和所述關(guān)鍵信息鍵實(shí)現(xiàn)信息值抽取,得到所述關(guān)鍵信息值。
48、第三方面,本技術(shù)提供一種電子設(shè)備,包括:處理器,以及與所述處理器通信連接的存儲器;
49、所述存儲器存儲計(jì)算機(jī)執(zhí)行指令;
50、所述處理器執(zhí)行所述存儲器存儲的計(jì)算機(jī)執(zhí)行指令,以實(shí)現(xiàn)如第一方面所述的方法。
51、第四方面,本技術(shù)提供一種計(jì)算機(jī)可讀存儲介質(zhì),所述計(jì)算機(jī)可讀存儲介質(zhì)中存儲有計(jì)算機(jī)執(zhí)行指令,所述計(jì)算機(jī)執(zhí)行指令被處理器執(zhí)行時用于實(shí)現(xiàn)如第一方面所述的方法。
52、第五方面,本技術(shù)提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)第一方面所述的方法。
53、本技術(shù)提供的圖像信息抽取方法,獲取待處理文本圖像的圖像文本信息;所述圖像文本信息包括所述待處理文本圖像以及所述待處理文本圖像中包含的至少一組文本信息;任一組文本信息包括文本內(nèi)容信息以及所述文本內(nèi)容信息對應(yīng)的文本位置信息;采用訓(xùn)練完成的信息抽取模型對所述圖像文本信息進(jìn)行信息抽取,得到所述待處理文本圖像的信息抽取結(jié)果;所述信息抽取結(jié)果包括所述待處理文本圖像中的至少一個關(guān)鍵信息鍵和各所述關(guān)鍵信息鍵分別對應(yīng)的至少一個關(guān)鍵信息值;其中,所述信息抽取模型包括編碼模塊、第一解碼模塊和第二解碼模塊;所述編碼模塊用于根據(jù)所述圖像文本信息的信息編碼結(jié)果,得到多模態(tài)融合向量;所述第一解碼模塊用于根據(jù)所述多模態(tài)融合向量實(shí)現(xiàn)信息鍵抽取,得到所述關(guān)鍵信息鍵;所述第二解碼模塊用于根據(jù)所述多模態(tài)融合向量和所述關(guān)鍵信息鍵實(shí)現(xiàn)信息值抽取,得到所述關(guān)鍵信息值;上述方案中,通過對待處理文本圖像的圖像文本信息中圖像信息、圖像中包含的文本內(nèi)容信息以及文本內(nèi)容信息對應(yīng)的為本位置信息分別進(jìn)行低維向量轉(zhuǎn)換處理,并對得到的向量進(jìn)行融合,得到多模態(tài)融合向量;采樣多模態(tài)融合向量對圖像進(jìn)行信息抽取,可以有效挖掘圖像與文本之間的關(guān)聯(lián),實(shí)現(xiàn)抽取結(jié)果更加準(zhǔn)確;并且在后續(xù)解碼過程,即信息抽取時,先根據(jù)多模態(tài)融合向量對關(guān)鍵信息鍵進(jìn)行抽取,進(jìn)而在對關(guān)鍵信息值抽取時,在上述多種信息的基礎(chǔ)上還融合了抽取出的關(guān)鍵信息鍵,彌補(bǔ)了在信息信息值抽取時可能存在的信息丟失問題,實(shí)現(xiàn)提高抽取結(jié)果的準(zhǔn)確性。