本發(fā)明屬于收據(jù)數(shù)據(jù)識別,具體涉及一種清算收據(jù)數(shù)據(jù)識別系統(tǒng)及其方法。
背景技術(shù):
1、隨著智能數(shù)據(jù)處理技術(shù)的快速發(fā)展,收據(jù)自動識別逐漸成為企業(yè)高效處理財(cái)務(wù)和報(bào)銷數(shù)據(jù)的重要工具?,F(xiàn)階段,基于光學(xué)字符識別(ocr)的收據(jù)識別系統(tǒng)已廣泛應(yīng)用于收據(jù)數(shù)據(jù)提取。然而,現(xiàn)有的ocr技術(shù)在實(shí)際應(yīng)用中仍面臨諸多局限,尤其是在處理復(fù)雜的收據(jù)圖像時。首先,圖像質(zhì)量顯著影響ocr識別的準(zhǔn)確性。由于收據(jù)通常存在拍攝模糊、傾斜、光照不均勻等問題,ocr系統(tǒng)在識別時容易受到影響,導(dǎo)致識別錯誤率上升。例如,圖像中的模糊字符或低分辨率會使ocr難以準(zhǔn)確讀取內(nèi)容,而反光和陰影也會遮擋關(guān)鍵字段。其次,現(xiàn)有ocr技術(shù)的另一個關(guān)鍵缺陷在于缺乏語境理解能力。ocr主要用于逐字識別字符,缺少語義層次的分析,無法理解字段之間的邏輯關(guān)系。例如,對于收據(jù)中的日期、金額和商品名稱等重要信息,ocr可能會識別出這些字符,但無法理解這些字段的含義和相互關(guān)系。這一缺陷使得系統(tǒng)容易出現(xiàn)數(shù)據(jù)錯配,特別是在沒有標(biāo)準(zhǔn)化標(biāo)簽或字段位置不固定的情況下,進(jìn)一步影響了數(shù)據(jù)的結(jié)構(gòu)化處理效果。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種清算收據(jù)數(shù)據(jù)識別系統(tǒng)及其方法,解決相關(guān)技術(shù)中受圖像質(zhì)量和缺乏語境理解的限制,導(dǎo)致識別準(zhǔn)確率不高,易出現(xiàn)數(shù)據(jù)錯配和誤識別的技術(shù)問題。
2、本發(fā)明提供了一種清算收據(jù)數(shù)據(jù)識別系統(tǒng),包括圖像獲取與預(yù)處理模塊、圖像識別模塊、字段識別與分類模塊、字段關(guān)聯(lián)分析模塊、數(shù)據(jù)清洗與驗(yàn)證模塊和數(shù)據(jù)輸出模塊:
3、圖像獲取與預(yù)處理模塊,用于從多個角度拍攝目標(biāo)收據(jù)的五張圖像,使用圖像配準(zhǔn)技術(shù)進(jìn)行對齊,具體如下:從目標(biāo)收據(jù)的正面、左上、左下、右上和右下五個角度分別拍攝圖像,通過尺度不變特征變換算法識別每張圖像中的特征點(diǎn),輸出特征點(diǎn)的坐標(biāo)和特征描述符,并使用歐氏距離計(jì)算特征點(diǎn)之間的相似度,進(jìn)行特征點(diǎn)的匹配,同時通過計(jì)算距離比率排除誤匹配,并使用仿射變換將五張圖像的相似區(qū)域進(jìn)行對齊;
4、其中,所述尺度不變特征變換算法的使用步驟包括:
5、步驟s201,基于五張不同角度的圖像生成不同尺度的高斯差分圖像;
6、步驟s202,通過極值檢測從高斯差分圖像中找到潛在特征點(diǎn),并對潛在特征點(diǎn)進(jìn)行過濾邊緣響應(yīng)和去除低對比度處理,得到特征點(diǎn),并提取特征點(diǎn)的坐標(biāo);
7、步驟s203,通過計(jì)算特征點(diǎn)鄰域的梯度方向直方圖為每個特征點(diǎn)分配一個主方向;
8、步驟s204,將特征點(diǎn)鄰域的梯度方向直方圖進(jìn)行拼接,得到特征點(diǎn)的特征描述符;
9、所述距離比率的計(jì)算公式為:,其中,表示距離比率,表示當(dāng)前特征點(diǎn)描述符與最近的特征點(diǎn)的距離,表示當(dāng)前特征點(diǎn)描述符與次近的特征點(diǎn)的距離;當(dāng)距離比率大于第三閾值時,則該匹配為誤匹配,需進(jìn)行去除,第三閾值為自定義參數(shù);
10、所述使用仿射變換將五張圖像的相似區(qū)域進(jìn)行對齊的步驟包括:
11、步驟s301,將拍攝角度為正面的圖像作為基準(zhǔn)圖像,同時選擇一張其他圖像,在兩張圖像中找到k對匹配的特征點(diǎn),根據(jù)仿射變換原理的坐標(biāo)變換公式結(jié)合匹配的特征點(diǎn)構(gòu)造仿射變換矩陣,該矩陣表達(dá)式為:,其中,t表示仿射變換矩陣,a、b、c和d分別表示第一系數(shù)、第二系數(shù)、第三系數(shù)和第四系數(shù),用于控制圖像的縮放、旋轉(zhuǎn)和傾斜,tx和ty分別表示第一平移參數(shù)和第二平移參數(shù),仿射變換原理的坐標(biāo)變換公式為:,其中和分別為變換后的像素坐標(biāo)的橫坐標(biāo)和縱坐標(biāo),x和y分別為變換前的像素坐標(biāo)的橫坐標(biāo)和縱坐標(biāo),a、b、c、d、tx和ty通過匹配的特征點(diǎn)結(jié)合坐標(biāo)變換公式構(gòu)造線性方程組求解得到;
12、步驟s302,使用隨機(jī)采樣一致性算法過濾誤匹配的特征點(diǎn);
13、步驟s303,使用仿射變換矩陣,根據(jù)步驟s301中的坐標(biāo)變換公式,通過基準(zhǔn)圖像的像素坐標(biāo)計(jì)算并變換另一張圖像的像素坐標(biāo);
14、步驟s304,重復(fù)步驟s301到步驟s303,將變換應(yīng)用于除基準(zhǔn)圖像外的所有圖像,使其與基準(zhǔn)圖像對齊;
15、應(yīng)用融合算法將對齊后的圖像進(jìn)行融合,得到融合圖像,對融合圖像進(jìn)行降噪和對比度增強(qiáng)處理,得到第一特征圖像;
16、圖像識別模塊,用于使用圖像識別技術(shù)從第一特征圖像中提取收據(jù)數(shù)據(jù);
17、字段識別與分類模塊,用于識別收據(jù)數(shù)據(jù)中字段的內(nèi)容及含義,并對字段進(jìn)行分類,包括:使用光學(xué)字符識別技術(shù)從第一特征圖像中提取所有的文本塊,得到收據(jù)數(shù)據(jù),其中,每個文本塊包含一組連續(xù)的字符;
18、字段關(guān)聯(lián)分析模塊,用于使用依存句法分析算法識別收據(jù)數(shù)據(jù)中字段之間的邏輯關(guān)系,將收據(jù)數(shù)據(jù)中的字段進(jìn)行匹配;
19、數(shù)據(jù)清洗與驗(yàn)證模塊,用于對匹配后的收據(jù)數(shù)據(jù)進(jìn)行清洗和內(nèi)容驗(yàn)證;
20、數(shù)據(jù)輸出模塊,用于將清洗和驗(yàn)證處理后的收據(jù)數(shù)據(jù)進(jìn)行結(jié)構(gòu)化輸出。
21、進(jìn)一步地,使用融合算法將對齊后的圖像進(jìn)行融合,包括:
22、步驟s401,在每張圖像的每個像素點(diǎn)周圍定義一個n×n大小的鄰域窗口,統(tǒng)計(jì)鄰域窗口內(nèi)各灰度級的頻率分布,生成該鄰域窗口的灰度直方圖,其中,n為自定義參數(shù),灰度級表示圖像中像素的亮度;
23、步驟s402,根據(jù)灰度直方圖計(jì)算所述像素點(diǎn)的熵值,并在五張圖像中同一像素位置中選擇熵值最高的像素,熵值的計(jì)算公式為:,其中,h表示像素點(diǎn)的熵值,表示灰度級i在該鄰域窗口內(nèi)出現(xiàn)的頻率,j表示灰度級的數(shù)量;
24、步驟s403,將每個像素位置上具有最大熵值的像素填入最終融合圖像的對應(yīng)位置,生成完整的融合圖像。
25、進(jìn)一步地,對每個文本塊中的字符進(jìn)行識別,得到文本字符串,并使用自然語言處理技術(shù)對識別出的文本字符串進(jìn)行語義解析,提取字段內(nèi)容和含義,并根據(jù)預(yù)定義的規(guī)則庫,將識別出的字段內(nèi)容與規(guī)則進(jìn)行匹配,確定字段的類別,其中,規(guī)則庫中包含字段名稱及字段名稱的變體。
26、進(jìn)一步地,使用基于轉(zhuǎn)移的依存句法分析算法來分析收據(jù)數(shù)據(jù)中字段之間的邏輯關(guān)系,具體步驟包括:首先,將字段內(nèi)容轉(zhuǎn)換為適用于依存句法分析的輸入格式,然后,通過應(yīng)用left-arc轉(zhuǎn)移操作構(gòu)建依存關(guān)系樹,形成字段之間的依存關(guān)系圖,進(jìn)而識別字段之間的邏輯關(guān)系,最后,根據(jù)依存關(guān)系圖完成字段內(nèi)容的匹配。
27、進(jìn)一步地,對匹配后的收據(jù)數(shù)據(jù)進(jìn)行清洗和內(nèi)容驗(yàn)證,數(shù)據(jù)清洗包括:對字段內(nèi)容進(jìn)行格式化,去除空格和多余字符,以及拼寫校正;內(nèi)容驗(yàn)證包括:進(jìn)行字段的格式驗(yàn)證、邏輯關(guān)系驗(yàn)證和一致性檢查。
28、本發(fā)明提供一種清算收據(jù)數(shù)據(jù)識別方法,包括以下步驟:
29、步驟s601,從多個角度拍攝目標(biāo)收據(jù)的五張圖像,使用圖像配準(zhǔn)技術(shù)進(jìn)行對齊,并應(yīng)用融合算法將對齊后的圖像進(jìn)行融合,得到融合圖像,并對融合圖像進(jìn)行降噪和對比度增強(qiáng)處理;
30、步驟s602,使用圖像識別技術(shù)從第一特征圖像中提取收據(jù)數(shù)據(jù);
31、步驟s603,識別收據(jù)數(shù)據(jù)中字段的內(nèi)容及含義,并對字段進(jìn)行分類;
32、步驟s604,使用依存句法分析算法識別收據(jù)數(shù)據(jù)中字段之間的邏輯關(guān)系,將收據(jù)數(shù)據(jù)中的字段進(jìn)行匹配;
33、步驟s605,對匹配后的收據(jù)數(shù)據(jù)進(jìn)行清洗和內(nèi)容驗(yàn)證;
34、步驟s606,將清洗和驗(yàn)證處理后的收據(jù)數(shù)據(jù)進(jìn)行結(jié)構(gòu)化輸出。
35、本發(fā)明的有益效果在于:本發(fā)明通過從多個角度拍攝收據(jù),并對圖像進(jìn)行配準(zhǔn)和融合處理,有效減少了因光照不均、傾斜等問題導(dǎo)致的識別誤差,提升了圖像清晰度與對比度;
36、本發(fā)明利用特征點(diǎn)匹配算法和仿射變換對圖像進(jìn)行對齊,使多角度圖像的關(guān)鍵信息一致,從而保證了圖像融合的精度和數(shù)據(jù)的一致性;
37、本發(fā)明通過自然語言處理技術(shù)對識別出的文本進(jìn)行分詞和實(shí)體識別,并結(jié)合規(guī)則庫匹配字段內(nèi)容,能夠準(zhǔn)確區(qū)分并分類收據(jù)中的字段,有效提升了數(shù)據(jù)分類的準(zhǔn)確性。