本發(fā)明涉及人工智能領(lǐng)域,特別涉及一種基于多特征融合的水表讀數(shù)區(qū)域檢測算法。
背景技術(shù):
近幾年來,隨著移動互聯(lián)網(wǎng)的發(fā)展和數(shù)字產(chǎn)品的普及,來自于不同設(shè)備(智能手機(jī)、數(shù)碼相機(jī),甚至自動駕駛街景車、無人機(jī)等攝像頭)的圖像數(shù)據(jù)持續(xù)爆發(fā)式地增長。這些海量的圖像中,有相當(dāng)一部分圖像數(shù)據(jù)攜帶了文字信息,而文字信息通常蘊(yùn)含著非常有益的語義信息。比如,這些文字信息可能是對建筑物、商店、交通牌、路牌、商品名稱等的描述。因此,這些高層的語義信息可以廣泛地應(yīng)用于機(jī)器閱讀、自動拍譯、圖像檢索、視頻檢索、語言翻譯、自動駕駛、機(jī)器人導(dǎo)航等場合。人類更加迫切地需要一種智能的視覺文字分析技術(shù)。視覺文字分析是從機(jī)器視覺的角度抽取和理解文字信息的一種技術(shù)。它涉及到圖像處理、模式識別、計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)和心理學(xué)等一系列學(xué)科知識,一直以來都是相關(guān)領(lǐng)域的重要研究方向之一。
基于計(jì)算機(jī)視覺的水表自動讀數(shù)就是視覺文字分析中的一個(gè)重要應(yīng)用,它可以取代現(xiàn)有的人工水表讀數(shù)方式,使得水表讀數(shù)成為自動化流程?;谝曈X的文本分析首要解決的問題就是文字區(qū)域的檢測。
基于視覺的水表自動讀數(shù)首要解決的問題就是讀數(shù)區(qū)域的檢測,目前主流的方法是基于圖像處理的方法,通過圖像去噪、基于顏色特征的圖像二值化、基于線檢測的方向檢測、區(qū)域分割等步驟來確定讀數(shù)區(qū)域。然而這種方法對各種復(fù)雜場景下的光照、形變、遮掩等條件適應(yīng)性不好,容易受干擾,魯棒性差。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺點(diǎn)與不足,提供一種基于多特征融合的水表讀數(shù)區(qū)域檢測算法。
本發(fā)明的目的通過以下的技術(shù)方案實(shí)現(xiàn):
一種基于多特征融合的水表讀數(shù)區(qū)域檢測算法,包含以下步驟:
S1、獲取訓(xùn)練數(shù)據(jù),通過攝像頭拍攝水表圖像樣本,并對圖像中的水表讀數(shù)區(qū)域進(jìn)行人工標(biāo)注,獲取水表讀數(shù)的中心位置、長度和寬度信息;
S2、切割水表圖像中讀數(shù)區(qū)域和非讀數(shù)區(qū)域,提取該切割區(qū)域的多通道特征并進(jìn)行特征融合,以提取的多通道特征為輸入訓(xùn)練圖像分類器;所述切割區(qū)域是不確定的區(qū)域,由圖像分類器進(jìn)行分類,分為讀數(shù)區(qū)域和非讀數(shù)區(qū)域;
S3、提取水表圖像多通道特征,所述多通道特征包括梯度方向直方圖、梯度幅值、LUV顏色特征、灰度顏色特征,計(jì)算水表圖像的特征積分圖;
S4、遍歷全部滑動窗,利用特征積分圖計(jì)算各滑動窗特征,利用S2訓(xùn)練的圖像分類器對滑動窗進(jìn)行分類,獲取目標(biāo)窗口;
S5、用外插方法估計(jì)原圖在多個(gè)尺度下的特征積分圖,重復(fù)S4、S5步驟,獲取多尺度的目標(biāo)窗口;
S6、旋轉(zhuǎn)原圖,重復(fù)S3、S4、S5、S6步驟,獲取多方向的目標(biāo)窗口。
所述步驟S1具體為:
S1.1、通過RGB攝像頭采集實(shí)際場景中的水表圖像樣本;
S1.2、對S1.1中所獲取的水表圖像樣本中的水表讀數(shù)區(qū)域進(jìn)行人為的標(biāo)注,包括水表讀數(shù)區(qū)域的中心位置(x,y)、長度h、寬度w和角度a。
所述水表圖像樣本包括以下不同的參數(shù):光照、視角、水表類型、水表受損程度。這樣做是為了保證樣本的多樣性。
所述步驟S2具體為:
S2.1、按照步驟S1所得水表圖像及讀數(shù)區(qū)域標(biāo)注,切割出讀數(shù)區(qū)域和非讀數(shù),用于目標(biāo)的分類;
S2.2、提取S2.1所切割圖像的多通道特征,以多通道特征為輸入,訓(xùn)練集成決策樹分類器對該區(qū)域是否為讀數(shù)區(qū)域進(jìn)行分類。
所述步驟S3具體為:
S3.1、提取水表圖像多通道特征,包括梯度方向直方圖、梯度幅值、LUV顏色特征、灰度顏色特征,并計(jì)算特征積分圖;
所述梯度方向的計(jì)算方法:
其中O(i,j)為像素點(diǎn)(i,j)處梯度方向的角度;I為圖像,x代表水平方向,y代表垂直方向,i代表像素點(diǎn)在水平方向上的坐標(biāo);j代表像素點(diǎn)在垂直方向上的坐標(biāo);
所述梯度幅值的計(jì)算方法:
其中M(i,j)為像素點(diǎn)(i.j)處的梯度幅值;I為圖像,x代表水平方向,y代表垂直方向,i代表像素點(diǎn)在水平方向上的坐標(biāo);j代表像素點(diǎn)在垂直方向上的坐標(biāo)。
所述步驟S4具體為:
S4.1、遍歷各滑動窗,利用步驟S3所得特征積分圖,計(jì)算各滑動窗的多通道特征,并進(jìn)行特征融合;
S4.2、以S4.1融合的特征向量為輸入,利用S2訓(xùn)練所得圖像分類器對滑動窗進(jìn)行分類,得到滑動窗顯著性;
S4.3、對檢測到的目標(biāo)進(jìn)行極大化抑制,得到檢測目標(biāo)。
所述步驟S5具體為:
S5.1、利用相鄰尺度圖像的統(tǒng)計(jì)特性,通過外插的方法估計(jì)多尺度下的原圖特征,外插算法如下:
其中S代表圖像的尺度,Cs代表尺度S下的圖像特征,R(C,s)是對特征圖C進(jìn)行尺度為S的重采樣;λ為通過大量圖像的統(tǒng)計(jì)分析得到的通道參數(shù);Ω代表不同的圖像通道;外插算法通過某一固定尺度下計(jì)算的圖像特征來快速計(jì)算多個(gè)相鄰尺度的圖像特征;
S5.2、重復(fù)S4、S5,得到多尺度下的讀數(shù)區(qū)域目標(biāo)窗。
所述步驟S6具體為:
以5度為間隔,多次旋轉(zhuǎn)原水表圖像,重復(fù)S3、S4、S5、S6步驟,計(jì)算得到多方向的水表讀數(shù)區(qū)域,即獲取多方向的目標(biāo)窗口。
本發(fā)明與現(xiàn)有技術(shù)相比,具有如下優(yōu)點(diǎn)和有益效果:
1、本發(fā)明利用多特征融合的多尺度特征提取方法,高效的提取多個(gè)尺度下的豐富信息,解決了水表自動讀數(shù)中的首要難題,即多尺度、多方向的水表讀數(shù)區(qū)域檢測,具有重大的應(yīng)用前景。
2、本發(fā)明采用目標(biāo)檢測的思路,利用多尺度特征提取方法,高效的提取多個(gè)尺度下的豐富信息,從而快速地在多角度、多尺度的圖像下進(jìn)行滑動窗掃描,獲取置信度最大的讀數(shù)區(qū)域目標(biāo)。另外,本發(fā)明采用了多特征融合的方法,因此算法魯棒性強(qiáng),對各種復(fù)雜場景的適應(yīng)性好。本發(fā)明解決了復(fù)雜場景下的多方向水表的讀數(shù)區(qū)域檢測問題,為進(jìn)一步的讀數(shù)識別提供了基礎(chǔ)。
附圖說明
圖1為本發(fā)明所述一種基于多特征融合的水表讀數(shù)區(qū)域檢測算法的流程圖。
圖2為圖1所述算法的訓(xùn)練流程圖。
具體實(shí)施方式
下面結(jié)合實(shí)施例及附圖對本發(fā)明作進(jìn)一步詳細(xì)的描述,但本發(fā)明的實(shí)施方式不限于此。
如圖1所示,基于多特征融合的水表讀數(shù)區(qū)域檢測算法主要包括如下步驟:
S1、獲取訓(xùn)練數(shù)據(jù);訓(xùn)練過程如圖2所示;
S1.1、通過RGB攝像頭采集大量實(shí)際場景中的水表圖像樣本,包括各種各樣的的光照、視角、水表類型、水表受損程度等,以保證樣本的多樣性;
S1.2、對S1.1中所獲取的水表圖像樣本中的水表讀數(shù)區(qū)域進(jìn)行人為的標(biāo)注,包括水表讀數(shù)區(qū)域的中心位置(x,y)、長度(h)、寬度(w)和角度(a);
S2訓(xùn)練目標(biāo)分類器:
S2.1、按照S1所得水表圖像及讀數(shù)區(qū)域標(biāo)注,切割出讀數(shù)區(qū)域和非讀數(shù),用于目標(biāo)的分類;
S2.2、提取S2.1所切割圖像的多通道特征,以該特征為輸入,訓(xùn)練集成決策樹分類器對該區(qū)域是否為讀數(shù)區(qū)域進(jìn)行分類;
S3計(jì)算圖像多通道特征:
S3.1、提取水表圖像多通道特征,包括梯度方向直方圖、梯度幅值、LUV顏色特征、灰度顏色特征,并計(jì)算特征積分圖:
梯度方向計(jì)算方法:
梯度幅值計(jì)算方法:
S4滑動窗掃描:
S4.1、遍歷各滑動窗,利用S3.1所得特征積分圖,計(jì)算各滑動窗的多通道特征,并進(jìn)行特征融合;
S4.2、以S4.1融合的特征向量為輸入,利用S2訓(xùn)練所得分類器對滑動窗進(jìn)行分類,得到滑動窗顯著性;
S4.3、對檢測到的目標(biāo)進(jìn)行極大化抑制,得到檢測目標(biāo)。
S5外插多尺度特征:
S5.1、利用相鄰尺度圖像的統(tǒng)計(jì)特性,通過外插的方法估計(jì)多尺度下的原圖特征,外插算法如下:
其中S代表圖像的尺度,Cs代表尺度S下的圖像特征,R(C,s)是對特征圖C進(jìn)行尺度為S的重采樣;λ為通過圖像的統(tǒng)計(jì)分析得到的通道參數(shù);Ω代表不同的圖像通道;外插算法通過某一固定尺度下計(jì)算的圖像特征來快速計(jì)算多個(gè)相鄰尺度的圖像特征;
S5.2、重復(fù)S4、S5,得到多尺度下的讀數(shù)區(qū)域目標(biāo)窗。
S6旋轉(zhuǎn)檢測:
S6.1、以5度為間隔,多次旋轉(zhuǎn)原水表圖像,重復(fù)S3、S4、S5、S6步驟,可以計(jì)算得到多方向的水表讀數(shù)區(qū)域。
上述實(shí)施例為本發(fā)明較佳的實(shí)施方式,但本發(fā)明的實(shí)施方式并不受上述實(shí)施例的限制,其他的任何未背離本發(fā)明的精神實(shí)質(zhì)與原理下所作的改變、修飾、替代、組合、簡化,均應(yīng)為等效的置換方式,都包含在本發(fā)明的保護(hù)范圍之內(nèi)。