亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于語義筆畫池化的場(chǎng)景文字識(shí)別方法與流程

文檔序號(hào):11775269閱讀:379來源:國知局

本發(fā)明屬于模式識(shí)別技術(shù)領(lǐng)域,具體涉及一種基于語義筆畫池化的場(chǎng)景文字識(shí)別方法。



背景技術(shù):

隨著互聯(lián)網(wǎng)的迅猛發(fā)展和裝配攝像頭的移動(dòng)終端的廣泛應(yīng)用,圖像和視頻數(shù)量出現(xiàn)了快速的增長(zhǎng)。這給人們的生活帶來巨大便利的同時(shí)也帶來了一個(gè)亟待解決的巨大的應(yīng)用需求的問題:如何使計(jì)算機(jī)能夠像人腦那樣自動(dòng)地理解這些圖像和視頻的高層語義信息,從而能夠憑借自己強(qiáng)大的計(jì)算性能和存儲(chǔ)能力幫助人類管理和使用這些海量的圖像和視頻。圖像和視頻一般是以像素點(diǎn)顏色值的方式存儲(chǔ),像素值無法直接承載高層語義信息。而圖像和視頻中的文字直接承載了高層語義信息,并且文字信息也更容易被計(jì)算機(jī)理解和掌握,所以正確的識(shí)別圖像和視頻中的文字是理解圖像和視頻內(nèi)容至關(guān)重要的一步。

一個(gè)圖像和視頻中文字自動(dòng)識(shí)別系統(tǒng)可以應(yīng)用在許多領(lǐng)域,如圖像和視頻檢索,智能交通,安防監(jiān)控,實(shí)時(shí)翻譯,人機(jī)交互等領(lǐng)域。在實(shí)際應(yīng)用中,由于場(chǎng)景文字會(huì)受到不均勻的光照、失真、復(fù)雜的背景、噪聲、模糊等外界因素的影響,場(chǎng)景文字識(shí)別仍是一個(gè)很有挑戰(zhàn)性的研究方向。

近幾十年場(chǎng)景文字識(shí)別被廣泛研究,一些早期的方法利用光學(xué)字符識(shí)別技術(shù)進(jìn)行場(chǎng)景文字識(shí)別。但是,光學(xué)字符識(shí)別技術(shù)存在很大的局限性,比如難以進(jìn)行場(chǎng)景文字圖像二值化操作。近年來,大量場(chǎng)景文字識(shí)別的方法被提出,并取得了較大的進(jìn)步。其中,最有代表性的工作是基于目標(biāo)識(shí)別的場(chǎng)景文字識(shí)別方法。基于目標(biāo)識(shí)別的場(chǎng)景文字識(shí)別方法跳過了場(chǎng)景文字圖像二值化過程并且把每個(gè)場(chǎng)景文字看作是一個(gè)特殊的目標(biāo),其在模式識(shí)別領(lǐng)域取得了一定的成功。如:wang等人使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行場(chǎng)景文本識(shí)別,并在使用大量訓(xùn)練樣本的前提下取得了較好的識(shí)別效果。zhang等人使用最大化池將本地特征投影到全局決策。shi等人使用多尺度筆畫檢測(cè)器來進(jìn)行特征表示。雖然這些方法取得了一定的成效,但是還是存在一定的缺陷。平均池會(huì)使最終的特征向量缺乏判別性,因?yàn)樽罱K的特征向量受經(jīng)常(不經(jīng)常)出現(xiàn)的特征影響大(小),而判別性與特征出現(xiàn)的頻率沒有直接的關(guān)系。最大化池會(huì)忽略其他比較重要的特征信息,而且如果最大響應(yīng)值為噪聲,則分類準(zhǔn)確率將會(huì)大大下降。因此,為了解決這些問題,murray等人提出generalizedmaxpooling(gmp)來平衡經(jīng)常出現(xiàn)的特征和不經(jīng)常出現(xiàn)的特征對(duì)最終的特征向量的影響。hoai等人提出regularizedmaxpooling(rmp)來學(xué)習(xí)多個(gè)部件的判別性和可變性。hu等人結(jié)合平均抽取和最大化抽取來進(jìn)行特征表示。wei等人提出regionrankingsvm(rrsvm)來探索圖像本地區(qū)域間的相關(guān)性。雖然以上方法取得了較大的成功,但是在池化過程中,他們沒有完全的考慮筆畫的結(jié)構(gòu)信息,這會(huì)導(dǎo)致場(chǎng)景文字識(shí)別準(zhǔn)確率下降。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的是要解決筆畫結(jié)構(gòu)信息對(duì)場(chǎng)景文字識(shí)別結(jié)果影響較大的技術(shù)問題,為此,本發(fā)明提供一種基于語義筆畫池化的場(chǎng)景文字識(shí)別方法。

為了實(shí)現(xiàn)所述目的,本發(fā)明提出一種基于語義筆畫池化的場(chǎng)景文字識(shí)別方法,所述方法包括以下步驟:

步驟s1,對(duì)輸入場(chǎng)景文字圖像進(jìn)行預(yù)處理,得到訓(xùn)練場(chǎng)景文字圖像;

步驟s2,對(duì)所述訓(xùn)練場(chǎng)景文字圖像分別進(jìn)行關(guān)鍵點(diǎn)標(biāo)記,并基于關(guān)鍵點(diǎn)得到判別性筆畫strokeij,其中,strokeij表示第i類訓(xùn)練場(chǎng)景文字圖像中的第j個(gè)判別性筆畫;

步驟s3,利用所有訓(xùn)練場(chǎng)景文字圖像的判別性筆畫,訓(xùn)練得到筆畫檢測(cè)器和相應(yīng)的語義因子;

步驟s4,利用筆畫檢測(cè)器和語義因子,得到每幅訓(xùn)練場(chǎng)景文字圖像對(duì)應(yīng)的語義置信向量;

步驟s5,基于所述訓(xùn)練場(chǎng)景文字圖像的語義置信向量,訓(xùn)練得到場(chǎng)景文字識(shí)別分類模型;

步驟s6,獲取測(cè)試場(chǎng)景文字圖像的筆畫檢測(cè)器和語義因子,進(jìn)而得到所述測(cè)試場(chǎng)景文字圖像的語義置信向量,將其輸入至所述場(chǎng)景文字識(shí)別分類模型得到場(chǎng)景文字識(shí)別結(jié)果。

可選地,所述步驟s1中,對(duì)輸入場(chǎng)景文字圖像進(jìn)行預(yù)處理包括以下步驟:

步驟s11,將所述輸入場(chǎng)景文字圖像轉(zhuǎn)換為灰度場(chǎng)景文字圖像;

步驟s12,將所述灰度場(chǎng)景文字圖像的大小歸一化為h×w,并將歸一化后的灰度場(chǎng)景文字圖像作為所述訓(xùn)練場(chǎng)景文字圖像,其中,h和w分別表示灰度場(chǎng)景文字圖像的高度和寬度。

可選地,所述步驟s2包括以下步驟:

步驟s21,獲取每幅訓(xùn)練場(chǎng)景文字圖像的類別標(biāo)簽,并對(duì)每幅訓(xùn)練場(chǎng)景文字圖像進(jìn)行關(guān)鍵點(diǎn)標(biāo)記,其中,所述關(guān)鍵點(diǎn)覆蓋每幅訓(xùn)練場(chǎng)景文字圖像中文字的主要結(jié)構(gòu);

步驟s22,根據(jù)標(biāo)記的關(guān)鍵點(diǎn),對(duì)每類訓(xùn)練場(chǎng)景文字圖像進(jìn)行判別性筆畫選取,并將判別性筆畫記為strokeij,其中,strokeij表示第i類訓(xùn)練場(chǎng)景文字圖像中的第j個(gè)判別性筆畫。

可選地,每一類訓(xùn)練場(chǎng)景文字圖像所標(biāo)記的關(guān)鍵點(diǎn)數(shù)量相同。

可選地,所述步驟s3包括以下步驟:

步驟s31,利用判別性筆畫strokeij,訓(xùn)練得到筆畫檢測(cè)器sij,其中,sij表示第i類訓(xùn)練場(chǎng)景文字圖像中的第j個(gè)筆畫檢測(cè)器;

步驟s32,利用判別性筆畫strokeij,學(xué)習(xí)得到語義因子γij,其中,γij表示第i類訓(xùn)練場(chǎng)景文字圖像中的第j個(gè)語義因子。

可選地,所述步驟s31包括以下步驟:

步驟s311,在第i類訓(xùn)練場(chǎng)景文字圖像中任意選取一幅圖像,得到包含與strokeij中相同關(guān)鍵點(diǎn)的最小矩形,并將這個(gè)最小矩形延拓為得到筆畫檢測(cè)器sij的一個(gè)正樣本,其中,分別表示正樣本的高度和寬度;

步驟s312,在其他類別的任意兩幅訓(xùn)練場(chǎng)景文字圖像中選取負(fù)樣本,得到與所述正樣本大小和位置相同的兩個(gè)負(fù)樣本;

步驟s313,按照所述步驟s311-s312獲取預(yù)定比例的正樣本和負(fù)樣本,并將所有的正樣本和負(fù)樣本進(jìn)行歸一化處理;

步驟s314,將每個(gè)正樣本和負(fù)樣本表示成為一個(gè)hog特征向量;

步驟s315,基于所述正負(fù)樣本的hog特征向量,訓(xùn)練得到第i類的第j個(gè)筆畫檢測(cè)器sij,所有的筆畫檢測(cè)器組成筆畫檢測(cè)器集。

可選地,所述步驟s32包括以下步驟:

步驟s321,獲取所述步驟s313中所有正樣本的位置信息;

步驟s322,基于所有正樣本的位置信息,利用混合高斯模型,得到判別性筆畫strokeij的語義因子γij,其中,γij表示第i類訓(xùn)練場(chǎng)景文字圖像中的第j個(gè)語義因子。

可選地,所述步驟s4包括以下步驟:

步驟s41,獲取包含所述步驟s313中所有正樣本的最小矩形區(qū)域,并將其延拓為在每幅訓(xùn)練場(chǎng)景文字圖像的相同位置界定高度為寬度為的矩形,得到判別性筆畫strokeij的響應(yīng)區(qū)域r;

步驟s42,在判別性筆畫strokeij的響應(yīng)區(qū)域內(nèi),密集抽取圖像塊a,其中,a∈{1,2,···,h},h為響應(yīng)區(qū)域內(nèi)抽取的圖像塊的總數(shù);

步驟s43,將筆畫檢測(cè)器sij應(yīng)用于所有的圖像塊,得到檢測(cè)得分oij=(oij1,oij2,···,oijh),其中,oij是檢測(cè)得分集,oijh是第h個(gè)圖像塊的檢測(cè)得分;

步驟s44,基于圖像塊的左上角坐標(biāo)位置信息和圖像塊對(duì)應(yīng)的判別性筆畫strokeij,得到所有圖像塊的語義因子,進(jìn)而得到語義因子集γij=(γij1,γij2,···,γijh),其中,γij是語義因子集,γijh是第h個(gè)圖像塊的語義因子;

步驟s45,基于得到的筆畫檢測(cè)器和語義因子,獲取一幅訓(xùn)練場(chǎng)景文字圖像的語義置信向量c。

可選地,所述步驟s44中,基于圖像塊的左上角坐標(biāo)位置信息和圖像塊對(duì)應(yīng)的判別性筆畫strokeij,利用混合高斯模型得到所有圖像塊的語義因子。

可選地,語義置信向量c表示為:

c=(c11,c12,···,c1j,···,c21,c22,···,c2j,···,cn1,cn2,···,cnj,···),

其中,cij表示判別性筆畫strokeij的語義置信得分。

本發(fā)明的有益效果為:本發(fā)明通過筆畫檢測(cè)器和語義因子進(jìn)行語義置信向量表示,能夠?qū)⒆钪匾奶卣餍畔⒑驼Z義信息有效的結(jié)合在語義置信向量中,達(dá)到有效挖掘顯著特征信息和空間信息的目的,從而提高場(chǎng)景文字識(shí)別的正確率。

需要說明的是,本發(fā)明得到了國家自然科學(xué)基金項(xiàng)目no.61501327、no.61401309、no.61401310、天津市自然科學(xué)基金重點(diǎn)項(xiàng)目no.17jczdjc30600、天津市應(yīng)用基礎(chǔ)與前沿技術(shù)研究計(jì)劃青年基金項(xiàng)目no.15jcqnjc01700、天津師范大學(xué)博士基金項(xiàng)目no.5rl134、no.52xb1405的資助。

附圖說明

圖1是根據(jù)本發(fā)明一實(shí)施例提出的一種基于語義筆畫池化的場(chǎng)景文字識(shí)別方法的流程圖。

具體實(shí)施方式

為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明了,下面結(jié)合具體實(shí)施方式并參照附圖,對(duì)本發(fā)明進(jìn)一步詳細(xì)說明。應(yīng)該理解,這些描述只是示例性的,而并非要限制本發(fā)明的范圍。此外,在以下說明中,省略了對(duì)公知結(jié)構(gòu)和技術(shù)的描述,以避免不必要地混淆本發(fā)明的概念。

圖1是根據(jù)本發(fā)明一實(shí)施例提出的一種基于語義筆畫池化的場(chǎng)景文字識(shí)別方法的流程圖,下面以圖1為例來說明本發(fā)明的一些具體實(shí)現(xiàn)流程。本發(fā)明的方法是一種基于語義筆畫池化的場(chǎng)景文字識(shí)別方法,其具體步驟包括:

步驟s1,對(duì)輸入場(chǎng)景文字圖像進(jìn)行預(yù)處理,得到訓(xùn)練場(chǎng)景文字圖像;

其中,所述對(duì)輸入場(chǎng)景文字圖像進(jìn)行預(yù)處理包括以下步驟:

步驟s11,將所述輸入場(chǎng)景文字圖像轉(zhuǎn)換為灰度場(chǎng)景文字圖像;

步驟s12,將所述灰度場(chǎng)景文字圖像的大小歸一化為h×w,并將歸一化后的灰度場(chǎng)景文字圖像作為所述訓(xùn)練場(chǎng)景文字圖像,其中,h和w分別表示灰度場(chǎng)景文字圖像的高度和寬度。

在本發(fā)明一實(shí)施例中,所述灰度場(chǎng)景文字圖像的大小歸一化為64×32,其中,64和32分別表示灰度場(chǎng)景文字圖像的高度和寬度。

步驟s2,對(duì)所述訓(xùn)練場(chǎng)景文字圖像分別進(jìn)行關(guān)鍵點(diǎn)標(biāo)記,并基于關(guān)鍵點(diǎn)得到判別性筆畫strokeij,其中,strokeij表示第i類訓(xùn)練場(chǎng)景文字圖像中的第j個(gè)判別性筆畫;

進(jìn)一步地,所述步驟s2包括以下步驟:

步驟s21,獲取每幅訓(xùn)練場(chǎng)景文字圖像的類別標(biāo)簽,并對(duì)每幅訓(xùn)練場(chǎng)景文字圖像進(jìn)行關(guān)鍵點(diǎn)標(biāo)記,其中,所述關(guān)鍵點(diǎn)要求能夠覆蓋每幅訓(xùn)練場(chǎng)景文字圖像中文字的主要結(jié)構(gòu);

在本發(fā)明一實(shí)施例中,每一類訓(xùn)練場(chǎng)景文字圖像所標(biāo)記的關(guān)鍵點(diǎn)數(shù)量相同。

步驟s22,根據(jù)標(biāo)記的關(guān)鍵點(diǎn),對(duì)每類訓(xùn)練場(chǎng)景文字圖像進(jìn)行判別性筆畫選取,并將判別性筆畫記為strokeij,其中,strokeij表示第i類訓(xùn)練場(chǎng)景文字圖像中的第j個(gè)判別性筆畫。

其中,所述判別性筆畫是一個(gè)至少包含兩個(gè)關(guān)鍵點(diǎn)的矩形區(qū)域,在訓(xùn)練階段,為人為選取獲得。

在本發(fā)明一實(shí)施例中,每類訓(xùn)練場(chǎng)景文字圖像中選取的判別性筆畫數(shù)為6~18,比如15。

步驟s3,利用所有訓(xùn)練場(chǎng)景文字圖像的判別性筆畫,訓(xùn)練得到筆畫檢測(cè)器和相應(yīng)的語義因子;

進(jìn)一步地,所述步驟s3包括以下步驟:

步驟s31,利用判別性筆畫strokeij,訓(xùn)練得到筆畫檢測(cè)器sij,其中,sij表示第i類訓(xùn)練場(chǎng)景文字圖像中的第j個(gè)筆畫檢測(cè)器;

進(jìn)一步地,所述步驟s31包括以下步驟:

步驟s311,在第i類訓(xùn)練場(chǎng)景文字圖像中任意選取一幅圖像,得到包含與strokeij中相同關(guān)鍵點(diǎn)的最小矩形,并將這個(gè)最小矩形延拓為得到筆畫檢測(cè)器sij的一個(gè)正樣本,其中,分別表示正樣本的高度和寬度;

步驟s312,在其他類別的任意兩幅訓(xùn)練場(chǎng)景文字圖像中選取負(fù)樣本,得到與所述正樣本大小和位置相同的兩個(gè)負(fù)樣本;

在本發(fā)明一實(shí)施例中,所述負(fù)樣本是在其他類別的訓(xùn)練場(chǎng)景文字圖像中隨機(jī)選取得到的。

步驟s313,按照所述步驟s311-s312獲取預(yù)定比例的正樣本和負(fù)樣本,并將所有的正樣本和負(fù)樣本進(jìn)行歸一化處理;

在本發(fā)明一實(shí)施例中,正樣本與負(fù)樣本的數(shù)量比值為:1:2。

在本發(fā)明一實(shí)施例中,將所述正樣本和負(fù)樣本歸一化為16×16。

步驟s314,將每個(gè)正樣本和負(fù)樣本表示成為一個(gè)比如36維的hog特征向量;

步驟s315,基于所述正負(fù)樣本的hog特征向量,比如利用線性支持向量機(jī),訓(xùn)練得到第i類的第j個(gè)筆畫檢測(cè)器sij,所有的筆畫檢測(cè)器組成筆畫檢測(cè)器集。

其中,所述筆畫檢測(cè)器集表示為:

s=(s11,s12,···,s1j,···,s21,s22,···,s2j,···,sn1,sn2,···,snj,···),

其中,s表示所有筆畫檢測(cè)器的集合,n表示場(chǎng)景文字圖像的類別總數(shù),snj表示第n類的第j個(gè)筆畫檢測(cè)器。

步驟s32,利用判別性筆畫strokeij,學(xué)習(xí)得到語義因子γij,其中,γij表示第i類訓(xùn)練場(chǎng)景文字圖像中的第j個(gè)語義因子。

進(jìn)一步地,所述步驟s32包括以下步驟:

步驟s321,獲取所述步驟s313中所有正樣本的位置信息;

步驟s322,基于所有正樣本的位置信息,利用混合高斯模型,得到判別性筆畫strokeij的語義因子γij,其中,γij表示第i類訓(xùn)練場(chǎng)景文字圖像中的第j個(gè)語義因子。

其中,所述混合高斯模型表示為:

其中,p(lij|strokeij)表示判別性筆畫strokeij出現(xiàn)在位置lij的概率,k是混合高斯模型中高斯成分的數(shù)目,bijk表示第k個(gè)高斯成分的權(quán)重,ηijk(lij,μijk,σijk)表示高斯概率密度函數(shù),它定義為:

其中,d是位置lij的維度,μijk和σijk分別是第k個(gè)高斯成分的均值和協(xié)方差矩陣。

p(lij|strokeij)反應(yīng)了判別性筆畫strokeij和位置lij之間的空間關(guān)系,本實(shí)施例中,將其定義為語義因子γij,其中,位置指的是某一個(gè)對(duì)象所在區(qū)域左上角的位置。

上述語義因子γij利用混合高斯模型建立了判別性筆畫strokeij和位置lij之間的空間關(guān)系。在混合高斯模型中,高斯成分的數(shù)目k可以設(shè)置為3,位置lij的維度可以設(shè)置為2。

步驟s4,利用筆畫檢測(cè)器和語義因子,得到每幅訓(xùn)練場(chǎng)景文字圖像對(duì)應(yīng)的語義置信向量;

進(jìn)一步地,所述步驟s4包括以下步驟:

步驟s41,獲取包含所述步驟s313中所有正樣本的最小矩形區(qū)域,并將其延拓為(延拓值可取為1.5),在每幅訓(xùn)練場(chǎng)景文字圖像的相同位置界定高度為寬度為的矩形,得到判別性筆畫strokeij的響應(yīng)區(qū)域r;

步驟s42,在判別性筆畫strokeij的響應(yīng)區(qū)域內(nèi),密集抽取圖像塊a(a∈{1,2,···,h}),其中,h為響應(yīng)區(qū)域內(nèi)抽取的圖像塊的總數(shù);

步驟s43,將筆畫檢測(cè)器sij應(yīng)用于所有的圖像塊,得到檢測(cè)得分oij=(oij1,oij2,···,oijh),其中,oij是檢測(cè)得分集,oijh是第h個(gè)圖像塊的檢測(cè)得分;

步驟s44,基于圖像塊的左上角坐標(biāo)位置信息和圖像塊對(duì)應(yīng)的判別性筆畫strokeij,得到所有圖像塊的語義因子,進(jìn)而得到語義因子集γij=(γij1,γij2,···,γijh),其中,γij是語義因子集,γijh是第h個(gè)圖像塊的語義因子;

在本發(fā)明一實(shí)施例中,基于圖像塊的左上角坐標(biāo)位置信息和圖像塊對(duì)應(yīng)的判別性筆畫strokeij,利用混合高斯模型得到所有圖像塊的語義因子。

步驟s45,基于得到的筆畫檢測(cè)器和語義因子,獲取一幅訓(xùn)練場(chǎng)景文字圖像的語義置信向量c:

c=(c11,c12,···,c1j,···,c21,c22,···,c2j,···,cn1,cn2,···,cnj,···),

其中,cij表示判別性筆畫strokeij的語義置信得分。

步驟s5,基于所述訓(xùn)練場(chǎng)景文字圖像的語義置信向量,比如利用線性支持向量機(jī)進(jìn)行訓(xùn)練,得到場(chǎng)景文字識(shí)別分類模型;

步驟s6,獲取測(cè)試場(chǎng)景文字圖像的筆畫檢測(cè)器和語義因子,進(jìn)而得到所述測(cè)試場(chǎng)景文字圖像的語義置信向量,將其輸入至所述場(chǎng)景文字識(shí)別分類模型得到場(chǎng)景文字識(shí)別結(jié)果。

以網(wǎng)上公開的場(chǎng)景文字圖像數(shù)據(jù)庫作為測(cè)試對(duì)象,比如在icdar2003數(shù)據(jù)庫上,當(dāng)k=3,每類訓(xùn)練場(chǎng)景文字圖像的判別性筆畫數(shù)目為15時(shí),場(chǎng)景文字識(shí)別的正確率為84.1%,由此可見本發(fā)明方法的有效性。

應(yīng)當(dāng)理解的是,本發(fā)明的上述具體實(shí)施方式僅僅用于示例性說明或解釋本發(fā)明的原理,而不構(gòu)成對(duì)本發(fā)明的限制。因此,在不偏離本發(fā)明的精神和范圍的情況下所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。此外,本發(fā)明所附權(quán)利要求旨在涵蓋落入所附權(quán)利要求范圍和邊界、或者這種范圍和邊界的等同形式內(nèi)的全部變化和修改例。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1