專利名稱:一種基于識別反饋的字符圖像驗證碼識別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種驗證碼識別方法,特別是涉及一種基于識別反饋的圖像驗證碼識別方法。
背景技術(shù):
驗證碼設(shè)計的基本準則是減少硬人工智能的問題,即一個問題如果不能用計算機程序解決,則可以用作驗證碼。目前驗證碼的實現(xiàn)方式包括字符圖像、語音識別、動態(tài)圖像等,其中字符圖像由于體積小、易傳輸?shù)葍?yōu)點,是使用最為廣泛的一種。使用驗證碼可防止他人對網(wǎng)站進行批量注冊、重復發(fā)貼、暴力密碼破解、垃圾郵件的群發(fā),然而驗證碼也阻礙了測試人員使用軟件對網(wǎng)站的自動化測試、信息的快速發(fā)布、交易的自動化進行等操作。
在過去的數(shù)十年,研究者們提出了很多驗證碼識別方法,這些方法可分為基于模板匹配的方法,基于字符結(jié)構(gòu)的方法和機器學習方法。
模板匹配方法采用預先設(shè)計好的模板匹配圖像中的字符,相對比較簡單,實現(xiàn)起來容易,然而這種方法無法處理存在噪音,字符位置和大小不固定的驗證碼。
基于字符結(jié)構(gòu)的方法根據(jù)字符各自的結(jié)構(gòu)特點作為識別特征,自定義不同的識別算法,然而無法處理字符粘連、變形等情況。
機器學習方法通過提取特征,訓練分類器,可實現(xiàn)字符的高效識別。
字符圖像驗證碼識別的主要問題是驗證碼中包含有各種類型的噪音,字符存在粘連、傾斜、旋轉(zhuǎn)、變形,這些現(xiàn)象影響了識別的準確率。發(fā)明內(nèi)容
本發(fā)明的目的是要提供一種基于識別反饋的字符圖像驗證碼識別方法,克服自動化程序中驗證碼識別方法對于復雜字符圖像驗證碼存在噪音、字符粘連、傾斜、旋轉(zhuǎn)、變形等無法識別的缺陷,通過對字符圖像驗證碼的識別,實現(xiàn)自動化程序的順利工作,提高人們的工作效率。
為了達到上述的目的本發(fā)明是這樣實現(xiàn)的本發(fā)明的一種基于識別反饋的字符圖像驗證碼識別方法的操作步驟如下(1)將字符圖片加載到內(nèi)存中,獲取每個像素的顏色,顏色采用RGB形式表示,分別代表該顏色的紅色、綠色、藍色分量;(2)二值化將彩色圖像轉(zhuǎn)換成灰度圖像,且采用如下的灰度變換公式,Y=O. 299R+0. 587G+0. 114B且采用閾值將灰度圖像轉(zhuǎn)換成二值圖像,閾值的選取采用大津法且為0STU,即選擇使得兩類樣本間方差最大的灰度值作為閾值,二值化中閾值的選取方法為設(shè)#。為前景像素所占圖像總像素的比例,令力為所有前景像素的平均灰度,設(shè)K 為背景點數(shù)所占圖像總像素的比例,令士為所有背景像素的平均灰度,則圖像的所有像素的平均灰度為《 = W0 U0 + W1U1 .在進行程序運算時,t的取值可從圖像的最小灰度值到圖像的最大灰度值依次遍歷,當 取某值時,類間方差公式6= W0 {u0 - u)2+ W1 Qj1 -uY能取得最大,此時 即為二值化的閾值;(3)修補采用如下的模板對圖像進行修復,以去除邊緣毛刺并填補空白 0 0 00 0 0 0 0 II O I OO I IO I II O II O I0 0 0O O I0 0 I O O I模板Tl模板Τ2模板Τ3模板Τ4模板Τ5其中O代表背景像素點,I代表前景像素點,?可為背景或前景象素點,模板Τ1-Τ3將中心前景像素點變?yōu)楸尘跋袼攸c,模板Τ4和Τ5將中心背景像素點變?yōu)榍熬跋袼攸c,且每個模板依次順時針旋轉(zhuǎn)90度、180度和270度,形成新的模板,并依次作用于原始圖像;(4)去噪音針對不同的噪音類型采用相應(yīng)的去噪音方法,包括連通域濾波對相鄰的前景像素點進行擴張,獲得連通域,去除連通域面積小于一定臨界值的區(qū)域,高斯濾波設(shè)/Ti,力表示圖像(i,j)處像素點的灰度,經(jīng)過如下變換獲得濾波后的圖像
權(quán)利要求
1.一種基于識別反饋的字符圖像驗證碼識別方法,其特征在于該方法的操作步驟如下 (1)將字符圖片加載到內(nèi)存中,獲取每個像素的顏色,顏色采用RGB形式表示,分別代表該顏色的紅色、綠色、藍色分量; (2)二值化 將彩色圖像轉(zhuǎn)換成灰度圖像,且采用如下的灰度變換公式,Y=O. 299R+0. 587G+0. 114B 采用閾值將灰度圖像轉(zhuǎn)換成二值圖像,閾值的選取采用大津法且為OSTU,即選擇使得兩類樣本間方差最大的灰度值作為閾值,二值化中閾值的選取方法為 設(shè)# ,為前景像素所占圖像總像素的比例,令^為所有前景像素的平均灰度,設(shè)K為背景點數(shù)所占圖像總像素的比例,令士為所有背景像素的平均灰度,則圖像的所有像素的平均灰度為《 = W0 U0 + W1U1 .在進行程序運算時,t的取值可從圖像的最小灰度值到圖像的最大灰度值依次遍歷,當 取某值時,類間方差公式6= w0 {u0 - u)2+ W1 Qj1 -uY能取得最大,此時 即為二值化的閾值; (3)修補 采用如下的模板對圖像進行修復,以去除邊緣毛刺并填補空白 ·0 0 00 0 0 0 0 II ·O I OO I IO I II O II OI ·0 0 0O O I0 0 I O O I 模板Tl模板Τ2模板Τ3模板Τ4模板Τ5 其中O代表背景像素點,I代表前景像素點,?可為背景或前景象素點,模板Τ1-Τ3將中心前景像素點變?yōu)楸尘跋袼攸c,模板Τ4和Τ5將中心背景像素點變?yōu)榍熬跋袼攸c,且每個模板依次順時針旋轉(zhuǎn)90度、180度和270度,形成新的模板,并依次作用于原始圖像; (4)去噪音 針對不同的噪音類型采用相應(yīng)的去噪音方法,包括 連通域濾波對相鄰的前景像素點進行擴張,獲得連通域,去除連通域面積小于一定臨界值的區(qū)域, 高斯濾波設(shè)/Ti,力表示圖像(i,j)處像素點的灰度,經(jīng)過如下變換獲得濾波后的圖像
全文摘要
一種基于識別反饋的圖像驗證碼識別方法。其特征該方法主要包括步驟先將原始彩色圖像轉(zhuǎn)換成灰度圖像,并進行二值化處理,得到二值化圖像數(shù)據(jù);接著對所述二值化圖像進行修補,去除圖像邊緣毛刺,填補中心空白,并完成斷裂筆畫的連接,得到修補圖像;再對所述修補圖像去除背景以及干擾點或線,得到無噪圖像;并對無噪圖像進行細化,得到單一像素的細化圖像;然后對細化圖像進行切分,得到僅含單個字符的單字符圖像;最后對單字符圖像進行歸一化并識別其中的字符。本發(fā)明可對含有各種類型的噪音、字符存在粘連、傾斜、旋轉(zhuǎn)及變形等現(xiàn)象的字符圖像驗證碼設(shè)計相應(yīng)的算法進行處理,完成高效率和高精度的識別。本發(fā)明可應(yīng)用于自動化程序中驗證碼識別。
文檔編號G06K9/54GK102930277SQ20121034937
公開日2013年2月13日 申請日期2012年9月19日 優(yōu)先權(quán)日2012年9月19日
發(fā)明者董啟文 申請人:上海珍島信息技術(shù)有限公司