1.一種英語單詞識別方法,其特征在于,包括:
對輸入的視頻圖像進行筆畫寬度變換;
對經(jīng)筆畫寬度變換后輸出的圖像進行連通域分析,并從分析結(jié)果中篩選出是文本區(qū)域的連通域;
對篩選出的連通域進行合并,得到文本行;
利用光學(xué)字符識別模型對所述文本行進行識別,其中,所述光學(xué)字符識別模型的訓(xùn)練數(shù)據(jù)為英文字母,每個英文字母都具有多種不同腐蝕度的模板;
對識別出的文本行進行語義分析,選出符合語義的文本行。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對輸入圖像進行筆畫寬度變換,包括:
將輸入的視頻圖像解碼為RGB圖像;
把所述RGB圖像轉(zhuǎn)化成灰度圖;
把所述灰度圖轉(zhuǎn)化成標準窗口小部件工具箱圖像;
利用Canny邊緣檢測算子對所述標準窗口小部件工具箱圖像進行邊緣檢測,得到所有邊緣像素點;
利用sobel算子分別計算得到各邊緣像素點的梯度方向;
為每一個所述邊緣像素點尋找與其梯度方向相反的邊緣像素點,形成邊緣像素點對;
分別計算由每一個所述邊緣像素點對確定的筆畫寬度值,其筆畫寬度值的大小為本邊緣像素對之間的歐式距離。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述從分析結(jié)果中篩選出是文本區(qū)域的連通域,包括:
從分析結(jié)果中篩選出是文本區(qū)域的連通域,篩選條件包括:連通域的筆劃寬度一致;而且與要識別的英語單詞的顏色相同的像素點在連通域中所占比例不低于第一預(yù)設(shè)值。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述從分析結(jié)果中篩選出是文本區(qū)域的連通域,包括:
從分析結(jié)果中篩選出是文本區(qū)域的連通域,篩選條件包括:連通域的筆劃寬度一致;而且連通域的筆畫方差不低于第二預(yù)設(shè)值、筆畫均值不低于第三預(yù)設(shè)值且連通域?qū)捀弑炔怀^第四預(yù)設(shè)值。
5.根據(jù)權(quán)利要求1-4中任一項所述的方法,其特征在于,所述利用光學(xué)字符識別模型對所述文本行進行識別前,還包括:利用最大類間方差二值化過濾所述文本行的背景噪音;
對應(yīng)的,所述利用光學(xué)字符識別模型對所述文本行進行識別,為:利用光學(xué)字符識別模型對背景噪音過濾后的文本行進行識別。
6.一種英語單詞識別裝置,其特征在于,包括:
筆畫寬度變換模塊,用于對輸入的視頻圖像進行筆畫寬度變換;
連通域分析篩選單元,用于對經(jīng)筆畫寬度變換后輸出的圖像進行連通域分析,并從分析結(jié)果中篩選出是文本區(qū)域的連通域;
文本行合并單元,用于對篩選出的連通域進行合并,得到文本行;
OCR識別單元,用于利用光學(xué)字符識別模型對所述文本行進行識別,其中,所述光學(xué)字符識別模型的訓(xùn)練數(shù)據(jù)為英文字母,每個英文字母都具有多種不同腐蝕度的模板;
語義分析單元,對識別出的文本行進行語義分析,選出符合語義的文本行。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述筆畫寬度變換模塊具體包括:
RGB圖像轉(zhuǎn)化單元,用于將輸入的視頻圖像解碼為RGB圖像;
灰度圖轉(zhuǎn)化單元,用于把所述RGB圖像轉(zhuǎn)化成灰度圖;
SWT圖像轉(zhuǎn)化單元,用于把所述灰度圖轉(zhuǎn)化成SWT圖像;
邊緣檢測單元,用于利用Canny邊緣檢測算子對所述SWT圖像進行邊緣檢測,得到所有邊緣像素點;
梯度方向計算單元,用于利用sobel算子分別計算得到各邊緣像素點的梯度方向;
筆畫寬度計算單元,用于為每一個所述邊緣像素點尋找與其梯度方向相反的邊緣像素點,形成邊緣像素點對;分別計算由每一個邊緣像素點對確定的筆畫寬度值,大小為本邊緣像素對之間的歐式距離。
8.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述連通域分析篩選單元具體用于對經(jīng)筆畫寬度變換后輸出的圖像進行連通域分析,并從中篩選出筆劃寬度一致,而且與要識別的英語單詞的顏色相同的像素點在連通域中所占比例不低于第一預(yù)設(shè)值的連通域。
9.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述連通域分析篩選單元具體用于對經(jīng)筆畫寬度變換后輸出的圖像進行連通域分析,并從中篩選出連通域的筆劃寬度一致,而且連通域的筆畫方差不低于第二預(yù)設(shè)值、筆畫均值不低于第三預(yù)設(shè)值且連通域?qū)捀弑炔怀^第四預(yù)設(shè)值的連通域。
10.根據(jù)權(quán)利要求6-9中任一項所述的裝置,其特征在于,所述裝置還包括:背景噪音過濾單元,用于在利用光學(xué)字符識別模型對所述文本行進行識別前,先利用最大類間方差二值化過濾所述文本行的背景噪音。