本發(fā)明涉及文字識(shí)別技術(shù)領(lǐng)域,更具體地說,涉及一種英語單詞識(shí)別方法和裝置。
背景技術(shù):
文本是計(jì)算機(jī)視覺的許多應(yīng)用中的一項(xiàng)重要特征,視頻圖像中的文本往往包含著豐富的信息,將視頻圖像里的文本進(jìn)行提取和識(shí)別,對(duì)于視頻圖像內(nèi)容的分析、理解、信息檢索等方面具有重要的意義。
從視頻圖像中提取文字的輪廓特征是文字識(shí)別過程中的重要一環(huán),比如說,在英語單詞識(shí)別過程中,需要先提取出各英文字母的輪廓特征再加以合并以識(shí)別出整個(gè)英語單詞。但由于視頻圖像是自然場(chǎng)景,在復(fù)雜場(chǎng)景下,其背景噪音過重,會(huì)使字母輪廓缺失難以識(shí)別從而出現(xiàn)英語單詞漏檢和識(shí)別錯(cuò)誤,影響英語單詞識(shí)別精確度。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明提供一種英語單詞識(shí)別方法和裝置,以提高復(fù)雜場(chǎng)景下英語單詞識(shí)別精確度。
一種英語單詞識(shí)別方法,包括:
對(duì)輸入的視頻圖像進(jìn)行筆畫寬度變換;
對(duì)經(jīng)筆畫寬度變換后輸出的圖像進(jìn)行連通域分析,并從分析結(jié)果中篩選出是文本區(qū)域的連通域;
對(duì)篩選出的連通域進(jìn)行合并,得到文本行;
利用光學(xué)字符識(shí)別模型對(duì)所述文本行進(jìn)行識(shí)別,其中,所述光學(xué)字符識(shí)別模型的訓(xùn)練數(shù)據(jù)為英文字母,每個(gè)英文字母都具有多種不同腐蝕度的模板;
對(duì)識(shí)別出的文本行進(jìn)行語義分析,選出符合語義的文本行。
其中,所述對(duì)輸入圖像進(jìn)行筆畫寬度變換,包括:
將輸入的視頻圖像解碼為RGB圖像;
把所述RGB圖像轉(zhuǎn)化成灰度圖;
把所述灰度圖轉(zhuǎn)化成標(biāo)準(zhǔn)窗口小部件工具箱圖像;
利用Canny邊緣檢測(cè)算子對(duì)所述標(biāo)準(zhǔn)窗口小部件工具箱圖像進(jìn)行邊緣檢測(cè),得到所有邊緣像素點(diǎn);
利用sobel算子分別計(jì)算得到各邊緣像素點(diǎn)的梯度方向;
為每一個(gè)所述邊緣像素點(diǎn)尋找與其梯度方向相反的邊緣像素點(diǎn),形成邊緣像素點(diǎn)對(duì);
分別計(jì)算由每一個(gè)所述邊緣像素點(diǎn)對(duì)確定的筆畫寬度值,其筆畫寬度值的大小為本邊緣像素對(duì)之間的歐式距離。
其中,所述從分析結(jié)果中篩選出是文本區(qū)域的連通域,包括:
從分析結(jié)果中篩選出是文本區(qū)域的連通域,篩選條件包括:連通域的筆劃寬度一致;而且與要識(shí)別的英語單詞的顏色相同的像素點(diǎn)在連通域中所占比例不低于第一預(yù)設(shè)值。
其中,所述從分析結(jié)果中篩選出是文本區(qū)域的連通域,包括:
從分析結(jié)果中篩選出是文本區(qū)域的連通域,篩選條件包括:連通域的筆劃寬度一致;而且連通域的筆畫方差不低于第二預(yù)設(shè)值、筆畫均值不低于第三預(yù)設(shè)值且連通域?qū)捀弑炔怀^第四預(yù)設(shè)值。
可選地,所述利用光學(xué)字符識(shí)別模型對(duì)所述文本行進(jìn)行識(shí)別前,還包括:利用最大類間方差二值化過濾所述文本行的背景噪音;
對(duì)應(yīng)的,所述利用光學(xué)字符識(shí)別模型對(duì)所述文本行進(jìn)行識(shí)別,為:利用光學(xué)字符識(shí)別模型對(duì)背景噪音過濾后的文本行進(jìn)行識(shí)別。
一種英語單詞識(shí)別裝置,包括:
筆畫寬度變換模塊,用于對(duì)輸入的視頻圖像進(jìn)行筆畫寬度變換;
連通域分析篩選單元,用于對(duì)經(jīng)筆畫寬度變換后輸出的圖像進(jìn)行連通域分析,并從分析結(jié)果中篩選出是文本區(qū)域的連通域;
文本行合并單元,用于對(duì)篩選出的連通域進(jìn)行合并,得到文本行;
OCR識(shí)別單元,用于利用光學(xué)字符識(shí)別模型對(duì)所述文本行進(jìn)行識(shí)別,其中,所述光學(xué)字符識(shí)別模型的訓(xùn)練數(shù)據(jù)為英文字母,每個(gè)英文字母都具有多種不同腐蝕度的模板;
語義分析單元,對(duì)識(shí)別出的文本行進(jìn)行語義分析,選出符合語義的文本行。
其中,所述筆畫寬度變換模塊具體包括:
RGB圖像轉(zhuǎn)化單元,用于將輸入的視頻圖像解碼為RGB圖像;
灰度圖轉(zhuǎn)化單元,用于把所述RGB圖像轉(zhuǎn)化成灰度圖;
SWT圖像轉(zhuǎn)化單元,用于把所述灰度圖轉(zhuǎn)化成SWT圖像;
邊緣檢測(cè)單元,用于利用Canny邊緣檢測(cè)算子對(duì)所述SWT圖像進(jìn)行邊緣檢測(cè),得到所有邊緣像素點(diǎn);
梯度方向計(jì)算單元,用于利用sobel算子分別計(jì)算得到各邊緣像素點(diǎn)的梯度方向;
筆畫寬度計(jì)算單元,用于為每一個(gè)所述邊緣像素點(diǎn)尋找與其梯度方向相反的邊緣像素點(diǎn),形成邊緣像素點(diǎn)對(duì);分別計(jì)算由每一個(gè)邊緣像素點(diǎn)對(duì)確定的筆畫寬度值,大小為本邊緣像素對(duì)之間的歐式距離。
其中,所述連通域分析篩選單元具體用于對(duì)經(jīng)筆畫寬度變換后輸出的圖像進(jìn)行連通域分析,并從中篩選出筆劃寬度一致,而且與要識(shí)別的英語單詞的顏色相同的像素點(diǎn)在連通域中所占比例不低于第一預(yù)設(shè)值的連通域。
其中,所述連通域分析篩選單元具體用于對(duì)經(jīng)筆畫寬度變換后輸出的圖像進(jìn)行連通域分析,并從中篩選出連通域的筆劃寬度一致,而且連通域的筆畫方差不低于第二預(yù)設(shè)值、筆畫均值不低于第三預(yù)設(shè)值且連通域?qū)捀弑炔怀^第四預(yù)設(shè)值的連通域。
可選地,所述裝置還包括:背景噪音過濾單元,用于在利用光學(xué)字符識(shí)別模型對(duì)所述文本行進(jìn)行識(shí)別前,先利用最大類間方差二值化過濾所述文本行的背景噪音。
從上述的技術(shù)方案可以看出,本發(fā)明通過預(yù)先對(duì)光學(xué)字符識(shí)別模型識(shí)別不同腐蝕度的英文字母進(jìn)行訓(xùn)練學(xué)習(xí),來增加字母輪廓受損情況下的識(shí)別率,降低了英語單詞漏檢率;并且本本發(fā)明還對(duì)識(shí)別出的文本行進(jìn)行語義分析篩選,以選出符合語義的文本行,降低了英語單詞錯(cuò)檢率,從而提高了復(fù)雜場(chǎng)景下英語單詞識(shí)別精確度。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明公開的一種英語單詞識(shí)別方法流程圖;
圖2為本發(fā)明公開的一種筆畫寬度變換方法流程圖;
圖3為本發(fā)明公開的一種英語單詞識(shí)別裝置結(jié)構(gòu)示意圖;
圖4為本發(fā)明公開的又一種英語單詞識(shí)別裝置結(jié)構(gòu)示意圖;
圖5為本發(fā)明公開的又一種英語單詞識(shí)別裝置結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
參見圖1,本發(fā)明實(shí)施例公開了一種英語單詞識(shí)別方法,以提高復(fù)雜場(chǎng)景下英語單詞識(shí)別精確度,包括:
步驟100:對(duì)輸入的視頻圖像進(jìn)行筆畫寬度變換;
對(duì)輸入的視頻圖像進(jìn)行筆劃寬度變換的目的在于得到連通域信息。筆劃寬度變換的思路如下:首先對(duì)輸入的視頻圖像進(jìn)行邊緣檢測(cè),得到邊緣信息;然后從每一個(gè)邊緣像素點(diǎn)出發(fā),找到與之梯度方向相反的邊緣像素點(diǎn),形成一個(gè)邊緣像素點(diǎn)對(duì);分別計(jì)算每一個(gè)邊緣像素點(diǎn)對(duì)之間的歐式距離,并將該值賦予本邊緣像素點(diǎn)對(duì)之間所有的像素點(diǎn)。經(jīng)過筆劃寬度變換后輸出的圖像像素點(diǎn)代表可能的筆劃寬度。利用筆劃寬度信息可以獲取可能的文本信息,因?yàn)楣P劃寬度一致的連通域很有可能是文本區(qū)域。
筆劃寬度變換的具體過程如圖2所示。包括:
步驟101:將輸入的視頻圖像解碼為RGB圖像;
步驟102:把所述RGB圖像轉(zhuǎn)化成灰度圖;
步驟103:把所述灰度圖轉(zhuǎn)化成SWT(Standard Widget Toolkit,標(biāo)準(zhǔn)窗口小部件工具箱)圖像;
步驟104:利用Canny邊緣檢測(cè)算子對(duì)所述SWT圖像進(jìn)行邊緣檢測(cè),得到所有邊緣像素點(diǎn);其中,Canny邊緣檢測(cè)算子是John F.Canny于1986年開發(fā)出來的一個(gè)多級(jí)邊緣檢測(cè)算法;
步驟105:利用sobel算子(Sobel operator,索貝爾算子)分別計(jì)算得到各邊緣像素點(diǎn)的梯度方向;
步驟106:為每一個(gè)所述邊緣像素點(diǎn)尋找與其梯度方向相反的邊緣像素點(diǎn),形成邊緣像素點(diǎn)對(duì);
步驟107:分別計(jì)算由每一個(gè)所述邊緣像素點(diǎn)對(duì)確定的筆畫寬度值,其筆畫寬度值的大小為本邊緣像素對(duì)之間的歐式距離。
步驟200:對(duì)經(jīng)筆畫寬度變換后輸出的圖像進(jìn)行連通域分析,并從分析結(jié)果中篩選出是文本區(qū)域的連通域;
連通域是指經(jīng)筆畫寬度變換后輸出的圖像中具有相同像素值且位置相鄰的前景像素點(diǎn)組成的圖像區(qū)域。連通域分析是指將經(jīng)筆畫寬度變換后的輸出的圖像中的各個(gè)連通域找出并標(biāo)記?,F(xiàn)有技術(shù)在英語單詞識(shí)別過程中,在從中篩選出是文本區(qū)域的連通域時(shí)通常只考慮連通域的筆劃寬度是否一致,但背景顏色的干擾容易導(dǎo)致英語單詞錯(cuò)檢,因此本實(shí)施例增加一篩選條件:與英語單詞的顏色相同的像素點(diǎn)在連通域中所占比例不低于第一預(yù)設(shè)值,比如說,要識(shí)別的英語單詞為黑色,則可要求黑色像素點(diǎn)在連通域中所占比例不低于60%。此外,為避免因英語單詞過小出現(xiàn)錯(cuò)檢,也可以再增加一篩選條件:筆畫方差不低于第二預(yù)設(shè)值、筆畫均值不低于第三預(yù)設(shè)值、且連通域?qū)捀弑炔怀^第四預(yù)設(shè)值。
步驟300:對(duì)篩選出的連通域進(jìn)行合并,得到文本行;
例如,篩選出的幾個(gè)連通域從左到右依次是顯示內(nèi)容為l的連通域、顯示內(nèi)容為u的連通域、顯示內(nèi)容為c的連通域、顯示內(nèi)容為k的連通域、顯示內(nèi)容為y的連通域,則合并之后可得到文本行l(wèi)ucky。
步驟400:利用OCR(Optical Character Recognition,光學(xué)字符識(shí)別)模型對(duì)所述文本行進(jìn)行識(shí)別,其中,所述OCR模型的訓(xùn)練數(shù)據(jù)為英文字母(所述26個(gè)英文字母包括26個(gè)大寫英文字母A~Z和/或26個(gè)小寫英文字母a~z),每個(gè)英文字母都具有多種不同腐蝕度的模板;
本實(shí)施例預(yù)先對(duì)所述OCR模型識(shí)別不同腐蝕度的英文字母進(jìn)行訓(xùn)練學(xué)習(xí),增加了英文字母輪廓受損情況下的識(shí)別率,訓(xùn)練模型可以采用現(xiàn)有的SVM(Support Vector Machine,支持向量機(jī))算法,但并不局限。其中,所述多種不同腐蝕度的模板,可以是:完整無腐蝕的模板、低程度腐蝕的模板、中程度腐蝕的模板和高程度腐蝕的模板。
步驟500:對(duì)識(shí)別出的文本行進(jìn)行語義分析,選出符合語義的文本行。
英語單詞出現(xiàn)在視頻圖像中的次數(shù)具有一定的時(shí)間規(guī)律性,因此本實(shí)施例對(duì)已經(jīng)識(shí)別出的英語單詞進(jìn)行語義統(tǒng)計(jì),統(tǒng)計(jì)的數(shù)量越多,語義統(tǒng)計(jì)結(jié)果就越精確,若本次識(shí)別出的文本行不符合語義,即與先前得到的語義統(tǒng)計(jì)結(jié)果不符,則將本次識(shí)別出的文本行排除,以降低錯(cuò)檢率,這便是對(duì)本次識(shí)別出的文本行進(jìn)行語義分析的基本思想。例如,已經(jīng)識(shí)別出的英語單詞包括多次出現(xiàn)在視頻圖像中的happy、happiness、joy、relaxed等,其語義相近,若本次識(shí)別出的文本行為pain,則由于其與前者語義相反,可知其不符合語義,為一錯(cuò)檢單詞,需排除。本實(shí)施例可采用HMM(Hidden Markov Model,隱馬爾可夫模型)來對(duì)文本行進(jìn)行語義分析統(tǒng)計(jì),但并不局限。
由上可知,對(duì)輸入的視頻圖像進(jìn)行筆畫寬度變換,再對(duì)經(jīng)筆畫寬度變換后輸出的圖像進(jìn)行連通域分析,并從中篩選出是文本區(qū)域的連通域,再對(duì)篩選出的連通域進(jìn)行合并,得到文本行,再對(duì)所述文本行進(jìn)行OCR識(shí)別,是對(duì)視頻圖像中文字進(jìn)行識(shí)別的常規(guī)技術(shù)手段。但視頻圖像中背景噪音過重的干擾會(huì)使字母輪廓缺失難以識(shí)別從而出現(xiàn)英語單詞漏檢和識(shí)別錯(cuò)誤,影響英語單詞識(shí)別精確度。對(duì)此,本實(shí)施例預(yù)先對(duì)OCR模型識(shí)別不同腐蝕度的英文字母進(jìn)行訓(xùn)練學(xué)習(xí),來增加字母輪廓受損情況下的識(shí)別率,降低了英語單詞漏檢率;并且本實(shí)施例還對(duì)識(shí)別出的文本行進(jìn)行語義分析,選出符合語義的文本行,降低了英語單詞錯(cuò)檢率,從而提高了復(fù)雜場(chǎng)景下英語單詞識(shí)別精確度。
此外,在利用OCR模型對(duì)所述文本行進(jìn)行識(shí)別前,還可先利用OSTU(最大類間方差)二值化過濾所述文本行的背景噪音,之后再利用OCR模型對(duì)背景噪音過濾后的文本行進(jìn)行識(shí)別。其有益效果在于:通過過濾背景噪音,可以使文本行輪廓清晰,減少背景噪音對(duì)待識(shí)別英語單詞的干擾腐蝕,進(jìn)一步減少錯(cuò)檢情況。
此外,參見圖3,本發(fā)明實(shí)施例還公開了一種英語單詞識(shí)別裝置,以提高復(fù)雜場(chǎng)景下英語單詞識(shí)別精確度,包括:
筆畫寬度變換模塊100,用于對(duì)輸入的視頻圖像進(jìn)行筆畫寬度變換;
連通域分析篩選單元200,用于對(duì)經(jīng)筆畫寬度變換后輸出的圖像進(jìn)行連通域分析,并從分析結(jié)果中篩選出是文本區(qū)域的連通域;
文本行合并單元300,用于對(duì)篩選出的連通域進(jìn)行合并,得到文本行;
OCR識(shí)別單元400,用于利用光學(xué)字符識(shí)別模型對(duì)所述文本行進(jìn)行識(shí)別,其中,所述光學(xué)字符識(shí)別模型的訓(xùn)練數(shù)據(jù)為英文字母,每個(gè)英文字母都具有多種不同腐蝕度的模板;
語義分析單元500,對(duì)識(shí)別出的文本行進(jìn)行語義分析,選出符合語義的文本行。
其中,參見圖4,筆畫寬度變換模塊100具體包括:
RGB圖像轉(zhuǎn)化單元101,用于將輸入的視頻圖像解碼為一幀一幀的RGB圖像;
灰度圖轉(zhuǎn)化單元102,用于把所述RGB圖像轉(zhuǎn)化成灰度圖;
SWT圖像轉(zhuǎn)化單元103,用于把所述灰度圖轉(zhuǎn)化成SWT圖像;
邊緣檢測(cè)單元104,用于利用Canny邊緣檢測(cè)算子對(duì)所述SWT圖像進(jìn)行邊緣檢測(cè),得到所有邊緣像素點(diǎn);
梯度方向計(jì)算單元105,用于利用sobel算子分別計(jì)算得到各邊緣像素點(diǎn)的梯度方向;
筆畫寬度計(jì)算單元106,用于為每一個(gè)所述邊緣像素點(diǎn)尋找與其梯度方向相反的邊緣像素點(diǎn),形成邊緣像素點(diǎn)對(duì);分別計(jì)算由每一個(gè)邊緣像素點(diǎn)對(duì)確定的筆畫寬度值,大小為本邊緣像素對(duì)之間的歐式距離。
其中,連通域分析篩選單元200具體用于對(duì)經(jīng)筆畫寬度變換后輸出的圖像進(jìn)行連通域分析,并從中篩選出筆劃寬度一致,而且與要識(shí)別的英語單詞的顏色相同的像素點(diǎn)在連通域中所占比例不低于第一預(yù)設(shè)值的連通域。
或者,連通域分析篩選單元200具體用于對(duì)經(jīng)筆畫寬度變換后輸出的圖像進(jìn)行連通域分析,并從中篩選出連通域的筆劃寬度一致,而且連通域的筆畫方差不低于第二預(yù)設(shè)值、筆畫均值不低于第三預(yù)設(shè)值且連通域?qū)捀弑炔怀^第四預(yù)設(shè)值的連通域。
可選地,如圖5所示,所述英語單詞識(shí)別裝置還包括:背景噪音過濾單元600,用于在利用光學(xué)字符識(shí)別模型對(duì)所述文本行進(jìn)行識(shí)別前,先利用最大類間方差二值化過濾所述文本行的背景噪音。
綜上所述,本發(fā)明通過預(yù)先對(duì)光學(xué)字符識(shí)別模型識(shí)別不同腐蝕度的英文字母進(jìn)行訓(xùn)練學(xué)習(xí),來增加字母輪廓受損情況下的識(shí)別率,降低了英語單詞漏檢率;并且本本發(fā)明還對(duì)識(shí)別出的文本行進(jìn)行語義分析篩選,以選出符合語義的文本行,降低了英語單詞錯(cuò)檢率,從而提高了復(fù)雜場(chǎng)景下英語單詞識(shí)別精確度。
本說明書中各個(gè)實(shí)施例采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似部分互相參見即可。對(duì)于實(shí)施例公開的裝置而言,由于其與實(shí)施例公開的方法相對(duì)應(yīng),所以描述的比較簡(jiǎn)單,相關(guān)之處參見方法部分說明即可。
對(duì)所公開的實(shí)施例的上述說明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對(duì)這些實(shí)施例的多種修改對(duì)本領(lǐng)域的專業(yè)技術(shù)人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本發(fā)明實(shí)施例的精神或范圍的情況下,在其它實(shí)施例中實(shí)現(xiàn)。因此,本發(fā)明實(shí)施例將不會(huì)被限制于本文所示的這些實(shí)施例,而是要符合與本文所公開的原理和新穎特點(diǎn)相一致的最寬的范圍。