本發(fā)明涉及圖像識(shí)別技術(shù)領(lǐng)域,尤其涉及一種圖片中文字信息的提取方法及裝置。
背景技術(shù):
隨著數(shù)字化理念深入到生活的方方面面,人們愈發(fā)習(xí)慣通過電子產(chǎn)品的渠道獲取信息,如在智能手機(jī)上瀏覽新聞、閱讀電子書、發(fā)送郵件和短消息進(jìn)行交流等,傳統(tǒng)的報(bào)紙、書籍和書信等媒體形式和信息傳播方式,已受到極大沖擊。除此以外,隨著智能手機(jī)和數(shù)碼相機(jī)等的普及,人們記錄信息的方式也有所改變。通過拍攝圖片的方式進(jìn)行信息記錄,由于其方便快捷的特點(diǎn),也十分普及。然而,利用圖像的方式記錄信息存在的問題是,若圖像中主要的信息為文字信息,為了對(duì)文字信息進(jìn)行再利用或者二次傳播,需要將圖像中的文字信息提取出來。如何準(zhǔn)確提取圖像中的文字信息,成為一個(gè)亟待解決的問題。尤其當(dāng)拍攝的圖像中的文本內(nèi)容,為了追求藝術(shù)化的效果,具有復(fù)雜多樣的排版時(shí),其中字體、文字大小和排列方式等多種多樣,更為圖像中文字信息的提取增加了難度。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例提供了一種圖片中文字信息的提取方法及裝置,可以結(jié)合圖像中文字的排版規(guī)律進(jìn)行文字信息的提取,并且數(shù)據(jù)運(yùn)算量較低,速度快。
本發(fā)明實(shí)施例第一方面公開了一種圖像中文字信息的提取方法,包括:
對(duì)圖像進(jìn)行灰度處理和二值化處理以得到二值化圖像;
對(duì)所述二值化圖像進(jìn)行邊緣檢測(cè),以獲得所述二值化圖像中的文字子區(qū)域;
根據(jù)所述文字子區(qū)域的分布確定所述圖像中文字的排版規(guī)律;
根據(jù)所述排版規(guī)律對(duì)所述文字子區(qū)域進(jìn)行字符切分以獲得單個(gè)字符;
對(duì)所述單個(gè)字符進(jìn)行匹配以獲得所述單個(gè)字符的識(shí)別結(jié)果。
作為一種可選的實(shí)施方式,所述根據(jù)所述排版規(guī)律對(duì)所述文字子區(qū)域進(jìn)行字符切分以獲得單個(gè)字符,包括:
根據(jù)所述排版規(guī)律確定利用投影法進(jìn)行字符切分時(shí)的掃描行距與掃描列距;
利用所述掃描行距對(duì)所述文字子區(qū)域進(jìn)行行切分以獲得文字行;
利用所述掃描列距對(duì)所述文字行進(jìn)行字切分以獲得所述單個(gè)字符。
作為一種可選的實(shí)施方式,所述對(duì)所述單個(gè)字符進(jìn)行匹配以獲得所述單個(gè)字符的識(shí)別結(jié)果之后,所述方法還包括:
判斷所述識(shí)別結(jié)果是否為數(shù)字或字母;
若所述識(shí)別結(jié)果為數(shù)字或字母,則對(duì)所述單個(gè)字符所在的文字行進(jìn)行語義識(shí)別,以糾正數(shù)字和字母混淆的錯(cuò)誤。
作為一種可選的實(shí)施方式,所述對(duì)所述二值化圖像進(jìn)行邊緣檢測(cè),以獲得所述二值化圖像中的文字子區(qū)域,包括:
對(duì)所述二值化圖像進(jìn)行邊緣檢測(cè)以劃分出子區(qū)域;
通過支持向量機(jī)SVM分類器將所述子區(qū)域中不包含文字的子區(qū)域排除,以獲得所述二值化圖像中的所述文字子區(qū)域。
作為一種可選的實(shí)施方式,所述對(duì)所述單個(gè)字符進(jìn)行匹配以獲得所述單個(gè)字符的識(shí)別結(jié)果之后,所述方法還包括:
將所述識(shí)別結(jié)果按照所述排版規(guī)律輸出到文檔。
本發(fā)明實(shí)施例第二方面公開了一種圖像中文字信息的提取裝置,包括:
預(yù)處理單元,用于對(duì)圖像進(jìn)行灰度處理和二值化處理以得到二值化圖像;
區(qū)域劃分單元,用于對(duì)所述二值化圖像進(jìn)行邊緣檢測(cè),以獲得所述二值化圖像中的文字子區(qū)域;
確定單元,用于根據(jù)所述文字子區(qū)域的分布確定所述圖像中文字的排版規(guī)律;
字符切分單元,用于根據(jù)所述排版規(guī)律對(duì)所述文字子區(qū)域進(jìn)行字符切分以獲得單個(gè)字符;
字符匹配單元,用于對(duì)所述單個(gè)字符進(jìn)行匹配以獲得所述單個(gè)字符的識(shí)別結(jié)果。
作為一種可選的實(shí)施方式,所述字符切分單元,包括:
確定子單元,用于根據(jù)所述排版規(guī)律確定利用投影法進(jìn)行字符切分時(shí)的掃描行距與掃描列距;
行切分子單元,用于利用所述掃描行距對(duì)所述文字子區(qū)域進(jìn)行行切分以獲得文字行;
字切分子單元,用于利用所述掃描列距對(duì)所述文字行進(jìn)行字切分以獲得所述單個(gè)字符。
作為一種可選的實(shí)施方式,所述裝置還包括:
判斷單元,用于判斷所述識(shí)別結(jié)果是否為數(shù)字或字母;
糾錯(cuò)單元,用于當(dāng)所述識(shí)別結(jié)果為數(shù)字或字母時(shí),對(duì)所述單個(gè)字符所在的文字行進(jìn)行語義識(shí)別,以糾正數(shù)字和字母混淆的錯(cuò)誤。
作為一種可選的實(shí)施方式,所述區(qū)域劃分單元,包括:
分區(qū)子單元,用于對(duì)所述二值化圖像進(jìn)行邊緣檢測(cè)以劃分出子區(qū)域;
篩選子單元,用于通過支持向量機(jī)SVM分類器將所述子區(qū)域中不包含文字的子區(qū)域排除,以獲得所述二值化圖像中的所述文字子區(qū)域。
作為一種可選的實(shí)施方式,所述裝置還包括:
輸出單元,用于將所述識(shí)別結(jié)果按照所述排版規(guī)律輸出到文檔。
從以上技術(shù)方案可以看出,本發(fā)明實(shí)施例具有以下優(yōu)點(diǎn):
本發(fā)明實(shí)施例中,對(duì)圖像進(jìn)行灰度處理和二值化處理以得到二值化圖像;對(duì)所述二值化圖像進(jìn)行邊緣檢測(cè),以獲得所述二值化圖像中的文字子區(qū)域;根據(jù)所述文字子區(qū)域的分布確定所述圖像中文字的排版規(guī)律;根據(jù)所述排版規(guī)律對(duì)所述文字子區(qū)域進(jìn)行字符切分以獲得單個(gè)字符;對(duì)所述單個(gè)字符進(jìn)行匹配以獲得所述單個(gè)字符的識(shí)別結(jié)果。由此可見,實(shí)施本發(fā)明實(shí)施例,可以結(jié)合圖像中文字的排版規(guī)律進(jìn)行文字信息的提取,并且數(shù)據(jù)運(yùn)算量較低,速度快。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡要介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域的普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實(shí)施例公開的一種圖片中文字信息的提取方法的流程示意圖;
圖2為本發(fā)明實(shí)施例公開的另一種圖片中文字信息的提取方法的流程示意圖;
圖3為本發(fā)明實(shí)施例公開的一種圖片中文字信息的提取裝置的結(jié)構(gòu)示意圖;
圖4為本發(fā)明實(shí)施例公開的另一種圖片中文字信息的提取裝置的結(jié)構(gòu)示意圖;
圖5為本發(fā)明實(shí)施例公開的一種終端設(shè)備的結(jié)構(gòu)示意圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步地詳細(xì)描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部份實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其它實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”等是用于區(qū)別不同的對(duì)象,而不是用于描述特定順序。此外,術(shù)語“包括”和“具有”以及它們?nèi)魏巫冃危鈭D在于覆蓋不排他的包含。例如包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備沒有限定于已列出的步驟或單元,而是可選地還包括沒有列出的步驟或單元,或可選地還包括對(duì)于這些過程、方法或設(shè)備固有的其他步驟或單元。
本發(fā)明實(shí)施例提供了一種圖片中文字信息的提取方法及裝置,可以結(jié)合圖像中文字的排版規(guī)律進(jìn)行文字信息的提取,并且數(shù)據(jù)運(yùn)算量較低,速度快。以下分別進(jìn)行詳細(xì)說明。
請(qǐng)參閱圖1,圖1是本發(fā)明實(shí)施例公開的一種圖片中文字信息的提取方法的流程示意圖。其中,圖1所示的方法可以包括以下步驟:
101、對(duì)圖像進(jìn)行灰度處理和二值化處理以得到二值化圖像。
本發(fā)明實(shí)施例中,終端設(shè)備獲取到圖像后,首先對(duì)圖像進(jìn)行灰度處理和二值化處理以得到二值化圖像。進(jìn)行了上述兩種處理后,可以去除冗余信息,顯著降低圖像的數(shù)據(jù)量,從而加快處理速度;并且,在對(duì)圖像進(jìn)行二值化處理后,可以提高圖像中輪廓邊緣的梯度,有利于后續(xù)邊緣檢測(cè)時(shí)更容易進(jìn)行區(qū)域劃分。
102、對(duì)上述二值化圖像進(jìn)行邊緣檢測(cè),以獲得上述二值化圖像中的文字子區(qū)域。
作為一種可選的實(shí)施方式,先對(duì)上述二值化圖像進(jìn)行邊緣檢測(cè)以劃分出子區(qū)域;再通過支持向量機(jī)SVM分類器將上述子區(qū)域中不包含文字的子區(qū)域排除,以獲得上述二值化圖像中的上述文字子區(qū)域。其中,上述邊緣檢測(cè)過程,可以通過Canny算法、Log算法以及Sobel算法等實(shí)現(xiàn),具體采用何種算法,本發(fā)明實(shí)施例不做限定。
103、根據(jù)上述文字子區(qū)域的分布確定上述圖像中文字的排版規(guī)律。
由于文本的排版,為了追求好的視覺效果,往往具有較為固定的排版規(guī)律。因此,將圖像中包含文字的子區(qū)域劃分出來后,可以根據(jù)上述文字子區(qū)域的位置分布和區(qū)塊大小來確定該文字圖像中文字的排版規(guī)律。作為一種可選的實(shí)施方式,可以先對(duì)常用的排版規(guī)律進(jìn)行總結(jié),建立排版規(guī)律數(shù)據(jù)庫,在獲取了圖像中文字子區(qū)域的位置分布和區(qū)塊大小等信息后,與數(shù)據(jù)庫中的排版規(guī)律進(jìn)行匹配,以確定上述圖像中文字的排版規(guī)律。
104、根據(jù)上述排版規(guī)律對(duì)上述文字子區(qū)域進(jìn)行字符切分以獲得單個(gè)字符。
本發(fā)明實(shí)施例中,結(jié)合上述排版規(guī)律來對(duì)原有的進(jìn)行字符切分的投影法進(jìn)行改進(jìn),利用改進(jìn)后的投影法來對(duì)上述文字子區(qū)域進(jìn)行字符切分。首先,根據(jù)上述排版規(guī)律確定利用投影法進(jìn)行字符切分時(shí)的掃描行距與掃描列距;再利用上述掃描行距對(duì)上述文字子區(qū)域進(jìn)行行切分以獲得文字行;之后利用上述掃描列距對(duì)上述文字行進(jìn)行字切分以獲得上述單個(gè)字符。
原有的投影法中,掃描行距與掃描列距為固定值,為了獲得較好的切分效果,掃描行距與掃描列距通常設(shè)置為一個(gè)非常小的值,從而降低對(duì)符號(hào)、大小不一的文字的錯(cuò)誤切分。因此,為了避免錯(cuò)誤切分,原投影法需進(jìn)行的數(shù)據(jù)運(yùn)算量較大。而上述改進(jìn)后的投影法,可以根據(jù)圖像中文字的排版規(guī)律來確定掃描行距和掃描列距,當(dāng)文字子區(qū)域中的字符的字號(hào)較大時(shí),選取較大的值作為掃描行距和掃描列距,從而降低進(jìn)行字符切分的運(yùn)算量。
105、對(duì)上述單個(gè)字符進(jìn)行匹配以獲得上述單個(gè)字符的識(shí)別結(jié)果。
本發(fā)明實(shí)施例中,將上述切分出的單個(gè)字符,與數(shù)據(jù)庫中的模板字符進(jìn)行比對(duì),從而確定上述單個(gè)字符的識(shí)別結(jié)果。
由此可見,利用圖1所描述的方法,可以結(jié)合圖像中文字的排版規(guī)律進(jìn)行文字信息的提取,并且數(shù)據(jù)運(yùn)算量較低,速度快。
請(qǐng)參閱圖2,圖2是本發(fā)明實(shí)施例公開的另一種圖片中文字信息的提取方法的流程示意圖。如圖2所示,該方法可以包括以下步驟:
201、對(duì)圖像進(jìn)行灰度處理和二值化處理以得到二值化圖像。
本發(fā)明實(shí)施例中,終端設(shè)備獲取到圖像后,首先對(duì)圖像進(jìn)行灰度處理和二值化處理以得到二值化圖像。進(jìn)行了上述兩種處理后,可以去除冗余信息,顯著降低圖像的數(shù)據(jù)量,從而加快處理速度;并且,在對(duì)圖像進(jìn)行二值化處理后,可以提高圖像中輪廓邊緣的梯度,有利于后續(xù)邊緣檢測(cè)時(shí)更容易進(jìn)行區(qū)域劃分。
202、對(duì)上述二值化圖像進(jìn)行邊緣檢測(cè),以獲得上述二值化圖像中的文字子區(qū)域。
作為一種可選的實(shí)施方式,先對(duì)上述二值化圖像進(jìn)行邊緣檢測(cè)以劃分出子區(qū)域;再通過支持向量機(jī)SVM分類器將上述子區(qū)域中不包含文字的子區(qū)域排除,以獲得上述二值化圖像中的上述文字子區(qū)域。其中,上述邊緣檢測(cè)過程,可以通過Canny算法、Log算法以及Sobel算法等實(shí)現(xiàn),具體采用何種算法,本發(fā)明實(shí)施例不做限定。
203、根據(jù)上述文字子區(qū)域的分布確定上述圖像中文字的排版規(guī)律。
由于文本的排版,為了追求好的視覺效果,往往具有較為固定的排版規(guī)律。因此,將圖像中包含文字的子區(qū)域劃分出來后,可以根據(jù)上述文字子區(qū)域的位置分布和區(qū)塊大小來確定該文字圖像中文字的排版規(guī)律。作為一種可選的實(shí)施方式,可以先對(duì)常用的排版規(guī)律進(jìn)行總結(jié),建立排版規(guī)律數(shù)據(jù)庫,在獲取了圖像中文字子區(qū)域的位置分布和區(qū)塊大小等信息后,與數(shù)據(jù)庫中的排版規(guī)律進(jìn)行匹配,以確定上述圖像中文字的排版規(guī)律。
204、根據(jù)上述排版規(guī)律對(duì)上述文字子區(qū)域進(jìn)行字符切分以獲得單個(gè)字符。
本發(fā)明實(shí)施例中,結(jié)合上述排版規(guī)律來對(duì)原有的進(jìn)行字符切分的投影法進(jìn)行改進(jìn),利用改進(jìn)后的投影法來對(duì)上述文字子區(qū)域進(jìn)行字符切分。首先,根據(jù)上述排版規(guī)律確定利用投影法進(jìn)行字符切分時(shí)的掃描行距與掃描列距;再利用上述掃描行距對(duì)上述文字子區(qū)域進(jìn)行行切分以獲得文字行;之后利用上述掃描列距對(duì)上述文字行進(jìn)行字切分以獲得上述單個(gè)字符。
原有的投影法中,掃描行距與掃描列距為固定值,為了獲得較好的切分效果,掃描行距與掃描列距通常設(shè)置為一個(gè)非常小的值,從而降低對(duì)符號(hào)、大小不一的文字的錯(cuò)誤切分。因此,為了避免錯(cuò)誤切分,原投影法需進(jìn)行的數(shù)據(jù)運(yùn)算量較大。而上述改進(jìn)后的投影法,可以根據(jù)圖像中文字的排版規(guī)律來確定掃描行距和掃描列距,當(dāng)文字子區(qū)域中的字符的字號(hào)較大時(shí),選取較大的值作為掃描行距和掃描列距,從而降低進(jìn)行字符切分的運(yùn)算量。
205、對(duì)上述單個(gè)字符進(jìn)行匹配以獲得上述單個(gè)字符的識(shí)別結(jié)果。
206、判斷上述識(shí)別結(jié)果是否為數(shù)字或字母。
由于部分?jǐn)?shù)字和字母形狀比較相近,比如字母“O”和數(shù)字“0”等,因而通過算法進(jìn)行自動(dòng)識(shí)別的話,有較高的概率相互混淆而識(shí)別錯(cuò)誤,因此,若上述單個(gè)字符的識(shí)別結(jié)果為數(shù)字或字母時(shí),可采取一定的措施進(jìn)行二次判斷,從而糾正數(shù)字和字母混淆的錯(cuò)誤。
207、若上述識(shí)別結(jié)果為數(shù)字或字母,則對(duì)上述單個(gè)字符所在的文字行進(jìn)行語義識(shí)別,以糾正數(shù)字和字母混淆的錯(cuò)誤。
本發(fā)明實(shí)施例中,通過對(duì)上述單個(gè)字符所在的文字行進(jìn)行語義識(shí)別的方式,確定是否發(fā)生數(shù)字和字母混淆的錯(cuò)誤,若出現(xiàn)上述錯(cuò)誤,則基于語義識(shí)別的結(jié)果進(jìn)行糾正。
208、將上述識(shí)別結(jié)果按照上述排版規(guī)律輸出到文檔。
本發(fā)明實(shí)施例中,可以將字符的識(shí)別結(jié)果依照其排版規(guī)律進(jìn)行輸出,最終獲得的文本具有原本的排版規(guī)律,其可讀性更高。
由此可見,利用圖2所描述的方法,可以結(jié)合圖像中文字的排版規(guī)律進(jìn)行文字信息的提取,并且數(shù)據(jù)運(yùn)算量較低,速度快。除此之外,本方法可以實(shí)現(xiàn)對(duì)數(shù)字和字母識(shí)別混淆的情況的矯正;并且,輸入的文本具有原本的排版規(guī)律,其可讀性更高。
請(qǐng)參閱圖3,圖3是本發(fā)明實(shí)施例公開的一種圖片中文字信息的提取裝置的結(jié)構(gòu)示意圖。如圖3所示,該裝置可以包括:
預(yù)處理單元301,用于對(duì)圖像進(jìn)行灰度處理和二值化處理以得到二值化圖像。
區(qū)域劃分單元302,用于對(duì)上述二值化圖像進(jìn)行邊緣檢測(cè),以獲得上述二值化圖像中的文字子區(qū)域。
確定單元303,用于根據(jù)上述文字子區(qū)域的分布確定上述圖像中文字的排版規(guī)律。
字符切分單元304,用于根據(jù)上述排版規(guī)律對(duì)上述文字子區(qū)域進(jìn)行字符切分以獲得單個(gè)字符。
字符匹配單元305,用于對(duì)上述單個(gè)字符進(jìn)行匹配以獲得上述單個(gè)字符的識(shí)別結(jié)果。
由此可見,利用圖3所描述的裝置,可以結(jié)合圖像中文字的排版規(guī)律進(jìn)行文字信息的提取,并且數(shù)據(jù)運(yùn)算量較低,速度快。
請(qǐng)一并參閱圖4,圖4是本發(fā)明實(shí)施例公開的另一種圖片中文字信息的提取裝置的結(jié)構(gòu)示意圖。其中,圖4所示的裝置是由圖3所示的裝置進(jìn)行優(yōu)化得到的,與圖3所示的裝置相比,圖4所示的裝置還包括:
判斷單元306,用于判斷上述識(shí)別結(jié)果是否為數(shù)字或字母。
糾錯(cuò)單元307,用于當(dāng)上述識(shí)別結(jié)果為數(shù)字或字母時(shí),對(duì)上述單個(gè)字符所在的文字行進(jìn)行語義識(shí)別,以糾正數(shù)字和字母混淆的錯(cuò)誤。
作為一種可選的實(shí)施方式,該裝置還包括:
輸出單元308,用于將上述識(shí)別結(jié)果按照上述排版規(guī)律輸出到文檔。
作為一種可選的實(shí)施方式,上述字符切分單元304,包括:
確定子單元3041,用于根據(jù)上述排版規(guī)律確定利用投影法進(jìn)行字符切分時(shí)的掃描行距與掃描列距;
行切分子單元3042,用于利用上述掃描行距對(duì)上述文字子區(qū)域進(jìn)行行切分以獲得文字行;
字切分子單元3043,用于利用上述掃描列距對(duì)上述文字行進(jìn)行字切分以獲得上述單個(gè)字符。
由此可見,利用圖4所描述的裝置,可以結(jié)合圖像中文字的排版規(guī)律進(jìn)行文字信息的提取,并且數(shù)據(jù)運(yùn)算量較低,速度快。除此之外,本裝置可以實(shí)現(xiàn)對(duì)數(shù)字和字母識(shí)別混淆的情況的矯正;并且,輸入的文本具有原本的排版規(guī)律,其可讀性更高。
請(qǐng)參閱圖5,圖5是本發(fā)明實(shí)施例公開的一種終端設(shè)備的結(jié)構(gòu)示意圖。如圖5所示,該終端設(shè)備可以包括:
輸入單元501、處理器單元502、輸出單元503、通信單元504、存儲(chǔ)單元505和電源506等組件。這些組件通過一條或多條總線進(jìn)行通信。本領(lǐng)域技術(shù)人員可以理解,圖5所示的裝置的結(jié)構(gòu)并不構(gòu)成對(duì)本發(fā)明的限定,它既可以是總線形結(jié)構(gòu),也可以是星型結(jié)構(gòu),還可以包括比圖5所示的結(jié)構(gòu)更多或更少的部件,或者組合某些部件,或者不同的部件布置。在本發(fā)明實(shí)施方式中,圖5所示的終端設(shè)備包括但不限于移動(dòng)電話、移動(dòng)電腦、平板電腦、個(gè)人數(shù)字助理(Personal Digital Assistant,PDA)等各種終端設(shè)備。
輸入單元501用于實(shí)現(xiàn)用戶與終端設(shè)備的交互和/或信息輸入到終端設(shè)備中。在本發(fā)明具體實(shí)施方式中,輸入單元501可以是觸控面板,觸控面板也稱為觸摸屏或觸控屏,可收集用戶在其上觸摸或接近的操作動(dòng)作。比如用戶使用手指、觸筆等任何適合的物體或附件在觸控面板上或接近觸控面板的位置的操作動(dòng)作,并根據(jù)預(yù)先設(shè)定的程式驅(qū)動(dòng)相應(yīng)的連接裝置??蛇x的,觸控面板可包括觸摸檢測(cè)裝置和觸摸控制器兩個(gè)部分。其中,觸摸檢測(cè)裝置檢測(cè)用戶的觸摸操作,并將檢測(cè)到的觸摸操作轉(zhuǎn)換為電信號(hào),以及將電信號(hào)傳送給觸摸控制器;觸摸控制器從觸摸檢測(cè)裝置上接收電信號(hào),并將它轉(zhuǎn)換成觸點(diǎn)坐標(biāo),再送給處理器單元502。觸摸控制器還可以接收處理器單元502發(fā)來的命令并執(zhí)行。此外,可以采用電阻式、電容式、紅外線(Infrared)以及表面聲波等多種類型實(shí)現(xiàn)觸控面板。除此之外,在本發(fā)明具體實(shí)施方式中,輸入單元501還可以是環(huán)境光傳感器,用以獲取終端設(shè)備當(dāng)前環(huán)境的光線強(qiáng)度。
處理器單元502為終端設(shè)備的控制中心,利用各種接口和線路連接整個(gè)終端設(shè)備的各個(gè)部分,通過運(yùn)行或執(zhí)行存儲(chǔ)在存儲(chǔ)單元505內(nèi)的程序代碼和/或模塊,以及調(diào)用存儲(chǔ)在存儲(chǔ)單元505內(nèi)的數(shù)據(jù),以執(zhí)行終端設(shè)備的各種功能和/或處理數(shù)據(jù)。處理器單元可以由集成電路(Integrated Circuit,簡稱IC)組成,例如可以由單顆封裝的IC所組成,也可以由連接多顆相同功能或不同功能的封裝IC而組成。舉例來說,處理器單元502可以僅包括中央處理器(Central ProcessingUnit,簡稱CPU),也可以是CPU、數(shù)字信號(hào)處理器(digitalsignal processor,簡稱DSP)、圖形處理器(Graphic Processing Unit,簡稱GPU)及通信單元中的控制芯片(例如基帶芯片)的組合。在本發(fā)明實(shí)施方式中,CPU可以是單運(yùn)算核心,也可以包括多運(yùn)算核心。
輸出單元503可以包括但不限于影像輸出單元、聲音輸出和觸感輸出單元。影像輸出單元用于輸出文字、圖片和/或視頻。影像輸出單元可包括顯示面板,例如采用LCD(Liquid Crystal Display,液晶顯示器)、OLED(Organic Light-Emitting Diode,有機(jī)發(fā)光二極管)、場發(fā)射顯示器(field emission display,簡稱FED)等形式來配置的顯示面板?;蛘哂跋褫敵鰡卧梢园ǚ瓷涫斤@示器,例如電泳式(electrophoretic)顯示器,或利用光干涉調(diào)變技術(shù)(Interferometric Modulation of Light)的顯示器。影像輸出單元可以包括單個(gè)顯示器或不同尺寸的多個(gè)顯示器。在本發(fā)明的具體實(shí)施方式中,上述輸入單元501所采用的觸控面板亦可同時(shí)作為輸出單元503的顯示面板。例如,顯示面板提供標(biāo)準(zhǔn)鍵盤的視覺輸出,用戶根據(jù)所看到的視覺信息利用手指或觸控筆等操作觸控面板,當(dāng)觸控面板檢測(cè)到在其上的觸摸或接近的手勢(shì)操作后,確定觸摸或接近手勢(shì)所指示的位置,傳送給處理器單元502獲取映射鍵盤上該位置的字符以形成輸入密碼。雖然在圖5中,輸入單元501與輸出單元503是作為兩個(gè)獨(dú)立的部件來實(shí)現(xiàn)終端設(shè)備的輸入和輸出功能,但是在某些實(shí)施例中,可以將觸控面板與顯示面板集成一體而實(shí)現(xiàn)終端設(shè)備的輸入和輸出功能。例如,影像輸出單元可以顯示標(biāo)準(zhǔn)鍵盤,以供用戶通過觸控方式進(jìn)行操作。
通信單元504用于建立通信鏈接,使終端設(shè)備通過通信鏈接與智能眼鏡建立連接,實(shí)現(xiàn)兩者間的數(shù)據(jù)交互。通信單元504可以包括無線局域網(wǎng)(Wireless Local Area Network,簡稱wireless LAN)模塊、藍(lán)牙模塊、近距離無線通信(Near Field Communication,簡稱NFC)、基帶(Base Band)模塊等無線通信模塊和以太網(wǎng)、通用串行總線(Universal Serial Bus,簡稱USB)、閃電接口(Lightning,目前Apple用于iPhone6/6s等設(shè)備)等有線通信模塊。
存儲(chǔ)單元505可用于存儲(chǔ)程序代碼以及模塊,處理器單元502通過運(yùn)行存儲(chǔ)在存儲(chǔ)單元505的程序代碼以及模塊,從而執(zhí)行終端的各種功能應(yīng)用以及實(shí)現(xiàn)數(shù)據(jù)處理。存儲(chǔ)單元505主要包括程序存儲(chǔ)區(qū)和數(shù)據(jù)存儲(chǔ)區(qū),其中,程序存儲(chǔ)區(qū)可存儲(chǔ)操作系統(tǒng)、至少一個(gè)功能所需的程序代碼,比如獲取映射鍵盤上顯示的字符以形成輸入密碼的程序代碼;數(shù)據(jù)存儲(chǔ)區(qū)可存儲(chǔ)根據(jù)終端設(shè)備的使用所創(chuàng)建的數(shù)據(jù)(比如音頻數(shù)據(jù)、電話本等)等。在本發(fā)明具體實(shí)施方式中,存儲(chǔ)單元505可以包括易失性存儲(chǔ)器,例如非揮發(fā)性動(dòng)態(tài)隨機(jī)存取內(nèi)存(Nonvolatile RandomAccess Memory,簡稱NVRAM)、相變化隨機(jī)存取內(nèi)存(Phase Change RAM,簡稱PRAM)、磁阻式隨機(jī)存取內(nèi)存(Magetoresistive RAM,簡稱MRAM)等,還可以包括非易失性存儲(chǔ)器,例如至少一個(gè)磁盤存儲(chǔ)器件、電子可抹除可規(guī)劃只讀存儲(chǔ)器(Electrically ErasableProgrammableRead-OnlyMemory,簡稱EEPROM)、閃存器件,例如反或閃存(NOR flash memory)或是反及閃存(NAND flash memory)。非易失存儲(chǔ)器儲(chǔ)存處理器單元所執(zhí)行的操作系統(tǒng)及程序代碼。處理器單元從非易失存儲(chǔ)器加載運(yùn)行程序與數(shù)據(jù)到內(nèi)存并將數(shù)字內(nèi)容儲(chǔ)存于大量儲(chǔ)存裝置中。操作系統(tǒng)包括用于控制和管理常規(guī)系統(tǒng)任務(wù),例如內(nèi)存管理、存儲(chǔ)設(shè)備控制、電源管理等,以及有助于各種軟硬件之間通信的各種組件和/或驅(qū)動(dòng)器。在本發(fā)明實(shí)施方式中,操作系統(tǒng)可以是Google公司的Android系統(tǒng)、Apple公司開發(fā)的iOS系統(tǒng)或Microsoft公司開發(fā)的Windows操作系統(tǒng)等,或者是Vxworks這類的嵌入式操作系統(tǒng)。
電源506用于給終端設(shè)備的不同部件進(jìn)行供電以維持其運(yùn)行。作為一般性理解,電源506可以是內(nèi)置的電池,例如常見的鋰離子電池、鎳氫電池等,也包括直接向終端設(shè)備供電的外接電源,例如AC適配器等。在本發(fā)明的一些實(shí)施方式中,電源506還可以作更為廣泛的定義,例如還可以包括電源管理系統(tǒng)、充電系統(tǒng)、電源故障檢測(cè)電路、電源轉(zhuǎn)換器或逆變器、電源狀態(tài)指示器(如發(fā)光二極管),以及與移動(dòng)終端的電能生成、管理及分布相關(guān)聯(lián)的其他任何組件。
在圖5所示的終端設(shè)備中,處理器單元502可以調(diào)用存儲(chǔ)單元505中存儲(chǔ)的程序代碼,用于執(zhí)行前述的圖1~圖2上述的操作。例如,用于執(zhí)行:
對(duì)圖像進(jìn)行灰度處理和二值化處理以得到二值化圖像;
對(duì)上述二值化圖像進(jìn)行邊緣檢測(cè),以獲得上述二值化圖像中的文字子區(qū)域;
根據(jù)上述文字子區(qū)域的分布確定上述圖像中文字的排版規(guī)律;
根據(jù)上述排版規(guī)律對(duì)上述文字子區(qū)域進(jìn)行字符切分以獲得單個(gè)字符;
對(duì)上述單個(gè)字符進(jìn)行匹配以獲得上述單個(gè)字符的識(shí)別結(jié)果。
作為一種可選的實(shí)施方式,處理器單元502可以調(diào)用存儲(chǔ)單元505中存儲(chǔ)的程序代碼,還用于執(zhí)行以下操作:
判斷上述識(shí)別結(jié)果是否為數(shù)字或字母;
若上述識(shí)別結(jié)果為數(shù)字或字母,則對(duì)上述單個(gè)字符所在的文字行進(jìn)行語義識(shí)別,以糾正數(shù)字和字母混淆的錯(cuò)誤。
作為一種可選的實(shí)施方式,處理器單元502可以調(diào)用存儲(chǔ)單元505中存儲(chǔ)的程序代碼,還用于執(zhí)行以下操作:
將上述識(shí)別結(jié)果按照上述排版規(guī)律輸出到文檔。
由此可見,圖5所描述的終端設(shè)備,可以結(jié)合圖像中文字的排版規(guī)律進(jìn)行文字信息的提取,并且數(shù)據(jù)運(yùn)算量較低,速度快。除此之外,終端設(shè)備可以實(shí)現(xiàn)對(duì)數(shù)字和字母識(shí)別混淆的情況的矯正;并且,輸入的文本具有原本的排版規(guī)律,其可讀性更高。
值得注意的是,上述圖片中文字信息的提取裝置和終端設(shè)備實(shí)施例中,所包括的各個(gè)單元只是按照功能邏輯進(jìn)行劃分的,但并不局限于上述的劃分,只要能夠?qū)崿F(xiàn)相應(yīng)的功能即可;另外,各功能單元的具體名稱也只是為了便于相互區(qū)分,并不用于限制本發(fā)明的保護(hù)范圍。
另外,本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述各方法實(shí)施例中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件完成,相應(yīng)的程序可以存儲(chǔ)于一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,上述提到的存儲(chǔ)介質(zhì)可以是只讀存儲(chǔ)器,磁盤或光盤等。
以上僅為本發(fā)明較佳的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明實(shí)施例揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求的保護(hù)范圍為準(zhǔn)。