字符方向判斷方法及裝置制造方法
【專利摘要】本發(fā)明的實施方式提供了一種字符方向判斷方法和裝置。該方法包括:在將字符旋轉0°、90°、180°和270°的四個方向上,分別對字符進行識別,輸出置信度高的字符;分別統(tǒng)計所述四個方向上的識別后輸出的所述置信度高的字符的數(shù)量;將輸出的所述置信度高的字符的數(shù)量最多的方向判定為正確的字符方向。通過統(tǒng)計多個方向中識別出的字符數(shù)量,來判定字符的正確方向,使得可以自動快速的識別圖像中的字符方向而不用考慮圖像的拍攝方向。
【專利說明】字符方向判斷方法及裝置
【技術領域】
[0001 ] 本發(fā)明的各實施方式涉及字符方向判斷方法及裝置。
【背景技術】
[0002]在圖片中的字符識別領域中,由于圖片拍攝的隨意性,使得正常的圖片方向可能不是圖片中的字符的正確方向。因此,在對拍攝的圖片中的字符進行識別時,由于圖片中的字符方向的錯誤可能導致其中的字符無法被正確的識別出來。在現(xiàn)有技術中,通常需要人為地將拍攝的圖片旋轉到正確的字符方向上,再進行字符識別。這使得字符的識別并不方便快捷。這在使用手機等移動設備拍攝名片后識別名片中的信息時,其不便利性顯得更加突出。
【發(fā)明內(nèi)容】
[0003]鑒于上述原因,本發(fā)明提供一種字符方向判斷方法及裝置,其通過統(tǒng)計多個方向中識別出的字符數(shù)量,來判定字符的正確方向。
[0004]根據(jù)本發(fā)明的一個方面,提供一種字符方向判斷方法,包括:在將字符旋轉0°、90°、180°和270°的四個方向上,分別對字符進行識別,輸出置信度高的字符;分別統(tǒng)計所述四個方向上的識別后輸出的所述置信度高的字符的數(shù)量;將輸出的所述置信度高的字符的數(shù)量最多的方向判定為正確的字符方向。
[0005]根據(jù)本發(fā)明的另一方面,在所述對字符進行識別中,僅識別字符中的數(shù)字,并輸出
置信度高的數(shù)字。
[0006]根據(jù)本發(fā)明的另一方面,僅輸出具有至少兩個連續(xù)出現(xiàn)的數(shù)字串中的數(shù)字。
[0007]根據(jù)本發(fā)明的另一方面,在所述對字符進行識別中,僅識別字符中的英文字母,并輸出置信度高的英文字母。
[0008]根據(jù)本發(fā)明的另一方面,在所述對字符進行識別中,僅識別字符中的常用文字,并輸出置信度高的常用文字。
[0009]根據(jù)本發(fā)明的另一方面,在所述對字符進行識別中,使用光學字符識別(OCR)引擎對字符進行識別。
[0010]根據(jù)本發(fā)明的另一方面,提供一種字符方向判斷裝置,包括:字符識別單元,用于在將字符旋轉0°、90°、180°和270°的四個方向上,分別對字符進行識別,輸出置信度高的字符;統(tǒng)計單元,用于分別統(tǒng)計所述四個方向上的識別后輸出的所述置信度高的字符的數(shù)量;判定單元,用于將輸出的所述置信度高的字符的數(shù)量最多的方向判定為正確的字符方向。
[0011]根據(jù)本發(fā)明的另一方面,所述字符識別單元僅識別字符中的數(shù)字,并輸出置信度
高的數(shù)字。
[0012]根據(jù)本發(fā)明的另一方面,所述字符識別單元僅輸出具有至少兩個連續(xù)出現(xiàn)的數(shù)字串中的數(shù)字。[0013]根據(jù)本發(fā)明的另一方面,所述字符識別單元僅識別字符中的英文字母,并輸出置信度高的英文字母。
[0014]根據(jù)本發(fā)明的另一方面,所述字符識別單元僅識別字符中的常用文字,并輸出置信度高的常用文字。
[0015]根據(jù)本發(fā)明的另一方面,所述字符識別裝置使用光學字符識別(OCR)引擎對字符進行識別。
[0016]通過統(tǒng)計多個方向中識別出的字符數(shù)量,來判定字符的正確方向,使得可以自動快速的識別圖像中的字符方向而不用考慮圖像的拍攝方向。通過使用數(shù)字、字母或常用字識別,可以提高方向判斷的速度和準確度。
[0017]該字符方向判斷方法和字符方向判斷裝置對名片等包含字符的圖像的字符方向判斷是特別有利的。
【專利附圖】
【附圖說明】
[0018]當結合附圖閱讀下文對示范性實施方式的詳細描述時,這些以及其他目的、特征和優(yōu)點將變得顯而易見,在附圖中:
[0019]圖1是根據(jù)本發(fā)明優(yōu)選實施例的字符方向判斷方法的流程圖;
[0020]圖2是適于用來實踐本發(fā)明實施方式的字符方向判斷裝置的示意性框圖;
[0021]圖3是用來實踐本發(fā)明實施方式的移動終端的示意性框圖。
【具體實施方式】
[0022]附圖中的流程圖和框圖,圖示了按照本發(fā)明各種實施例的裝置、方法和計算機程序產(chǎn)品的可能實現(xiàn)的體系架構、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段、或代碼的一部分,所述模塊、程序段、或代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應當注意,在有些作為替換的實現(xiàn)中,方框中所標注的功能也可以以不同于附圖中所標注的順序發(fā)生。例如,兩個接連地表示的方框實際上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實現(xiàn),或者可以用專用硬件與計算機指令的組合來實現(xiàn)。
[0023]現(xiàn)在將僅通過示例性方式來詳細地描述本發(fā)明的各種實施方式。
[0024]圖1是根據(jù)本發(fā)明優(yōu)選實施例的一字符方向判斷方法的流程圖。該方法可典型地用于名片中的常用詞的識別。該方法具體包括下列步驟:
[0025]首先執(zhí)行步驟S11,在將字符旋轉0°、90°、180°和270°的四個方向上,分別對字符進行識別,輸出置信度高的字符。包括字符的圖片通常通過拍攝而獲得。在一個典型的應用中,用戶通過移動設備,例如手機上的照相機對名片進行拍攝。由于用戶手持照相機相對于名片的方位可能是隨意的,因而拍攝出來的正常方向的圖片中的名片及其中的字符可能是正確方向的,也可能是旋轉90°、180°或270°的。通過將該圖像及其中的字符自動旋轉0°、90°、180°和270°,并分別對該四個方向上的圖像中的字符進行識別,獲得每個方向中的圖像中識別出的置信度相對高的若干字符。可以對置信度設定合適的閾值來篩選置信度相對高的若干字符。
[0026]可以通過光學字符識別(OCR)引擎對字符進行識別。光學字符識別(OCR)引擎是用于識別圖像中的字符的公知的技術,因而在此不再贅述。
[0027]然后執(zhí)行步驟S12,分別統(tǒng)計所述四個方向上的識別后輸出的所述置信度高的字符的數(shù)量。正確的字符方向上的置信度高的字符數(shù)量顯然應該明顯地多于其他三個方向的。
[0028]然后執(zhí)行步驟S13,將輸出的所述置信度高的字符的數(shù)量最多的方向判定為正確的字符方向。置信度高的字符的數(shù)量最多,說明了該方向中字符被識別的概率最高,因而該方向為正確字符方向的可能性最大,由此判定該方向為字符的正確方向。在判定正確的字符方向后,可以在該方向的圖像中識別所有的字符信息,從而進行后續(xù)處理。
[0029]在第一優(yōu)選實施方式中,在步驟Sll中,僅識別字符中的數(shù)字,并輸出置信度高的數(shù)字。由于數(shù)字僅包括0-9的十個不同值,且數(shù)字的圖形結構相對文字更為簡單,因而識別數(shù)字的OCR引擎更為簡單,且識別速度和準確率都更高。在例如名片等通常都必然包含數(shù)字的字符方向判斷中,尤其適合使用OCR數(shù)字識別引擎來識別字符中的數(shù)字,作為判斷字符方向的依據(jù)。
[0030]優(yōu)選地,僅輸出具有至少兩個連續(xù)出現(xiàn)的數(shù)字串中的數(shù)字,而將識別出的其他單個出現(xiàn)的數(shù)字排除掉。因為單個的數(shù)字是引擎識別錯誤或圖像不清晰造成的錯誤識別的可能性較大,而連續(xù)出現(xiàn)的數(shù)字串被誤識別的概率較小。通過排除單個數(shù)字,可以使得統(tǒng)計的置信度高的數(shù)字的數(shù)量更加準確。該方法尤其適用例如名片的識別,因為名片中通常存在連續(xù)的數(shù)字串,例如電話號碼等,而很少出現(xiàn)單個的數(shù)字,因此這種情況下單個數(shù)字更可能是誤識別的結果。
[0031]在第二優(yōu)選實施方式中,在步驟Sll中,僅識別字符中的英文字母,并輸出置信度高的英文字母。由于英文字母僅包括a-z的26個小寫字母和A-Z的26個大寫字母,使用英文字母OCR引擎識別字符中的英文字母也可以獲得相對文字識別更快的速度和準確率。在通常包含英文字母的圖像中,例如英文名片等,使用該方法來判斷字符方向是合適的。
[0032]在第三優(yōu)選實施方式中,在步驟Sll中,僅識別字符中的常用文字,并輸出置信度高的常用文字。識別各種文字的OCR引擎是相對復雜的,且識別各種文字的速度和準確率是較低的,但是如果僅用OCR引擎識別有限的幾個文字,OCR引擎就比較簡單,而且識別速度和準確率也就相對高。例如,對于名片信息,其中必然包括“電話”、“地址”等文字。將OCR引擎配置為僅用于識別“電話”、“地址”等常用文字中的一個或多個,然后使用該OCR引擎識別上述四個方向中的圖像中的字符,在錯誤的字符方向誤識別為以上有限個常用文字的可能性很低,而在正確的字符方向很容易識別出上述常用文字,因而能夠使得正確字符方向的輸出字符數(shù)量能明顯多于其他方向,從而準確判定字符的正確方向。而且,由于僅識別有限的數(shù)個常用文字,相比識別各種可能的文字而言,識別速度將會更快,而OCR引擎的開發(fā)也將更容易。
[0033]該字符方向判斷方法適于通過計算機程序來實現(xiàn)。
[0034]圖2是適于用來實踐本發(fā)明實施方式的字符方向判斷裝置的示意性框圖。在圖2中,字符方向判斷裝置200包括:字符識別單元201,用于在將字符旋轉0°、90°、180°和270°的四個方向上,分別對字符進行識別,輸出置信度高的字符;統(tǒng)計單元202,用于分別統(tǒng)計所述四個方向上的識別后輸出的所述置信度高的字符的數(shù)量;判定單元203,用于將輸出的所述置信度高的字符的數(shù)量最多的方向判定為正確的字符方向。
[0035]優(yōu)選地,所述字符識別單元僅識別字符中的數(shù)字,并輸出置信度高的數(shù)字。
[0036]優(yōu)選地,所述字符識別單元僅輸出具有至少兩個連續(xù)出現(xiàn)的數(shù)字串中的數(shù)字。
[0037]優(yōu)選地,所述字符識別單元僅識別字符中的英文字母,并輸出置信度高的英文字母。
[0038]優(yōu)選地,所述字符識別單元僅識別字符中的常用文字,并輸出置信度高的常用文字。
[0039]優(yōu)選地,所述字符識別裝置使用光學字符識別(OCR)引擎對字符進行識別。
[0040]該字符方向判斷裝置200適于執(zhí)行以上所述的各種字符方向判斷方法。
[0041]該字符方向判斷裝置適于通過載入以上字符方向判斷方法的計算機硬件來實現(xiàn)。該字符方向判斷裝置尤其適于通過載入以上字符方向判斷算法的、具有計算處理功能的手機等移動設備來實現(xiàn)。該移動設備優(yōu)選還具有數(shù)碼相機,用于拍攝名片等包含文字的圖像信息。該移動設備可通過載入的算法程序,即時對拍攝的名片等圖像中的字符進行提取、識另U、方向判斷、存儲。
[0042]下面參考圖3,其示出了適于用來實踐本發(fā)明實施方式的移動終端300的示意性框圖。在圖3所示的示例中,移動終端300是一個具有無線通信能力的移動設備。然而,可以理解,這僅僅是示例性而非限制性的。其他類型的移動終端也可以容易地采用本發(fā)明的實施方式,諸如便攜式數(shù)字助理(PDA)、尋呼機、移動計算機、移動電視、游戲設備、膝上型計算機、照相機、錄像機、GPS設備以及其他類型的語音和文本通信系統(tǒng)。固定式移動終端同樣可以容易地使用本發(fā)明的實施方式。
[0043]移動終端300包括一個或天線312,其可操作地與發(fā)射機314和接收機316進行通信。移動終端300還包括處理器312或者其他處理元件,其分別提供去往發(fā)射機314的信號和接收來自接收機316的信號。信號包括按照適當蜂窩系統(tǒng)的空中接口標準的信令信息,并且還包括用戶語音、接收的數(shù)據(jù)和/或用戶生成的數(shù)據(jù)。在此方面,移動終端300能夠利用一個或多個空中接口標準、通信協(xié)議、調(diào)制類型以及接入類型來進行操作。作為示范,移動終端300能夠根據(jù)多個第一代、第二代、第三代和/或第四代通信協(xié)議等中的任何協(xié)議來進行操作。例如,移動終端300可以能夠按照第二代(G)無線通信協(xié)議IS-136 (TDMA)、GSM和IS-95 (CDMA)來進行操作,或者按照諸如UMTS、CDMA2000, WCDMA和TD-SCDMA的第三代(G)無線通信協(xié)議來進行操作,或者按照第四代(4G)無線通信協(xié)議和/或類似協(xié)議進行操作。
[0044]可以理解,處理器312包括實現(xiàn)移動終端300的功能所需的電路。例如,處理器312可以包括數(shù)字信號處理器設備、微處理器設備、各種模數(shù)轉換器、數(shù)模轉換器和其他支持電路。移動終端300的控制和信號處理功能按照這些設備各自的能力在其間分配。處理器312由此還可以包括在調(diào)制和傳輸之前對消息和數(shù)據(jù)進行卷積編碼和交織的功能。處理器312還可以另外包括內(nèi)部語音編碼器,并且可以包括內(nèi)部數(shù)據(jù)調(diào)制解調(diào)器。此外,處理器312可以包括對可以存儲在存儲器中的一個或多個軟件程序進行操作的功能。例如,處理器312可以能夠操作連接程序,諸如傳統(tǒng)的Web瀏覽器。連接程序繼而可以允許移動終端300例如按照無線應用協(xié)議(WAP)、超文本傳輸協(xié)議(HTTP)等來發(fā)射和接收Web內(nèi)容(諸如基于位置的內(nèi)容和/或其他web頁面內(nèi)容)。
[0045]移動終端300還可以包括用戶接口,其例如可以包括耳機或者揚聲器324、振鈴器322、麥克風326、顯示屏328以及輸入接口 331,所有這些設備都耦合至處理器312。移動終端300可以包括小鍵盤330。小鍵盤330可以包括傳統(tǒng)的數(shù)字鍵(0_9)和相關鍵(#、*),以及用于操作移動終端300的其他鍵。備選地,小鍵盤330可以包括傳統(tǒng)的QWERTY小鍵盤布置。小鍵盤330還可以包括與功能相關聯(lián)的各種軟鍵。移動終端300還可以包括相機模塊336,用于捕獲靜態(tài)和/或動態(tài)圖像。
[0046]特別地,顯示屏328可以包括觸摸式屏幕和/或鄰近式屏幕,用戶可以通過直接操作屏幕而操作移動終端300。此時,顯示屏328同時充當輸入設備和輸出設備二者。在這樣的實施方式中,輸入接口 331可以配置用于接收用戶通過例如普通的筆、專用觸筆和/或手指在顯示屏328上提供的輸入,包括指點輸入和手勢輸入。處理器312可配置用于檢測此類輸入,并且識別出用戶的手勢。
[0047]此外,移動終端300可以包括諸如操縱桿的接口設備或者其他用于輸入接口。移動終端300還包括電池334,諸如振動電池組,用于為操作移動終端300所需的各種電路供電,以及可選地提供機械振動作為可檢測輸出。
[0048]移動終端300可以進一步包括用戶標識模塊(UM) 338。UIM 338通常是具有內(nèi)置處理器的存儲器設備。UM 338例如可以包括訂戶標識模塊(SM)、通用集成電路卡(ΠCC)、通用訂戶標識模塊(USM)、可移動用戶標識模塊(R-UM)等。ΠΜ 338通常存儲與移動訂戶相關的信元。
[0049]移動終端300還可以具有存儲器。例如,移動終端300可以包括易失性存儲器340,例如包括用于數(shù)據(jù)臨時存儲的高速緩存區(qū)域的易失性隨機存取存儲器(RAM)。移動終端300還可以包括其他非易失性存儲器342,其可以是嵌入式的和/或可移動的。非易失性存儲器342可以附加地或者可選地包括例如EEPROM和閃存等。存儲器可以存儲移動終端300所使用的多個信息片段和數(shù)據(jù)中的任意項,以實現(xiàn)移動終端300的功能。
[0050]所述移動終端300可以配置用于實現(xiàn)上文結合圖1描述的方法以及作為結合圖2描述的裝置。
[0051]應當理解,圖3所述的結構框圖僅僅為了示例的目的而示出的,而不是對本發(fā)明范圍的限制。在某些情況下,可以根據(jù)具體情況而增加或者減少某些設備。
[0052]已經(jīng)出于示出和描述的目的給出了本發(fā)明的說明書,但是其并不意在是窮舉的或者限制于所公開形式的發(fā)明。本領域技術人員可以想到很多修改和變體。本領域技術人員應當理解,本發(fā)明實施方式中的方法和裝置可以以軟件、硬件、固件或其組合實現(xiàn)。
[0053]因此,實施方式是為了更好地說明本發(fā)明的原理、實際應用以及使本領域技術人員中的其他人員能夠理解以下內(nèi)容而選擇和描述的,即,在不脫離本發(fā)明精神的前提下,做出的所有修改和替換都將落入所附權利要求定義的本發(fā)明保護范圍內(nèi)。
【權利要求】
1.一種字符方向判斷方法,包括: 在將字符旋轉0°、90°、180°和270°的四個方向上,分別對字符進行識別,輸出置信度高的字符; 分別統(tǒng)計所述四個方向上的識別后輸出的所述置信度高的字符的數(shù)量; 將輸出的所述置信度高的字符的數(shù)量最多的方向判定為正確的字符方向。
2.根據(jù)權利要求1所述的方法,其中,在所述對字符進行識別中,僅識別字符中的數(shù)字,并輸出置信度高的數(shù)字。
3.根據(jù)權利要求2所述的方法,其中,僅輸出具有至少兩個連續(xù)出現(xiàn)的數(shù)字串中的數(shù)字。
4.根據(jù)權利要求1所述的方法,其中,在所述對字符進行識別中,僅識別字符中的英文字母,并輸出置信度高的英文字母。
5.根據(jù)權利要求1所述的方法,其中,在所述對字符進行識別中,僅識別字符中的常用文字,并輸出置信度高的常用文字。
6.根據(jù)權利要求1-5之一所述的方法,其中,在所述對字符進行識別中,使用光學字符識別(OCR)引擎對字符進行識別。
7.一種字符方向判斷裝置,包括: 字符識別單元,用于在將字符旋轉0°、90°、180°和270°的四個方向上,分別對字符進行識別,輸出置信度高的字符; 統(tǒng)計單元,用于分別統(tǒng)計所述四個方向上的識別后輸出的所述置信度高的字符的數(shù)量; 判定單元,用于將輸出的所述置信度高的字符的數(shù)量最多的方向判定為正確的字符方向。
8.根據(jù)權利要求7所述的裝置,其中,所述字符識別單元僅識別字符中的數(shù)字,并輸出置信度高的數(shù)字。
9.根據(jù)權利要求8所述的裝置,其中,所述字符識別單元僅輸出具有至少兩個連續(xù)出現(xiàn)的數(shù)字串中的數(shù)字。
10.根據(jù)權利要求7所述的裝置,其中,所述字符識別單元僅識別字符中的英文字母,并輸出置信度高的英文字母。
11.根據(jù)權利要求7所述的裝置,其中,所述字符識別單元僅識別字符中的常用文字,并輸出置信度高的常用文字。
12.根據(jù)權利要求7-11之一所述的裝置,其中,所述字符識別裝置使用光學字符識別(OCR)引擎對字符進行識別。
【文檔編號】G06K9/20GK103870799SQ201210570195
【公開日】2014年6月18日 申請日期:2012年12月17日 優(yōu)先權日:2012年12月17日
【發(fā)明者】鄭大念 申請人:北京千橡網(wǎng)景科技發(fā)展有限公司