專利名稱:字符識別處理設備、字符識別處理方法和便攜式終端設備的制作方法
技術領域:
本發(fā)明涉及最佳用于諸如便攜式電話和便攜式信息終端等便攜式終端設備的字符識別處理設備、字符識別處理方法以及便攜式終端設備。
背景技術:
作為通常的字符識別方法和通常的字符識別設備,已經知道在例如JP-A-2001-60250(專利文獻1)和JP-A-2000-76378(專利文獻2)中披露了一種字符識別方法和一種字符識別設備。
在JP-A-2001-60250中公開的字符識別方法和字符識別設備中,從其圖像被輸入的字符中提取一特征量并在所提取特征量的基礎上識別所述字符。在這個例子中,每次在預定間隔處掃描其圖像被輸入的字符,獲得多個掃描線與所述字符相交的次數。此外,獲得在各相鄰掃描線之間所獲得的相交次數的差值的總和,以做為用于識別所述字符的特征量之一。以預定間隔在至少兩個不同的方向上或者在兩個彼此垂直相交的方向上執(zhí)行相對于將被識別的所述字符的掃描操作。
另一方面,在JP-A-2000-76378中公開的字符識別方法中,形成輸入圖像數據的輪廓數據。通過格式化所形成的輪廓數據而獲得的數據與通過提取在前登記的標準字符的輪廓數據所形成的簿數據進行比較,以便識別一個字符。此時,根據輸入圖像數據的字體或失真,所述圖像數據的輪廓數據被變形為可由所述簿數據識別的字體或者被變形以便使在所述數據與所述簿數據進行比較之前所述失真已經被校正。
JP-A-2001-60250[專利文獻2]JP-A-2000-76378但是,在通常的字符識別方法和字符識別設備中,當根據所取出的字符圖像數據來識別字符時,分別需要在布局分析或切割操作過程中通過使用掃描線或輪廓數據執(zhí)行規(guī)定處理以改善識別率或識別速度。
此外,通常,當其字符需要被識別的字符串被一次全部攝影時,需要增加攝影設備(例如CCD攝像機等)的像素數量,以便確保用于一個字符的分辨率和所需或更多值的大標度數據被處理。由此,不希望必需增加主CPU或DSP或工作RAM的MIPS(每秒百萬個指令)值。
考慮到上述情況做出了本發(fā)明和本發(fā)明的一個目的就是提供一種字符識別處理設備、一種字符識別處理方法以及一種便攜式終端設備,它們能夠改善識別率和識別速度,并能夠降低形成攝影設備或系統(tǒng)的設備所需規(guī)范的程度和減少電源消耗及其成本。
發(fā)明內容
根據本發(fā)明的字符識別處理設備包括圖像取得單元,用于取得作為將被識別對象的字符圖像的圖像數據,所述將被識別對象是為識別字符而被攝影的;指針信息輸出單元,用于輸出表示所述字符框位置的指針位置信息,以識別與所述字符圖像相協調的字符;布局分析單元,用于將所述指針位置信息與所取得的字符圖像的圖像數據進行比較以便分析所述字符的排列;字符切割單元,用于在所述布局分析單元的分析結果的基礎上提取所述字符圖像;和字符識別單元,用于將所提取的字符圖像識別為所述字符并將該字符圖像轉換為字符信息。
根據上述結構,當需要識別其字符將的所述對象的字符被識別時,作為將被識別對象的所述字符圖像與用于識別所述字符的所述字符框一起被顯示在由液晶顯示元件形成的顯示器部件上。在用于識別所述字符的所述字符框的指針被設置到作為將被識別對象的字符串上的同時,利用諸如CCD攝像機的圖像拾取部件攝影所述字符圖像。然后,利用所述圖像取得單元取得所述字符圖像的圖像數據。利用所述布局分析單元將所述指針位置信息與所取得的字符圖像的圖像數據進行比較,以分析多行或字符的排列。通過所述字符切割單元和所述字符識別單元相對于所述字符圖像提取和識別所述字符。因此,在所述布局分析單元中,作為將被識別對象的所述字符串的行或字符的排列信息可以被使用所述指針位置信息進行精確的分析。結果是,可以改善識別率和識別速度。此外,即使當用于識別所述字符的圖像數據的像素數沒有增加時,通過使用所述指針位置信息也能夠高精度地識別所述字符。因此,不再需要攝影部件具有很多像素的高性能規(guī)范和能夠降低設備所需的規(guī)范。此外,可以減少所述設備中數據的吞吐量,從而可以減少形成諸如CPU、DSP的系統(tǒng)的設備、存儲器等所需的規(guī)范。由此,所述設備每個部件的規(guī)范程度可以減少,因而可以降低功耗和成本。
此外,在上述的結構中,當作為將被識別對象的字符圖像由通過連續(xù)攝影操作所獲得的多個字符圖像組成時,所述圖像取得單元從所有字符圖像中取得分別用于預定區(qū)域的所述字符圖像的圖像數據。所述布局分析單元將所述指針位置信息與所取得的多個字符圖像的圖像數據的每一個進行比較,以分析所述字符的排列。
在上述結構中,當不能通過攝影操作一次攝影所述字符圖像的全部時,例如,當作為其字符將被識別的對象的所述字符串很大時,在攝影部件移動的同時,執(zhí)行連續(xù)的攝影操作以對所述字符圖像攝影。在所獲得的字符圖像的圖像數據當中,利用所述圖像取得單元從全部所述字符圖像中取得分別用于預定區(qū)域的所述字符圖像的圖像數據。使用所述布局分析單元將所述指針位置信息與所取得的所述多個字符圖像的圖像數據的每一個進行比較,以便分析所述行或字符的排列。如上所述,所述字符圖像被分成某些框的靜態(tài)圖像和所述靜態(tài)圖像與所述指針位置信息被一起得到。因此,即使當作為將被識別對象的所述字符串很長時,也可以使用所述指針位置信息在所述布局分析單元中精確分析作為將被識別對象的所述字符串的排列信息。
此外,在上述結構中,當作為將被識別對象的所述字符圖像由多個通過連續(xù)攝影操作所獲得的字符圖像組成時,所述圖像取得單元從所有字符圖像中取得分別用于預定區(qū)域的所述字符圖像的圖像數據。所述布局分析單元將所述指針位置信息與其中所述多個所取得的字符圖像被連接在一起的圖像數據進行比較,以便分析所述字符的排列。
在上述的結構中,當利用攝影操作沒有一次攝影全部字符圖像時,例如,當作為其字符將被識別的所述對象的字符串很長時,在攝影部件移動的同時連續(xù)執(zhí)行攝影操作,以對所述字符圖像進行攝影。在所獲得的字符圖像的圖像數據中,利用所述圖像取得單元從全部圖像數據中取得分別用于預定區(qū)域的所述字符圖像的圖像數據。在所取得的所述多個字符圖像的圖像數據被暫時連接到圖像上之后,利用所述布局分析單元將所述圖像數據與所述指針圖像信息進行比較,以分析所述行或字符的排列。如上所述,所述字符圖像被分成某些框的靜態(tài)圖像和所述靜態(tài)圖像與所述指針位置信息被一起取得。因此,即使當作為將被識別對象的字符串很長時,通過使用所述指針位置信息也能夠在所述布局分析單元中精確地分析作為將被識別對象的所述字符串的排列信息。
此外,本發(fā)明提供了一種具有上述字符識別處理設備的便攜式終端設備。
根據上述結構,在其上安裝有所述字符識別處理設備的便攜式終端設備中,降低了用于形成諸如攝影部件、CPU、DSP、或存儲器等系統(tǒng)的設備所需的規(guī)范。因此,可以降低所述設備每個部件的規(guī)范程度并實現低功耗和低成本。
根據本發(fā)明的便攜式終端設備包括攝影單元,用于對作為將被識別對象的字符圖像進行攝影以便識別該字符;圖像取得單元,用于取得攝影字符圖像的圖像數據;指針信息輸出單元,用于輸出表示字符框位置的指針位置信息以識別與所述字符圖像相互協調的所述字符;布局分析單元,用于將所述指針位置信息與所取得的字符圖像的圖像數據進行比較以分析所述字符的排列;字符切割單元,用于在所述布局分析單元分析結果的基礎上提取所述字符圖像;和字符識別單元,用于將所提取的字符圖像識別為所述字符并將該字符圖像轉換為字符信息。
根據上述結構,在所述字符圖像的圖像數據和表示用于識別所述字符的字符框的位置的所述指針位置信息的基礎上,分析與用于識別所述字符的所述字符框對應的字符的布局以便識別所述字符。由此,在改善用于識別所述字符的識別率和識別速度的同時,可以降低形成諸如攝影部件、CPU、DSP、存儲器等系統(tǒng)的設備所需的規(guī)范。因此,所述設備每個部件的規(guī)范程度可以被降低并實現低功耗和低成本。
此外,在上述的結構中,還提供了一種字符框顯示單元,用于基于所述攝影單元的攝影顯示用于識別疊加在所述字符圖像上的字符的所述字符框。
根據這個結構,當用戶看見用于識別所述字符的顯示字符框時,該用戶能夠很容易地把作為識別對象的字符攝影成用于識別該字符的字符框以便識別該字符。
在任何一個上述結構中,還提供了識別字符顯示單元,用于顯示作為所述字符識別單元識別結果的所述字符信息。
根據該結構,所述用戶能夠很容易地通過顯示器識別所述識別結果的字符信息。
此外,在上述結構中,所述識別字符顯示單元單獨可選地顯示作為所述識別結果的所述字符信息,以用于每個預定字符單元。
根據該結構,所述用戶能夠在顯示字符信息的基礎上單獨選擇和利用被識別的字符信息,以用于諸如多種字符的每個單元。
此外,在上述任何一種結構中,還提供了識別字符存儲單元,用于存儲作為所述字符識別單元的識別結果的所述字符信息。
根據該結構,所述用戶能夠以所希望的形式存儲和利用所述識別字符信息。
此外,在上述結構中,所述識別字符存儲單元將所述字符信息存儲在識別字符存儲區(qū)域中。
根據該結構,例如,多個識別結果的字符信息可以被存儲在所述識別字符存儲區(qū)域中并被使用。
此外,在上述結構中,當所述字符信息的類型是電話號碼、郵件地址或URL(統(tǒng)一資源定位器)中的任何一個時,所述識別字符存儲單元將所述字符信息登記在與每個字符信息的類型相對應的數據庫中。
根據該結構,當所述電話號碼、郵件地址或URL等的字符被識別時,所述字符信息能夠被根據所述字符的類型登記在諸如電話簿或書簽的數據庫中并被利用。
在上述任何一種結構中,還提供了識別字符利用單元,用于根據所述字符信息的類型利用作為所述字符識別單元的識別結果的所述字符信息。
根據該結構,所述用戶能夠根據識別字符信息的類型有效地將所述字符信息用于諸如電話號碼、郵件地址或所述URL等中的每一個。
此外,在上述結構中,當所述字符信息的類型是所述電話號碼時,所述識別字符利用單元顯示到所述電話號碼的發(fā)送屏幕。
根據該結構,當所述識別字符信息是電話號碼時,顯示到所述電話號碼的發(fā)送屏幕,以便使用戶能夠簡單地執(zhí)行發(fā)送操作。
在上述的結構中,當所述字符信息的類型是郵件地址時,所述識別字符利用單元顯示到所述郵件地址的電子郵件的準備屏幕。
根據該結構,當所述識別字符信息是郵件地址時,顯示到所述郵件地址的子郵件的準備屏幕,以便使用戶能夠簡單地準備和發(fā)送電子郵件。
此外,在上述結構中,當所述字符信息的類型是URL(統(tǒng)一資源定位器)時,所述識別字符利用單元顯示到所述URL的網絡連接屏幕。
根據該結構,當所述識別字符信息是所述URL時,則顯示到該URL的網絡連接屏幕,以便使用戶能夠簡單地執(zhí)行到諸如互聯網的連接操作以獲得預期的信息。
此外,在上述任何一種結構中,所述攝影單元具有對作為將被識別對象的字符圖像進行連續(xù)攝影的功能。當通過所述攝影單元獲得作為將被識別的對象的多個字符圖像時,所述圖像取得單元取得彼此相互連接在一起的多個字符圖像的圖像數據。所述字符識別單元識別所述相互連接的字符圖像的圖像數據的字符,以便將所述圖像數據轉換為所述字符信息。
根據該結構,當作為將被識別對象的字符串沒有被一次置入攝影范圍內時,通過使所述字符圖像與用于識別該字符的所述字符框協同操作連續(xù)攝影所述字符圖像和如此獲得多個字符圖像被相互連接在一起。由此,即使當所述字符串很長時,也能夠改善識別所述字符的識別率和識別速度。
在上述任何一種結構中,所述攝影單元具有連續(xù)攝影作為將被識別對象的所述字符圖像的功能。當利用所述攝影單元獲得作為將被識別對象的多個字符圖像時,所述圖像取得單元取得所述多個字符圖像的圖像數據。所述字符識別單元識別分別用于所述多個字符圖像的所取得的圖像數據的所述字符,以便將所述圖像數據轉換為所述字符信息。
根據該結構,當作為將被識別對象的所述字符串沒有被一次置入攝影范圍內時,通過使所述字符圖像與用于識別該字符的字符框協同操作連續(xù)攝影所述字符圖像。所述圖像數據的字符被識別以分別用于被如此獲得的多個字符圖像。由此,即使當所述字符串很長時,也可以改善識別字符的識別率和識別速度。
此外,在上述任何一種結構中,所述字符識別單元具有多種滿足作為將被識別對象的多種字符類型的識別模式,并能夠根據預置識別模式執(zhí)行適于所述字符相應類型的字符識別處理。
根據該結構,所述用戶設置與將被所述用戶識別的字符類型相對應的識別模式。由此,可以執(zhí)行適于所述字符相應類型的字符識別處理以改善識別率。
根據本發(fā)明的字符識別處理方法包括與用于識別字符的字符框一起顯示和攝影作為將被識別對象的字符圖像的步驟;取得所攝影的字符圖像的圖像數據的步驟;輸出表示用于識別與所述字符圖像相協調的所述字符的所述字符框位置的指針位置信息的步驟;將所述指針位置信息與所取得的所述字符圖像的圖像數據進行比較以分析所述字符的排列的步驟;在所述字符排列分析結果的基礎上提取所述字符圖像的步驟;和將所提取的字符圖像識別為所述字符并將所述字符圖像轉換為字符信息的步驟。
根據該方法,通過使用所述指針位置信息可以精確地分析作為將被識別對象的字符串的多個行或多個字符的排列信息,以便改善識別率和識別速度。此外,使用所述指針位置信息,從而可以降低所述設備每個部件需要的規(guī)范。由于可以減少所述設備中的數據吞吐量,所以可以降低所述設備的規(guī)范程度和實現低電耗和低成本。
此外,本發(fā)明一種字符識別處理程序,其中,可以利用計算機分別執(zhí)行上述各步驟。
根據該程序,可以在所述字符圖像的圖像數據和表示用于識別所述字符的字符框的位置的所述指針位置信息的基礎上精確分析與用于識別所述字符的所述字符框對應的字符的布局。在改善用于識別所述字符的識別率和識別速度的同時,可以降低所述設備每個部件的規(guī)范程度并實現低電耗和低成本。
圖1的框圖示出了具有根據本發(fā)明第一實施例的字符識別處理設備的便攜式終端設備的結構;圖2是在根據本發(fā)明第一實施例的字符識別處理設備中執(zhí)行字符識別處理期間的操作的說明圖,其示出了作為將被識別對象的字符串被攝影的狀態(tài);圖3是在根據本發(fā)明第二實施例的字符識別處理設備中執(zhí)行字符識別處理期間的操作的說明圖,其示出了作為將被識別對象的字符串被攝影的狀態(tài);圖4是在根據本發(fā)明第二實施例的字符識別處理設備中執(zhí)行字符識別處理期間的操作的說明圖,其示出了相對于作為將被識別對象的字符串的字符識別處理狀態(tài),該狀態(tài)被劃分為多個部分;圖5示出了根據本發(fā)明第三實施例的便攜式電話的外部裝置的結構,圖5(A)是前視圖,圖5(B)是后視圖;圖6的框圖示出了根據第三實施例的便攜式電話的結構;
圖7的框圖示出了根據第三實施例在所述便攜式電話中涉及字符識別處理的功能性結構;圖8是示出使用圖7所示結構中部件的字符的功能性結構的說明圖;圖9是示出解釋第三實施例中涉及字符識別的所有處理流程和字符的使用的說明圖;圖10示出了其字符將被識別的對象的一個例子的圖;圖11示出了第三實施例中OCR功能的主菜單屏幕的例子的圖;圖12示出了第三實施例中所述OCR功能的每個屏幕的一個例子,圖12(A)示出了預覽顯示屏幕,圖12(B)示出了識別模式設置屏幕;和圖13示出了第三實施例中所述OCR功能的每個屏幕的一個例子,圖13(A)示出了已識別字符顯示屏幕,圖13(B)示出了功能菜單顯示屏幕,圖13(C)示出了音頻發(fā)送屏幕,圖13(D)示出了互聯網連接屏幕,和圖13(E)示出了郵件準備屏幕。
在附圖中,附圖標記1表示便攜式終端設備。2表示字符識別處理設備。3表示圖像取得部件。4表示指針控制部件。5表示布局分析部件。6表示字符切割部件。7表示字符識別部件。8表示格式輸出部件。9表示攝影部件。10表示顯示控制部件。11表示應用部件。12表示顯示器。30表示便攜式電話。33表示第顯示部件。34表示攝像機。35表示第二顯示部件。36表示操作鍵。41表示攝影部件。42表示操作部件。43表示顯示部件。44表示通信部件。45表示音頻處理部件。46表示存儲部件。47表示控制處理部件。51表示字符識別部件。52表示字符使用部件。61表示暫存部件。62表示存儲部件。63表示輸出部件。64表示類型決定部件。
具體實施例方式
現在,將參考附圖描述本發(fā)明的實施例。
(第一實施例)圖1的框圖示出了具有根據本發(fā)明第一實施例的字符識別處理設備的便攜式終端設備的結構。在該實施例中,描述字符識別處理設備2被安裝在便攜式終端設備1上的結構例。
本實施例的字符識別處理設備2包括圖像取得部件3、指針控制部件4、布局分析部件5、字符切割部件6、字符識別部件7和格式輸出部件8。這些構成元件是通過在包括處理器和存儲器等的控制處理部件中運行軟件程序、軟件和硬件的組合或專用硬件來實現的。
便攜式終端設備1除了包括字符識別處理設備2以外,還包括例如由CCD攝像機組成的攝影部件9、顯示控制部件10和應用部件11。攝影部件9對其字符將被識別的對象進行攝影和取得對象的攝影數據,并將攝影數據輸入給字符識別處理設備2的圖像取得部件3。圖像取得部件3對應于圖像取得單元,用于將輸入的攝影數據轉換為預定格式的圖像數據并將該圖像數據輸入給顯示控制部件10。指針控制部件4對應于指針信息輸出單元,用于將涉及用做用于識別字符的字符框的指針的指針位置信息輸入給顯示控制部件10。顯示控制部件10將輸入的圖像數據和指針位置信息轉換為顯示數據,并進一步將該顯示數據處理成適于由液晶顯示元件組成的顯示器12的格式和輸出所處理的顯示數據以便在顯示器12上顯示信息。
布局分析部件5對應于布局分析單元,用于在識別字符的基礎上從圖像取得部件3中接收預定格式的圖像數據和從指針控制部件4中接收指針位置信息。然后,布局分析部件5將指針位置信息與圖像數據進行比較以分析布局。字符切割部件6對應于字符切割單元,用于在布局分析結果的基礎上切割和提取與字符單元相關的圖像數據。字符識別部件7對應于字符識別單元,用于識別與字符單元相關的切割圖像數據并將該圖像數據轉換為字符數據。格式輸出部件8將在字符識別部件7中識別的字符數據轉換為適當格式。應用部件11將在格式輸出部件8中被轉換為格式的字符數據用做與一種應用相關的數據并在需要時將該數據輸入給顯示控制部件10,以便在顯示器12上顯示數據。
下面將參考圖2描述本發(fā)明第一實施例的字符識別處理設備的操作。圖2用于解釋根據本發(fā)明第一實施例在字符識別處理時的操作,并示出了攝影作為將被識別對象的字符串的狀態(tài)。
利用便攜示終端設備1的攝影部件9攝影作為在其字符將被識別的對象16中將被識別對象的字符串17,以便識別字符。當作為將被識別對象的經攝影的字符串17被顯示在顯示器12上時,將作為用于識別字符的字符框的指針18與作為將被識別對象的字符串17一起顯示。在用戶調整攝影位置的同時,該用戶把作為將被識別對象的字符串17設定給指針18,該用戶操縱操作按鈕19以攝影處于這種狀態(tài)的靜態(tài)圖像。
作為將被識別對象的字符串17經攝影的靜態(tài)圖像被轉換為確定格式的圖像數據并在圖像取得部件3中被取得,該圖像數據然后被提供給布局分析部件5。布局分析部件5從指針控制部件4中接收指針位置信息,以便將該指針位置信息與字符圖像的圖像數據進行比較。利用這種方式,布局分析部件5可以使用指針位置信息精確地分析作為將被識別對象的字符串17的多個行或多個字符的排列信息。字符切割部件6切割與字符單元相關的圖像數據。為字符單元所提取的圖像數據被轉換為字符數據以識別字符。
如上所述,在第一實施例的字符識別處理設備中,當作為其字符將被識別的對象16的將被識別對象的字符串17的字符被識別時,作為將被識別對象的字符串17的圖像和作為用于識別字符的字符框的指針18的圖像被一起顯示在顯示器12上。在用戶把指針18設置到作為將被識別對象的字符串17上的同時,一個靜態(tài)圖像被攝影。由此,攝影字符圖像的圖像數據被與指針位置信息一起取得。由此,在布局分析部件5中,通過使用指針位置信息可以容易和精確地分析多個行或多個字符的排列信息,從而可以在識別字符中提高識別率和識別速度。
(第二實施例)下面結合圖3和4來說明根據本發(fā)明第二實施例的字符識別處理設備的操作。圖3和4用于解釋根據本發(fā)明第二實施例在字符識別處理期間的操作。圖3示出了作為將被識別對象的字符串被攝影的狀態(tài)。圖4示出了被分成多個部分的與作為將被識別對象的字符串相關的字符識別處理的方式。由于字符識別處理設備的結構與第一實施例之結構相同,所以,這里也使用圖1。
在第二實施例中,使用便攜式終端設備1的攝影部件9對作為在其字符將被識別的對象22中將被識別的對象的字符串23進行攝影,以與第一實施例相同的方式識別字符。在這種情況下,當作為將被識別對象的字符串23的范圍較寬從而不能一次取得圖像時,執(zhí)行下述操作。
當作為將被識別對象的攝影字符串23被顯示在顯示器12上時,將作為用于識別字符的字符框的指針18與作為將被識別對象的字符串23一起顯示。在用戶調整攝影位置的同時,該用戶把作為將被識別對象的字符串23的始端位置的一部分(圖3所示例子中左端的一部分)設定給指針18。在這種狀態(tài)下,操作按鈕19被操作以開始連續(xù)靜態(tài)圖像的攝影操作。在開始攝影操作之后,在該用戶固定便攜式終端設備1的移動方向的同時,在開始攝影操作的基礎上,該用戶將便攜式終端設備與作為將被識別對象的字符串23平行地滑向與始端位置相反的方向(圖3所示例子中的右方向),從而朝向字符的寫方向。由此,當作為將被識別對象的字符串23被顯示在顯示器12上從而在指針18中容納字符串23達到作為將被識別對象的字符串23的終端位置(圖3所示例子中的右端位置)時,連續(xù)靜態(tài)圖像的攝影操作完成。此時,用戶例如在連續(xù)靜態(tài)圖像攝影操作期間保持按下操作按鈕19。
作為將被識別對象的攝影字符串23的連續(xù)靜態(tài)圖像被分成多個圖像數據并在圖4所示的圖像取得部件3中取得。在這種情況下,一行的字符圖像被分成某些框(1)到(4)的靜態(tài)圖像,并且從所有的字符圖像中提取該靜態(tài)圖像并將其轉換為確定格式的圖像數據。圖像數據被傳送給布局分析部件5。
此外,在布局分析部件5中,從指針控制部件4中接收指針位置信息,以便將該指針位置信息與字符圖像的圖像數據進行比較。在這種情況下,就用于分析布局的每個框的字符圖像而言,多個字符可能不能被分別地容納在指針的字符框內。因此,毫無疑問,可以使用指針位置信息分析相對一“行”的排列信息。但是,指針位置信息不可能被用于分析與每個字符相關的排列信息。在這種情況下,指針位置信息可以被移向連續(xù)靜態(tài)圖像的運動方向,以分析每個字符的排列信息。如上所述,在布局分析部件5中,即使當作為將被識別對象的字符串23很長,也能夠通過使用指針位置信息精確地分析作為將被識別對象的字符串23的排列信息。在該實施例中,可以精確地分析多行的排列信息。
然后,在字符切割部件6中,圖像數據被切割以用于字符單元。在字符識別部件7中,所提取的用于字符單元的圖像數據被轉換成用于識別字符的字符數據。在這種情況下,作為字符的識別結果,在框(1)中獲得“ABCDEFGHIJKL”。在框(2)中,獲得“FGHIJKLMNOP”。在框(3)中,獲得“JKLMNOPQRSTU”。在框(4)中,獲得“OPQRSTUVW”。在字符識別部件7中,合成分別用于框的字符識別結果,從而獲得作為字符最后識別結果的“ABCDEFGHIJKLMNOPQRSTUVW”。
在第二實施例中,為了簡便目的,將解釋把用于一行的字符圖像與指針進行比較以執(zhí)行一系列字符識別處理的情況。但是,如圖3所示,當指針18被提供用于兩行時,可以同時執(zhí)行與這兩行相關的一系列字符識別處理。
如上所述,在第二實施例的字符識別處理設備中,當識別作為其字符將被識別的對象22的將被識別對象的字符串23的字符時,在顯示器12上一起顯示將被識別對象的字符串17的圖像和作為用于識別字符的字符框的指針18。然后,用戶移動便攜式終端設備1以攝影連續(xù)的靜態(tài)圖像。然后,所攝影的字符圖像被分成某些靜態(tài)圖像和與指針位置信息一起取得每個框的圖像數據。由此,在布局分析部件5中,可以使用指針位置信息容易和精確地分析行的排列信息,并且在識別字符時可以提高識別率和識別速度。
在上述所述的第二實施例中,當執(zhí)行連續(xù)的靜態(tài)圖像攝影以獲得多個圖像數據時,通過保持便攜式終端設備1的操作按鈕19被按下使該便攜式終端設備在作為將被識別對象的字符串上移動。但是,本發(fā)明并不局限于此。例如,當用戶將便攜式終端設備1的主體移動攝影范圍時,該用戶可以每次按下操作按鈕19,以便間歇地獲得多個圖像數據。該用戶也可以獲得連續(xù)寬范圍的圖像數據作為將被識別對象的字符串的圖像。
此外,布局分析部件5可以分析通過圖像取得部件3取得的多個字符圖像(靜態(tài)圖像)的每個字符圖像的布局。該布局分析部件可以暫時將多個字符圖像連接到一個字符圖像,然后分析其布局。
如上所述,在該實施例中,即使當用于識別字符的圖像數據的像素的數量沒有增加,通過使用指針位置信息也能夠高精度地識別字符。因此,高性能規(guī)范、即增加攝影部件9的像素數量是不必要的,并且可以降低設備所需之規(guī)范。此外,可以減少了設備中數據的吞吐量,從而可以降低形成諸如CPU、DSP、存儲器等系統(tǒng)的設備所需的規(guī)范。因此,可以降低該設備每個部件的規(guī)范長度,并實現低電耗和低成本。
(第三實施例)下面將描述作為第三實施例的當字符識別處理設備被安裝在便攜式電話上時的結構和操作的一個示例。
圖5示出了根據本發(fā)明第三實施例的便攜式電話的外觀的結構圖。圖5(A)是前視圖,圖5(B)是后視圖。本實施例的便攜式電話30包括第一外殼31和第二外殼32。在第一外殼31的前表面上,即在當用戶打開第一外殼31和第二外殼32并將其持在手中時大致面對該用戶的表面上,提供了由液晶顯示元件組成的第一顯示面板33。此外,在與第一外殼31的前表面相對的后表面中,提供了作為攝影部件的攝像機34和由液晶顯示元件組成的第二顯示部件35。
在第二外殼32的前表面上,布置了操作部件的操作鍵36,其作為具有諸如開(on-hook)/關(off-hook)鍵、數字字符鍵、功能鍵等的多個鍵入按鈕。根據設備的工作模式或顯示屏幕,各種功能被分配給功能鍵PF1-PF5。
圖6的框圖示出了根據第三實施例的便攜式電話的結構。該便攜式電話包括攝影部件41,具有用于對其字符將被識別的對象的圖像進行攝影的攝影單元的功能;操作部件42,用于執(zhí)行用戶的操作和輸入;顯示部件43,具有字符框顯示單元的功能并具有用于顯示諸如字符識別結果等各種信息的識別字符顯示單元的功能;通信部件44,用于與移動通信系統(tǒng)的基站執(zhí)行無線通信;音頻處理部件45,用于對音頻語音或呼叫接收聲音執(zhí)行音頻處理;存儲部件46,具有用于存儲各種信息的識別字符存儲單元的功能;以及控制處理部件47,執(zhí)行諸如使用所識別的字符數據或控制各部件等的字符識別操作和應用處理。
當在便攜式電話中執(zhí)行音頻通信時,通過通信部件44、音頻處理部件45和控制處理部件47輸入、發(fā)送/接收和輸出講話聲音。當發(fā)送或接收諸如電子郵件的消息時或通過訪問諸如互聯網的網絡獲得各種信息時,通過操作部件42、顯示部件43、通信部件44和控制處理部件47輸入字符數據并發(fā)送和接收及顯示諸如字符數據或圖像數據的信息。當圖像被攝影時,利用攝影部件41和控制處理部件47對需要被攝影的對象進行攝影以獲得攝影圖像的圖像數據。存儲部件46存儲各種信息,例如包括電話號碼或通信對方郵件地址的電話簿登記信息、電子郵件的字符數據、攝影圖像的圖像數據、呼叫接收聲音的音頻數據。
圖7的框圖示出了在根據第三實施例的便攜式電話中涉及字符識別處理的功能結構。在第三實施例中,提供了與第一和第二實施例那些類似的攝影部件41和字符識別部件51。此外,還提供了字符使用單元52。字符使用單元52具有識別字符利用單元的功能,用于當也提供每個部件功能中的識別結果時使用字符數據。通過包括處理器和存儲器的硬件以及包括被使用進行操作的軟件程序實現字符識別部件51和字符使用部件52。
圖8是示出圖7所示結構中的字符使用部件的功能結構的說明圖。字符使用部件52包括暫存部件61、存儲部件62和輸出部件63。暫存部件61是識別字符存儲單元,用于暫存字符識別處理之后的字符數據。存儲部件62是識別字符存儲單元并具有多個作為用于分別存儲多個字符數據的識別字符存儲區(qū)域的多個存儲區(qū)域。輸出部件63具有類型判定部件64,用于判定字符數據的類型以執(zhí)行與識別結果的字符數據類型相對應的輸出操作。當通過識別字符獲得的字符數據是電話號碼時,執(zhí)行涉及到電話號碼的音頻呼叫或在作為數據庫的電話簿中登記的操作。當字符數據是郵件地址時,執(zhí)行涉及到郵件地址的郵件準備或在電話簿中登記的操作。當字符數據是URL(統(tǒng)一資源定位器)時,執(zhí)行涉及用于訪問URL的互聯網的連接或在作為數據庫的書簽中登記的操作。
現在,下面將描述在第三實施例中涉及字符的識別和字符的使用的操作的具體示例。圖9是一個解釋性示圖,該圖示出了字符識別和字符使用的整個處理的流程。圖9示出了在作為中心的顯示部件43上顯示的顯示屏幕上每個操作狀態(tài)的轉換。這里,描述了一種情況,在這種情況下,利用安裝在便攜式電話上的OCR(光學字符識別)功能對作為將被識別對象的如圖10所示寫入作為其字符將被識別的對象的卡101上的字符進行攝影。
當便攜式電話的OCR功能被激活時,顯示與初始屏幕對應的主菜單屏幕71。圖11示出了主菜單屏幕71的一個例子。在該主菜單屏幕71上,顯示多個字符數據的登記內容列表。在該實施例中,可以登記將被識別字符串的多個(例如20個)字符數據。這里,當用戶通過加亮顯示等選擇列“未登記”以將注意力集中到(圖中以斜線表示的)內容并按下指定給功能鍵PF1的“選擇”按鈕時,攝影部件41被激活,以便對作為將被識別對象的新的字符串攝影,并變成等待攝像機攝影的等待狀態(tài)。然后,顯示預覽顯示屏幕72。當注意力集中到位置移動以轉換將被選擇的對象時,操作指定給功能鍵PF1的外部周邊部件的交叉鍵。
圖12(A)示出了預覽顯示屏幕72的一個例子。在預覽顯示屏幕72上,顯示作為由攝影部件41攝影的將被識別的對象的字符圖像81。在字符圖像81上,疊加和顯示用于識別字符并表示字符識別區(qū)域的字符框。當用戶觀看字符圖像81并調整攝影范圍以便使作為將被識別對象的字符串被容納在用于識別字符的字符框中并按下指定給功能鍵PF1的“攝影”按鈕時,字符圖像81被攝影。此外,利用字符識別部件51執(zhí)行諸如分析作為將被識別對象的字符串的布局、切割字符、識別字符等的在第一實施例中描述的一系列操作。
此外,當用戶按下在圖12(A)所示的預覽顯示屏幕72中指定給功能鍵PF3的“功能”按鈕時,模式被切換為攝影部件41的功能設定模式,以顯示攝像機功能設定屏幕73。圖12(B)示出了攝像機功能設定屏幕73的一個例子。在攝像機功能設定屏幕73中,識別模式、亮度調節(jié)和攝像光(攝影光)中的任何一個都可以被選擇為設定的對象。這里,當用戶選擇列“識別模式”以將注意力集中到它并按下指定給功能鍵PF1的“選擇”按鈕時,顯示識別模式設定屏幕74。
圖12(C)示出了識別模式設定屏幕74的一個例子。在識別模式設定屏幕74中,當自動模式、URL模式、郵件地址模式和電話號碼模式中的任何一個被選擇為識別模式時,對攝影字符圖像的所有字符串執(zhí)行由所選擇的模式規(guī)定的字符識別處理。當選擇自由模式時,相對于作為對象的任意字符串來識別字符并且能夠被識別的所有字符串都被輸出作為被識別的字符數據。當選擇自動模式時,字符識別部件51依據來自4種模式當中的字符圖像81的內容自動決定適當的識別模式,以便以適當的識別模式來識別字符。這里,當用戶選擇用于它的識別模式并按下指定給功能鍵PF1的“選擇”按鈕時,屏幕返回到預覽顯示屏幕72。在上述的操作中,對攝影字符圖像的所有字符串執(zhí)行由所選擇模式規(guī)定的字符識別處理。但是,當選擇自動模式、URL模式、郵件地址模式和電話號碼模式中的任何一種模式時,只有與URL等對應的字符串可以被輸出作為所識別的字符數據。
當根據預覽顯示屏幕72的狀態(tài)完成攝影和字符識別處理時,顯示已識別字符顯示屏幕75。圖13(A)示出了已識別字符顯示屏幕75的一個例子。在該已識別字符顯示屏幕75中,顯示作為識別結果的字符串的字符數據。這里,當識別字符串包括電話號碼、郵件地址和URL時,執(zhí)行錨定(anchor)顯示,在該顯示中,上述各項被分別施加了下劃線以突出所選擇的字符串。在該實施例中,分析所識別的字符串以識別電話號碼、郵件地址和URL。根據字符串的類型可以單獨選擇和使用電話號碼、郵件地址和URL。
為了識別電話號碼、郵件地址和URL,例如可以使用下述的決定方法。
(1)電話號碼當存在具有從0開始的10個或更多數字的數字字符時(2)郵件地址當存在包括“@”的字符時(3)URL當存在以“http//”或“https//”開始的字符時在主菜單屏幕71中,當用戶選擇已登記字符串的列并按下指定給功能鍵PF1的“選擇”按鈕時,顯示已識別字符顯示屏幕75,以便顯示過去已經識別和存儲的字符串的字符數據。
在已識別字符顯示屏幕75中,當用戶按下指定給功能鍵PF3的“功能”按鈕時,顯示功能菜單顯示屏幕76。圖13(B)示出了功能菜單顯示屏幕76的一個例子。在功能菜單顯示屏幕76中,選擇連接、編輯、復制、存儲、在電話簿中重新登記、在電話簿中附加登記、以及登記書簽中的任何一個。
當不能被一次攝影的長字符串被連續(xù)攝影以便將識別結果一起連接成一個時,選擇功能菜單顯示屏幕76中的“連接”功能。當用戶選擇將被注意的“連接”的列并按下被指定給功能鍵PF1的“選擇”按鈕時,顯示預覽顯示屏幕72,從而能夠對字符串進行攝影。然后,當在先前時間陸續(xù)完成作為將被識別對象的字符串的攝影和字符識別處理時,預覽顯示屏幕被轉換成已識別字符顯示屏幕75。然后,附加顯示此時被識別的字符串。在識別字符的過程中,可以識別多個圖像的字符,或者可以在多個圖像被一起連接成一個圖像之后識別字符。
在功能菜單顯示屏幕76中,當用戶選擇除“連接”以外的每個功能并且按下指定給功能鍵PF1的“選擇”按鈕時,顯示對應于每個功能的功能屏幕77,從而執(zhí)行每個功能。當選擇了“編輯”時,激活文本編輯器以顯示編輯屏幕。在該編輯屏幕中,用戶可以校正被錯誤識別的字符。當選擇了“復制”時,調用復制功能以顯示復制范圍選擇屏幕。因此,用戶可以復制所指定范圍內的字符數據并在其它的字符輸入屏幕中使用所復制的字符數據。當選擇了“存儲”時,執(zhí)行被識別字符串的字符數據的存儲處理。當該存儲處理完成時,顯示諸如“已存儲”的存儲操作完成通知屏幕。由此,通過字符識別處理在此時獲得的識別字符串被存儲在在主菜單屏幕71中選擇的“未登記”的列中。
此外,當選擇“在電話簿中新近登記”或“在電話簿中附加登記”時,顯示電話簿登記屏幕,從而使用戶能夠將諸如電話號碼、郵件地址、姓名等的識別字符串登記在電話簿的預期列中。當選擇“登記書簽”時,顯示書簽登記屏幕,從而用戶能夠登記諸如作為書簽的URL的識別字符串。
在識別字符顯示屏幕75中,當用戶選擇了電話號碼、郵件地址和URL中任何一個的字符串并按下指定給功能鍵PF1的“選擇”按鈕時,顯示與每個字符串的類型相對應的使用屏幕78。當如圖13(C)所示選擇了電話號碼時,顯示音頻發(fā)送屏幕78a作為使用屏幕。在音頻發(fā)送屏幕78a中,利用簡單操作可以執(zhí)行到其字符將被識別的電話號碼的音頻發(fā)送。當如圖13(D)所示選擇了URL時,顯示互聯網連接屏幕78b作為使用屏幕。由此,通過簡單操作可以執(zhí)行通過其字符將被識別的URL的互聯網連接。當如圖13(E)所示選擇了郵件地址時,顯示郵件準備屏幕78c作為使用屏幕。由此,通過簡單操作可以執(zhí)行到其字符將被識別的郵件地址的電子郵件的準備。
如上所述,在第三實施例中,與在第一和第二實施例中相同,在對將被識別對象進行攝影的基礎上,在預覽顯示屏幕上顯示用于識別字符的字符框,以便對將被識別的對象的字符圖像進行攝影。由此,在框中的圖像的字符被識別,從而能夠減少施加到字符識別處理上的載荷。
此外,選擇識別模式以便根據作為將被識別對象的預置字符的類型執(zhí)行字符識別處理,從而提高字符識別精度。此外,在已識別字符顯示屏幕上,多種類型字符數據被安排和顯示為識別結果。因此,字符數據能夠被分開以用于所規(guī)定的字符單元和被單獨選擇、使用和存儲。由此,對應于字符串類型的已識別字符數據能夠被很容易地使用例如在電話號碼情況下進行音頻發(fā)送、在郵件地址情況下進行郵件的準備等等。
本發(fā)明并不局限于上述的實施例和在不脫離其要點的范圍內可以各種形式進行實踐。
本發(fā)明通過參考特定實施例進行詳細描述。但本領域技術人員應當理解,在不脫離本發(fā)明的精神和范圍的前提下本發(fā)明可以做出各種變化和修改。
本申請基于申請日為2002.8.7的日本專利申請No.2002-230312和申請日為2003.5.12的日本專利申請No.2003-133171,其內容在這里引入作為參考。
工業(yè)實用性如上所述,根據本發(fā)明,可以提供一種字符識別處理設備和一種字符識別處理方法,它們能夠改善識別率和識別速度,能夠降低組成攝影設備或系統(tǒng)的設備所需的規(guī)范長度,和能夠減少電耗和成本。
權利要求
1.一種字符識別處理設備,包括圖像取得單元,用于取得作為將被識別對象的字符圖像的圖像數據,所述字符圖像被攝影以便識別字符;指針信息輸出單元,用于輸出表示字符框位置的指針位置信息,所述字符框用于識別與所述字符圖像對應的字符;布局分析單元,用于將所述指針位置信息與所取得的字符圖像的圖像數據進行比較以分析所述字符的排列;字符切割單元,用于基于所述布局分析單元的分析結果來提取所述字符圖像;和字符識別單元,用于將所提取的字符圖像識別為所述字符并將所述字符圖像轉換成字符信息。
2.根據權利要求1所述的字符識別處理設備,其中,當由通過連續(xù)攝影操作獲得的多個字符圖像構成作為將被識別對象的字符圖像時,所述圖像取得單元從所有字符圖像中以預定區(qū)域分別取得所述字符圖像的圖像數據;和其中,所述布局分析單元將所述指針位置信息與所取得的所述多個字符圖像的圖像數據中的每一個進行比較,以便分析所述字符的排列。
3.根據權利要求1所述的字符識別處理設備,其中,當由通過連續(xù)攝影操作獲得的多個字符圖像構成作為將被識別對象的字符圖像時,所述圖像取得單元從所有字符圖像中以預定區(qū)域分別取得所述字符圖像的圖像數據。和其中,所述布局分析單元將所述指針位置信息與其中多個取得的字符圖像被連接在一起的圖像數據進行比較,以便分析所述字符的排列。
4.一種具有根據權利要求1到3中任何一個所述的字符識別處理設備的便攜式終端設備。
5.一種便攜式終端設備,包括攝影單元,用于對作為將被識別對象的字符圖像進行攝影以識別字符;圖像取得單元,用于取得被攝影的字符圖像的圖像數據;指針信息輸出單元,用于輸出表示字符框的位置的指針位置信息,所述字符框用于識別與所述字符圖像對應的字符;布局分析單元,用于將所述指針位置信息與所取得的所述字符圖像的圖像數據進行比較以分析所述字符的排列;字符提取單元,用于基于所述布局分析單元的分析結果來提取所述字符圖像;和字符識別單元,用于將所提取的字符圖像識別為所述字符并將所述字符圖像轉換為字符信息。
6.根據權利要求5所述的便攜式終端設備,還包括字符框顯示單元,用于顯示用于識別所述字符的字符框,以在由所述攝影單元攝影的基礎上重疊在所述字符圖像上。
7.根據權利要求5所述的便攜式終端設備,還包括已識別字符顯示單元,用于顯示作為所述字符識別單元的識別結果的所述字符信息。
8.根據權利要求7所述的便攜式終端設備,其中,所述已識別字符顯示單元單獨和有選擇地顯示作為規(guī)定字符單元的識別結果的所述字符信息。
9.根據權利要求5所述的便攜式終端設備,還包括已識別字符存儲單元,用于存儲作為由所述字符識別單元獲得的識別結果的所述字符信息。
10.根據權利要求9所述的便攜式終端設備,其中,所述已識別字符存儲單元將所述字符信息存儲在已識別字符存儲區(qū)域中。
11.根據權利要求9所述的便攜式終端設備,其中,當所述字符信息的類型是電話號碼、郵件地址和統(tǒng)一資源定位器URL中的任何一個時,所述已識別字符存儲單元以對應于每個字符信息的類型的數據為基礎登記所述字符信息。
12.根據權利要求5所述的便攜式終端設備,還包括已識別字符利用單元,用于根據所述字符信息的類型將所述字符信息用做由所述字符識別單元獲得的識別結果。
13.根據權利要求12所述的便攜式終端設備,其中,當所述字符信息的類型是電話號碼時,所述已識別字符利用單元顯示到所述電話號碼的發(fā)送屏幕。
14.根據權利要求12所述的便攜式終端設備,其中,當所述字符信息的類型是所述郵件地址時,所述已識別字符利用單元顯示用于到所述郵件地址的電子郵件的準備屏幕。
15.根據權利要求12所述的便攜式終端設備,其中,當所述字符信息的類型是所述統(tǒng)一資源位置URL時,所述已識別字符利用單元顯示到所述URL的網絡連接屏幕。
16.根據的權利要求5所述的便攜式終端設備,其中,所述攝影單元具有對作為將被識別對象的所述字符圖像進行連續(xù)攝影的功能;其中,當通過所述攝影單元獲得作為將被識別對象的多個字符圖像時,所述圖像取得單元取得被連接在一起的多個字符圖像的圖像數據;和其中,所述字符識別單元識別被連接的字符圖像的圖像數據的字符,以便將所述圖像數據轉換為所述字符信息。
17.根據的權利要求5所述的便攜式終端設備,其中,所述攝影單元具有對作為將被識別對象的字符圖像進行連續(xù)攝影的功能;其中,當通過所述攝影單元獲得作為將被識別對象的多個字符圖像時,所述圖像取得單元取得所述多個字符圖像的圖像數據;和其中,所述字符識別單元識別分別用于所述多個所取得的字符圖像的圖像數據的字符,以便將所述圖像數據轉換為所述字符信息。
18.根據權利要求5所述的便攜式終端設備,其中,所述字符識別單元具有與作為將被識別對象的字符類型相對應的多個識別模式;和其中,所述字符識別單元根據預置的識別模式來執(zhí)行適于相應字符類型的字符識別處理。
19.一種字符識別處理方法,包括在將字符圖像與用于識別字符的字符框一起顯示的同時,對作為將被識別對象的字符圖像進行攝影;取得所攝影的字符圖像的圖像數據;輸出表示所述字符框的位置的指針位置信息,所述字符框用于識別與所述字符圖像對應的字符;將所述指針位置信息與所取得的字符圖像的圖像數據進行比較以分析所述字符的排列;在所述字符排列的分析結果的基礎上,提取所述字符圖像;和將所提取的字符圖像識別為所述字符并將所述字符圖像轉換為字符信息。
20.一種使計算機執(zhí)行權利要求19所定義的各步驟的字符識別處理程序。
全文摘要
可以改善識別率和識別速度,簡化成像設備和構成系統(tǒng)的設備所需的規(guī)范,降低功耗和制造成本。字符識別處理方法將字符識別對象的字符圖像與用于字符識別的字符框的指針一起顯示在顯示器(12)上,并通過具有與將被識別的字符串相匹配的指針的成像部分(9)成像字符圖像。通過圖像獲取部分(3)獲取所成像的字符圖像的圖像數據。布局分析部分(5)從對應于字符圖像的指針控制部分(4)中接收字符圖像的圖像數據和指針位置信息并將該圖像數據與該指針位置信息進行比較,從而分析將被識別的字符串的所述行和字符排列。根據分析結果,字符隔離部分(6)隔離一字符。字符識別部分(7)執(zhí)行與字符圖像相關的字符識別并將圖像數據轉換為字符數據。
文檔編號G06K9/22GK1675652SQ0381911
公開日2005年9月28日 申請日期2003年7月25日 優(yōu)先權日2002年8月7日
發(fā)明者藤田幸宏, 澤村恒治, 伊藤功將 申請人:松下電器產業(yè)株式會社