專利名稱:信息處理裝置、以及信息處理裝置的控制方法
技術(shù)領(lǐng)域:
本發(fā)明涉及從圖像中進(jìn)行語句的識(shí)別的信息處理裝置。
背景技術(shù):
電子詞典由于小型化和低價(jià)格化發(fā)展而代替以往的紙的詞典被廣泛地利用。進(jìn)而,近年來也正在開發(fā)裝載有電子詞典的PDA (Personal Digital Assistant,便攜式信息終端)、便攜式電話等??墒牵话愕碾娮釉~典具備例如鍵盤等那樣的以能夠容易地輸入語句的方式進(jìn)行支援的輸入單元,用戶能夠操作該鍵盤來輸入語句,并檢索該語句的意思??墒牵赑DA、便、攜式電話等中有作為輸入單元而不具備那樣的鍵盤的機(jī)型。在使用裝載于那樣的機(jī)型的電子詞典的情況下,用戶利用PDA或便攜式電話具備的(T9數(shù)字鍵或觸摸面板等其它的輸入單元來輸入語句。像這樣,在利用O、數(shù)字鍵或觸摸面板等的輸入單元來輸入語句的結(jié)構(gòu)的情況下與通過鍵盤來輸入的結(jié)構(gòu)相比,操作性差,難以迅速地輸入字符。此外,即使是作為輸入單元而具備鍵盤的電子詞典,在不習(xí)慣鍵盤操作的用戶的情況下,通過鍵盤來輸入字符本身也是非常困難并且耗時(shí)的操作。此外,在查由多個(gè)單詞構(gòu)成的英語慣用語時(shí)、或者在查難讀漢字的讀法、未見過的國家的字符等時(shí),存在用戶不知道輸入哪個(gè)單詞(語句)即可的情況,在利用鍵盤等的鍵輸入本身存在限制。因此,開發(fā)了能省去鍵輸入的麻煩的技術(shù)(例如,專利文獻(xiàn)I以及2)。更具體地說,在專利文獻(xiàn)I中公開了能以筆形的掃描儀來讀取字符圖像的帶有圖像掃描儀的電子詞典。該帶有圖像掃描儀的電子詞典能利用掃描儀來讀取字符圖像,能省去鍵輸入的麻煩。此外,在專利文獻(xiàn)2中公開了用攝像機(jī)獲取字符圖像并顯示與該獲取到的字符圖像相關(guān)的信息的圖像獲取/消息顯示裝置。該圖像獲取/消息顯示裝置能利用攝像機(jī)來取得字符圖像,能省去鍵輸入的麻煩??墒?,在上述專利文獻(xiàn)I所述的帶有圖像掃描儀的電子詞典中,如果不使輥無空轉(zhuǎn)地一直運(yùn)動(dòng),則有時(shí)不能正確地識(shí)別字符串。因此,存在由于用戶的操作錯(cuò)誤導(dǎo)致產(chǎn)生字符的錯(cuò)誤識(shí)別的情況。另一方面,上述專利文獻(xiàn)2所述的圖像獲取/消息顯示裝置是從用攝像機(jī)取得的字符圖像中進(jìn)行字符識(shí)別的結(jié)構(gòu)。在從用攝像機(jī)取得的字符圖像中進(jìn)行字符識(shí)別的情況下,起因于攝像機(jī)的抖動(dòng)、攝像環(huán)境以及攝像介質(zhì)的品質(zhì)等外在的重要因素使其識(shí)別率無法成為100%。像這樣,在專利文獻(xiàn)I以及2公開的技術(shù)中,有在字符的輸入時(shí)產(chǎn)生字符的錯(cuò)誤識(shí)別的問題。因此,在專利文獻(xiàn)3中提出具有以下結(jié)構(gòu)的記號(hào)識(shí)別裝置。即,該記號(hào)識(shí)別裝置連續(xù)3次以上的奇數(shù)次對(duì)圖像進(jìn)行攝像,從對(duì)各圖像的字符識(shí)別結(jié)果中提取產(chǎn)生頻度最高的識(shí)別結(jié)果。由于是像這樣從連續(xù)的圖像中采用頻度最高的識(shí)別結(jié)果的結(jié)構(gòu),所以記號(hào)識(shí)別裝置能防止起因于攝像機(jī)的抖動(dòng)、攝像環(huán)境以及攝像介質(zhì)的品質(zhì)等外在的重要因素而產(chǎn)生的識(shí)別率的降低?,F(xiàn)有技術(shù)文獻(xiàn) 專利文獻(xiàn)
專利文獻(xiàn)I :日本公開專利公報(bào)“特開平1-234977號(hào)公報(bào)(1989年9月20日公開)”; 專利文獻(xiàn)2 :日本公開專利公報(bào)“特開2000-20677號(hào)公報(bào)(2000年I月21日公開)”; 專利文獻(xiàn)3 :日本公開專利公報(bào)“特開2004-199141號(hào)公報(bào)(2004年7月15日公開)”。
發(fā)明內(nèi)容
發(fā)明要解決的課題
可是,在上述的現(xiàn)有技術(shù)中,存在不能迅速地識(shí)別字符的問題。具體地說,在上述的專利文獻(xiàn)3所述的記號(hào)識(shí)別裝置以及記號(hào)識(shí)別方法中,由于多次進(jìn)行靜止圖像的攝像來取多數(shù)決定,所以存在從進(jìn)行攝像起到特別指定要檢索的字符為止的時(shí)間花費(fèi)長的問題。本發(fā)明是為了解決上述課題而做出的,其目的在于提供一種能從圖像中迅速地識(shí)別字符的信息處理裝置、信息處理裝置的控制方法,信息處理裝置的控制程序、以及記錄有信息處理裝置的控制程序的記錄介質(zhì)。用于解決課題的方案
為了解決上述的課題,本發(fā)明的信息處理裝置是從圖像中進(jìn)行語句的識(shí)別的信息處理裝置,其特征在于,具備攝像部,對(duì)活動(dòng)圖像進(jìn)行拍攝;提取單元,依次取得構(gòu)成由所述攝像部拍攝到的活動(dòng)圖像的連續(xù)的圖像,對(duì)表示位于該圖像的規(guī)定位置的語句的信息即語句信息進(jìn)行提??;儲(chǔ)存部,儲(chǔ)存由所述提取單元提取出的語句信息;以及決定單元,將所述儲(chǔ)存部中儲(chǔ)存得最多的語句信息的語句決定為識(shí)別結(jié)果。當(dāng)采用上述的結(jié)構(gòu)時(shí),由于具備攝像部和提取單元,所以能從構(gòu)成活動(dòng)圖像的連續(xù)的圖像中依次提取表示位于該圖像的規(guī)定位置的語句的語句信息。也就是說,由于能從構(gòu)成活動(dòng)圖像的各圖像中提取語句信息,所以與例如利用攝像機(jī)等來取得多張靜止圖像那樣的結(jié)構(gòu)相比,能迅速地得到多個(gè)語句信息。在此,語句信息是與位于規(guī)定位置的語句相關(guān)聯(lián)的信息,是對(duì)該語句分配的標(biāo)識(shí)符也可,是表示語句本身的數(shù)據(jù)也可。此外,由于具備決定單元,所以例如只要在上述儲(chǔ)存部中未儲(chǔ)存有語句信息的狀態(tài)下儲(chǔ)存即使一個(gè)語句信息,就能將該語句信息的語句決定為識(shí)別結(jié)果。即,本發(fā)明的信息處理裝置能迅速地決定語句的識(shí)別結(jié)果。因此,本發(fā)明的信息處理裝置起到能從圖像中迅速地識(shí)別字符的效果。為了解決上述的課題,本發(fā)明的信息處理裝置的控制方法是具備攝像部和儲(chǔ)存部并從圖像中進(jìn)行語句的識(shí)別的信息處理裝置的控制方法,其特征在于,包含攝像步驟,由所述攝像部對(duì)活動(dòng)圖像進(jìn)行拍攝;提取步驟,依次取得構(gòu)成所述攝像步驟中拍攝到的活動(dòng)圖像的連續(xù)的圖像,對(duì)表示位于該圖像的規(guī)定位置的語句的信息即語句信息進(jìn)行提??;儲(chǔ)存步驟,將在所述提取步驟中提取出的語句信息儲(chǔ)存在所述儲(chǔ)存部中;以及決定步驟,將在所述儲(chǔ)存部中儲(chǔ)存得最多的語句信息的語句決定為識(shí)別結(jié)果。
根據(jù)上述的方法,由于包含提取步驟,所以能從構(gòu)成由攝像部拍攝的活動(dòng)圖像的連續(xù)的圖像中依次提取表示位于該圖像的規(guī)定位置的語句的語句信息。也就是說,由于能從構(gòu)成活動(dòng)圖像的各圖像中提取語句信息,所以與例如利用攝像機(jī)等來取得多張靜止圖像的那樣的結(jié)構(gòu)相比,能迅速地得到多個(gè)語句信息。在此,語句信息是與位于規(guī)定位置的語句相關(guān)聯(lián)的信息,是對(duì)該語句分配的標(biāo)識(shí)符也可,是表示語句本身的數(shù)據(jù)也可。此外,由于包含決定步驟,所以例如只要在上述儲(chǔ)存部中未儲(chǔ)存有語句信息的狀態(tài)下儲(chǔ)存即使一個(gè)語句信息,就能將該語句信息的語句決定為識(shí)別結(jié)果。即,本發(fā)明的信息處理裝置的控制方法能迅速地決定語句的識(shí)別結(jié)果。因此,本發(fā)明的信息處理裝置的控制方法起到能從圖像中迅速地識(shí)別字符的效
果O發(fā)明效果
如上所述,本發(fā)明的信息處理裝置是從圖像中進(jìn)行語句的識(shí)別的信息處理裝置,其特征在于,具備攝像部,對(duì)活動(dòng)圖像進(jìn)行拍攝;提取單元,依次取得構(gòu)成由所述攝像部拍攝到的活動(dòng)圖像的連續(xù)的圖像,對(duì)表示位于該圖像的規(guī)定位置的語句的信息即語句信息進(jìn)行提??;儲(chǔ)存部,儲(chǔ)存由所述提取單元提取出的語句信息;以及決定單元,將所述儲(chǔ)存部中儲(chǔ)存得最多的語句信息的語句決定為識(shí)別結(jié)果。因此,本發(fā)明的信息處理裝置起到能從圖像中迅速地識(shí)別字符的效果。如上所述,本發(fā)明的信息處理裝置的控制方法是具備攝像部和儲(chǔ)存部并從圖像中進(jìn)行語句的識(shí)別的信息處理裝置的控制方法,其特征在于,包含攝像步驟,由所述攝像部對(duì)活動(dòng)圖像進(jìn)行拍攝;提取步驟,依次取得構(gòu)成在所述攝像步驟中拍攝到的活動(dòng)圖像的連續(xù)的圖像,對(duì)表示位于該圖像的規(guī)定位置的語句的信息即語句信息進(jìn)行提??;儲(chǔ)存步驟,將在所述提取步驟中提取出的語句信息儲(chǔ)存在所述儲(chǔ)存部中;以及決定步驟,將在所述儲(chǔ)存部中儲(chǔ)存得最多的語句信息的語句決定為識(shí)別結(jié)果。因此,本發(fā)明的信息處理裝置的控制方法起到能從圖像中迅速地識(shí)別字符的效
果O
圖I是表示本發(fā)明的實(shí)施方式的圖,是示出涉及詞典功能的便攜式電話機(jī)的軟件結(jié)構(gòu)的框圖。圖2是表示本發(fā)明的實(shí)施方式的圖,是示出便攜式電話機(jī)的外觀的一個(gè)例子的圖。圖3是表示本發(fā)明的實(shí)施方式的圖,是示出便攜式電話機(jī)的外觀的一個(gè)例子的圖。圖4是表示本發(fā)明的實(shí)施方式的圖,是示出便攜式電話機(jī)的主要部分結(jié)構(gòu)的框圖。圖5是表示本發(fā)明的實(shí)施方式的圖,是示出詞典表的一個(gè)例子的圖。圖6是表示本發(fā)明的實(shí)施方式的圖,是示出在位于規(guī)定位置附近的從字符串中提取出的語句處一并標(biāo)注有該語句的讀法、以及意思的顯示狀態(tài)的一個(gè)例子的圖。
圖7是表示本發(fā)明的實(shí)施方式的圖,是說明DP匹配的概略的圖。圖8是表示本發(fā)明的實(shí)施方式的圖,是示出DP匹配中的各節(jié)點(diǎn)、以及節(jié)點(diǎn)間通路(path)的距離值的關(guān)系的一個(gè)例子的圖。圖9是表示本發(fā)明的實(shí)施方式的圖,是示出FIFO緩沖器中的數(shù)據(jù)的儲(chǔ)存狀態(tài)的一個(gè)例子的圖。圖10是表示本發(fā)明的實(shí)施方式的圖,是示出FIFO緩沖器中的數(shù)據(jù)的儲(chǔ)存狀態(tài)的一個(gè)例子的圖。圖11是表示本發(fā)明的實(shí)施方式的圖,是示出FIFO緩沖器中的數(shù)據(jù)的儲(chǔ)存狀態(tài)的一個(gè)例子的圖。圖12是表示本發(fā)明的實(shí)施方式的圖,是示出FIFO緩沖器中的數(shù)據(jù)的儲(chǔ)存狀態(tài)的 一個(gè)例子的圖。圖13是表示本發(fā)明的實(shí)施方式的圖,是示出FIFO緩沖器中的數(shù)據(jù)的儲(chǔ)存狀態(tài)的一個(gè)例子的圖。圖14是表示本發(fā)明的實(shí)施方式的圖,是示出與詞典功能相關(guān)的處理流程的一個(gè)例子的流程圖。圖15是表示本發(fā)明的實(shí)施方式的圖,是示出在位于規(guī)定位置附近的從字符串中提取的語句處一并標(biāo)注有該語句的讀法、以及意思的顯示狀態(tài)的一個(gè)例子的圖。圖16是表示本發(fā)明的另一實(shí)施方式的圖,是示出涉及詞典功能的便攜式電話機(jī)的軟件結(jié)構(gòu)的框圖。圖17是表示本發(fā)明的另一實(shí)施方式的圖,是示出與詞典功能相關(guān)的處理流程的一個(gè)例子的流程圖。圖18是表示本發(fā)明的另一實(shí)施方式的圖,是示出在位于規(guī)定位置附近的從字符串中提取的語句處一并標(biāo)注有該語句的讀法、以及意思的顯示狀態(tài)的一個(gè)例子的圖。圖19是表示本發(fā)明的另一實(shí)施方式的圖,是示出在位于規(guī)定位置附近的從字符串中提取的語句處一并標(biāo)注有該語句的讀法、以及意思的顯示狀態(tài)的一個(gè)例子的圖。圖20是表示本發(fā)明的另一實(shí)施方式的圖,是示出保存的字符串、此次取得的字符串、將它們結(jié)合后的結(jié)合字符串的關(guān)系的圖。圖21是表示本發(fā)明的另一實(shí)施方式的圖,是示出保存的字符串、此次取得的字符串、將它們結(jié)合后的結(jié)合字符串的關(guān)系的圖。圖22是表示本發(fā)明的另一實(shí)施方式的圖,是示出保存的字符串、此次取得的字符串、將它們結(jié)合后的結(jié)合字符串的關(guān)系的圖。圖23是表示本發(fā)明的另一實(shí)施方式的圖,是示出保存的字符串、此次取得的字符串、將它們結(jié)合后的結(jié)合字符串的關(guān)系的圖。圖24是表示本發(fā)明的另一實(shí)施方式的圖,是示出涉及詞典功能的便攜式電話機(jī)的軟件結(jié)構(gòu)的框圖。圖25是表示本發(fā)明的另一實(shí)施方式的圖,是示出便攜式電話機(jī)的與詞典功能相關(guān)的處理流程的流程圖。圖26是表示本發(fā)明的另一實(shí)施方式的圖,是示出用于用戶選擇信息提供處理部具有的功能的顯示畫面的一個(gè)例子的圖。
具體實(shí)施例方式(實(shí)施方式I)
針對(duì)本發(fā)明的一個(gè)實(shí)施方式基于圖I 圖13說明如下。本實(shí)施方式的便攜式電話機(jī)(信息處理裝置)I是能由利用者攜帶并經(jīng)由基站與其它電話機(jī)進(jìn)行通話或收發(fā)郵件的電話機(jī)。該便攜式電話機(jī)I除了具有上述的進(jìn)行通話的功能(通話功能)、收發(fā)郵件的功能(郵件功能)以外,還具有由攝像部8取得靜止圖像或活動(dòng)圖像的功能(攝像功能)。進(jìn)而此外,還能與因特網(wǎng)等的通信網(wǎng)絡(luò)連接、或通過該通信網(wǎng)絡(luò)與其它裝置進(jìn)行通信。而且,雖然細(xì)節(jié)在后面敘述,但是本實(shí)施方式的便攜式電話機(jī)I也以能從取得的活動(dòng)圖像中識(shí)別特別指定的語句,并使該語句的意思和讀法與活動(dòng)圖像重疊地顯示(詞典功能)的方式構(gòu)成。再有,便攜式電話機(jī)I具有的功能并不限定于上述的通話功能、郵件功能、攝像功 能、以及詞典功能,例如,具備配備接收廣播波的天線并基于經(jīng)由該天線接收的廣播波而輸出電視廣播的電視功能等的其它功能也可。如圖2、3所示,上述便攜式電話機(jī)I是具有以下單元而形成的結(jié)構(gòu)操作主體部2,在上表面具有操作部6和傳聲器9,在背面具有攝像部8,在其內(nèi)部具有通信用天線5(在圖2、3中未圖示);顯示畫面部3,在上表面具有顯示部7、揚(yáng)聲器10 ;以及鉸鏈(hinge)部4,連結(jié)這些操作主體部2和顯示畫面部3。再有,在顯示畫面部3和操作主體部2之間以有線連結(jié),能由顯示畫面部3受理從操作主體部2輸出的控制信號(hào)等。該圖2、3是表示本發(fā)明的實(shí)施方式的圖,是示出便攜式電話機(jī)I的外觀的一個(gè)例子的圖。便攜式電話機(jī)I在例如與其它電話機(jī)之間進(jìn)行通話的情況下,能從揚(yáng)聲器10輸出聲音,并從傳聲器9輸入聲音。此外,便攜式電話機(jī)I能由操作部(操作受理部)6輸入各種控制指不等。進(jìn)而此外,便攜式電話機(jī)I構(gòu)成為能在顯示部7中顯示表示各種信息的文本數(shù)據(jù)或圖像數(shù)據(jù)、動(dòng)態(tài)圖像等的數(shù)字內(nèi)容。操作部6包括(T9數(shù)字鍵61和十字鍵62,在本實(shí)施方式(實(shí)施方式I)中,能利用(T9數(shù)字鍵61、十字鍵62、或者它們的組合來進(jìn)行各種信息的設(shè)定、或指示各種應(yīng)用程序的啟動(dòng)/停止指示等。此外,本實(shí)施方式的便攜式電話機(jī)I構(gòu)成為能對(duì)該操作部6進(jìn)行操作使攝像部8啟動(dòng),針對(duì)在取得的活動(dòng)圖像中包含的特別指定的語句顯示其意思和讀法。顯示部7例如能由IXD (Liquid Crystal Display,液晶顯示器)等實(shí)現(xiàn)。攝像部8由CO) (charge coupled device,電荷f禹合器件)或CMOS構(gòu)成,由此能對(duì)活動(dòng)圖像或靜止圖像進(jìn)行拍攝。攝像部8每I秒能對(duì)15至30幀以上的動(dòng)態(tài)圖像進(jìn)行攝像。再有,雖然細(xì)節(jié)在后面敘述,但是在便攜式電話機(jī)I中,主控制部15能對(duì)由該攝像部8攝像的活動(dòng)圖像的各圖像(幀)進(jìn)行解析,提取位于該圖像中的規(guī)定位置的語句,對(duì)提取出的語句的讀法、以及意思進(jìn)行輸出。(便攜式電話機(jī)的硬件結(jié)構(gòu))
接著,針對(duì)上述的便攜式電話機(jī)I的硬件結(jié)構(gòu)的細(xì)節(jié),參照?qǐng)D4進(jìn)行說明。圖4是表示本發(fā)明的實(shí)施方式的圖,是示出便攜式電話機(jī)I的主要部分結(jié)構(gòu)的框圖。
如圖4所示那樣,本實(shí)施方式的便攜式電話機(jī)I是除了具備上述的鉸鏈部4、通信用天線5、操作部6、顯示部7、攝像部8、傳聲器9、以及揚(yáng)聲器10之外,還具備無線通信處理部11、信號(hào)處理部12、顯示驅(qū)動(dòng)器13、存儲(chǔ)裝置(列表信息存儲(chǔ)裝置)14、主控制部15、以及FIFO緩沖器(儲(chǔ)存部)16而形成的結(jié)構(gòu)。首先,針對(duì)存儲(chǔ)裝置14保持的各種信息進(jìn)行說明。再有,該存儲(chǔ)裝置14是能進(jìn)行讀寫的存儲(chǔ)裝置,例如,能由閃速存儲(chǔ)器、硬盤等來實(shí)現(xiàn)。如圖4所示那樣,在該存儲(chǔ)裝置14中存儲(chǔ)有詞典表(列表信息)70和規(guī)定位置信息71。詞典表70是包含與從活動(dòng)圖像的各圖像(幀)中提取出的語句、該語句的ID、該語句的讀法以及意思相關(guān)的信息的表。在詞典表70中,如圖5所示那樣分別對(duì)應(yīng)地記錄有用于識(shí)別語句的ID、語句、該語句的讀法以及意思。圖5是表示本發(fā)明的實(shí)施方式的圖,是示出詞典表70的一個(gè)例子的圖。此外,規(guī)定位置信息71是為了決定輸出意思以及讀法的語句而作為基準(zhǔn)的信息。 更具體地說,在本實(shí)施方式中,是在由顯示部7顯示取得的圖像時(shí),與顯示畫面中的中心坐標(biāo)的位置相關(guān)的信息。主控制部15進(jìn)行便攜式電話機(jī)I具備的各部分的各種控制,例如能由CPU等來實(shí)現(xiàn)。在此,在主控制部15由CPU等來實(shí)現(xiàn)的情況下,通過該CPU將存儲(chǔ)在未圖示的ROM等中的系統(tǒng)程序讀出到未圖示的RAM等中并執(zhí)行,從而能控制該便攜式電話機(jī)I具有的各部分。而且,像這樣構(gòu)成的便攜式電話機(jī)I如以下那樣執(zhí)行各種功能。即,便攜式電話機(jī)I基于無線通信處理部11的收發(fā)控制,經(jīng)由通信用天線5進(jìn)行與基站(未圖示)的信號(hào)的收發(fā),對(duì)信號(hào)處理部12收發(fā)的信號(hào)實(shí)施規(guī)定的信號(hào)處理。由此,便攜式電話機(jī)I實(shí)現(xiàn)如下這樣的所謂的通話功能從揚(yáng)聲器10輸出經(jīng)由基站從對(duì)方側(cè)裝置(其它電話機(jī))發(fā)送來的聲音、或者經(jīng)由基站向?qū)Ψ絺?cè)裝置發(fā)送從傳聲器9輸入的聲音。進(jìn)而此外,上述便攜式電話機(jī)I也能實(shí)現(xiàn)如下這樣的所謂的郵件功能經(jīng)由上述通信用天線5在與基站之間進(jìn)行郵件數(shù)據(jù)的收發(fā),從以能與該基站進(jìn)行通信的方式連接的服務(wù)器等中接收郵件數(shù)據(jù)、或者發(fā)送郵件數(shù)據(jù)。此外,根據(jù)來自主控制部15的控制指示,攝像部8啟動(dòng),取得靜止圖像或活動(dòng)圖像。而且,實(shí)現(xiàn)如下這樣的所謂的攝像功能將取得的靜止圖像或活動(dòng)圖像儲(chǔ)存在存儲(chǔ)裝置14中、或向顯示驅(qū)動(dòng)器13輸出并在顯示部7中顯示。在為了執(zhí)行詞典功能而使攝像部8啟動(dòng)的情況下,根據(jù)主控制部15的控制指示,將從由攝像部8拍攝到圖像中提取出的語句的ID輸入至FIFO緩沖器16。FIFO緩沖器16是以按照較早地進(jìn)行了儲(chǔ)存的順序、即按照先儲(chǔ)存了的順序來取出從取得的圖像(幀)中提取出的語句的ID的方式進(jìn)行輸入輸出的所謂的先入先出緩沖器。雖然細(xì)節(jié)在后面敘述,但是在本實(shí)施方式的便攜式電話機(jī)I中,在執(zhí)行詞典功能的情況下,根據(jù)來自主控制部15的控制指示,將從圖像中提取出的語句的ID依次輸入至FIFO緩沖器16。而且,在每次從攝像部8輸入I圖像(幀)時(shí),主控制部15從該圖像中提取語句,并將提取出的語句的ID儲(chǔ)存在FIFO緩沖器16中。而且,搜索FIFO緩沖器16,將儲(chǔ)存的ID中的出現(xiàn)頻度最高的ID (成為眾數(shù)的ID)的語句的讀法、以及意思向顯示驅(qū)動(dòng)器13輸出。而且,顯示驅(qū)動(dòng)器13以使輸入的語句的讀法、以及意思與由攝像部8進(jìn)行拍攝的活動(dòng)圖像重疊地顯示于顯示部7的方式構(gòu)成。接著,針對(duì)本實(shí)施方式的便攜式電話機(jī)I中的上述的詞典功能的細(xì)節(jié)進(jìn)行說明。首先,針對(duì)“與詞典功能相關(guān)的軟件結(jié)構(gòu)”,參照?qǐng)DI進(jìn)行說明。圖I是表示本發(fā)明的實(shí)施方式的圖,是示出涉及詞典功能的便攜式電話機(jī)I的軟件結(jié)構(gòu)的框圖。(與詞典功能相關(guān)的軟件結(jié)構(gòu))
首先參照?qǐng)D1,針對(duì)與詞典功能相關(guān)的軟件結(jié)構(gòu)進(jìn)行說明。如圖I所示那樣,本實(shí)施方式的便攜式電話機(jī)I具備作為主控制部15執(zhí)行處理詞典功能的單元的詞典功能處理部20。 而且,詞典功能處理部20是具備作為功能塊的字符串取得部(提取單元、字符串提取單元)21、字符串核對(duì)部(提取單元、語句特別指定單元)22、語句ID取得部(標(biāo)識(shí)符取得單元)23、識(shí)別決定部(決定單元)24、以及語句信息取得部(意思/讀法取得單元、第一輸出單元)25而形成的結(jié)構(gòu)。再有,在詞典功能處理部20例如能由CPU等來實(shí)現(xiàn)的情況下,這些功能塊能通過該CPU將儲(chǔ)存在未圖示的ROM中的程序讀出到未圖示的RAM中并執(zhí)行來實(shí)現(xiàn)。此外,由字符串取得部21、字符串核對(duì)部22和語句ID取得部23來實(shí)現(xiàn)本發(fā)明的提取單元。字符串取得部21根據(jù)來自操作部6的指示,分別在構(gòu)成由攝像部8攝像到的活動(dòng)圖像的連續(xù)的圖像(幀)中進(jìn)行字符的識(shí)別處理。而且,字符串取得部21參照規(guī)定位置信息71,取得識(shí)別出的字符中的包含圖像的規(guī)定位置的字符串。也就是說,字符串取得部21在由攝像部8取得的活動(dòng)圖像的各圖像中,從行間或字符的排列中提取行。然后切出字符,進(jìn)行字符的識(shí)別。進(jìn)而字符串取得部21取得包含圖像的規(guī)定位置的字符串。再有,在本實(shí)施方式中圖像的規(guī)定位置是指在由顯示部7顯示取得的圖像時(shí),顯示畫面中的中心坐標(biāo)的位置。更具體地說,例如在取得了如圖6所示那樣的圖像的情況下,顯示部7的顯示畫面中的中心坐標(biāo)(0,0)為規(guī)定位置。而且,包含規(guī)定位置的字符串為包含中心坐標(biāo)的字符串、即“ 3農(nóng)場O杜撰々管理(二 J,,。字符串取得部21當(dāng)取得字符串時(shí)將該取得的字符串發(fā)送至字符串核對(duì)部22。圖6是表示本發(fā)明的實(shí)施方式的圖,是示出在位于規(guī)定位置附近的從字符串中提取出的語句處一并標(biāo)注有該語句的讀法、以及意思的顯示狀態(tài)的一個(gè)例子的圖。字符串核對(duì)部22從由字符串取得部21取得的字符串中選擇顯示意思、以及讀法的語句。字符串核對(duì)部22使用DP (Dynamic Programming :動(dòng)態(tài)規(guī)劃法)匹配來使由字符串取得部21取得的字符串(輸入字符串)和儲(chǔ)存在詞典表70中的參照字符匹配。而且,從匹配后的語句(字符串)中對(duì)輸出意思/讀法的語句(字符串)進(jìn)行特別指定。更具體地說,如以下那樣利用詞典表70進(jìn)行核對(duì)。首先,通過圖7說明關(guān)于本實(shí)施方式中利用的DP匹配的概略。圖7是表示本發(fā)明的實(shí)施方式的圖,是說明DP匹配的概略的圖。在字符串核對(duì)的DP匹配中,在輸入字符串和參照字符之間取得對(duì)應(yīng)時(shí),如圖7所示那樣求取累積距離值為最小值的路徑。在此累積距離值是在從起點(diǎn)起沿著路徑到終點(diǎn)時(shí),對(duì)表示輸入字符串和參照字符的一致程度的各節(jié)點(diǎn)(交點(diǎn))的距離值和表示輸入字符串和參照字符的對(duì)應(yīng)關(guān)系的通路(邊)的距離值進(jìn)行累積的值。再有,參照字符是輸入字符串中的一部分。因此,使起點(diǎn)、終點(diǎn)自由,將起點(diǎn)和終點(diǎn)的節(jié)點(diǎn)的距離值、以及從起點(diǎn)出發(fā)的通路、進(jìn)入終點(diǎn)的通路的距離值設(shè)為O。可是,在使用DP匹配從輸入字符串中搜索在詞典表70中注冊(cè)的語句的情況下,該搜索的語句的長度不相同。因此,搜索累積距離值除以語句的長度的值為最小的語句。再有,假設(shè)由字符串取得部21取得的字符串是圖6所示的“ 3農(nóng)場O杜撰々管理^ ”,在詞典表70中注冊(cè)有“農(nóng)場”、“杜撰”、“管理”這樣的參照字符。在該情況下,針對(duì)全部的語句(“農(nóng)場”、“杜撰”、“管理”)為相同的累積距離值。在像這樣存在多個(gè)累積距離值相同的語句的情況下,字符串核對(duì)部22參照規(guī)定位置信息71,在本實(shí)施方式中選擇顯示畫面中的離規(guī)定位置最接近的語句(“杜撰”)。此外,假設(shè)由字符串取得部21取得的字符串是包含“go as soon as possible”的字符串,“規(guī)定的位置”是“ soon ”的位置。此時(shí)如果將“ soon ”儲(chǔ)存在詞典表70中,則“soon”的累積距離值為0,但是如果“as soon as”這樣的慣用語也儲(chǔ)存在詞典表70中,則其累積距離值也為O。在像這樣發(fā)現(xiàn)了相同的累積距離值的語句的情況下,在本實(shí)施方式中規(guī)定為使長度長的語句優(yōu)先,因此,字符串核對(duì)部22從由字符串取得部21取得的字符串中提取“as soon as”的語句。因此,用戶在查詞典時(shí)不用注意是“as”還是“soon”,就能得到期望的意思(日語翻譯)。
接著使用圖8,針對(duì)在本實(shí)施方式中使用的DP匹配的細(xì)節(jié)進(jìn)行說明。圖8是表示本發(fā)明的實(shí)施方式的圖,是示出DP匹配中的各節(jié)點(diǎn)、以及節(jié)點(diǎn)間通路的距離值的關(guān)系的一個(gè)例子的圖。當(dāng)將節(jié)點(diǎn)(i,j)的累積距離值設(shè)為F (i, j)時(shí),能如數(shù)學(xué)式(I)那樣進(jìn)行求取。[數(shù)學(xué)式I]
權(quán)利要求
1.一種信息處理裝置,從圖像中進(jìn)行語句的識(shí)別,其特征在于,具備 攝像部,對(duì)活動(dòng)圖像進(jìn)行拍攝; 提取單元,依次取得構(gòu)成由所述攝像部拍攝到的活動(dòng)圖像的連續(xù)的圖像,對(duì)表示位于該圖像的規(guī)定位置的語句的信息即語句信息進(jìn)行提??; 儲(chǔ)存部,儲(chǔ)存由所述提取單元提取出的語句信息;以及 決定單元,將所述儲(chǔ)存部中儲(chǔ)存得最多的語句信息的語句決定為識(shí)別結(jié)果。
2.根據(jù)權(quán)利要求I所述的信息處理裝置,其特征在于,所述儲(chǔ)存部能將語句信息儲(chǔ)存到規(guī)定數(shù)量,而且語句信息向該儲(chǔ)存部的輸入輸出方式是按照較早地進(jìn)行了儲(chǔ)存的順序來取出的方式。
3.根據(jù)權(quán)利要求I或2所述的信息處理裝置,其特征在于, 還具備列表信息存儲(chǔ)裝置,對(duì)表示從圖像中提取的語句的語句信息的列表即列表信息進(jìn)行存儲(chǔ), 所述提取單元參照所述列表信息,從構(gòu)成由所述攝像部拍攝到的活動(dòng)圖像的圖像中提取在所述規(guī)定位置的語句的語句信息。
4.根據(jù)權(quán)利要求3所述的信息處理裝置,其特征在于, 所述列表信息是表示語句和標(biāo)識(shí)該語句的標(biāo)識(shí)符的對(duì)應(yīng)關(guān)系的表, 所述提取單元具備 字符串提取單元,從所述取得的圖像中提取包含所述規(guī)定位置的字符串; 語句特別指定單元,對(duì)由所述字符串提取單元提取出的字符串和存儲(chǔ)在所述列表信息存儲(chǔ)裝置中的列表信息進(jìn)行核對(duì),特別指定在規(guī)定位置的語句;以及 標(biāo)識(shí)符取得單元,參照所述列表信息,取得所述特別指定的語句的標(biāo)識(shí)符來作為表示由所述語句特別指定單元進(jìn)行特別指定的語句的語句信息, 所述儲(chǔ)存部儲(chǔ)存由所述標(biāo)識(shí)符取得單元取得的所述標(biāo)識(shí)符來作為所述語句信息。
5.根據(jù)權(quán)利要求4所述的信息處理裝置,其特征在于,所述語句特別指定單元利用動(dòng)態(tài)規(guī)劃法將由所述字符串提取單元提取出的字符串和存儲(chǔ)在所述列表信息存儲(chǔ)裝置中的列表信息進(jìn)行核對(duì),特別指定在規(guī)定位置的語句。
6.根據(jù)權(quán)利要求4或5所述的信息處理裝置,其特征在于, 在所述列表信息中,對(duì)所述語句至少對(duì)應(yīng)有該語句的意思以及讀法中的任一個(gè), 所述信息處理裝置具備 意思/讀法取得單元,從所述列表信息中,取得與由所述決定單元決定為識(shí)別結(jié)果的語句對(duì)應(yīng)的意思以及讀法中的至少一個(gè);以及 第一輸出單元,輸出由所述意思/讀法取得單元取得的所述語句的意思以及讀法中的至少一個(gè)。
7.根據(jù)權(quán)利要求6所述的信息處理裝置,其特征在于, 還具備顯示部,對(duì)由所述攝像部拍攝到的活動(dòng)圖像進(jìn)行顯示, 所述第一輸出單元以在所述活動(dòng)圖像上重疊地顯示由所述意思/讀法取得單元取得的語句的意思以及讀法中的至少一個(gè)的方式對(duì)所述顯示部進(jìn)行輸出。
8.根據(jù)權(quán)利要求7所述的信息處理裝置,其特征在于,具備 操作受理部,受理來自用戶的輸入;以及輸入感測單元,感測所述操作受理部中有無來自用戶的輸入, 在所述輸入感測單元感測來自用戶的輸入的期間,第一輸出單元向顯示部持續(xù)輸出由所述意思/讀法取得單元取得的所述語句的意思以及讀法中的至少一個(gè)。
9.根據(jù)權(quán)利要求8所述的信息處理裝置,其特征在于, 具備第二輸出單元,將由所述提取單元提取出的所述語句信息輸出至利用該語句信息來執(zhí)行特別指定的處理的特別指定處理部, 所述操作受理部能在第一輸入階段和第二輸入階段的不同的輸入階段受理來自用戶的輸入, 在所述輸入感測單元感測作為在所述第一輸入階段的輸入的第一輸入的期間,所述第一輸出單元向顯示部持續(xù)輸出由所述意思/讀法取得單元取得的所述語句的意思以及讀法中的至少一個(gè), 在所述感測單元感測到所述第一輸入切換成作為在第二輸入階段的輸入的第二輸入的情況下,第二輸出單元將所述語句的語句信息輸出至所述特別指定處理部。
10.根據(jù)權(quán)利要求8或9所述的信息處理裝置,其特征在于,還具備 字符串存儲(chǔ)裝置,存儲(chǔ)由所述字符串提取單元提取出的字符串, 當(dāng)所述輸入感測單元感測來自用戶的輸入時(shí),字符串提取單元將從所述圖像中提取出的字符串存儲(chǔ)在所述字符串存儲(chǔ)裝置中,進(jìn)而在從圖像中提取出新的字符串的情況下,將所述字符串存儲(chǔ)裝置中存儲(chǔ)的字符串重寫于該新提取出的字符串上來生成結(jié)合字符串, 所述語句特別指定單元將所述結(jié)合字符串和存儲(chǔ)在所述列表信息存儲(chǔ)裝置中的列表信息進(jìn)行核對(duì)。
11.根據(jù)權(quán)利要求10所述的信息處理裝置,其特征在于,字符串提取單元以字符串所包含的規(guī)定位置為基準(zhǔn),在新提取出的字符串上重寫在所述字符串存儲(chǔ)裝置中存儲(chǔ)的字符串來生成結(jié)合字符串。
12.根據(jù)權(quán)利要求7至11的任一項(xiàng)所述的信息處理裝置,其特征在于,作為位于圖像的規(guī)定位置的語句,所述提取單元對(duì)表示在由所述顯示部顯示該圖像時(shí)在該顯示部的顯示區(qū)域的中心坐標(biāo)位置附近顯示的語句的語句信息進(jìn)行提取。
13.根據(jù)權(quán)利要求7至11的任一項(xiàng)所述的信息處理裝置,其特征在于, 還具備感測單元,感測所述顯示部的顯示區(qū)域中的物理上的接觸, 作為位于圖像的規(guī)定位置的語句,所述提取單元對(duì)表示在由所述顯示部顯示該圖像時(shí)在該顯示部的顯示區(qū)域中在由所述感測單元感測到的位置顯示的語句的語句信息進(jìn)行提取。
14.根據(jù)權(quán)利要求2所述的信息處理裝置,其特征在于,所述儲(chǔ)存部能儲(chǔ)存的語句信息的規(guī)定數(shù)量為所述攝像部拍攝到的動(dòng)態(tài)圖像的幀率的1/5 I倍。
15.一種信息處理裝置的控制方法,所述信息處理裝置具備攝像部和儲(chǔ)存部,并從圖像中進(jìn)行語句的識(shí)別,所述控制方法的特征在于,包含 攝像步驟,由所述攝像部對(duì)活動(dòng)圖像進(jìn)行拍攝; 提取步驟,依次取得構(gòu)成所述攝像步驟中拍攝到的活動(dòng)圖像的連續(xù)的圖像,對(duì)表示位于該圖像的規(guī)定位置的語句的信息即語句信息進(jìn)行提取; 儲(chǔ)存步驟,將在所述提取步驟中提取出的語句信息儲(chǔ)存在所述儲(chǔ)存部中;以及決定步驟,將在所述儲(chǔ)存部中儲(chǔ)存得最多的語句信息的語句決定為識(shí)別結(jié)果。
16.一種用于使計(jì)算機(jī)作為權(quán)利要求I至14的任一項(xiàng)所述的信息處理裝置的各單元而發(fā)揮作用的信息處理裝置的控制程序。
17.—種記錄有權(quán)利要求16所述的信息處理裝置的控制程序的計(jì)算機(jī)可讀取的記錄介質(zhì)。
全文摘要
本發(fā)明提供一種能從圖像中迅速地識(shí)別字符的信息處理裝置。本發(fā)明的便攜式電話機(jī)是從圖像中進(jìn)行語句的識(shí)別的裝置。便攜式電話機(jī)具備攝像部(8),對(duì)活動(dòng)圖像進(jìn)行拍攝;字符串取得部(21)、字符串核對(duì)部(22)、語句ID取得部(23),依次取得構(gòu)成拍攝到的活動(dòng)圖像的連續(xù)的圖像,取得表示位于該圖像的規(guī)定位置的語句的ID;FIFO緩沖器(16),儲(chǔ)存取得的ID;以及識(shí)別決定部(24),將FIFO緩沖器(16)中儲(chǔ)存得最多的ID決定為識(shí)別結(jié)果。
文檔編號(hào)G06K9/03GK102667813SQ20108005321
公開日2012年9月12日 申請(qǐng)日期2010年7月29日 優(yōu)先權(quán)日2009年11月25日
發(fā)明者名古和行, 廣瀨齊志, 藤原晶 申請(qǐng)人:夏普株式會(huì)社