專利名稱:信息處理裝置、信息處理方法、記錄了信息處理程序的記錄介質(zhì)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及與圖像檢索有關(guān)的信息處理裝置、信息處理方法、記錄了信息處理程序的記錄介質(zhì)。
背景技術(shù):
作為對圖像的檢索方法,例如可考慮將圖像中包含的字符串進(jìn)行文本化而對進(jìn)行了文本化的字符串進(jìn)行檢索。作為將圖像中包含的字符串進(jìn)行文本化的技術(shù),例如有專利文獻(xiàn)I中記載的進(jìn)行字符識別的技術(shù)。現(xiàn)有技術(shù)文獻(xiàn) 專利文獻(xiàn)專利文獻(xiàn)I :日本特開2001-337993號公報
發(fā)明內(nèi)容
發(fā)明要解決的課題然而,在上述現(xiàn)有技術(shù)中,對于包含復(fù)雜的布局結(jié)構(gòu)、修飾字符(字體)的圖像,有時包含許多的識別錯誤。本發(fā)明是鑒于上述問題點而完成的,本發(fā)明的目的在于提供一種對于包含復(fù)雜的布局結(jié)構(gòu)、修飾字符等的圖像也能夠適當(dāng)?shù)剡M(jìn)行檢索的信息處理裝置、信息處理方法、記錄了信息處理程序的記錄介質(zhì)。用于解決課題的手段為了達(dá)到上述目的,本發(fā)明的信息處理裝置的特征在于,具備圖像數(shù)據(jù)庫,其保存檢索對象的圖像;字符串區(qū)域提取單元,其提取保存于圖像數(shù)據(jù)庫的圖像中的包含字符串的字符串區(qū)域;字符候選識別單元,其對于構(gòu)成由字符串區(qū)域提取單元提取出的字符串區(qū)域所包含的字符串的各字符,從圖像進(jìn)行字符識別來確定多個字符候選;以及字符候選存儲單元,其將由字符候選識別單元確定的多個字符候選按照每個字符與作為該字符候選的確定源的圖像對應(yīng)地進(jìn)行存儲。在本發(fā)明的信息處理裝置中,將圖像所包含的字符串的各字符作為多個字符候選而進(jìn)行識別并存儲。并且,使用所存儲的信息,判定檢索用的關(guān)鍵字的各字符是否與字符候選中的任意一個一致,從而進(jìn)行檢索。因此,在本發(fā)明的信息處理裝置中,如果檢索用的關(guān)鍵字的各字符與字符候選一致,則能夠判斷為在包含在圖像中的字符串中包含有關(guān)鍵字。由此,根據(jù)本發(fā)明的信息處理裝置,在由于檢索對象的圖像是包含復(fù)雜的布局結(jié)構(gòu)、修飾字符等的圖像等而難以唯一地識別構(gòu)成圖像中包含的字符串的各字符的情況下,也能夠適當(dāng)?shù)剡M(jìn)行檢索。本發(fā)明優(yōu)選為,信息處理裝置還具備檢索關(guān)鍵字輸入單元,其輸入檢索用的關(guān)鍵字;檢索單元,其檢索構(gòu)成由所述關(guān)鍵字輸入單元輸入的關(guān)鍵字的各字符是否按照該關(guān)鍵字的順序與由所述字符候選存儲單元存儲的構(gòu)成所述字符串的所述多個字符候選中的任意一個一致;以及輸出單元,其根據(jù)由所述字符候選存儲單元存儲的所述字符候選與圖像的對應(yīng)性而輸出所述檢索單元的檢索的結(jié)果。根據(jù)該結(jié)構(gòu),能夠使用由字符候選存儲單元存儲的信息而可靠地進(jìn)行檢索。本發(fā)明優(yōu)選為,字符候選識別單元對于在進(jìn)行字符識別時所確定的各字符候選評價字符識別的正確性,字符候選存儲單元根據(jù)表示由字符候選識別單元評價的正確性的信息而存儲字符候選,在構(gòu)成關(guān)鍵字的各字符與由字符候選存儲單元存儲的多個字符候選中的任意一個一致的情況下,檢索單元根據(jù)表示正確性的信息來評價關(guān)于該一致的可信度,輸出單元還根據(jù)可信度來輸出檢索結(jié)果。根據(jù)該結(jié)構(gòu),能夠根據(jù)構(gòu)成圖像中包含的字符串的各字符的識別的正確性,輸出與檢索的可信度相應(yīng)的檢索結(jié)果。即,能夠進(jìn)行對于用戶而言便利性更高的檢索結(jié)果的輸出。本發(fā)明優(yōu)選為,檢索單元根據(jù)關(guān)鍵字的字符數(shù)決定對與關(guān)鍵字的一致進(jìn)行判定的字符候選的數(shù)量,根據(jù)表示關(guān)于字符候選的正確性的信息,決定對與關(guān)鍵字的一致進(jìn)行判定的字符候選。根據(jù)該結(jié)構(gòu),能夠更適當(dāng)?shù)剡M(jìn)行與檢索用的關(guān)鍵字的字符數(shù)相應(yīng)的對圖像 的檢索。本發(fā)明優(yōu)選為,檢索單元根據(jù)關(guān)鍵字與字符候選一致的檢索結(jié)果,計算包含針對該關(guān)鍵字的該字符候選的圖像的得分值,輸出單元根據(jù)得分值而輸出檢索單元的檢索的結(jié)果。根據(jù)該結(jié)構(gòu),能夠進(jìn)行對于用戶而言便利性更高的檢索結(jié)果的輸出。另外,為了達(dá)到上述目的,本發(fā)明的信息處理裝置的特征在于,具備圖像數(shù)據(jù)庫,其保存檢索對象的圖像;字符串區(qū)域提取單元,其提取保存于圖像數(shù)據(jù)庫的圖像中的包含字符串的字符串區(qū)域;字符候選識別單元,其對于構(gòu)成由字符串區(qū)域提取單元提取出的字符串區(qū)域所包含的字符串的各字符,從圖像進(jìn)行字符識別來確定多個字符候選;以及字符候選存儲單元,其將組合由字符候選識別單元確定的多個該字符候選中的任意一個而得到的字符串與作為該字符候選的確定源的圖像對應(yīng)地進(jìn)行存儲。如上述結(jié)構(gòu),即使將組合了字符候選而得到的字符串作為檢索用的信息而進(jìn)行存儲,在由于檢索對象的圖像是包含復(fù)雜的布局結(jié)構(gòu)、修飾字符等的圖像等而難以唯一地識別構(gòu)成圖像中包含的字符串的各字符的情況下,也能夠適當(dāng)?shù)剡M(jìn)行檢索。另外,能夠通過組合檢索用的關(guān)鍵字與將該字符候選中的任意一個得到的字符串的一致進(jìn)行判斷來進(jìn)行檢索,因此能夠加快檢索處理。本發(fā)明優(yōu)選為,信息處理裝置還具備檢索關(guān)鍵字輸入單元,其輸入檢索用的關(guān)鍵字;檢索單元,其檢索構(gòu)成由關(guān)鍵字輸入單元輸入的關(guān)鍵字的各字符是否按照該關(guān)鍵字的順序與由字符候選存儲單元存儲的字符串中的任意一個一致;以及輸出單元,其根據(jù)由字符候選存儲單元存儲的字符串與圖像的對應(yīng)性而輸出檢索單元的檢索的結(jié)果。根據(jù)該結(jié)構(gòu),能夠使用由字符候選存儲單元存儲的信息可靠地進(jìn)行檢索。本發(fā)明優(yōu)選為,字符候選識別單元關(guān)于在進(jìn)行字符識別時所確定的各字符候選,評價字符識別的正確性,字符候選存儲單元根據(jù)表示由字符候選識別單元評價的正確性的信息而存儲字符串,在構(gòu)成關(guān)鍵字的各字符與由字符候選存儲單元存儲的字符串中的任意一個一致的情況下,檢索單元根據(jù)表示正確性的信息而評價關(guān)于該一致的可信度,輸出單元還根據(jù)可信度來輸出檢索結(jié)果。根據(jù)該結(jié)構(gòu),能夠根據(jù)構(gòu)成圖像中包含的字符串的各字符的識別的正確性而輸出與檢索的可信度相應(yīng)的檢索結(jié)果。即,能夠進(jìn)行對于用戶而言便利性更高的檢索結(jié)果的輸出。本發(fā)明優(yōu)選為,檢索單元根據(jù)關(guān)鍵字的字符數(shù)決定對與關(guān)鍵字的一致進(jìn)行判定的字符候選的數(shù)量,根據(jù)表示關(guān)于字符候選的正確性的信息而決定對與關(guān)鍵字的一致進(jìn)行判定的字符串。根據(jù)該結(jié)構(gòu),能夠更適當(dāng)?shù)剡M(jìn)行與檢索用的關(guān)鍵字的字符數(shù)相應(yīng)的對圖像的檢索。本發(fā)明優(yōu)選為,檢索單元根據(jù)關(guān)鍵字與字符串一致的檢索結(jié)果,計算包含針對該關(guān)鍵字的該字符候選的圖像的得分值,輸出單元根據(jù)得分值而輸出檢索單元的檢索的結(jié)果。根據(jù)該結(jié)構(gòu),能夠進(jìn)行對于用戶而言便利性更高的檢索結(jié)果的輸出。本發(fā)明優(yōu)選為,檢索單元針對由關(guān)鍵字輸入單元輸入的多個關(guān)鍵字,計算得分值。根據(jù)該結(jié)構(gòu),能夠進(jìn)行針對多個檢索用的關(guān)鍵字的檢索,能夠進(jìn)行對于用戶而言便利性更高的檢索。本發(fā)明優(yōu)選為,檢索單元根據(jù)包含關(guān)鍵字的圖像數(shù)相對于圖像數(shù)據(jù)庫中保存的圖 像數(shù)的比例,計算得分值。根據(jù)該結(jié)構(gòu),能夠進(jìn)行與圖像中包含的關(guān)鍵字的出現(xiàn)率相應(yīng)的檢索結(jié)果的輸出。即,能夠進(jìn)行對于用戶而言便利性更高的檢索。本發(fā)明優(yōu)選為,信息處理裝置還包括視覺性特征量計算單元,該視覺性特征量計算單元從由字符串區(qū)域提取單元提取出的字符串區(qū)域的圖像,計算基于各字符的大小、顏色、形狀及裝飾、以及字符顏色與背景顏色的對比度中的至少任意一個的該字符串的視覺性特征量,檢索單元從識別出關(guān)鍵字的各字符按照該關(guān)鍵字的順序一致的字符串的字符候選的字符串區(qū)域的視覺性特征量,計算包含該字符串的圖像的得分值。根據(jù)該結(jié)構(gòu),相應(yīng)于基于構(gòu)成圖像中包含的字符串的字符的大小、顏色、形狀及裝飾、以及字符顏色與背景顏色的對比度中的至少任意一個的該字符串的視覺性特征量而輸出檢索結(jié)果。因此,例如在圖像中特征性地使用檢索關(guān)鍵字的情況下,能夠輸出使該圖像處于上位的檢索結(jié)果。即,根據(jù)該結(jié)構(gòu),在圖像中特征性地使用檢索關(guān)鍵字的情況下,能夠容易進(jìn)行檢測。本發(fā)明優(yōu)選為,圖像數(shù)據(jù)庫以不包含多個同一圖像的方式保存檢索對象的圖像,并且將從該圖像得到的哈希(Hash)值與表示該圖像被利用的Web頁面的部位的信息對應(yīng)地進(jìn)行保存,輸出單元輸出通過檢索單元的檢索得到并且表示不包含多個同一圖像的圖像的信息、以及以與該圖像的哈希值對應(yīng)的方式保存在圖像數(shù)據(jù)庫中的表示該圖像被利用的Web頁面的部位的信息。在該結(jié)構(gòu)中,將成為檢索對象的圖像的哈希值與表示該圖像被利用的Web頁面的部位的信息對應(yīng)地進(jìn)行保存,作為檢索結(jié)果,輸出表示通過檢索得到的圖像的信息、以及與該圖像的哈希值對應(yīng)地保存的表示該圖像被利用的Web頁面的部位的信息。如果是同一圖像,則哈希值成為一定的范圍內(nèi)的值,因此在多個Web頁面的部位中被利用的圖像能夠作為一個圖像進(jìn)行處理。因此,根據(jù)該結(jié)構(gòu),即使在同一圖像在多個Web頁面的部位被利用的情況下也能夠有效地靈活利用檢索結(jié)果。即,能夠防止同一圖像作為檢索結(jié)果而排列,用戶能夠高效地發(fā)現(xiàn)想要檢索的圖像。例如,能夠防止記載有用戶檢索到的關(guān)鍵字的同一圖像作為檢索結(jié)果而排列的情況。另外,本發(fā)明除了如上所述作為信息處理裝置的發(fā)明記載以外,還能夠如以下所述作為信息處理方法以及記錄了信息處理程序的計算機(jī)可讀取的記錄介質(zhì)來記載。這只是類別不同,實質(zhì)上是相同的發(fā)明,起到相同的作用以及効果。
S卩,本發(fā)明的信息處理方法是具備保存檢索對象的圖像的圖像數(shù)據(jù)庫的信息處理裝置的信息處理方法,其特征在于,包括字符串區(qū)域提取步驟,提取圖像數(shù)據(jù)庫所保存的圖像中的包含字符串的字符串區(qū)域;字符候選識別步驟,對于構(gòu)成在字符串區(qū)域提取步驟中提取出的字符串區(qū)域所包含的字符串的各字符,從圖像進(jìn)行字符識別來確定多個字符候選;以及字符候選存儲步驟,將通過字符候選識別步驟確定的多個字符候選按照字符串的順序與作為該字符候選的確定源的圖像對應(yīng)地進(jìn)行存儲。另外,本發(fā)明的存儲介質(zhì)的特征在于,是記錄了使一個以上的計算機(jī)作為如下單元進(jìn)行工作的信息處理程序的計算機(jī)可讀取的記錄介質(zhì),該單元包括圖像數(shù)據(jù)庫,其保存檢索對象的圖像;字符串區(qū)域提取單元,其提取圖像數(shù)據(jù)庫所保存的圖像中的包含字符串的字符串區(qū)域;字符候選識別單元,其對于構(gòu)成由字符串區(qū)域提取單元提取出的字符串區(qū)域中包含的字符串的各字符,從圖像進(jìn)行字符識別來確定多個字符候選;以及字符候選存儲單元,其將由字符候選識別單元確定的多個字符候選按照字符串的順序與作為該字符候選的確定源的圖像對應(yīng)地進(jìn)行存儲。發(fā)明效果 在本發(fā)明中,如果檢索用的關(guān)鍵字的各字符與多個字符候選一致,則能夠判斷為圖像中包含的字符串中包含有關(guān)鍵字。由此,根據(jù)本發(fā)明,在由于檢索對象的圖像是包含復(fù)雜的布局結(jié)構(gòu)、修飾字符等的圖像等而難以唯一地識別構(gòu)成圖像中包含的字符串的各字符的情況下,也能夠適當(dāng)?shù)剡M(jìn)行檢索。
圖I是表示作為本發(fā)明的實施方式的信息處理裝置的圖像檢索裝置的功能結(jié)構(gòu)的圖。圖2是表示從圖像識別并由圖像檢索裝置存儲的字符候選的例子的表。圖3是表示從圖像的字符串區(qū)域取得了字符顏色和背景顏色的例子的圖。圖4是用于從字符串的字符尺寸、以及字符顏色的明度與背景顏色的明度之差求出字符串的視覺性特征量的表。圖5是用于說明檢索關(guān)鍵字與字符識別可信度的關(guān)系的圖。圖6是從圖像檢索裝置作為檢索結(jié)果而輸出并表示的畫面的例子。圖7是表示由本發(fā)明的實施方式的圖像檢索裝置執(zhí)行的處理(信息處理方法)中的直至生成圖像檢索用的信息為止的處理的流程圖。圖8是表示由本發(fā)明的實施方式的圖像檢索裝置執(zhí)行的處理(信息處理方法)中的實際上進(jìn)行圖像檢索的處理的流程圖。圖9是表示由本發(fā)明的實施方式的圖像檢索裝置執(zhí)行的處理(信息處理方法)中的關(guān)鍵字的檢索處理的流程圖。圖10是表示字符候選數(shù)與圖像內(nèi)字符檢索的精度的關(guān)系的曲線圖。圖11是表示目視結(jié)果與檢索結(jié)果的比較(N=30的情況)的表。圖12是用于實驗的樣本圖像。圖13是表示圖像得分的計算結(jié)果的表。圖14是表示字符候選數(shù)與檢索時間的關(guān)系的曲線圖。
圖15是將本發(fā)明的實施方式的信息處理程序的結(jié)構(gòu)與記錄介質(zhì)一起示出的圖。圖16是表示將由圖像檢索裝置存儲的從圖像識別的字符候選進(jìn)行組合而得到的字符串的例子的表。
具體實施例方式下面,參照附圖詳細(xì)地說明本發(fā)明的信息處理裝置、信息處理方法、信息處理程序、記錄了信息處理程序的記錄介質(zhì)以及圖像檢索用信息生成裝置的優(yōu)選的實施方式。另夕卜,在附圖的說明中對同一要件標(biāo)記同一符號,并省略重復(fù)的說明。圖I是示出作為本實施方式的信息處理裝置的圖像檢索裝置10。圖像檢索裝置10是受理針對檢索對象的圖像的檢索要求而輸出與該檢索要求相應(yīng)的檢索結(jié)果的裝置。在本實施方式中,檢索對象的圖像是在網(wǎng)絡(luò)購物商城中銷售的商品的說明圖像。圖像檢索裝置10的圖像檢索的目的是檢查作為商品的說明圖像有無不合適的圖像。作為商品的說明圖 像不合適的圖像是指,例如被消費者過度地期待健康商品、化妝品等商品的効果的圖像。根據(jù)上述的檢索對象以及目的,例如由管理網(wǎng)絡(luò)購物商城的企業(yè)主使用圖像檢索裝置10。因此,雖然在圖I中沒有明示,但圖像檢索裝置10能夠與構(gòu)成網(wǎng)絡(luò)購物商城的服務(wù)器連接等而取得檢索對象的圖像。圖像檢索裝置10能夠與管理者終端30連接而互相進(jìn)行信息的收發(fā)。圖像檢索裝置10從管理者終端30受理針對檢索對象的圖像的檢索要求,向管理者終端30輸出表示與檢索要求相應(yīng)的檢索結(jié)果的信息。圖像檢索裝置10是通過具備CPU (Central Processing Unit)、存儲器、通信模塊等硬件的服務(wù)器裝置等的計算機(jī)來實現(xiàn)的。通過這些結(jié)構(gòu)要件通過程序等進(jìn)行動作,從而發(fā)揮后述的圖像檢索裝置10的功能。另外,圖像檢索裝置10也可以由包括多個計算機(jī)的計算機(jī)系統(tǒng)構(gòu)成。管理者終端30是由管理上述網(wǎng)絡(luò)購物商城的企業(yè)主的用戶使用的具有通信功能的終端,能夠與圖像檢索裝置10進(jìn)行信息的收發(fā)。管理者終端30具體相當(dāng)于PC(PerSonalComputer)等通信裝置。接下來,對圖像檢索裝置10的功能性的結(jié)構(gòu)進(jìn)行說明。如圖I所示,圖像檢索裝置10具備圖像數(shù)據(jù)庫11、圖像登記部12、字符串區(qū)域提取部13、字符候選識別部14、字符候選存儲部15、視覺性特征量計算部16、檢索關(guān)鍵字輸入部17、檢索部18、以及輸出部19。圖像數(shù)據(jù)庫11是保存(存儲)檢索對象的圖像的數(shù)據(jù)庫。圖像數(shù)據(jù)庫11中保存的圖像是如上所述登載在構(gòu)成網(wǎng)絡(luò)購物商城的Web站點中的、在該網(wǎng)絡(luò)購物商城中銷售的商品的說明圖像。各圖像被賦予確定圖像的ID等信息,由此能夠確定圖像。另外,圖像數(shù)據(jù)庫11不會重復(fù)地保存同一圖像。即,圖像數(shù)據(jù)庫11以不包含多個同一圖像的方式保存圖像。具體地,圖像數(shù)據(jù)庫11通過圖像檢索裝置10所具備的存儲器、硬盤等硬件來實現(xiàn)。圖像數(shù)據(jù)庫11既可以對通過構(gòu)成數(shù)據(jù)庫的軟件來保存的圖像的數(shù)據(jù)進(jìn)行管理,也可以只是單純地將圖像的數(shù)據(jù)保存到存儲器、硬盤等。圖像數(shù)據(jù)庫11與保存的圖像對應(yīng)地存儲通過對該圖像應(yīng)用哈希函數(shù)而得到的哈希值。該哈希函數(shù)是預(yù)先設(shè)定的特定的哈希函數(shù)。如果是同一圖像,則由此得到的哈希值在一定的范圍內(nèi)。由此,在網(wǎng)絡(luò)購物商城中在多個Web站點中使用同一圖像的情況下,能夠用一個哈希值進(jìn)行管理。另外,在此,對于字符顏色相似(紅色與橙色等)的圖像、字符的大小相似的圖像等對用戶而言視為相同的圖像,也可以設(shè)為是同一圖像。上述哈希值的一定的范圍是可以根據(jù)視為同一圖像的圖像而適當(dāng)設(shè)定的。圖像數(shù)據(jù)庫11將表示作為該圖像被利用的Web頁面的部位的Web站點的信息與上述哈希值進(jìn)行對應(yīng)而保存。表示W(wǎng)eb站點的信息例如是URL(Uniform Resource Locator)。另外,圖像數(shù)據(jù)庫11將數(shù)值與表示上述Web站點的各個信息進(jìn)行對應(yīng)而保存。該數(shù)值例如是該Web站點中的該圖像所涉及的商品的銷售價格。另外,也可以將表示上述Web站點的各個信息與該Web站點中的該商品的說明等其它的信息進(jìn)行對應(yīng)。根據(jù)上述的數(shù)據(jù)結(jié)構(gòu),圖像數(shù)據(jù)庫11能夠?qū)D像、與圖像被利用的Web站點以及該Web站點中的該圖像所涉及的商品的銷售價格的信息進(jìn)行對應(yīng)而存儲。圖像登記部12是輸入新登記到圖像數(shù)據(jù)庫11中的圖像與表示該圖像被利用的Web站點的信息,并使這些信息保存到圖像數(shù)據(jù)庫中的圖像登記單元。圖像登記部12預(yù)先存儲上述特定的哈希函數(shù)。圖像登記部12對輸入的圖像應(yīng)用該哈希函數(shù)而計算哈希值。圖像登記部12讀出圖像數(shù)據(jù)庫11中保存的哈希值,判斷計算的哈希值是否是從已經(jīng)保存在圖像數(shù)據(jù)庫11中的哈希值起在一定的范圍內(nèi)的值。圖像登記部12在判斷為計算的哈希 值是從已經(jīng)保存的哈希值起在一定的范圍內(nèi)的值的情況下,將表示該圖像被利用的Web站點的信息與該已經(jīng)保存的哈希值進(jìn)行對應(yīng)而保存到圖像數(shù)據(jù)庫11中。圖像登記部12在判斷為計算的哈希值不是從已經(jīng)保存的哈希值起在一定的范圍內(nèi)的值的情況下,將輸入的圖像及表示W(wǎng)eb站點的信息、以及計算的哈希值進(jìn)行對應(yīng)而重新保存到圖像數(shù)據(jù)庫11中。此時,如上所述也可以還結(jié)合該Web站點中的該圖像所涉及的商品的銷售價格的信息等來進(jìn)行登記。例如,通過管理網(wǎng)絡(luò)購物商城的企業(yè)主的用戶的操作,從管理者終端30向圖像登記部12輸入圖像和表示該圖像被利用的Web站點的信息。或者,也可以在網(wǎng)絡(luò)購物商城的Web站點中新利用圖像的情況下自動地進(jìn)行輸入。字符串區(qū)域提取部13是提取圖像數(shù)據(jù)庫11中保存的圖像中的包含字符串的字符串區(qū)域的字符串區(qū)域提取單元。字符串區(qū)域的提取例如如下這樣進(jìn)行。首先,為了提取圖像內(nèi)的字符而將對象圖像變換為灰度圖像之后,通過辨別分析法來決定閾值并變換為2值圖像。該方法例如可以使用如下方法,即,大津基于辨別以及最小2乘規(guī)范的自動閾值選定法,信學(xué)論D,Vol. 63,No. 4,pp. 349-356 (1980)中記載的方法。接下來,提取對2值圖像進(jìn)行標(biāo)記處理,并將得到的圖像連結(jié)要素使用間距、縱橫比以及角度來連結(jié)區(qū)域并在橫向和縱向上排列而成的字符串圖像。該方法例如可以使用如下方法蘆田,永井,R本,宮尾,山本從情景圖像的字符提取,信學(xué)論D,Vol. J88-D2,No. 9,pp. 1817-1824 (2005)中記載的方法。字符串區(qū)域提取部13將如上所述提取的字符串區(qū)域(的圖像的數(shù)據(jù))輸出到字符候選識別部14以及視覺性特征量計算部16。此時,以使能夠辨別提取的字符串區(qū)域是從哪個圖像進(jìn)行了提取(提取源的圖像)。另外,字符串區(qū)域提取部13也可以從一個圖像提取多個字符串區(qū)域。在該情況下,對從圖像提取的各個字符串區(qū)域例如賦予ID等而以使能夠進(jìn)行辨別。另外,提取的字符串區(qū)域也可以是在圖像中區(qū)域重復(fù)的部分。在圖像中,一個部位也可以屬于縱向的字符串區(qū)域和橫向的字符串區(qū)域這兩個區(qū)域。這是為了在無法明確地辨別在哪個方向上讀取字符串的情況下,也防止遺漏字符串的提取。字符串區(qū)域提取部13提取字符串的定時例如是在圖像數(shù)據(jù)庫11中新保存圖像的定時?;蛘?,也可以將用戶的操作作為觸發(fā)而進(jìn)行提取。字符候選識別部14是對于構(gòu)成由字符串區(qū)域提取部13提取并輸入的字符串區(qū)域中包含的字符串的各字符,從圖像進(jìn)行字符識別來確定多個字符候選的字符候選識別單元。另外,字符候選識別部14關(guān)于進(jìn)行字符識別時確定的各字符候選,評價字符識別的正確性,對各字符候選附加順序。字符識別如下述這樣進(jìn)行。使用詞素解析,將輸入的字符串區(qū)域的圖像分割為構(gòu)成字符串的各字符的圖像,對各字符的圖像進(jìn)行字符識別處理。通過從圖像提取字符識別中使用的特征量,比較該特征量與預(yù)先提取的能成為字符候選的字符的特征量,從而進(jìn)行字符識別。關(guān)于字符識別中使用的特征量,例如能夠使用利用了字符的輪廓的方向線性元素特征。該方法例如可以使用如下方法孫,田原,阿曾,木村使用了方向線性元素特征量的高精度字符識別,信學(xué) 論,vol. J74-D-II,No. 3,pp. 330-339(1991)中記載的方法。作為字符識別的正確性,例如可以使用特征量的歐幾里德距離的短度。即,越是具有在特征量的歐幾里德距離上與從圖像提取的特征量近的特征量的字符,設(shè)為正確性越高的字符候選。使用該字符識別的正確性,對于各對象字符圖像,對字符候選附加順序。附加順序的字符候選作為直至第N位被復(fù)用的字符候選而被保持(N是預(yù)先設(shè)定的2以上的自然數(shù))。通過對這樣構(gòu)成字符串的各字符保持多個字符候選,避免字符候選錯誤所導(dǎo)致的檢索遺漏。如上所述,字符候選識別部14將構(gòu)成從字符串區(qū)域確定的字符串的各字符的多個字符候選的信息輸出到字符候選存儲部15。字符候選存儲部15是將由字符候選識別部14確定的多個字符候選按照字符串的順序與作為該字符候選的確定源的圖像進(jìn)行對應(yīng)而存儲的字符候選存儲單元。字符候選存儲部15按照由字符候選識別部14評價的正確性從高到低的順序?qū)⒈硎靖髯址蜻x的信息針對每個字符作為針對圖像的索引而進(jìn)行存儲。例如,通過向圖像檢索裝置10的存儲器、硬盤等保存例如下述的表示各字符候選的數(shù)據(jù)(文件),從而進(jìn)行該存儲。圖2示出字符候選存儲部15所存儲的信息的例子。圖2所示的例子是從一個字符串區(qū)域識別的字符候選。如圖2所示,字符候選存儲部15所存儲的信息是將字符的順序(圖2中的“No. j”)、字符坐標(biāo)、以及識別結(jié)果的信息分別對應(yīng)的信息。字符的順序是表示該字符候選相當(dāng)于構(gòu)成字符串的第幾個字符的信息。字符坐標(biāo)是表示該字符候選位于字符候選的確定源的圖像中的哪個位置的信息。字符坐標(biāo)的信息表示將圖像左上設(shè)為原點(0,0)時的字符圖像的(X坐標(biāo),y坐標(biāo),寬度,高度)。在此,X坐標(biāo)以及y坐標(biāo)表示字符圖像中的預(yù)先設(shè)定的基準(zhǔn)位置(例如,字符圖像的左上的像素的位置)。例如由字符候選識別部14取得字符坐標(biāo)的信息。識別結(jié)果是按照正確性從高到低的順序排列各字符的字符候選的結(jié)果。在此,將識別結(jié)果C的第n個字符候選第j位表現(xiàn)為C[n] [j]。例如,圖2的表的識別結(jié)果C中的C[l] [1]、C[1] [2]以及 C[10] [I]分別為 “■ ”、“予”以及“高”。字符候選存儲部15將如圖2所示的表示識別結(jié)果的信息與作為字符候選的確定源的圖像的哈希值等的對圖像進(jìn)行確定的信息進(jìn)行對應(yīng)而存儲,以使能夠辨別從哪個圖像進(jìn)行了提取。另外,在從一個圖像提取多個字符串區(qū)域的情況下,與字符串區(qū)域的ID等進(jìn)行對應(yīng)而存儲,以使能夠辨別從哪個字符串區(qū)域進(jìn)行了提取。字符候選存儲部15也可以將由字符候選識別部14確定的多個字符候選作為將該字符候選中的任意一個進(jìn)行組合得到的字符串,與作為該字符候選的確定源的圖像進(jìn)行對應(yīng)而存儲。即,也可以對于圖2所示的各字符,存儲選擇一個字符候選并按照字符串的順序進(jìn)行組合而得到的字符串。例如,是如圖2所示的識別結(jié)果的情況下,該字符串如圖16所示。在此,組合而存儲的字符串并非按照從圖像取得的字符候選的順序連續(xù),而是部分性地遺漏了字符串。例如,關(guān)于從圖像取得的字符候選,“安全性” 高S ”雖然沒有按照字符候選的順序連續(xù),但也可以是那樣的組合。另外,針對每個字符存儲字符候選的情況下,與上述同樣地在后述的檢索中也可以并非一定按照字符候選的順序判斷一致。另外,如上所述存儲字符串的情況下,對于與字符候選對應(yīng)的信息(字符識別的正確性的信息等),也可以和與字符串進(jìn)行對應(yīng)而針對每個字符存儲了字符候選的情況同樣地進(jìn)行處理。
在此存儲的字符串既可以對于所有的字符候選的組合進(jìn)行存儲,也可以僅存儲與作為預(yù)先設(shè)定的檢索關(guān)鍵字而設(shè)想的字符串一致的組合。另外,也可以對于字符串的一部分(例如,在圖2的信息的例子中“I O安全性”這樣的部分)進(jìn)行存儲。視覺性特征量計算部16是從由字符串區(qū)域提取部13提取的字符串區(qū)域的圖像,計算基于構(gòu)成字符串的字符的大小以及顏色中的至少任一個的該字符串的視覺性特征量(saliency)并進(jìn)行存儲的視覺性特征量計算單元。視覺性特征量計算部16根據(jù)構(gòu)成字符串區(qū)域的字符串的像素的明度、與構(gòu)成字符串區(qū)域的背景的像素的明度之差計算視覺性特征量。視覺性特征量計算部16將構(gòu)成字符串區(qū)域的字符串的像素的明度設(shè)為在該像素中最多的顏色的像素的明度,將構(gòu)成字符串區(qū)域的背景的像素的明度設(shè)為在該像素中最多的顏色的像素的明度。更具體地,視覺性特征量計算部16通過以下的處理來計算字符串的視覺性特征量。視覺性特征量計算部16將計算的視覺性特征量與字符串進(jìn)行對應(yīng)而存儲。例如,通過向圖像檢索裝置10的存儲器、硬盤等保存信息,從而進(jìn)行該存儲。另外,視覺性特征量計算部16也可以計算構(gòu)成字符串的每個字符的視覺性特征量并進(jìn)行存儲。根據(jù)該結(jié)構(gòu),能夠在檢索時相加每個字符的視覺性特征量而設(shè)為字符串的視覺性特征量。視覺性特征量計算部16與字符候選識別部14同樣地進(jìn)行字符識別。但是,視覺性特征量計算部16的字符的識別也可以并非一定確定多個字符候選。視覺性特征量計算部16從在提取字符時得到的字符圖像區(qū)域的縱橫的大小,確定字符的大小(字符尺寸)。例如,以點(Pt)單位得到字符尺寸。視覺性特征量計算部16對于字符圖像區(qū)域中包含的字符區(qū)域與背景區(qū)域,使用代表顏色選擇法來取得字符顏色和背景顏色。代表顏色選擇法例如記載于如下長谷,米田,酒井,丸山關(guān)于以彩色文書圖像中的字符區(qū)域提取為目的的顏色分割的研究,信學(xué)論D-II vol. J83-D-II No. 5pp. 1294-1304(2000)。選擇代表顏色的過程是,首先針對字符區(qū)域和背景區(qū)域的各區(qū)域,將像素值從RGB顏色空間變換為L*a*b*顏色空間。之后,將所有的像素映射到分割為一邊是w的立方體的L*a*b*顏色空間,并調(diào)查落在小區(qū)域中的像素的數(shù)量。在此,w是預(yù)先設(shè)定的值。其結(jié)果,將小區(qū)域的像素值與落在周圍存在的26附近的各個小區(qū)域中的像素數(shù)相比最多的小區(qū)域設(shè)為代表顏色。但是,在產(chǎn)生多處的情況下,將它們中的任意一個區(qū)域設(shè)為代表顏色。圖3中示出實際上進(jìn)行代表顏色選擇并取得了字符顏色和背景顏色的例子。在圖3中,用虛線示出的區(qū)域是字符串區(qū)域。另外,選擇代表顏色時的w的值設(shè)為4。視覺性特征量計算部16從代表顏色的像素的RGB值,通過以下的式(I)來求出明度L。L=O. 298912R+0. 586611G+0. 114478B (I)視覺性特征量計算部16求出字符顏色的明度L與背景顏色的明度L之差的絕對值。接下來,視覺性特征量計算部16按照圖4的表,從得到的字符尺寸與明度差,計算字符串的視覺性特征量。在圖4所示的表中,視覺性特征量為與low (低)、medium (中)以及high (高)等定性的標(biāo)記,但也可以將它們變換為定量的值。視覺性特征量計算部16將表示計算的字符串的視覺性特征量的信息輸出到檢索部18。視覺性特征量計算部16計算視覺性特征量的定時例如與字符串區(qū)域提取部13提取字符串的定時同樣地,是在圖像數(shù)據(jù)庫11中新保存圖像的定時。在該情況下,視覺性特 征量例如作為向作為針對圖像的索引的索引付加的信息而存儲。或者,也可以在檢索部18進(jìn)行檢索處理時,根據(jù)來自檢索部18的指示來進(jìn)行。另外,視覺性特征量計算部16除了大小以及顏色以外,也可以根據(jù)其它的字符的特征、例如形狀(字體)及裝飾、以及字符顏色與背景顏色的對比度中的至少任一個來計算視覺性特征量。檢索關(guān)鍵字輸入部17是輸入檢索用的關(guān)鍵字的檢索關(guān)鍵字輸入單元。檢索關(guān)鍵字輸入部17也可以輸入多個關(guān)鍵字。在該情況下,優(yōu)選還結(jié)合表示以多個關(guān)鍵字進(jìn)行AND檢索還是進(jìn)行OR檢索的信息來進(jìn)行輸入。例如,如下述進(jìn)行檢索用的關(guān)鍵字的輸入。檢索關(guān)鍵字輸入部17受理來自管理者終端30的訪問要求,向管理者終端30發(fā)送具有用于輸入關(guān)鍵字的表格(Form)的Web頁面的數(shù)據(jù)。在管理者終端30中,接收并顯示該Web頁面的數(shù)據(jù)。在管理者終端30中,由用戶進(jìn)行關(guān)鍵字的輸入操作,包含該關(guān)鍵字的檢索要求被發(fā)送到圖像檢索裝置10。檢索關(guān)鍵字輸入部17接收該檢索要求,從接收到的檢索要求取得關(guān)鍵字,從而輸入關(guān)鍵字。檢索關(guān)鍵字輸入部17將輸入的關(guān)鍵字輸出到檢索部18。檢索部18是使用從檢索關(guān)鍵字輸入部17輸入的關(guān)鍵字,將圖像數(shù)據(jù)庫11中保存的圖像作為對象進(jìn)行檢索的檢索單元。通過判定構(gòu)成從檢索關(guān)鍵字輸入部17輸入的關(guān)鍵字的各字符是否按照該關(guān)鍵字的順序與構(gòu)成由字符候選存儲部15存儲的字符串的多個字符候選中的任意一個一致,從而進(jìn)行檢索。例如,在檢索用的關(guān)鍵字是“安全性”,且構(gòu)成字符串的多個字符候選是圖2的表所示的內(nèi)容的情況下,由于在第3個字符 第5個字符的字符候選中分別包含“安”,“全”,“性”的字符,因此圖2所示的字符串被判斷為命中了“安全性”這一關(guān)鍵字。關(guān)于字符串是否命中關(guān)鍵字的判斷,將使用流程來后述。如上所述,在字符候選存儲部15存儲將字符候選按照字符串的順序進(jìn)行組合得到的字符串的狀態(tài)下,也可以通過比較從檢索關(guān)鍵字輸入部17輸入的關(guān)鍵字、與字符候選存儲部15存儲的字符串來進(jìn)行檢索。在字符候選存儲部15存儲的字符串中包含從檢索關(guān)鍵字輸入部17輸入的關(guān)鍵字的情況下,判斷為字符候選存儲部15所存儲的字符串命中了關(guān)鍵字。這樣,如果字符候選存儲部15存儲了字符串,則能夠通過如上所述與檢索用的關(guān)鍵字判斷字符串彼此的一致來進(jìn)行檢索,因此能夠加快檢索處理。另外,如果不作為字符串存儲而作為圖2所示的信息存儲字符候選,則對于未知詞、模糊的關(guān)鍵字也能夠進(jìn)行檢索。
在上述檢索方法中,與僅使用字符識別的結(jié)果的第I候選進(jìn)行檢索的情況相比,能夠期待降低檢索遺漏(提高再現(xiàn)率),但與此同時,包含較多的識別錯誤的檢索錯誤會増加(精確率下降)。因此,檢索部18在構(gòu)成關(guān)鍵字的各字符與由字符候選存儲部15存儲的多個字符候選中的任意一個一致的情況(字符候選命中關(guān)鍵字的情況)下,根據(jù)表示上述正確性的信息,評價關(guān)于該一致的可信度(一致度)。更具體地,檢索部18從與關(guān)鍵字的字符一致的字符候選的順序,作為表示上述可信度的值而計算對于關(guān)鍵字t的字符識別可信度(similarity)。在此,字符識別可信度是0. 0 I. 0的范圍的值,如果是更大的值則表示可信度高。檢索部18通過以下的式(2)計算字符識別可信度similarity。similarity (t)=Keyword (t). length/totalscore (t)(2)在上述式中,Keyword (t). length是關(guān)鍵字t的長度(字符數(shù)),totalscore (t)是一致(匹配)的字符候選的順序的合計。另外,僅以第I候選而與關(guān)鍵字一致的字符串的字符識別可信度為1.0。
例如,示出從圖5所示的2個圖像各自的字符識別結(jié)果以“絶対痩#石(絕對減肥)”這樣的關(guān)鍵字進(jìn)行了檢索的情況下的字符識別可信度的例子。在圖5(a)所示的例子中,所有的字符與第I候選一致,因此字符識別可信度通過5+(1+1+1+1+1)來計算,成為I. 00。在圖5(b)所示的例子中,最后的字符與第3候選一致,因此字符識別可信度通過5+(1+1+1+1+3)來計算,成為0.71。這樣,字符識別可信度低的圖像被誤檢索的可能性高,字符識別可信度高的圖像正確地包含檢索關(guān)鍵字的可能性高。即,字符識別可信度能夠作為更正確地包含檢索關(guān)鍵字的指標(biāo)而使用。為此,在從大量的圖像中列出包含關(guān)鍵字的圖像時,根據(jù)字符識別可信度來分類檢索結(jié)果,從而優(yōu)先提示檢索錯誤少的結(jié)果的圖像。檢索部18也可以根據(jù)關(guān)鍵字的字符數(shù),決定對與關(guān)鍵字的一致進(jìn)行判定的字符候選的數(shù)量。雖然在后面更詳細(xì)說明,但在檢索關(guān)鍵字的字符數(shù)少的(檢索關(guān)鍵字短的)情況下,存在產(chǎn)生檢索錯誤而精確率降低的傾向。因此,例如在判斷為關(guān)鍵字的字符數(shù)是預(yù)先設(shè)定的閾值以下的情況下,也可以將判定一致的字符候選的數(shù)量設(shè)為比通常少的數(shù)量。檢索部18如果決定了字符候選的數(shù)量,則從表示關(guān)于字符候選的正確性的信息,決定對與關(guān)鍵字的一致進(jìn)行判定的字符候選。具體地,檢索部18將直至決定的字符候選的數(shù)量的順序為止的字符候選設(shè)為判定一致的字符候選。檢索部18從關(guān)鍵字與字符候選的一致的檢索的結(jié)果,計算包含針對該關(guān)鍵字的該字符候選的圖像的得分值。該得分值表示作為檢索結(jié)果而輸出的圖像的順序,在本實施方式中,表示檢索關(guān)鍵字以不合適的形式包含在圖像中的可能性的高低。首先,檢索部18從如上述求出的檢索關(guān)鍵字t的視覺性特征量saliency (t)和字符識別可信度similarity (t),通過以下的式(3)來求出包含在圖像內(nèi)的第m個字符串(t,m)的字符特征量termscore (t, m)。termscore (t,m) = (I-a ) similarity (t, m) + a saliency (t, m) (3)在此,a是表示視覺性特征量與字符識別可信度的權(quán)重的值。a是0 I的值且是預(yù)先設(shè)定的值。ct、similarity以及saliency之間存在相關(guān)關(guān)系,由此得到精度更好的檢索結(jié)果。希望根據(jù)檢索的使用方法、目的來決定a的附加方法、即對similarity和saliency應(yīng)該如何附加權(quán)重。在設(shè)a =0的情況下,成為僅反映了字符識別可信度similarity的得分,視覺性特征量saliency不被考慮。另一方面,在設(shè)為a=l的情況下,成為僅反映了視覺性特征量saliency的得分,字符識別可信度similarity不被考慮。越使a接近1,在字符是否一致這樣的觀點中結(jié)果越差。另外,圖像內(nèi)的第m個字符串表示是由字符串區(qū)域提取部13提取的多個字符串區(qū)域所相關(guān)的字符串中的哪個字符串。關(guān)于m,取從I至由字符串區(qū)域提取部13提取的字符串區(qū)域的數(shù)量為止的值中的某一個值。S卩,檢索部18從由視覺性特征量計算部16根據(jù)如下字符串區(qū)域而計算的視覺性特征量,計算包含該字符串的圖像的得分值,其中,所述字符串區(qū)域是構(gòu)成了構(gòu)成關(guān)鍵字的各字符按照該關(guān)鍵字的順序一致的字符串的多個字符候選被識別的字符串區(qū)域。另外,檢索部18對于由檢索關(guān)鍵字輸入部17輸入的多個關(guān)鍵字,計算得分值。檢索部18為了考慮圖像中包含的關(guān)鍵字的出現(xiàn)頻度而計算圖像中包含的關(guān)鍵字的tf-idf。tf-idf作為用于提取文章中的特征性單詞的算法而已知,且是主要在信息檢索、文章摘要等的領(lǐng)域中利用的指標(biāo)。tf是文章中的單詞的出現(xiàn)頻度,idf是用于降低許多文檔中出現(xiàn)的詞的重要度,并提高只在特定的文檔中出現(xiàn)的單詞的重要度的逆出現(xiàn)頻度。在本方案中,將該tf-idf的思想擴(kuò)展到圖像內(nèi)字符,通過組合到字符串的視覺性特征量和字符識別可信度中來使用,從而計算圖像得分。檢索部18為了根據(jù)檢索關(guān)鍵字t的出現(xiàn)頻度來提高圖像得分,通過以下的式(4)來求出在圖像內(nèi)包含tf(t)個的檢索關(guān)鍵字t的各個字符特征量的平方和,并設(shè)為利用檢索關(guān)鍵字的圖像的得分。另外,關(guān)于字符串與圖像的對應(yīng),參照由字符候選存儲部15存儲的字符候選與圖像的對應(yīng)的信息。在此,m是在成為對象的圖像中包含關(guān)鍵字t的字符串的下標(biāo),是I tf(t)的范圍的整數(shù)。數(shù)[I]
權(quán)利要求
1.一種信息處理裝置,其具備 圖像數(shù)據(jù)庫,其保存檢索對象的圖像; 字符串區(qū)域提取單元,其提取保存于所述圖像數(shù)據(jù)庫的圖像中的包含字符串的字符串區(qū)域; 字符候選識別單元,其對于構(gòu)成由所述字符串區(qū)域提取單元提取出的字符串區(qū)域所包含的字符串的各字符,從所述圖像進(jìn)行字符識別來確定多個字符候選;以及 字符候選存儲單元,其將由所述字符候選識別單元確定的多個字符候選按照每個字符與作為該字符候選的確定源的圖像對應(yīng)地進(jìn)行存儲。
2.根據(jù)權(quán)利要求I所述的信息處理裝置,其中, 該信息處理裝置還具備 檢索關(guān)鍵字輸入單元,其輸入檢索用的關(guān)鍵字; 檢索單元,其檢索構(gòu)成由所述關(guān)鍵字輸入單元輸入的關(guān)鍵字的各字符是否按照該關(guān)鍵字的順序與由所述字符候選存儲單元存儲的構(gòu)成所述字符串的所述多個字符候選中的任意一個一致;以及 輸出單元,其根據(jù)由所述字符候選存儲單元存儲的所述字符候選與圖像之間的對應(yīng)性而輸出所述檢索單元的檢索結(jié)果。
3.根據(jù)權(quán)利要求2所述的信息處理裝置,其特征在于, 所述字符候選識別單元關(guān)于在進(jìn)行所述字符識別時所確定的各字符候選,評價字符識別的正確性, 所述字符候選存儲單元根據(jù)表示由所述字符候選識別單元評價的所述正確性的信息而存儲所述字符候選, 在構(gòu)成所述關(guān)鍵字的各字符與由所述字符候選存儲單元存儲的所述多個字符候選中的任意一個一致的情況下,所述檢索單元根據(jù)表示所述正確性的信息來評價關(guān)于該一致的可信度, 所述輸出單元還根據(jù)所述可信度來輸出檢索結(jié)果。
4.根據(jù)權(quán)利要求3所述的信息處理裝置,其特征在于, 所述檢索單元根據(jù)所述關(guān)鍵字的字符數(shù)決定對與所述關(guān)鍵字的一致進(jìn)行判定的字符候選的數(shù)量,根據(jù)表不關(guān)于所述字符候選的所述正確性的信息,決定對與所述關(guān)鍵字的一致進(jìn)行判定的字符候選。
5.根據(jù)權(quán)利要求2 4中的任意一項所述的信息處理裝置,其特征在于, 所述檢索單元根據(jù)所述關(guān)鍵字與所述字符候選的一致的檢索結(jié)果,計算包含針對該關(guān)鍵字的該字符候選的圖像的得分值, 所述輸出單元根據(jù)所述得分值而輸出所述檢索單元的檢索結(jié)果。
6.一種信息處理裝置,其具備 圖像數(shù)據(jù)庫,其保存檢索對象的圖像; 字符串區(qū)域提取單元,其提取保存于所述圖像數(shù)據(jù)庫的圖像中的包含字符串的字符串區(qū)域; 字符候選識別單元,其對于構(gòu)成由所述字符串區(qū)域提取單元提取出的字符串區(qū)域所包含的字符串的各字符,從所述圖像進(jìn)行字符識別來確定多個字符候選;以及字符候選存儲單元,其將組合由所述字符候選識別單元確定的多個該字符候選中的任意一個而得到的字符串與作為該字符候選的確定源的圖像對應(yīng)地進(jìn)行存儲。
7.根據(jù)權(quán)利要求6所述的信息處理裝置,其中, 該信息處理裝置還具備 檢索關(guān)鍵字輸入單元,其輸入檢索用的關(guān)鍵字; 檢索單元,其檢索構(gòu)成由所述關(guān)鍵字輸入單元輸入的關(guān)鍵字的各字符是否按照該關(guān)鍵字的順序與由所述字符候選存儲單元存儲的字符串中的任意一個一致;以及 輸出單元,其根據(jù)由所述字符候選存儲單元存儲的字符串與圖像之間的對應(yīng)性而輸出所述檢索單元的檢索結(jié)果。
8.根據(jù)權(quán)利要求7所述的信息處理裝置,其特征在于, 所述字符候選識別單元關(guān)于在進(jìn)行所述字符識別時所確定的各字符候選,評價字符識別的正確性, 所述字符候選存儲單元根據(jù)表示由所述字符候選識別單元評價的所述正確性的信息而存儲字符串, 在構(gòu)成所述關(guān)鍵字的各字符與由所述字符候選存儲單元存儲的字符串中的任意一個一致的情況下,所述檢索單元根據(jù)表示所述正確性的信息而評價關(guān)于該一致的可信度, 所述輸出單元還根據(jù)所述可信度來輸出檢索結(jié)果。
9.根據(jù)權(quán)利要求8所述的信息處理裝置,其特征在于, 所述檢索單元根據(jù)所述關(guān)鍵字的字符數(shù)決定對與所述關(guān)鍵字的一致進(jìn)行判定的字符候選的數(shù)量,根據(jù)表不關(guān)于所述字符候選的所述正確性的信息而決定對與所述關(guān)鍵字的一致進(jìn)行判定的字符串。
10.根據(jù)權(quán)利要求7 9中的任意一項所述的信息處理裝置,其特征在于, 所述檢索單元根據(jù)所述關(guān)鍵字與所述字符串的一致的檢索結(jié)果,計算包含針對該關(guān)鍵字的該字符候選的圖像的得分值, 所述輸出單元根據(jù)所述得分值而輸出所述檢索單元的檢索結(jié)果。
11.根據(jù)權(quán)利要求5或10所述的信息處理裝置,其特征在于, 所述檢索單元針對由所述關(guān)鍵字輸入單元輸入的多個所述關(guān)鍵字,計算所述得分值。
12.根據(jù)權(quán)利要求5、10或11所述的信息處理裝置,其特征在于, 所述檢索單元根據(jù)包含所述關(guān)鍵字的圖像數(shù)相對于所述圖像數(shù)據(jù)庫中保存的圖像數(shù)的比例,計算所述得分值。
13.根據(jù)權(quán)利要求5、10 12中的任意一項所述的信息處理裝置,其特征在于, 該信息處理裝置還具備視覺性特征量計算單元,該視覺性特征量計算單元從由所述字符串區(qū)域提取單元提取出的字符串區(qū)域的圖像,計算該字符串的視覺性特征量而進(jìn)行存儲,其中,該字符串的視覺性特征量基于各字符的大小、顏色、形狀及裝飾、以及字符顏色與背景顏色的對比度中的至少任意一個, 所述檢索單元從所述關(guān)鍵字的各字符按照該關(guān)鍵字的順序一致的所述字符串的字符候選被識別出的所述字符串區(qū)域的所述視覺性特征量,計算包含該字符串的圖像的得分值。
14.根據(jù)權(quán)利要求2 5、7 13中的任意一項所述的信息處理裝置,其特征在于,所述圖像數(shù)據(jù)庫以不包含多個同一圖像的方式保存檢索對象的圖像,并且將從該圖像得到的哈希值與表示該圖像被利用的Web頁面的部位的信息對應(yīng)地進(jìn)行保存, 所述輸出單元輸出通過所述檢索單元的檢索得到并且表示不包含多個同一圖像的圖像的信息、以及與該圖像的哈希值對應(yīng)地保存在所述圖像數(shù)據(jù)庫中的表示該圖像被利用的Web頁面的部位的信息。
15.一種信息處理方法,由具備保存檢索對象的圖像的圖像數(shù)據(jù)庫的信息處理裝置執(zhí)行, 該信息處理方法包括 字符串區(qū)域提取步驟,提取保存于所述圖像數(shù)據(jù)庫的圖像中的包含字符串的字符串區(qū)域; 字符候選識別步驟,對于構(gòu)成在所述字符串區(qū)域提取步驟中提取出的字符串區(qū)域所包含的字符串的各字符,從所述圖像進(jìn)行字符識別來確定多個字符候選;以及 字符候選存儲步驟,將通過所述字符候選識別步驟確定的多個字符候選與作為該字符候選的確定源的圖像對應(yīng)地進(jìn)行存儲。
16.一種信息處理方法,由具備保存檢索對象的圖像的圖像數(shù)據(jù)庫的信息處理裝置執(zhí)行, 該信息處理方法包括 字符串區(qū)域提取步驟,提取保存于所述圖像數(shù)據(jù)庫的圖像中的包含字符串的字符串區(qū)域; 字符候選識別步驟,對于構(gòu)成在所述字符串區(qū)域提取步驟中提取出的字符串區(qū)域所包含的字符串的各字符,從所述圖像進(jìn)行字符識別來確定多個字符候選;以及 字符候選存儲步驟,將組合通過所述字符候選識別步驟確定的多個該字符候選中的任意一個而得到的字符串與作為該字符候選的確定源的圖像對應(yīng)地進(jìn)行存儲。
17.一種計算機(jī)可讀取的記錄介質(zhì),其記錄了使一個以上的計算機(jī)作為如下單元進(jìn)行工作的信息處理程序, 該單元包括 圖像數(shù)據(jù)庫,其保存檢索對象的圖像; 字符串區(qū)域提取單元,其提取保存于所述圖像數(shù)據(jù)庫的圖像中的包含字符串的字符串區(qū)域; 字符候選識別單元,其對于構(gòu)成由所述字符串區(qū)域提取單元提取出的字符串區(qū)域所包含的字符串的各字符,從所述圖像進(jìn)行字符識別來確定多個字符候選;以及 字符候選存儲單元,其將由所述字符候選識別單元確定的多個字符候選與作為該字符候選的確定源的圖像對應(yīng)地進(jìn)行存儲。
18.一種計算機(jī)可讀取的記錄介質(zhì),其記錄了使一個以上的計算機(jī)作為如下單元進(jìn)行工作的信息處理程序, 該單元包括 圖像數(shù)據(jù)庫,其保存檢索對象的圖像; 字符串區(qū)域提取單元,其提取保存于所述圖像數(shù)據(jù)庫的圖像中的包含字符串的字符串區(qū)域;字符候選識別單元,其對于構(gòu)成由所述字符串區(qū)域提取單元提取出的字符串區(qū)域所包含的字符串的各字符,從所述圖像進(jìn)行字符識別來確定多個字符候選;以及 字符候選存儲單元,其將組合由所述字符候選識別單元確定的多個該字符候選中的任意一個而得到的字符串與作為該字符候選的確定源的圖像對應(yīng)地進(jìn)行存儲。
全文摘要
對于包括復(fù)雜的布局結(jié)構(gòu)、修飾字符等的圖像也適當(dāng)?shù)剡M(jìn)行檢索。圖像檢索裝置(10)具備圖像數(shù)據(jù)庫(11),其保存檢索對象的圖像;字符串區(qū)域提取部(13),其提取圖像中的包含字符串的字符串區(qū)域;字符候選識別部(14),其對于構(gòu)成字符串區(qū)域中包含的字符串的各字符,從圖像進(jìn)行字符識別來確定多個字符候選;字符候選存儲部(15),其將多個字符候選按照字符串的順序與作為該字符候選的確定源的圖像進(jìn)行對應(yīng)而存儲;檢索關(guān)鍵字輸入部(17),其輸入檢索用的關(guān)鍵字;檢索部(18),其檢索構(gòu)成檢索用的關(guān)鍵字的各字符是否與構(gòu)成字符串的多個字符候選中的任意一個一致;以及輸出部(19),其輸出檢索的結(jié)果。
文檔編號G06F17/30GK102763104SQ20118001016
公開日2012年10月31日 申請日期2011年2月28日 優(yōu)先權(quán)日2010年2月26日
發(fā)明者益子宗 申請人:樂天株式會社