本發(fā)明涉及對圖像中的物體進行識別的技術。
背景技術:
目前,存在識別拍攝于圖像中的物體是什么的技術。例如,如專利文獻1,從圖像中檢測人臉的技術廣泛普及。在這種識別技術中,基于對于識別對象的多個圖像,事先制成辨別器,使用該辨別器進行識別處理。
另外,目前,大多通過人進行圖像拍攝,拍攝對象是人物或風景,因此,圖像處理的識別的對象被限定。因近年來的計算機視覺的普及,識別許多種類的物體的需求日益高漲。
現(xiàn)有技術文獻
專利文獻
專利文獻1:特開2006-202049號公報
技術實現(xiàn)要素:
發(fā)明要解決的課題
在上述那樣的學習庫的識別技術中,只能識別事先學習的對象的物體。制作對于世上存在的許多種類的物體的每一種事先進行學習的辨別器是不現(xiàn)實的。
此外,在識別精度不充分的情況下,需要收集學習對象的圖像進行再學習。該再學習處理需要專業(yè)知識,一般的用戶難以適當進行。因此,具有為了提高識別精度而花費時間和成本這種問題。
本發(fā)明是鑒于上述實際情況而創(chuàng)建的,本發(fā)明的目的在于,提供不需要學習處理而能夠進行物體的識別的技術。
用于解決課題的方案
本發(fā)明中,從圖像數(shù)據(jù)庫檢索與識別對象圖像相似的圖像,基于與相似圖像相關聯(lián)的標簽信息,進行物體的識別。由此,能夠不事先進行學習處理而識別圖像中的物體。
更具體而言,本發(fā)明的物體識別裝置具備:取得部件,取得成為物體識別的對象的識別對象圖像;檢索部件,從與標簽信息相關聯(lián)地存儲多個圖像數(shù)據(jù)的圖像數(shù)據(jù)庫,檢索與所述識別對象圖像相似的相似圖像;以及識別部件,基于與由所述檢索部件獲得的所述相似圖像相關聯(lián)的標簽信息,識別包含于所述識別對象圖像的物體。
圖像數(shù)據(jù)庫是可檢索地存儲多個圖像數(shù)據(jù)的裝置。圖像數(shù)據(jù)庫可以與物體識別裝置形成一體構建,也可以與物體識別裝置分開構建。例如,圖像數(shù)據(jù)庫能夠作為物體識別裝置所具備的存儲裝置來構建。此外,圖像數(shù)據(jù)庫能夠作為物體識別裝置可經(jīng)由通信網(wǎng)絡訪問的其他的裝置來構建。圖像數(shù)據(jù)庫的制作/管理者不需要與物體識別裝置的制作/管理者相同。作為本發(fā)明的圖像數(shù)據(jù)庫,還能夠利用例如由第三者管理且在互聯(lián)網(wǎng)上公開的圖像數(shù)據(jù)庫。
此外,在圖像數(shù)據(jù)庫中,標簽信息與圖像數(shù)據(jù)相關聯(lián)地存儲。標簽信息是表示由自然語言指定的、圖像數(shù)據(jù)的內(nèi)容或特征等的信息。標簽信息的附加如何進行均可,例如可以由人手動輸入而附加標簽信息,也可以通過計算機進行的圖像處理自動附加標簽信息。標簽信息也可以嵌入在圖像數(shù)據(jù)中存儲,也可以作為與圖像數(shù)據(jù)不同的文件來存儲。
識別部件基于與由檢索部件獲得的相似圖像相關聯(lián)的標簽信息,進行物體識別。例如,識別部件能夠基于與相似圖像相關聯(lián)的標簽信息的出現(xiàn)頻率,識別包含于對象圖像的物體。更具體而言,識別部件能夠將與相似圖像相關聯(lián)的標簽信息中出現(xiàn)頻率最高的標簽信息作為包含于所述識別對象圖像中的物體的識別結果。或者,識別部件還能夠將與相似圖像關聯(lián)的標簽信息中出現(xiàn)頻率高的規(guī)定數(shù)量的標簽信息作為識別結果的候補。另外,上述的“規(guī)定數(shù)量”可以是事先設定的值,也可以是根據(jù)通過檢索而獲得的相似圖像的數(shù)量而變化的值,也可以是出現(xiàn)頻率是一定值以上的標簽信息的數(shù)量。另外,識別部件進行的物體的識別不需要僅基于標簽信息的出現(xiàn)頻率進行,也可以考慮其它的要素而進行物體的識別。在該情況下,識別部件也可以將出現(xiàn)頻率最高的標簽信息以外的標簽信息作為物體的識別結果。
此外,優(yōu)選的是,識別部件實施統(tǒng)一與相似圖像相關聯(lián)的標簽信息的含義的多樣性的自然語言處理,基于自然語言處理后的標簽信息,識別包含于識別對象圖像的物體。統(tǒng)一含義的多樣性的處理的一例是將具有相同意思的多種詞統(tǒng)一成一種詞的處理。此外,統(tǒng)一含義的多樣性的處理的其它例是將具有相似但不同的意思的多種詞統(tǒng)一成代表它們的詞的處理。代表詞可以是包含于多個標簽信息的任一種詞,也可以是表示包含它們的上位概念的詞等其它的詞。識別部件例如能夠將實施了統(tǒng)一處理后包含最多的標簽信息作為識別結果。
此外,優(yōu)選的是,識別部件算出與相似圖像相關聯(lián)的標簽信息的可靠性(標簽信息可靠性),還考慮該標簽信息可靠性而識別包含于識別對象的物體。與圖像數(shù)據(jù)庫內(nèi)的圖像數(shù)據(jù)相關聯(lián)的標簽信息不一定正確。優(yōu)選,使用標簽信息可靠性進行物理識別,以使不基于不正確的標簽信息進行誤識別。
標簽信息可靠性在多個標簽信息與一個相似圖像相關聯(lián)的情況下,能夠基于這些多個標簽信息之間的相關,進行計算。存在在一個圖像中容易同時出現(xiàn)的標簽信息、以及不容易同時出現(xiàn)的標簽信息。因此,在包含于相似圖像的多個標簽信息的相關(或同現(xiàn)概率)低的情況下,能夠判斷出該相似圖像的標簽信息可靠性低。
標簽信息之間的相關的取得方法沒有特別限定。例如,對存儲有多個標簽信息之間的相關的標簽信息相關數(shù)據(jù)庫進行詢問,從而能夠取得標簽信息的相關。該標簽信息相關數(shù)據(jù)庫既可以是基于與注冊于圖像數(shù)據(jù)庫內(nèi)的圖像相關聯(lián)的標簽信息而生成的數(shù)據(jù)庫,或者也可以是存儲有一般的單詞之間的相關的一般的詞典數(shù)據(jù)庫。此外,標簽信息之間的相關也可以通過每次對圖像數(shù)據(jù)庫進行詢問而取得。例如,對圖像數(shù)據(jù)庫發(fā)送用于取得在包含某標簽信息的圖像中同現(xiàn)的標簽信息的請求,能夠基于其結果取得相關。
標簽信息可靠性此外還能夠基于包含于相似圖像中的元信息和標簽信息的關系而算出。元信息中包含關于圖像自身的屬性信息(大小、顏色空間等)、圖像拍攝時的條件(拍攝日期時間、快門速度、光圈、iso感光度、測光模式、有無閃光、焦距、拍攝位置等)。基于這些屬性信息中任一種以上和標簽信息的相關(同現(xiàn)概率),在相似圖像具有和標簽信息的相關(同現(xiàn)概率)低的屬性信息的情況下,能夠將該相似圖像的標簽信息可靠性計算為較低。例如,若作為元信息(屬性信息)而舉例拍攝位置,則在拍攝位置指示海中的情況下,“車”這種標簽信息被附加的概率低,因此,在這樣的情況下,能夠降低標簽信息可靠性。另外,希望屬性信息和標簽信息的相關(同現(xiàn)概率)事先調研而存儲于存儲部件。
在某相似圖像的標簽信息可靠性低的情況下,認為該標簽附加不正確。因此,識別部件能夠進行與標簽信息可靠性對應的加權,基于加權后的標簽信息進行物體識別。例如,能夠將加權出現(xiàn)頻率最高的標簽信息作為物體的識別結果。此外,識別部件在標簽信息可靠性比規(guī)定的閾值低的情況下,也可以不使用該相似圖像而進行物體識別。
識別對象圖像既可以是圖像的整體,也可以是部分區(qū)域。例如,所述取得部件能夠從輸入圖像提取部分區(qū)域作為識別對象圖像而利用。部分區(qū)域的提取可以由物體識別裝置自動進行,也可以由用戶通過手動輸入。
此外,優(yōu)選,本發(fā)明的物體識別裝置還具備計算部分區(qū)域的關注度的關注度計算部件,在取得部件提取了多個部分區(qū)域的情況下,對于關注度為閾值以上的部分區(qū)域,輸出識別部件進行的識別的結果。部分區(qū)域的關注度的計算方法沒有特別限定,可以基于輸入圖像進行計算,也可以基于對圖像數(shù)據(jù)庫進行的和部分區(qū)域相似的圖像的檢索結果進行計算。此外,對于關注度為閾值以下的部分區(qū)域也可以進行物體識別,雖然進行物體識別但不輸出識別結果。
另外,本發(fā)明能夠作為包含所述部件的至少一部的物體識別裝置來掌握。此外,本發(fā)明還能夠作為物體識別方法來掌握。此外,還可以作為用于使計算機執(zhí)行這些方法的各步驟的計算機程序或作為非暫時性地存儲該程序的計算機可讀取的存儲介質來掌握。所述結構及處理的各自只要不產(chǎn)生技術上的矛盾,就能夠相互組合而構成本發(fā)明。
發(fā)明效果
根據(jù)本發(fā)明,即使不事先進行學習處理,也能夠識別圖像中的物體。
附圖說明
圖1是表示第一實施方式的物體識別裝置的(a)硬件結構和(b)功能塊的圖。
圖2是說明物體識別處理的概念圖。
圖3是表示第一實施方式的物體識別處理的流程的流程圖。
圖4(a)是表示識別對象區(qū)域的例子,(b)是表示相似圖像檢索的結果的例子的圖。
圖5(a)是表示使用了標簽信息的物體識別處理的細節(jié)的流程圖,(b)是說明對于標簽信息的自然語言處理和識別結果的決定的圖。
圖6是表示第二實施方式的物體識別裝置的功能塊的圖。
圖7是表示第二實施方式的(a)使用了標簽信息的物體識別處理的細節(jié)的流程圖,(b)標簽信息可靠性的計算基準的例子的圖。
圖8是表示第三實施方式的物體識別裝置的功能塊的圖。
圖9是表示第三實施方式的物體識別處理的流程的流程圖。
具體實施方式
(第一實施方式)
本實施方式的物體識別裝置對圖像數(shù)據(jù)庫進行相似圖像檢索,基于與所檢索到的相似圖像相關聯(lián)的標簽信息,進行物體識別。通過使用對圖像數(shù)據(jù)庫中注冊的圖像附加的標簽信息進行物體識別,由此能夠不進行制作辨別器等的學習處理而進行物體識別。
<結構>
圖1(a)是表示本實施方式的物體識別裝置10的硬件結構的圖。物體識別裝置10包含圖像輸入部11、運算裝置12、存儲裝置13、通信裝置14、輸入裝置15、以及輸出裝置16。圖像輸入部11是從照相機20接受圖像數(shù)據(jù)的接口。另外,在本實施方式中,從照相機20直接接受圖像數(shù)據(jù),但也可以經(jīng)由通信裝置14接受圖像數(shù)據(jù),或經(jīng)由記錄介質接受圖像數(shù)據(jù)。運算裝置12是cpu(中央處理單元)等廣泛使用的處理器,執(zhí)行存儲于存儲裝置13的程序,實現(xiàn)后述的功能。存儲裝置13包含主存儲裝置及輔助存儲裝置,存儲由運算裝置12執(zhí)行的程序,并且存儲圖像數(shù)據(jù)或程序執(zhí)行中的臨時數(shù)據(jù)。通信裝置14是用于物體識別裝置10和外部的計算機進行通信的裝置。通信的方式可以是有線,也可以是無線,通信標準也可以是任意。在本實施方式中,物體識別裝置10經(jīng)由通信裝置14訪問圖像數(shù)據(jù)庫30。輸入裝置15由鍵盤或鼠標等構成,是用于用戶向物體識別裝置輸入指示的裝置。輸出裝置16由顯示裝置和揚聲器等構成,是用于物體識別裝置進行對用戶的輸出的裝置。
圖像數(shù)據(jù)庫30是包含運算裝置或存儲裝置等的計算機,是可檢索地存儲多個圖像數(shù)據(jù)的裝置。圖像數(shù)據(jù)庫30可以由1臺計算機構成,也可以由多臺計算機構成。在存儲于圖像數(shù)據(jù)庫30中的圖像數(shù)據(jù)中,除圖像本身的數(shù)據(jù)(每個像素的顏色信息等)以外,還相關聯(lián)有各種屬性信息。例如,圖像數(shù)據(jù)的數(shù)據(jù)文件能夠根據(jù)exif格式而包含各種屬性信息。此外,圖像數(shù)據(jù)庫30能夠將與圖像數(shù)據(jù)的數(shù)據(jù)文件不同的文件中所存儲的屬性信息與圖像數(shù)據(jù)相關聯(lián)地存儲。屬性信息中包含通過自然語言對圖像的大小、顏色空間、圖像的拍攝條件(拍攝日期時間、快門速度、光圈、iso感光度、測光模式、有無閃光、焦距、拍攝異議等)、圖像的內(nèi)容或特征所記述的信息(標簽信息)等。這些屬性信息是關于圖像數(shù)據(jù)的元信息。圖像數(shù)據(jù)庫30一般經(jīng)由因特網(wǎng)等公眾網(wǎng)公開,接受圖像數(shù)據(jù)的注冊或檢索。
在圖像數(shù)據(jù)庫30中由誰注冊圖像或被注冊的圖像的數(shù)量沒有特別限定。例如,也可以注冊與物體識別裝置10的用戶想識別的物體有關的圖像。在該情況下,注冊圖像是適于識別處理的圖像,且可以說附帶標簽的精度也高,因此注冊圖像的數(shù)量也可以不那么多。此外,也可以由作為第三者的一般用戶或檢索服務等的提供者注冊圖像。在該情況下,注冊圖像不是適于識別處理的圖像,此外,有可能附帶標簽的精度也低。因此,在這種情況下,優(yōu)選地,大量的圖像被注冊在圖像數(shù)據(jù)庫30中。
<物體識別裝置的功能和處理>
運算裝置12通過執(zhí)行程序,實現(xiàn)圖1(b)所示的功能。即,運算裝置12提供區(qū)域提取部110、相似圖像檢索部120、識別部130、輸出部140的各功能。對于各部的處理內(nèi)容,以下進行說明。
圖2是表示物體識別裝置10進行的物體識別處理的概要的圖,圖3是表示通過物體識別裝置10執(zhí)行的物體識別處理的流程的流程圖。物體識別處理通過從與識別對象圖像相似的圖像的圖像數(shù)據(jù)庫中檢索,并基于對相似圖像附加的標簽信息識別物體而進行。以下,根據(jù)圖3的流程圖詳細進行說明。
在步驟s10,物體識別裝置10取得圖像(輸入圖像)。輸入圖像可以經(jīng)由圖像輸入部11從照相機20取得,也可以經(jīng)由通信裝置14從其它的計算機取得,也可以經(jīng)由存儲裝置13從存儲介質取得。
在步驟s20,區(qū)域提取部110從輸入圖像提取其部分區(qū)域作為識別對象區(qū)域。識別對象區(qū)域的提取方法沒有特別限定。在本實施方式中,用戶指定輸入圖像的一部分的區(qū)域。但是,也可以使用關注區(qū)域提取技術自動地提取識別對象區(qū)域。關注區(qū)域提取算法沒有特別限定。此外,也可以省略關注區(qū)域提取步驟s20,而將輸入圖像整體作為識別對象區(qū)域。以下,將識別對象區(qū)域的圖像稱為識別對象圖像。
圖4(a)是表示輸入圖像400、和所提取的識別對象區(qū)域401的例子的圖。在該例中,車輛作為識別對象被選擇。另外,也可以從輸入圖像400提取多個識別對象區(qū)域。
在步驟s30,相似圖像檢索部120向圖像數(shù)據(jù)庫30發(fā)行用于檢索與識別對象圖像相似的圖像的查詢(query),并從圖像數(shù)據(jù)庫30取得檢索結果。圖像數(shù)據(jù)庫30在接受到檢索查詢時,從數(shù)據(jù)庫檢索與包含于檢索查詢的檢索圖像(關注區(qū)域的圖像)相似的圖像,并發(fā)送檢索結果。圖像數(shù)據(jù)庫30中的相似圖像檢索的算法能夠采用已知的任意的算法。例如,可以采用進行圖像整體和圖像整體的對照的算法、或進行圖像整體和圖像的一部分的對照的算法、或進行圖像的一部分和圖像的一部分的對照的算法。圖像數(shù)據(jù)庫30將通過檢索得到的相似圖像和其屬性信息作為檢索結果發(fā)送到物體識別裝置10。
圖4(b)是表示步驟s30的檢索結果的例子的圖。在圖4(b)中,關于與識別對象圖像(檢索圖像)相似的圖像(相似度為規(guī)定的閾值以上的圖像),表示圖像序號501、相似度502、相似圖像的整體尺寸503、相似圖像中與關注區(qū)域相似的區(qū)域的尺寸504、與相似圖像相關聯(lián)地存儲的標簽信息505,但除此之外的信息也可以包含于檢索結果。
在步驟s40,物體識別裝置10的識別部130基于從圖像數(shù)據(jù)庫30得到的檢索結果,特別是標簽信息,進行包含于識別對象區(qū)域的物體的識別。典型地,將包含于檢索結果的標簽信息中出現(xiàn)頻率最高的信息作為物體的識別結果。但是,由于還假設對圖像數(shù)據(jù)庫30中的圖像附加的標簽信息存在表記的波動等,所以優(yōu)選在進行通過自然語言處理統(tǒng)一標簽的含義的處理后,進行物體識別。
圖5(a)是表示使用了標簽信息的物體識別處理s40的細節(jié)的流程圖。在步驟s41,識別部130取得對包含于步驟s30的檢索結果中的相似圖像附加的標簽信息。而且,在步驟s42,識別部130通過自然語言處理來進行標簽信息的意思解析及統(tǒng)一含義。含義的統(tǒng)一處理的例子是將“汽車”、“車輛”、“車”、“che”、“車”等相同意思的不同的標記的詞進行統(tǒng)一的處理。其它的例子是將“車輛”、“汽車”、“大巴”、“跑車”等相似的概念的詞統(tǒng)一成一個詞(例如“車輛”)的處理。此外,在此,只表示標簽信息是單詞的情況,但標簽信息也可以作為文章表示,在該情況下,也可以能夠自然語言處理來決定意思。
在步驟s43,識別部130對含義統(tǒng)一處理后的標簽信息的出現(xiàn)次數(shù)進行計數(shù)。在步驟s44,識別部130取得出現(xiàn)次數(shù)最多的(出現(xiàn)頻率最高的)標簽信息作為物體的識別結果。
圖5(b)是說明使用了上述的標簽信息的識別處理的例子的圖。圖5(b)的左圖表示在步驟s41取得的標簽信息和其出現(xiàn)次數(shù)。圖5(b)的右圖表示在步驟s42的自然語言處理(含義的統(tǒng)一處理)后的標簽信息和出現(xiàn)次數(shù)。該例中,通過自然語言處理將“汽車”、“che”、“跑車”、“che”全部被統(tǒng)一為“汽車”。自然語言處理后的標簽信息的出現(xiàn)次數(shù)因“汽車”為最大,所以識別部130將包含于識別對象區(qū)域的物體判斷為“汽車”。
此外,在圖5(b)中,將檢索點擊數(shù)量設為100件,但根據(jù)圖像數(shù)據(jù)庫30的規(guī)模,檢索點擊數(shù)量還有可能為數(shù)萬件以上或數(shù)十萬件以上。這種情況下,自然語言處理或標簽的出現(xiàn)次數(shù)計數(shù)處理等也可以通過圖像數(shù)據(jù)庫30或其它的裝置等具有高度的運算資源的裝置進行。
在步驟s50,輸出部140輸出識別部130的識別結果。輸出的方式可以是任意的,例如,也可以在顯示器等輸出裝置16顯示識別結果,也可以在存儲裝置13存儲識別結果,也可以經(jīng)由通信裝置14向其它裝置發(fā)送識別結果。此外,也可以將識別結果作為物體識別裝置10進行的其它處理的輸入而使用。
<本實施方式的效果>
根據(jù)本實施方式,基于包含于圖像數(shù)據(jù)庫的圖像的標簽信息進行物體的識別,因此,不需要事先對識別對象進行辨別器制作等的學習處理。在本實施方式的物體識別處理時需要用于存儲附加有標簽的圖像的圖像數(shù)據(jù)庫,但這由一般的用戶可以簡單制作,另外,還可以使用已經(jīng)通過第三者公開的圖像數(shù)據(jù)庫。
另外,在需要提高物體識別精度的情況下,可以在圖像數(shù)據(jù)庫中僅注冊附加標簽的圖像,所以簡單且低成本。
此外,即使在圖像數(shù)據(jù)庫中被注冊的圖像中存在附加有不適當?shù)臉撕炐畔⒌膱D像,只要在圖像數(shù)據(jù)庫存儲有大量的數(shù)據(jù),就能夠抑制進行了不正確的標簽附加的圖像所造成的壞影響,能夠進行精度高的識別。
<變形例>
上述的例子中,對作為檢索結果而獲得的標簽信息實施自然語言處理而統(tǒng)一含義的多樣性后對出現(xiàn)次數(shù)進行計數(shù),但也可以不進行含義的多樣性的統(tǒng)一而對出現(xiàn)次數(shù)進行計數(shù)。此外,將出現(xiàn)頻率最高的標簽信息作為物體的識別結果輸出,但也可以將出現(xiàn)頻率高的規(guī)定數(shù)量的標簽信息作為識別結果的候補而輸出。在此,規(guī)定數(shù)量即可以是事先確定的值,也可以是與通過檢索獲得的相似圖像的數(shù)量對應的值,也可以是出現(xiàn)頻率為一定值以上的標簽信息的數(shù)量。
如上述,通過對于圖像數(shù)據(jù)庫注冊新的附加標簽的圖像,能夠提高本實施方式的物體識別裝置的識別精度。因此,也優(yōu)選物體識別裝置具有用于在圖像數(shù)據(jù)庫注冊附加標簽的圖像的注冊部件。注冊部件是接受圖像的輸入和對于該圖像的標簽(關鍵詞或說明文)的輸入,并將其進行關聯(lián)而注冊到圖像數(shù)據(jù)庫中的功能部。
(第二實施方式)
以下,對本發(fā)明的第二實施方式進行說明。本實施方式與第一實施方式基本上相同,但在考慮與相似圖像相關聯(lián)地存儲的標簽信息的可靠性而進行識別這一點不同。圖像數(shù)據(jù)庫30在因特網(wǎng)上公開且用戶能夠自由進行標簽附加的情況下,也存在標簽沒有被準確附加的情況。如果注冊于圖像數(shù)據(jù)庫30中的數(shù)據(jù)的數(shù)量多(大數(shù)據(jù)),則能夠期待對于各圖像的標簽附加的不正確性被吸收而能夠進行一定程度的精度高的識別。但是,即使如此,也有可能識別精度不充分。因此,在本實施方式中,通過考慮標簽信息的可靠性,提高識別精度。
本實施方式的物體識別裝置200的硬件結構與第一實施方式(圖1(a))相同。圖6是表示通過由本實施方式的物體識別裝置200的運算裝置12執(zhí)行程序而實現(xiàn)的功能塊的圖。物體識別裝置300的功能塊也與第一實施方式(圖1(b))基本上相同,但具備標簽間相關度數(shù)據(jù)庫150及標簽-屬性相關度數(shù)據(jù)庫160這一點不同。
標簽間相關度數(shù)據(jù)庫150在圖像數(shù)據(jù)庫30中存儲某特定的多個標簽同時被附加在一個圖像上的頻率(同現(xiàn)概率、相關)。例如,在圖像數(shù)據(jù)庫30中有100個附加有標簽a的圖像,在其中的30個還附加有標簽b的情況下,標簽a和標簽b的同現(xiàn)概率或相關是0.3。另外,優(yōu)選對標簽信息實施含義的統(tǒng)一等自然語言處理后,制作標簽之間的相關。
標簽-屬性相關度數(shù)據(jù)庫160存儲在圖像數(shù)據(jù)庫30中一個圖像同時具有某特定的標簽和某特定的屬性信息的頻率(同現(xiàn)概率、相關)。例如,在圖像數(shù)據(jù)庫30中有100個被附加有標簽a的圖像,在其中的40個具有屬性信息c的情況下,標簽a和屬性信息c的同現(xiàn)概率或相關是0.4。另外,在求相關時,也可以不需要求出與圖像相關聯(lián)的屬性信息其本身和標簽的相關,而求出對與圖像相關聯(lián)的屬性信息進行加工而獲得的信息和標簽的相關。例如,能夠對位置信息(緯度/經(jīng)度信息)進行加工而使用位置的種類(都市部、山間部、海岸部、海上部等分類),或者對時刻信息進行加工而使用時間帶(早晨、白天、傍晚、夜晚等分類)。
作為在標簽-屬性相關度數(shù)據(jù)庫160中存儲的相關的具體的例子,可舉出“?!边@種標簽和關于拍攝位置的屬性信息的關系。附加有“?!睒撕灥膱D像的拍攝位置是海岸部或海上部的概率高,是內(nèi)陸的概率低。此外,其它例是“夕陽”這種標簽和關于拍攝時刻的屬性信息的關系。附加有“夕陽”標簽的圖像的拍攝時刻是傍晚(大致是從午后3時到午后9時之間)的概率高,是其它時刻的概率低。
優(yōu)選標簽間相關度數(shù)據(jù)庫150及標簽-屬性相關度數(shù)據(jù)庫160基于存儲于圖像數(shù)據(jù)庫30的圖像及與其相關聯(lián)的標簽信息及屬性信息而制作。但是,標簽間相關度數(shù)據(jù)庫150可以不參照圖像數(shù)據(jù)庫30而基于一般的用詞間的同現(xiàn)概率而制作。標簽-屬性相關度數(shù)據(jù)庫160也能夠基于圖像數(shù)據(jù)庫30以外的圖像而制作。在本實施方式中,標簽間相關度數(shù)據(jù)庫150及標簽-屬性相關度數(shù)據(jù)庫160被構筑在物體識別裝置200內(nèi),但這些數(shù)據(jù)庫也可以被構筑在物體識別裝置200的外部的裝置中,并由物體識別裝置200訪問。
本實施方式的物體識別處理的整體的流程與第一實施方式(圖3)相同。在本實施方式中,步驟s40的處理與第一實施方式不同。圖7(a)是表示基于本實施方式的標簽信息的物體識別處理s40的細節(jié)的流程圖。對于與第一實施方式(圖5(a))相同的處理,附加相同的標號并省略其詳細的說明。
標簽信息的取得處理(s41)及對于標簽信息的自然語言處理(s42)與第一實施方式相同,因此說明省略。在步驟s42后的步驟s45中,識別部130針對通過檢索而獲得的每個相似圖像,算出標簽信息可靠性。標簽信息可靠性基于對相似圖像附加的標簽彼此的相關或標簽和圖像屬性信息的相關等而決定。圖7(b)表示標簽信息相關度的計算基準的例子。
標簽彼此的相關是包含于一個相似圖像中的多個標簽之間的相關越高則被算出為越高的可靠性。能夠判斷為,在頻繁同時附加的標簽被附加在相似圖像的情況下標簽可靠,但頻率少的(不大可能的)多個標簽被同時附加的情況下標簽不可靠。識別部130向標簽間相關度數(shù)據(jù)庫150詢問關于對相似圖像附加的多個標簽的相關,并基于所得的相關度而算出標簽信息可靠性。
屬性信息(元信息)和標簽的相關是包含于相似圖像的標簽和該相似圖像的屬性信息之間的相關越高則被算出為越高的可靠性。如上所述,在某標簽被附加于在特定的時刻或位置拍攝的圖像的情況較多時,只要包含于相似圖像的標簽信息和屬性信息滿足該關系,則就能夠判斷為標簽可靠,只要不滿足,則就能夠判斷為不可靠。識別部130向標簽-屬性相關度數(shù)據(jù)庫160詢問關于附加于相似圖像的標簽和屬性信息的相關,并基于所得的相關度而算出標簽信息可靠性。
在相似圖像檢索處理中,在檢索具有與檢索圖像相似的部分區(qū)域的圖像時,圖像中的大小能夠作為標簽信息的可靠性的計算基準來使用。與檢索圖像相似的區(qū)域相對于圖像整體的區(qū)域越大,標簽是與包含于該區(qū)域的物體有關的標簽的概率越高,與檢索圖像相似的區(qū)域相對于圖像整體的區(qū)域越小,標簽是與包含于該區(qū)域的物體有關的標簽的概率越低。因此,相似區(qū)域相對于圖像整體的大小成為測量標簽信息的可靠性的標準。識別部130基于相似圖像中的相似區(qū)域的相對的大小,算出標簽信息可靠性。
在相似圖像檢索處理時,在檢索具有與檢索圖像相似的部分區(qū)域的圖像時,圖像中的位置能夠作為標簽信息的可靠性的計算基準來使用。與檢索圖像相似的區(qū)域在圖像整體中的位置越靠近中央,標簽是與包含于該區(qū)域的物體有關的標簽的概率越高,越靠近與檢索圖像相似的區(qū)域在圖像整體中的周邊部,標簽是與包含于該區(qū)域的物體有關的標簽的概率越低。因此,相似區(qū)域在圖像整體中的位置成為測量標簽信息的可靠性的標準。識別部130基于相似圖像中的相似區(qū)域的位置,算出標簽信息可靠性。
相似檢索的相似度也能夠作為表示標簽信息的可靠性的標準使用。即使在圖像數(shù)據(jù)庫30內(nèi)的圖像上正確地附加有標簽信息的情況下,與檢索圖像的相似度低的圖像也有可能包含于檢索圖像的物體和包含于相似圖像的物體不同。因此,在相似度低的情況下,可以說包含于相似圖像的標簽表示包含于檢索圖像的物體的概率低,因此識別部130將標簽信息可靠性算出較低。相反,在相似度高的情況下,識別部130將標簽信息可靠性算出較高。
識別部130整合這樣求出的多個標簽信息可靠性(個別可靠性),算出最終的標簽信息可靠性。整合方法可以是任意的,例如,能夠將全部的個別可靠性的積(總平方)或平均(簡單平均或加權平均)或最大值或最小值等設為最終的標簽信息可靠性。另外,期望使個別可靠性在0~1之間標準化。在此,舉例的標簽信息可靠性(個別可靠性)只不過是一例,也可以不需要考慮它們?nèi)慷愠鲎罱K的標簽信息可靠性,只基于它們中的一部分而算出標簽信息可靠性,此外,也可以基于它們以外的基準算出標簽信息可靠性。
在步驟s46,識別部130針對每個標簽信息,對將在步驟s45中求出的標簽信息可靠性作為權重系數(shù)的加權出現(xiàn)次數(shù)進行計數(shù)。另外,標簽信息可靠性的值和權重系數(shù)的值不必設為相同的值,只要標簽信息可靠性越高,權重越大即可。此外,也可以僅在標簽信息可靠性為某閾值以上的情況下,對出現(xiàn)次數(shù)進行計數(shù)。這是在標簽信息可靠性為閾值以上的情況下將加權系數(shù)設為1,在比閾值更小的情況下,將加權系數(shù)設為0的例子。
步驟s44的處理與第一實施方式相同,但在本實施方式中,將考慮了標簽信息可靠性的出現(xiàn)次數(shù)最多的標簽信息作為物體的識別結果這一點上不同。
根據(jù)本實施方式,還考慮附加在存儲于圖像數(shù)據(jù)庫的圖像上的標簽信息的可靠性而進行物體的識別。由此,在圖像上附加有不正確的標簽的情況下,可抑制其影響而進行精度高的識別。
在本實施方式中,說明了事先制作標簽間相關度數(shù)據(jù)庫150及標簽-屬性相關度數(shù)據(jù)庫160的例子,但也可以設為識別部130在每次需要標簽間的相關度或標簽和屬性信息之間的相關度時,對圖像數(shù)據(jù)庫30詢問而得到它們的相關度。
(第三實施方式)
以下,對本發(fā)明的第三實施方式進行說明。本實施方式中,與第一及第二實施方式比較,物體識別結果的輸出處理不同。具體而言,僅在物體識別對象區(qū)域的關注度高的情況下,輸出物體識別結果。可以說本實施方式在物體識別裝置自動決定物體識別對象區(qū)域的情況下特別有效。另外,以下,以將第一實施方式變形了的實施方式為例進行說明,但也可以以第二實施方式為基礎實施本實施方式。
本實施方式的物體識別裝置300的硬件結構與第一實施方式(圖1(a))相同。圖8是表示通過由本實施方式的物體識別裝置300的運算裝置12執(zhí)行程序而實現(xiàn)的功能塊的圖。物體識別裝置300除了第一實施方式的功能外,還具備關注度計算部170。
圖9是表示由本實施方式的物體識別裝置300執(zhí)行的關注區(qū)域提取處理的流程的流程圖。對于與第一實施方式(圖3)同樣的處理,附加相同的標號,省略其詳細的說明。
輸入圖像的取得處理s10與第一實施方式相同。識別對象區(qū)域的取得處理s20也與第一實施方式相同,但在本實施方式中,不是通過來自用戶的輸入,而是由區(qū)域提取部110根據(jù)規(guī)定的算法而提取識別對象區(qū)域。該處理只要是從圖像中提取關注區(qū)域的處理,則可采用任意方式。相似圖像檢索處理s30與第一實施方式相同。
在本實施方式中,在步驟s30的處理后的步驟s60,算出識別對象區(qū)域的關注度。關注度是表示預想到人類對該部分區(qū)域保持的興趣的高度、或對該部分區(qū)域應保持的興趣的高度的指標。對某部分區(qū)域的關注度高是指人類對該部分區(qū)域保持更高的興趣或對該部分區(qū)域應保持更高的興趣。關注度的計算方法在本實施方式中沒有特別限定。例如,能夠僅根據(jù)包含于輸入圖像的信息而算出關注度。例如,只要將關注區(qū)域提取處理時的評分作為關注度即可。或者,也可以使用步驟s30的相似圖像檢索的結果而算出關注度。例如,能夠在檢索中點擊的相似圖像的數(shù)量越多,算出關注度越高,或者附加在相似圖像的標簽信息的含義的收束性越高,算出關注度越高。此外,基于相似圖像的相似區(qū)域的大小或位置或屬性信息(元信息)等,也能夠算出關注度。
在步驟s65,識別部130判定算出的關注度是否為閾值以上。在關注度是閾值以上的情況(s65-是)下,識別部130對識別對象區(qū)域執(zhí)行物體識別處理(s40)及識別結果的輸出處理(s50),但在關注度低于閾值的(s65-否)下,不進行物體識別處理。步驟s40的物體識別處理及步驟s50的輸出處理與第一實施方式相同。
根據(jù)本實施方式,物體識別裝置能夠從輸入圖像中自動地提取應關注的區(qū)域,并輸出該區(qū)域的物體辨別結果。在此,算出被提取的區(qū)域的關注度,因此即使在本來不是關注區(qū)域而錯誤地被作為關注區(qū)域提取的情況下,也能夠根據(jù)關注度判斷為是誤檢測。此外,在進行關注度計算時使用對于圖像數(shù)據(jù)庫的相似圖像檢索的結果,因此能夠基于僅從輸入圖像得不到的知識算出關注度,能夠精度高地算出關注度。此外,基于相似圖像檢索的結果,使關注度計算和物體識別這兩個處理的一部分通用化,實現(xiàn)處理的效率化。
(其它實施方式)
上述的實施方式的說明只不過例示說明本發(fā)明,本發(fā)明不限定于上述的具體的方式。本發(fā)明在其技術思想的范圍內(nèi)可以進行各種變形。
在上述的說明中,說明了圖像數(shù)據(jù)庫作為與物體識別裝置不同的裝置而構成的例子,但圖像數(shù)據(jù)庫也可以和物體識別裝置作為一體而構成。此外,包含于圖像數(shù)據(jù)庫的圖像數(shù)據(jù)既可以由物體識別裝置的制造者注冊,也可以由用戶注冊。此外,物體識別裝置也可以使用包括裝置內(nèi)部的圖像數(shù)據(jù)庫和裝置外部的圖像數(shù)據(jù)庫在內(nèi)的多個圖像數(shù)據(jù)庫。
本發(fā)明的物體識別裝置可以作為臺式計算機、筆記本型計算機、平板型計算機、智能電話、手機、數(shù)碼照相機、數(shù)碼攝像機等任意的信息處理裝置(計算機)安裝。
標號說明
10,200,300:物體識別裝置,
20:照相機,30:圖像數(shù)據(jù)庫
110:區(qū)域提取部,120:相似圖像檢索部,130:識別部
140:輸出部,150:標簽間相關度數(shù)據(jù)庫
160:標簽-屬性相關度數(shù)據(jù)庫,170:關注度計算部。