專利名稱:圖像識別信息添加裝置和圖像識別信息添加方法
技術(shù)領(lǐng)域:
本發(fā)明涉及圖像識別信息添加裝置和圖像識別信息添加方法。
背景技術(shù):
最近幾年中,已經(jīng)對將描述區(qū)域內(nèi)容的類別標(biāo)簽自動(dòng)地添加至整個(gè)圖像或圖像的部分區(qū)域的技術(shù)進(jìn)行了研究。這種技術(shù)被稱為“圖像注釋技術(shù)”,是將描述圖像特征的具有語言意義的標(biāo)簽與圖像特征聯(lián)系在一起的技術(shù)。期望將圖像注釋技術(shù)應(yīng)用于諸如圖像檢索等圖像相關(guān)應(yīng)用中。關(guān)于圖像注釋技術(shù),已經(jīng)提出了一種圖像分類裝置,該裝置包括對多個(gè)學(xué)習(xí)圖像中的每一個(gè)進(jìn)行分割的單元、將添加的文檔與經(jīng)分割產(chǎn)生的多個(gè)圖像區(qū)域中的各個(gè)區(qū)域關(guān)聯(lián)起來的單元、將多個(gè)圖像區(qū)域分類以使具有相似圖像特征的圖像區(qū)域組合在一起的單元、對與已分類圖像區(qū)域關(guān)聯(lián)的文檔中的單詞的出現(xiàn)頻率進(jìn)行計(jì)數(shù)的單元、以及提取出一定數(shù)量的所計(jì)數(shù)的出現(xiàn)頻率最高的單詞的單元、其中,單詞描述分類的語義內(nèi)容(例如,參見日本未審查專利申請公開No. 2000-353173)。通過在網(wǎng)上等進(jìn)行圖像檢索可以容易地收集包括成對的圖像和標(biāo)簽的學(xué)習(xí)數(shù)據(jù)。 現(xiàn)有技術(shù)中的利用易于獲取的學(xué)習(xí)數(shù)據(jù)來實(shí)現(xiàn)圖像注釋系統(tǒng)的典型實(shí)例包括語義多類別標(biāo)注(SML)(例如,參見 G. Carneiro、AB. Chan>PJ. Moreno 禾口 N. Vasconcelos 的"Supervised Learning of Semantic Classes for Image Annotation and Retrieval (對用于圖像注釋和檢索的語義分類的監(jiān)督學(xué)習(xí))”,TPAMI,2007)。此外,提出了基于kNN的方法(kNN表示k近鄰算法)作為現(xiàn)有技術(shù)中除SML以夕卜的典型實(shí)例,(例如,參見 Nakayama> Harada> Kuniyoshi 禾口 Otsu 的"Ultra high speed image annotation/retrieval method by learning the conceptual relationship between images and labels (通過學(xué)習(xí)圖像與標(biāo)簽之間的概念關(guān)系執(zhí)行的超高速圖像注釋 / 檢索方法),,,PRMU2007-12 ;T. BailIoeul、C. Zhu 和 Y. Xu 的"Automatic Image Tagging As a Random Walk with Priors on the Canonical Correlation Subspace (被預(yù)先標(biāo)記為典型相關(guān)子空間中的隨機(jī)走動(dòng)的自動(dòng)圖像)”,MIR, 2008 ;以及M. Guillaumin, T. Mensink、J. Verbeek 禾口 C. Schmid, "TagProp-Discriminative Metric Learning in Nearest Neighbor Models for Image Auto-Annotation (TagProp ^TSft ^ ] ^ 鄰模型的差別米制學(xué)習(xí))”,ICCV,2009)。在基于kNN的方法中,選擇如下的特征向量從學(xué)習(xí)圖像中提取出來并在距離上接近從待添加標(biāo)簽的對象圖像中提取的特征向量,并且將添加至所選特征向量的標(biāo)簽添加到從對象圖像提取的特征向量。在SML中,需要針對指示圖像區(qū)域內(nèi)容的各條識別信息計(jì)算高斯混合分布。在基于kNN的方法中,需要計(jì)算目標(biāo)特征向量與從學(xué)習(xí)圖像中提取的各個(gè)特征向量之間的距
1 O
發(fā)明內(nèi)容
本發(fā)明旨在提供一種圖像識別信息添加裝置和圖像識別信息添加方法,從而與現(xiàn)有技術(shù)相比以較高的速度將識別信息添加至整個(gè)圖像。根據(jù)本發(fā)明的第一方面,提供一種圖像識別信息添加裝置包括特征向量計(jì)算單元,其計(jì)算從待處理的對象圖像中選擇的部分區(qū)域的第一特征向量;以及圖像識別信息添加單元,其基于所計(jì)算的學(xué)習(xí)圖像的部分區(qū)域的第二特征向量和添加至整個(gè)學(xué)習(xí)圖像的第二識別信息,利用預(yù)先生成的決策樹組來將指示對象圖像內(nèi)容的第一識別信息添加至所述對象圖像。所述圖像識別信息添加單元通過用第一乘積與第二乘積之比乘以所述第二識別信息的先驗(yàn)概率來確定所述對象圖像的第一識別信息以將所述第一識別信息添加至所述對象圖像,當(dāng)將第二特征向量組和第二識別信息組供應(yīng)至所述決策樹組以計(jì)算所述第一乘積和所述第二乘積時(shí),所述第一乘積通過將從到達(dá)所述決策樹組中各個(gè)葉子的第二識別信息的數(shù)量與第二識別信息總數(shù)之比獲得的似然函數(shù)相乘來計(jì)算,所述第二乘積通過將所計(jì)算出的第一特征向量的先驗(yàn)概率相乘來計(jì)算。根據(jù)本發(fā)明的第二方面,所述圖像識別信息添加單元通過根據(jù)到達(dá)所述決策樹組的各個(gè)葉子處的第二識別信息來進(jìn)行加權(quán)以確定所述對象圖像的第一識別信息,并且將所述第一識別信息添加至所述對象圖像。根據(jù)本發(fā)明的第三方面,所述圖像識別信息添加單元基于所述決策數(shù)組和由所述特征向量計(jì)算單元計(jì)算出的第一特征向量來確定所述對象圖像的部分區(qū)域的第一識別信息,并且將所述第一識別信息添加至所述部分區(qū)域。根據(jù)本發(fā)明的第四方面,提供一種圖像識別信息添加方法包括計(jì)算從待處理的對象圖像中選擇的部分區(qū)域的第一特征向量;以及添加步驟,基于所計(jì)算的學(xué)習(xí)圖像的部分區(qū)域的第二特征向量和添加至整個(gè)學(xué)習(xí)圖像的第二識別信息,利用預(yù)先生成的決策樹組來將指示對象圖像內(nèi)容的第一識別信息添加至所述對象圖像。所述添加步驟通過用第一乘積與第二乘積之比乘以所述第二識別信息的先驗(yàn)概率來確定所述對象圖像的第一識別信息以將所述第一識別信息添加至所述對象圖像,當(dāng)將第二特征向量組和第二識別信息組供應(yīng)至所述決策樹組以計(jì)算所述第一乘積和所述第二乘積時(shí),所述第一乘積通過將從到達(dá)所述決策樹組的各個(gè)葉子處的第二識別信息的數(shù)量與第二識別信息總數(shù)之比獲得的似然函數(shù)相乘來計(jì)算,所述第二乘積通過將所計(jì)算出的第一特征向量的先驗(yàn)概率相乘來計(jì)算。根據(jù)本發(fā)明第一方面或第四方面,在將識別信息添加至整個(gè)圖像的情況下,與現(xiàn)有技術(shù)相比可以以較高的速度來添加所述識別信息。根據(jù)本發(fā)明的第二方面,在決策樹上各個(gè)葉子的體積在多維空間中變化的情況下,可以提高識別信息的精確性。根據(jù)本發(fā)明的第三方面,可以將識別信息添加至圖像的部分區(qū)域。
將基于附圖詳細(xì)描述本發(fā)明的示例性實(shí)施例,其中,圖1是示出根據(jù)本發(fā)明示例性實(shí)施例的圖像識別信息添加裝置的構(gòu)造實(shí)例的框圖;圖2是示出學(xué)習(xí)主體實(shí)例的示意圖;圖3是示出選擇圖像中部分區(qū)域的實(shí)例的示意圖;CN 102376079 A
說明書
3/10 頁圖4是示出選擇圖像中部分區(qū)域的另一實(shí)例的示意圖;圖5是示出選擇圖像中部分區(qū)域的另一實(shí)例的示意圖;圖6是示出選擇圖像中部分區(qū)域的另一實(shí)例的示意圖;圖7是示出創(chuàng)建決策樹的方法實(shí)例的流程圖;圖8是示出創(chuàng)建概率表的方法實(shí)例的示意圖;圖9是示出概率表實(shí)例的示意圖;圖10是示出計(jì)算后驗(yàn)概率的方法實(shí)例的示意圖;圖11是示出計(jì)算后驗(yàn)概率的方法的另一實(shí)例的示意圖;以及圖12是示出根據(jù)本發(fā)明示例性實(shí)施例的圖像識別信息添加裝置的操作實(shí)例的流程圖。
具體實(shí)施例方式圖1是示出根據(jù)本發(fā)明示例性實(shí)施例的圖像識別信息添加裝置的構(gòu)造實(shí)例的框圖。圖像識別信息添加裝置1包括控制器2,其包括中央處理器(CPU)等;存儲(chǔ)器3, 其包括用于存儲(chǔ)各類程序和數(shù)據(jù)的只讀存儲(chǔ)器(ROM)、隨機(jī)存取存儲(chǔ)器(RAM)和硬盤驅(qū)動(dòng)器(HDD)等等;圖像輸入單元4,諸如用于以光學(xué)的方式讀取圖像的掃描儀等;以及顯示器5,諸如液晶顯示器等。在本圖像識別信息添加裝置中,將使用決策樹組作為分類器的隨機(jī)森林方法應(yīng)用于圖像注釋技術(shù)(圖像識別信息添加技術(shù))。隨機(jī)森林方法是以下文檔中提出的一種識別模型L Breiman, "Random Forests (隨機(jī)森林)”,Machine Learning, 2001 ;以及 F. Moosman、E. Nowak 禾口 F. Jurie,"Randomized Clustering Forests for Image Classification(用于圖像分類的隨機(jī)聚類森林)”,TPAMI,2008。關(guān)于圖像注釋技術(shù)(圖像識別信息添加技術(shù)),自日本未審查專利申請公開 No. 2000-353173提出該技術(shù)以來已經(jīng)提出了多種方法。根據(jù)日本未審查專利申請公開 No. 2000-353173中所提出的方法,用于學(xué)習(xí)的圖像(以下稱為“學(xué)習(xí)圖像”)被分割成呈柵格圖案的區(qū)域(以下稱為“柵格區(qū)域”),并且從各個(gè)柵格區(qū)域中提取諸如顏色和傾角等簡單特征量。隨后,對所提取的特征量進(jìn)行聚類(量化),并且分成幾個(gè)組。在測試時(shí),以類似的方式從測試圖像的柵格區(qū)域中提取圖像特征,并且將圖像特征分配給通過先前聚類而生成的組。假定f表示圖像特征而c表示標(biāo)簽,基于存在于相應(yīng)組中的學(xué)習(xí)圖像的標(biāo)簽c的出現(xiàn)頻率來計(jì)算關(guān)于預(yù)定柵格區(qū)域的標(biāo)簽C的后驗(yàn)概率P (c If)。在這之后,對整個(gè)圖像上的后驗(yàn)概率求平均,由此計(jì)算關(guān)于整個(gè)圖像的類別標(biāo)簽的概率P(C)。對于這種方法,如果柵格區(qū)域足夠小則處理時(shí)間較長,但類別標(biāo)簽可以被添加至整個(gè)圖像和圖像的部分區(qū)域。<圖像輸入單元>圖像輸入單元4用于輸入添加有圖像識別信息的對象圖像(測試圖像),并且該單元不限于掃描儀。對象圖像可以經(jīng)由諸如通用串行總線(USB)存儲(chǔ)器或光盤-只讀存儲(chǔ)器 (⑶-ROM)等記錄介質(zhì)來輸入。此外,對象圖像可以經(jīng)由連接網(wǎng)絡(luò)的接口輸入。<存儲(chǔ)器>存儲(chǔ)器3存儲(chǔ)諸如圖像識別信息添加程序30等各種類型的程序,并且存儲(chǔ)各種類型的數(shù)據(jù),諸如包括成對的學(xué)習(xí)圖像310和類別標(biāo)簽(識別信息)311在內(nèi)的學(xué)習(xí)主體31、決策樹數(shù)據(jù)32、和概率表33。學(xué)習(xí)主體31用作學(xué)習(xí)數(shù)據(jù),并且包括成對的學(xué)習(xí)圖像310和類別標(biāo)簽311。通常, 類別標(biāo)簽311由多個(gè)標(biāo)簽構(gòu)成??梢匀菀椎乩檬褂藐P(guān)鍵字的圖像檢索裝置、電子圖鑒、以及成對的網(wǎng)頁文檔中的圖像及附近的正文等等,獲取學(xué)習(xí)主體31作為圖像和描述圖像的類別標(biāo)簽。然而,在以這種方式收集的學(xué)習(xí)數(shù)據(jù)中,圖像的部分與標(biāo)簽之間的對應(yīng)關(guān)系不清林疋。圖2是示出學(xué)習(xí)主體31的實(shí)例的示意圖。給出了“狗”、“草”、“樹”和“臉”四個(gè)標(biāo)簽作為學(xué)習(xí)圖像310的類別標(biāo)簽311,但是沒有預(yù)先確定各個(gè)標(biāo)簽與學(xué)習(xí)圖像310的部分之間的對應(yīng)關(guān)系。從而,假定整個(gè)類別標(biāo)簽311描述學(xué)習(xí)圖像310的整個(gè)區(qū)域,來對學(xué)習(xí)主體31進(jìn)行處理。<控制器>控制器2的CPU根據(jù)圖像識別信息添加程序30進(jìn)行操作,由此起到學(xué)習(xí)部分20A 的作用,該學(xué)習(xí)部分包括學(xué)習(xí)數(shù)據(jù)獲取單元21、圖像區(qū)域選擇單元22、特征向量計(jì)算單元 23、決策樹創(chuàng)建單元M和概率表創(chuàng)建單元25,并且還起到測試部分20B的作用,該測試部分包括圖像接收單元26、圖像區(qū)域選擇單元27、特征向量計(jì)算單元觀和圖像識別信息添加單元29?!磳W(xué)習(xí)數(shù)據(jù)獲取單元〉學(xué)習(xí)數(shù)據(jù)獲取單元21是從所收集的學(xué)習(xí)數(shù)據(jù)中選擇實(shí)際上用于學(xué)習(xí)的學(xué)習(xí)圖像的單元。學(xué)習(xí)數(shù)據(jù)獲取單元21可以選擇所有學(xué)習(xí)圖像,或者可以選擇一個(gè)或一些學(xué)習(xí)圖像。對于選擇一個(gè)或一些學(xué)習(xí)圖像的方法,學(xué)習(xí)數(shù)據(jù)獲取單元21基本上使用隨機(jī)選擇,并且期望做出選擇使得至少曾經(jīng)包括學(xué)習(xí)數(shù)據(jù)的所有類別標(biāo)簽中的必要標(biāo)簽。在使用之前在下述決策樹創(chuàng)建單元M中創(chuàng)建的決策樹的情況下,學(xué)習(xí)數(shù)據(jù)獲取單元21可以使用從具有較差分類性能的學(xué)習(xí)圖像中采樣的方法。<圖像區(qū)域選擇單元>圖像區(qū)域選擇單元22從由學(xué)習(xí)數(shù)據(jù)獲取單元21選擇的圖像組中選擇預(yù)定數(shù)量 (總共為S)的圖像區(qū)域作為學(xué)習(xí)圖像310的部分區(qū)域310a。對于選擇圖像區(qū)域的方法,圖像區(qū)域選擇單元22可以使用隨機(jī)選擇具有預(yù)定尺寸或更大的矩形區(qū)域的方法、選擇對像點(diǎn)位于圖像區(qū)域中心處的圖像區(qū)域的方法、或者將學(xué)習(xí)圖像分割成呈柵格圖案的區(qū)域的方法,或利用各種類型的聚類方法,從而選擇所產(chǎn)生的部分區(qū)域。各個(gè)學(xué)習(xí)圖像中將要選擇的圖像區(qū)域的數(shù)量不一定相同,并且可以是沒有選擇圖像區(qū)域的圖像。圖3是示出選擇學(xué)習(xí)圖像310中的部分區(qū)域310a的實(shí)例,即選擇三個(gè)矩形區(qū)域的實(shí)例的示意圖。圖4示出利用具有預(yù)定半徑的圓選擇四個(gè)部分區(qū)域310a的實(shí)例,學(xué)習(xí)圖像 310內(nèi)由哈里斯(Harris)算子(特征點(diǎn)提取算法)提取的特征點(diǎn)為圓的圓心。圖5示出將學(xué)習(xí)圖像310分割成呈柵格圖案的4X4區(qū)域并且從中選擇四個(gè)部分區(qū)域310a的實(shí)例。圖 6是示出選擇通過分割學(xué)習(xí)圖像310產(chǎn)生的所有五個(gè)部分區(qū)域310a的實(shí)例的示意圖?!刺卣飨蛄坑?jì)算單元〉特征向量計(jì)算單元23是從由圖像區(qū)域選擇單元22選擇的部分區(qū)域310a中提取圖像特征并且生成表示整個(gè)所選擇部分區(qū)域310a的特征的特征向量f。所提取的圖像特征可以是顏色、亮度和結(jié)構(gòu)信息等的特征量。作為從圖像特征生成向量的方法,可以使用利用以像素單位提取的特征量的平均值的方法,或者可以使用“特征包(bag of features)”的形式,其中所有特征量被量化并且計(jì)算了特征量的頻率分布。<決策樹創(chuàng)建單元>決策樹創(chuàng)建單元M利用由特征向量計(jì)算單元23計(jì)算出的特征向量組創(chuàng)建決策樹。決策樹創(chuàng)建單元M把整個(gè)類別標(biāo)簽看作L,并且把屬于L的標(biāo)簽看作Ci (O彡i彡n-1, η為標(biāo)簽總數(shù))。此外,決策樹創(chuàng)建單元M把添加至圖像Ij的標(biāo)簽組看作Lj。例如,將形成Lj的三個(gè)標(biāo)簽C(l、C1和C2添加至圖像I」。此時(shí),還將Lj作為類別標(biāo)簽添加至從圖像Ij 選擇的第k部分區(qū)域I/的特征向量f/。這里,n(i,t)表示決策樹Ti的第t節(jié)點(diǎn)。t = 0 指根節(jié)點(diǎn)。由各個(gè)節(jié)點(diǎn)n(i,t)創(chuàng)建n(i,1)和n(i,r)。這里,1 = 2t+l而r = 2t+2。K^ 表示達(dá)到節(jié)點(diǎn)n(i,t)的學(xué)習(xí)數(shù)據(jù)組。此時(shí),將學(xué)習(xí)數(shù)據(jù)組W分成Ki1和KJ。在決策樹中, 滿足IKitI = IKJI+Kil,和Ki1 η KJ = 0。這里,|A|表示屬于集合A的數(shù)據(jù)條數(shù)。重復(fù)進(jìn)行該分割處理,直到到達(dá)節(jié)點(diǎn)的數(shù)據(jù)條數(shù)減小至預(yù)定閾值常量th以下,該預(yù)定閾值常量th 等于或大于IKitI (S卩,IKitI彡th)。通常,th越小性能越好(最終,th = ι是理想的)。已經(jīng)提出了一些創(chuàng)建決策樹的分割方法。在本示例性實(shí)施例中,將上述文檔“用于圖像分類的隨機(jī)聚類森林”中提出的方法應(yīng)用于圖像注釋。在該分割方法中,f/m表示特征向量f/的第m維元素,并且確定節(jié)點(diǎn)n(i,t)的閾值θ和維數(shù)m。如果元素f/m小于閾值 θ,則將特征向量f/分配給ΚΛ否則,將特征向量f/分配給KJ。此時(shí),用S(IC)表示節(jié)點(diǎn)n(i,t)的能(香農(nóng)熵^S(Kit)可利用以下等式(1)計(jì)算。
權(quán)利要求
1.一種圖像識別信息添加裝置,包括特征向量計(jì)算單元,其計(jì)算從待處理的對象圖像中選擇的部分區(qū)域的第一特征向量;以及圖像識別信息添加單元,其基于所計(jì)算的學(xué)習(xí)圖像的部分區(qū)域的第二特征向量和添加至整個(gè)學(xué)習(xí)圖像的第二識別信息,利用預(yù)先生成的決策樹組來將指示對象圖像內(nèi)容的第一識別信息添加至所述對象圖像,其中,所述圖像識別信息添加單元通過用第一乘積與第二乘積之比乘以所述第二識別信息的先驗(yàn)概率來確定所述對象圖像的第一識別信息以將所述第一識別信息添加至所述對象圖像,當(dāng)將第二特征向量組和第二識別信息組供應(yīng)至所述決策樹組以計(jì)算所述第一乘積和所述第二乘積時(shí),所述第一乘積通過將從到達(dá)所述決策樹組的各個(gè)葉子處的第二識別信息的數(shù)量與第二識別信息總數(shù)之比獲得的似然函數(shù)相乘來計(jì)算,所述第二乘積通過將所計(jì)算出的第一特征向量的先驗(yàn)概率相乘來計(jì)算。
2.根據(jù)權(quán)利要求1所述的圖像識別信息添加裝置,其中,所述圖像識別信息添加單元通過根據(jù)到達(dá)所述決策樹組的各個(gè)葉子處的第二識別信息來進(jìn)行加權(quán)以確定所述對象圖像的第一識別信息,并且將所述第一識別信息添加至所述對象圖像。
3.根據(jù)權(quán)利要求1或2所述的圖像識別信息添加裝置,其中,所述圖像識別信息添加單元基于所述決策數(shù)組和由所述特征向量計(jì)算單元計(jì)算出的第一特征向量來確定所述對象圖像的部分區(qū)域的第一識別信息,并且將所述第一識別信息添加至所述部分區(qū)域。
4.一種圖像識別信息添加方法,包括計(jì)算從待處理的對象圖像中選擇的部分區(qū)域的第一特征向量;以及添加步驟,基于所計(jì)算的學(xué)習(xí)圖像的部分區(qū)域的第二特征向量和添加至整個(gè)學(xué)習(xí)圖像的第二識別信息,利用預(yù)先生成的決策樹組來將指示對象圖像內(nèi)容的第一識別信息添加至所述對象圖像,其中,所述添加步驟通過用第一乘積與第二乘積之比乘以所述第二識別信息的先驗(yàn)概率來確定所述對象圖像的第一識別信息以將所述第一識別信息添加至所述對象圖像,當(dāng)將第二特征向量組和第二識別信息組供應(yīng)至所述決策樹組以計(jì)算所述第一乘積和所述第二乘積時(shí),所述第一乘積通過將從到達(dá)所述決策樹組的各個(gè)葉子處的第二識別信息的數(shù)量與第二識別信息總數(shù)之比獲得的似然函數(shù)相乘來計(jì)算,所述第二乘積通過將所計(jì)算出的第一特征向量的先驗(yàn)概率相乘來計(jì)算。
全文摘要
本發(fā)明公開一種圖像識別信息添加裝置和方法,該裝置包括特征向量計(jì)算單元,其計(jì)算從待處理的對象圖像中選擇的部分區(qū)域的第一特征向量;以及圖像識別信息添加單元,其基于學(xué)習(xí)圖像的部分區(qū)域的第二特征向量和添加至整個(gè)學(xué)習(xí)圖像的第二識別信息,利用預(yù)先生成的決策樹組來將指示對象圖像內(nèi)容的第一識別信息添加至對象圖像,圖像識別信息添加單元通過用第一乘積與第二乘積之比乘以第二識別信息的先驗(yàn)概率來確定對象圖像的第一識別信息以將第一識別信息添加至對象圖像,第一乘積通過將從到達(dá)決策樹組的各個(gè)葉子處的第二識別信息的數(shù)量與第二識別信息總數(shù)之比獲得的似然函數(shù)相乘來計(jì)算,第二乘積通過將所計(jì)算的第一特征向量的先驗(yàn)概率相乘來計(jì)算。
文檔編號G06T1/00GK102376079SQ20111003504
公開日2012年3月14日 申請日期2011年2月9日 優(yōu)先權(quán)日2010年8月12日
發(fā)明者加藤典司, 戚文淵, 福井基文 申請人:富士施樂株式會(huì)社