亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

使用大型數(shù)據(jù)庫(kù)進(jìn)行對(duì)象識(shí)別的系統(tǒng)及方法

文檔序號(hào):6360464閱讀:259來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):使用大型數(shù)據(jù)庫(kù)進(jìn)行對(duì)象識(shí)別的系統(tǒng)及方法
使用大型數(shù)據(jù)庫(kù)進(jìn)行對(duì)象識(shí)別的系統(tǒng)及方法
相關(guān)申請(qǐng)
本申請(qǐng)要求根據(jù)美國(guó)法典35U.S.C. § 119(e)于2010年5月14日提交的名稱(chēng)為“使用超大型數(shù)據(jù)庫(kù)進(jìn)行對(duì)象識(shí)別的系統(tǒng)及方法(System and Method for Object Recognition with Very LargeDatabases)” 的美國(guó)臨時(shí)申請(qǐng)序列號(hào) No. 61/395,565 的權(quán)益,該申請(qǐng)的全部?jī)?nèi)容通過(guò)引用結(jié)合在此。技術(shù)領(lǐng)域
本公開(kāi)內(nèi)容的領(lǐng)域一般涉及用于對(duì)象識(shí)別的系統(tǒng)及方法,并且更具體但非排他性地涉及管理包含相對(duì)大量已知對(duì)象模型的數(shù)據(jù)庫(kù)。
背景技術(shù)
在過(guò)去的幾年,視覺(jué)對(duì)象識(shí)別系統(tǒng)已經(jīng)變得越來(lái)越流行并且它們的用途一直在擴(kuò)展。典型的視覺(jué)對(duì)象識(shí)別系統(tǒng)依賴(lài)于使用從圖像提取的多個(gè)特征,其中每個(gè)特征具有與其相關(guān)聯(lián)的多維描述符向量,該向量是高度可區(qū)分的并且能夠?qū)μ卣鬟M(jìn)行區(qū)分。某些描述符的計(jì)算方式完全不管樣本圖像中對(duì)象的比例、定向或照度,對(duì)象的同一特征在所有樣本圖像中具有非常相似的描述符向量。這樣的特征被認(rèn)為是和比例、定向和/或照度的變化無(wú)關(guān)。
在識(shí)別一個(gè)目標(biāo)對(duì)象之前,建立一個(gè)數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)包括從人們希望識(shí)別的多個(gè)已知對(duì)象提取的不變特征。為了識(shí)別目標(biāo)對(duì)象,從目標(biāo)對(duì)象提取不變特征,并且針對(duì)目標(biāo)對(duì)象的每一個(gè)所提取的不變特征在數(shù)據(jù)庫(kù)中找到最相似的不變特征(稱(chēng)為“最近鄰”)。最近鄰檢索算法已經(jīng)被開(kāi)發(fā)了很多年,使得檢索時(shí)間相對(duì)于數(shù)據(jù)庫(kù)的大小而言是對(duì)數(shù)的,因此識(shí)別算法具有實(shí)際價(jià)值。一旦在數(shù)據(jù)庫(kù)中找到最近鄰,就將這些最近鄰用于投票選擇它們來(lái)自其中的已知對(duì)象。如果將多個(gè)已知對(duì)象鑒別為目標(biāo)對(duì)象的候選匹配對(duì)象,則可以通過(guò)確定哪一個(gè)候選匹配具有最高的最近鄰?fù)镀睌?shù)來(lái)鑒別目標(biāo)對(duì)象的真實(shí)已知對(duì)象匹配。在名稱(chēng)為“用于鑒別圖像中的比例不變特征的方法及設(shè)備以及其用于定位圖像中的對(duì)象的用途 (Method and apparatus for identifyingscale invariant features in an image and use of same for locating an objectin an image)”的美國(guó)專(zhuān)利序列號(hào)No. 6,711,293 中描述了這樣一種已知的對(duì)象識(shí)別方法。
然而,典型方法的困難是當(dāng)數(shù)據(jù)庫(kù)的大小增加時(shí)(B卩,隨著希望識(shí)別的已知對(duì)象的數(shù)量增加),更加難以找到最近鄰,因?yàn)橛糜谧罱彊z索的算法是概率性的。這些算法不能確保找到精確的最近鄰但是可以以高概率確保找到最近鄰。當(dāng)數(shù)據(jù)庫(kù)的大小增加時(shí),該概率降低,當(dāng)數(shù)據(jù)庫(kù)足夠大時(shí),該概率趨近于零。因此,本發(fā)明人認(rèn)識(shí)到需要甚至當(dāng)數(shù)據(jù)庫(kù)含有大量(例如,上千個(gè)、好幾萬(wàn)、好幾百萬(wàn)或好幾千萬(wàn)個(gè))對(duì)象時(shí)高效可靠地進(jìn)行對(duì)象識(shí)別。發(fā)明內(nèi)容
本公開(kāi)內(nèi)容描述了改進(jìn)的對(duì)象識(shí)別系統(tǒng)及相關(guān)聯(lián)的方法。
一個(gè)實(shí)施方案針對(duì)一種對(duì)存儲(chǔ)在對(duì)象識(shí)別系統(tǒng)的數(shù)據(jù)庫(kù)中的已知對(duì)象的識(shí)別模 型集進(jìn)行組織的方法。為這些已知對(duì)象中的每一個(gè)對(duì)象確定一個(gè)分類(lèi)模型。將這些已知對(duì) 象的分類(lèi)模型分組為多個(gè)分類(lèi)模型組。每個(gè)分類(lèi)模型組鑒別該數(shù)據(jù)庫(kù)的一個(gè)對(duì)應(yīng)部分,該 部分包含具有是該分類(lèi)模型組的成員的分類(lèi)模型的已知對(duì)象的識(shí)別模型。為每個(gè)分類(lèi)模型 組計(jì)算一個(gè)代表性分類(lèi)模型。每個(gè)代表性分類(lèi)模型是從是該分類(lèi)模型組的成員的分類(lèi)模型 得出或?qū)С龅?。?dāng)嘗試識(shí)別目標(biāo)對(duì)象時(shí),將目標(biāo)對(duì)象的分類(lèi)模型與這些代表性分類(lèi)模型進(jìn) 行比較從而使得能夠選擇識(shí)別模型子集,用于與目標(biāo)對(duì)象的識(shí)別模型進(jìn)行比較。
參考附圖從優(yōu)選實(shí)施方案的以下詳細(xì)描述中其他的方面及優(yōu)點(diǎn)將是顯而易見(jiàn)的。


圖1是根據(jù)一個(gè)實(shí)施方案的對(duì)象識(shí)別系統(tǒng)的框圖。
圖2是根據(jù)一個(gè)實(shí)施方案的包含已知對(duì)象的模型的圖1系統(tǒng)的數(shù)據(jù)庫(kù)的框圖。
圖3是根據(jù)一個(gè)實(shí)施方案的在圖1的系統(tǒng)的數(shù)據(jù)庫(kù)中形成的一個(gè)小型數(shù)據(jù)庫(kù)的框 圖。
圖4是根據(jù)一個(gè)實(shí)施方案的用于將圖2的數(shù)據(jù)庫(kù)分為多個(gè)小型數(shù)據(jù)庫(kù)的方法的流 程圖。
圖5是根據(jù)一個(gè)實(shí)施方案的用于生成對(duì)象的分類(lèi)簽名的方法的流程圖。
圖6是根據(jù)另一個(gè)實(shí)施方案的用于生成對(duì)象的分類(lèi)簽名的方法的流程圖。
圖7是根據(jù)另一個(gè)實(shí)施方案的用于生成對(duì)象的分類(lèi)簽名的方法的流程圖。
圖8是根據(jù)一個(gè)實(shí)施方案的用于計(jì)算從對(duì)象的圖像得出的向量的精簡(jiǎn)維度表示 的方法的流程圖。
圖9是展示一個(gè)簡(jiǎn)化的2維分類(lèi)簽名空間的圖,已知對(duì)象的分類(lèi)簽名位于該空間 中并被分組為多個(gè)分類(lèi)簽名組。
圖10是根據(jù)一個(gè)實(shí)施方案的用于識(shí)別目標(biāo)對(duì)象的方法的流程圖。
圖11是根據(jù)一個(gè)實(shí)施方案的用于將圖2的數(shù)據(jù)庫(kù)分為多個(gè)小型數(shù)據(jù)庫(kù)或箱的方 法的流程圖。
圖12是使用根據(jù)圖11的方法進(jìn)行分割的數(shù)據(jù)庫(kù)來(lái)識(shí)別目標(biāo)對(duì)象的方法的流程 圖。
圖13是根據(jù)一個(gè)實(shí)施方案的選擇特征從而包括在圖1的系統(tǒng)的分類(lèi)數(shù)據(jù)庫(kù)中的 方法的流程圖。
具體實(shí)施方式
參考上面列出的附圖,本節(jié)將描述具體實(shí)施方案及其詳細(xì)構(gòu)造和操作。在此描述 的這些實(shí)施方案是僅通過(guò)示例而不是限制來(lái)闡述的。本領(lǐng)域的普通技術(shù)人員根據(jù)本文的傳 授內(nèi)容將認(rèn)識(shí)到存在在此描述的示例實(shí)施方案的很多等效物。最值得注意的是,其他實(shí)施 方案也是可能的,可以對(duì)在此描述的這些實(shí)施方案作出改變,并且可以存在構(gòu)成在此描述 的這些實(shí)施方案的組件、部分或步驟的等效物。
為了清晰簡(jiǎn)明的目的,在此展示某些實(shí)施方案的部件或步驟的某些方面,而沒(méi)有 過(guò)多地描述對(duì)于本領(lǐng)域的普通技術(shù)人員根據(jù)本文的傳授內(nèi)容顯而易見(jiàn)的細(xì)節(jié)和/或某些容易混淆這些實(shí)施方案的更相關(guān)方面的理解的細(xì)節(jié)。
本領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到在此使用的不同術(shù)語(yǔ)。然而,以下為某些術(shù)語(yǔ)提供了示例定義。
幾何點(diǎn)特征、點(diǎn)特征、特征、特征點(diǎn)、關(guān)鍵點(diǎn)幾何點(diǎn)特征也稱(chēng)為“點(diǎn)特征”、“特征”、 “特征點(diǎn)”或“關(guān)鍵點(diǎn)”,是在對(duì)象的圖像表示中被可靠地檢測(cè)和/或鑒別的對(duì)象上的一個(gè)點(diǎn)。 特征點(diǎn)是使用特征檢測(cè)器(又稱(chēng)為特征檢測(cè)器算法)檢測(cè)的,該特征檢測(cè)器對(duì)圖像進(jìn)行處理從而檢測(cè)滿足特定屬性的圖像位置。例如,Harris角點(diǎn)檢測(cè)器檢測(cè)在圖像中邊緣邊界交叉的位置。這些交叉點(diǎn)通常對(duì)應(yīng)于在對(duì)象上存在角點(diǎn)的位置。術(shù)語(yǔ)“幾何點(diǎn)特征”強(qiáng)調(diào)的是在圖像中特定點(diǎn)處對(duì)特征進(jìn)行定義并且在圖像中找到的特征的相對(duì)幾何關(guān)系對(duì)于對(duì)象識(shí)別過(guò)程而言是有用的。對(duì)象的特征可以包括關(guān)于對(duì)象的信息集,如標(biāo)識(shí)符,從而鑒別該特征所屬于的對(duì)象或?qū)ο竽P停惶卣鞯腦和y位置坐標(biāo)、比例以及定向;以及特征描述符。
對(duì)應(yīng)特征、對(duì)應(yīng)、特征對(duì)應(yīng)如果當(dāng)從兩個(gè)不同的視點(diǎn)查看兩個(gè)特征時(shí)(即,當(dāng)在可能在比例、定向、平移、透視效果及照度方面不同的兩個(gè)不同的圖像中成像時(shí)),兩個(gè)特征表示一個(gè)對(duì)象的同一物理點(diǎn),則將其稱(chēng)為“對(duì)應(yīng)特征”(還稱(chēng)為“對(duì)應(yīng)”或“特征對(duì)應(yīng)”)。
特征描述符、描述符、描述符向量、特征向量、局部片描述符“特征描述符”(也稱(chēng)為“描述符”、“描述符向量”、“特征向量”或“局部片向量”)是一個(gè)用于鑒別一個(gè)特征并從其他特征區(qū)分該特征的已檢測(cè)特征的某些質(zhì)量的量化測(cè)量值。通常,特征描述符可以采用基于特征位置周?chē)囊黄袼氐南袼刂档母呔S度向量(特征向量)的形式。一些特征描述符對(duì)于共同的圖像變換(如比例、定向以及照度的變化)而言是不變的,從而使得在對(duì)象的多幅圖像中觀察到的該對(duì)象的對(duì)應(yīng)特征(即,在圖像比例、定向及照度不同的對(duì)象的若干幅圖像中檢測(cè)到的對(duì)象上的同一物理點(diǎn))具有類(lèi)似的(如果不是相同的)特征描述符。
最近鄰給定一個(gè)已檢測(cè)特征的集合V,該集合V中的一個(gè)具體特征V的最近鄰是具有最類(lèi)似于V的特征向量的特征W??梢詫⑦@個(gè)相似性計(jì)算為特征向量V和W之間的歐幾里德距離。因此,如果除集合V中的所有特征之外,其特征向量具有距特征向量V的最小歐幾里德距離, 則w是V的最近鄰。理想地,兩個(gè)對(duì)應(yīng)特征的特征描述符(向量)應(yīng)當(dāng)是相同的,因?yàn)檫@兩個(gè)特征對(duì)應(yīng)于對(duì)象上的同一物理點(diǎn)。然而,由于圖像之間的噪音和其他不同之處,兩個(gè)對(duì)應(yīng)特征的特征向量可能不相同。在這種情況下,特征向量之間的距離應(yīng)當(dāng)相比于任意特征之間的距離而言相對(duì)較小。因此,最近鄰特征(也稱(chēng)為最近鄰特征向量)的概念可以用于確定兩個(gè)特征是否對(duì)應(yīng)(因?yàn)楹腿我獾奶卣鲗?duì)相比,對(duì)應(yīng)特征更可能是最近鄰)。
k-D樹(shù)k_D樹(shù)是一個(gè)高效檢索結(jié)構(gòu),其應(yīng)用不在單一維度(如在二進(jìn)制樹(shù)中)中而是在k個(gè)維度中的數(shù)據(jù)的連續(xù)二等分方法。在每個(gè)分支點(diǎn),將一個(gè)預(yù)定的維度用作分裂方向。如二進(jìn)制檢索一樣,k-D樹(shù)高效地縮小了檢索空間如果存在N個(gè)條目,則其通常僅采取log (N)/log (2)個(gè)步驟來(lái)得到單個(gè)元素。這個(gè)高效率的缺點(diǎn)是如果正在檢索的元素不是精確的復(fù)制元素,則噪音有時(shí)可能會(huì)導(dǎo)致檢索下行到錯(cuò)誤的分支,因此某種跟蹤替代的可能分支以及回溯的方法可能是有用的。k-D樹(shù)是一種用來(lái)從對(duì)象模型圖像的一組特征在檢索圖像中找到特征的最近鄰的常見(jiàn)方法。對(duì)于檢索圖像中的每個(gè)特征,k-D樹(shù)被用來(lái)在這些對(duì)象模型圖像中找到最近鄰特征。這個(gè)可能特征對(duì)應(yīng)列表用作確定這些模型化對(duì)象中的哪一個(gè)(如果有的話)存在于檢索圖像中的基礎(chǔ)。
向量量化向量量化(VQ)是一種基于來(lái)自空間的樣本數(shù)據(jù)將一個(gè)η維向量空間分區(qū)為多個(gè)不同區(qū)域的方法。所獲取的數(shù)據(jù)可能不均勻地覆蓋該空間,而是某些區(qū)域可以被 密集地表示,而其他區(qū)域則可能是稀疏的。同樣,數(shù)據(jù)可能傾向于存在于多個(gè)聚類(lèi)中(占據(jù) 空間的子區(qū)域的多個(gè)小數(shù)據(jù)組)。良好的VQ算法將傾向于保留數(shù)據(jù)的結(jié)構(gòu),使得被密集填 充的區(qū)域包含在一個(gè)VQ區(qū)域內(nèi),而VQ區(qū)域的邊界沿稀疏填充的空間出現(xiàn)。每個(gè)VQ區(qū)域 可以由一個(gè)代表性向量(通常是該區(qū)域內(nèi)數(shù)據(jù)的向量的均值)表示。VQ的常見(jiàn)用途是作為 數(shù)據(jù)的有損壓縮的形式——單獨(dú)的數(shù)據(jù)點(diǎn)由其所屬的枚舉區(qū)域表示,而不是由其自身的 (通常是非常長(zhǎng)的)向量表示。
碼本、碼本條目碼本條目是表示空間的VQ的區(qū)域的代表性枚舉向量。VQ的“碼 本”是所有碼本條目的集合。在某些數(shù)據(jù)壓縮應(yīng)用中,初始數(shù)據(jù)被映射到對(duì)應(yīng)的VQ區(qū)域上, 然后由對(duì)應(yīng)碼本條目的枚舉來(lái)表示。
由粗到精由粗到精的總體原則是一種通過(guò)首先找到最接近的解決方案然后細(xì)化 該解決方案來(lái)解決問(wèn)題或進(jìn)行計(jì)算的方法。例如,高效的光流算法使用圖像金字塔,其中圖 像數(shù)據(jù)是由具有不同分辨率的一系列圖像來(lái)表示,并且兩個(gè)連續(xù)幀之間的運(yùn)動(dòng)首先是使用 最低金字塔級(jí)別在低分辨率確定的,然后該低分辨率運(yùn)動(dòng)估計(jì)被用作初始猜測(cè)從而更加精 確地在下一更高分辨率金字塔級(jí)別對(duì)運(yùn)動(dòng)進(jìn)行估計(jì)。
1.系統(tǒng)概覽
在一個(gè)實(shí)施方案中,描述一種使兩步驟方法來(lái)識(shí)別對(duì)象的對(duì)象識(shí)別系統(tǒng)。例如,可 以將一個(gè)大型數(shù)據(jù)庫(kù)分為許多個(gè)較小型的數(shù)據(jù)庫(kù),其中相似的對(duì)象被分組到同一小型數(shù)據(jù) 庫(kù)中。可以進(jìn)行第一粗分類(lèi)從而確定對(duì)象有可能在哪一個(gè)小型數(shù)據(jù)庫(kù)中。然后可以對(duì)在粗 分類(lèi)中鑒別的單個(gè)小型數(shù)據(jù)庫(kù)或小型數(shù)據(jù)庫(kù)子集進(jìn)行第二精細(xì)檢索,從而找到精確匹配。 通常,僅可以檢索多個(gè)小型數(shù)據(jù)庫(kù)中的一小部分。然而,如果直接應(yīng)用到整個(gè)數(shù)據(jù)庫(kù),常規(guī) 的識(shí)別系統(tǒng)可能會(huì)返回差的結(jié)果,通過(guò)結(jié)合具有合適分類(lèi)系統(tǒng)的識(shí)別系統(tǒng),當(dāng)前的識(shí)別系 統(tǒng)可以應(yīng)用到大得多的數(shù)據(jù)庫(kù)并且仍然以高度的精確度和實(shí)用性起作用。
圖1是根據(jù)一個(gè)實(shí)施方案的對(duì)象識(shí)別系統(tǒng)100的框圖。一般而言,系統(tǒng)100被配 置為實(shí)施一個(gè)兩步驟方法來(lái)進(jìn)行對(duì)象識(shí)別。例如,系統(tǒng)100可以避免將一個(gè)已知的對(duì)象識(shí) 別算法直接應(yīng)用到整個(gè)已知對(duì)象集上來(lái)識(shí)別一個(gè)目標(biāo)對(duì)象(由于該已知對(duì)象集的大小的緣 故,這個(gè)算法的結(jié)果可能較差),而是系統(tǒng)100可以通過(guò)基于對(duì)象相似性的某測(cè)量值來(lái)將這 些已知對(duì)象分組到多個(gè)子集中。然后,系統(tǒng)100通過(guò)進(jìn)行以下步驟來(lái)實(shí)施該兩步驟方法 (O鑒別目標(biāo)對(duì)象與哪個(gè)已知對(duì)象子集相似(例如,對(duì)象分類(lèi)),以及(2)然后使用該已知對(duì) 象子集(小得多)的已知對(duì)象識(shí)別算法來(lái)獲得高度精確且有用的結(jié)果(例如,對(duì)象識(shí)別)。
系統(tǒng)100可以用在不同的應(yīng)用中,如互聯(lián)網(wǎng)上的商品結(jié)帳和基于圖像的檢索應(yīng)用 (例如,識(shí)別由用戶通過(guò)移動(dòng)平臺(tái)(例如,蜂窩電話)捕獲的圖像中的對(duì)象)。系統(tǒng)100包括圖 像捕獲裝置105 (例如,照相機(jī)(靜態(tài)圖像照相機(jī)、錄像機(jī)))來(lái)捕獲有待識(shí)別的目標(biāo)對(duì)象110 的圖像(例如,黑白圖像、彩色圖像)。圖像捕獲裝置105產(chǎn)生表示圖像捕獲裝置105的視野 內(nèi)的一個(gè)場(chǎng)景的一個(gè)或更多圖像的圖像數(shù)據(jù)。在替代實(shí)施方案中,系統(tǒng)100不包括圖像捕 獲裝置105,而是通過(guò)一種或更多種不同的信號(hào)傳輸媒質(zhì)(例如,無(wú)線傳輸、有線傳輸)接收 由遠(yuǎn)離系統(tǒng)100的圖像捕獲裝置(例如,來(lái)自智能電話的照相機(jī))產(chǎn)生的圖像數(shù)據(jù)。將這些 圖像數(shù)據(jù)傳遞到系統(tǒng)100的處理器115。處理器115包括各種處理模塊,這些模塊對(duì)這些圖 像數(shù)據(jù)進(jìn)行分析從而確定目標(biāo)對(duì)象110是否表示在由圖像捕獲裝置105捕獲的圖像中并且識(shí)別目標(biāo)對(duì)象110。
例如,處理器115包括一個(gè)可選的分類(lèi)模塊120,該分類(lèi)模塊被配置成為目標(biāo)對(duì)象 110生成一個(gè)分類(lèi)模型。任何類(lèi)型的分類(lèi)模型可以由分類(lèi)模塊120生成。一般而言,分類(lèi)模塊120使用分類(lèi)模型來(lái)對(duì)屬于已知對(duì)象集的一個(gè)子集的對(duì)象進(jìn)行分類(lèi)。在一個(gè)示例中,分類(lèi)模型包括一個(gè)分類(lèi)簽名,該分類(lèi)簽名是從目標(biāo)對(duì)象110的一個(gè)或更多個(gè)方面的測(cè)量值得到的。在一個(gè)實(shí)施方案中,分類(lèi)簽名是一個(gè)η維向量。本公開(kāi)內(nèi)容詳細(xì)描述了利用分類(lèi)簽名來(lái)對(duì)對(duì)象進(jìn)行分類(lèi)的用途。然而,本領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到可以修改在此描述的不同實(shí)施方案從而實(shí)施能夠?qū)儆谝粋€(gè)已知對(duì)象子集的對(duì)象進(jìn)行分類(lèi)的任意分類(lèi)模型。分類(lèi)模塊120可以包括多個(gè)子模塊,如特征檢測(cè)器,從而檢測(cè)對(duì)象的特征。
處理器115還包括一個(gè)識(shí)別模塊125,該識(shí)別模塊可以包括一個(gè)特征檢測(cè)器。識(shí)別模塊125可以被配置為從圖像捕獲裝置105接收?qǐng)D像數(shù)據(jù)并且從該圖像數(shù)據(jù)產(chǎn)生目標(biāo)對(duì)象 110的對(duì)象模型信息。在一個(gè)實(shí)施方案中,目標(biāo)對(duì)象110的對(duì)象模型包括一個(gè)識(shí)別模型,該識(shí)別模型使得能夠?qū)δ繕?biāo)對(duì)象110進(jìn)行識(shí)別。在一個(gè)示例中,識(shí)別是指確定目標(biāo)對(duì)象110 對(duì)應(yīng)于某個(gè)已知對(duì)象,并且分類(lèi)是指確定目標(biāo)對(duì)象110屬于一個(gè)已知對(duì)象子集。識(shí)別模型可以對(duì)應(yīng)于在常規(guī)的對(duì)象識(shí)別系統(tǒng)中使用的任意類(lèi)型的已知識(shí)別模型。
在一個(gè)實(shí)施方案中,識(shí)別模型是對(duì)應(yīng)于從目標(biāo)對(duì)象110的圖像得到的特征集的特征模型(B卩,基于特征的模型)。每個(gè)特征可以包括與該特征及目標(biāo)對(duì)象110相關(guān)聯(lián)的不同類(lèi)型的信息(如標(biāo)識(shí)符)從而鑒別該特征屬于目標(biāo)對(duì)象110 ;該特征的X和y位置坐標(biāo)、比例及定向;以及特征描述符。這些特征可以對(duì)應(yīng)于片、角及邊緣中的一個(gè)或更多個(gè),并且可以是比例、定向和/或照度不變的。在一個(gè)示例中,目標(biāo)對(duì)象110的特征可以包括不同特征中的一個(gè)或更多個(gè),比如但不限于在美國(guó)專(zhuān)利6,711,239號(hào)中描述的比例不變的特征變換 (SIFT)特征;在 Herbert Bay 等人的 Computer Vision and Image Understanding (CVIU) 第 110 卷,第 3 期,第 346 至 359 頁(yè)(2008)中的“SURF:Speeded UpRobust Features ” 中描述的加速魯棒特征(SURF);在KrystianMikolajczyk和Cordelia Schmid的“局部描述符的性倉(cāng)泛評(píng)估,,(Aperformance evaluation of local descriptors" , IEEE Transactions on PatternAnalysis & Machine Intelligence 第 10 期,第 27 卷,第 1615 至 1630 頁(yè)(2005)) 中描述的梯度位置及定向直方圖(GLOH)特征,;在EnginTola等人的“DAISY:An Efficient Dense Descriptor Applied to WideBaseline Stereo,,,IEEE Transactions on Pattern Analysis & MachineIntelligence (2009)中描述的 DAISY 特征;以及對(duì)目標(biāo)對(duì)象 110 的局部外觀進(jìn)行編碼的任意其他特征(例如,產(chǎn)生類(lèi)似結(jié)果而不管如何捕獲目標(biāo)對(duì)象110的圖像的特征(例如,照度、比例、位置及定向的變化))。
在另一個(gè)實(shí)施方案中,識(shí)別模型是基于外觀的模型,其中目標(biāo)對(duì)象110是由表示對(duì)象110的不同視點(diǎn)及照度的一組圖像表示的。在另一個(gè)實(shí)施方案中,識(shí)別模型是表示目標(biāo)對(duì)象110的輪廓的基于形狀的模型。在另一個(gè)實(shí)施方案中,識(shí)別模型是表示目標(biāo)對(duì)象110 的顏色的基于顏色的模型。在另一個(gè)實(shí)施方案中,識(shí)別模型是表示目標(biāo)對(duì)象110的3維形狀的3維結(jié)構(gòu)模型。在另一個(gè)實(shí)施方案中,識(shí)別模型是以上鑒別的不同模型中的兩個(gè)或更多個(gè)模型的組合??梢允褂闷渌?lèi)型的模型用于識(shí)別模型。處理器115使用分類(lèi)簽名和識(shí)別模型來(lái)識(shí)別目標(biāo)對(duì)象110,如以下更詳細(xì)描述的。
處理器115可以包括其他可選模塊,如分割模塊130以及圖像標(biāo)準(zhǔn)化模塊135,該分割模塊將來(lái)自由圖像捕獲裝置105捕獲的場(chǎng)景的圖像的目標(biāo)對(duì)象110的圖像分割,圖像 標(biāo)準(zhǔn)化模塊135將目標(biāo)對(duì)象110的圖像轉(zhuǎn)換為標(biāo)準(zhǔn)化規(guī)范形式。以下將詳細(xì)描述模塊130 和135的功能。
系統(tǒng)100還包括一個(gè)數(shù)據(jù)庫(kù)140,該數(shù)據(jù)庫(kù)存儲(chǔ)用于識(shí)別對(duì)象的各種形式的信息。 例如,數(shù)據(jù)庫(kù)140包含與系統(tǒng)100被配置為對(duì)其進(jìn)行識(shí)別的已知對(duì)象集相關(guān)聯(lián)的對(duì)象信息。 該對(duì)象信息被傳遞到處理器115并且與目標(biāo)對(duì)象110的分類(lèi)簽名和識(shí)別模型進(jìn)行比較,從 而目標(biāo)對(duì)象110可以被識(shí)別。
數(shù)據(jù)庫(kù)140可以存儲(chǔ)與相對(duì)大量的(例如,上千個(gè)、上萬(wàn)個(gè)、數(shù)十萬(wàn)個(gè)或數(shù)百萬(wàn)個(gè)) 已知對(duì)象相對(duì)應(yīng)的對(duì)象信息。因此,將數(shù)據(jù)庫(kù)140組織為能夠高效并可靠地檢索對(duì)象信 息。例如,如圖2所示,數(shù)據(jù)庫(kù)140被分為表示小型數(shù)據(jù)庫(kù)(例如,小型數(shù)據(jù)庫(kù)(DB)1、小型DB2、......、小型DB N)的多個(gè)部分。每個(gè)小型數(shù)據(jù)庫(kù)包含相似的已知對(duì)象的子集的對(duì)象信息。在一個(gè)示例中,已知對(duì)象之間的相似性是通過(guò)測(cè)量表示這些已知對(duì)象的分類(lèi)模型向量 之間的歐幾里德距離來(lái)確定的,如本領(lǐng)域的普通技術(shù)人員將理解的。在一個(gè)圖解性示例中, 數(shù)據(jù)庫(kù)140包含大約50,000個(gè)對(duì)象的對(duì)象信息,并且數(shù)據(jù)庫(kù)140被分為50個(gè)小型數(shù)據(jù)庫(kù), 每個(gè)小型數(shù)據(jù)庫(kù)包含大約1,000個(gè)對(duì)象的對(duì)象信息。在另一個(gè)圖解性示例中,數(shù)據(jù)庫(kù)140 包含大約五百萬(wàn)個(gè)對(duì)象的對(duì)象信息,并且數(shù)據(jù)庫(kù)140被分為1,000個(gè)小型數(shù)據(jù)庫(kù),每個(gè)小型 數(shù)據(jù)庫(kù)包含大約5,000個(gè)對(duì)象的對(duì)象信息。數(shù)據(jù)庫(kù)140可選地包括一個(gè)碼本142,該碼本存 儲(chǔ)與小型數(shù)據(jù)庫(kù)中的多個(gè)以及以下將更詳細(xì)描述的分類(lèi)簽名組中的多個(gè)關(guān)聯(lián)的組簽名145 (例如,組簽名I與小型DB I相關(guān)聯(lián))。每個(gè)組簽名145是從包含在其關(guān)聯(lián)的小型數(shù)據(jù)庫(kù)中 的對(duì)象信息得到的。小型數(shù)據(jù)庫(kù)的組簽名145是該小型數(shù)據(jù)庫(kù)的代表性分類(lèi)模型的一個(gè)示 例。
圖3是數(shù)據(jù)庫(kù)140的小型DB I的框圖表示。每個(gè)小型數(shù)據(jù)庫(kù)可以包括其組簽名 145的表示。小型DB I包括M個(gè)已知對(duì)象的對(duì)象信息,并且小型DB I的組簽名145是從 包含在該小型DB I中的M個(gè)已知對(duì)象的對(duì)象信息得到的。在一個(gè)示例中,組簽名145是存 儲(chǔ)在如圖2所示的數(shù)據(jù)庫(kù)140中的碼本142的碼本條目。在嘗試識(shí)別目標(biāo)對(duì)象110的過(guò)程 中,小型數(shù)據(jù)庫(kù)的組簽名145被傳遞到處理器115,并且分類(lèi)模塊120對(duì)目標(biāo)對(duì)象110的分 類(lèi)簽名與組簽名145名進(jìn)行比較從而選擇一個(gè)或更多個(gè)小型數(shù)據(jù)庫(kù)以便找到目標(biāo)對(duì)象110 的匹配對(duì)象。以下將更詳細(xì)描述組簽名145。
包含在小型DB I中的M個(gè)已知對(duì)象的對(duì)象信息對(duì)應(yīng)于該M個(gè)已知對(duì)象的對(duì)象模 型。每個(gè)已知對(duì)象模型包括關(guān)于該已知對(duì)象的不同類(lèi)型的信息。例如,已知對(duì)象I的對(duì)象 模型包括已知對(duì)象I的一個(gè)識(shí)別模型。這些已知對(duì)象的識(shí)別模型與目標(biāo)對(duì)象110的識(shí)別模 型是相同類(lèi)型的模型。在一個(gè)示例中,這些已知對(duì)象的識(shí)別模型是對(duì)應(yīng)于從這些已知對(duì)象 的圖像得到的特征集的特征模型。每個(gè)已知對(duì)象的每個(gè)特征可以包括與該特征及其相關(guān)聯(lián) 的已知對(duì)象相關(guān)聯(lián)的不同類(lèi)型的信息,如用于鑒別該特征屬于其已知對(duì)象的標(biāo)識(shí)符;該特 征的X和y位置坐標(biāo)、比例及定向;以及特征描述符。這些已知對(duì)象的特征可以包括一個(gè)或 更多個(gè)不同的特征,如SIFT特征、SURF、GLOH特征、DAISY特征和對(duì)對(duì)象的局部外觀進(jìn)行編 碼的其他特征(例如,產(chǎn)生相似結(jié)果而不管如何捕獲圖像的特征(例如,照度、比例、位置及 定向的變化))。在其他實(shí)施方案中,這些已知對(duì)象的識(shí)別模型可以包括基于外觀的模型、基 于形狀的模型、基于顏色的模型以及基于3維結(jié)構(gòu)的模型中的一個(gè)或更多個(gè)。這些已知對(duì)象的識(shí)別模型被傳遞到處理器115,并且識(shí)別模塊125將目標(biāo)對(duì)象110的識(shí)別模型與這些已 知對(duì)象的識(shí)別模型進(jìn)行比較從而識(shí)別目標(biāo)對(duì)象110。
每個(gè)已知對(duì)象模型還包括其已知對(duì)象的一個(gè)分類(lèi)模型(例如,分類(lèi)簽名)。例如,已 知對(duì)象I的對(duì)象模型包括對(duì)象I的一個(gè)分類(lèi)簽名。這些已知對(duì)象的分類(lèi)簽名是通過(guò)對(duì)用于 獲取目標(biāo)對(duì)象110的分類(lèi)簽名的已知對(duì)象進(jìn)行測(cè)量來(lái)獲得的。這些已知對(duì)象的已知對(duì)象模 型還可以包括一個(gè)小型DB標(biāo)識(shí)符,該標(biāo)識(shí)符指示這些已知對(duì)象的對(duì)象模型是其對(duì)應(yīng)的小 型數(shù)據(jù)庫(kù)的成員。通常,具體的小型數(shù)據(jù)庫(kù)中的這些已知對(duì)象模型的小型DB標(biāo)識(shí)符是相同 的并且區(qū)別于其他小型數(shù)據(jù)庫(kù)中的已知對(duì)象模型的小型DB標(biāo)識(shí)符。這些已知對(duì)象的對(duì)象 模型還可以包括對(duì)于具體應(yīng)用有用的其他信息。例如,對(duì)象模型可以包括已知對(duì)象的UPC 號(hào)碼、已知對(duì)象的名稱(chēng)、已知對(duì)象的價(jià)格、地理位置(例如,如果對(duì)象是地標(biāo)或建筑物)以及 與對(duì)象相關(guān)聯(lián)的任意其他信息。
系統(tǒng)100包括用于識(shí)別目標(biāo)對(duì)象110的兩步驟方法。一般而言,目標(biāo)對(duì)象110的分 類(lèi)模型與小型數(shù)據(jù)庫(kù)的代表性分類(lèi)模型進(jìn)行比較從而確定目標(biāo)對(duì)象110是否有可能屬于 一個(gè)或更多個(gè)具體的小型數(shù)據(jù)庫(kù)。在一個(gè)特定示例中,使用目標(biāo)對(duì)象110的分類(lèi)簽名以及 組簽名145來(lái)確定多個(gè)小型數(shù)據(jù)庫(kù)中的哪一個(gè)有可能包括對(duì)應(yīng)于目標(biāo)對(duì)象110的一個(gè)已知 對(duì)象模型,完成第一粗分類(lèi)。然后可以對(duì)在粗分類(lèi)中鑒別的單個(gè)小型數(shù)據(jù)庫(kù)或一個(gè)小型數(shù) 據(jù)庫(kù)子集進(jìn)行第二精細(xì)檢索,從而找到精確匹配。在一個(gè)示例中,與其他常規(guī)的方法相比, 可能僅需要檢索多個(gè)小型數(shù)據(jù)庫(kù)中的非常小的部分。系統(tǒng)100可以提供高識(shí)別速率而不要 求線性增加計(jì)算時(shí)間或硬件使用。
I1.數(shù)據(jù)庫(kù)劃分
圖4是根據(jù)一個(gè)實(shí)施方案的將數(shù)據(jù)庫(kù)140分為表示小型數(shù)據(jù)庫(kù)的多個(gè)部分的方 法200的流程圖,每個(gè)小型數(shù)據(jù)庫(kù)包含在數(shù)據(jù)庫(kù)140中表示的已知對(duì)象集的子集的識(shí)別模 型。優(yōu)選地,在識(shí)別目標(biāo)對(duì)象之前劃分?jǐn)?shù)據(jù)庫(kù)140。對(duì)于每個(gè)已知對(duì)象,該已知對(duì)象的分類(lèi) 模型(如分類(lèi)簽名)是通過(guò)對(duì)該已知對(duì)象進(jìn)行測(cè)量而生成的(步驟205)。在一個(gè)示例中,分 類(lèi)簽名是將已知對(duì)象的一個(gè)或更多個(gè)方面量化的N維向量。該測(cè)量的區(qū)別性應(yīng)當(dāng)足以使得 能夠?qū)?shù)據(jù)庫(kù)140分割為包括類(lèi)似已知對(duì)象的對(duì)象模型的多個(gè)小型數(shù)據(jù)庫(kù),并且使得能夠 鑒別目標(biāo)對(duì)象可能屬于的小型數(shù)據(jù)庫(kù)。例如,對(duì)象的分類(lèi)簽名可以是一個(gè)標(biāo)準(zhǔn)化100維向 量,并且可以通過(guò)計(jì)算兩個(gè)分類(lèi)簽名的差異的范數(shù)(例如,計(jì)算這兩個(gè)分類(lèi)簽名之間的歐幾 里德距離)來(lái)計(jì)算兩個(gè)對(duì)象之間的相似性。如果對(duì)于任意給定的對(duì)象,相比于分類(lèi)簽名距所 有對(duì)象的平均距離(例如,平均歐幾里德距離是O. 7),存在具有距該分類(lèi)簽名的短距離(例 如,僅1%的其他對(duì)象具有〈O.1的歐幾里德距離范數(shù))的其他對(duì)象的一個(gè)小子集,則可以認(rèn) 為該分類(lèi)簽名是足夠區(qū)別性的。然而,在一個(gè)示例中,測(cè)量無(wú)需是如此區(qū)別性的從而使得能 夠排他性地基于目標(biāo)對(duì)象110和已知對(duì)象的分類(lèi)簽名來(lái)匹配目標(biāo)對(duì)象/已知對(duì)象(例如,對(duì) 象識(shí)別)。被認(rèn)為是足夠區(qū)別性的內(nèi)容是由用戶確定的并且可以基于包括系統(tǒng)100在其中 實(shí)施的具體應(yīng)用的不同因子而變化。
若干對(duì)象參數(shù)可以用于測(cè)量。一些對(duì)象參數(shù)可以是已知對(duì)象的物理屬性,并且一 些對(duì)象參數(shù)可以是從所捕獲的圖像中的已知對(duì)象的外觀提取的??赡艿臏y(cè)量包括
·重量和/或慣矩;
·形狀;
大小(高度、寬度、長(zhǎng)度或其組合);
·幾何矩;
·體積(即使它不是盒子的形狀);
·曲率測(cè)量;
·檢測(cè)平的V彎曲的對(duì)象;
·電磁特征(磁導(dǎo)率、電感、吸收率、透射率);
·溫度;
已知對(duì)象的圖像測(cè)量;
·顏色測(cè)量、顏色統(tǒng)計(jì)和/或顏色直方·紋理和/或空間頻率測(cè)量;
·形狀測(cè)量;
·曲率、離心率;
·照度不變的圖像屬性(例如統(tǒng)計(jì));
·照度不變的圖像梯度屬性(例如統(tǒng)計(jì));
·與已知對(duì)象的圖像的整個(gè)區(qū)域或一大部分相對(duì)應(yīng)的特征(例如類(lèi)SIFT特征);
·已知對(duì)象的圖像內(nèi)的多個(gè)感興趣區(qū)域上的累計(jì)測(cè)量和/或統(tǒng)計(jì);
· SIFT特征或其他局部特征的累計(jì)測(cè)量和/或統(tǒng)計(jì)(例如,這些特征的位置、比例及定向中的一個(gè)或更多個(gè)的分布的直方圖或統(tǒng)計(jì));以及
·向量量化的SIFT特征描述符或其他局部特征描述符的頻率的直方圖。
以下參考圖5至8提供特定的測(cè)量示例。
圖5是根據(jù)一個(gè)示例的用于確定已知對(duì)象的分類(lèi)簽名的方法210的流程圖。方法 210使用從已知對(duì)象的圖像獲得的外觀特性。已知對(duì)象的圖像是由分割模塊130從一個(gè)場(chǎng)景的圖像分割而來(lái)的,從而使得背景或其他對(duì)象的表示不影響已知對(duì)象的分類(lèi)簽名(步驟 215)。換言之,場(chǎng)景的圖像被分割從而產(chǎn)生已知對(duì)象的一幅分離的圖像。步驟215是可選的。例如,已知對(duì)象可以占據(jù)圖像的一大部分,使得背景的效果是可以忽略不計(jì)的或者有待從圖像提取的特征可以不存在于背景中(例如,通過(guò)設(shè)計(jì)特征檢測(cè)過(guò)程或通過(guò)設(shè)計(jì)背景)。 可以使用各種技術(shù)來(lái)分割已知對(duì)象的圖像。例如,合適的分割技術(shù)包括但不限于
稀疏立體匹配;
基于來(lái)自多個(gè)照相機(jī)的圖像進(jìn)行分割;
3維結(jié)構(gòu)估計(jì);
基于當(dāng)對(duì)象移動(dòng)時(shí)所捕獲的已知對(duì)象的連續(xù)圖像進(jìn)行分割;
移動(dòng)/模糊點(diǎn)跟蹤;
密集立體匹配;
密集光流;
基于已知對(duì)象的視頻序列進(jìn)行分割;
移動(dòng)/模糊點(diǎn)跟蹤;
密集立體匹配;
密集光流;
背景減法;
已知對(duì)象上的允許對(duì)其進(jìn)行定位(但沒(méi)有必要識(shí)別)的特定標(biāo)記;以及
使用與前景中的已知對(duì)象區(qū)別的簡(jiǎn)化或已知背景。
一旦分割了已知對(duì)象的圖像,就在已知對(duì)象的分割后圖像中檢測(cè)幾何點(diǎn)特征(步驟 220)。為每個(gè)幾何點(diǎn)特征計(jì)算局部片描述符或特征向量(步驟225)。合適的局部片描述符的示例包括但不限于SIFT特征描述符、SURF描述符、GLOH特征描述符、DAISY特征描述符和對(duì)對(duì)象的局部外觀進(jìn)行編碼的其他特征描述符(例如,產(chǎn)生相似結(jié)果而不管如何捕獲圖像的描述符(例如,照度、比例、位置及定向的變化))。在一個(gè)優(yōu)選實(shí)施方案中,在方法 210之前,將局部片描述符定位在其中的特征描述符向量空間劃分為多個(gè)區(qū)域,并且為每個(gè)區(qū)域分配一個(gè)代表性描述符向量。在一個(gè)實(shí)施方案中,這些代表性描述符向量對(duì)應(yīng)于第一水平VQ碼本的第一水平VQ碼本條目,并且這些第一水平VQ碼本條目將該特征描述符向量空間量化。在計(jì)算了已知對(duì)象的局部片描述符之后,每個(gè)局部片描述符與這些代表性描述符向量進(jìn)行比較從而鑒別最近鄰代表性描述符向量(步驟230)。最近鄰代表性描述符向量鑒別該局部片描述符屬于哪一個(gè)區(qū)域。然后,通過(guò)為每個(gè)代表性描述符向量列表顯示其被鑒別為局部片描述符的最近鄰的次數(shù)從而創(chuàng)建一個(gè)直方圖(步驟235)。換言之,直方圖將屬于該特征描述符向量空間的每個(gè)區(qū)域的局部片描述符數(shù)量量化。直方圖用作已知對(duì)象的分類(lèi)簽名。
圖6是根據(jù)另一個(gè)示例的用于確定已知對(duì)象的分類(lèi)簽名的方法240的流程圖。方法240使用從已知對(duì)象的圖像獲得的外觀特性。已知對(duì)象的圖像是從一個(gè)場(chǎng)景的圖像分割而來(lái)的,使得背景或其他對(duì)象的表示不影響已知對(duì)象的分類(lèi)簽名(步驟245)。步驟245是可選的,如以上參考方法210的步驟215所描述的。以上參考方法210描述的分割技術(shù)中的一種或更多種可以用來(lái)分割已知對(duì)象的圖像。
接下來(lái),圖像標(biāo)準(zhǔn)化模塊135對(duì)已知對(duì)象的分割后圖像應(yīng)用幾何變換從而產(chǎn)生已知對(duì)象的標(biāo)準(zhǔn)化規(guī)范圖像(步驟250)。步驟250是可選的。例如,已知對(duì)象被成像的比例及定向可以被配置為使得分割后的圖像以所希望的比例和定向表示該已知對(duì)象,而無(wú)需應(yīng)用幾何變換??梢允褂貌煌募夹g(shù)來(lái)生成已知對(duì)象的標(biāo)準(zhǔn)化圖像。在一個(gè)實(shí)施方案中,標(biāo)準(zhǔn)化技術(shù)的希望結(jié)果是獲得已知對(duì)象的相同或近似相同的圖像表示,而不管已知對(duì)象被成像的初始比例和定向。以下將描述合適的標(biāo)準(zhǔn)化技術(shù)的各種示例。
在一種方法中,應(yīng)用一個(gè)標(biāo)準(zhǔn)化縮放過(guò)程,然后應(yīng)用一個(gè)標(biāo)準(zhǔn)化定向過(guò)程,從而獲 得已知對(duì)象的標(biāo)準(zhǔn)化圖像。該標(biāo)準(zhǔn)化縮放過(guò)程可以取決于已知對(duì)象的形狀而變化。例如, 對(duì)于具有矩形面的已知對(duì)象而言,可以在X和y方向上分開(kāi)縮放已知對(duì)象的圖像,使得所產(chǎn) 生的圖像具有預(yù)定的像素大小(例如,400x400像素)。
對(duì)于不具有矩形面的已知對(duì)象而言,可以估計(jì)圖像中對(duì)象的最大軸線和最小軸 線,其中最大軸線表示對(duì)象的最大范圍的方向并且最小軸線垂直于最大軸線。然后可以沿 著最大和最小軸線來(lái)縮放該圖像,使得所產(chǎn)生的圖像具有預(yù)定的像素大小。
在應(yīng)用了標(biāo)準(zhǔn)化縮放過(guò)程之后,可以通過(guò)測(cè)量在四個(gè)軸線方向上的邊緣梯度的強(qiáng) 度并且旋轉(zhuǎn)縮放后的圖像來(lái)調(diào)整縮放后的圖像的定向,使得正X方向具有最強(qiáng)的梯度。或 者,可以在沿縮放后圖像的平面的360°的規(guī)則間隔處對(duì)梯度進(jìn)行采樣,并且最強(qiáng)梯度的方 向變?yōu)檎齒軸線。例如,可以將梯度方向分到15個(gè)度增量?jī)?nèi),并且對(duì)于縮放后圖像的每個(gè) 小片(例如,其中將圖像再劃分為10x10格柵片),可以確定主梯度方向。與主梯度方向相對(duì) 應(yīng)的箱增大,并且在對(duì)每個(gè)格柵片應(yīng)用了該過(guò)程之后,具有最大計(jì)數(shù)的箱變?yōu)橹鞫ㄏ?。?后,可以旋轉(zhuǎn)縮放后的對(duì)象圖像,使得這個(gè)主定向與圖像的X軸線對(duì)齊,或者可以隱式地將 主定向考慮在內(nèi),而無(wú)需旋轉(zhuǎn)圖像。
在將已知對(duì)象的分割后圖像標(biāo)準(zhǔn)化之后,其整個(gè)標(biāo)準(zhǔn)化圖像或一大部分用被作從 其生成特征(例如,單個(gè)特征)的片區(qū)域(步驟255)。該特征可以是一個(gè)或更多個(gè)各種特征的 形式,例如但不限于SIFT特征、SURF、GLOH特征、DAISY特征和對(duì)對(duì)象的局部外觀進(jìn)行編碼 的其他特征(例如,產(chǎn)生相似結(jié)果而不管如何捕獲圖像的特征(例如,照度、比例、位置及定 向的變化))。當(dāng)整個(gè)已知對(duì)象由單個(gè)特征描述符表示時(shí),可能有益的是擴(kuò)展特征描述符從 而更詳細(xì)地并且以更多維度來(lái)表示已知對(duì)象。例如,雖然典型的SIFT描述符提取方法將一 個(gè)片分區(qū)為4x 4格柵從而生成具有128維的SIFT向量,但是方法240可以將該片區(qū)域分 區(qū)為更大的格柵(例如,16x16元素)從而生成具有更多維度(例如,2048個(gè)元素)的類(lèi)SIFT 向量。特征描述符被用作已知對(duì)象的分類(lèi)簽名。
圖7是根據(jù)另一個(gè)示例的用于確定已知對(duì)象的分類(lèi)簽名的方法260的流程圖。方 法260使用從已知對(duì)象的圖像獲得的外觀特性。已知對(duì)象的圖像是從一個(gè)場(chǎng)景的圖像分割 而來(lái)的,使得背景或其他對(duì)象的表示不影響已知對(duì)象的分類(lèi)簽名(步驟265)。步驟265是可 選的,如以上參考方法210的步驟215所描述的。以上參考方法210描述的分割技術(shù)中的 一種或更多種可以用來(lái)分割已知對(duì)象的圖像。
接下來(lái),對(duì)已知對(duì)象的分割后圖像應(yīng)用幾何變換從而產(chǎn)生已知對(duì)象的標(biāo)準(zhǔn)化規(guī)范 圖像(步驟270)。步驟270是可選的,如以上參考方法240的步驟250所描述的。以上參 考方法240描述的圖像標(biāo)準(zhǔn)化技術(shù)可以用來(lái)生成已知對(duì)象的標(biāo)準(zhǔn)化規(guī)范圖像。對(duì)標(biāo)準(zhǔn)化圖 像應(yīng)用預(yù)定的格柵(例如,10x10塊)從而將圖像劃分為多個(gè)格柵部分(步驟275)。然后,為 每個(gè)格柵部分生成一個(gè)特征(例如,單個(gè)特征)(步驟280)。這些格柵部分的特征可以是一 個(gè)或更多個(gè)各種特征的形式,例如但不限于SIFT特征、SURF、GLOH特征、DAISY特征和對(duì)對(duì) 象的局部外觀進(jìn)行編碼的其他特征(例如,產(chǎn)生相似結(jié)果而不管如何捕獲圖像的描述符(例 如,照度、比例、位置及定向的變化))。能夠以一個(gè)預(yù)定的比例與定向、以多個(gè)比例和/或 多個(gè)定向、或以將特征檢測(cè)器的響應(yīng)最大化(保持特征X和I坐標(biāo)固定)的比例及定向來(lái)計(jì) 算每個(gè)特征。然后對(duì)這些格柵部分的特征描述符集進(jìn)行組合從而形成已知對(duì)象的分類(lèi)簽名(步驟285)。可以用多種方式來(lái)組合特征描述符。在一個(gè)示例中,將這些特征描述符連結(jié)為一個(gè)長(zhǎng)向量。可以使用主成分分析(PCA)或某種其他的降維技術(shù)將該長(zhǎng)向量投影到一個(gè)更低維度的空間上。該P(yáng)CA技術(shù)對(duì)于本領(lǐng)域的普通技術(shù)人員而言是已知的,但是可以在 Matthew Turk 和 Alex Pentland 的“使用特征臉進(jìn)行表面識(shí)別(Facerecognition using eigenfaces),,, Proc.1EEE Conference on ComputerVision and Pattern Recognition 第 586至591頁(yè)(1991)中找到將PCA應(yīng)用到圖像分析中的一個(gè)示例。
另一種組合格柵部分的特征的方法是使用在方法210中描述的直方圖方法的多個(gè)方面。具體而言,根據(jù)特征空間的向量量化分區(qū)來(lái)將這些格柵部分的特征量化,并且將表示來(lái)自格柵部分的多少個(gè)量化特征屬于該特征空間的每個(gè)分區(qū)的直方圖用作分類(lèi)簽名。在一個(gè)示例中,可以將這些特征的特征空間再劃分為400個(gè)區(qū)域,因此要用作已知對(duì)象的分類(lèi)簽名的直方圖會(huì)具有400個(gè)條目。在該方法以及在其中描述直方圖或裝箱過(guò)程的本公開(kāi)內(nèi)容的其他部分中,可以應(yīng)用軟裝箱方法。在軟裝箱中,未將一個(gè)樣本(例如,特征描述符) 的全部投票完全分配給單個(gè)箱,而是成比例地分布在附近箱的子集中。在該具體的示例中, 可以根據(jù)特征描述符與每個(gè)箱(在特征描述符空間中)的中心之間的相對(duì)距離來(lái)確定比例, 其確定比例的方式為使得總和等于I。
圖8是根據(jù)另一個(gè)示例的用于確定已知對(duì)象的分類(lèi)簽名的方法290的流程圖。方法290使用從已知對(duì)象的圖像獲得的外觀特性。已知對(duì)象的圖像是從一個(gè)場(chǎng)景的圖像分割而來(lái)的,使得背景或其他對(duì)象的表示不影響已知對(duì)象的分類(lèi)簽名(步驟295)。步驟295是可選的,如以上參考方法210的步驟215所描述的。以上參考方法210描述的分割技術(shù)中的一種或更多種可以用來(lái)分割已知對(duì)象的圖像。
接下來(lái),對(duì)已知對(duì)象的分割后圖像應(yīng)用幾何變換從而產(chǎn)生已知對(duì)象的標(biāo)準(zhǔn)化的規(guī)范圖像(步驟300)。步驟300是可選的,如以上參考方法240的步驟250所描述的。以上參考方法260描述的圖像標(biāo)準(zhǔn)化技術(shù)可以用來(lái)生成已知對(duì)象的標(biāo)準(zhǔn)化規(guī)范圖像。從其整個(gè)標(biāo)準(zhǔn)化圖像或一大部分得到一個(gè)向量(步驟305)。例如,連結(jié)標(biāo)準(zhǔn)化圖像的像素值從而形成該向量。然后,計(jì)算該向量的子空間表示(例如,將該向量投影到更低的 維度上)并且將其用作已知對(duì)象的分類(lèi)簽名(步驟310)。例如,可以實(shí)施PCA從而提供子空間表示。在一個(gè)示例中,可以通過(guò)以下方式來(lái)為PCA表示創(chuàng)建基
·使用在數(shù)據(jù)庫(kù)140中表示的所有已知對(duì)象的標(biāo)準(zhǔn)化圖像來(lái)得到已知對(duì)象的向
將這些向量標(biāo)準(zhǔn)化(移除均值、以及對(duì)所有向量應(yīng)用恒定縮放因子或者將每個(gè)向量標(biāo)準(zhǔn)化為單位范數(shù));以及
·計(jì)算這些向量的奇異值分解(SVD),并且將N個(gè)右上向量用作基。
本領(lǐng)域的普通技術(shù)人員理解PCA和SVD的進(jìn)一步細(xì)節(jié)。對(duì)于有待識(shí)別的任何新的已知對(duì)象或目標(biāo)對(duì)象,將該新對(duì)象的標(biāo)準(zhǔn)化向量投影到PCA基上從而生成可以用作該新已知對(duì)象的分類(lèi)簽名的N維向量。
在另一個(gè)確定已知對(duì)象的分類(lèi)簽名的示例中,已知對(duì)象的一個(gè)或更多個(gè)物理屬性測(cè)量值被用于分類(lèi)簽名。為了獲得這些物理屬性測(cè)量值,系統(tǒng)100可以包括一個(gè)或更多個(gè)可選傳感器315,從而測(cè)量例如已知對(duì)象的重量、大小、體積、形狀、溫度和/或電磁特征?;蛘撸到y(tǒng)100可以與遠(yuǎn)離系統(tǒng)100的傳感器通信,從而獲得這些物理屬性測(cè)量值。傳感器315產(chǎn)生傳感器數(shù)據(jù),該傳感器數(shù)據(jù)被傳遞到分類(lèi)模塊120并由其使用從而得到分類(lèi)簽名。 如果基于圖像的深度或3維結(jié)構(gòu)估計(jì)被用來(lái)從背景分割對(duì)象,如在方法210、240、260和290 的步驟215、245、265和295中描述的,則大小(和/或體積)信息是可獲得的(以已度量校準(zhǔn) 的單位或任意單位,這取決于捕獲已知對(duì)象的圖像的照相機(jī)系統(tǒng)是否是度量校準(zhǔn)的),用于 與基于外觀的信息組合,而無(wú)需專(zhuān)用的大小或體積傳感器。
傳感器數(shù)據(jù)可以與表示已知對(duì)象的外觀特性的基于外觀的信息組合從而形成分 類(lèi)簽名。在一個(gè)示例中,在傳感器數(shù)據(jù)中表示的物理屬性測(cè)量值與使用參考圖5至8描述的 方法210、240、260和290中一個(gè)或更多個(gè)獲得的基于外觀的信息連結(jié),從而形成一個(gè)向量。 可以縮放或加權(quán)該向量的分量,從而控制該向量的每個(gè)子部分的相對(duì)效果或重要性。以此 方式,可以在一個(gè)齊次步驟中將數(shù)據(jù)庫(kù)140分為多個(gè)小型數(shù)據(jù)庫(kù),這同時(shí)考慮了物理屬性 測(cè)量值以及基于外觀的信息。
不是將傳感器數(shù)據(jù)與基于外觀的信息進(jìn)行組合從而形成已知對(duì)象的分類(lèi)簽名,而 是基于外觀的信息可以被用作用來(lái)初始地將數(shù)據(jù)庫(kù)140分為多個(gè)小型數(shù)據(jù)庫(kù)的分類(lèi)簽名 (以下將參見(jiàn)圖4詳細(xì)描述),并且傳感器數(shù)據(jù)可以被用來(lái)進(jìn)一步劃分這些小型數(shù)據(jù)庫(kù)?;?者,傳感器數(shù)據(jù)可以用來(lái)形成用于初始地將數(shù)據(jù)庫(kù)140劃分為多個(gè)小型數(shù)據(jù)庫(kù)的分類(lèi)簽 名,然后使用基于外觀的信息來(lái)進(jìn)一步劃分這些小型數(shù)據(jù)庫(kù)。
參見(jiàn)圖4,一旦生成這些已知對(duì)象的分類(lèi)簽名,可以將這些分類(lèi)簽名分組到多個(gè)分 類(lèi)簽名組中(步驟320)。分類(lèi)簽名組是更通用的分類(lèi)模型組的一個(gè)示例。圖9是表示已知 對(duì)象的分類(lèi)簽名定位在其中的簡(jiǎn)化的2維分類(lèi)簽名空間322的任意圖。點(diǎn)325、330、335、 340、345、350、355、360以及365表示9個(gè)已知對(duì)象的分類(lèi)簽名在分類(lèi)簽名空間322中的位 置。點(diǎn)325、330、335、340、345、350、355、360以及365被分組到具有由虛線表示的邊界的三 個(gè)不同分類(lèi)簽名組370、375和380中。具體而言,由點(diǎn)325、330和335表示的分類(lèi)簽名是 分類(lèi)簽名組370的成員;由點(diǎn)340和345表示的分類(lèi)簽名是分類(lèi)簽名組375的成員;并且由 點(diǎn)350、355、360以及365表示的分類(lèi)簽名是分類(lèi)簽名組380的成員。本領(lǐng)域的技術(shù)人員將 認(rèn)識(shí)到圖9是一個(gè)簡(jiǎn)化的示例。通常情況下,系統(tǒng)100可以被配置為識(shí)別比9個(gè)已知對(duì)象 顯著更多的對(duì)象,特征空間具有兩個(gè)以上的維度并且分類(lèi)簽名空間322可以被劃分為三個(gè) 以上的組。
可以使用多種不同的技術(shù)來(lái)進(jìn)行分組。在一個(gè)示例中,可以使用聚類(lèi)算法將分類(lèi) 簽名聚類(lèi)到多個(gè)分類(lèi)簽名組中??梢詫?shí)施任何已知的聚類(lèi)算法。合適的聚類(lèi)算法包括VQ 算法以及k均值算法。另一個(gè)算法是基于分類(lèi)簽名在分類(lèi)簽名空間中的分布的混合高斯模 型的期望值最大算法。本領(lǐng)域的技術(shù)人員理解聚類(lèi)算法的細(xì)節(jié)。
在一個(gè)示例中,可以在聚類(lèi)分類(lèi)簽名之前選擇分類(lèi)簽名組的數(shù)目。在另一個(gè)示例 中,聚類(lèi)算法在聚類(lèi)過(guò)程中確定要形成多少分類(lèi)簽名組。步驟320還可以包括軟聚類(lèi)技術(shù), 其中在距相鄰分類(lèi)簽名組的邊界的所選距離內(nèi)的分類(lèi)簽名是那些相鄰的分類(lèi)簽名組的成 員(即,分類(lèi)簽名與一個(gè)以上的分類(lèi)簽名組相關(guān)聯(lián))。例如,如果一個(gè)分類(lèi)簽名距一個(gè)相鄰 組的距離小于距其自身的組的中心的距離的兩倍,則可以將該分類(lèi)簽名也包括在該相鄰組 中。
如圖4所示,一旦形成多個(gè)分類(lèi)簽名組,這些分類(lèi)簽名組可以被用來(lái)鑒別形成小 型數(shù)據(jù)庫(kù)的數(shù)據(jù)庫(kù)140的對(duì)應(yīng)部分(步驟400)。在圖9的過(guò)分簡(jiǎn)化的示例中,數(shù)據(jù)庫(kù)140的三個(gè)部分被鑒別為對(duì)應(yīng)于分類(lèi)簽名組370、375和380。換言之,從數(shù)據(jù)庫(kù)140形成三個(gè)小型數(shù)據(jù)庫(kù)。對(duì)應(yīng)于分類(lèi)簽名組370的這些小型數(shù)據(jù)庫(kù)中的第一個(gè)包含其分類(lèi)簽名由點(diǎn)325、 330和335表示的已知對(duì)象的對(duì)象模型;對(duì)應(yīng)于分類(lèi)簽名組375的這些小型數(shù)據(jù)庫(kù)中的第二個(gè)包含其分類(lèi)簽名由點(diǎn)340和345表示的已知對(duì)象的對(duì)象模型;并且對(duì)應(yīng)于分類(lèi)簽名組 380的這些小型數(shù)據(jù)庫(kù)中的第三個(gè)包含其分類(lèi)簽名由點(diǎn)350、355、360以及365表示的已知對(duì)象的對(duì)象模型。在一個(gè)示例中,鑒別數(shù)據(jù)庫(kù)的各部分(即,形成這些小型庫(kù))對(duì)應(yīng)于為已知對(duì)象模型生成小型DB標(biāo)識(shí)符(圖3中所示)。
為每個(gè)分類(lèi)簽名組或者換言之為每個(gè)數(shù)據(jù)庫(kù)部分(S卩,小型數(shù)據(jù)庫(kù))計(jì)算一個(gè)組簽名145(步驟405)。無(wú)需在鑒別這些數(shù)據(jù)庫(kù)部分之后計(jì)算組簽名145,而是可以在鑒別這些數(shù)據(jù)庫(kù)部分之前或期間計(jì)算組簽名145。組簽名145是更通用的代表性分類(lèi)模型的一個(gè)示例。組簽名145是從這些分類(lèi)簽名組中的分類(lèi)簽名得到的。在圖9的過(guò)分簡(jiǎn)化的示例中,分類(lèi)簽名組370、375和380的組簽名145分別由星410、415和420表示。由星410表示的組簽名145是從由點(diǎn)325、330或335表示的分類(lèi)簽名得到的;由星415表示的組簽名145是從由點(diǎn)340和345表示的分類(lèi)簽名得到的;并且由星420表示的組簽名145是從由點(diǎn)350、 355、360以及365表示的分類(lèi)簽名得到的。在一個(gè)示例中,組簽名145對(duì)應(yīng)于這些分類(lèi)簽名的均值(例如,由星410表示的組簽名145是由點(diǎn)325、330或335表示的分類(lèi)簽名的均值)。 在另一個(gè)示例中,可以將組簽名145計(jì)算為與所計(jì)算的均值簽名最接近的已知對(duì)象的實(shí)際分類(lèi)簽名。在另一個(gè)示例中,可以通過(guò)列出在將所有已知對(duì)象包含在組中的凸殼的邊界上的組的已知對(duì)象的所有分類(lèi)簽名(即,定義該凸殼的分類(lèi)簽名)來(lái)表示分類(lèi)簽名145。在該示例中,可以將新的目標(biāo)對(duì)象確定為屬于一特定組,其分類(lèi)簽名在該組的凸殼內(nèi)。組簽名145 可以用作在目標(biāo)對(duì)象110的識(shí)別過(guò)程中檢索的碼本142的碼本條目。
II1.目標(biāo)對(duì)象識(shí)別
圖10是根據(jù)一個(gè)實(shí)施方案的用于利用已經(jīng)如上所述被劃分的數(shù)據(jù)庫(kù)140來(lái)識(shí)別目標(biāo)對(duì)象110的方法500的流 程圖。處理器115接收對(duì)應(yīng)于目標(biāo)對(duì)象110的信息(步驟 505)。該信息包括表示目標(biāo)對(duì)象110在其中被表示的圖像的圖像數(shù)據(jù)。該信息還可以包括傳感器數(shù)據(jù)(例如,重量數(shù)據(jù)、尺寸數(shù)據(jù)、溫度數(shù)據(jù)、電磁特征數(shù)據(jù))。在某些情況下,其他對(duì)象可以表示在目標(biāo)對(duì)象110的圖像中,并且人們可能希望識(shí)別這些其他對(duì)象。在這種情況下,可以可選地使用以下方法中的一種或更多種通過(guò)分割模塊130將圖像分割為多個(gè)分離的對(duì)象(步驟510)
·實(shí)現(xiàn)范圍/深度傳感器并且檢測(cè)范圍/深度傳感器數(shù)據(jù)以及分段的連續(xù)段中的不連續(xù)性;
·使用具有多個(gè)視點(diǎn)的多個(gè)照相機(jī),并且挑選在相關(guān)聯(lián)的范圍/深度傳感器數(shù)據(jù)中不具有不連續(xù)性的一個(gè)照相機(jī);以及
·基于多個(gè)觀察值來(lái)構(gòu)建對(duì)象的3維體積模型(使用單個(gè)照相機(jī)或多個(gè)照相機(jī)以及多個(gè)基于視野或運(yùn)動(dòng)的結(jié)構(gòu)估計(jì),使用一個(gè)或更多個(gè)范圍傳感器、或者使用照相機(jī)與范圍傳感器的組合),然后對(duì)該3維體積模型進(jìn)行分段連續(xù)分割。
還可以從圖像的背景中分割目標(biāo)對(duì)象110的圖像并且使用以上描述的標(biāo)準(zhǔn)化技術(shù)中的一種或更多種將其標(biāo)準(zhǔn)化。根據(jù)由處理器115接收的目標(biāo)對(duì)象信息,分類(lèi)模塊120通過(guò)對(duì)在目標(biāo)對(duì)象信息中表示的目標(biāo)對(duì)象的一個(gè)或更多個(gè)方面進(jìn)行測(cè)量來(lái)確定目標(biāo)對(duì)象110的分類(lèi)簽名(步驟515)??梢杂脕?lái)確定已知對(duì)象的分類(lèi)簽名的測(cè)量值及上述的相對(duì)應(yīng)方法 (例如,對(duì)應(yīng)于圖5至8的方法)中任意一者還可以被用來(lái)確定目標(biāo)對(duì)象110的分類(lèi)簽名。優(yōu) 選地,用來(lái)獲得目標(biāo)對(duì)象110的分類(lèi)簽名的這個(gè)(或這些)測(cè)量值與用來(lái)獲得已知對(duì)象的分 類(lèi)簽名的這個(gè)(或這些)測(cè)量值是相同的。在步驟515之前、之后或同時(shí),識(shí)別模塊125使用 表示目標(biāo)對(duì)象110的圖像的圖像數(shù)據(jù)來(lái)生成目標(biāo)對(duì)象110的識(shí)別模型(步驟520)。在一個(gè) 示例中,識(shí)別模型是一個(gè)特征模型,并且以上描述了可以為目標(biāo)對(duì)象110的特征模型生成 的不同類(lèi)型的特征。
在確定了目標(biāo)對(duì)象110的分類(lèi)簽名之后,分類(lèi)模塊120將目標(biāo)對(duì)象110的分類(lèi)簽 名與數(shù)據(jù)庫(kù)140的小型數(shù)據(jù)庫(kù)的組簽名145進(jìn)行比較(步驟525)。進(jìn)行該比較從而選擇一 個(gè)小型數(shù)據(jù)庫(kù)用于檢索。在一個(gè)示例中,該比較包括確定目標(biāo)對(duì)象110的分類(lèi)簽名與每個(gè) 組簽名145之間的歐幾里德距離。如果分類(lèi)簽名的分量和組簽名145的分量是從目標(biāo)對(duì)象 110和已知對(duì)象的不相干屬性得到的,則可以使用加權(quán)距離來(lái)強(qiáng)調(diào)或去強(qiáng)調(diào)這些簽名的具 體分量。選擇用于檢索的小型數(shù)據(jù)庫(kù)可以是具有產(chǎn)生在比較中的最短歐幾里德距離的組簽 名的小型數(shù)據(jù)庫(kù)。在替代實(shí)施方案中,不是找到單個(gè)小型數(shù)據(jù)庫(kù),而是選擇一個(gè)小型數(shù)據(jù)庫(kù) 子集。一種選擇小型數(shù)據(jù)庫(kù)子集的方式是獲得來(lái)自步驟525的靠前的結(jié)果。另一種方式是 具有預(yù)定義的混淆表(或相似性表),給定任意一個(gè)所選的小型數(shù)據(jù)庫(kù),其可以提供具有相 似的已知對(duì)象的小型數(shù)據(jù)庫(kù)的列表。
在選擇(多個(gè))個(gè)小型數(shù)據(jù)庫(kù)之后,識(shí)別模塊125檢索這個(gè)(或這些)小型數(shù)據(jù)庫(kù)從 而找到與目標(biāo)對(duì)象110的識(shí)別模型相匹配的已知對(duì)象的識(shí)別模型(步驟530)。匹配表示目 標(biāo)對(duì)象110對(duì)應(yīng)于具有匹配特征模型的已知對(duì)象。步驟530還被稱(chēng)為精細(xì)識(shí)別。一旦已經(jīng) 在步驟525中將檢索空間的大小減小到單個(gè)數(shù)據(jù)庫(kù)或數(shù)據(jù)庫(kù)的小子集,則可以使用任意可 行的、可靠的、有效的對(duì)象識(shí)別方法。例如,某些識(shí)別方法可能在檢索相對(duì)大型數(shù)據(jù)庫(kù)時(shí)是 不可行的,但是可以在步驟530中實(shí)施,因?yàn)橐呀?jīng)減小了檢索空間。在此描述的許多的已知 對(duì)象識(shí)別方法(如在美國(guó)專(zhuān)利號(hào)6,711,293中描述的針對(duì)SIFT的方法)使用特征模型,但是 還可以使用采用不同于特征模型的模型(例如,基于外觀的模型、基于形狀的模型、基于顏 色的模型、基于3維結(jié)構(gòu)的模型)的其他類(lèi)型的對(duì)象識(shí)別方法。因此,在此描述的識(shí)別模型 可以對(duì)應(yīng)于能夠在已經(jīng)減小檢索空間之后找到匹配的任意類(lèi)型的模型。
在替代實(shí)施方案中,不是將目標(biāo)對(duì)象110的分類(lèi)簽名與組簽名145進(jìn)行比較從而 選擇一個(gè)或更多個(gè)小型數(shù)據(jù)庫(kù),而是將目標(biāo)對(duì)象110的分類(lèi)簽名與已知對(duì)象的分類(lèi)簽名進(jìn) 行比較,以選擇最相似于目標(biāo)對(duì)象110的已知對(duì)象。然后,可以創(chuàng)建包含最相似已知對(duì)象 的識(shí)別模型的一個(gè)小型數(shù)據(jù)庫(kù),并且使用精細(xì)識(shí)別來(lái)檢索該小型數(shù)據(jù)庫(kù)從而找到目標(biāo)對(duì)象 110的匹配。
在另一個(gè)替代實(shí)施方案中,來(lái)自多個(gè)圖像捕獲裝置的信息可以被用來(lái)識(shí)別目標(biāo)對(duì) 象110。例如,為了使得目標(biāo)對(duì)象110的分類(lèi)簽名的測(cè)量值更具有區(qū)別性,可以縫合/追加 來(lái)自多個(gè)圖像捕獲裝置的不同視野的區(qū)域從而覆蓋目標(biāo)對(duì)象110的更多個(gè)側(cè)面。在另一個(gè) 示例中,來(lái)自多個(gè)圖像捕獲裝置的圖像可以單獨(dú)地用來(lái)多次嘗試識(shí)別目標(biāo)對(duì)象110。在另一 個(gè)示例中,來(lái)自多個(gè)圖像捕獲裝置的每幅圖像可以用來(lái)進(jìn)行單獨(dú)的識(shí)別嘗試,其中允許來(lái) 自每次識(shí)別的多個(gè)可能的答案。然后,組合多個(gè)可能的答案(通過(guò)投票、邏輯AND運(yùn)算或另 一種統(tǒng)計(jì)或概率方法)從而確定最可能的匹配。
以下將參見(jiàn)圖11和12來(lái)描述識(shí)別目標(biāo)對(duì)象110的另一個(gè)替代實(shí)施方案。在該替 代實(shí)施方案中,目標(biāo)對(duì)象110的標(biāo)準(zhǔn)化圖像以及這些已知對(duì)象的標(biāo)準(zhǔn)化圖像被用來(lái)執(zhí)行識(shí) 別。
數(shù)據(jù)庫(kù)140由一組箱表示,這些箱覆蓋找到已知對(duì)象的標(biāo)準(zhǔn)化圖像中的特征時(shí)的 X和y位置、定向及比例。圖11是填充數(shù)據(jù)庫(kù)140的一組箱的方法600的流程圖。首先,為 數(shù)據(jù)庫(kù)140創(chuàng)建多個(gè)箱,其中每個(gè)箱對(duì)應(yīng)于一個(gè)標(biāo)準(zhǔn)化圖像的特征的所選X位置、y位置、 定向及比例(步驟602)。將這些特征的X位置、y位置、定向及比例量化或分區(qū)從而創(chuàng)建箱。 對(duì)于每個(gè)有待識(shí)別的已知對(duì)象,從該已知對(duì)象的圖像中提取這些特征(步驟605)。對(duì)于每個(gè) 特征,確定其在標(biāo)準(zhǔn)化圖像中的比例、定向及X和y位置(步驟610)。每個(gè)特征存儲(chǔ)在表示 其比例、定向及X和y位置的數(shù)據(jù)庫(kù)140的一個(gè)箱中(步驟615)。存儲(chǔ)在箱中的這些特征可 以包括各種類(lèi)型的信息,這些信息包括特征的特征描述符、鑒別其從中導(dǎo)出的已知對(duì)象的 標(biāo)識(shí)符以及特征的實(shí)際比例、定向及X和I位置。
在一個(gè)示例中,比例可以被量化為具有1. 5倍縮放放大率的幾何間距的7個(gè) 比例部分;定向可以被量化為具有20度的寬度的18個(gè)部分,并且X和y位置各自可以 被量化為具有標(biāo)準(zhǔn)化圖像的寬度以及高度的1/20的多個(gè)部分。這個(gè)示例將給出總共 7*18*20*20=50,400個(gè)箱。因此,每個(gè)箱平均存儲(chǔ)數(shù)據(jù)庫(kù)140的所有特征的近似1/50,000。 比例、定向及X和y位置可以被量化為不同于以上展示的不同數(shù)目的部分(例如,更多數(shù)目、 更少數(shù)目)從而產(chǎn)生不同總數(shù)的箱。而且,為了抵消分箱產(chǎn)生的離散化效應(yīng),可以將一個(gè)特 征分配給多于一個(gè)箱(例如,其中通過(guò)一個(gè)步驟將箱參數(shù)(即,X位置、y位置、定向及比例) 中的一個(gè)或更多個(gè)的值分離的相鄰箱)。在這種軟分箱方法中,如果一個(gè)特征的箱參數(shù)將其 放置在相鄰箱之間的邊界附近(在X位置、y位置、定向及比例空間中),則該特征可以在多 于一個(gè)箱中,從而使得不會(huì)在檢索目標(biāo)對(duì)象的過(guò)程中錯(cuò)過(guò)該特征。在一個(gè)示例中,由于圖像 中的噪音和其他差異,特征的X位置、y位置、定向及比例可以在所觀察到的圖像之間不同, 并且軟分箱可以補(bǔ)償這些差異。
每個(gè)箱可以用來(lái)表示一個(gè)小型數(shù)據(jù)庫(kù),并且針對(duì)目標(biāo)對(duì)象110的特征的最近鄰檢 索可以根據(jù)在圖12的流程圖中展示的方法620來(lái)進(jìn)行。獲取目標(biāo)對(duì)象110的圖像并且將 其傳遞到處理器115 (步驟625)。分割模塊130使用上述分割技術(shù)中的一種或更多種從圖 像的剩余部分分割目標(biāo)對(duì)象110的圖像(步驟630)。步驟630是可選的,如以上參考方法 210的步驟215所描述的。圖像標(biāo)準(zhǔn)化模塊135使用上述標(biāo)準(zhǔn)化技術(shù)之一將目標(biāo)對(duì)象的分 割后圖像標(biāo)準(zhǔn)化(步驟635)。步驟630是可選的,如以上參考方法240的步驟250所描述 的。識(shí)別模塊125從該標(biāo)準(zhǔn)化圖像中提取目標(biāo)對(duì)象110的特征(步驟640)??梢蕴崛“?SIFT特征、SURF、GLOH特征和DAISY特征的各種類(lèi)型的特征。
識(shí)別模塊125確定每個(gè)特征的比例、定向以及X和y位置,并且基于其比例、定向 以及X和y位置為每個(gè)特征鑒別相關(guān)聯(lián)的箱(步驟645)。如上所示,可以將比例空間量化為 具有1. 5倍縮放放大率的幾何間距的7個(gè)比例部分;定向空間可以被量化為具有20度的寬 度的18個(gè)部分,并且X和y位置空間可以被量化為具有標(biāo)準(zhǔn)化圖像的寬度和高度的1/20 的多個(gè)箱,這給出了總共7*18*20*20=50,400個(gè)箱。
對(duì)于目標(biāo)對(duì)象110的每個(gè)特征,檢索為該對(duì)象鑒別的箱從而找到最近鄰(步驟 650)。然后,對(duì)應(yīng)于所鑒別的最近鄰的每個(gè)已知對(duì)象接收一個(gè)投票(步驟652)。因?yàn)槊總€(gè)箱包含來(lái)自整個(gè)數(shù)據(jù)庫(kù)140的特征總數(shù)(例如,在上述示例中是大約50,000個(gè))的一小部分, 所以可以可靠地完成最近鄰匹配,并且當(dāng)數(shù)據(jù)庫(kù)140包含的已知對(duì)象模型是如果未將已知 對(duì)象特征分離到箱中時(shí)的可能已知對(duì)象模型的50,000倍時(shí),整個(gè)方法620可以導(dǎo)致可靠的 識(shí)別??赡苡幸娴氖菣z索多于一個(gè)最近鄰并為其投票,因?yàn)槎鄠€(gè)不同已知對(duì)象可以包含相 同的特征(例如,由一個(gè)公司產(chǎn)生的并且包括相同標(biāo)志的多個(gè)不同已知對(duì)象)。在一個(gè)示例 中,為在距最近鄰的選定比率距離內(nèi)的所有最近鄰?fù)镀薄T撍x比率距離可以由用戶確定 從而為具體的應(yīng)用提供所希望的結(jié)果。在一個(gè)示例中,該所選比率距離可以是最近鄰的距 尚的因子1. 5倍。
在找到目標(biāo)對(duì)象的特征的最近鄰后,為已知對(duì)象的投票數(shù)制表從而鑒別具有最多 投票數(shù)的已知對(duì)象(步驟655)。具有最多投票數(shù)的已知對(duì)象很有可能對(duì)應(yīng)于目標(biāo)對(duì)象110。 可以使用可選的驗(yàn)證步驟660來(lái)測(cè)量識(shí)別的置信度(例如,進(jìn)行標(biāo)準(zhǔn)化圖像關(guān)聯(lián)、基于邊緣 的圖像關(guān)聯(lián)測(cè)試中的一者或多者,并且計(jì)算將目標(biāo)對(duì)象的特征映射到匹配的已知對(duì)象的對(duì) 應(yīng)特征上的幾何變換)?;蛘撸绻嬖诰哂酗@著投票數(shù)的多于一個(gè)已知對(duì)象,則可以基于 驗(yàn)證步驟660選擇正確的已知對(duì)象。
作為步驟650的替代方案,為了減少整個(gè)數(shù)據(jù)庫(kù)140所需的存儲(chǔ)空間量,每個(gè)箱包 括一指示,即哪些已知對(duì)象具有屬于該箱的特征,而實(shí)際上不將已知對(duì)象的特征或特征描 述符存儲(chǔ)到箱中。而且,不是進(jìn)行已知對(duì)象的特征的最近鄰檢索,而是步驟650會(huì)包括為具 有屬于由目標(biāo)對(duì)象110的特征標(biāo)識(shí)的箱的特征的所有已知對(duì)象投票。
作為步驟650的另一個(gè)替代方案,可以通過(guò)為對(duì)象的特征使用更低維度的較粗略 特征描述符來(lái)減少數(shù)據(jù)庫(kù)140所需的存儲(chǔ)空間量。例如,不是SIFT特征的典型的128維(表 示為存儲(chǔ)器的128個(gè)字節(jié))特征向量,可以生成具有例如僅5個(gè)或10個(gè)維度的更粗略的特 征描述符??梢酝ㄟ^(guò)各種的方法來(lái)生成該更粗略的特征描述符,如SIFT特征的PCA分解、 或其中心在特征點(diǎn)位置附近的一個(gè)小圖像片的照度、比例及定向不變屬性的整個(gè)分離測(cè)量 (如SIFT、GLOH、DAISY、SURF以及其他特征方法所做的)。
在方法620的某個(gè)變體中,該方法可以產(chǎn)生單個(gè)的匹配結(jié)果,或者候選對(duì)象匹配 的一個(gè)非常小的子集(例如,少于10個(gè))。在這種情況下,可選的驗(yàn)證步驟660可能足以識(shí) 別具有更高置信度水平的目標(biāo)對(duì)象110。
在方法620的另一變體中,該方法可以產(chǎn)生更多數(shù)目的可能候選匹配(例如,500 個(gè)匹配)。在這種情況中,可以將候選已知對(duì)象集形成為一個(gè)小型數(shù)據(jù)庫(kù),用于后續(xù)的精細(xì) 識(shí)別過(guò)程,如在方法500的步驟530中描述的一個(gè)或更多個(gè)過(guò)程。
以下將描述識(shí)別目標(biāo)對(duì)象110的另一個(gè)替代實(shí)施方案??梢栽诓粡钠鋵?duì)應(yīng)的圖像 分割目標(biāo)對(duì)象110和已知對(duì)象的表示的情況下實(shí)施該替代實(shí)施方案。在該實(shí)施方案中,使 用數(shù)據(jù)庫(kù)140中已知對(duì)象的所有識(shí)別模型的特征的一個(gè)子集來(lái)從數(shù)據(jù)庫(kù)140創(chuàng)建一個(gè)粗?jǐn)?shù) 據(jù)庫(kù)。可以結(jié)合粗?jǐn)?shù)據(jù)庫(kù)使用精細(xì)識(shí)別過(guò)程(如在方法500的步驟530中描述的一個(gè)或更 多個(gè)過(guò)程)來(lái)選擇識(shí)別模型子集以便用于進(jìn)一步的分析或者立刻識(shí)別目標(biāo)對(duì)象110。在一 個(gè)示例中,如果粗?jǐn)?shù)據(jù)庫(kù)平均使用識(shí)別模型的特征的1/50,則可以在是其他可能情況的50 倍的數(shù)據(jù)庫(kù)上進(jìn)行識(shí)別。
可以通過(guò)以不同方式選擇特征子集來(lái)創(chuàng)建該粗?jǐn)?shù)據(jù)庫(kù),比如(I)選擇每個(gè)已知對(duì) 象的識(shí)別模型的最魯棒或者最具代表性的特征以及(2)選擇對(duì)于已知對(duì)象的多個(gè)識(shí)別模型而言相同的特征。
可以根據(jù)在圖13的流程圖中展示的方法665來(lái)選擇最魯棒的或者最具代表性的特征。對(duì)于每個(gè)已知對(duì)象,捕獲該已知對(duì)象的一幅原始圖像,并且從該原始圖像中提取特征 (步驟670)。從不同的視點(diǎn)獲取已知對(duì)象的多個(gè)樣本圖像(具有變化的比例、面內(nèi)或面外定向及照度),或者可以通過(guò)對(duì)已知對(duì)象的原始圖像應(yīng)用各種幾何變換來(lái)合成地生成已知對(duì)象的不同視點(diǎn)從而獲取樣本圖像(步驟675)。
對(duì)于已知對(duì)象的每個(gè)樣本圖像,提取特征并且在樣本圖像和原始圖像之間進(jìn)行精細(xì)識(shí)別(步驟680)。為從原始圖像提取的每個(gè)特征建立投票計(jì)數(shù),該計(jì)數(shù)表示該特征是識(shí)別匹配的一部分的樣本圖像數(shù)目(步驟685)。
一旦已經(jīng)匹配了已知對(duì)象所有樣本圖像并且已經(jīng)記錄了所有匹配的特征投票,則選擇具有最高投票數(shù)的原始圖像的靠前特征,用在粗?jǐn)?shù)據(jù)庫(kù)中(步驟687)。例如,可以選擇已知對(duì)象的前2%的特征。
上述系統(tǒng)及方法可以用在各種不同的應(yīng)用中。一種商業(yè)應(yīng)用是用于零售商品結(jié)賬的隧道系統(tǒng)。在于2005年2月28日授權(quán)的名稱(chēng)為“用于商品自動(dòng)結(jié)賬的系統(tǒng)及方法 (System and Method for MerchandiseAutomatic Checkout)” 的共同擁有的美國(guó)專(zhuān)利號(hào) 7, 337, 960中描述了隧道系統(tǒng)的一個(gè)示例,該專(zhuān)利的內(nèi)容通過(guò)引用結(jié)合在此。在這種系統(tǒng)中,機(jī)動(dòng)帶將待購(gòu)買(mǎi)的對(duì)象(例如,物件)傳送到殼體(隧道)內(nèi)并從其傳送出。在隧道內(nèi)存在嘗試用其進(jìn)行對(duì)象識(shí)別的各種傳感器,從而使得可以適當(dāng)?shù)貙?duì)顧客收費(fèi)。
所使用的傳感器可以包括
·針對(duì)對(duì)象的不同側(cè)面的條形碼讀取器(基于激光的、或基于圖像的);
.RFID 傳感器;
重量傳感器;
用來(lái)捕獲對(duì)象的所有側(cè)面的圖像的多個(gè)照相機(jī)(2維成像器、以及I維“推掃”成像器或者使用對(duì)對(duì)象進(jìn)行掃描的帶的運(yùn)動(dòng)的行掃描成像器);以及
·能夠生成與一個(gè)或更多個(gè)照相機(jī)/成像器對(duì)齊的深度圖的范圍傳感器。
盡管條形碼讀取器是高度可靠的,但是由于對(duì)象在帶上的放置位置不正確或者自我遮擋或者被其他對(duì)象遮擋,則可能有很多對(duì)象不能被條形碼讀取器鑒別。對(duì)于這些情況, 可能有必要的是嘗試基于其視覺(jué)外觀來(lái)識(shí)別對(duì)象。
因?yàn)榈湫偷牧闶鄣昕赡芫哂谐汕先f(wàn)的物件有待銷(xiāo)售,所以用于視覺(jué)識(shí)別的大型數(shù)據(jù)庫(kù)可能是有必要的,并且使用大型數(shù)據(jù)庫(kù)識(shí)別對(duì)象的上述系統(tǒng)及方法可能是有必要的從而確保高度的識(shí)別準(zhǔn)確性以及令人滿意的低失敗率。例如,一種實(shí)現(xiàn)方式可以具有待識(shí)別的50,000個(gè)物件,這些物件可以被組織為每個(gè)具有250個(gè)物件的大約200個(gè)小型數(shù)據(jù)庫(kù)。
由于隧道的相對(duì)受控環(huán)境,所以可靠地對(duì)所獲取圖像中的單獨(dú)對(duì)象進(jìn)行分割(使用來(lái)自多個(gè)成像器的3維結(jié)構(gòu)重構(gòu)和/或范圍傳感器及深度圖)的各種方法是可以設(shè)想的并且是實(shí)際的。
另一種應(yīng)用包括使用具有內(nèi)置圖像捕獲裝置(例如,照相機(jī))的移動(dòng)平臺(tái)(例如,蜂窩電話、智能電話)。移動(dòng)平臺(tái)用戶可以對(duì)其進(jìn)行拍照從而嘗試識(shí)別的對(duì)象的數(shù)目可以是上百萬(wàn)個(gè),所以可以遇到在大型數(shù)據(jù)庫(kù)中存儲(chǔ)上百萬(wàn)的對(duì)象模型引入的某些問(wèn)題。
如果移動(dòng)平臺(tái)具有單個(gè)照相機(jī),則通過(guò)以下方式來(lái)實(shí)現(xiàn)上述的對(duì)象分割
檢測(cè)場(chǎng)景中最突出的對(duì)象;
·使用各向異性擴(kuò)散和/或邊緣檢測(cè)來(lái)確定在圖像中心處對(duì)象的邊界;
獲取對(duì)象的多幅圖像(或短的視頻序列),并且使用光流和/或結(jié)構(gòu)以及運(yùn)動(dòng)估計(jì)來(lái)從背景中分割圖像中心處的前景對(duì)象;
·交互地引導(dǎo)用戶促使照相機(jī)運(yùn)動(dòng)從而能夠進(jìn)行對(duì)象分割;
·應(yīng)用皮膚顏色過(guò)濾器從而從握持對(duì)象 的手中分割該對(duì)象;以及
·實(shí)施圖形用戶界面(GUI),該界面使用戶能夠手動(dòng)地分割對(duì)象,或者提供有關(guān)感興趣對(duì)象的位置的一個(gè)指示建議,從而幫助上述列出的一些方法。
一些移動(dòng)平臺(tái)可以具有多于一個(gè)成像器,其中多個(gè)視野立體深度估計(jì)可以被用來(lái)從背景中分割中心前景對(duì)象。一些移動(dòng)平臺(tái)可以具有多個(gè)范圍傳感器,這些傳感器產(chǎn)生和所獲取的圖像對(duì)齊的一個(gè)深度圖。在這種情況下,該深度圖可以用來(lái)從背景分割中心前景對(duì)象。
對(duì)本領(lǐng)域的普通技術(shù)人員而言將明顯的是,可以對(duì)上述實(shí)施方案的細(xì)節(jié)作出改變,而不背離分方面的基礎(chǔ)原理。因此,本發(fā)明的范圍僅由權(quán)利要求確定。
權(quán)利要求
1.一種對(duì)存儲(chǔ)在對(duì)象識(shí)別系統(tǒng)的數(shù)據(jù)庫(kù)中的已知對(duì)象的識(shí)別模型集進(jìn)行組織的方法,該方法包括 為所述已知對(duì)象中的每一個(gè)確定分類(lèi)模型; 將所述已知對(duì)象的分類(lèi)模型分組為多個(gè)分類(lèi)模型組,這些分類(lèi)模型組中的每一個(gè)分類(lèi)模型組對(duì)所述數(shù)據(jù)庫(kù)的對(duì)應(yīng)部分進(jìn)行鑒別,所述對(duì)應(yīng)部分包含具有是該分類(lèi)模型組的成員的分類(lèi)模型的所述已知對(duì)象的識(shí)別模型;以及 為所述分類(lèi)模型組計(jì)算代表性分類(lèi)模型,其中分類(lèi)模型組的代表性分類(lèi)模型是從是該分類(lèi)模型組的成員的分類(lèi)模型中得到的,并且其中當(dāng)識(shí)別目標(biāo)對(duì)象時(shí)將所述代表性分類(lèi)模型與該目標(biāo)對(duì)象的分類(lèi)模型進(jìn)行比較從而能夠選擇這些已知對(duì)象的一個(gè)識(shí)別模型子集以便與該目標(biāo)對(duì)象的識(shí)別模型進(jìn)行比較。
2.如權(quán)利要求1所述的方法,其中確定已知對(duì)象的分類(lèi)模型包括根據(jù)該已知對(duì)象的圖像對(duì)外觀特性進(jìn)行測(cè)量。
3.如權(quán)利要求2所述的方法,其中該外觀特性與顏色、紋理、空間頻率、形狀、照度不變的圖像屬性以及照度不變的圖像梯度屬性中的一個(gè)或更多個(gè)相對(duì)應(yīng)。
4.如權(quán)利要求2所述的方法,其中該已知對(duì)象的分類(lèi)模型是通過(guò)以下方式確定的 對(duì)由圖像捕獲裝置捕獲的場(chǎng)景的圖像進(jìn)行分割從而產(chǎn)生該已知對(duì)象的一幅分離圖像; 根據(jù)該已知對(duì)象的所述圖像計(jì)算局部特征描述符向量,其中這些局部特征描述符向量是在特征描述符向量空間內(nèi); 將該特征描述符向量空間分為多個(gè)區(qū)域; 確定這些局部特征描述符向量屬于哪些區(qū)域;以及 創(chuàng)建直方圖,該直方圖量化有多少局部特征描述符向量屬于這些區(qū)域中的每一個(gè)區(qū)域,該直方圖對(duì)應(yīng)于所述分類(lèi)模型。
5.如權(quán)利要求4所述的方法,進(jìn)一步包括 為所述區(qū)域中的每一個(gè)區(qū)域分配一個(gè)代表性描述符向量;以及將所述局部特征描述符向量與所述代表性描述符向量進(jìn)行比較從而確定所述局部特征描述符向量屬于哪個(gè)區(qū)域。
6.如權(quán)利要求2所述的方法,其中該已知對(duì)象的分類(lèi)模型是通過(guò)以下方式確定的 對(duì)由圖像捕獲裝置捕獲的場(chǎng)景的圖像進(jìn)行分割從而產(chǎn)生該已知對(duì)象的一幅分離圖像; 對(duì)該已知對(duì)象的分割后圖像應(yīng)用幾何變換從而獲得該已知對(duì)象的標(biāo)準(zhǔn)化圖像;以及為該已知對(duì)象的標(biāo)準(zhǔn)化圖像生成單個(gè)特征描述符,所述分類(lèi)模型包括該單個(gè)特征描述符的表示。
7.如權(quán)利要求6所述的方法,其中該單個(gè)特征描述符是使用該已知對(duì)象的標(biāo)準(zhǔn)化圖像的整個(gè)范圍生成的。
8.如權(quán)利要求2所述的方法,其中該已知對(duì)象的分類(lèi)模型是通過(guò)以下方式確定的 對(duì)由圖像捕獲裝置捕獲的場(chǎng)景的圖像進(jìn)行分割從而產(chǎn)生該已知對(duì)象的一幅分離圖像; 對(duì)該已知對(duì)象的分割后圖像應(yīng)用幾何變換從而獲得該已知對(duì)象的標(biāo)準(zhǔn)化圖像;將該已知對(duì)象的標(biāo)準(zhǔn)化圖像劃分為多個(gè)預(yù)定的格柵部分;以及為已劃分圖像的每一個(gè)格柵部分生成一個(gè)特征描述符向量,所述分類(lèi)模型包括所述格柵部分的特征描述符的表不。
9.如權(quán)利要求2所述的方法,其中該已知對(duì)象的分類(lèi)模型是通過(guò)以下方式確定的 對(duì)由圖像捕獲裝置捕獲的場(chǎng)景的圖像進(jìn)行分割從而產(chǎn)生該已知對(duì)象的一幅分離圖像; 對(duì)該已知對(duì)象的分割后圖像應(yīng)用幾何變換從而獲得該已知對(duì)象的標(biāo)準(zhǔn)化圖像,其中向量表示該標(biāo)準(zhǔn)化圖像;以及 計(jì)算表示該標(biāo)準(zhǔn)化圖像的向量的主元分析表示,所述分類(lèi)模型包括該向量的主元分析表不的一種表不。
10.如權(quán)利要求1所述的方法,其中確定已知對(duì)象的分類(lèi)模型包括對(duì)該已知對(duì)象的物理屬性進(jìn)行測(cè)量。
11.如權(quán)利要求10所述的方法,其中該物理屬性是高度、寬度、長(zhǎng)度、形狀、質(zhì)量、幾何矩、體積、曲率、電磁特征以及溫度中的一個(gè)或更多個(gè)。
12.如權(quán)利要求10所述的方法,進(jìn)一步包括根據(jù)該已知對(duì)象的圖像測(cè)量外觀特性,其中該已知對(duì)象的分類(lèi)模型包括該已知對(duì)象的物理屬性的表示以及該已知對(duì)象的外觀特性的表示。
13.如權(quán)利要求1所述的方法,其中所述分類(lèi)模型組是通過(guò)對(duì)所述分類(lèi)模型應(yīng)用聚類(lèi)算法而形成的。
14.如權(quán)利要求13所述的方法,其中所述已知對(duì)象的分類(lèi)模型是使用k-均值聚類(lèi)算法聚類(lèi)的。
15.如權(quán)利要求13所述的方法,其中在聚類(lèi)之前確定所述分類(lèi)模型聚類(lèi)到其中的分類(lèi)模型組的數(shù)量。
16.如權(quán)利要求13所述的方法,其中在聚類(lèi)過(guò)程中確定所述分類(lèi)模型聚類(lèi)到其中的分類(lèi)模型組的數(shù)量。
17.如權(quán)利要求1所述的方法,其中所述聚類(lèi)包括軟聚類(lèi),其中已知對(duì)象的分類(lèi)模型被聚類(lèi)到所述分類(lèi)模型組中的一個(gè)或更多個(gè)中,并且該已知對(duì)象的識(shí)別模型被包括在該數(shù)據(jù)庫(kù)的所述部分中的一個(gè)或更多個(gè)中。
18.如權(quán)利要求1所述的方法,其中分類(lèi)模型組的代表性分類(lèi)模型對(duì)應(yīng)于是該分類(lèi)模型組的成員的分類(lèi)模型的均值。
19.如權(quán)利要求1所述的方法,其中所述分類(lèi)模型包括表示η維向量的分類(lèi)簽名。
20.一種從包含已知對(duì)象集的識(shí)別模型的數(shù)據(jù)庫(kù)中識(shí)別目標(biāo)對(duì)象的方法,該數(shù)據(jù)庫(kù)被分為多個(gè)部分,并且每個(gè)部分包含已知對(duì)象子集的識(shí)別模型,該方法包括 接收表示該目標(biāo)對(duì)象的圖像的圖像數(shù)據(jù); 為該目標(biāo)對(duì)象確定分類(lèi)模型; 為該目標(biāo)對(duì)象生成從該目標(biāo)對(duì)象的所述圖像得出的識(shí)別模型; 將該目標(biāo)對(duì)象的分類(lèi)模型與同該數(shù)據(jù)庫(kù)的所述部分相關(guān)聯(lián)的代表性分類(lèi)模型進(jìn)行比較,該數(shù)據(jù)庫(kù)的一個(gè)部分的代表性分類(lèi)模型從已知對(duì)象子集的分類(lèi)模型得出,所述已知對(duì)象子集的分類(lèi)模型具有包含在該部分中的識(shí)別模型;選擇該數(shù)據(jù)庫(kù)的一個(gè)部分從而基于所述比較進(jìn)行檢索;以及 檢索該數(shù)據(jù)庫(kù)的選定部分從而鑒別與該目標(biāo)對(duì)象的識(shí)別模型相匹配的已知對(duì)象的識(shí)別豐吳型。
21.如權(quán)利要求20所述的方法,其中確定該目標(biāo)對(duì)象的分類(lèi)模型包括根據(jù)該目標(biāo)對(duì)象的圖像對(duì)外觀特性進(jìn)行測(cè)量。
22.如權(quán)利要求21所述的方法,其中該外觀特性與顏色、紋理、空間頻率、形狀、照度不變的圖像屬性以及照度不變的圖像梯度屬性中的一個(gè)或更多個(gè)相對(duì)應(yīng)。
23.如權(quán)利要求21所述的方法,其中該目標(biāo)對(duì)象的分類(lèi)模型是通過(guò)以下方式確定的 對(duì)由圖像捕獲裝置捕獲的場(chǎng)景的圖像進(jìn)行分割從而產(chǎn)生該目標(biāo)對(duì)象的一幅分離圖像; 根據(jù)該目標(biāo)對(duì)象的圖像計(jì)算局部特征描述符向量,其中所述局部特征描述符向量是在一個(gè)特征描述符向量空間內(nèi); 將該特征描述符向量空間分為多個(gè)區(qū)域; 確定所述局部特征描述符向量屬于哪些區(qū)域;以及 創(chuàng)建直方圖,該直方圖將有多少局部特征描述符向量屬于該特征描述符向量空間的所述區(qū)域中的每一個(gè)進(jìn)行量化,該直方圖對(duì)應(yīng)于該目標(biāo)對(duì)象的分類(lèi)模型。
24.如權(quán)利要求23所述的方法,進(jìn)一步包括 為所述區(qū)域中的每一個(gè)區(qū)域分配代表性描述符向量;并且 將所述局部特征描述符向量與所述代表性描述符向量進(jìn)行比較從而確定所述局部特征描述符向量屬于哪個(gè)區(qū)域。
25.如權(quán)利要求21所述的方法,其中該目標(biāo)對(duì)象的分類(lèi)模型是通過(guò)以下方式確定的 對(duì)由圖像捕獲裝置捕獲的場(chǎng)景的圖像進(jìn)行分割從而產(chǎn)生該目標(biāo)對(duì)象的一幅分離圖像; 對(duì)該目標(biāo)對(duì)象的分割后圖像應(yīng)用幾何變換從而獲得該目標(biāo)對(duì)象的標(biāo)準(zhǔn)化圖像;以及為該目標(biāo)對(duì)象的標(biāo)準(zhǔn)化圖像生成單個(gè)特征描述符,該分類(lèi)模型包括所述單個(gè)特征描述符的表示。
26.如權(quán)利要求21所述的方法,其中該目標(biāo)對(duì)象的分類(lèi)模型是通過(guò)以下方式確定的 對(duì)由圖像捕獲裝置捕獲的場(chǎng)景的圖像進(jìn)行分割從而產(chǎn)生該目標(biāo)對(duì)象的一幅分離圖像; 對(duì)該目標(biāo)對(duì)象的分割后圖像應(yīng)用幾何變換從而獲得該目標(biāo)對(duì)象的標(biāo)準(zhǔn)化圖像; 將該目標(biāo)對(duì)象的標(biāo)準(zhǔn)化圖像劃分為多個(gè)預(yù)定的格柵部分;以及為已劃分圖像的每一個(gè)格柵部分生成一個(gè)特征描述符向量,該分類(lèi)模型包括所述格柵部分的特征描述符向量的表不。
27.如權(quán)利要求21所述的方法,其中該目標(biāo)對(duì)象的分類(lèi)模型是通過(guò)以下方式確定的 對(duì)由圖像捕獲裝置捕獲的場(chǎng)景的圖像進(jìn)行分割從而產(chǎn)生該目標(biāo)對(duì)象的一幅分離圖像; 對(duì)該目標(biāo)對(duì)象的分割后圖像應(yīng)用幾何變換從而獲得該目標(biāo)對(duì)象的標(biāo)準(zhǔn)化圖像,其中向量表示該標(biāo)準(zhǔn)化圖像;以及 計(jì)算表示該標(biāo)準(zhǔn)化圖像的向量的主元分析表示,所述分類(lèi)模型包括該向量的主元分析表不的一種表不。
28.如權(quán)利要求20所述的方法,其中確定該目標(biāo)對(duì)象的分類(lèi)模型包括對(duì)該目標(biāo)對(duì)象的物理屬性進(jìn)行測(cè)量。
29.如權(quán)利要求28所述的方法,其中該物理屬性是高度、寬度、長(zhǎng)度、形狀、質(zhì)量、幾何矩、體積、曲率、電磁特征以及溫度中的一個(gè)或更多個(gè)。
30.如權(quán)利要求28所述的方法,進(jìn)一步包括根據(jù)該目標(biāo)對(duì)象的圖像測(cè)量外觀特性,其中該目標(biāo)對(duì)象的分類(lèi)模型包括該目標(biāo)對(duì)象的物理屬性的表示以及該目標(biāo)對(duì)象的外觀特性的表示。
31.如權(quán)利要求20所述的方法,其中該目標(biāo)對(duì)象的分類(lèi)模型以及所述數(shù)據(jù)庫(kù)的所述部分的代表性分類(lèi)模型是向量并且所述比較包括確定該目標(biāo)對(duì)象的分類(lèi)模型與所述代表性分類(lèi)模型之間的歐幾里德距離,其中最短的歐幾里德距離鑒別被選擇用于檢索的所述數(shù)據(jù)庫(kù)的部分。
32.如權(quán)利要求20所述的方法,其中該目標(biāo)對(duì)象的識(shí)別模型以及所述已知對(duì)象的識(shí)別模型包括特征描述符。
33.如權(quán)利要求32所述的方法,其中這些特征描述符是比例不變的特征變換特征描述符。
34.如權(quán)利要求20所述的方法,其中所述數(shù)據(jù)庫(kù)的所述部分中的多個(gè)部分是基于將該目標(biāo)對(duì)象的分類(lèi)模型與這些部分的代表性分類(lèi)模型進(jìn)行比較而選擇的。
35.一種用于識(shí)別目標(biāo)對(duì)象的對(duì)象識(shí)別系統(tǒng),包括 數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)包含已知對(duì)象集的識(shí)別模型,該數(shù)據(jù)庫(kù)被分為多個(gè)部分,每個(gè)部分包含已知對(duì)象子集的識(shí)別模型,其中這些部分具有代表性分類(lèi)模型,并且其中一個(gè)部分的代表性分類(lèi)模型是從具有包含在該部分中的識(shí)別模型的已知對(duì)象子集的分類(lèi)模型得出的;以及 處理器,該處理器包括 分類(lèi)模塊,該分類(lèi)模塊被配置成為該目標(biāo)對(duì)象生成分類(lèi)模型,該分類(lèi)模塊被配置為將該目標(biāo)對(duì)象的分類(lèi)模型與該數(shù)據(jù)庫(kù)的所述部分的代表性分類(lèi)模型進(jìn)行比較從而選擇一個(gè)部分;以及 識(shí)別模塊,該識(shí)別模塊被配置為接收表示該目標(biāo)對(duì)象的圖像的圖像數(shù)據(jù)并且從該圖像數(shù)據(jù)產(chǎn)生該目標(biāo)對(duì)象的識(shí)別模型,該識(shí)別模塊被配置為檢索由所述分類(lèi)模塊選擇的所述數(shù)據(jù)庫(kù)的部分從而鑒別包含在該部分中與該目標(biāo)對(duì)象的識(shí)別模型匹配的一個(gè)識(shí)別模型。
36.如權(quán)利要求35所述的系統(tǒng),其中該分類(lèi)模塊被配置為接收表示該目標(biāo)對(duì)象的圖像的圖像數(shù)據(jù)并且根據(jù)該圖像數(shù)據(jù)中表示的外觀特性生成該目標(biāo)對(duì)象的分類(lèi)模型。
37.如權(quán)利要求36所述的系統(tǒng),其中該外觀特性是顏色、紋理、空間頻率、形狀、照度不變的圖像屬性以及照度不變的圖像梯度屬性、從量化的局部特征描述符向量得出的直方圖、從該目標(biāo)對(duì)象的標(biāo)準(zhǔn)化圖像得出的單個(gè)特征描述符表示、與該目標(biāo)對(duì)象的標(biāo)準(zhǔn)化圖像的預(yù)定格柵部分相對(duì)應(yīng)的特征描述符向量以及主元分析表示中的一個(gè)或更多個(gè)。
38.如權(quán)利要求35所述的系統(tǒng),其中該目標(biāo)對(duì)象的分類(lèi)模型包括該目標(biāo)對(duì)象的物理屬性的表不。
39.如權(quán)利要求38所述的系統(tǒng),其中該物理屬性是高度、寬度、長(zhǎng)度、形狀、質(zhì)量、幾何矩、體積、曲率、電磁特征以及溫度中的一個(gè)或更多個(gè)。
40.如權(quán)利要求35所述的系統(tǒng),其中 該目標(biāo)對(duì)象的分類(lèi)模型以及該數(shù)據(jù)庫(kù)的所述部分的代表性分類(lèi)模型是向量; 該分類(lèi)模塊被配置為確定該目標(biāo)對(duì)象的分類(lèi)模型與所述代表性分類(lèi)模型之間的歐幾里德距離;以及 最短的歐幾里德距離鑒別該數(shù)據(jù)庫(kù)的所述部分,以進(jìn)行選擇。
41.如權(quán)利要求35所述的系統(tǒng),其中該目標(biāo)對(duì)象的識(shí)別模型以及所述已知對(duì)象的識(shí)別模型包括特征描述符。
42.如權(quán)利要求41所述的系統(tǒng),其中所述特征描述符是比例不變的特征變換特征描述符。
43.如權(quán)利要求35所述的系統(tǒng),進(jìn)一步包括圖像捕獲裝置,用于產(chǎn)生表示該目標(biāo)對(duì)象的圖像的圖像數(shù)據(jù)。
全文摘要
一種對(duì)存儲(chǔ)在對(duì)象識(shí)別系統(tǒng)(100)的數(shù)據(jù)庫(kù)(140)中的已知對(duì)象的識(shí)別模型集進(jìn)行組織的方法(200)包括為這些已知對(duì)象確定分類(lèi)模型并且將這些分類(lèi)模型分組為多個(gè)分類(lèi)模型組。每個(gè)分類(lèi)模型組鑒別該數(shù)據(jù)庫(kù)的一個(gè)部分,該部分包含具有是該分類(lèi)模型組的成員的分類(lèi)模型的已知對(duì)象的識(shí)別模型。該方法包括為每個(gè)分類(lèi)模型組計(jì)算一個(gè)代表性分類(lèi)模型。每個(gè)代表性分類(lèi)模型是從是該分類(lèi)模型組的成員的分類(lèi)模型導(dǎo)出的。當(dāng)將要識(shí)別一個(gè)目標(biāo)對(duì)象(110)時(shí),將這些代表性分類(lèi)模型與該目標(biāo)對(duì)象的分類(lèi)模型進(jìn)行比較從而使得能夠選擇這些已知對(duì)象的一個(gè)識(shí)別模型子集,用于與該目標(biāo)對(duì)象的識(shí)別模型進(jìn)行比較。
文檔編號(hào)G06F17/00GK103003814SQ201180024104
公開(kāi)日2013年3月27日 申請(qǐng)日期2011年5月13日 優(yōu)先權(quán)日2010年5月14日
發(fā)明者L·貢考爾維斯, J·奧斯特洛夫斯基, R·伯曼 申請(qǐng)人:數(shù)據(jù)邏輯Adc公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1