專(zhuān)利名稱(chēng):使用捕捉位置序列信息的圖像分類(lèi)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及人工智能和圖像理解,具體而言,涉及時(shí)間相關(guān)圖像集的分類(lèi)。
背景技術(shù):
消費(fèi)者照片集是普遍的。從這些集中在語(yǔ)義上發(fā)掘有意義的信息已成為機(jī)器 學(xué)習(xí)和計(jì)算機(jī)視覺(jué)團(tuán)體中積極研究的領(lǐng)域。存在關(guān)注于對(duì)象識(shí)別(諸如,檢測(cè)某些類(lèi) 型的對(duì)象,如臉、車(chē)輛、草、水、天空等)問(wèn)題的大量工作。大多數(shù)此工作依靠使用 圖像中可獲得的低級(jí)視覺(jué)特征(諸如,顏色、紋理和線條)。近年來(lái),越來(lái)越關(guān)注于從 語(yǔ)義上提取更復(fù)雜的信息,諸如,場(chǎng)景檢測(cè)和活動(dòng)識(shí)別。例如,現(xiàn)有系統(tǒng)已嘗試通過(guò) 場(chǎng)景和對(duì)象的視覺(jué)分類(lèi)來(lái)識(shí)別事件,參見(jiàn)例如L.-J丄i和L.Fei-Fei,"What, where and who classifying events by scene and object recognition” , Proc.IEEE Intl.Conf.on Computer Vision, 2007。該系統(tǒng)報(bào)告了在識(shí)別許多特殊體育事件(諸如,馬球、劃船以及博彩 (boche))方面的適度成功,這是由于可以從這些事件的圖片中觀測(cè)到的獨(dú)特視覺(jué)特性。在所有以上提到的現(xiàn)有技術(shù)中,只使用基于圖像的特征(例如,顏色和邊緣 直方圖、或者“視覺(jué)特征袋”)以及基于各圖像來(lái)執(zhí)行傳統(tǒng)圖像聚類(lèi)和分類(lèi)(參見(jiàn) S.Lazebnikλ C.Schmid 以及 J.Ponce, “Beyond bags of features spatial pyramid matching for recognizing natural scene categories,,,Proc.IEEE Conf.on Computer Vision and Pattern Recognition,2006)。然而,由于屬于同一事件的圖像之間的時(shí)間和空間相關(guān)性,所以圖像常常并非 是彼此獨(dú)立的。更具體地,在個(gè)人圖像集中,除了圖像特征之外還存在豐富的上下文信 息,這種上下文信息通常是對(duì)圖像特征的補(bǔ)充以用于語(yǔ)義理解的目的。因此,需要考慮圖像之間關(guān)系的改進(jìn)圖像分類(lèi)技術(shù)。
發(fā)明內(nèi)容
通過(guò)根據(jù)本發(fā)明的各種實(shí)施例的用于便于一組時(shí)間相關(guān)圖像分類(lèi)的方法和系統(tǒng) 在本領(lǐng)域中獲得了技術(shù)方案并且解決了上述問(wèn)題。在本發(fā)明的實(shí)施例中,根據(jù)該組時(shí)間 相關(guān)圖像來(lái)識(shí)別捕捉位置序列。使共同與捕捉位置序列相關(guān)聯(lián)的捕捉位置序列信息與預(yù) 定捕捉位置序列特性的多個(gè)集合中的每個(gè)集合進(jìn)行比較。每個(gè)集合與預(yù)定分類(lèi)相關(guān)聯(lián)。 至少基于來(lái)自比較步驟的結(jié)果來(lái)識(shí)別與該組時(shí)間相關(guān)圖像相關(guān)聯(lián)的所標(biāo)識(shí)的分類(lèi);以及 把所識(shí)別出的分類(lèi)存儲(chǔ)在處理器可訪問(wèn)存儲(chǔ)器系統(tǒng)中。本發(fā)明的優(yōu)點(diǎn)包括使用具有相關(guān)聯(lián)捕捉位置信息的個(gè)人圖像集來(lái)識(shí)別事件。除了上述實(shí)施例以外,通過(guò)參照附圖以及通過(guò)對(duì)以下詳細(xì)描述的學(xué)習(xí)應(yīng)當(dāng)清楚 更多實(shí)施例。
圖1和圖Ia是用于實(shí)施本發(fā)明實(shí)施例的流程圖2是示出了在空間范圍和移動(dòng)速度方面不同事件的特性的表;圖3和圖4分別描繪了與城市觀光事件和徒步旅行事件相關(guān)的空間和時(shí)間軌跡的 示例;圖5描繪了用于計(jì)算用來(lái)組合來(lái)自多個(gè)提示方式的識(shí)別結(jié)果的可信度的流程和 示例混淆矩陣,以及根據(jù)本發(fā)明的實(shí)施例,圖6示出了用于使用照片集和相關(guān)聯(lián)的捕捉位置軌跡進(jìn) 行事件識(shí)別的系統(tǒng)。
具體實(shí)施例方式共同推斷可以是用于對(duì)圖像進(jìn)行分類(lèi)的有用工具。例如,可能難以分辨特定 圖片是工作還是空閑,但是看著屬于同一事件的其它圖片,做出同樣的預(yù)測(cè)會(huì)變得更容 易。在本發(fā)明的實(shí)施例中,在具有相關(guān)聯(lián)捕捉位置信息的時(shí)間相關(guān)圖像集的上下文中進(jìn) 行圖像分類(lèi)。本文中所使用的用語(yǔ)“圖像分類(lèi)”是指把一組時(shí)間相關(guān)圖像分類(lèi)成行為的 預(yù)定集合中的一個(gè)行為的過(guò)程。進(jìn)一步地,本文中所使用的用語(yǔ)“事件識(shí)別”和“行為 識(shí)別”是圖像分類(lèi)的示例。更進(jìn)一步地,詞語(yǔ)“圖像”、“圖片”以及“照片”在本 文中可互換使用。本發(fā)明包括本文中描述的實(shí)施例的組合。對(duì)“特定實(shí)施例”等的引用是指在本 發(fā)明至少一個(gè)實(shí)施例中出現(xiàn)的特征。對(duì)“實(shí)施例”或“特定實(shí)施例”等的單獨(dú)引用并 非必定是指同一實(shí)施例或同樣的實(shí)施例;然而,這些實(shí)施例并非是相互排他的,除非如 此表明或者對(duì)于本領(lǐng)域技術(shù)人員而言是顯而易見(jiàn)的。在引用“方法”等時(shí)使用單數(shù)和/ 或復(fù)數(shù)并非是限制性的。另外,應(yīng)當(dāng)注意,除非上下文另行明確注明或需要,在本公開(kāi)中以非排他性的 方式使用詞語(yǔ)“或”。當(dāng)把GPS (全球定位系統(tǒng))傳感器安裝在數(shù)字?jǐn)z像裝置中時(shí),可以針對(duì)每個(gè)捕捉 到的圖像收集圖像捕捉的時(shí)間、經(jīng)度和緯度。另外,可以使用本領(lǐng)域中已知的技術(shù)針對(duì) 每個(gè)捕捉到的圖像捕捉以下信息,低等級(jí)圖像特征例如,顏色和邊緣直方圖;語(yǔ)義對(duì) 象和場(chǎng)景識(shí)別來(lái)自圖像分類(lèi)器(室內(nèi)/室外檢測(cè)器、海灘檢測(cè)器等)和對(duì)象檢測(cè)器的 輸出(例如,面部);以及其它上下文信息大致在相同時(shí)間和相同地點(diǎn)拍攝的圖像(例 如,同一事件或同一圖像文件夾中的圖像)。根據(jù)本發(fā)明的實(shí)施例,圖6示出了用于事件識(shí)別的系統(tǒng)100。系統(tǒng)100包括數(shù)據(jù) 處理系統(tǒng)110、外圍系統(tǒng)120、用戶接口系統(tǒng)130以及處理器可訪問(wèn)存儲(chǔ)器系統(tǒng)140。處 理器可訪問(wèn)存儲(chǔ)器系統(tǒng)140、外圍系統(tǒng)120以及用戶接口系統(tǒng)130以通信方式連接到數(shù)據(jù) 處理系統(tǒng)110。數(shù)據(jù)處理系統(tǒng)110包括實(shí)施本發(fā)明各種實(shí)施例的過(guò)程(包括圖1和圖Ia的示例過(guò) 程)的一個(gè)或更多個(gè)數(shù)據(jù)處理設(shè)備。用語(yǔ)“數(shù)據(jù)處理設(shè)備”或“數(shù)據(jù)處理器”旨在包括 任何數(shù)據(jù)處理設(shè)備,諸如,中央處理單元(“CPU”)、桌上型計(jì)算機(jī)、膝上型計(jì)算機(jī)、 大型計(jì)算機(jī)、個(gè)人數(shù)字助理、黑莓(Blackberry )、數(shù)字?jǐn)z像裝置、手機(jī)、或者用于處理 數(shù)據(jù)、管理數(shù)據(jù)、或者操控?cái)?shù)據(jù)的任何其它設(shè)備或其組件,無(wú)論是否用電、磁、光、生 物組件實(shí)施。
5
處理器可訪問(wèn)存儲(chǔ)器系統(tǒng)140包括被配置成存儲(chǔ)信息(包括執(zhí)行本發(fā)明各種實(shí)施 例的過(guò)程(包括本文中描述的圖1和圖Ia的示例過(guò)程)所需要的信息)的一個(gè)或更多個(gè) 處理器可訪問(wèn)存儲(chǔ)器。處理器可訪問(wèn)存儲(chǔ)器系統(tǒng)140可以是分布式處理器可訪問(wèn)存儲(chǔ)器 系統(tǒng),包括經(jīng)由多個(gè)計(jì)算機(jī)和/或設(shè)備以通信方式連接到數(shù)據(jù)處理系統(tǒng)110的多個(gè)處理器 可訪問(wèn)存儲(chǔ)器。另一方面,處理器可訪問(wèn)存儲(chǔ)器系統(tǒng)140無(wú)需是分布式處理器可訪問(wèn)存 儲(chǔ)器系統(tǒng),因此,可以包括位于單個(gè)數(shù)據(jù)處理器或設(shè)備內(nèi)的一個(gè)或更多個(gè)處理器可訪問(wèn) 存儲(chǔ)器。用語(yǔ)“處理器可訪問(wèn)存儲(chǔ)器”旨在包括任何處理器可訪問(wèn)數(shù)據(jù)存儲(chǔ)設(shè)備,無(wú)論 是易失性的還是非易失性的、電子的、磁的、光的或其它,包括但不限于寄存器、軟 盤(pán)、硬盤(pán)、壓縮光盤(pán)、DVD、閃存、ROM以及RAM。用語(yǔ)“以通信方式連接”旨在包括可以傳送數(shù)據(jù)的程序、數(shù)據(jù)處理器、或者設(shè) 備之間的任何類(lèi)型的連接,無(wú)論是有線的還是無(wú)線的。進(jìn)一步地,用語(yǔ)“以通信方式連 接”旨在包括單個(gè)數(shù)據(jù)處理器內(nèi)的程序或設(shè)備之間的連接、位于不同數(shù)據(jù)處理器中的程 序或設(shè)備之間的連接、以及根本不位于數(shù)據(jù)處理器中的設(shè)備之間的連接。在此方面,雖 然處理器可訪問(wèn)存儲(chǔ)器系統(tǒng)140被示出為與數(shù)據(jù)處理系統(tǒng)110分開(kāi),但本領(lǐng)域技術(shù)人員 應(yīng)當(dāng)理解,可以把處理器可訪問(wèn)存儲(chǔ)器系統(tǒng)140完全地或部分地存儲(chǔ)在數(shù)據(jù)處理系統(tǒng)110 內(nèi)。在此方面進(jìn)一步地,雖然外圍系統(tǒng)120和用戶接口系統(tǒng)130被示出為與數(shù)據(jù)處理系統(tǒng) 110分開(kāi),但本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,可以把這些系統(tǒng)中的一個(gè)系統(tǒng)或二者完全地或部 分地存儲(chǔ)在數(shù)據(jù)處理系統(tǒng)110內(nèi)。外圍系統(tǒng)120可以包括被配置成向數(shù)據(jù)處理系統(tǒng)110提供數(shù)字圖像的一個(gè)或更多 個(gè)設(shè)備。例如,外圍系統(tǒng)120可以包括數(shù)字視頻攝像裝置、手機(jī)、常規(guī)數(shù)字?jǐn)z像裝置或 者其它數(shù)據(jù)處理器。數(shù)據(jù)處理系統(tǒng)110在從外圍系統(tǒng)120中的設(shè)備接收到數(shù)字內(nèi)容記錄 后可以把這些數(shù)字內(nèi)容記錄存儲(chǔ)在處理器可訪問(wèn)存儲(chǔ)器系統(tǒng)140中。用戶接口系統(tǒng)130可以包括鼠標(biāo)、鍵盤(pán)、另一計(jì)算機(jī)或者用于向數(shù)據(jù)處理系統(tǒng) 110輸入數(shù)據(jù)的任何設(shè)備或設(shè)備的組合。在此方面,雖然外圍系統(tǒng)120被示出為與用戶接 口系統(tǒng)130分開(kāi),但外圍系統(tǒng)120可以被包括作為用戶接口系統(tǒng)130的一部分。用戶接口系統(tǒng)130也可以包括顯示設(shè)備、處理器可訪問(wèn)存儲(chǔ)器或者用于由數(shù)據(jù) 處理系統(tǒng)110向其輸出數(shù)據(jù)的任何設(shè)備或設(shè)備的組合。在此方面,如果用戶接口系統(tǒng) 130包括處理器可訪問(wèn)存儲(chǔ)器,則這種存儲(chǔ)器可以是處理器可訪問(wèn)存儲(chǔ)器系統(tǒng)140的一部 分,盡管在圖6中分開(kāi)示出了用戶接口系統(tǒng)130和處理器可訪問(wèn)存儲(chǔ)器系統(tǒng)140。本發(fā)明便于圖像分類(lèi),諸如,人拍攝圖片和視頻的典型事件的自動(dòng)識(shí)別。目標(biāo) 是從個(gè)人照片集(一些可能包含視頻)中識(shí)別典型事件,其中,每個(gè)事件對(duì)應(yīng)于在某個(gè)環(huán) 境中發(fā)生、并且被在事件期間拍攝的圖像集記錄的特定人類(lèi)行為Ei = {Ij j = 1、2、 ...η}其中,Ij表示圖像(或視頻)。在本發(fā)明的優(yōu)選實(shí)施例中,定義了以合理區(qū)分 的視覺(jué)特性的10種類(lèi)型頻繁發(fā)生的事件或類(lèi)別的列表C =丨后院活動(dòng),海灘活動(dòng),球 賽,生日會(huì),圣誕節(jié)活動(dòng),城市觀光,徒步旅行,道路旅行,滑雪以及婚禮丨??梢远x 和包括其它類(lèi)型的事件,本領(lǐng)域技術(shù)人員將會(huì)理解,本發(fā)明不限于這些事件。列表C包 括室外和室內(nèi)事件。通常,由于涉及語(yǔ)義的更高等級(jí)一視覺(jué)內(nèi)容可以從一個(gè)示例到另一示例顯著變化以及使得分類(lèi)器表現(xiàn)不佳,所以事件識(shí)別比場(chǎng)景識(shí)別更具挑戰(zhàn)性和復(fù)雜 (參見(jiàn) L.-J.Li 禾口 L.Fei-Fei, "What, where and who ? classifyingevents by scene and object recognition” , Proc.IEEE Intl.Conf.on Computer Vision, 2007。 )??梢园驯景l(fā)明實(shí)施例解決的分類(lèi)問(wèn)題敘述如下輸入視覺(jué)事件的數(shù)據(jù)庫(kù)被輸入作為用于設(shè)計(jì)分類(lèi)器的訓(xùn)練數(shù)據(jù)D,D = {Ei, l(Ei)},其中,Ei = {Ti,j,Ii, j j = 1> 2、…、|Ei|}表示包含構(gòu)建視覺(jué)事件的圖像 集合的單個(gè)圖像文件夾(組)并且|Ei|表示Ei的大??;Ti,j = (xi, j,yi,j,ti,j)是 照片的2維位置(x,y)和時(shí)間t的GPS記錄,Ii,j是相應(yīng)的圖像。共同地,所有記錄 Ti,j形成軌跡Ti。對(duì)于每個(gè)圖像文件夾,可以用C中視覺(jué)事件類(lèi)中的一個(gè)I(Ei)來(lái)唯一 地標(biāo)注該圖像文件夾,其中,C = {后院活動(dòng),海灘活動(dòng),球賽,生日會(huì),圣誕節(jié)活動(dòng), 城市觀光,徒步旅行,道路旅行,滑雪以及婚禮丨。所有圖像Ii,j共享與它們所屬的組 Ei相同的標(biāo)簽。訓(xùn)練數(shù)據(jù)集D應(yīng)該包含C中每個(gè)類(lèi)的足夠示例。輸出標(biāo)簽I(Ei)給出了新圖像文件夾Ei = {Ti,j, Ii, j:j = l、2、…、|Ei|}和訓(xùn) 練后的分類(lèi)器,例如,I(Ei)=徒步旅行。在任何模式分類(lèi)問(wèn)題中,需要把高維特征向量分類(lèi)成預(yù)定義類(lèi)集合中的一個(gè) 類(lèi)。由于特征之間的冗余以及訓(xùn)練樣本的有限數(shù)量,常常難以在初始高維空間中找到單 個(gè)好分類(lèi)器(最有可能是非線性分類(lèi)器)。相反,更容易在低維特征空間中找到許多弱分 類(lèi)器,其中,發(fā)現(xiàn)的子空間中每個(gè)構(gòu)造出的分類(lèi)器作為弱分類(lèi)規(guī)則。在本發(fā)明的實(shí)施例 中,有效的方法是通過(guò)多類(lèi)提升(boosting)來(lái)組合這些在低維空間中發(fā)現(xiàn)的弱分類(lèi)器以創(chuàng) 建最終分類(lèi)器。提升是本領(lǐng)域中公知的并且可以在不偏離本發(fā)明范圍的情況下使用用于 創(chuàng)建最終分類(lèi)器的其它類(lèi)似流程。在圖1中,根據(jù)本發(fā)明的實(shí)施例,示出了用于對(duì)一組時(shí)間相關(guān)圖像進(jìn)行分類(lèi)的 方法。首先,在步驟10獲得一組具有捕捉位置信息的時(shí)間相關(guān)圖像。該組或這些圖像 (在本文中有時(shí)稱(chēng)作集)被根據(jù)本領(lǐng)域中的已知技術(shù)分成了或者分成時(shí)間和位置相關(guān)照片 組。另外,可以使用裝備有GPS接收傳感器的數(shù)字?jǐn)z像裝置對(duì)該圖像集進(jìn)行地理標(biāo)記 (geotag)?;蛘?,可以使用能夠(例如通過(guò)藍(lán)牙鏈接)與獨(dú)立GPS接收器通信的數(shù)字?jǐn)z 像裝置來(lái)獲取經(jīng)地理標(biāo)記的照片。其它替選方案用于那些要在捕捉之后被手動(dòng)標(biāo)記有坐 標(biāo)、或者按批與GPS記錄設(shè)備同步的照片。在步驟20中,對(duì)于與特定事件相對(duì)應(yīng)的經(jīng)地 理標(biāo)記的照片集,首先提取GPS坐標(biāo)和時(shí)間戳信息以形成空間和時(shí)間上的稀疏軌跡。軌 跡被視為捕捉位置序列。注意,并非每個(gè)照片都必需與位置信息相關(guān)聯(lián),只要存在足夠 多的具有地點(diǎn)信息的照片以形成整組時(shí)間相關(guān)圖像的軌跡即可。接下來(lái),在步驟30中計(jì)算軌跡特征以表征軌跡的形狀或結(jié)構(gòu)。在步驟40中使 用這些軌跡特征來(lái)推斷針對(duì)該集的相應(yīng)事件或分類(lèi)。通過(guò)把共同與捕捉位置序列相關(guān)聯(lián) 的信息與期望的捕捉位置序列特性的多個(gè)集合中的每個(gè)集合相比較來(lái)執(zhí)行推斷,每個(gè)集 合與事件的分類(lèi)相關(guān)聯(lián)。除了使用捕捉位置序列信息(諸如,步驟20-40中的位置序列軌跡)之外,為 了對(duì)該集進(jìn)行分類(lèi),可選地可以使用該集中的圖像內(nèi)容信息,如步驟50-70所反映的那樣。特別地,可以在步驟50中從每個(gè)單個(gè)照片中提取圖像內(nèi)容,S卩,像素信息,隨之是 步驟60,其中根據(jù)圖像內(nèi)容來(lái)計(jì)算視覺(jué)特征??梢愿鶕?jù)共同由同一事件中所有的各照片 表示的視覺(jué)特征來(lái)在步驟70中推斷事件或分類(lèi)。再次地,通過(guò)把共同與該組時(shí)間相關(guān)圖 像相關(guān)聯(lián)的圖像內(nèi)容信息與期望的圖像內(nèi)容特性的多個(gè)集合中的每個(gè)集合相比較來(lái)執(zhí)行 推斷,每個(gè)集合與事件的分類(lèi)相關(guān)聯(lián)。因?yàn)榇嬖趦蓚€(gè)并行的推斷路徑,所以在步驟80中 可以通過(guò)組合根據(jù)軌跡特征和視覺(jué)特征單獨(dú)獲得的推斷結(jié)果來(lái)聯(lián)合推斷事件。最后,可以在步驟90中使用所推斷的事件信息來(lái)在大數(shù)據(jù)庫(kù)中查找特定事件的 照片,或者注釋照片集用于其它方面。圖Ia是在步驟85中根據(jù)組合的軌跡特征和視覺(jué)特征(即,組合信息)聯(lián)合推斷 事件的替選方法,沒(méi)有根據(jù)軌跡特征和視覺(jué)特征單獨(dú)推斷的中間步驟。 若干示例情形可以示出本發(fā)明如何比只使用視覺(jué)信息的系統(tǒng)表現(xiàn)得更好。假定 一組人進(jìn)行了道路旅行并且經(jīng)過(guò)了主要城市。還假定他們?cè)诔鞘兄泻偷缆飞吓臄z了圖 片。僅使用視覺(jué)信息,視覺(jué)分類(lèi)器很可能將會(huì)把此事件中的許多圖片分類(lèi)成“城市觀 光”但是很可能將會(huì)誤表征整個(gè)事件。然而,使用與圖片相關(guān)聯(lián)的捕捉位置序列軌跡, 整組圖片有更大的機(jī)會(huì)被正確地分類(lèi)成道路旅行(盡管經(jīng)過(guò)城市)。在信息融合之后, 最終的判定是此事件是道路旅行(注意,本發(fā)明學(xué)習(xí)了道路旅行事件可以包含城市的圖 片)。另一示例將會(huì)是一組人在樹(shù)林中進(jìn)行了徒步旅行。由于后院圖片也可以包含樹(shù) 木,所以視覺(jué)分類(lèi)器會(huì)錯(cuò)誤地判定這是后院事件。然而,再次使用與圖片相關(guān)聯(lián)的捕捉 位置序列軌跡,本發(fā)明的實(shí)施例有更大的機(jī)會(huì)正確地確定整組事件是徒步旅行,而不是 后院事件。與只可應(yīng)用視覺(jué)特征的傳統(tǒng)圖像和視覺(jué)事件分類(lèi)問(wèn)題不同,本發(fā)明的實(shí)施例采 用兩種類(lèi)型的特征(I)GPS特征和(2)視覺(jué)特征。特別地,在與同一事件相關(guān)的圖像集 上定義GPS特征,因此,GPS特征是整個(gè)圖像集而非只是個(gè)別圖像的特性。在本發(fā)明的 上下文中,照片集也被稱(chēng)作文件夾。圖1中提到的稀疏軌跡對(duì)于區(qū)分各種事件可以確實(shí)是有用的。如圖2中所總結(jié) 的,簡(jiǎn)單地根據(jù)移動(dòng)的速度和空間范圍,可以把事件分成不同的簇,如此前所定義的那 樣這些簇中的每個(gè)簇與標(biāo)簽相關(guān)聯(lián)。本發(fā)明的實(shí)施例可以假定已根據(jù)本領(lǐng)域中已知的技 術(shù)把照片預(yù)先分組成時(shí)間和位置相關(guān)照片的組。事件(諸如城市觀光、徒步旅行以及道 路旅行)覆蓋較大的空間范圍,而后院、海灘、球賽、野餐以及婚禮事件傾向于是空間 上受局限的。而在道路旅行中,人以相當(dāng)高的速度行進(jìn),對(duì)于城市觀光、徒步旅行、后 院、海灘、球賽、野餐以及婚禮而言移動(dòng)更加緩慢??梢栽O(shè)計(jì)比范圍和速度更復(fù)雜的特 征以表征軌跡的形狀或結(jié)構(gòu)?;谒涗浀腉PS信息,每個(gè)圖像文件夾由空間時(shí)間軌跡表示Ti = { (xi, j, yij,ti,j)|,j = l、…、|Ti|},其中,|Ti|等于文件夾的大小,S卩,圖像的數(shù)量。空間 時(shí)間域中點(diǎn)的序列提供了對(duì)攝像者在圖像捕捉過(guò)程中經(jīng)過(guò)的基本移動(dòng)的指示。與在空間 時(shí)間上的這些點(diǎn)處拍攝的相應(yīng)圖像獨(dú)立的此序列可獨(dú)自為事件識(shí)別的任務(wù)提供信息。圖 3和圖4分別包含若干城市觀光事件和徒步旅行事件的GPS軌跡??梢栽谟糜谥付ǚ诸?lèi) 器的訓(xùn)練數(shù)據(jù)D中使用這些軌跡,在上述分類(lèi)問(wèn)題的“輸入”部分中提及了。值得注意,這兩種類(lèi)型事件的軌跡的形狀特性彼此明顯不同,而同時(shí),同樣類(lèi)型事件的軌跡看 起來(lái)相似。雖然兩個(gè)事件傾向于在空間和時(shí)間上覆蓋相對(duì)而言較大的范圍,但城市觀光 軌跡因?yàn)闈撛诘某鞘薪謪^(qū)和街道結(jié)構(gòu)而在軌跡的形狀上呈現(xiàn)出更高程度的規(guī)則性。相比 而言,徒步旅行軌跡即使它們也可以是Z字形的也看起來(lái)更隨機(jī)和隨意。換言之,同樣 事件類(lèi)型的不同移動(dòng)示例之間存在結(jié)構(gòu)相似性,而對(duì)應(yīng)于不同事件類(lèi)型的移動(dòng)之間存在 結(jié)構(gòu)差別。給定這種 空間時(shí)間軌跡,在本發(fā)明的優(yōu)選實(shí)施例中,在步驟50中提取具有要通 過(guò)訓(xùn)練確定并且在
的范圍中的變化重要性量級(jí)而不失一般性的以下13種類(lèi)型的 特征,作為軌跡形狀或結(jié)構(gòu)的表示熵(2個(gè)特征)時(shí)間和空間域距形心的距離(1個(gè)特征)方差(2個(gè)特征)時(shí)間和空間域偏度(2個(gè)特征)時(shí)間和空間域峰度(2個(gè)特征)時(shí)間和空間域空間范圍(1個(gè)特征)和時(shí)間持續(xù)長(zhǎng)短(1個(gè)特征)軌跡長(zhǎng)度(1個(gè)特征)和平均速度(1個(gè)特征)例如,下面是以上列出的空間范圍和空間方差的定義(1)軌跡Ti的空間范圍 SR(Ti),描述視覺(jué)事件的活動(dòng)空間范圍SR(T) = (maxixjjxj e Τ}ιη η{χ」、e Τ}) X (max IyjIyj e Tj-IniniyjIyj e T}) ; (1)以及(2)軌跡的空間方差SV(Ti),描述活動(dòng)的空間方差SV(T) = ^[VAR{{Xj I Xj e Τ}) + VAR({y. I γ. e Τ})] ; ( 2 )其它類(lèi)型的特征是根據(jù)圖像在步驟60中計(jì)算的低等級(jí)視覺(jué)特征。已證明了視覺(jué) 詞匯是建立視覺(jué)識(shí)別系統(tǒng)的有效方式,例如,用于場(chǎng)景識(shí)別(見(jiàn)S.LaZebnik、C.Schmid以 及 J.Ponce, "Beyond bags of features spatial pyramid matching for recognizing natural scene categories”,Proc.IEEE Conf.on Computer Vision and Pattern Recognition, 2006)。 圖像被 通過(guò)固定網(wǎng)格分區(qū)以及表示成圖像塊的無(wú)序集合。對(duì)這些圖像塊計(jì)算合適的描述以及把 這些描述聚類(lèi)到區(qū)塊(bin)中以形成“視覺(jué)詞匯”。在本發(fā)明的實(shí)施例中,同樣的方法 學(xué)可以被采用和擴(kuò)展以考慮用于表征每個(gè)圖像網(wǎng)格的顏色和紋理特征。在本發(fā)明的實(shí)施例中,為了提取顏色特征,把圖像網(wǎng)格進(jìn)一步分區(qū)成2X2個(gè)相 等大小的子網(wǎng)格。隨后對(duì)于每個(gè)子網(wǎng)格,提取平均R、G和B值以形成表征4個(gè)子網(wǎng)格 顏色信息的4X3 = 12的特征向量。為了提取紋理特征,計(jì)算每個(gè)子網(wǎng)格中具有8個(gè)朝向 區(qū)塊的直方圖的2X2的陣列。從而應(yīng)用4X8 = 32維的SIFT描述符來(lái)表征每個(gè)圖像網(wǎng) 格內(nèi)的結(jié)構(gòu),在原理上與Lazebnik類(lèi)似。在本發(fā)明的實(shí)施例中,如果圖像大于200k個(gè)像 素,則首先把它調(diào)整為200k個(gè)像素。隨后在重疊8X8的采樣間隔的情況下設(shè)置16X16 的圖像網(wǎng)格大小。通常,一個(gè)圖像生成117個(gè)這種網(wǎng)格。在從圖像網(wǎng)格中提取所有原始圖像特征之后,在本發(fā)明的實(shí)施例中,通過(guò)如下 方式建立單獨(dú)的顏色和紋理詞匯通過(guò)k均值(k-means)聚類(lèi)在訓(xùn)練數(shù)據(jù)集中對(duì)所有圖 像網(wǎng)格進(jìn)行聚類(lèi)。把兩種詞匯均設(shè)置為大小500。通過(guò)累積事件中的所有網(wǎng)格(圖像 集),對(duì)事件獲得兩個(gè)歸一化的直方圖,即,he和ht,分別對(duì)應(yīng)于顏色和紋理詞匯的詞語(yǔ)分布。聯(lián)接he和ht,結(jié)果是歸一化的詞語(yǔ)直方圖直方圖中的每個(gè)區(qū)塊
表明相應(yīng)詞語(yǔ)的出現(xiàn)頻率。因此特征向量f具有響應(yīng)
權(quán)利要求
1.一種至少部分地由數(shù)據(jù)處理系統(tǒng)實(shí)施的方法,所述方法用于便于一組時(shí)間相關(guān)圖 像的分類(lèi),所述方法包括以下步驟根據(jù)該組時(shí)間相關(guān)圖像來(lái)識(shí)別捕捉位置序列;使共同與所述捕捉位置序列相關(guān)聯(lián)的捕捉位置序列信息與預(yù)定捕捉位置序列特征的 多個(gè)集合中的每個(gè)集合進(jìn)行比較,每個(gè)集合都與預(yù)定分類(lèi)相關(guān)聯(lián);至少基于所述比較步驟的結(jié)果來(lái)識(shí)別與該組時(shí)間相關(guān)圖像相關(guān)聯(lián)的所標(biāo)識(shí)的分類(lèi); 以及把所識(shí)別出的分類(lèi)存儲(chǔ)在處理器可訪問(wèn)存儲(chǔ)器系統(tǒng)中。
2.如權(quán)利要求1所述的方法,其中,至少基于與該組中的圖像中的至少一些圖像相關(guān) 聯(lián)的全球定位系統(tǒng)信息來(lái)識(shí)別所述捕捉位置序列。
3.如權(quán)利要求1所述的方法,還包括以下步驟把共同與該組時(shí)間相關(guān)圖像相關(guān)聯(lián) 的圖像內(nèi)容信息與預(yù)定圖像內(nèi)容特征的多個(gè)集合中的每個(gè)集合相比較,預(yù)定圖像內(nèi)容特 征的每個(gè)集合都與預(yù)定分類(lèi)相關(guān)聯(lián),其中,所述識(shí)別步驟至少基于所述兩個(gè)比較步驟的 結(jié)果來(lái)識(shí)別所標(biāo)識(shí)的分類(lèi)。
4.如權(quán)利要求1所述的方法,其中,根據(jù)所述預(yù)定分類(lèi)中的一個(gè)分類(lèi)中來(lái)識(shí)別所標(biāo)識(shí) 的分類(lèi)。
5 如權(quán)利要求1所述的方法,其中,所述捕捉位置序列信息包括所述捕捉位置序列的 軌跡。
6.如權(quán)利要求5所述的方法,其中,所述軌跡包括空間域和時(shí)間域。
7.如權(quán)利要求5所述的方法,還包括以下步驟確定所述軌跡的特征,所述特征涉 及由所述軌跡表示的空間范圍或由所述軌跡表示的移動(dòng)速度,其中,所述比較步驟涉及 使所述特征與在預(yù)定捕捉位置序列特征集合中的至少一個(gè)集合中表示的相應(yīng)值或值的范 圍進(jìn)行比較。
8.如權(quán)利要求5所述的方法,還包括以下步驟確定所述軌跡的特征,所述特征涉及熵、距形心的距離、方差、偏度、峰度、空間 范圍、時(shí)間持續(xù)長(zhǎng)短、長(zhǎng)度或速度,其中,所述比較步驟涉及使所述特征與在預(yù)定捕捉位置序列特征集合中的至少一個(gè) 集合中表示的相應(yīng)值或值的范圍進(jìn)行比較。
9.如權(quán)利要求1所述的方法,其中,所述預(yù)定分類(lèi)包括徒步旅行和城市觀光。
10.如權(quán)利要求9所述的方法,其中,所述預(yù)定分類(lèi)還包括婚禮、球賽、后院活動(dòng)、 海灘活動(dòng)、道路旅行、野餐、圣誕節(jié)活動(dòng)以及生日會(huì)。
11.一種存儲(chǔ)指令的處理器可訪問(wèn)存儲(chǔ)器系統(tǒng),所述指令被配置為使得數(shù)據(jù)處理系統(tǒng) 實(shí)施便于一組時(shí)間相關(guān)圖像的分類(lèi)的方法,其中,所述指令包括用于根據(jù)該組時(shí)間相關(guān)圖像來(lái)識(shí)別捕捉位置序列的指令;用于使共同與所述捕捉位置序列相關(guān)聯(lián)的捕捉位置序列信息與預(yù)定捕捉位置序列特 征的多個(gè)集合中的每個(gè)集合進(jìn)行比較的指令,每個(gè)集合都與預(yù)定分類(lèi)相關(guān)聯(lián);用于至少基于所述比較步驟的結(jié)果來(lái)識(shí)別與該組時(shí)間相關(guān)圖像相關(guān)聯(lián)的所標(biāo)識(shí)的分 類(lèi)的指令;以及用于把所識(shí)別出的分類(lèi)存儲(chǔ)在處理器可訪問(wèn)存儲(chǔ)器系統(tǒng)中的指令。
12.如權(quán)利要求11所述的處理器可訪問(wèn)存儲(chǔ)器系統(tǒng),其中,所述捕捉位置序列信息包括所述捕捉位置序列的軌跡。
13.如權(quán)利要求12所述的處理器可訪問(wèn)存儲(chǔ)器系統(tǒng),其中,所述軌跡包括空間域和時(shí) 間域。
14.如權(quán)利要求12所述的處理器可訪問(wèn)存儲(chǔ)器系統(tǒng),進(jìn)一步包括以下步驟確定所述軌跡的特征,所述特征涉及由所述軌跡表示的空間范圍或由所述軌跡表示 的移動(dòng)速度,其中,所述比較步驟涉及使所述特征與在預(yù)定捕捉位置序列特征的集合中的至少一 個(gè)集合中表示的相應(yīng)值或值的范圍進(jìn)行比較。
15.如權(quán)利要求12所述的處理器可訪問(wèn)存儲(chǔ)器系統(tǒng),進(jìn)一步包括以下步驟確定所述軌跡的特征,所述特征涉及熵、距形心的距離、方差、偏度、峰度、空間 范圍、時(shí)間持續(xù)長(zhǎng)短、長(zhǎng)度或速度,其中,所述比較步驟涉及使所述特征與在預(yù)定捕捉位置序列特征的集合中的至少一 個(gè)集合中表示的相應(yīng)值或值的范圍進(jìn)行比較。
16.—種系統(tǒng),包括數(shù)據(jù)處理系統(tǒng);以及存儲(chǔ)器系統(tǒng),以通信方式連接到所述數(shù)據(jù)處理系統(tǒng)并且存儲(chǔ)指令,所述指令被配置 為使得所述數(shù)據(jù)處理系統(tǒng)實(shí)施便于一組時(shí)間相關(guān)圖像的分類(lèi)的方法,其中,所述指令包 括用于根據(jù)該組時(shí)間相關(guān)圖像來(lái)識(shí)別捕捉位置序列的指令;用于使共同與所述捕捉位置序列相關(guān)聯(lián)的捕捉位置序列信息與預(yù)定捕捉位置序列特 性的多個(gè)集合中的每個(gè)集合進(jìn)行比較的指令,每個(gè)集合都與預(yù)定分類(lèi)相關(guān)聯(lián);用于至少基于來(lái)自所述比較步驟的結(jié)果來(lái)識(shí)別與該組時(shí)間相關(guān)圖像相關(guān)聯(lián)的所標(biāo)識(shí) 的分類(lèi)的指令;以及用于把所識(shí)別出的分類(lèi)存儲(chǔ)在所述存儲(chǔ)器系統(tǒng)中的指令。
17.如權(quán)利要求16所述的存儲(chǔ)器系統(tǒng),其中,所述捕捉位置序列信息包括所述捕捉位 置序列的軌跡。
18.如權(quán)利要求17所述的存儲(chǔ)器系統(tǒng),其中,所述軌跡包括空間域和時(shí)間域。
19.如權(quán)利要求17所述的存儲(chǔ)器系統(tǒng),進(jìn)一步包括以下步驟確定所述軌跡的特征,所述特征涉及由所述軌跡表示的空間范圍或由所述軌跡表示 的移動(dòng)速度,其中,所述比較步驟涉及使所述特征與在預(yù)定捕捉位置序列特征的集合中的至少一 個(gè)集合中表示的相應(yīng)值或值的范圍進(jìn)行比較。
20.如權(quán)利要求17所述的存儲(chǔ)器系統(tǒng),進(jìn)一步包括以下步驟確定所述軌跡的特征,所述特征涉及熵、距形心的距離、方差、偏度、峰度、空間 范圍、時(shí)間持續(xù)長(zhǎng)短、長(zhǎng)度或速度,其中,所述比較步驟涉及使所述特征與在預(yù)定捕捉位置序列特征的集合中的至少一 個(gè)集合中表示的相應(yīng)值或值的范圍進(jìn)行比較。
全文摘要
公開(kāi)了對(duì)一組時(shí)間相關(guān)圖像的分類(lèi),其中,根據(jù)該組時(shí)間相關(guān)圖像來(lái)識(shí)別捕捉位置序列。使共同與捕捉位置序列相關(guān)聯(lián)的捕捉位置序列信息與預(yù)定捕捉位置序列特征的多個(gè)集合中的每個(gè)集合進(jìn)行比較。每個(gè)集合與預(yù)定分類(lèi)相關(guān)聯(lián)。至少基于比較步驟的結(jié)果來(lái)識(shí)別與該組時(shí)間相關(guān)圖像相關(guān)聯(lián)的所標(biāo)識(shí)的分類(lèi);以及把所識(shí)別出的分類(lèi)存儲(chǔ)在處理器可訪問(wèn)存儲(chǔ)器系統(tǒng)中。
文檔編號(hào)G06F17/30GK102016839SQ200980112906
公開(kāi)日2011年4月13日 申請(qǐng)日期2009年4月10日 優(yōu)先權(quán)日2008年4月14日
發(fā)明者羅杰波, 袁俊松 申請(qǐng)人:伊斯曼柯達(dá)公司