用于對象再識別的系統(tǒng)和方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明大體涉及圖像處理,尤其涉及一種用于規(guī)劃用于判斷候選對象是否是關(guān)注 對象的、諸如平搖、俯仰和縮放值等的一系列攝像機(jī)設(shè)置的方法、系統(tǒng)和設(shè)備。在一個例子 中,術(shù)語"候選對象"和"關(guān)注對象"分別是指(i)擁擠的機(jī)場中的人,其中,該人僅是人群 中的一個人,以及(ii)人群中被識別為特別關(guān)注的人。本發(fā)明還涉及一種包括計算機(jī)可讀 介質(zhì)的計算機(jī)程序產(chǎn)品,其中,該計算機(jī)可讀介質(zhì)上記錄有用于規(guī)劃用于判斷候選對象是 否是關(guān)注對象的一系列攝像機(jī)設(shè)置的計算機(jī)程序記錄。
【背景技術(shù)】
[0002] 諸如購物中心、停車場和火車站等的公共場所正越來越多地受到使用大規(guī)模視頻 攝像機(jī)網(wǎng)絡(luò)的監(jiān)視。大規(guī)模視頻監(jiān)視的應(yīng)用領(lǐng)域包括安保、安全、交通管理和業(yè)務(wù)分析。許 多這類應(yīng)用中的關(guān)鍵任務(wù)是快速、穩(wěn)健的對象再識別,這是跨網(wǎng)絡(luò)中的多個攝像機(jī)找到特 定關(guān)注對象的問題。在安保領(lǐng)域的一個示例性應(yīng)用中,保安員可能希望觀察包含特定可疑 目標(biāo)的任何視頻傳送以識別意外活動。在業(yè)務(wù)分析領(lǐng)域的另一個例子中,購物中心可能希 望跨多個攝像機(jī)追蹤特定客戶以建立該客戶的購物習(xí)慣檔案。在下面的說明中,術(shù)語"對象 再識別"將被理解為包含術(shù)語"對象辨識"和"對象識別"。
[0003] 穩(wěn)健的對象再識別因為幾個原因而成為一個挑戰(zhàn)性的問題。首先,視角(即,攝像 機(jī)相對于攝像機(jī)視野中的對象的相對定向)和照明在網(wǎng)絡(luò)中的攝像機(jī)之間可能有顯著差 另IJ。例如,一個網(wǎng)絡(luò)可能包含用于在明亮的日光下遠(yuǎn)距離觀察目標(biāo)的室外攝像機(jī)和在人工 照明下近距離觀察目標(biāo)的室內(nèi)攝像機(jī)兩者。此外,許多目標(biāo)可能有相似的外觀,并且只在 小細(xì)節(jié)上可能會有所不同。例如,公共交通工具上的許多乘客穿著類似的職業(yè)裝,但是他 們的外觀在諸如領(lǐng)帶和頭發(fā)長度等細(xì)節(jié)方面存在不同。另外,公共場所的特征通常是非合 作目標(biāo)人群以相對于攝像機(jī)變化且不可預(yù)測的距離、速度和定向在不受控環(huán)境下移動。術(shù) 語"非合作目標(biāo)"是指既非有意識地、也非不自覺地保持與攝像機(jī)的特殊關(guān)系的目標(biāo)。最后, 網(wǎng)絡(luò)中的攝像機(jī)可能具有非重疊視野,因而可能不能從一個攝像機(jī)到下一攝像機(jī)來連續(xù)追 蹤給定目標(biāo)。
[0004] 用于對象再識別的一般方法包括(i)基于外觀或者基于屬性的方法和(ii)適用 于靜止攝像機(jī)或者活動攝像機(jī)的方法。一種已知用于使用靜止攝像機(jī)的、基于外觀的對象 再識別的方法,通過從對象的示例性圖像提取基于顏色、紋理和形狀的低層特征的矢量來 對對象的外觀進(jìn)行建模。在通過目標(biāo)的頭部周圍的垂直條紋所定義的關(guān)注區(qū)域中,提取這 些特征。再識別一定程度地是基于對外觀差異評分的計算,其中,該計算基于從候選目標(biāo)和 關(guān)注目標(biāo)的圖像所提取的特征矢量之間的巴氏(Bhattacharyya)距離。
[0005] 另一已知用于靜止攝像機(jī)中的、基于屬性的再識別的方法,使用支持向量機(jī)(SVM) 分類器的庫來判斷行人的圖像是否存在15個二值屬性(諸如太陽鏡、背包和裙子等)。根 據(jù)具有已知屬性的行人的訓(xùn)練集,針對2784維低層顏色和紋理特征矢量來訓(xùn)練SVM分類 器。為了克服以不同的可靠性檢測不同屬性這一問題,基于用于匹配行人的圖像對的數(shù)據(jù) 集來學(xué)習(xí)屬性距離度量(馬氏距離)。再識別一定程度地是基于對在從候選目標(biāo)和關(guān)注目 標(biāo)的圖像所提取的15個屬性之間所學(xué)習(xí)的屬性距離度量的計算。
[0006] 上述基于靜止攝像機(jī)的再識別方法的性能在跨大距離觀察對象時變差,這常見于 大規(guī)模視頻監(jiān)視系統(tǒng)?;谄綋u-俯仰-縮放(PTZ)的再識別方法可以通過控制攝像機(jī)拍 攝大距離處的候選對象的高分辨率圖像來克服該局限性。該方法被稱為"主動再識別"的 一種形式。用于主動再識別的一種已知方法使用面部檢測來識別關(guān)注對象。使用靜止主攝 像機(jī)來檢測目標(biāo)、并且估計他們的注視方向,并且使用活動的從攝像機(jī)來獲得所選擇的候 選目標(biāo)的高分辨率面部圖像。候選目標(biāo)選擇是基于針對觀察目標(biāo)的目標(biāo)識別的預(yù)期信息增 益的。還被稱為"互信息"的"預(yù)期信息增益",是通過進(jìn)行觀察所獲得的、對于與目標(biāo)識別 有關(guān)的不確定性的預(yù)期降低。該方法趨向于選擇面對著從攝像機(jī)的身份不明的候選者。該 方法的缺點在于依賴于以特定視角(即,正面)所拍攝的高鑒別特征(即,面部)。
[0007] 用于基于信息論概念的主動再識別的另一已知方法動態(tài)規(guī)劃一系列PTZ設(shè)置來 拍攝候選對象上不同區(qū)域的放大圖,以使針對候選對象的類的預(yù)期信息增益最大化。術(shù)語 "類"是指諸如"書籍"或者"杯子"等的語義對象分類。該信息增益一定程度地是根據(jù)關(guān)注 對象在不同PTZ設(shè)置下的低層圖像特征的學(xué)習(xí)分布而計算出的。該方法假定可以離線獲得 所有可用PTZ設(shè)置下對象的每一類的多個圖像以學(xué)習(xí)特征分布。
[0008] 在另一已知相關(guān)方法中,控制攝像機(jī)設(shè)置以使諸如對象檢測器等的隨機(jī)自動機(jī)中 的互信息最大化。隨機(jī)自動機(jī)以不同尺度的量化圖像特征(還被稱為"代碼字")作為輸 入。起初,在第一拍攝圖像中檢測代碼字,并且迭代更新攝像機(jī)設(shè)置從而以更高分辨率來觀 察各個代碼字。與前述方法相同,通過在觀察被作為向元胞的輸入的代碼字之后,使針對隨 機(jī)自動機(jī)中的元胞的狀態(tài)的互信息最大化來選擇攝像機(jī)設(shè)置。
[0009] 另一已知方法基于對于不同身體區(qū)域的一系列放大觀察,主動從已知人物的圖庫 再識別行人。該方法首先拍攝候選者的整個身體圖像,并且基于顏色和紋理來提取特征矢 量。基于候選者和每一圖庫圖像之間的巴氏距離,使用該特征矢量來對圖庫進(jìn)行排序。然 后,在基于當(dāng)前排序而假定跨圖庫的特征方差最大的情況下,選擇每一連續(xù)觀察作為放大 區(qū)域。該方法假定對于圖庫中的每一關(guān)注對象,整個身體和所有身體區(qū)域的放大圖都是可 用的。
【發(fā)明內(nèi)容】
[0010] 本發(fā)明的目的是為了基本上克服或者至少改善現(xiàn)有配置的一個以上的缺點。
[0011] 公開了被稱為視角獨立特有性確定(Viewpoint Independent Distinctiveness Determination (VIDD))配置的配置,其旨在通過獨立于攝像機(jī)和關(guān)注對象之間的相對定向 而確定關(guān)注對象的屬性的特有性來解決上述問題。這樣使得能夠在先前沒有看見關(guān)注對象 的視角下再識別關(guān)注對象,這不同于要求先前已經(jīng)在特定視角下觀察到關(guān)注對象的現(xiàn)有方 法。此外,所公開的VIDD配置包括使得在基于關(guān)注對象的語義描述時,能夠在無需該對象 的任何先前圖像的情況下再識別該對象。
[0012] 根據(jù)本發(fā)明的第一方面,提供一種用于利用攝像機(jī)識別場景的圖像中的對象的方 法,所述方法包括以下步驟:獨立于攝像機(jī)視角,確定關(guān)注對象的多個屬性中的各個屬性的 特有性;基于所述場景的圖像中的候選對象的相對定向,確定所述候選對象的所述多個屬 性中的各個屬性的可檢測性;基于所確定的至少一個屬性的特有性,確定用于觀察所述候 選對象的攝像機(jī)設(shè)置,以提高所述至少一個屬性的可檢測性;以及利用所確定的攝像機(jī)設(shè) 置來拍攝所述候選對象的圖像,以確定所述候選對象是所述關(guān)注對象的置信度。
[0013] 根據(jù)本發(fā)明的另一方面,提供一種設(shè)備,其包括:攝像機(jī),用于拍攝關(guān)注對象的圖 像和場景中候選對象的圖像;處理器;以及存儲器,用于存儲計算機(jī)可執(zhí)行軟件程序,其 中,所述計算機(jī)可執(zhí)行軟件程序用于指示所述處理器進(jìn)行用于利用所述攝像機(jī)來識別所述 場景的圖像中的對象的方法,所述方法包括以下步驟:獨立于攝像機(jī)視角,確定所述關(guān)注對 象的多個屬性中的各個屬性的特有性;基于所述場景的圖像中的候選對象的相對定向,確 定所述候選對象的所述多個屬性中的各個屬性的可檢測性;基于所確定的至少一個屬性的 特有性,確定用于觀察所述候選對象的攝像機(jī)設(shè)置,以提高所述至少一個屬性的可檢測性; 以及利用所確定的攝像機(jī)設(shè)置來拍攝所述候選對象的圖像,以確定所述候選對象是所述關(guān) 注對象的置信度。
[0014] 根據(jù)本發(fā)明的另一方面,提供一種用于利用攝像機(jī)識別場景的圖像中的對象的設(shè) 備,所述設(shè)備包括:特有性確定模塊,用于獨立于攝像機(jī)視角,確定關(guān)注對象的多個屬性中 的各個屬性的特有性;可檢測性確定模塊,用于基于所述場景的圖像中的候選對象的相對 定向,確定所述候選對象的所述多個屬性中的各個屬性的可檢測性;攝像機(jī)設(shè)置確定模塊, 用于基于所確定的至少一個屬性的特有性,確定用于觀察所述候選對象的攝像機(jī)設(shè)置,以 提高所述至少一個屬性的可檢測性;以及拍攝模塊,用于利用所確定的攝像機(jī)設(shè)置拍攝所 述候選對象的圖像,以確定所述候選對象是所述關(guān)注對象的置信度。
[0015] 根據(jù)本發(fā)明的另一方面,提供一種用于存儲計算機(jī)可執(zhí)行軟件程序的計算機(jī)可讀 非暫時性存儲器,其中,所述計算機(jī)可執(zhí)行軟件程序用于指示處理器進(jìn)行用于利用攝像機(jī) 識別場景的圖像中的對象的方法,所述方法包括以下步驟:獨立于攝像機(jī)視角,確定關(guān)注對 象的多個屬性中的各個屬性的特有性;基于所述場景的圖像中的候選對象的相對定向,確 定所述候選對象的所述多個屬性中的各個屬性的可檢測性;基于所確定的至少一個屬性的 特有性,確定用于觀察所述候選對象的攝像機(jī)設(shè)置,以提高所述至少一個屬性的可檢測性; 以及利用所確定的攝像機(jī)設(shè)置來拍攝所述候選對象的圖像,以確定所述候選對象是所述關(guān) 注對象的置信度。
[0016] 還公開了本發(fā)明的其它方面。
【附圖說明】
[0017] 這里參考以下【附圖說明】本發(fā)明一個以上的實施例,其中:
[0018] 圖1A是示出根據(jù)一種VIDD配置的用于描述示例性關(guān)注對象的屬性的簡化圖;
[0019] 圖1B是示出通過可使用VIDD配置的PTZ攝像機(jī)所拍攝的示例性候選對象的圖像 的簡化圖;
[0020] 圖2是示出在可以使用VIDD配置的不同攝像機(jī)設(shè)置下所拍攝的示例性候選對象 的圖像的簡化圖;
[0021] 圖3是根據(jù)一種VIDD配置的用于將候選對象的身份與所檢測到的屬性相關(guān)的信 念網(wǎng)絡(luò)的簡化圖;
[0022] 圖4是示出根據(jù)一種VIDD配置的用于利用攝像機(jī)識別場景中的對象的方法的示 意性流程圖;
[0023] 圖5、6A和6B共同示出根據(jù)圖4的方法的一種實施方案的用于確定候選對象的相 對定向的方法;
[0024] 圖7A是示出圖4的方法中所使用的用于檢測候選對象的屬性的方法的示意性流 程圖;
[0025] 圖7B示出根據(jù)圖7A的方法的一種實施方案的用于檢測候選對象的屬性的關(guān)注區(qū) 域的例子;
[0026] 圖8是示出在圖4的方法中所使用的用于確定候選對象是關(guān)注對象的概率的方法 的示意性流程圖;
[0027] 圖9是示出根據(jù)圖4的方法的一種實施方案的用于選擇新的攝像機(jī)設(shè)置的方法的 示意性流程圖;
[0028] 圖10A和10B形成可以實現(xiàn)上述VIDD配置的通用計算機(jī)系統(tǒng)的示意性框圖;
[0029] 圖11描述本說明書中所使用的術(shù)語之間的關(guān)系;以及
[0030] 圖12描述在圖4的步驟440所使用的如何確定特有性的例子。
【具體實施方式】
[0031] 如果下面任一附圖或者多個附圖中的步驟和/或者特征具有相同的附圖標(biāo)記,則 對于本說明書,這些步驟和/或者特征具有相同的功能或者操作,除非另有說明除外。
[0032] 應(yīng)該注意,"【背景技術(shù)】"部分和上述與在先技術(shù)配置有關(guān)的部分所包含的說明,涉 及對于通過各自的公開和/或者使用可能形成公共知識的文獻(xiàn)或者裝置的說明。這些說明 不應(yīng)被解釋為本發(fā)明人或者本專利申請人表示這些文獻(xiàn)或者裝置無論如何都形成該技術(shù) 領(lǐng)域的一般公共知識的一部分。
【背景技術(shù)】 [0033] 部分中所述的作為在先技術(shù)的主動再識別方法,需要在特定攝像機(jī)設(shè)置 或者觀察條件(包括所有可能觀察條件)下要拍攝的候選對象或者關(guān)注對象的圖像。在本 說明書中,"觀察條件"是指諸如攝像機(jī)和對象之間的距離、攝像機(jī)的焦距和分辨率以及對 象相對于攝像機(jī)的定向(即,視角)等的、拍攝對象的圖像時的條件。大規(guī)模監(jiān)視場景的特 征是非合作目標(biāo)在不受控環(huán)境下移動。因而,實際應(yīng)用表現(xiàn)出對于已知主動再識別方法的 不利條件。
[0034] 本發(fā)明提供一種用于通過規(guī)劃一系列所要使用的攝像機(jī)設(shè)置以提高最特有屬性 的可檢測性,從而基于對象的屬性使用攝像機(jī)來識別場景中的關(guān)注對象的方法和系統(tǒng)。在 本說明書中,"屬性"是諸如"頭發(fā)長度"等的、在圖像中可以觀察的對象的分類特征。術(shù)語 "類"以及"類標(biāo)簽"和"屬性標(biāo)簽"可互換地指屬性的特殊表現(xiàn),諸如,對于屬性"頭發(fā)長度", 類標(biāo)簽為"長發(fā)"。特定圖像的屬性的"可檢測性"是指從圖像可以確定該屬性的確定性。
[0035] 圖1A和1B示出可以應(yīng)用VIDD配置的示例性使用情況。在該例子中,目的是判斷 關(guān)注的人100 (該例子中的關(guān)注對象)何時出現(xiàn)在PTZ攝像機(jī)140的監(jiān)視下的場景的圖像 120中。在下面的說明中,"候選對象"是指可能是關(guān)注對象、但是當(dāng)前具有不明身份的任何 觀察對象。例如,通過攝像機(jī)140所觀察的場景的圖像120中的行人130,是關(guān)注對象100 的候選對象。
[0036] 圖1B示出通過數(shù)字?jǐn)z像機(jī)140所拍攝的場景的圖像120。
[0037] 圖11描述本說明書中所使用的一些術(shù)語。圖像1101由諸如1104等的視覺元素 構(gòu)成。在整個說明書中可以互換使用術(shù)語"像素"、"像素位置"和"圖像位置"以指拍攝圖像 中的視覺元素中的一個。通過表示拍攝場景的特征的一個以上的值來描述每一像素。在一 個例子中,單個強(qiáng)度值表示場景在像素位置處的亮度的特征。在另一例子中,三個一組的值 表示場景在像素位置處的顏色的特征。圖像1101中的"區(qū)域" 1103是指諸如1104等的一 個以上的空間相鄰的視覺元素的集合。"特征"1102表示根據(jù)圖像區(qū)域1103中的像素值所 確定的推斷值或者推斷值集。在一個例子中,特征是圖像區(qū)域1103中的顏色值的直方圖。 在另一例子中,特征是通過估計區(qū)域1103中的強(qiáng)度梯度所確定的"邊緣"值。在另一例子 中,特征是諸如包含頭部的區(qū)域中的標(biāo)簽"帽子"等的、用于描述圖像區(qū)域1103中的屬性的 類標(biāo)簽。通過對從圖像區(qū)域1103所提取的特征應(yīng)用支持向量機(jī)(SVM)或者其它分類方法, 來確定類標(biāo)簽。
[0038] 按照諸如"頭發(fā)長度"等的固定屬性集來描述關(guān)注的人100,其中,向每一屬性分 配離散的類標(biāo)簽(例如,"長發(fā)")。在一個VIDD配置中,屬性是用于描述關(guān)注的人的軟生 物特征(soft biometric)。軟生物特征對表示人類觀察者在描述他人時偏愛的特征的分 類語義信息進(jìn)行編碼。在一個例子中,使用軟生物特征(屬性)"頭發(fā)長度"來描述人,其 中,"頭發(fā)長度"具有類標(biāo)簽"長發(fā)"和"短發(fā)"中的一個。在本說明中,可以互換使用術(shù)語 "類標(biāo)簽"和"類",并且可以互換使用術(shù)語"屬性"