本發(fā)明通常涉及但不限于視頻監(jiān)控,更具體地,涉及用于多個圖像中的對象跟蹤和識別的方法和裝置。
背景技術(shù):
對象跟蹤廣泛應用于智能監(jiān)控,因此是計算機視覺中非常重要的任務。自動安全監(jiān)控系統(tǒng)一般利用攝像機或其他圖像捕獲設備或傳感器來收集圖像數(shù)據(jù)。在簡單的系統(tǒng)中,由圖像數(shù)據(jù)表示的圖像被顯示用于安保人員的同時篩查,和/或被記錄用于安全漏洞后的后續(xù)參照。在這些系統(tǒng)中,由觀察員執(zhí)行檢測關注對象的任務。當系統(tǒng)本身能夠部分或全部執(zhí)行對象檢測和跟蹤時,發(fā)生顯著進步。
對象跟蹤的關鍵之一是能夠描述所跟蹤的對象或?qū)⑺櫟膶ο笈c背景區(qū)分的魯棒的對象觀察模型。在一般的監(jiān)控系統(tǒng)中,例如,可能對在整個環(huán)境中移動的檢測到的對象(例如,人、車輛、動物、行李等)進行跟蹤感興趣。能夠跟蹤檢測到的對象的現(xiàn)有系統(tǒng),試圖使用運動預測并使用滑動窗口方法跟蹤在連續(xù)的視頻幀中選擇的特征,來跟蹤對象。
美國專利US2012/0274777A1號公報公開了“照相機系統(tǒng)拍攝的對象的跟蹤方法”,該方法提出了用于根據(jù)圖1所例示的跟蹤對象的流程圖來學習對象觀察模型的對象匹配器的方法。該跟蹤方法包括兩個階段,第一階段是離線學習階段,第二階段是在線跟蹤階段。因此,在離線學習階段,該方法使用足夠的正、負訓練樣本學習對象匹配器。這里,各離線正樣本是由兩個圖像構(gòu)成的匹配圖像對,各離線負樣本是不匹配圖像對(步驟100)。從兩個輸入圖像中提取邊緣方向特征(步驟101),并經(jīng)由判別訓練學習多個這種特征,以構(gòu)成對象匹配器(步驟102和步驟103)。對象匹配器能夠通過所學習的邊緣方向特征測量兩個對象之間的相似度。在在線跟蹤階段,對象檢測模型檢測多個關注對象(步驟104), 并且對象匹配器將所檢測到的對象與先前的跟蹤對象進行匹配(步驟105),因此能夠成功地更新所跟蹤的對象的位置(步驟106)。
此外,在上述美國專利中也公開了邊緣方向特征的提取處理。圖2是更詳細地示出圖1所例示的“提取方向特征”的步驟的流程圖。首先,輸入兩個圖像(步驟110)。然后,針對各圖像的預定區(qū)域提取兩個邊緣方向直方圖(步驟111)。最后,通過使用組合功能來組合兩個邊緣方向直方圖(步驟112),并比較邊緣方向的直方圖相似度(步驟113)。
也就是說,基于邊緣方向直方圖獲得上述邊緣方向相似度特征。在各輸入圖像的預定區(qū)域分別提取兩個邊緣方向直方圖,然后對其組合,例如直方圖相交或特征級聯(lián)。
然而,由于直方圖是多維的,邊緣方向直方圖計算負荷和直方圖組合兩者都很繁重,而且基于特征的直方圖增加了學習和匹配的復雜性,因此,滑動窗口匹配方法變得難以擔負。
本發(fā)明旨在解決上述問題。本發(fā)明的一個目的是提供解決任意上述問題的新方法和裝置。
技術(shù)實現(xiàn)要素:
根據(jù)本發(fā)明的一個方面,提供了一種裝置,該裝置包括:輸入單元,其被構(gòu)造為輸入模板窗口圖像和候選窗口圖像;特征圖像獲得單元,其被構(gòu)造為獲得所述模板窗口圖像和所述候選窗口圖像的特征圖像,并基于所述特征圖像提取標量圖像間特征;以及相似度計算單元,其被構(gòu)造為基于所述特征圖像計算所述模板窗口圖像與所述候選窗口圖像之間的相似度。通過以下參照附圖對示例性實施例的描述,本發(fā)明的其他特征將變得清楚。
附圖說明
圖1是例示用于對象跟蹤的現(xiàn)有技術(shù)方法的流程圖。
圖2是例示用于圖1中的邊緣方向特征提取的現(xiàn)有技術(shù)方法的流程 圖。
圖3是示例性例示能夠?qū)崿F(xiàn)本發(fā)明的實施例的計算機系統(tǒng)的硬件結(jié)構(gòu)的框圖。
圖4是例示本發(fā)明的實施例的框圖。
圖5是例示根據(jù)本發(fā)明的實施例的對象相似度確定方法的流程圖。
圖6是例示標量圖像間特征的提取方法的流程圖。
圖7A是輸入圖像對的示例。
圖7B是一種類型的特征圖像的示例。
圖7C是另一類型的特征圖像的示例。
圖7D是在特征圖像中選擇的特征區(qū)域的示例。
圖8是例示根據(jù)本發(fā)明的實施例的對象跟蹤方法的流程圖。
圖9是例示在特定示例中學習匹配器的方法的流程圖。
圖10是例示根據(jù)本發(fā)明的實施例的對象識別的方法的流程圖。
具體實施方式
參照以上列出的附圖,本部分描述了特定實施例及其具體的結(jié)構(gòu)和操作。請注意,通過僅例示而不限制的方式闡述下文要描述的實施例,因此這些實施例不限制本發(fā)明的范圍并能夠在本發(fā)明的范圍內(nèi)被改變?yōu)楦鞣N形式。鑒于本文的教導,本領域的技術(shù)人員將認識到存在等同于本文描述的示例實施例的范圍。
圖3是示例性例示能夠?qū)崿F(xiàn)實施例(例如,用于對象跟蹤和/或識別的方法和裝置)的計算機系統(tǒng)的硬件結(jié)構(gòu)的框圖。
如圖3所示,計算機系統(tǒng)至少包括計算機1100。例如,計算機1100可以是安全設備、監(jiān)控設備或其他圖像識別設備。請注意,計算機1100可以包括一個或多個計算機,多個計算機能夠單獨實現(xiàn)計算機1100的各個功能。
計算機1100包括能夠根據(jù)RAM 1130或ROM 1140中存儲的程序處理數(shù)據(jù)和指令的CPU 1120。RAM 1130被用作CPU 1120執(zhí)行各種處理(例 如,本發(fā)明的實施例)時的暫時存儲區(qū)域。
輸入設備1170包括允許用戶向計算機1100發(fā)出各種指令的圖像捕獲設備或用戶輸入接口或網(wǎng)絡接口。輸出設備1160包括輸出外圍接口。顯示設備1180包括監(jiān)視器或CRT或液晶顯示器和圖形控制器,并顯示本發(fā)明的結(jié)果。
系統(tǒng)總線1150連接CPU 1120、RAM 1130、ROM 1140、輸入設備1170、輸出設備1160以及顯示設備1180。在系統(tǒng)總線1150上傳送數(shù)據(jù)。如本文所使用的,術(shù)語“連接”是指邏輯上或物理上直接連接或通過一個或多個中介的間接連接。
通常,本發(fā)明的用于對象跟蹤或識別的輸入是各種類型的對象。例如,對象可以是圖像捕獲設備(例如,數(shù)字照相機、數(shù)字攝像機,傳感器或掃描設備(例如,掃描器或多功能設備))獲得的圖像。
圖3所示的計算機系統(tǒng)僅是說明性的,并且不旨在限制本發(fā)明,包括其應用或使用。例如,輸入設備1170(例如,圖像捕獲設備)獲得一些圖像作為輸入圖像,并通過系統(tǒng)總線1150將其發(fā)送并存儲在RAM 1130中。CPU 1120執(zhí)行RAM 1130中存儲的本發(fā)明的方法的程序,然后CPU 1120獲得、計算、測量并執(zhí)行本發(fā)明公開的所有步驟(例如,圖5至圖6以及圖8至圖10例示的步驟)。之后,CPU 1120能夠通過系統(tǒng)總線1150和輸出設備1160將結(jié)果發(fā)送到顯示設備1180。結(jié)果也可以被存儲在RAM 1130中。經(jīng)由網(wǎng)絡接口,結(jié)果也可以被發(fā)送到遠程計算機以用于其他應用。
此外,可以通過軟件、硬件、固件或其任何組合,來執(zhí)行被構(gòu)造為執(zhí)行對象跟蹤和識別的本發(fā)明的裝置(例如,圖4所例示的裝置)的各單元、設備、部件和/或組件。
下文中,將參照附圖描述根據(jù)本發(fā)明的實施例的對象跟蹤和識別的方法和裝置。
[第一實施例]
圖4是例示本發(fā)明的實施例的框圖。
如圖4所示,首先,作為輸入設備1170之一的圖像捕獲設備獲得一些圖像作為輸入圖像。例如,圖像捕獲設備獲得初始圖像作為在輸入單元510中輸入的候選圖像。然后,根據(jù)滑動窗口方式生成大量候選窗口圖像。輸入單元510還接收當在跟蹤或識別中使用時要跟蹤的對象的模板窗口圖像。在圖7A中,作為示例,左邊可以是模板窗口圖像,右邊可以是候選窗口圖像之一。模板窗口圖像和候選圖像是圖像對。
特征圖像獲得單元520被構(gòu)造為獲得特征圖像,在圖5的步驟131對其進行描述。
處理單元(CPU)1120使用RAM 1130或ROM 1140中存儲的程序和數(shù)據(jù)來執(zhí)行被構(gòu)造為操作本發(fā)明的圖像處理裝置的方法。處理單元(CPU)1120基于候選窗口圖像和模板窗口圖像轉(zhuǎn)換并獲得特征圖像。這里,可以使用所有種類的特征圖像,包括但不限于強度特征圖像、顏色特征圖像、梯度幅值特征圖像、梯度方向特征圖像以及濾波器響應特征圖像。在該實施例中,本發(fā)明使用兩種類型的特征圖像:一種類型是圖7B所示的YCrCb特征圖像,另一種類型是圖7C所示的HOG(方向梯度的直方圖)特征圖像。通過將輸入圖像從RGB顏色空間轉(zhuǎn)換為YCrCb顏色空間來獲得YCrCb特征圖像,并且獲得3通道Y、Cr和Cb。通過將各像素的梯度幅值根據(jù)其梯度方向投影為8個方向來獲得HOG特征圖像,因此獲得8個特征圖像。因此,YCrCb特征圖像和HOG特征圖像的總和為總共11個特征圖像。
相似度計算單元530被構(gòu)造為計算模板窗口圖像和各候選圖像之間的相似度,在圖5的步驟132中對其進行描述。
處理單元(CPU)1120使用RAM 1130或ROM 1140中存儲的程序和數(shù)據(jù)來執(zhí)行被構(gòu)造為操作本發(fā)明的圖像處理裝置的方法。在步驟132中,處理單元1120提取標量圖像間特征以計算特征圖像的相似度,在圖6的描述中對其進行例示。
圖6是例示標量圖像間特征的提取方法的流程圖。在步驟1321中, 處理單元(CPU)1120從稍后描述的對象匹配器學習處理中獲得特征參數(shù)。在步驟1322中,處理單元(CPU)1120計算特征圖像的圖像區(qū)域值。通過特征圖像n中的區(qū)域(“R”)內(nèi)的值的總和來表示圖像區(qū)域(例如,如圖7D所示)。因此,該總和可以采取下面的公式:
其中,Cn為特征圖像n。區(qū)域(“R”)被定義為易于使用積分圖像技術(shù)(如Otsu運算符)快速計算矩形內(nèi)的總和值的矩形。
并非必須使用區(qū)域內(nèi)的值的總和,而可以使用其他形式(例如,將一個區(qū)域的總和值減去另一個區(qū)域的總和值的Haar模式)。唯一的要求是結(jié)果值是標量。因此,本領域的技術(shù)人員將認識到本發(fā)明不限定于這種情況。
在步驟1323中,處理單元(CPU)1120計算特征圖像的標量圖像間特征的值。這里,標量圖像間特征被定義為以下公式。
其中,sum1是模板窗口圖像的區(qū)域的總和值,sum2是候選圖像之一的區(qū)域的總和值。例如,sum1是區(qū)域1的總和值,sum2是區(qū)域2的總和值(例如,如圖7D所示)。因此,通過將兩個值相除來計算標量圖像間特征,作為兩個特征圖像的相似度表示。
用于除法的總和值是特征圖像的區(qū)域內(nèi)的所有像素幅值的總和。即,該幅值總和為特征圖像的一個區(qū)域中的所有像素幅值的總和。分別計算兩個特征圖像的兩個區(qū)域的兩個幅值總和。通過將一個幅值總和除以另一個幅值總和來得到標量圖像間特征值。
相似度確定單元540被構(gòu)造為確定模板窗口圖像與各候選窗口圖像之間的相似度,在圖5的步驟133對其進行描述。
CPU使用RAM 1130或ROM 1140中存儲的程序和數(shù)據(jù)來執(zhí)行被構(gòu)造為操作本發(fā)明的圖像處理裝置的方法。在步驟133中,處理單元1120確定候選窗口圖像與模板窗口圖像的相似度。這里,如果存在標量圖像間特征,則標量圖像間特征能夠測量候選窗口圖像之一與模板窗口圖像 的區(qū)域圖像的兩個區(qū)域的相似度。明顯地,標量圖像間特征值越接近于1,兩個區(qū)域越相似。即,當除法結(jié)果越接近1時,相似度越高,否則相似度越低。因此,標量圖像間特征給出了兩個圖像的相似度測量。由于它是標量,所以還能夠非??斓赜嬎?。
也可以進行其他種類的標量圖像間特征的定義,只要該定義能夠測量兩個特征圖像的相似度即可。例如,如下定義兩個其他標量圖像間特征值。因此,本領域的技術(shù)人員將認識到本發(fā)明不限于這種情況。
輸出單元550被構(gòu)造為向輸出設備1160或顯示設備1180輸出模板窗口圖像與候選圖像的相似度,或?qū)⑾嗨贫却鎯υ赗AM 1130或ROM 1140中。
[第二實施例]
圖8是例示根據(jù)本發(fā)明的實施例的對象跟蹤方法的流程圖。
如圖8所示,在本實施例中,在跟蹤情況下,輸入圖像可以是新圖像幀。對象圖像可以保持作為要跟蹤的對象的模板圖像并用于匹配。新圖像和模板圖像是圖像對。
在步驟12中,處理單元1120生成滑動窗口。在本實施例中,處理單元1120以滑動窗口方式生成包含所跟蹤的對象的大量候選窗口圖像。即,通過滑動窗口方式,首先得到用于跟蹤的對象應位于的新的圖像或幀,然后找到預測對象模板窗口附近內(nèi)的所跟蹤的對象的新位置。
在步驟13中,處理單元1120在得到對象模板圖像和候選窗口圖像之后提取標量圖像間特征。將基于上述方法提取標量圖像間特征。
在步驟15中,處理單元1120基于下面詳細描述的學習匹配器14以及計算出的標量圖像間特征值,來測量圖像相似度。匹配器給出表示候選窗口圖像與模板圖像的相似度的值。該值越高,候選窗口圖像與模板 圖像越相似。在步驟12中所有生成的候選窗口圖像的相似度值可以用于通過定點置信度值的峰值,來定位最終對象的位置。
此外,當在步驟15中測量圖像相似度時,如圖9所示,學習匹配器14能夠被用于測量相似度,圖9是例示特定示例中的學習匹配器的方法的流程圖。
這是用于通過提取多個標量圖像間特征來測量兩個圖像的相似度的預先學習對象匹配器。對象匹配器由ck(1≤k≤K)代表弱回歸量的若干弱回歸量構(gòu)成。因此,該匹配器的輸出相似度被表示為:
即,匹配器的輸出相似度是所有弱回歸量的總和。
弱回歸量c具有如下形式:
其中,f是在步驟13獲得的標量圖像間特征的特征值,θ1和θ2是最低值和步長,步驟是具有L個區(qū)間的查找表。因此,弱回歸量接收特征值,計算所位于的雙區(qū)域,并給出查找值作為輸出。
對象匹配器學習處理
圖9是例示在特定示例中圖8中的學習匹配器步驟的方法的流程圖。
在步驟141中,圖像捕獲設備獲得一些圖像作為輸入成對圖像訓練樣本;例如,輸入離線成對圖像樣本。正成對圖像樣本由匹配的跟蹤對象的兩個圖像構(gòu)成。負成對圖像樣本由跟蹤的對象的圖像和不包括對象的圖像構(gòu)成。
通過拍攝包括要跟蹤的對象的類型(例如,頭部和肩部)的序列圖像來收集樣本。針對具有圖像模板的一個特定對象,發(fā)現(xiàn)其在后面的圖像中的跟蹤窗口位置,并且這兩個圖像構(gòu)成一對窗口作為正樣本。實際 上,正樣本被認為是成功匹配且跟蹤的對象窗口圖像對。針對負樣本,提取后面的圖像中不包含跟蹤對象的鄰近窗口圖像,并將其與特定對象窗口圖像組合。
在步驟142中,處理單元1120提取標量圖像間特征。生成標量圖像間特征池用于提供大量候選特征,然后機器學習算子從這些候選特征中選擇。
標量圖像間特征f(n,R)由特征圖像索引n和特征區(qū)域(“R”)確定,通過在所有8個HOG圖像通道和3個YcrCb通道排空n,并排空“R”的x、y、w、h參數(shù),生成特征池。針對所生成的特征池中的所有特征,針對每個樣本(包括正樣本和負樣本)計算其特征值。
在步驟143中,處理單元1120學習對象匹配器。判別機器學習算子用于學習能夠表示對象窗口圖像和候選窗口圖像之間的相似度的對象匹配器。
例如,AdaBoost被用作學習算子。AdaBoost能夠自動選擇具有最大判別性的標量圖像間特征。具有較小判別性或無判別性的標量圖像間特征被丟棄,因此,最終分類器僅包含表示更快匹配處理速度的少量標量圖像間特征。學習具有以下步驟:
1.使用相同權(quán)重初始化所有正樣本和負樣本。
2.在當前的樣本權(quán)重下,針對各特征以如下方式構(gòu)造弱回歸量:
a)得到所有樣本的所有標量圖像間特征值。
b)求正樣本的最小和最大特征值Max和Min,并設置θ1=min以及其中,L=8是查找表的區(qū)間數(shù)。
c)將所有樣本根據(jù)其特征值劃分到查找表的區(qū)間,然后計算位于區(qū)間l的樣本的正總和權(quán)重wpl以及負總和權(quán)重wnl,最后,查找表值被設置為
d)計算弱回歸量的誤差率。
3.找到具有最低誤差率的弱回歸量。
4.根據(jù)AdaBoost的權(quán)重更新規(guī)則來更新樣本權(quán)重。如果學習K個 弱回歸量,則完成。否則進入步驟2。
因此,使用該方法,學習具有K個弱回歸量的對象匹配器。
[第三實施例]
圖10是例示根據(jù)本發(fā)明的實施例的對象識別方法的流程圖。
如圖10所示,本發(fā)明還應用于對象識別,對象識別旨在通過將未識別的輸入圖像的相似度與數(shù)據(jù)庫中的一組圖像進行比較,來識別該未識別的輸入圖像。
圖像捕獲設備在步驟21中輸入未識別的圖像和數(shù)據(jù)庫中的一組圖像,然后通過使用上述學習匹配器來提取標量圖像間特征并測量相似度。最后,未識別的輸入圖像被識別為數(shù)據(jù)庫中的所有圖像當中給出最高相似度值的數(shù)據(jù)庫中的圖像。
應用
上述本發(fā)明能夠自動識別行人離開停放的汽車,并且稍后能夠?qū)⑵渑c進入車的人進行比較。如果進入車的人不是來自乘車的原始組人員,則安保人員能夠收到警報。通過警報自動發(fā)送視頻短片,使得易于檢查和快速確定是否存在問題。然后安保人員能夠選擇通知車主或報警。
通過跟蹤對象的功能,通過跟隨零售商店的個體購物者的路徑能夠檢測出欺詐。通過該功能,公開的本發(fā)明能夠被教導驗證,帶著商品離開商店的顧客是否在離開商店之前到收銀臺購買了商品。
當與對象匹配組合時,能夠改善面部識別系統(tǒng)的性能。
請注意,上述實施例僅是說明性的,本發(fā)明不限于上述實施例。上述方法的步驟的順序僅是說明性的,并且本發(fā)明的方法的步驟不限于以上具體說明的步驟。說明書中的各方面的各種組合應包含在本發(fā)明的保護范圍中。
此外,本發(fā)明還可以被實施為記錄在記錄介質(zhì)中的程序,包括用于實現(xiàn)根據(jù)本發(fā)明的方法的機器可讀指令。因此,本發(fā)明還包含存儲用于 實現(xiàn)根據(jù)本發(fā)明的方法的程序的記錄介質(zhì)。
雖然通過示例詳細說明了本發(fā)明的一些特定實施例,但是本領域的技術(shù)人員應當理解,以上示例僅是說明性的而不限制本發(fā)明的范圍。本領域的技術(shù)人員應當理解,可以修改以上實施例,只要不背離本發(fā)明的范圍和精神即可。所附權(quán)利要求限定了本發(fā)明的范圍。