本發(fā)明涉及一種行人重識別方法,具體涉及一種基于不規(guī)則視頻序列的行人重識別方法及系統(tǒng)。
背景技術(shù):
行人重識別,即在不同的攝像頭下識別感興趣行人。近年來,由于其在監(jiān)控領(lǐng)域、視頻分析以及其他多媒體應(yīng)用中的關(guān)鍵作用而廣受關(guān)注。由于查詢圖片和在庫圖片通常是由不同的攝像頭拍攝,因此,光照以及行人外貌會發(fā)生較大的變化,加上遮擋等其他外部環(huán)境的干擾,使得行人重識別成為一個相當(dāng)有挑戰(zhàn)性的工作。當(dāng)前,基于行人重識別的工作可以大致分為兩種:具有判別力的特征表示或者學(xué)習(xí)有效的距離度量模型。盡管近年來基于圖像的行人重識別已經(jīng)取得了長足的進(jìn)步,然而,由于單張圖片具有的信息有限,難以獲取行人魯棒的外觀特征以及時空信息,使得這種方法在復(fù)雜場景下難以取得很好的識別效果。在實際的應(yīng)用中,行人更多的是被視頻所記錄,這就意味著在每個攝像頭下行人具有多張連續(xù)的圖像信息。因此,利用這種序列圖像來提升行人重識別的性能是一個很自然的選擇,這也直接推動了基于視頻序列的行人重識別方法的研究。
相比于基于單張圖像的行人重識別,視頻序列具有更加豐富的信息。首先,視頻序列具有豐富的時空信息;其次,視頻序列中的行人視覺特征更加充足,從而可以構(gòu)建更加魯棒的行人外觀表示;最后,在視頻序列中,可以通過一定的方法有效的減輕遮擋及復(fù)雜背景帶來的影響,而在單張圖片中很難克服背景及遮擋對識別的影響。近來,已經(jīng)有部分工作致力于研究基于視頻的行人重識別工作,這些工作主要利用視頻序列來構(gòu)建更加魯棒的行人特征或者利用行人視頻序列學(xué)習(xí)更加具有判別力的距離度量方法。現(xiàn)有的基于視頻序列的重識別方法大多忽視了視頻序列中存在的噪聲,將視頻序列中的每張圖像同等利用。然而,在實際應(yīng)用中,視頻序列中的部分圖像大多是具有很強(qiáng)的噪聲干擾的,特別是遮擋以及背景的干擾。本發(fā)明將這種具有較強(qiáng)噪聲干擾的視頻序列稱為不規(guī)則視頻序列,這種序列對于行人的特征表示具有很大的影響,如何有效的處理不規(guī)則視頻序列是一個亟待解決的技術(shù)難題。
技術(shù)實現(xiàn)要素:
針對于傳統(tǒng)方法難以解決視頻序列中噪聲干擾的問題,本發(fā)明提出了一種可行的技術(shù)方案,用于檢測和消除視頻中的不規(guī)則子序列,從而保留噪聲較小的視頻子序列,構(gòu)建更加魯棒的行人特征表示,提高檢索識別效果。
為了實現(xiàn)上述目標(biāo),本發(fā)明采用的技術(shù)方案提供一種基于不規(guī)則視頻序列的行人重識別方法,包括以下步驟,
步驟1,視頻序列的分割,包括通過檢測狀態(tài)曲線中的穩(wěn)定點(diǎn),從視頻序列m提取多個連續(xù)的子序列,得到候選序列s;
步驟2,基于稀疏表示的不規(guī)則序列檢測,包括利用稀疏表示求取每個子序列的重構(gòu)誤差,得到各子序列的噪聲度量結(jié)果;
步驟3,不規(guī)則子序列的去除,包括根據(jù)步驟2中所得各子序列的噪聲度量結(jié)果,從候選序列s中剔除噪聲大于相應(yīng)閾值的子序列,設(shè)保留的子序列為s1,...,st,構(gòu)成候選池q;
步驟4,進(jìn)行自適應(yīng)權(quán)重的行人特征表示,得到基于視頻序列m的檢索結(jié)果,包括以下子步驟,
步驟4.1,子序列基礎(chǔ)特征表示,包括對于候選池q中的每個子序列分別用相應(yīng)基礎(chǔ)特征表示,記為f1,...,fn;
步驟4.2,計算候選池q中任一子序列st的權(quán)重ωt如下,
其中,ω*為歸一化因子,σt為子序列st的噪聲,t=1,...,t;
步驟4.3,行人特征表示,包括利用候選池q中的子序列及對應(yīng)的權(quán)重,加權(quán)計算行人最終的特征表示,則視頻序列m的特征表示如下,
根據(jù)視頻序列m的特征表示得到檢索結(jié)果。
而且,步驟1包括以下子步驟,
步驟1.1,對視頻序列m={i1,i2,...,in},設(shè)ii表示視頻的第i幀,計算相鄰幀ii-1的遮擋信息oi,其中,n為幀數(shù),i=1,2,3,...,n;
步驟1.2,采用穩(wěn)定性度量計算視頻序列m中每一幀的狀態(tài)相對于前一幀的變化;視頻幀ii的穩(wěn)定性φi定義如下,
其中,c為常數(shù),exp為指數(shù)函數(shù);
步驟1.3,視頻序列m的序列穩(wěn)定性度量ssm定義為ε=(φ2,...,φn),設(shè)ssm中的局部最大值為駐點(diǎn);
步驟1.4,設(shè)檢測ssm曲線中的局部最大值得到m個駐點(diǎn),從視頻序列m提取m個子序列,得到候選序列s={sj},j=1,...,m;設(shè)第j個駐點(diǎn)相應(yīng)圖像為it,根據(jù)該駐點(diǎn)提取的子序列sj=(it-l,...,it,...,it+l),其中,it表示視頻序列m中第t幀圖像,l為預(yù)設(shè)的分割間距。
而且,步驟2包括以下子步驟,
步驟2.1,字典的構(gòu)建,包括從子序列sj中的每幀圖像分別提取k個局部圖像塊,對于子序列sj中某圖像i中的第k個圖像塊
步驟2.2,稀疏重構(gòu),包括將子序列sj的重構(gòu)誤差ej定義如下,
其中,zk為子序列sj中各圖像的第k個圖像塊形成的矩陣,xk為相應(yīng)稀疏系數(shù);
步驟2.3,將子序列sj的噪聲σj定義為σj=exp((ej)2)。
而且,步驟3中,從候選序列s中刪除噪聲大于等于指定閾值θ的相應(yīng)子序列,其中θ定義為所有子序列噪聲的中值。
本發(fā)明還提供一種基于不規(guī)則視頻序列的行人重識別系統(tǒng),包括以下模塊,
第一模塊,用于視頻序列的分割,包括通過檢測狀態(tài)曲線中的穩(wěn)定點(diǎn),從視頻序列m提取多個連續(xù)的子序列,得到候選序列s;
第二模塊,用于基于稀疏表示的不規(guī)則序列檢測,包括利用稀疏表示求取每個子序列的重構(gòu)誤差,得到各子序列的噪聲度量結(jié)果;
第三模塊,用于不規(guī)則子序列的去除,包括根據(jù)第一模塊中所得各子序列的噪聲度量結(jié)果,從候選序列s中剔除噪聲大于相應(yīng)閾值的子序列,設(shè)保留的子序列為s1,...,st,構(gòu)成候選池q;
第四模塊,用于進(jìn)行自適應(yīng)權(quán)重的行人特征表示,得到基于視頻序列m的檢索結(jié)果,包括以下單元,
第一單元,用于子序列基礎(chǔ)特征表示,包括對于候選池q中的每個子序列分別用相應(yīng)基礎(chǔ)特征表示,記為f1,...,fn;
第二單元,用于計算候選池q中任一子序列st的權(quán)重ωt如下,
其中,ω*為歸一化因子,σt為子序列st的噪聲,t=1,...,t;
第三單元,用于行人特征表示,包括利用候選池q中的子序列及對應(yīng)的權(quán)重,加權(quán)計算行人最終的特征表示,則視頻序列m的特征表示如下,
根據(jù)視頻序列m的特征表示得到檢索結(jié)果。
而且,第一模塊包括以下單元,
第一單元,用于對視頻序列m={i1,i2,...,in},設(shè)ii表示視頻的第i幀,計算相鄰幀ii-1的遮擋信息oi,其中,n為幀數(shù),i=1,2,3,...,n;
第二單元,用于采用穩(wěn)定性度量計算視頻序列m中每一幀的狀態(tài)相對于前一幀的變化;視頻幀ii的穩(wěn)定性φi定義如下,
其中,c為常數(shù),exp為指數(shù)函數(shù);
第三單元,用于視頻序列m的序列穩(wěn)定性度量ssm定義為ε=(φ2,...,φn),設(shè)ssm中的局部最大值為駐點(diǎn);
第四單元,用于設(shè)檢測ssm曲線中的局部最大值得到m個駐點(diǎn),從視頻序列m提取m個子序列,得到候選序列s={sj},j=1,...,m;設(shè)第j個駐點(diǎn)相應(yīng)圖像為it,根據(jù)該駐點(diǎn)提取的子序列sj=(it-l,...,it,...,it+l),其中,it表示視頻序列m中第t幀圖像,l為預(yù)設(shè)的分割間距。
而且,第二模塊包括以下單元,
第一單元,用于字典的構(gòu)建,包括從子序列sj中的每幀圖像分別提取k個局部圖像塊,對于子序列sj中某圖像i中的第k個圖像塊
第二單元,用于稀疏重構(gòu),包括將子序列sj的重構(gòu)誤差ej定義如下,
其中,zk為子序列sj中各圖像的第k個圖像塊形成的矩陣,xk為相應(yīng)稀疏系數(shù);
第三單元,用于將子序列sj的噪聲σj定義為σj=exp((ej)2)。
而且,第三模塊中,從候選序列s中刪除噪聲大于等于指定閾值θ的相應(yīng)子序列,其中θ定義為所有子序列噪聲的中值。
本發(fā)明具有以下積極效果和優(yōu)點(diǎn):
1、本發(fā)明通過以序列的穩(wěn)定性度量方法從視頻序列提取多個具有子序列。
2、本發(fā)明利用一種基于稀疏重構(gòu)的方法來檢測和去除噪聲較大的子序列,從而構(gòu)建一個噪聲較小的候選池。
3、本發(fā)明利用一種自適應(yīng)的權(quán)重計算方案,綜合利用候選池中所有的子序列來構(gòu)建目標(biāo)的特征表示,從而使得目標(biāo)特征更加魯棒和具有判別力。
4、本發(fā)明提升了不規(guī)則序列下行人重識別的性能,可廣泛用于監(jiān)控領(lǐng)域、視頻分析以及其他多媒體應(yīng)用,精度高,效果好,具有重要的市場價值。
附圖說明
圖1為本發(fā)明實施例的流程圖。
具體實施方式
首先,傳統(tǒng)的基于圖像的視頻的行人重識別方法由于其有限的信息,難以克服行人遮擋、背景干擾的等復(fù)雜場景下的行人重識別問題。而基于視頻序列的重識別可以利用其豐富的視覺信息及時空特征,有效的解決遮擋以及背景干擾等影響行人重識別效果的問題。
其次,已有的基于視頻序列的重識別方法大多忽視了視頻序列中存在的噪聲干擾,同等的利用視頻中的所有信息。而這種噪聲是普遍存在的并且對于行人重識別有著很大的消極影響。
區(qū)別于傳統(tǒng)方法假設(shè)序列圖片的一致性,本發(fā)明關(guān)注視頻序列中的噪聲對于重識別性能帶來的不利影響。對于視頻序列中圖像狀態(tài)差異化的觀察,本發(fā)明通過實驗發(fā)現(xiàn)了序列中存在的一個普遍現(xiàn)象:序列圖像狀態(tài)的變化具有一定的規(guī)律,序列中目標(biāo)狀態(tài)的變化在一定程度上反映了目標(biāo)的穩(wěn)定性。
本發(fā)明提出的一種基于不規(guī)則視頻序列的行人重識別方法,包括不規(guī)則序列的有效檢測及去除。首先,視頻序列具有時間連續(xù)性,因此噪聲圖像的去除和檢測應(yīng)基于連續(xù)的視頻圖像,即視頻噪聲的度量應(yīng)基于視頻的子序列。值得注意的是,本發(fā)明這里指的視頻子序列是指同一個子序列中的圖像應(yīng)具有相似的狀態(tài)(狀態(tài)指示其噪聲大小)。
進(jìn)一步地,對序列中目標(biāo)狀態(tài)的有效度量,本發(fā)明利用序列中相鄰幀之間的遮擋信息來度量其序列的穩(wěn)定性,有效的利用其穩(wěn)定性變化實現(xiàn)視頻序列的子序列提取,從而使得同一子序列中的圖像具有相同的狀態(tài)。
進(jìn)一步地,為實現(xiàn)不規(guī)則子序列的檢測及去除,本發(fā)明利用一種基于稀疏表示的方法對子序列的噪聲進(jìn)行度量,利用子序列的重構(gòu)誤差來表征其噪聲的大小。最后,剔除噪聲過大的子序列,構(gòu)建噪聲較小的目標(biāo)候選池。
進(jìn)一步地,為實現(xiàn)行人特征表示的有效構(gòu)建,本發(fā)明利用其噪聲的大小來計算每個子序列的權(quán)重,最終綜合利用候選池中的所有子序列來加權(quán)構(gòu)建魯棒的行人特征表示,極大的提升了行人重識別的效果。本發(fā)明提出的一種自適應(yīng)的權(quán)重計算方法,能夠有效的綜合利用噪聲較小的所有子序列,使得本發(fā)明構(gòu)建的行人特征描述更加魯棒和更加具有判別力。
本發(fā)明通過檢測和消除視頻序列中噪聲較大的子序列能夠有效的較少噪聲的干擾,從而極大的提升了行人重識別的效果。
參見圖1,實施例提供的一種基于不規(guī)則視頻序列的行人重識別方法,具體包括:
步驟1,視頻序列的分割。視頻中圖像的狀態(tài)變化具有時域上的連續(xù)性,因此本發(fā)明提出一種序列穩(wěn)定性度量方法,從而有效的表示視頻序列中行人的狀態(tài)變化。通過檢測狀態(tài)曲線中的穩(wěn)定點(diǎn),本發(fā)明從視頻序列提取多個連續(xù)的子序列,在同一個子序列中的行人圖像具有相似的狀態(tài)(無噪聲或有噪聲)。
對于大多數(shù)視頻序列來說,部分子序列中噪聲較大,而剩下的子序列相對噪聲較小,因此,本發(fā)明將視頻序列依據(jù)其狀態(tài)的變化分為多個子序列,從而將具有統(tǒng)一狀態(tài)的圖像序列分割為統(tǒng)一子序列。實施例的步驟1具體如下:
步驟1.1:對視頻序列m={i1,i2,...,in},設(shè)ii表示視頻的第i幀,計算其相鄰幀ii-1的遮擋信息oi,n為幀數(shù),i=1,2,3,...,n。
優(yōu)選地,實施例將光流計算與遮擋檢測當(dāng)作一個聯(lián)合的優(yōu)化問題來進(jìn)行優(yōu)化,從而獲得一個比較可靠的遮擋檢測,具體實現(xiàn)可參見alperayvaci,michalisraptis,andstefanosoatto.2010.occlusiondetectionandmotionestimationwithconvexoptimization.inadvancesinneuralinformationprocessingsystems.100–108
步驟1.2:步驟1.1中計算得到的遮擋信息oi反映的是幀間遮擋,即oi表明當(dāng)前幀ii相較于前一幀ii-1的遮擋情況。從一定的角度來看,oi表示了視頻序列m中連續(xù)幀之間的狀態(tài)變化。因此,本發(fā)明提出一種穩(wěn)定性度量方法來計算視頻序列m中每一幀的狀態(tài)相對于其前一幀的變化。視頻幀ii的穩(wěn)定性φi可以被定義為:
其中,c為一個常數(shù),exp為指數(shù)函數(shù)。具體實施時,c可采用經(jīng)驗值,實施例取2。
步驟1.3:此時,視頻序列m的序列穩(wěn)定性度量(ssm)被定義為:ε=(φ2,...,φn),可以觀察到ssm中的局部最大值,本發(fā)明稱其為駐點(diǎn),即在駐點(diǎn)周圍的視頻幀都具有相同的狀態(tài);
步驟1.4:設(shè)通過檢測ssm曲線中的局部最大值得到若干駐點(diǎn),本發(fā)明通過抽取各駐點(diǎn)周圍的視頻幀,從視頻序列m提取多個子序列,得到候選序列集合s={sj},j=1,...,m,m為子序列的個數(shù)(即駐點(diǎn)的個數(shù))。設(shè)第j個駐點(diǎn)相應(yīng)圖像為it,根據(jù)該駐點(diǎn)提取的子序列sj=(it-l,...,it,...,it+l),其中,it表示第t幀圖像,l為預(yù)設(shè)的分割間距,每個駐點(diǎn)的子序列包括該駐點(diǎn)以及前后l個相鄰的視頻幀。具體實施時,可以根據(jù)駐點(diǎn)之前的距離設(shè)置l,或者采用經(jīng)驗值,例如l取10。
步驟2,基于稀疏表示的不規(guī)則序列檢測。本發(fā)明利用稀疏表示對視頻中的每一個子序列進(jìn)行其噪聲度量,用每個子序列的重構(gòu)誤差來指示其噪聲的大小。
通過前面本發(fā)明從視頻序列提取子序列,在同一子序列中的圖片具有相似的狀態(tài)(無噪聲或有噪聲)。在此基礎(chǔ)上,實施例的步驟2利用稀疏表示來檢測不規(guī)則的子序列,具體來說分為以下幾個步驟:
步驟2.1:字典的構(gòu)建,對于子序列sj,本發(fā)明用一定的空間網(wǎng)格結(jié)構(gòu)在其中的每個視頻幀圖片i(包括it-l,...,it,...,it+l)中分別提取k個局部圖像塊,如將每幀圖片均勻的劃分為10×10的網(wǎng)格,得到k=100個局部圖像塊。這些圖像塊被用來構(gòu)建相應(yīng)的字典。具體的說,對于子序列sj的任一圖像i中的第k個圖像塊
步驟2.2:稀疏重構(gòu),對于子序列sj的任一圖像i中的任意圖像塊
其中,β表示稀疏系數(shù),λ為正則化因子,d為相應(yīng)字典,則此時圖像塊p的重構(gòu)誤差被定義為:
相應(yīng)地,本發(fā)明將子序列sj的重構(gòu)誤差ej定義如下:
其中,zk為子序列sj中各圖像的第k個圖像塊形成的矩陣,包括2l+1個圖像塊,每列是一個圖像塊的所有像素按從左到右從上到下展開的結(jié)果;xk為相應(yīng)稀疏系數(shù),是2l+1個圖像塊的稀疏表示計算結(jié)果構(gòu)成的向量。
步驟2.3:通過上述步驟2.2已獲取每個子序列的重構(gòu)誤差,本發(fā)明將子序列sj的噪聲σj定義為:
σj=exp((ej)2);
步驟3,不規(guī)則子序列的去除。根據(jù)步驟2中各子序列的噪聲大小,本發(fā)明剔除那些噪聲大于指定閾值的子序列,保留噪聲較小的子序列。
在上述步驟2.3中,可以觀察到sj的噪聲重構(gòu)誤差ej越大,則其噪聲σj越大,則子序列sj的可用性越差,因此被刪除的概率應(yīng)該越大,實施例的步驟3具體步驟為:
步驟3.1:從候選序列集合s中刪除噪聲大于等于指定閾值θ的相應(yīng)子序列,其中θ定義為:
θ=median(σj),j=1,...,m
即閾值θ被定義為所有子序列噪聲的中值;
步驟3.2:設(shè)步驟3.1處理后保留的噪聲較小的子序列(滿足σj<θ的子序列)為s1,...,st,構(gòu)建候選池q={s1,...,st},t表示保留的噪聲較小的子序列個數(shù)。本步驟根據(jù)步驟3.1處理后保留的結(jié)果,將噪聲較小的子序列構(gòu)建候選池。
步驟4,進(jìn)行自適應(yīng)權(quán)重的行人特征表示,得到基于視頻序列m的檢索結(jié)果。本發(fā)明對保留的噪聲較小的子序列,自適應(yīng)的計算其特征權(quán)重,最后將各個子序列的特征進(jìn)行加權(quán)融合,從而構(gòu)建更加魯棒的行人特征表示。
在上述步驟中,本發(fā)明刪除了噪聲較大的子序列,利用噪聲較小的子序列構(gòu)建候選池,為了獲得更加充足的行人外觀特征,本發(fā)明將綜合候選池的所有子序列來構(gòu)建行人的特征表示。實施例的步驟4具體步驟為:
步驟4.1:子序列基礎(chǔ)特征表示,對于候選池q中的每個子序列,本發(fā)明分別用相應(yīng)基礎(chǔ)特征f來表示,分別記為f1,...,fn。即q的特征可以表示為:
fq={f1,...,ft};
在構(gòu)建基礎(chǔ)特征f時,為了獲得更加魯棒的特征表示,優(yōu)選利用序列的視覺特征(顏色特征、紋理特征等)和序列的時空特征(hog3d)來綜合構(gòu)建行人基礎(chǔ)特征表示。例如在構(gòu)建序列的視覺特征時,首先對序列中的每幀圖片提取顏色特征(如hsv顏色直方圖等),然后采用maxpooling構(gòu)建序列的視覺特征表示
步驟4.2:計算候選池中任一子序列st的權(quán)重,其權(quán)重ωt定義如下:
其中,ω*為歸一化因子,用于確保各子序列的權(quán)重和為1;σt為子序列st的噪聲,t=1,...,t。
步驟4.3:行人特征表示,本發(fā)明利用候選池中的子序列及其對應(yīng)的權(quán)重來加權(quán)計算行人最終的特征表示,則視頻序列m的特征表示為:
在得到序列的特征表示后,可以利用已有的特征度量方法進(jìn)行訓(xùn)練和測試。在測試時,對于每一個查詢序列,利用已有的度量方法(如xqda、kissme)計算該查詢序列與在庫行人序列的特征距離,最后按照距離升序排序即可得到該查詢序列的檢索結(jié)果。
具體實施時,本發(fā)明所提供方法可基于軟件技術(shù)實現(xiàn)自動運(yùn)行流程,也可采用模塊化方式實現(xiàn)相應(yīng)系統(tǒng)。
本發(fā)明還提供一種基于不規(guī)則視頻序列的行人重識別系統(tǒng),包括以下模塊,
第一模塊,用于視頻序列的分割,包括通過檢測狀態(tài)曲線中的穩(wěn)定點(diǎn),從視頻序列m提取多個連續(xù)的子序列,得到候選序列s;
第二模塊,用于基于稀疏表示的不規(guī)則序列檢測,包括利用稀疏表示求取每個子序列的重構(gòu)誤差,得到各子序列的噪聲度量結(jié)果;
第三模塊,用于不規(guī)則子序列的去除,包括根據(jù)第一模塊中所得各子序列的噪聲度量結(jié)果,從候選序列s中剔除噪聲大于相應(yīng)閾值的子序列,設(shè)保留的子序列為s1,...,st,構(gòu)成候選池q;
第四模塊,用于進(jìn)行自適應(yīng)權(quán)重的行人特征表示,得到基于視頻序列m的檢索結(jié)果,包括以下單元,
第一單元,用于子序列基礎(chǔ)特征表示,包括對于候選池q中的每個子序列分別用相應(yīng)基礎(chǔ)特征表示,記為f1,...,fn;
第二單元,用于計算候選池q中任一子序列st的權(quán)重ωt如下,
其中,ω*為歸一化因子,σt為子序列st的噪聲,t=1,...,t;
第三單元,用于行人特征表示,包括利用候選池q中的子序列及對應(yīng)的權(quán)重,加權(quán)計算行人最終的特征表示,則視頻序列m的特征表示如下,
根據(jù)視頻序列m的特征表示得到檢索結(jié)果。
各模塊具體實現(xiàn)可參見相應(yīng)步驟,本發(fā)明不予贅述。
本文中所描述的具體實施方式僅僅是對本發(fā)明精神作舉例說明。本發(fā)明所屬技術(shù)領(lǐng)域的技術(shù)人員可以對所描述的具體實施方式做各種各樣的修改或補(bǔ)充或采用類似的方式替代,但并不會偏離本發(fā)明的精神或者超越所附權(quán)利要求書所定義的范圍。