本發(fā)明屬于視頻監(jiān)控領(lǐng)域,尤其涉及一種智能視頻監(jiān)控的行人檢測方法和裝置。
背景技術(shù):
智能視頻分析技術(shù)是應(yīng)用計算機(jī)視覺技術(shù)對視頻流進(jìn)行實時精確分析,從中找出人們感興趣的事件或潛在的威脅,并及時發(fā)出預(yù)警,從而達(dá)到在無人值守情況下的自動監(jiān)控。
隨著智慧城市建設(shè)的不斷深入,智能視頻分析得到人們越來越多的關(guān)注。由于硬件技術(shù)的發(fā)展以及計算性能的提升、大數(shù)據(jù)處理技術(shù)的突破以及深度學(xué)習(xí)算法的爆發(fā)式增長,為該技術(shù)的大范圍實際應(yīng)用提供了技術(shù)基礎(chǔ)。目前,在邊境線、機(jī)場、港口、碼頭、酒店、寫字樓、醫(yī)院等等,都有數(shù)不清的智能視頻分析應(yīng)用的成功案例。智能視頻分析技術(shù)早已從舊時的實驗室研發(fā)階段飛入尋常百姓家。
安全是人們永遠(yuǎn)不變的主題,而安防中的視頻監(jiān)控以其實時錄像、直觀有效等諸多優(yōu)點而成為人們所采用的主要手段。保守估計目前全世界有近2億個攝像頭在各個角落時刻地注視著我們,并且每年每個國家、地區(qū)、甚至企業(yè)和個人都投入大量預(yù)算用于安防。僅僅攝像頭一項,每年全世界出貨量都在4000萬部以上,更不用說與其配套的編解碼設(shè)備、存儲設(shè)備、顯示設(shè)備等等。所有這些投入的最終目的只有一個,那就是有效地保障人們的生命和財產(chǎn)安全,但遺憾的是實際情況卻與人們期望的相距甚遠(yuǎn),那就是實時的視頻監(jiān)控設(shè)備幾乎無法為人們提供實時的安全防護(hù)。這種情況通常是由以下幾方面原因造成的:1)用來監(jiān)視實時視頻的工作人員數(shù)量與監(jiān)控設(shè)備的數(shù)量遠(yuǎn)遠(yuǎn)不在一個數(shù)量級上,也就是常說的人手不夠問題;2)即使在小范圍內(nèi)或重點場所有足夠的人力進(jìn)行人工監(jiān)測,但是由于人的生理限制,人們無法長時間地集中注意力盯著屏幕,這就使得幾十分鐘甚至幾分鐘后,盯著屏幕的安保人員將對其視頻中的大部分信息將視而不見,這不僅導(dǎo)致了資源投入的嚴(yán)重浪費,更與人們的初衷相違背。
智能視頻分析技術(shù)的出現(xiàn)在很大程度上解決了上述問題,其不僅將人們從繁重的監(jiān)控任務(wù)中解放出來,更可以在威脅等情況即將發(fā)生時第一時間通知人們,使監(jiān)控設(shè)備從被動的記錄取證設(shè)備轉(zhuǎn)為主動的防御系統(tǒng)。智能視頻分析技術(shù)的通常工作流程是通過對環(huán)境進(jìn)行建模,從而發(fā)現(xiàn)感興趣的運動目標(biāo)或可疑的異常事件,并對運動目標(biāo)進(jìn)行跟蹤與軌跡分析,進(jìn)而對其行為模式進(jìn)行識別與分類。無論是目標(biāo)檢測還是行為分析,人們通常只關(guān)心感興趣的幾類目標(biāo),尤其是人和車輛這兩類,因此,行人檢測的準(zhǔn)確性直接影響了整個系統(tǒng)的識別能力。
作為智能視頻分析核心組件的行人檢測技術(shù)經(jīng)過10多年的發(fā)展取得了較大的進(jìn)步,陸續(xù)提出一些在某些場景中有較好效果的學(xué)習(xí)算法和分類器。然而,由于場景的多樣性和復(fù)雜性、訓(xùn)練數(shù)據(jù)的不足以及算法本身的泛化能力不足等各種條件制約,導(dǎo)致現(xiàn)有的行人檢測技術(shù)識別率有待提高,而誤報率有待降低。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于提供一種智能視頻監(jiān)控的行人檢測方法和裝置,以提高智能視頻監(jiān)控時對行人的識別率。
本發(fā)明第一方面提供一種智能視頻監(jiān)控的行人檢測方法,所述方法包括:
通過對視頻流的樣本數(shù)據(jù)進(jìn)行支持向量機(jī)svm訓(xùn)練,得到基于svm的分類器;
對實時采集的視頻幀序列進(jìn)行圖像變換,得到變換后的圖像,所述視頻幀序列為智能視頻監(jiān)控的攝像頭所采集視頻流的離散圖像幀,所述所采集視頻流包含行人和除行人之外的其他對象;
使用所述基于svm的分類器遍歷所述變換后的圖像以獲取行人感興趣區(qū)域roi。
本發(fā)明第二方面提供一種智能視頻監(jiān)控的行人檢測裝置,所述裝置包括:
分類器獲取模塊,用于通過對視頻流的樣本數(shù)據(jù)進(jìn)行支持向量機(jī)svm訓(xùn)練,得到基于svm的分類器;
變換模塊,用于對實時采集的視頻幀序列進(jìn)行圖像變換,得到變換后的圖像,所述視頻幀序列為智能視頻監(jiān)控的攝像頭所采集視頻流的離散圖像幀,所述所采集視頻流包含行人和除行人之外的其他對象;
分類模塊,用于使用所述基于svm的分類器遍歷所述變換后的圖像以獲取行人感興趣區(qū)域roi。
從上述本發(fā)明技術(shù)方案可知,通過對視頻流的樣本數(shù)據(jù)進(jìn)行支持向量機(jī)svm訓(xùn)練,得到基于svm的分類器,對實時采集的視頻幀序列進(jìn)行圖像變換,得到變換后的圖像,使用基于svm的分類器遍歷變換后的圖像以獲取行人感興趣區(qū)域roi,與現(xiàn)有技術(shù)相比,本發(fā)明提供的技術(shù)方案使得在智能視頻監(jiān)控中,不僅對行人檢測的準(zhǔn)確率有顯著的提高,且算法有較強的泛化能力,而且并且算法的計算復(fù)雜度更低低,例如,在配置為inteli53.3ghz、4g內(nèi)存的臺式電腦上的處理速度可以達(dá)到40fps以上。
附圖說明
圖1是本發(fā)明實施例一提供的智能視頻監(jiān)控的行人檢測方法的實現(xiàn)流程示意圖;
圖2-a是本發(fā)明實施例二提供的對圖像進(jìn)行l(wèi)bp編碼的示意圖;
圖2-b是本發(fā)明實施例三提供的對圖像進(jìn)行clbp編碼的示意圖;
圖3是本發(fā)明實施例四提供的智能視頻監(jiān)控的行人檢測裝置的結(jié)構(gòu)示意圖;
圖4是本發(fā)明實施例五提供的智能視頻監(jiān)控的行人檢測裝置的結(jié)構(gòu)示意圖;
圖5是本發(fā)明實施例六提供的智能視頻監(jiān)控的行人檢測裝置的結(jié)構(gòu)示意圖;
圖6是本發(fā)明實施例七提供的智能視頻監(jiān)控的行人檢測裝置的結(jié)構(gòu)示意圖;
圖7-a是本發(fā)明實施例八提供的智能視頻監(jiān)控的行人檢測裝置的結(jié)構(gòu)示意圖;
圖7-b是本發(fā)明實施例九提供的智能視頻監(jiān)控的行人檢測裝置的結(jié)構(gòu)示意圖;
圖7-c是本發(fā)明實施例十提供的智能視頻監(jiān)控的行人檢測裝置的結(jié)構(gòu)示意圖;
圖7-d是本發(fā)明實施例十一提供的智能視頻監(jiān)控的行人檢測裝置的結(jié)構(gòu)示意圖。
具體實施方式
為了使本發(fā)明的目的、技術(shù)方案及有益效果更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
本發(fā)明實施例提供一種智能視頻監(jiān)控的行人檢測方法,所述方法包括:通過對視頻流的樣本數(shù)據(jù)進(jìn)行支持向量機(jī)svm訓(xùn)練,得到基于svm的分類器;對實時采集的視頻幀序列進(jìn)行圖像變換,得到變換后的圖像,所述視頻幀序列為智能視頻監(jiān)控的攝像頭所采集視頻流的離散圖像幀,所述所采集視頻流包含行人和除行人之外的其他對象;使用所述基于svm的分類器遍歷所述變換后的圖像以獲取行人感興趣區(qū)域roi。本發(fā)明實施例還提供相應(yīng)的智能視頻監(jiān)控的行人檢測裝置。以下分別進(jìn)行詳細(xì)說明。
請參閱附圖1,是本發(fā)明實施例一提供的智能視頻監(jiān)控的行人檢測方法的實現(xiàn)流程示意圖,主要包括以下步驟s101至步驟s103,詳細(xì)說明如下:
s101,通過對視頻流的樣本數(shù)據(jù)進(jìn)行支持向量機(jī)svm訓(xùn)練,得到基于svm的分類器。
支持向量機(jī)(supportvectormachine,svm)是建立在統(tǒng)計學(xué)習(xí)理論的vc維理論和結(jié)構(gòu)風(fēng)險最小原理基礎(chǔ)上,根據(jù)有限的樣本信息在模型的復(fù)雜性(即對特定訓(xùn)練樣本的學(xué)習(xí)精度)和學(xué)習(xí)能力(即無錯誤地識別任意樣本的能力)之間尋求最佳折衷,以期獲得最好的推廣能力或泛化能力。在本發(fā)明實施例中,視頻流的樣本數(shù)據(jù)可以是從一些存儲有視頻流數(shù)據(jù)的數(shù)據(jù)庫,例如inria、caltech或tud等數(shù)據(jù)庫中取得,也可以是用戶從行人密集的場合,例如車站、碼頭、機(jī)場或工業(yè)園區(qū)采集得到,本發(fā)明對此不做限制。
作為本發(fā)明一個實施例,通過對視頻流的樣本數(shù)據(jù)進(jìn)行支持向量機(jī)svm訓(xùn)練,得到基于svm的分類器可通過如下步驟s1011至s1013實現(xiàn):
s1011,對樣本數(shù)據(jù)包含的圖像進(jìn)行l(wèi)uv變換,得到luv圖像。
在本發(fā)明實施例中,對樣本數(shù)據(jù)包含的原始圖像進(jìn)行l(wèi)uv變換得到luv圖像后,還可以保存原始圖像的原始分量圖。
s1012,對樣本數(shù)據(jù)包含的圖像進(jìn)行完整局部二值模式clbp編碼以得到clbp圖像,并計算clbp圖像的方向梯度和方向梯度的大小。
局部二值模式(localbinarypattern,lbp)是一種用來描述圖像局部紋理特征的算子,其具有旋轉(zhuǎn)不變性和灰度不變性等顯著的優(yōu)點。clbp編碼的原理如附圖2-a所示,其中,附圖2-a的左圖小方格中的數(shù)值表示圖像的原始像素值即其灰度值信息,右圖為其中心位置像素的像素值與其鄰域位置像素的像素值大小比較后的二值圖(鄰域位置像素的像素值小于中心位置像素的像素值時,則該鄰域位置的像素被編碼為“0”,反之為“1”),通過這種比較運算,每個像素都可以得到一個8鄰域的二值序列,該二進(jìn)制序列最后可轉(zhuǎn)換成一個十進(jìn)制整型值。例如,附圖2-a的右圖中心位置的像素,其lbp編碼為11110001,換算成十進(jìn)制整型值則為241。
在智能視頻監(jiān)控的行人檢測中,lbp特征描述符常常被用于主要的候選特征,然而,由于行人檢測應(yīng)用場中背景的復(fù)雜性、人體整體輪廓與人臉圖像的紋理特征具有較大差異性,導(dǎo)致直接應(yīng)用原始的lbp效果不佳,因此,在本發(fā)明實施例中,對樣本數(shù)據(jù)包含的圖像進(jìn)行完整局部二值模式(completedlocalbinarypattern,clbp)編碼以得到clbp圖像clbp描述符可以對行人輪廓進(jìn)行有效的編碼,不僅達(dá)到了較高的檢測效果,也具有更強的可視效果,clbp編碼原理如附圖2-b所示。附圖2-b的左圖為中心像素點的8鄰域、半徑為1的clbp圖,右圖為中心像素點的16鄰域、半徑為4的clbp示意圖,其計算過程為:t=t(s(g0-gc),...,s(gi-1-gc),...,s(gn-1-gc)),其中,gc為中心位置像素點的灰度值,n是鄰域大小,g0,...,gn-1為中心位置像素點的n個鄰域的像素的灰度值,s是符號運算符,其含義為:
在本發(fā)明實施例中,對樣本數(shù)據(jù)包含的圖像進(jìn)行clbp編碼所得到的clbp圖像,是可以提取clbp特征的圖像。
需要說明的是,梯度直方圖在行人檢測中是一種有效的圖像特征表示方法,雖然其在實際中取得了較廣泛的應(yīng)用,但是傳統(tǒng)的方向梯度直方圖所捕捉的具體信息是什么仍然很難解釋清楚,因此,在對樣本數(shù)據(jù)包含的圖像進(jìn)行clbp編碼即clbp特征有效地對行人的輪廓信息進(jìn)行編碼得到clbp圖像后,計算clbp圖像的方向梯度和方向梯度的大小,例如,計算其6個方向的梯度和方向梯度大小的直方圖,具有較清晰的含義和可視化效果。
s1013,對luv圖像和clbp圖像使用svm進(jìn)行多次訓(xùn)練,得到多個不同尺寸模板的基于svm的分類器。
由于在智能視頻監(jiān)控的行人檢測算法中,大部分時間是用于計算特征,若采用傳統(tǒng)的基于滑動窗口的方式,將重復(fù)多次計算特征,運算復(fù)雜度過高,因此,在本發(fā)明實施例中,可以使用svm進(jìn)行多次訓(xùn)練,得到多個不同尺寸模板的基于svm的分類器,在后續(xù)行人檢測階段可以極大地提高運行效率。至于分類器數(shù)目的選擇,可采用交叉驗證的方法確認(rèn)。由于雖然理論上基于非線性svm的分類器優(yōu)于基于線性svm的分類器,但是大量的實驗表明其實際效果并不優(yōu)于基于線性svm的分類器,因此,對luv圖像和clbp圖像使用svm進(jìn)行多次訓(xùn)練,得到多個不同尺寸模板的基于svm的分類器具體是:對所述luv圖像和clbp圖像使用線性svm進(jìn)行多次訓(xùn)練,得到多個不同尺寸模板的基于線性svm的分類器。
s102,對實時采集的視頻幀序列進(jìn)行圖像變換,得到變換后的圖像。
視頻幀序列為智能視頻監(jiān)控的攝像頭所采集視頻流的離散圖像幀,所采集視頻流包含行人和除行人之外的其他對象。具體地,對實時采集的視頻幀序列進(jìn)行圖像變換,得到變換后的圖像可以是:對實時采集的視頻幀序列進(jìn)行l(wèi)uv變換,得到luv圖像,對實時采集的視頻幀序列進(jìn)行完整局部二值模式clbp編碼以得到clbp圖像,并計算clbp圖像的方向梯度和方向梯度的大小。
s103,使用訓(xùn)練階段所得的基于svm的分類器遍歷變換后的圖像以獲取行人感興趣區(qū)域roi。
在使用基于svm的分類器遍歷所述變換后的圖像以獲取行人感興趣區(qū)域(regionofinterest,roi)之后,附圖1示例的智能視頻監(jiān)控的行人檢測方法還包括:消除行人roi的重疊區(qū)域,具體地,可以使用非極大值移植算法消除行人roi的重疊區(qū)域,重疊區(qū)域定義為
從上述附圖1示例的智能視頻監(jiān)控的行人檢測方法可知,通過對視頻流的樣本數(shù)據(jù)進(jìn)行支持向量機(jī)svm訓(xùn)練,得到基于svm的分類器,對實時采集的視頻幀序列進(jìn)行圖像變換,得到變換后的圖像,使用基于svm的分類器遍歷變換后的圖像以獲取行人感興趣區(qū)域roi,與現(xiàn)有技術(shù)相比,本發(fā)明提供的技術(shù)方案使得在智能視頻監(jiān)控中,不僅對行人檢測的準(zhǔn)確率有顯著的提高,且算法有較強的泛化能力,而且并且算法的計算復(fù)雜度更低低,例如,在配置為inteli53.3ghz、4g內(nèi)存的臺式電腦上的處理速度可以達(dá)到40fps以上。
請參閱附圖3,是本發(fā)明實施例三提供的智能視頻監(jiān)控的行人檢測裝置的結(jié)構(gòu)示意圖。為了便于說明,附圖3僅示出了與本發(fā)明實施例相關(guān)的部分。附圖3示例的智能視頻監(jiān)控的行人檢測裝置主要包括分類器獲取模塊301、變換模塊302和分類模塊302,詳細(xì)說明如下:
分類器獲取模塊301,用于通過對視頻流的樣本數(shù)據(jù)進(jìn)行支持向量機(jī)svm訓(xùn)練,得到基于svm的分類器;
變換模塊302,用于對實時采集的視頻幀序列進(jìn)行圖像變換,得到變換后的圖像,其中,視頻幀序列為智能視頻監(jiān)控的攝像頭所采集視頻流的離散圖像幀,所采集視頻流包含行人和除行人之外的其他對象;
分類模塊303,用于使用基于svm的分類器遍歷變換模塊302變換后的圖像以獲取行人感興趣區(qū)域roi。
附圖3示例的分類器獲取模塊301包括塊第一變換單元401、第二變換單元402和訓(xùn)練單元403,如附圖4所示本發(fā)明實施例四提供的智能視頻監(jiān)控的行人檢測裝置,其中:
第一變換單元401,用于對視頻流的樣本數(shù)據(jù)包含的圖像進(jìn)行l(wèi)uv變換,得到luv圖像;
第二變換單元402,用于對視頻流的樣本數(shù)據(jù)包含的圖像進(jìn)行完整局部二值模式clbp編碼以得到clbp圖像,并計算clbp圖像的方向梯度和方向梯度的大??;
訓(xùn)練單元403,用于對luv圖像和clbp圖像使用svm進(jìn)行多次訓(xùn)練,得到多個不同尺寸模板的基于svm的分類器。
附圖4示例的訓(xùn)練單元403包括線性svm訓(xùn)練單元501,如附圖5所示本發(fā)明實施例五提供的智能視頻監(jiān)控的行人檢測裝置。線性svm訓(xùn)練單元501用于對luv圖像和clbp圖像使用線性svm進(jìn)行多次訓(xùn)練,得到多個不同尺寸模板的基于線性svm的分類器。
附圖3示例的變換模塊302可以包括塊第三變換單元601和第四變換單元602,如附圖6所示本發(fā)明實施例六提供的智能視頻監(jiān)控的行人檢測裝置,其中:
第三變換單元601,用于對實時采集的視頻幀序列進(jìn)行l(wèi)uv變換,得到luv圖像;
第四變換單元602,用于對實時采集的視頻幀序列進(jìn)行完整局部二值模式clbp編碼以得到clbp圖像,并計算clbp圖像的方向梯度和方向梯度的大小。
上述附圖3至附圖6任一示例的智能視頻監(jiān)控的行人檢測裝置還可以包括消除模塊701,如附圖7-a至附圖7-d實施例七至實施例十示例的智能視頻監(jiān)控的行人檢測裝置。消除模塊701用于分類模塊303使用基于svm的分類器遍歷變換模塊302變換后的圖像以獲取行人感興趣區(qū)域roi之后,消除行人roi的重疊區(qū)域。
需要說明的是,上述裝置各模塊/單元之間的信息交互、執(zhí)行過程等內(nèi)容,由于與本發(fā)明方法實施例基于同一構(gòu)思,其帶來的技術(shù)效果與本發(fā)明方法實施例相同,具體內(nèi)容可參見本發(fā)明方法實施例中的敘述,此處不再贅述。
本領(lǐng)域普通技術(shù)人員可以理解上述實施例的各種方法中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,該程序可以存儲于一計算機(jī)可讀存儲介質(zhì)中,存儲介質(zhì)可以包括:只讀存儲器(rom,readonlymemory)、隨機(jī)存取存儲器(ram,randomaccessmemory)、磁盤或光盤等。
以上對本發(fā)明實施例所提供的智能視頻監(jiān)控的行人檢測方法和裝置進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個例對本發(fā)明的原理及實施方式進(jìn)行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實施方式及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。