一種基于稀疏時(shí)空特征的行為識(shí)別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種行為識(shí)別方法,具體涉及一種基于稀疏時(shí)空特征的行為識(shí)別方 法,可以自動(dòng)獲取視頻中人體行為特征用于人體行為的識(shí)別。
【背景技術(shù)】
[0002] 人體行為識(shí)別是通過分析視頻序列中人體圖像的相關(guān)性和視覺外觀特征,確定人 體的行為模式。行為識(shí)別的過程主要包括運(yùn)動(dòng)信息提取和行為識(shí)別兩個(gè)部分,而在模型的 運(yùn)用不出差錯(cuò)的情況下,提取的行為特征決定了整個(gè)模型的能力上限,模型的識(shí)別或預(yù)測 只是為了更好的接近這個(gè)上限。
[0003]自動(dòng)獲取與人體行為相關(guān)的信息,在許多領(lǐng)域成為一個(gè)亟待解決的問題。在計(jì)算 機(jī)視覺領(lǐng)域,人體行為識(shí)別廣泛應(yīng)用于智能監(jiān)控、人機(jī)交互、虛擬現(xiàn)實(shí)、醫(yī)療看護(hù)等領(lǐng)域。具 體的說,日常生活中比較常見的視頻監(jiān)控,單純依靠人力監(jiān)控效率往往比較低,而且人類對 于監(jiān)控視頻的注意力往往會(huì)隨著時(shí)間降低,所以長時(shí)間的視頻監(jiān)控會(huì)使得丟失報(bào)警率偏 高。倘若采用智能的視頻監(jiān)控,則可以自動(dòng)的對視頻進(jìn)行建模和分析,實(shí)時(shí)的識(shí)別人體行 為,更加準(zhǔn)確及時(shí)的進(jìn)行安全預(yù)警,也大量減少了人力、物力和財(cái)力的投入,在交通場所、機(jī) 場車站等公共場所都有著巨大的應(yīng)用價(jià)值和前景。另外,正確快速的識(shí)別視頻中的行為對 于視頻搜索、自動(dòng)視頻標(biāo)注等也具有十分重要的意義,因此人體行為識(shí)別的研宄既具有理 論意義同時(shí)兼?zhèn)鋵?shí)際應(yīng)用價(jià)值,值得進(jìn)一步的研宄。
[0004] 行為識(shí)別主要包括兩個(gè)方面:從視頻中提取行為特征,建立特征與行為類別高層 語義信息之間的對應(yīng)關(guān)系。從視頻中提取有效的特征是行為識(shí)別中重要的環(huán)節(jié),它直接影 響到之后語義映射即識(shí)別的準(zhǔn)確率和魯棒性。傳統(tǒng)的行為識(shí)別方法根據(jù)應(yīng)用場景以及所關(guān) 心的行為類別的不同,通常要選用不同類型的特征;而深度學(xué)習(xí)的方法能夠自動(dòng)學(xué)習(xí)到樣 本數(shù)據(jù)的行為特征,多層的抽象表達(dá)可以覆蓋底層更多的變化,得到更優(yōu)的識(shí)別效果。
[0005] 傳統(tǒng)的行為特征提取方法主要有:(1)基于底層跟蹤或姿態(tài)估計(jì)的特征提取方 法,主要是靜態(tài)特征,如形狀、輪廓,或者基于運(yùn)動(dòng)信息的動(dòng)態(tài)特征提取,如軌跡、運(yùn)動(dòng)速度。 這類特征往往直觀性好,具有明確的時(shí)間特性和速度特性;但是它們的有效性需要依賴于 目標(biāo)跟蹤和人體姿態(tài)估計(jì)的準(zhǔn)確性。而真實(shí)的場景中,由于背景比較雜亂、運(yùn)動(dòng)目標(biāo)多,進(jìn) 行準(zhǔn)確的目標(biāo)跟蹤和人體姿態(tài)估計(jì)是具有很大的挑戰(zhàn),所以這類特征往往魯棒性較差。(2) 基于圖像處理技術(shù)的特征提取方法,這類方法主要有基于光流的動(dòng)態(tài)特征以及時(shí)空特征。 這類特征一定程度上提高了行為識(shí)別的魯棒性;但通常是對圖像或時(shí)空立方體的局部運(yùn)動(dòng) 描述,計(jì)算量較大,容易受噪聲干擾,且缺乏行為模式的整體性考慮和全局性的分析。(3)基 于學(xué)習(xí)的方法提取特征,一般學(xué)習(xí)的是目標(biāo)的中層語義特征。這類特征雖然利用了視頻中 豐富的中層語義信息,但是因?yàn)樯婕暗饺藶槎x的問題,存在主觀性和非完整性,從而導(dǎo)致 行為識(shí)別性能下降。
[0006] 深度學(xué)習(xí)方法模擬人腦的層次處理結(jié)構(gòu),自動(dòng)學(xué)習(xí)多層的抽象概念,它是一種高 度非線性的模型,具有超強(qiáng)的數(shù)據(jù)擬合能力和學(xué)習(xí)能力,表達(dá)能力強(qiáng),更能刻畫數(shù)據(jù)豐富的 內(nèi)在信息。深度學(xué)習(xí)的概念起源于人工神經(jīng)網(wǎng)絡(luò)的研宄,由于反向傳播算法在神經(jīng)網(wǎng)絡(luò)層 數(shù)增多時(shí)參數(shù)訓(xùn)練容易陷入局部優(yōu)化,也容易過擬合,所以很長一段時(shí)間只是有一層隱藏 結(jié)點(diǎn)的淺層模型受到廣泛應(yīng)用。直到2006年由Geoff Hinton等提出貪心逐層訓(xùn)練算法, 使得參數(shù)初始化在比較接近全局最優(yōu)的位置,緩解了深層網(wǎng)絡(luò)訓(xùn)練中非凸函數(shù)優(yōu)化問題, 至此深層網(wǎng)絡(luò)模型的學(xué)習(xí)才又開始進(jìn)入人們的視野。深度學(xué)習(xí)的多層結(jié)構(gòu)可以更好的對 視覺信息進(jìn)行建模從而能理解視頻的內(nèi)容,這種方式學(xué)習(xí)到的特征也符合人類感知世界的 機(jī)理,而且具有一定的語義特征,所以很適合人體行為識(shí)別。最近幾年深度學(xué)習(xí)的方法也 開始慢慢被應(yīng)用到視頻中進(jìn)行人體行為的識(shí)別。2010年Taylor等人提出了卷積門限的 限制玻爾茲曼機(jī)(Convolutional Gated RBM, convGRBM)來學(xué)習(xí)視頻中相鄰兩幀的時(shí)空 特征,之后使用三維時(shí)空濾波器構(gòu)建傳統(tǒng)卷積網(wǎng)絡(luò)有監(jiān)督的學(xué)習(xí)中層時(shí)空特征。實(shí)驗(yàn)結(jié)果 表明,該模型在行為識(shí)別數(shù)據(jù)庫上可以獲得與人工設(shè)計(jì)特征相類似的精度。傳統(tǒng)的深度學(xué) 習(xí)的方法在進(jìn)行視頻處理的時(shí)候,通常將視頻看作獨(dú)立的時(shí)空小塊的無序集合,從而放棄 了全局幾何信息,于是Chen等人提出了時(shí)空的深度置信網(wǎng)絡(luò)(ST-DBN),嘗試把局部和全局 時(shí)空信息包含到一個(gè)分層結(jié)構(gòu)中,通過使用卷積限制玻爾茲曼機(jī)在空間維度和時(shí)間維度上 交錯(cuò)地進(jìn)行建模,從而獲得視頻的時(shí)空特征。在行為識(shí)別數(shù)據(jù)庫上,ST-DBN從空間和時(shí)間 上獲得信息,顯示了優(yōu)越的區(qū)分能力,而且該模型還可以應(yīng)用于圖像修復(fù)和降噪。其它的 人體行為識(shí)別的模型還有Le等人提出的獨(dú)立的子空間分析方法(Independent Subspace Analysis,ISA),在KTH,Hollywood2, UCF和YouTube行為識(shí)別數(shù)據(jù)庫上都獲得了優(yōu)于之 前提出方法(不論是人工設(shè)計(jì)的特征還是學(xué)習(xí)的特征)的結(jié)果。Baccouche等人提出的稀 疏的卷積自動(dòng)編碼網(wǎng)絡(luò),該模型能從局部的顯著信息中學(xué)習(xí)到稀疏的平移不變的表達(dá),在 KTH和GEMEP-FERA數(shù)據(jù)庫上都獲得了突出的實(shí)驗(yàn)結(jié)果。之前的人體行為識(shí)別方法都是基 于一些苛刻的應(yīng)用場景假設(shè)(如小尺度變化、小的視覺變化等),考慮用深度學(xué)習(xí)的方法在 非限制的環(huán)境中完全自動(dòng)識(shí)別人體行為,Shui等人提出了三維卷積神經(jīng)網(wǎng)絡(luò)(3D CNN),在 TRECVID(TREC Video Retrieval Evaluation)數(shù)據(jù)集和KTH數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,三 維卷積神經(jīng)網(wǎng)絡(luò)更適合現(xiàn)實(shí)世界的行為識(shí)別,且三維卷積神經(jīng)網(wǎng)絡(luò)識(shí)別效果要優(yōu)于二維的 卷積神經(jīng)網(wǎng)絡(luò)。
[0007] 基于深度學(xué)習(xí)方法的行為識(shí)別,主要存在的問題為: 1、確定的理論基礎(chǔ)。盡管深度學(xué)習(xí)在工程應(yīng)用上由于準(zhǔn)確率的顯著提高廣受關(guān)注,但 深度學(xué)習(xí)自身還缺乏理論基礎(chǔ),深度學(xué)習(xí)理論中包含了大量說不清的東西。例如,深度學(xué) 習(xí)的多層學(xué)習(xí)機(jī)構(gòu)通常是用大腦信息處理的層次機(jī)制來解釋的,但大腦信息處理結(jié)構(gòu)是神 經(jīng)科學(xué)都無法完全理解的存在,而且具體的層次內(nèi)部以及層次之間的信息處理方式是怎樣 的,我們都無法確定的說明。深度學(xué)習(xí)模型存在太多的經(jīng)驗(yàn),多少層的模型、每層的結(jié)點(diǎn)數(shù) 為多少、怎樣的技巧適合訓(xùn)練深度模型等等都沒有明確的解釋。目前深度學(xué)習(xí)的研宄還處 于起步階段,深度學(xué)習(xí)相關(guān)的理論還有待進(jìn)一步的研宄和證明。
[0008] 2、行為特征描述。雖然運(yùn)用深度學(xué)習(xí)的方法可以自動(dòng)地學(xué)習(xí)人體行為特征,在行 為識(shí)別領(lǐng)域也取得了很好的成績,但還是無法匹敵人類的識(shí)別效果,那我們是否可以通過 深度學(xué)習(xí)的特征進(jìn)一步提高識(shí)別率。訓(xùn)練更深層次的深度學(xué)習(xí)模型,或者對于給定的深度 學(xué)習(xí)框架嘗試融合不同屬性的特征,還是有其它的技巧可以增強(qiáng)給定的深度學(xué)習(xí)框架以改 進(jìn)其魯棒性,這些都是我們需要解決的問題。
[0009] 3、計(jì)算復(fù)雜度。深度學(xué)習(xí)算法是建立在大量輸入數(shù)據(jù)的前提下的,只有在提供大 量的數(shù)據(jù)支持下,深度學(xué)習(xí)才能對數(shù)據(jù)規(guī)律進(jìn)行無偏的估計(jì)。從計(jì)算量的角度來看,對于大 模型和大數(shù)據(jù),深度學(xué)習(xí)算法的時(shí)間和空間復(fù)雜度急劇上升,需要更高的并行技巧以及更 好的硬件支持。而且深度學(xué)習(xí)的模型在不斷的迭代優(yōu)化中并不能保證得到全局的最優(yōu)解, 這需要未來進(jìn)一步的探索。
【發(fā)明內(nèi)容】
[0010] 本發(fā)明的發(fā)明目的是提供一種基于稀疏時(shí)空特征的行為識(shí)別方法,通過尺度空間 的構(gòu)建輸入深度網(wǎng)絡(luò)聯(lián)合學(xué)習(xí)多尺度的特征,提高行為識(shí)別的性能,并引入空間金字塔的 思想,對池化輸出進(jìn)行多級(jí)擴(kuò)充,結(jié)合稀疏編碼進(jìn)行金字塔多級(jí)特征的融合,進(jìn)一步高進(jìn)原 有網(wǎng)絡(luò)的性能,提尚彳丁為識(shí)別率。
[0011] 為達(dá)到上述發(fā)明目的,本發(fā)明采用的技術(shù)方案是:一種基于稀疏時(shí)空特征的行為 識(shí)別方法,包括如下步驟: 步驟一、對于輸入視頻采用時(shí)空Gabor與原輸入視頻進(jìn)行卷積構(gòu)造尺度空間; 步驟二、將不同尺度的表達(dá)作為時(shí)空深度置信網(wǎng)絡(luò)不同通道的值,聯(lián)合學(xué)習(xí)多尺度的 特征; 步驟三、對行為特征進(jìn)行識(shí)別分類。
[0012] 上述技術(shù)方案中,所述步驟一中,從7個(gè)不同尺度的表達(dá)中,根據(jù)不同尺度表達(dá)間 信息的損失,基于熵選擇3個(gè)損失最小的尺度作為輸入視頻的多尺度表達(dá)。
[0013] 上述技術(shù)方案中,所述步驟二中,對于多尺度的輸入