一種基于稀疏時(shí)空特征的行為識(shí)別方法

文檔序號(hào)：9217557閱讀：642來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于稀疏時(shí)空特征的行為識(shí)別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種行為識(shí)別方法，具體涉及一種基于稀疏時(shí)空特征的行為識(shí)別方法，可以自動(dòng)獲取視頻中人體行為特征用于人體行為的識(shí)別。
【背景技術(shù)】
[0002] 人體行為識(shí)別是通過分析視頻序列中人體圖像的相關(guān)性和視覺外觀特征，確定人體的行為模式。行為識(shí)別的過程主要包括運(yùn)動(dòng)信息提取和行為識(shí)別兩個(gè)部分，而在模型的運(yùn)用不出差錯(cuò)的情況下，提取的行為特征決定了整個(gè)模型的能力上限，模型的識(shí)別或預(yù)測只是為了更好的接近這個(gè)上限。
[0003]自動(dòng)獲取與人體行為相關(guān)的信息，在許多領(lǐng)域成為一個(gè)亟待解決的問題。在計(jì)算機(jī)視覺領(lǐng)域，人體行為識(shí)別廣泛應(yīng)用于智能監(jiān)控、人機(jī)交互、虛擬現(xiàn)實(shí)、醫(yī)療看護(hù)等領(lǐng)域。具體的說，日常生活中比較常見的視頻監(jiān)控，單純依靠人力監(jiān)控效率往往比較低，而且人類對于監(jiān)控視頻的注意力往往會(huì)隨著時(shí)間降低，所以長時(shí)間的視頻監(jiān)控會(huì)使得丟失報(bào)警率偏高。倘若采用智能的視頻監(jiān)控，則可以自動(dòng)的對視頻進(jìn)行建模和分析，實(shí)時(shí)的識(shí)別人體行為，更加準(zhǔn)確及時(shí)的進(jìn)行安全預(yù)警，也大量減少了人力、物力和財(cái)力的投入，在交通場所、機(jī) 場車站等公共場所都有著巨大的應(yīng)用價(jià)值和前景。另外，正確快速的識(shí)別視頻中的行為對于視頻搜索、自動(dòng)視頻標(biāo)注等也具有十分重要的意義，因此人體行為識(shí)別的研宄既具有理論意義同時(shí)兼?zhèn)鋵?shí)際應(yīng)用價(jià)值，值得進(jìn)一步的研宄。
[0004] 行為識(shí)別主要包括兩個(gè)方面：從視頻中提取行為特征，建立特征與行為類別高層語義信息之間的對應(yīng)關(guān)系。從視頻中提取有效的特征是行為識(shí)別中重要的環(huán)節(jié)，它直接影響到之后語義映射即識(shí)別的準(zhǔn)確率和魯棒性。傳統(tǒng)的行為識(shí)別方法根據(jù)應(yīng)用場景以及所關(guān) 心的行為類別的不同，通常要選用不同類型的特征；而深度學(xué)習(xí)的方法能夠自動(dòng)學(xué)習(xí)到樣本數(shù)據(jù)的行為特征，多層的抽象表達(dá)可以覆蓋底層更多的變化，得到更優(yōu)的識(shí)別效果。
[0005] 傳統(tǒng)的行為特征提取方法主要有：（1)基于底層跟蹤或姿態(tài)估計(jì)的特征提取方法，主要是靜態(tài)特征，如形狀、輪廓，或者基于運(yùn)動(dòng)信息的動(dòng)態(tài)特征提取，如軌跡、運(yùn)動(dòng)速度。這類特征往往直觀性好，具有明確的時(shí)間特性和速度特性；但是它們的有效性需要依賴于目標(biāo)跟蹤和人體姿態(tài)估計(jì)的準(zhǔn)確性。而真實(shí)的場景中，由于背景比較雜亂、運(yùn)動(dòng)目標(biāo)多，進(jìn) 行準(zhǔn)確的目標(biāo)跟蹤和人體姿態(tài)估計(jì)是具有很大的挑戰(zhàn)，所以這類特征往往魯棒性較差。（2) 基于圖像處理技術(shù)的特征提取方法，這類方法主要有基于光流的動(dòng)態(tài)特征以及時(shí)空特征。這類特征一定程度上提高了行為識(shí)別的魯棒性；但通常是對圖像或時(shí)空立方體的局部運(yùn)動(dòng) 描述，計(jì)算量較大，容易受噪聲干擾，且缺乏行為模式的整體性考慮和全局性的分析。（3)基于學(xué)習(xí)的方法提取特征，一般學(xué)習(xí)的是目標(biāo)的中層語義特征。這類特征雖然利用了視頻中豐富的中層語義信息，但是因?yàn)樯婕暗饺藶槎x的問題，存在主觀性和非完整性，從而導(dǎo)致行為識(shí)別性能下降。
[0006] 深度學(xué)習(xí)方法模擬人腦的層次處理結(jié)構(gòu)，自動(dòng)學(xué)習(xí)多層的抽象概念，它是一種高度非線性的模型，具有超強(qiáng)的數(shù)據(jù)擬合能力和學(xué)習(xí)能力，表達(dá)能力強(qiáng)，更能刻畫數(shù)據(jù)豐富的內(nèi)在信息。深度學(xué)習(xí)的概念起源于人工神經(jīng)網(wǎng)絡(luò)的研宄，由于反向傳播算法在神經(jīng)網(wǎng)絡(luò)層數(shù)增多時(shí)參數(shù)訓(xùn)練容易陷入局部優(yōu)化，也容易過擬合，所以很長一段時(shí)間只是有一層隱藏結(jié)點(diǎn)的淺層模型受到廣泛應(yīng)用。直到2006年由Geoff Hinton等提出貪心逐層訓(xùn)練算法，使得參數(shù)初始化在比較接近全局最優(yōu)的位置，緩解了深層網(wǎng)絡(luò)訓(xùn)練中非凸函數(shù)優(yōu)化問題，至此深層網(wǎng)絡(luò)模型的學(xué)習(xí)才又開始進(jìn)入人們的視野。深度學(xué)習(xí)的多層結(jié)構(gòu)可以更好的對視覺信息進(jìn)行建模從而能理解視頻的內(nèi)容，這種方式學(xué)習(xí)到的特征也符合人類感知世界的機(jī)理，而且具有一定的語義特征，所以很適合人體行為識(shí)別。最近幾年深度學(xué)習(xí)的方法也開始慢慢被應(yīng)用到視頻中進(jìn)行人體行為的識(shí)別。2010年Taylor等人提出了卷積門限的限制玻爾茲曼機(jī)（Convolutional Gated RBM, convGRBM)來學(xué)習(xí)視頻中相鄰兩幀的時(shí)空特征，之后使用三維時(shí)空濾波器構(gòu)建傳統(tǒng)卷積網(wǎng)絡(luò)有監(jiān)督的學(xué)習(xí)中層時(shí)空特征。實(shí)驗(yàn)結(jié)果表明，該模型在行為識(shí)別數(shù)據(jù)庫上可以獲得與人工設(shè)計(jì)特征相類似的精度。傳統(tǒng)的深度學(xué) 習(xí)的方法在進(jìn)行視頻處理的時(shí)候，通常將視頻看作獨(dú)立的時(shí)空小塊的無序集合，從而放棄了全局幾何信息，于是Chen等人提出了時(shí)空的深度置信網(wǎng)絡(luò)（ST-DBN)，嘗試把局部和全局時(shí)空信息包含到一個(gè)分層結(jié)構(gòu)中，通過使用卷積限制玻爾茲曼機(jī)在空間維度和時(shí)間維度上交錯(cuò)地進(jìn)行建模，從而獲得視頻的時(shí)空特征。在行為識(shí)別數(shù)據(jù)庫上，ST-DBN從空間和時(shí)間上獲得信息，顯示了優(yōu)越的區(qū)分能力，而且該模型還可以應(yīng)用于圖像修復(fù)和降噪。其它的人體行為識(shí)別的模型還有Le等人提出的獨(dú)立的子空間分析方法（Independent Subspace Analysis，ISA)，在KTH，Hollywood2, UCF和YouTube行為識(shí)別數(shù)據(jù)庫上都獲得了優(yōu)于之前提出方法(不論是人工設(shè)計(jì)的特征還是學(xué)習(xí)的特征）的結(jié)果。Baccouche等人提出的稀疏的卷積自動(dòng)編碼網(wǎng)絡(luò)，該模型能從局部的顯著信息中學(xué)習(xí)到稀疏的平移不變的表達(dá)，在 KTH和GEMEP-FERA數(shù)據(jù)庫上都獲得了突出的實(shí)驗(yàn)結(jié)果。之前的人體行為識(shí)別方法都是基于一些苛刻的應(yīng)用場景假設(shè)(如小尺度變化、小的視覺變化等)，考慮用深度學(xué)習(xí)的方法在非限制的環(huán)境中完全自動(dòng)識(shí)別人體行為，Shui等人提出了三維卷積神經(jīng)網(wǎng)絡(luò)（3D CNN)，在 TRECVID(TREC Video Retrieval Evaluation)數(shù)據(jù)集和KTH數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，三維卷積神經(jīng)網(wǎng)絡(luò)更適合現(xiàn)實(shí)世界的行為識(shí)別，且三維卷積神經(jīng)網(wǎng)絡(luò)識(shí)別效果要優(yōu)于二維的卷積神經(jīng)網(wǎng)絡(luò)。
[0007] 基于深度學(xué)習(xí)方法的行為識(shí)別，主要存在的問題為： 1、確定的理論基礎(chǔ)。盡管深度學(xué)習(xí)在工程應(yīng)用上由于準(zhǔn)確率的顯著提高廣受關(guān)注，但深度學(xué)習(xí)自身還缺乏理論基礎(chǔ)，深度學(xué)習(xí)理論中包含了大量說不清的東西。例如，深度學(xué) 習(xí)的多層學(xué)習(xí)機(jī)構(gòu)通常是用大腦信息處理的層次機(jī)制來解釋的，但大腦信息處理結(jié)構(gòu)是神經(jīng)科學(xué)都無法完全理解的存在，而且具體的層次內(nèi)部以及層次之間的信息處理方式是怎樣的，我們都無法確定的說明。深度學(xué)習(xí)模型存在太多的經(jīng)驗(yàn)，多少層的模型、每層的結(jié)點(diǎn)數(shù) 為多少、怎樣的技巧適合訓(xùn)練深度模型等等都沒有明確的解釋。目前深度學(xué)習(xí)的研宄還處于起步階段，深度學(xué)習(xí)相關(guān)的理論還有待進(jìn)一步的研宄和證明。
[0008] 2、行為特征描述。雖然運(yùn)用深度學(xué)習(xí)的方法可以自動(dòng)地學(xué)習(xí)人體行為特征，在行為識(shí)別領(lǐng)域也取得了很好的成績，但還是無法匹敵人類的識(shí)別效果，那我們是否可以通過深度學(xué)習(xí)的特征進(jìn)一步提高識(shí)別率。訓(xùn)練更深層次的深度學(xué)習(xí)模型，或者對于給定的深度學(xué)習(xí)框架嘗試融合不同屬性的特征，還是有其它的技巧可以增強(qiáng)給定的深度學(xué)習(xí)框架以改進(jìn)其魯棒性，這些都是我們需要解決的問題。
[0009] 3、計(jì)算復(fù)雜度。深度學(xué)習(xí)算法是建立在大量輸入數(shù)據(jù)的前提下的，只有在提供大量的數(shù)據(jù)支持下，深度學(xué)習(xí)才能對數(shù)據(jù)規(guī)律進(jìn)行無偏的估計(jì)。從計(jì)算量的角度來看，對于大模型和大數(shù)據(jù)，深度學(xué)習(xí)算法的時(shí)間和空間復(fù)雜度急劇上升，需要更高的并行技巧以及更好的硬件支持。而且深度學(xué)習(xí)的模型在不斷的迭代優(yōu)化中并不能保證得到全局的最優(yōu)解，這需要未來進(jìn)一步的探索。

【發(fā)明內(nèi)容】

[0010] 本發(fā)明的發(fā)明目的是提供一種基于稀疏時(shí)空特征的行為識(shí)別方法，通過尺度空間的構(gòu)建輸入深度網(wǎng)絡(luò)聯(lián)合學(xué)習(xí)多尺度的特征，提高行為識(shí)別的性能，并引入空間金字塔的思想，對池化輸出進(jìn)行多級(jí)擴(kuò)充，結(jié)合稀疏編碼進(jìn)行金字塔多級(jí)特征的融合，進(jìn)一步高進(jìn)原有網(wǎng)絡(luò)的性能，提尚彳丁為識(shí)別率。
[0011] 為達(dá)到上述發(fā)明目的，本發(fā)明采用的技術(shù)方案是：一種基于稀疏時(shí)空特征的行為識(shí)別方法，包括如下步驟：步驟一、對于輸入視頻采用時(shí)空Gabor與原輸入視頻進(jìn)行卷積構(gòu)造尺度空間；步驟二、將不同尺度的表達(dá)作為時(shí)空深度置信網(wǎng)絡(luò)不同通道的值，聯(lián)合學(xué)習(xí)多尺度的特征；步驟三、對行為特征進(jìn)行識(shí)別分類。
[0012] 上述技術(shù)方案中，所述步驟一中，從7個(gè)不同尺度的表達(dá)中，根據(jù)不同尺度表達(dá)間信息的損失，基于熵選擇3個(gè)損失最小的尺度作為輸入視頻的多尺度表達(dá)。
[0013] 上述技術(shù)方案中，所述步驟二中，對于多尺度的輸入

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：龔聲蓉;王露;劉純平;王朝暉;朱桂墘;葛瑞;
技術(shù)所有人：蘇州大學(xué);
我是此專利的發(fā)明人

上一篇：一種雙像機(jī)的人群人數(shù)統(tǒng)計(jì)方法
上一篇：基于光流場的微表情序列特征提取方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

稀疏特征相關(guān)技術(shù)

gbdt高維稀疏特征相關(guān)技術(shù)

稀疏矩陣特征值相關(guān)技術(shù)

稀疏表示特征提取相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于稀疏時(shí)空特征的行為識(shí)別方法