用于人類行為識(shí)別的深度聯(lián)合結(jié)構(gòu)化和結(jié)構(gòu)化學(xué)習(xí)方法與流程

文檔序號(hào)：12597388閱讀：255來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于計(jì)算機(jī)視覺(jué)中的行為識(shí)別領(lǐng)域，涉及一種人類的行為識(shí)別方法。

背景技術(shù)：

識(shí)別圖像或視頻中的人類行為在計(jì)算機(jī)視覺(jué)中是一個(gè)基本的問(wèn)題，這在許多應(yīng)用如運(yùn)動(dòng)視頻分析，監(jiān)控系統(tǒng)和視頻檢索中至關(guān)重要。最近的工作中，深度學(xué)習(xí)明顯提高了行為識(shí)別的性能。然而，這些工作不適用于處理包含多人互動(dòng)的數(shù)據(jù)。首先，他們專注于分給每個(gè)圖像一個(gè)行為標(biāo)簽，這不適用于包含多個(gè)行為類別的圖像。第二，他們忽視了人之間的相互關(guān)系為識(shí)別復(fù)雜的人類活動(dòng)像握手，戰(zhàn)斗和足球比賽等提供了重要的語(yǔ)境信息。

技術(shù)實(shí)現(xiàn)要素：

為了克服已有人類的行為識(shí)別方式的無(wú)法適用于多個(gè)行為類別的圖像、無(wú)法識(shí)別交互行為的不足，本發(fā)明提供了一種適用于多個(gè)行為類別的圖像、能夠識(shí)別交互行為的用于人類行為識(shí)別的深度聯(lián)合結(jié)構(gòu)化和結(jié)構(gòu)化學(xué)習(xí)方法。

本發(fā)明解決其技術(shù)問(wèn)題所采用的技術(shù)方案是：

一種用于人類行為識(shí)別的深度聯(lián)合結(jié)構(gòu)化和結(jié)構(gòu)化學(xué)習(xí)的方法，所述方法包括以下步驟：

1)構(gòu)造聯(lián)合結(jié)構(gòu)和結(jié)構(gòu)公式化

假設(shè)有一組n個(gè)訓(xùn)練樣本I表示一張圖像，a是圖像中所有人的行為標(biāo)簽的集合；如果圖像包含m個(gè)個(gè)體，則a＝[a₁,…,a_m]，矩陣E＝(e_ij)∈{0,1}^m×m是一個(gè)嚴(yán)格的上三角矩陣，表示圖像中所有個(gè)體的相互關(guān)系結(jié)構(gòu)；e_ij＝0意味著在人i和人j之間沒(méi)有交互，而e_ij＝1指示人i和人j彼此交互；

為了預(yù)測(cè)a和E，最大化下面的潛在函數(shù)：

這里w＝[w₀，w₁，w₂]^T是訓(xùn)練期間要學(xué)習(xí)的模型參數(shù)，函數(shù)φ(·)，μ(·)和ψ(·)用于計(jì)算三種類型的聯(lián)合特征，φ給出了圖像和行為標(biāo)簽的聯(lián)合特征；μ計(jì)算所述圖像和所述交互標(biāo)簽e的聯(lián)合特征；ψ輸出圖像和兩個(gè)個(gè)體的行為標(biāo)簽a的聯(lián)合特征表示；

2)特征表示

使用空間網(wǎng)絡(luò)從圖像中的人體區(qū)域提取深層卷積神經(jīng)網(wǎng)絡(luò)CNN特征，將空間網(wǎng)絡(luò)的fc6層的輸出作為深度特征，使用梯度直方圖HOG和光流直方圖特征HOF來(lái)進(jìn)一步增強(qiáng)特征表示；CNN，HOG和HOF特征被連接以表示圖像中的個(gè)人行為或交互關(guān)系，使用這種特征為每個(gè)數(shù)據(jù)集訓(xùn)練兩個(gè)線性支持向量機(jī)分類器，一個(gè)用于分類個(gè)人行為，另一個(gè)用于分類交互關(guān)系，使用組合特征來(lái)計(jì)算公式(1)中的聯(lián)合特征，為此，計(jì)算

這里d_α，d_∈是用訓(xùn)練好的SVM分類器分類包含個(gè)人行為和交互關(guān)系得到的決策值表示的向量，并且所有運(yùn)算符表示基于向量的元素計(jì)算；

s_α(a)表示一個(gè)人的行為為a的判別分?jǐn)?shù)。s_∈(e)表示1兩個(gè)人有交互的判別分值或不在交互的分值，公式(1)中的聯(lián)合特征由下式定義：

φ(I，a)＝1_α(a)·S_α(a) (4)

μ(I，a)＝1_∈(e)·S_∈(e) (5)

ψ(I，a_i，a_j)＝1_τ(a_i，a_j，p_i，p_j，r_ij) (6)

這里1_α(a)∈{0，1}^a是指示符向量，在位置a時(shí)取值1，，其他位置取0的。同樣，1_∈(e)在位置e取1，在別處取0，1_τ(·)在索引位置a_i，a_j，p_i，p_j，r_ij時(shí)取1，其中p_i，p_j表示人i和人j的姿勢(shì)，r_ij表示人j與人i的相對(duì)位置；為了計(jì)算r_ij，將圍繞人j的區(qū)域劃分為六個(gè)子區(qū)域，并且每個(gè)子區(qū)域被分配一個(gè)相對(duì)位置，r_ij是包圍邊界框i的中心的子區(qū)域的ID；

3)訓(xùn)練模型的參數(shù)

給定n個(gè)訓(xùn)練樣本，使用max-margin-style公式進(jìn)行訓(xùn)練：

這里ξ表示松弛變量，C是確定增加模型復(fù)雜性和減少對(duì)訓(xùn)練數(shù)據(jù)的不正確預(yù)測(cè)之間的權(quán)衡的常數(shù)；標(biāo)簽成本，即不正確預(yù)測(cè)的懲罰由下式給出：

其中δ(·)是指示功能，如果測(cè)試條件為真則給出1，否則輸出0；

4)訓(xùn)練和預(yù)測(cè)中的相關(guān)推理

在訓(xùn)練的每次迭代期間，針對(duì)每個(gè)訓(xùn)練示例解決以下?lián)p失增強(qiáng)推理：

由于潛在函數(shù)F的表達(dá)，成本項(xiàng)Δ被吸收到公式(1)中的兩個(gè)一元項(xiàng)中，因此，問(wèn)題(10)與優(yōu)化是同質(zhì)的：

進(jìn)一步，所述步驟4)中，交替搜索標(biāo)簽空間和結(jié)構(gòu)空間，在每次迭代期間，算法依次執(zhí)行以下兩個(gè)步驟：

4.1)固定結(jié)構(gòu)并通過(guò)循環(huán)信任傳播解決剩余問(wèn)題，以找到的解；

4.2)固定標(biāo)簽并解決剩余的整數(shù)線性規(guī)劃ILP問(wèn)題(11)，找到的解；

其中a^*表示在第一步驟中發(fā)現(xiàn)的解，向(11)中添加兩種類型的約束，這導(dǎo)致另外兩個(gè)ILP問(wèn)題：

其中||Z||₀是Z的L₀范數(shù)；

(11)，(12)，(13)分別是沒(méi)有約束的，最大邊數(shù)約束和節(jié)點(diǎn)度約束的ILP問(wèn)題，分別用ILP-NoC，ILP-MNE和ILP-NDC表示；

對(duì)于每對(duì)(i，j)_{i，j∈{1，…，m}，i＜j}，考慮輸出

如果V₀＞V₁，設(shè)置e_ij＝0，否則把(i，j)放到候選隊(duì)列中；接下來(lái)，根據(jù)候選的V₁值以降序?qū)?shù)組進(jìn)行排序，然后從頭到尾訪問(wèn)這個(gè)數(shù)組，對(duì)于當(dāng)前對(duì)(s，t)，如果在ILP-NDC中沒(méi)有違反約束，設(shè)置e_st＝1；否則設(shè)置e_st＝0。

本發(fā)明提出一個(gè)簡(jiǎn)單但有效的框架，以有監(jiān)督的方式，來(lái)聯(lián)合學(xué)習(xí)人類互動(dòng)結(jié)構(gòu)和結(jié)構(gòu)化標(biāo)簽。為此，通過(guò)深層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)特征表達(dá)式來(lái)表示個(gè)人行為和交互行為，并提出了一種高效的推理算法來(lái)估計(jì)標(biāo)簽和圖形結(jié)構(gòu)。

本發(fā)明的有益效果主要表現(xiàn)在：適用于多個(gè)行為類別的圖像、能夠識(shí)別交互行為。

具體實(shí)施方式

下面對(duì)本發(fā)明作進(jìn)一步描述。

一種用于人類行為識(shí)別的深度聯(lián)合結(jié)構(gòu)化和結(jié)構(gòu)化學(xué)習(xí)的方法，包括以下步驟：

1)構(gòu)造聯(lián)合結(jié)構(gòu)和結(jié)構(gòu)公式化

假設(shè)有一組n個(gè)訓(xùn)練樣本這里I表示一張圖像，a是圖像中所有人的行為標(biāo)簽的集合。如果圖像包含m個(gè)個(gè)體，則a＝[a₁，…，a_m]。矩陣E＝(e_ij)∈{0，1}^m×m是一個(gè)嚴(yán)格的上三角矩陣，表示圖像中所有個(gè)體的相互關(guān)系結(jié)構(gòu)。具體地，e_ij＝0意味著在人i和人j之間沒(méi)有交互，而e_ij＝1指示人i和人j彼此交互。事實(shí)上，a和E可以被認(rèn)為是對(duì)人類活動(dòng)的直接描述。通過(guò)這種表示，識(shí)別系統(tǒng)不僅能夠回答問(wèn)題1)他們?cè)谧鍪裁矗夷軌蚧卮饐?wèn)題2)它們之間的相互作用關(guān)系是什么。

為了預(yù)測(cè)a和E，最大化下面的潛在函數(shù)：

這里w＝[w₀，w₁，w₂]^T是訓(xùn)練期間要學(xué)習(xí)的模型參數(shù)。函數(shù)φ(·)，μ(·)和ψ(·)用于計(jì)算三種類型的聯(lián)合特征。φ給出了觀察信息(即圖像)和行為標(biāo)簽的聯(lián)合特征；μ計(jì)算所述圖像和所述交互標(biāo)簽e的聯(lián)合特征；ψ輸出圖像和兩個(gè)個(gè)體的行為標(biāo)簽a的聯(lián)合特征表示。在該公式中，任何成對(duì)特征可以通過(guò)將二進(jìn)制變量e_ij打開(kāi)(e_ij＝1或關(guān)閉(e_ij＝0)來(lái)包括或排除。直觀地，從上述模型中排除成對(duì)項(xiàng)(通過(guò)設(shè)置e＝0)表示相關(guān)人沒(méi)有彼此交互。包括這樣的項(xiàng)不是信息性的，并且將使模型的訓(xùn)練復(fù)雜化。這個(gè)模型的目的是獲得行為標(biāo)簽和交互關(guān)系的聯(lián)合優(yōu)化。例如，如果知道人u和人v正在交互，將他們的行為標(biāo)簽預(yù)測(cè)為(握手-握手)而不是(握手-吻)更合理。

公式(1)在兩個(gè)方面表現(xiàn)新穎。首先，添加新項(xiàng)(即第二項(xiàng))來(lái)促進(jìn)交互結(jié)構(gòu)的學(xué)習(xí)。這種簡(jiǎn)單的修改使得能夠更好地識(shí)別個(gè)人行為和交互關(guān)系，部分是因?yàn)榕c之前僅使用高級(jí)特征的方法相比，它結(jié)合高級(jí)信息(即公式(1)中的第三項(xiàng))和低級(jí)特征(即第二項(xiàng))來(lái)明確地估計(jì)結(jié)構(gòu)。第二，用深層卷積神經(jīng)網(wǎng)絡(luò)計(jì)算聯(lián)合特征，其能力在人類行為識(shí)別中沒(méi)有得到很好的探索。總的來(lái)說(shuō)，此公式優(yōu)于公共數(shù)據(jù)集的最好方法。

2)特征表示

通過(guò)深層卷積神經(jīng)網(wǎng)絡(luò)(CNN)學(xué)習(xí)到的特征和手工制作的特征相結(jié)合。使用空間網(wǎng)絡(luò)從圖像中的人體區(qū)域提取CNN特征?？臻g網(wǎng)絡(luò)捕獲了靜止圖像的靜態(tài)外觀。由于其良好的性能，將空間網(wǎng)絡(luò)的fc6層的輸出作為深度特征。使用梯度直方圖和光流直方圖(HoG和HoF)特征來(lái)進(jìn)一步增強(qiáng)特征表示。HoF是從相鄰幀中提取的，這是對(duì)不捕獲運(yùn)動(dòng)線索的CNN特征和HoG特征的良好補(bǔ)充。為了計(jì)算HoF，提取扭曲光流。最后，CNN，HOG和HOF特征被連接以表示圖像中的個(gè)人行為或交互關(guān)系。使用這種特征為每個(gè)數(shù)據(jù)集訓(xùn)練兩個(gè)線性支持向量機(jī)(SVM)分類器，一個(gè)用于分類個(gè)人行為，另一個(gè)用于分類交互關(guān)系。注意，其目的是使用組合特征來(lái)計(jì)算公式(1)中的聯(lián)合特征。為此，計(jì)算

這里d_α，d_∈是用訓(xùn)練好的SVM分類器分類包含個(gè)人行為和交互關(guān)系得到的決策值表示的向量，并且所有運(yùn)算符表示基于向量的元素計(jì)算。

s_α(a)表示一個(gè)人的行為為a的判別分?jǐn)?shù)。s_∈(e)表示1兩個(gè)人有交互的判別分值(當(dāng)e＝1時(shí))或不在交互的分值(當(dāng)e＝0時(shí))。公式(1)中的聯(lián)合特征由下式定義：

φ(I，a)＝1_α(a)·S_α(a) (4)

μ(I，a)＝1_∈(e)·S_∈(e) (5)

ψ(I，a_i，a_j)＝1_τ(a_i，a_j，p_i，p_j，r_ij) (6)

這里1_α(a)∈{0，1}^a是指示符向量，在位置a時(shí)取值1，，其他位置取0的。同樣，1_∈(e)在位置e取1，在別處取0，1_τ(·)在索引位置a_i，a_j，p_i，p_j，r_ij時(shí)取1，其中p_i，p_j表示人i和人j的姿勢(shì)，r_ij表示人j與人i的相對(duì)位置。在本文中，將人體姿勢(shì)分為五類，即p∈{profile left，profile right，frontal left，frontal right，backwards}。為了計(jì)算r_ij，將圍繞人j的區(qū)域劃分為六個(gè)子區(qū)域，并且每個(gè)子區(qū)域被分配{overlap，adjacentleft(right)，nearleft(right)，far}中的一個(gè)相對(duì)位置。r_ij是包圍邊界框i的中心的子區(qū)域的ID。

3)訓(xùn)練模型的參數(shù)

給定n個(gè)訓(xùn)練樣本，目的是訓(xùn)練用于行為識(shí)別的判別模型。如通常所做的，使用以下的max-margin-style公式進(jìn)行訓(xùn)練：

這里ξ表示松弛變量，C是確定增加模型復(fù)雜性和減少對(duì)訓(xùn)練數(shù)據(jù)的不正確預(yù)測(cè)之間的權(quán)衡的常數(shù)。確定“最佳”C的常見(jiàn)策略是交叉驗(yàn)證。標(biāo)簽成本，即不正確預(yù)測(cè)的懲罰由下式給出：

其中δ(·)是指示功能，如果測(cè)試條件為真則給出1，否則輸出0。

把這種公式稱為聯(lián)合結(jié)構(gòu)和結(jié)構(gòu)化學(xué)習(xí)(JSSL)，因?yàn)樗蛩阃瑫r(shí)學(xué)習(xí)結(jié)構(gòu)標(biāo)簽a和交互結(jié)構(gòu)E。很容易發(fā)現(xiàn)公式(7)是凸的，可以通過(guò)切平面算法或基于子梯度的方法有效地求解w。

4)訓(xùn)練和預(yù)測(cè)中的相關(guān)推理

在訓(xùn)練的每次迭代期間，必須針對(duì)每個(gè)訓(xùn)練示例解決以下?lián)p失增強(qiáng)推理：

由于潛在函數(shù)F的表達(dá)，成本項(xiàng)Δ可以被吸收到公式(1)中的兩個(gè)一元項(xiàng)中。因此，問(wèn)題(10)與下面的優(yōu)化是同質(zhì)的：

知道訓(xùn)練的模型w，這個(gè)優(yōu)化實(shí)際上是預(yù)測(cè)問(wèn)題。換句話說(shuō)，可以使用相同的算法來(lái)解決損失增加的推斷和預(yù)測(cè)問(wèn)題。然而，這種優(yōu)化通常是NP完全問(wèn)題。引入多個(gè)輔助變量和約束，可以把它近似到雙線性規(guī)劃問(wèn)題。本發(fā)明提出一個(gè)簡(jiǎn)單而有效的算法來(lái)近似解決這樣的問(wèn)題。

本發(fā)明的算法交替搜索標(biāo)簽空間和結(jié)構(gòu)空間。在每次迭代期間，算法依次執(zhí)行以下兩個(gè)步驟：

1.固定結(jié)構(gòu)并通過(guò)循環(huán)信任傳播解決剩余問(wèn)題，以找到的解。

2.固定標(biāo)簽并解決剩余的整數(shù)線性規(guī)劃(1LP)問(wèn)題(11)，找到的解。

其中a^*表示在第一步驟中發(fā)現(xiàn)的解。為了確保稀疏性，我們向(11)中添加兩種類型的約束，這導(dǎo)致另外兩個(gè)ILP問(wèn)題：

其中||Z||₀是Z的L₀范數(shù)。

實(shí)際上，(11)，(12)，(13)分別是沒(méi)有約束的，最大邊數(shù)約束和節(jié)點(diǎn)度約束的ILP問(wèn)題，分別用ILP-NoC，ILP-MNE和ILP-NDC表示。很容易發(fā)現(xiàn)ILP-NoC和ILP-MNE是容易解決的，總是能找到確切的解決方案。

本發(fā)明近似解決ILP-NDC。該算法維護(hù)交互的候選陣列。對(duì)于每對(duì)(i，j)_{i，j∈{1，…，m}，i＜j}，考慮輸出

如果V₀＞V₁，設(shè)置e_ij＝0，否則把(i，j)放到候選隊(duì)列中。接下來(lái)，根據(jù)候選的V₁值以降序?qū)?shù)組進(jìn)行排序。然后從頭到尾訪問(wèn)這個(gè)數(shù)組。對(duì)于當(dāng)前對(duì)(s，t)，如果在ILP-NDC中沒(méi)有違反約束，設(shè)置e_st＝1；否則設(shè)置e_st＝0。

本發(fā)明提出了一個(gè)聯(lián)合學(xué)習(xí)交互結(jié)構(gòu)和結(jié)構(gòu)化標(biāo)簽的方法。本發(fā)明的公式基于低級(jí)圖像信息和高級(jí)上下文信息，以監(jiān)督的方式明確地學(xué)習(xí)人類交互關(guān)系。本發(fā)明已經(jīng)包括通過(guò)深層卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的特征，并且發(fā)現(xiàn)這樣的特征能夠增強(qiáng)對(duì)人類個(gè)人行為和交互的識(shí)別。使用max-margin-style訓(xùn)練方法來(lái)學(xué)習(xí)模型參數(shù)，并提出了一種有效的算法來(lái)解決相關(guān)的推理問(wèn)題。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王振華;金佳麗;陳勝勇;劉盛;張劍華
技術(shù)所有人：浙江工業(yè)大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于人類行為識(shí)別的深度聯(lián)合結(jié)構(gòu)化和結(jié)構(gòu)化學(xué)習(xí)方法與流程