亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于多尺度對應(yīng)結(jié)構(gòu)化學(xué)習(xí)的光流估計方法與流程

文檔序號:12035801閱讀:349來源:國知局

本發(fā)明屬于計算機視覺領(lǐng)域,特別地涉及一種基于多尺度對應(yīng)結(jié)構(gòu)化學(xué)習(xí)的光流估計方法。



背景技術(shù):

光流估計作為一種底層視覺技術(shù),常作為一些高層視覺任務(wù)的輔助信息,如視頻異常事件檢測、視頻動作識別等,光流通過提供視頻幀之間的運動信息將幀之間的關(guān)聯(lián)關(guān)系考慮在內(nèi)。光流估計的目標(biāo)是給定連續(xù)兩幀視頻幀,預(yù)測第一幀中每個像素的運動位移。光流估計的關(guān)鍵因素包括像素或圖像區(qū)域的魯棒表示、像素之間對應(yīng)關(guān)系的建模以及計算有效性。傳統(tǒng)方法一般將光流估計任務(wù)看成一個稀疏或稠密像素匹配問題,盡管一些方法在預(yù)測精度上取得了突破,但是其在計算上比較耗時,同時往往因需要結(jié)合多種方法而缺乏靈活性。

由于統(tǒng)計建模的有效性,目前基于學(xué)習(xí)的方法逐漸被應(yīng)用到光流估計任務(wù)中。現(xiàn)有的基于學(xué)習(xí)方法主要是采用端到端的深度學(xué)習(xí)框架,輸入一對連續(xù)視頻幀,輸出預(yù)測的光流圖。深度學(xué)習(xí)能夠有效地解決特征表示的問題,而在對應(yīng)關(guān)系建模上主要有兩種策略:1、在單一尺度上固定搜索范圍,計算像素之間的相似度;2、采用從粗到細(xì)的方法,動態(tài)更新搜索范圍。然而,對于前者,往往很難確定一個合適的搜索范圍,特別是對于大位移運動情況;對于后者,一旦在粗的尺度上預(yù)測錯誤,很有可能會使這種錯誤向后傳播而使得預(yù)測結(jié)果錯誤。



技術(shù)實現(xiàn)要素:

為解決上述問題,本發(fā)明的目的在于提供一種基于多尺度對應(yīng)結(jié)構(gòu)化學(xué)習(xí)的光流估計方法。該方法基于深度神經(jīng)網(wǎng)絡(luò),利用深度視覺特征在不同尺度上建模像素之間的對應(yīng)關(guān)系,并采用遞歸神經(jīng)網(wǎng)絡(luò)對不同尺度上的對應(yīng)關(guān)系進(jìn)行編碼,能夠更好地適應(yīng)不同運動位移情況下的光流估計。

為實現(xiàn)上述目的,本發(fā)明的技術(shù)方案為:

基于多尺度對應(yīng)結(jié)構(gòu)化學(xué)習(xí)的光流估計方法,包括以下步驟:

s1、獲取用于訓(xùn)練光流估計的連續(xù)幀圖像數(shù)據(jù)集,并定義算法目標(biāo);

s2、在不同尺度上對連續(xù)兩幀圖像之間的對應(yīng)進(jìn)行結(jié)構(gòu)化建模;

s3、對不同尺度上的對應(yīng)關(guān)系進(jìn)行聯(lián)合編碼;

s4、建立光流估計的預(yù)測模型;

s5、使用所述預(yù)測模型估計連續(xù)視頻幀的光流圖。

作為優(yōu)選,步驟s1中,所述的用于訓(xùn)練光流模型的連續(xù)視頻幀數(shù)據(jù)集,包括連續(xù)的視頻幀對(xa,xb)train,人工標(biāo)注的光流圖otrain;

定義算法目標(biāo)為:預(yù)測連續(xù)兩幀視頻圖像中第一幀的光流圖o。

進(jìn)一步的,步驟s2中,在不同尺度上對連續(xù)兩幀圖像之間的對應(yīng)進(jìn)行結(jié)構(gòu)化建模具體包括:

s21、對連續(xù)視頻圖像(xa,xb)train進(jìn)行歸一化后,隨機進(jìn)行包括放縮、旋轉(zhuǎn)、平移、添加高斯噪聲、對比度變換在內(nèi)的操作,再從變換后的圖像中裁剪出預(yù)設(shè)大小的圖像塊(ia,ib)train作為算法輸入,根據(jù)圖像的變換和運動規(guī)律對otrain作相應(yīng)的幾何變換得到

s22、使用三層卷積操作對(ia,ib)train分別提取特征得到y(tǒng)a和yb,三層卷積操作中每一層加入relu激活函數(shù),即:

ya=f(ia;θ1)

yb=f(ib;θ1)

其中θ1為卷積參數(shù);f(;)表示卷積操作;

s23、對s22中得到的特征(ya,yb)進(jìn)行多尺度表示:

{(ya,l,yb,l),l=1,2,3,4},其中:

ya,l=f(ya;θ2,l)

yb,l=f(yb;θ2,l)

其中{θ2,l}為卷積參數(shù),且ya,l、yb,l的尺寸分別小于ya,l+1、yb,l+1的尺寸;ya,l、yb,l分別由ya、yb經(jīng)過卷積操作或max-pooling加卷積操作而得;

s24、在每個尺度上分別計算兩個特征圖之間的對應(yīng)關(guān)系,對于ya,l中(i,j)位置處的特征向量其與yb,l中以(i,j)為中心且大小為(2d+1)×(2d+1)的區(qū)域塊s(i,j;d)內(nèi)所有位置的相似度通過下式計算:

其中c{·}表示將集合內(nèi)元素串接成一個向量,<·>表示內(nèi)積運算;d為假定的最大位移的絕對值,k表示計算相似度時所用區(qū)域塊的大小為(2k+1)×(2k+1),p和q分別為s(i,j;d)內(nèi)每個位置的水平方向和垂直方向的坐標(biāo);

對ya,l每個空間位置上的特征向量均按照上式計算其與yb,l對應(yīng)位置集合上的特征向量之間的相似度,即得到該尺度上的對應(yīng)關(guān)系ml;

s25、使用兩層卷積操作進(jìn)一步處理ml,得到ql,兩層卷積操作中每一層加入relu激活函數(shù),即:

ql=f(ml;θ3,l)

其中θ3,l是卷積參數(shù)。

作為優(yōu)選步驟s3中,對不同尺度上的對應(yīng)關(guān)系進(jìn)行聯(lián)合編碼具體包括:

s31、使用卷積gru從q1到q4建模它們之間的依賴關(guān)系,即按照以下公式得到每一個尺度隱藏層的輸出hl

zl=σ(wz*ql+uz*hl-1,↑)

rl=σ(wr*ql+ur*hl-1,↑)

hl,↑=w*hl

其中*和⊙分別表示卷積和矩陣對應(yīng)元素相乘操作,σ表示sigmoid函數(shù),*表示反卷積操作;wz、uz、rl、wr、ur、w、u以及zl均為卷積核;tanh表示雙曲正切函數(shù);

s32、將每個尺度的隱藏層輸出hl上采樣到和網(wǎng)絡(luò)第二層卷積輸出特征圖同樣的大小,得到pl

pl=f(ql;θ4)

其中θ4:={wz,uz,wr,ur,w,u,w}為參數(shù)。

s33、將pl和ia的第二層卷積輸出拼接得到最終編碼結(jié)果e:

作為優(yōu)選步驟s4中,建立光流估計的預(yù)測模型具體包括:

s41、建立深度卷積神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)的輸入為一對連續(xù)視頻幀(xa,xb),輸出為相對于xb,xa中每個像素的運動位移神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)表示為映射以公式表示為:

其中θ5為由e預(yù)測時所用的卷積參數(shù);

s42、神經(jīng)網(wǎng)絡(luò)的損失函數(shù)為:

其中表示(x,y)位置處像素在垂直方向上的預(yù)測位移,表示(x,y)位置處像素在垂直方向上的真實位移,表示(x,y)位置處像素在水平方向上的預(yù)測位移,表示(x,y)位置處像素在水平方向上的真實位移。

使用adam優(yōu)化方法和反向傳播算法在損失函數(shù)下訓(xùn)練整個神經(jīng)網(wǎng)絡(luò)。

作為優(yōu)選步驟s4中,估計連續(xù)視頻幀的光流圖包括,將一對連續(xù)視頻幀(xa,xb)直接輸入到神經(jīng)網(wǎng)絡(luò),輸出即為預(yù)測的光流圖。

本發(fā)明的基于多尺度對應(yīng)結(jié)構(gòu)化學(xué)習(xí)的光流估計方法,相比于現(xiàn)有的光流估計方法,具有以下有益效果:

首先,本發(fā)明的光流估計方法定義了光流估計中三個重要的問題,即像素或圖像區(qū)域的魯棒表示、像素之間對應(yīng)關(guān)系的建模以及計算有效性。通過尋求這三個方向的解決方法,可以有效地解決復(fù)雜情況下的光流估計。

其次,本發(fā)明的光流估計方法基于深度卷積神經(jīng)網(wǎng)絡(luò)建立結(jié)構(gòu)化對應(yīng)模型以建模前兩個關(guān)鍵問題,并具有計算有效性的優(yōu)點。深度卷積神經(jīng)網(wǎng)絡(luò)能夠更好地表達(dá)視覺特征,另外,視覺特征的提取和對應(yīng)結(jié)構(gòu)化模型的學(xué)習(xí)被統(tǒng)一在同一個框架里,提高了方法的最終效果。

最后,本發(fā)明的光流估計方法中提出將不同尺度上的對應(yīng)關(guān)系看成一個序列,并通過利用遞歸神經(jīng)網(wǎng)絡(luò)建模不同尺度上對應(yīng)之間的依賴關(guān)系而將其進(jìn)行編碼以預(yù)測光流。這種方法能夠有效地將不同尺度上的對應(yīng)關(guān)系融合,并保持原圖中像素的空間拓?fù)浣Y(jié)構(gòu)。

本發(fā)明的基于多尺度對應(yīng)結(jié)構(gòu)化學(xué)習(xí)的光流估計方法,在視頻分析和無人駕駛中,能夠有效提高場景運動分析的準(zhǔn)確度和效率,具有良好的應(yīng)用價值。例如,在公共安全的應(yīng)用場景里,本發(fā)明的光流估計方法能夠快速和準(zhǔn)確地預(yù)測場景中的運動規(guī)律,從而能夠快速判斷場景中有無異常事件發(fā)生,為公共場所的安防提供依據(jù)。

附圖說明

圖1為本發(fā)明的流程示意圖。

具體實施方式

為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。

相反,本發(fā)明涵蓋任何由權(quán)利要求定義的在本發(fā)明的精髓和范圍上做的替代、修改、等效方法以及方案。進(jìn)一步,為了使公眾對本發(fā)明有更好的了解,在下文對本發(fā)明的細(xì)節(jié)描述中,詳盡描述了一些特定的細(xì)節(jié)部分。對本領(lǐng)域技術(shù)人員來說沒有這些細(xì)節(jié)部分的描述也可以完全理解本發(fā)明。

參考圖1,在本發(fā)明的較佳實施例中,一種基于多尺度對應(yīng)結(jié)構(gòu)化學(xué)習(xí)的光流估計方法,包括以下步驟:

首先,獲取用于訓(xùn)練光流模型的連續(xù)視頻幀數(shù)據(jù)集,包括連續(xù)的視頻幀對(xa,xb)train,人工標(biāo)注的光流圖otrain;

定義算法目標(biāo)為:預(yù)測連續(xù)兩幀視頻圖像中第一幀的光流圖o。

其次,在不同尺度上對連續(xù)兩幀圖像之間的對應(yīng)進(jìn)行結(jié)構(gòu)化建模具體包括:

第一步,對連續(xù)視頻圖像(xa,xb)train進(jìn)行歸一化(除以255)后,隨機進(jìn)行放縮、旋轉(zhuǎn)、平移、添加高斯噪聲、對比度變換等操作,再從變換后的圖像中裁剪出高320、寬448大小的圖像塊(ia,ib)train作為算法輸入,根據(jù)對圖像的變換和運動規(guī)律對otrain作相應(yīng)的幾何變換(如放縮、旋轉(zhuǎn)、平移、尺度變換等)得到

第二步,使用三層卷積操作(每一層加入relu激活函數(shù))對(ia,ib)train分別提取特征得到y(tǒng)a和yb,即:

ya=f(ia;θ1)

yb=f(ib;θ1)

其中θ1為卷積參數(shù);f(;)表示卷積操作;

第三步,對上一步中得到的特征(ya,yb)進(jìn)行如下多尺度表示:

{(ya,l,yb,l),l=1,2,3,4},即:

ya,l=f(ya;θ2,l)

yb,l=f(yb;θ2,l)

其中{θ2,l}為卷積參數(shù),且ya,l(yb,l)的尺寸小于ya,l+1(yb,l+1)的尺寸。ya,l(yb,l)由ya(yb)經(jīng)過卷積操作或max-pooling加卷積操作而得。

第四步,在每個尺度上分別計算兩個特征圖之間的對應(yīng)關(guān)系,對于ya,l中(i,j)位置處的特征向量其與yb,l中以(i,j)為中心、大小為(2d+1)×(2d+1)的區(qū)域塊s(i,j;d)內(nèi)所有位置的相似度可通過下式計算:

其中c{·}表示將集合內(nèi)元素串接成一個向量,<·>表示內(nèi)積運算;d為假定的最大位移的絕對值,k表示計算相似度時所用區(qū)域塊的大小為(2k+1)×(2k+1),p和q分別為s(i,j;d)內(nèi)每個位置的水平方向和垂直方向的坐標(biāo)。對ya,l每個空間位置上的特征向量均按照上式計算其與yb,l對應(yīng)位置集合上的特征向量之間的相似度即可得到該尺度上的對應(yīng)關(guān)系ml。

第五步,使用兩層卷積操作(每一層加入relu激活函數(shù))進(jìn)一步處理ml,得到ql,即:

ql=f(ml;θ3,l)

其中θ3,l是卷積參數(shù)。

接下來,對不同尺度上的對應(yīng)關(guān)系進(jìn)行聯(lián)合編碼具體包括:

第一步,使用卷積gru從q1到q4建模它們之間的依賴關(guān)系,即按照以下公式得到每一個尺度隱藏層的輸出hl

zl=σ(wz*ql+uz*hl-1,↑)

rl=σ(wr*ql+ur*hl-1,↑)

hl,↑=w*hl

其中*和⊙分別表示卷積和矩陣對應(yīng)元素相乘操作,σ表示sigmoid函數(shù),*表示反卷積操作。wz、uz、rl、wr、ur、w、u以及zl均為卷積核;tanh表示雙曲正切函數(shù);

第二步,將每個尺度的隱藏層輸出hl上采樣到和網(wǎng)絡(luò)第二層卷積輸出特征圖同樣的大小,得到pl

pl=f(ql;θ4)

其中θ4:={wz,uz,wr,ur,w,u,w}為s31中的參數(shù)。

第三步,將pl和ia的第二層卷積輸出拼接得到最終編碼結(jié)果e:

之后,建立光流估計的預(yù)測模型具體包括:

第一步,建立深度卷積神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)的輸入為一對連續(xù)視頻幀(xa,xb),輸出為相對于xb,xa中每個像素的運動位移從而神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)可以表示為映射用公式可以表示為:

其中θ5為由e預(yù)測時所用的卷積參數(shù)。

第二步,神經(jīng)網(wǎng)絡(luò)的損失函數(shù)為:

其中表示(x,y)位置處像素在垂直方向上的預(yù)測位移,表示(x,y)位置處像素在垂直方向上的真實位移,表示(x,y)位置處像素在水平方向上的預(yù)測位移,表示(x,y)位置處像素在水平方向上的真實位移。

使用adam優(yōu)化方法和反向傳播算法在損失函數(shù)下訓(xùn)練整個神經(jīng)網(wǎng)絡(luò)。

最后,使用建立的模型對輸入的一對連續(xù)視頻幀預(yù)測光流。具體包括,將一對連續(xù)視頻幀(xa,xb)輸入到神經(jīng)網(wǎng)絡(luò)(省去放縮、旋轉(zhuǎn)、平移、添加高斯噪聲、對比度變換、裁剪等操作),輸出即為預(yù)測的光流圖。

上述實施例中,本發(fā)明的光流估計方法首先分別在不同尺度上對像素之間的對應(yīng)關(guān)系進(jìn)行結(jié)構(gòu)化建模并使用遞歸神經(jīng)網(wǎng)絡(luò)編碼不同尺度上的對應(yīng)關(guān)系。在此基礎(chǔ)上,將原問題轉(zhuǎn)化為端到端的結(jié)構(gòu)化學(xué)習(xí)問題,并基于深度神經(jīng)網(wǎng)絡(luò)建立光流估計模型。最后,利用訓(xùn)練好的光流估計模型來預(yù)測新的一對連續(xù)視頻幀的光流信息。

通過以上技術(shù)方案,本發(fā)明實施例基于深度學(xué)習(xí)技術(shù)發(fā)展了一種基于多尺度對應(yīng)結(jié)構(gòu)化學(xué)習(xí)的光流估計方法。本發(fā)明可以在不同尺度上建模像素之間的對應(yīng)關(guān)系并建模不同尺度上對應(yīng)之間的依賴關(guān)系,從而估計準(zhǔn)確的光流信息。

以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1