本發(fā)明涉及一種基于全卷積網(wǎng)絡(luò)的非限制場景中運動目標快速分割方法,屬于視頻對象分割技術(shù)領(lǐng)域。
背景技術(shù):
隨著多媒體技術(shù)的發(fā)展,視頻內(nèi)容為我們提供了豐富而全面的信息,然而,原始視頻往往含有的信息量非常巨大,其中大部分信息對于具體的行業(yè)應(yīng)用是沒有意義可言,因此,如何從視頻中提取到有意義的信息來服務(wù)于人們的生活和工作就成為一個與實際應(yīng)用緊密相關(guān)的重要問題,例如:在交通監(jiān)控視頻中使用視頻對象分割技術(shù)將運動目標信息提取出來。
目前利用圖像處理來實現(xiàn)視頻對象分割方法和產(chǎn)品在國內(nèi)已經(jīng)擁有比較成熟的產(chǎn)品和專利。如北京航空航天大學(xué)研究人員于2009年發(fā)明了一種基于時域定區(qū)間記憶補償?shù)囊曨l對象分割方法,該發(fā)明公開了一種基于時域定區(qū)間記憶補償?shù)囊曨l對象分割方法,這是一種新的并行時空融合自動分割方法,它的提出有效地解決了時空融合時經(jīng)常出現(xiàn)的視頻對象內(nèi)部缺失嚴重以及采用幀差檢測運動區(qū)域時不可避免的遮擋(覆蓋/顯露)問題,同時,在精確性、通用性和速度方面也有了較大的改善。北京航空航天大學(xué)研究人員于2012年發(fā)明了一套基于變化檢測和幀差累積的視頻對象分割方法專利,該發(fā)明公開了一種基于變化檢測和幀差累積的視頻對象分割方法,它的提出有效地解決了視頻對象分割方法經(jīng)常出現(xiàn)的對象不規(guī)則運動造成的視頻對象內(nèi)部缺失和背景顯露。分割速度、分割效果、適用范圍及可移植性均有了很大的改善。溫州大學(xué)研究人員于2014年提出了一種基于遺傳算法的視頻對象分割方法,該發(fā)明公開了一種基于遺傳算法的視頻對象分割方法。通過VFW對視頻進行捕捉并處理,獲取視頻中的圖像幀;采用中值濾波對圖像幀內(nèi)在的噪聲進行處理;通過遺傳算法尋找參量空間的全局最優(yōu)分割閾值,將視頻對象與視頻背景進行分離。用戶可以做到在導(dǎo)入一個本地視頻之后,在用戶的控制下,自動將該視頻分成若干幀,并檢測該視頻中的前景物體,然后對每一幀中的前景物體較為完美地提取出來,再將提取出來的物體自動粘貼至用戶所指定的目標背景中去,并將合成的結(jié)果在本地輸出。但上述方法對于目標本體局部不運動部分分割效果都不能達到最佳,且自動化程度不夠。
本發(fā)明由國家自然科學(xué)基金項目(No.61461022和No.61302173)資助研究,主要在于探索運動背景下對目標的分割算法,解決了對準確移動的背景、任意物體的運動和表觀以及非剛體變形和關(guān)節(jié)運動分割難題,為動態(tài)場景下高效、準確、準確的前景目標信息檢測與分割提供理論依據(jù)。
技術(shù)實現(xiàn)要素:
本發(fā)明提供了一種基于全卷積網(wǎng)絡(luò)的非限制場景中運動目標快速分割方法,以用于解決對準確移動的背景、任意物體的運動和表觀以及非剛體變形和關(guān)節(jié)運動的視頻中的運動目標對象實現(xiàn)分割的難題,為動態(tài)場景下高效、準確的前景目標信息檢測與分割提供理論依據(jù),從而高效、準確地獲取視頻中運動目標的信息,提高對視頻內(nèi)容的解讀和信息的獲取。
本發(fā)明的技術(shù)方案是:一種基于全卷積網(wǎng)絡(luò)的非限制場景中運動目標快速分割方法,首先,對視頻進行分幀,利用分幀后的結(jié)果制作樣本圖像的Ground Truth集合S;采用通過PASCAL VOC標準庫訓(xùn)練的全卷積神經(jīng)網(wǎng)絡(luò)對視頻各幀中的目標進行預(yù)測,獲取圖像前景目標的深層特征估計子,據(jù)此得到所有幀中目標最大類間似然映射信息,實現(xiàn)對視頻幀中的前景和背景的初步預(yù)測;然后,通過馬爾科夫隨機場對前景和背景的深層特征估計子進行精細化,從而實現(xiàn)對非限制場景視頻中視頻前景運動目標的分割。
所述方法的具體步驟如下:
Step1、對視頻進行分幀,利用分幀后的結(jié)果制作樣本圖像的Ground Truth集合S,采用通過PASCAL VOC標準庫訓(xùn)練的全卷積神經(jīng)網(wǎng)絡(luò)對視頻各幀中的目標進行預(yù)測,獲取圖像前景目標的深層特征估計子,據(jù)此得到所有幀中目標最大類間似然映射信息,將視頻前景和背景分別標記為0、1,實現(xiàn)對視頻幀中的前景和背景的初步預(yù)測;
Step2、通過馬爾科夫隨機場對前景和背景的深層特征估計子進行精細化,建立外觀模型和位置模型,融合所有幀中目標最大類間似然映射信息在所有幀中分割目標;
Step3、循環(huán)步驟Step1至Step2,直至完成視頻中的運動目標分割。
所述步驟Step1中,建立全卷積網(wǎng)絡(luò),獲得各自圖像幀的最大類間似然映射信息(即各自圖像幀的內(nèi)-外映射信息)步驟如下:
Step1.1、對目標視頻進行分幀處理,獲取具有運動目標的視頻幀,挑選目標的若干幅圖像組成特征訓(xùn)練樣本集,制作目標圖像的Ground Truth集合,共同構(gòu)成運動目標特征的訓(xùn)練集合S;
Step1.2、將VGG-16模型的最后三層,即全連接層用卷積層替換,構(gòu)成全卷積網(wǎng)絡(luò),利用PASCAL VOC標準庫訓(xùn)練全卷積網(wǎng)絡(luò);
Step1.3、將分好的視頻幀作為網(wǎng)絡(luò)輸入,利用訓(xùn)練好的全卷積網(wǎng)絡(luò)對視頻幀中的目標進行預(yù)測,獲取圖像前景目標的深層特征估計子;其中,網(wǎng)絡(luò)層的數(shù)據(jù)為h×w×d大小的數(shù)組,h、w為空間維度,d為圖像的色彩通道,對于網(wǎng)絡(luò)結(jié)構(gòu)第一層,其輸入為原始圖像,h×w為圖像大小,d為圖像的色彩通道,對于網(wǎng)絡(luò)的其它層,其輸出為ηij=ξks({Xsi+i,sj+j}0≤i,j≤k),Xij是在指定層(i,j)處的數(shù)據(jù)向量,k為卷積核大小,s為降采樣因子,ξks決定網(wǎng)絡(luò)層的類型;
Step1.4、對全卷積網(wǎng)絡(luò)得到的特征映射雙線性上采樣即反卷積對得到的特征映射精煉,在網(wǎng)絡(luò)結(jié)構(gòu)淺層處減小上采樣的步長,得到精煉層的特征映射,將其同網(wǎng)絡(luò)高層得到的粗略層的特征映射融合得到新的一個特征映射層,再次做上采樣得到新的精煉特征映射輸出。
所述步驟Step2中,將視頻幀每一幀過分割為超像素,并為超像素建立表觀模型和位置模型,結(jié)合所有內(nèi)-外映射在所有幀中分割目標步驟如下:
Step2.1、將視頻幀過分割為超像素集合S,對超像素集合S中每個超像素賦予一個屬于{0,1}的標簽,分別為前景和背景,建立馬爾科夫隨機場能量函數(shù)對標簽做出懲罰,優(yōu)化標記結(jié)果:
利用圖割法,得到將能量函數(shù)最小化的標簽其中,Ut為一個一元項,它可以根據(jù)第t幀的外觀模型估計一個超像素是前景或是背景的可能性,V,W為二元項,它們能夠平滑空間和時間鄰域,變量i∈V,V={1,2,...,n},λ為一權(quán)衡參數(shù);
Step2.2、結(jié)合內(nèi)-外映射利用交互分割法建立外觀模型Ut自動估計前景和背景,外觀模型包含兩個在RGB空間內(nèi)的混合高斯模型,其中一個為前景,另一個為背景,超像素位于前景和背景中的可能性,為所有超像素建立前景模型和背景模型,前景模型超像素的權(quán)重定義為背景模型超像素的權(quán)重定義為其中βU為時間上的權(quán)重,為超像素屬于目標的百分比,反之為超像素不屬于目標的百分比;
Step2.3、建立位置模型Lt降低背景顏色和前景顏色相似情況下對分割效果的影響,利用公式argmaxcηtp(i,j,c)建立最大類間位置似然,由ηtp(i,j,c)全連接網(wǎng)絡(luò)預(yù)測層在上一個時刻t的輸出,判斷像素(i,j)處第c類目標的分類似然,結(jié)合最大類間位置似然內(nèi)-外映射傳播法建立位置先驗,超像素通過光流傳遞從第一幀正向傳播到最后一幀,超像素幀間傳播t+1幀中的位置通過如下公式得到更新:由Φ判斷傳播質(zhì)量是否可靠,對不可靠的傳遞作出懲罰進行降權(quán)處理;類似于上述過程,再將超像素通過光流從最后一幀反向傳播至第一幀,最后將正向傳播和反向傳播兩步歸一化和,建立位置模型,其中,為連接權(quán)重,δ為更新速率,δ∈[0,1],為像素p的光流向量。
所述步驟Step1.2中全卷積網(wǎng)絡(luò)層數(shù)為13層。
本發(fā)明的有益效果是:
(1)本發(fā)明克服了在復(fù)雜運動背景下,相比于其他算法對目標分割不完全的弊端,對獲取的視頻幀序列輸入網(wǎng)絡(luò)的每幀圖像大小沒有限制,不要求每幀圖像都是同樣尺寸;
(2)本發(fā)明所述方法提出利用全卷積網(wǎng)絡(luò)對視頻幀的語義區(qū)域進行預(yù)測,對所述類評分,取最高評分并排名確定目標類,從而獲得種子點作為最大類間目標內(nèi)-外映射信息,能夠明顯將目標從復(fù)雜背景當中分離出來;利用光流法建立外觀模型和位置模型能夠準確、高效、準確獲取運動目標信息,實現(xiàn)對運動目標本體中局部不運動部分的分割。
(3)本發(fā)明用全卷積網(wǎng)絡(luò)和視頻分割方法能夠有效地獲取運動目標的信息,以實現(xiàn)對運動目標的高效、準確分割,提高視頻前景-背景信息的分析精度。
附圖說明
圖1為本發(fā)明的方法流程圖;
圖2為本發(fā)明的算法流程圖;
圖3為本發(fā)明方法和其他方法分割結(jié)果對比圖;
圖4為本發(fā)明方法與其他方法的P/R曲線對比圖。
具體實施方式
實施例1:如圖1-4所示,一種基于全卷積網(wǎng)絡(luò)的非限制場景中運動目標快速分割方法,首先,對視頻進行分幀,利用分幀后的結(jié)果制作樣本圖像的Ground Truth集合S;采用通過PASCAL VOC標準庫訓(xùn)練的全卷積神經(jīng)網(wǎng)絡(luò)對視頻各幀中的目標進行預(yù)測,獲取圖像前景目標的深層特征估計子,據(jù)此得到所有幀中目標內(nèi)-外映射信息,實現(xiàn)對視頻幀中的前景和背景的初步預(yù)測;然后,通過馬爾科夫隨機場對前景和背景的深層特征估計子進行精細化,從而實現(xiàn)對非限制場景視頻中視頻前景運動目標的分割并通過Ground Truth集合S驗證本方法的性能。
所述方法的具體步驟如下:
Step1、對視頻進行分幀,利用分幀后的結(jié)果制作樣本圖像的Ground Truth集合S,采用通過PASCAL VOC標準庫訓(xùn)練的全卷積神經(jīng)網(wǎng)絡(luò)對視頻各幀中的目標進行預(yù)測,獲取圖像前景目標的深層特征估計子,據(jù)此得到所有幀中目標內(nèi)-外映射信息,將視頻前景和背景分別標記為0、1,實現(xiàn)對視頻幀中的前景和背景的初步預(yù)測;
Step2、通過馬爾科夫隨機場對前景和背景的深層特征估計子進行精細化,建立外觀模型和位置模型,融合所有幀中目標內(nèi)-外映射信息在所有幀中分割目標;
Step3、循環(huán)步驟Step1至Step2,直至完成視頻中的運動目標分割。
所述步驟Step1中,建立全卷積網(wǎng)絡(luò),獲得各自圖像幀的內(nèi)-外映射信息步驟如下:
Step1.1、對目標視頻進行分幀處理,獲取具有運動目標的視頻幀,挑選目標的若干幅圖像組成特征訓(xùn)練樣本集,制作目標圖像的Ground Truth集合,共同構(gòu)成運動目標特征的訓(xùn)練集合S;
Step1.2、將VGG-16模型的最后三層,即全連接層用卷積層替換,構(gòu)成全卷積網(wǎng)絡(luò),利用PASCAL VOC標準庫訓(xùn)練全卷積網(wǎng)絡(luò);
Step1.3、將分好的視頻幀作為網(wǎng)絡(luò)輸入,利用訓(xùn)練好的全卷積網(wǎng)絡(luò)對視頻幀中的目標進行預(yù)測,獲取圖像前景目標的深層特征估計子;其中,網(wǎng)絡(luò)層的數(shù)據(jù)為h×w×d大小的數(shù)組,h、w為空間維度,d為圖像的色彩通道,對于網(wǎng)絡(luò)結(jié)構(gòu)第一層,其輸入為原始圖像,h×w為圖像大小,d為圖像的色彩通道,對于網(wǎng)絡(luò)的其它層,其輸出為ηij=ξks({Xsi+i,sj+j}0≤i,j≤k),Xij是在指定層(i,j)處的數(shù)據(jù)向量,k為卷積核大小,s為降采樣因子,ξks決定網(wǎng)絡(luò)層的類型;
Step1.4、對全卷積網(wǎng)絡(luò)得到的特征映射雙線性上采樣即反卷積對得到的特征映射精煉,在網(wǎng)絡(luò)結(jié)構(gòu)淺層處減小上采樣的步長,得到精煉層的特征映射,將其同網(wǎng)絡(luò)高層得到的粗略層的特征映射融合得到新的一個特征映射層,再次做上采樣得到新的精煉特征映射輸出。
所述步驟Step2中,將視頻幀每一幀過分割為超像素,并為超像素建立表觀模型和位置模型,結(jié)合所有內(nèi)-外映射在所有幀中分割目標步驟如下:
Step2.1、將視頻幀過分割為超像素集合S,對超像素集合S中每個超像素賦予一個屬于{0,1}的標簽,分別為前景和背景,建立馬爾科夫隨機場能量函數(shù)對標簽做出懲罰,優(yōu)化標記結(jié)果:
利用圖割法,得到將能量函數(shù)最小化的標簽其中,Ut為一個一元項,它可以根據(jù)第t幀的外觀模型估計一個超像素是前景或是背景的可能性,V,W為二元項,它們能夠平滑空間和時間鄰域,變量i∈V,V={1,2,...,n},λ為一權(quán)衡參數(shù);
Step2.2、結(jié)合內(nèi)-外映射利用交互分割法建立外觀模型Ut自動估計前景和背景,外觀模型包含兩個在RGB空間內(nèi)的混合高斯模型,其中一個為前景,另一個為背景,超像素位于前景和背景中的可能性,為所有超像素建立前景模型和背景模型,前景模型超像素的權(quán)重定義為背景模型超像素的權(quán)重定義為其中βU為時間上的權(quán)重,為超像素屬于目標的百分比,反之為超像素不屬于目標的百分比;
Step2.3、建立位置模型Lt降低背景顏色和前景顏色相似情況下對分割效果的影響,利用公式argmaxcηtp(i,j,c)建立最大類間位置似然,由ηtp(i,j,c)全連接網(wǎng)絡(luò)預(yù)測層在上一個時刻t的輸出,判斷像素(i,j)處第c類目標的分類似然,結(jié)合最大類間位置似然內(nèi)-外映射傳播法建立位置先驗,超像素通過光流傳遞從第一幀正向傳播到最后一幀,超像素幀間傳播t+1幀中的位置通過如下公式得到更新:由Φ判斷傳播質(zhì)量是否可靠,對不可靠的傳遞作出懲罰進行降權(quán)處理;類似于上述過程,再將超像素通過光流從最后一幀反向傳播至第一幀,最后將正向傳播和反向傳播兩步歸一化和,建立位置模型,其中,為連接權(quán)重,δ為更新速率,δ∈[0,1],為像素p的光流向量。
所述步驟Step1.2中全卷積網(wǎng)絡(luò)層數(shù)為13層。
圖3為本發(fā)明在自然非限制場景中運動目標分割應(yīng)用的一個實例,前景目標分割結(jié)果用掩膜區(qū)域表示。前3列為當前先進的FOS、KS和DAGVOS三種方法的分割結(jié)果,最后一列是本專利方法分割結(jié)果。從定性分割結(jié)果來看,F(xiàn)OS算法沒有檢測到前景,KS算法檢測到的前景位置不準確,DAGVOS算法檢測精度較高,但第一幀中目標的腿部和第二幀圖像中目標的尾巴部分沒有檢測到。最后一列本專利方法分割結(jié)果空間上能比較完整的分割目標,在時間跨度上前景目標也具有一致性。
圖4為本發(fā)明在自然非限制場景中運動目標分割結(jié)果圖3的定量評價,并與當前先進的FOS、KS和DAGVOS三種方法的分割結(jié)果進行定量對比。其中橫軸為召回率,縱軸為精度,底紋線條為等高線。從定量分割結(jié)果來看,F(xiàn)OS算法和KS算法檢測到的精度不高,曲線下面積(AUC)分別為44.12%和48.46%,DAGVOS算法檢測精度較高,AUC精度為83.61%。本專利方法分割結(jié)果精度最高,AUC精度達到了88.74%。在定性和定量分析兩個方面驗證了本專利方法在非限制場景中運動目標準確分割的有益效果。
上面結(jié)合附圖對本發(fā)明的具體實施方式作了詳細說明,但是本發(fā)明并不限于上述實施方式,在本領(lǐng)域普通技術(shù)人員所具備的知識范圍內(nèi),還可以在不脫離本發(fā)明宗旨的前提下作出各種變化。