1.一種圖像引導(dǎo)的視頻語義對象分割方法,其特征在于,包括:
根據(jù)給定的語義類別,在樣本圖像中定位出與所述語義類別對應(yīng)的目標(biāo)對象,得到對象樣例;
對輸入視頻中的每幀圖像進(jìn)行候選區(qū)域的提??;
根據(jù)所述對象樣例,將每幀中所提取的多個候選區(qū)域與所述對象樣例進(jìn)行匹配處理,得到每個候選區(qū)域的相似度分?jǐn)?shù);
對每幀中各個候選區(qū)域的相似度分?jǐn)?shù)進(jìn)行排序,選出滿足預(yù)設(shè)候選區(qū)域個數(shù)的、相似度分?jǐn)?shù)由高到低的高分候選區(qū)域;
對選出的所述高分候選區(qū)域進(jìn)行前景與背景的初始分割處理;
基于初始分割后前景與背景的一致性和無二義性約束條件,對初始分割處理后的候選區(qū)域構(gòu)建優(yōu)化函數(shù),求解所述優(yōu)化函數(shù)得到最優(yōu)的候選區(qū)域集合;
將所述最優(yōu)的候選區(qū)域?qū)?yīng)的初始前景分割傳播到整個視頻,得到所述輸入視頻的語義對象分割。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述對象樣例,將每幀中所提取的多個候選區(qū)域與所述對象樣例進(jìn)行匹配處理,得到每個候選區(qū)域的相似度分?jǐn)?shù),包括:
在所述對象樣例中,確定與每幀中的每個候選區(qū)域外觀相似的圖像區(qū)域;
確定所述圖像區(qū)域在所述對象樣例的樣本圖像中的相對坐標(biāo)和尺寸參數(shù);
保持所述相對坐標(biāo)和尺寸參數(shù),在所述輸入視頻的對應(yīng)幀中構(gòu)造一個新的對象區(qū)域;
根據(jù)構(gòu)造的所述新的對象區(qū)域?yàn)槊恳粋€所述候選區(qū)域評分,得到每個候選區(qū)域的相似度分?jǐn)?shù)。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對選出的所述高分候選區(qū)域進(jìn)行前景與背景的初始分割處理,包括:
對所述高分候選區(qū)域內(nèi)的每個超像素的前景與背景的概率值進(jìn)行計(jì)算,得到所有超像素的前景概率所構(gòu)成的初始前景分割向量以及背景概率所構(gòu)成的初始背景分割向量。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述基于初始分割后前景與背景的一致性和無二義性約束條件,對初始分割處理后的候選區(qū)域構(gòu)建優(yōu)化函數(shù),求解所述優(yōu)化函數(shù)得到最優(yōu)的候選區(qū)域集合,包括:
對所述輸入視頻構(gòu)建第一超像素圖,將所述初始前景分割向量與所述初始背景分割向量沿著所述第一超像素圖傳播至整個所述輸入視頻,得到傳播后的前景和背景分割向量;
根據(jù)所述傳播后的前景和背景分割向量,構(gòu)造分割的一致性約束項(xiàng)和無二義性約束項(xiàng),形成所述優(yōu)化函數(shù);
基于貪婪算法,對所述優(yōu)化函數(shù)進(jìn)行求解,得到最優(yōu)的候選區(qū)域集合。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述最優(yōu)的候選區(qū)域?qū)?yīng)的初始前景分割傳播到整個視頻,得到所述輸入視頻的語義對象分割,包括:
根據(jù)給定的視頻幀數(shù),給定的每幀上的所述高分候選區(qū)域的個數(shù),在所述高分候選區(qū)域中選取候選區(qū)域,得到精選候選區(qū)域集合;其中,所述精選候選區(qū)域集合中包含有所述給定的視頻幀數(shù)與所述給定的每幀上的所述高分候選區(qū)域的個數(shù)的乘積個高分候選區(qū)域;
對選取的所述精選候選區(qū)域集合建立第二超像素圖,采用隨機(jī)游走算法將所述精選候選區(qū)域集合中候選區(qū)域?qū)?yīng)的初始前景分割沿所述第二超像素圖傳播,得到傳播后的前景概率分布;
以所述傳播后的前景概率分布作為初始分布,在所述輸入視頻的所述第一超像素圖上基于所述隨機(jī)游走算法進(jìn)行二次傳播,得到最終的超像素前景概率分布;
對所述最終的超像素前景概率分布進(jìn)行歸一化處理,并提取大于預(yù)設(shè)閾值的超像素作為所述輸入視頻的語義對象分割結(jié)果。
6.一種圖像引導(dǎo)的視頻語義對象分割裝置,其特征在于,包括:
定位模塊,用于根據(jù)給定的語義類別,在樣本圖像中定位出與所述語義類別對應(yīng)的目標(biāo)對象,得到對象樣例;
提取模塊,用于對輸入視頻中的每幀圖像進(jìn)行候選區(qū)域的提取;
匹配模塊,用于根據(jù)所述對象樣例,將每幀中所提取的多個候選區(qū)域與所述對象樣例進(jìn)行匹配處理,得到每個候選區(qū)域的相似度分?jǐn)?shù);
排序模塊,用于對每幀中各個候選區(qū)域的相似度分?jǐn)?shù)進(jìn)行排序,選出滿足預(yù)設(shè)候選區(qū)域個數(shù)的、相似度分?jǐn)?shù)由高到低的高分候選區(qū)域;
處理模塊,用于對選出的所述高分候選區(qū)域進(jìn)行前景與背景的初始分割處理;
計(jì)算模塊,用于基于初始分割后前景與背景的一致性和無二義性約束條件,對初始分割處理后的候選區(qū)域構(gòu)建優(yōu)化函數(shù),求解所述優(yōu)化函數(shù)得到最優(yōu)的候選區(qū)域集合;
傳播模塊,用于將所述最優(yōu)的候選區(qū)域?qū)?yīng)的初始前景分割傳播到整個視頻,得到所述輸入視頻的語義對象分割。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,
所述匹配模塊,具體用于在所述對象樣例中,確定與每幀中的每個候選區(qū)域外觀相似的圖像區(qū)域;確定所述圖像區(qū)域在所述對象樣例的樣本圖像中的相對坐標(biāo)和尺寸參數(shù);保持所述相對坐標(biāo)和尺寸參數(shù),在所述輸入視頻的對應(yīng)幀中構(gòu)造一個新的對象區(qū)域;根據(jù)構(gòu)造的所述新的對象區(qū)域?yàn)槊恳粋€所述候選區(qū)域評分,得到每個候選區(qū)域的相似度分?jǐn)?shù)。
8.根據(jù)權(quán)利要求6所述的裝置,其特征在于,
所述處理模塊,具體用于對所述高分候選區(qū)域內(nèi)的每個超像素的前景與背景的概率值進(jìn)行計(jì)算,得到所有超像素的前景概率所構(gòu)成的初始前景分割向量以及背景概率所構(gòu)成的初始背景分割向量。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,
所述計(jì)算模塊,具體用于對所述輸入視頻構(gòu)建第一超像素圖,將所述初始前景分割向量與所述初始背景分割向量沿著所述第一超像素圖傳播至整個所述輸入視頻,得到傳播后的前景和背景分割向量;根據(jù)所述傳播后的前景和背景分割向量,構(gòu)造分割的一致性約束項(xiàng)和無二義性約束項(xiàng),形成所述優(yōu)化函數(shù);基于貪婪算法,對所述優(yōu)化函數(shù)進(jìn)行求解,得到最優(yōu)的候選區(qū)域集合。
10.根據(jù)權(quán)利要求6所述的裝置,其特征在于,
所述傳播模塊,具體用于根據(jù)給定的視頻幀數(shù),給定的每幀上的所述高分候選區(qū)域的個數(shù),在所述高分候選區(qū)域中選取候選區(qū)域,得到精選候選區(qū)域集合;所述精選候選區(qū)域集合中包含有所述給定的視頻幀數(shù)與所述給定的每幀上的所述高分候選區(qū)域的個數(shù)的乘積個高分候選區(qū)域;對選取的所述精選候選區(qū)域集合建立第二超像素圖,采用隨機(jī)游走算法將所述精選候選區(qū)域集合中候選區(qū)域?qū)?yīng)的初始前景分割沿所述第二超像素圖傳播,得到傳播后的前景概率分布;以所述傳播后的前景概率分布作為初始分布,在所述輸入視頻的所述第一超像素圖上基于所述隨機(jī)游走算法進(jìn)行二次傳播,得到最終的超像素前景概率分布;對所述最終的超像素前景概率分布進(jìn)行歸一化處理,并提取大于預(yù)設(shè)閾值的超像素作為所述輸入視頻的語義對象分割結(jié)果。