本發(fā)明涉及計(jì)算機(jī)視覺與多媒體分析領(lǐng)域,尤其涉及一種圖像引導(dǎo)的視頻語義對(duì)象分割方法及裝置。
背景技術(shù):
隨著計(jì)算機(jī)視覺、多媒體分析技術(shù)的發(fā)展,以直觀形象為特征的多媒體信息資源日益豐富且深受社會(huì)大眾的喜愛,如何高效地從視頻信息中定位并分割出需要的視頻資源亦成為了研究熱點(diǎn)。
視頻語義對(duì)象分割是一種針對(duì)特定語義類別,從輸入視頻中定位并分割出屬于該類別對(duì)象的視頻像素的技術(shù)。該技術(shù)可應(yīng)用于大規(guī)?;ヂ?lián)網(wǎng)分析,影視制作中的視頻編輯,以及基于視頻的三維建模等。目前的視頻語義對(duì)象分割方法主要為參數(shù)化方法,所謂參數(shù)化方法,就是在視頻中對(duì)對(duì)象的所處位置進(jìn)行一一標(biāo)注,并收集大量已經(jīng)標(biāo)注了對(duì)象位置或?qū)ο筝喞膱D像視頻,從中學(xué)習(xí)出一個(gè)統(tǒng)一的、由參數(shù)作為表達(dá)形式的視覺模型,并將該視覺模型應(yīng)用于輸入的測(cè)試視頻,基于該學(xué)習(xí)得到的視覺模型對(duì)該測(cè)試視頻中的目標(biāo)對(duì)象進(jìn)行對(duì)象分割。例如,美國(guó)喬治亞理工大學(xué)的Kundu等人提出了基于特征空間優(yōu)化的視頻語義對(duì)象分割方法,該參數(shù)化方法通過大量精確標(biāo)注的視頻幀學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)得到視覺模型。美國(guó)密西根大學(xué)的Lei等人于2016年提出了機(jī)器學(xué)習(xí)模型遞歸時(shí)域深度場(chǎng)(Recurrent Temporal Deep Field),并應(yīng)用于視頻語義對(duì)象分割。然而,這類參數(shù)化的方法存在以下問題:一方面,采用參數(shù)化方法需要對(duì)大量的圖像進(jìn)行精確標(biāo)注得到訓(xùn)練樣本,因此訓(xùn)練樣本的收集過程較為困難且耗時(shí)較長(zhǎng);另一方面,訓(xùn)練得到的參數(shù)模型難以根據(jù)新增加的圖像進(jìn)行高效地更新和迭代,因此對(duì)于視覺資源的動(dòng)態(tài)增長(zhǎng)的適應(yīng)性不好。例如,若在已有的視覺系統(tǒng)中增加新的訓(xùn)練樣本或者語義類別,采用參數(shù)化方法則需要重新訓(xùn)練視覺模型,而該模型的訓(xùn)練過程是耗時(shí)耗力的,對(duì)于現(xiàn)代的機(jī)器學(xué)習(xí)模型,可能需要數(shù)天甚至數(shù)周的時(shí)間。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供一種圖像引導(dǎo)的視頻語義對(duì)象分割方法及裝置,該方法屬于非參數(shù)化的視頻語義對(duì)象分割方法,基于僅標(biāo)注了語義類別標(biāo)簽的樣本圖像集合得到對(duì)象樣例,并根據(jù)該對(duì)象樣例對(duì)輸入的視頻進(jìn)行語義對(duì)象分割。相比現(xiàn)有技術(shù)中的參數(shù)化方法,本發(fā)明能夠充分利用互聯(lián)網(wǎng)上廣泛存在的弱標(biāo)注圖像集,不需要像參數(shù)化方法那樣對(duì)訓(xùn)練樣本進(jìn)行精確標(biāo)注;通過建立輸入視頻與圖像集的匹配,定位視頻語義對(duì)象,省略了對(duì)視覺模型的訓(xùn)練過程,還能夠支持圖像集的動(dòng)態(tài)增長(zhǎng),簡(jiǎn)單且高效地實(shí)現(xiàn)對(duì)視頻的語義對(duì)象分割。
本發(fā)明提供一種圖像引導(dǎo)的視頻語義對(duì)象分割方法,包括:
根據(jù)給定的語義類別,在樣本圖像中定位出與所述語義類別對(duì)應(yīng)的目標(biāo)對(duì)象,得到對(duì)象樣例;
對(duì)輸入視頻中的每幀圖像進(jìn)行候選區(qū)域的提?。?/p>
根據(jù)所述對(duì)象樣例,將每幀中所提取的多個(gè)候選區(qū)域與所述對(duì)象樣例進(jìn)行匹配處理,得到每個(gè)候選區(qū)域的相似度分?jǐn)?shù);
對(duì)每幀中各個(gè)候選區(qū)域的相似度分?jǐn)?shù)進(jìn)行排序,選出滿足預(yù)設(shè)候選區(qū)域個(gè)數(shù)的、相似度分?jǐn)?shù)由高到低的高分候選區(qū)域;
對(duì)選出的所述高分候選區(qū)域進(jìn)行前景與背景的初始分割處理;
基于初始分割后前景與背景的一致性和無二義性約束條件,對(duì)初始分割處理后的候選區(qū)域構(gòu)建優(yōu)化函數(shù),求解所述優(yōu)化函數(shù)得到最優(yōu)的候選區(qū)域集合;
將所述最優(yōu)的候選區(qū)域?qū)?yīng)的初始前景分割傳播到整個(gè)視頻,得到所述輸入視頻的語義對(duì)象分割。
本發(fā)明還提供一種圖像引導(dǎo)的視頻語義對(duì)象分割裝置,包括:
定位模塊,用于根據(jù)給定的語義類別,在樣本圖像中定位出與所述語義類別對(duì)應(yīng)的目標(biāo)對(duì)象,得到對(duì)象樣例;
提取模塊,用于對(duì)輸入視頻中的每幀圖像進(jìn)行候選區(qū)域的提取;
匹配模塊,用于根據(jù)所述對(duì)象樣例,將每幀中所提取的多個(gè)候選區(qū)域與所述對(duì)象樣例進(jìn)行匹配處理,得到每個(gè)候選區(qū)域的相似度分?jǐn)?shù);
排序模塊,用于對(duì)每幀中各個(gè)候選區(qū)域的相似度分?jǐn)?shù)進(jìn)行排序,選出滿足預(yù)設(shè)候選區(qū)域個(gè)數(shù)的、相似度分?jǐn)?shù)由高到低的高分候選區(qū)域;
處理模塊,用于對(duì)選出的所述高分候選區(qū)域進(jìn)行前景與背景的初始分割處理;
計(jì)算模塊,用于基于初始分割后前景與背景的一致性和無二義性約束條件,對(duì)初始分割處理后的候選區(qū)域構(gòu)建優(yōu)化函數(shù),求解所述優(yōu)化函數(shù)得到最優(yōu)的候選區(qū)域集合;
傳播模塊,用于將所述最優(yōu)的候選區(qū)域?qū)?yīng)的初始前景分割傳播到整個(gè)視頻,得到所述輸入視頻的語義對(duì)象分割。
本發(fā)明的圖像引導(dǎo)的視頻語義對(duì)象分割方法及裝置,通過根據(jù)給定的語義類別,在樣本圖像中定位出與所述語義類別對(duì)應(yīng)的目標(biāo)對(duì)象,得到對(duì)象樣例;對(duì)輸入視頻中的每幀圖像進(jìn)行候選區(qū)域的提??;根據(jù)對(duì)象樣例,將每幀中所提取的多個(gè)候選區(qū)域與對(duì)象樣例進(jìn)行匹配處理,得到每個(gè)候選區(qū)域的相似度分?jǐn)?shù);對(duì)每幀中各個(gè)候選區(qū)域的相似度分?jǐn)?shù)進(jìn)行排序,選出滿足預(yù)設(shè)候選區(qū)域個(gè)數(shù)的、相似度分?jǐn)?shù)由高到低的高分候選區(qū)域;對(duì)選出的高分候選區(qū)域進(jìn)行前景與背景的初始分割處理;基于初始分割后前景與背景的一致性和無二義性約束條件,對(duì)初始分割處理后的候選區(qū)域構(gòu)建優(yōu)化函數(shù),求解優(yōu)化函數(shù)得到最優(yōu)的候選區(qū)域集合;將最優(yōu)的候選區(qū)域?qū)?yīng)的初始前景分割傳播到整個(gè)視頻,得到輸入視頻的語義對(duì)象分割。該方案無需訓(xùn)練視覺模型,充分利用互聯(lián)網(wǎng)上廣泛存在的弱標(biāo)注圖像代替以往方法所需的精確標(biāo)注的訓(xùn)練樣本,從而省略了模型的訓(xùn)練過程,能較好地支持圖像集合的動(dòng)態(tài)增長(zhǎng),高效且準(zhǔn)確地得到視頻資源的語義對(duì)象分割結(jié)果。
附圖說明
圖1為本發(fā)明一示例性實(shí)施例示出的圖像引導(dǎo)的視頻語義對(duì)象分割方法的流程示意圖;
圖2a、圖2b為圖1所示實(shí)施例的對(duì)象樣例的示意圖;
圖3為圖1所示實(shí)施例的視頻幀的示意圖;
圖4為本發(fā)明另一示例性實(shí)施例示出的圖像引導(dǎo)的視頻語義對(duì)象分割方法的流程示意圖;
圖5為本發(fā)明一示例性實(shí)施例示出的圖像引導(dǎo)的視頻語義對(duì)象分割裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
圖1為本發(fā)明一示例性實(shí)施例示出的圖像引導(dǎo)的視頻語義對(duì)象分割方法的流程示意圖,如圖1所示,本實(shí)施例示出的圖像引導(dǎo)的視頻語義對(duì)象分割方法,包括:
步驟101、根據(jù)給定的語義類別,在樣本圖像中定位出與語義類別對(duì)應(yīng)的目標(biāo)對(duì)象,得到對(duì)象樣例。
具體的,根據(jù)事前給定的語義類別,在包含該語義類別對(duì)象的大量圖像中共定位出目標(biāo)對(duì)象,從而構(gòu)造得到對(duì)象樣例。如在圖2a、圖2b所示的圖像中,假定語義類別為“?!?,則根據(jù)語義類別“?!痹趫D2a和圖2b的樣本圖像中分別對(duì)“牛”的目標(biāo)對(duì)象進(jìn)行定位,定位后的結(jié)果分別如圖2a和圖2b中的矩形框所示,需要注意的是,此處,定位得到的對(duì)象樣例雖然是根據(jù)語義類別“牛”進(jìn)行的定位,但是有可能定位得到的結(jié)果是錯(cuò)誤的,例如圖2b中,“?!钡膱D像被錯(cuò)誤定位到了“樹”的圖像。其中,定位目標(biāo)圖像的方法可以采用現(xiàn)有技術(shù)中的共定位方法,如2015年法國(guó)國(guó)家信息與自動(dòng)化研究所、巴黎高等工程學(xué)院與法國(guó)國(guó)家科學(xué)研究中心的聯(lián)合WILLOW實(shí)驗(yàn)室的Cho等人所提出的“概率哈夫匹配”(Probabilistic Hough Matching)共定位算法。該算法首先從每幅圖像中提取大量候選矩形區(qū)域,然后計(jì)算每個(gè)矩形區(qū)域的“共顯著性”(Co-Saliency),并在每幅圖像中選取共顯著性最高的區(qū)域作為對(duì)象樣例。該過程是完全自動(dòng)的,因此存在對(duì)象定位不精確甚至錯(cuò)誤的情況。
步驟102、對(duì)輸入視頻中的每幀圖像進(jìn)行候選區(qū)域的提取。
如圖3所示,假設(shè)該圖為輸入視頻中的其中一幀圖像,根據(jù)預(yù)設(shè)的候選區(qū)域選擇算法,在每幀圖像中進(jìn)行候選區(qū)域的提取,被提取的候選區(qū)域如圖3中的各個(gè)矩形框所示(如標(biāo)號(hào)1-6所示)。該候選區(qū)域的提取無需依據(jù)給定的語義類別,隨機(jī)進(jìn)行候選區(qū)域的選定。
步驟103、根據(jù)對(duì)象樣例,將每幀中所提取的多個(gè)候選區(qū)域與對(duì)象樣例進(jìn)行匹配處理,得到每個(gè)候選區(qū)域的相似度分?jǐn)?shù)。
具體的,針對(duì)標(biāo)注同語義類別的輸入視頻,在每一幀上提取候選區(qū)域集合并根據(jù)之前得到的對(duì)象樣例,將每個(gè)候選區(qū)域與對(duì)象樣例進(jìn)行匹配,利用匹配區(qū)域與圖像對(duì)象樣例的空間上下文關(guān)系,為視頻幀的候選區(qū)域集合進(jìn)行快速打分。如圖3所示,經(jīng)過匹配處理后,與圖2a中的“牛”對(duì)象樣例匹配度高的候選區(qū)域得到的相似度分?jǐn)?shù)高,例如,標(biāo)號(hào)為6的候選區(qū)域的得分最高。由于圖2b中的錯(cuò)誤對(duì)象樣例的存在,標(biāo)號(hào)為1的候選區(qū)域的得分可能也較高。對(duì)圖3中的每個(gè)候選區(qū)域都進(jìn)行相似度的評(píng)分處理。
步驟104、對(duì)每幀中各個(gè)候選區(qū)域的相似度分?jǐn)?shù)進(jìn)行排序,選出滿足預(yù)設(shè)候選區(qū)域個(gè)數(shù)的、相似度分?jǐn)?shù)由高到低的高分候選區(qū)域。
根據(jù)預(yù)設(shè)的候選區(qū)域個(gè)數(shù),選出視頻幀中得分較高的幾個(gè)高分候選區(qū)域以對(duì)其進(jìn)行后續(xù)處理。
步驟105、對(duì)選出的高分候選區(qū)域進(jìn)行前景與背景的初始分割處理。
步驟106、基于初始分割后前景與背景的一致性和無二義性約束條件,對(duì)初始分割處理后的候選區(qū)域構(gòu)建優(yōu)化函數(shù),求解優(yōu)化函數(shù)得到最優(yōu)的候選區(qū)域集合。
具體的,為每一高分候選區(qū)域構(gòu)造初始前景與背景分割,聯(lián)合分割的一致性與無二義性約束從候選區(qū)域集合中選取最優(yōu)的對(duì)象區(qū)域集合;由于視頻與對(duì)象樣例匹配過程可能的錯(cuò)誤以及圖像對(duì)象樣例本身的不精確性,得最高分的候選區(qū)域不一定能夠精確定位視頻對(duì)象。為此,該步驟通過視頻分割的一致性與無二義性,在各視頻幀上聯(lián)合優(yōu)化選取正確的候選區(qū)域,得到最優(yōu)的候選區(qū)域集合。
步驟107、將最優(yōu)的候選區(qū)域?qū)?yīng)的初始前景分割傳播到整個(gè)視頻,得到輸入視頻的語義對(duì)象分割。
本實(shí)施例的圖像引導(dǎo)的視頻語義對(duì)象分割方法,通過根據(jù)給定的語義類別,在樣本圖像中定位出與所述語義類別對(duì)應(yīng)的目標(biāo)對(duì)象,得到對(duì)象樣例;對(duì)輸入視頻中的每幀圖像進(jìn)行候選區(qū)域的提??;根據(jù)對(duì)象樣例,將每幀中所提取的多個(gè)候選區(qū)域與對(duì)象樣例進(jìn)行匹配處理,得到每個(gè)候選區(qū)域的相似度分?jǐn)?shù);對(duì)每幀中各個(gè)候選區(qū)域的相似度分?jǐn)?shù)進(jìn)行排序,選出滿足預(yù)設(shè)候選區(qū)域個(gè)數(shù)的、相似度分?jǐn)?shù)由高到低的高分候選區(qū)域;對(duì)選出的高分候選區(qū)域進(jìn)行前景與背景的初始分割處理;基于初始分割后前景與背景的一致性和無二義性約束條件,對(duì)初始分割處理后的候選區(qū)域構(gòu)建優(yōu)化函數(shù),求解優(yōu)化函數(shù)得到最優(yōu)的候選區(qū)域集合;將最優(yōu)的候選區(qū)域?qū)?yīng)的初始前景分割傳播到整個(gè)視頻,得到輸入視頻的語義對(duì)象分割。該方案無需訓(xùn)練視覺模型,充分利用互聯(lián)網(wǎng)上廣泛存在的弱標(biāo)注圖像代替以往方法所需的精確標(biāo)注的訓(xùn)練樣本,從而省略了模型的訓(xùn)練過程,能較好地支持圖像集合的動(dòng)態(tài)增長(zhǎng),高效且準(zhǔn)確地得到視頻資源的語義對(duì)象分割結(jié)果。
圖4為本發(fā)明另一示例性實(shí)施例示出的圖像引導(dǎo)的視頻語義對(duì)象分割方法的流程示意圖,如圖4所示,進(jìn)一步的,在上述實(shí)施例的基礎(chǔ)上,本實(shí)施的圖像引導(dǎo)的視頻語義對(duì)象分割方法,具體包括:
步驟401、根據(jù)給定的語義類別,在樣本圖像中定位出與語義類別對(duì)應(yīng)的目標(biāo)對(duì)象,得到對(duì)象樣例。
步驟402、對(duì)輸入視頻中的每幀圖像進(jìn)行候選區(qū)域的提取。
具體的,可以采用斯坦福大學(xué)Philipp與Vladlen Koltun在2014年提出的“測(cè)地線對(duì)象假設(shè)”(Geodesic Object Proposals)提取候選區(qū)域。
步驟403、在對(duì)象樣例中,確定與每幀中的每個(gè)候選區(qū)域外觀相似的圖像區(qū)域;確定圖像區(qū)域在對(duì)象樣例的樣本圖像中的相對(duì)坐標(biāo)和尺寸參數(shù);保持相對(duì)坐標(biāo)和尺寸參數(shù),在輸入視頻的對(duì)應(yīng)幀中構(gòu)造一個(gè)新的對(duì)象區(qū)域;根據(jù)構(gòu)造的新的對(duì)象區(qū)域?yàn)槊恳粋€(gè)候選區(qū)域評(píng)分,得到每個(gè)候選區(qū)域的相似度分?jǐn)?shù)。
具體的,為視頻幀的每一候選區(qū)域快速找到對(duì)象樣例中外觀相似的圖像區(qū)域,然后保持對(duì)象樣例中的匹配圖像區(qū)域與該對(duì)象樣例的相對(duì)坐標(biāo)和尺寸關(guān)系,在原輸入視頻幀上構(gòu)造一個(gè)新的對(duì)象區(qū)域。通過該方式可以構(gòu)造大量的對(duì)象區(qū)域。由于圖像對(duì)象樣例存在不精確或者錯(cuò)誤,因此所構(gòu)造對(duì)象區(qū)域也存在部分不精確的情況。為了解決該問題帶來的影響,本發(fā)明利用遷移得到的大量對(duì)象區(qū)域(新的對(duì)象區(qū)域)為每一候選區(qū)域進(jìn)行打分。這一步驟可以從兩個(gè)方面有效解決對(duì)象樣例不精確或者存在錯(cuò)誤的問題:首先,所提取的候選區(qū)域利用了視頻幀本身的信息,一般能夠緊密貼合對(duì)象邊界;其次,利用大量的對(duì)象樣例(新的對(duì)象區(qū)域)進(jìn)行打分,對(duì)于少量樣例不精確的情況,具有較強(qiáng)的魯棒性。
相似度分?jǐn)?shù)的具體算法如下:針對(duì)從視頻幀提取的候選區(qū)域集合中的某一候選區(qū)域采用KD樹算法匹配得到K個(gè)外觀最相似的圖像區(qū)域。對(duì)于第k個(gè)匹配區(qū)域保持該區(qū)域與所在圖像對(duì)象樣例的相對(duì)坐標(biāo)和尺寸關(guān)系,并在原視頻幀上構(gòu)造一個(gè)新的對(duì)象區(qū)域位置最后可以構(gòu)造個(gè)對(duì)象樣例。采用如下公式為每一候選區(qū)域打分。以候選區(qū)域?yàn)槔涞梅譃椋?/p>
其中表示區(qū)域與對(duì)象樣例的外觀相似性,定義為
其中表示區(qū)域的外觀特征向量,本發(fā)明采用VGG深度網(wǎng)絡(luò)的fc7層輸出作為特征。大括號(hào)內(nèi)的分母δf為常量,一般取其分子的平均值。上式表示區(qū)域與前K個(gè)最相似度對(duì)象樣例的平均相似度。表示區(qū)域的“可遷移性”(新的對(duì)象區(qū)域),結(jié)合局部空間上下文關(guān)系定義。具體而言,若通過該區(qū)域所遷移得到的對(duì)象位置與通過其鄰近區(qū)域遷移得到的對(duì)象位置較為相似,則該區(qū)域的“可遷移性”較高。定義為:
其中,
在上式中,表示區(qū)域的第k個(gè)匹配區(qū)域,c為該匹配區(qū)域的置信度,由“概率哈夫匹配”算法輸出得到;為區(qū)域的鄰近區(qū)域集合,表示通過鄰近區(qū)域集合所遷移的對(duì)象位置的平均值。δr與δn為高斯核控制參數(shù),可設(shè)為相應(yīng)分子的平均值,Zc、Zr與Zn為歸一化常量,分別為Zc=Zr=K,表示區(qū)域與某一遷移得到的對(duì)象位置的相似度。定義為
其中對(duì)象位置表示為5維向量,包括其包圍矩形中心點(diǎn)的橫縱坐標(biāo)、寬和高、以及尺度(面積的平方根)。當(dāng)采用上述高斯核形式的時(shí)候,候選區(qū)域的打分可以看作一個(gè)雙邊濾波過程。采用2011年美國(guó)斯坦福大學(xué)Philipp與Vladlen Koltun提出的卷積算法,可在線性時(shí)間內(nèi)為所有候選區(qū)域打分。
步驟404、對(duì)每幀中各個(gè)候選區(qū)域的相似度分?jǐn)?shù)進(jìn)行排序,選出滿足預(yù)設(shè)候選區(qū)域個(gè)數(shù)的、相似度分?jǐn)?shù)由高到低的高分候選區(qū)域。
步驟405、對(duì)高分候選區(qū)域內(nèi)的每個(gè)超像素的前景與背景的概率值進(jìn)行計(jì)算,得到所有超像素的前景概率所構(gòu)成的初始前景分割向量以及背景概率所構(gòu)成的初始背景分割向量。
具體的,對(duì)于輸入視頻的第t幀的所有候選區(qū)域(即候選區(qū)域集合)及各個(gè)候選區(qū)域的得分,采用非極大值抑制(Non-Maximal Suppression)算法得到少量得分較高,且相互重疊區(qū)域較少的高分候選區(qū)域集合針對(duì)每一高分候選區(qū)域構(gòu)造前背景初始分割。前景(背景)分割即為視頻每一超像素賦予一個(gè)前景(背景)概率值。對(duì)于視頻的每一超像素前景分割的構(gòu)造方法為:
其中,為至少有50%的區(qū)域被所覆蓋的候選區(qū)域集合,為區(qū)域所包含的超像素集合,為區(qū)域的“對(duì)象性”得分,由“測(cè)地線對(duì)象假設(shè)”算法輸出得到。背景初始分割則是對(duì)于屬于的超像素賦值為0,否則賦值為1。將所有超像素的前景(背景)概率連成初始前背景分割向量,分別記為初始前景分割向量與初始背景分割向量
步驟406、對(duì)輸入視頻構(gòu)建第一超像素圖,將初始前景分割向量與初始背景分割向量沿著第一超像素圖傳播至整個(gè)輸入視頻,得到傳播后的前景和背景分割向量。
具體的,構(gòu)建視頻的超像素圖(即第一超像素圖)。每個(gè)超像素均與來自其他幀上的對(duì)象區(qū)域中的超像素作匹配,并與匹配得分最高的9個(gè)超像素之間建立鄰接關(guān)系。匹配過程中,超像素的外觀特征采用顏色直方圖與梯度直方圖表示。將初始前背景分割與沿著視頻超像素圖(即第一超像素圖)傳播至所有幀,傳播過程采用流行排序算法(Manifold Ranking),得到傳播后的前背景分割與
步驟407、根據(jù)傳播后的前景和背景分割向量,構(gòu)造分割的一致性約束項(xiàng)和無二義性約束項(xiàng),形成優(yōu)化函數(shù);基于貪婪算法,對(duì)優(yōu)化函數(shù)進(jìn)行求解,得到每幀上的最優(yōu)初始分割。
具體的,結(jié)合分割的一致性與無二義性。求解優(yōu)化函數(shù):
其中表示第t幀上的高分候選區(qū)域集合,為所選取對(duì)象區(qū)域的打分,ψa與ψc分別表示分割的無二義性約束項(xiàng)和一致性約束項(xiàng)。求解過程需要滿足的條件為:每一幀的候選區(qū)域集合中最多選取一個(gè)區(qū)域;選取的對(duì)象區(qū)域總數(shù)需要占總視頻幀數(shù)的給定比例γ(在0到1之間,本發(fā)明取0.7)。無二義性約束項(xiàng)ψa此時(shí)可定義為每個(gè)超像素前背景概率值的差異:
其中
其中為超像素個(gè)數(shù)。一致性約束項(xiàng)ψc則定義為:
其中為權(quán)重向量,是將與的每個(gè)分量取絕對(duì)值后,在向量的相同位置取較小的分量構(gòu)造而成的。運(yùn)算符⊙表示兩個(gè)向量的逐分量相乘。由于上述問題難以求解,首先將替換為其上界此時(shí)該問題可看作定義在分離擬陣(Partition Matroid)上的子模最大化(Submodular Maximization)問題,可采用下述貪婪算法得到較優(yōu)的近似解。該算法遍歷T次,在第t次執(zhí)行中,1)選取第t幀上得分最高的候選區(qū)域,加入最優(yōu)對(duì)象區(qū)域集合;2)在未選取的某幀上,選取一個(gè)高分候選區(qū)域能使得目標(biāo)函數(shù)的增益最大;3)重復(fù)步驟2)直到所選取的區(qū)域數(shù)量超過γT。T次執(zhí)行完畢后可以得到T組解,選取目標(biāo)函數(shù)值最大的一組作為最優(yōu)解。
步驟408、根據(jù)給定的視頻幀數(shù),給定的每幀上的高分候選區(qū)域的個(gè)數(shù),在高分候選區(qū)域中選取候選區(qū)域,得到精選候選區(qū)域集合;對(duì)選取的精選候選區(qū)域集合建立第二超像素圖,采用隨機(jī)游走算法將精選候選區(qū)域集合中候選區(qū)域?qū)?yīng)的初始前景分割沿第二超像素圖傳播,得到傳播后的前景概率分布;以傳播后的前景概率分布作為初始分布,在輸入視頻的第一超像素圖上基于隨機(jī)游走算法進(jìn)行二次傳播,得到最終的超像素前景概率分布;對(duì)最終的超像素前景概率分布進(jìn)行歸一化處理,并提取大于預(yù)設(shè)閾值的超像素作為輸入視頻的語義對(duì)象分割結(jié)果。
具體地,精選候選區(qū)域集合中包含有給定的視頻幀數(shù)與給定的每幀上的高分候選區(qū)域的個(gè)數(shù)的乘積個(gè)高分候選區(qū)域;給定的視頻幀數(shù)可以根據(jù)步驟207中的γ確定,即選取的對(duì)象區(qū)域總數(shù)需要占總視頻幀數(shù)的給定比例γ(在0到1之間,本發(fā)明取0.7)在所選取的對(duì)象區(qū)域集合上建立超像素圖。給定的每幀上的高分候選區(qū)域的個(gè)數(shù)應(yīng)該大于等于一個(gè),且小于步驟204中的高分候選區(qū)域的預(yù)設(shè)個(gè)數(shù)閾值,具體而言,每個(gè)超像素均與來自其他幀上的對(duì)象區(qū)域中的超像素作匹配,并與匹配得分最高的9個(gè)超像素之間建立鄰接關(guān)系。匹配過程中,超像素的外觀特征采用顏色直方圖與梯度直方圖表示。以所選取對(duì)象區(qū)域相應(yīng)的前景分割作為超像素的初始前景概率,在上述超像素圖上采用隨機(jī)游走(Random Walk)算法進(jìn)行傳播,得到傳播后的前景概率分布。再以傳播后的超像素前景概率分布作為初始分布,再次在視頻的超像素圖上采用隨機(jī)游走算法進(jìn)行二次傳播,得到最終的超像素前景概率分布。將超像素前景概率分布?xì)w一化到0和1之間,并取出大于一定閾值的超像素作為目標(biāo)視頻對(duì)象分割結(jié)果。本發(fā)明中,該閾值設(shè)定為0.2。通過上述兩步傳播,使得在優(yōu)化選取的候選區(qū)域內(nèi)傳播得到較為精細(xì)的視頻分割結(jié)果,然后再次傳播至整體視頻區(qū)域。相比一次傳播至整體視頻,能夠得到更為精細(xì)的分割結(jié)果。
本實(shí)施例所公開的圖像引導(dǎo)的視頻語義對(duì)象分割方法,包括:給定語義類別,在包含該類別對(duì)象的大量圖像中共定位出對(duì)象樣例;在每一幀上提取候選區(qū)域集合并建立到圖像區(qū)域的匹配,利用匹配區(qū)域與圖像對(duì)象樣例的空間上下文關(guān)系,為視頻幀的候選區(qū)域集合進(jìn)行快速打分;為每一高分候選區(qū)域構(gòu)造初始前背景分割,聯(lián)合分割的一致性與無二義性約束從候選區(qū)域中選取最優(yōu)的對(duì)象區(qū)域集合;采用雙階段隨機(jī)游走算法傳播所選取對(duì)象區(qū)域?qū)?yīng)的初始前景分割到整體視頻,得到最終分割結(jié)果。本發(fā)明能夠廣泛應(yīng)用于國(guó)防軍事、電影制作、公共安全等領(lǐng)域的計(jì)算機(jī)視覺系統(tǒng)。
圖5為本發(fā)明一示例性實(shí)施例示出的圖像引導(dǎo)的視頻語義對(duì)象分割裝置的結(jié)構(gòu)示意圖,如圖5所示,該圖像引導(dǎo)的視頻語義對(duì)象分割裝置包括:
定位模塊1,用于根據(jù)給定的語義類別,在樣本圖像中定位出與語義類別對(duì)應(yīng)的目標(biāo)對(duì)象,得到對(duì)象樣例;提取模塊2,用于對(duì)輸入視頻中的每幀圖像進(jìn)行候選區(qū)域的提??;匹配模塊3,用于根據(jù)對(duì)象樣例,將每幀中所提取的多個(gè)候選區(qū)域與對(duì)象樣例進(jìn)行匹配處理,得到每個(gè)候選區(qū)域的相似度分?jǐn)?shù);排序模塊4,用于對(duì)每幀中各個(gè)候選區(qū)域的相似度分?jǐn)?shù)進(jìn)行排序,選出滿足預(yù)設(shè)候選區(qū)域個(gè)數(shù)的、相似度分?jǐn)?shù)由高到低的高分候選區(qū)域;處理模塊5,用于對(duì)選出的高分候選區(qū)域進(jìn)行前景與背景的初始分割處理;計(jì)算模塊6,用于基于初始分割后前景與背景的一致性和無二義性約束條件,對(duì)初始分割處理后的候選區(qū)域構(gòu)建優(yōu)化函數(shù),求解優(yōu)化函數(shù)得到最優(yōu)的候選區(qū)域集合;傳播模塊7,用于將最優(yōu)的候選區(qū)域?qū)?yīng)的初始前景分割傳播到整個(gè)視頻,得到輸入視頻的語義對(duì)象分割。
本實(shí)施例的裝置,可用于執(zhí)行圖1所述圖像引導(dǎo)的視頻語義對(duì)象分割方法的實(shí)施例的技術(shù)方案,其實(shí)現(xiàn)原理和技術(shù)效果類似,此處不再贅述。
進(jìn)一步地,在上述實(shí)施例的基礎(chǔ)上,該圖像引導(dǎo)的視頻語義對(duì)象分割裝置中的匹配模塊3,具體用于在對(duì)象樣例中,確定與每幀中的每個(gè)候選區(qū)域外觀相似的圖像區(qū)域;確定圖像區(qū)域在對(duì)象樣例的樣本圖像中的相對(duì)坐標(biāo)和尺寸參數(shù);保持相對(duì)坐標(biāo)和尺寸參數(shù),在輸入視頻的對(duì)應(yīng)幀中構(gòu)造一個(gè)新的對(duì)象區(qū)域;根據(jù)構(gòu)造的新的對(duì)象區(qū)域?yàn)槊恳粋€(gè)候選區(qū)域評(píng)分,得到每個(gè)候選區(qū)域的相似度分?jǐn)?shù)。
可選的,處理模塊5,具體用于對(duì)高分候選區(qū)域內(nèi)的每個(gè)超像素的前景與背景的概率值進(jìn)行計(jì)算,得到所有超像素的前景概率所構(gòu)成的初始前景分割向量以及背景概率所構(gòu)成的初始背景分割向量。
可選的,計(jì)算模塊6,具體用于對(duì)輸入視頻構(gòu)建第一超像素圖,將初始前景分割向量與初始背景分割向量沿著第一超像素圖傳播至整個(gè)輸入視頻,得到傳播后的前景和背景分割向量;根據(jù)傳播后的前景和背景分割向量,構(gòu)造分割的一致性約束項(xiàng)和無二義性約束項(xiàng),形成優(yōu)化函數(shù);基于貪婪算法,對(duì)優(yōu)化函數(shù)進(jìn)行求解,得到最優(yōu)的候選區(qū)域集合。
可選的,傳播模塊7,具體用于根據(jù)給定的視頻幀數(shù),給定的每幀上的高分候選區(qū)域的個(gè)數(shù),在高分候選區(qū)域中選取候選區(qū)域,得到精選候選區(qū)域集合;精選候選區(qū)域集合中包含有給定的視頻幀數(shù)與給定的每幀上的高分候選區(qū)域的個(gè)數(shù)的乘積個(gè)高分候選區(qū)域;對(duì)選取的精選候選區(qū)域集合建立第二超像素圖,采用隨機(jī)游走算法將精選候選區(qū)域集合中候選區(qū)域?qū)?yīng)的初始前景分割沿第二超像素圖傳播,得到傳播后的前景概率分布;以傳播后的前景概率分布作為初始分布,在輸入視頻的第一超像素圖上基于隨機(jī)游走算法進(jìn)行二次傳播,得到最終的超像素前景概率分布;對(duì)最終的超像素前景概率分布進(jìn)行歸一化處理,并提取大于預(yù)設(shè)閾值的超像素作為輸入視頻的語義對(duì)象分割結(jié)果。
本實(shí)施例的裝置,可用于執(zhí)行圖4所述圖像引導(dǎo)的視頻語義對(duì)象分割方法的實(shí)施例的技術(shù)方案,其實(shí)現(xiàn)原理和技術(shù)效果類似,此處不再贅述。
本領(lǐng)域普通技術(shù)人員可以理解:實(shí)現(xiàn)上述各方法實(shí)施例的全部或部分步驟可以通過程序指令相關(guān)的硬件來完成。前述的程序可以存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。該程序在執(zhí)行時(shí),執(zhí)行包括上述各方法實(shí)施例的步驟;而前述的存儲(chǔ)介質(zhì)包括:ROM、RAM、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。
最后應(yīng)說明的是:以上各實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡管參照前述各實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分或者全部技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的范圍。