本發(fā)明涉及圖像處理技術(shù)領(lǐng)域,尤其涉及一種基于先驗條件約束的圖像場景多對象標記方法。
背景技術(shù):
隨著社會科技的快速發(fā)展,智能手機、平板電腦、照相機等電子設(shè)備在社會生活中日益廣泛地使用,伴隨而來的是圖像數(shù)據(jù)的獲取越來越便捷、數(shù)據(jù)量也越來越龐大,人們對圖像處理和應(yīng)用的需求也日漸豐富,各種圖像處理的軟件工具也隨之而生。在促進經(jīng)濟社會發(fā)展的各個行業(yè)領(lǐng)域,對圖像場景理解的需求得到越來越廣泛的重視,例如,在無人駕駛系統(tǒng)中,需要對街道場景進行理解,識別車道線、交通標示、障礙物檢測,引導無人駕駛系統(tǒng)的行駛;在旅游智能化系統(tǒng)中,對用戶所拍攝照片的內(nèi)容進行分析理解,推送相關(guān)服務(wù)信息;在虛擬展示平臺,人機交互和增強現(xiàn)實顯示,都與圖像場景密切相關(guān);在機器人系統(tǒng)中,圖像場景理解是機器人視覺的基礎(chǔ)。因此,在智能化和信息化快速發(fā)展的時代,人們對圖像場景理解的需求和應(yīng)用也隨著社會發(fā)展而不斷的更新,迫切需要深入理解圖像內(nèi)容,并使之更好的為人們的生活服務(wù)。
根據(jù)國內(nèi)外科技發(fā)展趨勢來看,圖像場景理解已成為科學技術(shù)發(fā)展前沿與行業(yè)領(lǐng)域應(yīng)用需求的熱點,成為計算機視覺、人工智能、虛擬現(xiàn)實等研究領(lǐng)域的交叉支點。其中,圖像場景語義分割或語義標記是該領(lǐng)域的基本問題,同時也是研究難點。隨著深度學習、人工智能技術(shù)的發(fā)展,場景級別的語義分割已經(jīng)逐漸達到了一個較為理想的狀態(tài),甚至能達到90%以上的準確率。但是場景級語義分割在一些具體應(yīng)用領(lǐng)域還無法達到實用的程度,其原因在于應(yīng)用領(lǐng)域需要的是更精細、更準確的語義分割,是關(guān)于對象實例的識別與分割,而大多數(shù)場景語義分割方法還處于場景類別層次的語義分割,即得到的是場景中不同類別的區(qū)域,對于多個個體對象的類別內(nèi)部劃分還無法給出準確的結(jié)果。
值得鼓舞的是,目前國內(nèi)外的學者和技術(shù)研發(fā)人員已經(jīng)開始關(guān)注這一問題,并且普遍認為這是一個值得深入研究的內(nèi)容,已經(jīng)開始逐步的開展相關(guān)的工作,甚至有學者為對象級語義識別、分割、標記等方向的研究工作提供了專業(yè)、公開、通用的數(shù)據(jù)集,如微軟coco數(shù)據(jù)集。現(xiàn)有的對象級分割工作大多數(shù)僅為將對象分割出來,而缺少了對象的語義信息,如微軟劍橋研究院rother等提出的對象共分割。對于場景中多對象的分割與標記,澳大利亞國立大學的gould等提出一種基于樣例隨機場模型的圖像多對象分割方法,加拿大多倫多大學的zhang等人提出了一種無人駕駛系統(tǒng)中的對象級場景語義標記方法。
但是應(yīng)該看到,對象的語義分割本身難度非常大,它不僅需要語義識別的基礎(chǔ)來進行類別與類別的區(qū)分,還需要類別內(nèi)部多個對象之間的劃分,而多個對象之間往往表現(xiàn)出多種多樣的差異。目前,該方向的工作尚處于一個探索階段,亟需理論與技術(shù)的進一步深入研究。
技術(shù)實現(xiàn)要素:
本發(fā)明要解決的技術(shù)問題是,提供一種基于先驗條件約束的圖像場景多對象標記方法,將對象的豐富特征作為先驗約束來提高對象標記的準確率。
為了實現(xiàn)上述目的,本發(fā)明采取了如下技術(shù)方案:
一種基于先驗條件約束的圖像場景多對象標記方法,包括以下步驟:
步驟1、針對待標記的語義類別對象,在訓練數(shù)據(jù)集上利用分類算法訓練得到場景各語義類別的識別器和待標記語義類別的對象檢測器,利用該檢測器得到測試圖像的對象識別包圍盒,確定待標記對象的數(shù)量;
步驟2、在超像素尺度的測試圖像上,根據(jù)初始粗略語義概率和對象顯著性分布圖確定語義對象群的感興趣區(qū)域;
步驟3、計算測試圖像的多維度特征,作為先驗外觀約束,包括hog特征、紋理特征、顏色特征、梯度特征,將像素級多維度特征轉(zhuǎn)化為超像素級多維度特征;
步驟4、構(gòu)建測試圖像感興趣區(qū)域的圖模型結(jié)構(gòu),以感興趣區(qū)域中超像素作為圖結(jié)構(gòu)節(jié)點,以超像素的鄰接關(guān)系作為圖結(jié)構(gòu)的邊,將先驗外觀約束的對應(yīng)特征轉(zhuǎn)化為邊權(quán)重值;根據(jù)初始粗略語義概率和對象顯著性分布值計算初始測地線距離,作為節(jié)點權(quán)重值;
步驟5、進行測地線傳播,每一步傳播中,確定當前種子點的對象標記,更新它周圍相鄰點的測地線距離,為下一步傳播做準備,直至傳播過程結(jié)束,得到每個超像素的對象標記。
作為優(yōu)選,所述步驟1中,利用該檢測器確定待標記對象數(shù)量的方式如下:根據(jù)檢測器得到的所有對象包圍盒的檢測分值,選擇分值大于設(shè)定閾值tb的包圍盒,包圍盒的個數(shù)即為待標記對象的個數(shù),其中,閾值tb由訓練數(shù)據(jù)集確定,在訓練數(shù)據(jù)集上檢測對象包圍盒,統(tǒng)計包圍盒分值分布的直方圖,以滿足直方圖80%的包圍盒時所對應(yīng)的分值,作為閾值tb。
作為優(yōu)選,所述步驟2中,感興趣區(qū)域由初始粗略語義概率和對象顯著性確定,具體方式如下:根據(jù)分類算法得到的初始粗略語義概率,統(tǒng)計訓練集數(shù)據(jù)中待標記對象語義的直方圖分布,以滿足直方圖85%的語義概率時所對應(yīng)的分值,作為語義閾值tp,對于測試圖像中大于該閾值的超像素,認為它在感興趣區(qū)域中;對于一個超像素,如果它所有類別的粗略語義概率中,最大值為待標記語義類別,即認為它最可能屬于該類別,即認為它在感興趣區(qū)域中;以同樣統(tǒng)計方式確定對象顯著性閾值ts,大于該閾值的超像素認為它在感興趣區(qū)域中。
作為優(yōu)選,所述步驟3中,將紋理描述符聚為256個類,以詞袋形式來表征圖像紋理特征;在lab顏色空間,將顏色特征聚為128類,以詞袋形式來表征圖像顏色特征;圖像hog視覺特征以8*8的塊結(jié)構(gòu)、4像素步長為計算方式,聚為1000個類,以詞袋形式來表征圖像hog特征;hog、紋理、顏色共同構(gòu)成圖像外觀差異特征;梯度特征包括水平和垂直兩個方向的梯度變化,作為圖像多對象之間的邊界先驗;將所有特征都轉(zhuǎn)化為超像素級別,以這些特征作為超像素之間的特征差異,權(quán)重取值如下公式計算:
d(i,j)=0.1*||fhog(i)-fhog(j)||+0.3*||ftex(i)-ftex(j)||+0.6*||fcolor(i)-fcolor(j)||
其中,fhog(·)、ftex(·)、fcolor(·)分別對應(yīng)hog特征、紋理特征、顏色特征,所述梯度特征,作為圖像多對象之間的邊界先驗,為后續(xù)測地線距離傳播提供邊界約束。
作為優(yōu)選,所述步驟4中,將圖模型標記問題通過流行空間中的測地線傳播算法來解決,其中圖模型結(jié)構(gòu)的節(jié)點權(quán)重值為初始測地線距離,圖模型結(jié)構(gòu)的邊權(quán)重值為先驗約束下的多維度特征值;首先在計算初始測地線距離時,計算方式如下:計算每個節(jié)點屬于每個對象的概率,對于顯著性概率大于ts同時語義概率大于tp的節(jié)點,它的節(jié)點值為三部分之和,即顯著性值、語義概率值以及所屬對象包圍盒的分值;對于其他情況的節(jié)點,它的節(jié)點值為非該語義類別概率值與非顯著性值的和;然后將節(jié)點值歸一化并轉(zhuǎn)化為初始測地線距離,使之與節(jié)點值成反比,即節(jié)點值越大測地線距離越小,通過以下公式計算:
geodis(s,o)=exp(1-spop(s,o))
其中,spop(s,o)表示每個節(jié)點即超像素s屬于每個對象o的概率,sp(s,l)和smp(s)分別表示語義概率和顯著性,inb(s,o)表示該節(jié)點是否在該對象的包圍盒內(nèi),取值為1或0,bbox(o)表示該包圍盒的分值,geodis(s,o)表示s到o的初始測地線距離。
作為優(yōu)選,所述步驟4中,邊權(quán)重值的計算方式為:相鄰兩個節(jié)點之間的邊權(quán)重值由紋理、顏色、hog特征的差值所決定,各特征之間的權(quán)重取值體現(xiàn)了對象外觀特征的特點。
作為優(yōu)選,所述步驟5中,當前傳播的過程如下:每一次傳播開始時,選擇當前測地線距離最小的節(jié)點以及該測地線距離對應(yīng)的所屬對象,由此確定當前節(jié)點即種子點的對象標記;然后選擇該種子點的鄰接節(jié)點中尚未進行標記的那些節(jié)點,更新它們到每個對象的測地線距離,然后進行下一次傳播過程;其中,更新測地線距離的方式為,如果種子點與當前鄰接節(jié)點之間的外觀差異特征小于外觀差異閾值t1并且邊界先驗值小于閾值邊界先驗t2,那么兩節(jié)點之間的邊權(quán)值為邊界先驗值,否則取外觀差異與邊界先驗值的線性組合;當種子點到所屬對象的測地線距離值與該邊權(quán)值之和小于當前鄰接節(jié)點到該對象的測地線距離值時,就以前者之和更新后者的測地線距離值,否則保持原值不變。
本發(fā)明的基于先驗條件約束的圖像場景多對象標記方法,包括:在訓練數(shù)據(jù)集上利用分類算法訓練得到各語義類別的識別器和待標記語義類別的對象檢測器,并對測試圖像進行識別,得到對象識別包圍盒,確定待標記對象的數(shù)量;在超像素尺度的測試圖像上,根據(jù)初始粗略語義概率和對象顯著性分布圖確定語義對象群的感興趣區(qū)域;計算測試圖像的多維度特征,作為先驗外觀約束,包括hog特征、紋理特征、顏色特征、梯度特征,將像素級多維度特征轉(zhuǎn)化為超像素級多維度特征;構(gòu)建測試圖像感興趣區(qū)域的圖模型結(jié)構(gòu),以感興趣區(qū)域中超像素作為圖結(jié)構(gòu)節(jié)點,以超像素的鄰接關(guān)系作為圖結(jié)構(gòu)的邊,將先驗外觀約束的對應(yīng)特征轉(zhuǎn)化為邊權(quán)重值;根據(jù)初始粗略語義概率和對象顯著性分布值計算初始測地線距離,作為節(jié)點權(quán)重值;進行測地線傳播,每一步傳播中,確定當前種子點的對象標記,更新它周圍相鄰點的測地線距離,為下一步傳播做準備,直至傳播過程結(jié)束,得到每個超像素的對象標記。本發(fā)明能廣泛的應(yīng)用于智慧旅游、智能交通、公共安全、影視娛樂等行業(yè)。
附圖說明
圖1為本發(fā)明的方法流程示意圖;
圖2為本發(fā)明的圖像顯著性檢測圖;
圖3為本發(fā)明的結(jié)果示意圖。
具體實施方式
下面對本發(fā)明做進一步的詳細說明,以令本領(lǐng)域技術(shù)人員參照說明書文字能夠據(jù)以實施。
本發(fā)明提供了一種基于先驗條件約束的圖像場景多對象標記方法,該方法在圖像場景語義類別識別的基礎(chǔ)上進一步得到對象標記的結(jié)果??傮w流程如下:在訓練數(shù)據(jù)集上利用分類算法訓練得到各語義類別的識別器和待標記語義類別的對象檢測器,并對測試圖像進行識別,得到初始粗略語義概率和對象識別包圍盒,確定待標記對象的數(shù)量;對圖像進行過分割處理,得到超像素集合,對圖像進行顯著性檢測,得到顯著性分布圖,在超像素級別上根據(jù)初始粗略語義概率和對象顯著性分布圖確定語義對象群的感興趣區(qū)域;計算測試圖像的多維度特征作為先驗外觀約束,包括hog特征、紋理特征、顏色特征、梯度特征,轉(zhuǎn)化為超像素級多維度特征;在感興趣區(qū)域范圍內(nèi)構(gòu)件圖模型結(jié)構(gòu),以感興趣區(qū)域中超像素作為圖結(jié)構(gòu)節(jié)點,以超像素的鄰接關(guān)系作為圖結(jié)構(gòu)的邊;根據(jù)初始粗略語義概率和對象顯著性分布值計算初始測地線距離,作為節(jié)點權(quán)重值,將先驗外觀約束的對應(yīng)特征轉(zhuǎn)化為邊權(quán)重值;進行測地線傳播,每一步傳播中,選擇具有最小的測地線距離的節(jié)點作為種子點,以該距離所對應(yīng)的對象作為種子點的對象標記確定下來,更新它周圍相鄰點的測地線距離,為下一步傳播做準備,直至傳播過程結(jié)束,得到每個超像素的對象標記。
根據(jù)上述流程,識別部分包括兩部分,語義類別識別和對象檢測識別。由語義識別模塊得到像素點屬于每一種語義類別的初始粗略語義概率,由對象檢測識別模塊得到多個候選對象包圍盒,兩個識別模塊均使用boost算法來進行訓練。對于輸出的多類別的語義概率,每一個點選擇它最大概率的那個類別,由此可以構(gòu)成一個初始語義概率圖。對于輸出的多個對象包圍盒,選擇分值高于閾值tb的那些構(gòu)成候選集。tb的選擇方式為:在訓練數(shù)據(jù)集上,檢測對象包圍盒,統(tǒng)計所有包圍盒的分值分布,選擇滿足80%以上的包圍盒的那個分值,作為閾值tb。由此閾值確定輸入測試圖像上的對象包圍盒候選集,包圍盒的個數(shù)即要標記的對象數(shù)量。
利用turbosp算法,對測試圖像進行過分割處理,得到超像素集合,超像素數(shù)量為一千左右的數(shù)量級。利用context-awaresaliency算法檢測圖像的顯著性,得到降采樣后的顯著性圖,因此需要進行升采樣處理。根據(jù)降采樣后的顯著性檢測結(jié)果,可知該算法處理的結(jié)果對原圖像進行了縮小。處理后的圖像結(jié)果為原圖像的1/4大小左右,分別是x軸方向1/2,y軸方向1/2,對于原圖像維度為單數(shù)的軸,取維度值為原維度值減一維后的1/2。因此,采取升采樣為降采樣逆向過程的線性插值:對于同屬于原圖像和降采樣后圖像的像素點,直接將顯著性值賦值給原圖像。對于不屬于采樣的原圖像像素點,該點的值由其周圍四鄰域的鄰居點的顯著性值線性組合得到。由此,即可得到與原圖像同樣大小的顯著性圖。
確定感興趣區(qū)域作為對象標記的區(qū)域,以外的區(qū)域就不作為標記范圍。以這個縮小后的區(qū)域作為構(gòu)建隨機場模型的區(qū)域。因此,首先需要確定感興趣區(qū)域。如圖2、3所示,以“馬”這個對象類別為例,滿足三種情況的超像素都可以作為該區(qū)域,一,初始粗略概率最大值為類別“馬”的超像素,二,“馬”的初始粗略概率值大于tp的超像素,三,顯著性值大于ts的超像素。tp和ts的選擇均由訓練數(shù)據(jù)集上統(tǒng)計得到,滿足85%以上超像素的對應(yīng)值即選擇為閾值。
提取圖像的多維度特征,作為先驗外觀約束,包括hog特征、紋理特征、顏色特征、梯度特征。將紋理描述符聚為256個類,以詞袋形式來表征圖像紋理特征。在lab顏色空間,將顏色特征聚為128類,以詞袋形式來表征圖像顏色特征。圖像hog視覺特征以8*8的塊結(jié)構(gòu)、4像素步長為計算方式,聚為1000個類,以詞袋形式來表征圖像hog特征。hog、紋理、顏色共同構(gòu)成圖像外觀差異特征。將所有特征都轉(zhuǎn)化為超像素級別,以這些特征作為超像素之間的特征差異,權(quán)重取值如下公式所示。
d(i,j)=0.1*||fhog(i)-fhog(j)||+0.3*||ftex(i)-ftex(j)||+0.6*||fcolor(i)-fcolor(j)||
其中,fhog(·)、ftex(·)、fcolor(·)分別對應(yīng)hog特征、紋理特征、顏色特征。另外,梯度特征包括水平和垂直兩個方向的梯度變化,作為圖像多對象之間的邊界先驗,為后續(xù)測地線距離傳播提供邊界約束。
在前面工作基礎(chǔ)上,構(gòu)建圖模型結(jié)構(gòu)下的測地線傳播框架。在該框架中,感興趣區(qū)域中的超像素作為節(jié)點,超像素的鄰接關(guān)系作為邊,將初始測地線距離值作為圖結(jié)構(gòu)節(jié)點的權(quán)重值,多維度特征差異作為圖結(jié)構(gòu)的邊權(quán)值,從種子點開始將對象標記傳播到整個結(jié)構(gòu)空間。首先計算每個節(jié)點的初始測地線距離,計算方式如下:計算每個節(jié)點屬于每個對象的概率,對于顯著性概率大于ts同時語義概率大于tp的節(jié)點,它的節(jié)點值為三部分之和,即顯著性值、語義概率值以及所屬對象包圍盒的分值;對于其他情況的節(jié)點,它的節(jié)點值為非該語義類別概率值與非顯著性值的和。將節(jié)點值歸一化,并轉(zhuǎn)化為初始測地線距離,使之與節(jié)點值成反比,即節(jié)點值越大測地線距離越小,如以下公式所示。
geodis(s,o)=exp(1-spop(s,o))
其中,spop(s,o)表示每個節(jié)點即超像素s屬于每個對象o的概率,sp(s,l)和smp(s)分別表示語義概率和顯著性。inb(s,o)表示該節(jié)點是否在該對象的包圍盒內(nèi),取值為1或0。bbox(o)表示該包圍盒的分值。geodis(s,o)表示s到o的初始測地線距離。
邊權(quán)重值的計算方式為:相鄰兩個節(jié)點之間的邊權(quán)重值由紋理、顏色、hog特征的差值所決定,各特征之間的權(quán)重取值體現(xiàn)了對象外觀特征的特點。
在傳播過程中,每一次傳播開始時,選擇當前測地線距離最小的節(jié)點作為當前種子點,以該測地線距離對應(yīng)的所屬對象作為當前種子點的對象標記,將該節(jié)點剔除出未標記的隊列,將該節(jié)點屬于該對象的測地線距離設(shè)置為無限大;然后選擇該種子點的鄰接節(jié)點中尚未進行標記的那些節(jié)點,更新它們到每個對象的測地線距離,然后進入下一次傳播過程。更新測地線距離時,節(jié)點之間的邊界特征起到了約束作用,將傳播方向指向邊界差異小的鄰接節(jié)點去。如果種子點與當前鄰接節(jié)點之間的外觀差異特征小于外觀差異閾值t1并且邊界先驗值小于閾值邊界先驗t2,那么兩節(jié)點之間的邊權(quán)值為邊界先驗值,否則取外觀差異與邊界先驗值的線性組合;在邊權(quán)值確定下來之后,判斷是否需要更新測地線距離,當種子點到所屬對象的測地線距離值與該邊權(quán)值之和小于當前鄰接節(jié)點到該對象的測地線距離值時,就以前者之和更新后者的測地線距離值,否則保持原值不變,如下所示,其中,d(i,j)為特征差異,bdry(i,j)為邊界特征。