本發(fā)明屬于計(jì)算機(jī)視覺領(lǐng)域,涉及到圖像處理相關(guān)知識(shí),特別涉及注視點(diǎn)檢測方法。
背景技術(shù):
在目前高速發(fā)展的社會(huì)中,監(jiān)控?cái)z像頭在城市內(nèi)隨處可見,帶來了一個(gè)很嚴(yán)重的問題就是信息過載。計(jì)算機(jī)視覺技術(shù)面臨的任務(wù)就是在繁多的圖像、視頻文件中快速發(fā)現(xiàn)感興趣的目標(biāo),所以對(duì)于注視點(diǎn)檢測的研究是非常有意義的。注視點(diǎn)的成因是由于候選前景目標(biāo)與場景中的背景在種特定的對(duì)比中形成了引起人眼注意的新奇刺激。圖像的注視點(diǎn)檢測是圖像處理中的一個(gè)重要分支。在圖像處理中,注視點(diǎn)檢測往往是作為一種前置操作,應(yīng)用于圖像分割,自適應(yīng)圖像壓縮,基于內(nèi)容的圖像編輯,目標(biāo)檢測與識(shí)別,以及圖像檢索等領(lǐng)域。利用視覺顯著性對(duì)圖像進(jìn)行分割,從而只關(guān)注顯著區(qū)域,可以很大程度上減少運(yùn)算量,同時(shí)不遺漏較為重要的信息。
Itti L等人在文章“A model of saliency-based visual attention for rapid scene analysis.In PAMI,1998”中先提取原始圖像的顏色亮度特征圖,對(duì)亮度圖像進(jìn)行濾波得到方向特征圖。對(duì)亮度特征、顏色特征、方向特征三幅圖像分別構(gòu)建高斯金字塔。每種特征經(jīng)過中央—周邊算子運(yùn)算、歸一化、疊加得到顏色、強(qiáng)度、方向三幅顯著圖。對(duì)三幅顯著圖進(jìn)行加權(quán)疊加得到最終的顯著圖。此方法能處理一些有著明顯的對(duì)比度的圖像,但缺乏對(duì)更加能吸引人眼注意的目標(biāo)的檢測。
Hou X等人在文章“Saliency detection:A spectral residual approach.In CVPR,2017”中提出了SR模型,此模型的原理是一幅圖像中的信息可以分為兩部分:目標(biāo)信息和冗余信息,人類的視覺系統(tǒng)可以自動(dòng)過濾掉復(fù)雜環(huán)境中的冗余信息而保留目標(biāo)信息。基于此原理,該算法先對(duì)圖像進(jìn)行二維傅立葉變換得到頻域的幅度譜和相位譜。利用低通濾波器對(duì)幅度譜進(jìn)行濾波操作得到冗余信息,之后去除原圖像中的這部分信息就得到了顯著圖。SR模型的優(yōu)點(diǎn)是運(yùn)算速度較快,且結(jié)果對(duì)參數(shù)不敏感。但該算法存在一些缺點(diǎn),如對(duì)噪聲敏感,而且僅能處理灰度圖像等。
Liang M等人在文章“Predicting eye fixations with higher-level visual features.In TIP,2015”中提出了一種利用更高層信息的注視點(diǎn)檢測模型。利用圖像的sift特征結(jié)合BOW模型計(jì)算顏色和形狀顯著圖。利用object bank目標(biāo)檢測器獲得多張map訓(xùn)練SVM加權(quán)疊加高層信息顯著圖。此模型雖然提出了用目標(biāo)檢測來輔助注視點(diǎn)檢測的思路,但是所采用的目標(biāo)檢測器檢測效果非常有限,對(duì)注視點(diǎn)檢測結(jié)果幫助不大。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明要解決的技術(shù)問題是:自然場景中的圖像多種多樣,采用單一特征信息的檢測方法無法取得較好的檢測效果,例如:圖像中有顏色對(duì)比度比較突出的區(qū)域,這樣利用底層的顏色特征信息就可以很好地檢測。若圖像中有一些能吸引人眼注意的目標(biāo)如人臉文字等,則高層的目標(biāo)級(jí)別的特征信息更加有效。若圖像顏色對(duì)比度不明顯,又沒有吸引人的目標(biāo),也就是說圖像內(nèi)容比較均勻單一,這樣人眼往往會(huì)看向圖像的中心,這樣空間位置信息又會(huì)起主導(dǎo)作用。本發(fā)明提出了一種檢測方法綜合利用這三種信息,并針對(duì)不同的圖像調(diào)節(jié)各種信息占的比重。
本發(fā)明的技術(shù)方案是:由顏色等底層信息得到底層信息檢測結(jié)果圖。利用像素點(diǎn)的空間位置得到中心先驗(yàn)圖。對(duì)原始圖像提取候選目標(biāo)框及其CNN深度特征,利用詞袋模型編碼,編碼后的視覺特征送入訓(xùn)練好的多示例RMI-SVM分類器中得到打分,對(duì)框中心高斯平滑后根據(jù)目標(biāo)框的打分進(jìn)行加權(quán)疊加得到目標(biāo)級(jí)別的檢測結(jié)果圖。對(duì)原始圖像本身提取描述圖像整體內(nèi)容的特征,訓(xùn)練softmax回歸器得到融合權(quán)值,采用這個(gè)權(quán)值對(duì)上述結(jié)果圖進(jìn)行加權(quán)融合。圖像圖1為本發(fā)明的系統(tǒng)框圖。
具體實(shí)現(xiàn)步驟包括:
(1)底層顏色信息檢測
Lab顏色空間是由CIE(國際照明委員會(huì))制定的一種色彩模式。它致力于感知均勻性,它的L分量密切匹配人類亮度感知。因此可以被用來通過修改a和b分量的輸出色階來做精確的顏色平衡,或使用L分量來調(diào)整亮度對(duì)比,所以用來描述顯著性更加合適。在LAB顏色空間中,我們采用類似ITTI的檢測方法,用圖像金字塔的形式來模擬人類的視覺特性。利用“中央—周邊”算子計(jì)算差異圖來模擬人類視覺注意力系統(tǒng),視覺感受野的中央?yún)^(qū)域用高分辨率圖像代表,視覺感受野的周邊區(qū)域用低分辨率圖像代表,特征差異圖是不同分辨率圖像之前的差值。計(jì)算方式為
L(c,s)=|L(c)ΘL(s)| (1)
其中Θ為“中央一周邊”算子,代表跨尺度相減運(yùn)算;c表示中央尺度,s表示周邊尺度。之后用一種非線性歸一化算子N(·)進(jìn)行歸一化。理論依據(jù)是神經(jīng)學(xué)究表明當(dāng)感受野的中心區(qū)和周邊區(qū)在同一特征維上時(shí),周邊區(qū)對(duì)中心區(qū)產(chǎn)生的抑制的最強(qiáng)。N(·)算子的計(jì)算方式為
N(M(c,s))=[M(c,s)+M(c,s)*DOG-C] (2)
式中*表示卷積,C是引入的偏置,DOG為雙高斯差分函數(shù),模擬的是同心圓結(jié)構(gòu)的中心型感受野。DOG函數(shù)的表達(dá)式為
式中σex和σinh是興奮帶寬和抑制帶寬,cex和cinh是興奮常數(shù)和抑制常數(shù),DOG函數(shù)可使相鄰顯著點(diǎn)之間進(jìn)行局部競爭。對(duì)LAB分量分別進(jìn)行上述操作,最后根據(jù)得到底層信息檢測圖。
(2)圖像候選目標(biāo)生成及其特征提取
首先用邊緣多尺度組合分組算法(Multiscale Combinatorial Grouping)提取圖像的目標(biāo)候選框,一般的圖像大約可提取100到1000個(gè)目標(biāo)框。這些目標(biāo)框有的完整的框住了目標(biāo),但大部分只框住了目標(biāo)的一部分或者沒有框住目標(biāo),接下來需要做的就是選出那些能吸引人眼關(guān)注的目標(biāo)框。把這些候選框框住的圖像塊送入一個(gè)預(yù)先訓(xùn)練好的用于目標(biāo)檢測的CNN網(wǎng)絡(luò)中,得到候選目標(biāo)的CNN特征,以便后續(xù)訓(xùn)練。
(3)詞袋模型編碼
Bag-of-words model(BoW model)最早出現(xiàn)在神經(jīng)語言程序?qū)W(NLP)和信息檢索(IR)領(lǐng)域。該模型忽略掉文本的語法和語序,用一組無序的單詞(words)來表達(dá)一段文字或一個(gè)文檔。近年來,BoW模型被廣泛應(yīng)用于計(jì)算機(jī)視覺中.與應(yīng)用于文本的BoW類比,圖像的特征(feature)被當(dāng)作單詞(Word),把圖像“文字化”之后,有助于大規(guī)模的圖像表達(dá),圖像檢索以及提取特征。
利用詞袋模型進(jìn)行圖像表達(dá)的基本步驟:
1、提取特征:根據(jù)數(shù)據(jù)集選取特征,形成特征數(shù)據(jù),統(tǒng)計(jì)圖像數(shù)據(jù)庫中出現(xiàn)的所有特征,去除冗余組成詞袋。
2、學(xué)習(xí)詞袋:把處理好的特征數(shù)據(jù)全部合并,再用聚類的方法把特征詞分為若干類,此若干類的數(shù)目由自己設(shè)定,每一個(gè)類相當(dāng)于一個(gè)視覺詞。
3、利用視覺詞袋量化圖像特征:每一張圖像由很多視覺詞匯組成,利用統(tǒng)計(jì)的詞頻直方圖,可以更好地表達(dá)這一圖像。
本發(fā)明把詞袋模型應(yīng)用在注視點(diǎn)檢測中。
特征提取在上一步驟已經(jīng)完成,所有圖像的所有候選目標(biāo)的特征構(gòu)成一個(gè)大的集合,利用混合高斯模型(GMM)進(jìn)行聚類,聚類后得到N個(gè)聚類中心,這些中心構(gòu)成了視覺表示詞袋。把所有詞袋中心拼接成一個(gè)字典,作為注視點(diǎn)視覺詞匯字典。把所有候選目標(biāo)的特征利用稀疏表示在此字典上進(jìn)行分解,保留分解后的系數(shù)。這樣就得到了針對(duì)于候選目標(biāo)的具有統(tǒng)計(jì)特性的N維視覺詞匯特征。
(4)訓(xùn)練多示例顯著目標(biāo)檢測模型
得到每個(gè)候選目標(biāo)的視覺詞匯特征之后,需要判定哪些目標(biāo)能吸引人眼的關(guān)注。普通的分類器如SVM,都需要帶有確定標(biāo)注的正負(fù)樣本,但是正樣本的選取存在一定問題。正樣本選取一般根據(jù)框內(nèi)注視點(diǎn)的密度,這就造成了我們選取的正樣本并不是全是真正的正樣本,但是根據(jù)真值注視點(diǎn)密度圖并無法判斷哪些樣本是真的正樣本。因此本發(fā)明中使用多示例分類檢測算法,來避開正樣本選擇的問題。
多示例學(xué)習(xí)的數(shù)據(jù)單元是包,每個(gè)包包含一個(gè)或者多個(gè)樣本,包的標(biāo)記有兩個(gè)類別,正和負(fù)。如果一個(gè)bag里面所有樣本的標(biāo)記都是負(fù)的,那么這個(gè)bag的標(biāo)記為負(fù)。這個(gè)bag里面至少有一個(gè)樣本的標(biāo)記為正,則這個(gè)bag標(biāo)記為正。對(duì)于訓(xùn)練樣本僅知道包的標(biāo)簽,但并不知道其中包含樣本的標(biāo)簽,根據(jù)這樣的訓(xùn)練數(shù)據(jù)得到一個(gè)分類器,使得對(duì)新輸入的樣本,可以給出它的正負(fù)標(biāo)記。
在注視點(diǎn)檢測中,對(duì)于圖像的每個(gè)位置都有若干個(gè)大小不一的目標(biāo)框。圖像的顯著區(qū)域附近的所有候選目標(biāo)框中有一部分是正樣本,圖像的非顯著區(qū)域附近的所有候選目標(biāo)框都為負(fù)樣本,這剛好與多示例學(xué)習(xí)的思想吻合。圖像的顯著區(qū)域附近的框集合作為正包,非顯著區(qū)域附近的框集合作為負(fù)包,利用多示例學(xué)習(xí)算法RMISVM(Relaxed Multiple-Instance SVM)進(jìn)行訓(xùn)練,可以避免之前所提到的正樣本選擇不準(zhǔn)的問題。RMISVM的目標(biāo)函數(shù)如下:
其中為第i個(gè)包損失項(xiàng),為第i個(gè)包中第j個(gè)示例的損失項(xiàng),sgn是符號(hào)函數(shù),m0是確定正負(fù)示例的閾值參數(shù)。
pij為第i個(gè)包中第j個(gè)示例標(biāo)簽為正的概率,Pi為第i個(gè)包標(biāo)簽為正的概率。
對(duì)其用隨機(jī)梯度下降算法求解,得到輸出[w,b]。
訓(xùn)練階段,根據(jù)注視點(diǎn)密度圖選取正負(fù)包,利用其視覺詞匯特征訓(xùn)練RMISVM分類器[w,b]。測試階段,給定測試圖像,先提取候選目標(biāo)得到其CNN特征,轉(zhuǎn)換為視覺詞匯特征送入訓(xùn)練好的RMISVM分類器得到分?jǐn)?shù),把這個(gè)分?jǐn)?shù)作為權(quán)重對(duì)目標(biāo)框中心位置進(jìn)行加權(quán)疊加得到最終的目標(biāo)級(jí)別的檢測結(jié)果圖。
(5)生成中心先驗(yàn)圖
在注視點(diǎn)檢測中,很多研究表明:觀察者會(huì)根據(jù)圖的內(nèi)容,或多或少會(huì)傾向于看向圖像中心的位置。所以把中心先驗(yàn)圖考慮進(jìn)來是非常必要的。中心先驗(yàn)圖的生成非常簡單,僅需要在圖像中心放置一個(gè)最大亮度為1的高斯分布即可。
(6)學(xué)習(xí)自適應(yīng)融合權(quán)重
經(jīng)過上述步驟,已經(jīng)得到了三張采用不同層次信息得到的檢測結(jié)果圖,分別是中心位置先驗(yàn)圖、顯著目標(biāo)檢測圖和底層顏色對(duì)比圖。自然場景中的圖像多種多樣,針對(duì)不同的圖像,這三種結(jié)果圖的檢測結(jié)果也各不相同。如果人工設(shè)定權(quán)重或者訓(xùn)練一個(gè)固定的融合權(quán)重都并不合適。例如:圖像中有顏色對(duì)比度比較突出的區(qū)域,這樣利用底層的顏色特征信息就可以很好地檢測。若圖像中有一些顯著吸引人眼注意的目標(biāo)如人臉文字等,則高層的目標(biāo)級(jí)別的特征信息更加有效。若圖像顏色對(duì)比度不明顯,又沒有吸引人的目標(biāo),這樣空間位置信息又會(huì)起主導(dǎo)作用。這可以看成一個(gè)多分類的問題,可以用分類的方法確定哪一種檢測結(jié)果圖更加可信,并賦予較大融合權(quán)重。
在訓(xùn)練權(quán)值分類器的階段,首先需要得到一個(gè)描述圖像整體信息的特征,VGG是一個(gè)比較完善的用于圖像分類的深度神經(jīng)網(wǎng)絡(luò)。把整張圖像送進(jìn)網(wǎng)絡(luò)中,取其第19層的輸出作為描述整張圖像信息的特征,共4096維。其次,需要對(duì)三種檢測結(jié)果圖做評(píng)價(jià),決定哪一種方法更適合當(dāng)前圖像,S-AUC是注視點(diǎn)檢測領(lǐng)域中最常用的評(píng)價(jià)標(biāo)準(zhǔn)。本發(fā)明采用S-AUC的相對(duì)值取判斷哪一種方法的檢測效果更好,公式如下:
Si=max(0,si-max(sj,sk)) (9)
其中,是si為當(dāng)前需要評(píng)價(jià)的結(jié)果圖的S-AUC,是sj和sk為其他兩種結(jié)果圖的S-AUC。S-AUC的相對(duì)值最高的方法編號(hào)作為當(dāng)前圖像的訓(xùn)練標(biāo)簽。用之前得到的整張圖的特征及對(duì)應(yīng)標(biāo)簽訓(xùn)練softmax分類器,假設(shè)函數(shù)(hypothesis function)如下:
其中θ1,θ2,..θk∈Rn+1是模型的參數(shù),x(i)為第i個(gè)樣本的特征,k為樣本的總個(gè)數(shù),代價(jià)函數(shù)為:
使用迭代的算法,對(duì)θ進(jìn)行優(yōu)化求解。
測試階段,把測試圖像的特征送入訓(xùn)練好的分類器中,得到屬于各類的概率w1,w2,w3,以此作為融合的權(quán)值。最終的融合結(jié)果為:
(7)語義信息的檢測
自然場景圖像中,包含著各種各樣的語義,其中有的語義可以明顯吸引人眼關(guān)注,如:人臉,文字,行人,告示牌,交通標(biāo)志等等。對(duì)這些語義進(jìn)行特定的檢測,可以大幅度提升最終的檢測效果。
本發(fā)明采用基于區(qū)域的用于目標(biāo)檢測CNN網(wǎng)絡(luò)的輸出特征,進(jìn)行三種語義檢測:人臉,文本,行人。在專門的做這三種目標(biāo)檢測數(shù)據(jù)庫中,訓(xùn)練隨機(jī)森林分類器。語義檢測階段,與之前步驟相同,提取圖像中的目標(biāo)框及其CNN特征,送入訓(xùn)練好的分類器中,得到框的打分,再對(duì)重疊的框進(jìn)行合并得到最終的語義檢測結(jié)果。以往合并重疊框的方法是采用非極大值抑制(NMS)算法。抑制的過程是一個(gè)迭代-遍歷-消除的過程,將所有框的得分降序排列,選中最高分及其對(duì)應(yīng)的框。遍歷其余的框,如果和當(dāng)前最高分框的重疊面積(IOU)大于一定閾值,我們就將框刪除。從未處理的框中繼續(xù)得到一個(gè)得分最高的,重復(fù)上述過程。但此方法的檢測位置完全由最高的幾個(gè)框,實(shí)驗(yàn)過程中發(fā)現(xiàn)分?jǐn)?shù)最高的框不一定能完全框住目標(biāo)。本發(fā)明中對(duì)NMS算法進(jìn)行了改進(jìn),讓被抑制的框也能起到一定的定位作用。思想是利用迭代更新策略,分?jǐn)?shù)最高的框決定初始位置,其他每個(gè)被抑制的框都會(huì)對(duì)其位置進(jìn)行更新,位置更新的方式為利用框的分?jǐn)?shù)對(duì)框的位置進(jìn)行加權(quán)疊加,直到所有的框都被遍歷完畢。
附圖說明
圖1是基于多層信息融合的注視點(diǎn)檢測方法的系統(tǒng)框圖。
具體實(shí)施方式
以下結(jié)合附圖和技術(shù)方案,進(jìn)一步說明本發(fā)明的具體實(shí)施方式。
實(shí)施例
步驟一:對(duì)圖像的L、A、B通道分別生成金字塔,每一層圖像的尺度是上一層的一半。金字塔底部是原始的高分辨率圖像,隨著金字塔層數(shù)增高,圖像分辨率降低。每一層中的圖像是對(duì)上一層圖像進(jìn)行濾波和降采樣之后得到的。本發(fā)明濾波部分采用高斯濾波,模板是[5*5],標(biāo)準(zhǔn)差為1.6的高斯模板。模型構(gòu)造了9層的高斯金字塔,以L分量為例,金字塔記為L(σ),σ∈[0,8]。利用“中央—周邊”算子計(jì)算差異圖,之后用非線性歸一化算子N(·)進(jìn)行歸一化。最后對(duì)三個(gè)顏色通道進(jìn)行疊加得到底層信息檢測圖。
步驟二:首先用邊緣多尺度組合分組算法提取圖像的目標(biāo)候選框,把這些候選框送入一個(gè)預(yù)先訓(xùn)練好的用于目標(biāo)檢測的CNN網(wǎng)絡(luò)中,得到候選目標(biāo)的CNN特征。所有圖像中的所有候選目標(biāo)的特征構(gòu)成一個(gè)大的集合,利用混合高斯模型(GMM)進(jìn)行聚類,得到N個(gè)聚類中心,本發(fā)明中N=128。構(gòu)建視覺詞匯字典,所有候選目標(biāo)的特征利用稀疏表示在此字典上進(jìn)行分解,得到視覺詞匯特征。
步驟三:根據(jù)注視點(diǎn)密度圖選取正負(fù)包,真值極大值附近的N個(gè)目標(biāo)框構(gòu)成正包,其他區(qū)域目標(biāo)框利用空間位置聚類,每一類的所有目標(biāo)框構(gòu)成負(fù)包。利用其視覺詞匯特征訓(xùn)練RMISVM分類器。
測試階段,給定測試圖像,先提取候選目標(biāo)得到其CNN特征,轉(zhuǎn)換為視覺詞匯特征送入訓(xùn)練好的RMISVM分類器得到分?jǐn)?shù)。每個(gè)目標(biāo)中心位置為分類器得到的分?jǐn)?shù),其他位置為0,采用高斯濾波的方式生顯著目標(biāo)檢測結(jié)果圖,高斯濾波模板尺寸為[180*180],濾波標(biāo)準(zhǔn)差為30,單位為像素。
步驟四:初始化全0圖,尺寸400*400,圖像中心置1。采用高斯濾波生成中心先驗(yàn)圖模板,模板尺寸為[400*400],濾波標(biāo)準(zhǔn)差為64。經(jīng)過插值和抽值調(diào)整尺寸為檢測圖像尺寸。
步驟五:把待檢測圖像送入VGG網(wǎng)絡(luò)中,取其第19層的輸出作為訓(xùn)練特征,共4096維。訓(xùn)練階段:用S-AUC的相對(duì)值對(duì)三種檢測圖進(jìn)行評(píng)價(jià),指標(biāo)最高方法編號(hào)作為當(dāng)前圖像的訓(xùn)練標(biāo)簽。用特征和標(biāo)簽訓(xùn)練softmax分類器。測試階段,把測試圖像的特征送入訓(xùn)練好的分類器中,得到對(duì)應(yīng)著三種檢測圖的概率w1,w2,w3。把此概率作為權(quán)值,對(duì)三種檢測圖進(jìn)行加權(quán)融合。
步驟六:分別在人臉,文本,行人三種目標(biāo)檢測數(shù)據(jù)庫上挑選正負(fù)樣本,用其CNN特征訓(xùn)練三種隨機(jī)森林分類器。語義檢測階段,提取檢測圖像中的目標(biāo)框及其CNN特征,送入訓(xùn)練好的分類器中,得到框的打分,再采用改進(jìn)的非極大值抑制算法對(duì)重疊的框進(jìn)行合并,得到最終的語義檢測結(jié)果。在融合后的檢測結(jié)果圖上疊加語義檢測結(jié)果,即為最終的注視點(diǎn)檢測結(jié)果。
改進(jìn)的非極大值抑制算法的具體步驟:
1、將所有框的得分降序排列,選中最高分的框?yàn)榇敵隹?,確定標(biāo)號(hào),保存位置;
2、對(duì)所有框進(jìn)行遍歷,若當(dāng)前與所有待輸出框重疊面積(IOU)均小于閾值當(dāng)前框標(biāo)記為待輸出框,保存其位置并賦予一個(gè)新的標(biāo)號(hào);若當(dāng)前框只與一個(gè)待輸出框重疊大于閾值當(dāng)前框標(biāo)定為與之重疊待輸出框的標(biāo)號(hào),用此標(biāo)號(hào)的所有框的位置對(duì)輸出框位置進(jìn)行更新,更新方式采用根據(jù)分?jǐn)?shù)加權(quán)和;否則對(duì)相關(guān)的輸出框進(jìn)行標(biāo)簽合并,并根據(jù)分?jǐn)?shù)更新輸出框位置;
3、輸出所有待輸出框。
我們的方法可以處理顏色對(duì)比占主導(dǎo)的圖像,空間位置占主導(dǎo)的圖像,顯著目標(biāo)占主導(dǎo)的圖像,還有含有明確語義信息的圖像。同時(shí),圖像包含各種信息的情況下,本發(fā)明仍有較好的檢測效果。