亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種新的場(chǎng)景識(shí)別方法與流程

文檔序號(hào):11458870閱讀:367來(lái)源:國(guó)知局
一種新的場(chǎng)景識(shí)別方法與流程

本發(fā)明屬于計(jì)算機(jī)視覺(jué)、數(shù)字圖像處理領(lǐng)域,具體涉及一種新的場(chǎng)景識(shí)別方法。



背景技術(shù):

場(chǎng)景理解也正是計(jì)算機(jī)視覺(jué)中一個(gè)經(jīng)典話題。場(chǎng)景理解的最早目的在于使得機(jī)器能夠像人一樣能夠從視覺(jué)信息中理解當(dāng)前的情況并能夠推斷出一般性的原則。然而在計(jì)算水平落后的時(shí)代,這樣的愿望只能是空中樓閣。伴隨著過(guò)去50年間更大,更快,更便宜的計(jì)算能力以及大量的各種數(shù)據(jù)不斷得到豐富和提升解決這個(gè)經(jīng)典問(wèn)題逐漸有了可行性,越來(lái)越多的研究人員不斷投入并取得了巨大的成功。這些成就使得場(chǎng)景理解逐漸成為了一個(gè)熱門話題。而且隨著發(fā)展,場(chǎng)景理解早已不限于當(dāng)初的目的。

場(chǎng)景分類的一般的做法是采用一種整體性的方法,用一種以一貫制的方式處理進(jìn)行分類。使用特征然后統(tǒng)計(jì)畫面中特征的出現(xiàn)頻率和分布情況,也就是特征分布直方圖,用直方圖的分布情況來(lái)表征這幅圖像。這也是人們常說(shuō)的詞袋模型(bagofword,bow)。整個(gè)過(guò)程可以大致分為四個(gè)部分:從圖像中滑動(dòng)窗口切割出小圖像塊;在圖像塊上提取特征;使用聚類算法生成字典;根據(jù)圖像中的特征分布生成字典詞分布直方圖池化處理后進(jìn)行分類。

對(duì)于場(chǎng)景識(shí)別而言,圖像的特征描述方式起著十分關(guān)鍵的作用。在早期的工作中,圖像的描述是基于邊緣檢測(cè)或者是角點(diǎn)檢測(cè)的局部特征。然而,這類的局部特征描述往往缺乏必要的語(yǔ)義信息而且缺乏魯棒性。因此,將這種特征無(wú)法良好的表達(dá)整幅圖像的信息,用于分類時(shí),這樣的數(shù)據(jù)往往表達(dá)含糊。而且,用這種特征描述的時(shí)候,所有的圖像塊都具有相同的權(quán)重。然而事實(shí)上,在許多案例中,圖像中往往有許多的圖像塊對(duì)最終的場(chǎng)景分類并沒(méi)有任何的貢獻(xiàn),就比如室內(nèi)場(chǎng)景中的白墻圖像塊,幾乎會(huì)出現(xiàn)在所有的室內(nèi)場(chǎng)景中。

因此,本發(fā)明針對(duì)以上問(wèn)題,解決適于圖像預(yù)處理分割階段產(chǎn)生圖像塊語(yǔ)義信息不明確的問(wèn)題。同時(shí)提出了一種與之配合的池化處理方法。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的在于提供一種新的場(chǎng)景識(shí)別方法,該方法采用似物檢測(cè)提取圖像塊避免了圖像塊語(yǔ)義不明確的問(wèn)題,同時(shí)提出了具有代表性和區(qū)別性的增強(qiáng)型k-means字典,最后提出了一種適應(yīng)似物檢測(cè)的順序池化方式,提高了分類的準(zhǔn)確率。

為實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案是:一種新的場(chǎng)景識(shí)別方法,包括如下步驟,

s1、采用似物檢測(cè)中的選擇性搜索方式對(duì)場(chǎng)景圖像進(jìn)行圖像分割產(chǎn)生圖像塊;

s2、對(duì)各個(gè)圖像塊進(jìn)行深度特征提??;

s3、采用k-means聚類算法對(duì)步驟s2提取的各個(gè)圖像塊的深度特征進(jìn)行聚類;

s4、對(duì)步驟s3的聚類結(jié)果進(jìn)行篩選并生成字典;

s5、場(chǎng)景圖像的字典空間表達(dá),并對(duì)字典空間表達(dá)結(jié)果矩陣進(jìn)行順序最大池化處理;

s6、進(jìn)行svm分類,得到結(jié)果。

在本發(fā)明一實(shí)施例中,所述步驟s4的具體實(shí)現(xiàn)過(guò)程如下,

s41、通過(guò)公式來(lái)表示場(chǎng)景樣本的占比,該占比定義為聚類j對(duì)于場(chǎng)景類型i的代表有效性;

s42、統(tǒng)計(jì)步驟s3得到的各個(gè)聚類結(jié)果中場(chǎng)景樣本來(lái)自目標(biāo)場(chǎng)景類型占比的分布,得到關(guān)于以聚類中心為x軸,場(chǎng)景樣本占比為y的直方圖;一個(gè)場(chǎng)景類型對(duì)應(yīng)有一個(gè)直方圖;

s43、在每個(gè)直方圖中,采用大津二值化法的方法找到代表有效性的閾值μt,通過(guò)代表有效性的閾值μt,即可將每張直方圖內(nèi)的聚類分為兩類;其中來(lái)自目標(biāo)場(chǎng)景類型中占比高于代表有效性閾值μt的聚類為具有代表性的聚類,否則不具有代表性;

s44、由步驟s43得出的具有代表性的聚類進(jìn)行合并生成字典,具體即:對(duì)每個(gè)具有代表性的聚類的維度4096進(jìn)行二值化處理,保留k個(gè)最大值為1,其余為0;從到大到小與余下聚類的聚類中心進(jìn)行比較,為1的位置沒(méi)有重復(fù),則進(jìn)行合并,直到比對(duì)完所有聚類的聚類中心;已進(jìn)行合并的聚類中心不再進(jìn)行任何后續(xù)處理;已合并的聚類組按合并聚類中心個(gè)數(shù)進(jìn)行排列,同個(gè)數(shù)情況按聚類組中聚類中心代表有效性大小排列;最后排序取出前x個(gè)作為各聚類的字典數(shù)。

在本發(fā)明一實(shí)施例中,所述步驟s43中,采用大津二值化法的方法找到代表有效性的閾值μt的具體方式如下:

定義具有代表性和不具有代表性聚類的兩個(gè)類的方差的加權(quán)和:其中,ωi是權(quán)重是被閾值μt分開的兩個(gè)類的概率,而是這兩個(gè)類內(nèi)部各自的方差;通過(guò)窮舉搜索使類內(nèi)方差最小的閾值,則最后可得代表有效性的閾值為:μt=ω1μ1+ω2μ2。

在本發(fā)明一實(shí)施例中,所述步驟s5中,

場(chǎng)景圖像的字典空間表達(dá)結(jié)果矩陣為:

k=h×mt

其中,h為場(chǎng)景圖像的表達(dá)矩陣,其具有g(shù)行,4096列,g即場(chǎng)景圖像經(jīng)似物檢測(cè)中的選擇性搜索方式產(chǎn)生的g個(gè)圖像塊;m為字典的矩陣形式,其具有x×y行,4096列,x即每一個(gè)場(chǎng)景類型的字典數(shù),y為場(chǎng)景類型數(shù);k具有g(shù)行,x×y列;

對(duì)場(chǎng)景圖像的字典空間表達(dá)結(jié)果矩陣進(jìn)行順序最大池化處理的結(jié)果,則可得最后的表達(dá)維度為:x×y×(n+1),其中,n即對(duì)g個(gè)圖像塊的分組數(shù),每組均進(jìn)行最大池化處理。

相較于現(xiàn)有技術(shù),本發(fā)明具有以下有益效果:

1、現(xiàn)有圖像分割采用滑動(dòng)窗口進(jìn)行分割;分割過(guò)程死板,圖像塊語(yǔ)義不明確;而本發(fā)明采用似物檢測(cè)產(chǎn)生圖像塊;圖像塊語(yǔ)義信息較為明確,便于后續(xù)處理;每幅圖的圖像塊個(gè)數(shù)靈活好調(diào)整,適應(yīng)性廣泛;同時(shí)可適用其它圖像分類領(lǐng)域;

2、現(xiàn)有k-means聚類算法直接生成字典;而本發(fā)明采用代表性和區(qū)別性的要求,對(duì)k-means聚類中心進(jìn)行了篩選和合并的處理后才生成字典;在本字典詞的空間中各類場(chǎng)景表達(dá)線性度更高;

3、現(xiàn)沒(méi)有針對(duì)似物檢測(cè)的池化算法;而本發(fā)明提出針對(duì)似物檢測(cè)的池化算法,有效的加強(qiáng)了圖像表達(dá)與具體存在物體之間的關(guān)系,提升了分類準(zhǔn)確率。

附圖說(shuō)明

圖1為本發(fā)明算法流程圖。

圖2為本發(fā)明聚類效果圖,其中a,b為各自不同聚類中心,c為a,b兩個(gè)聚類中心合并的效果,d為三個(gè)聚類合并的效果。

圖3為本發(fā)明最大順序池化示意圖,假設(shè)這時(shí)總共有16個(gè)似物檢測(cè)塊,則分成4組。

具體實(shí)施方式

下面結(jié)合附圖,對(duì)本發(fā)明的技術(shù)方案進(jìn)行具體說(shuō)明。

本發(fā)明的一種新的場(chǎng)景識(shí)別方法,包括如下步驟,

s1、采用似物檢測(cè)中的選擇性搜索方式對(duì)場(chǎng)景圖像進(jìn)行圖像分割產(chǎn)生圖像塊;

s2、對(duì)各個(gè)圖像塊進(jìn)行深度特征提?。?/p>

s3、采用k-means聚類算法對(duì)步驟s2提取的各個(gè)圖像塊的深度特征進(jìn)行聚類;

s4、對(duì)步驟s3的聚類結(jié)果進(jìn)行篩選并生成字典;

s5、場(chǎng)景圖像的字典空間表達(dá),并對(duì)字典空間表達(dá)結(jié)果矩陣進(jìn)行順序最大池化處理;

s6、進(jìn)行svm分類,得到結(jié)果。

在本發(fā)明一實(shí)施例中,所述步驟s4的具體實(shí)現(xiàn)過(guò)程如下,

s41、通過(guò)公式來(lái)表示場(chǎng)景樣本的占比,該占比定義為聚類j對(duì)于場(chǎng)景類型i的代表有效性;

s42、統(tǒng)計(jì)步驟s3得到的各個(gè)聚類結(jié)果中場(chǎng)景樣本來(lái)自目標(biāo)場(chǎng)景類型占比的分布,得到關(guān)于以聚類中心為x軸,場(chǎng)景樣本占比為y的直方圖;一個(gè)場(chǎng)景類型對(duì)應(yīng)有一個(gè)直方圖;

s43、在每個(gè)直方圖中,采用大津二值化法的方法找到代表有效性的閾值μt,通過(guò)代表有效性的閾值μt,即可將每張直方圖內(nèi)的聚類分為兩類;其中來(lái)自目標(biāo)場(chǎng)景類型中占比高于代表有效性閾值μt的聚類為具有代表性的聚類,否則不具有代表性;

采用大津二值化法的方法找到代表有效性的閾值μt的具體方式如下:

定義具有代表性和不具有代表性聚類的兩個(gè)類的方差的加權(quán)和:其中,ωi是權(quán)重是被閾值μt分開的兩個(gè)類的概率,而是這兩個(gè)類內(nèi)部各自的方差;通過(guò)窮舉搜索使類內(nèi)方差最小的閾值,則最后可得代表有效性的閾值為:μt=ω1μ1+ω2μ2;

s44、由步驟s43得出的具有代表性的聚類進(jìn)行合并生成字典,具體即:對(duì)每個(gè)具有代表性的聚類的維度4096進(jìn)行二值化處理,保留k個(gè)最大值為1,其余為0;從到大到小與余下聚類的聚類中心進(jìn)行比較,為1的位置沒(méi)有重復(fù),則進(jìn)行合并,直到比對(duì)完所有聚類的聚類中心;已進(jìn)行合并的聚類中心不再進(jìn)行任何后續(xù)處理;已合并的聚類組按合并聚類中心個(gè)數(shù)進(jìn)行排列,同個(gè)數(shù)情況按聚類組中聚類中心代表有效性大小排列;最后排序取出前x個(gè)作為各聚類的字典數(shù)。

所述步驟s5中,

場(chǎng)景圖像的字典空間表達(dá)結(jié)果矩陣為:

k=h×mt

其中,h為場(chǎng)景圖像的表達(dá)矩陣,其具有g(shù)行,4096列,g即場(chǎng)景圖像經(jīng)似物檢測(cè)中的選擇性搜索方式產(chǎn)生的g個(gè)圖像塊;m為字典的矩陣形式,其具有x×y行,4096列,x即每一個(gè)場(chǎng)景類型的字典數(shù),y為場(chǎng)景類型數(shù);k具有g(shù)行,x×y列;

對(duì)場(chǎng)景圖像的字典空間表達(dá)結(jié)果矩陣進(jìn)行順序最大池化處理的結(jié)果,則可得最后的表達(dá)維度為:x×y×(n+1),其中,n即對(duì)g個(gè)圖像塊的分組數(shù),每組均進(jìn)行最大池化處理。

以下為本發(fā)明的具體實(shí)現(xiàn)過(guò)程。

目前大部分基于bow的場(chǎng)景分類算法都是對(duì)圖像進(jìn)行滑動(dòng)窗口分割產(chǎn)生圖像塊進(jìn)行處理,從而導(dǎo)致圖像塊部分語(yǔ)義不明確。本發(fā)明采用似物檢測(cè)提取圖像塊避免了這個(gè)問(wèn)題,同時(shí)提出了具有代表性和區(qū)別性的增強(qiáng)型k-means字典,最后提出了一種適應(yīng)似物檢測(cè)的順序池化方式,提高了分類的準(zhǔn)確率。

本算法各組成部分如圖1所示。1)似物檢測(cè)產(chǎn)生圖像塊;2)對(duì)各個(gè)圖像塊進(jìn)行深度特征提??;3)使用k-means聚類算法由各個(gè)圖像塊產(chǎn)生的深度特征進(jìn)行聚類;4)對(duì)k-means聚類結(jié)果進(jìn)行篩選并生成字典;5)場(chǎng)景圖像表達(dá);6)順序最大值池化;7)svm分類

似物識(shí)別產(chǎn)生圖像塊本文圖像預(yù)處理的過(guò)程不同于在之前類似工作中所采用的中最常見(jiàn)的滑動(dòng)窗口的方式,本文提出了采用似物檢測(cè)中選擇性搜索的方式取代了滑動(dòng)窗口來(lái)產(chǎn)生圖像預(yù)處理中的圖像塊。由選擇性搜索作為一種似物檢測(cè)算法,由其產(chǎn)生的圖像塊因?yàn)樽⒅貙?duì)于具有物體屬性的區(qū)域選取,因此使得由之產(chǎn)生的圖像塊相比于滑動(dòng)窗口在語(yǔ)義信息上的表達(dá)更加明確。除了語(yǔ)義上的增強(qiáng)還有一個(gè)與之而來(lái)的優(yōu)點(diǎn),選擇性搜索能夠使得每張圖像產(chǎn)生圖像塊的數(shù)量能夠順隨實(shí)際需要而任意指定。如果能夠利用這點(diǎn)將所有圖像都產(chǎn)生相同數(shù)量的圖像塊,那么后續(xù)聚類或者是池化處理的復(fù)雜度就有可能得到一定程度的降低。

實(shí)際上之前的算法為了使用滑動(dòng)窗口的時(shí)候,因?yàn)榻o定的圖像的長(zhǎng)寬比例不一,卻又有著相同的圖像塊分割大小、步進(jìn),因此每個(gè)圖像可能產(chǎn)生不同數(shù)量的圖像塊。選擇性搜索固定每個(gè)圖像產(chǎn)生的圖像塊。這點(diǎn)不但避免了后續(xù)處理的復(fù)雜性,而且保證了每副圖像對(duì)于k-means聚類時(shí)具有相同的權(quán)重。

k-means聚類將選擇性搜索得到的圖像塊,輸入caffe深度網(wǎng)絡(luò)的vgg-vd模型,該模型在imagenet進(jìn)行了預(yù)訓(xùn)練并在ilsvrc-2014上取得了極好的效果。在緊接著線性修正單元(rectifiedlinearunit,relu)的第六層fc6(全連接層的第一層)獲得非負(fù)4096維度的深度特征,然后將這些特征進(jìn)行了k-means聚類。

選取聚類結(jié)果生成字典我們希望字典視覺(jué)詞能夠同時(shí)滿足兩個(gè)要求,即區(qū)別性和代表性。區(qū)別性能夠準(zhǔn)確的分別不同類別。代表性又希望該詞有足夠的出現(xiàn)頻率。普通的k-means聚類可以直接構(gòu)建字典,但并無(wú)法實(shí)現(xiàn)這兩個(gè)要求,因此要加入這個(gè)步驟構(gòu)建更加有效的視覺(jué)字典。

聚類的結(jié)果中也往往存在對(duì)各個(gè)場(chǎng)景類型的偏向。即某個(gè)聚類結(jié)果中,大多數(shù)樣本的都是來(lái)自同一個(gè)類型中的圖像塊。把這種特定的樣本占比定義為這個(gè)聚類對(duì)于這個(gè)類型場(chǎng)景的代表有效性:其中j是聚類序號(hào),i是場(chǎng)景類型。

同時(shí),我們通過(guò)定義同一聚類結(jié)果中滿足一定條件的同一場(chǎng)景的占比要求的樣本量,即滿足一定要求的代表有效性的聚類才可稱之為對(duì)該場(chǎng)景具有帶代表性的聚類。通過(guò)統(tǒng)計(jì)各個(gè)聚類結(jié)果中樣本所來(lái)自某個(gè)特定場(chǎng)景類型占比的分布,得到關(guān)于以聚類中心為x軸,該場(chǎng)景樣本占比為y的直方圖。每個(gè)場(chǎng)景類型各有一個(gè)直方圖。在每個(gè)直方圖中,采用大津二值化法(otsu)[46]的方法找到代表有效性的門限值,定義為兩個(gè)類的方差的加權(quán)和:其中ωi是權(quán)重是被閾值t分開的兩個(gè)類的概率,而是這兩個(gè)類內(nèi)部各自的方差。通過(guò)窮舉搜索能使類內(nèi)方差最小的閾值,則最后閾值為:μt=ω1μ1+ω2μ2

由此每張直方圖內(nèi)的聚類分為兩類。其中來(lái)自某特定場(chǎng)景占比高于代表有效性門限的聚類為具有代表性的聚類,否則不具有代表性。

在具有代表性的基礎(chǔ)上再考慮聚類的區(qū)別性。具有代表性的聚類中心的也就是可能的字典詞,而這些聚類中心同時(shí)也是4096維的特征。同時(shí)這些特征有著稀疏的特性。往往不同的聚類中心在特征維度上具有很強(qiáng)的互補(bǔ)性。這種關(guān)系可以用圖2來(lái)比擬。

我們希望盡量可能的對(duì)各個(gè)聚類中心進(jìn)行合并生成最后的字典。每個(gè)聚類的維度4096進(jìn)行二值化處理,保留k個(gè)最大值為1,其余為0;從到大到小與余下的聚類中心進(jìn)行比較,為1的位置沒(méi)有重復(fù),則進(jìn)行合并,直到比對(duì)完所有其余聚類中心;已進(jìn)行合并的聚類中心不再進(jìn)行任何后續(xù)處理。已合并的聚類組按合并聚類中心個(gè)數(shù)進(jìn)行排列,同個(gè)數(shù)情況按聚類組中聚類中心代表有效性大小排列。最后排序取出前x個(gè)作為各類的字典數(shù)。

這個(gè)環(huán)節(jié)中,我們考慮如何根據(jù)上文產(chǎn)生的字典對(duì)由選擇性搜索產(chǎn)生圖像塊的cnn特征進(jìn)行有效的表達(dá)。給定單張場(chǎng)景圖像l,通過(guò)選擇性搜索產(chǎn)生g個(gè)圖像塊并進(jìn)行深度特征提取,我們能夠?qū)⑵浔磉_(dá)為li={l1,l2,…,lg}作為矩陣h。此時(shí)h的表達(dá)具有g(shù)行,4096列。通過(guò)k-means聚類生成了t個(gè)聚類空間/詞,并且在聚類選擇環(huán)節(jié)每類選擇了最具有區(qū)別性和代表性的x個(gè)詞。字典最終可以表示為矩陣m的形式,具有x×y行(x是每一場(chǎng)景類型的字典數(shù),y是數(shù)據(jù)庫(kù)中的場(chǎng)景類型數(shù))和4096列。將原始表達(dá)矩陣h向字典空間m的投射的結(jié)果是最終表達(dá)矩陣k=h×mt。此時(shí),矩陣k具有g(shù)行,x×y列。這邊我們加入了順序最大池化的方式進(jìn)行處理。最后的表達(dá)維度為x×y×(n+1)。見(jiàn)圖3。

以上是本發(fā)明的較佳實(shí)施例,凡依本發(fā)明技術(shù)方案所作的改變,所產(chǎn)生的功能作用未超出本發(fā)明技術(shù)方案的范圍時(shí),均屬于本發(fā)明的保護(hù)范圍。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1