一種新的場(chǎng)景識(shí)別方法與流程

文檔序號(hào)：11458870閱讀：367來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于計(jì)算機(jī)視覺(jué)、數(shù)字圖像處理領(lǐng)域，具體涉及一種新的場(chǎng)景識(shí)別方法。

背景技術(shù)：

場(chǎng)景理解也正是計(jì)算機(jī)視覺(jué)中一個(gè)經(jīng)典話題。場(chǎng)景理解的最早目的在于使得機(jī)器能夠像人一樣能夠從視覺(jué)信息中理解當(dāng)前的情況并能夠推斷出一般性的原則。然而在計(jì)算水平落后的時(shí)代，這樣的愿望只能是空中樓閣。伴隨著過(guò)去50年間更大，更快，更便宜的計(jì)算能力以及大量的各種數(shù)據(jù)不斷得到豐富和提升解決這個(gè)經(jīng)典問(wèn)題逐漸有了可行性，越來(lái)越多的研究人員不斷投入并取得了巨大的成功。這些成就使得場(chǎng)景理解逐漸成為了一個(gè)熱門話題。而且隨著發(fā)展，場(chǎng)景理解早已不限于當(dāng)初的目的。

場(chǎng)景分類的一般的做法是采用一種整體性的方法，用一種以一貫制的方式處理進(jìn)行分類。使用特征然后統(tǒng)計(jì)畫面中特征的出現(xiàn)頻率和分布情況，也就是特征分布直方圖，用直方圖的分布情況來(lái)表征這幅圖像。這也是人們常說(shuō)的詞袋模型(bagofword，bow)。整個(gè)過(guò)程可以大致分為四個(gè)部分：從圖像中滑動(dòng)窗口切割出小圖像塊；在圖像塊上提取特征；使用聚類算法生成字典；根據(jù)圖像中的特征分布生成字典詞分布直方圖池化處理后進(jìn)行分類。

對(duì)于場(chǎng)景識(shí)別而言，圖像的特征描述方式起著十分關(guān)鍵的作用。在早期的工作中，圖像的描述是基于邊緣檢測(cè)或者是角點(diǎn)檢測(cè)的局部特征。然而，這類的局部特征描述往往缺乏必要的語(yǔ)義信息而且缺乏魯棒性。因此，將這種特征無(wú)法良好的表達(dá)整幅圖像的信息，用于分類時(shí)，這樣的數(shù)據(jù)往往表達(dá)含糊。而且，用這種特征描述的時(shí)候，所有的圖像塊都具有相同的權(quán)重。然而事實(shí)上，在許多案例中，圖像中往往有許多的圖像塊對(duì)最終的場(chǎng)景分類并沒(méi)有任何的貢獻(xiàn)，就比如室內(nèi)場(chǎng)景中的白墻圖像塊，幾乎會(huì)出現(xiàn)在所有的室內(nèi)場(chǎng)景中。

因此，本發(fā)明針對(duì)以上問(wèn)題，解決適于圖像預(yù)處理分割階段產(chǎn)生圖像塊語(yǔ)義信息不明確的問(wèn)題。同時(shí)提出了一種與之配合的池化處理方法。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明的目的在于提供一種新的場(chǎng)景識(shí)別方法，該方法采用似物檢測(cè)提取圖像塊避免了圖像塊語(yǔ)義不明確的問(wèn)題，同時(shí)提出了具有代表性和區(qū)別性的增強(qiáng)型k-means字典，最后提出了一種適應(yīng)似物檢測(cè)的順序池化方式，提高了分類的準(zhǔn)確率。

為實(shí)現(xiàn)上述目的，本發(fā)明的技術(shù)方案是：一種新的場(chǎng)景識(shí)別方法，包括如下步驟，

s1、采用似物檢測(cè)中的選擇性搜索方式對(duì)場(chǎng)景圖像進(jìn)行圖像分割產(chǎn)生圖像塊；

s2、對(duì)各個(gè)圖像塊進(jìn)行深度特征提??；

s3、采用k-means聚類算法對(duì)步驟s2提取的各個(gè)圖像塊的深度特征進(jìn)行聚類；

s4、對(duì)步驟s3的聚類結(jié)果進(jìn)行篩選并生成字典；

s5、場(chǎng)景圖像的字典空間表達(dá)，并對(duì)字典空間表達(dá)結(jié)果矩陣進(jìn)行順序最大池化處理；

s6、進(jìn)行svm分類，得到結(jié)果。

在本發(fā)明一實(shí)施例中，所述步驟s4的具體實(shí)現(xiàn)過(guò)程如下，

s41、通過(guò)公式來(lái)表示場(chǎng)景樣本的占比，該占比定義為聚類j對(duì)于場(chǎng)景類型i的代表有效性；

s42、統(tǒng)計(jì)步驟s3得到的各個(gè)聚類結(jié)果中場(chǎng)景樣本來(lái)自目標(biāo)場(chǎng)景類型占比的分布，得到關(guān)于以聚類中心為x軸，場(chǎng)景樣本占比為y的直方圖；一個(gè)場(chǎng)景類型對(duì)應(yīng)有一個(gè)直方圖；

s43、在每個(gè)直方圖中，采用大津二值化法的方法找到代表有效性的閾值μt，通過(guò)代表有效性的閾值μt，即可將每張直方圖內(nèi)的聚類分為兩類；其中來(lái)自目標(biāo)場(chǎng)景類型中占比高于代表有效性閾值μt的聚類為具有代表性的聚類，否則不具有代表性；

s44、由步驟s43得出的具有代表性的聚類進(jìn)行合并生成字典，具體即：對(duì)每個(gè)具有代表性的聚類的維度4096進(jìn)行二值化處理，保留k個(gè)最大值為1，其余為0；從到大到小與余下聚類的聚類中心進(jìn)行比較，為1的位置沒(méi)有重復(fù)，則進(jìn)行合并，直到比對(duì)完所有聚類的聚類中心；已進(jìn)行合并的聚類中心不再進(jìn)行任何后續(xù)處理；已合并的聚類組按合并聚類中心個(gè)數(shù)進(jìn)行排列，同個(gè)數(shù)情況按聚類組中聚類中心代表有效性大小排列；最后排序取出前x個(gè)作為各聚類的字典數(shù)。

在本發(fā)明一實(shí)施例中，所述步驟s43中，采用大津二值化法的方法找到代表有效性的閾值μt的具體方式如下：

定義具有代表性和不具有代表性聚類的兩個(gè)類的方差的加權(quán)和：其中，ωi是權(quán)重是被閾值μt分開的兩個(gè)類的概率，而是這兩個(gè)類內(nèi)部各自的方差；通過(guò)窮舉搜索使類內(nèi)方差最小的閾值，則最后可得代表有效性的閾值為：μt＝ω1μ1+ω2μ2。

在本發(fā)明一實(shí)施例中，所述步驟s5中，

場(chǎng)景圖像的字典空間表達(dá)結(jié)果矩陣為：

k＝h×m^t

其中，h為場(chǎng)景圖像的表達(dá)矩陣，其具有g(shù)行，4096列，g即場(chǎng)景圖像經(jīng)似物檢測(cè)中的選擇性搜索方式產(chǎn)生的g個(gè)圖像塊；m為字典的矩陣形式，其具有x×y行，4096列，x即每一個(gè)場(chǎng)景類型的字典數(shù)，y為場(chǎng)景類型數(shù)；k具有g(shù)行，x×y列；

對(duì)場(chǎng)景圖像的字典空間表達(dá)結(jié)果矩陣進(jìn)行順序最大池化處理的結(jié)果，則可得最后的表達(dá)維度為：x×y×(n+1)，其中，n即對(duì)g個(gè)圖像塊的分組數(shù)，每組均進(jìn)行最大池化處理。

相較于現(xiàn)有技術(shù)，本發(fā)明具有以下有益效果：

1、現(xiàn)有圖像分割采用滑動(dòng)窗口進(jìn)行分割；分割過(guò)程死板，圖像塊語(yǔ)義不明確；而本發(fā)明采用似物檢測(cè)產(chǎn)生圖像塊；圖像塊語(yǔ)義信息較為明確，便于后續(xù)處理；每幅圖的圖像塊個(gè)數(shù)靈活好調(diào)整，適應(yīng)性廣泛；同時(shí)可適用其它圖像分類領(lǐng)域；

2、現(xiàn)有k-means聚類算法直接生成字典；而本發(fā)明采用代表性和區(qū)別性的要求，對(duì)k-means聚類中心進(jìn)行了篩選和合并的處理后才生成字典；在本字典詞的空間中各類場(chǎng)景表達(dá)線性度更高；

3、現(xiàn)沒(méi)有針對(duì)似物檢測(cè)的池化算法；而本發(fā)明提出針對(duì)似物檢測(cè)的池化算法，有效的加強(qiáng)了圖像表達(dá)與具體存在物體之間的關(guān)系，提升了分類準(zhǔn)確率。

附圖說(shuō)明

圖1為本發(fā)明算法流程圖。

圖2為本發(fā)明聚類效果圖，其中a,b為各自不同聚類中心，c為a,b兩個(gè)聚類中心合并的效果，d為三個(gè)聚類合并的效果。

圖3為本發(fā)明最大順序池化示意圖，假設(shè)這時(shí)總共有16個(gè)似物檢測(cè)塊，則分成4組。

具體實(shí)施方式

下面結(jié)合附圖，對(duì)本發(fā)明的技術(shù)方案進(jìn)行具體說(shuō)明。

本發(fā)明的一種新的場(chǎng)景識(shí)別方法，包括如下步驟，

s1、采用似物檢測(cè)中的選擇性搜索方式對(duì)場(chǎng)景圖像進(jìn)行圖像分割產(chǎn)生圖像塊；

s2、對(duì)各個(gè)圖像塊進(jìn)行深度特征提?。?/p>

s3、采用k-means聚類算法對(duì)步驟s2提取的各個(gè)圖像塊的深度特征進(jìn)行聚類；

s4、對(duì)步驟s3的聚類結(jié)果進(jìn)行篩選并生成字典；

s5、場(chǎng)景圖像的字典空間表達(dá)，并對(duì)字典空間表達(dá)結(jié)果矩陣進(jìn)行順序最大池化處理；

s6、進(jìn)行svm分類，得到結(jié)果。

在本發(fā)明一實(shí)施例中，所述步驟s4的具體實(shí)現(xiàn)過(guò)程如下，

s41、通過(guò)公式來(lái)表示場(chǎng)景樣本的占比，該占比定義為聚類j對(duì)于場(chǎng)景類型i的代表有效性；

采用大津二值化法的方法找到代表有效性的閾值μt的具體方式如下：

定義具有代表性和不具有代表性聚類的兩個(gè)類的方差的加權(quán)和：其中，ωi是權(quán)重是被閾值μt分開的兩個(gè)類的概率，而是這兩個(gè)類內(nèi)部各自的方差；通過(guò)窮舉搜索使類內(nèi)方差最小的閾值，則最后可得代表有效性的閾值為：μt＝ω1μ1+ω2μ2；

所述步驟s5中，

場(chǎng)景圖像的字典空間表達(dá)結(jié)果矩陣為：

k＝h×m^t

以下為本發(fā)明的具體實(shí)現(xiàn)過(guò)程。

目前大部分基于bow的場(chǎng)景分類算法都是對(duì)圖像進(jìn)行滑動(dòng)窗口分割產(chǎn)生圖像塊進(jìn)行處理，從而導(dǎo)致圖像塊部分語(yǔ)義不明確。本發(fā)明采用似物檢測(cè)提取圖像塊避免了這個(gè)問(wèn)題，同時(shí)提出了具有代表性和區(qū)別性的增強(qiáng)型k-means字典，最后提出了一種適應(yīng)似物檢測(cè)的順序池化方式，提高了分類的準(zhǔn)確率。

本算法各組成部分如圖1所示。1)似物檢測(cè)產(chǎn)生圖像塊；2)對(duì)各個(gè)圖像塊進(jìn)行深度特征提??；3)使用k-means聚類算法由各個(gè)圖像塊產(chǎn)生的深度特征進(jìn)行聚類；4)對(duì)k-means聚類結(jié)果進(jìn)行篩選并生成字典；5)場(chǎng)景圖像表達(dá)；6)順序最大值池化；7)svm分類

似物識(shí)別產(chǎn)生圖像塊本文圖像預(yù)處理的過(guò)程不同于在之前類似工作中所采用的中最常見(jiàn)的滑動(dòng)窗口的方式，本文提出了采用似物檢測(cè)中選擇性搜索的方式取代了滑動(dòng)窗口來(lái)產(chǎn)生圖像預(yù)處理中的圖像塊。由選擇性搜索作為一種似物檢測(cè)算法，由其產(chǎn)生的圖像塊因?yàn)樽⒅貙?duì)于具有物體屬性的區(qū)域選取，因此使得由之產(chǎn)生的圖像塊相比于滑動(dòng)窗口在語(yǔ)義信息上的表達(dá)更加明確。除了語(yǔ)義上的增強(qiáng)還有一個(gè)與之而來(lái)的優(yōu)點(diǎn)，選擇性搜索能夠使得每張圖像產(chǎn)生圖像塊的數(shù)量能夠順隨實(shí)際需要而任意指定。如果能夠利用這點(diǎn)將所有圖像都產(chǎn)生相同數(shù)量的圖像塊，那么后續(xù)聚類或者是池化處理的復(fù)雜度就有可能得到一定程度的降低。

實(shí)際上之前的算法為了使用滑動(dòng)窗口的時(shí)候，因?yàn)榻o定的圖像的長(zhǎng)寬比例不一，卻又有著相同的圖像塊分割大小、步進(jìn)，因此每個(gè)圖像可能產(chǎn)生不同數(shù)量的圖像塊。選擇性搜索固定每個(gè)圖像產(chǎn)生的圖像塊。這點(diǎn)不但避免了后續(xù)處理的復(fù)雜性，而且保證了每副圖像對(duì)于k-means聚類時(shí)具有相同的權(quán)重。

k-means聚類將選擇性搜索得到的圖像塊，輸入caffe深度網(wǎng)絡(luò)的vgg-vd模型，該模型在imagenet進(jìn)行了預(yù)訓(xùn)練并在ilsvrc-2014上取得了極好的效果。在緊接著線性修正單元(rectifiedlinearunit，relu)的第六層fc6(全連接層的第一層)獲得非負(fù)4096維度的深度特征，然后將這些特征進(jìn)行了k-means聚類。

選取聚類結(jié)果生成字典我們希望字典視覺(jué)詞能夠同時(shí)滿足兩個(gè)要求，即區(qū)別性和代表性。區(qū)別性能夠準(zhǔn)確的分別不同類別。代表性又希望該詞有足夠的出現(xiàn)頻率。普通的k-means聚類可以直接構(gòu)建字典，但并無(wú)法實(shí)現(xiàn)這兩個(gè)要求，因此要加入這個(gè)步驟構(gòu)建更加有效的視覺(jué)字典。

聚類的結(jié)果中也往往存在對(duì)各個(gè)場(chǎng)景類型的偏向。即某個(gè)聚類結(jié)果中，大多數(shù)樣本的都是來(lái)自同一個(gè)類型中的圖像塊。把這種特定的樣本占比定義為這個(gè)聚類對(duì)于這個(gè)類型場(chǎng)景的代表有效性：其中j是聚類序號(hào)，i是場(chǎng)景類型。

同時(shí)，我們通過(guò)定義同一聚類結(jié)果中滿足一定條件的同一場(chǎng)景的占比要求的樣本量，即滿足一定要求的代表有效性的聚類才可稱之為對(duì)該場(chǎng)景具有帶代表性的聚類。通過(guò)統(tǒng)計(jì)各個(gè)聚類結(jié)果中樣本所來(lái)自某個(gè)特定場(chǎng)景類型占比的分布，得到關(guān)于以聚類中心為x軸，該場(chǎng)景樣本占比為y的直方圖。每個(gè)場(chǎng)景類型各有一個(gè)直方圖。在每個(gè)直方圖中，采用大津二值化法(otsu)[46]的方法找到代表有效性的門限值，定義為兩個(gè)類的方差的加權(quán)和：其中ωi是權(quán)重是被閾值t分開的兩個(gè)類的概率，而是這兩個(gè)類內(nèi)部各自的方差。通過(guò)窮舉搜索能使類內(nèi)方差最小的閾值，則最后閾值為：μt＝ω1μ1+ω2μ2

由此每張直方圖內(nèi)的聚類分為兩類。其中來(lái)自某特定場(chǎng)景占比高于代表有效性門限的聚類為具有代表性的聚類，否則不具有代表性。

在具有代表性的基礎(chǔ)上再考慮聚類的區(qū)別性。具有代表性的聚類中心的也就是可能的字典詞，而這些聚類中心同時(shí)也是4096維的特征。同時(shí)這些特征有著稀疏的特性。往往不同的聚類中心在特征維度上具有很強(qiáng)的互補(bǔ)性。這種關(guān)系可以用圖2來(lái)比擬。

我們希望盡量可能的對(duì)各個(gè)聚類中心進(jìn)行合并生成最后的字典。每個(gè)聚類的維度4096進(jìn)行二值化處理，保留k個(gè)最大值為1，其余為0；從到大到小與余下的聚類中心進(jìn)行比較，為1的位置沒(méi)有重復(fù)，則進(jìn)行合并，直到比對(duì)完所有其余聚類中心；已進(jìn)行合并的聚類中心不再進(jìn)行任何后續(xù)處理。已合并的聚類組按合并聚類中心個(gè)數(shù)進(jìn)行排列，同個(gè)數(shù)情況按聚類組中聚類中心代表有效性大小排列。最后排序取出前x個(gè)作為各類的字典數(shù)。

這個(gè)環(huán)節(jié)中，我們考慮如何根據(jù)上文產(chǎn)生的字典對(duì)由選擇性搜索產(chǎn)生圖像塊的cnn特征進(jìn)行有效的表達(dá)。給定單張場(chǎng)景圖像l，通過(guò)選擇性搜索產(chǎn)生g個(gè)圖像塊并進(jìn)行深度特征提取，我們能夠?qū)⑵浔磉_(dá)為li＝{l1，l2，…，lg}作為矩陣h。此時(shí)h的表達(dá)具有g(shù)行，4096列。通過(guò)k-means聚類生成了t個(gè)聚類空間/詞，并且在聚類選擇環(huán)節(jié)每類選擇了最具有區(qū)別性和代表性的x個(gè)詞。字典最終可以表示為矩陣m的形式，具有x×y行(x是每一場(chǎng)景類型的字典數(shù)，y是數(shù)據(jù)庫(kù)中的場(chǎng)景類型數(shù))和4096列。將原始表達(dá)矩陣h向字典空間m的投射的結(jié)果是最終表達(dá)矩陣k＝h×m^t。此時(shí)，矩陣k具有g(shù)行，x×y列。這邊我們加入了順序最大池化的方式進(jìn)行處理。最后的表達(dá)維度為x×y×(n+1)。見(jiàn)圖3。

以上是本發(fā)明的較佳實(shí)施例，凡依本發(fā)明技術(shù)方案所作的改變，所產(chǎn)生的功能作用未超出本發(fā)明技術(shù)方案的范圍時(shí)，均屬于本發(fā)明的保護(hù)范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃立勤;余良琨
技術(shù)所有人：福州大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

場(chǎng)景識(shí)別相關(guān)技術(shù)

人臉識(shí)別應(yīng)用場(chǎng)景相關(guān)技術(shù)

自然場(chǎng)景文字識(shí)別相關(guān)技術(shù)

場(chǎng)景識(shí)別算法相關(guān)技術(shù)

場(chǎng)景文字識(shí)別相關(guān)技術(shù)

語(yǔ)音識(shí)別應(yīng)用場(chǎng)景相關(guān)技術(shù)

人臉識(shí)別的應(yīng)用場(chǎng)景相關(guān)技術(shù)

人臉識(shí)別場(chǎng)景相關(guān)技術(shù)

圖像識(shí)別應(yīng)用場(chǎng)景相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種新的場(chǎng)景識(shí)別方法與流程