了在步驟SlOl獲得了特征圖后,通過(guò)步驟S102、S103將單通道的特征圖變?yōu)槎嗤ǖ赖?、且?jīng)過(guò)了隨機(jī)空間池化的新特征圖的過(guò)程。由此圖可以看出,經(jīng)過(guò)步驟S102、S103后,多通道的新特征圖捕獲且攜帶了多種空間布局信息,從而使得后面的步驟可以利用這些多樣的空間布局信息做出更準(zhǔn)確的場(chǎng)景識(shí)別分類(lèi)。通過(guò)空間池化的方式,將圖像空間布局信息嵌入而形成新的特征圖,最終接入神經(jīng)網(wǎng)絡(luò)的全連接層做分類(lèi)識(shí)別。
[0042]下面,將通過(guò)圖4和圖5詳細(xì)描述步驟S104中的全連接分類(lèi)方法。其中,圖4為本發(fā)明實(shí)施例的全連接層的示意圖,圖5為本發(fā)明實(shí)施例的局部全連接層的示意圖。
[0043]示例性地,參照?qǐng)D4,該圖示出了根據(jù)本發(fā)明中全連接層(對(duì)應(yīng)步驟S104)的一種實(shí)施例。在該實(shí)施例中,全連接層中的每一個(gè)節(jié)點(diǎn)(圖中灰色節(jié)點(diǎn))的值,是經(jīng)過(guò)新的特征圖中的所有特征值的加權(quán)線性組合和非線性變換得到的。
[0044]示例性地,圖5所示的實(shí)施例為圖4所示實(shí)施例的一個(gè)變種。在該實(shí)施例中,全連接層的每一個(gè)節(jié)點(diǎn)的值,僅僅是經(jīng)過(guò)某一個(gè)特征子圖(由步驟S102、S103產(chǎn)生的)中的所有特征值的加權(quán)線性組合和非線性變換得到的。這意味著,全連接層中的某一個(gè)節(jié)點(diǎn),其描述對(duì)象并不是完整的原始圖像,而是對(duì)應(yīng)著原始圖像的某一部分。通過(guò)這樣的方法,全連接層的節(jié)點(diǎn)能克服噪音的影響,更加專(zhuān)注地描述圖像的局部特征,從而獲得更好的識(shí)別效果。此種實(shí)施例稱(chēng)之為局部全連接層。可結(jié)合生成的特征子圖,使用局部全連接層做分類(lèi)識(shí)別,從而獲得更優(yōu)的場(chǎng)景識(shí)別效果。
[0045]下面,將參照?qǐng)D6詳細(xì)描述最優(yōu)勝出策略。圖6為本發(fā)明實(shí)施例的最優(yōu)勝出策略的示意圖。
[0046]參照?qǐng)D6,該圖示出了根據(jù)本發(fā)明中最優(yōu)勝出策略(對(duì)應(yīng)步驟S105)和歸一化(對(duì)應(yīng)步驟S106)的示范例。在該示范例中,一共有A、B、C、D四類(lèi)場(chǎng)景和3個(gè)通道:在步驟S105中,按照?qǐng)鼍邦?lèi)別的維度,對(duì)所有通道的置信度取最大值。通過(guò)這種策略,對(duì)于某一個(gè)場(chǎng)景類(lèi)最優(yōu)的通道(攜帶著某種特定空間布局信息)被取出,而不同場(chǎng)景類(lèi)別可以選擇不同的通道。在步驟106中,置信度被歸一化,成為該圖像屬于各類(lèi)場(chǎng)景的概率。多通道產(chǎn)生的分類(lèi)識(shí)別置信度通過(guò)逐維的最優(yōu)勝出策略,為每個(gè)場(chǎng)景類(lèi)挑選出最優(yōu)的通道(即與此場(chǎng)景類(lèi)最匹配的空間布局特征),整合成最終的識(shí)別結(jié)果。
[0047]本發(fā)明的又一實(shí)施例提供了一種場(chǎng)景圖像識(shí)別設(shè)備,包括特征提取模塊,用于提取圖像的特征;隨機(jī)空間切分模塊,用于利用多個(gè)隨機(jī)模板將所述圖像切分成多個(gè)獨(dú)立的通道;以及空間池化模塊,用于將所述多個(gè)獨(dú)立的通道進(jìn)行池化,以形成新的特征圖。
[0048]示例性地,所述多個(gè)隨機(jī)模板是預(yù)先定義的。
[0049]示例性地,該場(chǎng)景圖像識(shí)別設(shè)備還包括全連接分類(lèi)模塊,用于將所述新的特征圖通過(guò)全連接層以進(jìn)行分類(lèi)。
[0050]其中,全連接層中的每個(gè)節(jié)點(diǎn)是基于所述新的特征圖中的所有特征值的,或者是基于所述新的特征圖中的某部分的特征值的。
[0051]示例性地,該場(chǎng)景圖像識(shí)別設(shè)備還包括最優(yōu)勝出策略模塊,用于將分類(lèi)結(jié)果通過(guò)最優(yōu)勝出策略做出判斷。本發(fā)明實(shí)施例的場(chǎng)景圖像識(shí)別設(shè)備,由于充分利用了空間布局信息,因而同樣具有高精確性、高場(chǎng)景識(shí)別性能的優(yōu)點(diǎn)。
[0052]本發(fā)明實(shí)施例的各個(gè)模塊可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(DSP)來(lái)實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的場(chǎng)景圖像識(shí)別設(shè)備中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在存儲(chǔ)載體上提供,或者以任何其他形式提供。
[0053]下面,將詳細(xì)描述本場(chǎng)景圖像識(shí)別方法和設(shè)備的試驗(yàn)布置及試驗(yàn)結(jié)果。
[0054]在測(cè)試中,選取了15-場(chǎng)景(15-Scene)和 67-MIT-室內(nèi)(67-MIT-1ndoor)兩個(gè)被世界范圍內(nèi)的研宄者廣泛使用的場(chǎng)景識(shí)別評(píng)測(cè)集。在15-場(chǎng)景中,每個(gè)類(lèi)別具有200至400個(gè)圖像,并且平均圖像大小為300X250像素。數(shù)據(jù)集中的圖片的主要來(lái)源是COREL收集、個(gè)人圖片,以及谷歌圖像搜索。試驗(yàn)中,利用每個(gè)類(lèi)別100個(gè)圖像用作訓(xùn)練,而剩余的用作測(cè)試。在67-MIT-室內(nèi)中,該數(shù)據(jù)庫(kù)包括67個(gè)室內(nèi)類(lèi)別,以及總共15620個(gè)圖像。每個(gè)類(lèi)別中的圖像的數(shù)量可能是不同的,但是每個(gè)類(lèi)別中至少具有100個(gè)圖像。所有圖片都是JPG格式的。
[0055]即使當(dāng)彩色圖像可用時(shí),也采用灰度圖像來(lái)執(zhí)行處理。所有試驗(yàn)均用不同的隨機(jī)選擇的訓(xùn)練和測(cè)試圖像重復(fù)執(zhí)行了十次,并且針對(duì)每次運(yùn)行,記錄了針對(duì)每個(gè)類(lèi)別的識(shí)別率。最終結(jié)果以單個(gè)運(yùn)行結(jié)果的均值和標(biāo)準(zhǔn)方差來(lái)報(bào)告。多類(lèi)別分類(lèi)是用支持向量機(jī)來(lái)完成的,利用如下一對(duì)多的規(guī)則來(lái)訓(xùn)練支持向量機(jī):分類(lèi)器被學(xué)習(xí)以將每個(gè)類(lèi)別從剩余類(lèi)別中區(qū)別開(kāi)來(lái),并且測(cè)試圖像被指派以具有最高相應(yīng)的分類(lèi)器的標(biāo)簽。
[0056]本發(fā)明的算法在兩個(gè)評(píng)測(cè)集中均獲得了優(yōu)異的成績(jī),其中15-Scene的準(zhǔn)確率從傳統(tǒng)方法的81.4%提升到89.4%,而67-MIT-1ndoor的準(zhǔn)確率從傳統(tǒng)方法的51.4%提升至62%。
[0057]貫穿上述實(shí)施例,為了解決現(xiàn)有場(chǎng)景識(shí)別方法的缺陷,本發(fā)明提供了一種基于隨機(jī)局部池化的場(chǎng)景圖像識(shí)別方法,包括特征圖生成、隨機(jī)空間切分、空間池化、最優(yōu)勝出策略等步驟,旨在充分利用場(chǎng)景圖像的空間布局信息,從而提高場(chǎng)景識(shí)別的精確度。其中在特征圖生成的步驟中,輸入的原始圖像經(jīng)過(guò)預(yù)處理和提取特征等步驟后,輸出若干具有更強(qiáng)分辨能力的特征圖;在隨機(jī)空間切分的步驟中,特征圖被按照多個(gè)隨機(jī)模板切分,形成多通道的大小形狀不一的子圖;在空間池化的步驟中,每個(gè)子圖被進(jìn)一步切分成同等數(shù)量的網(wǎng)格,每個(gè)網(wǎng)格中分別進(jìn)行池化,形成多通道的新特征圖;在最優(yōu)勝出策略的步驟中,多通道的新的特征圖分別經(jīng)過(guò)全連接層后,對(duì)圖像所屬的場(chǎng)景做出分類(lèi)置信度,而后對(duì)獲得的分類(lèi)置信度按通道取最大值,經(jīng)過(guò)歸一化后,得到最終的分類(lèi)預(yù)測(cè)結(jié)果。
[0058]本發(fā)明的基于隨機(jī)空間池化的場(chǎng)景圖像識(shí)別方法提供了一套更精準(zhǔn)且高效的場(chǎng)景圖像識(shí)別的解決方案。由于隨機(jī)空間切分和空間池化步驟的應(yīng)用,圖像被切分成包含多種空間布局的通道,從而該方法能夠盡可能地捕獲變化的圖像空間布局信息,并且將此信息嵌入在了神經(jīng)網(wǎng)絡(luò)的模型中;同時(shí),通過(guò)最優(yōu)勝出策略,在多種通道中最能表述當(dāng)前圖像的空間布局信息的若干通道(產(chǎn)生最大置信度的通道)被挑選了出來(lái),當(dāng)前圖像的空間布局信息被充分地利用來(lái)幫助識(shí)別該圖像的場(chǎng)景。
[0059]本發(fā)明已經(jīng)通過(guò)上述實(shí)施例進(jìn)行了說(shuō)明,但應(yīng)當(dāng)理解的是,上述實(shí)施例只是用于舉例和說(shuō)明的目的,而非意在將本發(fā)明限制于所描述的實(shí)施例范圍內(nèi)。此外本領(lǐng)域技術(shù)人員可以理解的是,本發(fā)明并不局限于上述實(shí)施例,根據(jù)本發(fā)明的教導(dǎo)還可以做出更多種的變型和修改,這些變型和修改均落在本發(fā)明所要求保護(hù)的范圍以?xún)?nèi)。本發(fā)明的保護(hù)范圍由附屬的權(quán)利要求書(shū)及其等效范圍所界定。
【主權(quán)項(xiàng)】
1.一種場(chǎng)景圖像識(shí)別方法,其特征在于,所述方法包括: 步驟SlOl:提取圖像的特征,以形成特征圖; 步驟S102:利用多個(gè)隨機(jī)模板將所述特征圖切分成多個(gè)獨(dú)立的通道;以及 步驟S103:將所述多個(gè)獨(dú)立的通道進(jìn)行池化,以形成新的特征圖。2.如權(quán)利要求1所述的場(chǎng)景圖像識(shí)別方法,其特征在于,所述多個(gè)隨機(jī)模板是預(yù)先定義的。3.如權(quán)利要求1或2所述的場(chǎng)景圖像識(shí)別方法,其特征在于,在所述步驟S103之后還包括步驟S104:將所述新的特征圖通過(guò)全連接層以進(jìn)行分類(lèi)。4.如權(quán)利要求3所述的場(chǎng)景圖像識(shí)別方法,其特征在于,所述全連接層中的每個(gè)節(jié)點(diǎn)是基于所述新的特征圖中的所有特征值的,或者是基于所述新的特征圖中的某部分的特征值的。5.如權(quán)利要求3所述的場(chǎng)景圖像識(shí)別方法,其特征在于,在所述步驟S104之后還包括步驟S105:將分類(lèi)結(jié)果通過(guò)最優(yōu)勝出策略做出判斷。6.一種場(chǎng)景圖像識(shí)別設(shè)備,其特征在于,所述設(shè)備包括: 特征提取模塊,用于提取圖像的特征,以形成特征圖; 隨機(jī)空間切分模塊,用于利用多個(gè)隨機(jī)模板將所述圖像切分成多個(gè)獨(dú)立的通道;以及 空間池化模塊,用于將所述多個(gè)獨(dú)立的通道進(jìn)行池化,以形成新的特征圖。7.如權(quán)利要求6所述的場(chǎng)景圖像識(shí)別設(shè)備,其特征在于,所述多個(gè)隨機(jī)模板是預(yù)先定義的。8.如權(quán)利要求6或7所述的場(chǎng)景圖像識(shí)別設(shè)備,其特征在于,還包括全連接分類(lèi)模塊,用于將所述新的特征圖通過(guò)全連接層以進(jìn)行分類(lèi)。9.如權(quán)利要求8所述的場(chǎng)景圖像識(shí)別設(shè)備,其特征在于,所述全連接層中的每個(gè)節(jié)點(diǎn)是基于所述新的特征圖中的所有特征值的,或者是基于所述新的特征圖中的某部分的特征值的。10.如權(quán)利要求8所述的場(chǎng)景圖像識(shí)別設(shè)備,其特征在于,還包括最優(yōu)勝出策略模塊,用于將分類(lèi)結(jié)果通過(guò)最優(yōu)勝出策略做出判斷。
【專(zhuān)利摘要】本發(fā)明提供了一種場(chǎng)景圖像識(shí)別方法及其設(shè)備,涉及圖像處理技術(shù)領(lǐng)域。該方法包括:步驟S101:提取圖像的特征,以形成特征圖;步驟S102:利用多個(gè)隨機(jī)模板將所述特征圖切分成多個(gè)獨(dú)立的通道;以及步驟S103:將所述多個(gè)獨(dú)立的通道進(jìn)行池化,以形成新的特征圖。該方法可以更加精確地識(shí)別場(chǎng)景,以提供最優(yōu)的場(chǎng)景識(shí)別性能。該場(chǎng)景圖像識(shí)別設(shè)備同樣具有上述優(yōu)點(diǎn)。
【IPC分類(lèi)】G06K9/00
【公開(kāi)號(hào)】CN104933420
【申請(qǐng)?zhí)枴緾N201510389185
【發(fā)明人】姜宇寧, 李百恩
【申請(qǐng)人】北京曠視科技有限公司, 北京小孔科技有限公司
【公開(kāi)日】2015年9月23日
【申請(qǐng)日】2015年7月3日