一種場景圖像識別方法和場景圖像識別設(shè)備的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及圖像處理技術(shù)領(lǐng)域,具體而言涉及一種場景圖像識別方法及其設(shè)備。
【背景技術(shù)】
[0002]場景識另Ij(scene recognit1n)是廣義上的圖像識別(image recognit1n)問題中的一個(gè)特定的子問題,其目標(biāo)即為給定一張圖像或照片,由計(jì)算機(jī)自動判斷該圖像或照片是屬于何種具體的場景(包括但不限于室外場景如海灘、森林、城市等,室內(nèi)場景如客廳、臥室、健身房等,以及事件場景如足球比賽、游行、演唱會等)。如今,場景識別技術(shù)在視頻監(jiān)控、社交網(wǎng)絡(luò)用戶行為挖掘等方面發(fā)揮著非常重要的作用,也因此受到了廣泛的關(guān)注和研宄。
[0003]在當(dāng)前學(xué)界及業(yè)界中現(xiàn)有的場景識別方法幾乎都是直接移植了廣義圖像識別方法,其主要可歸為兩個(gè)步驟:第一步,提取圖像的外表特征(appearance feature),如顏色直方圖、HOG (histogram of gradient,梯度直方圖)、SIFT (scale-1nvariant featuretransform,尺度不變特征變換)、深度神經(jīng)網(wǎng)絡(luò)的特征層等;第二步,是利用大量的訓(xùn)練圖像數(shù)據(jù),在第一步提取的圖像外表特征上訓(xùn)練分類器,如SVM(support vector machine,支持向量機(jī))、DF(decis1n forest,決策森林)、神經(jīng)網(wǎng)絡(luò)等,根據(jù)圖像的外表特征對圖像所屬的場景進(jìn)行分類預(yù)測。
[0004]然而,場景圖像與廣義圖像對比有著一項(xiàng)很特殊的性質(zhì):空間布局(spatiallayout) ο如圖1所示,在場景為“海灘”的圖像中,具有天空、建筑、海、沙灘等空間布局信息;而在場景為“航帆”的圖像中,具有帆、天空,船和海等空間布局信息。場景通??煞诸悶榈幌抻?,室內(nèi)、室外、操場、建筑物、城里、鄉(xiāng)下、高速公路、沙灘、森林。對場景進(jìn)行分類并不關(guān)心圖像中具體有什么物體,而是關(guān)注圖片在什么場景下被拍攝的。
[0005]空間布局信息對于描述場景圖像有非常積極的意義:同一類別的場景往往具有相似的空間布局,而不同類別的場景的空間布局往往有較大差異,而妥善利用這些空間布局信息將會使場景識別更加精確。但在現(xiàn)有的場景識別方法中,無論是提取圖像特征還是訓(xùn)練分類器,俱沒有考慮到不同類別的場景圖像的空間布局信息并加以利用,因此現(xiàn)有方法無法提供最優(yōu)的場景識別性能。
[0006]由此可見,現(xiàn)有技術(shù)中的上述場景圖像識別方法由于沒有考慮到空間布局信息,導(dǎo)致場景圖像識別不夠精確,沒有達(dá)到最優(yōu)的場景識別性能。因此,為解決上述技術(shù)問題,有必要提出一種新的場景圖像識別方法及其設(shè)備。
【發(fā)明內(nèi)容】
[0007]針對現(xiàn)有技術(shù)的不足,本發(fā)明提出一種場景圖像識別方法和場景圖像識別設(shè)備,可以顯著提高場景識別的精確度和性能。
[0008]本發(fā)明的一個(gè)實(shí)施例提供一種場景圖像識別方法,所述方法包括:步驟SlOl:提取圖像的特征,以形成特征圖;步驟S102:利用多個(gè)隨機(jī)模板將所述特征圖切分成多個(gè)獨(dú)立的通道;以及步驟S103:將所述多個(gè)獨(dú)立的通道進(jìn)行池化,以形成新的特征圖。
[0009]示例性地,所述多個(gè)隨機(jī)模板是預(yù)先定義的。
[0010]示例性地,該方法還包括步驟S104:將所述新的特征圖通過全連接層以進(jìn)行分類。
[0011]示例性地,所述全連接層中的每個(gè)節(jié)點(diǎn)是基于所述新的特征圖中的所有特征值的,或者是基于所述新的特征圖中的某部分的特征值的。
[0012]示例性地,該方法還包括步驟S105:將分類結(jié)果通過最優(yōu)勝出策略做出判斷。
[0013]本發(fā)明的另一實(shí)施例提供一種場景圖像識別設(shè)備,所述設(shè)備包括:特征提取模塊,用于提取圖像的特征,以形成特征圖;隨機(jī)空間切分模塊,用于利用多個(gè)隨機(jī)模板將所述圖像切分成多個(gè)獨(dú)立的通道;以及空間池化模塊,用于將所述多個(gè)獨(dú)立的通道進(jìn)行池化,以形成新的特征圖。
[0014]示例性地,所述多個(gè)隨機(jī)模板是預(yù)先定義的。
[0015]示例性地,該場景圖像識別設(shè)備還包括全連接分類模塊,用于將所述新的特征圖通過全連接層以進(jìn)行分類。
[0016]示例性地,所述全連接層中的每個(gè)節(jié)點(diǎn)是基于所述新的特征圖中的所有特征值的,或者是基于所述新的特征圖中的某部分的特征值的。
[0017]示例性地,該場景圖像識別設(shè)備還包括最優(yōu)勝出策略模塊,用于將分類結(jié)果通過最優(yōu)勝出策略做出判斷。
[0018]本發(fā)明的場景圖像識別方法,由于充分利用了空間布局信息,因而可以保證更高的場景識別精確度和最優(yōu)的場景識別性能。本發(fā)明的場景圖像識別設(shè)備,同樣具有上述優(yōu)點(diǎn)。
【附圖說明】
[0019]本發(fā)明的下列附圖在此作為本發(fā)明的一部分用于理解本發(fā)明。附圖中示出了本發(fā)明的實(shí)施例及其描述,用來解釋本發(fā)明的原理。
[0020]附圖中:
[0021]圖1為場景分類中的空間布局信息的示圖;
[0022]圖2為本發(fā)明實(shí)施例的場景圖像識別方法的流程圖;
[0023]圖3為本發(fā)明實(shí)施例的場景圖像識別方法的示意圖;
[0024]圖4為本發(fā)明實(shí)施例的全連接層的示意圖;
[0025]圖5為本發(fā)明實(shí)施例的局部全連接層的示意圖;以及
[0026]圖6為本發(fā)明實(shí)施例的最優(yōu)勝出策略的示意圖。
【具體實(shí)施方式】
[0027]在下文的描述中,給出了大量具體的細(xì)節(jié)以便提供對本發(fā)明更為徹底的理解。然而,對于本領(lǐng)域技術(shù)人員而言顯而易見的是,本發(fā)明可以無需一個(gè)或多個(gè)這些細(xì)節(jié)而得以實(shí)施。在其他的例子中,為了避免與本發(fā)明發(fā)生混淆,對于本領(lǐng)域公知的一些技術(shù)特征未進(jìn)行描述。
[0028]應(yīng)當(dāng)理解的是,本發(fā)明能夠以不同形式實(shí)施,而不應(yīng)當(dāng)解釋為局限于這里提出的實(shí)施例。相反地,提供這些實(shí)施例將使公開徹底和完全,并且將本發(fā)明的范圍完全地傳遞給本領(lǐng)域技術(shù)人員。在附圖中,為了清楚,層和區(qū)的尺寸以及相對尺寸可能被夸大。自始至終相同附圖標(biāo)記表示相同的元件。
[0029]在此使用的術(shù)語的目的僅在于描述具體實(shí)施例并且不作為本發(fā)明的限制。在此使用時(shí),單數(shù)形式的“一”、“一個(gè)”和“所述/該”也意圖包括復(fù)數(shù)形式,除非上下文清楚指出另外的方式。還應(yīng)明白術(shù)語“組成”和/或“包括”,當(dāng)在該說明書中使用時(shí),確定所述特征、整數(shù)、步驟、操作、元件和/或部件的存在,但不排除一個(gè)或更多其它的特征、整數(shù)、步驟、操作、元件、部件和/或組的存在或添加。在此使用時(shí),術(shù)語“和/或”包括相關(guān)所列項(xiàng)目的任何及所有組合。
[0030]為了徹底理解本發(fā)明,將在下列的描述中提出詳細(xì)的步驟以及詳細(xì)的結(jié)構(gòu),以便闡釋本發(fā)明的技術(shù)方案。本發(fā)明的較佳實(shí)施例詳細(xì)描述如下,然而除了這些詳細(xì)描述外,本發(fā)明還可以具有其他實(shí)施方式。
[0031]本發(fā)明的一個(gè)實(shí)施例提供一種場景圖像識別方法,用于通過利用空間布局信息來對場景進(jìn)行分類。該方法可以顯著提高場景識別的精確度以及場景識別性能。
[0032]下面,參照圖2和圖3來具體描述本發(fā)明的一個(gè)實(shí)施例的一種場景圖像識別方法。其中,圖2為本發(fā)明實(shí)施例的場景圖像識別方法的流程圖。圖3為本發(fā)明實(shí)施例的場景圖像識別方法的示意圖;
[0033]本發(fā)明實(shí)施例的場景圖像識別方法,包括如下步驟:
[0034]步驟SlOl:提取圖像的特征,以形成特征圖。示例性地,本步驟包括:輸入原始圖像,提取原始圖像的外表特征,如顏色直方圖、HOG、SIFT、深度神經(jīng)網(wǎng)絡(luò)的卷積層等,并在維持原始圖像的二維空間布局的條件下,將提取出的外表特征以一組特征圖的形式表達(dá)。
[0035]步驟S102:利用多個(gè)隨機(jī)模板將所述特征圖切分成多個(gè)獨(dú)立的通道。示例性地,本步驟包括:將步驟SlOl中生成的特征圖,按照多個(gè)隨機(jī)切分模板獨(dú)立地切分成若干子圖。每個(gè)隨機(jī)切分模板將獨(dú)立地產(chǎn)生等數(shù)量的、但形狀大小不一的子圖。隨機(jī)切分模板例如但不限于,將特征圖進(jìn)行非等分,或?qū)⑻卣鲌D旋轉(zhuǎn)某個(gè)角度然后再進(jìn)行非等分。除特別聲明外,每個(gè)隨機(jī)切分模板所產(chǎn)生的數(shù)據(jù)(包括此步驟中產(chǎn)生的子圖及以后步驟中衍變出的內(nèi)容)相互獨(dú)立并不會交叉影響,故稱之為一個(gè)通道。其中,通過多次的隨機(jī)空間切分的方式捕獲多通道的、相互獨(dú)立地圖像空間布局信息。
[0036]示例性地,該多個(gè)隨機(jī)切分模板是預(yù)先定義好的。
[0037]步驟S103:將所述多個(gè)獨(dú)立的通道進(jìn)行空間池化(spatial pooling),以形成新的特征圖。示例性地,本步驟包括:對于每個(gè)通道中的子圖,進(jìn)一步地將其切分為等形狀大小的網(wǎng)格,接著對每個(gè)網(wǎng)格進(jìn)行空間池化。通過此種方式,每個(gè)通道將會產(chǎn)生一組新的特征圖。在此步驟中的池化策略包括但不限于平均池化(average pooling)、最大值池化(maxpooling)等等。
[0038]步驟S104:將所述新的特征圖通過全連接層(fully-connected layer)以進(jìn)行分類。示例性地,本步驟包括:將每個(gè)通道產(chǎn)生的新的特征圖,通過一層或多層全連接層,做出對于每一類場景類的置信度預(yù)測。例如在某系統(tǒng)中一共有N個(gè)場景類別,則在此步驟后每一個(gè)通道將獨(dú)立地生成一個(gè)N維的置信度向量,其中的每一維代表對當(dāng)前圖片屬于對應(yīng)類別的置信度。在本步驟中,全連接層指神經(jīng)網(wǎng)絡(luò)模型的全連接層;將新的特征圖生成置信度向量的過程即為分類過程。
[0039]步驟S105:將分類結(jié)果通過最優(yōu)勝出策略(max-out strategy)做出判斷。示例性地,對不同通道生成的置信度向量,將其逐維取最大值,通過此方式將其合并為一個(gè)唯一的置信度向量。
[0040]步驟S106,對最終生成的置信度向量做歸一化后,得到最后的場景識別結(jié)果。
[0041]參照圖3,該圖示出了根據(jù)本發(fā)明的方法流程的具體實(shí)施例,詳細(xì)地表述