專利名稱:一種基于多層次內(nèi)容描述的圖像分類方法
技術(shù)領(lǐng)域:
本發(fā)明涉及圖像的模式分類領(lǐng)域,具體涉及一種基于多層次內(nèi)容描述的圖像分類 方法。
背景技術(shù):
隨著數(shù)字照相機(jī)等電子設(shè)備的普及、圖像編碼技術(shù)的進(jìn)步,視覺內(nèi)容每天以數(shù)以 百萬件計(jì)的速度被創(chuàng)造出來。隨著互聯(lián)網(wǎng)的發(fā)展、計(jì)算機(jī)數(shù)據(jù)處理能力的提高,網(wǎng)絡(luò)上的各 類資源也隨之日益豐富。人們面臨的問題不再是缺少多媒體內(nèi)容,而是如何在大量的多媒 體資源中找到自己所需要的信息。在缺乏文本標(biāo)注的情況下,基于內(nèi)容的圖像分類能夠?yàn)?圖像內(nèi)容提供語義線索,可以促進(jìn)高效的圖像檢索和處理,具有十分重要的研究應(yīng)用價(jià)值。作為分類器模型的基礎(chǔ),圖像內(nèi)容描述方法直接影響圖像分類效果??偟膩碚f,圖 像內(nèi)容分為全局信息和局部信息兩種。例如,1998年1月IEEE International Workshop onContent-Based Access of Image and Video Database 中,M. Szummer 禾口 R. W. Picard 的 文章“Indoor-outdoor image classification”采用了圖像全局特征顏色直方圖來區(qū)別 “室內(nèi)”和“室外”兩種不同類別的圖像;2007年7月IEEE Conference on Computer Vision and PatternRecognition 中,D. G6kalp禾口 S. Aksoy 的文章"Scene classification using bag-of-regionsr印resentation”采用了圖像分塊區(qū)域特征來進(jìn)行場景分類。圖像的全局 信息和局部信息都為圖像分類提供了有價(jià)值的線索?,F(xiàn)有方法中,基于區(qū)域提取圖像局部 信息的方法依賴于單一層次圖像分割。通過單一層次圖像分割,圖像被分割成多個(gè)互不重 疊的子區(qū)域。然而,圖像包含了從整體到局部多層次的內(nèi)容,基于單一層次圖像分割區(qū)域難 以描述圖像多層次的內(nèi)容。此外,由于統(tǒng)一的分割終止條件難以適應(yīng)不同的待分割圖像,常 常出現(xiàn)過分割和欠分割的情況,而過分割和欠分割都會降低基于單一層次圖像分割區(qū)域方 法的圖像內(nèi)容描述能力。如何有效的描述圖像多層次的內(nèi)容成為基于內(nèi)容的圖像分類方法的一個(gè)難題。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是提供一種圖像分類方法,該方法基于圖像多層次內(nèi)容 進(jìn)行圖像分類,能夠提高圖像分類準(zhǔn)確率。為了解決上述技術(shù)問題,本發(fā)明提供一種圖像分類方法,包括以下步驟—種基于多層次內(nèi)容描述的圖像分類方法,包括以下步驟1)給定訓(xùn)練圖像集,通過多層次圖像分割得到每幅圖像區(qū)域?qū)哟谓Y(jié)構(gòu)樹,提取圖 像區(qū)域?qū)哟谓Y(jié)構(gòu)樹中每個(gè)節(jié)點(diǎn)區(qū)域的底層特征;2)通過訓(xùn)練圖像集區(qū)域的底層特征集合構(gòu)建視覺詞匯表,根據(jù)視覺詞匯表將圖像 區(qū)域?qū)哟谓Y(jié)構(gòu)樹映射到中層圖像特征,得到訓(xùn)練圖像的多層次內(nèi)容描述;3)基于訓(xùn)練圖像集的多層次內(nèi)容描述建立圖像分類模型,根據(jù)圖像分類模型實(shí)現(xiàn) 待分類圖像分類。
所述步驟1)采用迭代的聚類方法進(jìn)行多層次圖像分割,具體為首先,根據(jù)整幅圖像像素的顏色和位置信息用聚類的方法將其分割成兩個(gè)子區(qū) 域;然后,進(jìn)一步將得到的子區(qū)域用相同的方式分割;如此迭代,直到分割終止條件滿足。所述分割終止條件為當(dāng)分割區(qū)域面積小于設(shè)定閾值時(shí),該區(qū)域不足以表達(dá)一個(gè) 完整的語義單位,分割終止,所述設(shè)定閾值為圖像總面積的二十分之一。所述步驟1)采用區(qū)域的顏色、紋理和形狀特征作為節(jié)點(diǎn)區(qū)域的底層特征。所述步驟2)采用隨機(jī)采樣策略構(gòu)建視覺詞匯表,從訓(xùn)練集區(qū)域特征集合中隨機(jī) 選擇一定數(shù)量的特征作為視覺詞匯,所述視覺詞匯表完成構(gòu)建后保持不變。所述步驟2)根據(jù)圖像區(qū)域底層特征與所述視覺詞匯表中的詞匯間的相似性將圖 像區(qū)域?qū)哟谓Y(jié)構(gòu)樹映射到中層圖像特征。所述步驟3)采用一對多的方式建立圖像分類模型,即對于每一個(gè)圖像類別,都采 用該類別的圖像作為正樣本,其余圖像類別的圖像作為負(fù)樣本,訓(xùn)練一個(gè)分類器,所述圖像 分類模型由不同類別的分類器共同構(gòu)成。所述步驟3)對于每一幅待分類圖像,首先通過多層次圖像分割得到每幅圖像區(qū) 域?qū)哟谓Y(jié)構(gòu)樹,提取圖像區(qū)域?qū)哟谓Y(jié)構(gòu)樹中每個(gè)節(jié)點(diǎn)區(qū)域的底層特征;然后根據(jù)視覺詞匯 表將圖像區(qū)域?qū)哟谓Y(jié)構(gòu)樹映射到中層圖像特征,得到待分類圖像的多層次內(nèi)容描述;最后 根據(jù)圖像分類模型分別計(jì)算該圖像屬于各個(gè)類別的概率,并采用預(yù)測概率最大值對應(yīng)的圖 像類別作為該圖像的類別。本發(fā)明的效果在于與現(xiàn)有方法相比,本發(fā)明能夠取得更高的圖像分類準(zhǔn)確率,從 而有效地促進(jìn)了基于內(nèi)容的圖像檢索和處理。本發(fā)明之所以具有上述發(fā)明效果,其原因在于采用了圖像多層次的分割區(qū)域。一 方面,通過描述圖像多層次的內(nèi)容,增強(qiáng)了對圖像內(nèi)容描述的完備性;另一方面,盡管過分 割時(shí),一個(gè)物體會被過度分割成多個(gè)部分,但物體這個(gè)整體對應(yīng)的區(qū)域依然保留在多層次 的分割區(qū)域中,基于多層次分割區(qū)域的圖像內(nèi)容描述方法對過分割有較強(qiáng)的適應(yīng)性,同時(shí), 我們又可以通過調(diào)節(jié)分割終止條件,減少欠分割的情況,因此,本發(fā)明增強(qiáng)了對圖像過分割 和欠分割的魯棒性。綜上所述,本發(fā)明能夠得到更有效的圖像描述,從而取得更高的圖像分 類準(zhǔn)確率。
圖1為本發(fā)明基于多層次內(nèi)容描述的圖像分類方法的流程圖。圖2為多層次圖像分割示意圖。圖3為單一層次圖像分割示意圖。圖4為基于多層次內(nèi)容描述的圖像分類與基于單一層次內(nèi)容描述的圖像分類效 果對比圖。
具體實(shí)施例方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖,對根據(jù)本發(fā)明一個(gè)實(shí)施例的圖像分類方法進(jìn)一步詳細(xì)說明。本實(shí)施方式中,首先提取圖像的多層次內(nèi)容描述,然后通過分類器模型實(shí)現(xiàn)圖像 分類。包括以下步驟步驟1,通過多層次圖像分割得到圖像區(qū)域?qū)哟谓Y(jié)構(gòu)樹,提取圖像區(qū)域?qū)哟谓Y(jié)構(gòu)樹 中每個(gè)節(jié)點(diǎn)區(qū)域的底層特征。這一步驟可以在訓(xùn)練圖片集和待分類圖片集中同時(shí)進(jìn)行。多層次圖像分割采用迭代的聚類方法進(jìn)行。首先,根據(jù)整幅圖像像素的顏色和位 置信息用聚類的方法將其分割成兩個(gè)子區(qū)域;然后,進(jìn)一步將得到的子區(qū)域用相同的方式 分割;如此迭代,直到分割終止條件滿足。本實(shí)施例中,采用歸一化分割的方法進(jìn)行聚類,該 方法不僅強(qiáng)調(diào)類內(nèi)的相似性,而且強(qiáng)調(diào)類間的差異性,能夠取得更好的聚類效果。假定當(dāng)分 割區(qū)域面積小于一定閾值時(shí),該區(qū)域不足以表達(dá)一個(gè)完整的語義單位,分割終止。本實(shí)施例 中,設(shè)定面積閾值為圖像總面積的二十分之一。附圖2展示了一個(gè)多層次圖像分割示例,從 示例中可以看出,一幅圖像被分割成一棵圖像區(qū)域?qū)哟谓Y(jié)構(gòu)樹。其中,原始圖片是包括了藍(lán) 天、白云、大海、沙灘、綠地、紅花的一幅圖片,經(jīng)過第一次分割分為了藍(lán)天、白云、大海部分 和沙灘、綠地、紅花部分;第二次分割將藍(lán)天、白云、大海分割為藍(lán)天、白云部分和大海部分, 進(jìn)一步對藍(lán)天白云部分進(jìn)行分割為藍(lán)天部分和白云部分;沙灘、綠地、紅花部分也是如此進(jìn) 行分割,第二次分割成綠地、紅花部分和沙灘部分,進(jìn)一步將綠地紅花部分分割成綠地部分 和紅花部分,最終形成樹狀結(jié)構(gòu)。節(jié)點(diǎn)區(qū)域的底層特征通過區(qū)域的顏色、紋理和形狀特征表示。本實(shí)施例中,顏色特 征采用了 HSV顏色空間上81維(9HX3SX3V)顏色直方圖;紋理特征采用了 59維的局部二
進(jìn)制模式形狀特征采用了前3階的歸一化慣性(Normalized Inertia)。顏色特
征、紋理特征、形狀特征通過拼接構(gòu)成統(tǒng)一的底層特征,并將每一維特征歸一化到零均值、
一方差。步驟2,通過訓(xùn)練圖片集區(qū)域特征集合構(gòu)建視覺詞匯表,根據(jù)視覺詞匯表將圖像區(qū) 域?qū)哟谓Y(jié)構(gòu)樹映射到中層圖像特征,得到圖像的多層次內(nèi)容描述。視覺詞匯表采用隨機(jī)采樣策略構(gòu)建,從訓(xùn)練集區(qū)域特征集合中隨機(jī)選擇一定數(shù)量 的特征作為視覺詞匯。通過隨機(jī)采樣構(gòu)建視覺詞匯,時(shí)間效率高。由于訓(xùn)練集區(qū)域特征集 合通常包含數(shù)量巨大的區(qū)域特征,用K-means聚類等方法生成視覺詞匯表的方法由于時(shí)間 效率低,往往需要大量時(shí)間,甚至無法實(shí)現(xiàn)。實(shí)驗(yàn)表明,根據(jù)隨機(jī)采用策略構(gòu)建的視覺詞匯 表映射得到的圖像中層特征,同樣具有較強(qiáng)的圖像描述能力。本實(shí)施例中,取視覺詞匯表長 度為3000。視覺詞匯表一旦完成構(gòu)建,就保持不變。圖像區(qū)域?qū)哟谓Y(jié)構(gòu)樹到中層圖像特征映射基于圖像區(qū)域底層特征與所述視覺詞 匯表中的詞匯間的相似性。本實(shí)施例中,圖像區(qū)域?qū)哟谓Y(jié)構(gòu)樹到中層特征的映射關(guān)系如公 式一、二、三所不。公式一$=<&,1,&,2,-,Fijp>公式二-fU = 11Tiax sim{xuk,Wj)公式三=Sim(XiYWj)= exp (- Xijk-Wj |2/σ2)其中,F(xiàn)i是第i幅圖像的中層特征,即圖像的多層次內(nèi)容描述;Fm正相關(guān)于在第i 幅圖像中找到第j個(gè)視覺詞1的概率;Xi, k是第i幅圖像中第k個(gè)區(qū)域的底層特征;σ為平滑因子,在本實(shí)施例中取值為視覺詞匯兩兩間歐氏距離均值的2倍。步驟3,基于訓(xùn)練圖像集的多層次內(nèi)容描述建立圖像分類模型,根據(jù)圖像分類模型 實(shí)現(xiàn)圖像分類。圖像分類模型采用一對多的方式建立。對于每一個(gè)圖像類別,都采用該類別的圖 像作為正樣本,其余圖像類別的圖像作為負(fù)樣本,訓(xùn)練一個(gè)分類器。圖像分類模型由不同類 別的分類器共同構(gòu)成。本實(shí)施例中采用支持向量機(jī)作為分類器。對于每一幅待分類圖像,首先通過多層次圖像分割得到每幅圖像區(qū)域?qū)哟谓Y(jié)構(gòu) 樹,提取圖像區(qū)域?qū)哟谓Y(jié)構(gòu)樹中每個(gè)節(jié)點(diǎn)區(qū)域的底層特征;然后經(jīng)過步驟1得到區(qū)域底層 特征,并根據(jù)步驟2得到的視覺詞匯表將圖像區(qū)域?qū)哟谓Y(jié)構(gòu)樹映射到中層圖像特征,提取 該圖像的多層次內(nèi)容描述;最后根據(jù)所述步驟2得到的圖像分類模型分別計(jì)算該圖像屬于 各個(gè)類別的概率,并采用預(yù)測概率最大值對應(yīng)的圖像類別作為該圖像的類別。下面的實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有方法相比,本發(fā)明通過圖像多層次內(nèi)容描述圖進(jìn)行 圖像分類,可以取得更高的分類準(zhǔn)確率。本實(shí)施例中采用了 COREL圖像集合進(jìn)行實(shí)驗(yàn),其中包括2000張圖像,分別來自20 個(gè)不同的類別,每個(gè)類別100張圖像。我們也提供只包含前10類的小圖像集合的實(shí)驗(yàn)結(jié) 果。從每個(gè)類別中隨機(jī)選擇50張圖片用于訓(xùn)練,剩余50張圖片用于測試,并重復(fù)隨機(jī)實(shí)驗(yàn) 5次,報(bào)告圖像分類平均精度和95%置信區(qū)間。為了證明本發(fā)明在圖像分類中的有效性,本實(shí)施例分別與下列方法進(jìn)行對比。這 些方法都只采用了圖像單一層次的分割區(qū)域,而沒有考慮圖像多層次的內(nèi)容。附圖3展示 了一個(gè)單一層次圖像分割示例。還是以原始圖片是包括了藍(lán)天、白云、大海、沙灘、綠地、紅 花的一幅圖片為例,單一層次圖像分割方法將這一幅圖片直接分割為白云、大海、沙灘、綠 地、紅花、藍(lán)天?,F(xiàn)有方法 一 2009 年,在 IEEE Computer Society Conference on Computer Vision and PatternRecognition 中,Z.-Y Fu 禾口 A. Robels-Kelly 的文章"An instance selection approach to multiple instance learning,,提出的方法;iL^t去二 :2006ip,^IEEE Transactions on Pattern Analysis and Machine Intelligence 中,Y.-X Chen, J. -B Bi 禾口 J. Z. Wang 的文章"Miles :Multiple_instance learning via embedded instanceselection,,白勺方^去;il^^^H 2004 ^f-, ^t Journal of Machine Learning Research ψ, Y. -X Chen 禾口 J. Z. ffang 白勺文Image categorization by learning and reasoning with regions" 提出的方法;現(xiàn)有方法四2002年,在Advances in Neural Information Processing Systems 中,S. Andrews, I. Tsochantaridis 禾口 T. Hofmann 的文章 “Support vector machines for multiple-instance learning" 的方^去。與現(xiàn)有方法對比的實(shí)驗(yàn)結(jié)果如表1所示。表1 與現(xiàn)有方法的對比實(shí)驗(yàn)結(jié)果 從表1可以看出,不同數(shù)據(jù)集上,本發(fā)明基于多層次內(nèi)容描述的圖像分類方法都 要比基于單一層次內(nèi)容描述的圖像分類算法效果好;而且當(dāng)數(shù)據(jù)集變得更復(fù)雜,從10類圖 像集到20類圖像集,分類效果的提高變得更加明顯。進(jìn)一步的,我們將多層次圖像分割替換為單一層次圖像分割,并保持其他設(shè)置不 變,進(jìn)行對比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖4所示。其中“多層次_10”表示在10類圖像集上基于多層次內(nèi)容描述的圖像分類方法的結(jié)果;“多層次_20”表示在20類圖像集上基于多層次內(nèi)容描述的圖像分類方法的結(jié)果;“單一層次_10”表示在10類圖像集上基于單一層次內(nèi)容描述的圖像分類方法的
結(jié)果;“單一層次_20”表示在20類圖像集上基于單一層次內(nèi)容描述的圖像分類方法的
結(jié)果;從圖4也可以看出,不同數(shù)據(jù)集上,本發(fā)明基于多層次內(nèi)容描述的圖像分類方法 都要比基于單一層次內(nèi)容描述的圖像分類算法效果好;而且當(dāng)數(shù)據(jù)集變得更復(fù)雜,從10類 圖像集到20類圖像集,分類效果的提高變得更加明顯。從圖4還可以看出,不同的詞匯表 長度上,本發(fā)明基于多層次內(nèi)容描述的圖像分類方法也都要比基于單一層次內(nèi)容描述的圖 像分類算法效果好。最后應(yīng)當(dāng)說明以上實(shí)施例僅用以說明而非限制本發(fā)明的技術(shù)方案。本領(lǐng)域的普 通技術(shù)人員可以對本發(fā)明進(jìn)行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若 本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖 包含這些改動和變型在內(nèi)。
權(quán)利要求
一種基于多層次內(nèi)容描述的圖像分類方法,包括以下步驟1)給定訓(xùn)練圖像集,通過多層次圖像分割得到每幅圖像區(qū)域?qū)哟谓Y(jié)構(gòu)樹,提取圖像區(qū)域?qū)哟谓Y(jié)構(gòu)樹中每個(gè)節(jié)點(diǎn)區(qū)域的底層特征;2)通過訓(xùn)練圖像集區(qū)域的底層特征集合構(gòu)建視覺詞匯表,根據(jù)視覺詞匯表將圖像區(qū)域?qū)哟谓Y(jié)構(gòu)樹映射到中層圖像特征,得到訓(xùn)練圖像集的多層次內(nèi)容描述;3)基于訓(xùn)練圖像集的多層次內(nèi)容描述建立圖像分類模型,根據(jù)圖像分類模型實(shí)現(xiàn)待分類圖像分類。
2.如權(quán)利要求1所述的圖像分類方法,其特征在于,所述步驟1)采用迭代的聚類方法 進(jìn)行多層次圖像分割,具體為首先,根據(jù)整幅圖像像素的顏色和位置信息用聚類的方法將其分割成兩個(gè)子區(qū)域;然后,進(jìn)一步將得到的子區(qū)域用相同的方式分割;如此迭代,直到分割終止條件滿足。
3.如權(quán)利要求1所述的圖像分類方法,其特征在于,所述分割終止條件為當(dāng)分割區(qū)域 面積小于設(shè)定閾值時(shí),該區(qū)域不足以表達(dá)一個(gè)完整的語義單位,分割終止,所述設(shè)定閾值為 圖像總面積的二十分之一。
4.如權(quán)利要求1所述的圖像分類方法,其特征在于,所述步驟1)采用區(qū)域的顏色、紋理 和形狀特征作為節(jié)點(diǎn)區(qū)域的底層特征。
5.如權(quán)利要求1所述的圖像分類方法,其特征在于,所述步驟2)采用隨機(jī)采樣策略構(gòu) 建視覺詞匯表,從訓(xùn)練集區(qū)域特征集合中隨機(jī)選擇一定數(shù)量的特征作為視覺詞匯,所述視 覺詞匯表完成構(gòu)建后保持不變。
6.如權(quán)利要求1所述的圖像分類方法,其特征在于,所述步驟2)根據(jù)圖像區(qū)域底層特 征與所述視覺詞匯表中的詞匯間的相似性將圖像區(qū)域?qū)哟谓Y(jié)構(gòu)樹映射到中層圖像特征。
7.如權(quán)利要求1所述的圖像分類方法,其特征在于,所述步驟3)采用一對多的方式建 立圖像分類模型,即對于每一個(gè)圖像類別,都采用該類別的圖像作為正樣本,其余圖像類別 的圖像作為負(fù)樣本,訓(xùn)練一個(gè)分類器,所述圖像分類模型由不同類別的分類器共同構(gòu)成。
8.如權(quán)利要求1所述的圖像分類方法,其特征在于,所述步驟3)對于每一幅待分類圖 像,首先通過多層次圖像分割得到每幅圖像區(qū)域?qū)哟谓Y(jié)構(gòu)樹,提取圖像區(qū)域?qū)哟谓Y(jié)構(gòu)樹中 每個(gè)節(jié)點(diǎn)區(qū)域的底層特征;然后根據(jù)視覺詞匯表將圖像區(qū)域?qū)哟谓Y(jié)構(gòu)樹映射到中層圖像特 征,得到待分類圖像的多層次內(nèi)容描述;最后根據(jù)圖像分類模型分別計(jì)算該圖像屬于各個(gè) 類別的概率,并采用預(yù)測概率最大值對應(yīng)的圖像類別作為該圖像的類別。
全文摘要
本發(fā)明提供一種基于多層次內(nèi)容描述的圖像分類方法,包括以下步驟1)給定訓(xùn)練圖像集,通過多層次圖像分割得到每幅圖像區(qū)域?qū)哟谓Y(jié)構(gòu)樹,提取圖像區(qū)域?qū)哟谓Y(jié)構(gòu)樹中每個(gè)節(jié)點(diǎn)區(qū)域的底層特征;2)通過訓(xùn)練圖像集區(qū)域的底層特征集合構(gòu)建視覺詞匯表,根據(jù)視覺詞匯表將圖像區(qū)域?qū)哟谓Y(jié)構(gòu)樹映射到中層圖像特征,得到訓(xùn)練圖像集的多層次內(nèi)容描述;3)基于訓(xùn)練圖像集的多層次內(nèi)容描述建立圖像分類模型,根據(jù)圖像分類模型實(shí)現(xiàn)待分類圖像分類。該方法采用了圖像多層次的分割區(qū)域一方面,增強(qiáng)了對圖像內(nèi)容描述的完備性;另一方面,增強(qiáng)了對圖像過分割和欠分割的魯棒性。因此,能夠得到更有效的圖像描述,從而取得更高的圖像分類準(zhǔn)確率。
文檔編號G06K9/66GK101923653SQ20101025637
公開日2010年12月22日 申請日期2010年8月17日 優(yōu)先權(quán)日2010年8月17日
發(fā)明者彭宇新, 李 浩 申請人:北京大學(xué)