一種基于秩最小化的多標(biāo)簽圖像標(biāo)注結(jié)果融合方法
【專利摘要】本發(fā)明涉及一種基于秩最小化優(yōu)化算法的多標(biāo)簽圖像標(biāo)注結(jié)果融合方法,包括如下步驟:1)抽取訓(xùn)練集圖像的多種特征表示,訓(xùn)練集圖像帶有事先給定的語(yǔ)義標(biāo)注詞;2)在不同的特征表示下,訓(xùn)練各自的監(jiān)督學(xué)習(xí)圖像標(biāo)注模型;3)對(duì)于一幅新的沒(méi)有語(yǔ)義標(biāo)注詞的圖像,用同樣的方法抽取該圖像的多種特征,使用這些特征分別輸入到對(duì)應(yīng)的監(jiān)督學(xué)習(xí)圖像標(biāo)注模型來(lái)預(yù)測(cè)多標(biāo)簽結(jié)果;4)利用秩最小化算法將多個(gè)模型輸出的多標(biāo)簽結(jié)果融合,得到一個(gè)更準(zhǔn)確的標(biāo)注結(jié)果。本發(fā)明充分利用了不同特征表示下的圖像標(biāo)注模型的互補(bǔ)性,利用秩最小化算法減少融合的標(biāo)注結(jié)果中的預(yù)測(cè)錯(cuò)誤,從而使得最終的圖像標(biāo)注結(jié)果更準(zhǔn)確。
【專利說(shuō)明】一種基于秩最小化的多標(biāo)簽圖像標(biāo)注結(jié)果融合方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種圖像標(biāo)注結(jié)果融合方法,特別涉及一種基于秩最小化的多標(biāo)簽圖像標(biāo)注結(jié)果的融合方法。
【背景技術(shù)】
[0002]隨著數(shù)碼相機(jī)和社交網(wǎng)絡(luò)應(yīng)用的普及,人們?cè)絹?lái)越習(xí)慣于將自己拍攝的圖像發(fā)布在互聯(lián)網(wǎng)上。為了更方便地管理和檢索互聯(lián)網(wǎng)上的海量圖像,自動(dòng)圖像標(biāo)注是一個(gè)有效的工具。圖像標(biāo)注程序的基本任務(wù)是建模圖像底層視覺(jué)特征與高層語(yǔ)義標(biāo)注詞之間的關(guān)系。監(jiān)督學(xué)習(xí)圖像標(biāo)注模型是以已經(jīng)帶有語(yǔ)義標(biāo)注詞的圖像作為訓(xùn)練圖像,先抽取訓(xùn)練圖像的底層視覺(jué)特征,再以這些特征表示和對(duì)應(yīng)的語(yǔ)義標(biāo)注詞為輸入訓(xùn)練出監(jiān)督學(xué)習(xí)圖像標(biāo)注模型。當(dāng)對(duì)一幅新的沒(méi)有語(yǔ)義標(biāo)注詞的圖像進(jìn)行自動(dòng)標(biāo)注時(shí),首先使用與訓(xùn)練圖像特征抽取同樣的方式提取新圖像的底層視覺(jué)特征,然后將提取的新圖像的特征表示輸入到監(jiān)督學(xué)習(xí)圖像標(biāo)注模型來(lái)預(yù)測(cè)新圖像的語(yǔ)義標(biāo)注詞。一幅圖像通常包含有多種語(yǔ)義,所以監(jiān)督學(xué)習(xí)圖像標(biāo)注模型的預(yù)測(cè)結(jié)果中有多個(gè)語(yǔ)義標(biāo)注詞,或者說(shuō)這是一個(gè)多標(biāo)簽的結(jié)果。
[0003]在圖像標(biāo)注問(wèn)題中,從圖像抽取的底層視覺(jué)特征表示多種多樣,它們可以用來(lái)描述視覺(jué)特征的多個(gè)方面,例如顏色直方圖可以描述圖像顏色的統(tǒng)計(jì)信息,Gabor變換結(jié)果可以來(lái)描述灰度圖像的紋理信息,局部二元模式可以對(duì)灰度圖像中局部鄰近區(qū)域的紋理信息進(jìn)行度量。不同的特征表示有著不同的表達(dá)能力,而且對(duì)于圖像語(yǔ)義的區(qū)分能力也不盡相同,甚至有互補(bǔ)的特性。因此,融合多種互補(bǔ)特征有助于區(qū)分圖像的高層語(yǔ)義。
[0004]融合多種互補(bǔ)特征通常在兩個(gè)階段實(shí)現(xiàn):特征級(jí)融合和決策級(jí)融合。特征級(jí)融合在訓(xùn)練模型的過(guò)程中將多種特征融合在一起,然后訓(xùn)練出一個(gè)判別模型,例如多核學(xué)習(xí)算法同時(shí)學(xué)習(xí)多種特征的比例系數(shù)和模型參數(shù)。決策級(jí)融合則是分別使用不同的特征表示訓(xùn)練多個(gè)判別模型,最后把多個(gè)判別模型的決策結(jié)果融合成一個(gè)最終的決策結(jié)果。決策級(jí)融合由于其簡(jiǎn)單有效性常常在圖像標(biāo)注問(wèn)題中被采用。
[0005]傳統(tǒng)的決策級(jí)融合方法是先將多個(gè)判別模型的結(jié)果歸一化到同一個(gè)數(shù)值范圍,然后使用求和、求乘積、取最大或取最小等規(guī)則的方式融合成一個(gè)最終的結(jié)果??紤]到不同模型的結(jié)果會(huì)在不同的數(shù)值范圍內(nèi),因而歸一化方法對(duì)于不同模型會(huì)不同,增加了決策級(jí)融合的復(fù)雜性。再者,不同的融合規(guī)則的融合效果不盡相同,因而會(huì)產(chǎn)生哪些模型融合用何種融合規(guī)則效果最好的疑問(wèn)。另外,由于單個(gè)判別模型都有自己的預(yù)測(cè)誤差,盲目地使用規(guī)則融合多個(gè)模型的結(jié)果也會(huì)同時(shí)引入它們各自的誤差。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的目的在于提供一種通過(guò)利用秩最小化的優(yōu)化方法建模多個(gè)監(jiān)督學(xué)習(xí)圖像標(biāo)注模型的多標(biāo)簽結(jié)果的融合,得到一個(gè)更準(zhǔn)確更魯棒的標(biāo)注結(jié)果的方法。
[0007]本發(fā)明為解決其技術(shù)問(wèn)題采用的技術(shù)方案如下:
[0008]一種基于秩最小化的多標(biāo)簽圖像標(biāo)注結(jié)果的融合方法,包括以下步驟:[0009]I)抽取訓(xùn)練集圖像的多種特征表示,訓(xùn)練集中的每幅圖像都帶有事先給定的語(yǔ)義標(biāo)注詞;
[0010]2)在不同的特征表示下,分別訓(xùn)練各自的監(jiān)督學(xué)習(xí)圖像標(biāo)注模型;
[0011]3)對(duì)于一幅新的沒(méi)有語(yǔ)義標(biāo)注詞的圖像,用同樣的方法抽取該圖像的多種特征表示,使用這些特征表示分別輸入到對(duì)應(yīng)的監(jiān)督學(xué)習(xí)圖像標(biāo)注模型來(lái)預(yù)測(cè)新圖像的多標(biāo)簽標(biāo)注結(jié)果;
[0012]4)利用秩最小化優(yōu)化算法將多個(gè)模型輸出的多標(biāo)簽結(jié)果融合:對(duì)于不同特征表示下模型預(yù)測(cè)的結(jié)果向量,先把每一個(gè)結(jié)果向量轉(zhuǎn)換為一個(gè)反對(duì)稱的秩為2的關(guān)系矩陣,然后用這些關(guān)系矩陣建模一個(gè)秩最小化優(yōu)化問(wèn)題,解這個(gè)優(yōu)化問(wèn)題得到一個(gè)融合的關(guān)系矩陣,再由融合的關(guān)系矩陣構(gòu)造融合的結(jié)果向量,最終由融合的結(jié)果向量得到融合的標(biāo)注結(jié)果O
[0013]優(yōu)選的,抽取訓(xùn)練集圖像的多種特征表示的步驟如下:
[0014]I)圖像分塊:使用滑動(dòng)窗口的策略,按照給定步長(zhǎng),將圖像分成相互重疊的小塊;
[0015]2)分別計(jì)算每一個(gè)小塊內(nèi)圖像的特征向量(可以是RGB顏色直方圖、HSV顏色直方圖、LAB顏色直方圖、ΟΡΡΟΝΕΤ顏色直方圖、rg顏色直方圖、Gabor紋理特征、Haar紋理特征、局部二元模式紋理特征、詞包模型表示的SIFT形狀特征等多種特征),整幅圖像的特征表示即由這些圖像塊的特征向量組成;設(shè)第i幅訓(xùn)練圖像Ii的語(yǔ)義標(biāo)注向量為Wi= (wn, wi2,...,wiT)T e {O, 1}τ,其中T是數(shù)據(jù)集的語(yǔ)義標(biāo)注詞的總數(shù),Wij=I表示第i幅圖像有第j個(gè)標(biāo)注詞,Wij=O表示第i幅圖像沒(méi)有第j個(gè)標(biāo)注詞;若將第i幅圖像分成M塊,每塊可計(jì)算一個(gè)特征向量Xik, k=l, 2,...,Μ,那么第i幅圖像的特征表示為Ai=Ixil, Xi2,...,XilI。
[0016]優(yōu)選的,在不同特征表示下分別訓(xùn)練各自監(jiān)督學(xué)習(xí)圖像標(biāo)注模型步驟如下:
[0017]I)對(duì)每一幅訓(xùn)練圖像,利用高斯混合模型對(duì)圖像層條件概率密度建模,然后使用期望最大化算法計(jì)算模型參數(shù)得到該圖像的條件概率密度;
[0018]2)對(duì)每一個(gè)語(yǔ)義標(biāo)注詞,找出訓(xùn)練圖像集合中含有該標(biāo)注詞的所有圖像,以這些圖像在圖像層的條件概率密度為基礎(chǔ),利用高斯混合模型對(duì)語(yǔ)義層條件概率密度建模,然后使用層次期望最大化算法計(jì)算模型參數(shù)得到該語(yǔ)義標(biāo)注詞的條件概率密度。
[0019]具體步驟如下:
[0020]I)第i幅圖像的某一種特征表示為
【權(quán)利要求】
1.一種基于秩最小化的多標(biāo)簽圖像標(biāo)注結(jié)果的融合方法,其特征在于,包括以下步驟: 1)抽取訓(xùn)練集圖像的多種特征表示,訓(xùn)練集中的每幅圖像都帶有事先給定的語(yǔ)義標(biāo)注詞; 2)在不同的特征表示下,分別訓(xùn)練各自的監(jiān)督學(xué)習(xí)圖像標(biāo)注模型; 3)對(duì)于一幅新的沒(méi)有語(yǔ)義標(biāo)注詞的圖像,用同樣的方法抽取該圖像的多種特征表示,使用這些特征表示分別輸入到對(duì)應(yīng)的監(jiān)督學(xué)習(xí)圖像標(biāo)注模型來(lái)預(yù)測(cè)新圖像的多標(biāo)簽標(biāo)注結(jié)果; 4)利用秩最小化優(yōu)化算法將多個(gè)模型輸出的多標(biāo)簽結(jié)果融合:對(duì)于不同特征表示下模型預(yù)測(cè)的結(jié)果向量,先把每一個(gè)結(jié)果向量轉(zhuǎn)換為一個(gè)反對(duì)稱的秩為2的關(guān)系矩陣,然后用這些關(guān)系矩陣建模一個(gè)秩最小化優(yōu)化問(wèn)題,解這個(gè)優(yōu)化問(wèn)題得到一個(gè)融合的關(guān)系矩陣,再由融合的關(guān)系矩陣 構(gòu)造融合的結(jié)果向量,最終由融合的結(jié)果向量得到融合的標(biāo)注結(jié)果。
2.根據(jù)權(quán)利要求1所述的一種基于秩最小化的多標(biāo)簽圖像標(biāo)注結(jié)果的融合方法,其特征在于,抽取訓(xùn)練集圖像的多種特征表示的步驟為: O圖像分塊:使用滑動(dòng)窗口的策略,按照給定步長(zhǎng),將圖像分成相互重疊的小塊; 2)分別計(jì)算每一個(gè)小塊內(nèi)圖像的特征向量,整幅圖像的特征表示即由這些圖像塊的特征向量組成。
3.根據(jù)權(quán)利要求2所述的一種基于秩最小化的多標(biāo)簽圖像標(biāo)注結(jié)果的融合方法,其特征在于,所述特征向量是RGB顏色直方圖或HSV顏色直方圖或LAB顏色直方圖或OPPONET顏色直方圖或rg顏色直方圖或Gabor紋理特征或Haar紋理特征或局部二元模式紋理特征或詞包模型表示的SIFT形狀特征。
4.根據(jù)權(quán)利要求1或2或3所述的一種基于秩最小化的多標(biāo)簽圖像標(biāo)注結(jié)果的融合方法,其特征在于,在不同特征表示下分別訓(xùn)練各自的監(jiān)督學(xué)習(xí)圖像標(biāo)注模型的步驟為: 1)對(duì)每一幅訓(xùn)練圖像,利用高斯混合模型對(duì)圖像層條件概率密度建模,然后使用期望最大化算法計(jì)算模型參數(shù)得到該圖像的條件概率密度; 2)對(duì)每一個(gè)語(yǔ)義標(biāo)注詞,找出訓(xùn)練圖像集合中含有該標(biāo)注詞的所有圖像,以這些圖像在圖像層的條件概率密度為基礎(chǔ),利用高斯混合模型對(duì)語(yǔ)義層條件概率密度建模,然后使用層次期望最大化算法計(jì)算模型參數(shù)得到該語(yǔ)義標(biāo)注詞的條件概率密度。
5.根據(jù)權(quán)利要求4所述的一種基于秩最小化的多標(biāo)簽圖像標(biāo)注結(jié)果的融合方法,其特征在于,對(duì)一幅新的沒(méi)有語(yǔ)義標(biāo)注詞的圖像,用同樣地方法抽取該圖像的多種特征表示,使用這些特征分別輸入到對(duì)應(yīng)的監(jiān)督學(xué)習(xí)圖像標(biāo)注模型來(lái)預(yù)測(cè)其多標(biāo)簽標(biāo)注結(jié)果,其步驟為: 1)使用與訓(xùn)練圖像同樣的特征抽取技術(shù)計(jì)算新輸入圖像的多種特征表示; 2)使用每一種特征表示對(duì)應(yīng)的監(jiān)督學(xué)習(xí)圖像標(biāo)注模型預(yù)測(cè)輸入圖像的語(yǔ)義標(biāo)注詞并得到一個(gè)結(jié)果向量。
6.根據(jù)權(quán)利要求5所述的一種對(duì)多個(gè)監(jiān)督學(xué)習(xí)圖像標(biāo)注模型的多標(biāo)簽結(jié)果的融合方法,其特征在于,利用秩最小化優(yōu)化算法將不同特征表示下的多個(gè)模型輸出的多標(biāo)簽結(jié)果融合的步驟為: I)將各個(gè)結(jié)果向量分別轉(zhuǎn)換為反對(duì)稱的秩為2的關(guān)系矩陣的表示形式,這些關(guān)系矩陣都分別等于融合的關(guān)系矩陣加上一個(gè)對(duì)應(yīng)誤差矩陣; 2)在I)的約束下,通過(guò)最小化融合的關(guān)系矩陣的奇異值之和使得融合的關(guān)系矩陣的秩逐漸減小到2,通過(guò)最小化所有誤差矩陣之和使得融合的關(guān)系矩陣能充分正確地結(jié)合各個(gè)模型的預(yù)測(cè)結(jié)果; 3)使用非精確的增廣拉格朗日乘子法迭代解出融合的關(guān)系矩陣的最優(yōu)解,迭代過(guò)程中使用奇異值截取的方式使得融合的關(guān)系矩陣的秩逐漸收斂到2 ; 4)使用融合的關(guān)系矩陣反向計(jì)算出的融合的結(jié)果向量,根據(jù)融合的結(jié)果向量最終確定輸入圖像的語(yǔ)義標(biāo) 注詞。
【文檔編號(hào)】G06T7/00GK103440651SQ201310375976
【公開(kāi)日】2013年12月11日 申請(qǐng)日期:2013年8月26日 優(yōu)先權(quán)日:2013年8月26日
【發(fā)明者】郭平, 姚垚, 辛欣 申請(qǐng)人:北京理工大學(xué)