一種基于多示例包特征學習的圖像多標簽標注算法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及多媒體內(nèi)容理解和計算機網(wǎng)絡(luò)內(nèi)容檢索領(lǐng)域,特別涉及一種基于多示 例包特征學習的圖像多標簽標注算法。
【背景技術(shù)】
[0002]隨著計算機技術(shù)、通信技術(shù)和多媒體技術(shù)的飛速發(fā)展,Internet已成為一個浩瀚 的海量多媒體信息源,人們迫切希望可以利用計算機對規(guī)模急劇增長的數(shù)字化圖像/視頻 信息加以自動理解,從而方便用戶選擇有效的技術(shù)手段對這些視覺信息進行有效的組織、 管理和查找?;趦?nèi)容的圖像檢索成為了一個重要的研究課題。
[0003]傳統(tǒng)的監(jiān)督學習假設(shè)一個圖像被表不為一個不例并被標注一個標簽。雖然這些方 法已有成功的應(yīng)用案例,但是隨著網(wǎng)絡(luò)圖像種類和語義復(fù)雜性的增高,單示例單標簽的圖 像標注方法已經(jīng)不能適應(yīng)實際需求,因此多示例多標簽的方法開始被應(yīng)用于圖像多標簽的 標注中。Zhou等首先提出了 MMIL-B00ST和MML-SVM分別將多示例多標簽退化為多示例單 標簽和單示例多標簽方法來解決多示例多標簽問題。隨著這兩種方法在圖像多標簽標注領(lǐng) 域的成功應(yīng)用,繼而又出現(xiàn)了基于排序損失的多示例多標簽學習算法,基于迭代度量的多 示例多標簽學習算法,快速多示例多標簽學習算法,基于隱狄利克雷方法的多示例多標簽 學習算法等。
[0004] 這些算法雖然已經(jīng)較好的應(yīng)用于圖像多標簽標注中,但仍存在各種問題。其中較 突出的一個問題是,由于圖像包內(nèi)包含的示例標簽不確定性,導致與標簽無關(guān)的示例帶來 了諸多的干擾,使得圖像包特征的判別性降低,如何通過學習選擇更優(yōu)的圖像包特征是一 個亟待解決的問題。
【發(fā)明內(nèi)容】
[0005] 為解決現(xiàn)有技術(shù)存在的不足,本發(fā)明公開了一種基于多示例包特征學習的圖像多 標簽標注算法,本發(fā)明的包特征學習算法可以提高圖像包的判別性,繼而提高分類器的識 別精度,使圖像標簽的預(yù)測更準確,標注更全面可靠。
[0006] 為實現(xiàn)上述目的,本發(fā)明的具體方案如下:
[0007] -種基于多示例包特征學習的圖像多標簽標注算法,包括以下步驟:
[0008] 步驟一:獲得訓練圖像集合并對其中的所有訓練圖像進行分割,得到所有訓練圖 像的圖像分塊的集合;
[0009] 步驟二:對訓練圖像的圖像分塊的集合中的每個圖像分塊提取顏色直方圖特征和 方向梯度直方圖特征;
[0010] 步驟三:將一個訓練圖像看作一個圖像包,該訓練圖像的顏色直方圖特征和方向 梯度直方圖特征看作圖像包內(nèi)的示例,則得到多示例學習框架所需的圖像包結(jié)構(gòu);
[0011] 步驟四:將訓練圖像集合中所有圖像包中的示例組成投影示例集合,每個圖像包 通過向該投影示例集合投影得到圖像包的投影特征;
[0012] 步驟五:將圖像包的投影特征經(jīng)過范式約束的稀疏表示模型進行特征學習,選擇 出判別性高的特征作為圖像包的分類特征;
[0013] 步驟六:將學習出的訓練圖像集合的圖像包的分類特征送入SVM分類器進行訓練, 得到訓練模型的參數(shù),用訓練好的SVM分類器對未知標簽信息的測試圖像標簽進行預(yù)測。
[0014] 進一步的,所述步驟一中,對訓練圖像進行分割時,以像素RGB顏色值作為聚類目 標,采用模糊C均值聚類算法進行圖像分割。
[0015] 進一步的,所述步驟二中,顏色直方圖特征和方向梯度直方圖特征的提取具體步 驟如下:
[0016] 步驟2.1:分別提取圖像分塊中每個像素的R,G,B顏色值;
[0017] 步驟2.2:將顏色值平均分為16組,以16作為組距,分別統(tǒng)計R,G,B三種顏色值在每 組顏色值范圍內(nèi)的像素數(shù),并采用最大值歸一化后,得到R,G,B三種顏色的直方圖;
[0018] 步驟2.3:將R,G,B三種顏色直方圖首尾相接得到48維的分塊圖像的顏色直方圖特 征列向量,繼而得到顏色直方圖;
[0019] 步驟2.4:將圖像分塊進行灰度化,并提取每個像素灰度值;
[0020]步驟2.5:采用Gamma校正法對輸入圖像分塊進行顏色空間的標準化;
[0021]步驟2.6:計算圖像分塊每個像素的梯度;
[0022]步驟2.7:將梯度方向360度分為12組,組距30度,來統(tǒng)計每個圖像分塊的方向梯度 直方圖;
[0023]步驟2.8:將顏色直方圖與方向梯度直方圖首尾相接,則得到圖像分塊的特征值向 量,用列向量表示。
[0024]進一步的,步驟2.6中,在計算圖像分塊每個像素的梯度時具體的計算步驟如下:
[0025] 步驟2.6.1:計算每個像素點(X,y)的梯度如下:
[0026] Gi(x,y)=H(x+l ,y)-H(x-l ,y)
[0027] G2(x,y)=H(x,y+l)-H(x,y-l)
[0028] 式中,Gi(x,y),G2(x,y),H(x,y),分別表示像素點(x,y)處的水平方向梯度、垂直方 向梯度和像素灰度值;
[0029]步驟2.6.2:計算每個像素點(x,y)處的梯度幅值和梯度方向如下:
[0030]
[0031] 進一步的,所述步驟2.7中,所述統(tǒng)計過程為:如果一個像素的梯度方向在直方圖 某組梯度方向數(shù)值范圍內(nèi),則該組統(tǒng)計計數(shù)根據(jù)該像素梯度大小增加相應(yīng)的計數(shù);統(tǒng)計好 的方向梯度直方圖進行最大值歸一化后,則得到維數(shù)為12維的圖像分塊方向梯度直方圖, 用列向量表示。
[0032]進一步的,所述步驟三中,用一個矩陣表示一個圖像包,矩陣的每列為步驟2.8中 所得到的每個圖像分塊示例的特征向量。
[0033] 進一步的,所述步驟四中,具體步驟為:
[0034] 步驟4.1:收集所有訓練圖像集合的所有示例,組成投影示例集合P={P1,…,
[0036] pm,···,pM},其中,Μ表示所有示例數(shù),pm為投影示例集合的第m個示例;[0035] 步驟4.2:計筧圖像包到毎個投影示例的距離,其計算如下:
[0037]
[0038] 其中,Xi為第i個圖像包,xi,j為第i個圖像包的第j個示例,pm為投影示例集合中的 第m個示例,σ為高斯距離參數(shù),取1~2之間的值,s( Xld,pm)所求的是包內(nèi)示例到投影示例 的高斯距離,圖像包到投影示例的距離dUuPm)所求為圖像包內(nèi)所有示例到投影示例高斯 距離中的最小距離;
[0039]步驟4.3:將圖像包到所有投影示例的距離值排成一列,得到圖像包的投影特征。 [0040]進一步的,所述步驟五中的具體步驟為:
[0041]步驟5.1:將訓練圖像集合中每個圖像包的投影特征作為矩陣的列,得到訓練集投 影特征矩陣ζ=[ζι,…,Ζι,···ΖΝ],其中,N為訓練集圖像包的數(shù)量,將訓練圖像集中每個圖像 包的標簽值作為列,得到訓練集合圖像包標簽矩陣Υ = [ yi,…,y i,…yN ],其中每個圖像包的 標簽值yi為一個列向量,其維度為圖像集的標簽總數(shù),其元素數(shù)取值為[0,1],如果元素值 為1,則對應(yīng)的標簽被標注到該圖像,否則,該標簽不被標注到該圖像;
[0042] 步驟5.2:構(gòu)造 12, i范式約束稀疏表示模型如下:
[0043]
[0044]其中,W為l2a范式約束稀疏表示模型要求解的特征選擇系數(shù);
[0045] 步驟5.3:采用增廣拉格朗日算法求解出12>1范式約束稀疏表示模型中的特征選擇 系數(shù)W;
[0046] 步驟5.4:記錄W中的非零行序號集合為IX,選取訓練集投影特征矩陣Z中序號為IX 的行則得到學習的圖像包分類特征。
[0047] 進一步的,所述步驟六中,具體步驟為:
[0048]步驟6.1:將步驟五中學習到的訓練圖像集合圖像包分類特征分別送入不同標簽 對應(yīng)的SVM分類器進行訓練,則每一個標簽學習得到一個SVM分類器;
[0049] 步驟6.2:用模糊C均值聚類算法將測試圖像進行圖像分割,得到測試圖像分塊;
[0050] 步驟6.3:對每個測試圖像分塊提取顏色直方圖特征和方向梯度