[0042] 圖1為本發(fā)明整體流程圖;
[0043] 圖2為SemiPCCA的圖模型;
[0044] 圖3為加權(quán)余弦距離圖;
[0045] 圖4a為CCA、PCCA和SemiPCCA獲得的典型投影向量圖;
[0046] 圖4b為另一CCA、PCCA和SemiPCCA獲得的典型投影向量圖;
[0047] 圖5a為圖像語義標(biāo)注方法圖;
[0048] 圖5b為另一圖像語義標(biāo)注方法圖;
[0049] 圖5c為又一圖像語義標(biāo)注方法圖;
[0050] 圖6為在PCCA隱空間中標(biāo)注圖像和未標(biāo)注圖像的后驗概率分布圖;
[0051] 圖7為Corel5K標(biāo)注圖像和未標(biāo)注圖像在PCCA隱空間的后驗概率分布圖;
[0052] 圖8為Corel圖像庫示例圖;
[0053] 圖9為0階Color-HLAC特征和1階Color-HLAC特征模板。
[0054] 其中附圖標(biāo)記為:
[0055]步驟 101/102/103。
【具體實施方式】
[0056] 以下為本發(fā)明方法的具體步驟,如圖1所示:
[0057] 步驟101,獲取圖像數(shù)據(jù)庫中已標(biāo)注圖像與未標(biāo)注圖像,分別提取所述已標(biāo)注圖像 與所述未標(biāo)注圖像的圖像特征和文本特征,生成已匹配樣本集合和未匹配樣本集合,所述 已匹配樣本集合包括已標(biāo)注圖像特征集合與已標(biāo)注文本特征集合,所述未匹配樣本集合包 括未標(biāo)注圖像特征集合與未標(biāo)注文本特征集合;
[0058] 步驟102,根據(jù)所述已匹配樣本集合與所述未匹配樣本集合,訓(xùn)練所述弱匹配概率 典型相關(guān)性模型;
[0059] 步驟103,通過所述弱匹配概率典型相關(guān)性模型,對待標(biāo)注圖像進行標(biāo)注。
[0060] 以下為本發(fā)明中訓(xùn)練弱匹配概率典型相關(guān)性模型的具體步驟,如下所示:
[0061] 給定數(shù)量為Np的成對觀察樣本集合
其中每一個樣 本X; (X;)代表一個叫!^)維向量。在成對樣本數(shù)量很小的情況下,CCA建立的相關(guān)性 模型容易出現(xiàn)過擬合問題。下面,本發(fā)明考慮給出未匹配樣本集合/或 Μυ?=+,其中與xp相互獨立生成,為了解決傳統(tǒng)CCA和概率典型相關(guān)性分析 p ,'. (PCCA)模型無法直接處理未匹配樣本的弊端,本發(fā)明提出一種全新的弱匹配概率典型相關(guān) 性模型(Semi-pairedPCCA,簡稱SemiPCCA)。SemiPCCA充分利用未匹配樣本解決過擬合問 題,圖2給出了SemiPCCA的圖模型。
[0062]
,表示完整的觀察樣本集合,包含了匹配和未匹 配樣本。假設(shè)樣本之間項目獨立,其極大似然值如下:
[0063]
[0064] 在SemiPCCA模型中,對于成對樣本x丨和4由相同的隱變量z1生成,且 P(<?)服從概率典型相關(guān)性分析(PCCA)模型,即
[0065]
[0066] 對于未匹配樣本集合
右和4則分別由隱變量卻 和4通過線性變換WJPW2附加高斯噪聲ε1和ε2獲得,即
[0067]
[0068]
[0069]SemiPCCA模型中,成對樣本的投影方法類似PCCA模型,即
[0070]
[0071]
[0072]Ε($),E(;^)構(gòu)成了樣本空間到SemiPCCA隱空間的典型投影。雖然SemiPCCA 模型投影的結(jié)果看似和PCCA模型相同,但翁和為的計算卻受到了未匹配樣本的影響,而未 匹配樣本則揭示了各領(lǐng)域樣本空間的全局結(jié)構(gòu)。同時為了使相關(guān)度最大化,不同樣本空間 的投影向量之間也會相互影響。
[0073] EM算法求解SemiPCCA,如下所示:
[0074] 考慮到觀察樣本的極大似然函數(shù)L(Θ)由三部分構(gòu)成,因此E步驟,我們需要分別 處理。
[0075] 對于匹配樣本集合{(?£中的第i對樣本丨,我們給出隱變量z1的后驗概 率,即:
[0076]
[0077] 根據(jù)該后驗概率*1^?'·句,我們計算得到z1和z期望值:
[0078]
[0079]
[0080] 對于未匹配樣本^^^^ ^隱變量#只受4影響,其后驗概率的計算如下所示:
[0081]
[0082] 根據(jù)該后驗概率,我們計算得到€和《的期望值:
[0084] 、 ; 、
[0083]
[0085]對于未匹配樣本隱變量4只受W影響,其后驗概率的計算如下所示:
[0086]
[0087] 根據(jù)該后驗概率,我們計算得至"和辦廠的期望值:
[0088]
[0089]
[0090]Μ步驟,固定E步驟計算得到的_ptzW;6lbPph?)通過偏導(dǎo)數(shù)計算 似然L(Θ)最大化時,相應(yīng)參數(shù)的取值。
[0091] 對于xJPX2的均值,
[0092]
ι=1 人' 2 糾
[0093] 由于EM算法迭代過程中,A和尾的取值不變,我們可以通過中心化樣本集合 xryxP,:,避免學(xué)習(xí)過程中重復(fù)學(xué)習(xí)。為了簡化描述,下文中〇,: 4和#均 表示經(jīng)過中心化的向量。
[0094] 對于投影向量集合,我們獲得以下更新公式:
· - <1 - ' * ν ' ·-- (ρ1 ·?[0097]對于高斯噪聲的方差,我們獲得以下更新公式:
[0095]
[0096]
[0098]
[0099] Ο
[0100] 以下為本發(fā)明具體實施例,如下所示:
[0101] 人工弱匹配多模態(tài)數(shù)據(jù)集上的實驗,如下所示:
[0102] 為了驗證SemiPCCA模型的有效性,我們構(gòu)造以下人工數(shù)據(jù)集合:樣本集合卜^服 從N(0,Id),其中維度d= 2,樣本數(shù)量N= 300,完整的匹配樣本集合通過以下方式 構(gòu)造獲得,
[0103]
[0104] _ _ …
[0105]其中,
樣本維度分別設(shè)置為叫二2,m2= 2 ;
[0106]為了獲得弱匹配的樣本集合,我們構(gòu)造一個判別函數(shù)f(x2) =aTx2-0,其中 ? = (?;Θ表示判別閾值,對于樣本如果其判別函數(shù)值f?)<'則從匕中移 除樣本??梢?,Θ越大,移除的樣本就越多;
[0107] 在比較SemiPCCA與傳統(tǒng)CCA和PCCA時,我們選擇了以下加權(quán)余弦距離,
[0108]
[0109] 其中,< =(f和Y= -g.....<)分別表示有完整匹配樣本通過CCA 分析后,獲得的"真正"d個典型投影向量和相關(guān)系數(shù);
[0110] 圖3給出了判別閾值Θ在-2到5的取值范圍內(nèi),經(jīng)過1000次獨立實驗獲得的加 權(quán)余弦距離平均值。實驗結(jié)果表明隨著判別閾值Θ的提高,匹配樣本逐漸減少,SemiPCCA 模型由于考慮了為匹配樣本,其性能明顯好于傳統(tǒng)CCA和PCCA,解決了過擬合問題;
[0111] 圖4(a)(圖4(b))描述了θ=-2(θ= 4)時,匹配樣本(藍色方形)、未匹配樣 本(紅色圓形)的分布情況,以及分別由CCA、PCCA和SemiPCCA獲得的典型投影向量。在 只考慮了匹配樣本的情況下,CCA和PCCA出現(xiàn)了過擬合問題。
[0112] 以下為圖像語義標(biāo)注,如下所示:
[0113] 圖像檢索技術(shù)包括兩種主流解決方案:基于文本的圖像檢索和基于內(nèi)容的圖像檢 索?;谖谋镜膱D像檢索利用人工對圖像進