1.一種跨媒體檢索方法,利用VGG提出的卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,利用基于Word2vec的Fisher Vector提取文本特征,通過邏輯回歸的方法對異構(gòu)圖像特征和文本特征進(jìn)行語義匹配,從而實(shí)現(xiàn)跨媒體檢索;包括如下步驟:
1)收集含有類別標(biāo)簽的跨媒體檢索數(shù)據(jù)集,設(shè)為D={D1,D2,…,Dn},n表示數(shù)據(jù)集的大?。凰隹缑襟w檢索數(shù)據(jù)集中數(shù)據(jù)的類型包括圖像和文本兩種媒體類型,表示為圖像-文本對Di(Di∈D),其中表示圖像的原始數(shù)據(jù),表示文本的原始數(shù)據(jù);類別標(biāo)簽設(shè)為L,L=[l1,l2,…,ln],其中l(wèi)i∈[1,2,…,C],C為類別的數(shù)目,li表示第i對圖像和文本所屬的類別;將所述跨媒體檢索數(shù)據(jù)集劃分為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù);
2)對于數(shù)據(jù)集D中的所有圖像數(shù)據(jù)DI,其中使用VGG卷積神經(jīng)網(wǎng)絡(luò)方法提取得到圖像特征,將VGG卷積神經(jīng)網(wǎng)絡(luò)中的第七層全連接層fc7通過ReLU激活函數(shù)之后的4096維特征,記作I={I1,I2,…,In},其中Ij∈R4096,j∈[1,n],作為圖像特征;
3)對于數(shù)據(jù)集中的文本特征數(shù)據(jù)DT,其中使用基于Word2vec的Fisher Vector方法提取文本特征;具體將DT轉(zhuǎn)換成詞向量集合W={W1,W2,…,Wn},W為DT包含的單詞的詞向量集合;將W={W1,W2,…,Wn}中的每個(gè)文本詞向量集合Wi代入式1中的X,求得每個(gè)文本的Fisher Vector,記作T={T1,T2,…,Tn},Ti∈R(2×dw+1)×G-1,i∈[1,n],其中,Ti表示由第i個(gè)文本計(jì)算出來的Fisher Vector;由此提取得到文本特征;
4)使用執(zhí)行步驟2)和步驟3)得到的訓(xùn)練數(shù)據(jù)中的圖像特征和文本特征對基于邏輯回歸的語義匹配模型進(jìn)行訓(xùn)練,將文本特征T轉(zhuǎn)換成了文本語義特征ПT,i∈[1,n],c是類別的個(gè)數(shù),也是文本語義特征的維數(shù);將圖像特征Ii轉(zhuǎn)換成后驗(yàn)概率組成的語義特征,后驗(yàn)概率為k∈[1,C],表示圖像Ii屬于類別k的概率;
5)利用步驟4)訓(xùn)練好的語義匹配模型,使用步驟2和步驟3得到的測試數(shù)據(jù)的圖像特征和文本特征,針對一幅圖片或文本進(jìn)行測試,得到相關(guān)的文本或圖片,即為跨媒體檢索結(jié)果。
2.如權(quán)利要求1所述跨媒體檢索方法,其特征是,步驟3)使用基于Word2vec的FisherVector方法提取文本特征,具體包括如下過程:
31)將原始文本數(shù)據(jù)DT,其中轉(zhuǎn)換成詞向量集合W={W1,W2,…,Wn},W為DT包含的單詞的詞向量集合;
32)將單詞記作w,單詞w所對應(yīng)的詞向量為fword2vec(w);對于有fword2vec(w)∈Wi,i∈[1,n],即其中wi,j∈Rdw,j∈1,bi],wi,j為包含單詞所對應(yīng)的詞向量,dw為詞向量的維度,bi為中包含的單詞個(gè)數(shù);
33)用X={x1,x2,…,xnw}表示一個(gè)文本的詞向量集合,nw為詞向量個(gè)數(shù);令混合高斯模型GMM的參數(shù)為λ,λ={ωi,μi,∑i,i=1..G},其中ωi,μi,∑i分別表示GMM中每個(gè)高斯函數(shù)的權(quán)重、均值向量和協(xié)方差矩陣,G表示模型中高斯函數(shù)的個(gè)數(shù);
GMM函數(shù)定義為式1:
其中,p(xt|λ)表示對于向量xt(t∈[1,nw]),由GMM產(chǎn)生的概率值p(xt|λ),表示為式2:
對權(quán)重ωi設(shè)置總和為1約束,表示為式3:
其中,pi(x|λ)表示GMM中的第i個(gè)高斯函數(shù),由式4給出:
其中,dw是向量的維度,|∑i|表示求∑i的行列式;
用γt(i)來表示向量xt由第i個(gè)高斯函數(shù)產(chǎn)生的概率,表示為式5:
34)對高斯模型的參數(shù)求偏導(dǎo)即得到Fisher Vector;所述Fisher Vector是將所有參數(shù)的求導(dǎo)結(jié)果連接組成的向量;所述高斯混合模型中高斯函數(shù)個(gè)數(shù)為G,向量維度為dw,所述FisherVector的維度為(2×dw+1)×G-1;權(quán)重ω的自由度為G-1;
35)將W={W1,W2,…,Wn}中的每個(gè)文本詞向量集合Wi代入式1中的文本的詞向量集合X,求得每個(gè)文本的Fisher Vector,記作T={T1,T2,…,Tn},Ti∈R(2×dw+1)×G-1,i∈[1,n],其中,Ti表示由第i個(gè)文本計(jì)算出來的Fisher Vector。
3.如權(quán)利要求2所述跨媒體檢索方法,其特征是,步驟34)所述對高斯模型的參數(shù)求偏導(dǎo),具體地,對各個(gè)參數(shù)的求導(dǎo)公式如式6~式8:
其中,上標(biāo)d表示向量的第d個(gè)維度。
4.如權(quán)利要求1所述跨媒體檢索方法,其特征是,步驟4)所述使用訓(xùn)練數(shù)據(jù)中的圖像特征和文本特征對基于邏輯回歸的語義匹配模型進(jìn)行訓(xùn)練,所述圖像特征為I={I1,I2,…,In},Ij∈R4096;所述文本特征為T={T1,T2,…,Tn},Ti∈R(2×dw+1)×G-1;相應(yīng)的圖像特征和文本特征具有共同的標(biāo)簽為L=[l1,l2,…,ln],其中l(wèi)i∈[1,2,…,C];所述訓(xùn)練具體包括:
41)將文本特征Ti轉(zhuǎn)換成由后驗(yàn)概率組成的語義特征ПT,i∈[1,n],c是類別的個(gè)數(shù),也是文本語義特征的維數(shù);表示為式10:
其中,上標(biāo)d表示向量中的第d個(gè)維度;后驗(yàn)概率為k∈[1,C],表示文本Ti屬于類別k的概率,通過式9計(jì)算得到
其中,是多類別邏輯回歸線性分類器的參數(shù),,表示的轉(zhuǎn)置,對應(yīng)類別k,其中DT=(2×dw+1)×G-1,DT為文本特征的維度;
42)將圖像特征T轉(zhuǎn)換成圖像語義特征ПI,i∈[1,n],c是類別的個(gè)數(shù),也就是圖像語義特征的維數(shù);表示為式12:
其中,上標(biāo)d表示向量中的第d個(gè)維度;后驗(yàn)概率為k∈[1,C],表示圖像Ii屬于類別k的概率,其中的計(jì)算公式如下:
其中,是多類別邏輯回歸線性分類器的參數(shù),對應(yīng)類別k,是一個(gè)DI維的向量,DI為圖像特征的維度。
5.如權(quán)利要求1所述跨媒體檢索方法,其特征是,步驟5)所述針對一幅圖片或文本進(jìn)行測試,得到相關(guān)的文本或圖片;所述相關(guān)性的度量方法包括Kullback–Leibler divergence方法、Normalized Correlation方法、Centered Correlation方法和L2范式方法中的一種或多種。