一種跨媒體檢索方法與流程

文檔序號：11950693閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>一種跨媒體檢索方法與流程

技術(shù)特征：

1.一種跨媒體檢索方法，利用VGG提出的卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征，利用基于Word2vec的Fisher Vector提取文本特征，通過邏輯回歸的方法對異構(gòu)圖像特征和文本特征進(jìn)行語義匹配，從而實(shí)現(xiàn)跨媒體檢索；包括如下步驟：

1)收集含有類別標(biāo)簽的跨媒體檢索數(shù)據(jù)集，設(shè)為D＝{D₁，D₂，…，D_n}，n表示數(shù)據(jù)集的大?。凰隹缑襟w檢索數(shù)據(jù)集中數(shù)據(jù)的類型包括圖像和文本兩種媒體類型，表示為圖像-文本對D_i(D_i∈D)，其中表示圖像的原始數(shù)據(jù)，表示文本的原始數(shù)據(jù)；類別標(biāo)簽設(shè)為L，L＝[l₁，l₂，…,l_n]，其中l(wèi)_i∈[1,2,…,C]，C為類別的數(shù)目，l_i表示第i對圖像和文本所屬的類別；將所述跨媒體檢索數(shù)據(jù)集劃分為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)；

2)對于數(shù)據(jù)集D中的所有圖像數(shù)據(jù)D^I，其中使用VGG卷積神經(jīng)網(wǎng)絡(luò)方法提取得到圖像特征，將VGG卷積神經(jīng)網(wǎng)絡(luò)中的第七層全連接層fc7通過ReLU激活函數(shù)之后的4096維特征，記作I＝{I₁，I₂，…，I_n}，其中I_j∈R⁴⁰⁹⁶，j∈[1,n]，作為圖像特征；

3)對于數(shù)據(jù)集中的文本特征數(shù)據(jù)D^T，其中使用基于Word2vec的Fisher Vector方法提取文本特征；具體將D^T轉(zhuǎn)換成詞向量集合W＝{W₁，W₂，…，W_n}，W為D^T包含的單詞的詞向量集合；將W＝{W₁，W₂，…，W_n}中的每個(gè)文本詞向量集合Wi代入式1中的X，求得每個(gè)文本的Fisher Vector，記作T＝{T₁，T₂，…，T_n}，T_i∈R^{(2×dw+1)×G-1}，i∈[1，n]，其中，T_i表示由第i個(gè)文本計(jì)算出來的Fisher Vector；由此提取得到文本特征；

4)使用執(zhí)行步驟2)和步驟3)得到的訓(xùn)練數(shù)據(jù)中的圖像特征和文本特征對基于邏輯回歸的語義匹配模型進(jìn)行訓(xùn)練，將文本特征T轉(zhuǎn)換成了文本語義特征П^T，i∈[1，n]，c是類別的個(gè)數(shù)，也是文本語義特征的維數(shù)；將圖像特征I_i轉(zhuǎn)換成后驗(yàn)概率組成的語義特征，后驗(yàn)概率為k∈[1,C]，表示圖像I_i屬于類別k的概率；

5)利用步驟4)訓(xùn)練好的語義匹配模型，使用步驟2和步驟3得到的測試數(shù)據(jù)的圖像特征和文本特征，針對一幅圖片或文本進(jìn)行測試，得到相關(guān)的文本或圖片，即為跨媒體檢索結(jié)果。

2.如權(quán)利要求1所述跨媒體檢索方法，其特征是，步驟3)使用基于Word2vec的FisherVector方法提取文本特征，具體包括如下過程：

31)將原始文本數(shù)據(jù)D^T，其中轉(zhuǎn)換成詞向量集合W＝{W₁，W₂，…，W_n}，W為D^T包含的單詞的詞向量集合；

32)將單詞記作w，單詞w所對應(yīng)的詞向量為f_word2vec(w)；對于有f_word2vec(w)∈W_i，i∈[1，n]，即其中w_i，j∈R^dw，j∈1，b_i]，w_i，j為包含單詞所對應(yīng)的詞向量，dw為詞向量的維度，b_i為中包含的單詞個(gè)數(shù)；

33)用X＝{x₁，x₂，…，x_nw}表示一個(gè)文本的詞向量集合，nw為詞向量個(gè)數(shù)；令混合高斯模型GMM的參數(shù)為λ，λ＝{ω_i，μ_i，∑_i，i＝1..G}，其中ω_i，μ_i，∑_i分別表示GMM中每個(gè)高斯函數(shù)的權(quán)重、均值向量和協(xié)方差矩陣，G表示模型中高斯函數(shù)的個(gè)數(shù)；

GMM函數(shù)定義為式1：

其中，p(x_t|λ)表示對于向量x_t(t∈[1，nw])，由GMM產(chǎn)生的概率值p(x_t|λ)，表示為式2：

對權(quán)重ω_i設(shè)置總和為1約束，表示為式3：

其中，p_i(x|λ)表示GMM中的第i個(gè)高斯函數(shù)，由式4給出:

其中，dw是向量的維度，|∑_i|表示求∑_i的行列式；

用γ_t(i)來表示向量x_t由第i個(gè)高斯函數(shù)產(chǎn)生的概率，表示為式5：

34)對高斯模型的參數(shù)求偏導(dǎo)即得到Fisher Vector；所述Fisher Vector是將所有參數(shù)的求導(dǎo)結(jié)果連接組成的向量；所述高斯混合模型中高斯函數(shù)個(gè)數(shù)為G，向量維度為dw，所述FisherVector的維度為(2×dw+1)×G-1；權(quán)重ω的自由度為G-1；

35)將W＝{W₁，W₂，…，W_n}中的每個(gè)文本詞向量集合Wi代入式1中的文本的詞向量集合X，求得每個(gè)文本的Fisher Vector，記作T＝{T₁，T₂，…，T_n}，T_i∈R^{(2×dw+1)×G-1}，i∈[1，n]，其中，T_i表示由第i個(gè)文本計(jì)算出來的Fisher Vector。

3.如權(quán)利要求2所述跨媒體檢索方法，其特征是，步驟34)所述對高斯模型的參數(shù)求偏導(dǎo)，具體地，對各個(gè)參數(shù)的求導(dǎo)公式如式6～式8：

其中，上標(biāo)d表示向量的第d個(gè)維度。

4.如權(quán)利要求1所述跨媒體檢索方法，其特征是，步驟4)所述使用訓(xùn)練數(shù)據(jù)中的圖像特征和文本特征對基于邏輯回歸的語義匹配模型進(jìn)行訓(xùn)練，所述圖像特征為I＝{I₁，I₂，…，I_n}，I_j∈R⁴⁰⁹⁶；所述文本特征為T＝{T₁，T₂，…，T_n}，T_i∈R^{(2×dw+1)×G-1}；相應(yīng)的圖像特征和文本特征具有共同的標(biāo)簽為L＝[l₁，l₂，…,l_n]，其中l(wèi)_i∈[1，2，…，C]；所述訓(xùn)練具體包括：

41)將文本特征T_i轉(zhuǎn)換成由后驗(yàn)概率組成的語義特征П^T，i∈[1，n]，c是類別的個(gè)數(shù)，也是文本語義特征的維數(shù)；表示為式10：

其中，上標(biāo)d表示向量中的第d個(gè)維度；后驗(yàn)概率為k∈[1,C]，表示文本T_i屬于類別k的概率，通過式9計(jì)算得到

其中，是多類別邏輯回歸線性分類器的參數(shù)，，表示的轉(zhuǎn)置，對應(yīng)類別k，其中D_T＝(2×dw+1)×G-1，D_T為文本特征的維度；

42)將圖像特征T轉(zhuǎn)換成圖像語義特征П^I，i∈[1，n]，c是類別的個(gè)數(shù)，也就是圖像語義特征的維數(shù)；表示為式12：

其中，上標(biāo)d表示向量中的第d個(gè)維度；后驗(yàn)概率為k∈[1,C]，表示圖像I_i屬于類別k的概率，其中的計(jì)算公式如下:

其中，是多類別邏輯回歸線性分類器的參數(shù)，對應(yīng)類別k，是一個(gè)D_I維的向量，D_I為圖像特征的維度。

5.如權(quán)利要求1所述跨媒體檢索方法，其特征是，步驟5)所述針對一幅圖片或文本進(jìn)行測試，得到相關(guān)的文本或圖片；所述相關(guān)性的度量方法包括Kullback–Leibler divergence方法、Normalized Correlation方法、Centered Correlation方法和L2范式方法中的一種或多種。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁1 2 3

相關(guān)技術(shù)