一種基于神經(jīng)網(wǎng)絡的跨媒體哈希索引方法
【專利摘要】本發(fā)明公開了一種基于神經(jīng)網(wǎng)絡的跨媒體哈希索引方法,包括如下步驟:(1)設計了基于神經(jīng)網(wǎng)絡的哈希函數(shù)學習的網(wǎng)絡結構(2)對每種模態(tài)的神經(jīng)網(wǎng)絡進行逐層預訓練(3)將不同模態(tài)的神經(jīng)網(wǎng)絡融合成一個新的網(wǎng)絡,設計模態(tài)間和模態(tài)內(nèi)數(shù)據(jù)的損失函數(shù),基于損失函數(shù)來通過反向傳播方式對整個網(wǎng)絡參數(shù)進行微調(4)去掉網(wǎng)絡的輸出層,將哈希編碼層的輸出結構作為哈希函數(shù)的輸出以支持跨模態(tài)的快速檢索。利用該方法可以實現(xiàn)基于內(nèi)容的海量數(shù)據(jù)的高效跨媒體檢索,用戶可以通過提交一種類型檢索數(shù)據(jù)去檢索另外一種類型數(shù)據(jù)。
【專利說明】-種基于神經(jīng)網(wǎng)絡的跨媒體哈希索引方法
【技術領域】
[0001 ] 本發(fā)明涉及跨媒體檢索,尤其涉及一種基于海量數(shù)據(jù)的跨媒體高效索引方法。
【背景技術】
[0002] 互聯(lián)網(wǎng)技術的高速發(fā)展和社交網(wǎng)絡的風靡,使得互聯(lián)網(wǎng)上的多模態(tài)數(shù)據(jù)的數(shù)量在 以驚人的速度增長。舉例來說,用戶向社交網(wǎng)絡上傳圖片時一般同時會對圖片添加一些描 述性文本。因此,如何利用不同模態(tài)數(shù)據(jù)之間關聯(lián)關系來實現(xiàn)跨模態(tài)(也稱作跨媒體)檢 索是一個非常有意義的研究問題。由于網(wǎng)絡上多模態(tài)數(shù)據(jù)的數(shù)據(jù)量非常龐大,通過哈希索 引技術來提高跨媒體檢索性能是最近研究熱點。
[0003] 已有的跨媒體哈希算法大多基于流形學習、字典學習或生成概率圖模型。它們的 目標在于通過使用學習得到的哈希函數(shù)將不同模態(tài)數(shù)據(jù)映射到同一個子空間內(nèi),同時保持 數(shù)據(jù)在模態(tài)內(nèi)相似性和模態(tài)間關聯(lián)關系。本發(fā)明提出了一種基于神經(jīng)網(wǎng)絡的跨媒體哈希算 法,使得得到的哈希索引不僅保持模態(tài)間數(shù)據(jù)關聯(lián)性,也具有模態(tài)內(nèi)數(shù)據(jù)鑒別性。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的是克服現(xiàn)有技術的不足,提供一種基于神經(jīng)網(wǎng)絡的跨媒體哈希哈希 索引的方法。
[0005] -種基于神經(jīng)網(wǎng)絡的跨媒體哈希索引方法包括如下步驟:
[0006] 1)設計基于神經(jīng)網(wǎng)絡的哈希函數(shù)的網(wǎng)絡結構;
[0007] 2)對每種模態(tài)的神經(jīng)網(wǎng)絡進行逐層預訓練;
[0008] 3)將不同模態(tài)的神經(jīng)網(wǎng)絡融合成一個新的網(wǎng)絡,設計模態(tài)間和模態(tài)內(nèi)數(shù)據(jù)的損失 函數(shù),基于損失函數(shù)來通過反向傳播方式對整個網(wǎng)絡參數(shù)進行微調;
[0009] 4)去掉網(wǎng)絡的輸出層,將哈希編碼層的輸出結構作為哈希函數(shù)的輸出,以支持跨 模態(tài)的快速檢索。
[0010] 所述的步驟1)包括:
[0011] 對于得到的包含多模態(tài)類型數(shù)據(jù)的多媒體文檔集合,構建分別屬于 每個模態(tài)類型的數(shù)據(jù)集;假設構成多媒體文檔的數(shù)據(jù)來自兩個模態(tài):數(shù)據(jù)集
【權利要求】
1. 一種基于神經(jīng)網(wǎng)絡的跨媒體哈希索引方法,其特征在于包括如下步驟: 1) 設計基于神經(jīng)網(wǎng)絡的哈希函數(shù)的網(wǎng)絡結構; 2) 對每種模態(tài)的神經(jīng)網(wǎng)絡進行逐層預訓練; 3) 將不同模態(tài)的神經(jīng)網(wǎng)絡融合成一個新的網(wǎng)絡,設計模態(tài)間和模態(tài)內(nèi)數(shù)據(jù)的損失函 數(shù),基于損失函數(shù)來通過反向傳播方式對整個網(wǎng)絡參數(shù)進行微調; 4) 去掉網(wǎng)絡的輸出層,將哈希編碼層的輸出結構作為哈希函數(shù)的輸出,以支持跨模態(tài) 的快速檢索。
2. 根據(jù)權利要求1所述的一種基于神經(jīng)網(wǎng)絡的跨媒體哈希索引方法,其特征在于所述 的步驟1)包括: 對于得到的包含多模態(tài)類型數(shù)據(jù)的多媒體文檔集合,構建分別屬于每個模態(tài)類型的數(shù) 據(jù)集;假設構成多媒體文檔的數(shù)據(jù)來自兩個模態(tài):數(shù)據(jù)集1 F = 分別為兩個模態(tài)數(shù)據(jù)的矩陣表示,其中djPdy對應兩個模 態(tài)數(shù)據(jù)的維度,通常dx關dy ;n是數(shù)據(jù)集X和Y中所包含數(shù)據(jù)的個數(shù);此外,T = [ti,t2…, tn] e irxn為數(shù)據(jù)集X和Y對應的類別標簽矩陣,每一個ti e Re為兩種模態(tài)數(shù)據(jù)點對Xi和yi所對應的類別標簽向量,= 1表示Xi和yi均屬于第j個類別,c為所有類別的個數(shù); 神經(jīng)網(wǎng)絡結構由兩個子神經(jīng)網(wǎng)絡組成,記作NNX和NNy,對應分別對X和Y中數(shù)據(jù)的逐 層學習,每個子神經(jīng)網(wǎng)絡NNX或NNy有L層,包含一個輸入層、一個輸出層、一個哈希編碼層 以及剩下的L-3哈希函數(shù)層。對任意x e X(y e Y同理),將數(shù)據(jù)x沿著它對應模態(tài)的神 經(jīng)子網(wǎng)絡NNX進行正向傳播,第1層的表達x(1)通過一組非線性變換后可得到1+1層的表達 x(1+1),這一非線性變換如公式(1)所示 X(i+D_f(i) (ff(i)x(i)) ⑴ 其中W(1)為投影矩陣,f(1) ( ?)為非線性激活函數(shù),在第一層到第L-2層,使用的非線性 變換函數(shù)是sigmoid函數(shù),在第L-1層使用非線性變換函數(shù)是softmax函數(shù); 哈希函數(shù)Hx是子神經(jīng)網(wǎng)絡NNX的一部分,Hx將x為輸入,將輸入x通過正向傳播到第 L-1層,輸出x的k維哈希編碼: Hx(x) = sign(x(L-1)) (2) 其中e Rk為x在子神經(jīng)網(wǎng)絡第L-1層上的輸出,sign(_)為將實數(shù)轉換為 二值哈希編碼的函數(shù); 對于另外一個模態(tài)數(shù)據(jù)所對應的哈希函數(shù)H%采用相同的方法得到。
3. 根據(jù)權利要求1所述的一種基于神經(jīng)網(wǎng)絡的跨媒體哈希索引方法,其特征在于所述 的步驟3)包括: 分別在哈希編碼層和輸出層設計如下兩個損失函數(shù),將兩個網(wǎng)絡NNX和NNy融合,實現(xiàn) 對不同模態(tài)數(shù)據(jù)的統(tǒng)一表達, 保持模態(tài)間數(shù)據(jù)對應性的損失函數(shù):對于存在對應關系的來自不同模態(tài)數(shù)據(jù),這一損 失函數(shù)將保證其在哈希編碼層編碼盡可能相似或一致。由于難以對二值哈希編碼進行求 導,因此在求解中先去掉二值函數(shù)sign( ?),直接將實數(shù)值作為數(shù)據(jù)在哈希編碼層的表達, 基于這一分析,在公式(3)中定義了損失函數(shù)匕:
其中X^,分別為來自不同模態(tài)、存在對應關系的一對數(shù)據(jù)x,y在哈希編碼層上 的表達; 保持模態(tài)內(nèi)數(shù)據(jù)鑒別性的損失函數(shù):對于來自同一模態(tài)的數(shù)據(jù),如果它們具有相同的 類別標簽,則應該保證這些具有相同類別標簽的數(shù)據(jù)在神經(jīng)網(wǎng)絡輸出層的表達盡可能相似 或一致,基于這一分析,在公式(4)中定義損失函數(shù)€2:
其中X,y為來自不同模態(tài)、存在對應關系的一對數(shù)據(jù),xa),ya)分別為它們在輸出層上 的表達,t為它們對應的類別標簽,KL( ?)為KL-散度函數(shù),用于衡量數(shù)據(jù)在輸出層表達和 類別標簽的一致性; 將兩個損失函數(shù)結合起來,對數(shù)據(jù)集X和Y內(nèi)所有數(shù)據(jù)形成了如公式(5)的整體損失 函數(shù):
其中A為平衡兩個損失項的參數(shù); 通過最小化公式(5)中所定義的損失函數(shù),并采用經(jīng)典的反向傳播算法,對整個網(wǎng)絡 中參數(shù)進行微調,直到整個神經(jīng)網(wǎng)絡收斂或達到最大迭代次數(shù)。
【文檔編號】G06F17/30GK104346440SQ201410531086
【公開日】2015年2月11日 申請日期:2014年10月10日 優(yōu)先權日:2014年10月10日
【發(fā)明者】湯斯亮, 吳飛, 余宙, 邵健, 莊越挺 申請人:浙江大學