一種基于神經(jīng)網(wǎng)絡的跨媒體哈希索引方法

文檔序號：6629732閱讀：275來源：國知局

一種基于神經(jīng)網(wǎng)絡的跨媒體哈希索引方法
【專利摘要】本發(fā)明公開了一種基于神經(jīng)網(wǎng)絡的跨媒體哈希索引方法，包括如下步驟：（1）設計了基于神經(jīng)網(wǎng)絡的哈希函數(shù)學習的網(wǎng)絡結構（2）對每種模態(tài)的神經(jīng)網(wǎng)絡進行逐層預訓練（3）將不同模態(tài)的神經(jīng)網(wǎng)絡融合成一個新的網(wǎng)絡，設計模態(tài)間和模態(tài)內(nèi)數(shù)據(jù)的損失函數(shù)，基于損失函數(shù)來通過反向傳播方式對整個網(wǎng)絡參數(shù)進行微調（4）去掉網(wǎng)絡的輸出層，將哈希編碼層的輸出結構作為哈希函數(shù)的輸出以支持跨模態(tài)的快速檢索。利用該方法可以實現(xiàn)基于內(nèi)容的海量數(shù)據(jù)的高效跨媒體檢索，用戶可以通過提交一種類型檢索數(shù)據(jù)去檢索另外一種類型數(shù)據(jù)。
【專利說明】-種基于神經(jīng)網(wǎng)絡的跨媒體哈希索引方法

【技術領域】
[0001 ] 本發(fā)明涉及跨媒體檢索，尤其涉及一種基于海量數(shù)據(jù)的跨媒體高效索引方法。

【背景技術】
[0002] 互聯(lián)網(wǎng)技術的高速發(fā)展和社交網(wǎng)絡的風靡，使得互聯(lián)網(wǎng)上的多模態(tài)數(shù)據(jù)的數(shù)量在以驚人的速度增長。舉例來說，用戶向社交網(wǎng)絡上傳圖片時一般同時會對圖片添加一些描述性文本。因此，如何利用不同模態(tài)數(shù)據(jù)之間關聯(lián)關系來實現(xiàn)跨模態(tài)（也稱作跨媒體）檢索是一個非常有意義的研究問題。由于網(wǎng)絡上多模態(tài)數(shù)據(jù)的數(shù)據(jù)量非常龐大，通過哈希索引技術來提高跨媒體檢索性能是最近研究熱點。
[0003] 已有的跨媒體哈希算法大多基于流形學習、字典學習或生成概率圖模型。它們的目標在于通過使用學習得到的哈希函數(shù)將不同模態(tài)數(shù)據(jù)映射到同一個子空間內(nèi)，同時保持數(shù)據(jù)在模態(tài)內(nèi)相似性和模態(tài)間關聯(lián)關系。本發(fā)明提出了一種基于神經(jīng)網(wǎng)絡的跨媒體哈希算法，使得得到的哈希索引不僅保持模態(tài)間數(shù)據(jù)關聯(lián)性，也具有模態(tài)內(nèi)數(shù)據(jù)鑒別性。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明的目的是克服現(xiàn)有技術的不足，提供一種基于神經(jīng)網(wǎng)絡的跨媒體哈希哈希索引的方法。
[0005] -種基于神經(jīng)網(wǎng)絡的跨媒體哈希索引方法包括如下步驟：
[0006] 1)設計基于神經(jīng)網(wǎng)絡的哈希函數(shù)的網(wǎng)絡結構；
[0007] 2)對每種模態(tài)的神經(jīng)網(wǎng)絡進行逐層預訓練；
[0008] 3)將不同模態(tài)的神經(jīng)網(wǎng)絡融合成一個新的網(wǎng)絡，設計模態(tài)間和模態(tài)內(nèi)數(shù)據(jù)的損失函數(shù)，基于損失函數(shù)來通過反向傳播方式對整個網(wǎng)絡參數(shù)進行微調；
[0009] 4)去掉網(wǎng)絡的輸出層，將哈希編碼層的輸出結構作為哈希函數(shù)的輸出，以支持跨模態(tài)的快速檢索。
[0010] 所述的步驟1)包括：
[0011] 對于得到的包含多模態(tài)類型數(shù)據(jù)的多媒體文檔集合，構建分別屬于每個模態(tài)類型的數(shù)據(jù)集；假設構成多媒體文檔的數(shù)據(jù)來自兩個模態(tài)：數(shù)據(jù)集

【權利要求】
1. 一種基于神經(jīng)網(wǎng)絡的跨媒體哈希索引方法，其特征在于包括如下步驟： 1) 設計基于神經(jīng)網(wǎng)絡的哈希函數(shù)的網(wǎng)絡結構； 2) 對每種模態(tài)的神經(jīng)網(wǎng)絡進行逐層預訓練； 3) 將不同模態(tài)的神經(jīng)網(wǎng)絡融合成一個新的網(wǎng)絡，設計模態(tài)間和模態(tài)內(nèi)數(shù)據(jù)的損失函數(shù)，基于損失函數(shù)來通過反向傳播方式對整個網(wǎng)絡參數(shù)進行微調； 4) 去掉網(wǎng)絡的輸出層，將哈希編碼層的輸出結構作為哈希函數(shù)的輸出，以支持跨模態(tài) 的快速檢索。
2. 根據(jù)權利要求1所述的一種基于神經(jīng)網(wǎng)絡的跨媒體哈希索引方法，其特征在于所述的步驟1)包括：對于得到的包含多模態(tài)類型數(shù)據(jù)的多媒體文檔集合，構建分別屬于每個模態(tài)類型的數(shù) 據(jù)集；假設構成多媒體文檔的數(shù)據(jù)來自兩個模態(tài)：數(shù)據(jù)集1 F = 分別為兩個模態(tài)數(shù)據(jù)的矩陣表示，其中djPdy對應兩個模態(tài)數(shù)據(jù)的維度，通常dx關dy ;n是數(shù)據(jù)集X和Y中所包含數(shù)據(jù)的個數(shù)；此外，T = [ti，t2…， tn] e irxn為數(shù)據(jù)集X和Y對應的類別標簽矩陣，每一個ti e Re為兩種模態(tài)數(shù)據(jù)點對Xi和yi所對應的類別標簽向量，= 1表示Xi和yi均屬于第j個類別，c為所有類別的個數(shù)；神經(jīng)網(wǎng)絡結構由兩個子神經(jīng)網(wǎng)絡組成，記作NNX和NNy，對應分別對X和Y中數(shù)據(jù)的逐層學習，每個子神經(jīng)網(wǎng)絡NNX或NNy有L層，包含一個輸入層、一個輸出層、一個哈希編碼層以及剩下的L-3哈希函數(shù)層。對任意x e X(y e Y同理），將數(shù)據(jù)x沿著它對應模態(tài)的神經(jīng)子網(wǎng)絡NNX進行正向傳播，第1層的表達x(1)通過一組非線性變換后可得到1+1層的表達 x(1+1)，這一非線性變換如公式（1)所示 X(i+D_f(i) (ff(i)x(i)) ⑴ 其中W(1)為投影矩陣，f(1) ( ?)為非線性激活函數(shù)，在第一層到第L-2層，使用的非線性變換函數(shù)是sigmoid函數(shù)，在第L-1層使用非線性變換函數(shù)是softmax函數(shù)；哈希函數(shù)Hx是子神經(jīng)網(wǎng)絡NNX的一部分，Hx將x為輸入，將輸入x通過正向傳播到第 L-1層，輸出x的k維哈希編碼： Hx(x) = sign(x(L-1)) (2) 其中e Rk為x在子神經(jīng)網(wǎng)絡第L-1層上的輸出，sign(_)為將實數(shù)轉換為二值哈希編碼的函數(shù)；對于另外一個模態(tài)數(shù)據(jù)所對應的哈希函數(shù)H%采用相同的方法得到。
3. 根據(jù)權利要求1所述的一種基于神經(jīng)網(wǎng)絡的跨媒體哈希索引方法，其特征在于所述的步驟3)包括：分別在哈希編碼層和輸出層設計如下兩個損失函數(shù)，將兩個網(wǎng)絡NNX和NNy融合，實現(xiàn) 對不同模態(tài)數(shù)據(jù)的統(tǒng)一表達，保持模態(tài)間數(shù)據(jù)對應性的損失函數(shù)：對于存在對應關系的來自不同模態(tài)數(shù)據(jù)，這一損失函數(shù)將保證其在哈希編碼層編碼盡可能相似或一致。由于難以對二值哈希編碼進行求導，因此在求解中先去掉二值函數(shù)sign( ?)，直接將實數(shù)值作為數(shù)據(jù)在哈希編碼層的表達，基于這一分析，在公式（3)中定義了損失函數(shù)匕：
其中X^，分別為來自不同模態(tài)、存在對應關系的一對數(shù)據(jù)x，y在哈希編碼層上的表達；保持模態(tài)內(nèi)數(shù)據(jù)鑒別性的損失函數(shù)：對于來自同一模態(tài)的數(shù)據(jù)，如果它們具有相同的類別標簽，則應該保證這些具有相同類別標簽的數(shù)據(jù)在神經(jīng)網(wǎng)絡輸出層的表達盡可能相似或一致，基于這一分析，在公式（4)中定義損失函數(shù)€2:
其中X，y為來自不同模態(tài)、存在對應關系的一對數(shù)據(jù)，xa)，ya)分別為它們在輸出層上的表達，t為它們對應的類別標簽，KL( ?)為KL-散度函數(shù)，用于衡量數(shù)據(jù)在輸出層表達和類別標簽的一致性；將兩個損失函數(shù)結合起來，對數(shù)據(jù)集X和Y內(nèi)所有數(shù)據(jù)形成了如公式（5)的整體損失函數(shù)：
其中A為平衡兩個損失項的參數(shù)；通過最小化公式（5)中所定義的損失函數(shù)，并采用經(jīng)典的反向傳播算法，對整個網(wǎng)絡中參數(shù)進行微調，直到整個神經(jīng)網(wǎng)絡收斂或達到最大迭代次數(shù)。
【文檔編號】G06F17/30GK104346440SQ201410531086
【公開日】2015年2月11日申請日期:2014年10月10日優(yōu)先權日:2014年10月10日
【發(fā)明者】湯斯亮, 吳飛, 余宙, 邵健, 莊越挺申請人:浙江大學

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：湯斯亮;吳飛;余宙;邵健;莊越挺
技術所有人：浙江大學
我是此專利的發(fā)明人

上一篇：一種基于深度神經(jīng)網(wǎng)絡的跨媒體排序方法
上一篇：一種模板生成裝置制造方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

哈希索引相關技術

自適應哈希索引相關技術

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于神經(jīng)網(wǎng)絡的跨媒體哈希索引方法