亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

跨媒體稀疏哈希索引方法

文檔序號:6511054閱讀:431來源:國知局
跨媒體稀疏哈希索引方法
【專利摘要】本發(fā)明公開了一種跨媒體稀疏哈希索引方法。包括如下步驟:(1)對多個模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系利用超圖進(jìn)行統(tǒng)一建模(2)利用字典學(xué)習(xí)框架同時學(xué)習(xí)多個模態(tài)的字典,同時施加稀疏和超圖關(guān)聯(lián)關(guān)系的正則約束,對每個模態(tài)的數(shù)據(jù)學(xué)習(xí)得到相應(yīng)的字典(3)將學(xué)習(xí)得到的字典作為哈希函數(shù),對新的數(shù)據(jù)利用對應(yīng)模態(tài)的字典進(jìn)行稀疏編碼(4)利用相應(yīng)的哈希策略把稀疏編碼轉(zhuǎn)變?yōu)橄∈杈幋a集合從而把稀疏編碼相似性計算問題轉(zhuǎn)變?yōu)榧舷嗨菩杂嬎銌栴},利用類似jaccard距離度量方式進(jìn)行相似性計算。利用該方法可以實現(xiàn)基于內(nèi)容的海量數(shù)據(jù)的高效跨媒體檢索。用戶可以通過提交任意的模態(tài)的檢索例子去檢索任意模態(tài)的媒體對象。
【專利說明】跨媒體稀疏哈希索引方法
【技術(shù)領(lǐng)域】
[0001 ] 本發(fā)明涉及跨媒體檢索,尤其涉及一種基于海量數(shù)據(jù)的跨媒體高效索引方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展和社交網(wǎng)絡(luò)的風(fēng)靡,網(wǎng)絡(luò)上的多媒體數(shù)據(jù)的數(shù)量正在以驚人的速度增長。多媒體數(shù)據(jù)具有復(fù)雜的語義,難以直接進(jìn)行度量,一般的做法是對其進(jìn)行特征抽取得到相應(yīng)的特征。通常這些特征都是高維的,因此,多媒體數(shù)據(jù)的檢索問題就轉(zhuǎn)變?yōu)榱烁呔S數(shù)據(jù)的檢索問題。傳統(tǒng)的暴力的線性比較的策略在面對大規(guī)模高維數(shù)據(jù)的時候的時間復(fù)雜度顯然不能滿足用戶的在線搜索需求。此時,人們需要一種有效的索引機(jī)制以實現(xiàn)高維數(shù)據(jù)地高效檢索。哈希方法是近些年來的高維索引的熱點(diǎn)研究方向。它的核心的思想就是用近似最近鄰代替?zhèn)鹘y(tǒng)的最近鄰的來實現(xiàn)海量高維數(shù)據(jù)的檢索。相對于檢索的準(zhǔn)確性,用戶更注重搜索的速度,在大多數(shù)情況下,完全精確的查找并不是必須的,近似解已經(jīng)足以滿足用戶絕大多數(shù)的要求。給定一個高維數(shù)據(jù)的搜索,通過哈希函數(shù)將其映射為簡短的哈希編碼,在數(shù)據(jù)集(查找和它具有相同或相近編碼的數(shù)據(jù)作為搜索結(jié)果。由于哈希編碼的相似性計算是非常高效的,因此在面對海量數(shù)據(jù)的時候哈希方法也能取得很好的查詢性能。
[0003]多媒體數(shù)據(jù)的另一個特性就是多模態(tài)的數(shù)據(jù)存在共生關(guān)系。舉例來說,一張網(wǎng)絡(luò)圖像除了有圖片本身,還有一些描述信息如標(biāo)題、用戶的標(biāo)注信息、評論信息等;一則新聞報道除了有文字的描述通常還有與之相關(guān)的新聞圖片??缑襟w檢索的目標(biāo)就是合理地利用同一模態(tài)內(nèi)數(shù)據(jù)的相似性以及不同模態(tài)的數(shù)據(jù)已知的關(guān)聯(lián)關(guān)系,在不同媒體之間建立“橋梁”,使得不同模態(tài)的數(shù)據(jù)可以在統(tǒng)一的度量空間進(jìn)行相似性比較。為了能對海量的多模態(tài)的多媒體數(shù)據(jù)實現(xiàn)高效的跨媒體檢索,相應(yīng)的跨媒體哈希索引算法被相繼提出。
[0004]已有的跨媒體哈希算法大多還是基于流形學(xué)習(xí)的框架,學(xué)習(xí)的哈希函數(shù)試圖在保留每個模態(tài)的數(shù)據(jù)的流形的同時,將不同模態(tài)映射到同一個子空間內(nèi)并將不同模態(tài)的流形對齊。近年來,人們發(fā)現(xiàn)字典學(xué)習(xí)的方法也可以很好地用學(xué)習(xí)得到的字典對數(shù)據(jù)進(jìn)行有效地表達(dá)。本發(fā)明提出的方法就是基于字典學(xué)習(xí)的框架來來進(jìn)行多模態(tài)字典學(xué)習(xí),并把學(xué)習(xí)得到的字典作為哈希函數(shù)建立跨媒體哈希索引。

【發(fā)明內(nèi)容】

[0005]本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足,提供一種跨媒體稀疏哈希索引的方法。
[0006]跨媒體稀疏哈希索引方法包括如下步驟:
[0007]I)對多個模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系利用超圖進(jìn)行統(tǒng)一建模;模態(tài)內(nèi)的相似性使用數(shù)據(jù)的底層特征的歐氏距離,模態(tài)間的關(guān)聯(lián)利用不同模態(tài)數(shù)據(jù)已知的關(guān)聯(lián)關(guān)系;
[0008]2)將統(tǒng)一超圖約束引入多模態(tài)字典學(xué)習(xí)的框架內(nèi),使得學(xué)習(xí)得到的多模態(tài)字典能保留模態(tài)內(nèi)的相似性以及模態(tài)間的關(guān)聯(lián)關(guān)系;
[0009]3)將學(xué)習(xí)得到的字典作為哈希函數(shù),對新的數(shù)據(jù)利用對應(yīng)模態(tài)的字典進(jìn)行稀疏編碼;
[0010]4)將稀疏編碼通過哈希策略轉(zhuǎn)化為稀疏編碼集,并使用類jaccard距離來計算集合之間的相似度。
[0011]所述的步驟2)包括:
[0012]給出如下基于最小重建誤差的目標(biāo)函數(shù),以實現(xiàn)多模態(tài)字典學(xué)習(xí):
【權(quán)利要求】
1.一種跨媒體稀疏哈希索引方法,其特征在于包括如下步驟: 1)對多個模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系利用超圖進(jìn)行統(tǒng)一建模;模態(tài)內(nèi)的相似性使用數(shù)據(jù)的底層特征的歐氏距離,模態(tài)間的關(guān)聯(lián)利用不同模態(tài)數(shù)據(jù)已知的關(guān)聯(lián)關(guān)系; 2)將統(tǒng)一超圖約束引入多模態(tài)字典學(xué)習(xí)的框架內(nèi),使得學(xué)習(xí)得到的多模態(tài)字典能保留模態(tài)內(nèi)的相似性以及模態(tài)間的關(guān)聯(lián)關(guān)系; 3)將學(xué)習(xí)得到的字典作為哈希函數(shù),對新的數(shù)據(jù)利用對應(yīng)模態(tài)的字典進(jìn)行稀疏編碼; 4)將稀疏編碼通過哈希策略轉(zhuǎn)化為稀疏編碼集,并使用類jaccard距離來計算集合之間的相似度。
2. 根據(jù)權(quán)利要求1所述的一種跨媒體稀疏哈希索引方法,其特征在于所述的步驟2)包括: 給出如下基于最小重建誤差的目標(biāo)函數(shù),以實現(xiàn)多模態(tài)字典學(xué)習(xí):
3.根據(jù)權(quán)利要求1所述的一種跨媒體稀疏哈希索引方法,其特征在于所述的步驟4)包括: 假設(shè)數(shù)據(jù)X的用其模態(tài)學(xué)習(xí)得到的字典Dx進(jìn)行稀疏編碼后得到再將稀疏編碼通過哈希方法生成稀疏編碼集:
【文檔編號】G06F17/30GK103473307SQ201310410588
【公開日】2013年12月25日 申請日期:2013年9月10日 優(yōu)先權(quán)日:2013年9月10日
【發(fā)明者】吳飛, 張寅 , 余宙, 邵健, 莊越挺 申請人:浙江大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1