本發(fā)明屬于計算機視覺和模式識別領(lǐng)域,涉及圖像與文本的互檢索,具體涉及一種基于非參數(shù)貝葉斯模型的監(jiān)督跨模態(tài)哈希檢索方法,可用于移動終端設(shè)備以及物聯(lián)網(wǎng)的圖像與文本互搜索服務(wù)。
背景技術(shù):
近年來,隨著社會經(jīng)濟的迅速發(fā)展和科學(xué)技術(shù)的不斷進步,多媒體數(shù)據(jù)已經(jīng)成為互聯(lián)網(wǎng)上的主要信息載體。這些數(shù)據(jù)呈現(xiàn)爆炸式增長,現(xiàn)階段,大數(shù)據(jù)改變著人們的工作和生活,同時也對學(xué)術(shù)界的科學(xué)研究產(chǎn)生了很大的影響。如何利用這些大數(shù)據(jù),如何對其進行高效率的存儲和管理,便成為我們最為關(guān)注的問題?;诠5淖罱徦阉魇墙鉀Q大規(guī)模多媒體數(shù)據(jù)存儲和管理有效的技術(shù)手段。現(xiàn)有的哈希方法研究方向大致劃分為三類:單模態(tài)哈希方法、多視圖哈希方法和跨模態(tài)哈希方法?;诠K惴ǖ膯我荒B(tài)數(shù)據(jù)檢索方法在圖像檢索領(lǐng)域已經(jīng)得到了較為充分地研究。而多視圖哈希方法在特定情況下可以轉(zhuǎn)換成單模態(tài)或者跨模態(tài)哈希問題,所以,對多視圖哈希方法的研究比較少。為了促進大規(guī)模相似性搜索的發(fā)展,近年來一些跨模態(tài)哈希檢索方法被提出??缒B(tài)哈希方法可以分為無監(jiān)督方法和有監(jiān)督方法,無監(jiān)督方法主要通過挖掘和保持多模態(tài)數(shù)據(jù)的潛在相關(guān)性來獲得哈希編碼,而有監(jiān)督跨模態(tài)哈希方法旨在利用訓(xùn)練數(shù)據(jù)類標信息的語義相似性,來提高哈希檢索的檢索精度?,F(xiàn)實生活中,多媒體數(shù)據(jù)量大、維度較高并且不同模態(tài)之間具有語義關(guān)聯(lián)性,所以如何得到高檢索精度的監(jiān)督哈希算法,實現(xiàn)跨模態(tài)數(shù)據(jù)之間的檢索,是我們現(xiàn)階段急需解決的問題?,F(xiàn)階段,研究人員已經(jīng)提出部分監(jiān)督跨模態(tài)哈希檢索方法。
例如bronsteinm,bronsteina和michelf等人在2010年的computervisionandpatternrecognition會議,發(fā)表了名為“datafusionthroughcross-modalitymetriclearningusingsimilaritysensitivehashing”的文章,提出了一種監(jiān)督的跨模態(tài)相似性敏感哈希方法。這一方法通過產(chǎn)生一些正負樣本對,然后將每一位哈希編碼的學(xué)習過程表示為一個二元分類問題,最后利用boosting的方式進行求解。但這一方法只保持了模態(tài)間的相似性,沒有考慮模態(tài)內(nèi)的相似性,檢索精度有待提高。
綜上,現(xiàn)階段存在的監(jiān)督跨模態(tài)哈希檢索方法利用數(shù)據(jù)類標信息不全面,對數(shù)據(jù)的描述不準確,從而影響跨模態(tài)檢索精度。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于針對上述已有技術(shù)的不足,提出了一種基于非參數(shù)貝葉斯模型的監(jiān)督跨模態(tài)哈希檢索方法,用于解決現(xiàn)有監(jiān)督跨模態(tài)哈希檢索方法中存在的檢索精度低的技術(shù)問題。
為實現(xiàn)上述目的,本發(fā)明采取的技術(shù)方案包括有如下步驟:
(1)獲取原始訓(xùn)練數(shù)據(jù),并對原始訓(xùn)練數(shù)據(jù)進行歸一化,得到歸一化訓(xùn)練數(shù)據(jù)x(t),其中,t表示歸一化訓(xùn)練數(shù)據(jù)的類型,且t∈{1,2},x(1)表示歸一化圖像訓(xùn)練數(shù)據(jù),x(2)表示歸一化文本訓(xùn)練數(shù)據(jù);
(2)獲取原始測試數(shù)據(jù),并對原始測試數(shù)據(jù)進行歸一化,得到歸一化測試數(shù)據(jù)y(t),其中,t表示歸一化測試數(shù)據(jù)的類型,且t∈{1,2},y(1)表示歸一化圖像測試數(shù)據(jù),y(2)表示歸一化文本測試數(shù)據(jù);
(3)對歸一化訓(xùn)練數(shù)據(jù)x(t)進行分類:根據(jù)歸一化訓(xùn)練數(shù)據(jù)x(t)所對應(yīng)的類標信息l,將歸一化圖像訓(xùn)練數(shù)據(jù)x(1)和歸一化文本訓(xùn)練數(shù)據(jù)x(2)均分為c類;
(4)獲取歸一化訓(xùn)練數(shù)據(jù)x(t)的三個訓(xùn)練數(shù)據(jù)參數(shù):
(4a)獲取歸一化訓(xùn)練數(shù)據(jù)x(t)的三個后驗分布:采用非參數(shù)貝葉斯模型,對歸一化訓(xùn)練數(shù)據(jù)x(t)中的每一個訓(xùn)練數(shù)據(jù)點
(4b)獲取歸一化訓(xùn)練數(shù)據(jù)x(t)的三個訓(xùn)練數(shù)據(jù)參數(shù):將每一個訓(xùn)練數(shù)據(jù)點
(5)獲取歸一化圖像訓(xùn)練數(shù)據(jù)x(1)和歸一化文本訓(xùn)練數(shù)據(jù)x(2)同屬于每一類的概率p(x(1),x(2)|k):
(5a)獲取歸一化訓(xùn)練數(shù)據(jù)x(t)每一個訓(xùn)練數(shù)據(jù)點
分別計算每一個訓(xùn)練數(shù)據(jù)
(5b)獲取圖像訓(xùn)練數(shù)據(jù)點
(6)獲取訓(xùn)練數(shù)據(jù)后驗概率p(k|x(1),x(2)):將概率p(x(1),x(2)|k)代入貝葉斯公式,計算訓(xùn)練數(shù)據(jù)后驗概率p(k|x(1),x(2));
(7)獲取歸一化圖像訓(xùn)練數(shù)據(jù)x(1)和歸一化文本訓(xùn)練數(shù)據(jù)x(2)統(tǒng)一的r位哈希編碼btr:
(7a)隨機生成一個矩陣m=[mch]c×r,其中,mch表示矩陣m中的一個元素,且mch∈(0,1);
(7b)將訓(xùn)練數(shù)據(jù)后驗概率p(k|x(1),x(2))和矩陣m=[mch]c×r相乘,得到歸一化圖像訓(xùn)練數(shù)據(jù)x(1)和歸一化文本訓(xùn)練數(shù)據(jù)x(2)統(tǒng)一的r位哈希編碼btr的后驗概率p(btr|x(1),x(2));
(7c)對歸一化圖像訓(xùn)練數(shù)據(jù)x(1)和歸一化文本訓(xùn)練數(shù)據(jù)x(2)統(tǒng)一的r位哈希編碼btr的后驗概率p(btr|x(1),x(2))中的每一個元素
(8)獲取歸一化測試數(shù)據(jù)y(t)的r位哈希編碼
(8a)獲取歸一化測試數(shù)據(jù)y(t)屬于每一類的概率p(y(t)|k):假設(shè)歸一化測試數(shù)據(jù)y(t)的所有測試數(shù)據(jù)服從高斯分布,即
(8b)獲取歸一化測試數(shù)據(jù)后驗概率p(k|y(t)):將概率p(y(t)|k)代入貝葉斯公式,計算得到歸一化測試數(shù)據(jù)后驗概率p(k|y(t));
(8c)將歸一化測試數(shù)據(jù)后驗概率p(k|y(t))和矩陣m=[mch]c×r相乘,得到歸一化測試數(shù)據(jù)y(t)的r位哈希編碼
(8d)對歸一化測試數(shù)據(jù)y(t)的r位哈希編碼
(9)計算歸一化測試數(shù)據(jù)y(t)的哈希編碼
(10)獲取歸一化測試數(shù)據(jù)y(t)的檢索結(jié)果:分別獲取漢明距離矩陣dh中每一行最小的前a個漢明距離值,并將得到的每一行的a個漢明距離值所對應(yīng)的訓(xùn)練數(shù)據(jù)作為歸一化測試數(shù)據(jù)y(t)的檢索結(jié)果,完成基于非參數(shù)貝葉斯模型的監(jiān)督跨模態(tài)哈希檢索。
本發(fā)明與現(xiàn)有技術(shù)相比,具有以下優(yōu)點:
本發(fā)明利用數(shù)據(jù)類標信息對訓(xùn)練數(shù)據(jù)進行分類,按照數(shù)據(jù)實際分布情況,將訓(xùn)練數(shù)據(jù)分為整體均值、所屬類別均值以及誤差三部分,使用狄利克雷過程作為實際數(shù)據(jù)所屬類別均值的先驗分布,使用非參數(shù)貝葉斯模型對數(shù)據(jù)分布進行有效地描述,明顯提高了跨模態(tài)哈希檢索的精度。
附圖說明
圖1為本發(fā)明的實現(xiàn)流程圖;
圖2為本發(fā)明與現(xiàn)有跨模態(tài)哈希檢索方法在wiki數(shù)據(jù)庫下的采樣前300個檢索結(jié)果精度隨著編碼長度變化的曲線對比圖,其中,圖2(a)為采樣前300個檢索結(jié)果的圖像查詢文本的精度隨著編碼長度變化曲線圖,圖2(b)為采樣前300個檢索結(jié)果的文本查詢圖像的精度隨著編碼長度變化曲線圖;
圖3為本發(fā)明與現(xiàn)有跨模態(tài)哈希檢索方法在wiki數(shù)據(jù)庫下的精度-召回率實驗結(jié)果曲線對比圖,其中,圖3(a)為編碼長度取32位的圖像查詢文本精度-召回率曲線圖,圖3(b)為編碼長度取32位的文本查詢圖像精度-召回率曲線圖;
圖4為本發(fā)明與現(xiàn)有跨模態(tài)哈希檢索方法在labelme數(shù)據(jù)庫下的采樣前300個檢索結(jié)果精度隨著編碼長度變化的曲線對比圖,其中,圖4(a)為采樣前300個檢索結(jié)果的圖像查詢文本的精度隨著編碼長度變化曲線圖,圖4(b)為采樣前300個檢索結(jié)果的文本查詢圖像的精度隨著編碼長度變化曲線圖;
圖5為本發(fā)明與現(xiàn)有跨模態(tài)哈希檢索方法在labelme數(shù)據(jù)庫下的精度-召回率實驗結(jié)果曲線對比圖,其中,圖5(a)為編碼長度取32位的圖像查詢文本精度-召回率曲線圖,圖5(b)為編碼長度取32位的文本查詢圖像精度-召回率曲線圖。
具體實施方式
下面結(jié)合附圖和具體實施例,對本發(fā)明作進一步詳細描述。
參照圖1,基于非參數(shù)貝葉斯模型的監(jiān)督跨模態(tài)哈希檢索方法,包括如下步驟:
步驟1)獲取原始訓(xùn)練數(shù)據(jù),并對原始訓(xùn)練數(shù)據(jù)進行歸一化,得到歸一化訓(xùn)練數(shù)據(jù)x(t),其中,t表示歸一化訓(xùn)練數(shù)據(jù)的類型,且t∈{1,2},x(1)表示歸一化圖像訓(xùn)練數(shù)據(jù),x(2)表示歸一化文本訓(xùn)練數(shù)據(jù);
步驟2)獲取原始測試數(shù)據(jù),并對原始測試數(shù)據(jù)進行歸一化,得到歸一化測試數(shù)據(jù)y(t),其中,t表示歸一化測試數(shù)據(jù)的類型,且t∈{1,2},y(1)表示歸一化圖像測試數(shù)據(jù),y(2)表示歸一化文本測試數(shù)據(jù);
步驟3)對歸一化訓(xùn)練數(shù)據(jù)x(t)進行分類:根據(jù)歸一化訓(xùn)練數(shù)據(jù)x(t)所對應(yīng)的類標信息l,將歸一化圖像訓(xùn)練數(shù)據(jù)x(1)和歸一化文本訓(xùn)練數(shù)據(jù)x(2)均分為c類;
步驟4)獲取歸一化訓(xùn)練數(shù)據(jù)x(t)的三個訓(xùn)練數(shù)據(jù)參數(shù):
(4a)獲取歸一化訓(xùn)練數(shù)據(jù)x(t)的三個后驗分布:采用非參數(shù)貝葉斯模型,對歸一化訓(xùn)練數(shù)據(jù)x(t)中的每一個訓(xùn)練數(shù)據(jù)點
(i)歸一化訓(xùn)練數(shù)據(jù)x(t)的訓(xùn)練數(shù)據(jù)整體均值
(ii)歸一化訓(xùn)練數(shù)據(jù)x(t)的訓(xùn)練數(shù)據(jù)所屬類別均值
(iii)歸一化訓(xùn)練數(shù)據(jù)x(t)的訓(xùn)練數(shù)據(jù)協(xié)方差矩陣的逆
其中,i表示第i個訓(xùn)練數(shù)據(jù)點,且i=1,2,…,n,n表示數(shù)據(jù)點的個數(shù),c表示分類類別,且c=1,2,…,c,
(4b)獲取歸一化訓(xùn)練數(shù)據(jù)x(t)的三個訓(xùn)練數(shù)據(jù)參數(shù):將每一個訓(xùn)練數(shù)據(jù)點
步驟5)獲取歸一化圖像訓(xùn)練數(shù)據(jù)x(1)和歸一化文本訓(xùn)練數(shù)據(jù)x(2)同屬于每一類的概率p(x(1),x(2)|k):
(5a)獲取歸一化訓(xùn)練數(shù)據(jù)x(t)每一個訓(xùn)練數(shù)據(jù)點
分別計算每一個訓(xùn)練數(shù)據(jù)
(5b)獲取圖像訓(xùn)練數(shù)據(jù)點
步驟6)獲取訓(xùn)練數(shù)據(jù)后驗概率p(k|x(1),x(2)):將概率p(x(1),x(2)|k)代入貝葉斯公式,計算訓(xùn)練數(shù)據(jù)后驗概率p(k|x(1),x(2)),計算訓(xùn)練數(shù)據(jù)后驗概率p(k|x(1),x(2))的表達式為:
其中,p(x(1),x(2)|c)表示歸一化圖像訓(xùn)練數(shù)據(jù)x(1)和歸一化文本訓(xùn)練數(shù)據(jù)x(2)同屬于第c類的概率,p(k)表示類別的邊緣分布,p(k)中有c個元素,此處假設(shè)p(k)中每一個元素均服從均勻分布,即
步驟7)獲取歸一化圖像訓(xùn)練數(shù)據(jù)x(1)和歸一化文本訓(xùn)練數(shù)據(jù)x(2)統(tǒng)一的r位哈希編碼btr:
(7a)隨機生成一個矩陣m=[mch]c×r,其中,mch表示矩陣m中的一個元素,且mch∈(0,1);
(7b)將訓(xùn)練數(shù)據(jù)后驗概率p(k|x(1),x(2))和矩陣m=[mch]c×r相乘,得到歸一化圖像訓(xùn)練數(shù)據(jù)x(1)和歸一化文本訓(xùn)練數(shù)據(jù)x(2)統(tǒng)一的r位哈希編碼btr的后驗概率p(btr|x(1),x(2));
(7c)對歸一化圖像訓(xùn)練數(shù)據(jù)x(1)和歸一化文本訓(xùn)練數(shù)據(jù)x(2)統(tǒng)一的r位哈希編碼btr的后驗概率p(btr|x(1),x(2))中的每一個元素pbtr進行伯努利采樣,得到歸一化圖像訓(xùn)練數(shù)據(jù)x(1)和歸一化文本訓(xùn)練數(shù)據(jù)x(2)統(tǒng)一的r位哈希編碼btr,伯努利采樣的過程如下:
(7c1)隨機產(chǎn)生一個和歸一化圖像訓(xùn)練數(shù)據(jù)x(1)和歸一化文本訓(xùn)練數(shù)據(jù)x(2)統(tǒng)一的r位哈希編碼btr的后驗概率p(btr|x(1),x(2))同大小的隨機數(shù)矩陣ttr;
(7c2)比較歸一化圖像訓(xùn)練數(shù)據(jù)x(1)和歸一化文本訓(xùn)練數(shù)據(jù)x(2)統(tǒng)一的r位哈希編碼btr的后驗概率p(btr|x(1),x(2))中的每一個元素
步驟8)獲取歸一化測試數(shù)據(jù)y(t)的r位哈希編碼
(8a)獲取歸一化測試數(shù)據(jù)y(t)屬于每一類的概率p(y(t)|k):假設(shè)歸一化測試數(shù)據(jù)y(t)的所有測試數(shù)據(jù)服從高斯分布,即
(8b)獲取歸一化測試數(shù)據(jù)后驗概率p(k|y(t)):將概率p(y(t)|k)代入貝葉斯公式,計算得到歸一化測試數(shù)據(jù)后驗概率p(k|y(t)),計算歸一化測試數(shù)據(jù)后驗概率p(k|y(t))的表達式為:
其中,p(y(t)|c)表示歸一化測試數(shù)據(jù)y(t)屬于第c類的概率;
(8c)將歸一化測試數(shù)據(jù)后驗概率p(k|y(t))和矩陣m=[mch]c×r相乘,得到歸一化測試數(shù)據(jù)y(t)的r位哈希編碼
(8d)對歸一化測試數(shù)據(jù)y(t)的r位哈希編碼
(8d1)隨機產(chǎn)生一個和歸一化測試數(shù)據(jù)y(t)的r位哈希編碼
(8d2)比較歸一化測試數(shù)據(jù)y(t)的r位哈希編碼
步驟9)計算歸一化測試數(shù)據(jù)y(t)的哈希編碼
步驟10)獲取歸一化測試數(shù)據(jù)y(t)的檢索結(jié)果:分別獲取漢明距離矩陣dh中每一行最小的前a個漢明距離值,并將得到的每一行a個漢明距離值所對應(yīng)的訓(xùn)練數(shù)據(jù)作為歸一化測試數(shù)據(jù)y(t)的檢索結(jié)果,完成基于非參數(shù)貝葉斯模型的監(jiān)督跨模態(tài)哈希檢索。
以下結(jié)合仿真實驗,對本發(fā)明的技術(shù)效果作進一步說明。
1.仿真條件:
本發(fā)明的仿真是在中央處理器為intel(r)core(tm)i3-21003.10ghz、內(nèi)存16g、windows7操作系統(tǒng)上,運用matlab軟件進行的實驗仿真,每種仿真均重復(fù)獨立運行10次,取其平均值作為最終結(jié)果。
實驗中的參數(shù)設(shè)置為:對于wiki數(shù)據(jù)庫和labelme數(shù)據(jù)庫,設(shè)置調(diào)節(jié)參數(shù)α0=1,基礎(chǔ)分布g0為標準正態(tài)分布。設(shè)置wiki數(shù)據(jù)庫尺度矩陣vd=0.001i,設(shè)置labelme數(shù)據(jù)庫尺度矩陣vd=0.1i。
2.仿真內(nèi)容及結(jié)果分析
本發(fā)明與現(xiàn)有跨模態(tài)哈希檢索方法進行了對比,作為對比的哈希方法分別是協(xié)同矩陣分解哈希(collectivematrixfactorizationhashing,cmfh)方法、跨媒體哈希(inter-mediahashing,imh)方法以及跨視角哈希(cross-viewhashing,cvh)方法。
仿真實驗中,設(shè)置編碼長度分別為16位、32位、64位以及128位,對wiki數(shù)據(jù)庫和labelme數(shù)據(jù)庫來評估檢索精度。圖2和圖3為wiki數(shù)據(jù)庫的仿真結(jié)果圖;圖4和圖5為labelme數(shù)據(jù)庫的仿真結(jié)果圖。
仿真1:在wiki數(shù)據(jù)庫下分別采用本發(fā)明方法和現(xiàn)有三種跨模態(tài)哈希檢索方法進行性能對比,實驗結(jié)果圖如圖2和圖3所示。其中,
圖2(a)為隨著編碼長度的變化采樣前300圖像查詢文本精度曲線圖,橫軸表示哈希編碼長度,縱軸表示采樣前300圖像查詢文本結(jié)果的精度。圖中可見,本發(fā)明的圖像查詢文本的精度完全高于其它三個對比方法,表現(xiàn)出了良好的圖像對文本的檢索性能。
圖2(b)為隨著編碼長度的變化采樣前300文本查詢圖像精度曲線圖,橫軸表示哈希編碼長度,縱軸表示采樣前300文本查詢圖像結(jié)果的精度。圖中可見,本發(fā)明的文本查詢圖像的精度完全高于其它三個對比方法,表現(xiàn)出了良好的文本對圖像的檢索性能。
圖3(a)為編碼長度取32位的圖像查詢文本精度-召回率曲線圖,橫軸表示召回率,縱軸表示精度。圖中可見,本發(fā)明結(jié)果曲線與坐標軸所圍的面積和cmfh方法持平,表示在編碼長度取32位時,兩者的圖像檢索文本性能相差不多。
圖3(b)為編碼長度取32位的文本查詢圖像精度-召回率曲線圖,橫軸表示召回率,縱軸表示精度。圖中可見,本發(fā)明結(jié)果曲線與坐標軸所圍的面積比其它三種對比方法都大,表示在編碼長度取32位時,本發(fā)明的文本檢索圖像性能良好。
仿真2:在labelme數(shù)據(jù)庫下分別采用本發(fā)明方法和現(xiàn)有三種跨模態(tài)檢索方法進行檢索結(jié)果對比,實驗結(jié)果圖如圖4和圖5所示。其中,
圖4(a)為隨著編碼長度的變化采樣前300圖像查詢文本精度曲線圖,橫軸表示哈希編碼長度,縱軸表示采樣前300圖像查詢文本結(jié)果的精度。圖中可見,本發(fā)明的圖像查詢文本的精度完全高于其它三個對比方法,表現(xiàn)出了良好的圖像對文本的檢索性能。
圖4(b)為隨著編碼長度的變化采樣前300文本查詢圖像精度曲線圖,橫軸表示哈希編碼長度,縱軸表示采樣前300文本查詢圖像結(jié)果的精度。圖中可見,本發(fā)明的文本查詢圖像的精度完全高于其它三個對比方法,表現(xiàn)出了良好的文本對圖像的檢索性能。
圖5(a)為編碼長度取32位的圖像查詢文本精度-召回率曲線圖,橫軸表示召回率,縱軸表示精度。圖中可見,本發(fā)明結(jié)果曲線與坐標軸所圍的面積比其它三種對比方法都大,表示在編碼長度取32位時,本發(fā)明的圖像檢索文本性能良好。
圖5(b)為編碼長度取32位的文本查詢圖像精度-召回率曲線圖,橫軸表示召回率,縱軸表示精度。圖中可見,本發(fā)明結(jié)果曲線與坐標軸所圍的面積比其它三種對比方法稍大,表示在編碼長度取32位時,本發(fā)明的文本檢索圖像性能比其它三種對比方法稍好。
由圖2、圖3、圖4和圖5的仿真結(jié)果可見,采用本發(fā)明進行跨模態(tài)檢索的精度高于采用現(xiàn)有方法進行跨模態(tài)檢索的精度。所以,與現(xiàn)有的技術(shù)相比,本發(fā)明能夠有效利用非參數(shù)貝葉斯模型描述數(shù)據(jù)實際分布,提高跨模態(tài)檢索的精度。