基于隱空間學(xué)習(xí)和雙向排序?qū)W習(xí)的跨媒體排序方法
【專利摘要】本發(fā)明公開了一種基于隱空間學(xué)習(xí)和雙向排序?qū)W習(xí)的跨媒體排序方法。包括如下步驟:1)將文本檢索圖像的排序樣本和圖像檢索文本的排序樣本統(tǒng)一構(gòu)建為訓(xùn)練樣本;2)對構(gòu)建得到的訓(xùn)練樣本進(jìn)行基于隱空間學(xué)習(xí)和雙向排序?qū)W習(xí)的跨媒體排序?qū)W習(xí),得到多媒體語義空間以及跨媒體排序模型;3)使用學(xué)習(xí)得到的跨媒體排序模型進(jìn)行跨媒體排序。本發(fā)明不僅可以應(yīng)用于文本檢索圖像以及圖像檢索文本,而且由于同時(shí)對兩個(gè)檢索方向進(jìn)行建模,得到的檢索模型的語義理解能力更強(qiáng),檢索精度較于僅考慮單向排序?qū)W習(xí)的方法更好。
【專利說明】基于隱空間學(xué)習(xí)和雙向排序?qū)W習(xí)的跨媒體排序方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明設(shè)計(jì)跨媒體檢索,尤其涉及一種基于隱空間學(xué)習(xí)和雙向排序?qū)W習(xí)的跨媒體排序方法。
【背景技術(shù)】
[0002]圖像是當(dāng)前非常常見的文件類型,它具有一定的語義。一般來說,圖像由一個(gè)個(gè)的像素點(diǎn)組成,計(jì)算機(jī)并不能直接理解圖像所蘊(yùn)含的語義信息。隨著多媒體技術(shù)和網(wǎng)絡(luò)技術(shù)的發(fā)展,越來越多的圖像涌現(xiàn)出來。檢索技術(shù)可以幫助用戶在海量的數(shù)據(jù)中快速查找到自己感興趣的內(nèi)容,成為計(jì)算機(jī)應(yīng)用技術(shù)中越來越重要的領(lǐng)域。傳統(tǒng)的檢索技術(shù),無論是基于關(guān)鍵詞的檢索還是基于內(nèi)容的檢索,都不能很好地滿足用戶希望用文本檢索圖像或者圖像檢索文本的需求?;陉P(guān)鍵詞的檢索系統(tǒng)中,需要事先對圖像進(jìn)行標(biāo)注。但是由于目前存在的圖像數(shù)量巨大,因此標(biāo)注過程工程量浩繁,而由于標(biāo)注內(nèi)容不可避免地會受到標(biāo)注者主觀因素的影響,針對同一個(gè)圖像,不同的標(biāo)注者可能會標(biāo)注不同的關(guān)鍵詞,因此關(guān)鍵詞往往不能客觀反映圖像所蘊(yùn)含的全部語義?;趦?nèi)容的檢索系統(tǒng)則不需要對圖像進(jìn)行標(biāo)注,用戶提交一個(gè)檢索樣例對圖像進(jìn)行檢索,但是傳統(tǒng)的基于內(nèi)容的檢索技術(shù)存在兩個(gè)弱點(diǎn):一是用戶只能檢索與查詢例子相同模態(tài)的媒體對象,只能通過圖像檢索圖像;二是圖像的底層特征和高層語義存在語義鴻溝因此檢索性能受到限制。為了跨越不同模態(tài)數(shù)據(jù)間的語義鴻溝,更好地理解多媒體語義,同時(shí)為了滿足用戶跨媒體查詢的需求,尋求一種基于語義的跨媒體排序方法頗有意義。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足,提供一種基于隱空間學(xué)習(xí)和雙向排序?qū)W習(xí)的跨媒體排序方法。
[0004]基于隱空間學(xué)習(xí)和雙向排序?qū)W習(xí)的跨媒體排序方法,包括如下步驟:
[0005]I)將文本檢索圖像的排序樣本和圖像檢索文本的排序樣本統(tǒng)一構(gòu)建為訓(xùn)練樣本;
[0006]2)對構(gòu)建得到的訓(xùn)練樣本進(jìn)行基于隱空間學(xué)習(xí)和雙向排序?qū)W習(xí)的跨媒體排序?qū)W習(xí),得到多媒體語義空間以及跨媒體排序模型;
[0007]3)使用學(xué)習(xí)得到的跨媒體排序模型進(jìn)行跨媒體排序:用戶提交查詢例子后,首先找到該查詢例子在多媒體語義空間的坐標(biāo),然后根據(jù)跨媒體對象在多媒體語義空間內(nèi)的坐標(biāo),計(jì)算查詢例子與其他所有跨媒體對象在多媒體語義空間的相似度,并根據(jù)該相似度,對所有跨媒體對象進(jìn)行排序。
[0008]所述的步驟I)包括:
[0009]I)對訓(xùn)練樣本里的所有文本文檔利用詞袋模型進(jìn)行特征表達(dá),并利用TF-1DF方法對每個(gè)單詞進(jìn)行加權(quán),文本最終被表示為t e r,其中m為文本空間的維數(shù);
[0010]2)對訓(xùn)練樣本里的所有圖像文檔提取SIFT局部特征點(diǎn),并對這些局部特征點(diǎn)進(jìn)行K-Means聚類,用聚類中心構(gòu)建碼本以及視覺單詞。然后對每張圖片,通過歐氏距離最近鄰計(jì)算該圖片的每個(gè)局部特征點(diǎn)應(yīng)該屬于碼本里的哪一個(gè)視覺單詞,最后和對文本文檔的處理一樣,利用詞袋模型和TF-1DF方法進(jìn)行特征表達(dá),圖像最終被表示為P e Rn,其中η為圖像空間的維數(shù);
[0011]3)對文本檢索圖像方向而言,對每一個(gè)查詢文本,構(gòu)建一個(gè)圖像的排序列表,其中列表中的圖像被標(biāo)記為查詢語義相關(guān)或者語義不相關(guān),因此每個(gè)文本檢索圖像的訓(xùn)練樣本被表示為三元組仏:4?,於),《: e {I……#丨,其中N為訓(xùn)練樣本個(gè)數(shù),ti為檢索文本,Pi為圖像集合,W ^ V是圖像集合上的排序,y表示整個(gè)排序空間;
[0012]4)對圖像檢索文本方向而言,對每一個(gè)查詢圖像,構(gòu)建一個(gè)文本文檔的排序列表,其中列表中的文本文檔被標(biāo)記為查詢語義相關(guān)或者語義不相關(guān),每個(gè)圖像檢索文本的訓(xùn)練樣本被表示為三元組= J' e {iV + I,..+ M為訓(xùn)練樣本個(gè)數(shù),Pi為檢索圖像,tj是文本文檔集合,y】e I是文本文檔集合上的排序;
[0013]5)將兩個(gè)方向上的查詢列表合并起來得到統(tǒng)一的訓(xùn)練樣本。
[0014]所述的步驟2)包括:
[0015]I)使用結(jié)構(gòu)支持向量機(jī)構(gòu)建一個(gè)優(yōu)化問題,其目標(biāo)函數(shù)是使得映射函數(shù)在結(jié)構(gòu)風(fēng)險(xiǎn)和經(jīng)驗(yàn)風(fēng)險(xiǎn)之間取得折中:
【權(quán)利要求】
1.一種基于隱空間學(xué)習(xí)和雙向排序?qū)W習(xí)的跨媒體排序方法,其特征在于包括如下步驟: 1)將文本檢索圖像的排序樣本和圖像檢索文本的排序樣本統(tǒng)一構(gòu)建為訓(xùn)練樣本; 2)對構(gòu)建得到的訓(xùn)練樣本進(jìn)行基于隱空間學(xué)習(xí)和雙向排序?qū)W習(xí)的跨媒體排序?qū)W習(xí),得到多媒體語義空間以及跨媒體排序模型; 3)使用學(xué)習(xí)得到的跨媒體排序模型進(jìn)行跨媒體排序:用戶提交查詢例子后,首先找到該查詢例子在多媒體語義空間的坐標(biāo),然后根據(jù)跨媒體對象在多媒體語義空間內(nèi)的坐標(biāo),計(jì)算查詢例子與其他所有跨媒體對象在多媒體語義空間的相似度,并根據(jù)該相似度,對所有跨媒體對象進(jìn)行排序。
2.根據(jù)權(quán)利要求1所述的一種基于隱空間學(xué)習(xí)和雙向排序?qū)W習(xí)的跨媒體排序方法,其特征在于,所述的步驟I)包括: 1)對訓(xùn)練樣本里的所有文本文檔利用詞袋模型進(jìn)行特征表達(dá),并利用TF-1DF方法對每個(gè)單詞進(jìn)行加權(quán),文本最終被表示為t e Rm,其中m為文本空間的維數(shù); 2)對訓(xùn)練樣本里的所有圖像文檔提取SIFT局部特征點(diǎn),并對這些局部特征點(diǎn)進(jìn)行K-Means聚類,用聚類中心構(gòu)建碼本以及視覺單詞。然后對每張圖片,通過歐氏距離最近鄰計(jì)算該圖片的每個(gè)局部特征點(diǎn)應(yīng)該屬于碼本里的哪一個(gè)視覺單詞,最后和對文本文檔的處理一樣,利用詞袋模型和TF-1DF方法進(jìn)行特征表達(dá),圖像最終被表示為P e Rn,其中η為圖像空間的維數(shù); 3)對文本檢索圖像方向而言,對每一個(gè)查詢文本,構(gòu)建一個(gè)圖像的排序列表,其中列表中的圖像被標(biāo)記為查詢語義相關(guān)或者語義不相關(guān),因此每個(gè)文本檢索圖像的訓(xùn)練樣本被表示為三元組PwyJ1M e {I,…,#},其中N為訓(xùn)練樣本個(gè)數(shù),\為檢索文本,Pi為圖像集合,yr € J是圖像集合上的排序,y表示整個(gè)排序空間; 4)對圖像檢索文本方向而言,對每一個(gè)查詢圖像,構(gòu)建一個(gè)文本文檔的排序列表,其中列表中的文本文檔被標(biāo)記為查詢語義相關(guān)或者語義不相關(guān),每個(gè)圖像檢索文本的訓(xùn)練樣本被表示為三元組(巧.%,^),)e (Ar++ Λ+/},M為訓(xùn)練樣本個(gè)數(shù),Pj為檢索圖像,tj是文本文檔集合,y)e I是文本文檔集合上的排序; 5)將兩個(gè)方向上的查詢列表合并起來得到統(tǒng)一的訓(xùn)練樣本。
3.根據(jù)權(quán)利要求1所述的一種基于隱空間學(xué)習(xí)和雙向排序?qū)W習(xí)的跨媒體排序方法,其特征在于,所述的步驟2)包括: I)使用結(jié)構(gòu)支持向量機(jī)構(gòu)建一個(gè)優(yōu)化問題,其目標(biāo)函數(shù)是使得映射函數(shù)在結(jié)構(gòu)風(fēng)險(xiǎn)和經(jīng)驗(yàn)風(fēng)險(xiǎn)之間取得折中:
4.根據(jù)權(quán)利要求1所述的一種基于隱空間學(xué)習(xí)和雙向排序?qū)W習(xí)的跨媒體排序方法,其特征在于,所述的步驟3)包括: 1)對輸入為文本查詢樣本t的情況下,對所有圖像Pi根據(jù)以下公式計(jì)算其與查詢樣本的相似度:f(t,Pi) = (Ut)TVPi,然后按相似度從大到小對圖像進(jìn)行排序; 2)對輸入為圖像查詢樣本P的情況下,對所有文本文檔ti根據(jù)以下公式計(jì)算其與查詢樣本的相似度:f(ti,P) = (Uti)TVp,然后按相似度從大到小對文本文檔進(jìn)行排序。
【文檔編號】G06F17/30GK103559191SQ201310410565
【公開日】2014年2月5日 申請日期:2013年9月10日 優(yōu)先權(quán)日:2013年9月10日
【發(fā)明者】吳飛, 湯斯亮, 盧鑫炎, 邵健, 莊越挺 申請人:浙江大學(xué)