基于同構子空間映射和優(yōu)化的跨媒體檢索方法
【專利摘要】本發(fā)明公開了一種基于同構子空間映射和優(yōu)化的跨媒體檢索方法。首先,從圖像數(shù)據(jù)庫和音頻數(shù)據(jù)庫中分別提取視覺特征和聽覺特征,得到相應的視覺特征矩陣A和聽覺特征矩陣B,在此基礎上,采用基于高維核空間的典型相關性分析,映射得到同構子空間Z;然后,分析圖像樣本和音頻樣本在同構子空間Z中的距離關系,進而構建跨媒體加權近鄰圖G(V,E),得到相應的權重矩陣W和拉普拉斯矩陣L;對目標函數(shù)進行求解,得出優(yōu)化后的同構子空間Y的值;最后,根據(jù)優(yōu)化后的同構子空間Y中的余弦距離,計算與查詢樣本最相近的圖像樣本和音頻樣本,作為跨媒體檢索結果返回。該方法建立了能夠同時容納圖像樣本和音頻樣本的同構子空間,并且進行了優(yōu)化,得到了較好的跨媒體檢索結果。
【專利說明】基于同構子空間映射和優(yōu)化的跨媒體檢索方法
【技術領域】
[0001]本發(fā)明涉及多媒體內容分析和語義理解【技術領域】,特別是涉及一種基于同構子空間映射和優(yōu)化的跨媒體檢索方法。
【背景技術】
[0002]隨著多媒體技術和網(wǎng)絡技術的高速發(fā)展,文字已不再是人們接觸到的主要多媒體內容。圖像、音頻和視頻等不同類型的多媒體數(shù)據(jù)已經(jīng)遍布各種網(wǎng)絡終端。這些豐富的多媒體數(shù)據(jù)表達了大量的語義信息,并且彼此之間存在錯綜復雜的關聯(lián),比如:底層內容特征上的統(tǒng)計關系、網(wǎng)頁之間的鏈接關系等。如何有效的管理大量不同類型的多媒體數(shù)據(jù),并且提供靈活、高效的跨媒體檢索,是多媒體內容分析和語義理解領域所面臨的新挑戰(zhàn)。
[0003]多媒體數(shù)據(jù)在數(shù)據(jù)類型和數(shù)據(jù)量上的急速膨脹,使得傳統(tǒng)的多媒體檢索技術難以對靈活、高效的跨媒體檢索方式提供支持。在跨媒體檢索模式下,用戶可以提交不同類型的多媒體數(shù)據(jù)作為查詢樣本,系統(tǒng)會從不同類型的多媒體數(shù)據(jù)庫中,找到與查詢樣本在語義上相關的數(shù)據(jù),作為跨媒體檢索結果返回給用戶。然而,傳統(tǒng)的多媒體檢索技術大多是針對單一類型的數(shù)據(jù),如:圖像檢索,這種傳統(tǒng)的檢索方式難以實現(xiàn)對圖像、音頻等不同類型多媒體數(shù)據(jù)的綜合檢索和靈活跨越??缑襟w檢索技術應運而生,并迅速成為多媒體研究領域的前沿熱點。
[0004]實際上,人們對多媒體數(shù)據(jù)的檢索需求是要能夠靈活跨越不同類型的多媒體數(shù)據(jù),以形成對多媒體語義的整體理解。作為一種新興的研究方向,跨媒體檢索源于基于內容的多媒體檢索研究,后者在九十年代初期被提出,并一直是計算機視覺領域一個非?;钴S的研究方向,綜合應用了統(tǒng)計分析、機器學習、模式識別、人機交互和多媒體數(shù)據(jù)庫等多領域的知識,較好地解決了早期基于文本的多媒體檢索中存在的標注費時費力、主觀差異性大等缺陷。然而,面臨當前環(huán)境下豐富的、類型各異的多媒體數(shù)據(jù),傳統(tǒng)基于內容的多媒體檢索技術難以解決對不同類型多媒體數(shù)據(jù)的子空間學習、跨媒體相關性度量等新的問題??缑襟w檢索技術主要是為了解決上述問題。
[0005]為了更好地理解跨媒體語義,提高跨媒體檢索的效率,需要重點關注對不同類型的、異構的多媒體特征的同構子空間學習。最近幾年,越來越多的國內外學者對跨媒體檢索中的一系列關鍵技術問題進行了積極探索,取得了較好的研究成果,其中較有代表性的可歸納為以下幾類:深度學習、統(tǒng)計關系模型、非線性流形學習、稀疏特征分析等。然而,目前的這些研究工作大多是借助文本標注、網(wǎng)頁鏈接等直接語義關聯(lián),以建立圖像、音頻、視頻等不同類型多媒體樣本之間的關聯(lián)模型,很少從底層內容特征層面上,分析多媒體數(shù)據(jù)在同構子空間中的潛在語義關系。因此,現(xiàn)有研究大都或多或少地存在一些缺陷和不足,尤其體現(xiàn)在如何從底層的視覺特征和聽覺特征來進行同構子空間分析和映射,通過挖掘不同類型多媒體數(shù)據(jù)在同構子空間中的幾何拓撲和距離關系,對同構子空間進行優(yōu)化這些問題的研究上。
【發(fā)明內容】
[0006]本發(fā)明旨在克服現(xiàn)有的技術缺陷,目的在于提供一種基于同構子空間映射和優(yōu)化的跨媒體檢索方法,該方法能夠構建容納圖像樣本和音頻樣本的同構子空間,并根據(jù)圖像樣本和音頻樣本之間的距離關系,優(yōu)化同構子空間,進一步提高跨媒體檢索效率。
[0007]為實現(xiàn)上述目的,本發(fā)明采用如下技術方案:
[0008]一種基于同構子空間映射和優(yōu)化的跨媒體檢索方法,包括以下步驟:
[0009]第一步、基于視聽覺特征分析的同構子空間映射
[0010]從圖像數(shù)據(jù)庫和音頻數(shù)據(jù)庫中分別提取視覺特征和聽覺特征,得到視覺特征矩陣A和聽覺特征矩陣B ;通過非線性的核函數(shù),將視覺特征矩陣A和聽覺特征矩陣B映射到高維核空間;在高維核空間中進行相關性保持映射,得到同構子空間Z ;
[0011]第二步、構建跨媒體加權近鄰圖
[0012]分析圖像樣本和音頻樣本在同構子空間Z中的距離關系,進而構建跨媒體加權近鄰圖G (V, E),進行定量分析,得到相應的權重矩陣W和拉普拉斯矩陣L ;
[0013]第三步、基于目標函數(shù)最小化的同構子空間優(yōu)化
[0014]對目標函數(shù)進行求解,得出優(yōu)化后的同構子空間Y的值;
[0015]第四步、跨媒體距離度量和檢索
[0016]當用戶提交查詢樣本進行跨媒體檢索時,根據(jù)優(yōu)化后的同構子空間Y中的余弦距離,計算與查詢樣本最相近的圖像樣本和音頻樣本,作為跨媒體檢索結果返回。
[0017]進一步的,第一步所述的基于視聽覺特征分析的同構子空間映射包括:
[0018](I)從圖像數(shù)據(jù)庫中提取顏色直方圖、顏色聚合矢量和Tamura方向度三種視覺特征,得到視覺特征矩陣A ;
[0019](2)從音頻數(shù)據(jù)庫中提取質心、衰減截止頻率、頻譜流量和均方根四種聽覺特征,采用模糊聚類的方法對聽覺特征進行索引,將每個音頻樣本的聽覺特征都統(tǒng)一到相同的維數(shù),得到聽覺特征矩陣B;
[0020](3)通過非線性的核函數(shù),將視覺特征矩陣A和聽覺特征矩陣B映射到高維核空間;
[0021](4)在高維核空間中,采用典型相關性分析方法進行相關性保持映射,計算目標函數(shù):
[0022]ηκχ[Φ (Α)ΤΦ (A) Ψ (Β)ΤΨ ⑶ μ ] (I)
[0023]式(I)中μ表示組合系數(shù),
[0024]T表示轉置運算,
[0025]max表示最大值,
[0026]Φ (A)表示視覺特征矩陣A的典型相關性因子,
[0027]Ψ (B)表示聽覺特征矩陣B的典型相關性因子,
[0028](5)通過拉格朗日乘子法求解式⑴中的目標函數(shù),計算Φ⑷和Ψ⑶的值;
[0029](6)通過矩陣變換Φ㈧tA和Ψ⑶TB,對視覺特征矩陣A和聽覺特征矩陣B進行降維,將所有圖像樣本和音頻樣本映射到同構子空間Z。
[0030]所述第二步的構建跨媒體加權近鄰圖包括:
[0031](I)用S表示同構子空間Z中的所有圖像樣本和音頻樣本構成的集合;[0032]計算集合S中任意兩個樣本Si和Sj之間的歐氏距離DiS(Si,Sj),其中,Si表示集合S中的第i個樣本,Sj表示集合S中的第j個樣本,Si和可以是圖像樣本或音頻樣本,i,j均為大于等于I的自然數(shù);
[0033](2)構建跨媒體加權近鄰圖G (V,E),其中V表示跨媒體加權近鄰圖中的頂點,由集合S中所有圖像樣本和音頻樣本構成,E表示頂點之間的邊;
[0034](3)如果DiS(Si,Sj)的值小于預定的閾值,則在跨媒體加權近鄰圖G(V,E)中Si和Sj對應的兩個頂點之間連接生成一條邊;
[0035](4)計算跨媒體加權近鄰圖G (V, E)對應的權重矩陣W = [Wij],其中,i表示權重矩陣W的第i行,j表示權重矩陣W的第j列,Wu表示權重矩陣W的第i行、第j列上的元素值,Wij的計算如下式所示:
【權利要求】
1.一種基于同構子空間映射和優(yōu)化的跨媒體檢索方法,其特征在于包括以下步驟: 第一步、基于視聽覺特征分析的同構子空間映射 從圖像數(shù)據(jù)庫和音頻數(shù)據(jù)庫中分別提取視覺特征和聽覺特征,得到視覺特征矩陣A和聽覺特征矩陣B ;通過非線性的核函數(shù),將視覺特征矩陣A和聽覺特征矩陣B映射到高維核空間;在高維核空間中進行相關性保持映射,得到同構子空間Z ; 第二步、構建跨媒體加權近鄰圖 分析圖像樣本和音頻樣本在同構子空間Z中的距離關系,進而構建跨媒體加權近鄰圖G (V, E),進行定量分析,得到相應的權重矩陣W和拉普拉斯矩陣L ; 第三步、基于目標函數(shù)最小化的同構子空間優(yōu)化 對目標函數(shù)進行求解,得出優(yōu)化后的同構子空間Y的值; 第四步、跨媒體距離度量和檢索 當用戶提交查詢樣本進行跨媒體檢索時,根據(jù)優(yōu)化后的同構子空間Y中的余弦距離,計算與查詢樣本最相近的圖像樣本和音頻樣本,作為跨媒體檢索結果返回。
2.如權利要求1所述的基于同構子空間映射和優(yōu)化的跨媒體檢索方法,其特征在于,第一步所述的基于視聽覺特征分析的同構子空間映射包括: (1)從圖像數(shù)據(jù)庫中提取顏色直方圖、顏色聚合矢量和Tamura方向度三種視覺特征,得到視覺特征矩陣A ; 從音頻數(shù)據(jù)庫中提取質心、衰減截止頻率、頻譜流量和均方根四種聽覺特征,采用模糊聚類的方法對聽覺特征進行索引,將每個音頻樣本的聽覺特征都統(tǒng)一到相同的維數(shù),得到聽覺特征矩陣B ; (2)通過非線性的核函數(shù),將視覺特征矩陣A和聽覺特征矩陣B映射到高維核空間; (3)在高維核空間中,采用典型相關性分析方法進行相關性保持映射,計算目標函數(shù): max[0 (Α)ΤΦ (A) Ψ (Β)ΤΨ (B) μ ] (I) 式(I)中μ表示組合系數(shù), T表示轉置運算, max表示最大值, Φ (A)表示視覺特征矩陣A的典型相關性因子, Ψ (B)表示聽覺特征矩陣B的典型相關性因子, (4)通過拉格朗日乘子法求解式(I)中的目標函數(shù),計算Φ㈧和Ψ⑶的值; (5)通過矩陣變換Φ(A) tA和Ψ (B) TB,對視覺特征矩陣A和聽覺特征矩陣B進行降維,將所有圖像樣本和音頻樣本映射到同構子空間Z。
3.如權利要求1所述的基于同構子空間映射和優(yōu)化的跨媒體檢索方法,其特征在于,第二步的構建跨媒體加權近鄰圖包括: (1)用S表示同構子空間Z中的所有圖像樣本和音頻樣本構成的集合; 計算集合S中任意兩個樣本Si和Sj之間的歐氏距離Dis (Si,Sj),其中,Si表示集合S中的第i個樣本,Sj表示集合S中的第j個樣本,Si和Sj可以是圖像樣本或音頻樣本,i,j均為大于等于I的自然數(shù); (2)構建跨媒體加權近鄰圖G(V,E),其中V表示跨媒體加權近鄰圖中的頂點,由集合S中所有圖像樣本和音頻樣本構成,E表示頂點之間的邊;(3)如果Dis(Si,Sj)的值小于預定的閾值,則在跨媒體加權近鄰圖G (V,E)中Si和Sj對應的兩個頂點之間連接生成一條邊; (4)計算跨媒體加權近鄰圖G(V,E)對應的權重矩陣W= [wu],其中,i表示權重矩陣W的第i行,j表示權重矩陣W的第j列,Wij表示權重矩陣W的第i行、第j列上的元素值,Wij的計算如下式所示:
4.如權利要求1所述的基于同構子空間映射和優(yōu)化的跨媒體檢索方法,其特征在于,第三步的基于目標函數(shù)最小化的同構子空間優(yōu)化,包括: (1)根據(jù)跨媒體加權近鄰圖G(V,E)和權重矩陣W,計算拉普拉斯矩陣如下:
L = 1-『1/2 販1/2 (3) 式⑶中:I表示單位矩陣, D表示對角矩陣,且對角線上的元素值為權重矩陣W相應行上的元素值之和; (2)用Y表示優(yōu)化后的同構子空間,建立如下的H標函數(shù):
5.如權利要求1所述的基于同構子空間映射和優(yōu)化的跨媒體檢索方法,其特征在于,第四步的跨媒體距離度量和檢索,包括: (1)在優(yōu)化后的同構子空間Y中,以余弦距離作為跨媒體距離度量標準,余弦距離與跨媒體相似度成反比關系; (2)用r表示用戶提交的查詢樣本, 如果查詢樣本r在集合S中,則按照(3)中的方法進行跨媒體檢索, 如果查詢樣本r不在集合S中,且查詢樣本r是一幅圖像,則按照(4)中的方法進行跨媒體檢索, 如果查詢樣本r不在集合S中,且查詢樣本r是一個音頻,則按照(5)中的方法進行跨媒體檢索; (3)根據(jù)優(yōu)化后的同構子空間Y,計算查詢樣本r與集合S中的圖像樣本和音頻樣本之間的余弦距離,按照余弦距離的升序,返回跨媒體檢索結果; (4)提取查詢樣本r的視覺特征,包括:顏色直方圖、顏色聚合矢量和Tamura方向度特征,以視覺特征為依據(jù),計算集合S中與查詢樣本r最相似的一個圖像近鄰m,以圖像近鄰m作為新查詢樣本,重復第四步(3)中的方法,進行跨媒體檢索; (5)提取查詢樣本r的聽覺特征,包括:質心、衰減截止頻率、頻譜流量和均方根特征,以聽覺特征為依據(jù),計算集合S中與查詢樣本r最相似的一個音頻近鄰n,以音頻近鄰η作為新查詢樣本, 重復第四步(3)中的方法,進行跨媒體檢索。
【文檔編號】G06F17/30GK103995903SQ201410260190
【公開日】2014年8月20日 申請日期:2014年6月12日 優(yōu)先權日:2014年6月12日
【發(fā)明者】張鴻, 聶加梅, 張延鵬 申請人:武漢科技大學