專利名稱:基于相似度矩陣迭代的跨媒體語義理解和優(yōu)化方法
技術(shù)領(lǐng)域:
本發(fā)明屬于多媒體內(nèi)容分析與語義理解技術(shù)領(lǐng)域。特別是涉及一種基于相似度矩陣迭代的跨媒體語義理解和檢索方法。
背景技術(shù):
隨著信息技術(shù)的高速發(fā)展,文字、圖像、音頻和視頻等不同類型的多媒體數(shù)據(jù)已經(jīng)在人們的日常生活中變得十分普遍,多媒體數(shù)據(jù)從音、形、意等不同方面繪聲繪色地表達了豐富的語義信息,并通過Web頁面、數(shù)字圖書館、多媒體百科全書等載體進行共享。此外,多媒體數(shù)據(jù)本身具有半結(jié)構(gòu)化和非結(jié)構(gòu)化的特點,并且底層內(nèi)容特征彼此異構(gòu)。這就使得對不同類型多媒體數(shù)據(jù)的有效檢索變得十分困難。傳統(tǒng)的多媒體檢索技術(shù)大多是針對單一類型的多媒體數(shù)據(jù),如圖像檢索,這種傳統(tǒng)的檢索方式難以實現(xiàn)對圖像、音頻、視頻等不同類型多媒體數(shù)據(jù)的綜合檢索和靈活跨越。故跨媒體檢索技術(shù)應運而生,并迅速成為多媒體研究領(lǐng)域的前沿熱點。從認知神經(jīng)心理學的角度來看,人腦對外界事物的認知需要跨越視覺、聽覺等不同感官傳遞的信息,以做出綜合判斷。類似地,人們對多媒體數(shù)據(jù)的檢索需求是要能夠靈活跨越不同類型的多媒體數(shù)據(jù),以形成對多媒體語義的整體理解。作為一種新興的研究方向,跨媒體檢索源于基于內(nèi)容的多媒體檢索研究,后者在九十年代初期被提出,并一直是計算機視覺領(lǐng)域一個非常活躍的研究方向,綜合應用了統(tǒng)計分析、機器學習、模式識別、人機交互和多媒體數(shù)據(jù)庫等多領(lǐng)域的知識,較好地解決了早期基于文本的多媒體檢索中存在的標注費時費力、主觀差異性大等缺陷。然而,基于內(nèi)容的多媒體檢索技術(shù)仍難以解決新的問題,即不同類型多媒體數(shù)據(jù)的綜合檢索和靈活跨越,跨媒體檢索技術(shù)主要是為了解決上述問題。更進一步來看,特征是語義的載體,為了更好地理解跨媒體語義,提高跨媒體檢索的效率,需要重點關(guān)注對不同類型多媒體數(shù)據(jù)中提取的各種異構(gòu)特征的綜合分析與學習。最近幾年,越來越多的國內(nèi)外學者對跨媒體檢索中的一系列關(guān)鍵技術(shù)問題進行了積極探索,取得了較好的研究成果,其中較有代表性的可歸納為以下幾類非線性流形學習、線性迭代和映射、統(tǒng)計概率模型、圖模型。然而,目前的這些研究工作大多是借助文本標注、Pagelink等語義信息,建立圖像、音頻、視頻等不同類型多媒體樣本之間的語義關(guān)聯(lián),而不是從在特征層次上,挖掘多媒體特征所表達的潛在語義關(guān)系。因此,現(xiàn)有研究大都或多或少地存在一些缺陷和不足,尤其體現(xiàn)在如何從多模態(tài)數(shù)據(jù)的視覺特征和聽覺特征來理解跨媒體語義,并融合多模態(tài)數(shù)據(jù)中的多種相似度關(guān)系,對跨媒體語義理解的結(jié)果進行優(yōu)化這些問題的研究上。
發(fā)明內(nèi)容
本發(fā)明旨在克服現(xiàn)有技術(shù)缺陷,目的在于提供一種基于相似度矩陣迭代的跨媒體語義理解和檢索方法,該方法能夠優(yōu)化不同類型多媒體數(shù)據(jù)的相似度計算結(jié)果,進一步理解跨媒體語義,能獲得較好的檢索效率。
為實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案包括以下步驟第一歩基于多模態(tài)特征分析的子空間映射(1)從圖像數(shù)據(jù)庫中提取HSV顏色直方圖、顏色聚合矢量和Tamura方向度三種視 覺特征,構(gòu)成視覺特征向量,采用主成分分析方法進行降維和去噪,得到視覺特征矩陣X。從音頻數(shù)據(jù)庫中提取質(zhì)心、衰減截至頻率、頻譜流量和均方根四種音頻特征,構(gòu)成 聽覺特征向量,采用模糊聚類的方法對聽覺特征向量進行索引,得到聽覺特征矩陣Y。(2)通過非線性映射①(X),叫⑴將視覺特征矩陣X和聽覺特征矩陣X映射到核 空間,在核空間中采用典型相關(guān)性分析方法進行相關(guān)性保持映射,計算目標函數(shù)max[O (X)tO (X) ^ (Y)t^ (Y) U ](1)式(1)中ii表示組合系數(shù);T表示轉(zhuǎn)置運算;max表示最大值。通過拉格朗日乘子法求解式(1)中的目標函數(shù),映射得到低維子空間S。第二步、基于矩陣迭代的語義理解與相似度優(yōu)化根據(jù)低維子空間S中的歐氏距離,計算得到圖像與音頻之間的跨媒體相關(guān)性矩陣 C、圖像相似度矩陣A和音頻相似度矩陣B,采用下列公式對圖像相似度矩陣A和音頻相似度 矩陣B進行循環(huán)迭代
\An =aA + (l-a)yCBnCT( )^ , 、” {B"=j3B + (\-j3)rCTAnlC式O)中a表示圖像相似度矩陣A的權(quán)重參數(shù);^表示音頻相似度矩陣B的權(quán)重參數(shù);y表示衰減因子;n表示迭代的次數(shù),值域為正整數(shù);T表示轉(zhuǎn)置運算。若圖像相似度矩陣A和音頻相似度矩陣B在式(2)的第n次迭代和第n_l次迭代 過程中,變化量趨近于零時,則式( 達到收斂狀態(tài),即完成對圖像相似度矩陣A和音頻相 似度矩陣B的優(yōu)化。第三步、跨媒體距離度量對用戶提交的查詢例子,根據(jù)低維子空間S中的跨媒體距離度量,計算與查詢例 子相關(guān)的跨媒體候選集,跨媒體距離度量如下
\rmn(Crj + Akj) ,if r&Q.(3)D(r,k)=min(Crk,z)^, = {mm(Q + ^)5z/re/式(3)中r表示查詢例子;k表示數(shù)據(jù)庫中與查詢例子不同模態(tài)的樣本;min表示取最小值;Q表示音頻數(shù)據(jù)庫;I表示圖像數(shù)據(jù)庫;Crk表示跨媒體相關(guān)性矩陣C中第r行第k列的元素值;
Crj表示跨媒體相關(guān)性矩陣C中第r行第j列的元素值;Bkj表示音頻相似度矩陣B中第k行第j列的元素值;Akj表示圖像相似度矩陣A中第k行第j列的元素值。(2)根據(jù)式(3),找出與查詢例子之間的跨媒體距離度量結(jié)果較小的樣本,作為跨媒體候選集,返回給用戶做相關(guān)反饋。第四步、基于相關(guān)反饋的條件概率計算(1)用P表示用戶在相關(guān)反饋過程中標記的正例集合,N表示用戶在相關(guān)反饋過程中標記的負例集合,定義正反饋向量f+和負反饋向量,Γ,維數(shù)均為樣本數(shù)目,賦值如下正反饋向量f+ 所有元素初值為0,將集合P中正樣本在f+中對應位置的元素值置為1 ;負反饋向量Γ:所有元素初值為0,將集合N中負樣本在Γ中對應位置的元素值置為-1。(2)計算未標注樣本成為正例的條件概率f+(k)和未標注樣本成為負例的條件概率 f (k)=(4)f-{k) = \ y y '' J hJ式(4)和(5)中A(k,)表示圖像相似度矩陣A中第k行的所有元素;B(k,)表示音頻相似度矩陣B中第k行的所有元素;r表示查詢例子;Ω表示音頻數(shù)據(jù)庫;I表示圖像數(shù)據(jù)庫;max表示取最大值;min表示取最小值;f+表示正反饋向量;f_表示負反饋向量。第五步、跨媒體語義理解的優(yōu)化(1)根據(jù)條件概率的計算結(jié)果,按照下述規(guī)則,計算需要優(yōu)化的四種樣本集規(guī)則1 選擇使f+(k)+f_(k)取值較大的樣本,構(gòu)成第一集合V1 ;規(guī)則2 選擇使|f_(k) -f+(k)取值較大的樣本,構(gòu)成第二集合V2 ;規(guī)則3 選擇使f+ (k) - I f+ (k) +Γ (k) I取值較大的樣本,構(gòu)成第三集合V3 ;規(guī)則4 選擇使f_(k) -|f+(k)+r(k) I取值較大的樣本,構(gòu)成第四集合V4。(2)對于第一集合V1和第三集合V3中的樣本,減小與正例集合P之間的距離Cxy = Cxy.ε, (χ e V1 U V3, ye P,0< ε < 1)。其中ε為常參數(shù),即跨媒體相關(guān)性矩陣C 中第χ行第y列的元素值Cxy乘以一個大于零且小于1的常數(shù)ε。對于第二集合V2和第四集合V4中的樣本,減小與負例集合N之間的距離,即Cxy = Cxy. ε,(X G V2 U V4,y e N)。對于正例集合P中的樣本,縮小與查詢例子之間的距離,即CXr = CXr· ε,(χ e P),其中,r表示查詢例子。對于負例集合N中的樣本,增大與查詢例子之間的距離,即C = Cxr · λ , (χ e N, λ > 1),其中,λ為常參數(shù)。(3)按照式C3)再次計算出與查詢例子最相關(guān)的不同模態(tài)的多媒體樣本,作為優(yōu)化后的跨媒體檢索結(jié)果返回給用戶。由于采用上述技術(shù)方案,本發(fā)明與現(xiàn)有技術(shù)相比,具有的有益效果是(1)分析了多模態(tài)數(shù)據(jù)的視覺特征和聽覺特征,通過對特征共生矩陣的奇異值分解,構(gòu)建低維子空間;(2)利用多模態(tài)數(shù)據(jù)中圖像與圖像、圖像與音頻,以及音頻與音頻之間的相似度矩陣,進行循環(huán)迭代,對相似度計算結(jié)果進行優(yōu)化;(3)對相關(guān)反饋中用戶標注的正例和負例進行主動學習,計算出未標注樣本成為正例或成為負例的條件概率,優(yōu)化跨媒體語義理解的結(jié)果,獲得了較好的檢索效率。
圖1為本發(fā)明的一種方法的示意框圖;圖2為圖1方法的以“老虎”音頻片段為查詢樣例進行跨媒體檢索得到的相關(guān)圖
像結(jié)果。
具體實施例方式下面結(jié)合附圖和具體實施方式
對本發(fā)明做進一步的描述,并非對其保護范圍的限制。實施例1—種基于相似度矩陣迭代的跨媒體語義理解和檢索方法。該方法如圖1所示,其具體步驟如下第一步、基于多模態(tài)特征分析的子空間映射提取多模態(tài)的底層特征,通過非線性映射在核空間進行典型相關(guān)性分析,得到低維子空間S。(1)從圖像數(shù)據(jù)庫中提取HSV顏色直方圖、顏色聚合矢量和Tamura方向度三種視覺特征,構(gòu)成視覺特征向量,采用主成分分析方法進行降維和去噪,得到視覺特征矩陣X。從音頻數(shù)據(jù)庫中提取質(zhì)心、衰減截至頻率、頻譜流量和均方根四種音頻特征,構(gòu)成聽覺特征向量,采用模糊聚類的方法對聽覺特征向量進行索引,得到聽覺特征矩陣Y。(2)通過非線性映射Φ (X),Ψ⑴將視覺特征矩陣X和聽覺特征矩陣X映射到核空間,在核空間中采用典型相關(guān)性分析方法進行相關(guān)性保持映射,計算目標函數(shù)max [Φ (X) ΤΦ (X) Ψ (Y)τΨ (Y) μ ](1)式(1)中μ表示組合系數(shù);T表示轉(zhuǎn)置運算;max表示最大值。通過拉格朗日乘子法求解式(1)中的目標函數(shù),映射得到低維子空間S。
D (r, k) = mm (Crk, ζ), ζ = \
I min(Crj + Big) , // r e /式(3)中r表示查詢例子;k表示數(shù)據(jù)庫中與查詢例子不同模態(tài)的樣本;min表示取最小值;Ω表示音頻數(shù)據(jù)庫;I表示圖像數(shù)據(jù)庫;Crk表示跨媒體相關(guān)性矩陣C中第r行第k列的元素值;Crj表示跨媒體相關(guān)性矩陣C中第r行第j列的元素值;Bkj表示音頻相似度矩陣B中第k行第j列的元素值;Akj表示圖像相似度矩陣A中第k行第j列的元素值。(2)根據(jù)式(3),找出與查詢例子之間的跨媒體距離度量結(jié)果較小的樣本,作為跨第二步、基于矩陣迭代的語義理解與相似度優(yōu)化根據(jù)低維子空間S中的歐氏距離,以及距離與相似度之間的反比例關(guān)系,計算低維子空間中多模態(tài)數(shù)據(jù)間的相似度,進行跨媒體語義理解,得到圖像與音頻之間的跨媒體相關(guān)性矩陣C、圖像相似度矩陣A和音頻相似度矩陣B,采用下列公式對圖像相似度矩陣A 和音頻相似度矩陣B進行循環(huán)迭代
\An =aA + (\-a)rCBnCT( )^, α,β,χ^(0, )、“式O)中α表示圖像相似度矩陣A的權(quán)重參數(shù);β表示音頻相似度矩陣B的權(quán)重參數(shù);y表示衰減因子;η表示迭代的次數(shù),值域為正整數(shù);T表示轉(zhuǎn)置運算。采用式(2)進行循環(huán)迭代的初始條件為ri = 2,若圖像相似度矩陣A和音頻相似度矩陣B在式O)的第η次迭代和第η-1次迭代過程中,變化量趨近于零時,則式(2)達到收斂狀態(tài),即完成對圖像相似度矩陣A和音頻相似度矩陣B的優(yōu)化,使之更加準確地反映低維子空間中的語義關(guān)系,具體的迭代步驟為①將矩陣A和矩陣C中的數(shù)據(jù)關(guān)系傳遞到矩陣B中Bn = βΒ+(1-β) y CtAihC ;②將矩陣B和矩陣C中的數(shù)據(jù)關(guān)系傳遞到矩陣A中Αη = αΑ+(1-α) y CBnCT,若 Bn-Blri趨近于零,且An-Alri也趨近于零,即達到收斂狀態(tài),否則繼續(xù)③;③設(shè)置n = η+1,重復①和②。第三步、跨媒體距離度量在低維子空間S中設(shè)計跨媒體距離度量方法,計算與查詢例子最相關(guān)的、不同類型的多媒體數(shù)據(jù),作為跨媒體候選集,步驟如下(1)對用戶提交的查詢例子,根據(jù)低維子空間S中的跨媒體距離度量,計算與查詢例子相關(guān)的跨媒體候選集,低維子空間中的跨媒體距離度量媒體候選集,返回給用戶做相關(guān)反饋。第四步、基于相關(guān)反饋的條件概率計算根據(jù)用戶對跨媒體候選集的相關(guān)反饋,計算數(shù)據(jù)庫中未標記樣本成為正例或成為負例的條件概率,步驟如下(1)用P表示用戶在相關(guān)反饋過程中標記的正例集合,N表示用戶在相關(guān)反饋過程中標記的負例集合,定義正反饋向量f+和負反饋向量,Γ,維數(shù)均為樣本數(shù)目,賦值如下正反饋向量f+ 所有元素初值為0,將集合P中正樣本在f+中對應位置的元素值置為1 ;負反饋向量Γ:所有元素初值為0,將集合N中負樣本在Γ中對應位置的元素值置為-1。(2)計算未標注樣本成為正例的條件概率f+(k)和未標注樣本成為負例的條件概率 f (k)=(4)f-{k) = \ y y '' J hJ式(4)和(5)中A(k,)表示圖像相似度矩陣A中第k行的所有元素;B(k,)表示音頻相似度矩陣B中第k行的所有元素;r表示查詢例子;Ω表示音頻數(shù)據(jù)庫;I表示圖像數(shù)據(jù)庫;max表示取最大值;min表示取最小值;f+表示正反饋向量;f_表示負反饋向量。第五步、跨媒體語義理解的優(yōu)化(1)根據(jù)條件概率的計算結(jié)果,按照下述規(guī)則,計算需要優(yōu)化的四種樣本集規(guī)則1 選擇使f+(k)+f_(k)取值較大的樣本,構(gòu)成第一集合V1 ;規(guī)則2 選擇使|f_(k) -f+(k)取值較大的樣本,構(gòu)成第二集合V2 ;規(guī)則3 選擇使f+ (k) - I f+ (k) +Γ (k) I取值較大的樣本,構(gòu)成第三集合V3 ;規(guī)則4 選擇使f_(k) -|f+(k)+r(k) I取值較大的樣本,構(gòu)成第四集合V4。(2)對于第一集合V1和第三集合V3中的樣本,減小與正例集合P之間的距離Cxy = Cxy.ε,(XeV1UV3, yep,0< ε < 1),其中ε為常參數(shù),即跨媒體相關(guān)性矩陣C 中第X行第y列的元素值Cxy乘以一個大于零且小于1的常數(shù)ε。對于第二集合V2和第四集合V4中的樣本,減小與負例集合N之間的距離,即Cxy = Cxy.ε,(χ G V2 U V4,y e N)。對于正例集合P中的樣本,縮小與查詢例子之間的距離,即CXr = CXr· ε , (χ e P), 其中,r表示查詢例子。對于負例集合N中的樣本,增大與查詢例子之間的距離,即CX, = Cxr · λ , (χ e N,λ > 1),其中,λ為常參數(shù)。(3)按照式C3)再次計算出與查詢例子最相關(guān)的不同模態(tài)的多媒體樣本,作為優(yōu)化后的跨媒體檢索結(jié)果返回給用戶。實施例2一種基于相似度矩陣迭代的跨媒體語義理解和檢索方法。如附圖2所示,以“老虎”音頻片段為查詢例子進行跨媒體檢索,其具體步驟如下第一步基于多模態(tài)特征分析的子空間映射提取多模態(tài)的底層特征,通過非線性映射在核空間進行典型相關(guān)性分析,得到低維子空間S。(1)收集8個語義的圖像和音頻數(shù)據(jù)集,包括爆炸、閃電、汽車、輪船、老虎、狗、鳥類、海豚,每個類別包括100幅圖像和50段音頻,作為訓練數(shù)據(jù)集和測試數(shù)據(jù)集;從圖像數(shù)據(jù)庫中提取HSV顏色直方圖、顏色聚合矢量和Tamura方向度三種視覺特征,構(gòu)成視覺特征向量,采用主成分分析方法進行降維和去噪,得到視覺特征矩陣X,其中,每個語義類別的圖像訓練數(shù)據(jù)對應一個100X50維的視覺特征矩陣。從音頻數(shù)據(jù)庫中提取質(zhì)心、衰減截至頻率、頻譜流量和均方根四種音頻特征,構(gòu)成聽覺特征向量,采用模糊聚類的方法對聽覺特征向量進行索引,得到聽覺特征矩陣Y,其中, 每個語義類別的音頻訓練數(shù)據(jù)構(gòu)成50X40維的聽覺特征矩陣。第一步中第O)同實施例1。第二步、基于矩陣迭代的語義理解與相似度優(yōu)化根據(jù)低維子空間S中的歐氏距離,根據(jù)距離與相似度之間的反比例關(guān)系,計算得到800X400維的圖像與音頻之間的跨媒體相關(guān)性矩陣C、800X800維的圖像相似度矩陣A 和400X400維的音頻相似度矩陣B,采用下列公式對圖像相似度矩陣A和音頻相似度矩陣 B進行循環(huán)迭代
{A" =aA + (\-a)rCBnCr( )τ λ ,⑴式O)中α表示圖像相似度矩陣A的權(quán)重參數(shù);β表示音頻相似度矩陣B的權(quán)重參數(shù);y表示衰減因子;η表示迭代的次數(shù),值域為正整數(shù);T表示轉(zhuǎn)置運算。若圖像相似度矩陣A和音頻相似度矩陣B在式(2)的第η次迭代和第η_1次迭代過程中,變化量趨近于零時,則式⑵達到收斂狀態(tài),即完成對圖像相似度矩陣A和音頻相似度矩陣B的優(yōu)化。第三步、跨媒體距離度量在低維子空間S中設(shè)計跨媒體距離度量方法,計算與查詢例子最相關(guān)的、不同類型的多媒體數(shù)據(jù),作為跨媒體候選集,步驟如下(1)用!·表示用戶提交的“老虎”音頻的查詢例子,k表示數(shù)據(jù)庫中的圖像樣本,根據(jù)低維子空間S中的跨媒體距離度量,計算與查詢例子r最相關(guān)的圖像候選集,當查詢例子為音頻時,低維子空間中圖像候選集的跨媒體距離度量如下
1
D(r, k) = min (Crk, min (CrJ+AkJ))(3)式(3)中min表示取最小值;Crk表示跨媒體相關(guān)性矩陣C中第r行第k列的元素值;Crj表示跨媒體相關(guān)性矩陣C中第r行第j列的元素值;Akj表示圖像相似度矩陣A中第k行第j列的元素值。(2)根據(jù)式(3),找出與查詢例子之間的跨媒體距離度量結(jié)果較小的前16個圖像, 作為跨媒體候選集,給用戶進行相關(guān)反饋。第四步、基于相關(guān)反饋的條件概率計算根據(jù)用戶對跨媒體候選集的相關(guān)反饋,計算數(shù)據(jù)庫中未標記樣本成為正例或成為負例的條件概率,步驟如下(1)用戶標注3個正例和3個負例,P表示用戶在相關(guān)反饋過程中標記的正例集合,N表示用戶在相關(guān)反饋過程中標記的負例集合,定義正反饋向量f+和負反饋向量,Γ,維數(shù)均為樣本數(shù)目,賦值如下正反饋向量f+ 所有元素初值為0,將集合P中3個正樣本圖像在f+中對應位置的元素值置為1 ;負反饋向量Γ 所有元素初值為0,將集合N中3個負樣本圖像在Γ中對應位置的元素值置為-1。(2)對用戶提交的“老虎”音頻的查詢例子,計算未標注的圖像樣本成為正例的條件概率f+(k)和未標注樣本成為負例的條件概率f"(k)f+(k) = max(A(k, ) ‘ f+)(4)r(k) = min(A(k,)· Γ)(5)式(4)和(5)中A(k,)表示圖像相似度矩陣A中第k行的所有元素;max表示取最大值;min表示取最小值;f+表示正反饋向量;f_表示負反饋向量。第五步、跨媒體語義理解的優(yōu)化(1)同實施例1。(2)同實施例1。(3)按照式C3)再次計算出與音頻查詢例子最相關(guān)的前16個圖像,作為優(yōu)化后的查詢結(jié)果返回給用戶,如圖2所示,在返回的圖像中有12個是“老虎”圖像,說明系統(tǒng)挖掘和利用了不同類型的數(shù)據(jù)關(guān)系,較好地理解了跨媒體語義,查準率較高。本具體實施方式
與現(xiàn)有技術(shù)相比,具有的有益效果是(1)分析了多模態(tài)數(shù)據(jù)的視覺特征和聽覺特征,通過對特征共生矩陣的奇異值分解,構(gòu)建低維子空間;(2)利用多模態(tài)數(shù)據(jù)中圖像與圖像、圖像與音頻,以及音頻與音頻之間的相似度矩陣,進行循環(huán)迭代,對相似度計算結(jié)果進行優(yōu)化;(3)對相關(guān)反饋中用戶標注的正例和負例進行主動學習,計算出未標注樣本成為正例或成為負例的條件概率,優(yōu)化跨媒體語義理解的結(jié)果。
權(quán)利要求
1. 一種基于相似度矩陣迭代的跨媒體語義理解和檢索方法,其特征在于包括如下步驟第一步基于多模態(tài)特征分析的子空間映射(1)從圖像數(shù)據(jù)庫中提取HSV顏色直方圖、顏色聚合矢量和Tamura方向度三種視覺特征,構(gòu)成視覺特征向量,采用主成分分析方法進行降維和去噪,得到視覺特征矩陣 X ;從音頻數(shù)據(jù)庫中提取質(zhì)心、衰減截至頻率、頻譜流量和均方根四種音頻特征,構(gòu)成聽覺特征向量,采用模糊聚類的方法對聽覺特征向量進行索引,得到聽覺特征矩陣I7 ;(2)通過非線性映射將視覺特征矩陣I和聽覺特征矩陣Z映射到核空間,在核空間中采用典型相關(guān)丨生分析方法進行相關(guān)性保持映射,計算目標函數(shù)
全文摘要
本發(fā)明公開了一種基于相似度矩陣迭代的跨媒體語義理解和檢索方法。首先對圖像數(shù)據(jù)庫中提取的視覺特征向量進行主成分提取和去噪,對音頻數(shù)據(jù)庫中提取的聽覺特征向量進行模糊聚類得到音頻索引矩陣,進而根據(jù)核函數(shù)和典型相關(guān)性分析方法,構(gòu)建低維子空間S;利用多模態(tài)樣本在子空間中的多重數(shù)據(jù)關(guān)系進行相似度矩陣迭代,通過圖像和音頻之間的跨媒體相關(guān)性來優(yōu)化圖像相似度矩陣A和音頻相似度矩陣B;根據(jù)跨媒體距離度量,計算跨媒體候選集,并根據(jù)用戶的相關(guān)反饋,計算未標記樣本成為正例或成為負例的條件概率,對跨媒體語義理解進行優(yōu)化。該方法挖掘了多模態(tài)樣本之間的多重數(shù)據(jù)關(guān)系,得到了較好的檢索結(jié)果。
文檔編號G06F17/30GK102521368SQ20111042462
公開日2012年6月27日 申請日期2011年12月16日 優(yōu)先權(quán)日2011年12月16日
發(fā)明者張鴻, 胡威 申請人:武漢科技大學