一種適用于多模態(tài)信息的稀疏編碼算法及其應(yīng)用
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及多媒體信息檢索,尤其涉及一種對(duì)多模態(tài)信息的稀疏編碼算法及其應(yīng) 用。
【背景技術(shù)】
[0002] 近年來,隨著微博,F(xiàn)acebook等社交網(wǎng)絡(luò)平臺(tái)的興起,多媒體信息呈現(xiàn)爆炸式的增 長(zhǎng),這為傳統(tǒng)的信息檢索技術(shù)提出了新的要求。單純的文本檢索已經(jīng)不能滿足用戶日益復(fù) 雜的信息檢索需求,用戶希望能獲得文本,圖像,音頻,視頻等不同模態(tài)的數(shù)據(jù)。多模態(tài)信息 間的交叉檢索,如輸入一副圖像,檢索與之相關(guān)的文本,或者輸入一段文字,檢索與之最匹 配的圖像,成為學(xué)術(shù)界關(guān)注的熱點(diǎn)問題。
[0003] 從現(xiàn)有的多模態(tài)信息處理技術(shù)中可以看出,其核心問題是對(duì)不同模態(tài)數(shù)據(jù)的建 模,使得不同模態(tài)的數(shù)據(jù)可以在某一個(gè)相同的特征空間下表示,從根本上來說是特征表示 的問題。
[0004] 稀疏編碼是一種有效的特征表示方法,在機(jī)器學(xué)習(xí),模式識(shí)別上得到越來越多的 重視,也已經(jīng)成功的應(yīng)用到了紋理識(shí)別,圖像分類和人臉識(shí)別上,但是在處理多模態(tài)信息問 題時(shí),傳統(tǒng)稀疏編碼存在以下缺陷和不足:
[0005] 第一、過完備的碼本和獨(dú)立的稀疏編碼,會(huì)導(dǎo)致編碼過程中丟失數(shù)據(jù)間的相似性 信息,使得相似的特征被編碼為差異較大的稀疏碼,導(dǎo)致了稀疏編碼的不穩(wěn)定性。
[0006] 第二、傳統(tǒng)稀疏編碼算法沒有考慮到對(duì)多模態(tài)特征進(jìn)行編碼的情況,而在多模態(tài) 信息交叉檢索的問題研宄中,查詢項(xiàng)和被檢索項(xiàng)由不同模態(tài)的特征表示,在分布上會(huì)有很 大的差異性,這也影響了稀疏編碼的穩(wěn)定性,從而降低交叉檢索的準(zhǔn)確率。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明是為了避免現(xiàn)存技術(shù)所存在的不足之處,提出一種適用于多模態(tài)信息的稀 疏編碼算法及其應(yīng)用,以期能充分利用多模態(tài)信息進(jìn)行編碼,降低不同模態(tài)間的分布差異, 從而增強(qiáng)稀疏表不的魯棒性,提尚多t旲態(tài)彳目息檢索的準(zhǔn)確率。
[0008] 本發(fā)明為解決技術(shù)問題采用如下技術(shù)方案:
[0009] 本發(fā)明一種適用于多模態(tài)信息的稀疏編碼算法,所述多模態(tài)信息包括社會(huì)媒體圖 像和文本信息,其特征點(diǎn)是按如下步驟進(jìn)行:
[0010] 步驟1、對(duì)所述多模態(tài)信息D進(jìn)行特征提取,獲得多模態(tài)信息D的特征矩陣,記為D=(XUt);并有^ 4]表示所述社會(huì)媒體圖像的特征矩陣表示第i 個(gè)社會(huì)媒體圖像的特征;e 表示所述社會(huì)媒體圖像特征矩陣的維度;m表示所 述社會(huì)媒體圖像的個(gè)數(shù);=Pf表示所述文本信息的特征矩陣;xf表 示第i個(gè)文本信息的特征;t2表示所述文本信息特征矩陣的維度;11表示所述 文本信息的個(gè)數(shù);
[0011] 步驟2、建立同一模態(tài)特征的圖拉普拉斯矩陣L1和LT:
[0012] 步驟2. 1、對(duì)所述m個(gè)社會(huì)媒體圖像利用KNN算法建立一個(gè)k近鄰圖,所述k近鄰 圖包括m個(gè)頂點(diǎn),每個(gè)頂點(diǎn)表示一個(gè)社會(huì)媒體圖像的特征;
[0013] 若所述社會(huì)媒體圖像的特征矩陣X1中,第j個(gè)社會(huì)媒體圖像特征 <在第i個(gè)社會(huì) 媒體圖像特征彳的k近鄰內(nèi),則將第i個(gè)頂點(diǎn)彳和第j個(gè)4的相似性記為1;若第j個(gè) 社會(huì)媒體圖像特征4不在第i個(gè)社會(huì)媒體圖像特征< 的k近鄰內(nèi),則第i個(gè)頂點(diǎn)x/和第j 個(gè)4的相似性記為〇 ;從而得到所述第i個(gè)社會(huì)媒體圖像彳的相似性向量,進(jìn)而得 到m個(gè)社會(huì)媒體圖像的相似性矩陣W1,1彡j彡m,j辛i;
[0014] 步驟2. 2、利用式(1)獲得與第i個(gè)社會(huì)媒體圖像特征x/相關(guān)的相似度的總 和即為所述第i個(gè)社會(huì)媒體圖像特征的度,從而獲得m個(gè)社會(huì)媒體圖像特征的度
[0015] d1, =Yjk^Ka) ⑴
[0016] 步驟2. 3、利用式(2)獲得m個(gè)社會(huì)媒體圖像特征矩陣X1的圖拉普拉斯矩陣LS
[0017] L1=Cliag(D1)-W1 (2)
[0018] 式(2)中,diag?1)表示以m個(gè)社會(huì)媒體圖像特征的度D1中的元素作為對(duì)角元素 求對(duì)角矩陣;
[0019] 步驟2. 4、根據(jù)所述步驟2. 1-步驟2. 3,同理獲得n個(gè)文本信息的圖拉普拉斯矩陣 Lt;
[0020] 步驟3、利用式(3)建立最大均值差異矩陣M:
【主權(quán)項(xiàng)】
1. 一種適用于多模態(tài)信息的稀疏編碼算法,所述多模態(tài)信息包括社會(huì)媒體圖像和文本 信息,其特征是按如下步驟進(jìn)行: 步驟1、對(duì)所述多模態(tài)信息D進(jìn)行特征提取,獲得多模態(tài)信息D的特征矩陣,記為D = (Ot);并有尤;…乂]表示所述社會(huì)媒體圖像的特征矩陣表示第i個(gè) 社會(huì)媒體圖像的特征;;T e h表示所述社會(huì)媒體圖像特征矩陣的維度;m表示所述 社會(huì)媒體圖像的個(gè)數(shù);=[4,·4,···,<,···,<]表示所述文本信息的特征矩陣;;cf表示 第i個(gè)文本信息的特征;; &表示所述文本信息特征矩陣的維度;n表示所述文 本信息的個(gè)數(shù); 步驟2、建立同一模態(tài)特征的圖拉普拉斯矩陣L1和L τ: 步驟2. 1、對(duì)所述m個(gè)社會(huì)媒體圖像利用KNN算法建立一個(gè)k近鄰圖,所述k近鄰圖包 括m個(gè)頂點(diǎn),每個(gè)頂點(diǎn)表示一個(gè)社會(huì)媒體圖像的特征; 若所述社會(huì)媒體圖像的特征矩陣X1中,第j個(gè)社會(huì)媒體圖像特征 < 在第i個(gè)社會(huì)媒體 圖像特征;^的k近鄰內(nèi),則將第i個(gè)頂點(diǎn)x/和第j個(gè)< 的相似性<7記為1 ;若第j個(gè)社會(huì) 媒體圖像特征與不在第i個(gè)社會(huì)媒體圖像特征< 的k近鄰內(nèi),則第i個(gè)頂點(diǎn)<和第j個(gè)< 的相似性 記為O ;從而得到所述第i個(gè)社會(huì)媒體圖像彳的相似性向量Wi1,進(jìn)而得到m個(gè) 社會(huì)媒體圖像的相似性矩陣W1,I < j < m, j辛i ; 步驟2. 2、利用式(1)獲得與第i個(gè)社會(huì)媒體圖像特征x/相關(guān)的相似度的總和 <,即為所述第i個(gè)社會(huì)媒體圖像特征的度,從而獲得m個(gè)社會(huì)媒體圖像特征的度
(1) 步驟2. 3、利用式(2)獲得m個(gè)社會(huì)媒體圖像特征矩陣X1的圖拉普拉斯矩陣L S L1=Cliag(D1)-W1 (2) 式(2)中,diag?1)表示以m個(gè)社會(huì)媒體圖像特征的度D1中的元素作為對(duì)角元素求對(duì) 角矩陣; 步驟2. 4、根據(jù)所述步驟2. 1-步驟2. 3,同理獲得η個(gè)文本信息的圖拉普拉斯矩陣Lt; 步驟3、利用式(3)建立最大均值差異矩陣M :
式(3)中,表示所述最大均值差異矩陣M中任一元素; 步驟4、建立如式(4)所示的基于稀疏編碼的目標(biāo)函數(shù): 式⑷中,滬,V
]表示對(duì)應(yīng)于所述社會(huì)媒體圖像特征X1的初始 碼本,¥表示所述初始圖像碼本的第u個(gè)基向量,I < u < r,y ep,ti表示所述初始 圖像碼本的維度,r表示所示初始圖像碼本的大?。籅t表示對(duì)應(yīng)于所述文本信息特征X τ的 初始文本碼本,^……,< ],< 表示所述初始文本碼本的第V個(gè)基向量, K V < r,e紀(jì)2〃,t2表示所述初始文本碼本的維度,r表示所述初始文本碼本的大 小; V = ,^,…,4,…,4 :表示所述社會(huì)媒體圖像的初始稀疏表示,< 表示所述初始圖 像稀疏表示中第σ列,1 < 〇 <m,S1E ITx' 1*表示所述初始圖像稀疏表示的維度,m表 示所述初始圖像稀疏表示的大?。籗7" ^Ι/ι1",5·『,…,^',···,<]表示所述文本信息的初始稀疏 表示,4表示所述初始文本稀疏表示中第τ列,1 < τ <n,STe irXn,r表示所述初始文 本稀疏表示的維度,η表示所述初始文本稀疏表示的大??;表示初始圖像稀疏表 不S1與初始文本稀疏表不St的合并矩陣;(S1)'和(St)'分別表不稀疏表不S 1與稀疏表 示St的轉(zhuǎn)置,tr ()表示求矩陣的跡;μ i、μ 2、β、λ JP λ 2分別表示權(quán)值; 步驟5、采用特征符號(hào)搜索算法更新所述初始圖像稀疏表示S1與初始文本稀疏表示ST, 獲得多模態(tài)?目息的稀疏表不: 步驟5. 1、定義循環(huán)變量ω ;并初始化ω = 1 ;則第ω次圖像碼本化為所述初始圖像 碼本B1;第ω次圖像稀疏表示兒為所述初始圖像稀疏表示S1;所述第ω次文本碼本^^為 所述初始文本碼本B t;所述第ω次文本稀疏表示筆.為所述初始文本稀疏表示St; 步驟5. 2、固定所述第ω次圖像碼本 <,獲得如式(5)所示的第ω次圖像稀疏表示 筆啲目標(biāo)更新函數(shù)并采用特征符號(hào)搜索算法求解式(5)獲得第ω次更新后的圖像稀疏表 示(<f:
步驟5. 3、固定所述第ω次文本碼本及:;,獲得如式(6)所示的所述第ω次文本稀疏表 示:筆的目標(biāo)更新函數(shù)并采用特征符號(hào)搜索算法求解式(6)獲得第ω次更新后的文本稀疏 表示(*? :
步驟5. 4、固定所述第ω次更新后的圖像稀疏表示利用式(7)獲得第ω次更新 后的圖像碼本(化)":
步驟5. 5、固定所述第ω次更新后的文本稀疏表示(5?%利用式(8)獲得第ω次更新 后的文本碼本(〇":
步驟5. 5、將ω +1的值賦給ω,重復(fù)步驟5. 2-步驟5. 5直至式(5)和式(6)所示的目 標(biāo)更新函數(shù)最小化,從而獲得優(yōu)化后的圖像稀疏表示和文本稀疏表示。
2.-種對(duì)適用于多模態(tài)信息的稀疏編碼算法的應(yīng)用,其特征是應(yīng)用于多模態(tài)信息的交 叉檢索。
【專利摘要】本發(fā)明公開了一種適用于多模態(tài)信息的稀疏編碼算法及其應(yīng)用,其特征是按如下步驟進(jìn)行:1提取社會(huì)媒體的圖像和文本的特征;2對(duì)相同模態(tài)特征建立圖拉普拉斯矩陣;3建立最大化平均散度矩陣;4構(gòu)建基于稀疏編碼的目標(biāo)函數(shù);5采用特征符號(hào)搜索算法更新稀疏編碼,得到多模態(tài)信息的特征表示;6利用得到的特征表示進(jìn)行交叉檢索。本發(fā)明能夠充分利用多模態(tài)信息進(jìn)行編碼,降低不同模態(tài)間的分布差異,從而提高稀疏編碼的魯棒性,提高交叉檢索的準(zhǔn)確率。
【IPC分類】G06F17-30, G06K9-46
【公開號(hào)】CN104765878
【申請(qǐng)?zhí)枴緾N201510205245
【發(fā)明人】劉學(xué)亮, 劉菲
【申請(qǐng)人】合肥工業(yè)大學(xué)
【公開日】2015年7月8日
【申請(qǐng)日】2015年4月27日