亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于地點的多模態(tài)媒體數(shù)據(jù)主題提取模型的制作方法

文檔序號:10535023閱讀:310來源:國知局
一種基于地點的多模態(tài)媒體數(shù)據(jù)主題提取模型的制作方法
【專利摘要】一種基于地點的多模態(tài)媒體數(shù)據(jù)主題提取模型:將所有地點的多模態(tài)媒體數(shù)據(jù)集和文本數(shù)據(jù)總體定義為基于地點的多模態(tài)媒體數(shù)據(jù)庫;對經(jīng)過自然語言處理后的文本數(shù)據(jù)進行三層貝葉斯概率模型的提取,得到初始文本特征向量集;采用顏色特征對每個地點的多媒體圖像數(shù)據(jù)進行處理得到初始圖像特征向量集;將所有地點的初始文本特征向量集和初始圖像特征向量集進行集合定義為多模態(tài)媒體數(shù)據(jù)特征庫;得到多模態(tài)媒體數(shù)據(jù)在同一空間下的特征向量集;得到基于地點的多模態(tài)媒體數(shù)據(jù)主題模型,計算主題模型中圖像特征和文本特征之間的歐氏距離,實現(xiàn)對多媒體圖像數(shù)據(jù)的文本標注。本發(fā)明避免了多媒體數(shù)據(jù)的模態(tài)單一性,實現(xiàn)了基于地點的多模態(tài)媒體數(shù)據(jù)的主題提取。
【專利說明】
一種基于地點的多模態(tài)媒體數(shù)據(jù)主題提取模型
技術領域
[0001] 本發(fā)明涉及一種多模態(tài)媒體數(shù)據(jù)主題提取模型。特別是涉及一種基于地點的多模 態(tài)媒體數(shù)據(jù)主題提取模型。
【背景技術】
[0002] 現(xiàn)如今人類生活已經(jīng)離不開網(wǎng)絡,人們可以通過多種多樣的社交軟件了解身邊發(fā) 生的大事小事。隨著信息技術的日益發(fā)展,多媒體數(shù)據(jù)的表現(xiàn)形式也由單一的文本逐漸豐 富為視頻、音頻、動畫和圖形等,隨之而來的就是多媒體數(shù)據(jù)正呈現(xiàn)海量增長的趨勢。如何 對這些媒體類型的信息進行快速準確的檢索和分類已經(jīng)成為人們迫切的需要(如參考文獻
[1]),并吸引了眾多科研工作者的目光,多媒體數(shù)據(jù)信息檢索順利成章的成為了當下的研 究熱點。
[0003] 多媒體信息檢索與分類是基于數(shù)字圖像處理、計算機視覺和機器學習等技術,借 助于計算機處理技術,對數(shù)據(jù)庫中的多媒體信息進行分析比較的過程。目前,多媒體信息檢 索研究主要分為兩類:基于文本方式的信息檢索、基于內(nèi)容的多媒體信息檢索技術?;谖?本方式的信息檢索方法簡單快速,但已經(jīng)無法滿足現(xiàn)如今多媒體數(shù)據(jù)檢索的需要(如參考 文獻[2])?;趦?nèi)容的多媒體信息檢索方法提取多媒體數(shù)據(jù)的語義信息形成數(shù)據(jù)的特征向 量,通過找到最大相似度的特征向量進而完成檢索(如參考文獻[3])。但是多媒體數(shù)據(jù)的語 義層次越高,檢索所需的計算就越復雜。兩類方法各有優(yōu)劣,但由于基于內(nèi)容的多媒體信息 檢索技術適用于如今多樣的多媒體數(shù)據(jù)的形式,因而得到了廣泛應用 [4]。
[0004] 多媒體數(shù)據(jù)的主題提取目前面臨的主要挑戰(zhàn)為:多媒體數(shù)據(jù)具有多模態(tài)特性,而 且社交網(wǎng)絡的多樣性導致了多媒體數(shù)據(jù)之間的聯(lián)系也具有多樣性,如今大多數(shù)方法只能處 理單模態(tài)的多媒體數(shù)據(jù),限制了實際應用范圍。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明所要解決的技術問題是,提供一種實現(xiàn)了多媒體數(shù)據(jù)在不同模態(tài)和不同社 交網(wǎng)絡上的跨域?qū)W習,提高了多模態(tài)媒體數(shù)據(jù)主題提取準確度的基于地點的多模態(tài)媒體數(shù) 據(jù)主題提取模型
[0006] 本發(fā)明所采用的技術方案是:一種基于地點的多模態(tài)媒體數(shù)據(jù)主題提取模型,包 括以下步驟:
[0007] 1)采集各個地點的多媒體圖像數(shù)據(jù)和文本數(shù)據(jù),得到各地點的初始多模態(tài)媒體數(shù) 據(jù)集,將所有地點的多模態(tài)媒體數(shù)據(jù)集和文本數(shù)據(jù)總體定義為基于地點的多模態(tài)媒體數(shù)據(jù) 庫;
[0008] 2)在多模態(tài)媒體數(shù)據(jù)庫中,對每個地點的文本數(shù)據(jù)進行自然語言處理后采用詞袋 模型得到文本中前1000~1500個單詞,對經(jīng)過自然語言處理后的文本數(shù)據(jù)進行三層貝葉斯 概率模型的提取,去噪后得到初始文本特征向量集x 2
[0009] 其中N2為初始文本特征向量集中文本數(shù)據(jù)的數(shù)目,m2為特征的維度;
[0010] 3)在多模態(tài)媒體數(shù)據(jù)庫中,采用顏色特征對每個地點的多媒體圖像數(shù)據(jù)進行處 理,再經(jīng)過三層貝葉斯概率模型處理、去噪后得到初始圖像特征向量集4
[0011] 其中見為初始圖像特征向量集中圖像數(shù)據(jù)的數(shù)目,特征的維度;
[0012] 4)將所有地點的初始文本特征向量集和初始圖像特征向量集進行集合,將其定義 為多模態(tài)媒體數(shù)據(jù)特征庫;
[0013] 5)以多模態(tài)媒體數(shù)據(jù)特征庫作為模型的輸入,初始化模型參數(shù),構建多模態(tài)媒體 數(shù)據(jù)圖結構,得到多模態(tài)媒體數(shù)據(jù)在同一空間下的特征向量集;
[0014] 6)對得到的特征向量集進行K均值聚類,得到基于地點的多模態(tài)媒體數(shù)據(jù)主題模 型,計算主題模型中圖像特征和文本特征之間的歐氏距離,實現(xiàn)對多媒體圖像數(shù)據(jù)的文本 標注。
[0015] 步驟5)包括:
[0016] (1)根據(jù)初始圖像特征向量集和初始文本特征向量集X_7 ,得到 多模態(tài)媒體數(shù)據(jù)在同一空間下的特征向量集和特征映射之間的誤差值關系式:
[0017] 0 = ^1^ -C/,^r|!> +l2j|X2 -C/2nr||>+//Tr((^ -P2V2 f D(PXVX ~P,V2)Ya,Tr(}\T 1^) + a2rr(^2F2) + r(||i71||^+||C/2||^+||^||^+||^||^)
[0018] 其中:
[0019] 設定12?172校,其中Reg-,£72^0_,1] 1是父1轉(zhuǎn)換到¥1的近似 的過渡矩陣,1]2是辦轉(zhuǎn)換到V 2的近似的過渡矩陣;
[0020] 巧=^"。、〇"。;^,1為單位矩陣,〇為零矩陣,11()為?11(^圖像數(shù) 據(jù)的數(shù)量,m為Foursquare圖像數(shù)據(jù)的數(shù)量,n2為Foursquare文本數(shù)據(jù)的數(shù)量,D為對角矩 陣;
代表圖像e和圖像s的相似度,(V〇A 圖像e的跨域特征,(V〇s為圖像s的跨域特征,U是拉普拉斯算子;
尼,(A2)es代表文本e和文本S的相似度,(V2)e 為文本e的跨域特征,(V2)s為文本s的跨域特征,L2是拉普拉斯算子;
[0023] ^^、(^、(^和丫為模型參數(shù);
[0024] ,其中要得到的特征映射的維度;
[0025] (2)對誤差值關系式中的^^(^、(^、化和乂:^初始化;
[0026] (3)分別固定1]1、1]2、¥1和¥2并求導,不斷重復求導過程直到誤差值關系式具有設定 的最小值,此時的化和%即為多模態(tài)媒體數(shù)據(jù)的特征映射,即不同模態(tài)數(shù)據(jù)在同一特征空間 下的特征向量集。
[0027] 本發(fā)明的一種基于地點的多模態(tài)媒體數(shù)據(jù)主題提取模型,具有的有益效果是:
[0028] 1、避免了多媒體數(shù)據(jù)的模態(tài)單一性,可以應用于多種模態(tài)的多媒體數(shù)據(jù)庫,即當 多媒體數(shù)據(jù)庫中既有文本數(shù)據(jù)又有圖像數(shù)據(jù)時,本方法依然可行;
[0029] 2、采用基于跨域?qū)W習的多媒體主題提取模型,通過某一社交網(wǎng)絡中多模態(tài)媒體數(shù) 據(jù)之間的聯(lián)系將其他多模態(tài)媒體數(shù)據(jù)映射到同一特征空間下,實現(xiàn)了基于地點的多模態(tài)媒 體數(shù)據(jù)的主題提?。?br>[0030] 3、結合使用上述模型對圖像數(shù)據(jù)進行文本標注,建立了圖像數(shù)據(jù)和文本數(shù)據(jù)的聯(lián) 系,實現(xiàn)了該模型的應用。
【附圖說明】
[0031] 圖1是本發(fā)明基于地點的多模態(tài)媒體數(shù)據(jù)主題提取模型的流程圖;
[0032]圖2a是雅虎網(wǎng)站(Flickr)數(shù)據(jù)樣例,其文本標注為"星巴克";
[0033]圖2b是四方網(wǎng)站(Foursquare)數(shù)據(jù)樣例,其文本標注為"海灣風景";
[0034]圖2c是四方網(wǎng)站(Foursquare)數(shù)據(jù)樣例,其文本標注為"房間浴室";
[0035]圖3a是特征維數(shù)為10維的主題模型樣例,文本標注為"舒服的房間";
[0036]圖3b是特征維數(shù)為100維的主題模型樣例,文本標注為"沙灘";
[0037] 圖3c是特征維數(shù)為1000維的主題模型樣例,文本標注為"周末夜景";
[0038] 圖4a是特征維數(shù)為10維的圖片標注樣例,文本標注為"燈光";
[0039] 圖4b是特征維數(shù)為100維的圖片標注樣例,文本標注為"聚會";
[0040] 圖4c是特征維數(shù)為1000維的圖片標注樣例,文本標注為"海鮮食品";
[0041 ]圖5是基于地點的多模態(tài)媒體數(shù)據(jù)主題模型的評估結果;
[0042] 圖6是圖片標注的評估結果。
【具體實施方式】
[0043] 下面結合實施例和附圖對本發(fā)明的一種基于地點的多模態(tài)媒體數(shù)據(jù)主題提取模 型做出詳細說明。
[0044] 研究表明:多模態(tài)媒體數(shù)據(jù)的特征映射分布情況與其數(shù)據(jù)本身的故有特征有非常 緊密的聯(lián)系,可以通過最優(yōu)化主題模型得到同一特征空間下的多模態(tài)媒體數(shù)據(jù)特征向量進 而計算數(shù)據(jù)之間的關系。本發(fā)明提出了一種基于地點的多模態(tài)媒體數(shù)據(jù)主題提取模型。
[0045] 如圖1所示,本發(fā)明的一種基于地點的多模態(tài)媒體數(shù)據(jù)主題提取模型,包括以下步 驟:
[0046] 1)采集各個地點的多媒體圖像數(shù)據(jù)和文本數(shù)據(jù),得到各地點的初始多模態(tài)媒體數(shù) 據(jù)集,將所有地點的多模態(tài)媒體數(shù)據(jù)集和文本數(shù)據(jù)總體定義為基于地點的多模態(tài)媒體數(shù)據(jù) 庫;
[0047] 2)在多模態(tài)媒體數(shù)據(jù)庫中,對每個地點的文本數(shù)據(jù)進行自然語言處理后采用詞袋 模型(如參考文獻[5])得到文本中前1000~1500個單詞,對經(jīng)過自然語言處理后的文本數(shù) 據(jù)進行三層貝葉斯概率模型(Latent Dirichlet Allocation,LDA(如參考文獻[6]))的提 取,去噪后得到初始文本特征向量集;
[0048] 3)在多模態(tài)媒體數(shù)據(jù)庫中,采用顏色特征對每個地點的多媒體圖像數(shù)據(jù)進行處 理,再經(jīng)過三層貝葉斯概率模型處理、去噪后得到初始圖像特征向量集;
[0049] 4)將所有地點的初始文本特征向量集和初始圖像特征向量集進行集合,將其定義 為多模態(tài)媒體數(shù)據(jù)特征庫;
[0050] 5)以多模態(tài)媒體數(shù)據(jù)特征庫作為模型的輸入,初始化模型參數(shù),構建多模態(tài)媒體 數(shù)據(jù)圖結構,得到多模態(tài)媒體數(shù)據(jù)在同一空間下的特征向量集;包括:
[0051 ] (1)根據(jù)初始圖像特征向量集;€ 和初始文本特征向量集義e ,得到 多模態(tài)媒體數(shù)據(jù)在同一空間下的特征向量集和特征映射之間的誤差值關系式:
[0052] 0 = l.WX.-U^t+X.WX.-U^ ||;. + /iTr((^ -P2F2f Z)(^ -P2F2)) + ?irr(^Z1F1) + tt2rr(F/l2r2) + 7(||[/t||-;+||t/2||-;+||Ft||-;+||F 2||-;)
[0053] 其中:
[0054] 設定,其中(72€0¥/,.1]1是)(1轉(zhuǎn)換到1的近似 的過渡矩陣,1] 2是辦轉(zhuǎn)換到V2的近似的過渡矩陣;
-:£.,J圖像e的特征映射,(V〇s為圖像s的特征映射,U是拉普拉斯算子; ,1為單位矩陣,0為零矩陣,D為對角矩陣; 11],(&^代表圖像6和圖像8的相似度,(¥1)6為
,(A2)es代表文本e和文本s的相似度,(V2) e 為文本e的特征映射,(V2)s為文本s的特征映射,L2是拉普拉斯算子;
[0058] ^^,^,(^,(^,丫為模型參數(shù);
[0059] V^Q^d , V2^d其中d為要得到的特征映射的維度; .,:
[0060] (2)對誤差值關系式中的
[0061] (3)分別固定1]1、1]2、¥1和¥ 2并求導,不斷重復求導過程直到誤差值關系式具有設定 的最小值,此時的化和%即為多模態(tài)媒體數(shù)據(jù)的特征映射,即不同模態(tài)數(shù)據(jù)在同一特征空間 下的特征向量集。
[0062] 6)對得到的特征向量集進行K均值聚類(如參考文獻[7]),得到基于地點的多模態(tài) 媒體數(shù)據(jù)主題模型,計算主題模型中圖像特征和文本特征之間的歐氏距離,實現(xiàn)對多媒體 圖像數(shù)據(jù)的文本標注。
[0063] 下面結合具體的計算公式,對實施例1中的方案進行詳細的介紹,詳見下文描述:
[0064] 1)采集S個地點的多媒體圖像數(shù)據(jù)和文本數(shù)據(jù),得到各地點的初始多模態(tài)媒體數(shù) 據(jù)集m,將所有地點的多模態(tài)媒體數(shù)據(jù)集和文本數(shù)據(jù)總體Milm1,!!!2, ...,ms}定義為基于地 點的多模態(tài)媒體數(shù)據(jù)庫MD(Multimedia Database);
[0065] 本發(fā)明實施例首先采集來自S個地點的雅虎網(wǎng)站(FI ickr)和四方網(wǎng)站 (Foursquare)媒體數(shù)據(jù)(本例中S = 41),過程如下:
[0066] 本發(fā)明是基于地點的多模態(tài)媒體數(shù)據(jù)主題提取,要收集數(shù)據(jù)的相關地點要比較熱 門,所以我們要選擇比較受歡迎的地點。Foursquare中既有圖像數(shù)據(jù)又有文本數(shù)據(jù)而且它 們在數(shù)量和內(nèi)容上基本沒有聯(lián)系,有的地點主頁中用戶上傳的信息較少不具有代表性,所 以在選擇地點時要滿足三個條件:(1)擁有的用戶數(shù)量在1000以上;(2)地點主頁中用戶上 傳的圖像數(shù)目大于1000; (3)用戶對地點的相關評論在200條以上。由此,我們選擇了41個比 較受歡迎的地點。每個地點中所有的文本信息看成一個文本文檔,所以我們收集到的 Four square數(shù)據(jù)包含41個文本文檔和10631張圖像。
[0067]輔助域的數(shù)據(jù)主要從Flickr中獲取,F(xiàn)lickr作為一個專業(yè)級圖像分享網(wǎng)站,提供 的圖像數(shù)據(jù)包含豐富的信息,包括標注信息和圖像的地理信息(如參考文獻[8])。在Flickr 數(shù)據(jù)的收集中,可以通過一些圖像標注候選詞匯作為搜索關鍵詞在Flickr平臺上收集圖 像。對這41個地點我們均選擇搜集到的前60張圖像,共2460張。
[0068] 將S個地點的多模態(tài)媒體數(shù)據(jù)集合并得到總初始視圖集M= {m1,!!!2, ...,ms},將其 定義為基于地點的多模態(tài)媒體數(shù)據(jù)庫MD;
[0069] 2)在多模態(tài)媒體數(shù)據(jù)庫中,采用詞袋模型對每個地點的文本數(shù)據(jù)L1,其中iG{l, 2, ...,S},進行自然語言處理,得到文本中前1000~1500個單詞,對經(jīng)過自然語言處理后的 文本數(shù)據(jù)進行三層貝葉斯概率模型的提取,去噪后得到初始文本特征向量集;
[0070] Flickr是多模態(tài)媒體數(shù)據(jù)結構圖中的橋梁,所以如果Flickr的圖像標注信息與主 題相差很大的話會嚴重影響多模態(tài)媒體數(shù)據(jù)圖結構的形成,這就主要需要對Flickr的文本 信息進行去噪。我們將收集到的每個地點的所有文本視為一個文本文件,這些文件經(jīng)過LDA 處理以后生成了一個文本主題模型. . .,rn},第t個主題rt有j個單詞 r, ={?...,〃丨,…0,〃(代表第t個主題的第k個單詞。經(jīng)過計算Flickr的文本和所有的主 題的相似度,去掉相似度較低的Flickr文本噪聲。Flickr的圖像F和每個文本主題r的相似 度計算公式為:
[0071 ] Sh,t; (r.F) = argmax(/?(//,; .//; }x P(u[ jr))
[0072] 是F1 i ckr的圖像F的文本標注的第a個單詞,< 是主題t的單詞集合中的第k個單 詞。是兩個單詞之間的相似度,是單詞4出現(xiàn)在主題r的概率,相似度取兩 單詞間的最大值。如果相似度很低,就將該文本和對應的圖像濾掉,提高Flickr數(shù)據(jù)對地點 描述的精確性。
[0073] 對Foursquare的文本數(shù)據(jù)而言,可以通過刪除掉文本中的冗雜單詞(stopwords) 實現(xiàn)數(shù)據(jù)的去噪。
[0074] 去噪后的Flickr文本數(shù)據(jù)為2086條,F(xiàn)oursquare文本數(shù)據(jù)為3331條,對這些數(shù)據(jù) 進行LDA處理,得到初始文本特征向量集T= {t1,!:2, . . .,ts},定義為文本特征庫TFD(Text Feature Database)〇
[0075] 3)在多模態(tài)媒體數(shù)據(jù)庫MD(Multimedia Database)中,采用顏色特征(如參考文獻
[9])對每個地點的多媒體圖像數(shù)據(jù)B1,其中iG {1,2, ...,S}進行處理,再經(jīng)過三層貝葉斯 概率模型處理、去噪后得到初始圖像特征向量集P;
[0076]對圖像數(shù)據(jù)進行去噪同樣是將與地點相關性小的圖像濾掉。針對Flickr和 Foursquare數(shù)據(jù)的不同,要分別對其進行處理。
[0077] Foursquare : Four square上的圖像是根據(jù)用戶上傳照片時所處的地理位置決定 的,所以按道理來說,來自同一地點的圖像應該都反映相同的場景。比如同一地點的白天和 黑夜的圖像在顏色方面有很大的不同,這兩張圖像雖然差異很大,但反映的是同一地點的 場景。我們設定來自同一地點的圖像在特征空間具有一致性或者類似性,利用上述假設就 可以濾除圖像噪聲。具體處理過程如下:
[0078]根據(jù)地點圖像經(jīng)常出現(xiàn)的幾種特征將圖像大概分為幾類,本算法使用K均值聚類 將圖像分為5類;由于每一類的圖像特征對地點的描述程度不同、數(shù)量不同,所以應該對每 類圖像賦予不同的權值。設定每類的初始權重為
,(:=1,2,...,1],1]是生成的類別的 個數(shù),n。是第c個子類包含的圖像的數(shù)目,N是聚類的所有圖像的數(shù)目,w。是每個子類所占的 權重。然后采用隨機游走算法不斷對子類的權重進行更新,收斂后得到的結果即為最終的 子類所占權重。我們選擇權重最大的前3個子類作為訓練數(shù)據(jù),剩余的2個子類被作為噪聲 濾除掉。
[0079] FI i ckr: FI i ckr中的圖像都有文本標注,所以可以直接計算文本標注和地點主題 的相似度,濾除不相關圖像。與Four square的文本預處理相同,需要將FI i ckr的文本標注中 一些與地點無關的單詞濾掉,比如'Nikon','Canon'等。在步驟202中已經(jīng)提取了每個地點 的LDA主題模型后,選擇Z個主題用來描述地點0={01,0 2,...,02}。文本標注和主題之間的 相似度S(W,Topic)取所有文本標注單詞和主題之間相似度的最大值。
[0080] 去噪后的Fli ckr圖像數(shù)據(jù)為2086條,F(xiàn)oursquare圖像數(shù)據(jù)為5536條,不失一般性 的,對去噪后的圖像特征進行LDA處理,得到初始圖像特征向量集P= {p^p2, . . .,ps},定義 為圖像特征庫PFD(Picture Feature Database)。
[0081] 4)將所有地點的初始文本特征向量集T= {t1,!:2, ...,1/,...,ts}和初始圖像特征 向量集Pib1,#,... 41,...,PS}進行集合,將其定義為多模態(tài)媒體數(shù)據(jù)特征庫;
[0082]去噪后的媒體數(shù)據(jù)示意圖如圖2。
[0083] 5)以多模態(tài)媒體數(shù)據(jù)特征庫作為模型的輸入,初始化模型參數(shù),構建多模態(tài)媒體 數(shù)據(jù)圖結構,得到多模態(tài)媒體數(shù)據(jù)在同一空間下的特征向量集巾=.....^ ;
[0084] 下面詳細介紹得到構建多模態(tài)媒體數(shù)據(jù)圖結構的具體過程:
[0085] 我們將需要處理的數(shù)據(jù)分為兩類:圖像數(shù)據(jù)和文本數(shù)據(jù)。所以可以先將圖像數(shù)據(jù) 和文本數(shù)據(jù)分開處理,再進行統(tǒng)一整合。
[0086] ; ,其中XHf表包含no張具有文本標簽的Flickr圖像數(shù)據(jù)和m張不包含任 何文本信息的Foursquare圖像數(shù)據(jù)的特征矩陣。在上式中Ni = no+ni,即總的圖像數(shù)據(jù)的數(shù) 量,nu代表圖像的空間視覺特征維度。
[0087] Flickr的圖像數(shù)據(jù)和文本數(shù)據(jù)的數(shù)量都為no的原因是Flickr這個社交網(wǎng)絡的特 點是每張圖像都有一條文本標簽。
[0088] 將Foursquare和Flickr的圖像和文本數(shù)據(jù)分別結合起來的目的是賦予來自不同 社交網(wǎng)絡的相同模式的數(shù)據(jù)相同的維數(shù)以便于計算,然后通過形成的數(shù)據(jù)特征矩陣的因子 分解得到圖像數(shù)據(jù)的特征映射。和文本數(shù)據(jù)的特征映射匕,在這兩個變量中 d為統(tǒng)一特征空間下的特征維數(shù)。具體實現(xiàn)過程如下:
[0089] 設定巧#和X2: ?,其中R ,:£/2 e ,山是心轉(zhuǎn)換到%的近似的 過渡矩陣,同樣地,1]2是心轉(zhuǎn)換到V2的近似的過渡矩陣。為了得到圖像數(shù)據(jù)和文本數(shù)據(jù)的特 征映射,就要將不同特征空間下的圖像特征和文本特征轉(zhuǎn)換到相同的特征空間下,通過上 述方法這些數(shù)據(jù)可以保持一致性和流形特征。內(nèi)部數(shù)據(jù)的一致性代表圖像和相關文本文檔 (比如圖像和文本標簽)應該具有類似的或者是相同的特征映射,保持原有的特性代表圖像 和文本應當具有相同的特征映射。
[0090]如上所述,我們首先對得到no張具有標簽的Flickr圖像數(shù)據(jù)和對應的文本數(shù)據(jù)進 行處理,由這些數(shù)據(jù)得到的圖像數(shù)據(jù)和文本數(shù)據(jù)的特征映射的之間應當比較接近。因此我 們定義了兩個選擇矩陣
[0093] 在上式中I為單位矩陣,0為零矩陣。由于Pi中前no列為單位矩陣,所以對應Flickr 的相關圖像數(shù)據(jù)。由于P2中前no列為單位矩陣,所以對應Flickr的相關文本數(shù)據(jù)。這些選擇 矩陣能夠分別WVjPV 2中得至Ijno張圖像的特征映射和no條文本的特征映射。PM和Flickr的 no張圖像的特征映射相對應,P 2V2和Flickr的no條文本標簽的特征映射相對應。Flickr中具 有文本標簽的圖像可以被當成聯(lián)系Four square圖像和文本文件間語義缺口的橋梁。為了使 內(nèi)部媒體數(shù)據(jù)之間具有一致性,不僅需要使用選擇矩陣,還需要對下式極小化。
[0094] Tr( (PiVi-P2V2)tD(PiVi-P2V2))
[0095] 上式中,Tr( ?)是矩陣的軌跡,即取對角線上的元素。Deg"%是對角元素為較大 的正數(shù)常量的對角矩陣。PiVi-PWs代表具有相關性的Flickr的圖像和文本的特征映射之間 的差值。當VdPV 2的值最小時,具有一致性和語義相似性的文本數(shù)據(jù)和圖像數(shù)據(jù)將會有類似 的特征映射。
[0096] 特征映射可以保護數(shù)據(jù)的局部結構信息比如流形特征。為了達到上述目的,我們 定義一個圖像類同矩陣Vl和文本類同矩陣為代表圖像e和圖像s的 相似度,(A 2)es代表文本文件e和文本文件s的相似度。
[0097] 根據(jù)上述的流形假設,如果兩個數(shù)據(jù)點在固定的數(shù)據(jù)分布幾何學中非常接近,那 么這兩個點的特征映射之間也非常接近。就圖像而言,我們將其視為一個最小限度問題:
[0099] 上式中(Vde為圖像e的特征映射,(Vi)s為圖像s的特征映射,U是一個圖像拉普拉 斯算子。
[0100] 我們對下面的函數(shù)進行最小化來生成特征映射:
[0101] 0 = ^||^ -L/^r|!> + 12||X2-U2V7t ||> +//Tr((^ -F2F2 f D(P^-P2V? )) + ?//-(^1^) + a22>(I^Z,2) + 7(||t/邶+||f/2||》+n+r其)
[0102]上式中4是實際圖像數(shù)據(jù)XjP經(jīng)過跨域轉(zhuǎn)換后的圖像數(shù)據(jù)Rff之間的誤 差,Tr (() TD ())是VjPV2的最小化問題,TV 是圖像和圖像之間的相 似度誤差。
[0103]由于上式中存在四個變量山、U2、VjPV2,所以該方程存在非球面的最優(yōu)化問題。但 是當固定其他三個矩陣變量時,對另一個矩陣變量來說該方程為球面的最優(yōu)化問題。因此, 可以通過迭代的方式來解決上式的最優(yōu)化問題。特別地,通過固定山^和^我們可以通過
時的極小值,我們可以得到山的值的更新,如下式所示:
求導得到 。因此,當-的值等于零時,上式存在山為變量 I.
[0105] U2的值也可以通過相似的方式得到更新。
[0106] 通過固定1]1、1]2和%,我們可以通過求導得到
因此,當_
的值等于零時,特征映射方程存在Vi為變量時的極小值,我們也可以得到 乂:的更新值:
[0107] +yl + P;DP])V] +P"
[0108] 將求導公式簡化為西爾維斯特方程AVi+ViB = C,在本式中
[0109] A = + vi + P]T DP,
[0110] B = AlU{Ul
[0111] C = A.XlUl+PlrDP2V 2
[0112] 若要想得到%的更新值,求導公式必須要有唯一解。當且僅當固有值A和B各自滿 足:對所有的i和j,Pi+qj辛〇,其中Pi和qj分別代表A和B的固有值。經(jīng)過計算可以發(fā)現(xiàn)A是對 稱的半正定矩陣之和,I是一個正定值。同樣地,如果Y為足夠大的值,A就為一正定矩陣并 且對所有的i來說都有 ?1>〇。我們同樣注意到B是半正定的格拉姆矩陣。同樣地,對所有的j 來說都有W0。因此,滿足上述的Pi+qfO這一條件并且通過解西爾維斯特方程可以 得到特征映射映射最優(yōu)化的唯一解。
[0113] V2的更新值也可以通過相同的方法得到。
[0114] 數(shù)據(jù)經(jīng)過多模態(tài)媒體數(shù)據(jù)圖后得到最終的特征向量集合,其中 特征向量的維數(shù)分別為1 〇,50和100,示例圖如圖3;
[0115] 6)對得到的向量集進行K均值聚類,得到1000個基于地點的多模態(tài)媒體數(shù)據(jù)主題 模型〇={ 01,02,. . .,01QQQ},基于該主題模型計算圖像特征和文本特征之間的歐氏距離 <.=' j: + (nl .實現(xiàn)對多媒體圖像數(shù)據(jù)的文本標注。
[0116] 將多模態(tài)媒體數(shù)據(jù)映射到同一特征空間后文本數(shù)據(jù)和圖像數(shù)據(jù)之間就具有一定 的聯(lián)系,不失一般性的,采用歐氏距離(如參考文獻[10])為例,可以得到與圖像數(shù)據(jù)最相似 的文本數(shù)據(jù),從而實現(xiàn)多媒體圖像數(shù)據(jù)的文本標注,示例圖如圖4。
[0117] 實驗
[0118] 本實驗使用的數(shù)據(jù)庫為由步驟1)構建的多模態(tài)媒體數(shù)據(jù)庫MD。這是來自兩個社交 網(wǎng)絡的多模態(tài)媒體數(shù)據(jù)庫,共包含來自41個地點的2086條Flickr圖像數(shù)據(jù),2086條Flickr 文本數(shù)據(jù),5536條Foursquare圖像數(shù)據(jù),3331條Foursquare文本數(shù)據(jù)。
[0119] 不失一般性的,采用三個評估標準:每一類中圖像和文本的一致性;文本對圖像描 述的完整性;用戶對分類結果的滿意度。為了評估的有效性,選擇15人,每人在10維、50維、 100維的文件夾中分別隨機抽取20類,對每一類中的內(nèi)容進行評判,形成用戶評判結果的百 分比并求得平均值。
[0120] 用戶對圖像標注的評判是對算法性能的另一種評估。圖像標注的結果中每一張圖 像都有其對應的文本描述。通過圖像和文本的匹配度作出對標注結果的評判。由于圖像標 注中圖像來自Foursquare,文本則來自FI i ckr和Foursquare,并且有的文本內(nèi)容為空,所以 會導致文本標注的不完整性。在評估時,將評估標準分為三個等級,2表示文本基本完整描 述了圖像,1表示文本中有些單詞與圖像相關,〇為其他情況。
[0121] 實驗結果
[0122] 多模態(tài)媒體數(shù)據(jù)庫MD中主題模型和圖片評估的評估結果分別如圖5,6所示。評估 結果越高,性能越優(yōu)良。
[0123] 由圖5可知,本方法中最終的特征向量集合維數(shù)為100時結果最好,并且由圖6可 知,當最終的特征向量為100維時圖片標注的效果也是最好的。這是由于特征維數(shù)越大能夠 描述的圖片的信息就越多,分類效果就越好。
[0124] 本領域技術人員可以理解附圖只是一個優(yōu)選實施例的示意圖,上述本發(fā)明實施例 序號僅僅為了描述,不代表實施例的優(yōu)劣。
[0125] 以上所述僅為本發(fā)明的較佳實施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和 原則之內(nèi),所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。
[0126] 參考文獻:
[0127] [1]莊越挺,潘云鶴,吳飛,等.網(wǎng)上多媒體信息分析與檢索[M].北京:清華大學出 版社,2002:4-20.
[0128] [2]Salton G,Fox E A,ffu H.Extended Boolean Information Retrieval[J] .Commun.ACM,1983,26(11):1022-1036.
[0129] [3]張治國.中文文本分類反饋學習研究[D].西安:西安電子科技大學,2009.
[0130] [4]Felzenszwalb P,Girshick R,McAllester D et al.Object Detection with Discriminatively Trained Part-Based Models[J].IEEE Trans Pattern Anal Mach Intell,2010,32(9):1627-1645.
[0131] [5]Belani A . Vandal i sm Detection in Wikipedia : a Bag-〇f-ffords Classifier Approach[J].CoRR,2010,abs/1001.0700.
[0132] [6]Blei D,Ng A,Jordan M.Latent Dirichlet Allocation[C].Montreal:NIPS, 2001.32-439.
[0133] [7]Blei D M.Probabilistic topic models[J].Commun.ACM,2012,7(17):922-954.
[0134] [8]鄭伯川,彭維,張引,等.3D模型檢索技術綜述[J].計算機輔助設計與圖形學學 報,2004,16(7):873-881.
[0135] [9]Stricker M,0rengo M.Similarity of Color Images[C].Nagova?Japan: 1995.381-392 .[10]Bradley P S,Reina C,Fayyad U M.Clustering Very Large Databases Using EM Mixture Models[C].Barcelona:ICPR,2000.198-208.
【主權項】
1. 一種基于地點的多模態(tài)媒體數(shù)據(jù)主題提取模型,其特征在于,包括以下步驟: 1) 采集各個地點的多媒體圖像數(shù)據(jù)和文本數(shù)據(jù),得到各地點的初始多模態(tài)媒體數(shù)據(jù) 集,將所有地點的多模態(tài)媒體數(shù)據(jù)集和文本數(shù)據(jù)總體定義為基于地點的多模態(tài)媒體數(shù)據(jù) 庫; 2) 在多模態(tài)媒體數(shù)據(jù)庫中,對每個地點的文本數(shù)據(jù)進行自然語言處理后采用詞袋模型 得到文本中前1000~1500個單詞,對經(jīng)過自然語言處理后的文本數(shù)據(jù)進行三層貝葉斯概率 模型的提取,去噪后得到初始文本特征向量集I 2 e 0"^ 其中N2為初始文本特征向量集中文本數(shù)據(jù)的數(shù)目,m2為特征的維度; 3) 在多模態(tài)媒體數(shù)據(jù)庫中,采用顏色特征對每個地點的多媒體圖像數(shù)據(jù)進行處理,再 經(jīng)過三層貝葉斯概率模型處理、去噪后得到初始圖像特征向量集不 其中見為初始圖像特征向量集中圖像數(shù)據(jù)的數(shù)目,特征的維度; 4) 將所有地點的初始文本特征向量集和初始圖像特征向量集進行集合,將其定義為多 模態(tài)媒體數(shù)據(jù)特征庫; 5) 以多模態(tài)媒體數(shù)據(jù)特征庫作為模型的輸入,初始化模型參數(shù),構建多模態(tài)媒體數(shù)據(jù) 圖結構,得到多模態(tài)媒體數(shù)據(jù)在同一空間下的特征向量集; 6) 對得到的特征向量集進行K均值聚類,得到基于地點的多模態(tài)媒體數(shù)據(jù)主題模型,計 算主題模型中圖像特征和文本特征之間的歐氏距離,實現(xiàn)對多媒體圖像數(shù)據(jù)的文本標注。2. 根據(jù)權利要求1所述的一種基于地點的多模態(tài)媒體數(shù)據(jù)主題提取模型,其特征在于, 步驟5)包括: (1)根據(jù)初始圖像特征向量集A 和初始文本特征向量集義'得到多模 態(tài)媒體數(shù)據(jù)在同一空間下的特征向量集和特征映射之間的誤差值關系式:其中: 設定不X,其中[Z1 ,(/2 e0n-,山是父:轉(zhuǎn)換到V1的近似的過 渡矩陣,1]2是辦轉(zhuǎn)換到V2的近似的過渡矩陣;? I為單位矩陣,O為零矩陣,no為Flickr圖像數(shù)據(jù)的 數(shù)量,m為Foursquare圖像數(shù)據(jù)的數(shù)量,m為Foursquare文本數(shù)據(jù)的數(shù)量,D為對角矩陣;II^(A1)e3s代表圖像e和圖像s的相似度,(V 1)e3為圖像 e的跨域特征,(V1)s為圖像s的跨域特征,L1是拉普拉斯算子;H(A2)es代表文本e和文本s的相似度,(V 2)e為文 本e的跨域特征,(V2)s為文本s的跨域特征,L2是拉普拉斯算子;數(shù); 中d為要得到的特征映射的維度; ⑵對誤差值關系式中的 (3)分別固定1]1、1]2、¥1和%并求導,不斷重復求導過程直到誤差值關系式具有設定的最 小值,此時的化和%即為多模態(tài)媒體數(shù)據(jù)的特征映射,即不同模態(tài)數(shù)據(jù)在同一特征空間下的 特征向量集。
【文檔編號】G06F17/30GK105893573SQ201610202586
【公開日】2016年8月24日
【申請日】2016年3月31日
【發(fā)明人】劉安安, 師陽, 聶為之, 蘇育挺
【申請人】天津大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1