一種多源異構(gòu)大數(shù)據(jù)的一致性表示方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種多源異構(gòu)大數(shù)據(jù)的一致性表示方法。本方法針對(duì)多源異構(gòu)數(shù)據(jù)的特征異構(gòu)性問(wèn)題,利用多源異構(gòu)數(shù)據(jù)間的語(yǔ)義互補(bǔ)性,基于子空間學(xué)習(xí)方法,將多源異構(gòu)數(shù)據(jù)投影到一個(gè)中層冗余特征同構(gòu)空間。并在這個(gè)同構(gòu)空間中,將來(lái)自不同來(lái)源的相關(guān)描述耦合到一起。為了挖掘出中層空間中同構(gòu)描述之間的語(yǔ)義一致性,利用先驗(yàn)知識(shí),將特征同構(gòu)描述投影到高層語(yǔ)義共享子空間上,進(jìn)而消除冗余和噪聲信息。由此,可以獲得多源異構(gòu)數(shù)據(jù)的語(yǔ)義一致模式。本發(fā)明有助于在多媒體分析、信息檢索和醫(yī)療診斷等領(lǐng)域,獲得準(zhǔn)確且魯棒的多源數(shù)據(jù)評(píng)估分析結(jié)果。
【專(zhuān)利說(shuō)明】
一種多源異構(gòu)大數(shù)據(jù)的一致性表示方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于信息技術(shù)領(lǐng)域,針對(duì)海量多源異構(gòu)數(shù)據(jù)環(huán)境下的特征異構(gòu)性問(wèn)題,提 出了一種多源異構(gòu)大數(shù)據(jù)的一致性表示方法。
【背景技術(shù)】
[0002] 近年來(lái),隨著大量高技術(shù)數(shù)碼產(chǎn)品的出現(xiàn),由這些異源電子設(shè)備產(chǎn)生的多源異構(gòu) 數(shù)據(jù)(felti-source Heterogeneous Data)己經(jīng)遍布到人們現(xiàn)實(shí)生活的各個(gè)角落。所謂多 源異構(gòu)數(shù)據(jù)是指來(lái)自不同來(lái)源或者渠道,但表達(dá)的內(nèi)容相似,以不同形式、不同來(lái)源、不同 視角和不同背景等多種樣式出現(xiàn)的數(shù)據(jù)。如圖1所示,新浪微博、騰訊微信和搜狐網(wǎng)站關(guān)于 相同的新聞的不同形式的報(bào)道;老年癡呆癥(Alzheimer)患者的大腦可以由核磁共振 (MRI)、正電子成像技術(shù)(PET)和X光產(chǎn)生多種不同視角的醫(yī)學(xué)成像;Wikipedia網(wǎng)站上對(duì)花 豹的描述采用了圖片、文本和語(yǔ)音等不同來(lái)源的媒介;相同的建筑物白宮可以處在不同的 背景之下。
[0003] 然而,多源數(shù)據(jù)呈現(xiàn)出底層特征異構(gòu)、高層語(yǔ)義相關(guān)的特性。傳統(tǒng)的單源學(xué)習(xí) (Mono-source Learning)方法已無(wú)法適應(yīng)多源數(shù)據(jù)的特性。一種樸素的(naive)處理多源 異構(gòu)數(shù)據(jù)的方式就是直接將所有來(lái)源的樣本描述強(qiáng)行拼接成一個(gè)長(zhǎng)向量,使其變成一般的 單源學(xué)習(xí)問(wèn)題(僅對(duì)配對(duì)數(shù)據(jù)有效)。該方法符合將一個(gè)困難問(wèn)題歸結(jié)為一個(gè)已解決簡(jiǎn)單問(wèn) 題的思想,然而其實(shí)際效果往往不盡如人意。事實(shí)上,這種強(qiáng)行拼接的方法完全忽視了對(duì)學(xué) 習(xí)有極大用處的不同來(lái)源間的語(yǔ)義互補(bǔ)性。因此,如若利用針對(duì)單源數(shù)據(jù)的方法處理多源 異構(gòu)數(shù)據(jù)的若干相關(guān)問(wèn)題,必然導(dǎo)致錯(cuò)誤的結(jié)果。
[0004] 近年來(lái),國(guó)內(nèi)外的研究人員提出了各種各樣的多源學(xué)習(xí)方法,探索異源數(shù)據(jù)間的 潛在關(guān)系,以期提高多源學(xué)習(xí)的效率。這些研究主要包括:協(xié)同訓(xùn)練(Co-training)、多核學(xué) 習(xí)(Multiple Kernel Learning,MKL)、子空間學(xué)習(xí)(Subspace Learning,SL) 〇
[0005] 協(xié)同訓(xùn)練是一種半監(jiān)督學(xué)習(xí)方法,利用異源間的互補(bǔ)信息,提高訓(xùn)練模型的泛化 能力。它要求每個(gè)來(lái)源都有大量的有標(biāo)記樣本,以訓(xùn)練出一個(gè)強(qiáng)學(xué)習(xí)器,然后使用這個(gè)學(xué)習(xí) 器對(duì)未標(biāo)記樣本進(jìn)行標(biāo)記,并從中挑選出若干標(biāo)記可信度較高的樣本,加入對(duì)方來(lái)源的學(xué) 習(xí)器中,以便對(duì)方利用這些新標(biāo)記的樣本進(jìn)行更新,提高訓(xùn)練模型的泛化能力。這種方法的 缺陷在于,它要求每個(gè)來(lái)源都有大量的有標(biāo)記樣本,學(xué)習(xí)條件太高。此外,它要求不同的來(lái) 源間是同構(gòu)的,所以無(wú)法解決異源間的特征異構(gòu)性問(wèn)題。(參考文獻(xiàn):Blum A,Mitche 11 T M.Combining Labeled and Unlabeled Data with Co-Training.Proceedings of the ACM International Conference on Computational Learning Theory,Madison, Wisconsin,USA,1998:92-100.)
[0006] 而多核學(xué)習(xí)是一種非線性模式分析方法,它組合利用了各個(gè)基本核的特征映射能 力,使數(shù)據(jù)在由多個(gè)特征空間構(gòu)建的組合空間中得到更好的表達(dá),從而找出多個(gè)來(lái)源間的 關(guān)聯(lián)結(jié)構(gòu)。在多核框架下,每個(gè)來(lái)源使用不同的基本核函數(shù),樣本在特征空間中的表示問(wèn)題 轉(zhuǎn)化成為基本核與組合權(quán)系數(shù)的選擇問(wèn)題。在這個(gè)由多個(gè)特征空間構(gòu)建的組合空間中,通 過(guò)將異構(gòu)數(shù)據(jù)的不同特征分量分別輸入對(duì)應(yīng)的基本核函數(shù)進(jìn)行映射,使數(shù)據(jù)在新的組合空 間中得到更好的表達(dá),從而提高分類(lèi)正確率或預(yù)測(cè)精度。其缺點(diǎn)在于:很難針對(duì)每個(gè)來(lái)源選 擇恰當(dāng)?shù)幕竞撕瘮?shù)和組合權(quán)系數(shù)。(參考文獻(xiàn):G6aenM,A1 paydin E.Multiple Kerne 1 Learning Algorithms.Journal of Machine Learning Research,2011,12:2211-2268?)
[0007] 共享子空間學(xué)習(xí)旨在獲得多個(gè)來(lái)源間共享的潛在子空間。利用多源異構(gòu)數(shù)據(jù)間的 相關(guān)性和先驗(yàn)知識(shí),將異構(gòu)數(shù)據(jù)投影到共享子空間上,從而消除不同來(lái)源間的特征異構(gòu)性, 以捕捉不同來(lái)源間的互補(bǔ)信息。這類(lèi)方法的優(yōu)點(diǎn)在于:1)可以得到異構(gòu)描述的同構(gòu)描述,便 于直接度量異構(gòu)描述間的相關(guān)性,消除不同來(lái)源之間的異構(gòu)性;2)在投影過(guò)程中,能夠充分 利用不同來(lái)源間的相關(guān)性和近似分布,提取更多的互補(bǔ)信息。(參考文獻(xiàn):Hard 〇〇n D R, Szedmak S,Taylor J S.Canonical Correlation Analysis:an Overview with Application to Learning Methods.Neural Computation,2004,16(12):2639-2664.)
[0008] 表1列出了各類(lèi)多源學(xué)習(xí)方法的優(yōu)缺點(diǎn)。
[0009]表1.各類(lèi)多源學(xué)習(xí)方法的優(yōu)缺點(diǎn)
【發(fā)明內(nèi)容】
[0011] 本發(fā)明的目的:
[0012] 在多媒體分析、信息檢索和醫(yī)療診斷等現(xiàn)實(shí)應(yīng)用中,經(jīng)常會(huì)遇到相同的語(yǔ)義概念 由不同來(lái)源的對(duì)象表達(dá)的情況。然而,多源異構(gòu)數(shù)據(jù)通常呈現(xiàn)出底層特征異構(gòu)、高層語(yǔ)義相 關(guān)的特性。傳統(tǒng)的單源學(xué)習(xí)方法已無(wú)法適應(yīng)多源數(shù)據(jù)的特性。如何充分利用異源數(shù)據(jù),挖掘 其一致性和互補(bǔ)信息,以充分理解多源數(shù)據(jù)的內(nèi)容是當(dāng)今多源數(shù)據(jù)分析的熱點(diǎn)和難點(diǎn)。人 們很自然地意識(shí)到,如果能將不同來(lái)源的異構(gòu)描述整合為某個(gè)涵蓋了所有來(lái)源間互補(bǔ)信息 的語(yǔ)義一致模式,那么由此得來(lái)的一致性描述就更加有利于捕捉不同來(lái)源間的互補(bǔ)性。因 此,如何從不同來(lái)源的異構(gòu)數(shù)據(jù)中挖掘出嵌入了異源間互補(bǔ)信息的語(yǔ)義一致模式,對(duì)于這 些應(yīng)用獲得準(zhǔn)確且魯棒的多源數(shù)據(jù)評(píng)估分析結(jié)果是十分重要的。
[0013] 然而,挖掘多源異構(gòu)數(shù)據(jù)的語(yǔ)義一致模式是一項(xiàng)艱巨的任務(wù)。首先,如圖2所示,由 于不同的來(lái)源橫跨異構(gòu)的底層特征空間,所以多源異構(gòu)描述之間沒(méi)有顯式的對(duì)應(yīng)關(guān)系。例 如,在同一張網(wǎng)頁(yè)中,共生的圖片和文本分別從視覺(jué)和文字角度傳達(dá)了相同的語(yǔ)義概念,所 以基于它們各自的異構(gòu)描述很難度量它們之間的關(guān)系。因此,為了關(guān)聯(lián)不同的來(lái)源,首先需 要解決的問(wèn)題就是構(gòu)建一個(gè)中層特征同構(gòu)空間,并且在這個(gè)空間中充分嵌入不同來(lái)源間的 互補(bǔ)信息。
[0014] 如圖3所示,對(duì)于中層空間中的同構(gòu)描述主要由必要成分、冗余成分和噪聲成分組 成(參考文南犬:Qiang Cheng,Hongbo Zhou,Jie Cheng.The Fisher-Markov Selector:Fast Selecting Maximally Separable Feature Subset for Multiclass Classification with Applications to High-Dimensional Data.IEEE Trans.Pattern Analysis and Machine Intelligence ,2011,33(6): 1217-1233.)。必要成分指的是同構(gòu)描述之間的互補(bǔ) 信息,這些信息對(duì)于利用先驗(yàn)知識(shí)構(gòu)建語(yǔ)義一致模式是必要的。不同于必要成分,后兩者指 的是非必要信息。它們之間的區(qū)別在于冗余成分和必要成分高度相關(guān),而噪聲成分和前兩 者之間沒(méi)有相關(guān)性。因此,在挖掘語(yǔ)義一致模式過(guò)程中另一個(gè)需要亟待解決的問(wèn)題就是提 取特征同構(gòu)描述之間共享的高層語(yǔ)義子空間。由此,必要成分得以很好地保留而沒(méi)有殘留 冗余和噪聲成分。
[0015] 而本發(fā)明的具體目的就是針對(duì)多源異構(gòu)數(shù)據(jù)的特征異構(gòu)性問(wèn)題,提供一種多源異 構(gòu)大數(shù)據(jù)的一致性表示方法,利用多源異構(gòu)數(shù)據(jù)間的語(yǔ)義互補(bǔ)性,基于子空間學(xué)習(xí)方法,將 多源異構(gòu)數(shù)據(jù)投影到一個(gè)中層冗余特征同構(gòu)空間。并在這個(gè)同構(gòu)空間中,將來(lái)自不同來(lái)源 的相關(guān)描述耦合到一起,消除高維中層特征同構(gòu)描述中的冗余和噪聲成分,以此挖掘出嵌 入了異源間互補(bǔ)信息的語(yǔ)義一致模式,進(jìn)而獲得多源異構(gòu)數(shù)據(jù)特征描述的融合表示。
[0016] 本發(fā)明的技術(shù)方案:
[0017] 以下結(jié)合附圖對(duì)本發(fā)明的原理和特征進(jìn)行描述,所舉實(shí)例只用于解釋本發(fā)明,并 非用于限定本發(fā)明的范圍。
[0018] 如圖4所示,本發(fā)明提供了一種挖掘多源異構(gòu)數(shù)據(jù)語(yǔ)義一致模式的基本框架。這個(gè) 框架由兩個(gè)數(shù)學(xué)模型組成,一個(gè)為同構(gòu)相關(guān)冗余變換(Isomorphic Relevant Redundant Transformation,IRRT)模型,另一個(gè)為基于相關(guān)性的聯(lián)合特征學(xué)習(xí)(Correlation-based Joint Feature Learning,CJFL)模型。其中,通過(guò)學(xué)習(xí)多個(gè)線性變換,IRRT模型將多個(gè)異構(gòu) 的底層特征空間線性地映射到一個(gè)中層高維冗余特征同構(gòu)空間,消除異源間的特征異構(gòu) 性,從而捕捉到更多的不同來(lái)源間的互補(bǔ)信息。為了挖掘出中層空間中同構(gòu)描述之間的語(yǔ) 義一致性,CJFL模型利用先驗(yàn)知識(shí),將特征同構(gòu)描述投影到一個(gè)低維的高層語(yǔ)義共享子空 間上,進(jìn)而消除冗余和噪聲信息。由此,可以獲得多源異構(gòu)數(shù)據(jù)的語(yǔ)義一致模式。從而有助 于在多媒體分析、信息檢索和醫(yī)療診斷等領(lǐng)域,獲得準(zhǔn)確且魯棒的多源數(shù)據(jù)評(píng)估分析結(jié)果。 [0019]具體的技術(shù)方案為:
[0020] 1)IRRT模型會(huì)利用不同來(lái)源之間的互補(bǔ)性,學(xué)習(xí)多個(gè)線性變換A和B,以消除不同 來(lái)源間的特征異構(gòu)性,從而可以獲得一個(gè)中層冗余特征同構(gòu)空間。在這個(gè)同構(gòu)空間中,來(lái)自 不同來(lái)源的相關(guān)描述被耦合到一起,以此捕捉出不同來(lái)源間的互補(bǔ)信息。從而便于在中層 高維同構(gòu)空間中直接度量多源異構(gòu)數(shù)據(jù)間的相似性。
[0021] 例如,如圖4所示,第i對(duì)共生樣本XjPyi被投影到中層高維特征同構(gòu)空間中,以此 消除了它們之間的特征異構(gòu)性。
[0022] 2)與此同時(shí),為了挖掘同構(gòu)描述之間的語(yǔ)義一致性,CJFL模型在IRRT模型學(xué)習(xí)到 的高維特征同構(gòu)空間中,利用先驗(yàn)知識(shí)提取特征同構(gòu)描述之間共享的高層語(yǔ)義子空間。在 語(yǔ)義共享子空間中,來(lái)自同一來(lái)源相同類(lèi)別的樣本靠攏在一起,而不同類(lèi)別的實(shí)例則保持 一定距離。從而,在中層空間中有效地去除了冗余和噪聲信息。
[0023] 如圖4所示,第i對(duì)耦合描述被映射到語(yǔ)義共享子空間中,并同時(shí)保持了它們之間 的互補(bǔ)性。由于帶有來(lái)自中層空間的必要互補(bǔ)信息,由此得來(lái)的語(yǔ)義一致模式和任一單一 來(lái)源的描述相比更可能是線性可分的。
[0024] 下面進(jìn)一步說(shuō)明本發(fā)明的主要內(nèi)容:
[0025] 1)同構(gòu)相關(guān)冗余變換模型
[0026]本發(fā)明提供的同構(gòu)相關(guān)冗余變換IRRT模型,利用了不同來(lái)源之間的互補(bǔ)性,學(xué)習(xí) 多個(gè)線性變換,比如圖4中有兩個(gè)不同來(lái)源X和Y,則學(xué)習(xí)兩個(gè)線性變換A和B,以消除不同來(lái) 源間的特征異構(gòu)性,從而將多源異構(gòu)數(shù)據(jù)X e Ewx~和r E股0七(心為來(lái)源X的維度,dy為來(lái)源 Y的維度,n為樣本數(shù)量)投影到一個(gè)中層冗余特征同構(gòu)空間。在這個(gè)同構(gòu)空間中,來(lái)自不同 來(lái)源的相關(guān)描述被耦合到一起,并對(duì)變換后的數(shù)據(jù)施加低秩(Low-rank)約束,以此捕捉出 不同來(lái)源間的互補(bǔ)信息。
[0027] IRRT方法的優(yōu)化模型如下: min ||A'^-
[0028] f (1) s.t. and ||V < f
[0029] 其中4 e EdxXp,B E Edyxp,p> >max(dx,dy),p為中層高維冗余特征同構(gòu)空間的維 度,e和y是預(yù)先指定的正參數(shù),用來(lái)控制變換后的數(shù)據(jù)攜帶的信息量。在公式(1)中引入跡 范數(shù)(低秩)約束的目的就是在特征同構(gòu)空間中捕捉更多不同來(lái)源間的潛在互補(bǔ)信息。
[0030] 需要注意的是,直接求解公式(1)中的問(wèn)題^^不是一個(gè)簡(jiǎn)單的任務(wù),原因有兩點(diǎn)。 首先,盡管問(wèn)題V:單獨(dú)對(duì)于每個(gè)變量A和B都是凸問(wèn)題,但問(wèn)題^^整體上是一個(gè)非凸問(wèn)題。 第二,跡范數(shù)約束是不平滑的,這就使得求解這個(gè)模型的最優(yōu)解變得更加困難。然而,引理1 表明在問(wèn)題^^中對(duì)變換數(shù)據(jù)的跡范數(shù)約束可以松弛地轉(zhuǎn)換為問(wèn)題中對(duì)投影矩陣的跡范 數(shù)約束。
[0031] 引理1對(duì)于正數(shù)s和任意兩個(gè)可相乘矩陣C和D,如果
[0032] IIClkllDll^S
[0033] 那么
[0034] IICDII* 彡 S
[0035]證明:由于跡范數(shù)是矩陣范數(shù),所以它滿(mǎn)足任意兩個(gè)可相乘矩陣的相容性原理。 (參考文南犬:Carl D . Meyer . Matrix Analysis and Applied Linear Algebra . SIAM Publishers,2000?)所以,可以得到下式:
[0036] ||CD||* 彡 IICIWIDII*
[0037] 因此,如果IICIWIDIKS,那么IICDIKS。這就完成了引理1的證明。
[0038] 根據(jù)引理1,如果在問(wèn)題中預(yù)先指定的正參數(shù)£和丫滿(mǎn)足:
[0039] ||X||*||A||*彡e和||Y||*||B||*彡 y (2)
[0040] 那么,可以得到||XA|Ke和IlYBlKy。因此,在問(wèn)題W沖的跡范數(shù)約束可以轉(zhuǎn)化 為:
[0041 ] ||A||*彡e/||X||*和||B||*彡 y/||Y||* (3)
[0042] 由此,利用公式(3)中的松弛約束,可以將問(wèn)題%轉(zhuǎn)化為如下問(wèn)題W2: min \\XA - YB\\j
[0043] A'B (4) s.t. ||/l|U<£/p|U md \\B\U<y/\\Y\U
[0044] 2)基于相關(guān)性的聯(lián)合特征學(xué)習(xí)
[0045]本發(fā)明提供的基于相關(guān)性的聯(lián)合特征學(xué)習(xí)模型CJFL,在IRRT模型構(gòu)建的中層高維 冗余特征同構(gòu)空間中,利用先驗(yàn)知識(shí)消除冗余和噪聲信息,將特征同構(gòu)的高維描述投影到 一個(gè)低維的高層語(yǔ)義共享子空間上。由此,獲得多源異構(gòu)數(shù)據(jù)的語(yǔ)義一致模式。
[0046] CJFL模型的具體細(xì)節(jié)如下:設(shè)(A'B,是問(wèn)題%的最優(yōu)解。那么,可以得到兩組同 構(gòu)相關(guān)幾余描述:/= 和R 8 'yj丨^、設(shè)歧和分別是j和r中第t個(gè)類(lèi)的樣 本集合。定義如下各式:
[0047] <S| = {(a^ayjjai.cjy G C^i ^ /) (5)
[0048] 辟=為)丨屹 b G 轉(zhuǎn),i 尹 /} (6)
[0049] T)lx - I {at, ?,)|?; G A ay- £ C'S, i t- j, t k] (7)
[0050] 力鏟二[(b0 e 貧八 bj. e Cp, i 幸 j, t * k) (8)
[0051] 設(shè)
[0052] 各=Zr.凝和知=2.r 碎 (9)
[0053] % = StSfcl# 和?k = &;^?浐 (1U)
[0054] 顯然,來(lái)自于心或馬的每對(duì)數(shù)據(jù)在語(yǔ)義上是彼此相似,而來(lái)自于或%的每對(duì)數(shù) 據(jù)在語(yǔ)義上是彼此不相似。
[0055] 為了消除中層高維空間中的冗余和噪聲信息,需要利用先驗(yàn)知識(shí)(類(lèi)信息)學(xué)習(xí)一 個(gè)線性變換0elRPxfc(p為中層高維冗余特征同構(gòu)空間的維度,k為高層低維語(yǔ)義共享子空間 的維度),以此參數(shù)化語(yǔ)義共享子空間。在數(shù)學(xué)上,需要最小化如下類(lèi)內(nèi)距離: 2 (0Ta, - 0Taj) (07〇[ - 0Ta/) + I (0Th - 07bj)'(&Tb「0Tbj)
[0056] 二 X tr(07(?i -ay)(ar-a/),0) + ^ tr (〇r(>; - /?;)(〇; - bjY&) YlutAjJ^Sx -tr(0Tjs0) -f tr(9rRs6) -tr(eru;: + Rs)e) (11)
[0057] 其中
[0058] Z (fli ~ ~ aif (12) Y(atAj)BSx
[0059] Rs = ^ {bi ~ bj)(hi - hj) (丨 3) ¥{hi,bj)eSY
[0060] 并且厶+馬是由數(shù)據(jù)集J和R構(gòu)成的聯(lián)合類(lèi)內(nèi)散度矩陣。與此同時(shí),還要最大化如下 類(lèi)間距離: (0ra( - 0ray)T (〇7aj - 0rr/y) + ^ (0r/?, - & ! hj)' ^Brh[ - 0rh() V( fi i而)£2?覃 V (i 力 j.)
[0061] = E ^(0T(a<-?;)(?<-?/)f0)+ Y, trle^bi-b^hi-hj)' e) =tr(0T/D0) + tr(0r/?.D0) -cr(0r(/r + /?z〇0) v*4)
[0062] 其中
[0063]】.$ 二 H (ai ~ aMat- %) (] 5) y(ai,aj)eVx
[0064] Z (^~hJ^bi~bj')T (16)
[0065] 并且/? +知是由數(shù)據(jù)集J和R構(gòu)成的聯(lián)合類(lèi)間散度矩陣。為了同時(shí)最小化類(lèi)內(nèi)距離 并且最大化類(lèi)間距離。可以直接將上述問(wèn)題歸納為如下跡率優(yōu)化問(wèn)題:
(17)
[0067]其中,tr( ?)表示矩陣的跡,對(duì)?的正交約束用來(lái)消除中層空間中和必要信息高 度相關(guān)的冗余信息。
[0068] 在另一方面,應(yīng)當(dāng)完好地保留同構(gòu)描述之間的互補(bǔ)性。因此,可將模型Qi重新定 義為如下形式:
(1約
[0070] 其中,丨|/0 - R0|||表示基于相關(guān)性的殘差,用來(lái)避免破壞耦合描述的內(nèi)在結(jié)構(gòu),而 正規(guī)化項(xiàng)丨|0丨||控制模型的復(fù)雜度,a和0為正規(guī)化參數(shù)。
[0071] 3)語(yǔ)義一致模式
[0072] 設(shè)(A'B,是問(wèn)題W2的最優(yōu)解,?$是問(wèn)題02的最優(yōu)解。那么,對(duì)于第i對(duì)異構(gòu)描述 & 1,71),可以利用最優(yōu)解#,8,?%得到異構(gòu)描述各自的同構(gòu)相關(guān)描述:
[0073] % = 0*rTrx;和 Ty;二 0*rrry( (19)
[0074] 此外,可以基于\和%得到不同模態(tài)的一致性描述Tl,即多源異構(gòu)數(shù)據(jù)在高層語(yǔ) 義共享子空間上的語(yǔ)義一致模式:
[0075] Tj = (^, + %.)/2 (20)
[0076]本發(fā)明的有益效果:
[0077]針對(duì)于多源異構(gòu)數(shù)據(jù)中存在的特征異構(gòu)性問(wèn)題,本發(fā)明提供了一種挖掘多源異構(gòu) 數(shù)據(jù)語(yǔ)義一致模式的框架。該框架首先包含一種帶有低秩(Low-rank)約束的IRRT模型,學(xué) 習(xí)多個(gè)線性變換,從而可以有效地捕捉到不同來(lái)源間的語(yǔ)義互補(bǔ)性,將多個(gè)異構(gòu)底層特征 空間和一個(gè)高層語(yǔ)義共享子空間橋接起來(lái)。此外,為了挖掘出中層空間中同構(gòu)描述之間的 語(yǔ)義一致性,CJFL模型在IRRT模型學(xué)習(xí)到的高維特征同構(gòu)空間中,將特征同構(gòu)的高維描述 投影到一個(gè)低維的高層語(yǔ)義共享子空間上,進(jìn)而消除冗余和噪聲信息。由此,可以獲得多源 異構(gòu)數(shù)據(jù)的語(yǔ)義一致模式,從而有助于在多媒體分析、信息檢索和醫(yī)療診斷等領(lǐng)域,獲得準(zhǔn) 確且魯棒的多源數(shù)據(jù)評(píng)估分析結(jié)果。
【附圖說(shuō)明】
[0078]圖1為多源異構(gòu)數(shù)據(jù)的示例圖。
[0079]圖2為多源異構(gòu)數(shù)據(jù)的特征異構(gòu)性的示例圖。
[0080]圖3為中層空間中同構(gòu)描述的成分的示例圖。
[0081 ]圖4為挖掘多源異構(gòu)數(shù)據(jù)語(yǔ)義一致模式的框架的示例圖。
【具體實(shí)施方式】
[0082] 為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面通過(guò)具體實(shí)施例和 附圖,對(duì)本發(fā)明做進(jìn)一步說(shuō)明。
[0083] 本發(fā)明提供的多源異構(gòu)大數(shù)據(jù)的一致性表示方法,由同構(gòu)相關(guān)冗余變換IRRT和基 于相關(guān)性的聯(lián)合特征學(xué)習(xí)CJFL算法組成,通過(guò)循環(huán)迭代過(guò)程實(shí)現(xiàn)模型的逐步優(yōu)化。
[0084] 在公式(4)中的IRRT模型可以簡(jiǎn)化為:
[0085] (21)
[0086] 其中,代)=丨HI1是平滑的目標(biāo)函數(shù),Z=[Az Bz]象征優(yōu)化變量,而e為封閉的凸集, 其定義為:
[0087] e = {zi< F/nu (22)
[0088] 由于f( ?)是連續(xù)可微函數(shù)且?guī)в蠰ipschitz連續(xù)梯度L(參考文獻(xiàn): Y.Nesterov.Introductory lectures on convex optimization,volume 87.Springer Science&Business Media,2004.):
[0089] ||F/(Zy) - Vf{Zy)\\F < L\\ZX - Zy\\F,VZ..Z, G (23)
[0090] 所以,很適合采用加速投影梯度(Accelerated Projected Gradient,APG)(參考 文獻(xiàn):Y ? Nesterov ? Introductory lectures on convex optimization,volume 87? Springer Science&Business Media,2004?)算法求解公式(21)中的問(wèn)題。APG算法已成 功應(yīng)用于如下優(yōu)化問(wèn)題:
[0091] ⑵ (24)
[0092] 其中,g( ?)是一個(gè)平滑的目標(biāo)函數(shù),z是優(yōu)化變量,而沒(méi)是優(yōu)化問(wèn)題的可執(zhí)行域。
[0093] 需要注意的是,在APG算法中一個(gè)給定點(diǎn)s在凸集f = {zlllzKm}上的歐幾里德投 影可以定義為:
[0094] pro/5(s) = ar" |k - -?|丨異/2 (25)
[0095] 其中,m是預(yù)先指定的正常數(shù)。那么,可以使用在跡范數(shù)約束上的有效投影 (Efficient Projection on Trace Norm Constraints,EPTNC)算法(參考文南犬:John Duchi,Shai Shalev-Shwartz,Yoram Singer,Tushar Chandra.Efficient Projections onto the il-Ball for Learning in High Dimensions.Proc.International Conference on Machine 1^&^^邱,2008 4口.272-279.)求解等式(25)。算法1給出了£?1?^算法的具體 細(xì)節(jié)。
[0097] 當(dāng)應(yīng)用APG算法求解公式(21)中的問(wèn)題時(shí),一個(gè)給定點(diǎn)S=[As Bs]在集合e上的歐 幾里德投影Z=[Az Bz]可以定義為:
[0098] ?",o/c(S)二 覽皆 - S||f/2 (26)
[0099] 通過(guò)結(jié)合APG算法和算法1,就可以求解公式(21)中的問(wèn)題。算法2給出了 IRRT算法 的具體細(xì)節(jié)。
[0101] 13; 計(jì)算[祝+1]=五pt顧(霉,e) * 14: 設(shè) 4+1 =[~+1 H. 15: if f(Zi+1) < fyhSi(Zi+1) then break 16: eke更新朽=x 2。 17; end-if 18: end-while 19:更新 g = (1 十 Jl + 4t?_1^/2 和)= rp 201 end-for 2-1;設(shè)Z* 二 A+1
[0102] 可以通過(guò)最大化如下跡差問(wèn)題獲得公式(18)中的CJFL模型的最優(yōu)解?' &* - ara max\tr(&1 (Jv + Rt))&) - ??£fr(0? (J^ + R^)〇) -r]tatr((J6 - R〇yr(j8 - R6)) - rnptr{67 0)\ =arg max\tr(9T(jv + Rv - ri, (Js + Rs)')0)
[0103] 0 0=1 (27) -rjl tr{a(QTjTjQ - 20r/r/?0 + &TRTR&) + peT&)] -art) max \trtr(&1 {jv + Rv - m (h + Rs + a{jTj - 2JtR + RtR) + (^I))0)]
[0104] 其中nt(見(jiàn)等式(28))為第t次迭代的跡率值。因此,?*由矩陣 /? + /?B -仏仏+心+ aC/T./ - 2/' R +Z?7"/?) + /?/)的k個(gè)最大特征值對(duì)應(yīng)的特征向量構(gòu)成的。算 法3給出了 CJFL算法的具體細(xì)節(jié)。
[0106] 本發(fā)明提供的挖掘多源異構(gòu)大數(shù)據(jù)語(yǔ)義一致模式的IRRT+CJFL框架,針對(duì)多源異 構(gòu)數(shù)據(jù)的特征異構(gòu)性問(wèn)題,利用多源異構(gòu)數(shù)據(jù)間的語(yǔ)義互補(bǔ)性,基于子空間學(xué)習(xí)方法,將多 源異構(gòu)數(shù)據(jù)投影到一個(gè)中層冗余特征同構(gòu)空間。并在這個(gè)同構(gòu)空間中,將特征同構(gòu)的高維 描述投影到一個(gè)低維的高層語(yǔ)義共享子空間上,進(jìn)而消除冗余和噪聲信息,使來(lái)自不同來(lái) 源的相關(guān)描述耦合到一起,以此挖掘出嵌入了異源間互補(bǔ)信息的語(yǔ)義一致模式。從而獲得 多源異構(gòu)數(shù)據(jù)特征描述的融合表示。
[0107] 以上實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案而非對(duì)其進(jìn)行限制,本領(lǐng)域的普通技術(shù) 人員可以對(duì)本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,而不脫離本發(fā)明的精神和范圍,本 發(fā)明的保護(hù)范圍應(yīng)以權(quán)利要求書(shū)所述為準(zhǔn)。
【主權(quán)項(xiàng)】
1. 一種多源異構(gòu)大數(shù)據(jù)的一致性表示方法,其特征在于,包括以下步驟: 1) 利用多源異構(gòu)數(shù)據(jù)之間的互補(bǔ)性學(xué)習(xí)多個(gè)線性變換,以消除不同來(lái)源間的特征異構(gòu) 性,從而將多源異構(gòu)數(shù)據(jù)投影到一個(gè)中層冗余特征同構(gòu)空間,在這個(gè)中層冗余特征同構(gòu)空 間中,來(lái)自不同來(lái)源的相關(guān)描述被耦合到一起,以此捕捉到不同來(lái)源間的互補(bǔ)信息; 2) 在所述中層冗余特征同構(gòu)空間中,利用先驗(yàn)知識(shí)將特征同構(gòu)描述投影到高層語(yǔ)義共 享子空間上,在高層語(yǔ)義共享子空間中來(lái)自同一來(lái)源相同類(lèi)別的樣本靠攏在一起,而不同 類(lèi)別的實(shí)例則保持一定距離,從而消除冗余和噪聲信息,獲得多源異構(gòu)數(shù)據(jù)的語(yǔ)義一致模 式。2. 如權(quán)利要求1所述的方法,其特征在于,步驟1)對(duì)于多源異構(gòu)數(shù)據(jù)X eirx夂和 7 e ,學(xué)習(xí)兩個(gè)線性變換A和B,其中dx為來(lái)源X的維度,dy為來(lái)源Y的維度,η為樣本數(shù)量; 并建立如下的優(yōu)化模型其中4 € EdxXp,β e IRdyxp,p> >max(dx,dy),ρ為中層冗余特征同構(gòu)空間的維度;ε和γ 是預(yù)先指定的正參數(shù),用來(lái)控制變換后的數(shù)據(jù)攜帶的信息量。3. 如權(quán)利要求2所述的方法,其特征在于,為求解屯i,將Ψ i中對(duì)變換數(shù)據(jù)的跡范數(shù)約束 松弛地轉(zhuǎn)換為下而Ψ 9由對(duì)枵影鉭陳的W茹教約市,4. 如權(quán)利要求3所述的方法,其特征在于,步驟2)中,為了消除冗余和噪聲信息,利用先 驗(yàn)知識(shí)學(xué)習(xí)一個(gè)線性變換ITwS其中k為子空間的維度,以此參數(shù)化語(yǔ)義共享子空間,進(jìn) 而最小化類(lèi)內(nèi)距離并且最大化悉問(wèn)!?畝-刖歸妯先加下?亦東什仆陸顎:其中,A + %是由兩組同構(gòu)相關(guān)冗余描述的數(shù)據(jù)集J和R構(gòu)成的聯(lián)合類(lèi)內(nèi)散度矩陣, + 是由數(shù)據(jù)集J和R構(gòu)成的聯(lián)合類(lèi)間散度矩陣,對(duì)Θ的正交約束用來(lái)消除中層空間中和 必要信息高度相關(guān)的冗余信息。5. 如權(quán)利要求4所述的方法,其特征在于,步驟2)為了完好地保留同構(gòu)描述之間的互補(bǔ) 性,將Ω :重新定々為如下形式:其中,||/Θ - /?Θ表示基于相關(guān)性的殘差,用來(lái)避免破壞耦合描述的內(nèi)在結(jié)構(gòu),而正規(guī) 化項(xiàng)ΙΙΘΙΙΙ控制模型的復(fù)雜度,α和β為正規(guī)化參數(shù)。6. 如權(quán)利要求5所述的方法,其特征在于,步驟2)中,設(shè)(Α'Β,是問(wèn)題Ψ2的最優(yōu)解, 是問(wèn)題〇2的最優(yōu)解,那么對(duì)于第i對(duì)異構(gòu)描述( Xl,yi),利用最優(yōu)解Α'Β?ΡΘ%得到異構(gòu)描 述各自的同構(gòu)相關(guān)描述: Tjei = .Θ*Γ4*Γχ:? 和·^ = 然后基于~和以·得到不同模態(tài)的一致性描述^,即多源異構(gòu)數(shù)據(jù)在高層語(yǔ)義共享子空 A = (? + τ;^)/2〇 間上的語(yǔ)義一致模式:
【文檔編號(hào)】G06F17/30GK105893612SQ201610266857
【公開(kāi)日】2016年8月24日
【申請(qǐng)日】2016年4月26日
【發(fā)明人】張磊, 王樹(shù)鵬, 云曉春
【申請(qǐng)人】中國(guó)科學(xué)院信息工程研究所