基于典型相關(guān)性分析的圖像優(yōu)化聚類方法
【專利摘要】本發(fā)明屬于跨媒體信息【技術(shù)領(lǐng)域】,具體為一種基于典型相關(guān)性分析的圖像優(yōu)化聚類方法。本發(fā)明主要是采用典型相關(guān)性分析,同時考慮媒體數(shù)據(jù)不同模態(tài)下的內(nèi)容特征,通過子空間映射算法,將媒體數(shù)據(jù)不同模態(tài)下的特征同時映射到一個統(tǒng)一維數(shù)的同構(gòu)子空間,然后通過優(yōu)化聚類算法得到最終聚簇結(jié)果。本發(fā)明克服多媒體領(lǐng)域中只是使用數(shù)據(jù)的單模態(tài)特征限制,有效解決不同模態(tài)下媒體數(shù)據(jù)在底層特征上的異構(gòu)性問題,實現(xiàn)不同模態(tài)之間媒體對象信息的統(tǒng)一度量,并在大規(guī)模圖像數(shù)據(jù)集中得到更準(zhǔn)確、更有效、更加符合需求的圖像聚類結(jié)果,在跨媒體信息處理與檢索領(lǐng)域中具有廣泛的應(yīng)用價值。
【專利說明】基于典型相關(guān)性分析的圖像優(yōu)化聚類方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于跨媒體信息【技術(shù)領(lǐng)域】,具體涉及一種基于典型相關(guān)性分析的圖像優(yōu)化聚類方法。
【背景技術(shù)】
[0002]隨著Internet和信息化的發(fā)展,數(shù)字圖像的容量和數(shù)量都在高速增長,每天都有海量圖像數(shù)據(jù)產(chǎn)生。圖像的增多雖然提供更多資源,但人們發(fā)現(xiàn)想要獲得自己所需要的圖像信息卻變得越來越困難,這就意味著給網(wǎng)絡(luò)上圖像組織、管理、處理帶來一個越來越難以解決的難題。在這樣的一個背景下,通過有效算法對大量圖像進行組織和管理,并為人們提供有效獲取圖像服務(wù)的途徑顯得尤為重要[1]。
[0003]現(xiàn)在網(wǎng)絡(luò)上的圖像組織和管理體系中,可獲得兩類不同的信息,即基于圖像標(biāo)注的語義信息和基于圖像底層視覺特征的視覺信息[2’3]。這兩類信息從不同角度對圖像進行描述,只利用其中任何一種信息都只是從單一視角去理解圖像,很難對圖像有一個整體上的認(rèn)識,綜合多類信息和跨越多個模態(tài)去對圖像認(rèn)知,能對圖像形成一個更好的、整體性的理解,很好地利用這兩類信息毫無疑問對于處理圖像的相關(guān)工作都能帶來很好的效果[4’5’
6]
O
[0004]然而,圖像標(biāo)注的語義信息和圖像的底層視覺信息是在兩個不同視角上描述圖像的信息,又考慮到兩類信息對圖像描述的異構(gòu)性存在,很難為語義信息和視覺信息直接建立相應(yīng)的對應(yīng)關(guān)系,這就迫切需要研究一種算法能夠在對圖像的相關(guān)處理時很好地將兩類信息都應(yīng)用起來。支持不同模態(tài)的跨媒體信息表示方法,能夠同時有效的顧及地圖像標(biāo)注得到的語義信息和從圖像中提取得到的底層視覺信息,突破傳統(tǒng)的只是基于單模態(tài)數(shù)據(jù)的限制te’7]。
[0005]采用圖像底層的多模態(tài)信息,即圖像的語義特征和視覺特征來表示圖像的內(nèi)容[8’9’1(1’11],需要建立一種統(tǒng)一的數(shù)據(jù)模型,以反映數(shù)據(jù)集之間的潛在關(guān)系[12’13]。如果不同類別的數(shù)據(jù)集被映射到一個統(tǒng)一的表達(dá)框架中,但破壞數(shù)據(jù)集之間的相互關(guān)系,那么在此基礎(chǔ)上得到的跨媒體數(shù)據(jù)集將受到嚴(yán)重影響。因此,在用統(tǒng)一的模型來表達(dá)不同類別的信息時,應(yīng)盡可能地發(fā)現(xiàn)和保持?jǐn)?shù)據(jù)之間潛在相關(guān)性[14]。
[0006]在當(dāng)前的跨媒體聚類方法中,都通過建立一個數(shù)據(jù)模型框架來很好的表達(dá)多類信息。如ZhenyongFu等利用圖像數(shù)據(jù)的成對約束這種弱化的監(jiān)督關(guān)系,通過建立多圖上的映射關(guān)系,利用多圖上的隨機游走算法來傳遞少量的成對約束關(guān)系到每個數(shù)據(jù)節(jié)點,得到多模態(tài)下成對約束傳遞后的相似度矩陣,再通過利用譜聚類算法得到最終的聚簇結(jié)果[15’16]。ManjeetRege等通過三部圖建立語義信息、圖像和視覺信息之間的映射關(guān)系,然后通過等周圖分割算法得到最終的聚簇結(jié)果[17’18’19]。上述方法都是通過尋找視覺信息、語義信息及圖像之間的相關(guān)性,建立它們之間的映射關(guān)系,。但圖的建立和保存都會要求大量的內(nèi)存支持,隨著數(shù)量的增多、維數(shù)的增大都會給當(dāng)前問題帶來新的困難和影響。
[0007]典型相關(guān)性分析(Canonical Correlat1n Analysis, CCA)是一種用于多視角信息數(shù)據(jù)維數(shù)約減的方法,被廣泛的應(yīng)用于跨媒體信息處理與檢索領(lǐng)域的相關(guān)問題研究中。如在文獻(xiàn)[20]中,作者采用圖像的標(biāo)注信息生成文本特征空間特征,從而通過CCA的方法來優(yōu)化圖像分類結(jié)果;而文獻(xiàn)[21]則采用一種有監(jiān)督的CCA方法,該方法利用圖像標(biāo)注信息來實現(xiàn)圖像檢索。事實上,CCA算法在很多方面與PCA算法有相似之處,但PCA算法只能解決單一視角信息的空間降維問題,而CCA算法則能夠應(yīng)用在兩個或多個數(shù)據(jù)空間的組合維數(shù)約減問題中。因此,對于多模態(tài)圖像信息融合而言,CCA是一個更好的辦法[22’23’24]。
[0008]聚類分析是一個應(yīng)用很廣泛的無監(jiān)督學(xué)習(xí)方法,在機器學(xué)習(xí)、模式識別、數(shù)據(jù)挖掘等領(lǐng)域中,數(shù)據(jù)的聚類分析是一個極其重要的工具[25’26’27’28]。因為聚類分析是不需要任何的監(jiān)督信息就可識別出數(shù)據(jù)的主要模式和類的總體分布,早期對于圖像的聚類被看作為一個文本聚類問題,圖像的語義信息用來參與聚類,但是圖像并非實實在在的文本文檔,所以這并不是一個很好的解決方案。因而,跨模態(tài)的數(shù)據(jù)聚類應(yīng)運而生,開始嶄露頭角,對于跨模態(tài)數(shù)據(jù)的聚類研究也越來越受到領(lǐng)域內(nèi)各專家學(xué)者的重視。
[0009]對于跨模態(tài)數(shù)據(jù)的聚類分析除要建立一個符合跨媒體特性的數(shù)據(jù)表達(dá)機制,建立統(tǒng)一的數(shù)據(jù)模型,聚類的技術(shù)和方法也異常重要。因為在現(xiàn)實生活當(dāng)中,數(shù)據(jù)的爆炸性增長迫切要求能在可接受的時間和空間復(fù)雜性內(nèi)盡量快地得到聚簇結(jié)果。
[0010]聚類算法所使用的兩種不同基本策略,可以將聚類算法分成以下兩類。
[0011 ] (I) 一類稱為層次或凝聚式算法,這類算法一開始將每一個點看成一個簇,簇與簇之間按照接近度來組合,而接近度可以基于“接近”的不同含義采用不同的定義。當(dāng)進一步的組合導(dǎo)致多個原因之一下的非期望結(jié)果時,上述組合過程就接受。如當(dāng)達(dá)到預(yù)先給定的簇數(shù)目時就停止聚類,或者也可以使用簇的緊密度測度方法,一旦兩個小簇組合后得到簇內(nèi)點分散區(qū)域較大就停止簇的構(gòu)建。
[0012](2)另一類算法涉及點分配過程,即按照某個順序依次考慮每個點,并將它分配到最適合的簇中。該過程通常都有一個短暫的初始簇估計階段,一些變形算法允許臨時的簇合并或分裂過程,或者當(dāng)點為離群點(離當(dāng)前任何簇的距離都很遠(yuǎn)的點)時允許不將該點分配到任何簇中。
[0013]聚類算法也可以按照如下方式來分類。
[0014](a)是否假定在歐式空間下的聚類?或者算法是否在任意距離測度下都有效?
[0015](b)算法是否假設(shè)數(shù)據(jù)足夠小能夠放入內(nèi)存?或者是否必須主要存放在二級存儲器?
[0016]傳統(tǒng)的k-means算法是一個假定在歐式空間下,并假定最終簇的數(shù)目k事先已知的經(jīng)典聚類算法,k-means算法在聚類算法中是一種速度較快的算法,但在數(shù)據(jù)規(guī)模極其巨大的情況下,其執(zhí)行效率依然會因為大量的重復(fù)計算而顯得低下。
[0017]因此,非常有必要借鑒當(dāng)前已有的相關(guān)成熟技術(shù),同時從各方面考慮當(dāng)前一些跨媒體融合信息表示方法與聚類技術(shù)。
【發(fā)明內(nèi)容】
[0018]為了克服現(xiàn)有技術(shù)的不足,本發(fā)明從聚類的有效性、信息的利用性及時間空間的復(fù)雜性出發(fā),使用典型相關(guān)性分析和優(yōu)化聚類方法,進而對跨媒體信息處理與檢索領(lǐng)域的圖像聚類進行改進優(yōu)化。本發(fā)明的目的在于提出一種能夠同時利用圖像的多模態(tài)信息進行圖像優(yōu)化聚類的方法。
[0019]本發(fā)明提出的圖像多模態(tài)信息優(yōu)化聚類方法,首先基于典型相關(guān)性分析尋找圖像的多模態(tài)信息相關(guān)性。其核心思想是尋找兩個變量場V、S對應(yīng)的兩組基向量P、Q,使V、S在P、Q上投影后的結(jié)果最大程度地保持與V、S之間的相關(guān)性一致;然后,通過基于三角不等式規(guī)則的優(yōu)化聚類方法得到最終的聚簇。其具體步驟為:
[0020](I)從多媒體數(shù)據(jù)集中采集不同模態(tài)的數(shù)據(jù)對象,即得到圖像和圖像標(biāo)注數(shù)據(jù),整理圖像標(biāo)注數(shù)據(jù)中不常出現(xiàn)或者無用的標(biāo)注詞;
[0021](2)提取圖像底層視覺特征,并通過視覺特征構(gòu)建方法將高維視覺特征映射到一個低維空間中,得到特征向量的稀疏表示;
[0022](3)提取圖像標(biāo)注的語義特征,利用語義特征構(gòu)建方法將圖像語義特征映射到一個統(tǒng)一維度空間中,得到特征向量的稀疏描述;
[0023](4)采用典型相關(guān)性分析算法,得到圖像視覺特征和語義特征的典型相關(guān)性;
[0024](5)構(gòu)建跨模態(tài)融合特征,將圖像的視覺特征向量和語義特征向量映射到同維度下的同構(gòu)子空間中并構(gòu)建跨模態(tài)融合特征,實現(xiàn)媒體數(shù)據(jù)不同模態(tài)信息的統(tǒng)一表示;
[0025](6)采用優(yōu)化聚類算法高效地對同構(gòu)子空間下的數(shù)據(jù)信息進行聚類。
[0026]較之當(dāng)前已有的相關(guān)跨媒體多模態(tài)聚類而言,本發(fā)明所提出的方法在聚類中存在三大優(yōu)勢,即相關(guān)性高、適用性強、聚類速度快。其相關(guān)性高體現(xiàn)在典型相關(guān)性分析過程中通過最大限度地提取兩個模態(tài)之間的相關(guān)性,經(jīng)由基向量進行投影后的結(jié)果最大程度地保持與原向量之間的相關(guān)性一致。適用性強表現(xiàn)在典型相關(guān)性分析是一種用于多視角信息數(shù)據(jù)維數(shù)約減的方法,能夠應(yīng)用于兩個或多個數(shù)據(jù)空間中的組合維數(shù)約減問題中,使得映射后的同構(gòu)子空間中具有較低的維數(shù),這樣在那些數(shù)據(jù)量較大、維數(shù)較高的數(shù)據(jù)集中能更好地適用。聚類速度快在于優(yōu)化聚類算法中利用了三角不等式規(guī)則很好地避免一些不必要的重復(fù)運算,使得數(shù)據(jù)在較快的時間內(nèi)得到傳統(tǒng)聚類算法相同的結(jié)果。本發(fā)明在不同的數(shù)據(jù)規(guī)模中都取得了較好效果。本發(fā)明的算法還可利用到圖像的檢索和推薦中,聚類的結(jié)果會直接影響圖像的檢索和推薦效果。
[0027]下面詳細(xì)介紹本發(fā)明在針對跨媒體信息聚類中所進行的多模態(tài)信息融合與優(yōu)化聚類的整體流程框架及涉及的核心算法。
[0028](I)從多媒體數(shù)據(jù)集中采集不同模態(tài)的數(shù)據(jù)對象,即得到圖像和圖像標(biāo)注數(shù)據(jù),整理圖像標(biāo)注數(shù)據(jù)中不常出現(xiàn)或者無用的標(biāo)注詞。
[0029]在取得的多媒體數(shù)據(jù)集中,圖像標(biāo)注數(shù)據(jù)存在著很多噪音信息,為能夠讓文本標(biāo)注很好表達(dá)圖像的內(nèi)容,必須將其中一些沒有意義的標(biāo)注進行去除處理,如單詞中夾雜數(shù)字的無用標(biāo)注。一個圖像標(biāo)注可能還涉及十幾個或者幾十個的標(biāo)注,數(shù)量多并且有些標(biāo)注其實對于圖像并沒有太大的意義,所以通過統(tǒng)計整個數(shù)據(jù)集中的標(biāo)注,在統(tǒng)計中將相同標(biāo)注的單詞數(shù)加1,統(tǒng)計完整個數(shù)據(jù)集后會得到每個單詞在數(shù)據(jù)集中出現(xiàn)的次數(shù),最后去除那些低頻出現(xiàn)的單詞,留下那些在數(shù)據(jù)集中單詞出現(xiàn)頻度較高的單詞作為圖像最后的圖像標(biāo)注。
[0030](2)提取圖像底層視覺特征,并通過視覺特征構(gòu)建方法將高維視覺特征映射到一個低維空間中,得到特征向量的稀疏表示。
[0031]尺度不變特征轉(zhuǎn)換(SIFT)是一種描述圖像的局部性特征的算法,它在空間尺度中尋找極值點,并提取出其位置、尺度、旋轉(zhuǎn)不變量,這些特征點與圖像的大小、旋轉(zhuǎn)無關(guān)。利用SIFT方法提取出的特征點具有一些很好的抗干擾性,對噪聲、光線變化、仿射變化也具有很強的魯棒性。對每幅圖像通過SIFT算法提取出128維的SIFT描述子,得到圖像的底層視覺特征,然后采用矢量量化(VQ)編碼方式將每個圖像的視覺特征表示為一個視覺特征向量。
[0032](3)提取圖像標(biāo)注的語義特征,利用語義特征構(gòu)建方法將圖像語義特征映射到一個統(tǒng)一維度空間中,得到特征向量的稀疏描述。
[0033]圖像標(biāo)注中包含著圖像中存在實體的語義概念,獲取準(zhǔn)確的語義特征有利于增加圖像跨模態(tài)聚類的準(zhǔn)確性,能更加有利于圖像高層含義的表達(dá),基于標(biāo)注文本構(gòu)建的關(guān)聯(lián)網(wǎng)絡(luò)能夠表征圖像標(biāo)注中的重要關(guān)聯(lián)關(guān)系?;诠铂F(xiàn)頻率層次內(nèi)的關(guān)聯(lián)關(guān)系不僅有利于表達(dá)圖像標(biāo)注中的關(guān)聯(lián)關(guān)系,又有利于語義特征的相似性度量。兩個標(biāo)注概念之間沒有明顯的語義關(guān)系,但是兩者經(jīng)常同時出現(xiàn)在同一張圖像中,則仍然認(rèn)為兩者之間具有較強的關(guān)聯(lián)關(guān)系?;诠铂F(xiàn)關(guān)系關(guān)聯(lián)網(wǎng)絡(luò)中的節(jié)點可以與其他任意節(jié)點相關(guān)聯(lián)。但是,一些標(biāo)注語義之間的共現(xiàn)頻率很低,則認(rèn)為其共現(xiàn)關(guān)系很弱,因此可不出現(xiàn)在關(guān)聯(lián)網(wǎng)絡(luò)中。消除弱的共現(xiàn)關(guān)聯(lián)關(guān)系可專注于語義標(biāo)注之間較強的共現(xiàn)關(guān)聯(lián)關(guān)系,從而使所構(gòu)建的跨模態(tài)聚類模型更加準(zhǔn)確有效。
[0034]為獲得對語義特征的更好度量,引入TF-1DF統(tǒng)計方法來構(gòu)造語義特征的優(yōu)化編碼模型。為進一步獲得更加準(zhǔn)確的語義特征表示,設(shè)計一種基于共現(xiàn)關(guān)系的編碼方法。共現(xiàn)關(guān)系由共現(xiàn)關(guān)聯(lián)網(wǎng)絡(luò)獲得。
[0035](4)采用典型相關(guān)性分析算法,得到圖像視覺特征和語義特征的典型相關(guān)性。
[0036]將⑵中得到的圖像底層視覺特征向量拼成一個視覺特征矩陣將⑶中得到的圖像語義特征向量拼成一個語義特征矩陣SrlXPs,其中數(shù)據(jù)集中共η個樣本圖像。令Pd, Xiv為視覺特征空間的基向量矩陣,Qds _為語義特征空間的基向量矩陣,通過求取視覺特征矩陣和語義特征矩陣的最大相關(guān)性得到其相應(yīng)的空間基向量矩陣??臻g基向量矩陣最大化地保持圖像視覺特征和語義特征的相關(guān)性,并提供其映射到同構(gòu)子空間的映射關(guān)系O
[0037](5)構(gòu)建跨模態(tài)融合特征,將圖像的視覺特征向量和語義特征向量映射到同維度下的同構(gòu)子空間中并構(gòu)建跨模態(tài)融合特征,實現(xiàn)媒體數(shù)據(jù)不同模態(tài)信息的統(tǒng)一表示。
[0038]通過典型相關(guān)性分析得到兩組空間基向量矩陣P(即ArXBr)和Q(即),然后通過線性加權(quán)方式來對視覺特征與語義特征組合并得到最終的跨模態(tài)融合特征矩陣。
[0039](6)采用優(yōu)化聚類算法高效地對同構(gòu)子空間下的數(shù)據(jù)信息進行聚類。
[0040]優(yōu)化聚類算法主要在于利用三角不等式規(guī)則來避免傳統(tǒng)k-means算法的一些不必要重復(fù)計算,從而減少聚類所花費的時間,其基本的思想與傳統(tǒng)的k-means —致,所以優(yōu)化聚類算法對數(shù)據(jù)的聚類在迭代次數(shù)和每輪迭代得出的結(jié)果與傳統(tǒng)k-means算法一致。其優(yōu)越性就在于聚類時所花費的時間。
[0041]三角不等式規(guī)則是幾何不等式中最基礎(chǔ)的結(jié)論,將向量X和聚類中心b、c作為空間的三個點,則都存在d(x, c) ( d(x, b)+d (b, c),如果能得到d(x, c)必定是小于或等于d(x,b)即d(x,c) ( d(x,b)的關(guān)系,那么就能夠避免對d(x,b)的計算。所以,在三角不等式規(guī)則的基礎(chǔ)上進行以下兩個推論:
[0042]推論I讓X為數(shù)據(jù)集中的一個向量,b、c分別為聚類中心,如果d(b,c)彡2d(x,c),那么必定 d(x, c) < d(x, b)。
[0043]推論2讓X為數(shù)據(jù)集中的一個向量,b、c分別為聚類中心,d(x, b) ^ max {O, d(x,c) _d (b, c)}。
[0044]基于三角不等式規(guī)則的優(yōu)化聚類算法依然會具有傳統(tǒng)的k-means的特性,即
[0045](I)初始中心的選擇仍然沒有k-means算法要求的其他以外特意條件;
[0046](2)對于選擇與k-means同樣的初始點與聚類個數(shù),加速k-means得到的結(jié)果應(yīng)與其一樣;
[0047](3)能用任意的距離度量標(biāo)準(zhǔn),不局限于歐幾里德距離空間。
【專利附圖】
【附圖說明】
[0048]圖1為基于典型相關(guān)性分析的圖像優(yōu)化聚類系統(tǒng)的基本流程圖示。
[0049]圖2為共現(xiàn)關(guān)聯(lián)網(wǎng)絡(luò)的可視化表示及關(guān)聯(lián)實例。
[0050]圖3為數(shù)據(jù)集Corel30K中的兩張圖像及其圖像標(biāo)注相關(guān)展示。
[0051]圖4為基于典型相關(guān)性分析的優(yōu)化聚類方法在數(shù)據(jù)集Corel30K中應(yīng)用的部分聚類結(jié)果。
[0052]圖5為數(shù)據(jù)集NusWide中的兩張圖像及其圖像標(biāo)注相關(guān)展示。
[0053]圖6為基于典型相關(guān)性分析的優(yōu)化聚類方法在數(shù)據(jù)集NusWide中應(yīng)用的部分聚類結(jié)果。
【具體實施方式】
[0054]下面結(jié)合附圖,詳細(xì)介紹本發(fā)明基于典型相關(guān)性分析的圖像優(yōu)化聚類方法。
[0055](一 )采集數(shù)據(jù)對象
[0056]采集數(shù)據(jù)對象,即得到圖像和圖像標(biāo)注數(shù)據(jù),整理圖像標(biāo)注數(shù)據(jù)中在整個數(shù)據(jù)集里不常出現(xiàn)或者無用的標(biāo)注詞。一股在取得的數(shù)據(jù)集中,其中帶有很多的噪音數(shù)據(jù),所以在使用這些數(shù)據(jù)進行特征提取之前就應(yīng)該對其進行適當(dāng)?shù)奶幚砗瓦^濾。對于圖像而言,得到的圖像都是統(tǒng)一的JPG格式,不需要做任何變換。對于圖像的文本標(biāo)注而言,得到的圖像標(biāo)注含有很多的無意義單詞,如單詞加數(shù)字沒有任何含義的單詞。有些圖像標(biāo)注多至幾十個,為了讓圖像標(biāo)注很好地描述圖像的主要信息,應(yīng)舍棄那些無用的、無意義的標(biāo)注。因此,所采取的處理方法步驟如下:
[0057]步驟1:統(tǒng)計數(shù)據(jù)集標(biāo)注中所有單詞在數(shù)據(jù)集中出現(xiàn)的頻率;
[0058]步驟2:過濾掉那些單詞中帶有數(shù)字的無意義單詞;
[0059]步驟3:對于每個圖像標(biāo)注中在整個數(shù)據(jù)集中出現(xiàn)頻率較少的單詞,將其認(rèn)為是圖像中比較次要的信息,并允以刪除。
[0060]通過上述步驟,便可得到處理后的圖像標(biāo)注。對于步驟3中去除頻率較少的單詞,其理由在于圖像聚類里同一類圖像的標(biāo)注還是存在很多相同、意義相近的單詞。因此按照出現(xiàn)頻率來對其進行過濾完全合理。
[0061]( 二)提取圖像底層視覺特征
[0062]提取圖像的底層視覺特征采用SIFT局部特征提取方法,SIFT特征對抗干擾性,噪聲、光線變化、仿射變化具有很強的魯棒性。提取得到的圖像SIFT特征是一組128維的SIFT描述子,考慮到高維并且占用大量存儲空間的矩陣之間計算相似度消耗資源較大,直接將SIFT特征應(yīng)用到聚類中顯然不合適。所以,需要將高維的特征矩陣進行編碼降維,易于稍后的處理。矢量量化(VQ)是基本的編碼方法,應(yīng)用也是相當(dāng)廣泛,因而這里采用VQ編碼將SIFT特征映射到codebook中以達(dá)到降維目的。
[0063]假設(shè)圖像的SIFT特征矩陣為:R = (r1;r2,...,rm),其中為128維的SIFT描述子,碼矢量:B = (b1; b2,..., bn).則最終的特征向量表示為A = (a1; a2,..., an)。矢量量化(VQ)步驟如下:
[0064]步驟1:對于圖像SIFT的每一個描述子ri,找出其與碼矢量bj之間歐式距離算法下最近的矢量bk,將最終特征向量相應(yīng)位置k的值ak加I ;
[0065]步驟2:對其得到的特征向量A進行歸一化。
[0066](三)提取圖像語義特征
[0067]圖像標(biāo)注包含著圖像中存在的一些實體的語義概念,獲取一個更加準(zhǔn)確的語義特征,對于圖像聚類具有重要作用。通過基于共現(xiàn)關(guān)系的關(guān)聯(lián)網(wǎng)絡(luò)和語義特征優(yōu)化編碼可得到更加準(zhǔn)確的語義特征。
[0068]基于共現(xiàn)關(guān)系的關(guān)聯(lián)網(wǎng)絡(luò)主要由以下兩個部分組成:
[0069](I)與數(shù)據(jù)集標(biāo)注相關(guān)的語義概念集;
[0070](2)語義概念之間的共現(xiàn)關(guān)系。
[0071]關(guān)聯(lián)網(wǎng)絡(luò)中的語義概念不僅需要反映圖像的語義特征,還需要長期穩(wěn)定地在圖像標(biāo)注中出現(xiàn),高頻標(biāo)注對于圖像而言意味著人們對于圖像物體或者場景形象具有高度而集中關(guān)注。因此,這里共現(xiàn)網(wǎng)絡(luò)中的語義概念集合即選為圖像數(shù)據(jù)集中的高頻語義標(biāo)注。
[0072]實現(xiàn)跨模態(tài)聚類需要構(gòu)建語義特征的相似性度量方法,而層次間關(guān)聯(lián)關(guān)系是一種固有關(guān)聯(lián),很難進行量化。所以,主要考慮基于共現(xiàn)頻率進行度量層次內(nèi)共現(xiàn)關(guān)聯(lián)關(guān)系。即使兩個標(biāo)注概念之間沒有明顯的語義關(guān)系,但是兩者經(jīng)常同時出現(xiàn)在同一張圖像中,也仍然認(rèn)為兩者之間具有較強的關(guān)聯(lián)關(guān)系,比如boat和river。因而,圖像數(shù)據(jù)集中兩個語義標(biāo)注Ci和Cj之間的共現(xiàn)概率可以通過公式(10)來計算:
【權(quán)利要求】
1.一種基于典型相關(guān)性分析的圖像優(yōu)化聚類方法,其特征在于具體步驟如下: (1)從多媒體數(shù)據(jù)集中采集不同模態(tài)的數(shù)據(jù)對象,得到圖像和圖像標(biāo)注數(shù)據(jù),整理圖像標(biāo)注數(shù)據(jù)集中不常出現(xiàn)或者無用的標(biāo)注詞; (2)提取圖像底層視覺特征,并通過視覺特征構(gòu)建方法將高維視覺特征映射到一個低維空間中得到特征向量的稀疏表示; (3)提取圖像標(biāo)注的語義特征,利用語義特征構(gòu)建方法將圖像語義特征映射到一個統(tǒng)一維度空間中得到特征向量的稀疏描述; (4)采用典型相關(guān)性分析算法,得 到圖像視覺特征和語義特征的典型相關(guān)性; (5)構(gòu)建跨模態(tài)融合特征,將圖像的視覺特征向量和語義特征向量映射到同維度下的同構(gòu)子空間中并構(gòu)建跨模態(tài)融合特征,實現(xiàn)媒體數(shù)據(jù)不同模態(tài)信息的統(tǒng)一表示; (6)采用優(yōu)化聚類算法高效地對同構(gòu)子空間下的數(shù)據(jù)信息進行聚類。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于:步驟(2)中,所述提取圖像底層視覺特征采用SIFT局部特征提取方法,提取得到的圖像SIFT特征是一組128維的SIFT描述子;將每一個SIFT特征描述子看作一個視覺關(guān)鍵字,然后基于codebook通過矢量量化VQ編碼方法將其分配到一個或幾個codebook下的特征點; 假設(shè)圖像的SIFT特征描述子:R = (r1;r2,..., rm),碼矢量:B = (b1;b2,..., bn),最終的特征向量表示為A = (a1; a2,..., an), VQ的過程描述為: (1)對于圖像SIFT的每一個描述子&找出其與碼矢量I3i在歐式距離算法下最近的碼矢量bk,將最終特征向量相應(yīng)位置k的值ak加I ; (2)對特征向量A進行歸一化。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟(3)中,所述提取圖像標(biāo)注的語義特征,是通過提取圖像標(biāo)注,并將圖像標(biāo)注通過基于共現(xiàn)關(guān)系的關(guān)聯(lián)網(wǎng)絡(luò)和語義特征優(yōu)化編碼來構(gòu)建準(zhǔn)確的語義特征,所述基于共現(xiàn)關(guān)系的關(guān)聯(lián)網(wǎng)絡(luò)主要由以下兩個部分組成: (1)與數(shù)據(jù)集標(biāo)注相關(guān)的語義概念集; (2)語義概念之間的共現(xiàn)關(guān)系; 共現(xiàn)網(wǎng)絡(luò)中的語義概念集為圖像數(shù)據(jù)集中的高頻語義標(biāo)注,圖像數(shù)據(jù)集中兩個語義標(biāo)注Ci和Cj之間的共現(xiàn)概率可以通過式(I)來計算:
P(IMGCi, IMGcj)表示共同包含Ci和Cj的圖像與僅包含其中一個語義標(biāo)注的數(shù)目比值,其中,IMGci表示包含Ci的圖像數(shù)據(jù)集,IMGcj表示包含Cj的圖像數(shù)據(jù)集; 為獲得對語義特征的更好度量,引入TF-1DF統(tǒng)計方法來構(gòu)造語義特征的優(yōu)化編碼模式; 假設(shè)S是一個規(guī)模數(shù)量為N的圖像數(shù)據(jù)集,共包含D個不同的語義標(biāo)注,Ql表示第i個語義標(biāo)注Tag(i)在第j張圖像Image (j)中的度量結(jié)果;考慮到在不同的圖像中語義標(biāo)注往往具有不同的重要性,令P =0如果否則如果Tag(i) e Image(j),式(2)來實現(xiàn)對于語義標(biāo)注的編碼過程;
其中,當(dāng)Tag⑴屬于Image (j)時,撻(.Tfl翁)的值為I,否則權(quán))的值為O ; 為進一步獲得更加準(zhǔn)確的語義特征表示,設(shè)計一種基于共現(xiàn)關(guān)系的編碼優(yōu)化方法;共現(xiàn)關(guān)系可通過上述的共現(xiàn)關(guān)聯(lián)網(wǎng)絡(luò)獲得,公式(3)描述編碼優(yōu)化的具體算法:
其中,$是最終的編碼優(yōu)化結(jié)果,《ik表示兩個語義標(biāo)注Ci和Ck在共現(xiàn)關(guān)聯(lián)網(wǎng)絡(luò)中的權(quán)重,如公式(4)所示:
其中,τ是一個預(yù) 先設(shè)定的閾值,便可完成對語義特征的構(gòu)建過程。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟(4)中,采用典型相關(guān)性分析算法,得到圖像視覺特征和語義特征之間的典型相關(guān)性;典型相關(guān)性分析同時學(xué)習(xí)視覺特征矩陣和語義特征矩陣,以最大限度提取V和S之間相關(guān)性的主要特征為準(zhǔn)則,從V中提取組合變量L,從S中提取組合變量Μ,如公式(5)所示:
其中,P,Q為線性變換,又稱為空間基向量;V表示一個nXDv的圖像的視覺特征矩陣,S表示一個nXDs的語義特征矩陣,η為樣本的個數(shù);L表示視覺特征在子空間的特征矩陣,維數(shù)為Dy M表示語義特征在子空間的特征矩陣,維數(shù)也為^ ;子空間的維數(shù)均比視覺特征的維數(shù)和語義特征的維數(shù)要小,P為相關(guān)系數(shù),即表示特征矩陣L和M的相關(guān)性r(L,M) ;CVV、Cvs> Csv、Css 的映射關(guān)系為 Cvv = VTV, Cvs = VTS, Csv = STV, Css = STS, T 表示矩陣的轉(zhuǎn)置; 最大限度提取V和S之間的相關(guān)性,轉(zhuǎn)化為在式(5)和式(6)的約束下對P最優(yōu)化:
V(L) = LtL = PtVtVP = I V(M) = MtM = QtStSQ = I(6) 其中,V(L)和V(M)表示空間特征矩陣L、M的變換后的矩陣,增加此約束在于避免P和Q同時擴大η倍(η表示任意實數(shù))仍然符合條件的解情況出現(xiàn),此時對P的最優(yōu)化用拉格朗日公式構(gòu)造G函數(shù),得公式(7): G = T(UM)-A1(LtL-1)-A2(MtM-1) (7)
求解公式(7)并根據(jù) r (L,M) = r (M, L),證明 λ i = λ 2,得到方程 CvsCs^1CsvP = λ 2CvvP,求取這一方程的特征根即得到空間基向量矩陣P和Q。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于:步驟(5)中,構(gòu)建跨模態(tài)融合特征,將圖像的特征向量和語義特征向量同時映射到一個同構(gòu)子空間中并進行組合,實現(xiàn)統(tǒng)一表示的方法在于在典型相關(guān)性分析基礎(chǔ)上得到同維子空間,使得在這一子空間能最大限度的保持圖像視覺特征和語義特征的相關(guān)性,通過線性加權(quán)方法如公式(8)構(gòu)造這些同構(gòu)子空間下的特征向量得到最終的跨模態(tài)融合特征: CF = aV*P+(l_a )S*Q(8) 其中,α為線性組合中對于視覺特征的權(quán)重。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟(6)中,利用三角不等式的基礎(chǔ)理論,減少一些不必要的計算來縮短聚類的時間,使得數(shù)據(jù)較大的情況下也能在較短的時間內(nèi)得到與傳統(tǒng)k-means聚類相同的結(jié)果;優(yōu)化聚類算法如下: 步驟1:初始化聚類中心點,對于每一個向量X劃分給最近的中心點c(x) = argmind(x, c),其中使用推論避免冗余的計算,每當(dāng)d(x, c)計算時,上界u(x) = mind(x, c);重復(fù)直到收斂: 步驟2:對于所有中心c和c ',計算d(c, c ' ) ο對于所有的中心c,計算s(c) = \ rm'w d(c, c!); 步驟3:識別出所有滿足u(x) ^ s(c(x))的數(shù)據(jù)向量X ; 步驟4:計算d(x, c(x)),對所有剩下的向量X與中心c ; 對于條件Hx)同時滿足:
條件 I:c ^ c (X)
條件 2:u (X) > d (X, c (X)) 條件 3: > |d(e(—y).c) (i)如果r(X)為真,則計算d (X, c (X)),并更新上界u (X) = d (x, c (x)),置 r (X) = false ;
否則 d(x, c(x)) = u(x); (ii)如果rf(:l4A').)>y(dx),c.)為真,計算 d(x,c);
如果 d (X, c) < d (X, c (X)), c (X) =c,u (x) = d (x, c).步驟5:對于所有的中心點C,m(C)為以c為中心的所有向量的平均值;
步驟 6:對每個向量 X,置 u(x) = u(x)+d(m(c(x)), c(x)), r (X) = true ; 步驟7:將每個中心c以m(c)替換。
【文檔編號】G06T7/00GK104166982SQ201410304578
【公開日】2014年11月26日 申請日期:2014年6月30日 優(yōu)先權(quán)日:2014年6月30日
【發(fā)明者】張玥杰, 毛文輝, 朱勤恩, 李楊, 金城, 薛向陽, 張濤 申請人:復(fù)旦大學(xué)