本發(fā)明涉及數(shù)學(xué)與計(jì)算機(jī)交叉研究領(lǐng)域,具體涉及通過(guò)數(shù)據(jù)分析建模進(jìn)行對(duì)多視圖數(shù)據(jù)進(jìn)行聚類分析的方法。
背景技術(shù):
1、隨著信息技術(shù)的快速發(fā)展,產(chǎn)生了海量、高維、多源的數(shù)據(jù)。如何從這些數(shù)據(jù)中提取有價(jià)值的信息成為各個(gè)領(lǐng)域的研究熱點(diǎn)。聚類分析作為一種無(wú)監(jiān)督學(xué)習(xí)方法,可以自動(dòng)發(fā)現(xiàn)數(shù)據(jù)中的潛在結(jié)構(gòu)和模式,為數(shù)據(jù)分析和決策提供支持。
2、傳統(tǒng)的單視圖聚類僅能從數(shù)據(jù)的某個(gè)方面特征進(jìn)行挖掘,從而實(shí)現(xiàn)對(duì)樣本進(jìn)行聚類,由于單視圖聚類方法僅利用數(shù)據(jù)的某一方面信息,往往存在信息的丟失以及無(wú)法獲得樣本的全局信息的問(wèn)題。多視圖聚類則可以克服單視圖聚類的局限性,它是一種利用來(lái)自多個(gè)視圖的補(bǔ)充和一致信息,可以提供更全面、準(zhǔn)確的數(shù)據(jù)描述,從而提高聚類性能。
3、多視圖聚類算法的應(yīng)用場(chǎng)景非常廣泛,例如在生物信息學(xué)、文本分析、圖像識(shí)別、社交網(wǎng)絡(luò)分析等領(lǐng)域。在這些應(yīng)用中,數(shù)據(jù)可以從多個(gè)角度或模態(tài)(如文本、圖像、聲音等)進(jìn)行觀察和描述,每個(gè)視圖都包含了數(shù)據(jù)實(shí)體的一部分信息。算法的目標(biāo)是整合這些來(lái)自不同視圖的信息,以發(fā)現(xiàn)數(shù)據(jù)中的潛在結(jié)構(gòu)和模式。多視圖聚類算法因其獨(dú)特的優(yōu)勢(shì)和廣泛的應(yīng)用場(chǎng)景,在數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)領(lǐng)域具有重要的意義和應(yīng)用價(jià)值。
4、然而,隨著多視圖數(shù)據(jù)的日益豐富,數(shù)據(jù)的復(fù)雜性和多樣性不斷增加,如何有效的將多視圖數(shù)據(jù)進(jìn)行挖掘,設(shè)計(jì)有效的聚類方法是當(dāng)前面臨的巨大挑戰(zhàn)。近些年來(lái),國(guó)內(nèi)外學(xué)者提出了很多關(guān)于多視圖聚類的算法,例如:zhangetal.等學(xué)者提出了一種潛在多視圖子空間的聚類方法(lmsc),用數(shù)據(jù)點(diǎn)的潛在表示進(jìn)行聚類,同時(shí)在多個(gè)視角中發(fā)掘互補(bǔ)信息。該方法在多視圖中尋找數(shù)據(jù)的潛在表示,并在此基礎(chǔ)上對(duì)數(shù)據(jù)進(jìn)行重構(gòu),建立了數(shù)據(jù)的完備表示,提高了子空間表示的準(zhǔn)確性和魯棒性。lietal.等學(xué)者為了避免已有方法基于每個(gè)單獨(dú)視圖進(jìn)行數(shù)據(jù)重建忽略了視圖間的內(nèi)在關(guān)聯(lián),提出了一種基于靈活多視圖表征的子空間聚類方法fmr,該方法能有效避免使用部分信息進(jìn)行數(shù)據(jù)重建,并通過(guò)引入核依賴度量后,潛在表示可以靈活地編碼不同視角中的互補(bǔ)信息,并探索這些視角之間的非線性高階關(guān)聯(lián)關(guān)系,數(shù)值結(jié)果表明該方法能有效提高多視圖數(shù)據(jù)的聚類效果。m.et?al.等學(xué)者本文提出了一種基于低秩和稀疏約束的多視圖子空間聚類方法,通過(guò)構(gòu)建所有視圖間共同的相似性矩陣來(lái)學(xué)習(xí)聯(lián)合子空間表征。采用交替方向乘子法求解每個(gè)視圖的相關(guān)低秩和稀疏約束優(yōu)化問(wèn)題。此外,通過(guò)在再生核希爾伯特空間中解決相應(yīng)的問(wèn)題,將該方法擴(kuò)展到從非線性子空間中提取的數(shù)據(jù)聚類。lan?et?al.等學(xué)者基于矩陣的一致分解,提出了一種新的多視圖子空間聚類算法lsgmc,該方法建立了基于不同視圖一致低秩結(jié)構(gòu)和對(duì)稱約束的數(shù)學(xué)模型,并考慮角度信息和噪聲影響采用融合機(jī)制和shatten-p范數(shù)來(lái)獲得低秩表征矩陣。它利用圖結(jié)構(gòu)來(lái)捕捉數(shù)據(jù)點(diǎn)之間的關(guān)系,并通過(guò)聯(lián)合優(yōu)化多個(gè)視圖的圖表示來(lái)達(dá)到更準(zhǔn)確的聚類效果。
5、考慮到現(xiàn)有的多視圖聚類算法時(shí)間復(fù)雜度較高難以應(yīng)用于實(shí)際的大規(guī)模數(shù)據(jù)場(chǎng)景,一些學(xué)者提出建立錨點(diǎn)的方式來(lái)減少計(jì)算復(fù)雜度,然而在啟發(fā)式采樣和聚類過(guò)程中的分離導(dǎo)致錨點(diǎn)的選取對(duì)結(jié)果影響很大,另外,由于圖是基于不同視圖的錨點(diǎn)單獨(dú)構(gòu)建的,視圖之間補(bǔ)充信息未得到充分利用。sun?et?al.等學(xué)者提出了一種基于統(tǒng)一錨點(diǎn)集合的可擴(kuò)展的多視圖子空間聚類算法(smvsc),該方法將錨點(diǎn)選擇和圖構(gòu)建結(jié)合為統(tǒng)一的優(yōu)化框架,因此得到的錨點(diǎn)能更準(zhǔn)確代表數(shù)據(jù)分布得到更具有判別性的聚類結(jié)構(gòu),除此之外,該方法具有線性時(shí)間復(fù)雜度,因此可應(yīng)用于大規(guī)模數(shù)據(jù)。guo?et?al.等學(xué)者提出了一種新的可擴(kuò)展的多二部圖(smcmb)多視圖聚類方法,該方法能夠從多個(gè)視圖聯(lián)合學(xué)習(xí)和融合多個(gè)二部圖,同時(shí)對(duì)非常大規(guī)模的數(shù)據(jù)集保持高效率。與單錨集視圖范式不同,smcmb首先在每個(gè)視圖上生成多個(gè)不同的錨集,從而在多個(gè)視圖上獲得多個(gè)錨集,在此基礎(chǔ)上進(jìn)行基于錨的子空間表示學(xué)習(xí),同時(shí)學(xué)習(xí)多個(gè)二部圖。然后對(duì)這些二部圖進(jìn)行有效的分割,生成基聚類,并將其重新表述為統(tǒng)一的二部圖,以進(jìn)行最終的聚類。
6、雖然上述文獻(xiàn)中方法在對(duì)多視圖數(shù)據(jù)聚類方面做了一些工作,但是隨著多視圖數(shù)據(jù)的日益豐富,數(shù)據(jù)的復(fù)雜性和多樣性不斷增加,如何有效的將多視圖數(shù)據(jù)進(jìn)行聚類是多視圖數(shù)據(jù)模式挖掘的關(guān)鍵,目前基于多視圖數(shù)據(jù)進(jìn)行聚類方法的精確性和效率仍然有待進(jìn)一步提高。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明旨在提供一種新的基于核低秩一致性的多視圖數(shù)據(jù)聚類的方法,基于多視圖矩陣的低秩表征、核函數(shù)映射以及矩陣一致性分解及正則化來(lái)實(shí)現(xiàn)對(duì)多視圖數(shù)據(jù)進(jìn)行有效的數(shù)據(jù)分析、融合不同視圖數(shù)據(jù)的獨(dú)特性質(zhì)和視圖間特征互補(bǔ),從而實(shí)現(xiàn)對(duì)數(shù)據(jù)樣本進(jìn)行有效聚類。
2、本發(fā)明采取的技術(shù)方案是:一種基于核低秩一致性的多視圖數(shù)據(jù)聚類的方法,包括以下步驟:
3、s1:基于采集的多視圖數(shù)據(jù),定義一個(gè)聯(lián)合核低秩表征和矩陣一致分解的數(shù)學(xué)優(yōu)化模型,所述模型能有效刻畫數(shù)據(jù)的非線性特征,具體描述為:
4、
5、
6、其中,xv表示含有v個(gè)視圖數(shù)據(jù)的矩陣;ev表示第v個(gè)視圖下對(duì)應(yīng)的誤差項(xiàng),用于刻畫數(shù)據(jù)噪聲;zv表示第v個(gè)視圖下表征矩陣,c表示不同視圖下共同的特征矩陣,rv和lv表示第v個(gè)視圖下正交矩陣;λ1、λ2和λ3表示正則化參數(shù);表示矩陣c的schatten-p范數(shù);||bv||*表示矩陣bv的核范數(shù);φ(·)為核函數(shù),將原始數(shù)據(jù)映射到核希爾伯特空間;是一個(gè)正半定核格拉姆矩陣;表示矩陣的(i,j)位置元素值,
7、s2:基于優(yōu)化模型建立增廣的拉格朗日函數(shù),采用交替方向乘子法,即admm來(lái)單獨(dú)優(yōu)化每個(gè)變量,建立迭代格式,獲得迭代循環(huán)得到優(yōu)化后的每個(gè)視圖下的表征矩陣zv;
8、s3:將每個(gè)視圖下的表征矩陣求和然后對(duì)z*矩陣進(jìn)行角度校正,具體為通過(guò)對(duì)矩陣z*進(jìn)行svd分解z*=u*∑*(v*)t,得到矩陣m=u*(∑*)12,最后通過(guò)規(guī)范化m矩陣得到相似性矩陣w,
9、s4:采用譜聚類方法對(duì)所述的相似性矩陣w進(jìn)行聚類,從而得到對(duì)應(yīng)的樣本分類。
10、優(yōu)選的,所述增廣的拉格朗日函數(shù)具體描述為:
11、
12、
13、其中,jv表示引入的變量,初始值為0矩陣;和表示拉格朗日乘子;λ1、λ2、λ3和μ表示正則化參數(shù),防止過(guò)擬合;表示矩陣c的schatten-p范數(shù);||bv||*表示矩陣bv的核范數(shù)。
14、優(yōu)選的,步驟s2所述的采用交替方向乘子法來(lái)優(yōu)化目標(biāo)函數(shù)值包括以下具體步驟:
15、s201:矩陣c的更新需要優(yōu)化求解如下問(wèn)題:
16、
17、其中,為了求解c,采用廣義軟閾值(gst(generalized?soft-thresholding))算法進(jìn)行求解,具體迭代方式見算法1;
18、
19、s202:通過(guò)求解如下問(wèn)題來(lái)更新b:
20、
21、其中,
22、上面優(yōu)化問(wèn)題的封閉解為:
23、
24、其中,γ*和v都是由矩陣的svd分解得到,表示的svd分解;γ*為對(duì)角矩陣,元素σi為的第i個(gè)奇異值;
25、s203:通過(guò)如下公式更新zv:
26、
27、其中,
28、s204:通過(guò)如下公式更新jv:
29、
30、其中,
31、s205:通過(guò)求解如下問(wèn)題更新lv:
32、
33、其中,
34、上述優(yōu)化問(wèn)題的封閉解為:
35、lv=mvnvt
36、其中,mv和nv分別是對(duì)lv進(jìn)行svd分解后的左、右奇異值矩陣;
37、s206:類似的,可以得到求解rv的優(yōu)化問(wèn)題為:
38、
39、其中,
40、rv的最優(yōu)解為
41、其中,mv'和分別是對(duì)進(jìn)行svd分解得到的左、右奇異值矩陣;
42、s207:通過(guò)如下公式更新e:
43、
44、其中,θ表示奇異值閾值算子;
45、s208:分別通過(guò)下列公式更新q1、q2、q3和μ:
46、
47、其中,ρ,μmax皆為給定常數(shù);
48、s209:根據(jù)s201-s208更新的參數(shù)值進(jìn)行迭代,計(jì)算迭代誤差,具體計(jì)算公式如下:
49、
50、當(dāng)?shù)螖?shù)滿足設(shè)定的最大迭代步數(shù)或者誤差值error_value小于設(shè)定值時(shí)終止迭代,得到優(yōu)化后的zv。
51、優(yōu)選的,所述步驟s3的具體步驟如下:
52、s301:對(duì)每個(gè)視圖下的優(yōu)化得到的表征矩陣zv進(jìn)行求和,得到合成矩陣
53、s302:對(duì)合成表征矩陣z*進(jìn)行奇異值分解z*=u*∑*(v*)t;
54、s303:計(jì)算m=u*(∑*)12;
55、s304:構(gòu)建相似性矩陣
56、優(yōu)選的,步驟s4所述的采用譜聚類方法對(duì)所述的相似性矩陣w進(jìn)行聚類包括以下具體步驟:
57、s401:構(gòu)建規(guī)范化拉普拉斯矩陣l=d-12wd-12,其中d為對(duì)角矩陣
58、s402:計(jì)算矩陣l的特征值,得到k個(gè)最小特征值對(duì)應(yīng)的特征向量v=[v1,v2,…vk];
59、s403:采用l2范數(shù)對(duì)v進(jìn)行規(guī)范化
60、s404:采用kmeans方法對(duì)規(guī)范化的矩陣v進(jìn)行聚類,得到k個(gè)類,每個(gè)類對(duì)應(yīng)一種樣本類型。
61、優(yōu)選的,所述最大迭代步數(shù)為30,誤差在error_value的設(shè)定值為1e-2。
62、本發(fā)明的有益效果在于:
63、(1)與現(xiàn)有的技術(shù)相比,本發(fā)明的方法在考慮多視圖數(shù)據(jù)的全局結(jié)構(gòu)特征基礎(chǔ)上,有效的利用核函數(shù)來(lái)挖掘數(shù)據(jù)中的非線性結(jié)構(gòu),并將不同視圖下特征通過(guò)矩陣一致分解為所有視圖共同特征來(lái)進(jìn)行有效刻畫,該方法能有效提高聚類效果;
64、(2)本發(fā)明采用shatten-p范數(shù)來(lái)刻畫所有視圖數(shù)據(jù)中“共同部分”,可以有效減少噪聲等因素影響,相較于原始核范數(shù)在數(shù)據(jù)全局結(jié)構(gòu)特征刻畫方面有明顯優(yōu)勢(shì);
65、(3)本發(fā)明的方法在聚類效果上與已有方法相比具有明顯優(yōu)勢(shì),能有效的對(duì)復(fù)雜多視圖數(shù)據(jù)進(jìn)行聚類,有助于發(fā)現(xiàn)數(shù)據(jù)中的潛在結(jié)構(gòu)和模式,為數(shù)據(jù)分析和決策提供支持。