本發(fā)明屬于計算機視覺和模式識別技術(shù)領(lǐng)域,涉及一種自適應(yīng)多視圖聚類方法,具體涉及一種基于成對協(xié)同正則化和nmf的自適應(yīng)多視圖聚類方法,可應(yīng)用于客戶信息分析、金融分析和醫(yī)學(xué)等領(lǐng)域。
背景技術(shù):
隨著互聯(lián)網(wǎng)、信息采集和信息檢索等技術(shù)的高速發(fā)展,數(shù)據(jù)量急劇增多,信息社會已進入大數(shù)據(jù)時代。因此,如何從海量的數(shù)據(jù)中提取能夠為我們所用的信息成為現(xiàn)代科學(xué)的當(dāng)務(wù)之急。由此,數(shù)據(jù)挖掘應(yīng)運而生,成為一種數(shù)據(jù)信息處理技術(shù)。聚類是數(shù)據(jù)挖掘領(lǐng)域中進行數(shù)據(jù)處理的重要分析工具和方法,同時也是機器學(xué)習(xí)領(lǐng)域中重要的研究方向。如今,單視圖的數(shù)據(jù)聚類已取得較好的效果,然而,現(xiàn)階段實際應(yīng)用中的數(shù)據(jù)一般通過多特征或多視圖進行描述,并且每個特征往往包含互補和交互信息。因此,如何利用多特征或多視圖所包含的信息提高聚類性能,成為現(xiàn)階段聚類的關(guān)鍵問題。針對多視圖數(shù)據(jù),如何設(shè)計快速有效的聚類算法,成為大數(shù)據(jù)時代亟待解決的問題。
聚類是將物理或抽象對象的集合分成由類似的對象組成的多個簇的過程。聚類算法以相似性為基礎(chǔ),由聚類所生成的簇是一組數(shù)據(jù)對象的集合,同一簇中的對象彼此相似,不同簇間的對象相異。聚類算法是為單視圖數(shù)據(jù)設(shè)計的方法,經(jīng)典的單視圖聚類算法可分為基于劃分、基于層次、基于密度、基于網(wǎng)格和基于統(tǒng)計學(xué)等聚類算法。多視圖聚類的關(guān)鍵是如何融合多視圖數(shù)據(jù)。多視圖聚類一種樸素的做法是將不同視圖的數(shù)據(jù)拼接成一個新的向量,然后基于拼接的向量,采用經(jīng)典的單視圖學(xué)習(xí)算法進行聚類。但這種方法只是原則上連接了不同視圖的數(shù)據(jù),而忽略了不同視圖中的共享信息和特定的統(tǒng)計性質(zhì)。另一種廣泛使用的多視圖聚類方法是對不同視圖的數(shù)據(jù)進行融合,然后再進行聚類,得到聚類結(jié)果。這種方法可以充分挖掘不同視圖的數(shù)據(jù)中包含的兼容和互補信息,因此可以得到較好的聚類結(jié)果。
nmf(nonnegativematrixfactorization,非負(fù)矩陣分解)將數(shù)據(jù)矩陣分解成兩個低秩因子矩陣,實現(xiàn)了數(shù)據(jù)的低秩表示,并且分解后得到的基矩陣和系數(shù)矩陣具有較好的可解釋性、明確的物理意義、占用存儲空間少等優(yōu)點,因此,nmf成為數(shù)據(jù)聚類的基本工具,廣泛應(yīng)用于單視圖數(shù)據(jù)聚類和多視圖數(shù)據(jù)聚類中。
例如dengcai,xiaofeihe和jiaweihan等人,在2011年的ieeetransactionspatternanalysisandmachineintelligence期刊的第8期,發(fā)表了名為“graphregularizednonnegativematrixfactorizationfordatarepresentation”的文章,提出了基于圖正則化nmf的數(shù)據(jù)表示方法,將圖正則化合并到nmf的算法框架中,利用nmf對數(shù)據(jù)進行分解,得到對應(yīng)的基矩陣和系數(shù)矩陣,并對分解得到的系數(shù)矩陣進行圖正則化約束,保持?jǐn)?shù)據(jù)的局部幾何結(jié)構(gòu)信息,取得了較好的聚類效果。該方法是為單視圖數(shù)據(jù)設(shè)計的,將該方法應(yīng)用到多視圖聚類時,對每個視圖的數(shù)據(jù)進行nmf,并對每個視圖得到的系數(shù)矩陣分別進行圖正則化,保持每個視圖的相似性,但這種推廣只考慮了視圖內(nèi)的相似性,忽略了視圖間的相似性,并且為圖正則化約束項設(shè)置了相同的權(quán)重參數(shù),因此,使得多視圖聚類的精度低和歸一化交互信息低,影響了聚類性能。
又如jialuliu,chiwang,jinggao和jiaweihan等人,在2013年的siaminternationalconferenceondatamining會議中,發(fā)表了名為“multi-viewclusteringviajointnonnegativematrixfactorization”的文章,提出了一種基于聯(lián)合nmf的多視圖聚類算法。該方法利用nmf對多視圖數(shù)據(jù)進行分解,通過衡量每個視圖的系數(shù)矩陣和所有視圖共享的一致系數(shù)矩陣的差異性進行相似性保持。最后,在得到的一致系數(shù)矩陣上進行標(biāo)準(zhǔn)的k-均值聚類,得到數(shù)據(jù)的聚類結(jié)果。但該方法忽略了特征空間中的局部幾何結(jié)構(gòu)信息。另外,在進行相似性約束時,只考慮了每個視圖系數(shù)矩陣和一致系數(shù)矩陣之間的差異性,忽略了視圖間的差異性,使得多視圖聚類的精度低和歸一化交互信息低,影響了數(shù)據(jù)聚類的性能。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于針對上述已有技術(shù)存在的不足,提出了一種基于成對協(xié)同正則化和nmf的自適應(yīng)多視圖聚類方法,用于解決現(xiàn)有多視圖聚類方法中存在的精度低和歸一化交互信息低的技術(shù)問題。
本發(fā)明的技術(shù)思路是:對多視圖數(shù)據(jù)進行nmf,得到基矩陣和系數(shù)矩陣;分別利用成對協(xié)同正則化和圖正則化方法,構(gòu)造多視圖數(shù)據(jù)視圖間和視圖內(nèi)的相似性約束項,并采用自適應(yīng)的方法自動學(xué)習(xí)視圖內(nèi)的相似性約束項的權(quán)重參數(shù),最后對更新得到的系數(shù)矩陣進行k-均值聚類,得到聚類結(jié)果。實現(xiàn)步驟如下:
(1)獲取原始圖像集的非負(fù)多視圖數(shù)據(jù)
(2)對非負(fù)多視圖數(shù)據(jù)
(3)計算多視圖數(shù)據(jù)
(4)構(gòu)建成對協(xié)同正則化和nmf的自適應(yīng)多視圖聚類的目標(biāo)函數(shù),實現(xiàn)步驟為:
(4a)對多視圖數(shù)據(jù)
(4b)利用多視圖數(shù)據(jù)
(4c)利用成對協(xié)同正則化方法,通過系數(shù)矩陣
(4d)通過系數(shù)矩陣
(4e)設(shè)置調(diào)節(jié)參數(shù)γ,采用自適應(yīng)的方法,利用參數(shù)γ自動學(xué)習(xí)視圖內(nèi)的相似性約束項的自適應(yīng)權(quán)重參數(shù)
(4f)獲取成對協(xié)同正則化和nmf的自適應(yīng)多視圖聚類的目標(biāo)函數(shù):設(shè)置權(quán)衡參數(shù)λ,并將權(quán)衡參數(shù)λ作為視圖間的相似性約束項的權(quán)重,將自適應(yīng)權(quán)重參數(shù)
(5)初始化基矩陣
(6)分別獲取基矩陣
(7)獲取更新后的基矩陣
(7a)設(shè)定目標(biāo)函數(shù)差值的閾值和最大迭代次數(shù);
(7b)利用基矩陣
(7c)獲得更新后的基矩陣
(8)對更新后的系數(shù)矩陣
(8a)對更新后的系數(shù)矩陣
(8b)對一致系數(shù)矩陣v*進行k-均值聚類,得到聚類結(jié)果。
本發(fā)明與現(xiàn)有技術(shù)相比,具有以下優(yōu)點:
本發(fā)明利用成對協(xié)同正則化方法,構(gòu)造多視圖數(shù)據(jù)視圖間的相似性約束項,將每兩個視圖的系數(shù)矩陣之間的差異進行視圖間的相似性保持,并采用自適應(yīng)的方法,利用一個參數(shù)衡量每個視圖的數(shù)據(jù)對多視圖數(shù)據(jù)分布的貢獻程度,自動學(xué)習(xí)視圖內(nèi)的相似性約束項的權(quán)重參數(shù),有效提高了多視圖聚類的精度和歸一化交互信息,提升了多視圖聚類的聚類性能。
附圖說明
圖1為本發(fā)明的實現(xiàn)流程圖;
圖2為本發(fā)明與現(xiàn)有的基于聯(lián)合nmf的多視圖聚類方法和基于圖正則化nmf的多視圖聚類方法,在3sources數(shù)據(jù)庫下的聚類性能實驗結(jié)果曲線對比圖,其中,圖2(a)為取不同近鄰數(shù)目時的聚類精度曲線圖,圖2(b)為取不同近鄰數(shù)目時的聚類歸一化交互信息的曲線圖;
圖3為本發(fā)明與現(xiàn)有的基于聯(lián)合nmf的多視圖聚類方法和基于圖正則化nmf的多視圖聚類方法,在uci3views數(shù)據(jù)庫下的聚類性能實驗結(jié)果曲線對比圖,其中,圖3(a)為取不同近鄰數(shù)目時的聚類精度曲線圖,圖3(b)為取不同近鄰數(shù)目時的聚類歸一化交互信息的曲線圖;
圖4為本發(fā)明與現(xiàn)有的基于聯(lián)合nmf的多視圖聚類方法和基于圖正則化nmf的多視圖聚類方法,在uci2views數(shù)據(jù)庫下的聚類性能實驗結(jié)果曲線對比圖,其中,圖4(a)為取不同近鄰數(shù)目時的聚類精度曲線圖,圖4(b)為取不同近鄰數(shù)目時的聚類歸一化交互信息的曲線圖;
圖5為本發(fā)明與現(xiàn)有的基于聯(lián)合nmf的多視圖聚類方法和基于圖正則化nmf的多視圖聚類方法,在wiki數(shù)據(jù)庫下的聚類性能實驗結(jié)果曲線對比圖,其中,圖5(a)為取不同近鄰數(shù)目時的聚類精度曲線圖,圖5(b)為取不同近鄰數(shù)目時的聚類歸一化交互信息的曲線圖。
具體實施方式
下面結(jié)合附圖和具體實施例,對本發(fā)明作進一步詳細(xì)描述。
參照圖1,基于成對協(xié)同正則化和nmf的自適應(yīng)多視圖聚類方法,包括如下步驟:
步驟1)獲取原始圖像集的非負(fù)多視圖數(shù)據(jù)
步驟2)對非負(fù)多視圖數(shù)據(jù)
步驟3)計算多視圖數(shù)據(jù)
(3a)將多視圖數(shù)據(jù)
(3b)對多視圖數(shù)據(jù)
(3c)根據(jù)k近鄰圖構(gòu)建多視圖數(shù)據(jù)
(3d)對關(guān)聯(lián)矩陣
步驟4)構(gòu)建成對協(xié)同正則化和nmf的自適應(yīng)多視圖聚類的目標(biāo)函數(shù),實現(xiàn)步驟為:
(4a)對多視圖數(shù)據(jù)
(4b)對多視圖數(shù)據(jù)進行nmf后,希望多視圖數(shù)據(jù)
(4c)利用成對協(xié)同正則化方法,對多視圖數(shù)據(jù)
(4d)通過系數(shù)矩陣
(4e)設(shè)置調(diào)節(jié)參數(shù)γ,采用自適應(yīng)的方法,通過一個參數(shù)γ衡量每個視圖的數(shù)據(jù)對多視圖數(shù)據(jù)分布的貢獻程度,自動學(xué)習(xí)視圖內(nèi)的相似性約束項的自適應(yīng)權(quán)重參數(shù)
(4f)獲取成對協(xié)同正則化和nmf的自適應(yīng)多視圖聚類的目標(biāo)函數(shù),實現(xiàn)步驟為:
(4f1)設(shè)置權(quán)衡參數(shù)λ;
(4f2)將權(quán)衡參數(shù)λ作為視圖間的相似性約束項的權(quán)重,得到加權(quán)的視圖間的相似性約束項,其表達式為:
(4f2)將采用自適應(yīng)方法自動學(xué)習(xí)的自適應(yīng)權(quán)重參數(shù)
參數(shù)γ用于自動學(xué)習(xí)視圖內(nèi)的相似性約束項的權(quán)重參數(shù)
(4f3)對nmf的重構(gòu)誤差項、視圖間的相似性約束項和視圖內(nèi)的相似性約束項進行權(quán)重相加,得到成對協(xié)同正則化和nmf的自適應(yīng)多視圖聚類的目標(biāo)函數(shù),其表達式為:
步驟5)初始化基矩陣
步驟6)分別獲取基矩陣
步驟7)獲取更新后的基矩陣
(7a)設(shè)定目標(biāo)函數(shù)差值的閾值和最大迭代次數(shù);
(7b)利用基矩陣
(7b1)利用
(7b2)利用
(7b3)利用
(7c)獲得更新后的基矩陣
步驟8)對更新后的系數(shù)矩陣
(8a)對更新后的系數(shù)矩陣
(8b)對一致系數(shù)矩陣v*進行k-均值聚類,得到聚類結(jié)果,實現(xiàn)步驟為:
(8b1)將一致系數(shù)矩陣v*的每行作為一個樣本數(shù)據(jù)點;
(8b2)隨機選取一致系數(shù)矩陣v*中的k個數(shù)據(jù)點作為k個類的初始聚類中心;
(8b3)計算每個數(shù)據(jù)點到k個聚類中心的距離,按照最小距離原則將每個數(shù)據(jù)點分配到最鄰近的聚類中心所屬的類別;
(8b4)更新聚類中心;
(8b5)重復(fù)執(zhí)行步驟(8b3)和(8b4),直到聚類中心不再發(fā)生變化時停止,得到一致系數(shù)矩陣v*的聚類結(jié)果。
以下結(jié)合仿真實驗,對本發(fā)明的技術(shù)效果作進一步說明。
1.仿真條件和內(nèi)容:
仿真條件:
本發(fā)明的仿真實驗中計算機配置環(huán)境為intel(r)core(i7-3770)3.40ghz中央處理器、內(nèi)存16g、windows7操作系統(tǒng),計算機仿真軟件采用matlabr2015b軟件。
本發(fā)明在常用的多視圖數(shù)據(jù)集3sources、uci2views、uci3views和wiki數(shù)據(jù)集上進行仿真。
實驗中的參數(shù)設(shè)置為3sources數(shù)據(jù)集:λ=1.4,γ=2;uci2views數(shù)據(jù)集:λ=0.5,γ=2;uci3views數(shù)據(jù)集:λ=0.6,γ=9;wiki數(shù)據(jù)集:λ=0.1,γ=2。
仿真內(nèi)容:
本發(fā)明的方法與兩種現(xiàn)有的多視圖聚類方法進行了對比,作為對比的方法有基于聯(lián)合nmf的多視圖聚類方法和基于圖正則化nmf的多視圖聚類方法。
仿真實驗中,分別畫出聚類精度和歸一化交互信息曲線來評估多視圖聚類的性能。聚類精度為聚類后得到的類標(biāo)和樣本本身類標(biāo)相同的個數(shù)和總樣本數(shù)的比值。歸一化交互信息是對交互信息進行歸一化,而交互信息是對隨機選取的兩個樣本同時屬于兩個類的概率和每個樣本只屬于某一類的概率的比值取對數(shù),再與同時屬于兩個類的概率相乘得到的結(jié)果。本發(fā)明重復(fù)10次實驗,取聚類精度和歸一化交互信息的平均值作為聚類結(jié)果。
在仿真圖中的三條曲線中,用正方形標(biāo)注的曲線代表本發(fā)明的方法,用三角形標(biāo)注的曲線代表基于聯(lián)合nmf的多視圖聚類方法,用五角形標(biāo)注的曲線代表基于圖正則化nmf的多視圖聚類方法,每條曲線上有9個標(biāo)注點,標(biāo)注點的橫坐標(biāo)表示近鄰圖的近鄰數(shù),從左到右的取值分別為10、15、20、25、30、35、40、45、50,標(biāo)注點的縱坐標(biāo)表示對應(yīng)的聚類性能指標(biāo)值。
仿真1:本發(fā)明的仿真實驗1是在3sources數(shù)據(jù)集實現(xiàn)的,分別采用本發(fā)明和現(xiàn)有的基于聯(lián)合nmf的多視圖聚類方法和基于圖正則化nmf的多視圖聚類方法進行實驗,實驗結(jié)果如圖2所示。圖2(a)為取不同近鄰數(shù)目時的聚類精度曲線圖,圖2(a)中的橫坐標(biāo)軸表示近鄰圖的近鄰數(shù),縱坐標(biāo)軸表示聚類精度。圖2(b)為取不同近鄰數(shù)目時的聚類歸一化交互信息的曲線圖,圖2(b)中的橫坐標(biāo)軸表示近鄰圖的近鄰數(shù),縱坐標(biāo)軸表示聚類歸一化交互信息。
仿真2:本發(fā)明的仿真實驗2是在uci3views數(shù)據(jù)集實現(xiàn)的,分別采用本發(fā)明和現(xiàn)有的基于聯(lián)合nmf的多視圖聚類方法和基于圖正則化nmf的多視圖聚類方法進行實驗,實驗結(jié)果如圖3所示。圖3(a)為取不同近鄰數(shù)目時的聚類精度曲線圖,圖3(a)中的橫坐標(biāo)軸表示近鄰圖的近鄰數(shù),縱坐標(biāo)軸表示聚類精度。圖3(b)為取不同近鄰數(shù)目時的聚類歸一化交互信息的曲線圖,圖3(b)中的橫坐標(biāo)軸表示近鄰圖的近鄰數(shù),縱坐標(biāo)軸表示聚類歸一化交互信息。
仿真3:本發(fā)明的仿真實驗3是在uci2views數(shù)據(jù)集實現(xiàn)的,分別采用本發(fā)明和現(xiàn)有的基于聯(lián)合nmf的多視圖聚類方法和基于圖正則化nmf的多視圖聚類方法進行實驗,實驗結(jié)果如圖4所示。圖4(a)為取不同近鄰數(shù)目時的聚類精度曲線圖,圖4(a)中的橫坐標(biāo)軸表示近鄰圖的近鄰數(shù),縱坐標(biāo)軸表示聚類精度。圖4(b)為取不同近鄰數(shù)目時的聚類歸一化交互信息的曲線圖,圖4(b)中的橫坐標(biāo)軸表示近鄰圖的近鄰數(shù),縱坐標(biāo)軸表示聚類歸一化交互信息。
仿真4:本發(fā)明的仿真實驗4是在wiki數(shù)據(jù)集實現(xiàn)的,分別采用本發(fā)明和現(xiàn)有的基于聯(lián)合nmf的多視圖聚類方法和基于圖正則化nmf的多視圖聚類方法進行實驗,實驗結(jié)果如圖5所示。圖5(a)為取不同近鄰數(shù)目時的聚類精度曲線圖,圖5(a)中的橫坐標(biāo)軸表示近鄰圖的近鄰數(shù),縱坐標(biāo)軸表示聚類精度。圖5(b)為取不同近鄰數(shù)目時的聚類歸一化交互信息的曲線圖,圖5(b)中的橫坐標(biāo)軸表示近鄰圖的近鄰數(shù),縱坐標(biāo)軸表示聚類歸一化交互信息。
2.仿真結(jié)果分析:
由圖2-5的仿真結(jié)果可見,采用本發(fā)明對多視圖數(shù)據(jù)進行聚類時,聚類精度和歸一化交互信息的值明顯高于現(xiàn)有的基于聯(lián)合nmf的多視圖聚類方法和基于圖正則化nmf的多視圖聚類方法,因此,與現(xiàn)有的多視圖聚類技術(shù)相比,本發(fā)明利用成對協(xié)同正則化方法,構(gòu)造多視圖數(shù)據(jù)視圖間的相似性約束項,并采用自適應(yīng)方法,利用一個參數(shù)衡量每個視圖的數(shù)據(jù)對多視圖數(shù)據(jù)分布的貢獻程度,自動學(xué)習(xí)視圖內(nèi)的相似性約束項的權(quán)重參數(shù),有效提高了多視圖聚類的精度和歸一化交互信息,提升了多視圖聚類的聚類性能。