圖像聚類裝置以及方法
【專利摘要】本發(fā)明實施例提供一種圖像聚類裝置以及方法,所述圖像聚類方法包括:對多個圖像進行基于視覺特征的聚類以獲得第一集合;對多個圖像進行鏈接結構的聚類以獲得第二集合;通過視覺特征信息和鏈接結構信息融合第一集合和第二集合,來獲得圖像聚類的結果。通過本發(fā)明實施例,可以進一步提高聚類結果的準確性,生成語義更加一致的類。
【專利說明】圖像聚類裝置以及方法
【技術領域】
[0001]本發(fā)明涉及圖像處理領域,特別涉及一種圖像聚類裝置以及方法。
【背景技術】
[0002]隨著數(shù)碼相機和具有拍照功能手機的普及,圖像的獲取變得越來越容易。此外,互聯(lián)網的快速發(fā)展以及web上圖像共享網站的越來越流行,圖像的數(shù)量正呈爆炸式增長,快速瀏覽和搜索所需圖像因此變得費時費力。當前主要依賴圖像的標簽來輔助快速瀏覽,然而標簽本身具有多義性、歧義性以及不準確性等限制,因此不能很好地解決該問題。
[0003]基于圖像內容的圖像自組織非常重要,它可以有效地輔助圖像瀏覽。圖像聚類(Image Clustering)是實現(xiàn)基于圖像內容的圖像自組織的一種有效方法,它以某種方式將相似的圖像快速組合在一起。ClustTour是最近提出的一種對城市中景點圖像進行聚類組織的方法,它首先分別利用圖像的標簽信息和視覺信息構建兩個相似圖,然后在這兩個相似圖上應用一個圖聚類方法得到最終的聚類結果。
[0004]但是,發(fā)明人發(fā)現(xiàn),現(xiàn)有技術中(例如ClustTour)只考慮了圖像之間的鏈接結構,它僅僅利用了基于圖的聚類方法,因此需要圖像的標簽信息,不能進一步提升聚類結果。
[0005]下面列出了對于理解本發(fā)明和常規(guī)技術有益的文獻,通過引用將它們并入本文中,如同在本文中完全闡明了一樣。
[0006]【參考文獻I】S.Papadopoulos, C.Zigkolis, S.Kapiris, Y.Kompatsiaris andA.Vakal1.ClustTouriCity Exploration by use of Hybrid Photo Clustering, InProceedings ofACM Multimedia, 1617-1620,2010.[0007]【參考文獻2 】X.W.Xu,Ν.Yuruk,Ζ.D.Feng and T.A.J.Schweiger.SCAN:`AStructural Clustering Algorithm for Networks, Proceedings of the13th ACM SIGKDDinterna`tional conference on Knowledge discovery and datamining, 824-833,2007.
【發(fā)明內容】
[0008]本發(fā)明實施例提供一種圖像聚類裝置以及方法,目的在于進一步提高聚類結果的準確性,生成語義更加一致的類。
[0009]根據(jù)本發(fā)明實施例的一個方面,提供一種圖像聚類裝置,所述圖像聚類裝置包括:
[0010]第一聚類單元,對多個圖像進行基于視覺特征的聚類以獲得第一集合;
[0011]第二聚類單元,對所述多個圖像進行鏈接結構的聚類以獲得第二集合;
[0012]融合單元,通過視覺特征信息和鏈接結構信息融合所述第一集合和第二集合,來獲得圖像聚類的結果。
[0013]根據(jù)本發(fā)明實施例的另一個方面,提供一種圖像聚合方法,所述圖像聚類方法包括:[0014]對多個圖像進行基于視覺特征的聚類以獲得第一集合;
[0015]對所述多個圖像進行鏈接結構的聚類以獲得第二集合;
[0016]通過視覺特征信息和鏈接結構信息融合所述第一集合和第二集合,來獲得圖像聚類的結果。
[0017]本發(fā)明的有益效果在于:通過融合基于視覺特征的聚類和基于鏈接結構信息的聚類,可以進一步提高聚類結果的準確性,生成語義更加一致的類。
[0018]參照后文的說明和附圖,詳細公開了本發(fā)明的特定實施方式,指明了本發(fā)明的原理可以被采用的方式。應該理解,本發(fā)明的實施方式在范圍上并不因而受到限制。在所附權利要求的精神和條款的范圍內,本發(fā)明的實施方式包括許多改變、修改和等同。
[0019]針對一種實施方式描述和/或示出的特征可以以相同或類似的方式在一個或更多個其它實施方式中使用,與其它實施方式中的特征相組合,或替代其它實施方式中的特征。
[0020]應該強調,術語“包括/包含”在本文使用時指特征、整件、步驟或組件的存在,但并不排除一個或更多個其它特征、 整件、步驟或組件的存在或附加。
【專利附圖】
【附圖說明】
[0021]圖1是本發(fā)明實施例1的圖像聚類裝置的一個構成示意圖;
[0022]圖2是本發(fā)明實施例2的圖像聚類裝置的一個構成示意圖;
[0023]圖3是本發(fā)明實施例2的融合單元的一個構成示意圖;
[0024]圖4是本發(fā)明實施例2的第一更新單元的一個構成示意圖;
[0025]圖5是本發(fā)明實施例3的圖像聚類方法的一個流程圖;
[0026]圖6是本發(fā)明實施例4的圖像聚類方法的一個流程圖;
[0027]圖7是本發(fā)明實施例4的圖像聚類方法的另一個示意圖;
[0028]圖8是本發(fā)明實施例4的對第二子集進行更新的流程圖。
【具體實施方式】
[0029]參照附圖,通過下面的說明書,本發(fā)明的前述以及其它特征將變得明顯。在說明書和附圖中,具體公開了本發(fā)明的特定實施方式,其表明了其中可以采用本發(fā)明的原則的部分實施方式,應了解的是,本發(fā)明不限于所描述的實施方式,相反,本發(fā)明包括落入所附權利要求的范圍內的全部修改、變型以及等同物。
[0030]實施例1
[0031]本發(fā)明實施例提供一種圖像聚類裝置,圖1是本發(fā)明實施例的圖像聚類裝置的一個構成示意圖。如圖1所示,該圖像聚類裝置100包括:第一聚類單元101、第二聚類單元102和融合單元103。
[0032]其中,第一聚類單元101對多個圖像進行基于視覺特征的聚類以獲得第一集合;第二聚類單元102對多個圖像進行鏈接結構的聚類以獲得第二集合;融合單元103通過視覺特征信息和鏈接結構信息融合第一集合和第二集合,來獲得圖像聚類的結果。
[0033]在本實施例中,可以首先給定多個圖像,該圖像可以是地理標注圖像。例如,可以給定N個圖像I = Kx1, gi), (x2, g2),…,(xn, gn)}, Ii=Ui, gi),其中Xi是一個d維特征向量,它表示第i個圖像的原始特征,gi是一個e維特征向量,它表示圖像的附加信息,例如可以是GPS信息。本發(fā)明的目的是對這N個圖像分成m類,使得每一類中的圖像之間盡可能相似。
[0034]在本實施例中,第一聚類單元101可以基于視覺特征進行聚類??梢允褂脗鹘y(tǒng)聚類方法,例如k-means、合并聚類等在圖像視覺特征上對圖像進行聚類,得到基于視覺特征的聚類結果,其中具有較大視覺相似度的圖像將會被歸為一類。
[0035]在本實施例中,第二聚類單元102可以基于圖像視覺特征對多個圖像構建K近鄰(KNN,K-Nearest Neighbor)圖,并在KNN圖上進行結構化聚類以得到基于鏈接結構信息的聚類結果。
[0036]例如,可以首先基于圖像視覺特征對所有圖像構建KNN圖,具體構建過程可以如下:根據(jù)圖像視覺特征計算每幅圖像與其他所有圖像的距離,選取前h個最小距離的圖像作為圖像的h近鄰圖像,將每幅圖像視為圖中一個節(jié)點,每幅圖像與它的Ic1個近鄰圖像相連接形成圖的邊,圖像之間的視覺相似度決定邊的權重。
[0037]然后,在KNN圖上使用一種結構化聚類算法,例如SCAN2,對圖像進行聚類,從而得到基于鏈接結構信息的聚類結果,其中兩圖像如果具有足夠多的共同鏈接圖像,那么他們將會被歸為一類。
[0038]在本實施例中,融合單元103可以融合第一集合和第二集合來獲得圖像聚類的結果。由于考慮了圖像的視覺特征以及圖像之間的鏈接結構,可以針對不同模態(tài)信息采用不同聚類方法,由此得到很好的聚類結果。
[0039]值得注意的是,以上僅對基于視覺特征的聚類和基于鏈接結構的聚類進行了示意性說明。但本發(fā)明不限于此,例如還可以采用其他的聚類算法?;蛘?,基于鏈接結構聚類時并不限于KNN圖,還可以構建其他的結構??梢愿鶕?jù)具體情況確定具體的實施方式。
[0040]由上述實施例可知,通過融合基于視覺特征的聚類和基于鏈接結構信息的聚類,可以進一步提高聚類結果的準確性,生成語義更加一致的類。
[0041]實施例2
[0042]在實施例1的基礎上,本發(fā)明實施例又提供一種圖像聚類裝置,與實施例1相同的內容不再贅述。
[0043]圖2是本發(fā)明實施例的圖像聚類裝置的另一個構成示意圖。如圖2所示,該圖像聚類裝置200包括:第一聚類單元201、第二聚類單元202和融合單元203。如圖2所示,該圖像聚類裝置200還可以包括:分類單元204,該分類單元204根據(jù)分類信息對多個圖像進行聚類,以對多個圖像進行篩選。
[0044]在本實施例中,該分類信息可以是圖像附加信息,例如可以是GPS信息,但本發(fā)明不限于此,還可以是其他的分類信息。分類單元204可以基于圖像附加信息對圖像進行聚類,并利用聚類結果對圖像過濾。
[0045]例如,可以首先使用傳統(tǒng)聚類方法如k-means、meanshift等在圖像附加信息上如GPS信息對圖像進行聚類,然后按照某預定原則對聚類結果的每一類進行過濾,例如對具有較少圖像的類或者具有較偏GPS位置的類進行過濾刪除。過濾剩下的圖像將用于后續(xù)的聚類處理,可以輸入第一聚類單元201和第二聚類單元202。
[0046]在本實施例中,整個圖像聚類裝置可以主要分為三部分:(1)基于圖像附加信息如GPS信息對圖像進行聚類并基于聚類結果進行圖像過濾;(2)基于視覺特征和鏈接結構信息對圖像進行聚類;(3)融合基于視覺特征的聚類結果和基于鏈接結構的聚類結果。以下對具體如何融合進行示意性說明。
[0047]圖3是本發(fā)明實施例的融合單元的一個構成示意圖,如圖3所示,融合單元203可以包括選擇單元301和處理單元302。其中,選擇單元301將第一集合和第二集合中的一個集合作為目標集合,將另一個集合作為源集合;處理單元302將源集合中的元素加入到目標集合中,或者根據(jù)源集合中的元素更新目標集合中的元素。
[0048]具體地,處理單元302可以包括:第一計算單元3021、合并單元3022和第一更新單元3023。其中,第一計算單元3021對于源集合中的一個第一子集,計算該第一子集和目標集合的每個子集的重疊度;合并單元3022在目標集合中不存在重疊度大于預設閾值的子集時,將第一子集加入到目標集合中;第一更新單元3023在目標集合中存在重疊度大于預設閾值的第二子集時,對第二子集進行更新。
[0049]在具體實施時,可以從第一集合和第二集合中任選其中一個聚類結果作為目標集合cd,另一個聚類結果作為源集合Cs??梢苑治鲈醇螩s中每一個元素Csi (即聚類結果中一個類),以確定該元素是否直接添加到目標集合Cd中,還是用于更新目標集合Cd中的某些元素。具體分析過程可以如下:
[0050]計算Csi與目標集合Cd中每一個元素Ctu的重疊度,其中兩個元素的重疊度Overlap (csi, cdj)的計算公式可以如(I):
[0051]
【權利要求】
1.一種圖像聚類裝置,所述圖像聚類裝置包括: 第一聚類單元,對多個圖像進行基于視覺特征的聚類以獲得第一集合; 第二聚類單元,對所述多個圖像進行鏈接結構的聚類以獲得第二集合; 融合單元,通過視覺特征信息和鏈接結構信息融合所述第一集合和第二集合,來獲得圖像聚類的結果。
2.根據(jù)權利要求1所述的圖像聚類裝置,其中,所述圖像聚類裝置還包括: 分類單元,根據(jù)分類信息對所述多個圖像進行聚類,以對所述多個圖像進行篩選。
3.根據(jù)權利要求1所述的圖像聚類裝置,其中,所述融合單元包括: 選擇單元,將所述第一集合和所述第二集合中的一個集合作為目標集合,將另一個集合作為源集合; 處理單元,將所述源集合中的元素加入到所述目標集合中,或者根據(jù)所述源集合中的元素更新所述目標集合中的元素。
4.根據(jù)權利要求3所述的圖像聚類裝置,其中,所述處理單元包括: 第一計算單元,對于所述源集合中的一個第一子集,計算所述第一子集和所述目標集合的每個子集的重疊度; 合并單元,在所述目標集合中不存在重疊度大于預設閾值的子集時,將所述第一子集加入到目標集合中; 第一更新單元,在所述目標集合中存在重疊度大于預設閾值的第二子集時,對所述第二子集進行更新。
5.根據(jù)權利要求4所述的圖像聚類裝置,其中,所述第一更新單元包括: 第一生成單元,將所述第一子集和所述第二子集的交集作為第三子集; 第二更新單元,基于聚類測量值對所述第三子集進行更新; 第一替換單元,用更新后的所述第三子集替換所述第二子集。
6.根據(jù)權利要求5所述的圖像聚類裝置,其中,所述第二更新單元包括: 第二生成單元,對于不屬于所述第三子集、且屬于所述第一子集或第二子集的每個元素,增加到所述第三子集后形成一個新的第四子集; 第二計算單元,對于每個所述第四子集計算聚類測量值,以獲得具有最優(yōu)的聚類測量值的一個第四子集; 第二替換單元,在所述第四子集的聚類測量值優(yōu)于所述第三子集的聚類測量值時,用所述第四子集替換所述第三子集。
7.根據(jù)權利要求1至6任一項所述的圖像聚類裝置,其中,所述圖像聚類裝置還包括: 第三計算單元,對于所述多個圖像的一個集合,計算所述集合的聚類測量值;所述聚類測量值包括:全局視覺相關值、局部視覺相關值、全局鏈接相關值、局部鏈接相關值中的其中之一或其組合。
8.根據(jù)權利要求7所述的圖像聚類裝置,其中,所述第三計算單元包括: 第四計算單元,在構建的K近鄰圖上找到連接的圖像均在所述集合中的一條或多條邊,對所述一條 或多條邊的權重求和得到第一和值; 第五計算單元,在所述K近鄰圖上找出連接的圖像至少有一個圖像在所述集合中的一條或多條邊,對所述一條或多條邊的權重求和得到第二和值;第六計算單元,將所述第一和值除以所述第二和值以得到所述全局鏈接相關值。
9.根據(jù)權利要求7所述的圖像聚類裝置,其中,所述第三計算單元包括: 第七計算單元,求出所述集合中任意兩個圖像的鏈接權重; 第八計算單元,對所有鏈接權重求平均值以得到所述局部鏈接相關值。
10.一種圖像聚合方法,所述圖像聚類方法包括: 對多個圖像進行基于視覺特征的聚類以獲得第一集合; 對所述多個圖像進行鏈接結構的聚類以獲得第二集合; 通過視覺特征信息和鏈接結構信息融合所述第一集合和第二集合,來獲得圖像聚類的結果。
【文檔編號】G06F17/30GK103778146SQ201210406382
【公開日】2014年5月7日 申請日期:2012年10月23日 優(yōu)先權日:2012年10月23日
【發(fā)明者】劉曦, 劉汝杰 申請人:富士通株式會社