一種基于自編碼神經(jīng)網(wǎng)絡(luò)的圖像聚類方法
【專利說明】一種基于自編碼神經(jīng)網(wǎng)絡(luò)的圖像聚類方法
[技術(shù)領(lǐng)域]
[0001] 本發(fā)明涉及圖像處理、機(jī)器學(xué)習(xí),特別涉及基于自編碼神經(jīng)網(wǎng)絡(luò)的圖像聚類方法。 [【背景技術(shù)】]
[0002] 隨著信息處理需求的增長(zhǎng),圖像聚類亟需高效準(zhǔn)確的算法。傳統(tǒng)類算法如K均值 算法等均存在準(zhǔn)確率低和計(jì)算復(fù)雜度高的限制。隨著非監(jiān)督學(xué)習(xí)和自編碼神經(jīng)網(wǎng)絡(luò)的興 起,基于自編碼神經(jīng)網(wǎng)絡(luò)的圖像聚類得到了研宄者的重視。
[0003] 不同的聚類約束直接影響聚類效果,我們提出一種新的基于自編碼神經(jīng)網(wǎng)絡(luò)且同 時(shí)考慮類內(nèi)和類間約束的聚類算法。該方法可以將圖像從原始數(shù)據(jù)空間通過自編碼網(wǎng)絡(luò)映 射到特征空間,并在特征空間加入類內(nèi)和類間約束,通過迭代更新自編碼網(wǎng)絡(luò)以得到最佳 聚類效果。其中,類內(nèi)約束可以保證同類樣本的緊致分布,類間約束可以達(dá)到不同類樣本互 相遠(yuǎn)離。這種方法既實(shí)現(xiàn)了將圖像從原始空間映射到特征空間,也實(shí)現(xiàn)了在特征空間的類 內(nèi)和類間約束,很好的解決了大數(shù)據(jù)背景下的圖像聚類問題。
[
【發(fā)明內(nèi)容】
]
[0004] 為了解決現(xiàn)有技術(shù)存在的問題,本發(fā)明的目的是提供一種基于自編碼神經(jīng)網(wǎng)絡(luò)的 圖像聚類方法,如圖1所示,包括以下步驟:
[0005] 步驟S1,利用八層自編碼網(wǎng)絡(luò)建立聚類網(wǎng)絡(luò)結(jié)構(gòu),并利用此網(wǎng)絡(luò)的權(quán)重作為初始 權(quán)重。
[0006] 步驟S2,在自編碼網(wǎng)絡(luò)的編碼層加入類內(nèi)和類間約束函數(shù),使同類樣本靠近其聚 類中心,不同聚類中心相互遠(yuǎn)離。
[0007] 步驟S3,將所有樣本隨機(jī)分組,并分別通過自編碼網(wǎng)絡(luò)映射到特征空間,然后計(jì)算 所有組的特征表達(dá)的平均值,作為該組的聚類中心。
[0008] 步驟S4,利用加入類內(nèi)約束和類間約束訓(xùn)練自編碼網(wǎng)絡(luò),更新網(wǎng)絡(luò)權(quán)重,進(jìn)行圖像 聚類。
[0009] 步驟S5,利用S4得到的更新后的網(wǎng)絡(luò),計(jì)算所有樣本的特征表達(dá),與之前的聚類 中心進(jìn)行比較,將樣本分配至距離最近的聚類中心。
[0010] 步驟S6,利用S5中得到特征表達(dá)按新的分組計(jì)算每組的特征表達(dá)的均值作為新 的聚類中心。
[0011] 步驟S7,利用S6中更新的聚類中心代替S2中聚類約束函數(shù)的聚類中心。
[0012] 步驟S8,轉(zhuǎn)到S4并循環(huán),直到達(dá)到訓(xùn)練次數(shù)或聚類網(wǎng)絡(luò)收斂。
[0013] 根據(jù)本發(fā)明的方法,可以將樣本從原始圖像空間通過自編碼神經(jīng)網(wǎng)絡(luò)投影至特征 空間,并在特征空間加入類內(nèi)和類間約束,使得樣本在特征空間的類內(nèi)分布更加緊致,不同 聚類中心互相遠(yuǎn)離,實(shí)現(xiàn)了較好的圖像聚類結(jié)果。
[【附圖說明】]
[0014] 圖1是基于自編碼神經(jīng)網(wǎng)絡(luò)的圖像聚類方法的流程圖。
[【具體實(shí)施方式】]
[0015] 以下結(jié)合附圖詳細(xì)說明本發(fā)明技術(shù)方案中所涉及的各個(gè)細(xì)節(jié)問題。應(yīng)當(dāng)指出的 是,所描述的實(shí)施例僅旨在便于理解,對(duì)本發(fā)明不起任何限定作用。圖1是本發(fā)明的流程 圖,如圖1所示,所述方法包括以下步驟:
[0016] 步驟S1,建立八層的自編碼神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)的傳遞函數(shù)均為s i gmoi d函數(shù)。其 中前4層為編碼網(wǎng)絡(luò),后4層為解碼網(wǎng)絡(luò),初始網(wǎng)絡(luò)權(quán)重隨機(jī)給定。
[0017] 步驟S2,加入在自編碼網(wǎng)絡(luò)的編碼層加入類內(nèi)和類間約束函數(shù),這樣整個(gè)網(wǎng)絡(luò)的 目標(biāo)函數(shù)包含三個(gè)部分:自編碼約束、類內(nèi)約束、類間約束。目標(biāo)函數(shù)可具體表示為:
[0019] 其中&*是對(duì)應(yīng)第n個(gè)樣本xn在特征空間的聚類中心,Ci表示第i個(gè)聚類中心, f(x n)表示樣本1"在經(jīng)過編碼網(wǎng)絡(luò)在特征空間的表達(dá),p (/ (.v,,))表示樣本的特征表達(dá) f(xn)經(jīng)過解碼網(wǎng)絡(luò)的輸出。
[0020] 步驟S3,將所有樣本隨機(jī)分為k組,得到每個(gè)樣本的初始聚類標(biāo)簽L=[I12,~ ,1N],其中N表示N個(gè)樣本,1表示樣本的標(biāo)簽,即所屬的分類。然后,將所有樣本通過初始 網(wǎng)絡(luò)得到對(duì)應(yīng)的特征層表達(dá),計(jì)算每組表達(dá)的均值作為初始的聚類中心C。
[0021] 步驟S4,利用所有樣本迭代訓(xùn)練自編碼神經(jīng)網(wǎng)絡(luò),優(yōu)化步驟S2中的目標(biāo)函數(shù)。
[0022] 步驟S5,利用更新后的網(wǎng)絡(luò)權(quán)重,重新計(jì)算所有樣本的特征表達(dá),并與之前的聚類 中心進(jìn)行比較,根據(jù)距離遠(yuǎn)近重新分組。
[0023] 步驟S6,利用更新后分組中的樣本計(jì)算每組均值,作為更新后的聚類中心。
[0024] 步驟S7,利用更新后的聚類中心更新目標(biāo)函數(shù)的約束。
[0025] 步驟S8,轉(zhuǎn)到步驟S4并循環(huán)迭代,直到自編碼網(wǎng)絡(luò)收斂,或者訓(xùn)練次數(shù)達(dá)到上限。
[0026] [實(shí)施例]
[0027] 為了詳細(xì)說明本發(fā)明的【具體實(shí)施方式】,以某大型手寫數(shù)字圖像數(shù)據(jù)集為例說明。 該數(shù)據(jù)集包含5000張圖像,分別包括0-9共10類不同的數(shù)字圖像,每張圖像大小為30*30。 利用提出的聚類方法對(duì)該數(shù)據(jù)庫(kù)進(jìn)行圖像聚類,將樣本在非監(jiān)督的情況下分為10類。具體 步驟如下:
[0028] 步驟S1,利用八層自編碼網(wǎng)絡(luò)建立聚類網(wǎng)絡(luò)結(jié)構(gòu),網(wǎng)絡(luò)結(jié)構(gòu)為(900-500-200-100 -30-100-200-500-900),網(wǎng)絡(luò)的傳遞函數(shù)均為sigmoid函數(shù)。其中前4層為編碼網(wǎng)絡(luò),后4 層為解碼網(wǎng)絡(luò),初始網(wǎng)絡(luò)權(quán)重隨機(jī)給定。
[0029]步驟S2,在自編碼網(wǎng)絡(luò)的編碼層加入類內(nèi)和類間約束函數(shù),使同類樣本靠近其聚 類中心,不同聚類中心相互遠(yuǎn)離。這樣整個(gè)網(wǎng)絡(luò)的目標(biāo)函數(shù)包含三個(gè)部分:自編碼約束、類 內(nèi)約束、類間約束。目標(biāo)函數(shù)具體表示為:
[0030]
[0031] 其中9是對(duì)應(yīng)第n個(gè)樣本xn在特征空間的聚類中心,Ci表示第i個(gè)聚類中心, f(x n)表示樣本樣本1"在經(jīng)過編碼網(wǎng)絡(luò)在特征空間的表達(dá),p (/〇"))表示樣本的特征表 達(dá)f(xn)經(jīng)過解碼網(wǎng)絡(luò)的輸出。
[0032] 步驟S3,將所有5000個(gè)樣本隨機(jī)分為10組,得到每個(gè)樣本的初始聚類標(biāo)簽L = [lp 12,…,1N],其中N表示N個(gè)樣本,1表示樣本的標(biāo)簽,即所屬的分類。然后,將所有樣本 通過初始網(wǎng)絡(luò)得到對(duì)應(yīng)的特征層表達(dá),計(jì)算每組表達(dá)的均值作為初始的10個(gè)聚類中心C。
[0033] 步驟S4,利用所有樣本迭代訓(xùn)練自編碼神經(jīng)網(wǎng)絡(luò),優(yōu)化步驟S2中的目標(biāo)函數(shù)。
[0034] 步驟S5,利用更新后的網(wǎng)絡(luò)權(quán)重,重新計(jì)算所有樣本的特征表達(dá),并與之前的10 個(gè)聚類中心進(jìn)行比較,根據(jù)距離遠(yuǎn)近重新分為10組。
[0035] 步驟S6,利用更新后分組中的樣本計(jì)算10個(gè)分組的均值,作為更新后的10個(gè)聚類 中心。
[0036] 步驟S7,利用更新后的聚類中心更新步驟S2中目標(biāo)函數(shù)的約束。
[0037] 步驟S8,轉(zhuǎn)到步驟S4并循環(huán)迭代,直到自編碼網(wǎng)絡(luò)收斂,或者訓(xùn)練次數(shù)達(dá)到50次。
[0038] 以上所述,僅為本發(fā)明的【具體實(shí)施方式】之一,本發(fā)明的保護(hù)范圍并不局限于此。任 何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi),可理解想到的變換或者替換,都應(yīng)涵蓋 在本發(fā)明的范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以權(quán)利要求書的保護(hù)范圍為準(zhǔn)。
【主權(quán)項(xiàng)】
1. 一種基于自編碼神經(jīng)網(wǎng)絡(luò)的圖像聚類方法,主要包括步驟: 步驟S1,利用八層自編碼網(wǎng)絡(luò)建立聚類網(wǎng)絡(luò)結(jié)構(gòu),并利用此網(wǎng)絡(luò)的權(quán)重作為初始權(quán)重。 步驟S2,在自編碼網(wǎng)絡(luò)的編碼層加入類內(nèi)和類間約束函數(shù),使同類樣本靠近其聚類中 心,不同聚類中心相互遠(yuǎn)離。 步驟S3,將所有樣本隨機(jī)分組,并分別通過自編碼網(wǎng)絡(luò)映射到特征空間,然后計(jì)算所有 組的特征表達(dá)的平均值,作為該組的聚類中心。 步驟S4,利用加入類內(nèi)約束和類間約束訓(xùn)練自編碼網(wǎng)絡(luò),更新網(wǎng)絡(luò)權(quán)重,進(jìn)行圖像聚 類。 步驟S5,利用S4得到的更新后的網(wǎng)絡(luò),計(jì)算所有樣本的特征表達(dá),與之前的聚類中心 進(jìn)行比較,將樣本分配至距離最近的聚類中心。 步驟S6,利用S5中得到特征表達(dá)按新的分組計(jì)算每組的特征表達(dá)的均值作為新的聚 類中心。 步驟S7,利用S6中更新的聚類中心代替S2中聚類約束函數(shù)的聚類中心。 步驟S8,轉(zhuǎn)到S4并循環(huán),直到達(dá)到訓(xùn)練次數(shù)或聚類網(wǎng)絡(luò)收斂。2. 根據(jù)權(quán)利要求1所述的方法,利用自編碼神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像聚類。3. 根據(jù)權(quán)利要求1所述的方法,同時(shí)利用類內(nèi)和類間約束加入自編碼網(wǎng)絡(luò)的目標(biāo)函數(shù) 作為聚類約束。
【專利摘要】本發(fā)明公開一種基于自編碼神經(jīng)網(wǎng)絡(luò)的圖像聚類方法,主要用于非監(jiān)督學(xué)習(xí)的圖像聚類等領(lǐng)域。此方法包括初始化網(wǎng)絡(luò),更新聚類網(wǎng)絡(luò)兩個(gè)部分,主要涉及到圖像聚類過程。首先,利用自編碼網(wǎng)絡(luò)組成八層神經(jīng)網(wǎng)絡(luò),并通過隨機(jī)初始化得到初始權(quán)重,同時(shí)對(duì)數(shù)據(jù)隨機(jī)分組得到初始的圖像聚類中心;然后,在自編碼網(wǎng)絡(luò)模型中加入類內(nèi)和類間聚類約束,利用加入聚類約束的目標(biāo)函數(shù)對(duì)模型進(jìn)行訓(xùn)練以更新網(wǎng)絡(luò)結(jié)構(gòu);最后,利用更新過的網(wǎng)絡(luò)得到對(duì)應(yīng)圖像的特征,在特征層進(jìn)行聚類,更新聚類分組。該方法提出的在自編碼神經(jīng)網(wǎng)絡(luò)中加入的類內(nèi)聚類約束可以讓同一類的樣本在特征空間分布更加緊致,而加入的類間約束則可以讓不屬于同類的樣本在特征空間高度可分,借助于自編碼網(wǎng)絡(luò)的高度非線性的映射能力和非監(jiān)督學(xué)習(xí)能力,非常適合圖像聚類。利用該方法可以實(shí)現(xiàn)優(yōu)于傳統(tǒng)圖像聚類算法的性能。
【IPC分類】G06K9/62
【公開號(hào)】CN104933438
【申請(qǐng)?zhí)枴緾N201510293670
【發(fā)明人】譚軾, 武艷嬌, 黃利今
【申請(qǐng)人】武艷嬌
【公開日】2015年9月23日
【申請(qǐng)日】2015年6月1日