亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種以子集分組為輔助信息進(jìn)行矩陣分解的聚類方法與流程

文檔序號:12887646閱讀:426來源:國知局
一種以子集分組為輔助信息進(jìn)行矩陣分解的聚類方法與流程

本發(fā)明屬于電數(shù)字?jǐn)?shù)據(jù)處理的技術(shù)領(lǐng)域,特別涉及一種以機器學(xué)習(xí)和數(shù)據(jù)挖掘為基礎(chǔ)的以子集分組為輔助信息進(jìn)行矩陣分解的聚類方法。



背景技術(shù):

在很多領(lǐng)域的數(shù)據(jù)處理和分析問題中,需要使用聚類算法把一個數(shù)據(jù)集中的樣本進(jìn)行分組,進(jìn)而基于分組結(jié)果對整個數(shù)據(jù)集的內(nèi)部結(jié)構(gòu)進(jìn)行快速瀏覽、分析和處理。

為了提高傳統(tǒng)無監(jiān)督聚類方法的準(zhǔn)確度,利用少量監(jiān)督信息的半監(jiān)督聚類被提出?,F(xiàn)有的半監(jiān)督聚類方法絕大多數(shù)采用兩兩對象之間的約束這種形式來實現(xiàn)監(jiān)督,使得涉及到“mustlink”約束的兩個對象被分在同一個類,而“cannotlink”約束的兩個對象分在不同的類。

然而,對包含n個對象的數(shù)據(jù)集,一共有n2可能的兩兩關(guān)系,因此需要足夠大的數(shù)目的約束才能達(dá)到滿意的效果,在實際應(yīng)用中,獲得大量約束需要付出較大的人力勞動,且效率低下。



技術(shù)實現(xiàn)要素:

本發(fā)明解決的技術(shù)問題是,現(xiàn)有技術(shù)中,半監(jiān)督聚類方法對包含n個對象的數(shù)據(jù)集,一共有n2個可能的兩兩關(guān)系,因此需要足夠大的數(shù)目的約束才能達(dá)到滿意的效果,在實際應(yīng)用中,獲得大量約束需要付出較大的人力勞動,且效率低下的問題,進(jìn)而提供了一種優(yōu)化的以子集分組為輔助信息進(jìn)行矩陣分解的聚類方法。

本發(fā)明所采用的技術(shù)方案是,一種以子集分組為輔助信息進(jìn)行矩陣分解的聚類方法,所述方法包括以下步驟:

步驟1.1:收集用戶對待分組數(shù)據(jù)集的若干子集的分組結(jié)果,由此得到所述待分組數(shù)據(jù)集中每個對象xi的近鄰集和遠(yuǎn)鄰集

步驟1.2:利用近鄰集和遠(yuǎn)鄰集將m×n的矩陣x分解為k×m的矩陣f和k×n的矩陣g,其中,k為最終得到的類的數(shù)目,k>1;

步驟1.3:輸出矩陣g。

優(yōu)選地,所述步驟1.1中,所述近鄰集和遠(yuǎn)鄰集的劃分方法包括以下步驟:

步驟1.1.1:對任一待分組樣本子集s,將s分為k個組c1,c2,...ck,所述k個組滿足c1∪c2...∪ck=s,且q≠p,

步驟1.1.2:令xi∈cf,cf為第f個類,得到xi的近鄰集合n=cf\xi和k-1個遠(yuǎn)鄰集合{cr},r=1,2,...k且r≠f;

步驟1.1.3:統(tǒng)計所有樣本子集,xi出現(xiàn)在ti個樣本子集中,則對第t個樣本子集,得到xi的近鄰集和遠(yuǎn)鄰集kt為第t個子集被分解的組數(shù),t=1,2,...ti。

優(yōu)選地,所述步驟1.2的分解方法為:

步驟1.2.1:設(shè)定最大循環(huán)次數(shù)a;當(dāng)前次數(shù)y=1;

步驟1.2.2:產(chǎn)生g的非負(fù)初始值;

步驟1.2.3:由f=(ggt)-1gxt計算得到f;

步驟1.2.4:基于當(dāng)前的矩陣f和矩陣g,計算fx和fft,得到(fx)1、(fx)2、(fft)1、(fft)2;其中,(fx)1和(fft)1對計算結(jié)果的矩陣中每個大于0的元素保留,將小于0的元素置為0,(fx)2和(fft)2對計算結(jié)果的矩陣中每個小于0的元素取絕對值,將小于0的元素置為0;

步驟1.2.5:設(shè)置約束目標(biāo)函數(shù)minj=j(luò)mf+βjm-γjc,jmf用于衡量矩陣f和矩陣g的乘積與矩陣x的差異,jm用于衡量每個對象與近鄰集在聚類結(jié)果的近似程度,jc用于衡量每個對象與遠(yuǎn)鄰集在聚類結(jié)果的差異程度;其中,β>0,γ>0;

步驟1.2.6:計算(fft)1g和(fft)2g,得到其中,xi和gi分別為矩陣x和矩陣g的第i列;

步驟1.2.7:當(dāng)ti>0時,計算否則置為0;

步驟1.2.8:計算得到得到新矩陣g;循環(huán)次數(shù)y加1;

步驟1.2.9:第y次的f和第y-1次的f的差值以矩陣的f范數(shù)衡量,||fy-fy-1||f≤δ時,結(jié)束;否則返回步驟1.2.3。

優(yōu)選地,所述步驟1.2.2中,g的每個元素為隨機非負(fù)值。

優(yōu)選地,所述步驟1.2.2中,g的每個元素為基于k-means的結(jié)果,當(dāng)xi被分在第f個類時,g的元素gif=1,g的其他元素為0.1。

優(yōu)選地,所述步驟1.2.5中,其中,

優(yōu)選地,所述步驟1.2.7中,

其中,|st|表示第t個子集的大小。

優(yōu)選地,基于輸出的g矩陣得到每個樣本點的標(biāo)簽。

本發(fā)明提供了一種優(yōu)化的以子集分組為輔助信息進(jìn)行矩陣分解的聚類方法,通過收集用戶對多個不同子集的分組結(jié)果,獲取一定數(shù)目的子集分組信息作為對聚類的指導(dǎo),基于這些結(jié)果得到子集中的對象的近鄰集和遠(yuǎn)鄰集,通過在矩陣分解的目標(biāo)函數(shù)中加入正則項的方式實現(xiàn)子集中各個對象的類與其近鄰集中對象的類別相近,而與其遠(yuǎn)鄰集中對象的類別不同,完成聚類。本發(fā)明基于上一步子集的分組結(jié)果,使得矩陣分解的時候不僅考慮分解誤差,還同時考慮縮小子集中對象的分組和其近鄰集中對象的分組的差別,以及增大與遠(yuǎn)鄰集中對象分組的差別,不需要過大的數(shù)目的約束就能達(dá)到滿意的效果,在實際應(yīng)用中聚類迅速,效率高,人工成本低。

附圖說明

圖1為包含175個二維樣本點的數(shù)據(jù)集,這些樣本點組成兩個半圓形;

圖2為采用傳統(tǒng)的半監(jiān)督聚類方法的聚類結(jié)果;

圖3為采用本發(fā)明的聚類方法重復(fù)30次的聚類結(jié)果;

圖4為采用本發(fā)明的聚類方法重復(fù)80次的聚類結(jié)果;

圖2~4中以不同的圖標(biāo)標(biāo)記不同類的樣本點。

具體實施方式

下面結(jié)合實施例對本發(fā)明做進(jìn)一步的詳細(xì)描述,但本發(fā)明的保護(hù)范圍并不限于此。

本發(fā)明涉及一種以子集分組為輔助信息進(jìn)行矩陣分解的聚類方法,所述方法包括以下步驟。

步驟1.1:收集用戶對待分組數(shù)據(jù)集的若干子集的分組結(jié)果,由此得到所述待分組數(shù)據(jù)集中每個對象xi的近鄰集和遠(yuǎn)鄰集

所述步驟1.1中,所述近鄰集和遠(yuǎn)鄰集的劃分方法包括以下步驟。

步驟1.1.1:對任一待分組樣本子集s,將s分為k個組c1,c2,...ck,所述k個組滿足c1∪c2...∪ck=s,且q≠p,

本發(fā)明中,即k個組c1,c2,...ck兩兩之間互不交叉。

步驟1.1.2:令xi∈cf,cf為第f個類,得到xi的近鄰集合n=cf\xi和k-1個遠(yuǎn)鄰集合{cr},r=1,2,...k且r≠f。

步驟1.1.3:統(tǒng)計所有樣本子集,xi出現(xiàn)在ti個樣本子集中,則對第t個樣本子集,得到xi的近鄰集和遠(yuǎn)鄰集kt為第t個子集被分解的組數(shù),t=1,2,...ti。

本發(fā)明中,處理所有子集分組后,得到所有子集中對象的近鄰集和遠(yuǎn)鄰集。

步驟1.2:利用近鄰集和遠(yuǎn)鄰集將m×n的矩陣x分解為k×m的矩陣f和k×n的矩陣g,其中,k為最終得到的類的數(shù)目,k>1。

本發(fā)明中,矩陣f表示k個隱因子,每個因子對應(yīng)一個類,矩陣g表示每個對象到每個類的隸屬度。

本發(fā)明中,一般情況下,k遠(yuǎn)大于1且遠(yuǎn)小于數(shù)據(jù)集中對象的總數(shù)。

所述步驟1.2的分解方法為:

步驟1.2.1:設(shè)定最大循環(huán)次數(shù)a;當(dāng)前次數(shù)y=1;

步驟1.2.2:產(chǎn)生g的非負(fù)初始值;

所述步驟1.2.2中,g的每個元素為隨機非負(fù)值。

所述步驟1.2.2中,g的每個元素為基于k-means的結(jié)果,當(dāng)xi被分在第f個類時,g的元素gif=1,g的其他元素為0.1。

本發(fā)明中,g選擇上述兩種方式中的任意一種。

步驟1.2.3:由f=(ggt)-1gxt計算得到f;

步驟1.2.4:基于當(dāng)前的矩陣f和矩陣g,計算fx和fft,得到(fx)1、(fx)2、(fft)1、(fft)2;其中,(fx)1和(fft)1對計算結(jié)果的矩陣中每個大于0的元素保留,將小于0的元素置為0,(fx)2和(fft)2對計算結(jié)果的矩陣中每個小于0的元素取絕對值,將小于0的元素置為0。

步驟1.2.5:設(shè)置約束目標(biāo)函數(shù)minj=j(luò)mf+βjm-γjc,jmf用于衡量矩陣f和矩陣g的乘積與矩陣x的差異,jm用于衡量每個對象與近鄰集在聚類結(jié)果的近似程度,jc用于衡量每個對象與遠(yuǎn)鄰集在聚類結(jié)果的差異程度;其中,β>0,γ>0;

所述步驟1.2.5中,其中,

本發(fā)明中,jmf為控制聚類的主項,用于衡量分解誤差,jm和jc為懲罰項。

本發(fā)明中,最小化jm則每個對象與其近鄰的分組盡可能接近,即每個對象的類的隸屬度向量與各近鄰隸屬度向量的均值的歐氏距離最小。

本發(fā)明中,最大化jc則每個對象與其每個遠(yuǎn)鄰中的對象的分組盡可能不同,即每個對象的類的隸屬度向量與每個遠(yuǎn)鄰中的對象的隸屬度向量的均值的歐氏距離最大。

本發(fā)明中,即是采用拉格朗日方法求解,得到矩陣f和矩陣g的迭代公式,基于初始的非負(fù)矩陣g,通過對f和每個gi交替迭代,得到最后的矩陣g。

步驟1.2.6:計算(fft)1g和(fft)2g,得到其中,xi和gi分別為矩陣x和矩陣g的第i列。

本發(fā)明中,jmf必然存在,故進(jìn)行計算。

步驟1.2.7:當(dāng)ti>0時,計算否則置為0;

所述步驟1.2.7中,

其中,|st|表示第t個子集的大小。

本發(fā)明中,ti>0的條件不滿足時,則表示不存在近鄰集和遠(yuǎn)鄰集,故不需要進(jìn)行步驟1.2.7。

本發(fā)明中,ti>0時,對懲罰項求偏導(dǎo)。

步驟1.2.8:計算得到得到新矩陣g;循環(huán)次數(shù)y加1。

本發(fā)明中,通過對懲罰項求偏導(dǎo),得到兩種情況下的a向量,并對不同的向量的相應(yīng)元素進(jìn)行迭代因子的計算,與在先的矩陣g的第i列的元素進(jìn)行迭代后,賦值,作為新的矩陣g的第i列。

步驟1.2.9:第y次的f和第y-1次的f的差值以矩陣的f范數(shù)衡量,||fy-fy-1||f≤δ時,結(jié)束;否則返回步驟1.2.3。

本發(fā)明中,循環(huán)結(jié)束的條件包括次數(shù)到達(dá)限定值或矩陣迭代差值小于限定值。

本發(fā)明中,第y次的矩陣f和第y-1次的矩陣f差值小于δ,主要采用矩陣的f-范數(shù)來衡量差別大小,即||fy-fy-1||f≤δ。

本發(fā)明中,δ的取值可以依據(jù)本領(lǐng)域技術(shù)人員對本發(fā)明的理解和需求自行設(shè)置。

步驟1.3:輸出矩陣g。

基于輸出的g矩陣得到每個樣本點的標(biāo)簽。

本發(fā)明中,把每個樣本標(biāo)簽分配給對應(yīng)的g值最大的類。

本發(fā)明中,給出一個實施例。如圖1,數(shù)據(jù)集包含175個二維樣本點,首先隨機產(chǎn)生包含8個樣本點的子集,根據(jù)這些樣本點的標(biāo)簽得到相應(yīng)分組,分別重復(fù)30和80次;按照方法計算,取k為2,β∈[1,5],γ∈[10,30]。

本發(fā)明中,圖2為采用傳統(tǒng)的半監(jiān)督聚類方法的聚類結(jié)果,圖3為采用本發(fā)明的聚類方法重復(fù)30次的聚類結(jié)果,圖4為采用本發(fā)明的聚類方法重復(fù)80次的聚類結(jié)果,可見本發(fā)明的聚類方法效果明顯優(yōu)于傳統(tǒng)的聚類方法。

本發(fā)明解決了現(xiàn)有技術(shù)中,半監(jiān)督聚類方法對包含n個對象的數(shù)據(jù)集,一共有n2可能的兩兩關(guān)系,因此需要足夠大的數(shù)目的約束才能達(dá)到滿意的效果,在實際應(yīng)用中,獲得大量約束需要付出較大的人力勞動,且效率低下的問題,通過收集用戶對多個不同子集的分組結(jié)果,獲取一定數(shù)目的子集分組信息作為對聚類的指導(dǎo),基于這些結(jié)果得到子集中的對象的近鄰集和遠(yuǎn)鄰集,通過在矩陣分解的目標(biāo)函數(shù)中加入正則項的方式實現(xiàn)子集中各個對象的類與其近鄰集中對象的類別相近,而與其遠(yuǎn)鄰集中對象的類別不同,完成聚類。本發(fā)明基于上一步子集的分組結(jié)果,使得矩陣分解的時候不僅考慮分解誤差,還同時考慮縮小子集中對象的分組和其近鄰集中對象的分組的差別,以及增大與遠(yuǎn)鄰集中對象分組的差別,不需要過大的數(shù)目的約束就能達(dá)到滿意的效果,在實際應(yīng)用中聚類迅速,效率高,人工成本低。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1