本發(fā)明涉及計算機技術(shù)領域,特別地,涉及一種樣本數(shù)據(jù)類別確定方法和設備。
背景技術(shù):
考慮到一種實際情況,現(xiàn)有一份企業(yè)評價標準表,共5個等級(優(yōu)秀、良好、一般、較差、很差),其中影響企業(yè)評價的指標數(shù)目有多個,比如財務收益情況、資產(chǎn)營運狀態(tài)、償債能力狀況、發(fā)展能力狀況等。此標準下,對于一家各項指標有高有低的企業(yè),如何評價其等級?
抽象來看,這其實就是一個高維數(shù)據(jù)的分類問題,一個可行的辦法是,先直接對高維數(shù)據(jù)進行降維,在低維空間再進行分類?,F(xiàn)有的降維分類方法中,以投影尋蹤(pp)為代表的模型,其中涉及到的唯一參數(shù)——密度窗寬取值,目前還必須依靠經(jīng)驗或試算來確定,導致得到的分類結(jié)果不夠客觀準確。
技術(shù)實現(xiàn)要素:
針對上述技術(shù)問題,本發(fā)明提供一種樣本數(shù)據(jù)類別確定方法和設備,旨在解決現(xiàn)有技術(shù)中對高維數(shù)據(jù)分類不夠客觀以及準確度低的問題。
本發(fā)明采用的技術(shù)方案為:
本發(fā)明的一方面提供一種樣本數(shù)據(jù)類別確定方法,包括:基于使用投影方向向量對樣本數(shù)據(jù)進行投影得到的投影特征值,以及根據(jù)得到的投影特征值對樣本數(shù)據(jù)進行分類得到的分類結(jié)果,構(gòu)造投影目標函數(shù),使得所述投影目標函數(shù)的函數(shù)值越優(yōu),表征分類結(jié)果中每個分類內(nèi)部特征值聚集度越高,且各分類之間聚集度越低;基于所述投影目標函數(shù)建立分類模型;將樣本數(shù)據(jù)輸入所述分類模型,采用預設遺傳算法對投影方向向量進行迭代,直到得到的投影方向向量使所述投影目標函數(shù)的函數(shù)值達到最優(yōu);
將基于所述得到的投影方向向量對樣本數(shù)據(jù)進行分類的分類結(jié)果確定為最終分類結(jié)果。
可選地,所述投影為線性投影;構(gòu)成所述投影方向向量的元素表征分類所依據(jù)的對應指標的權(quán)重;在對投影方向向量進行迭代之前,還包括:根據(jù)預設的對不同指標的偏好需求,確定不同指標對應權(quán)重之間的數(shù)值關(guān)系;將所述數(shù)值關(guān)系作為所述分類模型的約束條件輸入所述分類模型。
可選地,基于使用投影方向向量對樣本數(shù)據(jù)進行投影得到的投影特征值,以及根據(jù)得到的投影特征值對樣本數(shù)據(jù)進行分類得到的分類結(jié)果,構(gòu)造投影目標函數(shù),具體包括:使用投影方向向量對樣本數(shù)據(jù)進行投影得到投影特征值;基于得到的投影特征值,采用預設分類算法對樣本數(shù)據(jù)進行分類,得到各類別分別對應的聚類中心以及每個投影特征值所屬類別;針對每個類別,確定所屬該類別的各投影特征值分別與該類別對應聚類中心之間的距離的第一和值;將為各類別分別確定的第一和值相加得到總和值;確定投影運算值分別與各聚類中心之間的距離的第二和值;其中,所述投影運算值為對各投影特征值之和進行預設運算處理得到的數(shù)值;基于所述總和值、所述第二和值、以及預設運算關(guān)系構(gòu)造所述投影目標函數(shù),使得所述總和值越小且所述第二和值和值越大時,所述投影目標函數(shù)的值越優(yōu)。
可選地,基于所述總和值、所述第二和值、以及預設運算關(guān)系構(gòu)造所述投影目標函數(shù),使得所述總和值越小且所述第二和值越大時,所述投影目標函數(shù)的值越優(yōu),具體包括:所述投影目標函數(shù)表征為所述總和值與所述第二和值的商,使得所述總和值越小且所述第二和值越大時,所述投影目標函數(shù)的值越小,當所述投影函數(shù)的值最小時達到最優(yōu);或者所述投影目標函數(shù)表征為所述第二和值與所述總和值的商,使得所述總和值越小且所述第二和值越大時,所述投影目標函數(shù)的值越大,當所述投影函數(shù)的值最大時達到最優(yōu)。
可選地,基于得到的投影特征值,采用k-means算法對樣本數(shù)據(jù)進行分類:隨機選取k個投影特征值分別作為k個類別的聚類中心初始值;執(zhí)行如下聚類步驟:針對各投影特征值中除本次k個聚類中心之外的其余各投影特征值中的每個投影特征值,確定該投影特征值分別與本次k個聚類中心之間的距離;以及將本次k個聚類中心中與該投影特征值距離最近的聚類中心所屬類別確定為該投影特征值所屬類別;針對得到的每個類別,確定所屬該類別的各投影特征值的平均值,并將該平均值對應的投影特征值確定為下次聚類過程使用的聚類中心;以及判斷該下次聚類過程使用的聚類中心與本次聚類過程使用的聚類中心是否滿足預設條件,若不滿足,則將下次聚類過程使用的聚類中心作為新的本次k個聚類中心,再次執(zhí)行所述聚類步驟;若滿足,則將本次聚類過程得到的分類結(jié)果確定為最終分類結(jié)果。
可選地,在對樣本數(shù)據(jù)進行投影之前,還包括對樣本數(shù)據(jù)進行歸一化處理的步驟。
可選地,還包括:針對新的待分類樣本數(shù)據(jù),使用所述得到的投影方向向量對所述待分類樣本數(shù)據(jù)進行投影處理,得到所述待分類樣本的投影特征值;確定所述待分類樣本的投影特征值分別與所述最終分類結(jié)果中每個類別的聚類中心之間的距離;將距離最近的聚類中心對應的類別確定為所述待分類樣本數(shù)據(jù)所屬類別。
本發(fā)明的另一方面提供一種樣本數(shù)據(jù)類別確定設備,包括:目標函數(shù)構(gòu)建單元,用于基于使用投影方向向量對樣本數(shù)據(jù)進行投影得到的投影特征值,以及根據(jù)得到的投影特征值對樣本數(shù)據(jù)進行分類得到的分類結(jié)果,構(gòu)造投影目標函數(shù),使得所述投影目標函數(shù)的函數(shù)值越優(yōu),表征分類結(jié)果中每個分類內(nèi)部特征值聚集度越高,且各分類之間聚集度越低;分類模型建立單元,用于基于所述投影目標函數(shù)建立分類模型;目標函數(shù)優(yōu)化單元,用于將樣本數(shù)據(jù)輸入所述分類模型,采用預設遺傳算法對投影方向向量進行迭代,直到得到的投影方向向量使所述投影目標函數(shù)的函數(shù)值達到最優(yōu);類別確定單元,用于將基于所述得到的投影方向向量對樣本數(shù)據(jù)進行分類的分類結(jié)果確定為最終分類結(jié)果。
本發(fā)明的再一方面提供一種樣本數(shù)據(jù)類別確定設備,包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)上述方法的步驟。
本發(fā)明的再一方面提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)上存儲有計算機程序,所述計算機程序被處理器運行時執(zhí)行上述方法的步驟。
本發(fā)明實施例提供的樣本數(shù)據(jù)類別確定方法和設備,該方法包括:基于使用投影方向向量對樣本數(shù)據(jù)進行投影得到的投影特征值,以及根據(jù)得到的投影特征值對樣本數(shù)據(jù)進行分類得到的分類結(jié)果,構(gòu)造投影目標函數(shù);并基于該投影目標函數(shù)建立分類模型;將樣本數(shù)據(jù)輸入該分類模型,采用預設遺傳算法對投影方向向量進行迭代,直到得到的投影方向向量使該投影目標函數(shù)的函數(shù)值達到最優(yōu);此時,對樣本數(shù)據(jù)的分類結(jié)果中每個分類內(nèi)部特征值聚集度達到最高,且各分類之間聚集度達到最低,將基于該得到的投影方向向量對樣本數(shù)據(jù)進行分類的分類結(jié)果確定為最終分類結(jié)果??梢姡捎帽景l(fā)明實施例提供的樣本數(shù)據(jù)類別確定方法對樣本數(shù)據(jù)進行分類,與現(xiàn)有技術(shù)相比整個分類過程不需要依靠經(jīng)驗,并且構(gòu)造的投影目標函數(shù)值達到最優(yōu)時使分類結(jié)果達到最優(yōu),解決了現(xiàn)有技術(shù)中對高維數(shù)據(jù)分類不夠客觀以及準確度低的問題。
附圖說明
圖1為本發(fā)明一實施例提供的樣本數(shù)據(jù)類別確定方法的流程示意圖;
圖2為本發(fā)明另一實施例提供的樣本數(shù)據(jù)類別確定方法的流程示意圖;
圖3為本發(fā)明實施例提供的樣本數(shù)據(jù)類別確定設備之一的結(jié)構(gòu)示意圖;
圖4為本發(fā)明實施例提供的樣本數(shù)據(jù)類別確定設備之二的結(jié)構(gòu)示意圖。
具體實施方式
為使本發(fā)明要解決的技術(shù)問題、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖及具體實施例進行詳細描述。
圖1為本發(fā)明一實施例提供的樣本數(shù)據(jù)類別確定方法的流程示意圖。如圖1所示,本發(fā)明實施例提供的樣本數(shù)據(jù)類別確定方法包括:
s101、基于使用投影方向向量對樣本數(shù)據(jù)進行投影得到的投影特征值,以及根據(jù)得到的投影特征值對樣本數(shù)據(jù)進行分類得到的分類結(jié)果,構(gòu)造投影目標函數(shù),使得所述投影目標函數(shù)的函數(shù)值越優(yōu),表征分類結(jié)果中每個分類內(nèi)部特征值聚集度越高,且各分類之間聚集度越低。
s102、基于所述投影目標函數(shù)建立分類模型。
s103、將樣本數(shù)據(jù)輸入所述分類模型,采用預設遺傳算法對投影方向向量進行迭代,直到得到的投影方向向量使所述投影目標函數(shù)的函數(shù)值達到最優(yōu)。
s104、將基于所述得到的投影方向向量對樣本數(shù)據(jù)進行分類的分類結(jié)果確定為最終分類結(jié)果。
本發(fā)明實施例提供的樣本數(shù)據(jù)類別確定方法利用投影降維技術(shù)將高維數(shù)據(jù)投影到低維空間,然后利用分類方法對投影到低維空間的投影特征值進行類別分析來構(gòu)造投影指標函數(shù),可以避免在投影目標函數(shù)的構(gòu)建過程中需要人為給定參數(shù)的缺點,使得構(gòu)建的投影目標函數(shù)更加客觀和準確度高。
本發(fā)明的另一個實施例提供了一種樣本數(shù)據(jù)類別確定方法,如圖2所示,包括以下步驟:
s201、對樣本數(shù)據(jù)進行歸一化處理。
在該步驟中,針對樣本數(shù)據(jù)中的不同類型的指標,可選用不同的歸一化處理方法來進行處理。具體地,設第i個樣本的第j個指標值為xij(i=1,2,3,…,n;j=1,2,3,…,m),其中n為被評價的樣本數(shù),m為指標個數(shù),則對該樣本數(shù)據(jù)進行歸一化處理可包括:對于越小越優(yōu)型的負性指標可按照下述公式(1)處理,對越大越優(yōu)型的正性指標可按照下述公式(2)處理:
上述公式(1)和(2)中,xjmax、xjmin分別為第j個指標數(shù)據(jù)的樣本最大值與最小值,xij為歸一化后的樣本指標值。
此外,樣本數(shù)據(jù)可為需要分類以確定各指標等級的數(shù)據(jù),評價標準表可根據(jù)不同行業(yè)或者企業(yè)等根據(jù)不同的目標制定的符合自身發(fā)展策略的評價標準表來生成,該評價標準表會顯示有不同的評價指標,以及不同級別的評價指標值。根據(jù)制定的評價標準表可隨機生成預設數(shù)量的樣本數(shù)據(jù),預設數(shù)量的樣本數(shù)據(jù)可根據(jù)實際情況來確定,本發(fā)明不做特別限定。
s202、使用投影方向向量對樣本數(shù)據(jù)進行投影得到投影特征值。
在該步驟中,所述投影為線性投影,將樣本數(shù)據(jù)的多項指標值投影到一維空間以得到反映樣本優(yōu)劣程度的量化之的投影特征值;構(gòu)成所述投影方向向量的元素表征分類所依據(jù)的對應指標的權(quán)重,即歸一化后的樣本指標值的權(quán)重,用投影特征值zi表示第i個樣本的第j個樣本指標xij的一維投影特征值,設
s203、基于得到的投影特征值,采用預設分類算法對樣本數(shù)據(jù)進行分類,得到各類別分別對應的聚類中心以及每個投影特征值所屬類別。
在該步驟中,可采用k-means算法對樣本數(shù)據(jù)進行分類,但并不局限于此,也可采用其他用于分類的分類算法,例如,貝葉斯算法、決策樹分類算法等。本實施例采用k-means算法對樣本數(shù)據(jù)進行分類的具體步驟包括:
步驟一、隨機選取k個投影特征值分別作為k個類別的聚類中心初始值。
具體地,從上述步驟s202中得到的投影特征值的集合ω={z1,z2,…,zi…,zn}中隨機選取k個投影特征值分別作為k個類別的聚類中心初始值,將k個類別的集合表示成c=(ck,k=1,2,…,k),每個類別ck對應的聚類中心用μk表示。
執(zhí)行如下步驟二~步驟五的聚類步驟:
步驟二、針對各投影特征值中除本次k個聚類中心之外的其余各投影特征值中的每個投影特征值,確定該投影特征值分別與本次k個聚類中心之間的距離。
步驟三、將本次k個聚類中心中與該投影特征值距離最近的聚類中心所屬類別確定為該投影特征值所屬類別。
步驟四、針對得到的每個類別,確定所屬該類別的各投影特征值的平均值,并將該平均值對應的投影特征值確定為下次聚類過程使用的聚類中心。
在該步驟中,所屬該類別的各投影特征值的平均值對應的投影特征值可為將該類別中與該平均值最接近的投影特征值用該平均值進行替換后作為下次聚類過程使用的聚類中心,或者使用與該平均值最接近的投影特征值作為下次聚類過程使用的聚類中心,例如,某類別中的投影特征值為0.3209、0.6043、0.8723、1.4231、1.9814,該類別的各投影特征值的平均值為1.0404,與該平均值最接近的投影特征值為0.8723,則該平均值對應的投影特征值可為1.0404或者0.8723,即將1.0404或者0.8723確定為下次聚類過程使用的聚類中心。
步驟五、判斷該下次聚類過程使用的聚類中心與本次聚類過程使用的聚類中心是否滿足預設條件,若不滿足,則將下次聚類過程使用的聚類中心作為新的本次k個聚類中心,再次執(zhí)行上述聚類步驟,即進入步驟二;若滿足,則將本次聚類過程得到的分類結(jié)果確定為最終分類結(jié)果,本流程結(jié)束。
在該步驟中,預設條件是指下次聚類過程使用的聚類中心與本次聚類過程使用的聚類中心相同或者兩者之間的差值小于指定的閾值,如果滿足預設條件,則整個聚類過程結(jié)束,相應的分類結(jié)果為最終分類結(jié)果,如果不滿足,則進入步驟二繼續(xù)執(zhí)行聚類步驟,直到滿足預設條件為止。
s204、針對每個類別,確定所屬該類別的各投影特征值分別與該類別對應聚類中心之間的距離的第一和值。
在該步驟中,各類別的各投影特征值分別與該類別對應聚類中心之間的距離較佳地可為歐式距離,第一和值表征該類別中各投影特征值與該類別對應聚類中心的距離平方和,可通過下述公式(3)來確定:
其中,j(ck)為類別ck內(nèi)投影特征值分別與該類別對應聚類中心的第一和值。
s205、將步驟s204中為各類別分別確定的第一和值相加得到總和值。
具體地,可通過下述公式(4)來得到總和值j1:
其中,
可見,由步驟s204~步驟s205得到的總和值j1能夠表征各類的類內(nèi)特征值聚集度,且j1越大表征各類的類內(nèi)特征值聚集度越低,反之,表征類內(nèi)特征值聚集度越高。
s206、確定投影運算值分別與各聚類中心之間的距離的第二和值;其中,該投影運算值為對各投影特征值之和進行預設運算處理得到的數(shù)值。
在該步驟中,投影運算值較佳地可以為投影特征值的平均值
可見,由步驟s206得到的第二和值j2能夠表征各類的類間聚集度,且j2越大表征各類的類間聚集度越低,反之,表征類間聚集度越高。
進一步地,步驟s204~步驟s205與步驟s206的執(zhí)行沒有嚴格的先后順序。
s207、基于步驟s205中確定的總和值、步驟s206中確定的第二和值、以及預設運算關(guān)系構(gòu)造投影目標函數(shù),使得該總和值越小且該第二和值越大時,該投影目標函數(shù)的值越優(yōu)。
在本發(fā)明的一個實施例中,基于步驟s205中的總和值、步驟s206中的第二和值、以及預設運算關(guān)系構(gòu)造的投影目標函數(shù)j較佳地可以為該總和值與該第二和值的商即
在本發(fā)明的另一個實施例中,基于步驟s205中的總和值、步驟s206中的第二和值、以及預設運算關(guān)系構(gòu)造的投影目標函數(shù)j可以為該第二和值與該總和值的商即
在本發(fā)明的另一個實施例中,基于總和值、第二和值、以及預設運算關(guān)系構(gòu)造的投影目標函數(shù)j還可以為總和值與第二和值的差即j=j1-j2。在這種情況下,使得總和值越小且第二和值越大時,投影目標函數(shù)的值越小,當投影函數(shù)的值最小時分類達到最優(yōu)。
在本發(fā)明的另一個實施例中,基于總和值、第二和值、以及預設運算關(guān)系構(gòu)造的投影目標函數(shù)j還可以為第二和值與總和值的差即j=j2-j1。在這種情況下,使得總和值越小且第二和值越大時,投影目標函數(shù)的值越大,當投影函數(shù)的值最大時分類達到最優(yōu)。
需要說明的是,本發(fā)明并不局限于上述構(gòu)造的投影目標函數(shù)形式,本領域的技術(shù)人員可根據(jù)實際需要構(gòu)造其他形式的投影目標函數(shù),只要滿足分類結(jié)果中每個分類內(nèi)部特征值聚集度越高,且各分類之間聚集度越低時使得投影目標函數(shù)的函數(shù)值最優(yōu)即可。
s208、基于步驟s207中構(gòu)造的投影目標函數(shù)建立分類模型。
在本發(fā)明的一個實施例中,在構(gòu)建的投影目函數(shù)為總和值與第二和值的商時,則基于該投影目標函數(shù)建立的分類模型可如下式(6)所示:
在本發(fā)明的另一個實施例中,在構(gòu)建的投影目函數(shù)為第二和值與總和值的商時,則基于該投影目標函數(shù)建立的分類模型可如下式(7)所示:
在本發(fā)明的另一個實施例中,在構(gòu)建的投影目函數(shù)為總和值與第二和值的差時,則基于該投影目標函數(shù)建立的分類模型可如下式(8)所示:
在本發(fā)明的另一個實施例中,在構(gòu)建的投影目函數(shù)為第二和值與總和值的差時,則基于該投影目標函數(shù)建立的分類模型可如下式(9)所示:
s209、將樣本數(shù)據(jù)輸入步驟s208中建立的分類模型,采用預設遺傳算法對投影方向向量進行迭代,直到得到的投影方向向量使分類模型中的投影目標函數(shù)的函數(shù)值達到最優(yōu)。
在該步驟中,對于輸入的樣本數(shù)據(jù),可采用加速遺傳算法對投影方向向量進行迭代,直到得到的投影方向向量使投影目標函數(shù)的函數(shù)值達到最優(yōu)。以下以上述公式(6)所表示的分類模型為例,利用加速遺傳算法對投影方向向量進行迭代,直到得到的投影方向向量使所述投影目標函數(shù)的函數(shù)值達到最優(yōu)進行說明,具體包括以下步驟:
第1步:按
第2步:依照z分別計算j1和j2,根據(jù)公式
第3步:以j(a)進行適應度評價,j(a)值越小,則個體的適應度越高,并通過遺傳算法中的選擇交叉和變異操作分別生成第1子代、第2子代和第3子代群體,分別得到相應的新的投影方向向量;
第4步:分別計算第1子代、第2子代和第3子代投影方向向量所對應的j(a),并按從大到小的順序進行排序,根據(jù)j(a)值越小越優(yōu)的原則,選擇前n組作為新的投影方向向量(若不足n組則通過隨機生成的方法補足n組),回到第一步;
第5步:當目標函數(shù)值j(a)不再減小時停止計算,所對應的投影方向向量即為最優(yōu)投影方向向量。
對于上述公式(7)-(9)所表示的分類模型的優(yōu)化計算可參照上述步驟第一步至第五步進行,在此避免贅述,省略對它們的詳細描述。
s210、將基于步驟s209中使分類模型中的投影目標函數(shù)的函數(shù)值達到最優(yōu)的投影方向向量對樣本數(shù)據(jù)進行分類的分類結(jié)果確定為最終分類結(jié)果。
具體地,基于使得構(gòu)造的投影目標函數(shù)的函數(shù)值達到最優(yōu)的投影方向向量將樣本數(shù)據(jù)進行投影降維,將得到的投影特征值利用k-means算法進行分類,將分類的分類結(jié)果作為樣本數(shù)據(jù)的最終分類結(jié)果。
本發(fā)明的又一實施例提供一種樣本數(shù)據(jù)類別確定方法,本實施例與前述實施例相同,不同之處在于,在對投影方向向量進行迭代之前,還包括:根據(jù)預設的對不同指標的偏好需求,確定不同指標對應權(quán)重之間的數(shù)值關(guān)系。
例如,在制定指標權(quán)重時,若決策者對某個指標存在偏好的要求,則會提升該指標的優(yōu)先級,例如,在所有4個指標中,決策者最關(guān)心的是第2項,根據(jù)投影原理,即認為
在本實施例中,在構(gòu)建分類模型時,可將基于偏好需求的不同指標對應權(quán)重之間的數(shù)值關(guān)系作為所述分類模型的約束條件輸入構(gòu)建的分類模型。以構(gòu)建的投影目函數(shù)為總和值與第二和值的商為例,則基于該投影目標函數(shù)建立的添加了約束條件的分類模型可如下式(10)所示:
在本實施例中,可利用加速遺傳算法對上述公式(10)表示的分類模型進行優(yōu)化計算,可包括以下步驟:
第1步:按
第2步:依照z分別計算j1和j2,根據(jù)公式
第3步:以j(a)進行適應度評價,j(a)值越小,則個體的適應度越高,并通過遺傳算法中的選擇交叉和變異操作分別生成第1子代、第2子代和第3子代群體,分別得到相應的新的投影方向向量;
第4步:分別計算第1子代、第2子代和第3子代投影方向向量所對應的j(a),并按從大到小的順序進行排序,根據(jù)j(a)值越小越優(yōu)的原則,選擇前n組作為新的投影方向向量(若不足n組則通過隨機生成的方法補足n組),回到第一步;
第5步:在排除掉ai≤aj的目標函數(shù)值個體前提下,當目標函數(shù)值j(a)不再減小時停止計算,所對應的投影方向向量即為最優(yōu)投影方向向量。
對于在上述公式(7)-(9)所表示的分類模型中加入約束條件以及對加入了約束條件的分類模型的優(yōu)化計算,可參照上述內(nèi)容進行,在此避免贅述,省略對它們的詳細描述。
本發(fā)明的又另一實施例還提供了一種樣本數(shù)據(jù)類別確定方法,本實施例與前述實施例相同,不同之處在于,還包括:針對新的待分類樣本數(shù)據(jù),使用得到的投影方向向量對該待分類樣本數(shù)據(jù)進行投影處理,得到該待分類樣本的投影特征值;確定該待分類樣本的投影特征值分別與最終分類結(jié)果中每個類別的聚類中心之間的距離;將距離最近的聚類中心對應的類別確定為該待分類樣本數(shù)據(jù)所屬類別。
本實施例用于利用通過樣本數(shù)據(jù)確定的最優(yōu)投影方向向量來確定新的待分類樣本數(shù)據(jù)的類別。本實施例中的待分類樣本的投影特征值分別與最終分類結(jié)果中每個類別的聚類中心之間的距離可參照前述實施例描述的第一和值的確定方式來進行確定。
以下,以某水庫某月份的水質(zhì)監(jiān)測測結(jié)果表為例,利用本發(fā)明提供的樣本數(shù)據(jù)類別確定方法對其進行水質(zhì)樣本數(shù)據(jù)的類別進行分類。
該水庫某月份的水質(zhì)監(jiān)測測結(jié)果表如下表1所示:
表1某水庫某月份水質(zhì)監(jiān)測結(jié)果表
首先根據(jù)《地表水環(huán)境質(zhì)量標準》(參照下表2),生成樣本數(shù)據(jù),然后通過本發(fā)明實施例提供的方法,構(gòu)建分類模型,再根據(jù)分類模型得到的投影向量,求出該水庫樣本數(shù)據(jù)的特征值,對比得到該水庫的水質(zhì)級別。
表2某水庫水質(zhì)評價標準表
具體地,在每個水質(zhì)標準級別范圍內(nèi)隨機生成50個樣本,而水庫水質(zhì)評價標準分為5級,于是總共得到了250個水質(zhì)樣本。依據(jù)生成的樣本數(shù)據(jù),建立起該水庫基于投影尋蹤k-means動態(tài)聚類方法的水質(zhì)綜合評價模型,其中n=250,m=5,n=5,n表示分類類別。
在本實施例中,分別從不考慮決策者的偏好和考慮決策者的偏好的角度出發(fā)來對構(gòu)建的水質(zhì)分類模型進行求解。在本實施例中,以構(gòu)建的投影目標函數(shù)為總和值與第二和值的商為例進行說明。
(1)不考慮決策者的偏好
只有約束條件
表3水質(zhì)投影特征值
投影特征值越大,表示水庫水質(zhì)越差。根據(jù)最優(yōu)投影方向向量
(2)考慮決策者的偏好
不同地區(qū)的水庫由于自然環(huán)境及功能不同對水質(zhì)的要求不盡相同,從該水庫近兩年的水質(zhì)連續(xù)監(jiān)測數(shù)據(jù)分析知道,總氮及總磷指標超標的頻率較高,這兩項指標對控制水體富營養(yǎng)化有重要的作用,因此可以假設決策者會提高這兩項指標對其決策的影響力,即需要提高這兩項指標的優(yōu)先級。在模型中通過增加約束的方法來考慮決策者的這種偏好:
表4考慮決策者偏好的水質(zhì)綜合評價分級標準值
根據(jù)最優(yōu)投影方向向量
本領域普通技術(shù)人員可以理解,實現(xiàn)上述實施例的全部和部分步驟可以通過程序指令相關(guān)的硬件來完成,前述的程序可以存儲于一計算設備可讀取存儲介質(zhì)中,該程序在執(zhí)行時,執(zhí)行包括上述方法實施例的步驟,而前述的存儲介質(zhì)可以包括rom、ram、磁碟和光盤等各種可以存儲程序代碼的介質(zhì)。
基于同一發(fā)明構(gòu)思,本發(fā)明實施例還提供了一種樣本數(shù)據(jù)類別確定設備,由于該設備所解決問題的原理與前述樣本數(shù)據(jù)類別確定方法相似,因此該設備的實施可以參見前述方法的實施,重復之處不再贅述。
本實施例提供的一種樣本數(shù)據(jù)類別確定設備之一,如圖3所示,包括:
目標函數(shù)構(gòu)建單元301,用于基于使用投影方向向量對樣本數(shù)據(jù)進行投影得到的投影特征值,以及根據(jù)得到的投影特征值對樣本數(shù)據(jù)進行分類得到的分類結(jié)果,構(gòu)造投影目標函數(shù),使得該投影目標函數(shù)的函數(shù)值越優(yōu),表征分類結(jié)果中每個分類內(nèi)部特征值聚集度越高,且各分類之間聚集度越低;
分類模型建立單元302,用于基于投影目標函數(shù)建立分類模型;
目標函數(shù)優(yōu)化單元303,用于將樣本數(shù)據(jù)輸入所述分類模型,采用預設遺傳算法對投影方向向量進行迭代,直到得到的投影方向向量使投影目標函數(shù)的函數(shù)值達到最優(yōu);
類別確定單元304,用于將基于得到的投影方向向量對樣本數(shù)據(jù)進行分類的分類結(jié)果確定為最終分類結(jié)果。
在本發(fā)明的一個示意性實施例中,所述目標函數(shù)優(yōu)化單元303,還用于在對投影方向向量進行迭代之前,根據(jù)預設的對不同指標的偏好需求,確定不同指標對應權(quán)重之間的數(shù)值關(guān)系;將所述數(shù)值關(guān)系作為所述分類模型的約束條件輸入所述分類模型;其中,所述投影為線性投影;構(gòu)成投影方向向量的元素表征分類所依據(jù)的對應指標的權(quán)重。
在本發(fā)明的一個示意性實施例中,目標函數(shù)構(gòu)建單元301,具體用于使用投影方向向量對樣本數(shù)據(jù)進行投影得到投影特征值;基于得到的投影特征值,采用預設分類算法對樣本數(shù)據(jù)進行分類,得到各類別分別對應的聚類中心以及每個投影特征值所屬類別;針對每個類別,確定所屬該類別的各投影特征值分別與該類別對應聚類中心之間的距離的第一和值;將為各類別分別確定的第一和值相加得到總和值;確定投影運算值分別與各聚類中心之間的距離的第二和值;其中,該投影運算值為對各投影特征值之和進行預設運算處理得到的數(shù)值;基于該總和值、該第二和值、以及預設運算關(guān)系構(gòu)造該投影目標函數(shù),使得該總和值越小且該第二和值和值越大時,該投影目標函數(shù)的值越優(yōu)。
在本發(fā)明的一個示意性實施例中,目標函數(shù)構(gòu)建單元301,具體用于所述投影目標函數(shù)表征為所述總和值與所述第二和值的商,使得所述總和值越小且所述第二和值越大時,所述投影目標函數(shù)的值越小,當所述投影函數(shù)的值最小時達到最優(yōu);或者
所述投影目標函數(shù)表征為所述第二和值與所述總和值的商,使得所述總和值越小且所述第二和值越大時,所述投影目標函數(shù)的值越大,當所述投影函數(shù)的值最大時達到最優(yōu)。
在本發(fā)明的一個示意性實施例中,目標函數(shù)構(gòu)建單元301,具體用于基于得到的投影特征值,采用k-means算法對樣本數(shù)據(jù)進行分類:隨機選取k個投影特征值分別作為k個類別的聚類中心初始值;執(zhí)行如下聚類步驟:針對各投影特征值中除本次k個聚類中心之外的其余各投影特征值中的每個投影特征值,確定該投影特征值分別與本次k個聚類中心之間的距離;以及將本次k個聚類中心中與該投影特征值距離最近的聚類中心所屬類別確定為該投影特征值所屬類別;針對得到的每個類別,確定所屬該類別的各投影特征值的平均值,并將該平均值對應的投影特征值確定為下次聚類過程使用的聚類中心;以及判斷該下次聚類過程使用的聚類中心與本次聚類過程使用的聚類中心是否滿足預設條件,若不滿足,則將下次聚類過程使用的聚類中心作為新的本次k個聚類中心,再次執(zhí)行所述聚類步驟;若滿足,則將本次聚類過程得到的分類結(jié)果確定為最終分類結(jié)果。
在本發(fā)明的一個示意性實施例中,目標函數(shù)構(gòu)建單元301,還用于在對樣本數(shù)據(jù)進行投影之前,對樣本數(shù)據(jù)進行歸一化處理。
在本發(fā)明的一個示意性實施例中,類別確定單元304,還用于針對新的待分類樣本數(shù)據(jù),使用目標函數(shù)優(yōu)化單元303得到的投影方向向量對該待分類樣本數(shù)據(jù)進行投影處理,得到該待分類樣本的投影特征值;確定該待分類樣本的投影特征值分別與該最終分類結(jié)果中每個類別的聚類中心之間的距離;將距離最近的聚類中心對應的類別確定為該待分類樣本數(shù)據(jù)所屬類別。
本發(fā)明實施例還提供了一種樣本數(shù)據(jù)類別確定設備之二,如圖4所示,該設備包括存儲器1000、處理器2000及存儲在該存儲器1000上并可在該處理器2000上運行的計算機程序,其中,上述處理器2000執(zhí)行上述計算機程序時實現(xiàn)上述樣本數(shù)據(jù)類別確定方法的步驟。
具體地,上述存儲器1000和處理器2000能夠為通用的存儲器和處理器,這里不做具體限定,當處理器2000運行存儲器1000存儲的計算機程序時,能夠執(zhí)行上述樣本數(shù)據(jù)類別確定方法,從而解決相關(guān)技術(shù)中對高維數(shù)據(jù)分類不夠客觀以及準確度低的問題。
本發(fā)明實施例還提供了一種計算機可讀存儲介質(zhì),該計算機可讀存儲介質(zhì)上存儲有計算機程序,該計算機程序被處理器運行時執(zhí)行上述樣本數(shù)據(jù)類別確定方法的步驟。
具體地,該存儲介質(zhì)能夠為通用的存儲介質(zhì),如移動磁盤、硬盤等,該存儲介質(zhì)上的計算機程序被運行時,能夠執(zhí)行上述樣本數(shù)據(jù)類別確定方法,從而解決相關(guān)技術(shù)中對高維數(shù)據(jù)分類不夠客觀以及準確度低的問題。
上述各單元的功能可對應于圖1至2所示流程中的相應處理步驟,在此不再贅述。
本發(fā)明實施例所提供的樣本數(shù)據(jù)類別確定設備可以為設備上的特定硬件或者安裝于設備上的軟件或固件等。本發(fā)明實施例所提供的樣本數(shù)據(jù)類別確定設備,其實現(xiàn)原理及產(chǎn)生的技術(shù)效果和前述方法實施例相同,為簡要描述,設備實施例部分未提及之處,可參考前述方法實施例中相應內(nèi)容。所屬領域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,前述描述的系統(tǒng)、設備和模塊的具體工作過程,均可以參考上述方法實施例中的對應過程,在此不再贅述。
在本發(fā)明所提供的實施例中,應該理解到,所揭露設備和方法,可以通過其它的方式實現(xiàn)。以上所描述的設備實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,又例如,多個單元或組件可以結(jié)合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些通信接口,設備或模塊的間接耦合或通信連接,可以是電性,機械或其它的形式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。
另外,在本發(fā)明提供的實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。
所述功能如果以軟件功能單元的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,可以存儲在一個計算機可讀取存儲介質(zhì)中。基于這樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機設備(可以是個人計算機,服務器,或者網(wǎng)絡設備等)執(zhí)行本發(fā)明各個實施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括:u盤、移動硬盤、只讀存儲器(read-onlymemory,rom)、隨機存取存儲器(randomaccessmemory,ram)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
應注意到:相似的標號和字母在下面的附圖中表示類似項,因此,一旦某一項在一個附圖中被定義,則在隨后的附圖中不需要對其進行進一步定義和解釋,此外,術(shù)語“第一”、“第二”、“第三”等僅用于區(qū)分描述,而不能理解為指示或暗示相對重要性。
最后應說明的是:以上所述實施例,僅為本發(fā)明的具體實施方式,用以說明本發(fā)明的技術(shù)方案,而非對其限制,本發(fā)明的保護范圍并不局限于此,盡管參照前述實施例對本發(fā)明進行了詳細的說明,本領域的普通技術(shù)人員應當理解:任何熟悉本技術(shù)領域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),其依然可以對前述實施例所記載的技術(shù)方案進行修改或可輕易想到變化,或者對其中部分技術(shù)特征進行等同替換;而這些修改、變化或者替換,并不使相應技術(shù)方案的本質(zhì)脫離本發(fā)明實施例技術(shù)方案的精神和范圍。都應涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應所述以權(quán)利要求的保護范圍為準。