一種基于隨機(jī)梯度下降算法的k均值大規(guī)模數(shù)據(jù)聚類(lèi)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種聚類(lèi)方法,具體涉及一種基于隨機(jī)梯度下降算法的K均值大規(guī)模 數(shù)據(jù)聚類(lèi)方法。
【背景技術(shù)】
[0002] 近年來(lái)隨著數(shù)據(jù)收集手段和能力的提升,個(gè)人、特別是企業(yè)可以獲取的數(shù)據(jù)量急 劇增加。例如,國(guó)家電網(wǎng)公司在SG186工程建成之后,八大業(yè)務(wù)應(yīng)用平均日增數(shù)據(jù)記錄達(dá) 5000余萬(wàn)條(144G);而隨著智能電網(wǎng)和SG-ERP的建設(shè),公司的數(shù)據(jù)增長(zhǎng)速度還會(huì)再翻幾 番。超大規(guī)模復(fù)合型信息存儲(chǔ)、備份與容災(zāi)都將成為重要的技術(shù)領(lǐng)域,數(shù)據(jù)中心與容災(zāi)中 心的建設(shè)效果將直接影響到企業(yè)整體業(yè)務(wù)的連續(xù)性。如何通過(guò)強(qiáng)大的算法,充分利用電力 生產(chǎn)控制和企業(yè)經(jīng)營(yíng)中產(chǎn)生的歷史數(shù)據(jù)、實(shí)時(shí)數(shù)據(jù)、預(yù)測(cè)數(shù)據(jù)以及不同地域空間、層級(jí)的數(shù) 據(jù),更迅速地完成數(shù)據(jù)的價(jià)值"提純",是電力大數(shù)據(jù)亟待解決的難題。
[0003] 企業(yè)數(shù)據(jù)來(lái)源廣泛,規(guī)模日益增長(zhǎng)。從某種意義上講,對(duì)公司來(lái)說(shuō)有價(jià)值的信息所 占的比重正在下降,如何從海量的信息中找到有用的信息正在變得越來(lái)越困難。對(duì)數(shù)據(jù)進(jìn) 行有效、充分地整理和分析,減少或壓縮無(wú)價(jià)值的數(shù)據(jù),提高有效數(shù)據(jù)的利用價(jià)值,可縮小 數(shù)據(jù)存儲(chǔ)規(guī)模、降低數(shù)據(jù)分析占用的計(jì)算資源,從而直接引導(dǎo)企業(yè)信息資產(chǎn)優(yōu)化。
[0004] 隨著計(jì)算機(jī)技術(shù)和存儲(chǔ)設(shè)備的快速發(fā)展,人們能夠輕易地獲取數(shù)以萬(wàn)計(jì)甚至 百萬(wàn)計(jì)的數(shù)據(jù)。如何從這些數(shù)據(jù)中分析出對(duì)我們有用的或者感興趣的信息,成為當(dāng)前迫切 需要解決的問(wèn)題。傳統(tǒng)的K均值聚類(lèi)算法是數(shù)據(jù)挖掘領(lǐng)域使用的比較多的方法,首先隨機(jī) 初始化K個(gè)聚類(lèi)中心,然后根據(jù)每個(gè)樣本到聚類(lèi)中心的距離將所有的樣本分成K個(gè)不同的 類(lèi)型,最后用每一類(lèi)中所有樣本的平均值來(lái)更新聚類(lèi)中心,整個(gè)過(guò)程不斷迭代,直到收斂。 顯然,每次迭代時(shí)需要計(jì)算所有樣本到K個(gè)聚類(lèi)中心的距離,當(dāng)面對(duì)大規(guī)模數(shù)據(jù)時(shí),其計(jì)算 過(guò)程需要花費(fèi)大量的時(shí)間,大大降低了算法的執(zhí)行效率。
[0005] 目前,大數(shù)據(jù)的處理流程一般可以概括為四步:數(shù)據(jù)采集、導(dǎo)入及預(yù)處理、統(tǒng)計(jì)與 分析、挖掘及決策支持。其中,挖掘與決策支持主要是在現(xiàn)有數(shù)據(jù)上面進(jìn)行基于各種算法的 計(jì)算,從而起到預(yù)測(cè)和決策支持的效果,以此來(lái)實(shí)現(xiàn)一些高級(jí)別數(shù)據(jù)分析的需求,比較典型 的有用于聚類(lèi)的K均值聚類(lèi)算法。然而,傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)面臨的最大問(wèn)題就是實(shí)時(shí)性 差,需要花費(fèi)大量的時(shí)間來(lái)對(duì)數(shù)據(jù)進(jìn)行處理。對(duì)于實(shí)時(shí)變化的數(shù)據(jù)來(lái)說(shuō),很難及時(shí)獲取有用 的信息,從而影響企業(yè)的決策。
【發(fā)明內(nèi)容】
[0006] 為了克服上述現(xiàn)有技術(shù)的不足,本發(fā)明提供一種基于隨機(jī)梯度下降算法的K均值 大規(guī)模數(shù)據(jù)聚類(lèi)方法,大大提高了算法的執(zhí)行效率,達(dá)到了更好的聚類(lèi)效果。能夠更加快速 有效的對(duì)數(shù)據(jù)進(jìn)行挖掘,該方法的提出為處理電力大數(shù)據(jù)以及其它數(shù)據(jù)問(wèn)題提供了一種可 能。
[0007] 為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明采取如下技術(shù)方案:
[0008] 本發(fā)明提供一種基于隨機(jī)梯度下降算法的K均值大規(guī)模數(shù)據(jù)聚類(lèi)方法,所述方法 包括以下步驟:
[0009] 步驟1 :隨機(jī)初始化K個(gè)聚類(lèi)中心;
[0010] 步驟2 :采樣數(shù)據(jù)樣本,并將該數(shù)據(jù)樣本劃分到所屬類(lèi)型;
[0011] 步驟3 :對(duì)目標(biāo)函數(shù)進(jìn)行迭代;
[0012] 步驟4 :重復(fù)步驟1-3,直到聚類(lèi)中心收斂。
[0013] 所述步驟1中,對(duì)于需要處理的K類(lèi)數(shù)據(jù)集,隨機(jī)初始化K個(gè)聚類(lèi)中心Wl,W2,…, wk,…,wKe R d,其中,R表示實(shí)數(shù),d表示維度,于是Rd表示d維實(shí)數(shù),w k表示第k類(lèi)數(shù)據(jù)集 對(duì)應(yīng)的聚類(lèi)中心。
[0014] 所述步驟1中,將每個(gè)聚類(lèi)中心中數(shù)據(jù)樣本的個(gè)數(shù)I^n2,…,!^,···,η# N初始化 為0,其中N表示整數(shù),nk表示第k類(lèi)數(shù)據(jù)集對(duì)應(yīng)的數(shù)據(jù)樣本個(gè)數(shù)。
[0015] 所述步驟2中,隨機(jī)采樣數(shù)據(jù)樣本Z e Rd,并根據(jù)最小距離對(duì)應(yīng)的聚類(lèi)中心將數(shù)據(jù) 樣本z劃分到所屬類(lèi)型。
[0016] 最小距離對(duì)應(yīng)的聚類(lèi)中心中數(shù)據(jù)集的代號(hào)用k#表示,有:
【主權(quán)項(xiàng)】
1. 一種基于隨機(jī)梯度下降算法的K均值大規(guī)模數(shù)據(jù)聚類(lèi)方法,其特征在于:所述方法 包括W下步驟: 步驟1 ;隨機(jī)初始化K個(gè)聚類(lèi)中也; 步驟2 ;采樣數(shù)據(jù)樣本,并將該數(shù)據(jù)樣本劃分到所屬類(lèi)型; 步驟3;對(duì)目標(biāo)函數(shù)進(jìn)行迭代; 步驟4 ;重復(fù)步驟1-3,直到聚類(lèi)中也收斂。
2. 根據(jù)權(quán)利要求1所述的基于隨機(jī)梯度下降算法的K均值大規(guī)模數(shù)據(jù)聚類(lèi)方法,其特 征在于:所述步驟1中,對(duì)于需要處理的K類(lèi)數(shù)據(jù)集,隨機(jī)初始化K個(gè)聚類(lèi)中也wi,W2,…, Wk,…,WkE R d,其中,R表示實(shí)數(shù),d表示維度,于是Rd表示d維實(shí)數(shù),W k表示第k類(lèi)數(shù)據(jù)集 對(duì)應(yīng)的聚類(lèi)中也。
3. 根據(jù)權(quán)利要求2所述的基于隨機(jī)梯度下降算法的K均值大規(guī)模數(shù)據(jù)聚類(lèi)方法,其特 征在于:所述步驟1中,將每個(gè)聚類(lèi)中也中數(shù)據(jù)樣本的個(gè)數(shù)n。叫,…,rik,N初始化 為0,其中N表示整數(shù),rik表示第k類(lèi)數(shù)據(jù)集對(duì)應(yīng)的數(shù)據(jù)樣本個(gè)數(shù)。
4. 根據(jù)權(quán)利要求3所述的基于隨機(jī)梯度下降算法的K均值大規(guī)模數(shù)據(jù)聚類(lèi)方法,其特 征在于:所述步驟2中,隨機(jī)采樣數(shù)據(jù)樣本Z G Rd,并根據(jù)最小距離對(duì)應(yīng)的聚類(lèi)中也將數(shù)據(jù) 樣本Z劃分到所屬類(lèi)型。
5. 根據(jù)權(quán)利要求4所述的基于隨機(jī)梯度下降算法的K均值大規(guī)模數(shù)據(jù)聚類(lèi)方法,其特 征在于:最小距離對(duì)應(yīng)的聚類(lèi)中也中數(shù)據(jù)集的代號(hào)用表示,有:
其中,(z-Wk)2表示數(shù)據(jù)樣本Z到Wk的距離。
6. 根據(jù)權(quán)利要求4所述的基于隨機(jī)梯度下降算法的K均值大規(guī)模數(shù)據(jù)聚類(lèi)方法,其特 征在于:所述步驟3具體包括W下步驟: 步驟3-1 ;設(shè)目標(biāo)函數(shù)為,有:
Qkme悲關(guān)于的導(dǎo)數(shù)用化麵。表示,有:
其中,?為第類(lèi)數(shù)據(jù)集對(duì)應(yīng)的聚類(lèi)中也; 步驟3-2 ;設(shè)表示第類(lèi)數(shù)據(jù)集對(duì)應(yīng)的數(shù)據(jù)樣本個(gè)數(shù),采用 <- 和 +1 分別更新 w,.和/V。
7. 根據(jù)權(quán)利要求6所述的基于隨機(jī)梯度下降算法的K均值大規(guī)模數(shù)據(jù)聚類(lèi)方法,其特 征在于:所述步驟4中,重復(fù)執(zhí)行步驟1-3,若滿(mǎn)足前后兩次迭代的聚類(lèi)中也距離闊值小于 1〇-6,則表明聚類(lèi)中也Wi,W2,…,Wk,…,Wk收斂。
【專(zhuān)利摘要】本發(fā)明提供一種基于隨機(jī)梯度下降算法的K均值大規(guī)模數(shù)據(jù)聚類(lèi)方法,包括以下步驟:隨機(jī)初始化K個(gè)聚類(lèi)中心;采樣數(shù)據(jù)樣本,并將該數(shù)據(jù)樣本劃分到所屬類(lèi)型;對(duì)目標(biāo)函數(shù)進(jìn)行迭代;重復(fù)步驟1-3,使得聚類(lèi)中心收斂。本發(fā)明提供的基于隨機(jī)梯度下降算法的K均值大規(guī)模數(shù)據(jù)聚類(lèi)方法,大大提高了算法的執(zhí)行效率,達(dá)到了更好的聚類(lèi)效果。能夠更加快速有效的對(duì)數(shù)據(jù)進(jìn)行挖掘,該方法的提出為處理電力大數(shù)據(jù)以及其它數(shù)據(jù)問(wèn)題提供了一種可能。
【IPC分類(lèi)】G06F17-30
【公開(kāi)號(hào)】CN104598565
【申請(qǐng)?zhí)枴緾N201510011974
【發(fā)明人】韓海韻, 丁杰, 戴江鵬, 周愛(ài)華, 孫玉寶
【申請(qǐng)人】國(guó)家電網(wǎng)公司, 中國(guó)電力科學(xué)研究院
【公開(kāi)日】2015年5月6日
【申請(qǐng)日】2015年1月9日