本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種人群聚類的方法及裝置。
背景技術(shù):
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,人們?cè)诰W(wǎng)絡(luò)上留下了各種操作痕跡,例如人們會(huì)根據(jù)自己的需要在網(wǎng)絡(luò)上購(gòu)買商品,也會(huì)點(diǎn)擊網(wǎng)頁中的廣告并購(gòu)買商品等等,這些所有的操作痕跡,包括用戶留下的個(gè)人信息如年齡信息、性別信息等等,都會(huì)被搜錄到相應(yīng)的大數(shù)據(jù)中,以對(duì)人群的消費(fèi)傾向進(jìn)行分析。
目前,通常使用聚類算法對(duì)這類大數(shù)據(jù)進(jìn)行分析來獲得人群的消費(fèi)傾向,從而為企業(yè)的產(chǎn)品生產(chǎn)提供數(shù)據(jù)支持,例如,在對(duì)樣本集S{S1,S2,S3…Sn}中的樣本進(jìn)行聚類時(shí),采用如下第一種方案:在K次迭代中,對(duì)于任意一個(gè)樣本Si,求其到聚類中心集M{M1,M2…Mj…Mk}中各個(gè)聚類中心點(diǎn)的距離,將該Si劃分到距離最近的聚類中心點(diǎn)所在的類集中;利用均值的方法,更新聚類中心集M中的聚類中心點(diǎn);計(jì)算本次迭代產(chǎn)生的類集與上次迭代產(chǎn)生的類集之間的差值,直到該差值滿足預(yù)置誤差條件為止。
此方法在進(jìn)行計(jì)算聚類中心點(diǎn)的聚類集時(shí),需要將樣本集S中的每個(gè)樣本分別與聚類中心集M中的每個(gè)聚類中心點(diǎn)進(jìn)行距離計(jì)算,即需要進(jìn)行n*k次點(diǎn)對(duì)點(diǎn)的距離計(jì)算,計(jì)算量較大,耗時(shí)較長(zhǎng)。
為了解決上述第一種方案存在的計(jì)算量大,耗時(shí)較長(zhǎng)的問題目前現(xiàn)有技術(shù)中還提供了第二種方案,該方案相對(duì)于第一種方案將Si劃分到距離最近的聚類中心點(diǎn)所在類集的操作過程進(jìn)行了改進(jìn),改進(jìn)的方案具體如下:計(jì)算聚類中心集M{M1,M2…Mj…Mk}中任意兩個(gè)聚類中心點(diǎn)之間的距離,并保存;通過三角形不等式原理,即計(jì)算Luj與2Lui之間的距離,其中,Luj為聚類中心 點(diǎn)Mu與聚類中心點(diǎn)Mj之間的距離,其中,聚類中心點(diǎn)Mu為Si與當(dāng)前距離Si最近的聚類中心點(diǎn),聚類中心點(diǎn)Mj為當(dāng)前遍歷過程中待遍歷的的聚類中心點(diǎn),Lui為Si與聚類中心點(diǎn)Mu之間的距離;若Luj大于或者等于2Liu,忽略掉聚類中心點(diǎn)Mj,并繼續(xù)遍歷下一個(gè)聚類中心點(diǎn),或者,遍歷完成后,將該Si劃分到Mu所在的類集中;若Luj小于2Liu,則計(jì)算Si與Mj之間的距離Lij,其中,Lij為樣本點(diǎn)Si與聚類中心點(diǎn)Mj之間的距離;當(dāng)Lij小于Lui時(shí),設(shè)置Lui=Lij,Mu=Mj,繼續(xù)遍歷下一個(gè)聚類中心點(diǎn),或者,遍歷完成后,將該Si劃分到Mu所在的類集中。
通過上述兩種方案,即能夠通過對(duì)大數(shù)據(jù)進(jìn)行聚類而獲得大數(shù)據(jù)中的聚類信息,但是,在實(shí)施第二種方案時(shí),發(fā)明人發(fā)現(xiàn)其存在如下問題:在判斷某個(gè)聚類中心點(diǎn)是否為樣本的聚類中心點(diǎn)時(shí),在確定出樣本Si與聚類中心集M中最近的聚類中心點(diǎn)Mu之后,基于三角形不等式原理,將聚類中心集M中不可能是Si的聚類中心點(diǎn)進(jìn)行丟棄,無需計(jì)算丟棄的聚類中心點(diǎn)與樣本Si之間的距離,能夠在一定程度上降低計(jì)算量,縮短計(jì)算時(shí)長(zhǎng);但是,對(duì)于一些聚類中心點(diǎn)較多,聚類更精細(xì)的需求而言,由于每次迭代過程均需要計(jì)算聚類中心點(diǎn)兩兩之間的距離,導(dǎo)致計(jì)算量較大,耗時(shí)較長(zhǎng)。
因此,現(xiàn)有技術(shù)中聚類算法存在因每次迭代過程均需要計(jì)算聚類中心點(diǎn)兩兩之間的距離而導(dǎo)致計(jì)算量較大,耗時(shí)較長(zhǎng)的技術(shù)問題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例通過提供一種人群聚類的方法及裝置,用以解決現(xiàn)有技術(shù)中聚類算法存在的因每次迭代過程均需要計(jì)算聚類中心點(diǎn)兩兩之間的距離而導(dǎo)致計(jì)算量較大,耗時(shí)較長(zhǎng)的技術(shù)問題。
本發(fā)明實(shí)施例第一方面提供了一種人群聚類的方法,其特征在于,包括:
獲得針對(duì)人群的樣本集以及所述樣本集的聚類中心集,所述樣本集中每個(gè)樣本點(diǎn)包括人群中對(duì)應(yīng)的個(gè)人的描述信息,所述描述信息至少包括年齡信息、 性別信息、愛好信息和消費(fèi)金額信息;
針對(duì)所述樣本集中的每一個(gè)樣本點(diǎn),依次遍歷聚類中心集中的每一個(gè)聚類中心點(diǎn),確定所述每一個(gè)樣本點(diǎn)與所述聚類中心集中距離最近的聚類中心點(diǎn),并將所述每一個(gè)樣本點(diǎn)劃分到所述聚類中心集中距離最近的聚類中心點(diǎn)對(duì)應(yīng)的集合中,獲得所述聚類中心集中的每一個(gè)聚類中心點(diǎn)對(duì)應(yīng)的聚類集;
獲得所述聚類集中樣本點(diǎn)的平均值,并根據(jù)所述平均值更新所述聚類中心集;
根據(jù)第一聚類中心點(diǎn)上一次更新前后的自身差值獲取第一距離的預(yù)測(cè)值;其中,所述第一距離為需要進(jìn)行數(shù)據(jù)聚類的樣本點(diǎn)與所述第一聚類中心點(diǎn)之間的距離,所述第一聚類中心點(diǎn)為聚類距離遍歷中與所述樣本點(diǎn)距離最近的聚類中心點(diǎn);
根據(jù)第二距離、所述第一聚類中心點(diǎn)上一次更新前后的自身差值以及第二聚類中心點(diǎn)上一次更新前后的自身差值獲取第三距離的預(yù)測(cè)值,其中,所述第二距離為上一次聚類距離遍歷過程中所述第一聚類中心點(diǎn)與第二聚類中心點(diǎn)之間的距離,所述第二聚類中心點(diǎn)為當(dāng)前聚類距離遍歷過程中待遍歷的聚類中心點(diǎn);
按照三角形不等式規(guī)則將所述第一距離的預(yù)測(cè)值與所述第三距離的預(yù)測(cè)值進(jìn)行比較;
若所述第三距離的預(yù)測(cè)值大于或者等于兩倍的所述第一距離的預(yù)測(cè)值,則將所述第二聚類中心點(diǎn)丟棄,以便進(jìn)行聚類距離遍歷時(shí),不再計(jì)算所述樣本點(diǎn)與所述第二聚類中心點(diǎn)之間的距離以及所述第二聚類中心點(diǎn)與其他待遍歷聚類中心點(diǎn)之間的距離;
基于已丟棄所述第二聚類中心點(diǎn)的聚類中心集進(jìn)行所述距離遍歷,獲得所述樣本集的聚類結(jié)果,所述聚類結(jié)果包括以所述年齡信息、所述性別信息、所述愛好信息和所述消費(fèi)金額信息為基準(zhǔn)維度對(duì)所述人群中的每一個(gè)人進(jìn)行聚類后的聚類信息。
可選地,在所述獲得所述樣本集的聚類結(jié)果之后,所述方法還包括:
對(duì)所述聚類結(jié)果進(jìn)行分析,以對(duì)所述聚類方法進(jìn)行評(píng)價(jià)。
可選地,所述對(duì)所述聚類結(jié)果進(jìn)行分析,以對(duì)所述聚類方法進(jìn)行評(píng)價(jià),具體包括:
通過熵值驗(yàn)證算法或純度驗(yàn)證算法對(duì)所述聚類結(jié)果進(jìn)行分析;
在所述熵值驗(yàn)證算法獲得的所述聚類結(jié)果的熵值小于第一預(yù)設(shè)值時(shí),確定所述聚類方法滿足預(yù)設(shè)需求;或者
在所述純度驗(yàn)證算法獲得的所述聚類結(jié)果的純度大于第二預(yù)設(shè)值時(shí),確定所述聚類方法滿足所述預(yù)設(shè)需求。
可選地,所述方法還包括:
若所述第三距離的預(yù)測(cè)值小于兩倍的所述第一距離的預(yù)測(cè)值,則根據(jù)上一次更新后的所述第一聚類中心點(diǎn)對(duì)所述第二聚類中心點(diǎn)進(jìn)行數(shù)據(jù)聚類處理。
可選地,所述根據(jù)上一次更新后的所述第一聚類中心點(diǎn)對(duì)所述第二聚類中心點(diǎn)進(jìn)行數(shù)據(jù)聚類處理,包括:
計(jì)算所述上一次更新后的所述第一聚類中心點(diǎn)與所述樣本點(diǎn)之間的距離,得到第一距離的實(shí)際值;
按照三角形不等式規(guī)則將所述第一距離的實(shí)際值與所述第三距離的預(yù)測(cè)值進(jìn)行比較;
若所述第三距離的預(yù)測(cè)值大于或者等于兩倍的所述第一距離的實(shí)際值,則將所述第二聚類中心點(diǎn)丟棄,以便進(jìn)行聚類距離遍歷時(shí),不再計(jì)算所述樣本點(diǎn)與所述第二聚類中心點(diǎn)之間的距離以及所述第二聚類中心點(diǎn)與其他待遍歷聚類中心點(diǎn)之間的距離;
若所述第三距離的預(yù)測(cè)值小于兩倍的所述第一距離的實(shí)際值,則計(jì)算第四距離,并確定所述第四距離是否小于所述第一距離的實(shí)際值;其中,所述第四距離為所述樣本點(diǎn)與所述第二聚類中心點(diǎn)的距離;
若所述第四距離小于所述第一距離的實(shí)際值,則將所述第二聚類中心點(diǎn)確 定為當(dāng)前距離遍歷過程中與所述樣本點(diǎn)距離最近的聚類中心點(diǎn);
若所述第四距離大于或者等于所述第一距離的實(shí)際值,則將所述上一次更新后的所述第一聚類中心點(diǎn)確定為當(dāng)前距離遍歷過程中與所述樣本點(diǎn)距離最近的聚類中心點(diǎn)。
可選地,所述將所述第二聚類中心點(diǎn)確定為當(dāng)前距離遍歷過程中與所述樣本點(diǎn)距離最近的聚類中心點(diǎn),包括:
若所述第四距離小于所述第一距離的實(shí)際值,并且當(dāng)前聚類距離遍歷完成,則將所述第二聚類中心點(diǎn)賦值給所述上一次更新后的所述第一聚類中心點(diǎn),以及將所述第四距離賦值給所述第一距離的實(shí)際值;
若所述第四距離小于所述第一距離的實(shí)際值,并且當(dāng)前聚類距離遍歷未完成,則將所述第二聚類中心點(diǎn)賦值給所述上一次更新后的所述第一聚類中心點(diǎn),以及將所述第四距離賦值給所述第一距離的實(shí)際值,并基于賦值后的第一聚類中心點(diǎn)及賦值后的第一距離的實(shí)際值繼續(xù)遍歷所述當(dāng)前聚類中心集中的下一個(gè)聚類中心點(diǎn)。
可選地,將所述上一次更新后的所述第一聚類中心點(diǎn)確定為當(dāng)前距離遍歷過程中與所述樣本點(diǎn)距離最近的聚類中心點(diǎn),包括:
若所述第四距離大于或者等于所述第一距離的實(shí)際值,并且當(dāng)前聚類距離遍歷完成,則將所述上一次更新后的所述第一聚類中心點(diǎn)確定為當(dāng)前距離遍歷過程中與所述樣本點(diǎn)距離最近的聚類中心點(diǎn);
若所述第四距離大于或者等于所述第一距離的實(shí)際值,并且當(dāng)前聚類距離遍歷未完成,則基于所述上一次更新后的所述第一聚類中心點(diǎn)以及所述第一距離的實(shí)際值繼續(xù)遍歷所述當(dāng)前聚類中心集中的下一個(gè)聚類中心點(diǎn)。
可選地,在計(jì)算第四距離之前,所述方法還包括:
計(jì)算第五距離,所述第五距離為所述第二聚類中心點(diǎn)與所述上一次更新后的所述第一聚類中心點(diǎn)之間的距離;
按照三角形不等式規(guī)則將所述第一距離的實(shí)際值與所述第五距離進(jìn)行比 較;
若所述第五距離大于或者等于兩倍的所述第一距離的實(shí)際值,則將所述第二聚類中心點(diǎn)丟棄,以便進(jìn)行聚類遍歷時(shí),不再計(jì)算所述樣本點(diǎn)與所述第二聚類中心點(diǎn)之間的距離以及所述第二聚類中心點(diǎn)與其他待遍歷聚類中心點(diǎn)之間的距離;
所述計(jì)算第四距離,包括:
若所述第五距離小于兩倍的所述第一距離的實(shí)際值,則執(zhí)行所述計(jì)算所述第四距離。
可選地,所述根據(jù)第二距離、所述第一聚類中心點(diǎn)上一次更新前后的自身差值以及第二聚類中心點(diǎn)上一次更新前后的自身差值獲取第三距離的預(yù)測(cè)值,包括:
獲取所述第一聚類中心點(diǎn)上一次更新前對(duì)應(yīng)的值及更新后對(duì)應(yīng)的值,并計(jì)算所述第一聚類中心點(diǎn)更新前后之間的第一差值;
獲取所述第二聚類中心點(diǎn)上一次更新前對(duì)應(yīng)的值及更新后對(duì)應(yīng)的值,并計(jì)算所述第二聚類中心點(diǎn)更新前后之間的第二差值;
將所述第二距離與所述第一差值及所述第二差值進(jìn)行減法計(jì)算,獲得所述第三距離的預(yù)測(cè)值。
可選地,在將所述第二聚類中心點(diǎn)丟棄之后,在所述基于已丟棄所述第二聚類中心點(diǎn)的聚類中心集進(jìn)行所述距離遍歷,獲得所述樣本集的聚類結(jié)果之前,所述方法還包括:
判斷所述當(dāng)前聚類距離遍歷是否完成;
若未遍歷完成,則繼續(xù)遍歷所述當(dāng)前聚類中心集中的下一個(gè)聚類中心點(diǎn);
若遍歷完成,則將上一次更新后的第一聚類中心點(diǎn)確定為當(dāng)前距離遍歷過程中與所述樣本點(diǎn)距離最近的聚類中心點(diǎn)。
本發(fā)明實(shí)施例第二方面還提供一種人群聚類的裝置,包括:
獲得單元,用于獲得針對(duì)人群的樣本集以及所述樣本集的聚類中心集,所 述樣本集中每個(gè)樣本點(diǎn)包括人群中對(duì)應(yīng)的個(gè)人的描述信息,所述描述信息至少包括年齡信息、性別信息、愛好信息和消費(fèi)金額信息;
聚類集獲得單元,用于針對(duì)所述樣本集中的每一個(gè)樣本點(diǎn),依次遍歷聚類中心集中的每一個(gè)聚類中心點(diǎn),確定所述每一個(gè)樣本點(diǎn)與所述聚類中心集中距離最近的聚類中心點(diǎn),并將所述每一個(gè)樣本點(diǎn)劃分到所述聚類中心集中距離最近的聚類中心點(diǎn)對(duì)應(yīng)的集合中,獲得所述聚類中心集中的每一個(gè)聚類中心點(diǎn)對(duì)應(yīng)的聚類集;
平均值獲得單元,用于獲得所述聚類集中樣本點(diǎn)的平均值,并根據(jù)所述平均值更新所述聚類中心集;
第一獲取單元,用于根據(jù)第一聚類中心點(diǎn)上一次更新前后的自身差值獲取第一距離的預(yù)測(cè)值;其中,所述第一距離為需要進(jìn)行數(shù)據(jù)聚類的樣本點(diǎn)與所述第一聚類中心點(diǎn)之間的距離,所述第一聚類中心點(diǎn)為聚類距離遍歷中與所述樣本點(diǎn)距離最近的聚類中心點(diǎn);
第二獲取單元,用于根據(jù)第二距離、所述第一聚類中心點(diǎn)上一次更新前后的自身差值以及第二聚類中心點(diǎn)上一次更新前后的自身差值獲取第三距離的預(yù)測(cè)值,其中,所述第二距離為上一次聚類距離遍歷過程中所述第一聚類中心點(diǎn)與第二聚類中心點(diǎn)之間的距離,所述第二聚類中心點(diǎn)為當(dāng)前聚類距離遍歷過程中待遍歷的聚類中心點(diǎn);
比較單元,用于按照三角形不等式規(guī)則將所述第一獲取單元獲取的所述第一距離的預(yù)測(cè)值與所述第二獲取單元獲取的所述第三距離的預(yù)測(cè)值進(jìn)行比較;
丟棄單元,用于當(dāng)所述比較單元比較的所述第三距離的預(yù)測(cè)值大于或者等于兩倍的所述第一距離的預(yù)測(cè)值時(shí),將所述第二聚類中心點(diǎn)丟棄,以便進(jìn)行聚類距離遍歷時(shí),不再計(jì)算所述樣本點(diǎn)與所述第二聚類中心點(diǎn)之間的距離以及所述第二聚類中心點(diǎn)與其他待遍歷聚類中心點(diǎn)之間的距離;
聚類結(jié)果獲得單元,用于基于已丟棄所述第二聚類中心點(diǎn)的聚類中心集進(jìn)行所述距離遍歷,獲得所述樣本集的聚類結(jié)果,所述聚類結(jié)果包括以所述年齡 信息、所述性別信息、所述愛好信息和所述消費(fèi)金額信息為基準(zhǔn)維度對(duì)所述人群中的每一個(gè)人進(jìn)行聚類后的聚類信息。
可選地,所述裝置還包括:
分析單元,用于在所述聚類結(jié)果獲得單元獲得所述聚類結(jié)果之后,對(duì)對(duì)所述聚類結(jié)果進(jìn)行分析,以對(duì)所述聚類方法進(jìn)行評(píng)價(jià)。
可選地,所述分析單元具體用于通過熵值驗(yàn)證算法或純度驗(yàn)證算法對(duì)所述聚類結(jié)果進(jìn)行分析,其中,在所述熵值驗(yàn)證算法獲得的所述聚類結(jié)果的熵值小于第一預(yù)設(shè)值時(shí),確定所述聚類方法滿足預(yù)設(shè)需求,或者在所述純度驗(yàn)證算法獲得的所述聚類結(jié)果的純度大于第二預(yù)設(shè)值時(shí),確定所述聚類方法滿足所述預(yù)設(shè)需求。
可選地,所述裝置還包括:
處理單元,用于當(dāng)所述比較單元比較的所述第三距離的預(yù)測(cè)值小于兩倍的所述第一距離的預(yù)測(cè)值時(shí),根據(jù)上一次更新后的所述第一聚類中心點(diǎn)對(duì)所述第二聚類中心點(diǎn)進(jìn)行數(shù)據(jù)聚類處理。
可選地,所述處理單元具體用于:計(jì)算所述上一次更新后的所述第一聚類中心點(diǎn)與所述樣本點(diǎn)之間的距離,得到第一距離的實(shí)際值;
按照三角形不等式規(guī)則將所述第一計(jì)算模塊計(jì)算的所述第一距離的實(shí)際值與所述第三距離的預(yù)測(cè)值進(jìn)行比較;
當(dāng)所述第一比較模塊比較的所述第三距離的預(yù)測(cè)值大于或者等于兩倍的所述第一距離的實(shí)際值時(shí),將所述第二聚類中心點(diǎn)丟棄,以便進(jìn)行聚類距離遍歷時(shí),不再計(jì)算所述樣本點(diǎn)與所述第二聚類中心點(diǎn)之間的距離以及所述第二聚類中心點(diǎn)與其他待遍歷聚類中心點(diǎn)之間的距離;
當(dāng)所述第一比較模塊比較的所述第三距離的預(yù)測(cè)值小于兩倍的所述第一距離的實(shí)際值,則計(jì)算第四距離;其中,所述第四距離為所述樣本點(diǎn)與所述第二聚類中心點(diǎn)的距離;
確定所述第二計(jì)算模塊計(jì)算的所述第四距離是否小于所述第一距離的實(shí) 際值;
當(dāng)所述第一確定模塊確定所述第四距離小于所述第一距離的實(shí)際值時(shí),將所述第二聚類中心點(diǎn)確定為當(dāng)前距離遍歷過程中與所述樣本點(diǎn)距離最近的聚類中心點(diǎn);
當(dāng)所述第一確定模塊確定所述第四距離大于或者等于所述第一距離的實(shí)際值時(shí),將所述上一次更新后的所述第一聚類中心點(diǎn)確定為當(dāng)前距離遍歷過程中與所述樣本點(diǎn)距離最近的聚類中心點(diǎn)。
可選地,所述計(jì)算模塊具體還用于:
當(dāng)所述第四距離小于所述第一距離的實(shí)際值,并且當(dāng)前聚類距離遍歷完成時(shí),將所述第二聚類中心點(diǎn)賦值給所述上一次更新后的所述第一聚類中心點(diǎn),以及將所述第四距離賦值給所述第一距離的實(shí)際值;
當(dāng)所述第四距離小于所述第一距離的實(shí)際值,并且當(dāng)前聚類距離遍歷未完成時(shí),將所述第二聚類中心點(diǎn)賦值給所述上一次更新后的所述第一聚類中心點(diǎn),以及將所述第四距離賦值給所述第一距離的實(shí)際值,并基于賦值后的第一聚類中心點(diǎn)及賦值后的第一距離的實(shí)際值繼續(xù)遍歷所述當(dāng)前聚類中心集中的下一個(gè)聚類中心點(diǎn)。
可選地,所述計(jì)算模塊具體還用于:
當(dāng)所述第四距離大于或者等于所述第一距離的實(shí)際值,并且當(dāng)前聚類距離遍歷完成時(shí),將所述上一次更新后的所述第一聚類中心點(diǎn)確定為當(dāng)前距離遍歷過程中與所述樣本點(diǎn)距離最近的聚類中心點(diǎn);
當(dāng)所述第四距離大于或者等于所述第一距離的實(shí)際值,并且當(dāng)前聚類距離遍歷未完成,則基于所述上一次更新后的所述第一聚類中心點(diǎn)以及所述第一距離的實(shí)際值繼續(xù)遍歷所述當(dāng)前聚類中心集中的下一個(gè)聚類中心點(diǎn)。
可選地,所述處理單元具體還用于:
在所述第二計(jì)算模塊計(jì)算的所述第四距離之前,計(jì)算第五距離,所述第五距離為所述第二聚類中心點(diǎn)與所述上一次更新后的所述第一聚類中心點(diǎn)之間 的距離;
按照三角形不等式規(guī)則將所述第一計(jì)算模塊計(jì)算的所述第一距離的實(shí)際值與所述第三計(jì)算模塊計(jì)算的所述第五距離進(jìn)行比較;
當(dāng)所述第二比較模塊比較的所述第五距離大于或者等于兩倍的所述第一距離的實(shí)際值,則將所述第二聚類中心點(diǎn)丟棄,以便進(jìn)行聚類遍歷時(shí),不再計(jì)算所述樣本點(diǎn)與所述第二聚類中心點(diǎn)之間的距離以及所述第二聚類中心點(diǎn)與其他待遍歷聚類中心點(diǎn)之間的距離;
當(dāng)所述第二比較模塊比較的所述第五距離小于兩倍的所述第一距離的實(shí)際值,則執(zhí)行所述計(jì)算所述第四距離。
可選地,所述第二獲取單元,具體用于:
獲取所述第一聚類中心點(diǎn)上一次更新前對(duì)應(yīng)的值及更新后對(duì)應(yīng)的值,并計(jì)算所述第一聚類中心點(diǎn)更新前后之間的第一差值;
獲取所述第二聚類中心點(diǎn)上一次更新前對(duì)應(yīng)的值及更新后對(duì)應(yīng)的值,并計(jì)算所述第二聚類中心點(diǎn)更新前后之間的第二差值;
所述第二距離與所述第一處理模塊計(jì)算的所述第一差值及所述第二處理模塊計(jì)算的所述第二差值進(jìn)行減法計(jì)算,獲得所述第三距離的預(yù)測(cè)值。
可選地,所述裝置還包括:
判斷單元,在所述丟棄單元將所述第二聚類中心點(diǎn)丟棄之后,判斷所述當(dāng)前聚類距離遍歷是否完成;
遍歷單元,當(dāng)所述判斷單元判斷未遍歷完成時(shí),繼續(xù)遍歷所述當(dāng)前聚類中心集中的下一個(gè)聚類中心點(diǎn);
確定單元,用于當(dāng)所述判斷單元判斷遍歷完成時(shí),將上一次更新后的第一聚類中心點(diǎn)確定為當(dāng)前距離遍歷過程中與所述樣本點(diǎn)距離最近的聚類中心點(diǎn)。
本發(fā)明實(shí)施例中提供的一個(gè)或多個(gè)技術(shù)方案,至少具有如下技術(shù)效果或優(yōu)點(diǎn):
1、本發(fā)明實(shí)施例提供的人群聚類的方法以及裝置,所獲得的聚類結(jié)果會(huì) 包括以年齡信息、性別信息、愛好信息和消費(fèi)金額信息為基準(zhǔn)維度對(duì)人群中的每一個(gè)人進(jìn)行聚類后的聚類信息,從而為企業(yè)制定產(chǎn)品生產(chǎn)方向提供了數(shù)據(jù)支持。
2、在當(dāng)前聚類距離遍歷過程中,基于上一次更新的聚類中心集,根據(jù)第一聚類中心點(diǎn)上次更新前后的自身差值獲取第一距離的預(yù)測(cè)值,該第一距離的預(yù)測(cè)值為需要進(jìn)行數(shù)據(jù)聚類的樣本點(diǎn)與該樣本點(diǎn)距離最近的聚類中心點(diǎn)之間的距離,根據(jù)第二距離、第一聚類中心點(diǎn)上一次更新前后的自身差值以及第二聚類中心點(diǎn)上一次更新前后的自身差值獲取第三距離的預(yù)測(cè)值,第二距離為上一次聚類距離遍歷過程中第一聚類中心點(diǎn)與第二聚類中心點(diǎn)之間的距離,第二聚類中心點(diǎn)為當(dāng)前聚類距離遍歷過程中待遍歷的聚類中心點(diǎn),將第三距離的預(yù)測(cè)值與第一距離的預(yù)測(cè)值進(jìn)行比較,若第三距離的預(yù)測(cè)值大于或者等于兩倍的第一距離的預(yù)測(cè)值時(shí),將所述第二聚類中心點(diǎn)丟棄。本發(fā)明中,基于三角形不等式規(guī)則,將聚類中心集中的第三距離的預(yù)測(cè)值大于或者等于兩倍的第一距離的預(yù)測(cè)值對(duì)應(yīng)的第二聚類中心點(diǎn)進(jìn)行過濾,無需計(jì)算第二聚類中心點(diǎn)與樣本點(diǎn)之間的距離,也無需計(jì)算第二樣本點(diǎn)與其他待遍歷聚類中心點(diǎn)之間的距離,因此,減少了計(jì)算第二樣本點(diǎn)與其他待遍歷聚類中心點(diǎn)之間的距離所消耗的時(shí)間及計(jì)算量,提高了數(shù)據(jù)聚類的計(jì)算效率。
附圖說明
圖1為本發(fā)明實(shí)施例提供的人群聚類的方法的流程示意圖;
圖2為本發(fā)明實(shí)施例提供的第三距離的預(yù)測(cè)值大于或者等于兩倍的第一距離的預(yù)測(cè)值的示意圖;
圖3為本發(fā)明實(shí)施例提供的根據(jù)上一次更新后的第一聚類中心點(diǎn)Mu’對(duì)第二聚類中心點(diǎn)Mj’進(jìn)行數(shù)據(jù)聚類處理方法的流程圖;
圖4為本發(fā)明實(shí)施例提供了確定樣本點(diǎn)Si對(duì)應(yīng)聚類中心點(diǎn)方法的流程圖;
圖5為本發(fā)明實(shí)施例提供的人群聚類的裝置的功能模塊圖。
具體實(shí)施方式
本發(fā)明實(shí)施例通過提供一種人群聚類的方法及裝置,用以解決現(xiàn)有技術(shù)中聚類算法存在的因每次迭代過程均需要計(jì)算聚類中心點(diǎn)兩兩之間的距離而導(dǎo)致計(jì)算量較大,耗時(shí)較長(zhǎng)的技術(shù)問題。
本發(fā)明實(shí)施例第一方面提供了一種人群聚類的方法,請(qǐng)參考圖1,圖1為本發(fā)明實(shí)施例提供的人群聚類的方法的流程示意圖,如圖1所示,該方法包括:
101:獲得針對(duì)人群的樣本集以及樣本集的聚類中心集,樣本集中每個(gè)樣本點(diǎn)包括人群中對(duì)應(yīng)的個(gè)人的描述信息,描述信息至少包括年齡信息、性別信息、愛好信息和消費(fèi)金額信息;
為了詳細(xì)介紹本發(fā)明實(shí)施例中的技術(shù)方案,描述信息包括上述年齡信息、性別信息、愛好信息和消費(fèi)金額信息這四種因素,在其他實(shí)施例中,描述信息還可以包括收入信息、學(xué)歷信息、地域信息、宗教信仰信息和信用度信息等等,在此就不再贅述了。
在本實(shí)施例中,設(shè)定,針對(duì)人群的樣本集為S{S1,S2…Sn},初始聚類中心集M{M1,M2…Mj…Mk},該樣本集可以是網(wǎng)絡(luò)上電子商務(wù)網(wǎng)站或廣告網(wǎng)站搜集的用戶的數(shù)據(jù)信息,初始化聚類中心集可以通過在樣本集中隨機(jī)選擇預(yù)設(shè)個(gè)數(shù)的中心點(diǎn)、距離優(yōu)化算法或密度估值法等算法從樣本集中選出初始聚類中心點(diǎn),從而獲得初始聚類中心集,在此就不再贅述了。
102:針對(duì)樣本集中的每一個(gè)樣本點(diǎn),依次遍歷聚類中心集中的每一個(gè)聚類中心點(diǎn),確定每一個(gè)樣本點(diǎn)與聚類中心集中距離最近的聚類中心點(diǎn),并將每一個(gè)樣本點(diǎn)劃分到聚類中心集中距離最近的聚類中心點(diǎn)對(duì)應(yīng)的集合中,獲得聚類中心集中的每一個(gè)聚類中心點(diǎn)對(duì)應(yīng)的聚類集;
在本步驟中,可以先計(jì)算初始聚類中心集M中聚類中心點(diǎn)兩兩之間的距離:d11,d12…d(k-1)k,然后,針對(duì)樣本集S中的任意樣本點(diǎn)Si,其中,i大于等于1且小于等于n,依次遍歷聚類中心集M中的每一個(gè)聚類中心點(diǎn),確定 Si與聚類中心集中距離最近的聚類中心點(diǎn)Mu,并把Si劃分到該聚類中心點(diǎn)Mu對(duì)應(yīng)的集合中,并保存樣本點(diǎn)Si與聚類中心點(diǎn)Mu之間的第一距離Liu,依次類推得到聚類中心點(diǎn)對(duì)應(yīng)的聚類集,如聚類中心點(diǎn)M1,M2…Mj…Mk對(duì)應(yīng)的聚類集分別為N1,N2…Nj…Nk。
103:獲得聚類集中樣本點(diǎn)的平均值,并根據(jù)平均值更新聚類中心集;
在本步驟中,計(jì)算聚類集N1,N2…Nj…Nk中樣本點(diǎn)的平均值為M1’,M2’…Mj’…Mk’,并使用M1’,M2’…Mj’…Mk’更新M1,M2…Mj…Mk,更新后的聚類中心集M為{M1’,M2’…Mj’…Mk’}。
104:根據(jù)第一聚類中心點(diǎn)上一次更新前后的自身差值獲取第一距離的預(yù)測(cè)值;其中,第一距離為需要進(jìn)行數(shù)據(jù)聚類的樣本點(diǎn)與第一聚類中心點(diǎn)之間的距離,第一聚類中心點(diǎn)為聚類距離遍歷中與樣本點(diǎn)距離最近的聚類中心點(diǎn);
為了能夠提高數(shù)據(jù)聚類的準(zhǔn)確性,需要進(jìn)行迭代計(jì)算,在進(jìn)行當(dāng)前數(shù)據(jù)聚類算法時(shí),基于上述更新后的聚類中心集M為{M1’,M2’…Mj’…Mk’}進(jìn)行計(jì)算。其中,第一距離Liu為需要進(jìn)行數(shù)據(jù)聚類的樣本點(diǎn)Si與上一次更新后的第一聚類中心點(diǎn)Mu’之間的距離,第一聚類中心點(diǎn)Mu’為聚類距離遍歷中與樣本點(diǎn)距離最近的聚類中心點(diǎn)。
設(shè)置樣本點(diǎn)Si對(duì)應(yīng)的第一距離預(yù)測(cè)值設(shè)置為L(zhǎng)iu=Liu+Tu,其中,Tu為第一聚類中心點(diǎn)Mu’上一次更新前后的自身差值,即Tu為Mu’與Mu之間的差值。本發(fā)明實(shí)施例中,將該第一距離預(yù)測(cè)值設(shè)置為L(zhǎng)iu=Liu+Tu的目的在于,確保樣本點(diǎn)Si與上一次更新后的第一聚類中心點(diǎn)Mu’之間距離的最大值;基于重新設(shè)置后的Liu=Liu+Tu,進(jìn)行當(dāng)前聚類距離遍歷。
在本發(fā)明實(shí)施例中,在計(jì)算樣本點(diǎn)Si與上一次更新后的第一聚類中心點(diǎn)Mu’之間的距離、在計(jì)算初始聚類中心集中聚類中心點(diǎn)兩兩之間的距離:d11,d12…d(k-1)k時(shí),可以采用但不局限于以下的方法實(shí)現(xiàn),例如,歐氏距離、曼哈頓距離、切比雪夫距離、冪距離、余弦相似度、皮爾森相似度、修正的余弦相似度、Jaccard相似度、漢明距離、加權(quán)的歐式距離、相關(guān)距離、馬氏 距離等計(jì)算距離的算法,本發(fā)明實(shí)施例對(duì)計(jì)算距離時(shí)所采用的具體方法不進(jìn)行限定。
105:根據(jù)第二距離、第一聚類中心點(diǎn)上一次更新前后的自身差值以及第二聚類中心點(diǎn)上一次更新前后的自身差值獲取第三距離的預(yù)測(cè)值,其中,第二距離為上一次聚類距離遍歷過程中第一聚類中心點(diǎn)與第二聚類中心點(diǎn)之間的距離,第二聚類中心點(diǎn)為當(dāng)前聚類距離遍歷過程中待遍歷的聚類中心點(diǎn);
其中,第二距離duj為計(jì)算初始聚類中心集中聚類中心點(diǎn)Mu與聚類中心點(diǎn)Mj之間的距離,該聚類中心點(diǎn)Mj是第二聚類中心點(diǎn)Mj’未更新之前的聚類中心點(diǎn),第二聚類中心點(diǎn)Mj’為當(dāng)前聚類距離遍歷過程中待遍歷的聚類中心點(diǎn);Tu為第一聚類中心點(diǎn)Mu’上一次更新前后的自身差值,即Tu為Mu’與Mu之間的差值;Tj為第二聚類中心點(diǎn)Mj’上一次更新前后的自身差值,即Tj為Mj’與Mj之間的差值,將第二距離duj與Tu及Tj進(jìn)行減法計(jì)算,得到第三距離的預(yù)測(cè)值為(duj-Tu-Tj)。
需要說明的是,該第三距離的預(yù)測(cè)值為(duj-Tu-Tj),其在計(jì)算過程中,只需計(jì)算第一聚類中心點(diǎn)Mu’上一次更新前后的自身差值與第二聚類中心點(diǎn)Mj’上一次更新前后的自身差值,而無需計(jì)算上一次更新后的聚類中心集M{M1’,M2’…Mj’…Mk’}中聚類中心點(diǎn)兩兩之間的距離,能夠降低數(shù)據(jù)聚類時(shí)的計(jì)算量以及提高計(jì)算效率。
106:按照三角形不等式規(guī)則將第一距離的預(yù)測(cè)值與第三距離的預(yù)測(cè)值進(jìn)行比較;
基于三角形不等式規(guī)則,也即在三角形中,必然有兩邊之和大于第三邊,即為三角不等式將獲取的第一距離的預(yù)測(cè)值Liu,與獲取的第三距離的預(yù)測(cè)值進(jìn)行比較。
107:若第三距離的預(yù)測(cè)值大于或者等于兩倍的第一距離的預(yù)測(cè)值,則將第二聚類中心點(diǎn)丟棄,以便進(jìn)行聚類距離遍歷時(shí),不再計(jì)算樣本點(diǎn)與第二聚類中心點(diǎn)之間的距離以及第二聚類中心點(diǎn)與其他待遍歷聚類中心點(diǎn)之間的距離;
當(dāng)?shù)谌嚯x的預(yù)測(cè)值大于或者等于兩倍的第一距離的預(yù)測(cè)值,即(duj-Tu-Tj)大于或者等于2*Liu,說明樣本點(diǎn)Si與第二聚類中心點(diǎn)Mj’之間的距離Lij’大于或者等于樣本點(diǎn)Si與第一距離的預(yù)測(cè)值Liu的距離,將第二聚類中心點(diǎn)Mj’丟棄,相當(dāng)于將聚類中心集中的第三距離的預(yù)測(cè)值大于或者等于兩倍的第一距離的預(yù)測(cè)值對(duì)應(yīng)的第二聚類中心點(diǎn)進(jìn)行了過濾,因此,在進(jìn)行當(dāng)前聚類距離遍歷過程中,無需計(jì)算樣本點(diǎn)Si與第二樣本點(diǎn)Mj之間的距離、也無需計(jì)算第二聚類中心點(diǎn)與其他待遍歷聚類中心點(diǎn)之間的距離。如圖2所示,圖2示出了本發(fā)明實(shí)施例提供的第三距離的預(yù)測(cè)值大于或者等于兩倍的第一距離的預(yù)測(cè)值的示意圖。
108:基于已丟棄第二聚類中心點(diǎn)的聚類中心集進(jìn)行距離遍歷,獲得樣本集的聚類結(jié)果,聚類結(jié)果包括以年齡信息、性別信息、愛好信息和消費(fèi)金額信息為基準(zhǔn)維度對(duì)人群中的每一個(gè)人進(jìn)行聚類后的聚類信息。
當(dāng)然了,基于已丟棄第二聚類中心點(diǎn)的聚類中心集進(jìn)行距離遍歷所獲得的聚類結(jié)果可能不會(huì)滿足需求,所以可以根據(jù)本發(fā)明實(shí)施例提供的方法重復(fù)執(zhí)行數(shù)據(jù)聚類,直到獲得滿足需求的聚類結(jié)果為止,在此就不再贅述了。
在本實(shí)施例中,在獲得滿足需求的聚類結(jié)果后,該聚類結(jié)果會(huì)包括以年齡信息、性別信息、愛好信息和消費(fèi)金額信息為基準(zhǔn)維度對(duì)人群中的每一個(gè)人進(jìn)行聚類后的聚類信息,從而為企業(yè)制定產(chǎn)品生產(chǎn)方向提供了數(shù)據(jù)支持,企業(yè)即能夠根據(jù)獲得的聚類結(jié)果制定相應(yīng)的產(chǎn)品生產(chǎn)方向,例如,針對(duì)某一企業(yè)而言,年齡在18-22歲、性別為男、愛好為網(wǎng)絡(luò)游戲和動(dòng)漫、消費(fèi)金額信息為250-300元/月的比率占據(jù)了該企業(yè)的消費(fèi)人群的58%,則該企業(yè)則可以盡可能制定出生產(chǎn)面對(duì)18-22歲、面對(duì)愛好為網(wǎng)絡(luò)游戲和動(dòng)漫的男性、定價(jià)在250-300元的商品的運(yùn)營(yíng)策略,便于盡可能地?cái)U(kuò)大商品的受眾,避免因生產(chǎn)出的商品定價(jià)過高而無人購(gòu)買,或因商品定價(jià)過低而導(dǎo)致利潤(rùn)較低的情形,從而使得企業(yè)能夠運(yùn)行得更加平穩(wěn)。
由此可以看出,當(dāng)前聚類距離遍歷過程中,基于上一次更新的聚類中心集, 根據(jù)第一聚類中心點(diǎn)上次更新前后的自身差值獲取第一距離的預(yù)測(cè)值,該第一距離的預(yù)測(cè)值為需要進(jìn)行數(shù)據(jù)聚類的樣本點(diǎn)與該樣本點(diǎn)距離最近的聚類中心點(diǎn)之間的距離,根據(jù)第二距離、第一聚類中心點(diǎn)上一次更新前后的自身差值以及第二聚類中心點(diǎn)上一次更新前后的自身差值獲取第三距離的預(yù)測(cè)值,第二距離為上一次聚類距離遍歷過程中第一聚類中心點(diǎn)與第二聚類中心點(diǎn)之間的距離,第二聚類中心點(diǎn)為當(dāng)前聚類距離遍歷過程中待遍歷的聚類中心點(diǎn),將第三距離的預(yù)測(cè)值與第一距離的預(yù)測(cè)值進(jìn)行比較,若第三距離的預(yù)測(cè)值大于或者等于兩倍的第一距離的預(yù)測(cè)值時(shí),將該第二聚類中心點(diǎn)丟棄。本發(fā)明實(shí)施例中,基于三角形不等式規(guī)則,將聚類中心集中的第三距離的預(yù)測(cè)值大于或者等于兩倍的第一距離的預(yù)測(cè)值對(duì)應(yīng)的第二聚類中心點(diǎn)進(jìn)行過濾,無需計(jì)算第二聚類中心點(diǎn)與樣本點(diǎn)之間的距離,也無需計(jì)算第二樣本點(diǎn)與其他待遍歷聚類中心點(diǎn)之間的距離,因此,減少了計(jì)算第二樣本點(diǎn)與其他待遍歷聚類中心點(diǎn)之間的距離所消耗的時(shí)間及計(jì)算量,提高了數(shù)據(jù)聚類的計(jì)算效率。
在本實(shí)施例中,在該獲得該樣本集的聚類結(jié)果之后,本發(fā)明實(shí)施例提供的方法還包括:
對(duì)該聚類結(jié)果進(jìn)行分析,以對(duì)該聚類方法進(jìn)行評(píng)價(jià)。
在具體實(shí)施過程中,該對(duì)該聚類結(jié)果進(jìn)行分析,以對(duì)該聚類方法進(jìn)行評(píng)價(jià),具體包括:
通過熵值(entropy)驗(yàn)證算法或純度(purity)驗(yàn)證算法對(duì)該聚類結(jié)果進(jìn)行分析;
在實(shí)際應(yīng)用中,以通過熵值驗(yàn)證算法對(duì)聚類結(jié)果進(jìn)行分析為例,對(duì)于一個(gè)聚類i而言,首先計(jì)算Pij,Pij指的是聚類i中的成員(member)屬于類(class)j的概率,其中,mi是在聚類i中所有成員的個(gè)數(shù),mij是聚類i中的成員屬于類j的個(gè)數(shù)。每個(gè)聚類的entropy可以表示為 其中L是類(class)的個(gè)數(shù)。整個(gè)聚類劃分的entropy為其中K是聚類(cluster)的數(shù)目,m是整個(gè)聚類劃分所涉及到的成員個(gè)數(shù)。在本實(shí)施例中,在該熵值驗(yàn)證算法獲得的該聚類結(jié)果的熵值小于第一預(yù)設(shè)值時(shí),確定該聚類方法滿足預(yù)設(shè)需求;
當(dāng)然,也可以通過純度驗(yàn)證算法來對(duì)聚類結(jié)果進(jìn)行分析,類似的,對(duì)于一個(gè)聚類i而言,首先計(jì)算Pij,Pij指的是聚類i中的成員(member)屬于類(class)j的概率,設(shè)定聚類i的purity定義為pi=max(pij)。整個(gè)聚類劃分的purity為其中K是聚類(cluster)的數(shù)目,mi是在聚類i中所有成員的個(gè)數(shù),m是整個(gè)聚類劃分所涉及到的成員個(gè)數(shù)。在本實(shí)施例中,在該純度驗(yàn)證算法獲得的該聚類結(jié)果的純度大于第二預(yù)設(shè)值時(shí),確定該聚類方法滿足該預(yù)設(shè)需求。
在執(zhí)行步驟103按照三角形不等式規(guī)則將第一距離的預(yù)測(cè)值Liu與第三距離的預(yù)測(cè)值(duj-Tu-Tj)進(jìn)行比較時(shí),若第三距離的預(yù)測(cè)值(duj-Tu-Tj)小于兩倍的第一距離的預(yù)測(cè)值Liu,說明樣本點(diǎn)Si與第二聚類中心點(diǎn)Mj’之間的距離Lij’小于樣本點(diǎn)Si與第一聚類中心點(diǎn)Mu’之間的第一距離的預(yù)測(cè)值Liu,根據(jù)上一次更新后的第一聚類中心點(diǎn)Mu’對(duì)第二聚類中心點(diǎn)Mj’進(jìn)行數(shù)據(jù)聚類處理,來確定樣本點(diǎn)Si對(duì)應(yīng)的聚類中心點(diǎn)為上一次更新后的第一聚類中心點(diǎn)Mu’還是第二聚類中心點(diǎn)Mj’。如圖3所示,圖3示出了本發(fā)明實(shí)施例提供的根據(jù)上一次更新后的第一聚類中心點(diǎn)Mu’對(duì)第二聚類中心點(diǎn)Mj’進(jìn)行數(shù)據(jù)聚類處理方法的流程圖,該方法包括:
301、計(jì)算上一次更新后的第一聚類中心點(diǎn)與樣本點(diǎn)之間的距離,得到第一距離的實(shí)際值。
計(jì)算上一次更新后的第一聚類中心點(diǎn)Mu’與樣本點(diǎn)Si之間的距離Liu’,該 Liu’為當(dāng)前聚類距離遍歷過程中第一距離的實(shí)際值,本發(fā)明實(shí)施例在計(jì)算上一次更新后的第一聚類中心點(diǎn)Mu’與樣本點(diǎn)Si之間的第一距離的實(shí)際距離Liu’時(shí),所采用的算法請(qǐng)參考上述步驟101中的相關(guān)描述,本發(fā)明實(shí)施例在此不再進(jìn)行贅述。
302、按照三角形不等式規(guī)則將第一距離的實(shí)際值與第三距離的預(yù)測(cè)值進(jìn)行比較。
基于三角形不等式規(guī)則,將第一距離的實(shí)際值Liu’與第三距離的預(yù)測(cè)值(duj-Tu-Tj)進(jìn)行比較,若第三距離的預(yù)測(cè)值(duj-Tu-Tj)大于或者等于兩倍的第一距離的實(shí)際值Liu’,則執(zhí)行步驟303;若第三距離的預(yù)測(cè)值(duj-Tu-Tj)小于兩倍的第一距離的實(shí)際值Liu’,則執(zhí)行步驟304。
303、將第二聚類中心點(diǎn)丟棄。
當(dāng)?shù)谌嚯x的預(yù)測(cè)值(duj-Tu-Tj)大于或者等于兩倍的第一距離的實(shí)際值Liu’時(shí),說明在當(dāng)前聚類距離遍歷過程中,樣本點(diǎn)Si到第二聚類中心點(diǎn)Mj’的實(shí)際距離大于或者等于樣本點(diǎn)Si到第一聚類中心點(diǎn)Mu’的實(shí)際距離,即樣本點(diǎn)Si對(duì)應(yīng)的聚類中心點(diǎn)不可能是第二聚類中心點(diǎn)Mj’,因此將第二聚類中心點(diǎn)Mj’丟棄,不再計(jì)算樣本點(diǎn)Si與第二聚類中心點(diǎn)Mj’之間的距離以及第二聚類中心點(diǎn)Mj’與其他待遍歷聚類中心點(diǎn)之間的距離。
304、計(jì)算第四距離,并確定第四距離是否小于第一距離的實(shí)際值。
當(dāng)?shù)谌嚯x的預(yù)測(cè)值(duj-Tu-Tj)小于兩倍的第一距離的實(shí)際值Liu’時(shí),說明在當(dāng)前聚類距離遍歷過程中,樣本點(diǎn)Si到第二聚類中心點(diǎn)Mj’的實(shí)際距離小于樣本點(diǎn)Si到第一聚類中心點(diǎn)Mu’的實(shí)際距離,即樣本點(diǎn)Si對(duì)應(yīng)的聚類中心點(diǎn)可能是第二聚類中心點(diǎn)Mj’。
確定樣本點(diǎn)Si對(duì)應(yīng)的聚類中心點(diǎn)是第一聚類中心點(diǎn)Mu’,還是第二聚類中心點(diǎn)Mj’,需要計(jì)算第四距離Lij’,其中,該第四距離Lij’為樣本點(diǎn)Si與第二聚類中心點(diǎn)Mj’之間的距離。若第四距離Lij’小于第一距離的實(shí)際值Liu’,則執(zhí)行步驟305;若第四距離Lij’大于或者等于第一距離的實(shí)際值Liu’,則執(zhí)行 步驟306。
305、將第二聚類中心點(diǎn)確定為當(dāng)前距離遍歷過程中與樣本點(diǎn)距離最近的聚類中心點(diǎn)。
當(dāng)?shù)谒木嚯xLij’小于第一距離的實(shí)際值Liu’時(shí),確定第二聚類中心點(diǎn)Mj’為當(dāng)前距離遍歷過程中與樣本點(diǎn)Si距離最近的聚類中心點(diǎn)。在本發(fā)明實(shí)施例的一種實(shí)現(xiàn)方式中,當(dāng)該第四距離Lij’小于該第一距離的實(shí)際值Liu’,并且當(dāng)前聚類距離遍歷完成,則將該第二聚類中心點(diǎn)Mj’賦值給上一次更新后的該第一聚類中心點(diǎn)Mu’,以及將該第四距離Lij’賦值給第一距離的實(shí)際值Liu’,即Lui’=Lij’,Mu’=Mj’;在本發(fā)明實(shí)施例的另一種實(shí)現(xiàn)方式中,當(dāng)?shù)谒木嚯xLij’小于第一距離的實(shí)際值Liu’,并且當(dāng)前聚類距離遍歷未完成,則將第二聚類中心點(diǎn)Mj’賦值給上一次更新后的第一聚類中心點(diǎn)Mu’,以及將第四距離Lij’賦值給第一距離的實(shí)際值Liu’,即Lui’=Lij’,Mu’=Mj’,并基于賦值后的第一聚類中心點(diǎn)Mu’及賦值后的第一距離的實(shí)際值Liu’繼續(xù)遍歷當(dāng)前聚類中心集中的下一個(gè)聚類中心點(diǎn),直到遍歷完當(dāng)前聚類中心集。
306、將上一次更新后的第一聚類中心點(diǎn)確定為當(dāng)前距離遍歷過程中與樣本點(diǎn)距離最近的聚類中心點(diǎn)。
當(dāng)?shù)谒木嚯xLij’大于或者等于第一距離的實(shí)際值Liu’時(shí),確定上次更新后的第一聚類中心點(diǎn)Mu’為當(dāng)前距離遍歷過程中與樣本點(diǎn)Si距離最近的聚類中心點(diǎn)。在本發(fā)明實(shí)施例的一種實(shí)現(xiàn)方式中,當(dāng)?shù)谒木嚯xLij’大于或者等于第一距離的實(shí)際值Liu’,并且當(dāng)前聚類距離遍歷完成時(shí),將上一次更新后的第一聚類中心點(diǎn)Mu’確定為當(dāng)前距離遍歷過程中與樣本點(diǎn)Si距離最近的聚類中心點(diǎn);當(dāng)?shù)谒木嚯xLij’大于或者等于第一距離的實(shí)際值Liu’,并且當(dāng)前聚類距離遍歷未完成,則基于上一次更新后的第一聚類中心點(diǎn)Mu’以及第一距離的實(shí)際值Liu’繼續(xù)遍歷當(dāng)前聚類中心集中的下一個(gè)聚類中心點(diǎn)。
本發(fā)明實(shí)施例在具體實(shí)施過程中,將圖1與圖3進(jìn)行結(jié)合,來確定樣本點(diǎn)Si對(duì)應(yīng)的聚類中心點(diǎn),如圖4所示,圖4示出了本發(fā)明實(shí)施例提供了確定樣本 點(diǎn)Si對(duì)應(yīng)聚類中心點(diǎn)方法的流程圖,該方法包括:
401、根據(jù)第一聚類中心點(diǎn)上一次更新前后的自身差值獲取第一距離的預(yù)測(cè)值。
402、根據(jù)第二距離、第一聚類中心點(diǎn)上一次更新前后的自身差值以及第二聚類中心點(diǎn)上一次更新前后的自身差值獲取第三距離的預(yù)測(cè)值。
403、按照三角形不等式規(guī)則將第一距離的預(yù)測(cè)值與第三距離的預(yù)測(cè)值進(jìn)行比較。
若第三距離的預(yù)測(cè)值大于或者等于兩倍的第一距離的預(yù)測(cè)值,則執(zhí)行步驟404;若第三距離的預(yù)測(cè)值小于兩倍的第一距離的預(yù)測(cè)值,則執(zhí)行步驟405。
404、將第二聚類中心點(diǎn)丟棄。
405、根據(jù)上一次更新后的該第一聚類中心點(diǎn)對(duì)該第二聚類中心點(diǎn)進(jìn)行數(shù)據(jù)聚類處理。
有關(guān)根據(jù)上一次更新后的該第一聚類中心點(diǎn)對(duì)該第二聚類中心點(diǎn)進(jìn)行數(shù)據(jù)聚類處理的實(shí)施過程,請(qǐng)參考圖3的詳細(xì)描述,本發(fā)明實(shí)施例在此不再進(jìn)行贅述。
進(jìn)一步的,在執(zhí)行步驟304計(jì)算第四距離之前,計(jì)算第五距離duj’,第五距離為第二聚類中心點(diǎn)Mj’與上次更新后的第一聚類中心點(diǎn)Mu’之間的距離,按照三角形不等式規(guī)則將第一距離的實(shí)際值Liu’與第五距離duj’進(jìn)行比較,當(dāng)?shù)谖寰嚯xduj’大于或者等于兩倍的第一距離的實(shí)際值Liu’時(shí),將第二聚類中心點(diǎn)丟棄,不再計(jì)算樣本點(diǎn)Si與第二聚類中心點(diǎn)Mj’之間的距離以及第二聚類中心點(diǎn)Mj’與其他待遍歷聚類中心點(diǎn)之間的距離;當(dāng)?shù)谖寰嚯xduj’小于兩倍的第一距離的實(shí)際值Liu’時(shí),繼續(xù)執(zhí)行步驟304。
需要說明的是,在實(shí)際的運(yùn)行步驟301-步驟303的操作過程中,可將聚類中心集M中的大部分,與樣本點(diǎn)Si的距離大于或者等于第一距離的實(shí)際值Liu’的聚類中心點(diǎn)進(jìn)行丟棄,而聚類中心集M中剩下部分的聚類中心點(diǎn)均為與樣本點(diǎn)Si的距離小于第一距離的實(shí)際值Liu’的聚類中心點(diǎn)。示例性的,假設(shè)聚類 中心集M中有1000個(gè)聚類中心點(diǎn),通過步驟301-步驟303時(shí),將可800個(gè)與樣本點(diǎn)Si的距離大于或者等于第一距離的實(shí)際值Liu’的對(duì)應(yīng)聚類中心點(diǎn)進(jìn)行丟棄,此時(shí),聚類中心集M中剩余200個(gè)聚類中心點(diǎn)。分別計(jì)算剩余200個(gè)聚類中心點(diǎn)中第二聚類中心點(diǎn)Mj’與上次更新后的第一聚類中心點(diǎn)Mu’之間的第五距離,當(dāng)?shù)谖寰嚯xduj’大于或者等于兩倍的第一距離的實(shí)際值Liu’時(shí),將150第二聚類中心點(diǎn)Mj’丟棄,此時(shí),聚類中心集M中剩余50個(gè)聚類中心點(diǎn),分別計(jì)算樣本點(diǎn)Si與聚類中心集M中剩余50個(gè)聚類中心點(diǎn)之間的距離,確定樣本點(diǎn)Si距離最近的聚類中心點(diǎn)。需要說明的是,在實(shí)際的操作過程中,計(jì)算聚類中心集M中兩兩聚類中心點(diǎn)之間的第五距離duj’時(shí),要比計(jì)算樣本點(diǎn)Si與第二聚類中心點(diǎn)Mj’之間的第四距離Lij’的計(jì)算量小、消耗時(shí)間少。本發(fā)明實(shí)施例基于三角形不等式規(guī)則,兩次對(duì)聚類中心集M中與樣本點(diǎn)Si的距離大于或者等于第一距離的實(shí)際值Liu’的聚類中心點(diǎn)進(jìn)行丟棄,在一定程度上進(jìn)一步的降低了計(jì)算樣本點(diǎn)Si與第二聚類中心點(diǎn)Mj’的計(jì)算量。
進(jìn)一步的,作為對(duì)上述實(shí)施例的細(xì)化和擴(kuò)展,上述步驟102在獲取第三距離的預(yù)測(cè)值(duj-Tu-Tj)時(shí),可以采用但不局限于以下的方式實(shí)現(xiàn),獲取第一聚類中心點(diǎn)Mu’上一次更新前對(duì)應(yīng)的值Mu及更新后對(duì)應(yīng)的值Mu’,計(jì)算第一差值Tu,其中,該Tu為Mu’與Mu之間的差值;獲取第二聚類中心點(diǎn)Mj’上一次更新前對(duì)應(yīng)的值Mj及更新后對(duì)應(yīng)的值Mj’,計(jì)算第二差值Tj,其中,該Tj為Tj’與Tj之間的差值;將第二距離duj與第一差值Tu及第二差值Tj進(jìn)行減法計(jì)算,獲得第三距離的預(yù)測(cè)值(duj-Tu-Tj)。
進(jìn)一步的,在執(zhí)行404之后,判斷當(dāng)前聚類距離遍歷是否完成,若未遍歷完成,則繼續(xù)遍歷當(dāng)前聚類中心集中下一個(gè)聚類中心點(diǎn);若遍歷完成,則將上一次更新后的第一聚類中心點(diǎn)Mu’確定為當(dāng)前距離遍歷過程中與該樣本點(diǎn)距離最近的聚類中心點(diǎn)。
在確定樣本點(diǎn)Si對(duì)應(yīng)的聚類中心點(diǎn)后,依次類推得到聚類中心集M中M1’,M2’…Mj’…Mk’對(duì)應(yīng)的聚類集分別為N1’,N2’…Nj’…Nk’,計(jì)算步驟101 中該的聚類集N1,N2…Nj…Nk與當(dāng)前聚類距離遍歷確定的聚類集N1’,N2’…Nj’…Nk’之間的差值O1,O2…Oj…Ok,并判斷該差值O1,O2…Oj…Ok是否符合預(yù)設(shè)誤差閾值,若符合,則將前聚類距離遍歷確定的聚類集N1’,N2’…Nj’…Nk’確定為最終數(shù)據(jù)聚類的結(jié)果;若不符合,則基于本發(fā)明實(shí)施例如上該方法重復(fù)執(zhí)行數(shù)據(jù)聚類,直到確定最終數(shù)據(jù)聚類的結(jié)果為止。在本實(shí)施例中,在設(shè)置預(yù)設(shè)誤差閾值需要根據(jù)實(shí)際需求進(jìn)行設(shè)置,對(duì)于一些精細(xì)數(shù)據(jù)聚類的需求而言,設(shè)置預(yù)設(shè)誤差閾值的較小,例如,設(shè)置預(yù)設(shè)誤差閾值為1或者0等等,本發(fā)明實(shí)施例對(duì)預(yù)設(shè)誤差閾值設(shè)置的具體內(nèi)容不進(jìn)行限定。
基于同一發(fā)明構(gòu)思,本發(fā)明實(shí)施例第二方面還提供了一種人群聚類的裝置,請(qǐng)參考圖5,圖5為本發(fā)明實(shí)施例提供的人群聚類的裝置的功能模塊圖,如圖5所示,該裝置包括:
獲得單元501,用于獲得針對(duì)人群的樣本集以及該樣本集的聚類中心集,該樣本集中每個(gè)樣本點(diǎn)包括人群中對(duì)應(yīng)的個(gè)人的描述信息,該描述信息至少包括年齡信息、性別信息、愛好信息和消費(fèi)金額信息;
聚類集獲得單元502,用于針對(duì)該樣本集中的每一個(gè)樣本點(diǎn),依次遍歷聚類中心集中的每一個(gè)聚類中心點(diǎn),確定該每一個(gè)樣本點(diǎn)與該聚類中心集中距離最近的聚類中心點(diǎn),并將該每一個(gè)樣本點(diǎn)劃分到該聚類中心集中距離最近的聚類中心點(diǎn)對(duì)應(yīng)的集合中,獲得該聚類中心集中的每一個(gè)聚類中心點(diǎn)對(duì)應(yīng)的聚類集;
平均值獲得單元503,用于獲得該聚類集中樣本點(diǎn)的平均值,并根據(jù)該平均值更新該聚類中心集;
第一獲取單元504,用于根據(jù)第一聚類中心點(diǎn)上一次更新前后的自身差值獲取第一距離的預(yù)測(cè)值;其中,該第一距離為需要進(jìn)行數(shù)據(jù)聚類的樣本點(diǎn)與該第一聚類中心點(diǎn)之間的距離,該第一聚類中心點(diǎn)為聚類距離遍歷中與該樣本點(diǎn)距離最近的聚類中心點(diǎn);
第二獲取單元505,用于根據(jù)第二距離、該第一聚類中心點(diǎn)上一次更新前 后的自身差值以及第二聚類中心點(diǎn)上一次更新前后的自身差值獲取第三距離的預(yù)測(cè)值,其中,該第二距離為上一次聚類距離遍歷過程中該第一聚類中心點(diǎn)與第二聚類中心點(diǎn)之間的距離,該第二聚類中心點(diǎn)為當(dāng)前聚類距離遍歷過程中待遍歷的聚類中心點(diǎn);
比較單元506,用于按照三角形不等式規(guī)則將該第一獲取單元504獲取的該第一距離的預(yù)測(cè)值與該第二獲取單元505獲取的該第三距離的預(yù)測(cè)值進(jìn)行比較;
丟棄單元507,用于當(dāng)該比較單元506比較的該第三距離的預(yù)測(cè)值大于或者等于兩倍的該第一距離的預(yù)測(cè)值時(shí),將該第二聚類中心點(diǎn)丟棄,以便進(jìn)行聚類距離遍歷時(shí),不再計(jì)算該樣本點(diǎn)與該第二聚類中心點(diǎn)之間的距離以及該第二聚類中心點(diǎn)與其他待遍歷聚類中心點(diǎn)之間的距離;
聚類結(jié)果獲得單元508,用于基于已丟棄該第二聚類中心點(diǎn)的聚類中心集進(jìn)行該距離遍歷,獲得該樣本集的聚類結(jié)果,該聚類結(jié)果包括以該年齡信息、該性別信息、該愛好信息和該消費(fèi)金額信息為基準(zhǔn)維度對(duì)該人群中的每一個(gè)人進(jìn)行聚類后的聚類信息。
進(jìn)一步地,該裝置還包括:
分析單元509,用于在該聚類結(jié)果獲得單元508獲得該聚類結(jié)果之后,對(duì)對(duì)該聚類結(jié)果進(jìn)行分析,以對(duì)該聚類方法進(jìn)行評(píng)價(jià)。
進(jìn)一步地,該分析單元509具體用于通過熵值驗(yàn)證算法或純度驗(yàn)證算法對(duì)該聚類結(jié)果進(jìn)行分析,其中,在該熵值驗(yàn)證算法獲得的該聚類結(jié)果的熵值小于第一預(yù)設(shè)值時(shí),確定該聚類方法滿足預(yù)設(shè)需求,或者在該純度驗(yàn)證算法獲得的該聚類結(jié)果的純度大于第二預(yù)設(shè)值時(shí),確定該聚類方法滿足該預(yù)設(shè)需求。
進(jìn)一步地,該裝置還包括:
處理單元510,用于當(dāng)該比較單元506比較的該第三距離的預(yù)測(cè)值小于兩倍的該第一距離的預(yù)測(cè)值時(shí),根據(jù)上一次更新后的該第一聚類中心點(diǎn)對(duì)該第二聚類中心點(diǎn)進(jìn)行數(shù)據(jù)聚類處理。
進(jìn)一步地,該處理單元510具體用于:計(jì)算該上一次更新后的該第一聚類中心點(diǎn)與該樣本點(diǎn)之間的距離,得到第一距離的實(shí)際值;
按照三角形不等式規(guī)則將該第一處理單元510計(jì)算的該第一距離的實(shí)際值與該第三距離的預(yù)測(cè)值進(jìn)行比較;
當(dāng)該第一比較模塊比較的該第三距離的預(yù)測(cè)值大于或者等于兩倍的該第一距離的實(shí)際值時(shí),將該第二聚類中心點(diǎn)丟棄,以便進(jìn)行聚類距離遍歷時(shí),不再計(jì)算該樣本點(diǎn)與該第二聚類中心點(diǎn)之間的距離以及該第二聚類中心點(diǎn)與其他待遍歷聚類中心點(diǎn)之間的距離;
當(dāng)該第一比較模塊比較的該第三距離的預(yù)測(cè)值小于兩倍的該第一距離的實(shí)際值,則計(jì)算第四距離;其中,該第四距離為該樣本點(diǎn)與該第二聚類中心點(diǎn)的距離;
確定該第二處理單元510計(jì)算的該第四距離是否小于該第一距離的實(shí)際值;
當(dāng)該第一確定模塊確定該第四距離小于該第一距離的實(shí)際值時(shí),將該第二聚類中心點(diǎn)確定為當(dāng)前距離遍歷過程中與該樣本點(diǎn)距離最近的聚類中心點(diǎn);
當(dāng)該第一確定模塊確定該第四距離大于或者等于該第一距離的實(shí)際值時(shí),將該上一次更新后的該第一聚類中心點(diǎn)確定為當(dāng)前距離遍歷過程中與該樣本點(diǎn)距離最近的聚類中心點(diǎn)。
進(jìn)一步地,該處理單元510具體還用于:
當(dāng)該第四距離小于該第一距離的實(shí)際值,并且當(dāng)前聚類距離遍歷完成時(shí),將該第二聚類中心點(diǎn)賦值給該上一次更新后的該第一聚類中心點(diǎn),以及將該第四距離賦值給該第一距離的實(shí)際值;
當(dāng)該第四距離小于該第一距離的實(shí)際值,并且當(dāng)前聚類距離遍歷未完成時(shí),將該第二聚類中心點(diǎn)賦值給該上一次更新后的該第一聚類中心點(diǎn),以及將該第四距離賦值給該第一距離的實(shí)際值,并基于賦值后的第一聚類中心點(diǎn)及賦值后的第一距離的實(shí)際值繼續(xù)遍歷該當(dāng)前聚類中心集中的下一個(gè)聚類中心點(diǎn)。
進(jìn)一步地,該處理單元510具體還用于:
當(dāng)該第四距離大于或者等于該第一距離的實(shí)際值,并且當(dāng)前聚類距離遍歷完成時(shí),將該上一次更新后的該第一聚類中心點(diǎn)確定為當(dāng)前距離遍歷過程中與該樣本點(diǎn)距離最近的聚類中心點(diǎn);
當(dāng)該第四距離大于或者等于該第一距離的實(shí)際值,并且當(dāng)前聚類距離遍歷未完成,則基于該上一次更新后的該第一聚類中心點(diǎn)以及該第一距離的實(shí)際值繼續(xù)遍歷該當(dāng)前聚類中心集中的下一個(gè)聚類中心點(diǎn)。
進(jìn)一步地,該處理單元510具體還用于:
在該第二處理單元510計(jì)算的該第四距離之前,計(jì)算第五距離,該第五距離為該第二聚類中心點(diǎn)與該上一次更新后的該第一聚類中心點(diǎn)之間的距離;
按照三角形不等式規(guī)則將該第一處理單元510計(jì)算的該第一距離的實(shí)際值與該第三處理單元510計(jì)算的該第五距離進(jìn)行比較;
當(dāng)該第二比較模塊比較的該第五距離大于或者等于兩倍的該第一距離的實(shí)際值,則將該第二聚類中心點(diǎn)丟棄,以便進(jìn)行聚類遍歷時(shí),不再計(jì)算該樣本點(diǎn)與該第二聚類中心點(diǎn)之間的距離以及該第二聚類中心點(diǎn)與其他待遍歷聚類中心點(diǎn)之間的距離;
當(dāng)該第二比較模塊比較的該第五距離小于兩倍的該第一距離的實(shí)際值,則執(zhí)行該計(jì)算該第四距離。
進(jìn)一步地,該第二獲取單元505,具體用于:
獲取該第一聚類中心點(diǎn)上一次更新前對(duì)應(yīng)的值及更新后對(duì)應(yīng)的值,并計(jì)算該第一聚類中心點(diǎn)更新前后之間的第一差值;
獲取該第二聚類中心點(diǎn)上一次更新前對(duì)應(yīng)的值及更新后對(duì)應(yīng)的值,并計(jì)算該第二聚類中心點(diǎn)更新前后之間的第二差值;
該第二距離與該第一處理模塊計(jì)算的該第一差值及該第二處理模塊計(jì)算的該第二差值進(jìn)行減法計(jì)算,獲得該第三距離的預(yù)測(cè)值。
進(jìn)一步地,該裝置還包括:
判斷單元511,在該丟棄單元507將該第二聚類中心點(diǎn)丟棄之后,判斷該當(dāng)前聚類距離遍歷是否完成;
遍歷單元512,當(dāng)該判斷單元511判斷未遍歷完成時(shí),繼續(xù)遍歷該當(dāng)前聚類中心集中的下一個(gè)聚類中心點(diǎn);
確定單元513,用于當(dāng)該判斷單元511判斷遍歷完成時(shí),將上一次更新后的第一聚類中心點(diǎn)確定為當(dāng)前距離遍歷過程中與該樣本點(diǎn)距離最近的聚類中心點(diǎn)。
本發(fā)明實(shí)施例提供的人群聚類的裝置,在當(dāng)前聚類距離遍歷過程中,基于上一次更新的聚類中心集,根據(jù)第一聚類中心點(diǎn)上次更新前后的自身差值獲取第一距離的預(yù)測(cè)值,該第一距離的預(yù)測(cè)值為需要進(jìn)行數(shù)據(jù)聚類的樣本點(diǎn)與該樣本點(diǎn)距離最近的聚類中心點(diǎn)之間的距離,根據(jù)第二距離、第一聚類中心點(diǎn)上一次更新前后的自身差值以及第二聚類中心點(diǎn)上一次更新前后的自身差值獲取第三距離的預(yù)測(cè)值,第二距離為上一次聚類距離遍歷過程中第一聚類中心點(diǎn)與第二聚類中心點(diǎn)之間的距離,第二聚類中心點(diǎn)為當(dāng)前聚類距離遍歷過程中待遍歷的聚類中心點(diǎn),將第三距離的預(yù)測(cè)值與第一距離的預(yù)測(cè)值進(jìn)行比較,若第三距離的預(yù)測(cè)值大于或者等于兩倍的第一距離的預(yù)測(cè)值時(shí),將該第二聚類中心點(diǎn)丟棄。本發(fā)明中,基于三角形不等式規(guī)則,將聚類中心集中的第三距離的預(yù)測(cè)值大于或者等于兩倍的第一距離的預(yù)測(cè)值對(duì)應(yīng)的第二聚類中心點(diǎn)進(jìn)行過濾,無需計(jì)算第二聚類中心點(diǎn)與樣本點(diǎn)之間的距離,也無需計(jì)算第二樣本點(diǎn)與其他待遍歷聚類中心點(diǎn)之間的距離,因此,減少了計(jì)算第二樣本點(diǎn)與其他待遍歷聚類中心點(diǎn)之間的距離所消耗的時(shí)間及計(jì)算量,提高了數(shù)據(jù)聚類的計(jì)算效率。
上述本發(fā)明實(shí)施例中的技術(shù)方案,至少具有如下的技術(shù)效果或優(yōu)點(diǎn):
1、本發(fā)明實(shí)施例提供的人群聚類的方法以及裝置,所獲得的聚類結(jié)果會(huì)包括以年齡信息、性別信息、愛好信息和消費(fèi)金額信息為基準(zhǔn)維度對(duì)人群中的每一個(gè)人進(jìn)行聚類后的聚類信息,從而為企業(yè)制定產(chǎn)品生產(chǎn)方向提供了數(shù)據(jù)支持。
2、本發(fā)明實(shí)施例提供的人群聚類的方法以及裝置,在當(dāng)前聚類距離遍歷過程中,基于上一次更新的聚類中心集,根據(jù)第一聚類中心點(diǎn)上次更新前后的自身差值獲取第一距離的預(yù)測(cè)值,該第一距離的預(yù)測(cè)值為需要進(jìn)行數(shù)據(jù)聚類的樣本點(diǎn)與該樣本點(diǎn)距離最近的聚類中心點(diǎn)之間的距離,根據(jù)第二距離、第一聚類中心點(diǎn)上一次更新前后的自身差值以及第二聚類中心點(diǎn)上一次更新前后的自身差值獲取第三距離的預(yù)測(cè)值,第二距離為上一次聚類距離遍歷過程中第一聚類中心點(diǎn)與第二聚類中心點(diǎn)之間的距離,第二聚類中心點(diǎn)為當(dāng)前聚類距離遍歷過程中待遍歷的聚類中心點(diǎn),將第三距離的預(yù)測(cè)值與第一距離的預(yù)測(cè)值進(jìn)行比較,若第三距離的預(yù)測(cè)值大于或者等于兩倍的第一距離的預(yù)測(cè)值時(shí),將該第二聚類中心點(diǎn)丟棄。本發(fā)明中,基于三角形不等式規(guī)則,將聚類中心集中的第三距離的預(yù)測(cè)值大于或者等于兩倍的第一距離的預(yù)測(cè)值對(duì)應(yīng)的第二聚類中心點(diǎn)進(jìn)行過濾,無需計(jì)算第二聚類中心點(diǎn)與樣本點(diǎn)之間的距離,也無需計(jì)算第二樣本點(diǎn)與其他待遍歷聚類中心點(diǎn)之間的距離,因此,減少了計(jì)算第二樣本點(diǎn)與其他待遍歷聚類中心點(diǎn)之間的距離所消耗的時(shí)間及計(jì)算量,提高了數(shù)據(jù)聚類的計(jì)算效率。
本發(fā)明實(shí)施例公開了:
A1、一種人群聚類的方法,其特征在于,包括:
獲得針對(duì)人群的樣本集以及所述樣本集的聚類中心集,所述樣本集中每個(gè)樣本點(diǎn)包括人群中對(duì)應(yīng)的個(gè)人的描述信息,所述描述信息至少包括年齡信息、性別信息、愛好信息和消費(fèi)金額信息;
針對(duì)所述樣本集中的每一個(gè)樣本點(diǎn),依次遍歷聚類中心集中的每一個(gè)聚類中心點(diǎn),確定所述每一個(gè)樣本點(diǎn)與所述聚類中心集中距離最近的聚類中心點(diǎn),并將所述每一個(gè)樣本點(diǎn)劃分到所述聚類中心集中距離最近的聚類中心點(diǎn)對(duì)應(yīng)的集合中,獲得所述聚類中心集中的每一個(gè)聚類中心點(diǎn)對(duì)應(yīng)的聚類集;
獲得所述聚類集中樣本點(diǎn)的平均值,并根據(jù)所述平均值更新所述聚類中心集;
根據(jù)第一聚類中心點(diǎn)上一次更新前后的自身差值獲取第一距離的預(yù)測(cè)值;其中,所述第一距離為需要進(jìn)行數(shù)據(jù)聚類的樣本點(diǎn)與所述第一聚類中心點(diǎn)之間的距離,所述第一聚類中心點(diǎn)為聚類距離遍歷中與所述樣本點(diǎn)距離最近的聚類中心點(diǎn);
根據(jù)第二距離、所述第一聚類中心點(diǎn)上一次更新前后的自身差值以及第二聚類中心點(diǎn)上一次更新前后的自身差值獲取第三距離的預(yù)測(cè)值,其中,所述第二距離為上一次聚類距離遍歷過程中所述第一聚類中心點(diǎn)與第二聚類中心點(diǎn)之間的距離,所述第二聚類中心點(diǎn)為當(dāng)前聚類距離遍歷過程中待遍歷的聚類中心點(diǎn);
按照三角形不等式規(guī)則將所述第一距離的預(yù)測(cè)值與所述第三距離的預(yù)測(cè)值進(jìn)行比較;
若所述第三距離的預(yù)測(cè)值大于或者等于兩倍的所述第一距離的預(yù)測(cè)值,則將所述第二聚類中心點(diǎn)丟棄,以便進(jìn)行聚類距離遍歷時(shí),不再計(jì)算所述樣本點(diǎn)與所述第二聚類中心點(diǎn)之間的距離以及所述第二聚類中心點(diǎn)與其他待遍歷聚類中心點(diǎn)之間的距離;
基于已丟棄所述第二聚類中心點(diǎn)的聚類中心集進(jìn)行所述距離遍歷,獲得所述樣本集的聚類結(jié)果,所述聚類結(jié)果包括以所述年齡信息、所述性別信息、所述愛好信息和所述消費(fèi)金額信息為基準(zhǔn)維度對(duì)所述人群中的每一個(gè)人進(jìn)行聚類后的聚類信息。
A2、根據(jù)A1所述的方法,其特征在于,在所述獲得所述樣本集的聚類結(jié)果之后,所述方法還包括:
對(duì)所述聚類結(jié)果進(jìn)行分析,以對(duì)所述聚類方法進(jìn)行評(píng)價(jià)。
A3、根據(jù)A2所述的方法,其特征在于,所述對(duì)所述聚類結(jié)果進(jìn)行分析,以對(duì)所述聚類方法進(jìn)行評(píng)價(jià),具體包括:
通過熵值驗(yàn)證算法或純度驗(yàn)證算法對(duì)所述聚類結(jié)果進(jìn)行分析;
在所述熵值驗(yàn)證算法獲得的所述聚類結(jié)果的熵值小于第一預(yù)設(shè)值時(shí),確定 所述聚類方法滿足預(yù)設(shè)需求;或者
在所述純度驗(yàn)證算法獲得的所述聚類結(jié)果的純度大于第二預(yù)設(shè)值時(shí),確定所述聚類方法滿足所述預(yù)設(shè)需求。
A4、根據(jù)A1所述的方法,其特征在于,所述方法還包括:
若所述第三距離的預(yù)測(cè)值小于兩倍的所述第一距離的預(yù)測(cè)值,則根據(jù)上一次更新后的所述第一聚類中心點(diǎn)對(duì)所述第二聚類中心點(diǎn)進(jìn)行數(shù)據(jù)聚類處理。
A5、根據(jù)A3所述的方法,其特征在于,所述根據(jù)上一次更新后的所述第一聚類中心點(diǎn)對(duì)所述第二聚類中心點(diǎn)進(jìn)行數(shù)據(jù)聚類處理,包括:
計(jì)算所述上一次更新后的所述第一聚類中心點(diǎn)與所述樣本點(diǎn)之間的距離,得到第一距離的實(shí)際值;
按照三角形不等式規(guī)則將所述第一距離的實(shí)際值與所述第三距離的預(yù)測(cè)值進(jìn)行比較;
若所述第三距離的預(yù)測(cè)值大于或者等于兩倍的所述第一距離的實(shí)際值,則將所述第二聚類中心點(diǎn)丟棄,以便進(jìn)行聚類距離遍歷時(shí),不再計(jì)算所述樣本點(diǎn)與所述第二聚類中心點(diǎn)之間的距離以及所述第二聚類中心點(diǎn)與其他待遍歷聚類中心點(diǎn)之間的距離;
若所述第三距離的預(yù)測(cè)值小于兩倍的所述第一距離的實(shí)際值,則計(jì)算第四距離,并確定所述第四距離是否小于所述第一距離的實(shí)際值;其中,所述第四距離為所述樣本點(diǎn)與所述第二聚類中心點(diǎn)的距離;
若所述第四距離小于所述第一距離的實(shí)際值,則將所述第二聚類中心點(diǎn)確定為當(dāng)前距離遍歷過程中與所述樣本點(diǎn)距離最近的聚類中心點(diǎn);
若所述第四距離大于或者等于所述第一距離的實(shí)際值,則將所述上一次更新后的所述第一聚類中心點(diǎn)確定為當(dāng)前距離遍歷過程中與所述樣本點(diǎn)距離最近的聚類中心點(diǎn)。
A6、根據(jù)A5所述的方法,其特征在于,所述將所述第二聚類中心點(diǎn)確定為當(dāng)前距離遍歷過程中與所述樣本點(diǎn)距離最近的聚類中心點(diǎn),包括:
若所述第四距離小于所述第一距離的實(shí)際值,并且當(dāng)前聚類距離遍歷完成,則將所述第二聚類中心點(diǎn)賦值給所述上一次更新后的所述第一聚類中心點(diǎn),以及將所述第四距離賦值給所述第一距離的實(shí)際值;
若所述第四距離小于所述第一距離的實(shí)際值,并且當(dāng)前聚類距離遍歷未完成,則將所述第二聚類中心點(diǎn)賦值給所述上一次更新后的所述第一聚類中心點(diǎn),以及將所述第四距離賦值給所述第一距離的實(shí)際值,并基于賦值后的第一聚類中心點(diǎn)及賦值后的第一距離的實(shí)際值繼續(xù)遍歷所述當(dāng)前聚類中心集中的下一個(gè)聚類中心點(diǎn)。
A7、根據(jù)A5所述的方法,其特征在于,將所述上一次更新后的所述第一聚類中心點(diǎn)確定為當(dāng)前距離遍歷過程中與所述樣本點(diǎn)距離最近的聚類中心點(diǎn),包括:
若所述第四距離大于或者等于所述第一距離的實(shí)際值,并且當(dāng)前聚類距離遍歷完成,則將所述上一次更新后的所述第一聚類中心點(diǎn)確定為當(dāng)前距離遍歷過程中與所述樣本點(diǎn)距離最近的聚類中心點(diǎn);
若所述第四距離大于或者等于所述第一距離的實(shí)際值,并且當(dāng)前聚類距離遍歷未完成,則基于所述上一次更新后的所述第一聚類中心點(diǎn)以及所述第一距離的實(shí)際值繼續(xù)遍歷所述當(dāng)前聚類中心集中的下一個(gè)聚類中心點(diǎn)。
A8、根據(jù)A6或A7所述的方法,其特征在于,在計(jì)算第四距離之前,所述方法還包括:
計(jì)算第五距離,所述第五距離為所述第二聚類中心點(diǎn)與所述上一次更新后的所述第一聚類中心點(diǎn)之間的距離;
按照三角形不等式規(guī)則將所述第一距離的實(shí)際值與所述第五距離進(jìn)行比較;
若所述第五距離大于或者等于兩倍的所述第一距離的實(shí)際值,則將所述第二聚類中心點(diǎn)丟棄,以便進(jìn)行聚類遍歷時(shí),不再計(jì)算所述樣本點(diǎn)與所述第二聚類中心點(diǎn)之間的距離以及所述第二聚類中心點(diǎn)與其他待遍歷聚類中心點(diǎn)之間 的距離;
所述計(jì)算第四距離,包括:
若所述第五距離小于兩倍的所述第一距離的實(shí)際值,則執(zhí)行所述計(jì)算所述第四距離。
A9、根據(jù)A1-A7中任一項(xiàng)所述的方法,其特征在于,所述根據(jù)第二距離、所述第一聚類中心點(diǎn)上一次更新前后的自身差值以及第二聚類中心點(diǎn)上一次更新前后的自身差值獲取第三距離的預(yù)測(cè)值,包括:
獲取所述第一聚類中心點(diǎn)上一次更新前對(duì)應(yīng)的值及更新后對(duì)應(yīng)的值,并計(jì)算所述第一聚類中心點(diǎn)更新前后之間的第一差值;
獲取所述第二聚類中心點(diǎn)上一次更新前對(duì)應(yīng)的值及更新后對(duì)應(yīng)的值,并計(jì)算所述第二聚類中心點(diǎn)更新前后之間的第二差值;
將所述第二距離與所述第一差值及所述第二差值進(jìn)行減法計(jì)算,獲得所述第三距離的預(yù)測(cè)值。
A10、根據(jù)A7所述的方法,其特征在于,在將所述第二聚類中心點(diǎn)丟棄之后,在所述基于已丟棄所述第二聚類中心點(diǎn)的聚類中心集進(jìn)行所述距離遍歷,獲得所述樣本集的聚類結(jié)果之前,所述方法還包括:
判斷所述當(dāng)前聚類距離遍歷是否完成;
若未遍歷完成,則繼續(xù)遍歷所述當(dāng)前聚類中心集中的下一個(gè)聚類中心點(diǎn);
若遍歷完成,則將上一次更新后的第一聚類中心點(diǎn)確定為當(dāng)前距離遍歷過程中與所述樣本點(diǎn)距離最近的聚類中心點(diǎn)。
B11、一種人群聚類的裝置,其特征在于,包括:
獲得單元,用于獲得針對(duì)人群的樣本集以及所述樣本集的聚類中心集,所述樣本集中每個(gè)樣本點(diǎn)包括人群中對(duì)應(yīng)的個(gè)人的描述信息,所述描述信息至少包括年齡信息、性別信息、愛好信息和消費(fèi)金額信息;
聚類集獲得單元,用于針對(duì)所述樣本集中的每一個(gè)樣本點(diǎn),依次遍歷聚類中心集中的每一個(gè)聚類中心點(diǎn),確定所述每一個(gè)樣本點(diǎn)與所述聚類中心集中距 離最近的聚類中心點(diǎn),并將所述每一個(gè)樣本點(diǎn)劃分到所述聚類中心集中距離最近的聚類中心點(diǎn)對(duì)應(yīng)的集合中,獲得所述聚類中心集中的每一個(gè)聚類中心點(diǎn)對(duì)應(yīng)的聚類集;
平均值獲得單元,用于獲得所述聚類集中樣本點(diǎn)的平均值,并根據(jù)所述平均值更新所述聚類中心集;
第一獲取單元,用于根據(jù)第一聚類中心點(diǎn)上一次更新前后的自身差值獲取第一距離的預(yù)測(cè)值;其中,所述第一距離為需要進(jìn)行數(shù)據(jù)聚類的樣本點(diǎn)與所述第一聚類中心點(diǎn)之間的距離,所述第一聚類中心點(diǎn)為聚類距離遍歷中與所述樣本點(diǎn)距離最近的聚類中心點(diǎn);
第二獲取單元,用于根據(jù)第二距離、所述第一聚類中心點(diǎn)上一次更新前后的自身差值以及第二聚類中心點(diǎn)上一次更新前后的自身差值獲取第三距離的預(yù)測(cè)值,其中,所述第二距離為上一次聚類距離遍歷過程中所述第一聚類中心點(diǎn)與第二聚類中心點(diǎn)之間的距離,所述第二聚類中心點(diǎn)為當(dāng)前聚類距離遍歷過程中待遍歷的聚類中心點(diǎn);
比較單元,用于按照三角形不等式規(guī)則將所述第一獲取單元獲取的所述第一距離的預(yù)測(cè)值與所述第二獲取單元獲取的所述第三距離的預(yù)測(cè)值進(jìn)行比較;
丟棄單元,用于當(dāng)所述比較單元比較的所述第三距離的預(yù)測(cè)值大于或者等于兩倍的所述第一距離的預(yù)測(cè)值時(shí),將所述第二聚類中心點(diǎn)丟棄,以便進(jìn)行聚類距離遍歷時(shí),不再計(jì)算所述樣本點(diǎn)與所述第二聚類中心點(diǎn)之間的距離以及所述第二聚類中心點(diǎn)與其他待遍歷聚類中心點(diǎn)之間的距離;
聚類結(jié)果獲得單元,用于基于已丟棄所述第二聚類中心點(diǎn)的聚類中心集進(jìn)行所述距離遍歷,獲得所述樣本集的聚類結(jié)果,所述聚類結(jié)果包括以所述年齡信息、所述性別信息、所述愛好信息和所述消費(fèi)金額信息為基準(zhǔn)維度對(duì)所述人群中的每一個(gè)人進(jìn)行聚類后的聚類信息。
B12、根據(jù)B11所述的裝置,其特征在于,所述裝置還包括:
分析單元,用于在所述聚類結(jié)果獲得單元獲得所述聚類結(jié)果之后,對(duì)對(duì)所 述聚類結(jié)果進(jìn)行分析,以對(duì)所述聚類方法進(jìn)行評(píng)價(jià)。
B13、根據(jù)B12所述的裝置,其特征在于,所述分析單元具體用于通過熵值驗(yàn)證算法或純度驗(yàn)證算法對(duì)所述聚類結(jié)果進(jìn)行分析,其中,在所述熵值驗(yàn)證算法獲得的所述聚類結(jié)果的熵值小于第一預(yù)設(shè)值時(shí),確定所述聚類方法滿足預(yù)設(shè)需求,或者在所述純度驗(yàn)證算法獲得的所述聚類結(jié)果的純度大于第二預(yù)設(shè)值時(shí),確定所述聚類方法滿足所述預(yù)設(shè)需求。
B14、根據(jù)B11所述的裝置,其特征在于,所述裝置還包括:
處理單元,用于當(dāng)所述比較單元比較的所述第三距離的預(yù)測(cè)值小于兩倍的所述第一距離的預(yù)測(cè)值時(shí),根據(jù)上一次更新后的所述第一聚類中心點(diǎn)對(duì)所述第二聚類中心點(diǎn)進(jìn)行數(shù)據(jù)聚類處理。
B15、根據(jù)B14所述的裝置,其特征在于,所述處理單元具體用于:計(jì)算所述上一次更新后的所述第一聚類中心點(diǎn)與所述樣本點(diǎn)之間的距離,得到第一距離的實(shí)際值;
按照三角形不等式規(guī)則將所述第一計(jì)算模塊計(jì)算的所述第一距離的實(shí)際值與所述第三距離的預(yù)測(cè)值進(jìn)行比較;
當(dāng)所述第一比較模塊比較的所述第三距離的預(yù)測(cè)值大于或者等于兩倍的所述第一距離的實(shí)際值時(shí),將所述第二聚類中心點(diǎn)丟棄,以便進(jìn)行聚類距離遍歷時(shí),不再計(jì)算所述樣本點(diǎn)與所述第二聚類中心點(diǎn)之間的距離以及所述第二聚類中心點(diǎn)與其他待遍歷聚類中心點(diǎn)之間的距離;
當(dāng)所述第一比較模塊比較的所述第三距離的預(yù)測(cè)值小于兩倍的所述第一距離的實(shí)際值,則計(jì)算第四距離;其中,所述第四距離為所述樣本點(diǎn)與所述第二聚類中心點(diǎn)的距離;
確定所述第二計(jì)算模塊計(jì)算的所述第四距離是否小于所述第一距離的實(shí)際值;
當(dāng)所述第一確定模塊確定所述第四距離小于所述第一距離的實(shí)際值時(shí),將所述第二聚類中心點(diǎn)確定為當(dāng)前距離遍歷過程中與所述樣本點(diǎn)距離最近的聚 類中心點(diǎn);
當(dāng)所述第一確定模塊確定所述第四距離大于或者等于所述第一距離的實(shí)際值時(shí),將所述上一次更新后的所述第一聚類中心點(diǎn)確定為當(dāng)前距離遍歷過程中與所述樣本點(diǎn)距離最近的聚類中心點(diǎn)。
B16、根據(jù)B14所述的裝置,其特征在于,所述計(jì)算模塊具體還用于:
當(dāng)所述第四距離小于所述第一距離的實(shí)際值,并且當(dāng)前聚類距離遍歷完成時(shí),將所述第二聚類中心點(diǎn)賦值給所述上一次更新后的所述第一聚類中心點(diǎn),以及將所述第四距離賦值給所述第一距離的實(shí)際值;
當(dāng)所述第四距離小于所述第一距離的實(shí)際值,并且當(dāng)前聚類距離遍歷未完成時(shí),將所述第二聚類中心點(diǎn)賦值給所述上一次更新后的所述第一聚類中心點(diǎn),以及將所述第四距離賦值給所述第一距離的實(shí)際值,并基于賦值后的第一聚類中心點(diǎn)及賦值后的第一距離的實(shí)際值繼續(xù)遍歷所述當(dāng)前聚類中心集中的下一個(gè)聚類中心點(diǎn)。
B17、根據(jù)B14所述的裝置,其特征在于,所述計(jì)算模塊具體還用于:
當(dāng)所述第四距離大于或者等于所述第一距離的實(shí)際值,并且當(dāng)前聚類距離遍歷完成時(shí),將所述上一次更新后的所述第一聚類中心點(diǎn)確定為當(dāng)前距離遍歷過程中與所述樣本點(diǎn)距離最近的聚類中心點(diǎn);
當(dāng)所述第四距離大于或者等于所述第一距離的實(shí)際值,并且當(dāng)前聚類距離遍歷未完成,則基于所述上一次更新后的所述第一聚類中心點(diǎn)以及所述第一距離的實(shí)際值繼續(xù)遍歷所述當(dāng)前聚類中心集中的下一個(gè)聚類中心點(diǎn)。
B18、根據(jù)B16或B17所述的裝置,其特征在于,所述處理單元具體還用于:
在所述第二計(jì)算模塊計(jì)算的所述第四距離之前,計(jì)算第五距離,所述第五距離為所述第二聚類中心點(diǎn)與所述上一次更新后的所述第一聚類中心點(diǎn)之間的距離;
按照三角形不等式規(guī)則將所述第一計(jì)算模塊計(jì)算的所述第一距離的實(shí)際 值與所述第三計(jì)算模塊計(jì)算的所述第五距離進(jìn)行比較;
當(dāng)所述第二比較模塊比較的所述第五距離大于或者等于兩倍的所述第一距離的實(shí)際值,則將所述第二聚類中心點(diǎn)丟棄,以便進(jìn)行聚類遍歷時(shí),不再計(jì)算所述樣本點(diǎn)與所述第二聚類中心點(diǎn)之間的距離以及所述第二聚類中心點(diǎn)與其他待遍歷聚類中心點(diǎn)之間的距離;
當(dāng)所述第二比較模塊比較的所述第五距離小于兩倍的所述第一距離的實(shí)際值,則執(zhí)行所述計(jì)算所述第四距離。
B19、根據(jù)B11-B17中任一項(xiàng)所述的裝置,其特征在于,所述第二獲取單元,具體用于:
獲取所述第一聚類中心點(diǎn)上一次更新前對(duì)應(yīng)的值及更新后對(duì)應(yīng)的值,并計(jì)算所述第一聚類中心點(diǎn)更新前后之間的第一差值;
獲取所述第二聚類中心點(diǎn)上一次更新前對(duì)應(yīng)的值及更新后對(duì)應(yīng)的值,并計(jì)算所述第二聚類中心點(diǎn)更新前后之間的第二差值;
所述第二距離與所述第一處理模塊計(jì)算的所述第一差值及所述第二處理模塊計(jì)算的所述第二差值進(jìn)行減法計(jì)算,獲得所述第三距離的預(yù)測(cè)值。
B20、根據(jù)B17所述的裝置,其特征在于,所述裝置還包括:
判斷單元,在所述丟棄單元將所述第二聚類中心點(diǎn)丟棄之后,判斷所述當(dāng)前聚類距離遍歷是否完成;
遍歷單元,當(dāng)所述判斷單元判斷未遍歷完成時(shí),繼續(xù)遍歷所述當(dāng)前聚類中心集中的下一個(gè)聚類中心點(diǎn);
確定單元,用于當(dāng)所述判斷單元判斷遍歷完成時(shí),將上一次更新后的第一聚類中心點(diǎn)確定為當(dāng)前距離遍歷過程中與所述樣本點(diǎn)距離最近的聚類中心點(diǎn)。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本發(fā)明可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、 CD-ROM、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。
這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。
這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。
顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。