亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種數(shù)據(jù)聚類方法和裝置與流程

文檔序號:12271347閱讀:203來源:國知局
一種數(shù)據(jù)聚類方法和裝置與流程

本申請涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,特別是涉及一種數(shù)據(jù)聚類方法和一種數(shù)據(jù)聚類裝置。



背景技術(shù):

聚類是將物理或抽象對象的集合分成由類似的對象組成的多個類的過程。由聚類所生成的簇是一組數(shù)據(jù)對象的集合,這些對象與同一個簇中的對象彼此相似,與其他簇中的對象相異。

數(shù)據(jù)的聚類是數(shù)據(jù)挖掘中一個重要的課題,在眾多的聚類算法中,k-means聚類作為一種經(jīng)典的聚類方法之一,因其準(zhǔn)確、結(jié)構(gòu)簡單、速度快等優(yōu)勢而被廣泛運(yùn)用。

在k-means聚類算法的每一次迭代中,待聚類數(shù)據(jù)都必須和K個聚類中心計(jì)算距離,最終選擇距離最近的聚類中心為最終的聚類中心。然而,大數(shù)據(jù)時代,被聚類的數(shù)據(jù)一般是海量的而且是高緯度的,當(dāng)數(shù)據(jù)量大、數(shù)據(jù)維度高的時候,從多個高維度的聚類中心中找到與待聚類數(shù)據(jù)距離最近的一個聚類中心,是一件相當(dāng)費(fèi)時的事情,這使得k-means在面對大量高維數(shù)據(jù)時,聚類的速度大大降低,甚至不可用。

因此,目前需要本領(lǐng)域技術(shù)人員迫切解決的一個技術(shù)問題就是:如何提高數(shù)據(jù)聚類的速度。



技術(shù)實(shí)現(xiàn)要素:

為了解決上述技術(shù)問題,本申請實(shí)施例提供了一種數(shù)據(jù)聚類方法,能夠提高數(shù)據(jù)聚類速度。

相應(yīng)的,本申請實(shí)施例還提供了一種數(shù)據(jù)聚類裝置,用以保證上述方法的實(shí)現(xiàn)及應(yīng)用。

為了解決上述問題,本申請公開了一種數(shù)據(jù)聚類方法,包括:

建立初始化的聚類中心及根據(jù)所述聚類中心建立多維樹kd-tree;

對待聚類數(shù)據(jù)進(jìn)行聚類,包括:在所述聚類中心中根據(jù)所述kd-tree分別查找與各待聚類數(shù)據(jù)距離最近的聚類中心;

根據(jù)聚類后所述聚類中心對應(yīng)的待聚類數(shù)據(jù)修正所述聚類中心;

執(zhí)行迭代過程,包括根據(jù)修正后的聚類中心重復(fù)建立kd-tree,重復(fù)所述對待聚類數(shù)據(jù)進(jìn)行聚類及重復(fù)所述修正所述聚類中心的過程;

判斷迭代是否完成;

若是,則將最后一次迭代獲得的聚類中心及其對應(yīng)的待聚類數(shù)據(jù)作為聚類結(jié)果。

進(jìn)一步,所述建立kd-tree,包括:

按照近似最近鄰搜索ANN方法建立kd-tree。

進(jìn)一步,所述對待聚類數(shù)據(jù)進(jìn)行聚類,包括:

將所述待聚類數(shù)據(jù)劃分至分布式的計(jì)算節(jié)點(diǎn)中并行對所述待聚類數(shù)據(jù)進(jìn)行聚類,其中,所述分布式的計(jì)算節(jié)點(diǎn)中均設(shè)置有所述kd-tree。

進(jìn)一步,在所述對待聚類數(shù)據(jù)進(jìn)行聚類之前,還包括:

將建立的所述kd-tree分發(fā)至所述分布式的計(jì)算節(jié)點(diǎn)中。

進(jìn)一步,所述根據(jù)聚類后所述聚類中心對應(yīng)的待聚類數(shù)據(jù)修正所述聚類中心,包括:

分別計(jì)算聚類后各所述聚類中心對應(yīng)的待聚類數(shù)據(jù)的重心;

將所述聚類中心對應(yīng)的待聚類數(shù)據(jù)的重心作為對應(yīng)的修正后的聚類中心。

進(jìn)一步,所述判斷迭代是否完成,包括:

判斷迭代次數(shù)是否達(dá)到次數(shù)閾值,若是,則確定迭代完成;或者,

判斷一次迭代過程中修正前后的聚類中心之間的平均移動距離是否小于距離閾值,若是,則確定迭代完成。

本申請實(shí)施例還公開了一種數(shù)據(jù)聚類裝置,包括:

創(chuàng)建單元,被配置為建立初始化的聚類中心及根據(jù)所述聚類中心建立kd-tree;

聚類單元,被配置為對待聚類數(shù)據(jù)進(jìn)行聚類,包括:在所述聚類中心中 根據(jù)所述kd-tree分別查找與各待聚類數(shù)據(jù)距離最近的聚類中心;

修正單元,被配置為根據(jù)聚類后所述聚類中心對應(yīng)的待聚類數(shù)據(jù)修正所述聚類中心;

迭代單元,被配置為執(zhí)行迭代過程,包括根據(jù)修正后的聚類中心重復(fù)建立kd-tree,重復(fù)所述對待聚類數(shù)據(jù)進(jìn)行聚類及重復(fù)所述修正所述聚類中心的過程;

判斷單元,被配置為判斷迭代是否完成;

結(jié)果確定單元,被配置為當(dāng)所述判斷單元判斷迭代完成時,將最后一次迭代獲得的聚類中心及其對應(yīng)的待聚類數(shù)據(jù)作為聚類結(jié)果。

進(jìn)一步,所述創(chuàng)建單元,被配置為按照近似最近鄰搜索ANN方法建立kd-tree。

進(jìn)一步,所述聚類單元,被配置為將所述待聚類數(shù)據(jù)劃分至分布式的計(jì)算節(jié)點(diǎn)中并行對所述待聚類數(shù)據(jù)進(jìn)行聚類,其中,所述分布式的計(jì)算節(jié)點(diǎn)中均設(shè)置有所述kd-tree。

進(jìn)一步,所述裝置還包括:

分發(fā)單元,被配置為在所述聚類單元對待聚類數(shù)據(jù)進(jìn)行聚類之前,將建立的所述kd-tree分發(fā)至所述分布式的計(jì)算節(jié)點(diǎn)中。

進(jìn)一步,所述修正單元包括:

計(jì)算子單元,被配置為分別計(jì)算聚類后各所述聚類中心對應(yīng)的待聚類數(shù)據(jù)的重心;

確定子單元,被配置為將所述聚類中心對應(yīng)的待聚類數(shù)據(jù)的重心作為對應(yīng)的修正后的聚類中心。

進(jìn)一步,所述判斷單元,被配置為判斷迭代次數(shù)是否達(dá)到次數(shù)閾值,若是,則確定迭代完成;或者,判斷一次迭代過程中修正前后的聚類中心之間的平均移動距離是否小于距離閾值,若是,則確定迭代完成。

與現(xiàn)有技術(shù)相比,本申請實(shí)施例包括以下優(yōu)點(diǎn):

本申請實(shí)施例通過建立kd-tree(多維樹),使得在聚類過程中可以利用kd-tree查找與各待聚類數(shù)據(jù)距離最近的聚類中心,改變了k-means聚類算法 中逐一計(jì)算獲得聚類中心的方法,加快了聚類中心的查找速度,進(jìn)而加快了數(shù)據(jù)聚類的速度。尤其當(dāng)數(shù)據(jù)量大、數(shù)據(jù)維度高時,可以快速的從多個高維度的聚類中心中找到與待聚類數(shù)據(jù)距離最近的一個聚類中心,提高了聚類的速度。

附圖說明

圖1是本申請的一種數(shù)據(jù)聚類方法實(shí)施例的步驟流程圖;

圖2是本申請的另一種數(shù)據(jù)聚類方法實(shí)施例的步驟流程圖;

圖3是本申請的一種數(shù)據(jù)聚類裝置實(shí)施例的結(jié)構(gòu)框圖;

圖4是本申請的一種修正單元的結(jié)構(gòu)框圖;

圖5是本申請的一種數(shù)據(jù)聚類裝置實(shí)施例的結(jié)構(gòu)框圖。

具體實(shí)施方式

為使本申請的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式對本申請作進(jìn)一步詳細(xì)的說明。

參照圖1,示出了本申請的一種數(shù)據(jù)聚類方法實(shí)施例的步驟流程圖,具體可以包括如下步驟:

步驟101,建立初始化的聚類中心及根據(jù)聚類中心建立kd-tree。

本申請實(shí)施例中,用于進(jìn)行數(shù)據(jù)聚類的裝置(以下簡稱該裝置)首先建立初始化的聚類中心,具體可以是采用隨機(jī)選擇的向量作為初始化的聚類中心,例如在待聚類數(shù)據(jù)的向量中隨機(jī)的選擇K個向量作為初始化的聚類中心。其中,待聚類數(shù)據(jù)一般是一個個向量,同一批待聚類的數(shù)據(jù)一般維度都一樣。

該裝置在本步驟中還進(jìn)一步根據(jù)初始化的聚類中心建立kd-tree。kd-tree是k-dimensional樹的簡稱,是一種分割k維數(shù)據(jù)空間的數(shù)據(jù)結(jié)構(gòu)。主要應(yīng)用于多維空間關(guān)鍵數(shù)據(jù)的搜索,如范圍搜索和最近鄰搜索。

建立kd-tree的方法有多種,本申請實(shí)施例中可以采用ANN(Approximate Nearest Neighbor Search,近似最近鄰搜索)方法對初始化的聚類中心建立至少一個kd-tree,按照ANN方法,可對方差較大的多個維度進(jìn)行隨機(jī)選擇建 立多個kd-tree,這些kd-tree是隨機(jī)的kd-tree,建立的kd-tree使用現(xiàn)有的優(yōu)化后的best-bin-first算法,可快速的從眾多的高維聚類中心中找到距離當(dāng)前向量最近的聚類中心。上述ANN是一種快速的kd-tree搜索算法,原始的kd-tree搜索算法由于每次需要回溯檢驗(yàn)大量節(jié)點(diǎn),并且都得回到根節(jié)點(diǎn),導(dǎo)致搜索近鄰的速度極慢,特別到了高維空間,搜索速度接近最慢的線性搜索。ANN提出了一種優(yōu)先搜索隊(duì)列的方式,可極大提高搜索速度,因此可以將kd-tree的應(yīng)用擴(kuò)展到高維空間。

步驟102,對待聚類數(shù)據(jù)進(jìn)行聚類。

在建立聚類中心及kd-tree后,本步驟即可在聚類中心中根據(jù)kd-tree分別查找與各待聚類數(shù)據(jù)距離最近的聚類中心,從而可以獲得各初始化的聚類中心所對應(yīng)的與其距離最近的待聚類數(shù)據(jù),該過程即為聚類過程。

步驟103,根據(jù)聚類后聚類中心對應(yīng)的待聚類數(shù)據(jù)修正該聚類中心。

本步驟中該裝置利用各初始化的聚類中心對應(yīng)的待聚類數(shù)據(jù),分別重新計(jì)算各聚類中心,從而獲得修正后的聚類中心,該過程即為修正初始化的聚類中心的過程。

具體的修正方法有多種,可以是抽取聚類中心對應(yīng)的待聚類數(shù)據(jù)中的部分?jǐn)?shù)據(jù)計(jì)算平均值,也可以是對聚類中心對應(yīng)的待聚類數(shù)據(jù)賦予權(quán)重后計(jì)算均值等。

在一實(shí)施例中,具體可以是:分別計(jì)算聚類后各聚類中心對應(yīng)的待聚類數(shù)據(jù)的重心,然后將聚類中心對應(yīng)的待聚類數(shù)據(jù)的重心作為對應(yīng)的修正后的聚類中心。

其中,重心的每個維度特征的值可以是聚類中心對應(yīng)的所有待聚類數(shù)據(jù)在此維度特征值的算術(shù)平均值。

步驟104,執(zhí)行迭代過程,包括根據(jù)修正后的聚類中心重復(fù)建立kd-tree,重復(fù)對待聚類數(shù)據(jù)進(jìn)行聚類及重復(fù)修正聚類中心的過程。

本步驟中的迭代過程為對聚類中心進(jìn)行迭代計(jì)算的過程。

在獲得修正后的聚類中心后,根據(jù)該修正后的聚類中心重新建立kd-tree,并將該修正后的聚類中心代替步驟101中初始化的聚類中心,重復(fù) 執(zhí)行前述步驟102~103,即在聚類中心中根據(jù)新建的kd-tree分別查找與各待聚類數(shù)據(jù)距離最近的聚類中心;根據(jù)聚類后聚類中心對應(yīng)的待聚類數(shù)據(jù)修正聚類中心。每迭代一次,執(zhí)行步驟105。

步驟105,判斷迭代是否完成。

根據(jù)預(yù)置條件判斷迭代是否完成。

具體可以是:

判斷迭代次數(shù)是否達(dá)到次數(shù)閾值,若是,則確定迭代完成;或者,

判斷一次迭代過程中修正前后的聚類中心之間的平均移動距離是否小于距離閾值,若是,則確定迭代完成。

若迭代完成,則執(zhí)行步驟106,若否,則重復(fù)執(zhí)行步驟104進(jìn)行下一次迭代。

步驟106,將最后一次迭代獲得的聚類中心及其對應(yīng)的待聚類數(shù)據(jù)作為聚類結(jié)果。

在判斷迭代完成后,即可將最后一次迭代獲得的聚類中心及其對應(yīng)的待聚類數(shù)據(jù)作為最終的聚類結(jié)果,從而完成對待聚類數(shù)據(jù)的聚類過程。

本申請實(shí)施例通過建立kd-tree,使得在聚類過程中可以利用kd-tree查找與各待聚類數(shù)據(jù)距離最近的聚類中心,改變了k-means聚類算法中逐一計(jì)算獲得聚類中心的方法,加快了聚類中心的查找速度,進(jìn)而加快了數(shù)據(jù)聚類的速度。尤其當(dāng)數(shù)據(jù)量大、數(shù)據(jù)維度高時,可以快速的從多個高維度的聚類中心中找到與待聚類數(shù)據(jù)距離最近的一個聚類中心,提高了聚類的速度。

參照圖2,示出了本申請的另一種數(shù)據(jù)聚類方法實(shí)施例的步驟流程圖,具體可以包括如下步驟:

步驟201,建立初始化的聚類中心及根據(jù)聚類中心建立kd-tree。

本實(shí)施例可以應(yīng)用于對海量高維數(shù)據(jù)進(jìn)行聚類的場景。本步驟可以按照ANN方法建立kd-tree;建立初始化的聚類中心的過程與前述步驟101類似。

步驟202,將建立的kd-tree分發(fā)至分布式的計(jì)算節(jié)點(diǎn)中。

本實(shí)施例中,為了加快對海量數(shù)據(jù)的聚類過程,該裝置可以預(yù)先設(shè)置有多個分布式的計(jì)算節(jié)點(diǎn)。本步驟中,可以首先將上步驟建立的多個高維的 kd-tree封裝到一個數(shù)據(jù)結(jié)構(gòu)(codebook)中,然后將該codebook通過分布式緩存的方式發(fā)送到各個分布式計(jì)算節(jié)點(diǎn)。

步驟203,將待聚類數(shù)據(jù)劃分至分布式的計(jì)算節(jié)點(diǎn)中并行對待聚類數(shù)據(jù)進(jìn)行聚類。

各分布式計(jì)算節(jié)點(diǎn)接收到codebook后,即均可獲得其中的多個高維kd-tree。本步驟中,該裝置即可將所有的待聚類數(shù)據(jù)劃分至各分布式的計(jì)算節(jié)點(diǎn)中,具體的可以是將待聚類數(shù)據(jù)平均分散至各分布式計(jì)算節(jié)點(diǎn)中,也可以根據(jù)各分布式計(jì)算節(jié)點(diǎn)的負(fù)載情況劃分待聚類數(shù)據(jù)。

在劃分待聚類數(shù)據(jù)后,各分布式計(jì)算節(jié)點(diǎn)即可并行對本節(jié)點(diǎn)內(nèi)的待聚類數(shù)據(jù)進(jìn)行聚類,即各節(jié)點(diǎn)在上步驟建立的初始化的聚類中心中根據(jù)該節(jié)點(diǎn)內(nèi)的kd-tree分別查找與本節(jié)點(diǎn)內(nèi)各待聚類數(shù)據(jù)距離最近的聚類中心。其中,各節(jié)點(diǎn)對本節(jié)點(diǎn)內(nèi)待聚類數(shù)據(jù)進(jìn)行聚類的過程與前述步驟102類似。

例如,將100萬個待聚類數(shù)據(jù)劃分至100個分布式計(jì)算節(jié)點(diǎn)中,每個分布式計(jì)算節(jié)點(diǎn)可以只對100個待聚類數(shù)據(jù)進(jìn)行聚類,從而可以加快聚類速度。

步驟204,根據(jù)聚類后聚類中心對應(yīng)的待聚類數(shù)據(jù)修正聚類中心。

在各分布式計(jì)算節(jié)點(diǎn)查找到本節(jié)點(diǎn)內(nèi)各待聚類數(shù)據(jù)對應(yīng)的距離最近的聚類中心后,該裝置可以統(tǒng)計(jì)各分布式計(jì)算節(jié)點(diǎn)的聚類結(jié)果,獲得各聚類中心對應(yīng)的所有分布式計(jì)算節(jié)點(diǎn)中的待聚類數(shù)據(jù),然后該裝置可將同一聚類中心對應(yīng)的待聚類數(shù)據(jù)劃分至同一個分布式計(jì)算節(jié)點(diǎn)中,各分布式計(jì)算節(jié)點(diǎn)并行根據(jù)聚類中心對應(yīng)的所有待聚類數(shù)據(jù)計(jì)算修正后的聚類中心,這樣可以加快修正過程,修正方法與前述實(shí)施例步驟103中的修正方法類似。

步驟205,執(zhí)行迭代過程。

該迭代過程包括根據(jù)修正后的聚類中心重復(fù)在各分布式計(jì)算節(jié)點(diǎn)并行對本節(jié)點(diǎn)內(nèi)的待聚類數(shù)據(jù)進(jìn)行聚類的過程,以及重復(fù)修正聚類中心的過程。

步驟206,判斷迭代是否完成。

每迭代一次,均根據(jù)預(yù)置條件判斷迭代是否完成。判斷過程與前述實(shí)施例中的步驟105類似。

若迭代完成,則執(zhí)行步驟207,若否,則重復(fù)執(zhí)行步驟205進(jìn)行下一次 迭代。

步驟207,將最后一次迭代獲得的聚類中心及其對應(yīng)的待聚類數(shù)據(jù)作為聚類結(jié)果。

本申請實(shí)施例不僅通過結(jié)合kd-tree加快了聚類中心的查找速度,而且通過將待聚類數(shù)據(jù)分散到分布式計(jì)算中心中,并行查找待聚類數(shù)據(jù)的聚類中心,更提高了數(shù)據(jù)聚類的速度。尤其當(dāng)數(shù)據(jù)量大、數(shù)據(jù)維度高時,本實(shí)施例可以大大提高聚類的速度。

需要說明的是,對于方法實(shí)施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本申請實(shí)施例并不受所描述的動作順序的限制,因?yàn)橐罁?jù)本申請實(shí)施例,某些步驟可以采用其他順序或者同時進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動作并不一定是本申請實(shí)施例所必須的。

參照圖3,示出了本申請一種數(shù)據(jù)聚類裝置實(shí)施例的結(jié)構(gòu)框圖,具體可以包括如下單元:

創(chuàng)建單元301,被配置為建立初始化的聚類中心及根據(jù)聚類中心建立kd-tree。

聚類單元302,被配置為對待聚類數(shù)據(jù)進(jìn)行聚類,包括:在所述聚類中心中根據(jù)所述kd-tree分別查找與各待聚類數(shù)據(jù)距離最近的聚類中心。

修正單元303,被配置為根據(jù)聚類后所述聚類中心對應(yīng)的待聚類數(shù)據(jù)修正所述聚類中心。

迭代單元304,被配置為執(zhí)行迭代過程,包括根據(jù)修正后的聚類中心重復(fù)建立kd-tree,重復(fù)所述對待聚類數(shù)據(jù)進(jìn)行聚類及重復(fù)所述修正所述聚類中心的過程。

判斷單元305,被配置為判斷迭代是否完成。

結(jié)果確定單元306,被配置為當(dāng)所述判斷單元判斷迭代完成時,將最后一次迭代獲得的聚類中心及其對應(yīng)的待聚類數(shù)據(jù)作為聚類結(jié)果。

該裝置通過上述單元建立kd-tree,使得在聚類過程中可以利用kd-tree 查找與各待聚類數(shù)據(jù)距離最近的聚類中心,改變了k-means聚類算法中逐一計(jì)算獲得聚類中心的方法,加快了聚類中心的查找速度,進(jìn)而加快了數(shù)據(jù)聚類的速度。尤其當(dāng)數(shù)據(jù)量大、數(shù)據(jù)維度高時,可以快速的從多個高維度的聚類中心中找到與待聚類數(shù)據(jù)距離最近的一個聚類中心,提高了聚類的速度。

在另一實(shí)施例中,創(chuàng)建單元301,可以被配置為按照近似最近鄰搜索ANN方法建立kd-tree。

在另一實(shí)施例中,如圖4所示,修正單元303可以進(jìn)一步包括:

計(jì)算子單元401,被配置為分別計(jì)算聚類后各所述聚類中心對應(yīng)的待聚類數(shù)據(jù)的重心。

確定子單元402,被配置為將所述聚類中心對應(yīng)的待聚類數(shù)據(jù)的重心作為對應(yīng)的修正后的聚類中心。

在另一實(shí)施例中,判斷單元305,可以被配置為判斷迭代次數(shù)是否達(dá)到次數(shù)閾值,若是,則確定迭代完成;或者,判斷一次迭代過程中修正前后的聚類中心之間的平均移動距離是否小于距離閾值,若是,則確定迭代完成。

在另一實(shí)施例中,如圖5所示,該裝置還可以包括:

分發(fā)單元501,被配置為在所述聚類單元302對待聚類數(shù)據(jù)進(jìn)行聚類之前,將建立的所述kd-tree分發(fā)至所述分布式的計(jì)算節(jié)點(diǎn)中。

聚類單元302,被配置為將所述待聚類數(shù)據(jù)劃分至分布式的計(jì)算節(jié)點(diǎn)中并行對所述待聚類數(shù)據(jù)進(jìn)行聚類,其中,所述分布式的計(jì)算節(jié)點(diǎn)中均設(shè)置有所述kd-tree。

本申請實(shí)施例不僅通過結(jié)合kd-tree加快了聚類中心的查找速度,而且通過將待聚類數(shù)據(jù)分散到分布式計(jì)算中心中,并行查找待聚類數(shù)據(jù)的聚類中心,更提高了數(shù)據(jù)聚類的速度。尤其當(dāng)數(shù)據(jù)量大、數(shù)據(jù)維度高時,本實(shí)施例可以大大提高聚類的速度。

本申請實(shí)施例還提供了一種電子設(shè)備,包括存儲器和處理器。

處理器與存儲器通過總線相互連接;總線可以是ISA總線、PCI總線或EISA總線等。所述總線可以分為地址總線、數(shù)據(jù)總線、控制總線等。

其中,存儲器用于存儲一段程序,具體地,程序可以包括程序代碼,所 述程序代碼包括計(jì)算機(jī)操作指令。存儲器可能包含高速RAM存儲器,也可能還包括非易失性存儲器(non-volatile memory),例如至少一個磁盤存儲器。

處理器用于讀取存儲器中的程序代碼,執(zhí)行以下步驟:

建立初始化的聚類中心及根據(jù)聚類中心建立kd-tree;

對待聚類數(shù)據(jù)進(jìn)行聚類,包括:在所述聚類中心中根據(jù)所述kd-tree分別查找與各待聚類數(shù)據(jù)距離最近的聚類中心;

根據(jù)聚類后所述聚類中心對應(yīng)的待聚類數(shù)據(jù)修正所述聚類中心;

執(zhí)行迭代過程,包括根據(jù)修正后的聚類中心重復(fù)建立kd-tree,重復(fù)所述對待聚類數(shù)據(jù)進(jìn)行聚類及重復(fù)所述修正所述聚類中心的過程;

判斷迭代是否完成;

若是,則將最后一次迭代獲得的聚類中心及其對應(yīng)的待聚類數(shù)據(jù)作為聚類結(jié)果。

對于裝置實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。

本說明書中的各個實(shí)施例均采用遞進(jìn)的方式描述,每個實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處,各個實(shí)施例之間相同相似的部分互相參見即可。

本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請實(shí)施例的實(shí)施例可提供為方法、裝置、或計(jì)算機(jī)程序產(chǎn)品。因此,本申請實(shí)施例可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本申請實(shí)施例可采用在一個或多個其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學(xué)存儲器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。

在一個典型的配置中,所述計(jì)算機(jī)設(shè)備包括一個或多個處理器(CPU)、輸入/輸出接口、網(wǎng)絡(luò)接口和內(nèi)存。內(nèi)存可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲器,隨機(jī)存取存儲器(RAM)和/或非易失性內(nèi)存等形 式,如只讀存儲器(ROM)或閃存(flash RAM)。內(nèi)存是計(jì)算機(jī)可讀介質(zhì)的示例。計(jì)算機(jī)可讀介質(zhì)包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術(shù)來實(shí)現(xiàn)信息存儲。信息可以是計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計(jì)算機(jī)的存儲介質(zhì)的例子包括,但不限于相變內(nèi)存(PRAM)、靜態(tài)隨機(jī)存取存儲器(SRAM)、動態(tài)隨機(jī)存取存儲器(DRAM)、其他類型的隨機(jī)存取存儲器(RAM)、只讀存儲器(ROM)、電可擦除可編程只讀存儲器(EEPROM)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤只讀存儲器(CD-ROM)、數(shù)字多功能光盤(DVD)或其他光學(xué)存儲、磁盒式磁帶,磁帶磁磁盤存儲或其他磁性存儲設(shè)備或任何其他非傳輸介質(zhì),可用于存儲可以被計(jì)算設(shè)備訪問的信息。按照本文中的界定,計(jì)算機(jī)可讀介質(zhì)不包括非持續(xù)性的電腦可讀媒體(transitory media),如調(diào)制的數(shù)據(jù)信號和載波。

本申請實(shí)施例是參照根據(jù)本申請實(shí)施例的方法、終端設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備的處理器以產(chǎn)生一個機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。

這些計(jì)算機(jī)程序指令也可存儲在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲器中,使得存儲在該計(jì)算機(jī)可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。

這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備上,使得在計(jì)算機(jī)或其他可編程終端設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程終端設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中 指定的功能的步驟。

盡管已描述了本申請實(shí)施例的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對這些實(shí)施例做出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本申請實(shí)施例范圍的所有變更和修改。

最后,還需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實(shí)體或者操作與另一個實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者終端設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者終端設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個......”限定的要素,并不排除在包括所述要素的過程、方法、物品或者終端設(shè)備中還存在另外的相同要素。

以上對本申請所提供的一種數(shù)據(jù)聚類方法和一種數(shù)據(jù)聚類裝置,進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個例對本申請的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本申請的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本申請的思想,在具體實(shí)施方式及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本申請的限制。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1