本發(fā)明涉及一種用于分析新增企業(yè)與區(qū)域經(jīng)濟(jì)活躍度關(guān)聯(lián)性的數(shù)據(jù)挖掘方法。
背景技術(shù):
:近些年來(lái),隨著國(guó)家經(jīng)濟(jì)飛速發(fā)展,以及政府大力支持自主創(chuàng)業(yè),新增的企業(yè)也越來(lái)越多。但是新增的企業(yè)在地區(qū)上也存在很大的差異性,如北上廣深,這些經(jīng)濟(jì)發(fā)達(dá)的地區(qū),每年新增的企業(yè)無(wú)論是數(shù)量還是規(guī)模上都遠(yuǎn)遠(yuǎn)超過(guò)其他地區(qū)。如何從新注冊(cè)的企業(yè)入手,通過(guò)分析各個(gè)地區(qū)注冊(cè)企業(yè)的信息,分析地區(qū)新增企業(yè)的數(shù)量、規(guī)模與該地區(qū)經(jīng)濟(jì)活躍度之間存在的關(guān)系。技術(shù)實(shí)現(xiàn)要素:本發(fā)明的目的是克服現(xiàn)有技術(shù)存在的不足,提供一種用于分析新增企業(yè)與區(qū)域經(jīng)濟(jì)活躍度關(guān)聯(lián)性的數(shù)據(jù)挖掘方法。本發(fā)明的目的通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn):分析新增企業(yè)與區(qū)域經(jīng)濟(jì)活躍度關(guān)聯(lián)性的數(shù)據(jù)挖掘方法,特點(diǎn)是包含以下步驟:(一)數(shù)據(jù)收集,采集某年地區(qū)注冊(cè)企業(yè)的注冊(cè)資金數(shù)據(jù)、注冊(cè)企業(yè)的數(shù)量數(shù)據(jù)、以及該地區(qū)該年份的gdp數(shù)據(jù)和新增就業(yè)情況數(shù)據(jù),每一個(gè)地區(qū)作為一個(gè)數(shù)據(jù)對(duì)象;(二)數(shù)據(jù)預(yù)處理,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,使數(shù)據(jù)為平滑數(shù)據(jù);(三)采用k-means算法進(jìn)行聚類(lèi)分析;(四)根據(jù)聚類(lèi)將數(shù)據(jù)集分為k個(gè)類(lèi),按照所給企業(yè)數(shù)據(jù)對(duì)各個(gè)地方的經(jīng)濟(jì)進(jìn)行預(yù)測(cè)最終結(jié)果。進(jìn)一步地,上述的分析新增企業(yè)與區(qū)域經(jīng)濟(jì)活躍度關(guān)聯(lián)性的數(shù)據(jù)挖掘方法,其中,步驟(三)包括以下步驟:1)確定聚類(lèi)的分組組數(shù)k的值和結(jié)束條件;2)確定初始化聚類(lèi)的中心,從數(shù)據(jù)中選取k個(gè)數(shù)據(jù)對(duì)象作為k個(gè)組的初始聚類(lèi)中心;3)進(jìn)行初始分組,計(jì)算數(shù)據(jù)集中的每個(gè)數(shù)據(jù)對(duì)象到k個(gè)聚類(lèi)中心點(diǎn)的距離,將該數(shù)據(jù)對(duì)象分到距離最小的類(lèi)中;4)更新聚類(lèi)中心,將每個(gè)類(lèi)中所有數(shù)據(jù)對(duì)象的平均值作為該類(lèi)新的聚類(lèi)中心;5)檢查是否滿足結(jié)束條件,若滿足則完成聚類(lèi),否則重復(fù)步驟3)~5),直至達(dá)到結(jié)束條件為止。更進(jìn)一步地,上述的分析新增企業(yè)與區(qū)域經(jīng)濟(jì)活躍度關(guān)聯(lián)性的數(shù)據(jù)挖掘方法,其中,步驟1)中,結(jié)束條件為迭代次數(shù)達(dá)到一個(gè)設(shè)定的值,或者誤差小于給定的閾值。更進(jìn)一步地,上述的分析新增企業(yè)與區(qū)域經(jīng)濟(jì)活躍度關(guān)聯(lián)性的數(shù)據(jù)挖掘方法,其中,迭代次數(shù)達(dá)到1000次,或者聚類(lèi)的中心不再改變。更進(jìn)一步地,上述的分析新增企業(yè)與區(qū)域經(jīng)濟(jì)活躍度關(guān)聯(lián)性的數(shù)據(jù)挖掘方法,其中,步驟2)中,在確定初始聚類(lèi)中心時(shí),選取區(qū)別較大的數(shù)據(jù)對(duì)象。更進(jìn)一步地,上述的分析新增企業(yè)與區(qū)域經(jīng)濟(jì)活躍度關(guān)聯(lián)性的數(shù)據(jù)挖掘方法,其中,步驟3)中,所述距離為歐幾里得距離,歐幾里得距離為:其中,rin是第i個(gè)數(shù)據(jù)對(duì)象的第n維數(shù)據(jù),rjn是第j個(gè)聚類(lèi)中心的第n維數(shù)據(jù),其中(j∈[1,k.])n代表一個(gè)數(shù)據(jù)對(duì)象當(dāng)前所在維度,m是數(shù)據(jù)對(duì)象的維數(shù)。更進(jìn)一步地,上述的分析新增企業(yè)與區(qū)域經(jīng)濟(jì)活躍度關(guān)聯(lián)性的數(shù)據(jù)挖掘方法,其中,步驟(一)中,數(shù)據(jù)對(duì)象組成的數(shù)據(jù)集表示為p={r1,r2,…,rm},其中r1,r2,…,rm為m個(gè)數(shù)據(jù)對(duì)象,其中每個(gè)數(shù)據(jù)對(duì)象都有n個(gè)維度,m個(gè)數(shù)據(jù)對(duì)象組成的矩陣為:更進(jìn)一步地,上述的分析新增企業(yè)與區(qū)域經(jīng)濟(jì)活躍度關(guān)聯(lián)性的數(shù)據(jù)挖掘方法,其中,步驟(二)中,用分箱法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,去掉臟數(shù)據(jù),確保數(shù)據(jù)平滑。再進(jìn)一步地,上述的分析新增企業(yè)與區(qū)域經(jīng)濟(jì)活躍度關(guān)聯(lián)性的數(shù)據(jù)挖掘方法,其中,將數(shù)據(jù)按照企業(yè)類(lèi)型分組,每一組都按照企業(yè)注冊(cè)資金進(jìn)行排序,將每組中最大的和最小的1%的數(shù)據(jù)刪除。再進(jìn)一步地,上述的分析新增企業(yè)與區(qū)域經(jīng)濟(jì)活躍度關(guān)聯(lián)性的數(shù)據(jù)挖掘方法,其中,將數(shù)據(jù)按照企業(yè)的注冊(cè)資金進(jìn)行分組,每一組按照企業(yè)規(guī)模進(jìn)行排序,將每組中最大的和最小的1%的數(shù)據(jù)刪除。本發(fā)明與現(xiàn)有技術(shù)相比具有顯著的優(yōu)點(diǎn)和有益效果,具體體現(xiàn)在以下方面:①通過(guò)指定k個(gè)初始聚類(lèi)中心而不是隨機(jī)選取,消除了隨機(jī)選取初始聚類(lèi)中心導(dǎo)致分組的不確定性,有更好的分組效果;②通過(guò)給予不同的數(shù)據(jù)維度一定的權(quán)重值,而不是一視同仁,改進(jìn)了現(xiàn)有技術(shù)中進(jìn)行分組時(shí)不同數(shù)據(jù)維度相同權(quán)重的缺點(diǎn),更好體現(xiàn)各維度對(duì)分組的影響,使分組更加準(zhǔn)確;③加快了算法的收斂程度,能夠更快地得到分組結(jié)果。附圖說(shuō)明圖1:本發(fā)明的流程示意圖。具體實(shí)施方式為了對(duì)本發(fā)明的技術(shù)特征、目的和效果有更加清楚的理解,現(xiàn)對(duì)照附圖詳細(xì)說(shuō)明具體實(shí)施方案。如圖1所示,分析新增企業(yè)與區(qū)域經(jīng)濟(jì)活躍度關(guān)聯(lián)性的數(shù)據(jù)挖掘方法,具體步驟為:(一)數(shù)據(jù)收集,采集某年地區(qū)注冊(cè)企業(yè)的注冊(cè)資金數(shù)據(jù)、注冊(cè)企業(yè)的數(shù)量數(shù)據(jù)、以及該地區(qū)該年份的gdp數(shù)據(jù)和新增就業(yè)情況數(shù)據(jù),每一個(gè)地區(qū)作為一個(gè)數(shù)據(jù)對(duì)象;(二)數(shù)據(jù)預(yù)處理,用分箱法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,使數(shù)據(jù)為平滑數(shù)據(jù);(三)采用k-means算法進(jìn)行聚類(lèi)分析;1)確定聚類(lèi)的分組組數(shù)k的值和結(jié)束條件;2)確定初始化聚類(lèi)的中心,從數(shù)據(jù)中選取k個(gè)數(shù)據(jù)對(duì)象作為k個(gè)組的初始聚類(lèi)中心;3)進(jìn)行初始分組,計(jì)算數(shù)據(jù)集中的每個(gè)數(shù)據(jù)對(duì)象到k個(gè)聚類(lèi)中心點(diǎn)的距離,將該數(shù)據(jù)對(duì)象分到距離最小的類(lèi)中;4)更新聚類(lèi)中心,將每個(gè)類(lèi)中所有數(shù)據(jù)對(duì)象的平均值作為該類(lèi)新的聚類(lèi)中心;5)檢查是否滿足結(jié)束條件,若滿足則完成聚類(lèi),否則重復(fù)步驟3)~5),直至達(dá)到結(jié)束條件為止;(四)根據(jù)聚類(lèi)將數(shù)據(jù)集分為k個(gè)類(lèi),按照所給企業(yè)數(shù)據(jù)對(duì)各個(gè)地方的經(jīng)濟(jì)進(jìn)行預(yù)測(cè)最終結(jié)果。實(shí)施例1:根據(jù)各個(gè)地區(qū)的企業(yè)注冊(cè)資金對(duì)地區(qū)進(jìn)行分組,然后與各個(gè)地區(qū)的gdp進(jìn)行比較。一共選取了13個(gè)地區(qū)的數(shù)據(jù)。具體步驟:1.數(shù)據(jù)收集:收集13個(gè)地區(qū)某年新注冊(cè)企業(yè)的注冊(cè)資金以及這13個(gè)地區(qū)在該年的gdp數(shù)據(jù)。2.數(shù)據(jù)預(yù)處理:(1)用分箱法對(duì)數(shù)據(jù)記性預(yù)處理,去除數(shù)據(jù)中的臟數(shù)據(jù)。(2)將各個(gè)地區(qū)的企業(yè)按照第一產(chǎn)業(yè)、第二產(chǎn)業(yè)、第三產(chǎn)業(yè)分為三類(lèi)。第一產(chǎn)業(yè)包括農(nóng)業(yè)、林業(yè)、牧業(yè)和漁業(yè);第二產(chǎn)業(yè)包括制造業(yè)、采掘業(yè)、建筑業(yè)和公共工程、上下水道、煤氣、衛(wèi)生部門(mén);第三產(chǎn)業(yè)包括商業(yè)、金融、保險(xiǎn)、不動(dòng)產(chǎn)業(yè)、運(yùn)輸、通訊業(yè)、服務(wù)業(yè)及其他非物質(zhì)生產(chǎn)部門(mén)。(3)統(tǒng)計(jì)各個(gè)地區(qū)企業(yè)6個(gè)方面的信息,分別是:"第一產(chǎn)業(yè)公司總資金"、"第二產(chǎn)業(yè)公司總資金"、"第三產(chǎn)業(yè)公司總資金"、"第一產(chǎn)業(yè)公司資金占比"、"第二產(chǎn)業(yè)公司資金占比"、"第三產(chǎn)業(yè)公司資金占比"。根據(jù)獲取的數(shù)據(jù),各個(gè)地區(qū)這6個(gè)方面的信息如表1所示:表1(4)對(duì)表1每一行的數(shù)據(jù),將其中最大的數(shù)據(jù)設(shè)為100,然后以此為基準(zhǔn),分別對(duì)每一行的數(shù)據(jù)按比例進(jìn)行擴(kuò)大或者縮小,得到更新后的數(shù)據(jù)如表2所示:表2(5)對(duì)這6個(gè)方面的重要性做一分析。對(duì)表2每一行中最大的那個(gè)數(shù)據(jù)除以最小的那個(gè)數(shù)據(jù),得到6個(gè)數(shù)據(jù)最高/最低比,然后分別用這6個(gè)數(shù)除以該6個(gè)數(shù)的總和,得到這6個(gè)數(shù)的所占的比重,如表3所示:表3最高/最低比所占比例第一產(chǎn)業(yè)公司注冊(cè)總資金145.38726.91第二產(chǎn)業(yè)公司注冊(cè)總資金77.8914.654第三產(chǎn)業(yè)公司注冊(cè)總資金288.12553.131第一產(chǎn)業(yè)公司注冊(cè)總資金占比19.5893.612第二產(chǎn)業(yè)公司注冊(cè)總資金占比7.71741.423第三產(chǎn)業(yè)公司注冊(cè)總資金占比2.00830.37(6)這6個(gè)方面所占比例分別用a1~a6來(lái)表示,這13個(gè)地區(qū)在這6個(gè)方面的數(shù)據(jù)分別用xi1~xi6表示,其中i為1~13,分別代表13個(gè)地區(qū);用每個(gè)地區(qū)在這6個(gè)方面的數(shù)據(jù)與其所占比例相乘,然后匯總,得到每個(gè)地區(qū)的總權(quán)重?cái)?shù)值si。公式如下:最終得到各個(gè)地區(qū)的總權(quán)重si如表4所示:表4(7)將這些權(quán)重si按照從大到小排列,得到表5:表5地區(qū)67522.405地區(qū)75485.871地區(qū)14471.679地區(qū)24368.587地區(qū)124010.564地區(qū)33147.06地區(qū)43052.359地區(qū)81422.094地區(qū)101411.042地區(qū)91358.855地區(qū)51091.423地區(qū)11801.5069地區(qū)13304.42333.采用k-means算法進(jìn)行聚類(lèi)分析,包括:1)確定聚類(lèi)的分組組數(shù)k=3和結(jié)束條件,結(jié)束條件:迭代次數(shù)達(dá)到1000次,或者聚類(lèi)的中心不再改變;2)確定初始化聚類(lèi)的中心:從數(shù)據(jù)集中選取3個(gè)數(shù)據(jù)對(duì)象作為3個(gè)組的初始聚類(lèi)中心,選擇了表5中第1個(gè)數(shù)據(jù)對(duì)象作為第1個(gè)組的初始聚類(lèi)中心,即地區(qū)6;第7個(gè)數(shù)據(jù)對(duì)象作為第2個(gè)組的初始聚類(lèi)中心,即地區(qū)4;第13個(gè)數(shù)據(jù)對(duì)象作為第3個(gè)組的初始聚類(lèi)中心,即地區(qū)13;在確定初始聚類(lèi)中心時(shí),選取了區(qū)別較大的數(shù)據(jù)對(duì)象,避免了k-means算法隨機(jī)選取聚類(lèi)中心后聚類(lèi)效果可能不理想的缺點(diǎn);3)進(jìn)行初始分組:計(jì)算數(shù)據(jù)集中剩下的每一個(gè)數(shù)據(jù)到這3個(gè)中心點(diǎn)的距離,把該數(shù)據(jù)對(duì)象分到距離最小的類(lèi)中。4)更新聚類(lèi)中心:將每個(gè)類(lèi)中所有數(shù)據(jù)對(duì)象的平均值作為該類(lèi)新的聚類(lèi)中心。5)檢查是否滿足結(jié)束條件,若滿足則完成聚類(lèi),否則重復(fù)3)~5),直到達(dá)到結(jié)束條件為止。4.根據(jù)聚類(lèi)將數(shù)據(jù)集分為的3類(lèi),就是按照所給企業(yè)數(shù)據(jù)對(duì)各個(gè)地方的經(jīng)濟(jì)進(jìn)行預(yù)測(cè)的最終結(jié)果。上述步驟中分箱法,是將企業(yè)數(shù)據(jù)按照步驟1的企業(yè)類(lèi)型分為三組,每一組都按照企業(yè)注冊(cè)資金進(jìn)行排序,將每組中最大的和最小的1%的數(shù)據(jù)刪除,避免臟數(shù)據(jù)對(duì)數(shù)據(jù)挖掘的影響。數(shù)據(jù)對(duì)象組成的數(shù)據(jù)集表示為p={r1,r2,…,r13},其中r1,r2,…,r13為13個(gè)數(shù)據(jù)對(duì)象,其中每個(gè)數(shù)據(jù)對(duì)象都有6個(gè)維度,這13個(gè)數(shù)據(jù)對(duì)象組成的矩陣為:在步驟3)中,兩個(gè)數(shù)據(jù)對(duì)象之間的歐幾里得距離為:5.結(jié)果分析:(1)分組的最終結(jié)果如表6所示:表6(2)各地當(dāng)年的gdp如表7所示:表7從表6和表7可以看出,第二組是gdp較好的一組,第一組是gdp一般的一組,第三組是gdp較差的一組,實(shí)現(xiàn)了對(duì)gdp的預(yù)測(cè)和分析。實(shí)施例2:根據(jù)各個(gè)地區(qū)的企業(yè)規(guī)模(即企業(yè)員工人數(shù))對(duì)地區(qū)進(jìn)行分組,然后與各個(gè)地區(qū)的新增就業(yè)人數(shù)進(jìn)行比較。一共選取了13個(gè)地區(qū)的數(shù)據(jù)。具體步驟:1.數(shù)據(jù)收集:收集13個(gè)地區(qū)某年新注冊(cè)企業(yè)的規(guī)模以及這13個(gè)地區(qū)在該年的新增就業(yè)人數(shù)。2.數(shù)據(jù)預(yù)處理:(1)用分箱法對(duì)數(shù)據(jù)記性預(yù)處理,去除數(shù)據(jù)中的臟數(shù)據(jù)。(2)將各個(gè)地區(qū)的企業(yè)按照第一產(chǎn)業(yè)、第二產(chǎn)業(yè)、第三產(chǎn)業(yè)分為三類(lèi)。第一產(chǎn)業(yè)包括農(nóng)業(yè)、林業(yè)、牧業(yè)和漁業(yè);第二產(chǎn)業(yè)包括制造業(yè)、采掘業(yè)、建筑業(yè)和公共工程、上下水道、煤氣、衛(wèi)生部門(mén);第三產(chǎn)業(yè)包括商業(yè)、金融、保險(xiǎn)、不動(dòng)產(chǎn)業(yè)、運(yùn)輸、通訊業(yè)、服務(wù)業(yè)及其他非物質(zhì)生產(chǎn)部門(mén)。(3)統(tǒng)計(jì)各個(gè)地區(qū)企業(yè)3個(gè)方面的信息,分別是:"第一產(chǎn)業(yè)公司員工人數(shù)"、"第二產(chǎn)業(yè)公司員工人數(shù)"、"第三產(chǎn)業(yè)公司員工人數(shù)"。根據(jù)獲取的數(shù)據(jù),各個(gè)地區(qū)這3個(gè)方面的信息如表8所示:表8(4)對(duì)表1每一行的數(shù)據(jù),將其中最大的數(shù)據(jù)設(shè)為100,然后以此為基準(zhǔn),分別對(duì)每一行的數(shù)據(jù)按比例進(jìn)行擴(kuò)大或者縮小,得到更新后的數(shù)據(jù)如表9所示:表9(5)對(duì)這3個(gè)方面的重要性做一分析。對(duì)表2每一行中最大的那個(gè)數(shù)據(jù)除以最小的那個(gè)數(shù)據(jù),得到3個(gè)數(shù)據(jù)最高/最低比,然后分別用這3個(gè)數(shù)除以該3個(gè)數(shù)的總和,得到這3個(gè)數(shù)的所占的比重,如表10所示:表10最高/最低比所占比例第一產(chǎn)業(yè)公司注冊(cè)員工人數(shù)174.28529.58第二產(chǎn)業(yè)公司注冊(cè)員工人數(shù)202.59234.38第三產(chǎn)業(yè)公司注冊(cè)員工人數(shù)212.37736.04(6)這3個(gè)方面所占比例分別用a1~a3來(lái)表示,這13個(gè)地區(qū)在這3個(gè)方面的數(shù)據(jù)分別用xi1~xi3表示,其中i為1~13,分別代表13個(gè)地區(qū);用每個(gè)地區(qū)在這3個(gè)方面的數(shù)據(jù)與其所占比例相乘,然后匯總,得到每個(gè)地區(qū)的總權(quán)重?cái)?shù)值si。公式如下:最終得到各個(gè)地區(qū)的總權(quán)重si如表11所示:表11地區(qū)13688.8291地區(qū)29263.2871地區(qū)35212.2914地區(qū)44357.1002地區(qū)51995.9550地區(qū)66805.0230地區(qū)73864.9395地區(qū)82346.1262地區(qū)91792.6114地區(qū)102571.1201地區(qū)111480.3943地區(qū)121568.2814地區(qū)1350.9118(7)將這些權(quán)重si按照從大到小排列,得到表12:表12地區(qū)29263.2871地區(qū)66805.0230地區(qū)35212.2914地區(qū)44357.1002地區(qū)73864.9395地區(qū)13688.8291地區(qū)102571.1201地區(qū)82346.1262地區(qū)51995.9550地區(qū)91792.6114地區(qū)121568.2814地區(qū)111480.3943地區(qū)1350.91183.采用k-means算法進(jìn)行聚類(lèi)分析,包括:1)確定聚類(lèi)的分組組數(shù)k=3和結(jié)束條件,結(jié)束條件:迭代次數(shù)達(dá)到1000次,或者聚類(lèi)的中心不再改變;2)確定初始化聚類(lèi)的中心:從數(shù)據(jù)集中選取3個(gè)數(shù)據(jù)對(duì)象作為3個(gè)組的初始聚類(lèi)中心,選擇了表5中第1個(gè)數(shù)據(jù)對(duì)象作為第1個(gè)組的初始聚類(lèi)中心,即地區(qū)6;第7個(gè)數(shù)據(jù)對(duì)象作為第2個(gè)組的初始聚類(lèi)中心,即地區(qū)4;第13個(gè)數(shù)據(jù)對(duì)象作為第3個(gè)組的初始聚類(lèi)中心,即地區(qū)13;在確定初始聚類(lèi)中心時(shí),選取了區(qū)別較大的數(shù)據(jù)對(duì)象,避免了k-means算法隨機(jī)選取聚類(lèi)中心后聚類(lèi)效果可能不理想的缺點(diǎn);3)進(jìn)行初始分組:計(jì)算數(shù)據(jù)集中剩下的每一個(gè)數(shù)據(jù)到這3個(gè)中心點(diǎn)的距離,把該數(shù)據(jù)對(duì)象分到距離最小的類(lèi)中。4)更新聚類(lèi)中心:將每個(gè)類(lèi)中所有數(shù)據(jù)對(duì)象的平均值作為該類(lèi)新的聚類(lèi)中心。5)檢查是否滿足結(jié)束條件,若滿足則完成聚類(lèi),否則重復(fù)3)~5),直到達(dá)到結(jié)束條件為止。4.根據(jù)聚類(lèi)將數(shù)據(jù)集分為的3類(lèi),就是按照所給企業(yè)數(shù)據(jù)對(duì)各個(gè)地方的經(jīng)濟(jì)進(jìn)行預(yù)測(cè)的最終結(jié)果。上述步驟中分箱法,是將企業(yè)數(shù)據(jù)按照企業(yè)的注冊(cè)資金進(jìn)行分類(lèi),分別為1000w及以下、1000w~2000w、2000w~5000w和5000w及以上四組。每一組都按照企業(yè)規(guī)模進(jìn)行排序,將每組中最大的和最小的1%的數(shù)據(jù)刪除,避免臟數(shù)據(jù)對(duì)數(shù)據(jù)挖掘的影響。數(shù)據(jù)對(duì)象組成的數(shù)據(jù)集表示為p={r1,r2,…,r13},其中r1,r2,…,r13為13個(gè)數(shù)據(jù)對(duì)象,其中每個(gè)數(shù)據(jù)對(duì)象都有6個(gè)維度,這13個(gè)數(shù)據(jù)對(duì)象組成的矩陣為:r11r12r13r21r22r23…r131r132r133在步驟3)中,兩個(gè)數(shù)據(jù)對(duì)象之間的歐幾里得距離為:5.結(jié)果分析:(1)分組的最終結(jié)果如表13所示:表13第一組地區(qū)2地區(qū)6第二組地區(qū)1地區(qū)3地區(qū)4地區(qū)7地區(qū)8地區(qū)10第三組地區(qū)5地區(qū)9地區(qū)11地區(qū)12地區(qū)13(2)各地當(dāng)年的新增就業(yè)人數(shù)如表14所示:新增就業(yè)人數(shù)地區(qū)1暫缺地區(qū)220000地區(qū)323000地區(qū)4暫缺地區(qū)512000地區(qū)627684地區(qū)712000地區(qū)816600地區(qū)98956地區(qū)1012000地區(qū)117671地區(qū)125484地區(qū)13暫缺由表中可以看出,第一組是新增就業(yè)人數(shù)較多的一組,第二組是新增就業(yè)人數(shù)一般的一組,第三組是新增就業(yè)人數(shù)較少的一組,較好地通過(guò)企業(yè)規(guī)模對(duì)新增就業(yè)人數(shù)進(jìn)行了預(yù)測(cè)。綜上所述,本發(fā)明通過(guò)指定k個(gè)初始聚類(lèi)中心而不是隨機(jī)選取,消除了隨機(jī)選取初始聚類(lèi)中心導(dǎo)致分組的不確定性,有更好的分組效果;通過(guò)給予不同的數(shù)據(jù)維度一定的權(quán)重值,而不是一視同仁,改進(jìn)了現(xiàn)有技術(shù)中進(jìn)行分組時(shí)不同數(shù)據(jù)維度相同權(quán)重的缺點(diǎn),更好體現(xiàn)各維度對(duì)分組的影響,使分組更加準(zhǔn)確;加快了算法的收斂程度,能夠更快地得到分組結(jié)果。需要說(shuō)明的是:以上所述僅為本發(fā)明的優(yōu)選實(shí)施方式,并非用以限定本發(fā)明的權(quán)利范圍;同時(shí)以上的描述,對(duì)于相關(guān)
技術(shù)領(lǐng)域:
的專門(mén)人士應(yīng)可明了及實(shí)施,因此其它未脫離本發(fā)明所揭示的精神下所完成的等效改變或修飾,均應(yīng)包含在申請(qǐng)專利范圍中。當(dāng)前第1頁(yè)12