1.一種基于聚類算法的境外旅客購(gòu)物行為分析方法,其特征在于,該分析方法步驟如下:
步驟1)從購(gòu)物分析的源數(shù)據(jù)對(duì)象中抽取一個(gè)隨機(jī)樣本S;
步驟2)將樣本S分割為一組劃分;
步驟3)對(duì)劃分局部的聚類;
步驟4)用相應(yīng)的簇標(biāo)簽標(biāo)記數(shù)據(jù);
步驟5)通過(guò)隨機(jī)取樣提出孤立點(diǎn),如果一個(gè)簇增長(zhǎng)得太慢,就去掉該族,重新進(jìn)入步驟3)。
2.根據(jù)權(quán)利要求1所述的一種基于聚類算法的境外旅客購(gòu)物行為分析方法,其特征在于,所述的步驟1)中抽取待聚類數(shù)據(jù)N個(gè)模式樣本,每個(gè)數(shù)據(jù)對(duì)象有7個(gè)屬性,則數(shù)據(jù)對(duì)象定義為S={Si|Si=(si1,si2,…,si7),i=1,2,…,N}。
3.根據(jù)權(quán)利要求1所述的一種基于聚類算法的境外旅客購(gòu)物行為分析方法,其特征在于,所述的購(gòu)物分析包括性別分析、年齡分析、地域分析、商品類別分析、購(gòu)買頻次分析。
4.根據(jù)權(quán)利要求1所述的一種基于聚類算法的境外旅客購(gòu)物行為分析方法,其特征在于,所述的步驟2)中樣本S分割為p個(gè)分區(qū),每個(gè)分區(qū)大小n/p;每個(gè)分區(qū)內(nèi)作聚類,直到分區(qū)內(nèi)的簇的個(gè)數(shù)為n/pq,q>1;或者指定一個(gè)距離閾值,當(dāng)最近簇距離大于閾值,則停止。
5.根據(jù)權(quán)利要求1所述的一種基于聚類算法的境外旅客購(gòu)物行為分析方法,其特征在于,所述的步驟3)中每個(gè)數(shù)據(jù)對(duì)象分別設(shè)置一個(gè)螞蟻,i分配給第j個(gè)聚類中心Cj(j=1,2,…,K),螞蟻就在模式樣本i到聚類中心Cj的路徑(i,j)上留下信息素τij(t);計(jì)算任意兩個(gè)數(shù)據(jù)項(xiàng)p和q之間的距離,即d(p,q);不同對(duì)象之間的距離可以用歐幾里得距離來(lái)度量;
數(shù)據(jù)對(duì)象Si合并到Sj的概率為:
如果Pij(t)大于閾值P0,就將Xi合并到Xj的領(lǐng)域內(nèi);這里ηij是dij的倒數(shù),稱為能見度;α和β是調(diào)節(jié)因子,起到防止所有螞蟻均沿相同路徑得到相同結(jié)果所產(chǎn)生的停止搜索;檢驗(yàn)是否聚類最優(yōu),如果是最優(yōu)則結(jié)束算法;若不是最優(yōu),則進(jìn)入步驟4)。
6.根據(jù)權(quán)利要求1所述的一種基于聚類算法的境外旅客購(gòu)物行為分析方法,其特征在于,所述的步驟4)中對(duì)未參加聚類的數(shù)據(jù)或新增的數(shù)據(jù)進(jìn)行標(biāo)注從而計(jì)算聚類的可信度,其可以準(zhǔn)確的識(shí)別非球狀數(shù)據(jù)集。
7.根據(jù)權(quán)利要求1所述的一種基于聚類算法的境外旅客購(gòu)物行為分析方法,其特征在于,所述的步驟5)中隨機(jī)取樣過(guò)濾了大多數(shù)的異常點(diǎn);異常點(diǎn)所在的簇的點(diǎn)個(gè)數(shù)少于正常簇的點(diǎn)的個(gè)數(shù),此時(shí)分兩個(gè)階段消除異常點(diǎn):第一階段:增長(zhǎng)速度慢的簇作為異常,以點(diǎn)的個(gè)數(shù)作為閾值;第二階段:在第一階段中,有些相近的異常點(diǎn)已經(jīng)組合,所以進(jìn)行第二階段中異常點(diǎn)形成的簇非常小,很容易鑒別。