本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,具體地說是一種基于聚類算法的境外旅客購物行為分析方法。
背景技術(shù):
聚類算法是數(shù)據(jù)挖掘中的一個(gè)無監(jiān)督的學(xué)習(xí)過程,把事物按照某些特征聚集成類,使得不同類之間的相似度盡量小,類內(nèi)部相似度盡量大。由于絕大多數(shù)的聚類算法只擅長(zhǎng)處理球形聚類,并且存在孤立點(diǎn)時(shí)聚類效果難以達(dá)到;蟻群算法是一種群智能優(yōu)化算法,具有良好的搜索全局解的能力,在解決許多復(fù)雜優(yōu)化問題方面已經(jīng)展現(xiàn)出優(yōu)異的性能和巨大的發(fā)展?jié)摿Γ员景l(fā)明采用基于螞蟻信息素痕跡的聚類分析算法——基于信息素的CRUE算法。
CRUE算法是層次聚類中凝聚法的代表,CRUE算法先把每一個(gè)數(shù)據(jù)對(duì)象看成一個(gè)簇,然后合并兩個(gè)距離最近的簇,直到簇的個(gè)數(shù)達(dá)到要求的為止。CRUE算法是對(duì)傳統(tǒng)的對(duì)簇的表示方法進(jìn)行了改進(jìn),沒有用所有的點(diǎn)或中心和半徑來表示一個(gè)簇,而是在每一個(gè)簇中選取固定數(shù)量并且分布比較好的點(diǎn)作為描述該簇的代表點(diǎn),然后將這些點(diǎn)乘以一個(gè)適當(dāng)?shù)氖湛s因子,讓它們更靠近簇的中心點(diǎn)。把一個(gè)簇用代表點(diǎn)表示,這樣可以使簇的外延向非球形擴(kuò)展,進(jìn)而能夠調(diào)整簇的形狀用于表達(dá)非球形的簇。而且,收縮因子的引入有效的減小了噪音對(duì)聚類的影響。
運(yùn)用螞蟻覓食原理,利用信息素來實(shí)現(xiàn)聚類分析。螞蟻覓食過程分為搜索食物和搬運(yùn)實(shí)物兩個(gè)環(huán)節(jié)。所有螞蟻在覓食過程中都會(huì)在其經(jīng)過的路徑上釋放能讓自己和其他螞蟻感知的信息素。某條路徑經(jīng)過的螞蟻越多,這條路徑的信息素就越強(qiáng),同時(shí)信息素會(huì)隨著時(shí)間的流逝而揮發(fā)。螞蟻傾向朝著信息素強(qiáng)度高的方向移動(dòng),某條路徑經(jīng)過的螞蟻越多,后面的螞蟻選擇該路徑的概率就越大。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的技術(shù)任務(wù)是提供一種基于聚類算法的境外旅客購物行為分析方法。
本發(fā)明的技術(shù)任務(wù)是按以下方式實(shí)現(xiàn)的,該分析方法步驟如下:
步驟1)從購物分析的源數(shù)據(jù)對(duì)象中抽取一個(gè)隨機(jī)樣本S;
步驟2)將樣本S分割為一組劃分;
步驟3)對(duì)劃分局部的聚類;
步驟4)用相應(yīng)的簇標(biāo)簽標(biāo)記數(shù)據(jù);
步驟5)通過隨機(jī)取樣提出孤立點(diǎn),如果一個(gè)簇增長(zhǎng)得太慢,就去掉該族,重新進(jìn)入步驟3)。
所述的步驟1)中抽取待聚類數(shù)據(jù)N個(gè)模式樣本,每個(gè)數(shù)據(jù)對(duì)象有7個(gè)屬性,則數(shù)據(jù)對(duì)象定義為S={Si|Si=(si1,si2,…,si7),i=1,2,…,N}。
所述的購物分析包括性別分析、年齡分析、地域分析、商品類別分析、購買頻次分析。
所述的步驟2)中樣本S分割為p個(gè)分區(qū),每個(gè)分區(qū)大小n/p;每個(gè)分區(qū)內(nèi)作聚類,直到分區(qū)內(nèi)的簇的個(gè)數(shù)為n/pq,q>1;或者指定一個(gè)距離閾值,當(dāng)最近簇距離大于閾值,則停止。
所述的步驟3)中每個(gè)數(shù)據(jù)對(duì)象分別設(shè)置一個(gè)螞蟻,i分配給第j個(gè)聚類中心Cj(j=1,2,…,K),螞蟻就在模式樣本i到聚類中心Cj的路徑(i,j)上留下信息素τij(t);計(jì)算任意兩個(gè)數(shù)據(jù)項(xiàng)p和q之間的距離,即d(p,q);不同對(duì)象之間的距離可以用歐幾里得距離來度量;
數(shù)據(jù)對(duì)象Si合并到Sj的概率為:
如果Pij(t)大于閾值P0,就將Xi合并到Xj的領(lǐng)域內(nèi);這里ηij是dij的倒數(shù),稱為能見度;α和β是調(diào)節(jié)因子,起到防止所有螞蟻均沿相同路徑得到相同結(jié)果所產(chǎn)生的停止搜索;檢驗(yàn)是否聚類最優(yōu),如果是最優(yōu)則結(jié)束算法;若不是最 優(yōu),則進(jìn)入步驟4)。
所述的步驟4)中對(duì)未參加聚類的數(shù)據(jù)或新增的數(shù)據(jù)進(jìn)行標(biāo)注從而計(jì)算聚類的可信度,其可以準(zhǔn)確的識(shí)別非球狀數(shù)據(jù)集。
所述的步驟5)中隨機(jī)取樣過濾了大多數(shù)的異常點(diǎn);異常點(diǎn)所在的簇的點(diǎn)個(gè)數(shù)少于正常簇的點(diǎn)的個(gè)數(shù),此時(shí)分兩個(gè)階段消除異常點(diǎn):第一階段:增長(zhǎng)速度慢的簇作為異常,以點(diǎn)的個(gè)數(shù)作為閾值;第二階段:在第一階段中,有些相近的異常點(diǎn)已經(jīng)組合,所以進(jìn)行第二階段中異常點(diǎn)形成的簇非常小,很容易鑒別。
本發(fā)明的一種基于聚類算法的境外旅客購物行為分析方法和現(xiàn)有技術(shù)相比,分析結(jié)果包含性別分析、年齡分析、地域分析、商品類別分析、購買頻次分析、單價(jià)分析,通過這些分析結(jié)果,能夠更合理的優(yōu)化商店結(jié)構(gòu)以及商店的商品結(jié)構(gòu),將合適商品推薦給潛在的境外旅客客戶,增大境外旅客購買商品的概率。離境退稅的數(shù)據(jù)更好的服務(wù)于離境退稅政策,廣大的境外旅客在境內(nèi)買到了合適的商品,有利于刺激旅游業(yè)的發(fā)展、提高綜合性的經(jīng)濟(jì)效益。
附圖說明
附圖1為一種基于聚類算法的境外旅客購物行為分析方法的流程框圖。
具體實(shí)施方式
實(shí)施例1:
該基于聚類算法的境外旅客購物行為分析方法步驟如下:
步驟1)從購物分析的源數(shù)據(jù)對(duì)象中抽取一個(gè)隨機(jī)樣本S;
步驟2)將樣本S分割為一組劃分;
步驟3)對(duì)劃分局部的聚類;
步驟4)用相應(yīng)的簇標(biāo)簽標(biāo)記數(shù)據(jù);
步驟5)通過隨機(jī)取樣提出孤立點(diǎn),如果一個(gè)簇增長(zhǎng)得太慢,就去掉該族,重新進(jìn)入步驟3)。
實(shí)施例2:
該基于聚類算法的境外旅客購物行為分析方法步驟如下:
步驟1)從購物分析的源數(shù)據(jù)對(duì)象中抽取一個(gè)隨機(jī)樣本S;
購物分析包括性別分析、年齡分析、地域分析、商品類別分析、購買頻次 分析、單價(jià)分析等。抽取待聚類數(shù)據(jù)N個(gè)模式樣本,每個(gè)數(shù)據(jù)對(duì)象有7個(gè)屬性,則數(shù)據(jù)對(duì)象定義為S={Si|Si=(si1,si2,…,si7),i=1,2,…,N}。
步驟2)將樣本S分割為一組劃分;
樣本S分割為p個(gè)分區(qū),每個(gè)分區(qū)大小n/p;每個(gè)分區(qū)內(nèi)作聚類,直到分區(qū)內(nèi)的簇的個(gè)數(shù)為n/pq,q>1;或者指定一個(gè)距離閾值,當(dāng)最近簇距離大于閾值,則停止。
步驟3)對(duì)劃分局部的聚類;
每個(gè)數(shù)據(jù)對(duì)象分別設(shè)置一個(gè)螞蟻,i分配給第j個(gè)聚類中心Cj(j=1,2,…,K),螞蟻就在模式樣本i到聚類中心Cj的路徑(i,j)上留下信息素τij(t);計(jì)算任意兩個(gè)數(shù)據(jù)項(xiàng)p和q之間的距離,即d(p,q);不同對(duì)象之間的距離可以用歐幾里得距離來度量;
數(shù)據(jù)對(duì)象Si合并到Sj的概率為:
如果Pij(t)大于閾值P0,就將Xi合并到Xj的領(lǐng)域內(nèi);這里ηij是dij的倒數(shù),稱為能見度;α和β是調(diào)節(jié)因子,起到防止所有螞蟻均沿相同路徑得到相同結(jié)果所產(chǎn)生的停止搜索;檢驗(yàn)是否聚類最優(yōu),如果是最優(yōu)則結(jié)束算法;若不是最優(yōu),則進(jìn)入步驟4)。
步驟4)用相應(yīng)的簇標(biāo)簽標(biāo)記數(shù)據(jù);
因?yàn)镃URE用c個(gè)點(diǎn)來代表一個(gè)聚類,因此在聚類完成后,對(duì)未參加聚類的數(shù)據(jù)或新增的數(shù)據(jù)進(jìn)行標(biāo)注從而計(jì)算聚類的可信度時(shí),其可以準(zhǔn)確的識(shí)別非球狀數(shù)據(jù)集,使得標(biāo)注更加準(zhǔn)確。
步驟5)通過隨機(jī)取樣提出孤立點(diǎn),如果一個(gè)簇增長(zhǎng)得太慢,就去掉該族,重新進(jìn)入步驟3)。
隨機(jī)取樣,過濾了大多數(shù)的異常點(diǎn);異常點(diǎn)所在的簇的點(diǎn)個(gè)數(shù)少于正常簇的點(diǎn)的個(gè)數(shù),此時(shí)分兩個(gè)階段消除異常點(diǎn)。第一階段:增長(zhǎng)速度慢的簇作為異 常,以點(diǎn)的個(gè)數(shù)作為閾值。Fraction(簇的個(gè)數(shù)為初始簇個(gè)數(shù)的比例;比如:1/3)的取值很重要;當(dāng)簇的個(gè)數(shù)減少到fraction時(shí),開始作消除異常點(diǎn)的操作。第二階段:在第一階段中,可能有些相近的異常點(diǎn)已經(jīng)組合,所以進(jìn)行第二階段中異常點(diǎn)形成的簇非常小,很容易鑒別。
通過上面具體實(shí)施方式,所述技術(shù)領(lǐng)域的技術(shù)人員可容易的實(shí)現(xiàn)本發(fā)明。但是應(yīng)當(dāng)理解,本發(fā)明并不限于上述的幾種具體實(shí)施方式。在公開的實(shí)施方式的基礎(chǔ)上,所述技術(shù)領(lǐng)域的技術(shù)人員可任意組合不同的技術(shù)特征,從而實(shí)現(xiàn)不同的技術(shù)方案。