亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于聚類算法的境外旅客購物行為分析方法與流程

文檔序號(hào):11952952閱讀:559來源:國知局

本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,具體地說是一種基于聚類算法的境外旅客購物行為分析方法。



背景技術(shù):

聚類算法是數(shù)據(jù)挖掘中的一個(gè)無監(jiān)督的學(xué)習(xí)過程,把事物按照某些特征聚集成類,使得不同類之間的相似度盡量小,類內(nèi)部相似度盡量大。由于絕大多數(shù)的聚類算法只擅長(zhǎng)處理球形聚類,并且存在孤立點(diǎn)時(shí)聚類效果難以達(dá)到;蟻群算法是一種群智能優(yōu)化算法,具有良好的搜索全局解的能力,在解決許多復(fù)雜優(yōu)化問題方面已經(jīng)展現(xiàn)出優(yōu)異的性能和巨大的發(fā)展?jié)摿Γ员景l(fā)明采用基于螞蟻信息素痕跡的聚類分析算法——基于信息素的CRUE算法。

CRUE算法是層次聚類中凝聚法的代表,CRUE算法先把每一個(gè)數(shù)據(jù)對(duì)象看成一個(gè)簇,然后合并兩個(gè)距離最近的簇,直到簇的個(gè)數(shù)達(dá)到要求的為止。CRUE算法是對(duì)傳統(tǒng)的對(duì)簇的表示方法進(jìn)行了改進(jìn),沒有用所有的點(diǎn)或中心和半徑來表示一個(gè)簇,而是在每一個(gè)簇中選取固定數(shù)量并且分布比較好的點(diǎn)作為描述該簇的代表點(diǎn),然后將這些點(diǎn)乘以一個(gè)適當(dāng)?shù)氖湛s因子,讓它們更靠近簇的中心點(diǎn)。把一個(gè)簇用代表點(diǎn)表示,這樣可以使簇的外延向非球形擴(kuò)展,進(jìn)而能夠調(diào)整簇的形狀用于表達(dá)非球形的簇。而且,收縮因子的引入有效的減小了噪音對(duì)聚類的影響。

運(yùn)用螞蟻覓食原理,利用信息素來實(shí)現(xiàn)聚類分析。螞蟻覓食過程分為搜索食物和搬運(yùn)實(shí)物兩個(gè)環(huán)節(jié)。所有螞蟻在覓食過程中都會(huì)在其經(jīng)過的路徑上釋放能讓自己和其他螞蟻感知的信息素。某條路徑經(jīng)過的螞蟻越多,這條路徑的信息素就越強(qiáng),同時(shí)信息素會(huì)隨著時(shí)間的流逝而揮發(fā)。螞蟻傾向朝著信息素強(qiáng)度高的方向移動(dòng),某條路徑經(jīng)過的螞蟻越多,后面的螞蟻選擇該路徑的概率就越大。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的技術(shù)任務(wù)是提供一種基于聚類算法的境外旅客購物行為分析方法。

本發(fā)明的技術(shù)任務(wù)是按以下方式實(shí)現(xiàn)的,該分析方法步驟如下:

步驟1)從購物分析的源數(shù)據(jù)對(duì)象中抽取一個(gè)隨機(jī)樣本S;

步驟2)將樣本S分割為一組劃分;

步驟3)對(duì)劃分局部的聚類;

步驟4)用相應(yīng)的簇標(biāo)簽標(biāo)記數(shù)據(jù);

步驟5)通過隨機(jī)取樣提出孤立點(diǎn),如果一個(gè)簇增長(zhǎng)得太慢,就去掉該族,重新進(jìn)入步驟3)。

所述的步驟1)中抽取待聚類數(shù)據(jù)N個(gè)模式樣本,每個(gè)數(shù)據(jù)對(duì)象有7個(gè)屬性,則數(shù)據(jù)對(duì)象定義為S={Si|Si=(si1,si2,…,si7),i=1,2,…,N}。

所述的購物分析包括性別分析、年齡分析、地域分析、商品類別分析、購買頻次分析。

所述的步驟2)中樣本S分割為p個(gè)分區(qū),每個(gè)分區(qū)大小n/p;每個(gè)分區(qū)內(nèi)作聚類,直到分區(qū)內(nèi)的簇的個(gè)數(shù)為n/pq,q>1;或者指定一個(gè)距離閾值,當(dāng)最近簇距離大于閾值,則停止。

所述的步驟3)中每個(gè)數(shù)據(jù)對(duì)象分別設(shè)置一個(gè)螞蟻,i分配給第j個(gè)聚類中心Cj(j=1,2,…,K),螞蟻就在模式樣本i到聚類中心Cj的路徑(i,j)上留下信息素τij(t);計(jì)算任意兩個(gè)數(shù)據(jù)項(xiàng)p和q之間的距離,即d(p,q);不同對(duì)象之間的距離可以用歐幾里得距離來度量;

數(shù)據(jù)對(duì)象Si合并到Sj的概率為:

如果Pij(t)大于閾值P0,就將Xi合并到Xj的領(lǐng)域內(nèi);這里ηij是dij的倒數(shù),稱為能見度;α和β是調(diào)節(jié)因子,起到防止所有螞蟻均沿相同路徑得到相同結(jié)果所產(chǎn)生的停止搜索;檢驗(yàn)是否聚類最優(yōu),如果是最優(yōu)則結(jié)束算法;若不是最 優(yōu),則進(jìn)入步驟4)。

所述的步驟4)中對(duì)未參加聚類的數(shù)據(jù)或新增的數(shù)據(jù)進(jìn)行標(biāo)注從而計(jì)算聚類的可信度,其可以準(zhǔn)確的識(shí)別非球狀數(shù)據(jù)集。

所述的步驟5)中隨機(jī)取樣過濾了大多數(shù)的異常點(diǎn);異常點(diǎn)所在的簇的點(diǎn)個(gè)數(shù)少于正常簇的點(diǎn)的個(gè)數(shù),此時(shí)分兩個(gè)階段消除異常點(diǎn):第一階段:增長(zhǎng)速度慢的簇作為異常,以點(diǎn)的個(gè)數(shù)作為閾值;第二階段:在第一階段中,有些相近的異常點(diǎn)已經(jīng)組合,所以進(jìn)行第二階段中異常點(diǎn)形成的簇非常小,很容易鑒別。

本發(fā)明的一種基于聚類算法的境外旅客購物行為分析方法和現(xiàn)有技術(shù)相比,分析結(jié)果包含性別分析、年齡分析、地域分析、商品類別分析、購買頻次分析、單價(jià)分析,通過這些分析結(jié)果,能夠更合理的優(yōu)化商店結(jié)構(gòu)以及商店的商品結(jié)構(gòu),將合適商品推薦給潛在的境外旅客客戶,增大境外旅客購買商品的概率。離境退稅的數(shù)據(jù)更好的服務(wù)于離境退稅政策,廣大的境外旅客在境內(nèi)買到了合適的商品,有利于刺激旅游業(yè)的發(fā)展、提高綜合性的經(jīng)濟(jì)效益。

附圖說明

附圖1為一種基于聚類算法的境外旅客購物行為分析方法的流程框圖。

具體實(shí)施方式

實(shí)施例1:

該基于聚類算法的境外旅客購物行為分析方法步驟如下:

步驟1)從購物分析的源數(shù)據(jù)對(duì)象中抽取一個(gè)隨機(jī)樣本S;

步驟2)將樣本S分割為一組劃分;

步驟3)對(duì)劃分局部的聚類;

步驟4)用相應(yīng)的簇標(biāo)簽標(biāo)記數(shù)據(jù);

步驟5)通過隨機(jī)取樣提出孤立點(diǎn),如果一個(gè)簇增長(zhǎng)得太慢,就去掉該族,重新進(jìn)入步驟3)。

實(shí)施例2:

該基于聚類算法的境外旅客購物行為分析方法步驟如下:

步驟1)從購物分析的源數(shù)據(jù)對(duì)象中抽取一個(gè)隨機(jī)樣本S;

購物分析包括性別分析、年齡分析、地域分析、商品類別分析、購買頻次 分析、單價(jià)分析等。抽取待聚類數(shù)據(jù)N個(gè)模式樣本,每個(gè)數(shù)據(jù)對(duì)象有7個(gè)屬性,則數(shù)據(jù)對(duì)象定義為S={Si|Si=(si1,si2,…,si7),i=1,2,…,N}。

步驟2)將樣本S分割為一組劃分;

樣本S分割為p個(gè)分區(qū),每個(gè)分區(qū)大小n/p;每個(gè)分區(qū)內(nèi)作聚類,直到分區(qū)內(nèi)的簇的個(gè)數(shù)為n/pq,q>1;或者指定一個(gè)距離閾值,當(dāng)最近簇距離大于閾值,則停止。

步驟3)對(duì)劃分局部的聚類;

每個(gè)數(shù)據(jù)對(duì)象分別設(shè)置一個(gè)螞蟻,i分配給第j個(gè)聚類中心Cj(j=1,2,…,K),螞蟻就在模式樣本i到聚類中心Cj的路徑(i,j)上留下信息素τij(t);計(jì)算任意兩個(gè)數(shù)據(jù)項(xiàng)p和q之間的距離,即d(p,q);不同對(duì)象之間的距離可以用歐幾里得距離來度量;

數(shù)據(jù)對(duì)象Si合并到Sj的概率為:

如果Pij(t)大于閾值P0,就將Xi合并到Xj的領(lǐng)域內(nèi);這里ηij是dij的倒數(shù),稱為能見度;α和β是調(diào)節(jié)因子,起到防止所有螞蟻均沿相同路徑得到相同結(jié)果所產(chǎn)生的停止搜索;檢驗(yàn)是否聚類最優(yōu),如果是最優(yōu)則結(jié)束算法;若不是最優(yōu),則進(jìn)入步驟4)。

步驟4)用相應(yīng)的簇標(biāo)簽標(biāo)記數(shù)據(jù);

因?yàn)镃URE用c個(gè)點(diǎn)來代表一個(gè)聚類,因此在聚類完成后,對(duì)未參加聚類的數(shù)據(jù)或新增的數(shù)據(jù)進(jìn)行標(biāo)注從而計(jì)算聚類的可信度時(shí),其可以準(zhǔn)確的識(shí)別非球狀數(shù)據(jù)集,使得標(biāo)注更加準(zhǔn)確。

步驟5)通過隨機(jī)取樣提出孤立點(diǎn),如果一個(gè)簇增長(zhǎng)得太慢,就去掉該族,重新進(jìn)入步驟3)。

隨機(jī)取樣,過濾了大多數(shù)的異常點(diǎn);異常點(diǎn)所在的簇的點(diǎn)個(gè)數(shù)少于正常簇的點(diǎn)的個(gè)數(shù),此時(shí)分兩個(gè)階段消除異常點(diǎn)。第一階段:增長(zhǎng)速度慢的簇作為異 常,以點(diǎn)的個(gè)數(shù)作為閾值。Fraction(簇的個(gè)數(shù)為初始簇個(gè)數(shù)的比例;比如:1/3)的取值很重要;當(dāng)簇的個(gè)數(shù)減少到fraction時(shí),開始作消除異常點(diǎn)的操作。第二階段:在第一階段中,可能有些相近的異常點(diǎn)已經(jīng)組合,所以進(jìn)行第二階段中異常點(diǎn)形成的簇非常小,很容易鑒別。

通過上面具體實(shí)施方式,所述技術(shù)領(lǐng)域的技術(shù)人員可容易的實(shí)現(xiàn)本發(fā)明。但是應(yīng)當(dāng)理解,本發(fā)明并不限于上述的幾種具體實(shí)施方式。在公開的實(shí)施方式的基礎(chǔ)上,所述技術(shù)領(lǐng)域的技術(shù)人員可任意組合不同的技術(shù)特征,從而實(shí)現(xiàn)不同的技術(shù)方案。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1