一種基于聚類算法的境外旅客購物行為分析方法與流程

文檔序號(hào)：11952952閱讀：559來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域，具體地說是一種基于聚類算法的境外旅客購物行為分析方法。

背景技術(shù)：

聚類算法是數(shù)據(jù)挖掘中的一個(gè)無監(jiān)督的學(xué)習(xí)過程，把事物按照某些特征聚集成類，使得不同類之間的相似度盡量小，類內(nèi)部相似度盡量大。由于絕大多數(shù)的聚類算法只擅長(zhǎng)處理球形聚類，并且存在孤立點(diǎn)時(shí)聚類效果難以達(dá)到；蟻群算法是一種群智能優(yōu)化算法，具有良好的搜索全局解的能力，在解決許多復(fù)雜優(yōu)化問題方面已經(jīng)展現(xiàn)出優(yōu)異的性能和巨大的發(fā)展?jié)摿Γ员景l(fā)明采用基于螞蟻信息素痕跡的聚類分析算法——基于信息素的CRUE算法。

CRUE算法是層次聚類中凝聚法的代表，CRUE算法先把每一個(gè)數(shù)據(jù)對(duì)象看成一個(gè)簇，然后合并兩個(gè)距離最近的簇，直到簇的個(gè)數(shù)達(dá)到要求的為止。CRUE算法是對(duì)傳統(tǒng)的對(duì)簇的表示方法進(jìn)行了改進(jìn)，沒有用所有的點(diǎn)或中心和半徑來表示一個(gè)簇，而是在每一個(gè)簇中選取固定數(shù)量并且分布比較好的點(diǎn)作為描述該簇的代表點(diǎn)，然后將這些點(diǎn)乘以一個(gè)適當(dāng)?shù)氖湛s因子，讓它們更靠近簇的中心點(diǎn)。把一個(gè)簇用代表點(diǎn)表示，這樣可以使簇的外延向非球形擴(kuò)展，進(jìn)而能夠調(diào)整簇的形狀用于表達(dá)非球形的簇。而且，收縮因子的引入有效的減小了噪音對(duì)聚類的影響。

運(yùn)用螞蟻覓食原理，利用信息素來實(shí)現(xiàn)聚類分析。螞蟻覓食過程分為搜索食物和搬運(yùn)實(shí)物兩個(gè)環(huán)節(jié)。所有螞蟻在覓食過程中都會(huì)在其經(jīng)過的路徑上釋放能讓自己和其他螞蟻感知的信息素。某條路徑經(jīng)過的螞蟻越多，這條路徑的信息素就越強(qiáng)，同時(shí)信息素會(huì)隨著時(shí)間的流逝而揮發(fā)。螞蟻傾向朝著信息素強(qiáng)度高的方向移動(dòng)，某條路徑經(jīng)過的螞蟻越多，后面的螞蟻選擇該路徑的概率就越大。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明的技術(shù)任務(wù)是提供一種基于聚類算法的境外旅客購物行為分析方法。

本發(fā)明的技術(shù)任務(wù)是按以下方式實(shí)現(xiàn)的，該分析方法步驟如下：

步驟1)從購物分析的源數(shù)據(jù)對(duì)象中抽取一個(gè)隨機(jī)樣本S；

步驟2)將樣本S分割為一組劃分；

步驟3)對(duì)劃分局部的聚類；

步驟4)用相應(yīng)的簇標(biāo)簽標(biāo)記數(shù)據(jù)；

步驟5)通過隨機(jī)取樣提出孤立點(diǎn)，如果一個(gè)簇增長(zhǎng)得太慢，就去掉該族，重新進(jìn)入步驟3)。

所述的步驟1)中抽取待聚類數(shù)據(jù)N個(gè)模式樣本，每個(gè)數(shù)據(jù)對(duì)象有7個(gè)屬性，則數(shù)據(jù)對(duì)象定義為S＝{S_i|S_i＝(s_i1，s_i2，…,s_i7),i＝1,2,…,N}。

所述的購物分析包括性別分析、年齡分析、地域分析、商品類別分析、購買頻次分析。

所述的步驟2)中樣本S分割為p個(gè)分區(qū)，每個(gè)分區(qū)大小n/p；每個(gè)分區(qū)內(nèi)作聚類，直到分區(qū)內(nèi)的簇的個(gè)數(shù)為n/pq,q>1；或者指定一個(gè)距離閾值，當(dāng)最近簇距離大于閾值，則停止。

所述的步驟3)中每個(gè)數(shù)據(jù)對(duì)象分別設(shè)置一個(gè)螞蟻，i分配給第j個(gè)聚類中心C_j(j＝1,2，…,K)，螞蟻就在模式樣本i到聚類中心C_j的路徑(i，j)上留下信息素τ_ij(t)；計(jì)算任意兩個(gè)數(shù)據(jù)項(xiàng)p和q之間的距離，即d(p，q)；不同對(duì)象之間的距離可以用歐幾里得距離來度量；

數(shù)據(jù)對(duì)象S_i合并到S_j的概率為：

如果P_ij(t)大于閾值P₀，就將X_i合并到X_j的領(lǐng)域內(nèi)；這里η_ij是d_ij的倒數(shù)，稱為能見度；α和β是調(diào)節(jié)因子，起到防止所有螞蟻均沿相同路徑得到相同結(jié)果所產(chǎn)生的停止搜索；檢驗(yàn)是否聚類最優(yōu)，如果是最優(yōu)則結(jié)束算法；若不是最優(yōu)，則進(jìn)入步驟4)。

所述的步驟4)中對(duì)未參加聚類的數(shù)據(jù)或新增的數(shù)據(jù)進(jìn)行標(biāo)注從而計(jì)算聚類的可信度，其可以準(zhǔn)確的識(shí)別非球狀數(shù)據(jù)集。

所述的步驟5)中隨機(jī)取樣過濾了大多數(shù)的異常點(diǎn)；異常點(diǎn)所在的簇的點(diǎn)個(gè)數(shù)少于正常簇的點(diǎn)的個(gè)數(shù)，此時(shí)分兩個(gè)階段消除異常點(diǎn)：第一階段：增長(zhǎng)速度慢的簇作為異常，以點(diǎn)的個(gè)數(shù)作為閾值；第二階段：在第一階段中，有些相近的異常點(diǎn)已經(jīng)組合，所以進(jìn)行第二階段中異常點(diǎn)形成的簇非常小，很容易鑒別。

本發(fā)明的一種基于聚類算法的境外旅客購物行為分析方法和現(xiàn)有技術(shù)相比，分析結(jié)果包含性別分析、年齡分析、地域分析、商品類別分析、購買頻次分析、單價(jià)分析，通過這些分析結(jié)果，能夠更合理的優(yōu)化商店結(jié)構(gòu)以及商店的商品結(jié)構(gòu)，將合適商品推薦給潛在的境外旅客客戶，增大境外旅客購買商品的概率。離境退稅的數(shù)據(jù)更好的服務(wù)于離境退稅政策，廣大的境外旅客在境內(nèi)買到了合適的商品，有利于刺激旅游業(yè)的發(fā)展、提高綜合性的經(jīng)濟(jì)效益。

附圖說明

附圖1為一種基于聚類算法的境外旅客購物行為分析方法的流程框圖。

具體實(shí)施方式

實(shí)施例1：

該基于聚類算法的境外旅客購物行為分析方法步驟如下：

步驟1)從購物分析的源數(shù)據(jù)對(duì)象中抽取一個(gè)隨機(jī)樣本S；

步驟2)將樣本S分割為一組劃分；

步驟3)對(duì)劃分局部的聚類；

步驟4)用相應(yīng)的簇標(biāo)簽標(biāo)記數(shù)據(jù)；

步驟5)通過隨機(jī)取樣提出孤立點(diǎn)，如果一個(gè)簇增長(zhǎng)得太慢，就去掉該族，重新進(jìn)入步驟3)。

實(shí)施例2：

該基于聚類算法的境外旅客購物行為分析方法步驟如下：

步驟1)從購物分析的源數(shù)據(jù)對(duì)象中抽取一個(gè)隨機(jī)樣本S；

購物分析包括性別分析、年齡分析、地域分析、商品類別分析、購買頻次分析、單價(jià)分析等。抽取待聚類數(shù)據(jù)N個(gè)模式樣本，每個(gè)數(shù)據(jù)對(duì)象有7個(gè)屬性，則數(shù)據(jù)對(duì)象定義為S＝{S_i|S_i＝(s_i1，s_i2，…,s_i7),i＝1,2,…,N}。

步驟2)將樣本S分割為一組劃分；

樣本S分割為p個(gè)分區(qū)，每個(gè)分區(qū)大小n/p；每個(gè)分區(qū)內(nèi)作聚類，直到分區(qū)內(nèi)的簇的個(gè)數(shù)為n/pq,q>1；或者指定一個(gè)距離閾值，當(dāng)最近簇距離大于閾值，則停止。

步驟3)對(duì)劃分局部的聚類；

每個(gè)數(shù)據(jù)對(duì)象分別設(shè)置一個(gè)螞蟻，i分配給第j個(gè)聚類中心C_j(j＝1,2，…,K)，螞蟻就在模式樣本i到聚類中心C_j的路徑(i，j)上留下信息素τ_ij(t)；計(jì)算任意兩個(gè)數(shù)據(jù)項(xiàng)p和q之間的距離，即d(p，q)；不同對(duì)象之間的距離可以用歐幾里得距離來度量；

數(shù)據(jù)對(duì)象S_i合并到S_j的概率為：

步驟4)用相應(yīng)的簇標(biāo)簽標(biāo)記數(shù)據(jù)；

因?yàn)镃URE用c個(gè)點(diǎn)來代表一個(gè)聚類，因此在聚類完成后，對(duì)未參加聚類的數(shù)據(jù)或新增的數(shù)據(jù)進(jìn)行標(biāo)注從而計(jì)算聚類的可信度時(shí)，其可以準(zhǔn)確的識(shí)別非球狀數(shù)據(jù)集，使得標(biāo)注更加準(zhǔn)確。

步驟5)通過隨機(jī)取樣提出孤立點(diǎn)，如果一個(gè)簇增長(zhǎng)得太慢，就去掉該族，重新進(jìn)入步驟3)。

隨機(jī)取樣，過濾了大多數(shù)的異常點(diǎn)；異常點(diǎn)所在的簇的點(diǎn)個(gè)數(shù)少于正常簇的點(diǎn)的個(gè)數(shù)，此時(shí)分兩個(gè)階段消除異常點(diǎn)。第一階段：增長(zhǎng)速度慢的簇作為異常，以點(diǎn)的個(gè)數(shù)作為閾值。Fraction(簇的個(gè)數(shù)為初始簇個(gè)數(shù)的比例；比如：1/3)的取值很重要；當(dāng)簇的個(gè)數(shù)減少到fraction時(shí)，開始作消除異常點(diǎn)的操作。第二階段：在第一階段中，可能有些相近的異常點(diǎn)已經(jīng)組合，所以進(jìn)行第二階段中異常點(diǎn)形成的簇非常小，很容易鑒別。

通過上面具體實(shí)施方式，所述技術(shù)領(lǐng)域的技術(shù)人員可容易的實(shí)現(xiàn)本發(fā)明。但是應(yīng)當(dāng)理解，本發(fā)明并不限于上述的幾種具體實(shí)施方式。在公開的實(shí)施方式的基礎(chǔ)上，所述技術(shù)領(lǐng)域的技術(shù)人員可任意組合不同的技術(shù)特征，從而實(shí)現(xiàn)不同的技術(shù)方案。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃海;路遙;徐兵兵;王永軍;
技術(shù)所有人：浪潮軟件集團(tuán)有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

旅客異常行為識(shí)別相關(guān)技術(shù)

民航旅客異常行為識(shí)別相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于聚類算法的境外旅客購物行為分析方法與流程