本發(fā)明涉及數(shù)據(jù)檢測技術(shù)領(lǐng)域,尤其涉及一種旅游熱點(diǎn)事件檢測方法及系統(tǒng)。
背景技術(shù):
當(dāng)前國內(nèi)經(jīng)濟(jì)形勢呈上升趨勢,旅游業(yè)也隨之蓬勃發(fā)展,旅游行業(yè)信息成為炙手可熱的商業(yè)數(shù)據(jù)。對旅游行業(yè)信息進(jìn)行數(shù)據(jù)挖掘,可以為旅游從業(yè)者提供策略咨詢,可以為旅游監(jiān)管部門提供宏觀分析,還可以對整個旅游行業(yè)做前景預(yù)測,具有非常大的市場意義。
當(dāng)前旅游業(yè)發(fā)展出現(xiàn)游客量隨旅游熱點(diǎn)事件井噴式爆發(fā)的趨勢,挖掘旅游熱點(diǎn)事件成為熱門的研究課題。目前,現(xiàn)有的旅游熱點(diǎn)事件檢測大多數(shù)采用對網(wǎng)絡(luò)文本數(shù)據(jù)進(jìn)行文本聚類的方法,從聚類結(jié)果中提取出熱點(diǎn)信息。然而,大多數(shù)的熱點(diǎn)提取過程,并沒有采用專業(yè)的旅游專業(yè)知識為指導(dǎo),使得最終的熱點(diǎn)聚類結(jié)果不夠準(zhǔn)確。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明要解決的技術(shù)問題是提供一種旅游熱點(diǎn)事件檢測方法及系統(tǒng),能夠使得最終的熱點(diǎn)聚類結(jié)果更加準(zhǔn)確。
本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的:
第一方面,本發(fā)明實(shí)施例提供了一種旅游熱點(diǎn)事件檢測方法,包括:預(yù)先設(shè)置旅游專業(yè)知識庫,還包括以下步驟:
步驟1:獲取網(wǎng)絡(luò)文本數(shù)據(jù);
步驟2:根據(jù)所述網(wǎng)絡(luò)文本數(shù)據(jù)聚類熱點(diǎn)詞匯;
步驟3:匹配所述熱點(diǎn)詞匯和所述旅游專業(yè)知識庫,計算相似度;
步驟4:根據(jù)所述相似度設(shè)置熱點(diǎn)詞匯的權(quán)重,重新聚類,獲取旅游熱點(diǎn)事件。
優(yōu)選的,在所述步驟2之前,還包括:
清洗所述網(wǎng)絡(luò)文本數(shù)據(jù)。
優(yōu)選的,在所述清洗所述網(wǎng)絡(luò)文本數(shù)據(jù)之后,還包括:
將所述網(wǎng)絡(luò)文本數(shù)據(jù)進(jìn)行分詞,生成詞向量,并將所述詞向量轉(zhuǎn)換為數(shù)值向量。
優(yōu)選的,所述根據(jù)所述網(wǎng)絡(luò)文本數(shù)據(jù)聚類熱點(diǎn)詞匯包括:
根據(jù)劃分聚類算法,將所述數(shù)值向量聚類出熱點(diǎn)詞匯。
優(yōu)選的,所述相似度計算方法為:
其中,same(a,b)表示集合a和b之間的共有元素數(shù)量,sum(a,b)表示集合a和b非重復(fù)元素總和。
第二方面,本發(fā)明實(shí)施例提供了一種旅游熱點(diǎn)事件檢測系統(tǒng),包括:
設(shè)置模塊,用于預(yù)先設(shè)置旅游專業(yè)知識庫;
獲取模塊,用于獲取網(wǎng)絡(luò)文本數(shù)據(jù)并發(fā)送至聚類模塊;
所述聚類模塊,用于根據(jù)所述網(wǎng)絡(luò)文本數(shù)據(jù)聚類熱點(diǎn)詞匯;
計算模塊,用于匹配所述熱點(diǎn)詞匯和所述旅游專業(yè)知識庫,計算相似度;
預(yù)測模塊,用于根據(jù)所述相似度設(shè)置熱點(diǎn)詞匯的權(quán)重,重新聚類,獲取旅游熱點(diǎn)事件。
優(yōu)選的,還包括清洗模塊,
所述清洗模塊,用于清洗所述網(wǎng)絡(luò)文本數(shù)據(jù)。
優(yōu)選的,還包括分詞模塊
所述分詞模塊,用于將所述網(wǎng)絡(luò)文本數(shù)據(jù)進(jìn)行分詞,生成詞向量,并將所述詞向量轉(zhuǎn)換為數(shù)值向量。
優(yōu)選的,所述聚類模塊包括聚類單元;
所述聚類單元,用于根據(jù)劃分聚類算法,將所述數(shù)值向量聚類出熱點(diǎn)詞匯。
優(yōu)選的,所述預(yù)測模塊包括預(yù)測單元;
所述計算單元用于計算相似度,所述相似度計算如下:
其中,same(a,b)表示集合a和b之間的共有元素數(shù)量,sum(a,b)表示集合a和b非重復(fù)元素總和。
本發(fā)明提出的旅游熱點(diǎn)事件檢測方法及系統(tǒng),通過在聚類熱點(diǎn)詞匯之后,根據(jù)旅游專業(yè)知識庫計算熱點(diǎn)詞匯相似度并分配權(quán)重,使得旅游熱點(diǎn)詞匯能夠在聚類過程中,占有更高的聚類權(quán)重,從而明確了旅游熱點(diǎn)聚類的需求方向,保證了聚類分析結(jié)果的準(zhǔn)確性。
附圖說明
圖1為本發(fā)明實(shí)施例提出的旅游熱點(diǎn)事件檢測方法的流程圖;
圖2為本發(fā)明另一實(shí)施例提出的旅游熱點(diǎn)事件檢測方法的流程圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
如圖1所示,本發(fā)明實(shí)施例提出了一種旅游熱點(diǎn)事件檢測方法,包括以下步驟:
步驟101:預(yù)先設(shè)置旅游專業(yè)知識;
步驟102:獲取網(wǎng)絡(luò)文本數(shù)據(jù);
步驟103:根據(jù)所述網(wǎng)絡(luò)文本數(shù)據(jù)聚類熱點(diǎn)詞匯;
步驟104:匹配所述熱點(diǎn)詞匯和所述旅游專業(yè)知識庫,計算相似度;
步驟105:根據(jù)所述相似度設(shè)置熱點(diǎn)詞匯的權(quán)重,重新聚類,獲取旅游熱點(diǎn)事件。
可見,本發(fā)明實(shí)施例提出的旅游熱點(diǎn)事件檢測方法,通過在聚類熱點(diǎn)詞匯之后,根據(jù)旅游專業(yè)知識庫計算熱點(diǎn)詞匯相似度并分配權(quán)重,使得旅游熱點(diǎn)詞匯能夠在聚類過程中,占有更高的聚類權(quán)重,從而明確了旅游熱點(diǎn)聚類的需求方向,保證了聚類分析結(jié)果的準(zhǔn)確性。
在本發(fā)明的一個優(yōu)選實(shí)施例中,由于無用字符會對聚類結(jié)果產(chǎn)生噪聲影響,提升聚類的維度,占用系統(tǒng)內(nèi)存,降低算法效率,因此可以在聚類文本之前,清洗所述網(wǎng)絡(luò)文本數(shù)據(jù)。
其中,清洗所述網(wǎng)絡(luò)文本數(shù)據(jù)包括將emoji、網(wǎng)絡(luò)標(biāo)號、標(biāo)點(diǎn)、連詞、介詞、特殊字符等從文本中去除。
在本發(fā)明的一個優(yōu)選實(shí)施例中,在所述清洗所述網(wǎng)絡(luò)文本數(shù)據(jù)之后,還包括:
將所述網(wǎng)絡(luò)文本數(shù)據(jù)進(jìn)行分詞,生成詞向量,并將所述詞向量轉(zhuǎn)換為數(shù)值向量。
在本發(fā)明的一個優(yōu)選實(shí)施例中,根據(jù)所述網(wǎng)絡(luò)文本數(shù)據(jù)聚類熱點(diǎn)詞匯包括:
根據(jù)劃分聚類算法,將所述數(shù)值向量聚類出熱點(diǎn)詞匯。
在本發(fā)明的一個優(yōu)選實(shí)施例中,相似度計算方法為:
其中,same(a,b)表示集合a和b之間的共有元素數(shù)量,sum(a,b)表示集合a和b非重復(fù)元素總和。
本發(fā)明實(shí)施例提出了一種旅游熱點(diǎn)事件檢測方法,如圖2所示,包括以下步驟:
步驟201:預(yù)先設(shè)置旅游專業(yè)知識。
步驟202:獲取網(wǎng)絡(luò)文本數(shù)據(jù)。
其中,可以采用網(wǎng)絡(luò)爬蟲工具從各大網(wǎng)絡(luò)新聞平臺、社交平臺等爬取海量的旅游熱點(diǎn)新聞數(shù)據(jù)。
步驟203:清洗所述網(wǎng)絡(luò)文本數(shù)據(jù)。
由于無用字符會對聚類結(jié)果產(chǎn)生噪聲影響,提升聚類的維度,占用系統(tǒng)內(nèi)存,降低算法效率,因此可以在聚類文本之前,清洗所述網(wǎng)絡(luò)文本數(shù)據(jù)。
其中,清洗所述網(wǎng)絡(luò)文本數(shù)據(jù)包括將emoji、網(wǎng)絡(luò)標(biāo)號、標(biāo)點(diǎn)、連詞、介詞、特殊字符等從文本中去除。
步驟204:將所述網(wǎng)絡(luò)文本數(shù)據(jù)進(jìn)行分詞,生成詞向量,并將所述詞向量轉(zhuǎn)換為數(shù)值向量。
其中,將詞向量轉(zhuǎn)換為數(shù)值向量可以采用tf-idf算法。tf-idf的主要思想是:如果某個詞或短語在一篇文章中出現(xiàn)的頻率tf高,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語具有很好的類別區(qū)分能力。tf-idf實(shí)際上是:tf*idf,tf詞頻(termfrequency),idf逆向文件頻率(inversedocumentfrequency)。tf表示詞條在文檔d中出現(xiàn)的頻率。idf的主要思想是:如果包含詞條t的文檔越少,也就是n越小,idf越大,則說明詞條t具有很好的類別區(qū)分能力。tf和idf的計算方法如下:
其中,nij代表詞ti在文檔dj中的出現(xiàn)的次數(shù),分母則是所有詞在文檔dx中出現(xiàn)的次數(shù)之和。而
其中,|d|指語料庫中出現(xiàn)的文件總數(shù),而|{j:ti∈dj}|指包含詞ti的文件數(shù)目,為保證分母不為零,一般使用1+|{j:ti∈dj}|。最后,計算
tf-idfij=tfij×idfi
某一特定文件內(nèi)的高詞語頻率,以及該詞語在整個文件集合中的低文件頻率,可以產(chǎn)生出高權(quán)重的tf-idf。因此,tf-idf傾向于過濾掉常見的詞語,保留重要的詞語。
步驟205:根據(jù)所述網(wǎng)絡(luò)文本數(shù)據(jù)聚類熱點(diǎn)詞匯。
其中,本實(shí)施例中可以采用k-means聚類算法,k-means均值算法是一種典型的劃分聚類算法,即將所有樣本劃分到距離最近的均值中心點(diǎn)。算法先設(shè)初始聚類個數(shù)k和k個中心點(diǎn),將所有樣本劃分到距離最近的中心點(diǎn)所在的簇,然后更新中心點(diǎn),中心點(diǎn)即所有簇內(nèi)樣本的總和均值。重復(fù)上述過程,直到中心點(diǎn)不再變化,即表示聚類結(jié)束。其中,距離一般采用歐式距離計算:
其中,dij表示n維向量xi和n維向量yi之間的歐氏距離。
聚類算法的結(jié)果需要進(jìn)行分析,主要是評價聚類性能和聚類結(jié)果的意義?,F(xiàn)有的聚類算法的評價標(biāo)準(zhǔn)有很多種,本專利使用簇內(nèi)距離和輪廓系數(shù)評價聚類性能。簇內(nèi)距離即統(tǒng)計聚類結(jié)果所有簇包含的樣本到該簇中心的距離總和,計算公式如下:
其中,dj(xj-mi)表示第i類內(nèi)的第j個樣本xj,到均值中心mi的歐式距離dj。當(dāng)簇內(nèi)距離總和s越小,表示聚類各簇越緊湊,聚類效果越強(qiáng)。輪廓系數(shù)在簇內(nèi)距離的基礎(chǔ)上還考慮了簇間關(guān)系,計算步驟如下:
其中,a(i)表示第i個樣本xi到他所在簇的其他樣本xj距離總和的均值。再計算:
其中,b(i)表示第i個樣本xi到他最近的非所在簇,所包含所有樣本yj距離總和的均值。那么,第i個樣本的輪廓系數(shù)即:
顯然,s(i)值在區(qū)間[-1,1],該值越趨近于1,表示聚類效果越好,聚類簇間距離更遠(yuǎn),簇內(nèi)更加緊湊。通過多次調(diào)整k值,計算簇內(nèi)距離和輪廓系數(shù),即可以找到最佳的k值點(diǎn),該點(diǎn)即最佳的聚類效果點(diǎn)。通過分析最佳效果點(diǎn)的聚類結(jié)果,可以統(tǒng)計出每個簇的熱點(diǎn)詞匯,這些熱點(diǎn)詞匯即該塊模塊最終的輸出結(jié)果。
步驟206:匹配所述熱點(diǎn)詞匯和所述旅游專業(yè)知識庫,計算相似度。
聚類出來的熱點(diǎn)詞匯組,即可以和旅游專業(yè)知識庫相匹配。旅游專業(yè)知識庫中,包含了大量旅游信息和客流量之間的規(guī)則關(guān)系,可以通過聚類各簇的熱點(diǎn)詞匯組和旅游知識規(guī)則前件之間的相似度匹配,即可以分析出各個聚類簇?zé)狳c(diǎn)詞匯組的權(quán)重關(guān)系。其中相似度計算如下:
same(a,b)表示集合a和b之間的共有元素數(shù)量,sum(a,b)表示集合a和b非重復(fù)元素總和。相似度越高,表示該簇?zé)狳c(diǎn)的可信度越高??梢赃x取n個相似度最高的熱點(diǎn)詞匯組,設(shè)置權(quán)重w,與對應(yīng)詞匯的tf-idf值相乘,提高該熱點(diǎn)詞匯在樣本數(shù)值向量中的重要性比重,然后重新聚類,即可以得到更加準(zhǔn)確的熱點(diǎn)聚類結(jié)果。
步驟207:根據(jù)所述相似度設(shè)置熱點(diǎn)詞匯的權(quán)重,重新聚類,獲取旅游熱點(diǎn)事件。
本發(fā)明實(shí)施例還提出了一種旅游熱點(diǎn)事件檢測系統(tǒng),包括:
設(shè)置模塊,用于預(yù)先設(shè)置旅游專業(yè)知識庫;
獲取模塊,用于獲取網(wǎng)絡(luò)文本數(shù)據(jù)并發(fā)送至聚類模塊;
所述聚類模塊,用于根據(jù)所述網(wǎng)絡(luò)文本數(shù)據(jù)聚類熱點(diǎn)詞匯;
計算模塊,用于匹配所述熱點(diǎn)詞匯和所述旅游專業(yè)知識庫,計算相似度;
預(yù)測模塊,用于根據(jù)所述相似度設(shè)置熱點(diǎn)詞匯的權(quán)重,重新聚類,獲取旅游熱點(diǎn)事件。
在本發(fā)明的一個優(yōu)選實(shí)施例中,旅游熱點(diǎn)事件檢測系統(tǒng)還包括清洗模塊,
所述清洗模塊,用于清洗所述網(wǎng)絡(luò)文本數(shù)據(jù)。
在本發(fā)明的一個優(yōu)選實(shí)施例中,旅游熱點(diǎn)事件檢測系統(tǒng)還包括分詞模塊;
所述分詞模塊,用于將所述網(wǎng)絡(luò)文本數(shù)據(jù)進(jìn)行分詞,生成詞向量,并將所述詞向量轉(zhuǎn)換為數(shù)值向量。
在本發(fā)明的一個優(yōu)選實(shí)施例中,所述聚類模塊包括聚類單元;
所述聚類單元,用于根據(jù)劃分聚類算法,將所述數(shù)值向量聚類出熱點(diǎn)詞匯。
在本發(fā)明的一個優(yōu)選實(shí)施例中,所述預(yù)測模塊包括預(yù)測單元;
所述計算單元用于計算相似度,所述相似度計算如下:
其中,same(a,b)表示集合a和b之間的共有元素數(shù)量,sum(a,b)表示集合a和b非重復(fù)元素總和。
本發(fā)明針對旅游熱點(diǎn)聚類這一課題,在以往傳統(tǒng)的文本聚類基礎(chǔ)上加入了旅游知識庫的規(guī)則權(quán)重,對于最終聚類熱點(diǎn)的分析,具有重要的指導(dǎo)意義。傳統(tǒng)的文本聚類方法往往存在聚類性能過擬合的問題,分析結(jié)果往往比實(shí)際需求更加細(xì)化,需要人工介入重新整合。而加入了旅游知識庫的規(guī)則權(quán)重,使得旅游熱點(diǎn)信息能夠在聚類過程中,占有更高的聚類權(quán)重,從而明確了旅游熱點(diǎn)聚類的需求方向,保證了聚類分析結(jié)果的準(zhǔn)確性。
本發(fā)明通過對北京、巴西奧運(yùn)會旅游數(shù)據(jù)的熱點(diǎn)聚類,準(zhǔn)確的找出了奧運(yùn)期間游客關(guān)心的旅游熱點(diǎn)驗證了本發(fā)明對旅游業(yè)營銷策略的實(shí)際指導(dǎo)意義,也有利于政府監(jiān)管部門的宏觀調(diào)控和市場前景預(yù)測。
綜上所述,本發(fā)明實(shí)施例至少可以實(shí)現(xiàn)如下效果:
在本發(fā)明實(shí)施例中,通過在聚類熱點(diǎn)詞匯之后,根據(jù)旅游專業(yè)知識庫計算熱點(diǎn)詞匯相似度并分配權(quán)重,使得旅游熱點(diǎn)詞匯能夠在聚類過程中,占有更高的聚類權(quán)重,從而明確了旅游熱點(diǎn)聚類的需求方向,保證了聚類分析結(jié)果的準(zhǔn)確性。
在本發(fā)明實(shí)施例中,通過清洗所述網(wǎng)絡(luò)文本數(shù)據(jù),從而可以降低聚類的維度,較少占用系統(tǒng)的內(nèi)存,提高算法效率。
在本發(fā)明實(shí)施例中,通過將所述網(wǎng)絡(luò)文本數(shù)據(jù)進(jìn)行分詞,生成詞向量,并將所述詞向量轉(zhuǎn)換為數(shù)值向量,可以提高聚類的效率。
最后需要說明的是:以上所述僅為本發(fā)明的較佳實(shí)施例,僅用于說明本發(fā)明的技術(shù)方案,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi)所做的任何修改、等同替換、改進(jìn)等,均包含在本發(fā)明的保護(hù)范圍內(nèi)。