本發(fā)明涉及一種旅游信息數(shù)據(jù)分析方法,具體是涉及了一種基于旅游需求模板的景區(qū)評價(jià)數(shù)據(jù)分析輿情滿意度方法。
背景技術(shù):
隨著經(jīng)濟(jì)的發(fā)展,現(xiàn)在已經(jīng)進(jìn)入旅游智能化階段和大數(shù)據(jù)的時(shí)代,游客通常通過查看媒體互動分享評價(jià)來決定自己旅游計(jì)劃。
然而,傳統(tǒng)游客在游記中對景區(qū)景點(diǎn)的評價(jià)內(nèi)容是非結(jié)構(gòu)化、離散的,即難以采用一定的算法對其進(jìn)行有規(guī)律地提取和組織,從而導(dǎo)致不能采用計(jì)算機(jī)智能對其提取分類。然而游客對“吃、住、行、游、購、娛”的評價(jià)獲取需求頗為急切,因此需要采用一種新的技術(shù)來實(shí)現(xiàn)游客評價(jià)的自動化提取并對大量的數(shù)據(jù)進(jìn)行高效的有價(jià)值的分析。
技術(shù)實(shí)現(xiàn)要素:
為解決以上技術(shù)問題,本發(fā)明提出了一種基于旅游需求模板的景區(qū)評價(jià)數(shù)據(jù)分析輿情滿意度方法。
本發(fā)明是通過下述技術(shù)方案來解決上述技術(shù)問題的:
本發(fā)明是針對于包含景區(qū)評價(jià)信息的帖子或者文章中的文字?jǐn)?shù)據(jù)進(jìn)行處理,例如對于某一論壇中,某景區(qū)下對應(yīng)的所有帖子進(jìn)行處理,帖子中會涉及到用戶對景區(qū)的評價(jià)。
本發(fā)明主要包括基于旅游需求模板的關(guān)鍵詞模板庫構(gòu)建、關(guān)鍵詞模板庫的擴(kuò)充和針對景區(qū)評價(jià)數(shù)據(jù)的輿情滿意度分析計(jì)算的三個步驟。
1)所述的旅游需求模板主要由基于旅游需求模板引導(dǎo)評價(jià)的內(nèi)容大類關(guān)鍵詞、內(nèi)容子類關(guān)鍵詞和情感關(guān)鍵詞構(gòu)成,每個內(nèi)容大類關(guān)鍵詞下分屬有其對應(yīng)的內(nèi)容子類關(guān)鍵詞,每個內(nèi)容子類關(guān)鍵詞下分屬有其對應(yīng)的情感關(guān)鍵詞。
關(guān)鍵詞模板庫初始由列舉而成,所述的內(nèi)容大類關(guān)鍵詞包括吃、住、行、游、購、娛的六個類別;所述的內(nèi)容子類關(guān)鍵詞是在內(nèi)容大類關(guān)鍵詞的基礎(chǔ)上構(gòu)建的;所述情感關(guān)鍵詞是對內(nèi)容子類關(guān)鍵詞的描述性詞語。
所述關(guān)鍵詞模板庫的擴(kuò)充具體是采用以下方式對內(nèi)容子類關(guān)鍵詞和情感關(guān)鍵詞進(jìn)行擴(kuò)充:
2)在已構(gòu)建的關(guān)鍵詞模板庫基礎(chǔ)上,通過網(wǎng)絡(luò)爬蟲工具在內(nèi)容大類關(guān)鍵詞所在段落文字附近搜索內(nèi)容子類關(guān)鍵詞,將找到的在已構(gòu)建關(guān)鍵詞模板庫中不存在的內(nèi)容子類關(guān)鍵詞作為新的內(nèi)容子類關(guān)鍵詞,并加入到關(guān)鍵詞模板庫中;
在已構(gòu)建的關(guān)鍵詞模板庫基礎(chǔ)上,通過網(wǎng)絡(luò)爬蟲工具在內(nèi)容子類關(guān)鍵詞所在段落文字附近搜索情感關(guān)鍵詞,將找到的在已構(gòu)建關(guān)鍵詞模板庫中不存在的情感關(guān)鍵詞作為新的情感關(guān)鍵詞,新的情感關(guān)鍵詞均賦分值后加入到關(guān)鍵詞模板庫中,并加入到關(guān)鍵詞模板庫中。
所述的網(wǎng)絡(luò)爬蟲工具采用八爪魚采集器,網(wǎng)絡(luò)爬蟲工具可以是任意一種,不影響本專利的實(shí)質(zhì)內(nèi)容。
3)所述針對景區(qū)評價(jià)數(shù)據(jù)的輿情滿意度分析計(jì)算具體是:由擴(kuò)充后的關(guān)鍵詞模板庫通過網(wǎng)絡(luò)爬蟲工具搜索某景區(qū)下的文字?jǐn)?shù)據(jù),抽取出內(nèi)容大類關(guān)鍵詞所在段落文字附近的內(nèi)容子類關(guān)鍵詞,再搜索抽取出每個內(nèi)容子類關(guān)鍵詞所在段落文字附近的情感關(guān)鍵詞,最后可得到大量的關(guān)于該景區(qū)的情感關(guān)鍵詞,并將這些情感關(guān)鍵詞與相應(yīng)的內(nèi)容子類關(guān)鍵詞放在一起,然后構(gòu)建景區(qū)輿情與滿意度的分析模型,通過景區(qū)輿情與滿意度的分析模型獲得以平均滿意度值作為該景區(qū)的輿情滿意度值。
A)先采用以下公式計(jì)算獲得文字?jǐn)?shù)據(jù)中所有評論中的關(guān)于某一個內(nèi)容子類關(guān)鍵詞的滿意度值:
其中,表示第i個內(nèi)容大類關(guān)鍵詞下第j個內(nèi)容子類關(guān)鍵詞的平均滿意度值,t是分值(1~5),Sij_t表示i個內(nèi)容大類關(guān)鍵詞下第j個內(nèi)容子類關(guān)鍵詞對應(yīng)分值為t的情感關(guān)鍵詞的數(shù)量,Bij表示第i個內(nèi)容大類關(guān)鍵詞下第j個內(nèi)容子類關(guān)鍵詞,B{B11,B12,B13…B21,B22,B23…}代表內(nèi)容子類關(guān)鍵詞集合;
B)再采用以下公式計(jì)算獲得文字?jǐn)?shù)據(jù)中一個內(nèi)容大類關(guān)鍵詞的滿意度值:
其中,表示第i個內(nèi)容大類關(guān)鍵詞的滿意度值,表示第i個內(nèi)容大類關(guān)鍵詞下第j個內(nèi)容子類關(guān)鍵詞的權(quán)值,n表示第i個內(nèi)容大類關(guān)鍵詞下內(nèi)容子類關(guān)鍵詞的數(shù)量,A{A1,A2,…,A6}代表內(nèi)容大類關(guān)鍵詞集合;
C)再采用以下公式計(jì)算獲得該景區(qū)的綜合滿意度值:
其中,Y表示景區(qū)的綜合滿意度值,i表示內(nèi)容大類關(guān)鍵詞的序號,i取值范圍是1~6,表示第i個內(nèi)容大類關(guān)鍵詞的權(quán)值。
本發(fā)明的有益效果在于:
本發(fā)明針對游客游記、評價(jià)等非結(jié)構(gòu)化內(nèi)容,難以被其他游客高效搜索利用的問題,根據(jù)“吃、住、行、游、購、娛”等不同需求,構(gòu)建需求關(guān)鍵詞模板,通過旅游模板訓(xùn)練系統(tǒng)對模板進(jìn)行補(bǔ)充和完善,然后根據(jù)已有模版庫構(gòu)建評價(jià)體系表,最后利用網(wǎng)絡(luò)爬蟲工具對各個旅游網(wǎng)站的評論帖子進(jìn)行分析得出各個景區(qū)的滿意度值,并通過信息一鍵式全媒體、多渠道分享,快速將評價(jià)結(jié)果傳播分享,并被高效檢索利用。
附圖說明
圖1是基于旅游需求模板的關(guān)鍵詞模板庫構(gòu)建流程圖。
圖2是關(guān)鍵詞模板庫的擴(kuò)充方式流程圖。
具體實(shí)施方式
下面結(jié)合附圖給出本發(fā)明較佳實(shí)施例,以詳細(xì)說明本發(fā)明的技術(shù)方案。
本發(fā)明的具體實(shí)施例及其具體實(shí)施過程如下:
1)基于旅游需求模板的關(guān)鍵詞模板庫構(gòu)建
1.1)內(nèi)容大類關(guān)鍵詞構(gòu)建,主要包括吃、住、行、游、購、娛幾個大類;
1.2)內(nèi)容子類關(guān)鍵詞構(gòu)建,主要是在內(nèi)容大類關(guān)鍵詞的基礎(chǔ)上構(gòu)建的,比如和內(nèi)容大類關(guān)鍵詞吃相關(guān)的內(nèi)容子類關(guān)鍵詞有飯店、餐館、快餐店、小吃街等。
1.3)情感關(guān)鍵詞構(gòu)建,主要是在內(nèi)容子類關(guān)鍵詞的基礎(chǔ)上構(gòu)建的,比如和內(nèi)容子類關(guān)鍵詞‘吃’對應(yīng)的情感關(guān)鍵詞有味道很好,價(jià)格實(shí)惠,環(huán)境優(yōu)美等。
2)關(guān)鍵詞模板庫的擴(kuò)充
2.1)基于需求模板引導(dǎo)評價(jià)的內(nèi)容子類關(guān)鍵詞庫擴(kuò)充,通過網(wǎng)絡(luò)爬蟲工具在內(nèi)容大類關(guān)鍵詞附近搜索相關(guān)的內(nèi)容子類關(guān)鍵詞并與已有的模板庫進(jìn)行對比,遇到新的內(nèi)容子類關(guān)鍵詞后,自動加入到模板庫,比如遇到與內(nèi)容大類關(guān)鍵詞吃相關(guān)的新的內(nèi)容子類關(guān)鍵詞野味店等。
2.2)基于需求模板引導(dǎo)評價(jià)的情感關(guān)鍵詞庫擴(kuò)充,通過網(wǎng)絡(luò)爬蟲工具八爪魚采集器,在內(nèi)容子類關(guān)鍵詞附近搜索相關(guān)的情感關(guān)鍵詞并與已有的模板庫進(jìn)行對比,遇到新的情感關(guān)鍵詞后,自動加入到模板庫。
2.3)情感關(guān)鍵詞均已由用戶進(jìn)行賦分,給出分值(1~5),比如非常好/棒極了/美妙極了,這三個情感詞表達(dá)的滿意度是相同的對應(yīng)的分值則都是5分,一般/湊合/還行對應(yīng)的分值則都是3分;差極了/難受死了/簡直就是受罪/再也不會去了,對應(yīng)的分值則是1分。
3)針對景區(qū)評價(jià)數(shù)據(jù)的輿情滿意度分析計(jì)算
3.1)根據(jù)已有模版庫構(gòu)建評價(jià)體系表
內(nèi)容大類關(guān)鍵詞和內(nèi)容子類關(guān)鍵詞的權(quán)重和情感關(guān)鍵詞的分值以及相同分值評論數(shù)量如下表1所示,表中{Cij_t}表示第i個內(nèi)容大類關(guān)鍵詞下第j個內(nèi)容子類關(guān)鍵詞對應(yīng)分值為t的情感關(guān)鍵詞的集合。
表1
3.2)通過網(wǎng)絡(luò)爬蟲工具搜索景區(qū)網(wǎng)頁的每個帖子,按內(nèi)容子類關(guān)鍵詞,搜索所有相關(guān)的情感關(guān)鍵詞,根據(jù)表1進(jìn)行分類統(tǒng)計(jì),把相應(yīng)的情感關(guān)鍵詞的數(shù)量記錄到對應(yīng)到Sij_t中。
比如:通過網(wǎng)絡(luò)爬蟲工具搜到網(wǎng)頁得到1000個情感關(guān)鍵詞,有600個是與內(nèi)容大類關(guān)鍵詞‘吃A1’有關(guān)的,其中300個是與內(nèi)容子類關(guān)鍵詞‘味道B11’有關(guān)的,對應(yīng)的情感關(guān)鍵詞集{Cij_t}及數(shù)量Sij_t如下表2:
表2
由內(nèi)容子類關(guān)鍵詞滿意度計(jì)算公式可知該景區(qū)關(guān)于吃的味道的滿意度值為:
即該景區(qū)關(guān)于吃的味道的滿意度值為3.6,同理可以計(jì)算其它內(nèi)容子類的關(guān)鍵詞的滿意度值。
得到所有的內(nèi)容子類關(guān)鍵詞滿意度值后,便可以根據(jù)公式計(jì)算出所有的內(nèi)容大類關(guān)鍵詞滿意度值再根據(jù)公式計(jì)算出該景區(qū)的綜合滿意度值Y。
由此本發(fā)明實(shí)施例得到滿意度值解決了以往游客游記、評價(jià)等非結(jié)構(gòu)化內(nèi)容,難以被其他游客高效搜索利用的問題,除了可以向游客提供某個景區(qū)的綜合滿意度值,還可以向游客提供該景區(qū)具體的關(guān)于吃、住、行、游、購、娛六個方面的滿意度值,以及比吃、住、行、游、購、娛更具體的相關(guān)內(nèi)容子類關(guān)鍵詞的滿意度值,讓游客快速了解該景區(qū)的各個評價(jià)參數(shù)。
以上所述,僅是為了說明本發(fā)明的內(nèi)容所列舉的部分實(shí)施例,并非對本發(fā)明做任何限制,凡是根據(jù)本發(fā)明的技術(shù)實(shí)質(zhì)對以上實(shí)例作出任何簡單的修改,等同變化與修飾,均屬于本發(fā)明的技術(shù)保護(hù)范圍內(nèi)。