一種基于游客信任度的個(gè)性化旅游線路推薦方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,具體是基于社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘設(shè)計(jì)一種基于游客 信任度的個(gè)性化旅游線路推薦方法。
【背景技術(shù)】
[0002] 近年來社會(huì)化媒體網(wǎng)站迅速發(fā)展,國(guó)外的Panoramio、Flickr以及國(guó)內(nèi)的豆瓣、新 浪微博等為人們信息交流提供了平臺(tái)。人們喜歡通過文字,圖片等形式記錄自己生活的方 方面面,特別是旅游行程,人們很愿意分享旅途所見所聞。傳統(tǒng)的旅行社只是根據(jù)大眾的旅 游經(jīng)歷或者瀏覽旅游博客日志等方式來規(guī)劃線路,通常比較耗時(shí),沒有充分利用信息技術(shù) 等優(yōu)勢(shì),不能滿足用戶的多樣化需求,結(jié)果也不盡人意。旅游網(wǎng)站則側(cè)重?zé)狳c(diǎn)推薦、大眾化 推薦以及各種票務(wù)購(gòu)買活動(dòng)。
[0003] 目前在社交網(wǎng)絡(luò)中,大多數(shù)游客通常會(huì)根據(jù)個(gè)人興趣愛好添加某個(gè)聯(lián)系人或者加 入某個(gè)興趣小組,這些可以是家人、朋友或者知名人士等。美國(guó)著名調(diào)查機(jī)構(gòu)調(diào)查了影響用 戶相信某個(gè)推薦的因素,結(jié)果顯示90%的用戶相信她們朋友的推薦。也就是說,用戶之間的 信任度在一定程度上影響用戶旅游線路的選擇。
[0004] 旅游業(yè)作為國(guó)民經(jīng)濟(jì)發(fā)展的支柱產(chǎn)業(yè),個(gè)性化旅游服務(wù)推薦也受到了很大重視。 大數(shù)據(jù)的到來使得每秒都會(huì)產(chǎn)生數(shù)以百計(jì)的數(shù)據(jù),如何從海量數(shù)據(jù)中挖掘出有益信息是一 個(gè)亟待解決的問題。個(gè)性化推薦已成為解決信息過載問題的主要技術(shù),在電影、音樂和電子 商務(wù)等領(lǐng)域應(yīng)用廣泛,大部分采用單一的推薦技術(shù),沒有充分考慮用戶的偏好,同時(shí)也存在 數(shù)據(jù)稀疏性等問題。
【發(fā)明內(nèi)容】
[0005] 針對(duì)以上不足之處,本發(fā)明提供了一種通過從社會(huì)化媒體網(wǎng)站中獲取真實(shí)的旅游 數(shù)據(jù)信息,結(jié)合興趣點(diǎn)熱度和用戶信任度,可以為用戶提供多樣化、個(gè)性化的旅游線路參考 意見的基于游客信任度的個(gè)性化旅游線路推薦方法。
[0006] 為了實(shí)現(xiàn)上述目的,本發(fā)明所采用的技術(shù)方案是由以下步驟組成:
[0007] (1)調(diào)用照片分享社群網(wǎng)站API,根據(jù)地理經(jīng)煒度邊界爬取帶有地理標(biāo)簽的旅游 照片信息集與照片對(duì)應(yīng)的歷史游客信息,并利用照片信息挖掘旅游興趣點(diǎn);
[0008] (2)篩選歷史游客的基本信息,結(jié)合步驟(1)所確定的旅游興趣點(diǎn),采用本體建模 的方法構(gòu)建本體數(shù)據(jù)庫(kù),包括用戶模型和興趣點(diǎn)模型;
[0009] (3)根據(jù)用戶輸入的旅游線路要求,匹配步驟(2)的本體數(shù)據(jù)庫(kù),采用基于興趣點(diǎn) 熱度的旅游線路生成算法生成候選線路集;
[0010] (4)根據(jù)步驟(2)的用戶模型計(jì)算用戶與游玩候選線路集中的任一個(gè)候選線路中 對(duì)應(yīng)興趣點(diǎn)的歷史游客之間的信任度,得到用戶對(duì)該候選線路的平均信任度并加權(quán)處理, 得到推薦旅游線路并將其呈現(xiàn)給用戶。
[0011] 上述步驟(1)中利用照片信息數(shù)據(jù)挖掘旅游興趣點(diǎn)的方法由以下步驟實(shí)現(xiàn):
[0012] (a)采用香農(nóng)熵方法對(duì)照片信息數(shù)據(jù)進(jìn)行預(yù)處理;
[0013] (b)根據(jù)地理標(biāo)簽信息聚類并形成旅游興趣點(diǎn);
[0014] (C)旅游興趣點(diǎn)命名。
[0015] 上述步驟(a)的香農(nóng)熵方法具體是:
[0018] 其中,u是用戶,E(U)是香農(nóng)熵,Pni(U)是用戶u在m月拍照的概率,Dni(U)是用戶u 在旅游興趣點(diǎn)第m月的照片數(shù)量,M(U)是用戶u在旅游興趣點(diǎn)拍照月份m的集合,E(U)越 大,用戶是本地居民的概率越大。
[0019] 上述用戶模型包括用戶ID、性別、年齡、出游時(shí)間、當(dāng)前位置、偏好景點(diǎn)類型、好友 ID;興趣點(diǎn)模型包括興趣點(diǎn)名稱、興趣點(diǎn)類型、旅游時(shí)間、天氣情況、游玩停留時(shí)間。
[0020] 上述步驟(3)的具體方法是:
[0021] (3. 1)根據(jù)用戶輸入的旅游線路要求,匹配步驟⑵的本體數(shù)據(jù)庫(kù);
[0022] (3. 2)根據(jù)當(dāng)前位置和歷史興趣點(diǎn)記錄用Markov模型與主題模型的混合模型預(yù) 測(cè)游玩各旅游興趣點(diǎn)的概率;
[0023] (3. 3)選取概率較大的旅游興趣點(diǎn)存入隊(duì)列,并把當(dāng)前位置作為起點(diǎn);
[0024] (3. 4)計(jì)算從起點(diǎn)到旅游興趣點(diǎn)所形成的當(dāng)前線路的時(shí)間,若該線路時(shí)間小于空 余時(shí)間,則執(zhí)行步驟(3.5);否則,輸出當(dāng)前線路即為備選線路,執(zhí)行步驟(3.6);
[0025] (3. 5)根據(jù)步驟(3. 2)所得的各旅游興趣點(diǎn)概率,將隊(duì)列中的前k個(gè)游玩概率較大 的旅游興趣點(diǎn)分別加入當(dāng)前線路中,再返回步驟(3.4);
[0026] (3. 6)計(jì)算備選線路中各旅游興趣點(diǎn)的熱度;
[0027] (3. 7)取備選線路中各興趣點(diǎn)的熱度平均值作為該備選線路的熱度,選擇前k個(gè) 熱度較大的備選線路作為候選線路集。
[0028] 上述步驟(3. 2)的Markov模型與主題模型的混合模型具體為:
[0030] 其中,I1,I1 :為旅游興趣點(diǎn),hu為用戶U的歷史興趣點(diǎn)記錄,P(1iII1D為旅游興趣 點(diǎn)I1 :到1 ,的轉(zhuǎn)移概率,P(1」hu)是根據(jù)用戶u的歷史興趣點(diǎn)記錄預(yù)測(cè)游玩興趣點(diǎn)I1的概 率,P(I1)是所有歷史興趣點(diǎn)記錄中游玩^的概率,Cd1Dhu)表示標(biāo)準(zhǔn)化因子,一元語(yǔ)法模 型召回率。
[0031] 上述步驟(3. 6)中興趣點(diǎn)熱度的計(jì)算方法:
[0033] 其中:H(I1)表示旅游興趣點(diǎn)I1的熱度,熱度取值在0~1之間,值越大表示該旅 游興趣點(diǎn)越受歡迎;表示用戶U1游玩該旅游興趣點(diǎn)I 次數(shù);L是旅游興趣點(diǎn)集合, L= {1J;U為所有用戶的集合,U= {Ul}Jank1^旅游興趣點(diǎn)總排名;
[0035] 上述用戶信任度計(jì)算方法為:
[0036] 用戶Ua對(duì)用戶ub的信任度為L(zhǎng),,采用基于PageRank算法的信任度計(jì)算公式:
[0037] 其中,Uj為用戶ua好友,u3的所有好友為{uu2,ub,…,Uj,…,uj,PR(Uj)表示好 友Uj的PageRank值。
[0038] 本發(fā)明的基于游客信任度的個(gè)性化旅游線路推薦方法是利用群體智慧從社會(huì)化 媒體網(wǎng)站中獲取真實(shí)的旅游數(shù)據(jù)信息,分析其旅游動(dòng)態(tài),結(jié)合用戶信任度和興趣點(diǎn)熱度,為 用戶提供多樣化、個(gè)性化的旅游線路參考意見,與已有的技術(shù)相比,本發(fā)明優(yōu)點(diǎn)在于:
[0039] 1)從大量來自社交網(wǎng)絡(luò)中的真實(shí)旅游數(shù)據(jù)挖掘旅游興趣點(diǎn),優(yōu)于大眾人工設(shè)置的 旅游興趣點(diǎn),更具有客觀性。
[0040] 2)基于用戶本體模型(基本信息和歷史興趣點(diǎn)記錄)和用戶信任度實(shí)現(xiàn)個(gè)性化推 薦,增加用戶對(duì)推薦結(jié)果的信任度,而不是采用大眾的評(píng)分信息。
[0041] 3)綜合考慮當(dāng)前位置、偏好類型和空余時(shí)間等信息,滿足用戶多樣化需求,提供個(gè) 性化旅游線路。
[0042] 4)采用基于Markov和主題混合模型預(yù)測(cè)游玩未來旅游興趣點(diǎn)的概率,提高推薦 旅游線路的客觀性與精確度,提升客戶的滿意度;
[0043] 5)結(jié)合興趣點(diǎn)熱度、混合興趣點(diǎn)預(yù)測(cè)模型和空余時(shí)間限制設(shè)計(jì)合理的旅游線路生 成算法,提高推薦性能,為旅游規(guī)劃以及旅游項(xiàng)目開發(fā)等提供參考依據(jù),推動(dòng)旅游事業(yè)的發(fā) 展。
【附圖說明】
[0044]圖1是基于游客信任度的個(gè)性化旅游線路推薦方法框架圖;
[0045] 圖2是旅游興趣點(diǎn)挖掘流程圖;
[0046] 圖3是用戶模型框架圖;
[0047] 圖4是興趣點(diǎn)模型框架圖。
[0048] 具體實(shí)施方法
[0049] 下面結(jié)合附圖,對(duì)本發(fā)明的技術(shù)方案進(jìn)一步說明。
[0050] 如圖1所示,本實(shí)施例的基于游客信任度的個(gè)性化旅游線路推薦方法具體由以下 步驟實(shí)現(xiàn):
[0051] (1)調(diào)用Panoramio照片分享社群網(wǎng)站API,根據(jù)地理經(jīng)煒度邊界爬取旅游景點(diǎn)區(qū) 域內(nèi)帶有地理標(biāo)簽的旅游照片信息集與照片對(duì)應(yīng)的歷史游客信息,并利用照片信息挖掘旅 游興趣點(diǎn);
[0052] (I. 1)爬取旅游信息集,主要包括歷史游客基本信息和照片數(shù)據(jù)集。
[0053] 游客基本信息,包括游客ID、性別、年齡以及好友ID;
[0054] 照片信息集,包括照片ID、游客ID、煒度、經(jīng)度、標(biāo)簽以及時(shí)間;
[0055] (1. 2)旅游興趣點(diǎn)挖掘,具體是:
[0056] 如圖2所示,旅游興趣點(diǎn)即熱門旅游區(qū)域的挖掘流程圖,通過預(yù)處理、聚類和統(tǒng)計(jì) 等技術(shù)得到一些列興趣點(diǎn)L= (I1,I2,…,I1,…},具體是:
[0057] (a)采用香農(nóng)熵方法對(duì)照片信息數(shù)據(jù)進(jìn)行預(yù)處理,過濾非旅游相關(guān)的居民照片;
[0058] 在收集的數(shù)據(jù)中存在像婚禮照、生日照,事故現(xiàn)場(chǎng)等與旅游不相關(guān)的照片,這些對(duì) 于旅游推薦沒有任何貢獻(xiàn)價(jià)值,故需要把非旅游的照片數(shù)據(jù)剔除,提高旅游推薦性能和效 率。
[0059] 本發(fā)明利用香農(nóng)熵方法區(qū)分城市居民生活照片,一般游客在一個(gè)城市旅游的停留 時(shí)間在一周左右、同一個(gè)月內(nèi)或者最多連續(xù)2個(gè)月,相比當(dāng)?shù)鼐用駚碚f,一年內(nèi)每個(gè)月都有 可能拍照,故在這設(shè)置一個(gè)閾值£,當(dāng)E(U)>e,我們把該游客作為當(dāng)?shù)鼐用瘢钱惓|c(diǎn), 應(yīng)該剔除。
[0060] 香農(nóng)熵具體算法是:
[0063] 其中,u是用戶,E(U)是香農(nóng)熵,Pni(U)是用戶u在m月拍照的概率,Dni(U)是用戶 u在旅游興趣點(diǎn)第m月的照片數(shù)量,M(u)是用戶u在旅游興趣點(diǎn)的拍照月份m的集合,E(u) 越大,用戶是本地居民的概率越大。
[0064] 信息熵最常用的是以2為底,單位為比特(bit);還可以采用其他的底和單位,并 可進(jìn)行互換。本文采取以2為底。
[0065] (b)根據(jù)地理標(biāo)簽信息聚類并形成旅游興趣點(diǎn);
[0066] 利用基于密度的均值漂移(MeanShift)聚類算法對(duì)照片的經(jīng)煒度標(biāo)簽信息進(jìn)行 聚類形成類簇,從而確定旅游興趣點(diǎn)。
[0067] 均值漂移是一個(gè)非參數(shù)的,具體是:
[0068] 已知給定的照片位置P。,其Meanshift向量!]!^(p。)計(jì)算公式為:
[0070] 其中,g代表了每個(gè)位置點(diǎn)對(duì)應(yīng)的特定核函數(shù)G的權(quán)重,一般的,g是核函數(shù)G求導(dǎo) 的負(fù)方向,w是一個(gè)頻寬參數(shù)(半徑),P1為第i個(gè)照片位置。
[0071] 均值偏移過程是一系列指向某個(gè)位置的地點(diǎn)集合,滿足:
[0072] Pi' +i=Pi+m^^Pi)
[0073] 這是一個(gè)迭代過程,直到Meanshift向量IHwis(Pi)收斂,停止迭代,這樣就得到一個(gè) 興趣點(diǎn)信息,以此類推找到一系列興趣點(diǎn)集合L= {1J,Ii