一種線路類(lèi)旅游產(chǎn)品的實(shí)時(shí)比價(jià)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)處理分析技術(shù)領(lǐng)域,具體涉及一種線路類(lèi)旅游產(chǎn)品的實(shí)時(shí)比價(jià)方 法。
【背景技術(shù)】
[0002] 旅游產(chǎn)品是旅游業(yè)者通過(guò)開(kāi)發(fā)、利用旅游資源提供給旅游者的旅游吸引物與服務(wù) 或其組合。其中,旅游線路產(chǎn)品因其結(jié)構(gòu)完整,服務(wù)滿意度高,更為受到大眾的歡迎。旅游 線路產(chǎn)品一般以線路為分類(lèi),包括與相關(guān)地點(diǎn)有關(guān)的幾種產(chǎn)品的組合,如交通、景點(diǎn)門(mén)票、 住宿、游玩項(xiàng)目等等。近年來(lái),由于網(wǎng)絡(luò)技術(shù)的普及,人們習(xí)慣于在網(wǎng)絡(luò)上搜尋各類(lèi)信息,目 前各種旅游網(wǎng)站會(huì)在頁(yè)面上展示各種旅游線路的產(chǎn)品內(nèi)容和價(jià)格,便于瀏覽和對(duì)比。如果 能夠采用自動(dòng)手段迅速地獲取同類(lèi)旅游線路產(chǎn)品數(shù)據(jù)并進(jìn)行準(zhǔn)確地對(duì)比,能夠大大提升數(shù) 據(jù)分析和調(diào)整效率,具有重要的意義。但現(xiàn)在的旅游線路產(chǎn)品由于標(biāo)準(zhǔn)化程度較低,產(chǎn)品描 述多為非結(jié)構(gòu)化文本,來(lái)自不同數(shù)據(jù)源的產(chǎn)品描述可能千差萬(wàn)別,因此比價(jià)時(shí)無(wú)法簡(jiǎn)單的 根據(jù)線路的名稱(chēng)判斷兩條旅游線路是否為同一線路,導(dǎo)致無(wú)法正確對(duì)線路產(chǎn)品進(jìn)行匹配和 關(guān)聯(lián),進(jìn)而無(wú)法進(jìn)行正確的比價(jià),因此目前大多數(shù)情況下是通過(guò)人工的方法進(jìn)行線路產(chǎn)品 的匹配,但這種方法無(wú)法自動(dòng)化,重復(fù)性勞動(dòng)過(guò)多,效率較低,而且由于旅游產(chǎn)品價(jià)格變動(dòng) 比較頻繁,無(wú)法滿足當(dāng)前快速高效的網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用需求。
【發(fā)明內(nèi)容】
[0003] 為解決上述問(wèn)題,本發(fā)明公開(kāi)了一種線路類(lèi)旅游產(chǎn)品的自動(dòng)實(shí)時(shí)比價(jià)方法,從線 路行程信息,價(jià)格信息,團(tuán)期信息等多個(gè)維度對(duì)線路類(lèi)旅游產(chǎn)品進(jìn)行相似度計(jì)算,獲得相似 線路產(chǎn)品,并實(shí)時(shí)抓取最新價(jià)格,保證比價(jià)的準(zhǔn)確性和實(shí)時(shí)性。
[0004] 為了達(dá)到上述目的,本發(fā)明提供如下技術(shù)方案: 一種線路類(lèi)旅游產(chǎn)品的實(shí)時(shí)比價(jià)方法,包括如下步驟: 步驟A,獲取旅游網(wǎng)站上的線路產(chǎn)品并從中抽取旅游相關(guān)數(shù)據(jù),所述旅游相關(guān)數(shù)據(jù)至少 包括出發(fā)地、目的地、行程信息、團(tuán)期信息、價(jià)格信息中的一種或幾種的組合; 步驟B,篩選出與基準(zhǔn)產(chǎn)品具有相同出發(fā)地,相同目的地,相同出游天數(shù)的旅游線路產(chǎn) 品作為候選的相似產(chǎn)品,計(jì)算行程相似度、團(tuán)期相似度和價(jià)格相似度,并通過(guò)以下公式計(jì)算 基準(zhǔn)旅游產(chǎn)品和候選相似產(chǎn)品的總和相似度: 行程相似度*行程權(quán)重+團(tuán)期相似度*團(tuán)期權(quán)重+價(jià)格相似度*價(jià)格權(quán)重; 所述行程相似度通過(guò)以下步驟進(jìn)行計(jì)算:將候選相似線路產(chǎn)品的行程信息作為輸入文 本,對(duì)文本進(jìn)行分詞后對(duì)詞語(yǔ)進(jìn)行詞性標(biāo)注,將行程中出現(xiàn)的地名的名詞提取出來(lái),利用名 詞和其詞頻組成該線路產(chǎn)品的特征向量,采用以下公式計(jì)算行程相似度:
其中,Ap 為線路產(chǎn)品的特征向量; 所述團(tuán)期相似度=A η B / A U B,其中A和B分別為兩條線路所有團(tuán)期的集合; 所述價(jià)格相似度根據(jù)根據(jù)下式進(jìn)行計(jì)算: price = 1- (abs (averageA - averageB)/averageA+abs(averageA-averageB) / averageB)/2 其中averageA和averageB跟別為線路A和線路B的平均價(jià)格; 通過(guò)以下公式計(jì)算總和相似度: 總和相似度=行程相似度*行程權(quán)重+團(tuán)期相似度*團(tuán)期權(quán)重+價(jià)格相似度*價(jià)格權(quán) 重, 當(dāng)總和相似度達(dá)到或超過(guò)設(shè)定好的比對(duì)閾值時(shí),則認(rèn)為候選產(chǎn)品與基準(zhǔn)產(chǎn)品相同,將 候選產(chǎn)品加入基準(zhǔn)產(chǎn)品相同列表; 步驟C,將步驟B中已經(jīng)完成匹配的相同產(chǎn)品列表中的各線路產(chǎn)品鏈接放置在全量抓 取隊(duì)列中,采用爬蟲(chóng)系統(tǒng)持續(xù)依次抓取全量隊(duì)列中各線路產(chǎn)品鏈接的價(jià)格信息,并計(jì)算各 個(gè)線路產(chǎn)品的更新周期;定時(shí)進(jìn)行周期性抓取,當(dāng)周期性抓取時(shí)間達(dá)到線路產(chǎn)品更新周期 的整數(shù)倍時(shí),則獲取這些線路產(chǎn)品鏈接中的價(jià)格信息并存入緩存中;當(dāng)用戶請(qǐng)求比價(jià)時(shí),判 斷緩存是否存在未過(guò)期的價(jià)格信息,當(dāng)存在未過(guò)期的價(jià)格信息時(shí)從緩存中獲得頁(yè)面產(chǎn)品列 表中各個(gè)產(chǎn)品對(duì)應(yīng)的價(jià)格,否則實(shí)時(shí)獲取價(jià)格數(shù)據(jù)。
[0005] 進(jìn)一步的,所述步驟C中進(jìn)行周期性抓取時(shí)將需要進(jìn)行抓取的線路產(chǎn)品鏈接放入 周期隊(duì)列中。
[0006] 進(jìn)一步的,所述周期隊(duì)列為多個(gè),一個(gè)周期隊(duì)列用于放置同一更新周期的產(chǎn)品鏈 接。
[0007] 進(jìn)一步的,所述步驟C中進(jìn)行周期性抓取時(shí)計(jì)算各個(gè)線路產(chǎn)品的更新周期。
[0008] 進(jìn)一步的,所述實(shí)時(shí)獲取價(jià)格數(shù)據(jù)的過(guò)程包括以下過(guò)程:將需要實(shí)時(shí)獲取價(jià)格的 線路產(chǎn)品鏈接發(fā)送到實(shí)時(shí)隊(duì)列中,爬蟲(chóng)系統(tǒng)從實(shí)時(shí)隊(duì)列中取得鏈接后去相應(yīng)網(wǎng)站抓取價(jià)格 信息。
[0009] 進(jìn)一步的,所述實(shí)時(shí)獲取的價(jià)格數(shù)據(jù)存入緩存中。
[0010] 與現(xiàn)有技術(shù)相比,本發(fā)明具有如下優(yōu)點(diǎn)和有益效果: 本發(fā)明針對(duì)線路類(lèi)旅游產(chǎn)品從多種維度進(jìn)行相似性比對(duì),比對(duì)結(jié)果精確,能夠篩選出 相似度極高的線路產(chǎn)品;且能夠根據(jù)各線路產(chǎn)品的更新周期差異,動(dòng)態(tài)調(diào)整抓取頻率,在保 證實(shí)時(shí)抓取產(chǎn)品的最新價(jià)格進(jìn)行比價(jià)的基礎(chǔ)上充分節(jié)約服務(wù)器和網(wǎng)絡(luò)資源。
【附圖說(shuō)明】
[0011] 圖1為本發(fā)明流程圖; 圖2為主動(dòng)請(qǐng)求比價(jià)流程圖; 圖3為周期性?xún)r(jià)格抓取流程圖。
【具體實(shí)施方式】
[0012] 以下將結(jié)合具體實(shí)施例對(duì)本發(fā)明提供的技術(shù)方案進(jìn)行詳細(xì)說(shuō)明,應(yīng)理解下述具體 實(shí)施方式僅用于說(shuō)明本發(fā)明而不用于限制本發(fā)明的范圍。
[0013] 本發(fā)明旨在以公司自身旅游產(chǎn)品作為比較基準(zhǔn),搜尋其他網(wǎng)站上的相同旅游線路 產(chǎn)品進(jìn)行比價(jià),并將這些信息在頁(yè)面上進(jìn)行展示,本發(fā)明步驟流程如圖1所示,包括以下步 驟: 步驟A,需要獲取其他不同旅游網(wǎng)站上的線路產(chǎn)品并從中抽取旅游相關(guān)數(shù)據(jù),這里的不 同旅游網(wǎng)站應(yīng)除去作為比較基準(zhǔn)的自身旅游產(chǎn)品所在的公司本網(wǎng)。本例利用開(kāi)源爬蟲(chóng)軟件 Nutch將不同旅游網(wǎng)站的所有線路及價(jià)格信息爬取到本地,采用XPath或者正則表達(dá)式等 技術(shù),將線路產(chǎn)品的各種數(shù)據(jù),抽取出來(lái)并且進(jìn)行格式化,抽取的數(shù)據(jù)至少應(yīng)包括出發(fā)地、 目的地、行程信息、團(tuán)期及價(jià)格信息、交通信息等。本例抓取了不同旅游網(wǎng)站上的俄羅斯旅 游產(chǎn)品進(jìn)行比對(duì),抽取出的出發(fā)地包括杭州、南京、上海、北京,目的地為莫斯科、圣彼得堡, 團(tuán)期包括出發(fā)時(shí)間和行程持續(xù)天數(shù),持續(xù)天數(shù)為6至9天不等,交通工具包括飛機(jī)、火車(chē),價(jià) 格由6000-13000元不等,行程信息通常包括大段的行程內(nèi)容描述,本例抽取行程中的一段 行程信息描述以作示例: "早餐后,漫步于俄羅斯的精神中心一一紅場(chǎng)(克里姆林宮墻外就是紅場(chǎng),面積9. 1萬(wàn) 平方米,地面全部由條石鋪成,顯得古老而神圣。紅場(chǎng)15世紀(jì)就已出現(xiàn)。當(dāng)時(shí),沙皇伊凡三 世下令拆除克里姆林宮外圍的木墻,改為市場(chǎng),從而得名〃托爾格",即〃集市廣場(chǎng)"。1662 年改為〃紅場(chǎng)",古俄語(yǔ)意為〃美麗的廣場(chǎng)"),參觀列寧墓一瞻仰世界偉大的革命導(dǎo)師列 寧,瓦西里大教堂,無(wú)名烈士墓、亞歷山大花園(3個(gè)景點(diǎn)共約1小時(shí)),世界著名的商場(chǎng)一古 姆百貨商店(入內(nèi)游覽約30分鐘)。
[0014] 游覽莫斯科的心臟和歷史發(fā)源地一克里姆林宮(入內(nèi)參觀,游覽時(shí)間約1小時(shí)),它 由迷人的宮殿、官邸、教堂和珍藏著各種無(wú)價(jià)之寶的寶庫(kù)構(gòu)成,您可以看到15-17世紀(jì)的俄 羅斯建筑杰作圣母升天大教堂,報(bào)喜大教堂,天使長(zhǎng)大教堂,金頂?shù)囊练泊蟮坨姌牵?6世紀(jì) 的炮王和18世紀(jì)的鐘王。
[0015] 下午乘高鐵赴圣彼得堡,抵達(dá)后入住酒店休息。" 步驟B,對(duì)于抓取的來(lái)自不同網(wǎng)站的線路產(chǎn)品進(jìn)行相似度計(jì)算,基于前序步驟中抽取的 數(shù)據(jù),根據(jù)條件(即作為比較基準(zhǔn)的旅游線路