本發(fā)明涉及信息檢索技術(shù)領(lǐng)域,尤其涉及一種自動比價方法及其機器人裝置。
背景技術(shù):
在互聯(lián)網(wǎng)的網(wǎng)購時代,如天貓,淘寶,京東,國美,蘇寧等等網(wǎng)店紛紛通過燒錢低價,優(yōu)惠券,好友紅包分享的方式大打價格戰(zhàn),吸引更多的用戶進行購物消費。而用戶在使用這些網(wǎng)上購物資源的時候,常常很難對價格進行比對,通常只能是分別到各大網(wǎng)站去檢索相同的產(chǎn)品,而這個過程是很浪費時間的,并且也常常會因為耗費了檢索的時間,造成同產(chǎn)品中價格最便宜的會出現(xiàn)售罄的情況,使用戶即浪費了時間也沒有買到想要的產(chǎn)品,因此急需一種能夠?qū)ο嗤蛘哳愃飘a(chǎn)品進行價格統(tǒng)一把握的技術(shù)來解決有技術(shù)中存在的問題。
技術(shù)實現(xiàn)要素:
本發(fā)明目的是提供一種自動比價方法及其機器人裝置,可以解決現(xiàn)有技術(shù)中無法對同一或者類似產(chǎn)品價格統(tǒng)一把握的問題。
本發(fā)明解決技術(shù)問題采用如下技術(shù)方案:
一種自動比價方法,其特征在于,至少包括以下步驟:
獲取購物網(wǎng)站信息,指定初始種子連接以及抓取深度抓取相關(guān)網(wǎng)頁;
采用正則表達式抽取導(dǎo)航欄連接,并對網(wǎng)頁進行去噪,抽取標題和價格;
存儲抽取的標題以及價格;
根據(jù)用戶的查詢,按照標題對各價格進行對比,生成價格比對信息。
其中,使用開源工具nutch進行相關(guān)網(wǎng)頁抓取。
其中,使用開源工具boilerpipe進行網(wǎng)頁去噪。
其中,所述抽取的標題以及價格存儲在數(shù)據(jù)庫redis中。
本發(fā)明還一種自動比價機器人裝置,至少包括:
購物網(wǎng)站獲取單元,用于獲取購物網(wǎng)站信息,指定初始種子連接以及抓取深度抓取相關(guān)網(wǎng)頁;
價格抽取單元,用于采用正則表達式抽取導(dǎo)航欄連接,并對網(wǎng)頁進行去噪,抽取標題和價格;
價格信息存儲單元,用于存儲抽取的標題以及價格;
價格比對單元,根據(jù)用戶的查詢,按照標題對各價格進行對比,生成價格比對信息。
本發(fā)明具有如下有益效果:用戶可以統(tǒng)一把握相同或者類似商品的價格,選擇最優(yōu)的網(wǎng)站進行購買,獲得最佳的選擇。
附圖說明
圖1為本發(fā)明的自動比價方法的簡易流程圖;
圖2為本發(fā)明的自動比價的機器人裝置的結(jié)構(gòu)框圖。
具體實施方式
下面結(jié)合實施例及附圖對本發(fā)明的技術(shù)方案作進一步闡述。
一種自動比價方法,至少包括以下步驟:
獲取購物網(wǎng)站信息,指定初始種子連接以及抓取深度抓取相關(guān)網(wǎng)頁;
采用正則表達式抽取導(dǎo)航欄連接,并對網(wǎng)頁進行去噪,抽取標題和價格;
存儲抽取的標題以及價格;
根據(jù)用戶的查詢,按照標題對各價格進行對比,生成價格比對信息。
本發(fā)明的比價方法可以對各種產(chǎn)品進行網(wǎng)絡(luò)比價,基于原理相同,在本實施例中,僅以針對圖書類產(chǎn)品進行說明,因此在本實施例中提供一種能針對圖書進行自動抓取和進行自動比價的網(wǎng)絡(luò)爬蟲機器人。以為兩個購物網(wǎng)站京東和天貓為例,本發(fā)明的方法首先使用開源工具nutch對京東和天貓的圖書類別進行抓取網(wǎng)頁,然后進行網(wǎng)頁去噪,抽取出圖書名和價格名出來,使用數(shù)據(jù)庫redis進行存儲,對同一本書,給出價格上的對比,從而幫助用戶做出更好的選擇。
參考圖1所示,以及以下步驟:
1、采集購物網(wǎng)頁,本實施例中為天貓和京東。指定初始種子鏈接和抓取深度,即檢索例如“l(fā)onelyplanetchina”所有賣家的相同圖書,使用開源工具nutch抓取相關(guān)網(wǎng)頁,其中nutch是一個開源的搜索引擎,它提供了我們運行自己搜索引擎的全部工具,包括全文搜索和web爬蟲,鑒于該搜索引擎為現(xiàn)有的工具因此具體技術(shù)細節(jié)不再進行贅述;
2、使用正則表達式抽取導(dǎo)航欄鏈接,使用開源工具boilerpipe進行網(wǎng)頁去噪的處理部分,根據(jù)正則表達式,抽取出標題和價格,也就是該書的標題和價格。boilerpipe是一個開源的java類庫,能從html中將廣告和其他的附加信息剔除;
3、將抽取的標題和價格存儲到數(shù)據(jù)庫redis之中,方便用戶進行查詢。redis是一個開源的,key-value的高性能的數(shù)據(jù)庫存儲。
4、在本實施例中,使用html5進行用戶的頁面的查詢,給出對比后的價格。
在本發(fā)明中,還提供一種自動比價機器人裝置,參考圖2所示,至少包括:
購物網(wǎng)站獲取單元,用于獲取購物網(wǎng)站信息,指定初始種子連接以及抓取深度抓取相關(guān)網(wǎng)頁;
價格抽取單元,用于采用正則表達式抽取導(dǎo)航欄連接,并對網(wǎng)頁進行去噪,抽取標題和價格;
價格信息存儲單元,用于存儲抽取的標題以及價格;
價格比對單元,根據(jù)用戶的查詢,按照標題對各價格進行對比,生成價格比對信息。
基于本發(fā)明的自動比價機器人裝置應(yīng)用上述方法進行價格比對,因此在此不再進行贅述。
采用本發(fā)明的方案,用戶可以統(tǒng)一把握相同或者類似商品的價格,選擇最優(yōu)的網(wǎng)站進行購買,獲得最佳的選擇。
以上實施例的先后順序僅為便于描述,不代表實施例的優(yōu)劣。
最后應(yīng)說明的是:以上實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述實施例對本發(fā)明進行了詳細的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實施例所記載的技術(shù)方案進行修改,或者對其中部分技術(shù)特征進行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的精神和范圍。