一種用于房庫網(wǎng)的網(wǎng)絡(luò)爬蟲服務(wù)系統(tǒng)的制作方法
【專利摘要】本發(fā)明提出了一種用于房庫網(wǎng)的網(wǎng)絡(luò)爬蟲服務(wù)系統(tǒng),可快速的進(jìn)行網(wǎng)站挖掘并提取房產(chǎn)相關(guān)的數(shù)據(jù),包括:網(wǎng)站爬蟲模塊,由多個(gè)網(wǎng)站爬蟲組成,網(wǎng)站爬蟲與網(wǎng)站一一對(duì)應(yīng),并針對(duì)網(wǎng)站的頁面元素進(jìn)行解析,網(wǎng)站爬蟲抽取網(wǎng)站數(shù)據(jù)進(jìn)行語義分析并映射到預(yù)設(shè)的數(shù)據(jù)實(shí)體當(dāng)中進(jìn)行保存;監(jiān)控服務(wù)模塊,用于監(jiān)控各個(gè)網(wǎng)站爬蟲的工作情況,判斷網(wǎng)站爬蟲工作是否正常,數(shù)據(jù)抓取是否正確;管理服務(wù)模塊,用于配置網(wǎng)站爬蟲工作相關(guān)參數(shù)的設(shè)置,對(duì)網(wǎng)站爬蟲進(jìn)行升級(jí),并對(duì)服務(wù)系統(tǒng)的啟動(dòng)與停止、網(wǎng)站爬蟲的生命周期及工作進(jìn)行管理;部署服務(wù)模塊,用于對(duì)網(wǎng)站爬蟲進(jìn)行分配與部署;調(diào)度服務(wù)模塊,內(nèi)置網(wǎng)絡(luò)爬蟲的調(diào)度模式,對(duì)網(wǎng)站爬蟲的工作方式、時(shí)間、停止進(jìn)行調(diào)度管理。
【專利說明】—種用于房庫網(wǎng)的網(wǎng)絡(luò)爬蟲服務(wù)系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)站數(shù)據(jù)挖掘【技術(shù)領(lǐng)域】,尤其涉及一種用于房庫網(wǎng)的網(wǎng)絡(luò)爬蟲服務(wù)系統(tǒng)。
【背景技術(shù)】
[0002]房地產(chǎn)行業(yè)直接關(guān)系民生根本。當(dāng)前居住市場(chǎng)將進(jìn)入存量房時(shí)代,而許多存量房的房主并不是專業(yè)銷售人員,提供的出售信息不夠全面。同時(shí)目前政府部門的房屋的檔案管理仍停留在紙質(zhì)階段,各種有關(guān)居住和房產(chǎn)方面的數(shù)據(jù)分散于各個(gè)單位和部門,這樣既給相關(guān)部門對(duì)人居和房產(chǎn)的管理帶來不便,同時(shí)各種有效數(shù)據(jù)也得不到充分的利用。百姓選擇住房,企業(yè)選擇辦公場(chǎng)所將面臨嚴(yán)重缺乏專業(yè)詳盡的信息服務(wù)。
[0003]在社會(huì)大環(huán)境下,推進(jìn)房產(chǎn)信息化,便于購房者查詢信息,促進(jìn)房產(chǎn)交易的完成,意義重大。房產(chǎn)信息化,需要建立收容房產(chǎn)相關(guān)“萬方數(shù)據(jù)”的大型數(shù)據(jù)庫。而建立數(shù)據(jù)庫的基礎(chǔ)就是數(shù)據(jù)挖掘,但是在進(jìn)入信息高速傳播、垃圾信息滿天飛的今天,如何快速并有效的進(jìn)行網(wǎng)站數(shù)據(jù)挖掘,一直是熱門話題,也一直沒有找到理想有效的解決手段。
【發(fā)明內(nèi)容】
[0004]基于【背景技術(shù)】存在的問題,本發(fā)明提出了一種用于房庫網(wǎng)的網(wǎng)絡(luò)爬蟲服務(wù)系統(tǒng),可快速的進(jìn)行網(wǎng)站挖掘并有效提取房產(chǎn)相關(guān)的數(shù)據(jù)。
[0005]本發(fā)明提出的一種用于房庫網(wǎng)的網(wǎng)絡(luò)爬蟲服務(wù)系統(tǒng),其特征在于,包括:
[0006]網(wǎng)站爬蟲模塊,由多個(gè)網(wǎng)站爬蟲組成,網(wǎng)站爬蟲與網(wǎng)站--對(duì)應(yīng),并針對(duì)網(wǎng)站的頁面元素進(jìn)行解析,網(wǎng)站爬蟲抽取網(wǎng)站數(shù)據(jù)進(jìn)行語義分析并映射到預(yù)設(shè)的數(shù)據(jù)實(shí)體當(dāng)中進(jìn)行保存;
[0007]監(jiān)控服務(wù)模塊,用于監(jiān)控各個(gè)網(wǎng)站爬蟲的工作情況,判斷網(wǎng)站爬蟲工作是否正常,數(shù)據(jù)抓取是否正確;
[0008]管理服務(wù)模塊,用于配置網(wǎng)站爬蟲工作相關(guān)參數(shù)的設(shè)置,對(duì)網(wǎng)站爬蟲進(jìn)行升級(jí),并對(duì)服務(wù)系統(tǒng)的啟動(dòng)與停止、網(wǎng)站爬蟲的生命周期及工作進(jìn)行管理;
[0009]部署服務(wù)模塊,用于對(duì)網(wǎng)站爬蟲進(jìn)行分配與部署;
[0010]調(diào)度服務(wù)模塊,內(nèi)置網(wǎng)絡(luò)爬蟲的調(diào)度模式,對(duì)網(wǎng)站爬蟲的工作方式、時(shí)間、停止進(jìn)行調(diào)度管理;
[0011]網(wǎng)站爬蟲模塊分別連接監(jiān)控服務(wù)模塊、管理服務(wù)模塊、部署服務(wù)模塊和調(diào)度服務(wù)模塊,監(jiān)控服務(wù)模塊分別連接管理服務(wù)模塊,管理服務(wù)模塊分別連接部署服務(wù)模塊和調(diào)度服務(wù)模塊;
[0012]工作時(shí),調(diào)度服務(wù)模塊對(duì)網(wǎng)站爬蟲的工作方式、時(shí)間、停止進(jìn)行調(diào)度管理,部署服務(wù)模塊從網(wǎng)站爬蟲模塊調(diào)用網(wǎng)站爬蟲對(duì)相應(yīng)的網(wǎng)站進(jìn)行數(shù)據(jù)挖掘,監(jiān)控服務(wù)模塊監(jiān)控網(wǎng)站爬蟲的工作情況,當(dāng)個(gè)別網(wǎng)站爬蟲工作異常時(shí),監(jiān)控服務(wù)模塊通知管理服務(wù)模塊對(duì)異常的網(wǎng)站爬蟲進(jìn)行參數(shù)及工作方式調(diào)節(jié),當(dāng)異常網(wǎng)站爬蟲達(dá)到或超過門限值a時(shí),監(jiān)控服務(wù)模塊通知管理服務(wù)模塊停止系統(tǒng)抓取網(wǎng)站數(shù)據(jù),然后,管理服務(wù)模塊通知調(diào)度服務(wù)模塊和部署服務(wù)模塊重新對(duì)網(wǎng)站爬蟲進(jìn)行調(diào)度和部署后再次進(jìn)行網(wǎng)站數(shù)據(jù)挖掘,并由監(jiān)控服務(wù)模塊進(jìn)行監(jiān)控,循環(huán)往復(fù)。
[0013]優(yōu)選地,門限值a為異常網(wǎng)站爬蟲與分布出去的總網(wǎng)站爬蟲的比值。
[0014]優(yōu)選地,a的取值范圍為[0.1,I]。
[0015]優(yōu)選地,a= 0.5。
[0016]優(yōu)選地,a為異常網(wǎng)站爬蟲的數(shù)量。
[0017]優(yōu)選地,a的取值范圍為[100,10000]。
[0018]優(yōu)選地,a的取值與分布出去的網(wǎng)站爬蟲數(shù)量成正比。
[0019]優(yōu)選地,a的取值可由人工設(shè)置或由系統(tǒng)自動(dòng)生成。
[0020]優(yōu)選地,網(wǎng)站爬蟲均為聚焦爬蟲。
[0021 ] 本發(fā)明中,通過與網(wǎng)站一一對(duì)應(yīng)的網(wǎng)站爬蟲進(jìn)行數(shù)據(jù)挖掘,工作速率高,同時(shí)挖掘到的數(shù)據(jù)通過語義分析并與預(yù)設(shè)的數(shù)據(jù)實(shí)體進(jìn)行映射后存儲(chǔ),該手段可有效刪除無關(guān)信息及重復(fù)信息,提升存儲(chǔ)數(shù)據(jù)的價(jià)值,同時(shí)也減少所占存儲(chǔ)空間。本發(fā)明中,對(duì)網(wǎng)站爬蟲的管理十分便捷且人性化,既可以自動(dòng)監(jiān)控調(diào)節(jié),也可以進(jìn)行人工調(diào)控,保證網(wǎng)站數(shù)據(jù)挖掘的實(shí)時(shí)性、有效性以及精確性。
【專利附圖】
【附圖說明】
[0022]圖1為本發(fā)明提出的一種用于房庫網(wǎng)的網(wǎng)絡(luò)爬蟲服務(wù)系統(tǒng)的結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0023]參照?qǐng)D1,本發(fā)明提出的一種用于房庫網(wǎng)的網(wǎng)絡(luò)爬蟲服務(wù)系統(tǒng),包括:網(wǎng)站爬蟲模塊、監(jiān)控服務(wù)模塊、管理服務(wù)模塊、部署服務(wù)模塊和調(diào)度服務(wù)模塊。網(wǎng)站爬蟲模塊分別連接監(jiān)控服務(wù)模塊、管理服務(wù)模塊、部署服務(wù)模塊和調(diào)度服務(wù)模塊,監(jiān)控服務(wù)模塊連接管理服務(wù)模塊,管理服務(wù)模塊分別連接部署服務(wù)模塊和調(diào)度服務(wù)模塊。
[0024]網(wǎng)站爬蟲模塊,由多個(gè)網(wǎng)站爬蟲組成,網(wǎng)站爬蟲與網(wǎng)站--對(duì)應(yīng),并針對(duì)網(wǎng)站的頁面元素進(jìn)行解析,網(wǎng)站爬蟲抽取網(wǎng)站數(shù)據(jù)進(jìn)行語義分析并映射到預(yù)設(shè)的數(shù)據(jù)實(shí)體當(dāng)中進(jìn)行保存。本實(shí)施方式,通過與網(wǎng)站--對(duì)應(yīng)的網(wǎng)站爬蟲進(jìn)行數(shù)據(jù)挖掘,工作速率高,同時(shí)挖掘到的數(shù)據(jù)通過語義分析并與預(yù)設(shè)的數(shù)據(jù)實(shí)體進(jìn)行映射后存儲(chǔ),該手段可有效刪除無關(guān)信息及重復(fù)信息,提升存儲(chǔ)數(shù)據(jù)的價(jià)值,同時(shí)也減少所占存儲(chǔ)空間。網(wǎng)站爬蟲均為聚焦爬蟲,僅僅挖掘與房產(chǎn)相關(guān)的信息。
[0025]監(jiān)控服務(wù)模塊,用于監(jiān)控各個(gè)網(wǎng)站爬蟲的工作情況,判斷網(wǎng)站爬蟲工作是否正常,數(shù)據(jù)抓取是否正確,以便運(yùn)維與開發(fā)人員及時(shí)了解網(wǎng)站爬蟲的工作狀態(tài),進(jìn)行調(diào)整。
[0026]管理服務(wù)模塊,用于配置網(wǎng)站爬蟲工作相關(guān)參數(shù)的設(shè)置,對(duì)網(wǎng)站爬蟲進(jìn)行升級(jí),并對(duì)服務(wù)系統(tǒng)的啟動(dòng)與停止、網(wǎng)站爬蟲的生命周期及工作進(jìn)行管理。網(wǎng)站爬蟲是該系統(tǒng)中最需要實(shí)時(shí)更新的部分,如果被抓取網(wǎng)站的頁面元素與認(rèn)證模式等發(fā)生變化,那么對(duì)應(yīng)的網(wǎng)站爬蟲就要進(jìn)行相應(yīng)的升級(jí)改造,以保證抓取內(nèi)容的準(zhǔn)確性。運(yùn)維與開發(fā)人員可根據(jù)監(jiān)控服務(wù)模塊的監(jiān)控結(jié)果通過管理服務(wù)模塊及時(shí)進(jìn)行網(wǎng)站爬蟲的升級(jí),保證網(wǎng)站爬蟲的實(shí)時(shí)有效性。
[0027]部署服務(wù)模塊,用于對(duì)網(wǎng)站爬蟲進(jìn)行分配與部署,使得每一個(gè)網(wǎng)站爬蟲負(fù)責(zé)且僅負(fù)責(zé)一個(gè)對(duì)應(yīng)網(wǎng)站數(shù)據(jù)的抓取,提高數(shù)據(jù)挖掘效率,避免重復(fù)。部署服務(wù)模塊就是為了提升網(wǎng)站爬蟲的部署方便性而準(zhǔn)備的’開發(fā)人員升級(jí)了網(wǎng)站爬蟲組件后可以方便快捷地進(jìn)行部署。
[0028]調(diào)度服務(wù)模塊,內(nèi)置網(wǎng)絡(luò)爬蟲的調(diào)度模式,對(duì)網(wǎng)站爬蟲的工作方式、時(shí)間、停止進(jìn)行調(diào)度管理,該模塊可用于快速、批量地調(diào)節(jié)網(wǎng)站爬蟲,提高網(wǎng)站爬蟲的設(shè)置效率,減少空白時(shí)間,防止數(shù)據(jù)遺漏,提高網(wǎng)站數(shù)據(jù)挖掘的完整度。
[0029]本系統(tǒng)工作時(shí),調(diào)度服務(wù)模塊對(duì)網(wǎng)站爬蟲的工作方式、時(shí)間、停止進(jìn)行調(diào)度管理,部署服務(wù)模塊從網(wǎng)站爬蟲模塊調(diào)用網(wǎng)站爬蟲對(duì)相應(yīng)的網(wǎng)站進(jìn)行數(shù)據(jù)挖掘,監(jiān)控服務(wù)模塊監(jiān)控網(wǎng)站爬蟲的工作情況,當(dāng)個(gè)別網(wǎng)站爬蟲工作異常時(shí),監(jiān)控服務(wù)模塊通知管理服務(wù)模塊對(duì)異常的網(wǎng)站爬蟲進(jìn)行參數(shù)及工作方式調(diào)節(jié),當(dāng)異常網(wǎng)站爬蟲達(dá)到或超過門限值a時(shí),監(jiān)控服務(wù)模塊通知管理服務(wù)模塊停止系統(tǒng)抓取網(wǎng)站數(shù)據(jù),然后,管理服務(wù)模塊通知調(diào)度服務(wù)模塊和部署服務(wù)模塊重新對(duì)網(wǎng)站爬蟲進(jìn)行調(diào)度和部署后再次進(jìn)行網(wǎng)站數(shù)據(jù)挖掘,并由監(jiān)控服務(wù)模塊進(jìn)行監(jiān)控,循環(huán)往復(fù)。
[0030]本系統(tǒng)中,門限值a為異常網(wǎng)站爬蟲與分布出去的總網(wǎng)站爬蟲的比值,且a = 0.5,即當(dāng)a〈0.5時(shí),利用管理服務(wù)模塊調(diào)整異常網(wǎng)站爬蟲,當(dāng)a>0.5時(shí),利用部署服務(wù)模塊和調(diào)度服務(wù)模塊調(diào)整異常網(wǎng)站爬蟲。具體實(shí)施時(shí),a的取值范圍可設(shè)為[0.1,I]。
[0031]具體實(shí)施時(shí),a也可以為異常網(wǎng)站爬蟲的數(shù)量,a的取值與分布出去的網(wǎng)站爬蟲數(shù)量成正比,即分布出去進(jìn)行數(shù)據(jù)挖掘的網(wǎng)站爬蟲越多,a的取值越大,具體可設(shè)a的取值范圍為[100,10000],異常網(wǎng)站爬蟲的數(shù)量小于100時(shí),管理服務(wù)模塊自行處理還不至于負(fù)荷過大,異常網(wǎng)站爬蟲的數(shù)量超過10000時(shí),已經(jīng)超過管理服務(wù)模塊的負(fù)荷范圍,啟用部署服務(wù)模塊和調(diào)度服務(wù)模塊更加快捷,可縮小數(shù)據(jù)挖掘的空白時(shí)間段。
[0032]a的取值可由人工設(shè)置或由系統(tǒng)自動(dòng)生成,人工設(shè)置可提高其精確性,系統(tǒng)自動(dòng)生成實(shí)時(shí)性更好。
[0033]以上所述,僅為本發(fā)明較佳的【具體實(shí)施方式】,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本【技術(shù)領(lǐng)域】的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),根據(jù)本發(fā)明的技術(shù)方案及其發(fā)明構(gòu)思加以等同替換或改變,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種用于房庫網(wǎng)的網(wǎng)絡(luò)爬蟲服務(wù)系統(tǒng),其特征在于,包括: 網(wǎng)站爬蟲模塊,由多個(gè)網(wǎng)站爬蟲組成,網(wǎng)站爬蟲與網(wǎng)站一一對(duì)應(yīng),并針對(duì)網(wǎng)站的頁面元素進(jìn)行解析,網(wǎng)站爬蟲抽取網(wǎng)站數(shù)據(jù)進(jìn)行語義分析并映射到預(yù)設(shè)的數(shù)據(jù)實(shí)體當(dāng)中進(jìn)行保存; 監(jiān)控服務(wù)模塊,用于監(jiān)控各個(gè)網(wǎng)站爬蟲的工作情況,判斷網(wǎng)站爬蟲工作是否正常,數(shù)據(jù)抓取是否正確; 管理服務(wù)模塊,用于配置網(wǎng)站爬蟲工作相關(guān)參數(shù)的設(shè)置,對(duì)網(wǎng)站爬蟲進(jìn)行升級(jí),并對(duì)服務(wù)系統(tǒng)的啟動(dòng)與停止、網(wǎng)站爬蟲的生命周期及工作進(jìn)行管理; 部署服務(wù)模塊,用于對(duì)網(wǎng)站爬蟲進(jìn)行分配與部署; 調(diào)度服務(wù)模塊,內(nèi)置網(wǎng)絡(luò)爬蟲的調(diào)度模式,對(duì)網(wǎng)站爬蟲的工作方式、時(shí)間、停止進(jìn)行調(diào)度管理; 網(wǎng)站爬蟲模塊分別連接連接監(jiān)控服務(wù)模塊、管理服務(wù)模塊、部署服務(wù)模塊和調(diào)度服務(wù)模塊,監(jiān)控服務(wù)模塊連接管理服務(wù)模塊,管理服務(wù)模塊分別連接部署服務(wù)模塊和調(diào)度服務(wù)模塊; 工作時(shí),調(diào)度服務(wù)模塊對(duì)網(wǎng)站爬蟲的工作方式、時(shí)間、停止進(jìn)行調(diào)度管理,部署服務(wù)模塊從網(wǎng)站爬蟲模塊調(diào)用網(wǎng)站爬蟲對(duì)相應(yīng)的網(wǎng)站進(jìn)行數(shù)據(jù)挖掘,監(jiān)控服務(wù)模塊監(jiān)控網(wǎng)站爬蟲的工作情況,當(dāng)個(gè)別網(wǎng)站爬蟲工作異常時(shí),監(jiān)控服務(wù)模塊通知管理服務(wù)模塊對(duì)異常的網(wǎng)站爬蟲進(jìn)行參數(shù)及工作方式調(diào)節(jié),當(dāng)異常網(wǎng)站爬蟲達(dá)到或超過門限值a時(shí),監(jiān)控服務(wù)模塊通知管理服務(wù)模塊停止系統(tǒng)抓取網(wǎng)站數(shù)據(jù),然后,管理服務(wù)模塊通知調(diào)度服務(wù)模塊和部署服務(wù)模塊重新對(duì)網(wǎng)站爬蟲進(jìn)行調(diào)度和部署后再次進(jìn)行網(wǎng)站數(shù)據(jù)挖掘,并由監(jiān)控服務(wù)模塊進(jìn)行監(jiān)控,循環(huán)往復(fù)。
2.如權(quán)利要求1所述的用于房庫網(wǎng)的網(wǎng)絡(luò)爬蟲服務(wù)系統(tǒng),其特征在于,門限值a為異常網(wǎng)站爬蟲與分布出去的總網(wǎng)站爬蟲的比值。
3.如權(quán)利要求2所述的用于房庫網(wǎng)的網(wǎng)絡(luò)爬蟲服務(wù)系統(tǒng),其特征在于,a的取值范圍為[0.1, I]。
4.如權(quán)利要求3所述的用于房庫網(wǎng)的網(wǎng)絡(luò)爬蟲服務(wù)系統(tǒng),其特征在于,a= 0.5。
5.如權(quán)利要求1所述的用于房庫網(wǎng)的網(wǎng)絡(luò)爬蟲服務(wù)系統(tǒng),其特征在于,a為異常網(wǎng)站爬蟲的數(shù)量。
6.如權(quán)利要求5所述的用于房庫網(wǎng)的網(wǎng)絡(luò)爬蟲服務(wù)系統(tǒng),其特征在于,a的取值范圍為[100,10000]。
7.如權(quán)利要求6所述的用于房庫網(wǎng)的網(wǎng)絡(luò)爬蟲服務(wù)系統(tǒng),其特征在于,a的取值與分布出去的網(wǎng)站爬蟲數(shù)量成正比。
8.如權(quán)利要求1至7任一項(xiàng)所述的用于房庫網(wǎng)的網(wǎng)絡(luò)爬蟲服務(wù)系統(tǒng),其特征在于,a的取值可由人工設(shè)置或由系統(tǒng)自動(dòng)生成。
9.如權(quán)利要求1所述的用于房庫網(wǎng)的網(wǎng)絡(luò)爬蟲服務(wù)系統(tǒng),其特征在于,網(wǎng)站爬蟲均為聚焦爬蟲。
【文檔編號(hào)】G06F17/30GK104182462SQ201410347463
【公開日】2014年12月3日 申請(qǐng)日期:2014年7月21日 優(yōu)先權(quán)日:2014年7月21日
【發(fā)明者】賈巖 申請(qǐng)人:安徽華貞信息科技有限公司