本發(fā)明涉及一種系統(tǒng),具體涉及一種新型智能推薦資源的系統(tǒng)。
背景技術(shù):
借助于互聯(lián)網(wǎng)技術(shù),大數(shù)據(jù)應(yīng)用在各個方面持續(xù)深化,尤其是在人們的生活領(lǐng)域內(nèi),給人們的生活帶來了很多的便利。比如說推薦類的新聞客戶端,類似于今日頭條、網(wǎng)易新聞、鳳凰新聞等,有效地聚集了高質(zhì)量的新聞,針對用戶的點擊、閱讀行為展開新聞推薦。新聞的內(nèi)容涉及娛樂、體育、軍事、科技、財經(jīng)等,由此可見,它們更加集中于人們的生活領(lǐng)域。
然而,面對著各種巨大工作壓力,在人們的工作領(lǐng)域,同樣,甚至更加需要這樣一種資訊推薦來不斷提升用戶的工作能力,開闊工作視野。目前,還沒有發(fā)現(xiàn)市場上有這樣一款集聚資源、面向工作的推薦應(yīng)用。
當前,人們在工作過程中遇到問題,通常是有兩種方式解決:
1.搜索引擎的出現(xiàn),類似百度,可以給人們的工作帶來很大的幫助,但是,同時需要人們從大量充斥著各種資源的互聯(lián)網(wǎng)中去尋找可能有用的信息。大量無效信息(廣告)以及重復(fù)信息的篩選,將消耗用戶大量時間和精力。
2.在移動互聯(lián)時代,人們的生活極度的碎片化,上班路上、休息間隙等等,手機都成了人們嚴重依賴的工具。如何能夠幫助人們利用這些碎片化時間提升自己的個人能力,有些應(yīng)用(比如微信公眾號、專業(yè)網(wǎng)站的移動客戶端)其實在一定程度上做到了這一點,但是它的問題在于內(nèi)容過于分散,資源不夠集中,同時也不能夠滿足針對用戶個人情況的個性化服務(wù)。
因此,如果能有一種應(yīng)用,能夠匯聚集中互聯(lián)網(wǎng)上的各種優(yōu)質(zhì)資源,根據(jù)用戶的個人崗位和用戶使用行為,針對用戶自身需求進行個性化推薦服務(wù),將極大地提升用戶的工作能力和個人素質(zhì)。
技術(shù)實現(xiàn)要素:
本發(fā)明所要解決的技術(shù)問題是現(xiàn)有的網(wǎng)絡(luò)資訊總量繁多且雜亂,在現(xiàn)在快節(jié)奏的生活中大量無效的信息及廣告極大地降低了人們的效率,不便于人們快速搜索,目的在于提供一種新型智能推薦資源的系統(tǒng),解決現(xiàn)有的資訊不集中、內(nèi)容分散,不能針對人們的個人情況快速篩選出優(yōu)質(zhì)有效的資源的問題。
本發(fā)明通過下述技術(shù)方案實現(xiàn):
一種新型智能推薦資源的系統(tǒng),包括網(wǎng)絡(luò)資源收集模塊,所述網(wǎng)絡(luò)資源收集模塊包括爬蟲分配裝置和爬蟲執(zhí)行單元,所述網(wǎng)絡(luò)資源收集模塊連接有爬蟲依賴模塊和網(wǎng)頁分解模塊,網(wǎng)頁分解模塊連接有工作數(shù)據(jù)庫,工作收集庫連接有臨時增量數(shù)據(jù)庫,臨時增量數(shù)據(jù)庫連接有更新增量數(shù)據(jù)庫,更新增量數(shù)據(jù)庫連接有篩選模塊,篩選模塊連接有本地文件子系統(tǒng)和交互模塊,所述本地文件子系統(tǒng)與工作數(shù)據(jù)庫連接;
所述爬蟲依賴模塊用于配置網(wǎng)絡(luò)資源收集模塊與目標網(wǎng)絡(luò)資源之間的依賴關(guān)系;網(wǎng)絡(luò)資源收集模塊能夠通過爬蟲依賴模塊建立的依賴關(guān)系,通過爬蟲分配裝置配置相應(yīng)爬蟲執(zhí)行單元執(zhí)行資源收集;
所述網(wǎng)頁分解模塊用于網(wǎng)頁的分解、去除廣告信息、去除噪聲;
所述工作數(shù)據(jù)庫用于和當前用戶興趣內(nèi)容做相似度比較,根據(jù)相似度排序為用戶推送內(nèi)容;
所述更新增量數(shù)據(jù)庫用于存儲一個時間周期內(nèi)網(wǎng)站更新的內(nèi)容;
所述臨時增量數(shù)據(jù)庫用于存儲接著上次爬取斷點爬取到的內(nèi)容;
所述交互模塊用于分析用戶的興趣愛好,常輸入關(guān)鍵字;
所述篩選模塊用于篩選用戶在更新增量數(shù)據(jù)庫中交互模塊中得到關(guān)鍵字;
所述本地文件子系統(tǒng)用于存儲通過篩選模塊中的網(wǎng)頁數(shù)據(jù)。
所述的一種新型智能推薦資源的系統(tǒng),本地文件子系統(tǒng)連接一個分布式文件子系統(tǒng),所述分布式文件子系統(tǒng),用于同步所述本地文件子系統(tǒng)中的網(wǎng)頁數(shù)據(jù)。
所述的一種新型智能推薦資源的系統(tǒng),爬蟲分配裝置包括初始單元、網(wǎng)頁下載模塊、關(guān)閉單元,所述初始單元用于為網(wǎng)絡(luò)資源收集準備必要的存儲空間及系統(tǒng)開銷;所述網(wǎng)頁下載模塊用于根據(jù)目標網(wǎng)絡(luò)資源的數(shù)據(jù)類型選擇不同爬蟲程序收集目標網(wǎng)絡(luò)資源的數(shù)據(jù);所述關(guān)閉單元用于在收集裝置收集到所需要的目標數(shù)據(jù)后釋放系統(tǒng)開銷以及在收集裝置出現(xiàn)異常時進行異常處理。
所述的一種新型智能推薦資源的系統(tǒng),本地文件子系統(tǒng)包括url過濾器,所述url過濾器用于對收集的網(wǎng)頁數(shù)據(jù)進行重排。
所述的一種新型智能推薦資源的系統(tǒng),url過濾器為基于二進制數(shù)組bitset的過濾器。
爬蟲系統(tǒng)主要完成網(wǎng)絡(luò)優(yōu)質(zhì)資源的獲取積累,并對爬下來的數(shù)據(jù)做處理和初步分析,其工作步驟如下:
分別創(chuàng)建工作數(shù)據(jù)庫、更新增量數(shù)據(jù)庫和臨時增量數(shù)據(jù)庫,其中工作數(shù)據(jù)庫用于和當前用戶興趣內(nèi)容做相似度比較,根據(jù)相似度排序為用戶推送內(nèi)容;更新增量數(shù)據(jù)庫用戶存儲一個時間周期內(nèi)(通常是一天)網(wǎng)站更新的內(nèi)容;臨時數(shù)據(jù)庫用于存儲接著上次爬取斷點爬取到的內(nèi)容;通過爬蟲模塊爬取網(wǎng)絡(luò)上的網(wǎng)頁;提取網(wǎng)頁的主要內(nèi)容,重新生成適合客戶端閱讀的網(wǎng)頁;對內(nèi)容文本部分進行分詞,得到內(nèi)容的url、標題、標簽、來源、時間、詞頻等屬性;判斷該內(nèi)容是否是網(wǎng)站更新的內(nèi)容;如果該內(nèi)容是網(wǎng)站最近更新的內(nèi)容,將計算得到的內(nèi)容屬性存入更新增量數(shù)據(jù)庫;否則,存入臨時增量數(shù)據(jù)庫;
主系統(tǒng)推薦任務(wù)的工作步驟如下:判斷用戶是否是第一次使用移動客戶端,主系統(tǒng)從更新增量數(shù)據(jù)庫中取出若干條數(shù)據(jù)推送給用戶;否則,將根據(jù)用戶上次感興趣內(nèi)容的特征向量,分別從工作數(shù)據(jù)庫和更新增量數(shù)據(jù)庫中按照一定比例推送給用戶,其中來源于工作數(shù)據(jù)庫的數(shù)據(jù)是根據(jù)用戶感興趣內(nèi)容相似度比較的結(jié)果;通過移動客戶端搜集用戶行為,上傳至主系統(tǒng)的交互模塊,交互模塊會對用戶結(jié)合用戶的崗位特征和用戶行為(對內(nèi)容感興趣),分析下一步推薦的內(nèi)容,此時,跳轉(zhuǎn)到工作數(shù)據(jù)庫。
主系統(tǒng)搜索模塊,主要根據(jù)用戶關(guān)鍵字輸入,同時結(jié)合用戶在使用過程中產(chǎn)生的興趣關(guān)鍵字,使用lucene搜索庫對爬下來與該崗位相關(guān)的所有內(nèi)容進行全文檢索。
主系統(tǒng)的關(guān)注部分本質(zhì)上和搜索是相同的,不同之處在于滿足用戶長期對某一關(guān)鍵字的跟蹤。
本發(fā)明與現(xiàn)有技術(shù)相比,具有如下的優(yōu)點和有益效果:
1、本發(fā)明一種新型智能推薦資源的系統(tǒng),本系統(tǒng)可根據(jù)用戶的興趣愛好,篩選網(wǎng)絡(luò)資訊,過濾掉垃圾信息,根據(jù)用戶的需求愛好以及工作的性質(zhì),推送內(nèi)容,使得搜索更加快速便捷;
2、本發(fā)明一種新型智能推薦資源的系統(tǒng),本發(fā)明結(jié)合用戶的崗位特征推送資源,更加實用,并且能有效的提高用戶的工作能力。
附圖說明
此處所說明的附圖用來提供對本發(fā)明實施例的進一步理解,構(gòu)成本申請的一部分,并不構(gòu)成對本發(fā)明實施例的限定。在附圖中:
圖1為本發(fā)明結(jié)構(gòu)示意圖。
具體實施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,下面結(jié)合實施例和附圖,對本發(fā)明作進一步的詳細說明,本發(fā)明的示意性實施方式及其說明僅用于解釋本發(fā)明,并不作為對本發(fā)明的限定。
實施例
如圖1所示,本發(fā)明一種新型智能推薦資源的系統(tǒng),包括網(wǎng)絡(luò)資源收集模塊,所述網(wǎng)絡(luò)資源收集模塊包括爬蟲分配裝置和爬蟲執(zhí)行單元,所述網(wǎng)絡(luò)資源收集模塊連接有爬蟲依賴模塊和網(wǎng)頁分解模塊,網(wǎng)頁分解模塊連接有工作數(shù)據(jù)庫,工作收集庫連接有臨時增量數(shù)據(jù)庫,臨時增量數(shù)據(jù)庫連接有更新增量數(shù)據(jù)庫,更新增量數(shù)據(jù)庫連接有篩選模塊,篩選模塊連接有本地文件子系統(tǒng)和交互模塊,所述本地文件子系統(tǒng)與工作數(shù)據(jù)庫連接;
所述爬蟲依賴模塊用于配置網(wǎng)絡(luò)資源收集模塊與目標網(wǎng)絡(luò)資源之間的依賴關(guān)系;網(wǎng)絡(luò)資源收集模塊能夠通過爬蟲依賴模塊建立的依賴關(guān)系,通過爬蟲分配裝置配置相應(yīng)爬蟲執(zhí)行單元執(zhí)行資源收集;
所述網(wǎng)頁分解模塊用于網(wǎng)頁的分解、去除廣告信息、去除噪聲;
所述工作數(shù)據(jù)庫用于和當前用戶興趣內(nèi)容做相似度比較,根據(jù)相似度排序為用戶推送內(nèi)容;
所述更新增量數(shù)據(jù)庫用于存儲一個時間周期內(nèi)網(wǎng)站更新的內(nèi)容;
所述臨時增量數(shù)據(jù)庫用于存儲接著上次爬取斷點爬取到的內(nèi)容;
所述交互模塊用于分析用戶的興趣愛好,常輸入關(guān)鍵字;
所述篩選模塊用于篩選用戶在更新增量數(shù)據(jù)庫中交互模塊中得到關(guān)鍵字;
所述本地文件子系統(tǒng)用于存儲通過篩選模塊中的網(wǎng)頁數(shù)據(jù)。
一種新型智能推薦資源的系統(tǒng),所述本地文件子系統(tǒng)連接一個分布式文件子系統(tǒng),所述分布式文件子系統(tǒng),用于同步所述本地文件子系統(tǒng)中的網(wǎng)頁數(shù)據(jù)。
一種新型智能推薦資源的系統(tǒng),所述爬蟲分配裝置包括初始單元、網(wǎng)頁下載模塊、關(guān)閉單元,所述初始單元用于為網(wǎng)絡(luò)資源收集準備必要的存儲空間及系統(tǒng)開銷;所述網(wǎng)頁下載模塊用于根據(jù)目標網(wǎng)絡(luò)資源的數(shù)據(jù)類型選擇不同爬蟲程序收集目標網(wǎng)絡(luò)資源的數(shù)據(jù);所述關(guān)閉單元用于在收集裝置收集到所需要的目標數(shù)據(jù)后釋放系統(tǒng)開銷以及在收集裝置出現(xiàn)異常時進行異常處理。
一種新型智能推薦資源的系統(tǒng),所述本地文件子系統(tǒng)包括url過濾器,所述url過濾器用于對收集的網(wǎng)頁數(shù)據(jù)進行重排。
一種新型智能推薦資源的系統(tǒng),所述url過濾器為基于二進制數(shù)組bitset的過濾器。
以上所述的具體實施方式,對本發(fā)明的目的、技術(shù)方案和有益效果進行了進一步詳細說明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實施方式而已,并不用于限定本發(fā)明的保護范圍,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。