亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于深度學(xué)習(xí)的互聯(lián)網(wǎng)流量大數(shù)據(jù)分析方法與流程

文檔序號(hào):11479470閱讀:225來源:國(guó)知局

本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,尤其是一種基于深度學(xué)習(xí)的互聯(lián)網(wǎng)流量大數(shù)據(jù)分析方法。



背景技術(shù):

隨著互聯(lián)網(wǎng)、移動(dòng)智能終端、物聯(lián)網(wǎng)等信息與通信技術(shù)的迅猛發(fā)展,以及計(jì)算機(jī)存儲(chǔ)和計(jì)算能力的不斷提升,各種數(shù)據(jù)的爆炸式增長(zhǎng)和持續(xù)獲取成為可能,大數(shù)據(jù)時(shí)代悄然而至。相較于傳統(tǒng)的數(shù)據(jù),人們將大數(shù)據(jù)的特征總結(jié)為5個(gè)v,即體量大(volume)、速度快(velocity)、模態(tài)多(variety)、難辨識(shí)(veracity)和價(jià)值大密度低(value)。如何分析大數(shù)據(jù),充分挖掘大數(shù)據(jù)的潛在價(jià)值,成為需要深入探討的科學(xué)問題。

在互聯(lián)網(wǎng)領(lǐng)域,網(wǎng)絡(luò)流量監(jiān)測(cè)是獲取網(wǎng)絡(luò)流量指標(biāo)和網(wǎng)絡(luò)用戶行為參數(shù)的最有效手段。隨著互聯(lián)網(wǎng)用戶的日益增多,互聯(lián)網(wǎng)需要研究和分析的數(shù)據(jù)也在不斷增多,如何從海量的用戶流量數(shù)據(jù)中挖掘出流量規(guī)律和用戶行為規(guī)律(即如何進(jìn)行互聯(lián)網(wǎng)流量大數(shù)據(jù)分析),就成為業(yè)內(nèi)亟需解決的技術(shù)難題。

基于深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法(簡(jiǎn)稱深度學(xué)習(xí)方法),作為成功的大數(shù)據(jù)分析方法,已為學(xué)術(shù)界和工業(yè)界所熟知。與傳統(tǒng)方法相比,深度學(xué)習(xí)方法以數(shù)據(jù)驅(qū)動(dòng)、能自動(dòng)地從數(shù)據(jù)中提取特征(知識(shí)),對(duì)于分析非結(jié)構(gòu)化、模式不明多變、跨領(lǐng)域的大數(shù)據(jù)具有顯著優(yōu)勢(shì)。

目前,在互聯(lián)網(wǎng)流量大數(shù)據(jù)分析中使用的深度學(xué)習(xí)方法是基于前饋神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法,而前饋神經(jīng)網(wǎng)絡(luò)的特點(diǎn)是同層神經(jīng)元之間沒有反饋連接,沒有“時(shí)間參數(shù)”屬性,所以基于前饋神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法只擅長(zhǎng)處理靜態(tài)數(shù)據(jù),卻無法處理動(dòng)態(tài)數(shù)據(jù)(即與時(shí)間相關(guān)的數(shù)據(jù)),實(shí)時(shí)性較差,滿足不了人們對(duì)互聯(lián)網(wǎng)流量大數(shù)據(jù)分析日益增長(zhǎng)的高要求。此外,當(dāng)前在互聯(lián)網(wǎng)流量大數(shù)據(jù)分析中,受各種故障的影響,網(wǎng)絡(luò)流量監(jiān)測(cè)設(shè)備監(jiān)測(cè)的數(shù)據(jù)會(huì)有缺失,進(jìn)而會(huì)因監(jiān)測(cè)的數(shù)據(jù)不完整而嚴(yán)重影響后續(xù)互聯(lián)網(wǎng)流量大數(shù)據(jù)分析的精度。



技術(shù)實(shí)現(xiàn)要素:

為解決上述技術(shù)問題,本發(fā)明的目的在于:提供一種實(shí)時(shí)性好和精度高的,基于深度學(xué)習(xí)的互聯(lián)網(wǎng)流量大數(shù)據(jù)分析方法。

本發(fā)明所采取的技術(shù)方案是:

一種基于深度學(xué)習(xí)的互聯(lián)網(wǎng)流量大數(shù)據(jù)分析方法,包括以下步驟:

獲取原始的互聯(lián)網(wǎng)流量監(jiān)測(cè)數(shù)據(jù);

采用融合n近鄰填充算法和門限填充算法的不完整數(shù)據(jù)填充算法對(duì)獲取的互聯(lián)網(wǎng)流量監(jiān)測(cè)數(shù)據(jù)進(jìn)行填充處理,其中,n為設(shè)定的最近鄰數(shù)據(jù)總個(gè)數(shù);

根據(jù)填充處理后的數(shù)據(jù)采用基于無限深度神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法進(jìn)行分類處理,得到互聯(lián)網(wǎng)網(wǎng)站的分類結(jié)果,其中,無限深度神經(jīng)網(wǎng)絡(luò)的同層神經(jīng)元之間存在反饋連接;

根據(jù)互聯(lián)網(wǎng)網(wǎng)站的分類結(jié)果進(jìn)行數(shù)據(jù)挖掘;

根據(jù)數(shù)據(jù)挖掘的結(jié)果為用戶進(jìn)行互聯(lián)網(wǎng)網(wǎng)站推薦。

進(jìn)一步,所述采用融合n近鄰填充算法和門限填充算法的不完整數(shù)據(jù)填充算法對(duì)獲取的互聯(lián)網(wǎng)流量監(jiān)測(cè)數(shù)據(jù)進(jìn)行填充處理這一步驟,其包括:

s1、對(duì)獲取的互聯(lián)網(wǎng)流量監(jiān)測(cè)數(shù)據(jù)進(jìn)行噪聲清洗,得到噪聲清洗后的數(shù)據(jù);

s2、按照數(shù)據(jù)是否完整將噪聲清洗后的數(shù)據(jù)分別劃分到完整數(shù)據(jù)集c和不完整數(shù)據(jù)集i中,并使c中的數(shù)據(jù)直接執(zhí)行步驟s5以及使i中的數(shù)據(jù)執(zhí)行步驟s3;

s3、對(duì)i中的數(shù)據(jù)i在c中進(jìn)行n近鄰數(shù)據(jù)查找,并判斷是否能在c中找出與數(shù)據(jù)i最相似的n個(gè)鄰居數(shù)據(jù),若是,則以這n個(gè)鄰居數(shù)據(jù)的均值作為數(shù)據(jù)i填充完整后的數(shù)據(jù),然后執(zhí)行步驟s5,反之,則執(zhí)行步驟s4;

s4、計(jì)算i中的數(shù)據(jù)i與完整數(shù)據(jù)集c中所有數(shù)據(jù)的距離之和d,并判斷d是否小于設(shè)定的門限th,若是,則以c中所有數(shù)據(jù)的均值作為數(shù)據(jù)i填充完整后的數(shù)據(jù),然后執(zhí)行步驟s5,反之,則將數(shù)據(jù)i從i中刪除;

s5、對(duì)填充處理后的數(shù)據(jù)進(jìn)行依次數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)規(guī)約,并將數(shù)據(jù)規(guī)約處理后的數(shù)據(jù)存儲(chǔ)到hdfs中。

進(jìn)一步,所述根據(jù)填充處理后的數(shù)據(jù)采用基于無限深度神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法進(jìn)行分類處理,得到互聯(lián)網(wǎng)網(wǎng)站的分類結(jié)果這一步驟,其包括:

從hdfs中讀取互聯(lián)網(wǎng)流量記錄;

對(duì)讀取的互聯(lián)網(wǎng)流量記錄進(jìn)行mapreduce并行處理以及數(shù)據(jù)抓取與解析處理,并將解析出的網(wǎng)頁(yè)內(nèi)容存儲(chǔ)到hbase數(shù)據(jù)庫(kù)中;

庫(kù)識(shí)別模塊采用基于庫(kù)的識(shí)別方法直接對(duì)互聯(lián)網(wǎng)流量記錄中每條記錄的url進(jìn)行識(shí)別分類,其中,庫(kù)識(shí)別模塊通過庫(kù)文件來對(duì)url識(shí)別結(jié)果表和url未識(shí)別結(jié)果表進(jìn)行更新和維護(hù);

以經(jīng)過庫(kù)識(shí)別模塊分類后未識(shí)別的網(wǎng)頁(yè)內(nèi)容作為訓(xùn)練集,采用基于無限深度神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法進(jìn)行建模和分類,以完成不同類型互聯(lián)網(wǎng)網(wǎng)站的自動(dòng)識(shí)別和分類;

基于深度學(xué)習(xí)識(shí)別的結(jié)果,提取出正確分類的url,對(duì)庫(kù)識(shí)別模塊中的庫(kù)文件進(jìn)行更新和擴(kuò)充。

進(jìn)一步,所述對(duì)讀取的互聯(lián)網(wǎng)流量記錄進(jìn)行mapreduce并行處理以及數(shù)據(jù)抓取與解析處理,并將解析出的網(wǎng)頁(yè)內(nèi)容存儲(chǔ)到hbase數(shù)據(jù)庫(kù)中這一步驟,其包括:

對(duì)讀取的互聯(lián)網(wǎng)流量記錄經(jīng)mapreduce程序進(jìn)行預(yù)處理,得到能進(jìn)行網(wǎng)頁(yè)爬取的url地址,其中,預(yù)處理包括url組合、url過濾和url去重;

采用多個(gè)并行網(wǎng)頁(yè)爬取線程對(duì)url地址進(jìn)行爬取和解析,得到網(wǎng)站標(biāo)題、關(guān)鍵詞和描述這三個(gè)字段的內(nèi)容,并將這三個(gè)字段的內(nèi)容存儲(chǔ)到hbase數(shù)據(jù)庫(kù)中。

進(jìn)一步,所述以經(jīng)過庫(kù)識(shí)別分類后未識(shí)別的網(wǎng)頁(yè)內(nèi)容作為訓(xùn)練集,采用基于無限深度神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法進(jìn)行建模和分類這一步驟,其包括:

對(duì)庫(kù)識(shí)別分類模塊無法識(shí)別的url,爬取該url對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容中的網(wǎng)站標(biāo)題、關(guān)鍵詞和描述三個(gè)字段;

將爬取的三個(gè)字段作為訓(xùn)練集,采用bptt深度學(xué)習(xí)算法或rtrl深度學(xué)習(xí)算法進(jìn)行訓(xùn)練建模和分類,以完成不同類型互聯(lián)網(wǎng)網(wǎng)站的自動(dòng)識(shí)別和分類。

進(jìn)一步,所述根據(jù)互聯(lián)網(wǎng)網(wǎng)站的分類結(jié)果進(jìn)行數(shù)據(jù)挖掘這一步驟,其包括:

獲取互聯(lián)網(wǎng)網(wǎng)站的訪問次數(shù)、訪問人數(shù)、用戶全天各時(shí)段流量和應(yīng)用商店類網(wǎng)站類型數(shù)據(jù);

根據(jù)獲取數(shù)據(jù)進(jìn)行用戶行為特征分析,得出互聯(lián)網(wǎng)網(wǎng)站的用戶行為特征,其中,互聯(lián)網(wǎng)網(wǎng)站的用戶行為特征包括互聯(lián)網(wǎng)網(wǎng)站當(dāng)前的總用戶數(shù)、平均每用戶訪問次數(shù)、平均每次訪問帶來的流量和當(dāng)前時(shí)間所處的時(shí)段;

根據(jù)互聯(lián)網(wǎng)網(wǎng)站的用戶行為特征采用三次移動(dòng)平均法預(yù)測(cè)出互聯(lián)網(wǎng)網(wǎng)站下一日同一時(shí)段內(nèi)的總用戶數(shù)、平均每用戶訪問次數(shù)和平均每次訪問帶來的流量;

根據(jù)互聯(lián)網(wǎng)網(wǎng)站下一日同一時(shí)段內(nèi)的總用戶數(shù)、平均每用戶訪問次數(shù)和平均每次訪問帶來的流量計(jì)算互聯(lián)網(wǎng)網(wǎng)站下一日同一時(shí)段內(nèi)的最大訪問流量。

進(jìn)一步,所述三次移動(dòng)平均法進(jìn)行預(yù)測(cè)的過程包括:

初始化并讀取t時(shí)段內(nèi)的當(dāng)前值xt,其中,t=1,2,3,…,t,t為當(dāng)前日當(dāng)前時(shí)間所處的時(shí)段;

計(jì)算t時(shí)段內(nèi)xt的一次移動(dòng)平均值所述的計(jì)算公式為:

式中,t=[0.5t],[0.5t]+1,…,t,“[]”為取整符號(hào),“[0.5t]”表示取不小于0.5t的最小整數(shù);

計(jì)算t時(shí)段內(nèi)xt的二次移動(dòng)平均值所述的計(jì)算公式為:

式中,t=[0.75t],[0.75t]+1,…,t,“[]”為取整符號(hào),“[0.5t]”表示取不小于0.5t的最小整數(shù);

計(jì)算第t=t時(shí)段內(nèi)xt的三次移動(dòng)平均值所述的計(jì)算公式為:

式中,“[]”為取整符號(hào),“[0.5t]”表示取不小于0.5t的最小整數(shù),t-1表示當(dāng)前日前一日同一時(shí)段,t+1表示當(dāng)前日下一日同一時(shí)段;

計(jì)算當(dāng)前日下一日同一時(shí)段內(nèi)xt的預(yù)測(cè)值xt+1,xt+1的計(jì)算公式如下:

其中,“[]”為取整符號(hào),“[0.5t]”表示取不小于0.5t的最小整數(shù),t+1表示當(dāng)前日下一日同一時(shí)段;

結(jié)束并輸出當(dāng)前日下一日同一時(shí)段內(nèi)xt的預(yù)測(cè)值xt+1。

進(jìn)一步,所述根據(jù)互聯(lián)網(wǎng)網(wǎng)站下一日同一時(shí)段內(nèi)的總用戶數(shù)、平均每用戶訪問次數(shù)和平均每次訪問帶來的流量計(jì)算互聯(lián)網(wǎng)網(wǎng)站下一日同一時(shí)段內(nèi)的最大訪問流量這一步驟,其具體為:

根據(jù)預(yù)測(cè)出的下一日同一時(shí)段內(nèi)的總用戶數(shù)ut+11、平均每用戶訪問次數(shù)和平均每次訪問帶來的流量計(jì)算下一日同一時(shí)段內(nèi)的最大訪問流量flowt+1,所述flowt+1計(jì)算的公式為:

進(jìn)一步,所述根據(jù)數(shù)據(jù)挖掘的結(jié)果為用戶進(jìn)行互聯(lián)網(wǎng)網(wǎng)站推薦這一步驟,其具體為:

逐個(gè)互聯(lián)網(wǎng)網(wǎng)站判斷下一日同一時(shí)段內(nèi)的最大訪問流量ut+1是否大于用戶設(shè)定的流量閾值,若是,則將該互聯(lián)網(wǎng)網(wǎng)站推薦給用戶,反之,則轉(zhuǎn)到下一個(gè)互聯(lián)網(wǎng)網(wǎng)站重新進(jìn)行判斷,直到所有互聯(lián)網(wǎng)網(wǎng)站均已判斷結(jié)束為止。

進(jìn)一步,所述根據(jù)數(shù)據(jù)挖掘的結(jié)果為用戶進(jìn)行互聯(lián)網(wǎng)網(wǎng)站推薦這一步驟,其具體為:

根據(jù)數(shù)據(jù)挖掘的結(jié)果采用協(xié)同過濾的方法為用戶進(jìn)行互聯(lián)網(wǎng)網(wǎng)站推薦,所述協(xié)同過濾的方法包括基于用戶的協(xié)同過濾算法和基于物品的協(xié)同過濾算法。

本發(fā)明的有益效果是:包括獲取原始的互聯(lián)網(wǎng)流量監(jiān)測(cè)數(shù)據(jù),采用融合n近鄰填充算法和門限填充算法的不完整數(shù)據(jù)填充算法對(duì)獲取的互聯(lián)網(wǎng)流量監(jiān)測(cè)數(shù)據(jù)進(jìn)行填充處理,根據(jù)填充處理后的數(shù)據(jù)采用基于無限深度神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法進(jìn)行分類處理,根據(jù)互聯(lián)網(wǎng)網(wǎng)站的分類結(jié)果進(jìn)行數(shù)據(jù)挖掘,根據(jù)數(shù)據(jù)挖掘的結(jié)果為用戶進(jìn)行互聯(lián)網(wǎng)網(wǎng)站推薦的步驟,采用了基于無限深度神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法進(jìn)行分類處理,通過具有反饋連接的無限深度神經(jīng)網(wǎng)絡(luò)來取代現(xiàn)有的前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行深度學(xué)習(xí),能處理動(dòng)態(tài)數(shù)據(jù),實(shí)時(shí)性較好,滿足了人們對(duì)互聯(lián)網(wǎng)流量大數(shù)據(jù)分析日益增長(zhǎng)的高要求;采用融合n近鄰填充算法和門限填充算法的不完整數(shù)據(jù)填充算法對(duì)獲取的互聯(lián)網(wǎng)流量監(jiān)測(cè)數(shù)據(jù)進(jìn)行填充處理,減少了數(shù)據(jù)不完整的情況發(fā)生,提高了互聯(lián)網(wǎng)流量大數(shù)據(jù)分析的精度。進(jìn)一步,基于互聯(lián)網(wǎng)網(wǎng)站的用戶行為特征,以總用戶數(shù)、用戶訪問次數(shù)、用戶每次訪問帶來的流量間的關(guān)系以作為預(yù)測(cè)的依據(jù),在每日相同的時(shí)段使用三次移動(dòng)平均法預(yù)測(cè)出互聯(lián)網(wǎng)網(wǎng)站下一日同一時(shí)段內(nèi)的總用戶數(shù)、平均每用戶訪問次數(shù)和平均每次訪問帶來的流量,有效地提高了預(yù)測(cè)的合理性與準(zhǔn)確性。

附圖說明

圖1為本發(fā)明一種基于深度學(xué)習(xí)的互聯(lián)網(wǎng)流量大數(shù)據(jù)分析方法的整體流程圖。

具體實(shí)施方式

參照?qǐng)D1,一種基于深度學(xué)習(xí)的互聯(lián)網(wǎng)流量大數(shù)據(jù)分析方法,包括以下步驟:

獲取原始的互聯(lián)網(wǎng)流量監(jiān)測(cè)數(shù)據(jù);

采用融合n近鄰填充算法和門限填充算法的不完整數(shù)據(jù)填充算法對(duì)獲取的互聯(lián)網(wǎng)流量監(jiān)測(cè)數(shù)據(jù)進(jìn)行填充處理,其中,n為設(shè)定的最近鄰數(shù)據(jù)總個(gè)數(shù);

根據(jù)填充處理后的數(shù)據(jù)采用基于無限深度神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法進(jìn)行分類處理,得到互聯(lián)網(wǎng)網(wǎng)站的分類結(jié)果,其中,無限深度神經(jīng)網(wǎng)絡(luò)的同層神經(jīng)元之間存在反饋連接;

根據(jù)互聯(lián)網(wǎng)網(wǎng)站的分類結(jié)果進(jìn)行數(shù)據(jù)挖掘;

根據(jù)數(shù)據(jù)挖掘的結(jié)果為用戶進(jìn)行互聯(lián)網(wǎng)網(wǎng)站推薦。

進(jìn)一步,所述采用融合n近鄰填充算法和門限填充算法的不完整數(shù)據(jù)填充算法對(duì)獲取的互聯(lián)網(wǎng)流量監(jiān)測(cè)數(shù)據(jù)進(jìn)行填充處理這一步驟,其包括:

s1、對(duì)獲取的互聯(lián)網(wǎng)流量監(jiān)測(cè)數(shù)據(jù)進(jìn)行噪聲清洗,得到噪聲清洗后的數(shù)據(jù);

s2、按照數(shù)據(jù)是否完整將噪聲清洗后的數(shù)據(jù)分別劃分到完整數(shù)據(jù)集c和不完整數(shù)據(jù)集i中,并使c中的數(shù)據(jù)直接執(zhí)行步驟s5以及使i中的數(shù)據(jù)執(zhí)行步驟s3;

s3、對(duì)i中的數(shù)據(jù)i在c中進(jìn)行n近鄰數(shù)據(jù)查找,并判斷是否能在c中找出與數(shù)據(jù)i最相似的n個(gè)鄰居數(shù)據(jù),若是,則以這n個(gè)鄰居數(shù)據(jù)的均值作為數(shù)據(jù)i填充完整后的數(shù)據(jù),然后執(zhí)行步驟s5,反之,則執(zhí)行步驟s4;

s4、計(jì)算i中的數(shù)據(jù)i與完整數(shù)據(jù)集c中所有數(shù)據(jù)的距離之和d,并判斷d是否小于設(shè)定的門限th,若是,則以c中所有數(shù)據(jù)的均值作為數(shù)據(jù)i填充完整后的數(shù)據(jù),然后執(zhí)行步驟s5,反之,則將數(shù)據(jù)i從i中刪除;

s5、對(duì)填充處理后的數(shù)據(jù)進(jìn)行依次數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)規(guī)約,并將數(shù)據(jù)規(guī)約處理后的數(shù)據(jù)存儲(chǔ)到hdfs中。

進(jìn)一步作為優(yōu)選的實(shí)施方式,所述根據(jù)填充處理后的數(shù)據(jù)采用基于無限深度神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法進(jìn)行分類處理,得到互聯(lián)網(wǎng)網(wǎng)站的分類結(jié)果這一步驟,其包括:

從hdfs中讀取互聯(lián)網(wǎng)流量記錄;

對(duì)讀取的互聯(lián)網(wǎng)流量記錄進(jìn)行mapreduce并行處理以及數(shù)據(jù)抓取與解析處理,并將解析出的網(wǎng)頁(yè)內(nèi)容存儲(chǔ)到hbase數(shù)據(jù)庫(kù)中;

庫(kù)識(shí)別模塊采用基于庫(kù)的識(shí)別方法直接對(duì)互聯(lián)網(wǎng)流量記錄中每條記錄的url進(jìn)行識(shí)別分類,其中,庫(kù)識(shí)別模塊通過庫(kù)文件來對(duì)url識(shí)別結(jié)果表和url未識(shí)別結(jié)果表進(jìn)行更新和維護(hù);

以經(jīng)過庫(kù)識(shí)別模塊分類后未識(shí)別的網(wǎng)頁(yè)內(nèi)容作為訓(xùn)練集,采用基于無限深度神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法進(jìn)行建模和分類,以完成不同類型互聯(lián)網(wǎng)網(wǎng)站的自動(dòng)識(shí)別和分類;

基于深度學(xué)習(xí)識(shí)別的結(jié)果,提取出正確分類的url,對(duì)庫(kù)識(shí)別模塊中的庫(kù)文件進(jìn)行更新和擴(kuò)充。

進(jìn)一步作為優(yōu)選的實(shí)施方式,所述對(duì)讀取的互聯(lián)網(wǎng)流量記錄進(jìn)行mapreduce并行處理以及數(shù)據(jù)抓取與解析處理,并將解析出的網(wǎng)頁(yè)內(nèi)容存儲(chǔ)到hbase數(shù)據(jù)庫(kù)中這一步驟,其包括:

對(duì)讀取的互聯(lián)網(wǎng)流量記錄經(jīng)mapreduce程序進(jìn)行預(yù)處理,得到能進(jìn)行網(wǎng)頁(yè)爬取的url地址,其中,預(yù)處理包括url組合、url過濾和url去重;

采用多個(gè)并行網(wǎng)頁(yè)爬取線程對(duì)url地址進(jìn)行爬取和解析,得到網(wǎng)站標(biāo)題、關(guān)鍵詞和描述這三個(gè)字段的內(nèi)容,并將這三個(gè)字段的內(nèi)容存儲(chǔ)到hbase數(shù)據(jù)庫(kù)中。

進(jìn)一步作為優(yōu)選的實(shí)施方式,所述以經(jīng)過庫(kù)識(shí)別分類后未識(shí)別的網(wǎng)頁(yè)內(nèi)容作為訓(xùn)練集,采用基于無限深度神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法進(jìn)行建模和分類這一步驟,其包括:

對(duì)庫(kù)識(shí)別分類模塊無法識(shí)別的url,爬取該url對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容中的網(wǎng)站標(biāo)題、關(guān)鍵詞和描述三個(gè)字段;

將爬取的三個(gè)字段作為訓(xùn)練集,采用bptt深度學(xué)習(xí)算法或rtrl深度學(xué)習(xí)算法進(jìn)行訓(xùn)練建模和分類,以完成不同類型互聯(lián)網(wǎng)網(wǎng)站的自動(dòng)識(shí)別和分類。

進(jìn)一步作為優(yōu)選的實(shí)施方式,所述根據(jù)互聯(lián)網(wǎng)網(wǎng)站的分類結(jié)果進(jìn)行數(shù)據(jù)挖掘這一步驟,其包括:

獲取互聯(lián)網(wǎng)網(wǎng)站的訪問次數(shù)、訪問人數(shù)、用戶全天各時(shí)段流量和應(yīng)用商店類網(wǎng)站類型數(shù)據(jù);

根據(jù)獲取數(shù)據(jù)進(jìn)行用戶行為特征分析,得出互聯(lián)網(wǎng)網(wǎng)站的用戶行為特征,其中,互聯(lián)網(wǎng)網(wǎng)站的用戶行為特征包括互聯(lián)網(wǎng)網(wǎng)站當(dāng)前的總用戶數(shù)、平均每用戶訪問次數(shù)、平均每次訪問帶來的流量和當(dāng)前時(shí)間所處的時(shí)段;

根據(jù)互聯(lián)網(wǎng)網(wǎng)站的用戶行為特征采用三次移動(dòng)平均法預(yù)測(cè)出互聯(lián)網(wǎng)網(wǎng)站下一日同一時(shí)段內(nèi)的總用戶數(shù)、平均每用戶訪問次數(shù)和平均每次訪問帶來的流量;

根據(jù)互聯(lián)網(wǎng)網(wǎng)站下一日同一時(shí)段內(nèi)的總用戶數(shù)、平均每用戶訪問次數(shù)和平均每次訪問帶來的流量計(jì)算互聯(lián)網(wǎng)網(wǎng)站下一日同一時(shí)段內(nèi)的最大訪問流量。

進(jìn)一步作為優(yōu)選的實(shí)施方式,所述三次移動(dòng)平均法進(jìn)行預(yù)測(cè)的過程包括:

初始化并讀取t時(shí)段內(nèi)的當(dāng)前值xt,其中,t=1,2,3,…,t,t為當(dāng)前日當(dāng)前時(shí)間所處的時(shí)段;

計(jì)算t時(shí)段內(nèi)xt的一次移動(dòng)平均值所述的計(jì)算公式為:

式中,t=[0.5t],[0.5t]+1,…,t,“[]”為取整符號(hào),“[0.5t]”表示取不小于0.5t的最小整數(shù);

計(jì)算t時(shí)段內(nèi)xt的二次移動(dòng)平均值所述的計(jì)算公式為:

式中,t=[0.75t],[0.75t]+1,…,t,“[]”為取整符號(hào),“[0.5t]”表示取不小于0.5t的最小整數(shù);

計(jì)算第t=t時(shí)段內(nèi)xt的三次移動(dòng)平均值所述的計(jì)算公式為:

式中,“[]”為取整符號(hào),“[0.5t]”表示取不小于0.5t的最小整數(shù),t-1表示當(dāng)前日前一日同一時(shí)段,t+1表示當(dāng)前日下一日同一時(shí)段;

計(jì)算當(dāng)前日下一日同一時(shí)段內(nèi)xt的預(yù)測(cè)值xt+1,xt+1的計(jì)算公式如下:

其中,“[]”為取整符號(hào),“[0.5t]”表示取不小于0.5t的最小整數(shù),t+1表示當(dāng)前日下一日同一時(shí)段;

結(jié)束并輸出當(dāng)前日下一日同一時(shí)段內(nèi)xt的預(yù)測(cè)值xt+1。

進(jìn)一步作為優(yōu)選的實(shí)施方式,所述根據(jù)互聯(lián)網(wǎng)網(wǎng)站下一日同一時(shí)段內(nèi)的總用戶數(shù)、平均每用戶訪問次數(shù)和平均每次訪問帶來的流量計(jì)算互聯(lián)網(wǎng)網(wǎng)站下一日同一時(shí)段內(nèi)的最大訪問流量這一步驟,其具體為:

根據(jù)預(yù)測(cè)出的下一日同一時(shí)段內(nèi)的總用戶數(shù)ut+11、平均每用戶訪問次數(shù)和平均每次訪問帶來的流量計(jì)算下一日同一時(shí)段內(nèi)的最大訪問流量flowt+1,所述flowt+1計(jì)算的公式為:

進(jìn)一步作為優(yōu)選的實(shí)施方式,所述根據(jù)數(shù)據(jù)挖掘的結(jié)果為用戶進(jìn)行互聯(lián)網(wǎng)網(wǎng)站推薦這一步驟,其具體為:

逐個(gè)互聯(lián)網(wǎng)網(wǎng)站判斷下一日同一時(shí)段內(nèi)的最大訪問流量ut+1是否大于用戶設(shè)定的流量閾值,若是,則將該互聯(lián)網(wǎng)網(wǎng)站推薦給用戶,反之,則轉(zhuǎn)到下一個(gè)互聯(lián)網(wǎng)網(wǎng)站重新進(jìn)行判斷,直到所有互聯(lián)網(wǎng)網(wǎng)站均已判斷結(jié)束為止。

進(jìn)一步作為優(yōu)選的實(shí)施方式,所述根據(jù)數(shù)據(jù)挖掘的結(jié)果為用戶進(jìn)行互聯(lián)網(wǎng)網(wǎng)站推薦這一步驟,其具體為:

根據(jù)數(shù)據(jù)挖掘的結(jié)果采用協(xié)同過濾的方法為用戶進(jìn)行互聯(lián)網(wǎng)網(wǎng)站推薦,所述協(xié)同過濾的方法包括基于用戶的協(xié)同過濾算法和基于物品的協(xié)同過濾算法。

下面結(jié)合說明書附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步解釋和說明。

實(shí)施例一

針對(duì)現(xiàn)有技術(shù)實(shí)時(shí)性差和精度不高的問題,本發(fā)明提出了一種基于深度學(xué)習(xí)的互聯(lián)網(wǎng)流量大數(shù)據(jù)分析方法。

如圖1所示,本發(fā)明的互聯(lián)網(wǎng)流量大數(shù)據(jù)分析方法具體包括以下步驟:

(一)獲取原始的互聯(lián)網(wǎng)流量監(jiān)測(cè)數(shù)據(jù)。

本發(fā)明可通過現(xiàn)有的聯(lián)網(wǎng)流量監(jiān)測(cè)手段或設(shè)備來獲取互聯(lián)網(wǎng)流量監(jiān)測(cè)數(shù)據(jù)。

(二)采用融合n近鄰填充算法和門限填充算法的不完整數(shù)據(jù)填充算法對(duì)獲取的互聯(lián)網(wǎng)流量監(jiān)測(cè)數(shù)據(jù)進(jìn)行填充處理。

此過程可進(jìn)一步細(xì)分為如下步驟:

s1、對(duì)獲取的互聯(lián)網(wǎng)流量監(jiān)測(cè)數(shù)據(jù)進(jìn)行噪聲清洗,得到噪聲清洗后的數(shù)據(jù);

s2、按照數(shù)據(jù)是否完整將噪聲清洗后的數(shù)據(jù)分別劃分到完整數(shù)據(jù)集c和不完整數(shù)據(jù)集i中,并使c中的數(shù)據(jù)直接執(zhí)行步驟s5以及使i中的數(shù)據(jù)執(zhí)行步驟s3;

s3、對(duì)i中的數(shù)據(jù)i在c中進(jìn)行n近鄰數(shù)據(jù)查找,并判斷是否能在c中找出與數(shù)據(jù)i最相似的n個(gè)鄰居數(shù)據(jù),若是,則以這n個(gè)鄰居數(shù)據(jù)的均值作為數(shù)據(jù)i填充完整后的數(shù)據(jù),然后執(zhí)行步驟s5,反之,則執(zhí)行步驟s4;

s4、計(jì)算i中的數(shù)據(jù)i與完整數(shù)據(jù)集c中所有數(shù)據(jù)的距離之和d,并判斷d是否小于設(shè)定的門限th,若是,則以c中所有數(shù)據(jù)的均值作為數(shù)據(jù)i填充完整后的數(shù)據(jù),然后執(zhí)行步驟s5,反之,則將數(shù)據(jù)i從i中刪除;

s5、對(duì)填充處理后的數(shù)據(jù)進(jìn)行依次數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)規(guī)約,并將數(shù)據(jù)規(guī)約處理后的數(shù)據(jù)存儲(chǔ)到hdfs中。

其中,噪聲清洗是為了去除原始的互聯(lián)網(wǎng)流量監(jiān)測(cè)數(shù)據(jù)中的偏差、冗余和隨機(jī)錯(cuò)誤。噪聲清洗的方法包括平滑、去重等。數(shù)據(jù)集成,主要是為了對(duì)數(shù)據(jù)進(jìn)行統(tǒng)一存儲(chǔ)管理;數(shù)據(jù)轉(zhuǎn)換,主要是為了對(duì)數(shù)據(jù)進(jìn)行歸一化和標(biāo)準(zhǔn)化;數(shù)據(jù)規(guī)約,主要是為了對(duì)數(shù)據(jù)進(jìn)行維度、數(shù)值和標(biāo)記等約束,以提高后續(xù)數(shù)據(jù)挖掘的效率。

(三)根據(jù)填充處理后的數(shù)據(jù)采用基于無限深度神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法進(jìn)行分類處理,得到互聯(lián)網(wǎng)網(wǎng)站的分類結(jié)果。

此過程可進(jìn)一步細(xì)分為如下步驟:

(1)從hdfs中讀取互聯(lián)網(wǎng)流量記錄。

(2)對(duì)讀取的互聯(lián)網(wǎng)流量記錄進(jìn)行mapreduce并行處理以及數(shù)據(jù)抓取與解析處理,并將解析出的網(wǎng)頁(yè)內(nèi)容存儲(chǔ)到hbase數(shù)據(jù)庫(kù)中。

其中,對(duì)讀取的互聯(lián)網(wǎng)流量記錄進(jìn)行mapreduce并行處理是指,對(duì)讀取的互聯(lián)網(wǎng)流量記錄采用mapreduce的程序進(jìn)行預(yù)處理,得到能進(jìn)行網(wǎng)頁(yè)爬取的url地址。對(duì)讀取的互聯(lián)網(wǎng)流量記錄采用mapreduce的程序進(jìn)行預(yù)處理包括url(即統(tǒng)一資源定位符)組合、url過濾和url去重。每個(gè)url是由host和url字段構(gòu)成的,所以u(píng)rl組合,包括了對(duì)host和url字段的組合。url過濾和url去重,是為了刪除錯(cuò)誤和重復(fù)的url,提高數(shù)據(jù)的處理效率。

數(shù)據(jù)抓取與解析處理,是指采用多個(gè)并行網(wǎng)頁(yè)爬取線程對(duì)url地址進(jìn)行爬取和解析,得到網(wǎng)站標(biāo)題、關(guān)鍵詞和描述這三個(gè)字段的內(nèi)容,并將這三個(gè)字段的內(nèi)容存儲(chǔ)到hbase數(shù)據(jù)庫(kù)中。網(wǎng)站標(biāo)題、關(guān)鍵詞和描述這三個(gè)字段為網(wǎng)頁(yè)的核心內(nèi)容,為了節(jié)省存儲(chǔ)空間,本發(fā)明只選擇了這三個(gè)字段進(jìn)行爬取和解析。數(shù)據(jù)抓取與解析處理,可采用jsoup解析器來實(shí)現(xiàn)。

(3)庫(kù)識(shí)別模塊采用基于庫(kù)的識(shí)別方法直接對(duì)互聯(lián)網(wǎng)流量記錄中每條記錄的url進(jìn)行識(shí)別分類。

其中,庫(kù)識(shí)別模塊通過庫(kù)文件來對(duì)url識(shí)別結(jié)果表和url未識(shí)別結(jié)果表進(jìn)行更新和維護(hù)。庫(kù)識(shí)別模塊進(jìn)行庫(kù)識(shí)別需要預(yù)先有庫(kù)文件,庫(kù)文件最初是靠人工添加建立的,之后能基于深度學(xué)習(xí)識(shí)別分類時(shí)產(chǎn)生新的url正確分類來更新原始庫(kù)文件,使庫(kù)文件更大和更全面。

(4)以經(jīng)過庫(kù)識(shí)別模塊分類后未識(shí)別的網(wǎng)頁(yè)內(nèi)容作為訓(xùn)練集,采用基于無限深度神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法進(jìn)行建模和分類,以完成不同類型互聯(lián)網(wǎng)網(wǎng)站的自動(dòng)識(shí)別和分類。

以經(jīng)過庫(kù)識(shí)別模塊分類后未識(shí)別的網(wǎng)頁(yè)內(nèi)容作為訓(xùn)練集,是指對(duì)庫(kù)識(shí)別分類模塊無法識(shí)別的url,爬取該url對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容中的網(wǎng)站標(biāo)題、關(guān)鍵詞和描述三個(gè)字段作為訓(xùn)練集。

采用基于無限深度神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法進(jìn)行建模和分類,是指根據(jù)訓(xùn)練集采用基于無限深度神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法進(jìn)行訓(xùn)練和測(cè)試,得到正確的分類識(shí)別模型及其參數(shù)。

基于無限深度神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法,可采用bptt深度學(xué)習(xí)算法或rtrl深度學(xué)習(xí)算法來實(shí)現(xiàn)。bptt(back-propagationthroughtime)深度學(xué)習(xí)算法,是美國(guó)northeasternuniversity大學(xué)的williamsrj教授提出的能夠訓(xùn)練無限深度神經(jīng)網(wǎng)絡(luò)的反向傳遞算法。rtrl(real-timerecurrentlearning)深度學(xué)習(xí)算法,是robinson&fallsid等人提出的一種前向傳播“活動(dòng)性”信息的算法。

(5)基于深度學(xué)習(xí)識(shí)別分類的結(jié)果,提取出正確分類的url來對(duì)庫(kù)識(shí)別模塊中的庫(kù)文件進(jìn)行更新和擴(kuò)充。

(四)根據(jù)互聯(lián)網(wǎng)網(wǎng)站的分類結(jié)果進(jìn)行數(shù)據(jù)挖掘。

其中,數(shù)據(jù)挖掘的一種具體實(shí)現(xiàn)方式包括以下步驟:

(1)獲取互聯(lián)網(wǎng)網(wǎng)站的訪問次數(shù)、訪問人數(shù)、用戶全天各時(shí)段流量和應(yīng)用商店類網(wǎng)站類型數(shù)據(jù)。

其中,用戶全天各時(shí)段流量,可以以1小時(shí)為流量統(tǒng)計(jì)間隔進(jìn)行統(tǒng)計(jì)。應(yīng)用商店類網(wǎng)站的類型可為蘋果應(yīng)用商店、安卓應(yīng)用商店等。

(2)根據(jù)獲取數(shù)據(jù)進(jìn)行用戶行為特征分析,得出互聯(lián)網(wǎng)網(wǎng)站的用戶行為特征,其中,互聯(lián)網(wǎng)網(wǎng)站的用戶行為特征包括互聯(lián)網(wǎng)網(wǎng)站當(dāng)前的總用戶數(shù)、平均每用戶訪問次數(shù)、平均每次訪問帶來的流量和當(dāng)前時(shí)間所處的時(shí)段。

其中,用戶行為特征分析,可采用現(xiàn)有的特征分析方法來實(shí)現(xiàn),如聚類分析算法等。

(3)根據(jù)互聯(lián)網(wǎng)網(wǎng)站的用戶行為特征采用三次移動(dòng)平均法預(yù)測(cè)出互聯(lián)網(wǎng)網(wǎng)站下一日同一時(shí)段內(nèi)的總用戶數(shù)、平均每用戶訪問次數(shù)和平均每次訪問帶來的流量。

其中,三次移動(dòng)平均法進(jìn)行預(yù)測(cè)的過程包括:

1)初始化并讀取t時(shí)段內(nèi)的當(dāng)前值xt,其中,t=1,2,3,…,t,t為當(dāng)前日當(dāng)前時(shí)間所處的時(shí)段。

其中,xt可為當(dāng)前的總用戶數(shù)、平均每用戶訪問次數(shù)、平均每次訪問帶來的流量。

2)計(jì)算t時(shí)段內(nèi)xt的一次移動(dòng)平均值所述的計(jì)算公式為:

式中,t=[0.5t],[0.5t]+1,…,t,“[]”為取整符號(hào),“[0.5t]”表示取不小于0.5t的最小整數(shù)。

3)計(jì)算t時(shí)段內(nèi)xt的二次移動(dòng)平均值所述的計(jì)算公式為:

式中,t=[0.75t],[0.75t]+1,…,t,“[]”為取整符號(hào),“[0.5t]”表示取不小于0.5t的最小整數(shù)。

4)計(jì)算第t=t時(shí)段內(nèi)xt的三次移動(dòng)平均值所述的計(jì)算公式為:

式中,“[]”為取整符號(hào),“[0.5t]”表示取不小于0.5t的最小整數(shù),t-1表示當(dāng)前日前一日同一時(shí)段,t+1表示當(dāng)前日下一日同一時(shí)段。

5)計(jì)算當(dāng)前日下一日同一時(shí)段內(nèi)xt的預(yù)測(cè)值xt+1,xt+1的計(jì)算公式如下:

其中,“[]”為取整符號(hào),“[0.5t]”表示取不小于0.5t的最小整數(shù),t+1表示當(dāng)前日下一日同一時(shí)段。

6)結(jié)束并輸出當(dāng)前日下一日同一時(shí)段內(nèi)xt的預(yù)測(cè)值xt+1。

(4)根據(jù)互聯(lián)網(wǎng)網(wǎng)站下一日同一時(shí)段內(nèi)的總用戶數(shù)ut+1、平均每用戶訪問次數(shù)和平均每次訪問帶來的流量計(jì)算互聯(lián)網(wǎng)網(wǎng)站下一日同一時(shí)段內(nèi)的最大訪問流量flowt+1。

(五)根據(jù)數(shù)據(jù)挖掘的結(jié)果為用戶進(jìn)行互聯(lián)網(wǎng)網(wǎng)站推薦。

為用戶進(jìn)行互聯(lián)網(wǎng)網(wǎng)站推薦的方法有兩種:一種是基于預(yù)測(cè)的最大訪問流量的推薦方法,另一種是基于協(xié)同過濾的推薦方法。

其中,基于預(yù)測(cè)的最大訪問流量的推薦方法的具體過程為:逐個(gè)互聯(lián)網(wǎng)網(wǎng)站判斷下一日同一時(shí)段內(nèi)的最大訪問流量ut+1是否大于用戶設(shè)定的流量閾值,若是,則將該互聯(lián)網(wǎng)網(wǎng)站推薦給用戶,反之,則轉(zhuǎn)到下一個(gè)互聯(lián)網(wǎng)網(wǎng)站重新進(jìn)行判斷,直到所有互聯(lián)網(wǎng)網(wǎng)站均已判斷結(jié)束為止。

而基于協(xié)同過濾的推薦方法,則通過計(jì)算相似用戶或相似物品來進(jìn)行推薦。因此協(xié)同過濾的推薦方法可分為基于用戶的協(xié)同過濾算法和基于用戶的協(xié)同過濾算法,可讓用戶根據(jù)實(shí)際的需要進(jìn)行靈活選取。

以上是對(duì)本發(fā)明的較佳實(shí)施進(jìn)行了具體說明,但本發(fā)明并不限于所述實(shí)施例,熟悉本領(lǐng)域的技術(shù)人員在不違背本發(fā)明精神的前提下還可做作出種種的等同變形或替換,這些等同的變形或替換均包含在本申請(qǐng)權(quán)利要求所限定的范圍內(nèi)。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1