大數(shù)據(jù)分析系統(tǒng)的制作方法【
技術(shù)領(lǐng)域:
】[0001]本發(fā)明涉及一種大數(shù)據(jù)分析系統(tǒng),尤其是一種涉及大數(shù)據(jù)廣告、大數(shù)據(jù)商品推送分析的系統(tǒng)。【
背景技術(shù):
】[0002]近年來,互聯(lián)網(wǎng)的發(fā)展越來越迅速,使用互聯(lián)網(wǎng)的人也越來越普及,人們在使用互聯(lián)網(wǎng)進(jìn)行日常的活動的時候,例如網(wǎng)購,查看節(jié)目,信息,商品都會產(chǎn)生大量的數(shù)據(jù),而這些數(shù)據(jù)對于電子商務(wù)網(wǎng)站或者互聯(lián)網(wǎng)媒體類網(wǎng)站來說是非常寶貴的,利用這些大數(shù)據(jù)的處理分析能得到非常寶貴的商業(yè)價(jià)值。[0003]大數(shù)據(jù)廣泛應(yīng)用于互聯(lián)網(wǎng)各項(xiàng)應(yīng)用中,對網(wǎng)站的價(jià)值意義重大,通過海量數(shù)據(jù)分析和云計(jì)算的實(shí)現(xiàn),可以最大化幫助互聯(lián)網(wǎng)媒體類網(wǎng)站廣告系統(tǒng)和電子商務(wù)類網(wǎng)站大數(shù)據(jù)商品推送系統(tǒng)得到最大化的提升。互聯(lián)網(wǎng)媒體類網(wǎng)站大數(shù)據(jù)廣告根據(jù)用戶閱讀偏好推送,針對海量數(shù)據(jù)的云計(jì)算,通過各種廣告形式推送到網(wǎng)站瀏覽用戶,例如應(yīng)用在商會網(wǎng)(WWW.netcoc.com);電子商務(wù)類網(wǎng)站大數(shù)據(jù)商品推送給在線購買者,通過分析用戶點(diǎn)擊行為、購買行為、產(chǎn)品相關(guān)性、偏好及使用時間規(guī)律推送相應(yīng)的商品及促銷信息,例如應(yīng)用在品得商城(www.pedemall.com)〇[0004]大數(shù)據(jù)的出現(xiàn),正在引發(fā)全球范圍內(nèi)深刻的技術(shù)與商業(yè)變革。在技術(shù)上,大數(shù)據(jù)使從數(shù)據(jù)當(dāng)中提取信息的常規(guī)方式發(fā)生了變化。在搜索引擎和在線廣告中發(fā)揮重要作用的機(jī)器學(xué)習(xí),被認(rèn)為是大數(shù)據(jù)發(fā)揮真正價(jià)值的領(lǐng)域。在海量的數(shù)據(jù)中統(tǒng)計(jì)分析出人的行為、習(xí)慣等方式,最大程度幫助廣告主找到精準(zhǔn)潛在客戶,從而提升廣告效果和后續(xù)購買操作。[0005]但是當(dāng)前大數(shù)據(jù)應(yīng)用存在著諸多的缺點(diǎn),例如:1、數(shù)據(jù)的分析需要基于海量的數(shù)據(jù)積累。目前大數(shù)據(jù)需要根據(jù)數(shù)以百萬計(jì)的用戶及其歷史行為進(jìn)行分析,而絕大部分的平臺或企業(yè)缺乏大數(shù)據(jù)依托,往往是小數(shù)據(jù)、中數(shù)據(jù),此外行為習(xí)慣、購買記錄、閱讀記錄等數(shù)據(jù)也比較匱乏。2、數(shù)據(jù)分析需要強(qiáng)大的軟硬件支持。目前大數(shù)據(jù)的計(jì)算有較高的門檻,所以大數(shù)據(jù)的計(jì)算還不是很普及。現(xiàn)在大數(shù)據(jù)計(jì)算主要有下面兩類生態(tài)圈:A、開源大數(shù)據(jù)生態(tài)圈,其中包括(1)、HadoopHDFS、HadoopMapReduce,HBase、Hive漸次誕生,早期Hadoop生態(tài)圈逐步形成。(2)、.Hypertable是另類。它存在于Hadoop生態(tài)圈之外,但也曾經(jīng)有一些用戶。(3)、NoSQL,membase、MongoDb。B、商用大數(shù)據(jù)生態(tài)圈,其中包括(1)、一體機(jī)數(shù)據(jù)庫/數(shù)據(jù)倉庫:IBMPureData(Netezza),OracleExadata,SAPHana等等。(2)、數(shù)據(jù)倉庫:TeradataAsterData,EMCGreenPlum,HPVertica等等。(3)、數(shù)據(jù)集市:QlikView、Tableau、以及國內(nèi)的YonghongDataMart。還有值得一提的是,大數(shù)據(jù)必須采用分布式架構(gòu)。它的特色在于對海量數(shù)據(jù)進(jìn)行分布式數(shù)據(jù)挖掘(SaaS),但它必須依托云計(jì)算的分布式處理、分布式數(shù)據(jù)庫(PaaS)和云存儲、虛擬化技術(shù)(IaaS),所以說大數(shù)據(jù)計(jì)算有較高的門檻。3、數(shù)據(jù)分析需要依賴大量專業(yè)人士的解碼。大數(shù)據(jù)的行為模型,需要有較強(qiáng)的數(shù)學(xué)統(tǒng)計(jì)要求、計(jì)算機(jī)建模要求,目前國內(nèi)還缺乏此類人才。比如需要掌握數(shù)據(jù)庫管理系統(tǒng)的使用能力-Oracle,概率統(tǒng)計(jì)學(xué)-MATLAB等。4、數(shù)據(jù)分析結(jié)果還存在誤判。大數(shù)據(jù)的分析結(jié)果往往不具備實(shí)時性、針對性,原始數(shù)據(jù)采樣精準(zhǔn)度和統(tǒng)計(jì)方法的差異性,以及建模結(jié)構(gòu)性錯誤,都會導(dǎo)致分析有誤。此外不同的使用場景也會帶來完全不同的結(jié)果?!?br/>發(fā)明內(nèi)容】[0006]本發(fā)明的主要目的在于提供大數(shù)據(jù)分析系統(tǒng),根據(jù)大數(shù)據(jù)分析系統(tǒng)能夠提升網(wǎng)站的廣告?zhèn)鞑サ木珳?zhǔn)度和商城商品展示的精準(zhǔn)度。[0007]本發(fā)明的另一目的在于提供一種大數(shù)據(jù)分析系統(tǒng),通過大數(shù)據(jù)系統(tǒng)分析技術(shù)使得平臺能迅速了解用戶的行為習(xí)慣和偏好,并在其使用過程中實(shí)時動態(tài)交互,讓感興趣的廣告及商品在恰當(dāng)?shù)臅r間以友好的網(wǎng)站形式進(jìn)行展示,解決了傳統(tǒng)廣告和商品展示不精準(zhǔn)的問題。[0008]本發(fā)明的另一目的在于提供一種大數(shù)據(jù)分析系統(tǒng),解決了國內(nèi)企業(yè)在軟硬件上的缺陷,以及操作人員的經(jīng)驗(yàn)不足,幫忙平臺克服原始數(shù)據(jù)凌亂、大數(shù)據(jù)模型建模、數(shù)據(jù)分析及預(yù)測等問題,提供實(shí)時且相對有效的數(shù)據(jù)支持。[0009]本發(fā)明的另一目的在于提供一種大數(shù)據(jù)分析系統(tǒng),依托云計(jì)算能夠?qū)Υ髷?shù)據(jù)進(jìn)行分布式數(shù)據(jù)挖掘,可以有效挖掘網(wǎng)站用戶行為數(shù)據(jù),并實(shí)時有效地做云計(jì)算處理。[0010]本發(fā)明的另一目的在于提供一種大數(shù)據(jù)分析系統(tǒng),其中包含的Storm拓?fù)浣Y(jié)構(gòu)可在不需要專業(yè)人員的情況下實(shí)時矯正數(shù)據(jù)分析偏差。[0011]為了實(shí)現(xiàn)以上目的,本發(fā)明提供一種大數(shù)據(jù)分析系統(tǒng),包括:根據(jù)本發(fā)明的優(yōu)選實(shí)施例,包括:[0012]一數(shù)據(jù)采集模塊,所述數(shù)據(jù)采集模塊可以根據(jù)用戶以往歷史瀏覽、購買記錄等行為進(jìn)行數(shù)據(jù)采集;[0013]-分布式計(jì)算架構(gòu),所述分布式計(jì)算架構(gòu)包括:[0014]一編譯模塊,所述數(shù)據(jù)采集模塊采集的數(shù)據(jù)經(jīng)過所述編譯模塊轉(zhuǎn)化為計(jì)算機(jī)語言;[0015]一數(shù)據(jù)庫,所述數(shù)據(jù)采集模塊采集的數(shù)據(jù)經(jīng)過所述編譯模塊轉(zhuǎn)化的計(jì)算機(jī)語言能夠存儲在所述數(shù)據(jù)庫中;和[0016]-操作系統(tǒng),通過所述操作系統(tǒng),可以調(diào)用所述數(shù)據(jù)庫中存儲的信息;[0017]一云計(jì)算,所述云計(jì)算能處理所述數(shù)據(jù)庫中的數(shù)據(jù)。[0018]根據(jù)本發(fā)明的優(yōu)選實(shí)施例,所述大數(shù)據(jù)分析系統(tǒng)進(jìn)一步包括一網(wǎng)絡(luò)服務(wù)器,通過所述網(wǎng)絡(luò)服務(wù)器能將多個所述數(shù)據(jù)庫中的數(shù)據(jù)連接起來,提供更大的數(shù)據(jù)。[0019]根據(jù)本發(fā)明的優(yōu)選實(shí)施例,所述操作系統(tǒng)為Linux操作系統(tǒng),所述網(wǎng)絡(luò)服務(wù)器為Apache網(wǎng)絡(luò)服務(wù)器,所述數(shù)據(jù)庫為MySQL數(shù)據(jù)庫,所述編譯模塊為Perl、PHP或者Python編程語目。[0020]根據(jù)本發(fā)明的優(yōu)選實(shí)施例,所述數(shù)據(jù)采集模塊采集的數(shù)據(jù)通過所述云計(jì)算進(jìn)行分布式的數(shù)據(jù)挖掘,有效地挖掘出所需要的數(shù)據(jù)。[0021]根據(jù)本發(fā)明的優(yōu)選實(shí)施例,所述大數(shù)據(jù)分析系統(tǒng)進(jìn)一步包括一Storm拓?fù)浣Y(jié)構(gòu)架構(gòu),通過所述拓?fù)浣Y(jié)構(gòu)架構(gòu)在不需要專業(yè)人員的情況下可實(shí)時矯正數(shù)據(jù)分析的偏差,尤其是大數(shù)據(jù)分析的偏差。[0022]根據(jù)本發(fā)明的優(yōu)選實(shí)施例,所述大數(shù)據(jù)分析系統(tǒng)進(jìn)一步包括MapReduce功能的簡單Storm拓?fù)浣Y(jié)構(gòu),所述MapReduce功能的簡單Storm拓?fù)浣Y(jié)構(gòu)在不需要專業(yè)人員的情況下可實(shí)時矯正數(shù)據(jù)分析的偏差。【附圖說明】[0023]圖1是根據(jù)本發(fā)明的一個優(yōu)選實(shí)施例的分布式數(shù)據(jù)挖掘示意圖;[0024]圖2是根據(jù)本發(fā)明的一個優(yōu)選實(shí)施例的Storm拓?fù)浣Y(jié)構(gòu)架構(gòu)示意圖;[0025]圖3是根據(jù)本發(fā)明的一個優(yōu)選實(shí)施例MapReduce功能的簡單Storm拓?fù)浣Y(jié)構(gòu)示意圖;[0026]圖4是根據(jù)本發(fā)明的一個優(yōu)選實(shí)施例Hadoop云框架配置方案不意圖?!揪唧w實(shí)施方式】[0027]以下描述用于揭露本發(fā)明以使本領(lǐng)域技術(shù)人員能夠?qū)崿F(xiàn)本發(fā)明。以下描述中的優(yōu)選實(shí)施例只作為舉例,本領(lǐng)域技術(shù)人員可以想到其他顯而易見的變型。在以下描述中界定的本發(fā)明的基本原理可以應(yīng)用于其他實(shí)施方案、變形方案、改進(jìn)方案、等同方案以及沒有背離本發(fā)明的精神和范圍的其他技術(shù)方案。[0028]大數(shù)據(jù)分析系統(tǒng)應(yīng)用在一些電子商務(wù)類網(wǎng)站上,例如應(yīng)用在品得商城(www.pedemall.com)上。其中品得商城大數(shù)據(jù)分析系統(tǒng)主要包含對用戶以往歷史瀏覽、購買記錄等行為進(jìn)行大量及時的分析,形成龐大的商城動態(tài)數(shù)據(jù)倉庫,根據(jù)購買偏好和采購頻率,通過數(shù)據(jù)挖掘及時推送用戶商品信息,自動定期發(fā)送包括EDM、短信、站內(nèi)信等多種形式的商品廣告信息。還有大數(shù)據(jù)分析系統(tǒng)同時也是作為考核商城產(chǎn)品熱度和布局的依據(jù),熱門常用的產(chǎn)品通過系統(tǒng)分析可以自動排序到最顯眼的位置。根據(jù)用戶訪問通道(通常是通過IP地址判斷或賬號判斷,嚴(yán)格遵守安全保密原則),網(wǎng)站內(nèi)的推薦產(chǎn)品、熱門產(chǎn)品會隨著用戶的操作而快速更新調(diào)整,匹配用戶感興趣的商品,從而最大程度提升網(wǎng)站商品的精準(zhǔn)銷售。為了實(shí)現(xiàn)品得商城大數(shù)據(jù)分析系統(tǒng)的功能,本發(fā)明提供的一種大數(shù)據(jù)分析系統(tǒng)采用分布式計(jì)算架構(gòu)(LAMP),LAMP框架包括:Linux操作系統(tǒng),Apache網(wǎng)絡(luò)服務(wù)器,MySQL數(shù)據(jù)庫,Perl、PHP或者Python編程語言,所有組成產(chǎn)品均是開源軟件,是國際上成熟的架構(gòu)框架。和Java/J2EE架構(gòu)相比,LAMP具有Web資源豐富、輕量、安全等特點(diǎn),與微軟的.NET架構(gòu)相比,LAMP具有通用、跨平臺、高性能優(yōu)勢。同時商城數(shù)據(jù)實(shí)時備份、事務(wù)處理效應(yīng)快速、擁有完備的數(shù)據(jù)分析功能。再通過云計(jì)算形式,處理大規(guī)模并行(MPP)數(shù)據(jù)庫、分布式數(shù)據(jù)庫等,可以快速、大量、精準(zhǔn)的分析商城用戶的購買習(xí)慣,推送相匹配的產(chǎn)品以多樣化的形式展現(xiàn)在購買者的視覺中,從而有效促進(jìn)商品購買的概率和頻率。[0029]大數(shù)據(jù)分析系統(tǒng)應(yīng)用在一些互聯(lián)網(wǎng)媒體類網(wǎng)站上,例如應(yīng)用在商會網(wǎng)(www.netcoc.com)上。其中商會網(wǎng)大數(shù)據(jù)分析系統(tǒng),尤其是商會網(wǎng)大數(shù)據(jù)廣告系統(tǒng),能自動提升付費(fèi)廣告客戶在網(wǎng)站上最大程度匹配潛在客戶,通過大量用戶行為數(shù)據(jù)分析,通過云計(jì)算分析在短時間內(nèi)為瀏覽網(wǎng)站的客戶推送相關(guān)聯(lián)的廣告信息。從而促進(jìn)在線用戶對感興趣類別的廣告進(jìn)行瀏覽、點(diǎn)擊查看等后續(xù)行為,是實(shí)現(xiàn)廣告價(jià)值最大化的一門核心互聯(lián)網(wǎng)技術(shù)。同時商會網(wǎng)廣告系統(tǒng)還支持互聯(lián)網(wǎng)絕大多數(shù)廣告形式,包括文字鏈、圖片廣告、視頻廣告等。擁有健全的廣告排期機(jī)制,能精準(zhǔn)統(tǒng)計(jì)廣告PV、點(diǎn)擊效果、數(shù)據(jù)統(tǒng)計(jì)等。具備廣告客戶競價(jià)體系,可按照cpc、cpm、cpa、cps、cpv等多種形式進(jìn)行收費(fèi)。為了實(shí)現(xiàn)商會網(wǎng)大數(shù)據(jù)廣告系統(tǒng)的功能,本發(fā)明提供一種大數(shù)據(jù)分析系統(tǒng)采用分布式計(jì)算架構(gòu)(LAMP),LAMP框架包括:Linux操作系統(tǒng),Apache網(wǎng)絡(luò)服務(wù)器,MySQL數(shù)據(jù)庫,Perl、PHP或者Python編程語言,所有組成產(chǎn)品均是開源軟件,是國際上成熟的架構(gòu)框架。和Java/J2EE架構(gòu)相比,LAMP具有Web資源豐富、輕量、安全等特點(diǎn),與微軟的.NET架構(gòu)相比,LAMP具有通用、跨平臺、高性能優(yōu)勢。同時通過云計(jì)算形式,處理大規(guī)模并行(MPP)數(shù)據(jù)庫、分布式數(shù)據(jù)庫等,可以快速、大量、精準(zhǔn)的處理廣告信息并多樣化的展示在用戶面前。[0030]根據(jù)圖1所示的分布式數(shù)據(jù)挖掘,分布式數(shù)據(jù)挖掘依托云計(jì)算的分布式處理、分布式數(shù)據(jù)庫(PaaS)和云存儲、虛擬化技術(shù)(IaaS)。通過移動端、PC端來展現(xiàn)云計(jì)算呈現(xiàn)數(shù)據(jù)效果??梢杂行诰蚓W(wǎng)站用戶行為數(shù)據(jù),并實(shí)時有效的做云計(jì)算處理,反饋用戶感興趣的廣告信息和商品。[0031]隨著云時代的來臨,大數(shù)據(jù)也吸引了越來越多的關(guān)注。大數(shù)據(jù)通常用來形容一個公司創(chuàng)造的大量非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫用于分析時會花費(fèi)過多時間和金錢。大數(shù)據(jù)分析常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時的大型數(shù)據(jù)集分析需要像MapReduce-樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。[0032]大數(shù)據(jù)需要特殊的技術(shù),以有效地處理大量的在經(jīng)過時間內(nèi)容納的數(shù)據(jù)。適用于大數(shù)據(jù)的技術(shù),包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫、數(shù)據(jù)挖掘電網(wǎng)、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計(jì)算平臺、互聯(lián)網(wǎng)和可擴(kuò)展的存儲系統(tǒng)。[00當(dāng)前第1頁1 2