本發(fā)明涉及大數(shù)據(jù)處理技術(shù)領(lǐng)域,特別涉及一種基于電子商務(wù)平臺的大數(shù)據(jù)統(tǒng)計方法。
背景技術(shù):
電子商務(wù)近幾年的迅猛發(fā)展及其對國民經(jīng)濟(jì)不可忽視的影響力促使電子商務(wù)統(tǒng)計成為必需;然而截止目前為止,我國電子商務(wù)統(tǒng)計工作發(fā)展滯后,重視并快速形成相匹配的統(tǒng)計標(biāo)準(zhǔn)是發(fā)展電子商務(wù)平臺經(jīng)濟(jì)重要一環(huán);現(xiàn)有技術(shù)一:一種基于元數(shù)據(jù)收集后并按照結(jié)果要求進(jìn)行清洗并保存到分布式數(shù)據(jù)庫中;通過數(shù)據(jù)庫的查詢動作或者異步mapreduce查詢方式將所需要的結(jié)果進(jìn)行篩選并顯示;這種技術(shù)存在缺點:這種技術(shù)由于使用的預(yù)先處理方式,需要在第一次將數(shù)據(jù)所需要統(tǒng)計分析的報表在清洗環(huán)節(jié)就要配置出來,如果后期需要增加統(tǒng)計項目需要重新清洗數(shù)據(jù)源,成本較大;在數(shù)據(jù)和日志處理量較大的情況下性能會變得很緩慢,查詢和日志采集分析會有一定的資源沖突,大多數(shù)這種方案的收集清洗工作會放到訪問量較低的時間段執(zhí)行;現(xiàn)有技術(shù)二,一種基于針對元數(shù)據(jù)日志直接采集收錄,通過建立數(shù)據(jù)分析模型對元數(shù)據(jù)收錄庫進(jìn)行分析后出統(tǒng)計項;這種技術(shù)存在缺點:這種技術(shù)相對第一種的數(shù)據(jù)采集收錄實時性會強一點,但是在數(shù)據(jù)分析結(jié)果上時間消耗周期會較長;在后期數(shù)據(jù)分析報表類數(shù)據(jù)的實時性較慢。
技術(shù)實現(xiàn)要素:
發(fā)明所要解決的技術(shù)問題是針對上述現(xiàn)有技術(shù)現(xiàn)狀,提供一種基于電子商務(wù)平臺的大數(shù)據(jù)統(tǒng)計方法,在電子商務(wù)系統(tǒng)中,對用戶的行為數(shù)據(jù)以及推薦相關(guān)的數(shù)據(jù)和對實效性有著很高的要求;在電子商務(wù)的數(shù)據(jù)分析工作中有一定的業(yè)務(wù)特殊性,大多數(shù)的統(tǒng)計信息是需要依靠多個服務(wù)的日志分析后組合結(jié)果,在分析過程中不能影響統(tǒng)計查詢的工作性能,數(shù)據(jù)的準(zhǔn)實時性,實效性,大量的數(shù)據(jù)會在緩存中先預(yù)先處理然后再進(jìn)行冷數(shù)據(jù)處理和數(shù)據(jù)索引后完成數(shù)據(jù)的分析工作。
本發(fā)明的目的就是在性能、實時性、數(shù)據(jù)的準(zhǔn)確一致性取得一個較好的平衡點并在未來的數(shù)據(jù)擴(kuò)展有著較高的靈活性。
為解決以上技術(shù)問題,本發(fā)明采取的一種技術(shù)方案是:
一種基于電子商務(wù)平臺的大數(shù)據(jù)統(tǒng)計方法,所述大數(shù)據(jù)統(tǒng)計方法依次通過數(shù)據(jù)收集、數(shù)據(jù)分析和數(shù)據(jù)統(tǒng)計三大部分實現(xiàn)數(shù)據(jù)收集、清洗數(shù)據(jù)、數(shù)據(jù)存儲、數(shù)據(jù)分析和數(shù)據(jù)統(tǒng)計工作;
所述數(shù)據(jù)收集環(huán)節(jié)使用了消息隊列的技術(shù),將每個機(jī)器上的日志按照標(biāo)準(zhǔn)進(jìn)行本地存儲并同時將日志發(fā)送到局域網(wǎng)內(nèi)的中心日志服務(wù)器,后端程序都是服務(wù)化并使用的負(fù)責(zé)均衡,中心服務(wù)器除了負(fù)責(zé)將發(fā)送過來的日志進(jìn)行簡單收集以外還要將同一服務(wù)不同服務(wù)器發(fā)送過來的日志進(jìn)行合并和數(shù)據(jù)的準(zhǔn)確和一致性的處理;
所述數(shù)據(jù)存儲環(huán)節(jié)使用了的較穩(wěn)妥的海量分布式文件存儲方式,將收集到的日志進(jìn)行物理存儲,存儲的規(guī)則是將大文件先切割成若干小的文件,然后通過文件路由計算后分發(fā)到不同的服務(wù)器上并保證每個切片的文件至少會存放到后端兩組或兩組以上的機(jī)器上,這樣的效果是能夠通過海量服務(wù)器還并發(fā)讀寫文件,有效提高io的執(zhí)行速度的同時還能確保文件的安全;
所述數(shù)據(jù)分析環(huán)節(jié)除了使用大量的機(jī)器來做并發(fā)數(shù)據(jù)清洗以外,還對常規(guī)性分析數(shù)據(jù)做索引和大量的數(shù)據(jù)緩存工作,在緩存和數(shù)據(jù)索引以及數(shù)據(jù)清洗環(huán)節(jié)的數(shù)據(jù)實效性中,使用了數(shù)據(jù)預(yù)處理和冷熱數(shù)據(jù)分離技術(shù),有效保證在不打斷BI的數(shù)據(jù)分析工作和數(shù)據(jù)實效性的一個均衡下,對于常規(guī)性的一些數(shù)據(jù)分析工作也能夠變得更加快速和有效。
優(yōu)選的,所述數(shù)據(jù)存儲環(huán)節(jié)的數(shù)據(jù)預(yù)處理流程包括,
第一步,統(tǒng)一標(biāo)準(zhǔn),并進(jìn)行流轉(zhuǎn)化;
第二步,日志預(yù)處理,放入內(nèi)存;
第三步,日志分組處理并放入分布式儲存中。
優(yōu)選的,所述數(shù)據(jù)分析環(huán)節(jié)采用分布式計算,對數(shù)據(jù)做BI分析,建立分析模型;通過對分析模型數(shù)據(jù)使用,數(shù)據(jù)進(jìn)行合并處理(對結(jié)果合并,在內(nèi)存中處理,分析任務(wù)先進(jìn)先出,環(huán)型內(nèi)存管理,有效保證合理內(nèi)存利用)。
本發(fā)明的積極效果表現(xiàn)在:在實際的生產(chǎn)環(huán)境中,目前每天收集的數(shù)據(jù)量達(dá)到TB級,數(shù)據(jù)回溯處理流量比數(shù)據(jù)量高出10倍以上,每天數(shù)據(jù)分析次數(shù)千次,本發(fā)明提供一種基于電子商務(wù)平臺的大數(shù)據(jù)統(tǒng)計方法,確保性能和數(shù)據(jù)的實效性以及數(shù)據(jù)統(tǒng)計的要求上都得到了很好的平衡和滿足,在電子商務(wù)的數(shù)據(jù)變化和業(yè)務(wù)快速增長的條件下,這個系統(tǒng)的架構(gòu)也很靈活,存儲和分析都支持橫向擴(kuò)展。
附圖說明
圖1是本發(fā)明一種基于電子商務(wù)平臺的大數(shù)據(jù)統(tǒng)計方法的流程示意圖;
圖2是本發(fā)明一種基于電子商務(wù)平臺的大數(shù)據(jù)統(tǒng)計方法中日志收集流程示意圖;
圖3是本發(fā)明一種基于電子商務(wù)平臺的大數(shù)據(jù)統(tǒng)計方法中日志存儲流程示意圖;
圖4是本發(fā)明一種基于電子商務(wù)平臺的大數(shù)據(jù)統(tǒng)計方法中日志分析和日志統(tǒng)計流程示意圖。
具體實施方式
下面對本發(fā)明的實施例作詳細(xì)說明,本實施例在以本發(fā)明技術(shù)方案為前提下進(jìn)行實施,給出了詳細(xì)的實施方式和具體的操作過程,但本發(fā)明的保護(hù)范圍不限于下述的實施例。
實施例一
如附圖1所示的本發(fā)明的一種基于電子商務(wù)平臺的大數(shù)據(jù)統(tǒng)計方法的流程示意圖;從客戶端開始數(shù)據(jù)收集,數(shù)據(jù)收集之后進(jìn)行數(shù)據(jù)存儲,數(shù)據(jù)存儲流程中經(jīng)過數(shù)據(jù)預(yù)處理和數(shù)據(jù)分布式存儲后;進(jìn)入數(shù)據(jù)分析流程,數(shù)據(jù)分析流程中經(jīng)過數(shù)據(jù)布式計算,對數(shù)據(jù)做BI分析,建立分析模型;對分析模型數(shù)據(jù)使用,數(shù)據(jù)進(jìn)行合并處理(對結(jié)果合并,在內(nèi)存中處理,分析任務(wù)先進(jìn)先出,環(huán)型內(nèi)存管理,保證合理的內(nèi)在利用;進(jìn)入數(shù)據(jù)統(tǒng)計流程,結(jié)果產(chǎn)出,建立數(shù)據(jù)緩存和索引,最后形成結(jié)果報表,輸出結(jié)束;依次通過數(shù)據(jù)收集、數(shù)據(jù)分析和數(shù)據(jù)統(tǒng)計三大部分實現(xiàn)數(shù)據(jù)收集、清洗數(shù)據(jù)、數(shù)據(jù)存儲、數(shù)據(jù)分析和數(shù)據(jù)統(tǒng)計工作;
數(shù)據(jù)收集環(huán)節(jié)使用了消息隊列的技術(shù),將每個機(jī)器上的日志按照標(biāo)準(zhǔn)進(jìn)行本地存儲并同時將日志發(fā)送到局域網(wǎng)內(nèi)的中心日志服務(wù)器,后端程序都是服務(wù)化并使用的負(fù)責(zé)均衡,中心服務(wù)器除了負(fù)責(zé)將發(fā)送過來的日志進(jìn)行簡單收集以外還要將同一服務(wù)不同服務(wù)器發(fā)送過來的日志進(jìn)行合并和數(shù)據(jù)的準(zhǔn)確和一致性的處理;
數(shù)據(jù)存儲環(huán)節(jié)使用了的較穩(wěn)妥的海量分布式文件存儲方式,將收集到的日志進(jìn)行物理存儲,存儲的規(guī)則是將大文件先切割成若干小的文件,然后通過文件路由計算后分發(fā)到不同的服務(wù)器上并保證每個切片的文件至少會存放到后端兩組或兩組以上的機(jī)器上,這樣的效果是能夠通過海量服務(wù)器還并發(fā)讀寫文件,有效提高io的執(zhí)行速度的同時還能確保文件的安全;數(shù)據(jù)分析環(huán)節(jié)除了使用大量的機(jī)器來做并發(fā)數(shù)據(jù)清洗以外,還對常規(guī)性分析數(shù)據(jù)做索引和大量的數(shù)據(jù)緩存工作,在緩存和數(shù)據(jù)索引以及數(shù)據(jù)清洗環(huán)節(jié)的數(shù)據(jù)實效性中,使用了數(shù)據(jù)預(yù)處理和冷熱數(shù)據(jù)分離技術(shù),有效保證在不打斷BI的數(shù)據(jù)分析工作和數(shù)據(jù)實效性的一個均衡下,對于常規(guī)性的一些數(shù)據(jù)分析工作也能夠變得更加快速和有效。
實施例二
如附圖2是日志收集流程示意圖;圖3是日志存儲流程示意圖;圖4是日志分析和日志統(tǒng)計流程示意圖;
日志收錄/采集(外機(jī)房日志收集):分別從A區(qū)域:從A地機(jī)房和A地備用機(jī)房進(jìn)行區(qū)域中心日志收集;B區(qū)域:從B地機(jī)房和B地備用機(jī)房進(jìn)行區(qū)域中心日志收集;然后統(tǒng)一歸集到中心機(jī)房,完成日志收錄和采集;
日志預(yù)處理:中心機(jī)房形成中心日志文件,通過統(tǒng)一標(biāo)準(zhǔn),并進(jìn)行流轉(zhuǎn)化,然后日志預(yù)處理并放入內(nèi)存(日志分組處理并放入分布式儲存中);
日志分析:通過對分布式存儲數(shù)據(jù)進(jìn)行分布式計算,對日志做BI分析,建立分析模型;然后對分析模型數(shù)據(jù)進(jìn)行使用,對數(shù)據(jù)進(jìn)行合并處理(對結(jié)果合并,在內(nèi)存中處理,分析任務(wù)先進(jìn)先出,環(huán)型內(nèi)存管理,保證合理的內(nèi)在利用);
日志統(tǒng)計:結(jié)果產(chǎn)出,建立數(shù)據(jù)緩存和索引;最后形成結(jié)果報表,輸出結(jié)束。
由于在電子商務(wù)系統(tǒng)中,對用戶的行為數(shù)據(jù)以及推薦相關(guān)的數(shù)據(jù)和對實效性有著很高的要求;本發(fā)明主要在性能、實時性和數(shù)據(jù)的準(zhǔn)確一致性情況下取得一個較好的平衡點用于保證在未來的數(shù)據(jù)擴(kuò)展中有著較好的靈活性,有效解決在數(shù)據(jù)和日志處理量較大的情況下性能會變得很緩慢、在數(shù)據(jù)分析結(jié)果上時間消耗周期會較長和在后期數(shù)據(jù)分析報表類數(shù)據(jù)的實時性較慢等現(xiàn)有技術(shù)缺點。
以上對本發(fā)明做了詳盡的描述,其目的在于讓熟悉此領(lǐng)域技術(shù)的人士能夠了解本發(fā)明的內(nèi)容并加以實施,并不能以此限制本發(fā)明的保護(hù)范圍,凡根據(jù)本發(fā)明的精神實質(zhì)所作的等效變化或修飾,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍內(nèi)。