本發(fā)明涉及云計(jì)算技術(shù)領(lǐng)域,特別涉及一種面向業(yè)務(wù)的數(shù)據(jù)計(jì)算方法及裝置。
背景技術(shù):
對于游戲廠商來說,用戶操作游戲系統(tǒng)的行為以及游戲運(yùn)行時(shí),在游戲廠商的服務(wù)器上產(chǎn)生大量的數(shù)據(jù)。在用戶操作游戲系統(tǒng)時(shí),因網(wǎng)絡(luò)中斷等其他因素導(dǎo)致系統(tǒng)無法正常的運(yùn)行,游戲運(yùn)營人員需要及時(shí)發(fā)現(xiàn)問題。另外,在推廣新游戲時(shí),基于游戲廠商的服務(wù)器上的數(shù)據(jù)進(jìn)行玩家消費(fèi)行為分析、玩家數(shù)量分析等多種類型的數(shù)據(jù)計(jì)算,則需要從游戲廠商服務(wù)器處請求適于進(jìn)行不同數(shù)據(jù)分析任務(wù)的數(shù)據(jù),會對游戲廠商服務(wù)器來說會造成很大的壓力,甚至?xí)锌赡軙绊懹螒驈S商服務(wù)器上游戲程序的運(yùn)行。
在游戲業(yè)務(wù)領(lǐng)域,經(jīng)常需要對大量的業(yè)務(wù)數(shù)據(jù)進(jìn)行分析,由于待分析的數(shù)據(jù)量通常較大,所以如何使得數(shù)據(jù)分析的效率得到提高就成為重要的課題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例的主要目的在于提出一種面向業(yè)務(wù)的數(shù)據(jù)計(jì)算方法及裝置,利用計(jì)算結(jié)果對業(yè)務(wù)服務(wù)器上的數(shù)據(jù)進(jìn)行分析,提供工作效率,以克服上述問題。
為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種面向業(yè)務(wù)的數(shù)據(jù)計(jì)算方法,包括:
收集用戶數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù);
對用戶數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)進(jìn)行消重處理;
對消重處理后的數(shù)據(jù)進(jìn)行實(shí)時(shí)計(jì)算,獲得報(bào)表數(shù)據(jù);同時(shí),對消重處理后的數(shù)據(jù)進(jìn)行存儲,達(dá)到規(guī)定數(shù)據(jù)量后,對存儲的數(shù)據(jù)進(jìn)行離線計(jì)算,獲得面向業(yè)務(wù)的集成數(shù)據(jù)。
在一實(shí)施例中,用戶數(shù)據(jù)通過異步傳輸方式傳輸至分布式面向列的存儲系統(tǒng)。
在一實(shí)施例中,業(yè)務(wù)數(shù)據(jù)按照系統(tǒng)日志協(xié)議傳輸至分布式面向列的存儲系統(tǒng)。
在一實(shí)施例中,對用戶數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)采用布隆過濾器進(jìn)行消重處理。
在一實(shí)施例中,實(shí)時(shí)計(jì)算的步驟具體為:
對消重處理后的數(shù)據(jù)按照storm框架進(jìn)行實(shí)時(shí)計(jì)算,獲得報(bào)表數(shù)據(jù),報(bào)表數(shù)據(jù)存儲至分布式文檔存儲數(shù)據(jù)庫。
在一實(shí)施例中,離線計(jì)算的步驟具體為:
通過日志收集器將消重處理后的數(shù)據(jù)中無結(jié)構(gòu)化數(shù)據(jù)以文件形式存儲至Hadoop分布式文件系統(tǒng),通過日志收集系統(tǒng)將消重處理后的數(shù)據(jù)中結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)存儲至分布式面向列的存儲系統(tǒng);
基于Hadoop平臺提供的編程接口,對Hadoop分布式文件系統(tǒng)和分布式面向列的存儲系統(tǒng)各自存儲的數(shù)據(jù)進(jìn)行加載、抽取、轉(zhuǎn)換處理,獲得面向業(yè)務(wù)的集成數(shù)據(jù)。
在一實(shí)施例中,面向業(yè)務(wù)的集成數(shù)據(jù)包括:業(yè)務(wù)維度統(tǒng)計(jì)匯總和渠道維度統(tǒng)計(jì)匯總。
在一實(shí)施例中,報(bào)表數(shù)據(jù)包括:用戶行為跟蹤數(shù)據(jù)和用戶標(biāo)簽;其中,用戶行為跟蹤數(shù)據(jù)包括網(wǎng)頁行為和游戲系統(tǒng)行為。
在一實(shí)施例中,本方法獲得了報(bào)表數(shù)據(jù)和游戲業(yè)務(wù)的集成數(shù)據(jù),其中,利用報(bào)表數(shù)據(jù)及時(shí)發(fā)現(xiàn)游戲系統(tǒng)中的問題,利用游戲業(yè)務(wù)的集成數(shù)據(jù)決策后續(xù)游戲運(yùn)營策略。
對應(yīng)地,為解決現(xiàn)有技術(shù)的問題,本發(fā)明還提出了一種面向業(yè)務(wù)的數(shù)據(jù)計(jì)算裝置,包括:
收集數(shù)據(jù)單元,用于收集用戶數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù);
消重單元,用于對用戶數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)進(jìn)行消重處理;
計(jì)算單元,用于對消重處理后的數(shù)據(jù)進(jìn)行實(shí)時(shí)計(jì)算,獲得報(bào)表數(shù)據(jù);同時(shí),對消重處理后的數(shù)據(jù)進(jìn)行存儲,達(dá)到規(guī)定數(shù)據(jù)量后,對存儲的數(shù)據(jù)進(jìn)行離線計(jì)算,獲得游戲業(yè)務(wù)的集成數(shù)據(jù)。
進(jìn)一步地,收集數(shù)據(jù)單元將游戲用戶數(shù)據(jù)通過異步傳輸方式傳輸至分布式面向列的存儲系統(tǒng)。
進(jìn)一步地,收集數(shù)據(jù)單元將業(yè)務(wù)數(shù)據(jù)按照系統(tǒng)日志協(xié)議傳輸至分布式面向列的存儲系統(tǒng)。
進(jìn)一步地,消重單元對游戲用戶數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)采用布隆過濾器進(jìn)行消重處理。
進(jìn)一步地,計(jì)算單元包括實(shí)時(shí)計(jì)算模塊;其中,實(shí)時(shí)計(jì)算模塊,用于對消重處理后的數(shù)據(jù)按照storm框架進(jìn)行實(shí)時(shí)計(jì)算,獲得報(bào)表數(shù)據(jù),報(bào)表數(shù)據(jù)存儲至分布式文檔存儲數(shù)據(jù)庫。
進(jìn)一步地,計(jì)算單元包括離線計(jì)算模塊,離線計(jì)算模塊包括存儲子模塊和計(jì)算子模塊;其中,
存儲子模塊,用于通過日志收集器將消重處理后的數(shù)據(jù)中無結(jié)構(gòu)化數(shù)據(jù)以文件形式存儲至Hadoop分布式文件系統(tǒng),通過日志收集系統(tǒng)將消重處理后的數(shù)據(jù)中結(jié)構(gòu)化數(shù)據(jù)和半 結(jié)構(gòu)化數(shù)據(jù)存儲至分布式面向列的存儲系統(tǒng);
計(jì)算子模塊,用于基于Hadoop平臺提供的編程接口,對Hadoop分布式文件系統(tǒng)和分布式面向列的存儲系統(tǒng)各自存儲的數(shù)據(jù)進(jìn)行加載、抽取、轉(zhuǎn)換處理,獲得面向業(yè)務(wù)的集成數(shù)據(jù)。
進(jìn)一步地,本發(fā)明提出的一種面向業(yè)務(wù)的數(shù)據(jù)計(jì)算裝置還包括:第一應(yīng)用單元;其中,第一應(yīng)用單元,用于利用報(bào)表數(shù)據(jù)及時(shí)發(fā)現(xiàn)業(yè)務(wù)系統(tǒng)中的問題。
進(jìn)一步地,本發(fā)明提出的一種面向業(yè)務(wù)的數(shù)據(jù)計(jì)算裝置還包括:第二應(yīng)用單元;其中,第二應(yīng)用單元,用于利用面向業(yè)務(wù)的集成數(shù)據(jù)決策后續(xù)業(yè)務(wù)運(yùn)營策略。
上述技術(shù)方案具有如下有益效果:
本技術(shù)方案收集用戶數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù),不同的數(shù)據(jù)采用不同的傳輸方式,提高收集數(shù)據(jù)的效率,接著對收集的數(shù)據(jù)進(jìn)行消重處理,將錯(cuò)誤的、無效的、重復(fù)的數(shù)據(jù)濾除掉,為后續(xù)數(shù)據(jù)的計(jì)算打下基礎(chǔ)。
對消重處理后的數(shù)據(jù)進(jìn)行實(shí)時(shí)計(jì)算,獲得報(bào)表數(shù)據(jù);由于實(shí)時(shí)計(jì)算基于storm框架進(jìn)行,能夠獲得精度很高的報(bào)表數(shù)據(jù),及時(shí)發(fā)現(xiàn)問題,運(yùn)營人員根據(jù)異常的實(shí)時(shí)數(shù)據(jù),快速查找有問題的地方,使得問題及時(shí)解決,提高用戶的體驗(yàn)度。
進(jìn)一步地,對消重處理后的數(shù)據(jù)進(jìn)行存儲,達(dá)到規(guī)定數(shù)據(jù)量后,對存儲的數(shù)據(jù)進(jìn)行離線計(jì)算,獲得面向業(yè)務(wù)的集成數(shù)據(jù)。利用集成數(shù)據(jù)進(jìn)行運(yùn)營決策,節(jié)省推廣費(fèi)用的基礎(chǔ)上提高業(yè)務(wù)的推廣效率。
上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1示出了一種面向業(yè)務(wù)的數(shù)據(jù)計(jì)算方法流程圖;
圖2示出了一種面向業(yè)務(wù)的數(shù)據(jù)計(jì)算裝置框圖;
圖3示出了計(jì)算裝置中計(jì)算單元的功能方框圖;
圖4示出了本實(shí)施例的系統(tǒng)框架圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
本發(fā)明實(shí)施例提供了一種面向業(yè)務(wù)的數(shù)據(jù)計(jì)算方法及裝置。以下結(jié)合附圖對本發(fā)明進(jìn)行詳細(xì)說明。
本發(fā)明實(shí)施例提供了一種面向業(yè)務(wù)的數(shù)據(jù)計(jì)算方法,如圖1所示。面向游戲業(yè)務(wù)的數(shù)據(jù)計(jì)算方法包括:
步驟S101:收集用戶數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù);
步驟S102:對用戶數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)進(jìn)行消重處理;
步驟S103:對消重處理后的數(shù)據(jù)進(jìn)行實(shí)時(shí)計(jì)算,獲得報(bào)表數(shù)據(jù);同時(shí),對消重處理后的數(shù)據(jù)進(jìn)行存儲,達(dá)到規(guī)定數(shù)據(jù)量后,對存儲的數(shù)據(jù)進(jìn)行離線計(jì)算,獲得面向業(yè)務(wù)的集成數(shù)據(jù)。
在步驟S101中,用戶數(shù)據(jù)通過異步傳輸方式傳輸至分布式面向列的存儲系統(tǒng)。業(yè)務(wù)數(shù)據(jù)按照系統(tǒng)日志協(xié)議傳輸至分布式面向列的存儲系統(tǒng)。提高收集數(shù)據(jù)的效率,接著對收集的數(shù)據(jù)進(jìn)行消重處理,將錯(cuò)誤的、無效的、重復(fù)的數(shù)據(jù)濾除掉,為后續(xù)數(shù)據(jù)的計(jì)算打下基礎(chǔ),從而能夠獲得精度很高的報(bào)表數(shù)據(jù)和面向業(yè)務(wù)的集成數(shù)據(jù),利用報(bào)表數(shù)據(jù),及時(shí)發(fā)現(xiàn)問題,運(yùn)營人員根據(jù)異常的實(shí)時(shí)數(shù)據(jù),快速查找有問題的地方,使得問題及時(shí)解決,提高用戶的體驗(yàn)度。同時(shí),利用集成數(shù)據(jù)進(jìn)行運(yùn)營決策,節(jié)省推廣費(fèi)用的基礎(chǔ)上提高業(yè)務(wù)的推廣效率。
如圖2所示,為本發(fā)明提出的一種面向業(yè)務(wù)的數(shù)據(jù)計(jì)算裝置框圖。該裝置包括:
收集數(shù)據(jù)單元210,用于收集用戶數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù);
對于收集數(shù)據(jù)單元210來說,用戶數(shù)據(jù)通過異步傳輸方式傳輸至分布式面向列的存儲系統(tǒng)。業(yè)務(wù)數(shù)據(jù)按照系統(tǒng)日志協(xié)議傳輸至分布式面向列的存儲系統(tǒng)。
消重單元220,用于對用戶數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)進(jìn)行消重處理;
對于消重單元220來說,對分布式面向列的存儲系統(tǒng)中緩存的數(shù)據(jù)進(jìn)行消重處理。在本實(shí)施例中,對用戶數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)采用布隆過濾器進(jìn)行消重處理。布隆過濾器實(shí)際上是 一個(gè)很長的二進(jìn)制向量和一系列隨機(jī)映射函數(shù)。布隆過濾器可以用于檢索一個(gè)元素是否在一個(gè)集合中。它的優(yōu)點(diǎn)是空間效率和查詢時(shí)間都遠(yuǎn)遠(yuǎn)超過一般的算法。為后面實(shí)時(shí)計(jì)算打下基礎(chǔ)。
計(jì)算單元230,用于對消重處理后的數(shù)據(jù)進(jìn)行實(shí)時(shí)計(jì)算,獲得報(bào)表數(shù)據(jù);同時(shí),對消重處理后的數(shù)據(jù)進(jìn)行存儲,達(dá)到規(guī)定數(shù)據(jù)量后,對存儲的數(shù)據(jù)進(jìn)行離線計(jì)算,獲得面向業(yè)務(wù)的集成數(shù)據(jù)。
如圖3所示,為本實(shí)施例計(jì)算裝置中計(jì)算單元的功能方框圖。其中,計(jì)算單元230包括實(shí)時(shí)計(jì)算模塊231和離線計(jì)算模塊232;其中,實(shí)時(shí)計(jì)算模塊231用于對消重處理后的數(shù)據(jù)按照storm框架進(jìn)行實(shí)時(shí)計(jì)算,獲得報(bào)表數(shù)據(jù),報(bào)表數(shù)據(jù)存儲至分布式文檔存儲數(shù)據(jù)庫。進(jìn)一步地,離線計(jì)算模塊232包括存儲子模塊和計(jì)算子模塊;其中,存儲子模塊,用于通過日志收集器將消重處理后的數(shù)據(jù)中無結(jié)構(gòu)化數(shù)據(jù)以文件形式存儲至Hadoop分布式文件系統(tǒng),通過日志收集系統(tǒng)將消重處理后的數(shù)據(jù)中結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)存儲至分布式面向列的存儲系統(tǒng);計(jì)算子模塊,用于基于Hadoop平臺提供的編程接口,對Hadoop分布式文件系統(tǒng)和分布式面向列的存儲系統(tǒng)各自存儲的數(shù)據(jù)進(jìn)行加載、抽取、轉(zhuǎn)換處理,獲得面向業(yè)務(wù)的集成數(shù)據(jù)。
如圖4所示,為本實(shí)施例的系統(tǒng)框架圖。在本實(shí)施例中,業(yè)務(wù)類型為游戲。需要注意的是,上述業(yè)務(wù)類型僅是為了便于理解本發(fā)明的精神和原理而示出,本發(fā)明的實(shí)施方式在此方面不受任何限制。相反,本發(fā)明的實(shí)施方式可以應(yīng)用于適用的任何業(yè)務(wù)。數(shù)據(jù)目標(biāo)為:用戶行為數(shù)據(jù)、用戶標(biāo)簽數(shù)據(jù)、游戲維度統(tǒng)計(jì)匯總和渠道維度統(tǒng)計(jì)匯總。其中,用戶行為數(shù)據(jù)包括網(wǎng)頁行為和系統(tǒng)行為。
從系統(tǒng)框架圖中可知,數(shù)據(jù)源包括游戲廠商數(shù)據(jù)源和游戲公司網(wǎng)頁數(shù)據(jù)源。其中,游戲廠商數(shù)據(jù)源以系統(tǒng)日志協(xié)議的形式生成syslog數(shù)據(jù)。通過日志收集系統(tǒng)fluentd傳送至緩存區(qū)。游戲公司網(wǎng)頁數(shù)據(jù)源包括用戶的網(wǎng)頁點(diǎn)擊行為數(shù)據(jù)和網(wǎng)頁特效數(shù)據(jù)。這些數(shù)據(jù)以分布式消息隊(duì)列qbus傳送至緩存區(qū)。該緩存區(qū)為分布式面向列的存儲系統(tǒng)。
對分布式面向列的存儲系統(tǒng)中的數(shù)據(jù)檢查,本實(shí)施例采用布隆過濾器進(jìn)行消重處理。該技術(shù)方案的優(yōu)點(diǎn)是空間效率和查詢時(shí)間都遠(yuǎn)遠(yuǎn)超過一般的算法。
在實(shí)時(shí)計(jì)算方面,對消重處理后的數(shù)據(jù)按照storm框架進(jìn)行實(shí)時(shí)計(jì)算,獲得報(bào)表數(shù)據(jù),報(bào)表數(shù)據(jù)存儲至分布式文檔存儲數(shù)據(jù)庫(mongoDB)。在storm中,先要設(shè)計(jì)一個(gè)用于實(shí)時(shí)計(jì)算的圖狀結(jié)構(gòu),我們稱之為拓?fù)?topology)。這個(gè)拓?fù)鋵惶峤唤o集群,由集群中的主控節(jié)點(diǎn)(master node)分發(fā)代碼,將任務(wù)分配給工作節(jié)點(diǎn)(worker node)執(zhí)行。一個(gè)拓 撲中包括spout和bolt兩種角色,其中spout發(fā)送消息,負(fù)責(zé)將數(shù)據(jù)流以tuple元組的形式發(fā)送出去;而bolt則負(fù)責(zé)轉(zhuǎn)換這些數(shù)據(jù)流,在bolt中可以完成計(jì)算、過濾等操作,bolt自身也可以隨機(jī)將數(shù)據(jù)發(fā)送給其他bolt。由spout發(fā)射出的tuple是不可變數(shù)組,對應(yīng)著固定的鍵值對。storm框架適用于分布式實(shí)時(shí)計(jì)算,具有實(shí)時(shí)性比較高的特點(diǎn)。且該框架的容錯(cuò)性比較好,能夠獲得精確性比較高的報(bào)表數(shù)據(jù),報(bào)表數(shù)據(jù)包括:用戶行為跟蹤數(shù)據(jù)和用戶標(biāo)簽;其中,用戶行為跟蹤數(shù)據(jù)包括網(wǎng)頁行為和游戲系統(tǒng)行為。利用報(bào)表數(shù)據(jù)能夠及時(shí)發(fā)現(xiàn)游戲系統(tǒng)中的問題。比如:在付款購買游戲幣時(shí),支付操作完畢,后臺服務(wù)器也獲得了支付操作指令,準(zhǔn)備反饋支付成功信息時(shí),網(wǎng)絡(luò)中斷,導(dǎo)致用戶獲得的反饋信息為“操作失敗”。實(shí)際上,用戶已經(jīng)支付成功。這種情況下,本技術(shù)方案就很快發(fā)現(xiàn)異常的實(shí)時(shí)數(shù)據(jù),就能夠快速查找有問題的游戲區(qū)服,第一時(shí)間聯(lián)系廠商。
在離線計(jì)算方面,日志收集器(scribe)從分布式面向列的存儲系統(tǒng)中獲得無結(jié)構(gòu)化數(shù)據(jù),以文件形式存儲至Hadoop分布式文件系統(tǒng)(Hdfs)。日志收集系統(tǒng)(fluentd)從分布式面向列的存儲系統(tǒng)中獲得結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),將這些數(shù)據(jù)存儲至一個(gè)高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng)(Hbase)。以數(shù)據(jù)倉Hive提供編程接口,從Hadoop分布式文件系統(tǒng)(Hdfs)和分布式存儲系統(tǒng)(Hbase)中獲得的數(shù)據(jù)經(jīng)過抽取(extract)、轉(zhuǎn)換(transform)、加載(load)處理,獲得游戲業(yè)務(wù)的集成數(shù)據(jù),集成數(shù)據(jù)為游戲業(yè)務(wù)的歷史數(shù)據(jù)的統(tǒng)計(jì),包括游戲維度統(tǒng)計(jì)匯總和渠道維度統(tǒng)計(jì)匯總。通過游戲業(yè)務(wù)的集成數(shù)據(jù),能夠獲得游戲的運(yùn)營情況,根據(jù)運(yùn)營情況,決定后續(xù)游戲運(yùn)營策略。比如:在渠道維度統(tǒng)計(jì)匯總中,渠道人員實(shí)時(shí)獲知渠道導(dǎo)量數(shù)據(jù),利用該數(shù)據(jù),渠道人員定時(shí)定向?qū)Я?,?jié)省推廣費(fèi)用。
由上述實(shí)施例可知,本技術(shù)方案將來可作為大數(shù)據(jù)實(shí)時(shí)游戲監(jiān)控統(tǒng)計(jì)平臺和精準(zhǔn)營銷推廣平臺使用。
本發(fā)明的實(shí)施例公開了:
A1、一種面向業(yè)務(wù)的數(shù)據(jù)計(jì)算方法,其特征在于,包括:
收集用戶數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù);
對所述用戶數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)進(jìn)行消重處理;
對消重處理后的數(shù)據(jù)進(jìn)行實(shí)時(shí)計(jì)算,獲得報(bào)表數(shù)據(jù);同時(shí),對消重處理后的數(shù)據(jù)進(jìn)行存儲,達(dá)到規(guī)定數(shù)據(jù)量后,對存儲的數(shù)據(jù)進(jìn)行離線計(jì)算,獲得面向業(yè)務(wù)的集成數(shù)據(jù)。
A2、如權(quán)利要求A1所述的方法,其特征在于,所述用戶數(shù)據(jù)通過異步傳輸方式傳輸至分布式面向列的存儲系統(tǒng)。
A3、如權(quán)利要求A1所述的方法,其特征在于,所述業(yè)務(wù)數(shù)據(jù)按照系統(tǒng)日志協(xié)議傳輸至分布式面向列的存儲系統(tǒng)。
A4、如權(quán)利要求A1所述的方法,其特征在于,對所述用戶數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)采用布隆過濾器進(jìn)行消重處理。
A5、如權(quán)利要求A1所述的方法,其特征在于,所述實(shí)時(shí)計(jì)算的步驟具體為:
對消重處理后的數(shù)據(jù)按照storm框架進(jìn)行實(shí)時(shí)計(jì)算,獲得報(bào)表數(shù)據(jù),所述報(bào)表數(shù)據(jù)存儲至分布式文檔存儲數(shù)據(jù)庫。
A6、如權(quán)利要求A1所述的方法,其特征在于,所述離線計(jì)算的步驟具體為:
通過日志收集器將消重處理后的數(shù)據(jù)中無結(jié)構(gòu)化數(shù)據(jù)以文件形式存儲至Hadoop分布式文件系統(tǒng),通過日志收集系統(tǒng)將消重處理后的數(shù)據(jù)中結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)存儲至分布式面向列的存儲系統(tǒng);
基于Hadoop平臺提供的編程接口,對Hadoop分布式文件系統(tǒng)和分布式面向列的存儲系統(tǒng)各自存儲的數(shù)據(jù)進(jìn)行加載、抽取、轉(zhuǎn)換處理,獲得面向業(yè)務(wù)的集成數(shù)據(jù)。
A7、如權(quán)利要求A1~A6任一權(quán)利要求所述的方法,其特征在于,所述面向業(yè)務(wù)的集成數(shù)據(jù)包括:業(yè)務(wù)維度統(tǒng)計(jì)匯總和渠道維度統(tǒng)計(jì)匯總。
A8、如權(quán)利要求A1~A6任一權(quán)利要求所述的方法,其特征在于,所述報(bào)表數(shù)據(jù)包括:用戶行為跟蹤數(shù)據(jù)和用戶標(biāo)簽;其中,所述用戶行為跟蹤數(shù)據(jù)包括網(wǎng)頁行為和業(yè)務(wù)系統(tǒng)行為。
A9、如權(quán)利要求A1~A6任一權(quán)利要求所述的方法,其特征在于,還包括:
利用所述報(bào)表數(shù)據(jù)及時(shí)發(fā)現(xiàn)業(yè)務(wù)系統(tǒng)中的問題。
A10、如權(quán)利要求A1~A6任一權(quán)利要求所述的方法,其特征在于,還包括:
利用所述面向業(yè)務(wù)的集成數(shù)據(jù)決策后續(xù)業(yè)務(wù)運(yùn)營策略。
B11、一種面向業(yè)務(wù)的數(shù)據(jù)計(jì)算裝置,其特征在于,包括:
收集數(shù)據(jù)單元,用于收集用戶數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù);
消重單元,用于對所述用戶數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)進(jìn)行消重處理;
計(jì)算單元,用于對消重處理后的數(shù)據(jù)進(jìn)行實(shí)時(shí)計(jì)算,獲得報(bào)表數(shù)據(jù);同時(shí),對消重處理后的數(shù)據(jù)進(jìn)行存儲,達(dá)到規(guī)定數(shù)據(jù)量后,對存儲的數(shù)據(jù)進(jìn)行離線計(jì)算,獲得面向業(yè)務(wù)的集成數(shù)據(jù)。
B12、如權(quán)利要求B11所述的裝置,其特征在于,所述收集數(shù)據(jù)單元將所述用戶數(shù)據(jù)通過異步傳輸方式傳輸至分布式面向列的存儲系統(tǒng)。
B13、如權(quán)利要求B11所述的裝置,其特征在于,所述收集數(shù)據(jù)單元將所述業(yè)務(wù)數(shù)據(jù)按照系統(tǒng)日志協(xié)議傳輸至分布式面向列的存儲系統(tǒng)。
B14、如權(quán)利要求B11所述的裝置,其特征在于,所述消重單元對所述用戶數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)采用布隆過濾器進(jìn)行消重處理。
B15、如權(quán)利要求B11所述的裝置,其特征在于,所述計(jì)算單元包括實(shí)時(shí)計(jì)算模塊;其中,所述實(shí)時(shí)計(jì)算模塊,用于對消重處理后的數(shù)據(jù)按照storm框架進(jìn)行實(shí)時(shí)計(jì)算,獲得報(bào)表數(shù)據(jù),所述報(bào)表數(shù)據(jù)存儲至分布式文檔存儲數(shù)據(jù)庫。
B16、如權(quán)利要求B11所述的裝置,其特征在于,所述計(jì)算單元包括離線計(jì)算模塊,所述離線計(jì)算模塊包括存儲子模塊和計(jì)算子模塊;其中,
所述存儲子模塊,用于通過日志收集器將消重處理后的數(shù)據(jù)中無結(jié)構(gòu)化數(shù)據(jù)以文件形式存儲至Hadoop分布式文件系統(tǒng),通過日志收集系統(tǒng)將消重處理后的數(shù)據(jù)中結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)存儲至分布式面向列的存儲系統(tǒng);
所述計(jì)算子模塊,用于基于Hadoop平臺提供的編程接口,對Hadoop分布式文件系統(tǒng)和分布式面向列的存儲系統(tǒng)各自存儲的數(shù)據(jù)進(jìn)行加載、抽取、轉(zhuǎn)換處理,獲得面向業(yè)務(wù)的集成數(shù)據(jù)。
B17、如權(quán)利要求B11~B16任一權(quán)利要求所述的裝置,其特征在于,還包括:第一應(yīng)用單元;其中,
所述第一應(yīng)用單元,用于利用所述報(bào)表數(shù)據(jù)及時(shí)發(fā)現(xiàn)業(yè)務(wù)系統(tǒng)中的問題。
B18、如權(quán)利要求B11~B16任一權(quán)利要求所述的裝置,其特征在于,還包括:第二應(yīng)用單元;其中,
所述第二應(yīng)用單元,用于利用所述面向業(yè)務(wù)的集成數(shù)據(jù)決策后續(xù)業(yè)務(wù)運(yùn)營策略。
本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分步驟可以通過程序來指令相關(guān)的硬件來完成,該程序可以存儲于一計(jì)算機(jī)可讀取存儲介質(zhì)中,比如ROM/RAM、磁碟、光盤等。
以上具體實(shí)施方式,對本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說明,所應(yīng)理解的是,以上僅為本發(fā)明的具體實(shí)施方式而已,并不用于限定本發(fā)明的保護(hù)范圍,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。