基于海量用戶行為數(shù)據(jù)的高速計(jì)算分析方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于數(shù)據(jù)處理領(lǐng)域,尤其涉及一種基于海量用戶行為數(shù)據(jù)的高速計(jì)算分析方法。
【背景技術(shù)】
[0002]隨著廣電網(wǎng)絡(luò)公司后平移時代的到來,數(shù)字電視業(yè)務(wù)發(fā)展日益成熟,付費(fèi)頻道、時移回看、V0D(Video On Demand)即視頻點(diǎn)播、其他增值業(yè)務(wù)(股票、電視商城、游戲等)等多種雙向互動新業(yè)務(wù)在不斷的充實(shí)廣電網(wǎng)絡(luò)運(yùn)營商的業(yè)務(wù)服務(wù)內(nèi)容,廣電網(wǎng)絡(luò)運(yùn)營商的發(fā)展重點(diǎn)逐漸從數(shù)字平臺搭建、雙向網(wǎng)絡(luò)改造轉(zhuǎn)向了更加多元化的業(yè)務(wù)經(jīng)營和盈利模式。
[0003]作為傳統(tǒng)的廣電網(wǎng)絡(luò)運(yùn)營商,在數(shù)字電視媒體環(huán)境下,隨著雙向網(wǎng)絡(luò)的不斷完善,用戶行為數(shù)據(jù)的采集成為可能,而面對上百萬,甚至上千萬用戶的海量行為數(shù)據(jù),如何進(jìn)行高速的計(jì)算分析成為了各大運(yùn)營商丞待解決的問題。
[0004]現(xiàn)有的海量數(shù)據(jù)計(jì)算分析技術(shù),主要是通過將結(jié)構(gòu)化的數(shù)據(jù)存儲在眾多的存儲及運(yùn)算設(shè)備之中,然后經(jīng)過數(shù)據(jù)庫的查詢、運(yùn)算、分析,從百萬級,甚至千萬級用戶的海量行為數(shù)據(jù)中,查詢到需要的數(shù)據(jù)記錄和結(jié)果,然后再進(jìn)行運(yùn)算分析,以形成最終的分析結(jié)果。這種方式,由于所有的分析、計(jì)算都要從龐大的海量數(shù)據(jù)中進(jìn)行查詢及運(yùn)算,使得查詢運(yùn)算的效率大大降低,分析一個簡單的指標(biāo),都需要從所有數(shù)據(jù)中進(jìn)行查詢,以獲取所需的數(shù)據(jù)指標(biāo)。往往查詢與運(yùn)算的時間都是好幾個小時,甚至十幾個小時,隨著數(shù)據(jù)量的增加,效率會更低,只能通過添加高性能的運(yùn)算服務(wù)器,以提高查詢運(yùn)算的效率?,F(xiàn)有的海量數(shù)據(jù)計(jì)算分析技術(shù)根本無法做到對海量數(shù)據(jù)的實(shí)時分析與計(jì)算,且需要投入大量的高性能服務(wù)器資源以配合分析與計(jì)算。
【發(fā)明內(nèi)容】
[0005]本發(fā)明主要解決的是面對越來越靈活的雙向新媒體業(yè)務(wù),面對百萬級,甚至千萬級用戶的海量行為數(shù)據(jù),將采集到的用戶行為數(shù)據(jù)進(jìn)行HDFS分布式存儲,經(jīng)過ETL模塊對數(shù)據(jù)進(jìn)行提取、轉(zhuǎn)換和加載之后,由符合傳媒行業(yè)特點(diǎn)的優(yōu)化組合算法模塊,將海量的用戶行為數(shù)據(jù)進(jìn)行高效的數(shù)據(jù)預(yù)處理,形成一系列的中間結(jié)果數(shù)據(jù),再通過不同的WEB應(yīng)用程序調(diào)用相關(guān)的中間結(jié)果數(shù)據(jù)集,以實(shí)現(xiàn)對海量用戶行為數(shù)據(jù)的高速分析運(yùn)算,為運(yùn)營商提供秒級的實(shí)時計(jì)算分析。
[0006]通過該方法可使廣電網(wǎng)絡(luò)運(yùn)營商利用現(xiàn)有的雙向網(wǎng)絡(luò)通道獲取到的海量用戶行為數(shù)據(jù),快速有效的得到真實(shí)的、準(zhǔn)確的分析運(yùn)算結(jié)果,實(shí)時地為運(yùn)營商提供運(yùn)營決策依據(jù),有效的提高了海量數(shù)據(jù)的分析運(yùn)算效率。同時在資源利用率上,較現(xiàn)有的海量數(shù)據(jù)分析技術(shù)可節(jié)省大量的硬件設(shè)備資源及人員成本。
【附圖說明】
[0007]圖1為本發(fā)明實(shí)施例提供的基于海量用戶行為數(shù)據(jù)的高速計(jì)算分析方法的實(shí)現(xiàn)流程圖。
【具體實(shí)施方式】
[0008]下面結(jié)合附圖并通過【具體實(shí)施方式】來進(jìn)一步說明本發(fā)明的技術(shù)方案??梢岳斫獾氖?,此處所描述的具體實(shí)施例僅僅用于解釋本發(fā)明,而非對本發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部內(nèi)容。
[0009]如圖1所示,為本發(fā)明基于海量用戶行為數(shù)據(jù)的高速計(jì)算分析方法的實(shí)現(xiàn)流程圖,詳述如下:
[0010]在步驟SI中,采集運(yùn)營商的海量用戶行為數(shù)據(jù)及第三方系統(tǒng)的異構(gòu)數(shù)據(jù);
[0011]在步驟S2 中,通過 HDFS ((Hadoop Distributed File System))分布式存儲模塊進(jìn)行三備份分布式存儲;
[0012]在步驟S3中,由ETL(Extract-Transform-Load)模塊完成對海量行為數(shù)據(jù)的提取、轉(zhuǎn)化及加載;
[0013]在步驟S4中然后再由算法處理模塊,結(jié)合傳媒行業(yè)的特點(diǎn),對轉(zhuǎn)化后的海量行為數(shù)據(jù),利用基本統(tǒng)計(jì)分析算法,例如描述性統(tǒng)計(jì)分析、假設(shè)檢驗(yàn)、回歸分析、多元統(tǒng)計(jì)分析、方差分析、線性時間序列分析、參數(shù)貝葉斯方法、修正收視媒體指標(biāo)分析方法等,利用高級數(shù)據(jù)分析算法,例如關(guān)聯(lián)規(guī)則挖掘涉及的Apr1ri算法、基于劃分的算法、F-P數(shù)頻集算法,分類分析涉及的判定樹歸納分類、貝葉斯分類、向后傳播分類,聚類分析涉及的K-means、CLARANS, BIRCH、CURE、DBSCAN,神經(jīng)網(wǎng)絡(luò)算法、高維數(shù)據(jù)統(tǒng)計(jì)分析等,利用智能關(guān)聯(lián)規(guī)則挖掘算法、節(jié)目評估模型、高級時間序列預(yù)測方法等創(chuàng)新算法,通過將上述算法結(jié)合符合傳媒行業(yè)的特點(diǎn),進(jìn)行算法間優(yōu)化組合,形成特定的算法包及數(shù)據(jù)模型,并針對上述算法特點(diǎn),對用戶的海量行為數(shù)據(jù)進(jìn)行預(yù)處理,提取共用部分,形成供數(shù)據(jù)查詢、分析、運(yùn)算、模型演化等,的一系列的中間結(jié)果數(shù)據(jù),并存儲在中間結(jié)果數(shù)據(jù)存儲模塊中;
[0014]在步驟S5中,由不同的WEB應(yīng)用程序由操作用戶提交分析請求,直接從中間結(jié)果數(shù)據(jù)存儲模塊中調(diào)用所需的指標(biāo)數(shù)據(jù),并通過簡單的查詢、統(tǒng)計(jì)、分析、公式計(jì)算等運(yùn)算即可完成對用戶分析請求的結(jié)果反饋。對操作用戶的指標(biāo)分析請求響應(yīng)時間達(dá)到秒級,甚至毫秒級的實(shí)時響應(yīng)。使得服務(wù)器端資源壓力下降,能夠做到WEB應(yīng)用的高并發(fā)。
[0015]由于采用了優(yōu)化組合的算法包及數(shù)據(jù)模型進(jìn)行海量的數(shù)據(jù)預(yù)處理操作,每次的用戶指標(biāo)查詢請求,只需要從經(jīng)過數(shù)據(jù)預(yù)處理的中間結(jié)果數(shù)據(jù)中提取相關(guān)數(shù)據(jù)參與運(yùn)算,不需要從完整的原始海量行為數(shù)據(jù)中進(jìn)行查詢和運(yùn)算,分析運(yùn)算效率由現(xiàn)有技術(shù)所需的幾個小時,十幾個小時的漫長等待時間,提升為秒級,甚至毫秒級的實(shí)時響應(yīng),大大提高了分析運(yùn)算效率,同時整個分析運(yùn)算過程只需要普通的PC服務(wù)器資源即可完成,大大節(jié)省了硬件服務(wù)器資源的投入。
[0016]以上僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1.一種基于海量用戶行為數(shù)據(jù)的高速計(jì)算分析方法,其特征在于:包含如下步驟: A、首先采集運(yùn)營商的海量用戶行為數(shù)據(jù)及第三方系統(tǒng)的異構(gòu)數(shù)據(jù); B、通過HDFS分布式存儲模塊進(jìn)行三備份分布式存儲; C、通過ETL模塊完成對海量行為數(shù)據(jù)的提取、轉(zhuǎn)化及加載; D、然后再由算法處理模塊對轉(zhuǎn)化后的海量行為數(shù)據(jù)通過優(yōu)化組合的算法包及數(shù)據(jù)模型進(jìn)行數(shù)據(jù)預(yù)處理操作,最終形成一系列的中間結(jié)果數(shù)據(jù),并存儲在中間結(jié)果數(shù)據(jù)存儲模塊中; E、通過不同的WEB應(yīng)用程序由操作用戶提交分析請求,直接從中間結(jié)果數(shù)據(jù)存儲模塊中調(diào)用所需的指標(biāo)數(shù)據(jù),并通過運(yùn)算即可完成對用戶分析請求的結(jié)果反饋。
【專利摘要】本發(fā)明主要解決的是面對越來越靈活的雙向新媒體業(yè)務(wù),面對百萬級,甚至千萬級用戶的海量行為數(shù)據(jù),將采集到的用戶行為數(shù)據(jù)進(jìn)行HDFS分布式存儲,經(jīng)過ETL模塊對數(shù)據(jù)進(jìn)行提取、轉(zhuǎn)換和加載之后,由符合傳媒行業(yè)特點(diǎn)的優(yōu)化組合算法模塊,將海量的用戶行為數(shù)據(jù)進(jìn)行高效的數(shù)據(jù)預(yù)處理,形成一系列的中間結(jié)果數(shù)據(jù),再通過不同的WEB應(yīng)用程序調(diào)用相關(guān)的中間結(jié)果數(shù)據(jù)集,以實(shí)現(xiàn)對海量用戶行為數(shù)據(jù)的高速分析運(yùn)算,為運(yùn)營商提供秒級的實(shí)時計(jì)算分析。
【IPC分類】G06F17/30
【公開號】CN105302831
【申請?zhí)枴緾N201410345089
【發(fā)明人】李馥岑, 孫鑫, 張旭明
【申請人】上海星紅桉數(shù)據(jù)科技有限公司
【公開日】2016年2月3日
【申請日】2014年7月18日