數(shù)統(tǒng)計(jì)、事件關(guān)聯(lián)統(tǒng)計(jì)、新增用戶統(tǒng)計(jì)、用戶保留率統(tǒng)計(jì)等。
[0039]所述模型數(shù)據(jù)庫(kù)儲(chǔ)存離線分析模塊分析得到的數(shù)據(jù)模型。
[0040]本發(fā)明提供的一種基于互聯(lián)網(wǎng)應(yīng)用的用戶信息識(shí)別分類方法和系統(tǒng)具有如下優(yōu)占.V.
[0041]1.本方法突破了傳統(tǒng)數(shù)據(jù)收集方式的局限性,具有極強(qiáng)的兼容性,并且可以實(shí)現(xiàn)實(shí)時(shí)的數(shù)據(jù)收集;采用了服務(wù)器負(fù)載均衡技術(shù),具有較好的穩(wěn)定性。
[0042]2.實(shí)時(shí)數(shù)據(jù)匯總對(duì)實(shí)時(shí)日志進(jìn)行了多層級(jí)分類匯總,降低了實(shí)時(shí)數(shù)據(jù)的儲(chǔ)存壓力,提高了數(shù)據(jù)分析速率。
[0043]3.采用離線方式儲(chǔ)存數(shù)據(jù),保證數(shù)據(jù)完整無(wú)誤,保證歷史數(shù)據(jù)不丟失。
[0044]4.本系統(tǒng)具有極強(qiáng)的精度、靈活性和穩(wěn)定性,采用實(shí)時(shí)分析和離線分析兩級(jí)分析模式,降低了系統(tǒng)運(yùn)算壓力。關(guān)鍵數(shù)據(jù)實(shí)時(shí)分析,時(shí)效性強(qiáng),全部數(shù)據(jù)離線存儲(chǔ),完整性高。
【附圖說(shuō)明】
[0045]圖1是基于互聯(lián)網(wǎng)應(yīng)用的用戶信息識(shí)別分類方法的流程圖;
[0046]圖2是基于互聯(lián)網(wǎng)應(yīng)用的用戶信息識(shí)別分類系統(tǒng)的結(jié)構(gòu)圖。
具體實(shí)施例
[0047]為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖,對(duì)本發(fā)明進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0048]根據(jù)本發(fā)明一個(gè)實(shí)施例,提供一種基于激光雷達(dá)的輸電線路智能預(yù)警評(píng)估方法,如圖1所示,該方法包括:
[0049]SI獲取應(yīng)用用戶的使用信息;
[0050]收集的數(shù)據(jù)為用戶使用應(yīng)用時(shí)產(chǎn)生的日志數(shù)據(jù),主要來(lái)自于高置信度數(shù)據(jù)來(lái)源,基于移動(dòng)互聯(lián)網(wǎng)產(chǎn)品可以準(zhǔn)確收集大量用戶如下數(shù)據(jù):
[0051 ] D用戶設(shè)備10;
[0052]2)用戶賬號(hào)信息收集;
[0053]3)用戶社會(huì)關(guān)系收集;
[0054]4)用戶地緣信息收集。
[0055]基于移動(dòng)互聯(lián)網(wǎng)產(chǎn)品收集用戶數(shù)據(jù)的特點(diǎn)有:準(zhǔn)確,Device識(shí)別,天然的準(zhǔn)確性。不需要登錄;數(shù)據(jù)豐富,社會(huì)關(guān)系,地緣信息等。
[0056]另一方面,新的用戶數(shù)據(jù)收集方式來(lái)自于高粘滯性數(shù)據(jù)來(lái)源。視頻和游戲是互聯(lián)網(wǎng)中兩大強(qiáng)需求、高在線的應(yīng)用;從內(nèi)容角度講,可以獲取用戶行為數(shù)據(jù),活動(dòng)時(shí)間分布等數(shù)據(jù),還可以獲取用戶興趣,根據(jù)視頻,游戲的主題,分類等。其特點(diǎn)是,在線時(shí)間長(zhǎng),數(shù)據(jù)豐昆ο
[0057]S2實(shí)時(shí)數(shù)據(jù)分析;
[0058]首先對(duì)收集到的日志數(shù)據(jù)進(jìn)行格式化匯總:將該日志數(shù)據(jù)進(jìn)行Json格式化為一個(gè)JSON字符串:每條log包含有一個(gè)1gId、一個(gè)partnerId和一個(gè)cookield;然后進(jìn)行實(shí)時(shí)的初步分類匯總,分為:關(guān)鍵信息和非關(guān)鍵信息,關(guān)鍵信息和非關(guān)鍵信息均包含一個(gè)或多個(gè)key-value對(duì):關(guān)鍵信息的key為事件名稱,value為事件發(fā)生的次數(shù),會(huì)進(jìn)入實(shí)時(shí)匯總計(jì)算;非關(guān)鍵信息的key和value任意,并且不進(jìn)入實(shí)時(shí)匯總計(jì)算;最后對(duì)關(guān)鍵信息進(jìn)行多層級(jí)分類匯總形成多個(gè)統(tǒng)計(jì)表,每個(gè)表格的名稱為partnerld,表格內(nèi)容為關(guān)鍵信息和發(fā)生次數(shù),將每條log格式化后的數(shù)據(jù)partnerld,關(guān)鍵信息,發(fā)生次數(shù),更新到表格中。這些表格的信息,每5分鐘生成統(tǒng)計(jì)數(shù)據(jù)點(diǎn),之后清零。這樣就能得到最新的數(shù)據(jù)和每個(gè)數(shù)據(jù)點(diǎn)間隔之間的數(shù)據(jù)。
[0059]例如:客戶端用戶在每次播放視頻的時(shí)候,可以上報(bào)一個(gè)“eventlog(play)”,并且播放視頻的過(guò)程中,每隔30秒上報(bào)“regular log (online: 30秒,download:過(guò)去30秒網(wǎng)絡(luò)下載的字節(jié)數(shù))”。這樣,服務(wù)器可以統(tǒng)計(jì)到每5分鐘視頻播放的總次數(shù),即play的總和)、平均在線人數(shù),即online的總和/5分鐘、當(dāng)前服務(wù)器的平均出帶寬,即down load的總和/5分鐘。
[0060]S3離線儲(chǔ)存;
[0061]將多層級(jí)分類匯總后的日志數(shù)據(jù)進(jìn)行分布式保存并且每I小時(shí)進(jìn)行一次高效壓縮。
[0062]S4離線數(shù)據(jù)分析;
[0063]調(diào)取相應(yīng)數(shù)據(jù)進(jìn)行離線建模分析,包括:活躍用戶數(shù)統(tǒng)計(jì)、事件關(guān)聯(lián)統(tǒng)計(jì)、新增用戶統(tǒng)計(jì)、用戶保留率統(tǒng)計(jì)等。
[0064]例如:
[0065]某應(yīng)用某天的活躍用戶數(shù):該模型首先調(diào)取該應(yīng)用當(dāng)天所有的cookield,然后將cookield重復(fù)的日志去除,最后統(tǒng)計(jì)得出當(dāng)天該應(yīng)用的用戶數(shù)量。
[0066]事件關(guān)聯(lián)統(tǒng)計(jì):該模型可以統(tǒng)計(jì)多種關(guān)聯(lián)事件,例如如想知道某天有多少用戶既觀看了視頻又發(fā)送了消息,則首先設(shè)播放視頻事件為play,發(fā)送消息事件為sendMessage,然后通過(guò)調(diào)取分析該視頻當(dāng)天所有cookie Id的play和sendMessage,最后統(tǒng)計(jì)得出play次數(shù)大于O并且sendMessage次數(shù)大于O的用戶數(shù)。
[0067]新增用戶統(tǒng)計(jì):該模型首先調(diào)取該應(yīng)用至今的全部cookield,將cookield重復(fù)的日志去除,然后對(duì)當(dāng)天每一條日志的cookeld進(jìn)行計(jì)算,如果這個(gè)cookield在歷史上沒有出現(xiàn)過(guò),則標(biāo)記為新增,最后統(tǒng)計(jì)當(dāng)天新增的cookield數(shù)量。
[0068]用戶保留率統(tǒng)計(jì):為某天活躍的用戶里面,第二天還活躍的比例。該模型需要統(tǒng)計(jì)當(dāng)前出現(xiàn)的cookield數(shù)量,再統(tǒng)計(jì)當(dāng)天出現(xiàn)后第二天仍然出現(xiàn)的cookield的數(shù)量,后者除以前者則為保留率。
[0069]離線分析與實(shí)時(shí)分析相互獨(dú)立,可以合理分配系統(tǒng)資源,提高建模分析的效率。
[0070]S5分析結(jié)果匯總;
[0071]結(jié)合離線數(shù)據(jù)分析各數(shù)據(jù)模型,形成個(gè)人用戶及應(yīng)用用戶的個(gè)性化匯總。
[0072]根據(jù)本發(fā)明一個(gè)實(shí)施例,所述log內(nèi)容可以分為:
[0073]a.定時(shí)log:定時(shí)將一段時(shí)間內(nèi)的客戶端信息匯總上報(bào),可以含有多個(gè)關(guān)鍵信息key-value對(duì),和若干個(gè)非關(guān)鍵信息key-value對(duì)。
[0074]b.突發(fā)log:突發(fā)log用于擬補(bǔ)定時(shí)log不能立即發(fā)送的不足,將少量更重要的信息立即上報(bào);突發(fā)log含有一個(gè)關(guān)鍵信息key-value對(duì),和若干個(gè)非關(guān)鍵信息key-value對(duì)。
[0075]根據(jù)本發(fā)明一個(gè)實(shí)施例,步驟S2所述多層級(jí)分類匯總可以為:首先,Json串進(jìn)行Load balance步驟的初步匯總后將數(shù)據(jù)的量級(jí)降低為常數(shù);之后Json串進(jìn)行多層級(jí)的匯總,形成多個(gè)統(tǒng)計(jì)表,每個(gè)表格的名稱為partnerld,表格內(nèi)容為關(guān)鍵信息和發(fā)生次數(shù);最后,將每條log格式化后的partner Id,關(guān)鍵信息,發(fā)生次數(shù),更新到表格中。
[0076]根據(jù)本發(fā)明一個(gè)實(shí)施例,步驟S5所述分析結(jié)果匯總可以為:調(diào)取數(shù)據(jù)模型庫(kù)中的相應(yīng)數(shù)據(jù)模型進(jìn)行匯總分析,得到用戶興趣圖譜和應(yīng)用用戶群體圖譜。
[0077]根據(jù)本發(fā)明一個(gè)實(shí)施例,提供一種基于互聯(lián)網(wǎng)應(yīng)用的用戶信息識(shí)別分類系統(tǒng),如圖2所示,該系統(tǒng)包括:數(shù)據(jù)收集模塊、日志分析模塊、儲(chǔ)存模塊、離線分析模塊和數(shù)據(jù)模型庫(kù)。
[0078]數(shù)據(jù)收集模塊可以加裝于客戶端,統(tǒng)計(jì)應(yīng)用程序的使用行為信息,并按照固定格式和固定間隔時(shí)間上傳到服務(wù)器;也可以加裝于服務(wù)器端,收集用戶應(yīng)用程序的使用行為信息后進(jìn)行格式化轉(zhuǎn)化。
[0079]日志分析模塊接收數(shù)據(jù)收集模塊和其他業(yè)務(wù)系統(tǒng)發(fā)送的日志數(shù)據(jù)進(jìn)行實(shí)時(shí)的初步分類,分為關(guān)鍵信息和非關(guān)鍵信息,然后對(duì)關(guān)鍵信息進(jìn)行實(shí)時(shí)的多層級(jí)匯總分析。
[0080]儲(chǔ)存模塊為離線數(shù)據(jù)庫(kù),離線儲(chǔ)存日志分析模塊分類匯總后的數(shù)據(jù)。
[0081]離線分析模塊通過(guò)調(diào)取儲(chǔ)存模塊數(shù)據(jù),根據(jù)預(yù)設(shè)分析模型進(jìn)行建模分析,必要時(shí)可調(diào)取日志分析模塊數(shù)據(jù)進(jìn)行補(bǔ)充,所述數(shù)據(jù)模型包括:活躍用戶數(shù)統(tǒng)計(jì)、事件關(guān)聯(lián)統(tǒng)計(jì)、新增用戶統(tǒng)計(jì)、用戶保留率統(tǒng)計(jì)等。
[0082]模型數(shù)據(jù)庫(kù)儲(chǔ)存離線分析模塊分析得到的數(shù)據(jù)模型。
當(dāng)前第2頁(yè)
1 
2 
3