亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于互聯(lián)網(wǎng)應(yīng)用的用戶信息識別分類方法和系統(tǒng)的制作方法

文檔序號:9813992閱讀:569來源:國知局
一種基于互聯(lián)網(wǎng)應(yīng)用的用戶信息識別分類方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于通訊領(lǐng)域,特別是涉及一種基于互聯(lián)網(wǎng)應(yīng)用的用戶信息識別分類方法和系統(tǒng)。
【背景技術(shù)】
[0002]在互聯(lián)網(wǎng)快速發(fā)展的今天,網(wǎng)絡(luò)上的信息日益膨脹,面對這眾多的信息資源,廣大網(wǎng)民發(fā)現(xiàn)越來越難以獲得自己想要的信息。個性化的服務(wù)技術(shù)就是在這種需求背景下誕生的,個性化服務(wù)是根據(jù)用戶的設(shè)定來實現(xiàn)的,是一種有針對性的服務(wù)方式,通過各種渠道對資源進行收集、整理和分類,向用戶提供和推薦相關(guān)信息,以滿足用戶的需求。個性化服務(wù)打破了傳統(tǒng)被動式的服務(wù)模式,能夠充分利用各種資源優(yōu)勢,主動開展以滿足用戶個性化需求為目的的服務(wù)。而提供個性化的關(guān)鍵,就在于能夠?qū)τ谟脩舻男袨橛兄侠淼膶?yīng)關(guān)系,只有擁有了這樣的對應(yīng)關(guān)系,才有可能進行個性化推薦和篩選?,F(xiàn)有的互聯(lián)網(wǎng)應(yīng)用的用戶信息識別技術(shù)研究,主要集中在WEB信息的抽取與分析,所采取的方法有關(guān)于WEB信息自動數(shù)據(jù)記錄分析、基于Cookie技術(shù)和啟發(fā)式規(guī)則的用戶識別,或基于WEB日志挖掘的用戶信息需求識別等,但隨著APP模式的出現(xiàn),大量的互聯(lián)網(wǎng)應(yīng)用軟件涌現(xiàn),單純通過WEB信息抽取與分析具有極大的局限性,難以達到有效解決互聯(lián)網(wǎng)信息識別技術(shù)問題,以及如何通過海量信息還原一個用戶的真實行為,傳統(tǒng)數(shù)據(jù)收集和識別方式有其局限性,主要有以下原因:
[0003]1.瀏覽器Http協(xié)議無狀態(tài)。Http協(xié)議是無狀態(tài)協(xié)議,將同一個人的數(shù)據(jù)聚合起來,難度本來就比較高,必須通過Cookie,URL參數(shù)等不穩(wěn)定的方式追蹤一個人的行為。
[0004]2.40%的Cookie清除率。從實際的數(shù)據(jù)上來看,大約40%的用戶會清除自己的Cookie,這對于數(shù)據(jù)收集,Join非常不利。用戶清除Cookie的原因很多,包括:由于360,搜狗等現(xiàn)代瀏覽器的出現(xiàn),用戶清除Cookie的代價非常小,甚至很多瀏覽器會主動提示;360,騰訊,百度等廠商提供的“安全衛(wèi)士”等產(chǎn)品會對瀏覽器數(shù)據(jù)進行清除,這些工作可能是在用戶沒有意識的情況下進行的;網(wǎng)吧的還原精靈等自動還原工具的存在。
[0005]3.大量非登錄用戶。當(dāng)前互聯(lián)網(wǎng)很多服務(wù)為了降低用戶使用門檻,很多服務(wù)都不要求用戶登錄。這樣進一步提高了用戶識別的難度。
[0006]4.在線時間短,數(shù)據(jù)稀疏。在線時間是另外一個傳統(tǒng)收集用戶數(shù)據(jù)的軟肋。
[0007]這些問題嚴重制約著個性化服務(wù)的展開和發(fā)展。

【發(fā)明內(nèi)容】

[0008]為解決上述問題,本發(fā)明提供了一種基于互聯(lián)網(wǎng)應(yīng)用的用戶信息識別分類方法包括以下步驟:
[0009]1.獲取應(yīng)用用戶的使用信息。
[0010]2.實時數(shù)據(jù)分析。
[0011]3.離線儲存。
[0012]4.離線數(shù)據(jù)分析。
[0013]5.分析結(jié)果匯總。
[0014]步驟I獲取的信息為用戶使用應(yīng)用時產(chǎn)生的日志數(shù)據(jù)。
[0015]進一步的,步驟I收集的日志數(shù)據(jù)包括:用戶設(shè)備ID;用戶賬號信息收集;用戶社會關(guān)系收集;用戶地緣信息收集。
[0016]步驟2所述實時數(shù)據(jù)分析包括:
[0017]首先對收集到的日志數(shù)據(jù)進行格式化匯總:將該日志數(shù)據(jù)進行Json格式化為一個JSON字符串:每條log包含有一個1gId、一個partnerId和一個cookield。其中,log代表日志;1gId代表日志唯一 id,每條日志隨機生成;partner Id代表用戶分組id !cookie Id代表客戶端標(biāo)識,同一個客戶端cookield相同。
[0018]然后進行實時的初步分類匯總,分為:關(guān)鍵信息和非關(guān)鍵信息,關(guān)鍵信息和非關(guān)鍵信息均包含一個或多個key-value對;關(guān)鍵信息的key為事件名稱,value為事件發(fā)生的次數(shù),會進入實時匯總計算;非關(guān)鍵信息的key和value任意,并且不進入實時匯總計算。
[0019]最后對關(guān)鍵信息進行多層級分類匯總形成多個統(tǒng)計表,每個表格的名稱為partnerld,表格內(nèi)容為關(guān)鍵信息和發(fā)生次數(shù),將每條log格式化后的數(shù)據(jù)partnerld,關(guān)鍵信息,發(fā)生次數(shù),更新到表格中。
[0020]進一步的,這些表格的信息,每隔一段時間生成統(tǒng)計數(shù)據(jù)點,之后清零。這樣就能得到最新的數(shù)據(jù)和每個數(shù)據(jù)點間隔時間之間的數(shù)據(jù)。
[0021 ] 優(yōu)選的,間隔時間可以選擇為I分鐘、3分鐘、5分鐘或10分鐘。
[0022]進一步的,所述log內(nèi)容還可以分為:
[0023]a.定時log:定時將一段時間內(nèi)的客戶端信息匯總上報,可以含有多個關(guān)鍵信息key-value對,和若干個非關(guān)鍵信息key-value對。
[0024]b.突發(fā)log:突發(fā)log用于擬補定時log不能立即發(fā)送的不足,將少量更重要的信息立即上報;突發(fā)log含有一個關(guān)鍵信key-value對,和若干個非關(guān)鍵信息key-value對。
[0025]進一步的,步驟2所述多層級分類匯總包括:首先,Json串進行Load balance步驟的初步匯總后將數(shù)據(jù)的量級降低為常數(shù);之后Json串進行多層級的匯總,形成多個統(tǒng)計表,每個表格的名稱為partnerld,表格內(nèi)容為關(guān)鍵信息和發(fā)生次數(shù);最后,將每條log格式化后的partnerId,關(guān)鍵信息,發(fā)生次數(shù),更新到表格中。
[0026]步驟3所述離線儲存為:將多層級分類匯總后的日志數(shù)據(jù)進行分布式保存并且每I小時進彳丁一次尚效壓縮。
[0027]步驟4所述離線數(shù)據(jù)分析為:根據(jù)預(yù)設(shè)數(shù)據(jù)模型調(diào)取相應(yīng)數(shù)據(jù)進行離線建模分析,包括:活躍用戶數(shù)統(tǒng)計、事件關(guān)聯(lián)統(tǒng)計、新增用戶統(tǒng)計、用戶保留率統(tǒng)計等。
[0028]步驟5所述分析結(jié)果匯總為:結(jié)合離線數(shù)據(jù)分析各數(shù)據(jù)模型,形成個人用戶及應(yīng)用用戶的個性化匯總,可以包括用戶興趣圖譜分析和應(yīng)用用戶群體圖譜分析。
[0029]本發(fā)明還提供了一種基于互聯(lián)網(wǎng)應(yīng)用的用戶信息識別分類系統(tǒng),該系統(tǒng)包括:數(shù)據(jù)收集模塊、日志分析模塊、儲存模塊和離線分析模塊。
[0030]所述數(shù)據(jù)收集模塊可以加裝于客戶端,統(tǒng)計應(yīng)用程序的使用行為信息,并按照固定格式和固定間隔時間上傳到服務(wù)器;也可以加裝于服務(wù)器端,收集用戶應(yīng)用程序的使用行為信息后進行格式化轉(zhuǎn)化。
[0031 ]所述日志分析模塊為:日志分析模塊接收數(shù)據(jù)收集模塊和其他業(yè)務(wù)系統(tǒng)發(fā)送的日志數(shù)據(jù)進行實時的初步分類,分為關(guān)鍵信息和非關(guān)鍵信息,然后對關(guān)鍵信息進行實時的多層級匯總分析。
[0032]進一步的,日志分析模塊還包括:網(wǎng)絡(luò)優(yōu)化;負載均衡;客戶端故障容錯和客戶端網(wǎng)絡(luò)容錯,其中:
[0033]網(wǎng)絡(luò)優(yōu)化:通過DNS進行網(wǎng)絡(luò)劃分,電信網(wǎng)絡(luò)、聯(lián)通網(wǎng)絡(luò)、移動網(wǎng)絡(luò)分別部署服務(wù)器。
[0034]負載均衡:通過將客戶端id進行一致性哈希,將客戶端上報的壓力平均分給多臺服務(wù)器,一致性哈希保證當(dāng)新增或者移除某一臺服務(wù)器的時候,受到影響的用戶數(shù)量最小。
[0035]客戶端故障容錯:當(dāng)客戶端發(fā)現(xiàn)上報統(tǒng)計服務(wù)器沒有響應(yīng)的時候,會重試,如果連續(xù)重試失敗次數(shù)達到3次,則自動切換到其他服務(wù)器并將連續(xù)重試次數(shù)清零。
[0036]客戶端網(wǎng)絡(luò)容錯:當(dāng)客戶端某一次log上報服務(wù)器沒有正確相應(yīng)時,會記錄該次上報的log并負載于下一次上報的log里。服務(wù)器會記錄一段時間內(nèi)log的1gId,如出現(xiàn)客戶端多次上報時則對重復(fù)的1gId進行去重。這樣保證既沒有冗余,同時減少log丟失,并且不會增加I og上報次數(shù)。
[0037]所述儲存模塊為離線數(shù)據(jù)庫,離線儲存日志分析模塊分類匯總后的數(shù)據(jù)。
[0038]所述離線分析模塊通過調(diào)取儲存模塊數(shù)據(jù),根據(jù)預(yù)設(shè)分析模型進行建模分析,必要時可調(diào)取日志分析模塊數(shù)據(jù)進行補充,所述數(shù)據(jù)模型包括:活躍用戶
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1