亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

數(shù)據(jù)處理方法及裝置的制造方法

文檔序號:8457276閱讀:395來源:國知局
數(shù)據(jù)處理方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,尤其涉及一種數(shù)據(jù)處理方法及裝置。
【背景技術(shù)】
[0002]隨著在線社會網(wǎng)絡如社交網(wǎng)站、微博、在線社區(qū)等的快速發(fā)展,一個真正的雙向傳播和新媒體時代逐步形成。在線社會網(wǎng)絡讓每個用戶都能創(chuàng)造自己的內(nèi)容,并且快速傳播出去。據(jù)不完全統(tǒng)計,國內(nèi)大型微博網(wǎng)站平均每秒有超過3000條的新數(shù)據(jù)產(chǎn)生。
[0003]在如此規(guī)模的數(shù)據(jù)基礎(chǔ)上,在線社會網(wǎng)絡管理者如何快速準確地獲取用戶活躍度成為亟待解決的問題。對此,現(xiàn)有技術(shù)中,還沒有能夠準確快捷地獲取用戶活躍度的方案。

【發(fā)明內(nèi)容】

[0004]本發(fā)明提供一種數(shù)據(jù)處理方法及裝置,用于解決現(xiàn)有技術(shù)無法準確快捷地獲取用戶活躍度的問題。
[0005]本發(fā)明的第一個方面是提供一種數(shù)據(jù)處理方法,包括:
[0006]接收請求設備發(fā)送的處理請求,所述處理請求包括目標網(wǎng)站的標識;
[0007]根據(jù)采集到的歷史原始數(shù)據(jù),獲得用戶在預設的目標時間范圍內(nèi),在所述目標網(wǎng)站中發(fā)布的各類型對應的信息的平均數(shù)量,所述歷史原始數(shù)據(jù)包括各用戶在各網(wǎng)站中發(fā)布的信息;
[0008]針對每個所述類型對應的信息的平均數(shù)量,計算其與所述類型對應的預設權(quán)值的乘積,其中,所述各類型對應的權(quán)值之和為I ;
[0009]計算所述各類型對應的乘積之和,獲得所述用戶在所述目標時間范圍內(nèi)相對于所述目標網(wǎng)站的用戶活躍度;
[0010]向所述請求設備發(fā)送處理結(jié)果,所述處理結(jié)果包括所述用戶活躍度。
[0011]本發(fā)明的另一個方面是提供一種數(shù)據(jù)處理裝置,包括:
[0012]接收模塊,用于接收請求設備發(fā)送的處理請求,所述處理請求包括目標網(wǎng)站的標識;
[0013]獲取模塊,用于根據(jù)采集到的歷史原始數(shù)據(jù),獲得用戶在預設的目標時間范圍內(nèi),在所述目標網(wǎng)站中發(fā)布的各類型對應的信息的平均數(shù)量,所述歷史原始數(shù)據(jù)包括各用戶在各網(wǎng)站中發(fā)布的信息;
[0014]處理模塊,用于針對每個所述類型對應的信息的平均數(shù)量,計算其與所述類型對應的預設權(quán)值的乘積,其中,所述各類型對應的權(quán)值之和為I;
[0015]所述處理模塊,還用于計算所述各類型對應的乘積之和,獲得所述用戶在所述目標時間范圍內(nèi)相對于所述目標網(wǎng)站的用戶活躍度;
[0016]發(fā)送模塊,用于向所述請求設備發(fā)送處理結(jié)果,所述處理結(jié)果包括所述用戶活躍度。
[0017]本發(fā)明提供的數(shù)據(jù)處理方法及裝置,根據(jù)集到的歷史原始數(shù)據(jù),獲得目標用戶在預設的目標時間范圍內(nèi),在預設的目標網(wǎng)站中發(fā)布的各類型對應的信息的平均數(shù)量,進而基于各類型對應的權(quán)值,獲得目標用戶在所述目標時間范圍內(nèi)相對于該目標網(wǎng)站的用戶活躍度,實現(xiàn)準確快捷地獲取用戶的用戶活躍度。
【附圖說明】
[0018]圖1為本發(fā)明實施例一提供的一種數(shù)據(jù)處理方法的流程示意圖;
[0019]圖2為本發(fā)明實施例二提供的一種數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
[0020]為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述。
[0021]圖1為本發(fā)明實施例一提供的一種數(shù)據(jù)處理方法的流程示意圖,如圖1所示,所述方法包括:
[0022]101、接收請求設備發(fā)送的處理請求,所述處理請求包括目標網(wǎng)站的標識。
[0023]其中,網(wǎng)站具體可以為各微博網(wǎng)站,例如,新浪微博、騰訊微博等,具體的,網(wǎng)站的標識可以采用服務配置文件標識符(Service Profile Identifier,簡稱spID)標識。
[0024]102、根據(jù)采集到的歷史原始數(shù)據(jù),獲得用戶在預設的目標時間范圍內(nèi),在所述目標網(wǎng)站中發(fā)布的各類型對應的信息的平均數(shù)量,所述歷史原始數(shù)據(jù)包括各用戶在各網(wǎng)站中發(fā)布的信息。
[0025]在實際應用中,可以以大規(guī)模的社交網(wǎng)絡信息為基礎(chǔ),通過對數(shù)據(jù)結(jié)構(gòu)進行設計,利用分布式架構(gòu)存儲并壓縮,獲得所述歷史原始數(shù)據(jù)。具體的,所述社交網(wǎng)絡信息可以包括發(fā)布時間、網(wǎng)站、發(fā)布信息的類型和用戶的標識等。其中,所述類型可以包括多種情形,例如,原創(chuàng)、轉(zhuǎn)發(fā)、評論及分享等。
[0026]進一步的,在本實施例的數(shù)據(jù)處理過程中,為了能夠快速讀取所述歷史原始數(shù)據(jù),可以將所述社交網(wǎng)絡信息中的信息拼接起來,并在各信息之間使用“#”分隔。具體的,所述用戶的標識可以采用用戶代碼(usercode)標識,所述類型的標識可以采用assetType標識,發(fā)布時間的標識可以采用date標識。舉例來說,最后存儲的歷史原始數(shù)據(jù)的形式可以為:發(fā)布時間#網(wǎng)站標識#類型標識#用戶的標識,即date#spID#assetType#usercode。例如,假設用戶A的用戶在時刻B時,在網(wǎng)站C中發(fā)布了類型為D的信息,則該信息對應的歷史原始數(shù)據(jù)可以為B#cmm。
[0027]進一步的,為了節(jié)約存儲空間和傳輸帶寬,在存儲之前可以對拼接后獲得的數(shù)據(jù)進行壓縮,具體的,可以采用壓縮比和傳輸速度較快的Lempel-Ziv-Oberhumer,簡稱LZO壓縮算法進行壓縮。
[0028]具體的,在本實施例中所述信息的平均數(shù)量,可以為單位時長內(nèi)的信息數(shù)量,則相應的,102可以包括:
[0029]根據(jù)所述歷史原始數(shù)據(jù),獲得所述用戶在所述目標時間范圍內(nèi),在所述目標網(wǎng)站中發(fā)布的各類型對應的信息的數(shù)量;
[0030]分別將所述各類型對應的信息的數(shù)量除以所述目標時間范圍對應的時長,獲得用戶在所述目標時間范圍內(nèi),在所述目標網(wǎng)站中發(fā)布的各類型對應的信息的平均數(shù)量。
[0031]其中,所述目標時間范圍對應的時長為所述目標時間范圍內(nèi)單位時長的個數(shù)。具體的,所述單位時長可以預先設定。需要說明的是,對于不同的單位時長,計算出的信息的平均數(shù)量也會不同,具體舉例來說,假設某用戶在最近一周內(nèi),在某網(wǎng)站中發(fā)布的某類型的信息的數(shù)量為70,則若以一天為單位時長,則所述目標時間范圍對應的時長為7/1=7,相應的所述信息的平均數(shù)量為70/7=10 ;而若直接以一周為單位時長,則所述目標時間范圍對應的時長為7/7=1,相應的所述信息的平均數(shù)量為70/1=70。
[0032]再具體的,在實際應用中,獲得所述用戶在所述目標時間范圍內(nèi),在所述目標網(wǎng)站中發(fā)布的各類型對應的信息的數(shù)量的具體流程可以包括:
[0033]根據(jù)預設的目標時間范圍,獲得在該目標時間范圍內(nèi)各用戶在各網(wǎng)站中發(fā)布的各類型對應的信息,其數(shù)據(jù)格式為:spID#assetType#usercode ;
[0034]通過對上述數(shù)據(jù)進行降維處理,獲得所述目標用戶在所述目標時間范圍內(nèi),在所述目標網(wǎng)站中發(fā)布的各類型對應的信息的數(shù)量,其數(shù)據(jù)格式為spID#assetType#usercodenurn。
[0035]具體的,可以利用格式(key, value)進行降維處理,其中的value值為key值出現(xiàn)的次數(shù)。進一步的,為了更加直觀的理解本實施例的方案,現(xiàn)通過以下舉例進行說明,需要說明的是,以下舉例只是一種具體的實施方式,其并未對本實施例的其它實施方式進行限制。
[0036]假設當前需要統(tǒng)計在所述目標時間范圍內(nèi),用戶A在網(wǎng)站C中發(fā)布的類型為D的信息的數(shù)量,則可以將C#D#A作為key值,查詢在所述目標時間范圍內(nèi)各用戶在各網(wǎng)站中發(fā)布的各類型對應的信息。具體的,經(jīng)過上述操作,輸出數(shù)據(jù)的格式為C#D#A[1,1,...],其中,當key值每出現(xiàn)一次,則在[1,1,...]中記一個“I”。查詢完畢后,統(tǒng)計“ I”的個數(shù),即將key值出現(xiàn)的次數(shù)進行求和計算,獲得value值,也就是用戶A在所述目標時間范圍內(nèi)在網(wǎng)站C中,發(fā)布的類型為D的信息的數(shù)量。進一步的,輸出的結(jié)果數(shù)據(jù)為C#D#A num,其中,num為value 值。
[0037]103、針對每個所述類型對應的信息的平均數(shù)量,計算其與所述類型對應的預設權(quán)值的乘積,其中,所述各類型對應的權(quán)值之和為I。
[0038]具體的,不同類型的信息對于用戶活躍度的貢獻存在差異性,例如,原創(chuàng)、轉(zhuǎn)發(fā)和評論類型中,原創(chuàng)類型的信息更能反映用戶活躍度。因此,可以根據(jù)不同類型對用戶活躍度的影響,設定不同類型對應的權(quán)值。例如,假設所述類型包括原創(chuàng)、轉(zhuǎn)發(fā)和評論類型,原創(chuàng)類型對應的權(quán)值為0.7,轉(zhuǎn)發(fā)類型對應的權(quán)值為0.2,評論類型對應的權(quán)值為0.1。則相應的,假設用戶在所述目標時間范圍內(nèi)在所述目標網(wǎng)站中發(fā)布的原創(chuàng)、轉(zhuǎn)發(fā)和評論類型對應的信息的平均數(shù)量分別為30,20,10,則原創(chuàng)類型對應的乘積為0.7X30=21,轉(zhuǎn)發(fā)類型對應的乘積為0.2 X 20=4,評論類型對應的乘積為0.1 X 10=1。
[0039]104、計算所述各類型對應的乘積之和,獲得所述用戶在所述目標時間范圍內(nèi)相對于所述目標網(wǎng)站的用戶活躍度。
[0040]具體的,在上述舉例中,所述用戶在所述目標時間范圍
當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1