亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

數(shù)據(jù)處理方法和裝置制造方法

文檔序號(hào):6638913閱讀:157來源:國知局
數(shù)據(jù)處理方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種數(shù)據(jù)處理方法和裝置。其中,該數(shù)據(jù)處理方法包括:抽取多個(gè)用戶的日志文件中的用戶標(biāo)識(shí),得到多個(gè)用戶標(biāo)識(shí);按照預(yù)設(shè)規(guī)則對(duì)多個(gè)用戶標(biāo)識(shí)進(jìn)行排序;按順序?qū)ε判蚝蟮亩鄠€(gè)用戶標(biāo)識(shí)添加序號(hào);將序號(hào)與多個(gè)用戶標(biāo)識(shí)進(jìn)行映射,得到用戶的映射標(biāo)識(shí)。通過本發(fā)明,解決了現(xiàn)有技術(shù)中將日志文件中的用戶標(biāo)識(shí)映射為整數(shù)時(shí)不準(zhǔn)確的問題,達(dá)到了準(zhǔn)確將日志文件的用戶標(biāo)識(shí)映射為整數(shù)的效果。
【專利說明】數(shù)據(jù)處理方法和裝置

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域,具體而言,涉及一種數(shù)據(jù)處理方法和裝置。

【背景技術(shù)】
[0002] 推薦系統(tǒng)越來越多的被各個(gè)網(wǎng)站使用,推薦系統(tǒng)的數(shù)據(jù)源一般是日志文件。在常 用的日志文件中包含了大量的用戶歷史行為數(shù)據(jù),推薦系統(tǒng)根據(jù)用戶歷史行為數(shù)據(jù)位用戶 提供推薦信息。在提供推薦信息時(shí),首先要根據(jù)用戶的標(biāo)識(shí)識(shí)別出用戶的身份,由于每個(gè)網(wǎng) 站生成的日志文件中記載用戶標(biāo)識(shí)的方式不存在統(tǒng)一的規(guī)范,導(dǎo)致日志文件中沒有標(biāo)準(zhǔn)的 用戶標(biāo)識(shí)字段,一般是自定義的字符串。而對(duì)于推薦引擎的算法庫來說,這種自定義的字符 串會(huì)降低推薦的效率,基于對(duì)性能和處理復(fù)雜度的考慮,在進(jìn)行推薦時(shí)需要輸入一個(gè)整數(shù) 類型的用戶標(biāo)識(shí)。
[0003] 現(xiàn)有技術(shù)可以通過哈希算法將自定義的字符串標(biāo)識(shí)映射為整數(shù),但是,不同的字 符串經(jīng)過哈希算法映射的整數(shù)可能相同,因此導(dǎo)致一個(gè)整數(shù)所對(duì)應(yīng)的用戶標(biāo)識(shí)不唯一,造 成數(shù)據(jù)處理不準(zhǔn)確。
[0004] 針對(duì)現(xiàn)有技術(shù)將日志文件中的用戶標(biāo)識(shí)映射為整數(shù)時(shí)不準(zhǔn)確的問題,目前尚未提 出有效的解決方案。


【發(fā)明內(nèi)容】

[0005] 本發(fā)明的主要目的在于提供一種數(shù)據(jù)處理方法和裝置,以解決現(xiàn)有技術(shù)將日志文 件中的用戶標(biāo)識(shí)映射為整數(shù)時(shí)不準(zhǔn)確的問題。
[0006] 為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供了一種數(shù)據(jù)處理方法。根 據(jù)本發(fā)明的數(shù)據(jù)處理方法包括:抽取多個(gè)用戶的日志文件中的用戶標(biāo)識(shí),得到多個(gè)用戶標(biāo) 識(shí),其中,每個(gè)用戶包括一個(gè)用戶標(biāo)識(shí);按照預(yù)設(shè)規(guī)則對(duì)所述多個(gè)用戶標(biāo)識(shí)進(jìn)行排序;按順 序?qū)ε判蚝蟮乃龆鄠€(gè)用戶標(biāo)識(shí)添加序號(hào);將所述序號(hào)與所述多個(gè)用戶標(biāo)識(shí)進(jìn)行映射,得 到所述用戶的映射標(biāo)識(shí)。
[0007] 進(jìn)一步地,在按照預(yù)設(shè)規(guī)則對(duì)所述多個(gè)用戶標(biāo)識(shí)進(jìn)行排序之前,所述方法還包括: 獲取記錄有所述序號(hào)和所述映射標(biāo)識(shí)的映射表和待映射用戶標(biāo)識(shí);從所述映射中查找所述 待映射用戶標(biāo)識(shí);判斷所述待映射用戶標(biāo)識(shí)是否存在于所述映射表中;如果判斷出所述待 映射用戶標(biāo)識(shí)存在于所述映射表中,則將所述待映射用戶標(biāo)識(shí)映射為查找到的用戶標(biāo)識(shí)所 對(duì)應(yīng)的映射標(biāo)識(shí);如果判斷出所述待映射用戶標(biāo)識(shí)不存在于所述映射表中,則確定對(duì)所述 待映射用戶標(biāo)識(shí)進(jìn)行排序。
[0008] 進(jìn)一步地,如果判斷出所述待映射用戶標(biāo)識(shí)不存在于所述映射表中,則確定對(duì)所 述用戶標(biāo)識(shí)進(jìn)行排序包括:獲取所述映射表中的用戶標(biāo)識(shí);將所述映射表中的所述用戶標(biāo) 識(shí)和所述待映射用戶標(biāo)識(shí)一起進(jìn)行排序。
[0009] 進(jìn)一步地,在將所述待映射用戶標(biāo)識(shí)映射為查找到的用戶標(biāo)識(shí)所對(duì)應(yīng)的映射標(biāo)識(shí) 之后,所述方法還包括:將所述待映射用戶標(biāo)識(shí)更新到所述映射表中。
[0010] 進(jìn)一步地,按照預(yù)設(shè)規(guī)則對(duì)所述用戶標(biāo)識(shí)進(jìn)行排序包括:獲取待映射用戶標(biāo)識(shí)所 在的日志文件中的時(shí)間信息;按照所述時(shí)間信息對(duì)所述用戶標(biāo)識(shí)進(jìn)行排序,得到排序后的 用戶標(biāo)識(shí);以及按照所述預(yù)設(shè)規(guī)則對(duì)所述排序后的用戶標(biāo)識(shí)進(jìn)行排序。
[0011] 為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明實(shí)施例的另一方面,提供了一種數(shù)據(jù)處理裝置。根 據(jù)本發(fā)明的數(shù)據(jù)處理裝置包括:抽取單元,用于抽取多個(gè)用戶的日志文件中的用戶標(biāo)識(shí),得 到多個(gè)用戶標(biāo)識(shí),其中,每個(gè)用戶包括一個(gè)用戶標(biāo)識(shí);排序單元,用于按照預(yù)設(shè)規(guī)則對(duì)所述 多個(gè)用戶標(biāo)識(shí)進(jìn)行排序;添加單元,用于按順序?qū)ε判蚝蟮乃龆鄠€(gè)用戶標(biāo)識(shí)添加序號(hào); 映射單元,用于將所述序號(hào)與所述多個(gè)用戶標(biāo)識(shí)進(jìn)行映射,得到所述用戶的映射標(biāo)識(shí)。
[0012] 進(jìn)一步地,所述裝置還包括:獲取單元,用于在按照預(yù)設(shè)規(guī)則對(duì)所述多個(gè)用戶標(biāo)識(shí) 進(jìn)行排序之前,獲取記錄有所述序號(hào)和所述映射標(biāo)識(shí)的映射表和待映射用戶標(biāo)識(shí);查找單 元,用于從所述映射中查找所述待映射用戶標(biāo)識(shí);判斷單元,用于判斷所述待映射用戶標(biāo)識(shí) 是否存在于所述映射表中;確定單元,用于在判斷出所述待映射用戶標(biāo)識(shí)存在于所述映射 表中時(shí),將所述待映射用戶標(biāo)識(shí)映射為查找到的用戶標(biāo)識(shí)所對(duì)應(yīng)的映射標(biāo)識(shí);在判斷出所 述待映射用戶標(biāo)識(shí)不存在于所述映射表中時(shí),確定對(duì)所述待映射用戶標(biāo)識(shí)進(jìn)行排序。
[0013] 進(jìn)一步地,所述確定單元包括:第一獲取模塊,用于獲取所述映射表中的用戶標(biāo) 識(shí);第一排序模塊,用于將所述映射表中的所述用戶標(biāo)識(shí)和所述待映射用戶標(biāo)識(shí)一起進(jìn)行 排序。
[0014] 進(jìn)一步地,所述裝置還包括:更新單元,用于在將所述待映射用戶標(biāo)識(shí)映射為查找 到的用戶標(biāo)識(shí)所對(duì)應(yīng)的映射標(biāo)識(shí)之后,將所述待映射用戶標(biāo)識(shí)更新到所述映射表中。
[0015] 進(jìn)一步地,所述排序單元包括:第二獲取模塊,用于獲取待映射用戶標(biāo)識(shí)所在的日 志文件中的時(shí)間信息;第二排序模塊,用于按照所述時(shí)間信息對(duì)所述用戶標(biāo)識(shí)進(jìn)行排序,得 到排序后的用戶標(biāo)識(shí);以及第三排序模塊,用于按照所述預(yù)設(shè)規(guī)則對(duì)所述排序后的用戶標(biāo) 識(shí)進(jìn)行排序。
[0016] 根據(jù)發(fā)明實(shí)施例,通過抽取多個(gè)用戶的日志文件中的用戶標(biāo)識(shí),得到多個(gè)用戶標(biāo) 識(shí);按照預(yù)設(shè)規(guī)則對(duì)多個(gè)用戶標(biāo)識(shí)進(jìn)行排序;按順序?qū)ε判蚝蟮亩鄠€(gè)用戶標(biāo)識(shí)添加序號(hào); 將序號(hào)與多個(gè)用戶標(biāo)識(shí)進(jìn)行映射,得到用戶的映射標(biāo)識(shí),即提取用戶標(biāo)識(shí)之后,對(duì)用戶標(biāo)識(shí) 進(jìn)行排序,將排序的序號(hào)作為這多個(gè)用戶標(biāo)識(shí)的新的標(biāo)識(shí),由于序號(hào)為整數(shù),也就是實(shí)現(xiàn)了 將不規(guī)則的用戶標(biāo)識(shí)映射為規(guī)則的整數(shù),解決了現(xiàn)有技術(shù)中將日志文件中的用戶標(biāo)識(shí)映射 為整數(shù)時(shí)不準(zhǔn)確的問題,達(dá)到了準(zhǔn)確將日志文件的用戶標(biāo)識(shí)映射為整數(shù)的效果。

【專利附圖】

【附圖說明】
[0017] 構(gòu)成本申請(qǐng)的一部分的附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解,本發(fā)明的示意性實(shí) 施例及其說明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
[0018] 圖1是根據(jù)本發(fā)明實(shí)施例的數(shù)據(jù)處理方法的流程圖;以及
[0019] 圖2是根據(jù)本發(fā)明實(shí)施例的數(shù)據(jù)處理裝置的示意圖。

【具體實(shí)施方式】
[0020] 需要說明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相 互組合。下面將參考附圖并結(jié)合實(shí)施例來詳細(xì)說明本發(fā)明。
[0021] 為了使本【技術(shù)領(lǐng)域】的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實(shí)施例中的 附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是 本發(fā)明一部分的實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù) 人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范 圍。
[0022] 需要說明的是,本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語"第一"、"第 二"等是用于區(qū)別類似的對(duì)象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使 用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實(shí)施例。此外,術(shù)語"包括"和 "具有"以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元 的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒有 清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。
[0023] 本發(fā)明實(shí)施例提供了一種數(shù)據(jù)處理方法。該數(shù)據(jù)處理方法能夠在利用用戶的日志 文件進(jìn)行數(shù)據(jù)分析時(shí),將不規(guī)則的、自定義的用戶標(biāo)識(shí)映射為整數(shù),并且,每個(gè)用戶標(biāo)識(shí)僅 對(duì)應(yīng)一個(gè)整數(shù),一個(gè)整數(shù)可以對(duì)應(yīng)具有相同的用戶標(biāo)識(shí)的多個(gè)日志文件。通過該方法,能夠 實(shí)現(xiàn)用戶標(biāo)識(shí)到整數(shù)的映射,使得進(jìn)行的例如新聞推薦等與用戶標(biāo)識(shí)相關(guān)的動(dòng)作時(shí),減少 處理用戶標(biāo)識(shí)所占用的內(nèi)存資源,提高了數(shù)據(jù)處理的效率。
[0024] 圖1是根據(jù)本發(fā)明實(shí)施例的數(shù)據(jù)處理方法的流程圖。如圖1所示,該數(shù)據(jù)處理方 法包括步驟如下:
[0025] 步驟S102,抽取多個(gè)用戶的日志文件中的用戶標(biāo)識(shí),得到多個(gè)用戶標(biāo)識(shí),其中,每 個(gè)用戶擁有一個(gè)用戶標(biāo)識(shí);
[0026] 每個(gè)用戶只有一個(gè)用戶標(biāo)識(shí),對(duì)抽取多個(gè)日志文件中的用戶標(biāo)識(shí)進(jìn)行去重,對(duì)去 重后的用戶標(biāo)識(shí)保存在一個(gè)文件中,即該文件中不包含重復(fù)的用戶標(biāo)識(shí)。
[0027] 步驟S104,按照預(yù)設(shè)規(guī)則對(duì)多個(gè)用戶標(biāo)識(shí)進(jìn)行排序;
[0028] 步驟S106,按順序?qū)ε判蚝蟮亩鄠€(gè)用戶標(biāo)識(shí)添加序號(hào);
[0029] 步驟S108,將序號(hào)與多個(gè)用戶標(biāo)識(shí)進(jìn)行映射,得到用戶的映射標(biāo)識(shí)。
[0030] 在進(jìn)行數(shù)據(jù)分析時(shí)需要獲取日志文件,可以采用Impala提取日志文件中的用戶 標(biāo)識(shí),得到多個(gè)用戶標(biāo)識(shí)??梢园凑兆帜傅捻樞?qū)Χ鄠€(gè)用戶標(biāo)識(shí)進(jìn)行排序,對(duì)排序后的用戶 標(biāo)識(shí)添加序號(hào),這個(gè)添加的序號(hào)就可以作為用戶標(biāo)識(shí)的映射標(biāo)識(shí)。添加的序號(hào)是整數(shù),也就 實(shí)現(xiàn)了將不規(guī)則的用戶標(biāo)識(shí)映射為整數(shù)。需要說明的是,抽取用戶標(biāo)識(shí)時(shí)還可以采用hive、 pig等技術(shù)來實(shí)現(xiàn),并不局限于impala。
[0031] 例如,抽取了 100個(gè)日志文件中的用戶標(biāo)識(shí),去除其中重復(fù)的用戶標(biāo)識(shí),得到90個(gè) 用戶標(biāo)識(shí),對(duì)著90個(gè)用戶標(biāo)識(shí)進(jìn)行排序,那么每個(gè)用戶標(biāo)識(shí)都有一個(gè)序號(hào),這個(gè)序號(hào)就作 為這個(gè)用戶標(biāo)識(shí)的新的標(biāo)識(shí),即用戶的映射標(biāo)識(shí)。
[0032] 通過上述實(shí)施例,提取用戶標(biāo)識(shí)之后,對(duì)用戶標(biāo)識(shí)進(jìn)行排序,將排序的序號(hào)作為這 多個(gè)用戶標(biāo)識(shí)的新的標(biāo)識(shí),由于序號(hào)為整數(shù),也就是實(shí)現(xiàn)了將不規(guī)則的用戶標(biāo)識(shí)映射為規(guī) 則的整數(shù),解決了現(xiàn)有技術(shù)中將日志文件中的用戶標(biāo)識(shí)映射為整數(shù)時(shí)不準(zhǔn)確的問題,達(dá)到 了準(zhǔn)確講日志文件的用戶標(biāo)識(shí)映射為整數(shù)的效果。
[0033] 優(yōu)選地,在得到用戶的映射標(biāo)識(shí)后,可以將這些映射標(biāo)識(shí)和用戶標(biāo)識(shí)存儲(chǔ)在映射 表中,在已經(jīng)存在映射表的情況下,可以將新的待映射用戶標(biāo)識(shí)添加到已有的映射表中,即 在按照預(yù)設(shè)規(guī)則對(duì)多個(gè)用戶標(biāo)識(shí)進(jìn)行排序之前,該方法還包括:獲取記錄有序號(hào)和映射標(biāo) 識(shí)的映射表和待映射用戶標(biāo)識(shí);從映射中查找待映射用戶標(biāo)識(shí);判斷待映射用戶標(biāo)識(shí)是否 存在于映射表中;如果判斷出待映射用戶標(biāo)識(shí)存在于映射表中,則將待映射用戶標(biāo)識(shí)映射 為查找到的用戶標(biāo)識(shí)所對(duì)應(yīng)的映射標(biāo)識(shí);如果判斷出待映射用戶標(biāo)識(shí)不存在于映射表中, 則確定對(duì)待映射用戶標(biāo)識(shí)進(jìn)行排序。
[0034] 如果已經(jīng)存在映射表,為了避免映射表中相同的用戶標(biāo)識(shí)對(duì)應(yīng)不同的序號(hào),在對(duì) 新的待映射用戶標(biāo)識(shí)進(jìn)行映射時(shí),判斷已有的映射表中是否有該待映射用戶標(biāo)識(shí),如果有, 則直接將該待映射用戶標(biāo)識(shí)映射到已有的映射標(biāo)識(shí)上;如果沒有改待映射用戶標(biāo)識(shí),則對(duì) 待映射用戶標(biāo)識(shí)進(jìn)行排列,以得到新的待映射用戶標(biāo)識(shí)的序號(hào),即映射標(biāo)識(shí)。
[0035] 具體地,在對(duì)新的待映射標(biāo)識(shí)進(jìn)行排序時(shí),需要和已有的映射表中的所有的用戶 標(biāo)識(shí)一起排序,即獲取映射表中的用戶標(biāo)識(shí);將映射表中的用戶標(biāo)識(shí)和待映射用戶標(biāo)識(shí)一 起進(jìn)行排序。
[0036] 具體地,在將待映射用戶標(biāo)識(shí)映射為查找到的用戶標(biāo)識(shí)所對(duì)應(yīng)的映射標(biāo)識(shí)之后, 方法還包括:將待映射用戶標(biāo)識(shí)更新到映射表中。
[0037] 例如,已有的映射表如表1所示。表1中記錄了用戶標(biāo)識(shí)A、B、C、D、F、G和相應(yīng) 的序號(hào)1、2、3、4、5、6,當(dāng)新的待映射標(biāo)識(shí)為C時(shí),從表1中查找到用戶標(biāo)識(shí)C,那么新的待映 射標(biāo)識(shí)C的映射標(biāo)識(shí)為表1中用戶標(biāo)識(shí)C對(duì)應(yīng)的3,也就完成了自定義用戶標(biāo)識(shí)到整數(shù)的 映射;當(dāng)新的待映射標(biāo)識(shí)為E時(shí),從表1沒有查找該用戶標(biāo)識(shí),則對(duì)表1中的A、B、C、D、F、 G和新的待映射標(biāo)識(shí)E進(jìn)行排序,得到的順序及每個(gè)用戶標(biāo)識(shí)所對(duì)應(yīng)的映射標(biāo)識(shí)如表2所 示,即已經(jīng)被映射的用戶標(biāo)識(shí)的序號(hào)不再改變,按順序?qū)π碌拇成錁?biāo)識(shí)進(jìn)行排序,也就完 成了自定義用戶標(biāo)識(shí)到整數(shù)的映射。在新的待映射標(biāo)識(shí)E映射結(jié)束后,得到了新的映射表, 該表中記錄了每個(gè)序號(hào)所對(duì)應(yīng)的用戶標(biāo)識(shí)。

【權(quán)利要求】
1. 一種數(shù)據(jù)處理方法,其特征在于,包括: 抽取多個(gè)用戶的日志文件中的用戶標(biāo)識(shí),得到多個(gè)用戶標(biāo)識(shí),其中,每個(gè)用戶包括一個(gè) 用戶標(biāo)識(shí); 按照預(yù)設(shè)規(guī)則對(duì)所述多個(gè)用戶標(biāo)識(shí)進(jìn)行排序; 按順序?qū)ε判蚝蟮乃龆鄠€(gè)用戶標(biāo)識(shí)添加序號(hào); 將所述序號(hào)與所述多個(gè)用戶標(biāo)識(shí)進(jìn)行映射,得到所述用戶的映射標(biāo)識(shí)。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,在按照預(yù)設(shè)規(guī)則對(duì)所述多個(gè)用戶標(biāo)識(shí)進(jìn) 行排序之前,所述方法還包括: 獲取記錄有所述序號(hào)和所述映射標(biāo)識(shí)的映射表和待映射用戶標(biāo)識(shí); 從所述映射中查找所述待映射用戶標(biāo)識(shí); 判斷所述待映射用戶標(biāo)識(shí)是否存在于所述映射表中; 如果判斷出所述待映射用戶標(biāo)識(shí)存在于所述映射表中,則將所述待映射用戶標(biāo)識(shí)映射 為查找到的用戶標(biāo)識(shí)所對(duì)應(yīng)的映射標(biāo)識(shí); 如果判斷出所述待映射用戶標(biāo)識(shí)不存在于所述映射表中,則確定對(duì)所述待映射用戶標(biāo) 識(shí)進(jìn)行排序。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,如果判斷出所述待映射用戶標(biāo)識(shí)不存在 于所述映射表中,則確定對(duì)所述用戶標(biāo)識(shí)進(jìn)行排序包括: 獲取所述映射表中的用戶標(biāo)識(shí); 將所述映射表中的所述用戶標(biāo)識(shí)和所述待映射用戶標(biāo)識(shí)一起進(jìn)行排序。
4. 根據(jù)權(quán)利要求2所述的方法,其特征在于,在將所述待映射用戶標(biāo)識(shí)映射為查找到 的用戶標(biāo)識(shí)所對(duì)應(yīng)的映射標(biāo)識(shí)之后,所述方法還包括: 將所述待映射用戶標(biāo)識(shí)更新到所述映射表中。
5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,按照預(yù)設(shè)規(guī)則對(duì)所述用戶標(biāo)識(shí)進(jìn)行排序 包括: 獲取待映射用戶標(biāo)識(shí)所在的日志文件中的時(shí)間信息; 按照所述時(shí)間信息對(duì)所述用戶標(biāo)識(shí)進(jìn)行排序,得到排序后的用戶標(biāo)識(shí);以及 按照所述預(yù)設(shè)規(guī)則對(duì)所述排序后的用戶標(biāo)識(shí)進(jìn)行排序。
6. -種數(shù)據(jù)處理裝置,其特征在于,包括: 抽取單元,用于抽取多個(gè)用戶的日志文件中的用戶標(biāo)識(shí),得到多個(gè)用戶標(biāo)識(shí),其中,每 個(gè)用戶包括一個(gè)用戶標(biāo)識(shí); 排序單元,用于按照預(yù)設(shè)規(guī)則對(duì)所述多個(gè)用戶標(biāo)識(shí)進(jìn)行排序; 添加單元,用于按順序?qū)ε判蚝蟮乃龆鄠€(gè)用戶標(biāo)識(shí)添加序號(hào); 映射單元,用于將所述序號(hào)與所述多個(gè)用戶標(biāo)識(shí)進(jìn)行映射,得到所述用戶的映射標(biāo)識(shí)。
7. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述裝置還包括: 獲取單元,用于在按照預(yù)設(shè)規(guī)則對(duì)所述多個(gè)用戶標(biāo)識(shí)進(jìn)行排序之前,獲取記錄有所述 序號(hào)和所述映射標(biāo)識(shí)的映射表和待映射用戶標(biāo)識(shí); 查找單元,用于從所述映射中查找所述待映射用戶標(biāo)識(shí); 判斷單元,用于判斷所述待映射用戶標(biāo)識(shí)是否存在于所述映射表中; 確定單元,用于在判斷出所述待映射用戶標(biāo)識(shí)存在于所述映射表中時(shí),將所述待映射 用戶標(biāo)識(shí)映射為查找到的用戶標(biāo)識(shí)所對(duì)應(yīng)的映射標(biāo)識(shí);在判斷出所述待映射用戶標(biāo)識(shí)不存 在于所述映射表中時(shí),確定對(duì)所述待映射用戶標(biāo)識(shí)進(jìn)行排序。
8. 根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述確定單元包括: 第一獲取模塊,用于獲取所述映射表中的用戶標(biāo)識(shí); 第一排序模塊,用于將所述映射表中的所述用戶標(biāo)識(shí)和所述待映射用戶標(biāo)識(shí)一起進(jìn)行 排序。
9. 根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述裝置還包括: 更新單元,用于在將所述待映射用戶標(biāo)識(shí)映射為查找到的用戶標(biāo)識(shí)所對(duì)應(yīng)的映射標(biāo)識(shí) 之后,將所述待映射用戶標(biāo)識(shí)更新到所述映射表中。
10. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述排序單元包括: 第二獲取模塊,用于獲取待映射用戶標(biāo)識(shí)所在的日志文件中的時(shí)間信息; 第二排序模塊,用于按照所述時(shí)間信息對(duì)所述用戶標(biāo)識(shí)進(jìn)行排序,得到排序后的用戶 標(biāo)識(shí);以及 第三排序模塊,用于按照所述預(yù)設(shè)規(guī)則對(duì)所述排序后的用戶標(biāo)識(shí)進(jìn)行排序。
【文檔編號(hào)】G06F17/30GK104408188SQ201410779317
【公開日】2015年3月11日 申請(qǐng)日期:2014年12月15日 優(yōu)先權(quán)日:2014年12月15日
【發(fā)明者】王江偉 申請(qǐng)人:北京國雙科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1