一種實現(xiàn)網(wǎng)絡(luò)用戶分類的方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種實現(xiàn)網(wǎng)絡(luò)用戶分類的方法及裝置,包括:獲取用戶預(yù)設(shè)時長內(nèi)的上網(wǎng)日志信息;根據(jù)預(yù)設(shè)的無效條件刪除獲得的上網(wǎng)日志信息中影響用戶分類的無效訪問數(shù)據(jù);對刪除無效訪問數(shù)據(jù)后的上網(wǎng)日志信息進行統(tǒng)計,獲取各用戶訪問的各類網(wǎng)頁IP,根據(jù)確定的各網(wǎng)頁IP的用戶特征標準提取各用戶的相應(yīng)的所屬分類的用戶特征;根據(jù)提取的各用戶的所屬分類的用戶特征,確定用戶所屬的分類。本發(fā)明通過對影響用戶分類的無效訪問數(shù)據(jù)進行刪除及設(shè)定各類網(wǎng)頁IP相應(yīng)的訪問次數(shù)閾值和訪問時長閾值作為相應(yīng)的用戶特征標準,通過對用戶特征的統(tǒng)計和分類,實現(xiàn)對用戶所屬分類的確定,避免了無效的用戶訪問數(shù)據(jù)影響網(wǎng)絡(luò)用戶分類,提高了用戶需求分析的準確性。
【專利說明】一種實現(xiàn)網(wǎng)絡(luò)用戶分類的方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,尤指一種實現(xiàn)網(wǎng)絡(luò)用戶分類的方法及裝置。
【背景技術(shù)】
[0002]在互聯(lián)網(wǎng)競爭中,都在不斷的提升對用戶的服務(wù),提高用戶的體驗感知,這就需要對網(wǎng)絡(luò)用戶的喜好進行分類。從而更有效地了解用戶需求,能夠更加針對用戶來提供服務(wù)。
[0003]現(xiàn)有的一些網(wǎng)絡(luò)用戶分類方法,有基于用戶搜索狀態(tài)的分類,其只針對用戶搜索中用戶的行為方式,對用戶進行分類。通過獲取用戶瀏覽日志,統(tǒng)計瀏覽日志中的每個IP地址下的儲存在用戶本地終端上的數(shù)據(jù)(Cookie)數(shù),對Cookie數(shù)大于一個設(shè)定的閾值的IP地址進行劃分。在進行網(wǎng)絡(luò)用戶分類時,通過瀏覽記錄對用戶搜索行為的分析過程,對瀏覽記錄中存在的自動跳轉(zhuǎn)和無需搜索的鏈接等與用戶主動搜索無必然聯(lián)系的無效訪問數(shù)據(jù),并未進行有效的處理,對網(wǎng)絡(luò)用戶分類造成影響,無法準確的分析用戶需求。
【發(fā)明內(nèi)容】
[0004]為了解決上述技術(shù)問題,本發(fā)明公開了一種實現(xiàn)網(wǎng)絡(luò)用戶分類的方法及裝置,能夠避免無效的用戶訪問數(shù)據(jù)影響網(wǎng)絡(luò)用戶分類,提高用戶需求分析的準確性。
[0005]為了達到本發(fā)明的目的,本發(fā)明提供一種實現(xiàn)網(wǎng)絡(luò)用戶分類的方法,包括:
[0006]獲取用戶預(yù)設(shè)時長內(nèi)的上網(wǎng)日志信息;根據(jù)預(yù)設(shè)的無效條件刪除獲得的上網(wǎng)日志信息中影響用戶分類的無效訪問數(shù)據(jù);
[0007]對刪除無效訪問數(shù)據(jù)后的上網(wǎng)日志信息進行統(tǒng)計,獲取各用戶訪問的各類網(wǎng)頁IP,根據(jù)確定的各網(wǎng)頁IP的用戶特征標準提取各用戶的相應(yīng)的所屬分類的用戶特征;
[0008]根據(jù)提取的各用戶的所屬分類的用戶特征,確定用戶所屬的分類。
[0009]進一步地,該方法之前還包括:對各類網(wǎng)頁,確定用戶訪問其網(wǎng)頁IP相應(yīng)的、預(yù)設(shè)時長內(nèi)累計訪問次數(shù)的訪問次數(shù)閾值和預(yù)設(shè)時長內(nèi)累計訪問時長的訪問時長閾值,并設(shè)置同時滿足的訪問次數(shù)閾值和訪問時長閾值的上網(wǎng)日志信息為用戶特征標準。
[0010]進一步地,上網(wǎng)日志信息至少包括:用戶上網(wǎng)訪問的網(wǎng)頁IP地址、對各網(wǎng)頁IP地址的訪問次數(shù)和訪問時長、各網(wǎng)頁IP地址的上行數(shù)據(jù)量和下行數(shù)據(jù)量。
[0011]進一步地,預(yù)設(shè)的無效條件至少包含:
[0012]訪問時長小于預(yù)設(shè)數(shù)值的上網(wǎng)日志信息;和,
[0013]上行數(shù)據(jù)量和下行數(shù)據(jù)量小于預(yù)設(shè)數(shù)值的上網(wǎng)日志信息。
[0014]另一方面,本申請還提供一種實現(xiàn)網(wǎng)絡(luò)用戶分類的裝置,包括:獲取單元、刪除單元、設(shè)定特征單元、特征提取單元及分類確定單元;其中,
[0015]獲取及處理單元,用于獲取用戶預(yù)設(shè)時長內(nèi)的上網(wǎng)日志信息,并根據(jù)預(yù)設(shè)的無效條件刪除上網(wǎng)日志信息中影響用戶分類的無效訪問數(shù)據(jù);
[0016]特征提取單元、對刪除無效訪問數(shù)據(jù)后的上網(wǎng)日志信息進行統(tǒng)計,獲取各用戶訪問的各類網(wǎng)頁IP,根據(jù)確定的各網(wǎng)頁IP的用戶特征標準提取各用戶的相應(yīng)的所屬分類的用戶特征;
[0017]分類確定單元,用于根據(jù)提取的各用戶的所屬分類的用戶特征,確定用戶所屬的分類。
[0018]進一步地,該裝置還包括設(shè)定特征單元,用于對各類網(wǎng)頁確定用戶訪問其網(wǎng)頁IP相應(yīng)的、預(yù)設(shè)時長內(nèi)累計訪問次數(shù)的訪問次數(shù)閾值和預(yù)設(shè)時長內(nèi)累計訪問時長的訪問時長閾值,并設(shè)置同時滿足訪問次數(shù)閾值和訪問時長閾值的上網(wǎng)日志信息為用戶特征標準。
[0019]進一步地,上網(wǎng)日志信息至少包括:用戶上網(wǎng)訪問的網(wǎng)頁IP地址、對各網(wǎng)頁IP地址的訪問次數(shù)和訪問時長、各網(wǎng)頁IP地址的上行數(shù)據(jù)量和下行數(shù)據(jù)量。
[0020]進一步地,獲取及處理單元具體用于:獲取用戶預(yù)設(shè)時長內(nèi)的上網(wǎng)日志信息,
[0021]刪除上網(wǎng)日志信息中包含有訪問時長小于預(yù)設(shè)數(shù)值的網(wǎng)頁IP地址的上網(wǎng)日志信息;和,
[0022]刪除上網(wǎng)日志信息中,訪問的網(wǎng)頁IP地址中,上行數(shù)據(jù)量和下行數(shù)據(jù)量小于預(yù)設(shè)數(shù)值的上網(wǎng)日志信息。
[0023]與現(xiàn)有技術(shù)相比,本發(fā)明提供的技術(shù)方案包括:獲取用戶預(yù)設(shè)時長內(nèi)的上網(wǎng)日志信息;根據(jù)預(yù)設(shè)的無效條件刪除獲得的上網(wǎng)日志信息中影響用戶分類的無效訪問數(shù)據(jù);對刪除無效訪問數(shù)據(jù)后的上網(wǎng)日志信息進行統(tǒng)計,獲取各用戶訪問的各類網(wǎng)頁IP,根據(jù)確定的各網(wǎng)頁IP的用戶特征標準提取各用戶的相應(yīng)的所屬分類的用戶特征;根據(jù)提取的各用戶的所屬分類的用戶特征,確定用戶所屬的分類。本發(fā)明通過對影響用戶分類的無效訪問數(shù)據(jù)進行刪除及設(shè)定各類網(wǎng)頁IP相應(yīng)的訪問次數(shù)閾值和訪問時長閾值作為相應(yīng)的用戶特征標準,通過對用戶特征的統(tǒng)計和分類,實現(xiàn)對用戶所屬分類的確定,避免了無效的用戶訪問數(shù)據(jù)影響網(wǎng)絡(luò)用戶分類,提高了用戶需求分析的準確性。
【專利附圖】
【附圖說明】
[0024]此處所說明的附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
[0025]圖1為本發(fā)明實現(xiàn)網(wǎng)絡(luò)用戶分類的方法的流程圖;
[0026]圖2為本發(fā)明實現(xiàn)網(wǎng)絡(luò)用戶分類的裝置的結(jié)構(gòu)框圖。
【具體實施方式】
[0027]圖1為本發(fā)明實現(xiàn)網(wǎng)絡(luò)用戶分類的方法的流程圖,如圖1所示,包括:
[0028]步驟100、獲取用戶預(yù)設(shè)時長內(nèi)的上網(wǎng)日志信息;根據(jù)預(yù)設(shè)的無效條件刪除獲得的上網(wǎng)日志信息中影響用戶分類的無效訪問數(shù)據(jù)。
[0029]本步驟中,上網(wǎng)日志信息至少包括:用戶上網(wǎng)訪問的網(wǎng)頁IP地址、對各網(wǎng)頁IP地址的訪問次數(shù)和訪問時長、各網(wǎng)頁IP地址的上行數(shù)據(jù)量和下行數(shù)據(jù)量。預(yù)設(shè)的無效條件至少包括:訪問時長小于預(yù)設(shè)數(shù)值的上網(wǎng)日志信息;和,上行數(shù)據(jù)量和下行數(shù)據(jù)量小于預(yù)設(shè)數(shù)值的上網(wǎng)日志信息。
[0030]需要說明的是,獲取上網(wǎng)日志信息的方法,為數(shù)據(jù)分析領(lǐng)域慣用的技術(shù)手段。另夕卜,預(yù)設(shè)時長是指根據(jù)網(wǎng)絡(luò)用戶分類設(shè)定的要求進行確定的時長,一般有固定的周期,例如3天。
[0031]本發(fā)明方法之前還包括:對各類網(wǎng)頁,確定用戶訪問其網(wǎng)頁IP相應(yīng)的、預(yù)設(shè)時長內(nèi)累計訪問次數(shù)的訪問次數(shù)閾值和預(yù)設(shè)時長內(nèi)累計訪問時長的訪問時長閾值,并設(shè)置同時滿足的訪問次數(shù)閾值和訪問時長閾值的上網(wǎng)日志信息為用戶特征標準。
[0032]需要說明的是,這里,各類網(wǎng)頁IP是指本領(lǐng)域技術(shù)人員根據(jù)分析需求設(shè)定的網(wǎng)頁分類的IP,例如新聞類網(wǎng)頁,購物類網(wǎng)頁、視頻類網(wǎng)頁等相應(yīng)的IP,根據(jù)不同的分析需求,分類方式可以不同。設(shè)定訪問各類網(wǎng)頁IP相應(yīng)的訪問次數(shù)閾值和訪問時長閾值,仍以3天時長為例,對于訪問視頻類IP的訪問次數(shù)閾值,可以擬定為4次,訪問時長閾值為累計達到15分鐘;
[0033]對于訪問社交類IP的訪問次數(shù)閾值可以擬定為7次,訪問時長閾值為累計達到135分鐘。具體的,可以根據(jù)實際情況進行調(diào)整。
[0034]步驟101、對刪除無效訪問數(shù)據(jù)后的上網(wǎng)日志信息進行統(tǒng)計,獲取各用戶訪問的各類網(wǎng)頁IP,根據(jù)確定的各網(wǎng)頁IP的用戶特征標準提取各用戶的相應(yīng)的所屬分類的用戶特征;
[0035]需要說明的是,對用戶訪問的各類網(wǎng)頁IP進行統(tǒng)計是指采用現(xiàn)有的統(tǒng)計方法進行實現(xiàn),例如X2統(tǒng)計法(CHI),對各用戶訪問的各類網(wǎng)頁IP進行統(tǒng)計后,提取用戶的相應(yīng)的用戶特征也屬于本領(lǐng)域技術(shù)人員的慣用技術(shù)手段,在此不再贅述。
[0036]當(dāng)設(shè)定訪問視頻類IP的訪問次數(shù)閾值為4次,訪問時長閾值為15分鐘;對于用于訪問次數(shù)為16,訪問時長為30分鐘,則提取的用戶所屬分類的用戶特征信息是該用戶為視頻類IP用戶。
[0037]步驟102、根據(jù)提取的各用戶的所屬分類的用戶特征,確定用戶所屬的分類。
[0038]需要說明的是,這里,根據(jù)用戶所屬分類的用戶特征可以直接確定用戶所屬分類;即,如果提取的用戶的所屬分類的用戶特征包含有視頻類IP用戶和購物類IP用戶,則確定用戶所屬分類為視頻類用戶和購物類用戶。
[0039]本發(fā)明通過對影響用戶分類的無效訪問數(shù)據(jù)進行刪除及設(shè)定各類網(wǎng)頁IP相應(yīng)的訪問次數(shù)閾值和訪問時長閾值作為相應(yīng)的用戶特征標準,通過對用戶特征的統(tǒng)計和分類,實現(xiàn)對用戶所屬分類的確定,避免了無效的用戶訪問數(shù)據(jù)影響網(wǎng)絡(luò)用戶分類,提高了用戶需求分析的準確性。
[0040]圖2為本發(fā)明實現(xiàn)網(wǎng)絡(luò)用戶分類的裝置的結(jié)構(gòu)框圖,如圖2所示,包括:獲取及處理單元、特征提取單元及分類確定單元;其中,
[0041]獲取及處理單元,用于獲取用戶預(yù)設(shè)時長內(nèi)的上網(wǎng)日志信息,并根據(jù)預(yù)設(shè)的無效條件刪除上網(wǎng)日志信息中影響用戶分類的無效訪問數(shù)據(jù)。這里,上網(wǎng)日志信息至少包括:用戶上網(wǎng)訪問的網(wǎng)頁IP地址、對各網(wǎng)頁IP地址的訪問次數(shù)和訪問時長、各網(wǎng)頁IP地址的上行數(shù)據(jù)量和下行數(shù)據(jù)量。
[0042]獲取及處理單元具體用于:獲取用戶預(yù)設(shè)時長內(nèi)的上網(wǎng)日志信息,
[0043]刪除上網(wǎng)日志信息中包含有訪問時長小于預(yù)設(shè)數(shù)值的網(wǎng)頁IP地址的上網(wǎng)日志信息;和,
[0044]刪除上網(wǎng)日志信息中,訪問的網(wǎng)頁IP地址中,上行數(shù)據(jù)量和下行數(shù)據(jù)量小于預(yù)設(shè)數(shù)值的上網(wǎng)日志信息。
[0045]本發(fā)明裝置還包括設(shè)定特征單元,用于對各類網(wǎng)頁,確定用戶訪問其網(wǎng)頁IP相應(yīng)的、預(yù)設(shè)時長內(nèi)累計訪問次數(shù)的訪問次數(shù)閾值和預(yù)設(shè)時長內(nèi)累計訪問時長的訪問時長閾值,并設(shè)置同時滿足訪問次數(shù)閾值和訪問時長閾值的上網(wǎng)日志信息為用戶特征標準。
[0046]特征提取單元、對刪除無效訪問數(shù)據(jù)后的上網(wǎng)日志信息進行統(tǒng)計,獲取各用戶訪問的各類網(wǎng)頁IP,根據(jù)確定的各網(wǎng)頁IP的用戶特征標準提取各用戶的相應(yīng)的所屬分類的用戶特征;
[0047]分類確定單元,用于根據(jù)提取的各用戶的所屬分類的用戶特征,確定用戶所屬的分類。
[0048]以上所述,僅為本發(fā)明的較佳實例而已,并非用于限定本發(fā)明的保護范圍。對于本申請發(fā)明中以上實施例只是針對優(yōu)選方式來對本發(fā)明進行陳述。其實現(xiàn)手段可以采用類似的方法進行替換等,根據(jù)實際情況可以做適當(dāng)調(diào)整。凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
【權(quán)利要求】
1.一種實現(xiàn)網(wǎng)絡(luò)用戶分類的方法,其特征在于,包括: 獲取用戶預(yù)設(shè)時長內(nèi)的上網(wǎng)日志信息;根據(jù)預(yù)設(shè)的無效條件刪除獲得的上網(wǎng)日志信息中影響用戶分類的無效訪問數(shù)據(jù); 對刪除無效訪問數(shù)據(jù)后的上網(wǎng)日志信息進行統(tǒng)計,獲取各用戶訪問的各類網(wǎng)頁IP,根據(jù)確定的各網(wǎng)頁IP的用戶特征標準提取各用戶的相應(yīng)的所屬分類的用戶特征; 根據(jù)提取的各用戶的所屬分類的用戶特征,確定用戶所屬的分類。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,該方法之前還包括:對各類網(wǎng)頁,確定用戶訪問其網(wǎng)頁IP相應(yīng)的、預(yù)設(shè)時長內(nèi)累計訪問次數(shù)的訪問次數(shù)閾值和預(yù)設(shè)時長內(nèi)累計訪問時長的訪問時長閾值,并設(shè)置同時滿足的訪問次數(shù)閾值和訪問時長閾值的上網(wǎng)日志信息為用戶特征標準。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述上網(wǎng)日志信息至少包括:用戶上網(wǎng)訪問的網(wǎng)頁IP地址、對各網(wǎng)頁IP地址的訪問次數(shù)和訪問時長、各網(wǎng)頁IP地址的上行數(shù)據(jù)量和下行數(shù)據(jù)量。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述預(yù)設(shè)的無效條件至少包含: 訪問時長小于預(yù)設(shè)數(shù)值的上網(wǎng)日志信息;和, 上行數(shù)據(jù)量和下行數(shù)據(jù)量小于預(yù)設(shè)數(shù)值的上網(wǎng)日志信息。
5.一種實現(xiàn)網(wǎng)絡(luò)用戶分類的裝置,其特征在于,包括:獲取單元、特征提取單元及分類確定單元;其中, 獲取及處理單元,用于獲取用戶預(yù)設(shè)時長內(nèi)的上網(wǎng)日志信息,并根據(jù)預(yù)設(shè)的無效條件刪除上網(wǎng)日志信息中影響用戶分類的無效訪問數(shù)據(jù); 特征提取單元、對刪除無效訪問數(shù)據(jù)后的上網(wǎng)日志信息進行統(tǒng)計,獲取各用戶訪問的各類網(wǎng)頁IP,根據(jù)確定的各網(wǎng)頁IP的用戶特征標準提取各用戶的相應(yīng)的所屬分類的用戶特征; 分類確定單元,用于根據(jù)提取的各用戶的所屬分類的用戶特征,確定用戶所屬的分類。
6.根據(jù)權(quán)利要求5所述的裝置,其特征在于,該裝置還包括設(shè)定特征單元,用于對各類網(wǎng)頁確定用戶訪問其網(wǎng)頁IP相應(yīng)的、預(yù)設(shè)時長內(nèi)累計訪問次數(shù)的訪問次數(shù)閾值和預(yù)設(shè)時長內(nèi)累計訪問時長的訪問時長閾值,并設(shè)置同時滿足訪問次數(shù)閾值和訪問時長閾值的上網(wǎng)日志信息為用戶特征標準。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述上網(wǎng)日志信息至少包括:用戶上網(wǎng)訪問的網(wǎng)頁IP地址、對各網(wǎng)頁IP地址的訪問次數(shù)和訪問時長、各網(wǎng)頁IP地址的上行數(shù)據(jù)量和下行數(shù)據(jù)量。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述獲取及處理單元具體用于:獲取用戶預(yù)設(shè)時長內(nèi)的上網(wǎng)日志信息, 刪除上網(wǎng)日志信息中包含有訪問時長小于預(yù)設(shè)數(shù)值的網(wǎng)頁IP地址的上網(wǎng)日志信息;和, 刪除上網(wǎng)日志信息中,訪問的網(wǎng)頁IP地址中,上行數(shù)據(jù)量和下行數(shù)據(jù)量小于預(yù)設(shè)數(shù)值的上網(wǎng)日志信息。
【文檔編號】G06F17/30GK104462320SQ201410720376
【公開日】2015年3月25日 申請日期:2014年12月1日 優(yōu)先權(quán)日:2014年12月1日
【發(fā)明者】蔣成 申請人:中國聯(lián)合網(wǎng)絡(luò)通信集團有限公司