一種基于用戶大數(shù)據(jù)的用戶群體分析方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及大數(shù)據(jù)分析領(lǐng)域,尤其涉及一種基于用戶大數(shù)據(jù)的用戶群體分析方法 和系統(tǒng)。
【背景技術(shù)】
[0002] 電信領(lǐng)域中,存在數(shù)以億計(jì)的通信用戶,這些通信用戶提供的數(shù)據(jù)種類豐富多樣, 包括用戶的基本資料數(shù)據(jù)(如,用戶身份ID、用戶歸屬地、出生日期),通信行為數(shù)據(jù)(如通 話詳單、短信詳單),上網(wǎng)行為數(shù)據(jù)(如瀏覽內(nèi)容、搜索關(guān)鍵詞、上網(wǎng)流量、上網(wǎng)時(shí)間、上網(wǎng)終 端類型)、位置數(shù)據(jù)(用戶通信或上網(wǎng)所處的位置、歸屬基站)。
[0003] 為了更加精準(zhǔn)、更加高效地把握用戶需求,為用戶提供所需的產(chǎn)品和服務(wù),電信運(yùn) 營(yíng)商通常會(huì)對(duì)上述數(shù)據(jù)進(jìn)行數(shù)據(jù)統(tǒng)計(jì)及建模后,使用不同標(biāo)簽定義不同類型的用戶,如根 據(jù)終端類型將用戶定義為"蘋(píng)果用戶"、"安卓用戶"標(biāo)簽;對(duì)于蘋(píng)果用戶,如果該用戶絕大多 數(shù)都下載了微信、QQ客戶端,上網(wǎng)搜索偏好購(gòu)物類關(guān)鍵詞,閱讀習(xí)慣為喜歡勵(lì)志的主題,則 繼續(xù)為蘋(píng)果用戶定義"愛(ài)騰訊"、"愛(ài)購(gòu)物"、"愛(ài)勵(lì)志"的標(biāo)簽。
[0004] 標(biāo)簽作為一種用戶行為的標(biāo)識(shí)方法,蘊(yùn)含了很多反映用戶興趣的信息;同時(shí),標(biāo)簽 作為一種屬性的標(biāo)識(shí),比傳統(tǒng)的以內(nèi)容表示屬性的方式更能直觀反應(yīng)用戶的看法,并且表 示形式非常簡(jiǎn)單。
[0005] 通過(guò)對(duì)標(biāo)簽數(shù)據(jù)的分析,可以得到相似用戶群體、提取群體的主要特征以及發(fā)現(xiàn) 群體中的重要用戶,便于運(yùn)營(yíng)商個(gè)性化推薦產(chǎn)品、提升服務(wù)質(zhì)量。
[0006] 現(xiàn)有的相似用戶群體發(fā)現(xiàn)、群體主要特征提取和群體重要用戶發(fā)現(xiàn)的方法主要包 括:群體相關(guān)性分析方法及群體聚類分析方法。現(xiàn)有的方法在分析的過(guò)程中通常建立的是 群體-屬性的關(guān)系,忽略了個(gè)體-屬性的關(guān)系,因而將分析結(jié)果運(yùn)用在個(gè)體上存在偏差,且 也不利于發(fā)現(xiàn)個(gè)體存在的特有喜好。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明提供了一種基于用戶大數(shù)據(jù)的用戶群體分析方法和系統(tǒng),以解決如何基于 用戶與其標(biāo)簽的關(guān)系對(duì)用戶進(jìn)行群體分析的技術(shù)問(wèn)題。
[0008] 為解決上述技術(shù)問(wèn)題,本發(fā)明提供了一種基于用戶大數(shù)據(jù)的用戶群體分析方法, 所述方法包括:
[0009] 構(gòu)建用戶與其標(biāo)簽的關(guān)系網(wǎng)絡(luò);所述關(guān)系網(wǎng)絡(luò)中用戶以節(jié)點(diǎn)表示,如果兩個(gè)節(jié)點(diǎn) 存在相同的標(biāo)簽,則建立所述兩個(gè)節(jié)點(diǎn)之間的連接關(guān)系;兩個(gè)節(jié)點(diǎn)連線的權(quán)重為兩個(gè)節(jié)點(diǎn) 間相同標(biāo)簽的個(gè)數(shù);
[0010] 遍歷所述關(guān)系網(wǎng)絡(luò),將所述網(wǎng)絡(luò)中權(quán)重最大的連線對(duì)應(yīng)的兩個(gè)節(jié)點(diǎn)合并為一個(gè) 簇,將所述簇作為一個(gè)新的節(jié)點(diǎn);
[0011] 計(jì)算所述簇與所述網(wǎng)絡(luò)中其他節(jié)點(diǎn)連線的權(quán)重;
[0012] 如果更新后的關(guān)系網(wǎng)絡(luò)還能進(jìn)行節(jié)點(diǎn)的合并,繼續(xù)獲得新簇,直至更新后的關(guān)系 網(wǎng)絡(luò)中簇的個(gè)數(shù)已達(dá)到預(yù)設(shè)值,則更新后的關(guān)系網(wǎng)絡(luò)中的簇包含的節(jié)點(diǎn)即為發(fā)現(xiàn)的相似用 戶群體。
[0013] 可選的,所述構(gòu)建用戶與其標(biāo)簽的關(guān)系網(wǎng)絡(luò),包括:
[0014] 根據(jù)用戶與其標(biāo)簽的關(guān)系構(gòu)建原生二元網(wǎng)絡(luò),所述原生二元網(wǎng)絡(luò)中,用戶和標(biāo)簽 分別以用戶節(jié)點(diǎn)和標(biāo)簽節(jié)點(diǎn)表示,如果用戶具備標(biāo)簽,則連接該用戶節(jié)點(diǎn)和該標(biāo)簽節(jié)點(diǎn);[0015] 對(duì)所述原生二元網(wǎng)絡(luò)進(jìn)行轉(zhuǎn)換,隱藏標(biāo)簽節(jié)點(diǎn),將具有相同標(biāo)簽的用戶節(jié)點(diǎn)通過(guò) 連線連接,兩個(gè)節(jié)點(diǎn)間相同標(biāo)簽的個(gè)數(shù)作為所述連線的權(quán)重,得到所述用戶與其標(biāo)簽的關(guān) 系網(wǎng)絡(luò)。
[0016] 可選的,所述方法還包括:
[0017] 從發(fā)現(xiàn)的相似用戶群體中查找與其他節(jié)點(diǎn)具有最多連線,且連線權(quán)重之和最大的 節(jié)點(diǎn),將該節(jié)點(diǎn)代表的用戶作為具備該群體主要特征的重要用戶,所述群體主要特征指的 是群體中大多數(shù)用戶具備的特征。
[0018] 可選的,所述方法還包括:
[0019] 對(duì)發(fā)現(xiàn)的相似用戶群體中每個(gè)節(jié)點(diǎn)Vi按照如下公式計(jì)算
[0020] 其中,η為相似用戶群體中的總節(jié)點(diǎn)數(shù),cluster(vi,vj)表示簇內(nèi)節(jié)點(diǎn)i到簇內(nèi) 節(jié)點(diǎn)j的距離;
[0021] 將對(duì)每個(gè)節(jié)點(diǎn)Vi的計(jì)算結(jié)果C(Vi)按從大到小的順序排序,最小的計(jì)算結(jié)果對(duì)應(yīng) 的節(jié)點(diǎn)vi為相似用戶群體中距離其他節(jié)點(diǎn)最短的節(jié)點(diǎn),將該節(jié)點(diǎn)代表的用戶作為具備該 群體通用特征的重要用戶,所述群體通用特征指的是群體中每個(gè)用戶均具備的特征。
[0022] 可選的,所述方法還包括:
[0023] 根據(jù)原生二元網(wǎng)絡(luò),在相似用戶群體中建立標(biāo)簽關(guān)系網(wǎng)絡(luò);標(biāo)簽關(guān)系網(wǎng)絡(luò)中標(biāo)簽 以節(jié)點(diǎn)表示,如果兩個(gè)節(jié)點(diǎn)存在相同的用戶,則建立所述兩個(gè)節(jié)點(diǎn)之間的連接關(guān)系;兩個(gè)節(jié) 點(diǎn)連線具有權(quán)重,連線的權(quán)重為兩個(gè)節(jié)點(diǎn)間相同用戶的個(gè)數(shù);
[0024] 在所述標(biāo)簽關(guān)系網(wǎng)絡(luò)中尋找權(quán)重最大的邊對(duì)應(yīng)的兩個(gè)節(jié)點(diǎn),將所述兩個(gè)節(jié)點(diǎn)作為 該群體的主要特征。
[0025] 本發(fā)明還提供了一種基于用戶大數(shù)據(jù)的用戶群體分析系統(tǒng),所述系統(tǒng)包括:
[0026] 網(wǎng)絡(luò)建立模塊,用于構(gòu)建用戶與其標(biāo)簽的關(guān)系網(wǎng)絡(luò);所述關(guān)系網(wǎng)絡(luò)中用戶以節(jié)點(diǎn) 表示,如果兩個(gè)節(jié)點(diǎn)存在相同的標(biāo)簽,則建立所述兩個(gè)節(jié)點(diǎn)之間的連接關(guān)系;兩個(gè)節(jié)點(diǎn)連線 的權(quán)重為兩個(gè)節(jié)點(diǎn)間相同標(biāo)簽的個(gè)數(shù);
[0027] 相似群體尋找模塊,用于遍歷所述關(guān)系網(wǎng)絡(luò),將所述網(wǎng)絡(luò)中權(quán)重最大的連線對(duì)應(yīng) 的兩個(gè)節(jié)點(diǎn)合并為一個(gè)簇,將所述簇作為一個(gè)新的節(jié)點(diǎn);計(jì)算所述簇與所述網(wǎng)絡(luò)中其他節(jié) 點(diǎn)連線的權(quán)重;如果更新后的關(guān)系網(wǎng)絡(luò)還能進(jìn)行節(jié)點(diǎn)的合并,繼續(xù)獲得新簇,直至更新后的 關(guān)系網(wǎng)絡(luò)簇的個(gè)數(shù)已達(dá)到預(yù)設(shè)值,則更新后的關(guān)系網(wǎng)絡(luò)中的簇包含的節(jié)點(diǎn)即為發(fā)現(xiàn)的相似 用戶群體。
[0028] 可選的,所述網(wǎng)絡(luò)建立模塊,用于構(gòu)建用戶與其標(biāo)簽的關(guān)系網(wǎng)絡(luò),包括:
[0029] 根據(jù)用戶與其標(biāo)簽的關(guān)系構(gòu)建原生二元網(wǎng)絡(luò),所述原生二元網(wǎng)絡(luò)中,用戶和標(biāo)簽 分別以用戶節(jié)點(diǎn)和標(biāo)簽節(jié)點(diǎn)表示,如果用戶具備標(biāo)簽,則連接該用戶節(jié)點(diǎn)和該標(biāo)簽節(jié)點(diǎn);
[0030] 對(duì)所述原生二元網(wǎng)絡(luò)進(jìn)行轉(zhuǎn)換,隱藏標(biāo)簽節(jié)點(diǎn),將具有相同標(biāo)簽的用戶節(jié)點(diǎn)通過(guò) 連線連接,兩個(gè)節(jié)點(diǎn)間相同標(biāo)簽的個(gè)數(shù)作為所述連線的權(quán)重,得到所述用戶與其標(biāo)簽的關(guān) 系網(wǎng)絡(luò)。
[0031] 可選的,所述系統(tǒng)還包括相似群體分析模塊,
[0032] 所述相似群體分析模塊,用于從發(fā)現(xiàn)的相似用戶群體中查找與其他節(jié)點(diǎn)具有最多 連線,且連線權(quán)重之和最大的節(jié)點(diǎn),將該節(jié)點(diǎn)代表的用戶作為具備該群體主要特征的重要 用戶,所述群體主要特征指的是群體中大多數(shù)用戶具備的特征。
[0033] 可選的,
[0034] 所述相似群體分析模塊,還用于對(duì)發(fā)現(xiàn)的相似用戶群體中每個(gè)節(jié)點(diǎn)Vi按照如下 公式計(jì)算
[0035] 其中,η為相似用戶群體中的總節(jié)點(diǎn)數(shù),cluster(vi,vj)表示簇內(nèi)節(jié)點(diǎn)i到簇內(nèi) 節(jié)點(diǎn)j的距離;
[0036] 將對(duì)每個(gè)節(jié)點(diǎn)Vi的計(jì)算結(jié)果C(Vi)按從大到小的順序排序,最小的計(jì)算結(jié)果對(duì)應(yīng) 的節(jié)點(diǎn)vi為相似用戶群體中距離其他節(jié)點(diǎn)最短的節(jié)點(diǎn),將該節(jié)點(diǎn)代表的用戶作為具備該 群體通用特征的重要用戶,所述群體通用特征指的是群體中每個(gè)用戶均具備的特征。
[0037] 可選的,
[0038] 所述網(wǎng)絡(luò)建立模塊,還用于根據(jù)原生二元網(wǎng)絡(luò),在相似用戶群體中建立標(biāo)簽關(guān)系 網(wǎng)絡(luò);標(biāo)簽關(guān)系網(wǎng)絡(luò)中標(biāo)簽以節(jié)點(diǎn)表示,如果兩個(gè)節(jié)點(diǎn)存在相同的用戶,則建立所述兩個(gè)節(jié) 點(diǎn)之間的連接關(guān)系;兩個(gè)節(jié)點(diǎn)連線具有權(quán)重,連線的權(quán)重為兩個(gè)節(jié)點(diǎn)間相同用戶的個(gè)數(shù);
[0039] 所述相似群體分析模塊,還用于在所述標(biāo)簽關(guān)系網(wǎng)絡(luò)中尋找權(quán)重最大的邊對(duì)應(yīng)的 兩個(gè)節(jié)點(diǎn),將所述兩個(gè)節(jié)點(diǎn)作為該群體的主要特征。
[0040] 上述實(shí)施例記載的技術(shù)方案以網(wǎng)絡(luò)結(jié)構(gòu)和網(wǎng)絡(luò)分析為理論基礎(chǔ),提供了一種基于 用戶與其標(biāo)簽關(guān)系得用戶進(jìn)行群體分析方法。該方法保留了個(gè)體與其標(biāo)簽的關(guān)系、標(biāo)簽之