一種挖掘核心用戶的方法及裝置的制造方法
【專利摘要】本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,特別是涉及一種挖掘核心用戶的方法及裝置,能夠有效地識(shí)別需要消息的用戶,避免了大量信息浪費(fèi),該方法為:獲取用戶歷史操作數(shù)據(jù),分別針對(duì)每一個(gè)用戶篩選出在設(shè)定歷史時(shí)段內(nèi)與相應(yīng)用戶關(guān)聯(lián)度最高的N個(gè)其他用戶;分別針對(duì)每一個(gè)用戶,從其對(duì)應(yīng)的N個(gè)其他用戶中篩選出業(yè)務(wù)屬性特征符合預(yù)設(shè)關(guān)聯(lián)條件的其他用戶,以及將每一個(gè)用戶和對(duì)應(yīng)的篩選后的其他用戶組成關(guān)聯(lián)用戶組;分別在每一個(gè)關(guān)聯(lián)用戶組中,挑選出被叫等級(jí)最高的用戶作為所在關(guān)聯(lián)用戶組的核心用戶,因此極大地提高了信息發(fā)送的針對(duì)性。
【專利說(shuō)明】
-種挖掘核心用戶的方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及數(shù)據(jù)處理領(lǐng)域,特別是設(shè)及一種挖掘核屯、用戶的方法及裝置。
【背景技術(shù)】
[0002] 在通信業(yè)務(wù)中,需要通過(guò)推送消息給用戶發(fā)送通知,但是,在實(shí)際的應(yīng)用過(guò)程中, 大量的消息都是發(fā)送給無(wú)關(guān)的用戶,造成消息推送的浪費(fèi),不能實(shí)現(xiàn)有針對(duì)性推送消息給 用戶。
[0003] 現(xiàn)有技術(shù)中,盡管對(duì)用戶的關(guān)聯(lián)度有一定了解,并基于用戶間一定關(guān)聯(lián)進(jìn)行消息 的推送,但是仍然不能實(shí)現(xiàn)對(duì)需要收到消息的用戶進(jìn)行有效推送,還是存在大量消息的非 必要推送。例如,根據(jù)用戶辦理的家庭業(yè)務(wù)對(duì)用戶按家庭屬性進(jìn)行分組,但是運(yùn)種分組只能 判斷組中的用戶可能存在家庭屬性關(guān)聯(lián)關(guān)系,對(duì)該組中的用戶進(jìn)行消息推送,仍然需要對(duì) 多人發(fā)送短信,不能將消息有效地推送給需要該消息的用戶。因此,由于無(wú)法識(shí)別需要該消 息的用戶,導(dǎo)致大量消息的無(wú)效發(fā)送,且發(fā)送消息的針對(duì)性較低。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明實(shí)施例提供一種挖掘核屯、用戶的方法及裝置,用W解決現(xiàn)有技術(shù)中存在無(wú) 法識(shí)別需要消息的用戶W及消息推送針對(duì)性差的問(wèn)題。
[0005] 本發(fā)明實(shí)施例提供的具體技術(shù)方案如下:
[0006] 一種挖掘核屯、用戶的方法,包括:
[0007] 獲取用戶歷史操作數(shù)據(jù),分別針對(duì)每一個(gè)用戶篩選出在設(shè)定歷史時(shí)段內(nèi)與相應(yīng)用 戶關(guān)聯(lián)度最高的N個(gè)其他用戶;
[0008] 分別針對(duì)每一個(gè)用戶,從其對(duì)應(yīng)的N個(gè)其他用戶中篩選出業(yè)務(wù)屬性特征符合預(yù)設(shè) 關(guān)聯(lián)條件的其他用戶,W及將每一個(gè)用戶和對(duì)應(yīng)的篩選后的其他用戶組成關(guān)聯(lián)用戶組;
[0009] 分別在每一個(gè)關(guān)聯(lián)用戶組中,挑選出被叫等級(jí)最高的用戶作為所在關(guān)聯(lián)用戶組的 核屯、用戶。
[0010] 因此,采用本發(fā)明的方法,通過(guò)確定關(guān)聯(lián)用戶組中的核屯、用戶,實(shí)現(xiàn)了有針對(duì)性的 發(fā)送信息,避免了大量信息的浪費(fèi)。
[0011] 較佳的,獲取用戶歷史操作數(shù)據(jù),分別針對(duì)一個(gè)用戶篩選出在設(shè)定歷史時(shí)段內(nèi)與 一個(gè)用戶關(guān)聯(lián)度最高的N位其他用戶,包括:
[0012] 獲取用戶歷史操作數(shù)據(jù),分別針對(duì)一個(gè)用戶篩選出在設(shè)定歷史時(shí)段內(nèi)與一個(gè)用戶 通話時(shí)間最長(zhǎng)的N位其他用戶,或者,篩選出與一個(gè)用戶通話次數(shù)最多的N位其他用戶,或 者,篩選出與一個(gè)用戶之間使用指定業(yè)務(wù)次數(shù)最多的N位其他用戶。
[0013] 較佳的,在獲取用戶歷史操作數(shù)據(jù)之前,進(jìn)一步包括:
[0014] 在預(yù)處理階段,確定若干測(cè)試用戶,W及獲取若干測(cè)試用戶對(duì)應(yīng)的海量數(shù)據(jù)樣本, 其中,若干測(cè)試用戶中設(shè)定比例的用戶之間的關(guān)聯(lián)關(guān)系符合指定需求,且一個(gè)數(shù)據(jù)樣本中 記錄有一個(gè)測(cè)試用戶的基本信息或測(cè)試用戶之間的至少一次業(yè)務(wù)行為;
[0015] 將海量數(shù)據(jù)樣本劃分為訓(xùn)練集合和驗(yàn)證集合;
[0016] 基于訓(xùn)練集合包含的數(shù)據(jù)樣本,提取出測(cè)試用戶的業(yè)務(wù)屬性特征,W及確定各個(gè) 業(yè)務(wù)屬性特征在滿足測(cè)試用戶之間的關(guān)聯(lián)關(guān)系的前提下所需滿足的關(guān)聯(lián)條件;
[0017] 采用驗(yàn)證集合包含的數(shù)據(jù)樣本,對(duì)關(guān)聯(lián)條件進(jìn)行驗(yàn)證,確定驗(yàn)證通過(guò)后,對(duì)關(guān)聯(lián)條 件進(jìn)行加載配置。
[0018] 較佳的,基于訓(xùn)練集合包含的數(shù)據(jù)樣本,提取出測(cè)試用戶的業(yè)務(wù)屬性特征,W及確 定各個(gè)業(yè)務(wù)務(wù)屬性特征在滿足測(cè)試用戶之間的關(guān)聯(lián)關(guān)系的前提下所需滿足的關(guān)聯(lián)條件,包 括:
[0019] 基于訓(xùn)練集合包含的數(shù)據(jù)樣本對(duì)預(yù)設(shè)的Μ個(gè)業(yè)務(wù)屬性特征進(jìn)行檢測(cè),篩選出非顯 著業(yè)務(wù)屬性特征,并刪除非顯著業(yè)務(wù)屬性特征,其中,非顯著業(yè)務(wù)屬性特征包含有滿足關(guān)聯(lián) 關(guān)系的至少兩種取值,且至少兩種取值的占比差達(dá)到設(shè)定闊值;
[0020] 基于訓(xùn)練集合包含的數(shù)據(jù)樣本在剩余的業(yè)務(wù)屬性特征中進(jìn)一步篩選出符合預(yù)設(shè) 的特征選擇標(biāo)準(zhǔn)的業(yè)務(wù)屬性特征;
[0021] 采用決策樹(shù)算法篩選出Ρ個(gè)業(yè)務(wù)屬性特征作為測(cè)試用戶的業(yè)務(wù)屬性特征,將Ρ個(gè) 業(yè)務(wù)屬性特征滿足關(guān)聯(lián)關(guān)系的取值設(shè)置為關(guān)聯(lián)條件。
[0022] 較佳的,針對(duì)任意一個(gè)用戶,從其對(duì)應(yīng)的Ν個(gè)其他用戶中篩選出業(yè)務(wù)屬性特征符 合預(yù)設(shè)關(guān)聯(lián)條件的其他用戶,W及將任意一個(gè)用戶和對(duì)應(yīng)的篩選后的其他用戶組成關(guān)聯(lián)用 戶組,具體包括:
[0023] 針對(duì)任意一個(gè)用戶,從其對(duì)應(yīng)的Ν個(gè)其他用戶中篩選出至少一個(gè)業(yè)務(wù)屬性特征符 合至少一條預(yù)設(shè)的關(guān)聯(lián)條件的其他用戶,W及將任意一個(gè)用戶和對(duì)應(yīng)的篩選后的其他用戶 組成關(guān)聯(lián)用戶組。
[0024] 較佳的,在任意一關(guān)聯(lián)用戶組中,挑選出被叫等級(jí)最高的用戶作為所在關(guān)聯(lián)用戶 組的核屯、用戶,具體包括:
[00巧]在任意一關(guān)聯(lián)用戶組中,采用化geRank算法計(jì)算每一個(gè)用戶在設(shè)定時(shí)長(zhǎng)內(nèi)的被 呼叫等級(jí),被呼叫等級(jí)表征呼叫用戶的不同用戶的數(shù)目,將被叫等級(jí)最高的用戶確定為任 意一關(guān)聯(lián)用戶組中的核屯、用戶。
[00%] 采用優(yōu)化的化geRank算法降低了算法的空間復(fù)雜度和計(jì)算復(fù)雜度,提高了計(jì)算 效率,并解決了存儲(chǔ)問(wèn)題。
[0027] 較佳的,進(jìn)一步包括:
[0028] 將預(yù)設(shè)的推送消息發(fā)送給各個(gè)核屯、用戶。
[0029] 一種挖掘核屯、用戶的裝置,包括:
[0030] 獲取單元,用于獲取用戶歷史操作數(shù)據(jù),分別針對(duì)每一個(gè)用戶篩選出在設(shè)定歷史 時(shí)段內(nèi)與相應(yīng)用戶關(guān)聯(lián)度最高的N個(gè)其他用戶;
[0031] 篩選單元,用于分別針對(duì)每一個(gè)用戶,從其對(duì)應(yīng)的N個(gè)其他用戶中篩選出業(yè)務(wù)屬 性特征符合預(yù)設(shè)關(guān)聯(lián)條件的其他用戶,W及將每一個(gè)用戶和對(duì)應(yīng)的篩選后的其他用戶組成 關(guān)聯(lián)用戶組;
[0032] 確定單元,用于分別在每一個(gè)關(guān)聯(lián)用戶組中,挑選出被叫等級(jí)最高的用戶作為所 在關(guān)聯(lián)用戶組的核屯、用戶。
[0033] 因此,采用本發(fā)明的方法,通過(guò)確定關(guān)聯(lián)用戶組中的核屯、用戶,實(shí)現(xiàn)了有針對(duì)性的 發(fā)送信息,避免了大量信息的浪費(fèi)。
[0034] 較佳的,獲取用戶歷史操作數(shù)據(jù),分別針對(duì)一個(gè)用戶篩選出在設(shè)定歷史時(shí)段內(nèi)與 一個(gè)用戶關(guān)聯(lián)度最高的N位其他用戶,獲取單元具體用于:
[0035] 獲取用戶歷史操作數(shù)據(jù),分別針對(duì)一個(gè)用戶篩選出在設(shè)定歷史時(shí)段內(nèi)與一個(gè)用戶 通話時(shí)間最長(zhǎng)的N位其他用戶,或者,篩選出與一個(gè)用戶通話次數(shù)最多的N位其他用戶,或 者,篩選出與一個(gè)用戶之間使用指定業(yè)務(wù)次數(shù)最多的N位其他用戶。
[0036] 較佳的,進(jìn)一步包括:
[0037] 預(yù)處理單元,在獲取用戶歷史操作數(shù)據(jù)之前,用于在預(yù)處理階段,確定若干測(cè)試用 戶,W及獲取若干測(cè)試用戶對(duì)應(yīng)的海量數(shù)據(jù)樣本,其中,若干測(cè)試用戶中設(shè)定比例的用戶之 間的關(guān)聯(lián)關(guān)系符合指定需求,且一個(gè)數(shù)據(jù)樣本中記錄有一個(gè)測(cè)試用戶的基本信息或測(cè)試用 戶之間的至少一次業(yè)務(wù)行為;
[0038] 將海量數(shù)據(jù)樣本劃分為訓(xùn)練集合和驗(yàn)證集合;
[0039] 基于訓(xùn)練集合包含的數(shù)據(jù)樣本,提取出測(cè)試用戶的業(yè)務(wù)屬性特征,W及確定各個(gè) 業(yè)務(wù)屬性特征在滿足測(cè)試用戶之間的關(guān)聯(lián)關(guān)系的前提下所需滿足的關(guān)聯(lián)條件;
[0040] 采用驗(yàn)證集合包含的數(shù)據(jù)樣本,對(duì)關(guān)聯(lián)條件進(jìn)行驗(yàn)證,確定驗(yàn)證通過(guò)后,對(duì)關(guān)聯(lián)條 件進(jìn)行加載配置。
[0041] 較佳的,基于訓(xùn)練集合包含的數(shù)據(jù)樣本,提取出測(cè)試用戶的業(yè)務(wù)屬性特征,W及確 定各個(gè)業(yè)務(wù)務(wù)屬性特征在滿足測(cè)試用戶之間的關(guān)聯(lián)關(guān)系的前提下所需滿足的關(guān)聯(lián)條件,預(yù) 處理單元具體用于:
[0042] 基于訓(xùn)練集合包含的數(shù)據(jù)樣本對(duì)預(yù)設(shè)的Μ個(gè)業(yè)務(wù)屬性特征進(jìn)行檢測(cè),篩選出非顯 著業(yè)務(wù)屬性特征,并刪除非顯著業(yè)務(wù)屬性特征,其中,非顯著業(yè)務(wù)屬性特征包含有滿足關(guān)聯(lián) 關(guān)系的至少兩種取值,且至少兩種取值的占比差達(dá)到設(shè)定闊值;
[0043] 基于訓(xùn)練集合包含的數(shù)據(jù)樣本在剩余的業(yè)務(wù)屬性特征中進(jìn)一步篩選出符合預(yù)設(shè) 的特征選擇標(biāo)準(zhǔn)的業(yè)務(wù)屬性特征;
[0044] 采用決策樹(shù)算法篩選出Ρ個(gè)業(yè)務(wù)屬性特征作為測(cè)試用戶的業(yè)務(wù)屬性特征,將Ρ個(gè) 業(yè)務(wù)屬性特征滿足關(guān)聯(lián)關(guān)系的取值設(shè)置為關(guān)聯(lián)條件。
[0045] 較佳的,針對(duì)任意一個(gè)用戶,從其對(duì)應(yīng)的Ν個(gè)其他用戶中篩選出業(yè)務(wù)屬性特征符 合預(yù)設(shè)關(guān)聯(lián)條件的其他用戶,W及將任意一個(gè)用戶和對(duì)應(yīng)的篩選后的其他用戶組成關(guān)聯(lián)用 戶組,篩選單元具體用于:
[0046] 針對(duì)任意一個(gè)用戶,從其對(duì)應(yīng)的Ν個(gè)其他用戶中篩選出至少一個(gè)業(yè)務(wù)屬性特征符 合至少一條預(yù)設(shè)的關(guān)聯(lián)條件的其他用戶,W及將任意一個(gè)用戶和對(duì)應(yīng)的篩選后的其他用戶 組成關(guān)聯(lián)用戶組。
[0047] 較佳的,在任意一關(guān)聯(lián)用戶組中,挑選出被叫等級(jí)最高的用戶作為所在關(guān)聯(lián)用戶 組的核屯、用戶,確定單元具體用于:
[0048] 在任意一關(guān)聯(lián)用戶組中,采用化geRank算法計(jì)算每一個(gè)用戶在設(shè)定時(shí)長(zhǎng)內(nèi)的被 呼叫等級(jí),被呼叫等級(jí)表征呼叫用戶的不同用戶的數(shù)目,將被叫等級(jí)最高的用戶確定為任 意一關(guān)聯(lián)用戶組中的核屯、用戶。
[0049] 采用優(yōu)化的化geRank算法降低了算法的空間復(fù)雜度和計(jì)算復(fù)雜度,提高了計(jì)算 效率,并解決了存儲(chǔ)問(wèn)題。 陽(yáng)化日]較佳的,進(jìn)一步包括:
[0051] 發(fā)送單元,用于將預(yù)設(shè)的推送消息發(fā)送給各個(gè)核屯、用戶。
【附圖說(shuō)明】
[0052] 圖1為本發(fā)明實(shí)施例中推送消息的概述流程圖;
[0053] 圖2為本發(fā)明實(shí)施例中決策樹(shù)的劃分過(guò)程示意圖;
[0054] 圖3為本發(fā)明實(shí)施例中推送消息的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】 陽(yáng)化5] 為了解決現(xiàn)有技術(shù)中存在消息推送針對(duì)性差的問(wèn)題,本發(fā)明提供一種挖掘核屯、用 戶的方法及裝置,獲取用戶歷史操作數(shù)據(jù),分別針對(duì)每一個(gè)用戶篩選出在設(shè)定歷史時(shí)段內(nèi) 與相應(yīng)用戶關(guān)聯(lián)度最高的N個(gè)其他用戶;分別針對(duì)每一個(gè)用戶,從其對(duì)應(yīng)的N個(gè)其他用戶中 篩選出業(yè)務(wù)屬性特征符合預(yù)設(shè)關(guān)聯(lián)條件的其他用戶,W及將每一個(gè)用戶和對(duì)應(yīng)的篩選后的 其他用戶組成關(guān)聯(lián)用戶組;分別在每一個(gè)關(guān)聯(lián)用戶組中,挑選出被叫等級(jí)最高的用戶作為 所在關(guān)聯(lián)用戶組的核屯、用戶。
[0056] 參閱圖1所示,挖掘核屯、用戶的具體實(shí)施過(guò)程如下:
[0057] 在預(yù)處理階段,在獲取用戶歷史操作數(shù)據(jù)之前,確定若干測(cè)試用戶,W及獲取若干 測(cè)試用戶對(duì)應(yīng)的海量數(shù)據(jù)樣本,其中,若干測(cè)試用戶中設(shè)定比例的用戶之間的關(guān)聯(lián)關(guān)系符 合指定需求,且一個(gè)數(shù)據(jù)樣本中記錄有一個(gè)測(cè)試用戶的基本信息或測(cè)試用戶之間的至少一 次業(yè)務(wù)行為。
[0058] 例如,具有一定親密朋友關(guān)系的測(cè)試用戶和不具備親密朋友關(guān)系的測(cè)試用戶組成 測(cè)試組,獲取他們對(duì)應(yīng)的海里數(shù)據(jù)樣本,其中,具備親密朋友關(guān)系的測(cè)試用戶的比例確定, 每個(gè)測(cè)試用戶與其他測(cè)試用戶之間的關(guān)聯(lián)關(guān)系已知。一個(gè)數(shù)據(jù)樣本中記錄有一個(gè)測(cè)試用戶 的基本信息,例如用戶A的身份證信息,或者記錄測(cè)試用戶之間的至少一次業(yè)務(wù)行為,例如 用戶A和用戶B之間的通話時(shí)長(zhǎng)。
[0059] 進(jìn)一步地,根據(jù)獲取的測(cè)試用戶的海量數(shù)據(jù)樣本,將具有關(guān)聯(lián)關(guān)系的測(cè)試用戶作 為目標(biāo)組,不具備關(guān)聯(lián)關(guān)系的測(cè)試用戶作為對(duì)照組,將它們隨機(jī)混合在一起。進(jìn)一步地,將 按關(guān)聯(lián)關(guān)系整合后的數(shù)據(jù)樣本劃分為訓(xùn)練集合和驗(yàn)證集合,其中訓(xùn)練集為隨機(jī)混合樣本的 較大比例,例如70 %,驗(yàn)證集為隨機(jī)混合樣本的較小比例,例如30 %。
[0060] 在進(jìn)行業(yè)務(wù)屬性特征的抽取之前,還需對(duì)數(shù)據(jù)樣本中的極值、空值和無(wú)效值進(jìn)行 處理,例如,某類數(shù)據(jù)的極值為大于所有同類數(shù)據(jù)樣本的標(biāo)準(zhǔn)差的3倍,則將該數(shù)據(jù)進(jìn)行剔 除。運(yùn)里的標(biāo)準(zhǔn)差的3倍為預(yù)設(shè)值,也可設(shè)置其他的倍率。
[0061] 進(jìn)一步地,對(duì)測(cè)試用戶的基本信息進(jìn)行衍生變量的處理,例如,將兩個(gè)測(cè)試用戶的 身份證信息,衍生為業(yè)務(wù)屬性特征,用戶1和用戶2的身份證是否相同,如表1所示,若相同 則該項(xiàng)標(biāo)記為1,若不同,則標(biāo)記為0。
[0062]
[0063] 表 1
[0064] 將海量數(shù)據(jù)樣本劃分為訓(xùn)練集合和驗(yàn)證集合之后,基于訓(xùn)練集合包含的數(shù)據(jù)樣 本,提取出測(cè)試用戶的業(yè)務(wù)屬性特征,W及確定各個(gè)業(yè)務(wù)屬性特征在滿足測(cè)試用戶之間的 關(guān)聯(lián)關(guān)系的前提下所需滿足的關(guān)聯(lián)條件,運(yùn)里主要包括W下幾步:
[0065] 首先,設(shè)置Μ個(gè)可能的業(yè)務(wù)屬性特征,作為最后確定為顯著業(yè)務(wù)屬性特征的備選 項(xiàng)。
[0066] 其次,基于訓(xùn)練集合包含的數(shù)據(jù)樣本對(duì)預(yù)設(shè)的Μ個(gè)業(yè)務(wù)屬性特征進(jìn)行檢測(cè),篩選 出非顯著業(yè)務(wù)屬性特征,并刪除非顯著業(yè)務(wù)屬性特征,其中,非顯著業(yè)務(wù)屬性特征包含有滿 足關(guān)聯(lián)關(guān)系的至少兩種取值,且至少兩種取值的占比差達(dá)到設(shè)定闊值。
[0067] 在刪除非顯著業(yè)務(wù)屬性特征時(shí),主要通過(guò)分布圖(針對(duì)分類變量)、直方圖(針對(duì) 數(shù)值類變量)W及變量相關(guān)系數(shù)等對(duì)輸入的業(yè)務(wù)屬性特征與關(guān)聯(lián)關(guān)系之間的關(guān)系進(jìn)行分 析。若某一業(yè)務(wù)屬性特征包含有滿足關(guān)聯(lián)關(guān)系的至少兩種取值,且至少兩種取值的占比相 當(dāng),則認(rèn)為該業(yè)務(wù)屬性特征不具備與關(guān)聯(lián)關(guān)系之間的顯著關(guān)聯(lián),因此,該業(yè)務(wù)屬性特征為非 顯著業(yè)務(wù)屬性特征,需要將其刪除。
[0068] 再次,基于訓(xùn)練集合包含的數(shù)據(jù)樣本在剩余的業(yè)務(wù)屬性特征中進(jìn)一步篩選出符合 預(yù)設(shè)的特征選擇標(biāo)準(zhǔn)的業(yè)務(wù)屬性特征。
[0069] 其中,特征選擇標(biāo)準(zhǔn)包括缺失值的最大占比、單個(gè)類別中記錄的最大百分比、作為 記錄百分比的最大類別數(shù)、最小變異系數(shù)、最小標(biāo)準(zhǔn)差中的一種或任意種的組合。
[0070] 例如,缺失值的最大占比是指某一項(xiàng)業(yè)務(wù)屬性特征在訓(xùn)練集合包含的數(shù)據(jù)樣本中 只占很少的比例,例如只有30%的用戶登記了該項(xiàng)信息,或只有30%的用戶使用了該項(xiàng)業(yè) 務(wù),因該特征不具備廣泛性和普遍性,因此不能將該特征作為顯著的業(yè)務(wù)屬性特征,需要將 其刪除。
[0071] 最后,對(duì)于剩下的業(yè)務(wù)屬性特征,采用決策樹(shù)算法篩選出Ρ個(gè)業(yè)務(wù)屬性特征作為 測(cè)試用戶的業(yè)務(wù)屬性特征,將Ρ個(gè)業(yè)務(wù)屬性特征滿足關(guān)聯(lián)關(guān)系的取值設(shè)置為關(guān)聯(lián)條件。
[0072] W決策樹(shù)算法巧.0為例,首先計(jì)算剩余每一個(gè)業(yè)務(wù)屬性特征的信息增益率,將信 息增益率最大的業(yè)務(wù)屬性特征作為根節(jié)點(diǎn),分為滿足關(guān)聯(lián)關(guān)系,標(biāo)記為1,和不滿足關(guān)聯(lián)關(guān) 系,標(biāo)記為0,接著在每個(gè)子節(jié)點(diǎn)上重復(fù)上述步驟,分別計(jì)算除根節(jié)點(diǎn)外的滿足關(guān)聯(lián)關(guān)系的 樣本和不滿足關(guān)聯(lián)關(guān)系的樣本中,信息增益率最大的業(yè)務(wù)屬性特征作為下一個(gè)節(jié)點(diǎn),如此 重復(fù)上述過(guò)程直至到達(dá)預(yù)設(shè)的最小樣本量或樣本中滿足關(guān)聯(lián)關(guān)系的占比低于設(shè)定的闊值, 至此,建立關(guān)于該關(guān)聯(lián)關(guān)系的決策樹(shù),并得到所需的業(yè)務(wù)屬性特征及相應(yīng)的滿足關(guān)聯(lián)關(guān)系 的取值作為關(guān)聯(lián)條件。例如,參閱圖2所示,對(duì)于10000條用戶的數(shù)據(jù)樣本和剩余的6個(gè)業(yè) 務(wù)屬性特征A~F,針對(duì)每一個(gè)業(yè)務(wù)屬性特征的計(jì)算信息增益率,其中信息增益率最大的業(yè) 務(wù)屬性特征A作為根節(jié)點(diǎn),分為滿足關(guān)聯(lián)關(guān)系,標(biāo)記為1,和不滿足關(guān)聯(lián)關(guān)系,標(biāo)記為0,假設(shè) 對(duì)應(yīng)1的結(jié)果包括6000條樣本,對(duì)應(yīng)0的結(jié)果包括4000條樣本,進(jìn)一步地,對(duì)應(yīng)1的結(jié)果 包括6000條樣本,繼續(xù)計(jì)算每個(gè)業(yè)務(wù)屬性特征的信息增益率,選取信息增益率最大的業(yè)務(wù) 屬性特征作為下一個(gè)節(jié)點(diǎn);對(duì)應(yīng)0的結(jié)果包括4000條樣本,繼續(xù)計(jì)算每個(gè)業(yè)務(wù)屬性特征的 信息增益率,選取信息增益率最大的業(yè)務(wù)屬性特征作為下一個(gè)節(jié)點(diǎn)。在決策樹(shù)的劃分過(guò)程 中,當(dāng)樣本數(shù)量低于設(shè)定的闊值(如1500條),或樣本中滿足關(guān)聯(lián)關(guān)系的占比低于設(shè)定闊值 (如20% )時(shí),停止樣本的繼續(xù)劃分和業(yè)務(wù)屬性特征的提取,將得到的節(jié)點(diǎn)作為最后篩選出 的業(yè)務(wù)屬性特征,并將業(yè)務(wù)屬性特征滿足關(guān)聯(lián)關(guān)系的取值設(shè)置為關(guān)聯(lián)條件。對(duì)于信息增益 率的計(jì)算過(guò)程不是本發(fā)明的重點(diǎn),運(yùn)里不再寶述。
[0073] 當(dāng)業(yè)務(wù)屬性特征的篩選及其關(guān)聯(lián)條件確定后,采用驗(yàn)證集合包含的數(shù)據(jù)樣本,基 于確定的業(yè)務(wù)屬性特征和關(guān)聯(lián)條件對(duì)用戶之間的關(guān)聯(lián)關(guān)系進(jìn)行判斷,并與他們之間的真實(shí) 關(guān)聯(lián)關(guān)系進(jìn)行比對(duì),確定驗(yàn)證通過(guò)后,對(duì)關(guān)聯(lián)條件進(jìn)行加載配置。其中,采用驗(yàn)證集對(duì)關(guān)聯(lián) 條件的驗(yàn)證主要包括評(píng)估關(guān)聯(lián)條件的準(zhǔn)確率、命中率和提升率。
[0074] 具體的,準(zhǔn)確性是指關(guān)聯(lián)關(guān)系預(yù)測(cè)值和實(shí)際值相同的樣本量與所有樣本量的比 值。命中率是預(yù)測(cè)關(guān)聯(lián)關(guān)系客戶中實(shí)際關(guān)聯(lián)關(guān)系客戶的比例。提升度指識(shí)別關(guān)聯(lián)關(guān)系的準(zhǔn) 確率與樣本中家庭關(guān)系占比的比值。
[0075] 下面基于W上海量數(shù)據(jù)樣本獲得的業(yè)務(wù)屬性特征及其關(guān)聯(lián)關(guān)系,對(duì)未知關(guān)聯(lián)關(guān)系 的用戶進(jìn)行分析,建立關(guān)聯(lián)用戶組并確定核屯、用戶,具體的過(guò)程如下:
[0076] 步驟100 :獲取用戶歷史操作數(shù)據(jù),分別針對(duì)每一個(gè)用戶篩選出在設(shè)定歷史時(shí)段 內(nèi)與相應(yīng)用戶關(guān)聯(lián)度最高的N個(gè)其他用戶。
[0077] 運(yùn)里的用戶歷史操作數(shù)據(jù),具體為用戶的基本身份信息,業(yè)務(wù)辦理信息W及用戶 的通話記錄等。
[0078] 獲取用戶歷史操作數(shù)據(jù),分別針對(duì)一個(gè)用戶篩選出在設(shè)定歷史時(shí)段內(nèi)與相應(yīng)用戶 關(guān)聯(lián)度最高的N個(gè)其他用戶,其中,用戶相關(guān)度的條件可W有多種,具體可W采用但不限于 W下Ξ種方式:
[0079] 其一,篩選出在設(shè)定歷史時(shí)段內(nèi)與一個(gè)用戶通話時(shí)間最長(zhǎng)的N位其他用戶。
[0080] 其二,篩選出與一個(gè)用戶通話次數(shù)最多的N位其他用戶。
[0081] 其Ξ,篩選出與一個(gè)用戶之間使用指定業(yè)務(wù)次數(shù)最多的N位其他用戶。
[0082] 步驟110 :分別針對(duì)每一個(gè)用戶,從其對(duì)應(yīng)的N個(gè)其他用戶中篩選出業(yè)務(wù)屬性特征 符合預(yù)設(shè)關(guān)聯(lián)條件的其他用戶,W及將每一個(gè)用戶和對(duì)應(yīng)的篩選后的其他用戶組成關(guān)聯(lián)用 戶組。
[0083] 針對(duì)任意一個(gè)用戶,從其對(duì)應(yīng)的N個(gè)其他用戶中篩選出至少一個(gè)業(yè)務(wù)屬性特征符 合至少一條預(yù)設(shè)的關(guān)聯(lián)條件的其他用戶,W及將任意一個(gè)用戶和對(duì)應(yīng)的篩選后的其他用戶 組成關(guān)聯(lián)用戶組。
[0084] 例如,最后確定的業(yè)務(wù)屬性特征為5個(gè),但是用戶A與用戶B之間只具備3個(gè)業(yè)務(wù) 屬性特征,其中存在1個(gè)業(yè)務(wù)屬性特征滿足最終確定的關(guān)聯(lián)條件,運(yùn)時(shí)可W確定用戶A和用 戶B的關(guān)聯(lián)關(guān)系成立。
[00化]步驟120 :分別在每一個(gè)關(guān)聯(lián)用戶組中,挑選出被叫等級(jí)最高的用戶作為所在關(guān) 聯(lián)用戶組的核屯、用戶;
[0086] 在任意一關(guān)聯(lián)用戶組中,利用化geRank算法計(jì)算每一個(gè)用戶在設(shè)定時(shí)長(zhǎng)內(nèi)的被 呼叫等級(jí),被呼叫等級(jí)表征呼叫用戶的不同用戶的數(shù)目,運(yùn)里不同用戶的被呼叫等級(jí)不一 樣,對(duì)他呼叫的用戶帶來(lái)的被呼叫等級(jí)的影響也不一樣,最后將被叫等級(jí)最高的用戶確定 為任意一關(guān)聯(lián)用戶組中的核屯、用戶。
[0087]
[0088] 表 2
[0089] 其中,利用改進(jìn)后的化geRank算法,即基于分解轉(zhuǎn)移矩陣的化geRank迭代算法, 根據(jù)關(guān)聯(lián)用戶組中用戶之間的主被叫行為,計(jì)算關(guān)聯(lián)用戶組中每個(gè)用戶的PR值,PR值的大 小代表用戶被叫等級(jí)的高低,PR值最大的設(shè)置為master_msiS化,該用戶為核屯、用戶,該號(hào) 碼為主號(hào),PR值較小的設(shè)置為slave_msis化,該用戶不是核屯、用戶,該號(hào)碼為副號(hào),參閱表 2所示。
[0090] 具體的,網(wǎng)頁(yè)排名化geRank是捜索引擎技術(shù)的核屯、算法之一,用于計(jì)算每個(gè)網(wǎng)頁(yè) 的重要程度,并為每一個(gè)頁(yè)面打分。它由Lar巧化ge和Serg巧化in在20世紀(jì)90年代后 期發(fā)明?;痝eRank算法將頁(yè)面對(duì)頁(yè)面的鏈接假設(shè)成一次投票,一個(gè)頁(yè)面的"得票數(shù)"由所有 鏈向它的頁(yè)面的重要性決定,轉(zhuǎn)到一個(gè)頁(yè)面的超鏈接相當(dāng)于對(duì)該頁(yè)面投一票。一個(gè)頁(yè)面的 PR值是由所有鏈向它的頁(yè)面的重要性經(jīng)過(guò)遞歸算法得到的。一個(gè)有較多鏈入的頁(yè)面會(huì)有較 高的等級(jí),相反如果一個(gè)頁(yè)面沒(méi)有任何鏈入頁(yè)面,那么它沒(méi)有等級(jí)?;痝eRank實(shí)現(xiàn)了根據(jù) 鏈接指向計(jì)算出頁(yè)面價(jià)值,改變了捜索結(jié)果隨意排列的情況。此外,化geRank并不是唯一 的鏈接相關(guān)的排名算法,只是最為廣泛使用的一種,其他類似的算法還有小山頂化illtop) 算法、專家排名巧xpertRank)算法、HITS 4和信任排名算法(TrustRank)等。
[0091] 采用化geRank算法,在數(shù)據(jù)量不大的情況下,可W將用戶的通話記錄完全展開(kāi), 獲得"最大用戶數(shù)*最大用戶數(shù)"的矩陣。但是,假設(shè)有1億個(gè)通信用戶的話,那么需要存 儲(chǔ)"1億*1億"的用戶通信關(guān)系,假設(shè)每個(gè)通信關(guān)系對(duì)僅占用lObyte的空間,那么所有的關(guān) 系對(duì)存儲(chǔ)下來(lái)需要88PB。對(duì)于運(yùn)樣的數(shù)據(jù)量,目前的主流系統(tǒng)難W存儲(chǔ)和計(jì)算,即使勉強(qiáng)計(jì) 算也將消耗大量的時(shí)間。
[0092] 因此,基于通信領(lǐng)域跟互聯(lián)網(wǎng)領(lǐng)域存在差異,本發(fā)明為優(yōu)化后的化geRank算法。 運(yùn)里,用戶的主被叫可W看作是網(wǎng)頁(yè)的鏈入和鏈出,每一個(gè)用戶與其所在關(guān)聯(lián)用戶組構(gòu)成 一個(gè)網(wǎng)絡(luò),本發(fā)明采用優(yōu)化的化geRank算法計(jì)算關(guān)聯(lián)用戶組中的核屯、用戶,具體方法如 下:
[0093] 基于分解轉(zhuǎn)移矩陣的化geRank迭代計(jì)算公式如下:
[0094] X(k") = Xk · P" = C ·狂k · P+Xk .護(hù).U + (l-c)狂k . 〇 .化,
[00河其中X嗦示k次迭代后用戶的PR值,P表示用戶間的初始主被叫構(gòu)造的轉(zhuǎn)移矩 陣,為了處理關(guān)聯(lián)用戶組中的"孤島頁(yè)面集"造成的化geRank不收斂,(1-C)表示用戶隨機(jī) 的呼叫一個(gè)用戶的概率。
[0096] 該迭代公式具體由Ξ部分組成,分別W B、C和E項(xiàng)表示。
[0097] l、B = Xk.p
[0098] 運(yùn)部分是處理主叫用戶對(duì)被叫用戶的貢獻(xiàn),該項(xiàng)為Ξ項(xiàng)中最重要的一項(xiàng)。
陽(yáng)10U 其中,B(i)表示所有給用戶i打電話的用戶對(duì)用戶i的PR值的貢獻(xiàn),用戶i為被 叫用戶,共有η個(gè)用戶給用戶i打電話。 陽(yáng)10引由上面公式可知,當(dāng)沒(méi)有用戶主叫用戶i時(shí),B(i) = 0。 陽(yáng)103] 在一般情況下,B(i)是所有主叫i的用戶的前一次迭代結(jié)果除W該用戶的出度的 結(jié)果累加。運(yùn)里需要指某個(gè)用戶的出度是指該用戶主機(jī)的用戶數(shù),不是主叫的次數(shù)。
[0104] 在每次迭代后,下次迭代前,把每個(gè)用戶當(dāng)前的PR值除W該用戶的出度,得到一 個(gè)新向量yk:
陽(yáng)109] 該部分針對(duì)從懸掛用戶對(duì)其他用戶貢獻(xiàn)的處理。懸掛用戶指該用戶只有被叫,沒(méi) 有主叫。
陽(yáng)113] 因此,對(duì)向量C的求解轉(zhuǎn)化為對(duì)標(biāo)量σ的求解,而σ為上次迭代結(jié)果中所有懸掛 用戶對(duì)應(yīng)的PR值的累加和。 陽(yáng) 114] 3、Ε = (1-C)狂k · 〇 ·化
[0115] 運(yùn)部分是對(duì)隨機(jī)呼叫的處理,即用戶的誤撥行為,為了避免迭代不收斂的情況。 陽(yáng)116] 由
陽(yáng)117]可得,E = (1-C) · a ·化=(1-C) (a/n, . . . , a/n),特殊情況 a = η 時(shí), 陽(yáng)11 引 Ε = (1-C) (1,…,1) = (1-C,…1-C)。
[0119] 綜合W上Ξ個(gè)部分,用戶k+1次迭代PR值公式化簡(jiǎn)如下: 陽(yáng) 120]
陽(yáng)12U 即每次迭代前,先計(jì)算出yk,σ/η和(1-C),然后在迭代過(guò)程中,根據(jù)鄰接矩陣把yk 的分量累加起來(lái),帶入上面公式。 陽(yáng)122] 因此,一次迭代的計(jì)算復(fù)雜度為:
[0123] 令η為用戶總數(shù),rid為懸掛用戶數(shù),則計(jì)算量為: 陽(yáng)124] (n-rid+1)次除法+(16n+rid)次加法,即計(jì)算復(fù)雜度為0(n)。
[0125] 另外,在迭代計(jì)算過(guò)程中,為了保證計(jì)算效率,需要把化geRank向量、每個(gè)用戶的 主叫人數(shù)保存在內(nèi)存中,每次從硬盤(pán)中根據(jù)索引讀鄰接矩陣的轉(zhuǎn)置矩陣的一行(平均16個(gè) 元素)。所W在迭代過(guò)程中,空間復(fù)雜度也為〇(n)。
[01%] 此外,針對(duì)各個(gè)關(guān)聯(lián)用戶組確定的核屯、用戶,將預(yù)設(shè)的推送信息發(fā)送給各個(gè)核屯、 用戶。 陽(yáng)127] 具體的,將需要推送的消息發(fā)送各個(gè)主號(hào)。
[0128] 本發(fā)明W家庭關(guān)系為例,對(duì)挖掘核屯、用戶的具體流程進(jìn)行詳細(xì)說(shuō)明:
[0129] 在通信業(yè)務(wù)中,用戶的家庭屬性是非常重要的屬性。對(duì)用戶按照家庭屬性進(jìn)行分 組并分析出家庭組中的核屯、人物能夠?qū)崿F(xiàn)有效地為核屯、人物發(fā)送相關(guān)信息,提高消息發(fā)送 的效率,避免大量消息無(wú)意義的發(fā)送。
[0130] W辦理親情號(hào)業(yè)務(wù)的用戶為測(cè)試用戶,確定他們之間為家庭關(guān)系,獲取測(cè)試用戶 對(duì)應(yīng)的海量數(shù)據(jù)樣本。 陽(yáng)131] 具體的,將與用戶A具有家庭關(guān)系的用戶作為目標(biāo)組,不具備家庭關(guān)系的用戶作 為對(duì)照組,將它們隨機(jī)混合在一起。進(jìn)一步地,將海量數(shù)據(jù)樣本劃分為訓(xùn)練集合和驗(yàn)證集 合,其中訓(xùn)練集為70 %,驗(yàn)證集為30 %。
[0132] 在進(jìn)行業(yè)務(wù)屬性特征的抽取之前,對(duì)數(shù)據(jù)樣本中的極值、空值和無(wú)效值進(jìn)行處理, 對(duì)測(cè)試用戶的基本信息進(jìn)行衍生變量的處理。
[0133] 將海量數(shù)據(jù)樣本劃分為訓(xùn)練集合和驗(yàn)證集合之后,針對(duì)可能的業(yè)務(wù)屬性特征設(shè)置 Μ個(gè)業(yè)務(wù)屬性特征的備選項(xiàng)。通過(guò)分布圖(針對(duì)分類變量)、直方圖(針對(duì)數(shù)值類變量)W 及變量相關(guān)系數(shù)等對(duì)輸入的業(yè)務(wù)屬性特征與關(guān)聯(lián)關(guān)系之間的關(guān)系進(jìn)行分析,刪除非顯著業(yè) 務(wù)屬性特征。
[0134] 進(jìn)一步,在剩余的業(yè)務(wù)屬性特征中篩選出符合預(yù)設(shè)的特征選擇標(biāo)準(zhǔn)的業(yè)務(wù)屬性特 征。
[0135] 其中,特征選擇標(biāo)準(zhǔn)包括缺失值的最大占比(70% )、單個(gè)類別中記錄的最大百 分比(90% )、作為記錄百分比的最大類別數(shù)(95% )、最小變異系數(shù)(0. 1)、最小標(biāo)準(zhǔn)差 0). 0)。 陽(yáng) 136]
陽(yáng)137] 表3
[0138] 最后,對(duì)于剩下的業(yè)務(wù)屬性特征,采用決策樹(shù)算法最終得到的節(jié)點(diǎn)作為最后篩選 出的業(yè)務(wù)屬性特征,并將業(yè)務(wù)屬性特征滿足關(guān)聯(lián)關(guān)系的取值設(shè)置為關(guān)聯(lián)條件,運(yùn)里將7個(gè) 業(yè)務(wù)屬性特征各自對(duì)應(yīng)的滿足家庭關(guān)系的取值設(shè)置為關(guān)聯(lián)條件,如表3所示。
[0139] 當(dāng)業(yè)務(wù)屬性特征的篩選及其關(guān)聯(lián)條件確定后,采用驗(yàn)證集合包含的數(shù)據(jù)樣本,對(duì) 關(guān)聯(lián)條件進(jìn)行驗(yàn)證,采用驗(yàn)證集對(duì)關(guān)聯(lián)條件的驗(yàn)證主要包括評(píng)估關(guān)聯(lián)條件的準(zhǔn)確率、命中 率和提升率,確定驗(yàn)證通過(guò)后,對(duì)關(guān)聯(lián)條件進(jìn)行加載配置。
[0140] 對(duì)于沒(méi)有辦理親情號(hào)業(yè)務(wù)的用戶,根據(jù)上面的結(jié)果判斷他所在的家庭關(guān)系組和組 中的核屯、用戶。 陽(yáng)141] 具體的,獲取用戶B的歷史操作數(shù)據(jù),篩選出在3個(gè)月內(nèi)與用戶B在閑時(shí)通話總數(shù) 最多的10個(gè)其他用戶。 陽(yáng)142] 分別確定用戶B與其他用戶之間的業(yè)務(wù)屬性特征,將結(jié)果輸入到表3中,至少滿足 其中的1個(gè)業(yè)務(wù)屬性特征就可W判斷確定用戶B與該用戶的家庭關(guān)聯(lián)關(guān)系成立,上述10次 輸入完成后,建立家庭用戶組。 陽(yáng)14引在該家庭用戶組中,利用改進(jìn)后的化geRank算法,根據(jù)關(guān)聯(lián)用戶組中用戶之間的 主被叫行為,計(jì)算關(guān)聯(lián)用戶組中每個(gè)用戶的PR值,挑選出被叫等級(jí)最高的用戶作為所在關(guān) 聯(lián)用戶組的核屯、用戶。PR值最大的設(shè)置為master_msis化,該用戶為核屯、用戶,該號(hào)碼為主 號(hào),則其他用戶不是核屯、用戶,他們的號(hào)碼為副號(hào)。
[0144] 最后,將需要發(fā)送的消息發(fā)送給各組的核屯、用戶。
[0145] 參閱圖3所示,挖掘核屯、用戶的裝置,包括: 陽(yáng)146] 獲取單元30,用于獲取用戶歷史操作數(shù)據(jù),分別針對(duì)每一個(gè)用戶篩選出在設(shè)定歷 史時(shí)段內(nèi)與相應(yīng)用戶關(guān)聯(lián)度最高的N個(gè)其他用戶; 陽(yáng)147] 篩選單元31,用于分別針對(duì)每一個(gè)用戶,從其對(duì)應(yīng)的N個(gè)其他用戶中篩選出業(yè)務(wù) 屬性特征符合預(yù)設(shè)關(guān)聯(lián)條件的其他用戶,W及將每一個(gè)用戶和對(duì)應(yīng)的篩選后的其他用戶組 成關(guān)聯(lián)用戶組;
[0148] 確定單元32,用于分別在每一個(gè)關(guān)聯(lián)用戶組中,挑選出被叫等級(jí)最高的用戶作為 所在關(guān)聯(lián)用戶組的核屯、用戶;
[0149] 較佳的,獲取用戶歷史操作數(shù)據(jù),分別針對(duì)一個(gè)用戶篩選出在設(shè)定歷史時(shí)段內(nèi)與 一個(gè)用戶關(guān)聯(lián)度最高的N位其他用戶,獲取單元30具體用于: 陽(yáng)150] 獲取用戶歷史操作數(shù)據(jù),分別針對(duì)一個(gè)用戶篩選出在設(shè)定歷史時(shí)段內(nèi)與一個(gè)用戶 通話時(shí)間最長(zhǎng)的N位其他用戶,或者,篩選出與一個(gè)用戶通話次數(shù)最多的N位其他用戶,或 者,篩選出與一個(gè)用戶之間使用指定業(yè)務(wù)次數(shù)最多的N位其他用戶。 陽(yáng)151] 較佳的,進(jìn)一步包括: 陽(yáng)152] 預(yù)處理單元33,在獲取用戶歷史操作數(shù)據(jù)之前,用于在預(yù)處理階段,確定若干測(cè)試 用戶,W及獲取若干測(cè)試用戶對(duì)應(yīng)的海量數(shù)據(jù)樣本,其中,若干測(cè)試用戶中設(shè)定比例的用戶 之間的關(guān)聯(lián)關(guān)系符合指定需求,且一個(gè)數(shù)據(jù)樣本中記錄有一個(gè)測(cè)試用戶的基本信息或測(cè)試 用戶之間的至少一次業(yè)務(wù)行為; 陽(yáng)153] 將海量數(shù)據(jù)樣本劃分為訓(xùn)練集合和驗(yàn)證集合;
[0154] 基于訓(xùn)練集合包含的數(shù)據(jù)樣本,提取出測(cè)試用戶的業(yè)務(wù)屬性特征,W及確定各個(gè) 業(yè)務(wù)屬性特征在滿足測(cè)試用戶之間的關(guān)聯(lián)關(guān)系的前提下所需滿足的關(guān)聯(lián)條件;
[01巧]采用驗(yàn)證集合包含的數(shù)據(jù)樣本,對(duì)關(guān)聯(lián)條件進(jìn)行驗(yàn)證,確定驗(yàn)證通過(guò)后,對(duì)關(guān)聯(lián)條 件進(jìn)行加載配置。
[0156] 較佳的,基于訓(xùn)練集合包含的數(shù)據(jù)樣本,提取出測(cè)試用戶的業(yè)務(wù)屬性特征,W及確 定各個(gè)業(yè)務(wù)務(wù)屬性特征在滿足測(cè)試用戶之間的關(guān)聯(lián)關(guān)系的前提下所需滿足的關(guān)聯(lián)條件,預(yù) 處理單元33具體用于:
[0157] 基于訓(xùn)練集合包含的數(shù)據(jù)樣本對(duì)預(yù)設(shè)的Μ個(gè)業(yè)務(wù)屬性特征進(jìn)行檢測(cè),篩選出非顯 著業(yè)務(wù)屬性特征,并刪除非顯著業(yè)務(wù)屬性特征,其中,非顯著業(yè)務(wù)屬性特征包含有滿足關(guān)聯(lián) 關(guān)系的至少兩種取值,且至少兩種取值的占比差達(dá)到設(shè)定闊值;
[0158] 基于訓(xùn)練集合包含的數(shù)據(jù)樣本在剩余的業(yè)務(wù)屬性特征中進(jìn)一步篩選出符合預(yù)設(shè) 的特征選擇標(biāo)準(zhǔn)的業(yè)務(wù)屬性特征;
[0159] 采用決策樹(shù)算法計(jì)算每一個(gè)篩選出的業(yè)務(wù)屬性特征的每一種取值的信息增益,并 分別將每一個(gè)篩選出的業(yè)務(wù)屬性特征對(duì)應(yīng)的信息增益最大的取值作為相應(yīng)業(yè)務(wù)屬性特征 的信息增益,W及將信道增益最大的Ρ個(gè)業(yè)務(wù)屬性特征作為測(cè)試用戶的業(yè)務(wù)屬性特征,將Ρ 個(gè)業(yè)務(wù)屬性特征各自對(duì)應(yīng)的信道增益最大的取值設(shè)置為關(guān)聯(lián)條件。
[0160] 較佳的,針對(duì)任意一個(gè)用戶,從其對(duì)應(yīng)的Ν個(gè)其他用戶中篩選出業(yè)務(wù)屬性特征符 合預(yù)設(shè)關(guān)聯(lián)條件的其他用戶,W及將任意一個(gè)用戶和對(duì)應(yīng)的篩選后的其他用戶組成關(guān)聯(lián)用 戶組,篩選單元31具體用于: 陽(yáng)161] 針對(duì)任意一個(gè)用戶,從其對(duì)應(yīng)的Ν個(gè)其他用戶中篩選出至少一個(gè)業(yè)務(wù)屬性特征符 合至少一條預(yù)設(shè)的關(guān)聯(lián)條件的其他用戶,W及將任意一個(gè)用戶和對(duì)應(yīng)的篩選后的其他用戶 組成關(guān)聯(lián)用戶組。 陽(yáng)162] 較佳的,在任意一關(guān)聯(lián)用戶組中,挑選出被叫等級(jí)最高的用戶作為所在關(guān)聯(lián)用戶 組的核屯、用戶,確定單元32具體用于: 陽(yáng)163] 在任意一關(guān)聯(lián)用戶組中,計(jì)算每一個(gè)用戶在設(shè)定時(shí)長(zhǎng)內(nèi)的被呼叫等級(jí),被呼叫等 級(jí)表征呼叫用戶的不同用戶的數(shù)目,將被叫等級(jí)最高的用戶確定為任意一關(guān)聯(lián)用戶組中的 核屯、用戶。 陽(yáng)164] 較佳的,進(jìn)一步包括:
[01化]發(fā)送單元34,用于將預(yù)設(shè)的推送信息發(fā)送給各個(gè)核屯、用戶。 陽(yáng)166] 運(yùn)里需要指出,確定關(guān)聯(lián)用戶組的核屯、用戶之后,不限于給核屯、用戶發(fā)送消息,還 可W用來(lái)開(kāi)展其他業(yè)務(wù)。
[0167] 綜上所述,采用本發(fā)明的方法,能夠有針對(duì)性的發(fā)送信息,避免了大量信息的浪 費(fèi),根據(jù)已知關(guān)聯(lián)的海量數(shù)據(jù)抽取所需關(guān)聯(lián)關(guān)系的業(yè)務(wù)屬性特征及其關(guān)聯(lián)條件,并依據(jù)該 關(guān)聯(lián)條件對(duì)未知關(guān)系的用戶進(jìn)行篩選,建立起關(guān)聯(lián)用戶組并通過(guò)優(yōu)化的化geRank算法找 到該組中的核屯、用戶,并將消息發(fā)送給核屯、用戶。
[0168] 此外,優(yōu)化的化geRank算法降低了算法的空間復(fù)雜度和計(jì)算復(fù)雜度,提高了計(jì)算 效率,并解決了存儲(chǔ)問(wèn)題。
[0169] 本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序 產(chǎn)品。因此,本發(fā)明可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí) 施例的形式。而且,本發(fā)明可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī) 可用存儲(chǔ)介質(zhì)(包括但不限于磁盤(pán)存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn) 品的形式。
[0170] 本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程 圖和/或方框圖來(lái)描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一 流程和/或方框、W及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻\(yùn)些計(jì)算 機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理 器W產(chǎn)生一個(gè)機(jī)器,使得通過(guò)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生 用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能 的裝置。 陽(yáng)171] 運(yùn)些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備W特 定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指 令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或 多個(gè)方框中指定的功能。
[0172] 運(yùn)些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì) 算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟W產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或 其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖 一個(gè)方框或多個(gè)方框中指定的功能的步驟。
[0173] 盡管已描述了本發(fā)明的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造 性概念,則可對(duì)運(yùn)些實(shí)施例作出另外的變更和修改。所W,所附權(quán)利要求意欲解釋為包括優(yōu) 選實(shí)施例W及落入本發(fā)明范圍的所有變更和修改。
[0174] 顯然,本領(lǐng)域的技術(shù)人員可W對(duì)本發(fā)明實(shí)施例進(jìn)行各種改動(dòng)和變型而不脫離本發(fā) 明實(shí)施例的精神和范圍。運(yùn)樣,倘若本發(fā)明實(shí)施例的運(yùn)些修改和變型屬于本發(fā)明權(quán)利要求 及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含運(yùn)些改動(dòng)和變型在內(nèi)。
【主權(quán)項(xiàng)】
1. 一種挖掘核心用戶的方法,其特征在于,包括: 獲取用戶歷史操作數(shù)據(jù),分別針對(duì)每一個(gè)用戶篩選出在設(shè)定歷史時(shí)段內(nèi)與相應(yīng)用戶關(guān) 聯(lián)度最高的N個(gè)其他用戶; 分別針對(duì)每一個(gè)用戶,從其對(duì)應(yīng)的N個(gè)其他用戶中篩選出業(yè)務(wù)屬性特征符合預(yù)設(shè)關(guān)聯(lián) 條件的其他用戶,以及將每一個(gè)用戶和對(duì)應(yīng)的篩選后的其他用戶組成關(guān)聯(lián)用戶組; 分別在每一個(gè)關(guān)聯(lián)用戶組中,挑選出被叫等級(jí)最高的用戶作為所在關(guān)聯(lián)用戶組的核心 用戶。2. 如權(quán)利要求1所述的方法,其特征在于,獲取用戶歷史操作數(shù)據(jù),分別針對(duì)一個(gè)用戶 篩選出在設(shè)定歷史時(shí)段內(nèi)與所述一個(gè)用戶關(guān)聯(lián)度最高的N位其他用戶,包括: 獲取用戶歷史操作數(shù)據(jù),分別針對(duì)一個(gè)用戶篩選出在設(shè)定歷史時(shí)段內(nèi)與所述一個(gè)用戶 通話時(shí)間最長(zhǎng)的N位其他用戶,或者,篩選出與所述一個(gè)用戶通話次數(shù)最多的N位其他用 戶,或者,篩選出與所述一個(gè)用戶之間使用指定業(yè)務(wù)次數(shù)最多的N位其他用戶。3. 如權(quán)利要求1或2所述的方法,其特征在于,在獲取用戶歷史操作數(shù)據(jù)之前,進(jìn)一步 包括: 在預(yù)處理階段,確定若干測(cè)試用戶,以及獲取所述若干測(cè)試用戶對(duì)應(yīng)的海量數(shù)據(jù)樣本, 其中,所述若干測(cè)試用戶中設(shè)定比例的用戶之間的關(guān)聯(lián)關(guān)系符合指定需求,且一個(gè)數(shù)據(jù)樣 本中記錄有一個(gè)測(cè)試用戶的基本信息或測(cè)試用戶之間的至少一次業(yè)務(wù)行為; 將所述海量數(shù)據(jù)樣本按照關(guān)聯(lián)關(guān)系整合劃分為訓(xùn)練集合和驗(yàn)證集合; 基于所述訓(xùn)練集合包含的數(shù)據(jù)樣本,提取出測(cè)試用戶的業(yè)務(wù)屬性特征,以及確定各個(gè) 業(yè)務(wù)屬性特征在滿足測(cè)試用戶之間的關(guān)聯(lián)關(guān)系的前提下所需滿足的關(guān)聯(lián)條件; 采用所述驗(yàn)證集合包含的數(shù)據(jù)樣本,對(duì)關(guān)聯(lián)條件進(jìn)行驗(yàn)證,確定驗(yàn)證通過(guò)后,對(duì)所述關(guān) 聯(lián)條件進(jìn)行加載配置。4. 如權(quán)利要求3所述的方法,其特征在于,基于所述訓(xùn)練集合包含的數(shù)據(jù)樣本,提取出 測(cè)試用戶的業(yè)務(wù)屬性特征,以及確定所述各個(gè)業(yè)務(wù)務(wù)屬性特征在滿足測(cè)試用戶之間的關(guān)聯(lián) 關(guān)系的前提下所需滿足的關(guān)聯(lián)條件,包括: 基于所述訓(xùn)練集合包含的數(shù)據(jù)樣本對(duì)預(yù)設(shè)的Μ個(gè)業(yè)務(wù)屬性特征進(jìn)行檢測(cè),篩選出非顯 著業(yè)務(wù)屬性特征,并刪除所述非顯著業(yè)務(wù)屬性特征,其中,非顯著業(yè)務(wù)屬性特征包含有滿足 所述關(guān)聯(lián)關(guān)系的至少兩種取值,且所述至少兩種取值的占比差達(dá)到設(shè)定閾值; 基于所述訓(xùn)練集合包含的數(shù)據(jù)樣本在剩余的業(yè)務(wù)屬性特征中進(jìn)一步篩選出符合預(yù)設(shè) 的特征選擇標(biāo)準(zhǔn)的業(yè)務(wù)屬性特征; 采用決策樹(shù)算法篩選出Ρ個(gè)業(yè)務(wù)屬性特征作為測(cè)試用戶的業(yè)務(wù)屬性特征,將所述Ρ個(gè) 業(yè)務(wù)屬性特征滿足關(guān)聯(lián)關(guān)系的取值設(shè)置為所述關(guān)聯(lián)條件。5. 如權(quán)利要求1或2所述的方法,其特征在于,針對(duì)任意一個(gè)用戶,從其對(duì)應(yīng)的Ν個(gè)其 他用戶中篩選出業(yè)務(wù)屬性特征符合預(yù)設(shè)關(guān)聯(lián)條件的其他用戶,以及將所述任意一個(gè)用戶和 對(duì)應(yīng)的篩選后的其他用戶組成關(guān)聯(lián)用戶組,具體包括: 針對(duì)任意一個(gè)用戶,從其對(duì)應(yīng)的Ν個(gè)其他用戶中篩選出至少一個(gè)業(yè)務(wù)屬性特征符合至 少一條預(yù)設(shè)的關(guān)聯(lián)條件的其他用戶,以及將所述任意一個(gè)用戶和對(duì)應(yīng)的篩選后的其他用戶 組成關(guān)聯(lián)用戶組。6. 如權(quán)利要求1或2所述的方法,其特征在于,在任意一關(guān)聯(lián)用戶組中,挑選出被叫等 級(jí)最高的用戶作為所在關(guān)聯(lián)用戶組的核心用戶,具體包括: 在所述任意一關(guān)聯(lián)用戶組中,采用網(wǎng)頁(yè)排名PageRank算法計(jì)算每一個(gè)用戶在設(shè)定時(shí) 長(zhǎng)內(nèi)的被呼叫等級(jí),所述被呼叫等級(jí)表征呼叫用戶的不同用戶的數(shù)目,將被叫等級(jí)最高的 用戶確定為所述任意一關(guān)聯(lián)用戶組中的核心用戶。7. 如權(quán)利要求1所述的方法,其特征在于,進(jìn)一步包括: 將預(yù)設(shè)的推送消息發(fā)送給各個(gè)核心用戶。8. -種挖掘核心用戶的裝置,其特征在于,包括: 獲取單元,用于獲取用戶歷史操作數(shù)據(jù),分別針對(duì)每一個(gè)用戶篩選出在設(shè)定歷史時(shí)段 內(nèi)與相應(yīng)用戶關(guān)聯(lián)度最高的N個(gè)其他用戶; 篩選單元,用于分別針對(duì)每一個(gè)用戶,從其對(duì)應(yīng)的N個(gè)其他用戶中篩選出業(yè)務(wù)屬性特 征符合預(yù)設(shè)關(guān)聯(lián)條件的其他用戶,以及將每一個(gè)用戶和對(duì)應(yīng)的篩選后的其他用戶組成關(guān)聯(lián) 用戶組; 確定單元,用于分別在每一個(gè)關(guān)聯(lián)用戶組中,挑選出被叫等級(jí)最高的用戶作為所在關(guān) 聯(lián)用戶組的核心用戶。9. 如權(quán)利要求8所述的裝置,其特征在于,獲取用戶歷史操作數(shù)據(jù),分別針對(duì)一個(gè)用戶 篩選出在設(shè)定歷史時(shí)段內(nèi)與所述一個(gè)用戶關(guān)聯(lián)度最高的N位其他用戶,所述獲取單元具體 用于: 獲取用戶歷史操作數(shù)據(jù),分別針對(duì)一個(gè)用戶篩選出在設(shè)定歷史時(shí)段內(nèi)與所述一個(gè)用戶 通話時(shí)間最長(zhǎng)的N位其他用戶,或者,篩選出與所述一個(gè)用戶通話次數(shù)最多的N位其他用 戶,或者,篩選出與所述一個(gè)用戶之間使用指定業(yè)務(wù)次數(shù)最多的N位其他用戶。10. 如權(quán)利要求8或9所述的裝置,其特征在于,進(jìn)一步包括: 預(yù)處理單元,在獲取用戶歷史操作數(shù)據(jù)之前,用于在預(yù)處理階段,確定若干測(cè)試用戶, 以及獲取所述若干測(cè)試用戶對(duì)應(yīng)的海量數(shù)據(jù)樣本,其中,所述若干測(cè)試用戶中設(shè)定比例的 用戶之間的關(guān)聯(lián)關(guān)系符合指定需求,且一個(gè)數(shù)據(jù)樣本中記錄有一個(gè)測(cè)試用戶的基本信息或 測(cè)試用戶之間的至少一次業(yè)務(wù)行為; 將所述海量數(shù)據(jù)樣本劃分為訓(xùn)練集合和驗(yàn)證集合; 基于所述訓(xùn)練集合包含的數(shù)據(jù)樣本,提取出測(cè)試用戶的業(yè)務(wù)屬性特征,以及確定各個(gè) 業(yè)務(wù)屬性特征在滿足測(cè)試用戶之間的關(guān)聯(lián)關(guān)系的前提下所需滿足的關(guān)聯(lián)條件; 采用所述驗(yàn)證集合包含的數(shù)據(jù)樣本,對(duì)關(guān)聯(lián)條件進(jìn)行驗(yàn)證,確定驗(yàn)證通過(guò)后,對(duì)所述關(guān) 聯(lián)條件進(jìn)行加載配置。11. 如權(quán)利要求10所述的裝置,其特征在于,基于所述訓(xùn)練集合包含的數(shù)據(jù)樣本,提取 出測(cè)試用戶的業(yè)務(wù)屬性特征,以及確定所述各個(gè)業(yè)務(wù)務(wù)屬性特征在滿足測(cè)試用戶之間的關(guān) 聯(lián)關(guān)系的前提下所需滿足的關(guān)聯(lián)條件,所述預(yù)處理單元具體用于: 基于所述訓(xùn)練集合包含的數(shù)據(jù)樣本對(duì)預(yù)設(shè)的Μ個(gè)業(yè)務(wù)屬性特征進(jìn)行檢測(cè),篩選出非顯 著業(yè)務(wù)屬性特征,并刪除所述非顯著業(yè)務(wù)屬性特征,其中,非顯著業(yè)務(wù)屬性特征包含有滿足 所述關(guān)聯(lián)關(guān)系的至少兩種取值,且所述至少兩種取值的占比差達(dá)到設(shè)定閾值; 基于所述訓(xùn)練集合包含的數(shù)據(jù)樣本在剩余的業(yè)務(wù)屬性特征中進(jìn)一步篩選出符合預(yù)設(shè) 的特征選擇標(biāo)準(zhǔn)的業(yè)務(wù)屬性特征; 采用決策樹(shù)算法篩選出Ρ個(gè)業(yè)務(wù)屬性特征作為測(cè)試用戶的業(yè)務(wù)屬性特征,將所述Ρ個(gè) 業(yè)務(wù)屬性特征滿足關(guān)聯(lián)關(guān)系的取值設(shè)置為所述關(guān)聯(lián)條件。12. 如權(quán)利要求8或9所述的裝置,其特征在于,針對(duì)任意一個(gè)用戶,從其對(duì)應(yīng)的N個(gè)其 他用戶中篩選出業(yè)務(wù)屬性特征符合預(yù)設(shè)關(guān)聯(lián)條件的其他用戶,以及將所述任意一個(gè)用戶和 對(duì)應(yīng)的篩選后的其他用戶組成關(guān)聯(lián)用戶組,所述篩選單元具體用于: 針對(duì)任意一個(gè)用戶,從其對(duì)應(yīng)的N個(gè)其他用戶中篩選出至少一個(gè)業(yè)務(wù)屬性特征符合至 少一條預(yù)設(shè)的關(guān)聯(lián)條件的其他用戶,以及將所述任意一個(gè)用戶和對(duì)應(yīng)的篩選后的其他用戶 組成關(guān)聯(lián)用戶組。13. 如權(quán)利要求8或9所述的裝置,其特征在于,在任意一關(guān)聯(lián)用戶組中,挑選出被叫等 級(jí)最高的用戶作為所在關(guān)聯(lián)用戶組的核心用戶,所述確定單元具體用于: 在所述任意一關(guān)聯(lián)用戶組中,采用PageRank算法計(jì)算每一個(gè)用戶在設(shè)定時(shí)長(zhǎng)內(nèi)的被 呼叫等級(jí),所述被呼叫等級(jí)表征呼叫用戶的不同用戶的數(shù)目,將被叫等級(jí)最高的用戶確定 為所述任意一關(guān)聯(lián)用戶組中的核心用戶。14. 如權(quán)利要求8所述的裝置,其特征在于,進(jìn)一步包括: 發(fā)送單元,用于將預(yù)設(shè)的推送消息發(fā)送給各個(gè)核心用戶。
【文檔編號(hào)】G06F17/30GK105824813SQ201510002653
【公開(kāi)日】2016年8月3日
【申請(qǐng)日】2015年1月5日
【發(fā)明人】戴潔, 鄭建兵, 顧強(qiáng), 陳宇陽(yáng)
【申請(qǐng)人】中國(guó)移動(dòng)通信集團(tuán)江蘇有限公司