分類模型訓(xùn)練方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本公開(kāi)涉及信息技術(shù)領(lǐng)域,特別涉及一種分類模型訓(xùn)練方法及裝置。
【背景技術(shù)】
[0002] 通常情況下,當(dāng)用戶在某些網(wǎng)站上執(zhí)行了登錄、購(gòu)物、支付等操作時(shí),網(wǎng)站會(huì)根據(jù) 用戶預(yù)先注冊(cè)的電話號(hào)碼發(fā)送通知類的短信,對(duì)用戶進(jìn)行操作提示。
[0003] 通知類的短信中一般會(huì)包括用戶的個(gè)人信息,通過(guò)對(duì)這種短信進(jìn)行分析可以獲知 用戶的個(gè)人信息。例如,用戶在網(wǎng)上購(gòu)買商品之后,商家向用戶發(fā)送的快遞通知短信為:"〈# 姓名#>您好,您的訂單〈#訂單號(hào)#>商品已經(jīng)開(kāi)始派送,配送公司為〈財(cái)夬遞公司#>,快遞單 號(hào):〈#訂單號(hào)#>",從該快遞通知短信中可以獲知用戶的姓名、訂單號(hào)等信息。
[0004] 但是,通知類短信中很少會(huì)包括與用戶性別相關(guān)的信息,根據(jù)通知類短信很難確 定用戶的性別。
【發(fā)明內(nèi)容】
[0005] 為克服相關(guān)技術(shù)中存在的問(wèn)題,本公開(kāi)提供一種分類模型訓(xùn)練方法及裝置。所述 技術(shù)方案如下:
[0006] 根據(jù)本公開(kāi)實(shí)施例的第一方面,提供一種分類模型訓(xùn)練方法,所述方法包括:
[0007] 根據(jù)多個(gè)用戶中每個(gè)用戶的至少一項(xiàng)特征集合,獲取每個(gè)用戶的樣本特征向量, 每個(gè)用戶的至少一項(xiàng)特征集合根據(jù)對(duì)應(yīng)用戶的至少一個(gè)樣本短信確定;
[0008] 確定每個(gè)樣本特征向量所屬用戶的性別標(biāo)識(shí);
[0009 ]根據(jù)每個(gè)樣本特征向量以及每個(gè)樣本特征向量對(duì)應(yīng)的性別標(biāo)識(shí)進(jìn)行訓(xùn)練,得到性 別分類模型。
[0010] 在另一實(shí)施例中,所述根據(jù)每個(gè)樣本特征向量以及每個(gè)樣本特征向量對(duì)應(yīng)的性別 標(biāo)識(shí)進(jìn)行訓(xùn)練,得到性別分類模型,包括:
[0011] 采用決策樹(shù)算法,對(duì)每個(gè)樣本特征向量以及每個(gè)樣本特征向量對(duì)應(yīng)的性別標(biāo)識(shí)進(jìn) 行訓(xùn)練,得到所述性別分類模型。
[0012] 在另一實(shí)施例中,所述采用決策樹(shù)算法,對(duì)每個(gè)樣本特征向量以及每個(gè)樣本特征 向量對(duì)應(yīng)的性別標(biāo)識(shí)進(jìn)行訓(xùn)練,得到所述性別分類模型,包括:
[0013] 將所述多個(gè)樣本特征向量以及每個(gè)樣本特征向量對(duì)應(yīng)的性別標(biāo)識(shí)組合成初始的 特征數(shù)據(jù)集;
[0014] 在訓(xùn)練過(guò)程的每一層中,獲取當(dāng)前的特征數(shù)據(jù)集中的每個(gè)特征維度的增益值,每 個(gè)特征維度與所述多個(gè)樣本特征向量中相應(yīng)位置上的特征值對(duì)應(yīng),所述增益值用于表示對(duì) 應(yīng)特征維度對(duì)性別分類結(jié)果的影響程度;
[0015] 將當(dāng)前的特征數(shù)據(jù)集中增益值最大的特征維度確定為測(cè)試維度,在當(dāng)前層構(gòu)建與 所述測(cè)試維度對(duì)應(yīng)的節(jié)點(diǎn),作為上一層所構(gòu)建節(jié)點(diǎn)的分支節(jié)點(diǎn);
[0016] 按照所述特征數(shù)據(jù)集中所述測(cè)試維度對(duì)應(yīng)的至少一個(gè)特征值,將當(dāng)前的特征數(shù)據(jù) 集劃分為至少一個(gè)子集,并將所述至少一個(gè)子集中所述測(cè)試維度對(duì)應(yīng)的特征值刪除,得到 至少一個(gè)特征數(shù)據(jù)集;
[0017] 將所述至少一個(gè)特征數(shù)據(jù)集傳遞至下一層中,繼續(xù)在下一層根據(jù)對(duì)應(yīng)特征數(shù)據(jù)集 構(gòu)建當(dāng)前層節(jié)點(diǎn)的分支節(jié)點(diǎn),直至當(dāng)前的特征數(shù)據(jù)集中僅包括一種性別標(biāo)識(shí)時(shí),根據(jù)所述 性別標(biāo)識(shí)構(gòu)建節(jié)點(diǎn),將構(gòu)建的多層節(jié)點(diǎn)組合成所述性別分類模型。
[0018] 在另一實(shí)施例中,所述方法還包括:
[0019] 基于所述性別分類模型,對(duì)目標(biāo)用戶進(jìn)行分類,得到所述目標(biāo)用戶的性別標(biāo)識(shí)。
[0020] 在另一實(shí)施例中,所述基于所述分類模型,對(duì)目標(biāo)用戶進(jìn)行分類,得到所述目標(biāo)用 戶的性別標(biāo)識(shí),包括:
[0021] 根據(jù)所述目標(biāo)用戶的至少一項(xiàng)特征集合,獲取所述目標(biāo)用戶的目標(biāo)特征向量,所 述目標(biāo)用戶的至少一項(xiàng)特征集合根據(jù)所述目標(biāo)用戶的至少一個(gè)目標(biāo)短信確定;
[0022] 根據(jù)所述目標(biāo)特征向量和所述性別分類模型,確定所述目標(biāo)用戶的性別標(biāo)識(shí)。 [0023]在另一實(shí)施例中,所述方法還包括:
[0024] 每隔預(yù)設(shè)時(shí)長(zhǎng),獲取所述目標(biāo)用戶的至少一個(gè)目標(biāo)短信,根據(jù)所述至少一個(gè)目標(biāo) 短信確定所述目標(biāo)用戶的至少一項(xiàng)特征集合;或者,
[0025] 當(dāng)檢測(cè)到所述目標(biāo)用戶的目標(biāo)短信數(shù)目增加了預(yù)設(shè)閾值時(shí),獲取所述目標(biāo)用戶的 至少一個(gè)目標(biāo)短信,根據(jù)所述至少一個(gè)目標(biāo)短信確定所述目標(biāo)用戶的至少一項(xiàng)特征集合。
[0026] 在另一實(shí)施例中,用戶的特征集合包括:稱呼特征集合、操作特征集合、應(yīng)用特征 集合中的至少一項(xiàng)。
[0027] 在另一實(shí)施例中,所述稱呼特征集合包括男性稱呼特征集合和女性稱呼特征集 合。
[0028] 在另一實(shí)施例中,所述操作特征集合至少包括網(wǎng)購(gòu)次數(shù)參數(shù)、團(tuán)購(gòu)次數(shù)參數(shù)、月賬 單消費(fèi)參數(shù)中的一種。
[0029] 在另一實(shí)施例中,所述應(yīng)用特征集合至少包括應(yīng)用程序APP注冊(cè)數(shù)量參數(shù)、性別特 定APP參數(shù)中的一種。
[0030] 根據(jù)本公開(kāi)實(shí)施例的第二方面,提供一種分類模型訓(xùn)練裝置,包括裝置包括:
[0031] 第一獲取模塊,用于根據(jù)多個(gè)用戶中每個(gè)用戶的至少一項(xiàng)特征集合,獲取每個(gè)用 戶的樣本特征向量,每個(gè)用戶的至少一項(xiàng)特征集合根據(jù)對(duì)應(yīng)用戶的至少一個(gè)樣本短信確 定;
[0032] 確定模塊,用于確定每個(gè)樣本特征向量所屬用戶的性別標(biāo)識(shí);
[0033]訓(xùn)練模塊,用于根據(jù)每個(gè)樣本特征向量以及每個(gè)樣本特征向量對(duì)應(yīng)的性別標(biāo)識(shí)進(jìn) 行訓(xùn)練,得到性別分類模型。
[0034] 在另一實(shí)施例中,所述訓(xùn)練模塊還用于采用決策樹(shù)算法,對(duì)每個(gè)樣本特征向量以 及每個(gè)樣本特征向量對(duì)應(yīng)的性別標(biāo)識(shí)進(jìn)行訓(xùn)練,得到所述性別分類模型。
[0035] 在另一實(shí)施例中,所述訓(xùn)練模塊還用于將所述多個(gè)樣本特征向量以及每個(gè)樣本特 征向量對(duì)應(yīng)的性別標(biāo)識(shí)組合成初始的特征數(shù)據(jù)集,在訓(xùn)練過(guò)程的每一層中,獲取當(dāng)前的特 征數(shù)據(jù)集中的每個(gè)特征維度的增益值,每個(gè)特征維度與所述多個(gè)樣本特征向量中相應(yīng)位置 上的特征值對(duì)應(yīng),所述增益值用于表示對(duì)應(yīng)特征維度對(duì)性別分類結(jié)果的影響程度,將當(dāng)前 的特征數(shù)據(jù)集中增益值最大的特征維度確定為測(cè)試維度,在當(dāng)前層構(gòu)建與所述測(cè)試維度對(duì) 應(yīng)的節(jié)點(diǎn),作為上一層所構(gòu)建節(jié)點(diǎn)的分支節(jié)點(diǎn),按照所述特征數(shù)據(jù)集中所述測(cè)試維度對(duì)應(yīng) 的至少一個(gè)特征值,將當(dāng)前的特征數(shù)據(jù)集劃分為至少一個(gè)子集,并將所述至少一個(gè)子集中 所述測(cè)試維度對(duì)應(yīng)的特征值刪除,得到至少一個(gè)特征數(shù)據(jù)集,將所述至少一個(gè)特征數(shù)據(jù)集 傳遞至下一層中,繼續(xù)在下一層根據(jù)對(duì)應(yīng)特征數(shù)據(jù)集構(gòu)建當(dāng)前層節(jié)點(diǎn)的分支節(jié)點(diǎn),直至當(dāng) 前的特征數(shù)據(jù)集中僅包括一種性別標(biāo)識(shí)時(shí),根據(jù)所述性別標(biāo)識(shí)構(gòu)建節(jié)點(diǎn),將構(gòu)建的多層節(jié) 點(diǎn)組合成所述性別分類模型。
[0036] 在另一實(shí)施例中,所述裝置還包括:
[0037] 分類模塊,用于基于所述性別分類模型,對(duì)目標(biāo)用戶進(jìn)行分類,得到所述目標(biāo)用戶 的性別標(biāo)識(shí)。
[0038] 在另一實(shí)施例中,所述分類模塊還用于根據(jù)所述目標(biāo)用戶的至少一項(xiàng)特征集合, 獲取所述目標(biāo)用戶的目標(biāo)特征向量,所述目標(biāo)用戶的至少一項(xiàng)特征集合根據(jù)所述目標(biāo)用戶 的至少一個(gè)目標(biāo)短信確定,根據(jù)所述目標(biāo)特征向量和所述性別分類模型,確定所述目標(biāo)用 戶的性別標(biāo)識(shí)。
[0039]在另一實(shí)施例中,所述裝置還包括:
[0040] 第二獲取模塊,用于每隔預(yù)設(shè)時(shí)長(zhǎng),獲取所述目標(biāo)用戶的至少一個(gè)目標(biāo)短信,根據(jù) 所述至少一個(gè)目標(biāo)短信確定所述目標(biāo)用戶的至少一項(xiàng)特征集合;或者,當(dāng)檢測(cè)到所述目標(biāo) 用戶的目標(biāo)短信數(shù)目增加了預(yù)設(shè)閾值時(shí),獲取所述目標(biāo)用戶的至少一個(gè)目標(biāo)短信,根據(jù)所 述至少一個(gè)目標(biāo)短信確定所述目標(biāo)用戶的至少一項(xiàng)特征集合。
[0041] 在另一實(shí)施例中,用戶的特征集合包括:稱呼特征集合、操作特征集合、應(yīng)用特征 集合中的至少一項(xiàng)。
[0042] 在另一實(shí)施例中,所述稱呼特征集合包括男性稱呼特征集合和女性稱呼特征集 合。
[0043] 在另一實(shí)施例中,所述操作特征集合至少包括網(wǎng)購(gòu)次數(shù)參數(shù)、團(tuán)購(gòu)次數(shù)參數(shù)、月賬 單消費(fèi)參數(shù)中的一種。
[0044] 在另一實(shí)施例中,所述應(yīng)用特征集合至少包括應(yīng)用程序APP注冊(cè)數(shù)量參數(shù)、性別特 定APP參數(shù)中的一種。
[0045] 根據(jù)本公開(kāi)的第三方面,提供一種分類模型訓(xùn)練裝置,所述裝置包括:
[0046] 處理器;
[0047]用于存儲(chǔ)所述處理器可執(zhí)行指令的存儲(chǔ)器;
[0048]其中,所述處理器被配置為:
[0049] 根據(jù)多個(gè)用戶中每個(gè)用戶的至少一項(xiàng)特征集合,獲取每個(gè)用戶的樣本特征向量, 每個(gè)用戶的至少一項(xiàng)特征集合根據(jù)對(duì)應(yīng)用戶的至少一個(gè)樣本短信確定;
[0050] 確定每個(gè)樣本特征向量所屬用戶的性別標(biāo)識(shí);
[0051 ]根據(jù)每個(gè)樣本特征向量以及每個(gè)樣本特征向量對(duì)應(yīng)的性別標(biāo)識(shí)進(jìn)行訓(xùn)練,得到性 別分類模型。
[0052]本公開(kāi)的實(shí)施例提供的技術(shù)方案可以包括以下有益效果:
[0053]通過(guò)根據(jù)每個(gè)用戶的至少一個(gè)樣本短信確定每個(gè)用戶的至少一項(xiàng)特征集合,從而 獲取每個(gè)用戶的樣本特征向量,確定每個(gè)樣本特征向量所屬用戶的性別標(biāo)識(shí),根據(jù)多個(gè)用 戶中每個(gè)樣本特征向量以及每個(gè)樣本特征向量對(duì)應(yīng)的性別標(biāo)識(shí)進(jìn)行訓(xùn)練,得到性別分類模 型,該性別分類模型可以用于性別分類,實(shí)現(xiàn)了根據(jù)用戶的樣本短信確定用戶性別的目的, 增加了樣本短信的信息量,提高了靈活性。
[0054] 在另一實(shí)施例中,采用決策樹(shù)算法,對(duì)每個(gè)樣本特征向量以及每個(gè)樣本特征向量 對(duì)應(yīng)的性別標(biāo)識(shí)進(jìn)行訓(xùn)練,得到所述性別分類模型。例如,將所述多個(gè)樣本特征向量以及每 個(gè)樣本特征向量對(duì)應(yīng)的性別標(biāo)識(shí)組合成初始的特征數(shù)據(jù)集,獲取特征數(shù)據(jù)集中的每個(gè)特征 維度的增益值,每個(gè)特征維度與所述多個(gè)樣本特征向量中相應(yīng)位置上的特征值對(duì)應(yīng),所述 增益值用于表示對(duì)應(yīng)特征維度對(duì)性別分類結(jié)果的影響程度,將當(dāng)前的特征數(shù)據(jù)集中增益值 最大的特征維度確定為測(cè)試維度,在當(dāng)前層構(gòu)建與所述測(cè)試維度對(duì)應(yīng)的節(jié)點(diǎn),作為上一層 所構(gòu)建節(jié)點(diǎn)的分支節(jié)點(diǎn),按照所述特征數(shù)據(jù)集中所述測(cè)試維度對(duì)應(yīng)的至少一個(gè)特征值,將 當(dāng)前的特征數(shù)據(jù)集劃分為至少一個(gè)子集,并將所述至少一個(gè)子集中所述測(cè)試維度對(duì)應(yīng)的特 征值刪除,得到至少一個(gè)特征數(shù)據(jù)集,將所述至少一個(gè)特征數(shù)據(jù)集傳遞至下一層中,繼續(xù)在 下一層根據(jù)對(duì)應(yīng)特征數(shù)據(jù)集構(gòu)建當(dāng)前層節(jié)點(diǎn)的分支節(jié)點(diǎn),直至當(dāng)前的特征數(shù)據(jù)集中僅包括 一種性別標(biāo)識(shí)時(shí),根據(jù)所述性別標(biāo)識(shí)構(gòu)建節(jié)點(diǎn),將構(gòu)建的多層節(jié)點(diǎn)組合成所述性別分類模 型。通過(guò)對(duì)多個(gè)樣本特征向量以及每個(gè)樣本特征向量所屬用戶的性別標(biāo)識(shí)進(jìn)行訓(xùn)練,不斷 根據(jù)不同的特征維度構(gòu)建多層節(jié)點(diǎn),從而得到準(zhǔn)確的性別分類模型,能夠提高基于性別分 類模型確定用戶性別標(biāo)識(shí)的準(zhǔn)確率。
[0055] 在另一實(shí)施例中,基于所述性別分類模型,對(duì)目標(biāo)用戶進(jìn)行分類,得到所述目標(biāo)用 戶的性別標(biāo)識(shí)。通過(guò)對(duì)目標(biāo)用戶進(jìn)行分