本公開(kāi)涉及互聯(lián)網(wǎng)
技術(shù)領(lǐng)域:
,具體涉及一種用戶(hù)數(shù)據(jù)分類(lèi)方法、裝置、服務(wù)器和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù):
:市場(chǎng)研究者和社會(huì)學(xué)家近年來(lái)越發(fā)意識(shí)到,不同類(lèi)別例如處于不同人生階段的消費(fèi)者表現(xiàn)出不同的購(gòu)物行為??梢詫?duì)消費(fèi)者做一些粗粒度的人生階段劃分,例如,求學(xué)階段(年輕人,且單身),新婚(年輕人,且沒(méi)有小孩),中年(結(jié)婚,且有0或多個(gè)孩子),老年(年齡較高或退休,且子女獨(dú)立生活)等。顯然,即不同人生階段(年齡段)的人表現(xiàn)出差異化的消費(fèi)趨勢(shì)。例如,懷孕的婦女會(huì)購(gòu)買(mǎi)葉酸、維生素,媽媽們會(huì)根據(jù)嬰兒的年齡段購(gòu)買(mǎi)對(duì)應(yīng)的商品,如奶粉、嬰兒車(chē)、安全座椅、益智玩具等等。在電商網(wǎng)站的母嬰頻道、垂直類(lèi)app中,消費(fèi)者購(gòu)買(mǎi)模式相當(dāng)明顯。可以在電商廣告的精準(zhǔn)人群定向業(yè)務(wù)和推薦系統(tǒng)中,引入消費(fèi)者的人生階段定向,從而可以獲得更好的推薦效果。但是在實(shí)現(xiàn)本發(fā)明的過(guò)程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在如下技術(shù)問(wèn)題:方法的有效性非常依賴(lài)訓(xùn)練數(shù)據(jù)的正確性和規(guī)模,同時(shí),由于某些商品如母嬰類(lèi)商品由于其屬性的標(biāo)準(zhǔn)特征,比如奶粉明確會(huì)注明適齡范圍,本身已經(jīng)有很強(qiáng)的人群定向,作為推薦應(yīng)用未必合適。因此,需要一種對(duì)用戶(hù)進(jìn)行分類(lèi)的方法及裝置,能夠更好地對(duì)用戶(hù)進(jìn)行分類(lèi),例如更準(zhǔn)確可靠地挖掘電商系統(tǒng)中具有相同人生階段的消費(fèi)者的,從而服務(wù)于電商廣告的精準(zhǔn)人群定向。技術(shù)實(shí)現(xiàn)要素:根據(jù)本公開(kāi)的第一方面,提供了一種用戶(hù)數(shù)據(jù)分類(lèi)方法,所述方法包括:產(chǎn)生用戶(hù)數(shù)據(jù)的特征;根據(jù)標(biāo)注規(guī)則,產(chǎn)生用戶(hù)數(shù)據(jù)的標(biāo)注數(shù)據(jù)集和未標(biāo)注數(shù)據(jù)集;根據(jù)所述標(biāo)注數(shù)據(jù)集和未標(biāo)注數(shù)據(jù)集,構(gòu)建多個(gè)類(lèi)別中的一個(gè)類(lèi)別的正樣本標(biāo)注數(shù)據(jù)集p和未知樣本數(shù)據(jù)集u;根據(jù)正樣本標(biāo)注數(shù)據(jù)集p和未知樣本數(shù)據(jù)集u以及相對(duì)應(yīng)的用戶(hù)數(shù)據(jù)的特征,產(chǎn)生分類(lèi)器;以及使用所述分類(lèi)器確定未標(biāo)注數(shù)據(jù)集中的用戶(hù)數(shù)據(jù)是否屬于所述那一個(gè)類(lèi)別。在一個(gè)實(shí)施例中,所述用戶(hù)數(shù)據(jù)可以是電商用戶(hù)數(shù)據(jù),所述多個(gè)類(lèi)別是多個(gè)人生階段,例如母嬰人生階段。在一個(gè)實(shí)施例中,所述方法還可以包括判斷所述用戶(hù)數(shù)據(jù)是否滿(mǎn)足標(biāo)注規(guī)則,如果滿(mǎn)足則加入到標(biāo)注數(shù)據(jù)集中,所述標(biāo)注規(guī)則可以包括:如果用戶(hù)數(shù)據(jù)指示只購(gòu)買(mǎi)過(guò)一個(gè)人生階段的商品,則將購(gòu)買(mǎi)時(shí)間確定為該人生階段的開(kāi)始時(shí)間,如果用戶(hù)數(shù)據(jù)指示購(gòu)買(mǎi)過(guò)多個(gè)人生階段的商品且按照時(shí)間順序購(gòu)買(mǎi),則最后一次購(gòu)買(mǎi)的時(shí)間確定相對(duì)應(yīng)的人生階段的開(kāi)始時(shí)間,和/或如果用戶(hù)數(shù)據(jù)指示購(gòu)買(mǎi)過(guò)多個(gè)人生階段的商品且沒(méi)有按照時(shí)間順序購(gòu)買(mǎi),則以最早的人生階段為準(zhǔn),將屬于該人生階段的最早下單時(shí)間確定該人生階段的開(kāi)始時(shí)間。所述方法還可以包括,根據(jù)所確定的人生階段的開(kāi)始時(shí)間、每個(gè)人生階段的持續(xù)時(shí)間和當(dāng)前時(shí)間,確定用戶(hù)數(shù)據(jù)當(dāng)前屬于哪個(gè)人生階段。在一個(gè)實(shí)施例中,所述特征可以包括購(gòu)買(mǎi)商品的類(lèi)目特征、人口屬性特征以及時(shí)間特征,所述時(shí)間特征可以包括購(gòu)買(mǎi)時(shí)間加權(quán)特征和與各個(gè)人生階段有關(guān)的特征。在一個(gè)實(shí)施例中,所述正樣本標(biāo)準(zhǔn)數(shù)據(jù)集p可以包括標(biāo)注數(shù)據(jù)集中屬于所述類(lèi)別的用戶(hù)數(shù)據(jù),未知樣本數(shù)據(jù)集u包括由標(biāo)注數(shù)據(jù)集中不屬于所述類(lèi)別的用戶(hù)數(shù)據(jù)和未標(biāo)注數(shù)據(jù)集中的用戶(hù)數(shù)據(jù)組成的集合中的至少一部分,并且產(chǎn)生分類(lèi)器可以包括以下步驟:設(shè)置分類(lèi)器m為空,并且可靠負(fù)樣本集合rn為空;從p中隨機(jī)采樣一部分用戶(hù)數(shù)據(jù)s加入u,更新p和u,記為ps=p-s,us=u+s;使用ps作為正樣本,us作為負(fù)樣本,訓(xùn)練邏輯回歸分類(lèi)器lri,i=0,1,...,如下(1)利用s設(shè)定分類(lèi)器閾值th;(2)對(duì)于每一個(gè)樣本u∈us:如果在lri的分類(lèi)器結(jié)果小于閾值th,則將u加入rn中,并且us=us-rn;(3)m=m+lri;使用ps作為正樣本,rn作為負(fù)樣本,訓(xùn)練邏輯回歸分類(lèi)器lri,重復(fù)以上步驟(1)-(3),直到滿(mǎn)足迭代終止條件,得到分類(lèi)器lrlast;使用lrlast對(duì)p進(jìn)行分類(lèi),如果超過(guò)一定閾值數(shù)量的正樣本被判定為負(fù),則返回lr1作為最終分類(lèi)器,否則返回lrlast作為最終的分類(lèi)器。根據(jù)本公開(kāi)的第二方面,提供了一種用戶(hù)數(shù)據(jù)分類(lèi)裝置,包括:特征產(chǎn)生單元701、標(biāo)注單元702、樣本構(gòu)建單元703、分類(lèi)器產(chǎn)生單元704和分類(lèi)單元705。特征產(chǎn)生單元701被配置為產(chǎn)生用戶(hù)數(shù)據(jù)的特征。標(biāo)注單元702被配置為根據(jù)標(biāo)注規(guī)則,產(chǎn)生用戶(hù)數(shù)據(jù)的標(biāo)注數(shù)據(jù)集和未標(biāo)注數(shù)據(jù)集。樣本構(gòu)建單元703被配置為根據(jù)所述標(biāo)注數(shù)據(jù)集和未標(biāo)注數(shù)據(jù)集,構(gòu)建多個(gè)類(lèi)別中的一個(gè)類(lèi)別的正樣本標(biāo)注數(shù)據(jù)集p和未知樣本數(shù)據(jù)集u。分類(lèi)器產(chǎn)生單元704被配置為根據(jù)正樣本標(biāo)注數(shù)據(jù)集p和未知樣本數(shù)據(jù)集u以及相對(duì)應(yīng)的用戶(hù)數(shù)據(jù)的特征,產(chǎn)生分類(lèi)器。分類(lèi)單元705被配置為使用所述分類(lèi)器確定未標(biāo)注數(shù)據(jù)集中的用戶(hù)數(shù)據(jù)是否屬于所述那一個(gè)類(lèi)別。在一個(gè)實(shí)施例中,所述用戶(hù)數(shù)據(jù)可以是電商用戶(hù)數(shù)據(jù),所述多個(gè)類(lèi)別可以是多個(gè)人生階段,例如母嬰人生階段。在一個(gè)實(shí)施例中,所述標(biāo)注單元還可以被配置為判斷所述用戶(hù)數(shù)據(jù)是否滿(mǎn)足標(biāo)注規(guī)則,如果滿(mǎn)足則加入到標(biāo)注數(shù)據(jù)集中,所述標(biāo)注規(guī)則包括:如果用戶(hù)數(shù)據(jù)指示只購(gòu)買(mǎi)過(guò)一個(gè)人生階段的商品,則將購(gòu)買(mǎi)時(shí)間確定為該人生階段的開(kāi)始時(shí)間,如果用戶(hù)數(shù)據(jù)指示購(gòu)買(mǎi)過(guò)多個(gè)人生階段的商品且按照時(shí)間順序購(gòu)買(mǎi),則最后一次購(gòu)買(mǎi)的時(shí)間確定相對(duì)應(yīng)的人生階段的開(kāi)始時(shí)間,和/或如果用戶(hù)數(shù)據(jù)指示購(gòu)買(mǎi)過(guò)多個(gè)人生階段的商品且沒(méi)有按照時(shí)間順序購(gòu)買(mǎi),則以最早的人生階段為準(zhǔn),將屬于該人生階段的最早下單時(shí)間確定該人生階段的開(kāi)始時(shí)間。所述標(biāo)志單元還可以被配置為根據(jù)所確定的人生階段的開(kāi)始時(shí)間、每個(gè)人生階段的持續(xù)時(shí)間和當(dāng)前時(shí)間,確定用戶(hù)數(shù)據(jù)當(dāng)前屬于哪個(gè)人生階段。在一個(gè)實(shí)施例中,所述特征可以包括購(gòu)買(mǎi)商品的類(lèi)目特征、人口屬性特征以及時(shí)間特征,其中所述時(shí)間特征還可以包括購(gòu)買(mǎi)時(shí)間加權(quán)特征和與各個(gè)人生階段有關(guān)的特征。在一個(gè)實(shí)施例中,正樣本標(biāo)準(zhǔn)數(shù)據(jù)集p可以包括標(biāo)注數(shù)據(jù)集中屬于所述類(lèi)別的用戶(hù)數(shù)據(jù),未知樣本數(shù)據(jù)集u可以包括由標(biāo)注數(shù)據(jù)集中不屬于所述類(lèi)別的用戶(hù)數(shù)據(jù)和未標(biāo)注數(shù)據(jù)集中的用戶(hù)數(shù)據(jù)組成的集合中的至少一部分,并且分類(lèi)器產(chǎn)生單元還可以被配置為:設(shè)置分類(lèi)器m為空,并且可靠負(fù)樣本集合rn為空;從p中隨機(jī)采樣一部分用戶(hù)數(shù)據(jù)s加入u,更新p和u,記為ps=p-s,us=u+s;使用ps作為正樣本,us作為負(fù)樣本,訓(xùn)練邏輯回歸分類(lèi)器lri,i=0,1,...,如下(1)利用s設(shè)定分類(lèi)器閾值th;(2)對(duì)于每一個(gè)樣本u∈us:如果在lri的分類(lèi)器結(jié)果小于閾值th,則將u加入rn中,并且us=us-rn;(3)m=m+lri;使用ps作為正樣本,rn作為負(fù)樣本,訓(xùn)練邏輯回歸分類(lèi)器lri,重復(fù)以上步驟(1)-(3),直到滿(mǎn)足迭代終止條件,得到分類(lèi)器lrlast;使用lrlast對(duì)p進(jìn)行分類(lèi),如果超過(guò)一定閾值數(shù)量的正樣本被判定為負(fù),則返回lr1作為最終分類(lèi)器,否則返回lrlast作為最終的分類(lèi)器。根據(jù)本公開(kāi)的第三方面,提供一種服務(wù)器,包括:一個(gè)或多個(gè)處理器;存儲(chǔ)裝置,用于存儲(chǔ)一個(gè)或多個(gè)程序,當(dāng)所述一個(gè)或多個(gè)程序被所述一個(gè)或多個(gè)處理器執(zhí)行,使得所述一個(gè)或多個(gè)處理器實(shí)現(xiàn)如第一方面所述的方法。根據(jù)本公開(kāi)的第四方面,提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)計(jì)算機(jī)指令,所述計(jì)算機(jī)指令當(dāng)被計(jì)算機(jī)執(zhí)行,使得所述計(jì)算機(jī)執(zhí)行如第一方面所述的方法。本公開(kāi)提出了改進(jìn)的用戶(hù)數(shù)據(jù)分類(lèi)方法,通過(guò)標(biāo)注數(shù)據(jù)集和未標(biāo)注數(shù)據(jù)集,來(lái)訓(xùn)練分類(lèi)器,從而可以實(shí)現(xiàn)更加精準(zhǔn)的分類(lèi)。更具體地,可以在電商廣告精準(zhǔn)人群定向業(yè)務(wù)中引入了人生階段定向,其可以拓展應(yīng)用于包括母嬰人生階段的各個(gè)人生階段的定向,從而可以提供更好的個(gè)性化推薦效果。附圖說(shuō)明通過(guò)以下參照附圖對(duì)本公開(kāi)實(shí)施例的描述,本公開(kāi)的上述以及其他目的、特征和優(yōu)點(diǎn)將更為清楚,在附圖中:圖1是示出根據(jù)本公開(kāi)實(shí)施例的人群挖掘基本流程100的概要圖。圖2a至2d是示出根據(jù)本公開(kāi)實(shí)施例的用于標(biāo)注用戶(hù)數(shù)據(jù)的人生階段的示意圖;圖3是示出根據(jù)本公開(kāi)實(shí)施例的樹(shù)形結(jié)構(gòu)的電商類(lèi)目體系的示意圖;圖4是示出根據(jù)本公開(kāi)實(shí)施例的產(chǎn)生特定人生階段的標(biāo)簽的方法的流程圖;圖5是示出根據(jù)本公開(kāi)實(shí)施例的abtest標(biāo)簽評(píng)價(jià)設(shè)計(jì)的示意圖;圖6是示出根據(jù)本公開(kāi)實(shí)施例的用戶(hù)數(shù)據(jù)分類(lèi)方法的流程圖;圖7是示出根據(jù)本公開(kāi)實(shí)施例的用戶(hù)數(shù)據(jù)分類(lèi)裝置的示意框圖;圖8是示出可以應(yīng)用本公開(kāi)的用戶(hù)數(shù)據(jù)分類(lèi)方法或用戶(hù)數(shù)據(jù)分類(lèi)裝置的示例性系統(tǒng)架構(gòu)800的示意框圖;以及圖9是示出用于實(shí)現(xiàn)本公開(kāi)實(shí)施例的計(jì)算機(jī)系統(tǒng)900的結(jié)構(gòu)示意圖。具體實(shí)施方式以下,將參照附圖來(lái)描述本公開(kāi)的實(shí)施例。但是應(yīng)該理解,這些描述只是示例性的,而并非要限制本公開(kāi)的范圍。此外,在以下說(shuō)明中,省略了對(duì)公知結(jié)構(gòu)和技術(shù)的描述,以避免不必要地混淆本公開(kāi)的概念。在此使用的術(shù)語(yǔ)僅僅是為了描述具體實(shí)施例,而并非意在限制本公開(kāi)。這里使用的詞語(yǔ)“一”、“一個(gè)(種)”和“該”等也應(yīng)包括“多個(gè)”、“多種”的意思,除非上下文另外明確指出。此外,在此使用的術(shù)語(yǔ)“包括”、“包含”等表明了所述特征、步驟、操作和/或部件的存在,但是并不排除存在或添加一個(gè)或多個(gè)其他特征、步驟、操作或部件。在此使用的所有術(shù)語(yǔ)(包括技術(shù)和科學(xué)術(shù)語(yǔ))具有本領(lǐng)域技術(shù)人員通常所理解的含義,除非另外定義。應(yīng)注意,這里使用的術(shù)語(yǔ)應(yīng)解釋為具有與本說(shuō)明書(shū)的上下文相一致的含義,而不應(yīng)以理想化或過(guò)于刻板的方式來(lái)解釋。附圖中示出了一些方框圖和/或流程圖。應(yīng)理解,方框圖和/或流程圖中的一些方框或其組合可以由計(jì)算機(jī)程序指令來(lái)實(shí)現(xiàn)。這些計(jì)算機(jī)程序指令可以提供給通用計(jì)算機(jī)、專(zhuān)用計(jì)算機(jī)或其他可編程數(shù)據(jù)處理裝置的處理器,從而這些指令在由該處理器執(zhí)行時(shí)可以創(chuàng)建用于實(shí)現(xiàn)這些方框圖和/或流程圖中所說(shuō)明的功能/操作的裝置。以下,本公開(kāi)將以人生階段(例如,母嬰人生階段)的挖掘?yàn)槔f(shuō)明對(duì)用戶(hù)數(shù)據(jù)進(jìn)行挖掘或者說(shuō)分類(lèi),但是本領(lǐng)域技術(shù)人員能夠認(rèn)識(shí)到,本公開(kāi)也可以拓展應(yīng)用于其他分類(lèi)。圖1示出了根據(jù)本公開(kāi)實(shí)施例的人群挖掘基本流程100的概要圖。如圖1所示,根據(jù)該實(shí)施例的人群挖掘基本流程100可以包括在120中對(duì)數(shù)據(jù)進(jìn)行標(biāo)注。例如,可以從數(shù)據(jù)倉(cāng)庫(kù)110獲取用戶(hù)數(shù)據(jù),分析電商用戶(hù)的購(gòu)買(mǎi)行為,并且定義合理規(guī)則,以便自動(dòng)化標(biāo)注產(chǎn)生標(biāo)注數(shù)據(jù)集和未標(biāo)注數(shù)據(jù)集,稍后詳細(xì)描述。另外,該人群挖掘基本流程100可以包括在130中構(gòu)建特征。例如,可以從數(shù)據(jù)倉(cāng)庫(kù)110獲取用戶(hù)數(shù)據(jù),從用戶(hù)的購(gòu)買(mǎi)行為中提取可供訓(xùn)練的特征。在數(shù)據(jù)標(biāo)注操作120中得到的標(biāo)注數(shù)據(jù)集和未標(biāo)注數(shù)據(jù)集以及特征構(gòu)建操作130中得到的特征可以送入分類(lèi)器產(chǎn)生模型140中,以便產(chǎn)生分類(lèi)器。例如,可以利用標(biāo)注數(shù)據(jù)集和未標(biāo)注數(shù)據(jù)集以及構(gòu)成的訓(xùn)練特征,進(jìn)行正例和無(wú)標(biāo)記樣本學(xué)習(xí),并通過(guò)此學(xué)習(xí)過(guò)程生成分類(lèi)器模型,以便為大量未標(biāo)記數(shù)據(jù)進(jìn)行標(biāo)注。具體地,如圖1所示,利用正例無(wú)樣本標(biāo)記學(xué)習(xí)算法,以迭代方式產(chǎn)生邏輯回歸(lr)分類(lèi)器。盡管圖1示出了兩個(gè)lr分類(lèi)器,但是本領(lǐng)域技術(shù)人員可以理解,這僅是示例,表示以迭代方式產(chǎn)生分類(lèi)器。另外,還可以在150對(duì)所產(chǎn)生的分類(lèi)器進(jìn)行效果評(píng)價(jià)。例如,可以使用測(cè)試集、線(xiàn)上a/b測(cè)試對(duì)分類(lèi)器的分類(lèi)結(jié)果進(jìn)行評(píng)價(jià)。以下將詳細(xì)描述上述各個(gè)流程步驟。本公開(kāi)以母嬰人群挖掘?yàn)槔?,闡述本公開(kāi)的具體內(nèi)容。例如,數(shù)據(jù)范圍是2015年1月-12月消費(fèi)者在京東網(wǎng)站上消費(fèi)行為。為敘述方便,可以將母嬰人群劃分如下各階段,并用字母lx代表不同標(biāo)簽人群,參見(jiàn)下表。表1母嬰人群階段及標(biāo)簽值標(biāo)簽值母嬰人生階段l0懷孕l(wèi)1寶寶0-3個(gè)月l2寶寶3-6個(gè)月l3寶寶6-12個(gè)月l4寶寶12-24個(gè)月標(biāo)注數(shù)據(jù)首先,可以對(duì)用戶(hù)數(shù)據(jù)做統(tǒng)計(jì)分析,去除在一段時(shí)間內(nèi)下單量異常的用戶(hù)。例如,在最近1年內(nèi)下單頻次超高和極低的用戶(hù),這部分用戶(hù)被認(rèn)為有刷單行為或消費(fèi)特征不顯著。其次,對(duì)過(guò)濾后的用戶(hù),可以先確定何時(shí)進(jìn)入了某一個(gè)母嬰階段,再根據(jù)其行為特征確定其當(dāng)前可能處于哪個(gè)母嬰階段(例如,時(shí)間上的延續(xù)或者角色上的確認(rèn))。以下,將描述如何確定用戶(hù)何時(shí)進(jìn)入了某一個(gè)母嬰階段。有些商品只適用于某類(lèi)母嬰階段,例如,處于l0的用戶(hù)更可能會(huì)買(mǎi)防輻射服或者葉酸。通過(guò)對(duì)母嬰商品按階段性的劃分,可以大致判斷出購(gòu)買(mǎi)人群目前所處的母嬰階段。不同階段對(duì)應(yīng)的特征商品及商品屬性整可以理成類(lèi)似如下的表格。表2不同母嬰階段對(duì)應(yīng)的特征商品為了追蹤用戶(hù)整年對(duì)母嬰商品的購(gòu)買(mǎi)行為序列,可以為每個(gè)用戶(hù)建立了一個(gè)訂單母嬰各階段行為統(tǒng)計(jì)表,記錄每個(gè)用戶(hù)購(gòu)買(mǎi)屬于某個(gè)母嬰階段的訂單總量,第一次以及最后次的購(gòu)買(mǎi)時(shí)間。通過(guò)這些統(tǒng)計(jì)數(shù)據(jù)可以初步判定一些用戶(hù)的母嬰狀態(tài),也作為后續(xù)模型預(yù)測(cè)的基礎(chǔ)特征。圖2a示出了各個(gè)母嬰階段的行為統(tǒng)計(jì),其記錄每個(gè)用戶(hù)購(gòu)買(mǎi)各個(gè)階段母嬰類(lèi)商品的相關(guān)信息,例如,購(gòu)買(mǎi)屬于lx(x=0,1,2,3,4)商品的訂單總量、第一次購(gòu)買(mǎi)屬于lx商品的時(shí)間,以及最后一次購(gòu)買(mǎi)屬于lx商品的時(shí)間。在生成用戶(hù)的各個(gè)母嬰階段行為統(tǒng)計(jì)后,可以根據(jù)如下標(biāo)注規(guī)則來(lái)確定用戶(hù)在有購(gòu)買(mǎi)行為內(nèi)處于哪個(gè)母嬰階段以及開(kāi)始進(jìn)入這個(gè)階段的時(shí)間:規(guī)則一、用戶(hù)下單未跨多個(gè)母嬰階段。這時(shí),用戶(hù)只下過(guò)屬于某一母嬰階段商品的訂單。例如,如圖2b所示,用戶(hù)購(gòu)買(mǎi)了屬于l4階段的商品(1次或多次),并未買(mǎi)過(guò)l0-l3階段的商品。這種情況判定用戶(hù)從早一次下單時(shí)間點(diǎn)算起處在l4階段。由于用戶(hù)只下過(guò)屬于l4階段的訂單,所以輸出用戶(hù)(l4,2015-11-23),表明該用戶(hù)從2015年11月23號(hào)開(kāi)始進(jìn)入l4這個(gè)階段。規(guī)則二、用戶(hù)下單跨多個(gè)母嬰階段,這進(jìn)一步細(xì)分為兩種情況:(a)多個(gè)階段的下單時(shí)間沒(méi)有交叉。即用戶(hù)是按照時(shí)間序,順序購(gòu)買(mǎi)了母嬰階段的產(chǎn)品,那么以最后一次購(gòu)買(mǎi)的商品對(duì)應(yīng)的人生階段為準(zhǔn),以那個(gè)人生階段的最早下單時(shí)間算起。例如,如圖2c所示,用戶(hù)最后下單的商品處于l4階段,所以輸出用戶(hù)(l4,2015-12-21),表明該用戶(hù)從2015年12月21號(hào)開(kāi)始進(jìn)入l4這個(gè)母嬰階段。(b)多個(gè)階段的下單時(shí)間有交叉。即用戶(hù)購(gòu)買(mǎi)了多個(gè)人生階段的商品,且對(duì)應(yīng)的人生階段不是按照時(shí)間順序演進(jìn)的。例如,用戶(hù)(實(shí)際可能是懷孕階段),先買(mǎi)了一個(gè)嬰兒車(chē)(假設(shè),3-6個(gè)月使用),后又買(mǎi)了一個(gè)奶嘴(假設(shè),0-3個(gè)月使用),那么以用戶(hù)所買(mǎi)商品中對(duì)應(yīng)人生階段最早的為準(zhǔn),近似判斷用戶(hù)處于l1階段(0-3個(gè)月),且以l1階段的最早下單時(shí)間算起。例如,如圖2d所示,用戶(hù)最后下單的商品處于l1階段,所以輸出用戶(hù)(l1,2015-09-10),表明該用戶(hù)在2015-09-10進(jìn)入l1階段。在確定了用戶(hù)何時(shí)進(jìn)入了某一個(gè)母嬰階段后,就可以根據(jù)事先劃分的每個(gè)階段所持續(xù)的時(shí)間,來(lái)推算進(jìn)入母嬰階段后的用戶(hù),到當(dāng)前(例如,2015年12月31日)應(yīng)該處于哪個(gè)母嬰階段了。這部分?jǐn)?shù)據(jù)將用來(lái)建立分類(lèi)器模型訓(xùn)練的正例樣本(即,被標(biāo)注為屬于特定母嬰階段的用戶(hù)數(shù)據(jù)),稍后將詳細(xì)描述。需要注意的是,盡管描述了可以利用上述標(biāo)注規(guī)則來(lái)推算用戶(hù)應(yīng)當(dāng)處于哪個(gè)母嬰階段,但是上述規(guī)則可能只能覆蓋到一部分用戶(hù)數(shù)據(jù)并產(chǎn)生標(biāo)注數(shù)據(jù)。即,所述規(guī)則可能不能覆蓋所有的用戶(hù)數(shù)據(jù),這時(shí),規(guī)則覆蓋不到的用戶(hù)數(shù)據(jù)將形成未標(biāo)注數(shù)據(jù),將來(lái)需要通過(guò)分類(lèi)器來(lái)分類(lèi)。由此,通過(guò)標(biāo)注數(shù)據(jù)120,可以由數(shù)據(jù)倉(cāng)庫(kù)110的用戶(hù)數(shù)據(jù)產(chǎn)生標(biāo)注數(shù)據(jù)集和未標(biāo)注數(shù)據(jù)集。構(gòu)建特征在訓(xùn)練模型前需要構(gòu)建特征作為分類(lèi)器產(chǎn)生模型140的輸入,所用的特征可以包括以下幾組:類(lèi)目特征、用戶(hù)人口屬性特征以及時(shí)間特征,以下分別描述。類(lèi)目特征一般而言,各個(gè)電商以層級(jí)類(lèi)目來(lái)陳列商品。例如,京東用三級(jí)類(lèi)目來(lái)陳列不同屬性的商品,便于用戶(hù)快速定位到所需的商品。例如,圖3示出了根據(jù)本公開(kāi)實(shí)施例的樹(shù)形結(jié)構(gòu)的電商類(lèi)目體系。其中,京東商城的商品包括:第一級(jí)類(lèi)目的家用電器,……,圖書(shū)音像電子書(shū)等;家用電器下的第二級(jí)類(lèi)目的大家電,……,個(gè)護(hù)健康,五金家裝等;以及大家電下的第三級(jí)類(lèi)目的平板電視,空調(diào),洗衣機(jī)等。用戶(hù)購(gòu)買(mǎi)商品反映了他當(dāng)時(shí)或者今后一段時(shí)間內(nèi)的需求。例如,懷孕初期的媽媽更傾向于買(mǎi)孕婦裝、防輻射服等,而后期有可能買(mǎi)尿不濕、奶粉、嬰兒床等為她孩子的到來(lái)提前準(zhǔn)備。但對(duì)于買(mǎi)什么品牌(例如幫寶適還是花王或其他品牌)的尿不濕則并不必關(guān)心。因此,選擇用戶(hù)對(duì)三級(jí)類(lèi)目的購(gòu)買(mǎi)行為就可以較細(xì)粒度地描述用戶(hù)的需求,而且能夠把同種類(lèi)型商品歸成一類(lèi)。為了減少流行類(lèi)目的影響,可以把用戶(hù)當(dāng)作文檔,把每個(gè)類(lèi)目當(dāng)作文檔中出現(xiàn)的單詞,計(jì)算用戶(hù)tf-idf(詞頻-逆向文件頻率)值來(lái)構(gòu)建類(lèi)目特征向量。用戶(hù)人口屬性特征通常,用戶(hù)的消費(fèi)行為與用戶(hù)的人口屬性特征有關(guān)。例如,不同年齡段的用戶(hù)、性別、在電商的會(huì)員等級(jí)(往往體現(xiàn)了其消費(fèi)能力)等差別,都會(huì)在用戶(hù)的消費(fèi)習(xí)慣上有差異體現(xiàn)。本公開(kāi)使用電商網(wǎng)站的注冊(cè)用戶(hù)信息、用戶(hù)的購(gòu)物行為,提取出多個(gè)用戶(hù)維度的特征,稱(chēng)之為“用戶(hù)畫(huà)像”。如下表所示,用戶(hù)人口屬性特征的一個(gè)示例。表3用戶(hù)人口屬性特征時(shí)間特征時(shí)間特征可以包括例如與各個(gè)人生階段(例如,母嬰階段)有關(guān)的時(shí)間特征和時(shí)間加權(quán)特征。與各個(gè)人生階段有關(guān)的時(shí)間特征。例如,用戶(hù)一年前購(gòu)買(mǎi)孕婦裝和一月前購(gòu)買(mǎi)孕婦裝對(duì)推測(cè)其現(xiàn)在所處哪個(gè)母嬰階段有很大差異,后者更可能屬于l0階段;同時(shí),如果用戶(hù)多次購(gòu)買(mǎi)屬于某母嬰階段(l0)商品,則可以大致推測(cè)用戶(hù)在此階段經(jīng)歷了多久時(shí)間,一個(gè)經(jīng)歷了9個(gè)月懷孕期的用戶(hù)比一個(gè)經(jīng)歷了2個(gè)月的懷孕期的用戶(hù)更有可能購(gòu)買(mǎi)下一階段(l1)的商品。為此,本公開(kāi)提出如下表所示的示例性母嬰商品購(gòu)買(mǎi)特征。表4用戶(hù)購(gòu)買(mǎi)各母嬰階段商品的時(shí)間特征時(shí)間加權(quán)特征。同樣地,例如,一個(gè)用戶(hù)一年前購(gòu)買(mǎi)過(guò)商品和一月前購(gòu)買(mǎi)商品對(duì)其現(xiàn)在的活躍度也有很大差異,后者更有可能在短期內(nèi)再次購(gòu)買(mǎi)商品。定義時(shí)間加權(quán)特征公式,如下:其中λ是衰減因子,本公開(kāi)可以取值為5.0/365,t為2015年12月31日的時(shí)間戳,ti為用戶(hù)第i次的下單日期時(shí)間戳,m為此用戶(hù)的下單總次數(shù)。最后,訓(xùn)練時(shí)要把各類(lèi)特征進(jìn)行歸一化,整理成多維度的特征矩陣,其中每個(gè)用戶(hù)的特征向量對(duì)應(yīng)矩陣的一行,如下:分類(lèi)器模型產(chǎn)生在本公開(kāi)中,分類(lèi)器模型產(chǎn)生可以包括正例和無(wú)標(biāo)注樣本學(xué)習(xí)。本公開(kāi)應(yīng)用半監(jiān)督學(xué)習(xí)方法(pu-learning)實(shí)現(xiàn)人群擴(kuò)展。如上所述,通過(guò)標(biāo)注規(guī)則只能得到小規(guī)模的正樣本標(biāo)注數(shù)據(jù),并且無(wú)法標(biāo)注可靠負(fù)樣本集合,因此無(wú)法直接訓(xùn)練出可靠的分類(lèi)模型。本公開(kāi)通過(guò)應(yīng)用正例和無(wú)樣本標(biāo)記的學(xué)習(xí)方法來(lái)解決只有少量正例和大量未知樣本的分類(lèi)問(wèn)題。具體地,本公開(kāi)提出了一種可稱(chēng)為“間諜技術(shù)”的算法,其按一定采樣率把正例加入無(wú)標(biāo)記樣本中訓(xùn)練模型得到可靠負(fù)例,所述采樣率指提取混入無(wú)標(biāo)記數(shù)據(jù)中的正例數(shù)據(jù)量在總正例數(shù)據(jù)量總的占比。所述算法基本思想如下:由于沒(méi)有可靠負(fù)樣本,所以初始可靠負(fù)樣本集合rn為空,從正樣本p中隨機(jī)抽取部分?jǐn)?shù)據(jù)s加入到未知樣本u中,可得ps和us,為ps打上標(biāo)簽1,us打上標(biāo)簽0后訓(xùn)練初始邏輯回歸分類(lèi)器,再利用s數(shù)據(jù)集設(shè)定閾值為整個(gè)u分類(lèi),把分類(lèi)器標(biāo)記0的數(shù)據(jù)w加入到rn中,此后用ps和rn來(lái)訓(xùn)練分類(lèi)器,為剩下的u分類(lèi),把分類(lèi)得到0樣本加入rn中,反復(fù)迭代直至滿(mǎn)足終止條件??傊员WC對(duì)正例的分類(lèi)正確率為前提,正例和無(wú)樣本標(biāo)記學(xué)習(xí)算法每次迭代可以擴(kuò)大可靠負(fù)樣本集。通常,正例和無(wú)樣本標(biāo)記學(xué)習(xí)方法多適用于二分類(lèi)問(wèn)題,而母嬰人生階段劃分屬于多分類(lèi)問(wèn)題,本公開(kāi)采用one-vs-rest把一個(gè)多分類(lèi)問(wèn)題轉(zhuǎn)化成多個(gè)二分類(lèi)問(wèn)題。完整的基于“間諜技術(shù)”的正例和無(wú)樣本標(biāo)記學(xué)習(xí)算法流程可歸納如下:算法正例和無(wú)樣本標(biāo)記學(xué)習(xí)算法流程在上述算法中,正例和無(wú)樣本標(biāo)記學(xué)習(xí)算法有一些參數(shù)需要設(shè)置,例如采樣率s%和閾值th。為使得訓(xùn)練的正樣本不能太少,又使得s有一定規(guī)劃可以達(dá)到“間諜”的作用,本公開(kāi)可以使用例如15%的采樣率。理想情況下,對(duì)每次迭代中產(chǎn)生的模型設(shè)定的閾值th,要使得整個(gè)s數(shù)據(jù)集都能正確分為正例,但由于數(shù)據(jù)中存在噪聲,th的設(shè)置保證模型對(duì)s數(shù)據(jù)集分類(lèi)的準(zhǔn)確在例如80%-100%之間即可,本公開(kāi)以保證對(duì)s分類(lèi)的正確率在例如95%來(lái)設(shè)置th閾值。圖4示出了根據(jù)本公開(kāi)實(shí)施例的產(chǎn)生懷孕(l0)階段標(biāo)簽的方法400的流程圖。本領(lǐng)域技術(shù)人員可以理解,用同樣的方法也適用于生成l1至l4階段標(biāo)簽。方法400包括在步驟401開(kāi)始。然后在步驟402,判斷用戶(hù)數(shù)據(jù)是否滿(mǎn)足自動(dòng)化標(biāo)注規(guī)則。如是,則在步驟403得到用戶(hù)數(shù)據(jù)的正例,也就是說(shuō)得到標(biāo)注數(shù)據(jù)集。這時(shí),標(biāo)注數(shù)據(jù)集可以包括l0至l4各個(gè)階段的用戶(hù)數(shù)據(jù)。如果在步驟402為否,則相應(yīng)的用戶(hù)數(shù)據(jù)構(gòu)成未標(biāo)注數(shù)據(jù),即自動(dòng)化標(biāo)注規(guī)則無(wú)法覆蓋用戶(hù)數(shù)據(jù)。接下來(lái),在步驟405,判斷步驟403得到的正例用戶(hù)數(shù)據(jù)是否屬于l0階段,因?yàn)橐韵聦⑹褂胦ne-vs-rest的方式進(jìn)行二分類(lèi)。如是,則將相應(yīng)的用戶(hù)數(shù)據(jù)標(biāo)記為1,并且可以按照8∶1∶1的比例,隨機(jī)生成訓(xùn)練數(shù)據(jù)集p、驗(yàn)證數(shù)據(jù)集和測(cè)試集。本領(lǐng)域技術(shù)人員可以理解,可以按照一定比例將正例數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)集、驗(yàn)證數(shù)據(jù)集和測(cè)試集以便產(chǎn)生更為準(zhǔn)確可靠的分類(lèi)器,并且這種比例關(guān)系不限于以上。針對(duì)在步驟404產(chǎn)生的未標(biāo)注數(shù)據(jù)以及經(jīng)過(guò)步驟405判斷不屬于l0階段的用戶(hù)數(shù)據(jù),可以將它們合并,以便按照一定比例從中提取產(chǎn)生未標(biāo)記數(shù)據(jù)集u。例如,可以依據(jù)訓(xùn)練數(shù)據(jù)集p,對(duì)p以1∶10的比例從合并數(shù)據(jù)中隨機(jī)采樣數(shù)據(jù),以產(chǎn)生未標(biāo)記數(shù)據(jù)集u。即,正例樣本和無(wú)標(biāo)記樣本的用戶(hù)數(shù)據(jù)之比為1∶10。此外,除了正例訓(xùn)練數(shù)據(jù)集p和未標(biāo)記數(shù)據(jù)集u,還需要用戶(hù)數(shù)據(jù)的特征來(lái)作為正例和無(wú)樣本標(biāo)記學(xué)習(xí)算法的輸入。因此,在步驟408,可以提取用戶(hù)數(shù)據(jù)的特征。由上,在步驟409,通過(guò)正例和無(wú)樣本標(biāo)記學(xué)習(xí)算法產(chǎn)生分類(lèi)器,具體過(guò)程可以參考上文所述的流程。然后,在步驟410,使用所產(chǎn)生的分類(lèi)器,對(duì)未標(biāo)注數(shù)據(jù)進(jìn)行分類(lèi),如果在步驟411輸出為1,則在步驟412將相應(yīng)的用戶(hù)數(shù)據(jù)打上l0標(biāo)簽。步驟413,方法400結(jié)束。重復(fù)類(lèi)似的方法,就可以將所有用戶(hù)數(shù)據(jù)分類(lèi)到各個(gè)人生階段。效果評(píng)價(jià)除離線(xiàn)對(duì)分類(lèi)模型進(jìn)行交叉驗(yàn)證評(píng)價(jià)外,本公開(kāi)還設(shè)計(jì)了一種abtest線(xiàn)上驗(yàn)證機(jī)制,其可通過(guò)abtest線(xiàn)上驗(yàn)證標(biāo)簽質(zhì)量及業(yè)務(wù)指標(biāo),通過(guò)對(duì)電商消費(fèi)者人群的預(yù)測(cè)來(lái)驗(yàn)證挖掘結(jié)果的可靠性。如圖5所示,示出了abtest標(biāo)簽評(píng)價(jià)設(shè)計(jì),從流量端按照曝光是否命中標(biāo)簽用戶(hù),其中把流量劃分為3個(gè)集合。a集合:表示參與實(shí)驗(yàn)的曝光;b集合:表示a中請(qǐng)求時(shí)用戶(hù)身上帶有待驗(yàn)證標(biāo)簽l的曝光;c集合:表示b中由定向標(biāo)簽l觸發(fā)的曝光。這里,以母嬰人群標(biāo)簽驗(yàn)證為例,為衡量l0定向標(biāo)簽的價(jià)值,設(shè)計(jì)對(duì)比實(shí)驗(yàn)如下:exp-base:pv(頁(yè)面瀏覽量,pageview)采樣,基準(zhǔn)實(shí)驗(yàn),表示正確使用標(biāo)簽l0的數(shù)據(jù);exp-random:pv采樣,隨機(jī)實(shí)驗(yàn),表示使用隨機(jī)的定向標(biāo)簽l0的數(shù)據(jù)(實(shí)現(xiàn)方式為隨機(jī)選擇用戶(hù)u1和u2,交換他們的定向l0標(biāo)簽數(shù)據(jù),其他不變);exp-unuse:pv采樣,不使用定向標(biāo)簽l0,人工去掉用戶(hù)身上的l0標(biāo)簽數(shù)據(jù)。通過(guò)abtest系統(tǒng),在b集合上,分別對(duì)比exp-base與exp-random、exp-unuse,在c集合上,對(duì)比exp-base與exp-random,觀察如cpm(costpermille,千次展示付費(fèi))、ctr(clickthroughrate,點(diǎn)擊率)等廣告業(yè)務(wù)指標(biāo)等。圖6示出了根據(jù)本公開(kāi)實(shí)施例的一種用戶(hù)數(shù)據(jù)分類(lèi)方法600,所述方法600包括:在步驟601,產(chǎn)生用戶(hù)數(shù)據(jù)的特征;在步驟602,根據(jù)標(biāo)注規(guī)則,產(chǎn)生用戶(hù)數(shù)據(jù)的標(biāo)注數(shù)據(jù)集和未標(biāo)注數(shù)據(jù)集;在步驟603,根據(jù)所述標(biāo)注數(shù)據(jù)集和未標(biāo)注數(shù)據(jù)集,構(gòu)建多個(gè)(例如,多于2個(gè))類(lèi)別中的一個(gè)類(lèi)別的正樣本標(biāo)注數(shù)據(jù)集p和未知樣本數(shù)據(jù)集u;在步驟604,根據(jù)正樣本標(biāo)注數(shù)據(jù)集p和未知樣本數(shù)據(jù)集u以及相對(duì)應(yīng)的用戶(hù)數(shù)據(jù)的特征,產(chǎn)生分類(lèi)器;以及在步驟605,使用所述分類(lèi)器確定未標(biāo)注數(shù)據(jù)集中的用戶(hù)數(shù)據(jù)是否屬于所述那一個(gè)類(lèi)別。在一個(gè)實(shí)施例中,所述用戶(hù)數(shù)據(jù)可以是電商用戶(hù)數(shù)據(jù),所述多個(gè)類(lèi)別是多個(gè)人生階段。在一個(gè)實(shí)施例中,所述方法600還可以包括判斷所述用戶(hù)數(shù)據(jù)是否滿(mǎn)足標(biāo)注規(guī)則,如果滿(mǎn)足則加入到標(biāo)注數(shù)據(jù)集中,所述標(biāo)注規(guī)則可以包括:如果用戶(hù)數(shù)據(jù)指示只購(gòu)買(mǎi)過(guò)一個(gè)人生階段的商品,則將購(gòu)買(mǎi)時(shí)間確定為該人生階段的開(kāi)始時(shí)間,如果用戶(hù)數(shù)據(jù)指示購(gòu)買(mǎi)過(guò)多個(gè)人生階段的商品且按照時(shí)間順序購(gòu)買(mǎi),則最后一次購(gòu)買(mǎi)的時(shí)間確定相對(duì)應(yīng)的人生階段的開(kāi)始時(shí)間,和/或如果用戶(hù)數(shù)據(jù)指示購(gòu)買(mǎi)過(guò)多個(gè)人生階段的商品且沒(méi)有按照時(shí)間順序購(gòu)買(mǎi),則以最早的人生階段為準(zhǔn),將屬于該人生階段的最早下單時(shí)間確定該人生階段的開(kāi)始時(shí)間。所述方法還可以包括,根據(jù)所確定的人生階段的開(kāi)始時(shí)間、每個(gè)人生階段的持續(xù)時(shí)間和當(dāng)前時(shí)間,確定用戶(hù)數(shù)據(jù)當(dāng)前屬于哪個(gè)人生階段。在一個(gè)實(shí)施例中,所述特征可以包括購(gòu)買(mǎi)商品的類(lèi)目特征、人口屬性特征以及時(shí)間特征,所述時(shí)間特征可以包括購(gòu)買(mǎi)時(shí)間加權(quán)特征和與各個(gè)人生階段有關(guān)的特征。在一個(gè)實(shí)施例中,所述正樣本標(biāo)準(zhǔn)數(shù)據(jù)集p可以包括標(biāo)注數(shù)據(jù)集中屬于所述類(lèi)別的用戶(hù)數(shù)據(jù),未知樣本數(shù)據(jù)集u包括由標(biāo)注數(shù)據(jù)集中不屬于所述類(lèi)別的用戶(hù)數(shù)據(jù)和未標(biāo)注數(shù)據(jù)集中的用戶(hù)數(shù)據(jù)組成的集合中的至少一部分,并且產(chǎn)生分類(lèi)器可以包括以下步驟:設(shè)置分類(lèi)器m為空,并且可靠負(fù)樣本集合rn為空;從p中隨機(jī)采樣一部分用戶(hù)數(shù)據(jù)s加入u,更新p和u,記為ps=p-s,us=u+s;使用ps作為正樣本,us作為負(fù)樣本,訓(xùn)練邏輯回歸分類(lèi)器lri,i=0,1,...,如下(1)利用s設(shè)定分類(lèi)器閾值th;(2)對(duì)于每一個(gè)樣本u∈us:如果在lri的分類(lèi)器結(jié)果小于閾值th,則將u加入rn中,并且us=us-rn;(3)m=m+lri;使用ps作為正樣本,rn作為負(fù)樣本,訓(xùn)練邏輯回歸分類(lèi)器lri,重復(fù)以上步驟(1)-(3),直到滿(mǎn)足迭代終止條件,得到分類(lèi)器lrlast;使用lrlast對(duì)p進(jìn)行分類(lèi),如果超過(guò)一定閾值數(shù)量的正樣本被判定為負(fù),則返回lr1作為最終分類(lèi)器,否則返回lrlast作為最終的分類(lèi)器。圖7示出了根據(jù)本公開(kāi)實(shí)施例的用戶(hù)數(shù)據(jù)分類(lèi)裝置700。用戶(hù)數(shù)據(jù)分類(lèi)裝置700包括:特征產(chǎn)生單元701、標(biāo)注單元702、樣本構(gòu)建單元703、分類(lèi)器產(chǎn)生單元704和分類(lèi)單元705。特征產(chǎn)生單元701被配置為產(chǎn)生用戶(hù)數(shù)據(jù)的特征。標(biāo)注單元702被配置為根據(jù)標(biāo)注規(guī)則,產(chǎn)生用戶(hù)數(shù)據(jù)的標(biāo)注數(shù)據(jù)集和未標(biāo)注數(shù)據(jù)集。樣本構(gòu)建單元703被配置為根據(jù)所述標(biāo)注數(shù)據(jù)集和未標(biāo)注數(shù)據(jù)集,構(gòu)建多個(gè)類(lèi)別中的一個(gè)類(lèi)別的正樣本標(biāo)注數(shù)據(jù)集p和未知樣本數(shù)據(jù)集u。分類(lèi)器產(chǎn)生單元704被配置為根據(jù)正樣本標(biāo)注數(shù)據(jù)集p和未知樣本數(shù)據(jù)集u以及相對(duì)應(yīng)的用戶(hù)數(shù)據(jù)的特征,產(chǎn)生分類(lèi)器。分類(lèi)單元705被配置為使用所述分類(lèi)器確定未標(biāo)注數(shù)據(jù)集中的用戶(hù)數(shù)據(jù)是否屬于所述那一個(gè)類(lèi)別。在一個(gè)實(shí)施例中,所述用戶(hù)數(shù)據(jù)可以是電商用戶(hù)數(shù)據(jù),所述多個(gè)類(lèi)別可以是多個(gè)人生階段。在一個(gè)實(shí)施例中,所述標(biāo)注單元還可以被配置為判斷所述用戶(hù)數(shù)據(jù)是否滿(mǎn)足標(biāo)注規(guī)則,如果滿(mǎn)足則加入到標(biāo)注數(shù)據(jù)集中,所述標(biāo)注規(guī)則包括:如果用戶(hù)數(shù)據(jù)指示只購(gòu)買(mǎi)過(guò)一個(gè)人生階段的商品,則將購(gòu)買(mǎi)時(shí)間確定為該人生階段的開(kāi)始時(shí)間,如果用戶(hù)數(shù)據(jù)指示購(gòu)買(mǎi)過(guò)多個(gè)人生階段的商品且按照時(shí)間順序購(gòu)買(mǎi),則最后一次購(gòu)買(mǎi)的時(shí)間確定相對(duì)應(yīng)的人生階段的開(kāi)始時(shí)間,和/或如果用戶(hù)數(shù)據(jù)指示購(gòu)買(mǎi)過(guò)多個(gè)人生階段的商品且沒(méi)有按照時(shí)間順序購(gòu)買(mǎi),則以最早的人生階段為準(zhǔn),將屬于該人生階段的最早下單時(shí)間確定該人生階段的開(kāi)始時(shí)間。所述標(biāo)志單元還可以被配置為根據(jù)所確定的人生階段的開(kāi)始時(shí)間、每個(gè)人生階段的持續(xù)時(shí)間和當(dāng)前時(shí)間,確定用戶(hù)數(shù)據(jù)當(dāng)前屬于哪個(gè)人生階段。在一個(gè)實(shí)施例中,所述特征可以包括購(gòu)買(mǎi)商品的類(lèi)目特征、人口屬性特征以及時(shí)間特征,其中所述時(shí)間特征還可以包括購(gòu)買(mǎi)時(shí)間加權(quán)特征和與各個(gè)人生階段有關(guān)的特征。在一個(gè)實(shí)施例中,正樣本標(biāo)準(zhǔn)數(shù)據(jù)集p可以包括標(biāo)注數(shù)據(jù)集中屬于所述類(lèi)別的用戶(hù)數(shù)據(jù),未知樣本數(shù)據(jù)集u可以包括由標(biāo)注數(shù)據(jù)集中不屬于所述類(lèi)別的用戶(hù)數(shù)據(jù)和未標(biāo)注數(shù)據(jù)集中的用戶(hù)數(shù)據(jù)組成的集合中的至少一部分,并且分類(lèi)器產(chǎn)生單元還可以被配置為:設(shè)置分類(lèi)器m為空,并且可靠負(fù)樣本集合rn為空;從p中隨機(jī)采樣一部分用戶(hù)數(shù)據(jù)s加入u,更新p和u,記為ps=p-s,us=u+s;使用ps作為正樣本,us作為負(fù)樣本,訓(xùn)練邏輯回歸分類(lèi)器lri,i=0,1,...,如下(1)利用s設(shè)定分類(lèi)器閾值th;(2)對(duì)于每一個(gè)樣本u∈us:如果在lri的分類(lèi)器結(jié)果小于閾值th,則將u加入rn中,并且us=us-rn;(3)m=m+lri;使用ps作為正樣本,rn作為負(fù)樣本,訓(xùn)練邏輯回歸分類(lèi)器lri,重復(fù)以上步驟(1)-(3),直到滿(mǎn)足迭代終止條件,得到分類(lèi)器lrlast;使用lrlast對(duì)p進(jìn)行分類(lèi),如果超過(guò)一定閾值數(shù)量的正樣本被判定為負(fù),則返回lr1作為最終分類(lèi)器,否則返回lrlast作為最終的分類(lèi)器。圖8示出了可以應(yīng)用本公開(kāi)的用戶(hù)數(shù)據(jù)分類(lèi)方法或用戶(hù)數(shù)據(jù)分類(lèi)裝置的示例性系統(tǒng)架構(gòu)800。如圖8所示,系統(tǒng)架構(gòu)800可以包括終端設(shè)備801、802、803,網(wǎng)絡(luò)804和服務(wù)器805。網(wǎng)絡(luò)804用以在終端設(shè)備801、802、803和服務(wù)器805之間提供通信鏈路的介質(zhì)。網(wǎng)絡(luò)804可以包括各種連接類(lèi)型,例如有線(xiàn)、無(wú)線(xiàn)通信鏈路或者光纖電纜等等。用戶(hù)可以使用終端設(shè)備801、802、803通過(guò)網(wǎng)絡(luò)804與服務(wù)器805交互,以接收或發(fā)送消息等。終端設(shè)備801、802、803上可以安裝有各種通訊客戶(hù)端應(yīng)用,例如購(gòu)物類(lèi)應(yīng)用、網(wǎng)頁(yè)瀏覽器應(yīng)用、搜索類(lèi)應(yīng)用、即時(shí)通信工具、郵箱客戶(hù)端、社交平臺(tái)軟件等(僅為示例)。終端設(shè)備801、802、803可以是具有顯示屏并且支持網(wǎng)頁(yè)瀏覽的各種電子設(shè)備,包括但不限于智能手機(jī)、平板電腦、膝上型便攜計(jì)算機(jī)和臺(tái)式計(jì)算機(jī)等等。服務(wù)器805可以是提供各種服務(wù)的服務(wù)器,例如對(duì)用戶(hù)利用終端設(shè)備801、802、803所瀏覽的購(gòu)物類(lèi)網(wǎng)站提供支持的后臺(tái)管理服務(wù)器(僅為示例)。后臺(tái)管理服務(wù)器可以對(duì)接收到的產(chǎn)品信息查詢(xún)請(qǐng)求等數(shù)據(jù)進(jìn)行分析等處理,并將處理結(jié)果(例如目標(biāo)推送信息、產(chǎn)品信息--僅為示例)反饋給終端設(shè)備。需要說(shuō)明的是,本申請(qǐng)實(shí)施例所提供的用戶(hù)數(shù)據(jù)分類(lèi)方法一般可以由服務(wù)器805執(zhí)行,相應(yīng)地,用戶(hù)數(shù)據(jù)分類(lèi)裝置一般可以設(shè)置于服務(wù)器805中。應(yīng)該理解,圖8中的終端設(shè)備、網(wǎng)絡(luò)和服務(wù)器的數(shù)目?jī)H僅是示意性的。根據(jù)實(shí)現(xiàn)需要,可以具有任意數(shù)目的終端設(shè)備、網(wǎng)絡(luò)和服務(wù)器。下面參考圖9,其示出了適于用于實(shí)現(xiàn)本公開(kāi)實(shí)施例的計(jì)算機(jī)系統(tǒng)900的結(jié)構(gòu)示意圖。圖9示出的計(jì)算機(jī)系統(tǒng)僅僅是一個(gè)示例,不應(yīng)對(duì)本公開(kāi)實(shí)施例的功能和使用范圍帶來(lái)任何限制。如圖9所示,計(jì)算機(jī)系統(tǒng)900包括中央處理單元(cpu)901,其可以根據(jù)存儲(chǔ)在只讀存儲(chǔ)器(rom)902中的程序或者從存儲(chǔ)部分908加載到隨機(jī)訪(fǎng)問(wèn)存儲(chǔ)器(ram)903中的程序而執(zhí)行各種適當(dāng)?shù)膭?dòng)作和處理。在ram903中,還存儲(chǔ)有系統(tǒng)900操作所需的各種程序和數(shù)據(jù)。cpu901、rom902以及ram903通過(guò)總線(xiàn)904彼此相連。輸入/輸出(i/o)接口905也連接至總線(xiàn)904。以下部件連接至i/o接口905:包括鍵盤(pán)、鼠標(biāo)等的輸入部分906;包括諸如陰極射線(xiàn)管(crt)、液晶顯示器(lcd)等以及揚(yáng)聲器等的輸出部分907;包括硬盤(pán)等的存儲(chǔ)部分908;以及包括諸如lan卡、調(diào)制解調(diào)器等的網(wǎng)絡(luò)接口卡的通信部分909。通信部分909經(jīng)由諸如因特網(wǎng)的網(wǎng)絡(luò)執(zhí)行通信處理。驅(qū)動(dòng)器910也根據(jù)需要連接至i/o接口905??刹鹦督橘|(zhì)911,諸如磁盤(pán)、光盤(pán)、磁光盤(pán)、半導(dǎo)體存儲(chǔ)器等等,根據(jù)需要安裝在驅(qū)動(dòng)器910上,以便于從其上讀出的計(jì)算機(jī)程序根據(jù)需要被安裝入存儲(chǔ)部分908。特別地,根據(jù)本公開(kāi)的實(shí)施例,上文參考流程圖描述的過(guò)程可以被實(shí)現(xiàn)為計(jì)算機(jī)軟件程序。例如,本公開(kāi)的實(shí)施例包括一種計(jì)算機(jī)程序產(chǎn)品,其包括承載在計(jì)算機(jī)可讀介質(zhì)上的計(jì)算機(jī)程序,該計(jì)算機(jī)程序包含用于執(zhí)行流程圖所示的方法的程序代碼。在這樣的實(shí)施例中,該計(jì)算機(jī)程序可以通過(guò)通信部分909從網(wǎng)絡(luò)上被下載和安裝,和/或從可拆卸介質(zhì)911被安裝。在該計(jì)算機(jī)程序被中央處理單元(cpu)901執(zhí)行時(shí),執(zhí)行本公開(kāi)的系統(tǒng)中限定的上述功能。需要說(shuō)明的是,本申請(qǐng)所示的計(jì)算機(jī)可讀介質(zhì)可以是計(jì)算機(jī)可讀信號(hào)介質(zhì)或者計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)或者是上述兩者的任意組合。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)例如可以是——但不限于——電、磁、光、電磁、紅外線(xiàn)、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的更具體的例子可以包括但不限于:具有一個(gè)或多個(gè)導(dǎo)線(xiàn)的電連接、便攜式計(jì)算機(jī)磁盤(pán)、硬盤(pán)、隨機(jī)訪(fǎng)問(wèn)存儲(chǔ)器(ram)、只讀存儲(chǔ)器(rom)、可擦式可編程只讀存儲(chǔ)器(eprom或閃存)、光纖、便攜式緊湊磁盤(pán)只讀存儲(chǔ)器(cd-rom)、光存儲(chǔ)器件、磁存儲(chǔ)器件、或者上述的任意合適的組合。在本申請(qǐng)中,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是任何包含或存儲(chǔ)程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。而在本申請(qǐng)中,計(jì)算機(jī)可讀的信號(hào)介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號(hào),其中承載了計(jì)算機(jī)可讀的程序代碼。這種傳播的數(shù)據(jù)信號(hào)可以采用多種形式,包括但不限于電磁信號(hào)、光信號(hào)或上述的任意合適的組合。計(jì)算機(jī)可讀的信號(hào)介質(zhì)還可以是計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)以外的任何計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。計(jì)算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括但不限于:無(wú)線(xiàn)、電線(xiàn)、光纜、rf等等,或者上述的任意合適的組合。附圖中的流程圖和框圖,圖示了按照本申請(qǐng)各種實(shí)施例的系統(tǒng)、方法和計(jì)算機(jī)程序產(chǎn)品的可能實(shí)現(xiàn)的體系架構(gòu)、功能和操作。在這點(diǎn)上,流程圖或框圖中的每個(gè)方框可以代表一個(gè)模塊、程序段、或代碼的一部分,上述模塊、程序段、或代碼的一部分包含一個(gè)或多個(gè)用于實(shí)現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實(shí)現(xiàn)中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個(gè)接連地表示的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時(shí)也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖或流程圖中的每個(gè)方框、以及框圖或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專(zhuān)用的基于硬件的系統(tǒng)來(lái)實(shí)現(xiàn),或者可以用專(zhuān)用硬件與計(jì)算機(jī)指令的組合來(lái)實(shí)現(xiàn)。當(dāng)前第1頁(yè)12