化待訓(xùn)練模型的各個(gè)參數(shù),得到本輪分類模型。
[0073]針對(duì)該步驟,分類模型的訓(xùn)練過(guò)程是一個(gè)參數(shù)逐步優(yōu)化的過(guò)程。在基于特征向量對(duì)首輪正例樣本和首輪負(fù)例樣本中除去保留樣本之外的剩余樣本進(jìn)行分類后,可基于首輪正例樣本判斷初步訓(xùn)練出的分類模型對(duì)樣本的分類是否正確。也即,根據(jù)樣本歸屬的實(shí)際類別和預(yù)測(cè)類別之間的差距不斷地調(diào)整分類模型的參數(shù),逐步地優(yōu)化分類模型中的各個(gè)參數(shù),得到分類模型。
[0074]205、根據(jù)保留樣本對(duì)首輪分類模型進(jìn)行評(píng)估。
[0075]在得到首輪分類模型后,為了檢測(cè)首輪分類模型的分類性能,還需根據(jù)保留樣本對(duì)首輪分類模型進(jìn)行評(píng)估。其中,保留樣本包括了來(lái)自于正例樣本的第一樣本,來(lái)自于負(fù)例樣本的第二樣本。
[0076]在根據(jù)第一樣本和所述第二樣本,對(duì)首輪分類模型進(jìn)行評(píng)估時(shí),可評(píng)估首輪分類模型的分類準(zhǔn)確率、召回率、AUC(Area Under ROC Curve,受試者工作特征曲線下的面積)等等指標(biāo)。其中,分類準(zhǔn)確率,指代被分類為該類別的樣本中實(shí)際分類正確樣本所占的比例。即,分類準(zhǔn)確率對(duì)應(yīng)分類中某個(gè)類別,分子是預(yù)測(cè)該類別正確的樣本數(shù)量,分母是預(yù)測(cè)為該類別的全部樣本的數(shù)量,其是分類模型將樣本預(yù)測(cè)為某一個(gè)類別的正確率的評(píng)價(jià),值越大,模型預(yù)測(cè)準(zhǔn)確度越高。召回率也稱之為查全率,指代被正確分類的樣本占所有保留樣本的比例。
[0077]AUC是一種用來(lái)度量分類模型好壞的一個(gè)標(biāo)準(zhǔn)。ROC(Receiver OperatingCharacteristic,受試者工作特征曲線),其主要分析工具是一個(gè)畫(huà)在二維平面上的曲線ROC curve。平面的橫坐標(biāo)是 FPR(False Positive Rate),縱坐標(biāo)是 TPR(true positiverate)。對(duì)分類模型而言,可以根據(jù)其在保留樣本上的表現(xiàn)得到一個(gè)TPR和FPR點(diǎn)對(duì)。這樣,此分類器就可以映射成ROC平面上的一個(gè)點(diǎn)。調(diào)整這個(gè)分類器分類時(shí)候使用的閾值,可以得到一個(gè)經(jīng)過(guò)(0,0),(1,I)的曲線,這就是分類模型的ROC曲線。一般情況下,這個(gè)曲線都應(yīng)該處于(0,O)和(1,I)連線的上方。因?yàn)?0,O)和(1,I)連線形成的ROC曲線實(shí)際上代表的是一個(gè)隨機(jī)分類器。雖然,用ROC curve來(lái)表示分類器的performance很直觀好用??墒牵藗兛偸窍M苡幸粋€(gè)數(shù)值來(lái)標(biāo)志分類器的好壞,于是AUC出現(xiàn)了。AUC的值就是處于ROC curve下方的那部分面積的大小。通常,AUC的值介于0.5到1.0之間,較大的AUC代表了較好的performance。即,值越大模型越完美,不同樣本之間特異性越顯著,對(duì)樣本區(qū)分度越高。
[0078]其中,可事先設(shè)置分類模型的各項(xiàng)分類性能指標(biāo)。比如,準(zhǔn)確率大于90%,召回率大于97%,AUC值大于0.8等等,本發(fā)明實(shí)施例對(duì)此不進(jìn)行具體限定。當(dāng)對(duì)首輪訓(xùn)練模型進(jìn)行評(píng)估后,若得到的評(píng)估結(jié)果中各項(xiàng)性能指標(biāo)均優(yōu)于事先設(shè)置的分類性能指標(biāo),則確定首輪分類模型滿足指定條件。若得到的評(píng)估結(jié)果中至少一項(xiàng)性能指標(biāo)低于事先設(shè)置的分類性能指標(biāo),則確定首輪分類模型不滿足指定條件。此外,在判斷得到的評(píng)估結(jié)果是否滿足指定條件時(shí),還可判斷評(píng)估結(jié)果的各項(xiàng)性能指標(biāo)是否不再提升。也即,無(wú)論經(jīng)過(guò)多少輪的迭代過(guò)程分類準(zhǔn)確率、召回率、AUC等均維持在一個(gè)數(shù)值不變。本發(fā)明實(shí)施例對(duì)此指定條件的類型不進(jìn)行具體限定。
[0079]206、若首輪分類模型的評(píng)估結(jié)果不滿足指定條件,則利用首輪分類模型對(duì)全部樣本進(jìn)行分類,根據(jù)分類結(jié)果在全部樣本中選取特定樣本。
[0080]在本公開(kāi)實(shí)施例中,當(dāng)首輪分類模型的評(píng)估結(jié)果不滿足指定條件時(shí),還需再次進(jìn)行模型訓(xùn)練。在下一次模型訓(xùn)練之前,首先基于首輪訓(xùn)練模型在全部樣本中選取下一輪正例樣本和下一輪負(fù)例樣本。其中,下一輪正例樣本為首輪正例樣本和特定樣本的疊加,即下一輪迭代過(guò)程中擴(kuò)展了正例樣本的數(shù)量。
[0081]其中,在根據(jù)分類結(jié)果在全部樣本中選取特定樣本時(shí),可采取下述方式實(shí)現(xiàn):
[0082]根據(jù)分類結(jié)果,在全部樣本中確定預(yù)測(cè)正例樣本;對(duì)于預(yù)測(cè)正例樣本中的每一個(gè)樣本,根據(jù)分類結(jié)果確定該樣本被分類為正例樣本的概率;在預(yù)測(cè)正例樣本中,選取被分類為正例樣本的概率最高的預(yù)設(shè)數(shù)目個(gè)樣本;將該預(yù)設(shè)數(shù)目個(gè)樣本確定為特定樣本。
[0083]其中,預(yù)測(cè)正例樣本為根據(jù)首輪分類模型在全部樣本中選取出的樣本。對(duì)于這些樣本來(lái)說(shuō),首輪分類模型均預(yù)測(cè)其為與首輪正例樣本具有相似或相同特征的樣本。但是,預(yù)測(cè)正例樣本中每一個(gè)樣本同首輪正例樣本的相似程度又存在差異。預(yù)測(cè)正例樣本中每一個(gè)樣本均對(duì)應(yīng)一個(gè)同首輪正例樣本相似的概率值。首輪分類模型輸出的分類結(jié)果中便包括該概率值。以數(shù)值I代表兩個(gè)樣本完全一致,數(shù)值O代表兩個(gè)樣本完全不一致為例,則不同預(yù)測(cè)正例樣本對(duì)應(yīng)的概率值可為0.6、0.8、0.87、0.95等等。概率值越大,說(shuō)明該預(yù)測(cè)正例樣本同首輪正例樣本的特征越接近。一般情況下,預(yù)測(cè)正例樣本的數(shù)量,可數(shù)倍于首輪正例樣本的數(shù)量。這樣間接說(shuō)明了種子人群的數(shù)量相較于全部樣本數(shù)量來(lái)說(shuō)還是極其小的,因此還需根據(jù)種子人群和分類模型在海量人群中挖掘出同其具有相同特征的人群。
[0084]為了在預(yù)測(cè)正例樣本中選取用于擴(kuò)展首輪正例樣本的特定樣本,還需依據(jù)概率值對(duì)預(yù)測(cè)正例樣本進(jìn)行排序。比如,可按照概率值從大到小的順序進(jìn)行排列。在對(duì)預(yù)測(cè)正例樣本進(jìn)行排序后,可選取概率值排列在前面的topN個(gè)樣本,將該topN個(gè)樣本作為特定樣本。
[0085]207、將首輪正例樣本和特定樣本作為下一輪正例樣本。
[0086]在根據(jù)上述步驟206選取出特定樣本后,將該特定樣本疊加到首輪正例樣本中,得到下一輪正例樣本,以擴(kuò)展正例樣本的數(shù)量,達(dá)到了收集更多與首輪正例樣本特征高度相似的樣本的目的。
[0087]208、重復(fù)執(zhí)行上述步驟202至步驟207,直至得到的分類模型的評(píng)估結(jié)果滿足指定條件。
[0088]在得到下一輪正例樣本后,繼續(xù)根據(jù)上述步驟202所示的方法選取下一輪負(fù)例樣本。由于對(duì)正例樣本進(jìn)行了數(shù)量擴(kuò)展,所以負(fù)例樣本中潛在的正例樣本便會(huì)減少,可有效地提高負(fù)例樣本的純凈度。之后,繼續(xù)根據(jù)下一輪正例樣本和下一輪負(fù)例樣本進(jìn)行模型訓(xùn)練,得到下一輪分類模型;繼續(xù)對(duì)下一輪分類模型進(jìn)行評(píng)估;若下一輪分類模型的評(píng)估結(jié)果不滿足指定條件,則繼續(xù)在全部樣本中選取特定樣本,將特定樣本疊加到下一輪分類模型中,得到下下輪正例樣本,重復(fù)執(zhí)行上述步驟202至207,直至得到的分類模型滿足指定條件。
[0089]比如,某一電商欲在旗下某一社交應(yīng)用注冊(cè)的全部用戶中確定出對(duì)某一款手游感興趣的所有用戶。通常情況下,該電商通過(guò)手動(dòng)標(biāo)記等方式僅可獲知極小一部分對(duì)該手游感興趣的用戶,即種子人群。由于注冊(cè)用戶海量,幾千萬(wàn)甚至上億,通過(guò)手動(dòng)選取和標(biāo)記的方式明顯不現(xiàn)實(shí),所以還需根據(jù)種子人群在海量用戶中進(jìn)行數(shù)據(jù)挖掘,挖掘出同種子人群具有相似特征的潛在人群。采取本發(fā)明實(shí)施例提供的分類模型訓(xùn)練方法,便可很好地解決這一問(wèn)題。且由于通過(guò)多次迭代過(guò)程對(duì)分類模型進(jìn)行訓(xùn)練,且每一輪對(duì)正例樣本均進(jìn)行了數(shù)量擴(kuò)展,所以分類效果更優(yōu)。分類出的正例樣本同種子人群的相似度高。繼續(xù)以上述例子為例,采取本發(fā)明實(shí)施例提供的分類方法基于該種子人群可在海量用戶中精確確定出對(duì)該款手游感興趣的其他用戶。在挖掘出具有相同興趣特征的這類人群后,可向這部分人群進(jìn)行游戲廣告投放、游戲產(chǎn)品推薦等等。此外,對(duì)手游感興趣的人群通常均為年輕的男性,那么據(jù)此還可以進(jìn)行汽車、球類體育等相關(guān)產(chǎn)品推薦等等。
[0090]本發(fā)明實(shí)施例提供的方法,在進(jìn)行模型訓(xùn)練過(guò)程中,根據(jù)本輪正例樣本和本輪負(fù)例樣本進(jìn)行模型訓(xùn)練,得到本輪分類模型;若本輪分類模型不滿足指定條件,則利用本輪分類模型對(duì)全部樣本進(jìn)行分類,根據(jù)分類結(jié)果在全部樣本中選取被預(yù)測(cè)為正例樣本的概率最高的特定樣本。將本輪正例樣本和特定樣本作為下一輪正例樣本,根據(jù)下一輪正例樣本確定下一輪負(fù)例樣本;之后根據(jù)下一輪正例樣本和下一輪負(fù)例樣本,繼續(xù)執(zhí)行上