[0041]根據(jù)分類結(jié)果,在全部樣本中確定預(yù)測正例樣本;
[0042]對于預(yù)測正例樣本中的每一個樣本,根據(jù)分類結(jié)果確定樣本被分類為正例樣本的概率;
[0043]在預(yù)測正例樣本中,選取被分類為正例樣本的概率最高的預(yù)設(shè)數(shù)目個樣本;
[0044]將預(yù)設(shè)數(shù)目個樣本確定為特定樣本。
[0045]可選地,根據(jù)本輪正例樣本和本輪負(fù)例樣本進(jìn)行模型訓(xùn)練,包括:
[0046]基于待訓(xùn)練模型,計算本輪正例樣本和本輪負(fù)例樣本的特征向量,待訓(xùn)練模型為上一輪訓(xùn)練過程得到的分類模型,待訓(xùn)練模型的分類類別根據(jù)配置的樣本特征數(shù)據(jù)確定;
[0047]根據(jù)本輪正例樣本中每一個樣本的特征向量和本輪負(fù)例樣本中每一個樣本的特征向量,對本輪正例樣本和本輪負(fù)例樣本進(jìn)行分類;
[0048]根據(jù)樣本分類結(jié)果和對本輪正例樣本的標(biāo)記結(jié)果,優(yōu)化待訓(xùn)練模型的各個參數(shù),得到本輪分類模型。
[0049]上述所有可選技術(shù)方案,可以采用任意結(jié)合形成本發(fā)明的可選實施例,在此不再--贅述。
[0050]圖2是本發(fā)明實施例提供的一種分類模型訓(xùn)練方法的流程圖。參見圖2,本發(fā)明實施例提供的方法流程包括:
[0051]201、在全部樣本中選取首輪正例樣本。
[0052]在本發(fā)明實施例中,樣本指代研究中實際觀測或調(diào)查的一部分個體。比如,全部樣本可為某一應(yīng)用的全部注冊用戶,歸屬于某一地區(qū)的全部用戶等等,本發(fā)明實施例對此不進(jìn)行具體限定。其中,正例樣本,指代二分類模型中訓(xùn)練模型所用的樣本中被標(biāo)簽化的樣本。也即,正例樣本是被手動標(biāo)記的,其歸屬類別已知。此外,之所以稱為二分類模型是因為其分類結(jié)果僅為“是”或“否”兩種情況。二分類模型包括邏輯回歸模型、決策樹模型和支持向量機模型等。其中,種子人群屬于線下標(biāo)簽的正例樣本。種子人群通常是在特定業(yè)務(wù)場景下收集到的,指代對產(chǎn)品或服務(wù)具有相同需求和興趣的人群,種子人群的數(shù)量不多,通常均在十萬以下。比如,在某一應(yīng)用的全部注冊用戶中喜歡同一品牌汽車的用戶便可歸屬于同一種子人群。
[0053]需要說明的是,本步驟之所以將正例樣本稱之為首輪正例樣本,是因為在后續(xù)過程中可能會進(jìn)行多輪迭代的模型訓(xùn)練過程。而每一輪正例樣本的數(shù)量均不相同,由于每一輪模型訓(xùn)練過程使用的正例樣本均不相同,因此為了對每一輪的正例樣本進(jìn)行區(qū)分,采取了首輪正例樣本、下一輪正例樣本這樣的叫法。負(fù)例樣本與此同理。
[0054]在全部樣本中選取首輪正例樣本時,由于用于模型訓(xùn)練的樣本數(shù)據(jù)的質(zhì)量至關(guān)重要,所以一般使用種子人群這類標(biāo)簽化數(shù)據(jù)作為正例樣本。比如,可將全部注冊用戶中具有同一興趣特征的一個種子人群作為首輪正例樣本,還可將使用了某一新增服務(wù)或產(chǎn)品的一個種子人群作為首輪正例樣本,本發(fā)明實施例對此不進(jìn)行具體限定,可基于不同的分類需求選取不同的種子人群作為首輪正例樣本。其中,各個種子人群中的樣本均事先手動進(jìn)行選取和標(biāo)記,本發(fā)明實施例對此不進(jìn)行具體限定。
[0055]202、基于首輪正例樣本的數(shù)量,在全部樣本中除首輪正例樣本之外的剩余樣本里選取首輪負(fù)例樣本。
[0056]其中,負(fù)例樣本,指代二分類模型中訓(xùn)練模型所用的樣本中未被標(biāo)簽化的樣本。也即,正例樣本中的樣本均被標(biāo)記,類別明確。負(fù)例樣本中的樣本均未被標(biāo)記,類別未知。舉個簡單例子來說,假如正例樣本為一個班級中部分被標(biāo)記為女生的學(xué)生,那么負(fù)例樣本便指代這個班級中未被標(biāo)記的學(xué)生,而未被標(biāo)記的學(xué)生中既可能有女學(xué)生,也可能有男學(xué)生。
[0057]在本發(fā)明實施例中,在選取了首輪正例樣本后,還需在全部樣本中選取用于模型訓(xùn)練的首輪負(fù)例樣本。其中,首輪正例樣本的數(shù)量與首輪負(fù)例樣本的數(shù)量一致。在進(jìn)行首輪負(fù)例樣本的選取時,首先在全部樣本中剔除首輪正例樣本,得到剩余樣本。之后,隨機在剩余樣本中進(jìn)行樣本選取,選取同首輪正例樣本的數(shù)量一致的樣本,將這些樣本作為首輪負(fù)例樣本。
[0058]203、在首輪正例樣本和首輪負(fù)例樣本中選取保留樣本。
[0059]其中,保留樣本指代后續(xù)過程中對訓(xùn)練出的分類模型進(jìn)行測試評估的樣本。
[0060]在本發(fā)明實施例中,在首輪正例樣本和首輪負(fù)例樣本中選取保留樣本時,可采取下述方式實現(xiàn):在首輪正例樣本中選取第一樣本,在首輪負(fù)例樣本中選取第二樣本。其中,第一樣本和第二樣本中包含的樣本數(shù)量一致。也即,在首輪正例樣本和首輪負(fù)例樣本中選取數(shù)量相同的樣本一起作為保留樣本。其中,第一樣本和第二樣本的數(shù)量通常為首輪正例樣本和首輪負(fù)例樣本數(shù)量的30%。S卩,在首輪正例樣本中選取30%樣本,作為第一樣本;在首輪負(fù)例樣本中選取30%樣本,作為第二樣本;將第一樣本和第二樣本一起作為保留樣本。
[0061]204、根據(jù)首輪正例樣本和首輪負(fù)例樣本中除保留樣本之外的剩余樣本進(jìn)行模型訓(xùn)練,得到首輪分類模型。
[0062]在本發(fā)明實施例中,由于在首輪正例樣本和首輪負(fù)例樣本中選取了保留樣本,所以在根據(jù)首輪正例樣本和首輪負(fù)例樣本進(jìn)行模型訓(xùn)練時,還需剔除上述保留樣本。也即,在進(jìn)行模型訓(xùn)練時,僅根據(jù)首輪正例樣本中除第一樣本之外的剩余樣本、首輪負(fù)例樣本中除第二樣本之外的剩余樣本,進(jìn)行模型訓(xùn)練。
[0063]在進(jìn)行模型訓(xùn)練時,可參考下述方式實現(xiàn):
[0064]第一步、初始化首輪分類模型中的各個參數(shù)。
[0065]由于是第一次進(jìn)行模型訓(xùn)練,所以還需先初始化分類模型中的各個參數(shù)。本發(fā)明實施例中提及的模型訓(xùn)練可能是一個多次迭代過程,而在非初次進(jìn)行模型訓(xùn)練時,無需執(zhí)行該步驟,可直接基于上一輪得到的分類模型執(zhí)行下述第二步。本步驟僅針對第一次模型訓(xùn)練過程。
[0066]其中,分類模型在本質(zhì)上是一種輸入到輸出的映射,它能夠?qū)W習(xí)大量的輸入與輸出之間的映射關(guān)系,而不需要任何輸入和輸出之間的精確的數(shù)學(xué)表達(dá)式,僅用已知的模式對初始分類模型加以訓(xùn)練,得到的分類模型便具有輸入輸出對之間的映射能力。在開始訓(xùn)練分類模型之前,所有的參數(shù)都應(yīng)該用一些不同的小隨機數(shù)進(jìn)行初始化。在分類模型訓(xùn)練過程中,可使用隨機梯度下降或后向傳播方法來優(yōu)化分類模型中的各個參數(shù),從而盡可能地最小化分類誤差。本發(fā)明實施例對此不進(jìn)行具體限定。
[0067]第二步、基于初始化的分類模型,計算首輪正例樣本和首輪負(fù)例樣本的特征向量。
[0068]其中,在進(jìn)行模型訓(xùn)練時,為了明確分類模型的分類類別,還可獲取事先配置的樣本特征數(shù)據(jù),根據(jù)該樣本特征數(shù)據(jù)確定待訓(xùn)練的分類模型的分類功能。其中,樣本特征數(shù)據(jù)指明了基于正例樣本和負(fù)例樣本訓(xùn)練出一個具有何種分類功能的分類器。比如,正例樣本為某一社交應(yīng)用的注冊用戶中年齡在20-30歲的用戶。由于正例樣本中的用戶均為電商用戶,且年齡較小,那么根據(jù)該正例樣本對20-30歲年輕人是否喜歡某一款網(wǎng)游進(jìn)行預(yù)測,預(yù)測結(jié)果肯定會比根據(jù)該正例樣本對20-30歲年輕人是否鐘愛基金類理財服務(wù)要精確的多。所以通過樣本特征數(shù)據(jù)可指定分類模型的分類功能。
[0069]在本發(fā)明實施例中,在初始化分類模型中的各個參數(shù)后,由于分類模型在本質(zhì)上是一種輸入到輸出的映射,所以對于一個分類模型來說,向分類模型輸入一個訓(xùn)練樣本,分類模型便可計算該訓(xùn)練樣本的特征向量。需要說明的是,對于非首次模型訓(xùn)練過程來講,直接基于上一輪的分類模型,計算本輪正例樣本和本輪負(fù)例樣本的特征向量。
[0070]第三步、根據(jù)本輪正例樣本中每一個樣本的特征向量和本輪負(fù)例樣本中每一個樣本的特征向量,對本輪正例樣本和本輪負(fù)例樣本進(jìn)行分類。
[0071]針對該步驟,對于任意兩個訓(xùn)練樣本來說,二者的特征向量在特征空間上距離越近,說明兩個訓(xùn)練樣本越相似,二者屬于同一類的概率越高。其中,特征向量可為幾十維或幾百維,本發(fā)明實施例對此不進(jìn)行具體限定。在根據(jù)特征向量對全部樣本進(jìn)行分類時,可依據(jù)特征向量之間的距離實現(xiàn),本發(fā)明實施例對此不進(jìn)行具體限定。
[0072]第四步、根據(jù)樣本分類結(jié)果和對首輪正例樣本的標(biāo)記結(jié)果,優(yōu)