獲得決策樹(shù)分類器,而且可以從身份驗(yàn)證數(shù)據(jù)樣本中挖掘出更多細(xì)節(jié)信息, 從而使得決策樹(shù)分類器的分類結(jié)果更為準(zhǔn)確。
[0078] 如圖3所示,在一個(gè)實(shí)施例中,上述分類器訓(xùn)練方法還包括根據(jù)檢驗(yàn)樣本對(duì)決策 樹(shù)分類器剪枝的步驟,具體包括如下步驟:
[0079] 步驟302,獲取檢驗(yàn)樣本集;檢驗(yàn)樣本集中的每個(gè)檢驗(yàn)樣本包括用戶身份屬性和 對(duì)應(yīng)預(yù)設(shè)分類條件特征的特征值。
[0080] 檢驗(yàn)樣本用來(lái)檢驗(yàn)決策樹(shù)分類器的分類性能,當(dāng)經(jīng)檢驗(yàn)樣本檢驗(yàn)判定決策樹(shù)分類 器的分類性能不佳時(shí)對(duì)決策樹(shù)分類器進(jìn)行剪枝,剪枝是通過(guò)修改決策樹(shù)的判斷路徑以提高 決策樹(shù)分類準(zhǔn)確性的過(guò)程。檢驗(yàn)樣本集中的每個(gè)檢驗(yàn)樣本具有與訓(xùn)練樣本集中的訓(xùn)練樣本 匹配的形式,包括用戶身份屬性和對(duì)應(yīng)預(yù)設(shè)分類條件特征的特征值,優(yōu)選檢驗(yàn)樣本不屬于 訓(xùn)練樣本集。
[0081] 在一個(gè)實(shí)施例中,步驟302具體包括:獲取用于檢驗(yàn)決策樹(shù)分類器的身份驗(yàn)證數(shù) 據(jù)樣本,其包括用戶證據(jù)數(shù)據(jù)以及經(jīng)過(guò)驗(yàn)證而確定的證據(jù)驗(yàn)證結(jié)果和身份判定結(jié)果;根據(jù) 該用戶證據(jù)和該證據(jù)驗(yàn)證結(jié)果提取對(duì)應(yīng)預(yù)設(shè)分類條件特征的特征值;根據(jù)用于檢驗(yàn)決策樹(shù) 分類器的身份驗(yàn)證數(shù)據(jù)樣本所對(duì)應(yīng)的提取的特征值和身份判定結(jié)果構(gòu)建檢驗(yàn)樣本集中的 檢驗(yàn)樣本。
[0082] 步驟304,根據(jù)檢驗(yàn)樣本集中的每個(gè)檢驗(yàn)樣本的特征值,從決策樹(shù)分類器的根結(jié)點(diǎn) 處的分類條件開(kāi)始逐層判斷分類直至葉結(jié)點(diǎn),根據(jù)該葉結(jié)點(diǎn)處的用戶身份分類結(jié)果確定對(duì) 應(yīng)每個(gè)檢驗(yàn)樣本的身份判定結(jié)果。
[0083] 檢驗(yàn)決策樹(shù)的過(guò)程是在知曉檢驗(yàn)樣本的用戶身份屬性的前提下,利用決策樹(shù)對(duì)檢 驗(yàn)樣本分類,判斷其是否與已知的用戶身份屬性一致,若是則說(shuō)明分類正確,若不一致則分 類錯(cuò)誤,以達(dá)到檢驗(yàn)決策樹(shù)分類器性能的目的。
[0084] 具體地,對(duì)每個(gè)檢驗(yàn)樣本進(jìn)行分類,依據(jù)該檢驗(yàn)樣本的對(duì)應(yīng)預(yù)設(shè)分類條件特征的 特征值,先根據(jù)決策樹(shù)分類器的根結(jié)點(diǎn)處的分類條件來(lái)判斷分類,到達(dá)根結(jié)點(diǎn)的一個(gè)孩子 結(jié)點(diǎn),然后再依據(jù)根結(jié)點(diǎn)的孩子結(jié)點(diǎn)處的分類條件對(duì)該檢驗(yàn)樣本進(jìn)行判斷分類,到達(dá)第三 層的結(jié)點(diǎn),依此類推。直至葉結(jié)點(diǎn)時(shí)若找到一條葉結(jié)點(diǎn)處的身份分類結(jié)果為合法用戶的判 斷路徑,則確定該檢驗(yàn)樣本的身份判定結(jié)果為合法用戶或者身份驗(yàn)證通過(guò)。若無(wú)法找到任 何一條葉結(jié)點(diǎn)處的身份分類結(jié)果為合法用戶的判斷路徑,則確定該檢驗(yàn)樣本的身份判定結(jié) 果為非法用戶或者身份驗(yàn)證未通過(guò)。
[0085] 步驟306,根據(jù)檢驗(yàn)樣本集中的檢驗(yàn)樣本所對(duì)應(yīng)的身份判定結(jié)果和用戶身份屬性 計(jì)算決策樹(shù)分類器的各個(gè)判斷路徑的準(zhǔn)確率。
[0086] 具體地,判斷檢驗(yàn)樣本集中的每個(gè)檢驗(yàn)樣本的身份判定結(jié)果是否與該檢驗(yàn)樣本的 用戶身份屬性匹配,若匹配則記錄用于判斷該檢驗(yàn)樣本的身份判定結(jié)果的判斷路徑判斷正 確一次,若不匹配則記錄用于判斷該檢驗(yàn)樣本的身份判定結(jié)果的判斷路徑判斷錯(cuò)誤一次, 如此累積記錄。然后用一條判斷路徑的判斷正確的總次數(shù)除以該條判斷路徑的判斷正確和 判斷錯(cuò)誤的次數(shù)的和,就可以計(jì)算獲得該條判斷路徑的準(zhǔn)確率,如此計(jì)算獲得各個(gè)判斷路 徑的準(zhǔn)確率。
[0087] 步驟308,調(diào)整準(zhǔn)確率低于預(yù)設(shè)準(zhǔn)確率閾值的判斷路徑中的結(jié)點(diǎn)。
[0088] 準(zhǔn)確率閾值是事先設(shè)定的用于判斷決策樹(shù)分類器的某條判斷路徑是否達(dá)到分類 性能標(biāo)準(zhǔn)的量化數(shù)值。具體地,對(duì)于準(zhǔn)確率低于預(yù)設(shè)準(zhǔn)確率閾值的判斷路徑,刪除其葉結(jié)點(diǎn) 而將該刪除的葉結(jié)點(diǎn)的雙親結(jié)點(diǎn)作為新的葉結(jié)點(diǎn),從而根據(jù)新的葉結(jié)點(diǎn)所對(duì)應(yīng)的新的分類 子集中對(duì)應(yīng)最多訓(xùn)練樣本的用戶身份屬性來(lái)確定該新的葉結(jié)點(diǎn)處的用戶身份分類結(jié)果,這 相當(dāng)于將兩條判斷路徑合并。也可以在剪枝后重新計(jì)算合并后的判斷路徑的準(zhǔn)確率,若低 于預(yù)設(shè)準(zhǔn)確率閾值則繼續(xù)調(diào)整該判斷路徑。在其它實(shí)施例中,可以將準(zhǔn)確率低于預(yù)設(shè)準(zhǔn)確 率閾值且其葉結(jié)點(diǎn)鄰近的多條判斷路徑合并,來(lái)達(dá)到調(diào)整準(zhǔn)確率低于預(yù)設(shè)準(zhǔn)確率閾值的判 斷路徑中的結(jié)點(diǎn)的目的。
[0089] 本實(shí)施例中,利用檢驗(yàn)樣本來(lái)檢驗(yàn)決策樹(shù)分類器的分類性能,從而在決策樹(shù)分類 器的某條判斷路徑分類性能較低時(shí)對(duì)其進(jìn)行修正,以提高整個(gè)決策數(shù)分類器的分類準(zhǔn)確 性。
[0090] 在一個(gè)實(shí)施例中,該分類器訓(xùn)練方法還包括根據(jù)用戶反饋信息調(diào)整判斷路徑的步 驟,具體包括:獲取用戶反饋信息,根據(jù)反饋信息調(diào)整決策樹(shù)分類器中與反饋信息相關(guān)的判 斷路徑中的結(jié)點(diǎn)。
[0091] 在上述決策樹(shù)分類器用于用戶身份驗(yàn)證的實(shí)際應(yīng)用中,可能會(huì)發(fā)生用戶提供的用 戶證據(jù)數(shù)據(jù)正確卻判定為非法用戶的情況,或者用戶未提供用戶證據(jù)數(shù)據(jù)而是由其他惡意 用戶提供了虛假的用戶證據(jù)數(shù)據(jù)卻判定為合法用戶的情況,
[0092] 這種情況下真實(shí)用戶會(huì)提供反饋信息,比如投訴、建議等,這種情況下需要根據(jù)該 反饋信息來(lái)對(duì)與該反饋信息相關(guān)的判斷路徑進(jìn)行剪枝,以提高決策樹(shù)分類器的分類準(zhǔn)確 性。具體可以刪除該判斷路徑的葉結(jié)點(diǎn)而將該刪除的葉結(jié)點(diǎn)的雙親結(jié)點(diǎn)作為新的葉結(jié)點(diǎn), 從而根據(jù)新的葉結(jié)點(diǎn)所對(duì)應(yīng)的新的分類子集中對(duì)應(yīng)最多訓(xùn)練樣本的用戶身份屬性來(lái)確定 該新的葉結(jié)點(diǎn)處的用戶身份分類結(jié)果。
[0093] 下面用一個(gè)具體應(yīng)用場(chǎng)景來(lái)說(shuō)明上述分類器訓(xùn)練方法的原理,具體包括如下步 驟:
[0094] 獲取身份驗(yàn)證數(shù)據(jù)樣本集合,每個(gè)身份驗(yàn)證數(shù)據(jù)樣本包括用戶證據(jù)數(shù)據(jù)以及經(jīng)過(guò) 驗(yàn)證而確定的證據(jù)驗(yàn)證結(jié)果和身份判定結(jié)果。其中一個(gè)身份驗(yàn)證數(shù)據(jù)樣本如表一所示:
[0098] 將獲取的身份驗(yàn)證數(shù)據(jù)樣本集合中的身份驗(yàn)證數(shù)據(jù)樣本隨機(jī)分為兩類,一類用于 訓(xùn)練分類器,另一類用于檢驗(yàn)該訓(xùn)練獲得的分類器。對(duì)于兩類身份驗(yàn)證數(shù)據(jù)樣本分別根據(jù) 其用戶證據(jù)和相應(yīng)的證據(jù)驗(yàn)證結(jié)果提取對(duì)應(yīng)預(yù)設(shè)分類條件特征的特征值。提取特征值后, 根據(jù)用于訓(xùn)練分類器的身份驗(yàn)證數(shù)據(jù)樣本所對(duì)應(yīng)的提取的特征值和身份判定結(jié)果構(gòu)建訓(xùn) 練樣本集中的訓(xùn)練樣本;根據(jù)用于檢驗(yàn)訓(xùn)練獲得的分類器的身份驗(yàn)證數(shù)據(jù)樣本所對(duì)應(yīng)的提 取的特征值和身份判定結(jié)果構(gòu)建檢驗(yàn)樣本集中的檢驗(yàn)樣本。訓(xùn)練樣本集中的每個(gè)訓(xùn)練樣本 包括用戶身份屬性和對(duì)應(yīng)預(yù)設(shè)分類條件特征的特征值;檢驗(yàn)樣本集中的每個(gè)檢驗(yàn)樣本包括 用戶身份屬性和對(duì)應(yīng)預(yù)設(shè)分類條件特征的特征值。預(yù)先設(shè)定一個(gè)正確的歷史密碼數(shù)據(jù)記為 15分,一個(gè)正確的常用地信息記為5分。則根據(jù)上述表一所示的身份驗(yàn)證數(shù)據(jù)樣本所獲得 的一個(gè)訓(xùn)練樣本如表二所示:
[0099]表二:
[0101] 然后統(tǒng)計(jì)訓(xùn)練樣本集中每種預(yù)設(shè)分類條件特征的每種特征值所對(duì)應(yīng)的用戶身份 屬性為合法用戶的訓(xùn)練樣本的數(shù)量,根據(jù)訓(xùn)練樣本集中對(duì)應(yīng)統(tǒng)計(jì)的數(shù)量最多的特征值所對(duì) 應(yīng)的預(yù)設(shè)分類條件特征來(lái)確定根結(jié)點(diǎn)處的分類條件。參考圖5所示的決策樹(shù)分類器的局部 數(shù)據(jù)結(jié)構(gòu)示意圖。假設(shè)訓(xùn)練樣本集中共有100個(gè)訓(xùn)練樣本,其中50個(gè)為用戶身份屬性為合 法用戶的訓(xùn)練樣本。經(jīng)過(guò)統(tǒng)計(jì)這50個(gè)訓(xùn)練樣本中好友輔助驗(yàn)證通過(guò)的個(gè)數(shù)大于或等于3 個(gè)的訓(xùn)練樣本的數(shù)量為45個(gè),比其他統(tǒng)計(jì)的數(shù)量都多,則將"好友輔助驗(yàn)證通過(guò)的個(gè)數(shù)是 否> 3個(gè)"作為決策樹(shù)分類器根結(jié)點(diǎn)處的分類條件。根據(jù)根結(jié)點(diǎn)處的分類條件將訓(xùn)練樣本 集中的訓(xùn)練樣本進(jìn)行分類,獲得對(duì)應(yīng)根結(jié)點(diǎn)的孩子結(jié)點(diǎn)的分類子集,再將根結(jié)點(diǎn)的孩子結(jié) 點(diǎn)分別作為當(dāng)前結(jié)點(diǎn)。
[0102] 再執(zhí)行訓(xùn)練內(nèi)部結(jié)點(diǎn)的步驟,具體包括:確定當(dāng)前結(jié)點(diǎn)所對(duì)應(yīng)的除去已用于確定 當(dāng)前路徑中的結(jié)點(diǎn)處的分類條件的預(yù)設(shè)分類條件特征的剩余預(yù)設(shè)分類條件特征,統(tǒng)計(jì)當(dāng)前 結(jié)點(diǎn)所對(duì)應(yīng)的分類子集中每種剩余預(yù)設(shè)分類條件特征的每種特征值所對(duì)應(yīng)的用戶身份屬 性為合法用戶的訓(xùn)練樣本的數(shù)量,根據(jù)當(dāng)前結(jié)點(diǎn)所對(duì)應(yīng)的統(tǒng)計(jì)的數(shù)量最多的特征值所對(duì)應(yīng) 的剩余預(yù)設(shè)分類條件特征來(lái)確定當(dāng)前結(jié)點(diǎn)處的分類條件。
[0103] "好友輔助驗(yàn)證通過(guò)的個(gè)數(shù)是否>3個(gè)"的預(yù)設(shè)分類條件特征已經(jīng)用于確定根結(jié)點(diǎn) 處的分類條件,將其除去獲得剩余預(yù)設(shè)分類條件特征。當(dāng)前結(jié)點(diǎn)所對(duì)應(yīng)的分類子集中共有 60個(gè)訓(xùn)練樣本,其中45個(gè)為用戶身份屬性為合法用戶的訓(xùn)練樣本,經(jīng)過(guò)統(tǒng)計(jì),當(dāng)前結(jié)點(diǎn)所 對(duì)應(yīng)的統(tǒng)計(jì)的數(shù)量最多的特征值為有密碼得分共對(duì)應(yīng)40個(gè)訓(xùn)練樣本,則根據(jù)該剩余預(yù)設(shè) 分類條件特征"是否有密碼得分"來(lái)確定當(dāng)前結(jié)點(diǎn)處的分類條件為"是否有密碼得分"。再 將當(dāng)前結(jié)點(diǎn)的孩子結(jié)點(diǎn)分別作為當(dāng)前結(jié)點(diǎn)而繼續(xù)執(zhí)行訓(xùn)練內(nèi)部結(jié)點(diǎn)的步驟,直至當(dāng)前結(jié)點(diǎn) 所對(duì)應(yīng)的分類子集中各個(gè)訓(xùn)練樣本的相同的預(yù)設(shè)分類條件特征所對(duì)應(yīng)的特征值分別相同 或者當(dāng)前結(jié)點(diǎn)的層數(shù)達(dá)到指定層數(shù)。
[0104] 再將當(dāng)前結(jié)點(diǎn)作為葉結(jié)點(diǎn)而根據(jù)當(dāng)前結(jié)點(diǎn)所對(duì)應(yīng)的分類子集中對(duì)應(yīng)最多訓(xùn)練樣 本的用戶身份屬性確定當(dāng)前結(jié)點(diǎn)處的用戶身份分類結(jié)果,若當(dāng)前結(jié)點(diǎn)所對(duì)應(yīng)的分類子集中 共有25個(gè)訓(xùn)練樣本,其中24個(gè)的用戶身份屬性為合法用戶,則可設(shè)定當(dāng)前結(jié)點(diǎn)處的用戶身 份分類結(jié)果為身份驗(yàn)證通過(guò)。在逐層訓(xùn)練獲得所有內(nèi)部結(jié)點(diǎn)和葉結(jié)點(diǎn)后獲得訓(xùn)練好的決策 樹(shù)分類器。
[0105] 最后根據(jù)檢驗(yàn)樣本集對(duì)訓(xùn)練獲得的決策樹(shù)分類器進(jìn)行剪枝,具體地根據(jù)檢驗(yàn)樣本 集中的每個(gè)檢驗(yàn)樣本的特征值,從決策樹(shù)分類器的根結(jié)點(diǎn)處的分類條件開(kāi)始逐層判斷分類 直至葉結(jié)點(diǎn),根據(jù)該葉結(jié)點(diǎn)處的用戶身份分類結(jié)果確定對(duì)應(yīng)每個(gè)檢驗(yàn)樣本的身份判定結(jié) 果。根據(jù)檢驗(yàn)樣本集中的檢驗(yàn)樣本所對(duì)應(yīng)的身份判定結(jié)果和用戶身份屬性計(jì)算決策樹(shù)分類 器的各個(gè)判斷路徑的準(zhǔn)確率,調(diào)整準(zhǔn)確率低于預(yù)設(shè)準(zhǔn)確率閾值的判斷路徑中的結(jié)點(diǎn)。
[0106] 如圖4所示,在一個(gè)實(shí)施例中,提供了一種身份驗(yàn)證方法,本實(shí)施例以該方法應(yīng)用 于身份驗(yàn)證服務(wù)器來(lái)舉例說(shuō)明。該方法具體包括如下步驟:
[0107] 步驟402,接收用戶終端發(fā)來(lái)的攜帶有待驗(yàn)證用戶標(biāo)識(shí)和待驗(yàn)證用戶證據(jù)數(shù)據(jù)的 身份驗(yàn)證請(qǐng)求。
[0108] 當(dāng)真實(shí)用戶丟失用于唯一標(biāo)識(shí)出其身份的用戶標(biāo)識(shí)所對(duì)應(yīng)的登錄口令后,可以在 用戶終端上通過(guò)用戶標(biāo)識(shí)管理方所提供的申訴頁(yè)面提供待驗(yàn)證用戶標(biāo)識(shí),并自主或在申訴 頁(yè)面的引導(dǎo)下提供用于證明其為其待驗(yàn)證用戶標(biāo)識(shí)的真實(shí)擁有者的待驗(yàn)證用戶證據(jù)數(shù)據(jù)。 從而用戶終端將攜帶有待驗(yàn)證用戶標(biāo)識(shí)和待驗(yàn)證用戶證據(jù)數(shù)據(jù)的身份驗(yàn)證請(qǐng)求發(fā)送給身 份驗(yàn)證服務(wù)器,由身份驗(yàn)證服務(wù)器接收該身份驗(yàn)證請(qǐng)求并據(jù)以進(jìn)行身份驗(yàn)證。用戶標(biāo)識(shí)可 為賬號(hào),比如登錄即時(shí)通信客戶端的賬號(hào)。當(dāng)然惡意用戶也會(huì)企圖通過(guò)申訴頁(yè)面來(lái)提供虛 假的待驗(yàn)證用戶標(biāo)識(shí)和待驗(yàn)證用戶證據(jù)數(shù)據(jù),來(lái)實(shí)現(xiàn)盜取用戶標(biāo)識(shí)的目的,這就需要身份 驗(yàn)證服務(wù)器根據(jù)身份驗(yàn)證請(qǐng)求對(duì)用戶進(jìn)行甄別,以保證用戶賬號(hào)安全。
[0109] 步驟404,獲取對(duì)應(yīng)待驗(yàn)證用戶標(biāo)識(shí)的用戶數(shù)據(jù),根據(jù)獲取的用戶數(shù)據(jù)對(duì)待驗(yàn)證用 戶證據(jù)數(shù)據(jù)進(jìn)行驗(yàn)證而獲得證據(jù)驗(yàn)證結(jié)果。
[0110] 預(yù)先對(duì)應(yīng)待驗(yàn)證用戶標(biāo)識(shí)存儲(chǔ)了用戶數(shù)據(jù),比如歷史密碼數(shù)據(jù)、曾經(jīng)使用的用戶 名稱、曾經(jīng)的登錄地點(diǎn)等,身份驗(yàn)證服務(wù)器在進(jìn)行身份驗(yàn)證時(shí)憑借該待驗(yàn)證用戶標(biāo)識(shí)而獲 取相應(yīng)的用戶數(shù)據(jù),來(lái)對(duì)身份驗(yàn)證請(qǐng)求中所攜帶的待驗(yàn)證用戶證據(jù)數(shù)據(jù)進(jìn)行驗(yàn)證,以獲得 表示待驗(yàn)證用戶證據(jù)數(shù)據(jù)正確或錯(cuò)誤的證據(jù)驗(yàn)證結(jié)果。
[0111] 舉例說(shuō)明,若待驗(yàn)證用戶證據(jù)數(shù)據(jù)包括兩個(gè)歷史密碼數(shù)據(jù),則身份驗(yàn)證服務(wù)器獲 取待驗(yàn)證用戶標(biāo)識(shí)所對(duì)應(yīng)的歷史密碼數(shù)據(jù)列表,該列表包括該待驗(yàn)證用戶標(biāo)識(shí)在預(yù)設(shè)時(shí)間 段(比如3年)內(nèi)使用過(guò)的所有密碼數(shù)據(jù)。身份驗(yàn)證服務(wù)器分別判斷待驗(yàn)證用戶證據(jù)數(shù)據(jù) 所包括的兩個(gè)歷史密碼數(shù)據(jù)是否分別存在于該歷史密碼數(shù)據(jù)列表中,若一個(gè)存在一個(gè)不存 在,則獲得表示一個(gè)歷史密碼數(shù)據(jù)正確、另一個(gè)歷史密碼錯(cuò)誤的證據(jù)驗(yàn)證結(jié)果。
當(dāng)前第3頁(yè)
1 
2 
3 
4 
5 
6