分類器訓(xùn)練方法和裝置、身份驗證方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計算機安全技術(shù)領(lǐng)域,特別是涉及一種分類器訓(xùn)練方法和裝置、身份 驗證方法和系統(tǒng)。
【背景技術(shù)】
[0002] 賬號是用戶在互聯(lián)網(wǎng)中的數(shù)字化代表,是用于識別不同的用戶的重要依據(jù)。然而 賬號有時會出現(xiàn)賬號的真實擁有者無法使用自己賬號的情況,比如用戶自己可能忘記密 碼,或者賬號被惡意用戶盜取并惡意修改了密碼等,這種情況下就需要對用戶身份進行驗 證,從而進行賬號歸屬判斷,在確認其為賬號的合法用戶時才會應(yīng)用戶要求修改密碼,使其 具有對該賬號的控制權(quán)。這個過程通??煞Q為賬號申訴。
[0003] 目前對用戶進行身份驗證并據(jù)以進行賬號歸屬判斷,需要用戶提交證據(jù),證據(jù)通 常是證明用戶曾經(jīng)擁有這個賬號的證明信息。然后服務(wù)器對提交的每項證據(jù)進行對錯判 斷,然后依據(jù)對錯判斷結(jié)果加權(quán)打分,最后通過判斷加權(quán)打分的分數(shù)是否超過分數(shù)閾值來 判斷提交證據(jù)的用戶是否為該賬號的合法用戶。
[0004] 然而,通過加權(quán)打分來對用戶進行身份驗證,驗證結(jié)果的準確性依賴于用戶提供 證據(jù)的多少,其驗證結(jié)果準確性并不高,尤其是用戶提交的證據(jù)數(shù)量較少的情況下,即使提 供的證據(jù)完全正確也無法驗證成功。
【發(fā)明內(nèi)容】
[0005] 基于此,有必要針對通過加權(quán)打分來對用戶進行身份驗證準確性不高的問題,提 供一種分類器訓(xùn)練方法和裝置、身份驗證方法和系統(tǒng)。
[0006] -種分類器訓(xùn)練方法,所述方法包括:
[0007] 獲取訓(xùn)練樣本集;所述訓(xùn)練樣本集中的每個訓(xùn)練樣本包括用戶身份屬性和對應(yīng)預(yù) 設(shè)分類條件特征的特征值;
[0008] 根據(jù)一種所述預(yù)設(shè)分類條件特征確定根結(jié)點處的分類條件,根據(jù)根結(jié)點處的分類 條件將所述訓(xùn)練樣本集中的訓(xùn)練樣本進行分類,獲得對應(yīng)所述根結(jié)點的孩子結(jié)點的分類子 集;將所述根結(jié)點的孩子結(jié)點作為當前結(jié)點;
[0009] 根據(jù)另一種所述預(yù)設(shè)分類條件特征確定當前結(jié)點處的分類條件,根據(jù)當前結(jié)點處 的分類條件對當前結(jié)點所對應(yīng)的分類子集中的訓(xùn)練樣本進行分類,獲得對應(yīng)當前結(jié)點的孩 子結(jié)點的分類子集;
[0010] 將當前結(jié)點的孩子結(jié)點作為當前結(jié)點,繼續(xù)執(zhí)行所述根據(jù)另一種所述預(yù)設(shè)分類條 件特征確定當前結(jié)點處的分類條件,根據(jù)當前結(jié)點處的分類條件對當前結(jié)點所對應(yīng)的分類 子集中的訓(xùn)練樣本進行分類,獲得對應(yīng)當前結(jié)點的孩子結(jié)點的分類子集的步驟,直至當前 結(jié)點所對應(yīng)的分類子集中各個訓(xùn)練樣本的相同的預(yù)設(shè)分類條件特征所對應(yīng)的特征值分別 相同或者當前結(jié)點的層數(shù)達到指定層數(shù);
[0011] 根據(jù)當前結(jié)點所對應(yīng)的分類子集中對應(yīng)最多訓(xùn)練樣本的用戶身份屬性確定當前 結(jié)點處的用戶身份分類結(jié)果,獲得決策樹分類器。
[0012] -種分類器訓(xùn)練裝置,所述裝置包括:
[0013] 訓(xùn)練樣本集獲取模塊,用于獲取訓(xùn)練樣本集;所述訓(xùn)練樣本集中的每個訓(xùn)練樣本 包括用戶身份屬性和對應(yīng)預(yù)設(shè)分類條件特征的特征值;
[0014] 根結(jié)點訓(xùn)練模塊,用于根據(jù)一種所述預(yù)設(shè)分類條件特征確定根結(jié)點處的分類條 件,根據(jù)根結(jié)點處的分類條件將所述訓(xùn)練樣本集中的訓(xùn)練樣本進行分類,獲得對應(yīng)所述根 結(jié)點的孩子結(jié)點的分類子集;將所述根結(jié)點的孩子結(jié)點作為當前結(jié)點;
[0015] 內(nèi)部結(jié)點訓(xùn)練模塊,用于根據(jù)另一種所述預(yù)設(shè)分類條件特征確定當前結(jié)點處的分 類條件,根據(jù)當前結(jié)點處的分類條件對當前結(jié)點所對應(yīng)的分類子集中的訓(xùn)練樣本進行分 類,獲得對應(yīng)當前結(jié)點的孩子結(jié)點的分類子集;還用于將當前結(jié)點的孩子結(jié)點作為當前結(jié) 點,繼續(xù)執(zhí)行根據(jù)另一種所述預(yù)設(shè)分類條件特征確定當前結(jié)點處的分類條件,根據(jù)當前結(jié) 點處的分類條件對當前結(jié)點所對應(yīng)的分類子集中的訓(xùn)練樣本進行分類,獲得對應(yīng)當前結(jié)點 的孩子結(jié)點的分類子集,直至當前結(jié)點所對應(yīng)的分類子集中各個訓(xùn)練樣本的相同的預(yù)設(shè)分 類條件特征所對應(yīng)的特征值分別相同或者當前結(jié)點的層數(shù)達到指定層數(shù);
[0016] 葉結(jié)點訓(xùn)練模塊,用于根據(jù)當前結(jié)點所對應(yīng)的分類子集中對應(yīng)最多訓(xùn)練樣本的用 戶身份屬性確定當前結(jié)點處的用戶身份分類結(jié)果,獲得決策樹分類器。
[0017] 上述分類器訓(xùn)練方法和裝置,利用訓(xùn)練樣本從決策樹分類器的根結(jié)點處開始逐層 訓(xùn)練直到葉結(jié)點,從根結(jié)點到葉結(jié)點的每個非葉結(jié)點處的分類條件根據(jù)訓(xùn)練樣本的其中一 種預(yù)設(shè)分類條件特征確定,而葉結(jié)點則體現(xiàn)用戶身份分類結(jié)果。這樣訓(xùn)練獲得的決策樹分 類器從根結(jié)點到葉結(jié)點的任意一條判斷路徑可以體現(xiàn)多種預(yù)設(shè)分類條件特征之間的相關(guān) 性,分類性能好。在使用該決策樹分類器進行身份驗證時,不僅考慮用戶提交的每種用戶證 據(jù)數(shù)據(jù)各自的對錯,還會考慮多種用戶證據(jù)數(shù)據(jù)之間的相關(guān)性,身份驗證結(jié)果準確性高。
[0018] -種身份驗證方法,所述方法包括:
[0019] 接收用戶終端發(fā)來的攜帶有待驗證用戶標識和待驗證用戶證據(jù)數(shù)據(jù)的身份驗證 請求;
[0020] 獲取對應(yīng)所述待驗證用戶標識的用戶數(shù)據(jù),根據(jù)所述獲取的用戶數(shù)據(jù)對所述待驗 證用戶證據(jù)數(shù)據(jù)進行驗證而獲得證據(jù)驗證結(jié)果;
[0021] 根據(jù)所述待驗證用戶證據(jù)數(shù)據(jù)和所述獲得的證據(jù)驗證結(jié)果提取對應(yīng)預(yù)設(shè)分類條 件特征的待驗證特征值;
[0022] 從決策樹分類器的根結(jié)點處的分類條件開始,根據(jù)所述對應(yīng)預(yù)設(shè)分類條件特征的 待驗證特征值逐層判斷分類直至葉結(jié)點,根據(jù)該葉結(jié)點處的用戶身份分類結(jié)果確定對應(yīng)所 述待驗證用戶標識的身份驗證結(jié)果。
[0023] -種身份驗證系統(tǒng),所述系統(tǒng)包括:
[0024] 身份驗證請求接收模塊,用于接收用戶終端發(fā)來的攜帶有待驗證用戶標識和待驗 證用戶證據(jù)數(shù)據(jù)的身份驗證請求;
[0025] 證據(jù)驗證模塊,用于獲取對應(yīng)所述待驗證用戶標識的用戶數(shù)據(jù),根據(jù)所述獲取的 用戶數(shù)據(jù)對所述待驗證用戶證據(jù)數(shù)據(jù)進行驗證而獲得證據(jù)驗證結(jié)果;
[0026] 待驗證特征值提取模塊,用于根據(jù)所述待驗證用戶證據(jù)數(shù)據(jù)和所述獲得的證據(jù)驗 證結(jié)果提取對應(yīng)預(yù)設(shè)分類條件特征的待驗證特征值;
[0027] 身份驗證結(jié)果確定模塊,用于從決策樹分類器的根結(jié)點處的分類條件開始,根據(jù) 所述對應(yīng)預(yù)設(shè)分類條件特征的待驗證特征值逐層判斷分類直至葉結(jié)點,根據(jù)該葉結(jié)點處的 用戶身份分類結(jié)果確定對應(yīng)所述待驗證用戶標識的身份驗證結(jié)果。
[0028] 上述身份驗證方法和系統(tǒng),響應(yīng)于用戶終端的身份驗證請求進行身份驗證,先對 身份驗證請求所攜帶的待驗證用戶證據(jù)數(shù)據(jù)進行驗證,再根據(jù)該驗證結(jié)果提取預(yù)設(shè)分類條 件特征所對應(yīng)的待驗證特征值,從而利用決策樹分類器從根結(jié)點處的分類條件開始,根據(jù) 每種預(yù)設(shè)分類條件特征所對應(yīng)的待驗證特征值逐層判斷分類直至獲得身份驗證結(jié)果。這樣 進行身份驗證不僅考慮了每個待驗證用戶證據(jù)的各自的對錯,還考慮了各種預(yù)設(shè)分類條件 特征所對應(yīng)的待驗證特征值彼此之間的相關(guān)性,身份驗證結(jié)果準確性高。
【附圖說明】
[0029] 圖1為一個實施例中分類器訓(xùn)練方法的流程示意圖;
[0030] 圖2為一個實施例中獲取訓(xùn)練樣本集的步驟的流程示意圖;
[0031] 圖3為一個實施例中根據(jù)檢驗樣本對決策樹分類器剪枝的步驟的流程示意圖;
[0032] 圖4為一個實施例中身份驗證方法的流程示意圖;
[0033] 圖5為一個具體應(yīng)用場景中決策樹分類器的局部數(shù)據(jù)結(jié)構(gòu)示意圖;
[0034] 圖6為一個實施例中分類器訓(xùn)練裝置的結(jié)構(gòu)框圖;
[0035] 圖7為圖6中的分類器訓(xùn)練裝置的訓(xùn)練樣本集獲取模塊的一個實施例的結(jié)構(gòu)框 圖;
[0036] 圖8為另一個實施例中分類器訓(xùn)練裝置的結(jié)構(gòu)框圖;
[0037] 圖9為再一個實施例中分類器訓(xùn)練裝置的結(jié)構(gòu)框圖;
[0038] 圖10為一個實施例中身份驗證系統(tǒng)的結(jié)構(gòu)框圖;
[0039] 圖11為另一個實施例中身份驗證系統(tǒng)的結(jié)構(gòu)框圖。
【具體實施方式】
[0040] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對 本發(fā)明進行進一步詳細說明。應(yīng)當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并 不用于限定本發(fā)明。
[0041] 如圖1所示,在一個實施例中,提供了一種分類器訓(xùn)練方法,用于訓(xùn)練獲得用于身 份驗證的決策樹分類器。該方法具體包括如下步驟:
[0042] 步驟102,獲取訓(xùn)練樣本集;訓(xùn)練樣本集中的每個訓(xùn)練樣本包括用戶身份屬性和 對應(yīng)預(yù)設(shè)分類條件特征的特征值。
[0043]訓(xùn)練樣本集是用于訓(xùn)練決策樹分類器的訓(xùn)練樣本的集合,其中的每個訓(xùn)練樣本包 括用戶身份屬性和預(yù)設(shè)分類條件特征各自對應(yīng)的特征值,且預(yù)設(shè)分類條件特征的種類數(shù)為 兩個以上。用戶身份屬性為合法用戶和非法用戶中的一種,分別表示相應(yīng)的訓(xùn)練樣本是通 過或未通過身份驗證的樣本數(shù)據(jù)。訓(xùn)練樣本集中既存在用戶身份屬性為合法用戶的訓(xùn)練樣 本,也存在用戶身份屬性為非法用戶的訓(xùn)練樣本。
[0044] 預(yù)設(shè)分類條件特征是預(yù)先設(shè)定的需要從用戶證據(jù)數(shù)據(jù)中提取出的條件判斷式的 特征,用戶證據(jù)數(shù)據(jù)是用戶通過用戶終端提供的表示自己為合法用戶的證明數(shù)據(jù)。
[0045] 在一個實施例中,預(yù)設(shè)分類條件特征可以包括但不限于是否有好友輔助驗證,參 與好友輔助驗證且輔助驗證通過的好友個數(shù)是否超過預(yù)設(shè)個數(shù)閾值,是否有正確的歷史密 碼數(shù)據(jù)、正確的歷史密碼數(shù)據(jù)的量化分數(shù)是否超過第一預(yù)設(shè)分數(shù)閾值、是否有正確的賬號 常用地信息、正確的賬號常用地信息的量化分數(shù)是否超過第二預(yù)設(shè)分數(shù)閾值,用戶是否處 于國外異地和密碼變更次數(shù)是否在預(yù)設(shè)次數(shù)范圍內(nèi)中的至少兩種。
[0046] 其中好友輔助驗證是指向與待驗證用戶標識具有通信好友關(guān)系的用戶標識所對 應(yīng)的客戶端發(fā)送輔助驗證請求,接收該客戶端返回的輔助驗證結(jié)果。輔助驗證結(jié)果包括通 過和未通過,一般參與好友輔助驗證且輔助驗證通過的好友個數(shù)越多,越能說明其為合法 用戶。歷史密碼數(shù)據(jù)是指曾經(jīng)使用過的密碼,對其量化可采用一條正確的歷史密碼數(shù)據(jù)對 應(yīng)一個預(yù)設(shè)分數(shù),比如5分,則2條正確的歷史密碼數(shù)據(jù)則對應(yīng)10分。賬號常用地信息包 括一個物理位置,該物理位置的登錄次數(shù)和/或登錄時長超過一定閾值,還可以包括相應(yīng) 的時間參數(shù),比如2014年常用地為上海,2013年常用地為深圳、成都。
[0047] 特征值是相應(yīng)的預(yù)設(shè)分類條件特征的具體取值,但并非限定其必須用數(shù)值表示。 比如若預(yù)設(shè)分類條件特征為"是否有好友輔助驗證",則相應(yīng)的特征值為"是"或"否",且 "是"或"否"分別為一種特征值。還比如,若預(yù)設(shè)分類條件特征為參與好友輔助驗證且輔助 驗證通過的好友個數(shù)范圍,則相應(yīng)的特征值可為{〇, 1到3個,4個以上}中的一種。
[0048] 步驟104,根據(jù)一種預(yù)設(shè)分類條件特征確定根結(jié)點處的分類條件,根據(jù)根結(jié)點處的 分類條件將訓(xùn)練樣本集中的訓(xùn)練樣本進行分類,獲得對應(yīng)根結(jié)點的孩子結(jié)點的分類子集。
[0049] 對決策樹的訓(xùn)練從根結(jié)點開始,具體根據(jù)訓(xùn)練樣本集中的訓(xùn)練樣本的多種預(yù)設(shè)分 類條件特征中選擇的一種來確定根結(jié)點處的分類條件。決策樹是以實例為基礎(chǔ)的歸納學(xué)習(xí) 算法,對決策樹分類器的訓(xùn)練過程是根據(jù)一組無次序、無規(guī)則的元組得出決策樹分類器表