本發(fā)明屬于通信,具體涉及一種自然人身份同一性甄別方法。
背景技術(shù):
1、隨著信息時代的到來,人們生活中的方方面面都開始與互聯(lián)網(wǎng)接軌、變得數(shù)字化、虛擬化。大數(shù)據(jù)時代,基于互聯(lián)網(wǎng)數(shù)據(jù)的挖掘往往能帶來更多的附加價值,在國家安全領(lǐng)域,因互聯(lián)網(wǎng)的虛擬性、傳遞性、自由性、開放性等特點,使得互聯(lián)網(wǎng)環(huán)境的維護變得錯綜復(fù)雜,互聯(lián)網(wǎng)詐騙、境外間諜等事件屢見不鮮,而一個人在網(wǎng)絡(luò)上的多重身份與現(xiàn)實身份關(guān)聯(lián)關(guān)系、虛擬賬號和電信終端標(biāo)識的關(guān)聯(lián)關(guān)系、歷史使用人和現(xiàn)任使用人之間錯綜復(fù)雜的關(guān)系,以及目前互聯(lián)網(wǎng)龐大的數(shù)據(jù)量和數(shù)據(jù)的雜亂性,都對實時辨別一個人的真實身份提出更加艱巨的挑戰(zhàn)。而業(yè)界目前主要是依托于大數(shù)據(jù)平臺之上,將互聯(lián)網(wǎng)上爬取到的各類數(shù)據(jù)綜合糅雜在一起進行研判,主要技術(shù)特點是對數(shù)據(jù)進行打標(biāo),根據(jù)歷史經(jīng)驗對不同數(shù)據(jù)源賦予不同的置信度,最后綜合計算出種子碼址實際使用人的身份信息和特征信息。
2、以往的技術(shù)雖然可以根據(jù)多數(shù)據(jù)源的共同作用效果推算出實際使用人的現(xiàn)實身份信息,但局限性頗高,對于數(shù)據(jù)源少的情況誤差很大,同時對于某些特定情境也會出現(xiàn)誤差,比如從某個種子碼址開始推算目前實際使用者的現(xiàn)實身份信息,而恰好這個種子碼址原使用者已被注銷,新使用者剛剛注冊該種子碼址,這種場景就會導(dǎo)致推算出來的實際使用者的現(xiàn)實身份信息是之前的使用者。導(dǎo)致這種問題的原因就是原使用者產(chǎn)生的數(shù)據(jù)比新使用者的數(shù)據(jù)多,基于多數(shù)據(jù)源的置信度混合算法算出來的歷史使用者置信度會更高。
技術(shù)實現(xiàn)思路
1、為了克服現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種自然人身份同一性甄別方法,包括兩個維度,維度一:種子終端標(biāo)識在數(shù)據(jù)中有直接身份信息關(guān)聯(lián),或者說種子終端標(biāo)識在數(shù)據(jù)層面直接關(guān)聯(lián)到身份證件信息;維度二:種子終端標(biāo)識在數(shù)據(jù)層面無法關(guān)聯(lián)到身份信息;本發(fā)明在計算時,在時間維度方面將新使用者的置信度提高,同時依據(jù)同名三角驗證算法,將電信終端碼址可以實時提取的姓名與身份碼址對應(yīng)的名稱進行校驗,若三角驗證通過,則該身份碼址的置信度會再次提高,通過種種的模型算法,將目標(biāo)人員的真實身份一層層的挖掘出來。
2、本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案如下:
3、步驟1:所述自然人身份同一性甄別為兩個維度,維度一:種子終端標(biāo)識在數(shù)據(jù)中有直接身份信息關(guān)聯(lián),或者說種子終端標(biāo)識在數(shù)據(jù)層面直接關(guān)聯(lián)到身份證件信息;維度二:種子終端標(biāo)識在數(shù)據(jù)層面無法關(guān)聯(lián)到身份信息;
4、步驟2:所述維度一包括多數(shù)據(jù)源置信度混合算法和同集團置信度混合算法兩個模型;
5、步驟2-1:多數(shù)據(jù)源置信度混合算法;
6、1)數(shù)據(jù)源維度;
7、擴線標(biāo)識置信度和所屬數(shù)據(jù)源相關(guān),依據(jù)以往經(jīng)驗對數(shù)據(jù)源進行打標(biāo)評分,不同數(shù)據(jù)源貢獻(xiàn)分值不同;
8、關(guān)聯(lián)數(shù)據(jù)源個數(shù)越多,積分越高;
9、2)時間維度;
10、區(qū)分動態(tài)數(shù)據(jù)和靜態(tài)數(shù)據(jù),動態(tài)數(shù)據(jù)根據(jù)更新時間倒敘排序;更新時間越晚,積分越高;
11、3)數(shù)據(jù)源次數(shù);
12、流水類行為數(shù)據(jù)源,關(guān)聯(lián)次數(shù)越多,積分越高;
13、時間維度和數(shù)據(jù)源兩個維度,時間維度高于數(shù)據(jù)源次數(shù);
14、非通聯(lián)動態(tài)關(guān)聯(lián)次數(shù),時間相同,次數(shù)不同;
15、4)先驗知識;
16、①擴線結(jié)果同類標(biāo)識超出maxfiltersize,判定為山寨手機;
17、②姓名、昵稱類不擴線關(guān)聯(lián);
18、③山寨imei不擴線;
19、④擴線默認(rèn)層級3層;
20、⑤擴線默認(rèn)時間近一年;
21、⑥擴線最大標(biāo)識個數(shù)100;
22、⑦擴線標(biāo)識長度<50;
23、5)算法實現(xiàn);
24、通過多數(shù)據(jù)源置信度混合計算模型,數(shù)據(jù)源置信度和對各個身份碼址信息聚類積分制算法,最后根據(jù)各個身份碼址積分轉(zhuǎn)化為置信度進行排序;
25、c=p1*m1+m1*α*(d1+d2+…+dn)+β
26、其中,c是置信度,p1是父標(biāo)識置信度,m1是層級置信度,d1、d2、…是各個數(shù)據(jù)源基礎(chǔ)置信度;
27、一層:0.8,二層:0.7三層:0.6四層0.5;初始輸入標(biāo)識為0層,標(biāo)識置信度為1,不參與上面公式計算;
28、α:數(shù)據(jù)源維度置信系數(shù);
29、γ:時間維度置信系數(shù);
30、β:時間和數(shù)據(jù)源次數(shù)維度置信度參數(shù),針對同類不同標(biāo)識增加時間維度和數(shù)據(jù)源次數(shù)置信度參數(shù);
31、β=γ*m1*(size-n)
32、size:同層同類不同標(biāo)識個數(shù);
33、n:排序序列號;
34、步驟2-2:同集團身份碼址置信度混合算法;
35、針對同集團成員使用的電信終端碼值都是由其中一個成員開戶,設(shè)計了同集團身份碼址置信度混合算法,具體如下:
36、1)輸入種子電信終端碼值;
37、2)查詢種子電信終端碼值,獲取數(shù)據(jù)事實上關(guān)聯(lián)的身份碼址信息;
38、3)依據(jù)身份碼址信息查詢獲取同集團下其他成員身份碼址信息;
39、4)依據(jù)其他成員身份碼址信息獲取對應(yīng)的姓名;
40、5)同名三角驗證;
41、步驟3:所述維度二包含兩個模型:特征通路-關(guān)系碰撞算法和特征通路-行為信息碰撞算法模型;
42、步驟3-1:特征通路-關(guān)系碰撞算法;
43、數(shù)據(jù)層面種子碼址無法直接關(guān)聯(lián)到身份碼址信息時,可以通過一級聯(lián)系人來確定實際使用人身份信息;流程
44、1)輸入種子電信終端碼值;
45、2)查詢種子電信終端碼值的一級聯(lián)系人;
46、3)查詢一級聯(lián)系人電信終端標(biāo)識關(guān)聯(lián)的身份碼址;
47、4)根據(jù)身份碼址集合查詢同集團下其他成員信息,獲取同集團其他成員身份碼址;
48、5)根據(jù)同集團其他成員身份碼址集合查詢獲取身份碼址對應(yīng)的姓名;
49、6)同名三角驗證;
50、步驟3-2:特征通路-行為信息碰撞算法;
51、該算法依賴出行信息記錄數(shù)據(jù)源和電信終端碼值接收到的動態(tài)文本信息提取內(nèi)容;
52、1)輸入電信終端碼值;
53、2)根據(jù)種子電信終端碼值,對其近期文本內(nèi)容信息中出行信息和姓名進行提??;
54、3)依據(jù)提取的出行信息,對全網(wǎng)出行記錄進行檢索,找到與文本內(nèi)容信息相符的記錄,提取對應(yīng)的身份碼址信息和姓名;
55、4)同名三角驗證。
56、優(yōu)選地,所述流水類行為數(shù)據(jù)源包括用戶的通聯(lián)行為、網(wǎng)頁瀏覽行為。
57、優(yōu)選地,所述非通聯(lián)動態(tài)關(guān)聯(lián)次數(shù)包括出行行為數(shù)據(jù)源中電信終端標(biāo)識對應(yīng)多個身份碼址信息。
58、優(yōu)選地,所述α默認(rèn)為0.01。
59、優(yōu)選地,所述γ默認(rèn)為0.01。
60、優(yōu)選地,所述特征通路-關(guān)系碰撞算法的置信度為:c=0.83。
61、優(yōu)選地,所述特征通路-出行信息碰撞算法的碰撞置信度為:c=0.83。
62、本發(fā)明的有益效果如下:
63、本發(fā)明技術(shù)相較于以往的混合置信度算法,增加了更多的業(yè)務(wù)模型算法,比如同名三角驗證、時間維度算法、關(guān)系碰撞模型、特征通路模型等等,依據(jù)這些模型去與傳統(tǒng)多數(shù)據(jù)源混合置信度算法相互佐證,使自然人的身份辨識更加準(zhǔn)確。比如從某個種子碼址開始推算目前實際使用者的現(xiàn)實身份信息,而恰好這個種子碼址原使用者已被注銷,新使用者剛剛注冊該種子碼址,這種場景就會導(dǎo)致推算出來的實際使用者的現(xiàn)實身份信息是之前的使用者。導(dǎo)致這種問題的原因就是原使用者產(chǎn)生的數(shù)據(jù)比新使用者的數(shù)據(jù)多,基于多數(shù)據(jù)源的置信度混合算法算出來的歷史使用者置信度會更高。而本發(fā)明算法在計算時,就會在時間維度方面將新使用者的置信度提高,同時依據(jù)同名三角驗證算法,將電信終端碼址可以實時提取的姓名與身份碼址對應(yīng)的名稱進行校驗,若三角驗證通過,則該身份碼址的置信度會再次提高,通過種種的模型算法,將目標(biāo)人員的真實身份一層層的挖掘出來。