本發(fā)明涉及互聯(lián)網(wǎng)信息處理領(lǐng)域,具體而言,涉及一種用于賬號處理的方法、裝置及電子設(shè)備。
背景技術(shù):
隨著互聯(lián)網(wǎng)產(chǎn)業(yè)的不斷發(fā)展,人們可以隨時進行網(wǎng)上交易。在電商平臺從事交易、接受服務(wù),都需要一個身份——賬號。在電商平臺中,同一人擁有多個賬號的情況十分常見。一類情況是,人們可能基于某種合理的需求在一網(wǎng)站注冊多個賬號時。對于正常的網(wǎng)絡(luò)活動,一個或幾個賬號足以滿足用戶的需要。另一類情況,是一些不法分子需要大量賬號非法謀利,如刷單、炒信或者詐騙等。現(xiàn)有的相似賬號識別技術(shù),分為二種:第一種是基于業(yè)務(wù)理解,制定固定的判定規(guī)則,通過規(guī)則的匹配,判斷賬號是否歸屬于同一個人。例如,將身份證和注冊手機號相同的賬號判定為同一個人。通過對全量賬號進行兩兩比較。為滿足相同規(guī)則的賬號打上相同的個體標(biāo)簽。第二種是基于用戶基本數(shù)據(jù),生成賬號對應(yīng)的特征向量,用無監(jiān)督聚類的方法,對賬號的特征向量做聚類,得到的每一類包含的賬號即互為相似賬號。
第一種識別方法存在如下缺點:數(shù)據(jù)缺失率大,例如,賬號的身份證號字段通常為非必填字段,大多數(shù)賬號對應(yīng)的身份證號字段缺失。數(shù)據(jù)利用率低,除強關(guān)聯(lián)屬性外大量用戶相關(guān)的屬性和行為數(shù)據(jù)沒有利用。復(fù)雜度高,對全量賬號的兩兩比對時間復(fù)雜度為o(n2),方案的計算的時間復(fù)雜度難以接受。難以有效驗證方法準(zhǔn)確性??蓴U展性低。不具有通用性,需要針對不同場景設(shè)定不同的規(guī)則,重新設(shè)計計算方案。
第二種識別方法存在如下缺點:聚類的結(jié)果容易形成冪律分布,即少數(shù)社群特別大,包含大量賬號。對于非數(shù)值型屬性,難以量化兩個賬號的距離,即相似程度。難以有效驗證方法準(zhǔn)確性。
因此,需要一種新的用于賬號處理的方法、裝置及電子設(shè)備。
在所述背景技術(shù)部分公開的上述信息僅用于加強對本發(fā)明的背景的理解,因此它可以包括不構(gòu)成對本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。
技術(shù)實現(xiàn)要素:
有鑒于此,本發(fā)明提供一種用于賬號處理的方法、裝置及電子設(shè)備,能夠能夠快速比較、識別、發(fā)現(xiàn)個體對應(yīng)的多個賬號,進而將許多場景解決問題的粒度從賬號層面提升到個體層面。
本發(fā)明的其他特性和優(yōu)點將通過下面的詳細描述變得顯然,或部分地通過本發(fā)明的實踐而習(xí)得。
根據(jù)本發(fā)明的一方面,提出一種用于賬號處理的方法,該方法包括:獲取基礎(chǔ)數(shù)據(jù),基礎(chǔ)數(shù)據(jù)包括基本屬性數(shù)據(jù)與行為屬性數(shù)據(jù);將基礎(chǔ)數(shù)據(jù)進行處理以獲取用戶數(shù)據(jù);通過用戶數(shù)據(jù)與深度神經(jīng)網(wǎng)絡(luò)模型建立賬戶識別模型;以及通過賬戶識別模型進行賬號處理。
在本公開的一種示例性實施例中,將基礎(chǔ)數(shù)據(jù)進行處理以獲取用戶數(shù)據(jù),包括:將基礎(chǔ)數(shù)據(jù)進行數(shù)據(jù)處理以獲取第一數(shù)據(jù);以及通過倒排索引法處理第一數(shù)據(jù)以獲取用戶數(shù)據(jù)。
在本公開的一種示例性實施例中,用戶數(shù)據(jù),包括:第一類用戶數(shù)據(jù)與第二類用戶數(shù)據(jù)。
在本公開的一種示例性實施例中,通過用戶數(shù)據(jù)與深度神經(jīng)網(wǎng)絡(luò)模型建立賬戶識別模型,包括:將第一類用戶數(shù)據(jù)作為深度神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練數(shù)據(jù);以及通過深度神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練獲取賬戶識別模型。
在本公開的一種示例性實施例中,通過賬戶識別模型進行賬號處理,包括:通過賬戶識別模型,獲取第二類用戶數(shù)據(jù)的賬戶相似度數(shù)值;以及通過賬戶相似度數(shù)值與預(yù)定閾值進行比較的結(jié)果進行賬號處理。
在本公開的一種示例性實施例中,通過賬戶相似度數(shù)值與預(yù)定閾值進行比較的結(jié)果進行賬號處理,包括:判斷賬戶相似度數(shù)值是否大于預(yù)定閾值;以及如果賬戶相似度數(shù)值大于預(yù)定閾值,則將第二類用戶數(shù)據(jù)進行關(guān)聯(lián)處理。
在本公開的一種示例性實施例中,通過倒排索引數(shù)據(jù)表處理基礎(chǔ)數(shù)據(jù)以獲取用戶數(shù)據(jù),還包括:對基礎(chǔ)數(shù)據(jù)進行去重處理。
在本公開的一種示例性實施例中,如果賬戶相似度數(shù)值大于預(yù)定閾值,則將第二類用戶數(shù)據(jù)進行關(guān)聯(lián)處理,包括:如果賬戶相似度數(shù)值大于預(yù)定閾值,則將第二類用戶數(shù)據(jù)判斷來源為同一個體;以及將來源為同一個體的第二類用戶數(shù)據(jù)進行關(guān)聯(lián)處理。
在本公開的一種示例性實施例中,將來源為同一個體的第二類用戶數(shù)據(jù)進行關(guān)聯(lián)處理,包括:通過構(gòu)建關(guān)系圖的方式將來源為同一個體的第二類用戶數(shù)據(jù)進行關(guān)聯(lián)處理。
在本公開的一種示例性實施例中,第一類用戶數(shù)據(jù)包括:身份證信息完備的用戶數(shù)據(jù)。
根據(jù)本發(fā)明的一方面,提出一種用于賬號處理的裝置,該裝置包括:數(shù)據(jù)獲取模塊,用于獲取基礎(chǔ)數(shù)據(jù),基礎(chǔ)數(shù)據(jù)包括基本屬性數(shù)據(jù)與行為屬性數(shù)據(jù);數(shù)據(jù)處理模塊,用于將基礎(chǔ)數(shù)據(jù)進行處理以獲取用戶數(shù)據(jù);模型建立模塊,用于通過用戶數(shù)據(jù)與深度神經(jīng)網(wǎng)絡(luò)模型建立賬戶識別模型;以及賬號處理模塊,用于通過賬戶識別模型進行賬號處理。
在本公開的一種示例性實施例中,賬號處理模塊,包括:相似度計算子模塊,用于通過賬戶識別模型,獲取第二類用戶數(shù)據(jù)的賬戶相似度數(shù)值;以及處理子模塊,用于通過賬戶相似度數(shù)值與預(yù)定閾值進行比較的結(jié)果進行賬號處理。
根據(jù)本發(fā)明的一方面,提出電子設(shè)備,該電子設(shè)備包括:存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,處理器執(zhí)行程序時實現(xiàn)以下步驟:獲取基礎(chǔ)數(shù)據(jù),基礎(chǔ)數(shù)據(jù)包括基本屬性數(shù)據(jù)與行為屬性數(shù)據(jù);將基礎(chǔ)數(shù)據(jù)進行處理以獲取用戶數(shù)據(jù);通過用戶數(shù)據(jù)與深度神經(jīng)網(wǎng)絡(luò)模型建立賬戶識別模型;以及通過賬戶識別模型進行賬號處理。
根據(jù)本發(fā)明的用于賬號處理的方法、裝置及電子設(shè)備,能夠快速比較、識別、發(fā)現(xiàn)個體對應(yīng)的多個賬號,進而將許多場景解決問題的粒度從賬號層面提升到個體層面。
應(yīng)當(dāng)理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性的,并不能限制本發(fā)明。
附圖說明
通過參照附圖詳細描述其示例實施例,本發(fā)明的上述和其它目標(biāo)、特征及優(yōu)點將變得更加顯而易見。下面描述的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域的普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是根據(jù)一示例性實施例示出的一種用于賬號處理的方法的流程圖。
圖2是根據(jù)另一示例性實施例示出的一種用于賬號處理的方法的示意圖。
圖3是根據(jù)另一示例性實施例示出的一種用于賬號處理的方法的示意圖。
圖4是根據(jù)另一示例性實施例示出的一種用于賬號處理的方法的示意圖。
圖5是根據(jù)另一示例性實施例示出的一種用于賬號處理的方法的示意圖。
圖6是根據(jù)另一示例性實施例示出的一種用于賬號處理的方法的示意圖。
圖7是根據(jù)一示例性實施例示出的一種用于賬號處理的裝置的框圖。
圖8是根據(jù)一示例性實施例示出的一種電子設(shè)備的框圖。
具體實施例
現(xiàn)在將參考附圖更全面地描述示例實施例。然而,示例實施例能夠以多種形式實施,且不應(yīng)被理解為限于在此闡述的實施例;相反,提供這些實施例使得本發(fā)明將全面和完整,并將示例實施例的構(gòu)思全面地傳達給本領(lǐng)域的技術(shù)人員。在圖中相同的附圖標(biāo)記表示相同或類似的部分,因而將省略對它們的重復(fù)描述。
此外,所描述的特征、結(jié)構(gòu)或特性可以以任何合適的方式結(jié)合在一個或更多實施例中。在下面的描述中,提供許多具體細節(jié)從而給出對本發(fā)明的實施例的充分理解。然而,本領(lǐng)域技術(shù)人員將意識到,可以實踐本發(fā)明的技術(shù)方案而沒有特定細節(jié)中的一個或更多,或者可以采用其它的方法、組元、裝置、步驟等。在其它情況下,不詳細示出或描述公知方法、裝置、實現(xiàn)或者操作以避免模糊本發(fā)明的各方面。
附圖中所示的方框圖僅僅是功能實體,不一定必須與物理上獨立的實體相對應(yīng)。即,可以采用軟件形式來實現(xiàn)這些功能實體,或在一個或多個硬件模塊或集成電路中實現(xiàn)這些功能實體,或在不同網(wǎng)絡(luò)和/或處理器裝置和/或微控制器裝置中實現(xiàn)這些功能實體。
附圖中所示的流程圖僅是示例性說明,不是必須包括所有的內(nèi)容和操作/步驟,也不是必須按所描述的順序執(zhí)行。例如,有的操作/步驟還可以分解,而有的操作/步驟可以合并或部分合并,因此實際執(zhí)行的順序有可能根據(jù)實際情況改變。
應(yīng)理解,雖然本文中可能使用術(shù)語第一、第二、第三等來描述各種組件,但這些組件不應(yīng)受這些術(shù)語限制。這些術(shù)語乃用以區(qū)分一組件與另一組件。因此,下文論述的第一組件可稱為第二組件而不偏離本公開概念的教示。如本文中所使用,術(shù)語“及/或”包括相關(guān)聯(lián)的列出項目中的任一個及一或多者的所有組合。
本領(lǐng)域技術(shù)人員可以理解,附圖只是示例實施例的示意圖,附圖中的模塊或流程并不一定是實施本發(fā)明所必須的,因此不能用于限制本發(fā)明的保護范圍。
下面結(jié)合附圖對本公開示例實施方式進行詳細說明。
圖1是根據(jù)一示例性實施例示出的一種用于賬號處理的方法的流程圖。
如圖1所示,在s102中,獲取基礎(chǔ)數(shù)據(jù),所述基礎(chǔ)數(shù)據(jù)包括基本屬性數(shù)據(jù)與行為屬性數(shù)據(jù)。基礎(chǔ)數(shù)據(jù)包括:基本屬性數(shù)據(jù)與行為屬性數(shù)據(jù)??衫?,從電商平臺各個業(yè)務(wù)系統(tǒng)采集數(shù)據(jù),賬號關(guān)聯(lián)的數(shù)據(jù)按照屬性類型分為:基本屬性和行為屬性兩部分?;緦傩允琴~號關(guān)聯(lián)的基本信息,可例如,包括電話、郵箱、收貨地址、證件號、真實姓名、銀行卡號、設(shè)備指紋,常用ip等,行為屬性是賬號在平臺上的行為統(tǒng)計指標(biāo),可例如包括:注冊時長、日均登錄次數(shù)、平均單筆交易金額、累計交易金額、商品評論次數(shù)等。然而本發(fā)明不以此為限。
在s104中,將基礎(chǔ)數(shù)據(jù)進行處理以獲取用戶數(shù)據(jù)。可例如,采集完的數(shù)據(jù)經(jīng)過數(shù)據(jù)集成和etl(extract-transform-load,抽取-轉(zhuǎn)換-加載)導(dǎo)入數(shù)據(jù)倉庫。通過賬號關(guān)聯(lián)不同來源的數(shù)據(jù),整理得到賬號及關(guān)聯(lián)屬性的寬表,其中包括基本屬性和行為屬性。屬性中包含缺失值和無效值,可例如,通過正則表達式進行匹配和替換,做進一步的清洗和過濾。還可例如,通過基本屬性數(shù)據(jù)構(gòu)建倒排索引數(shù)據(jù)表;以及通過倒排索引數(shù)據(jù)表處理基礎(chǔ)數(shù)據(jù)以獲取用戶數(shù)據(jù)。還可例如,通過數(shù)據(jù)處理,獲取進行有效比較的賬號對輸入比較函數(shù)后得到的比較結(jié)果特征向量。
在s106中,通過用戶數(shù)據(jù)與深度神經(jīng)網(wǎng)絡(luò)模型建立賬戶識別模型。在本公開的一種示例性實施例中,通過用戶數(shù)據(jù)與深度神經(jīng)網(wǎng)絡(luò)模型建立賬戶識別模型,包括:將用戶數(shù)據(jù)作為深度神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練數(shù)據(jù);以及通過深度神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練獲取賬戶識別模型。深度神經(jīng)網(wǎng)絡(luò)(dnn)目前是許多現(xiàn)代ai應(yīng)用的基礎(chǔ)。自從dnn在語音識別和圖像識別任務(wù)中展現(xiàn)出突破性的成果,使用dnn的應(yīng)用數(shù)量呈爆炸式增加。這些dnn方法被大量應(yīng)用在無人駕駛汽車,癌癥檢測,游戲ai等方面。在許多領(lǐng)域中,dnn目前的準(zhǔn)確性已經(jīng)超過人類。與早期的專家手動提取特征或制定規(guī)則不同,dnn的優(yōu)越性能來自于在大量數(shù)據(jù)上使用統(tǒng)計學(xué)習(xí)方法,從原始數(shù)據(jù)中提取高級特征的能力,從而對輸入空間進行有效的表示。
在s108中,通過賬戶識別模型進行賬號處理。可例如,通過賬戶識別模型,對所有的用戶數(shù)據(jù)進行處理,可例如,通過賬戶識別模型計算得到賬戶相似度數(shù)據(jù),通過判斷賬戶相似度數(shù)值是否大于預(yù)定閾值,如果賬戶相似度數(shù)值大于預(yù)定閾值,則將用戶數(shù)據(jù)判斷來源為同一個體;還可例如,將來源為同一個體的用戶數(shù)據(jù)進行關(guān)聯(lián)處理。
根據(jù)本發(fā)明的用于賬號處理的方法,通過由基礎(chǔ)數(shù)據(jù)中提煉出基本屬性數(shù)據(jù)與行為屬性數(shù)據(jù),再綜合考量基本屬性數(shù)據(jù)與行為屬性數(shù)據(jù)利用深度神經(jīng)網(wǎng)絡(luò)模型生成賬戶識別模型的方式,能夠使得賬號識別的結(jié)果更加清晰準(zhǔn)確。
在本發(fā)明的實施例中,由于深度神經(jīng)網(wǎng)絡(luò)的自身特性,使得賬戶識別模型支持增加更多的基本屬性和行為屬性,不斷豐富比較結(jié)果特征向量,而無需改變模型的構(gòu)建方法和整體的計算方案。具有良好的可擴展性。
應(yīng)清楚地理解,本發(fā)明描述了如何形成和使用特定示例,但本發(fā)明的原理不限于這些示例的任何細節(jié)。相反,基于本發(fā)明公開的內(nèi)容的教導(dǎo),這些原理能夠應(yīng)用于許多其它實施例。
在本公開的一種示例性實施例中,用戶數(shù)據(jù),包括:第一類用戶數(shù)據(jù)與第二類用戶數(shù)據(jù)。在本公開的一種示例性實施例中,第一類用戶數(shù)據(jù)包括:身份證信息完備的用戶數(shù)據(jù)。第二類用戶數(shù)據(jù)可例如為,除去第一類用戶數(shù)據(jù)的所有其他用戶數(shù)據(jù);第二類用戶數(shù)據(jù)還可例如為,將所有用戶數(shù)據(jù)進行數(shù)據(jù)抽取篩選之后得到的剩余用戶數(shù)據(jù),然而本發(fā)明不以此為限??衫?,將第二類用戶數(shù)據(jù)輸入到已建立的賬戶識別模型中,通過模型的自動計算,獲取第二類用戶數(shù)據(jù)包含的賬戶的賬戶相似度數(shù)值。在本發(fā)明實施例中,將進行兩個賬號的比較結(jié)果特征向量,輸入到訓(xùn)練完成的深度神經(jīng)網(wǎng)絡(luò)模型,得到這兩個賬號是否歸屬于同一個體的概率值,即為這兩個賬號的相似度。
在本公開的一種示例性實施例中,所述通過所述用戶數(shù)據(jù)與深度神經(jīng)網(wǎng)絡(luò)模型建立賬戶識別模型,包括:將所述第一類用戶數(shù)據(jù)作為深度神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練數(shù)據(jù);以及通過深度神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練獲取所述賬戶識別模型。
進行比較的賬號對,需要基于賬號對應(yīng)的各基本屬性和行為屬性的比較結(jié)果,量化兩個賬號的相似程度,判斷是否歸屬于同一個體。如圖2所示,通過第一類用戶數(shù)據(jù)建立賬戶識別模型可例如包括以下步驟:
定義比較函數(shù):輸入兩個進行比較的賬號屬性。對于非數(shù)值屬性的比較,若兩者相同,則結(jié)果為1,若兩者不同,則結(jié)果為2,若至少其中一個缺失,不可比較,則表示未知,為0。再對比較結(jié)果{0,1,2}通過one-hot編碼(一位有效編碼)進行轉(zhuǎn)化,得到對應(yīng)編碼為{[0,0,1],[0,1,0],[1,0,0]}。對于數(shù)值屬性的比較,比較結(jié)果為兩者的差的絕對值。最終將各屬性的比較結(jié)果拼接起來,輸出為比較的結(jié)果向量,作為有監(jiān)督學(xué)習(xí)的特征。
標(biāo)簽定義:如果兩個賬號關(guān)聯(lián)的身份證號相同,則這兩個賬號歸屬于同一用戶的可能性很大,可以作為數(shù)據(jù)集的標(biāo)簽。標(biāo)簽定義為:若兩個比較的賬號的身份證號相同,則對應(yīng)的標(biāo)簽為1,否則為0。
訓(xùn)練測試數(shù)據(jù)集準(zhǔn)備:將所有身份證號完整有效的賬號通過上述處理得到有標(biāo)簽數(shù)據(jù)集,再隨機劃分為訓(xùn)練集、驗證集和測試集,最終用于深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和測試。
根據(jù)本發(fā)明的用于賬號處理的方法,通過基于深度神經(jīng)網(wǎng)絡(luò)的有監(jiān)督學(xué)習(xí)方法生成賬戶識別模型,能夠避免主觀賦予權(quán)重,平衡各屬性的貢獻度,從而實現(xiàn)自動化可擴展的相似度計算方案。
在本公開的一種示例性實施例中,將基礎(chǔ)數(shù)據(jù)進行數(shù)據(jù)處理獲取用戶數(shù)據(jù),包括:通過基本屬性數(shù)據(jù)構(gòu)建倒排索引數(shù)據(jù)表;以及通過倒排索引數(shù)據(jù)表處理基礎(chǔ)數(shù)據(jù)以獲取用戶數(shù)據(jù)。在本公開的一種示例性實施例中,通過倒排索引數(shù)據(jù)表處理基礎(chǔ)數(shù)據(jù)以獲取用戶數(shù)據(jù),還包括:對基礎(chǔ)數(shù)據(jù)進行去重處理。
在綜合賬號各維度信息來識別出相似用戶的過程中,必然涉及到賬號之間的比較。在以往算法中,直接對全量賬號兩兩比較的,算法的復(fù)雜度是o(n2),對于大規(guī)模賬號來說,這是不可接受的。在全量數(shù)據(jù)進行兩兩比較中,絕大部分比較,兩個賬號之間的所有基本屬性都不相同,這種情況下比較的結(jié)果就是兩個賬號不屬于同一個人。在本發(fā)明實施例中,定義對于進行比較的兩個賬號,如果這兩個賬號之間存在至少同一個一個基本屬性上的值不為空、有效且相等,對這兩個賬號的比較定義為有效比較,反之,則定義為無效比較。對于無效比較,即兩個賬號之間所有基本屬性值都各不相同,一方面,這兩個賬號屬于同一個人的概率較小,另一方面,即使這兩個賬號屬于同一個人,也難以通過所獲得的數(shù)據(jù)做出正確的推斷。因此如果能夠避免無效比較,就能夠在確保不影響結(jié)果的準(zhǔn)確性的前提下極大地減少比較次數(shù),降低計算的復(fù)雜度。
如圖3所示,通過建立倒排索引(invertedindex)的方式,實現(xiàn)只進行有效比較。將基本屬性維度的各個屬性的所有取值作為索引,索引對應(yīng)的是包含這些屬性取值的賬號集合。索引表中的每一項都包括一個屬性值和具有該屬性值的所有賬號。一個索引對應(yīng)的賬號集合中,每個賬號在某個屬性上的值同為該索引的值,因此這些賬號之間兩兩互相比較都為有效比較。如果兩個賬號有兩個及以上的屬性相同,那么這兩個賬號會同時存在于不同的索引對應(yīng)的賬號集合中。如果集合內(nèi)的賬號之間兩兩互相比較,這兩個賬號會在不同的集合中進行重復(fù)的比較。為了避免重復(fù)比較,每個索引對應(yīng)的賬號集合轉(zhuǎn)化成兩兩的組合的賬號對,將所有集合產(chǎn)生的賬號對合并在一起,做一次去重操作,得到互不相同的有效比較的賬號對。通過建立倒排索引以及去重生成賬號對表能確保所有有效比較都進行并且只進行一次,而所有無效比較都沒有進行。最終使得整體計算方案達到最優(yōu)。
通過倒排索引的計算方案可以將原先的o(n2)計算時間復(fù)雜度降低到o(kn)(k為平均每個屬性值對應(yīng)的賬號的個數(shù)),對于十億級別的賬號規(guī)模來說,全量兩兩比較所需的比較次數(shù)為十億乘以十億,即1018的比較次數(shù),在實際中,有效比較對的個數(shù)約為1011,所需的比較次數(shù)降低的為原來的一千萬分之一。
根據(jù)本發(fā)明的用于賬號處理的方法,通過倒排索引的方式處理基礎(chǔ)數(shù)據(jù)得到用戶數(shù)據(jù)的方式,能夠極大降低了計算復(fù)雜度,提高了運行效率。通過建立倒排索引的方式,在確保所有有效比較都進行并且只進行一次的前提下,避免所有無效比較,從而極大減少了比較次數(shù)。
在本公開的一種示例性實施例中,判斷賬戶相似度數(shù)值是否大于預(yù)定閾值,如果賬戶相似度數(shù)值大于預(yù)定閾值,則將第二類用戶數(shù)據(jù)進行關(guān)聯(lián)處理,包括:判斷賬戶相似度數(shù)值是否大于預(yù)定閾值,如果賬戶相似度數(shù)值大于預(yù)定閾值,則將第二類用戶數(shù)據(jù)判斷來源為同一個體;以及將來源為同一個體的第二類用戶數(shù)據(jù)進行關(guān)聯(lián)處理。預(yù)定閾值可例如,通過人工手動設(shè)定,還可例如,通過大量的數(shù)據(jù)分析獲取預(yù)定的閾值,本發(fā)明不以此為限。當(dāng)賬戶的相似度數(shù)值大于預(yù)定閾值時,即可認為該相似度對應(yīng)的賬戶屬于同一個個體,進而將該相似度對應(yīng)的賬戶進行關(guān)聯(lián)處理。
如圖4所示,對于兩個進行比較的賬號,通過身份證號信息結(jié)合訓(xùn)練完成的深度神經(jīng)網(wǎng)絡(luò)模型判斷是否歸屬于同一個體??衫邕M行如下步驟:
第一步:如果兩個賬號對應(yīng)的身份證號都存在且有效,如果兩個身份證號相同,則判斷為同一用戶,否則判斷為不同用戶。
第二步:如果至少其中一個賬號對應(yīng)的身份證號缺失,則將兩個賬號對應(yīng)的屬性輸入到比較函數(shù),返回比較結(jié)果的特征向量。將特征向量輸入訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò)模型,得到兩個賬號歸屬于同一個體的概率值,設(shè)定一個固定的閾值,如果概率值大于閾值,則判斷為同一用戶,否則為不同用戶。
根據(jù)本發(fā)明的用于賬號處理的方法,通過設(shè)定閾值,高于閾值的判定為同一用戶,低于閾值的判定為不同用戶??梢愿鶕?jù)不同應(yīng)用場景,通過調(diào)整閾值的大小,得到具有不同置信度的結(jié)果,滿足各種業(yè)務(wù)需求。
圖5是根據(jù)另一示例性實施例示出的一種用于賬號處理的方法的示意圖。如圖5所示,在本公開的一種示例性實施例中,將來源為同一個體的第二類用戶數(shù)據(jù)進行關(guān)聯(lián)處理,包括:通過構(gòu)建關(guān)系圖的方式將來源為同一個體的第二類用戶數(shù)據(jù)進行關(guān)聯(lián)處理。通過身份證號信息結(jié)合訓(xùn)練完成的深度神經(jīng)網(wǎng)絡(luò)模型對所有有效比較的賬號對做判斷,得到這些賬號對是否歸屬于同一個體的結(jié)果標(biāo)簽。此時得到的是賬號兩兩間的關(guān)系。通過構(gòu)建關(guān)系圖的方式,將這些孤立的關(guān)系連接到一起,得到同一用戶擁有的所有賬號。關(guān)系圖中的點為賬號,如果兩個賬號歸屬于同一個體,則這兩個賬號對應(yīng)的點間存在一條無向邊,否則這兩個賬號對應(yīng)的點不存在邊。通過這些點和邊的關(guān)系構(gòu)建的關(guān)系圖中,一個聯(lián)通子圖所包含的點,兩兩互為同一用戶,即這所有的點都歸屬于同一個體。因此聯(lián)通子圖的標(biāo)簽即可作為最終的用戶個體的標(biāo)簽。
圖6是根據(jù)另一示例性實施例示出的一種用于賬號處理的方法的示意圖。
如圖6所示,經(jīng)過層層處理數(shù)據(jù)的方式,通過量化賬號間的相似度,建立索引以實現(xiàn)快速比較,識別,發(fā)現(xiàn)個體對應(yīng)的多個賬號,將許多場景下分析解決問題的粒度從賬號層面提升到個體層面。對于正常用戶而言,識別同一正常用戶所屬的多個賬號,能將基于賬號的行為分析提升到基于個體的粒度,對人們的行為的把握更加精準(zhǔn),用戶畫像的構(gòu)建更加精準(zhǔn),從而使得上層的個性化推薦和營銷策略能夠發(fā)揮更大的效用。對于惡意用戶,能通過識別數(shù)量異常的相識賬號,全面檢測出批量生成的惡意注冊賬號,及時采取有效封禁措施,杜絕不當(dāng)牟利。針對風(fēng)險欺詐,不法分子通常采用注冊多個賬號的方式,在同一平臺重復(fù)作案,通過有效識別風(fēng)險用戶所關(guān)聯(lián)的多個欺詐賬號,防范欺詐風(fēng)險。
本領(lǐng)域技術(shù)人員可以理解實現(xiàn)上述實施例的全部或部分步驟被實現(xiàn)為由cpu執(zhí)行的計算機程序。在該計算機程序被cpu執(zhí)行時,執(zhí)行本發(fā)明提供的上述方法所限定的上述功能。所述的程序可以存儲于一種計算機可讀存儲介質(zhì)中,該存儲介質(zhì)可以是只讀存儲器,磁盤或光盤等。
此外,需要注意的是,上述附圖僅是根據(jù)本發(fā)明示例性實施例的方法所包括的處理的示意性說明,而不是限制目的。易于理解,上述附圖所示的處理并不表明或限制這些處理的時間順序。另外,也易于理解,這些處理可以是例如在多個模塊中同步或異步執(zhí)行的。
下述為本發(fā)明裝置實施例,可以用于執(zhí)行本發(fā)明方法實施例。對于本發(fā)明裝置實施例中未披露的細節(jié),請參照本發(fā)明方法實施例。
圖7是根據(jù)一示例性實施例示出的一種用于賬號處理的裝置的框圖。
其中,數(shù)據(jù)獲取模塊702用于獲取基礎(chǔ)數(shù)據(jù),基礎(chǔ)數(shù)據(jù)包括基本屬性數(shù)據(jù)與行為屬性數(shù)據(jù)。
數(shù)據(jù)處理模塊704用于將基礎(chǔ)數(shù)據(jù)進行處理以獲取用戶數(shù)據(jù)。
模型建立模塊706用于通過用戶數(shù)據(jù)與深度神經(jīng)網(wǎng)絡(luò)模型建立賬戶識別模型。
賬號處理模塊708用于通過賬戶識別模型進行賬號處理。
其中,賬號處理模塊708還包括:相似度計算子模塊(圖中未示出)用于通過賬戶識別模型,獲取第二類用戶數(shù)據(jù)的賬戶相似度數(shù)值。
處理子模塊(圖中未示出)用于通過賬戶相似度數(shù)值與預(yù)定閾值進行比較的結(jié)果進行賬號處理。
根據(jù)本發(fā)明的用于賬號處理的裝置,通過由基礎(chǔ)數(shù)據(jù)中提煉出基本屬性數(shù)據(jù)與行為屬性數(shù)據(jù),再綜合考量基本屬性數(shù)據(jù)與行為屬性數(shù)據(jù)利用深度神經(jīng)網(wǎng)絡(luò)模型生成賬戶識別模型的方式,能夠使得賬號識別的結(jié)果更加清晰準(zhǔn)確,而且支持增加更多的基本屬性和行為屬性,不斷豐富比較結(jié)果特征向量,而無需改變模型的構(gòu)建方法和整體的計算方案。具有良好的可擴展性。
圖8是根據(jù)一示例性實施例示出的一種用于賬號處理的電子設(shè)備的框圖。
如圖8所示,終端設(shè)備80可包括處理器810、存儲器820、發(fā)射器830及接收器840。
存儲器820可存儲用于處理器810控制操作處理的指令。存儲器820可包括易失性或非易失性存儲器,如靜態(tài)隨機存取存儲器(sram)、電可擦除可編程只讀存儲器(eeprom)、可擦除可編程只讀存儲器(eprom)、可編程只讀存儲器(prom)、只讀存儲器(rom)等,本發(fā)明對此沒有限制。
處理器810可調(diào)用存儲器820中存儲的指令控制相關(guān)操作。根據(jù)一實施例,存儲器820存儲用于處理器810控制以下操作的指令:獲取基礎(chǔ)數(shù)據(jù),基礎(chǔ)數(shù)據(jù)包括基本屬性數(shù)據(jù)與行為屬性數(shù)據(jù);將基礎(chǔ)數(shù)據(jù)進行處理以獲取用戶數(shù)據(jù);通過用戶數(shù)據(jù)與深度神經(jīng)網(wǎng)絡(luò)模型建立賬戶識別模型;以及通過賬戶識別模型進行賬號處理。易于理解,存儲器820還可存儲用于處理器810控制根據(jù)本發(fā)明實施例的其他操作的指令,這里不再贅述。
本領(lǐng)域技術(shù)人員可以理解上述各模塊可以按照實施例的描述分布于裝置中,也可以進行相應(yīng)變化唯一不同于本實施例的一個或多個裝置中。上述實施例的模塊可以合并為一個模塊,也可以進一步拆分成多個子模塊。
通過以上的實施例的描述,本領(lǐng)域的技術(shù)人員易于理解,這里描述的示例實施例可以通過軟件實現(xiàn),也可以通過軟件結(jié)合必要的硬件的方式來實現(xiàn)。因此,根據(jù)本發(fā)明實施例的技術(shù)方案可以以軟件產(chǎn)品的形式體現(xiàn)出來,該軟件產(chǎn)品可以存儲在一個非易失性存儲介質(zhì)(可以是cd-rom,u盤,移動硬盤等)中或網(wǎng)絡(luò)上,包括若干指令以使得一臺計算設(shè)備(可以是個人計算機、服務(wù)器、移動終端、或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行根據(jù)本發(fā)明實施例的方法。
通過以上的詳細描述,本領(lǐng)域的技術(shù)人員易于理解,根據(jù)本發(fā)明實施例的用于賬號處理的方法、裝置及電子設(shè)備具有以下優(yōu)點中的一個或多個。
根據(jù)一些實施例,本發(fā)明的用于賬號處理的方法,通過由基礎(chǔ)數(shù)據(jù)中提煉出基本屬性數(shù)據(jù)與行為屬性數(shù)據(jù),再綜合考量基本屬性數(shù)據(jù)與行為屬性數(shù)據(jù)利用深度神經(jīng)網(wǎng)絡(luò)模型生成賬戶識別模型的方式,能夠使得賬號識別的結(jié)果更加清晰準(zhǔn)確,而且支持增加更多的基本屬性和行為屬性,不斷豐富比較結(jié)果特征向量,而無需改變模型的構(gòu)建方法和整體的計算方案。具有良好的可擴展性。
根據(jù)另一些實施例,本發(fā)明的用于賬號處理的方法,通過由基礎(chǔ)數(shù)據(jù)中提煉出基本屬性數(shù)據(jù)與行為屬性數(shù)據(jù),再綜合考量基本屬性數(shù)據(jù)與行為屬性數(shù)據(jù)進而進行賬戶識別的方式,能夠使得賬號識別的結(jié)果更加清晰準(zhǔn)確,而且支持增加更多的基本屬性和行為屬性,不斷豐富比較結(jié)果特征向量,而無需改變模型的構(gòu)建方法和整體的計算方案。具有良好的可擴展性。
根據(jù)再一些實施例,本發(fā)明的用于賬號處理的方法,通過基于深度神經(jīng)網(wǎng)絡(luò)的有監(jiān)督學(xué)習(xí)方法生成賬戶識別模型,能夠避免主觀賦予權(quán)重,平衡各屬性的貢獻度,從而實現(xiàn)自動化可擴展的相似度計算方案。
以上具體地示出和描述了本發(fā)明的示例性實施例。應(yīng)可理解的是,本發(fā)明不限于這里描述的詳細結(jié)構(gòu)、設(shè)置方式或?qū)崿F(xiàn)方法;相反,本發(fā)明意圖涵蓋包含在所附權(quán)利要求的精神和范圍內(nèi)的各種修改和等效設(shè)置。
此外,本說明書說明書附圖所示出的結(jié)構(gòu)、比例、大小等,均僅用以配合說明書所公開的內(nèi)容,以供本領(lǐng)域技術(shù)人員了解與閱讀,并非用以限定本公開可實施的限定條件,故不具技術(shù)上的實質(zhì)意義,任何結(jié)構(gòu)的修飾、比例關(guān)系的改變或大小的調(diào)整,在不影響本公開所能產(chǎn)生的技術(shù)效果及所能實現(xiàn)的目的下,均應(yīng)仍落在本公開所公開的技術(shù)內(nèi)容得能涵蓋的范圍內(nèi)。同時,本說明書中所引用的如“上”、“第一”、“第二”及“一”等的用語,也僅為便于敘述的明了,而非用以限定本公開可實施的范圍,其相對關(guān)系的改變或調(diào)整,在無實質(zhì)變更技術(shù)內(nèi)容下,當(dāng)也視為本發(fā)明可實施的范疇。