本發(fā)明實施例涉及數(shù)據(jù)處理領(lǐng)域,尤其涉及一種基于特征匹配網(wǎng)絡(luò)的社團劃分方法和裝置。
背景技術(shù):
目前,國內(nèi)信用卡市場面臨的風(fēng)險形勢日益嚴峻,信用卡套現(xiàn)、偽卡欺詐、盜卡欺詐等案件日益增加,具體的,信用卡套現(xiàn)是指持卡人通過虛假消費交易或與商戶合謀刷卡后獲取現(xiàn)金,之后退款或購買容易變現(xiàn)商品后變賣獲取現(xiàn)金等行為、偽卡欺詐是指按照銀行卡的磁條信息格式寫磁,凸印或平印偽造真實有效的銀行卡進行交易的欺詐行為;盜卡欺詐是指欺詐者獲得真實持卡人的部分或者全部信息并假冒真實持卡人對賬戶的信息進行變更以達到欺詐目的的行為。信用卡犯罪手段不斷向著高科技、集團化、專業(yè)化發(fā)展,案件實施過程更為隱蔽,手法不斷翻新,這對銀行和持卡人的資金安全構(gòu)成威脅,成為制約信用卡產(chǎn)業(yè)長期健康發(fā)展的重要因素。
面對各種各樣的欺詐手段,現(xiàn)有技術(shù)中,通常采用聚類的方法來應(yīng)對,然而采用這種方法存在多種缺陷,例如,一方面,如果后續(xù)對反欺詐模型添加數(shù)據(jù),會對反欺詐模型更新數(shù)據(jù)造成困難,另一方面,經(jīng)過聚類之后,雖然能將節(jié)點劃分為若干類,但群體內(nèi)的結(jié)構(gòu)以及結(jié)構(gòu)之間的關(guān)聯(lián)仍然難以描述。
綜上所述,現(xiàn)有技術(shù)中存在著如果后續(xù)對反欺詐模型添加數(shù)據(jù),造成反欺詐模型更新數(shù)據(jù)困難;經(jīng)過聚類之后,群體內(nèi)的結(jié)構(gòu)以及結(jié)構(gòu)之間的關(guān)聯(lián)仍然難以描述的問題,因此,需要采取有效的措施來解決以上問題。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例提供一種基于特征匹配網(wǎng)絡(luò)的社團劃分方法和裝置,用以解決現(xiàn)有技術(shù)中存在著如果后續(xù)對反欺詐模型添加數(shù)據(jù),造成反欺詐模型更新數(shù)據(jù)困難、經(jīng)過聚類之后,群體內(nèi)的結(jié)構(gòu)以及結(jié)構(gòu)之間的關(guān)聯(lián)仍然難以描述的問題。
本發(fā)明實施例提供一種基于特征匹配網(wǎng)絡(luò)的社團劃分方法,包括:
根據(jù)預(yù)設(shè)的K個哈希函數(shù),確定每個賬號信息對應(yīng)的K位哈希向量;
將每個賬號信息對應(yīng)的哈希向量,順序劃分為m=K/k類子哈希向量;
針對每個類,將子哈希向量相同的賬號信息劃分為同一組;
計算同一組內(nèi)的各賬號信息之間的相似度;
若各賬號信息之間的相似度大于閾值,則在各賬號信息之間建立互連邊,形成特征匹配網(wǎng)絡(luò);
根據(jù)特征匹配網(wǎng)絡(luò),對各賬號信息進行社團劃分。
可選地,計算同一組內(nèi)的各賬號信息之間的相似度,包括:
若第i賬號信息與第j賬號信息位于n類同組中,則將n/m作為第i帳號信息與第j賬號信息之間的相似度;第i賬號信息與第j賬號信息為各賬號信息中的任一個。
可選地,計算同一組內(nèi)的各賬號信息之間的相似度,包括:
若第i賬號信息與第j賬號信息位于同一組中,統(tǒng)計第i賬號信息的哈希向量與第j賬號信息的哈希向量中位于同一位且哈希向量值相同的個數(shù)h;第i賬號信息與第j賬號信息為各賬號信息中的任一個;
第i賬號信息與第j賬號信息的相似度s=h/K。
可選地,根據(jù)預(yù)設(shè)的K個哈希函數(shù),確定每個賬號信息對應(yīng)的K位哈希向量,包括:
根據(jù)公式(1)確定每個賬號信息對應(yīng)的K位哈希向量
其中,2'b表示是一個二進制數(shù),是預(yù)設(shè)的K個哈希函數(shù)中的一個,
表示賬號信息的特征向量,其中,c1,c2…,cd表示賬號信息的特征屬性,表示隨機選取的一個非零向量,
可選地,根據(jù)特征匹配網(wǎng)絡(luò),對各賬號信息進行社團劃分,包括:
(1)將各賬號信息劃分在特征匹配網(wǎng)絡(luò)中不同的社區(qū)中;
(2)根據(jù)各賬號信息之間的相似度,計算每個賬號信息的相似強度,從而生成節(jié)點相似強度矩陣;
(3)針對每個賬號信息,從節(jié)點相似強度矩陣中賬號信息所在的行,按相似強度從大到小的的順序嘗試將賬號信息劃至其他社區(qū)中;若賬號信息自第p社區(qū)劃分至第q社區(qū)后的模塊度差為正數(shù),則將賬號信息劃分至第q社區(qū)后結(jié)束;
(4)重復(fù)執(zhí)行,直到社區(qū)結(jié)構(gòu)不再改變?yōu)橹埂?/p>
可選地,根據(jù)各賬號之間的相似度,計算每個賬號信息的相似強度,包括:
根據(jù)公式(2)計算第i賬號信息與第j賬號信息之間的相似強度si,j;
其中,w(z)=wai,z公式(2)
其中,Γ(i)表示第i賬號信息的鄰居集合,Γ(i)∩Γ(j)表示第i賬號信息與第j賬號信息的共同鄰居集合,wai,z為任意賬號信息ai與第z賬號信息之間的邊的權(quán)重和。
本發(fā)明實施例還提供一種基于特征匹配網(wǎng)絡(luò)的社團劃分裝置,包括:
確定單元:用于根據(jù)預(yù)設(shè)的K個哈希函數(shù),確定每個賬號信息對應(yīng)的K位哈希向量;
第一劃分單元:用于將每個賬號信息對應(yīng)的哈希向量,順序劃分為m=K/k類子哈希向量;
第二劃分單元:用于針對每個類,將子哈希向量相同的賬號信息劃分為同 一組;
計算單元:用于計算同一組內(nèi)的各賬號信息之間的相似度;
形成網(wǎng)絡(luò)單元,用于若各賬號信息之間的相似度大于閾值,則在各賬號信息之間建立互連邊,形成特征匹配網(wǎng)絡(luò);
第三劃分單元:用于根據(jù)特征匹配網(wǎng)絡(luò),對各賬號信息進行社團劃分。
可選地,計算單元具體用于:
若第i賬號信息與第j賬號信息位于n類同組中,則將n/m作為第i帳號信息與第j賬號信息之間的相似度;第i賬號信息與第j賬號信息為各賬號信息中的任一個。
可選地,計算單元具體還用于:
若第i賬號信息與第j賬號信息位于同一組中,統(tǒng)計第i賬號信息的哈希向量與第j賬號信息的哈希向量中位于同一位且哈希向量值相同的個數(shù)h;第i賬號信息與第j賬號信息為各賬號信息中的任一個;
第i賬號信息與第j賬號信息的相似度s=h/K。
可選地,確定單元用于:
根據(jù)公式(3)確定每個賬號信息對應(yīng)的K位哈希向量
其中,2'b表示是一個二進制數(shù),是預(yù)設(shè)的K個哈希函數(shù)中的一個,
表示賬號信息的特征向量,其中,c1,c2…,cd表示賬號信息的特征屬性,表示隨機選取的一個非零向量,
可選地,第三劃分單元具體用于:
(1)將各賬號信息劃分在特征匹配網(wǎng)絡(luò)中不同的社區(qū)中;
(2)根據(jù)各賬號信息之間的相似度,計算每個賬號信息的相似強度,從而生成節(jié)點相似強度矩陣;
(3)針對每個賬號信息,從節(jié)點相似強度矩陣中賬號信息所在的行,按相似強度從大到小的的順序嘗試將賬號信息劃至其他社區(qū)中;若賬號信息自第p社區(qū)劃分至第q社區(qū)后的模塊度差為正數(shù),則將賬號信息劃分至第q社區(qū)后結(jié)束;
(4)重復(fù)執(zhí)行,直到社區(qū)結(jié)構(gòu)不再改變?yōu)橹埂?/p>
可選地,計算單元具體還用于:
根據(jù)公式(4)計算第i賬號信息與第j賬號信息之間的相似強度si,j;
其中,w(z)=wai,z公式(4)
其中,Γ(i)表示第i賬號信息的鄰居集合,Γ(i)∩Γ(j)表示第i賬號信息與第j賬號信息的共同鄰居集合,wai,z為任意賬號信息ai與第z賬號信息之間的邊的權(quán)重和。
本發(fā)明實施例中提供了一種基于特征匹配網(wǎng)絡(luò)的社團劃分方法和裝置,根據(jù)預(yù)設(shè)的K個哈希函數(shù),確定每個賬號信息對應(yīng)的K位哈希向量;將每個賬號信息對應(yīng)的哈希向量,順序劃分為m=K/k類子哈希向量;針對每個類,將子哈希向量相同的賬號信息劃分為同一組;計算同一組內(nèi)的各賬號信息之間的相似度;若各賬號信息之間的相似度大于閾值,則在各賬號信息之間建立互連邊,形成特征匹配網(wǎng)絡(luò);根據(jù)特征匹配網(wǎng)絡(luò),對各賬號信息進行社團劃分。本發(fā)明實施例中首先通過根據(jù)預(yù)設(shè)的K個哈希函數(shù),確定每個賬號信息對應(yīng)的K位哈希向量,對于網(wǎng)絡(luò)中數(shù)量巨大的賬號信息來說,僅僅產(chǎn)生兩個哈希值的哈希函數(shù)是不夠的,因此確定每個賬號信息對應(yīng)的K位哈希向量能夠應(yīng)對復(fù)雜的網(wǎng)絡(luò)賬號信息。然后針對每個類,將子哈希向量相同的賬號信息劃分為一組,計算同一組內(nèi)任意賬號信息之間的相似度,能夠避免針對整個網(wǎng)絡(luò)中任意賬號信息之間計算相似度而帶來的計算量非常大的缺點;本發(fā)明技術(shù)方案能夠有效減少賬號信息之間相似度的計算量,僅僅計算同一組內(nèi)的賬號信息之間的相似度。最后根據(jù)確定各賬號信息之間的相似度大于閾值,在各賬號信息之間建立互連 邊,形成特征匹配網(wǎng)絡(luò);根據(jù)特征匹配網(wǎng)絡(luò),對各賬號信息進行社團劃分,能夠更精準的對各賬號信息進行社團劃分,這樣不僅能夠使社團之間的關(guān)聯(lián)關(guān)系很清楚,而且能夠?qū)澐值纳鐖F進行分析,找出異常社團,進而對異常社團內(nèi)的賬號進行異常賬號排查,更加有針對性地找出欺詐賬號,提高應(yīng)對欺詐賬號的效率。此外,如果需要對劃分出的社團添加賬號信息,只需要對該添加的賬號信息重復(fù)以上簡單的幾個步驟,將所添加的賬號信息更新到相應(yīng)的位置即可,并不會產(chǎn)生更新困難的問題。
附圖說明
為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡要介紹。
圖1為本發(fā)明實施例提供了一種基于特征匹配網(wǎng)絡(luò)的社團劃分方法流程示意圖;
圖2為本發(fā)明實施例提供了本發(fā)明的整體思路流程圖;
圖3為本發(fā)明實施例提供的一種基于特征匹配網(wǎng)絡(luò)的社團劃分裝置結(jié)構(gòu)示意圖。
具體實施方式
為了使本發(fā)明的目的、技術(shù)方案及有益效果更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進行進一步詳細說明。應(yīng)當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
應(yīng)理解,本發(fā)明實施例的技術(shù)方案可以應(yīng)用于各種銀行出現(xiàn)的網(wǎng)絡(luò)欺詐手段的場景,比如可以是信用卡產(chǎn)品的欺詐、銀行卡產(chǎn)品的欺詐、盜卡欺詐、偽卡欺詐、套現(xiàn)欺詐等等。本發(fā)明實施例的技術(shù)方案的應(yīng)用場景也可以是對異常賬號信息社團的發(fā)現(xiàn)、發(fā)現(xiàn)特定種類欺詐的共性、根據(jù)欺詐賬號信息樣本發(fā)現(xiàn)其它欺詐賬號信息、幫助發(fā)現(xiàn)未知欺詐類型等。
圖1示例性示出了本發(fā)明實施例提供的一種基于特征匹配網(wǎng)絡(luò)的社團劃分方法流程示意圖,如圖1所示,包括以下步驟:
步驟S101:根據(jù)預(yù)設(shè)的K個哈希函數(shù),確定每個賬號信息對應(yīng)的K位哈希向量;
步驟S102:將每個賬號信息對應(yīng)的哈希向量,順序劃分為m=K/k類子哈希向量;
步驟S103:針對每個類,將子哈希向量相同的賬號信息劃分為同一組;
步驟S104:計算同一組內(nèi)的各賬號信息之間的相似度;
步驟S105:若各賬號信息之間的相似度大于閾值,則在各賬號信息之間建立互連邊,形成特征匹配網(wǎng)絡(luò);
步驟S106:根據(jù)特征匹配網(wǎng)絡(luò),對各賬號信息進行社團劃分。
步驟S101中,根據(jù)預(yù)設(shè)的K個哈希函數(shù),確定每個賬號信息對應(yīng)的K位哈希向量,具體來說,經(jīng)過每個預(yù)設(shè)的哈希函數(shù)的處理都能得到一位哈希向量,那么,根據(jù)預(yù)設(shè)的K個哈希函數(shù),就可以產(chǎn)生K位哈希向量,而每個賬號信息對應(yīng)K位哈希向量,具體實施中,每個賬號信息是包含多個特征屬性的,如果僅僅使用現(xiàn)有技術(shù)中一個賬號信息只用一個哈希函數(shù)來表示的話,會存在不足以表達一個賬號信息的多個特征屬性的缺點,所以,本步驟可以有效避免這個缺點。其中,K的取值可以根據(jù)具體實施中各賬號信息的具體情況來設(shè)定,比如,K可以設(shè)定為4,那么賬號信息就可以表示為一個4位的哈希向量。
步驟S102:將每個賬號信息對應(yīng)的哈希向量,順序劃分為m=K/k類子哈希向量,具體來說,比如,K=4,k=2,那么,就將每個賬號信息為4位的哈希向量劃分為2類子哈希向量,劃分的好處是為后續(xù)計算賬號間的相似度減少計算量,避免出現(xiàn)像現(xiàn)有技術(shù)中并沒有對賬號信息的哈希向量進行劃分而出現(xiàn)直接對所有賬號信息中的任意兩個賬號來進行相似度計算而造成的計算量特別大的缺點。
步驟S103:針對每個類,將子哈希向量相同的賬號信息劃分為同一組,具 體來說,對每個賬號信息劃分為各類之后,針對劃分的每個類,將子哈希向量相同的賬號信息劃分為同一組,比如,K=4,k=2的話,在第1類中,所有賬號信息中4位哈希向量中前兩位相同的為一組,同樣,在第2類中,所有賬號信息中4位哈希向量中后兩位相同的賬號信息為一組。這樣劃分的目的也是為了后面減少計算相似度的計算量,只計算各類之間子哈希向量相同的賬號信息之間的相似度。
步驟S104:計算同一組內(nèi)的各賬號信息之間的相似度,具體實施中,可以統(tǒng)計同一組內(nèi)各賬號信息的哈希向量的位相同的個數(shù)與位的大小的比值,比如,賬號信息1的哈希向量為0010,賬號信息2的哈希向量為0011,按照K=4,k=2,那么兩個賬號信息在第一類中位于同一組,則確定位于同一組的兩個賬號信息的相似度;那么,兩個賬號信息的哈希向量的位相同的個數(shù)是3,位的大小是4位的,所以,這兩個賬號信息之間的相似度為3/4,也可以根據(jù)關(guān)于相似度的計算公式來計算同一組內(nèi)的任意兩個賬號信息之間的相似度,比如相似度的計算公式可以是歐式距離、余弦距離、杰卡德距離公式等。一方面,相比于計算所有賬號信息中的任意兩個賬號信息的相似度,只計算同一組內(nèi)的任意兩個賬號信息之間的相似度能夠大大減少計算量。比如,取N個賬號信息樣本,那么N個賬號信息樣本就被分到了2k個組內(nèi),每個組內(nèi)的賬號信息樣本數(shù)為N/2k,每組內(nèi)進行任意兩個賬號信息進行相似度計算的次數(shù)為2k個組進行任意兩個賬號信息進行相似度計算的次數(shù)為因此,所有類需要進行相似度計算的次數(shù)就為其中,是劃分的類的個數(shù),這個值是一個根據(jù)實際情況可以進行控制的常數(shù),而傳統(tǒng)的方法計算所有賬號中任意兩個賬號信息進行相似度計算需要進行次,綜上可以看出,采用本發(fā)明的計算同一組內(nèi)的任意兩個賬號信息之間的相似度的計算量比傳統(tǒng)的方法計算所有賬號中任意兩個賬號信息的相似度的計算量大約縮減2k級別的 倍數(shù)。另一方面,每一組內(nèi)的賬號信息的相似度是較大的,所以對同一組內(nèi)的賬號信息進行相似度計算,也能夠提高網(wǎng)絡(luò)建立的效率和準確率。
步驟S105:若各賬號信息之間的相似度大于閾值,則在各賬號信息之間建立互連邊,形成特征匹配網(wǎng)絡(luò),具體來說,如果任意兩個賬號信息之間的相似度大于閾值,就在任意兩個賬號信息之間建立一條互連邊,邊的權(quán)重就是兩個賬號信息之間的相似度值,最終形成特征匹配網(wǎng)絡(luò)。具體實施中,閾值的選取可以選擇較高的值沒這樣最終可以生成較為稀疏的特征匹配網(wǎng)絡(luò),便于后續(xù)的計算,另外,閾值的取值可以根據(jù)實際情況進行調(diào)整。
步驟S106:根據(jù)特征匹配網(wǎng)絡(luò),對各賬號信息進行社團劃分,具體來說,根據(jù)計算出來的各賬號信息之間的相似度值,相似度值越接近的越容易被劃分到同一個社團中。劃分社團之后,對于網(wǎng)絡(luò)中的欺詐賬號更容易去排查,可以計算欺詐賬號樣本在每個社團中的比例,比例較大的,則該社團為異常社團的可能性就越大,可以根據(jù)業(yè)務(wù)需要進行相關(guān)調(diào)查,再對異常社團內(nèi)的賬號根據(jù)一些指標來進行計算,找出具有代表性的賬號,對這些具有代表性的賬號再進行相關(guān)案件排查,其中,一些指標可以是社團內(nèi)賬號信息的度中心性、緊密中心性、特征向量中心性等;或者也可以對社團內(nèi)的賬號信息進行特征再分析,以期發(fā)現(xiàn)該社團的一些共同行為的特征,進行有針對性地欺詐預(yù)防。此外,如果新加入的賬號信息形成新的社團,則可以根據(jù)前面查出來的異常社團進行比對,這對于未知欺詐的偵測與預(yù)防是大有裨益的。
計算同一組內(nèi)的各賬號信息之間的相似度,可以以下面兩種方法來計算:
方式1:可選地,計算同一組內(nèi)的各賬號信息之間的相似度,包括:若第i賬號信息與第j賬號信息位于n類同組中,則將n/m作為第i帳號信息與第j賬號信息之間的相似度;第i賬號信息與第j賬號信息為各賬號信息中的任一個,具體來說,在所有賬號信息中任意取兩個賬號信息,比如稱為賬號信息1與賬號信息2,m取3,也就是賬號信息1與賬號信息2分在了3類中,這3類分別稱為第1類、第2類、第3類,假設(shè)這兩個賬號信息在第1類與第3類中同組, 那么,這兩個賬號信息在這3類中的相似度為2/3。
方式2:可選地,計算同一組內(nèi)的各賬號信息之間的相似度,包括:若第i賬號信息與第j賬號信息位于同一組中,統(tǒng)計第i賬號信息的哈希向量與第j賬號信息的哈希向量中位于同一位且哈希向量值相同的個數(shù)h;第i賬號信息與第j賬號信息為各賬號信息中的任一個;第i賬號信息與第j賬號信息的相似度s=h/K,具體來說,如果所有賬號信息中任意的兩個賬號信息,賬號信息1與賬號信息2位于同一組,并且賬號信息1與賬號信息2都是4位的,也就是K為4,賬號信息1與賬號信息2的4位哈希向量中,前3位是完全相同的,第4位不同,那么,賬號信息1與賬號信息2的相似度s為3/4。
以上兩種計算同一組內(nèi)各個賬號信息之間的相似度的計算方法,可以得出,第1中方法是計算的兩個賬號信息在各個類中的相似度,而第2種方法是計算的被分到了各類中同一組中的兩個賬號信息之間的相似度,可以看出,這兩種方法中,相比于第2種方法,第1種方法是比較粗略的計算兩個賬號信息所屬的類與類之間的相似度,而第2種計算的兩個賬號信息在同一組之間的相似度則更精準。不過,這兩種方法都相比于現(xiàn)有技術(shù)中利用歐式距離公式等來計算網(wǎng)絡(luò)中所有賬號信息中任意兩個賬號信息之間的相似度的計算量上得到了明顯的改善,進一步加速了網(wǎng)絡(luò)的建立。
可選地,根據(jù)預(yù)設(shè)的K個哈希函數(shù),確定每個賬號信息對應(yīng)的K位哈希向量,包括:根據(jù)公式(1)確定每個賬號信息對應(yīng)的K位哈希向量
其中,2'b表示是一個二進制數(shù),是預(yù)設(shè)的K個哈希函數(shù)中的一個,
表示賬號信息的特征向量,其中,c1,c2…,cd表示賬號信息的特征屬性,表示隨機選取的一個非零向量,具體來說,預(yù)設(shè)的哈希函數(shù)是是預(yù)設(shè)的K個哈希函數(shù)中的任一個,哈希函數(shù)的 值用0或1來表示,也就是說這樣的一個哈希函數(shù)只能產(chǎn)生兩個哈希值,對于數(shù)量巨大的賬號信息來說明顯是不夠的,所以根據(jù)這樣的哈希函數(shù),來確定每個賬號的K位哈希向量是一個K位的二進制數(shù),比如,可以是6位的二進制數(shù),具體可以為010110,那么,其中,表示賬號信息的特征向量,c1,c2…,cd表示賬號信息的特征屬性,具體的賬號信息特征屬性可以是交易金額、交易時間、交易地點、交易地點數(shù)、轉(zhuǎn)賬地點、轉(zhuǎn)賬金額、轉(zhuǎn)賬次數(shù)等。其中,各賬號信息的特征向量在具體實施中可以經(jīng)過篩選來得到一批理論上效果最好的特征向量,具體地,在一定時間段內(nèi)抽取欺詐賬號信息樣本以及正常賬號信息樣本,將抽取的欺詐賬號信息樣本以及正常賬號信息樣本組合為一個整體賬號信息樣本,根據(jù)業(yè)務(wù)經(jīng)驗進行整體賬號信息的數(shù)據(jù)預(yù)處理、特征篩選及屬性相關(guān)性分析等步驟之后,篩選出一批理論上效果最好的特征向量。根據(jù)預(yù)設(shè)的K個哈希函數(shù),確定每個賬號信息對應(yīng)的K位哈希向量,能夠充分提取每個賬號信息的特征屬性并用特征向量表示出來,能夠應(yīng)對復(fù)雜的網(wǎng)絡(luò)中賬號信息數(shù)量巨大的情況。此外,需要說明的是,第一,每個賬號信息對應(yīng)的K位哈希向量的確定實際上是經(jīng)過一個哈希隨機映射的過程得來的,是由經(jīng)過哈希映射得到這里使用哈希隨機映射的主要目的是使得使得賬號信息的特征向量能映射為0或1的統(tǒng)一表示,以便后續(xù)處理,而并非簡單的降維;第二,原來的特征向量映射到新的哈??臻g中,會使得在原來的特征向量相似的數(shù)據(jù)在新的哈??臻g中數(shù)據(jù)也相似的概率很大,這個概率為:符合相似度s到概率p的單調(diào)遞增映射關(guān)系。
以上實施方式中,對于每個賬號信息對應(yīng)的K位哈希向量以及將每個賬號信息對應(yīng)的哈希向量順序劃分為m=K/k類子哈希向量的關(guān)系,下面以一個表格的方式將其展示出來,表1示例性地示出了賬號信息樣本與類之間的關(guān)系,如表1所示:
表1:賬號信息樣本與類之間的關(guān)系
表1中,賬號信息樣本與類之間的關(guān)系可以表示成一個K行N列的矩陣,N表示取的賬號信息樣本數(shù),c1到cN代表N個賬號信息樣本,將N個賬號信息樣本分到m=K/k個類,其中,表格中除第一行之外下面的每一行代表一個類,N個賬號信息樣本被分到了2k個組內(nèi)。
可選地,根據(jù)特征匹配網(wǎng)絡(luò),對各賬號信息進行社團劃分,包括:
(1)將各賬號信息劃分在特征匹配網(wǎng)絡(luò)中不同的社區(qū)中;
(2)根據(jù)各賬號信息之間的相似度,計算每個賬號信息的相似強度,從而生成節(jié)點相似強度矩陣;
(3)針對每個賬號信息,從節(jié)點相似強度矩陣中賬號信息所在的行,按相似強度從大到小的的順序嘗試將賬號信息劃至其他社區(qū)中;若賬號信息自第p 社區(qū)劃分至第q社區(qū)后的模塊度差為正數(shù),則將賬號信息劃分至第q社區(qū)后結(jié)束;
(4)重復(fù)執(zhí)行,直到社區(qū)結(jié)構(gòu)不再改變?yōu)橹埂?/p>
可選地,根據(jù)各賬號之間的相似度,計算每個賬號信息的相似強度,包括:
根據(jù)公式(2)計算第i賬號信息與第j賬號信息之間的相似強度si,j;
其中,w(z)=wai,z公式(2)
其中,Γ(i)表示第i賬號信息的鄰居集合,Γ(i)∩Γ(j)表示第i賬號信息與第j賬號信息的共同鄰居集合,wai,z為任意賬號信息ai與第z賬號信息之間的邊的權(quán)重和。
具體實施中,第(1)步驟,初始化特征匹配網(wǎng)絡(luò),將每個賬號信息劃分到不同的社區(qū)中,這一步驟中的劃分可以是隨機劃分的;第(2)步驟,根據(jù)公式(2)來計算各賬號信息的相似強度,具體地,假如賬號信息1與賬號信息2的共同鄰居是賬號信息3,賬號信息1與賬號信息2合起來與賬號信息3的邊的權(quán)重是5,那么,任意賬號信息ai與賬號信息3相連邊的權(quán)重為5,因而,賬號信息1與賬號信息2的相似強度是1/5,類似的,其它賬號信息之間也是用此方法來計算。假如,取4個賬號信息樣本,經(jīng)過計算之后,形成一個4*4的矩陣,假如,這個矩陣為從這個矩陣可以看出,賬號信息1與賬號信息2的相似度為0.25,賬號信息1與賬號信息3的相似度為0.7,賬號信息2與賬號信息3的相似度為0.4;第(3)步驟,從這個相似強度矩陣中賬號信息所在的行,按相似強度從大到小的的順序嘗試將賬號信息劃至其他社區(qū)中,例如從這個相似矩陣第一行可以看出,想要把賬號信息1劃分到其它某一社團中時,優(yōu)先選擇相似度較大的賬號信息3(第一行中0.6最大)所在的社區(qū)中去。如果△Q<0,再將賬號信息1嘗試劃分到賬號信息4(第一行中0.4次大)所在 的社團中去。如果△Q<0,則再將賬號信息1嘗試劃分到賬號信息2所在的社團中去。如果仍然△Q<0,則賬號信息1作為一個獨立的社團進行保留,矩陣不做更新,再進行第2行的計算。如果上述嘗試過程中只要發(fā)現(xiàn)△Q>0,比如優(yōu)先嘗試的將賬號1劃分到相似度較大的賬號信息3(第一行中0.6最大)所在的社區(qū)中去以后,發(fā)現(xiàn)△Q>0,那么表示嘗試成功,第一行計算結(jié)束。由于此時賬號1的狀態(tài)已經(jīng)發(fā)生改變,因此將矩陣中第一行第一列所有數(shù)據(jù)刪除,表示后續(xù)賬號信息不再與賬號信息1進行比較,也就是,變成 然后以同樣的過程開始新一輪的嘗試計算,即對賬號信息2進行社團劃分。其中,模塊度差△Q的計算公式: 來驗證上面對賬號信息的嘗試劃分社區(qū)是否正確,其中,n表示網(wǎng)絡(luò)中所有的權(quán)重,ki表示與頂點i連接的邊的權(quán)重,ki,in表示賬號信息i在社區(qū)內(nèi)部的權(quán)重之和,Σin表示社區(qū)內(nèi)部的邊權(quán)重和,Σtot表示與社區(qū)內(nèi)部賬號信息連接的邊的權(quán)重和,包括社區(qū)內(nèi)部的邊以及社區(qū)外部的邊,若△Q為正數(shù),則接受本次的劃分,若不為正數(shù),則放棄本次的劃分。通過賬號信息的相似強度矩陣的計算,優(yōu)先將賬號信息劃分到與其最相似的鄰居賬號信息的社團中去,大大節(jié)省了社團劃分的嘗試次數(shù),進一步提高了算法的速度,另外,對賬號信息嘗試的劃分是否合理通過模塊度差公式來驗證,更加有效保證了嘗試劃分的合理性與準確性。
為了更好的理解本發(fā)明技術(shù)方案,圖2示例性地示出了本發(fā)明的整體思路流程圖,如圖2所示:
步驟S201:將各賬號信息的特征屬性通過哈希映射的方法映射為一個多位的哈希映射向量;
步驟S202:將各賬號信息的哈希映射向量進行分類;
步驟S203:對于每個類,將哈希映射向量相同的賬號信息劃分為一組;
步驟S204:對每組中的任意兩個賬號信息進行相似度計算;
步驟S205:若每組中的任意兩個賬號信息的相似度大于閾值,則建立這兩個賬號信息之間的互連邊,邊的權(quán)重為相似度,從而形成特征匹配網(wǎng)絡(luò),其中,形成的特征匹配網(wǎng)絡(luò)是稀疏的特征匹配網(wǎng)絡(luò);
步驟S206:根據(jù)特征匹配網(wǎng)絡(luò)中各賬號信息的相似強度矩陣對特征匹配網(wǎng)絡(luò)進行社團劃分。
與現(xiàn)有技術(shù)相比,本發(fā)明實施例中,第一,通過隨機哈希映射的方法將各賬號信息的特征屬性映射到一個新的哈??臻g中,形成各賬號信息的哈希映射向量,對各賬號信息的哈希映射向量進行分類,能夠在高相似度的賬號信息之間建立邊,有效避免了大量的任意兩個賬號信息之間的相似度計算,且高效地為每條邊建立了可信的權(quán)重值,能夠提高后續(xù)社團劃分的精度與速度;第二,根據(jù)各賬號信息的相似度建立了特征匹配網(wǎng)絡(luò),然后根據(jù)網(wǎng)絡(luò)中各賬號信息的相似強度矩陣對特征匹配網(wǎng)絡(luò)進行社團劃分,不僅可以有效發(fā)現(xiàn)異常社團并進行有針對性地措施,同時可以偵測未知的欺詐類型,而且通過相似強度矩陣對對特征匹配網(wǎng)絡(luò)進行社團劃分,即優(yōu)先將賬號信息劃分到與其最相似的鄰居賬號信息的社團中去,大大節(jié)省了社團劃分嘗試的次數(shù),進一步提高了算法的速度;第三,通過形成特征匹配網(wǎng)絡(luò),相關(guān)賬號信息間的相似度作為邊的權(quán)重被永久存儲,即使有較多的新的賬號信息進來,也不會對網(wǎng)絡(luò)中原來的互連邊產(chǎn)生影響,僅僅需要將新的賬號信息插入到原特征匹配網(wǎng)絡(luò)中。在向原特征匹配網(wǎng)絡(luò)圖添加新數(shù)賬號信息的時候,仍然先采用隨機哈希映射方法及對各賬號信息進行分類,然后與類內(nèi)的賬號信息進行相似度計算,如果該相似度大于閾值,則添加新的邊。后續(xù)只需要進行計算量較小但是更加精準的社團劃分算法即可實現(xiàn)功能。同時,特征匹配網(wǎng)絡(luò)的結(jié)構(gòu)能更加清晰地展示社團內(nèi)部及社團間的關(guān)聯(lián)結(jié)構(gòu),這是傳統(tǒng)聚類方法所不能實現(xiàn)的。
基于相同構(gòu)思,本發(fā)明實施例提供的一種基于特征匹配網(wǎng)絡(luò)的社團劃分裝置,如圖3所示,該裝置包括確定單元301、第一劃分單元302、第二劃分單元303、計算單元304、形成網(wǎng)絡(luò)單元305和第三劃分單元306。其中:
確定單元301:用于根據(jù)預(yù)設(shè)的K個哈希函數(shù),確定每個賬號信息對應(yīng)的K位哈希向量;
第一劃分單元302:用于將每個賬號信息對應(yīng)的哈希向量,順序劃分為m=K/k類子哈希向量;
第二劃分單元303:用于針對每個類,將子哈希向量相同的賬號信息劃分為同一組;
計算單元304:用于計算同一組內(nèi)的各賬號信息之間的相似度;
形成網(wǎng)絡(luò)單元305:用于若各賬號信息之間的相似度大于閾值,則在各賬號信息之間建立互連邊,形成特征匹配網(wǎng)絡(luò);
第三劃分單元306:用于根據(jù)特征匹配網(wǎng)絡(luò),對各賬號信息進行社團劃分。
可選地,計算單元304具體用于:
若第i賬號信息與第j賬號信息位于n類同組中,則將n/m作為第i帳號信息與第j賬號信息之間的相似度;第i賬號信息與第j賬號信息為各賬號信息中的任一個。
可選地,計算單元304具體還用于:
若第i賬號信息與第j賬號信息位于同一組中,統(tǒng)計第i賬號信息的哈希向量與第j賬號信息的哈希向量中位于同一位且哈希向量值相同的個數(shù)h;第i賬號信息與第j賬號信息為各賬號信息中的任一個;
第i賬號信息與第j賬號信息的相似度s=h/K。
可選地,確定單元301用于:
根據(jù)公式(3)確定每個賬號信息對應(yīng)的K位哈希向量
其中,2'b表示是一個二進制數(shù),是預(yù)設(shè)的K個哈希函數(shù)中的一個,
表示賬號信息的特征向量,其中,c1,c2…,cd表示賬號信息的特征屬性,表示隨機選取的一個非零向量,
可選地,第三劃分單元306具體用于:
(1)將各賬號信息劃分在特征匹配網(wǎng)絡(luò)中不同的社區(qū)中;
(2)根據(jù)各賬號信息之間的相似度,計算每個賬號信息的相似強度,從而生成節(jié)點相似強度矩陣;
(3)針對每個賬號信息,從節(jié)點相似強度矩陣中賬號信息所在的行,按相似強度從大到小的的順序嘗試將賬號信息劃至其他社區(qū)中;若賬號信息自第p社區(qū)劃分至第q社區(qū)后的模塊度差為正數(shù),則將賬號信息劃分至第q社區(qū)后結(jié)束;
(4)重復(fù)執(zhí)行,直到社區(qū)結(jié)構(gòu)不再改變?yōu)橹埂?/p>
可選地,計算單元304具體還用于:
根據(jù)公式(4)計算第i賬號信息與第j賬號信息之間的相似強度si,j;
其中,w(z)=wai,z公式(4)
其中,Γ(i)表示第i賬號信息的鄰居集合,Γ(i)∩Γ(j)表示第i賬號信息與第j賬號信息的共同鄰居集合,wai,z為任意賬號信息ai與第z賬號信息之間的邊的權(quán)重和。
從上述內(nèi)容可看出:本發(fā)明實施例中提供一種基于特征匹配網(wǎng)絡(luò)的社團劃分裝置,根據(jù)預(yù)設(shè)的K個哈希函數(shù),確定每個賬號信息對應(yīng)的K位哈希向量;將每個賬號信息對應(yīng)的哈希向量,順序劃分為類子哈希向量;針對每個類,將子哈希向量相同的賬號信息劃分為同一組;計算同一組內(nèi)的各賬號信息之間的相似度;若各賬號信息之間的相似度大于閾值,則在各賬號信息之間建立互連邊,形成特征匹配網(wǎng)絡(luò);根據(jù)特征匹配網(wǎng)絡(luò),對各賬號信息進行社團劃分根據(jù) 各賬號信息之間的相似度,對各賬號信息進行社團劃分。本發(fā)明實施例中首先通過根據(jù)預(yù)設(shè)的K個哈希函數(shù),確定每個賬號信息對應(yīng)的K位哈希向量,對于網(wǎng)絡(luò)中數(shù)量巨大的賬號信息來說,僅僅產(chǎn)生兩個哈希值的哈希函數(shù)是不夠的,因此確定每個賬號信息對應(yīng)的K位哈希向量能夠應(yīng)對復(fù)雜的網(wǎng)絡(luò)賬號信息。然后針對每個類,將子哈希向量相同的賬號信息劃分為一組,計算同一組內(nèi)任意賬號信息之間的相似度,能夠避免針對整個網(wǎng)絡(luò)中任意賬號信息之間計算相似度而帶來的計算量非常大的缺點;本發(fā)明技術(shù)方案能夠有效減少賬號信息之間相似度的計算量,僅僅計算同一組內(nèi)的賬號信息之間的相似度。最后根據(jù)確定各賬號信息之間的相似度大于閾值,在各賬號信息之間建立互連邊,形成特征匹配網(wǎng)絡(luò);根據(jù)特征匹配網(wǎng)絡(luò),對各賬號信息進行社團劃分,能夠更精準的對各賬號信息進行社團劃分,這樣不僅能夠使社團之間的關(guān)聯(lián)關(guān)系很清楚,而且能夠?qū)澐值纳鐖F進行分析,找出異常社團,進而對異常社團內(nèi)的賬號進行異常賬號排查,更加有針對性地找出欺詐賬號,提高應(yīng)對欺詐賬號的效率。此外,如果需要對劃分出的社團添加賬號信息,只需要對該添加的賬號信息重復(fù)以上簡單的幾個步驟,將所添加的賬號信息更新到相應(yīng)的位置即可,并不會產(chǎn)生更新困難的問題。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實施例可提供為方法、或計算機程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學(xué)存儲器等)上實施的計算機程序產(chǎn)品的形式。
本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設(shè)備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機器,使得通過計算機 或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
這些計算機程序指令也可存儲在能引導(dǎo)計算機或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
盡管已描述了本發(fā)明的優(yōu)選實施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。
顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。