1.一種可疑洗錢賬戶的確定方法,其特征在于,包括:
獲取待偵測金融網(wǎng)絡(luò)中的n個(gè)數(shù)據(jù)樣本,其中,一個(gè)數(shù)據(jù)樣本用于表示一個(gè)賬戶在設(shè)定時(shí)間段的設(shè)定時(shí)長內(nèi)的交易信息,n為大于1的整數(shù);
根據(jù)每個(gè)數(shù)據(jù)樣本的加權(quán)系數(shù),將所述n個(gè)數(shù)據(jù)樣本劃分為c1類數(shù)據(jù)樣本,其中c1滿足使得劃分得到的所述c1類數(shù)據(jù)樣本對應(yīng)的平均信息熵最小,所述加權(quán)系數(shù)用于表示一個(gè)數(shù)據(jù)樣本對分類的影響程度,所述平均信息熵是根據(jù)所有數(shù)據(jù)樣本的偏向度得到的,所述偏向度用于表示一個(gè)數(shù)據(jù)樣本偏向聚類中心的程度;
確定所述c1類數(shù)據(jù)樣本中的孤立點(diǎn)數(shù)據(jù)樣本,并將所述孤立點(diǎn)數(shù)據(jù)樣本對應(yīng)的賬戶確定為可疑洗錢賬戶。
2.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)每個(gè)數(shù)據(jù)樣本的加權(quán)系數(shù),將所述n個(gè)數(shù)據(jù)樣本劃分為c1類數(shù)據(jù)樣本,包括:
針對所述n個(gè)數(shù)據(jù)樣本的一個(gè)分類值c,根據(jù)每個(gè)數(shù)據(jù)樣本的加權(quán)系數(shù)及模糊C均值聚類算法,將所述n個(gè)數(shù)據(jù)樣本劃分為c類數(shù)據(jù)樣本;確定所述c類數(shù)據(jù)樣本中每個(gè)數(shù)據(jù)樣本分別對所述c類數(shù)據(jù)樣本的c個(gè)聚類中心的偏向度;并根據(jù)確定的所有偏向度,確定所述c類數(shù)據(jù)樣本對應(yīng)的平均信息熵;
將對應(yīng)的平均信息熵最小的c類數(shù)據(jù)樣本作為所述c1類數(shù)據(jù)樣本。
3.如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)每個(gè)數(shù)據(jù)樣本的加權(quán)系數(shù)及模糊C均值聚類算法,將所述n個(gè)數(shù)據(jù)樣本劃分為c類數(shù)據(jù)樣本,包括:
使用隨機(jī)數(shù)初始化所述n個(gè)數(shù)據(jù)樣本對應(yīng)的隸屬度矩陣,以及將所述n個(gè)數(shù)據(jù)樣本對應(yīng)的目標(biāo)函數(shù)值設(shè)定為預(yù)設(shè)值;
根據(jù)所述隸屬度矩陣,將所述n個(gè)數(shù)據(jù)樣本劃分為c類數(shù)據(jù)樣本,以及確定所述c類數(shù)據(jù)樣本中每個(gè)類的聚類中心;
根據(jù)所述c類數(shù)據(jù)樣本及所述c類數(shù)據(jù)樣本中每個(gè)類的聚類中心,更新所述目標(biāo)函數(shù)值;
若確定所述目標(biāo)函數(shù)值的更新變化量小于或等于變化量閾值,則得到所述c類數(shù)據(jù)樣本;
若確定所述目標(biāo)函數(shù)值的變化量大于所述變化量閾值,則根據(jù)隸屬度矩陣更新公式,更新所述隸屬度矩陣,并返回到根據(jù)所述隸屬度矩陣,將所述n個(gè)數(shù)據(jù)樣本劃分為c類數(shù)據(jù)樣本,以及確定所述c類數(shù)據(jù)樣本中每個(gè)類的聚類中心的步驟。
4.如權(quán)利要求3所述的方法,其特征在于,所述模糊C均值聚類算法對應(yīng)的目標(biāo)函數(shù)為:
其中,μij為數(shù)據(jù)樣本xj對第i個(gè)聚類的隸屬度,{v1,v2,…,vc}為各個(gè)聚類的聚類中心,U是一個(gè)c*n的隸屬矩陣且μij為U中的元素,X為所述n個(gè)數(shù)據(jù)樣本的集合,wj為數(shù)據(jù)樣本xj的加權(quán)系數(shù),m為預(yù)設(shè)的加權(quán)指數(shù),dij為第i個(gè)聚類中心與數(shù)據(jù)樣本xj之間的歐氏距離。
5.如權(quán)利要求1所述的方法,其特征在于,所述確定所述c1類數(shù)據(jù)樣本中的孤立點(diǎn)數(shù)據(jù)樣本,包括:
根據(jù)所述c1類數(shù)據(jù)樣本中每類數(shù)據(jù)樣本的數(shù)量,將所述c1類數(shù)據(jù)樣本劃分為大類數(shù)據(jù)樣本和小類數(shù)據(jù)樣本;
針對所述大類數(shù)據(jù)樣本中的一個(gè)數(shù)據(jù)樣本,根據(jù)所述數(shù)據(jù)樣本所在聚類中數(shù)據(jù)樣本的數(shù)量,以及所述數(shù)據(jù)樣本與所述數(shù)據(jù)樣本所在聚類中數(shù)據(jù)樣本之間的歐式距離的最小值,確定所述數(shù)據(jù)樣本對應(yīng)的局部偏離值;
針對所述小類數(shù)據(jù)樣本中的一個(gè)數(shù)據(jù)樣本,根據(jù)所述數(shù)據(jù)樣本所在聚類中數(shù)據(jù)樣本的數(shù)量,以及所述數(shù)據(jù)樣本與所述大類數(shù)據(jù)樣本中數(shù)據(jù)樣本之間的歐式距離的最小值,確定所述數(shù)據(jù)樣本對應(yīng)的局部偏離值;
將所述c1類數(shù)據(jù)樣本中局部偏離值大于偏離度閾值的所有數(shù)據(jù)樣本確定為所述孤立點(diǎn)數(shù)據(jù)樣本。
6.如權(quán)利要求1-4中任一項(xiàng)所述的方法,其特征在于,根據(jù)下列方式確定每個(gè)數(shù)據(jù)樣本的加權(quán)系數(shù):
rmin=min{||xi-xj||},1≤i,j≤n,
rmax=max{||xi-xj||},1≤i,j≤n;
其中,wi表示數(shù)據(jù)樣本xi的加權(quán)系數(shù),Ci表示數(shù)據(jù)樣本xi的粒子數(shù)密度,Ni表示以數(shù)據(jù)樣本xi為球心,r為半徑的球體內(nèi)包含的數(shù)據(jù)樣本的數(shù)量且r值預(yù)先設(shè)定,D表示數(shù)據(jù)樣本xi的維度,||xi-xj||為數(shù)據(jù)樣本xi與數(shù)據(jù)樣本xj之間的歐氏距離。
7.如權(quán)利要求1-4中任一項(xiàng)所述的方法,其特征在于,所述n個(gè)數(shù)據(jù)樣本中的任一個(gè)數(shù)據(jù)樣本可用下列部分或全部的內(nèi)容來表示:
總交易金額、總轉(zhuǎn)出金額、總轉(zhuǎn)入金額、交易金額離散系數(shù)、轉(zhuǎn)出金額離散系數(shù)、轉(zhuǎn)入金額離散系數(shù)、轉(zhuǎn)出頻率、轉(zhuǎn)入頻率;其中所述交易金額離散系數(shù)為所述數(shù)據(jù)樣本在設(shè)定時(shí)間段的設(shè)定時(shí)長內(nèi)交易金額方差與交易金額均值的比值,所述轉(zhuǎn)出金額離散系數(shù)為所述數(shù)據(jù)樣本在設(shè)定時(shí)間段的設(shè)定時(shí)長內(nèi)轉(zhuǎn)出金額方差與轉(zhuǎn)出金額均值的比值,所述轉(zhuǎn)入金額離散系數(shù)為所述數(shù)據(jù)樣本在設(shè)定時(shí)間段的設(shè)定時(shí)長內(nèi)轉(zhuǎn)入金額方差與轉(zhuǎn)入金額均值的比值。
8.如權(quán)利要求2所述的方法,其特征在于,根據(jù)下列公式確定所述c類數(shù)據(jù)樣本中每個(gè)數(shù)據(jù)樣本分別對所述c類數(shù)據(jù)樣本的c個(gè)聚類中心的偏向度:
其中,pij表示數(shù)據(jù)樣本xj對第i個(gè)聚類中心的偏向度,dij為第i個(gè)聚類中心與數(shù)據(jù)樣本xj之間的歐氏距離。
9.如權(quán)利要求2所述的方法,其特征在于,根據(jù)下列公式確定所述c類數(shù)據(jù)樣本中每個(gè)類的聚類中心:
其中,vi表示聚類中心,wi表示數(shù)據(jù)樣本xi的加權(quán)系數(shù),μij為數(shù)據(jù)樣本xj對第i個(gè)聚類的隸屬度。
10.一種可疑洗錢賬戶的確定裝置,其特征在于,包括:
獲取單元,用于獲取待偵測金融網(wǎng)絡(luò)中的n個(gè)數(shù)據(jù)樣本,其中,一個(gè)數(shù)據(jù)樣本用于表示一個(gè)賬戶在設(shè)定時(shí)間段的設(shè)定時(shí)長內(nèi)的交易信息,n為大于1的整數(shù);
劃分單元,用于根據(jù)每個(gè)數(shù)據(jù)樣本的加權(quán)系數(shù),將所述n個(gè)數(shù)據(jù)樣本劃分為c1類數(shù)據(jù)樣本,其中c1滿足使得劃分得到的所述c1類數(shù)據(jù)樣本對應(yīng)的平均信息熵最小,所述加權(quán)系數(shù)用于表示一個(gè)數(shù)據(jù)樣本對分類的影響程度,所述平均信息熵是根據(jù)所有數(shù)據(jù)樣本的偏向度得到的,所述偏向度用于表示一個(gè)數(shù)據(jù)樣本偏向聚類中心的程度;
可疑洗錢賬戶確定單元,用于確定所述c1類數(shù)據(jù)樣本中的孤立點(diǎn)數(shù)據(jù)樣本,并將所述孤立點(diǎn)數(shù)據(jù)樣本對應(yīng)的賬戶確定為可疑洗錢賬戶。
11.如權(quán)利要求10所述的裝置,其特征在于,所述劃分單元,具體用于:
針對所述n個(gè)數(shù)據(jù)樣本的一個(gè)分類值c,根據(jù)每個(gè)數(shù)據(jù)樣本的加權(quán)系數(shù)及模糊C均值聚類算法,將所述n個(gè)數(shù)據(jù)樣本劃分為c類數(shù)據(jù)樣本;確定所述c類數(shù)據(jù)樣本中每個(gè)數(shù)據(jù)樣本分別對所述c類數(shù)據(jù)樣本的c個(gè)聚類中心的偏向度;并根據(jù)確定的所有偏向度,確定所述c類數(shù)據(jù)樣本對應(yīng)的平均信息熵;
將對應(yīng)的平均信息熵最小的c類數(shù)據(jù)樣本作為所述c1類數(shù)據(jù)樣本。
12.如權(quán)利要求11所述的裝置,其特征在于,所述劃分單元,具體用于:
使用隨機(jī)數(shù)初始化所述n個(gè)數(shù)據(jù)樣本對應(yīng)的隸屬度矩陣,以及將所述n個(gè)數(shù)據(jù)樣本對應(yīng)的目標(biāo)函數(shù)值設(shè)定為預(yù)設(shè)值;
根據(jù)所述隸屬度矩陣,將所述n個(gè)數(shù)據(jù)樣本劃分為c類數(shù)據(jù)樣本,以及確定所述c類數(shù)據(jù)樣本中每個(gè)類的聚類中心;
根據(jù)所述c類數(shù)據(jù)樣本及所述c類數(shù)據(jù)樣本中每個(gè)類的聚類中心,更新所述目標(biāo)函數(shù)值;
若確定所述目標(biāo)函數(shù)值的更新變化量小于或等于變化量閾值,則得到所述c類數(shù)據(jù)樣本;
若確定所述目標(biāo)函數(shù)值的變化量大于所述變化量閾值,則根據(jù)隸屬度矩陣更新公式,更新所述隸屬度矩陣,并返回到根據(jù)所述隸屬度矩陣,將所述n個(gè)數(shù)據(jù)樣本劃分為c類數(shù)據(jù)樣本,以及確定所述c類數(shù)據(jù)樣本中每個(gè)類的聚類中心的步驟。
13.如權(quán)利要求12所述的裝置,其特征在于,所述模糊C均值聚類算法對應(yīng)的目標(biāo)函數(shù)為:
其中,μij為數(shù)據(jù)樣本xj對第i個(gè)聚類的隸屬度,{v1,v2,…,vc}為各個(gè)聚類的聚類中心,U是一個(gè)c*n的隸屬矩陣且μij為U中的元素,X為所述n個(gè)數(shù)據(jù)樣本的集合,wj為數(shù)據(jù)樣本xj的加權(quán)系數(shù),m為預(yù)設(shè)的加權(quán)指數(shù),dij為第i個(gè)聚類中心與數(shù)據(jù)樣本xj之間的歐氏距離。
14.如權(quán)利要求10所述的裝置,其特征在于,所述可疑洗錢賬戶確定單元,具體用于:
根據(jù)所述c1類數(shù)據(jù)樣本中每類數(shù)據(jù)樣本的數(shù)量,將所述c1類數(shù)據(jù)樣本劃分為大類數(shù)據(jù)樣本和小類數(shù)據(jù)樣本;
針對所述大類數(shù)據(jù)樣本中的一個(gè)數(shù)據(jù)樣本,根據(jù)所述數(shù)據(jù)樣本所在聚類中數(shù)據(jù)樣本的數(shù)量,以及所述數(shù)據(jù)樣本與所述數(shù)據(jù)樣本所在聚類中數(shù)據(jù)樣本之間的歐式距離的最小值,確定所述數(shù)據(jù)樣本對應(yīng)的局部偏離值;
針對所述小類數(shù)據(jù)樣本中的一個(gè)數(shù)據(jù)樣本,根據(jù)所述數(shù)據(jù)樣本所在聚類中數(shù)據(jù)樣本的數(shù)量,以及所述數(shù)據(jù)樣本與所述大類數(shù)據(jù)樣本中數(shù)據(jù)樣本之間的歐式距離的最小值,確定所述數(shù)據(jù)樣本對應(yīng)的局部偏離值;
將所述c1類數(shù)據(jù)樣本中局部偏離值大于偏離度閾值的所有數(shù)據(jù)樣本確定為所述孤立點(diǎn)數(shù)據(jù)樣本。
15.如權(quán)利要求10-13中任一項(xiàng)所述的裝置,其特征在于,所述裝置還包括加權(quán)系數(shù)確定單元,用于根據(jù)下列方式確定每個(gè)數(shù)據(jù)樣本的加權(quán)系數(shù):
rmin=min{||xi-xj||},1≤i,j≤n,
rmax=max{||xi-xj||},1≤i,j≤n;
其中,wi表示數(shù)據(jù)樣本xi的加權(quán)系數(shù),Ci表示數(shù)據(jù)樣本xi的粒子數(shù)密度,Ni表示以數(shù)據(jù)樣本xi為球心,r為半徑的球體內(nèi)包含的數(shù)據(jù)樣本的數(shù)量且r值預(yù)先設(shè)定,D表示數(shù)據(jù)樣本xi的維度,||xi-xj||為數(shù)據(jù)樣本xi與數(shù)據(jù)樣本xj之間的歐氏距離。
16.如權(quán)利要求10-13中任一項(xiàng)所述的裝置,其特征在于,所述n個(gè)數(shù)據(jù)樣本中的任一個(gè)數(shù)據(jù)樣本可用下列部分或全部的內(nèi)容來表示:
總交易金額、總轉(zhuǎn)出金額、總轉(zhuǎn)入金額、交易金額離散系數(shù)、轉(zhuǎn)出金額離散系數(shù)、轉(zhuǎn)入金額離散系數(shù)、轉(zhuǎn)出頻率、轉(zhuǎn)入頻率;其中所述交易金額離散系數(shù)為所述數(shù)據(jù)樣本在設(shè)定時(shí)間段的設(shè)定時(shí)長內(nèi)交易金額方差與交易金額均值的比值,所述轉(zhuǎn)出金額離散系數(shù)為所述數(shù)據(jù)樣本在設(shè)定時(shí)間段的設(shè)定時(shí)長內(nèi)轉(zhuǎn)出金額方差與轉(zhuǎn)出金額均值的比值,所述轉(zhuǎn)入金額離散系數(shù)為所述數(shù)據(jù)樣本在設(shè)定時(shí)間段的設(shè)定時(shí)長內(nèi)轉(zhuǎn)入金額方差與轉(zhuǎn)入金額均值的比值。
17.如權(quán)利要求11所述的裝置,其特征在于,所述裝置還包括偏向度確定單元,用于根據(jù)下列公式確定所述c類數(shù)據(jù)樣本中每個(gè)數(shù)據(jù)樣本分別對所述c類數(shù)據(jù)樣本的c個(gè)聚類中心的偏向度:
其中,pij表示數(shù)據(jù)樣本xj對第i個(gè)聚類中心的偏向度,dij為第i個(gè)聚類中心與數(shù)據(jù)樣本xj之間的歐氏距離。
18.如權(quán)利要求11所述的裝置,其特征在于,所述裝置還包括聚類中心確定單元,用于根據(jù)下列公式確定所述c類數(shù)據(jù)樣本中每個(gè)類的聚類中心:
其中,vi表示聚類中心,wi表示數(shù)據(jù)樣本xi的加權(quán)系數(shù),μij為數(shù)據(jù)樣本xj對第i個(gè)聚類的隸屬度。