本發(fā)明涉及計(jì)算機(jī)
技術(shù)領(lǐng)域:
,尤其涉及一種可疑洗錢賬戶的確定方法及裝置。
背景技術(shù):
:在金融網(wǎng)絡(luò)中存在著洗錢賬戶,進(jìn)行著非法交易,洗錢賬戶是金融網(wǎng)絡(luò)中洗錢路徑中的節(jié)點(diǎn),如何從錯綜復(fù)雜的金融網(wǎng)絡(luò)中找到可疑洗錢賬戶,對打擊洗錢行為有重要意義?,F(xiàn)有技術(shù)在查找洗錢賬戶時,一般通過下列方法實(shí)現(xiàn):將一段時間內(nèi)具有較高交易金額的賬戶或者是交易較為頻繁的賬戶篩選出來,然后由專家通過人工方式確認(rèn)篩選出的賬戶是否為可疑洗錢賬戶。上述方法主要存在的問題是:該方式通過人工方式來確定可疑洗錢賬戶,過于依賴專家的主觀經(jīng)驗(yàn),不僅效率低下,而且精確度不高,并且很難發(fā)現(xiàn)一些隱藏較深的可疑洗錢賬戶。綜上所述,現(xiàn)有技術(shù)通過人工方式偵測可疑洗錢賬戶,效率比較低下,精確度不高,并且很難發(fā)現(xiàn)一些隱藏較深的可疑洗錢賬戶。技術(shù)實(shí)現(xiàn)要素:本發(fā)明提供一種可疑洗錢賬戶的確定方法及裝置,用以解決現(xiàn)有技術(shù)中存在的通過人工方式偵測可疑洗錢賬戶,效率比較低下,精確度不高,并且很難發(fā)現(xiàn)一些隱藏較深的可疑洗錢賬戶的技術(shù)問題。一方面,本發(fā)明實(shí)施例提供一種可疑洗錢賬戶的確定方法,包括:獲取待偵測金融網(wǎng)絡(luò)中的n個數(shù)據(jù)樣本,其中,一個數(shù)據(jù)樣本用于表示一個賬戶在設(shè)定時間段的設(shè)定時長內(nèi)的交易信息,n為大于1的整數(shù);根據(jù)每個數(shù)據(jù)樣本的加權(quán)系數(shù),將所述n個數(shù)據(jù)樣本劃分為c1類數(shù)據(jù)樣本,其中c1滿足使得劃分得到的所述c1類數(shù)據(jù)樣本對應(yīng)的平均信息熵最小,所述加權(quán)系數(shù)用于表示一個數(shù)據(jù)樣本對分類的影響程度,所述平均信息熵是根據(jù)所有數(shù)據(jù)樣本的偏向度得到的,所述偏向度用于表示一個數(shù)據(jù)樣本偏向聚類中心的程度;確定所述c1類數(shù)據(jù)樣本中的孤立點(diǎn)數(shù)據(jù)樣本,并將所述孤立點(diǎn)數(shù)據(jù)樣本對應(yīng)的賬戶確定為可疑洗錢賬戶??蛇x地,所述根據(jù)每個數(shù)據(jù)樣本的加權(quán)系數(shù),將所述n個數(shù)據(jù)樣本劃分為c1類數(shù)據(jù)樣本,包括:針對所述n個數(shù)據(jù)樣本的一個分類值c,根據(jù)每個數(shù)據(jù)樣本的加權(quán)系數(shù)及模糊C均值聚類算法,將所述n個數(shù)據(jù)樣本劃分為c類數(shù)據(jù)樣本;確定所述c類數(shù)據(jù)樣本中每個數(shù)據(jù)樣本分別對所述c類數(shù)據(jù)樣本的c個聚類中心的偏向度;并根據(jù)確定的所有偏向度,確定所述c類數(shù)據(jù)樣本對應(yīng)的平均信息熵;將對應(yīng)的平均信息熵最小的c類數(shù)據(jù)樣本作為所述c1類數(shù)據(jù)樣本??蛇x地,所述根據(jù)每個數(shù)據(jù)樣本的加權(quán)系數(shù)及模糊C均值聚類算法,將所述n個數(shù)據(jù)樣本劃分為c類數(shù)據(jù)樣本,包括:使用隨機(jī)數(shù)初始化所述n個數(shù)據(jù)樣本對應(yīng)的隸屬度矩陣,以及將所述n個數(shù)據(jù)樣本對應(yīng)的目標(biāo)函數(shù)值設(shè)定為預(yù)設(shè)值;根據(jù)所述隸屬度矩陣,將所述n個數(shù)據(jù)樣本劃分為c類數(shù)據(jù)樣本,以及確定所述c類數(shù)據(jù)樣本中每個類的聚類中心;根據(jù)所述c類數(shù)據(jù)樣本及所述c類數(shù)據(jù)樣本中每個類的聚類中心,更新所述目標(biāo)函數(shù)值;若確定所述目標(biāo)函數(shù)值的更新變化量小于或等于變化量閾值,則得到所述c類數(shù)據(jù)樣本;若確定所述目標(biāo)函數(shù)值的變化量大于所述變化量閾值,則根據(jù)隸屬度矩陣更新公式,更新所述隸屬度矩陣,并返回到根據(jù)所述隸屬度矩陣,將所述n個數(shù)據(jù)樣本劃分為c類數(shù)據(jù)樣本,以及確定所述c類數(shù)據(jù)樣本中每個類的聚類中心的步驟??蛇x地,所述模糊C均值聚類算法對應(yīng)的目標(biāo)函數(shù)為:J=Jd(U,v1,v2,...,vc,X)=Σi=1cΣj=1nwjμijmdij2,]]>Σi=1cμij=1,∀j=1,2,...,n;1≤j≤n;]]>其中,μij為數(shù)據(jù)樣本xj對第i個聚類的隸屬度,{v1,v2,…,vc}為各個聚類的聚類中心,U是一個c*n的隸屬矩陣且μij為U中的元素,X為所述n個數(shù)據(jù)樣本的集合,wj為數(shù)據(jù)樣本xj的加權(quán)系數(shù),m為預(yù)設(shè)的加權(quán)指數(shù),dij為第i個聚類中心與數(shù)據(jù)樣本xj之間的歐氏距離。可選地,所述確定所述c1類數(shù)據(jù)樣本中的孤立點(diǎn)數(shù)據(jù)樣本,包括:根據(jù)所述c1類數(shù)據(jù)樣本中每類數(shù)據(jù)樣本的數(shù)量,將所述c1類數(shù)據(jù)樣本劃分為大類數(shù)據(jù)樣本和小類數(shù)據(jù)樣本;針對所述大類數(shù)據(jù)樣本中的一個數(shù)據(jù)樣本,根據(jù)所述數(shù)據(jù)樣本所在聚類中數(shù)據(jù)樣本的數(shù)量,以及所述數(shù)據(jù)樣本與所述數(shù)據(jù)樣本所在聚類中數(shù)據(jù)樣本之間的歐式距離的最小值,確定所述數(shù)據(jù)樣本對應(yīng)的局部偏離值;針對所述小類數(shù)據(jù)樣本中的一個數(shù)據(jù)樣本,根據(jù)所述數(shù)據(jù)樣本所在聚類中數(shù)據(jù)樣本的數(shù)量,以及所述數(shù)據(jù)樣本與所述大類數(shù)據(jù)樣本中數(shù)據(jù)樣本之間的歐式距離的最小值,確定所述數(shù)據(jù)樣本對應(yīng)的局部偏離值;將所述c1類數(shù)據(jù)樣本中局部偏離值大于偏離度閾值的所有數(shù)據(jù)樣本確定為所述孤立點(diǎn)數(shù)據(jù)樣本??蛇x地,根據(jù)下列方式確定每個數(shù)據(jù)樣本的加權(quán)系數(shù):wi=CiΣi=1nCi,]]>Ci=NirD,rmin<r<rmax,]]>rmin=min{||xi-xj||},1≤i,j≤n,rmax=max{||xi-xj||},1≤i,j≤n;其中,wi表示數(shù)據(jù)樣本xi的加權(quán)系數(shù),Ci表示數(shù)據(jù)樣本xi的粒子數(shù)密度,Ni表示以數(shù)據(jù)樣本xi為球心,r為半徑的球體內(nèi)包含的數(shù)據(jù)樣本的數(shù)量且r值預(yù)先設(shè)定,D表示數(shù)據(jù)樣本xi的維度,||xi-xj||為數(shù)據(jù)樣本xi與數(shù)據(jù)樣本xj之間的歐氏距離??蛇x地,所述n個數(shù)據(jù)樣本中的任一個數(shù)據(jù)樣本可用下列部分或全部的內(nèi)容來表示:總交易金額、總轉(zhuǎn)出金額、總轉(zhuǎn)入金額、交易金額離散系數(shù)、轉(zhuǎn)出金額離散系數(shù)、轉(zhuǎn)入金額離散系數(shù)、轉(zhuǎn)出頻率、轉(zhuǎn)入頻率;其中所述交易金額離散系數(shù)為所述數(shù)據(jù)樣本在設(shè)定時間段的設(shè)定時長內(nèi)交易金額方差與交易金額均值的比值,所述轉(zhuǎn)出金額離散系數(shù)為所述數(shù)據(jù)樣本在設(shè)定時間段的設(shè)定時長內(nèi)轉(zhuǎn)出金額方差與轉(zhuǎn)出金額均值的比值,所述轉(zhuǎn)入金額離散系數(shù)為所述數(shù)據(jù)樣本在設(shè)定時間段的設(shè)定時長內(nèi)轉(zhuǎn)入金額方差與轉(zhuǎn)入金額均值的比值??蛇x地,根據(jù)下列公式確定所述c類數(shù)據(jù)樣本中每個數(shù)據(jù)樣本分別對所述c類數(shù)據(jù)樣本的c個聚類中心的偏向度:pij=e-dij2Σi=1ce-dij2,]]>其中,pij表示數(shù)據(jù)樣本xj對第i個聚類中心的偏向度,dij為第i個聚類中心與數(shù)據(jù)樣本xj之間的歐氏距離??蛇x地,根據(jù)下列公式確定所述c類數(shù)據(jù)樣本中每個類的聚類中心:vi=Σj=1nwjμij2xjΣj=1nwjμij2,(1≤i≤c),]]>其中,vi表示聚類中心,wi表示數(shù)據(jù)樣本xi的加權(quán)系數(shù),μij為數(shù)據(jù)樣本xj對第i個聚類的隸屬度。另一方面,本發(fā)明實(shí)施例提供一種可疑洗錢賬戶的確定裝置,包括:獲取單元,用于獲取待偵測金融網(wǎng)絡(luò)中的n個數(shù)據(jù)樣本,其中,一個數(shù)據(jù)樣本用于表示一個賬戶在設(shè)定時間段的設(shè)定時長內(nèi)的交易信息,n為大于1的整數(shù);劃分單元,用于根據(jù)每個數(shù)據(jù)樣本的加權(quán)系數(shù),將所述n個數(shù)據(jù)樣本劃分為c1類數(shù)據(jù)樣本,其中c1滿足使得劃分得到的所述c1類數(shù)據(jù)樣本對應(yīng)的平均信息熵最小,所述加權(quán)系數(shù)用于表示一個數(shù)據(jù)樣本對分類的影響程度,所述平均信息熵是根據(jù)所有數(shù)據(jù)樣本的偏向度得到的,所述偏向度用于表示一個數(shù)據(jù)樣本偏向聚類中心的程度;可疑洗錢賬戶確定單元,用于確定所述c1類數(shù)據(jù)樣本中的孤立點(diǎn)數(shù)據(jù)樣本,并將所述孤立點(diǎn)數(shù)據(jù)樣本對應(yīng)的賬戶確定為可疑洗錢賬戶??蛇x地,所述劃分單元,具體用于:針對所述n個數(shù)據(jù)樣本的一個分類值c,根據(jù)每個數(shù)據(jù)樣本的加權(quán)系數(shù)及模糊C均值聚類算法,將所述n個數(shù)據(jù)樣本劃分為c類數(shù)據(jù)樣本;確定所述c類數(shù)據(jù)樣本中每個數(shù)據(jù)樣本分別對所述c類數(shù)據(jù)樣本的c個聚類中心的偏向度;并根據(jù)確定的所有偏向度,確定所述c類數(shù)據(jù)樣本對應(yīng)的平均信息熵;將對應(yīng)的平均信息熵最小的c類數(shù)據(jù)樣本作為所述c1類數(shù)據(jù)樣本??蛇x地,所述劃分單元,具體用于:使用隨機(jī)數(shù)初始化所述n個數(shù)據(jù)樣本對應(yīng)的隸屬度矩陣,以及將所述n個數(shù)據(jù)樣本對應(yīng)的目標(biāo)函數(shù)值設(shè)定為預(yù)設(shè)值;根據(jù)所述隸屬度矩陣,將所述n個數(shù)據(jù)樣本劃分為c類數(shù)據(jù)樣本,以及確定所述c類數(shù)據(jù)樣本中每個類的聚類中心;根據(jù)所述c類數(shù)據(jù)樣本及所述c類數(shù)據(jù)樣本中每個類的聚類中心,更新所述目標(biāo)函數(shù)值;若確定所述目標(biāo)函數(shù)值的更新變化量小于或等于變化量閾值,則得到所述c類數(shù)據(jù)樣本;若確定所述目標(biāo)函數(shù)值的變化量大于所述變化量閾值,則根據(jù)隸屬度矩陣更新公式,更新所述隸屬度矩陣,并返回到根據(jù)所述隸屬度矩陣,將所述n個數(shù)據(jù)樣本劃分為c類數(shù)據(jù)樣本,以及確定所述c類數(shù)據(jù)樣本中每個類的聚類中心的步驟??蛇x地,所述模糊C均值聚類算法對應(yīng)的目標(biāo)函數(shù)為:J=Jd(U,v1,v2,...,vc,X)=Σi=1cΣj=1nwjμijmdij2,]]>Σi=1cμij=1,∀j=1,2,...,n;1≤j≤n;]]>其中,μij為數(shù)據(jù)樣本xj對第i個聚類的隸屬度,{v1,v2,…,vc}為各個聚類的聚類中心,U是一個c*n的隸屬矩陣且μij為U中的元素,X為所述n個數(shù)據(jù)樣本的集合,wj為數(shù)據(jù)樣本xj的加權(quán)系數(shù),m為預(yù)設(shè)的加權(quán)指數(shù),dij為第i個聚類中心與數(shù)據(jù)樣本xj之間的歐氏距離??蛇x地,所述可疑洗錢賬戶確定單元,具體用于:根據(jù)所述c1類數(shù)據(jù)樣本中每類數(shù)據(jù)樣本的數(shù)量,將所述c1類數(shù)據(jù)樣本劃分為大類數(shù)據(jù)樣本和小類數(shù)據(jù)樣本;針對所述大類數(shù)據(jù)樣本中的一個數(shù)據(jù)樣本,根據(jù)所述數(shù)據(jù)樣本所在聚類中數(shù)據(jù)樣本的數(shù)量,以及所述數(shù)據(jù)樣本與所述數(shù)據(jù)樣本所在聚類中數(shù)據(jù)樣本之間的歐式距離的最小值,確定所述數(shù)據(jù)樣本對應(yīng)的局部偏離值;針對所述小類數(shù)據(jù)樣本中的一個數(shù)據(jù)樣本,根據(jù)所述數(shù)據(jù)樣本所在聚類中數(shù)據(jù)樣本的數(shù)量,以及所述數(shù)據(jù)樣本與所述大類數(shù)據(jù)樣本中數(shù)據(jù)樣本之間的歐式距離的最小值,確定所述數(shù)據(jù)樣本對應(yīng)的局部偏離值;將所述c1類數(shù)據(jù)樣本中局部偏離值大于偏離度閾值的所有數(shù)據(jù)樣本確定為所述孤立點(diǎn)數(shù)據(jù)樣本??蛇x地,所述裝置還包括加權(quán)系數(shù)確定單元,用于根據(jù)下列方式確定每個數(shù)據(jù)樣本的加權(quán)系數(shù):wi=CiΣi=1nCi,]]>Ci=NirD,rmin<r<rmax,]]>rmin=min{||xi-xj||},1≤i,j≤n,rmax=max{||xi-xj||},1≤i,j≤n;其中,wi表示數(shù)據(jù)樣本xi的加權(quán)系數(shù),Ci表示數(shù)據(jù)樣本xi的粒子數(shù)密度,Ni表示以數(shù)據(jù)樣本xi為球心,r為半徑的球體內(nèi)包含的數(shù)據(jù)樣本的數(shù)量且r值預(yù)先設(shè)定,D表示數(shù)據(jù)樣本xi的維度,||xi-xj||為數(shù)據(jù)樣本xi與數(shù)據(jù)樣本xj之間的歐氏距離。可選地,所述n個數(shù)據(jù)樣本中的任一個數(shù)據(jù)樣本可用下列部分或全部的內(nèi)容來表示:總交易金額、總轉(zhuǎn)出金額、總轉(zhuǎn)入金額、交易金額離散系數(shù)、轉(zhuǎn)出金額離散系數(shù)、轉(zhuǎn)入金額離散系數(shù)、轉(zhuǎn)出頻率、轉(zhuǎn)入頻率;其中所述交易金額離散系數(shù)為所述數(shù)據(jù)樣本在設(shè)定時間段的設(shè)定時長內(nèi)交易金額方差與交易金額均值的比值,所述轉(zhuǎn)出金額離散系數(shù)為所述數(shù)據(jù)樣本在設(shè)定時間段的設(shè)定時長內(nèi)轉(zhuǎn)出金額方差與轉(zhuǎn)出金額均值的比值,所述轉(zhuǎn)入金額離散系數(shù)為所述數(shù)據(jù)樣本在設(shè)定時間段的設(shè)定時長內(nèi)轉(zhuǎn)入金額方差與轉(zhuǎn)入金額均值的比值??蛇x地,所述裝置還包括偏向度確定單元,用于根據(jù)下列公式確定所述c類數(shù)據(jù)樣本中每個數(shù)據(jù)樣本分別對所述c類數(shù)據(jù)樣本的c個聚類中心的偏向度:pij=e-dij2Σi=1ce-dij2,]]>其中,pij表示數(shù)據(jù)樣本xj對第i個聚類中心的偏向度,dij為第i個聚類中心與數(shù)據(jù)樣本xj之間的歐氏距離??蛇x地,所述裝置還包括聚類中心確定單元,用于根據(jù)下列公式確定所述c類數(shù)據(jù)樣本中每個類的聚類中心:vi=Σj=1nwjμij2xjΣj=1nwjμij2,(1≤i≤c),]]>其中,vi表示聚類中心,wi表示數(shù)據(jù)樣本xi的加權(quán)系數(shù),μij為數(shù)據(jù)樣本xj對第i個聚類的隸屬度。本發(fā)明實(shí)施例,首先確定n個數(shù)據(jù)樣本,一個數(shù)據(jù)樣本用于表示一個賬戶在設(shè)定時間段的設(shè)定時長內(nèi)的交易信息,然后將n個數(shù)據(jù)樣本進(jìn)行分類,得到c1類數(shù)據(jù)樣本,其中,該分類方式是一個最佳分類,以及從所述c1類數(shù)據(jù)樣本中確定出孤立點(diǎn)數(shù)據(jù)樣本,并將孤立點(diǎn)數(shù)據(jù)樣本確定為可疑洗錢賬戶。本發(fā)明實(shí)施例方法一方面無需人工參與,可自動實(shí)現(xiàn)確定出可疑洗錢賬戶,提高了效率;另一方面,由于首先將數(shù)據(jù)樣本進(jìn)行合理分類,然后根據(jù)可疑洗錢賬戶的特點(diǎn),從分類后的數(shù)據(jù)樣本中找到孤立點(diǎn)作為可疑洗錢賬戶,因而提高了查找可疑洗錢賬戶的準(zhǔn)確率。附圖說明為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對實(shí)施例描述中所需要使用的附圖作簡要介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域的普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實(shí)施例提供的一種可疑洗錢賬戶的確定方法流程圖;圖2為本發(fā)明實(shí)施例提供的一種可疑洗錢賬戶的確定方法詳細(xì)流程圖;圖3為本發(fā)明實(shí)施例提供的一種可疑洗錢賬戶的確定裝置示意圖。具體實(shí)施方式為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對本發(fā)明作進(jìn)一步地詳細(xì)描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其它實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。下面結(jié)合說明書附圖對本發(fā)明實(shí)施例作進(jìn)一步詳細(xì)描述。如圖1所示,本發(fā)明實(shí)施例提供的一種可疑洗錢賬戶的確定方法,包括:步驟101、獲取待偵測金融網(wǎng)絡(luò)中的n個數(shù)據(jù)樣本,其中,一個數(shù)據(jù)樣本用于表示一個賬戶在設(shè)定時間段的設(shè)定時長內(nèi)的交易信息,n為大于1的整數(shù);步驟102、根據(jù)每個數(shù)據(jù)樣本的加權(quán)系數(shù),將所述n個數(shù)據(jù)樣本劃分為c1類數(shù)據(jù)樣本,其中c1滿足使得劃分得到的所述c1類數(shù)據(jù)樣本對應(yīng)的平均信息熵最小,所述加權(quán)系數(shù)用于表示一個數(shù)據(jù)樣本對分類的影響程度,所述平均信息熵是根據(jù)所有數(shù)據(jù)樣本的偏向度得到的,所述偏向度用于表示一個數(shù)據(jù)樣本偏向聚類中心的程度;步驟103、確定所述c1類數(shù)據(jù)樣本中的孤立點(diǎn)數(shù)據(jù)樣本,并將所述孤立點(diǎn)數(shù)據(jù)樣本對應(yīng)的賬戶確定為可疑洗錢賬戶。在待偵測金融網(wǎng)絡(luò)中,有很多賬戶,其中有些賬戶是洗錢賬戶,從事著非法洗錢交易,如何偵破獲取這些洗錢賬戶對打擊洗錢犯罪活動有著重大意義。本發(fā)明方法通過以上步驟101~步驟103可以實(shí)現(xiàn)找到可疑洗錢賬戶。上述步驟101中,首先獲取待偵測金融網(wǎng)絡(luò)中的n個數(shù)據(jù)樣本,其中一個數(shù)據(jù)樣本表示一個賬戶在設(shè)定時間段的設(shè)定時長內(nèi)的交易信息,且n為大于1的整數(shù)。舉例來說,假設(shè)設(shè)定時間段為最近一個月(假設(shè)有30天),設(shè)定時長為10天,則每個賬戶對應(yīng)有3個數(shù)據(jù)樣本;再比如,假設(shè)設(shè)定時間段為一年時間,設(shè)定時長為1個月,則每個賬戶對應(yīng)有12個數(shù)據(jù)樣本??蛇x地,本發(fā)明實(shí)施例中,對于得到的n個數(shù)據(jù)樣本中的每個數(shù)據(jù)樣本,定義為一個8維向量(當(dāng)然也可以不是8維向量,根據(jù)實(shí)際需要來定義),具體地,任意一個數(shù)據(jù)樣本xi形式如下:xi=(Tai0,Tai1,Tai2,Tadi0,Tadi1,Tadi2,Tfwi,Tfdi)。其中,Tai0表示在設(shè)定時間段的設(shè)定時長內(nèi)的總交易金額,Tai1表示在設(shè)定時間段的設(shè)定時長內(nèi)的總轉(zhuǎn)出交易金額,Tai2表示在設(shè)定時間段的設(shè)定時長內(nèi)的總轉(zhuǎn)入交易金額,Tadi0表示交易金額離散系數(shù),Tadi1表示轉(zhuǎn)出金額離散系數(shù),Tadi2表示轉(zhuǎn)入金額離散系數(shù),Tfwi表示轉(zhuǎn)出頻率,Tfdi表示轉(zhuǎn)入頻率,其中所述交易金額離散系數(shù)Tadi0為數(shù)據(jù)樣本在設(shè)定時間段的設(shè)定時長內(nèi)交易金額方差與交易金額均值的比值,所述轉(zhuǎn)出金額離散系數(shù)Tadi1為數(shù)據(jù)樣本在設(shè)定時間段的設(shè)定時長內(nèi)轉(zhuǎn)出金額方差與轉(zhuǎn)出金額均值的比值,所述轉(zhuǎn)入金額離散系數(shù)Tadi2為數(shù)據(jù)樣本在設(shè)定時間段的設(shè)定時長內(nèi)轉(zhuǎn)入金額方差與轉(zhuǎn)入金額均值的比值。舉例來說,假設(shè)設(shè)定時間段為一個月,設(shè)定時長為10天,則對于任意一個賬戶k,可以得到3個數(shù)據(jù)樣本,假設(shè)分別為xk1,xk2,xk3,其中xk1表示在這一個月中的前10天的相關(guān)交易信息,xk2表示在這一個月中的中間10天的相關(guān)交易信息,xk3表示在這一個月中的后10天的相關(guān)交易信息,并且每個數(shù)據(jù)樣本都是1個由8個量組成的向量。對于每個數(shù)據(jù)樣本的8個分量,具體地,可以通過下列方式得到:1、總交易金額Tai0假設(shè)數(shù)據(jù)樣本i在設(shè)定時長內(nèi)總共有ni0筆交易,每筆交易金額taij按照時序排列為則數(shù)據(jù)樣本的總交易金額為:2、總轉(zhuǎn)出交易金額Tai1假設(shè)數(shù)據(jù)樣本i在設(shè)定時長內(nèi)總共有ni1筆轉(zhuǎn)出交易,每筆交易金額tbij按照時序排列為則數(shù)據(jù)樣本的總轉(zhuǎn)出交易金額為:3、總轉(zhuǎn)入交易金額Tai2假設(shè)數(shù)據(jù)樣本i在設(shè)定時長內(nèi)總共有ni2筆轉(zhuǎn)出交易,每筆交易金額tcij按照時序排列為則數(shù)據(jù)樣本的總轉(zhuǎn)出交易金額為:4、交易金額離散系數(shù)Tadi0假設(shè)數(shù)據(jù)樣本i在設(shè)定時長內(nèi)總交易金額均值為:總交易金額的方差為則交易金額離散系數(shù)Tadi0為:5、轉(zhuǎn)出金額離散系數(shù)Tadi1假設(shè)數(shù)據(jù)樣本i在設(shè)定時長內(nèi)總轉(zhuǎn)出交易金額均值為:總轉(zhuǎn)出交易金額的方差為則轉(zhuǎn)出金額離散系數(shù)Tadi1為:6、轉(zhuǎn)入金額離散系數(shù)Tadi2假設(shè)數(shù)據(jù)樣本i在設(shè)定時長內(nèi)總轉(zhuǎn)入交易金額均值為:總轉(zhuǎn)入交易金額的方差為則轉(zhuǎn)入金額離散系數(shù)Tadi2為:7、轉(zhuǎn)出頻率Tfwi將數(shù)據(jù)樣本i在設(shè)定時長內(nèi)轉(zhuǎn)出交易次數(shù)與總交易次數(shù)的比值,定義為轉(zhuǎn)出頻率Tfwi。8、轉(zhuǎn)入頻率Tfdi將數(shù)據(jù)樣本i在設(shè)定時長內(nèi)轉(zhuǎn)入交易次數(shù)與總交易次數(shù)的比值,定義為轉(zhuǎn)入頻率Tfdi。通過上述步驟101,可以得到n個數(shù)據(jù)樣本,假設(shè)這n個數(shù)據(jù)樣本構(gòu)成的集合為X={x1,x2,…,xn}。在上述步驟102中,對n個數(shù)據(jù)樣本進(jìn)行分類,分成c1類數(shù)據(jù)樣本,并且c1滿足使得劃分得到的所述c1類數(shù)據(jù)樣本對應(yīng)的平均信息熵最小,其中,信息熵是信息論中的概念,當(dāng)信源發(fā)出的信息越確定,其信息熵越小,因此在本發(fā)明中當(dāng)分類的劃分越合理,數(shù)據(jù)樣本偏向于分類中心越確定,即表明該分類的信息熵越小。因此滿足條件的c1類是最合理的分類。在本發(fā)明中所述平均信息熵是根據(jù)所有數(shù)據(jù)樣本的偏向度得到的,所述偏向度用于表示一個數(shù)據(jù)樣本偏向聚類中心的程度。具體地,在本發(fā)明中是根據(jù)每個數(shù)據(jù)樣本的加權(quán)系數(shù),將所述n個數(shù)據(jù)樣本劃分為c1類數(shù)據(jù)樣本,所述加權(quán)系數(shù)用于表示一個數(shù)據(jù)樣本對分類的影響程度。如何根據(jù)數(shù)據(jù)樣本的加權(quán)系數(shù)將n個數(shù)據(jù)樣本劃分為c1類數(shù)據(jù)樣本,是有很多種方式的,下面給出一種結(jié)合模糊C均值聚類算法的方法來得到c1類數(shù)據(jù)樣本,可選地,所述根據(jù)每個數(shù)據(jù)樣本的加權(quán)系數(shù),將所述n個數(shù)據(jù)樣本劃分為c1類數(shù)據(jù)樣本,包括:針對所述n個數(shù)據(jù)樣本的一個分類值c,根據(jù)每個數(shù)據(jù)樣本的加權(quán)系數(shù)及模糊C均值聚類算法,將所述n個數(shù)據(jù)樣本劃分為c類數(shù)據(jù)樣本;確定所述c類數(shù)據(jù)樣本中每個數(shù)據(jù)樣本分別對所述c類數(shù)據(jù)樣本的c個聚類中心的偏向度;并根據(jù)確定的所有偏向度,確定所述c類數(shù)據(jù)樣本對應(yīng)的平均信息熵;將對應(yīng)的平均信息熵最小的c類數(shù)據(jù)樣本作為所述c1類數(shù)據(jù)樣本。其中,可選地,所述根據(jù)每個數(shù)據(jù)樣本的加權(quán)系數(shù)及模糊C均值聚類算法,將所述n個數(shù)據(jù)樣本劃分為c類數(shù)據(jù)樣本,包括以下步驟:步驟1、使用隨機(jī)數(shù)初始化所述n個數(shù)據(jù)樣本對應(yīng)的隸屬度矩陣,以及將所述n個數(shù)據(jù)樣本對應(yīng)的目標(biāo)函數(shù)值設(shè)定為預(yù)設(shè)值;步驟2、根據(jù)所述隸屬度矩陣,將所述n個數(shù)據(jù)樣本劃分為c類數(shù)據(jù)樣本,以及確定所述c類數(shù)據(jù)樣本中每個類的聚類中心;步驟3、根據(jù)所述c類數(shù)據(jù)樣本及所述c類數(shù)據(jù)樣本中每個類的聚類中心,更新所述目標(biāo)函數(shù)值;步驟4、判斷所述目標(biāo)函數(shù)值的更新變化量是否小于或等于變化量閾值,若是,則得到所述c類數(shù)據(jù)樣本,否則,轉(zhuǎn)到步驟5;步驟5、根據(jù)隸屬度矩陣更新公式,更新所述隸屬度矩陣,并返回到步驟2。下面利用公式對步驟102中將n個數(shù)據(jù)樣本劃分成c1類數(shù)據(jù)樣本的過程做詳細(xì)描述。首先,對本發(fā)明中使用到的一些名詞作如下定義。定義1、數(shù)據(jù)樣本的粒子數(shù)密度。rmin=min{||xi-xj||},1≤i,j≤n,rmax=max{||xi-xj||},1≤i,j≤n;其中,Ci表示數(shù)據(jù)樣本xi的粒子數(shù)密度,Ni表示以數(shù)據(jù)樣本xi為球心,r為半徑的球體內(nèi)包含的數(shù)據(jù)樣本的數(shù)量且r值預(yù)先設(shè)定,D表示數(shù)據(jù)樣本xi的維度(本發(fā)明中,D取值為8,表示一個樣本有8個分量),||xi-xj||為數(shù)據(jù)樣本xi與數(shù)據(jù)樣本xj之間的歐氏距離。在上述定義1中,本發(fā)明中一個數(shù)據(jù)樣本的粒子數(shù)密度的概念來源于普通物理學(xué),在普通物理學(xué)中,粒子數(shù)密度的定義為:假設(shè)空間中任意一個封閉區(qū)域內(nèi)含有N′個粒子,則該區(qū)域的粒子數(shù)密度為其中V為該封閉區(qū)域的體積。對于D維歐氏空間中半徑為r的球體的體積為則該球體內(nèi)的粒子數(shù)密度為定義2、數(shù)據(jù)樣本的加權(quán)系數(shù)。其中,wi表示數(shù)據(jù)樣本xi的加權(quán)系數(shù),Ci表示定義1中數(shù)據(jù)樣本xi的粒子數(shù)密度。上述定義2中,一個數(shù)據(jù)樣本的加權(quán)系數(shù)用于表示一個數(shù)據(jù)樣本對分類的影響程度。定義3、對傳統(tǒng)模糊C均值聚類算法的中的目標(biāo)函數(shù)的重新定義。假設(shè)數(shù)據(jù)樣本集合X={x1,x2,…,xn}將被分成c類,{A1,A2,…,Ac}表示相應(yīng)的c個類,U是一個c*n的隸屬矩陣且μij為U中的元素,U中的任意一個元素μij表示數(shù)據(jù)樣本xj對第i個聚類的隸屬度,各類別的聚類中心為{v1,v2,…,vc},本發(fā)明中,將模糊C均值聚類算法對應(yīng)的目標(biāo)函數(shù)定義為:Σi=1cμij=1,∀j=1,2,...,n;1≤j≤n;]]>其中,wj為數(shù)據(jù)樣本xj的加權(quán)系數(shù),m為預(yù)設(shè)的加權(quán)指數(shù),dij為第i個聚類中心與數(shù)據(jù)樣本xj之間的歐氏距離。在傳統(tǒng)的模糊C均值聚類算法中,將目標(biāo)函數(shù)定義為其中不包含加權(quán)系數(shù)wj,而本發(fā)明中將模糊C均值聚類算法對應(yīng)的目標(biāo)函數(shù)進(jìn)行重新定義,主要在傳統(tǒng)的模糊C均值聚類算法對應(yīng)的目標(biāo)函數(shù)中增加了加權(quán)系數(shù)wj,之所以如此定義,原因在于:由于基于傳統(tǒng)的目標(biāo)函數(shù)的劃分方法,每個樣本對最終劃分結(jié)果的影響程度相同的,然而實(shí)際應(yīng)用中不同的賬戶在洗錢的頻繁程度、交易金額的大小等方面都是不一樣的,因此金融交易數(shù)據(jù)的分布不可能是均勻或?qū)ΨQ的,傳統(tǒng)的模糊C均值聚類算法對數(shù)據(jù)集的樣本等劃分特性將造成很大的誤差;而本發(fā)明中在目標(biāo)函數(shù)中增加了加權(quán)系數(shù)wj之后,表明每個數(shù)據(jù)樣本對最終的分類結(jié)果造成的影響程度是不一樣的,因而可以得到的樣本劃分結(jié)果也更加真實(shí)和準(zhǔn)確。定義4、c類數(shù)據(jù)樣本中每個類的聚類中心。其中,vi表示聚類中心,wi表示數(shù)據(jù)樣本xi的加權(quán)系數(shù),μij為數(shù)據(jù)樣本xj對第i個聚類的隸屬度。上述定義4用于計(jì)算每個類的聚類中心。定義5、隸屬度矩陣的更新公式。其中,μij為數(shù)據(jù)樣本xj對第i個聚類的隸屬度,m為預(yù)設(shè)的加權(quán)指數(shù),dij為第i個聚類中心與數(shù)據(jù)樣本xj之間的歐氏距離,dkj為第k個聚類中心與數(shù)據(jù)樣本xj之間的歐氏距離。定義6、c類數(shù)據(jù)樣本中每個數(shù)據(jù)樣本分別對所述c類數(shù)據(jù)樣本的c個聚類中心的偏向度:其中,pij表示數(shù)據(jù)樣本xj對第i個聚類中心的偏向度,dij為第i個聚類中心與數(shù)據(jù)樣本xj之間的歐氏距離。定義7、定義平均信息熵。其中,H(c)表示c個數(shù)據(jù)樣本的分類的平均信息熵,pij表示數(shù)據(jù)樣本xj對第i個聚類中心的偏向度,n為數(shù)據(jù)樣本數(shù)量。信息熵是信息論中的概念,當(dāng)信源發(fā)出的信息越確定,其信息熵越小。在模糊聚類中,當(dāng)聚類的劃分越合理,數(shù)據(jù)偏向于聚類中心越確定,該聚類的信息熵越小。因此平均信息熵越小,對應(yīng)的分類越合理,也即最小的平均信息熵所對應(yīng)的分類方式是最佳分類方式。在有了以上的定義之后,下面對步驟102中,將n個數(shù)據(jù)樣本劃分為c1類數(shù)據(jù)樣本的具體過程做詳細(xì)描述,其中,c1滿足使得劃分得到的所述c1類數(shù)據(jù)樣本對應(yīng)的平均信息熵最小。步驟1、初始化工作。設(shè)定變化量閾值為ε,確定初始聚類中心個數(shù)的取值范圍[cmin,cmax]。一般取cmin=2,步驟2、在聚類中心數(shù)目c從c=cmin增加到c=cmax的過程中,對于任意確定的c,由以下步驟A~步驟E確定對應(yīng)的隸屬矩陣U=(μij)cxn,和此時的平均信息熵H(c):步驟A、用值在區(qū)間[0,1]內(nèi)的隨機(jī)數(shù)初始化隸屬矩陣U=Ucxn=(μij)cxn,使其滿足約束條件步驟B、根據(jù)公式1和公式2,計(jì)算每個數(shù)據(jù)樣本的加權(quán)系數(shù)wj,j=1,2,…,n;步驟C、根據(jù)隸屬度矩陣U得到c個分類,以及根據(jù)公式4,計(jì)算每個分類的聚類中心;具體地,對于一個隸屬度矩陣U,可以根據(jù)下列方式得到c個分類:根據(jù)最大隸屬度原則對數(shù)據(jù)集合X={x1,x2,…,xn}進(jìn)行分類:在U=Ucxn的第k列中,如果則將xk歸入第i1類。步驟D、根據(jù)公式3計(jì)算目標(biāo)函數(shù)J,以及計(jì)算目標(biāo)函數(shù)值的更新變化量(更新變化量指的是此次計(jì)算得到的目標(biāo)函數(shù)值與上次計(jì)算得到的目標(biāo)函數(shù)值的差值),若更新變化量小于或等于變化量閾值ε,則輸出當(dāng)前數(shù)據(jù)樣本的分類方式,并且根據(jù)公式6和公式7計(jì)算該分類方式對應(yīng)的平均信息熵;若更新變化量大于變化量閾值ε,則轉(zhuǎn)到步驟E;步驟E、根據(jù)公式5更新當(dāng)前隸屬度矩陣U,并返回到步驟C。對于上述步驟E,下面舉一個具體的例子進(jìn)行說明。假設(shè)數(shù)據(jù)樣本數(shù)量n=6,分別用N1,N2,N3,N4,N5,N6來表示。假設(shè)當(dāng)前要對c=2確定一個分類方式。則在步驟A中,首先對隸屬矩陣U進(jìn)行初始化,假設(shè)初始化后的U為:U=0.40.80.60.70.90.30.60.20.40.30.10.7]]>由于0.6>0.4,因此數(shù)據(jù)樣本N1劃分到第二類中;由于0.8>0.2,因此數(shù)據(jù)樣本N2劃分到第一類中,以此類推,得到的兩個分類分別為:第一類:N2,N3,N4,N5;第二類:N1,N6。然后計(jì)算上述兩個分類的聚類中心,以及根據(jù)這兩個聚類中心及計(jì)算得到的加權(quán)系數(shù),得到目標(biāo)函數(shù)J,假設(shè)上述兩個分類對應(yīng)的目標(biāo)函數(shù)J=5,并且上次計(jì)算得到的J=4,并且初始化的變化量閾值ε=0.5,由于當(dāng)前計(jì)算得到的目標(biāo)函數(shù)與上次計(jì)算得到的目標(biāo)函數(shù)的差值為1,因此大于變化量閾值,則不滿足迭代停止條件,需要通過步驟E更新隸屬度矩陣U,假設(shè)更新后的隸屬度矩陣為:U=0.70.70.60.80.30.30.30.30.40.20.70.7]]>則得到的新的兩類分別為:第一類:N1,N2,N3,N4;第二類:N5,N6。然后得到新的目標(biāo)函數(shù)值,假設(shè)為5.3,則本次得到的目標(biāo)函數(shù)值5.3與上次得到的目標(biāo)函數(shù)值5之間的差值為0.3,因此小于變化量閾值0.5,因此迭代停止,將c=2時對應(yīng)的分類方式確定為:第一類:N1,N2,N3,N4;第二類:N5,N6。然后計(jì)算對應(yīng)的平均信息熵,假設(shè)為2.5。從而根據(jù)上述步驟A~步驟E,對于任意一個c值,都可以計(jì)算得到一種分類方式以及對應(yīng)的平均信息熵。步驟3、對比聚類中心數(shù)目c在不同取值時的平均信息熵H(c),找到使平均信息熵H(c)取最小值的聚類中心數(shù)目c1,H(c1)=minH(c),從而最終的聚類數(shù)目為c1以及對應(yīng)的分類方式。根據(jù)上述步驟1~步驟3,可以得到一個最佳分類c1及對應(yīng)的分類方式。從而有利于提高最終確定可疑洗錢賬戶的精度和準(zhǔn)確度?;谏鲜霾襟E102中得到的一個最佳分類c1及對應(yīng)的分類方式,下面通過步驟103,從該分類方式中找到可疑洗錢賬戶,具體地,在上述步驟103中,確定所述c1類數(shù)據(jù)樣本中的孤立點(diǎn)數(shù)據(jù)樣本,并將所述孤立點(diǎn)數(shù)據(jù)樣本對應(yīng)的賬戶確定為可疑洗錢賬戶。舉例來說,假設(shè)一共有20個樣本,分別為N1,N2,N3,N4,N5,N6,N7,N8,N9,N10,N11,N12,N13,N14,N15,N16,N17,N18,N19,N20,且得到的最佳分類為c1=5且對應(yīng)的分類方式為:第1類:N1,N8,N12;第2類:N3,N9,N13,N19;第3類:N2,N6,N7,N15,N17;第4類:N4,N10,N14,N18,N20;第5類:N5,N11,N16。則在步驟103中,從上述20個數(shù)據(jù)樣本中找到孤立點(diǎn)數(shù)據(jù)樣本,并將孤立點(diǎn)數(shù)據(jù)樣本對應(yīng)的賬戶確定為可疑洗錢賬戶。之所以將孤立點(diǎn)數(shù)據(jù)樣本對應(yīng)的賬戶確定為可疑洗錢賬戶,是因?yàn)橄村X行為通常隱藏在正常的賬戶交易過程中,同時洗錢行為有別于正常的賬戶交易行為,因此它們以孤立點(diǎn)的形式表現(xiàn)在數(shù)據(jù)集中。所謂孤立點(diǎn)數(shù)據(jù)樣本指的是該數(shù)據(jù)樣本周圍不存在其他數(shù)據(jù)樣本,或者說,孤立點(diǎn)數(shù)據(jù)樣本與其他數(shù)據(jù)樣本之間的歐式距離都比較大,因此該數(shù)據(jù)樣本以孤立的形式存在。對于如何確定c1類數(shù)據(jù)樣本中的孤立點(diǎn)數(shù)據(jù)樣本,有很多種方式,本發(fā)明不做限定。為方便說明,下面給出一種具體的確定孤立點(diǎn)數(shù)據(jù)樣本的方式,可選地,所述確定所述c1類數(shù)據(jù)樣本中的孤立點(diǎn)數(shù)據(jù)樣本,包括:步驟1、根據(jù)所述c1類數(shù)據(jù)樣本中每類數(shù)據(jù)樣本的數(shù)量,將所述c1類數(shù)據(jù)樣本劃分為大類數(shù)據(jù)樣本和小類數(shù)據(jù)樣本;通過前面的步驟102中,已經(jīng)將數(shù)據(jù)集合X={x1,x2,…,xn}劃分成了c1個類,即{A1,A2,…,Ac},現(xiàn)在把這些類進(jìn)行劃分,求出大小類。假設(shè)|Ai|代表類Ai中包含的數(shù)據(jù)點(diǎn)的個數(shù),則對這些類按照包含點(diǎn)個數(shù)的多少進(jìn)行排序,假設(shè)排序結(jié)果為|A1|>|A2|>…>|Ac|。給定兩個參數(shù)α和β,根據(jù)以下條件劃分大類和小類:|A1|+|A2|+…+|Ab|≥|X|·α|Ab||Ab+1|≥β]]>從而,大類的集合為LC={Ai|i≤b},小類的集合為SC={Ak|k>b}。步驟2、針對所述大類數(shù)據(jù)樣本中的一個數(shù)據(jù)樣本,根據(jù)所述數(shù)據(jù)樣本所在聚類中數(shù)據(jù)樣本的數(shù)量,以及所述數(shù)據(jù)樣本與所述數(shù)據(jù)樣本所在聚類中數(shù)據(jù)樣本之間的歐式距離的最小值,確定所述數(shù)據(jù)樣本對應(yīng)的局部偏離值;步驟3、針對所述小類數(shù)據(jù)樣本中的一個數(shù)據(jù)樣本,根據(jù)所述數(shù)據(jù)樣本所在聚類中數(shù)據(jù)樣本的數(shù)量,以及所述數(shù)據(jù)樣本與所述大類數(shù)據(jù)樣本中數(shù)據(jù)樣本之間的歐式距離的最小值,確定所述數(shù)據(jù)樣本對應(yīng)的局部偏離值;對于上述步驟2和步驟3分別是確定大類數(shù)據(jù)樣本中數(shù)據(jù)樣本對應(yīng)的局部偏離值,以及確定小類數(shù)據(jù)樣本中數(shù)據(jù)樣本對應(yīng)的局部偏離值,下面用一個公式來表示:對于任意一點(diǎn)x∈X,該點(diǎn)的局部偏離值(LOF)定義如下:LOF(x)=|Ai|·min(distance(x,Aj))wherex∈Ai,Ai∈SCandAj∈LCforj=1tob|Ai|·distance(x,Aj))wherex∈AiandAi∈LC]]>其中,distance(x,Ai)=min{d(x,xk)|xx∈Ai,1≤k≤|Ai|},而d(x,xk)指x和xk之間的歐氏距離。由以上公式,我們可以求出每個數(shù)據(jù)樣本的局部偏離值。步驟4、將所述c1類數(shù)據(jù)樣本中局部偏離值大于偏離度閾值的所有數(shù)據(jù)樣本確定為所述孤立點(diǎn)數(shù)據(jù)樣本。在確定了所有的孤立點(diǎn)數(shù)據(jù)樣本之后,將孤立點(diǎn)數(shù)據(jù)樣本對應(yīng)的賬戶確定為可疑洗錢賬戶。舉例來說,針對上述20個數(shù)據(jù)樣本,假設(shè)最終得到的孤立點(diǎn)數(shù)據(jù)樣本為N3,N9和N15,并且N3對應(yīng)的賬戶為賬戶A,N9對應(yīng)的賬戶為賬戶B,N15對應(yīng)的賬戶也為賬戶B,則最終確定的可疑洗錢賬戶為賬戶A和賬戶B。本發(fā)明實(shí)施例,首先確定n個數(shù)據(jù)樣本,一個數(shù)據(jù)樣本用于表示一個賬戶在設(shè)定時間段的設(shè)定時長內(nèi)的交易信息,然后將n個數(shù)據(jù)樣本進(jìn)行分類,得到c1類數(shù)據(jù)樣本,其中,該分類方式是一個最佳分類,以及從所述c1類數(shù)據(jù)樣本中確定出孤立點(diǎn)數(shù)據(jù)樣本,并將孤立點(diǎn)數(shù)據(jù)樣本確定為可疑洗錢賬戶。本發(fā)明實(shí)施例,一方面無需人工參與,可自動實(shí)現(xiàn)確定出可疑洗錢賬戶,提高了效率;另一方面,由于首先將數(shù)據(jù)樣本進(jìn)行合理分類,然后根據(jù)可疑洗錢賬戶的特點(diǎn),從分類后的數(shù)據(jù)樣本中找到孤立點(diǎn)作為可疑洗錢賬戶,因而提高了查找可疑洗錢賬戶的準(zhǔn)確率。下面對本發(fā)明實(shí)施例提供的一種可疑洗錢賬戶的確定做詳細(xì)描述,如圖2所示,包括:步驟201、獲取待偵測金融網(wǎng)絡(luò)中的n個數(shù)據(jù)樣本,其中,一個數(shù)據(jù)樣本用于表示一個賬戶在設(shè)定時間段的設(shè)定時長內(nèi)的交易信息,n為大于1的整數(shù);步驟202、針對所述n個數(shù)據(jù)樣本的一個分類值c,根據(jù)每個數(shù)據(jù)樣本的加權(quán)系數(shù)及模糊C均值聚類算法,將所述n個數(shù)據(jù)樣本劃分為c類數(shù)據(jù)樣本;確定所述c類數(shù)據(jù)樣本中每個數(shù)據(jù)樣本分別對所述c類數(shù)據(jù)樣本的c個聚類中心的偏向度;并根據(jù)確定的所有偏向度,確定所述c類數(shù)據(jù)樣本對應(yīng)的平均信息熵;步驟203、將對應(yīng)的平均信息熵最小的c類數(shù)據(jù)樣本作為c1類數(shù)據(jù)樣本;步驟204、根據(jù)所述c1類數(shù)據(jù)樣本中每類數(shù)據(jù)樣本的數(shù)量,將所述c1類數(shù)據(jù)樣本劃分為大類數(shù)據(jù)樣本和小類數(shù)據(jù)樣本;步驟205、針對所述大類數(shù)據(jù)樣本中的一個數(shù)據(jù)樣本,根據(jù)所述數(shù)據(jù)樣本所在聚類中數(shù)據(jù)樣本的數(shù)量,以及所述數(shù)據(jù)樣本與所述數(shù)據(jù)樣本所在聚類中數(shù)據(jù)樣本之間的歐式距離的最小值,確定所述數(shù)據(jù)樣本對應(yīng)的局部偏離值;步驟206、針對所述小類數(shù)據(jù)樣本中的一個數(shù)據(jù)樣本,根據(jù)所述數(shù)據(jù)樣本所在聚類中數(shù)據(jù)樣本的數(shù)量,以及所述數(shù)據(jù)樣本與所述大類數(shù)據(jù)樣本中數(shù)據(jù)樣本之間的歐式距離的最小值,確定所述數(shù)據(jù)樣本對應(yīng)的局部偏離值;步驟207、將所述c1類數(shù)據(jù)樣本中局部偏離值大于偏離度閾值的所有數(shù)據(jù)樣本確定為所述孤立點(diǎn)數(shù)據(jù)樣本。本發(fā)明實(shí)施例,首先確定n個數(shù)據(jù)樣本,一個數(shù)據(jù)樣本用于表示一個賬戶在設(shè)定時間段的設(shè)定時長內(nèi)的交易信息,然后將n個數(shù)據(jù)樣本進(jìn)行分類,得到c1類數(shù)據(jù)樣本,其中,該分類方式是一個最佳分類,以及從所述c1類數(shù)據(jù)樣本中確定出孤立點(diǎn)數(shù)據(jù)樣本,并將孤立點(diǎn)數(shù)據(jù)樣本確定為可疑洗錢賬戶。本發(fā)明實(shí)施例,一方面無需人工參與,可自動實(shí)現(xiàn)確定出可疑洗錢賬戶,提高了效率;另一方面,由于首先將數(shù)據(jù)樣本進(jìn)行合理分類,然后根據(jù)可疑洗錢賬戶的特點(diǎn),從分類后的數(shù)據(jù)樣本中找到孤立點(diǎn)作為可疑洗錢賬戶,因而提高了查找可疑洗錢賬戶的準(zhǔn)確率?;谙嗤募夹g(shù)構(gòu)思,本發(fā)明實(shí)施例還提供一種可疑洗錢賬戶的確定裝置,如圖3所示,包括:獲取單元301,用于獲取待偵測金融網(wǎng)絡(luò)中的n個數(shù)據(jù)樣本,其中,一個數(shù)據(jù)樣本用于表示一個賬戶在設(shè)定時間段的設(shè)定時長內(nèi)的交易信息,n為大于1的整數(shù);劃分單元302,用于根據(jù)每個數(shù)據(jù)樣本的加權(quán)系數(shù),將所述n個數(shù)據(jù)樣本劃分為c1類數(shù)據(jù)樣本,其中c1滿足使得劃分得到的所述c1類數(shù)據(jù)樣本對應(yīng)的平均信息熵最小,所述加權(quán)系數(shù)用于表示一個數(shù)據(jù)樣本對分類的影響程度,所述平均信息熵是根據(jù)所有數(shù)據(jù)樣本的偏向度得到的,所述偏向度用于表示一個數(shù)據(jù)樣本偏向聚類中心的程度;可疑洗錢賬戶確定單元303,用于確定所述c1類數(shù)據(jù)樣本中的孤立點(diǎn)數(shù)據(jù)樣本,并將所述孤立點(diǎn)數(shù)據(jù)樣本對應(yīng)的賬戶確定為可疑洗錢賬戶。可選地,所述劃分單元302,具體用于:針對所述n個數(shù)據(jù)樣本的一個分類值c,根據(jù)每個數(shù)據(jù)樣本的加權(quán)系數(shù)及模糊C均值聚類算法,將所述n個數(shù)據(jù)樣本劃分為c類數(shù)據(jù)樣本;確定所述c類數(shù)據(jù)樣本中每個數(shù)據(jù)樣本分別對所述c類數(shù)據(jù)樣本的c個聚類中心的偏向度;并根據(jù)確定的所有偏向度,確定所述c類數(shù)據(jù)樣本對應(yīng)的平均信息熵;將對應(yīng)的平均信息熵最小的c類數(shù)據(jù)樣本作為所述c1類數(shù)據(jù)樣本??蛇x地,所述劃分單元302,具體用于:使用隨機(jī)數(shù)初始化所述n個數(shù)據(jù)樣本對應(yīng)的隸屬度矩陣,以及將所述n個數(shù)據(jù)樣本對應(yīng)的目標(biāo)函數(shù)值設(shè)定為預(yù)設(shè)值;根據(jù)所述隸屬度矩陣,將所述n個數(shù)據(jù)樣本劃分為c類數(shù)據(jù)樣本,以及確定所述c類數(shù)據(jù)樣本中每個類的聚類中心;根據(jù)所述c類數(shù)據(jù)樣本及所述c類數(shù)據(jù)樣本中每個類的聚類中心,更新所述目標(biāo)函數(shù)值;若確定所述目標(biāo)函數(shù)值的更新變化量小于或等于變化量閾值,則得到所述c類數(shù)據(jù)樣本;若確定所述目標(biāo)函數(shù)值的變化量大于所述變化量閾值,則根據(jù)隸屬度矩陣更新公式,更新所述隸屬度矩陣,并返回到根據(jù)所述隸屬度矩陣,將所述n個數(shù)據(jù)樣本劃分為c類數(shù)據(jù)樣本,以及確定所述c類數(shù)據(jù)樣本中每個類的聚類中心的步驟??蛇x地,所述模糊C均值聚類算法對應(yīng)的目標(biāo)函數(shù)為:J=Jd(U,v1,v2,...,vc,X)=Σi=1cΣj=1nwjμijmdij2,]]>Σi=1cμij=1,∀j=1,2,...,n;1≤j≤n;]]>其中,μij為數(shù)據(jù)樣本xj對第i個聚類的隸屬度,{v1,v2,…,vc}為各個聚類的聚類中心,U是一個c*n的隸屬矩陣且μij為U中的元素,X為所述n個數(shù)據(jù)樣本的集合,wj為數(shù)據(jù)樣本xj的加權(quán)系數(shù),m為預(yù)設(shè)的加權(quán)指數(shù),dij為第i個聚類中心與數(shù)據(jù)樣本xj之間的歐氏距離??蛇x地,所述可疑洗錢賬戶確定單元303,具體用于:根據(jù)所述c1類數(shù)據(jù)樣本中每類數(shù)據(jù)樣本的數(shù)量,將所述c1類數(shù)據(jù)樣本劃分為大類數(shù)據(jù)樣本和小類數(shù)據(jù)樣本;針對所述大類數(shù)據(jù)樣本中的一個數(shù)據(jù)樣本,根據(jù)所述數(shù)據(jù)樣本所在聚類中數(shù)據(jù)樣本的數(shù)量,以及所述數(shù)據(jù)樣本與所述數(shù)據(jù)樣本所在聚類中數(shù)據(jù)樣本之間的歐式距離的最小值,確定所述數(shù)據(jù)樣本對應(yīng)的局部偏離值;針對所述小類數(shù)據(jù)樣本中的一個數(shù)據(jù)樣本,根據(jù)所述數(shù)據(jù)樣本所在聚類中數(shù)據(jù)樣本的數(shù)量,以及所述數(shù)據(jù)樣本與所述大類數(shù)據(jù)樣本中數(shù)據(jù)樣本之間的歐式距離的最小值,確定所述數(shù)據(jù)樣本對應(yīng)的局部偏離值;將所述c1類數(shù)據(jù)樣本中局部偏離值大于偏離度閾值的所有數(shù)據(jù)樣本確定為所述孤立點(diǎn)數(shù)據(jù)樣本??蛇x地,所述裝置還包括加權(quán)系數(shù)確定單元304,用于根據(jù)下列方式確定每個數(shù)據(jù)樣本的加權(quán)系數(shù):wi=CiΣi=1nCi,]]>rmin<r<rmax,rmin=min{||xi-xj||},1≤i,j≤n,rmax=max{||xi-xj||},1≤i,j≤n;其中,wi表示數(shù)據(jù)樣本xi的加權(quán)系數(shù),Ci表示數(shù)據(jù)樣本xi的粒子數(shù)密度,Ni表示以數(shù)據(jù)樣本xi為球心,r為半徑的球體內(nèi)包含的數(shù)據(jù)樣本的數(shù)量且r值預(yù)先設(shè)定,D表示數(shù)據(jù)樣本xi的維度,||xi-xj||為數(shù)據(jù)樣本xi與數(shù)據(jù)樣本xj之間的歐氏距離??蛇x地,所述n個數(shù)據(jù)樣本中的任一個數(shù)據(jù)樣本可用下列部分或全部的內(nèi)容來表示:總交易金額、總轉(zhuǎn)出金額、總轉(zhuǎn)入金額、交易金額離散系數(shù)、轉(zhuǎn)出金額離散系數(shù)、轉(zhuǎn)入金額離散系數(shù)、轉(zhuǎn)出頻率、轉(zhuǎn)入頻率;其中所述交易金額離散系數(shù)為所述數(shù)據(jù)樣本在設(shè)定時間段的設(shè)定時長內(nèi)交易金額方差與交易金額均值的比值,所述轉(zhuǎn)出金額離散系數(shù)為所述數(shù)據(jù)樣本在設(shè)定時間段的設(shè)定時長內(nèi)轉(zhuǎn)出金額方差與轉(zhuǎn)出金額均值的比值,所述轉(zhuǎn)入金額離散系數(shù)為所述數(shù)據(jù)樣本在設(shè)定時間段的設(shè)定時長內(nèi)轉(zhuǎn)入金額方差與轉(zhuǎn)入金額均值的比值??蛇x地,所述裝置還包括偏向度確定單元305,用于根據(jù)下列公式確定所述c類數(shù)據(jù)樣本中每個數(shù)據(jù)樣本分別對所述c類數(shù)據(jù)樣本的c個聚類中心的偏向度:pij=e-dij2Σi=1ce-dij2,]]>其中,pij表示數(shù)據(jù)樣本xj對第i個聚類中心的偏向度,dij為第i個聚類中心與數(shù)據(jù)樣本xj之間的歐氏距離??蛇x地,所述裝置還包括聚類中心確定單元306,用于根據(jù)下列公式確定所述c類數(shù)據(jù)樣本中每個類的聚類中心:vi=Σj=1nwjμij2xjΣj=1nwjμij2,(1≤i≤c),]]>其中,vi表示聚類中心,wi表示數(shù)據(jù)樣本xi的加權(quán)系數(shù),μij為數(shù)據(jù)樣本xj對第i個聚類的隸屬度。本發(fā)明實(shí)施例,首先確定n個數(shù)據(jù)樣本,一個數(shù)據(jù)樣本用于表示一個賬戶在設(shè)定時間段的設(shè)定時長內(nèi)的交易信息,然后將n個數(shù)據(jù)樣本進(jìn)行分類,得到c1類數(shù)據(jù)樣本,其中,該分類方式是一個最佳分類,以及從所述c1類數(shù)據(jù)樣本中確定出孤立點(diǎn)數(shù)據(jù)樣本,并將孤立點(diǎn)數(shù)據(jù)樣本確定為可疑洗錢賬戶。本發(fā)明實(shí)施例,一方面無需人工參與,可自動實(shí)現(xiàn)確定出可疑洗錢賬戶,提高了效率;另一方面,由于首先將數(shù)據(jù)樣本進(jìn)行合理分類,然后根據(jù)可疑洗錢賬戶的特點(diǎn),從分類后的數(shù)據(jù)樣本中找到孤立點(diǎn)作為可疑洗錢賬戶,因而提高了查找可疑洗錢賬戶的準(zhǔn)確率。本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。這些計(jì)算機(jī)程序指令也可存儲在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲器中,使得存儲在該計(jì)算機(jī)可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。盡管已描述了本發(fā)明的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對這些實(shí)施例做出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本發(fā)明范圍的所有變更和修改。顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進(jìn)行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。當(dāng)前第1頁1 2 3