本發(fā)明涉及計算機(jī)
技術(shù)領(lǐng)域:
,尤其涉及一種洗錢賬戶的確定方法及裝置。
背景技術(shù):
:在金融網(wǎng)絡(luò)中存在著洗錢賬戶,進(jìn)行著非法交易,洗錢賬戶是金融網(wǎng)絡(luò)中洗錢路徑中的節(jié)點,如何從錯綜復(fù)雜的金融網(wǎng)絡(luò)中找到可疑洗錢賬戶,對打擊洗錢行為有重要意義。現(xiàn)有技術(shù)在查找洗錢賬戶時,存在一種首先對待測金融網(wǎng)絡(luò)中的所有數(shù)據(jù)樣本進(jìn)行分類,然后根據(jù)分類的數(shù)據(jù)樣本,找到每個類中的孤立點數(shù)據(jù)樣本,最終將孤立點數(shù)據(jù)樣本對應(yīng)的賬戶確定為洗錢賬戶。上述方法主要存在的問題是:第一,上述方法在對所有數(shù)據(jù)樣本進(jìn)行分類時,是根據(jù)每個數(shù)據(jù)樣本的系數(shù)來分類的,其中,一個數(shù)據(jù)樣本的系數(shù)是根據(jù)數(shù)據(jù)樣本之間的歐式距離來定義的,該種系數(shù)定義方法不能很好地反映數(shù)據(jù)樣本之間的內(nèi)在聯(lián)系,因而不能很準(zhǔn)確地得到數(shù)據(jù)樣本的最佳分類;第二,上述方法在得到數(shù)據(jù)樣本的分類之后,是根據(jù)每個分類中的孤立點來確定最終的洗錢賬戶,這種方法對于識別像貪腐腐敗等偶然行為的洗錢賬戶是有效的,但對于像非法集資、詐騙洗錢、地下錢莊等具有連續(xù)洗錢活動的賬戶,則無能為力。綜上所述,現(xiàn)有技術(shù)中的洗錢賬戶偵測,存在偵測準(zhǔn)確率不高,且無法偵測具有連續(xù)洗錢活動行為的賬戶。技術(shù)實現(xiàn)要素:本發(fā)明提供一種洗錢賬戶的確定方法及裝置,用以解決現(xiàn)有技術(shù)存在的在洗錢賬戶偵測時,偵測準(zhǔn)確率不高,且無法偵測具有連續(xù)洗錢活動行為的賬戶的技術(shù)問題。一方面,本發(fā)明實施例提供一種洗錢賬戶的確定方法,包括:獲取待偵測金融網(wǎng)絡(luò)中的n個數(shù)據(jù)樣本,其中,一個數(shù)據(jù)樣本用于表示一個賬戶在設(shè)定時間段的設(shè)定時長內(nèi)的交易信息,n為大于1的整數(shù);根據(jù)每個數(shù)據(jù)樣本的權(quán)重,將所述n個數(shù)據(jù)樣本劃分為c1類數(shù)據(jù)樣本,其中c1滿足使得劃分得到的所述c1類數(shù)據(jù)樣本對應(yīng)的平均信息熵最小,其中,一個數(shù)據(jù)樣本的權(quán)重用于表示所述數(shù)據(jù)樣本對分類的影響程度,一個數(shù)據(jù)樣本的權(quán)重是根據(jù)所述n個數(shù)據(jù)樣本的m個屬性的權(quán)重得到的,所述平均信息熵是根據(jù)所述n個數(shù)據(jù)樣本的隸屬度得到的,所述隸屬度用于表示一個數(shù)據(jù)樣本對一個聚類的隸屬程度,m為正整數(shù);針對所述c1類數(shù)據(jù)樣本中的任一類,確定距離所述類的聚類中心最近的數(shù)據(jù)樣本為目標(biāo)數(shù)據(jù)樣本;若確定所述目標(biāo)數(shù)據(jù)樣本對應(yīng)的賬戶符合預(yù)設(shè)的洗錢賬戶標(biāo)準(zhǔn),則將所述類確定為洗錢類別并將所述洗錢類別中的所有數(shù)據(jù)樣本對應(yīng)的賬戶確定為洗錢賬戶。可選地,所述根據(jù)每個數(shù)據(jù)樣本的權(quán)重,將所述n個數(shù)據(jù)樣本劃分為c1類數(shù)據(jù)樣本,包括:針對所述n個數(shù)據(jù)樣本的一個分類值c,根據(jù)每個數(shù)據(jù)樣本的權(quán)重及模糊C均值聚類算法,將所述n個數(shù)據(jù)樣本劃分為c類數(shù)據(jù)樣本;確定所述c類數(shù)據(jù)樣本中每個數(shù)據(jù)樣本分別對所述c類數(shù)據(jù)樣本的c個聚類中心的隸屬度;并根據(jù)確定的所有隸屬度,確定所述c類數(shù)據(jù)樣本對應(yīng)的平均信息熵;將對應(yīng)的平均信息熵最小的c類數(shù)據(jù)樣本作為所述c1類數(shù)據(jù)樣本??蛇x地,所述根據(jù)每個數(shù)據(jù)樣本的權(quán)重及模糊C均值聚類算法,將所述n個數(shù)據(jù)樣本劃分為c類數(shù)據(jù)樣本,包括:確定c個聚類中心初始值;根據(jù)所述c個聚類中心的初始值,確定所述n個數(shù)據(jù)樣本對應(yīng)的隸屬度矩陣,以及根據(jù)確定的所述n個數(shù)據(jù)樣本對應(yīng)的隸屬度矩陣,確定所述n個數(shù)據(jù)樣本對應(yīng)的目標(biāo)函數(shù)值;根據(jù)所述隸屬度矩陣,更新所述c類數(shù)據(jù)樣本中每個類的聚類中心;根據(jù)更新后的所述c類數(shù)據(jù)樣本中每個類的聚類中心,更新所述隸屬度矩陣;根據(jù)更新后的所述隸屬度矩陣及更新后的所述c類數(shù)據(jù)樣本中每個類的聚類中心,更新所述n個數(shù)據(jù)樣本對應(yīng)的目標(biāo)函數(shù)值;若確定所述目標(biāo)函數(shù)值的更新變化量小于或等于變化量閾值,則根據(jù)更新后的所述隸屬度矩陣,將所述n個數(shù)據(jù)樣本劃分為c類數(shù)據(jù)樣本;若確定所述目標(biāo)函數(shù)值的變化量大于所述變化量閾值,則返回到根據(jù)所述隸屬度矩陣,更新所述c類數(shù)據(jù)樣本中每個類的聚類中心的步驟。可選地,所述將所述類確定為洗錢類別并將所述洗錢類別中的所有數(shù)據(jù)樣本對應(yīng)的賬戶確定為洗錢賬戶之后,還包括:確定所述洗錢類別的聚類中心與所述n個數(shù)據(jù)樣本中每個數(shù)據(jù)樣本的歐氏距離并按確定的歐式距離遞增的順序?qū)λ鰊個數(shù)據(jù)樣本進(jìn)行排序,得到排序后的n個數(shù)據(jù)樣本;若確定所述n個數(shù)據(jù)樣本中存在目標(biāo)樣本,則將所述排序后的n個數(shù)據(jù)樣本中排在所述目標(biāo)樣本之前的所有樣本確定為重點洗錢樣本,并將所有重點洗錢樣本對應(yīng)的賬戶確定為重點洗錢賬戶,其中,所述排在所述目標(biāo)樣本之前的所有樣本均屬于所述洗錢類別,且所述目標(biāo)樣本對應(yīng)的賬戶不屬于任何洗錢類別??蛇x地,所述將所述排序后的n個數(shù)據(jù)樣本中排在所述目標(biāo)樣本之前的所有樣本確定為重點洗錢樣本,并將所有重點洗錢樣本對應(yīng)的賬戶確定為重點洗錢賬戶之后,還包括:將所述洗錢類別中除所有重點洗錢樣本之外的所有樣本,確定為一般洗錢樣本;將所有一般洗錢樣本對應(yīng)的賬戶確定為一般洗錢賬戶。可選地,所述模糊C均值聚類算法對應(yīng)的目標(biāo)函數(shù)為:J=Σi=1cΣj=1nρjμij2dij2,]]>Σi=1cμij=1,∀j=1,2,...,n;1≤j≤n,]]>其中,μij為數(shù)據(jù)樣本xj對第i個聚類的隸屬度,{v1,v2,…,vc}為各個聚類的聚類中心,U是一個c*n的隸屬矩陣且μij為U中的元素,ρj為數(shù)據(jù)樣本xj的權(quán)重,dij為第i個聚類中心與數(shù)據(jù)樣本xj之間未加權(quán)的的歐氏距離。可選地,根據(jù)下列公式確定所述c個聚類中心初始值:Dk*=max{Di(k),i=1,2,...,n},k=2,3,...,c,]]>Di(k)=Di(k-1)-rm1(xi,xk-1*)*Dk-1**e-||xi-xk-1*||m2,k=2,3,...,c,i=1,2,...,n,]]>D1*=max{Di(1),i=1,2,...,n},]]>其中,表示當(dāng)前n個數(shù)據(jù)樣本中每個數(shù)據(jù)樣本的樣本密度中的最大值,表示對應(yīng)的數(shù)據(jù)樣本且表示第k個聚類中心的初始值(k=1,2,...,c),用于對所述n個數(shù)據(jù)樣本的樣本密度進(jìn)行更新,表示數(shù)據(jù)樣本xi與數(shù)據(jù)樣本之間的皮爾遜相關(guān)系數(shù),表示數(shù)據(jù)樣本xi與數(shù)據(jù)樣本之間的歐式距離,m1和m2為預(yù)設(shè)的系數(shù)??蛇x地,根據(jù)下列公式確定一個數(shù)據(jù)樣本的權(quán)重:ρi=density(i)Σh=1ndensity(h),]]>density(i)=Σh=1,h≠inr2(i,h)1dihe-dih2,]]>dih=Σj=1mwj2(xij-xhj)2,]]>r(i,h)=Σj=1m(wjxij-x‾i)(wjxhj-x‾h)Σj=1m(wjxij-x‾i)2Σj=1m(wjxhj-x‾h)2,]]>x‾i=1mΣj=1mwjxij,]]>x‾h=1mΣj=1mwjxhj,]]>其中,ρi表示第i個數(shù)據(jù)樣本的權(quán)重,i=1,2,...,n,density(i)表示第i個數(shù)據(jù)樣本的樣本密度,r(i,h)表示數(shù)據(jù)樣本xi與數(shù)據(jù)樣本xh之間的皮爾遜相關(guān)系數(shù),wj表示所述n個數(shù)據(jù)樣本的第j個屬性的權(quán)重,xij表示數(shù)據(jù)樣本xi的第j個屬性值,m表示所述n個數(shù)據(jù)樣本中每個數(shù)據(jù)樣本包含的屬性數(shù)量,dih表示數(shù)據(jù)樣本xi與數(shù)據(jù)樣本xh之間加權(quán)的歐氏距離??蛇x地,根據(jù)下列公式確定所述n個數(shù)據(jù)樣本的屬性權(quán)重:wj=HPjΣj′=1mHPj′,]]>HPj=CVj*HjCVj2+Hj2,]]>CVj=σjμj,]]>Hj=-Σk=1Kpjklog2(pjk),]]>μj=1KΣk=1KNjk=nK,]]>σj=1KΣk=1K(Njk-μj)2,]]>pjk=NjkΣk′=1KNjk′,]]>其中,wj表示所述n個數(shù)據(jù)樣本的第j個屬性的權(quán)重,CVj為屬性j的離散系數(shù)且用于表示屬性j偏離均勻分布的程度,Hj為屬性j的信息熵且用于表示屬性j的有序結(jié)構(gòu)情況,并且,K是根據(jù)下列方式得到的:以所述n個數(shù)據(jù)樣本在第j個屬性上的最小值為起點,以所述n個數(shù)據(jù)樣本在第j個屬性上的最大值為終點,等劃分成K組;Njk表示所述K組中第k組中的數(shù)據(jù)樣本的個數(shù)(k=1,2,...,K)。另一方面,本發(fā)明實施例提供一種洗錢賬戶的確定裝置,包括:數(shù)據(jù)樣本獲取單元,用于獲取待偵測金融網(wǎng)絡(luò)中的n個數(shù)據(jù)樣本,其中,一個數(shù)據(jù)樣本用于表示一個賬戶在設(shè)定時間段的設(shè)定時長內(nèi)的交易信息,n為大于1的整數(shù);數(shù)據(jù)樣本劃分單元,用于根據(jù)每個數(shù)據(jù)樣本的權(quán)重,將所述n個數(shù)據(jù)樣本劃分為c1類數(shù)據(jù)樣本,其中c1滿足使得劃分得到的所述c1類數(shù)據(jù)樣本對應(yīng)的平均信息熵最小,其中,一個數(shù)據(jù)樣本的權(quán)重用于表示所述數(shù)據(jù)樣本對分類的影響程度,一個數(shù)據(jù)樣本的權(quán)重是根據(jù)所述n個數(shù)據(jù)樣本的m個屬性的權(quán)重得到的,所述平均信息熵是根據(jù)所述n個數(shù)據(jù)樣本的隸屬度得到的,所述隸屬度用于表示一個數(shù)據(jù)樣本對一個聚類的隸屬程度,m為正整數(shù);洗錢賬戶確定單元,用于針對所述c1類數(shù)據(jù)樣本中的任一類,確定距離所述類的聚類中心最近的數(shù)據(jù)樣本為目標(biāo)數(shù)據(jù)樣本;若確定所述目標(biāo)數(shù)據(jù)樣本對應(yīng)的賬戶符合預(yù)設(shè)的洗錢賬戶標(biāo)準(zhǔn),則將所述類確定為洗錢類別并將所述洗錢類別中的所有數(shù)據(jù)樣本對應(yīng)的賬戶確定為洗錢賬戶??蛇x地,所述數(shù)據(jù)樣本劃分單元,具體用于:針對所述n個數(shù)據(jù)樣本的一個分類值c,根據(jù)每個數(shù)據(jù)樣本的權(quán)重及模糊C均值聚類算法,將所述n個數(shù)據(jù)樣本劃分為c類數(shù)據(jù)樣本;確定所述c類數(shù)據(jù)樣本中每個數(shù)據(jù)樣本分別對所述c類數(shù)據(jù)樣本的c個聚類中心的隸屬度;并根據(jù)確定的所有隸屬度,確定所述c類數(shù)據(jù)樣本對應(yīng)的平均信息熵;將對應(yīng)的平均信息熵最小的c類數(shù)據(jù)樣本作為所述c1類數(shù)據(jù)樣本。可選地,所述數(shù)據(jù)樣本劃分單元,具體用于:確定c個聚類中心初始值;根據(jù)所述c個聚類中心的初始值,確定所述n個數(shù)據(jù)樣本對應(yīng)的隸屬度矩陣,以及根據(jù)確定的所述n個數(shù)據(jù)樣本對應(yīng)的隸屬度矩陣,確定所述n個數(shù)據(jù)樣本對應(yīng)的目標(biāo)函數(shù)值;根據(jù)所述隸屬度矩陣,更新所述c類數(shù)據(jù)樣本中每個類的聚類中心;根據(jù)更新后的所述c類數(shù)據(jù)樣本中每個類的聚類中心,更新所述隸屬度矩陣;根據(jù)更新后的所述隸屬度矩陣及更新后的所述c類數(shù)據(jù)樣本中每個類的聚類中心,更新所述n個數(shù)據(jù)樣本對應(yīng)的目標(biāo)函數(shù)值;若確定所述目標(biāo)函數(shù)值的更新變化量小于或等于變化量閾值,則根據(jù)更新后的所述隸屬度矩陣,將所述n個數(shù)據(jù)樣本劃分為c類數(shù)據(jù)樣本;若確定所述目標(biāo)函數(shù)值的變化量大于所述變化量閾值,則返回到根據(jù)所述隸屬度矩陣,更新所述c類數(shù)據(jù)樣本中每個類的聚類中心的步驟??蛇x地,所述洗錢賬戶確定單元還用于:將所述類確定為洗錢類別并將所述洗錢類別中的所有數(shù)據(jù)樣本對應(yīng)的賬戶確定為洗錢賬戶之后,確定所述洗錢類別的聚類中心與所述n個數(shù)據(jù)樣本中每個數(shù)據(jù)樣本的歐氏距離并按確定的歐式距離遞增的順序?qū)λ鰊個數(shù)據(jù)樣本進(jìn)行排序,得到排序后的n個數(shù)據(jù)樣本;若確定所述n個數(shù)據(jù)樣本中存在目標(biāo)樣本,則將所述排序后的n個數(shù)據(jù)樣本中排在所述目標(biāo)樣本之前的所有樣本確定為重點洗錢樣本,并將所有重點洗錢樣本對應(yīng)的賬戶確定為重點洗錢賬戶,其中,所述排在所述目標(biāo)樣本之前的所有樣本均屬于所述洗錢類別,且所述目標(biāo)樣本對應(yīng)的賬戶不屬于任何洗錢類別??蛇x地,所述洗錢賬戶確定單元還用于:將所述洗錢類別中除所有重點洗錢樣本之外的所有樣本,確定為一般洗錢樣本;將所有一般洗錢樣本對應(yīng)的賬戶確定為一般洗錢賬戶??蛇x地,所述模糊C均值聚類算法對應(yīng)的目標(biāo)函數(shù)為:J=Σi=1cΣj=1nρjμij2dij2,]]>Σi=1cμij=1,∀j=1,2,...,n;1≤j≤n,]]>其中,μij為數(shù)據(jù)樣本xj對第i個聚類的隸屬度,{v1,v2,…,vc}為各個聚類的聚類中心,U是一個c*n的隸屬矩陣且μij為U中的元素,ρj為數(shù)據(jù)樣本xj的權(quán)重,dij為第i個聚類中心與數(shù)據(jù)樣本xj之間未加權(quán)的的歐氏距離??蛇x地,所述數(shù)據(jù)樣本劃分單元,還用于根據(jù)下列公式確定所述c個聚類中心初始值:Dk*=max{Di(k),i=1,2,...,n},k=2,3,...,c,]]>Di(k)=Di(k-1)-rm1(xi,xk-1*)*Dk-1**e-||xi-xk-1*||m2,k=2,3,...,c,i=1,2,...,n,]]>D1*=max{Di(1),i=1,2,...,n},]]>其中,表示當(dāng)前n個數(shù)據(jù)樣本中每個數(shù)據(jù)樣本的樣本密度中的最大值,表示對應(yīng)的數(shù)據(jù)樣本且表示第k個聚類中心的初始值(k=1,2,...,c),用于對所述n個數(shù)據(jù)樣本的樣本密度進(jìn)行更新,表示數(shù)據(jù)樣本xi與數(shù)據(jù)樣本之間的皮爾遜相關(guān)系數(shù),表示數(shù)據(jù)樣本xi與數(shù)據(jù)樣本之間的歐式距離,m1和m2為預(yù)設(shè)的系數(shù)??蛇x地,所述裝置還包括數(shù)據(jù)樣本權(quán)重確定單元,用于根據(jù)下列公式確定一個數(shù)據(jù)樣本的權(quán)重:ρi=density(i)Σh=1ndensity(h),]]>density(i)=Σh=1,h≠inr2(i,h)1dihe-dih2,]]>dih=Σj=1mwj2(xij-xhj)2,]]>r(i,h)=Σj=1m(wjxij-x‾i)(wjxhj-x‾h)Σj=1m(wjxij-x‾i)2Σj=1m(wjxhj-x‾h)2,]]>x‾i=1mΣj=1mwjxij,]]>x‾h=1mΣj=1mwjxhj,]]>其中,ρi表示第i個數(shù)據(jù)樣本的權(quán)重,i=1,2,...,n,density(i)表示第i個數(shù)據(jù)樣本的樣本密度,r(i,h)表示數(shù)據(jù)樣本xi與數(shù)據(jù)樣本xh之間的皮爾遜相關(guān)系數(shù),wj表示所述n個數(shù)據(jù)樣本的第j個屬性的權(quán)重,xij表示數(shù)據(jù)樣本xi的第j個屬性值,m表示所述n個數(shù)據(jù)樣本中每個數(shù)據(jù)樣本包含的屬性數(shù)量,dih表示數(shù)據(jù)樣本xi與數(shù)據(jù)樣本xh之間加權(quán)的歐氏距離。可選地,所述數(shù)據(jù)樣本權(quán)重確定單元,還用于根據(jù)下列公式確定所述n個數(shù)據(jù)樣本的屬性權(quán)重:wj=HPjΣj′=1mHPj′,]]>HPj=CVj*HjCVj2+Hj2,]]>CVj=σjμj,]]>Hj=-Σk=1Kpjklog2(pjk),]]>μj=1KΣk=1KNjk=nK,]]>σj=1KΣk=1K(Njk-μj)2,]]>pjk=NjkΣk′=1KNjk′,]]>其中,wj表示所述n個數(shù)據(jù)樣本的第j個屬性的權(quán)重,CVj為屬性j的離散系數(shù)且用于表示屬性j偏離均勻分布的程度,Hj為屬性j的信息熵且用于表示屬性j的有序結(jié)構(gòu)情況,并且,K是根據(jù)下列方式得到的:以所述n個數(shù)據(jù)樣本在第j個屬性上的最小值為起點,以所述n個數(shù)據(jù)樣本在第j個屬性上的最大值為終點,等劃分成K組;Njk表示所述K組中第k組中的數(shù)據(jù)樣本的個數(shù)(k=1,2,...,K)。本發(fā)明實施例,獲取待偵測金融網(wǎng)絡(luò)中的n個數(shù)據(jù)樣本,其中,一個數(shù)據(jù)樣本用于表示一個賬戶在設(shè)定時間段的設(shè)定時長內(nèi)的交易信息,n為大于1的整數(shù);根據(jù)每個數(shù)據(jù)樣本的權(quán)重,將所述n個數(shù)據(jù)樣本劃分為c1類數(shù)據(jù)樣本,其中c1滿足使得劃分得到的所述c1類數(shù)據(jù)樣本對應(yīng)的平均信息熵最小,其中,一個數(shù)據(jù)樣本的權(quán)重用于表示所述數(shù)據(jù)樣本對分類的影響程度,一個數(shù)據(jù)樣本的權(quán)重是根據(jù)所述n個數(shù)據(jù)樣本的m個屬性的權(quán)重得到的,所述平均信息熵是根據(jù)所述n個數(shù)據(jù)樣本的隸屬度得到的,所述隸屬度用于表示一個數(shù)據(jù)樣本對一個聚類的隸屬程度,m為正整數(shù);針對所述c1類數(shù)據(jù)樣本中的任一類,確定距離所述類的聚類中心最近的數(shù)據(jù)樣本為目標(biāo)數(shù)據(jù)樣本;若確定所述目標(biāo)數(shù)據(jù)樣本對應(yīng)的賬戶符合預(yù)設(shè)的洗錢賬戶標(biāo)準(zhǔn),則將所述類確定為洗錢類別并將所述洗錢類別中的所有數(shù)據(jù)樣本對應(yīng)的賬戶確定為洗錢賬戶。本發(fā)明實施例,首先確定n個數(shù)據(jù)樣本,一個數(shù)據(jù)樣本用于表示一個賬戶在設(shè)定時間段的設(shè)定時長內(nèi)的交易信息,然后根據(jù)每個數(shù)據(jù)樣本的權(quán)重,將所述n個數(shù)據(jù)樣本劃分為c1類數(shù)據(jù)樣本,其中,該分類方式是一個最佳分類,并且一個數(shù)據(jù)樣本的權(quán)重是根據(jù)所述n個數(shù)據(jù)樣本的m個屬性的權(quán)重得到的;以及針對所述c1類數(shù)據(jù)樣本中的任一類,確定距離所述類的聚類中心最近的數(shù)據(jù)樣本為目標(biāo)數(shù)據(jù)樣本;若確定所述目標(biāo)數(shù)據(jù)樣本對應(yīng)的賬戶符合預(yù)設(shè)的洗錢賬戶標(biāo)準(zhǔn),則將所述類確定為洗錢類別并將所述洗錢類別中的所有數(shù)據(jù)樣本對應(yīng)的賬戶確定為洗錢賬戶。本發(fā)明實施例一方面,根據(jù)n個數(shù)據(jù)樣本的m個屬性的權(quán)重得到每個數(shù)據(jù)樣本的屬性,將數(shù)據(jù)樣本的屬性進(jìn)行了內(nèi)在地聯(lián)系,因而最終可以提高洗錢賬戶的識別準(zhǔn)確率;另一方面,在確定洗錢賬戶時,是將符合預(yù)設(shè)的洗錢賬戶標(biāo)準(zhǔn)一個洗錢類別中的所有賬戶確定為洗錢賬戶,從而可以確定出具有連續(xù)交易特性的洗錢賬戶。附圖說明為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡要介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域的普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實施例提供的一種洗錢賬戶的確定方法流程圖;圖2為本發(fā)明實施例提供的一種洗錢賬戶的確定方法詳細(xì)流程圖;圖3為本發(fā)明實施例提供的一種洗錢賬戶的確定裝置示意圖。具體實施方式為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明作進(jìn)一步地詳細(xì)描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其它實施例,都屬于本發(fā)明保護(hù)的范圍。下面結(jié)合說明書附圖對本發(fā)明實施例作進(jìn)一步詳細(xì)描述。如圖1所示,本發(fā)明實施例提供的一種洗錢賬戶的確定方法,包括:步驟101、獲取待偵測金融網(wǎng)絡(luò)中的n個數(shù)據(jù)樣本,其中,一個數(shù)據(jù)樣本用于表示一個賬戶在設(shè)定時間段的設(shè)定時長內(nèi)的交易信息,n為大于1的整數(shù);步驟102、根據(jù)每個數(shù)據(jù)樣本的權(quán)重,將所述n個數(shù)據(jù)樣本劃分為c1類數(shù)據(jù)樣本,其中c1滿足使得劃分得到的所述c1類數(shù)據(jù)樣本對應(yīng)的平均信息熵最小,其中,一個數(shù)據(jù)樣本的權(quán)重用于表示所述數(shù)據(jù)樣本對分類的影響程度,一個數(shù)據(jù)樣本的權(quán)重是根據(jù)所述n個數(shù)據(jù)樣本的m個屬性的權(quán)重得到的,所述平均信息熵是根據(jù)所述n個數(shù)據(jù)樣本的隸屬度得到的,所述隸屬度用于表示一個數(shù)據(jù)樣本對一個聚類的隸屬程度,m為正整數(shù);步驟103、針對所述c1類數(shù)據(jù)樣本中的任一類,確定距離所述類的聚類中心最近的數(shù)據(jù)樣本為目標(biāo)數(shù)據(jù)樣本;若確定所述目標(biāo)數(shù)據(jù)樣本對應(yīng)的賬戶符合預(yù)設(shè)的洗錢賬戶標(biāo)準(zhǔn),則將所述類確定為洗錢類別并將所述洗錢類別中的所有數(shù)據(jù)樣本對應(yīng)的賬戶確定為洗錢賬戶。在待偵測金融網(wǎng)絡(luò)中,有很多賬戶,其中有些賬戶是洗錢賬戶,從事著非法洗錢交易,如何偵破獲取這些洗錢賬戶對打擊洗錢犯罪活動有著重大意義。本發(fā)明方法通過以上步驟101~步驟103可以實現(xiàn)找到可疑洗錢賬戶。上述步驟101中,首先獲取待偵測金融網(wǎng)絡(luò)中的n個數(shù)據(jù)樣本,其中一個數(shù)據(jù)樣本表示一個賬戶在設(shè)定時間段的設(shè)定時長內(nèi)的交易信息,且n為大于1的整數(shù)。舉例來說,假設(shè)設(shè)定時間段為最近一個月(假設(shè)有30天),設(shè)定時長為10天,則每個賬戶對應(yīng)有3個數(shù)據(jù)樣本;再比如,假設(shè)設(shè)定時間段為一年時間,設(shè)定時長為1個月,則每個賬戶對應(yīng)有12個數(shù)據(jù)樣本??蛇x地,本發(fā)明實施例中,對于得到的n個數(shù)據(jù)樣本中的每個數(shù)據(jù)樣本,定義為一個8維向量(當(dāng)然也可以不是8維向量,根據(jù)實際需要來定義),具體地,任意一個數(shù)據(jù)樣本xi形式如下:xi=(Tai0,Tai1,Tai2,Tadi0,Tadi1,Tadi2,Tfwi,Tfdi)。其中,Tai0表示在設(shè)定時間段的設(shè)定時長內(nèi)的總交易金額,Tai1表示在設(shè)定時間段的設(shè)定時長內(nèi)的總轉(zhuǎn)出交易金額,Tai2表示在設(shè)定時間段的設(shè)定時長內(nèi)的總轉(zhuǎn)入交易金額,Tadi0表示交易金額離散系數(shù),Tadi1表示轉(zhuǎn)出金額離散系數(shù),Tadi2表示轉(zhuǎn)入金額離散系數(shù),Tfwi表示轉(zhuǎn)出頻率,Tfdi表示轉(zhuǎn)入頻率,其中所述交易金額離散系數(shù)Tadi0為數(shù)據(jù)樣本在設(shè)定時間段的設(shè)定時長內(nèi)交易金額方差與交易金額均值的比值,所述轉(zhuǎn)出金額離散系數(shù)Tadi1為數(shù)據(jù)樣本在設(shè)定時間段的設(shè)定時長內(nèi)轉(zhuǎn)出金額方差與轉(zhuǎn)出金額均值的比值,所述轉(zhuǎn)入金額離散系數(shù)Tadi2為數(shù)據(jù)樣本在設(shè)定時間段的設(shè)定時長內(nèi)轉(zhuǎn)入金額方差與轉(zhuǎn)入金額均值的比值。舉例來說,假設(shè)設(shè)定時間段為一個月,設(shè)定時長為10天,則對于任意一個賬戶k,可以得到3個數(shù)據(jù)樣本,假設(shè)分別為xk1,xk2,xk3,其中xk1表示在這一個月中的前10天的相關(guān)交易信息,xk2表示在這一個月中的中間10天的相關(guān)交易信息,xk3表示在這一個月中的后10天的相關(guān)交易信息,并且每個數(shù)據(jù)樣本都是1個由8個量組成的向量。對于每個數(shù)據(jù)樣本的8個分量,具體地,可以通過下列方式得到:1、總交易金額Tai0假設(shè)數(shù)據(jù)樣本i在設(shè)定時長內(nèi)總共有ni0筆交易,每筆交易金額taij按照時序排列為則數(shù)據(jù)樣本的總交易金額為:2、總轉(zhuǎn)出交易金額Tai1假設(shè)數(shù)據(jù)樣本i在設(shè)定時長內(nèi)總共有ni1筆轉(zhuǎn)出交易,每筆交易金額tbij按照時序排列為則數(shù)據(jù)樣本的總轉(zhuǎn)出交易金額為:3、總轉(zhuǎn)入交易金額Tai2假設(shè)數(shù)據(jù)樣本i在設(shè)定時長內(nèi)總共有ni2筆轉(zhuǎn)出交易,每筆交易金額tcij按照時序排列為則數(shù)據(jù)樣本的總轉(zhuǎn)出交易金額為:4、交易金額離散系數(shù)Tadi0假設(shè)數(shù)據(jù)樣本i在設(shè)定時長內(nèi)總交易金額均值為:總交易金額的方差為則交易金額離散系數(shù)Tadi0為:5、轉(zhuǎn)出金額離散系數(shù)Tadi1假設(shè)數(shù)據(jù)樣本i在設(shè)定時長內(nèi)總轉(zhuǎn)出交易金額均值為:總轉(zhuǎn)出交易金額的方差為則轉(zhuǎn)出金額離散系數(shù)Tadi1為:6、轉(zhuǎn)入金額離散系數(shù)Tadi2假設(shè)數(shù)據(jù)樣本i在設(shè)定時長內(nèi)總轉(zhuǎn)入交易金額均值為:總轉(zhuǎn)入交易金額的方差為則轉(zhuǎn)入金額離散系數(shù)Tadi2為:7、轉(zhuǎn)出頻率Tfwi將數(shù)據(jù)樣本i在設(shè)定時長內(nèi)轉(zhuǎn)出交易次數(shù)與總交易次數(shù)的比值,定義為轉(zhuǎn)出頻率Tfwi。8、轉(zhuǎn)入頻率Tfdi將數(shù)據(jù)樣本i在設(shè)定時長內(nèi)轉(zhuǎn)入交易次數(shù)與總交易次數(shù)的比值,定義為轉(zhuǎn)入頻率Tfdi。通過上述步驟101,可以得到n個數(shù)據(jù)樣本,假設(shè)這n個數(shù)據(jù)樣本構(gòu)成的集合為X={x1,x2,…,xn}。上述步驟102中,根據(jù)每個數(shù)據(jù)樣本的權(quán)重,將所述n個數(shù)據(jù)樣本劃分為c1類數(shù)據(jù)樣本,其中c1滿足使得劃分得到的所述c1類數(shù)據(jù)樣本對應(yīng)的平均信息熵最小,其中,信息熵是信息論中的概念,當(dāng)信源發(fā)出的信息越確定,其信息熵越小,因此在本發(fā)明中當(dāng)分類的劃分越合理,數(shù)據(jù)樣本偏向于分類中心越確定,即表明該分類的信息熵越小。因此滿足條件的c1類是最合理的分類。在對上述步驟102進(jìn)行具體介紹之前,首先對本發(fā)明實施例中將要用到的一些參數(shù)進(jìn)行解釋說明。一、確定每個數(shù)據(jù)樣本的權(quán)重本發(fā)明實施例中,一個數(shù)據(jù)樣本的權(quán)重是根據(jù)n個數(shù)據(jù)樣本的m個屬性的權(quán)重得到的,具體地確定方式有很多種,例如將n個數(shù)據(jù)樣本在第j個屬性的屬性值之和與所述n個數(shù)據(jù)樣本在所有屬性的屬性值之和的比值,作為第j個屬性的權(quán)重,然后繼續(xù)對每個屬性進(jìn)行加權(quán),從而得到一個數(shù)據(jù)樣本的權(quán)重。下面將介紹另外一種更為復(fù)雜和全面的確定一個數(shù)據(jù)樣本的權(quán)重的方式,該方法可以突出數(shù)據(jù)樣本中的重要屬性對聚類過程的作用,并采用基于皮爾遜相關(guān)系數(shù)的密度函數(shù)為數(shù)據(jù)樣本加權(quán),解決模糊C均值聚類算法對數(shù)據(jù)樣本進(jìn)行等劃分的問題。1、確定所述n個數(shù)據(jù)樣本中的m個屬性權(quán)重對于給定的數(shù)據(jù)集合X={x1,x2,…,xn},它的第i個數(shù)據(jù)樣本為xi=(xi1,xi2,…,xij,…,xim),其中xij是樣本點xi的第j個屬性(也就是第j維度),m表示所述n個數(shù)據(jù)樣本中每個數(shù)據(jù)樣本包含的屬性數(shù)量(即數(shù)據(jù)樣本的維數(shù),并且n個數(shù)據(jù)樣本的屬性維度相同,均為m)。為了得到全體數(shù)據(jù)樣本在第j個屬性上的分布情況,我們將所述n個數(shù)據(jù)樣本在第j個屬性上的最小值為起點,以所述n個數(shù)據(jù)樣本在第j個屬性上的最大值為終點,等劃分成K組,每組長度為然后統(tǒng)計出所述K組中第k組中的數(shù)據(jù)樣本的個數(shù),用Njk表示,顯然,通過上述劃分我們得到一組數(shù)據(jù):Nj1,Nj2,…,Njk,…,NjK。以此為基礎(chǔ),我們可以求出第j個屬性的離散系數(shù)CVj和信息熵Hj:其中,這里,CVj為屬性j的離散系數(shù)且用于表示屬性j偏離均勻分布的程度,CVj取值越大說明屬性j越集中于某些區(qū)域,然而當(dāng)它取值太大時,很可能是屬性j過度集中于一兩個區(qū)域,如果聚類數(shù)目c>2,則它不利于區(qū)分不同類別。Hj為屬性j的信息熵且用于表示屬性j的有序結(jié)構(gòu)情況,Hj越小則越有序,代表此時形成了一個聚集中心,然而當(dāng)它取值過小時,很可能是屬性j過度集中于某個區(qū)域。由以上分析可知,當(dāng)CVj和Hj都取適當(dāng)值時最有利于聚類過程,因此綜合兩者的作用,得到“波動-有序變量”,由它衡量屬性j對聚類過程的貢獻(xiàn)。對它進(jìn)行歸一化,可以求出第j個屬性的權(quán)重值:其中,wj表示所述n個數(shù)據(jù)樣本的第j個屬性的權(quán)重。2、確定所述n個數(shù)據(jù)樣本中每個數(shù)據(jù)樣本的樣本密度為了求出基于皮爾遜相關(guān)系數(shù)的樣本密度,首先需要求出任意兩個樣本點之間的皮爾遜相關(guān)系數(shù)。對于任意兩個樣本點xi=(xi1,xi2,…,xij,…,xim)、xh=(xh1,xh2,…,xhj,…,xhm),它們之間的皮爾遜相關(guān)系數(shù)為:其中,r(i,h)表示數(shù)據(jù)樣本xi與數(shù)據(jù)樣本xh之間的皮爾遜相關(guān)系數(shù)。x‾i=1mΣj=1mwjxij,x‾h=1mΣj=1mwjxhj.]]>在本發(fā)明實施例中,取密度函數(shù)為(當(dāng)然,根據(jù)實際需要也可以去其他密度函數(shù)),則數(shù)據(jù)樣本xi的樣本密度定義為:其中,density(i)表示第i個數(shù)據(jù)樣本的樣本密度,是加權(quán)后兩個數(shù)據(jù)樣本之間的歐氏距離。由于同一個聚類中的兩個數(shù)據(jù)樣本的皮爾遜相關(guān)系數(shù)一般較大,而不同類別的兩個數(shù)據(jù)樣本的皮爾遜相關(guān)系數(shù)一般比較小,因此上面的樣本密度公式中包含有r(i,h),就是為了突出數(shù)據(jù)樣本在同類中的密度大小,減弱其它類對它的干擾。對樣本密度進(jìn)行歸一化,就得到了每個數(shù)據(jù)樣本的權(quán)重:其中,ρi表示第i個數(shù)據(jù)樣本的權(quán)重,i=1,2,...,n因而,一個數(shù)據(jù)樣本的權(quán)重用于表示所述數(shù)據(jù)樣本對分類的影響程度,一個數(shù)據(jù)樣本的權(quán)重是根據(jù)所述n個數(shù)據(jù)樣本的m個屬性的權(quán)重得到的。二、確定一個聚類對應(yīng)的平均信息熵定義類的平均信息熵,這里引入平均信息熵,是為了幫助我們確定數(shù)據(jù)集的最終聚類數(shù)目,定義平均信息熵為:需要說明的是,信息熵是信息論中的概念,當(dāng)信源發(fā)出的信息越確定,其信息熵越小。在模糊聚類中,當(dāng)聚類的劃分越合理,則它信息熵越小,因此我們可以根據(jù)這個來確定聚類數(shù)目c的最終取值。其中,μij表示在C模糊均值聚類算法中數(shù)據(jù)樣本xj對第i個聚類的隸屬度,因而本發(fā)明實施例中的平均信息熵是根據(jù)n個數(shù)據(jù)樣本的隸屬度得到的,所述隸屬度用于表示一個數(shù)據(jù)樣本對一個聚類的隸屬程度。三、對傳統(tǒng)模糊C均值聚類算法的中的目標(biāo)函數(shù)的重新定義假設(shè)數(shù)據(jù)樣本集合X={x1,x2,…,xn}將被分成c類,{A1,A2,…,Ac}表示相應(yīng)的c個類,U是一個c*n的隸屬矩陣且μij為U中的元素,U中的任意一個元素μij表示數(shù)據(jù)樣本xj對第i個聚類的隸屬度,各類別的聚類中心為{v1,v2,…,vc},本發(fā)明中,將模糊C均值聚類算法對應(yīng)的目標(biāo)函數(shù)定義為:Σi=1cμij=1,∀j=1,2,...,n;1≤j≤n,]]>其中,ρj為數(shù)據(jù)樣本xj的權(quán)重,dij為第i個聚類中心與數(shù)據(jù)樣本xj之間未加權(quán)的的歐氏距離。其中,vi為聚類中心更新公式,μij為隸屬度矩陣更新公式。在傳統(tǒng)的模糊C均值聚類算法中,將目標(biāo)函數(shù)定義為其中不包含樣本權(quán)重ρj,而本發(fā)明中將模糊C均值聚類算法對應(yīng)的目標(biāo)函數(shù)進(jìn)行重新定義,主要在傳統(tǒng)的模糊C均值聚類算法對應(yīng)的目標(biāo)函數(shù)中增加了樣本權(quán)重ρj,之所以如此定義,原因在于:由于基于傳統(tǒng)的目標(biāo)函數(shù)的劃分方法,每個樣本對最終劃分結(jié)果的影響程度相同的,然而實際應(yīng)用中不同的賬戶在洗錢的頻繁程度、交易金額的大小等方面都是不一樣的,因此金融交易數(shù)據(jù)的分布不可能是均勻或?qū)ΨQ的,傳統(tǒng)的模糊C均值聚類算法對數(shù)據(jù)集的樣本等劃分特性將造成很大的誤差;而本發(fā)明中在目標(biāo)函數(shù)中增加了樣本權(quán)重ρj之后,表明每個數(shù)據(jù)樣本對最終的分類結(jié)果造成的影響程度是不一樣的,因而可以得到的樣本劃分結(jié)果也更加真實和準(zhǔn)確。在有了以上關(guān)于數(shù)據(jù)樣本的權(quán)重、聚類對應(yīng)的平均信息熵、模糊C均值聚類算法對應(yīng)的目標(biāo)函數(shù)的定義之后,下面對步驟102中,將n個數(shù)據(jù)樣本劃分為c1類數(shù)據(jù)樣本的具體過程做詳細(xì)描述,其中,c1滿足使得劃分得到的所述c1類數(shù)據(jù)樣本對應(yīng)的平均信息熵最小??蛇x地,所述根據(jù)每個數(shù)據(jù)樣本的權(quán)重,將所述n個數(shù)據(jù)樣本劃分為c1類數(shù)據(jù)樣本,包括:針對所述n個數(shù)據(jù)樣本的一個分類值c,根據(jù)每個數(shù)據(jù)樣本的權(quán)重及模糊C均值聚類算法,將所述n個數(shù)據(jù)樣本劃分為c類數(shù)據(jù)樣本;確定所述c類數(shù)據(jù)樣本中每個數(shù)據(jù)樣本分別對所述c類數(shù)據(jù)樣本的c個聚類中心的隸屬度;并根據(jù)確定的所有隸屬度,確定所述c類數(shù)據(jù)樣本對應(yīng)的平均信息熵;將對應(yīng)的平均信息熵最小的c類數(shù)據(jù)樣本作為所述c1類數(shù)據(jù)樣本??蛇x地,所述根據(jù)每個數(shù)據(jù)樣本的權(quán)重及模糊C均值聚類算法,將所述n個數(shù)據(jù)樣本劃分為c類數(shù)據(jù)樣本,包括:確定c個聚類中心初始值;根據(jù)所述c個聚類中心的初始值,確定所述n個數(shù)據(jù)樣本對應(yīng)的隸屬度矩陣,以及根據(jù)確定的所述n個數(shù)據(jù)樣本對應(yīng)的隸屬度矩陣,確定所述n個數(shù)據(jù)樣本對應(yīng)的目標(biāo)函數(shù)值;根據(jù)所述隸屬度矩陣,更新所述c類數(shù)據(jù)樣本中每個類的聚類中心;根據(jù)更新后的所述c類數(shù)據(jù)樣本中每個類的聚類中心,更新所述隸屬度矩陣;根據(jù)更新后的所述隸屬度矩陣及更新后的所述c類數(shù)據(jù)樣本中每個類的聚類中心,更新所述n個數(shù)據(jù)樣本對應(yīng)的目標(biāo)函數(shù)值;若確定所述目標(biāo)函數(shù)值的更新變化量小于或等于變化量閾值,則根據(jù)更新后的所述隸屬度矩陣,將所述n個數(shù)據(jù)樣本劃分為c類數(shù)據(jù)樣本;若確定所述目標(biāo)函數(shù)值的變化量大于所述變化量閾值,則返回到根據(jù)所述隸屬度矩陣,更新所述c類數(shù)據(jù)樣本中每個類的聚類中心的步驟。下面對上述分類方法做詳細(xì)解釋和說明。步驟1、初始化工作。設(shè)定變化量閾值為ε,確定初始聚類中心個數(shù)的取值范圍[cmin,cmax]。一般取cmin=2,步驟2、在聚類中心數(shù)目c從c=cmin增加到c=cmax的過程中,對于任意確定的c,由以下步驟A~步驟E確定對應(yīng)的隸屬矩陣U=(μij)cxn,和此時的平均信息熵H(c):步驟A、求出m個屬性權(quán)重值wj(j=1,2,...,m)、樣本密度density(i)、數(shù)據(jù)樣本的權(quán)重ρi,1≤i≤n;具體地,可以通過上述公式(7)、公式(9)、公式(10)來計算。步驟B、求出聚類中心的初始值對于c個聚類中每個聚類中心的初始值的設(shè)置方法,有很多種方法,例如可以是依次從n個數(shù)據(jù)樣本中挑出權(quán)重最大的c個數(shù)據(jù)樣本作為c個聚類中每個聚類中心的初始值;或者是從n個數(shù)據(jù)數(shù)據(jù)樣本中隨機(jī)選擇c個數(shù)據(jù)樣本作為c個聚類中每個聚類中心的初始值,本發(fā)明實施例不做具體限定。下面給出一種本發(fā)明實施例提供的確定c個聚類中每個聚類中心的初始值的方法??蛇x地,根據(jù)下列公式確定所述c個聚類中心初始值:其中,表示當(dāng)前n個數(shù)據(jù)樣本中每個數(shù)據(jù)樣本的樣本密度中的最大值,表示對應(yīng)的數(shù)據(jù)樣本且表示第k個聚類中心的初始值(k=1,2,...,c),用于對所述n個數(shù)據(jù)樣本的樣本密度進(jìn)行更新,表示數(shù)據(jù)樣本xi與數(shù)據(jù)樣本之間的皮爾遜相關(guān)系數(shù),表示數(shù)據(jù)樣本xi與數(shù)據(jù)樣本之間的歐式距離,m1和m2為預(yù)設(shè)的系數(shù)。其中,對于m1和m2的取值,可根據(jù)實際需要而定,例如可以將m1取值為2,以及將m2取值為2。舉例來說,假設(shè)數(shù)據(jù)樣本數(shù)量n=6,分別用N1,N2,N3,N4,N5,N6來表示。且假設(shè)當(dāng)前c值等于3,則可以根據(jù)下列過程得到3個聚類的聚類中心初始值:第一步、計算每個數(shù)據(jù)樣本對應(yīng)的樣本密度,假設(shè)分別為8.5,6.3,7.7,9.9,12.5,2.6;第二步、根據(jù)公式(17)得到第一個聚類中心的初始值數(shù)據(jù)樣本N5;因為數(shù)據(jù)樣本N5對應(yīng)的樣本密度最大,所以數(shù)據(jù)樣本N5為第一個聚類中心的初始值。第三步、根據(jù)(公式16)更新每個數(shù)據(jù)樣本的樣本密度。假設(shè)更新后的6個數(shù)據(jù)樣本的樣本密度分別為:7.6,5.9,7.2,6.7,6.5,1.6;第四步、根據(jù)公式(15)得到第二個聚類中心的初始值數(shù)據(jù)樣本N1;第五步、根據(jù)(公式16)更新每個數(shù)據(jù)樣本的樣本密度。假設(shè)更新后的6個數(shù)據(jù)樣本的樣本密度分別為:5,5.2,6,5.9,5.8,1;第四步、根據(jù)公式(15)得到第二個聚類中心的初始值數(shù)據(jù)樣本N3。從而,根據(jù)以上步驟,即可得到3個聚類的初始聚類中心。由于上述方法來(公式16)中增加了相關(guān)系數(shù)這樣做是為了最大限度削弱與同屬一類的數(shù)據(jù)樣本對后續(xù)選取初始聚類中心的干擾,同時盡可能保持其它類別的密度值不受影響。步驟C、根據(jù)(公式14)計算μij,由(公式12)求出目標(biāo)函數(shù)的初始值J0;步驟D、根據(jù)(公式13)計算vi;步驟E、根據(jù)(公式14)計算μij;步驟F、根據(jù)(公式12)計算目標(biāo)函數(shù)J,如果跟上次計算得到的目標(biāo)函值相比,它們的更新變化量(更新變化量指的是此次計算得到的目標(biāo)函數(shù)值與上次計算得到的目標(biāo)函數(shù)值的差值)小于變化量閾值ε,則根據(jù)當(dāng)前得到的隸屬度矩陣,確定數(shù)據(jù)樣本的分類方式,并且根據(jù)(公式11)計算該分類方式對應(yīng)的平均信息熵;同時計算出此時的平均信息熵H(c);否則返回步驟D;具體地,對于一個隸屬度矩陣U,可以根據(jù)下列方式得到c個分類:根據(jù)最大隸屬度原則對數(shù)據(jù)集合X={x1,x2,…,xn}進(jìn)行分類:在U=Ucxn的第k列中,如果則將xk歸入第i1類。舉例來說,假設(shè)數(shù)據(jù)樣本數(shù)量n=6,分別用N1,N2,N3,N4,N5,N6來表示。假設(shè)當(dāng)前要對c=2確定一個分類方式,當(dāng)前隸屬度矩陣U為:U=0.40.80.60.70.90.30.60.20.40.30.10.7]]>由于0.6>0.4,因此數(shù)據(jù)樣本N1劃分到第二類中;由于0.8>0.2,因此數(shù)據(jù)樣本N2劃分到第一類中,以此類推,得到的兩個分類分別為:第一類:N2,N3,N4,N5;第二類:N1,N6。從而根據(jù)上述步驟A~步驟F,對于任意一個c值,都可以計算得到一種分類方式以及對應(yīng)的平均信息熵。步驟3、對比聚類中心數(shù)目c在不同取值時的平均信息熵H(c),找到使平均信息熵H(c)取最小值的聚類中心數(shù)目c1,H(c1)=minH(c),從而最終的聚類數(shù)目為c1以及對應(yīng)的分類方式。根據(jù)上述步驟1~步驟3,可以得到一個最佳分類c1及對應(yīng)的分類方式。從而有利于提高最終確定洗錢賬戶的精度和準(zhǔn)確度?;谏鲜霾襟E102中得到的一個最佳分類c1及對應(yīng)的分類方式,下面通過步驟103,從該分類方式中找到洗錢賬戶。上述步驟103中,針對所述c1類數(shù)據(jù)樣本中的任一類,確定距離所述類的聚類中心最近的數(shù)據(jù)樣本為目標(biāo)數(shù)據(jù)樣本;若確定所述目標(biāo)數(shù)據(jù)樣本對應(yīng)的賬戶符合預(yù)設(shè)的洗錢賬戶標(biāo)準(zhǔn),則將所述類確定為洗錢類別并將所述洗錢類別中的所有數(shù)據(jù)樣本對應(yīng)的賬戶確定為洗錢賬戶。因為洗錢行為有別于正常的賬戶交易行為,所以洗錢賬戶對應(yīng)的數(shù)據(jù)樣本跟正常賬戶對應(yīng)的數(shù)據(jù)樣本會聚集到不同的類別當(dāng)中。同時,對于任何一個類i,它的類中心vi是該類所含數(shù)據(jù)點的最典型代表,因此我們只需抓取距離類中心vi最近的那個數(shù)據(jù)點,找到這個數(shù)據(jù)點對應(yīng)的賬戶,再根據(jù)《金融機(jī)構(gòu)大額交易和可疑交易報告管理辦法》來判斷該賬戶是否同時滿足大額交易和可疑交易的標(biāo)準(zhǔn),如果滿足,則類i就是洗錢賬戶的數(shù)據(jù)樣本集合,從而類i中任意一個數(shù)據(jù)樣本對應(yīng)的賬戶就是洗錢賬戶。具體過程如下:1)根據(jù)《金融機(jī)構(gòu)大額交易和可疑交易報告管理辦法》(即預(yù)設(shè)的洗錢賬戶標(biāo)準(zhǔn))確定洗錢的類別。通過之前的聚類結(jié)果,我們可以得到c1個聚類中心:因為聚類中心是通過算法計算出來的,它們沒有對應(yīng)的真實賬戶,所以我們首先要找到距離聚類中心最近的那個數(shù)據(jù)樣板及其對應(yīng)的賬戶,假設(shè)距離vi最近的點為x1,x1對應(yīng)的賬戶為Z1、距離v2最近的點為x2,x2對應(yīng)的賬戶為Z2,……,距離最近的點為對應(yīng)的賬戶為然后再根據(jù)《金融機(jī)構(gòu)大額交易和可疑交易報告管理辦法》判斷哪些賬戶同時滿足大額交易和可疑交易標(biāo)準(zhǔn),假設(shè)最終Z1,Z2,…,Zk滿足大額交易和可疑交易標(biāo)準(zhǔn),那么對應(yīng)的類1,類2,類k就是洗錢類別。2)找到洗錢賬戶。根據(jù)上述結(jié)果,我們已經(jīng)知道類1,類2,……,類k就是洗錢類別,現(xiàn)在對類1,類2,……,類k中的任何一個數(shù)據(jù)樣板,我們找到它們對應(yīng)的賬戶,那么這些賬戶就是洗錢賬戶。通過上述過程,我們已經(jīng)找到了所有洗錢賬戶。由于《金融機(jī)構(gòu)大額交易和可疑交易報告管理辦法》把洗錢賬戶劃分為一般洗錢賬戶及重點洗錢賬戶,因此我們根據(jù)以下步驟來進(jìn)一步劃分一般及重點洗錢賬戶:可選地,所述將所述類確定為洗錢類別并將所述洗錢類別中的所有數(shù)據(jù)樣本對應(yīng)的賬戶確定為洗錢賬戶之后,還包括:確定所述洗錢類別的聚類中心與所述n個數(shù)據(jù)樣本中每個數(shù)據(jù)樣本的歐氏距離并按確定的歐式距離遞增的順序?qū)λ鰊個數(shù)據(jù)樣本進(jìn)行排序,得到排序后的n個數(shù)據(jù)樣本;若確定所述n個數(shù)據(jù)樣本中存在目標(biāo)樣本,則將所述排序后的n個數(shù)據(jù)樣本中排在所述目標(biāo)樣本之前的所有樣本確定為重點洗錢樣本,并將所有重點洗錢樣本對應(yīng)的賬戶確定為重點洗錢賬戶,其中,所述排在所述目標(biāo)樣本之前的所有樣本均屬于所述洗錢類別,且所述目標(biāo)樣本對應(yīng)的賬戶不屬于任何洗錢類別??蛇x地,所述將所述排序后的n個數(shù)據(jù)樣本中排在所述目標(biāo)樣本之前的所有樣本確定為重點洗錢樣本,并將所有重點洗錢樣本對應(yīng)的賬戶確定為重點洗錢賬戶之后,還包括:將所述洗錢類別中除所有重點洗錢樣本之外的所有樣本,確定為一般洗錢樣本;將所有一般洗錢樣本對應(yīng)的賬戶確定為一般洗錢賬戶。下面詳細(xì)說明上述確定一般洗錢賬戶和重點洗錢賬戶的方法。1)對于任何一個洗錢類別j(其中j=1,2,…,k),求出類中心vj與數(shù)據(jù)集X={x1,x2,…,xn}中任意一點xh之間的歐氏距離d(vj,xh),h=1,2,…,n,然后對它們進(jìn)行從小到大排列,找到如下一個臨界點(即目標(biāo)樣本),它滿足兩個條件:A)必須是不屬于任何洗錢類別的數(shù)據(jù)樣本,換言之它是屬于正常交易類別的數(shù)據(jù)樣板;B)所有滿足的點xh,都必須屬于洗錢類別j;則所有滿足的點xh,它們對應(yīng)的賬戶就是重點洗錢賬戶。2)將洗錢類別j中除所有重點洗錢樣本之外的所有樣本,確定為一般洗錢樣本;將所有一般洗錢樣本對應(yīng)的賬戶確定為一般洗錢賬戶。這里說明一下為何這樣劃分,因為類與類之間在屬性空間上有可能存在交叉現(xiàn)象,只有那些距離洗錢類別的中心點最近的那些數(shù)據(jù)樣本才是重點疑的,而那些處于與正常交易類別相交叉的區(qū)域中的點,是一般可疑的。通過以上所有步驟,我們不但找到了洗錢賬戶,還對洗錢賬戶進(jìn)行了劃分,得到了重點洗錢賬戶及一般可疑洗錢賬戶。本發(fā)明實施例,首先確定n個數(shù)據(jù)樣本,一個數(shù)據(jù)樣本用于表示一個賬戶在設(shè)定時間段的設(shè)定時長內(nèi)的交易信息,然后根據(jù)每個數(shù)據(jù)樣本的權(quán)重,將所述n個數(shù)據(jù)樣本劃分為c1類數(shù)據(jù)樣本,其中,該分類方式是一個最佳分類,并且一個數(shù)據(jù)樣本的權(quán)重是根據(jù)所述n個數(shù)據(jù)樣本的m個屬性的權(quán)重得到的;以及針對所述c1類數(shù)據(jù)樣本中的任一類,確定距離所述類的聚類中心最近的數(shù)據(jù)樣本為目標(biāo)數(shù)據(jù)樣本;若確定所述目標(biāo)數(shù)據(jù)樣本對應(yīng)的賬戶符合預(yù)設(shè)的洗錢賬戶標(biāo)準(zhǔn),則將所述類確定為洗錢類別并將所述洗錢類別中的所有數(shù)據(jù)樣本對應(yīng)的賬戶確定為洗錢賬戶。本發(fā)明實施例一方面,根據(jù)n個數(shù)據(jù)樣本的m個屬性的權(quán)重得到每個數(shù)據(jù)樣本的屬性,將數(shù)據(jù)樣本的屬性進(jìn)行了內(nèi)在地聯(lián)系,因而最終可以提高洗錢賬戶的識別準(zhǔn)確率;另一方面,在確定洗錢賬戶時,是將符合預(yù)設(shè)的洗錢賬戶標(biāo)準(zhǔn)一個洗錢類別中的所有賬戶確定為洗錢賬戶,從而可以確定出具有連續(xù)交易特性的洗錢賬戶。下面對本發(fā)明實施例提供的一種洗錢賬戶的確定做詳細(xì)描述,如圖2所示,包括:步驟201、獲取待偵測金融網(wǎng)絡(luò)中的n個數(shù)據(jù)樣本,其中,一個數(shù)據(jù)樣本用于表示一個賬戶在設(shè)定時間段的設(shè)定時長內(nèi)的交易信息,n為大于1的整數(shù);步驟202、針對所述n個數(shù)據(jù)樣本的一個分類值c,根據(jù)每個數(shù)據(jù)樣本的權(quán)重及模糊C均值聚類算法,將所述n個數(shù)據(jù)樣本劃分為c類數(shù)據(jù)樣本;確定所述c類數(shù)據(jù)樣本中每個數(shù)據(jù)樣本分別對所述c類數(shù)據(jù)樣本的c個聚類中心的隸屬度;并根據(jù)確定的所有隸屬度,確定所述c類數(shù)據(jù)樣本對應(yīng)的平均信息熵;在該步驟中,所述根據(jù)每個數(shù)據(jù)樣本的權(quán)重及模糊C均值聚類算法,將所述n個數(shù)據(jù)樣本劃分為c類數(shù)據(jù)樣本,包括以下步驟:步驟A、確定c個聚類中心初始值;步驟B、根據(jù)所述c個聚類中心的初始值,確定所述n個數(shù)據(jù)樣本對應(yīng)的隸屬度矩陣,以及根據(jù)確定的所述n個數(shù)據(jù)樣本對應(yīng)的隸屬度矩陣,確定所述n個數(shù)據(jù)樣本對應(yīng)的目標(biāo)函數(shù)值;步驟C、根據(jù)所述隸屬度矩陣,更新所述c類數(shù)據(jù)樣本中每個類的聚類中心;步驟D、根據(jù)更新后的所述c類數(shù)據(jù)樣本中每個類的聚類中心,更新所述隸屬度矩陣;步驟E、根據(jù)更新后的所述隸屬度矩陣及更新后的所述c類數(shù)據(jù)樣本中每個類的聚類中心,更新所述n個數(shù)據(jù)樣本對應(yīng)的目標(biāo)函數(shù)值;步驟F、判斷所述目標(biāo)函數(shù)值的更新變化量是否小于或等于變化量閾值;若是,則轉(zhuǎn)到步驟G,若否,則轉(zhuǎn)到步驟C;步驟G、根據(jù)更新后的所述隸屬度矩陣,將所述n個數(shù)據(jù)樣本劃分為c類數(shù)據(jù)樣本。步驟203、將對應(yīng)的平均信息熵最小的c類數(shù)據(jù)樣本作為所述c1類數(shù)據(jù)樣本;步驟204、針對所述c1類數(shù)據(jù)樣本中的任一類,確定距離所述類的聚類中心最近的數(shù)據(jù)樣本為目標(biāo)數(shù)據(jù)樣本;若確定所述目標(biāo)數(shù)據(jù)樣本對應(yīng)的賬戶符合預(yù)設(shè)的洗錢賬戶標(biāo)準(zhǔn),則將所述類確定為洗錢類別并將所述洗錢類別中的所有數(shù)據(jù)樣本對應(yīng)的賬戶確定為洗錢賬戶;步驟205、確定所述洗錢類別的聚類中心與所述n個數(shù)據(jù)樣本中每個數(shù)據(jù)樣本的歐氏距離并按確定的歐式距離遞增的順序?qū)λ鰊個數(shù)據(jù)樣本進(jìn)行排序,得到排序后的n個數(shù)據(jù)樣本;步驟206、若確定所述n個數(shù)據(jù)樣本中存在目標(biāo)樣本,則將所述排序后的n個數(shù)據(jù)樣本中排在所述目標(biāo)樣本之前的所有樣本確定為重點洗錢樣本,并將所有重點洗錢樣本對應(yīng)的賬戶確定為重點洗錢賬戶,其中,所述排在所述目標(biāo)樣本之前的所有樣本均屬于所述洗錢類別,且所述目標(biāo)樣本對應(yīng)的賬戶不屬于任何洗錢類別;步驟207、將所述洗錢類別中除所有重點洗錢樣本之外的所有樣本,確定為一般洗錢樣本;將所有一般洗錢樣本對應(yīng)的賬戶確定為一般洗錢賬戶。本發(fā)明實施例,首先確定n個數(shù)據(jù)樣本,一個數(shù)據(jù)樣本用于表示一個賬戶在設(shè)定時間段的設(shè)定時長內(nèi)的交易信息,然后根據(jù)每個數(shù)據(jù)樣本的權(quán)重,將所述n個數(shù)據(jù)樣本劃分為c1類數(shù)據(jù)樣本,其中,該分類方式是一個最佳分類,并且一個數(shù)據(jù)樣本的權(quán)重是根據(jù)所述n個數(shù)據(jù)樣本的m個屬性的權(quán)重得到的;以及針對所述c1類數(shù)據(jù)樣本中的任一類,確定距離所述類的聚類中心最近的數(shù)據(jù)樣本為目標(biāo)數(shù)據(jù)樣本;若確定所述目標(biāo)數(shù)據(jù)樣本對應(yīng)的賬戶符合預(yù)設(shè)的洗錢賬戶標(biāo)準(zhǔn),則將所述類確定為洗錢類別并將所述洗錢類別中的所有數(shù)據(jù)樣本對應(yīng)的賬戶確定為洗錢賬戶。本發(fā)明實施例一方面,根據(jù)n個數(shù)據(jù)樣本的m個屬性的權(quán)重得到每個數(shù)據(jù)樣本的屬性,將數(shù)據(jù)樣本的屬性進(jìn)行了內(nèi)在地聯(lián)系,因而最終可以提高洗錢賬戶的識別準(zhǔn)確率;另一方面,在確定洗錢賬戶時,是將符合預(yù)設(shè)的洗錢賬戶標(biāo)準(zhǔn)一個洗錢類別中的所有賬戶確定為洗錢賬戶,從而可以確定出具有連續(xù)交易特性的洗錢賬戶?;谙嗤募夹g(shù)構(gòu)思,本發(fā)明實施例還提供一種洗錢賬戶的確定裝置,如圖3所示,包括:數(shù)據(jù)樣本獲取單元301,用于獲取待偵測金融網(wǎng)絡(luò)中的n個數(shù)據(jù)樣本,其中,一個數(shù)據(jù)樣本用于表示一個賬戶在設(shè)定時間段的設(shè)定時長內(nèi)的交易信息,n為大于1的整數(shù);數(shù)據(jù)樣本劃分單元302,用于根據(jù)每個數(shù)據(jù)樣本的權(quán)重,將所述n個數(shù)據(jù)樣本劃分為c1類數(shù)據(jù)樣本,其中c1滿足使得劃分得到的所述c1類數(shù)據(jù)樣本對應(yīng)的平均信息熵最小,其中,一個數(shù)據(jù)樣本的權(quán)重用于表示所述數(shù)據(jù)樣本對分類的影響程度,一個數(shù)據(jù)樣本的權(quán)重是根據(jù)所述n個數(shù)據(jù)樣本的m個屬性的權(quán)重得到的,所述平均信息熵是根據(jù)所述n個數(shù)據(jù)樣本的隸屬度得到的,所述隸屬度用于表示一個數(shù)據(jù)樣本對一個聚類的隸屬程度,m為正整數(shù);洗錢賬戶確定單元303,用于針對所述c1類數(shù)據(jù)樣本中的任一類,確定距離所述類的聚類中心最近的數(shù)據(jù)樣本為目標(biāo)數(shù)據(jù)樣本;若確定所述目標(biāo)數(shù)據(jù)樣本對應(yīng)的賬戶符合預(yù)設(shè)的洗錢賬戶標(biāo)準(zhǔn),則將所述類確定為洗錢類別并將所述洗錢類別中的所有數(shù)據(jù)樣本對應(yīng)的賬戶確定為洗錢賬戶??蛇x地,所述數(shù)據(jù)樣本劃分單元302,具體用于:針對所述n個數(shù)據(jù)樣本的一個分類值c,根據(jù)每個數(shù)據(jù)樣本的權(quán)重及模糊C均值聚類算法,將所述n個數(shù)據(jù)樣本劃分為c類數(shù)據(jù)樣本;確定所述c類數(shù)據(jù)樣本中每個數(shù)據(jù)樣本分別對所述c類數(shù)據(jù)樣本的c個聚類中心的隸屬度;并根據(jù)確定的所有隸屬度,確定所述c類數(shù)據(jù)樣本對應(yīng)的平均信息熵;將對應(yīng)的平均信息熵最小的c類數(shù)據(jù)樣本作為所述c1類數(shù)據(jù)樣本??蛇x地,所述數(shù)據(jù)樣本劃分單元302,具體用于:確定c個聚類中心初始值;根據(jù)所述c個聚類中心的初始值,確定所述n個數(shù)據(jù)樣本對應(yīng)的隸屬度矩陣,以及根據(jù)確定的所述n個數(shù)據(jù)樣本對應(yīng)的隸屬度矩陣,確定所述n個數(shù)據(jù)樣本對應(yīng)的目標(biāo)函數(shù)值;根據(jù)所述隸屬度矩陣,更新所述c類數(shù)據(jù)樣本中每個類的聚類中心;根據(jù)更新后的所述c類數(shù)據(jù)樣本中每個類的聚類中心,更新所述隸屬度矩陣;根據(jù)更新后的所述隸屬度矩陣及更新后的所述c類數(shù)據(jù)樣本中每個類的聚類中心,更新所述n個數(shù)據(jù)樣本對應(yīng)的目標(biāo)函數(shù)值;若確定所述目標(biāo)函數(shù)值的更新變化量小于或等于變化量閾值,則根據(jù)更新后的所述隸屬度矩陣,將所述n個數(shù)據(jù)樣本劃分為c類數(shù)據(jù)樣本;若確定所述目標(biāo)函數(shù)值的變化量大于所述變化量閾值,則返回到根據(jù)所述隸屬度矩陣,更新所述c類數(shù)據(jù)樣本中每個類的聚類中心的步驟??蛇x地,所述洗錢賬戶確定單元303還用于:將所述類確定為洗錢類別并將所述洗錢類別中的所有數(shù)據(jù)樣本對應(yīng)的賬戶確定為洗錢賬戶之后,確定所述洗錢類別的聚類中心與所述n個數(shù)據(jù)樣本中每個數(shù)據(jù)樣本的歐氏距離并按確定的歐式距離遞增的順序?qū)λ鰊個數(shù)據(jù)樣本進(jìn)行排序,得到排序后的n個數(shù)據(jù)樣本;若確定所述n個數(shù)據(jù)樣本中存在目標(biāo)樣本,則將所述排序后的n個數(shù)據(jù)樣本中排在所述目標(biāo)樣本之前的所有樣本確定為重點洗錢樣本,并將所有重點洗錢樣本對應(yīng)的賬戶確定為重點洗錢賬戶,其中,所述排在所述目標(biāo)樣本之前的所有樣本均屬于所述洗錢類別,且所述目標(biāo)樣本對應(yīng)的賬戶不屬于任何洗錢類別。可選地,所述洗錢賬戶確定單元303還用于:將所述洗錢類別中除所有重點洗錢樣本之外的所有樣本,確定為一般洗錢樣本;將所有一般洗錢樣本對應(yīng)的賬戶確定為一般洗錢賬戶??蛇x地,所述模糊C均值聚類算法對應(yīng)的目標(biāo)函數(shù)為:J=Σi=1cΣj=1nρjμij2dij2,]]>Σi=1cμij=1,∀j=1,2,...,n;1≤j≤n,]]>其中,μij為數(shù)據(jù)樣本xj對第i個聚類的隸屬度,{v1,v2,…,vc}為各個聚類的聚類中心,U是一個c*n的隸屬矩陣且μij為U中的元素,ρj為數(shù)據(jù)樣本xj的權(quán)重,dij為第i個聚類中心與數(shù)據(jù)樣本xj之間未加權(quán)的的歐氏距離??蛇x地,所述數(shù)據(jù)樣本劃分單元302,還用于根據(jù)下列公式確定所述c個聚類中心初始值:Dk*=max{Di(k),i=1,2,...,n},k=2,3,...,c,]]>Di(k)=Di(k-1)-rm1(xi,xk-1*)*Dk-1**e-||xi-xk-1*||m2,k=2,3,...,c,i=1,2,...,n,]]>D1*=max{Di(1),i=1,2,...,n},]]>其中,表示當(dāng)前n個數(shù)據(jù)樣本中每個數(shù)據(jù)樣本的樣本密度中的最大值,表示對應(yīng)的數(shù)據(jù)樣本且表示第k個聚類中心的初始值(k=1,2,...,c),用于對所述n個數(shù)據(jù)樣本的樣本密度進(jìn)行更新,表示數(shù)據(jù)樣本xi與數(shù)據(jù)樣本之間的皮爾遜相關(guān)系數(shù),表示數(shù)據(jù)樣本xi與數(shù)據(jù)樣本之間的歐式距離,m1和m2為預(yù)設(shè)的系數(shù)??蛇x地,所述裝置還包括數(shù)據(jù)樣本權(quán)重確定單元304,用于根據(jù)下列公式確定一個數(shù)據(jù)樣本的權(quán)重:ρi=density(i)Σh=1ndensity(h),]]>density(i)=Σh=1,h≠inr2(i,h)1dihe-dih2,]]>dih=Σj=1mwj2(xij-xhj)2,]]>r(i,h)=Σj=1m(wjxij-x‾i)(wjxhj-x‾h)Σj=1m(wjxij-x‾i)2Σj=1m(wjxhj-x‾h)2,]]>x‾i=1mΣj=1mwjxij,]]>x‾h=1mΣj=1mwjxhj,]]>其中,ρi表示第i個數(shù)據(jù)樣本的權(quán)重,i=1,2,...,n,density(i)表示第i個數(shù)據(jù)樣本的樣本密度,r(i,h)表示數(shù)據(jù)樣本xi與數(shù)據(jù)樣本xh之間的皮爾遜相關(guān)系數(shù),wj表示所述n個數(shù)據(jù)樣本的第j個屬性的權(quán)重,xij表示數(shù)據(jù)樣本xi的第j個屬性值,m表示所述n個數(shù)據(jù)樣本中每個數(shù)據(jù)樣本包含的屬性數(shù)量,dih表示數(shù)據(jù)樣本xi與數(shù)據(jù)樣本xh之間加權(quán)的歐氏距離??蛇x地,所述數(shù)據(jù)樣本權(quán)重確定單元304,還用于根據(jù)下列公式確定所述n個數(shù)據(jù)樣本的屬性權(quán)重:wj=HPjΣj′=1mHPj′,]]>HPj=CVj*HjCVj2+Hj2,]]>CVj=σjμj,]]>Hj=-Σk=1Kpjklog2(pjk),]]>μj=1KΣk=1KNjk=nK,]]>σj=1KΣk=1K(Njk-μj)2,]]>pjk=NjkΣk′=1KNjk′,]]>其中,wj表示所述n個數(shù)據(jù)樣本的第j個屬性的權(quán)重,CVj為屬性j的離散系數(shù)且用于表示屬性j偏離均勻分布的程度,Hj為屬性j的信息熵且用于表示屬性j的有序結(jié)構(gòu)情況,并且,K是根據(jù)下列方式得到的:以所述n個數(shù)據(jù)樣本在第j個屬性上的最小值為起點,以所述n個數(shù)據(jù)樣本在第j個屬性上的最大值為終點,等劃分成K組;Njk表示所述K組中第k組中的數(shù)據(jù)樣本的個數(shù)(k=1,2,...,K)。本發(fā)明實施例,首先確定n個數(shù)據(jù)樣本,一個數(shù)據(jù)樣本用于表示一個賬戶在設(shè)定時間段的設(shè)定時長內(nèi)的交易信息,然后根據(jù)每個數(shù)據(jù)樣本的權(quán)重,將所述n個數(shù)據(jù)樣本劃分為c1類數(shù)據(jù)樣本,其中,該分類方式是一個最佳分類,并且一個數(shù)據(jù)樣本的權(quán)重是根據(jù)所述n個數(shù)據(jù)樣本的m個屬性的權(quán)重得到的;以及針對所述c1類數(shù)據(jù)樣本中的任一類,確定距離所述類的聚類中心最近的數(shù)據(jù)樣本為目標(biāo)數(shù)據(jù)樣本;若確定所述目標(biāo)數(shù)據(jù)樣本對應(yīng)的賬戶符合預(yù)設(shè)的洗錢賬戶標(biāo)準(zhǔn),則將所述類確定為洗錢類別并將所述洗錢類別中的所有數(shù)據(jù)樣本對應(yīng)的賬戶確定為洗錢賬戶。本發(fā)明實施例一方面,根據(jù)n個數(shù)據(jù)樣本的m個屬性的權(quán)重得到每個數(shù)據(jù)樣本的屬性,將數(shù)據(jù)樣本的屬性進(jìn)行了內(nèi)在地聯(lián)系,因而最終可以提高洗錢賬戶的識別準(zhǔn)確率;另一方面,在確定洗錢賬戶時,是將符合預(yù)設(shè)的洗錢賬戶標(biāo)準(zhǔn)一個洗錢類別中的所有賬戶確定為洗錢賬戶,從而可以確定出具有連續(xù)交易特性的洗錢賬戶。本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設(shè)備(系統(tǒng))、和計算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機(jī)程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機(jī)程序指令到通用計算機(jī)、專用計算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機(jī)器,使得通過計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。這些計算機(jī)程序指令也可存儲在能引導(dǎo)計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機(jī)可讀存儲器中,使得存儲在該計算機(jī)可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。這些計算機(jī)程序指令也可裝載到計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機(jī)實現(xiàn)的處理,從而在計算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。盡管已描述了本發(fā)明的優(yōu)選實施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例做出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進(jìn)行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。當(dāng)前第1頁1 2 3