本發(fā)明涉及數(shù)據(jù)挖掘技術(shù),具體涉及一種基于復(fù)雜社交關(guān)系網(wǎng)絡(luò)的反欺詐和信用風(fēng)險預(yù)測方法。
背景技術(shù):
隨著社會的發(fā)展,人與人之間的社交關(guān)系越來越復(fù)雜,很多人之間看似沒有聯(lián)系,實(shí)際上卻有一些社交關(guān)系,如親戚關(guān)系、朋友關(guān)系、同事、同學(xué)、業(yè)務(wù)合作關(guān)系、資金往來關(guān)系、社交工具聯(lián)系關(guān)系等,如何對復(fù)雜社會網(wǎng)絡(luò)關(guān)系進(jìn)行整合并建立數(shù)學(xué)模型,如何實(shí)現(xiàn)復(fù)雜社交網(wǎng)絡(luò)的可視化方法成為困難。
現(xiàn)有的社交網(wǎng)絡(luò)運(yùn)用,往往是基于簡單關(guān)系的社交網(wǎng)絡(luò)而進(jìn)行,這類社交網(wǎng)絡(luò)的運(yùn)用過程中,往往是針對社交網(wǎng)絡(luò)中個體的某些特征,先找到一些群體的相似性,然后根據(jù)相似性劃分群體。在簡單的社交網(wǎng)絡(luò)中,將每個個體單一地劃分為某一個群體,對人與人之間的關(guān)系挖掘不夠廣泛、完整,因此,根據(jù)簡單社交網(wǎng)絡(luò)做出的預(yù)測也不夠準(zhǔn)確。
此外,單一網(wǎng)絡(luò)關(guān)系的可視化往往比較容易,但在復(fù)雜關(guān)系網(wǎng)絡(luò)中,頂點(diǎn)與頂點(diǎn)直接存在復(fù)雜的多重關(guān)系,如親戚關(guān)系、朋友關(guān)系、同事關(guān)系、校友關(guān)系、相同的ip申請渠道等等,頂點(diǎn)的屬性有多種,如若頂點(diǎn)為貸款客戶時,他的信用評價信息、貸款信息等屬性信息,如何清晰地通過可視化方法進(jìn)行關(guān)系網(wǎng)絡(luò)展現(xiàn)是一個困難點(diǎn),現(xiàn)有的風(fēng)險預(yù)測模型不夠直觀顯示出風(fēng)險類型。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于:針對上述在簡單的社交網(wǎng)絡(luò)中,將每個個體劃分為單一的群體,對人與人之間的關(guān)系挖掘不夠廣泛、完整,根據(jù)簡單社交網(wǎng)絡(luò)做出的預(yù)測不夠準(zhǔn)確的問題,本發(fā)明提出一種基于復(fù)雜社交網(wǎng)絡(luò)的反欺詐和信用風(fēng)險預(yù)測方法。
本發(fā)明采用的技術(shù)方案為:
一種基于復(fù)雜社交關(guān)系網(wǎng)絡(luò)的反欺詐和信用風(fēng)險預(yù)測方法,包括:
步驟1,獲取個人用戶信息,每個個人用戶為一個個體,社交網(wǎng)絡(luò)關(guān)系中總共包括n個個體;
步驟2,整合關(guān)系數(shù)據(jù):用圖論方法,將步驟1中n個個體中的每個個體抽象為一個頂點(diǎn),將n個個體中,每兩個個體之間的每種關(guān)系抽象為一條邊;
步驟3,建立關(guān)系模型:根據(jù)整合的關(guān)系數(shù)據(jù)建立出關(guān)系模型鄰接矩陣dij,鄰接矩陣的頂點(diǎn)為n個,鄰接矩陣的維度為n*n;
步驟4,判斷是否有已知欺詐者,如果沒有發(fā)現(xiàn)欺詐者,執(zhí)行步驟5,否則,執(zhí)行步驟6;
步驟5,識別欺詐群體:在已建立的關(guān)系模型基礎(chǔ)上,通過關(guān)系聚集來識別欺詐群體,即根據(jù)個體關(guān)系計算頂點(diǎn)的度,根據(jù)所計算的度定義欺詐群體;
步驟6,欺詐傳染識別,若發(fā)現(xiàn)欺詐者vi,則更新關(guān)系網(wǎng)絡(luò)中其他用戶vj的欺詐風(fēng)險;
步驟7,信用風(fēng)險預(yù)測,若發(fā)現(xiàn)用戶vi的違約,計算用戶vi的違約概率,并根據(jù)用戶vi的違約概率重新計算關(guān)系網(wǎng)絡(luò)中其他用戶vj的違約概率。
所述的一種基于復(fù)雜社交關(guān)系網(wǎng)絡(luò)的反欺詐和信用風(fēng)險預(yù)測方法,步驟2中頂點(diǎn)的數(shù)據(jù)集包括頂點(diǎn)編號、頂點(diǎn)屬性。
所述的一種基于復(fù)雜社交關(guān)系網(wǎng)絡(luò)的反欺詐和信用風(fēng)險預(yù)測方法,步驟2中,頂點(diǎn)屬性包括個人姓名、性別、工作單位、畢業(yè)院校。
所述的一種基于復(fù)雜社交關(guān)系網(wǎng)絡(luò)的反欺詐和信用風(fēng)險預(yù)測方法,步驟2中由每種關(guān)系抽象出的邊中包括關(guān)系起點(diǎn)編號,關(guān)系重點(diǎn)編號,關(guān)系類型k,關(guān)系類型k的關(guān)系權(quán)重wk,關(guān)系權(quán)重越強(qiáng)關(guān)系權(quán)重wk越??;
步驟3中,鄰接矩陣的元素計算公式為:
dij=sum(wk)
其中,k為頂點(diǎn)i到頂點(diǎn)j的關(guān)系類型。
所述的一種基于復(fù)雜社交關(guān)系網(wǎng)絡(luò)的反欺詐和信用風(fēng)險預(yù)測方法,通過ip關(guān)系聚集來識別欺詐群體,通過ip關(guān)系的欺詐識別步驟具體如下:
(50)以ipi及社交網(wǎng)絡(luò)關(guān)系中每個個體為頂點(diǎn),每個個體之間、每個個體與ip之間的關(guān)系作為邊,建立關(guān)系模型鄰接矩陣dij;
(51)計算頂點(diǎn)ipi的度d(ipi);
(52)定義用戶vi的ip聚集欺詐風(fēng)險為p(vi)=d(ipj);
(53)判斷d(ipi),如果d(ipi)>=x,則與ipi相關(guān)聯(lián)的群體為高風(fēng)險疑似欺詐群體,進(jìn)行深入調(diào)查和認(rèn)定。否則,與ipi相關(guān)聯(lián)的群體不是高風(fēng)險疑似欺詐群體
其中,ipi為第i個頂點(diǎn)的ip地址,ipj為與vi關(guān)聯(lián)的ip地址,p(vi)越大欺詐風(fēng)險越高,x為用戶定義風(fēng)險群體劃分閾值。
所述的一種基于復(fù)雜社交關(guān)系網(wǎng)絡(luò)的反欺詐和信用風(fēng)險預(yù)測方法,步驟5中用戶vj欺詐風(fēng)險的更新公式為:
rj=rj+1/d(vj,vi)
其中,l為vj到vi的一條聯(lián)通路徑,l的長度為vj到vi的連通路徑中,各條邊的權(quán)重和sum(wk),wk屬于l上各條邊的權(quán)重,k為連通路徑l中的每條邊的關(guān)系類型,d(vj,vi)定義為vj到vi之間的最短連通路徑的距離,rj為用戶vj原有的欺詐風(fēng)險值,未識別出任何欺詐客戶初始網(wǎng)絡(luò)中,用戶vj的欺詐風(fēng)險rj=0;
l、d(vj,vi)的計算公式為:
l=sum(wk)
d(vj,vi)=min(l)
所述的一種基于復(fù)雜社交關(guān)系網(wǎng)絡(luò)的反欺詐和信用風(fēng)險預(yù)測方法,
步驟6中,信用風(fēng)險值的更新公式為:
pj=pj+1/d(vj,vi)
其中,l為vj到vi的一條聯(lián)通路徑,l的長度為vj到vi的連通路徑中,各條邊的權(quán)重和sum(wk),wk屬于l上各條邊的權(quán)重,k為連通路徑l中的每條邊的關(guān)系類型,d(vj,vi)定義為vj到vi之間的最短連通路徑的距離,pj為客戶vj原有的信用風(fēng)險值,未識別或未計算出任何客戶違約風(fēng)險的初始網(wǎng)絡(luò)中,用戶vj的信用風(fēng)險值pj=0;
l、d(vj,vi)的計算公式為:l=sum(wk)
d(vj,vi)=min(l)
所述的一種基于復(fù)雜社交關(guān)系網(wǎng)絡(luò)的反欺詐和信用風(fēng)險預(yù)測方法,復(fù)雜關(guān)系網(wǎng)絡(luò)可視化步驟為:
(1)對步驟2中提取的頂點(diǎn)進(jìn)行分類及屬性定義,按照頂點(diǎn)的不同類型,將頂點(diǎn)進(jìn)行分類,每一種類型的頂點(diǎn)vi,定義其展示的屬性;
(2)對步驟2中提取的關(guān)系進(jìn)行分類及屬性定義,按照關(guān)系的不同類型,將關(guān)系進(jìn)行分類,為每一種類型的關(guān)系ei,定義其展示的屬性名稱;
(3)建立關(guān)系深度、關(guān)系類型、搜索方向調(diào)節(jié)器,按照關(guān)系深度、關(guān)系類型、搜索方向等參數(shù)選擇來展現(xiàn)可視化界面;
(4)交互式可視化,當(dāng)設(shè)備懸停在頂點(diǎn)時,展現(xiàn)頂點(diǎn)屬性信息,實(shí)現(xiàn)交互式可視化。
所述的一種基于復(fù)雜社交關(guān)系網(wǎng)絡(luò)的反欺詐和信用風(fēng)險預(yù)測方法,步驟a中的屬性包括顏色屬性、形狀屬性和大小屬性。綜上所述,由于采用了上述技術(shù)方案,本發(fā)明的有益效果是:
通過采用上述技術(shù)方案,本項目對人與人之間的復(fù)雜社交關(guān)系進(jìn)行整合并建立數(shù)學(xué)模型,并設(shè)計了這些方法在客戶欺詐風(fēng)險識別和信用風(fēng)險預(yù)測上的應(yīng)用方案,最終提升了欺詐識別率和信用風(fēng)險預(yù)測準(zhǔn)確率。
此外,采用上述技術(shù)方案的反欺詐和信用風(fēng)險預(yù)測方法,能夠?qū)⑸缃痪W(wǎng)絡(luò)中的用戶屬性、用戶之間的關(guān)系、用戶欺詐概率和用戶信用風(fēng)險等以可視化的形式展現(xiàn)出來,金融機(jī)構(gòu)等可以輕松方便地獲取用戶的相關(guān)信息。
此方案通過將復(fù)雜社交網(wǎng)絡(luò)中的個體抽象為頂點(diǎn),將社交網(wǎng)絡(luò)中的各個個體之間的每一種關(guān)系抽象為邊,并根據(jù)關(guān)系強(qiáng)弱對每條邊賦予權(quán)重,并建立鄰接矩陣,然后通過對用戶對應(yīng)頂點(diǎn)的關(guān)系聚集來定義欺詐群體。在識別出欺詐群體中的欺詐者或違約者后,重新計算社交網(wǎng)絡(luò)中的其他用戶的欺詐風(fēng)險或者信用風(fēng)險。最后,通過可視化的方法將用戶的相關(guān)信息展現(xiàn)出來。
附圖說明
圖1是本發(fā)明一種基于復(fù)雜社交網(wǎng)絡(luò)的反欺詐和信用風(fēng)險預(yù)測方法的流程圖;
圖2是本發(fā)明不同頂點(diǎn)和關(guān)系類型可視化示意圖;
圖3關(guān)系深度、關(guān)系類型、搜索方向調(diào)節(jié)器結(jié)構(gòu)圖;
圖4衛(wèi)xx一度關(guān)系展示圖;
圖5衛(wèi)xx五度關(guān)系展示圖;
圖6衛(wèi)xxip擴(kuò)展關(guān)系可視化展示圖;
圖7鼠標(biāo)懸停展現(xiàn)該頂點(diǎn)客戶屬性展示圖。
具體實(shí)施方式
本說明書中公開的所有特征,除了互相排斥的特征和/或步驟以外,均可以以任何方式組合。如圖1所示,
一種基于復(fù)雜社交關(guān)系網(wǎng)絡(luò)的反欺詐和信用風(fēng)險預(yù)測方法,包括:
步驟1,獲取個人用戶信息以每個個人用戶為一個個體,社交網(wǎng)絡(luò)關(guān)系中總共包括n個個體;
步驟2,整合關(guān)系數(shù)據(jù):用圖論的方法,將步驟1中n個個體中的每個個體抽象為一個頂點(diǎn),將n個個體中,每兩個個體之間的每種關(guān)系抽象為一條邊;
步驟3,建立關(guān)系模型:根據(jù)整合的關(guān)系數(shù)據(jù)建立出關(guān)系模型鄰接矩陣dij,鄰接矩陣的頂點(diǎn)為n個,鄰接矩陣的維度為n*n;
步驟4,判斷是否有已知欺詐者,如果沒有發(fā)現(xiàn)欺詐者,執(zhí)行步驟5,否則,執(zhí)行步驟6;
步驟5,識別欺詐群體:在已建立的關(guān)系模型基礎(chǔ)上,通過關(guān)系聚集來識別欺詐群體,即根據(jù)個體關(guān)系計算頂點(diǎn)的度,根據(jù)所計算的度定義欺詐群體;
步驟6,欺詐傳染識別,若發(fā)現(xiàn)欺詐者vi,則更新關(guān)系網(wǎng)絡(luò)中其他用戶vj的欺詐風(fēng)險;
步驟7,信用風(fēng)險預(yù)測,若發(fā)現(xiàn)用戶vi的違約,計算用戶vi的違約概率,并根據(jù)用戶vi的違約概率重新計算關(guān)系網(wǎng)絡(luò)中其他用戶vj的違約概率。
所述的一種基于復(fù)雜社交關(guān)系網(wǎng)絡(luò)的反欺詐和信用風(fēng)險預(yù)測方法,步驟2中頂點(diǎn)的數(shù)據(jù)集包括頂點(diǎn)編號、頂點(diǎn)屬性。
所述的一種基于復(fù)雜社交關(guān)系網(wǎng)絡(luò)的反欺詐和信用風(fēng)險預(yù)測方法,步驟2中,頂點(diǎn)屬性包括個人姓名、性別、工作單位、畢業(yè)院校。
所述的一種基于復(fù)雜社交關(guān)系網(wǎng)絡(luò)的反欺詐和信用風(fēng)險預(yù)測方法,步驟2中由每種關(guān)系抽象出的邊中包括關(guān)系起點(diǎn)編號,關(guān)系重點(diǎn)編號,關(guān)系類型k,關(guān)系類型k的關(guān)系權(quán)重wk,關(guān)系權(quán)重越強(qiáng)關(guān)系權(quán)重wk越小;
步驟3中,鄰接矩陣的元素計算公式為:
dij=sum(wk)
其中,k為頂點(diǎn)i到頂點(diǎn)j的關(guān)系類型。
所述的一種基于復(fù)雜社交關(guān)系網(wǎng)絡(luò)的反欺詐和信用風(fēng)險預(yù)測方法,通過ip關(guān)系聚集來識別欺詐群體,通過ip關(guān)系聚集來識別欺詐群體的具體步驟如下:
(50)以ipi及社交網(wǎng)絡(luò)關(guān)系中每個個體為頂點(diǎn),每個個體之間、每個個體與ip之間的關(guān)系作為邊,建立關(guān)系模型鄰接矩陣dij;
(51)計算頂點(diǎn)ipi的度d(ipi);
(52)定義用戶vi的ip聚集欺詐風(fēng)險為p(vi)=d(ipj);
(53)判斷d(ipi),如果d(ipi)>=x,則與ipi相關(guān)聯(lián)的群體為高風(fēng)險疑似欺詐群體,對判斷為高風(fēng)險疑似欺詐群體進(jìn)行深入調(diào)查和認(rèn)定。否則,與ipi相關(guān)聯(lián)的群體不是高風(fēng)險疑似欺詐群體;
其中,ipi為第i個頂點(diǎn)的ip地址,ipj為與vi關(guān)聯(lián)的ip地址,p(vi)越大欺詐風(fēng)險越高,x為用戶定義風(fēng)險群體劃分閾值。
所述的一種基于復(fù)雜社交關(guān)系網(wǎng)絡(luò)的反欺詐和信用風(fēng)險預(yù)測方法,步驟5中用戶vj欺詐風(fēng)險的更新公式為:
rj=rj+1/d(vj,vi)
其中,l為vj到vi的一條聯(lián)通路徑,l的長度為vj到vi的連通路徑中,各條邊的權(quán)重和sum(wk),wk屬于l上各條邊的權(quán)重,k為連通路徑l中的每條邊的關(guān)系類型,d(vj,vi)定義為vj到vi之間的最短連通路徑的距離,rj為用戶vj原有的欺詐風(fēng)險值,未識別出任何欺詐客戶初始網(wǎng)絡(luò)中,用戶vj的欺詐風(fēng)險rj=0;
l、d(vj,vi)的計算公式為:
l=sum(wk)
d(vj,vi)=min(l)
所述的一種基于復(fù)雜社交關(guān)系網(wǎng)絡(luò)的反欺詐和信用風(fēng)險預(yù)測方法,
步驟6中,信用風(fēng)險值的更新公式為:
pj=pj+1/d(vj,vi)
其中,l為vj到vi的一條聯(lián)通路徑,l的長度為vj到vi的連通路徑中,各條邊的權(quán)重和sum(wk),wk屬于l上各條邊的權(quán)重,k為連通路徑l中的每條邊的關(guān)系類型,d(vj,vi)定義為vj到vi之間的最短連通路徑的距離,pj為客戶vj原有的信用風(fēng)險值,未識別或未計算出任何客戶違約風(fēng)險的初始網(wǎng)絡(luò)中,用戶vj的信用風(fēng)險值pj=0;
l、d(vj,vi)的計算公式為:
l=sum(wk)
d(vj,vi)=min(l)
優(yōu)選地,本方案同時還能夠?qū)崿F(xiàn)社交網(wǎng)絡(luò)的可視化,該社交網(wǎng)絡(luò)的可視化采用現(xiàn)有的編程技術(shù)實(shí)現(xiàn)。所述的一種基于復(fù)雜社交關(guān)系網(wǎng)絡(luò)的反欺詐和信用風(fēng)險預(yù)測方法,復(fù)雜關(guān)系網(wǎng)絡(luò)可視化步驟為:
(1)對步驟2中提取的頂點(diǎn)進(jìn)行分類及屬性定義,按照頂點(diǎn)的不同類型,將頂點(diǎn)進(jìn)行分類,每一種類型的頂點(diǎn)vi,定義其展示的屬性,這些屬性可設(shè)置為我們關(guān)心的屬性,如對貸款客戶,可展示其貸款時間、審批結(jié)果、額度、提款次數(shù)、提款金額等;
(2)對步驟2中提取的關(guān)系進(jìn)行分類及屬性定義,即按照關(guān)系的不同類型,將關(guān)系進(jìn)行分類,為每一種類型的關(guān)系ei,定義其展示的屬性名稱;
(3)建立關(guān)系深度、關(guān)系類型、搜索方向調(diào)節(jié)器,按照關(guān)系深度、關(guān)系類型、搜索方向等參數(shù)選擇來展現(xiàn)可視化;關(guān)系深度、關(guān)系類型、搜索方向調(diào)節(jié)器如圖3所示。
(4)交互式可視化,當(dāng)設(shè)備懸停在頂點(diǎn)時,展現(xiàn)頂點(diǎn)屬性信息,實(shí)現(xiàn)交互式可視化界面。
所述的一種基于復(fù)雜社交關(guān)系網(wǎng)絡(luò)的反欺詐和信用風(fēng)險預(yù)測方法,步驟a中的屬性包括顏色屬性、形狀屬性和大小屬性。
在搜索時,能夠?qū)λ阉鞯膶ο筮M(jìn)行選擇,也能夠選擇單向或者雙向關(guān)系的展現(xiàn),同時通過關(guān)系類型調(diào)節(jié)器,還能夠?qū)︼@示的用戶關(guān)系距離進(jìn)行調(diào)整。
如圖2所示,為用戶交互式可視化示意圖,當(dāng)將鼠標(biāo)或等懸停在用戶對應(yīng)的圖標(biāo)上時,用戶的信息就會對應(yīng)顯示出來,具體可用java或r等程序軟件實(shí)現(xiàn)。
如圖3所示,關(guān)系深度、關(guān)系類型、搜索方向調(diào)節(jié)器上設(shè)置深度調(diào)節(jié)欄、關(guān)系類型擴(kuò)展搜索設(shè)置欄、搜索方向設(shè)置欄。其中設(shè)置最大搜索深度為10度,關(guān)系類型擴(kuò)展搜索設(shè)置欄包括人、ip、同時、校友,可以進(jìn)行多項選擇。搜索方向設(shè)置欄包括單向和多項搜索選項,設(shè)置時,可以選擇其中之一。
如圖4,當(dāng)深度調(diào)節(jié)欄設(shè)置為1,關(guān)系類型擴(kuò)展搜索設(shè)置欄選擇“人”、搜索方向設(shè)置欄選擇“單向”時,衛(wèi)xx的社交關(guān)系展示如圖4的所示。
如圖5,當(dāng)深度調(diào)節(jié)欄設(shè)置為5,關(guān)系類型擴(kuò)展搜索設(shè)置欄選擇“人”、搜索方向設(shè)置欄選擇“單向”時,衛(wèi)xx的社交關(guān)系展示如圖4的所示,此時,可顯示與衛(wèi)xx最遠(yuǎn)距離為5的內(nèi)的人關(guān)系網(wǎng)絡(luò)。
如圖6所示,當(dāng)深度調(diào)節(jié)欄設(shè)置為2,關(guān)系類型擴(kuò)展搜索設(shè)置欄選擇“ip”、搜索方向設(shè)置欄選擇“單向”時,可顯示出所有與衛(wèi)xx的ip地址關(guān)系的人。
如圖7所示的關(guān)系網(wǎng)絡(luò)中,當(dāng)鼠標(biāo)懸停在王xx對應(yīng)的圖標(biāo)上時,則會彈出一個消息框,顯示出王xx的相關(guān)信用信息。