1.一種基于主成分分析算法的醫(yī)保欺詐識(shí)別方法,其特征在于,包括如下步驟:
步驟S1,獲取醫(yī)?;A(chǔ)數(shù)據(jù),生成醫(yī)保結(jié)構(gòu)化數(shù)據(jù)集X;
步驟S2,對(duì)所述醫(yī)保結(jié)構(gòu)化數(shù)據(jù)集X中的各項(xiàng)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,生成標(biāo)準(zhǔn)化矩陣Z;
步驟S3,計(jì)算所述標(biāo)準(zhǔn)化矩陣Z的協(xié)方差矩陣R,并求解樣本協(xié)方差矩陣R的特征方程,確定主成分;
步驟S4,將標(biāo)準(zhǔn)化后的指標(biāo)變量轉(zhuǎn)換為主成分得分;
步驟S5,分別計(jì)算每個(gè)主成分得分的均值和標(biāo)準(zhǔn)差,根據(jù)切比雪夫定律計(jì)算每個(gè)主成分維度下的異常閾值;
步驟S6,以每個(gè)主成分為坐標(biāo),制作二維空間散點(diǎn)圖,將每個(gè)散點(diǎn)代表實(shí)際醫(yī)保賬戶,判斷大于步驟S5中異常閾值的醫(yī)保報(bào)銷賬號(hào)視為異常帳號(hào),將異常帳號(hào)以可視化形式進(jìn)行呈現(xiàn)。
2.如權(quán)利要求1所述的基于主成分分析算法的醫(yī)保欺詐識(shí)別方法,其特征在于,在所述步驟S1中,所述醫(yī)?;A(chǔ)數(shù)據(jù),包括:醫(yī)保基金帳號(hào)、每個(gè)帳號(hào)基金報(bào)銷總額、門診天數(shù)、基金報(bào)銷比例和門診花費(fèi)總額。
3.如權(quán)利要求2所述的基于主成分分析算法的醫(yī)保欺詐識(shí)別方法,其特征在于,在所述步驟S1中,計(jì)算每個(gè)醫(yī)?;鹳~號(hào)每天門診花費(fèi)總額和基金報(bào)銷總額,進(jìn)而計(jì)算每年門診報(bào)銷總天數(shù)、基金報(bào)銷額和基金報(bào)銷比例,生成醫(yī)保結(jié)構(gòu)化數(shù)據(jù)集X。
4.如權(quán)利要求1所述的基于主成分分析算法的醫(yī)保欺詐識(shí)別方法,其特征在于,在所述步驟S2中,
采集樣本向量x=(X1,X2,X3)T),n個(gè)樣品xi=(xi1,xi2,xi3)T,i=1,2,…,n,進(jìn)行如下標(biāo)準(zhǔn)化變換:
其中p為特征變量個(gè)數(shù),得到標(biāo)準(zhǔn)化矩陣Z。
5.如權(quán)利要求1所述的基于主成分分析算法的醫(yī)保欺詐識(shí)別方法,其特征在于,在所述步驟S3中,所述協(xié)方差矩陣R為:
其中,k為樣本數(shù)。
6.如權(quán)利要求5所述的基于主成分分析算法的醫(yī)保欺詐識(shí)別方法,其特征在于,在所述步驟S3中,所述求解樣本協(xié)方差R的特征方程,確定主成分,包括:
計(jì)算樣本協(xié)方差矩陣R的特征方程|R-λIp|=0,得到p個(gè)特征根,確定主成分;根據(jù)其中,λ為特征值、m為待選主成分?jǐn)?shù)、p為變量數(shù),當(dāng)取2個(gè)主成分PC1和PC2時(shí),對(duì)每個(gè)λj,計(jì)算方程組Rb=λjb,得到單位特征向量其中,j=1,2。
7.如權(quán)利要求5所述的基于主成分分析算法的醫(yī)保欺詐識(shí)別方法,其特征在于,在所述步驟S4中,所述將標(biāo)準(zhǔn)化后的指標(biāo)變量轉(zhuǎn)換為主成分得分,包括:
其中,Uij為每個(gè)樣本主成分得分,各樣本主成分總得分=U1+U2。
8.如權(quán)利要求1所述的基于主成分分析算法的醫(yī)保欺詐識(shí)別方法,其特征在于,在所述步驟S5中,所述根據(jù)切比雪夫定律計(jì)算每個(gè)主成分維度下的異常閾值,包括:
max=mean+4*std,
其中,max為異常閾值,mean為主成分得分的均值,std為主成分得分的標(biāo)準(zhǔn)差。