本發(fā)明涉及計算機(jī)應(yīng)用技術(shù)領(lǐng)域,特別涉及一種基于主成分分析算法的醫(yī)保欺詐識別方法。
背景技術(shù):
隨著社會經(jīng)濟(jì)的發(fā)展,國家為了給老百姓提供更好的醫(yī)保環(huán)境,醫(yī)保政策越來越好。然而,一些人通過各種各樣的手段騙取醫(yī)保,導(dǎo)致醫(yī)?;鸩缓侠砹魇?。另一方面,由于經(jīng)辦機(jī)構(gòu)的監(jiān)管模式主要以人工審核監(jiān)管為主,多采用基于簡單規(guī)則的數(shù)據(jù)篩選方法,從醫(yī)療基金收支監(jiān)測、簡單指標(biāo)預(yù)警等方面開展基金風(fēng)險管理工作,不僅速度慢,人力成本高,而且難以保證對欺詐行為的識別準(zhǔn)確度。
在現(xiàn)有的技術(shù)中,專利(申請?zhí)枺?01510760477.4;名稱:一種醫(yī)療保險異常數(shù)據(jù)在線智能檢測方法)提出,對已標(biāo)注為異常的醫(yī)保數(shù)據(jù)樣本進(jìn)行特征學(xué)習(xí),然后運(yùn)用機(jī)器學(xué)習(xí)算法進(jìn)行在線檢查,然而如何確定目標(biāo)樣本是否異常,該專利并未涉及。
此外,專利(申請?zhí)枺?01410598935.4;名稱:一種基于數(shù)據(jù)挖掘的醫(yī)保欺詐行為的檢測方法)采取對醫(yī)保參保人的信息記錄進(jìn)行分位數(shù)打分的方法確定異常級別,并將多種異常類別簡單加總確定總異常分值。該方法把連續(xù)性變量人為分段,損失了數(shù)據(jù)信息,而且忽略了各變量間可能存在的相關(guān)性,使總異常分值失去準(zhǔn)確性。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的旨在至少解決所述技術(shù)缺陷之一。
為此,本發(fā)明的目的在于提出一種基于主成分分析算法的醫(yī)保欺詐識別方法。
為了實(shí)現(xiàn)上述目的,本發(fā)明的實(shí)施例提供一種基于主成分分析算法的醫(yī)保欺詐識別方法,包括如下步驟:
步驟S1,獲取醫(yī)?;A(chǔ)數(shù)據(jù),生成醫(yī)保結(jié)構(gòu)化數(shù)據(jù)集X;
步驟S2,對所述醫(yī)保結(jié)構(gòu)化數(shù)據(jù)集X中的各項數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,生成標(biāo)準(zhǔn)化矩陣Z;
步驟S3,計算所述標(biāo)準(zhǔn)化矩陣Z的協(xié)方差矩陣R,并求解樣本協(xié)方差矩陣R的特征方程,確定主成分;
步驟S4,將標(biāo)準(zhǔn)化后的指標(biāo)變量轉(zhuǎn)換為主成分得分;
步驟S5,分別計算每個主成分得分的均值和標(biāo)準(zhǔn)差,根據(jù)切比雪夫定律計算每個主成分維度下的異常閾值;
步驟S6,以每個主成分為坐標(biāo),制作二維空間散點(diǎn)圖,將每個散點(diǎn)代表實(shí)際醫(yī)保賬戶,判斷大于步驟S5中異常閾值的醫(yī)保報銷賬號視為異常帳號,將異常帳號以可視化形式進(jìn)行呈現(xiàn)。
進(jìn)一步,在所述步驟S1中,所述醫(yī)保基礎(chǔ)數(shù)據(jù),包括:醫(yī)?;饚ぬ?、每個帳號基金報銷總額、門診天數(shù)、基金報銷比例和門診花費(fèi)總額。
進(jìn)一步,在所述步驟S1中,計算每個醫(yī)?;鹳~號每天門診花費(fèi)總額和基金報銷總額,進(jìn)而計算每年門診報銷總天數(shù)、基金報銷額和基金報銷比例,生成醫(yī)保結(jié)構(gòu)化數(shù)據(jù)集X。
進(jìn)一步,在所述步驟S2中,
采集樣本向量x=(X1,X2,X3)T),n個樣品xi=(xi1,xi2,xi3)T,i=1,2,…,n,進(jìn)行如下標(biāo)準(zhǔn)化變換:
其中p為特征變量個數(shù)得到標(biāo)準(zhǔn)化矩陣Z。
進(jìn)一步,在所述步驟S3中,所述協(xié)方差矩陣R為:
其中,k為樣本數(shù)。
進(jìn)一步,在所述步驟S3中,所述求解樣本協(xié)方差矩陣R的特征方程,確定主成分,包括:
計算樣本協(xié)方差矩陣R的特征方程|R-λIp|=0,得到p個特征根,確定主成分;根據(jù)λ為特征值、m為待選主成分?jǐn)?shù)、p為變量數(shù),當(dāng)取2個主成分PC1和PC2時,對每個λj,計算方程組Rb=λjb,得到單位特征向量其中,j=1,2。
進(jìn)一步,在所述步驟S4中,所述將標(biāo)準(zhǔn)化后的指標(biāo)變量轉(zhuǎn)換為主成分得分,包括:
其中,Uij為每個樣本主成分得分,各樣本主成分總得分=U1+U2。
進(jìn)一步,在所述步驟S5中,所述根據(jù)切比雪夫定律計算每個主成分維度下的異常閾值,包括:
max=mean+4*std,
其中,max為異常閾值,mean為主成分得分的均值,std為主成分得分的標(biāo)準(zhǔn)差。
根據(jù)本發(fā)明實(shí)施例的基于主成分分析算法的醫(yī)保欺詐識別方法,對醫(yī)保數(shù)據(jù)進(jìn)行清洗、整理,采取主成分分析方法,對與欺詐行為相關(guān)的變量進(jìn)行特征降維,根據(jù)統(tǒng)計學(xué)方法計算異常閾值,通過數(shù)據(jù)可視化方法實(shí)現(xiàn)醫(yī)保欺詐高風(fēng)險識別。本發(fā)明克服了現(xiàn)有方法的不足,基于醫(yī)保基金持卡人一年中發(fā)生門診報銷行為的天數(shù)、報銷總金額以及報銷金額占總費(fèi)用中的比例,建立門診報銷異常行為識別模型,檢索涉嫌欺詐的高風(fēng)險卡號。
本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。
附圖說明
本發(fā)明的上述和/或附加的方面和優(yōu)點(diǎn)從結(jié)合下面附圖對實(shí)施例的描述中將變得明顯和容易理解,其中:
圖1為根據(jù)本發(fā)明實(shí)施例的基于主成分分析算法的醫(yī)保欺詐識別方法的流程圖;
圖2為根據(jù)本發(fā)明實(shí)施例的某地區(qū)年度醫(yī)保數(shù)據(jù)的示意圖;
圖3為根據(jù)本發(fā)明實(shí)施例的特征變量的碎石圖;
圖4為根據(jù)本發(fā)明實(shí)施例的樣本得分的示意圖;
圖5為根據(jù)本發(fā)明實(shí)施例的醫(yī)保欺詐高風(fēng)險帳號的示意圖。
具體實(shí)施方式
下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
本發(fā)明公開了一種基于主成分分析算法的醫(yī)保欺詐識別方法,該方法可以實(shí)現(xiàn)在醫(yī)療保險數(shù)據(jù)的基礎(chǔ)上,快速、準(zhǔn)確識別醫(yī)保欺詐行為。
如圖1所示,本發(fā)明實(shí)施例的基于主成分分析算法的醫(yī)保欺詐識別方法,包括如下步驟:
步驟S1,獲取醫(yī)?;A(chǔ)數(shù)據(jù),生成醫(yī)保結(jié)構(gòu)化數(shù)據(jù)集X。其中,醫(yī)?;A(chǔ)數(shù)據(jù),包括:醫(yī)?;饚ぬ?、每個帳號基金報銷總額、門診天數(shù)、基金報銷比例和門診花費(fèi)總額。
參考圖2,計算每個醫(yī)?;鹳~號每天門診花費(fèi)總額和基金報銷總額,進(jìn)而計算每年門診報銷總天數(shù)、基金報銷額和基金報銷比例,生成醫(yī)保結(jié)構(gòu)化數(shù)據(jù)集X。
步驟S2,對醫(yī)保結(jié)構(gòu)化數(shù)據(jù)集X中的各項數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,生成標(biāo)準(zhǔn)化矩陣Z。
具體的,采集樣本向量x=(X1,X2,X3)T),n個樣品xi=(xi1,xi2,xi3)T,i=1,2,…,n,進(jìn)行如下標(biāo)準(zhǔn)化變換:
其中p為特征變量個數(shù),得到標(biāo)準(zhǔn)化矩陣Z。
步驟S3,計算標(biāo)準(zhǔn)化矩陣Z的協(xié)方差矩陣R,并求解樣本協(xié)方差矩陣R的特征方程,確定主成分。
首先,計算協(xié)方差矩陣R為:
其中,k為樣本數(shù)。
然后,求解樣本協(xié)方差矩陣R的特征方程,確定主成分,包括:
計算樣本協(xié)方差矩陣R的特征方程|R-λIp|=0,得到p個特征根,確定主成分;根據(jù)λ為特征值、m為待選主成分?jǐn)?shù)、p為變量數(shù),當(dāng)取2個主成分PC1和PC2時,信息的利用率達(dá)85%以上。對每個λj,計算方程組Rb=λjb,得到單位特征向量其中,j=1,2。
步驟S4,將標(biāo)準(zhǔn)化后的指標(biāo)變量轉(zhuǎn)換為主成分得分。
在本步驟中,將標(biāo)準(zhǔn)化后的指標(biāo)變量轉(zhuǎn)換為主成分得分,包括:
其中,Uij為每個樣本主成分得分,各樣本主成分總得分=U1+U2。
步驟S5,分別計算每個主成分得分U1、U2的均值和標(biāo)準(zhǔn)差,根據(jù)切比雪夫定律計算每個主成分維度下的異常閾值。
在本步驟中,根據(jù)切比雪夫定律計算每個主成分維度下的異常閾值,包括:
max=mean+4*std,
其中,max為異常閾值,mean為主成分得分的均值,std為主成分得分的標(biāo)準(zhǔn)差。
以2個主成分PC1和PC2為例,分別計算主成分得分U1、U2的均值(mean1、mean2)和標(biāo)準(zhǔn)差(std1、std2),根據(jù)切比雪夫定律計算PC1維度的異常閾值max1=mean1+4*std1、PC2維度的異常閾值max2=mean2+4*std2。
步驟S6,以每個主成分為坐標(biāo),制作二維空間散點(diǎn)圖,將每個散點(diǎn)代表實(shí)際醫(yī)保賬戶,判斷大于步驟S5中異常閾值的醫(yī)保報銷賬號視為異常帳號,將異常帳號以可視化形式進(jìn)行呈現(xiàn)。
具體地,以PC1、PC2為坐標(biāo),制作二維空間散點(diǎn)圖,每個散點(diǎn)代表實(shí)際醫(yī)保賬戶,大于步驟S5中計算出的max1、max2的醫(yī)保報銷賬號視為異常帳號。并且,距離異常閾值越遠(yuǎn),則異常程度越高。
基金管理單位可通過上述方式提取異常樣本作為欺詐高風(fēng)險賬號,采取實(shí)地查閱病例、詢問當(dāng)事人等方法開展后續(xù)調(diào)查取證工作。
下面結(jié)合圖3至圖5對本發(fā)明實(shí)施例的基于主成分分析算法的醫(yī)保欺詐識別方法進(jìn)行說明。
(1)采集某地區(qū)年度醫(yī)保數(shù)據(jù),以卡號id作為唯一標(biāo)識提取相關(guān)變量,如圖2所示。
(2)主成分分析建模,參考圖3所示的特征變量碎石圖,選取2個主成分(PC1,PC2)可代表85%數(shù)據(jù)樣本信息。
(3)計算各個樣本在主成分PC1、PC2上的得分,以及總異常得分,如圖4所示。
(4)通過分析主成分與原變量特征關(guān)系,PC1代表報銷基金總額(94%)、門診報銷天數(shù)(70%),PC2代表基金報銷比例(99%)。
(5)如圖5所示,以PC1、PC2為坐標(biāo),制作散點(diǎn)圖,左上象限起,順時針依次為第I至第IV象限。以均值加4倍標(biāo)準(zhǔn)差作為異常閾值,出現(xiàn)在第Ⅱ象限(右上)的樣本可視為醫(yī)保欺詐高風(fēng)險賬號。
根據(jù)本發(fā)明實(shí)施例的基于主成分分析算法的醫(yī)保欺詐識別方法,對醫(yī)保數(shù)據(jù)進(jìn)行清洗、整理,采取主成分分析方法,對與欺詐行為相關(guān)的變量進(jìn)行特征降維,根據(jù)統(tǒng)計學(xué)方法計算異常閾值,通過數(shù)據(jù)可視化方法實(shí)現(xiàn)醫(yī)保欺詐高風(fēng)險識別。本發(fā)明克服了現(xiàn)有方法的不足,基于醫(yī)?;鸪挚ㄈ艘荒曛邪l(fā)生門診報銷行為的天數(shù)、報銷總金額以及報銷金額占總費(fèi)用中的比例,建立門診報銷異常行為識別模型,檢索涉嫌欺詐的高風(fēng)險卡號。
在本說明書的描述中,參考術(shù)語“一個實(shí)施例”、“一些實(shí)施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本發(fā)明的至少一個實(shí)施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不一定指的是相同的實(shí)施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可以在任何的一個或多個實(shí)施例或示例中以合適的方式結(jié)合。
盡管上面已經(jīng)示出和描述了本發(fā)明的實(shí)施例,可以理解的是,上述實(shí)施例是示例性的,不能理解為對本發(fā)明的限制,本領(lǐng)域的普通技術(shù)人員在不脫離本發(fā)明的原理和宗旨的情況下在本發(fā)明的范圍內(nèi)可以對上述實(shí)施例進(jìn)行變化、修改、替換和變型。本發(fā)明的范圍由所附權(quán)利要求及其等同限定。