本發(fā)明涉及診費(fèi)異常檢測技術(shù)領(lǐng)域,尤其涉及基于大數(shù)據(jù)分析建立醫(yī)療診費(fèi)點(diǎn)陣模型的方法。
背景技術(shù):
如今民眾對醫(yī)療體系多有非議,尤其是亂檢查、亂開藥等問題。醫(yī)生亂檢查、亂開藥不僅傷了民眾的錢包,浪費(fèi)了我國本就有限的醫(yī)療資源,也是對民眾健康的不負(fù)責(zé)任。對醫(yī)療費(fèi)用有效、及時、全面的監(jiān)控是患者、醫(yī)院、管理部門關(guān)心的熱點(diǎn)問題,直接影響醫(yī)療質(zhì)量和醫(yī)療健康的發(fā)展,及時有效全面地監(jiān)控管理,有助于完善監(jiān)督機(jī)制,對建立有效的醫(yī)院管理機(jī)制,提高醫(yī)院競爭力,起到推動作用。對于醫(yī)療費(fèi)用的監(jiān)控是研究學(xué)者們普遍關(guān)心和重視的問題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明旨在提供基于大數(shù)據(jù)分析建立醫(yī)療診費(fèi)點(diǎn)陣模型的方法,可挖掘找出罕見數(shù)據(jù),找出異常收費(fèi)項目點(diǎn)。
為實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:
基于大數(shù)據(jù)分析建立醫(yī)療診費(fèi)點(diǎn)陣模型的方法,包括以下步驟:
步驟1,獲取費(fèi)用原始表中的數(shù)據(jù);患者ID、各收費(fèi)項目,以及收費(fèi)項目金額的記錄值;
步驟2,數(shù)據(jù)預(yù)處理:將費(fèi)用原始表中各收費(fèi)項目的金額的記錄值轉(zhuǎn)化為量化值,然后對同一個患者的相同收費(fèi)項目的量化值進(jìn)行求和計算,并將處理后的數(shù)據(jù)存儲在量化值表中;
步驟3,采用基于距離的多指標(biāo)的異常數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)預(yù)處理后的數(shù)據(jù)進(jìn)行聚類分析,挖掘出數(shù)據(jù)記錄中的躁點(diǎn)。
進(jìn)一步的,還包括步驟4,利用echart的散點(diǎn)圖控件,將挖掘出來的躁點(diǎn)相關(guān)聯(lián),展示出診療費(fèi)用中的異常數(shù)據(jù)。
進(jìn)一步的,所述步驟2中采用以下方式將量化值轉(zhuǎn)換為效用值,假設(shè)量化值表中有n條記錄,第t個字段的各個記錄值為:Xst,其中s=1,2,…,n;t=1,2,…,m;n為行數(shù),m為列數(shù);
方式1:越大越好型,記Xtmax=max{Xst},Xtmin=min{Xst),其中1≤s≤n,將Xst轉(zhuǎn)化為Xst~,將最大值轉(zhuǎn)化為效用值1,最小值轉(zhuǎn)化為效用值0;
方式2:越小越好型,則將最小值轉(zhuǎn)化為效用值1,最大值轉(zhuǎn)化為效用值0;
方式3:適中型,記最佳適中值為X0。
則此時靠近適中值的數(shù)據(jù)的效用值較大,接近于1,遠(yuǎn)離的數(shù)據(jù)的效用值較小,接近于0。
進(jìn)一步的,所述步驟3具體包括以下步驟:
步驟3.1,采用公式(1)計算各效用點(diǎn)之間的距離:
式(1)中,Dk為效用點(diǎn)之間的距離,Xpi為第p行第i列的效用值,Xqi為第q行第i列的效用值;1<<p<<n,1<<q<<n;n為行數(shù),m為列數(shù);
步驟3.2,對于效用點(diǎn)p,所有滿足Dk<δ的點(diǎn)構(gòu)成效用點(diǎn)p的δ領(lǐng)域,δ為給定的一個正數(shù);
步驟3.3,統(tǒng)計Np,Np為所述領(lǐng)域內(nèi)效用點(diǎn)的個數(shù);
步驟3.4,若Np<N0,則該效用點(diǎn)p為在距離意義下的異常點(diǎn),N0為給定的臨界值。
進(jìn)一步的,將Dk存儲在距離表中,設(shè)定δ和N0,對距離表中進(jìn)行兩次嵌套掃描,外層掃描從上往下進(jìn)行,內(nèi)層掃描從左至右進(jìn)行,統(tǒng)計每一行Dk<δ的個數(shù),若Np<N0,則該點(diǎn)為異常點(diǎn);否則,進(jìn)入下一循環(huán)。
進(jìn)一步的,k=2,δ=3,N0=5。
本發(fā)明具有以下有益效果:
本發(fā)明針對醫(yī)療診費(fèi)建立模型數(shù)據(jù)分析,通過離群挖掘找出那些和大多數(shù)對象有非常不同的行為的罕見數(shù)據(jù),研究離群點(diǎn)的異常行為,分析各類病癥、人群接受的治療項目、處方用藥及收費(fèi),找出異常收費(fèi)項目點(diǎn),形成的費(fèi)用異常散點(diǎn)圖可以為醫(yī)院決策層管理醫(yī)生臨床用藥和合理收費(fèi)提供參考,從而督促醫(yī)生堅持合理用藥,合理檢查、合理治療、合理收費(fèi)。
附圖說明
圖1是胃脘痛診費(fèi)的量化值表;
圖2是胃脘痛診費(fèi)的效用值表;
圖3是胃脘痛診費(fèi)的距離表;
圖4是費(fèi)用異常檢測散點(diǎn)圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖對本發(fā)明作進(jìn)一步詳細(xì)說明。
大數(shù)據(jù)分析平臺處理框架是構(gòu)建基于大數(shù)據(jù)分析的醫(yī)療診費(fèi)點(diǎn)陣模型的核心功能,建立大數(shù)據(jù)采集平臺,采用云計算模式的醫(yī)療數(shù)據(jù)采集技術(shù),采集80多家醫(yī)院的臨床病歷資料,數(shù)據(jù)采用xml文件形式處理,提供統(tǒng)一、便捷的上傳接口,支持實(shí)時文件處理情況查詢、上傳批次管理以及問題數(shù)據(jù)回滾。同時兼容其他數(shù)據(jù)格式處理和接口方。通過采集數(shù)據(jù),提供臨床數(shù)據(jù)的預(yù)處理ETL(清洗、轉(zhuǎn)換、加載)操作,搭建大數(shù)據(jù)分布式Hadoop集群,分布式存儲和計算;流計算等對數(shù)據(jù)整合后進(jìn)行數(shù)據(jù)挖掘算法的計算,實(shí)現(xiàn)醫(yī)療診費(fèi)點(diǎn)陣應(yīng)用模型。其中數(shù)據(jù)清洗,是一個減少錯誤和不一致性、解決對象識別的過程,包括檢查數(shù)據(jù)一致性,處理無效值和缺失值等;轉(zhuǎn)換是主要進(jìn)行不一致的數(shù)據(jù)轉(zhuǎn)換,包括數(shù)據(jù)格式、誤寫等。轉(zhuǎn)換以保證數(shù)據(jù)的準(zhǔn)確性,轉(zhuǎn)換為目標(biāo)數(shù)據(jù)結(jié)構(gòu),實(shí)現(xiàn)匯總,并裝入數(shù)據(jù)倉庫。
本發(fā)明的技術(shù)流程為:清洗數(shù)據(jù),按病癥、人群進(jìn)行ETL數(shù)據(jù)整合分類;建立模型數(shù)據(jù)分析,基于聚類算法進(jìn)行離群檢測,通過離群挖掘找出那些和大多數(shù)對象有非常不同的行為的罕見數(shù)據(jù),研究離群點(diǎn)的異常行為,分析各類病癥、人群接受的治療項目、處方用藥及收費(fèi),找出異常收費(fèi)項目點(diǎn)。
本發(fā)明公開的基于大數(shù)據(jù)分析建立醫(yī)療診費(fèi)點(diǎn)陣模型的方法,在上述大數(shù)據(jù)分析平臺處理框架的基礎(chǔ)上,采用聚類方法,進(jìn)行離群檢測,尋找異常點(diǎn)。在這基礎(chǔ)上進(jìn)一步利用散點(diǎn)圖的形式,展現(xiàn)醫(yī)生的藥方收費(fèi)情況。
實(shí)施例1
基于大數(shù)據(jù)分析建立醫(yī)療診費(fèi)點(diǎn)陣模型的方法,包括以下步驟:
步驟1,獲取費(fèi)用原始表中的數(shù)據(jù);患者ID、各收費(fèi)項目,以及收費(fèi)項目金額的記錄值;
步驟2,數(shù)據(jù)預(yù)處理:將費(fèi)用原始表中各收費(fèi)項目的金額的記錄值轉(zhuǎn)化為量化值,然后對同一個患者的相同收費(fèi)項目的量化值進(jìn)行求和計算,并將處理后的數(shù)據(jù)存儲在量化值表中。例如,費(fèi)用原始表中的記錄值存在不規(guī)范的現(xiàn)象,如“35元”,所以本步驟將“35元”轉(zhuǎn)化為量化值“35”。
步驟3,采用基于距離的多指標(biāo)的異常數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)預(yù)處理后的數(shù)據(jù)進(jìn)行聚類分析,挖掘出數(shù)據(jù)記錄中的躁點(diǎn)。
進(jìn)一步的,還包括步驟4,利用echart的散點(diǎn)圖控件,將挖掘出來的躁點(diǎn)相關(guān)聯(lián),展示出診療費(fèi)用中的異常數(shù)據(jù)。
為便于計算,在步驟2中采用以下方式將量化值轉(zhuǎn)換為效用值,。假設(shè)量化值表中有n條記錄,第t個字段的各個記錄值為:Xst,其中s=1,2,…,n;t=1,2,…,m;n為行數(shù),m為列數(shù);
方式1:越大越好型,記Xtmax=max{Xst},Xtmin=min{Xst},其中1≤s≤n,將Xst轉(zhuǎn)化為Xst~,將最大值轉(zhuǎn)化為效用值1,最小值轉(zhuǎn)化為效用值0;
方式2:越小越好型,則將最小值轉(zhuǎn)化為效用值1,最大值轉(zhuǎn)化為效用值0;
方式3:適中型,記最佳適中值為X0。
則此時靠近適中值的數(shù)據(jù)的效用值較大,接近于1,遠(yuǎn)離的數(shù)據(jù)的效用值較小,接近于0。
步驟3具體包括以下步驟:
步驟3.1,采用公式(1)計算各效用點(diǎn)之間的距離:
式(1)中,Dk為效用點(diǎn)之間的距離,Xpi為第p行第i列的效用值,Xqi為第q行第i列的效用值;1<<p<<n,1<<q<<n;n為行數(shù),m為列數(shù)。當(dāng)然,如果沒有將量化值轉(zhuǎn)換為效用值,那么公式(1)中的Xpi可以為第p行第i列的量化值,Xqi為第q行第i列的量化值,這樣也是可以計算出數(shù)據(jù)點(diǎn)之間的距離的。k一般取值為2。
步驟3.2,對于效用點(diǎn)p,所有滿足Dk<δ的點(diǎn)構(gòu)成效用點(diǎn)p的δ領(lǐng)域,δ為給定的一個正數(shù);
步驟3.3,統(tǒng)計Np,Np為所述領(lǐng)域內(nèi)效用點(diǎn)的個數(shù);
步驟3.4,若Np<N0,則該效用點(diǎn)p為在距離意義下的異常點(diǎn),N0為給定的臨界值。
進(jìn)一步的,將Dk存儲在距離表中,設(shè)定δ和N0,對距離表中進(jìn)行兩次嵌套掃描,外層掃描從上往下進(jìn)行,內(nèi)層掃描從左至右進(jìn)行,統(tǒng)計每一行Dk<δ的個數(shù),若Np<N0,則該點(diǎn)為異常點(diǎn);否則,進(jìn)入下一循環(huán)。
實(shí)施例2
本實(shí)施例以胃脘痛的醫(yī)療診費(fèi)為例,對本發(fā)明進(jìn)行詳細(xì)的說明。
獲取某個時間段某個年齡段胃脘痛患者的費(fèi)用原始表中的數(shù)據(jù);將費(fèi)用原始表中各收費(fèi)項目的金額的記錄值轉(zhuǎn)化為量化值,然后對同一個患者的相同收費(fèi)項目的量化值進(jìn)行求和計算,并將處理后的數(shù)據(jù)存儲在量化值表中,量化值表的表頭包括患者ID及各收費(fèi)項目的名稱;如圖1所示的胃脘痛診費(fèi)的量化值表;
將量化值表中的量化值轉(zhuǎn)換為效用值,得到如圖2所示的效用值表,效用值表的表頭包括患者ID及各收費(fèi)項目的名稱;然后掃描效用值表,采用公式(1)計算效用值表中各效用點(diǎn)之間的距離。因為記錄條數(shù)量大,因此,將距離參數(shù)另存在如圖3所示的距離表中。
為便于分析各種不同的情況,設(shè)定一個比較小的正數(shù)δ=3和一個給定經(jīng)驗臨界值N0=5,在距離表中進(jìn)行兩次嵌套掃描。外層掃描從上往下進(jìn)行,內(nèi)層掃描從左至右進(jìn)行,對每一行統(tǒng)計距離d<δ的個數(shù),若小于給定值N0,則可判斷該點(diǎn)為異常點(diǎn)。否則,進(jìn)入下一循環(huán)。由于可以任意地修改鄰域的半徑δ和臨界值N0,此時只需調(diào)用距離參數(shù)表而不用計算相互間的距離。這樣可以動態(tài)地確定在不同的領(lǐng)域半徑和臨界值意義下的異常點(diǎn)。
在鄰域半徑δ=3和經(jīng)驗臨界值N0=5的情況下,挖掘出19個異常點(diǎn),即19位患者。這些患者的異常是指他們的費(fèi)用相對于其他患者來說差異較大。
利用echart的散點(diǎn)圖控件,將挖掘出來的躁點(diǎn)相關(guān)聯(lián),展示出診療費(fèi)用中的異常數(shù)據(jù),費(fèi)用異常檢測散點(diǎn)圖如圖4所示。圖4中縱坐標(biāo)是醫(yī)生開藥開單的治療平均治療費(fèi)用(單位:元),橫坐標(biāo)是醫(yī)生醫(yī)院地區(qū)的分布,圓點(diǎn)大小表示醫(yī)生就診人數(shù)情況,圓點(diǎn)區(qū)域越偏離,說明醫(yī)生平均收費(fèi)越高。通過費(fèi)用異常檢測散點(diǎn)圖,不僅能看到醫(yī)生所在醫(yī)院,還能看到平均收費(fèi)和最高收費(fèi),以及診療人數(shù)。
本發(fā)明通過實(shí)時采集醫(yī)院的電子病歷,對80多家醫(yī)院30多萬條病歷按病癥、人群進(jìn)行分類,利用聚類算法,進(jìn)行離群檢測,形成的費(fèi)用異常散點(diǎn)圖可以為醫(yī)院決策層管理醫(yī)生臨床用藥和合理收費(fèi)提供參考。從很大程度上督促醫(yī)生堅持合理用藥,合理檢查、合理治療、合理收費(fèi)。
當(dāng)然,本發(fā)明還可有其它多種實(shí)施方式,在不背離本發(fā)明精神及其實(shí)質(zhì)的情況下,熟悉本領(lǐng)域的技術(shù)人員可根據(jù)本發(fā)明作出各種相應(yīng)的改變和變形,但這些相應(yīng)的改變和變形都應(yīng)屬于本發(fā)明所附的權(quán)利要求的保護(hù)范圍。