本發(fā)明涉及通信技術(shù)領(lǐng)域,更具體地,涉及一種根據(jù)藥物計(jì)算疾病發(fā)生概率的方法及其系統(tǒng)。
背景技術(shù):
在醫(yī)療保險(xiǎn)理賠運(yùn)營(yíng)管理中,至關(guān)重要的一個(gè)環(huán)節(jié)就是及時(shí)發(fā)現(xiàn)欺詐、浪費(fèi)、濫用等費(fèi)用風(fēng)險(xiǎn)。理賠人員往往僅根據(jù)責(zé)任保險(xiǎn)條款及醫(yī)保報(bào)銷目錄進(jìn)行理賠,缺乏對(duì)醫(yī)療服務(wù)臨床合理性的判斷,從而漏失對(duì)大部分欺詐、不合理醫(yī)療行為的監(jiān)測(cè)?,F(xiàn)今醫(yī)保藥品報(bào)銷通常要求診斷的疾病與藥名相匹配,而藥物名稱的復(fù)雜多樣性,常使得理賠工作人員感到困擾,很難根據(jù)經(jīng)驗(yàn)判斷醫(yī)保報(bào)銷單上所列的藥物組合是否用于治療醫(yī)保報(bào)銷單上所列的疾病,是否有借開藥以套保費(fèi)的現(xiàn)象。
技術(shù)實(shí)現(xiàn)要素:
為了幫助理賠工作人員根據(jù)客戶所提供的藥物組合來(lái)判斷該客戶可能得的疾病,本發(fā)明提供一種根據(jù)藥物計(jì)算疾病發(fā)生概率的方法及其系統(tǒng)。
根據(jù)本發(fā)明的一個(gè)方面,提供一種根據(jù)藥物計(jì)算疾病發(fā)生概率的方法,包括以下步驟:
基于醫(yī)療理賠數(shù)據(jù),利用樸素貝葉斯算法計(jì)算待檢藥物組合對(duì)應(yīng)所述醫(yī)療理賠數(shù)據(jù)中疾病的發(fā)生概率。
優(yōu)選地,所述樸素貝葉斯算法的具體步驟包括:
根據(jù)所述醫(yī)療理賠數(shù)據(jù)中的所有疾病發(fā)生次數(shù),計(jì)算每一種疾病的發(fā)生頻率,并相應(yīng)記為每一種疾病對(duì)應(yīng)的第一概率;
基于醫(yī)療理賠數(shù)據(jù),計(jì)算待檢藥物組合中所有藥品對(duì)應(yīng)所述醫(yī)療理賠數(shù)據(jù)中與第一概率對(duì)應(yīng)的疾病的條件概率,并記為第二概率;
利用樸素貝葉斯公式,計(jì)算第一概率與第二概率的乘積;
遍歷所述醫(yī)療理賠數(shù)據(jù)中的所有疾病,并將所對(duì)應(yīng)的乘積構(gòu)建向量模型,得到在待檢藥物組合下疾病的發(fā)生概率。
優(yōu)選地,構(gòu)建向量模型后將其歸一化,從而得到在待檢藥物組合下疾病的發(fā)生概率。
優(yōu)選地,在第二概率的計(jì)算中,具體步驟包括:
使用TF-IDF,對(duì)所述醫(yī)療理賠數(shù)據(jù)中所有藥品在與第一概率對(duì)應(yīng)的疾病中分別分配權(quán)重:
其中,TF指所述醫(yī)療理賠數(shù)據(jù)中所有藥品在與第一概率對(duì)應(yīng)的疾病的藥物中出現(xiàn)的頻率;
IDF指所述醫(yī)療理賠數(shù)據(jù)中所有藥品的重要性的度量;
計(jì)算TF-IDF值并將其歸一化;
將待檢藥物組合中所有藥品所對(duì)應(yīng)的TF-IDF歸一化值取乘積,即得第二概率。
優(yōu)選地,所述IDF具體獲取包括:所述醫(yī)療理賠數(shù)據(jù)中所有疾病種數(shù)除以包括在醫(yī)療理賠數(shù)據(jù)中該藥品的疾病數(shù),再將得到的商取2的對(duì)數(shù);
優(yōu)選地,還包括以下步驟:在使用樸素貝葉斯算法之前,判斷待檢藥物組合中所有藥品中是否存在于所述醫(yī)療理賠數(shù)據(jù)的所有藥物中:若存在,則進(jìn)行樸素貝葉斯算法;若不存在,則直接輸出結(jié)果。
本發(fā)明還提供了一種根據(jù)藥物計(jì)算疾病發(fā)生概率的系統(tǒng),包括:
數(shù)據(jù)采集模塊,用于采集待檢藥物組合的數(shù)據(jù)和醫(yī)療理賠數(shù)據(jù);
發(fā)生概率計(jì)算模塊,用于讀取待檢藥物組合的數(shù)據(jù)和醫(yī)療理賠數(shù)據(jù),利用樸素貝葉斯算法計(jì)算待檢藥物組合在所述醫(yī)療理賠數(shù)據(jù)中疾病的發(fā)生概率;
數(shù)據(jù)輸出模塊,用于輸出基于理賠醫(yī)療數(shù)據(jù)下待檢藥物組合能治療的疾病的名稱、在理賠醫(yī)療數(shù)據(jù)中相應(yīng)的疾病代碼和發(fā)生概率。
優(yōu)選地,所述發(fā)生概率計(jì)算模塊包括:
第一概率計(jì)算單元,用于根據(jù)所述醫(yī)療理賠數(shù)據(jù)中的所有疾病發(fā)生頻率計(jì)算每一種疾病的發(fā)生頻率;
第二概率計(jì)算單元,用于根據(jù)所述醫(yī)療理賠數(shù)據(jù)計(jì)算待檢藥物組合中藥品的條件概率;
發(fā)生概率計(jì)算單元,用于利用樸素貝葉斯公式計(jì)算第一概率與第二概率的乘積;
空間向量單元,用于將待檢藥物組合中所有藥品以及所述醫(yī)療理賠數(shù)據(jù)中所有疾病所對(duì)應(yīng)的所述乘積構(gòu)建向量模型,得到在待檢藥物組合下疾病的發(fā)生概率。
優(yōu)選地,所述數(shù)據(jù)輸出模塊還包括用于輸出不存在于醫(yī)療理賠數(shù)據(jù)中所有藥物的待檢藥物。
本申請(qǐng)?zhí)岢龅母鶕?jù)藥物計(jì)算疾病發(fā)生概率的方法及其系統(tǒng)有效地解決了理賠人員難以根據(jù)經(jīng)驗(yàn)來(lái)判斷所列藥物組合是否用于所列疾病,理賠人員只需在本發(fā)明的系統(tǒng)中輸入每種藥品名稱,將輸出的疾病發(fā)生概率結(jié)果與醫(yī)保報(bào)銷單上所列疾病比較,即可判斷是否存在套保費(fèi)的現(xiàn)象。
附圖說(shuō)明
圖1為根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的根據(jù)藥物計(jì)算疾病發(fā)生概率的系統(tǒng)的總體結(jié)構(gòu)示意圖;
圖2為根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的根據(jù)藥物計(jì)算疾病發(fā)生概率的系統(tǒng)的界面圖。
具體實(shí)施方式
下面結(jié)合附圖和實(shí)施例,對(duì)本發(fā)明的具體實(shí)施方式作進(jìn)一步詳細(xì)描述。以下實(shí)施例用于說(shuō)明本發(fā)明,但不用來(lái)限制本發(fā)明的范圍。
本發(fā)明所使用的數(shù)據(jù)為理賠數(shù)據(jù),每一條記錄代表患者的一次就診,每一列分別代表樣本文件名、就診醫(yī)院、疾病代碼、費(fèi)用項(xiàng)目、費(fèi)用明細(xì)和費(fèi)用總額等數(shù)據(jù)。
本發(fā)明提供一種根據(jù)藥物計(jì)算疾病發(fā)生概率的方法,包括以下步驟:
基于醫(yī)療理賠數(shù)據(jù),利用樸素貝葉斯算法計(jì)算待檢藥物組合對(duì)應(yīng)所述醫(yī)療理賠數(shù)據(jù)中疾病的發(fā)生概率。
其中,所述樸素貝葉斯算法的具體步驟包括:根據(jù)所述醫(yī)療理賠數(shù)據(jù)中的所有疾病發(fā)生頻率,計(jì)算每一種疾病的發(fā)生頻率,并記為第一概率;
在本發(fā)明的一種實(shí)施方式中,第一概率的計(jì)算步驟為:統(tǒng)計(jì)醫(yī)療理賠數(shù)據(jù)中所有疾病的名稱yj以及每一種P(yj),并將其計(jì)為第一概率;
基于醫(yī)療理賠數(shù)據(jù),計(jì)算待檢藥物組合中所有藥品對(duì)應(yīng)所述醫(yī)療理賠數(shù)據(jù)中與第一概率對(duì)應(yīng)的疾病的條件概率,并記為第二概率;
利用樸素貝葉斯公式,計(jì)算第一概率與第二概率的乘積;
遍歷所述醫(yī)療理賠數(shù)據(jù)中的所有疾病,并將所對(duì)應(yīng)的乘積構(gòu)建向量模型,得到在待檢藥物組合下疾病的發(fā)生概率。
其中,對(duì)于第一概率的計(jì)算:假設(shè)在原始醫(yī)療理賠數(shù)據(jù)中有100萬(wàn)次就診記錄,每一次就診記錄都對(duì)應(yīng)一種病,在這100萬(wàn)次中,統(tǒng)計(jì)出A病出現(xiàn)10萬(wàn)次,B病出現(xiàn)40萬(wàn)次,C病出現(xiàn)30萬(wàn)次,D病出現(xiàn)20萬(wàn)次,那么ABCD四種病每一種病的發(fā)生頻率分別為10%、40%、30%、20%。在統(tǒng)計(jì)學(xué)中,當(dāng)數(shù)據(jù)量很大的時(shí)候,頻率可以代替概率,因此可以認(rèn)為ABCD四種病的概率y1、y2、y3、y4分另為10%、40%、30%、20%。按上述方法統(tǒng)計(jì)醫(yī)療理賠數(shù)據(jù)中所有疾病名稱yj以及相應(yīng)的第一概率。
本發(fā)明的一種實(shí)施方式中,使用TF-IDF權(quán)重的方法對(duì)待檢藥物組合中每一種藥物分別分配權(quán)重:
其中,TF指待檢藥物組合中藥品在治療每一種疾病的藥物中出現(xiàn)的頻率;以某種疾病yj為例,針對(duì)待檢藥物組合中第i個(gè)藥品,TFj的第i個(gè)元素表示ai在疾病yj所用藥物中出現(xiàn)的頻率。
IDF指待檢藥物組合中藥品的重要性的度量,具體公式為所述醫(yī)療理賠數(shù)據(jù)中所有疾病種數(shù)除以包括在醫(yī)療理賠數(shù)據(jù)中該藥品的疾病數(shù),再將得到的商取2的對(duì)數(shù)。
本發(fā)明的一種實(shí)施方式中,針對(duì)待檢藥物組合中第i個(gè)藥品,IDF的第i個(gè)元素的計(jì)算公式為
其中,N為醫(yī)療理賠數(shù)據(jù)中所有的疾病數(shù),ni表示包含藥物ai的疾病數(shù)。其中,當(dāng)該種藥物不在醫(yī)療理賠數(shù)據(jù)的所有藥物中時(shí),本發(fā)明的另一實(shí)施方式中,直接進(jìn)入輸出模塊,將結(jié)果輸出。
本發(fā)明的一種實(shí)施方式中,以第i個(gè)藥品,第yj個(gè)疾病為例,計(jì)算TFj·IDF值并歸一化,歸一化的值作為P(ai|yj)的值。
遍歷醫(yī)療理賠數(shù)據(jù)中針對(duì)該疾病yj所有藥品的P(ai|yj)值。
本發(fā)明的一種實(shí)施方式中,待檢藥物組合設(shè)為將不在醫(yī)療理賠數(shù)據(jù)中的藥品輸出后,將其它存在于醫(yī)療理賠數(shù)據(jù)中的藥品所對(duì)應(yīng)的P(ai|yj)值取乘積,算出藥物組合中yj對(duì)應(yīng)的Pj,
重復(fù)上述步驟,遍歷醫(yī)療保險(xiǎn)數(shù)據(jù)中的所有疾病,并將其結(jié)果構(gòu)建向量模型即得到P=(P1,P2,……,Pj,……),并歸一化,得到P′=(P′1,P′2,……,P′j,……),則P′j表示在藥品名稱組合下疾病yj發(fā)生的概率。
本發(fā)明提供了一種根據(jù)藥物計(jì)算疾病發(fā)生概率的系統(tǒng),如圖1所示,包括:
數(shù)據(jù)采集模塊S1,用于采集待檢藥物組合的數(shù)據(jù)和醫(yī)療理賠數(shù)據(jù);
發(fā)生概率計(jì)算模塊S2,用于讀取待檢藥物組合的數(shù)據(jù)和醫(yī)療理賠數(shù)據(jù),利用樸素貝葉斯算法計(jì)算待檢藥物組合在所述醫(yī)療理賠數(shù)據(jù)中疾病的發(fā)生概率;
數(shù)據(jù)輸出模塊S3,用于輸出基于理賠醫(yī)療數(shù)據(jù)下待檢藥物組合能治療的疾病的名稱、在理賠醫(yī)療數(shù)據(jù)中相應(yīng)的疾病代碼和發(fā)生概率。
其中,數(shù)據(jù)采集模塊包括輸入端,輸入端采集的數(shù)據(jù)為藥品的名稱,可以手動(dòng)輸入,也可以根據(jù)下拉菜單選擇藥品名稱;數(shù)據(jù)輸出模塊包括將包含該藥物組合的可能的疾病名稱、疾病在醫(yī)療理賠數(shù)據(jù)中的代碼以及包含該藥物組合的可能的疾病的發(fā)生概率輸出,并以本領(lǐng)域中公知的方式給出,優(yōu)選以列表方式給出,如圖2所示;在另一種實(shí)施方式中,還可包括將不包含在醫(yī)療理賠數(shù)據(jù)中的待檢藥品名稱輸出。
其中,所述發(fā)生概率計(jì)算模塊包括:
第一概率計(jì)算單元,用于根據(jù)所述醫(yī)療理賠數(shù)據(jù)中的所有疾病發(fā)生頻率計(jì)算每一種疾病的發(fā)生頻率;
第二概率計(jì)算單元,用于根據(jù)所述醫(yī)療理賠數(shù)據(jù)計(jì)算待檢藥物組合中每種藥品的條件概率;
發(fā)生概率計(jì)算單元,用于利用樸素貝葉斯公式計(jì)算第一概率與第二概率的乘積;
空間向量單元,用于將待檢藥物組合中所有藥品以及所述醫(yī)療理賠數(shù)據(jù)中所有疾病所對(duì)應(yīng)的所述乘積構(gòu)建向量模型,得到在待檢藥物組合下疾病的發(fā)生概率。
在一個(gè)優(yōu)選的實(shí)施方式中,將向量模型中的值歸一化得到在待檢藥物組合下疾病的發(fā)生概率,從而使輸出的值更加直觀且合理。
理賠人員利用本發(fā)明的根據(jù)藥物計(jì)算疾病發(fā)生概率的方法及系統(tǒng),只需輸入藥品名稱,以本發(fā)明的一個(gè)優(yōu)選實(shí)施方式的界面圖2為例,理賠人員在左邊輸入藥物組合中藥品的名稱,也可通過(guò)下拉菜單選擇藥品名稱,點(diǎn)擊“確定”按鈕,在界面的右邊便可顯示包含輸入藥品的所有的疾病代碼、名稱以及概率,理賠人員將輸出的結(jié)果與醫(yī)保報(bào)銷單中所列疾病比較,若醫(yī)保報(bào)銷單中所列疾病有沒有出現(xiàn)在輸出結(jié)果中,或該疾病出現(xiàn)在輸出結(jié)果中但概率值低于理賠人員的承受范圍,則可認(rèn)為存在套保費(fèi)現(xiàn)象。反之,若醫(yī)保報(bào)銷單中所列疾病出現(xiàn)在輸出結(jié)果中并且概率值高于理賠人員承受范圍,則可認(rèn)為不存在套保費(fèi)現(xiàn)象。
最后,本申請(qǐng)的方法僅為較佳的實(shí)施方案,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。