本發(fā)明涉及數(shù)據(jù)監(jiān)管
技術(shù)領(lǐng)域:
,特別是一種對(duì)醫(yī)??ó惓K⒖ㄈ藛T信息的自動(dòng)提取系統(tǒng)及方法。
背景技術(shù):
:目前醫(yī)保費(fèi)用已經(jīng)成為了國(guó)家財(cái)政的一大負(fù)擔(dān),然而有非法者采用盜刷、串刷醫(yī)保卡等違法手段盜用醫(yī)保金額并將違法取得的藥品進(jìn)行兜售牟利,造成醫(yī)保費(fèi)用資源的浪費(fèi)。例如,騙保人使用多張從其他正常就診人員那里收集的社??ㄔ谕患裔t(yī)院多次、頻繁地或者在不同的醫(yī)院間批量進(jìn)行社保刷卡,通過(guò)不正常的方法利用社??ㄖ械娜~或者大比例公費(fèi)額度進(jìn)行社保卡的刷取,以騙取熱銷(xiāo)藥品,收集以后進(jìn)行重新兜售,從中牟取差價(jià)暴利。通常,騙保人的騙保行為包括以下兩種方式:串刷:相對(duì)固定一批參保人在不同機(jī)構(gòu)間,有規(guī)律的刷卡;及合刷:參保人在同一機(jī)構(gòu)結(jié)群成團(tuán)頻繁“巧合”同一時(shí)間連續(xù)刷卡。當(dāng)前還缺乏對(duì)醫(yī)??ó惓K⒖ǖ挠行ПO(jiān)控,無(wú)法有效地對(duì)異常刷卡的行為進(jìn)行管控。技術(shù)實(shí)現(xiàn)要素:鑒于以上內(nèi)容,有必要提供一種異常刷卡人員信息自動(dòng)提取系統(tǒng)及方法,其能夠?qū)Ξ惓K⒖ㄟM(jìn)行檢測(cè)的方式對(duì)異常刷卡人群進(jìn)行檢測(cè)和監(jiān)控。一種異常刷卡人員信息自動(dòng)提取系統(tǒng),包括:接口模塊,用于從各級(jí)醫(yī)療機(jī)構(gòu)接收社保交易數(shù)據(jù);數(shù)據(jù)篩選模塊,用于接收用戶(hù)設(shè)定的過(guò)濾條件,并根據(jù)上述過(guò)濾條件,從所選取的社保交易數(shù)據(jù)中篩選出符合過(guò)濾條件的所有社保 卡號(hào)和相應(yīng)的交易記錄;數(shù)據(jù)分析模塊,用于分析上述篩選出來(lái)的社??ㄌ?hào)和相應(yīng)的交易記錄,確定異常的社保卡號(hào)和相應(yīng)的交易記錄,并提取出的異常的社??ㄌ?hào)對(duì)應(yīng)的就診人員的個(gè)人信息;及顯示模塊,用于輸出所述就診人員的個(gè)人信息。優(yōu)選地,所述過(guò)濾條件包括:對(duì)就診人員在給定時(shí)間內(nèi)的最低刷卡總額進(jìn)行過(guò)濾;或者對(duì)就診人員在給定時(shí)間內(nèi)的最低刷卡次數(shù)進(jìn)行過(guò)濾。優(yōu)選地,所述過(guò)濾條件還包括:初篩條件以及復(fù)篩條件。優(yōu)選地,所述接口模塊為USB接口、串口、紅外線接口或者藍(lán)牙接口。優(yōu)選地,所述顯示模塊是一個(gè)顯示屏幕或者打印機(jī)。一種異常刷卡人員信息自動(dòng)提取方法,包括:從各級(jí)醫(yī)療機(jī)構(gòu)接收社保交易數(shù)據(jù);接收用戶(hù)設(shè)定的過(guò)濾條件,并根據(jù)上述過(guò)濾條件,從所選取的社保交易數(shù)據(jù)中篩選出符合過(guò)濾條件的所有社保卡號(hào)和相應(yīng)的交易記錄;分析上述篩選出來(lái)的社??ㄌ?hào)和相應(yīng)的交易記錄,確定異常的社??ㄌ?hào)和相應(yīng)的交易記錄,并提取出的異常的社??ㄌ?hào)對(duì)應(yīng)的就診人員的個(gè)人信息;及輸出所述就診人員的個(gè)人信息。優(yōu)選地,所述過(guò)濾條件包括:對(duì)就診人員在給定時(shí)間內(nèi)的最低刷卡總額進(jìn)行過(guò)濾;或者對(duì)就診人員在給定時(shí)間內(nèi)的最低刷卡次數(shù)進(jìn)行過(guò)濾。優(yōu)選地,所述過(guò)濾條件還包括:初篩條件以及復(fù)篩條件。優(yōu)選地,所述分析上述篩選出來(lái)的社??ㄌ?hào)和相應(yīng)的交易記錄,確定異常的社??ㄌ?hào)和相應(yīng)的交易記錄的步驟包括:構(gòu)建特殊結(jié)構(gòu)樹(shù)T;及根據(jù)上述結(jié)構(gòu)樹(shù)T構(gòu)建增長(zhǎng)樹(shù)。優(yōu)選地,所述構(gòu)建結(jié)構(gòu)樹(shù)T的步驟包括:輸入事務(wù)數(shù)據(jù)庫(kù)D和最小支持度閾值min_sup;掃描事務(wù)數(shù)據(jù)庫(kù)D,得到頻繁項(xiàng)集F和頻繁項(xiàng)集F的支持?jǐn)?shù);按F的支持?jǐn)?shù)降序排序,得到頻繁項(xiàng)表L;建Tree的根節(jié)點(diǎn),標(biāo)記為“null”;再次掃描數(shù)據(jù)庫(kù)D,對(duì)D中的每條事務(wù)執(zhí)行如下操作:提取D中的頻繁項(xiàng)并按L中的次序排序,令排序后頻繁項(xiàng)表為[p|P],其中,p是指首元素,而P是剩下的元素列表;調(diào)用insert_tree([p|P],T),該過(guò)程執(zhí)行如下:如果T有孩子N使得N.item_name=p.item_name,則N的計(jì)數(shù)增加1;否則生成一個(gè)新的節(jié)點(diǎn)N,置其計(jì)數(shù)為1,鏈接到它的父節(jié)點(diǎn)T,并且通過(guò)節(jié)點(diǎn)鏈結(jié)構(gòu)將其鏈接到具有相同item_name的節(jié)點(diǎn),如果P非空,遞歸調(diào)用insert_tree(P,N)。利用本發(fā)明所述的異常刷卡人員信息自動(dòng)提取系統(tǒng)及方法引入了基于FP-Growth算法的對(duì)異常刷卡進(jìn)行檢測(cè)的方式對(duì)異常刷卡人群進(jìn)行檢測(cè)和監(jiān)控。附圖說(shuō)明圖1是本發(fā)明異常刷卡人員信息自動(dòng)提取系統(tǒng)較佳實(shí)施例的業(yè)務(wù)框架圖。圖2是本發(fā)明異常刷卡人員信息自動(dòng)提取系統(tǒng)較佳實(shí)施例的功能模塊圖。圖3是本發(fā)明異常刷卡人員信息自動(dòng)提取方法較佳實(shí)施例的實(shí)施流程圖。圖4是利用本發(fā)明異常刷卡人員信息自動(dòng)提取方法構(gòu)建的頻繁模式樹(shù)T的示例。具體實(shí)施方式參閱圖1所示,是本發(fā)明異常刷卡人員信息自動(dòng)提取系統(tǒng)較佳實(shí)施例的業(yè)務(wù)框架圖。本實(shí)施例中,所述醫(yī)??ó惓K⒖z測(cè)的基本業(yè)務(wù)流程為:就診人員3的就診信息通過(guò)醫(yī)療機(jī)構(gòu)2的結(jié)算系統(tǒng)生成社保交易數(shù)據(jù)。所述社保交易數(shù)據(jù)定期或者實(shí)時(shí)傳送給醫(yī)療保險(xiǎn)機(jī)構(gòu)1。醫(yī)療保險(xiǎn)機(jī)構(gòu)1可以將所述社保交易數(shù)據(jù)存儲(chǔ)于數(shù)據(jù)庫(kù)3中,并利用異常刷卡人員信息自動(dòng)提取系統(tǒng)10對(duì)所述社保 交易數(shù)據(jù)定期地進(jìn)行過(guò)濾、分析等操作,從海量的社保交易數(shù)據(jù)中迅速篩選出少量的異常數(shù)據(jù)。所述醫(yī)療保險(xiǎn)機(jī)構(gòu)1通過(guò)網(wǎng)絡(luò),如局域網(wǎng)或者因特網(wǎng)與所述醫(yī)療機(jī)構(gòu)2通訊連接。所述醫(yī)療保險(xiǎn)機(jī)構(gòu)1可以是各地社保局或者其他任何機(jī)構(gòu),所述醫(yī)療機(jī)構(gòu)2可以是各地的各個(gè)級(jí)別的醫(yī)院。所述醫(yī)療保險(xiǎn)機(jī)構(gòu)1的異常刷卡人員信息自動(dòng)提取系統(tǒng)10可以是一個(gè)服務(wù)器系統(tǒng)。該服務(wù)器系統(tǒng)作為一個(gè)硬件系統(tǒng),具有較高的計(jì)算能力。該服務(wù)器系統(tǒng)的主要硬件構(gòu)成包含如下幾個(gè)主要部分:中央處理器、內(nèi)存、芯片組、I/O總線、I/O設(shè)備、電源、機(jī)箱和相關(guān)軟件。在本發(fā)明的其他實(shí)施例中,所述醫(yī)療保險(xiǎn)機(jī)構(gòu)1的異常刷卡人員信息自動(dòng)提取系統(tǒng)10也可以是一個(gè)由程序代碼所組成的軟件系統(tǒng),其可以安裝并運(yùn)行于任意的具有較高計(jì)算能力的服務(wù)器或者任何個(gè)人電子產(chǎn)品中,在所述服務(wù)器或者電子產(chǎn)品的處理器,如中央處理器(CPU,CentralProcessingUnit)的執(zhí)行下,實(shí)現(xiàn)某種預(yù)設(shè)的功能,如對(duì)社保交易數(shù)據(jù)定期地進(jìn)行過(guò)濾、分析等操作,從海量的社保交易數(shù)據(jù)中迅速篩選出少量的異常數(shù)據(jù)。參閱圖2所述,是本發(fā)明異常刷卡人員信息自動(dòng)提取系統(tǒng)較佳實(shí)施例的功能模塊圖。本發(fā)明所述異常刷卡人員信息自動(dòng)提取系統(tǒng)10自底向上分為接口層、運(yùn)算層以及界面層。所述接口層對(duì)外提供多樣的接口方式,其包括接口模塊100。所述接口模塊100包括數(shù)據(jù)接口、服務(wù)接口及/或其他訪問(wèn)API等。所述數(shù)據(jù)接口可以為USB接口、串口、紅外線接口和藍(lán)牙接口等,是進(jìn)行數(shù)據(jù)傳輸?shù)慕涌?,如,從醫(yī)療機(jī)構(gòu)2接收社保交易數(shù)據(jù)。所述運(yùn)算層是整個(gè)異常刷卡人員信息自動(dòng)提取系統(tǒng)10的核心,其包括數(shù)據(jù)篩選模塊102以及數(shù)據(jù)分析模塊103,用于對(duì)接口模塊100接收的社保交易數(shù)據(jù)定期地進(jìn)行過(guò)濾、分析等操作,從海量的社保交易數(shù)據(jù)中迅速篩選出少量的異常數(shù)據(jù)。所述界面層負(fù)責(zé)界面的展現(xiàn)及人機(jī)交互,其包括顯示模塊104以及規(guī)則制定模塊106,用于顯示上述篩選出來(lái)的異常數(shù)據(jù)以及輸入用戶(hù)設(shè)定的數(shù)據(jù)處理規(guī)則等。所述顯示模塊104可以是一個(gè)顯示屏幕或者打印機(jī)等用于可視化數(shù)據(jù)輸出的設(shè)備。所述規(guī)則制定模塊106可以是一個(gè)用戶(hù)界面。以下,結(jié)合圖3,詳細(xì)描述上述各模塊。參閱圖3所示,是本發(fā)明異常刷卡人員信息自動(dòng)提取方法較佳實(shí)施例的實(shí)施流程圖。本實(shí)施例所述異常刷卡人員信息自動(dòng)提取方法并不限于流程圖中所示步驟,此外流程圖中所示步驟中,某些步驟可以省略、步驟之間的順序可以改變。步驟S10,接口模塊100從各級(jí)醫(yī)療機(jī)構(gòu)2接收社保交易數(shù)據(jù)。所述接收方式可以為自動(dòng)跑批、全量更新。上述接收的社保交易數(shù)據(jù)可以存儲(chǔ)在與醫(yī)療保險(xiǎn)機(jī)構(gòu)1連接的數(shù)據(jù)庫(kù)3中。進(jìn)一步地,接口模塊100可以從上述接收的社保交易數(shù)據(jù)中選取一個(gè)預(yù)設(shè)時(shí)間段內(nèi)的所有社保交易數(shù)據(jù),如某一個(gè)自然月的社保交易數(shù)據(jù)。步驟S11,數(shù)據(jù)篩選模塊102接收用戶(hù)設(shè)定的過(guò)濾條件。所述過(guò)濾條件可以包括,如(1)對(duì)就診人員在給定時(shí)間內(nèi)的最低刷卡總額進(jìn)行過(guò)濾;或者(2)對(duì)就診人員在給定時(shí)間內(nèi)的最低刷卡次數(shù)進(jìn)行過(guò)濾。進(jìn)一步地,所述過(guò)濾條件還可以包括初篩條件以及復(fù)篩條件。例如,所述初篩條件可以是所選取自然月的社保交易數(shù)據(jù)中累計(jì)刷卡次數(shù)為大于一個(gè)第一預(yù)設(shè)數(shù)值,如19次的就診人員作為初篩人員。所述復(fù)篩條件可以是對(duì)初篩人員調(diào)取一定時(shí)間范圍,如當(dāng)月及前三個(gè)月共4個(gè)月的社保交易數(shù)據(jù),根據(jù)預(yù)設(shè)的條件,如累計(jì)刷卡次數(shù)為大于一個(gè)第二預(yù)設(shè)值,如50次,進(jìn)行進(jìn)一步篩選。本實(shí)施例中,用戶(hù)可以透過(guò)所述的規(guī)則制定模塊106設(shè)定的所述的過(guò)濾條件。步驟S12,數(shù)據(jù)篩選模塊102根據(jù)上述過(guò)濾條件,從所選取的社保交易數(shù)據(jù)中篩選出符合過(guò)濾條件的所有社??ㄌ?hào)和相應(yīng)的交易記錄。步驟S13,數(shù)據(jù)分析模塊103分析上述篩選出來(lái)的社??ㄌ?hào)和相應(yīng)的交易記 錄等數(shù)據(jù),確定異常的社保卡號(hào)和相應(yīng)的交易記錄。本實(shí)施例中,所述數(shù)據(jù)分析模塊103將社??ㄌ?hào)和相應(yīng)的交易記錄等數(shù)據(jù)進(jìn)行基于符號(hào)的信息壓縮的特殊結(jié)構(gòu)化處理,從已經(jīng)進(jìn)行處理過(guò)的結(jié)構(gòu)化壓縮數(shù)據(jù)結(jié)構(gòu)中提取超過(guò)閾值的頻繁項(xiàng)目集(社??ㄌ?hào)組合)格式,并將頻繁項(xiàng)目集格式按照指定格式進(jìn)行輸出。詳細(xì)地,所述數(shù)據(jù)分析模塊103基于FP-Growth算法構(gòu)建樹(shù)結(jié)構(gòu)進(jìn)行數(shù)據(jù)分析,提取頻繁項(xiàng)目集。挖掘關(guān)聯(lián)規(guī)則的關(guān)鍵步驟是發(fā)現(xiàn)頻繁模式集,簡(jiǎn)稱(chēng)頻集。從大型數(shù)據(jù)庫(kù)中挖掘頻繁模式對(duì)于許多數(shù)據(jù)挖掘任務(wù)至關(guān)重要。本發(fā)明所述FP-Growth算法通過(guò)頻繁模式增長(zhǎng)挖掘全部頻繁項(xiàng)目集。它采用了分而治之的思想:將隱含頻繁模式的事務(wù)數(shù)據(jù)庫(kù)壓縮成一棵頻繁模式樹(shù),但仍保留了項(xiàng)集的關(guān)聯(lián)信息;然后把生成的壓縮數(shù)據(jù)庫(kù)分成一組條件數(shù)據(jù)庫(kù),其中每個(gè)關(guān)聯(lián)一個(gè)頻繁項(xiàng)目,并對(duì)其構(gòu)造的條件模式樹(shù)進(jìn)行挖掘。所述構(gòu)建樹(shù)結(jié)構(gòu)的方法包括:1)構(gòu)建特殊結(jié)構(gòu)樹(shù)T。如下表所示,為事務(wù)數(shù)據(jù)庫(kù)D數(shù)據(jù)樣例。事物ID事務(wù)中的元素項(xiàng)過(guò)濾及重排序后的事務(wù)001R,Z,H,J,PZ,R002Z,Y,X,W,V,U,T,SZ,X,Y,S,T003ZZ004R,X,N,O,SX,S,R005Y,R,X,Z,Q,T,PZ,X,Y,R,T006Y,Z,X,E,Q,S,T,MZ,X,Y,S,T輸入:事務(wù)數(shù)據(jù)庫(kù)D和最小支持度閾值min_sup。輸出:對(duì)應(yīng)的頻繁模式樹(shù)T。方法:主要分兩步:(1)掃描事務(wù)數(shù)據(jù)庫(kù)D,得到頻繁項(xiàng)集F和它們的支持?jǐn)?shù)。按F的支持?jǐn)?shù)降序排序,得到頻繁項(xiàng)表L。(2)創(chuàng)建Tree的根節(jié)點(diǎn),標(biāo)記為“null”。再次掃描數(shù)據(jù)庫(kù),對(duì)D中的每條事務(wù)執(zhí)行如下操作:提取D中的頻繁項(xiàng)并按L中的次序排序。令排序后頻繁項(xiàng)表為[p|P],這里p是指首元素,而P是剩下的元素列表。調(diào)用insert_tree([p|P],T).該過(guò)程執(zhí)行如下:如果T有孩子N使得N.item_name=p.item_name,則N的計(jì)數(shù)增加1;否則生成一個(gè)新的節(jié)點(diǎn)N,置其計(jì)數(shù)為1,鏈接到它的父節(jié)點(diǎn)T,并且通過(guò)節(jié)點(diǎn)鏈結(jié)構(gòu)將其鏈接到具有相同item_name的節(jié)點(diǎn)。如果P非空,遞歸調(diào)用insert_tree(P,N)。表1數(shù)據(jù)構(gòu)建完成以后應(yīng)得到圖4示例。圖4左側(cè)部分為一個(gè)字典結(jié)構(gòu),來(lái)保存頭指針表。除了存放指針外,頭指針表還用來(lái)保存數(shù)中每類(lèi)元素的總數(shù)。分析:T的構(gòu)建過(guò)程需要對(duì)事務(wù)數(shù)據(jù)庫(kù)掃描兩次,最后將數(shù)據(jù)庫(kù)壓縮存儲(chǔ)成一棵樹(shù),該樹(shù)包含了頻繁模式挖掘的全部信息。T通常對(duì)于長(zhǎng)模式和密集的數(shù)據(jù)庫(kù)具有很高的壓縮比,但是對(duì)于具有大量短模式的數(shù)據(jù)庫(kù)一般,可能需要其他方法進(jìn)行優(yōu)化以滿(mǎn)足數(shù)據(jù)分析的速度要求。2)構(gòu)建增長(zhǎng)樹(shù)。輸入:由算法1生成的T樹(shù);最小支持度閾值min_sup。輸出:頻繁模式的完全集。方法:用growth(T,null)。該過(guò)程實(shí)現(xiàn)如下:Proceduregrowth(Tree,α){ifTree包含單條路徑P,thenfor路徑P中節(jié)點(diǎn)的每個(gè)組合(記作β)do{產(chǎn)生模式β∪α,其支持度設(shè)為β中節(jié)點(diǎn)的最小的支持度;}elseforeachαi在Tree的項(xiàng)頭表do{產(chǎn)生模式β=αi∪α,其支持度support=αi·support;構(gòu)造β的條件模式基,然后構(gòu)造β的條件樹(shù)Treeβ;ifTreeβ≠then遞歸調(diào)用growth(Treeβ,β);}end}本方法將發(fā)現(xiàn)長(zhǎng)頻繁模式的問(wèn)題轉(zhuǎn)化為遞歸地尋找短模式,然后連接其后綴。它將最不頻繁的項(xiàng)作為后綴。該方法較大地降低了搜索開(kāi)銷(xiāo)。步驟S14,數(shù)據(jù)分析模塊103提取出的異常的社??ㄌ?hào)對(duì)應(yīng)的就診人員的個(gè)人信息。步驟述S15,顯示模塊104輸出所述就診人員的個(gè)人信息。最后所應(yīng)說(shuō)明的是,以上實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案而非限制,盡管參照較佳實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)說(shuō)明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,可以對(duì)本發(fā)明的技術(shù)方案進(jìn)行修改或等同替換,而不脫離本發(fā)明技術(shù)方案的精神和范圍。當(dāng)前第1頁(yè)1 2 3