本發(fā)明一般地涉及數(shù)據(jù)處理技術(shù),并且更特別地,涉及醫(yī)療數(shù)據(jù)查重和關(guān)聯(lián)的處理方法及系統(tǒng)。
背景技術(shù):
在醫(yī)療數(shù)據(jù)采集過(guò)程的實(shí)踐中,存在同一數(shù)據(jù)被多次收集并錄入數(shù)據(jù)庫(kù)的可能性,亦存在數(shù)據(jù)被專(zhuān)業(yè)或非專(zhuān)業(yè)人士稍加改動(dòng)后被當(dāng)作不同數(shù)據(jù)收集并錄入數(shù)據(jù)庫(kù)的可能性。為了保證醫(yī)療數(shù)據(jù)庫(kù)中數(shù)據(jù)的真實(shí)有效性,需要設(shè)定方案,在數(shù)據(jù)提交后,正式審核通過(guò)入庫(kù)之前,對(duì)其進(jìn)行查重處理,將重復(fù)數(shù)據(jù)阻擋在數(shù)據(jù)庫(kù)大門(mén)之外。由于醫(yī)療數(shù)據(jù)中存在大量的非結(jié)構(gòu)化數(shù)據(jù),例如病歷中的癥狀描述、疾病的治療方案等,目前醫(yī)療數(shù)據(jù)的深度查重基本有賴(lài)于有相關(guān)醫(yī)學(xué)經(jīng)驗(yàn)的人工操作,這不僅效率較低,且耗費(fèi)大量人力物力,成本高昂。
另外,醫(yī)學(xué)研究不同于其他自然科學(xué)學(xué)科,相關(guān)人體實(shí)驗(yàn)管控嚴(yán)格,無(wú)法實(shí)時(shí)對(duì)其理論研究進(jìn)行驗(yàn)證。醫(yī)學(xué)研究因此非常依賴(lài)于歷史醫(yī)療數(shù)據(jù)諸如患者病歷等的收集和分析。因此需要一種有效的醫(yī)療數(shù)據(jù)處理方法使得自動(dòng)挖掘出醫(yī)療數(shù)據(jù)庫(kù)中相關(guān)性病例成為可能,供進(jìn)一步的醫(yī)療研究與分析。
中國(guó)專(zhuān)利cn101609466b提供了一種“海量數(shù)據(jù)查重的方法和系統(tǒng)”,:提取海量數(shù)據(jù)中的數(shù)據(jù)關(guān)鍵字,所述數(shù)據(jù)關(guān)鍵字用于將所在數(shù)據(jù)與其他數(shù)據(jù)區(qū)分開(kāi);根據(jù)所述數(shù)據(jù)關(guān)鍵字的前n+m個(gè)字母分割所述數(shù)據(jù)關(guān)鍵字,將前n+m個(gè)字母相同的數(shù)據(jù)關(guān)鍵字放入同一個(gè)文件中,得到關(guān)鍵字?jǐn)?shù)據(jù)文件;其中,所述數(shù)據(jù)關(guān)鍵字的前n個(gè)字母相同,前n+m個(gè)字母不完全相同,n、m為非負(fù)整數(shù));分別對(duì)各關(guān)鍵字?jǐn)?shù)據(jù)文件中的數(shù)據(jù)進(jìn)行查重,得到查重結(jié)果。該發(fā)明較適用于結(jié)構(gòu)化的數(shù)據(jù),對(duì)于存在大量非結(jié)構(gòu)化數(shù)據(jù)的醫(yī)療數(shù)據(jù)無(wú)法進(jìn)行有效的查重。另外,該發(fā)明沒(méi)有涉及數(shù)據(jù)之間的相似性及關(guān)聯(lián)問(wèn)題。
中國(guó)專(zhuān)利cn101751423a提供了“一種稿件查重的方法及系統(tǒng)”,包括:生產(chǎn)數(shù)據(jù)庫(kù)中的稿件信息,因?qū)Π婷嫔系母寮M(jìn)行操作而被相應(yīng)的修改后,時(shí)間觸發(fā)器獲取修改后的稿件信息,所述稿件信息包括稿件內(nèi)容;查重服務(wù)器對(duì)獲取的稿件信息中未進(jìn)行重復(fù)稿件內(nèi)容比較的稿件信息進(jìn)行重復(fù)稿件內(nèi)容比較,確定崇高信息,由于查重服務(wù)器對(duì)事件觸發(fā)器獲取的稿件信息中未進(jìn)行重復(fù)稿件內(nèi)容比較的稿件信息進(jìn)行重組稿件內(nèi)容比較,使得最終確定重稿信息??梢灾溃搶?zhuān)利實(shí)際達(dá)到的技術(shù)效果是實(shí)現(xiàn)稿件,一種非結(jié)構(gòu)化信息,在提交前自動(dòng)查重,減少發(fā)表中重稿出現(xiàn)的次數(shù)。雖然該專(zhuān)利在其實(shí)施例中提及了可以運(yùn)用中文分詞庫(kù)技術(shù)對(duì)稿件內(nèi)容進(jìn)行比對(duì),產(chǎn)生稿件數(shù)據(jù)之間的相似度,從而進(jìn)行查重處理,但是該專(zhuān)利并未具體公布如何計(jì)算稿件數(shù)據(jù)之間的相似度問(wèn)題,也并未涉及如何利用稿件數(shù)據(jù)之間的相似度對(duì)稿件數(shù)據(jù)之間進(jìn)行關(guān)聯(lián)。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)上述問(wèn)題,本發(fā)明通過(guò)一種醫(yī)療數(shù)據(jù)查重和關(guān)聯(lián)的方法及系統(tǒng),解決了現(xiàn)有技術(shù)中無(wú)法對(duì)大量存在非結(jié)構(gòu)化數(shù)據(jù)的醫(yī)療數(shù)據(jù)有效查重以及缺乏建立醫(yī)療數(shù)據(jù)之間的關(guān)聯(lián)的問(wèn)題。
為了實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案。
一種醫(yī)療數(shù)據(jù)查重和關(guān)聯(lián)的方法,其特征在于,包括以下步驟:
(1)提取待處理的醫(yī)療數(shù)據(jù)中的核心數(shù)據(jù)項(xiàng),所述核心數(shù)據(jù)項(xiàng)用于將所在數(shù)據(jù)與其他數(shù)據(jù)區(qū)分開(kāi);
(2)將核心數(shù)據(jù)項(xiàng)分類(lèi),先將核心數(shù)據(jù)項(xiàng)先分為結(jié)構(gòu)化數(shù)據(jù)項(xiàng)及非結(jié)構(gòu)化數(shù)據(jù)項(xiàng),而后在結(jié)構(gòu)化數(shù)據(jù)項(xiàng)中選取一組數(shù)據(jù)項(xiàng)作為排除數(shù)組,其他結(jié)構(gòu)化數(shù)據(jù)項(xiàng)則作為模糊數(shù)組;
(3)分別對(duì)排除數(shù)組及模糊數(shù)組中的各個(gè)數(shù)據(jù)項(xiàng)初步篩查,
(3a)當(dāng)排除數(shù)組中任意一個(gè)數(shù)據(jù)項(xiàng)與醫(yī)療數(shù)據(jù)庫(kù)中已有同類(lèi)數(shù)據(jù)項(xiàng)不同時(shí)則判斷該醫(yī)療數(shù)據(jù)不重復(fù)或無(wú)關(guān)聯(lián)并輸入醫(yī)療數(shù)據(jù)庫(kù)中,
或(3b)當(dāng)模糊數(shù)組中不同數(shù)據(jù)項(xiàng)個(gè)數(shù)與模糊數(shù)組總項(xiàng)數(shù)的比例大于設(shè)定的閾值m1時(shí)則判斷該醫(yī)療數(shù)據(jù)不重復(fù)或無(wú)關(guān)聯(lián)并輸入醫(yī)療數(shù)據(jù)庫(kù)中,
其他情況則進(jìn)入下一步驟;
(4)對(duì)核心數(shù)據(jù)項(xiàng)中的各項(xiàng)數(shù)據(jù)項(xiàng)進(jìn)行深度篩查,將各個(gè)數(shù)據(jù)項(xiàng)的權(quán)重ai進(jìn)行賦值,對(duì)各個(gè)數(shù)據(jù)項(xiàng)的相似度f(wàn)i進(jìn)行判斷計(jì)算,
并根據(jù)下列公式計(jì)算該醫(yī)療數(shù)據(jù)與醫(yī)療數(shù)據(jù)庫(kù)中已有醫(yī)療數(shù)據(jù)的總相似度f(wàn):
其中,0≤fi≤1,0<f≤1,
當(dāng)f=1時(shí),則判斷該醫(yī)療數(shù)據(jù)為重復(fù)數(shù)據(jù)并刪除;
(5)設(shè)定疑似重復(fù)數(shù)據(jù)相似度的閾值m2和/或疑似關(guān)聯(lián)數(shù)據(jù)的閾值m3,當(dāng)m2<f<1時(shí)判斷該醫(yī)療數(shù)據(jù)為疑似重復(fù)數(shù)據(jù)并提交人工核查,當(dāng)m3<f<1時(shí)判斷該醫(yī)療數(shù)據(jù)為疑似關(guān)聯(lián)數(shù)據(jù)并提交人工核查;
(6)人工核查疑似重復(fù)和/或關(guān)聯(lián)數(shù)據(jù)并給予判斷后,將被判斷為不重復(fù)的數(shù)據(jù)輸入醫(yī)療數(shù)據(jù)庫(kù)中,并給予判斷為存在關(guān)聯(lián)的數(shù)據(jù)一個(gè)或多個(gè)相應(yīng)的關(guān)聯(lián)標(biāo)簽。
進(jìn)一步地,所述相似度f(wàn)i的判斷計(jì)算方法為:
對(duì)于結(jié)構(gòu)化數(shù)據(jù)項(xiàng),當(dāng)其與醫(yī)療數(shù)據(jù)庫(kù)中已有同類(lèi)數(shù)據(jù)項(xiàng)完全相同時(shí),其相似度
對(duì)于非結(jié)構(gòu)化數(shù)據(jù)項(xiàng),其相似度
其中,sim(s,t)=|s∩t|/|s∪t|,
進(jìn)一步地,在直接計(jì)算非結(jié)構(gòu)化數(shù)據(jù)項(xiàng)的文本集合t與醫(yī)療數(shù)據(jù)庫(kù)中已有同類(lèi)數(shù)據(jù)項(xiàng)的文本集合s之間的jaccard相似度前,還對(duì)文本集合t和文本集合s進(jìn)行如下預(yù)處理:
(i)利用分詞庫(kù),將t和s中的文本字段分解成若干詞,并將每個(gè)詞最小處理數(shù)據(jù)項(xiàng),
(ii)將來(lái)自t與s的對(duì)應(yīng)分詞數(shù)據(jù)項(xiàng)按照k-shingle算法逐一比較。作為
進(jìn)一步地,所述分詞庫(kù)包括三個(gè)部分:
藥物名稱(chēng)部分,其包括藥物商品名,通用名以及常用方案的英文字母縮寫(xiě);
癥狀描述部分,其包括醫(yī)療常見(jiàn)的癥狀描述常用詞;
基因檢測(cè)部分,其包括基因檢測(cè)的位點(diǎn)縮寫(xiě)以及基因檢測(cè)的結(jié)果描述。
本發(fā)明的另一個(gè)目的是提供一種醫(yī)療數(shù)據(jù)查重和關(guān)聯(lián)的系統(tǒng),其特征在于,該系統(tǒng)包括:
核心數(shù)據(jù)項(xiàng)單元,用于提取待處理的醫(yī)療數(shù)據(jù)中的核心數(shù)據(jù)項(xiàng),所述核心數(shù)據(jù)項(xiàng)用于將所在數(shù)據(jù)與其他數(shù)據(jù)區(qū)分開(kāi);
分類(lèi)單元,用于將核心數(shù)據(jù)項(xiàng)分類(lèi),先將核心數(shù)據(jù)項(xiàng)先分為結(jié)構(gòu)化數(shù)據(jù)項(xiàng)及非結(jié)構(gòu)化數(shù)據(jù)項(xiàng),而后在結(jié)構(gòu)化數(shù)據(jù)項(xiàng)中選取一組數(shù)據(jù)項(xiàng)作為排除數(shù)組,其他結(jié)構(gòu)化數(shù)據(jù)項(xiàng)則作為模糊數(shù)組;
初步篩查單元,用于分別對(duì)排除數(shù)組及模糊數(shù)組中的各個(gè)數(shù)據(jù)項(xiàng)初步篩查:當(dāng)排除數(shù)組中任意一個(gè)數(shù)據(jù)項(xiàng)與醫(yī)療數(shù)據(jù)庫(kù)中已有同類(lèi)數(shù)據(jù)項(xiàng)不同時(shí)則判斷該醫(yī)療數(shù)據(jù)不重復(fù)或無(wú)關(guān)聯(lián)并輸入醫(yī)療數(shù)據(jù)庫(kù)中,或當(dāng)模糊數(shù)組中不同數(shù)據(jù)項(xiàng)個(gè)數(shù)與模糊數(shù)組總項(xiàng)數(shù)的比例大于設(shè)定的閾值m1時(shí)則判斷該醫(yī)療數(shù)據(jù)不重復(fù)或無(wú)關(guān)聯(lián)并輸入醫(yī)療數(shù)據(jù)庫(kù)中;
深度篩查單元,用于對(duì)經(jīng)初步篩查單元處理后的各項(xiàng)數(shù)據(jù)項(xiàng)進(jìn)行深度篩查,將各個(gè)數(shù)據(jù)項(xiàng)的權(quán)重ai進(jìn)行賦值,對(duì)各個(gè)數(shù)據(jù)項(xiàng)的相似度f(wàn)i進(jìn)行判斷計(jì)算,
并根據(jù)下列公式計(jì)算該醫(yī)療數(shù)據(jù)與醫(yī)療數(shù)據(jù)庫(kù)中已有醫(yī)療數(shù)據(jù)的總相似度f(wàn):
其中,0≤fi≤1,0<f≤1,
當(dāng)f=1時(shí),則判斷該醫(yī)療數(shù)據(jù)為重復(fù)數(shù)據(jù)并刪除;
判斷單元,用于設(shè)定疑似重復(fù)數(shù)據(jù)相似度的閾值m2和/或疑似關(guān)聯(lián)數(shù)據(jù)的閾值m3,當(dāng)m2<f<1時(shí)判斷該醫(yī)療數(shù)據(jù)為疑似重復(fù)數(shù)據(jù)并提交人工核查,當(dāng)m3<f<1時(shí)判斷該醫(yī)療數(shù)據(jù)為疑似關(guān)聯(lián)數(shù)據(jù)并提交人工核查;
人工核查單元,用于人工核查疑似重復(fù)和/或關(guān)聯(lián)數(shù)據(jù),在人工給予判斷后,將被判斷為不重復(fù)的數(shù)據(jù)輸入醫(yī)療數(shù)據(jù)庫(kù)中,并給予判斷為存在關(guān)聯(lián)的數(shù)據(jù)一個(gè)或多個(gè)相應(yīng)的關(guān)聯(lián)標(biāo)簽。
進(jìn)一步地,所述深度篩查單元包括:
權(quán)重賦值子單元,用于核心數(shù)據(jù)項(xiàng)中的各個(gè)數(shù)據(jù)項(xiàng)的權(quán)重ai進(jìn)行賦值;
相似度f(wàn)i判斷計(jì)算子單元,用于對(duì)各個(gè)數(shù)據(jù)項(xiàng)的相似度f(wàn)i進(jìn)行判斷計(jì)算,包括:
結(jié)構(gòu)化數(shù)據(jù)項(xiàng)模塊,用于結(jié)構(gòu)化數(shù)據(jù)項(xiàng)相似度
非結(jié)構(gòu)化數(shù)據(jù)項(xiàng)模塊,用于非結(jié)構(gòu)化數(shù)據(jù)項(xiàng)相似度
總相似度f(wàn)計(jì)算判斷子單元,用于計(jì)算該醫(yī)療數(shù)據(jù)與醫(yī)療數(shù)據(jù)庫(kù)中已有醫(yī)療數(shù)據(jù)的總相似度f(wàn):
其中,
當(dāng)f=1時(shí),則判斷該醫(yī)療數(shù)據(jù)為重復(fù)數(shù)據(jù)并刪除。
進(jìn)一步地,所述深度篩查單元還包括非結(jié)構(gòu)化數(shù)據(jù)項(xiàng)模預(yù)處理模塊,用于將非結(jié)構(gòu)化數(shù)據(jù)項(xiàng)的文本集合t與醫(yī)療數(shù)據(jù)庫(kù)中已有同類(lèi)數(shù)據(jù)項(xiàng)的文本集合s進(jìn)行預(yù)處理,
所述預(yù)處理為:
(i)利用分詞庫(kù),將t和s中的文本字段分解成若干詞,并將每個(gè)詞作為最小處理數(shù)據(jù)項(xiàng),
(ii)將來(lái)自t與s的對(duì)應(yīng)分詞數(shù)據(jù)項(xiàng)按照k-shingle算法逐一比較。
進(jìn)一步地,所述深度篩查單元還包括分詞庫(kù)模塊,用于將庫(kù)中存在的文本數(shù)據(jù)項(xiàng)將t和s中的文本字段分解,
包括三個(gè)子模塊:
藥物名稱(chēng)子模塊,其包括藥物商品名,通用名以及常用方案的英文字母縮寫(xiě);
癥狀描述子模塊,其包括醫(yī)療常見(jiàn)的癥狀描述常用詞;
基因檢測(cè)子模塊,其包括基因檢測(cè)的位點(diǎn)縮寫(xiě)以及基因檢測(cè)的結(jié)果描述。
如無(wú)特別說(shuō)明,本發(fā)明所述的結(jié)構(gòu)化數(shù)據(jù)指的是行數(shù)據(jù),存儲(chǔ)在數(shù)據(jù)庫(kù)里,可以用二維表結(jié)構(gòu)來(lái)邏輯表達(dá)實(shí)現(xiàn)的數(shù)據(jù)。
如無(wú)特別說(shuō)明,本發(fā)明所述的非結(jié)構(gòu)化數(shù)據(jù)指的不方便用數(shù)據(jù)庫(kù)二維邏輯表來(lái)表現(xiàn)的數(shù)據(jù),包括所有格式的辦公文檔、文本、圖片、標(biāo)準(zhǔn)通用標(biāo)記語(yǔ)言下的子集xml、html、各類(lèi)報(bào)表、圖像和音頻/視頻信息。
本發(fā)明所述的一種醫(yī)療數(shù)據(jù)查重和管理的方法及系統(tǒng)與現(xiàn)有技術(shù)相比的優(yōu)點(diǎn)在于,通過(guò)新的數(shù)據(jù)分類(lèi)方法和相似度算法有效計(jì)算醫(yī)療數(shù)據(jù)與現(xiàn)有數(shù)據(jù)庫(kù)中的相似度,解決了大量存在非結(jié)構(gòu)化數(shù)據(jù)的醫(yī)療數(shù)據(jù)有效查重以及缺乏建立醫(yī)療數(shù)據(jù)之間的關(guān)聯(lián)的問(wèn)題;具有漏判率低、錯(cuò)判率低、查重效率高的特點(diǎn),對(duì)進(jìn)行人工核查的人士的醫(yī)療專(zhuān)業(yè)度要求不高,因此查重和關(guān)聯(lián)的運(yùn)行成本顯著降低。
具體實(shí)施方式
下面詳細(xì)描述本發(fā)明的實(shí)施例。所述實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能視為對(duì)本發(fā)明的限制。為了避免不必要地模糊所述實(shí)施例,本部分對(duì)一些本領(lǐng)域的公知技術(shù),即對(duì)于本領(lǐng)域技術(shù)人員而言是顯而易見(jiàn)的技術(shù),未進(jìn)行詳細(xì)描述。
一種醫(yī)療數(shù)據(jù)查重和關(guān)聯(lián)的方法,其特征在于,包括以下步驟:
s101提取待處理的醫(yī)療數(shù)據(jù)中的核心數(shù)據(jù)項(xiàng),所述核心數(shù)據(jù)項(xiàng)用于將所在數(shù)據(jù)與其他數(shù)據(jù)區(qū)分開(kāi);
s102將核心數(shù)據(jù)項(xiàng)分類(lèi),先將核心數(shù)據(jù)項(xiàng)先分為結(jié)構(gòu)化數(shù)據(jù)項(xiàng)及非結(jié)構(gòu)化數(shù)據(jù)項(xiàng),而后在結(jié)構(gòu)化數(shù)據(jù)項(xiàng)中選取一組數(shù)據(jù)項(xiàng)作為排除數(shù)組,其他結(jié)構(gòu)化數(shù)據(jù)項(xiàng)則作為模糊數(shù)組;
s103分別對(duì)排除數(shù)組及模糊數(shù)組中的各個(gè)數(shù)據(jù)項(xiàng)初步篩查,
s103a當(dāng)排除數(shù)組中任意一個(gè)數(shù)據(jù)項(xiàng)與醫(yī)療數(shù)據(jù)庫(kù)中已有同類(lèi)數(shù)據(jù)項(xiàng)不同時(shí)則判斷該醫(yī)療數(shù)據(jù)不重復(fù)或無(wú)關(guān)聯(lián)并輸入醫(yī)療數(shù)據(jù)庫(kù)中,
或s103b當(dāng)模糊數(shù)組中不同數(shù)據(jù)項(xiàng)個(gè)數(shù)與模糊數(shù)組總項(xiàng)數(shù)的比例大于設(shè)定的閾值m1時(shí)則判斷該醫(yī)療數(shù)據(jù)不重復(fù)或無(wú)關(guān)聯(lián)并輸入醫(yī)療數(shù)據(jù)庫(kù)中,
其他情況則進(jìn)入下一步驟;
s104對(duì)核心數(shù)據(jù)項(xiàng)中的各項(xiàng)數(shù)據(jù)項(xiàng)進(jìn)行深度篩查,將各個(gè)數(shù)據(jù)項(xiàng)的權(quán)重ai進(jìn)行賦值,對(duì)各個(gè)數(shù)據(jù)項(xiàng)的相似度f(wàn)i進(jìn)行判斷計(jì)算,
并根據(jù)下列公式計(jì)算該醫(yī)療數(shù)據(jù)與醫(yī)療數(shù)據(jù)庫(kù)中已有醫(yī)療數(shù)據(jù)的總相似度f(wàn):
其中,0≤fi≤1,0<f≤1,
當(dāng)f=1時(shí),則判斷該醫(yī)療數(shù)據(jù)為重復(fù)數(shù)據(jù)并刪除;
s105設(shè)定疑似重復(fù)數(shù)據(jù)相似度的閾值m2和/或疑似關(guān)聯(lián)數(shù)據(jù)的閾值m3,當(dāng)m2<f<1時(shí)判斷該醫(yī)療數(shù)據(jù)為疑似重復(fù)數(shù)據(jù)并提交人工核查,當(dāng)m3<f<1時(shí)判斷該醫(yī)療數(shù)據(jù)為疑似關(guān)聯(lián)數(shù)據(jù)并提交人工核查;
s106人工核查疑似重復(fù)和/或關(guān)聯(lián)數(shù)據(jù)并給予判斷后,將被判斷為不重復(fù)的數(shù)據(jù)輸入醫(yī)療數(shù)據(jù)庫(kù)中,并給予判斷為存在關(guān)聯(lián)的數(shù)據(jù)一個(gè)或多個(gè)相應(yīng)的關(guān)聯(lián)標(biāo)簽。
進(jìn)一步地,所述相似度f(wàn)i的判斷計(jì)算方法為:
對(duì)于結(jié)構(gòu)化數(shù)據(jù)項(xiàng),當(dāng)其與醫(yī)療數(shù)據(jù)庫(kù)中已有同類(lèi)數(shù)據(jù)項(xiàng)完全相同時(shí),其相似度
對(duì)于非結(jié)構(gòu)化數(shù)據(jù)項(xiàng),其相似度
其中,sim(s,t)=|s∩t|/|s∪t|,
進(jìn)一步地,在直接計(jì)算非結(jié)構(gòu)化數(shù)據(jù)項(xiàng)的文本集合t與醫(yī)療數(shù)據(jù)庫(kù)中已有同類(lèi)數(shù)據(jù)項(xiàng)的文本集合s之間的jaccard相似度前,還對(duì)文本集合t和文本集合s進(jìn)行如下預(yù)處理:
(i)利用分詞庫(kù),將t和s中的文本字段分解成若干詞,并將每個(gè)詞作為最小處理數(shù)據(jù)項(xiàng),
(ii)將來(lái)自t與s的對(duì)應(yīng)分詞數(shù)據(jù)項(xiàng)按照k-shingle算法逐一比較。
進(jìn)一步地,所述分詞庫(kù)包括三個(gè)部分:
藥物名稱(chēng)部分,其包括藥物商品名,通用名以及常用方案的英文字母縮寫(xiě);
癥狀描述部分,其包括醫(yī)療常見(jiàn)的癥狀描述常用詞;
基因檢測(cè)部分,其包括基因檢測(cè)的位點(diǎn)縮寫(xiě)以及基因檢測(cè)的結(jié)果描述。
下面以腫瘤病歷為例具體說(shuō)明醫(yī)療數(shù)據(jù)的分類(lèi)。
病歷中核心結(jié)構(gòu)化數(shù)據(jù)項(xiàng)在表1中列出,
表1
,非結(jié)構(gòu)化數(shù)據(jù)為:t1主訴、t2歷史治療方案和t3本次治療方案。
根據(jù)發(fā)明人實(shí)踐經(jīng)驗(yàn),將以上結(jié)構(gòu)化核心數(shù)據(jù)再分類(lèi):
a排除數(shù)組明細(xì):
疾病名稱(chēng)一級(jí)分類(lèi)、疾病名稱(chēng)二級(jí)分類(lèi)、病人姓名縮寫(xiě)、性別、出生地、出生年月、長(zhǎng)期居住地、職業(yè)、民族、醫(yī)院名稱(chēng)、科室、id號(hào)(病歷/案號(hào))、住院號(hào)、入院時(shí)間、出院時(shí)間、分化程度和病理名稱(chēng),
b模糊數(shù)組明細(xì):
婚姻狀況、疾病分期、疾病tnm分期、是否轉(zhuǎn)移、轉(zhuǎn)移部位、首次入院時(shí)間、首次入院癥狀、首次癥狀出現(xiàn)到就診的時(shí)間段、本次入院癥狀、本次癥狀出現(xiàn)時(shí)間、吸煙、煙齡、飲酒、酒齡、婚育史和家族遺傳腫瘤病史。
需要說(shuō)明的是,以上對(duì)于腫瘤病歷的分類(lèi)僅為了使本發(fā)明所述的核心數(shù)據(jù)項(xiàng)以及核心數(shù)據(jù)分類(lèi)這些定義更加直觀,而不能限定本發(fā)明所述的核心數(shù)據(jù)項(xiàng)以及對(duì)核心數(shù)據(jù)項(xiàng)分類(lèi)的方法。對(duì)于不同種類(lèi)的醫(yī)療數(shù)據(jù),可以設(shè)置不同的核心數(shù)據(jù)項(xiàng),亦可以針對(duì)同樣的核心數(shù)據(jù)項(xiàng)進(jìn)行不一樣的排除數(shù)組及模糊數(shù)組的設(shè)置。但對(duì)于這些設(shè)置,其權(quán)限僅限于特定少數(shù)人,不對(duì)一般醫(yī)療數(shù)據(jù)輸入者開(kāi)放。
需要說(shuō)明的是,本發(fā)明披露的方法和系統(tǒng)中,醫(yī)療數(shù)據(jù)可能存在以下幾種狀態(tài):
1-待處理,即數(shù)據(jù)在方法/系統(tǒng)處理的初始狀態(tài);
2-疑似重復(fù),即方法/系統(tǒng)根據(jù)算法自動(dòng)得出的結(jié)論,待人工處理給出最終結(jié)果;
3-自動(dòng)正常,即方法/系統(tǒng)根據(jù)算法自動(dòng)得出數(shù)據(jù)無(wú)重復(fù)的結(jié)論,并使數(shù)據(jù)輸入數(shù)據(jù)庫(kù)中;
4-自動(dòng)刪除,即方法/系統(tǒng)根據(jù)算法自動(dòng)得出數(shù)據(jù)重復(fù)的結(jié)論,并刪除該數(shù)據(jù);
5-人工正常,即人工對(duì)疑似重復(fù)的數(shù)據(jù)進(jìn)行處理后判斷該數(shù)據(jù)為非重復(fù)并添加可能的關(guān)聯(lián)標(biāo)記的最終結(jié)果;
6-人工刪除,即人工對(duì)疑似重復(fù)記錄進(jìn)行處理后判斷該數(shù)據(jù)為重復(fù)數(shù)據(jù)并刪除該數(shù)據(jù)。
實(shí)驗(yàn)例
由一組(組a)具有醫(yī)療專(zhuān)業(yè)背景的人用人工方式篩選出1萬(wàn)份有效腫瘤病歷,在這些有效病歷中隨機(jī)抽取200份。由組a的人以抽取出的200份病歷為模板,通過(guò)人為編輯修改其中除病人基本信息以外的一些數(shù)據(jù)得到新的200份病歷a。由一組(組b)不具有醫(yī)療專(zhuān)業(yè)背景的人同樣的200份病歷為模板,通過(guò)人為編輯修改其中除病人基本信息以外的一些數(shù)據(jù)得到新的200份病歷b。
將原來(lái)1萬(wàn)份有效病歷、200份“重復(fù)”病歷a以及200份“重復(fù)”病歷b混合后,由另四組(組c、組d、組e和組f)具有醫(yī)療專(zhuān)業(yè)背景的人和另四組(組g、組h、組i和組j)不具有醫(yī)療專(zhuān)業(yè)背景的人分別通過(guò)機(jī)器遍歷查重加人工比對(duì)的方式在不知道到重復(fù)病歷件數(shù)的前提下篩選這1.04萬(wàn)份病歷中的“重復(fù)”病歷。運(yùn)用本發(fā)明提供的查重系統(tǒng)篩選以上同樣的1.04萬(wàn)份病歷,其中人工篩選部分分別由另一組(組k)具有醫(yī)療專(zhuān)業(yè)背景的人和另一組(組l)不具有醫(yī)療專(zhuān)業(yè)背景的人進(jìn)行操作。
組a和組b的組員人數(shù)相同,組c-l的組員人數(shù)相同。
表2為不同篩選方式的結(jié)果以及篩選所花時(shí)間,其中時(shí)間按組員每人每天8工作時(shí)間計(jì)算。
表2
通過(guò)表2可以看到,使用本發(fā)明提供的醫(yī)療數(shù)據(jù)查重系統(tǒng),可以在有效縮短數(shù)據(jù)處理時(shí)間的同時(shí)降低查重的漏判率和錯(cuò)判率。并且,本發(fā)明提供的醫(yī)療數(shù)據(jù)查重系統(tǒng)的人工篩查部分即使采用不具有醫(yī)療專(zhuān)業(yè)背景的人進(jìn)行操作,其漏判率和錯(cuò)判率也比采用具有醫(yī)療專(zhuān)業(yè)背景的人用機(jī)器遍歷查重加人工比對(duì)的方式的漏判率和錯(cuò)判率有顯著的降低。
通過(guò)以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可借助軟件加必需的通用硬件平臺(tái)的方式來(lái)實(shí)現(xiàn),當(dāng)然也可以通過(guò)硬件,或者二者的結(jié)合來(lái)實(shí)施?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該軟件模塊或計(jì)算機(jī)軟件產(chǎn)品可以存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述的方法。存儲(chǔ)介質(zhì)可以是隨機(jī)存儲(chǔ)器(ram)、內(nèi)存、只讀存儲(chǔ)器(rom)、電可編程rom、電可擦除可編程rom、寄存器、硬盤(pán)、可移動(dòng)磁盤(pán)、cd-rom、或技術(shù)領(lǐng)域內(nèi)所公知的任意其它形式的存儲(chǔ)介質(zhì)。