本發(fā)明涉及電子病歷質(zhì)控領(lǐng)域,具體涉及一種基于知識的電子病歷質(zhì)控方法。
背景技術(shù):
病歷客觀了反映病人病情的發(fā)生、發(fā)展和轉(zhuǎn)歸的全過程,不僅是醫(yī)療、教學、科研及保健等工作的基礎資料,更是解決醫(yī)療糾紛、判定法律責任的事實依據(jù)。病歷質(zhì)量的優(yōu)劣,直接或間接地反映醫(yī)療質(zhì)量的高低。隨著醫(yī)療技術(shù)的發(fā)展,醫(yī)療體系對結(jié)構(gòu)良好、容易檢索的病人數(shù)據(jù)的需求日益增長,電子病歷EMR(Electronic Medical Record)也就應運而生。而電子病歷并非簡單的病歷的電子存儲,它實質(zhì)上是醫(yī)療過程信息化的重要組成部分,是以病人為中心的信息集成,是醫(yī)院所有業(yè)務的有機融合,是對醫(yī)療信息及其相關(guān)處理過程綜合化的體現(xiàn)。
針對電子病歷日益普及的現(xiàn)狀,電子病歷質(zhì)控已成為國內(nèi)剛剛發(fā)展起來的一項新型的電子網(wǎng)絡質(zhì)控模式,它具有突出的功能優(yōu)勢和高效率的質(zhì)控運行能力,在病歷質(zhì)控方面有著良好的應用價值和開發(fā)應用空間,特別是在基層醫(yī)院推廣應用具有現(xiàn)實意義,這一質(zhì)控模式對提高醫(yī)院病歷質(zhì)控效果和病歷質(zhì)量,提升醫(yī)院醫(yī)療質(zhì)量管理發(fā)揮著重要作用。而現(xiàn)行醫(yī)療環(huán)境下,使用的電子病歷質(zhì)控的主要方式是人工檢查,計算機僅起到輔助識別及存儲的作用,并未將新興的人工智能技術(shù)運用其中,無法滿足智能醫(yī)療市場的需求。
技術(shù)實現(xiàn)要素:
為了解決上述問題,本發(fā)明設計了一種基于知識的電子病歷質(zhì)控方法,可以實現(xiàn)對結(jié)構(gòu)化病歷數(shù)據(jù)的檢錯、整合、分析,充分利用了智能醫(yī)療環(huán)境下的大量數(shù)據(jù)及人工智能處理技術(shù),減少了病歷質(zhì)控的成本,構(gòu)建糾錯知識庫,提高了質(zhì)控算法及規(guī)則的質(zhì)量,有效的改善了現(xiàn)有技術(shù)的問題。
為了實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:
一種基于知識的電子病歷質(zhì)控方法,實施流程如下:
(1)病例結(jié)構(gòu)化設計:以臨床知識結(jié)構(gòu)為背景,采用面向?qū)ο蟮慕Y(jié)構(gòu)化模型對病歷數(shù)據(jù)進行分析,產(chǎn)生一個統(tǒng)一的病歷結(jié)構(gòu)化模型,每一份病歷文件都是由不同層次的對象組合而成,對于疾病和藥物采用編碼類型進行描述,對于事件、病史和治療采用自然語言進行描述,對一個事件的相關(guān)數(shù)據(jù)使用三個時間進行標記,即數(shù)據(jù)錄入時間、數(shù)據(jù)獲得理解的時間、該理解被應用的時間,模型內(nèi)部可實現(xiàn)數(shù)據(jù)處理和轉(zhuǎn)換。
(2)按照(1)中預先設定的時限規(guī)則及語義規(guī)則錄入病歷數(shù)據(jù)。
(3)糾錯檢查:首先采用事先訓練的條件隨機場模型從病歷中識別出命名實體,然后采用正則化匹配算法將上一步獲得的命名實體類型及名字與知識庫中的靶詞條匹配,判斷該實體信息的臨床規(guī)范性,若該實體信息符合規(guī)范,則進行二元接續(xù)性檢查,判斷該實體與上下文的連接性,從而判斷其正確性,最后給出判斷結(jié)果,若結(jié)果不正確,則反饋給在線病歷錄入負責人,重復上述1、2步驟。
(4)將質(zhì)控合格的病歷上傳至數(shù)據(jù)中心,將定期自動抽查數(shù)據(jù)中心中的病歷數(shù)據(jù)并給出抽查結(jié)果,若不合格,則返回步驟(2)重新錄入該數(shù)據(jù)。
(5)糾錯知識庫的學習:上傳至數(shù)據(jù)中心的病歷劃分為5種字典類型,即診斷、檢查、化驗、手術(shù)和用藥,分別對其進行統(tǒng)計分析,建立知識庫。首先,語料集采用的是基于臨床專業(yè)字典的分詞工具ICTCLAS2015;其次,語料集的標注采用“BIEO”標注方式;最后,采用5種特征作為特征集,并用于條件隨機場模型的訓練。糾錯知識庫通過自學習實現(xiàn)自動更新,強化質(zhì)控效果。
進一步地,所述步驟(3)中,二元接續(xù)性分析的具體步驟:在判斷待查詞條與上下文的接續(xù)性時,考察的優(yōu)先級順序:詞同現(xiàn)概率>詞互信概率>詞性同現(xiàn)概率。顯而易見地,這三個評判指標的嚴格程度是不斷下降的,若都無法達到閾值,就可以判定待查詞條為錯誤信息了。
進一步地,所述步驟(3)中,以字典數(shù)據(jù)為靶詞條的匹配過程中,考慮到命名實體識別的結(jié)果存在一定的偏差,特別是對于實體邊際的精準度;所以匹配的流程以正則匹配(頭尾兩字為約束條件)作為初步判斷,并根據(jù)實體所處的上下文信息進行正向和反向最大匹配;避免由于命名實體識別不準確導致的誤查錯。
進一步地,所述步驟(5)中,標注方法采用的是“BIOE”的標注方式,便于機器對于字符特征的充分利用以及對詞語邊界的統(tǒng)計學習?!癇”表示標記對象的起始字符,“I”表示標記對象的中間字符,“E”表示標記對象的結(jié)束字符,而“O”則表示無關(guān)字符。
進一步地,所述步驟(5)中,5種特征包括字符特征、詞性特征、構(gòu)詞特征、區(qū)域特征及上下文窗口特征,其中前四個特征用于定義條件隨機場模型中的特征函數(shù),而上下文窗口特征是用于定義模型在求取各特征函數(shù)的最優(yōu)參數(shù)時,能利用的上下文范圍。
本發(fā)明有益效果為:
(1)本發(fā)明采用的面向?qū)ο蟮慕Y(jié)構(gòu)化設計可以適應不同病例的結(jié)構(gòu)化處理,病例結(jié)構(gòu)化程度高、數(shù)據(jù)粒度細,可以實現(xiàn)數(shù)據(jù)的單位轉(zhuǎn)換以及絕對時間和相對時間的轉(zhuǎn)換,數(shù)據(jù)存儲方式可以滿足海量數(shù)據(jù)分析的要求,保證了數(shù)據(jù)的完整性、有效性、可用性。
(2)本發(fā)明中,知識庫是通過語料集處理、語料標注以及特征集組合進行自學習,得到F值高達88.89%的基于條件隨機場的命名實體識別模型,這種自學習方式的學習效率高,可自行迭代,減少人工成本。并伴隨著數(shù)據(jù)量的增加,知識庫更加完善,模型的識別能力越強,糾錯檢查功能越強。
(3)本發(fā)明采用了正則匹配、正向最大化匹配、反向最大化匹配等自然語言處理技術(shù),顯著降低了由于詞條匹配問題導致的漏檢和誤檢率,并在此基礎上,利用二元接續(xù)性和互信息理論,通過對待校驗詞的上下文同現(xiàn)概率進行審核,最終實現(xiàn)了完整的智能錯誤檢測功能。
附圖說明
以下結(jié)合附圖和具體實施方式來進一步說明本發(fā)明。
圖1為現(xiàn)有常用電子病歷質(zhì)控流程示意圖;
圖2為本發(fā)明實例中的電子病歷質(zhì)控方法實施方案的示意圖。
具體實施方式
為了使本發(fā)明實現(xiàn)的技術(shù)手段、創(chuàng)作特征、達成目的與功效易于明白了解,下面結(jié)合具體圖示,進一步闡述本發(fā)明。然而,本領(lǐng)域的技術(shù)人員容易理解,實例所描述的內(nèi)容僅用于說明本發(fā)明,而不應當也不會限制權(quán)利要求書中所詳細描述的本發(fā)明。
本實例在保留現(xiàn)有結(jié)構(gòu)優(yōu)點的情況下,結(jié)合計算機技術(shù)、大數(shù)據(jù)分析技術(shù)以及軟件集成技術(shù)實現(xiàn)了一種不同于傳統(tǒng)實現(xiàn)方式的電子病歷質(zhì)控方法。參見圖2,其所示為本實例中提供的電子病歷質(zhì)控方法的示意圖。由圖2可知,該基于知識的電子病歷質(zhì)控方法100主要由病歷數(shù)據(jù)結(jié)構(gòu)化階段110、糾錯檢查階段120、知識庫學習階段130以及抽樣檢查階段140四部分組成。
其中,病歷數(shù)據(jù)結(jié)構(gòu)化階段110采用面向?qū)ο蟮慕Y(jié)構(gòu)化模型對病歷數(shù)據(jù)進行分析,產(chǎn)生統(tǒng)一的病歷結(jié)構(gòu)化模型;進入糾錯檢查階段120,該階段對錄入的病歷數(shù)據(jù)進行臨床規(guī)范性檢測,若檢測通過,則上傳至數(shù)據(jù)中心;數(shù)據(jù)中心的數(shù)據(jù)供知識庫學習階段130學習,并獲取新的知識,返回糾錯檢查階段120,優(yōu)化質(zhì)控規(guī)則;抽樣檢查階段140定期從數(shù)據(jù)中心抽取病歷數(shù)據(jù)傳入到糾錯檢查階段120,進行重復檢查,加強質(zhì)控。
病歷數(shù)據(jù)結(jié)構(gòu)化階段110以臨床知識結(jié)構(gòu)為背景,采用質(zhì)控規(guī)則111,產(chǎn)生統(tǒng)一的病歷結(jié)構(gòu)化模型。其中,語義規(guī)則是指對疾病和藥物采用編碼類型進行描述,以及對事件、病史和治療采用自然語言描述;時限規(guī)則是指對一個事件的相關(guān)數(shù)據(jù)使用三個時間進行標記,即數(shù)據(jù)錄入時間、數(shù)據(jù)獲得理解的時間、該理解被應用的時間。根據(jù)預設置的質(zhì)控規(guī)則111進行病歷錄入112。
糾錯檢查階段120以樹莓派為核心設計的移動終端121對錄入的病歷數(shù)據(jù)進行糾錯檢查,并給出檢查結(jié)果122。若檢查結(jié)果不合格,則反饋給病歷錄入112;若檢查結(jié)果合格,則同步數(shù)據(jù)上傳至數(shù)據(jù)中心123予以保存和管理。
知識庫學習階段130首先將數(shù)據(jù)中心的病歷劃分為5種字典類型,即診斷、檢查、化驗、手術(shù)和用藥,分別對其進行數(shù)據(jù)統(tǒng)計分析131,建立糾錯知識庫132,并將知識庫學習到的新知識應用于糾錯檢查階段120,實現(xiàn)增量學習。
數(shù)據(jù)統(tǒng)計分析131采用臨床專業(yè)字典作為語料集,采用“BIEO”進行語料標注。最后,采用5種特征作為特征集,包括字符特征、詞性特征、構(gòu)詞特征、區(qū)域特征及上下文窗口特征,用于條件隨機場模型的訓練。
糾錯知識庫132用于存儲學習到的知識以及條件隨機場模型,供移動終端調(diào)用。
抽樣檢查階段140實現(xiàn)了定期從數(shù)據(jù)中心123抽取病歷數(shù)據(jù),傳入到糾錯檢查階段120中的移動終端121,進行重復檢查,加強質(zhì)控。
具體的:
本發(fā)明中的條件隨機場是一種無向圖模型,它是在給定需要標記的觀察序列的條件下,計算整個標記序列的聯(lián)合概率分布,而不是在給定當前狀態(tài)條件下,定義下一個狀態(tài)的狀態(tài)分布。即給定觀察序列O,求最佳序列S。該算法的優(yōu)點是:不需要嚴格的獨立性假設條件,因此,它可以容納任意的上下文信息,設計靈活;克服了最大熵馬爾可夫模型標記偏置的缺點;
條件隨機場模型的分解式:
Z(O)=∑S∏c∈Cψc(c,O)
條件隨機場的原理:
(1)目標函數(shù):基于最大熵原則進行建模,定義樣本條件熵:
(2)運用拉格朗日乘數(shù)法,求解出條件隨機場的分布如下:
Z(O)=∑Sexp(∑k∑c∈cμkfk(Sc,O,C))
本發(fā)明中二元連續(xù)性檢查是基于n-gram模型提出的,即當考慮字符Wi的正確性時,只需要考慮它與wi-1以及wi+1緊密程度,如若Wi出錯,其與wi-1以及wi+1的連續(xù)性一定比普通情況要弱。二元連續(xù)性關(guān)系廣泛應用于文本差錯中,在本發(fā)明中,采用設置閾值(τ)的方式來判斷相鄰字符間的連續(xù)性:
p(wi-1wi)≥τ
但是僅考慮詞同現(xiàn)概率作為文本差錯的絕對指標,可能會造成差錯的準確率較低,主要是由于醫(yī)學中生疏詞匯的存在,因此僅以詞同現(xiàn)概率為指標,無法斷定這兩個字之間不存在強連續(xù)性。因此,在二元連續(xù)性檢查中,引入了互信息概念,以下公式對于生疏但關(guān)聯(lián)性極強的詞匯將會得到一個較大的正數(shù):
本發(fā)明采用了600份電子病歷,共含有27019個句子和361779個字符。其中診斷命名實體占總實體數(shù)的6.71%,檢查命名實體占總實體數(shù)的33.09%,化驗命名實體占實體總數(shù)的30.60%,手術(shù)命名實體占總實體數(shù)的15.40%,用藥命名實體占總實體數(shù)的14.20%。實驗結(jié)果:平均準確率84.92%,平均召回率89.16%,平均F值為86.99%,實驗采用的計算機配置如下,處理器:3.2GHZ,操作系統(tǒng):windows10,內(nèi)存:8G。
基于上述,本發(fā)明采用的面向?qū)ο蟮慕Y(jié)構(gòu)化設計可以適應不同病例的結(jié)構(gòu)化處理,病例結(jié)構(gòu)化程度高、數(shù)據(jù)粒度細,可以實現(xiàn)數(shù)據(jù)的單位轉(zhuǎn)換以及絕對時間和相對時間的轉(zhuǎn)換,數(shù)據(jù)存儲方式可以滿足海量數(shù)據(jù)分析的要求,保證了數(shù)據(jù)的完整性、有效性、可用性。本發(fā)明中,知識庫是通過語料集處理、語料標注以及特征集組合進行自學習,得到F值高達88.89%的基于條件隨機場的命名實體識別模型。本發(fā)明采用了正則匹配、正向最大化匹配、反向最大化匹配等自然語言處理技術(shù),顯著降低了由于詞條匹配問題導致的漏檢和誤檢率,并在此基礎上,利用二元接續(xù)性和互信息理論,通過對待校驗詞的上下文同現(xiàn)概率進行審核,最終實現(xiàn)了完整的錯誤檢測功能。此外,本發(fā)明具有自學習功能,隨著數(shù)據(jù)增加,知識庫更加完善,模型的識別能力越強,糾錯檢查功能越強。
以上顯示和描述了本發(fā)明的基本原理、主要特征和本發(fā)明的優(yōu)點。本行業(yè)的技術(shù)人員應該了解,本發(fā)明不受上述實施例的限制,上述實施例和說明書中描述的只是說明本發(fā)明的原理,在不脫離本發(fā)明精神和范圍的前提下,本發(fā)明還會有各種變化和改進,這些變化和改進都落入要求保護的本發(fā)明范圍內(nèi)。本發(fā)明要求保護范圍由所附的權(quán)利要求書及其等效物界定。