1.一種基于知識(shí)的電子病歷質(zhì)控方法,其特征在于,包括如下步驟:
(1)病例結(jié)構(gòu)化設(shè)計(jì):以臨床知識(shí)結(jié)構(gòu)為背景,采用面向?qū)ο蟮慕Y(jié)構(gòu)化模型對(duì)病歷數(shù)據(jù)進(jìn)行分析,產(chǎn)生一個(gè)統(tǒng)一的病歷結(jié)構(gòu)化模型,每一份病歷文件都是由不同層次的對(duì)象組合而成,對(duì)于疾病和藥物采用編碼類型進(jìn)行描述,對(duì)于事件、病史和治療采用自然語(yǔ)言進(jìn)行描述,對(duì)一個(gè)事件的相關(guān)數(shù)據(jù)使用三個(gè)時(shí)間進(jìn)行標(biāo)記,即數(shù)據(jù)錄入時(shí)間、數(shù)據(jù)獲得理解的時(shí)間、該理解被應(yīng)用的時(shí)間,模型內(nèi)部可實(shí)現(xiàn)數(shù)據(jù)處理和轉(zhuǎn)換。
(2)按照(1)中預(yù)先設(shè)定的時(shí)限規(guī)則及語(yǔ)義規(guī)則錄入病歷數(shù)據(jù)。
(3)糾錯(cuò)檢查:首先采用事先訓(xùn)練的條件隨機(jī)場(chǎng)模型從病歷中識(shí)別出命名實(shí)體,然后采用正則化匹配算法將上一步獲得的命名實(shí)體類型及名字與知識(shí)庫(kù)中的靶詞條匹配,判斷該實(shí)體信息的臨床規(guī)范性,若該實(shí)體信息符合規(guī)范,則進(jìn)行二元接續(xù)性檢查,判斷該實(shí)體與上下文的連接性,從而判斷其正確性,最后給出判斷結(jié)果,若結(jié)果不正確,則反饋給在線病歷錄入負(fù)責(zé)人,重復(fù)上述1、2步驟。
(4)將質(zhì)控合格的病歷上傳至數(shù)據(jù)中心,將定期自動(dòng)抽查數(shù)據(jù)中心中的病歷數(shù)據(jù)并給出抽查結(jié)果,若不合格,則返回步驟(2)重新錄入該數(shù)據(jù)。
(5)糾錯(cuò)知識(shí)庫(kù)的學(xué)習(xí):上傳至數(shù)據(jù)中心的病歷劃分為5種字典類型,即診斷、檢查、化驗(yàn)、手術(shù)和用藥,分別對(duì)其進(jìn)行統(tǒng)計(jì)分析,建立知識(shí)庫(kù)。首先,語(yǔ)料集采用的是基于臨床專業(yè)字典的分詞工具ICTCLAS2015;其次,語(yǔ)料集的標(biāo)注采用“BIEO”標(biāo)注方式;最后,采用5種特征作為特征集,并用于條件隨機(jī)場(chǎng)模型的訓(xùn)練。糾錯(cuò)知識(shí)庫(kù)通過(guò)自學(xué)習(xí)實(shí)現(xiàn)自動(dòng)更新,強(qiáng)化質(zhì)控效果。
2.如權(quán)利要求1所述的一種基于知識(shí)的電子病歷質(zhì)控方法,其特征在于,所述步驟(3)中,二元接續(xù)性分析的具體步驟:在判斷待查詞條與上下文的接續(xù)性時(shí),考察的優(yōu)先級(jí)順序:詞同現(xiàn)概率>詞互信概率>詞性同現(xiàn)概率。顯而易見地,這三個(gè)評(píng)判指標(biāo)的嚴(yán)格程度是不斷下降的,若都無(wú)法達(dá)到閾值,就可以判定待查詞條為錯(cuò)誤信息了。
3.如權(quán)利要求1所述的一種基于知識(shí)的電子病歷質(zhì)控方法,其特征在于,所述步驟(3)中,以字典數(shù)據(jù)為靶詞條的匹配過(guò)程中,考慮到命名實(shí)體識(shí)別的結(jié)果存在一定的偏差,特別是對(duì)于實(shí)體邊際的精準(zhǔn)度;所以匹配的流程以正則匹配(頭尾兩字為約束條件)作為初步判斷,并根據(jù)實(shí)體所處的上下文信息進(jìn)行正向和反向最大匹配;避免由于命名實(shí)體識(shí)別不準(zhǔn)確導(dǎo)致的誤查錯(cuò)。
4.如權(quán)利要求1所述的一種基于知識(shí)的電子病歷質(zhì)控方法,其特征在于,所述步驟(5)中,標(biāo)注方法采用的是“BIOE”的標(biāo)注方式,便于機(jī)器對(duì)于字符特征的充分利用以及對(duì)詞語(yǔ)邊界的統(tǒng)計(jì)學(xué)習(xí)?!癇”表示標(biāo)記對(duì)象的起始字符,“I”表示標(biāo)記對(duì)象的中間字符,“E”表示標(biāo)記對(duì)象的結(jié)束字符,而“O”則表示無(wú)關(guān)字符。
5.如權(quán)利要求1所述的一種基于知識(shí)的電子病歷質(zhì)控方法,其特征在于,所述步驟(5)中,5種特征包括字符特征、詞性特征、構(gòu)詞特征、區(qū)域特征及上下文窗口特征,其中前四個(gè)特征用于定義條件隨機(jī)場(chǎng)模型中的特征函數(shù),而上下文窗口特征是用于定義模型在求取各特征函數(shù)的最優(yōu)參數(shù)時(shí),能利用的上下文范圍。