專利名稱:基于自然語(yǔ)言編寫(xiě)的醫(yī)療文檔的信息抽提及格式轉(zhuǎn)換系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種基于自然語(yǔ)言編寫(xiě)的醫(yī)療文檔的信息抽提及格式轉(zhuǎn)換系 統(tǒng),用于將臨床電子病史轉(zhuǎn)化為格式化、標(biāo)準(zhǔn)化文檔,使其中的有效信息能夠應(yīng) 用于臨床科研工作;同時(shí)可根據(jù)國(guó)際通行標(biāo)準(zhǔn)使其轉(zhuǎn)化為統(tǒng)一的、規(guī)范格式的文 檔以應(yīng)用于國(guó)內(nèi)外的醫(yī)學(xué)科研交流工作,屬于信息抽提及格式轉(zhuǎn)換技術(shù)領(lǐng)域。
背景技術(shù):
隨著計(jì)算機(jī)及互聯(lián)網(wǎng)技術(shù)的發(fā)展,目前國(guó)內(nèi)大部分醫(yī)院都已經(jīng)實(shí)現(xiàn)了電子化 信息管理,其中最為重要的部分之一就是臨床病史的電子化和部分的結(jié)構(gòu)化,獲 取患者電子醫(yī)療文檔的檢索方式的準(zhǔn)確率和效率已經(jīng)有了很大的提高。
但是這些僅僅是基于人工填寫(xiě)的結(jié)構(gòu)化數(shù)據(jù),例如住院號(hào)、疾病ICD—IO 編號(hào)等等。目前許多醫(yī)院的電子病歷中的很多內(nèi)容,如手術(shù)記錄、入院病史、病 理報(bào)告等尚未達(dá)到完全結(jié)構(gòu)化。這些內(nèi)容中所包含的患者信息往往對(duì)于臨床醫(yī)生 及臨床科研工作者進(jìn)行病例篩選、臨床教學(xué)以及臨床科研的數(shù)據(jù)分析有非常重要 的意義。例如在很多回顧性研究中需要分析一些條件類似的病例資料(如某一時(shí) 間段內(nèi)行肝癌根治切除術(shù)的伴有高血壓同時(shí)處于乙肝病毒大量復(fù)制期的病理類 型為肝細(xì)胞肝癌的小肝癌患者)。在目前條件下獲取這些資料需要閱讀大量的原 始病史,然后通過(guò)手工錄入相關(guān)的表格或統(tǒng)計(jì)軟件,如果在數(shù)據(jù)統(tǒng)計(jì)過(guò)程中出現(xiàn) 不可預(yù)測(cè)的亞組則需再一次從原始病例中摘錄。另外,目前很多臨床科研機(jī)構(gòu)所 應(yīng)用的數(shù)據(jù)庫(kù)中的數(shù)據(jù)幾乎也都是依靠手工錄入的方式。手工摘錄是二次錄入過(guò) 程,準(zhǔn)確性不能得到很好的保證,另外這種摘錄方式也需要花費(fèi)大量的時(shí)間,臨 床醫(yī)療工作必然會(huì)受到其影響。因此有必要開(kāi)發(fā)基于自然語(yǔ)言處理的信息抽提系 統(tǒng)以協(xié)助臨床科研工作者完成此項(xiàng)工作,提高工作效率和信息抽提的準(zhǔn)確率?,F(xiàn)有的數(shù)據(jù)挖掘技術(shù)可以解決這一問(wèn)題,但由于對(duì)程序編寫(xiě)及維護(hù)的要求非常高, 因此很難得到廣泛應(yīng)用。
其次,隨著各醫(yī)療科研單位之間的合作日益密切以及政策的逐步開(kāi)放,各單 位之間的資料交流也越來(lái)越頻繁。但是由于目前各醫(yī)院所采用的信息系統(tǒng)多不相 同,因此在進(jìn)行交流的時(shí)侯需要花費(fèi)一定的時(shí)間將其統(tǒng)一化之后才能使用;另外, 由于需要對(duì)患者和醫(yī)生的隱私進(jìn)行保護(hù),也需要花費(fèi)時(shí)間將病史中的這部分內(nèi)容 隱去,這些都給交流工作帶來(lái)很大不便。因此,也有必要開(kāi)發(fā)一種可以將不同醫(yī) 療信息系統(tǒng)數(shù)據(jù)統(tǒng)一化并可同時(shí)進(jìn)行隱私保護(hù)的方法。
再次,由于表單化電子病史也是目前正在成為一種電子病史的發(fā)展趨勢(shì),可
以提供一些檢查檢驗(yàn)或治療建議的功能能在一定程度上減少診療過(guò)程中一些可
以避免的錯(cuò)誤,而且可以根據(jù)表單中的節(jié)點(diǎn)對(duì)病史的內(nèi)容進(jìn)行部分的格式化。但 表單化病史在填寫(xiě)的過(guò)程中需要根據(jù)各節(jié)點(diǎn)選擇或填寫(xiě)相應(yīng)的內(nèi)容,填寫(xiě)所需要
的時(shí)間較傳統(tǒng)電子病史長(zhǎng),而且由于節(jié)點(diǎn)的設(shè)計(jì)相對(duì)較為局限,輸出的打印文檔 的格式也會(huì)相應(yīng)受到影響,上述缺點(diǎn)在應(yīng)用于臨床時(shí)都會(huì)帶來(lái)不便。因此也有必 要提供一種可以同時(shí)解決傳統(tǒng)電子病史和表單化病史應(yīng)用時(shí)所帶來(lái)的局限性。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種將自然語(yǔ)言書(shū)寫(xiě)的醫(yī)療文檔自動(dòng)進(jìn)行格式化和統(tǒng) 一化的裝置。
為了達(dá)到上述目的,本發(fā)明的技術(shù)方案是提供了一種基于自然語(yǔ)言編寫(xiě)的醫(yī) 療文檔的信息抽提及格式轉(zhuǎn)換系統(tǒng),其特征在于,包括
基于國(guó)內(nèi)醫(yī)院所使用的電子病歷系統(tǒng)的以自然語(yǔ)言編寫(xiě)的醫(yī)療文檔; 以疾病類型為分類的中文醫(yī)療標(biāo)準(zhǔn)詞詞庫(kù);
基于自然語(yǔ)言分析的數(shù)據(jù)抽提系統(tǒng),用于將自然語(yǔ)言編寫(xiě)的文檔轉(zhuǎn)化為標(biāo) 準(zhǔn)的格式化文檔;
按病種分類的用于臨床科研的數(shù)據(jù)庫(kù);
用于將格式化文檔自動(dòng)轉(zhuǎn)化為統(tǒng)一格式的標(biāo)準(zhǔn)化文檔的文檔轉(zhuǎn)換系統(tǒng);用于保護(hù)患者以及相關(guān)治療醫(yī)生的隱私信息的權(quán)限系統(tǒng); 用于將格式化文檔填入標(biāo)單化電子病史的自動(dòng)填寫(xiě)系統(tǒng)。
本發(fā)明可對(duì)電子病史中各部分文檔進(jìn)行轉(zhuǎn)換,如入院記錄、手術(shù)記錄、出 院小結(jié)等,也可以是單獨(dú)的檢查或者化驗(yàn)單如CT檢査單、病理報(bào)告等。進(jìn)行轉(zhuǎn) 化后的數(shù)據(jù)都將以完全格式化的形式保存在統(tǒng)一的數(shù)據(jù)庫(kù)內(nèi),可以隨時(shí)通過(guò)配套 的查詢界面進(jìn)行單一條件或多條件的查詢和輸出,為臨床科研數(shù)據(jù)的采集提供了 一種簡(jiǎn)便快速的方法。
其次,由于不同醫(yī)院以及不同醫(yī)生的書(shū)寫(xiě)習(xí)慣存在不同,對(duì)于相同疾病治療 的著重點(diǎn)也存在一定的差異,難免會(huì)遺漏掉一些比較重要的信息。因此,本發(fā)明 根據(jù)目前各病種的科研進(jìn)展情況對(duì)于各種疾病的治療熱點(diǎn)都進(jìn)行了相關(guān)的定義, 確定了各種疾病的關(guān)鍵詞,建立中文醫(yī)療關(guān)鍵詞詞庫(kù),根據(jù)詞庫(kù)中的關(guān)鍵詞對(duì)文 檔中的關(guān)鍵信息進(jìn)行抽提,并在抽提后與原始文檔進(jìn)行對(duì)照,標(biāo)注未抽提出的關(guān) 鍵詞,經(jīng)修改確認(rèn)后進(jìn)入數(shù)據(jù)庫(kù)。這一過(guò)程在對(duì)數(shù)據(jù)庫(kù)格式標(biāo)準(zhǔn)化的同時(shí)也可以 在一定程度上對(duì)醫(yī)生在醫(yī)療文檔的書(shū)寫(xiě)上進(jìn)行規(guī)范。另外,上述中文醫(yī)療標(biāo)準(zhǔn)詞 詞庫(kù)可根據(jù)國(guó)內(nèi)外的科研進(jìn)展增加詞匯。
再次,為了滿足各醫(yī)療科研單位之間的交流,以及今后可能會(huì)出現(xiàn)的各醫(yī) 療機(jī)構(gòu)間的信息交流平臺(tái),本發(fā)明還提供了規(guī)范化文檔輸出功能。在對(duì)一份完整 的醫(yī)療文檔進(jìn)行格式化并進(jìn)入數(shù)據(jù)庫(kù)以后可以選擇輸出一份標(biāo)準(zhǔn)化文檔,該文檔 為符合國(guó)際上較為通用的符合HL-7的CDA文檔。由于文檔內(nèi)容來(lái)源于內(nèi)容經(jīng)過(guò) 確認(rèn)的格式化的數(shù)據(jù)庫(kù)而非自然語(yǔ)言編寫(xiě)的醫(yī)療文檔,因此該CDA文檔的內(nèi)容完 全符合中文標(biāo)準(zhǔn)詞詞庫(kù),通過(guò)該詞庫(kù)與其他語(yǔ)言相關(guān)詞庫(kù)的關(guān)聯(lián),輸出的CDA 可以為各種語(yǔ)言,使其不僅可以滿足國(guó)內(nèi)交流的需要,也可以在一定程度上進(jìn)行 國(guó)際交流。
由于相關(guān)法律以及政策的規(guī)定,患者及相關(guān)醫(yī)生的隱私需要保護(hù),在進(jìn)行 數(shù)據(jù)交流的時(shí)候也不能不考慮這一點(diǎn)。本發(fā)明關(guān)于隱私保護(hù)采用了權(quán)限管理的方 法,只有在獲得了足夠的權(quán)限之后才能夠在相應(yīng)的數(shù)據(jù)庫(kù)中得到患者和相關(guān)醫(yī)生 的隱私信息,在無(wú)法獲得此級(jí)別權(quán)限時(shí)相關(guān)的隱私信息將自動(dòng)隱去,為文檔交流時(shí)的數(shù)據(jù)安全提供保證。
最后,為了同時(shí)解決傳統(tǒng)電子病史和表淡化病史應(yīng)用時(shí)所帶來(lái)的不便,本 發(fā)明也提供了可以自動(dòng)填寫(xiě)表淡化病史的功能,可以根據(jù)設(shè)計(jì)好的表單從數(shù)據(jù)庫(kù) 中提取相關(guān)的內(nèi)容對(duì)表單中的對(duì)應(yīng)節(jié)點(diǎn)進(jìn)行自動(dòng)填寫(xiě)。這樣可以使用傳統(tǒng)的電子 病史對(duì)患者的信息進(jìn)行錄入,不必要改變醫(yī)生原有的習(xí)慣,而且輸出的病史仍可 保留原有的個(gè)性化,同時(shí)自動(dòng)填寫(xiě)的表單化病史的提示功能可以及時(shí)的給醫(yī)生提 供相關(guān)的建議,方便醫(yī)生的工作。
本發(fā)明的優(yōu)點(diǎn)是本發(fā)明運(yùn)用數(shù)據(jù)抽提系統(tǒng)及文檔轉(zhuǎn)換系統(tǒng),實(shí)現(xiàn)了醫(yī)療 信息管理的自動(dòng)化,方便醫(yī)生快速得查找到某種疾病的有關(guān)信息,節(jié)省了大量時(shí) 間,使得醫(yī)生有更多精力投入到對(duì)疾病的研究。
圖1為適用于本發(fā)明的計(jì)算機(jī)處理系統(tǒng)的框架圖; 圖2為本發(fā)明的整體工作流程圖3為自然語(yǔ)言編寫(xiě)的醫(yī)療文檔通過(guò)自然語(yǔ)言處理和關(guān)鍵詞抽提進(jìn)入數(shù)據(jù)庫(kù)的 流程;
圖4為數(shù)據(jù)庫(kù)的結(jié)構(gòu);
圖5為從數(shù)據(jù)庫(kù)中輸出不同語(yǔ)言編寫(xiě)的符合HL—7的CDA文檔的過(guò)程。
具體實(shí)施例方式
以下結(jié)合實(shí)施例來(lái)具體說(shuō)明本發(fā)明。應(yīng)理解,這些實(shí)施例僅用于說(shuō)明本發(fā)明 而不用于限制本發(fā)明的范圍。此外應(yīng)理解,在閱讀了本發(fā)明講授的內(nèi)容之后,本
領(lǐng)域技術(shù)人員可以對(duì)本發(fā)明作各種改動(dòng)或修改,但等價(jià)形式的改動(dòng)或修改同樣落 于本申請(qǐng)所述權(quán)利要求書(shū)所限定的范圍。
本發(fā)明提供的一種基于自然語(yǔ)言編寫(xiě)的醫(yī)療文檔的信息抽提及格式轉(zhuǎn)換系 統(tǒng),其特征在于,包括
基于國(guó)內(nèi)醫(yī)院所使用的電子病歷系統(tǒng)的以自然語(yǔ)言編寫(xiě)的醫(yī)療文檔;以疾病類型為分類的中文醫(yī)療標(biāo)準(zhǔn)詞詞庫(kù);
基于自然語(yǔ)言分析的數(shù)據(jù)抽提系統(tǒng),用于將自然語(yǔ)言編寫(xiě)的文檔轉(zhuǎn)化為標(biāo) 準(zhǔn)的格式化文檔;
按病種分類的用于臨床科研的數(shù)據(jù)庫(kù);
用于將格式化文檔自動(dòng)轉(zhuǎn)化為統(tǒng)一格式的標(biāo)準(zhǔn)化文檔的文檔轉(zhuǎn)換系統(tǒng); 用于保護(hù)患者以及相關(guān)治療醫(yī)生的隱私信息的權(quán)限系統(tǒng)。
表單化病史填寫(xiě)工具,從數(shù)據(jù)庫(kù)中提取相關(guān)的內(nèi)容對(duì)表單中的對(duì)應(yīng)節(jié)點(diǎn)進(jìn) 行自動(dòng)填寫(xiě)。
進(jìn)一步,所述標(biāo)準(zhǔn)詞詞庫(kù)根據(jù)臨床科研的進(jìn)展增加并與其他語(yǔ)言的醫(yī)療標(biāo)準(zhǔn) 詞關(guān)聯(lián)。
所述文檔轉(zhuǎn)換系統(tǒng)根據(jù)標(biāo)準(zhǔn)詞代碼轉(zhuǎn)換輸出文檔的語(yǔ)言。 所述數(shù)據(jù)抽提系統(tǒng)包括
文檔確認(rèn)裝置,用于確定所提取數(shù)據(jù)的文檔在電子病史中的位置; 數(shù)據(jù)抽提裝置,用于從電子病史中抽提出所需要的信息;
數(shù)據(jù)整合裝置,用于將所抽提出的各個(gè)獨(dú)立的字段按照固定的字段順序排練 成規(guī)范格式的表格;
自動(dòng)保存裝置,將原始電子文檔及格式化文檔自動(dòng)保存至數(shù)據(jù)庫(kù)中相應(yīng)的位置。
所述數(shù)據(jù)抽提裝置從以自然語(yǔ)言編寫(xiě)的醫(yī)療文檔中抽取應(yīng)用于臨創(chuàng)科研的 有意義的信息。
所述醫(yī)療文檔包括入院病史、首次病程錄、病程記錄、手術(shù)和治療記錄、影 像學(xué)檢查的文本及圖像資料、實(shí)驗(yàn)室檢查資料、病理檢查資料、出院小結(jié)中的至 少一個(gè)文檔。
所述中文醫(yī)療標(biāo)準(zhǔn)詞詞庫(kù)包括疾病治療及臨床科研關(guān)注的熱點(diǎn)詞中文醫(yī)療 標(biāo)準(zhǔn)詞詞庫(kù)以及熱點(diǎn)詞對(duì)應(yīng)的醫(yī)療信息的中文醫(yī)療標(biāo)準(zhǔn)詞詞庫(kù)。 在所述熱點(diǎn)詞中的有關(guān)疾病的熱點(diǎn)詞均按照疾病類型分類。 所述文檔轉(zhuǎn)化系統(tǒng)包括文檔自動(dòng)轉(zhuǎn)化工具,用于將科研數(shù)據(jù)庫(kù)中的格式化文檔自動(dòng)轉(zhuǎn)化為統(tǒng)一格式 的標(biāo)準(zhǔn)化文檔;
語(yǔ)言轉(zhuǎn)化工具,用于將數(shù)據(jù)庫(kù)中的標(biāo)準(zhǔn)詞與中文醫(yī)療標(biāo)準(zhǔn)詞詞庫(kù)中的詞匯關(guān) 聯(lián),并通過(guò)中文醫(yī)療標(biāo)準(zhǔn)詞詞庫(kù)與其他語(yǔ)言的醫(yī)療標(biāo)準(zhǔn)詞代碼以及該代碼與這種 語(yǔ)言的關(guān)聯(lián)將輸出文檔自動(dòng)轉(zhuǎn)轉(zhuǎn)化為這種語(yǔ)言;
所述表單自動(dòng)填寫(xiě)工具可根據(jù)表單中的節(jié)點(diǎn)從數(shù)據(jù)庫(kù)中提取相關(guān)字段的內(nèi) 容進(jìn)行填寫(xiě)。
所述輸出文檔為病史格式中的一個(gè)或多個(gè)部分。
本發(fā)明提供的一種基于自然語(yǔ)言編寫(xiě)的醫(yī)療文檔的信息抽提及格式轉(zhuǎn)換系 統(tǒng)還包括至少一個(gè)接口用來(lái)訪問(wèn)用作數(shù)據(jù)源的已正式提交的電子病史。所述接口 是可配置的數(shù)據(jù)接口。所述數(shù)據(jù)抽提與格式轉(zhuǎn)換系統(tǒng)在獨(dú)立的計(jì)算機(jī)終端或在國(guó) 際互聯(lián)網(wǎng)上運(yùn)行。所述數(shù)據(jù)庫(kù)通過(guò)獨(dú)立計(jì)算機(jī)訪問(wèn)或通過(guò)國(guó)際互聯(lián)網(wǎng)訪問(wèn)。
上述的一種基于自然語(yǔ)言編寫(xiě)的醫(yī)療文檔的信息抽提及格式轉(zhuǎn)換系統(tǒng)可在 具有硬件的計(jì)算機(jī)平臺(tái)實(shí)現(xiàn),所述硬件為諸如一個(gè)或多個(gè)中央處理單元(CPU), 隨機(jī)存取存儲(chǔ)器(RAM)以及輸入/輸出(I/O)接口。計(jì)算機(jī)平臺(tái)還包括操作系 統(tǒng)以及微指令代碼。此處所述的各種過(guò)程與功能可以是微指令代碼的一部分或者 是程序的一部分(或者其組合),其經(jīng)由操作系統(tǒng)的執(zhí)行。此外,可以通過(guò)網(wǎng)絡(luò) 將符合該結(jié)構(gòu)體系的其他計(jì)算機(jī)終端與該計(jì)算機(jī)平臺(tái)相連,也可以將其他外圍設(shè) 備與計(jì)算機(jī)平臺(tái)相連接,諸如附加的數(shù)據(jù)存儲(chǔ)設(shè)備以及打印設(shè)備。
圖1是計(jì)算機(jī)處理系統(tǒng)的框架圖,依照本發(fā)明的實(shí)例可以在其上運(yùn)行。該系 統(tǒng)包括至少一個(gè)中央處理器(CPU) 110,它通過(guò)系統(tǒng)總線101和其他部件可操作 得耦合。隨機(jī)訪問(wèn)存儲(chǔ)器(RAM) 111,只讀存儲(chǔ)器(ROM) 112, 1/0接口 113, 網(wǎng)絡(luò)接口 114和外部存儲(chǔ)器115都與系統(tǒng)總線101可操作得耦合。各種外圍設(shè)備, 例如顯示設(shè)備、盤(pán)式存儲(chǔ)設(shè)備(如磁盤(pán)或光盤(pán)存儲(chǔ)設(shè)備)、鍵盤(pán)和鼠標(biāo),可以通 過(guò)I/0接口 113或網(wǎng)絡(luò)接口 114與系統(tǒng)總線101可操作得耦合。
計(jì)算機(jī)系統(tǒng)可以是獨(dú)立系統(tǒng)或通過(guò)網(wǎng)絡(luò)接口 114與網(wǎng)絡(luò)相連。網(wǎng)絡(luò)接口 114 可以是硬布線接口 。網(wǎng)絡(luò)接口 114可以包括適于向另一設(shè)備傳送信息或從另一設(shè)備傳出信息的任意設(shè)備,如異步收發(fā)器(UART)、并行數(shù)字接口、軟件接口或已 知或后來(lái)開(kāi)發(fā)的軟件和硬件的任意組合。網(wǎng)絡(luò)接口可以連接到不同類型的網(wǎng)絡(luò)包 括局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)、內(nèi)聯(lián)網(wǎng)、虛擬專用網(wǎng)(VPN)和因特網(wǎng)。
外部存儲(chǔ)器115可以擁有處理器110所管理的數(shù)據(jù)庫(kù)管理系統(tǒng)(DBMS)來(lái)實(shí) 現(xiàn),并駐留在像硬盤(pán)這樣的存儲(chǔ)器上。但是,應(yīng)該意識(shí)到外部存儲(chǔ)器115可以實(shí) 現(xiàn)在一個(gè)或多個(gè)附加計(jì)算機(jī)系統(tǒng)上。例如,外部存儲(chǔ)器115可以包括駐留在一個(gè) 單獨(dú)的計(jì)算機(jī)系統(tǒng)上的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中。
如圖2所示,將自然語(yǔ)言編寫(xiě)的醫(yī)療電子文檔201導(dǎo)入到基于自然語(yǔ)言分析 的信息抽提系統(tǒng)211中,系統(tǒng)會(huì)自動(dòng)抽提出臨床醫(yī)療以及臨床科研最關(guān)心的信 息、如相關(guān)疾病的既往史、合并癥、術(shù)前(或治療前)的相關(guān)檢査信息、手術(shù)記 錄(或治療記錄)、影像學(xué)檢查信息、病程記錄、實(shí)驗(yàn)室檢驗(yàn)信息、病例報(bào)告、 人口統(tǒng)計(jì)學(xué)信息等,并保存在相應(yīng)的數(shù)據(jù)庫(kù)221中。
每份完整的數(shù)據(jù)庫(kù)記錄來(lái)源于病史中的多個(gè)部分,已經(jīng)結(jié)構(gòu)化的數(shù)據(jù),如住 院號(hào)、性別、年齡、疾病ICD-10編碼等也可進(jìn)入數(shù)據(jù)庫(kù)221。由于原始病史中 包含患者最完整的信息,進(jìn)行抽提后可能會(huì)出現(xiàn)部分信息的丟失,因此針對(duì)每份 病史在數(shù)據(jù)庫(kù)中都保存一份備份文件。另外一些無(wú)法實(shí)現(xiàn)格式化的信息,如超聲 影像資料、X光、CT、 MRI、核素檢査圖像等將保存在原始病史中。
已經(jīng)進(jìn)入數(shù)據(jù)庫(kù)221的格式化的患者資料必須能夠保證臨床科研工作的方 便,因此數(shù)據(jù)庫(kù)221提供可以保證滿足各種疾病的各種條件的查詢,如需要篩選 一批疾病進(jìn)展相似的患者進(jìn)行臨床回顧性分析241,則可以在査詢功能231中根 據(jù)這些條件査找出這部分病人的相關(guān)資料進(jìn)行統(tǒng)計(jì)分析;又如確定甲種胎兒球蛋 白(AFP)對(duì)于原發(fā)性肝癌診斷的標(biāo)準(zhǔn)242則可以根據(jù)其條件在査詢功能231中 隨機(jī)選擇一批患者的診斷和AFP兩個(gè)字段并進(jìn)行統(tǒng)計(jì),得出相對(duì)可明確診斷的指 標(biāo)標(biāo)準(zhǔn)值。
如果需要進(jìn)行多中心的合作,需進(jìn)行資料共享,所應(yīng)用的文檔格式通常需要 統(tǒng)一。因此,本發(fā)明還提供了從已經(jīng)格式化的數(shù)據(jù)庫(kù)中導(dǎo)出統(tǒng)一格式的文檔235 的功能,為保證今后可能會(huì)出現(xiàn)的國(guó)際交流的方便,因此該導(dǎo)出文檔的統(tǒng)一格式為符合HL-7的CDA文檔,并可根據(jù)需要選擇導(dǎo)出中文標(biāo)準(zhǔn)文檔或英文標(biāo)準(zhǔn)文檔
245。該文檔還可以進(jìn)入今后可能會(huì)出現(xiàn)的各醫(yī)療機(jī)構(gòu)共同應(yīng)用的醫(yī)療信息交互
系統(tǒng)255中。應(yīng)該理解的是,以上說(shuō)明并非將導(dǎo)出文檔的格式局限于單純符合
HL—7的CDA文檔,該格式可根據(jù)國(guó)際通行的醫(yī)療文檔的標(biāo)準(zhǔn)格式進(jìn)行修改。
由于相關(guān)政策和法規(guī)的限制,在很多臨床試驗(yàn)以及臨床信息交流中需對(duì)患者
及相關(guān)治療醫(yī)生的個(gè)人信息進(jìn)行保密,因此本發(fā)明在此也提供了嚴(yán)格的權(quán)限系
統(tǒng)。只有在獲得相應(yīng)的權(quán)限后(如該患者的主治醫(yī)師)才可以在查詢或?qū)С鑫臋n
中看到這些隱私信息,在無(wú)法獲得這些權(quán)限時(shí),系統(tǒng)將自動(dòng)將這些隱私信息隱去。
最簡(jiǎn)單的例子,如心血管科的醫(yī)生需要研究腎病對(duì)高血壓的影響而查詢腎病患者
的資料,則只能得到查詢的相關(guān)資料而無(wú)法得到患者及相關(guān)治療醫(yī)生的隱私信 白
iS、 o
如果需要應(yīng)用表單化電子病史的功能,本發(fā)明提供了表單自動(dòng)填寫(xiě)功能,可 根據(jù)表單化電子病史中的節(jié)點(diǎn)239從數(shù)據(jù)庫(kù)221中提取相應(yīng)字段中的內(nèi)容,進(jìn)行 填寫(xiě),之后便可應(yīng)用表單化病史所提供的檢査或治療建議249的功能。
圖3說(shuō)明了整個(gè)信息抽提系統(tǒng)工作的流程。將以自然語(yǔ)言編寫(xiě)的醫(yī)療文檔 301寫(xiě)入或?qū)氲叫畔⒊樘嵯到y(tǒng)中,系統(tǒng)會(huì)分析文檔中部分已經(jīng)格式化的信息 (如診斷),并以此為依據(jù)篩選出相應(yīng)的中文醫(yī)療標(biāo)準(zhǔn)詞詞庫(kù)311,根據(jù)詞庫(kù)311 中的疾病相關(guān)的關(guān)鍵詞對(duì)文檔進(jìn)行分詞321,之后對(duì)關(guān)鍵詞的語(yǔ)句進(jìn)行必要的語(yǔ) 法分析331。如患者的診斷為"原發(fā)性肝癌",則信息抽提系統(tǒng)會(huì)進(jìn)入肝癌的標(biāo) 準(zhǔn)詞詞庫(kù)對(duì)文檔進(jìn)行分析,如在分析過(guò)程中遇到"手術(shù)記錄",即進(jìn)入肝癌手術(shù) 信息的標(biāo)準(zhǔn)詞詞庫(kù)。文檔經(jīng)分析后關(guān)鍵詞對(duì)應(yīng)的信息將被抽提341并與原始文檔 展示在同一界面中。抽提后的格式化文檔將與原始文檔進(jìn)行校對(duì)351,并將抽提 未成功的關(guān)鍵詞以高亮標(biāo)記。如在對(duì)上述原發(fā)性肝癌患者的手術(shù)記錄進(jìn)行抽提后 發(fā)現(xiàn)手術(shù)記錄中未記錄腫瘤大小的信息,則格式化文檔中"腫瘤大小"的字段會(huì) 標(biāo)記為高亮。在對(duì)原始文檔或格式化文檔進(jìn)行相應(yīng)修改并確認(rèn)361后,所抽提出 的格式化的信息將按照固定的順序排列并組合為規(guī)范格式的數(shù)據(jù)表進(jìn)入數(shù)據(jù)庫(kù) 371。需要說(shuō)明的是,用于將自然語(yǔ)言編寫(xiě)的電子病史文檔進(jìn)行分詞的中文醫(yī)療標(biāo)準(zhǔn)詞詞庫(kù)完全依據(jù)臨床治療重點(diǎn)以及目前國(guó)內(nèi)外臨床科研熱點(diǎn)確定,詞庫(kù)按疾 病分類,各種疾病所屬的的中文標(biāo)準(zhǔn)詞詞庫(kù)中的詞匯可根據(jù)相關(guān)疾病的治療重點(diǎn) 的轉(zhuǎn)移以及臨床科研工作的進(jìn)展進(jìn)行擴(kuò)充。另外,該中文醫(yī)療標(biāo)準(zhǔn)詞詞庫(kù)可以與 其他種類語(yǔ)言的醫(yī)療標(biāo)準(zhǔn)詞詞庫(kù)代碼相關(guān)聯(lián),并可以此為依據(jù)轉(zhuǎn)化為其他語(yǔ)言的 醫(yī)療標(biāo)準(zhǔn)詞。
圖4為格式化文檔的數(shù)據(jù)庫(kù)結(jié)構(gòu)。鑒于患者可能會(huì)出現(xiàn)因多種疾病多次住院 的情況,因此將患者的基本信息401作為一個(gè)獨(dú)立單元保存。由于各種疾病的治 療以及臨床關(guān)注要點(diǎn)不同,將所有疾病的信息保存在統(tǒng)一的數(shù)據(jù)表中會(huì)造成大量 的資源浪費(fèi),因此對(duì)于不同的疾病將保存在不同的數(shù)據(jù)表中411、 412、 413,疾 病數(shù)據(jù)表根據(jù)關(guān)鍵字段(如身份證號(hào)碼)與患者基本信息進(jìn)行關(guān)聯(lián),各疾病數(shù)據(jù) 表間可根據(jù)需要進(jìn)行相互關(guān)聯(lián),該數(shù)據(jù)表可根據(jù)需要增加或者減少。例如某患者 同時(shí)患有肝癌和冠心病并因此而住院治療,則在數(shù)據(jù)庫(kù)中可以在肝癌和冠心病的 兩個(gè)數(shù)據(jù)表中都可以找到該患者的資料;如患者因?yàn)樵l(fā)性肝癌兩次入院治療, 則可在肝癌的數(shù)據(jù)表中找到兩份患者的治療記錄。由于很多疾病在研究過(guò)程中需 要長(zhǎng)時(shí)間跟蹤患者的治療情況或疾病進(jìn)展情況,因此數(shù)據(jù)庫(kù)提供了相應(yīng)的隨訪信 息421表格以記錄這些信息,該表格與患者的相關(guān)疾病關(guān)聯(lián)。在之前所述的査詢 過(guò)程即可根據(jù)這些表格以及之間的關(guān)聯(lián)進(jìn)行各種類型的查詢。例如需要計(jì)算某中 特征的肝癌患者的5年生存率,則可在肝癌的數(shù)據(jù)表中找到相對(duì)應(yīng)的患者,并在 隨訪表中找到相應(yīng)的隨訪信息后進(jìn)行統(tǒng)計(jì)分析。
由于各單位間進(jìn)行學(xué)術(shù)交流所使用的文檔以及今后可能會(huì)出現(xiàn)的醫(yī)療文檔 交互系統(tǒng)都要求文檔格式的統(tǒng)一,本發(fā)明還提供了標(biāo)準(zhǔn)文檔轉(zhuǎn)化的功能,如圖5 所示。可以直接依據(jù)數(shù)據(jù)庫(kù)501中的格式化數(shù)據(jù)直接轉(zhuǎn)化為標(biāo)準(zhǔn)的中文CDA文檔 511,該文檔可以直接進(jìn)入醫(yī)療文檔交互系統(tǒng)551。此外,本發(fā)明還提供了語(yǔ)言 轉(zhuǎn)換的功能,數(shù)據(jù)庫(kù)501中所有的中文醫(yī)療標(biāo)準(zhǔn)詞都與中文標(biāo)準(zhǔn)詞詞庫(kù)515關(guān)聯(lián), 中文醫(yī)療標(biāo)準(zhǔn)詞詞庫(kù)可與其他語(yǔ)言對(duì)應(yīng)的標(biāo)準(zhǔn)詞代碼525關(guān)聯(lián),如SNOMED — CT 代碼,輸出的CDA文檔則為以SNOMED—CT代碼編寫(xiě)的文檔535,該文檔根據(jù) SNOMED-CT代碼對(duì)應(yīng)的英文醫(yī)療標(biāo)準(zhǔn)詞詞庫(kù)即可將文檔自動(dòng)轉(zhuǎn)化為以英文醫(yī)療標(biāo)準(zhǔn)詞編寫(xiě)的CM文檔545,該文檔可以很方便的應(yīng)用于國(guó)際醫(yī)療科研交流工作
或進(jìn)入醫(yī)療文檔交互系統(tǒng)。
需要說(shuō)明的是,如果患者始終在同一家醫(yī)院住院治療,或者國(guó)內(nèi)出現(xiàn)了醫(yī)療 文檔交互系統(tǒng)而患者又在進(jìn)入文檔交互系統(tǒng)的醫(yī)院進(jìn)行治療,則該系統(tǒng)在相關(guān)政 策和法規(guī)的允許下可為患者本人即時(shí)生成一份完備的治療檔案。
同樣的,文檔交流過(guò)程中仍然涉及到患者及醫(yī)生隱私權(quán)的問(wèn)題。因此,文檔 輸出仍然服從于數(shù)據(jù)庫(kù)的權(quán)限設(shè)置。
權(quán)利要求
1. 一種基于自然語(yǔ)言編寫(xiě)的醫(yī)療文檔的信息抽提及格式轉(zhuǎn)換系統(tǒng),其特征在于,包括基于國(guó)內(nèi)醫(yī)院所使用的電子病歷系統(tǒng)的以自然語(yǔ)言編寫(xiě)的醫(yī)療文檔;以疾病類型為分類的中文醫(yī)療標(biāo)準(zhǔn)詞詞庫(kù);基于自然語(yǔ)言分析的數(shù)據(jù)抽提系統(tǒng),用于將自然語(yǔ)言編寫(xiě)的文檔轉(zhuǎn)化為標(biāo)準(zhǔn)的格式化文檔;按病種分類的用于臨床科研的數(shù)據(jù)庫(kù);用于將格式化文檔自動(dòng)轉(zhuǎn)化為統(tǒng)一格式的標(biāo)準(zhǔn)化文檔的文檔轉(zhuǎn)換系統(tǒng);用于將格式化文檔填入標(biāo)單化電子病史的自動(dòng)填寫(xiě)系統(tǒng);用于保護(hù)患者以及相關(guān)治療醫(yī)生的隱私信息的權(quán)限系統(tǒng)。
2. 如權(quán)利要求1所述的一種基于自然語(yǔ)言編寫(xiě)的醫(yī)療文檔的信息抽提及格式轉(zhuǎn) 換系統(tǒng),其特征在于,所述醫(yī)療文檔包括入院病史、首次病程錄、病程記錄、 手術(shù)和治療記錄、影像學(xué)檢查的文本及圖像資料、實(shí)驗(yàn)室檢查資料、病理檢 査資料、出院小結(jié)中的至少一個(gè)文檔。
3. 如權(quán)利要求1所述的一種基于自然語(yǔ)言編寫(xiě)的醫(yī)療文檔的信息抽提及格式轉(zhuǎn) 換系統(tǒng),其特征在于,所述中文醫(yī)療標(biāo)準(zhǔn)詞詞庫(kù)包括疾病治療及臨床科研關(guān) 注的熱點(diǎn)詞中文醫(yī)療標(biāo)準(zhǔn)詞詞庫(kù)以及熱點(diǎn)詞對(duì)應(yīng)的醫(yī)療信息的中文醫(yī)療標(biāo) 準(zhǔn)詞詞庫(kù)
4. 如權(quán)利要求3所述的一種基于自然語(yǔ)言編寫(xiě)的醫(yī)療文檔的信息抽提及格式轉(zhuǎn) 換系統(tǒng),其特征在于,在所述熱點(diǎn)詞中的有關(guān)疾病的熱點(diǎn)詞均按照疾病類型 分類。
5. 如權(quán)利要求1所述的一種基于自然語(yǔ)言編寫(xiě)的醫(yī)療文檔的信息抽提及格式轉(zhuǎn) 換系統(tǒng),其特征在于,所述中文醫(yī)療標(biāo)準(zhǔn)詞詞庫(kù)中所有的中文醫(yī)療標(biāo)準(zhǔn)詞詞 都與其他語(yǔ)言的醫(yī)學(xué)標(biāo)準(zhǔn)詞匯的代碼相關(guān)聯(lián)。
6. 如權(quán)利要求5所述的一種基于自然語(yǔ)言編寫(xiě)的醫(yī)療文檔的信息抽提及格式轉(zhuǎn)換系統(tǒng),其特征在于,所有與其他語(yǔ)言的醫(yī)學(xué)標(biāo)準(zhǔn)詞匯代碼關(guān)聯(lián)的中文醫(yī)療 標(biāo)準(zhǔn)詞可根據(jù)與其關(guān)聯(lián)的代碼轉(zhuǎn)化為該相關(guān)語(yǔ)言的醫(yī)學(xué)標(biāo)準(zhǔn)詞匯。
7. 如權(quán)利要求1所述的一種基于自然語(yǔ)言編寫(xiě)的醫(yī)療文檔的信息抽提及格式轉(zhuǎn)換系統(tǒng),其特征在于,所述中文醫(yī)療標(biāo)準(zhǔn)詞詞庫(kù)根據(jù)臨床科研的進(jìn)展增加并 與其他語(yǔ)言的醫(yī)療標(biāo)準(zhǔn)詞關(guān)聯(lián)。
8. 如權(quán)利要求l所述的一種基于自然語(yǔ)言編寫(xiě)的醫(yī)療文檔的信息抽提及格式轉(zhuǎn) 換系統(tǒng),其特征在于,所述數(shù)據(jù)抽提系統(tǒng)包括-文檔確認(rèn)裝置,用于確定所提取數(shù)據(jù)的文檔在電子病史中的位置; 數(shù)據(jù)抽提裝置,用于從電子病史中抽提出所需要的信息; 數(shù)據(jù)整合裝置,用于將所抽提出的各個(gè)獨(dú)立的字段按照固定的字段順序排練成規(guī)范格式的表格;自動(dòng)保存裝置,將原始電子文檔及格式化文檔自動(dòng)保存至數(shù)據(jù)庫(kù)中相應(yīng)的位置。
9. 如權(quán)利要求8所述的一種基于自然語(yǔ)言編寫(xiě)的醫(yī)療文檔的信息抽提及格式轉(zhuǎn) 換系統(tǒng),其特征在于,所述數(shù)據(jù)抽提裝置從以自然語(yǔ)言編寫(xiě)的醫(yī)療文檔中抽 取應(yīng)用于臨創(chuàng)科研的有意義的信息。
10. 如權(quán)利要求l所述的一種基于自然語(yǔ)言編寫(xiě)的醫(yī)療文檔的信息抽提及格式轉(zhuǎn) 換系統(tǒng),其特征在于,所述數(shù)據(jù)抽提系統(tǒng)以任意間隔、以周期間隔或以在線 模式運(yùn)行。
11. 如權(quán)利要求1所述的一種基于自然語(yǔ)言編寫(xiě)的醫(yī)療文檔的信息抽提及格式轉(zhuǎn) 換系統(tǒng),其特征在于,所述文檔轉(zhuǎn)換系統(tǒng)根據(jù)標(biāo)準(zhǔn)詞代碼轉(zhuǎn)換輸出文檔的語(yǔ)曰o
12. 如權(quán)利要求1所述的一種基于自然語(yǔ)言編寫(xiě)的醫(yī)療文檔的信息抽提及格式轉(zhuǎn)換系統(tǒng),其特征在于,所述文檔轉(zhuǎn)化系統(tǒng)包括文檔自動(dòng)轉(zhuǎn)化工具,用于將科研數(shù)據(jù)庫(kù)中的格式化文檔自動(dòng)轉(zhuǎn)化為統(tǒng)一 格式的標(biāo)準(zhǔn)化文檔;語(yǔ)言轉(zhuǎn)化工具,用于將數(shù)據(jù)庫(kù)中的標(biāo)準(zhǔn)詞與中文醫(yī)療標(biāo)準(zhǔn)詞詞庫(kù)中的詞匯關(guān)聯(lián),并通過(guò)中文醫(yī)療標(biāo)準(zhǔn)詞詞庫(kù)與其他語(yǔ)言的醫(yī)療標(biāo)準(zhǔn)詞代碼以及該代 碼與這種語(yǔ)言的關(guān)聯(lián)將輸出文檔自動(dòng)轉(zhuǎn)轉(zhuǎn)化為這種語(yǔ)言。
13. 如權(quán)利要求12所述的一種基于自然語(yǔ)言編寫(xiě)的醫(yī)療文檔的信息抽提及格式 轉(zhuǎn)換系統(tǒng),其特征在于,所述輸出文檔為病史格式中的一個(gè)或多個(gè)部分。
14. 如權(quán)利要求1所述的一種基于自然語(yǔ)言編寫(xiě)的醫(yī)療文檔的信息抽提及格式轉(zhuǎn) 換系統(tǒng),其特征在于,所述文檔轉(zhuǎn)換系統(tǒng)以任意間隔、以周期間隔或以在線 模式運(yùn)行。
15. 如權(quán)利要求l所述的一種基于自然語(yǔ)言編寫(xiě)的醫(yī)療文檔的信息抽提及格式轉(zhuǎn) 換系統(tǒng),其特征在于,所述數(shù)據(jù)抽提系統(tǒng)與文檔轉(zhuǎn)換系統(tǒng)在獨(dú)立的計(jì)算機(jī)終 端或在國(guó)際互聯(lián)網(wǎng)上運(yùn)行。
16. 如權(quán)利要求l所述的一種基于自然語(yǔ)言編寫(xiě)的醫(yī)療文檔的信息抽提及格式轉(zhuǎn) 換系統(tǒng),其特征在于,所述數(shù)據(jù)庫(kù)通過(guò)獨(dú)立計(jì)算機(jī)訪問(wèn)或通過(guò)國(guó)際互聯(lián)網(wǎng)訪 問(wèn)。
17. 如權(quán)利要求1所述的一種基于自然語(yǔ)言編寫(xiě)的醫(yī)療文檔的信息抽提及格式轉(zhuǎn) 換系統(tǒng),其特征在于,還包括至少一個(gè)用于訪問(wèn)已正式提交的電子病史的接 □。
18. 如權(quán)利要求17所述的一種基于自然語(yǔ)言編寫(xiě)的醫(yī)療文檔的信息抽提及格式 轉(zhuǎn)換系統(tǒng),其特征在于,所述接口為可配置的數(shù)據(jù)接口。
19. 如權(quán)利要求18所述的一種基于自然語(yǔ)言編寫(xiě)的醫(yī)療文檔的信息抽提及格式 轉(zhuǎn)換系統(tǒng),其特征在于,所述接口的配置隨醫(yī)院的改變而改變。
20. —種機(jī)器可讀的程序存儲(chǔ)設(shè)備,確實(shí)的包括一個(gè)指令程序,該程序可以被在 機(jī)器上執(zhí)行以從患者住院的電子病史中抽取結(jié)構(gòu)化的臨床信息,該方法步驟 包括提供包含患者住院信息的數(shù)據(jù)源; 一個(gè)按疾病類型分類的中文醫(yī)療標(biāo) 準(zhǔn)詞詞庫(kù);使用中文醫(yī)療標(biāo)準(zhǔn)詞詞庫(kù)創(chuàng)建格式化的臨床信息數(shù)據(jù)庫(kù);由數(shù)據(jù) 庫(kù)中的格式化信息創(chuàng)建統(tǒng)一的標(biāo)準(zhǔn)化醫(yī)療文檔。
全文摘要
本發(fā)明提供了一種將自然語(yǔ)言書(shū)寫(xiě)的醫(yī)療文檔自動(dòng)進(jìn)行格式化和統(tǒng)一化的裝置包括基于國(guó)內(nèi)醫(yī)院所使用的電子病歷系統(tǒng)的以自然語(yǔ)言編寫(xiě)的醫(yī)療文檔;以疾病類型為分類的中文醫(yī)療標(biāo)準(zhǔn)詞詞庫(kù);基于自然語(yǔ)言分析的數(shù)據(jù)抽提系統(tǒng),用于將自然語(yǔ)言編寫(xiě)的文檔轉(zhuǎn)化為標(biāo)準(zhǔn)的格式化文檔;按病種分類的用于臨床科研的數(shù)據(jù)庫(kù);用于將格式化文檔自動(dòng)轉(zhuǎn)化為統(tǒng)一格式的標(biāo)準(zhǔn)化文檔的文檔轉(zhuǎn)換系統(tǒng);用于保護(hù)患者以及相關(guān)治療醫(yī)生的隱私信息的權(quán)限系統(tǒng)。本發(fā)明實(shí)現(xiàn)了醫(yī)療信息管理的自動(dòng)化,方便醫(yī)生快速得查找到某種疾病的有關(guān)信息,節(jié)省了大量時(shí)間,使得醫(yī)生有更多精力投入到對(duì)疾病的研究。
文檔編號(hào)G06F19/00GK101441686SQ20081020340
公開(kāi)日2009年5月27日 申請(qǐng)日期2008年11月26日 優(yōu)先權(quán)日2008年11月26日
發(fā)明者雷 劉, 吳偉忠, 孫惠川, 張瑋德, 李亦學(xué), 李作峰, 嘉 樊 申請(qǐng)人:復(fù)旦大學(xué)附屬中山醫(yī)院;上海生物信息技術(shù)研究中心