專利名稱:病人數(shù)據(jù)挖掘的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)挖掘,更具體而言,涉及用于從病人醫(yī)療記錄挖掘高質(zhì)量結(jié)構(gòu)化的臨床信息。
背景技術(shù):
衛(wèi)生保健提供者累積了大量的臨床信息的存儲(chǔ)。然而,挖掘臨床信息的努力已經(jīng)證明并不成功。一般而言,數(shù)據(jù)挖掘是一個(gè)確定在數(shù)據(jù)信息中心庫(kù)里存儲(chǔ)的數(shù)據(jù)中的有用模式或關(guān)系的過(guò)程。通常,數(shù)據(jù)挖掘涉及分析非常大量的信息來(lái)發(fā)現(xiàn)隱藏在數(shù)據(jù)中的趨勢(shì)。
由衛(wèi)生保健組織維護(hù)的臨床信息通常是非結(jié)構(gòu)化的。因此,難以用常規(guī)方法進(jìn)行挖掘。此外,因?yàn)榕R床信息被收集是用來(lái)治療病人的,而不是(例如)用于臨床試驗(yàn)的,它可能包含遺漏的、錯(cuò)誤的和不一致的數(shù)據(jù)。通常關(guān)鍵結(jié)果和變量都完全沒(méi)有記錄下來(lái)。
盡管很多衛(wèi)生保健提供者以相對(duì)結(jié)構(gòu)化的格式維護(hù)計(jì)帳信息,這種信息受限于保險(xiǎn)公司的需求。也就是說(shuō),計(jì)帳信息通常只捕獲需要用來(lái)處理醫(yī)療索賠的信息,并且更重要地反映病人的“記帳視圖”,即對(duì)最大償還的帳單編碼。結(jié)果是,從臨床角度來(lái)看計(jì)帳信息通常包含不準(zhǔn)確的和遺漏的數(shù)據(jù)。此外,研究表明記帳代碼在比例驚人(通常為10%到20%)的病人中是不正確的。
假定挖掘臨床信息能夠?qū)е潞茈y甚至不可能達(dá)到的境界,就希望提供用于挖掘高質(zhì)量結(jié)構(gòu)化的臨床信息的技術(shù),并且提供這樣的技術(shù)將是非常有利的。
發(fā)明內(nèi)容
本發(fā)明提供了一種數(shù)據(jù)挖掘框架,用于挖掘高質(zhì)量結(jié)構(gòu)化的臨床信息。
在本發(fā)明的各個(gè)實(shí)施例中,提供了一種系統(tǒng)和方法,用于從病人記錄挖掘信息。多個(gè)數(shù)據(jù)源被訪問(wèn)。至少一些數(shù)據(jù)源可能是非結(jié)構(gòu)化的。系統(tǒng)包括一個(gè)領(lǐng)域知識(shí)庫(kù),該領(lǐng)域知識(shí)庫(kù)包含用于挖掘數(shù)據(jù)源的領(lǐng)域?qū)S脴?biāo)準(zhǔn)。一個(gè)數(shù)據(jù)挖掘器被配置為使用領(lǐng)域?qū)S脴?biāo)準(zhǔn)來(lái)挖掘數(shù)據(jù)源,以創(chuàng)建結(jié)構(gòu)化的臨床信息。
優(yōu)選地,該數(shù)據(jù)挖掘器包括提取部件,用于從數(shù)據(jù)源提供信息以創(chuàng)建一組概率斷言;組合部件,用于組合所述組概率斷言以創(chuàng)建一個(gè)或多個(gè)統(tǒng)一標(biāo)準(zhǔn)的概率斷言;以及推理部件,用于從一個(gè)或多個(gè)統(tǒng)一標(biāo)準(zhǔn)的概率斷言推理病人狀態(tài)。
該提取部件可以使用領(lǐng)域?qū)S脴?biāo)準(zhǔn)來(lái)從數(shù)據(jù)源提取信息。同樣,該組合部件可以使用領(lǐng)域?qū)S脴?biāo)準(zhǔn)來(lái)組合概率斷言,該推理部件可以使用領(lǐng)域?qū)S脴?biāo)準(zhǔn)來(lái)推理病人狀態(tài)。病人狀態(tài)僅僅是人們可能關(guān)心的、與病人有關(guān)的變量的集合,例如,病情和診斷。
該提取部件可以被配置為從自由文本治療記錄中提取關(guān)鍵短語(yǔ)。其它自然語(yǔ)言處理/自然語(yǔ)言理解方法也可以用來(lái)代替短語(yǔ)提取或與其一起使用,以便從自由文本中提取信息。
數(shù)據(jù)源可以包括醫(yī)療信息、財(cái)務(wù)信息和人口統(tǒng)計(jì)信息中的一個(gè)或多個(gè)。醫(yī)療信息可以包括自由文本信息、醫(yī)療圖像信息、實(shí)驗(yàn)室信息、處方藥信息和波形信息中的一個(gè)或多個(gè)。
概率值可以被指派給概率斷言。結(jié)構(gòu)化的臨床信息可能包括涉及所存儲(chǔ)的信息的概率信息。結(jié)構(gòu)化的臨床信息可以存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中。結(jié)構(gòu)化的臨床信息可能包括糾正過(guò)的信息,包括糾正過(guò)的ICD-9診斷代碼。(國(guó)際疾病分類法,第9次修訂,臨床修訂(ICD-9-CM)是基于世界衛(wèi)生組織的第9次修訂,國(guó)際疾病分類法(ICD-9)。ICD-9-CM是向與美國(guó)的醫(yī)院醫(yī)療服務(wù)相關(guān)的診斷和手續(xù)指派代碼的官方系統(tǒng)。最近已經(jīng)發(fā)布了第10次修訂(ICD-10),它與第9次修訂(ICD-9)有所不同;希望能夠很快實(shí)施)該系統(tǒng)可以按任意間隔、周期間隔或在線模式下來(lái)運(yùn)行。在按間隔運(yùn)行時(shí),當(dāng)系統(tǒng)被運(yùn)行時(shí),數(shù)據(jù)源被挖掘。在在線模式下,數(shù)據(jù)源可以被連續(xù)不斷地被挖掘。
用于挖掘數(shù)據(jù)源的領(lǐng)域?qū)S脴?biāo)準(zhǔn)可以包括機(jī)構(gòu)專用領(lǐng)域知識(shí)。例如,這可能包括與在特定醫(yī)院可以得到的數(shù)據(jù)、醫(yī)院的文檔結(jié)構(gòu)、醫(yī)院的政策、醫(yī)院的方針以及醫(yī)院的任意變化有關(guān)的信息。
領(lǐng)域?qū)S脴?biāo)準(zhǔn)還可以包括疾病專用的領(lǐng)域知識(shí)。例如,疾病專用的領(lǐng)域知識(shí)可以包括影響疾病危險(xiǎn)的各種因素、疾病進(jìn)展信息、并發(fā)癥信息、與疾病有關(guān)的結(jié)果和變量、與疾病有關(guān)的措施以及由醫(yī)療實(shí)體建立的方針和政策。
此外,信息中心庫(kù)接口可以用來(lái)訪問(wèn)數(shù)據(jù)挖掘器所用的數(shù)據(jù)源中包含的信息的至少一些。這個(gè)信息中心庫(kù)接口可以是一個(gè)可配置的數(shù)據(jù)接口。該可配置的數(shù)據(jù)接口可以根據(jù)正在研究哪家醫(yī)院而變化。
數(shù)據(jù)源可以包括結(jié)構(gòu)化的和非結(jié)構(gòu)化的信息。結(jié)構(gòu)化的信息可以在適當(dāng)?shù)牡胤奖晦D(zhuǎn)換成標(biāo)準(zhǔn)化的單元。非結(jié)構(gòu)化的信息可以包括ASCII文本串、DICOM(醫(yī)學(xué)數(shù)字成像和通信)格式的圖像信息、以及基于領(lǐng)域知識(shí)而劃分的文本文檔。
在本發(fā)明的多種實(shí)施例中,可以使用因特網(wǎng)來(lái)運(yùn)行數(shù)據(jù)挖掘器。所創(chuàng)建的結(jié)構(gòu)化臨床信息也可以用因特網(wǎng)訪問(wèn)。
在本發(fā)明的多種實(shí)施例中,可以把數(shù)據(jù)挖掘器作為一個(gè)服務(wù)而運(yùn)行。例如,幾家醫(yī)院可以參與這個(gè)服務(wù)以挖掘它們的病人信息,并且這個(gè)信息可以存儲(chǔ)在由服務(wù)提供商維護(hù)的數(shù)據(jù)倉(cāng)庫(kù)中。該服務(wù)也可以由第三方服務(wù)提供商(即,與醫(yī)院無(wú)關(guān)的實(shí)體)來(lái)執(zhí)行。
本發(fā)明的這些和其它方面、特征和優(yōu)勢(shì)從下面結(jié)合附圖對(duì)優(yōu)選實(shí)施例的詳細(xì)描述中可以清楚地看到。
圖1是一個(gè)計(jì)算機(jī)處理系統(tǒng)的框圖,根據(jù)本發(fā)明的一種實(shí)施例可以將本發(fā)明應(yīng)用于它。
圖2展示了示例性的計(jì)算機(jī)化的病人記錄(CPR);并且圖3展示了用于挖掘高質(zhì)量結(jié)構(gòu)化的臨床信息的示例性數(shù)據(jù)挖掘框架。
具體實(shí)施例方式
為了輔助對(duì)本發(fā)明的清晰理解,這里提供了一些說(shuō)明性實(shí)例,它們描述了本發(fā)明的確定方面。但是,應(yīng)該理解這些說(shuō)明并不是為了限制本發(fā)明的范圍,而是為了描述與本發(fā)明相關(guān)的確定概念。
還應(yīng)該理解本發(fā)明可以用多種形式的硬件、軟件、固件、專用處理器或它們的組合來(lái)實(shí)現(xiàn)。優(yōu)選地,本發(fā)明在軟件中被實(shí)現(xiàn)為確實(shí)包括在程序存儲(chǔ)設(shè)備上的程序。程序可被上載到包含任意合適的體系結(jié)構(gòu)的機(jī)器上并由其執(zhí)行。
優(yōu)選地,該機(jī)器被實(shí)現(xiàn)在擁有下列硬件的計(jì)算機(jī)平臺(tái)上例如一個(gè)或多個(gè)中央處理單元(CPU)、一個(gè)隨機(jī)訪問(wèn)存儲(chǔ)器(RAM)和輸入/輸出(I/O)接口。該計(jì)算機(jī)平臺(tái)還包括操作系統(tǒng)和微指令代碼。這里所描述的多個(gè)進(jìn)程和函數(shù)可以是通過(guò)操作系統(tǒng)執(zhí)行的微指令代碼的一部分或者程序的一部分(或者是它們的組合)。另外,多種其它外圍設(shè)備可以被連接到該計(jì)算機(jī)平臺(tái),諸如附加數(shù)據(jù)存儲(chǔ)設(shè)備和打印設(shè)備。
應(yīng)該理解,因?yàn)楦綀D中所描繪的組成系統(tǒng)部件或和方法步驟中的一些優(yōu)選地以軟件實(shí)現(xiàn),系統(tǒng)部件(或過(guò)程步驟)之間的實(shí)際連接隨著本發(fā)明的規(guī)劃方式會(huì)有所不同。
圖1是計(jì)算機(jī)處理系統(tǒng)100的框圖,依照本發(fā)明的一種實(shí)施例可以將本發(fā)明應(yīng)用于它。系統(tǒng)100包括至少一個(gè)處理器(下文稱處理器)102,它通過(guò)系統(tǒng)總線104和其它部件可操作地相耦合。只讀存儲(chǔ)器(ROM)106,隨機(jī)訪問(wèn)存儲(chǔ)器(RAM)108、I/O接口110、網(wǎng)絡(luò)接口112和外部存儲(chǔ)器114都與系統(tǒng)總線104可操作地相耦合。各種外圍設(shè)備,例如顯示設(shè)備、盤(pán)式存儲(chǔ)設(shè)備(例如,磁盤(pán)或光盤(pán)存儲(chǔ)設(shè)備)、鍵盤(pán)和鼠標(biāo),可以通過(guò)I/O接口110或網(wǎng)絡(luò)接口112與系統(tǒng)總線104可操作地相耦合。
計(jì)算機(jī)系統(tǒng)100可以是獨(dú)立系統(tǒng)或通過(guò)網(wǎng)絡(luò)接口112與網(wǎng)絡(luò)相連。網(wǎng)絡(luò)接口112可以是硬布線接口。然而,在多種示例性實(shí)施例中,網(wǎng)絡(luò)接口112可以包括適于向另一設(shè)備傳送信息或從另一設(shè)備傳出信息的任意設(shè)備,諸如通用異步收發(fā)器(UART)、并行數(shù)字接口、軟件接口或已知或后來(lái)開(kāi)發(fā)的軟件和硬件的任意組合。網(wǎng)絡(luò)接口可以連接到不同類型的網(wǎng)絡(luò),包括局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)、內(nèi)聯(lián)網(wǎng)、虛擬專用網(wǎng)(VPN)和因特網(wǎng)。
外部存儲(chǔ)器114可以用由處理器102所管理的數(shù)據(jù)庫(kù)管理系統(tǒng)(DBMS)來(lái)實(shí)現(xiàn),并駐留在像硬盤(pán)這樣的存儲(chǔ)器上。但是,應(yīng)該意識(shí)到外部存儲(chǔ)器114可以實(shí)現(xiàn)在一個(gè)或多個(gè)附加計(jì)算機(jī)系統(tǒng)上。例如,外部存儲(chǔ)器114可以包括駐留在一個(gè)單獨(dú)的計(jì)算機(jī)系統(tǒng)上的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)。
本領(lǐng)域的技術(shù)人員將會(huì)理解在不偏離本發(fā)明的精神和范圍的前提下也可以使用其它替代的計(jì)算環(huán)境。
衛(wèi)生保健提供者越來(lái)越多地使用自動(dòng)化的技術(shù)來(lái)存儲(chǔ)和檢索信息。使用計(jì)算機(jī)化的病人記錄(CPR)來(lái)維護(hù)病人信息就是一個(gè)這樣的例子。如圖2所示,示例性CPR(200)包括在病人治療期間收集到的信息。這一信息可以包括,例如,計(jì)算機(jī)X線斷層造影(CT)圖像、X-光圖像、實(shí)驗(yàn)室測(cè)試結(jié)果、醫(yī)生進(jìn)展記錄、與醫(yī)療過(guò)程有關(guān)的細(xì)節(jié)、處方藥信息、放療報(bào)告、其它專家報(bào)告、人口統(tǒng)計(jì)學(xué)信息和計(jì)帳(財(cái)務(wù))信息。
一個(gè)CPR通常包括多個(gè)數(shù)據(jù)源,每個(gè)數(shù)據(jù)源通常反映病人關(guān)心的不同方面。結(jié)構(gòu)化的數(shù)據(jù)源,例如財(cái)務(wù)、實(shí)驗(yàn)室和藥房數(shù)據(jù)庫(kù),通常用數(shù)據(jù)庫(kù)表維護(hù)病人信息。信息也可存儲(chǔ)在非結(jié)構(gòu)化的數(shù)據(jù)源種,例如自由文本、圖像和波形。通常,關(guān)鍵的臨床發(fā)現(xiàn)都只存儲(chǔ)在醫(yī)師報(bào)告中。
圖3說(shuō)明了用于挖掘高質(zhì)量結(jié)構(gòu)化的臨床信息的示例性數(shù)據(jù)挖掘系統(tǒng)。該數(shù)據(jù)挖掘系統(tǒng)包括數(shù)據(jù)挖掘器(350),它使用知識(shí)庫(kù)(330)中包含的領(lǐng)域?qū)S玫闹R(shí)從CPR(310)挖掘信息。數(shù)據(jù)挖掘器(350)包括從CPR提取信息的部件(352)、隨時(shí)間用有原則的方式組合所有可用證據(jù)的部件(354)以及從這個(gè)組合過(guò)程做出推理的部件(356)。挖掘出的信息可以被存儲(chǔ)在結(jié)構(gòu)化的CPR(380)中。
提取部件(352)負(fù)責(zé)從與病人有關(guān)的每個(gè)數(shù)據(jù)源收集小塊信息,這些信息被表示為與病人有關(guān)的、在特定時(shí)間的概率斷言。這些概率斷言被稱為元素。組合部件(354)組合在相同時(shí)間周期中引用相同變量的所有元素以形成一個(gè)與該變量有關(guān)的統(tǒng)一標(biāo)準(zhǔn)的概率斷言。這些統(tǒng)一標(biāo)準(zhǔn)的概率斷言被稱為仿真陳述(factoid)。推理部件(356)在相同和/或不同的時(shí)間點(diǎn)上處理對(duì)這些仿真陳述的組合,以產(chǎn)生病人狀態(tài)隨時(shí)間進(jìn)展的連貫且簡(jiǎn)潔的圖片。病人狀態(tài)的這種進(jìn)展被稱為狀態(tài)序列。
本發(fā)明能夠建立病人狀態(tài)的個(gè)人模式。病人狀態(tài)僅僅是人們能夠關(guān)心的、與病人有關(guān)的變量的集合。所感興趣的信息可能包括一個(gè)狀態(tài)序列,即病人治療期間在不同時(shí)間點(diǎn)上的病人狀態(tài)的值。
有利的是,圖3中所描述的體系結(jié)構(gòu)支持插件模塊,其中,能夠很容易地為新數(shù)據(jù)源、疾病和醫(yī)院擴(kuò)展系統(tǒng)??梢允褂眯碌脑靥崛∷惴?、元素組合算法和推理算法來(lái)擴(kuò)充或替換已有的算法。
上述組件中的每一個(gè)都使用與感興趣的領(lǐng)域(諸如,例如,感興趣的疾病)有關(guān)的詳細(xì)知識(shí)。這個(gè)領(lǐng)域知識(shí)庫(kù)(330)可以有兩種形式。它可被編碼為系統(tǒng)的輸入,或者編碼為產(chǎn)生能夠被系統(tǒng)所理解的信息的程序。領(lǐng)域知識(shí)庫(kù)(330)中被輸入系統(tǒng)的當(dāng)前形式的那部分也可從數(shù)據(jù)獲取。
用于挖掘數(shù)據(jù)源的領(lǐng)域?qū)S玫闹R(shí)可以包括機(jī)構(gòu)專用領(lǐng)域知識(shí)。例如,這可以包括與在特定醫(yī)院可用的數(shù)據(jù)、醫(yī)院的文檔結(jié)構(gòu)、醫(yī)院的政策、醫(yī)院的方針以及醫(yī)院的任何變化有關(guān)的信息。
領(lǐng)域?qū)S玫闹R(shí)還可以包括疾病專用的領(lǐng)域知識(shí)。例如,疾病專用的領(lǐng)域知識(shí)可以包括影響疾病危險(xiǎn)的各種因素、疾病進(jìn)展信息、并發(fā)癥信息、與疾病有關(guān)的結(jié)果和變量、與疾病有關(guān)的措施、以及由醫(yī)療實(shí)體建立的方針和政策。
如上所述,提取部件(352)從CPR(310)獲取信息以產(chǎn)生與病人有關(guān)的概率斷言(元素),這些斷言是瞬時(shí)的或與時(shí)段有關(guān)。這個(gè)過(guò)程在領(lǐng)域知識(shí)庫(kù)(330)中所包含的領(lǐng)域知識(shí)的引導(dǎo)下實(shí)施。提取所需的領(lǐng)域知識(shí)對(duì)每個(gè)數(shù)據(jù)源來(lái)說(shuō)通常是具體的。
從文本源進(jìn)行的提取可以通過(guò)短語(yǔ)識(shí)別來(lái)實(shí)施,這要求一個(gè)規(guī)則列表,用于規(guī)定感興趣的短語(yǔ)以及從中可以做出的推理。例如,如果醫(yī)生記錄中的某個(gè)句子帶有單詞″There is evidence of metastaticcancer in the liver″,那么為了從這個(gè)句子推理中病人患了癌癥,就需要一個(gè)規(guī)則引導(dǎo)系統(tǒng)以查找短語(yǔ)″metastatic cancer″,并且如果找到了″metastatic cancer″,就以高可信度斷言病人患了癌癥(在本實(shí)施例中轉(zhuǎn)換成產(chǎn)生一個(gè)名為″癌癥(Cancer)″的元素,值為″真(True)″,可信度為0.9)。
數(shù)據(jù)源包括結(jié)構(gòu)化的和非結(jié)構(gòu)化的信息。結(jié)構(gòu)化的信息可在適當(dāng)?shù)牡胤奖晦D(zhuǎn)換成標(biāo)準(zhǔn)化的單元。非結(jié)構(gòu)化的信息可以包括ASCII文本串、DICOM(醫(yī)學(xué)數(shù)字成像和通信)格式的圖像信息、以及基于領(lǐng)域知識(shí)而劃分的文本文檔。可以注意可能不正確或遺漏的信息,以便采取動(dòng)作。例如,挖掘出的信息可能包括修正后的信息,包括修正的ICD-9診斷代碼。
從數(shù)據(jù)庫(kù)源進(jìn)行的提取可以通過(guò)查詢?cè)粗械谋韥?lái)完成,這種情況下,領(lǐng)域知識(shí)需要對(duì)什么信息位于數(shù)據(jù)庫(kù)的哪些字段中進(jìn)行編碼。另一方面,提取過(guò)程可能涉及計(jì)算數(shù)據(jù)庫(kù)中所包含的信息的復(fù)雜函數(shù),這種情況下,可以用執(zhí)行這一計(jì)算的程序的形式提供領(lǐng)域知識(shí),這一計(jì)算的輸出可以被提供給系統(tǒng)的其它部分。
從圖像、波形等進(jìn)行的提取可以由提供給系統(tǒng)的圖像處理或特征提取程序來(lái)完成。
組合包括在給定時(shí)間點(diǎn)上從相同/不同來(lái)源的可能沖突的斷言中產(chǎn)生每個(gè)變量的統(tǒng)一視圖的過(guò)程。在本發(fā)明的多種實(shí)施例中,這是用與由元素(即先驗(yàn)概率)表示的變量的統(tǒng)計(jì)有關(guān)的領(lǐng)域知識(shí)完成的。
推理是用與病人有關(guān)的所有可用的仿真陳述并通過(guò)疾病狀態(tài)、治療協(xié)議、實(shí)驗(yàn)室化驗(yàn)等產(chǎn)生病人進(jìn)展的復(fù)合視圖的過(guò)程?;旧希∪说漠?dāng)前狀態(tài)可能受到先前的狀態(tài)和任意新的組合觀察的影響。
這個(gè)過(guò)程所需的領(lǐng)域知識(shí)可以是一個(gè)統(tǒng)計(jì)模型,它描述跨越所有病人的感興趣的疾病的進(jìn)展的一般模式以及病人的疾病和可以觀察到的變量(實(shí)驗(yàn)室化驗(yàn)結(jié)果、醫(yī)生記錄等)之間的關(guān)系??梢援a(chǎn)生病人的總結(jié),相信它與仿真陳述所包含的信息和領(lǐng)域知識(shí)是最一致的。
例如,如果觀察結(jié)果似乎說(shuō)明癌癥患者在他或她沒(méi)有腫瘤生長(zhǎng)的同時(shí)正在接受化療,而領(lǐng)域知識(shí)說(shuō)明只有在病人患了癌癥時(shí)才能進(jìn)行化療,那么系統(tǒng)會(huì)判定(1)病人沒(méi)有患上癌癥,也沒(méi)有接受化療(也就是說(shuō),觀察結(jié)果可能不正確),或(2)病人患了癌癥且正在接受化療(初始推理—病人沒(méi)有患上癌癥—是不正確的);取決于這些命題中的哪一個(gè)更有可能給出所有其它信息。實(shí)際上,(1)和(2)的結(jié)論都可被得出,但有不同的概率。
看另一個(gè)例子,考慮在醫(yī)生記錄中找到了像″The patient hasmetastatic cancer″這樣的句子的情況,從這個(gè)句子可以得出結(jié)論<癌癥=真(概率=0.9)>。(注意這等價(jià)于斷言<癌癥=真(概率=0.9),癌癥=未知(概率=0.1)>)。
現(xiàn)在,進(jìn)一步假定有一個(gè)癌癥的基本概率,<癌癥=真(概率=0.35),癌癥=假(概率=0.65)>(例如,35%的病人患有癌癥)。那么,我們可以把這個(gè)斷言和癌癥的基本概率組合在一起獲得,例如,斷言<癌癥=真(概率=0.93),癌癥=假(概率=0.07)>。
同樣,假定沖突的證據(jù)指示下列斷言1.<癌癥=真(概率=0.9),癌癥=假(概率=0.1)>
2.<癌癥=假(概率=0.7),癌癥=真(概率=0.3)>
3.<癌癥=真(概率=0.1),癌癥=未知(概率=0.9)>
4.<癌癥=真(概率=0.4),癌癥=未知(癌癥=0.6)>
在這種情況下,我們可以把這些元素和癌癥的基本概率<癌癥=真(概率=0.35),癌癥=假(概率=0.65)>組合在一起得出<癌癥=真(概率=0.67),癌癥=假(概率=0.33)>.
應(yīng)該理解本發(fā)明通常必須訪問(wèn)大量的數(shù)據(jù)源并處理遺漏的、不正確的、和/或不一致的信息。例如,在確定病人是否患有糖尿病當(dāng)中,下列信息可能必須被提取(a)與糖尿病相關(guān)聯(lián)的二次診斷的ICD-9計(jì)帳代碼;(b)給予病人與糖尿病治療有關(guān)的藥物(胰島素);(c)病人的實(shí)驗(yàn)值是糖尿病的癥候(例如,兩個(gè)連續(xù)的血糖讀數(shù)超過(guò)250mg/d);(d)醫(yī)生提及病人在H&P(歷史&實(shí)際)或出院記錄(自由文本)上是糖尿?。灰约?e)相關(guān)的病人過(guò)程(例如,腳的檢查)是糖尿病。
可以看出,有多個(gè)獨(dú)立的信息來(lái)源,從中的觀察結(jié)果可以支持(用不同的可信度)病人是糖尿病患者(或者一般地說(shuō)有一些疾病/狀況)。它們并不是全部都存在,事實(shí)上在某些情況下它們還相互矛盾??梢詫?dǎo)出概率觀察結(jié)果,具有可變的可信度。從概率上可以把這些觀察結(jié)果(例如,有關(guān)計(jì)帳代碼、藥物、實(shí)驗(yàn)室測(cè)試等等)組合在一起以提出最終的糖尿病概率。注意病人記錄中可能有與糖尿病矛盾的信息。例如,病人具有某種有壓力的事件發(fā)生(例如,一次操作)并且血糖上不去。
應(yīng)該理解提出上面的例子僅僅是為了說(shuō)明目的,并不是為了限制本發(fā)明。組合元素的實(shí)際方式取決于正在考慮的特定領(lǐng)域以及系統(tǒng)使用者的需求。此外,應(yīng)該理解,盡管上述討論指的是以病人為中心的方法,但是實(shí)際的實(shí)現(xiàn)可以被擴(kuò)展到同時(shí)處理多個(gè)病人。另外,應(yīng)該理解,在不偏離本發(fā)明的精神和范圍的前提下,可以為這些階段中的任意或全部(例如,提取、組合、推理)在領(lǐng)域知識(shí)庫(kù)(330)中引入學(xué)習(xí)過(guò)程。
該系統(tǒng)可以按任意間隔、周期間隔或在在線模式下運(yùn)行。當(dāng)以間隔運(yùn)行時(shí),在系統(tǒng)運(yùn)行時(shí)挖掘數(shù)據(jù)源。在在線模式下,可以連續(xù)不斷地挖掘數(shù)據(jù)源。
可以用因特網(wǎng)運(yùn)行數(shù)據(jù)挖掘器。所創(chuàng)建的結(jié)構(gòu)化的臨床信息也可以用因特網(wǎng)來(lái)訪問(wèn)。
另外,可以把數(shù)據(jù)挖掘器作為一種服務(wù)來(lái)運(yùn)行。例如,幾個(gè)醫(yī)院參與該服務(wù)以使它們的病人信息被挖掘,并且這個(gè)信息可以存儲(chǔ)在由服務(wù)提供商所擁有的數(shù)據(jù)倉(cāng)庫(kù)中。該服務(wù)可以由第三方服務(wù)提供商(即,與醫(yī)院無(wú)關(guān)的實(shí)體)執(zhí)行。
一旦結(jié)構(gòu)化的CPR(380)被用病人信息填充,它就處于這樣一種形式中,采用該種形式有益于回答與個(gè)別病人有關(guān)的幾個(gè)問(wèn)題,以及與不同的有代表性的病人有關(guān)的幾個(gè)問(wèn)題。
下面描述REMIND(從非結(jié)構(gòu)化數(shù)據(jù)的可靠提取與合理推理),由西門(mén)子公司研究院(SCR,西門(mén)子公司的子公司)開(kāi)發(fā)的一種創(chuàng)新型數(shù)據(jù)挖掘系統(tǒng)。REMIND基于本發(fā)明的實(shí)施例。
首先,提供一種模擬來(lái)描述REMIND執(zhí)行推理的精神。
一名有一些癌癥相關(guān)知識(shí)的法國(guó)醫(yī)科學(xué)生被提供癌癥病人的CPR。CPR包括轉(zhuǎn)錄的英文口述和藥劑數(shù)據(jù)。該學(xué)生的任務(wù)是分類出哪些病人已經(jīng)出現(xiàn)了復(fù)發(fā),并且如果有的話,確定何時(shí)發(fā)生。不幸的是他的英語(yǔ)很差,盡管他知道一些關(guān)鍵的醫(yī)學(xué)詞匯和少數(shù)藥名。然而,他不能完全依賴于口述中出現(xiàn)的一些關(guān)鍵詞,例如轉(zhuǎn)移(metastases),因?yàn)樗缹<覀兺ǔ_M(jìn)行相反的陳述(″Patientis free of evidence of metastases″)。這名學(xué)生怎樣才能最好地完成他的任務(wù)?該學(xué)生可以從CPR中收集所有相關(guān)的證據(jù)一而不相信任何單個(gè)的證據(jù)—并組合它以調(diào)整任何不一致。他可以使用他的與癌癥治療有關(guān)的知識(shí)——例如,注意到病人做過(guò)肝臟切除術(shù),該學(xué)生可以得出如下結(jié)論病人以前(可能)曾經(jīng)復(fù)發(fā)過(guò)。
問(wèn)題定義假設(shè)S是采取表示系統(tǒng)狀態(tài)的∑中的值的連續(xù)時(shí)間隨機(jī)過(guò)程。假設(shè)T=(t1,t2,...,tn},其中ti<ti+1,是當(dāng)S必須被推理時(shí)的n個(gè)″感興趣的時(shí)間″。假設(shè)Si指的是在時(shí)間ti∈T時(shí)S的樣本。假設(shè)V是依賴于S的變量的集合。假設(shè)O是對(duì)所有變量v∈V的所有(概率)觀察的集合。似設(shè)Oi是″指派″給ti∈T的所有觀察的集合;即,與和這個(gè)時(shí)間步長(zhǎng)ti相關(guān)的變量v∈V有關(guān)的所有觀察。同樣, 假設(shè)Oji(v)是分配給ti的變量v的第j個(gè)觀察。假設(shè)seq=<S1,S2,...,Sn>是∑n中的隨機(jī)變量;即,seq的每個(gè)實(shí)現(xiàn)是跨越T的一個(gè)狀態(tài)序列。目標(biāo)給定O,估計(jì)最可能的狀態(tài)序列,seqMAP,(seq的最大后驗(yàn)估計(jì))。
REMIND以稱為概率觀察的統(tǒng)一格式從每個(gè)數(shù)據(jù)源提取信息Oi。每個(gè)Oi都是從數(shù)據(jù)源(例如,從句子中的短語(yǔ),或從數(shù)據(jù)庫(kù)表中的行)中的單個(gè)信息完整地提取,并因此被假定為內(nèi)在地不可靠。觀察{″Recurrent″,″12/17/01″,<T=0.1,F(xiàn)=0.0>},說(shuō)明布爾變量″Recurrent(復(fù)發(fā))″在可由″Recurrent″取用的所有可能值上有相關(guān)聯(lián)的分布。概率不必累加到1.0;任意的余數(shù)(這里是0.9)被指派給未知,并被根據(jù)(時(shí)間相關(guān)的)先驗(yàn)分布在T/F上被平滑。
從結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行的提取REMIND通過(guò)JDBC(Java內(nèi)置的、到關(guān)系數(shù)據(jù)庫(kù)的接口)與所有數(shù)據(jù)庫(kù)通信。執(zhí)行查詢(例如,檢索給予的藥物)被表示為概率觀察。
從自由文本進(jìn)行的提取REMIND劃出文檔頁(yè)眉/頁(yè)腳條并標(biāo)記自由文本。來(lái)自標(biāo)記流的信息通過(guò)短語(yǔ)識(shí)別被提取,短語(yǔ)識(shí)別是來(lái)自計(jì)算語(yǔ)言學(xué)的一種易于實(shí)現(xiàn)的方法。短語(yǔ)識(shí)別就像聽(tīng)起來(lái)那么簡(jiǎn)單。一短語(yǔ)識(shí)別規(guī)則在一個(gè)單獨(dú)句子被應(yīng)用,規(guī)則[metastasis & malignant]=>{″Recurrent″,<T=0.5>}說(shuō)明如果在一個(gè)句子中找到了規(guī)則中的兩個(gè)單詞(實(shí)際是別名),就應(yīng)該產(chǎn)生與復(fù)發(fā)有關(guān)的概率觀察。REMIND也具有復(fù)合規(guī)則,用來(lái)檢測(cè)″否定″和″不精確性″,它們修改已有的觀察中的概率。
我們興趣的主要焦點(diǎn)是估計(jì)在跨越T-感興趣的持續(xù)時(shí)間病人發(fā)生了什么。對(duì)MAP狀態(tài)序列的估計(jì)可以用兩步進(jìn)行,第一步是組合固定時(shí)間點(diǎn)上的觀察,第二步是傳播這些跨時(shí)間的推理。
每個(gè)(平滑的)Oi是采用假定小的上下文并從中提取的變量的后驗(yàn)概率的形式。關(guān)于一個(gè)變量的、持續(xù)單個(gè)時(shí)間ti的所有觀察Oji(v)被用貝葉斯定理以直接的方式組合到一個(gè)斷言中
在每個(gè)ti∈T,使用貝葉斯網(wǎng)絡(luò)建立Si和V之間關(guān)系的模型。因?yàn)樵摖顟B(tài)過(guò)程的模型被建立成馬爾可夫,并且該狀態(tài)是我們觀察的所有變量的起因(直接或間接),我們有下列方程 這個(gè)方程把給定所有觀察時(shí)seq(跨時(shí)間的狀態(tài)過(guò)程的樣本的任意序列)的后驗(yàn)概率和給定對(duì)應(yīng)每個(gè)時(shí)刻的觀察時(shí)該狀態(tài)的時(shí)間局部的后驗(yàn)概率P(Si|Oi)連接在一起?;旧?,我們通過(guò)把每個(gè)狀態(tài)樣本Si的模型建立成下一個(gè)樣本Si+1的起因而把時(shí)間局部的貝葉斯網(wǎng)絡(luò)串在一起。
盡管在這里已經(jīng)參考附圖描述了本發(fā)明的說(shuō)明性實(shí)施例,應(yīng)該理解本發(fā)明并不受限于那些具體的實(shí)施例,在不偏離本發(fā)明的范圍和精神的前提下本領(lǐng)域的技術(shù)人員可以進(jìn)行多種其它的改動(dòng)和變更。
權(quán)利要求
1.一種從病人記錄產(chǎn)生結(jié)構(gòu)化的臨床信息的系統(tǒng),包括多個(gè)包含病人信息的數(shù)據(jù)源,至少有一些病人信息是非結(jié)構(gòu)化的;一個(gè)包含用于挖掘數(shù)據(jù)源的領(lǐng)域?qū)S脴?biāo)準(zhǔn)的領(lǐng)域知識(shí)庫(kù);和一個(gè)數(shù)據(jù)挖掘器,用于使用領(lǐng)域?qū)S脴?biāo)準(zhǔn)從數(shù)據(jù)源提取臨床信息以創(chuàng)建結(jié)構(gòu)化的臨床信息。
2.權(quán)利要求1的系統(tǒng),其中,數(shù)據(jù)挖掘器包含一個(gè)提取部件,用于從數(shù)據(jù)源提取信息以創(chuàng)建一組概率斷言;一個(gè)組合部件,用于組合該組概率斷言以創(chuàng)建一個(gè)或多個(gè)統(tǒng)一標(biāo)準(zhǔn)的概率斷言;和一個(gè)推理部件,用于從一個(gè)或多個(gè)統(tǒng)一標(biāo)準(zhǔn)的概率斷言推理病人狀態(tài)。
3.權(quán)利要求2的系統(tǒng),其中,該提取部件使用領(lǐng)域?qū)S脴?biāo)準(zhǔn)從數(shù)據(jù)源提取所提取的信息。
4.權(quán)利要求2的系統(tǒng),其中,該組合部件使用領(lǐng)域?qū)S脴?biāo)準(zhǔn)來(lái)組合概率斷言。
5.權(quán)利要求2的系統(tǒng),其中,該推理部件使用領(lǐng)域?qū)S脴?biāo)準(zhǔn)來(lái)推理病人狀態(tài)。
6.權(quán)利要求1的系統(tǒng),其中,該數(shù)據(jù)源包括醫(yī)療信息、財(cái)務(wù)信息和人口統(tǒng)計(jì)信息中的一個(gè)或多個(gè)。
7.權(quán)利要求6的系統(tǒng),其中,該醫(yī)療信息包括自由文本信息、醫(yī)療圖像信息、室驗(yàn)室信息、處方藥信息和波形信息中的一個(gè)或多個(gè)。
8.權(quán)利要求1的系統(tǒng),其中,該數(shù)據(jù)挖掘器以任意間隔運(yùn)行。
9.權(quán)利要求1的系統(tǒng),其中,該數(shù)據(jù)挖掘器以周期間隔運(yùn)行。
10.權(quán)利要求1的系統(tǒng),其中,該數(shù)據(jù)挖掘器在在線模式下運(yùn)行。
11.權(quán)利要求2的系統(tǒng),其中,該提取部件從自由文本治療記錄中提取關(guān)鍵短語(yǔ)。
12.權(quán)利要求2的系統(tǒng),其中,概率值被指派給概率斷言。
13.權(quán)利要求1的系統(tǒng),其中,所創(chuàng)建的結(jié)構(gòu)化的臨床信息被存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中。
14.權(quán)利要求1的系統(tǒng),其中,所創(chuàng)建的結(jié)構(gòu)化的臨床信息包括概率信息。
15.權(quán)利要求1的系統(tǒng),其中,該推理部件使用統(tǒng)計(jì)模型,該統(tǒng)計(jì)模型描述跨越全體病人的疾病進(jìn)展的模式以及病人的疾病和觀察到的變量之間的關(guān)系。
16.權(quán)利要求15的系統(tǒng),其中,該推理部件引起多次推理,每次推理都有所指派的概率。
17.權(quán)利要求1的系統(tǒng),其中,用于挖掘數(shù)據(jù)源的領(lǐng)域?qū)S脴?biāo)準(zhǔn)包括機(jī)構(gòu)專用領(lǐng)域知識(shí)。
18.權(quán)利要求17的系統(tǒng),其中,該機(jī)構(gòu)專用領(lǐng)域知識(shí)涉及醫(yī)院的數(shù)據(jù)、醫(yī)院的文檔結(jié)構(gòu)、醫(yī)院的政策、醫(yī)院的方針以及醫(yī)院的變化中的一個(gè)或多個(gè)。
19.權(quán)利要求1的系統(tǒng),其中,該領(lǐng)域?qū)S脴?biāo)準(zhǔn)包括疾病專用的領(lǐng)域知識(shí)。
20.權(quán)利要求19的系統(tǒng),其中,該疾病專用的領(lǐng)域知識(shí)包括影響疾病危險(xiǎn)的因素、疾病進(jìn)展信息、并發(fā)癥信息、與疾病有關(guān)的結(jié)果和變量、與疾病有關(guān)的措施、以及由醫(yī)療實(shí)體建立的方針和政策中的一個(gè)或多個(gè)。
21.權(quán)利要求1的系統(tǒng),其中,一個(gè)信息中心庫(kù)接口用來(lái)訪問(wèn)數(shù)據(jù)挖掘器所用的數(shù)據(jù)源中所包含的信息的至少一些。
22.權(quán)利要求21的系統(tǒng),其中,該信息中心庫(kù)接口是一個(gè)可配置的數(shù)據(jù)接口。
23.權(quán)利要求22的系統(tǒng),其中,該可配置的數(shù)據(jù)接口隨醫(yī)院而變化。
24.權(quán)利要求1的系統(tǒng),其中,該數(shù)據(jù)源包括結(jié)構(gòu)化的信息。
25.權(quán)利要求24的系統(tǒng),其中,該結(jié)構(gòu)化的信息被轉(zhuǎn)換成標(biāo)準(zhǔn)化的單元。
26.權(quán)利要求1的系統(tǒng),其中,該非結(jié)構(gòu)化的信息包括ASCII文本串、DICOM格式的圖像信息和基于領(lǐng)域知識(shí)劃分的文本文檔中的一個(gè)或多個(gè)。
27.權(quán)利要求1的系統(tǒng),其中,該數(shù)據(jù)挖掘器是用因特網(wǎng)運(yùn)行的。
28.權(quán)利要求1的系統(tǒng),其中,所創(chuàng)建的結(jié)構(gòu)化的醫(yī)療信息是通過(guò)因特網(wǎng)訪問(wèn)的。
29.權(quán)利要求1的系統(tǒng),其中,該數(shù)據(jù)挖掘器被作為一種服務(wù)而運(yùn)行。
30.權(quán)利要求29的系統(tǒng),其中,該服務(wù)是由第三方服務(wù)提供商執(zhí)行的。
31.權(quán)利要求2的系統(tǒng),其中,所推理出的病人狀態(tài)包括診斷。
32.權(quán)利要求1的系統(tǒng),其中,所創(chuàng)建的結(jié)構(gòu)化的臨床信息包括糾正的信息。
33.一種從病人記錄產(chǎn)生結(jié)構(gòu)化的臨床信息的方法,包括下列步驟提供多個(gè)包含病人信息的數(shù)據(jù)源,至少有一些病人信息是非結(jié)構(gòu)化的;提供一個(gè)包含用于挖掘數(shù)據(jù)源的領(lǐng)域?qū)S脴?biāo)準(zhǔn)的領(lǐng)域知識(shí)庫(kù);和使用領(lǐng)域?qū)S脴?biāo)準(zhǔn)從該數(shù)據(jù)源提取臨床信息以創(chuàng)建結(jié)構(gòu)化的臨床信息。
34.權(quán)利要求31的方法,其中,從數(shù)據(jù)源提取臨床信息包括從數(shù)據(jù)源提取信息以創(chuàng)建一組概率斷言;組合該組概率斷言以創(chuàng)建一個(gè)或多個(gè)統(tǒng)一標(biāo)準(zhǔn)的概率斷言;和從一個(gè)或多個(gè)統(tǒng)一標(biāo)準(zhǔn)的概率斷言推理病人狀態(tài)。
35.權(quán)利要求32的方法,其中,從數(shù)據(jù)源提取信息包括使用領(lǐng)域?qū)S脴?biāo)準(zhǔn)來(lái)從數(shù)據(jù)源中提取所提取的信息。
36.權(quán)利要求32的方法,其中,組合該組概率斷言包括使用領(lǐng)域?qū)S脴?biāo)準(zhǔn)來(lái)組合概率斷言。
37.權(quán)利要求32的方法,其中,推理病人狀態(tài)包括使用領(lǐng)域?qū)S脴?biāo)準(zhǔn)來(lái)推理病人狀態(tài)。
38.權(quán)利要求31的方法,其中,該數(shù)據(jù)源包括醫(yī)療信息、財(cái)務(wù)信息和人口統(tǒng)計(jì)信息中的一個(gè)或多個(gè)。
39.權(quán)利要求36的方法,其中,該醫(yī)療信息包括自由文本信息、醫(yī)療圖像信息、實(shí)驗(yàn)室信息、處方藥信息和波形信息中的一個(gè)或多個(gè)。
40.權(quán)利要求32的方法,其中,概率值被指派給概率斷言。
41.權(quán)利要求31的方法,其中,所創(chuàng)建的結(jié)構(gòu)化的臨床信息被存儲(chǔ)在一數(shù)據(jù)倉(cāng)庫(kù)中。
42.權(quán)利要求31的方法,其中,所創(chuàng)建的結(jié)構(gòu)化的臨床信息包括概率信息。
43.權(quán)利要求31的方法,其中,用于挖掘數(shù)據(jù)源的領(lǐng)域?qū)S脴?biāo)準(zhǔn)包括機(jī)構(gòu)專用領(lǐng)域知識(shí)。
44.權(quán)利要求41的方法,其中,該機(jī)構(gòu)專用領(lǐng)域知識(shí)涉及醫(yī)院的數(shù)據(jù)、醫(yī)院的文檔結(jié)構(gòu)、醫(yī)院的政策、醫(yī)院的方針以及醫(yī)院的變化中的一個(gè)或多個(gè)。
45.權(quán)利要求31的方法,其中,該領(lǐng)域?qū)S脴?biāo)準(zhǔn)包括疾病專用的領(lǐng)域知識(shí)。
46.權(quán)利要求43的方法,其中,該疾病專用的領(lǐng)域知識(shí)包括影響疾病危險(xiǎn)的因素、疾病進(jìn)展信息、并發(fā)癥信息、與疾病有關(guān)的結(jié)果和變量、與疾病有關(guān)的措施、以及由醫(yī)療實(shí)體建立的方針和政策中的一個(gè)或多個(gè)。
47.權(quán)利要求31的方法,其中,該數(shù)據(jù)源包括結(jié)構(gòu)化的信息。
48.權(quán)利要求45的方法,其中,該結(jié)構(gòu)化的信息被轉(zhuǎn)換成標(biāo)準(zhǔn)化的單元。
49.權(quán)利要求31的方法,其中,該非結(jié)構(gòu)化的信息包括ASCII文本串、DICOM格式的圖像信息和基于領(lǐng)域知識(shí)劃分的文本文檔中的一個(gè)或多個(gè)。
50.權(quán)利要求31的方法,其中,該方法是用因特網(wǎng)執(zhí)行的。
51.權(quán)利要求31的方法,其中,該方法是由第三方服務(wù)提供商執(zhí)行的。
52.權(quán)利要求34的方法,其中,所推理的病人狀態(tài)包括診斷。
53.權(quán)利要求33的方法,其中,所創(chuàng)建的結(jié)構(gòu)化的臨床信息包括糾正的信息。
54.一種機(jī)器可讀的程序存儲(chǔ)設(shè)備,確實(shí)地包括一個(gè)指令程序,該程序可被在機(jī)器上執(zhí)行以從病人記錄產(chǎn)生結(jié)構(gòu)化的臨床信息,該方法步驟包括提供多個(gè)包含病人信息的數(shù)據(jù)源,至少有一些病人信息是非結(jié)構(gòu)化的;提供包含用于挖掘數(shù)據(jù)源的領(lǐng)域?qū)S脴?biāo)準(zhǔn)的領(lǐng)域知識(shí)庫(kù);使用領(lǐng)域?qū)S脴?biāo)準(zhǔn)從數(shù)據(jù)源提取臨床信息以創(chuàng)建結(jié)構(gòu)化的臨床信息。
全文摘要
本發(fā)明為挖掘高質(zhì)量結(jié)構(gòu)化的臨床信息提供了一種數(shù)據(jù)挖掘框架。該數(shù)據(jù)挖掘框架包括數(shù)據(jù)挖掘器(350),它根據(jù)知識(shí)庫(kù)(330)中包含的領(lǐng)域?qū)S玫闹R(shí)從計(jì)算機(jī)化的病人記錄(CPR)(310)挖掘醫(yī)療信息。數(shù)據(jù)挖掘器(350)包括用于從CPR提取信息的部件,隨時(shí)間以有原則的方式組合所有可用證據(jù)的部件(354),以及從這個(gè)組合過(guò)程做出推理的部件(356)。所挖掘的醫(yī)療信息被存儲(chǔ)在結(jié)構(gòu)化的CPR(380)中,該CPR可以是一個(gè)數(shù)據(jù)倉(cāng)庫(kù)。
文檔編號(hào)G06F19/00GK1582443SQ02822042
公開(kāi)日2005年2月16日 申請(qǐng)日期2002年11月4日 優(yōu)先權(quán)日2001年11月2日
發(fā)明者R·B·勞, S·桑迪爾亞, C·阿米斯, R·S·尼庫(kù)萊斯庫(kù), A·K·格爾, T·R·瓦里克 申請(qǐng)人:西門(mén)子共同研究公司