亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

疾病數(shù)據(jù)的標準化方法及標準化裝置與流程

文檔序號:12669126閱讀:554來源:國知局
疾病數(shù)據(jù)的標準化方法及標準化裝置與流程

本發(fā)明涉及醫(yī)療數(shù)據(jù)分析技術領域,具體而言,涉及一種疾病數(shù)據(jù)的標準化方法和一種疾病數(shù)據(jù)的標準化裝置。



背景技術:

隨著我國醫(yī)療信息化的不斷完善,大部分醫(yī)院已經(jīng)積累了大量的EMR(Electronic Medical Record,電子病歷)數(shù)據(jù);同時隨著大數(shù)據(jù)技術的興起,對海量數(shù)據(jù)的挖掘技術逐漸成熟,將數(shù)據(jù)挖掘技術應用于EMR數(shù)據(jù),挖掘其中蘊含的診療知識,為醫(yī)生的診療提供決策輔助,將能夠在醫(yī)療健康領域產(chǎn)生極大價值。

數(shù)據(jù)一致性是目前EMR數(shù)據(jù)挖掘領域面臨的一大問題。由于醫(yī)院內(nèi)部醫(yī)療相關數(shù)據(jù)的隱私敏感性,各大醫(yī)院的信息化系統(tǒng)需要對外進行物理隔離,因此醫(yī)院大都選擇在內(nèi)部單獨建立信息系統(tǒng),各個醫(yī)院系統(tǒng)獨立引發(fā)了醫(yī)療數(shù)據(jù)的“數(shù)據(jù)孤島”問題。而醫(yī)療數(shù)據(jù)相關的專業(yè)術語都有對應的國際編碼標準,由于標準的不斷變化,同一個標準可能出現(xiàn)多個版本。由于建立醫(yī)院信息系統(tǒng)時并不考慮數(shù)據(jù)互通的問題,各家醫(yī)院可能使用不一樣的數(shù)據(jù)標準(如診斷編碼的兩種標準ICD-9和ICD-10),甚至在同一家醫(yī)院內(nèi)部,由于科室及醫(yī)生的習慣不同,編碼標準和術語名稱都可能發(fā)生不一致的現(xiàn)象。以疾病名稱標準ICD-10為例,對于糖尿病診斷,可能使用標準編碼“E14.9”,也可能使用細化的內(nèi)部編碼“E14.901”,而診斷名稱可能只使用全稱“糖尿病”,也可能在名稱后加上限定詞“糖尿病,高?!?。綜上,醫(yī)療信息化系統(tǒng)內(nèi)的EMR數(shù)據(jù)存在大量的數(shù)據(jù)標準不一致問題。而數(shù)據(jù)清洗是數(shù)據(jù)挖掘的重要步驟,用于解決數(shù)據(jù)中的重復,不一致等問題。在針對EMR的數(shù)據(jù)挖掘任務中,針對術語標準不一致的數(shù)據(jù)清理工作顯得格外重要。

目前,針對數(shù)據(jù)中術語標準不一致主要解決方案是:根據(jù)領域知識由領域專家確立標準并推廣,該方案在醫(yī)療信息化領域已經(jīng)得到了廣泛應用。以疾病名稱為例,現(xiàn)有以WHO(World Health Organization,世界衛(wèi)生組織)為主導定制的ICD(International Classification of Disease,國際疾病分類)作為疾病編碼標準,該標準在全世界已經(jīng)得到了廣泛推廣應用。

但該方案在實施時存在多個問題:

一、術語標準的版本演化問題。以疾病編碼ICD為例,目前其已經(jīng)推出第10個版本。新版本出現(xiàn)時,對于是否升級系統(tǒng)中的術語表不同機構會有不同的選擇。例如,部分美國和歐洲醫(yī)院仍然使用ICD-9編碼,而中國的國家標準中推行的是ICD-10編碼,使用不用版本的編碼仍然能夠導致術語不一致的問題。

二、標準執(zhí)行力度問題。盡管術語標準按規(guī)范需嚴格執(zhí)行,但由于不同醫(yī)院,不同科室,不同醫(yī)師的個人經(jīng)驗,診療習慣并不一致,嚴格的執(zhí)行標準并不能很好的滿足所有人的記錄需求,所以在錄入疾病編碼和名稱時,系統(tǒng)往往會給予醫(yī)師一定的自由度,如疾病名稱后面可以加限定詞等。另一方面,目前診療信息大多仍由醫(yī)生手工錄入,難免發(fā)生錯誤,出現(xiàn)編碼和名稱不匹配的情況。

三、醫(yī)院內(nèi)部編碼問題。由于前述原因,嚴格的術語標準并不能很好的滿足所有醫(yī)生的記錄需求,而目前普適標準一般由西方國家針對現(xiàn)代醫(yī)學制定,對于中國醫(yī)療機構中特有的中醫(yī)診療更是存在標準不適用問題,所以醫(yī)院大多存在一套內(nèi)部編碼標準,而內(nèi)部編碼更加無法互通,使得術語不一致問題更加嚴重。

因此,如何實現(xiàn)疾病數(shù)據(jù)的標準化成為亟待解決的技術問題。



技術實現(xiàn)要素:

本發(fā)明正是基于上述技術問題至少之一,提出了一種新的疾病數(shù)據(jù)的標準化方案,能夠根據(jù)任一標準疾病數(shù)據(jù)規(guī)范,對非標準疾病數(shù)據(jù)進行整合,從而實現(xiàn)疾病數(shù)據(jù)的標準化及一致化。

有鑒于此,本發(fā)明提出了一種疾病數(shù)據(jù)的標準化方法,包括:獲取非 標準疾病數(shù)據(jù);確定與所述非標準疾病數(shù)據(jù)匹配的目標標準疾病數(shù)據(jù);將所述非標準疾病數(shù)據(jù)與所述目標標準疾病數(shù)據(jù)進行關聯(lián)。

在該技術方案中,由于不同醫(yī)院、不同科室、及不同醫(yī)師在記錄疾病數(shù)據(jù)時,通常會按照各自的需求進行記錄,從而導致同一疾病可能存在多種不同的術語,嚴重影響疾病數(shù)據(jù)的統(tǒng)一,所以通過獲取非標準疾病數(shù)據(jù),確定與非標準疾病數(shù)據(jù)匹配的目標標準疾病數(shù)據(jù),并將非標準疾病數(shù)據(jù)與目標標準疾病數(shù)據(jù)進行關聯(lián),使得能夠根據(jù)任一標準疾病數(shù)據(jù)規(guī)范,對非標準疾病數(shù)據(jù)進行整合,從而實現(xiàn)疾病數(shù)據(jù)的標準化及一致化。其中,非標準的疾病數(shù)據(jù)是相對于目標標準疾病數(shù)據(jù)而言的,目標標準疾病數(shù)據(jù)是唯一確定的公認標準。

具體地,以對于“糖尿病”的記錄為例,目標標準疾病數(shù)據(jù)為“E14.9,未特指的糖尿病”,此時,任何不同于該目標標準疾病數(shù)據(jù)的術語均為非標準疾病數(shù)據(jù)(如“E14.901,糖尿病,高?!?,通過獲取“E14.901,糖尿病,高?!边@一非標準疾病數(shù)據(jù),確定與其匹配的目標標準疾病數(shù)據(jù)“E14.9,未特指的糖尿病”,并將“E14.901,糖尿病,高?!迸c“E14.9,未特指的糖尿病”進行關聯(lián),從而實現(xiàn)將“糖尿病”這一疾病數(shù)據(jù)標準化。

在上述技術方案中,優(yōu)選地,在確定與所述非標準疾病數(shù)據(jù)匹配的目標標準疾病數(shù)據(jù)的步驟之前,還包括:建立用于規(guī)范所述非標準疾病數(shù)據(jù)的標準疾病數(shù)據(jù)庫;確定與所述非標準疾病數(shù)據(jù)匹配的目標標準疾病數(shù)據(jù)的步驟具體包括:根據(jù)所述非標準疾病數(shù)據(jù)中的疾病編碼和疾病名稱,在所述標準疾病數(shù)據(jù)庫中,查找與所述非標準疾病數(shù)據(jù)匹配的所述目標標準疾病數(shù)據(jù)。

在該技術方案中,通過建立用于規(guī)范非標準數(shù)據(jù)的標準疾病數(shù)據(jù)庫,為實現(xiàn)疾病數(shù)據(jù)的標準化提供必要的前提保障;同時,由于一般疾病數(shù)據(jù)包含疾病編碼和疾病名稱兩部分,通過根據(jù)非標準疾病數(shù)據(jù)中的疾病編碼和疾病名稱,在包含各類不同標準疾病數(shù)據(jù)的標準疾病數(shù)據(jù)庫中,查找與其匹配的目標標準疾病數(shù)據(jù),確保了查找結果的有效性和準確性。

在上述任一項技術方案中,優(yōu)選地,根據(jù)所述非標準疾病數(shù)據(jù)中的疾病編碼和疾病名稱,在所述標準疾病數(shù)據(jù)庫中,查找與所述非標準疾病數(shù) 據(jù)匹配的所述目標標準疾病數(shù)據(jù)的步驟具體包括:查找與所述非標準疾病數(shù)據(jù)中的疾病編碼相匹配的至少一個預設標準疾病數(shù)據(jù);計算每個預設標準疾病數(shù)據(jù)中的疾病名稱與所述非標準疾病數(shù)據(jù)中的疾病名稱之間的相似度值;判斷是否有相似度值大于預設閥值的預設標準疾病數(shù)據(jù);在判定有所述相似度值大于預設閥值的預設標準疾病數(shù)據(jù)時,將所述相似度值大于預設閥值的預設標準疾病數(shù)據(jù)設置為所述目標標準疾病數(shù)據(jù);在判定沒有所述相似度值大于預設閥值的預設標準疾病數(shù)據(jù)時,提示用戶指定任一相似度值不大于預設閥值的預設標準疾病數(shù)據(jù),以將其設置為所述目標標準疾病數(shù)據(jù)。

在該技術方案中,由于每一類疾病編碼代表一類疾病,所以通過查找與非標準疾病數(shù)據(jù)中的疾病編碼相匹配的至少一個預設標準疾病數(shù)據(jù),從各類不同預設標準疾病數(shù)據(jù)中篩選出可能匹配的單個或多個預設標準疾病數(shù)據(jù),從而縮小查找范圍,降低了后續(xù)過程中的運算負荷;同時通過在判定有相似度值大于預設閥值的預設標準疾病數(shù)據(jù)時,將相似度值大于預設閥值的預設標準疾病數(shù)據(jù)設置為目標標準疾病數(shù)據(jù),在疾病編碼類似的前提下,疾病名稱的相似度值越高,則證明兩者描述的是同一種疾病的概率越大,無需人為加以干預,提高了對疾病數(shù)據(jù)進行標準化的效率;通過在判定沒有相似度值大于預設閥值的預設標準疾病數(shù)據(jù)時,提示用戶指定任一相似度值不大于預設閥值的預設標準疾病數(shù)據(jù),當僅憑相似度值無法準確進行確認時,可以通過人為加以干預,比如,根據(jù)預設標準疾病數(shù)據(jù)的相似度值的大小進行排列,生成相似度值列表并推送給用戶,用戶可根據(jù)相似度值的大小在該相似度值列表中指定任一預設標準疾病數(shù)據(jù)作為目標標準數(shù)據(jù)疾病,從而提高了對疾病數(shù)據(jù)進行標準化的準確性。其中,在查找與非標準疾病數(shù)據(jù)中的疾病編碼相匹配的預設標準疾病數(shù)據(jù)時,可以僅根據(jù)部分疾病編碼(前幾位編碼)進行查找,當然,也可以根據(jù)完整的疾病編碼進行查找。

在上述任一項技術方案中,優(yōu)選地,在將所述相似度值大于預設閥值的預設標準疾病數(shù)據(jù)設置為所述目標標準疾病數(shù)據(jù)的步驟之前,還包括:判斷所述相似度值大于預設閥值的預設標準疾病數(shù)據(jù)的個數(shù)是否唯一存在; 在判定所述相似度值大于預設閥值的預設標準疾病數(shù)據(jù)的個數(shù)唯一存在時,執(zhí)行將所述相似度值大于預設閥值的預設標準疾病數(shù)據(jù)設置為所述目標標準疾病數(shù)據(jù)的步驟;在判定所述相似度值大于預設閥值的預設標準疾病數(shù)據(jù)的個數(shù)不唯一存在時,提示所述用戶指定任一所述相似度值大于預設閥值的預設標準疾病數(shù)據(jù),以將其設置為所述目標標準疾病數(shù)據(jù)。

在該技術方案中,通過判斷相似度值大于預設閥值的預設標準疾病數(shù)據(jù)的個數(shù)是否唯一存在,并在判定相似度值大于預設閥值的預設標準疾病數(shù)據(jù)的個數(shù)唯一存在時,執(zhí)行將相似度值大于預設閥值的預設標準疾病數(shù)據(jù)設置為目標標準疾病數(shù)據(jù),無需人為干預,提高了對疾病數(shù)據(jù)進行標準化的效率,同時因目標標準疾病數(shù)據(jù)的唯一性,提高了對疾病數(shù)據(jù)進行標準化的準確性;以及在判定相似度值大于預設閥值的預設標準疾病數(shù)據(jù)的個數(shù)不唯一存在時,提示用戶指定任一相似度值大于預設閥值的預設標準疾病數(shù)據(jù),以將其設置為目標標準疾病數(shù)據(jù),在出現(xiàn)多個預設標準疾病數(shù)據(jù)待匹配時,通過人為進行干預匹配,避免預設標準疾病數(shù)據(jù)與標準疾病數(shù)據(jù)之間出現(xiàn)漏配、錯配等問題,進一步提高了查找結果的準確性。

在上述任一項技術方案中,優(yōu)選地,其特征在于,根據(jù)以下公式計算每個預設標準疾病數(shù)據(jù)中的疾病名稱與所述非標準疾病數(shù)據(jù)中的疾病名稱之間的相似度值:

其中,du,ds分別表示所述非標準數(shù)據(jù)中的疾病名稱和所述預設標準疾病數(shù)據(jù)中的疾病名稱,du∩ds表示兩者疾病名稱中相同字符的個數(shù),du∪ds表示兩者疾病名稱中不重復的字符的總個數(shù)。

根據(jù)本發(fā)明的第二方面,提出了一種疾病數(shù)據(jù)的標準化裝置,包括:獲取單元,用于獲取非標準疾病數(shù)據(jù);確定單元,用于確定與所述非標準疾病數(shù)據(jù)匹配的目標標準疾病數(shù)據(jù);關聯(lián)單元,用于將所述非標準疾病數(shù)據(jù)與所述目標標準疾病數(shù)據(jù)進行關聯(lián)。

在該技術方案中,由于不同醫(yī)院、不同科室、及不同醫(yī)師在記錄疾病數(shù)據(jù)時,通常會按照各自的需求進行記錄,從而導致同一疾病可能存在多種不同的術語,嚴重影響疾病數(shù)據(jù)的統(tǒng)一,所以通過獲取非標準疾病數(shù)據(jù), 確定與非標準疾病數(shù)據(jù)匹配的目標標準疾病數(shù)據(jù),并將非標準疾病數(shù)據(jù)與目標標準疾病數(shù)據(jù)進行關聯(lián),使得能夠根據(jù)任一標準疾病數(shù)據(jù)規(guī)范,對非標準的疾病數(shù)據(jù)進行整合,從而實現(xiàn)疾病數(shù)據(jù)的標準化及一致化。其中,非標準的疾病數(shù)據(jù)是相對于目標標準疾病數(shù)據(jù)而言的,目標標準疾病數(shù)據(jù)是唯一確定的公認標準。

具體地,以對于“糖尿病”的記錄為例,目標標準疾病數(shù)據(jù)為“E14.9,未特指的糖尿病”,此時,任何不同于該目標標準疾病數(shù)據(jù)的術語均為非標準疾病數(shù)據(jù)(如“E14.901,糖尿病,高?!?,通過獲取“E14.901,糖尿病,高危”這一非標準疾病數(shù)據(jù),確定與其匹配的目標標準疾病數(shù)據(jù)“E14.9,未特指的糖尿病”,并將“E14.901,糖尿病,高?!迸c“E14.9,未特指的糖尿病”進行關聯(lián),從而實現(xiàn)將“糖尿病”這一疾病數(shù)據(jù)標準化。

在上述技術方案中,優(yōu)選地,還包括:建立單元,用于建立用于規(guī)范所述非標準疾病數(shù)據(jù)的標準疾病數(shù)據(jù)庫;所述確定單元具體用于:根據(jù)所述非標準疾病數(shù)據(jù)中的疾病編碼和疾病名稱,在所述標準疾病數(shù)據(jù)庫中,查找與所述非標準疾病數(shù)據(jù)匹配的所述目標標準疾病數(shù)據(jù)。

在該技術方案中,通過建立用于規(guī)范非標準數(shù)據(jù)的標準疾病數(shù)據(jù)庫,為實現(xiàn)疾病數(shù)據(jù)的標準化提供必要的前提保障;同時,由于一般疾病數(shù)據(jù)包含疾病編碼和疾病名稱兩部分,通過根據(jù)非標準疾病數(shù)據(jù)中的疾病編碼和疾病名稱,在包含各類不同標準疾病數(shù)據(jù)的標準疾病數(shù)據(jù)庫中,查找與其匹配的目標標準疾病數(shù)據(jù),確保了查找結果的有效性和準確性。

在上述任一項技術方案中,優(yōu)選地,所述確定單元包括:查找單元,用于查找與所述非標準疾病數(shù)據(jù)中的疾病編碼相匹配的至少一個預設標準疾病數(shù)據(jù);計算單元,用于計算每個預設標準疾病數(shù)據(jù)中的疾病名稱與所述非標準疾病數(shù)據(jù)中的疾病名稱的相似度值;第一判斷單元,用于判斷是否有相似度值大于預設閥值的預設標準疾病數(shù)據(jù);設置單元,用于在所述第一判斷單元判定有所述相似度值大于預設閥值的預設標準疾病數(shù)據(jù)時,將所述相似度值大于預設閥值的預設標準疾病數(shù)據(jù)設置為所述目標標準疾病數(shù)據(jù),以及在所述第一判斷單元判定沒有所述相似度值大于預設閥值的預設標準疾病數(shù)據(jù)時,提示用戶指定任一相似度值不大于預設閥值的預設 標準疾病數(shù)據(jù),以將其設置為所述目標標準疾病數(shù)據(jù)。

在該技術方案中,由于每一類疾病編碼代表一類疾病,所以通過查找與非標準疾病數(shù)據(jù)中的疾病編碼相匹配的至少一個預設標準疾病數(shù)據(jù),從各類不同預設標準疾病數(shù)據(jù)中篩選出可能匹配的單個或多個預設標準疾病數(shù)據(jù),從而縮小查找范圍,降低了后續(xù)過程中的運算負荷;同時通過在判定有相似度值大于預設閥值的預設標準疾病數(shù)據(jù)時,將相似度值大于預設閥值的預設標準疾病數(shù)據(jù)設置為目標標準疾病數(shù)據(jù),在疾病編碼類似的前提下,疾病名稱的相似度值越高,則證明兩者描述的是同一種疾病的概率越大,無需人為加以干預,提高了對疾病數(shù)據(jù)進行標準化的效率;通過在判定沒有相似度值大于預設閥值的預設標準疾病數(shù)據(jù)時,提示用戶指定任一相似度值不大于預設閥值的預設標準疾病數(shù)據(jù),當僅憑相似度值無法準確進行確認時,可以通過人為加以干預,比如,根據(jù)預設標準疾病數(shù)據(jù)的相似度值的大小進行排列,生成相似度值列表并推送給用戶,用戶可根據(jù)相似度值的大小在該相似度值列表中指定任一預設標準疾病數(shù)據(jù)作為目標標準數(shù)據(jù)疾病,從而提高了對疾病數(shù)據(jù)進行標準化的準確性。其中,在查找與非標準疾病數(shù)據(jù)中的疾病編碼相匹配的預設標準疾病數(shù)據(jù)時,可以僅根據(jù)部分疾病編碼(前幾位編碼)進行查找,當然,也可以根據(jù)完整的疾病編碼進行查找。

在上述任一項技術方案中,優(yōu)選地,所述確定單元還包括:第二判斷單元,用于在所述第一判斷單元判定有所述相似度值大于預設閥值的預設標準疾病數(shù)據(jù)之后,判斷所述相似度值大于預設閥值的預設標準疾病數(shù)據(jù)的個數(shù)是否唯一存在;所述設置單元具體用于,在所述第二判斷單元判定所述相似度值大于預設閥值的預設標準疾病數(shù)據(jù)的個數(shù)唯一存在時,執(zhí)行將所述相似度值大于預設閥值的預設標準疾病數(shù)據(jù)設置為所述目標標準疾病數(shù)據(jù),以及在所述第二判斷單元判定所述相似度值大于預設閥值的預設標準疾病數(shù)據(jù)的個數(shù)不唯一存在時,提示所述用戶指定任一所述相似度值大于預設閥值的預設標準疾病數(shù)據(jù),以將其設置為所述目標標準疾病數(shù)據(jù)。

在該技術方案中,通過判斷相似度值大于預設閥值的預設標準疾病數(shù)據(jù)的個數(shù)是否唯一存在,并在判定相似度值大于預設閥值的預設標準疾病 數(shù)據(jù)的個數(shù)唯一存在時,執(zhí)行將相似度值大于預設閥值的預設標準疾病數(shù)據(jù)設置為目標標準疾病數(shù)據(jù),無需人為干預,提高了對疾病數(shù)據(jù)進行標準化的效率,同時因目標標準疾病數(shù)據(jù)的唯一性,提高了對疾病數(shù)據(jù)進行標準化的準確性;以及在判定相似度值大于預設閥值的預設標準疾病數(shù)據(jù)的個數(shù)不唯一存在時,提示用戶指定任一相似度值大于預設閥值的預設標準疾病數(shù)據(jù),以將其設置為目標標準疾病數(shù)據(jù),在出現(xiàn)多個預設標準疾病數(shù)據(jù)待匹配時,通過人為進行干預匹配,避免預設標準疾病數(shù)據(jù)與標準疾病數(shù)據(jù)之間出現(xiàn)漏配、錯配等問題,進一步提高了查找結果的準確性。

在上述任一項技術方案中,優(yōu)選地,所述計算單元具體用于,根據(jù)以下公式確定每個預設標準疾病數(shù)據(jù)中的疾病名稱與所述非標準疾病數(shù)據(jù)中的疾病名稱之間的相似度值:

其中,du,ds分別表示所述非標準數(shù)據(jù)中的疾病名稱和所述預設標準疾病數(shù)據(jù)中的疾病名稱,du∩ds表示兩者疾病名稱中相同字符的個數(shù),du∪ds表示兩者疾病名稱中不重復的字符的總個數(shù)。

通過以上技術方案,能夠根據(jù)任一標準疾病數(shù)據(jù)規(guī)范,對非標準的疾病數(shù)據(jù)進行整合,從而實現(xiàn)疾病數(shù)據(jù)的標準化及一致化。

附圖說明

圖1示出了根據(jù)本發(fā)明的實施例的疾病數(shù)據(jù)的標準化方法的示意流程圖;

圖2示出了根據(jù)本發(fā)明的實施例的疾病數(shù)據(jù)的標準化裝置的示意框圖;

圖3示出了根據(jù)本發(fā)明的實施例的疾病數(shù)據(jù)的標準化系統(tǒng)的原理示意圖。

具體實施方式

為了能夠更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點,下面結合附圖和具體實施方式對本發(fā)明進行進一步的詳細描述。需要說明的是,在不沖突的情況下,本申請的實施例及實施例中的特征可以相互組合。

在下面的描述中闡述了很多具體細節(jié)以便于充分理解本發(fā)明,但是,本發(fā)明還可以采用其他不同于在此描述的其他方式來實施,因此,本發(fā)明的保護范圍并不受下面公開的具體實施例的限制。

圖1示出了根據(jù)本發(fā)明的實施例的疾病數(shù)據(jù)的標準化方法的示意流程圖。

如圖1所示,根據(jù)本發(fā)明的實施例的疾病數(shù)據(jù)的標準化方法,包括:

步驟102,獲取非標準疾病數(shù)據(jù);

步驟104,確定與所述非標準疾病數(shù)據(jù)匹配的目標標準疾病數(shù)據(jù);

步驟106,將所述非標準疾病數(shù)據(jù)與所述目標標準疾病數(shù)據(jù)進行關聯(lián)。

在該技術方案中,由于不同醫(yī)院、不同科室、及不同醫(yī)師在記錄疾病數(shù)據(jù)時,通常會按照各自的需求進行記錄,從而導致同一疾病可能存在多種不同的術語,嚴重影響疾病數(shù)據(jù)的統(tǒng)一,所以通過獲取非標準疾病數(shù)據(jù),確定與非標準疾病數(shù)據(jù)匹配的目標標準疾病數(shù)據(jù),并將非標準疾病數(shù)據(jù)與目標標準疾病數(shù)據(jù)進行關聯(lián),使得能夠根據(jù)任一標準疾病數(shù)據(jù)規(guī)范,對非標準的疾病數(shù)據(jù)進行整合,從而實現(xiàn)疾病數(shù)據(jù)的標準化及一致化。其中,非標準的疾病數(shù)據(jù)是相對于目標標準疾病數(shù)據(jù)而言的,目標標準疾病數(shù)據(jù)是唯一確定的公認標準。

具體地,以對于“糖尿病”的記錄為例,目標標準疾病數(shù)據(jù)為“E14.9,未特指的糖尿病”,此時,任何不同于該目標標準疾病數(shù)據(jù)的術語均為非標準疾病數(shù)據(jù)(如“E14.901,糖尿病,高危”),通過獲取“E14.901,糖尿病,高?!边@一非標準疾病數(shù)據(jù),確定與其匹配的目標標準疾病數(shù)據(jù)“E14.9,未特指的糖尿病”,并將“E14.901,糖尿病,高?!迸c“E14.9,未特指的糖尿病”進行關聯(lián),從而實現(xiàn)將“糖尿病”這一疾病數(shù)據(jù)標準化。

在上述技術方案中,優(yōu)選地,在步驟104之前,還包括:建立用于規(guī)范所述非標準疾病數(shù)據(jù)的標準疾病數(shù)據(jù)庫;確定與所述非標準疾病數(shù)據(jù)匹配的目標標準疾病數(shù)據(jù)的步驟具體包括:根據(jù)所述非標準疾病數(shù)據(jù)中的疾病編碼和疾病名稱,在所述標準疾病數(shù)據(jù)庫中,查找與所述非標準疾病數(shù)據(jù)匹配的所述目標標準疾病數(shù)據(jù)。

在該技術方案中,通過建立用于規(guī)范非標準數(shù)據(jù)的標準疾病數(shù)據(jù)庫, 為實現(xiàn)疾病數(shù)據(jù)的標準化提供必要的前提保障;同時,由于一般疾病數(shù)據(jù)包含疾病編碼和疾病名稱兩部分,通過根據(jù)非標準疾病數(shù)據(jù)中的疾病編碼和疾病名稱,在包含各類不同標準疾病數(shù)據(jù)的標準疾病數(shù)據(jù)庫中,查找與其匹配的目標標準疾病數(shù)據(jù),確保了查找結果的有效性和準確性。

在上述任一項技術方案中,優(yōu)選地,根據(jù)所述非標準疾病數(shù)據(jù)中的疾病編碼和疾病名稱,在所述標準疾病數(shù)據(jù)庫中,查找與所述非標準疾病數(shù)據(jù)匹配的所述目標標準疾病數(shù)據(jù)的步驟具體包括:查找與所述非標準疾病數(shù)據(jù)中的疾病編碼相匹配的至少一個預設標準疾病數(shù)據(jù);計算每個預設標準疾病數(shù)據(jù)中的疾病名稱與所述非標準疾病數(shù)據(jù)中的疾病名稱之間的相似度值;判斷是否有相似度值大于預設閥值的預設標準疾病數(shù)據(jù);在判定有所述相似度值大于預設閥值的預設標準疾病數(shù)據(jù)時,將所述相似度值大于預設閥值的預設標準疾病數(shù)據(jù)設置為所述目標標準疾病數(shù)據(jù);在判定沒有所述相似度值大于預設閥值的預設標準疾病數(shù)據(jù)時,提示用戶指定任一相似度值不大于預設閥值的預設標準疾病數(shù)據(jù),以將其設置為所述目標標準疾病數(shù)據(jù)。

在該技術方案中,由于每一類疾病編碼代表一類疾病,所以通過查找與非標準疾病數(shù)據(jù)中的疾病編碼相匹配的至少一個預設標準疾病數(shù)據(jù),從各類不同預設標準疾病數(shù)據(jù)中篩選出可能匹配的單個或多個預設標準疾病數(shù)據(jù),從而縮小查找范圍,降低了后續(xù)過程中的運算負荷;同時通過在判定有相似度值大于預設閥值的預設標準疾病數(shù)據(jù)時,將相似度值大于預設閥值的預設標準疾病數(shù)據(jù)設置為目標標準疾病數(shù)據(jù),在疾病編碼類似的前提下,疾病名稱的相似度值越高,則證明兩者描述的是同一種疾病的概率越大,無需人為加以干預,提高了對疾病數(shù)據(jù)進行標準化的效率;通過在判定沒有相似度值大于預設閥值的預設標準疾病數(shù)據(jù)時,提示用戶指定任一相似度值不大于預設閥值的預設標準疾病數(shù)據(jù),當僅憑相似度值無法準確進行確認時,可以通過人為加以干預,比如,根據(jù)預設標準疾病數(shù)據(jù)的相似度值的大小進行排列,生成相似度值列表并推送給用戶,用戶可根據(jù)相似度值的大小在該相似度值列表中指定任一預設標準疾病數(shù)據(jù)作為目標標準數(shù)據(jù)疾病,從而提高了對疾病數(shù)據(jù)進行標準化的準確性。其中,在查 找與非標準疾病數(shù)據(jù)中的疾病編碼相匹配的預設標準疾病數(shù)據(jù)時,可以僅根據(jù)部分疾病編碼(前幾位編碼)進行查找,當然,也可以根據(jù)完整的疾病編碼進行查找。

在上述任一項技術方案中,優(yōu)選地,在將所述相似度值大于預設閥值的預設標準疾病數(shù)據(jù)設置為所述目標標準疾病數(shù)據(jù)的步驟之前,還包括:判斷所述相似度值大于預設閥值的預設標準疾病數(shù)據(jù)的個數(shù)是否唯一存在;在判定所述相似度值大于預設閥值的預設標準疾病數(shù)據(jù)的個數(shù)唯一存在時,執(zhí)行將所述相似度值大于預設閥值的預設標準疾病數(shù)據(jù)設置為所述目標標準疾病數(shù)據(jù)的步驟;在判定所述相似度值大于預設閥值的預設標準疾病數(shù)據(jù)的個數(shù)不唯一存在時,提示所述用戶指定任一所述相似度值大于預設閥值的預設標準疾病數(shù)據(jù),以將其設置為所述目標標準疾病數(shù)據(jù)。

在該技術方案中,通過判斷相似度值大于預設閥值的預設標準疾病數(shù)據(jù)的個數(shù)是否唯一存在,并在判定相似度值大于預設閥值的預設標準疾病數(shù)據(jù)的個數(shù)唯一存在時,執(zhí)行將相似度值大于預設閥值的預設標準疾病數(shù)據(jù)設置為目標標準疾病數(shù)據(jù),無需人為干預,提高了對疾病數(shù)據(jù)進行標準化的效率,同時因目標標準疾病數(shù)據(jù)的唯一性,提高了對疾病數(shù)據(jù)進行標準化的準確性;以及在判定相似度值大于預設閥值的預設標準疾病數(shù)據(jù)的個數(shù)不唯一存在時,提示用戶指定任一相似度值大于預設閥值的預設標準疾病數(shù)據(jù),以將其設置為目標標準疾病數(shù)據(jù),在出現(xiàn)多個預設標準疾病數(shù)據(jù)待匹配時,通過人為進行干預匹配,避免預設標準疾病數(shù)據(jù)與標準疾病數(shù)據(jù)之間出現(xiàn)漏配、錯配等問題,進一步提高了查找結果的準確性。

在上述任一項技術方案中,優(yōu)選地,其特征在于,根據(jù)以下公式計算每個預設標準疾病數(shù)據(jù)中的疾病名稱與所述非標準疾病數(shù)據(jù)中的疾病名稱之間的相似度值:

其中,du,ds分別表示所述非標準數(shù)據(jù)中的疾病名稱和所述預設標準疾病數(shù)據(jù)中的疾病名稱,du∩ds表示兩者疾病名稱中相同字符的個數(shù),du∪ds表示兩者疾病名稱中不重復的字符的總個數(shù)。

圖2示出了根據(jù)本發(fā)明的實施例的疾病數(shù)據(jù)的標準化裝置的示意框圖。

如圖2所示,根據(jù)本發(fā)明的實施例的疾病數(shù)據(jù)的標準化裝置200,包括:獲取單元202、確定單元204和關聯(lián)單元206。

其中,獲取單元202,用于獲取非標準疾病數(shù)據(jù);確定單元204,用于確定與所述非標準疾病數(shù)據(jù)匹配的目標標準疾病數(shù)據(jù);關聯(lián)單元206,用于將所述非標準疾病數(shù)據(jù)與所述目標標準疾病數(shù)據(jù)進行關聯(lián)。

在該技術方案中,由于不同醫(yī)院、不同科室、及不同醫(yī)師在記錄疾病數(shù)據(jù)時,通常會按照各自的需求進行記錄,從而導致同一疾病可能存在多種不同的術語,嚴重影響疾病數(shù)據(jù)的統(tǒng)一,所以通過獲取非標準疾病數(shù)據(jù),確定與非標準疾病數(shù)據(jù)匹配的目標標準疾病數(shù)據(jù),并將非標準疾病數(shù)據(jù)與目標標準疾病數(shù)據(jù)進行關聯(lián),使得能夠根據(jù)任一標準疾病數(shù)據(jù)規(guī)范,對非標準的疾病數(shù)據(jù)進行整合,從而實現(xiàn)疾病數(shù)據(jù)的標準化及一致化。其中,非標準的疾病數(shù)據(jù)是相對于目標標準疾病數(shù)據(jù)而言的,目標標準疾病數(shù)據(jù)是唯一確定的公認標準。

具體地,以對于“糖尿病”的記錄為例,目標標準疾病數(shù)據(jù)為“E14.9,未特指的糖尿病”,此時,任何不同于該目標標準疾病數(shù)據(jù)的術語均為非標準疾病數(shù)據(jù)(如“E14.901,糖尿病,高?!?,通過獲取“E14.901,糖尿病,高?!边@一非標準疾病數(shù)據(jù),確定與其匹配的目標標準疾病數(shù)據(jù)“E14.9,未特指的糖尿病”,并將“E14.901,糖尿病,高?!迸c“E14.9,未特指的糖尿病”進行關聯(lián),從而實現(xiàn)將“糖尿病”這一疾病數(shù)據(jù)標準化。

在上述技術方案中,優(yōu)選地,還包括:建立單元208,用于建立用于規(guī)范所述非標準疾病數(shù)據(jù)的標準疾病數(shù)據(jù)庫;所述確定單元204具體用于:根據(jù)所述非標準疾病數(shù)據(jù)中的疾病編碼和疾病名稱,在所述標準疾病數(shù)據(jù)庫中,查找與所述非標準疾病數(shù)據(jù)匹配的所述目標標準疾病數(shù)據(jù)。

在該技術方案中,通過建立用于規(guī)范非標準數(shù)據(jù)的標準疾病數(shù)據(jù)庫,為實現(xiàn)疾病數(shù)據(jù)的標準化提供必要的前提保障;同時,由于一般疾病數(shù)據(jù)包含疾病編碼和疾病名稱兩部分,通過根據(jù)非標準疾病數(shù)據(jù)中的疾病編碼和疾病名稱,在包含各類不同標準疾病數(shù)據(jù)的標準疾病數(shù)據(jù)庫中,查找與其匹配的目標標準疾病數(shù)據(jù),確保了查找結果的有效性和準確性。

在上述任一項技術方案中,優(yōu)選地,所述確定單元204包括:查找單 元204A,用于查找與所述非標準疾病數(shù)據(jù)中的疾病編碼相匹配的至少一個預設標準疾病數(shù)據(jù);計算單元204B,用于計算每個預設標準疾病數(shù)據(jù)中的疾病名稱與所述非標準疾病數(shù)據(jù)中的疾病名稱的相似度值;第一判斷單元204C,用于判斷是否有相似度值大于預設閥值的預設標準疾病數(shù)據(jù);設置單元204D,用于在所述第一判斷單元204C判定有所述相似度值大于預設閥值的預設標準疾病數(shù)據(jù)時,將所述相似度值大于預設閥值的預設標準疾病數(shù)據(jù)設置為所述目標標準疾病數(shù)據(jù),以及在所述第一判斷單元204C判定沒有所述相似度值大于預設閥值的預設標準疾病數(shù)據(jù)時,提示用戶指定任一相似度值不大于預設閥值的預設標準疾病數(shù)據(jù),以將其設置為所述目標標準疾病數(shù)據(jù)。

在該技術方案中,由于每一類疾病編碼代表一類疾病,所以通過查找與非標準疾病數(shù)據(jù)中的疾病編碼相匹配的至少一個預設標準疾病數(shù)據(jù),從各類不同預設標準疾病數(shù)據(jù)中篩選出可能匹配的單個或多個預設標準疾病數(shù)據(jù),從而縮小查找范圍,降低了后續(xù)過程中的運算負荷;同時通過在判定有相似度值大于預設閥值的預設標準疾病數(shù)據(jù)時,將相似度值大于預設閥值的預設標準疾病數(shù)據(jù)設置為目標標準疾病數(shù)據(jù),在疾病編碼類似的前提下,疾病名稱的相似度值越高,則證明兩者描述的是同一種疾病的概率越大,無需人為加以干預,提高了對疾病數(shù)據(jù)進行標準化的效率;通過在判定沒有相似度值大于預設閥值的預設標準疾病數(shù)據(jù)時,提示用戶指定任一相似度值不大于預設閥值的預設標準疾病數(shù)據(jù),當僅憑相似度值無法準確進行確認時,可以通過人為加以干預,比如,根據(jù)預設標準疾病數(shù)據(jù)的相似度值的大小進行排列,生成相似度值列表并推送給用戶,用戶可根據(jù)相似度值的大小在該相似度值列表中指定任一預設標準疾病數(shù)據(jù)作為目標標準數(shù)據(jù)疾病,從而提高了對疾病數(shù)據(jù)進行標準化的準確性。其中,在查找與非標準疾病數(shù)據(jù)中的疾病編碼相匹配的預設標準疾病數(shù)據(jù)時,可以僅根據(jù)部分疾病編碼(前幾位編碼)進行查找,當然,也可以根據(jù)完整的疾病編碼進行查找。

在上述任一項技術方案中,優(yōu)選地,所述確定單元204還包括:第二判斷單元204E,用于在所述第一判斷單元204C判定有所述相似度值大于 預設閥值的預設標準疾病數(shù)據(jù)之后,判斷所述相似度值大于預設閥值的預設標準疾病數(shù)據(jù)的個數(shù)是否唯一存在;所述設置單元204D具體用于,在所述第二判斷單元204E判定所述相似度值大于預設閥值的預設標準疾病數(shù)據(jù)的個數(shù)唯一存在時,執(zhí)行將所述相似度值大于預設閥值的預設標準疾病數(shù)據(jù)設置為所述目標標準疾病數(shù)據(jù),以及在所述第二判斷單元204E判定所述相似度值大于預設閥值的預設標準疾病數(shù)據(jù)的個數(shù)不唯一存在時,提示所述用戶指定任一所述相似度值大于預設閥值的預設標準疾病數(shù)據(jù),以將其設置為所述目標標準疾病數(shù)據(jù)。

在該技術方案中,通過判斷相似度值大于預設閥值的預設標準疾病數(shù)據(jù)的個數(shù)是否唯一存在,并在判定相似度值大于預設閥值的預設標準疾病數(shù)據(jù)的個數(shù)唯一存在時,執(zhí)行將相似度值大于預設閥值的預設標準疾病數(shù)據(jù)設置為目標標準疾病數(shù)據(jù),無需人為干預,提高了對疾病數(shù)據(jù)進行標準化的效率,同時因目標標準疾病數(shù)據(jù)的唯一性,提高了對疾病數(shù)據(jù)進行標準化的準確性;以及在判定相似度值大于預設閥值的預設標準疾病數(shù)據(jù)的個數(shù)不唯一存在時,提示用戶指定任一相似度值大于預設閥值的預設標準疾病數(shù)據(jù),以將其設置為目標標準疾病數(shù)據(jù),在出現(xiàn)多個預設標準疾病數(shù)據(jù)待匹配時,通過人為進行干預匹配,避免預設標準疾病數(shù)據(jù)與標準疾病數(shù)據(jù)之間出現(xiàn)漏配、錯配等問題,進一步提高了查找結果的準確性。

在上述任一項技術方案中,優(yōu)選地,所述計算單元204B具體用于,根據(jù)以下公式確定每個預設標準疾病數(shù)據(jù)中的疾病名稱與所述非標準疾病數(shù)據(jù)中的疾病名稱之間的相似度值:

其中,du,ds分別表示所述非標準數(shù)據(jù)中的疾病名稱和所述預設標準疾病數(shù)據(jù)中的疾病名稱,du∩ds表示兩者疾病名稱中相同字符的個數(shù),du∪ds表示兩者疾病名稱中不重復的字符的總個數(shù)。

以下結合圖3對本發(fā)明的技術方案作進一步說明。

如圖3所示,在本實施例中,包括以下主要步驟:

第一步,建立統(tǒng)一的疾病編碼和名稱標準,稱為融合標準1,標準中的每一個條目都包含兩項,一是疾病編碼,二是疾病中文名稱。融合標準 是數(shù)據(jù)融合的最終目標,所有非標準數(shù)據(jù)都需要映射到唯一的一個融合標準數(shù)據(jù)??梢砸勒諒V泛使用的疾病編碼,如ICD-10建立融合標準,并作適應性修改,如加入中醫(yī)診療過程的標準術語。

第二步,對于待匹配的非標準疾病記錄2,利用編碼前綴匹配在融合標準中找出該記錄可能匹配的候選集3。具體的,由于標準術語編碼一般為層次結構,其前綴表示更廣泛的同類疾病,故可以取待匹配記錄的編碼前綴,匹配所有融合標準中有相同前綴的疾病作為候選集。

第三步,對第二步中候選集3的每一個標準進行相似度計算,得到相似度排序列表4。具體的,取待匹配記錄的疾病名稱,與所有候選集中的標準疾病名稱進行相似度計算,相似度計算依據(jù)杰卡德相似系數(shù)(Jaccard similarity coefficient)的公式:

其中,du,ds分別表示非標準數(shù)據(jù)的疾病名稱和融合標準中的疾病名稱,du∩ds表示名稱中相同字符的個數(shù),du∪ds表示兩者名稱中不重復的字符的總個數(shù)。對于每個候選的標準名稱計算相似度后,則可排序形成一個相似度排序列表4。

第四步,根據(jù)相似度排序列表4中的相似度數(shù)值將非標準數(shù)據(jù)融合為標準數(shù)據(jù),可根據(jù)列表中相似度值數(shù)值的大小選擇自動融合或者人工篩選融合5。具體地,如果排在最高的相似度結果J(du,ds)大于某個閾值k,則由計算機自動將項目映射為ds代表的疾病名稱和編碼項;否則,說明相似度不足以明確該項目的映射關系,則將排序列表展示給領域專家,由其決定映射結果。

具體地,假定現(xiàn)有非標準疾病數(shù)據(jù):“E14.901,糖尿病,高危”,需要通過本算法找到其對應的標準疾病編碼和名稱。實施例包含以下步驟。

第一步,建立統(tǒng)一的融合標準。假設以ICD-10國際標準編碼作為融合標準,其中包含標準疾病數(shù)據(jù):“E14.9,未特指的糖尿病”。

第二步,利用編碼前綴匹配在融合標準1中找出該記錄可能匹配的候選集。取非標準數(shù)據(jù)中疾病編碼的前三位作為前綴“E14”,匹配具有同樣前綴的標準編碼形成候選列表,此時標準數(shù)據(jù)“E14.9,未特指的糖尿病” 因為有相同的編碼前綴,亦在列表當中。

第三步,對第二步中候選集的每一個標準進行相似度計算,得到相似度排序列表。其中標準數(shù)據(jù)“E14.9,未特指的糖尿病”和非標準疾病數(shù)據(jù)“E14.901,糖尿病,高危”的相似度為3/10=0.3,其中,3代表共有的字符個數(shù)(“糖尿病”3字),10代表不重復的字符的總個數(shù)(“糖尿病未特指的高危,”共10個字符)。

第四步,根據(jù)上述列表中的相似度數(shù)值將非標準數(shù)據(jù)融合為標準數(shù)據(jù),假設標準數(shù)據(jù)“E14.9,未特指的糖尿病”的相似度0.3在列表中排名第一,且大于閾值k(假設為0.2),則可自動將“E14.901,糖尿病,高?!庇成錇闃藴蕯?shù)據(jù)“E14.9,未特指的糖尿病”,這樣即完成了一次標準融合。

通過上述實施例的技術方案,能夠利用任意已有的疾病術語標準,利用相似度算法自動融合非標準疾病名稱和編碼,克服術語標準執(zhí)行時產(chǎn)生的數(shù)據(jù)不一致問題,并集合了計算機自動化方法和人工篩選方法,兼顧了融合效率和準確性。

以上結合附圖詳細說明了本發(fā)明的技術方案,本發(fā)明提出了一種新的疾病數(shù)據(jù)的標準化方案,能夠根據(jù)任一標準疾病數(shù)據(jù)規(guī)范,對非標準疾病數(shù)據(jù)進行整合,從而實現(xiàn)疾病數(shù)據(jù)的標準化及一致化。

以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領域的技術人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1