基于疾病特征的醫(yī)學(xué)信息本體數(shù)據(jù)庫(kù)的建立方法
【專利摘要】本發(fā)明提供一種基于疾病特征的醫(yī)學(xué)信息本體數(shù)據(jù)庫(kù)的建立方法,建立醫(yī)學(xué)信息本體(Medical Ontology)數(shù)據(jù)庫(kù),即MO數(shù)據(jù)庫(kù);將疾病及其特征用MO terms進(jìn)行編號(hào),每個(gè)MO terms代表一個(gè)頂點(diǎn),兩個(gè)terms之間的關(guān)系用有向邊表示,這樣將疾病和病征表示在一個(gè)有向無(wú)環(huán)圖中;對(duì)有向邊賦予權(quán)重;通過(guò)本發(fā)明的方法,建立起基于疾病特征的醫(yī)學(xué)信息本體數(shù)據(jù)庫(kù),能夠提供完善的疾病及病征數(shù)據(jù),以及疾病及病征之間合理分配權(quán)重,最大可能的為幫助病患自診提供準(zhǔn)確有效的數(shù)據(jù)依據(jù),為疾病自診信息平臺(tái)提供完備的信息基礎(chǔ),既為人們節(jié)省不必要的時(shí)間消耗,又不會(huì)耽誤疾病的最佳治療時(shí)間。
【專利說(shuō)明】基于疾病特征的醫(yī)學(xué)信息本體數(shù)據(jù)庫(kù)的建立方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于計(jì)算機(jī)信息領(lǐng)域,特別是涉及到一種基于疾病特征的醫(yī)學(xué)信息本體數(shù)據(jù)庫(kù)的建立方法。
【背景技術(shù)】
[0002]現(xiàn)階段人們的生活節(jié)奏很快,生活壓力也很大,這就為人們的身體健康帶來(lái)了很多隱憂。人們一旦身體健康出現(xiàn)問(wèn)題,首選是去醫(yī)院,但是醫(yī)院里看病的人又似乎永遠(yuǎn)是非常多,哪怕是一些小病征,整個(gè)看病的流程走下來(lái)會(huì)花費(fèi)很多時(shí)間;而如果人們覺(jué)得耽誤時(shí)間,不愿意去醫(yī)院,只是依據(jù)自己的經(jīng)驗(yàn)買(mǎi)些藥服用,這樣又有可能錯(cuò)過(guò)最佳治療時(shí)間,耽誤病情。
[0003]基于這種現(xiàn)象,如果能夠有一個(gè)幫助人們進(jìn)行疾病自診的信息平臺(tái),將會(huì)對(duì)人們產(chǎn)生巨大的幫助,人們可以通過(guò)信息平臺(tái)的內(nèi)容,結(jié)合自身的狀況,先對(duì)自己的病患進(jìn)行初期的判斷,病征輕微的,可以根據(jù)信息平臺(tái)的內(nèi)容進(jìn)行自我簡(jiǎn)單的治療,病征有危險(xiǎn)的發(fā)展趨勢(shì)時(shí),再去醫(yī)院治療。
[0004]要建立一個(gè)這樣的幫助人們進(jìn)行疾病自診的信息平臺(tái),需要有一個(gè)完善的醫(yī)學(xué)信息數(shù)據(jù)庫(kù),才能保證自診的準(zhǔn)確性,既能幫助人們節(jié)省時(shí)間,又不會(huì)耽誤疾病的最佳治療時(shí)間。
【發(fā)明內(nèi)容】
[0005]本發(fā)明要解決的問(wèn)題是設(shè)計(jì)一種基于疾病特征的醫(yī)學(xué)信息本體數(shù)據(jù)庫(kù),基于本體論在信息學(xué)的應(yīng)用,具有自我完善功能,為疾病自診信息平臺(tái)提供完備的信息基礎(chǔ),為病患初期的自診提供完善的數(shù)據(jù)。
[0006]本體論(Ontology)在信息科學(xué)中的定義:給出構(gòu)成相關(guān)領(lǐng)域詞匯的基本術(shù)語(yǔ)和關(guān)系,以及利用這些術(shù)語(yǔ)和關(guān)系構(gòu)成的規(guī)定這些詞匯外延規(guī)則的定義。
[0007]需要說(shuō)明的是,本發(fā)明基于本體論建立醫(yī)學(xué)信息本體數(shù)據(jù)庫(kù),是信息學(xué)的一種應(yīng)用,并非屬于疾病的診斷和治療方法,因此不違反專利法第二十五條的相關(guān)規(guī)定。
[0008]為了達(dá)到上述目的,本發(fā)明采取的技術(shù)方案為:一種基于疾病特征的醫(yī)學(xué)信息本體數(shù)據(jù)庫(kù)的建立方法,其特征在于,包括如下步驟:
[0009](I)創(chuàng)建醫(yī)學(xué)信息本體(Medical Ontology)數(shù)據(jù)庫(kù),即MO數(shù)據(jù)庫(kù);
[0010](2)將疾病及其特征用MO terms進(jìn)行編號(hào),每個(gè)MO terms代表一個(gè)頂點(diǎn),兩個(gè)terms之間的關(guān)系用有向邊表不,這樣將疾病和病征表不在一個(gè)有向無(wú)環(huán)圖中;
[0011](3)頂點(diǎn)之間的關(guān)聯(lián)分成兩種類型:is_a關(guān)系和part_of關(guān)系;is_a關(guān)系是一種簡(jiǎn)單的包含關(guān)系;part_of關(guān)系表不一部分的包含關(guān)系,一種疾病往往有多種病征表現(xiàn),病征和疾病之間是part_of的關(guān)系,疾病和疾病之間是is_a的關(guān)系,病征和病征之間是is_a的關(guān)系;
[0012](4)對(duì)于任兩個(gè)terms之間的有向邊,若是part_of的關(guān)系,則賦予權(quán)重;權(quán)重用關(guān)聯(lián)度d表示;將父term與之關(guān)聯(lián)的子terms之間進(jìn)行關(guān)聯(lián)度d分配(0〈d〈 = I),;其中關(guān)聯(lián)度d(terml, term2)表示父term中出現(xiàn)子term的概率;
[0013](5)對(duì)于任兩個(gè)terms之間的有向邊,若是is_a的關(guān)系,則賦予權(quán)重;權(quán)重用關(guān)聯(lián)百分比表示;父term與子terms之間的關(guān)聯(lián)百分比用該子term在父term所關(guān)聯(lián)的所有子terms中出現(xiàn)比率來(lái)表示;所有子terms的關(guān)聯(lián)百分比之和為I。
[0014](6)通過(guò)數(shù)據(jù)訓(xùn)練進(jìn)行參數(shù)降噪,在數(shù)據(jù)訓(xùn)練中,需要甄別所敘述的病征是否與所患疾病關(guān)聯(lián),舍棄掉不屬于該病的病征特征;
[0015](7)在該MO數(shù)據(jù)庫(kù)中,通過(guò)不斷增加已有病例,不斷更新和豐富MO數(shù)據(jù)庫(kù)的數(shù)據(jù)參數(shù),特別是MO term之間關(guān)聯(lián)的權(quán)重參數(shù)。
[0016](8)疾病和病征構(gòu)造的有向無(wú)環(huán)圖,其層數(shù)小于等于最長(zhǎng)的有向路的頂點(diǎn)數(shù),最上層的為第一層,依次往下計(jì)數(shù);一個(gè)疾病的病癥描述的越詳細(xì),就越靠近下層。
[0017]優(yōu)選的,所述步驟(2)中,若病友已知自己患病名稱,則將該病友數(shù)據(jù)作為基礎(chǔ)數(shù)據(jù)為MO數(shù)據(jù)庫(kù)進(jìn)行參數(shù)關(guān)聯(lián)。
[0018]優(yōu)選的,所述步驟(5)中數(shù)據(jù)訓(xùn)練的方法為:
[0019]第一步:所有的有向邊的權(quán)重初始值為O,每個(gè)有向邊設(shè)一個(gè)計(jì)數(shù)器count = O用以計(jì)算所有患者對(duì)應(yīng)的該邊出現(xiàn)的term關(guān)聯(lián)次數(shù);
[0020]第二步:根據(jù)每個(gè)患者提供的所患疾病,在MO的有向無(wú)環(huán)圖中用回溯法,回溯到該圖的根(root),在根到所患疾病的MO term頂點(diǎn)的每條有向路的每條邊的計(jì)數(shù)器增加I ;
[0021]第三步:根據(jù)每個(gè)患者提供的所患疾病,在MO數(shù)據(jù)庫(kù)中通過(guò)廣度優(yōu)先搜索(BFS)算法尋找該疾病對(duì)應(yīng)的MO term和該term所有的關(guān)聯(lián)的子terms (即:后代terms);
[0022]第四步:將患者提供的MO terms與該疾病在MO數(shù)據(jù)庫(kù)中對(duì)于MO terms進(jìn)行比較,若患者的MO terms與該疾病名稱對(duì)應(yīng)的MO term存在有向路相連,則將在這條有向路的邊的計(jì)數(shù)器均加I (count = count+1);
[0023]第五步:隨時(shí)將新的患者提供的病征,按照以上步驟運(yùn)算,訓(xùn)練該有向無(wú)環(huán)圖的各個(gè)頂點(diǎn)之間的關(guān)聯(lián)次數(shù),進(jìn)而計(jì)算出對(duì)應(yīng)的關(guān)聯(lián)度;這些有向邊關(guān)聯(lián)度隨著患者數(shù)據(jù)的增加隨時(shí)更新;
[0024]弟TK步:若已知所患疾病的患者提供的癥狀中,有不屬于所患疾病的癥狀,說(shuō)明該患者可能還患有其它疾病。
[0025]進(jìn)一步的,所述第三步的廣度優(yōu)先搜索(BFS)算法從最下層的terms (即病情描述最詳細(xì)的terms)開(kāi)始由下層往上層逐層掃描,依次用這些子terms對(duì)應(yīng)的定義和同義詞,對(duì)患者描述的病征進(jìn)行字符串匹配比對(duì),對(duì)化驗(yàn)指標(biāo)提取化驗(yàn)值,得到與之匹配的最靠下層的MO terms,進(jìn)而得到該病友陳述的病征的MO terms集合。
[0026]更進(jìn)一步的,所述字符串匹配比對(duì)的方法為較長(zhǎng)字符串運(yùn)用Smith-Waterman比對(duì)算法,較短的直接匹配。
[0027]進(jìn)一步的,所述第五步中計(jì)算方法包括:某疾病的某個(gè)癥狀出現(xiàn)的概率=對(duì)應(yīng)有向邊的計(jì)數(shù)/該疾病患者人數(shù);某疾病在所屬大的門(mén)類科室所出現(xiàn)的概率=該疾病患者人數(shù)/該門(mén)類下所有患者人數(shù)。
[0028]本發(fā)明的有益效果為:通過(guò)本發(fā)明的方法,建立起基于疾病特征的醫(yī)學(xué)信息本體數(shù)據(jù)庫(kù),能夠提供完善的疾病及病征數(shù)據(jù),以及疾病及病征之間合理分配權(quán)重,而且該數(shù)據(jù)庫(kù)通過(guò)不斷增加已有病例(病友上傳病例),來(lái)不斷更新和豐富數(shù)據(jù)庫(kù)的數(shù)據(jù)參數(shù),特別是term之間關(guān)聯(lián)的權(quán)重參數(shù),同時(shí)通過(guò)數(shù)據(jù)訓(xùn)練進(jìn)行參數(shù)降噪,使數(shù)據(jù)得到更有效的甄別,最大可能的為幫助病患自診提供準(zhǔn)確有效的數(shù)據(jù)依據(jù),為疾病自診信息平臺(tái)提供完備的信息基礎(chǔ),既為人們節(jié)省不必要的時(shí)間消耗,又不會(huì)耽誤疾病的最佳治療時(shí)間。
【專利附圖】
【附圖說(shuō)明】
[0029]圖1是本發(fā)明的步驟示意圖;
[0030]圖2是本發(fā)明中數(shù)據(jù)訓(xùn)練的步驟示意圖;
[0031]圖3是本發(fā)明中數(shù)據(jù)結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0032]下面結(jié)合具體實(shí)施例對(duì)本發(fā)明做進(jìn)一步說(shuō)明。
[0033]按照?qǐng)D1所示的步驟建立基于疾病特征的醫(yī)學(xué)信息本體數(shù)據(jù)庫(kù)。
[0034]若病友已知自己患病名稱,可以將該病友數(shù)據(jù)作為基礎(chǔ)數(shù)據(jù)為MOD進(jìn)行參數(shù)關(guān)聯(lián)。
[0035]數(shù)據(jù)關(guān)聯(lián)的解決方法:我們將疾病及其特征用MO terms進(jìn)行編號(hào),每個(gè)MO terms代表一個(gè)頂點(diǎn),兩個(gè)terms之間的關(guān)系用有向邊表不,這樣將疾病和特征表不在一個(gè)有向無(wú)環(huán)圖中,如圖3所示。在該MO數(shù)據(jù)庫(kù)中,通過(guò)不斷增加已有病例(病友上傳病例),來(lái)不斷更新和豐富MO數(shù)據(jù)庫(kù)的數(shù)據(jù)參數(shù),特別是term之間關(guān)聯(lián)的權(quán)重參數(shù)。
[0036]對(duì)任兩個(gè)terms之間的邊若是part_of的關(guān)系,可以賦予權(quán)重。如果可以將父term與之關(guān)聯(lián)的子terms之間的進(jìn)行關(guān)聯(lián)度d分配(0〈d〈 = I),使得所有子terms的關(guān)聯(lián)度相加等于1.關(guān)聯(lián)度d(terml, term2)表示父病征terml出現(xiàn)term2子病征的概率(例如:肺炎中咳嗽癥狀出現(xiàn)的概率)。
[0037]對(duì)任兩個(gè)terms之間的邊若是is_a的關(guān)系,也可以賦予權(quán)重。父term與子terms之間的關(guān)聯(lián)度用該子term在父term所關(guān)聯(lián)的所有子terms中出現(xiàn)比率(例如:肺炎占呼吸道疾病的比率)。
[0038]另外還需要參數(shù)降噪過(guò)程:在參數(shù)訓(xùn)練中,需要甄別所敘述的癥狀是否與所患疾病的關(guān)聯(lián),舍棄掉不屬于該病的病征特征,對(duì)不屬于該疾病的特征將可以進(jìn)行下面所要描述疾病自診。
[0039]如圖2所示,數(shù)據(jù)訓(xùn)練的主要步驟如下:
[0040]第一步:所有的有向邊的權(quán)重初始值為O,每個(gè)有向邊設(shè)一個(gè)計(jì)數(shù)器count = O用以計(jì)算所有患者對(duì)應(yīng)的該邊出現(xiàn)的term關(guān)聯(lián)次數(shù)。
[0041]第二步:根據(jù)每個(gè)患者提供的所患疾病,在MO的有向無(wú)圈圖中用回溯法,回溯到該圖的根(root),在根到所患疾病的MO term頂點(diǎn)的每條有向路的每條邊的計(jì)數(shù)器增加I。
[0042]第三步:根據(jù)每個(gè)患者提供的所患疾病,在MO數(shù)據(jù)庫(kù)中通過(guò)廣度優(yōu)先搜索(BFS)算法尋找該疾病對(duì)應(yīng)的MO term和該term所有的關(guān)聯(lián)的子terms (即:后代terms)。算法從最下層的terms (即病情描述最詳細(xì)的terms)開(kāi)始由下層往上層逐層掃描,依次用這些子terms對(duì)應(yīng)的定義和同義詞,對(duì)患者描述的病征進(jìn)行字符串匹配比對(duì)(較長(zhǎng)字符串運(yùn)用Smith-Waterman比對(duì)算法,較短的直接匹配),對(duì)化驗(yàn)指標(biāo)提取化驗(yàn)值,得到與之匹配的最靠下層的MO terms ο進(jìn)而得到該病友陳述的病征的MO terms集合。
[0043]第四步:將患者提供的MO terms與該疾病在MO數(shù)據(jù)庫(kù)中對(duì)于MO terms進(jìn)行比較,若患者的MO terms與該疾病名稱對(duì)應(yīng)的MO term存在有向路相連,則將在這條有向路的邊的計(jì)數(shù)器均加l(count = count+1).
[0044]第五步:隨時(shí)將新的患者提供的病征,按照以上步驟運(yùn)算,訓(xùn)練該有向無(wú)圈圖的各個(gè)頂點(diǎn)之間的關(guān)聯(lián)次數(shù),進(jìn)而計(jì)算出對(duì)應(yīng)的關(guān)聯(lián)度。其中某疾病的某個(gè)癥狀出現(xiàn)的概率=對(duì)應(yīng)有向邊的計(jì)數(shù)/該疾病患者人數(shù);某疾病在所屬大的門(mén)類科室所出現(xiàn)的概率=該疾病患者人數(shù)/該門(mén)類下所有患者人數(shù)。這些有向邊關(guān)聯(lián)度隨著患者數(shù)據(jù)的增加隨時(shí)更新。
[0045]弟TK步:若已知所患疾病的患者提供的癥狀中,有不屬于所患疾病的癥狀。說(shuō)明該患者可能還患有其它疾病。
[0046]以上所述僅為本發(fā)明的具體實(shí)施例而已,并不用于限定本發(fā)明的保護(hù)范圍,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種基于疾病特征的醫(yī)學(xué)信息本體數(shù)據(jù)庫(kù)的建立方法,其特征在于,包括如下步驟: (1)創(chuàng)建醫(yī)學(xué)信息本體(MedicalOntology)數(shù)據(jù)庫(kù),即MO數(shù)據(jù)庫(kù); (2)將疾病及其特征用MOterms進(jìn)行編號(hào),每個(gè)MO terms代表一個(gè)頂點(diǎn),兩個(gè)terms之間的關(guān)系用有向邊表不,這樣將疾病和病征表不在一個(gè)有向無(wú)環(huán)圖中; (3)頂點(diǎn)之間的關(guān)聯(lián)分成兩種類型:is_a關(guān)系和part_of關(guān)系;is_a關(guān)系是一種簡(jiǎn)單的包含關(guān)系;part_of關(guān)系表不一部分的包含關(guān)系,一種疾病往往有多種病征表現(xiàn),病征和疾病之間是part_of的關(guān)系,疾病和疾病之間是is_a的關(guān)系,病征和病征之間是is_a的關(guān)系; (4)對(duì)于任兩個(gè)terms之間的有向邊,若是part_of的關(guān)系,則賦予權(quán)重;權(quán)重用關(guān)聯(lián)度d表示;將父term與之關(guān)聯(lián)的子terms之間進(jìn)行關(guān)聯(lián)度d分配(0〈d〈 = I),;其中關(guān)聯(lián)度d(terml, term2)表示父term中出現(xiàn)子term的概率; (5)對(duì)于任兩個(gè)terms之間的有向邊,若是is_a的關(guān)系,則賦予權(quán)重;權(quán)重用關(guān)聯(lián)百分比表示;父term與子terms之間的關(guān)聯(lián)百分比用該子term在父term所關(guān)聯(lián)的所有子terms中出現(xiàn)比率來(lái)表示;所有子terms的關(guān)聯(lián)百分比之和為I。 (6)通過(guò)數(shù)據(jù)訓(xùn)練進(jìn)行參數(shù)降噪,在數(shù)據(jù)訓(xùn)練中,需要甄別所敘述的病征是否與所患疾病關(guān)聯(lián),舍棄掉不屬于該病的病征特征; (7)在該MO數(shù)據(jù)庫(kù)中,通過(guò)不斷增加已有病例,不斷更新和豐富MO數(shù)據(jù)庫(kù)的數(shù)據(jù)參數(shù),特別是MO term之間關(guān)聯(lián)的權(quán)重參數(shù)。 (8)疾病和病征構(gòu)造的有向無(wú)環(huán)圖,其層數(shù)小于等于最長(zhǎng)的有向路的頂點(diǎn)數(shù),最上層的為第一層,依次往下計(jì)數(shù);一個(gè)疾病的病癥描述的越詳細(xì),就越靠近下層。
2.根據(jù)權(quán)利要求1所述的一種基于疾病特征的醫(yī)學(xué)信息本體數(shù)據(jù)庫(kù)的建立方法,其特征在于,所述步驟(2)中,若病友已知自己患病名稱,則將該病友數(shù)據(jù)作為基礎(chǔ)數(shù)據(jù)為MO數(shù)據(jù)庫(kù)進(jìn)行參數(shù)關(guān)聯(lián)。
3.根據(jù)權(quán)利要求1所述的一種基于疾病特征的醫(yī)學(xué)信息本體數(shù)據(jù)庫(kù)的建立方法,其特征在于,所述步驟(5)中數(shù)據(jù)訓(xùn)練的方法為: 第一步:所有的有向邊的權(quán)重初始值為O,每個(gè)有向邊設(shè)一個(gè)計(jì)數(shù)器count = O用以計(jì)算所有患者對(duì)應(yīng)的該邊出現(xiàn)的term關(guān)聯(lián)次數(shù); 第二步:根據(jù)每個(gè)患者提供的所患疾病,在MO的有向無(wú)環(huán)圖中用回溯法,回溯到該圖的根,在根到所患疾病的MO term頂點(diǎn)的每條有向路的每條邊的計(jì)數(shù)器增加I ; 第三步:根據(jù)每個(gè)患者提供的所患疾病,在MO數(shù)據(jù)庫(kù)中通過(guò)廣度優(yōu)先搜索算法尋找該疾病對(duì)應(yīng)的MO term和該term所有的關(guān)聯(lián)的子terms ; 第四步:將患者提供的MO terms與該疾病在MO數(shù)據(jù)庫(kù)中對(duì)于MO terms進(jìn)行比較,若患者的MO terms與該疾病名稱對(duì)應(yīng)的MO term存在有向路相連,則將在這條有向路的邊的計(jì)數(shù)器均加I,即count = count+1 ; 第五步:隨時(shí)將新的患者提供的病征,按照以上步驟運(yùn)算,訓(xùn)練該有向無(wú)環(huán)圖的各個(gè)頂點(diǎn)之間的關(guān)聯(lián)次數(shù),進(jìn)而計(jì)算出對(duì)應(yīng)的關(guān)聯(lián)度;這些有向邊關(guān)聯(lián)度隨著患者數(shù)據(jù)的增加隨時(shí)更新; 第六步:若已知所患疾病的患者提供的癥狀中,有不屬于所患疾病的癥狀,說(shuō)明該患者可能還患有其它疾病。
4.根據(jù)權(quán)利要求3所述的一種基于疾病特征的醫(yī)學(xué)信息本體數(shù)據(jù)庫(kù)的建立方法,其特征在于,所述第三步的廣度優(yōu)先搜索(BFS)算法從最下層的terms (即病情描述最詳細(xì)的terms)開(kāi)始由下層往上層逐層掃描,依次用這些子terms對(duì)應(yīng)的定義和同義詞,對(duì)患者描述的病征進(jìn)行字符串匹配比對(duì),對(duì)化驗(yàn)指標(biāo)提取化驗(yàn)值,得到與之匹配的最靠下層的MOterms,進(jìn)而得到該病友陳述的病征的MO terms集合。
5.根據(jù)權(quán)利要求4所述的一種基于疾病特征的醫(yī)學(xué)信息本體數(shù)據(jù)庫(kù)的建立方法,其特征在于,所述字符串匹配比對(duì)的方法為較長(zhǎng)字符串運(yùn)用Smith-Waterman比對(duì)算法,較短的直接匹配。
6.根據(jù)權(quán)利要求3所述的一種基于疾病特征的醫(yī)學(xué)信息本體數(shù)據(jù)庫(kù)的建立方法,其特征在于,所述第五步中計(jì)算方法包括:某疾病的某個(gè)癥狀出現(xiàn)的概率=對(duì)應(yīng)有向邊的計(jì)數(shù)/該疾病患者人數(shù);某疾病在所屬大的門(mén)類科室所出現(xiàn)的概率=該疾病患者人數(shù)/該門(mén)類下所有患者人數(shù)。
【文檔編號(hào)】G06F17/30GK104463754SQ201410844664
【公開(kāi)日】2015年3月25日 申請(qǐng)日期:2014年12月30日 優(yōu)先權(quán)日:2014年12月30日
【發(fā)明者】趙欣, 張少?gòu)?qiáng) 申請(qǐng)人:天津邁沃醫(yī)藥技術(shù)有限公司