本發(fā)明涉及醫(yī)學(xué)、計(jì)算機(jī)應(yīng)用
技術(shù)領(lǐng)域:
,特別涉及一種使用語(yǔ)義識(shí)別進(jìn)行自動(dòng)化疾病編碼轉(zhuǎn)換的方法。
背景技術(shù):
:國(guó)際疾病分類(internationalClassificationofdiseases,ICD),是依據(jù)疾病的某些特征,按照規(guī)則將疾病分門(mén)別類,并用編碼的方法來(lái)表示的系統(tǒng)。是記錄診斷信息的載體,是開(kāi)展醫(yī)療數(shù)據(jù)分析、疾病診斷分組以及績(jī)效評(píng)價(jià)、醫(yī)??刭M(fèi)的基礎(chǔ)。在醫(yī)療機(jī)構(gòu)實(shí)踐中,各地基于疾病特點(diǎn)對(duì)編碼進(jìn)行了不同細(xì)化(ICD-10臨床版),且不同醫(yī)院對(duì)相同疾病診斷的描述不同。例如,GB-ICD-10中的“瞼痙攣”與BJ-ICD-10中的“眼瞼痙攣”診斷意義相同,前者編碼為“G24.500”,而后者編碼為“G24.501”。由此出現(xiàn)了多個(gè)版本不統(tǒng)一問(wèn)題,嚴(yán)重影響著醫(yī)療數(shù)據(jù)的挖掘應(yīng)用?,F(xiàn)有技術(shù)中解決此類編碼匹配問(wèn)題方案,主要依靠文字完全匹配或者人工識(shí)別。前種方法遇到文字微小偏差即無(wú)法識(shí)別,而后種方法工作量大,對(duì)人員能力素質(zhì)要求高,難以確保轉(zhuǎn)換準(zhǔn)確。技術(shù)實(shí)現(xiàn)要素:本發(fā)明的目的旨在至少解決所述技術(shù)缺陷之一。為此,本發(fā)明的目的在于提出一種使用語(yǔ)義識(shí)別進(jìn)行自動(dòng)化疾病編碼轉(zhuǎn)換的方法。為了實(shí)現(xiàn)上述目的,本發(fā)明的實(shí)施例提供一種使用語(yǔ)義識(shí)別進(jìn)行自動(dòng)化疾病編碼轉(zhuǎn)換的方法,包括:步驟S1,采集原始編碼和診斷描述的對(duì)應(yīng)關(guān)系的樣本數(shù)據(jù)集,分別建立編碼歷史庫(kù)和診斷文字歷史庫(kù);采集所有標(biāo)準(zhǔn)編碼和診斷描述形成訓(xùn)練集,分別建立編碼訓(xùn)練集和診斷文字訓(xùn)練集;將需要進(jìn)行轉(zhuǎn)換的診斷描述形成測(cè)試集,分別建立編碼測(cè)試集和診斷文字測(cè)試集;步驟S2,對(duì)所述診斷文字歷史庫(kù)中的數(shù)據(jù)按照醫(yī)學(xué)規(guī)則進(jìn)行預(yù)處理,并對(duì)處理后的數(shù)據(jù)按照漢語(yǔ)規(guī)則進(jìn)行分詞操作;步驟S3,對(duì)所述診斷文字訓(xùn)練集中的數(shù)據(jù)建立同義詞詞庫(kù),并按照醫(yī)學(xué)規(guī)則進(jìn)行處理,并對(duì)處理后的數(shù)據(jù)按照漢語(yǔ)規(guī)則進(jìn)行分詞操作;步驟S4,分詞操作后,將診斷文字歷史庫(kù)、診斷文字訓(xùn)練集中所涉及到不重復(fù)詞匯制作為一個(gè)詞包,并計(jì)算診斷文字歷史庫(kù)的詞包中每個(gè)詞對(duì)應(yīng)的IDF權(quán)重值;步驟S5,將診斷文字訓(xùn)練集中每條診斷文字記錄中所有詞,進(jìn)行分詞操作,并計(jì)算每個(gè)診斷文字記錄對(duì)應(yīng)的詞向量,再將診斷文字記錄對(duì)應(yīng)的詞向量整合在一起并作為由文字轉(zhuǎn)換而成得訓(xùn)練集TF-IDF矩陣;步驟S6,讀入要轉(zhuǎn)換的文字進(jìn)行分詞,取出診斷文字歷史庫(kù)的詞包中出現(xiàn)的次數(shù),并提取對(duì)應(yīng)詞的IDF權(quán)重值,轉(zhuǎn)換為T(mén)F-IDF矩陣,將所有含有待轉(zhuǎn)換編碼文字的編碼對(duì)應(yīng)的TF-IDF矩陣篩選出來(lái),生出初步篩選后的訓(xùn)練集TF-IDF矩陣,提取所述編碼測(cè)試集,提取前N位值,并從所述初步篩選后的訓(xùn)練集TF-IDF矩陣中進(jìn)一步篩選所述編碼訓(xùn)練集前N位與所述編碼測(cè)試集前N位相同的矩陣,作為篩選后的訓(xùn)練集TF-IDF矩陣;步驟S7,將診斷文字測(cè)試集記錄分詞后匹配診斷以形成詞向量,與所有篩選后的記錄按照下面公式計(jì)算相似度simij,并返回相似度最大值對(duì)應(yīng)的疾病編碼,其中,表示第i個(gè)預(yù)測(cè)集病例描述轉(zhuǎn)化后的詞向量,表示第j個(gè)訓(xùn)練集病例描述轉(zhuǎn)化后的詞向量;步驟S8,將最終編碼結(jié)果發(fā)送給醫(yī)學(xué)專家端進(jìn)審核,根據(jù)醫(yī)學(xué)專家反饋,以優(yōu)化轉(zhuǎn)換效果。進(jìn)一步,在所述步驟S2和S3中,對(duì)診斷文字歷史庫(kù)和診斷文字訓(xùn)練集中的數(shù)據(jù)按照醫(yī)學(xué)規(guī)則進(jìn)行處理之前,還包括如下步驟:對(duì)數(shù)據(jù)進(jìn)行去掉停用詞處理。進(jìn)一步,在所述步驟S4中,所述每個(gè)詞對(duì)應(yīng)的文檔IDF權(quán)重值IDF第i個(gè)詞為:其中,i為分詞編號(hào)。進(jìn)一步,在所述步驟S5中,所述計(jì)算第j個(gè)病例描述每i個(gè)詞的權(quán)重值TF-IDF,對(duì)每一個(gè)編碼對(duì)應(yīng)詞計(jì)算下去,并形成TF-IDF矩陣,其中,i為分詞編號(hào),j為病例編號(hào)。進(jìn)一步,在所述步驟S6中,N取5,其中,前N位值包括小數(shù)點(diǎn)在內(nèi)。根據(jù)本發(fā)明實(shí)施例的使用語(yǔ)義識(shí)別進(jìn)行自動(dòng)化疾病編碼轉(zhuǎn)換的方法,根據(jù)醫(yī)生對(duì)病人寫(xiě)的主要診斷文字描述,自動(dòng)對(duì)文字描述所代表的編碼進(jìn)行轉(zhuǎn)換。具體地是通過(guò)獲取一段時(shí)期內(nèi)疾病分類編碼和對(duì)應(yīng)文字的樣本數(shù)據(jù)集,然后將要轉(zhuǎn)換目標(biāo)編碼及其文字,使用機(jī)器學(xué)習(xí)的方法,訓(xùn)練出使用診斷文字進(jìn)行轉(zhuǎn)換的轉(zhuǎn)換器。當(dāng)需要對(duì)新來(lái)的文字診斷進(jìn)行編碼轉(zhuǎn)換時(shí),使用這一轉(zhuǎn)換器,即可輸出預(yù)測(cè)的標(biāo)準(zhǔn)的疾病編碼。本發(fā)明在ICD編碼識(shí)別轉(zhuǎn)換中創(chuàng)新應(yīng)用了自然語(yǔ)言識(shí)別(NLP)技術(shù),利用TF-IDF、余弦相似性等算法,實(shí)現(xiàn)了不同ICD(國(guó)際疾病分類)編碼版本間自動(dòng)轉(zhuǎn)換,大大提升了編碼轉(zhuǎn)換的效率和準(zhǔn)確性,為醫(yī)療數(shù)據(jù)應(yīng)用(如醫(yī)學(xué)研究、疾病控費(fèi)管理)奠定了基礎(chǔ)。本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。附圖說(shuō)明本發(fā)明的上述和/或附加的方面和優(yōu)點(diǎn)從結(jié)合下面附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解,其中:圖1為根據(jù)本發(fā)明實(shí)施例的使用語(yǔ)義識(shí)別進(jìn)行自動(dòng)化疾病編碼轉(zhuǎn)換的方法的流程圖;圖2為根據(jù)本發(fā)明實(shí)施例的使用語(yǔ)義識(shí)別進(jìn)行自動(dòng)化疾病編碼轉(zhuǎn)換的方法的示意圖。具體實(shí)施方式下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過(guò)參考附圖描述的實(shí)施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對(duì)本發(fā)明的限制。本發(fā)明提出了一種使用語(yǔ)義識(shí)別進(jìn)行自動(dòng)化疾病編碼轉(zhuǎn)換的系統(tǒng),可以根據(jù)醫(yī)生主診斷文字說(shuō)明進(jìn)行機(jī)器語(yǔ)義識(shí)別轉(zhuǎn)換。如圖1和圖2所示,本發(fā)明實(shí)施例的使用語(yǔ)義識(shí)別進(jìn)行自動(dòng)化疾病編碼轉(zhuǎn)換的方法,包括如下步驟:步驟S1,采集原始編碼和診斷描述的對(duì)應(yīng)關(guān)系的樣本數(shù)據(jù)集,分別建立編碼歷史庫(kù)和診斷文字歷史庫(kù)。具體地,采集某地區(qū)近三年所有原始編碼和診斷描述的對(duì)應(yīng)關(guān)系的樣本數(shù)據(jù)集,將原始編碼部分記為歷史庫(kù)編碼,原始診斷描述記為歷史庫(kù)診斷文字。采集所有標(biāo)準(zhǔn)編碼和診斷描述形成訓(xùn)練集,分別建立編碼訓(xùn)練集和診斷文字訓(xùn)練集。具體地,采集所有標(biāo)準(zhǔn)編碼和診斷描述形成訓(xùn)練集,將訓(xùn)練集中編碼部分記為訓(xùn)練集編碼,訓(xùn)練集診斷描述記為訓(xùn)練集診斷文字。將需要進(jìn)行轉(zhuǎn)換的診斷描述形成測(cè)試集,分別建立編碼測(cè)試集和診斷文字測(cè)試集。具體地,將需要進(jìn)行轉(zhuǎn)換的診斷描述形成測(cè)試集,測(cè)試集中編碼部分記為測(cè)試集編碼,訓(xùn)練集診斷描述記為測(cè)試集診斷文字;步驟S2,對(duì)診斷文字歷史庫(kù)中的數(shù)據(jù)按照醫(yī)學(xué)規(guī)則進(jìn)行預(yù)處理,并對(duì)處理后的數(shù)據(jù)按照漢語(yǔ)規(guī)則進(jìn)行分詞操作;具體地,將歷史庫(kù)診斷文字進(jìn)行去掉停用詞,然后,按照醫(yī)學(xué)規(guī)則預(yù)處理數(shù)據(jù),將處理好的歷史庫(kù)診斷文字?jǐn)?shù)據(jù)按照漢語(yǔ)規(guī)則進(jìn)行分詞操作。步驟S3,對(duì)診斷文字訓(xùn)練集中的數(shù)據(jù)建立同義詞詞庫(kù),并按照醫(yī)學(xué)規(guī)則進(jìn)行處理,并對(duì)處理后的數(shù)據(jù)按照漢語(yǔ)規(guī)則進(jìn)行分詞操作。具體地,將診斷文字訓(xùn)練集進(jìn)行增加同義詞詞表,并重復(fù)上述對(duì)歷史庫(kù)診斷文字的同樣處理操作,對(duì)數(shù)據(jù)進(jìn)行去掉停用詞處理,按照醫(yī)學(xué)規(guī)則進(jìn)行處理,并對(duì)處理后的數(shù)據(jù)按照漢語(yǔ)規(guī)則進(jìn)行分詞操作。步驟S4,分詞操作后,將診斷文字歷史庫(kù)、診斷文字訓(xùn)練集中所涉及到不重復(fù)詞匯制作為一個(gè)詞包,并計(jì)算診斷文字歷史庫(kù)的詞包中每個(gè)詞對(duì)應(yīng)的文檔IDF權(quán)重值。在本步驟中,每個(gè)詞對(duì)應(yīng)的文檔IDF權(quán)重值IDF第i個(gè)詞為:其中,i為分詞編號(hào)。步驟S5,將診斷文字訓(xùn)練集中每條診斷文字記錄中所有詞,進(jìn)行分詞操作,并計(jì)算每個(gè)診斷文字記錄對(duì)應(yīng)的詞向量,再將診斷文字記錄對(duì)應(yīng)的詞向量整合在一起并作為由文字轉(zhuǎn)換成的訓(xùn)練集TF-IDF矩陣。具體地,計(jì)算第j個(gè)病例描述每i個(gè)詞的權(quán)重值TF-IDF,對(duì)每一個(gè)編碼對(duì)應(yīng)詞計(jì)算下去,并形成TF-IDF矩陣,其中,i為分詞編號(hào),j為病例編號(hào)。步驟S6,讀入要轉(zhuǎn)換的文字進(jìn)行分詞,取出診斷文字歷史庫(kù)的詞包中出現(xiàn)的次,并提取對(duì)應(yīng)詞的IDF權(quán)重值,轉(zhuǎn)換為T(mén)F-IDF矩陣,將所有含有待轉(zhuǎn)換編碼文字的編碼對(duì)應(yīng)的TF-IDF矩陣篩選出來(lái),以便加快計(jì)算速度,生出初步篩選后的訓(xùn)練集TF-IDF矩陣,提取編碼測(cè)試集,提取前N位值。優(yōu)選的,N取5,其中,前N位值包括小數(shù)點(diǎn)在內(nèi)。然后,從初步篩選后的訓(xùn)練集TF-IDF矩陣中進(jìn)一步篩選編碼訓(xùn)練集前N位與編碼測(cè)試集前N位相同的矩陣,作為篩選后的訓(xùn)練集TF-IDF矩陣。即,提取測(cè)試集編碼,取其前五位值(包含小數(shù)點(diǎn)),在S5的基礎(chǔ)上進(jìn)一步篩選訓(xùn)練集編碼前五位與測(cè)試集編碼前五位相同的矩陣。步驟S7,將診斷文字測(cè)試集記錄分詞后匹配診斷以形成詞向量,與所有篩選后的記錄按照下面公式計(jì)算相似度simij,并返回相似度最大值對(duì)應(yīng)的疾病編碼,其中,表示第i個(gè)預(yù)測(cè)集病例描述轉(zhuǎn)化后的詞向量,表示第j個(gè)訓(xùn)練集病例描述轉(zhuǎn)化后的詞向量。步驟S8,將最終編碼結(jié)果發(fā)送給專家端進(jìn)審核,直至審核通過(guò)。將測(cè)試數(shù)據(jù)匹配訓(xùn)練庫(kù)的結(jié)果交由醫(yī)療編碼專家審閱,將其中有明顯問(wèn)題的數(shù)據(jù),修正后,加入訓(xùn)練集,重復(fù)步驟S2至S7,進(jìn)而不斷優(yōu)化編碼轉(zhuǎn)換器的轉(zhuǎn)換效果,提高工作的準(zhǔn)確性。下面對(duì)本發(fā)明實(shí)施例的使用語(yǔ)義識(shí)別進(jìn)行自動(dòng)化疾病編碼轉(zhuǎn)換的系統(tǒng),進(jìn)行舉例說(shuō)明。(1)采集某地區(qū)醫(yī)院歷史病例描述。表1為病例歷史記錄數(shù)據(jù)集。為了描述方便,表1中僅列出十九條病例。歷史病例庫(kù)對(duì)于疾病編碼準(zhǔn)確性無(wú)準(zhǔn)確性要求,只需要收集歷史中出現(xiàn)疾病情況即可。JBDMZYZDA00.000古典生物型霍亂A00.001古典生物型霍亂。A00.101埃爾托生物型霍亂A00.901霍亂A00.902霍亂輕型A00.903霍亂中型A00.904霍亂重型A00.905霍亂暴發(fā)型A01.000傷寒A01.000傷寒?A01.001傷寒A01.001+傷寒性肝炎A01.002傷寒桿菌敗血癥A01.003+G01*傷寒并發(fā)腦膜炎A01.004傷寒復(fù)發(fā)A01.005傷寒并發(fā)肺炎A01.005+J17.0*傷寒并發(fā)肺炎A01.006傷寒遷延型A01.007傷寒逍遙型表1(2)對(duì)歷史數(shù)據(jù)文字進(jìn)行分詞操作,去掉停用詞(如“和”、“的”),將分詞后所有剩下的不重復(fù)詞匯匯總成一張總表,也就是“詞包”。表2為病例歷史記錄分詞后數(shù)據(jù)集。JBDMZYZDA00.000[古典,生物,型,霍亂]A00.001[古典,生物,型,霍亂]A00.101[埃爾托,生物,型,霍亂]A00.901[霍亂]A00.902[霍亂,輕型]A00.903[霍亂,中型]A00.904[霍亂,重型]A00.905[霍亂,暴發(fā)型]A01.000[傷寒]A01.000[傷寒]A01.001[傷寒]A01.001+[傷寒,性,肝炎]A01.002[傷寒桿菌,敗血癥]A01.003+G01*[傷寒,并發(fā),腦膜炎]A01.004[傷寒,復(fù)發(fā)]A01.005[傷寒,并發(fā),肺炎]A01.005+J17.0*[傷寒,并發(fā),肺炎]A01.006[傷寒,遷延,型]A01.007[傷寒,逍遙,型]表2匯總后去除重復(fù)項(xiàng)后得到的詞包為:腦膜炎,逍遙,敗血癥,型,艾爾托,中型,霍亂,古典,肺炎,傷寒桿菌,重型,暴發(fā)型,并發(fā),復(fù)發(fā),性肝炎,生物,遷延,輕型,傷寒。(3)計(jì)算歷史詞庫(kù)中每一個(gè)詞出現(xiàn)的權(quán)值IDF,計(jì)算公式是:按照公式,如“腦膜炎”這個(gè)詞,在19個(gè)病例中出現(xiàn)了1次,則其對(duì)應(yīng)的IDF值為log(1/19)=-2.9444。表3中各詞的IDF值均是由此項(xiàng)公式計(jì)算而得。詞IDF腦膜炎-2.94444逍遙-2.94444敗血癥-2.94444型-1.335埃爾托-2.94444中型-2.94444霍亂-0.865古典-2.25129肺炎-2.25129傷寒桿菌-2.94444重型-2.94444暴發(fā)型-2.94444并發(fā)-1.84583復(fù)發(fā)-2.94444性肝炎-2.94444生物-1.84583遷延-2.94444輕型-2.94444傷寒-0.64185表3(4)將文字編碼對(duì)應(yīng)準(zhǔn)確(疾病分類編碼版本為IDC-10)的數(shù)據(jù)集作為訓(xùn)練集,為了表示方便只顯示十五條,如下表4所示:表4(5)對(duì)標(biāo)準(zhǔn)訓(xùn)練庫(kù)中詞進(jìn)行同樣分詞處理,去掉停用詞(如“的”、“和”等),如表5所示:JBDMZYZDA00.001[古典,生物,霍亂,型]A00.101[埃爾托,生物,霍亂,型]A00.901[霍亂]A00.902[霍亂,輕型]A00.903[霍亂,中型]A00.904[霍亂,重型]A00.905[霍亂,暴發(fā)型]A01.001[傷寒]A01.002[傷寒桿菌,敗血癥]A01.003[傷寒,并發(fā),腦膜炎]A01.004[傷寒,復(fù)發(fā)]A01.005+J17.0*[傷寒,并發(fā),肺炎]A01.006[傷寒,遷延]A01.007[傷寒,逍遙]A01.008[傷寒,并發(fā),腹膜炎]表5(6)將訓(xùn)練庫(kù)中按照每一條記錄中所有詞按照此公式轉(zhuǎn)換成TF-IDF權(quán)重值,最終將疾病編碼-詞由文字轉(zhuǎn)換成TF-IDF矩陣。如疾病代碼A00.001中,分詞結(jié)束后,有古典、生物、霍亂、型4個(gè)詞。古典在表3中對(duì)應(yīng)的IDF值為-2.25129,A00.001中共有4個(gè)詞,則“古典”在A00.001中對(duì)應(yīng)的值為-2.25129/4=-0.56282,同樣的,“型”在A00.001中對(duì)應(yīng)值為-1.335/4=-0.33,“霍亂”對(duì)應(yīng)值為-0.865/4=-0.22,“生物”對(duì)應(yīng)值為-1.845/4=-0.45,然后把A00.001中其他詞對(duì)應(yīng)值填為0。按照這種方法,對(duì)每一個(gè)編碼對(duì)應(yīng)詞計(jì)算下去,最終可以得到由文字轉(zhuǎn)化而成的矩陣如表6所示。表6(7)讀入將要轉(zhuǎn)換的文字進(jìn)行分詞,取出步驟三“詞包”中出現(xiàn)過(guò)的詞,然后提取對(duì)應(yīng)詞的IDF值,然后將其轉(zhuǎn)換成如步驟(6)中的TF-IDF向量。如“霍亂,由于01群霍亂弧菌,埃爾托生物所致”,分詞后結(jié)果為“霍亂,由于,0,1,霍亂,弧菌,埃爾托,生物,所致”,篩選出詞包中出現(xiàn)過(guò)的詞:“霍亂,埃爾托,生物”。查詢他們對(duì)應(yīng)的IDF值,由表3知,分別為:-0.865,-2.944,-1.845。由于分詞最終結(jié)束后此句話共有3個(gè)詞,需要對(duì)每個(gè)詞對(duì)應(yīng)的值除以3。按照步驟三的順序,將各個(gè)詞對(duì)應(yīng)的值按照字典表順序可得最終的TF-IDF詞向量為:[0,0,0,0,-0.98,0,-0.29,0,0,0,0,0,0,0,-0.61,0,0,0](8)將所有含有待轉(zhuǎn)換編碼文字的編碼對(duì)應(yīng)的步驟(6)中的TF-IDF矩陣篩選出來(lái)。如“霍亂,由于01群霍亂弧菌,埃爾托生物型所致”,分詞后結(jié)果為:“霍亂,埃爾托,生物”,含有這三個(gè)詞中任意一個(gè)詞的訓(xùn)練庫(kù)句子有古典生物型霍亂、埃爾托生物型霍亂、霍亂、霍亂輕型、霍亂中型、霍亂重型、霍亂暴發(fā)型。對(duì)應(yīng)編碼分別為:A00.001、A00.101、A00.901、A00.902、A00.903、A00.904、A00.905。表7示出了篩選出的矩陣。表7(9)按照余弦相似度公式依次計(jì)算這句話和訓(xùn)練庫(kù)中各病例相似程度,選擇相似度值最高的病例的疾病編碼作為最終轉(zhuǎn)換的ICD-10編碼。如“古典生物型霍亂”,古典生物型霍亂分詞結(jié)束后轉(zhuǎn)為“古典,生物,型,霍亂”,查詢表3后得到對(duì)應(yīng)的詞向量為:[0,0,0,-0.33,0,0,-0.22,-0.56,0,0,0,0,0,0,0,-0.46,0,0,0]根據(jù)步驟(7):“霍亂,由于01群霍亂弧菌,埃爾托生物型所致”對(duì)應(yīng)的詞向量為:[0,0,0,0,-0.98,0,-0.29,0,0,0,0,0,0,0,-0.61,0,0,0]按照相似度計(jì)算公式:分子為編號(hào)A00.001詞向量與待翻譯文字詞向量乘積,分母為各詞向量的長(zhǎng)度乘積,計(jì)算值為:重復(fù)上述相似度計(jì)算操作,分別對(duì)剩下6個(gè)編碼對(duì)應(yīng)的詞向量進(jìn)行計(jì)算,最終分別計(jì)算出相似度結(jié)果如表8所示:預(yù)測(cè)相似度A00.0010.34891244A00.1010.93700953A00.9010.24185056A00.9020.06816853A00.9030.06816853A00.9040.06816853A00.9050.06816853表8最后返回相似度最高的預(yù)測(cè)編碼,也即“A00.101”。(10)為了進(jìn)一步優(yōu)化計(jì)算效率,在讀取測(cè)試數(shù)據(jù)時(shí),同時(shí)讀入待轉(zhuǎn)換編碼和待轉(zhuǎn)換文字,對(duì)編碼和標(biāo)準(zhǔn)訓(xùn)練集編碼分別提取前五位數(shù)字,只有當(dāng)待轉(zhuǎn)換編碼前五位與標(biāo)準(zhǔn)訓(xùn)練集編碼前五位相同,才納入計(jì)算范圍。這樣同時(shí)考慮編碼文字相似性和編碼前五位值進(jìn)行轉(zhuǎn)換編碼,可以極大優(yōu)化系統(tǒng)計(jì)算速度。參考表9,如步驟(7)中“霍亂,由于01群霍亂弧菌,埃爾托生物型所致”,其對(duì)應(yīng)待轉(zhuǎn)換編碼為“A00.100”,編碼前五位為“A00.1”,標(biāo)準(zhǔn)訓(xùn)練集編碼滿足前五位數(shù)值為“A00.1”的代碼只有“A00.101”,這樣即可在步驟(9)比較7次的基礎(chǔ)上,進(jìn)一步縮小比較范圍達(dá)到僅需要比較1次的效果,并可以確定A00.101作為其轉(zhuǎn)換后的編碼。表9(11)以預(yù)測(cè)值為作為訓(xùn)練集表和測(cè)試集表連表的標(biāo)準(zhǔn),連接測(cè)試數(shù)據(jù)集和訓(xùn)練集的文字。然后將此結(jié)果反饋給醫(yī)療專家,由專家指出系統(tǒng)預(yù)測(cè)正確與不足情況,重復(fù)步驟(1)至步驟(10)以便從準(zhǔn)確度上進(jìn)一步優(yōu)化本方案。如表10所示,左兩列數(shù)據(jù)為需要轉(zhuǎn)換編碼的數(shù)據(jù),有兩列數(shù)據(jù)為根據(jù)疾病編碼轉(zhuǎn)換系統(tǒng)得出的預(yù)測(cè)編碼及對(duì)應(yīng)的文字描述。JBDMZYZDpredictiondescribeA00.000霍亂,由于01群霍亂弧菌,霍亂生物型所致A00.901霍亂A00.100霍亂,由于01群霍亂弧菌,埃爾托生物型所致A00.101埃爾托生物型霍亂A00.900霍亂A00.901霍亂A01.000傷寒A01.001傷寒A01.002+G01*傷寒性腦膜炎A01.003+G01*傷寒并發(fā)腦膜炎A01.003傷寒桿菌性敗血癥A01.002傷寒桿菌敗血癥表10根據(jù)本發(fā)明實(shí)施例的使用語(yǔ)義識(shí)別進(jìn)行自動(dòng)化疾病編碼轉(zhuǎn)換的方法,根據(jù)醫(yī)生對(duì)病人寫(xiě)的主要診斷文字描述,自動(dòng)對(duì)文字描述所代表的編碼進(jìn)行轉(zhuǎn)換。具體地是通過(guò)獲取一段時(shí)期內(nèi)疾病分類編碼和對(duì)應(yīng)文字的樣本數(shù)據(jù)集,然后將要轉(zhuǎn)換目標(biāo)編碼及其文字,使用機(jī)器學(xué)習(xí)的方法,訓(xùn)練出使用診斷文字進(jìn)行轉(zhuǎn)換的轉(zhuǎn)換器。當(dāng)需要對(duì)新來(lái)的文字診斷進(jìn)行編碼轉(zhuǎn)換時(shí),使用這一轉(zhuǎn)換器,即可輸出預(yù)測(cè)的標(biāo)準(zhǔn)的疾病編碼。本發(fā)明在ICD編碼識(shí)別轉(zhuǎn)換中創(chuàng)新應(yīng)用了自然語(yǔ)言識(shí)別(NLP)技術(shù),利用TF-IDF、余弦相似性等算法,實(shí)現(xiàn)了不同ICD(國(guó)際疾病分類)編碼版本間自動(dòng)轉(zhuǎn)換,大大提升了編碼轉(zhuǎn)換的效率和準(zhǔn)確性,為醫(yī)療數(shù)據(jù)應(yīng)用(如醫(yī)學(xué)研究、疾病控費(fèi)管理)奠定了基礎(chǔ)。在本說(shuō)明書(shū)的描述中,參考術(shù)語(yǔ)“一個(gè)實(shí)施例”、“一些實(shí)施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本發(fā)明的至少一個(gè)實(shí)施例或示例中。在本說(shuō)明書(shū)中,對(duì)上述術(shù)語(yǔ)的示意性表述不一定指的是相同的實(shí)施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可以在任何的一個(gè)或多個(gè)實(shí)施例或示例中以合適的方式結(jié)合。盡管上面已經(jīng)示出和描述了本發(fā)明的實(shí)施例,可以理解的是,上述實(shí)施例是示例性的,不能理解為對(duì)本發(fā)明的限制,本領(lǐng)域的普通技術(shù)人員在不脫離本發(fā)明的原理和宗旨的情況下在本發(fā)明的范圍內(nèi)可以對(duì)上述實(shí)施例進(jìn)行變化、修改、替換和變型。本發(fā)明的范圍由所附權(quán)利要求及其等同限定。當(dāng)前第1頁(yè)1 2 3