一種使用語(yǔ)義識(shí)別進(jìn)行自動(dòng)化疾病編碼轉(zhuǎn)換的方法與流程

文檔序號(hào)：12665919閱讀：292來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種使用語(yǔ)義識(shí)別進(jìn)行自動(dòng)化疾病編碼轉(zhuǎn)換的方法與流程

本發(fā)明涉及醫(yī)學(xué)、計(jì)算機(jī)應(yīng)用
技術(shù)領(lǐng)域：
，特別涉及一種使用語(yǔ)義識(shí)別進(jìn)行自動(dòng)化疾病編碼轉(zhuǎn)換的方法。
背景技術(shù)：
：國(guó)際疾病分類(internationalClassificationofdiseases，ICD)，是依據(jù)疾病的某些特征，按照規(guī)則將疾病分門(mén)別類，并用編碼的方法來(lái)表示的系統(tǒng)。是記錄診斷信息的載體，是開(kāi)展醫(yī)療數(shù)據(jù)分析、疾病診斷分組以及績(jī)效評(píng)價(jià)、醫(yī)?？刭M(fèi)的基礎(chǔ)。在醫(yī)療機(jī)構(gòu)實(shí)踐中，各地基于疾病特點(diǎn)對(duì)編碼進(jìn)行了不同細(xì)化(ICD-10臨床版)，且不同醫(yī)院對(duì)相同疾病診斷的描述不同。例如，GB-ICD-10中的“瞼痙攣”與BJ-ICD-10中的“眼瞼痙攣”診斷意義相同，前者編碼為“G24.500”，而后者編碼為“G24.501”。由此出現(xiàn)了多個(gè)版本不統(tǒng)一問(wèn)題，嚴(yán)重影響著醫(yī)療數(shù)據(jù)的挖掘應(yīng)用?，F(xiàn)有技術(shù)中解決此類編碼匹配問(wèn)題方案，主要依靠文字完全匹配或者人工識(shí)別。前種方法遇到文字微小偏差即無(wú)法識(shí)別，而后種方法工作量大，對(duì)人員能力素質(zhì)要求高，難以確保轉(zhuǎn)換準(zhǔn)確。技術(shù)實(shí)現(xiàn)要素：本發(fā)明的目的旨在至少解決所述技術(shù)缺陷之一。為此，本發(fā)明的目的在于提出一種使用語(yǔ)義識(shí)別進(jìn)行自動(dòng)化疾病編碼轉(zhuǎn)換的方法。為了實(shí)現(xiàn)上述目的，本發(fā)明的實(shí)施例提供一種使用語(yǔ)義識(shí)別進(jìn)行自動(dòng)化疾病編碼轉(zhuǎn)換的方法，包括：步驟S1，采集原始編碼和診斷描述的對(duì)應(yīng)關(guān)系的樣本數(shù)據(jù)集，分別建立編碼歷史庫(kù)和診斷文字歷史庫(kù)；采集所有標(biāo)準(zhǔn)編碼和診斷描述形成訓(xùn)練集，分別建立編碼訓(xùn)練集和診斷文字訓(xùn)練集；將需要進(jìn)行轉(zhuǎn)換的診斷描述形成測(cè)試集，分別建立編碼測(cè)試集和診斷文字測(cè)試集；步驟S2，對(duì)所述診斷文字歷史庫(kù)中的數(shù)據(jù)按照醫(yī)學(xué)規(guī)則進(jìn)行預(yù)處理，并對(duì)處理后的數(shù)據(jù)按照漢語(yǔ)規(guī)則進(jìn)行分詞操作；步驟S3，對(duì)所述診斷文字訓(xùn)練集中的數(shù)據(jù)建立同義詞詞庫(kù)，并按照醫(yī)學(xué)規(guī)則進(jìn)行處理，并對(duì)處理后的數(shù)據(jù)按照漢語(yǔ)規(guī)則進(jìn)行分詞操作；步驟S4，分詞操作后，將診斷文字歷史庫(kù)、診斷文字訓(xùn)練集中所涉及到不重復(fù)詞匯制作為一個(gè)詞包，并計(jì)算診斷文字歷史庫(kù)的詞包中每個(gè)詞對(duì)應(yīng)的IDF權(quán)重值；步驟S5，將診斷文字訓(xùn)練集中每條診斷文字記錄中所有詞，進(jìn)行分詞操作，并計(jì)算每個(gè)診斷文字記錄對(duì)應(yīng)的詞向量，再將診斷文字記錄對(duì)應(yīng)的詞向量整合在一起并作為由文字轉(zhuǎn)換而成得訓(xùn)練集TF-IDF矩陣；步驟S6，讀入要轉(zhuǎn)換的文字進(jìn)行分詞，取出診斷文字歷史庫(kù)的詞包中出現(xiàn)的次數(shù)，并提取對(duì)應(yīng)詞的IDF權(quán)重值，轉(zhuǎn)換為T(mén)F-IDF矩陣，將所有含有待轉(zhuǎn)換編碼文字的編碼對(duì)應(yīng)的TF-IDF矩陣篩選出來(lái)，生出初步篩選后的訓(xùn)練集TF-IDF矩陣，提取所述編碼測(cè)試集，提取前N位值，并從所述初步篩選后的訓(xùn)練集TF-IDF矩陣中進(jìn)一步篩選所述編碼訓(xùn)練集前N位與所述編碼測(cè)試集前N位相同的矩陣，作為篩選后的訓(xùn)練集TF-IDF矩陣；步驟S7，將診斷文字測(cè)試集記錄分詞后匹配診斷以形成詞向量，與所有篩選后的記錄按照下面公式計(jì)算相似度simij，并返回相似度最大值對(duì)應(yīng)的疾病編碼，其中，表示第i個(gè)預(yù)測(cè)集病例描述轉(zhuǎn)化后的詞向量，表示第j個(gè)訓(xùn)練集病例描述轉(zhuǎn)化后的詞向量；步驟S8，將最終編碼結(jié)果發(fā)送給醫(yī)學(xué)專家端進(jìn)審核，根據(jù)醫(yī)學(xué)專家反饋，以優(yōu)化轉(zhuǎn)換效果。進(jìn)一步，在所述步驟S2和S3中，對(duì)診斷文字歷史庫(kù)和診斷文字訓(xùn)練集中的數(shù)據(jù)按照醫(yī)學(xué)規(guī)則進(jìn)行處理之前，還包括如下步驟：對(duì)數(shù)據(jù)進(jìn)行去掉停用詞處理。進(jìn)一步，在所述步驟S4中，所述每個(gè)詞對(duì)應(yīng)的文檔IDF權(quán)重值IDF第i個(gè)詞為：其中，i為分詞編號(hào)。進(jìn)一步，在所述步驟S5中，所述計(jì)算第j個(gè)病例描述每i個(gè)詞的權(quán)重值TF-IDF，對(duì)每一個(gè)編碼對(duì)應(yīng)詞計(jì)算下去，并形成TF-IDF矩陣，其中，i為分詞編號(hào)，j為病例編號(hào)。進(jìn)一步，在所述步驟S6中，N取5，其中，前N位值包括小數(shù)點(diǎn)在內(nèi)。根據(jù)本發(fā)明實(shí)施例的使用語(yǔ)義識(shí)別進(jìn)行自動(dòng)化疾病編碼轉(zhuǎn)換的方法，根據(jù)醫(yī)生對(duì)病人寫(xiě)的主要診斷文字描述，自動(dòng)對(duì)文字描述所代表的編碼進(jìn)行轉(zhuǎn)換。具體地是通過(guò)獲取一段時(shí)期內(nèi)疾病分類編碼和對(duì)應(yīng)文字的樣本數(shù)據(jù)集，然后將要轉(zhuǎn)換目標(biāo)編碼及其文字，使用機(jī)器學(xué)習(xí)的方法，訓(xùn)練出使用診斷文字進(jìn)行轉(zhuǎn)換的轉(zhuǎn)換器。當(dāng)需要對(duì)新來(lái)的文字診斷進(jìn)行編碼轉(zhuǎn)換時(shí)，使用這一轉(zhuǎn)換器，即可輸出預(yù)測(cè)的標(biāo)準(zhǔn)的疾病編碼。本發(fā)明在ICD編碼識(shí)別轉(zhuǎn)換中創(chuàng)新應(yīng)用了自然語(yǔ)言識(shí)別(NLP)技術(shù)，利用TF-IDF、余弦相似性等算法，實(shí)現(xiàn)了不同ICD(國(guó)際疾病分類)編碼版本間自動(dòng)轉(zhuǎn)換，大大提升了編碼轉(zhuǎn)換的效率和準(zhǔn)確性，為醫(yī)療數(shù)據(jù)應(yīng)用(如醫(yī)學(xué)研究、疾病控費(fèi)管理)奠定了基礎(chǔ)。本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出，部分將從下面的描述中變得明顯，或通過(guò)本發(fā)明的實(shí)踐了解到。附圖說(shuō)明本發(fā)明的上述和/或附加的方面和優(yōu)點(diǎn)從結(jié)合下面附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解，其中：圖1為根據(jù)本發(fā)明實(shí)施例的使用語(yǔ)義識(shí)別進(jìn)行自動(dòng)化疾病編碼轉(zhuǎn)換的方法的流程圖；圖2為根據(jù)本發(fā)明實(shí)施例的使用語(yǔ)義識(shí)別進(jìn)行自動(dòng)化疾病編碼轉(zhuǎn)換的方法的示意圖。具體實(shí)施方式下面詳細(xì)描述本發(fā)明的實(shí)施例，所述實(shí)施例的示例在附圖中示出，其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過(guò)參考附圖描述的實(shí)施例是示例性的，旨在用于解釋本發(fā)明，而不能理解為對(duì)本發(fā)明的限制。本發(fā)明提出了一種使用語(yǔ)義識(shí)別進(jìn)行自動(dòng)化疾病編碼轉(zhuǎn)換的系統(tǒng)，可以根據(jù)醫(yī)生主診斷文字說(shuō)明進(jìn)行機(jī)器語(yǔ)義識(shí)別轉(zhuǎn)換。如圖1和圖2所示，本發(fā)明實(shí)施例的使用語(yǔ)義識(shí)別進(jìn)行自動(dòng)化疾病編碼轉(zhuǎn)換的方法，包括如下步驟：步驟S1，采集原始編碼和診斷描述的對(duì)應(yīng)關(guān)系的樣本數(shù)據(jù)集，分別建立編碼歷史庫(kù)和診斷文字歷史庫(kù)。具體地，采集某地區(qū)近三年所有原始編碼和診斷描述的對(duì)應(yīng)關(guān)系的樣本數(shù)據(jù)集，將原始編碼部分記為歷史庫(kù)編碼，原始診斷描述記為歷史庫(kù)診斷文字。采集所有標(biāo)準(zhǔn)編碼和診斷描述形成訓(xùn)練集，分別建立編碼訓(xùn)練集和診斷文字訓(xùn)練集。具體地，采集所有標(biāo)準(zhǔn)編碼和診斷描述形成訓(xùn)練集，將訓(xùn)練集中編碼部分記為訓(xùn)練集編碼，訓(xùn)練集診斷描述記為訓(xùn)練集診斷文字。將需要進(jìn)行轉(zhuǎn)換的診斷描述形成測(cè)試集，分別建立編碼測(cè)試集和診斷文字測(cè)試集。具體地，將需要進(jìn)行轉(zhuǎn)換的診斷描述形成測(cè)試集，測(cè)試集中編碼部分記為測(cè)試集編碼，訓(xùn)練集診斷描述記為測(cè)試集診斷文字；步驟S2，對(duì)診斷文字歷史庫(kù)中的數(shù)據(jù)按照醫(yī)學(xué)規(guī)則進(jìn)行預(yù)處理，并對(duì)處理后的數(shù)據(jù)按照漢語(yǔ)規(guī)則進(jìn)行分詞操作；具體地，將歷史庫(kù)診斷文字進(jìn)行去掉停用詞，然后，按照醫(yī)學(xué)規(guī)則預(yù)處理數(shù)據(jù)，將處理好的歷史庫(kù)診斷文字?jǐn)?shù)據(jù)按照漢語(yǔ)規(guī)則進(jìn)行分詞操作。步驟S3，對(duì)診斷文字訓(xùn)練集中的數(shù)據(jù)建立同義詞詞庫(kù)，并按照醫(yī)學(xué)規(guī)則進(jìn)行處理，并對(duì)處理后的數(shù)據(jù)按照漢語(yǔ)規(guī)則進(jìn)行分詞操作。具體地，將診斷文字訓(xùn)練集進(jìn)行增加同義詞詞表，并重復(fù)上述對(duì)歷史庫(kù)診斷文字的同樣處理操作，對(duì)數(shù)據(jù)進(jìn)行去掉停用詞處理，按照醫(yī)學(xué)規(guī)則進(jìn)行處理，并對(duì)處理后的數(shù)據(jù)按照漢語(yǔ)規(guī)則進(jìn)行分詞操作。步驟S4，分詞操作后，將診斷文字歷史庫(kù)、診斷文字訓(xùn)練集中所涉及到不重復(fù)詞匯制作為一個(gè)詞包，并計(jì)算診斷文字歷史庫(kù)的詞包中每個(gè)詞對(duì)應(yīng)的文檔IDF權(quán)重值。在本步驟中，每個(gè)詞對(duì)應(yīng)的文檔IDF權(quán)重值IDF第i個(gè)詞為：其中，i為分詞編號(hào)。步驟S5，將診斷文字訓(xùn)練集中每條診斷文字記錄中所有詞，進(jìn)行分詞操作，并計(jì)算每個(gè)診斷文字記錄對(duì)應(yīng)的詞向量，再將診斷文字記錄對(duì)應(yīng)的詞向量整合在一起并作為由文字轉(zhuǎn)換成的訓(xùn)練集TF-IDF矩陣。具體地，計(jì)算第j個(gè)病例描述每i個(gè)詞的權(quán)重值TF-IDF，對(duì)每一個(gè)編碼對(duì)應(yīng)詞計(jì)算下去，并形成TF-IDF矩陣，其中，i為分詞編號(hào)，j為病例編號(hào)。步驟S6，讀入要轉(zhuǎn)換的文字進(jìn)行分詞，取出診斷文字歷史庫(kù)的詞包中出現(xiàn)的次，并提取對(duì)應(yīng)詞的IDF權(quán)重值，轉(zhuǎn)換為T(mén)F-IDF矩陣，將所有含有待轉(zhuǎn)換編碼文字的編碼對(duì)應(yīng)的TF-IDF矩陣篩選出來(lái)，以便加快計(jì)算速度，生出初步篩選后的訓(xùn)練集TF-IDF矩陣，提取編碼測(cè)試集，提取前N位值。優(yōu)選的，N取5，其中，前N位值包括小數(shù)點(diǎn)在內(nèi)。然后，從初步篩選后的訓(xùn)練集TF-IDF矩陣中進(jìn)一步篩選編碼訓(xùn)練集前N位與編碼測(cè)試集前N位相同的矩陣，作為篩選后的訓(xùn)練集TF-IDF矩陣。即，提取測(cè)試集編碼，取其前五位值(包含小數(shù)點(diǎn))，在S5的基礎(chǔ)上進(jìn)一步篩選訓(xùn)練集編碼前五位與測(cè)試集編碼前五位相同的矩陣。步驟S7，將診斷文字測(cè)試集記錄分詞后匹配診斷以形成詞向量，與所有篩選后的記錄按照下面公式計(jì)算相似度simij，并返回相似度最大值對(duì)應(yīng)的疾病編碼，其中，表示第i個(gè)預(yù)測(cè)集病例描述轉(zhuǎn)化后的詞向量，表示第j個(gè)訓(xùn)練集病例描述轉(zhuǎn)化后的詞向量。步驟S8，將最終編碼結(jié)果發(fā)送給專家端進(jìn)審核，直至審核通過(guò)。將測(cè)試數(shù)據(jù)匹配訓(xùn)練庫(kù)的結(jié)果交由醫(yī)療編碼專家審閱，將其中有明顯問(wèn)題的數(shù)據(jù)，修正后，加入訓(xùn)練集，重復(fù)步驟S2至S7，進(jìn)而不斷優(yōu)化編碼轉(zhuǎn)換器的轉(zhuǎn)換效果，提高工作的準(zhǔn)確性。下面對(duì)本發(fā)明實(shí)施例的使用語(yǔ)義識(shí)別進(jìn)行自動(dòng)化疾病編碼轉(zhuǎn)換的系統(tǒng)，進(jìn)行舉例說(shuō)明。(1)采集某地區(qū)醫(yī)院歷史病例描述。表1為病例歷史記錄數(shù)據(jù)集。為了描述方便，表1中僅列出十九條病例。歷史病例庫(kù)對(duì)于疾病編碼準(zhǔn)確性無(wú)準(zhǔn)確性要求，只需要收集歷史中出現(xiàn)疾病情況即可。JBDMZYZDA00.000古典生物型霍亂A00.001古典生物型霍亂。A00.101埃爾托生物型霍亂A00.901霍亂A00.902霍亂輕型A00.903霍亂中型A00.904霍亂重型A00.905霍亂暴發(fā)型A01.000傷寒A01.000傷寒？A01.001傷寒A01.001+傷寒性肝炎A01.002傷寒桿菌敗血癥A01.003+G01*傷寒并發(fā)腦膜炎A01.004傷寒復(fù)發(fā)A01.005傷寒并發(fā)肺炎A01.005+J17.0*傷寒并發(fā)肺炎A01.006傷寒遷延型A01.007傷寒逍遙型表1(2)對(duì)歷史數(shù)據(jù)文字進(jìn)行分詞操作，去掉停用詞(如“和”、“的”)，將分詞后所有剩下的不重復(fù)詞匯匯總成一張總表，也就是“詞包”。表2為病例歷史記錄分詞后數(shù)據(jù)集。JBDMZYZDA00.000[古典，生物，型，霍亂]A00.001[古典，生物，型，霍亂]A00.101[埃爾托，生物，型，霍亂]A00.901[霍亂]A00.902[霍亂，輕型]A00.903[霍亂，中型]A00.904[霍亂，重型]A00.905[霍亂，暴發(fā)型]A01.000[傷寒]A01.000[傷寒]A01.001[傷寒]A01.001+[傷寒，性，肝炎]A01.002[傷寒桿菌，敗血癥]A01.003+G01*[傷寒，并發(fā)，腦膜炎]A01.004[傷寒，復(fù)發(fā)]A01.005[傷寒，并發(fā)，肺炎]A01.005+J17.0*[傷寒，并發(fā)，肺炎]A01.006[傷寒，遷延，型]A01.007[傷寒，逍遙，型]表2匯總后去除重復(fù)項(xiàng)后得到的詞包為：腦膜炎，逍遙，敗血癥，型，艾爾托，中型，霍亂，古典，肺炎，傷寒桿菌，重型，暴發(fā)型，并發(fā)，復(fù)發(fā)，性肝炎，生物，遷延，輕型，傷寒。(3)計(jì)算歷史詞庫(kù)中每一個(gè)詞出現(xiàn)的權(quán)值IDF，計(jì)算公式是：按照公式，如“腦膜炎”這個(gè)詞，在19個(gè)病例中出現(xiàn)了1次，則其對(duì)應(yīng)的IDF值為log(1/19)＝-2.9444。表3中各詞的IDF值均是由此項(xiàng)公式計(jì)算而得。詞IDF腦膜炎-2.94444逍遙-2.94444敗血癥-2.94444型-1.335埃爾托-2.94444中型-2.94444霍亂-0.865古典-2.25129肺炎-2.25129傷寒桿菌-2.94444重型-2.94444暴發(fā)型-2.94444并發(fā)-1.84583復(fù)發(fā)-2.94444性肝炎-2.94444生物-1.84583遷延-2.94444輕型-2.94444傷寒-0.64185表3(4)將文字編碼對(duì)應(yīng)準(zhǔn)確(疾病分類編碼版本為IDC-10)的數(shù)據(jù)集作為訓(xùn)練集，為了表示方便只顯示十五條，如下表4所示：表4(5)對(duì)標(biāo)準(zhǔn)訓(xùn)練庫(kù)中詞進(jìn)行同樣分詞處理，去掉停用詞(如“的”、“和”等)，如表5所示：JBDMZYZDA00.001[古典，生物，霍亂，型]A00.101[埃爾托，生物，霍亂，型]A00.901[霍亂]A00.902[霍亂，輕型]A00.903[霍亂，中型]A00.904[霍亂，重型]A00.905[霍亂，暴發(fā)型]A01.001[傷寒]A01.002[傷寒桿菌，敗血癥]A01.003[傷寒，并發(fā)，腦膜炎]A01.004[傷寒，復(fù)發(fā)]A01.005+J17.0*[傷寒，并發(fā)，肺炎]A01.006[傷寒，遷延]A01.007[傷寒，逍遙]A01.008[傷寒，并發(fā)，腹膜炎]表5(6)將訓(xùn)練庫(kù)中按照每一條記錄中所有詞按照此公式轉(zhuǎn)換成TF-IDF權(quán)重值，最終將疾病編碼-詞由文字轉(zhuǎn)換成TF-IDF矩陣。如疾病代碼A00.001中，分詞結(jié)束后，有古典、生物、霍亂、型4個(gè)詞。古典在表3中對(duì)應(yīng)的IDF值為-2.25129，A00.001中共有4個(gè)詞，則“古典”在A00.001中對(duì)應(yīng)的值為-2.25129/4＝-0.56282，同樣的，“型”在A00.001中對(duì)應(yīng)值為-1.335/4＝-0.33，“霍亂”對(duì)應(yīng)值為-0.865/4＝-0.22，“生物”對(duì)應(yīng)值為-1.845/4＝-0.45，然后把A00.001中其他詞對(duì)應(yīng)值填為0。按照這種方法，對(duì)每一個(gè)編碼對(duì)應(yīng)詞計(jì)算下去，最終可以得到由文字轉(zhuǎn)化而成的矩陣如表6所示。表6(7)讀入將要轉(zhuǎn)換的文字進(jìn)行分詞，取出步驟三“詞包”中出現(xiàn)過(guò)的詞，然后提取對(duì)應(yīng)詞的IDF值，然后將其轉(zhuǎn)換成如步驟(6)中的TF-IDF向量。如“霍亂，由于01群霍亂弧菌，埃爾托生物所致”，分詞后結(jié)果為“霍亂，由于，0，1，霍亂，弧菌，埃爾托，生物，所致”，篩選出詞包中出現(xiàn)過(guò)的詞：“霍亂，埃爾托，生物”。查詢他們對(duì)應(yīng)的IDF值，由表3知，分別為：-0.865，-2.944，-1.845。由于分詞最終結(jié)束后此句話共有3個(gè)詞，需要對(duì)每個(gè)詞對(duì)應(yīng)的值除以3。按照步驟三的順序，將各個(gè)詞對(duì)應(yīng)的值按照字典表順序可得最終的TF-IDF詞向量為：[0，0，0，0，-0.98，0，-0.29，0，0，0，0，0，0，0，-0.61，0，0，0](8)將所有含有待轉(zhuǎn)換編碼文字的編碼對(duì)應(yīng)的步驟(6)中的TF-IDF矩陣篩選出來(lái)。如“霍亂，由于01群霍亂弧菌，埃爾托生物型所致”，分詞后結(jié)果為：“霍亂，埃爾托，生物”，含有這三個(gè)詞中任意一個(gè)詞的訓(xùn)練庫(kù)句子有古典生物型霍亂、埃爾托生物型霍亂、霍亂、霍亂輕型、霍亂中型、霍亂重型、霍亂暴發(fā)型。對(duì)應(yīng)編碼分別為：A00.001、A00.101、A00.901、A00.902、A00.903、A00.904、A00.905。表7示出了篩選出的矩陣。表7(9)按照余弦相似度公式依次計(jì)算這句話和訓(xùn)練庫(kù)中各病例相似程度，選擇相似度值最高的病例的疾病編碼作為最終轉(zhuǎn)換的ICD-10編碼。如“古典生物型霍亂”，古典生物型霍亂分詞結(jié)束后轉(zhuǎn)為“古典，生物，型，霍亂”，查詢表3后得到對(duì)應(yīng)的詞向量為：[0，0，0，-0.33，0，0，-0.22，-0.56，0，0，0，0，0，0，0，-0.46，0，0，0]根據(jù)步驟(7)：“霍亂，由于01群霍亂弧菌，埃爾托生物型所致”對(duì)應(yīng)的詞向量為：[0，0，0，0，-0.98，0，-0.29，0，0，0，0，0，0，0，-0.61，0，0，0]按照相似度計(jì)算公式：分子為編號(hào)A00.001詞向量與待翻譯文字詞向量乘積，分母為各詞向量的長(zhǎng)度乘積，計(jì)算值為：重復(fù)上述相似度計(jì)算操作，分別對(duì)剩下6個(gè)編碼對(duì)應(yīng)的詞向量進(jìn)行計(jì)算，最終分別計(jì)算出相似度結(jié)果如表8所示：預(yù)測(cè)相似度A00.0010.34891244A00.1010.93700953A00.9010.24185056A00.9020.06816853A00.9030.06816853A00.9040.06816853A00.9050.06816853表8最后返回相似度最高的預(yù)測(cè)編碼，也即“A00.101”。(10)為了進(jìn)一步優(yōu)化計(jì)算效率，在讀取測(cè)試數(shù)據(jù)時(shí)，同時(shí)讀入待轉(zhuǎn)換編碼和待轉(zhuǎn)換文字，對(duì)編碼和標(biāo)準(zhǔn)訓(xùn)練集編碼分別提取前五位數(shù)字，只有當(dāng)待轉(zhuǎn)換編碼前五位與標(biāo)準(zhǔn)訓(xùn)練集編碼前五位相同，才納入計(jì)算范圍。這樣同時(shí)考慮編碼文字相似性和編碼前五位值進(jìn)行轉(zhuǎn)換編碼，可以極大優(yōu)化系統(tǒng)計(jì)算速度。參考表9，如步驟(7)中“霍亂，由于01群霍亂弧菌，埃爾托生物型所致”，其對(duì)應(yīng)待轉(zhuǎn)換編碼為“A00.100”，編碼前五位為“A00.1”，標(biāo)準(zhǔn)訓(xùn)練集編碼滿足前五位數(shù)值為“A00.1”的代碼只有“A00.101”，這樣即可在步驟(9)比較7次的基礎(chǔ)上，進(jìn)一步縮小比較范圍達(dá)到僅需要比較1次的效果，并可以確定A00.101作為其轉(zhuǎn)換后的編碼。表9(11)以預(yù)測(cè)值為作為訓(xùn)練集表和測(cè)試集表連表的標(biāo)準(zhǔn)，連接測(cè)試數(shù)據(jù)集和訓(xùn)練集的文字。然后將此結(jié)果反饋給醫(yī)療專家，由專家指出系統(tǒng)預(yù)測(cè)正確與不足情況，重復(fù)步驟(1)至步驟(10)以便從準(zhǔn)確度上進(jìn)一步優(yōu)化本方案。如表10所示，左兩列數(shù)據(jù)為需要轉(zhuǎn)換編碼的數(shù)據(jù)，有兩列數(shù)據(jù)為根據(jù)疾病編碼轉(zhuǎn)換系統(tǒng)得出的預(yù)測(cè)編碼及對(duì)應(yīng)的文字描述。JBDMZYZDpredictiondescribeA00.000霍亂，由于01群霍亂弧菌，霍亂生物型所致A00.901霍亂A00.100霍亂，由于01群霍亂弧菌，埃爾托生物型所致A00.101埃爾托生物型霍亂A00.900霍亂A00.901霍亂A01.000傷寒A01.001傷寒A01.002+G01*傷寒性腦膜炎A01.003+G01*傷寒并發(fā)腦膜炎A01.003傷寒桿菌性敗血癥A01.002傷寒桿菌敗血癥表10根據(jù)本發(fā)明實(shí)施例的使用語(yǔ)義識(shí)別進(jìn)行自動(dòng)化疾病編碼轉(zhuǎn)換的方法，根據(jù)醫(yī)生對(duì)病人寫(xiě)的主要診斷文字描述，自動(dòng)對(duì)文字描述所代表的編碼進(jìn)行轉(zhuǎn)換。具體地是通過(guò)獲取一段時(shí)期內(nèi)疾病分類編碼和對(duì)應(yīng)文字的樣本數(shù)據(jù)集，然后將要轉(zhuǎn)換目標(biāo)編碼及其文字，使用機(jī)器學(xué)習(xí)的方法，訓(xùn)練出使用診斷文字進(jìn)行轉(zhuǎn)換的轉(zhuǎn)換器。當(dāng)需要對(duì)新來(lái)的文字診斷進(jìn)行編碼轉(zhuǎn)換時(shí)，使用這一轉(zhuǎn)換器，即可輸出預(yù)測(cè)的標(biāo)準(zhǔn)的疾病編碼。本發(fā)明在ICD編碼識(shí)別轉(zhuǎn)換中創(chuàng)新應(yīng)用了自然語(yǔ)言識(shí)別(NLP)技術(shù)，利用TF-IDF、余弦相似性等算法，實(shí)現(xiàn)了不同ICD(國(guó)際疾病分類)編碼版本間自動(dòng)轉(zhuǎn)換，大大提升了編碼轉(zhuǎn)換的效率和準(zhǔn)確性，為醫(yī)療數(shù)據(jù)應(yīng)用(如醫(yī)學(xué)研究、疾病控費(fèi)管理)奠定了基礎(chǔ)。在本說(shuō)明書(shū)的描述中，參考術(shù)語(yǔ)“一個(gè)實(shí)施例”、“一些實(shí)施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本發(fā)明的至少一個(gè)實(shí)施例或示例中。在本說(shuō)明書(shū)中，對(duì)上述術(shù)語(yǔ)的示意性表述不一定指的是相同的實(shí)施例或示例。而且，描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可以在任何的一個(gè)或多個(gè)實(shí)施例或示例中以合適的方式結(jié)合。盡管上面已經(jīng)示出和描述了本發(fā)明的實(shí)施例，可以理解的是，上述實(shí)施例是示例性的，不能理解為對(duì)本發(fā)明的限制，本領(lǐng)域的普通技術(shù)人員在不脫離本發(fā)明的原理和宗旨的情況下在本發(fā)明的范圍內(nèi)可以對(duì)上述實(shí)施例進(jìn)行變化、修改、替換和變型。本發(fā)明的范圍由所附權(quán)利要求及其等同限定。當(dāng)前第1頁(yè)1 2 3

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：謝國(guó)亮;程嵐;孫志強(qiáng);杜玉恒;蘇倩
技術(shù)所有人：天津艾登科技有限公司
我是此專利的發(fā)明人

上一篇：一種行血祛痰的藥酒的制作方法與工藝
上一篇：一種活血化瘀的藥酒的制作方法與工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語(yǔ)義編碼相關(guān)技術(shù)

疾病編碼查詢相關(guān)技術(shù)

疾病編碼相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種使用語(yǔ)義識(shí)別進(jìn)行自動(dòng)化疾病編碼轉(zhuǎn)換的方法與流程