1.一種基于詞向量自動(dòng)構(gòu)建知識(shí)庫(kù)實(shí)現(xiàn)輔助診療的方法,其特征在于,所述方法包括:
獲取患者描述;
利用基于所述詞向量建立的擴(kuò)充的疾病-疾病相關(guān)因子字典,對(duì)所述患者描述進(jìn)行關(guān)鍵詞匹配,提取所述患者描述中跟醫(yī)學(xué)相關(guān)的詞語(yǔ)和表達(dá);
檢測(cè)提取出來(lái)的所述詞語(yǔ)和所述表達(dá)是否在標(biāo)準(zhǔn)疾病-疾病相關(guān)因子字典中;
基于檢測(cè)結(jié)果,結(jié)合根據(jù)所述擴(kuò)充的疾病-疾病相關(guān)因子字典得到的疾病相關(guān)因子對(duì)應(yīng)于疾病的相關(guān)性打分,計(jì)算疾病的分?jǐn)?shù);
對(duì)所述疾病的分?jǐn)?shù)進(jìn)行排序;
根據(jù)排序結(jié)果確定疾病。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述擴(kuò)充的疾病-疾病相關(guān)因子字典通過(guò)以下方式建立:
利用醫(yī)學(xué)信息訓(xùn)練關(guān)于疾病-疾病相關(guān)因子的詞向量嵌入分布式表示模型;
基于所述詞向量嵌入分布式表示模型,使用距離度量方法對(duì)所述標(biāo)準(zhǔn)疾病-疾病相關(guān)因子字典進(jìn)行擴(kuò)充,建立所述擴(kuò)充的疾病、疾病相關(guān)因子字典。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述利用醫(yī)學(xué)信息訓(xùn)練關(guān)于疾病-疾病相關(guān)因子的詞向量嵌入分布式表示模型,具體包括:
獲取醫(yī)學(xué)信息訓(xùn)練語(yǔ)料;
對(duì)所述醫(yī)學(xué)信息訓(xùn)練語(yǔ)料進(jìn)行清洗;
統(tǒng)計(jì)在問(wèn)答庫(kù)記錄中出現(xiàn)的高頻表達(dá)方式,增大高頻表達(dá)方式在分詞模型中的權(quán)重,并進(jìn)行中文分詞,得到訓(xùn)練文本;
對(duì)所述訓(xùn)練文本進(jìn)行訓(xùn)練,生成詞向量嵌入分布式表示模型。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述疾病相關(guān)因子對(duì)應(yīng)于疾病的相關(guān)性打分通過(guò)以下方式確定:
基于所述詞向量嵌入分布式表示模型,使用距離度量方法對(duì)所述標(biāo)準(zhǔn)疾病-疾病相關(guān)因子字典進(jìn)行擴(kuò)充,建立替換詞表;
使用所述擴(kuò)充的疾病-疾病相關(guān)因子字典和所述替換詞表,匹配所述醫(yī)學(xué)信息中的疾病-疾病相關(guān)因子,計(jì)算所述疾病相關(guān)因子對(duì)應(yīng)于疾病的相關(guān)性打分。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述使用所述擴(kuò)充的疾病-疾病相關(guān)因子字典和所述替換詞表,匹配所述醫(yī)學(xué)信息中的疾病-疾病相關(guān)因子,計(jì)算所述疾病相關(guān)因子對(duì)應(yīng)于疾病的相關(guān)性打分,具體包括:
利用所述擴(kuò)充的疾病-疾病相關(guān)因子字典,對(duì)醫(yī)患問(wèn)答記錄進(jìn)行關(guān)鍵詞的匹配,提取所述醫(yī)患問(wèn)答記錄中跟醫(yī)學(xué)相關(guān)的詞語(yǔ)和表達(dá);
檢測(cè)提取出的所述醫(yī)患問(wèn)答記錄中跟醫(yī)學(xué)相關(guān)的所述詞語(yǔ)和所述表達(dá)是否在所述標(biāo)準(zhǔn)疾病-疾病相關(guān)因子字典中;
若不在,則根據(jù)所述替換詞表,將提取出的所述醫(yī)患問(wèn)答記錄中跟醫(yī)學(xué)相關(guān)的所述詞語(yǔ)和所述表達(dá)歸一化到對(duì)應(yīng)的標(biāo)準(zhǔn)表達(dá)中;
基于所述標(biāo)準(zhǔn)表達(dá),統(tǒng)計(jì)疾病及其相關(guān)因子共現(xiàn)的頻數(shù),得到疾病相關(guān)因子和疾病的共現(xiàn)頻數(shù)記錄矩陣;
基于所述疾病相關(guān)因子和疾病的共現(xiàn)頻數(shù)記錄矩陣,使用非線性變換方法,得到所述疾病相關(guān)因子對(duì)應(yīng)于疾病的相關(guān)性打分。
6.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述方法包括:
基于所述詞向量嵌入分布式表示模型,使用距離度量方法對(duì)所述標(biāo)準(zhǔn)疾病-疾病相關(guān)因子字典進(jìn)行擴(kuò)充,建立替換詞表;
所述檢測(cè)提取出來(lái)的所述詞語(yǔ)和所述表達(dá)是否在標(biāo)準(zhǔn)疾病-疾病相關(guān)因子字典中,具體包括:
若未檢測(cè)到,則根據(jù)所述替換詞表,將提取出來(lái)的所述詞語(yǔ)和所述表達(dá)歸一化到對(duì)應(yīng)的標(biāo)準(zhǔn)表達(dá)中,得到標(biāo)準(zhǔn)化疾病相關(guān)因子;
所述基于檢測(cè)結(jié)果,結(jié)合根據(jù)所述擴(kuò)充的疾病-疾病相關(guān)因子字典得到的疾病相關(guān)因子對(duì)應(yīng)于疾病的相關(guān)性打分,計(jì)算疾病的分?jǐn)?shù),具體包括:
基于所述標(biāo)準(zhǔn)化疾病相關(guān)因子,結(jié)合根據(jù)所述擴(kuò)充的疾病-疾病相關(guān)因子字典得到的疾病相關(guān)因子對(duì)應(yīng)于疾病的相關(guān)性打分,計(jì)算疾病的分?jǐn)?shù)。
7.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述疾病相關(guān)因子對(duì)應(yīng)于疾病的相關(guān)性打分通過(guò)下式確定:
其中,所述Score(i,j)表示所述疾病相關(guān)因子對(duì)應(yīng)于疾病的相關(guān)性打分;所述P(Di|Fj)表示患有疾病的條件概率;所述Di表示所述疾?。凰鯢j表示所述疾病相關(guān)因子;所述Ni表示疾病頻數(shù),所述Ni=∑jNij,所述Nij表示記錄頻數(shù)。
8.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述疾病的分?jǐn)?shù)通過(guò)下式得到:
其中,所述DS(Di)表示所述疾病的分?jǐn)?shù);所述Di表示所述疾??;所述W(Fj)表示疾病類別映射權(quán)值;所述Score(i,j)表示所述疾病相關(guān)因子對(duì)應(yīng)于疾病的相關(guān)性打分。
9.一種基于詞向量自動(dòng)構(gòu)建知識(shí)庫(kù)實(shí)現(xiàn)輔助診療的系統(tǒng),其特征在于,所述系統(tǒng)包括:
獲取模塊,用于獲取患者描述;
提取模塊,用于利用基于所述詞向量建立的擴(kuò)充的疾病-疾病相關(guān)因子字典,對(duì)所述患者描述進(jìn)行關(guān)鍵詞匹配,提取所述患者描述中跟醫(yī)學(xué)相關(guān)的詞語(yǔ)和表達(dá);
檢測(cè)模塊,用于檢測(cè)提取出來(lái)的所述詞語(yǔ)和所述表達(dá)是否在標(biāo)準(zhǔn)疾病-疾病相關(guān)因子字典中;
計(jì)算模塊,用于基于檢測(cè)結(jié)果,結(jié)合根據(jù)所述擴(kuò)充的疾病-疾病相關(guān)因子字典得到的疾病相關(guān)因子對(duì)應(yīng)于疾病的相關(guān)性打分,計(jì)算疾病的分?jǐn)?shù);
排序模塊,用于對(duì)所述疾病的分?jǐn)?shù)進(jìn)行排序;
確定模塊,用于根據(jù)排序結(jié)果確定疾病。
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其特征在于,所述提取模塊具體包括:
詞向量模型建立單元,用于利用醫(yī)學(xué)信息訓(xùn)練關(guān)于疾病-疾病相關(guān)因子的詞向量嵌入分布式表示模型;
擴(kuò)充詞典建立單元,用于基于所述詞向量嵌入分布式表示模型,使用距離度量方法對(duì)所述標(biāo)準(zhǔn)疾病-疾病相關(guān)因子字典進(jìn)行擴(kuò)充,建立所述擴(kuò)充的疾病、疾病相關(guān)因子字典。
11.根據(jù)權(quán)利要求10所述的方法,其特征在于,所述詞向量模型建立單元具體包括:
獲取單元,用于獲取醫(yī)學(xué)信息訓(xùn)練語(yǔ)料;
清洗單元,用于對(duì)所述醫(yī)學(xué)信息訓(xùn)練語(yǔ)料進(jìn)行清洗;
第一統(tǒng)計(jì)單元,用于統(tǒng)計(jì)在問(wèn)答庫(kù)記錄中出現(xiàn)的高頻表達(dá)方式,增大高頻表達(dá)方式在分詞模型中的權(quán)重,并進(jìn)行中文分詞,得到訓(xùn)練文本;
生成單元,用于對(duì)所述訓(xùn)練文本進(jìn)行訓(xùn)練,生成詞向量嵌入分布式表示模型。
12.根據(jù)權(quán)利要求10所述的方法,其特征在于,所述計(jì)算模塊具體包括:
第一替換詞表建立單元,用于基于所述詞向量嵌入分布式表示模型,使用距離度量方法對(duì)所述標(biāo)準(zhǔn)疾病-疾病相關(guān)因子字典進(jìn)行擴(kuò)充,建立替換詞表;
相關(guān)性打分計(jì)算單元,用于使用所述擴(kuò)充的疾病-疾病相關(guān)因子字典和所述替換詞表,匹配所述醫(yī)學(xué)信息中的疾病-疾病相關(guān)因子,計(jì)算所述疾病相關(guān)因子對(duì)應(yīng)于疾病的相關(guān)性打分。
13.根據(jù)權(quán)利要求12所述的系統(tǒng),其特征在于,所述相關(guān)性打分計(jì)算單元具體包括:
提取單元,用于利用所述擴(kuò)充的疾病-疾病相關(guān)因子字典,對(duì)醫(yī)患問(wèn)答記錄進(jìn)行關(guān)鍵詞的匹配,提取所述醫(yī)患問(wèn)答記錄中跟醫(yī)學(xué)相關(guān)的詞語(yǔ)和表達(dá);
檢測(cè)單元,用于檢測(cè)提取出的所述醫(yī)患問(wèn)答記錄中跟醫(yī)學(xué)相關(guān)的所述詞語(yǔ)和所述表達(dá)是否在所述標(biāo)準(zhǔn)疾病-疾病相關(guān)因子字典中;
第一歸一化單元,用于在所述詞語(yǔ)和所述表達(dá)未在所述標(biāo)準(zhǔn)疾病-疾病相關(guān)因子字典中時(shí),根據(jù)所述替換詞表,將提取出的所述醫(yī)患問(wèn)答記錄中跟醫(yī)學(xué)相關(guān)的所述詞語(yǔ)和所述表達(dá)歸一化到對(duì)應(yīng)的標(biāo)準(zhǔn)表達(dá)中;
第二統(tǒng)計(jì)單元,用于基于所述標(biāo)準(zhǔn)表達(dá),統(tǒng)計(jì)疾病及其相關(guān)因子共現(xiàn)的頻數(shù),得到疾病相關(guān)因子和疾病的共現(xiàn)頻數(shù)記錄矩陣;
非線性變換單元,用于基于所述疾病相關(guān)因子和疾病的共現(xiàn)頻數(shù)記錄矩陣,使用非線性變換方法,得到所述疾病相關(guān)因子對(duì)應(yīng)于疾病的相關(guān)性打分。
14.根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,所述系統(tǒng)包括:
第二替換詞表建立單元,用于基于所述詞向量嵌入分布式表示模型,使用距離度量方法對(duì)所述標(biāo)準(zhǔn)疾病-疾病相關(guān)因子字典進(jìn)行擴(kuò)充,建立替換詞表;
所述檢測(cè)模塊具體包括:
第二歸一化單元,用于在提取出來(lái)的所述詞語(yǔ)和所述表達(dá)未在標(biāo)準(zhǔn)疾病-疾病相關(guān)因子字典中時(shí),根據(jù)所述替換詞表,將提取出來(lái)的所述詞語(yǔ)和所述表達(dá)歸一化到對(duì)應(yīng)的標(biāo)準(zhǔn)表達(dá)中,得到標(biāo)準(zhǔn)化疾病相關(guān)因子;
所述計(jì)算模塊具體包括:
疾病分?jǐn)?shù)計(jì)算單元,用于基于所述標(biāo)準(zhǔn)化疾病相關(guān)因子,結(jié)合根據(jù)所述擴(kuò)充的疾病-疾病相關(guān)因子字典得到的疾病相關(guān)因子對(duì)應(yīng)于疾病的相關(guān)性打分,計(jì)算疾病的分?jǐn)?shù)。