1.一種基于深度學(xué)習(xí)的中文醫(yī)學(xué)知識圖譜構(gòu)建方法,其特征在于,從全網(wǎng)提取與醫(yī)學(xué)領(lǐng)域相關(guān)的結(jié)構(gòu)化、半結(jié)構(gòu)化與非結(jié)構(gòu)化的數(shù)據(jù),并利用深度學(xué)習(xí)技術(shù)從中抽取出相關(guān)信息,最終完成垂直醫(yī)療領(lǐng)域的知識圖譜構(gòu)建任務(wù);
該方法具體包括以下步驟:
(1)從數(shù)據(jù)源獲取醫(yī)療領(lǐng)域相關(guān)數(shù)據(jù)
獲得包括百科類站點、醫(yī)療領(lǐng)域類站點和醫(yī)療專業(yè)名詞庫的數(shù)據(jù);其中,對結(jié)構(gòu)化數(shù)據(jù)直接存儲以作為后續(xù)的訓(xùn)練集,對于非結(jié)構(gòu)化數(shù)據(jù)在存儲后用于后續(xù)的知識單元抽?。?/p>
(2)知識單元抽取
使用分詞工具對非結(jié)構(gòu)化數(shù)據(jù)進行分詞,然后使用循環(huán)神經(jīng)網(wǎng)絡(luò)完成序列標(biāo)注任務(wù),根據(jù)序列標(biāo)注的結(jié)果識別出醫(yī)療相關(guān)的實體,實現(xiàn)知識單元的抽??;
(3)知識單元間關(guān)系識別
對知識單元抽取過程中得到的實體進行特征向量的構(gòu)建,然后使用循環(huán)神經(jīng)網(wǎng)絡(luò)進行序列標(biāo)注,并根據(jù)序列標(biāo)注的結(jié)果完成知識單元間關(guān)系的識別;
(4)實體對齊
查找具有不同標(biāo)識實體但代表同一對象的實體,并將其歸并為具有全局唯一標(biāo)識的實體對象添加到知識圖譜中;
(5)知識圖譜的構(gòu)建
利用提取的實體以及實體之間的關(guān)系構(gòu)建知識圖譜。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,從數(shù)據(jù)源獲取醫(yī)療領(lǐng)域相關(guān)數(shù)據(jù)時,若缺少結(jié)構(gòu)化數(shù)據(jù),則直接提取其中所有的內(nèi)容作為非結(jié)構(gòu)化數(shù)據(jù)存儲;若為半結(jié)構(gòu)化數(shù)據(jù),則按照小標(biāo)題名、屬性名和相關(guān)鏈接名的關(guān)系進行存儲。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,在知識單元抽取這一步驟中,先訓(xùn)練出適用的神經(jīng)網(wǎng)絡(luò)以用于序列標(biāo)注;具體包括:
(1)通過對實體的特征進行構(gòu)造,得到實體的特征向量;
(2)結(jié)合已收集的結(jié)構(gòu)化數(shù)據(jù)對訓(xùn)練集進行標(biāo)注;
(3)訓(xùn)練神經(jīng)網(wǎng)絡(luò),得到一個能對非結(jié)構(gòu)化數(shù)據(jù)分詞結(jié)果進行標(biāo)注的循環(huán)神經(jīng)網(wǎng)絡(luò);
所述對實體的特征進行構(gòu)造,是指針對醫(yī)療領(lǐng)域的實體特點來定義特征,并構(gòu)造特征向量;所述特征是指基于上下文的特征、基于語義標(biāo)簽的特征或基于醫(yī)學(xué)詞典的詞向量特征中的任意一種。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,在知識單元間關(guān)系識別這一步驟中,先訓(xùn)練出適用的神經(jīng)網(wǎng)絡(luò)以用于序列標(biāo)注;具體包括:
(1)根據(jù)知識單元抽取步驟中獲得的實體識別結(jié)果,提取語料中所有的實體對;通過對實體對的體征進行構(gòu)造,得到實體對的特征向量;
(2)結(jié)合已收集的結(jié)構(gòu)化數(shù)據(jù)構(gòu)成的語義關(guān)系網(wǎng)絡(luò)進行自動標(biāo)注,其余的實體則按照多數(shù)原則進行標(biāo)注;
(3)將已標(biāo)注的數(shù)據(jù)集的70%作為訓(xùn)練集進行循環(huán)神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)訓(xùn)練,在訓(xùn)練收斂后,用剩下的30%進行測試,并根據(jù)測試結(jié)果來調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)或訓(xùn)練參數(shù);訓(xùn)練完成后,再利用循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)合收集到的非結(jié)構(gòu)化數(shù)據(jù)對知識單元抽取出來的實體進行關(guān)系標(biāo)注;
所述對實體的特征進行構(gòu)造,是指針對醫(yī)療領(lǐng)域的實體特點來定義特征,并構(gòu)造特征向量;所述特征是指基于上下文的特征、基于語義標(biāo)簽的特征或基于醫(yī)學(xué)詞典的詞向量特征中的任意一種。
5.根據(jù)權(quán)利要求3或4所述的方法,其特征在于,所述基于上下文的特征是指:
文本中單詞的含義與這個單詞在文本中出現(xiàn)位置前后的單詞有很大關(guān)聯(lián),在對醫(yī)學(xué)領(lǐng)域?qū)嶓w進行識別時,以目標(biāo)詞為中心,前后的若干個單詞為該詞的上下文,并將其作為該詞的特征使用;
對于任意文檔d以及文檔d中的每一個詞w,定義上下文窗口context=[-t,+t],應(yīng)用上下文特征集合提取算法得到每一個w對應(yīng)的上下文特征fctx(w);
將語料庫corpus中所有文檔中的每個詞w對應(yīng)的上下文特征fctx(w)匯總,即可得到該語料庫的全部特征集合Fctx(corpus);
由于每次抽取多個單詞組成一個特征導(dǎo)致特征的稀疏程度較大,而多數(shù)文檔僅包含幾個特征并且每個特征僅出現(xiàn)一次,故采用二元值{0,1}而非特征的頻率定義特征在向量中的分量值;
設(shè)語料庫中全部文檔抽取得到全部特征的集合為Fctx(corpus),則對于該語料庫下述公式將特征集合fctx(w)轉(zhuǎn)化為特征向量vctx(w):
其中i=1,…,|Fctx(corpus)|,表示特征的總個數(shù);Vctx(w)為單詞w的上下文特征向量;為Vctx(w)的第i個分量;fi為特征向量第i個分量對應(yīng)的特征。
6.根據(jù)權(quán)利要求3或4所述的方法,其特征在于,所述基于語義標(biāo)簽的特征是指:
單詞在文本中的語義類別和文檔中單詞間的依賴關(guān)系能提供關(guān)于單詞更多的信息,因此在醫(yī)學(xué)實體識別的過程中以目標(biāo)詞為中心詞,檢查相關(guān)的語義類別和依賴關(guān)系;
在分詞階段使用語法解析工具Stanford Parser作為分詞工具,以分詞結(jié)果中的POS標(biāo)簽作為語義類別,以結(jié)果中的依賴列表作為依賴關(guān)系,相似的語義標(biāo)簽歸為一類;
定義一個窗口大小為t的窗口[-t,+t],在這個窗口中,在目標(biāo)詞w之前的單詞的標(biāo)簽作為目標(biāo)詞的前綴prefix,在目標(biāo)詞之后的單詞的標(biāo)簽作為目標(biāo)詞w的后綴suffix,具體如下式所示:
prefix={(POSprefix,POSw)}
suffix={(POSw,POSprefix)}
利用語義標(biāo)簽特征集合提取算法得到每個單詞的語義標(biāo)簽特征,對所有文檔進行如上的操作即可得到所有w的全部特征集合FPOS(corpus);
所述語義標(biāo)簽特征集合提取算法是指:在選取了語料庫corpus以及從語料庫中提取出prefix與suffix語義標(biāo)簽集合之后,利用如下的步驟得到最終每個目標(biāo)詞w對應(yīng)的語義標(biāo)簽特征集合fpos(w):
(1)設(shè)置fpos(w)為空集;
(2)對語料庫的每個文檔中的單詞進行遍歷,設(shè)定當(dāng)前單詞為wk;
(3)對于處于[k-t,k-1]這個窗口中的單詞wprefix,如果wprefix對應(yīng)的語義標(biāo)簽POSprefix以及當(dāng)前單詞wk所對應(yīng)的語義標(biāo)簽POSk的組合屬于prefix語義標(biāo)簽集合,則將(POSprefix,wk)添加至fpos(w);
(4)對于處于[k+1,k+t]這個窗口中的單詞wsuffix,如果wsuffix對應(yīng)的語義標(biāo)簽POSsuffix以及當(dāng)前單詞wk所對應(yīng)的語義標(biāo)簽POSk的組合屬于suffix語義標(biāo)簽集合,則將(wk,POSsuffix)添加至fpos(w);
采用二元值{0,1}來定義特征在向量中的分量值,設(shè)語料庫中全部文檔抽取得到全部特征的集合為FPOS(corpus),則通過這個特征集合將每個目標(biāo)詞所對應(yīng)的特征集合fpos(w)轉(zhuǎn)化為特征向量vpos(w)。
7.根據(jù)權(quán)利要求3或4所述的方法,其特征在于,所述基于醫(yī)學(xué)詞典的詞向量特征是指:利用國際疾病分類詞典《疾病和有關(guān)健康問題的國際統(tǒng)計分類》中所收錄的醫(yī)學(xué)領(lǐng)域的疾病詞匯,結(jié)合word2vec軟件來構(gòu)造與疾病相關(guān)的醫(yī)學(xué)名詞所對應(yīng)的特征向量。
8.根據(jù)權(quán)利要求3所述的方法,其特征在于,在實體識別過程中,通過使用長短時記憶模型或者門控循環(huán)單元來替循環(huán)神經(jīng)網(wǎng)絡(luò)中的隱層單元,以用于長距離依賴的場景。