一種中醫(yī)針灸領域實體關系自動抽取的實現(xiàn)方法
【技術領域】
[0001] 本發(fā)明屬于信息技術領域,具體地,本發(fā)明涉及一種中醫(yī)針灸領域實體關系自動 抽取的實現(xiàn)方法。
【背景技術】
[0002] 關系抽取是信息抽取和自然語言理解技術不可缺少的環(huán)節(jié),其主要目的是識別用 自然語言表達的兩個實體之間的語義關系。關系抽取技術的研究對信息檢索、問答系統(tǒng)、信 息過濾、機器翻譯等有非常積極的意義。在生物醫(yī)學領域,關系抽取任務是要實現(xiàn)從生物醫(yī) 學文本中抽取出各種不同的生物醫(yī)學實體(疾病、藥物、基因、蛋白等)之間的語義關系,并 以人們可以理解的方式表示出來,用以幫助生物醫(yī)學研究者解決信息過載的問題。目前, 主流的實體語義關系抽取方式有三種:基于特征向量的機器學習方法、基于核函數(shù)的機器 學習方法以及特征向量與核函數(shù)融合的機器學習方法。有些文獻按照預先設定好的特征模 板,將訓練集和測試集中的實體關系實例數(shù)字化,形成多維的特征向量。然后,用訓練集中 的特征向量訓練支持向量機(SVM)、最大熵(ME)等統(tǒng)計學習模型,用測試集中的特征向量 對得到的模型的實體關系類別預測能力進行評估。該方法的主要研究重點在于如何將語句 中的語法、詞法以及實體的相關特性利用起來,組成最能代表實體對關系的特征向量。有些 文獻將語句的句法結構樹、詞序列等視為處理對象,通過定義樹核函數(shù)和語義序列核函數(shù) 來計算處理對象之間的相似度,從而避免了構建高煒度的特征向量。有些文獻將特征向量 和樹核函數(shù)有效融合,用核方法彌補特征向量無法表示結構特征的缺陷,用特征向量將樹 核函數(shù)擴展到大量數(shù)據(jù),取得了較好的關系抽取效果。有些文獻采用包括詞、關鍵詞、蛋白 質實體名距離、關聯(lián)路徑等特征組合成特征模板,使用支持向量機統(tǒng)計模型來抽取蛋白質 關系。有些文獻將兩個實體所在的句子信息以及兩個實體周圍的局部上下文信息組合在一 起應用于藥物關系抽取,取得了較好的結果。有些文獻用實體在句子中的順序和距離、詞匯 特征以及鏈接語法特征訓練6個SVM分類器,實現(xiàn)疾病、癥狀、檢查和治療之間的實體關系 識別,該研究為電子病歷實體關系抽取研究提供了借鑒。
[0003] 目前,對于在中醫(yī)針灸領域文獻中抽取實體關系的關鍵技術研究還是空白。中醫(yī) 針灸文獻作為針灸醫(yī)學領域成果展示和學術交流的主要載體,其內容組織和知識表達與英 文生物醫(yī)學文獻以及中文通用領域文獻都具有很大的差異性。
[0004] 當前,生物醫(yī)學領域關系抽取任務主要集中在對英文醫(yī)學文獻的關系抽取技術研 究上,如:研究英文生物醫(yī)學文獻中的蛋白質關系抽?。谎芯坑⑽尼t(yī)學文獻中的藥物相互 作用關系抽取。中文實體關系抽取技術研究起步較晚,主要是針對通用領域關系抽取技術 的研究,如:在ACE2005基準語料上進行了中文實體關系自動抽取技術的研究。中醫(yī)針灸 蘊含著中華民族特有的精神、思維和文化精華,涵納著大量的實踐觀察、知識體系和技術技 藝,凝聚著中華民族強大的生命力與創(chuàng)造力,是中華民族智慧的結晶,也是全人類文明的瑰 寶。隨著中醫(yī)針灸領域文獻的快速增長,迫切需要一種有效的工具來高效地利用這些文獻 中所蘊含的知識。本發(fā)明的目的是針對中醫(yī)針灸領域文獻的特點,研究并開發(fā)中醫(yī)針灸領 域實體語義關系抽取系統(tǒng),該系統(tǒng)能從海量的中醫(yī)針灸領域文獻中快速有效地提取針灸領 域實體語義關系,形成結構化的數(shù)據(jù)存入數(shù)據(jù)庫,以幫助中醫(yī)針灸研究者解決信息過載的 問題,推動針灸醫(yī)學的進一步發(fā)展。
【發(fā)明內容】
[0005] 為實現(xiàn)上述目的,本發(fā)明提供了一種中醫(yī)針灸領域實體關系自動抽取的實現(xiàn)方 法。本發(fā)明技術方案針對中醫(yī)針灸領域文獻的特點,構建中醫(yī)針灸領域實體關系抽取模型, 該模型較好地完成了在中醫(yī)針灸領域文獻中抽取中醫(yī)針灸領域實體關系的任務,DM、HM、AM 和DRM實體關系分類模型的F值分別達到了 93. 25%、87. 19%、86. 57%和84. 57%,填補了 相關研究的空白。
[0006] 為達到上述技術效果,本發(fā)明的技術方案是:
[0007] -種中醫(yī)針灸領域實體關系自動抽取的實現(xiàn)方法,包括如下步驟:
[0008] 步驟1)定義中醫(yī)針灸領域命名實體及實體關系類型體系:
[0009] 選擇中醫(yī)詞匯作為實體;對實體進行歸類,將同一類別的實體定義為對應的命名 實體類型;對實體之間的關系進行歸類,將同一類實體關系定義為對應的實體關系類型; 設置命名實體類型和實體關系類型的標注格式;
[0010] 步驟2)構建中醫(yī)針灸領域實體關系語料庫:
[0011] 收集中醫(yī)針灸領域的文獻,然后根據(jù)步驟1)中的命名實體類型和實體關系類型 以及命名實體類型和實體關系類型的標注格式對收集的中醫(yī)針灸領域的文獻進行人工標 注,構建中醫(yī)針灸領域實體關系實例;中醫(yī)針灸領域實體關系實例組成中醫(yī)針灸領域實體 關系語料庫;
[0012] 步驟3)構造中醫(yī)針灸領域實體關系特征模板:
[0013] 構造兩個實體組成的實體對的特征模板;限定只針對處于同一個句子內的兩個實 體間的實體關系類型進行識別,對跨越句子的實體間的實體關系類型不進行識別;將識別 的兩個實體間的實體關系類型構造為特征模板的樣式;特征模板具有多個特征項;
[0014] 步驟4)構建中醫(yī)針灸領域實體關系實例向量化模塊:
[0015] 將中醫(yī)針灸領域實體關系語料庫中人工標注好的中醫(yī)針灸領域實體關系實例按 照步驟3)中構造的特征模板中預先設定好的特征項賦予特征值,形成多維的特征向量;使 用向量空間模型進行實體關系抽??;中醫(yī)針灸領域實體關系實例向量化模塊的輸入是構建 好的中醫(yī)針灸領域實體關系語料庫;中醫(yī)針灸領域實體關系實例向量化模塊的輸出是中醫(yī) 針灸領域實體關系實例向量集;
[0016] 步驟5)中醫(yī)針灸領域實體關系分類模型訓練及評估:
[0017] 構造中醫(yī)針灸領域實體關系分類器,使用分類器評價指標對中醫(yī)針灸領域實體關 系分類器的分類能力進行評價。
[0018] 進一步的改進,所述步驟1)中,命名實體類型包括疾病命名實體、養(yǎng)生保健命名 實體、治療與保健方法命名實體、經(jīng)絡穴位命名實體和藥物命名實體。
[0019] 進一步的改進,所述步驟1)中,實體關系類型包括疾病-治療方法實體關系、養(yǎng)生 保健-方法實體關系、經(jīng)絡穴位-方法實體關系和藥物-方法實體關系。
[0020] 進一步的改進,所述步驟3)中,特征模板包括的特征項有實體類型特征、實體所 有詞特征、實體上下文特征、動詞特征、詞距特征、子句特征和間隔實體特征;其中實體類型 特征指兩個實體各自的類型;實體所有詞特征指兩個實體各自的詞匯;實體上下文特征指 兩個實體各自前方的3個單詞和后方的3個單詞以及這些單詞的詞性;動詞特征指取兩個 實體中與處于后方的實體距離最近的動詞,若有兩個動詞滿足條件,則取處于后方的動詞; 詞距特征指兩個實體之間的詞匯數(shù);子句特征指兩個實體是否在同一個子句中,若在同一 個子句中則為1,若不在同一個子句中則為〇 ;間隔實體特征指組成實體關系的兩個實體之 間是否還有其它實體,若有其它實體則為1,若沒有其它實體則為0。
[0021] 進一步的改進,所述實體上下文特征指兩個實體各自前方的3個單詞和后方的3 個單詞以及這些單詞的詞性。
[0022] 進一步的改進,所述步驟4)中,中醫(yī)針灸領域實體關系實例向量化模塊將人工標 注的中醫(yī)針灸領域實體關系語料庫轉化為ACE格式文件。
[0023] 進一步的改進,所述步驟4)中,使用從中醫(yī)針灸領域實體關系語料庫中抽取出人 工標注的中醫(yī)針灸領域實體實例,形成實體集,以實體集作為訓練語料庫訓練分詞工具,使 用訓練過的分詞工具對中醫(yī)針灸領域實體關系語料庫進行分詞和詞性標注。
[0024] 進一步的改進,所述步驟5)中,使用SVM算法構造中醫(yī)針灸領域實體關系分類器。
[0025] 進一步的改進,將中醫(yī)針灸領域實體關系實例向量集劃分為訓練集和測試集,然 后采用訓練集訓練中醫(yī)針灸領域實體關系分類模型,使中醫(yī)針灸領域實體關系分類模型在 給定的數(shù)據(jù)表示下得到可判別的效果;最后,在測試集上評估中醫(yī)針灸領域實體關系分類 模型對中醫(yī)針灸領域實體關系類型的預測能力。
[0026] 進一步的改進,所述步驟5)中,分類器評價指標包括:準確率(P)、召回率(R)和 F-值,具體定義