如下公式所示:
[0027]
[0028]
[0029]
[0030] 本發(fā)明技術(shù)方案針對(duì)中醫(yī)針灸領(lǐng)域文獻(xiàn)的特點(diǎn),構(gòu)建中醫(yī)針灸領(lǐng)域?qū)嶓w關(guān)系抽取 模型。該模型較好地完成了在中醫(yī)針灸領(lǐng)域文獻(xiàn)中抽取中醫(yī)針灸領(lǐng)域?qū)嶓w關(guān)系的任務(wù),DM、 HM、AM和DRM實(shí)體關(guān)系分類模型的F值分別達(dá)到了 93. 25%、87. 19%、86. 57%和84. 57%
[0031] 術(shù)語(yǔ)解釋:
[0032] (1)中醫(yī)針灸領(lǐng)域命名實(shí)體:中醫(yī)針灸領(lǐng)域文本中特定的事實(shí)信息稱之為中醫(yī)針 灸領(lǐng)域命名實(shí)體。本技術(shù)方案將中醫(yī)針灸領(lǐng)域命名實(shí)體定義為如下五類:
[0033] ①疾病命名實(shí)體:限定指示具體的疾病名稱。如:肩周炎、冠心病、頸椎病等。
[0034] ②養(yǎng)生保健命名實(shí)體:限定指示具體的與養(yǎng)生保健相關(guān)的事實(shí)信息。例如:機(jī)體 免疫功能、體質(zhì)、微循環(huán)、脾胃功能、瘀、氣、陽(yáng)、血沉等。
[0035] ③治療與保健方法命名實(shí)體:限定指示具體的疾病治療方法或保健方法名稱,一 般指針灸療法術(shù)語(yǔ)或針灸用具術(shù)語(yǔ)。例如:牽引、針刺、腹針、激光耳針、穴位注射、電磁波、 濕針重灸、毫針刺、循經(jīng)取穴深針透穴刺法、電針等。
[0036] ④經(jīng)絡(luò)穴位命名實(shí)體:限定指示具體的人體經(jīng)絡(luò)與穴位術(shù)語(yǔ)。例如:神門(mén)穴、腰夾 脊穴、命門(mén)、腰陽(yáng)關(guān)、腎俞、下肢膽經(jīng)、膀胱經(jīng)穴等。
[0037] ⑤藥物命名實(shí)體:限定指示具體的用于疾病治療或保健的藥物名稱。例如:當(dāng)歸 注射液、白芥子散、胞二磷膽堿、蜂毒、復(fù)方丹參、輔酶A等。
[0038] (2)中醫(yī)針灸領(lǐng)域?qū)嶓w關(guān)系:中醫(yī)針灸領(lǐng)域文獻(xiàn)中句子范圍內(nèi)的2個(gè)中醫(yī)針灸領(lǐng) 域命名實(shí)體之間存在的語(yǔ)義關(guān)系,稱之為中醫(yī)針灸領(lǐng)域?qū)嶓w關(guān)系。本技術(shù)方案將中醫(yī)針灸 領(lǐng)域?qū)嶓w關(guān)系定義為如下四類:
[0039] ①疾病-治療方法實(shí)體關(guān)系:疾病-治療方法實(shí)體關(guān)系獲取2個(gè)中醫(yī)針灸領(lǐng)域命 名實(shí)體之間存在的治療語(yǔ)義關(guān)系,用以指示以什么方法或用什么藥物或什么穴位對(duì)什么疾 病有治療作用。例如,"本文介紹了近十年來(lái)針灸治療肩周炎的研究進(jìn)展情況",在這個(gè)句子 中,命名實(shí)體"針灸"和"肩周炎"之間存在疾病-治療方法實(shí)體語(yǔ)義關(guān)系。
[0040] ②養(yǎng)生保健-方法實(shí)體關(guān)系:養(yǎng)生保健-方法實(shí)體關(guān)系獲取2個(gè)中醫(yī)針灸領(lǐng)域命 名實(shí)體之間存在的養(yǎng)生保健語(yǔ)義關(guān)系,用以指示以什么方法或用什么藥物或什么穴位有養(yǎng) 生保健作用。例如,"探討在支氣管哮喘緩解期采用三伏灸預(yù)防哮喘發(fā)作與年齡、病程的關(guān) 系",在這個(gè)句子中,命名實(shí)體"三伏灸"和"哮喘"之間存在養(yǎng)生保健-方法實(shí)體語(yǔ)義關(guān)系。
[0041] ③經(jīng)絡(luò)穴位-方法實(shí)體關(guān)系:經(jīng)絡(luò)穴位-方法實(shí)體關(guān)系獲取2個(gè)中醫(yī)針灸領(lǐng)域命 名實(shí)體之間存在的經(jīng)絡(luò)穴位與治療保健方法之間的語(yǔ)義關(guān)系,用以指示以什么方法作用在 什么經(jīng)絡(luò)或穴位上有治療或保健的作用。例如,"督脈電針電場(chǎng)治療大鼠的半橫斷脊損傷, 是一種簡(jiǎn)便、安全、療效確實(shí)的治療方法",在這個(gè)句子中,命名實(shí)體"督脈"和"電針"之間存 在經(jīng)絡(luò)穴位-方法實(shí)體關(guān)系。
[0042] ④藥物-方法實(shí)體關(guān)系:藥物-方法實(shí)體關(guān)系獲取2個(gè)中醫(yī)針灸領(lǐng)域命名實(shí)體之 間存在的藥物與治療保健方法之間的語(yǔ)義關(guān)系,用以指示以什么方式使用什么藥物有治療 或保健的作用。例如,"本文以復(fù)方丹參注射液和獨(dú)參注射液穴位水針治療冠心病患者102 例",在這個(gè)句子中,命名實(shí)體"復(fù)方丹參注射液"和"穴位水針"之間存在藥物-方法實(shí)體關(guān) 系。
[0043] (3)中醫(yī)針灸領(lǐng)域?qū)嶓w關(guān)系自動(dòng)抽?。菏侵缸詣?dòng)識(shí)別出中醫(yī)針灸領(lǐng)域文獻(xiàn)的語(yǔ)句 范圍內(nèi)用自然語(yǔ)言表達(dá)的兩個(gè)中醫(yī)針灸領(lǐng)域?qū)嶓w之間的語(yǔ)義關(guān)系類別。即,自動(dòng)識(shí)別兩個(gè) 中醫(yī)針灸領(lǐng)域?qū)嶓w之間有無(wú)語(yǔ)義關(guān)系,或?qū)儆谏鲜鲱A(yù)定義的4類中醫(yī)針灸領(lǐng)域?qū)嶓w關(guān)系中 的哪一類。
【附圖說(shuō)明】
[0044] 圖1為本發(fā)明的流程示意圖;
[0045] 圖2為實(shí)施例中的中醫(yī)針灸領(lǐng)域?qū)嶓w關(guān)系特征模板;
[0046] 圖3為實(shí)體關(guān)系向量化程序流程示意圖。
【具體實(shí)施方式】
[0047] 下面結(jié)合附圖對(duì)本發(fā)明的【具體實(shí)施方式】進(jìn)行詳細(xì)的說(shuō)明。
[0048] 實(shí)施例
[0049] 如圖1所示的一種中醫(yī)針灸領(lǐng)域?qū)嶓w關(guān)系自動(dòng)抽取的實(shí)現(xiàn)方法,包括如下步驟:
[0050] ( -)定義中醫(yī)針灸領(lǐng)域命名實(shí)體及實(shí)體關(guān)系類型體系:
[0051] 表1中醫(yī)針灸領(lǐng)域命名實(shí)體類型及其標(biāo)注實(shí)例
[0052]
[0054] 表2中醫(yī)針灸領(lǐng)域?qū)嶓w關(guān)系類型及其標(biāo)注實(shí)例
[0055]
_mj,_
[0056] 本技術(shù)方案通過(guò)分析總結(jié)中醫(yī)針灸領(lǐng)域文本的特點(diǎn),預(yù)定義了 5類中醫(yī)針灸領(lǐng)域 命名實(shí)體類型和4類中醫(yī)針灸領(lǐng)域?qū)嶓w關(guān)系類型。中醫(yī)針灸領(lǐng)域命名實(shí)體類型及其標(biāo)注實(shí) 例如表1所示,中醫(yī)針灸領(lǐng)域?qū)嶓w關(guān)系類型及其標(biāo)注實(shí)例如表2所示。
[0057] (二)構(gòu)建中醫(yī)針灸領(lǐng)域?qū)嶓w關(guān)系語(yǔ)料庫(kù)
[0058] 本技術(shù)方案采用基于特征向量的有監(jiān)督機(jī)器學(xué)習(xí)方法來(lái)構(gòu)建中醫(yī)針灸領(lǐng)域?qū)嶓w 關(guān)系抽取模型。有監(jiān)督方法從訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)模型,對(duì)測(cè)試數(shù)據(jù)的關(guān)系類型進(jìn)行預(yù)測(cè)。 中醫(yī)針灸領(lǐng)域?qū)嶓w關(guān)系語(yǔ)料庫(kù)構(gòu)建步驟如下:1.從網(wǎng)站(http://www.cqvip.com/)上爬取 《針灸臨床雜志》期刊2009至2013年發(fā)表的中醫(yī)針灸領(lǐng)域文獻(xiàn)的摘要信息共有4. 2M;2.從 爬取的摘要信息中隨機(jī)選取350篇;3.按照本技術(shù)方案中預(yù)定義的實(shí)體類型、實(shí)體關(guān)系類 型及其標(biāo)注格式逐句逐篇進(jìn)行人工標(biāo)注,形成一定規(guī)模的中醫(yī)針灸領(lǐng)域?qū)嶓w關(guān)系語(yǔ)料庫(kù)。
[0059] (三)構(gòu)造中醫(yī)針灸領(lǐng)域?qū)嶓w關(guān)系特征模板
[0060] 本技術(shù)方案只考慮中醫(yī)針灸領(lǐng)域語(yǔ)料中一個(gè)句子范圍內(nèi)的兩個(gè)實(shí)體之間的關(guān)系, 對(duì)跨越句子的實(shí)體之間的關(guān)系不進(jìn)行識(shí)別。中醫(yī)針灸領(lǐng)域?qū)嶓w關(guān)系抽取系統(tǒng)的輸入是一個(gè) 句子和句子中已經(jīng)標(biāo)記出的2個(gè)實(shí)體,輸出則是這2個(gè)實(shí)體間的語(yǔ)義關(guān)系。為了捕獲中醫(yī) 針灸領(lǐng)域?qū)嶓w關(guān)系的局部和全局特征,用以構(gòu)建特征向量,提高分類性能,在對(duì)中醫(yī)針灸領(lǐng) 域?qū)嶓w關(guān)系實(shí)例的語(yǔ)境進(jìn)行綜合分析的基礎(chǔ)上,總結(jié)得到了有效描述中醫(yī)針灸領(lǐng)域?qū)嶓w關(guān) 系的詞匯、語(yǔ)法和語(yǔ)義特征,具體包括:
[0061] 1)實(shí)體類型特征。兩個(gè)實(shí)體各自的類型,這個(gè)特征可以從人工標(biāo)注的中醫(yī)針灸領(lǐng) 域語(yǔ)料中獲取。
[0062] 2)實(shí)體所有詞特征。兩個(gè)實(shí)體各自的詞匯。
[0063] 3)實(shí)體上下文特征。2個(gè)實(shí)體各自的前3個(gè)詞、后3個(gè)詞以及這些詞的詞性。
[0064] 4)動(dòng)詞特征。取離實(shí)體2最近的動(dòng)詞,如果滿足條件的有2個(gè)動(dòng)詞,則取實(shí)體2后 面的動(dòng)詞。
[0065] 5)詞距特征。指組成實(shí)體關(guān)系的2個(gè)實(shí)體對(duì)之間的詞數(shù)。詞距為> =0的數(shù)值。
[0066] 6)子句特征。兩個(gè)實(shí)體是否在同一個(gè)子句中,若在同一個(gè)子句中為1,否則為0。 其中子句即從句,它是復(fù)合句的一個(gè)成分,自有其主語(yǔ)和謂語(yǔ)。
[0067] 7)間隔實(shí)體特征。組成實(shí)體關(guān)系的2個(gè)實(shí)體對(duì)之間是否還有其他實(shí)體存在,若存 在其他實(shí)體為1,不存在其他實(shí)體為〇。
[0068] 綜上所述,本方案為中醫(yī)針灸領(lǐng)域語(yǔ)料庫(kù)一個(gè)句子中的任意2個(gè)實(shí)體組成的實(shí)體 對(duì)(E1,E2)構(gòu)造的實(shí)體關(guān)系組合特征模板如圖2所示。
[0069] 其中:El.TYPE表示實(shí)體E1的實(shí)體類型特征;E2.TYPE表示實(shí)體E2的實(shí)體類型 特征;El.TEXT表示E1的實(shí)體所有詞特征,E2.TEXT表示E2的實(shí)體所有詞特征;上欄的 Wi-3,Wi-2,Wi-1,Wi+1,Wi+2和Wi+3表示E1的實(shí)體上下文特征中的詞匯,即E1的前三個(gè) 詞和后三個(gè)詞;上欄的Ti-3,Ti-2,Ti-1,Ti+1,Ti+2和Ti+3表示E1的前三個(gè)詞和后三個(gè)詞 的詞性;下欄的Wj-3,Wj-2,Wj-1,Wj+1,Wj+2和Wj+3表示E2的實(shí)體上下文特征中的詞匯, 即E2的前三個(gè)詞和后三個(gè)詞;下欄的Tj-3,Tj-2,Tj-1,Tj+1,Tj+2和Tj+3表示E2的前三 個(gè)詞和后三個(gè)詞的詞性;
[0070]Verb表示動(dòng)詞特征;Word_Distance表示詞距特征;Clause表示子句特征; Interval表示間隔實(shí)體特征。
[0071