亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種中醫(yī)針灸領(lǐng)域事件觸發(fā)詞的自動抽取方法及系統(tǒng)與流程

文檔序號:11458669閱讀:427來源:國知局
一種中醫(yī)針灸領(lǐng)域事件觸發(fā)詞的自動抽取方法及系統(tǒng)與流程

本發(fā)明涉及一種中醫(yī)(即中文醫(yī)學)針灸領(lǐng)域信息抽取方法及工具,特別涉及一種中醫(yī)針灸領(lǐng)域事件觸發(fā)詞的抽取方法和系統(tǒng)。



背景技術(shù):

事件抽取[1-2]是層次較高的信息抽取研究任務,其目的是從海量數(shù)據(jù)文本中自動地識別出人們感興趣的事件信息,并將這些信息轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)呈現(xiàn)出來。事件觸發(fā)詞識別即是事件類別的識別,在事件抽取任務中起著關(guān)鍵的作用。主流的事件觸發(fā)詞抽取方法主要有三種:基于規(guī)則的方法[3-5]、基于詞典匹配的方法[6-8]和基于機器學習的方法[9-12]

基于規(guī)則的方法根據(jù)所處理語料的語言特征和領(lǐng)域特征事先定義好一組泛化的規(guī)則,利用規(guī)則匹配來抽取觸發(fā)詞。比如,文獻[3]中用詞干處理后的規(guī)則來抽取文本中的生物醫(yī)學事件觸發(fā)詞?;谝?guī)則的觸發(fā)詞識別模型非常依賴于人工編寫規(guī)則的覆蓋率,規(guī)則覆蓋不到的觸發(fā)詞識別不到,該類模型有較高的準確率,但是召回率較低,可移植性較差。

基于詞典匹配的方法是指利用訓練語料中人工標注的觸發(fā)詞建立觸發(fā)詞字典,通過該字典判斷其他詞語是否為觸發(fā)詞。比如,文獻[6]中抽取訓練語料中所有的觸發(fā)詞,建立初始的觸發(fā)詞字典;采用同義詞詞林擴展該字典,構(gòu)建一個較完整的觸發(fā)詞字典;利用此字典判斷候選觸發(fā)詞集中的詞語是否為事件觸發(fā)詞。該方法是一種典型的經(jīng)驗方法,有較高的召回率,但準確率較低,且要求訓練語料規(guī)模足夠大、足夠經(jīng)典。

基于機器學習的方法把觸發(fā)詞識別任務看作是分類問題或序列標注問題,應用大量的特征和標注數(shù)據(jù),建立統(tǒng)計機器學習模型,實現(xiàn)對樣本實例的確定。比如,文獻[9]中利用二值分類器判別句子中的詞是否為觸發(fā)詞,若是,則使用多元分類器對其分類,獲得事件類型;文獻[10]中采用詞匯及其上下文特征、短語標記特征、詞聚類特征以及統(tǒng)計的詞典特征構(gòu)造不同的基于詞級的crf模型,用于生物事件觸發(fā)詞的標注。機器學習方法比較客觀,且不需要太多的人工干預和領(lǐng)域知識,但要求訓練語料和測試語料必須滿足一定的規(guī)模才能保證識別結(jié)果的精確率。

近年來,國內(nèi)外學者針對英文生物醫(yī)學事件以及中文通用領(lǐng)域事件的抽取進行了研究和實驗,取得了一些有價值的研究成果。如:tranmv等[13]在cg(cancergenetics)語料庫中研究生物醫(yī)學事件抽?。粃hengchen等[14]在ace標注語料庫中研究中文通用領(lǐng)域事件抽取。然而,由于中文的語言特征以及在中醫(yī)針灸領(lǐng)域文本中頻繁出現(xiàn)的單字詞和成語,如:“灸”、“刺”、“抗”、“疏肝理氣”、“通經(jīng)活絡”等,阻礙了英文生物醫(yī)學領(lǐng)域、中文通用領(lǐng)域已經(jīng)取得的事件抽取技術(shù)研究成果在中醫(yī)針灸領(lǐng)域事件抽取中的應用。迄今為止,尚無中醫(yī)針灸領(lǐng)域事件信息抽取系統(tǒng)面世,中醫(yī)針灸領(lǐng)域事件抽取技術(shù)方面的相關(guān)研究論文也罕見報道。中醫(yī)針灸蘊含著中華民族特有的精神、思維和文化精華,涵納著大量的實踐觀察、知識體系和技術(shù)技藝,凝聚著中華民族強大的生命力與創(chuàng)造力,是中華民族智慧的結(jié)晶,也是全人類文明的瑰寶。隨著中醫(yī)針灸領(lǐng)域文獻的快速增長,迫切需要一種有效的工具來高效地利用這些文獻中所蘊含的知識。

術(shù)語解釋:

(1)中醫(yī)針灸事件:在中醫(yī)針灸領(lǐng)域文本中,明確出現(xiàn)了與針灸治療或保健事實相關(guān)的文字表述的句子稱之為中醫(yī)針灸事件表述語句或中醫(yī)針灸事件。中醫(yī)針灸事件包括中醫(yī)針灸事件觸發(fā)詞和中醫(yī)針灸事件元素。在中醫(yī)針灸事件中,最能清晰表達中醫(yī)針灸治療或保健事實發(fā)生的詞語稱之為中醫(yī)針灸事件觸發(fā)詞。中醫(yī)針灸事件可以有多個事件元素,它們是滿足特定角色的中醫(yī)針灸領(lǐng)域命名實體。本發(fā)明中定義的2類中醫(yī)針灸事件如下:

①保健事件:指句子中出現(xiàn)了與中醫(yī)針灸保健事實相關(guān)的文字表述。保健事件觸發(fā)詞是該類事件表述語句中指標性的詞語,保健事件中可以出現(xiàn)的7類事件元素包括:藥物元素drug-arg、中醫(yī)施術(shù)方法元素method-arg、穴位元素acupoint-arg、工具元素instrument-arg、時間元素time-arg、健康元素health-arg和疾病元素disease-arg。

保健事件人工標注示例:<method-arg>推拿</method-arg>能<health-trigger>緩解</health-trigger><disease-arg>梨狀肌痙攣</disease-arg>,<health-trigger>改善</health-trigger>局部的<health-arg>血液循環(huán)</health-arg>。

②治療事件:指句子中出現(xiàn)了與中醫(yī)針灸治療疾病相關(guān)的文字表述。治療事件觸發(fā)詞是該類事件表述語句中指標性的詞語,治療事件中可以出現(xiàn)的6類事件元素包括:藥物元素drug-arg、穴位元素acupoint-arg、中醫(yī)施術(shù)方法元素method-arg、工具元素instrument-arg、時間元素time-arg和疾病元素disease-arg。

治療事件人工標注示例:本文介紹了近十年來<method-arg>針灸</method-arg><cure-trigger>治療</cure-trigger><disease-arg>肩周炎</disease-arg>的研究進展情況。

(2)中醫(yī)針灸領(lǐng)域命名實體:中醫(yī)針灸領(lǐng)域文本中特定的事實信息稱之為中醫(yī)針灸領(lǐng)域命名實體。

①疾病命名實體:限定指示具體的疾病名稱。如:肩周炎、冠心病、頸椎病等。

②養(yǎng)生保健命名實體:限定指示具體的與養(yǎng)生保健相關(guān)的事實信息。例如:機體免疫功能、體質(zhì)、微循環(huán)、脾胃功能、瘀、氣、陽、血沉等。

③治療與保健方法命名實體:限定指示具體的疾病治療方法或保健方法名稱,一般指針灸療法術(shù)語。例如:牽引、針刺、腹針、激光耳針、穴位注射、電磁波、濕針重灸、毫針刺、循經(jīng)取穴深針透穴刺法、電針等。

④經(jīng)絡穴位命名實體:限定指示具體的人體經(jīng)絡與穴位術(shù)語。例如:神門穴、腰夾脊穴、命門、腰陽關(guān)、腎俞、下肢膽經(jīng)、膀胱經(jīng)穴等。

⑤藥物命名實體:限定指示具體的用于疾病治療或保健的藥物名稱。例如:當歸注射液、白芥子散、胞二磷膽堿、蜂毒、復方丹參、輔酶a等。

(3)中醫(yī)針灸事件觸發(fā)詞自動抽取:在中醫(yī)針灸領(lǐng)域文本集中,逐篇逐句地自動判別中醫(yī)針灸領(lǐng)域文本的句子中是否含有某類中醫(yī)針灸事件觸發(fā)詞的過程稱之為中醫(yī)針灸事件觸發(fā)詞自動抽取。即,逐篇逐句自動檢測中醫(yī)針灸領(lǐng)域文本的句子是否為中醫(yī)針灸事件表述語句,并正確分類中醫(yī)針灸事件表述語句的過程。

參考文獻:

[1]lip,zhuq,zhoug.employingeventinferencetoimprovesemi-supervisedchineseeventextraction[c]//coling.2014:2161-2171.

[2]shal,liuj,lincy,etal.rbpb:regularization-basedpatternbalancingmethodforeventextraction[c]//proceedingsofthe54thannualmeetingoftheassociationforcomputationallinguistics.2016,1:1224-1234.

[3]casillasa,deilarrazaad,gojenolak,etal.usingkybotsforextractingeventsinbiomedicaltexts[c]//proceedingsofthebionlpsharedtask2011workshop.associationforcomputationallinguistics,2011:138-142.

[4]cohenkb,verspoork,johnsonhl,etal.high-precisionbiologicaleventextractionwithaconceptrecognizer[c]//proceedingsoftheworkshoponcurrenttrendsinbiomedicalnaturallanguageprocessing:sharedtask.associationforcomputationallinguistics,2009:50-58.

[5]leminhq,truongsn,baoqh.apatternapproachforbiomedicaleventannotation[c]//proceedingsofthebionlpsharedtask2011workshop.associationforcomputationallinguistics,2011:149-150.

[6]tianl,maw,wenz.automaticeventtriggerwordextractioninchineseevent[j].journalofsoftwareengineeringandapplications,2012,5:208-212.

[7]buykoe,faesslere,wermterj,etal.eventextractionfromtrimmeddependencygraphs[c]//proceedingsoftheworkshoponcurrenttrendsinbiomedicalnaturallanguageprocessing:sharedtask.associationforcomputationallinguistics,2009:19-27.

[8]vlachosa,butteryp,séaghdhado,etal.biomedicaleventextractionwithouttrainingdata[c]//proceedingsoftheworkshoponcurrenttrendsinbiomedicalnaturallanguageprocessing:sharedtask.associationforcomputationallinguistics,2009:37-40.

[9]ahnd.thestagesofeventextraction[c]//proceedingsoftheworkshoponannotatingandreasoningabouttimeandevents.associationforcomputationallinguistics,2006:1-8.

[10]weixiao_mei,huangyu,chenbo,etal.researchontaggingbiomedicaleventtrigger[j].computerscience,2015,42(10):239-243.

[11]j,heimonenj,ginterf,etal.extractingcomplexbiologicaleventswithrichgraph-basedfeaturesets[c]//proceedingsoftheworkshoponcurrenttrendsinbiomedicalnaturallanguageprocessing:sharedtask.associationforcomputationallinguistics,2009:10-18.

[12]lip,zhoug,zhuq,etal.employingcompositionalsemanticsanddiscourseconsistencyinchineseeventextraction[c]//proceedingsofthe2012jointconferenceonempiricalmethodsinnaturallanguageprocessingandcomputationalnaturallanguagelearning.associationforcomputationallinguistics,2012:1006-1016.

[13]tranmv,lehq,phivt,etal.exploringaprobabilisticearleyparserforeventcompositioninbiomedicaltexts[j].acl2013,2013:130.

[14]chenz,jih.languagespecificissueandfeatureexplorationinchineseeventextraction[c]//proceedingsofhumanlanguagetechnologies:the2009annualconferenceofthenorthamericanchapteroftheassociationforcomputationallinguistics,companionvolume:shortpapers.associationforcomputationallinguistics,2009:209-212.

[15]linguisticdataconsortium.ace(automaticcontentextraction)chineseannotationguidelinesforevents[j].2005-05-09).https://www.ldc.upenn.edu/projects/ace,2009.



技術(shù)實現(xiàn)要素:

本發(fā)明要解決的技術(shù)問題,在于提供一種中文醫(yī)學針灸領(lǐng)域事件觸發(fā)詞的自動抽取方法和系統(tǒng),能從海量的中醫(yī)針灸領(lǐng)域文獻中逐句自動地識別句子中是否含有中醫(yī)針灸領(lǐng)域事件觸發(fā)詞并確定觸發(fā)詞的類別,為下一步抽取中醫(yī)針灸領(lǐng)域事件的研究奠定基礎(chǔ)。

本發(fā)明方法是這樣實現(xiàn)的:一種中醫(yī)針灸領(lǐng)域事件觸發(fā)詞的自動抽取方法,包括:

步驟s1、由人工預定義中醫(yī)針灸事件模板;

步驟s2、由人工根據(jù)預定義的中醫(yī)針灸事件模板構(gòu)建中醫(yī)針灸事件的標注語料庫;

步驟s3、設計初始觸發(fā)詞表構(gòu)建法,用于根據(jù)所述標注語料庫構(gòu)建中醫(yī)針灸事件的初始觸發(fā)詞表;

步驟s4、設計觸發(fā)詞擴展算法,用以對所述初始觸發(fā)詞表進行擴展,得到中醫(yī)針灸事件的觸發(fā)詞擴展表;

步驟s5、設計候選觸發(fā)詞抽取算法,用以基于所述中醫(yī)針灸事件觸發(fā)詞擴展表對候選針灸事件的觸發(fā)詞進行抽??;

步驟s6、設計觸發(fā)詞過濾規(guī)則集,用以對候選針灸事件的觸發(fā)詞進行過濾;

步驟s7、將所述初始觸發(fā)詞表構(gòu)建法、觸發(fā)詞擴展算法、候選觸發(fā)詞抽取算法以及觸發(fā)詞過濾規(guī)則構(gòu)建為觸發(fā)詞自動抽取模型,從而實現(xiàn)中醫(yī)針灸領(lǐng)域事件觸發(fā)詞的自動抽取。

其中,該標注語料庫包括訓練集和測試集,其中,訓練集用于構(gòu)建所述初始觸發(fā)詞表,測試集用于測試評估所述觸發(fā)詞自動抽取模型;本發(fā)明方法還包括步驟s8、在所述測試集上對所述觸發(fā)詞自動抽取模型采用準確率p、召回率r和f-值三個通用的測評指標進行評價,該三個通用的測評指標的具體定義如下公式所示:

進一步的,所述步驟s1是通過對中醫(yī)針灸領(lǐng)域文本的分析,同時借鑒ace語料庫中文通用領(lǐng)域事件的定義以及中文事件的標注方法[15],預定義了治療事件模板和保健事件模板,所述治療事件模板和保健事件模板即構(gòu)成所述中醫(yī)針灸事件模板。

進一步的,所述步驟s2中醫(yī)針灸領(lǐng)域事件的標注語料庫的構(gòu)建步驟:

(1)從網(wǎng)站上爬取一定時期發(fā)表的中醫(yī)針灸領(lǐng)域文獻的摘要信息;

(2)從爬取的摘要信息中隨機選取多篇文獻;

(3)按照預定義的中醫(yī)針灸事件模板及其標注格式逐篇逐句進行人工標注,分別構(gòu)建訓練集和測試集,形成所述標注語料庫。

進一步的,所述步驟s3的初始觸發(fā)詞表構(gòu)建法是:分析所述訓練集,逐篇逐句收集人工標注的中醫(yī)針灸事件觸發(fā)詞及其類別,在訓練語料范圍內(nèi)統(tǒng)計每個觸發(fā)詞觸發(fā)事件的個數(shù)、觸發(fā)詞出現(xiàn)在句子中的個數(shù)、各種事件類型出現(xiàn)的個數(shù)以及句子總數(shù)的信息,并利用這些統(tǒng)計量計算各個事件觸發(fā)詞的權(quán)重,從而構(gòu)建的初始中醫(yī)針灸事件觸發(fā)詞表;

所述事件觸發(fā)詞的權(quán)重的計算公式為:scorei=tf(wi)*idf(wi)(1);

其中,tf為詞頻,表示某個觸發(fā)詞wi對該觸發(fā)詞所屬事件類別的貢獻程度,idf為逆向文件頻率,表示觸發(fā)詞wi在訓練語料中出現(xiàn)的頻度;

tf的計算公式為:tf(wi)=ni/mi(2);其中,ni為觸發(fā)詞wi在所有訓練語料中觸發(fā)的某類事件的個數(shù),mi為訓練語料中該類事件的總個數(shù);

idf的計算公式為:其中,ni為訓練語料中句子總數(shù),mi為訓練語料中含有觸發(fā)詞wi的句子數(shù)。

進一步的,所述觸發(fā)詞擴展算法為:

1)將同義詞詞林中詞語編碼前四級相同,且第八位標記為“=”的詞語進行聚類,構(gòu)造詞語→編碼映射、編碼→同義詞詞語的集合映射;

2)處理所述訓練集中的分詞摘要文本集,收集其中的動詞和名詞,構(gòu)造動詞與名詞詞語集合;

3)依次處理所述初始觸發(fā)詞表中的每個觸發(fā)詞wi,將wi映射到與其編碼相同的同義詞集合,并利用動詞與名詞詞語集合過濾該同義詞集合中非動詞與非名詞性的詞語;

4)將過濾后的同義詞集合中的詞語加入到待擴充的事件觸發(fā)詞表中,并將這些詞語的事件類型、權(quán)重值設置為與觸發(fā)詞wi相同;

5)轉(zhuǎn)至所述第3)步,直至初始觸發(fā)詞表中的觸發(fā)詞處理完畢;

6)將待擴充的事件觸發(fā)詞表與初始觸發(fā)詞表合并,獲得中醫(yī)針灸事件的觸發(fā)詞擴展表。

進一步的,所述步驟s5中候選觸發(fā)詞抽取算法具體是:

1)對所述測試集中的測試語料進行分句,逐句提取人工標注的觸發(fā)詞及其類型,構(gòu)建測試語料中針灸事件觸發(fā)詞標準集,并統(tǒng)計各類標準觸發(fā)詞計數(shù);

2)逐句逐詞檢查未標注測試摘要文本集中的詞語是否存在于中醫(yī)針灸事件觸發(fā)詞擴展表中,若存在且權(quán)重大于設定的閾值,則判定該詞語為候選針灸事件觸發(fā)詞,并通過查表確定該觸發(fā)詞的類型;

3)將該觸發(fā)詞及其類型加入候選針灸事件觸發(fā)詞集合,并增加相應類別的識別觸發(fā)詞計數(shù);

4)將識別觸發(fā)詞及其類型與標準觸發(fā)詞及其類型比對,判斷識別的正確與否,若正確,則增加相應類別的正確識別觸發(fā)詞計數(shù);

5)轉(zhuǎn)到第2)步,直至測試語料處理完畢。

進一步的,所述觸發(fā)詞過濾規(guī)則包括:

規(guī)則1:針對候選針灸事件觸發(fā)詞集中的<cure>類別的觸發(fā)詞,若其左右近鄰不存在集合{<disease>、<method>}類別的命名實體,則丟棄該觸發(fā)詞;

規(guī)則2:針對候選針灸事件觸發(fā)詞集中的<health>類別的觸發(fā)詞,若其左右近鄰不存在集合{<health>、<method>、<disease>}類別的命名實體,則丟棄該觸發(fā)詞。

本發(fā)明系統(tǒng)是這樣實現(xiàn)的:一種中醫(yī)針灸領(lǐng)域事件觸發(fā)詞的自動抽取系統(tǒng),包括:

語料預處理模塊,用于對預先構(gòu)建好的標注語料庫進行預處理,包括噪聲消除、分詞、詞性標注;其中,所述標注語料庫是人工根據(jù)預定義的中醫(yī)針灸事件模板進行構(gòu)建所得;

候選觸發(fā)詞抽取模塊,用于根據(jù)所述標注語料庫構(gòu)建中醫(yī)針灸事件的初始觸發(fā)詞表;再對所述初始觸發(fā)詞表進行擴展,得到中醫(yī)針灸事件的觸發(fā)詞擴展表;然后基于所述中醫(yī)針灸事件觸發(fā)詞擴展表對候選針灸事件的觸發(fā)詞進行抽取;

觸發(fā)詞過濾模塊,用于通過觸發(fā)詞過濾規(guī)則集對候選針灸事件的觸發(fā)詞進行過濾。

進一步的,所述標注語料庫包括訓練集和測試集,其中,訓練集用于構(gòu)建所述初始觸發(fā)詞表,測試集用于測試評估所述觸發(fā)詞自動抽取模型;

所述語料預處理模塊分別對訓練集和測試集進行預處理;

所述候選觸發(fā)詞抽取模塊是根據(jù)所述訓練集中人工標注的觸發(fā)詞構(gòu)建中醫(yī)針灸事件的初始觸發(fā)詞表,同時還抽取所述測試集中人工標注的觸發(fā)詞,構(gòu)造觸發(fā)詞標準答案集;并將基于所述中醫(yī)針灸事件觸發(fā)詞擴展表對測試語料中的候選針灸事件觸發(fā)詞進行抽取,抽取結(jié)果與觸發(fā)詞標準答案集進行比較評估,得到評估結(jié)果。

進一步的,所述比較評估是采用準確率p、召回率r和f-值三個通用的測評指標進行,該三個通用的測評指標的具體定義如下公式所示:

進一步的,所述中醫(yī)針灸事件模板的定義過程是:通過對中醫(yī)針灸領(lǐng)域文本的分析,同時借鑒ace語料庫中文通用領(lǐng)域事件的定義以及中文事件的標注方法進行預定義的,該中醫(yī)針灸事件模板包括治療事件模板和保健事件模板。

進一步的,所述標注語料庫構(gòu)建模塊構(gòu)建標注語料庫的步驟為:

(1)從網(wǎng)站上爬取一定時期發(fā)表的中醫(yī)針灸領(lǐng)域文獻的摘要信息;

(2)從爬取的摘要信息中隨機選取多篇文獻;

(3)按照預定義的中醫(yī)針灸事件模板及其標注格式逐篇逐句進行人工標注,分別構(gòu)建訓練集和測試集,形成所述標注語料庫。

進一步的,所述候選觸發(fā)詞抽取模塊構(gòu)建中醫(yī)針灸事件的初始觸發(fā)詞表的過程是:分析所述訓練集,逐篇逐句收集人工標注的中醫(yī)針灸事件觸發(fā)詞及其類別,在訓練語料范圍內(nèi)統(tǒng)計每個觸發(fā)詞觸發(fā)事件的個數(shù)、觸發(fā)詞出現(xiàn)在句子中的個數(shù)、各種事件類型出現(xiàn)的個數(shù)以及句子總數(shù)的信息,并利用這些統(tǒng)計量計算各個事件觸發(fā)詞的權(quán)重,從而構(gòu)建的初始中醫(yī)針灸事件觸發(fā)詞表:

所述事件觸發(fā)詞的權(quán)重的計算公式為:scorei=tf(wi)*idf(wi)(1);

其中,tf為詞頻,表示某個觸發(fā)詞wi對該觸發(fā)詞所屬事件類別的貢獻程度,idf為逆向文件頻率,表示觸發(fā)詞wi在訓練語料中出現(xiàn)的頻度;

tf的計算公式為:tf(wi)=ni/mi(2);其中,ni為觸發(fā)詞wi在所有訓練語料中觸發(fā)的某類事件的個數(shù),mi為訓練語料中該類事件的總個數(shù);

idf的計算公式為:其中,ni為訓練語料中句子總數(shù),mi為訓練語料中含有觸發(fā)詞wi的句子數(shù)。

進一步的,所述候選觸發(fā)詞抽取模塊對中醫(yī)針灸事件觸發(fā)詞表的擴展方法為:

1)將同義詞詞林中詞語編碼前四級相同,且第八位標記為“=”的詞語進行聚類,構(gòu)造詞語→編碼映射、編碼→同義詞詞語的集合映射;

2)處理所述訓練集中的分詞摘要文本集,收集其中的動詞和名詞,構(gòu)造動詞與名詞詞語集合;

3)依次處理中醫(yī)針灸事件的初始觸發(fā)詞表中的每個觸發(fā)詞wi,將wi映射到與其編碼相同的同義詞集合,并利用動詞與名詞詞語集合過濾該同義詞集合中非動詞與非名詞性的詞語;

4)將過濾后的同義詞集合中的詞語加入到待擴充的事件觸發(fā)詞表中,并將這些詞語的事件類型、權(quán)重值設置為與觸發(fā)詞wi相同;

5)轉(zhuǎn)所述第3)步,直至初始觸發(fā)詞表中的觸發(fā)詞處理完畢;

6)將待擴充的事件觸發(fā)詞表與初始觸發(fā)詞表合并,獲得中醫(yī)針灸事件觸發(fā)詞擴展表。

進一步的,所述候選觸發(fā)詞抽取模塊對候選針灸事件的觸發(fā)詞進行抽取的方法如下:

1)對測試語料分句,逐句提取人工標注的觸發(fā)詞及其類型,構(gòu)建測試語料中針灸事件觸發(fā)詞標準集,并統(tǒng)計各類標準觸發(fā)詞計數(shù);

2)逐句逐詞檢查未標注測試摘要文本集中的詞語是否存在于中醫(yī)針灸事件觸發(fā)詞擴展表中,若存在且權(quán)重大于設定的閾值,則判定該詞語為候選針灸事件觸發(fā)詞,并通過查表確定該觸發(fā)詞的類型;

3)將該觸發(fā)詞及其類型加入候選針灸事件觸發(fā)詞集合,并增加相應類別的識別觸發(fā)詞計數(shù);

4)將識別觸發(fā)詞及其類型與標準觸發(fā)詞及其類型比對,判斷識別的正確與否,若正確,則增加相應類別的正確識別觸發(fā)詞計數(shù);

5)轉(zhuǎn)第2)步,直至測試語料處理完畢。

進一步的,所述觸發(fā)詞過濾模塊采用的觸發(fā)詞過濾規(guī)則包括:

規(guī)則1:針對候選針灸事件觸發(fā)詞集中的<cure>類別的觸發(fā)詞,若其左右近鄰不存在集合{<disease>、<method>}類別的命名實體,則丟棄該觸發(fā)詞;

規(guī)則2:針對候選針灸事件觸發(fā)詞集中的<health>類別的觸發(fā)詞,若其左右近鄰不存在集合{<health>、<method>、<disease>}類別的命名實體,則丟棄該觸發(fā)詞。

本發(fā)明具有如下優(yōu)點:與本發(fā)明相近的現(xiàn)有技術(shù)是對英文生物醫(yī)學文獻或中文通用領(lǐng)域文獻的事件觸發(fā)詞抽取技術(shù)的研究。目前,對于在中醫(yī)針灸領(lǐng)域文獻中抽取針灸事件觸發(fā)詞的關(guān)鍵技術(shù)研究還是空白。中醫(yī)針灸文獻作為針灸醫(yī)學領(lǐng)域成果展示和學術(shù)交流的主要載體,其內(nèi)容組織和知識表達與英文生物醫(yī)學文獻以及中文通用領(lǐng)域文獻都具有很大的差異性。本發(fā)明技術(shù)方案針對中醫(yī)針灸領(lǐng)域文獻的特點,構(gòu)建中醫(yī)針灸領(lǐng)域事件觸發(fā)詞抽取模型,該模型較好地完成了在中醫(yī)針灸領(lǐng)域文本集中自動識別中醫(yī)針灸領(lǐng)域文本的句子是否含有某類中醫(yī)針灸事件觸發(fā)詞,即自動檢測中醫(yī)針灸領(lǐng)域文本的句子是否為中醫(yī)針灸事件表述語句,并正確分類中醫(yī)針灸事件表述語句,治療事件與保健事件觸發(fā)詞識別的p、r、f-值分別達到了81.29%、96.58%、88.28%和25.00%、53.85%、34.15%。本發(fā)明填補了中醫(yī)針灸領(lǐng)域事件觸發(fā)詞抽取技術(shù)的空白,對中醫(yī)針灸領(lǐng)域知識網(wǎng)絡的構(gòu)建、疾病治療、中醫(yī)保健、中藥研制以及加快中醫(yī)針灸標準化、現(xiàn)代化、國際化進程均具有重要的意義。

附圖說明

下面參照附圖結(jié)合實施例對本發(fā)明作進一步的說明。

圖1為本發(fā)明方法執(zhí)行流程圖。

圖2為本發(fā)明系統(tǒng)各模塊的執(zhí)行流程示意圖。

具體實施方式

如圖1所示,本發(fā)明的中醫(yī)針灸領(lǐng)域事件觸發(fā)詞的自動抽取方法,包括:

步驟s1、由人工預定義中醫(yī)針灸事件模板;

步驟s2、由人工根據(jù)預定義的中醫(yī)針灸事件模板構(gòu)建中醫(yī)針灸事件的標注語料庫;該標注語料庫包括訓練集和測試集,其中,訓練集用于構(gòu)建所述初始觸發(fā)詞表,測試集用于測試評估所述觸發(fā)詞自動抽取模型;

步驟s3、設計初始觸發(fā)詞表構(gòu)建法,用于根據(jù)所述標注語料庫構(gòu)建中醫(yī)針灸事件的初始觸發(fā)詞表;

步驟s4、設計觸發(fā)詞擴展算法,用以對所述初始觸發(fā)詞表進行擴展,得到中醫(yī)針灸事件的觸發(fā)詞擴展表;

步驟s5、設計候選觸發(fā)詞抽取算法,用以基于所述中醫(yī)針灸事件觸發(fā)詞擴展表對候選針灸事件的觸發(fā)詞進行抽取;

步驟s6、設計觸發(fā)詞過濾規(guī)則,用以通過觸發(fā)詞過濾規(guī)則集對候選針灸事件的觸發(fā)詞進行過濾;

步驟s7、將所述初始觸發(fā)詞表構(gòu)建法、觸發(fā)詞擴展算法、候選觸發(fā)詞抽取算法以及觸發(fā)詞過濾規(guī)則構(gòu)建為觸發(fā)詞自動抽取模型,從而實現(xiàn)中醫(yī)針灸領(lǐng)域事件觸發(fā)詞的自動抽取。

步驟s8、在所述測試集上對所述觸發(fā)詞自動抽取模型采用準確率p、召回率r和f-值三個通用的測評指標進行評價,測評指標的具體定義如下公式所示:

其中,所述步驟s1是通過對中醫(yī)針灸領(lǐng)域文本的分析,同時借鑒ace語料庫中文通用領(lǐng)域事件的定義以及中文事件的標注方法,預定義了治療事件模板和保健事件模板,所述治療事件模板和保健事件模板即構(gòu)成所述中醫(yī)針灸事件模板。中醫(yī)針灸領(lǐng)域事件及其標注示例如表1所示:

表1中醫(yī)針灸領(lǐng)域事件及其標注示例

所述步驟s2中醫(yī)針灸領(lǐng)域事件的標注語料庫的構(gòu)建步驟:

(1)從網(wǎng)站上爬取一定時期發(fā)表的中醫(yī)針灸領(lǐng)域文獻的摘要信息,如從網(wǎng)站http://www.cqvip.com/上爬取《針灸臨床雜志》期刊2009至2013年發(fā)表的中醫(yī)針灸領(lǐng)域文獻的摘要信息共有4.2m;

(2)從爬取的摘要信息中隨機選取多篇文獻;如.從爬取的摘要信息中隨機選取561篇;

(3)按照預定義的中醫(yī)針灸事件模板及其標注格式逐篇逐句進行人工標注,分別構(gòu)建訓練集和測試集,形成所述標注語料庫。

所述步驟s3的初始中醫(yī)針灸事件觸發(fā)詞表的構(gòu)建過程是:分析所述訓練集,逐篇逐句收集人工標注的中醫(yī)針灸事件觸發(fā)詞及其類別,在訓練語料范圍內(nèi)統(tǒng)計每個觸發(fā)詞觸發(fā)事件的個數(shù)、觸發(fā)詞出現(xiàn)在句子中的個數(shù)、各種事件類型出現(xiàn)的個數(shù)以及句子總數(shù)的信息,并利用這些統(tǒng)計量計算各個事件觸發(fā)詞的權(quán)重,從而構(gòu)建的初始中醫(yī)針灸事件觸發(fā)詞表;

所述事件觸發(fā)詞的權(quán)重的計算公式為:scorei=tf(wi)*idf(wi)(1);

其中,tf為詞頻,表示某個觸發(fā)詞wi對該觸發(fā)詞所屬事件類別的貢獻程度,idf為逆向文件頻率,表示觸發(fā)詞wi在訓練語料中出現(xiàn)的頻度;

tf的計算公式為:tf(wi)=ni/mi(2);其中,ni為觸發(fā)詞wi在所有訓練語料中觸發(fā)的某類事件的個數(shù),mi為訓練語料中該類事件的總個數(shù);

idf的計算公式為:其中,ni為訓練語料中句子總數(shù),mi為訓練語料中含有觸發(fā)詞wi的句子數(shù)。得到初始中醫(yī)針灸事件觸發(fā)詞表,表例如下:

表2初始中醫(yī)針灸事件觸發(fā)詞表

所述中醫(yī)針灸事件觸發(fā)詞表擴展方法為:

由于人工標注的訓練語料規(guī)模有限,初始觸發(fā)詞表收集的種子觸發(fā)詞無法覆蓋到中醫(yī)針灸事件觸發(fā)詞全集。一些重要的觸發(fā)詞沒有被收集到原始觸發(fā)詞表中,這直接造成了在測試語料中識別事件時新事件的丟失。為了使觸發(fā)詞表盡可能多的覆蓋各種類型事件的觸發(fā)詞,本發(fā)明使用哈工大信息檢索研究室的《同義詞詞林(擴展版)》對初始觸發(fā)詞表進行了擴展。具體是:

1)將同義詞詞林中詞語編碼前四級相同,且第八位標記為“=”的詞語進行聚類,構(gòu)造詞語→編碼映射、編碼→同義詞詞語的集合映射;

2)處理所述訓練集中的分詞摘要文本集,收集其中的動詞和名詞,構(gòu)造動詞與名詞詞語集合(verbandnonset);

3)依次處理所述初始觸發(fā)詞表中的每個觸發(fā)詞wi,將wi映射到與其編碼相同的同義詞集合,并利用動詞與名詞詞語集合(verbandnonset)過濾該同義詞集合中非動詞與非名詞性的詞語(注:觸發(fā)詞的詞性一般為名詞、動詞);

4)將過濾后的同義詞集合中的詞語加入到待擴充的事件觸發(fā)詞表中,并將這些詞語的事件類型、權(quán)重值設置為與觸發(fā)詞wi相同;

5)轉(zhuǎn)至所述第3)步,直至初始觸發(fā)詞表中的觸發(fā)詞處理完畢;

6)將待擴充的事件觸發(fā)詞表與初始觸發(fā)詞表合并,獲得中醫(yī)針灸事件的觸發(fā)詞擴展表。

所述步驟s5中對觸發(fā)詞進行抽取的方法是利用中醫(yī)針灸事件觸發(fā)詞擴展表判定測試語料集中的詞語是否為中醫(yī)針灸事件觸發(fā)詞,并確定其類型,具體如下:

1)對所述測試集中的測試語料進行分句,逐句提取人工標注的觸發(fā)詞及其類型,構(gòu)建測試語料中針灸事件觸發(fā)詞標準集,并統(tǒng)計各類標準觸發(fā)詞計數(shù);

2)逐句逐詞檢查未標注測試摘要文本集中的詞語是否存在于中醫(yī)針灸事件觸發(fā)詞擴展表中,若存在且權(quán)重大于設定的閾值,則判定該詞語為候選針灸事件觸發(fā)詞,并通過查表確定該觸發(fā)詞的類型;

3)將該觸發(fā)詞及其類型加入候選針灸事件觸發(fā)詞集合,并增加相應類別的識別觸發(fā)詞計數(shù);

4)將識別觸發(fā)詞及其類型與標準觸發(fā)詞及其類型比對,判斷識別的正確與否,若正確,則增加相應類別的正確識別觸發(fā)詞計數(shù);

5)轉(zhuǎn)到第2)步,直至測試語料處理完畢;

6)計算各類針灸事件觸發(fā)詞識別的p、r、f-值。

由于基于觸發(fā)詞表的觸發(fā)詞抽取方法是一種典型的經(jīng)驗方法,有較高的召回率,但精確率較低。本發(fā)明為了提高中醫(yī)針灸事件觸發(fā)詞識別的精確率,通過對候選針灸事件觸發(fā)詞集中誤識觸發(fā)詞進行分析統(tǒng)計,總結(jié)出如下2條觸發(fā)詞過濾規(guī)則:

規(guī)則1:針對候選針灸事件觸發(fā)詞集中的<cure>類別的觸發(fā)詞,若其左右近鄰不存在集合{<disease>、<method>}類別的命名實體,則丟棄該觸發(fā)詞;

規(guī)則2:針對候選針灸事件觸發(fā)詞集中的<health>類別的觸發(fā)詞,若其左右近鄰不存在集合{<health>、<method>、<disease>}類別的命名實體,則丟棄該觸發(fā)詞。

基于本發(fā)明上述方法,本發(fā)明還提供一種中醫(yī)針灸領(lǐng)域事件觸發(fā)詞的自動抽取系統(tǒng),如圖2所示,包括:

語料預處理模塊,用于對預先構(gòu)建好的標注語料庫進行預處理,包括噪聲消除、分詞、詞性標注;其中,所述標注語料庫是人工根據(jù)預定義的中醫(yī)針灸事件模板進行構(gòu)建所得;

候選觸發(fā)詞抽取模塊,用于根據(jù)所述標注語料庫構(gòu)建中醫(yī)針灸事件的初始觸發(fā)詞表;再對所述初始觸發(fā)詞表進行擴展,得到中醫(yī)針灸事件的觸發(fā)詞擴展表;然后基于所述中醫(yī)針灸事件觸發(fā)詞擴展表對候選針灸事件的觸發(fā)詞進行抽取;

觸發(fā)詞過濾模塊,用于通過觸發(fā)詞過濾規(guī)則集對候選針灸事件的觸發(fā)詞進行過濾。

其中,所述標注語料庫包括訓練集和測試集,其中,訓練集用于構(gòu)建所述初始觸發(fā)詞表,測試集用于測試評估所述觸發(fā)詞自動抽取模型;在一具體的實施例中,從人工標注針灸事件的摘要文本集中隨機選擇481篇做為中醫(yī)針灸事件觸發(fā)詞識別模型的訓練集、剩余的80篇為測試集。

所述語料預處理模塊分別對訓練集和測試集進行預處理;

所述候選觸發(fā)詞抽取模塊是根據(jù)所述訓練集中人工標注的觸發(fā)詞構(gòu)建中醫(yī)針灸事件的初始觸發(fā)詞表,同時還抽取所述測試集中人工標注的觸發(fā)詞,構(gòu)造觸發(fā)詞標準答案集;并將基于所述中醫(yī)針灸事件觸發(fā)詞擴展表對測試集中候選針灸事件觸發(fā)詞進行抽取,抽取結(jié)果與觸發(fā)詞標準答案集進行比較評估,得到評估結(jié)果。

所述比較評估是采用準確率p、召回率r和f值三個通用的測評指標進行,該三個通用的測評指標的具體定義如下公式所示:

觸發(fā)詞權(quán)重閾值參數(shù)將根據(jù)實驗效果調(diào)整設定,本發(fā)明實施例中權(quán)重閾值取值為0.1。

所述候選觸發(fā)詞抽取模塊構(gòu)建中醫(yī)針灸事件的初始觸發(fā)詞表的過程是:分析所述訓練集,逐篇逐句收集人工標注的中醫(yī)針灸事件觸發(fā)詞及其類別,在訓練語料范圍內(nèi)統(tǒng)計每個觸發(fā)詞觸發(fā)事件的個數(shù)、觸發(fā)詞出現(xiàn)在句子中的個數(shù)、各種事件類型出現(xiàn)的總個數(shù)以及句子總數(shù)的信息,并利用這些統(tǒng)計量計算各個事件觸發(fā)詞的權(quán)重,從而構(gòu)建的初始中醫(yī)針灸事件觸發(fā)詞表:

所述事件觸發(fā)詞的權(quán)重的計算公式為:scorei=tf(wi)*idf(wi)(1);

其中,tf為詞頻,表示某個觸發(fā)詞wi對該觸發(fā)詞所屬事件類別的貢獻程度,idf為逆向文件頻率,表示觸發(fā)詞wi在訓練語料中出現(xiàn)的頻度;

tf的計算公式為:tf(wi)=ni/mi(2);其中,ni為觸發(fā)詞wi在所有訓練語料中觸發(fā)的某類事件的個數(shù),mi為訓練語料中該類事件的總個數(shù);

idf的計算公式為:其中,ni為訓練語料中句子總數(shù),mi為訓練語料中含有觸發(fā)詞wi的句子數(shù)。

所述候選觸發(fā)詞抽取模塊對中醫(yī)針灸事件觸發(fā)詞表的擴展方法為:

1)將同義詞詞林中詞語編碼前四級相同,且第八位標記為“=”的詞語進行聚類,構(gòu)造詞語→編碼映射、編碼→同義詞詞語的集合映射;

2)處理所述訓練集中分詞摘要文本集,收集其中的動詞和名詞,構(gòu)造動詞與名詞詞語集合;

3)依次處理中醫(yī)針灸事件的初始觸發(fā)詞表中的每個觸發(fā)詞wi,將wi映射到與其編碼相同的同義詞集合,并利用動詞與名詞詞語集合過濾該同義詞集合中非動詞與非名詞性的詞語;

4)將過濾后的同義詞集合中的詞語加入到待擴充的事件觸發(fā)詞表中,并將這些詞語的事件類型、權(quán)重值設置為與觸發(fā)詞wi相同;

5)轉(zhuǎn)所述第3)步,直至初始觸發(fā)詞表中的觸發(fā)詞處理完畢;

6)將待擴充的事件觸發(fā)詞表與初始觸發(fā)詞表合并,獲得中醫(yī)針灸事件觸發(fā)詞擴展表。

所述候選觸發(fā)詞抽取模塊對候選針灸事件的觸發(fā)詞進行抽取的方法如下:

1)對測試語料分句,逐句提取人工標注的觸發(fā)詞及其類型,構(gòu)建測試語料中針灸事件觸發(fā)詞標準集,并統(tǒng)計各類標準觸發(fā)詞計數(shù);

2)逐句逐詞檢查未標注測試摘要文本集中的詞語是否存在于中醫(yī)針灸事件觸發(fā)詞擴展表中,若存在且權(quán)重大于設定的閾值,則判定該詞語為候選針灸事件觸發(fā)詞,并通過查表確定該觸發(fā)詞的類型;

3)將該觸發(fā)詞及其類型加入候選針灸事件觸發(fā)詞集合,并增加相應類別的識別觸發(fā)詞計數(shù);

4)將識別觸發(fā)詞及其類型與標準觸發(fā)詞及其類型比對,判斷識別的正確與否,若正確,則增加相應類別的正確識別觸發(fā)詞計數(shù);

5)轉(zhuǎn)第2)步,直至測試語料處理完畢。

所述觸發(fā)詞過濾模塊采用的觸發(fā)詞過濾規(guī)則包括:

規(guī)則1:針對候選針灸事件觸發(fā)詞集中的<cure>類別的觸發(fā)詞,若其左右近鄰不存在集合{<disease>、<method>}類別的命名實體,則丟棄該觸發(fā)詞;

規(guī)則2:針對候選針灸事件觸發(fā)詞集中的<health>類別的觸發(fā)詞,若其左右近鄰不存在集合{<health>、<method>、<disease>}類別的命名實體,則丟棄該觸發(fā)詞。

雖然以上描述了本發(fā)明的具體實施方式,但是熟悉本技術(shù)領(lǐng)域的技術(shù)人員應當理解,我們所描述的具體的實施例只是說明性的,而不是用于對本發(fā)明的范圍的限定,熟悉本領(lǐng)域的技術(shù)人員在依照本發(fā)明的精神所作的等效的修飾以及變化,都應當涵蓋在本發(fā)明的權(quán)利要求所保護的范圍內(nèi)。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1