本發(fā)明涉及計算機技術(shù)在醫(yī)學臨床
技術(shù)領域:
,特別是一種基于醫(yī)學文獻數(shù)據(jù)庫的組合藥物識別與排序方法。
背景技術(shù):
:眾所周知,醫(yī)學文獻已經(jīng)成為醫(yī)學研究者和工作者重要的信息來源,但在信息爆炸的當今社會,醫(yī)學信息也在大量爆發(fā)。據(jù)統(tǒng)計,醫(yī)學信息資源占據(jù)約30%以上互聯(lián)網(wǎng)信息資源,醫(yī)學文獻的數(shù)量正以驚人的速度增長,全球醫(yī)藥類期刊近3萬種,每年發(fā)表論文200多萬篇并且以每年7%速度遞增,醫(yī)學文獻的日益更新成為醫(yī)學研究者和工作者的一大挑戰(zhàn)。臨床醫(yī)生平均每天必須閱讀大量的專業(yè)文獻,才可能跟上現(xiàn)代醫(yī)學發(fā)展的速度,這對醫(yī)生會造成很大的工作壓力,也沒有辦法全方位地評價所有相關(guān)的文獻。所以如何從醫(yī)學文獻數(shù)據(jù)庫中學習到先進的醫(yī)學知識,獲得針對某種疾病的最佳治療方案以輔助醫(yī)生進行診斷成為急需解決的問題。目前,針對從醫(yī)學文獻中通過計算機相關(guān)技術(shù)獲得針對某種疾病的治療藥物這一問題,已經(jīng)存在的排序方法有MedRank排序方法?;卺t(yī)學文獻數(shù)據(jù)庫的MedRank方法做的工作是從MEDLINE數(shù)據(jù)庫中提取數(shù)據(jù)構(gòu)建了一個醫(yī)學信息網(wǎng),然后應用net-clus中排名的方法解決“給定疾病名稱,尋找最有效的K種方法”。該方法首先給定疾病,從medline(Medlarsonline醫(yī)學文獻聯(lián)機數(shù)據(jù)庫)中提取信息構(gòu)建疾病的星型網(wǎng)絡,然后經(jīng)過medrank算法選出top-k最佳治療方案,最后利用專家評審評估實驗結(jié)果。雖然該方法提出了如何科學地對醫(yī)學文獻進行排序的方法,但存在一個問題,MedRank實際提供的是針對某一種疾病的所有涉及的單藥的排名,可是現(xiàn)在很多文獻提出的針對某一種疾病的治療方案涉及到多種藥物組合,在MedRank中針對這樣的文獻,就會將文獻中提到的多種藥物的關(guān)系統(tǒng)一定義為并列關(guān)系,即每一種藥物都對該病有治療的效果,這對文獻想要表達的意思進行了曲解,對結(jié)果也造成一定的誤差。技術(shù)實現(xiàn)要素:本發(fā)明的目的是提出一種基于醫(yī)學文獻數(shù)據(jù)庫的組合藥物識別與排序方法。本發(fā)明的目的是通過以下技術(shù)方案來實現(xiàn)的:本發(fā)明提供的基于醫(yī)學文獻數(shù)據(jù)庫的組合藥物識別與排序方法,包括以下步驟:S1:在醫(yī)學文獻數(shù)據(jù)庫中抓取出包含指定疾病的文章信息,利用藥物實體識別出含多種藥物的文獻信息;將文章中的摘要信息和標題信息作為數(shù)據(jù)集;S2:將數(shù)據(jù)集中的一部分作為訓練集和測試集進行人工標注,標記為藥物為組合關(guān)系的文獻和非組合關(guān)系的文獻;S3:使用文本挖掘中的特征選擇方法CHI卡方統(tǒng)計法抽取分類關(guān)鍵詞,并使用TF/IDF對每一個關(guān)鍵詞進行加權(quán)作為特征,選擇的分類特征包括分類關(guān)鍵詞,藥物是否出現(xiàn)在同一句話中,詞特征、詞性特征、邏輯特征以及依存句法特征,將訓練集和測試集中的特征進行抽?。籗4:使用支持向量機訓練分類模型,同時使用遺傳優(yōu)化算法進行優(yōu)化參數(shù);S5:得到分類的含多種藥物和藥物之間存在組合關(guān)系的文獻,將文獻作為medrank的輸入,使用medrank進行排序得到推薦結(jié)果。進一步,所述抽取包含指定疾病的文章并識別出包含多種藥物的文獻的具體步驟如下:S11:MEDLINE文獻數(shù)據(jù)庫提供的mesh詞是美國國立醫(yī)學圖書館編制的權(quán)威性主題詞表,某篇文獻的mesh詞可以作為該文獻的關(guān)鍵詞;針對某一種疾病,在MEDLINE文獻數(shù)據(jù)庫抽取出mesh詞包含這種疾病的文獻信息。得到摘要信息和文獻標題信息。S12:針對上一步得到的結(jié)果,借助已有的藥物實體識別出摘要中的藥物,將摘要中含多個藥物的文章抽取出來作為數(shù)據(jù)集。進一步,所述抽取分類關(guān)鍵詞的具體步驟如下:S31:將得到的數(shù)據(jù)集中的摘要信息和標題信息進行人工標記,標記為藥物為組合關(guān)系的文獻和藥物為非組合關(guān)系的文獻;S32:將文本使用向量空間模型進行表示,給定一個文檔D(t1,ω1;t2,ω2;...;tn,ωn),D符合兩個標準:1)各特征項tk(1≤k≤n)互異;2)各個特征項tk無先后順序關(guān)系;S33:使用文本挖掘中文本特征抽取方法χ2統(tǒng)計法和閾值進行抽取分類關(guān)鍵詞;按照以下公式計算得特征項的CHI值:其中,N表示訓練集的總數(shù),A表示屬于Cj類且包含ti的文檔頻數(shù),B表示不屬于Cj類且包含ti的文檔頻數(shù),C表示屬于Cj類但不包含ti的文檔頻數(shù),D表示不屬于Cj類且不包含ti的文檔頻數(shù);CHI為特征項ti對Cj的值;再根據(jù)閾值挑選出符合要求的特征項作為分類關(guān)鍵詞;S34:使用TF-IDF計算出每一個被選中的關(guān)鍵詞的權(quán)重,權(quán)重公式為:其中,ωij表示TF-IDF值;tfij表示特征項在文檔中出現(xiàn)的頻數(shù);S35:抽取分類關(guān)鍵詞的特征。進一步,所述抽取分類關(guān)鍵詞的特征的具體步驟如下:S351:將訓練數(shù)據(jù)集中的摘要進行詞性標注、語義處理和句法分析;S352:抽取分類特征,按照以下方式判斷兩種藥物是否為組合關(guān)系:1)關(guān)鍵詞特征:按照以下公式處理關(guān)鍵詞特征:Fk=ωaKa+ωtKt;其中,ka為摘要關(guān)鍵詞,kt為標題關(guān)鍵詞;d1為一種藥物;d2為另一種藥物;2)詞特征:包含d1左邊的單詞,d2右邊的單詞,d1與d2中間的單詞;3)詞性特征:將第二項詞特征集中的每一個詞的詞性作為詞特征的補充;4)邏輯特征:包含藥物之間的距離,每一個藥物離它關(guān)鍵詞的最短距離,藥物之間其他藥物的個數(shù),藥物之間的標點符號以及動詞的個數(shù);5)依存句法分析特征:進一步,所述分類模型按照以下方式進行建立:S41:將所有特征進行量化和歸一化預處理;S42:使用支持向量機建立分類模型,選用RBF作為核函數(shù),并使用遺傳算法、粒子群算法對帶有的參數(shù)c和g進行尋優(yōu);進一步,所述medrank進行排序的具體步驟如下:S51:使用分類模型判斷所有的文獻中的藥物關(guān)系,并將藥物關(guān)系為組合的提取出來作為數(shù)據(jù)集;S52:將得到的數(shù)據(jù)集進行預處理,并將medrank中輸入時需要的藥物由單個藥物換成數(shù)據(jù)集中的組合藥物;S53:使用medrank進行排序,得到top10的結(jié)果作為推薦結(jié)果反饋給用戶。由于采用了上述技術(shù)方案,本發(fā)明具有如下的優(yōu)點:本發(fā)明公開了一種基于醫(yī)學文獻數(shù)據(jù)庫的組合藥物識別與排序方法,首先抓取公開的醫(yī)學文獻數(shù)據(jù)庫(例如medline或pubMed)上的醫(yī)學文獻摘要,并識別其中的藥物實體;然后使用文本挖掘中的抽取特征的方法抽取特征,使用機器學習中的分類算法對文本中提到的藥物進行分類,分類為組合關(guān)系或非組合關(guān)系,分類算法的參數(shù)使用優(yōu)化算法進行優(yōu)化;最后使用Medrank進行組合藥物的排序,得到關(guān)于某種疾病的組合用藥的推薦方案。本發(fā)明提供的基于醫(yī)學文獻數(shù)據(jù)庫的組合藥物識別與排序方法,針對海量的以及每年以指數(shù)級增長的醫(yī)學文獻,醫(yī)學研究者無法閱讀并發(fā)現(xiàn)其中的規(guī)律這一難題,利用文本挖掘技術(shù)判別文獻中提及的藥物之間的關(guān)系,使用medRank進行排序,讓醫(yī)學工作者可以快速了解到文獻中治療某種疾病的組合藥物的排序結(jié)果以及歷年的變化趨勢,使用計算機進行統(tǒng)一閱讀文章,減少醫(yī)學研究者閱讀海量文獻的壓力。本發(fā)明的其他優(yōu)點、目標和特征在某種程度上將在隨后的說明書中進行闡述,并且在某種程度上,基于對下文的考察研究對本領域技術(shù)人員而言將是顯而易見的,或者可以從本發(fā)明的實踐中得到教導。本發(fā)明的目標和其他優(yōu)點可以通過下面的說明書來實現(xiàn)和獲得。附圖說明本發(fā)明的附圖說明如下。圖1為本發(fā)明的基于醫(yī)學文獻數(shù)據(jù)庫的組合藥物識別與排序方法原理圖。圖2為本發(fā)明的基于醫(yī)學文獻數(shù)據(jù)庫的組合藥物識別與排序方法流程圖。圖3為排名前10的組合藥物的歷年變化趨勢圖。圖4為2013歐洲高血壓指南中的藥物評估示意圖。具體實施方式下面結(jié)合附圖和實施例對本發(fā)明作進一步說明。實施例1如圖1所示,圖1為原理圖;本實施例提供的一種基于醫(yī)學文獻數(shù)據(jù)庫的組合藥物識別與排序方法,首先使用文本挖掘的方法在滿足要求的摘要中抽取分類特征,其次使用機器學習中的支持向量機模型進行分類,并使用遺傳算法對支持向量機模型的參數(shù)進行優(yōu)化;自此可以識別出含多種藥物并且藥物之間存在組合關(guān)系的文獻,最后使用medrank算法對這些文獻進行排序,得到針對某種疾病的組合藥物的推薦結(jié)果。其中,抽取分類特征可以使用JAVA語言簡單的實現(xiàn),使用支持向量機模型進行分類可以使用臺灣大學林智仁(LinChih-Jen)教授等開發(fā)設計的一個簡單、易于使用和快速有效的SVM模式識別與回歸的軟件包LIBSVM進行實現(xiàn),MEDRANK可以使用Java語言進行實現(xiàn)。實施例2本實施例提供的方法如下:首先在MEDLINE文獻數(shù)據(jù)庫中抓取出包含指定疾病的文章信息,利用藥物實體識別出含多種藥物的文獻信息;將文章中的摘要信息和標題信息作為數(shù)據(jù)集,其次將這些數(shù)據(jù)集中的一部分作為訓練集和測試集進行人工標注,標記為藥物為組合關(guān)系的文獻和非組合關(guān)系的文獻;然后使用文本挖掘中的特征選擇方法CHI卡方統(tǒng)計法抽取分類關(guān)鍵詞,并使用TF/IDF對每一個關(guān)鍵詞進行加權(quán)作為特征,選擇的分類特征包括分類關(guān)鍵詞,藥物是否出現(xiàn)在同一句話中,這句話的詞特征、詞性特征、邏輯特征以及依存句法特征,將訓練集和測試集中的這些特征進行抽取;然后使用支持向量機訓練分類模型,期間使用遺傳算法等優(yōu)化算法進行優(yōu)化參數(shù),最后得到分類好的含多種藥物并藥物之間存在組合關(guān)系的文獻,將這些文獻作為medrank的輸入,最后使用medrank得到推薦結(jié)果。所述方法的具體實施步驟如下:抽取包含指定疾病的文章并識別出包含多種藥物的文獻:①MEDLINE文獻數(shù)據(jù)庫提供的mesh詞是美國國立醫(yī)學圖書館編制的權(quán)威性主題詞表,某篇文獻的mesh詞可以作為該文獻的關(guān)鍵詞。針對某一種疾病,在MEDLINE文獻數(shù)據(jù)庫抽取出mesh詞包含這種疾病的文獻信息。得到摘要信息和文獻標題信息。②針對上一步得到的結(jié)果,借助已有的藥物實體識別出摘要中的藥物,將摘要中含多個藥物的文章抽取出來作為數(shù)據(jù)集。抽取分類關(guān)鍵詞:①將得到的數(shù)據(jù)集中的摘要信息和標題信息進行人工標記,標記為藥物為組合關(guān)系的文獻和藥物為非組合關(guān)系的文獻。②將文本使用向量空間模型進行表示。給定一個文檔D(t1,ω1;t2,ω2;...;tn,ωn),D符合兩個標準:其中,t1表示特征項;ω1表示權(quán)值;1)各特征項tk(1≤k≤n)互異(沒有重復);2)各個特征項tk無先后順序關(guān)系。③使用文本挖掘中文本特征抽取方法χ2統(tǒng)計法(CHI)和閾值進行抽取分類關(guān)鍵詞。令N表示訓練集的總數(shù),A表示屬于Cj類且包含ti的文檔頻數(shù),B表示不屬于Cj類且包含ti的文檔頻數(shù),C表示屬于Cj類但不包含ti的文檔頻數(shù),D表示不屬于Cj類且不包含ti的文檔頻數(shù)。那么特征項ti對Cj的CHI值為由式(1)得特征項的CHI值,再根據(jù)閾值挑選出符合要求的特征項作為分類關(guān)鍵詞④使用TF-IDF計算出每一個被選中的關(guān)鍵詞的權(quán)重。權(quán)重公式為其中,N表示文本數(shù)量;ni表示特征項的文本數(shù)量;抽取分類特征:①將訓練數(shù)據(jù)集中的摘要進行詞性標注、語義處理和句法分析。②抽取分類特征,以判斷兩種藥物是否為組合關(guān)系為例,一種藥物d1和另一種藥物d2的分類特征包含:1)關(guān)鍵詞特征:(2)中的摘要關(guān)鍵詞ka和標題關(guān)鍵詞kt,并包含他們各自的權(quán)重,關(guān)鍵詞特征為Fk=ωaKa+ωtKt。2)詞特征:包含d1左邊的單詞,d2右邊的單詞,d1與d2中間的單詞。3)詞性特征:將第二項詞特征集中的每一個詞的詞性作為詞特征的補充,避免詞特征的稀疏性。4)邏輯特征:包含藥物之間的距離,每一個藥物離它關(guān)鍵詞的最短距離,藥物之間其他藥物的個數(shù),藥物之間的標點符號以及動詞的個數(shù)。如下表為邏輯特征集合信息:5)依存句法分析特征:本實施例提供的依存句法分析是一種自然語言處理方法,將其引入到組合關(guān)系判斷的特征中以提高有效性;它將句子分析成一顆依存句法樹,描述出各個詞語之間的依存關(guān)系,即指出了詞語之間在句法上的搭配關(guān)系,這種關(guān)系是與語義相關(guān)聯(lián)的,使用stanfordparser工具包進行抽取依存句法特征。其特征主要包含:建立分類模型:①將所有特征進行量化、歸一化等預處理②使用支持向量機建立分類模型,選用RBF作為核函數(shù),并使用遺傳算法、粒子群算法對帶有的參數(shù)c和g進行尋優(yōu)。使用Medrank進行排序,得到推薦結(jié)果:①使用(4)建立的模型判斷所有的文獻中的藥物關(guān)系,并將藥物關(guān)系為組合的提取出來作為這一步的數(shù)據(jù)集。②將得到的數(shù)據(jù)集進行預處理,并將medrank中輸入時需要的藥物由單個藥物換成數(shù)據(jù)集中的組合藥物。③使用medrank進行排序,得到top10的結(jié)果作為推薦結(jié)果反饋給用戶。實施例3本實施樣例使用了medline醫(yī)學文獻數(shù)據(jù)集從1966年到2015的數(shù)據(jù)。使用medline提供的xml數(shù)據(jù)集。數(shù)據(jù)集的格式如下表:其中每一個文獻信息以<medlinecitation>開始,以</medlinecitation>結(jié)束。包含的關(guān)鍵字段說明如下:該樣例研究的疾病為高血壓。2、具體步驟:抓取mesh詞中包含關(guān)鍵詞”humans”and”hypertension”的文獻信息;抓取摘要中含多個藥物實體的文獻,獲得7911篇摘要作為原始語料;將其中部分摘要進行人工標注。標注為有組合關(guān)系的摘要和沒有組合關(guān)系的摘要;使用文本挖掘中的文本表示方法和文本特征選擇的方法進行抽取分類關(guān)鍵詞。最終選擇出20個分類關(guān)鍵詞,并使用TF-IDF計算他們的權(quán)重。詞性標注及句法分析:將包含兩個及兩個以上藥物名稱的句子進行篩選,共有13829個句子,然后使用Stanford-postagger(http://nlp.stanford.edu/software/tagger.shtml)和Stanfordparser(http://nlp.stanford.edu/downloads/lex-parser.shtml)對這些句子進行詞性標注和句法分析。相關(guān)特征提?。喊凑沼柧毢蜏y試SVM模型的特征向量提取方法,從以上預處理語料中提取相應的關(guān)鍵詞特征、詞特征、詞性特征、邏輯特征以及依存句法特征,將這些文字特征量化和歸一化,最終使用分類模型判斷出藥物之間的關(guān)系。使用medrank進行排序:將包含判斷為組合關(guān)系的藥物和這些組合藥物的文章作為medrank的輸入,使用medrank進行排序,得到top10的結(jié)果作為推薦結(jié)果。3、結(jié)果展示使用SVM方法,從高血壓疾病語料中得到的組合藥物提取關(guān)系數(shù)據(jù)規(guī)模如下:文獻類型總篇數(shù)RCTmeta-analysisCCT總文獻1043411051410351943包含多種藥物7911330290434包含多種藥物并包含組合關(guān)系14946981294(1)SVM分類模型評估在試驗中,將語料按照2:1的比例,將上面抽取的特征進行訓練和測試,分別使用GA遺傳算法、PSO粒子群算法和ACO蟻群算法進行優(yōu)化,將每一種方法平均運行10次,得到的評估結(jié)果如下:(2)使用Medrank排序的結(jié)果top10,圖中排序以圖中右邊圓點為序,從上到下以下為序號1-10號,具體如下表所示:排序藥物Rank值1ACEI/Diuretics0.1121192436237512Diuretics/beta-blockers0.09885393955136663ARB/CCB0.09148803409229194ARB/Diuretics0.08421153259770085ACEI/Diuretics/CCB0.08140421723477786ACEI/CCB0.07655992089868267Diuretics/CCB0.07647884758178388beta-blockers/CCB0.0363070250330649ACEI/beta-blockers0.025588765892999110ACEI/Diuretics/beta-blockers0.025152439415279如圖3所示,表示藥物在不同年份的使用情況;圖3為排名前10的組合藥物的歷年變化趨勢圖,說明如下:(1)橫坐標為年份,例如1963-1983代表的是發(fā)表時間大于等于1963,小于1983的文獻數(shù)據(jù);all代表所以年份的數(shù)據(jù)(2)縱坐標指的是相對排名,值為10代表排在第一位,以此類推。4、結(jié)果評估如圖4所示,圖4為指南中給出的藥物,使用2013歐洲高血壓指南進行評估:其中,圖中六邊形的六個頂點從最上面起順時針依次分別為:ThiazideDiuretics;Angioensin-receptoublockers(ARB);Calciumantagonists(CCB);ACEinhibitors(ACEI);OtherAntihypertensives(OTHER);Beta-blockers;圖中右邊六邊形的三條邊為綠色,最上面的頂點到下面兩個點的連線為綠色,最下面的點到右邊上面的點的連線為紅色;綠色線為推薦組合用藥,虛線為一般推薦組合用藥,紅色為不能組合用藥。推薦藥物與結(jié)果的對比表如下:排序藥物推薦1ACEI/Diuretics是2Diuretics/beta-blockers是3ARB/CCB是4ARB/Diuretics是5ACEI/Diuretics/CCB是6ACEI/CCB是7Diuretics/CCB是8beta-blockers/CCB一般9ACEI/beta-blockers一般10ACEI/Diuretics/beta-blockers一般從結(jié)果可以看出,排名前7的組合藥物都是指南中推薦用藥,說明結(jié)果的正確性。最后說明的是,以上實施例僅用以說明本發(fā)明的技術(shù)方案而非限制,盡管參照較佳實施例對本發(fā)明進行了詳細說明,本領域的普通技術(shù)人員應當理解,可以對本發(fā)明的技術(shù)方案進行修改或者等同替換,而不脫離本技術(shù)方案的宗旨和范圍,其均應涵蓋在本發(fā)明的保護范圍當中。當前第1頁1 2 3