1.一種基于醫(yī)學(xué)文獻數(shù)據(jù)庫的組合藥物識別與排序方法,其特征在于:包括以下步驟:
S1:在醫(yī)學(xué)文獻數(shù)據(jù)庫中抓取出包含指定疾病的文章信息,利用藥物實體識別出含多種藥物的文獻信息;將文章中的摘要信息和標(biāo)題信息作為數(shù)據(jù)集;
S2:將數(shù)據(jù)集中的一部分作為訓(xùn)練集和測試集進行人工標(biāo)注,標(biāo)記為藥物為組合關(guān)系的文獻和非組合關(guān)系的文獻;
S3:使用文本挖掘中的特征選擇方法CHI卡方統(tǒng)計法抽取分類關(guān)鍵詞,并使用TF/IDF對每一個關(guān)鍵詞進行加權(quán)作為特征,選擇的分類特征包括分類關(guān)鍵詞,藥物是否出現(xiàn)在同一句話中,詞特征、詞性特征、邏輯特征以及依存句法特征,將訓(xùn)練集和測試集中的特征進行抽??;
S4:使用支持向量機訓(xùn)練分類模型,同時使用遺傳優(yōu)化算法進行優(yōu)化參數(shù);
S5:得到分類的含多種藥物和藥物之間存在組合關(guān)系的文獻,將文獻作為medrank的輸入,使用medrank進行排序得到推薦結(jié)果。
2.如權(quán)利要求1所述的基于醫(yī)學(xué)文獻數(shù)據(jù)庫的組合藥物識別與排序方法,其特征在于:所述抽取包含指定疾病的文章并識別出包含多種藥物的文獻的具體步驟如下:
S11:MEDLINE文獻數(shù)據(jù)庫提供的mesh詞是美國國立醫(yī)學(xué)圖書館編制的權(quán)威性主題詞表,某篇文獻的mesh詞可以作為該文獻的關(guān)鍵詞;針對某一種疾病,在MEDLINE文獻數(shù)據(jù)庫抽取出mesh詞包含這種疾病的文獻信息。得到摘要信息和文獻標(biāo)題信息。
S12:針對上一步得到的結(jié)果,借助已有的藥物實體識別出摘要中的藥物,將摘要中含多個藥物的文章抽取出來作為數(shù)據(jù)集。
3.如權(quán)利要求1所述的基于醫(yī)學(xué)文獻數(shù)據(jù)庫的組合藥物識別與排序方法,其特征在于:所述抽取分類關(guān)鍵詞的具體步驟如下:
S31:將得到的數(shù)據(jù)集中的摘要信息和標(biāo)題信息進行人工標(biāo)記,標(biāo)記為藥物為組合關(guān)系的文獻和藥物為非組合關(guān)系的文獻;
S32:將文本使用向量空間模型進行表示,給定一個文檔D(t1,ω1;t2,ω2;...;tn,ωn),D符合兩個標(biāo)準(zhǔn):
1)各特征項tk(1≤k≤n)互異;
2)各個特征項tk無先后順序關(guān)系;
S33:使用文本挖掘中文本特征抽取方法χ2統(tǒng)計法和閾值進行抽取分類關(guān)鍵詞;
按照以下公式計算得特征項的CHI值:
其中,N表示訓(xùn)練集的總數(shù),A表示屬于Cj類且包含ti的文檔頻數(shù),B表示不屬于Cj類且包含ti的文檔頻數(shù),C表示屬于Cj類但不包含ti的文檔頻數(shù),D表示不屬于Cj類且不包含ti的文檔頻數(shù);CHI為特征項ti對Cj的值;
再根據(jù)閾值挑選出符合要求的特征項作為分類關(guān)鍵詞;
S34:使用TF-IDF計算出每一個被選中的關(guān)鍵詞的權(quán)重,權(quán)重公式為:
其中,ωij表示TF-IDF值;tfij表示特征項在文檔中出現(xiàn)的頻數(shù);
S35:抽取分類關(guān)鍵詞的特征。
4.如權(quán)利要求1所述的基于醫(yī)學(xué)文獻數(shù)據(jù)庫的組合藥物識別與排序方法,其特征在于:所述抽取分類關(guān)鍵詞的特征的具體步驟如下:
S351:將訓(xùn)練數(shù)據(jù)集中的摘要進行詞性標(biāo)注、語義處理和句法分析;
S352:抽取分類特征,按照以下方式判斷兩種藥物是否為組合關(guān)系:
1)關(guān)鍵詞特征:按照以下公式處理關(guān)鍵詞特征:
Fk=ωaKa+ωtKt;
其中,ka為摘要關(guān)鍵詞,kt為標(biāo)題關(guān)鍵詞;d1為一種藥物;d2為另一種藥物;
2)詞特征:包含d1左邊的單詞,d2右邊的單詞,d1與d2中間的單詞;
3)詞性特征:將第二項詞特征集中的每一個詞的詞性作為詞特征的補充;
4)邏輯特征:包含藥物之間的距離,每一個藥物離它關(guān)鍵詞的最短距離,藥物之間其他藥物的個數(shù),藥物之間的標(biāo)點符號以及動詞的個數(shù);
5)依存句法分析特征。
5.如權(quán)利要求1所述的基于醫(yī)學(xué)文獻數(shù)據(jù)庫的組合藥物識別與排序方法,其特征在于:所述分類模型按照以下方式進行建立:
S41:將所有特征進行量化和歸一化預(yù)處理;
S42:使用支持向量機建立分類模型,選用RBF作為核函數(shù),并使用遺傳算法、粒子群算法對帶有的參數(shù)c和g進行尋優(yōu)。
6.如權(quán)利要求1所述的基于醫(yī)學(xué)文獻數(shù)據(jù)庫的組合藥物識別與排序方法,其特征在于:所述medrank進行排序的具體步驟如下:
S51:使用分類模型判斷所有的文獻中的藥物關(guān)系,并將藥物關(guān)系為組合的提取出來作為數(shù)據(jù)集;
S52:將得到的數(shù)據(jù)集進行預(yù)處理,并將medrank中輸入時需要的藥物由單個藥物換成數(shù)據(jù)集中的組合藥物;
S53:使用medrank進行排序,得到top10的結(jié)果作為推薦結(jié)果反饋給用戶。