基于生物醫(yī)學(xué)文獻(xiàn)的蛋白質(zhì)交互關(guān)系數(shù)據(jù)庫構(gòu)建方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于信息抽取領(lǐng)域,涉及一種基于生物醫(yī)學(xué)文本進(jìn)行高質(zhì)量的蛋白質(zhì)名稱 識(shí)別、蛋白質(zhì)名稱標(biāo)準(zhǔn)化、指代消解和蛋白質(zhì)交互關(guān)系抽取的方法,具體是指基于詞表示的 蛋白質(zhì)名稱識(shí)別、融合多種方法的蛋白質(zhì)名稱標(biāo)準(zhǔn)化和指代消解以及蛋白質(zhì)交互關(guān)系抽 取。
【背景技術(shù)】
[0002] 構(gòu)建基于生物醫(yī)學(xué)文獻(xiàn)的蛋白質(zhì)交互關(guān)系數(shù)據(jù)庫分為蛋白質(zhì)名稱識(shí)別、蛋白質(zhì)名 稱標(biāo)準(zhǔn)化、指代消解和蛋白質(zhì)交互關(guān)系抽取四個(gè)步驟。
[0003] 蛋白質(zhì)名稱識(shí)別屬于生物醫(yī)學(xué)命名實(shí)體識(shí)別(Biomedical Named Entity Recognition,Bio-NER),是蛋白質(zhì)交互關(guān)系數(shù)據(jù)庫構(gòu)建的必要前提。生物醫(yī)學(xué)命名實(shí)體 識(shí)別是指識(shí)別文本中具有特定意義的生物醫(yī)學(xué)實(shí)體,目前使用最廣泛的基于機(jī)器學(xué)習(xí)方法 的基本過程包括:語料預(yù)處理、抽取特征、模型訓(xùn)練、預(yù)測。機(jī)器學(xué)習(xí)構(gòu)建模型的方法主要 包括:隱馬爾可夫模型(HMM)、支持向量機(jī)模型(SVM)、最大熵馬爾可夫模型(MEMM)、條件 隨機(jī)域模型(CRF)等。例如,ABNER(http ://pages. Cs. wise, edu/ ~bsettles/abner/) 是一個(gè)標(biāo)準(zhǔn)的命名實(shí)體識(shí)別軟件工具,其核心基于線性鏈CRF。為減少人工抽取特征的代 價(jià),半監(jiān)督學(xué)習(xí)也被引入到機(jī)器學(xué)習(xí)方法中。李彥鵬等(Incorporating Rich Background Knowledge for Gene Named Entity Classification and Recognition,2009, BMC Bioinformatics)從獲得的海量未標(biāo)注數(shù)據(jù)中提取有用信息,然后將其作為特征提高監(jiān)督 學(xué)習(xí)的效果,在BioCreative II中取得F值為89. 05% 〇
[0004] 蛋白質(zhì)名稱標(biāo)準(zhǔn)化是指為解決由于物種間的蛋白質(zhì)歧義、縮寫所產(chǎn)生的問題, 給蛋白質(zhì)確定其在數(shù)據(jù)庫中的唯一 ID的過程。通常情況下,蛋白質(zhì)名稱標(biāo)準(zhǔn)化任務(wù)能 夠被分解為如下四個(gè)子任務(wù):預(yù)處理、詞典查詢、歧義消解和過濾。例如,Hakenberg等 (Gene mention normalization and interaction extraction with context models and sentence motifs [J]· Genome Biology,2008)抽取了豐富的背景知識(shí)來構(gòu)建語義輪廓,然 后使用文本和背景知識(shí)向量(語義輪廓)計(jì)算相似度,再依據(jù)相似度值來區(qū)分正確或者錯(cuò) 誤的映射關(guān)系對(duì)。
[0005] 共指是一種有關(guān)現(xiàn)實(shí)世界中相同實(shí)體的語言表達(dá)方式。找到文本中具有共指關(guān)系 的共指鏈(包括照應(yīng)語和先行詞)的過程,被稱為指代消解,該任務(wù)對(duì)蛋白質(zhì)交互關(guān)系的抽 取具有重要提升作用。生物醫(yī)學(xué)領(lǐng)域指代消解方法可以分為三類:基于規(guī)則的方法,基于統(tǒng) 計(jì)機(jī)器學(xué)習(xí)的方法,以及規(guī)則與統(tǒng)計(jì)相結(jié)合的方法。Souza等(SOUZA J D,NG V. Anaphora resolution in biomedical literature :a hybrid approach[C]. Proceedings of the ACM Conference on Bioinformatics, Computational Biology and Biomedicine,2012 : 113-122.)將照應(yīng)語劃分為關(guān)系代詞、人稱代詞、限定性代詞和名詞短語四類,每一類都采 用了多種方法融合的策略。最終,達(dá)到目前最好的結(jié)果,在BioNLP-2011開發(fā)集上的F值為 67. 4%,測試集上為60. 9%。
[0006] 蛋白質(zhì)交互關(guān)系抽?。≒rotein-Protein Interaction Extraction,PPIE)目 的是判斷兩個(gè)蛋白質(zhì)之間是否存在交互關(guān)系,是構(gòu)建蛋白質(zhì)交互關(guān)系數(shù)據(jù)庫的核心步驟。 蛋白質(zhì)交互關(guān)系可以被看成是一個(gè)三元組,Relation〈Proteinl,Protein2,type〉,其中 Proteinl和Protein2表示兩個(gè)蛋白質(zhì)實(shí)體,type表示關(guān)系類型(有關(guān)系或者無關(guān)系兩 類)?;谔卣鞯臋C(jī)器學(xué)習(xí)方法利用大量的語言特征,如詞法、語法、語義等特征來表示 關(guān)系實(shí)例,從而完成抽取任務(wù)。Miwa 等(A rich feature vector for Protein-Protein Interaction extraction from multiple corpora,2009, Proceedings of the 2009Conference on Empirical Methods in Natural Language Processing,121-130) 提出了一種基于豐富特征向量的SVM-CW方法,抽取了詞袋特征、最短路徑特征和圖特征 用于學(xué)習(xí)。該方法能夠同時(shí)在多個(gè)數(shù)據(jù)集上進(jìn)行學(xué)習(xí),在五個(gè)公共語料AIMed,Biolnfer, HPRD50, ΙΕΡΑ,LLL 上 F 值分別達(dá)到了 64·2%,68·3%,74·9%,76·6%,84· 1%?;诤撕?數(shù)的方法可以利用依存解析樹等結(jié)構(gòu)化信息,Miwa等(Protein-protein interaction extraction by leveraging multiple kernels and parsers,2009, International journal of medical informatics,39-46)通過把不同句法解析器的輸出結(jié)果結(jié)合起來, 獲得一個(gè)多層次的抽取模型,在上述五個(gè)語料上F值分別達(dá)到了 60. 8%,68. 1%,70. 9%, 71. 7%,80· 1%〇
[0007] 對(duì)于實(shí)際的PPIE在線系統(tǒng),大都采用基于特征的統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法。Kim等 (PIE :an online prediction system for protein-protein interactions from text, 2008,Nucleic Acids Research,411-415)建立了在線蛋白質(zhì)交互關(guān)系抽取系統(tǒng)PIE,可以 讓用戶以文本輸入或上傳文件的格式進(jìn)行訪問,系統(tǒng)能識(shí)別出文本中的蛋白質(zhì)名稱,并輸 出蛋白質(zhì)交互關(guān)系,最后允許用戶對(duì)系統(tǒng)的分析結(jié)果進(jìn)行評(píng)價(jià)。該系統(tǒng)借助詞匯信息和句 法信息,對(duì)文檔中的蛋白質(zhì)交互關(guān)系對(duì)進(jìn)行打分并顯示。
[0008] 目前己有的蛋白質(zhì)交互關(guān)系數(shù)據(jù)庫整合的最大障礙就是這些數(shù)據(jù)庫結(jié)構(gòu)和規(guī)范 不一致性。建立有統(tǒng)一規(guī)范的蛋白質(zhì)名稱數(shù)據(jù)庫、蛋白質(zhì)交互關(guān)系數(shù)據(jù)庫,可以從大量的生 物醫(yī)學(xué)文獻(xiàn)中找到對(duì)醫(yī)學(xué)相關(guān)研究有價(jià)值的信息,減少生物醫(yī)學(xué)工作者和數(shù)據(jù)庫管理人員 的工作壓力,讓生物醫(yī)學(xué)研究人員更專注生物醫(yī)學(xué)本身的研究,提高實(shí)驗(yàn)效率,加速研究進(jìn) 程。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明提供了一種基于詞表示的蛋白質(zhì)名稱識(shí)別、融合多種方法的蛋白質(zhì)名稱標(biāo) 準(zhǔn)化和指代消解以及蛋白質(zhì)交互關(guān)系抽取系統(tǒng),最終以蛋白質(zhì)交互關(guān)系數(shù)據(jù)庫的形式表 現(xiàn),建立了有統(tǒng)一規(guī)范的蛋白質(zhì)名稱數(shù)據(jù)庫、蛋白質(zhì)交互關(guān)系數(shù)據(jù)庫,提高了現(xiàn)有蛋白質(zhì)交 互關(guān)系抽取的性能。
[0010] 本發(fā)明采用如下的技術(shù)方案如下:
[0011](一)構(gòu)建基于滑動(dòng)窗口的輸入向量
[0012] 對(duì)句長為N的句子進(jìn)行實(shí)體識(shí)別,當(dāng)滑動(dòng)窗口大小為M時(shí),對(duì)識(shí)別后句子中的每個(gè) 詞依次構(gòu)造輸入向量,將滑動(dòng)窗口內(nèi)所有詞的輸入向量相連作為當(dāng)前詞的輸入向量;每個(gè) 詞的輸入向量通過word2vec工具所提供的Skip-gram語言模型在未標(biāo)記語料上訓(xùn)練得到。
[0013] 例如:當(dāng)窗口 M取3時(shí),對(duì)于詞wl而言,選用〈None〉,W1, W2對(duì)應(yīng)的向量依次相接 作為W1的輸入向量。其中〈None〉是為填補(bǔ)首位位置窗口空白設(shè)計(jì)的補(bǔ)位符,對(duì)應(yīng)的向量 為〇向量,如表1所示。
[0014] 表 1
[0015]
[0016] (二)構(gòu)建基于詞表示方法的蛋白質(zhì)名稱識(shí)別框架
[0017] 蛋白質(zhì)名稱識(shí)別中運(yùn)用到的詞特征包括單詞、詞干、詞性特征、組塊特征、專業(yè)領(lǐng) 域特征、構(gòu)成形態(tài)特征、高頻詞特征、詞長特征、詞形特征、觸發(fā)詞特征、前后綴特征、拼寫特 征等。為了獲取優(yōu)化特征子集,采用SVM-RFE方法進(jìn)行特征選擇。
[0018] 利用未標(biāo)注語料數(shù)據(jù)進(jìn)行半監(jiān)督學(xué)習(xí),用以下三種方法識(shí)別蛋白質(zhì)名稱:
[0019] 1、分布式詞表不方法:與構(gòu)建基于滑動(dòng)窗口的輸入向量方法一致;
[0020] 2、向量聚類方法:用K-means算法對(duì)詞向量進(jìn)行聚類,K-means算法是在Word2Vec 學(xué)習(xí)到的詞向量基礎(chǔ)上進(jìn)行聚類,使向量空間分布相近的詞被聚為同一簇;例如:K-means 算法的迭代次數(shù)設(shè)置為1000,聚類個(gè)數(shù)設(shè)置為/% = 1732,其中|V| = 1500000是單詞個(gè) 數(shù)。由于聚類個(gè)數(shù)設(shè)為1732,詞袋特征中的每個(gè)詞的所屬類別都由1到1732中的某個(gè)數(shù)字 標(biāo)記。詞特征中的所有詞對(duì)應(yīng)的聚類結(jié)果形成一個(gè)集合構(gòu)成了向量聚類特征;
[0021] 3、布朗聚類方法:布朗聚類方法的輸入與向量聚類方法的輸入相同。聚類個(gè)數(shù)也 設(shè)為1732。經(jīng)過布朗聚類算法層層迭代,語義相近的詞被聚到同一父節(jié)點(diǎn)中,結(jié)果如表2所 示。與向量聚類特征相同,詞特征中所有詞對(duì)應(yīng)的布朗聚類結(jié)果形成一個(gè)集合作為布朗聚 類特征。
[0022] 表2布朗聚類結(jié)果示例
[0023]
CN 105138864 A 仇 口月卞> 4/8 頁
[0024] 先將三種詞表示和經(jīng)過選擇的基礎(chǔ)特征送入S