基于生物醫(yī)學(xué)文獻(xiàn)的蛋白質(zhì)交互關(guān)系數(shù)據(jù)庫構(gòu)建方法

文檔序號(hào)：9417696閱讀：370來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于生物醫(yī)學(xué)文獻(xiàn)的蛋白質(zhì)交互關(guān)系數(shù)據(jù)庫構(gòu)建方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于信息抽取領(lǐng)域，涉及一種基于生物醫(yī)學(xué)文本進(jìn)行高質(zhì)量的蛋白質(zhì)名稱識(shí)別、蛋白質(zhì)名稱標(biāo)準(zhǔn)化、指代消解和蛋白質(zhì)交互關(guān)系抽取的方法，具體是指基于詞表示的蛋白質(zhì)名稱識(shí)別、融合多種方法的蛋白質(zhì)名稱標(biāo)準(zhǔn)化和指代消解以及蛋白質(zhì)交互關(guān)系抽取。
【背景技術(shù)】
[0002] 構(gòu)建基于生物醫(yī)學(xué)文獻(xiàn)的蛋白質(zhì)交互關(guān)系數(shù)據(jù)庫分為蛋白質(zhì)名稱識(shí)別、蛋白質(zhì)名稱標(biāo)準(zhǔn)化、指代消解和蛋白質(zhì)交互關(guān)系抽取四個(gè)步驟。
[0003] 蛋白質(zhì)名稱識(shí)別屬于生物醫(yī)學(xué)命名實(shí)體識(shí)別（Biomedical Named Entity Recognition，Bio-NER)，是蛋白質(zhì)交互關(guān)系數(shù)據(jù)庫構(gòu)建的必要前提。生物醫(yī)學(xué)命名實(shí)體識(shí)別是指識(shí)別文本中具有特定意義的生物醫(yī)學(xué)實(shí)體，目前使用最廣泛的基于機(jī)器學(xué)習(xí)方法的基本過程包括：語料預(yù)處理、抽取特征、模型訓(xùn)練、預(yù)測。機(jī)器學(xué)習(xí)構(gòu)建模型的方法主要包括：隱馬爾可夫模型（HMM)、支持向量機(jī)模型（SVM)、最大熵馬爾可夫模型（MEMM)、條件隨機(jī)域模型（CRF)等。例如，ABNER(http ://pages. Cs. wise, edu/ ~bsettles/abner/) 是一個(gè)標(biāo)準(zhǔn)的命名實(shí)體識(shí)別軟件工具，其核心基于線性鏈CRF。為減少人工抽取特征的代價(jià)，半監(jiān)督學(xué)習(xí)也被引入到機(jī)器學(xué)習(xí)方法中。李彥鵬等（Incorporating Rich Background Knowledge for Gene Named Entity Classification and Recognition，2009， BMC Bioinformatics)從獲得的海量未標(biāo)注數(shù)據(jù)中提取有用信息，然后將其作為特征提高監(jiān)督學(xué)習(xí)的效果，在BioCreative II中取得F值為89. 05% 〇
[0004] 蛋白質(zhì)名稱標(biāo)準(zhǔn)化是指為解決由于物種間的蛋白質(zhì)歧義、縮寫所產(chǎn)生的問題，給蛋白質(zhì)確定其在數(shù)據(jù)庫中的唯一 ID的過程。通常情況下，蛋白質(zhì)名稱標(biāo)準(zhǔn)化任務(wù)能夠被分解為如下四個(gè)子任務(wù)：預(yù)處理、詞典查詢、歧義消解和過濾。例如，Hakenberg等 (Gene mention normalization and interaction extraction with context models and sentence motifs [J]· Genome Biology，2008)抽取了豐富的背景知識(shí)來構(gòu)建語義輪廓，然后使用文本和背景知識(shí)向量（語義輪廓）計(jì)算相似度，再依據(jù)相似度值來區(qū)分正確或者錯(cuò) 誤的映射關(guān)系對(duì)。
[0005] 共指是一種有關(guān)現(xiàn)實(shí)世界中相同實(shí)體的語言表達(dá)方式。找到文本中具有共指關(guān)系的共指鏈（包括照應(yīng)語和先行詞）的過程，被稱為指代消解，該任務(wù)對(duì)蛋白質(zhì)交互關(guān)系的抽取具有重要提升作用。生物醫(yī)學(xué)領(lǐng)域指代消解方法可以分為三類：基于規(guī)則的方法，基于統(tǒng) 計(jì)機(jī)器學(xué)習(xí)的方法，以及規(guī)則與統(tǒng)計(jì)相結(jié)合的方法。Souza等（SOUZA J D，NG V. Anaphora resolution in biomedical literature ：a hybrid approach[C]. Proceedings of the ACM Conference on Bioinformatics, Computational Biology and Biomedicine，2012 : 113-122.)將照應(yīng)語劃分為關(guān)系代詞、人稱代詞、限定性代詞和名詞短語四類，每一類都采用了多種方法融合的策略。最終，達(dá)到目前最好的結(jié)果，在BioNLP-2011開發(fā)集上的F值為 67. 4%，測試集上為60. 9%。
[0006] 蛋白質(zhì)交互關(guān)系抽?。≒rotein-Protein Interaction Extraction，PPIE)目的是判斷兩個(gè)蛋白質(zhì)之間是否存在交互關(guān)系，是構(gòu)建蛋白質(zhì)交互關(guān)系數(shù)據(jù)庫的核心步驟。蛋白質(zhì)交互關(guān)系可以被看成是一個(gè)三元組，Relation〈Proteinl，Protein2，type〉，其中 Proteinl和Protein2表示兩個(gè)蛋白質(zhì)實(shí)體，type表示關(guān)系類型（有關(guān)系或者無關(guān)系兩類）?；谔卣鞯臋C(jī)器學(xué)習(xí)方法利用大量的語言特征，如詞法、語法、語義等特征來表示關(guān)系實(shí)例，從而完成抽取任務(wù)。Miwa 等（A rich feature vector for Protein-Protein Interaction extraction from multiple corpora，2009， Proceedings of the 2009Conference on Empirical Methods in Natural Language Processing，121-130) 提出了一種基于豐富特征向量的SVM-CW方法，抽取了詞袋特征、最短路徑特征和圖特征用于學(xué)習(xí)。該方法能夠同時(shí)在多個(gè)數(shù)據(jù)集上進(jìn)行學(xué)習(xí)，在五個(gè)公共語料AIMed，Biolnfer， HPRD50, ΙΕΡΑ，LLL 上 F 值分別達(dá)到了 64·2%，68·3%，74·9%，76·6%，84· 1%?；诤撕?數(shù)的方法可以利用依存解析樹等結(jié)構(gòu)化信息，Miwa等（Protein-protein interaction extraction by leveraging multiple kernels and parsers，2009， International journal of medical informatics，39-46)通過把不同句法解析器的輸出結(jié)果結(jié)合起來，獲得一個(gè)多層次的抽取模型，在上述五個(gè)語料上F值分別達(dá)到了 60. 8%，68. 1%，70. 9%， 71. 7%，80· 1%〇
[0007] 對(duì)于實(shí)際的PPIE在線系統(tǒng)，大都采用基于特征的統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法。Kim等 (PIE ：an online prediction system for protein-protein interactions from text, 2008，Nucleic Acids Research，411-415)建立了在線蛋白質(zhì)交互關(guān)系抽取系統(tǒng)PIE，可以讓用戶以文本輸入或上傳文件的格式進(jìn)行訪問，系統(tǒng)能識(shí)別出文本中的蛋白質(zhì)名稱，并輸出蛋白質(zhì)交互關(guān)系，最后允許用戶對(duì)系統(tǒng)的分析結(jié)果進(jìn)行評(píng)價(jià)。該系統(tǒng)借助詞匯信息和句法信息，對(duì)文檔中的蛋白質(zhì)交互關(guān)系對(duì)進(jìn)行打分并顯示。
[0008] 目前己有的蛋白質(zhì)交互關(guān)系數(shù)據(jù)庫整合的最大障礙就是這些數(shù)據(jù)庫結(jié)構(gòu)和規(guī)范不一致性。建立有統(tǒng)一規(guī)范的蛋白質(zhì)名稱數(shù)據(jù)庫、蛋白質(zhì)交互關(guān)系數(shù)據(jù)庫，可以從大量的生物醫(yī)學(xué)文獻(xiàn)中找到對(duì)醫(yī)學(xué)相關(guān)研究有價(jià)值的信息，減少生物醫(yī)學(xué)工作者和數(shù)據(jù)庫管理人員的工作壓力，讓生物醫(yī)學(xué)研究人員更專注生物醫(yī)學(xué)本身的研究，提高實(shí)驗(yàn)效率，加速研究進(jìn) 程。

【發(fā)明內(nèi)容】

[0009] 本發(fā)明提供了一種基于詞表示的蛋白質(zhì)名稱識(shí)別、融合多種方法的蛋白質(zhì)名稱標(biāo) 準(zhǔn)化和指代消解以及蛋白質(zhì)交互關(guān)系抽取系統(tǒng)，最終以蛋白質(zhì)交互關(guān)系數(shù)據(jù)庫的形式表現(xiàn)，建立了有統(tǒng)一規(guī)范的蛋白質(zhì)名稱數(shù)據(jù)庫、蛋白質(zhì)交互關(guān)系數(shù)據(jù)庫，提高了現(xiàn)有蛋白質(zhì)交互關(guān)系抽取的性能。
[0010] 本發(fā)明采用如下的技術(shù)方案如下：
[0011](一）構(gòu)建基于滑動(dòng)窗口的輸入向量
[0012] 對(duì)句長為N的句子進(jìn)行實(shí)體識(shí)別，當(dāng)滑動(dòng)窗口大小為M時(shí)，對(duì)識(shí)別后句子中的每個(gè) 詞依次構(gòu)造輸入向量，將滑動(dòng)窗口內(nèi)所有詞的輸入向量相連作為當(dāng)前詞的輸入向量；每個(gè) 詞的輸入向量通過word2vec工具所提供的Skip-gram語言模型在未標(biāo)記語料上訓(xùn)練得到。
[0013] 例如：當(dāng)窗口 M取3時(shí)，對(duì)于詞wl而言，選用〈None〉，W1, W2對(duì)應(yīng)的向量依次相接作為W1的輸入向量。其中〈None〉是為填補(bǔ)首位位置窗口空白設(shè)計(jì)的補(bǔ)位符，對(duì)應(yīng)的向量為〇向量，如表1所示。
[0014] 表 1
[0015]
[0016] (二）構(gòu)建基于詞表示方法的蛋白質(zhì)名稱識(shí)別框架
[0017] 蛋白質(zhì)名稱識(shí)別中運(yùn)用到的詞特征包括單詞、詞干、詞性特征、組塊特征、專業(yè)領(lǐng) 域特征、構(gòu)成形態(tài)特征、高頻詞特征、詞長特征、詞形特征、觸發(fā)詞特征、前后綴特征、拼寫特征等。為了獲取優(yōu)化特征子集，采用SVM-RFE方法進(jìn)行特征選擇。
[0018] 利用未標(biāo)注語料數(shù)據(jù)進(jìn)行半監(jiān)督學(xué)習(xí)，用以下三種方法識(shí)別蛋白質(zhì)名稱：
[0019] 1、分布式詞表不方法：與構(gòu)建基于滑動(dòng)窗口的輸入向量方法一致；
[0020] 2、向量聚類方法：用K-means算法對(duì)詞向量進(jìn)行聚類，K-means算法是在Word2Vec 學(xué)習(xí)到的詞向量基礎(chǔ)上進(jìn)行聚類，使向量空間分布相近的詞被聚為同一簇；例如：K-means 算法的迭代次數(shù)設(shè)置為1000,聚類個(gè)數(shù)設(shè)置為/% = 1732,其中|V| = 1500000是單詞個(gè) 數(shù)。由于聚類個(gè)數(shù)設(shè)為1732,詞袋特征中的每個(gè)詞的所屬類別都由1到1732中的某個(gè)數(shù)字標(biāo)記。詞特征中的所有詞對(duì)應(yīng)的聚類結(jié)果形成一個(gè)集合構(gòu)成了向量聚類特征；
[0021] 3、布朗聚類方法：布朗聚類方法的輸入與向量聚類方法的輸入相同。聚類個(gè)數(shù)也設(shè)為1732。經(jīng)過布朗聚類算法層層迭代，語義相近的詞被聚到同一父節(jié)點(diǎn)中，結(jié)果如表2所示。與向量聚類特征相同，詞特征中所有詞對(duì)應(yīng)的布朗聚類結(jié)果形成一個(gè)集合作為布朗聚類特征。
[0022] 表2布朗聚類結(jié)果示例
[0023]
CN 105138864 A 仇口月卞> 4/8 頁
[0024] 先將三種詞表示和經(jīng)過選擇的基礎(chǔ)特征送入S

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李麗雙;鄭潔瓊;秦美越;蔣振超;
技術(shù)所有人：大連理工大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

醫(yī)學(xué)文獻(xiàn)檢索相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于生物醫(yī)學(xué)文獻(xiàn)的蛋白質(zhì)交互關(guān)系數(shù)據(jù)庫構(gòu)建方法