不平衡數(shù)據(jù)集上生物醫(yī)學多參事件抽取的新方法與流程

文檔序號：12467201閱讀：495來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及一種生物醫(yī)學多參事件抽取的新方法，特別涉及一種不平衡數(shù)據(jù)集上生物醫(yī)學多參事件抽取的新方法。

背景技術(shù)：

當前，生物醫(yī)學文獻提供了豐富的科學知識來源，由于非結(jié)構(gòu)化或半結(jié)構(gòu)化的生物醫(yī)學文獻的快速增長，科研工作者需要大量的精力和時間來獲得相關(guān)的科學知識。自動抽取生物醫(yī)學事件可以應(yīng)用到許多生物醫(yī)學領(lǐng)域。在事件抽取任務(wù)中，基于規(guī)則的方法和基于機器學習的方法是目前主要的方法?；谝?guī)則的方法同生物醫(yī)學關(guān)系抽取中基于模式的方法類似，手工定義句法規(guī)則，然后在訓練數(shù)據(jù)集中學習得到規(guī)則，從而抽取出事件?；跈C器學習的方法把抽取任務(wù)看成是分類問題。以上這些方法很少提及到的一個問題就是訓練數(shù)據(jù)是高度不平衡的，負樣本的數(shù)目遠低于正樣本的數(shù)目；而且大多數(shù)的多參事件抽取方法都遵循管道模型，在對抽取的基礎(chǔ)上，進一步抽取多元關(guān)系，這樣容易造成級聯(lián)錯誤。這種方法直接抽取多元關(guān)系的方法，對樣本進行過濾平衡訓練的正負樣本，得到用于分類的有意義的樣本集；以及采用聯(lián)合評分機制對預(yù)測結(jié)果進行修正，可提高預(yù)測的精度。

技術(shù)實現(xiàn)要素：

本發(fā)明的目的是為了在高度不平衡的生物醫(yī)學文獻上進行精確的生物醫(yī)學多參事件的自動抽取，而提供的一種不平衡數(shù)據(jù)集上生物醫(yī)學多參事件抽取的新方法。

本發(fā)明提供的不平衡數(shù)據(jù)集上生物醫(yī)學多參事件抽取的新方法，其具體方法如下所述：

所需條件：生物文獻的語料庫，nltk、nltk.org分詞和分句工具以及生物醫(yī)學依存路徑分析工具以及抽取模型特征系統(tǒng)；待檢測的生物醫(yī)學文本，普通PC機；

實現(xiàn)步驟如下：

第一部分：通過對生物文獻語料庫進行預(yù)處理，獲取多參數(shù)事件的特征，以及采用序列模式的方法平衡訓練的正負樣本，從而得到用于分類的有意義的樣本集，具體步驟如下：

步驟1：開始，對給定的語料庫進行分詞、分句、詞性標注和路徑依存分析獲取序列庫；

步驟2：定義句子中的候選觸發(fā)詞集，它們來源于觸發(fā)詞字典，而蛋白質(zhì)、帶有標簽的觸發(fā)詞以及候選觸發(fā)詞構(gòu)成參數(shù)集，這樣生成候選觸發(fā)詞和各個參數(shù)形成的對集，將這些對集所包含的依存路徑中的關(guān)鍵字構(gòu)造序列數(shù)據(jù)庫S；

步驟3：給定最小支持度閾值，利用序列模式算法在生成的序列庫S中挖掘出頻繁的規(guī)則或者模式；

步驟4：對無標簽的樣本判斷其依存路徑是否包含足夠多的頻繁模式序列個數(shù)，即大于給定的閾值，否則將其過濾并去掉一些負樣本；

第二部分：在選擇的樣本特征集上訓練得到基于支持向量機的預(yù)測模型，具體步驟如下：

步驟1：在選擇的樣本集上提取四類特征，包括Token特征、句子特征、詞袋特征和外部資源特征；

步驟2：應(yīng)用支持向量機方法進行訓練得到多類別的分類器；

第三部分：對新的待測樣本利用獲取的分類模型進行預(yù)測，對預(yù)測的結(jié)果，從句子的相似度和觸發(fā)詞的重要度兩方面來得到聯(lián)合評分，進行合理的糾正，以三元關(guān)系(t_i，a_j，a_k)的事件預(yù)測，其中t_i是觸發(fā)詞，而a_j，a_k是兩個參數(shù)，具體步驟如下：

步驟1：計算預(yù)測結(jié)果所在語句s'與d中所有語句的相似度Sim(s′d)，這里，d＝{s₁，s₂，...，s_n}是包含與預(yù)測結(jié)果相同觸發(fā)詞的所有語句集合；

步驟2：計算觸發(fā)詞重要度

步驟3：合并重要度和相似度Sim(t_i，a_j，a_k)得到聯(lián)合評分Score(t_i，a_j，a_k)；

步驟4：給定閾值δ，如果Score(t_i，a_j，a_k)＜δ，對預(yù)測的結(jié)果進行修正。

本發(fā)明的有益效果：

本發(fā)明公開了一種利用基于頻繁序列模式的訓練樣本過濾方法和基于聯(lián)合評分機制的預(yù)測結(jié)果修正方法，自動和直接地抽取生物醫(yī)學上多參事件的新方法。此方法利用數(shù)據(jù)挖掘和自然語言處理技術(shù)，在對生物文獻的多參事件自動抽取中，首先通過對生物文獻語料庫進行分詞、分句和詞性標注的預(yù)處理，構(gòu)造觸發(fā)詞字典，根據(jù)觸發(fā)詞和參數(shù)的路徑依存分析來獲取序列數(shù)據(jù)庫，對其采用序列模式發(fā)現(xiàn)方法獲取頻繁模式，將它們應(yīng)用到訓練樣本的選擇上；然后對多參數(shù)事件提取特征集，訓練可直接抽取多元關(guān)系的支持向量機分類器。最后將訓練的分類器對待測文本進行預(yù)測，使用了基于句子相似度和觸發(fā)詞重要度的聯(lián)合評分機制來修正預(yù)測結(jié)果。這種方法能夠高效地抽取事件的多元關(guān)系。其優(yōu)點在于采用數(shù)據(jù)挖掘和自然語言處理技術(shù)，方法靈活，易于實現(xiàn)，可達到很高的準確度。

附圖說明

圖1為本發(fā)明所述方法中第一部分流程示意圖。

圖2為本發(fā)明所述方法中第二部分流程示意圖。

圖3為本發(fā)明所述方法中第三部分流程示意圖。

具體實施方式

由圖1、圖2和圖3所示的多參數(shù)事件抽取的流程分為三部分，具體如下：

第一部分：基于序列模式的樣本選擇：

首先利用現(xiàn)有的分詞、分句、詞性標注和依存路徑分析工具對生物文本進行預(yù)處理，構(gòu)造序列數(shù)據(jù)庫DS，設(shè)候選觸發(fā)詞集C_S＝{c_i}，i＝1，2，…，n，來源于觸發(fā)詞字典，候選參數(shù)集A_S＝{a_j}，j＝1，2，…，m，來源于訓練語料。定義P_S＝{(c_i，a_j)|(c_i，a_j)∈C_S×A_S，c_i≠a_j}為(觸發(fā)詞，參數(shù))對集。抽取候選對(c_i，a_j)中，c_i到a_j的依存路徑，構(gòu)成依存類型序列。

通過得到的頻繁模式集合LS，對每一個無標簽候選樣本(c_i，a_j，a_k)，對(c_i，a_j).和(c_i，a_k)進行判斷，若這兩個樣本對的依存路徑序列的最短依存路徑包含集合LS中的序列個數(shù)足夠多，則該樣本對被選擇。

第二部分：在上述選擇的樣本集上進行特征提取，并訓練基于支持向量機分類器。

首先在選擇的樣本集上提取四類特征，包括：

(1)Token特征：詞干，詞性，拼寫特征和n-grams(n＝{1,2,3})特征；

(2)句子特征：詞袋特征和候選實體的數(shù)量；

(3)句子依存特征：依存路徑特征，最短依存路徑特征；

(4)外部資源特征：Wordnet上位詞。

然后訓練二分類的支持向量機，采用1：多的策略解決多類別問題，獲取預(yù)測模型。

第三部分：應(yīng)用訓練得到的分類器對待測樣本進行預(yù)測，對每個預(yù)測出來的多參事件的結(jié)果采用聯(lián)合評分機制進行修正。以待預(yù)測的三元事件集{(t_i，a_j，a_k)|j≠k，t_i∈C_S，a_i∈A_S，a_k∈A_S}為例，下面過程是對每個三元組進行事件類型的預(yù)測，其中C_S為候選實體集，來源于觸發(fā)詞字典；A_S為同語句S中的候選參數(shù)集。如果三元組(t_i，a_j，a_k)預(yù)測的事件為typ，通過聯(lián)合評分機制判斷是否為真正例。

首先計算預(yù)測結(jié)果所在語句s′與d中所有語句的相似度Sim(s’,d)，這里，d＝{s₁，s₂，…，s_n}是包含與預(yù)測結(jié)果相同觸發(fā)詞的所有語句集合，并獲取最大值。

其中R(s’,s_i)是采用卷積深度結(jié)構(gòu)語義模型模型計算語句間的相似度，它將詞向量映射到相應(yīng)的語義概念向量，再利用典型的卷積神經(jīng)網(wǎng)絡(luò)(CNN，Convolutional neural network)結(jié)構(gòu)，計算每個文檔和查詢之間的相關(guān)性，通過分值進行排序，分值由計算<查詢，文檔>的語義概念向量的余余弦值來確定。

其次計算觸發(fā)詞重要度定義PR＝{(typ，(t_i，a_j，a_k))，typ∈eventTyp，

其中，P₁和P₂為訓練預(yù)料中觸發(fā)詞的重要度，是觸發(fā)詞t_i為事件類型typ的數(shù)量，w₁是觸發(fā)詞t_i在預(yù)測結(jié)果集PR中屬于事件類型typ的數(shù)量，w₂是t_i在預(yù)測結(jié)果集PR中為觸發(fā)詞的數(shù)量，eventTyp為生物事件類型集合，D為觸發(fā)詞集合。然后，權(quán)值化重要度和相似度Sim(s′，d)對預(yù)測結(jié)果進行評分。公式為：（t_i，a_j，a_k)∈s′其中，o為權(quán)重。最后，給定閾值δ，如果score(t_i，a_j，a_k)＜δ，修正預(yù)測的正例為負例。

完整全部詳細技術(shù)資料下載

當前第1頁1 2 3

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：盧奕南;路揚;馬小蕾;潘航宇;閆雪
技術(shù)所有人：吉林大學
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

不平衡數(shù)據(jù)集分類算法相關(guān)技術(shù)

不平衡數(shù)據(jù)集相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

不平衡數(shù)據(jù)集上生物醫(yī)學多參事件抽取的新方法與流程