一種生物文本中蛋白質(zhì)相互關(guān)系的半監(jiān)督抽取方法與流程

文檔序號：11802382閱讀：191來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種生物文本中蛋白質(zhì)相互關(guān)系的半監(jiān)督抽取方法與流程

本發(fā)明涉及一種語義抽取的方法，更具體的說，涉及一種生物文本中蛋白質(zhì)相互關(guān)系的半監(jiān)督抽取方法，屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域。

背景技術(shù)：
后基因組時代，蛋白質(zhì)相互作用（ProteinProteinIneraction，PPI）研究越來越受到人們的重視，它是一種研究蛋白質(zhì)功能的重要方法，對生物知識網(wǎng)絡(luò)的建立、生物關(guān)系的預(yù)測及新藥的研制均具有很重要的意義。隨著研究的不斷深入，報道蛋白質(zhì)相互作用信息的文獻(xiàn)激增，例如美國國立醫(yī)學(xué)圖書館的Medline數(shù)據(jù)庫已存儲了超過108000種雜志的19000000篇文獻(xiàn)摘要或全文。但是由于文獻(xiàn)數(shù)目巨大且增長迅速，人們通過手工閱讀文獻(xiàn)往往難以及時、高效地發(fā)現(xiàn)其所關(guān)心的蛋白質(zhì)相互作用信息。文本挖掘方法（textmining）是一種解決這種“信息爆炸”問題的有效途徑。當(dāng)前，一些蛋白質(zhì)相互作用數(shù)據(jù)庫，如MINT和IntAct已經(jīng)開始嘗試?yán)梦谋就诰蚣夹g(shù)搜集蛋白質(zhì)相互作用數(shù)據(jù)，自動提取蛋白質(zhì)相互作用注釋信息，提高研究人員獲取蛋白質(zhì)相互作用信息的效率。不僅如此，文本挖掘蛋白質(zhì)相互作用還能減少重復(fù)試驗帶來的資源浪費，而且挖掘到的蛋白質(zhì)相互作用有詳細(xì)的生物學(xué)實驗支持，真實可靠。因此，基于文本挖掘方法得到的蛋白質(zhì)相互作用數(shù)據(jù)逐漸成為相互作用數(shù)據(jù)庫十分重要的信息來源。目前，蛋白質(zhì)相互作用提取方法主要可以歸納為3大類：基于規(guī)則方法（rule-basedapproach）、基于統(tǒng)計學(xué)和機(jī)器學(xué)習(xí)方法（statisticalandmachine-learningapproach）與基于計算語言方法（computationallinguistics-basedapproach）。在基于統(tǒng)計和機(jī)器學(xué)習(xí)的方法中，蛋白相互作用關(guān)系提取可以看成是判斷句子中有無蛋白質(zhì)相互作用關(guān)系的二值分類問題，并使用支持向量機(jī)（supportvectormachine,SVMs）、最大熵模型（maximumentropy,ME）等分類方法進(jìn)行模型訓(xùn)練和相互關(guān)系對的提取。其主要優(yōu)點在于能夠自動地訓(xùn)練模型，避免了大量的人工定義規(guī)則。Airola等人在多個訓(xùn)練集上使用全路徑圖核方法（all-pathsgraphkernel）獲取蛋白質(zhì)相互作用信息。Miwa等人采用豐富的特征向量及考慮訓(xùn)練集權(quán)重的支持向量機(jī)方法。王浩暢等同樣基于機(jī)器學(xué)習(xí)的方法，提取了豐富的特征集及后處理規(guī)則。雖然機(jī)器學(xué)習(xí)方法特別是SVMs使蛋白質(zhì)相互關(guān)系抽取的性能有了很大的提高，但是從一些著名的國際測評會議的結(jié)果來看，其性能還遠(yuǎn)遠(yuǎn)達(dá)不到實際應(yīng)用的要求。在最近一次測評會議BioCreativeII.5的蛋白質(zhì)相互關(guān)系抽取任務(wù)中，最好的抽取方法是利用SVMs分類器得到的，精度為30.9%，召回率為21.3%，F(xiàn)值為25.2。機(jī)器學(xué)習(xí)方法未能取得較好的分類效果，主要由于以下三個方面的因素：訓(xùn)練集的規(guī)模、質(zhì)量及特征值的選取。首先，實際應(yīng)用中往往缺少高質(zhì)量的機(jī)器學(xué)習(xí)訓(xùn)練集，因為標(biāo)注大量的生物文本需要花費專家大量的人力、物力和時間為代價。由于蛋白質(zhì)間相互關(guān)系較為復(fù)雜，可包括物理相互作用（physicalinteraction）、遺傳相互作用（geneticinteraction）、共表達(dá)（co-express）關(guān)系和共定位（co-location）關(guān)系等，普通用戶很難進(jìn)行準(zhǔn)確的標(biāo)注，通常要通過生物學(xué)家來完成。正因為標(biāo)注上的困難，使得在蛋白質(zhì)相互作用關(guān)系抽取中能夠獲得的訓(xùn)練樣本數(shù)量就比較有限。相反，由于電子期刊的迅速發(fā)展，獲得無標(biāo)注的樣本卻非常容易。因此一種旨在使用少量已標(biāo)注樣本，借助于大量未標(biāo)注樣本就可以完成相關(guān)工作的半監(jiān)督學(xué)習(xí)方法在蛋白質(zhì)關(guān)系抽取中的研究成為熱點。半監(jiān)督學(xué)習(xí)（Semi-supervisedLearning,SSL）是一種新的學(xué)習(xí)方法，它將大量的無標(biāo)注樣本和少量的已標(biāo)注樣本結(jié)合起來以提高學(xué)習(xí)器的泛化能力。最近，SSL已經(jīng)被應(yīng)用到一些文本的關(guān)系研究中，這些研究表明了使用少量已標(biāo)注樣本，有效利用未標(biāo)注樣本可以使關(guān)系抽取性能得到一定程度的提高。按照Chapelle、Seeger、Mitchell等人對半監(jiān)督學(xué)習(xí)的分析，SSL問題主要有3種主要的技術(shù)：基于生成式的模型、基于圖正則化框架的模型以及基于協(xié)同訓(xùn)練的模型。自訓(xùn)練算法（Self-TrainingAlgorithm）屬于最后一種算法的范疇，該算法隱含地利用了聚類假設(shè)或者流型假設(shè)，以簡潔高效而著稱，因此和其他半監(jiān)督算法相比，有著極為廣泛的應(yīng)用。其次，訓(xùn)練集數(shù)據(jù)的質(zhì)量也直接影響模型的分類效果，主動學(xué)習(xí)（ActiveLearning,AL）可以通過減少此類不正確分類的樣本來協(xié)助半監(jiān)督學(xué)習(xí)。目前有很多研究者都提出了樣本添加的方法，Tong等在基于SVMs的分類中，根據(jù)樣本到當(dāng)前分類面的距離對樣本進(jìn)行選擇，最靠近分類面的樣本被認(rèn)為是最具有信息量的，此類樣本被添加到訓(xùn)練集中；基于委員會的采樣也是比較常用的主動學(xué)習(xí)方法，選擇分類結(jié)果最不一致的樣本加入到當(dāng)前的訓(xùn)練集；在基于熵的不確定采樣中，根據(jù)計算每個樣本的熵，選擇那些熵越大的，也就是分類不確定性越高的樣本添加到訓(xùn)練集。這些方法都是通過在訓(xùn)練集中引入不確定性高的樣本，來增加訓(xùn)練集的信息量。然而在半監(jiān)督自訓(xùn)練模型的迭代中，這些不確定性高的樣本可能會引入過多不正確分類的樣本到訓(xùn)練集中，而這些分類的錯誤信息在以后學(xué)習(xí)過程中會不斷積累，給分類器帶來致命的錯誤而大大影響其性能。因此在選擇樣本時不僅要考慮樣本的信息量，還要考慮其正確性。最后，為了進(jìn)一步提高機(jī)器學(xué)習(xí)模型的分類能力，特定的豐富的特征被提取和使用，對特定的訓(xùn)練數(shù)據(jù)集效果顯著，在蛋白質(zhì)相互作用關(guān)系的提取中也同樣需要提取大量的特征來支持。然而簡單的特征組合難以產(chǎn)生令人滿意的結(jié)果，而且對于訓(xùn)練語料的針對性較強(qiáng),缺乏魯棒性和可移植性，嚴(yán)重影響抽取的性能，抽取效率不高，數(shù)據(jù)真實性得不到保證，并且大量重復(fù)的實驗帶來的資源的浪費。

技術(shù)實現(xiàn)要素：
本發(fā)明所要解決的技術(shù)問題是，克服現(xiàn)有技術(shù)的缺點，提供一種簡潔高效、性能高、收斂快、抽取效率高并保證數(shù)據(jù)真實性、節(jié)約實驗資源的生物文本中蛋白質(zhì)相互關(guān)系的半監(jiān)督抽取方法。為了解決以上技術(shù)問題，本發(fā)明提供一種生物文本中蛋白質(zhì)相互關(guān)系的半監(jiān)督抽取方法，按如下步驟進(jìn)行：（1）將已標(biāo)注蛋白質(zhì)相互作用信息的生物文本集做為訓(xùn)練樣本集L0，將未標(biāo)注蛋白質(zhì)相互作用信息的生物文本集做為未標(biāo)注樣本集U0，將所述訓(xùn)練樣本集L0和所述未標(biāo)注樣本集U0輸入預(yù)處理器，依次分別進(jìn)行蛋白質(zhì)命名實體識別、分句處理和指代消解處理，生成預(yù)處理過的文本集；（2）在步驟（1）中的預(yù)處理過的訓(xùn)練樣本集L0中提取候選蛋白質(zhì)作用對；（3）在候選蛋白質(zhì)作用對與其存在的句子和全文的基礎(chǔ)上提取SSW-SVMs分類模型需要的特征集F=(f1,f2......,fn)，對特征集F的特征值通過半監(jiān)督學(xué)習(xí)方法進(jìn)行基于信息強(qiáng)度的加權(quán)：，式中：，其中M為預(yù)定義的類別總數(shù)，C為預(yù)定義的類別,在蛋白質(zhì)相互關(guān)系抽取的應(yīng)用中,類別總數(shù)為2,即M=2。C就表示類別，C1類(第一類)是描述相互作用的蛋白質(zhì)對，C2類(第二類)則是沒有相互作用的蛋白質(zhì)對。（4）基于信息強(qiáng)度加權(quán)的特征值訓(xùn)練SSW-SVMs分類模型，并對未標(biāo)注樣本集U0進(jìn)行標(biāo)注，利用主動學(xué)習(xí)方法選擇標(biāo)注后的U0樣本，將最有價值的生物文本加入到樣本標(biāo)注集S，更新訓(xùn)練樣本集，更新未標(biāo)注樣本集U1=U0\S，用更新后的訓(xùn)練樣本集L1和未標(biāo)注樣本集U1重復(fù)步驟（3）-（5），對分類過程進(jìn)行迭代，直到收斂。本發(fā)明進(jìn)一步限定的技術(shù)方案為，步驟（4）中利用主動學(xué)習(xí)方法選擇樣本的方法為：（1）利用5折疊（5-foldcrossvalidation）的交叉驗證方法訓(xùn)練SSW-SVMs模型，并在每次交叉驗證中得到未標(biāo)注樣本集U0中樣本xu的分類標(biāo)號，xu屬于類別i的概率為P(yi|xu)，其中，yi是對樣本xu的分類標(biāo)號，由于本應(yīng)用是兩類分類問題，yi即為屬于第一類還是第二類，即這里求得樣本xu屬于第一類的概率和屬于第二類的概率。則樣本xu的最優(yōu)標(biāo)號為：，其中，yi是對樣本xu的分類標(biāo)號；Y為yi的取值范圍，即在本應(yīng)用中是第一類和第二類；yoptimal是樣本xu的最優(yōu)分類標(biāo)號，取決于其屬于這兩類的概率大小，取概率值大的標(biāo)號為其最優(yōu)分類標(biāo)號。（2）根據(jù)樣本xu到當(dāng)前SSW-SVMs分類面的距離對樣本進(jìn)行采樣，最靠近分類面的樣本被認(rèn)為是最具信息量的，計算xu到當(dāng)前SVM分類面的距離作為位置信息Position(xu)。（3）將樣本集U0中符合下列樣本選擇條件的樣本xu添加到樣本集S中：p(yoptimal|xu)≥threshold&Position(xu)<distance，其中，threshold是最優(yōu)分類樣本選取的閾值，distance是位置參數(shù)閾值。進(jìn)一步地，步驟（2）中所述的計算xu到當(dāng)前SVM分類面的距離作為位置信息Position(xu)的方法為：，其中，f(x)是SVM的目標(biāo)函數(shù)：+b=∑i=1nwixi+b]]>，其中w是權(quán)重向量，b是閾值參數(shù)，n是權(quán)重向量x的維數(shù)。再進(jìn)一步地，步驟（3）中所述的SSW-SVMs分類模型需要的特征包括上下文關(guān)系特征組、基于距離的特征組、模式匹配特征組和數(shù)據(jù)庫匹配特征組。本發(fā)明的有益效果是：本發(fā)明所述的一種生物文本中蛋白質(zhì)相互關(guān)系的半監(jiān)督抽取方法，針對文本挖掘方法在蛋白質(zhì)相互作用提取中的應(yīng)用，提出了一種簡潔高效的基于半監(jiān)督信息強(qiáng)度加權(quán)的支持向量機(jī)模型（Semi-SeupervisedWeightingSVMs,SSW-SVMs），使蛋白質(zhì)相互作用關(guān)系提取模型具有更好的性能、收斂快同時需要更少的已標(biāo)注數(shù)據(jù)集；本發(fā)明通過建立基于半監(jiān)督的信息強(qiáng)度加權(quán)和基于啟發(fā)式信息的主動學(xué)習(xí)的支持向量機(jī)分類模型，使其在較小的專家標(biāo)注的情況下具有較高的蛋白質(zhì)相互關(guān)系抽取效果；本發(fā)明通過在支持向量機(jī)自訓(xùn)練的過程中對豐富的特征值進(jìn)行信息強(qiáng)度加權(quán)，能夠達(dá)到模型既簡潔又快速的要求；本發(fā)明及時、高效地發(fā)現(xiàn)其所關(guān)心的蛋白質(zhì)相互作用信息，自動提取蛋白質(zhì)相互作用注釋信息，提高研究人員獲取蛋白質(zhì)相互作用信息的效率，并且減少重復(fù)試驗帶來的資源浪費，挖掘到的蛋白質(zhì)相互作用有詳細(xì)的生物學(xué)實驗支持，真實可靠，對生物知識網(wǎng)絡(luò)的建立、生物關(guān)系的預(yù)測及新藥的研制均具有很重要的意義。附圖說明圖1為本發(fā)明所述的SSW-SVMs模型的算法框架流程圖；圖2為本發(fā)明所述的一種生物文本中蛋白質(zhì)相互關(guān)系的抽取方法的工作流程圖。具體實施方式實施例1本實施例提供的一種生物文本中蛋白質(zhì)相互關(guān)系的抽取方法，是一種在較少專家標(biāo)注負(fù)擔(dān)下具有較高性能的基于半監(jiān)督信息強(qiáng)度加權(quán)支持向量機(jī)（SSW-SVMs）的蛋白質(zhì)相互作用抽取模型。本方法所采用的主要技術(shù)為：(1)基于半監(jiān)督的信息強(qiáng)度加權(quán)：在半監(jiān)督迭代過程中，對訓(xùn)練樣集提取的特征值進(jìn)行基于信息熵的加權(quán)計算，熵用來描述特定特征攜帶信息量，熵越大不確定性越大，所攜帶的信息量就越大。利用熵作為信息強(qiáng)度的度量對特征值進(jìn)行加權(quán)，能反應(yīng)各個特征不同的性能，反應(yīng)其在分類模型建立過程中的不同重要性，幫助更好地建立模型。(2)基于啟發(fā)式信息的主動學(xué)習(xí)：本發(fā)明主要利用兩種啟發(fā)式信息來幫助半監(jiān)督學(xué)習(xí)迭代過程中的樣本選取。首先，選擇那些在當(dāng)前分類器下分類結(jié)果最正確的樣本。然而，從直觀上來說，如果僅選取這些樣本進(jìn)行半監(jiān)督學(xué)習(xí)，雖然引入錯誤標(biāo)號的概率最小，但是從樣本所包含的信息量這個角度來說，這些分類結(jié)果最明確的樣本所包含的信息最少，加入訓(xùn)練樣本集后對分類模型的影響最小。因此，其次，選擇那些最靠近支持向量機(jī)分類面的樣本，這些樣本被認(rèn)為最具信息量。通過這兩種啟發(fā)式信息，使得選出的樣本在分類準(zhǔn)確性和信息量之間達(dá)到了一個較好的平衡。在本發(fā)明中，這兩種啟發(fā)式信息均來自SVMs分類器本身，沒有增加模型的計算負(fù)擔(dān)。基于上述主要技術(shù)，本發(fā)明所采用的SSW-SVMs模型的算法框架流程圖如圖1所示，具體操作步驟為：（1）初始已標(biāo)注樣本集和未標(biāo)注樣本集分別計為L0和U0。（2）在初始分類時，用L0作為訓(xùn)練樣本集，從中抽取豐富的特征集F=(f1,f2......,fn),包含有n個特征fi。（3）對特征集F的特征值通過半監(jiān)督學(xué)習(xí)方法進(jìn)行基于信息強(qiáng)度的加權(quán)，式中：，其中M為分類的類別總數(shù)；（4）基于信息強(qiáng)度加權(quán)的特征值訓(xùn)練SSW-SVMs分類模型，并對未標(biāo)注樣本集U0中樣本中的蛋白質(zhì)相互作用對進(jìn)行標(biāo)注，同時利用如下樣本選擇策略來尋找那些最有價值的樣本標(biāo)注集S：①投票信息：利用5折疊的交叉驗證方法訓(xùn)練SVMs模型，并在每次交叉驗證中得到對樣本集U0中樣本xu的分類標(biāo)號，xu屬于類別i的概率為P(yj|xu)則樣本xu的最優(yōu)標(biāo)號為：②位置信息：根據(jù)樣本xu到當(dāng)前SVM分類面的距離對樣本進(jìn)行采樣，最靠近分類面的樣本被認(rèn)為是最具信息量的。計算xu到當(dāng)前SVM分類面的距離作為位置信息Position(xu)。③將樣本集U0中符合下列樣本選擇條件的樣本xu添加到樣本集S中：p(yoptimal|xu)≥threshold&Position(xu)<distance更新訓(xùn)練樣本集，更新未標(biāo)注樣本集U1=U0\S用更新后的已標(biāo)注樣本L1和未標(biāo)注樣本集訓(xùn)U1重復(fù)（2）-（5），對分類過程進(jìn)行迭代，直到收斂。下面將上述技術(shù)方案應(yīng)用于生物文本中的蛋白質(zhì)相互關(guān)系的抽取技術(shù)，數(shù)據(jù)來源于國際測評會議BioCreativeII.5的蛋白質(zhì)相互關(guān)系抽取任務(wù)，以及生物醫(yī)學(xué)電子期刊網(wǎng)FEBSLetters。實施例中使用的訓(xùn)練數(shù)據(jù)集有30篇生物文獻(xiàn)全文，包含114個蛋白質(zhì)相互作用對；測試數(shù)據(jù)集有39篇生物文獻(xiàn)全文，包含123個蛋白質(zhì)相互作用對。將訓(xùn)練數(shù)據(jù)集作為已標(biāo)注樣本集L，同時，有150篇生物文獻(xiàn)全文作為未標(biāo)注樣本集U。在進(jìn)行蛋白質(zhì)相互關(guān)系提取前必須對所有的數(shù)據(jù)集進(jìn)行蛋白質(zhì)命名實體識別，標(biāo)注出文中所有蛋白質(zhì)名。生物文本中蛋白質(zhì)相互關(guān)系的半監(jiān)督抽取方法的流程圖如圖2所示，按如下步驟進(jìn)行：（1）將已標(biāo)注蛋白質(zhì)相互作用信息的生物文本集做為訓(xùn)練樣本集L0，將未標(biāo)注的生物文本集做為未標(biāo)注樣本集U0，將所述訓(xùn)練樣本集L0和所述未標(biāo)注樣本集U0輸入預(yù)處理器，依次分別進(jìn)行蛋白質(zhì)命名實體識別、分句處理和指代消解處理，生成預(yù)處理過的文本集。其中，分句處理是指將復(fù)雜句分解為一個主句和若干從句。指代消解處理是指在全文篇章中確定代詞指向哪個名詞短語的問題。（2）在步驟（1）中的預(yù)處理過的訓(xùn)練樣本集L0中提取候選蛋白質(zhì)作用對。（3）在候選蛋白質(zhì)作用對與其存在的句子和全文的基礎(chǔ)上提取SSW-SVMs分類模型需要的特征集F=(f1,f2......,fn)，對特征集F的特征值通過半監(jiān)督學(xué)習(xí)方法進(jìn)行基于信息強(qiáng)度的加權(quán)：，式中：，其中M為預(yù)定義的類別總數(shù)，C為預(yù)定義的類別,在蛋白質(zhì)相互關(guān)系抽取的應(yīng)用中,類別總數(shù)為2,即M=2。C就表示類別，C1類(第一類)是該候選對描述了蛋白質(zhì)間的相互作用，C2類(第二類)則是該候選對沒有描述了蛋白質(zhì)間的相互作用。所述的SSW-SVMs分類模型需要的特征包括上下文關(guān)系特征組、基于距離的特征組、模式匹配特征組和數(shù)據(jù)庫匹配特征組。所述下文關(guān)系特征組是指描述候選蛋白質(zhì)作用關(guān)系對、作用對中的蛋白質(zhì)、相互作用關(guān)鍵詞以及上下文關(guān)系；所述基于距離的特征組是指描述候選蛋白質(zhì)關(guān)系對中蛋白質(zhì)和上下文的位置關(guān)系；所述模式匹配特征組是指描述候選蛋白質(zhì)作用關(guān)系與16個模式的匹配關(guān)系；所述數(shù)據(jù)庫匹配特征組是指描述候選蛋白質(zhì)作用關(guān)系與數(shù)據(jù)庫MINT和IntAct的匹配關(guān)系。（4）基于信息強(qiáng)度加權(quán)的特征值訓(xùn)練SSW-SVMs分類模型，并對U0中樣本進(jìn)行標(biāo)注，利用主動學(xué)習(xí)方法選擇樣本，將最有價值的生物文本加入到樣本標(biāo)注集S，更新訓(xùn)練樣本集，更新未標(biāo)注樣本集U1=U0\S，用更新后的訓(xùn)練樣本集L1和未標(biāo)注樣本集U1重復(fù)步驟（3）-（5），對分類過程進(jìn)行迭代，直到收斂。用更新后的訓(xùn)練樣本集L1重復(fù)步驟(3)中特征基于信息強(qiáng)度加權(quán)計算，新的訓(xùn)練樣本集L1提供了新的類別定義信息，用這些信息更新特征集F的權(quán)值，因此權(quán)值的獲取也是通過半監(jiān)督學(xué)習(xí)獲取的，可以反映在不同數(shù)據(jù)集大小的情況下不同特征攜帶的信息量，更進(jìn)一步加快模型的收斂。利用主動學(xué)習(xí)方法選擇樣本的方法為：①利用5折疊（5-foldcrossvalidation）的交叉驗證方法訓(xùn)練SSW-SVMs模型，并在每次交叉驗證中得到未標(biāo)注樣本集U0中樣本xu的分類標(biāo)號，xu屬于類別i的概率為P(yi|xu)，其中，yi是對樣本xu的分類標(biāo)號，由于本應(yīng)用是兩類分類問題，yi即為屬于第一類還是第二類，即這里求得樣本xu屬于第一類的概率和屬于第二類的概率。則樣本xu的最優(yōu)標(biāo)號為：，其中，yi是對樣本xu的分類標(biāo)號；Y為yi的取值范圍，即在本應(yīng)用中是第一類和第二類；yoptimal是樣本xu的最優(yōu)分類標(biāo)號，取決于其屬于這兩類的概率大小，取概率值大的標(biāo)號為其最優(yōu)分類標(biāo)號。②根據(jù)樣本xu到當(dāng)前SSW-SVMs分類面的距離對樣本進(jìn)行采樣，最靠近分類面的樣本被認(rèn)為是最具信息量的，計算xu到當(dāng)前SVM分類面的距離作為位置信息Position(xu)。計算xu到當(dāng)前SVM分類面的距離作為位置信息Position(xu)的方法為：，其中，f(x)是SVM的目標(biāo)函數(shù)：，其中w是權(quán)重向量，b是閾值參數(shù)，n是權(quán)重向量x的維數(shù)。③將樣本集U0中符合下列樣本選擇條件的樣本xu添加到樣本集S中：p(yoptimal|xu)≥threshold&Position(xu)<distance。threshold是最優(yōu)分類樣本選取的參數(shù)（閾值），即當(dāng)這個樣本的最優(yōu)分類標(biāo)號概率大于threshold，這個樣本就是最優(yōu)分類樣本。distance是位置參數(shù)（閾值），即當(dāng)這個樣本距離分類面的距離小于distance，這個樣本就被選擇。這兩個值都是模型建立者設(shè)置的，當(dāng)兩個條件同時成立，該樣本就被選中，加入下一次訓(xùn)練集中。本發(fā)明中的SSW-SVMs模型將與其他模型的蛋白質(zhì)相互作用關(guān)系抽取模型進(jìn)行比較，比較結(jié)果如表1所示：表1：PrecisionRecallF-measureIterationsSSW-SVMs30.33%37.40%33.509SVMs20.00%23.60%21.7—SS-SVMs24.10%27.50%25.6913RS-SVMs27.13%28.50%27.8068其中SSW-SVMs是本發(fā)明中提出的基于半監(jiān)督信息強(qiáng)度加權(quán)支持向量機(jī)蛋白質(zhì)相互作用對抽取模型；SVMs是使用經(jīng)典的支持向量機(jī)模型，該模型是BioCreativeII.5測評會議上性能最好的模型，也是我們以前工作中建立的模型；SS-SVMs是經(jīng)典的自訓(xùn)練半監(jiān)督支持向量機(jī)模型，沒有使用本發(fā)明中提出的加權(quán)和樣本選擇方法；最后，RS-SVMs是使用了半監(jiān)督信息強(qiáng)度加權(quán)支持向量機(jī)模型，但使用了隨機(jī)樣本選取的方法。表中的數(shù)據(jù)均采用常用度量方法即利用混淆矩陣計算出來的，在混淆矩陣中：真正(truepositive,TP)，對應(yīng)于被分類模型正確預(yù)測的正樣本數(shù)；假負(fù)(falsenegative,FN)，對應(yīng)于被分類模型錯誤預(yù)測為負(fù)類的正樣本數(shù)；假正(falsepositive,FP)，對應(yīng)于被分類模型錯誤預(yù)測為正類的負(fù)樣本數(shù)；真負(fù)(truenegative,TN)，對應(yīng)于被分類模型正確預(yù)測的負(fù)樣本數(shù)。因此，精度(precision)p=TP/(TP+FP)；召回率(recall)r=TP/(TP+FN)；F1度量（F-measure）=2*p*r/(p+r)。通過表格1中的模型性能（Precision,Recall,F-measure）和收斂速度（Iterations,迭代次數(shù)）比較，我們可以看出，SSW-SVMs在少量已標(biāo)注數(shù)據(jù)集上，使蛋白質(zhì)相互作用關(guān)系提取模型具有更好的性能，同時收斂更快。除上述實施例外，本發(fā)明還可以有其他實施方式。凡采用等同替換或等效變換形成的技術(shù)方案，均落在本發(fā)明要求的保護(hù)范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳一飛
技術(shù)所有人：陳一飛
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

高一生物蛋白質(zhì)相關(guān)技術(shù)

高一生物必修一蛋白質(zhì)相關(guān)技術(shù)

高中生物必修一蛋白質(zhì)相關(guān)技術(shù)

高一生物蛋白質(zhì)視頻相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種生物文本中蛋白質(zhì)相互關(guān)系的半監(jiān)督抽取方法與流程