本發(fā)明涉及一種語義抽取的方法,更具體的說,涉及一種生物文本中蛋白質(zhì)相互關(guān)系的半監(jiān)督抽取方法,屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域。
背景技術(shù):后基因組時代,蛋白質(zhì)相互作用(ProteinProteinIneraction,PPI)研究越來越受到人們的重視,它是一種研究蛋白質(zhì)功能的重要方法,對生物知識網(wǎng)絡(luò)的建立、生物關(guān)系的預(yù)測及新藥的研制均具有很重要的意義。隨著研究的不斷深入,報道蛋白質(zhì)相互作用信息的文獻(xiàn)激增,例如美國國立醫(yī)學(xué)圖書館的Medline數(shù)據(jù)庫已存儲了超過108000種雜志的19000000篇文獻(xiàn)摘要或全文。但是由于文獻(xiàn)數(shù)目巨大且增長迅速,人們通過手工閱讀文獻(xiàn)往往難以及時、高效地發(fā)現(xiàn)其所關(guān)心的蛋白質(zhì)相互作用信息。文本挖掘方法(textmining)是一種解決這種“信息爆炸”問題的有效途徑。當(dāng)前,一些蛋白質(zhì)相互作用數(shù)據(jù)庫,如MINT和IntAct已經(jīng)開始嘗試?yán)梦谋就诰蚣夹g(shù)搜集蛋白質(zhì)相互作用數(shù)據(jù),自動提取蛋白質(zhì)相互作用注釋信息,提高研究人員獲取蛋白質(zhì)相互作用信息的效率。不僅如此,文本挖掘蛋白質(zhì)相互作用還能減少重復(fù)試驗帶來的資源浪費,而且挖掘到的蛋白質(zhì)相互作用有詳細(xì)的生物學(xué)實驗支持,真實可靠。因此,基于文本挖掘方法得到的蛋白質(zhì)相互作用數(shù)據(jù)逐漸成為相互作用數(shù)據(jù)庫十分重要的信息來源。目前,蛋白質(zhì)相互作用提取方法主要可以歸納為3大類:基于規(guī)則方法(rule-basedapproach)、基于統(tǒng)計學(xué)和機(jī)器學(xué)習(xí)方法(statisticalandmachine-learningapproach)與基于計算語言方法(computationallinguistics-basedapproach)。在基于統(tǒng)計和機(jī)器學(xué)習(xí)的方法中,蛋白相互作用關(guān)系提取可以看成是判斷句子中有無蛋白質(zhì)相互作用關(guān)系的二值分類問題,并使用支持向量機(jī)(supportvectormachine,SVMs)、最大熵模型(maximumentropy,ME)等分類方法進(jìn)行模型訓(xùn)練和相互關(guān)系對的提取。其主要優(yōu)點在于能夠自動地訓(xùn)練模型,避免了大量的人工定義規(guī)則。Airola等人在多個訓(xùn)練集上使用全路徑圖核方法(all-pathsgraphkernel)獲取蛋白質(zhì)相互作用信息。Miwa等人采用豐富的特征向量及考慮訓(xùn)練集權(quán)重的支持向量機(jī)方法。王浩暢等同樣基于機(jī)器學(xué)習(xí)的方法,提取了豐富的特征集及后處理規(guī)則。雖然機(jī)器學(xué)習(xí)方法特別是SVMs使蛋白質(zhì)相互關(guān)系抽取的性能有了很大的提高,但是從一些著名的國際測評會議的結(jié)果來看,其性能還遠(yuǎn)遠(yuǎn)達(dá)不到實際應(yīng)用的要求。在最近一次測評會議BioCreativeII.5的蛋白質(zhì)相互關(guān)系抽取任務(wù)中,最好的抽取方法是利用SVMs分類器得到的,精度為30.9%,召回率為21.3%,F(xiàn)值為25.2。機(jī)器學(xué)習(xí)方法未能取得較好的分類效果,主要由于以下三個方面的因素:訓(xùn)練集的規(guī)模、質(zhì)量及特征值的選取。首先,實際應(yīng)用中往往缺少高質(zhì)量的機(jī)器學(xué)習(xí)訓(xùn)練集,因為標(biāo)注大量的生物文本需要花費專家大量的人力、物力和時間為代價。由于蛋白質(zhì)間相互關(guān)系較為復(fù)雜,可包括物理相互作用(physicalinteraction)、遺傳相互作用(geneticinteraction)、共表達(dá)(co-express)關(guān)系和共定位(co-location)關(guān)系等,普通用戶很難進(jìn)行準(zhǔn)確的標(biāo)注,通常要通過生物學(xué)家來完成。正因為標(biāo)注上的困難,使得在蛋白質(zhì)相互作用關(guān)系抽取中能夠獲得的訓(xùn)練樣本數(shù)量就比較有限。相反,由于電子期刊的迅速發(fā)展,獲得無標(biāo)注的樣本卻非常容易。因此一種旨在使用少量已標(biāo)注樣本,借助于大量未標(biāo)注樣本就可以完成相關(guān)工作的半監(jiān)督學(xué)習(xí)方法在蛋白質(zhì)關(guān)系抽取中的研究成為熱點。半監(jiān)督學(xué)習(xí)(Semi-supervisedLearning,SSL)是一種新的學(xué)習(xí)方法,它將大量的無標(biāo)注樣本和少量的已標(biāo)注樣本結(jié)合起來以提高學(xué)習(xí)器的泛化能力。最近,SSL已經(jīng)被應(yīng)用到一些文本的關(guān)系研究中,這些研究表明了使用少量已標(biāo)注樣本,有效利用未標(biāo)注樣本可以使關(guān)系抽取性能得到一定程度的提高。按照Chapelle、Seeger、Mitchell等人對半監(jiān)督學(xué)習(xí)的分析,SSL問題主要有3種主要的技術(shù):基于生成式的模型、基于圖正則化框架的模型以及基于協(xié)同訓(xùn)練的模型。自訓(xùn)練算法(Self-TrainingAlgorithm)屬于最后一種算法的范疇,該算法隱含地利用了聚類假設(shè)或者流型假設(shè),以簡潔高效而著稱,因此和其他半監(jiān)督算法相比,有著極為廣泛的應(yīng)用。其次,訓(xùn)練集數(shù)據(jù)的質(zhì)量也直接影響模型的分類效果,主動學(xué)習(xí)(ActiveLearning,AL)可以通過減少此類不正確分類的樣本來協(xié)助半監(jiān)督學(xué)習(xí)。目前有很多研究者都提出了樣本添加的方法,Tong等在基于SVMs的分類中,根據(jù)樣本到當(dāng)前分類面的距離對樣本進(jìn)行選擇,最靠近分類面的樣本被認(rèn)為是最具有信息量的,此類樣本被添加到訓(xùn)練集中;基于委員會的采樣也是比較常用的主動學(xué)習(xí)方法,選擇分類結(jié)果最不一致的樣本加入到當(dāng)前的訓(xùn)練集;在基于熵的不確定采樣中,根據(jù)計算每個樣本的熵,選擇那些熵越大的,也就是分類不確定性越高的樣本添加到訓(xùn)練集。這些方法都是通過在訓(xùn)練集中引入不確定性高的樣本,來增加訓(xùn)練集的信息量。然而在半監(jiān)督自訓(xùn)練模型的迭代中,這些不確定性高的樣本可能會引入過多不正確分類的樣本到訓(xùn)練集中,而這些分類的錯誤信息在以后學(xué)習(xí)過程中會不斷積累,給分類器帶來致命的錯誤而大大影響其性能。因此在選擇樣本時不僅要考慮樣本的信息量,還要考慮其正確性。最后,為了進(jìn)一步提高機(jī)器學(xué)習(xí)模型的分類能力,特定的豐富的特征被提取和使用,對特定的訓(xùn)練數(shù)據(jù)集效果顯著,在蛋白質(zhì)相互作用關(guān)系的提取中也同樣需要提取大量的特征來支持。然而簡單的特征組合難以產(chǎn)生令人滿意的結(jié)果,而且對于訓(xùn)練語料的針對性較強(qiáng),缺乏魯棒性和可移植性,嚴(yán)重影響抽取的性能,抽取效率不高,數(shù)據(jù)真實性得不到保證,并且大量重復(fù)的實驗帶來的資源的浪費。
技術(shù)實現(xiàn)要素:本發(fā)明所要解決的技術(shù)問題是,克服現(xiàn)有技術(shù)的缺點,提供一種簡潔高效、性能高、收斂快、抽取效率高并保證數(shù)據(jù)真實性、節(jié)約實驗資源的生物文本中蛋白質(zhì)相互關(guān)系的半監(jiān)督抽取方法。為了解決以上技術(shù)問題,本發(fā)明提供一種生物文本中蛋白質(zhì)相互關(guān)系的半監(jiān)督抽取方法,按如下步驟進(jìn)行:(1)將已標(biāo)注蛋白質(zhì)相互作用信息的生物文本集做為訓(xùn)練樣本集L0,將未標(biāo)注蛋白質(zhì)相互作用信息的生物文本集做為未標(biāo)注樣本集U0,將所述訓(xùn)練樣本集L0和所述未標(biāo)注樣本集U0輸入預(yù)處理器,依次分別進(jìn)行蛋白質(zhì)命名實體識別、分句處理和指代消解處理,生成預(yù)處理過的文本集;(2)在步驟(1)中的預(yù)處理過的訓(xùn)練樣本集L0中提取候選蛋白質(zhì)作用對;(3)在候選蛋白質(zhì)作用對與其存在的句子和全文的基礎(chǔ)上提取SSW-SVMs分類模型需要的特征集F=(f1,f2......,fn),對特征集F的特征值通過半監(jiān)督學(xué)習(xí)方法進(jìn)行基于信息強(qiáng)度的加權(quán):,式中:,其中M為預(yù)定義的類別總數(shù),C為預(yù)定義的類別,在蛋白質(zhì)相互關(guān)系抽取的應(yīng)用中,類別總數(shù)為2,即M=2。C就表示類別,C1類(第一類)是描述相互作用的蛋白質(zhì)對,C2類(第二類)則是沒有相互作用的蛋白質(zhì)對。(4)基于信息強(qiáng)度加權(quán)的特征值訓(xùn)練SSW-SVMs分類模型,并對未標(biāo)注樣本集U0進(jìn)行標(biāo)注,利用主動學(xué)習(xí)方法選擇標(biāo)注后的U0樣本,將最有價值的生物文本加入到樣本標(biāo)注集S,更新訓(xùn)練樣本集,更新未標(biāo)注樣本集U1=U0\S,用更新后的訓(xùn)練樣本集L1和未標(biāo)注樣本集U1重復(fù)步驟(3)-(5),對分類過程進(jìn)行迭代,直到收斂。本發(fā)明進(jìn)一步限定的技術(shù)方案為,步驟(4)中利用主動學(xué)習(xí)方法選擇樣本的方法為:(1)利用5折疊(5-foldcrossvalidation)的交叉驗證方法訓(xùn)練SSW-SVMs模型,并在每次交叉驗證中得到未標(biāo)注樣本集U0中樣本xu的分類標(biāo)號,xu屬于類別i的概率為P(yi|xu),其中,yi是對樣本xu的分類標(biāo)號,由于本應(yīng)用是兩類分類問題,yi即為屬于第一類還是第二類,即這里求得樣本xu屬于第一類的概率和屬于第二類的概率。則樣本xu的最優(yōu)標(biāo)號為:,其中,yi是對樣本xu的分類標(biāo)號;Y為yi的取值范圍,即在本應(yīng)用中是第一類和第二類;yoptimal是樣本xu的最優(yōu)分類標(biāo)號,取決于其屬于這兩類的概率大小,取概率值大的標(biāo)號為其最優(yōu)分類標(biāo)號。(2)根據(jù)樣本xu到當(dāng)前SSW-SVMs分類面的距離對樣本進(jìn)行采樣,最靠近分類面的樣本被認(rèn)為是最具信息量的,計算xu到當(dāng)前SVM分類面的距離作為位置信息Position(xu)。(3)將樣本集U0中符合下列樣本選擇條件的樣本xu添加到樣本集S中:p(yoptimal|xu)≥threshold&Position(xu)<distance,其中,threshold是最優(yōu)分類樣本選取的閾值,distance是位置參數(shù)閾值。進(jìn)一步地,步驟(2)中所述的計算xu到當(dāng)前SVM分類面的距離作為位置信息Position(xu)的方法為:,其中,f(x)是SVM的目標(biāo)函數(shù):+b=∑i=1nwixi+b]]>,其中w是權(quán)重向量,b是閾值參數(shù),n是權(quán)重向量x的維數(shù)。再進(jìn)一步地,步驟(3)中所述的SSW-SVMs分類模型需要的特征包括上下文關(guān)系特征組、基于距離的特征組、模式匹配特征組和數(shù)據(jù)庫匹配特征組。本發(fā)明的有益效果是:本發(fā)明所述的一種生物文本中蛋白質(zhì)相互關(guān)系的半監(jiān)督抽取方法,針對文本挖掘方法在蛋白質(zhì)相互作用提取中的應(yīng)用,提出了一種簡潔高效的基于半監(jiān)督信息強(qiáng)度加權(quán)的支持向量機(jī)模型(Semi-SeupervisedWeightingSVMs,SSW-SVMs),使蛋白質(zhì)相互作用關(guān)系提取模型具有更好的性能、收斂快同時需要更少的已標(biāo)注數(shù)據(jù)集;本發(fā)明通過建立基于半監(jiān)督的信息強(qiáng)度加權(quán)和基于啟發(fā)式信息的主動學(xué)習(xí)的支持向量機(jī)分類模型,使其在較小的專家標(biāo)注的情況下具有較高的蛋白質(zhì)相互關(guān)系抽取效果;本發(fā)明通過在支持向量機(jī)自訓(xùn)練的過程中對豐富的特征值進(jìn)行信息強(qiáng)度加權(quán),能夠達(dá)到模型既簡潔又快速的要求;本發(fā)明及時、高效地發(fā)現(xiàn)其所關(guān)心的蛋白質(zhì)相互作用信息,自動提取蛋白質(zhì)相互作用注釋信息,提高研究人員獲取蛋白質(zhì)相互作用信息的效率,并且減少重復(fù)試驗帶來的資源浪費,挖掘到的蛋白質(zhì)相互作用有詳細(xì)的生物學(xué)實驗支持,真實可靠,對生物知識網(wǎng)絡(luò)的建立、生物關(guān)系的預(yù)測及新藥的研制均具有很重要的意義。附圖說明圖1為本發(fā)明所述的SSW-SVMs模型的算法框架流程圖;圖2為本發(fā)明所述的一種生物文本中蛋白質(zhì)相互關(guān)系的抽取方法的工作流程圖。具體實施方式實施例1本實施例提供的一種生物文本中蛋白質(zhì)相互關(guān)系的抽取方法,是一種在較少專家標(biāo)注負(fù)擔(dān)下具有較高性能的基于半監(jiān)督信息強(qiáng)度加權(quán)支持向量機(jī)(SSW-SVMs)的蛋白質(zhì)相互作用抽取模型。本方法所采用的主要技術(shù)為:(1)基于半監(jiān)督的信息強(qiáng)度加權(quán):在半監(jiān)督迭代過程中,對訓(xùn)練樣集提取的特征值進(jìn)行基于信息熵的加權(quán)計算,熵用來描述特定特征攜帶信息量,熵越大不確定性越大,所攜帶的信息量就越大。利用熵作為信息強(qiáng)度的度量對特征值進(jìn)行加權(quán),能反應(yīng)各個特征不同的性能,反應(yīng)其在分類模型建立過程中的不同重要性,幫助更好地建立模型。(2)基于啟發(fā)式信息的主動學(xué)習(xí):本發(fā)明主要利用兩種啟發(fā)式信息來幫助半監(jiān)督學(xué)習(xí)迭代過程中的樣本選取。首先,選擇那些在當(dāng)前分類器下分類結(jié)果最正確的樣本。然而,從直觀上來說,如果僅選取這些樣本進(jìn)行半監(jiān)督學(xué)習(xí),雖然引入錯誤標(biāo)號的概率最小,但是從樣本所包含的信息量這個角度來說,這些分類結(jié)果最明確的樣本所包含的信息最少,加入訓(xùn)練樣本集后對分類模型的影響最小。因此,其次,選擇那些最靠近支持向量機(jī)分類面的樣本,這些樣本被認(rèn)為最具信息量。通過這兩種啟發(fā)式信息,使得選出的樣本在分類準(zhǔn)確性和信息量之間達(dá)到了一個較好的平衡。在本發(fā)明中,這兩種啟發(fā)式信息均來自SVMs分類器本身,沒有增加模型的計算負(fù)擔(dān)。基于上述主要技術(shù),本發(fā)明所采用的SSW-SVMs模型的算法框架流程圖如圖1所示,具體操作步驟為:(1)初始已標(biāo)注樣本集和未標(biāo)注樣本集分別計為L0和U0。(2)在初始分類時,用L0作為訓(xùn)練樣本集,從中抽取豐富的特征集F=(f1,f2......,fn),包含有n個特征fi。(3)對特征集F的特征值通過半監(jiān)督學(xué)習(xí)方法進(jìn)行基于信息強(qiáng)度的加權(quán),式中:,其中M為分類的類別總數(shù);(4)基于信息強(qiáng)度加權(quán)的特征值訓(xùn)練SSW-SVMs分類模型,并對未標(biāo)注樣本集U0中樣本中的蛋白質(zhì)相互作用對進(jìn)行標(biāo)注,同時利用如下樣本選擇策略來尋找那些最有價值的樣本標(biāo)注集S:①投票信息:利用5折疊的交叉驗證方法訓(xùn)練SVMs模型,并在每次交叉驗證中得到對樣本集U0中樣本xu的分類標(biāo)號,xu屬于類別i的概率為P(yj|xu)則樣本xu的最優(yōu)標(biāo)號為:②位置信息:根據(jù)樣本xu到當(dāng)前SVM分類面的距離對樣本進(jìn)行采樣,最靠近分類面的樣本被認(rèn)為是最具信息量的。計算xu到當(dāng)前SVM分類面的距離作為位置信息Position(xu)。③將樣本集U0中符合下列樣本選擇條件的樣本xu添加到樣本集S中:p(yoptimal|xu)≥threshold&Position(xu)<distance更新訓(xùn)練樣本集,更新未標(biāo)注樣本集U1=U0\S用更新后的已標(biāo)注樣本L1和未標(biāo)注樣本集訓(xùn)U1重復(fù)(2)-(5),對分類過程進(jìn)行迭代,直到收斂。下面將上述技術(shù)方案應(yīng)用于生物文本中的蛋白質(zhì)相互關(guān)系的抽取技術(shù),數(shù)據(jù)來源于國際測評會議BioCreativeII.5的蛋白質(zhì)相互關(guān)系抽取任務(wù),以及生物醫(yī)學(xué)電子期刊網(wǎng)FEBSLetters。實施例中使用的訓(xùn)練數(shù)據(jù)集有30篇生物文獻(xiàn)全文,包含114個蛋白質(zhì)相互作用對;測試數(shù)據(jù)集有39篇生物文獻(xiàn)全文,包含123個蛋白質(zhì)相互作用對。將訓(xùn)練數(shù)據(jù)集作為已標(biāo)注樣本集L,同時,有150篇生物文獻(xiàn)全文作為未標(biāo)注樣本集U。在進(jìn)行蛋白質(zhì)相互關(guān)系提取前必須對所有的數(shù)據(jù)集進(jìn)行蛋白質(zhì)命名實體識別,標(biāo)注出文中所有蛋白質(zhì)名。生物文本中蛋白質(zhì)相互關(guān)系的半監(jiān)督抽取方法的流程圖如圖2所示,按如下步驟進(jìn)行:(1)將已標(biāo)注蛋白質(zhì)相互作用信息的生物文本集做為訓(xùn)練樣本集L0,將未標(biāo)注的生物文本集做為未標(biāo)注樣本集U0,將所述訓(xùn)練樣本集L0和所述未標(biāo)注樣本集U0輸入預(yù)處理器,依次分別進(jìn)行蛋白質(zhì)命名實體識別、分句處理和指代消解處理,生成預(yù)處理過的文本集。其中,分句處理是指將復(fù)雜句分解為一個主句和若干從句。指代消解處理是指在全文篇章中確定代詞指向哪個名詞短語的問題。(2)在步驟(1)中的預(yù)處理過的訓(xùn)練樣本集L0中提取候選蛋白質(zhì)作用對。(3)在候選蛋白質(zhì)作用對與其存在的句子和全文的基礎(chǔ)上提取SSW-SVMs分類模型需要的特征集F=(f1,f2......,fn),對特征集F的特征值通過半監(jiān)督學(xué)習(xí)方法進(jìn)行基于信息強(qiáng)度的加權(quán):,式中:,其中M為預(yù)定義的類別總數(shù),C為預(yù)定義的類別,在蛋白質(zhì)相互關(guān)系抽取的應(yīng)用中,類別總數(shù)為2,即M=2。C就表示類別,C1類(第一類)是該候選對描述了蛋白質(zhì)間的相互作用,C2類(第二類)則是該候選對沒有描述了蛋白質(zhì)間的相互作用。所述的SSW-SVMs分類模型需要的特征包括上下文關(guān)系特征組、基于距離的特征組、模式匹配特征組和數(shù)據(jù)庫匹配特征組。所述下文關(guān)系特征組是指描述候選蛋白質(zhì)作用關(guān)系對、作用對中的蛋白質(zhì)、相互作用關(guān)鍵詞以及上下文關(guān)系;所述基于距離的特征組是指描述候選蛋白質(zhì)關(guān)系對中蛋白質(zhì)和上下文的位置關(guān)系;所述模式匹配特征組是指描述候選蛋白質(zhì)作用關(guān)系與16個模式的匹配關(guān)系;所述數(shù)據(jù)庫匹配特征組是指描述候選蛋白質(zhì)作用關(guān)系與數(shù)據(jù)庫MINT和IntAct的匹配關(guān)系。(4)基于信息強(qiáng)度加權(quán)的特征值訓(xùn)練SSW-SVMs分類模型,并對U0中樣本進(jìn)行標(biāo)注,利用主動學(xué)習(xí)方法選擇樣本,將最有價值的生物文本加入到樣本標(biāo)注集S,更新訓(xùn)練樣本集,更新未標(biāo)注樣本集U1=U0\S,用更新后的訓(xùn)練樣本集L1和未標(biāo)注樣本集U1重復(fù)步驟(3)-(5),對分類過程進(jìn)行迭代,直到收斂。用更新后的訓(xùn)練樣本集L1重復(fù)步驟(3)中特征基于信息強(qiáng)度加權(quán)計算,新的訓(xùn)練樣本集L1提供了新的類別定義信息,用這些信息更新特征集F的權(quán)值,因此權(quán)值的獲取也是通過半監(jiān)督學(xué)習(xí)獲取的,可以反映在不同數(shù)據(jù)集大小的情況下不同特征攜帶的信息量,更進(jìn)一步加快模型的收斂。利用主動學(xué)習(xí)方法選擇樣本的方法為:①利用5折疊(5-foldcrossvalidation)的交叉驗證方法訓(xùn)練SSW-SVMs模型,并在每次交叉驗證中得到未標(biāo)注樣本集U0中樣本xu的分類標(biāo)號,xu屬于類別i的概率為P(yi|xu),其中,yi是對樣本xu的分類標(biāo)號,由于本應(yīng)用是兩類分類問題,yi即為屬于第一類還是第二類,即這里求得樣本xu屬于第一類的概率和屬于第二類的概率。則樣本xu的最優(yōu)標(biāo)號為:,其中,yi是對樣本xu的分類標(biāo)號;Y為yi的取值范圍,即在本應(yīng)用中是第一類和第二類;yoptimal是樣本xu的最優(yōu)分類標(biāo)號,取決于其屬于這兩類的概率大小,取概率值大的標(biāo)號為其最優(yōu)分類標(biāo)號。②根據(jù)樣本xu到當(dāng)前SSW-SVMs分類面的距離對樣本進(jìn)行采樣,最靠近分類面的樣本被認(rèn)為是最具信息量的,計算xu到當(dāng)前SVM分類面的距離作為位置信息Position(xu)。計算xu到當(dāng)前SVM分類面的距離作為位置信息Position(xu)的方法為:,其中,f(x)是SVM的目標(biāo)函數(shù):,其中w是權(quán)重向量,b是閾值參數(shù),n是權(quán)重向量x的維數(shù)。③將樣本集U0中符合下列樣本選擇條件的樣本xu添加到樣本集S中:p(yoptimal|xu)≥threshold&Position(xu)<distance。threshold是最優(yōu)分類樣本選取的參數(shù)(閾值),即當(dāng)這個樣本的最優(yōu)分類標(biāo)號概率大于threshold,這個樣本就是最優(yōu)分類樣本。distance是位置參數(shù)(閾值),即當(dāng)這個樣本距離分類面的距離小于distance,這個樣本就被選擇。這兩個值都是模型建立者設(shè)置的,當(dāng)兩個條件同時成立,該樣本就被選中,加入下一次訓(xùn)練集中。本發(fā)明中的SSW-SVMs模型將與其他模型的蛋白質(zhì)相互作用關(guān)系抽取模型進(jìn)行比較,比較結(jié)果如表1所示:表1:PrecisionRecallF-measureIterationsSSW-SVMs30.33%37.40%33.509SVMs20.00%23.60%21.7—SS-SVMs24.10%27.50%25.6913RS-SVMs27.13%28.50%27.8068其中SSW-SVMs是本發(fā)明中提出的基于半監(jiān)督信息強(qiáng)度加權(quán)支持向量機(jī)蛋白質(zhì)相互作用對抽取模型;SVMs是使用經(jīng)典的支持向量機(jī)模型,該模型是BioCreativeII.5測評會議上性能最好的模型,也是我們以前工作中建立的模型;SS-SVMs是經(jīng)典的自訓(xùn)練半監(jiān)督支持向量機(jī)模型,沒有使用本發(fā)明中提出的加權(quán)和樣本選擇方法;最后,RS-SVMs是使用了半監(jiān)督信息強(qiáng)度加權(quán)支持向量機(jī)模型,但使用了隨機(jī)樣本選取的方法。表中的數(shù)據(jù)均采用常用度量方法即利用混淆矩陣計算出來的,在混淆矩陣中:真正(truepositive,TP),對應(yīng)于被分類模型正確預(yù)測的正樣本數(shù);假負(fù)(falsenegative,FN),對應(yīng)于被分類模型錯誤預(yù)測為負(fù)類的正樣本數(shù);假正(falsepositive,FP),對應(yīng)于被分類模型錯誤預(yù)測為正類的負(fù)樣本數(shù);真負(fù)(truenegative,TN),對應(yīng)于被分類模型正確預(yù)測的負(fù)樣本數(shù)。因此,精度(precision)p=TP/(TP+FP);召回率(recall)r=TP/(TP+FN);F1度量(F-measure)=2*p*r/(p+r)。通過表格1中的模型性能(Precision,Recall,F-measure)和收斂速度(Iterations,迭代次數(shù))比較,我們可以看出,SSW-SVMs在少量已標(biāo)注數(shù)據(jù)集上,使蛋白質(zhì)相互作用關(guān)系提取模型具有更好的性能,同時收斂更快。除上述實施例外,本發(fā)明還可以有其他實施方式。凡采用等同替換或等效變換形成的技術(shù)方案,均落在本發(fā)明要求的保護(hù)范圍。