技術(shù)總結(jié)
本發(fā)明公開了一種生物文本中蛋白質(zhì)相互關(guān)系的半監(jiān)督抽取方法,按如下步驟進(jìn)行:(1)將訓(xùn)練樣本集和未標(biāo)注樣本集輸入預(yù)處理器,分別進(jìn)行蛋白質(zhì)命名實(shí)體識別、分句處理和指代消解處理;(2)在預(yù)處理過的訓(xùn)練樣本集中提取候選蛋白質(zhì)作用對;(3)在候選蛋白質(zhì)作用對中提取分類模型需要的特征集,對特征集的特征值進(jìn)行基于信息強(qiáng)度的加權(quán);(4)將基于信息強(qiáng)度加權(quán)的特征值與未標(biāo)注樣本集一起輸入到分類模型中進(jìn)行半監(jiān)督學(xué)習(xí),對中樣本進(jìn)行標(biāo)注,將最有價(jià)值的生物文本加入到樣本標(biāo)注集,用更新訓(xùn)練樣本集和未標(biāo)注樣本集,對分類過程進(jìn)行迭代,直到收斂。本發(fā)明簡潔高效、性能高、收斂快、抽取效率高并保證數(shù)據(jù)真實(shí)性、節(jié)約實(shí)驗(yàn)資源。
技術(shù)研發(fā)人員:陳一飛
受保護(hù)的技術(shù)使用者:陳一飛
文檔號碼:201310072341
技術(shù)研發(fā)日:2013.03.07
技術(shù)公布日:2016.11.30