一種生物文本中蛋白質(zhì)相互關(guān)系的半監(jiān)督抽取方法

基本信息

申請?zhí)?/td> CN201310072341.5 申請日 -
公開(公告)號 CN103136361A 公開(公告)日 2013-06-05
申請公布號 CN103136361A 申請公布日 2013-06-05
分類號 G06F17/30(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 陳一飛 申請(專利權(quán))人 南京睿暉數(shù)據(jù)技術(shù)有限公司
代理機構(gòu) 南京蘇科專利代理有限責(zé)任公司 代理人 姚姣陽
地址 211815 江蘇省南京市浦口區(qū)雨山西路86號
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種生物文本中蛋白質(zhì)相互關(guān)系的半監(jiān)督抽取方法,按如下步驟進行:(1)將訓(xùn)練樣本集和未標(biāo)注樣本集輸入預(yù)處理器,分別進行蛋白質(zhì)命名實體識別、分句處理和指代消解處理;(2)在預(yù)處理過的訓(xùn)練樣本集中提取候選蛋白質(zhì)作用對;(3)在候選蛋白質(zhì)作用對中提取分類模型需要的特征集,對特征集的特征值進行基于信息強度的加權(quán);(4)將基于信息強度加權(quán)的特征值與未標(biāo)注樣本集一起輸入到分類模型中進行半監(jiān)督學(xué)習(xí),對中樣本進行標(biāo)注,將最有價值的生物文本加入到樣本標(biāo)注集,用更新訓(xùn)練樣本集和未標(biāo)注樣本集,對分類過程進行迭代,直到收斂。本發(fā)明簡潔高效、性能高、收斂快、抽取效率高并保證數(shù)據(jù)真實性、節(jié)約實驗資源。