一種生物文本中蛋白質(zhì)相互關(guān)系的半監(jiān)督抽取方法
基本信息
申請?zhí)?/td> | CN201310072341.5 | 申請日 | - |
公開(公告)號 | CN103136361A | 公開(公告)日 | 2013-06-05 |
申請公布號 | CN103136361A | 申請公布日 | 2013-06-05 |
分類號 | G06F17/30(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 陳一飛 | 申請(專利權(quán))人 | 南京睿暉數(shù)據(jù)技術(shù)有限公司 |
代理機構(gòu) | 南京蘇科專利代理有限責(zé)任公司 | 代理人 | 姚姣陽 |
地址 | 211815 江蘇省南京市浦口區(qū)雨山西路86號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種生物文本中蛋白質(zhì)相互關(guān)系的半監(jiān)督抽取方法,按如下步驟進行:(1)將訓(xùn)練樣本集和未標(biāo)注樣本集輸入預(yù)處理器,分別進行蛋白質(zhì)命名實體識別、分句處理和指代消解處理;(2)在預(yù)處理過的訓(xùn)練樣本集中提取候選蛋白質(zhì)作用對;(3)在候選蛋白質(zhì)作用對中提取分類模型需要的特征集,對特征集的特征值進行基于信息強度的加權(quán);(4)將基于信息強度加權(quán)的特征值與未標(biāo)注樣本集一起輸入到分類模型中進行半監(jiān)督學(xué)習(xí),對中樣本進行標(biāo)注,將最有價值的生物文本加入到樣本標(biāo)注集,用更新訓(xùn)練樣本集和未標(biāo)注樣本集,對分類過程進行迭代,直到收斂。本發(fā)明簡潔高效、性能高、收斂快、抽取效率高并保證數(shù)據(jù)真實性、節(jié)約實驗資源。 |
