一種生物文本中蛋白質(zhì)相互關(guān)系的半監(jiān)督抽取方法
基本信息
申請(qǐng)?zhí)?/td> | CN201310072341.5 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN103136361B | 公開(公告)日 | 2016-11-30 |
申請(qǐng)公布號(hào) | CN103136361B | 申請(qǐng)公布日 | 2016-11-30 |
分類號(hào) | G06F17/30(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 陳一飛 | 申請(qǐng)(專利權(quán))人 | 南京睿暉數(shù)據(jù)技術(shù)有限公司 |
代理機(jī)構(gòu) | 南京蘇科專利代理有限責(zé)任公司 | 代理人 | 姚姣陽 |
地址 | 211815 江蘇省南京市浦口區(qū)雨山西路86號(hào) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種生物文本中蛋白質(zhì)相互關(guān)系的半監(jiān)督抽取方法,按如下步驟進(jìn)行:(1)將訓(xùn)練樣本集和未標(biāo)注樣本集輸入預(yù)處理器,分別進(jìn)行蛋白質(zhì)命名實(shí)體識(shí)別、分句處理和指代消解處理;(2)在預(yù)處理過的訓(xùn)練樣本集中提取候選蛋白質(zhì)作用對(duì);(3)在候選蛋白質(zhì)作用對(duì)中提取分類模型需要的特征集,對(duì)特征集的特征值進(jìn)行基于信息強(qiáng)度的加權(quán);(4)將基于信息強(qiáng)度加權(quán)的特征值與未標(biāo)注樣本集一起輸入到分類模型中進(jìn)行半監(jiān)督學(xué)習(xí),對(duì)中樣本進(jìn)行標(biāo)注,將最有價(jià)值的生物文本加入到樣本標(biāo)注集,用更新訓(xùn)練樣本集和未標(biāo)注樣本集,對(duì)分類過程進(jìn)行迭代,直到收斂。本發(fā)明簡(jiǎn)潔高效、性能高、收斂快、抽取效率高并保證數(shù)據(jù)真實(shí)性、節(jié)約實(shí)驗(yàn)資源。 |
