一種從PubMed文獻(xiàn)準(zhǔn)確識別分子相互作用及其極性和方向性方法

基本信息

申請?zhí)?/td> CN201910571327.7 申請日 -
公開(公告)號 CN110349620A 公開(公告)日 2019-10-18
申請公布號 CN110349620A 申請公布日 2019-10-18
分類號 G16B15/00;G16B20/00;G06K9/62 分類 物理
發(fā)明人 汪佳宏;章建平;黃仲曦;潘星華 申請(專利權(quán))人 廣州序科碼生物技術(shù)有限責(zé)任公司
代理機(jī)構(gòu) 廣州三環(huán)專利商標(biāo)代理有限公司 代理人 廣州序科碼生物技術(shù)有限責(zé)任公司;南方醫(yī)科大學(xué)
地址 510530 廣東省廣州市廣州高新技術(shù)產(chǎn)業(yè)開發(fā)區(qū)科學(xué)城開源大道11號B3棟905室
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種從PubMed文獻(xiàn)準(zhǔn)確識別分子相互作用及其極性和方向性方法:利用PubMed文獻(xiàn)挖掘的形式在醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫識別含有至少兩個(gè)基因獲得候選證據(jù)句子,收集訓(xùn)練數(shù)據(jù),收集互作詞并對其分類,簡化訓(xùn)練語句提取描述基因調(diào)控的常見表達(dá)模式;將常見表達(dá)模式制定Semgrex表達(dá)式,依存樹上抓取兩兩基因和互作詞的三元關(guān)系,確定分子相互作用的方向,并根據(jù)上下文語義校正和明確分子相互作用及其極性,在訓(xùn)練集上反復(fù)檢驗(yàn)和優(yōu)化識別方法,最終將建立的基因調(diào)控識別方法應(yīng)用于醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫的候選證據(jù)句子的識別,獲得準(zhǔn)確的分子相互作用及其極性和方向。本發(fā)明最大的優(yōu)點(diǎn)是通過表達(dá)模式和互作詞的限定提高識別的準(zhǔn)確率。