一種基于模板生成的化學(xué)反應(yīng)抽取器和抽取方法

基本信息

申請(qǐng)?zhí)?/td> CN202010232913.1 申請(qǐng)日 -
公開(公告)號(hào) CN111401050A 公開(公告)日 2020-07-10
申請(qǐng)公布號(hào) CN111401050A 申請(qǐng)公布日 2020-07-10
分類號(hào) G06F40/279(2020.01)I 分類 -
發(fā)明人 李鑫;張百成;鮑琦 申請(qǐng)(專利權(quán))人 蘇州機(jī)數(shù)芯微科技有限公司
代理機(jī)構(gòu) 合肥市長(zhǎng)遠(yuǎn)專利代理事務(wù)所(普通合伙) 代理人 蘇州機(jī)數(shù)芯微科技有限公司
地址 215000江蘇省蘇州市蘇州工業(yè)園區(qū)金雞湖大道99號(hào)蘇州納米城1幢505-3室
法律狀態(tài) -

摘要

摘要 本發(fā)明提出的一種基于模板生成的化學(xué)反應(yīng)抽取方法,包括:對(duì)csv文件中的摘要和標(biāo)題進(jìn)行合并后切分,獲得作為抽取程序輸入對(duì)象的句子集合;將獲取的句子集合隊(duì)列化,并獲得反應(yīng)模板;將隊(duì)列化的句子集合和反應(yīng)模板加載到抽取程序中,抽取程序通過(guò)反應(yīng)模板對(duì)句子集合進(jìn)行抽取,獲得每一個(gè)句子的化學(xué)實(shí)體和反應(yīng),化學(xué)實(shí)體包括反應(yīng)物和反應(yīng)產(chǎn)物;對(duì)抽取的化學(xué)實(shí)體和反應(yīng)進(jìn)行過(guò)濾,篩選反應(yīng);根據(jù)分類器對(duì)篩選出的反應(yīng)進(jìn)行分類。本發(fā)明通過(guò)構(gòu)建自然語(yǔ)言處理系統(tǒng)從PubMed中自動(dòng)提取涵蓋化學(xué)物質(zhì)的反應(yīng)??紤]到文獻(xiàn)中摘要作為總覽全文的濃縮段落,因此本發(fā)明主要是從PubMed摘要中提取單個(gè)句子中的反應(yīng),此方法也可以處理描述多個(gè)反應(yīng)的句子。??