一種基于機(jī)器學(xué)習(xí)的催化劑抽取方法

基本信息

申請(qǐng)?zhí)?/td> CN202010220300.6 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN111401054A 公開(kāi)(公告)日 2020-07-10
申請(qǐng)公布號(hào) CN111401054A 申請(qǐng)公布日 2020-07-10
分類(lèi)號(hào) G06F40/284(2020.01)I;G06N20/00(2019.01)I 分類(lèi) -
發(fā)明人 李鑫;沈偉;鮑琦 申請(qǐng)(專(zhuān)利權(quán))人 蘇州機(jī)數(shù)芯微科技有限公司
代理機(jī)構(gòu) 合肥市長(zhǎng)遠(yuǎn)專(zhuān)利代理事務(wù)所(普通合伙) 代理人 蘇州機(jī)數(shù)芯微科技有限公司
地址 215000江蘇省蘇州市蘇州工業(yè)園區(qū)金雞湖大道99號(hào)蘇州納米城1幢505-3室
法律狀態(tài) -

摘要

摘要 本發(fā)明提出的一種基于機(jī)器學(xué)習(xí)的催化劑抽取方法,包括以下步驟:獲取文本,并將文本中的詞語(yǔ)進(jìn)行分解并標(biāo)準(zhǔn)化處理;通過(guò)化學(xué)領(lǐng)域的文字標(biāo)注工具對(duì)分解后的詞語(yǔ)標(biāo)記相應(yīng)的POS標(biāo)記以及CHUNK標(biāo)記,將帶有POS標(biāo)記和CHUNK標(biāo)記的詞語(yǔ)進(jìn)行序列化形成特征序列;通過(guò)預(yù)設(shè)的抽取模型對(duì)特征序列進(jìn)行催化劑實(shí)體的識(shí)別抽取。本發(fā)明首先通過(guò)詞語(yǔ)分解,實(shí)現(xiàn)了文本的特征提取,并實(shí)現(xiàn)了對(duì)文本冗余信息的清洗,降低了后續(xù)處理的工作量,提高了工作效率;同時(shí),通過(guò)特征提取,也實(shí)現(xiàn)了對(duì)文本的精煉,從而提高了信息抽取精確程度。且,本實(shí)施方式中,通過(guò)機(jī)器學(xué)習(xí)模型抽取催化劑,智能化程度高,并且可靠。??