一種基于機(jī)器學(xué)習(xí)的催化劑抽取方法
基本信息
申請(qǐng)?zhí)?/td> | CN202010220300.6 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN111401054A | 公開(kāi)(公告)日 | 2020-07-10 |
申請(qǐng)公布號(hào) | CN111401054A | 申請(qǐng)公布日 | 2020-07-10 |
分類(lèi)號(hào) | G06F40/284(2020.01)I;G06N20/00(2019.01)I | 分類(lèi) | - |
發(fā)明人 | 李鑫;沈偉;鮑琦 | 申請(qǐng)(專(zhuān)利權(quán))人 | 蘇州機(jī)數(shù)芯微科技有限公司 |
代理機(jī)構(gòu) | 合肥市長(zhǎng)遠(yuǎn)專(zhuān)利代理事務(wù)所(普通合伙) | 代理人 | 蘇州機(jī)數(shù)芯微科技有限公司 |
地址 | 215000江蘇省蘇州市蘇州工業(yè)園區(qū)金雞湖大道99號(hào)蘇州納米城1幢505-3室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提出的一種基于機(jī)器學(xué)習(xí)的催化劑抽取方法,包括以下步驟:獲取文本,并將文本中的詞語(yǔ)進(jìn)行分解并標(biāo)準(zhǔn)化處理;通過(guò)化學(xué)領(lǐng)域的文字標(biāo)注工具對(duì)分解后的詞語(yǔ)標(biāo)記相應(yīng)的POS標(biāo)記以及CHUNK標(biāo)記,將帶有POS標(biāo)記和CHUNK標(biāo)記的詞語(yǔ)進(jìn)行序列化形成特征序列;通過(guò)預(yù)設(shè)的抽取模型對(duì)特征序列進(jìn)行催化劑實(shí)體的識(shí)別抽取。本發(fā)明首先通過(guò)詞語(yǔ)分解,實(shí)現(xiàn)了文本的特征提取,并實(shí)現(xiàn)了對(duì)文本冗余信息的清洗,降低了后續(xù)處理的工作量,提高了工作效率;同時(shí),通過(guò)特征提取,也實(shí)現(xiàn)了對(duì)文本的精煉,從而提高了信息抽取精確程度。且,本實(shí)施方式中,通過(guò)機(jī)器學(xué)習(xí)模型抽取催化劑,智能化程度高,并且可靠。?? |
