數(shù)字文件信息實體標(biāo)注和識別方法、裝置和系統(tǒng)
基本信息
申請?zhí)?/td> | CN202110848292.4 | 申請日 | - |
公開(公告)號 | CN113299375A | 公開(公告)日 | 2021-08-24 |
申請公布號 | CN113299375A | 申請公布日 | 2021-08-24 |
分類號 | G16H30/40(2018.01)I;G16H30/20(2018.01)I;G16H50/70(2018.01)I;G06F40/295(2020.01)I;G06Q40/08(2012.01)I;G06K9/00(2006.01)I | 分類 | 物理 |
發(fā)明人 | 陳冠偉 | 申請(專利權(quán))人 | 好心情健康產(chǎn)業(yè)集團(tuán)有限公司 |
代理機構(gòu) | 北京和信華成知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 張永輝 |
地址 | 100080北京市海淀區(qū)北四環(huán)西路52號16層1601、1602房間 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開一種數(shù)字文件信息實體標(biāo)注和識別方法、系統(tǒng)及設(shè)備,提取數(shù)字文件中的全文信息或收集做好切詞準(zhǔn)備的數(shù)據(jù),將數(shù)據(jù)輸入標(biāo)簽函數(shù),基于正則匹配對信息進(jìn)行分詞訓(xùn)練并產(chǎn)生標(biāo)簽,根據(jù)模型的入?yún)?,將?biāo)簽數(shù)據(jù)和原始數(shù)據(jù)整合后,輸入到模型中進(jìn)行實體識別模型訓(xùn)練產(chǎn)出了結(jié)果集以及相應(yīng)的評分結(jié)果。本發(fā)明通過模型訓(xùn)練,解決了海量數(shù)字文件的信息實體標(biāo)注的時效和成本問題,并且通過程序?qū)崿F(xiàn)的方式讓非算法人員可以快速實現(xiàn)操作,屬于工具類的極大創(chuàng)新,可以廣泛應(yīng)用于數(shù)字應(yīng)用領(lǐng)域的數(shù)據(jù)標(biāo)注,為互聯(lián)網(wǎng)業(yè)務(wù)和資源對接等提供了便利,大量節(jié)約時間和資金成本。 |
