數(shù)字文件信息實體標(biāo)注和識別方法、裝置和系統(tǒng)

基本信息

申請?zhí)?/td> CN202110848292.4 申請日 -
公開(公告)號 CN113299375A 公開(公告)日 2021-08-24
申請公布號 CN113299375A 申請公布日 2021-08-24
分類號 G16H30/40(2018.01)I;G16H30/20(2018.01)I;G16H50/70(2018.01)I;G06F40/295(2020.01)I;G06Q40/08(2012.01)I;G06K9/00(2006.01)I 分類 物理
發(fā)明人 陳冠偉 申請(專利權(quán))人 好心情健康產(chǎn)業(yè)集團(tuán)有限公司
代理機構(gòu) 北京和信華成知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 張永輝
地址 100080北京市海淀區(qū)北四環(huán)西路52號16層1601、1602房間
法律狀態(tài) -

摘要

摘要 本發(fā)明公開一種數(shù)字文件信息實體標(biāo)注和識別方法、系統(tǒng)及設(shè)備,提取數(shù)字文件中的全文信息或收集做好切詞準(zhǔn)備的數(shù)據(jù),將數(shù)據(jù)輸入標(biāo)簽函數(shù),基于正則匹配對信息進(jìn)行分詞訓(xùn)練并產(chǎn)生標(biāo)簽,根據(jù)模型的入?yún)?,將?biāo)簽數(shù)據(jù)和原始數(shù)據(jù)整合后,輸入到模型中進(jìn)行實體識別模型訓(xùn)練產(chǎn)出了結(jié)果集以及相應(yīng)的評分結(jié)果。本發(fā)明通過模型訓(xùn)練,解決了海量數(shù)字文件的信息實體標(biāo)注的時效和成本問題,并且通過程序?qū)崿F(xiàn)的方式讓非算法人員可以快速實現(xiàn)操作,屬于工具類的極大創(chuàng)新,可以廣泛應(yīng)用于數(shù)字應(yīng)用領(lǐng)域的數(shù)據(jù)標(biāo)注,為互聯(lián)網(wǎng)業(yè)務(wù)和資源對接等提供了便利,大量節(jié)約時間和資金成本。