互聯(lián)網(wǎng)文本實(shí)體識(shí)別方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)

基本信息

申請(qǐng)?zhí)?/td> CN202110287954.5 申請(qǐng)日 -
公開(公告)號(hào) CN113051921A 公開(公告)日 2021-06-29
申請(qǐng)公布號(hào) CN113051921A 申請(qǐng)公布日 2021-06-29
分類號(hào) G06F40/295;G06F16/953;G06F40/242 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 李濤;趙沖;駱飛;李青龍 申請(qǐng)(專利權(quán))人 北京智慧星光信息技術(shù)有限公司
代理機(jī)構(gòu) 北京智宇正信知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 李明卓
地址 100080 北京市海淀區(qū)海淀大街8號(hào)A座22層A區(qū)
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種互聯(lián)網(wǎng)文本實(shí)體識(shí)別方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì),該方法包括:將歷史互聯(lián)網(wǎng)文本輸入實(shí)體識(shí)別AI模型中得到初始化全量詞表;根據(jù)初始化全量詞表構(gòu)建全量詞字典樹;根據(jù)實(shí)體識(shí)別AI模型和全量詞字典樹對(duì)實(shí)時(shí)抽樣互聯(lián)網(wǎng)文本進(jìn)行識(shí)別處理得到精選詞表;根據(jù)精選詞表構(gòu)建精選詞字典樹;按照預(yù)設(shè)中文斷句符號(hào)對(duì)待識(shí)別實(shí)時(shí)互聯(lián)網(wǎng)文本進(jìn)行拆分得到拆分子句;將拆分子句與精選詞字典樹進(jìn)行匹配得到匹配子句;將匹配子句按照預(yù)設(shè)順序進(jìn)行拼接后輸入實(shí)體識(shí)別AI模型得到實(shí)體識(shí)別結(jié)果,按照實(shí)體類別進(jìn)行類別輸出。根據(jù)精選詞表對(duì)待識(shí)別實(shí)時(shí)互聯(lián)網(wǎng)文本進(jìn)行逐句篩選,只留下可能含有實(shí)體的句子,從而大幅度降低計(jì)算的文本量,降低了運(yùn)行成本。