一種基于數(shù)字人文的實(shí)體識(shí)別方法

基本信息

申請(qǐng)?zhí)?/td> CN202110515350.1 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN113190541A 公開(kāi)(公告)日 2021-07-30
申請(qǐng)公布號(hào) CN113190541A 申請(qǐng)公布日 2021-07-30
分類號(hào) G06F16/215;G06F40/295;G06F40/242;G06F40/30;G06N3/04 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 滕康;梅楚璇;徐永潛;呂強(qiáng);段飛虎;顧君;張宏偉 申請(qǐng)(專利權(quán))人 《中國(guó)學(xué)術(shù)期刊(光盤版)》電子雜志社有限公司
代理機(jī)構(gòu) 北京天奇智新知識(shí)產(chǎn)權(quán)代理有限公司 代理人 陳新勝
地址 100084 北京市海淀區(qū)清華園清華大學(xué)36區(qū)1407、1408、1409
法律狀態(tài) -

摘要

摘要 本發(fā)明公開(kāi)了一種基于數(shù)字人文的實(shí)體識(shí)別方法,包括以下步驟:從數(shù)據(jù)庫(kù)中提取相關(guān)數(shù)據(jù),并將數(shù)據(jù)庫(kù)中相關(guān)數(shù)據(jù)表進(jìn)行處理,刪除臟數(shù)據(jù),清理不相關(guān)樣本和字段;對(duì)于現(xiàn)今地址、朝代、字號(hào)采用規(guī)則匹配的方式進(jìn)行實(shí)體提??;對(duì)人名、古地址、官職、機(jī)構(gòu)名使用Bert?BiLSTM?CRF模型進(jìn)行實(shí)體提取;將提取正確的實(shí)體加入到詞典中;在有新樣本加入時(shí),重復(fù)步驟,并將提取正確的實(shí)體加入到相應(yīng)的詞典中;在模型效果達(dá)到要求后,對(duì)提取出的實(shí)體,進(jìn)行人工審核,以保證提取實(shí)體的準(zhǔn)確性。