一種結(jié)合多任務(wù)學(xué)習(xí)的跨文檔實(shí)體識別方法

基本信息

申請?zhí)?/td> CN202011290323.0 申請日 -
公開(公告)號 CN112347784A 公開(公告)日 2021-02-09
申請公布號 CN112347784A 申請公布日 2021-02-09
分類號 G06F40/295(2020.01)I; 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 王東升;范紅杰;胡振宇;柳軍飛 申請(專利權(quán))人 湖南國發(fā)控股有限公司
代理機(jī)構(gòu) 長沙市標(biāo)致專利代理事務(wù)所(普通合伙) 代理人 蔣佳玉
地址 410011湖南省長沙市雨花區(qū)美林街35號鹽船山生態(tài)園1棟2701房
法律狀態(tài) -

摘要

摘要 一種結(jié)合多任務(wù)學(xué)習(xí)的跨文檔實(shí)體識別方法,本方法的整體架構(gòu)中包括數(shù)據(jù)預(yù)處理模塊、詞嵌入與字符嵌入模塊、句子級BiLSTM、聯(lián)合跨文檔的CRF模塊、跨文檔注意力模塊和基于多任務(wù)學(xué)習(xí)的多分類與損失計(jì)算模塊。本發(fā)明中結(jié)合多任務(wù)學(xué)習(xí)的跨文檔實(shí)體識別方法,使用attention機(jī)制生成每個(gè)token的跨文檔語義表示,利用多任務(wù)學(xué)習(xí)設(shè)計(jì)輔助任務(wù)提高實(shí)體識別準(zhǔn)確率。無需詞性等額外特征,有效利用同一token在不同文檔的重復(fù)出現(xiàn),建立跨文檔語義關(guān)聯(lián),提高實(shí)體識別準(zhǔn)確率。??