一種結(jié)合多任務(wù)學(xué)習(xí)的跨文檔實(shí)體識別方法
基本信息
申請?zhí)?/td> | CN202011290323.0 | 申請日 | - |
公開(公告)號 | CN112347784A | 公開(公告)日 | 2021-02-09 |
申請公布號 | CN112347784A | 申請公布日 | 2021-02-09 |
分類號 | G06F40/295(2020.01)I; | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 王東升;范紅杰;胡振宇;柳軍飛 | 申請(專利權(quán))人 | 湖南國發(fā)控股有限公司 |
代理機(jī)構(gòu) | 長沙市標(biāo)致專利代理事務(wù)所(普通合伙) | 代理人 | 蔣佳玉 |
地址 | 410011湖南省長沙市雨花區(qū)美林街35號鹽船山生態(tài)園1棟2701房 | ||
法律狀態(tài) | - |
摘要
摘要 | 一種結(jié)合多任務(wù)學(xué)習(xí)的跨文檔實(shí)體識別方法,本方法的整體架構(gòu)中包括數(shù)據(jù)預(yù)處理模塊、詞嵌入與字符嵌入模塊、句子級BiLSTM、聯(lián)合跨文檔的CRF模塊、跨文檔注意力模塊和基于多任務(wù)學(xué)習(xí)的多分類與損失計(jì)算模塊。本發(fā)明中結(jié)合多任務(wù)學(xué)習(xí)的跨文檔實(shí)體識別方法,使用attention機(jī)制生成每個(gè)token的跨文檔語義表示,利用多任務(wù)學(xué)習(xí)設(shè)計(jì)輔助任務(wù)提高實(shí)體識別準(zhǔn)確率。無需詞性等額外特征,有效利用同一token在不同文檔的重復(fù)出現(xiàn),建立跨文檔語義關(guān)聯(lián),提高實(shí)體識別準(zhǔn)確率。?? |
