一種處理帶格式風(fēng)格文本的要素內(nèi)容抽取方法
基本信息
申請?zhí)?/td> | CN202110095807.8 | 申請日 | - |
公開(公告)號 | CN112800762A | 公開(公告)日 | 2021-05-14 |
申請公布號 | CN112800762A | 申請公布日 | 2021-05-14 |
分類號 | G06F40/289;G06F40/295;G06F40/126;G06F40/30;G06F16/35;G06N3/04 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 金鑫;李鵬輝 | 申請(專利權(quán))人 | 上海犀語科技有限公司 |
代理機(jī)構(gòu) | 上海樂泓專利代理事務(wù)所(普通合伙) | 代理人 | 蘇杰 |
地址 | 200082 上海市楊浦區(qū)偉德路6號1005-18室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明的一種處理帶格式風(fēng)格文本的要素內(nèi)容抽取方法及系統(tǒng),方法包括如下步驟:S100、事件檢測;S200、事件定義;S300、文本標(biāo)注;S400、模型訓(xùn)練;S500、特征提?。籗600、標(biāo)簽預(yù)測;系統(tǒng)包括事件檢測模塊和要素級別實體抽取模塊,事件檢測模塊將文本生成對應(yīng)的句子向量;采用BiLSTM?CRF對長文本中的句子進(jìn)行標(biāo)注,區(qū)分出每個相關(guān)的獨立事件,要素級別實體抽取模塊采用預(yù)訓(xùn)練好的BERT模型進(jìn)行特征提取,得到句子中每個字的嵌入向量,并捕捉雙向的語義依賴,利用CRF來學(xué)習(xí)一個最優(yōu)路徑,進(jìn)行實體級別的標(biāo)簽預(yù)測,可以提升文本數(shù)據(jù)的采集和錄入的時間,提升效率節(jié)約人工成本。 |
