一種處理帶格式風(fēng)格文本的要素內(nèi)容抽取方法

基本信息

申請?zhí)?/td> CN202110095807.8 申請日 -
公開(公告)號 CN112800762A 公開(公告)日 2021-05-14
申請公布號 CN112800762A 申請公布日 2021-05-14
分類號 G06F40/289;G06F40/295;G06F40/126;G06F40/30;G06F16/35;G06N3/04 分類 計算;推算;計數(shù);
發(fā)明人 金鑫;李鵬輝 申請(專利權(quán))人 上海犀語科技有限公司
代理機(jī)構(gòu) 上海樂泓專利代理事務(wù)所(普通合伙) 代理人 蘇杰
地址 200082 上海市楊浦區(qū)偉德路6號1005-18室
法律狀態(tài) -

摘要

摘要 本發(fā)明的一種處理帶格式風(fēng)格文本的要素內(nèi)容抽取方法及系統(tǒng),方法包括如下步驟:S100、事件檢測;S200、事件定義;S300、文本標(biāo)注;S400、模型訓(xùn)練;S500、特征提?。籗600、標(biāo)簽預(yù)測;系統(tǒng)包括事件檢測模塊和要素級別實體抽取模塊,事件檢測模塊將文本生成對應(yīng)的句子向量;采用BiLSTM?CRF對長文本中的句子進(jìn)行標(biāo)注,區(qū)分出每個相關(guān)的獨立事件,要素級別實體抽取模塊采用預(yù)訓(xùn)練好的BERT模型進(jìn)行特征提取,得到句子中每個字的嵌入向量,并捕捉雙向的語義依賴,利用CRF來學(xué)習(xí)一個最優(yōu)路徑,進(jìn)行實體級別的標(biāo)簽預(yù)測,可以提升文本數(shù)據(jù)的采集和錄入的時間,提升效率節(jié)約人工成本。