一種半結構文本的信息提取裝置

基本信息

申請?zhí)?/td> CN202110414726.X 申請日 -
公開(公告)號 CN113326690A 公開(公告)日 2021-08-31
申請公布號 CN113326690A 申請公布日 2021-08-31
分類號 G06F40/205(2020.01)I;G06F40/284(2020.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分類 計算;推算;計數;
發(fā)明人 周靖宇;袁陽平;劉宇軒;景泳霖;鄒鴻岳 申請(專利權)人 北京快確信息科技有限公司
代理機構 深圳華屹智林知識產權代理事務所(普通合伙) 代理人 陳裕恒
地址 201700上海市青浦區(qū)浦倉路485號1幢2層
法律狀態(tài) -

摘要

摘要 一種半結構文本的信息提取裝置,它涉及AI技術領域,具體涉及一種半結構文本的信息提取裝置。它包括了對句子的分詞和結構提取;編碼層模塊,采用Albert或LSTM對文本的字符進行embedding;圖注意力網絡結構層,用于將融合了“結構特征”的詞向量融合到“字符”向量的表達上;不同粒度特征的聚合層,采用transformer的decoder方式進行聚合;解碼層,采用成熟的CRF算法,對編碼結果R進行解碼,獲得最終序列標注的結果。采用上述技術方案后,本發(fā)明有益效果為:它能夠實現對文本中“結構特征”的學習,在針對金融領域的數據抽取中能提升2%?5%以上的準確率。