一種基于分類算法的文檔表格內(nèi)容識(shí)別方法及裝置
基本信息
申請(qǐng)?zhí)?/td> | CN201911411028.3 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN111209831A | 公開(公告)日 | 2020-05-29 |
申請(qǐng)公布號(hào) | CN111209831A | 申請(qǐng)公布日 | 2020-05-29 |
分類號(hào) | G06K9/00 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 李鵬輝;金鑫;邱錫鵬 | 申請(qǐng)(專利權(quán))人 | 上海犀語科技有限公司 |
代理機(jī)構(gòu) | - | 代理人 | - |
地址 | 200433 上海市楊浦區(qū)大學(xué)路322號(hào) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于分類算法的文檔表格內(nèi)容識(shí)別方法,包含以下步驟:A、對(duì)文檔進(jìn)行解析;B、實(shí)現(xiàn)文表分離;C、根據(jù)表格第一列和表格前的文本對(duì)表格進(jìn)行分類;D、將表格還原并結(jié)構(gòu)化入庫。本發(fā)明通過利用深度學(xué)習(xí)技術(shù)巧妙地設(shè)計(jì)相關(guān)的分類模型,高效精確地實(shí)現(xiàn)文表分離、表名識(shí)別、表格還原等模塊,最后準(zhǔn)確地實(shí)現(xiàn)表格內(nèi)容識(shí)別且結(jié)構(gòu)化入庫,避免了大量的規(guī)則,開發(fā)成本小且易于維護(hù)。 |
