一種基于圖神經(jīng)網(wǎng)絡的表格結(jié)構(gòu)識別方法

基本信息

申請?zhí)?/td> CN202010390152.2 申請日 -
公開(公告)號 CN111597943A 公開(公告)日 2020-08-28
申請公布號 CN111597943A 申請公布日 2020-08-28
分類號 G06K9/00;G06K9/62 分類 計算;推算;計數(shù);
發(fā)明人 楊紅飛;金霞;韓瑞峰 申請(專利權(quán))人 杭州火石數(shù)智科技有限公司
代理機構(gòu) 杭州求是專利事務所有限公司 代理人 劉靜
地址 310053 浙江省杭州市濱江區(qū)江南大道3880號華榮時代大廈1310室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于圖神經(jīng)網(wǎng)絡的表格結(jié)構(gòu)識別方法,該方法將pdf文檔的每一頁轉(zhuǎn)為圖像,對每一張輸入的圖像,識別出表格的位置,截取出表格區(qū)域;對表格區(qū)域識別文字blob塊;對每個blob找到鄰近的blob集合,從而建立blob圖結(jié)構(gòu);對blob圖建立對偶圖結(jié)構(gòu),將圖結(jié)點連接預測問題轉(zhuǎn)變?yōu)閳D結(jié)點分類問題;訓練圖結(jié)點分類模型;對blob之間的關(guān)系整理,得到表格的單元格結(jié)構(gòu);本發(fā)明將圖神經(jīng)網(wǎng)絡應用到表格結(jié)構(gòu)識別中,將表格結(jié)構(gòu)識別建模為圖結(jié)點分類,并加入反饋調(diào)節(jié)網(wǎng)絡及條件隨機場,對圖結(jié)點分類結(jié)果進行基于表格整體結(jié)構(gòu)合理性的修正,提高了識別準確率。