一種基于圖神經(jīng)網(wǎng)絡(luò)的表格結(jié)構(gòu)識(shí)別方法

基本信息

申請(qǐng)?zhí)?/td> CN202010390152.2 申請(qǐng)日 -
公開(公告)號(hào) CN111597943B 公開(公告)日 2021-09-03
申請(qǐng)公布號(hào) CN111597943B 申請(qǐng)公布日 2021-09-03
分類號(hào) G06K9/00;G06K9/62 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 楊紅飛;金霞;韓瑞峰 申請(qǐng)(專利權(quán))人 杭州火石數(shù)智科技有限公司
代理機(jī)構(gòu) 杭州求是專利事務(wù)所有限公司 代理人 劉靜
地址 310053 浙江省杭州市濱江區(qū)江南大道3880號(hào)華榮時(shí)代大廈1310室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于圖神經(jīng)網(wǎng)絡(luò)的表格結(jié)構(gòu)識(shí)別方法,該方法將pdf文檔的每一頁轉(zhuǎn)為圖像,對(duì)每一張輸入的圖像,識(shí)別出表格的位置,截取出表格區(qū)域;對(duì)表格區(qū)域識(shí)別文字blob塊;對(duì)每個(gè)blob找到鄰近的blob集合,從而建立blob圖結(jié)構(gòu);對(duì)blob圖建立對(duì)偶圖結(jié)構(gòu),將圖結(jié)點(diǎn)連接預(yù)測問題轉(zhuǎn)變?yōu)閳D結(jié)點(diǎn)分類問題;訓(xùn)練圖結(jié)點(diǎn)分類模型;對(duì)blob之間的關(guān)系整理,得到表格的單元格結(jié)構(gòu);本發(fā)明將圖神經(jīng)網(wǎng)絡(luò)應(yīng)用到表格結(jié)構(gòu)識(shí)別中,將表格結(jié)構(gòu)識(shí)別建模為圖結(jié)點(diǎn)分類,并加入反饋調(diào)節(jié)網(wǎng)絡(luò)及條件隨機(jī)場,對(duì)圖結(jié)點(diǎn)分類結(jié)果進(jìn)行基于表格整體結(jié)構(gòu)合理性的修正,提高了識(shí)別準(zhǔn)確率。