一種基于OCR的文檔版本管理方法和系統(tǒng)
基本信息
申請?zhí)?/td> | CN201910536932.0 | 申請日 | - |
公開(公告)號 | CN112115111A | 公開(公告)日 | 2020-12-22 |
申請公布號 | CN112115111A | 申請公布日 | 2020-12-22 |
分類號 | G06F16/18(2019.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 宋嘉琪;張懷朋;于航;張智俊;郭慶河 | 申請(專利權(quán))人 | 上海懷若智能科技有限公司 |
代理機(jī)構(gòu) | 上海宏京知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 上海懷若智能科技有限公司 |
地址 | 200439上海市寶山區(qū)新二路999弄148號2層823室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供一種基于OCR的文檔版本管理方法和系統(tǒng),涉及光學(xué)文本識別與自然語言處理領(lǐng)域,所述方法包括步驟1:對圖片類文檔進(jìn)行OCR文字識別后得到純文本文檔;步驟2:對純文本文檔進(jìn)行文本結(jié)構(gòu)還原;步驟3:對文本結(jié)構(gòu)還原后的純文本文檔進(jìn)行對比,得到文檔對比結(jié)果;步驟4:對文檔對比結(jié)果進(jìn)行結(jié)果后處理,并進(jìn)行文檔對比結(jié)果展示。本發(fā)明解決了現(xiàn)有文檔版本管理系統(tǒng)只能基于純文本文檔進(jìn)行對比,無法對比圖片類文檔問題;并且解決了現(xiàn)有的文檔版本管理系統(tǒng)在復(fù)雜結(jié)構(gòu)文本文檔進(jìn)行對比時,統(tǒng)一視為純文本文檔進(jìn)行對比,在一定程度上導(dǎo)致文本對比精度下降,并且存在展示困難的問題。?? |
