一種基于OCR的文檔版本管理方法和系統(tǒng)

基本信息

申請?zhí)?/td> CN201910536932.0 申請日 -
公開(公告)號 CN112115111A 公開(公告)日 2020-12-22
申請公布號 CN112115111A 申請公布日 2020-12-22
分類號 G06F16/18(2019.01)I 分類 計算;推算;計數(shù);
發(fā)明人 宋嘉琪;張懷朋;于航;張智俊;郭慶河 申請(專利權(quán))人 上海懷若智能科技有限公司
代理機(jī)構(gòu) 上海宏京知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 上海懷若智能科技有限公司
地址 200439上海市寶山區(qū)新二路999弄148號2層823室
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種基于OCR的文檔版本管理方法和系統(tǒng),涉及光學(xué)文本識別與自然語言處理領(lǐng)域,所述方法包括步驟1:對圖片類文檔進(jìn)行OCR文字識別后得到純文本文檔;步驟2:對純文本文檔進(jìn)行文本結(jié)構(gòu)還原;步驟3:對文本結(jié)構(gòu)還原后的純文本文檔進(jìn)行對比,得到文檔對比結(jié)果;步驟4:對文檔對比結(jié)果進(jìn)行結(jié)果后處理,并進(jìn)行文檔對比結(jié)果展示。本發(fā)明解決了現(xiàn)有文檔版本管理系統(tǒng)只能基于純文本文檔進(jìn)行對比,無法對比圖片類文檔問題;并且解決了現(xiàn)有的文檔版本管理系統(tǒng)在復(fù)雜結(jié)構(gòu)文本文檔進(jìn)行對比時,統(tǒng)一視為純文本文檔進(jìn)行對比,在一定程度上導(dǎo)致文本對比精度下降,并且存在展示困難的問題。??