一種文件檢測方法及其裝置
基本信息
申請?zhí)?/td> | CN201711344713.X | 申請日 | - |
公開(公告)號 | CN107908602A | 公開(公告)日 | 2018-04-13 |
申請公布號 | CN107908602A | 申請公布日 | 2018-04-13 |
分類號 | G06F17/22;G06Q10/10 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 王爽;鄭錦光;張夢迪;吳珂皓;張白駒;社會芳 | 申請(專利權(quán))人 | 北京文因互聯(lián)科技有限公司 |
代理機構(gòu) | 北京中企鴻陽知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 郭鴻雁 |
地址 | 100016 北京市朝陽區(qū)向軍北里28號院圣世一品B5-6A | ||
法律狀態(tài) | - |
摘要
摘要 | 一種文件檢測方法,包括:S1:通過解析二進制指令,將PDF文件的內(nèi)容解析為帶標記的文本、表格和圖片,同時記錄文字的字體和字號信息,表格和圖片的位置信息;S2:根據(jù)解析后的文檔的字號大小得到相應(yīng)章節(jié)的層級,根據(jù)層級的高低配置章節(jié)的層級根節(jié)點及子節(jié)點建立文檔章節(jié)樹;S3:根據(jù)監(jiān)管機構(gòu)要求披露的信息建立規(guī)則執(zhí)行庫;S4:根據(jù)監(jiān)管機構(gòu)要求披露的信息的章節(jié)建立根節(jié)點及子節(jié)點,并根據(jù)相應(yīng)節(jié)點下的規(guī)則執(zhí)行庫的信息建立文檔規(guī)則樹;S5:將文檔規(guī)則樹與文檔章節(jié)樹進行匹配,對文本內(nèi)容按照相應(yīng)的規(guī)則樹下的根節(jié)點及子節(jié)點的規(guī)則執(zhí)行庫進行比對;S6:輸出文檔中與規(guī)則執(zhí)行庫不符的內(nèi)容。 |
