一種文件檢測方法及其裝置

基本信息

申請?zhí)?/td> CN201711344713.X 申請日 -
公開(公告)號 CN107908602A 公開(公告)日 2018-04-13
申請公布號 CN107908602A 申請公布日 2018-04-13
分類號 G06F17/22;G06Q10/10 分類 計算;推算;計數(shù);
發(fā)明人 王爽;鄭錦光;張夢迪;吳珂皓;張白駒;社會芳 申請(專利權(quán))人 北京文因互聯(lián)科技有限公司
代理機構(gòu) 北京中企鴻陽知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 郭鴻雁
地址 100016 北京市朝陽區(qū)向軍北里28號院圣世一品B5-6A
法律狀態(tài) -

摘要

摘要 一種文件檢測方法,包括:S1:通過解析二進制指令,將PDF文件的內(nèi)容解析為帶標記的文本、表格和圖片,同時記錄文字的字體和字號信息,表格和圖片的位置信息;S2:根據(jù)解析后的文檔的字號大小得到相應(yīng)章節(jié)的層級,根據(jù)層級的高低配置章節(jié)的層級根節(jié)點及子節(jié)點建立文檔章節(jié)樹;S3:根據(jù)監(jiān)管機構(gòu)要求披露的信息建立規(guī)則執(zhí)行庫;S4:根據(jù)監(jiān)管機構(gòu)要求披露的信息的章節(jié)建立根節(jié)點及子節(jié)點,并根據(jù)相應(yīng)節(jié)點下的規(guī)則執(zhí)行庫的信息建立文檔規(guī)則樹;S5:將文檔規(guī)則樹與文檔章節(jié)樹進行匹配,對文本內(nèi)容按照相應(yīng)的規(guī)則樹下的根節(jié)點及子節(jié)點的規(guī)則執(zhí)行庫進行比對;S6:輸出文檔中與規(guī)則執(zhí)行庫不符的內(nèi)容。